디지털 뉴딜로 생태계 조성, 반자동화 툴로 인력 및 비용 절감 기대

[컴퓨터월드] 인공지능(AI)의 발전과 함께 ‘데이터 라벨링’ 산업이 떠오르고 있다. 데이터 라벨링은 AI 학습데이터를 만들기 위해 원천데이터에 값(라벨)을 붙이는 작업이다. 사람이 일일이 데이터에 라벨을 붙여야 해 ‘AI 눈알 붙이기’라고 불리기도 했다. IT업계의 막노동으로 인식되는 데이터 라벨링 역시 다른 AI 기술들과 마찬가지로 자동화 수순을 밟고 있다. 최근 들어 업체들이 반자동화 툴을 만들어 인력과 비용 절감을 꾀하고 있다.

이 같은 데이터 라벨링이 정부의 ‘디지털 뉴딜’ 정책으로 또 한 번 관심이 모아지고 있다. 디지털 뉴딜 정책의 핵심이라 할 수 있는 AI 산업 육성을 위해 데이터 라벨링은 반드시 필요한 작업이기 때문이다. 실제 올 하반기에만 2,925억 원이라는 예산이 투입될 ‘AI 학습용 데이터 구축’에도 이 데이터 라벨링의 수요가 상당할 것으로 보인다. 인공지능에 없어서는 안 될 데이터 라벨링 시장에 대해 알아봤다.


과거 드라마에서 우리는 사람이 직접 인형에 눈알을 붙이는 장면을 심심찮게 보아왔다. 많은 시간과 수고가 들어가는 노동집약적인 일로 가난한 사람, 기술이 없는 사람들이 하는 일로 묘사되곤 했다. 그러나 이 일은 매우 중요한 일임에 틀림없다. 많은 시간과 수고가 들어가지만 반드시 해야 할 중요한 일, 그러면서도 자동화하기 힘든 일이 바로 인형에 눈알을 붙이는 일이었다.

인공지능에도 인형에 눈알을 붙이는 것과 같은 일이 존재한다. 바로 IT업계의 막노동으로 인식되는 데이터 라벨링 작업이다. 데이터 라벨링은 AI 학습데이터를 만들기 위해 원천데이터에 값(라벨)을 붙이는 작업이다. 이 일은 자동화가 어려워 사람이 일일이 데이터에 라벨을 붙여야 한다. IT 종사자들이 데이터 라벨링 작업을 ‘AI 눈알 붙이기’라고 부르는 이유이다.


데이터 라벨링은 ‘AI 눈알 붙이기’

데이터 라벨링은 AI와 함께 주목받기 시작했다. 딥러닝 활용에 필수적이기 때문이다. 딥러닝은 대량의 데이터로 학습을 진행하며, 학습 모델은 정답을 맞힐 수 있는 방향으로 진화하는 과정을 거친다. 학습에 사용되는 데이터에는 미리 데이터 값이 매겨져야 한다. 데이터 라벨링은 이러한 정답 데이터 값을 구축하기 위한 작업인 셈이다.

한 예로 AI 학습 모델은 학생이 성적을 올리기 위해 문제를 풀고 답을 확인하며 오답노트를 작성하는 것과 같은 똑같은 과정을 거친다. 학생에게는 문제를 풀었던 답과 실제 정답지가 함께 주어져야만 반복적으로 학습하고 성적을 올릴 수 있다. 이처럼 AI 학습 모델의 정확도를 높이고 고도화하기 위한 정답지가 바로 ‘학습 데이터’라 볼 수 있다.

이 같은 ‘학습 데이터’를 구축하기 위한 과정인 데이터 라벨링은 컴퓨터가 알아들을 수 있도록 비정형 데이터를 알기 쉽게 변형하거나, 가공하는 과정을 뜻한다. 사람은 자동차가 찍혀있는 사진을 보면, 사진 속 사물이 자동차라는 사실을 쉽게 파악할 수 있다. 하지만 컴퓨터는 이를 자동차로 인식하지 못한다. 그렇기에 컴퓨터가 인식할 수 있도록 사진 위에 자동차의 위치와 크기를 입력하고, 그 위치와 크기 안에 있는 이미지를 ‘자동차’라고 표시해주는 작업이 필요하다. 이러한 일련의 과정이 바로 데이터 라벨링이다.

사실 데이터 라벨링은 새로운 개념이 아니다. 이미 오래 전부터 존재해왔다. 최근 들어 특히 관심의 초점이 된 것은 그동안 수작업으로 해왔던 일을 툴을 통해 할 수 있게 됐다는 점이다. 물론 아직도 자동화보다는 반 자동화 수준이라는 것이 일반적인 통설이다.

김현수 슈퍼브에이아이 대표는 “과거의 데이터 라벨링 작업은 사람이 직접 사물이 위치한 곳에 사각형 경계선을 긋는 형태로 진행됐다면, 현재에는 비(非) 박스 형태 즉, 3D 데이터에 맞춘 3차원 가공도 진행되고 있다. 앞으로 데이터 가공은 보다 복잡하고 정교해질 것”이라고 설명했다.

이어 그는 “최근 데이터 라벨링을 ‘인형 눈알 붙이기’와 같다고 말하는 데, 이것은 과거 사람이 직접 라벨링 작업을 했기 때문에 나왔던 말”이라며, “현재는 라벨링 자동화 툴을 통해 데이터 라벨링을 진행하기 때문에 ‘인형 눈알 붙이는 기계’를 사용해 인간이 작업하는 것과 같다”고 말했다.

데이터 라벨링 역시 다른 AI 기술들과 마찬가지로 자동화 수순을 밟고 있다. 수작업 기반으로 라벨링 작업을 할 경우 많은 데이터를 감당하기 힘들고 시간과 비용이 많이 들며, 휴먼 에러도 발생할 수 있다.

금효영 테스트웍스 AI사업본부 이사는 “비정형 데이터를 툴에 적용해 라벨링을 하는 작업까지 자동화 되고 있으며, 이전의 설계 단계와 이후의 검수 단계에 인력을 투입해 피드백을 얻고, 검수한 후 개선점을 찾는 방향으로 나아가고 있다”고 말했다.


자동화 툴로 라벨링 고도화

“좋은 성능을 가진 AI는 데이터 가공 프로세스 설계와 원천데이터 검수에 있다. 맛집과 그렇지 않은 식당의 차이가 요리비법에 있는 것과 같은 이치이다. AI 역시 제대로 설계되고 컨설팅을 거친 학습 데이터가 중요하다. 음식에서 식재료 배합이 중요하듯 원천 데이터가 라벨링 과정을 거쳤을 때 좋은 학습 데이터를 생성해냈는지, 검수 단계도 중요하다.”

강현수 코난 테크놀로지 AI그룹장은 데이터 가공 프로세스의 중요성에 대해 이같이 설명했다.

▲ 동영상 콘텐츠에서 학습데이터를 만들기 위한 데이터 가공 과정 (출처: 코난 테크놀로지)

데이터 라벨링 반자동화 툴을 사용해 데이터를 가공하는 것에 대한 표준은 아직 없는 상태이다. 이렇다보니 업체별로 데이터 가공에 대한 프로세스에서 차이를 보이고 있다. 다만, 공통적으로 거치는 단계가 있다. ▲데이터 가공 컨설팅 협의 ▲데이터 확보 및 구축 ▲데이터 라벨링 수행 ▲검수 ▲테스트 ▲재학습 ▲최종 검수 등의 단계가 바로 그것이다.

데이터 가공의 첫 걸음은 바로 데이터 가공 컨설팅 협의다. 이 단계에서는 고객의 요구사항은 물론 가공 단계에서 모델 학습을 병행할 것인지 등 많은 부분을 협의해야 한다. 축구 경기를 뛰고 있는 선수에 대한 이미지 데이터를 예로 들면, 컨설팅 협의에는 선수에 대한 데이터외에 관중의 처리 방법, 잔디 처리 방법, 주심과 부심 처리 방법 등이 포함되어야 한다.

금효영 테스트웍스 AI사업본부 이사는 “사람들이 데이터 가공이 상당 수준 자동화가 됐다고 하지만, 자동화 기술이 데이터 내에서 얼마나 많은 객체를 탐지할 수 있는지도 중요하다”며, “설계 단계에서 데이터를 가이드에 맞추는 것은 AI 모델 성능과 직결된다”고 말했다.

다음 단계는 데이터 확보와 구축이다. 데이터 가공을 위해 반드시 필요한 것은 그 재료인 데이터다. 데이터를 확보하는 방법은 업체별, 상황별로 다르지만, 고객으로부터 데이터 가공에 대한 요구를 받았을 때에는 고객의 데이터로 가공작업을 수행한다. 이 단계에서의 핵심은 원천 데이터에 대한 검수작업이다. 원천 데이터의 품질이 높아야 가공절차를 거친 후에도 높은 품질을 보장할 수 있기 때문이다. 원천 데이터에서 가공할만한 품질의 데이터를 추출하는 것이 중요하다.

다음은 컨설팅 단계에서 고객사와의 협의 내용에 따라 라벨링을 수행한다. 라벨링 작업의 대상은 검수 작업이 끝난 원천 데이터다. 라벨링은 크라우드 소싱 방법과 직원을 통해 수행하는 방법 등 2가지가 있다.

크라우드 소싱은 외주를 맡기는 방식이다. 많은 기업들이 클라우드 소싱을 위해 경력단절여성이나 장애인, 은퇴한 시니어 등 사회취약계층을 대상으로 데이터 라벨링 전문 교육을 진행하기도 한다. 일반적으로 데이터 라벨링 혹은 데이터 가공 전문 기업이 자체 제작한 툴을 사용할 수 있도록 교육을 진행한다.

▲ 크라우드 소싱 형태의 라벨링 작업 보상 (출처: 테스트웍스)

1차적으로 라벨링 작업이 완료됐을 때 데이터 매니저와 관리자는 검수를 하게 된다. 검수를 통해 애매했던 기준을 재정의하거나, 다시 데이터를 가공할 지에 대한 여부를 결정한다. 검수자는 라벨링 작업자 보다 전문적인 지식을 갖추어야 한다.

1차 단계에서 가공된 데이터는 고객의 AI 모델에 적용되기도 한다. 이 역시 컨설팅 단계에서 협의를 통해 진행된다. 평균적으로 가공량의 5~10%가 마무리 되면 고객사에 전달돼 학습에 이용되는 것으로 알려지고 있다.

크라우드 소싱이 편리하기는 하지만 단점 역시 존재한다. 바로 보안 문제와 데이터 검수 비용이 많이 든다는 점이다.

이에 대해 금효영 테스트웍스 AI 사업본부 이사는 “보안 문제가 발생하지 않도록 민감한 개인정보가 포함된 의료데이터, 금융데이터 등은 크라우드 소싱을 피해야 하며, 반자동화 툴을 사용하더라도 마스킹을 한 상태로 라벨링 작업을 해야 한다”고 강조했다.

크라우드 소싱의 단점은 데이터 품질도 보장할 수 없다는 점이다. 크라우드 소싱으로 라벨링 작업을 진행하는 사람은 데이터 매니저와 대면하지 않는다. 라벨링된 데이터의 품질을 100% 보장할 수 없다는 것이다. 그렇기에 데이터 검수에 들어가는 비용이 많을 수밖에 없다.

다음으로 모델 학습을 통해 나타난 여러 개선점들을 다시 한 번 데이터 설계에 반영해 데이터를 전체적으로 모델 개발 성능에 맞춰 설계하고 만드는 작업을 한다. 검수 작업을 담당하는 변정 코난 테크놀로지 AI팀 연구원은 “이 같은 모든 프로세스는 유동적으로 수행되며, 고객의 요구사항은 바로 반영된다. 데이터 가공 작업은 계속 순환하며, 데이터 모델 개발과 함께 병행한다”고 말했다.

라벨링 작업은 데이터 종류에 따라 방법도 다르다. 소리데이터의 경우 녹음실에서 순수하게 소리데이터만을 추출하기도 한다.

영상데이터의 경우에는 저작권의 문제가 없는 데이터를 수집한 후, 데이터의 영상 클립을 추출할 것인지, 장면 구간을 추출할 것인지, 프레임 이미지를 추출할 것인지 선택한 후 목적에 맞게 데이터를 정제한다. 이후 대표 이미지를 선정한 후 프레임별로 라벨링 작업을 수행한다.

텍스트 데이터의 라벨링 작업은 형태소를 분석해서 태그를 달아주는 형식이 주를 이루고 있다. 금효영 테스트웍스 AI사업본부 이사는 “최근 텍스트 데이터 라벨링에는 OCR 기술이 접목됐다. 형태소에 라벨링을 할 수 있는 툴도 많이 사용되고 있다”면서, “소리데이터의 경우 소리 음파에 따라 자르거나, 추출하는 기능이 많이 사용된다. 이런 방식을 통해 테스트웍스는 AI 학습데이터를 만들고 있으며, 각 분야 전문가들과 협업을 하거나 내부 전문 가공인력을 통해 라벨링 작업을 진행하고 있다”고 설명했다.


겉보기엔 쉬워도 실상은 어려워

데이터 라벨링은 툴을 사용하기 때문에 겉보기엔 쉬워 보일 수 있다. 하지만 실상은 그렇지 않다. 데이터 라벨링이 어려운 이유는 ▲데이터 수집의 어려움 ▲데이터 품질 확보 ▲작업 인력 관리 및 양성 등 3가지다.

먼저, 대량의 데이터를 수집하기 어렵다는 점이다. 원천데이터를 어떠한 경로로 수집할 지에 대한 방안이 마련돼야 한다. 또한 대량의 데이터를 수집할 수 있는지도 중요하다. 딥러닝은 대량의 데이터를 필요로 하기 때문에, 이를 위해 라벨링 작업을 진행할 원천데이터가 많아야 한다. 원천데이터를 가공하게 되면 라벨링된 데이터의 수가 줄어든다. 중복 학습이 됐거나, 불필요한 데이터를 제외하고 작업을 진행하기 때문이다. 그렇기에 대량의 원천 데이터 확보가 중요하다.

대량의 원천데이터를 수집하기 위해 반드시 고려해야 할 부분이 있다. 바로 저작권 문제다. 코난 테크놀로지는 국가 인공지능 프로젝트인 ‘VTT(Video Turing Test) 세부 비디오 이해를 위한 데이터 수집 및 보정 자동화 시스템 개발’ 사업을 주관하고 있는데, tvN의 드라마 ‘또오해영’의 영상을 활용하는 과정에서 저작권 문제를 해결하기 위해 드라마 제작사와 협의를 거쳤다고 한다. 이후 영상의 장면과 샷을 구간으로 분할하고, 라벨링하고 있다. 사용 중인 데이터의 종류는 클립 영상, 이미지, 소리, 자막 데이터다.

두 번째로는 라벨링된 데이터의 품질을 보장하기 위한 과정이 어렵다는 점이다. 실제로 라벨링 작업 시 ‘어떻게 라벨을 부착할 것인가’에 대한 기준이 없다면, 품질이 낮은 데이터를 얻게 된다. 그만큼 데이터 라벨링에서는 명확한 기준을 정립하는 것이 중요하다는 것이다. 특히, 여러 변수들이 존재하기 때문에 보다 상세한 기준이 필요하다.

이 문제를 해결하기 위해서는 데이터 수요 기업과 함께 작성한 데이터 가공에 대한 기준이 명확한 지에 대해 확인해야 한다. 가령, 자동차를 라벨링하기 위해 무엇을 자동차라고 규정할 것인지, 자동차의 어느 부분을 표시할 것인지, 자동차가 이미지 내에서 가려져 있는 경우에는 어떻게 처리할 것인지 등에 대한 명확한 가이드라인을 수립해야 한다는 것이다.

김현수 슈퍼브에이아이 대표는 “명확한 가이드라인은 고객이 제공할 서비스에 따라 달라질 수 있다. AI 기술을 이용해 어떤 서비스를 할 것인지, 서비스 개발을 하겠다는 고객의 계획에 맞춰 성능 향상을 위해 고객과 함께 객체 이름, 데이터 가공 형식을 결정하고, 이것을 상세하게 가이드로 만든다. 이렇게 만들어진 가이드를 기반으로 학습데이터를 만들고 있다”고 설명했다.

마지막으로 작업 인력을 관리하고 양성하는 과정도 중요하다. 이미지 하나에 여러 개의 객체가 있다면, 라벨링을 하기 위해서는 명확한 기준으로 객체의 영역을 분리해줘야 한다. 그 후에 라벨링 작업을 수행해야 한다. 이 같은 작업을 수행할 인력을 관리하고 양성하는 과정 역시 만만치 않다.


디지털 뉴딜로 생태계 조성

국내에서는 이제 데이터 라벨링 산업의 생태계가 조성되고 시장이 열리기 시작하고 있다. 이미 미국, 유럽 등에서는 AI 기술 발전을 위해 정부와 민간의 협업·투자로 대규모의 데이터셋을 공개했다. 이들 국가는 데이터 라벨링을 비롯해 데이터 가공 기술이 적용된 학습데이터를 민간에 제공해 AI 모델 개발과 성능 개선, 다양한 서비스 개발에 이용할 수 있도록 돕고 있다.

실제 미국 정부는 딥러닝의 대모라고 불리는 페이페이-리 교수가 2009년 ‘이미지넷’이라는 데이터 공유 사이트를 만들자는 제안을 받아들이기도 했다. 이렇게 만들어진 이미지넷은 미국의 딥러닝을 발전시켰다는 평가를 받고 있다. 학습데이터셋을 구축하기 위해서는 데이터 라벨링을 포함한 가공 기술이 함께 이뤄져야 한다는 점을 인식하고 이에 대응했던 것이다.

AI 산업이 선순환 생태계를 조성하기 위해서는 구글의 ‘유튜브 8M’과 같은 AI 학습데이터 허브가 구축돼야 한다.

하지만 국내에서는 AI 학습데이터 허브 구축 사업이 늦었다. 2018년에 한국정보화진흥원(NIA)에서 ‘AI허브’라는 이름으로 데이터셋 구축 사업을 시작했다. 이 사업은 현재 2차 사업이 진행 중에 있다. ‘AI 학습용 데이터 구축 사업’의 목적은 정부 지원의 범용 데이터셋을 공개해 민간 기업을 중심으로 생태계를 구축한다는 데 있다.

정부의 ‘AI 학습용 데이터 구축 사업’이 시작된 이유도 외국과는 달랐다. AI 기술 발전을 위해 정부와 민간의 협업·투자라기보다는 국내 중소벤처기업들의 어려움을 해결하자는 차원에서 이루어졌다고 볼 수 있다. AI 학습용 데이터 구축에 많은 시간과 비용을 들이고 있고, 원천데이터 확보에 어려움을 겪고 있는 중소기업들을 지원하자는 취지가 강했던 것이다.

정부는 최근 코로나19에 따른 경기불황을 해소하고자 한국형 ‘디지털 뉴딜’ 정책에 ‘AI 학습용 데이터 구축 사업’을 포함시켰다. NIA가 주관하는 이 사업의 예산은 2,925억 원 규모다. 사업의 과제는 자연어, 헬스케어, 자율주행, 농축수산, 기후환경, 미디어, 안전, 기타 등 8개의 분야로 이뤄졌으며, 과제의 수는 43개의 그룹과제를 포함해 총 150개다.

▲ AI 학습용 데이터 구축 2차 사업 주제지정 과제 목록 및 예산규모(단위: 억 원)(출처: NIA)

관련 기업들은 이제 열리기 시작한 데이터 라벨링 산업이 ‘디지털뉴딜’로 인해 크게 성장할 것으로 보고 정부의 이 같은 정책을 환영하고 있다.

시장 조사 기업인 커그니리티카는 다양한 형태로 발전하고 있는 전 세계 데이터 라벨링 시장이 2018년에 5,835억 원을 넘어섰고, 향후 2023년에는 1조 4,000억 원에 이를 것으로 전망했다. 그랜드뷰리서치의 보고서에 따르면, AI 성장과 더불어 세계 데이터 라벨링 툴 시장 규모도 지난해 전 세계 기준 4,700억 원에 달했으며, 수익 규모는 8,500억 원이었다. 이 시장은 2020년부터 2027년까지 년평균 26.9% 증가해 2027년에 약 3조 원 규모로 확대될 것으로 예측됐다.

국내 시장 역시 ‘디지털뉴딜’의 영향으로 큰 폭 성장이 기대된다. 데이터 플랫폼 및 라벨링 전문 기업들은 ‘디지털뉴딜’ 정책에 따라 단기간에 큰 폭 성장이 기대되고는 있지만 그 이후를 생각해야 한다는 입장을 보이고 있다. 디지털 뉴딜로 인한 단기적인 성과에 만족해서는 안 된다는 것이다.

김현수 슈퍼브에이아이 대표는 “이번 정부의 ‘디지털뉴딜’ 정책을 통해 매출 확대가 기대된다”며, “하지만 단순히 눈앞에 있는 매출 확대에만 전념하면, 정책이 끝난 뒤 자생력을 잃어버릴 수 있기 때문에 생태계 구축이 우선”이라고 강조했다.

데이터 라벨링이 사용되는 산업군은 자율주행, 건설, 제조, 문화 등 다양하다. 특히 자율주행분야에서 데이터 라벨링은 매우 중요하다. 자율주행의 경우 자동차 센서를 통해 교통 요소 원천데이터가 수집된다. 그렇게 모인 원천데이터를 반자동화 툴을 사용해 라벨링 작업을 한다. 이후 검수 단계를 거친 후 모델 학습도 병행하며, 피드백을 주고 다시 받기도 한다.

김현수 슈퍼브에이아이 대표는 “도로의 상태에 대해 라벨링 작업을 진행할 경우 도로 상의 침몰 형태가 단순해 보이지만 굉장히 많은 형태와 분류가 존재한다”며, “모양에 대한 파손 정도를 분류하고 확인하는 것은 전문가들만 알 수 있다. 데이터 라벨러는 알 수 없다. 데이터 라벨링 작업을 시작하기 앞서 컨설팅을 진행해 전문가들과 협업해야 하는 이유다”라고 설명했다.

데이터 라벨링 산업은 정부의 ‘디지털뉴딜’을 기회로 활성화 될 조짐을 보이고 있다. 시장 활성화와 함께 이 시장에 참여하는 업체도 늘어나고 있다. 창업한지 1~2년에 불과한 중소·벤처기업들이 라벨링 반자동화 툴을 개발해 비즈니스에 활용하는 사례도 나타나고 있다.

현재 ‘코난 테크놀로지’, ‘테스트웍스’, ‘슈퍼브에이아이’, ‘마인즈랩’ 등이 데이터 라벨링 반자동화 툴을 내세워 데이터 라벨링 시장에 참여하고 있다.


반자동화 툴 활용한 기업 전략

데이터 라벨링을 손쉽게 할 수 있도록 반자동화 툴을 만드는 기업들이 있다. 이들 기업은 ‘디지털뉴딜’ 정책으로 특히 주목받고 있다.

데이터 라벨링 산업 생태계를 조성하기 위해 노력하고 있는 ‘코난 테크놀로지’, ‘테스트웍스’, ‘슈퍼브에이아이’, ‘마인즈랩’ 등 4곳의 반자동화 툴 및 전략과 각 기업들의 데이터 라벨링 절차에 대해서도 알아봤다.

 

데이터 구축부터 분석까지 ‘스위트’로 해결한다

슈퍼브에이아이는 데이터 라벨링 전문 기업으로 출발해 데이터 플랫폼으로 사업 영역을 확장했다. 이를 위해 데이터 플랫폼 솔루션인 ‘스위트(Suite)’를 개발했다. ‘스위트’는 머신러닝 데이터를 구축, 분석, 관리하기 위한 플랫폼으로 AI 개발 과정에서 협업을 지원하는 생산성 도구다.

이 솔루션은 방대한 데이터의 가공, 데이터 시각화, 분석 기능을 제공하는 데 초점이 맞춰졌다. 또한 AI 개발에 참여하는 데이터 라벨러, 프로젝트 관리자, AI 리서치 엔지니어들이 서로 데이터와 관련한 내용을 공유하고, 이슈를 추적하며 편리하게 소통할 수 있는 UI/UX와 커뮤니케이션 도구들도 포함하고 있다.

시장 조사 기업인 커그니리티카에 따르면, 데이터 구축 작업은 전체 AI 개발 과정 중 약 80%를 차지하고 있다. 슈퍼브에이아이는 전체 AI 개발 과정 중 약 80%를 차지하는 데이터 구축 작업을 ‘스위트’로 해결할 수 있다는 점을 강조한다. ‘스위트’에는 오토라벨링 기능이 탑재돼 사람이 수작업으로 일일이 진행해야 했던 라벨링 작업을 1/10 수준으로 줄여준다.

김현수 슈퍼브에이아이 대표는 “슈퍼브에이아이는 AI로 머신러닝 앞단의 데이터 라벨링을 반자동화 하는 기업이다. 머신러닝 개발에 필요한 데이터 정제 방식은 데이터 라벨러들이 데이터를 이메일 첨부파일로 받아 툴로 라벨링해서 보내주는 등 대부분 수작업으로 이뤄진다”며, “이 경우 틀리면 수정해야 하고 계속 업데이트가 필요해 불편했다. 이를 반자동으로 데이터 라벨링은 물론 품질 관리, 분석까지 가능한 플랫폼을 개발했고, 이것이 바로 ‘스위트 플랫폼’”이라고 말했다.

김 대표는 소프트웨어 개발과 데이터 라벨링은 여러 면에서 비슷하다고 설명했다. 김 대표는 “지금은 개발자 협업 도구나 관리도구가 굉장히 많아 국내외 개발자들이 효율적으로 소통하며 함께 개발에 참여하고 있지만 10년 전만 해도 아주 불편하게 일했다. 머신러닝 개발에도 비슷한 흐름이 나타나게 된 것”이라고 설명했다.

김대표에 따르면 ‘스위트 플랫폼’을 통해 데이터 라벨링을 진행할 경우 데이터마다 약간의 차이는 있지만, 최대 10배 빠르다. 스위트를 이용하면 데이터 구축에 참여하는 다양한 이해관계자의 어려움을 해결할 수 있다. 재택근무를 하는 라벨러가 있다면 다운로드 기능을 막아 유출 우려를 없애야 하고, 반대로 분석이나 관리하는 사람에게는 열려있어야 하는데 이런 문제를 플랫폼으로 개발된 ‘스위트’가 해결해준다.

▲ 슈퍼브에이아이의 스위트 오토라벨링 기능 (출처: 슈퍼브에이아이)

‘스위트’ 플랫폼의 주요 화면은 ▲프로젝트 생성 ▲프로젝트 관리, 대시보드 ▲데이터 저장, 라벨 필터 ▲데이터 통계분석 ▲이슈 트래킹 ▲자동화 등으로 구성돼있다. 먼저 프로젝트 생성 화면에서는 관리자가 몇 번만 조작해도 데이터 구축 프로젝트를 생성할 수 있고 관리자가 데이터 라벨링 작업을 위한 기본 조건, 즉 컨설팅 때 이뤄졌던 사항들을 설정하면 모든 라벨러가 작업을 기준에 맞춰 진행하게 된다.

프로젝트 대시보드는 여러 개의 프로젝트를 한 눈에 확인할 수 있는 통합 대시보드 기능으로, 작업자들에게 할당했던 라벨링 작업이 얼마나 진행됐는지, 진행도를 확인할 수 있다. 프로젝트 전반적인 진행 상황도 시각적으로 확인할 수 있다.

다음으로는 데이터 저장과 라벨 필터다. 한번 작업한 데이터는 저장소에 계속 저장할 수 있고, 속성별로 관리해 필요에 따라 지속적으로 활용할 수 있게 저장한다. AI를 개발하기 위해 반복 실험을 해야 하는데, 이때 데이터 속성에 기반해 필터링을 한다. 이로써 필요한 데이터를 즉각 활용할 수 있게 된다.

다음으로 이슈 트래킹은 AI 개발자, 프로젝트 관리자, 라벨러 등 작업을 수행하는 모든 사람들이 같은 데이터와 같은 화면을 보고 작업에 대한 의견을 교환할 수 있는 기능이다. 마지막으로 자동화는 ‘오토라벨링’ 기능이라고 말할 수 있다. 수작업으로 라벨링 하기 전에 AI가 라벨링 영역 등을 제안해 사람들의 작업 시간을 줄여준다. 이를 활용하면 최대 10배 효율로 데이터 라벨링 작업을 수행할 수 있다.

“회사설립 2년만에 손익분기점 넘겼다…플랫폼 고도화에 총력”
김현수 슈퍼브에이아이 대표

▲ 김현수 슈퍼브에이아이 대표

Q. 데이터 라벨링 비즈니스를 처음 시작하게 된 계기는.

A. 나를 포함한 이정권 CTO, 차문수 공동 창업자는 SKT-브레인에서 함께 리서치 엔지니어로 근무하면서 자율주행차, 게임 AI 등 연구 개발을 진행했었다. 연구를 진행하던 중 연구에 쓰는 시간보다 데이터를 구축하고 가공하는데, 오랜 시간 소요됐던 것을 깨달았다. 이로 인해 효율적인 연구가 어려웠다. 이런 문제를 해결해 보고자 다른 직장 동료였던 이현동 공동 창업자를 포함해 5명이 함께 전 세계 AI 연구자들이 효율적으로 연구할 수 있도록 데이터 구축, 가공 전문 회사를 창립했다.

Q. 플랫폼 기업으로의 전환에 걸림돌은.

A. 가장 큰 허들은 2가지였다. 당장의 매출을 포기해야 했던 것과 자동화 솔루션 개발의 어려움이었다. 기존의 데이터 라벨링 수요가 꾸준했기 때문에 전환하는 과도기에는 당장의 매출을 포기해야만 했다. 아무래도 직원들을 책임지는 CEO의 입장에서는 이 부분이 상당히 큰 부담으로 다가왔었다.

또 다른 허들은 솔루션의 개발 난이도가 매우 높았다는 점이다, 슈퍼브에이아이의 데이터 라벨링 솔루션은 국내에서 탄탄한 입지를 갖고 있었다. 솔루션 기능 중에 대규모의 데이터 용량을 여러 사용자가 동시에 접속해 작업해야하는 부분을 개발하는 것이 가장 힘들었다. 이 같은 다양한 기능을 자동화를 하려고 지금도 꾸준히 플랫폼 고도화에 집중하고 있다. 이렇게 플랫폼 기업으로 성공적으로 전환하면서, 첫해에 손익분기점을 넘어 기뻐하기도 했다.

Q. 정부의 ‘디지털 뉴딜’이 회사 성장에 도움을 줄 것으로 보이는데.

A. ‘디지털 뉴딜’ 정책과 관련해서 매출을 크게 올리려고 한다면 물론 가능하다. 하지만 지금 우리의 목표는 플랫폼 고도화다. ‘디지털 뉴딜’이라는 좋은 기회를 매출 성장에만 집중하게 된다면, 정책이 종료됐을 때 자생이 어려울 것이라고 생각한다. 이번 ‘디지털 뉴딜’이라는 기회를 토대로 생태계 전반에 활성화 바람을 불어넣고 육성에 집중한다면, 그 부분이 향후에는 슈퍼브에이아이의 비즈니스에 거름이 될 것이라고 확신한다.

Q. 플랫폼 사례에 대해 소개해달라.

A. 해외 사례 1개와 국내 사례 1개를 말한다면, 우선 해외의 경우 ‘민디 서포트’라는 우크라이나 회사를 소개할 수 있다. ‘민디 서포트’는 2,000명 이상의 라벨러를 보유한 대규모 데이터 라벨링 서비스 기업으로 규모 있는 회사다. 하지만 라벨링 도구가 없어 고객사에서 제공하는 라벨링 도구로 사업을 수행해왔었다. 데이터 가공 서비스를 제공하면서도, 가공 기업이라기 보다는 데이터 가공 인력 제공 기업에 가까웠다고 볼 수 있었다.

지난해 이 기업에 ‘슈퍼브에이아이 스위트’를 제공했다. 그 결과 ‘스위트’를 통해 자체 데이터 라벨링 용역 사업을 수행할 수 있게 됐고, 이를 통해 이윤 극대화가 가능해졌다. 현재 이 기업은 자율주행, 헬스케어, 스마트 농장, CCTV, 드론 등 분야의 데이터 라벨링에 기여하고 있다.

국내 사례로는 비프로일레븐을 들 수 있다. 이 회사는 AI를 활용해 축구 경기 영상과 분석 솔루션을 제공하고 있는 기업으로 한국인 창업자가 독일에 세운 AI 기업이다. 기존에 축구를 분석하던 분석가는 경기를 눈으로 보면서 일일이 주요 이벤트를 확인해야만 했다. 축구 경기를 보면 상당히 많은 이벤트가 발생한다. 누가 태클했는지와 파울인지, 혹은 선수교체, 프리킥, 골 등이 그 예시다.

여기에 ‘슈퍼브에이아이 스위트’를 제공했다. 비프로일레븐이 수집한 스포츠 분석 인공지능 모델의 성능을 높이기 위해서는 새로운 데이터를 학습시켜야 했기 때문이다. ‘스위트’를 통해 비프로일레븐은 업무 관련자간 투명하게 협업하고, 데이터 인사이트를 얻을 수 있다는 점을 도입의 이점으로 꼽았다. 특히, 데이터 관련한 업무에서 부담을 덜고, 자사의 AI 성능 향상이라는 본질에 집중할 수 있게 됐다.

 

‘블랙올리브’로 3D 객체도 라벨링한다

테스트웍스는 2015년 6월에 설립된 회사로 사회적 소셜 미션을 수행하고 있는 AI 데이터, 자동화 전문 사회적 기업이다. 2019년에는 50억 원의 매출을 기록했다. 올해 예상 매출은 100억 원이지만, 상반기에 이미 70억 원을 돌파한 상태다. 이 같은 테스트웍스의 매출 향상의 공신이 바로 데이터 가공 반자동화 플랫폼 ‘블랙올리브(Blackolive)’다.

테스트웍스는 크라우드 소싱 방식을 통해서도 라벨링 작업을 진행하고 있다. 라벨링 작업을 할 경우 대학교를 졸업하기 위해 채워야 하는 필수요건인 봉사시간도 인정해주고 있다. 이를 위해서는 테스트웍스의 툴 사용 및 라벨링에 대한 기초 교육을 받아야 한다. 사회적 기업이라는 지향점을 위해 생활이 어려운 기초생활수급자 및 장애인 등을 채용하기도 했다.

‘블랙올리브’를 통해 진행하는 데이터 가공은 총 4단계를 거친다. 먼저 수집 플랫폼이나 다양한 경로를 통해 원천데이터를 얻은 후, 수집한 데이터를 보호하기 위해 비식별화 작업을 진행한다. 이후 1차적으로 다양한 모델을 통해 라벨러가 수월하게 일할 수 있도록 비식별화된 데이터를 자동화한다. 이후 2차적으로 자동화 프로세스를 거친 데이터들을 가공하고, 3차적으로 검수자가 리뷰를 통해 한 번 더 관리 후 고객사에 전달한다.

‘블랙올리브’의 특징은 라벨러와 관리자의 편의성을 고려해 설계됐다는 점이다. 핵심 기능은 ▲대시보드를 통한 프로젝트 관리 ▲사용자 고려한 작업 환경 ▲직관적인 사용자 및 프로젝트 관리 ▲손쉬운 작업 생성 ▲통계 대시보드 ▲사용자와 관리자의 소통 가능한 공간 등 총 6가지다.

우선 데이터 가공에서 중요하다고 할 수 있는 가공된 데이터를 관리하기 용이하다는 점이다. 사용자가 ‘블랙올리브’를 통해 데이터를 가공하면, 관리자는 대시보드를 통해 데이터를 프로젝트별로 관리할 수 있다.

다음은 사용자 입장을 고려해 작업 환경을 설계했다는 점이다. 이를 통해 사용자는 대시보드를 통해 작업 화면으로 이동할 수 있으며, 작업의 진행률과 반려 상태를 볼 수 있다. 또한, 라벨러가 검수를 요청하면, 어떤 상태인지 관리자가 직접 확인이 가능하기 때문에 라벨러는 진행 중인 작업에 집중할 수 있다.

아울러 직관적인 사용자와 프로젝트 관리가 가능하다는 점도 특징이다. 관리자가 대시보드에서 작업자 및 프로젝트를 관리할 수 있어, 대시보드의 핵심 기능인 모델별 자동화를 실행할 수 있다. 또한, 원하는 작업을 선택해 관리자, 중간 관리자, 작업자, 프로젝트를 변경할 수 있다.

AI를 학습시키기 위한 XML도 다운로드 받을 수 있다. 이 외에 손쉬운 작업 생성도 특징이다. 관리자가 데이터를 대량으로 업로드하고, 그 데이터에 대한 정보가 입력된 엑셀 파일을 추가로 업로드 할 수 있다. 또한, 템플릿을 통해 여러 작업을 한 번에 생성할 수도 있다.

‘블랙올리브’를 통해 진행되는 라벨링 방법은 ▲바운딩 박스(Bounding Box) ▲폴리곤(Polygon) ▲폴리라인(Polyline) ▲포인트(Points) ▲큐보이드(Cuboid) 등 총 5가지다.

먼저 ‘바운딩 박스’ 형태의 라벨링은 이미지에서 특정 개체를 캡처하는 방법으로 데이터 라벨링 작업에서 가장 일반적으로 사용된다.

‘폴리곤’ 형태의 라벨링은 AI 모델링 방법에 따라 식별하고자 하는 개체 이외의 포함된 빈 공간으로 인해 오류가 발생할 수 있는데, 이를 사전에 막을 수 있는 라벨링 방법이다. 개체에 대해 직접 ‘점’으로부터 시작해 ‘선’ 형태로 이어가는 방법으로 개체의 빈 공간을 없애준다.

▲ 블랙올리브의 포인트 및 큐보이드 라벨링 작업 (출처: 테스트웍스)
▲ 블랙올리브의 폴리곤과 폴리라인 라벨링 작업 (출처: 테스트웍스)

다음은 ‘포인트’ 라벨링 방법이다. 이 방법은 특정 지점을 라벨링하는 작업으로 안면 인식을 위한 데이터 구축에 많이 사용된다. 주로 감정분석과 같은 정밀하고 섬세한 작업을 요구하기 때문에 난이도가 있는 편이다. 다음은 ‘큐보이드’ 라벨링 방식이다. 자동차, 건물 등 입체적인 객체들을 2D 형식으로 라벨링하는 데 한계가 있다. 이를 해결하기 위한 3D 라벨링 방식이다. 정육면체를 객체에 적용시켜 라벨링한다.

“사회적 기업에 걸맞는 다양한 교육 프로그램 진행”
금효영 테스트웍스 AI사업본부 이사

▲ 금효영 테스트웍스 AI사업본부 이사

Q. 데이터 라벨링 작업을 위한 데이터 확보 방법은.

A. 데이터 확보 방법은 기업에서 받거나 별도의 데이터 수집 등 2가지다. 우선 기업 고객에서 데이터를 보유하고 있는 경우가 많다. 이런 경우는 직접 전달받아 데이터 라벨링을 진행한다. 두 번째로 알고리즘에 대한 데이터 없이 알고리즘 디자인만 존재하는 경우에는 데이터 수집을 우선 진행해야한다. 데이터 수집은 직접 수집과 간접적인 수집으로 나눌 수 있고, 직접 수집은 데이터를 직접 제작하는 것을 의미한다.

간접 수집은 데이터를 보유하고 있는 기업 또는 공공기관에서 데이터를 구매하거나, 제공받는 것을 뜻한다. 테스트웍스는 데이터의 직접 및 간접 수집을 동시에 수행하고 있다.

Q. 데이터 라벨링 값에 대한 통일성 제고 방안은.

A. 라벨링의 통일성을 위한 기준은 당연히 필요하다. 그렇기에 프로젝트마다 고객사의 수요와 개발을 목표로 하는 알고리즘 학습에 가장 적합한 기준을 세우기 위한 컨설팅 서비스도 제공하고 있다. 같은 유형의 데이터, 같은 유형의 AI라도 목적에 따라 다르게 학습돼야 하기 때문이다. 고객이 원하는 대로 AI가 동작할 수 있도록 고객의 요구를 최우선으로 고려하며, 꼭 필요한 기준을 고객이 놓치고 있는 경우 먼저 제안해 AI 데이터의 품질을 높이고 있다.

Q. 크라우드 소싱 진행 방식은.

A. 크라우드 소싱 방식은 ‘AI 웍스’라는 AI 수집 가공 플랫폼에 접속해 웹 페이지에서 데이터 라벨링을 진행하고 있다. 일반 대중들이 데이터 수집에 참여할 뿐 아니라 데이터 가공 작업도 하며, 쉽게 할 수 있어 원하는 만큼 가공하고, 결과를 보상으로 지급받는다. 테스트웍스가 명확한 가공 가이드라인을 제시하고, 그 결과를 검수한다. 고객 맞춤형 고난이도 고품질의 데이터 라벨링 가공이 필요한 경우 ‘AI웍스’에 연결된 데이터 라벨링 전문 가공 툴 ‘블랙올리브’를 통해 데이터 라벨링 작업 및 검수가 가능하다.

아울러, 사회적 기업이라는 비전을 갖고, 데이터 라벨러 전문가 양성을 위해 다양한 교육 프로그램을 진행하고 있다. 또 사회취약계층들에게 포용적 고용의 기회를 제공하기 위해 고용 취약계층에 대한 데이터 라벨링 교육도 진행하고 있다.

Q. 구축 사례에 대해 소개해달라.

A. 모션투에이아이를 들 수 있다. 물류센터 환경의 안전과 효율을 위해 모빌리티 솔루션을 개발했지만, 이를 구현하기 위한 학습용 데이터셋 구축에 많은 고민이 있었다. 이에 요구사항에 따른 가이드를 만들어 물류 데이터셋 구축 프로젝트를 진행했다. ‘블랙올리브’를 활용했으며, 단기간에 데이터를 자동화 및 정밀 가공했다. 또한, 전담 대응팀을 구성해 가이드에 따른 가공작업 현황에 대한 상시 피드백도 진행했다. 3단계 검수 작업을 통해, 데이터 품질을 검수 진행해 고품질의 데이터셋을 구축했다.

그 결과 1개월 동안 7,700장의 이미지 데이터를 ‘폴리라인’과 ‘BB박스’ 등 2가지 유형으로 총 11만 건의 객체를 가공했다. 모션투에이아이와 프로젝트 이후 지속적으로 협력하고 있으며 AI를 활용한 물류센터 관제 솔루션 시장을 공략하기 위해 업무 제휴를 체결하기도 했다.

Q. 향후 데이터 라벨링의 발전 방향과 시장 전망은.

A. 데이터 라벨링은 당분간 계속 성장할 것으로 생각한다. AI 기술이 연구 단계에서 상용화 단계로 넘어가면서 서비스를 운영 중 축적한 데이터가 발생하고, 이 데이터를 성능 개선에 활용하기 위해서는 데이터 라벨링이 더 많이 필요하게 될 것이기 때문이다. 결국 상품이나 서비스의 경쟁력이 HW가 아니라 AI의 정확도에 따라 정해지게 될 수도 있다. 누가 데이터를 많이 모아서 정확한 서비스를 제공하는지가 중요하다.

연구 레벨에서는, 라벨링 없이 AI를 학습시키는 기법도 생기고 있다. 하지만 아직 이 기술이 상용화되는 수준은 아니다. 산업에서는 최대한 성숙한 기술을 이용해 최대의 효율을 내고 싶어 하는 만큼, 이미 성숙한 기존 기술과 새로운 기술의 성숙 사이에서 라벨링 시장이 당분간은 성장할 것이라 예상한다.

 

필요한 라벨에 맞춘 데이터셋 구축이 강점

코난 테크놀로지는 검색 기업으로 출발했지만 AI 챗봇(Chabot) 기업으로 더 많이 알려진 기업이다. 코난 테크놀로지가 데이터 라벨링 반자동화 툴을 개발하게 된 계기는 바로 ‘비디오 튜링 테스트(VTT)’ 사업을 수행하기 위해서였다. 비디오 이해를 위해 데이터를 수집하고, 보정 자동화 기능을 개발해야 했기 때문이다.

공공 사업에 주력해온 코난 테크놀로지는 앞으로 반자동화 툴 비즈니스도 추진할 계획이다. 현재 대통령기록관에서 발주된 ‘얼굴인식 사업’을 수주해 프로젝트를 진행하고 있으며, 후속 사업도 준비 중에 있다. 군 프로젝트인 ‘객체인식’ 사업 우선협상대상자로 선정되기도 했다.

강현수 코난 테크놀로지 AI그룹장은 “무작정 툴이 있다고 비즈니스에 뛰어드는 것 보다 공공 레퍼런스를 확보하고, 투자를 받는 등 기본적인 절차를 거치는 게 중요하다”며, “이러한 경험을 기반으로 민간 데이터 라벨링 툴 비즈니스도 원활히 끌어갈 수 있을 것”이라고 설명했다.

코난 테크놀로지는 현재 동영상 데이터에 라벨링을 하고 있다. 코난 테크놀로지가 밝힌 tvN의 드라마 ‘또오해영’을 예시로 들면, 데이터를 수집하고, 이후 영상클립, 장면구간, 프레임 이미지를 추출한다. 이후 대표 이미지 데이터를 선정해 크라우드 소싱을 해 라벨링 작업을 수행할 것인지, 내부 작업자를 통해 수행할 것인지를 정한다.

이후 크라우드 소싱을 통해 작업할 경우 통계기반(SQIP) 자동 검수를 진행하고, 내부 작업자를 통해 진행할 경우 품질관리자(AQM) 검수를 진행한다. 이후 최종 검수를 진행한다.

이렇게 만들어진 AI 학습 데이터를 AI 모델에 투입, 전이학습을 진행한다. 이 단계에서 다시 라벨링 단계로 순환이 된다. 이 과정을 거쳐 가공된 데이터의 품질을 지속적으로 향상시킨다. 이를 통해 데이터 부족도 해결할 수 있다.

▲ 코난 테크놀로지의 웹 페이지 형태의 라벨링 툴 (출처: 코난 테크놀로지)

코난 테크놀로지가 사용하고 있는 라벨링 반자동화 툴은 웹 페이지 형태로 구현돼있다. 이에 대해 강현수 그룹장은 “시중의 라벨링 툴보다 콘텐츠와 데이터 관리가 편리하고, 결과 데이터를 JSON 형식으로 바로 다운로드 할 수 있는 장점이 있다”고 말했다. 그는 또한 “보편적인 데이터 셋이 아닌 필요한 라벨에 맞춘 커스텀 데이터셋을 구축할 수 있다는 것도 큰 장점”이라고 주장했다.

강 그룹장은 자체 라벨링 툴에 대한 장점으로 ▲시각정보 편집 ▲구간정보 편집 ▲묘사 및 Q&A 편집 ▲소리정보 편집 ▲자막정보 편집 ▲카탈로깅 ▲다운로드 7가지를 꼽았다.

▲ 코난 테크놀로지 툴의 이미지 데이터 라벨링 화면 (출처: 코난 테크놀로지)

 

바로 쓰고 쉽게 쓰는 데이터 가공이 목표

마인즈랩은 ‘마음 데이터(maum DATA)’라는 데이터 가공 서비스가 있다. 이 안에 데이터 라벨링 툴이 있다. 이 솔루션을 사용해 ▲보이스 워크 ▲텍스트 워크 ▲이미지 워크 등 데이터를 가공하고 있다.

마인즈랩은 이 솔루션을 기반으로 다양한 산업군에서 축적한 노하우를 살려, 전문 데이터 사이언티스트의 전문 컨설팅으로 양질의 데이터를 정제 및 분류하는데 집중하고 있다.

‘마음 데이터’의 라벨링 툴에는 텍스트를 음성으로 전환, 라벨링 작업 기능과 자동차 번호판 인식과 같은 이미지 라벨링 기능, 기계 독해 학습 기능, 입력된 텍스트나 문서의 내용을 분석하는 문서 분류기 기능 등이 기본으로 탑재돼 있다.

마인즈랩의 AI 데이터 라벨링 프로세스는 ▲작업 의뢰 및 데이터 사이언티스트와 작업 설계 ▲AI 엔진으로 데이터 전처리 ▲작업 및 검수 ▲데이터 학습효과 측정 ▲학습 결과에 따른 데이터 설계 조정 등의 단계를 거친다.

음성 단위 문장 분리 작업을 예로 들면, 우선 주어진 음성을 듣고 문장이 끝나는 부분에 맞춰 ‘컷’ 버튼을 눌러 분리작업을 수행한다. 이렇게 음성을 분리한 후 음성 전후 소음을 제거하는 작업을 진행한다. 이 작업은 분리된 음성을 듣고 소음이 없는 부분이나 잡음이 있는 부분을 드래그해서 묵음 및 잡음이 있는 부분을 제거한다.

그 다음이 바로 음성 전사 작업이다. 잡음이 제거된 음성을 듣고 작성하는 란에 라벨러가 직접 작성을 한다. 이후에는 G2P 작업을 거친다. 이 작업은 들리는 대로 작성된 것 중 잘못 적힌 부분을 수정한다. 이렇게 작업한 데이터를 저장하면, 프로젝트에 기록된다. 이렇게 가공된 데이터를 판매하기도 한다. 마인즈랩 측은 데이터셋 판매의 경우 같은 데이터라도 기업에 따라 데이터량 및 추가 데이터 정제에 대한 수요가 다르기 때문에 가격 기준을 정확히 매길 수 없다고 한다.

▲ 마인즈랩은 라벨링 작업이 끝난 학습데이터를 판매하기도 한다 (출처: 마인즈랩)

이 외에도 마인즈랩은 크라우드 소싱을 통해 사회적 기업 역할을 하기 위해 노력하고 있다. 크라우드 소싱을 통해 라벨러들을 교육한 후 라벨링 작업을 진행하고 있다. 데이터 건당 작업비는 라벨러가 한 시간에 몇 건을 작업할 수 있는 지 기준을 세우고, 1시간당 최저임금을 기본으로 포인트 형태로 제공하고 있다. 포인트는 5,000포인트부터 돈(단위: 원)으로 환산해 지급하고 있다.

마인즈랩의 AI 데이터 라벨링 구축 사례로는 서울시 노후경유차 차량번호 인식과 수원시 이상행동 CCTV 시스템 구축이 있다. 다음은 서울시 노후경유차 차량번호 인식 사례다. ‘AI 기반 차량 학습 시스템’으로 번호판의 위치와 글씨를 인식해 차량 검출, 차종 인식, 차량 번호판 위치 검출, 번호판 글씨를 인식해 노후경유차를 단속한다.

‘수원시 이상행동 CCTV 시스템 구축’ 사업은 영상을 프레임 단위로 라벨링해 이상행동에 대한 객체와 흐름, 관계 파악 등을 통해 범죄를 예방한다. 관련 이상행동 영상을 프레임 단위로 추출한 후 라벨링 작업을 수행하고, 이상행동 도출 학습 데이터셋을 구축한다. 마인즈랩 측은 이 데이터셋을 학습한 지능형 CCTV가 이상행동을 감지하면 관제사에 전달하고, 이를 통해 범죄 예방이 가능해질 것으로 전망한다.

▲ 마인즈랩의 데이터 구축 사례 (출처: 마인즈랩)
저작권자 © 컴퓨터월드 무단전재 및 재배포 금지