윤창호 버즈니 AILab 최고인공지능책임자

▲ 윤창호 버즈니 AILab 최고인공지능책임자

[컴퓨터월드] 버즈니는 현재 1,000만 누적 다운로드와 연간 1,000억 원 이상의 거래액을 내고 있는 모바일 홈쇼핑 포털 앱 ‘홈쇼핑모아’ 서비스를 운영하고 있다. ‘홈쇼핑모아’는 국내 모든 홈쇼핑 및 T커머스를 주축으로 하고 주요 오픈 마켓까지 망라해 홈쇼핑 상품 중심의 모바일 쇼핑 플랫폼으로 성장하고 있다.

‘홈쇼핑모아’를 운영하면서 내세운 버즈니의 미션은 기술로 정보와 사람을 연결해 생활에 가치를 더하는 것이다. 버즈니는 딥러닝이 학술적으로 가능성을 보이기 시작하던 초창기부터 관련 기술 연구를 꾸준히 진행하고 경험을 축적함으로써 실제 커머스 서비스에 적용 가능한 AI 기술들을 차곡차곡 준비해 왔다. 또 버즈니 AILab을 통해 커머스 AI 기술을 더욱 발전시켜 나가고 있다.

여기에서는 사용자가 ‘홈쇼핑모아’로 상품을 탐색하고 구매하는 과정 중에 사용하게 되는 굵직한 서비스적 기능들과 그 이면에 녹아 있는 요소 기술들을 소개한다. 이 기술들에는 상품 카테고리 분류 기술, 이미지 인식 기술, 이미지 기반 검색 기술, 상품 카탈로그 자동화 기술, 개인화 상품 추천 기술, 상품명 토크나이징 기술 등이 포함돼 있다.


커머스 AI 기술 소개
기술을 적용하려면 우선 어떤 종류의 데이터를 대상으로 해야 하는지 살펴보는 것이 중요하다. 데이터의 관점에서 커머스를 분석해보면 기술의 적용 대상은 크게 2가지다. 첫째는 서비스의 가장 기본적인 구성 요소인 상품 데이터다. 상품 데이터는 텍스트와 이미지, 영상, 음성 4가지 데이터 형태로 구분할 수 있다.

텍스트는 주로 상품명, 커머스에 필요한 필수 정보, 사용자 후기 등을 포함한다. 이미지는 상품 이미지, 사용자가 직접 찍은 상품 이미지, 이미지로 만들어진 상품 상세 정보 이미지 등이 포함된다. 영상은 홈쇼핑 방송 클립, 사용자 제작 상품 소개 영상 클립이 포함된다. 음성은 아마존 알렉사와 같은 대화형 커머스 인터페이스를 사용하면서 발생하는 사용자 음성 데이터가 포함된다.

둘째는 사용자가 서비스를 사용하면서 만들어내는 행동 데이터다. 어떤 상품을 클릭했고, 어떤 검색 질의어를 입력했으며, 어떤 기능에 얼마동안 머물고 있는지 등 서비스와 사용자 사이의 관계를 정량화 할 수 있는 대용량 데이터다.

위에서 설명한 2가지 영역의 데이터를 대상으로 최신 머신러닝 및 AI 기술들을 활용함으로써 커머스 영역의 실질적인 문제들을 해결해나갈 수 있다. 물론 처음부터 아카데미적인 기술들이 바로 서비스에 적용할 만큼 고품질의 성능을 낼 수는 없다. 커머스 영역에 특화된 고품질의 대용량 학습 데이터가 필요하고, 그에 맞는 적절한 기술의 선택과 기술적 한계 돌파가 필요하다.

아래에서 상품이미지, 상품명, 사용자 행동 데이터의 관점에서 버즈니가 그 동안 개발해 서비스에 적용한 주요 기술들이 간략하게 소개한다. 각 기술의 세부적인 모델이나 시스템 구조에 대해서는 이후 순차적으로 발표되는 기술 별 칼럼을 참조하면 된다.

▲ 패션 이미지의 객체 검출 학습셋을 구축하는 반자동 도구

■ 상품 이미지 인식 기술
버즈니 AILab에서는 딥러닝 이미지 인식 기술의 발전과 더불어 최신 모델들을 적극적으로 상품 이미지 인식 문제 해결에 적용해왔다. VGG16, Inception, ResNet 등 모델의 성능 향상과 더불어 다양한 모델들을 실제 상품 이미지 분류 태스크에 적용하면서 경험을 쌓았다.

실제 서비스에 적용 가능한 성능에 도달하기 위해서는 알고리즘의 우열보다는 양질의 대용량 학습셋이 필수적이라는 것을 다양한 실험을 통해 알게 됐다. 쓰레기를 넣으면 쓰레기가 나온다(Garbage-in-garbage-out)는 딥러닝 특성이 잘 반영된 결과임을 알 수 있다.

반자동 구축 도구를 직접 개발해 4,200여 개의 전체 상품 카테고리에 대한 학습 셋 수백만 장, 400여 개의 패션 카테고리에 대한 실사 이미지 학습 셋 수십만 장, 10여 개의 패션 이미지 중 객체 검출용 학습 셋 수십만 장을 직접 구축했다. 이 밖에 성별, 색상, 기타 속성 추출용 학습 셋을 확보함으로써 상품 이미지 대상 딥러닝 이미지 기술 적용을 위한 데이터 준비를 마쳤다.

고품질의 대용량 학습셋을 사용해 학습한 모델의 정확도는 10% 이상 대폭 향상됐고 이 모델을 통해 추출한 이미지 피쳐는 카테고리 분류기와 같은 AILab내의 다른 응용 기술의 컴포넌트로 널리 활용되고 있다.

딥러닝 기술 활용 시 상품 이미지라는 도메인 특성에 맞추어 모델 아키텍처를 적절하게 수정하여 적용하고 있다. 아래는 DenseNet과 CAM(Class Activation Map)모델을 결합하여 이미지 피처를 추출하는 개념도다.

▲ DenseNet과 CAM 모델을 결합해 이미지 피처를 추출하는 개념도

■ 이미지 기반 유사 상품 검색 기술
버즈니 AILab의 이미지 인식 기술은 피쳐 레벨에서의 활용뿐만 아니라, 서비스적 기능으로 사용자 가치를 만들어내고 있다. 첫 번째 적용은 ‘홈쇼핑모아’에 적용된 ‘스타일모아’ 기능이다. ‘스타일모아’는 패션 검색을 많이 하는 홈쇼핑 서비스의 특성을 살려서 사용자가 검색 질의어를 넣고 보이는 검색 결과에서 사용자가 클릭한 패션 상품의 이미지를 기반으로 비슷한 스타일의 패션 상품을 찾아주는 서비스다.

아래와 같이 ‘니트원피스’라는 검색 질의어에 대한 검색 결과 중에서 사용자가 클릭한 홈쇼핑 상품과 유사한 스타일의 니트 원피스를 찾아주는 것을 볼 수 있다.

▲ 니트원피스라는 검색 질의어에 대한 결과 중 사용자가 클릭한 것과 유사한 상품을 찾아준다.
▲ ‘샷핑’ 앱에서 실제 타이머를 촬영해
동일 제품을 찾아주는 모습

두 번째는 버즈니가 2007년 기술전시 목적으로 출시한 이미지 인식 기반 쇼핑앱 ‘샷핑’이다. ‘스타일모아’가 상품 이미지를 입력 받아 유사한 상품 이미지를 찾아주는 기능이라면 ‘샷핑’은 사용자가 직접 촬영한 실사 이미지를 입력으로 받아서 동일하거나 혹은 유사한 상품을 찾아주는 서비스다.

일상생활 중에 길거리를 지나가다가 혹은 TV를 보다가 정말 사고 싶은 제품을 발견했는데, 해당 상품을 쇼핑몰에서 찾기 위해서는 검색을 위한 키워드를 알아야 하는 경우가 종종 있다. 해당 상품에 대한 키워드가 정확히 떠오르지 않거나 아예 처음 보는 제품인 경우에는 키워드를 모르는 경우가 있다. ‘샷핑’은 이런 상황에서 적절하게 사용할 수 있는 서비스다.

‘샷핑’은 기술적으로 보면 사용자가 촬영해 입력한 이미지는 정형화된 상품 이미지 보다 품질상태가 떨어질 뿐만 아니라 촬영 각도나, 이미지 밝기 등 다양한 변형과 왜곡이 발생하기 때문에 이미지 검색 난이도는 훨씬 높다.

버즈니 AILab에서는 수년간 다양한 실험을 통해 실제 서비스에 적용이 가능하도록 성능 향상을 이뤄내고 있다. 실제 이미지 피처 추출 정확도를 향상시키기 위하여 학습 과정에 실사이미지를 혼합함으로 모델의 과적용을 방지하기도 한다.


■ 상품 카테고리 분류 기술
‘홈쇼핑모아’는 현재 18개 홈쇼핑 채널과 오픈 마켓의 총 1억 개 이상 상품을 취급하고 있다. 문제는 각 쇼핑사마다 카테고리 체계가 전부 다르다는 것이다. 쇼핑 서비스에서 카테고리는 가장 기본이 되는 정보로서 카테고리 필터링, 검색, 추천 등 사용자의 편의성과 밀접하게 연관된다. 쇼핑사마다 서로 다른 상품에 대해 일관된 카테고리 체계를 부여하는 것이 첫 번째 미션이고, 이 작업은 수작업으로는 불가능하다.

따라서 버즈니 AILab에서는 딥러닝 기술을 활용해 상품 카테고리 분류 자동화 프로세스를 구축했다. 이 자동화 프로세스는 각각의 상품들을 3단계 기준 약 1,200개의 카테고리 중 하나로 분류할 수 있다. 버즈니 AILab에서는 SVM 기반 머신러닝 모델을 기점으로 수년간의 연구와 실험을 거쳐 현재 텐서플로우 기반의 Bi-LSTM 하이브리드 모델을 적용하고 있다.

카테고리 자동 분류기는 상품 이미지와 텍스트를 기반으로 작동하며 이미지 피처는 위에서 소개한 이미지 모델을 사용해 추출했다.

▲ 홈쇼핑 편성표 카테고리를 활용한 필터 기능과 ‘모아차트’에서 카테고리 별 인기 상품을 보여주는 기능

■ 상품 카탈로그 자동화 기술
홈쇼핑 특성상 인기도에 따라서 일부 상품들은 동일 쇼핑사에서 중복 편성이 되기도 하고 여러 쇼핑사에서 동일한 상품을 판매하기도 한다. 물론 중복 편성할 때마다 상품명이 조금씩 변경되고 상품사마다 동일한 상품에 대해 자사만의 상품명을 가지고 판매를 한다. 사용자에게는 동일한 상품을 하나로 묶어주는 것이 탐색의 불편함을 해소하고 가격비교라는 구매의 가치를 줄 수 있다.

버즈니 AILab에서는 이러한 문제를 해결하기 위해 완전히 자동으로 동일한 상품을 그룹 별로 묶어주는 카탈로그 자동화 기술을 개발했다. 카탈로그 자동화 기술은 가격, 구성에 상관없이 흩어져 있는 동일한 상품들을 하나로 분류한다. 카탈로그 자동화 기술은 위에서 설명한 딥러닝 이미지 피처와 상품명을 활용해 머신러닝 모델을 개발했다.

아래는 ‘홈쇼핑모아’에서 ‘홍샷’이라는 검색 질의어에 대한 가격비교 서비스 결과 화면이다. 완전 자동화 기술이기 때문에 가격비교 상품 커버리지가 크며 최저가로 구매하려고 하는 사용자의 다양한 니즈를 충족시켜줄 수 있다. 물론 넓은 커버리지를 만족 시키려하면 반대로, 정확도의 이슈가 자연스럽게 대두되고 있지만 이 부분은 서비스 가능하도록 연구 개발을 지속하고 있다.

▲ ‘홍샷’이라는 검색 질의어에 대한 가격비교 서비스 결과 화면
▲ ‘홈쇼핑모아’ 편성표 서비스에 적용된 추천 기능.
CF기반의 추천 알고리즘을 사용했다.

■ 개인화 추천 기술

‘홈쇼핑모아’에는 약 1억 개의 상품이 존재한다. 방대한 상품들 중에서 사용자가 자신의 취향에 맞는 상품을 찾아가는 과정은 어려운 일이다. 예를 들면 ‘봄자켓’을 구매하러 홈쇼핑모아에 접속한 사용자가 있다. 이 사용자에게 수천 개의 ‘봄자켓’ 상품을 보여줄 수 있지만, 사용자는 본인이 원하는 ‘봄자켓’를 찾기 위해 많은 시간이 필요하다.

버즈니가 추구하는 추천 기술의 목표는 짧은 시간 안에 사용자 원하는 상품을 예측해 제안하는 것이다. 개인화 추천 서비스는 다른 AI 태스크와 달리 하나의 완벽한 알고리즘이 존재해 정답에 근접한 답을 제시해주는 것이 아니라, 비즈니스에 대한 충분한 이해와 적절한 UI/UX 등 비즈니스, 알고리즘, 디자인이 어우러져 시너지를 기대해야 하는 서비스적 특성이 존재한다.

버즈니 AILab은 추천 서비스의 본질을 잘 파악하고 아울러 기술적인 면에서 전통적으로 어려운 문제인 사용자 및 상품의 cold-start-problem을 연구 개발하고 있다.
 

■ 상품명 토크나이징 기술
토크나이징 기술은 사용자가 입력한 검색어 및 상품명을 대상으로 검색 가능한 단위로 나누는 기술을 의미한다. 사용자가 체감하는 검색 서비스의 품질은 토크나이저의 정확도에 좌우된다고 해도 과언이 아니다.

▲ ‘숀리스쿼트머신’이라는 검색 질의어에 대해 토크나이징이 잘 안될 경우의 검색 결과 화면

버즈니 AILab에서는 딥러닝 기술과 전통적인 NLP 기술을 결합해 딥러닝 기반 하이브리드 토크나이저를 개발했다. 이 기술의 특징은 Sequence-to-sequence 딥러닝 모델을 토크나이징 시스템에 결합함으로써 규칙기반 알고리즘이 가지고 있는 장점으로 서비스적 요구사항을 적극 대응할 수 있었고, 또한 머신러닝 모델의 장점을 살려 규칙 기반 시스템의 분석 오류를 대폭 해소했다.

규칙기반의 토크나이저를 이용해 준 학습 데이터 1,000만 여 문장을 확보했고, 대용량 학습셋에서 뛰어난 성능을 보여주는 딥러닝 모델의 특성을 이용해 토크나이징 패턴을 찾아내는데 활용했다.

▲ ‘홈쇼핑모아’ 검색서비스에 적용된 토크나이징의 결과 화면으로, 고유명사에 잘 대응하는 모습

결론
버즈니 AILab에서는 학습 데이터 구축부터 알고리즘 개발 및 서비스 적용에 이르기까지 커머스에서 필요한 요소 기술들을 직접 연구 개발해 왔다.

위에서 소개한 기술들 외에도 다양한 세부 기술들이 많이 존재한다. 이미지, NLP 분야의 딥러닝 기술의 발전과 더불어 많은 기존 기술들이 딥러닝 기술로 대체되는 트렌드이며 버즈니 AILab에서도 실 서비스 적용을 목표로 다양한 AI 기술들을 현업에 적용해보고 있다.

그동안 버즈니는 AI기술을 커머스 분야에 적용하면서 경험과 노하우가 쌓였고, 기술 추진 전략 및 방향성에 대한 자신감이 생겼다. 앞으로 커머스 AI 기술을 더욱 발전시켜 ‘홈쇼핑모아’ 뿐만 아니라, 비즈니스 파트너인 홈쇼핑사, 벤더사를 아우르는 홈쇼핑 생태계 전반에 실질적인 문제들을 해결하며 동반 성장을 실현해 나가고자 한다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지