데이타솔루션 ‘리딧’ 개발팀

[컴퓨터월드] 데이터의 중요성이 강조되고 대용량 데이터에 대한 분석이 가능해지면서, 데이터는 많으면 많을수록 좋은 것으로 인식되는 경우가 많다. 하지만 가공되지 않은 원유로 자동차를 달리게 할 수 없듯, 가공되지 않고 쌓여있기만 한 데이터에는 가치가 없다. 축적된 데이터는 보다 가치를 높일 수 있게 가공되고 사용자가 접근하기 쉬운 형태를 갖춰야 한다. 특히 사용하기 좋은 형태를 갖추고 있는 정형 데이터의 경우 손쉽게 가공해 사용할 수 있지만, 이미지나 텍스트와 같은 비정형 데이터는 다루기 어렵고 까다롭다.

이러한 가운데 최근 국내 통합 데이터 전문 기업 데이타솔루션이 비정형 데이터로 구성된 기업의 비재무 정보를 분석하는 부실기업 탐지 솔루션 ‘리딧(RiDit)’을 개발해 관심을 모으고 있다. 최신 트렌드와 기술들을 전문적인 역량으로 풀어낸 데이타솔루션의 ‘리딧’ 개발팀을 만나봤다.

▲ 데이타솔루션 ‘리딧’ 개발팀. (왼쪽부터) 이병현 수석, 서혜인 연구원, 김진우 주임, 황영재 연구원

데이타솔루션은 데이터의 생애주기(Life-Cycle) 전체에 걸쳐 모든 솔루션과 서비스를 제공하는 데이터 전문 기업이다. 저장 및 관리를 위한 인프라부터 자체 기술로 개발한 정형·비정형 데이터 분석 솔루션, 또한 데이터 마이닝 역량을 활용해 최적화된 시스템을 구축하는 컨설팅 부문도 갖추고 있다. 이를 통해 무의미하게 축적돼있는 기업의 데이터를 적절히 활용할 수 있는 환경을 구축하고, 비즈니스 문제를 해결하거나 새로운 도전의 기회를 발굴하는 등 경영 측면에서 데이터의 가치를 제고한다.

데이터의 활용이 기업의 주요 이슈로 떠오르고 분석을 위한 기술도 빠르게 발전함에 따라, 오늘날 기업들은 정형데이터와 더불어 비정형데이터를 손쉽게 활용할 수 있는 방법을 탐색하고 있다. 안면인식이나 불량품 검수, 이미지 분류 등 일부 비정형데이터에 대해 이처럼 새로운 방식의 데이터 활용 방법이 등장하고 있다. 다만 기업의 비즈니스에 실질적인 혁신을 가져올 수 있는 활용방법, 특히 텍스트 데이터에 대한 분석 방법은 아직까지 시험대에 있다고 볼 수 있다.

데이타솔루션은 그동안 금융·공공·제조·유통 등 다양한 분야의 기업들이 데이터를 기반으로 의사결정을 내릴 수 있도록 시장분석·수요예측·부도예측 등 다양한 분석 사례를 만들어왔다. 또한 통합 데이터 전문 기업으로서 꾸준한 기술 개발과 연구를 통해 역량을 쌓아왔으며, 이렇게 확보한 텍스트 분석 기술을 바탕으로 민원분석이나 감성분석, 개인정보 비식별화 등 다양한 분야에서 분석 시스템을 구축해왔다.

새롭게 출시되는 부실기업 탐지 솔루션 ‘리딧’은 데이타솔루션이 그동안 축적해온 데이터 전문 역량과, 기업 신용평가에서 부각되고 있는 비재무 정보의 분석이라는 시장의 수요가 맞물려 탄생했다. 이미 핀테크 분야에서는 빅데이터에 기반한 대안적 개인 신용평가가 활용되고 있는 만큼, 데이타솔루션이 보유한 역량과 노하우를 활용한다면 기업 신용평가 분야에서도 같은 방식으로 접근할 수 있으리라는 계산이다.

▲ 신용평가 기반의 부실기업 탐지 솔루션 ‘리딧’ 개요

기존에는 기업 신용평가를 위해 정량적인 정보가 수치화돼있는 재무재표를 주로 활용했다. 재무재표 상에 수치로 표현될 수 없는 정보나 회계사의 의견 등은 별도의 주석으로 달리게 되지만, 이러한 데이터들은 프로그램을 통해 간편하게 분석해낼 수 없다보니 상대적으로 활용에 어려움이 있었다.

이에 따라 데이타솔루션은 기업 신용평가 및 부실 분석 전문 스타트업 피데스어드바이저리와 협력 체계를 구축했다. 양사는 재무재표 상에 드러나지 않는 텍스트 기반 감사보고서의 주석과 기업들의 공시정보 등을 수집해 텍스트 및 테이블 마이닝 기법으로 분석하고, 머신러닝 알고리즘을 통해 학습시켜 기업의 부실 징후를 찾아내는 모델을 개발했다. 현재까지 완성된 ‘리딧’ 모델은 기존의 정형데이터만으로는 찾지 못하는 잠재적인 부실 징후를 찾아내고 있다. 이는 신용평가 전문가들의 노하우나 감각에 의존해야 했던 부실 징후 탐색을 자동화된 시스템으로 수행해, 전문가들이 참고할 수 있는 보조지표를 제시함으로서 업무 정확성과 능률을 향상시킬 수 있다.

다음은 데이타솔루션 ‘리딧’ 개발팀과의 인터뷰 내용을 일문일답 형식으로 구성한 것이다. 인터뷰에는 이병현 수석, 김진우 주임, 황영재 연구원, 서혜인 연구원 등 ‘리딧’ 개발을 주도한 핵심 인물들이 참여했다.

▲ 이병현 수석(왼쪽)과 김진우 주임
“비재무 정보는 신용평가의 중요한 판단근거지만, 비정형 텍스트 데이터로 작성돼 직접 확인해야하는 불편함이 있다.”

Q. 기업의 재무·비재무 정보에는 어떤 요소들이 포함되며, 각각 어떤 특징을 가지고 있는지.
이병현 수석: 재무 정보가 기업의 재무재표나 공시를 통해 나타나는 모든 정량적 수치들을 의미한다면, 반대로 비재무 정보는 ESG(Environmental, Social, Governance) 등 재무 정보만으로는 알 수 없는 나머지 정보들을 의미한다.

국내에서는 기업의 재무 정보를 입력할 때 국제회계기준(IFRS)을 일부 변형한 한국채택국제회계기준(K-IFRS) 등을 활용하고 있다. 회계사는 해당 기준에 따라 재무 정보를 입력하고 금융감독원이나 여신평가회사, 금융사 등은 전용 프로그램을 통해 일관된 양식으로 작성된 재무 정보를 수집·분석하게 된다.

하지만 모든 기업의 정보를 정형화된 패턴 안에 표현할 수는 없다. 숫자로 표현될 수 있는 정보는 쉽게 채워 넣을 수 있겠지만 수많은 기업들의 특징을 한정된 양식 안에서 모두 담아낼 수는 없다. 한정된 양식으로 표현할 수 없는 정보들은 회계사의 의견에 따라 주석으로 작성된다. 이러한 주석들이 비재무 정보다. 일정한 양식에 맞춰 작성된 데이터는 추출하기가 용이하지만, 주석으로 작성된 정보들은 본질적으로 같은 정보를 담고 있다고 해도 회계사의 성향에 따라 다르게 표현되므로 추출해내기가 어렵다. 따라서 프로그램을 통해 수집·분석하기보다는 분석가가 직접 읽고 의미를 파악해야 한다.

김진우 주임: K-IFRS를 예로 들면, 재무 정보를 입력할 때 각 항목에 반드시 맞춰야 하는 과목들이 있다. 해당 항목에는 그 이상의 정보를 담아도 안되고, 그보다 부족한 정보를 담아도 안된다. 여기에서 부족하거나 넘치는 정보들은 모두 주석으로 기록하도록 규정돼있다.

그러다보니 회계사들이 피력한 의견이나 표에 담지 못한 부연정보들은 모두 주석으로 작성될 수 밖에 없다. 기업 신용평가에서 주석은 중요한 판단근거 중 하나이며, 번거롭더라도 분석가는 해당 주석들을 하나하나 읽어야 한다.


 

▲ 서혜인 연구원
“데이타솔루션의 차별화된 데이터 기술과
피데스어드바이저리의 도메인 지식을 결합해
우수한 솔루션을 개발할 수 있었다.”

Q. ‘리딧’의 차별화된 개발 과정에 대해 설명해달라.
서혜인 연구원:
‘리딧’은 재무 정보에 덧붙여진 주석에 자연어 처리 기술 등을 적용해 텍스트 데이터인 문장을 수치화 할 수 있도록 만들었다. 이는 데이타솔루션이 오랫동안 검색 엔진 사업을 지속해오면서 축적한 노하우가 있었기 때문에 가능했다. 데이타솔루션은 자연어 처리나 형태소 분석, 개체명 인식과 같은 기술들에 대해 많은 노하우를 보유하고 있으며, 이를 실제 제품으로 만들어내기 위해 충분한 역량을 갖추고 있다.

하지만 자연어처리와 같은 기술을 보유하고 있다고 해서 재무 정보가 담긴 주석에 바로 녹여낼 수 있는 것은 아니다. 머신러닝 알고리즘이 제대로 문장을 이해하고 원하는 결과값을 도출해내기 위해서는 개발자가 도메인에 대해 깊이 이해하고 적절히 리드해나갈 수 있어야하기 때문이다. 주석에는 어떤 상황들이 올 수 있으며 특정 표현이 무엇을 의미하는 것인지, 실제로 기술을 적용하는 개발자들이 회계 분야에 대한 많은 도메인 지식을 가지고 있어야 한다. 우리 개발팀에서도 재경관리사 같은 서적을 구매해 공부하기도 했다.

특히 도메인 지식 측면에서는 협력사인 피데스어드바이저리가 많은 도움을 줬다. 보유한 재무 정보 분석 노하우를 공유해준 것은 물론, 가장 적합한 예측 결과값을 도출하기 위해 각 단어의 실제 의미 등에 대해서도 지속적으로 교육을 받았다. 일정량의 지식을 습득해 본격적인 프로그래밍에 들어간 후에도 애매한 것들에 대해 상담하거나 머신러닝 알고리즘의 가중치 설정 등에 대해 조언을 아끼지 않았다. 기업 신용 분야의 전문가의 도움이 있었기 때문에 기술과 도메인 지식이 더해진 우수한 솔루션이 개발될 수 있었던 것이다.

김진우 주임: 실제로 개발 과정에서 가장 어려웠던 점도 도메인에 대한 지식을 습득하는 일이었다. 처음에는 피데스어드바이저리와 원활히 대화하기 위해 팀원끼리 따로 공부를 위한 시간을 할애하기도 했다.

사실 기업 부실이나 신용평가와 같은 분야에 대해 우리 연구소는 전문가가 아니었다. 사내에서 기업 데이터 분석을 오랫동안 하다보니 이와 같은 수요가 있을 것이라 예상했고, 이를 서비스로 내놓으면 좋겠다는 의견이 있었다. 여기에 피데스어드바이저리라는 우수한 파트너가 가진 노하우가 더해져서 ‘리딧’이 탄생할 수 있었다고 본다.


Q. K-IFRS와 한국어 자연어처리를 기준으로 했다면 국내 시장만을 겨냥한 것인지?
김진우 주임:
회계기준의 경우, K-IFRS는 IFRS를 국내 사정에 맞게 일부 변경하거나 항목을 추가한 것이므로 큰 차이는 없다. 가령 재무재표 상에서 일부 항목이 영업이익으로 포함된다거나 하는 식으로, 큰 틀을 벗어나지 않는 선에서 금융감독원의 권고에 따라 차이가 있는 정도다. 이러한 약간의 차이를 제외하면 나머지 회계 방식이나 부가정보에서는 변화가 없다. 따라서 다른 나라의 감사보고서를 분석할 때에도 큰 문제가 있을 것 같지는 않다.

언어 측면을 놓고 본다면 한국어야말로 무척 난이도가 높은 언어라는 점을 말하고 싶다. 직접 해보면 형태소 분석과 같은 것들이 영어보다 훨씬 어렵다. 도메인 지식이 부족한 상황에서도 한국어를 기반으로 성공적인 텍스트 분석이 가능했는데, 이후 다른 언어로 변경하는 것이 어려울 것이라고 생각하지는 않는다.

가령 매출채권 중 대손충당금이라는 항목이 있는데, 이게 전년도 대비 어떻게 됐으며 어떤 사유로 발생했는지 회계사가 주석으로 작성하게 된다. 이 주석이 한국어인지 영어인지만 차이가 있을뿐, 그것이 담고 있는 내용은 다르지 않다. 데이타솔루션은 영어를 포함한 외국어에 대해서도 자연어처리가 가능한 역량을 보유하고 있다. 따라서 향후 글로벌 시장 진출을 본격적으로 추진할 때 언어의 장벽에 가로막히는 일은 없을 것이다.

▲ 황영재 연구원
“‘리딧’은 데이타솔루션이 보유한 다양한 솔루션들과 결합해 다양한 시너지를 만들어낼 수 있을 것이다.”

Q. ‘리딧’은 기존에 데이타솔루션이 보유한 제품들과 어떤 시너지를 발휘할 수 있는지.
황영재 연구원:
이미 ‘리딧’에는 비정형 텍스트 데이터에서 개체명을 인식하는 ‘에이너(AI.NER)’라는 제품이 적용돼있다. ‘에이너’와 관련된 기술들은 ‘리딧’이 비정형 데이터에서 효율적으로 정보를 추출할 수 있도록 도움을 줬다.

또한 ‘리딧’이 출시된 이후에는 자사의 뉴스기반 동향분석 솔루션 ‘마켓마인드(MarketMind)’와의 시너지를 생각해볼 수 있다. ‘마켓마인드’는 특정한 이슈가 발생했을 때 다양한 지표들이 어떻게 움직이는지 상관관계를 분석하는 솔루션이다. 해당 기능은 주식 분야에서도 사용될 수 있는데, 가령 어떤 이슈가 반복적으로 언급됐을 때 특정 산업군의 주가가 어떻게 등락하는지 등을 분석하는 식이다. 이러한 정보와 ‘리딧’이 제공하는 신용평가 등을 함께 고려한다면 보다 정확히 기업에 대한 분석을 수행할 수 있을 것으로 예상한다.

데이타솔루션은 데이터 분야에 대한 전반을 모두 다루는 기업이니만큼 각각의 솔루션들이 서로 많은 영향을 주고받고 있다. 앞으로 ‘리딧’의 정확률을 올리는 등 제품의 성능을 더욱 향상시키는 과정에서 보다 다양한 제품들과 시너지 효과를 발휘할 수 있을 것으로 예상한다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지