데이터스트림즈 김현철 제품사업본부 전무

데이터스트림즈 김현철 제품사업본부 전무

[컴퓨터월드] 기업 및 조직들은 데이터가 비즈니스를 혁신할 수 있다는 이유에서 웨어하우스(DW), 데이터 레이크(DL) 등에 수많은 데이터를 저장해왔다. 그러나 데이터를 단순 저장만 해서는 비즈니스를 혁신할 수 없다는 점을 인지하기 시작했다. 누구나 데이터를 잘 활용할 수 있는 환경을 마련해야 한다는 것이다. 이런 상황에서 비(非) IT직군(현업)이 데이터를 수시로 활용할 수 있는 환경을 의미하는 ‘데이터 패브릭(Data Fabric)’이 데이터 활용을 위한 혁신 기술로 주목받고 있다. 관련 비즈니스를 영위하는 기업에게도 많은 관심이 쏟아지고 있다.

이들 기업 중에서도 데이터 패브릭을 구현하기 위해 요구되는 데이터 거버넌스, 통합, 가상화 레이어 등 모든 솔루션을 보유한 기업이 있다. 바로 데이터스트림즈(대표 이영상)다. 데이터스트림즈에서 데이터 패브릭 비즈니스를 진두지휘하고 있는 김현철 제품사업본부 전무를 만나 데이터스트림즈의 솔루션과 비즈니스 전략을 들어본다.


데이터 활용 요구 저변 확대에 각광

데이터는 4차 산업혁명의 원유로 꼽힌다. 산업군을 막론하고 기업들은 자체 생산 데이터부터 외부 데이터까지 끌어모으기 시작했다. 하지만 데이터를 수집하기만 해서는 데이터의 효용가치를 살릴 수 없다는 점을 인지하고 서서히 데이터를 잘 활용할 수 있는 체계를 만들고자 하는 기업과 조직들이 늘어나기 시작했다. 실제로도 마케팅, 영업, 기획 전략 등 비(非) IT 직군에서 데이터를 분석해 업무에 적용하고자 하는 수요가 늘어났다.

하지만 데이터를 활용하기 위해선 IT부서에 데이터를 요청하고 받기까지의 과정이 적게는 5일, 많게는 2달까지 소요되곤 했다. 그렇다고 비 IT 직군이 원하는 데이터를 직접 저장소에서 가져올 수는 없었다. 전문지식, 보안 권한 등 제약 요건이 존재하기 때문이다.

그럼에도 직접 데이터를 현업에 활용하고자 하는 수요가 점차 늘어났고, 생성형 인공지능(AI) 등을 계기로 데이터 활용 저변이 확대되기 시작했다. 기업들은 ‘사용자 중심의 데이터 활용 전략’을 고심할 수밖에 없었다. 이에 해답으로 떠오른 것이 바로 ‘데이터 패브릭(Data Fabric)’이다. 데이터 패브릭은 데이터를 활용하고자 하는 ‘데이터 소비자’에 역점을 둔 아키텍처다.

데이터 패브릭 개념에 대해 데이터스트림즈 김현철 제품사업본부 전무는 “데이터 패브릭은 데이터 거버넌스를 토대로 데이터 활용성을 제고하고 비즈니스 가치를 만들 수 있는 데이터 플랫폼의 새로운 디자인 개념이자 아키텍처 전략이다”라면서 “직물을 뜻하는 ‘패브릭’이라는 단어처럼 데이터들이 씨줄과 날줄이 얼기설기 엮인 것을 의미한다. 사일로화된 데이터를 가상의 직물을 덮어 연결한다는 개념이다. 가상화된 직물에는 기업 및 조직이 보유한 다양한 형태의 데이터가 잘 정돈돼 통합돼 있기에 IT 역량이 부족한 데이터 소비자도 쉽게 데이터를 찾고 가져올 수 있다”고 설명했다.


데이터 수집부터 시각화까지 전 제품 제공

데이터 패브릭은 데이터 패브릭을 위해서는 데이터를 수집 및 처리하는 과정이 필요하다. 데이터 소스는 크게 기업 내 ERP(전사적자원관리), CRM(고객관계관리) 등 운영계 시스템에서 수집된 정형 데이터와 IoT, 이미지 등 외부에서 확보한 비정형 데이터로 나뉜다. 이후 데이터를 표준화하는 작업을 수행해야 한다. 이에 대해 김 전무는 “A부서에서는 휴대폰을 ‘핸드폰’으로, B부서에서는 ‘스마트폰’으로 서로 다르게 저장할 수 있다. 이는 데이터가 통합될 경우 같은 종류의 데이터임에도 다른 데이터로 치부되면서 별도의 테이블로 구성된다. 그렇기에 메타데이터를 표준화하는 작업이 반드시 진행돼야 한다”고 부연했다.

이후 데이터 소비자가 데이터 원천 소스들에 접근할 수 있는 가상화된 레이어(Virtual Layer)를 구성한다. 가상화된 레이어를 구성하는 방법은 별도의 스토리지 기반 저장 공간을 할당해 만들거나, 소비자가 필요할 때마다 메모리를 할당해 가상의 레이어를 구축하는 등 다양하다. 방법은 기업마다 다르지만, 가상화된 레이어를 통해 데이터 소비자의 요청에 따라 원천 소스에 존재하는 데이터들을 매핑하고 API나 SQL로 가져오는 것이다.

데이터스트림즈 김현철 제품사업본부 전무는 “자사는 ‘테라원 슈퍼쿼리’ 제품을 통해 모든 데이터 소스의 메타데이터를 가상화하고 소비자가 필요할 때마다 하나의 쿼리로 원하는 데이터에 접근할 수 있도록 한다. 데이터 증가에 대비한 스케일 아웃을 지원하며, 인메모리(In-Memory) 분산 처리로 최적의 성능도 제공한다”고 말했다.

데이터스트림즈는 ‘데이터 패브릭 구현에 필요한 전(全) 솔루션을 보유하고 있다’는 점을 강조하고 있다. 실제로 데이터스트림즈는 ‘테라원(TeraONE)’이라는 통합 플랫폼을 통해 데이터 패브릭에 필요한 세부 솔루션들을 제공하고 있다. 테라원은 빅데이터 수집·가공·저장부터 데이터 거버넌스, 데이터 가상화, AI 분석, 빅데이터 관리 기능을 통합·제공한다.

크게 데이터 레이크를 지원하는 ‘스탠더드’ 버전, 수집부터 시각화까지 데이터 분석의 전 과정을 지원하는 ‘프로페셔널’ 버전, 데이터 거버넌스 기반 데이터 가상화를 지원하는 ‘패브릭’ 버전 등 3가지로 구성돼있다.

데이터스트림즈 김현철 전무는 “데이터스트림즈는 DW 분석이 각광받던 시절부터 쌓아온 데이터 전문 관리·활용 기술력과 이 기술력이 잘 녹아든 솔루션을 토대로 기업 및 조직의 데이터 활용 환경을 혁신하도록 돕고 있다. 실제로 근로복지공단과 NH농협생명에 데이터 패브릭 구현 사업을 수행한 바 있다. 근로복지공단에서는 클라우드 기반 빅데이터 플랫폼을 구축했고, 테라원 슈퍼쿼리로 가상화 데이터 정보 관리를 지원했다. 또한 시뮬레이션 화면, 분석 포털 등을 개발했다. NH농협생명에는 빅데이터 분석 기반의 경영 혁신과 고객 마케팅 강화 효과를 거두고자 다양한 종류의 데이터를 가상화 레이어에서 통합 및 분석할 수 있는 차세대 빅데이터 플랫폼을 구축했다”면서 “이 같은 풍부한 구축 경험과 14종의 솔루션을 토대로 국내·외 기업들의 데이터 활용 환경을 혁신하도록 적극적으로 지원하겠다”고 강조했다.

다음은 데이터스트림즈 김현철 제품사업본부 전무와의 인터뷰를 일문일답으로 구성한 것이다.

데이터스트림즈 김현철 제품사업본부 전무는 “데이터스트림즈는 데이터 통합, 표준화, 데이터 품질관리, 계보관리, 카탈로그, 가상화 등 데이터 패브릭에 필요한 전 솔루션을 보유하고 있다. 이 솔루션들을 단 하나의 통합 플랫폼 ‘테라원’으로 지원하고 있다”고 강조했다.


“데이터 카탈로그 및 거버넌스 작업 선행돼야”

Q. 데이터 패브릭을 구현하는 과정은.

A. 데이터스트림즈의 제품을 적용하며 설명하겠다. 데이터 수집 및 처리, 메타데이터 표준화, 데이터 카탈로그 구성, 데이터 거버넌스 체계 마련, 데이터 가상화 레이어 구축 등이다. 우선 데이터 패브릭을 위해서는 데이터를 수집 및 처리하는 과정이 필요하다. ERP, CRM, 컨택센터 등에서 수집된 데이터, 외부 데이터 등을 테라원을 통해 수집·처리, 통합할 수 있다. 구체적으로 ‘테라원 팩트’, ‘테라원 테라솔트’, ‘테라원 테라TDS’ 등으로 데이터를 추출, 소팅, 가명화할 수 있다. 이후 ‘테라스트림’을 통해 데이터를 통합하고 ‘델타스트림’으로 실시간 변경 데이터를 적재(CDC)할 수 있다.

이후 데이터 데이터의 품질을 높이고 적절히 활용하기 위해서는 거버넌스 체계를 마련해야 한다. 데이터스트림즈는 거버넌스 플랫폼 ‘이루다’를 통해 데이터 위치·분류·설명·관계 등을 제공해 전사 데이터 거버넌스 구축을 지원하고 있다. 아울러 데이터 표준, 메타데이터 관리 기능, 비즈니스 메타데이터 관리, 데이터 품질관리, 데이터 계보관리, 마스터데이터관리 기능 등도 제공한다.

마지막으로 정리된 데이터를 물리적으로 모으지 않고도 찾을 수 있도록 만드는 데이터 가상화를 구축한다. 자사는 테라원 슈퍼쿼리는 모든 데이터 소스의 메타데이터를 가상화해 필요할 때 하나의 쿼리로 원하는 데이터에 접근할 수 있도록 해준다.

통상 데이터 패브릭 구축 소요 기간은 기업 및 조직의 데이터 환경에 따라 상이하지만, 짧으면 6개월에서 길면 8개월까지 소요된다. 이 중 4개월은 데이터를 표준화하는 데 쓰인다. 기업 및 조직의 데이터 관리가 잘 돼 있다면 기간은 짧아질 것이다.

Q. 데이터 가상화는 무엇인가.

A. 쉽게 말하면 가상화된 레이어를 구성하는 것을 의미한다. 기존에는 분석을 위해 DW, 데이터마트 등을 구성하고 데이터들을 따로 모으는 과정을 수행했다. 이는 중간에 실제로 물리적인 저장소를 두는 것이다. 하지만 구축하기 위해선 비용과 시간이 상당히 많이 들고 IT 전문지식이 요구된다. 현업에서 필요한 데이터를 1~2분 내로 찾고 가져오기에는 적합하지 않다. 이를 데이터 소비자가 필요할 때마다 가상화된 레이어를 만들 경우 데이터를 빠르게 검색, 확보할 수 있다. 특히 가상화된 레이어에 접속해 SQL이나 API가 아니더라도 최근에는 생성형 AI인 챗GPT를 연동해 자연어로 원하는 데이터만 찾아올 수도 있다.

Q. 가상화된 레이어가 존재하면 성능 부하는 없는가.

A. 가상화된 레이어는 메모리를 기반으로 데이터를 처리하기 때문에 성능 저하는 없다. 메모리가 비교적 저렴해졌다고 하더라도 가상화된 레이어를 무한정 늘릴 수는 없다. 이 경우에는 메모리가 아닌 파일로 처리하기도 한다. 파일로 처리한다는 의미는 텍스트 형태로 디스크에 넣는 방식이다. 빠르게 처리해야 한다면 메모리를, 비교적 천천히 처리해도 무방하다면 파일로 처리하면 된다.


“데이터 패브릭 시장 개화…공격적 영업도”

Q. 시장은 형성됐다고 보는가.

A. 완전히 시장이 열리지는 않았다. 올해부터 데이터 패브릭 시장이 개화할 것으로 예상된다. 가트너가 IT트렌드 분석을 위해 매년 10대 기술을 제시, 성숙도에 따라 그래프로 표기해 발표하는 ‘하이퍼사이클(Hype Cycle)’에 따르면, 2~3년 후 데이터 패브릭 시장이 만개할 것으로 예상된다. 2026년에는 시장이 무르익을 것으로 예상된다. 이 외에도 가트너의 보고서에 따르면, 글로벌 데이터 패브릭 시장의 경우 올해 데이터 패브릭 시장의 구체적인 수치는 공개되지 않았지만 40%에 달하는 성장률을 보인다. 특히 마이크로소프트(MS)가 지난해 글로벌에 공개했고 올해 1월 국내에 출시한 ‘MS 패브릭’ 플랫폼을 오픈 AI와 함께 전면에 내세운 것 역시 시장이 서서히 열릴 것이라는 점을 암시하고 있다.

산업으로 보면 제조업이 가장 먼저 열릴 것으로 예상된다. 스마트팩토리에서 발생하는 데이터를 토대로 실시간으로 분석하고 의사결정의 근거와 속도를 향상할 수 있다는 이유에서 제조업 기업들의 관심을 받고 있다.

Q. 데이터스트림즈의 데이터 패브릭 비즈니스 전략은.

A. 자사가 데이터 패브릭 비즈니스 강점으로 주장하는 것은 데이터 패브릭을 구현하기 위한 솔루션을 통합 플랫폼 형태로 보유하고 있고, 14종의 제품을 모듈화해 개별적으로도 공급할 수 있다는 점이다. 데이터 수집, 저장, 통합, 관리, 활용, 시각화 등 데이터 분석에 필요한 모든 솔루션을 보유한 기업은 데이터스트림즈뿐이다. 가트너 역시 우리 제품 포트폴리오를 보고 상당히 놀라기도 했다.

단순하게 데이터 패브릭이 좋다고 강조하는 것이 아닌 데이터 패브릭이 고객의 어떤 업무에 어떻게 이용될 수 있고, 이를 통해 업무 효율성이 얼마나 높아지고 가치를 얻을 수 있는지에 중점을 둬 영업활동을 전개할 것이다.

올해부터 공격적인 영업활동을 전개하기 위해 조직도 재편했다. 기존 영업 인력의 70~80%를 교체했다. 기존 인력들은 솔루션만을 판매하기 위해 영업했었다. 우리의 영업 방향성이 바뀐 이상 고객의 업무 혁신에 역점을 두고 영업활동을 할 수 있는 전문가들로 교체하는 것이 옳다고 판단했다. 지난 10월부터 영업조직을 개편했고, 지난달 말게 모두 재편이 마무리됐다.

데이터스트림즈는 제조업을 선제적으로 겨냥하고 있다. 제조업 특화 사업 설명회, 세미나 등에서 데이터 패브릭을 제시하고 있다. 제조기업의 데이터 환경에 맞춰 데이터 거버넌스 체계 구현이 선행돼야 할 경우 점진적으로 전환하자고 제안하기도 한다.

Q. 데이터 패브릭이 데이터를 활용하고자 하는 기업 및 조직에 줄 수 있는 가치는.

A. 크게 2가지다. 먼저 기업의 거버넌스 체계를 재정비할 수 있다는 점이다. 데이터 패브릭 구현 작업을 수행하며 중구난방으로 데이터가 흩어지고 체계가 정립되지 않았다면 데이터 패브릭으로 통일시키고 거버넌스 체계를 만들 수 있다는 점이다.

아울러 업무 프로세스를 단순화할 수 있다는 점이다. IT조직에 필요한 데이터를 요청하고 받기까지 불필요한 업무 프로세스부터 받은 데이터를 분석 업무에 적용하기까지 복잡한 프로세스를 데이터 패브릭을 통해 단순화할 수 있다. 실제로 글로벌 자동차 기업인 재규어의 경우 데이터 패브릭을 통해 기업의 가치를 3배, 의사결정 과정을 120배 빠르게 개선한 것으로 알려진다.

이 외에도 데이터스트림즈를 통해 데이터 패브릭을 구현할 경우 성능도 보장받을 수 있다. 최근 업계에 따르면 특정 글로벌 기업의 데이터 패브릭 제품이 성능 이슈가 있었던 것으로 알려진다. 항간에는 데이터 거버넌스 제품과 데이터 패브릭 제품 간의 호환, 연결에 문제가 있던 것으로 알려진다. 데이터스트림즈는 데이터 패브릭 구축에 필요한 전 제품을 독자적으로 공급할 수 있기에 고성능을 보장할 수 있다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지