빅데이터 기반의 데이터 가상화 솔루션

▲ 테라원 슈퍼쿼리

[컴퓨터월드] 지난 10여년 동안 빅데이터 시장은 오픈소스 중심의 빅데이터 레이크가 주도해왔다. IT 시스템의 효율성을 위해 수많은 기업들이 빅데이터 레이크에 많은 비용을 투자했지만 활용할 만한 데이터가 부재할 뿐만 아니라, 효율적인 정형 데이터 관리의 한계에 봉착했다. 최근 이러한 기업의 고민을 해결할 수 있는 ‘빅데이터 패브릭(Big data Fabric)’ 개념이 각광받기 시작했다.<편집자 주>


‘빅데이터 패브릭(Big data Fabric)’은 데이터 거버넌스를 기반으로 기존 빅데이터 레이크 기술에 이기종의 다양한 데이터를 물리적 이동없이 가상화 레이어에서 통합 및 분석할 수 있는 기술이 접목된 개념이다.

▲ 빅데이터 플랫폼 발전 동향

최근 데이터스트림즈가 출시한 ‘테라원 슈퍼쿼리(TeraONE SuperQuery)’는 이러한 빅데이터 패브릭 전략을 완성시킬 수 있는 데이터 가상화 기술이 구현된 제품이다.


테라원 슈퍼쿼리의 주요 기능

1. 이기종 DBMS 가상화
서로 다른 DBMS 데이터를 하나의 공통 DB내에 있는 것처럼 가상화해 처리함으로써 물리적인 데이터 통합과정을 생략할 수 있다.

2. 데이터 통합 자동화
사용자가 실행한 SQL을 분석해 자동으로 소스DB로부터 데이터를 추출, 통합하는 기능을 제공한다.

3. 다양한 분석 환경 지원
JDBC 인터페이스를 이용해 일반 Web프로그램 및 OLAP/BI 도구와 연계, SQL 쿼리 결과 화면을 즉시 구현할 수 있다.

4. 고속SQL 기능 지원
인메모리 분산 처리 기능으로 디스크 기반 대비 약 5배 빠른 고성능 SQL 쿼리 성능을 보장한다.

5. 빅데이터 연계
대용량 하둡(Hadoop)데이터를 RDBMS 데이터와 통합할 수 있다.

6. 쿼리 대상 데이터 신뢰도 수준(DQL _ Data Quality Level) 제공
쿼리 대상 소스 데이터에 대한 표준, 품질 수준을 사전에 측정해 쿼리 질의 결과에 대한 데이터 신뢰도 수준을 제공한다.

▲ 테라원 슈퍼쿼리 시스템 아키텍처

테라원 슈퍼쿼리의 특장점

1. 데이터 검색 및 발견 용이
데이터의 유형, 구조, 위치와 상관없이 표준 SQL을 이용해 One Query로 원하는 데이터를 쉽게 찾아 통합할 수 있다.

2. 다양한 데이터에 빠르게 접근 및 통합 자동화
고속 추출 엔진인 Fact와 고성능 분산 컴퓨팅 프레임워크인 아파치 스파크(Apache Spark)를 패킹해 각기 흩어져 있는 다양한 소스 데이터에 빠르고 유연하게 접근해 연산 처리가 가능하다.

3. 안정적인 메타데이터 활용
데이터 소스가 존재하는 물리적 저장소에 직접적으로 접근하지 않더라도 분석하고자 하는 데이터 소스에 대한 정보를 메타 데이터를 참조해 조회가 가능하다. 각기 흩어져 있더라도 하나의 데이터베이스처럼 빠르게 접근해 분석에 활용할 수 있다.

4. 다양한 OLAP, BI툴과 연계 구현
JDBC 인터페이스를 이용해 일반 Web 프로그램 및 OLAP, BI 도구과 연계해 쿼리 결과 값을 구현할 수 있다.

5. 데이터 보안 강화
데이터를 분산 복제해 장애에 의한 데이터 유실을 방지하고, 각 데이터에 대한 접근 권한을 관리해 보안을 강화할 수 있다.

6. 데이터 활용 관점의 거버넌스 강화
데이터 분석가 관점에서 활용하는 소스 데이터의 신뢰도 수준을 제공함으로써, 지속적인 데이터 거버넌스 강화 활동이 가능하다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지