[전문가 강좌] 인공지능 시대의 초성능 컴퓨팅

김강호 ETRI 데이터중심컴퓨팅시스템연구실장

[컴퓨터월드]

AI, 빅데이터 등을 중심으로 4차 산업혁명이 본격 시작됐다. 즉 미래 먹거리 시장을 둘러싼 패권경쟁이 본격화 된 것이다. 다시 말해 4차 산업혁명을 누가 주도해 나가느냐에 따라 국가 산업 및 경제 발전의 향방이 크게 달라질 수 있다는 것이다. 때문에 4차 산업혁명은 반드시 우리나라가 앞장서 나갈 수 있도록 여건을 만들어나가야만 한다는 게 전문가들의 지적이다. 특히 자원이 부족한 반면, 우수한 인력을 갖고 있는 만큼 잘만 하면 그 어느 나라에 못지않게 앞서 나갈 수 있다는 것이다. 통신 기술 및 인프라를 비롯해 SW 기술력 등을 많이 확보해 놓고 있기 때문이라는 것이다.

본지는 이에 따라 국내 ICT 산업 발전의 두뇌역할을 하고 있는 한국전자통신연구원(ETRI)에 의뢰해 미래 먹거리 및 일자리 창출에 지대한 영향을 미칠 것으로 판단되는 주요 아이템을 중심으로 관련 전문가들의 강좌를 1년 동안 게재한다. 즉 그들의 예리한 시각과 분석을 바탕으로 국내는 물론 세계 시장을 주도할 기술, 그 기술에 대한 글로벌 트렌드, 그 기술과 국내 기술과 맞물린 현 상황, 그리고 현안 문제 및 나아갈 방향 등을 짚어본다. <편집자 주>

■ 인간의 삶을 바꾸는 미래 ICT 전망 (2019년 11월호)
■ 바이오헬스 로봇의 현황과 전망 (2019년 12월호)
■ 인공지능 시대의 초성능 컴퓨팅 (이번호)
■ 사용자 통신환경을 바꾸어보자(User Cognitive Pervasive Networking)
■ 알파고 은퇴 후 컴퓨터 바둑 현황
■ 사이버 대변인
■ 미디어 부호화 기술의 현재와 미래
■ 자율 이동체 시각지능 기술의 미래(사람 눈보다 강건한 RGB-Lider 기술)

고도화된 기계학습 기반 인공지능 시대의 도래

인공지능의 개념 자체는 이미 20세기 초반부터 정립되기 시작해 짧지 않은 시간 동안 전산학의 주요 분야 중 하나로 인정받으며 연구되어 왔다. 두 번의 ‘겨울’을 거치며 큰 부침이 있었던 과거를 뒤로하고, 2000년대 등장한 딥러닝 기반 기계 학습 기술의 발전에 힘입어 오늘날 인공지능 기술은 과거와는 비교할 수 없을 수준으로 비약적인 성장을 이루어 냈다.

알파고의 사례에서 드러났듯이 특정 문제를 해결하는 지능의 수준은 이미 인간을 뛰어넘기도 했고, 인간처럼 사고하고 문제를 해결할 수 있는 미래 혁신적인 인공지능 기술 연구가 지금 이 순간에도 세계 곳곳에서 공격적으로 진행되고 있다. 인공지능 기술은 컴퓨터와 직접 관련된 분야를 뛰어넘어 산업 전반에 걸친 다양한 기술 혁신의 밑거름이 되었고, 4차 산업혁명의 핵심으로 인정받고 있다.

인공지능/딥러닝을 위한 컴퓨팅 기술 현황 및 한계

이처럼 인공지능 기술의 혁신이 가능하게 된 원인은 하나로 설명할 수는 없겠지만, 가장 중요한 원동력 중 하나로 컴퓨팅 성능의 비약적인 발전을 꼽을 수 있다. 막대한 연산량과 대규모의 데이터 처리를 위해 GPU(Graphics Processing Unit)를 위시한 강력한 성능의 하드웨어와 이를 지원하는 기반 소프트웨어 및 미들웨어, 그리고 직관적이면서 사용이 쉬운 인터페이스를 제공하는 기계학습 프레임워크 등 제반 컴퓨팅 환경의 획기적인 발전은 인공지능 혁명의 불씨가 되었다.

하지만 기술 발전과 더불어 고객이 요구하는 지능의 성숙도 및 해결하고자 하는 문제의 크기와 복잡도 또한 급격히 상승하고 있으며, 기존 컴퓨팅 기술에만 의존해서는 향후 인공지능에 요구되는 기술 수준을 만족시킬 수 없을 가능성이 매우 크다. 이에 따라 기존 컴퓨팅 기술의 한계를 뛰어넘어야 하는 혁명적 기술 혁신을 또 한 번 세상이 우리에게 요구하게 될 중요한 순간이 곧 다가올 것으로 전망된다.

미래의 인공지능을 위한 초성능 컴퓨팅 기술

거대 규모의 인공지능 데이터 처리 시 발생하는 성능병목 문제를 해결하기 위해, 기존 방식과는 근본적으로 다른 새로운 컴퓨팅 원천기술 개발이 필요하게 되었다. 특히 학습 단계에 필요한 대규모 데이터를 성능 저하 없이 효율적으로 접근할 수 있고, 높은 복잡도를 갖는 추론 작업을 실시간으로 처리할 수 있어야 한다. 이를 위해 단순 성능 개선 수준을 넘어선 컴퓨팅 패러다임의 전환이 필요하다.

여기에서는 인공지능 관련 컴퓨팅 기술 현황 및 새로운 인공지능 시대를 맞이하여 기존 고성능 컴퓨팅의 한계를 극복하기 위한 ‘초성능’ 컴퓨팅 기술을 간략히 소개한다.

1. 딥러닝 프레임워크

앞서 언급했듯이 인공지능 기술 혁명은 딥러닝 기반 기계학습 기술의 비약적인 성장에 힘입은 바가 매우 크다. 현재는 전문적인 지식 없이도 복잡한 딥러닝 기술을 활용해 손쉽게 솔루션 구축이 가능한 딥러닝 프레임워크가 널리 보급되어 여러 분야에서 폭넓게 활용되고 있다.

현재 가장 많이 사용되고 있는 구글의 텐서플로우(TensorFlow)[1]를 포함해 카페(Caffe), 마이크로소프트 코그니티브 툴킷(CNTK) 등 다양한 딥러닝 프레임워크가 공개되어 있으며, 더욱 간편하고 단순화된 인터페이스 지원을 위해 개발된 케라스(Keras) 또한 많이 사용되고 있다.

딥러닝 성능 향상을 위해 여러 대의 컴퓨터를 사용하는 분산 처리 기술도 널리 사용되고 있다. 크게 두 가지 분산 기술이 있으며, 그중 하나는 학습을 위한 데이터를 분산 처리하는 데이터 병렬처리(Data Parallelism)이고, 다른 하나는 딥러닝 모델을 여러 부분으로 나누어 분산 처리하는 모델 병렬처리(Model Parallelism)이다. 둘 중 하나를 선택해 적용하는 경우도 있고 둘을 병행해 함께 사용하는 것도 가능하다.

▲ <그림1> 텐서플로우의 그래프 처리 (출처: TensorFlow for Machine Intelligence)

2. GPU/FPGA 기반 기계 학습

딥러닝은 대규모 학습 데이터로부터 지능을 얻기 위해 일련의 단순 계산을 무수히 반복한다. 이러한 계산 방식은 소수의 복잡한 고속 연산 장치보다 많은 수의 작고 단순한 연산 장치에 의한 분산 처리가 훨씬 효율적이고 빠르다. 1990년대부터 그래픽 처리를 위해 개발된 병렬 처리 구조의 GPU는 인공지능 시대를 만나 주목을 받게 되었다. 이러한 수요를 대처하기 위해, 그래픽에 특화된 GPU를 딥러닝, 시뮬레이션 등과 같은 분야에 사용될 수 있도록 진화된 형태가 GPGPU(General-Purpose computing on Graphics Processing Units)이다.

하지만, GPU 혹은 GPGPU는 높은 전력 소모와 발열로 인해 유지비용이 많이 든다. 따라서 특정 연산을 하드웨어 수준으로 구현한 FPGA(Field Programmable Gate Array)나 ASIC(Application Specific Integrated Circuit) 기술이 최근 주목받고 있다. 또한, 하나의 GPU 혹은 GPGPU는 연산 처리와 메모리 크기의 제한으로 인해 늘어나는 대규모 데이터를 처리할 수 없는 한계를 극복하기 위해서, GPU 사이에 고속의 네트워크(통로)를 두어 서로 고속으로 통신할 수 있도록 하는 고속 GPU 접속 기술이 도입되고 있다[2].

▲ <그림2> CPU와 GPU 구조 비교 (출처: https://busy.org/@dutch/hardware-and-project-selection-part-1-cpu-vs-gpu

▲ <그림3> 다중 GPU 연결 (출처: https://www.ibm.com/blogs/systems/ibm-power8-cpu-and-nvidia-pascal-gpu-speed-ahead-with-nvlink/

3. 인공지능 가속기의 현재와 미래

딥러닝의 기반이 되는 심층 신경망의 학습이나 추론을 빠르게 수행하는 전용 하드웨어에 대한 수요가 점점 늘어나고 있다. 지금까지는 GPU와 같은 범용 장치가 많이 사용됐으나, 최근 NPU(Neural Processing Units) 혹은 TPU(Tensor Processing Unit)와 같이 주문형 반도체 개념으로 특정한 인공지능 신경망에 최적화시킨 장치가 출현하였고 기존 범용 장치와의 경쟁이 심화되고 있다.

이미 학습된 결과를 내재한 인공지능 신경망의 추론 성능에 특화된 NPU는 기업의 인공지능 서비스에 직접적인 영향을 주고 있으며, 2018년에 삼성전자가 출시한 엑시노스 9에도 자체 NPU가 포함되었다. TPU는 구글이 만든 텐서플로우에 최적화된 장치로서 알파고의 인공지능 연산속도를 높이는데 상당한 역할을 담당했다. 특히, 구글이 TPU를 직접 만들어 자체 클라우드에 내재화한 사건은 GPU를 쓰고 있던 기존의 클라우드 업체와 기업에 선택의 폭을 넓혀 주고 있다.

인간 뇌의 처리 방식을 본떠 뉴로모픽 칩을 만들고자 하는 시도가 꾸준히 이어지고 있는데, 특정 신경망 처리에 특화된 NPU, TPU와 같은 인공지능 가속기의 출현은 뉴로모픽 기술이 현실화한 기초적인 사례로 간주할 만하다. 이러한 뉴로모픽 기술은 모바일분야에서 자율주행차에 이르기까지 인공지능 연산을 신속하게 처리하려는 거대한 흐름에서 혁신을 촉발할 것이며, 한편으로는 GPU 등 범용 칩 제작사인 엔비디아(NVIDIA)와 같은 기업들에는 생존을 위한 본격적인 경쟁의 장이 부여될 것이다.

▲ <그림4> 뇌를 모방한 IBM의 TrueNorth 칩[3] (출처: https://www.ibm.com/blogs/insights-on-business/government/brain-inspired-computing-for-defence/

4. 메모리 중심 컴퓨팅

인공지능 적용 분야가 확대되면서 다루어야 하는 데이터의 규모도 증가하고 있다. 딥러닝의 학습 모델 규모와 학습 데이터의 크기가 현재 수백 MB 규모에서 TB급 이상으로 꾸준히 증가할 것으로 전망되고 있다[4]. GPU/FPGA/AI 칩 등 인공지능 가속 기술이 급격히 발전하는 것과 비교해 상대적으로 학습과 추론에 필요한 데이터를 공급하는 메모리/스토리지가 새로운 병목지점으로 지적되고 있다[5].

현재 GPU 메모리는 꾸준히 증가하고 있기는 하지만 여전히 GPU 내장메모리가 부족한 경우가 발생하며, GPU 여러 대를 연결해 메모리를 연동하는 방법 (NVLink, GPUDirect 등), GPU 메모리와 호스트 메모리를 합치는 기술(vDNN) 등이 시도되고 있다.

이처럼 인공지능 응용에서 요구하는 빠른 데이터 접근성을 만족시키기 위해서는 컴퓨팅 플랫폼에서 메모리를 중심으로 새로운 고민이 필요한 시점이다. 데이터베이스, 빅데이터 분석 등에서 활용되는 기존 인메모리 컴퓨팅 기술을 인공지능 응용의 데이터 접근성과 데이터 플로우 입장에서 재조명할 필요가 있으며, 장기적으로는 새롭게 등장하고 있는 비휘발성 메모리 소자(인텔 옵테인 등)와 새로운 인터커넥트(NVMe, Infiniband 100G, Gen-Z, 인텔 CXL) 등을 기반으로 기존 컴퓨팅 플랫폼과 개념이 다른 완전히 새로운 컴퓨팅 플랫폼을 구성하려는 움직임도 있다.

새로운 컴퓨팅 플랫폼을 개발하려는 시도로는 인텔의 랙 스케일 디자인(Rack Scale Design), HPE 주도의 The Machine 등 메모리 중심 컴퓨팅 구조를 들 수 있으며, 이는 기존의 프로세서 중심 컴퓨팅과 대비되는 구조이다. 전통적인 프로세서 중심 컴퓨팅에서는 프로세서와 메모리로 구성된 서버들이 상대적으로 느린 네트워크를 통해 정보를 교류하면서 데이터를 처리한다. 이때 상대적으로 느린 네트워크가 병목지점이 되는 현상이 발생한다. 이는 마치 아무리 머리 좋은 사람이라도 말, 글을 통해 상대방과 소통해야 할 때 답답함을 느끼는 것에 비유할 수 있다.

반면에 새롭게 시도되는 메모리 중심 컴퓨팅 구조는 생각과 기억을 순간적으로 교감할 수 있는 텔레파시에 비유될 수 있다. 메모리 중심 컴퓨팅에서는 CPU, GPU, FPGA 등 다수의 프로세서가 메모리 버스 수준의 직결망을 통해 중앙의 대용량 메모리 풀에 연결된다. 이들은 마치 전용 메모리를 사용하는 것처럼 메모리 읽기/쓰기(Load/Store) 명령을 통해 대용량 메모리 풀에 직접 접근한다. 이를 통해 기존 인메모리 컴퓨팅의 한계를 벗어나 더욱 큰 데이터를 더욱 빠르게 처리할 수 있을 것이다.

아직 메모리 중심 컴퓨팅이 가야 할 길은 멀다. 새로운 구조의 활용 사례를 발굴해야 하며, 이를 위한 시스템 소프트웨어부터 응용 소프트웨어까지 많은 부분이 새롭게 정의되어야 한다. 이를 위해 국내에서도 ETRI를 비롯해 삼성전자, SK 하이닉스 등에서 관련 기술을 연구하고 있다. 기존 컴퓨팅 방식이 한계에 다다른 지금 새로운 컴퓨팅 플랫폼을 연구할 기회일 수 있다.

결론

지금까지 인공지능 기술 발전의 원동력이 되어온 컴퓨팅 기술의 최신 현황과 미래의 신개념 지능정보 기술을 대비하기 위한 초성능 컴퓨팅 관련 선도 기술 연구내용을 간략히 소개했다. 소프트웨어 수준의 딥러닝 프레임워크와 GPU를 포함한 FPGA, TPU, 뉴로모픽 칩 등 인공지능 가속기 기술을 설명하고 기존 컴퓨팅 패러다임을 새롭게 전환하는 메모리 중심 컴퓨팅 기술에 대하여 설명했다.

인공지능의 장래는 밝으며, 앞으로도 무궁무진한 발전 가능성을 가지고 있다. 지금으로서는 상상조차 하기 어려운 높은 수준의 인공지능 기술을 기반으로 한 지능정보사회 실현을 위해, 기존 컴퓨팅의 한계를 극복하는 초성능 컴퓨팅 기반기술의 연구개발은 앞으로도 활발히 이루어질 것이다.

참고문헌

[1] Google, TensorFlow, https://www.tensorflow.org
[2] NVIDIA, NVLink 및 NVSwitch 상호 연결 기술, https://www.nvidia.com/ko-kr/ data-center/nvlink/
[3] IBM, Neuromorphic devices & systems, https://www.zurich.ibm.com/st/neuromorphic/
[4] Nature Electronics, 2018
[5] Forrester, 2019

김강호 @

다른기사 보기

상단영역

본문영역

[전문가 강좌] 인공지능 시대의 초성능 컴퓨팅

김강호 ETRI 데이터중심컴퓨팅시스템연구실장

기사 댓글 0

비회원 로그인