서강대 딥러닝 연구실, 3세대 스레드리퍼 도입 후 작업 속도 50% 단축
서강대 딥러닝 연구실, 3세대 스레드리퍼 도입 후 작업 속도 50% 단축
  • 김현동
  • 승인 2021.01.05 00:23
  • 댓글 0
이 기사를 공유합니다

[2021년 01월 05일] - 안면 인식은 스마트폰 잠금 해제 기능으로 쓰일 정도로 흔해졌고, 도로 위에 설치된 CCTV는 사람과 사물을 분류할 정도까지 진화했다. 중국에서는 이를 통해 자국민 통제에 활용할 정도라고 하니 달라진 세상사는 그저 놀라움의 연속이다. 이미지를 픽셀 단위로 분리해서 분석하는 기술은 인간의 일상에 파고들었다.

바야흐로 우리가 머무르고 있는 2021년 지금이 곧 미래로 향하는 과도기이며, 진화 속도는 더욱 빨라지는 추세다. 현대차가 인수한 보스턴 다이내믹스는 이족보행하고 백덤블링하는 인간형 로봇을 선보였다. 엘론머스크는 자율주행하는 테슬라 자동차를 판매한다. 우주 탐사도 계획 중이다. 말도 안 되던 일이 실제로 벌어지고 있다.

단지 사람의 능력으로? 아니다. 지금까지 습득하고 진화하던 것을 인간만의 방식이라 여겼다면 그건 착각이다. 이제는 기계가 비슷한 알고리즘으로 학습하고 진화한다. 과거 이세돌과 구글 알파고의 대결은 인간에게 더는 자만하지 말 것을 각성하게 만든 신호탄이다. 사람의 능력을 넘어선 다차원 시대를 여는 키는 다른 데 있다.

미래를 여는 핵심. 인공지능·머신러닝·딥러닝을 연구하다.


서강대학교 기계학습 연구실 김태훈 박사의 연구 분야는 딥러닝이다. 학습하고 분석하며 깨우치게 하는 방법은 쉽게 말해 반복적인 프로세스를 의미하기에 결과를 마주하기까지 무수히 많은 시간을 수반한 수학적인 과정을 거친 후에야 비로소 하나의 결과를 도출한다. 이러한 기법은 오래전에 정립한 것임에도 지금에서야 화두가 된 것은 과거의 기술로 실현하기에는 한계가 따른 까닭이다.


“90년도만 해도 평생을 연구해도 제대로 된 결과를 보기 힘들었어요. 숙원이라 표현할 정도로 오랜 세월이 걸리던 분야였던 거죠. 학습을 거치는 한 사이클을에폭이라고 합니다. 이미지 데이터를 인식하고 분석해서 모델링을 도출하는 과정이라면, 계산 한 번에 10년이 걸렸어요. 그러던 것이 지금은 짧으면 6개월에서 길게는 1년이면 됩니다.”

기술의 진화가 몰고 온 혁신은 오늘날 현대인이 누리고 있는 풍요를 끌어냈다. 그런데도 아직도 가야 할 길이 멀다. 아직도 현재 과도기적인 기술이기에 속도는 더디기만 하다. 그런데도 수년 전과 비교하면 무수히 단축된 처리 속도이기에 결과는 오랜 기다림을 요구하지 않는다. 여기서 주목할 점이라면 슈퍼컴퓨터라 일컫는 장비가 아닌 고성능 컴퓨팅 파워로 가능한 결과물이란다.

하지만 이 과정에서 자연스럽게 비중이 성능으로 실리자 불필요한 오해도 생겨났다. 일반적으로 주목하는 딥러닝 시스템만 해도 고성능 GPU 도입을 당연시 여겼고 족히 서너 장이 들어가면서 이들 시스템은 수천만 원을 호가한다. 엔비디아 RTX3000시리즈라고 한다면 가장 최상위 모델인 3090이 없으면 안 될 것처럼 호들갑 떨었던 것은 제대로 된 이해 없이 추종하던 무지에서 비롯된 잡음이라고.

“딥러닝 연구를 예로 들게요. CPU와 GPU의 역할은 정확히 나뉘어 있습니다. 흔히들 고성능 GPU 시스템을 무조건 갖춰야 한다고 생각을 하면서 품귀 상태인 제품까지 웃돈 들여 사들이고 큰돈 들어 장비를 도입합니다. 용도에 따라 차이는 있지만, GPU는 2000 시리즈도 충분합니다. 갤리선을 떠올리면 돼요. 박자에 맞춰 노만 저으면 배는 앞으로 나아가는데요. GPU는 노를 젓는 사람인 거죠.


이러한 구도에서 나아갈 방향을 결정할 선장의 역할은 CPU가 합니다. 중요도 우선순위를 매기자면 CPU가 1순위라는 거죠. CPU 코어가 적재적소에 GPU 쿠다 코어에 처리해야 할 업무를 나누어 줘야 처리가 원활하게 이뤄집니다. GPU 1개에 쿠다 코어가 3,000개 정도 있다고 치면, 8장을 사용하면 약 2만 4천 개 코어가 되죠. CPU가 업무를 나누어 줘야 하는 숫자에요. CPU 코어 수가 많을수록 유리하다는 의미죠. 지피유도 중요하지만 시피유는 더 중요합니다.”

그 점에서 산업용 시스템에서 표준이라 손꼽히던 I사 제온 시피유의 높은 몸값은 부담스러웠다. 코어 숫자만큼이나 덩달아 상승하는 가격은 예산이 한정된 분야에서는 도입을 주저할 정도였다고 말한다. 급기야 가격에 맞추려다 보면 다운그레이드는 불가피하던 상황. 이때 김태훈 박사의 시선에 들어온 건 AMD였다. 동일한 예산이라면 더욱 풍족한 선택지가 될 AMD 스레드 리퍼 3세대로 눈을 돌리면서 많은 점에서 변화가 생겼다.

비용 절감 효과 우뚝. 효율 유연 3세대 스레드리퍼 운용


연구 작업에는 필수적이던 고성능 시스템. 그리고 이 과정에서 합리적인 대안이 된 스레드리퍼를 선택하면서 가용 예산 범위 내에서 용도와 목적에 충분한 컴퓨팅 파워가 뒤따랐다. AMD로 타협을 보면서 GPU 한 장을 더 추가해도 될 정도의 예산에 여유가 발생한 것은 예상치 못했던 보너스라고. 과거 1950X 시스템이 1주일 작업해야 결과 하나를 간신히 마주할 수 있었다면 이제는 3세대 시스템으로 3박 4일 정도면 충분했다.

넉넉한 코어 숫자는 작업환경을 구성하는 용도에도 유리한 조건이다. 가상 머신으로 리소스를 할당할 경우 스레드리퍼 3세대 3990X 기준 물리적 코어는 64개. 128스레드가 제공됐다. 코어 할당에 필요한 숫자는 타이탄 VGA 1장 기준 최소 기준이 8개부터 시작하는 것을 고려한다면 연구원 3명이 시스템 한 대로 충분한 가용자원을 누리며 작업이 가능했다.

“연구실에서는 시스템 한 대를 가지고 리눅스 환경에서 가상머신을 설치해 시스템 자원을 연구원 수 만큼 할당해서 사용합니다. 일종의 도커 컨테이너를 만들어 내부에 또 다른 시스템 환경을 구축해 확장해나가는 개념이죠. GPU 한 대당 CPU 코어는 최소 8개를 할당해야만 작업이 원활합니다. 딥러닝 시스템에 보통 타이탄 VGA가 3장 장착되니 물리적 코어 64개면 여유롭게 배분 가능한 숫자에요. 코어 숫자가 줄어들면요? 사용 가능한 숫자도 줄어들기에 딥러닝 환경에서 CPU 코어 수는 사실상 활용성을 좌우합니다.”


충분한 검증 과정도 끝났다. 시스템을 맞추면 VGA는 비교적 쉽게 교체를 보장하지만, CPU는 다양한 문제를 고려해야 한다고. 머신러닝 시스템 같은 경우 일반 PC와 달리 한번 작업 시 최소 1주일 이상은 연속 가동하기에 애초에 문제가 있어서는 안 되는 조건이다. 연구실에서 사용하는 제품 또한 이러한 요구 조건을 충족할 수 있게 실력 있는 조립업체에 의뢰해서 제작했다. 그 과정에서 기존에 의뢰했던 곳이 얼마나 실력이 없었는지에 대해서도 알게 되었다고.

두 번째는 완성도다. 1세대 제품도 연구용으로 보유하고 있으나 3세대만큼 안정적인 제품도 없다고 설명한다. 세대가 올라가면서 현업에서 요구하는 아키텍처를 프로세서 단위에서 수용하면서 개선이 되었고 많은 부분에서 편리함을 제공한다는 것. 특히 리눅스는 세팅 과정이 윈도우 만큼 유연하지 않기에 애초에 검증되지 않은 제품에 대해서는 불친절하지만 1세대에서 3세대로 넘어가면서 더 편해졌음을 언급했다.

물론 초기 AMD 스레드리퍼를 도입할 당시만 해도 주변의 우려가 없던 것도 아니다. 정작 도입하고 사용해보니 전혀 문제없이 동작했고 최근에 끝낸 논문 작업에는 약 6개월 시일이 소요됐는데 에러 한번 없이 한 번에 작업을 끝냈다. 수일에서 수개월이 걸리는 작업이 중간에서 문제가 생길 경우 처음부터 디시해야 하는 점을 고려한다면 관련 업계에서 기존 브랜드를 선호하는 모습을 충분히 이해할 수 있는 점이었다고 첨언했다.

연구 현장에서 인텔은 정답으로 통하지만, 김태훈 박사는 AMD로 눈을 돌렸고, 예상치 못한 부분에서도 효과를 체감할 수 있음을 강조한다. 제품이 좋다 나쁘다는 차원이 아닌 선택 당시에는 예산이라는 조건 충족에 유리한 브랜드였고, 실제 딥러닝 장비로 도입해 구동하면서부터는 기대 이상의 유연한 효율 덕분에 작업 진행에 탄력이 불었음을 체감하고 난 이후 확신은 더욱 굳어졌다. 결코 틀린 선택이 아니라는 확신이다.


By 김현동 에디터 hyundong.kim@weeklypost.kr
〈저작권자ⓒ 위클리포스트, 무단전재 및 재배포 금지〉