그래프코어 "Bow Pod·ResNet-50 모델 훈련서 엔비디아 DGX-A100 보다 31% 우수"
그래프코어 "Bow Pod·ResNet-50 모델 훈련서 엔비디아 DGX-A100 보다 31% 우수"
  • 김현동
  • 승인 2022.07.07 13:12
  • 댓글 0
이 기사를 공유합니다

바이두가 그래프코어 IPU 시스템 활용한 써드파티 결과를 제출했다. 그래프코어의 보우(Bow) Pod16은 상대적으로 더 비싼 비용을 지불하는 엔비디아(NVIDIA) DGX-A100 640GB과 비교해 ResNet-50에서 31% 더 빠른 훈련시간을 기록했다. BERT에 대해서는 MLPerf 1.1 벤치마크에서 37% 향상된 성능을 제공했다.


자료는 그래프코어 Bow Pod 시스템의 성능은 전반적으로 크게 개선됐지만, 가격은 이전과 동일해 비용 효율성을 제공한다는 것을 뒷받침한다. 이에 대해 그래프코어 측은 "BERT 훈련시간이 최대 37% 향상됐다는 것은 그래프코어 시스템이 가격 대비 우수한 성능 이점을 제공한다는 것을 의미한다"라고 밝혔다.

바이두는 "BERT 훈련에 Bow Pod16 및 Bow Pod64를 사용하여 제출한 패들패들 결과는 그래프코어가 PopART를 사용하여 제출한 결과와 유사한 양상을 보인다"라고 주장했다. 테스트는 패들패들 소프트웨어 프레임워크를 그래프코어의 포플러(Poplar)와 통합하여 진행됐다.

그래프코어는 바이두 테스트를 뒤받침 하는 추가 자료를 공개했다. 오픈(Open) 부문에서 RNN-T에 대한 결과도 제출했다. 그래프코어는 고객 서비스, 컴플라이언스, 프로세스 자동화 등의 분야에서 음성 설루션을 제공하는 자사 고객인 그리드스페이스(Gridspace)와 협력하여 RNN-T 훈련을 진행했다.

RNN-T 모델은 700GB 또는 1만 시간의 음성으로 훈련됐는데, Bow Pod64에서 훈련시간을 몇 주에서 단 며칠로 단축했다. 이번 MLPerf 2.0에 RNN-T 결과를 제출한 것은 IPU를 활용한 모델을 구현하고 최적화하기 위한 그래프코어의 고객 중심적 접근을 반영한 것이라 볼 수 있다.

한편, 그래프코어는 지능 처리장치(Intelligence Processing Unit; IPU)를 개발한 회사로, 그래프코어의 콜로서스 GC200 IPU 4개로 가동되는 IPU-M2000은 1U 블레이드에 1페타플롭 AI 연산 성능을 구현한다. 엑사스케일 컴퓨팅의 경우, IPU-POD 구성으로 최대 6만 4천 개의 IPU를 연결해 사용할 수 있다.


◇ 그래프코어 관계자와 1문 1 답

Q. 내장 메모리 용량을 늘렸고 최근 제품은 TSMC 7 나노라는 것을 알고 있다. 차세대 제품은 어떤 부분을 더 발전시킬 것인가?
A. 아직은 언급할 단계가 아니다. 하지만 3D 웨이퍼 통합과 관련한 부분에서 혁신을 이룰 계획이다.

Q. ESG(지속가능성) 부분이 요즘 화두다. 그래프코어 IPU가 GPU를 대체할 경우 어느 부분에서 더 효과적인가?
A. 에너지 효율은 전 산업이 주목하는 부분이다. 우리 IPU의 가장 큰 특징이 메모리 용량을 늘려 처리 효율을 개선한 것이다. 다르게 말하자면 처리 효율이 개선되었기에 궁극적으로는 에너지 소비 절감을 꾀할 수 있다는 의미다.

Q. 글로벌 시장에서 한국 시장의 중요성은?
A. Ai 부분 컴퓨팅 칩은 미국이 주도하고 중국이 뒤를 따르고 있다. 한국은 유럽과 동급이거나 능가하는 부분도 있다. 특히 Ai 혁신 측면에서 앞서고 빠르게 진화하는 시장이다. 그래프코어에게 한국시장은 중요하다.

Q. 인공지능 반도체 부분에서 IPU 프로세서 포지션은? 2년 전 IPU GPU 대체 시장은 아니다라고 했는데...
A. Ai와 ML 시장이 주력이다. 우리가 IPU를 개발하고 설계한 근본적인 이유는 Ai와 ML 관련한 근본적인 해법을 빠르게 제시하기 위해서다. 중요한 건 GPU가 Ai 특화된 프로세서는 아니다. 그래프코어 IPU는 Ai에 포커스 맞춰 개발된 칩이다. 출발 선상이 다르다.

Q. 한국 정부 정책은 국산 Ai 반도체 지원을 우선하는데 그래프코어는 영국 기업이다.
A. 지원이라고 하면 하드웨어 부분인데, 우리가 중요하다고 보는 부분은 하드웨어가 아닌 소프트웨어다. 고객의 알고리즘 코드를 칩에 최적화를 어떻게 할 것인가가 경쟁력이기 때문이다. 무수히 시행착오를 겪으며 SDK를 분기마다 리빌드 한다. 이런 부분의 차별성은 타사 제품은 한계치가 있을 수밖에 없다. 누적된 사례가 만든 규모의 경쟁일 수도 있다. Ai 반도체 부문 대규모 스케일러 시장에서 엔비디아 빼면 그래프코어가 유일하다. 그 점에서 국산 반도체는 아직 시작 단계다. 성숙이 되려면 시간이 걸린다. 우리는 시행착오를 많이 겪고 지금도 역량을 투입하려는 건 고객사와 접점에 있어 개발하고 알고리즘 최적화하는 부분에 포커싱을 두기 때문이다.

Q. 엔비디아 보다 MPerf에서 성능이 높다고 했는데 어떠한 부분에서 높은가?
A. 우리가 테스트 한 방향은 개방형이 아닌 폐쇄형 부문이다. 가장 까다롭고 어려운 부문 (비전, 자연어 처리)에 해당한다. 파트너사가 언어 모델을 개방형 부문에 제출하기도 했다. 기존과 다른 새로운 아키텍처를 기반으로 한 언어 모델인데 여기에서도 좋은 결과가 나왔다.

Q. 국내 AI 반도체 기업이 MPU 개발에 열 올리고 있다. MPU와 그래프코어의 IPU는 다른 것인가?
A. 완전히 다른 개념의 IPU라고 말하고 싶다. 제로베이스에서 완전히 새롭게 개발했다. 프로세서 상에 탑재된 1500개 이상의 코어에서 하나하나 다른 명령어를 실행한다. 방대한 원칩 메모리를 탑재해 로컬 메모리와의 통신도 빠르게 하는 대역폭을 확보했다. 2가지가 근본적으로 다르다. 별도의 데이터에 대해서 복수의 명령어를 처리한다.


By 김현동·김신강 에디터  PRESS@weeklypost.kr
〈저작권자ⓒ 위클리포스트, 무단전재 및 재배포 금지〉


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.