AMD 인스팅트 GPU 가속기, 10테라플롭스 성능 … 엑사스케일 초석 다져
AMD 인스팅트 GPU 가속기, 10테라플롭스 성능 … 엑사스케일 초석 다져
  • 김현동
  • 승인 2020.11.17 20:15
  • 댓글 0
이 기사를 공유합니다

과학 연구 활동 목적 HPC 액셀러레이터

AMD 최초 CDNA 아키텍처 기반 AMD 인스팅트 MI100 GPU




[2020년 11월 17일] - 단일 작업에 최적화된 장비다. 오직 수치 또는 확률을 가리는 수학적 연산에 치우쳐있다. 범용을 목적으로 설계한 CPU보다는 GPU가 상대적으로 주목받는 분야다. 그 점에서 엔비디아는 우세한 입지에 오른 상황. 우주, 신약개발 등 고도화된 분야에서 주로 쓰이는 장비 수요는 딥러닝 시대 포문이 열리면서 날로 증가추세다. 해당 분야에 인텔 또한 인정받고 있다. AMD가 상대적인 박탈감을 느껴온 것이 당연하다.

AMD가 x86 기반 GPU 가속기 최초로 10 테라플롭스(FP64) 수치를 기록하며 세계에서 가장 빠른 고성능 컴퓨팅(HPC) GPU 서버 인스팅트 MI100(AMD Instinct MI100)이라는 거창한 수식어까지 앞세운 배경에는 후발주자이기에 다급한 심경도 녹아 있다.

분위기는 나쁘지 않다. 델(Dell), 휴렛팩커드 엔터프라이즈(HPE), 기가바이트(Gigabyte), 슈퍼마이크로(SUPERMICRO)가 지원군으로 합류했다. AMD 에픽(AMD EPYC) 프로세서, 그리고 ROCm 4.0 오픈 소프트웨어 플랫폼 조건 아래에서 도래하는 엑사스케일 시대를 대응에 공동으로 나설 연합군이다.

MI100은 HPC에서 최대 11.5 테라플롭스, 최대 FP64 성능을 AI 및 머신 러닝 워크로드에서는 최대 46.1 테라플롭스, 최대 FP32 매트릭스(Matrix) 성능을 달성했다. AMD는 매트릭스 코어(AMD Matrix Core) 기술을 통해 AI 트레이닝 워크로드에서 전작 대비 7배 향상된 FP16 최대 이론 부동소수점 성능(theoretical peak floating point performance)을 구현했다.

AMD 데이터센터 GPU 사업 부문 부사장 브래드 맥크레디(Brad McCredie)는 “AMD는 세계에서 가장 빠른 HPC GPU인 AMD 인스팅트 MI100 출시로 엑사스케일 컴퓨팅 분야에서 또 하나의 중요한 걸음을 내딛게 됐다”며 “과학 컴퓨팅 워크로드 지원을 위해 설계된 MI100은 AMD ROCm 오픈 소프트웨어 플랫폼과 결합해 과학자와 연구자들에게 HPC 워크로드를 위한 우수한 기반을 제공한다”고 밝혔다.

엑사스케일 시대 여는 오픈 소프트웨어 플랫폼

AMD는 인스팅트 GPU 가속기 MI100 기반 시스템에 최적화한 ROCm 4.0개발자 소프트웨어도 공개했다. ROCm은 컴파일러(compiler), 프로그래밍 API 및 라이브러리로 구성된 오픈소스 툴셋으로, 엑사스케일 소프트웨어 개발 환경에 대응한다. 컴파일러는 오픈소스로 업그레이드되었고 OpenMP와 HIP 둘 모두를 지원한다.

오크릿지 리더십 컴퓨팅 연구소(Oak Ridge Leadership Computing Facility)의 브론슨 메서(Bronson Messer) 과학 부문 소장은 “타 GPU 대비 최대 2~3배 높은 성능 결과를 얻었다”고 전했다.


AMD는 인스팅트 MI100 GPU 가속기 특징을 총 6가지로 요약했다.

▲ AMD CDNA 아키텍처 - 성능과 전력 효율성 둘 모두를 충족
▲ HPC 워크로드에서 FP64 및 FP32 성능 - 11.5 테라플롭스의 최대 FP64 성능과 23.1테라플롭스의 최대 FP32 성능을 충족한 MI100은 생활 과학, 에너지, 금융, 학계, 공공기관, 국방 사업 전반에 구동
▲ HPC 및 AI 기술을 위한 매트릭스 코어 - FP32, FP16, bFloat16, Int8, Int4 등 모든 범위의 단일 및 혼합 정밀 매트릭스 연산 대응

▲ 2세대 AMD 인피니티 패브릭 - AMD 인피니티 패브릭 링크(Links) 설계. 쿼드 GPU 하이브(hive)를 구성할 수 있으며, 초당 552GB의 P2P I/O 대역폭으로 데이터 공유
▲ 초고속 HBM2 메모리 - 1.2GHz 클럭 속도와 초당 1.23GB 메모리 대역폭으로 데이터를 저장하고 추출하는 과정에서 발생하는 병목현상 개선
▲ PCIe 4.0 지원 - CPU와 GPU 간 초당 최대 64GB 데이터 전송 대역폭 지원

상용화 기점은 2020년 말. OEM 및 ODM 출시

델 테크놀로지스(Dell Technologies)의 파워엣지(PowerEdge) 서버 솔루션 제품 총괄 라비 펜데칸티(Ravi Pendekanti) 부사장은 “AMD는 델 테크놀로지스의 데이터센터 혁신을 뒷받침하는 중요한 파트너로 자리매김 해왔다”며, “AMD 인스팅트 액셀러레이터의 고성능은 자사 파워엣지 서버의 AI 및 HPC 포트폴리오에 잘 부합한다”고 전했다.

기가바이트 NCBU 부문 앨런 첸(Alan Chen) 부사장은 “AMD 인스팅트 MI100 액셀러레이터는 에너지 연구, 분자 역학, 딥러닝 교육 등을 위해 보다 폭넓은 연결성과 높은 데이터 대역폭을 제공하는 차세대 데이터센터 HPC 성능의 상징과도 같다”고 밝혔다. 또한, “고객은 과학 및 산업용 HPC 워크로드 전반에 걸쳐 향상된 성능을 경험할 수 있을 것”이라고 전했다.

빌 마넬(Bill Mannel) HPE HPC 사업부 부사장 겸 총괄은 “고객들은 HPC, 딥러닝 및 분석 등 복잡하고 데이터 집중적인 워크로드를 해결하기 위해 HPE 아폴로(Apollo) 시스템을 사용한다”며, “새로운 HPE 아폴로 6500, 10세대 플러스(HPE Apollo 6500 Gen10 Plus) 시스템 출시를 통해 포트폴리오를 한층 더 발전시키게 되었다”고전했다.

슈퍼마이크로 필드 애플리케이션 엔지니어링 및 사업 개발 담당 빅 말얄라(Vik Malyala) 부사장은 ““새로운 CDNA 아키텍처가 지원하는 컴퓨트 MI100의 고대역폭 메모리 및 GPU의 조합은 고객이 필요로 하는 가속화 컴퓨팅 솔루션 및 엔터프라이즈 워크로드를 지원할 것”이라고 밝혔다. 또한, “AMD 인스팅트 MI100은 자사의 멀티 GPU 서버와 광범위한 고성능 시스템 포트폴리오와 서버 구축을 위한 솔루션에 중요한 업데이트 사항이 될 것”이라고 전했다.


By 김현동 에디터 hyundong.kim@weeklypost.kr
〈저작권자ⓒ 위클리포스트, 무단전재 및 재배포 금지〉

Tag
#amd #gpu

관련기사