[이슈+] 딥러닝 서버·워크스테이션, 라이젠 5900X·5950X 시피유 적용해보니
[이슈+] 딥러닝 서버·워크스테이션, 라이젠 5900X·5950X 시피유 적용해보니
  • 김현동
  • 승인 2022.06.06 21:10
  • 댓글 0
이 기사를 공유합니다

인공지능, 머신러닝, 딥러닝, 서버, 워크스테이션 등 요즘 IT 업계를 장식하고 있는 핫 키워드 일색이다. 물론 대중이 이들 기술이나 용어를 접하게 된 계기는 전혀 생뚱맞은 계기였겠지만. 희대의 승부로 역사에 기록된 이세돌 9단과 알파고의 대전 그리고 연예인 얼굴을 교묘하게 합성한 불법 영상 논란과 함께 주목받은 딥페이크 기술 등 각종 확률과 통계 작업에 쓰이는 기술이 바로 글 서두에서 나열한 것임을 어림잡아 들어봤다는 식이다.


분명한 건 이들 시스템에도 시피유가 들어가고 VGA카드도 들어간다. 보통 특수하게 설계된 일명 서버용 시피유 혹은 엔터프라이즈 전용 시피유라고 알고 있다. AMD는 서버용으로 설계한 에픽 프로세서를 선보였는데 이게 바로 특수 산업 시장에 최적화시킨 제품이다. 엔터프라이즈 환경을 위해 쓰레드리퍼 제품도 있다.

이들 제품은 엄격한 신뢰도 그리고 오류 발생 가능성이 일반 PC에 사용되는 시피유 제품 대비 현격히 낮은 특성을 보인다. 덕분에 단지 하루 이틀 연산 작업하는 용도가 아닌 짧게는 1주일 혹은 몇 개월 그 이상도 작업을 지속하는 환경에서 많이들 선호한다. 설계 단계부터 엄격한 신뢰도 충족을 목적으로 제조한다.

그런데도 교육 현장 혹은 연구실 등지에서는 부담스러워한다. 한정된 예산 탓이다.

그러한 이유로 일반 시피유를 사용해 서버도 구축하고 각종 실습 및 연구를 진행하는 모습이 낯설지 않다. 과거에야 전용 시스템 사용이 일반적인 분위기였고, 그러한 시스템에서만 프로그램이 구동되었기에 비싼 돈을 들여가며 시스템을 구축했지만, 오늘날에는 그러한 번거로움도 사라졌다. 한정된 예산 내에 구축할 수 있고, 이렇게 완성한 시스템이 현업에서 활용에 문제만 없다면 굳이 마다할 이유가 없다.

# 고가 서버용/HEDT 시피유 대체 전략?


산업용 시스템을 FM으로 구성한다고 가정해 보자. 딥러닝 시스템은 일반적으로 GPU를 활용한 연산이 가장 큰 비중을 차지하고 실제 시스템 구성에 드는 비용 가운데 그래픽카드가 차지하는 비중이 크다. 연산에 최적화한 고성능 그래픽카드 장수를 늘릴수록 작업을 가속할 수 있는 딥러닝, 여기에는 가상화폐 채굴도 동일하다. 그러했기에 더더욱 부담스럽던 그래픽카드 가격 거품이 무려 3년간 지속한 감염병 사태 소강상태와 맞물리면서 걷히고 있다.


이제 현장에서는 GPU의 성능을 온전히 끌어낼 수 있는 시스템의 필요성에 목소리를 낸다. 하지만 보통 개인용 워크스테이션에 그래픽카드는 보통 2개 정도를 사용한다고 가정을 해도 여기에 고가의 서버용 CPU나 HEDT CPU를 도입한다면 총투자 비용은 갑절로 상승하기에 도입을 주저한다. 덕분에 상당수 연구실이나 대학에서 대안을 오랜 시간 모색했고 일반 시피유를 활용하는 출구전략으로 선회한 것에 다양한 레퍼런스가 더해진 것이 오늘날 대체재로 고성능 시피유가 쓰이기 시작했다.


현장의 목소리를 대변하면, AMD 라이젠 9 5900X 및 5950X 시피유를 지목한다. 고성능 코어가 12C24T 및 16C32T로 넉넉하기에 비교적 낮은 금액 투자로 워크스테이션을 구축할 수 있다는 설명이다. 상식선에서 접근하면 INTEL 프로세서 기반 서버용 프로세서는 XEON 시리즈가 대세다.

이 중에서도 28C56T 조합의 W3275 제품 선호도가 높다. 그러한 상식을 무너뜨리는 것에서 본 글이 출발했기에 검증 작업에 돌입했다. 나열한 제품을 기반으로 빌드한 딥러닝 워크스테이션과 라이젠 9 프로세서 기반 딥러닝 워크스테이션이 실제 작업에서 어느 정도의 성능 차이를 보일까?

Tensorflow CNN Benchmark를 통해 실증 작업에 돌입했다.


# 라이젠 9 5900X·5950X 시피유, 딥러닝 효율 가성비 높아


○ 첫 번째 테스트 : 그래픽카드 2개 장착 환경

5900x, 5950x가 Tensorflow 모델별로 각기 다른 효율을 보여주나, AlexNet, VGG16 두 가지를 제외하면 XEON W3275 프로세서에 뒤지지 않는 수준의 강력한 성능을 보여준다. 따라서 Deep Learning 수행 효율은 매우 가성비가 도드라진다.

1) 인텔 Xeon W3275(28C56T)
Mainboard: WC621D8A-2T
Memory: Reg ECC Samsung 32GB * 4 = 128GB
GPU: ZOTAC Geforce RTX 3080 Ti 검은호랑이에디션 x 2EA
Power: 1200W

2) Ryzen9 5900x(12C24T) / Ryzen9 5950x(16C32T)
Mainboard: ASUS PRIME X570-P
Memory: DDR4 32GB * 4 = 128GB
GPU: ZOTAC Geforce RTX 3080 Ti 검은호랑이에디션 x 2EA
Power: 1200W

* 공통
OS: Ubuntu 20.04.4 LTS (mirror on kakao)
nVidia Driver: 470.103.01
Cuda Toolkit: 11.3.1
CuDNN: 8.2.1 for CUDA 11.x
Tensorflow: 2.8
Pytorch: 1.11.0+cu113


○ 두 번째 테스트

RTX 3080 Ti 그래픽카드 1개만 사용한 경우라면 Tensorflow 모델별로 거의 100% 근접한 성능을 보여준다. Lenet / trivial 모델 테스트는 플랫폼 환경의 차이로 인해 라이젠 쪽이 더 높은 성능을 제공했을 것으로 판단된다.

비용이 제한적이라면 5900X 또는 5950X 프로세서와 128GB의 메모리 (32GB x 4ea)를 사용하고 GPU를 1~2개 탑재한 딥러닝용 워크스테이션을 구축하기에 가격 대 성능이 훌륭한 선택지가 될 수 있다. 조금 저가형 CPU를 사용한 서버 렌더나 전반적인 성능 테스트를 통해 가성비나 활용 가치를 높이는 측면에서도 유용하다.

1) 인텔 Xeon W3275(28C56T)
Mainboard: WC621D8A-2T
Memory: Reg ECC Samsung 32GB * 4 = 128GB
GPU: ZOTAC Geforce RTX 3080 Ti 검은호랑이에디션
Power: 1200W

2) Ryzen9 5900x(12C24T) / Ryzen9 5950x(16C32T)
Mainboard: ASUS PRIME X570-P
Memory: DDR4 32GB * 4 = 128GB
GPU: ZOTAC Geforce RTX 3080 Ti 검은호랑이에디션
Power: 1200W

* 공통
OS: Ubuntu 20.04.4 LTS (mirror on kakao)
nVidia Driver: 470.103.01
Cuda Toolkit: 11.3.1
CuDNN: 8.2.1 for CUDA 11.x
Tensorflow: 2.8
Pytorch: 1.11.0+cu113


○ 세 번째 테스트

멀티코어를 많이 사용하는 부분에서는 아무래도 라이젠 5 5600X가 가장 낮은 성능을 보였으나 일부 테스트에서는 EPYC 7302를 능가하는 수준의 성능을 보여주기도 했기 때문에 간단한 서버용으로는 라이젠 5 5600X를 사용해도 무방할 것으로 보이며, 다소 고성능을 요구하는 경우 라이젠 9 5900X나 5950X도 EPYC 7302 수준의 CPU는 충분히 대체할 수 있을 것으로 보인다.

1) AMD Ryzen 5600X / 5900X / 5950X
M/B: ASRockRack X570D4U-2L2T (L1.28a BIOS)
Memory: 64GB
GPU: ASPEED (서버 화면출력용 내장그래픽)
OS: Ubuntu 20.04 (Kernel 5.13.0-30-generic)
benchmark tool: phoronix-test-suite v10.8.2

2) EPYC 7302 (16C 32T)
BB: 3SCORE ST400A C2 Tower형 "4U Tower, 1x CPU Cooler, 2x 4bay 3.5"" hot-swap drive cage, 4x 80mm cooling Fans, 2x 1600W CRPS 2x 10G RJ45, 1x GbE RJ45 Mgmt (IPMI2.0),2x (M.2 M-Key 2280/22110 PCIe4.0 x4), 7x PCIe4.0 Slots (x16 *4, x8 *3) - 4GPU Support"
Memory: Micron ECC Reg 32GB * 2 = 64GB
GPU: GTX 1050
OS: Ubuntu 20.04 (Kernel 5.13.0-30-generic)
benchmark tool: phoronix-test-suite v10.8.2



By 김현동·김신강 에디터  PRESS@weeklypost.kr
〈저작권자ⓒ 위클리포스트, 무단전재 및 재배포 금지〉



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.