젠슨 황 ‘GTC에서 더 말하겠다’ 추론 병목인 디코드 구간 정조준
엔비디아가 그록(Groq)과의 대형 거래가 자사 데이터센터 전략에서 멜라녹스(Mellanox)와 유사한 역할을 할 수 있다고 언급하며, 저지연 추론 구간을 겨냥한 아키텍처 확장 구상을 내비쳤다. 젠슨 황 CEO는 실적 컨퍼런스콜에서 그록을 ‘가속기(Accelerator)’로 활용해 엔비디아 플랫폼을 확장하겠다는 방향을 제시했고, 보다 구체적인 내용은 GTC에서 공개될 가능성이 크다.

With respect to how we think about Groq and the low latency decoder, I've got some great ideas that I'd like to share with you at GTC. And so what we'll do with Groq is you'll come to see GTC, but what we'll do is we'll extend our architecture with Groq as an accelerator in very much the way that we extended NVIDIA's architecture with Mellanox.
Groq와 저지연 디코드에 대한 구상은 GTC에서 공유하겠다. Groq는 멜라녹스로 엔비디아 아키텍처를 확장했던 것처럼, 앞으로 엔비디아 플랫폼에 ‘가속기’ 형태로 결합해 아키텍처를 확장하는 역할을 맡게 될 것이다. - NVIDIA CEO Jensen Huang
가리키는 방향은 지연시간에 민감한 워크로드에서 추론 성능을 구조적으로 끌어올리려는 시도로 읽힌다. 최근 AI는 훈련(training)보다 추론(inference)의 비중이 커졌고, 특히 에이전트 기반(agentic) 환경에서는 응답 지연이 사용자 경험과 서비스 품질을 좌우한다. 이런 유형의 서비스에서는 ‘얼마나 빨리 답을 내놓느냐’가 핵심이 되고, 병목은 점점 디코드(decode) 구간으로 이동하고 있다는 분석이 많다.
추론은 크게 프리필(prefill)과 디코드 단계로 나뉘는데, 두 단계의 성격은 다르다. 프리필은 대규모 병렬 연산과 대역폭, 텐서 연산 최적화가 중요한 반면, 디코드는 짧은 토큰을 연속적으로 생성·평가하는 과정이 반복돼 지연시간이 더 직접적으로 드러난다. 멀티 에이전트 환경으로 갈수록 디코드 단계의 중요도가 커진다는 말이 나오는 이유다.
멜라녹스가 언급된 것도 상징적이다. 멜라녹스는 엔비디아가 데이터센터에서 GPU를 대규모로 묶어 쓰는 과정에서 ‘네트워킹 병목’을 해결하는 데 기여했고, 이후 인피니밴드(InfiniBand) 기반의 고속 인터커넥트 전략과 시스템 설계가 결합되며 엔비디아의 데이터센터 패키지 전략을 강화했다는 평가를 받아왔다. 이번에는 그록이 네트워킹이 아니라 ‘디코드 지연’ 문제를 해결하는 쪽에서 비슷한 축을 담당할 수 있다는 의미다.

그록 LPU가 거론되는 배경에는 온다이 SRAM 활용이 있다. SRAM은 내부 대역폭을 크게 끌어올릴 수 있어 디코드처럼 ‘작은 단위를 매우 빠르게 반복 처리’하는 패턴에서 유리하다는 주장과 맞물린다. 업계 전반에서도 SRAM을 공격적으로 활용하는 설계가 늘어나는 흐름이 관측된다.
구현 방식은 크게 두 가지 시나리오가 거론된다. 하나는 랙 스케일(rack-scale)에서 GPU와 LPU를 혼합한 하이브리드 노드를 구성하는 방식이다. 여러 LPU를 묶어 패브릭으로 연결하고, GPU와는 별도의 고속 인터커넥트로 결합해 프리필과 디코드를 역할 분담시키는 구조다. 이 경우 프리필 단계에서 생성되는 대규모 KV 캐시를 어떻게 효율적으로 넘기거나 오프로딩하느냐가 핵심 과제가 된다.
다른 하나는 LPU 기능을 더 깊게 통합하는 방향이다. 차세대 GPU 내부에 하이브리드 방식으로 붙이거나, 패키징 수준에서 더 촘촘한 결합을 시도하는 방식이지만, 단기간 현실성은 랙 스케일 하이브리드 쪽이 더 높게 점쳐진다.

