‘추론’ 품은 엔비디아 AI가속기…삼성 생산 ‘그록 LPU’ 쓴다 :SODA

젠슨 황 엔디비아 CEO가 16일(현지 시간) 미국 새너제이에서 열린 엔비디아 GTC 2026 삼성전자 부스를 방문해 기념촬영 하고 있다. 왼쪽부터 황상준 삼성전자 메모리개발담당 부사장, 황 CEO, 한진만 삼성전자 파운드리 사업부장 사장. 제품은 왼쪽부터 삼성전자 HBM4 코어다이 웨이퍼와 그록(Groq) LPU 파운드리 4나노 웨이퍼. 각 웨이퍼에는 ‘AMAZING HBM4’와 ‘Groq Super FAST’라는 젠슨 황 CEO의 친필 서명이 적혀 있다. 사진 제공삼성전자

엔비디아의 연례 개발자 회의 ‘GTC 2026’이 16일(현지시간) 미국 새너제이에서 개막했다. 기조연설에 나선 젠슨 황 엔비디아 최고경영자(CEO)는 엔비디아의 최신 인공지능(AI) 가속기 ‘베라 루빈’의 설계와 성능을 공개했다. ‘추론’ 성능이 강화된 새 AI가속기에는 삼성전자의 파운드리사업부가 위탁생산한 그록(Groq)의 언어처리장치(LPU)가 탑재됐다.

황 CEO는 이날 기조연설을 통해 ‘그록3 LPU’를 올 하반기 출시할 AI가속기 베라 루빈에 통합한다고 밝혔다. 그록은 추론용 AI 반도체 설계 스타트업이다. 엔비디아의 미래 경쟁자로 떠올랐지만 지난해 엔비디아가 200억 달러(약 29조 원)를 들여 일부 기술과 인력을 영입하는 방식으로 인수한 바 있다.

기존 엔비디아의 AI가속기는 연산을 맡는 그래픽처리장치(GPU)와 기억을 담당하는 고대역폭메모리(HBM)가 분리돼 있어 데이터가 이 사이를 오갈 때 병목 현상이 발생한다. 반면 그록이 만드는 LPU는 연산 회로와 메모리를 처음부터 하나의 실리콘 기판에 새기는 ‘온칩’ 설계가 특징이다. 이를 통해 데이터 병목 현상을 최소화할 수 있다. 그록은 대형언어모델(LLM)을 구동하는 데 있어 LPU가 GPU보다 10배 빠르고 전력도 적게 소모한다고 주장한 바 있다.

엔비디아가 베라 루빈과 그록3 LPU를 통합해 운영하려는 이유는 AI의 성능을 좌우하는 요소로 ‘추론’의 중요성이 점점 더 부각되고 있기 때문이다. 추론은 학습을 끝낸 AI가 답변이나 임무 수행 등 실제 서비스를 제공하는 단계로 데이터를 빠르고 저렴하게 처리하는 능력이 핵심이다.

AI가 얼마나 많은 정보를 빠르 게익힐 수 있는지가 더 중요했던 기존에는 방대한 데이터 처리에 능한 GPU로 충분했지만, AI가 실제 업무를 수행하고 심지어 다른 AI에게 직접 명령을 내리기도 하는 AI에이전트 시대에는 데이터 지연이 생기고 전력소모도 크다는 지적이 잇따랐다. 실제로 구글이 엔비디아의 GPU보다 전력 소모가 적고 추론에 능한 텐서처리장치(TPU를 적용한 ‘제미나이3’가 챗GPT를 능가한다는 평가를 받기도 했다.

이에 따라 대규모 연산은 GPU에, 신속한 대응을 요하는 AI의 답변은 LPU에가 맡겨 역할을 분담하겠다는 게 엔비디아의 구상이다. 황 CEO는 이러한 역할 분담으로 파라미터(매개변수)가 ‘조’ 단위인 최고급 AI 모델의 처리량을 35배 높이고 추론 능력을 높일 수 있다고 강조했다. 그러면서 “삼성이 우리를 위해 그록3 LPU를 제조하고 있다”며 “지금 가능한 한 최대한 빠르게 생산을 늘리고 있다. 삼성에게 정말 감사드린다”고 언급하기도 했다.

박종민 기자 blick@donga.com