
일론 머스크(Elon Musk)의 xAI가 9일(현지시간) 최대 150만명이 시청한 생중계를 통해 최신 AI 모델 '그록4(Grok 4)'를 공식 출시했다.
이날 생중계에서 그록4는 주요 성능 벤치마크에서 OpenAI와 Google의 경쟁 모델들을 뛰어넘는 결과를 보여줬다. 특히 X(구 트위터) 플랫폼과 연계한 실시간 웹 검색 기능으로 차별화된 서비스를 제시했다. 또한 테슬라와 옵티머스에 그록4 통합 계획을 발표했다.
'그록4 헤비' 다중 에이전트로 차별화이번 출시에서 가장 혁신적인 기능은 '그록4 헤비(Grok 4 Heavy)'다. 이는 여러 그록4 인스턴스가 협력해 복잡한 작업을 해결하는 다중 에이전트 시스템으로, 대규모 데이터 분석이나 복합 문제 해결에서 성능이 극대화된다.
그록4는 텍스트와 이미지 입력을 지원하는 멀티모달 기능을 갖추고 있으며, FLUX.1 기반 이미지 생성 기능을 통해 복잡한 이미지도 처리할 수 있다. 특히 DeepSearch 기능으로 실시간 웹 및 X 데이터 검색을 제공하며, X 플랫폼과의 연계를 통해 실시간성을 극대화했다. Think Mode를 통해 단계별 추론 과정을 공개하는 투명성도 확보했다.
성능 벤치마크 '독주'…HLE 44.4% 달성그록4는 다양한 성능 지표에서 기존 AI 모델들을 뛰어넘는 결과를 보여줬다. 가장 주목할 만한 성과는 'Humanity's Last Exam(HLE)' 벤치마크에서 나타났다. 다중 에이전트 시스템인 그록4 헤비는 44.4%를 달성해 OpenAI의 o3(24.9%)를 크게 앞섰다.
수학 능력을 평가하는 AIME 2025 벤치마크에서 그록4는 98.8% 정확도를 기록하며 OpenAI o3(98.4%)를 상회했다. 과학적 추론 능력을 측정하는 GPQA Diamond에서도 87.5%로 최고 점수를 달성했으며, 코딩 능력을 평가하는 LiveCodeBench에서는 79%로 OpenAI o3(72%)을 앞질렀다.
20만개 GPU 활용…역대 최대 규모 훈련그록4는 20만개의 엔비디아(NVIDIA) H100 GPU로 구성된 콜로서스(Colossus) 슈퍼컴퓨터를 활용해 훈련됐다. 이는 현재까지 단일 AI 모델 훈련에 사용된 GPU 규모 중 가장 큰 것으로 알려져 있다.
모델의 컨텍스트 윈도우(AI가 한 번에 처리할 수 있는 텍스트 길이)는 25만6000토큰으로, Claude 4 Sonnet(20만토큰)과 OpenAI o3(20만토큰)를 상회했다. 응답 속도는 평균 75토큰/초로 Claude 4 Opus(66토큰/초)보다 빠르지만, OpenAI o3(188토큰/초)나 Gemini 2.5 Pro(142토큰/초)보다는 느린 편이다.
테슬라·옵티머스 확장…물리학 분야 새로운 원리 발견 야심머스크는 라이브스트림에서 그록4가 테슬라 차량에 통합될 것이라고 발표했다. 이를 통해 운전자와의 대화, 차량 제어, 내비게이션 최적화가 강화될 예정이다.
테슬라의 휴머노이드 로봇 '옵티머스'에도 해당 AI 모델을 적용해 현실 세계와의 상호작용 능력을 높인다는 계획이다.
xAI는 향후 2년간 그록4를 통해 신기술 개발과 물리학 분야 새로운 원리 제시에 도전한다고 밝혔다.
머스크는 이번 모델이 "진실성 극대화"를 설계 철학으로 삼았다고 설명했다.