一、核心性能升级
Grok 3 借助全球最大的 AI 超算集群「Colossus」训练,第一阶段用 10 万块英伟达 H100 GPU,第二阶段达 20 万块,算力提升 10 倍,预训练仅 122 天完成,创工程效率新纪录。
在基准测试中表现出色:
-
数学(AIME'24):52 分,优于 DeepSeek-V3 的 39 分和 GPT-4o 的 9 分。
-
科学(GPQA):75 分,高于 DeepSeek-V3 的 65 分和 GPT-4o 的 50 分。
-
编程(LCB):57 分,领先 DeepSeek-V3 的 36 分和 GPT-4o 的 34 分。
-
盲测(lmArena):以 1402 分居首,首个突破 1400 分。
二、技术亮点
-
思维链推理(Chain of Thought)
引入分步解决问题逻辑,提升复杂任务处理能力,如生成航天器轨迹代码、开发融合游戏。 -
多模态与自我纠错
能分析图像、视频、3D 建模,用合成数据训练降错,强化学习优化决策。 -
BigBrain 模式
提供深度思考推理,反复验证提高答案准确性。
三、应用场景
-
行业接口优化
为金融、医疗、自动驾驶等推出专用模型接口,提升垂直场景性能。 -
深度搜索(DeepSearch)
新型搜索引擎,整合互联网和 X 平台数据,生成摘要并溯源,媲美 Perplexity 的 DeepResearch。 -
游戏开发
xAI 拟成立 AI 游戏工作室,Grok 3 已能自动生成游戏代码。
四、行业对比与争议
-
与 DeepSeek 的性价比争议
Grok 3 高成本训练,DeepSeek 算法优化成本低,更具商业化潜力。 -
市场反馈
Andrej Karpathy 评测指出,Grok 3 推理能力接近 ChatGPT o1-pro,略优 DeepSeek-R1,但有编造信息问题。
五、获取方式与未来计划
-
订阅:X Premium + 会员(22 美元 / 月)优先体验,将推 SuperGrok 版。
-
开源:数月后开源 Grok 2,下一代模型研发已启动。
-
语音模式:预计一周内上线,API 接口和游戏工作室功能未来几周推出。