马斯克:grok 3大模型发布

一、核心性能升级

Grok 3 借助全球最大的 AI 超算集群「Colossus」训练,第一阶段用 10 万块英伟达 H100 GPU,第二阶段达 20 万块,算力提升 10 倍,预训练仅 122 天完成,创工程效率新纪录。
在基准测试中表现出色:

  • 数学(AIME'24):52 分,优于 DeepSeek-V3 的 39 分和 GPT-4o 的 9 分。

  • 科学(GPQA):75 分,高于 DeepSeek-V3 的 65 分和 GPT-4o 的 50 分。

  • 编程(LCB):57 分,领先 DeepSeek-V3 的 36 分和 GPT-4o 的 34 分。

  • 盲测(lmArena):以 1402 分居首,首个突破 1400 分。

二、技术亮点

  1. 思维链推理(Chain of Thought)
    引入分步解决问题逻辑,提升复杂任务处理能力,如生成航天器轨迹代码、开发融合游戏。

  2. 多模态与自我纠错
    能分析图像、视频、3D 建模,用合成数据训练降错,强化学习优化决策。

  3. BigBrain 模式
    提供深度思考推理,反复验证提高答案准确性。

三、应用场景

  1. 行业接口优化
    为金融、医疗、自动驾驶等推出专用模型接口,提升垂直场景性能。

  2. 深度搜索(DeepSearch)
    新型搜索引擎,整合互联网和 X 平台数据,生成摘要并溯源,媲美 Perplexity 的 DeepResearch。

  3. 游戏开发
    xAI 拟成立 AI 游戏工作室,Grok 3 已能自动生成游戏代码。

四、行业对比与争议

  1. 与 DeepSeek 的性价比争议
    Grok 3 高成本训练,DeepSeek 算法优化成本低,更具商业化潜力。

  2. 市场反馈
    Andrej Karpathy 评测指出,Grok 3 推理能力接近 ChatGPT o1-pro,略优 DeepSeek-R1,但有编造信息问题。

五、获取方式与未来计划

  1. 订阅:X Premium + 会员(22 美元 / 月)优先体验,将推 SuperGrok 版。

  2. 开源:数月后开源 Grok 2,下一代模型研发已启动。

  3. 语音模式:预计一周内上线,API 接口和游戏工作室功能未来几周推出。

© 版权声明

相关文章