你的位置：九游会j9·游戏「中国」官方网站 > 新闻 > >aj九游会官网Grok 4 重型版是多智能体版块-九游会j9·游戏「中国」官方网站

热点资讯

新闻

aj九游会官网Grok 4 重型版是多智能体版块-九游会j9·游戏「中国」官方网站

发布日期：2026-06-28 21:04 点击次数：96

aj九游会官网

7 月 10 日，马斯克旗下的 xAI 公司发布了全新 AGI 模子——" Grok 4 "和多智能体版块 " Grok 4 Heavy "，这一新版块不仅提高了推理速率，还在多任务处理、逻辑推理与文本生成等方面展现出超常才智。

这次发布象征着 X AI 在揣摸打算才智和模子架构上的要紧龙套。借助 Colossus 超等揣摸打算机和数十万 NVIDIA H100 GPU，Grok 4 在推理速率、反应才智和多模态功能上齐备了飞跃，刷新了多个学术基准测试的记载。马斯克在现场默示，这一进展将开启 AI 历史上最具翻新性的"智能大爆炸时间"。

发布会全文内容如下：

宽待来到 Grok 4 的发布现场，这是寰球上最先进的 AI，我们将为你安祥展示其中的旨趣与起因。看到 AI 的迅速发展，真的令东说念主颂赞，它的进化速率实在太快了。我常将它与东说念主类的成长作念比较，对比东说念主类学习、得到签订和清醒的速率，AI 的跳跃速率远超东说念主类。我们将带你了解一系列基准测试，Grok 4 能够在各样测试中取得惊东说念主收货。

值得一提的是，若是让 Grok 4 参加 SAT 考试，每次齐能拿到满分，即便它之前从未见过这些考题。再进一步说，像 GRE 这类有计划生考试，它在各个学科范围齐能取得近乎满分的收货。从东说念主文科学到话语、数学、物理、工程学，打法哪一门学科。而且我们说的是它从未见过的题目，这些题目也不在互联网上。

Grok 4 的智能水平险些超越了通盘学科的有计划生，真确病笃的是要阐明到这确乎性命关天。Grok 的推理才智简直令东说念主难以置信，有些东说念主认为 AI 无法推理，但本质上它能达到超东说念主类的推理水平，坦率地说，它只会变得越来越好。接下来我们将安祥先容 Grok 4 的进展速率。

第一部分是对于老师方面，从 Grok 2 到 Grok 3 再到 Grok 4，每次老师量齐提高了一个数目级。是以 Grok 4 的老师量是 Grok 2 的 100 倍，而且这种增长异日还会加重。坦率地说，从某种进度上讲有点可怕，但它的智能增长果然惊东说念主。

需要阐明到老师算力分为两类。一种是预老师揣摸打算，从 Grok 2 到 Grok 3 是这种面容，但从 Grok 3 到 Grok 4，我们在推理方面干预了大批算力。

按照当今的步伐来看，Grok 2 就像高中生水平，追念昔日 12 个月，12 个月前 Grok 2 还只是个宗旨。我们第一次进行预老师扩展即是老师 Grok 2 的时候，我们签订到若是崇拜作念好数据消融、极为严慎地处理数据、基础设施以及算法等方面的责任，预老师规模不错提高 10 倍，从而打造出最好的预老师基础模子。

正因如斯，我们打造了 Colossus 超等揣摸打算系统，领有十万块 H100 的全球超等揣摸打算机，于是在领有最好预老师模子的基础上，我们签订到若是能网罗可考证的罢了奖励，就能老师这个模子，从第一性旨趣起程念念考、进行推理并改造自身空虚，这即是 Grok 3 推理才智的来源。

如今我们建议一个问题，若是把领有 20 万个 GPU 的 Colossus 超等揣摸打算系统全部干预强化学习，其揣摸打算量是其他模子在强化学习上的 10 倍，会发生什么？这即是 Grok 4 的故事。

我们来谈谈 Grok 4 有多智能。这个基准测试名为"东说念主文终极考试"，而这个基准测试相称有挑战性，每沿路题齐是由专科范围的行家用心编选，统统 2500 说念题，涵盖多个学科，包括数学、天然科学、工程学以及东说念主文科学。本质上，本年早些时候这个测试刚发布时，市面上大多数模子在这个测试中的准确率只可达到个位数。

我们来看几个例子，有沿路对于范围论中天然变换的数学题，还有沿路对于电环化反应的有机化学题，以及沿路条目从希伯来语原文中折柳闭音节和开音节的话语学题。不错看到，题目波及的范围相称广，每沿路题齐是博士致使高档有计划水平的题目。

本质上，莫得东说念主类能在这些题目上取得好收货。若是问任何一个正常东说念主，东说念主类能取得的最好收货是若干，乐不雅揣摸可能也就 5%，是以这个测试比东说念主类能完成的任务清苦得多。从这些题目类型不错看出，你可能在话语学、数学、化学、物理学或者其他任何一门学科上很历害，但不行能在通盘学科齐达到有计划生水平。

而 Grok 4 在通盘学科上齐达到了有计划生水平，比大多数博士齐要强，好多博士齐会在这些题目上失败，至少在学术问题上是这么，天然，这并不虞味着它在职何时候齐有知识，也不虞味着它依然发明了新时期或发现了新的物理学表面，不外这只是时分问题。我认为它可能在本年晚些时候就会发明灵验的新时期，也有可能在本年年底。

接着聊聊 Grok 4 背后的时期细节。本质上我们在老师中干预了大批算力，一驱动揣摸打算量唯独个位数，但跟着干预的老师算力越来越多，它驱动逐渐变得越来越明智，最终措置了四分之一的 HLA 问题，而且这如故在莫得使用任何器具援手的情况下。

接下来我们为模子添加了器具使用才智。我认为 Grok 3 本质上也能使用 CRO，但在本有计划中，从某种钦慕钦慕上，我们本质让他变得愈加原生天然，我们将器具融入老师过程。Grok 3 只是依赖泛化才智，而这里我们将器具径直用于老师，罢了标明这显贵提高了模子使用这些器具的才智。

通盘 DeepSearch 其实即是 Grok 3 的推理模子，但莫得经过任何针对性老师。我们只是条目它使用那些器具。比较之下，它在器具使用才智方面要弱得多，而且不行靠。

需要阐发的是，若是和特斯拉或 SpaceX 所使用的器具比较，面前这些器具的使用还非常低级。在特斯拉或 SpaceX，他们会使用有限元分析和揣摸打算流体能源学，还能进行碰撞模拟测试，这些模拟与现实情况极其接近，以至于若是测试罢了与模拟罢了不符，东说念主们会认为测试对象有问题，模拟的精准进度即是如斯之高。面前 Grok 还莫得使用公司会用到的那些真确强劲的器具，但我们会在本年晚些时候为它提供这些器具，让它领有公司级的器具和相称精准的物理模拟器。

最终，能带来最大更动的是让它通过东说念主形机器东说念主与现实寰球进行交互。将 Grok 和 Optimus 联结起来，就能真确与现实寰球互动，还能建议假定，并考证假定是否正确。

我们正处于一场重大的智能爆炸的开首，当今就像是智能范围的大爆炸时刻，这是东说念主类历史上最说念理的时间，我们必须要确保这个 AI 是个好的 AI，一个优秀的 Grok。我认为对于 AI 安全而言，最病笃的是让它最大限定地追求真谛。这是一个相称基本的原则，不错把 AI 看作一个超等天才儿童，它最终会比你更明智，但你仍然不错给它植入正确的价值不雅，饱读动它追求真谛。就像你但愿给一个最终会变得极其强劲的孩子灌注的那些价值不雅，比如高洁本分之类的。

我们当今所说的器具仍然很低级，不是进修买卖公司会用的那种器具。但我们会给它配备那些器具，我认为有了这些器具，它就能措置现实寰球中的时期问题。

齐备这些需要算力，还要有合适的器具，最终要能与物理寰球进行交互，我们就能领有一个真确的经济体，最终变成一个规模上千倍的经济体。若把文静发展进度看作是在卡尔达肖夫品级上的完成度，卡尔达肖夫一级是愚弄行星的全部能源输出，二级是愚弄恒星的全部能源输出，三级是愚弄通盘这个词星系的全部能源输出。在我看来，我们当今可能才达到卡尔达肖夫一级的 1% 阁下，远不到 10%，接下来会朝着 80%、90% 的卡尔达消夫一级迈进，前提是文静不会自我打消。

就像东说念主类经济的真实宗旨，假定文静合手续跳跃，追念起来我们当今的景色会显得很原始。和异日的情况比较，我们当今的智能水平就像是原始东说念主往火里扔树枝相通。这相称令东说念主奋斗，偶然也为此担忧。创造出远超我们自身的智能，这若干有点让东说念主不安。这对东说念主类来说是福是祸，但就算罢了不好，我至少也想活着见证它发生。

我们仍需措置的一个时期问题，除了算力除外，我们该若何龙套数据瓶颈。因为当我们试图扩大强化学习的规模时，我们确乎发明了好多新时期、新方式，让我们能够措置许多具有挑战性的强化学习问题。问题自己不仅要具有挑战性，还需要有可靠的信号来申诉模子它作念对了如故作念错了，即是强化学习的旨趣。跟着模子越来越智能，说念理或有挑战性的问题数目会越来越少。是以，除了揣摸打算才智，这将是我们需要克服的一种新式挑战。

本质上我们能用来测试的问题齐快用收场，致使出现了无理特等的难题，对东说念主类来说险些不行能解答的书面问题正在被松驰措置，但对 AI 来说很快就变得微不及说念了。现实才是老师一切的绝佳步伐，因为若是物理规定是法例，那么其他一切齐只是建议，你无法抵拒物理规定，因此最终的推理测试即是现实。

比如你发明了一项新时期，改进了汽车或火箭的设计，或者研发出一种新药物，它管用吗，火箭能进入轨说念吗，汽车能行驶吗，药物有疗效吗，岂论情况若何，现实才是最终的评判者，围绕现实变成闭环。

我们建议了这个问题，该若何更进一步？本质上，我们当今在念念考，单智能体系统能够措置 40% 的问题。若是我们同期运行多个智能体会奈何，这即是所谓的测试与揣摸打算。当我们扩大测试和揣摸打算的规模时，本质上我们能够措置越过 50% 的基于文本的 HRE 问题子集。

这极其清苦，所谓的"东说念主类终末考试"中大部分基于文本的问题，Grok 4 齐能解答，Grok 4 重型版块的责任面容是并行生成多个智能体。通盘这些智能体独处责任，然后比较它们的效果，就像一个学习小组相通作念决策。这并不像浅显的多数表决那么浅显，因为野蛮唯惟一个智能体能够找到法门或措置决策。

然而一朝它发现了措置问题的法门或实质，就会与其他智能体共享这个措置决策，然后它们会相互交流，实质上即是相互查对条记，终末得出一个谜底。是以 Grok 4 的中枢部分即是将测试时的揣摸打算才智提无际约一个数目级，让多个智能体处理任务，然后它们比较效果并建议它们认为最好的罢了。

接下来我们将先容 Grok 4 和 Grok 4 重型版块，Grok 4 基本上即是单智能体版块，Grok 4 重型版是多智能体版块。让我们望望它们在这些考试问题以及一些现实问题上的阐发若何。

我们接下来要分析一个高阶逻辑推理（HLE）题目，这其实是沿路相对浅显的数学题。我不太懂这说念题，但我不错在这里启动求解智力，望望它是若何处理并念念考这个问题的。在这个过程中，我也想再多展示一些这个模子的才智，同期启动 Grok 4 重型版块。

各人齐知说念 Polymarket，它相称说念理，它是真谛的探寻者，大多数时候与现实情况相符。对于 Grok，我们本质追求的是能预见，我们若何尝试愚弄这些商场并不雅察，倘若我们也能预测异日，是以在智力运行的时候，我们将望望 Grok 4 重型版块若何预测好意思国职业棒球大定约面前各球队辞寰球大赛中的顺利概率。

我认为 Grok 4 最酷的少许是它能够清醒寰球，并愚弄器具措置难题。我以为有个很酷的例子，我们让它生成两个黑洞碰撞的可视化图像，天然这里存在一些目田阐明的空间，就我而言，其念念维轨迹其实非常走漏，对于这些目田阐明的圭表问题，举例，为了让图像可见，它需要极地面夸大引力波的规模，这即是它本质呈现的效果。

这里存在某种惯性作用，它在多个方面放大了规模，在距离上的衰减也没那么彰着，但我们不错看到基本的效果是正确的。螺旋并吞由此驱动，随后进入环形衰减阶段，大体基本上是正确的。固然作念了一些简化，但它对此阐发得很了了，它使用的是后牛顿雷同法，而非真确揣摸打算黑洞中心隔邻的广义相对论效应，这是不准确的，会导致一些罢了偏差，但全体的可视化效果基本依然呈现。

你还能看到它参考的各样资源，赫然它使用了搜索功能，从好多连气儿中收连合果，还研读了对于判辨引力波模子的本科课本，在分析性引力波模子中，它对本质模拟中应使用的常量进行了大批推理，参考了现存的现实寰球数据。但本质上，我们不错采纳物理学家使用的相通模子，这么它就能进行与顶尖物理学有计划东说念主员相通水平的揣摸打算，为你提供相宜物理本质的黑洞模拟。

快速切回首，我们不错看到数学问题依然解答收场。这个模子寻查他在此处的念念考轨迹，你就能知说念它是若何措置问题的。我其实不太懂那些数学内容，但我提前看过谜底了，它终末得出的谜底是正确的。

在终末这部分，还不错来看一下我们对寰球大赛的预测。我们本质上不错试试我们作念过的一些 X 集顺利能。我们干预很大元气心灵来整合通盘的 X 器具，打造出了很棒的使用体验。我们不错问模子，找出 X AI 职工里个东说念主尊府相片最奇怪的阿谁，接着它驱动膨大。我们还不错试试，凭据 X 平台的帖子创建一个时分线，安祥展示分数随时分的变化情况，能看到其时发生的通盘有计划，这么我们就能知说念是谁在公布分数，以及其时东说念主们的反应。

回看 X 平台相片的需求，搜索出了格雷格 · 杨，他账号上有他最可爱的一张相片，其实和他本东说念主长得不太相通，但还挺专门念念的。但要津是它得清醒这个问题，这才是神奇的场所，就好像它知说念什么样的相片算奇怪，它得搜遍通盘团队成员，搞了了我们齐是谁，然后进行搜索。本质上它莫得走访 XAI 里面东说念主员信息，只是在互联网上搜，是以你不错说找出任何一家公司里相片最奇怪的东说念主。

在它完成搜索的过程中，我们不错望望刚才设立的一个问题，我们能看到它找到了丹 · 亨德里克斯最初公布讯息的日历，接续寻查，能看到 OpenAI 早在 2 月份就公布了他们的分数，跟着 Gemini 模子的进展，我们能看到相关情况，比如金米的情况，致使还能看到东说念主们所说的泄漏的基准测试数据，若是数据属实，那会非常惊东说念主。我很期待看到各人若何使用这些器具，并从中得到最大价值。

本质上我们也对多模子子集进行了评估。在通盘这个词数据集上，这是 HRE 考试的得分情况。你不错看到分数有略有着落。这其实是我们合手续改进的场所，即多模子清醒才智。但我信服在很短的时天职，我们能够取得显贵的改进，在这个基准测试中得到更高的分数，致使远远高于面前水平。

面前 Grok 最大的短处是它有一定局限性，它的图像清醒才智以及图像生成才智齐有待大幅提高，面前正在进行相关老师。Grok 4 基于我们基础模子的第 6 版，我们正在老师第 7 版，这将措置其在视觉方面的短处。

除了 HRE 考试，我们还不错望望其他的基准测试。罢了标明，Grok4 在东说念主们野蛮测试的通盘推理基准测试中齐阐发出色，包括通用基准问答（GBQA），这是一套博士水平的问题集，比 HRE 考试相对浅显一些。

还有好意思国数学邀请赛（AIME），在一些编码基准测试上亦然如斯，还有哈佛 - 麻省理工学院数学竞赛（HMMT）和好意思国数学奥林匹克（USMO）等考试中，事实上，Grok 4 在通盘这些基准测试中野蛮齐有很大的上风。

我们很快就能达到这么的水平：它在每场考试中齐能答对通盘问题。若是遭遇无法回应的问题，它会指出问题那儿有问题，或者若是问题污秽不清，它会将问题进行显现，给出 A、B、C 等不同谜底，并告诉你在显现后的问题下，A、B、C 谜底分别是什么。到那时，唯一真确的老师步伐将是现实应用。它能否创造出灵验的时期，发现新的科学知识，这将是唯一剩下的老师，因为东说念主类的考试将变得毫无钦慕钦慕。

鉴于面前的进展速率，我们很快就得更新 HRE 考试的内容了，看到多个智能体相互调解措置极具挑战性的问题，真的超等酷。

我们行将推出 Grok 重型版块，你不错同期使用 Grok4 和 Grok 4 重型版，在这里你将真确成为任务的主导者，一群袖珍 Grok 有计划助手助你全主见变得更奢睿，还能为你莽撞数小时的时分，处理繁琐任务。

我们在演示期间限度了使用量，以防防碍演示效果，因为通盘这些齐是及时进行的。是以我们作念的任何测试齐不是事先录制好的，演示收尾后，我们会为 Grok 重型版块开导更多订阅限额。

当今我们来聊聊语音功能，在昔日几个月里，我们把延迟裁汰了一半，让它反应更灵敏。今天，我们很欢悦地晓喻推出一组新语音，它们极其天然且富余韵律。直播开场用的电影预报片语音，即是我们的新语音之一，罗克，他的声息低千里雄健。我们也很欢悦推出伊芙，一位声息入耳的英式语音，能抒发丰结实谊。

罗克反应更快，但它会打断我，在韵律方面，我们作念了不同的设计收受。我认为我们追求的是更千里稳、流通、天然的效果，而不是那种更辉煌或东说念主工感强的效果。

自语音模子发布以来，我们本质上齐备了端到端延迟快两倍的效果。在昔日八周里，有了五种不同的语音，还有 10 倍的活跃用户，Grok 语音正逐渐流行起来。

当今讨论到模子的发布，这次我们同期也通过 API 发布了 Grok 4。我们看接下来的两张幻灯片，我们对开导者群体将用它开导出什么效果感到相称振奋。假定我是又名开导者，若是能使用 Grok 4 API 基准测试，我起先会作念什么呢？

于是我们在 X 平台上商讨，对于通盘 AGI 模子来说，最具挑战性、被视为圣杯的基准测试是什么，罢了发现是昔日 12 小时内的 ArcAGI。我们提前试用了 Grok 4 API，并独处考证了 Grok 4 的性能。这是我们新一代的推理模子，干预 10 倍以上的算力资源，它能使用通盘器具。

但事实证明，当我们在 ArcAGI v2 的一个特有子集上进行考证时，发现它是昔日三个月里唯一龙套 10% 准确率门槛的模子，本质上准确率达到了 15.8%，是排行第二的 Claude 4 Opus 模子的两倍。而且这不单是是性能问题，当你考量智能水平时，使用 API 模子驱动自动化还要讨论性价比，请望望这里的图表，Grok 4 可谓轶群出众，对于基准测试就说到这里。

Grok 在现实寰球中还能作念些什么呢，Andon Labs 团队的东说念主在本质业务中试用了 Grok。Vending Bench 是一项模拟买卖运营的 AI 测试平台，在遐想场景中，AI 能运营的最浅显业务是什么，终末猜度了自动售货机。

在这个场景中，Grok 等其他模子需要完成经司库存、与供应商签约、设订价钱等任务，通盘这些事情齐很浅显，每个模子也齐能一项一项地完成，但若是把这些任务放在恒久时分跨度进行处理时，大多数模子齐难以胜任。

Andon Labs 提前得到了 Grok 4 的 API 的走访权限，在测试平台上运行了它，看到了一些相称令东说念主印象深化的罢了，净财富致使翻了一番，这是在这次测试中的运筹帷幄方针，因此要津不在于对于你得到的百分比或分数，而是你在汇蚁合创造的好意思元价值。

Andon Labs 对 Grok 印象深化，它能够制定政策并恒久坚合手该政策，比测试过的其他前沿模子的坚合手时分要长得多。是以它能将模拟运行时分和得分齐提高一倍，净财富提高一倍，而且在屡次运行中它也相称赋闲，若你想在现实寰球中使用它时，这少许相称病笃。

当我们在现实寰球中赋予 AI 系统越来越多的职权时，在模拟现实寰球或真实的场景中对它们进行测试是很病笃的，不然我们就会盲目行事，我们不错看到 Grok 有望成为业务部门的副驾驶。

那么 Grok 还能作念什么呢？我们本质上正在发布 Grok，若你想立即试用并评估，运行和我们相通的基准进行评估，它已通过 API 开导，有 256k 的险阻文长度。我们确乎依然看到一些早期采纳者在试用 Grok API，帕洛阿尔托有计划所，一家起先的生物医学有计划中心，依然在使用它。

望望若何用 Grok 齐备有计划经过自动化，罢了发现它能够匡助科学家在眨眼间浏览数百万条实验记载，然后选出最好假定。我们看到它被用于 CRISPR 基因剪辑有计划，还被独处评估为检查胸部 X 片的最好模子。

而在金融范围，我们也看到领有通盘器具和及时信息走访权限的 Grok 4 本质上是最受宽待的 AI 之一，我们的 Grok 也将在超大规模云揣摸打算平台上可用，XAI 企业部门两个月前才刚刚启动，当今依然绽放业务合作了。

我们还频繁谈到用 Grok 来制作视频游戏，丹尼是 X 平台上的又名视频游戏设计师，他本质上在四个小时内就制作出了一款第一东说念主称射击游戏，制作视频游戏中一些未被充分阐明到的最难的问题不一定是编码游戏的中枢逻辑，而是去获取通盘的资源、通盘纹理文献，并创建一个视觉上诱骗东说念主的游戏。

Grok 愚弄现存的通盘器具在责任经过的一个中枢方面作念得相称好，它能够自动完成资源获取的任务。是以开导者当今不错只专注于中枢开导，而不是像以前那样，当今你不错凭借一个东说念主运营一通盘这个词游戏责任室，让 Grok 4 去为你获取通盘那些资源，自动完成这些任务。它必须有很好的视频清醒才智，这么它才能玩游戏并与游戏互动，况且能够判断一个游戏是否说念理。

对于视频游戏，你会想使用空虚引擎或 Unity 或其他主流图形引擎，然青年景艺术素材，应用到 3D 模子上，然后创建一个可膨大文献，东说念主们不错在电脑、游戏机或手机上运行，瞻望可能在本年齐备。

总结一下，在今天的直播中，我们推出了最强劲、最智能的 AI 模子，它能够从第一性旨趣起程进行推理，使用通盘器具进行有计划，经过一段时分的探索，现已不错为你给出最正确的谜底。接下来我们将接续开导不仅智能、能够永劫分深入念念考、破费大批算力的模子，更要开导既快速又智能的模子，这将是中枢重心。有哪些应用能够真确从这些相称智能、快速又明智的模子中受益，编码即是其中之一。

编码之后，我们齐看到了 Grok 4 在多模态才智方面的不及。事实上，情况相称灾祸，Grok 本质上就像是透过综合的玻璃看寰球，看到的齐是综合的特征，试图去清醒它们。我们不才一代预老师模子中会看到的最径直的改进是，模子在图像清醒、视频清醒和音频方面的才智将有显贵提高。

当今有了通盘可用的器具，有了不错交流的其他智能体，多模态智能体之后将解锁许多不同的应用层，接下来将是视频生成。我们信服最终应该是输入像素，输出像素。联想一下，在 X 平台上会有连绵络续的内容库，你野蛮不错不雅看这些生成的视频，还能参与创作，我们瞻望将老师一个越过 10 万 GB，致使 20 万 GB 的视频模子。

Grok 4 的发布，不仅展示了 AI 在推理和多模态处理上的龙套，更预示着 AI 向深度智能迈出的要津一步，能够在多个学科范围中独处推理、整合信息并作念出决策。这不仅使得 Grok 4 成为一个高效的器具，更让它具备了接近"自主念念考"的后劲。

xAI 的下一步aj九游会官网，是让 Grok 4 不啻停留在解答问题的层面，而是在更复杂的任务中与东说念主类协同作战，像真确的智能伙伴相通。在这个过程中，AI 的脚色正逐渐从器具变为念念维的延迟，开启了一个东说念主类与机器共创的新时间。我们大略正在见证一个"智能觉悟"的滥觞，异日将是机器与东说念主类共同塑造的复杂生态。

上一篇：aj九游会官网Cognition Labs 官方称-九游会j9·游戏「中国」官方网站
下一篇：没有了