开云体育

爆冷!首届大模型争霸Grok 4下出“神之一开云体育手”?DeepSeek、Kimi惨遭淘汰

2025-08-10
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

爆冷!首届大模型争霸Grok 4下出“神之一开云体育手”?DeepSeek、Kimi惨遭淘汰

  【新智元导读】AI国际象棋对抗?这次玩真的!谷歌Kaggle推出首届全球AI象棋争霸赛,八款顶级语言模型正面对抗,胜负只在一步之间!

  整场赛事由谷歌旗下的Kaggle举办。为此,他们专为通用大模型打造了竞技平台——「Game Arena」。

  谷歌表示游戏是评估模型与智能体的理想平台,是通用智能可靠的衡量标准。游戏作为基准测试的价值更体现在:

  四局比赛,Kimi K2每一局都因非法走子被系统判负,最短的对局甚至不到8个回合。

  对局开始还能跟着开局理论下几步,但一旦脱离熟悉的套路,Kimi K2就像突然「失明」一般,误读棋盘布局,走出错误的棋子。

  如果你只看每盘棋的前几回合,你会发现,在开局两个模型都走得无懈可击,仿佛两个国际象棋大师在对弈。

  相比之下,o4-mini虽然不够惊艳,但是稳扎稳打、不犯大错,还顺利完成了两次将杀收尾,赢得理所当然。

  如果说Kimi K2的比赛是「自动退出」,那Claude 4 Opus的落败,则是拼尽全力后的溃败。

  在第一局,双方在前九个回合都走得有板有眼,直到Claude 4 Opus贸然下出10...g5,主动敞开防线,为Gemini送上突破口。

  面对Gemini 2.5 Flash的频繁错漏和无人防守的棋子,Gork 4精准识破、果断出击。

  它不是在「模仿下棋」,而是真的能看懂弱点、消灭威胁,最终以4-0终结比赛。

  Gork的「四连超凡」不仅打出了目前最有「棋感」的对局,还被不少业内人士评为开赛以来全场最佳表现。

  但在这场模型犯错频繁、认知失误频出的混战中,Gork 4是少数能「看清棋局并稳定走完」的存在。

  游戏为强大的人工智能评估提供了绝佳的基础,帮助我们了解在复杂推理任务中哪些方法真正有效。

  它们结构清晰且结果可衡量,是评估模型的理想试验场。游戏迫使模型展现出多种技能,包括策略推理、长期规划以及面对智能对手时的动态适应能力,从而为衡量其通用问题解决智能提供了一个可靠的依据。

  就在上个月,世界冠军卡尔森在旅行中途虐了ChatGPT一局,一子未损。赛后他轻描淡写道「我有时旅途中会无聊」。

  Kaggle官方也透露,真正的评分标准,其实藏在「幕后数百场未公开对局」的排行榜里。

  原标题:《爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰》

搜索