开云体育

马斯克又搅局:新大模型单挑GPT开云APP下载-4o啥都敢聊网友玩疯一手实测来了

2024-12-24
浏览次数:
返回列表

  开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网

马斯克又搅局:新大模型单挑GPT开云APP下载-4o啥都敢聊网友玩疯一手实测来了

  智东西8月14日消息,北京时间今天下午,马斯克的大模型创企xAI推出二代模型Grok-2测试版,包括Grok-2和Grok-2 mini两个版本。

  马斯克在自家社交平台X上激情发文,揭开Grok-2在Lmsys大模型竞技场上的“马甲”——sus-column-r。

  一番体验下来,Grok-2给我最明显的感受是逻辑非常清晰。例如在下面这个实例中,Grok-2和GPT-4o虽然都给出了正确答案,但前者每一步的步骤和计算都很明了,更容易读懂。此外,Grok-2的文生图能力在FLUX.1的加持下直线飞升,并且保留了其一如既往的“大胆”风格。

  在内部,xAI团队遵循类似的流程来评估模型,评估重点集中在模型的两个核心能力上:一是遵循指令的精准度,二是提供信息的准确性和真实性。

  值得一提的是,Grok-2在推理分析检索内容和使用工具方面取得了显著进步,比如它能准确识别缺失信息,通过事件序列进行逻辑推理,并有效剔除无关帖子。

  在基准测试上,团队采用了一系列涵盖推理、阅读理解、数学、科学和编码等领域的学术基准,对Grok-2模型进行了全面评估。

  在研究生级别的科学知识(如GPQA)、常识问答(如MMLU、MMLU-Pro)以及数学竞赛题(如MATH)等领域,它们的表现已可与其他顶尖模型一较高下。

  值得一提的是,Grok-2在视觉任务上表现出色,特别是在视觉数学推理(MathVista)和基于文档的问答(DocVQA)方面表现尤为出色。

  X订阅用户现在可以使用Grok-2和Grok-2 mini,非订阅用户也可以在大模型竞技场中,免费体验Grok-2的早期版本模型sus-column-r。

  大模型竞技场中还有GPT-4o等共62个模型可供选择,为了方便对比,我们先来测试一下这个早期模型。

  首先是前段时间让一众模型翻车的比大小问题:13.11和13.8哪个大。Grok-2和GPT-4o都准确回答,不过Grok-2的思考过程更清晰,列出了详细的思考步骤。

  在另一个经典问题“Strawberry中有几个r”上,Grok-2一开始答错了,但换成用英文提问后又给出了正确答案,GPT-4o则是中英文都回答正确。看来大模型还是会存在碰运气的成分。

  大模型竞技场中的模型没有实时联网,当我询问“谷歌刚发的Pixel 9有什么亮点”,两款模型都称自己还未掌握这一信息。随后Grok-2根据技术发展趋势和Pixel以往的特点给出了预测,有一说一猜得还挺靠谱,摄像、处理器、AI等都是谷歌这次更新的重点。

  在代码能力上,两款模型的表现不相上下,针对需求都给出了详细的解决步骤以及完整的代码。

  逻辑推理方面,Grok-2再一次展现了逻辑的清晰性,每一步的推理都分了小标题。GPT-4o虽然也回答正确,但思考步骤不够清晰。

  文生图能力是Grok-2此次更新的一大重点,其接入的FLUX.1模型,最近凭借强大的性能在开源社区十分火爆。不过图像生成能力在大模型竞技场体验不到,只能通过X订阅实现。

  网友们已经在Grok-2文生图上玩出了花,比如利用其文本生成的能力,帮Grok-2开一场线下发布会。

  而基于Grok一贯以来几乎为零的审查制度,不少网友玩起了梗,比如让特朗普开枪、让小布什吸可卡因……

  又或是让特朗普坐上SpaceX的火箭上天。而面对同样的要求,GPT-4o拒绝得非常果断。

  Grok的审查制度究竟有多不加掩饰呢,有网友测试了让大模型“按种族排出智商前10位”,只有Grok-2毫不犹豫地给出了回答,ChatGPT、Claude直接拒绝,Gemini则展开了苦口婆心的教育。

  总的来看,Grok-2仍然贯彻了其一直以来的大胆风格,同时在模型性能上与GPT-4o等头部模型不相上下,逻辑更加清晰,多模态能力更是在FLUX.1的加持下直线.

  本月末,xAI将通过全新的企业API平台,正式向开发者推出Grok-2及Grok-2 mini。

  这款API将采用全新定制的技术架构,支持多区域推理部署,为全球用户提供低延迟的流畅体验。

  同时,xAI强化了安全功能,包括强制性的多因素身份验证(如Yubikey、Apple TouchID或TOTP),并提供了详尽的流量统计数据和高级计费分析服务,支持数据导出。

  此外,xAI还特别推出了管理API,支持将团队、用户及计费管理等功能,无缝集成至现有的内部工具和服务中。

  Grok-2和Grok-2 mini现已在X平台上线,比如增强的搜索体验、X帖子的深度解析、优化回复功能都比较令人期待。不久后,xAI还将发布多模态理解功能的预览版。

  自2023年11月Grok-1问世以来,xAI在技术、产品及融资方面一路高歌猛进,Grok-2的推出是其新的里程碑。一旦马斯克将Grok大模型能力与X平台的强大内容用户生态连接,形成闭环,包括OpenAI在内的大模型创企的压力都更大了。

搜索