Google最近推出了Gemini 2.5 Pro在编码排行榜上排名第一,击败了ClaudeWebDev竞技场 - 类似于LLM竞技场,但专门针对衡量AI模型在编码方面的良好方式。这项成就是在Google推动将其旗舰AI模型定位为编码和推理任务领导者的领导者的情况下实现的。
今年早些时候发行Gemini 2.5 Pro排名第一在几个类别中,包括编码,样式控制和创意写作。模型庞大的上下文窗口 - 一百万个代币扩展到两百万很快 - 允许它处理大型代码库和复杂项目,这些项目甚至会扼杀最接近的竞争对手。对于上下文,诸如Chatgpt和Claude 3.7十四行诗之类的强大模型只能处理多达128K代币。
双子座在所有AI模型中也具有最高的“智商”。 Trackingai通过正式化mensa测试,使用Mensa挪威的口头问题来创建一种比较AI模型的标准化方法。
Gemini 2.5 Pro在这些测试中的得分高于竞争对手,即使使用培训数据中未公开可用的定制问题。
在离线测试中,智商得分为115,新的双子座列为“明亮的头脑”,平均人类智能得分约为85至114分。但是,AI具有智商需要打开包装的概念。AI系统没有像人类这样的智能商,因此最好将基准测试视为对推理基准的表现的隐喻。
对于专门为AI设计的基准,Gemini 2.5 Pro在AIME 2025数学测试中得分为86.7%,GPQA科学评估的得分为84.0%。在人类上一次考试(HLE)上,创建了一种避免测试饱和问题的新基准,Gemini 2.5得分18.8%,击败了Openai O3 Mini(14%)和Claude 3.7 Sonnet(8.9%),这在性能提升方面非常出色。
现在可以免费提供Gemini 2.5 Pro的新版本(具有速率限制)。 Google先前将此版本描述为“ 2.5 Pro的实验版”,这是其旨在通过响应推理而不是简单地生成文本的“思维模型”家庭的一部分。
尽管没有赢得每个基准,双子座有引起了开发人员的注意具有多功能性。该模型可以通过单个提示,构建交互式Web应用程序,无尽的跑步游戏和视觉模拟创建复杂的应用程序,而无需详细的说明。
我们测试了该模型,要求它修复损坏的HTML5代码。它生成了将近1000行代码,从而在质量和对全套说明的理解方面击败了克劳德3.7十四行诗(以前的领导者)。
对于工作开发商而言,Gemini 2.5 Pro Input的价格为每百万个代币和产出的价格为每百万个代币150美元,将其定位为某些竞争对手的便宜替代品,同时仍然提供令人印象深刻的功能。
AI模型在其高级计划中最多可处理30,000行代码,使其适用于企业级项目。它的多模式能力 - 使用文本,代码,声音的, 图像, 和视频 - 其他以编码为中心的模型无法匹配的ADD灵活性。
No comments yet