Google Gemini 2.5 Pro在AI“ IQ”战斗中的编码图和Mensa测试

Google最近推出了Gemini 2.5 Pro在编码排行榜上排名第一，击败了ClaudeWebDev竞技场 - 类似于LLM竞技场，但专门针对衡量AI模型在编码方面的良好方式。这项成就是在Google推动将其旗舰AI模型定位为编码和推理任务领导者的领导者的情况下实现的。

今年早些时候发行Gemini 2.5 Pro排名第一在几个类别中，包括编码，样式控制和创意写作。模型庞大的上下文窗口 - 一百万个代币扩展到两百万很快 - 允许它处理大型代码库和复杂项目，这些项目甚至会扼杀最接近的竞争对手。对于上下文，诸如Chatgpt和Claude 3.7十四行诗之类的强大模型只能处理多达128K代币。

双子座在所有AI模型中也具有最高的“智商”。 Trackingai通过正式化mensa测试，使用Mensa挪威的口头问题来创建一种比较AI模型的标准化方法。

Gemini 2.5 Pro在这些测试中的得分高于竞争对手，即使使用培训数据中未公开可用的定制问题。

在离线测试中，智商得分为115，新的双子座列为“明亮的头脑”，平均人类智能得分约为85至114分。但是，AI具有智商需要打开包装的概念。AI系统没有像人类这样的智能商，因此最好将基准测试视为对推理基准的表现的隐喻。

对于专门为AI设计的基准，Gemini 2.5 Pro在AIME 2025数学测试中得分为86.7％，GPQA科学评估的得分为84.0％。在人类上一次考试（HLE）上，创建了一种避免测试饱和问题的新基准，Gemini 2.5得分18.8％，击败了Openai O3 Mini（14％）和Claude 3.7 Sonnet（8.9％），这在性能提升方面非常出色。

现在可以免费提供Gemini 2.5 Pro的新版本（具有速率限制）。 Google先前将此版本描述为“ 2.5 Pro的实验版”，这是其旨在通过响应推理而不是简单地生成文本的“思维模型”家庭的一部分。

尽管没有赢得每个基准，双子座有引起了开发人员的注意具有多功能性。该模型可以通过单个提示，构建交互式Web应用程序，无尽的跑步游戏和视觉模拟创建复杂的应用程序，而无需详细的说明。

我们测试了该模型，要求它修复损坏的HTML5代码。它生成了将近1000行代码，从而在质量和对全套说明的理解方面击败了克劳德3.7十四行诗（以前的领导者）。

对于工作开发商而言，Gemini 2.5 Pro Input的价格为每百万个代币和产出的价格为每百万个代币150美元，将其定位为某些竞争对手的便宜替代品，同时仍然提供令人印象深刻的功能。

AI模型在其高级计划中最多可处理30,000行代码，使其适用于企业级项目。它的多模式能力 - 使用文本，代码，声音的, 图像，和视频 - 其他以编码为中心的模型无法匹配的ADD灵活性。

Open the app to read the full article

You Might Be Interested In