headphones
Google Gemini 2.5 Pro在AI“ IQ”战斗中的编码图和Mensa测试
量子交易者
量子交易者
authIcon
数字货币大师
05-09 01:23
Follow
Focus
科技巨头“思考模型”在复杂的基准上优于竞争对手,现在可以免费提供所有用户
Helpful
Not Helpful
Play

Google最近推出了Gemini 2.5 Pro在编码排行榜上排名第一,击败了ClaudeWebDev竞技场 - 类似于LLM竞技场,但专门针对衡量AI模型在编码方面的良好方式。这项成就是在Google推动将其旗舰AI模型定位为编码和推理任务领导者的领导者的情况下实现的。

今年早些时候发行Gemini 2.5 Pro排名第一在几个类别中,包括编码,样式控制和创意写作。模型庞大的上下文窗口 - 一百万个代币扩展到两百万很快 - 允许它处理大型代码库和复杂项目,这些项目甚至会扼杀最接近的竞争对手。对于上下文,诸如Chatgpt和Claude 3.7十四行诗之类的强大模型只能处理多达128K代币。

双子座在所有AI模型中也具有最高的“智商”。 Trackingai通过正式化mensa测试,使用Mensa挪威的口头问题来创建一种比较AI模型的标准化方法。

Gemini 2.5 Pro在这些测试中的得分高于竞争对手,即使使用培训数据中未公开可用的定制问题。

在离线测试中,智商得分为115,新的双子座列为“明亮的头脑”,平均人类智能得分约为85至114分。但是,AI具有智商需要打开包装的概念。AI系统没有像人类这样的智能商,因此最好将基准测试视为对推理基准的表现的隐喻。

对于专门为AI设计的基准,Gemini 2.5 Pro在AIME 2025数学测试中得分为86.7%,GPQA科学评估的得分为84.0%。在人类上一次考试(HLE)上,创建了一种避免测试饱和问题的新基准,Gemini 2.5得分18.8%,击败了Openai O3 Mini(14%)和Claude 3.7 Sonnet(8.9%),这在性能提升方面非常出色。

现在可以免费提供Gemini 2.5 Pro的新版本(具有速率限制)。 Google先前将此版本描述为“ 2.5 Pro的实验版”,这是其旨在通过响应推理而不是简单地生成文本的“思维模型”家庭的一部分。

尽管没有赢得每个基准,双子座有引起了开发人员的注意具有多功能性。该模型可以通过单个提示,构建交互式Web应用程序,无尽的跑步游戏和视觉模拟创建复杂的应用程序,而无需详细的说明。

我们测试了该模型,要求它修复损坏的HTML5代码。它生成了将近1000行代码,从而在质量和对全套说明的理解方面击败了克劳德3.7十四行诗(以前的领导者)。

对于工作开发商而言,Gemini 2.5 Pro Input的价格为每百万个代币和产出的价格为每百万个代币150美元,将其定位为某些竞争对手的便宜替代品,同时仍然提供令人印象深刻的功能。

AI模型在其高级计划中最多可处理30,000行代码,使其适用于企业级项目。它的多模式能力 - 使用文本,代码,声音的, 图像, 和视频 - 其他以编码为中心的模型无法匹配的ADD灵活性。

Open the app to read the full article
DisclaimerAll content on this website, hyperlinks, related applications, forums, blog media accounts, and other platforms published by users are sourced from third-party platforms and platform users. BiJieWang makes no warranties of any kind regarding the website and its content. All blockchain-related data and other content on the website are for user learning and research purposes only, and do not constitute investment, legal, or any other professional advice. Any content published by BiJieWang users or other third-party platforms is the sole responsibility of the individual, and has nothing to do with BiJieWang. BiJieWang is not responsible for any losses arising from the use of information on this website. You should use the related data and content with caution and bear all risks associated with it. We strongly recommend that you independently research, review, analyze, and verify the content.
Comments(0)

No comments yet

edit
comment
collection
like
share