headphones
AI预测实录:想靠AI在预测市场赚钱?但它可能连题目都没看清
Odaily 星球日报
Odaily 星球日报
01-04 18:03
Follow
Focus
Grok 的预测胜率已经超越了这些在预测市场上盈利数十万、百万美元的聪明钱,但深入探究其预测逻辑,仍有大量可以引导、改正的地方。
Helpful
Unhelpful
Play

作者:Odaily 星球日报

多数赛道证伪后,预测市场成为 Crypto 圈内少数仍在正向增长的赛道之一。11 月 20 日,南枳开始尝试用去年寻找 Meme 聪明钱的思路寻找预测市场聪明钱,并在初期取得了较好的成果。

12 月初,正值 Gemini 3 Pro 上线,在测试相关模型的时候想到是否可以使用 AI 对预测市场进行分析和预测,并由人类对阵 AI 看哪方预测更为准确。

在对预测市场做介绍时,通常宣称其通过“让有见解的人使用真金白银下注”,从而推动市场向“真相”靠拢。但也有人认为 Crypto+预测市场让“内幕人士”可以安全地获取信息差所带来的利润,从而带动市场向“内幕结果”发展,这本质上是“群体智慧”与“真理掌握在少数人手中”两种观点的交锋,而 AI 预测更偏向于“群体智慧”,因此需要有大量的可用知识和见解。

所以在如何选择 AI 模型的问题上,初步选用了 Gemini 和 Grok,因为二者依靠着 Google 和 X 平台,可以最直接地获取大量的知识与见解,近期南枳又新增了“豆包+抖音知识”的组合,但由于预测题目尚不多在本篇暂不涉及。

基本规则

  • AI 版本:Gemini 2.5 pro(自带 Google 搜索)、Grok 4 Fast(通过 OpenRouter 调用,启用原生搜索功能)

  • 题目选择:由人类选择下注题目,AI 跟随预测,但排除了 Crypto 板块

  • 输入内容:官方题目(title)、官方描述(Description)、可选答案(其实只有 Yes 和 No)

注:Polymarket 的题目分为大类 Event 和子类 Market,大类 Event 为“谁是下一任美联储主席”、“Strategy 什么时候会卖出比特币”这种大范围的题目,Event 下面又包含了 N 个子类市场,例如“哈赛特是否会成为下一任美联储主席”、“Strategy 在 2026 年 3 月 31 日前会卖出比特币”这种具体的选择。为了与人类预测对齐,这里选择了 Market 作为 AI 判断的题目,不向其输入其他选项,例如只让他判断“哈赛特是否会成为下一任美联储主席”,而非让他从 N 个候选人中选出最有可能的那一个。

  • 提示词设计:

  • 要求 AI 搜索最新新闻、官方公告、专家分析报告

  • 要求剔除、禁止使用预测市场数据

  • 基于“证据”,运用逻辑推理进行判断

  • 只允许输出 Yes 和 No,并用一段话阐述推理逻辑

当前结果

预测题目中,已结算 21 个,Grok 胜率最高为 75%,人类为 66.7%,而 Gemini 最低为 52.4%。目前结果可在相关网站查看。

AI 犯了什么错?

Gemini 偶尔误判当前时间

在题目”Will Trump's approval rating hit 35% in 2025?“中,Gemini 表示目前是 2025 年上半年,所以一切皆有可能,胡乱给出了答案。

但作者使用程序直接要求 Gemini 输出当前时间时,Gemini 能够给出正确答案,尚不清楚为何会出现这样的错误时间认知。

AI 思考深度不足

在题目“Gemini 3.0 Flash released by December 16?”中,Grok 根据“官方最近只提及 Gemini 3 Pro 及 2.5 相关版本,极少提及 3 Flash,因此证据不足不能判断”,只考虑了当下信息。

而 Gemini 指出“Gemini 1.0 于 2023 年 12 月发布,而 Gemini 2.0 Flash 的实验版于 2024 年 12 月推出。延续这一模式,在 2025 年底推出 3.0 版本是合乎逻辑的”,并且发现了“最近(2025 年 12 月 14 日)在网络社区中流传的一个关于“Gemini 3.0 Flash”的泄露演示,进一步增强了其即将公开发布的可能性”。

虽然从结论上来看,Gemini 的答案反而是错误的,但在本题目中可以明显看出二者所依赖的资料广度存在明显差距。

AI 基于常识而非基于证据+逻辑进行推断

在题目“Trump approval Up or Down this week?”中,Gemini 表示“对一年多以后的单周民意调查支持率进行预测具有高度的不确定性”,首先再次出现了“时间误判”的情况。然后 Gemini 表示“在任何一个普通星期内,出现导致支持率轻微下降的事件的概率,可能略高于出现能显著提升支持率的正面事件的概率”,所以支持率下降的可能性更大,生成的结论仅依据主观常识假设。

而本题目中,Grok 基于“政府关门、经济担忧、移民政策争议以及对罗伯·莱纳去世评论引发的负面反弹影响”等新闻报道以及民调数据,符合设计预期。

结算条件判断有误

在题目“Will Trump release the Epstein files by December 20?”中,Gemini 和 Grok 均已知道“政府将于周五(12 月 19 日)公布‘数十万页’文件”,而结算条件中明确指出“政府公开发布任何与爱泼斯坦非法活动相关且在所列日期前未公开的文件,即判断为 Yes”。

然而在这一条件下,Gemini 表示“在 12 月 20 日之前完成‘所有’文件的公布是不可能的”,明显误判了结算所需要的条件,因此给出了错误答案。

小结

综上,Grok 的预测胜率已经超越了这些在预测市场上盈利数十万、百万美元的聪明钱,但深入探究其预测逻辑,仍有大量可以引导、改正的地方。

Open App for Full Article
DisclaimerThis website, hyperlinks, related apps, forums, blogs, media accounts, and other platforms' content are all sourced from third-party platforms and users. CoinWorldNet makes no guarantees about the website or its content. All blockchain data and other materials are for educational and research purposes only and do not constitute investment, legal, or other advice. Users of the CoinWorldNet and third-party platforms are solely responsible for the content they post, which is unrelated to CoinWorldNet. CoinWorldNet is not liable for any loss arising from the use of this website's information. You should use the data and content cautiously and bear all associated risks. It is strongly recommended that you independently research, review, analyze, and verify the content.
Comments(1)
Popular
Latest
bjw104103
不错
01-04 18:45
Reply
0
edit
comment
collection
like
share