OpenAI正式进入千亿资产安全战场：EVMbench发布，智能合约审计范式生变

作者：RWA研究院

2026 年 2 月 18 日，OpenAI 与加密投资机构 Paradigm 联合发布了一款名为 EVMbench 的基准测试工具。根据 HEAL Security 的报道，这套工具旨在评估 AI 代理在以太坊虚拟机环境中发现、修补和利用智能合约漏洞的能力，其背后是价值超过 1000 亿美元的开源加密资产安全需求。这条新闻在 AI 圈并未激起太大水花，但在区块链安全领域，它被视为一个历史性信号：AI 正式进入价值超千亿美元的链上资产安全战场。

EVMbench 并非一款商业产品，而是一套衡量 AI 代理安全能力的“考卷”。据 AI Business 报道，该基准测试收录了来自 40 次专业审计的 120 个高危漏洞案例，多数取自 Code4rena 等公开审计竞赛平台。更值得关注的是，它纳入了 Tempo 区块链的多个漏洞场景——Tempo 是由 Stripe 和 Paradigm 为稳定币支付专门构建的 Layer 1 区块链，这意味着 EVMbench 的触角已经伸向了支付导向的智能合约领域，而这正是 RWA 与稳定币交汇的核心地带。

测试结果令人震撼。根据 eWEEK 的报道，最新的 GPT-5.3-Codex 在“漏洞利用”模式下的成功率高达 72.2%，而仅仅六个月前发布的 GPT-5 在同一测试中得分仅为 31.9%。这组数字背后，是一场正在发生的范式变革：智能合约审计，这个守护千亿资产的关键防线，正在从“人力密集型”走向“AI 增强型”。对于正在从概念验证迈向规模化部署的 RWA 而言，这一变革的影响将远超技术本身。

一、三份考卷，测出 AI 的安全功底

EVMbench 的设计逻辑，本质上是将智能合约安全的完整工作流拆解为三个递进的能力层级。据 HEAL Security 报道，这三种模式分别对应着安全工作的不同阶段：检测模式要求 AI 代理审计智能合约代码库，并基于对已知漏洞的召回率进行评分；修补模式要求 AI 在修复漏洞的同时保持合约原有功能完整，通过自动化测试和漏洞利用检查来验证；利用模式则最为激进——AI 代理必须在沙盒化的区块链环境中执行端到端的资金窃取攻击，通过交易重放和链上验证来评分。

这种设计的高明之处在于，它不是在测试 AI 的“知识点”，而是在测试 AI 的“工作流”。台湾科技大学的分析指出，检测对应审计能力，修补对应开发能力，利用对应攻击理解能力——三者构成了一个完整的安全能力闭环。OpenAI 为此开发了一套基于 Rust 语言的测试架构，可以确定性部署合约并限制不安全的 RPC 方法，所有利用任务都在隔离的本地 Anvil 环境中运行，而非真实网络。

特别值得注意的是 EVMbench 的题库构成。据 Bitcoin.com 报道，这 120 个漏洞案例不仅来自通用的 DeFi 协议审计，还专门纳入了 Tempo 区块链的多个漏洞场景。AI Business 分析指出，Tempo 是为稳定币支付设计的高吞吐量 Layer 1 区块链，将这些场景纳入评测范围，意味着 EVMbench 已经将目光投向了未来 AI 代理与稳定币支付系统深度融合的安全需求。当 AI 代理自主执行支付、管理资产时，这些场景的覆盖面恰恰是 RWA 生态最关心的部分。

二、72% 的攻击成功率，AI 更会进攻还是防守

EVMbench 的测试结果揭示了一个耐人寻味的现象：AI 在“攻击”上的表现远超“防守”。根据 HEAL Security 的数据，在利用模式下，GPT-5.3-Codex 达到了 72.2% 的成功率；但在检测模式下，AI 往往在找到第一个漏洞后就停止深入，难以完成全面的代码审计。OpenAI 对此的解释是，利用模式的目标足够明确——“直到资金被完全抽干为止”，这让 AI 可以不断迭代尝试；而检测模式需要的是“全面覆盖”，这是当前 AI 的短板。

eWEEK 的报道进一步印证了这一判断。报道援引测试数据称，最好的模型在漏洞检测上仅能捕捉约 46% 的漏洞，而在修补模式下，成功率也只有 39% 左右。但当给 AI 一个关于漏洞位置的小提示时，修补成功率会从 39% 跃升至 94%。这一发现揭示了一个关键结论：当前 AI 能力的瓶颈不在于技能本身，而在于搜索范围——人类提供上下文后，AI 的表现会大幅提升。

这一发现对 RWA 生态有着深刻的警示意义。攻击者可能比防守者更快利用 AI——如果 AI 能以 72% 的成功率复现攻击路径，那么黑产团队没有理由不部署同样的能力。审计的逻辑也在被改变：传统审计是“找漏洞”，未来审计可能是“验证 AI 没找到的漏洞”。速度正在成为新的安全变量，漏洞从被发现到被利用的时间窗口正在被 AI 急剧压缩。

OpenAI 在发布 EVMbench 的同时，也宣布将通过其网络安全资助计划提供 1000 万美元的 API 额度，支持防御性安全研究，特别是针对开源软件和关键基础设施的研究。公司还扩大了其安全研究代理 Aardvark 的测试范围，并与开源维护者合作提供免费代码扫描服务。这释放了一个明确信号：防御方正在与时间赛跑。

三、冷静的声音：学术界和安全公司的质疑

然而，EVMbench 发布后不久，来自学术界和产业界的质疑声也随之而来。2026 年 3 月 11 日，arXiv 平台上发布了一篇题为《Re-Evaluating EVMBench： Are AI Agents Ready for Smart Contract Security？》的论文，对 EVMbench 的结论进行了重新评估。

这篇由 Chaoyuan Peng 等人撰写的论文指出，EVMbench 存在两个关键局限：一是评估范围狭窄，仅测试了 14 种代理配置，且大多数模型仅在其供应商提供的框架上测试；二是依赖的审计竞赛数据发布时间早于所有模型的发布截止日期，模型可能在训练阶段已经接触过这些数据。为弥补这些局限，研究者将测试扩展到 26 种配置，覆盖四个模型家族和三种框架，并引入了一个全新的、不包含数据污染的真实安全事件数据集——22 个发生在所有模型发布日期之后的安全事件。

研究得出三个重要发现。第一，AI 代理的检测结果并不稳定，在不同配置、任务和数据集上的排名会发生显著变化。第二，在真实安全事件上，没有任何 AI 代理能在全部 110 个代理 - 事件组合中实现端到端的成功利用——尽管它们最多能检测出 65% 的漏洞，但这与 EVMbench 得出的“漏洞发现是主要瓶颈”的结论相矛盾。第三，框架选择对结果影响显著，一个开源框架的表现比供应商提供的框架高出 5 个百分点，但 EVMbench 并未对此进行控制。

与此同时，知名区块链安全公司 OpenZeppelin 也对 EVMbench 提出了尖锐批评。据 Cointelegraph 中文报道，OpenZeppelin 在对 EVMbench 进行审计后发现，数据集中存在训练数据泄露，以及至少四项被标记为高严重性的漏洞在实际操作中并不可利用。OpenZeppelin 在 X 平台发文指出，所有高分 AI 代理“很可能在预训练阶段已接触到与基准测试相关的漏洞报告”，因为这些漏洞均来自 2024 年到 2025 年中期的审计，而 AI 代理的知识截止时间通常设定在 2025 年中期。

这些质疑共同指向一个结论：完全自动化的 AI 审计尚未到来。正如 arXiv 论文所言，AI 能够可靠地捕捉已知模式，并对人类提供的上下文做出强烈响应，但无法替代人类的判断。对于开发者而言，AI 扫描可以作为预部署检查工具；对于审计机构而言，AI 最有效的定位是“人机协同”——由 AI 负责广度覆盖，人类审计师贡献协议特定的知识和对抗性推理。

四、千亿资产的守门人，RWA 需要怎样的安全

智能合约管理着超过 1000 亿美元的链上资产，这是 EVMbench 发布的背景数据。但更值得关注的是，这 1000 亿美元正在发生结构性变化——RWA 的崛起正在将传统金融资产带入链上。当国债、信贷、房地产等现实世界资产以代币化形式上链时，安全的内涵被重新定义。

对于 RWA 项目方面言，智能合约的漏洞不再是“币圈内部损失”，而是直接指向现实资产的损失。这意味着安全审计的标准必须向传统金融看齐。据 AI Business 报道，麦肯锡预测到 2028 年，已发行稳定币的总价值将达到 2 万亿美元。在这个规模下，安全不再只是技术问题，而是资产负债表的直接风险。项目方需要重新评估现有审计流程，探索 AI 审计工具的嵌入路径——不是用 AI 完全替代人类，而是让 AI 完成广度覆盖，人类聚焦协议特定逻辑和对抗性推理。

对于审计机构而言，OpenAI 承诺提供的 1000 万美元 API 额度支持防御性安全研究，这是一个明确的信号：AI 审计不是来替代审计师的，而是来武装审计师的。未来，能够驾驭 AI 的审计团队将获得指数级的能力提升。正如 arXiv 论文所言，AI 在检测模式下的不稳定性恰恰说明，人类审计师的专业判断在当前阶段不可或缺。AI 处理已知模式的识别，人类负责边界案例和创新性漏洞的发现，这种分工正在成为行业共识。

对于上市公司而言，当企业将资产以 RWA 形式上链融资时，智能合约的安全性直接关系到企业的资产负债表。据 Blockchain.news 报道，随着 AI 代理在漏洞利用上能力的提升，漏洞发现到被利用的时间窗口正在急剧缩短——那些不使用 AI 辅助审计的协议团队，将越来越处于劣势。“合约被黑客攻击”将从技术风险上升为财务风险，董事会需要对此有清晰的认知。这不仅是技术部门的职责，更是战略层面的风险管理议题。

五、人机协同，才是这场变革的终局答案

基于上述分析，我们可以从三个层面提炼出这场范式变革的战略启示。

技术层面，人机协同是未来范式。arXiv 论文的结论值得反复强调：AI 无法替代人类判断，但可以作为“预部署检查工具”发挥最大价值。对于 RWA 项目而言，最优策略是将 AI 审计嵌入开发流程——在代码编写阶段就引入 AI 辅助扫描，在上线前由人类审计师进行最终把关。正如 eWEEK 的分析所指出的，AI 在获得小提示后修补成功率可从 39% 跃升至 94%，这意味着人类审计师可以将有限精力集中在 AI 难以把握的核心逻辑上。

认知层面，安全成本的定义正在被重塑。传统观念中，安全审计是上线前的“一次性投入”。但在 AI 代理经济崛起的背景下，攻击可以 24 小时自动化进行，安全也必须成为持续性的实时监控。HEAL Security 的报道指出，EVMbench 的发布正值 AI 代理在代码编写和规划能力上飞跃的节点，未来这些模型将在区块链的攻击与防御两端扮演转型角色。这意味着项目方需要建立持续监控机制，而非仅在发布前做一次审计。

合规层面，守住红线与用好工具必须兼顾。对于 RWA 研究院的中国大陆读者而言，EVMbench 的讨论必须在 42 号文“境内严禁、境外备案”的框架下进行。本文讨论的 AI 审计工具聚焦于技术趋势和防御性应用，绝不构成对境内合约的操作建议。但当中国企业通过香港合规通道发行 RWA 时，采用 AI 增强的审计能力，将是与国际标准接轨的必然要求。香港稳定币牌照的落地，恰恰为这种合规探索提供了通道。

结语

2026 年，数字文明正在经历 AB 面的深度融合：AI 作为极致生产力，区块链作为先进生产关系。EVMbench 的发布，是这两条主线在资产安全这一关键节点上的首次交汇。

72.2% 的攻击成功率是一个警钟：AI 的漏洞利用能力正在指数级提升，留给防守方的时间窗口正在缩短。但 1000 万美元的防御投入也是一个承诺：AI 同样可以被用来守护资产，关键在于我们如何驾驭它。arXiv 论文的结论为这种驾驭提供了方向——AI 无法替代人类，但可以成为最得力的助手。OpenZeppelin 的批评则提醒我们，工具的构建和评估必须与被保护的合约达到同等标准。

对于 RWA 生态而言，安全从来不是技术选项，而是生存底线。当千亿资产从物理世界走向数字空间时，AI 与人类的协同审计，或许就是那道最后的防线。站在临界点上，那些率先将 AI 审计工具嵌入开发流程的项目，将在这场攻防速度战中占据先机；而那些等到监管完全明朗才行动的企业，可能会发现窗口期已经关闭。

本文讨论的 AI 审计技术适用于境外合规框架，不构成境内操作建议。对于中国企业而言，在香港合规通道下探索 AI 增强的 RWA 安全实践，将是与全球标准接轨的必由之路。

Open App for Full Article

USD美元

CNY人民币

JPY日元

HKD港币

THB泰铢

GBP英镑

EUR欧元

AUD澳元

TWD新台币

KRW韩元

PHP菲律宾比索

AED阿联酋迪拉姆

CAD加拿大元

MYR马来西亚林吉特

MOP澳门币

NZD新西兰元

CHF瑞士法郎

CZK捷克克朗

DKK丹麦克朗

IDR印尼卢比

LKR斯里兰卡卢比

NOK挪威克朗

QAR卡塔尔里亚尔

RUB俄罗斯卢布

SGD新加坡元

SEK瑞典克朗

VND越南盾

ZAR南非兰特

You may like

一、三份考卷，测出 AI 的安全功底

二、72% 的攻击成功率，AI 更会进攻还是防守

三、冷静的声音：学术界和安全公司的质疑

四、千亿资产的守门人，RWA 需要怎样的安全

五、人机协同，才是这场变革的终局答案

结语