谷歌最新应用让你的手机在口袋中运行人工智能—

谷歌发布了一款没人要求但每个人都想尝试的新应用。

AI Edge Gallery 于 5 月 31 日悄然推出，它将人工智能直接放在您的智能手机上——无需云、无需互联网，也不会与大型科技公司的服务器共享您的数据。

实验性应用程序——根据 Apache 2.0 许可证发布，允许任何人使用它来做几乎任何事情——可以在 GitHub 上获取，从 Android 平台开始.iOS版本即将推出。

它完全离线运行 Google Gemma 3n 等模型，仅使用手机硬件即可处理从图像分析到代码编写的所有操作。

而且效果出奇的好。

该应用程序目前似乎主要针对开发人员，包括三个主要功能：用于对话的 AI Chat、用于视觉分析的 Ask Image 和用于重写文本等单次任务的 Prompt Lab。

用户可以从 Hugging Face 等平台下载模型，但选择仍然仅限于 Gemma-3n-E2B 和 Qwen2.5-1.5 B 等格式。

Reddit 用户立即质疑该应用的新颖性并将其与 PocketPal 等现有解决方案进行比较。

一些提出安全问题尽管该应用托管在谷歌官方 GitHub 上，反驳了其存在冒充指控。目前尚未发现任何恶意软件的证据。

我们在三星 Galaxy S24 Ultra 上测试了该应用程序，下载了可用的最大和最小的 Gemma 3 型号。

每个 AI 模型都是一个独立的文件，包含其所有“知识”——可以将其视为下载模型在训练期间所学内容的压缩快照，而不是像本地维基百科应用程序那样下载一个巨大的事实数据库。应用内最大的 Gemma 3 模型约为 4.4 GB，最小的约为 554 MB。

下载后，无需进一步的数据 - 模型完全在您的设备上运行，仅使用发布前学到的知识来回答问题和执行任务。

即使在低速 CPU 推理中，体验也与 GPT-3.5 在发布时提供的体验相匹配：对于更大的模型来说速度不是很快，但绝对可用。

较小的 Gemma 3 1B 型号实现了每秒超过 20 个令牌的速度，在监督下提供了流畅的体验和可靠的准确性。

当您离线或处理不想与 Google 或 OpenAI 的训练算法共享的敏感数据时，这一点很重要，除非您选择退出，否则它们会默认使用您的数据。

在最小的 Gemma 模型上，GPU 推理实现了令人印象深刻的预填充速度，每秒超过 105 个令牌，而 CPU 推理则达到每秒 39 个令牌。令牌输出（即模型经过思考后生成响应的速度）在 GPU 上平均达到每秒约 10 个令牌，在 CPU 上平均达到每秒 7 个令牌。

多模式功能在测试中表现良好。

此外，似乎在较小模型上进行 CPU 推理比进行 GPU 推理产生的结果更好，尽管这可能只是传闻；然而，这已在各种测试中观察到。

例如，在一项视觉任务中，CPU 推理模型准确地猜出了测试照片中我和我妻子的年龄：我 30 多岁，她 20 多岁。

据称更好的 GPU 推断功能错误地估计了我的年龄，猜测我 20 多岁（不过，我随时都愿意相信这个“信息”而不是真相。）

谷歌的模型受到严格的审查，但只需付出很少的努力就可以实现基本的越狱。

与禁止用户规避尝试的集中式服务不同，本地模型不会报告您的提示，因此使用越狱技术是一种很好的做法，而不会冒着订阅的风险或向模型询问审查版本不会提供的信息。

有第三方模型支持，但有些有限。

该应用程序仅接受 .task 文件，而不是竞争对手喜欢的广泛采用的 .safetensor 格式奥拉马支持。

这极大地限制了可用的模型，尽管有方法将 .safetensor 文件转换为 .task，但并不适合所有人。

代码处理已经足够好了，尽管像 Codestral 这样的专用模型可以比 Gemma 3 更有效地处理编程任务。同样，它必须有一个 .task 版本，但它可以是一个非常有效的替代方案。

对于复述、总结和解释概念等基本任务，这些模型无需将数据发送到三星或谷歌的服务器就能表现出色。

因此，用户无需授予大型技术访问其输入、键盘或剪贴板的权限，因为他们自己的硬件正在处理所有必要的工作。

4096 个标记的上下文窗口感觉受到 2025 年标准的限制，但与两年前的标准相符。

在这些限制条件下，对话自然流畅。这或许是定义体验的最佳方式。

考虑到您正在智能手机上运行 AI 模型，此应用程序将在速度和文本准确性方面为您提供与早期 ChatGPT 类似的体验，并具有多模态和代码处理等一些优势。

但是，为什么你要在手机上运行你最喜欢的人工智能的速度较慢、质量较差的版本，占用大量存储空间，并使事情变得比简单地输入 ChatGPT.com 更复杂呢？

隐私仍然是关键要素。例如，处理患者数据的医护人员、现场记者或任何处理机密信息的人现在都可以访问 AI 功能，而无需将数据离开他们的设备。

“无需互联网”意味着该技术可以在偏远地区或旅行时使用，所有响应仅根据模型在训练时现有的知识生成。

成本节省立竿见影。云端 AI 服务按使用量收费，而本地模型仅需手机的处理能力。小型企业和业余爱好者无需持续投入即可进行实验。如果您在本地运行模型，则可以可以随心所欲地与其互动，无需消耗配额、积分，或订阅，并且无需支付任何费用.

延迟的改善显而易见。无需服务器往返意味着实时应用（例如聊天机器人或图像分析）的响应速度更快。这也意味着您的聊天机器人永远不会下去.

总的来说，对于基本任务来说，这对于任何用户来说都已经足够了，有了 ChatGPT 的免费版本，克劳德, 双子座, 元, 雷卡，和米斯特拉尔在需要进行更大量计算时提供良好的备份。

当然，它短期内还无法取代你最喜欢的联网聊天机器人。早期采用它还面临一些挑战。

电池消耗问题仍然存在，特别是对于较大的模型；设置的复杂性可能会让非技术用户却步；与云产品相比，模型种类相形见绌，而谷歌决定不支持 .safetensor 模型（几乎占互联网上所有 LLM 的 100%）令人失望。

然而，谷歌的实验性发布标志着人工智能部署理念的转变。该公司不再强迫用户在强大的人工智能和隐私之间做出选择，而是两者兼顾，即使体验尚未完全达到。

AI Edge Gallery 的 Alpha 版本带来了令人惊喜的精致体验。谷歌的优化展现了其打造的可能是目前本地运行 AI 模型的最佳 UI 的能力。

添加 .safetensor 支持将解锁现有模型的庞大生态系统，将优秀的应用程序转变为注重隐私的 AI 用户必不可少的工具。

Open the app to read the full article