headphones
谷歌最新应用让你的手机在口袋中运行人工智能——完全离线
Jose Antonio Lanz
Jose Antonio Lanz
authIcon
数字货币大师
06-04 08:23
Follow
Focus
谷歌悄然推出了 AI Edge Gallery,这是一款新的 Android 应用,可以完全离线运行 Gemma 等大型语言模型。
Helpful
Not Helpful
Play

谷歌发布了一款没人要求但每个人都想尝试的新应用。

AI Edge Gallery 于 5 月 31 日悄然推出,它将人工智能直接放在您的智能手机上——无需云、无需互联网,也不会与大型科技公司的服务器共享您的数据。

实验性应用程序——根据 Apache 2.0 许可证发布,允许任何人使用它来做几乎任何事情——可以在 GitHub 上获取,从 Android 平台开始.iOS版本即将推出。

它完全离线运行 Google Gemma 3n 等模型,仅使用手机硬件即可处理从图像分析到代码编写的所有操作。

而且效果出奇的好。

该应用程序目前似乎主要针对开发人员,包括三个主要功能:用于对话的 AI Chat、用于视觉分析的 Ask Image 和用于重写文本等单次任务的 Prompt Lab。

用户可以从 Hugging Face 等平台下载模型,但选择仍然仅限于 Gemma-3n-E2B 和 Qwen2.5-1.5 B 等格式。

Reddit 用户立即质疑该应用的新颖性并将其与 PocketPal 等现有解决方案进行比较。

一些提出安全问题尽管该应用托管在谷歌官方 GitHub 上,反驳了其存在冒充指控。目前尚未发现任何恶意软件的证据。

我们在三星 Galaxy S24 Ultra 上测试了该应用程序,下载了可用的最大和最小的 Gemma 3 型号。

每个 AI 模型都是一个独立的文件,包含其所有“知识”——可以将其视为下载模型在训练期间所学内容的压缩快照,而不是像本地维基百科应用程序那样下载一个巨大的事实数据库。应用内最大的 Gemma 3 模型约为 4.4 GB,最小的约为 554 MB。

下载后,无需进一步的数据 - 模型完全在您的设备上运行,仅使用发布前学到的知识来回答问题和执行任务。

即使在低速 CPU 推理中,体验也与 GPT-3.5 在发布时提供的体验相匹配:对于更大的模型来说速度不是很快,但绝对可用。

较小的 Gemma 3 1B 型号实现了每秒超过 20 个令牌的速度,在监督下提供了流畅的体验和可靠的准确性。

当您离线或处理不想与 Google 或 OpenAI 的训练算法共享的敏感数据时,这一点很重要,除非您选择退出,否则它们会默认使用您的数据。

在最小的 Gemma 模型上,GPU 推理实现了令人印象深刻的预填充速度,每秒超过 105 个令牌,而 CPU 推理则达到每秒 39 个令牌。令牌输出(即模型经过思考后生成响应的速度)在 GPU 上平均达到每秒约 10 个令牌,在 CPU 上平均达到每秒 7 个令牌。

多模式功能在测试中表现良好。

此外,似乎在较小模型上进行 CPU 推理比进行 GPU 推理产生的结果更好,尽管这可能只是传闻;然而,这已在各种测试中观察到。

例如,在一项视觉任务中,CPU 推理模型准确地猜出了测试照片中我和我妻子的年龄:我 30 多岁,她 20 多岁。

据称更好的 GPU 推断功能错误地估计了我的年龄,猜测我 20 多岁(不过,我随时都愿意相信这个“信息”而不是真相。)

谷歌的模型受到严格的审查,但只需付出很少的努力就可以实现基本的越狱。

与禁止用户规避尝试的集中式服务不同,本地模型不会报告您的提示,因此使用越狱技术是一种很好的做法,而不会冒着订阅的风险或向模型询问审查版本不会提供的信息。

有第三方模型支持,但有些有限。

该应用程序仅接受 .task 文件,而不是竞争对手喜欢的广泛采用的 .safetensor 格式奥拉马 支持。

这极大地限制了可用的模型,尽管有方法将 .safetensor 文件转换为 .task,但并不适合所有人。

代码处理已经足够好了,尽管像 Codestral 这样的专用模型可以比 Gemma 3 更有效地处理编程任务。同样,它必须有一个 .task 版本,但它可以是一个非常有效的替代方案。

对于复述、总结和解释概念等基本任务,这些模型无需将数据发送到三星或谷歌的服务器就能表现出色。

因此,用户无需授予大型技术访问其输入、键盘或剪贴板的权限,因为他们自己的硬件正在处理所有必要的工作。

4096 个标记的上下文窗口感觉受到 2025 年标准的限制,但与两年前的标准相符。

在这些限制条件下,对话自然流畅。这或许是定义体验的最佳方式。

考虑到您正在智能手机上运行 AI 模型,此应用程序将在速度和文本准确性方面为您提供与早期 ChatGPT 类似的体验,并具有多模态和代码处理等一些优势。

但是,为什么你要在手机上运行你最喜欢的人工智能的速度较慢、质量较差的版本,占用大量存储空间,并使事情变得比简单地输入 ChatGPT.com 更复杂呢?

隐私仍然是关键要素。例如,处理患者数据的医护人员、现场记者或任何处理机密信息的人现在都可以访问 AI 功能,而无需将数据离开他们的设备。

“无需互联网”意味着该技术可以在偏远地区或旅行时使用,所有响应仅根据模型在训练时现有的知识生成。

成本节省立竿见影。云端 AI 服务按使用量收费,而本地模型仅需手机的处理能力。小型企业和业余爱好者无需持续投入即可进行实验。如果您在本地运行模型,则可以可以随心所欲地与其互动,无需消耗配额、积分,或订阅,并且无需支付任何费用.

延迟的改善显而易见。无需服务器往返意味着实时应用(例如聊天机器人或图像分析)的响应速度更快。这也意味着您的聊天机器人永远不会下去.

总的来说,对于基本任务来说,这对于任何用户来说都已经足够了,有了 ChatGPT 的免费版本,克劳德, 双子座, , 雷卡, 和 米斯特拉尔在需要进行更大量计算时提供良好的备份。

当然,它短期内还无法取代你最喜欢的联网聊天机器人。早期采用它还面临一些挑战。

电池消耗问题仍然存在,特别是对于较大的模型;设置的复杂性可能会让非技术用户却步;与云产品相比,模型种类相形见绌,而谷歌决定不支持 .safetensor 模型(几乎占互联网上所有 LLM 的 100%)令人失望。

然而,谷歌的实验性发布标志着人工智能部署理念的转变。该公司不再强迫用户在强大的人工智能和隐私之间做出选择,而是两者兼顾,即使体验尚未完全达到。

AI Edge Gallery 的 Alpha 版本带来了令人惊喜的精致体验。谷歌的优化展现了其打造的可能是目前本地运行 AI 模型的最佳 UI 的能力。

添加 .safetensor 支持将解锁现有模型的庞大生态系统,将优秀的应用程序转变为注重隐私的 AI 用户必不可少的工具。

编辑乔什·奎特纳塞巴斯蒂安·辛克莱

Open the app to read the full article
DisclaimerAll content on this website, hyperlinks, related applications, forums, blog media accounts, and other platforms published by users are sourced from third-party platforms and platform users. BiJieWang makes no warranties of any kind regarding the website and its content. All blockchain-related data and other content on the website are for user learning and research purposes only, and do not constitute investment, legal, or any other professional advice. Any content published by BiJieWang users or other third-party platforms is the sole responsibility of the individual, and has nothing to do with BiJieWang. BiJieWang is not responsible for any losses arising from the use of information on this website. You should use the related data and content with caution and bear all risks associated with it. We strongly recommend that you independently research, review, analyze, and verify the content.
Comments(0)

No comments yet

edit
comment
collection
like
share