互动

最近评论

标签

寻找感兴趣的领域

原创闲聊杂谈

苹果新更新的图像文本识别模型，无网环境下实现毫秒级物品识别

2025-01-02T03:42:00.000Z2025-03-10T02:58:32.942Z1.3k4 min上海

文章摘要

GPT 4

此内容根据文章生成，并经过人工审核，仅用于文章内容的解释与总结

说在前面

在各大互联网公司疯狂内卷大数据、AI模型、机械学习时，貌似走在技术前沿的苹果公司一直没有动静，在iPhone 16发布时，重新定义了Apple Intelligence的“新AI”，但国内还没办法直接使用。

Xcode上的ML

而我在学习swift时，偶然间突然发现Xcode上竟然直接有ML（Machine Learning）相关的选项，在大概了解后，发现其实苹果公司在2024年6月13号就开源了 MobileCLIP ，它是苹果公司在 CVPR 2024 上提出的一种通过多模态强化训练实现的快速图像 - 文本模型。

目前市场上的示例

简单来说，大家平时或多或少都用到过“图像、文本识别”，例如支付宝的AR识花：

AR识花

甚至包括现在大部分品牌手机自带的识别功能，例如小米的“传送门”功能：

传送门

问题所在

但是目前市面上大多数识别，都避免不了网络传输，也就是 必须在联网的环境下才可以使用 ，他们会先请求自家的服务器，通过高配置服务器大量的编码和运算，计算识别之后再返回到手机端显示。

有的同学可能会提出一个疑问，问什么要联网，手机不是也有芯片，自己不能进行识别吗？

问题就在这里:

一些复杂的图像识别算法和模型对计算资源的要求很高，例如深度神经网络需要进行大量的矩阵运算和参数更新。本地设备如手机、电脑等的计算能力有限，而云端服务器具有强大的 CPU、GPU 等计算资源，可以快速处理图像识别任务，提高识别效率和速度。
各类图像数据不断变化和更新，联网能够确保识别系统及时获取最新的数据，如新产品的图片、新发现的物种图像、更新后的人脸数据等，以适应不断变化的识别需求。

但既然是需要联网才能使用，就不免得多转一道，会多了隐私和依靠网络环境的问题。

苹果的MobileCLIP

而我们知道的苹果公司，它就爱“在隐私上费功夫”，像我之前一直吐槽的 iPhone 手机不能复制NFC做门卡，虽然苹果公司没有直接回应过，但各大苹果粉丝会回复你：为了隐私

问就是为了隐私

而上面提到苹果的 MobileCLIP ，他也可以在不联网的情况下，快速获得设备本地处理的结果，提高了隐私性和使用体验。

实际使用体验

我们在github对应项目下载并简单汉化安装到iPhone手机上，我也顺便摸鱼到公司旁边的公园进行测试。

目前该模型需要简单录入一些词组，才能进行对应的识别，我简单录入一些公园常见的物体，例如：tree、dog、flower这些，看它能不能正常识别：

识别花
识别路
识别草
识别树

我们可以在界面下方找到识别的物体和相似度，排名第一的其实就是最后的识别结果，可以看到全部是正确的。

而这些都是在无网环境下进行的：

无网环境

而且它还可以识别人物的表情，例如喜怒哀乐，竖大拇指等，但 为了隐私 这里就不放图了。

使用体验和感受

不得不说，使用过程中，不管速度还是准确性都是非常好的程度，除了手机本身会有发热的情况，但这个没办法，毕竟是把大量计算识别放在手机芯片上了，随着芯片的逐步升级，这一痛点未来也会逐渐消失。

具体应用会在哪里

作为一个使用iPhone手机N年的用户，我就有一个痛点，就是相册有大量的照片，你想查找具体某一张照片时，可以用到自带的相册搜索功能，但说实话，每次都感觉不好用，根本搜不到准确的照片。

例如我搜索“塔”，它除了找到几个大楼外，甚至会给我找到美食的图片：

搜索塔的结果

也可以借助第三方软件，例如某网盘，但你看着它把你的照片分类成各种主题，总觉得隐私都被它收集走了，更别提一些功能还需要 额外付费 。

而上述苹果的MobileCLIP项目，最新更新时间是在2024/11/22，它无疑代表了目前开源界苹果最新的技术，如果进行修改，除了能增加准确性以外，甚至还能拓展出更多的玩法。

或许苹果会在某一次更新上，就偷偷把这个模型加入到手机，或者跟着某一款新型号的iPhone发布，毕竟这个功能，芯片越强效果越好，发热也更少。

说在最后

从2023年年底接触到chatgpt，到现在各大公司投身AI赛道，或许未来某一天神仙打架、拼得你死我活，但我只有一个心愿，就是 科技能更多地辐射我们普通人的生活，让我们普通人的生活变得更加美好、轻松、便捷 。

易困Yikun

无限进步

赞赏作者

感谢您的赞赏

支付宝
微信

由于您的支持，我才能够实现写作的价值。

本文是原创文章，采用CC BY-NC-SA 4.0协议，完整转载请注明来自易困Yikun

日常7 闲聊7

喜欢这篇的人也看了

随便逛逛

摇一摇广告的前世今生，行内从业者的讲述和辩护！一半天使，一半魔鬼

移动端APP广告形式进化史，摇一摇广告为什么屡禁不止？

评论 ()

博客分类

文章标签

隐私协议

版权协议

音乐已暂停