文章摘要
GPT 4
此内容根据文章生成,并经过人工审核,仅用于文章内容的解释与总结

说在前面

在各大互联网公司疯狂内卷大数据、AI模型、机械学习时,貌似走在技术前沿的苹果公司一直没有动静,在iPhone 16发布时,重新定义了Apple Intelligence的“新AI”,但国内还没办法直接使用。

Xcode上的ML

而我在学习swift时,偶然间突然发现Xcode上竟然直接有ML(Machine Learning)相关的选项,在大概了解后,发现其实苹果公司在2024年6月13号就开源了 MobileCLIP ,它是苹果公司在 CVPR 2024 上提出的一种通过多模态强化训练实现的快速图像 - 文本模型。

目前市场上的示例

简单来说,大家平时或多或少都用到过“图像、文本识别”,例如支付宝的AR识花:

AR识花

甚至包括现在大部分品牌手机自带的识别功能,例如小米的“传送门”功能:

传送门

问题所在

但是目前市面上大多数识别,都避免不了网络传输,也就是 必须在联网的环境下才可以使用 ,他们会先请求自家的服务器,通过高配置服务器大量的编码和运算,计算识别之后再返回到手机端显示。

有的同学可能会提出一个疑问,问什么要联网,手机不是也有芯片,自己不能进行识别吗?

问题就在这里:

  • 一些复杂的图像识别算法和模型对计算资源的要求很高,例如深度神经网络需要进行大量的矩阵运算和参数更新。本地设备如手机、电脑等的计算能力有限,而云端服务器具有强大的 CPU、GPU 等计算资源,可以快速处理图像识别任务,提高识别效率和速度。
  • 各类图像数据不断变化和更新,联网能够确保识别系统及时获取最新的数据,如新产品的图片、新发现的物种图像、更新后的人脸数据等,以适应不断变化的识别需求。

但既然是需要联网才能使用,就不免得多转一道,会多了隐私和依靠网络环境的问题。

苹果的MobileCLIP

而我们知道的苹果公司,它就爱“在隐私上费功夫”,像我之前一直吐槽的 iPhone 手机不能复制NFC做门卡,虽然苹果公司没有直接回应过,但各大苹果粉丝会回复你:为了隐私

问就是为了隐私

而上面提到苹果的 MobileCLIP ,他也可以在不联网的情况下,快速获得设备本地处理的结果,提高了隐私性和使用体验。

实际使用体验

我们在github对应项目下载并简单汉化安装到iPhone手机上,我也顺便摸鱼到公司旁边的公园进行测试。

目前该模型需要简单录入一些词组,才能进行对应的识别,我简单录入一些公园常见的物体,例如:tree、dog、flower这些,看它能不能正常识别:

识别花
识别路
识别草
识别树

我们可以在界面下方找到识别的物体和相似度,排名第一的其实就是最后的识别结果,可以看到全部是正确的。

而这些都是在无网环境下进行的:

无网环境

而且它还可以识别人物的表情,例如喜怒哀乐,竖大拇指等,但 为了隐私 这里就不放图了。

使用体验和感受

不得不说,使用过程中,不管速度还是准确性都是非常好的程度,除了手机本身会有发热的情况,但这个没办法,毕竟是把大量计算识别放在手机芯片上了,随着芯片的逐步升级,这一痛点未来也会逐渐消失。

具体应用会在哪里

作为一个使用iPhone手机N年的用户,我就有一个痛点,就是相册有大量的照片,你想查找具体某一张照片时,可以用到自带的相册搜索功能,但说实话,每次都感觉不好用,根本搜不到准确的照片。

例如我搜索“塔”,它除了找到几个大楼外,甚至会给我找到美食的图片:

搜索塔的结果

也可以借助第三方软件,例如某网盘,但你看着它把你的照片分类成各种主题,总觉得隐私都被它收集走了,更别提一些功能还需要 额外付费

而上述苹果的MobileCLIP项目,最新更新时间是在2024/11/22,它无疑代表了目前开源界苹果最新的技术,如果进行修改,除了能增加准确性以外,甚至还能拓展出更多的玩法。

或许苹果会在某一次更新上,就偷偷把这个模型加入到手机,或者跟着某一款新型号的iPhone发布,毕竟这个功能,芯片越强效果越好,发热也更少。

说在最后

从2023年年底接触到chatgpt,到现在各大公司投身AI赛道,或许未来某一天神仙打架、拼得你死我活,但我只有一个心愿,就是 科技能更多地辐射我们普通人的生活,让我们普通人的生活变得更加美好、轻松、便捷