尽管目前Siri可以尝试描述图像信息,但其效果并不稳定。然而,苹果公司并未放弃在人工智能领域的探索。最近,苹果的人工智能团队分享了一种名为ReALM(Realistic Automatic Language Model)的模型,他们认为这个模型在测试中优于OpenAI知名的GPT-4.0。

ReALM的独特之处在于,它能够同时理解用户屏幕上的内容和正在进行的操作。论文将信息分为三种类型:屏幕实体、对话实体和背景实体。

如果ReALM能够完美运行,那么Siri将会变得更加智能和实用。研究者与OpenAI提供的GPT-3.5和GPT-4.0进行了性能对比,“我们同时测试了OpenAI提供的GPT-3.5和GPT-4.0模型,并为它们提供了上下文信息,让它们预测一系列可能的实体。GPT-3.5只接受文本输入,因此我们只提供了文字提示。而GPT-4能够理解图像信息,因此我们为它提供了屏幕截图,这显著提升了它的屏幕实体识别性能。”

那么苹果的ReALM表现如何呢?“我们的模型在识别不同类型实体方面均取得了显著进步,即使是最小的模型,在屏幕实体识别上的准确率也比原有系统提高了5%以上。”与GPT-3.5和GPT-4.0的对比中,“我们最小的模型与GPT-4.0的性能相当,而更大的模型则明显优于它。”

论文的结论之一是,ReALM即使拥有比GPT-4少得多的参数,也能在性能上与之匹敌,并且在处理特定领域的用户指令时表现更加出色。对于苹果而言,如何在不影响性能的情况下将这项技术应用于设备似乎是关键所在。

随着WWDC 2024开发者大会即将于6月10日召开,外界普遍期待苹果将在iOS18等新系统中展示更多的人工智能技术成果。

(8636744)

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com