12月6日消息,据印度媒体indiaexpress报道,中国在人工智能竞赛中正迅速向前迈进。当世界其他地区还在经历人工智能驱动的智能手机功能涌现,主要集中在语音助手和应用间交互方面时,中国已经实现了重大飞跃。总部位于深圳的跨国电信公司中兴通讯推出了一款搭载人工智能代理的智能手机。这款手机由中兴通讯与字节跳动合作开发,其人工智能代理不仅存在于应用程序内,而且直接集成到操作系统中。它最引人注目的功能是能够像人一样操作智能手机。
来自深圳的创业者泰勒·奥根(Taylor Ogan)在他的X(原Twitter)账号上分享了一款名为努比亚M153的原型机。这款智能手机运行定制版安卓系统,并集成了字节跳动的豆包人工智能助手。对于不太了解的人来说,豆包是字节跳动自主研发的大规模通用人工智能模型生态系统,目前已在中国广泛部署,用作聊天机器人和生产力工具。
这个原型远不止是一个普通的设备助手。Ogan 的演示表明,人工智能可以完全控制手机,这意味着它可以识别用户界面、打开应用、下载应用、点击屏幕和输入文字、拨打电话,以及执行多步骤任务,而无需用户知道需要哪些应用。简而言之,这里的人工智能使用手机的方式就像人类用户一样,而不是像应用那样。
这款智能人工智能智能手机能做什么?
奥根在视频开头展示了他请求人工智能帮他找人排队。虽然这在印度还不常见,但在中国的零工经济应用上,人们通常会在医院、政府机关和其他需求量大的场所享受排队服务。视频中,奥根用英语向人工智能提出请求,人工智能立即做出了回应。随后,人工智能自动选择本地服务应用,配置任务,填写必要信息,并最终显示确认页面。这位首席执行官在短视频中坦言,他自己并不知道哪个应用可以完成这项工作,也不知道该如何设置。视频显示,整个过程都是人工智能代理自主完成的。
这具有突破性意义,因为目前智能手机上的大多数人工智能助手虽然能够推理任务,但无法代表用户操作第三方应用程序。尽管三星、苹果和其他科技巨头一直在尝试人工智能操作,但这些操作大多受到权限限制,并且仅限于合作应用程序。中兴-字节跳动的这款原型产品则远超于此,因为它允许人工智能像真人一样直接在图形用户界面 (GUI) 中执行操作。
Agentic AI 背后的硬件
Ogan 在他的帖子中透露,该原型机搭载了高通最新的骁龙 8 Elite Gen 5 芯片组和 16GB 内存。这一点至关重要,因为该智能体需要将工作负载分配到基于云端的语义推理和设备端的屏幕控制上。据发帖人称,在本地运行“屏幕视觉”可以让 AI 快速响应,并保护支付流程和密码等敏感 UI 交互的隐私。
就人工智能模型而言,字节跳动的豆包目前在中国拥有超过1.75亿用户。它本质上是一个大型的、稀疏的混合专家模型,支持多模态信息,包括文本和视觉信息。在第二个例子中,当Ogan拍摄一张蔚来汽车换电站的照片并询问“这是什么?”时,该模型能够从图像中识别出换电站,并将其与蔚来汽车的全国电动汽车充电网络关联起来,进而解释其工作原理。
云端+设备端架构
或许最酷的演示是预订酒店。只需拍摄一张酒店入口的照片,无需提供任何信息,只需表明他想预订住宿即可。人工智能理解了他的意图,并分配了相应的任务。
首先,豆包(云端)负责翻译语义信息,例如是哪家酒店、他想预订今晚的房间以及宠物政策很重要。其次,Nebula-GUI(设备端)——据称是由中兴通讯训练的拥有70亿参数的模型——负责处理实际操作,例如打开携程(中国预订应用)、输入日期、查找最优价格、在应用中查看宠物政策,并告知Ogan酒店是否允许携带宠物。
根据演示,正是这种双层架构保证了任务的流畅运行。简单来说,豆包负责规划,Nebula-GUI 负责执行。
应用层面的知识以及与其他机器人的交互
在另一个演示中,代理被要求预订一辆无人驾驶出租车,豆包利用GPS数据搜索本地网约车应用,以确定哪家运营商服务于该路线。在Ogan的手机上,Nebula-GUI打开百度Apollo应用,浏览菜单,选择上车地点,并确认行程。过了一会儿,Ogan在行程中途要求更改下车地点。人工智能再次识别出正在使用的Apollo应用,打开正确的界面,更改目的地,并在手机和无人驾驶出租车内同时显示确认信息。这很好地展示了人工智能对特定应用的了解。
在演示过程中,当 Ogan 忘记了与他的 Apollo 账户绑定的电话号码时,人工智能会进入应用设置并找回号码的后四位。要知道,大多数人工智能助手只有在拥有访问权限和深入的操作系统层面才能做到这一点。
与此同时,在另一项测试中,Ogan 使用美团——一家提供无人机送货服务的中国科技公司。他让代理订购两杯饮料,代理更新了他的购物车,完成支付,并安排将饮料送到附近的储物柜。当美团的自动系统进行确认呼叫时,豆包代表他接听并与美团的机器人对话。因此,两个机器人无需用户干预即可完成交易。这展示了代理如何代表用户与其他代理进行协商。
奥根承认,他步行时会利用这套设备作为被动智能层,识别店铺是否属于深圳品牌网络,检查商标和商业登记信息,或者判断身穿纽约警服的路人是否真的是警察。在演示中,系统正确识别了位置(深圳),并将这件夹克识别为一件普通的时尚单品。
演示还展示了字节跳动的图像生成工具,该工具仅修改照片中人物的服装,而保持场景不变。
这对我们意味着什么?
这款设备本质上是一个操作系统原生图形用户界面代理,它基于中文移动用户界面流程进行训练,并由一个大型多模态推理模型提供支持。它无需理解应用程序、菜单或工作流程。只需向手机发出意图,它即可处理执行。
截至目前,全球智能手机市场尚无任何产品能够达到如此高的自主性。这款产品能否最终商业化还有待观察,但原型机清晰地展示了智能智能手机将如何改变我们的生活。它也表明,首款真正意义上的智能智能手机或许并非来自硅谷,而是来自中国融合人工智能和移动技术的生态系统。(鞭牛士、AI普瑞斯编译)