编者按:本文来自微信公众号 GenAI新世界(ID:gh_e06235300f0d),作者:远川研究所,创业邦经授权转载。
虽然我们每天都已经习惯了用手机来完成签到、回复、发信息等各种工作,但很多人还是时不时的会感慨,科技都已经这么发达了,这些事手机就不能自己动手把工作干了吗?
还真别说,这些事可能用不了多久就不需要我们亲自动手了。
腾讯这两天联手德州大学达拉斯分校的研究团队在 Arxiv上发布了一篇名为《AppAgent: Multimodal Agents as Smartphone Users》的论文,介绍了一个名为AppAgent的多模态模型应用项目。论文表示,AppAgent可以学习用户的手机操作习惯,在手机上自己执行各种操作。
它可以模仿用户的口吻在社交媒体APP上发帖,还可以按照人的口气撰写和发送邮件,还可以修图、导航、给视频进行评论,甚至是通过APP买东西。
AppAgent的操作分为两个阶段,分别称为探索阶段和部署阶段。在探索阶段,AppAgent观察不同应用程序用户界面的交互情况,这就好像一个牙牙学语的孩子,只要通过充分观察,AppAgent就能熟练使用某个应用程序。而这些知识会被精心整理成文档,放进AppAgent的知识库中。
学习阶段完成后,AppAgent就可以开始自己行动了。这个阶段它可以处理任何支持的应用程序操作任务。这种有条不紊的方法使AppAgent能够高效地完成不同应用程序中的各种复杂任务。
目前该研究团队已经对 Temu、Gmail、X、Youtube 等十款APP进行多次测试,至少确保了50多种不同的任务。而在开放测试之后,AppAgent还将会学习到更多APP的操作方法,方便不同人群使用。
论文中还放出了一个案例,直接让AppAgent 在 Gmail 中给人发一封邮件。在向AppAgent 发出要求之后,AppAgent 直接轻车熟路的打开 Gmail,找到相应的联系人,洋洋洒洒的写了一封邮件给人发过去。全程根本不需要人类自己动手。
这听上去是不是很酷,有了AppAgent,一些重复繁琐的功能就可以自己完成。最典型的场景,就是拼多多的“砍一刀”。以后再面对家人朋友帮忙砍一刀的要求时,大家完全可以把这些无聊又繁琐的复制、点击操作交给 AppAgent来完成。
而对于很多上班族来说,AppAgent完全可以自己完成手机上下班打卡的工作需求,再也不用担心因为忘记打卡而错失全勤奖的问题。AppAgent还解决了安卓用户无法借助Siri这样的语音助手自己回复消息的问题,只要日后开放语音接口,就可以轻松实现解放双手,动动嘴就可以让手机自己回复消息的梦想。
AppAgent一经公布,让不少人对这款解放双手的AI产品产生了兴趣。
App Agent看上去很棒
不过也有些用户在感慨AppAgent很酷的同时,也在担心它的使用场景。
这也可能是个双刃剑,它在提高工作效率的同时,也可以用于操纵社交媒体。
还有人在担忧自己的数据安全。
有些担忧也挺有道理的,毕竟谁也不能保证在AppAgent的帮助下手机会不会自己给自己安排一堆任务。
到时候一觉醒来人们发现,手机自己给购物车清空了,恐怕很多人就要觉得这是一场噩梦了。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。