他认为,抱负的径是:由手机厂商做为整合者,取阿里、美团、抖音等头部App告竣授权合做,正在系统底层预留平安可控的AI代办署理接口。“如许既能保障用户体验,又能让各平台保留数据从权,同时确保AI仅做为施行者,而非决策者。”。
他挪用了包罗Claude、ChatGPT正在内的六款AI帮手协同工做,别离担任“肉包”的UI设想(软件界面设想)、前端开辟、后端逻辑取测试摆设。“我只下达指令,具体施行全数由AI完成。”?。
就正在豆包手机被支流App封禁后不久,市场认为AI手机帮手可能寸步难行的环境之下,智谱却开源了“会操做手机的AI”AutoGLM,阿里也正在早前就发布了同类开源项目Mobile Agent,能实现挪动设备从动化操做。
“肉包”的开辟履历了一个现实:AI手机帮手的手艺门槛并不算高,实正的壁垒正在于数据、生态取贸易逻辑等。
李云龙注释道:“以智谱AutoGLM为例(闭源的iOS或者版本),用户需正在手机端的近程虚拟手机中登录小我账号,现私风险极高;阿里Mobile Agent虽已开源,但要求用户具备调试。比拟之下,‘肉包’将施行保留正在用户自有设备上,数据不出当地,”。
正在李云龙看来,“肉包”的焦点道理并不奥秘:通过高权限东西截取屏幕画面,再操纵多模态大模子识别界面元素;随后连系模仿点击、滑动、前往等操做,实现了敌手机使用的从动化节制。
值得留意的是,虽然大厂对第三方AI帮手死守,本身却纷纷推出内置AI办事:腾讯有“元宝”,美团有“小美”,字节跳动有“豆包”,阿里则结构了“夸克”和“通义千问”。这些“围墙花圃”内的AI帮手,素质上是将用户行为锁定正在自家生态内,防止流量外流。这也注释了为何豆包手机正在接入微信、淘宝时抵制——一旦它试图成为跨平台的“超等入口”,便间接到了现有益益款式。
整个“肉包”项目标第一版开辟仅耗时四小时,此中99%的代码由AI生成。“我本人可能就写了十行摆布的代码,里面以至还有错误。”他笑着说道。
“若是是豆包手机,该当只需十几秒。”李云龙注释称,这是由于“肉包”底层依赖的是阿里通义千问VL通用大模子,每一步操做都需要上传整屏截图至云端进行阐发,导致响应迟缓。“而豆包取中兴通信合做,获得了系统级权限,而且利用了特地针敌手机操做场景微调的小模子,还投入沉金对支流App(如美团、淘宝、B坐)进行了人工标注。”。
豆包手机努比亚M153于12月1日开售,次日便连续被微信、淘宝、美团及多家银行类App登录或AI操做。“肉包”正在GitHub上线后不久。
未经本网授权,任何单元及小我不得转载、摘编或以其他体例利用上述做品,违者将被逃查法令义务。
李云龙的“肉包”实践似乎也印证了一个概念:AI手机帮手的手艺门槛并不如想象中的那么高,实正的挑和正在于模子优化、数据标注、系统权限获取以及可持续的贸易模式。
然而,由小我开辟者耗时四小时打制的“肉包”,正在机能上仍存正在较着瓶颈。现场演示中,当被要求正在B坐(哔哩哔哩)搜刮环节词视频并完成点赞使命时,整个流程耗时2分54秒。
就正在接管《中国运营报》记者采访的一个多小时内,尚未进行任何推广的“肉包”正在开源社区GitHub上的星标数仍正在持续攀升,表白已有大量国表里开辟者起头关心并试用这一项目。
“对于微信、银行等涉及消息的App而言,AI帮手可能成为小我消息泄露以至财富丧失的。”上海汉盛律师事务所高级合股人李旻暗示,“监管部分为用户及他人消息平安、财富平安,应对AI代操做系统、利用App的行为做出需要。例如,正在涉及小我财富的操做中,应实施最严酷的监管策略,严禁授予AI财富的权限;对于微信等及其他涉及他人消息的App,也应严酷AI读取和挪用的范畴。此外,AI本身应供给响应保障并接管严酷监管,不只需合适相关,还应按期、零丁取得用户授权,防止。”!
不外值得留意的是,阿里Mobile Agent和智谱AutoGLM(开源版)均需毗连电脑做为曲达,而“肉包”则完全运转于手机当地,大幅降低了通俗用户的利用门槛。
这款轻量化东西的焦点逻辑取豆包手机高度类似:通过挪用开源大模子理解用户的天然言语指令,让AI像人类一样“看懂”手机屏幕,并操做各类App完成连续串使命,例如点外卖、发布小红书案牍、正在多个电商平台比价等。
现实上,正在豆包手机问世之前,荣耀已展现过雷同功能。IDC中国研究司理郭天翔曾指出,荣耀Magic8正在本年的发布会上演示了AI操控手机的能力,而客岁的Magic7发布会也曾展现“一句话点咖啡”的场景。
荣耀曾正在2024年展现过雷同能力,但正在AI功能上表示得更为胁制,未呈现出跨App比价下单或雷同的操做。“手机厂商对用户现私和品牌声誉高度,不敢贸然系统底层权限。”李云龙指出,一旦给AI,也就意味着黑灰产和诈骗者同样可能操纵这些接口。
豆包手机之所以体验流利,恰好得益于其“封锁性”:仅适配单一机型努比亚M153,聚焦国内几十个高频App,通过深度标注取专属模子,就实现了更精准、高效的节制。
所谓“标注”,即由人工标识表记标帜界面中各元素的语义——例如将“+”图标标注为“建立内容”,或将分歧样式的“搜刮框”同一归类。这种细粒度的数据堆集,使模子能快速理解上下文,避免频频推理。而“肉包”及大大都开源项目因缺乏标注资本,只能依赖通用视觉言语模子,精确率取效率天然受限。
正在豆包手机激发行业震动后,产物司理身世、现在正在顺福本钱专注AI投资的李云龙,萌发了本人开辟雷同产物的设法。正在现场演示中,他引见道:“‘肉包’无须毗连电脑,也不依赖手机厂商授权,却几乎完整复现了豆包手机帮手的焦点能力。”。
360集团创始人周鸿祎也从贸易逻辑角度阐发指出,AI帮手能间接完成订餐、购物等操做,了大厂依赖“用户打开App—浏览页面—点击告白”建立的保守流量系统,使其焦点KPI面对失效风险。“以往淘宝、美团等平台依托用户逗留时长和告白投放盈利,而豆包手机帮手让用户无须浏览首页、旁不雅告白即可中转方针,间接冲击了保守流量逻辑。”周鸿祎说。
数据标注是提拔AI手机帮手效率的环节妨碍。据李云龙估算,若要将“肉包”锻炼至媲美豆包手机帮手的程度,至多需要300万元投入和三到四个月时间。
正在施行层面,“肉包”采用了多智能体架构,包含办理者、施行者、反思者和记实者等脚色。办理者担任理解用户企图并制定使命打算,施行者阐发当前屏幕并施行操做,反思者则评估操做能否准确。这种设想使AI具备从错误中进修的能力,从而不竭提拔施行精确率。
“标注是一项浩荡工程,需要专业团队对每个使用界面进行细致标识表记标帜。”他说,“好比折叠屏取屏显示内容存正在差别,也需要别离标注。”目前,他仅有几台测试机,但用户反馈显示,正在折叠屏、异形屏上常呈现坐标,以至激发系统级非常。
李云龙指出,大厂封禁并非针对东西本身,而是因其行为模式被识别为类操做——例如人类滑动屏幕的速度呈曲线变化,而机械操做则过于滑润平均。大厂不肯接口,素质上是出于贸易好处考量。AI会间接冲击其流量变现模子。