字节炸场:豆包手机助手发布 AI 可直接控制手机

字节跳动发布了全新一代豆包手机助手的技术预览版。不同于以往那些只能定闹钟、查天气的传统语音助手,这款新产品被定义为真正意义上的手机第二大脑。它具备了视觉感知、长期记忆以及直接动手操作的能力,甚至能替用户把整个手机的功能玩明白。

豆包手机助手最引人注目的突破在于其真正的端侧记忆能力。这是业界首次在手机本地实现了持久化的记忆功能。它能像一个细心的私人管家一样,记住用户生活中的琐碎细节。

在实际演示中,这种能力表现得令人印象深刻。当用户询问车停在哪里时,助手能直接调出用户上次拍摄的车位照片并附带楼层指引;当需要取快递时,它能瞬间读取短信历史并报出取件码;甚至当用户询问高铁座位号时,它能自动翻找 12306 的购票记录并告知准确位置。更进一步的是,这种记忆具有联想能力,比如它记住了用户最喜欢凡高,那么在规划巴黎行程时,就会自动优先推荐奥赛博物馆。

如果说记忆是基础,那么跨 App 代操作则是豆包手机助手的杀手锏。它利用先进的 GUI 模拟点击技术,能够像真人一样接管屏幕,跨越应用壁垒进行自动点击、输入和滑动。在全网比价场景下,用户只需发出一句指令,豆包就能打开淘宝、京东、拼多多和抖音电商,在 3 秒内给出最低价并直接停留在支付页面。在更复杂的办公场景中,它可以响应帮我请三天假,顺便订回老家高铁的指令,自动打开办公软件填写请假单、提交审批,随后无缝跳转至 12306 完成订票和付款流程。甚至连特斯拉车主都能体验到这种便捷,一句打开前备箱放东西,助手即可直接远程控制车辆执行操作。

在多模态交互方面,该助手展现了实时视觉理解能力。当用户拿起一本英文绘本对准摄像头时,豆包手机助手会立刻开启实时视频通话模式。画面中不仅会出现中英双语字幕,AI 还能用流利的普通话或英语边讲故事边与用户互动提问,甚至根据孩子的反应临时改编剧情,让阅读变得生动有趣。

针对模糊且复杂的长链条需求,豆包引入了 Pro 模式。该模式结合了 GUI 模拟点击、API 工具调用以及超强推理能力,能完成以往 AI 根本不敢接的任务。以巴黎旅行为例,用户只需模糊地表达下个月去巴黎,把收藏的餐厅标到地图上,再帮我订一张有我喜欢展览的博物馆票,助手便能执行全流程。它首先读取记忆确认用户喜爱凡高,接着搜索确认奥赛博物馆正在举办凡高特展,随后打开地图应用将收藏的米其林餐厅打点,最后跳转官网抢票并生成完整的行程单推送至备忘录。

在展现强大能力的同时,字节跳动也极度重视隐私安全。官方反复强调,所有的记忆数据均在手机本地进行处理和加密存储,绝对不会上传至云端。用户拥有完全的控制权,随时可以在设置中一键彻底关闭记忆功能。这种设计在确保了智能体验的同时,也做到了真正的可控可信,为 AI 时代的隐私保护提供了新的解题思路。


展开阅读全文

更新时间:2025-12-02

标签:数码   豆包   手机   字节   助手   用户   记忆   能力   巴黎   博物馆   模式   操作

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top