12月1日,豆包团队搞了个大动作,正式发布了其“豆包手机助手”的技术预览版。
它内置在手机系统当中:在你的要求下,能操作你的手机,能记住你的偏好,甚至能在多个 App 里来回操作,帮你完成任务。这和苹果在去年WWDC开发者大会上演示的一系列苹果智能的功能非常类似。
不过苹果这些功能"期货"很久了...
所以很多人发出来疑问:字节要做手机了吗?
先划个重点:字节明确表示,他们没有自己造手机的计划 。
这次他们走的是一条更开放的路子:直接和手机厂商在操作系统层面“联姻”。
这不仅仅是给手机装个App那么简单,这更像是给手机换了个更聪明的“大脑”。
咱们从它的实际能力、背后的技术底座,以及这种合作模式的行业意义来聊聊。
你在哪个界面并不重要,豆包都能被唤醒,也能理解你需要什么
这点非常关键,因为它意味着:
你看到什么,它就看到什么。
它还支持语音唤醒、手机侧边AI键唤醒、和耳机唤醒...
比如你刷到一张景点照片,问“这在哪?”它秒答。
比如你看一条产品种草视频,问“这东西贵不贵?有替代吗?”
比如视频通话里你举着一本绘本,它能实时看懂并给孩子讲故事(中英双语)。

这相当于直接豆包的能力嵌进了手机系统。
豆包大模型本身在视觉、多模态理解上就属于国际一流。
比如他们的语音视觉通话能力,还能帮你查看各种的真实场景并进行实时互动。

对准绘本可以帮你中英双语朗读或者翻译绘本内容
这是豆包最打动人的地方,也可能是手机操作系统未来 3–5 年的分水岭。
豆包可以:
自动打开淘宝、京东、拼多多
自动搜索同款
自动比价
自动领券
自动停留在最低价的支付页面
你说一句话:“帮我全网比价”,它直接在多个 App 里“像人一样”点点点。

和你平时操作手机一样...
这是豆包大模型在“图形界面操作(GUI Agent)”方面的强项,目前在多项权威评测中都是业界最佳。
它能做的远不止比价:
查票 / 订票
批量下载文件
物流一键查询
在飞书里自动提交请假、差旅
在地图里替你打点
在多个 App 之间连续跨应用任务流
这件事的意义非常大:
用户第一次从“手动操作”进入“AI 代操作”时代。
手机不再是你一个一个点出来的工具箱,而是一个会主动帮你做事的机器。
另外豆包的多模态能力(视觉理解 + 图像创作)也直接打通到了手机系统的原生应用,例如你可以:
在手机相册选中图片说:“把路人P掉”
说“把背景换成海滩”
说“这张照片调成证件照风格”
它都能自动帮你完成P图和图像编辑等操作


这不是跑到外部 App,而是相册里原生调用。
这意味着:
手机相册第一次拥有了“AIGC 内建能力”。
如果普通模式像助理,那么豆包手机 Pro 模式,可能就是代表着未来AI助手的方向,它更像是你身边的“私人秘书 + 外包执行官”。
Pro 模式是 GUI Agent + API Tools + Memory(记忆) + 推理能力的结合体。
比如你说:
“下个月去巴黎,把我收藏的餐厅标在地图上,再帮我买个我喜欢的博物馆门票。”
豆包 Pro 会:
搜索记忆:你之前说你喜欢凡高
自动选择奥赛博物馆(有凡高展)
帮你查时间、订票
打开地图
自动打点你收藏的餐厅
生成备忘录

这不是“回答”,而是做完了整个任务链条,并且是基于你的历史记忆和你的兴趣爱好和使用习惯。
它是手机助手进化史上第一次真正做到:
“从目标到行动的自动化执行。”
但是,现在还别把豆包手机助手想象成《钢铁侠》里的 JARVIS。
作为一个技术预览版,它确实有“未来味儿”,但也确实“有点慢、有点笨、有点不稳定”。
功能能跑,但不一定稳
一次任务要跑很久,你可能忍不了
有时它可能会来回反复操作迷路,流程绕得你头大
系统权限、体验打磨、商家接口等还没完全打开
很多 App 的 UI 并不是为 Agent 设计的,它只能硬点
那现阶段它究竟能干点啥?
我的感觉是:它很适合很多你“手腾不开”的场景。
比如:
开车的时候,你根本没空切 App,但很多琐碎事又不能等。
比如:
“帮我查一下导航有没有堵车”
“帮我让支付宝打开刚才那张停车发票”
“帮我查查这个充电站多少钱”
“帮我查我的高铁时间还有多久”
“帮我看看刚才谁给我发消息了”
之前这些要么拿手机冒风险,要么等红灯手忙脚乱。
有了豆包,“语音 + 屏幕理解”基本能全程无手操作。
虽然速度还不够快,但能用、能救急。
你两手都在切菜、炒锅、处理生肉的时候,你绝不想去摸手机。
这时候你可以:
“帮我查这道菜还要煮多久”
“帮我看一下菜谱下一步是什么”
“帮我回妈妈一句马上吃饭”
“帮我打开定时器 10 分钟”
“帮我查一下这瓶酱油是不是过期了”
“帮我从相册找那张包装图,我看看调料比例”
它直接“看你的屏幕 + 用你的 App”,不用你停下动作洗手。
这是真实生活里最能体现 AI 价值的瞬间之一。
带娃的人都懂:一只手永远空不出来。
这时候豆包能做的事情非常多:
“帮我把绘本读给他听”
“帮我找上次拍的那张打疫苗照片”
“帮我查这家医院明天有没有号”
“打开上次收藏的宝宝辅食视频”
“帮我把今天拍的照片按时间排好发给我老公”
你在处理孩子,它在处理手机。是非常真实的“人机分工”。
这些时间点有一个共同点:你没有空手操作。
豆包在这些场景下能:
播放你想看的视频(甚至帮你跳广告)
帮你查物流:“看看我的快递到了没”
帮你打开智能家居 App 调灯光
帮你查询今天的天气、晚餐预约
帮你整理待办:“把刚才那件事记到备忘录”
它的执行链条虽然比你手点慢得多,但胜在你无需停下手上的事。
虽然它跨应用比价目前有点慢,但你不方便切 App 时,这功能特别值钱:
你在跑步
你在会议间隙
你在照顾孩子
你正在做饭
你人正在外面不方便看屏幕
一句话:
“帮我查一下有没有更便宜的。”它慢慢帮你点,不会嫌烦,也不会收你咨询费。
有些事情本身不难,但就是懒得打开 App:
查天气
查电影
查导航
查机票
查餐厅评分
查商品历史价
在一堆 App 里找找有没有更便宜的
你自己点的话不到一分钟,但你累了一天,下班瘫在沙发上,你就是不想动。
这种时候豆包的存在意义非常真实:它不快,但它能替你干点小事。
官方完整演示视频↓
如果你手痒痒
又是土豪,想体验的话,
可以买一台nubia M153 手机试试...
哈哈哈
购买链接:https://o.doubao.com/
这里有一些用户使用案例,可以看看:
https://community.doubao-dev.com/

加入XiaoHu.ai 日报社群 每天获取最新的AI信息

____________
End.
感 谢阅 读
更新时间:2025-12-08
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号