2023中关村论坛丨智源推出通用视觉分割模型SegGPT 具有上下文推理能力

北京商报讯（记者杨月涵）ChatGPT引发了语言大模型狂潮，AI另一个重大领域——视觉的GPT时刻何时到来？5月28日，北京智源人工智能研究院在2023中关村论坛平行论坛之一的人工智能大模型发展论坛上推出通用分割模型SegGPT，这也是首个利用视觉提示（prompt）完成任意分割任务的通用视觉模型。

据了解，SegGPT是智源通用视觉模型Painter的衍生模型，针对分割一切物体的目标做出优化。SegGPT训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

该模型具有通用能力，SegGPT具有上下文推理能力，模型能够根据提供的分割示例（prompt），对预测进行自适应的调整，实现对“everything”的分割，包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。

模型同时具有灵活推理能力，支持任意数量的prompt；支持针对特定场景的tuned prompt；可以用不同颜色的mask表示不同目标，实现并行分割推理。

此外，模型还具有自动视频分割和追踪能力，以第一帧图像和对应的物体掩码作为上下文示例，SegGPT能够自动对后续视频帧进行分割，并且可以用掩码的颜色作为物体的ID，实现自动追踪。

据悉，SegGPT与Meta AI图像分割基础模型SAM同时发布，两者的差异在于，SegGPT “一通百通”，给出一个或几个示例图像和意图掩码，模型就能get用户意图，“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体，即可批量化识别分割同类物体，无论是在当前画面还是其他画面或视频环境中。SAM“一触即通”，通过一个点或边界框，在待预测图片上给出交互提示，识别分割画面上的指定物体。

无论是“一触即通”还是“一通百通”，都意味着视觉模型已经“理解”了图像结构。SAM 精细标注能力与 SegGPT的通用分割标注能力相结合，能把任意图像从像素阵列解析为视觉结构单元，像生物视觉那样理解任意场景，通用视觉GPT曙光乍现。

展开阅读全文

页面更新：2024-04-25

标签：上下文模型视觉能力中关村人工智能示例物体图像画面论坛视频

1 2 3 4 5

2023中关村论坛丨智源推出通用视觉分割模型SegGPT 具有上下文推理能力

一加公关经理陷舆论风波，自导自演确实有点东西，小米无辜躺枪

这个论坛拖堂一个多小时，观众为何不想“下课”？

怒刷100道面试题，50万字2023最新python大厂面试（一）

一觉醒来，葡萄牙封杀华为5G，中国近1000亿投资或将面临风险

新时代《马关条约》？美国单边歧视性罚款

施耐德电气：以数字化筑就中国流程工业绿智未来

试驾全新蔚来ES6，开车的和坐车的都很“爽”

内蒙古自治区103个区旗（县）2022年地区生产总值排名

“不赚钱不收管理费” 理财产品“玩法”要变？

小荔枝撬动大产业精深加工让荔农吃下“定心丸”

新股市场“半冷半热”，“消费医药双生子”会爆冷么？

常德“最高级别考察团”考察沪苏杭，去了哪？学了啥？

高度警惕信息泄露风险！充电桩也要做好隐私保护

舍得酒业独董宋之杰辞职

中国在人工智能领域展现创新活力

这个论坛拖堂一个多小时，观众为何不想“下课”？

中国在人工智能领域展现创新活力

2023西北水务高峰论坛在兰州举办

视频｜“打铁”自身硬，增城一流赛事保障尽善尽美

人工智能现在能有多“聪明”？

游戏行业迎生产力跃迁！英伟达官宣AI模型代工服务为NPC

2023中关村论坛丨硬科技里的“追光者”

2023西北水务高峰论坛在兰举办

帕金森可以预防吗？这个视频告诉你 #6月必知健康知识

5月29日投资晚报｜教育部等十八部门：探索利用人工智能等