热议：视觉模型SegGPT来啦！具备上下文推理能力

您当前的位置：首页 >> 要闻 > >

来源: 科学网时间：2023-05-29 13:45:52

·SegGPT是一个利用视觉提示完成任意分割任务的通用视觉模型，具备上下文推理能力，训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等。

(资料图片)

·Meta AI图像分割基础模型SAM的精细标注能力与SegGPT的通用分割标注能力相结合，能把任意图像从像素阵列解析为视觉结构单元，像生物视觉那样理解任意场景。

ChatGPT引发语言大模型狂潮，AI另一个重大领域视觉的GPT时刻何时到来？

5月28日，北京智源人工智能研究院在2023中关村论坛平行论坛之一的人工智能大模型发展论坛上推出通用分割模型SegGPT（Segment Everything In Contex），这是一个利用视觉提示（prompt）完成任意分割任务的通用视觉模型。

论文地址：https://arxiv.org/abs/2304.03284

标注出一个画面中的彩虹，可批量化分割其他画面中的彩虹。

SegGPT是智源通用视觉模型Painter的衍生模型，针对分割一切物体的目标做出优化。SegGPT具备上下文推理能力，训练完成后无需微调，只需提供示例即可自动推理并完成对应分割任务，包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸、医学图像等。它的灵活推理能力支持任意数量的视觉提示。自动视频分割和追踪能力以第一帧图像和对应的物体掩码作为上下文示例，SegGPT能够自动对后续视频帧进行分割，并且可以用掩码的颜色作为物体的ID，实现自动追踪。

用画笔大致圈出行星环带（上图），在预测图中准确输出目标图像中的行星环带（下图）。

此前，Meta公司发布了AI图像分割基础模型SAM，SegGPT与SAM的差异在于，SAM“一触即通”，通过一个点或边界框，在待预测图片上给出交互提示，识别分割画面上的指定物体。SegGPT“一通百通”，给出一个或几个示例图像和意图掩码，模型就能知道用户意图，“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体，即可批量化识别分割同类物体，无论是在当前画面还是其他画面或视频环境中。

SegGPT能够根据用户提供的宇航员头盔掩码这一上下文（上图），在新的图片中预测出对应的宇航员头盔区域（下图）。

无论是“一触即通”还是“一通百通”，都意味着视觉模型已经“理解”了图像结构。SAM精细标注能力与SegGPT的通用分割标注能力相结合，能把任意图像从像素阵列解析为视觉结构单元，像生物视觉那样理解任意场景。

（原标题：北京智源推出通用视觉分割模型SegGPT，具备上下文推理能力）

标签：

上一篇：天天信息:七侠五义都包括谁_七侠五义都有谁

下一篇：最后一页

要闻

财经排行

观点

中医医疗队进驻上海集中隔离收治场所专家：面对疫情考验应保持乐观

新疆和田地区皮山县发生3.8级地震震源深度8千米

上海：尽快遏制疫情扩散蔓延实现社会面清零

江苏无锡一男子隐匿行程轨迹被警方立案侦查

官方称吉林市疫情扩散势头得到遏制

河北唐山本轮疫情累计报告阳性感染者605例

浙江嘉兴秀洲区新增1例新冠肺炎阳性感染者

新疆乌鲁木齐公布2例无症状感染者行程轨迹情况

南水北调中线天津干线工程全面推行河湖长制

河北廊坊累计治愈出院673例 5县区恢复域内交通

要闻