大模型驱动的文本引导式视觉场景感知-中国自动化学会

学会动态

Activities

首页 - 学会动态 - 学术报告

大模型驱动的文本引导式视觉场景感知

日期：2024-08-29 17:30

【导读】2024年6月2日，由中国自动化学会、北京市科学技术协会主办的2024国家新质生产力与智能产业发展会议在北京友谊宾馆举办。本次会议以“追新逐质，智创未来”为主题，邀请了10位院士及百余位长江杰青、高校和科研院所的校长、院长等学术精英与会，500余名来自学术界和产业界的本领域专家、学者、学生等参会。

本次大会特别设立八大平行会议，在“具身智能平行会议”上，邀请同济大学史淼晶教授作题为“大模型驱动的文本引导式视觉场景感知”的专题报告，报告介绍了大模型的兴起和他所在的课题组在大模型驱动的文本引导式视觉场景感知方面的探索，包括文本指引的物体检测、场景分割、场景图检测等。

一、大模型的兴起

在深度学习领域，Attention机制自2017年提出以来已经成为大家熟知的重要技术，其代表性论文是《Attention is All You Need》，这一研究不仅重塑了传统基于卷积神经网络的架构，还直接推动了大语言模型的发展。

大语言模型的发展大致可以分为两个阶段。第一个阶段以BERT为代表。BERT采用了“掩码语言模型”（Masked Language Model，MLM）的优化方式。具体而言，给定一段文本，将其中某个词去掉，然后通过基于Attention机制的语言模型预测该词。这种方式类似于完形填空，即模型既能看到前面的词，也能看到后面的词，从而预测中间的词。

第二个阶段是从GPT的诞生开始。GPT采用了一种不同的优化方式，称为“下一个词预测”（Next Token Prediction）。在这种方式下，模型在预测下一个词时只能看到前面的话，而看不到后续的词。BERT的Attention机制是双向交互的，即前后的词都能看到；而GPT的Attention机制只能看到历史信息，无法看到未来的词，这种改进使得GPT的性能得到了显著提升。

GPT除了训练机制的变化外，还引入了“人类反馈”（Human Feedback），这一点尤为重要。在传统的监督学习之后，通过奖励模型对比GPT生成的语言对话，并由人工标注实际的“真值”（Ground Truths）来评估生成内容的质量并进行排序。排序后的数据用于强化学习，使模型在与人的互动中不断更新能力。然而，在实际使用过程中，GPT并不会在每次与用户的互动中更新模型，它会在一个会话内增长知识，但会话结束后这些知识一般不会保留。

近年来，涌现了许多的多模态大模型。多模态大模型将图像和文本结合，代表性方法包括Flamingo、BLIP、LAVA和InstructBLIP。这些工作关注的关键点在于如何让语言信息与视觉信息进行交互。早期的交互通过对齐（Alignment）实现，即将视觉和相应的语言描述在空间距离上尽可能接近。后来，BLIP等方法引入了生成式概念，即通过图像辅助生成语言信息。

基于大语言模型的多模态模型还催生了许多文本引导式的方法，其中包括上下文学习（In-Context Learning）、思维链（Chain-of-Thought）以及检索增强（Retrieval-Augmented）。上下文学习类似于元学习（Meta Learning），即在训练后提供一些样例，让模型快速进行推理；思维链设计通过引导模型逐步解决复杂问题，先给出解题思路，再得出答案；而检索增强则是通过生成相关问题来提高模型能力。文本引导式的方法促进了具身智能的感知和视觉感知，成为了当前研究的重要方向。

二、大模型驱动的文本引导式感知：手术器械分割

在腔镜手术中，手术器械分割是一项至关重要的任务。腔镜环境下的视觉感知极其受限，无论是光照还是视野范围都存在诸多挑战。手术器械之间的分辨率较低，容易混淆，而且器械之间经常会有遮挡现象。这些问题使得器械分割变得更加困难。传统方法通常基于视觉模型，例如U-Net来进行分割。为了提升分割效果，我们引入了文本信息，即通过文本信息的辅助来改善分割结果。

手术器械分割方法的整体框架分为三个部分：文本特征提取、图像特征提取及其交互处理，最终输出分割结果。我们使用编码器对文本和图像进行特征提取。完成特征提取后，使用基于Attention的交互和基于卷积的特征交互方法。其中，Attention机制适用于全局交互，即一个特征与所有特征之间的交互。而卷积机制适用于局部交互，通过生成卷积核W和B，在图像特征上滑动，实现局部特征交互。全局与局部交互的结合，能够更好地处理手术器械分割任务。

研究初期，借鉴了CLIP模型的思想，我们尝试引入文本信息，通过医生对手术器械的描述输入网络，效果得到了显著提升。随后，利用GPT生成手术器械的类别描述，将手工描述、模板描述和GPT生成的描述结合，通过门控网络加权求和，得到了优化的分割结果。

为解决手术器械遮挡问题，我们引入了重建辅助分支。在预测分割掩码的同时，提取难以预测的区域，通过重建提高分割的鲁棒性。这些过程共享同一个主干网络，从而增强特征学习的鲁棒性。

实验结果表明，在医学领域首次引入文本信息，可以显著提升分割效果，与SAM模型相比也有明显优势。通过交叉验证实验，在A数据集训练、B数据集测试的情况下，即使类别不完全一致，加入文本信息后，结果依然大幅提高，甚至超过了单纯视觉方法的全监督效果。

我们的研究工作表明，文本信息在手术器械分割中具有重要作用，通过多种方法的结合，可以显著提升分割性能。

三、大模型驱动的文本引导式感知：特定物体分割

在一张图像中分割出特定物体，或在视频中跟踪特定颜色的物体，采用基于文本指代的分割方法如何实现上述构想是课题主要研究内容。在研究这一问题时，我们首先考察现有的方法，发现这些方法仍旧存在一些问题。特定物体的指代式分割往往倾向于文本指代的后半部分信息。例如，在一个描述为“一个穿白色衣服的人在行走”的文本指代中，模型可能更关注“行走”这一动作，而忽略了具体的描述对象。这导致模型错误地将穿西装的人分割出来，而不是穿白色衣服的人。

基于这一观察，我们提出了新的方法。除了给出原始的指代文本外，我们还提取出描述对象及其形容词的信息，并行进行分割，然后让它们进行交互，提取出分割需要的信息。具体是从指代文本中提取出主语及其形容词描述信息，然后将这些信息一起输入模型进行预测。实验发现，较短的描述应该包含较长描述的分割结果。例如，描述为“穿蓝色衣服的跑步运动员”时，预测结果应包含“领跑的蓝衣运动员”的分割结果。我们将这种包含关系作为约束，加入到模型优化中，以提升预测精度。此外，还引入了光流信息。在视频中，当物体运动时，通过前向光流和反向光流，可以将预测的物体在不同帧之间映射到某一帧上，确保这些帧的预测结果与标注物体重叠。

最终结果表明，这种方法与其他方法相比分割效果大幅提升，并且可以嵌入任何现有方法中。

四、大模型驱动的文本引导式感知：全景场景图检测

对于全景场景图检测，我们同样采用文本指代的方法。全景场景图生成或检测是一项复合任务，包括全景分割和关系检测。给定一张图像，首先对其进行全景分割，将图像中的所有物体和背景进行分割，然后预测和检测任意两个物体之间的关系。最终结果是一个图形结构，表示物体节点及其之间的关系，这对于场景理解非常重要。

传统方法主要基于视觉模型，存在长尾问题。长尾问题指的是某些关系的出现频率非常高（如“跑步”、“工作”），而另一些关系（如“接吻”、“荡秋千”）则较为罕见，这使得模型更倾向于高频关系，忽略低频关系。

为解决这一问题，我们引入了语言信息来辅助视觉预测。通过提取与视觉场景相关的语言描述信息，可以帮助模型更准确地预测关系。例如，描述“人清洁大象”的语言信息包括“人可以使用水管或水桶清洁大象，位置通常在大象旁边或背上”。这些信息可以显著帮助视觉预测。

全景场景图检测方法的框架包括三个步骤：文本提取、视觉提取和交互。首先，使用全景分割器进行视觉提取，生成任意两个物体之间的相对关系特征。然后，通过大模型的思维链设计，进行文本特征提取。最后，让大模型扮演两种角色：关系提议提示和关系判断提示。

关系提议提示是告诉大模型两种物体（如人和自行车）之间可能存在的关系，大模型会返回可能的关系（如“骑自行车”、“走在旁边”）。关系判断提示是给定一种关系（如“人站在自行车旁边”），大模型会判断其是否存在，并提供解释。

有了这些信息后，便可以将文本信息与视觉信息进行交互。在完成视觉分割后，将分割结果输入大模型，让其生成关系提议，并提取这些关系的文本特征。这些文本特征与视觉特征进行相似度计算，如果两者相似度高，则说明文本描述的信息与当前视觉场景中物体之间的关系一致。

全景场景图检测方法模型交互过程不仅计算了相似度，还设计了两种解码器和匈牙利算法进行结果优化。最终，该方法在场景图检测任务中性能取得了显著提升，这也是首次将大模型应用于此任务的工作。

五、总结与展望

我们从大语言模型中提取了有意义的文本信息，并将其应用于多项研究工作中。这些研究有的完全不依赖特定领域微调，而是可以直接进行推理。在算力有限的情况下，使用预训练的大模型仍能有效解决许多下游任务，包括单模态的视觉任务和多模态任务。未来，在大模型的赋能下，具身智能的感知能力将会得到显著提升。

（本文根据作者所作报告速记整理而成）