Multi-fusion
目录
1. 多模态融合方法
1.1. 基于简单操作融合
拼接和加权求和
。这样的简单操作使得参数之间的联系几乎没有
,但是后续的网络层会自动对这种操作进行自适应。
Concatenation
拼接操作可以用来把低层的输入特征[1][2][3]或者高层的特征(通过预训练模型提取出来的特征)[3][4][5]之间相互结合起来。Weighted sum
对于权重为标量的加权求和方法,这种迭代的办法要求预训练模型产生的向量要有确定的维度,并且要按一定顺序排列并适合element-wise 加法[6]。为了满足这种要求可以使用全连接层来控制维度和对每一维度进行重新排序。
1.2. 基于注意力机制
一组“注意”模型在每个时间步动态生成的一组标量权重向量的加权和[11][12]。这组注意力的多个输出头可以动态产生求和时候要用到的权重,因此最终在拼接时候可以保存额外的权重信息。在将注意机制应用于图像时,对不同区域的图像特征向量进行不同的加权,得到一个最终整体的图像向量。
图注意力机制
: 加入了基于先前LSTM隐藏状态的图像注意模型,输入为当前嵌入的单词和参与的图像特征的拼接[13]。最终LSTM的隐藏状态就被用于一种多模态的融合的表征.堆叠注意力网络(SANs)也被提出使用多层注意力模型对图像进行多次查询,逐步推断出答案,模拟了一个多步骤的推理过程[16]。通过多次迭代实现图像区域的Attention。首先根据图像特征和文本特征生成一个特征注意分布,根据这个分布得到图像每个区域权重和Vi,根据u=Vi+Vq得到一个refine query向量。
图和文本对称注意力机制
: 共注意机制使用对称注意力结构生成attended图像特征向量和attended语言向量[22]。平行共注意力机制采用联合表示的方法模拟推导出图像和语言的注意分布。交替共同注意力机制具有级联结构,首先使用语言特征生成含有注意力的图像向量,然后使用含有注意力的图像向量生成出含注意力的语言向量。
1.3. 基于双线性池化融合办法
双线性池化主要用于融合视觉特征向量和文本特征向量来获得一个联合表征空间,方法是计算他们俩的外积,产生一个n平方维度的表征。通过将外积生成的矩阵线性化成一个向量表示,双线性表示方法常常通过一个二维权重矩阵来转化为相应的输出向量,也等价于使用一个三维的tensor来融合两个输入向量。在计算外积时,每个特征向量可以加一个1,以在双线性表示中保持单模态输入特征[32]。
双线性池化和注意力机制
: 双线性注意网络(BAN)利用MLB融合图像和文本,生成表示注意力分布的双线性注意图,并将其作为权重张量进行双线性pooling,再次融合图像和文本特征[48]。