多模态embedding模型的分类有哪些？

“ 多模态嵌入模型有模态融合和单独嵌入两种不同的方式。”

在多模态RAG中，由于多模态数据的复杂性，基于文本的Embedding模型已经无法满足需求，因此就需要使用专门针对多模态数据的多模态嵌入模型。

多模态嵌入模型的原理是通过对多种不同模态的数据，通过模态融合的方式，映射到统一向量空间，然后就可以同时支持多种模态数据的检索。

虽然从使用者的角度来看，多模态嵌入模型和普通的文本嵌入模型好像没什么区别；但是作者在使用多模态嵌入模型时发现一个小问题，就是多模态嵌入模型也存在不同的类型，其功能点也不尽相同。

所以，今天我们就简单讨论和记录一下关于多模态嵌入模型的问题。

多模态嵌入模型

嵌入模型可以说是大模型应用中，自然语言和大模型之间的桥梁，如下图所示：

嵌入模型(embedding模型)的出现是为了解决人与模型对话的问题，在现今基于神经网络的大模型技术中，模型的主要数据载体是向量，因此就需要一种技术把人类的语言转换成模型能够看懂的“语言”，而这个工具就是嵌入模型。

用技术的语言来描述嵌入模型，嵌入模型（Embedding Models）是机器学习和自然语言处理中的关键技术，用于将高维、非结构化数据（如文本、图像）转化为低维向量表示，从而实现语义理解和高效检索。

我们都知道大模型是在自然语言处理的基础上发展起来的，因此刚开始嵌入模型都是针对自然语言进行处理；但随着技术的发展，多模态模型的崛起，怎么打通多模态数据与大模型之间的桥梁就成了一个问题，这时借助于文本嵌入模型的思想，把不同模态的数据通过多模态嵌入模型映射到统一向量空间，就可以实现多模态的检索。

而多模态嵌入模型的实现原理是，通过对不同模态的数据进行模态融合，其中涉及到多模态数据表示，跨模态对齐等技术；本质上来说，也是使用神经网络或者机器学习算法，提取不同模态数据的特征，并通过某种算法，变换成统一的低维向量，这个过程就是转换统一向量空间的过程。

但是，多模态RAG虽然在理论上行得通，但在实际应用场景中使用的比较少，原因主要在于成本太高，流程太复杂，效果又不太好；而业内所谓的多模态RAG主流的处理流程，还是对多模态数据进行文本提取，通过文本的形式进行实现语义检索，而不是直接用多模态融合的方式进行检索。

在实际的操作中，多模态嵌入模型分为两个类别，一种是使用多模态融合技术，同时输入多种不同模态(目前大部分只支持两种模态)的数据，然后转换成低维向量，之后就可以使用一种模态的数据进行检索。

另一种类别是，多模态嵌入模型支持把不同模态的数据，分别进行向量转换，如文本数据转换成文本向量，图片数据转换成图片向量，然后在检索的时候分别进行检索，最后再进行组合。

而以上几点也是目前多模态RAG实现的主要思路，但由于技术还不够成熟，多模态RAG还存在各种各样的问题，其应用范围并不是很广；主要应用场景有，文搜图和图搜图，这应该算是电商领域比较常见的应用了。