Seed-1.6-Embedding:基于Seed1.6-Flash构建的多模态向量化模型

Seed-1.6-Embedding:基于Seed1.6-Flash构建的多模态向量化模型

日期

2025-06-28

分类

技术发布

我们推出了 Seed-1.6-Embedding,这是一个基于Seed1.6-Flash构建的向量化模型。它具有以下关键特性:


  • 多模态混合检索: 支持文本、图像和视频模态之间的混合检索。

  • SOTA性能: 在纯文本任务的CMTEB排行榜和多模态任务的MMEB-V2排行榜上均取得了新的SOTA分数。

  • 灵活性: 支持多种嵌入维度 —[2048, 1024] 在较低维度下仍保持较好效果。

Seed1.6-Embedding的API已在火山引擎上线(模型ID:doubao-embedding-vision-250615)。


模型结构


基于Seed1.6-Flash,Seed-1.6-Embedding充分保留和增强了模型对于文本、图片、视频以及混合模态的多模态理解能力。它基于双塔结构,提取的向量维度与[EOS]token 的最后一层隐向量相对应。


image


训练方法


在 embedding 模型的构建过程中,我们使用了分阶段训练策略,逐步提升模型性能,最终塑造出Seed1.6-Embedding 模型。


Stage1: Text Continue Training


训练目标: 这一阶段的目标是赋予模型基础的 embedding 能力,将vlm模型转变为具备embedding能力的模型。


训练策略: 我们使用了大规模纯文本数据作为训练数据,涵盖了从互联网采集的多领域公开数据以及部分合成数据。对于公开数据,我们设计了精巧的数据清洗算法和过滤规则,去除其中的噪声、重复内容以及无关信息,保证数据的高质量。而合成数据则是基于特定的种子数据,借助大语言模型进行扩展,使得合成的数据能够覆盖各类不同的领域知识和话题。训练过程中,每条样本是一个文本对,并采用 infoNce 损失函数进行对比学习。


Stage 2: Multimodal Continue Training


训练目标: 在上一阶段的基础上,增加文、图、视频的多模态对齐能力。


训练策略: 我们收集了千万级规模的图文对、视频-文对数据用于训练。这些原始数据一部分采集自互联网,为确保数据质量,首先对其中的图片进行严格的清洗和过滤,剔除模糊、损坏、低分辨率等不合格的图片。同时,为了构建高质量的图文样本对,我们设计了一套数据生产流程,从原始图片中获取准确、详细的 caption,使图文语义实现精准匹配。在训练过程中,同样采用 infoNce 损失函数,通过优化图文对在向量空间中的距离,不断强化模型对多模态数据的理解能力。


Stage 3: Fine-Tuning


训练目标: 这一阶段的目标是通过引入不同形式、模态以及任务类型的数据,全面提升模型在各类细分场景和复杂任务下的处理能力,使其能够更好地适配信息检索、内容分类等实际应用需求。


训练策略: 我们从任务类型、输入数据模态、任务场景三个关键维度出发,系统性地构建高质量的微调数据集。一方面参考公开评测集的任务类型和数据结构,另一方面紧密结合火山引擎的实际业务需求与丰富经验,构建了数十个不同任务的数据集。针对每个数据集的特点和场景需求,我们设计了专属的指令,以引导模型学习特定任务的处理逻辑,并具备一定的泛化能力。对于部分训练数据匮乏的场景和任务,我们运用数据增强和合成技术,扩充数据规模;对于难度较高,训练效果不佳的任务,定向挖掘不同难度层次的负样本,以此提升模型在复杂任务下的表现。最后,将所有数据集进行混合训练,经过多轮迭代优化,使得 Seed1.6-Embedding 模型在不同的细分场景下都展现出较好的泛化能力与性能表现。


效果


在最能体现模型泛化能力的权威榜单中,Seed1.6-Embedding 均展现出优势:


C-MTEB (Chinese)

image

*截止到6月28日


纯文本任务: 在 CMTEB 中文文本向量评测榜单上,模型以75.62高分刷新榜单 SOTA,在检索、分类、语义匹配等通用任务表现上领跑。


MMEB-V2

image

*截止到6月28日


多模态任务: 在多模态评测榜单 MMEB_v2中,模型的图片、视频向量化任务登顶 SOTA,实现较大幅度领先。其中在 MMEB_v2 Image 榜单上,模型以77.78分领先第二名5.6分;模型新增的视频模态,在 MMEB_v2 video 榜单领先第二名20.1分。


使用方法

image