来源:互联网2025-11-25 00:00:00 热度:

Prior Shape与北邮联手打造:一个“小个子”AI模型如何学会“大块头”的本事?

A i 中 国 网
导读:MTEB(Massive Text Embedding Benchmark)是文本嵌入模型领域的"奥运会",汇集了分类、聚类、检索、语义相似度等八大类任务,是衡量嵌入模型综合实力的权威标杆。在这个竞技场上,"大块头"们长期占据着排行榜的顶端,这些模型你追我赶,成绩一个比一个亮眼,但代价是惊人的计算资源消耗和存储需求。对于大多数想要部署语义搜索或文本分类功能的开发者来说,这些"重 ......

MTEB(Massive Text Embedding Benchmark)是文本嵌入模型领域的"奥运会",汇集了分类、聚类、检索、语义相似度等八大类任务,是衡量嵌入模型综合实力的权威标杆。在这个竞技场上,"大块头"们长期占据着排行榜的顶端,这些模型你追我赶,成绩一个比一个亮眼,但代价是惊人的计算资源消耗和存储需求。对于大多数想要部署语义搜索或文本分类功能的开发者来说,这些"重量级选手"就像一辆辆豪华跑车性能顶尖,但养护成本令人望而却步。

Prior Shape与北邮联手打造:一个“小个子”AI模型如何学会“大块头”的本事?

然而,2025年11月,一个只有6亿参数的"轻量选手"悄然杀入这片战场,这个"以小博大"的选手就是Jasper-Token-Compression-600M。一个6亿参数的模型,凭什么能和动辄七八十亿参数的前辈们掰手腕?答案藏在两项关键技术里:知识蒸馏和Token压缩。

为什么我们需要"瘦身"的AI模型

在正式介绍这项研究之前,我们需要先理解一个背景:什么是文本嵌入模型,以及为什么它们如此重要。

Prior Shape与北邮联手打造:一个“小个子”AI模型如何学会“大块头”的本事?

文本嵌入模型是自然语言处理系统中的核心组件,它们的工作是把文字转换成计算机能够理解的数字形式。你可以把这个过程想象成给每段文字分配一个"地址",这个地址不是普通的门牌号,而是一串很长的数字坐标。相似的文字会被分配到相近的坐标位置,就像同一个社区的邻居会有相近的门牌号一样。有了这些数字坐标,计算机就能快速地组织、搜索和理解海量的文本数据。

问题在于,那些在业界权威排行榜MTEB上表现优异的嵌入模型往往是"大块头"它们拥有数十亿个参数,需要巨大的存储空间和强大的计算能力。这就像请了一位米其林三星大厨来家里做饭,虽然手艺一流,但你得先把厨房扩建成商业级别的才行。对于大多数公司和研究者来说,部署这样的"大块头"模型是一件既费钱又费力的事情。

这就引出了一个核心问题:有没有可能训练一个"小个子"模型,让它既省资源,又能干"大块头"的活儿?Prior Shape和北邮的研究团队给出了肯定的答案。

知识蒸馏:让学生向老师学习的艺术

研究团队采用的核心方法叫做"知识蒸馏"。这个名字听起来很学术,但原理其实很好理解。假设你是一个刚入职的新员工,公司安排了两位资深大佬带你。你不需要从头学习他们几十年积累的所有经验,而是通过观察他们处理问题的方式,学习他们的思维模式和判断标准。几个月下来,虽然你的资历远不如他们,但你可能已经学会了他们八成的本事。

在这项研究中,"资深大佬"是两个大型教师模型:一个是80亿参数的Qwen3-Embedding-8B,另一个是70亿参数的QZhou-Embedding。研究团队发现这两位"老师"各有所长Qwen3-Embedding-8B在信息检索任务上表现突出,能够精准找到用户想要的内容;而QZhou-Embedding则擅长语义文本相似度任务,能够准确判断两段文字说的是不是同一件事。初步实验表明,这两位老师的能力确实是互补的,让学生同时向两位老师学习,效果最好。

"学生"模型的基础是Qwen3-Embedding-0.6B,只有区区6亿参数。研究团队用1200万段双语文本(英文和中文各占一半)作为学习材料,让学生模型观察两位老师是如何给这些文本分配"地址坐标"的,然后尽量模仿老师的分配方式。

这里有个技术细节值得一提:两位老师输出的坐标维度不一样。Qwen3-Embedding-8B输出4096维的坐标,QZhou-Embedding输出3584维。研究团队做了一些巧妙的处理。对于Qwen3-Embedding-8B,由于它在训练时采用了一种叫做"俄罗斯套娃表示学习"的技术,可以灵活选择输出维度,所以研究团队直接取其前1024维。对于QZhou-Embedding,研究团队取其前3072维,然后把这3072维切成三段,每段1024维,再把三段加起来,得到一个浓缩的1024维坐标。最后,把两位老师处理后的1024维坐标拼接在一起,形成最终的2048维教师坐标。

学生模型原本输出1024维的坐标,研究团队在它后面加了一个可学习的线性层,把输出扩展到2048维,这样就能和教师坐标进行比较了。在第一阶段的训练中,研究团队使用了一个叫做"余弦损失"的指标来衡量学生和老师之间的差距。你可以把这个指标理解为测量两个箭头指向的方向差异方向越接近,损失越小,说明学生学得越像老师。

训练在四块英伟达4090显卡上进行,每块显卡每次处理4个样本,通过16步梯度累积,最终的全局批量大小达到256。研究团队设置最大序列长度为1030个token,用Adam优化器训练两个周期,学习率设为0.0001,并采用余弦学习率调度策略。为了加速训练,他们还使用了FlashAttention-2技术来提高注意力计算的效率。

Token压缩:教AI学会"快速阅读"

完成第一阶段的基础学习后,研究团队引入了一项关键创新:基于一维卷积的token压缩模块。这是什么意思呢?

我们知道,当AI模型处理一段文字时,它实际上是在处理一串token(可以粗略理解为词语或字符的最小单位)。传统模型需要逐个关注每个token之间的关系,计算量随着文本长度的增加呈平方级增长文本长度翻倍,计算量就翻四倍。这就像让一个人记住一屋子人的所有两两关系,人数越多,需要记住的关系就越多得吓人。

研究团队的解决方案是在模型的早期阶段"压缩"这些token。他们使用了一种叫做AdaptiveAvgPool1d的技术,你可以把它想象成一台"文字浓缩机"。比如说,一段话原本有1000个token,经过这台浓缩机处理后,可能变成300多个token,但核心信息被保留了下来。被压缩后的token再进入后续的注意力计算模块,计算量自然就大大减少了。

这种压缩不是简单粗暴的截断,而是智能的平均池化。具体的压缩策略是这样的:研究团队设置了一个长度阈值,比如80个token。如果输入文本的长度不超过这个阈值,就不进行压缩,保持原样。如果超过了阈值,超出部分就按照设定的压缩比例进行压缩。打个比方,如果阈值是80,压缩比例是0.33,一段200个token的文本处理后的长度就是80加上120乘以0.33,约等于120个token。

在第二阶段的训练中,研究团队在模型中加入了这个压缩模块。压缩模块本身只包含一个可学习的Qwen3MLP前馈网络用于特征转换,而AdaptiveAvgPool1d是不需要训练的。这个阶段同样用1200万段双语文本进行训练,采用和第一阶段相同的余弦损失,训练两个周期。不同的是,学习率降到了0.00007,压缩比例固定为0.33。

动态压缩:让AI适应各种"阅读速度"

固定的压缩比例虽然有效,但不够灵活。在实际应用中,不同的场景可能需要不同程度的压缩有时候我们需要模型非常精确,可以少压缩一些;有时候我们更看重速度,可以多压缩一些。

为此,研究团队在第三阶段引入了动态压缩策略。在每个训练批次中,压缩比例不再固定,而是随机采样。具体的采样机制是这样的:有10%的概率选择0.1到0.33之间的压缩比例(高压缩),有40%的概率选择固定的0.33比例(与第二阶段保持一致),有30%的概率选择0.33到0.66之间的压缩比例(中等压缩),还有20%的概率选择0.66到1.0之间的压缩比例(低压缩或几乎不压缩)。

这种设计的目的是让模型在训练过程中见识各种压缩强度,从而在推理时能够灵活选择压缩比例。就像一个人既练习了速读也练习了精读,面对不同的阅读材料可以自由切换阅读模式。

除了原有的余弦损失,第三阶段还加入了一个新的"相似度损失"。这个损失关注的不是单个文本的表示是否和老师一致,而是一批文本之间的相互关系是否和老师一致。具体来说,研究团队把学生模型和教师模型分别计算出的批内文本两两相似度矩阵进行比较,用均方误差来衡量差异。这样做的好处是,即使学生的绝对表示和老师有所不同,只要它保持了老师所认定的文本之间的相对关系,也是可以接受的。

第三阶段只训练了800步,学习率保持0.00007,但梯度累积步数从16增加到32,全局批量大小从256增加到512。最终的损失函数是余弦损失乘以10,再加上相似度损失乘以100。

对比学习:补上检索能力的最后一块短板

经过前三个阶段的训练,学生模型在大多数任务上已经达到了教师模型的水平。然而,研究团队发现在信息检索任务上,学生模型仍然落后教师模型将近4个百分点(65.53对比69.44)。信息检索是一类非常重要的任务你输入一个查询,模型需要从海量文档中找出最相关的那些。搜索引擎、问答系统、推荐系统都依赖这项能力。

为了弥补这个差距,研究团队在第四阶段引入了专门针对检索任务的对比学习。对比学习的核心思想是让模型学会区分"正样本"和"负样本"。对于一个查询来说,正样本是那个真正相关的文档,负样本是那些不相关的文档。模型需要学会把查询和正样本拉近,同时把查询和负样本推远。

研究团队使用的是改进版的InfoNCE损失。在一个训练批次中,假设有N个查询-文档对。对于每个查询,模型需要计算它与正样本的相似度,以及它与各种负样本的相似度。负样本来源有两类:一是针对该查询精心挑选的K个"难负样本"(这些文档看起来相关但实际上不是);二是同一批次中其他查询的文档(这些是"简单负样本")。

除了对比学习损失,研究团队还加入了一个"软蒸馏损失"。这个损失让学生模型的相似度分布尽量接近教师模型的相似度分布,起到持续向老师学习的作用。同时,之前三个阶段使用的余弦损失也被保留下来作为正则化项。

第四阶段使用了QZhou-Embedding团队开发的检索训练数据集,训练5000步,学习率降到0.00002。每个批次包含16个查询(N=16),每个查询配有3个难负样本(K=3)。温度参数τ设为0.3,软蒸馏的温度参数α设为0.1。训练在四块显卡上进行,启用了梯度检查点技术来节省显存。

实验结果:小模型的大惊喜

研究团队在MTEB基准测试的英文和中文部分分别评估了模型的性能。

在英文基准测试中,Jasper-Token-Compression-600M以0.5的压缩比例进行评估,取得了74.75的Mean(Task)分数和68.46的Mean(Task Type)分数。作为对比,它的基础模型Qwen3-Embedding-0.6B只有70.70和64.88分,提升幅度分别达到4.05和3.58。这个成绩已经可以和4B到8B级别的大模型相媲美,甚至在某些方面具有竞争力。比如,40亿参数的Qwen3-Embedding-4B也只有74.60和68.10分,仅比这个6亿参数的模型略高一点点。

在中文基准测试中,Jasper-Token-Compression-600M的表现更加亮眼。它取得了73.51的Mean(Task)分数和75.00的Mean(Task Type)分数,相比基础模型的66.33和67.45分,提升幅度高达7.18和7.55。这个成绩已经非常接近80亿参数的Qwen3-Embedding-8B(73.84和75.00分),可以说是几乎持平了。

消融实验:拆解每个模块的贡献

为了验证各个训练阶段的效果,研究团队进行了消融实验。

对比学习的效果方面,第三阶段(蒸馏)结束后的模型在分类和聚类任务上已经和教师模型Qwen3-Embedding-8B打成平手,但在检索任务上落后近4个百分点。经过第四阶段的对比学习后,检索分数从65.53提升到66.19,虽然提升幅度不大,但方向是正确的。同时,其他任务的分数只有轻微波动,说明对比学习确实能够定向提升检索能力而不损害其他能力。

Token压缩的效果方面,研究团队测试了四种不同的压缩比例:0.5(默认)、0.33、0.2和0.1。在MTEB基准测试上,这四种设置的Mean(Task)分数分别为74.75、74.70、74.58和74.21。可以看到,即使压缩比例降到0.1(也就是把超出阈值的token压缩到只剩十分之一),性能损失也只有0.5个百分点左右。

更重要的是效率的提升。研究团队测量了不同输入长度下的编码延迟。以2048个token的输入为例,原始的Qwen3-Embedding-0.6B需要约50毫秒处理一个样本,而使用0.5压缩比例的Jasper模型只需要约25毫秒,0.33压缩比例只需要约17.5毫秒,0.2压缩比例只需要约11.5毫秒,0.1压缩比例只需要约7毫秒。压缩比例越低,速度提升越明显。对于短文本(128个token),速度差异相对较小;对于长文本,速度优势会显著放大。

八、局限性:诚实面对还没解决的问题

研究团队坦诚地讨论了模型的几个局限性。

检索性能方面,尽管引入了对比学习来提升检索能力,学生模型和教师模型之间仍然存在明显的差距(66.19对比69.44)。这说明当前的对比学习设置还不够充分,如何在蒸馏后的嵌入模型上进一步提升检索性能,仍是一个值得探索的方向。

Token压缩方面,当前采用的是一种简单的、不需要训练的一维卷积压缩机制。虽然效率很高,但可能限制了模型在文本压缩方面的潜力。未来的工作可以探索自适应的、可训练的压缩策略,根据输入长度和批量大小等因素动态调整压缩方式。

支持的文本长度方面,模型使用最长1030个token的训练样本进行蒸馏。这意味着处理更长文本时,性能可能会下降。将蒸馏扩展到更长的序列是一个重要的改进方向。

至顶AI实验室洞见

这项研究解决的是一个很实际的问题:如何让强大的AI技术变得更加触手可及。

如果你是一个开发者,想在自己的应用中加入语义搜索或文本分类功能,现在你多了一个选择。你不需要为了追求最佳效果而购买昂贵的GPU服务器来运行80亿参数的大模型,一个6亿参数的"小模型"就能达到差不多的效果,而且运行起来更快、更省资源。

如果你是一个研究者,这项工作展示了知识蒸馏和token压缩相结合的可能性。动态压缩策略和多阶段训练流程都是可以借鉴的技术路线。

如果你只是对AI技术感兴趣的普通读者,这项研究传递的信息是:AI模型不一定是越大越好。通过巧妙的训练方法,小模型也能学到大模型的精髓。这有点像武侠小说里的内功心法重要的不是力气有多大,而是会不会运用。

论文地址:

https://arxiv.org/pdf/2511.14405

A i 中 国 网

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容