智能网 https://www.cnaiplus.com
随着大语言模型(LLM)规模和计算需求增长,如何高效应用这些模型成为关键挑战。阿里云PAI团队推出 EasyDistill 开源框架(GitHub链接),简化大模型的知识蒸馏过程,显著降低计算成本,同时保持高性能。基于 EasyDistill 训练的 DistilQwen-ThoughtX 系列模型,结合创新的变长思维链推理技术,能够根据任务难度自适应调整推理步骤,避免传统思维链方法的“过度思考”问题。 DistilQwen-ThoughtX 和现有流行的推理模型具体效果比较。 本文详细介绍在PAI平台使用 DistilQwen-ThoughtX 蒸馏系列模型的全链路最佳实践。 一、PAI-ModelGallery 介绍二、运行环境要求· 本示例目前支持在阿里云北京、上海、深圳、杭州、乌兰察布、新加坡等多地域。 三、通过 PAI-ModelGallery 使用模型登录 PAI 控制台,左侧导航栏进入快速开始 > Model Gallery(链接:https://pai.console.aliyun.com/#/quick-start/models);在 PAI-Model Gallery 中选择 PAI-DistilQwen-ThoughtX 系列模型卡片,以 PAI-DistilQwen-ThoughtX-7B 为例,模型卡片如下图所示: 模型部署和调用Transformers 部署的推理服务支持使用 ChatLLM WebUI 进行实时交互,示例如下: 模型微调训练PAI 为 DistilQwen-ThoughtX-7B 模型配置了SFT和DPO两种微调算法,支持用户以开箱即用得方式对 PAI-DistilQwen-ThoughtX-7B 进行微调。SFT 训练算法支持使用 Json 格式输入,每条数据由问题、答案组成,分用“instruction”、“output”字段表示,例如: [ DPO 训练算法支持使用 Json 格式输入,每条数据由问题、预期模型输出的答案、不希望模型输出的答案组成,分别用 "prompt"、"chosen" 和 "rejected" 字段表示,例如: 当完成数据的准备,用户可以将数据上传到对象存储 OSS Bucket 中。算法需要使用A10(24GB显存)的 GPU 资源,请确保选择使用的资源配额内有充足的计算资源。 训练算法支持的超参信息如下,用户可以根据使用的数据,计算资源等调整超参,或是使用算法默认配置的超参。 超参数默认值类型含义training_strategysftstring训练算法,可以为sft或者dpolearning_rate5e-5float模型训练的学习率num_train_epochs1int训练轮次per_device_train_batch_size1int每张GPU卡在一次训练迭代的数据量seq_length128int文本序列长度lora_dim32intLoRA维度(当lora_dim>0时,使用LoRA/QLoRA轻量化训练)lora_alpha32intLoRA权重(当lora_dim>0时,使用LoRA/QLoRA轻量化训练,该参数生效)load_in_4bittruebool模型是否以4比特加载(当lora_dim>0,load_in_4bit为true且load_in_8bit为false时,使用4比特QLoRA轻量化训练)load_in_8bitfalsebool模型是否以8比特加载(当lora_dim>0,load_in_4bit为false且load_in_8bit为true时,使用8比特QLoRA轻量化训练)gradient_accumulation_steps8int梯度累积步数apply_chat_templatetruebool算法是否为训练数据加上模型默认的chat template以DistilQwen2.5系列模型为例,格式为· 问题:<|im_end|>n<|im_start|>usern + instruction + <|im_end|>n· 答案:<|im_start|>assistantn + output + <|im_end|>nsystem_prompttruestring模型训练使用的系统提示语,默认为You are a helpful assistant点击“训练”按钮在PAI- Model Gallery上开始进行训练,用户可以查看训练任务状态和训练日志。 如果需要将模型部署至PAI-EAS,可以在同一页面的模型部署卡面选择资源组,并且点击“部署”按钮实现一键部署。模型调用方式和上文直接部署模型的调用方式相同。 如果需要评测微调后模型的性能,可以从任务页面右上角评测按钮进入评测页。详情见下一节:模型评测。 模型评测
模型评测支持自定义数据集评测和公开数据集评测: 模型评测支持文本匹配指标BLEU/ROUGLE,以及裁判员模型评测(专家模式)。用户可以基于自己场景的独特数据,评测所选模型是否适合自己的场景。 评测需要提供JSONL格式的评测集文件,每行数据是一个List,使用question标识问题列,answer标识答案列。示例文件:evaluation_test.jsonl 通过对开源的评测数据集按领域分类,对大模型进行综合能力评估。目前PAI维护了MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、TruthfulQA,其他公开数据集陆续接入中。 之后选择评测结果输出路径,并根据系统推荐选择相应计算资源,最后提交评测任务。等待任务完成,在任务页面查看评测结果。自定义数据集和公开数据集评测结果示例如下: 模型压缩经过训练后的模型在部署之前可以对模型进行量化压缩以减小模型部署资源占用量,在模型训练任务界面可以创建模型压缩任务。和模型训练相同,配置压缩方式、压缩设置、输出配置以及计算资源后,创建压缩任务: 开始压缩之后可以看到压缩任务界面。当压缩完成后,点击部署即可对压缩后的模型进行一键部署。 四、通过 PAI-ModelGallery 进行大模型蒸馏除了可以在 PAI-ModelGallery 使用 PAI-DistilQwen-ThoughtX 系列蒸馏模型,PAI-ModelGallery 还具备一系列能力对大语言模型训练所需的指令进行扩展和改写。通过在 PAI-ModelGallery 部署教师大语言模型,以及用于指令增强和指令优化的专精小模型,用户可以轻松实现模型蒸馏的各个算法功能。更多技术的最佳实践,请参考先前发布的“大语言模型数据增强与模型蒸馏解决方案”(这里)。对于新出的 DeepSeek-R1 类推理模型的蒸馏,用户也可以参考“蒸馏 DeepSeek-R1 等深度推理大模型”来训练部署自己的推理模型(这里)。 五、结论 |
智能网 https://www.cnaiplus.com
本文网址: