类型
状态
日期
链接
摘要
标签
分类
图标
密码
😀 今天凌晨阿里发布Qwen3全系列,今天就基于腾讯云CloudStudio GPU应用进行Qwen3训练,并记录下
1 📝 前期准备
本次采用云上环境进行部署, 基于腾讯云CloudStudio的GPU应用环境,限时免费提供16G显存的T4显卡,8核32G虚拟机。针对一些参数量较小的模型可以进行微调。对于大参数量的建议单独购买HAI服务后训练,将训练后的模型进行部署使用。
- 打开网址[Cloud Studio](Cloud Studio - 云端开发,化繁为简)使用微信或QQ等进行网站登录。

- 点击右上角的“创建应用”进行创建,可以选择任意模版进行创建。

- 在弹出的窗口中等待初始化完成。

- 正常打开应用面板后,点击切换到GPU。

- 待切换完成后,点击终端。


- 验证环境

2 🤗 微调过程
2.1 环境准备
2.1.1 创建虚拟环境并激活
- 执行如下命令安装aria2工具
- 执行如下命令进行准备环境

2.1.2 下载LLaMA-Factory项目
- 执行如下命令下载LLaMA-Factory项目

- 加载依赖库



- 执行如下命令安装modelscope软件

- 执行如下命令安装unsloth软件

- 执行如下命令安装
swanlab
软件

- 执行如下命令安装
swanlab[dashboard]
软件

- 创建软连接

- 验证版本

2.1.3 启动面板
2.1.4 国外节点
- 下载
frpc_linux_amd64_v0.3
程序

- 执行如下命令启动面板
2.1.5 国内节点
- 执行如下命令启动面板

2.2 数据集准备
- 修改数据集 LLaMA-Factory自带了一些数据集,都以json格式存在data目录下,后面通过图形化界面微调时,可以直接通过下拉框进行选择,同时也可以添加自己的数据集,如果要添加自己的数据集,需要进行一些配置。 我们先来看下data下面的一个叫做identity.json的数据集,也叫做身份数据集,这个数据集打开后,发现问题都是类似于询问模型你是谁,然后回答是类似于我是XX开发的XX模型,如果我们想把微调后的模型给它个身份,比如让他回答我是腾讯云团队训练的CloudStudio助手模型,那么就需要修改下这个数据集,将里面的{{name}}和{{author}}进行替换,替换为模型的名字和开发者。
批量替换命令参考如下:
2.3 模型微调
2.3.1 基本配置
- 打开项目网站7860地址。

- 切换语言到中文

- 选择大模型名称,我这里选择的是
Qwen3-0.6B-Instruct
实际GPU应用提供的是T4显卡,建议选择较小参数量的模型

- 设置微调方法到lora

- 加速方式选择
liger_kernel

- 在
Train
界面的“数据集”中选择我们导入的identity

- 点击“预览数据集”确定数据集是否正确。

- 设置
验证集比例
为0.2,即为20%的数据集作为验证数据集

- 计算类型修改到
fp16

- 展开
SwanLab参数设置
,勾选“使用SwanLab”功能。

- 设置
SwanLab API秘钥

- 设置
SwanLab 模式
为cloud

- 点击预览命令,生成预览指令

2.3.2 微调前模型对比
- 选项卡界面切换到
Chat
,并选择“加载模型”

- 如果对应目录下没有模型文件时,会自动进行模型文件下载。

- 比如提问“你是谁”模型的回答如下:

- 测试后卸载模型

2.3.3 开始训练
- 在
Train
中点击“开始”

- 监控损失率和步数

- 监控显存占用情况

- 点击SwanLab 链接查看详细报告

日志:

- 待微调结束后,查看SanLab视图,观察eval

2.4 模型对话
2.4.1 微调后模型答复
- 勾选“检查点路径”并加载模型

当显示“模型已加载,可以开始聊天了!”就表示加载完成
- 在输入框输入“你是谁” 模型回复是:

3 应用复制和启动
N/A
免责声明:
- 笔者水平有限,尽管经过多次验证和检查,尽力确保内容的准确性,但仍可能存在疏漏之处。敬请业界专家大佬不吝指教。
- 本文所述内容仅通过实战环境验证测试,读者可学习、借鉴,但严禁直接用于生产环境。由此引发的任何问题,作者概不负责!
- 作者:Cloud1024
- 链接:https://itq5.com/posts/ai_qwen3
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。