一键拉起文本模型训练环境:基于腾讯云cnb.cool进行无成本急速模型训练
00 分钟
2025-3-25
2025-4-23
类型
状态
日期
链接
摘要
标签
分类
图标
密码
😀 平时经常用到LLaMA-Factory进行一些模型的训练,今天基于腾讯云cnb制作了一个基于LLaMA-Factory的一键启动项目,可以实现一键启动训练环境,环境销毁前结果保存等能力。

1 📝 前期准备

  1. 打开网址itq5/LLaMA-Factory-Boot · Cloud Native Build使用微信进行网站扫码登录。
    1. notion image
  1. 点击右上角的“Fork”进行复制项目仓库。
    1. notion image
  1. 待Fork结束后网页跳转搭配自己的仓库下。
    1. notion image
  1. 可以点击顶部构建中的构建最新的LLaMA-Factory镜像进行最新镜像构建(当前也可以就用我构建的镜像)
    1. notion image
      notion image
  1. 大约等待50多分钟后,待流水线构建任务结束,可以在“制品”中找到构建后上传的镜像。
    1. notion image
  1. 修改.cnb.yml文件中的镜像到自己仓库的地址。(当然,用我的镜像也没问题)

    2 🤗 项目使用

    2.1 启动项目

    1. 点击LLaMA-Factory启动将自动镜像容器镜像拉起并启动环境。
      1. notion image
    1. 稍等几秒到几分钟后,待显示这个界面,可以选择“使用WebIDE打开”
      1. notion image
    1.  待终端自动启动成功后弹出网址,点击打开即可。
      1. notion image

    2.2 模型微调

    2.2.1 基本配置

    1. 打开弹出的网址。
      1. notion image
    1. 切换语言到中文
      1. notion image
    1. 选择大模型名称,我这里选择的是Qwen2.5-3B-Instruct环境提供的是H20显卡,多人共享。
      1. notion image
    1. 设置微调方法到lora
      1. notion image
    1. 加速方式选择unsloth
      1. notion image
    1. Train界面的“数据集”中选择我们导入的Chinese-medical-dialogue
      1. notion image
    1. 点击“预览数据集”确定数据集是否正确。
      1. notion image
    1. 设置验证集比例为0.2,即为20%的数据集作为验证数据集
      1. notion image
    1. 计算类型修改到fp16
      1. notion image
    1. 展开SwanLab参数设置,勾选“使用SwanLab”功能。
      1. notion image
    1. 设置SwanLab API秘钥
      1. notion image
    1. 设置SwanLab 模式为cloud
      1. notion image
    1. 点击预览命令,生成预览指令
      1. notion image

    2.2.2 微调前模型对比

    1. 选项卡界面切换到Chat,并选择“加载模型”
      1. notion image
    • 如果对应目录下没有模型文件时,会自动进行模型文件下载。
      • notion image
    1. 选择一个数据集中的问题进行提问,比如提问“女宝宝,刚7岁,这一年,察觉到,我家孩子身上肉很多,而且,食量非常的大,平时都不喜欢吃去玩,请问:小儿肥胖超重该如何治疗。”模型的回答如下:
      1. notion image
    1. 测试后卸载模型
      1. notion image

    2.2.3 开始训练

    1. Train中点击“开始”
      1. notion image
    1. 监控损失率和步数
      1. notion image
    1. 监控显存占用情况
      1. notion image
    1. 点击SwanLab 链接查看详细报告
      1. 日志:
        notion image
    1. 待微调结束后,查看SanLab视图,观察eval
      1. notion image

    2.3 模型推理与评估

    1. 待训练结束后,LLaMA Board上会显示训练完成。
    1. 在“检查点路径”中选择训练的检查点
      1. notion image
    1. 在“Evaluate & Predict”中的数据集中选择评估的数据集,我这里没有,就选择了之前训练的数据集。
      1. notion image
    1. 在“温度系数”中由于我们训练的是医疗方面,需要严谨的回答,需要设置到0.5及以下。
      1. notion image
    1. 点击“开始”进行评估
      1. notion image
    1. 等待评估完成。
      1. notion image
        notion image

    2.4 模型对话

    2.4.1 基础模型对话

    1. 先不勾选“检查点路径”并加载模型
      1. notion image
    当显示“模型已加载,可以开始聊天了!”就表示加载完成 2. 设置温度到0.5
    1. 在输入框输入“男孩子,刚4岁,最近,发现,我家孩子体重要比别的孩子重很多,而且,最近越来越能吃了,还特别的懒,请问如何治疗” 模型回复是:

      2.4.2 微调后模型答复

      1. 在“检查点路径”中设置训练的检查点
        1. notion image
      1. 点击“加载模型”
        1. notion image
      1. 设置温度到0.5
        1. notion image
      1. 在输入框输入“男孩子,刚4岁,最近,发现,我家孩子体重要比别的孩子重很多,而且,最近越来越能吃了,还特别的懒,请问如何治疗” 模型回复是:
        1. notion image
      是不是以下就感觉专业了很多。

      2.5 环境关闭

      默认cnb可以在不关闭网页的情况下使用16h。当超过12小时时是凌晨4-6点间也会被关闭,详见官方手册
      1. 可以点击“云原生构建”按钮后,点击正在运行的“云原生开发”进入开发详情。
        1. notion image
      1. 点击“停止构建”即可关闭当前环境。
        1. notion image
      在关闭构建时会自动将容器中data以及saves的数据集和训练数据进行保存。如果涉及到内部数据,建议将仓库设置为私有,以免泄露核心敏感数据。

      免责声明:
      • 笔者水平有限,尽管经过多次验证和检查,尽力确保内容的准确性,但仍可能存在疏漏之处。敬请业界专家大佬不吝指教。
      • 本文所述内容仅通过实战环境验证测试,读者可学习、借鉴,但严禁直接用于生产环境由此引发的任何问题,作者概不负责
      上一篇
      在线重装Debian11
      下一篇
      智能医疗问诊系统实战:基于腾讯云CloudStudio GPU应用进行LLM训练和项目部署

      评论
      Loading...