最近AI圈又有大动作!一个名为MiniMind的开源项目爆火,它号称能让你用极低的成本和时间,亲手训练一个属于自己的大语言模型,今天就带大家深入探究一下这个神奇的项目

一、MiniMind是什么?

MiniMind是一个致力于降低大语言模型(LLM)学习门槛的开源项目。以往那些动辄数百亿参数的大模型,像ChatGPT、DeepSeek、Qwen等,训练和部署对个人设备来说难度极大。而MiniMind另辟蹊径,旨在让普通个人也能参与到模型训练中。它最厉害的地方在于,仅需3块钱的服务器成本(基于GPU服务器租用)和2小时(在NVIDIA 3090单卡硬件设备下),就能训练出一个仅有25.8M的超小语言模型。这意味着什么?哪怕你只有最普通的个人GPU,也能从零训练一个“大”模型,管中窥豹,了解大模型到底是个啥!
请添加图片描述

二、亮点解析

  • 此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。
  • MiniMind系列极其轻量,最小版本体积是 GPT-3 的 ,力求做到最普通的个人GPU也可快速训练。
  • 项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO)算法、模型蒸馏算法等全过程代码。
  • MiniMind同时拓展了视觉多模态的VLM: MiniMind-V。
  • 项目所有核心算法代码均从0使用PyTorch原生重构!不依赖第三方库提供的抽象接口。
  • 这不仅是大语言模型的全阶段开源复现,也是一个入门LLM的教程。
  • 希望此项目能为所有人提供一个抛砖引玉的示例,一起感受创造的乐趣!推动更广泛AI社区的进步!

请添加图片描述

三、快速开始

分享作者的软硬件配置(仅供参考)

  • CPU: Intel® Core™ i9-10980XE CPU @ 3.00GHz
  • RAM: 128 GB
  • GPU: NVIDIA GeForce RTX 3090(24GB) * 8
  • Ubuntu==20.04
  • CUDA==12.2
  • Python==3.10.16
  • requirements.txt

第0步

git clone https://github.com/jingyaogong/minimind.git

Ⅰ 测试已有模型效果

1.环境准备

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.下载模型

git clone https://huggingface.co/jingyaogong/MiniMind2

3.命令行问答

python eval_model.py --load 1 --model_mode 2

4.或启动WebUI

# 可能需要`python>=3.10` 安装 `pip install streamlit`
# cd scripts
streamlit run web_demo.py

Ⅱ 从0开始自己训练
1.环境准备

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注:提前测试Torch是否可用cuda

import torch
print(torch.cuda.is_available())

如果不可用,请自行去torch_stable下载whl文件安装。

2.数据下载

从下文提供的数据集下载链接下载需要的数据文件(创建./dataset目录)并放到./dataset下

注:数据集须知

默认推荐下载pretrain_hq.jsonl + sft_mini_512.jsonl最快速度复现Zero聊天模型。

数据文件可自由选择,下文提供了多种搭配方案,可根据自己手头的训练需求和GPU资源进行适当组合。

请添加图片描述

3.开始训练

3.1 预训练(学知识)

python train_pretrain.py

执行预训练,得到 pretrain_.pth 作为预训练的输出权重(其中为模型的dimension,默认为512)

3.2 监督微调(学对话方式)

python train_full_sft.py

执行监督微调,得到 full_sft_*.pth 作为指令微调的输出权重(其中full即为全参数微调)

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐