Easy Dataset 是一个专为创建大型语言模型(LLM)微调数据集而设计的应用程序。它提供了直观的界面,用于上传特定领域的文件,智能分割内容,生成问题,并为模型微调生成高质量的训练数据。
通过 Easy Dataset,您可以将领域知识转化为结构化数据集,兼容所有遵循 OpenAI 格式的 LLM API,使微调过程变得简单高效。
- 智能文档处理:支持 PDF、Markdown、DOCX 等多种格式智能识别和处理
- 智能文本分割:支持多种智能文本分割算法、支持自定义可视化分段
- 智能问题生成:从每个文本片段中提取相关问题
- 领域标签:为数据集智能构建全局领域标签,具备全局理解能力
- 答案生成:使用 LLM API 为每个问题生成全面的答案、思维链(COT)
- 灵活编辑:在流程的任何阶段编辑问题、答案和数据集
- 多种导出格式:以各种格式(Alpaca、ShareGPT)和文件类型(JSON、JSONL)导出数据集
- 广泛的模型支持:兼容所有遵循 OpenAI 格式的 LLM API
- 用户友好界面:为技术和非技术用户设计的直观 UI
- 自定义系统提示:添加自定义系统提示以引导模型响应
ed3.mp4
| Windows | MacOS | Linux | |
Setup.exe |
Intel |
M |
AppImage |
- 克隆仓库:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset- 安装依赖:
npm install- 启动开发服务器:
npm run build
npm run start- 打开浏览器并访问
http://localhost:1717
- 克隆仓库:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset- 更改
docker-compose.yml文件:
services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
# - ./prisma:/app/prisma 如果需要挂载请先手动初始化数据库文件
restart: unless-stopped注意: 请将
{YOUR_LOCAL_DB_PATH}、{LOCAL_PRISMA_PATH}替换为你希望存储本地数据库的实际路径,建议直接使用当前代码仓库目录下的local-db和prisma文件夹,这样可以和 NPM 启动时的数据库路径保持一致。
注意: 如果需要挂载数据库文件(PRISMA),需要提前执行
npm run db:push初始化数据库文件。
- 使用 docker-compose 启动
docker-compose up -d- 打开浏览器并访问
http://localhost:1717
如果你想自行构建镜像,可以使用项目根目录中的 Dockerfile:
- 克隆仓库:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset- 构建 Docker 镜像:
docker build -t easy-dataset .- 运行容器:
docker run -d \
-p 1717:1717 \
-v {YOUR_LOCAL_DB_PATH}:/app/local-db \
-v {LOCAL_PRISMA_PATH}:/app/prisma \
--name easy-dataset \
easy-dataset注意: 请将
{YOUR_LOCAL_DB_PATH}、{LOCAL_PRISMA_PATH}替换为你希望存储本地数据库的实际路径,建议直接使用当前代码仓库目录下的local-db和prisma文件夹,这样可以和 NPM 启动时的数据库路径保持一致。
注意: 如果需要挂载数据库文件(PRISMA),需要提前执行
npm run db:push初始化数据库文件。
- 打开浏览器,访问
http://localhost:1717
![]() |
![]() |
- 在首页点击"创建项目"按钮;
- 输入项目名称和描述;
- 配置您首选的 LLM API 设置
![]() |
![]() |
- 在"文本分割"部分上传您的文件(支持 PDF、Markdwon、txt、DOCX);
- 查看和调整自动分割的文本片段;
- 查看和调整全局领域树
![]() |
![]() |
- 基于文本块批量构造问题;
- 查看并编辑生成的问题;
- 使用标签树组织问题
![]() |
![]() |
- 基于问题批量构造数据集;
- 使用配置的 LLM 生成答案;
- 查看、编辑并优化生成的答案
![]() |
![]() |
- 在数据集部分点击"导出"按钮;
- 选择您喜欢的格式(Alpaca 或 ShareGPT);
- 选择文件格式(JSON 或 JSONL);
- 根据需要添加自定义系统提示;
- 导出您的数据集
- 有关所有功能和 API 的详细文档,请访问我们的 文档站点
- 查看本项目的演示视频:Easy Dataset 演示视频
- 查看本项目的论文:Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents
- Easy Dataset × LLaMA Factory: 让大模型高效学习领域知识
- Easy Dataset 使用实战: 如何构建高质量数据集?
- Easy Dataset 重点功能更新解读
- 大模型微调数据集: 基础知识科普
我们欢迎社区的贡献!如果您想为 Easy Dataset 做出贡献,请按照以下步骤操作:
- Fork 仓库
- 创建新分支(
git checkout -b feature/amazing-feature) - 进行更改
- 提交更改(
git commit -m '添加一些惊人的功能') - 推送到分支(
git push origin feature/amazing-feature) - 打开 Pull Request(提交至 DEV 分支)
请确保适当更新测试并遵守现有的编码风格。
https://docs.easy-dataset.com/geng-duo/lian-xi-wo-men
本项目采用 AGPL 3.0 许可证 - 有关详细信息,请参阅 LICENSE 文件。
如果您觉得此项目有帮助,请考虑以下列格式引用
@misc{miao2025easydataset,
title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
year={2025},
eprint={2507.04009},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2507.04009}
}










