easy-dataset/README.zh-CN.md at main · sunpcaudio2note/easy-dataset

GitHub Downloads (all assets, all releases)

一个强大的大型语言模型微调数据集创建工具

简体中文 | English

功能特点 • 快速开始 • 使用文档 • 贡献 • 许可证

如果喜欢本项目，请给本项目留下 Star⭐️，或者请作者喝杯咖啡呀 => 打赏作者 ❤️！

概述

Easy Dataset 是一个专为创建大型语言模型（LLM）微调数据集而设计的应用程序。它提供了直观的界面，用于上传特定领域的文件，智能分割内容，生成问题，并为模型微调生成高质量的训练数据。

通过 Easy Dataset，您可以将领域知识转化为结构化数据集，兼容所有遵循 OpenAI 格式的 LLM API，使微调过程变得简单高效。

功能特点

智能文档处理：支持 PDF、Markdown、DOCX 等多种格式智能识别和处理
智能文本分割：支持多种智能文本分割算法、支持自定义可视化分段
智能问题生成：从每个文本片段中提取相关问题
领域标签：为数据集智能构建全局领域标签，具备全局理解能力
答案生成：使用 LLM API 为每个问题生成全面的答案、思维链（COT）
灵活编辑：在流程的任何阶段编辑问题、答案和数据集
多种导出格式：以各种格式（Alpaca、ShareGPT）和文件类型（JSON、JSONL）导出数据集
广泛的模型支持：兼容所有遵循 OpenAI 格式的 LLM API
用户友好界面：为技术和非技术用户设计的直观 UI
自定义系统提示：添加自定义系统提示以引导模型响应

快速演示

ed3.mp4

本地运行

下载客户端

Windows	MacOS		Linux
Setup.exe	Intel	M	AppImage

使用 NPM 安装

克隆仓库：

   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset

安装依赖：

   npm install

启动开发服务器：

   npm run build

   npm run start

打开浏览器并访问 http://localhost:1717

使用官方 Docker 镜像

克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

更改 docker-compose.yml 文件：

services:
  easy-dataset:
    image: ghcr.io/conardli/easy-dataset
    container_name: easy-dataset
    ports:
      - '1717:1717'
    volumes:
      - ./local-db:/app/local-db
      # - ./prisma:/app/prisma 如果需要挂载请先手动初始化数据库文件
    restart: unless-stopped

注意： 请将 {YOUR_LOCAL_DB_PATH}、{LOCAL_PRISMA_PATH} 替换为你希望存储本地数据库的实际路径，建议直接使用当前代码仓库目录下的 local-db 和 prisma 文件夹，这样可以和 NPM 启动时的数据库路径保持一致。

注意： 如果需要挂载数据库文件（PRISMA），需要提前执行 npm run db:push 初始化数据库文件。

使用 docker-compose 启动

docker-compose up -d

打开浏览器并访问 http://localhost:1717

使用本地 Dockerfile 构建

如果你想自行构建镜像，可以使用项目根目录中的 Dockerfile：

克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

构建 Docker 镜像：

docker build -t easy-dataset .

运行容器：

docker run -d \
  -p 1717:1717 \
  -v {YOUR_LOCAL_DB_PATH}:/app/local-db \
  -v {LOCAL_PRISMA_PATH}:/app/prisma \
  --name easy-dataset \
  easy-dataset

注意： 请将 {YOUR_LOCAL_DB_PATH}、{LOCAL_PRISMA_PATH} 替换为你希望存储本地数据库的实际路径，建议直接使用当前代码仓库目录下的 local-db 和 prisma 文件夹，这样可以和 NPM 启动时的数据库路径保持一致。

注意： 如果需要挂载数据库文件（PRISMA），需要提前执行 npm run db:push 初始化数据库文件。

打开浏览器，访问 http://localhost:1717

使用方法

创建项目

在首页点击"创建项目"按钮；
输入项目名称和描述；
配置您首选的 LLM API 设置

处理文档

在"文本分割"部分上传您的文件（支持 PDF、Markdwon、txt、DOCX）；
查看和调整自动分割的文本片段；
查看和调整全局领域树

生成问题

基于文本块批量构造问题；
查看并编辑生成的问题；
使用标签树组织问题

创建数据集

基于问题批量构造数据集；
使用配置的 LLM 生成答案；
查看、编辑并优化生成的答案

导出数据集

在数据集部分点击"导出"按钮；
选择您喜欢的格式（Alpaca 或 ShareGPT）；
选择文件格式（JSON 或 JSONL）；
根据需要添加自定义系统提示；
导出您的数据集

文档

有关所有功能和 API 的详细文档，请访问我们的文档站点
查看本项目的演示视频：Easy Dataset 演示视频
查看本项目的论文：Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

社区教程

贡献

我们欢迎社区的贡献！如果您想为 Easy Dataset 做出贡献，请按照以下步骤操作：

Fork 仓库
创建新分支（git checkout -b feature/amazing-feature）
进行更改
提交更改（git commit -m '添加一些惊人的功能'）
推送到分支（git push origin feature/amazing-feature）
打开 Pull Request（提交至 DEV 分支）

请确保适当更新测试并遵守现有的编码风格。

加交流群 & 联系作者

https://docs.easy-dataset.com/geng-duo/lian-xi-wo-men

许可证

本项目采用 AGPL 3.0 许可证 - 有关详细信息，请参阅 LICENSE 文件。

引用

如果您觉得此项目有帮助，请考虑以下列格式引用

@misc{miao2025easydataset,
  title={Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents},
  author={Ziyang Miao and Qiyu Sun and Jingyuan Wang and Yuchen Gong and Yaowei Zheng and Shiqi Li and Richong Zhang},
  year={2025},
  eprint={2507.04009},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2507.04009}
}

Star History

_{由 ConardLi 用 ❤️ 构建 • 关注我：公众号｜B站｜掘金｜知乎｜Youtube}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

概述

功能特点

快速演示

本地运行

下载客户端

使用 NPM 安装

使用官方 Docker 镜像

使用本地 Dockerfile 构建

使用方法

创建项目

处理文档

生成问题

创建数据集

导出数据集

文档

社区教程

贡献

加交流群 & 联系作者

许可证

引用

Star History

FilesExpand file tree

README.zh-CN.md

Latest commit

History

README.zh-CN.md

File metadata and controls

概述

功能特点

快速演示

本地运行

下载客户端

使用 NPM 安装

使用官方 Docker 镜像

使用本地 Dockerfile 构建

使用方法

创建项目

处理文档

生成问题

创建数据集

导出数据集

文档

社区教程

贡献

加交流群 & 联系作者

许可证

引用

Star History