RAG Eval

本项目是一个本地运行的 RAG 评测产品。它把资料导入、知识库切分与索引、Workflow 编排、Query 评测集生成、RAGAS 评测和外部 HTTP 调用放在同一个控制台里，适合用来快速验证一个 RAG 系统是否“能检索、能回答、能评测、能被其他程序调用”。

默认语言是中文；默认模型服务商是千问。

你可以用它做什么

导入自己的资料包：支持 .txt、.md、.html、.pdf、.docx 和单页 URL。
管理本地知识库 DB：资料会解析、切分成 chunks，并写入本地 Chroma 向量库。
搭建 Workflow：用画布保存自己的 Graph，也可以从空白、离线建库、RAG、评测模板开始。
生成 query-only 评测集：输入 3-5 个示例 Query，模型会结合知识库内容生成更多 Query。
做无参考答案评测：默认使用不依赖标准答案的 RAGAS 指标。
对外提供 Runtime API：其他语言可以通过 HTTP/JSON 调用某个 RAG Graph 的输入输出。

快速开始

1. 安装依赖

建议使用 Python 3.10+。

python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
.venv/bin/python -m playwright install chromium

安装前端依赖：

cd frontend
npm install
cd ..

2. 配置千问 API Key

首次启动或首次读取配置时，系统会自动从模板生成本地配置：

config/application.yaml
config/model_roles.yaml

这两个运行时 YAML 会被 Git 忽略；仓库只跟踪 .example 模板。需要重置配置时，删除本地 YAML 后重启服务即可重新生成。

默认配置只需要一个千问 Key：

export API_KEY_QWEN="your-api-key"

Windows 当前会话：

set API_KEY_QWEN=your-api-key

默认模型角色：

Embedding：text-embedding-v4
Answer：qwen3.7-plus
Judge：qwen3.7-plus

如需修改模型或 Provider，可以在产品里的「配置」页调整，也可以直接编辑：

config/application.yaml
config/model_roles.yaml

3. 启动后端

.venv/bin/python -m uvicorn rag_eval.api.app:app --host 127.0.0.1 --port 8000

健康检查：

curl http://127.0.0.1:8000/api/health

4. 启动前端

另开一个终端：

cd frontend
npm run dev -- --port 5173

打开：

http://127.0.0.1:5173/

Runtime API

查询能力

curl http://127.0.0.1:8000/api/runtime/capabilities

查询可调用 Graph

curl http://127.0.0.1:8000/api/runtime/workflows

单条调用

curl -X POST http://127.0.0.1:8000/api/runtime/workflows/1/invoke \
  -H 'Content-Type: application/json' \
  -d '{"question":"如何导入文档？"}'

成功响应结构：

{
  "ok": true,
  "output": {
    "question": "如何导入文档？",
    "answer": "模型生成的答案",
    "contexts": ["检索命中的上下文"]
  },
  "metadata": {
    "workflow_id": 1,
    "knowledge_base_id": 1,
    "collection_name": "kb_1_docs",
    "top_k": 3,
    "context_count": 1
  }
}

批量调用

curl -X POST http://127.0.0.1:8000/api/runtime/workflows/1/batch \
  -H 'Content-Type: application/json' \
  -d '{"questions":["如何导入文档？","如何运行评测？"]}'

本地数据保存在哪里

第一版是单用户本地产品，没有登录、权限和多租户。

常见本地数据：

SQLite 状态库：默认在 var/app 下。
上传原文件：保存到本地应用目录。
Chroma 向量库：按配置或知识库 collection 落本地目录。
评测结果：保存在本地状态库，并可按旧脚手架配置输出 CSV。

这些目录通常属于本地运行产物，不应该提交到 Git。

旧脚手架入口

如果你只想跑旧的命令行 demo，仍可以使用：

python quickstart.py

旧 Streamlit 控制台仍保留：

streamlit run streamlit_app.py

但当前主产品入口是 React + FastAPI：

http://127.0.0.1:5173/

目录结构

frontend/                 # React + React Flow 产品前端
rag_eval/api/             # FastAPI HTTP API
rag_eval/ingestion/       # 文件 / URL 解析、chunk 生成
rag_eval/workflow/        # Graph 校验与执行
rag_eval/query_generation.py
rag_eval/vector/          # Chroma 向量库构建与管理
rag_eval/eval_engine/     # RAGAS 评测
rag_eval/storage.py       # SQLite 本地状态库
config/                   # 模型、Provider、chunk、评测配置
tests/                    # 后端单测与集成测试

测试与构建

后端测试：

.venv/bin/python -m pytest -q

前端构建：

cd frontend
npm run build

设计约束

第一版是单机本地产品。
URL 只做单页导入，不做站点爬取。
默认不替用户把搜索页换成其他搜索服务；用户给什么 URL，就解析这个 URL 本身。
默认评测走 query-only / reference-free 路径，避免空 reference 造成误导性分数。
Runtime API 只负责调用已准备好的 RAG Graph，不隐式触发导入、切分、索引或评测。

Name		Name	Last commit message	Last commit date
Latest commit History 101 Commits
config		config
datasets		datasets
frontend		frontend
rag_eval		rag_eval
tests		tests
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
README_zh.md		README_zh.md
pytest.ini		pytest.ini
quickstart.ipynb		quickstart.ipynb
quickstart.py		quickstart.py
requirements.txt		requirements.txt
streamlit_app.py		streamlit_app.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RAG Eval

你可以用它做什么

快速开始

1. 安装依赖

2. 配置千问 API Key

3. 启动后端

4. 启动前端

推荐工作顺序

1. 配置模型

2. 准备数据

3. 搭建 Workflow

4. 生成评测集

5. 运行评测

6. 部署 Runtime API

Runtime API

查询能力

查询可调用 Graph

单条调用

批量调用

本地数据保存在哪里

旧脚手架入口

目录结构

测试与构建

设计约束

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

RAG Eval

你可以用它做什么

快速开始

1. 安装依赖

2. 配置千问 API Key

3. 启动后端

4. 启动前端

推荐工作顺序

1. 配置模型

2. 准备数据

3. 搭建 Workflow

4. 生成评测集

5. 运行评测

6. 部署 Runtime API

Runtime API

查询能力

查询可调用 Graph

单条调用

批量调用

本地数据保存在哪里

旧脚手架入口

目录结构

测试与构建

设计约束

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages