本仓库包含基于 Docling 的多节点智能分片并行处理系统设计与实现。
docs/docling_mpi_design.md:系统设计文档src/docling_mpi/:MPI 分布式处理框架核心代码pyproject.toml:项目依赖与打包配置
-
安装依赖(需要 MPI 运行环境,例如 OpenMPI):
python -m venv .venv source .venv/bin/activate pip install -e .
-
使用
mpiexec启动处理任务:mpiexec -n 4 docling-mpi "data/*.pdf" --chunk-size 4 --output-dir output-n指定总的 MPI 进程数量(1 个主节点 + 若干工作节点)。--chunk-size控制每个任务包含的页数。--output-dir结果输出目录,默认output/。
本仓库包含基于 Docling 的多节点智能分片并行处理系统设计文档。