MinerU 是一个由 OpenDataLab 开发的基于 AI 的 PDF 解析工具,能够将 PDF 转化为机器可读的格式(如 Markdown、JSON 等),事实上, MinerU 的强大远不止此:
- 删除冗余元素:自动删除页眉、页脚、脚注、页码等元素,同时确保语义连贯
- 智能图表识别:自动识别表格并转换为 HTML 格式
- 公式识别转换:识别数学公式并输出 LaTeX 格式
- 适用复杂排版:擅长处理单栏、多栏及复杂排版
- 多语言支持: 84 种语言 的检测与识别
- 多种输出格式:多模态与 NLP 的 Markdown、按阅读顺序排序的 JSON、含有丰富信息的中间格式等
- 多平台支持:兼容 Windows、Linux 和 Mac,支持 CPU、GPU、NPU 加速
- OCR 功能:自动检测、识别转换扫描版 PDF 和乱码 PDF