你是不是也经常被PDF折磨?想提取文字,格式乱成一锅粥;想搞表格,结果全变成一堆坐标;想跑个OCR,还得搭一圈云服务。最烦的是,一个PDF解析工具动不动就让你联网、传数据,隐私和速度都没保障。
今天分享一个完全本地运行的开源工具——LiteParse。它主打轻量和快速,没有那些花里胡哨的LLM依赖,也不需要联网。你的PDF文件永远待在你自己的电脑上。
一句话:把PDF里的文字和位置信息干净地挖出来。

image.png
如果你遇到特别复杂的文档——比如那种表格套表格、多栏乱飞、手写文字、扫描版老书,LiteParse 本地的解析能力可能就有点吃力了。这时候可以试试它们家的 LlamaParse,一个云端文档解析器,专门处理这种脏活累活,输出干净的 Markdown 和结构化数据。
免费注册 LlamaParse:
https://cloud.llamaindex.ai (官网自己搜一下,这里不贴长链接了)
按你熟悉的包管理器来就行。不同语言版本都提供相同的 CLI 命令(叫 lit),除了 WASM 那个。
语言 安装命令 文档 Node.js / TypeScript npm i @llamaindex/liteparse Node.js README Python pip install liteparse Python README Rust cargo install liteparse(CLI)
cargo add liteparse(库) Rust crates.io 浏览器(WASM) npm i @llamaindex/liteparse-wasm WASM README
装完之后,命令行里敲 lit --help 就能看到可用命令。
如果你在用 skills 这个 CLI 工具,可以直接把 LiteParse 当成一个代理技能下载:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
或者手动把 SKILL.md 复制到你的技能配置里,随便你。
所有安装方式(npm、pip、cargo)得到的 CLI 都是一样的。
# 基本用法
lit parse document.pdf
# 输出 JSON 格式
lit parse document.pdf --format json -o output.json
# 只解析部分页面(比如第1-5页,第10页,第15-20页)
lit parse document.pdf --target-pages "1-5,10,15-20"
# 关掉 OCR(只取原生文字)
lit parse document.pdf --no-ocr
# 解析一个远程 PDF(通过管道)
curl -sL https://example.com/report.pdf | lit parse -
lit batch-parse ./input-directory ./output-directory
这个命令会遍历输入目录里所有 PDF,然后把解析结果写到输出目录。
截图对 LLM 代理特别重要——很多视觉信息(图表、布局、颜色标记)纯文本根本抓不到。
# 截全部页面
lit screenshot document.pdf -o ./screenshots
# 只截指定页面
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
# 自定义 DPI(分辨率)
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit parse [OPTIONS]
Options:
-o, --output 输出文件路径
--format 输出格式: json|text (默认 text)
--no-ocr 禁用 OCR
--ocr-language OCR 语言 (Tesseract 格式,默认 eng)
--ocr-server-url HTTP OCR 服务器地址(不填则用内置 Tesseract)
--tessdata-path tessdata 目录路径
--max-pages 最大解析页数 (默认 1000)
--target-pages 指定页面范围,如 "1-5,10,15-20"
--dpi 渲染 DPI (默认 150)
--preserve-small-text 保留非常小的文字
--password 加密文档的密码
--num-workers 并发 OCR 工作线程数 (默认 CPU 核心数-1)
-q, --quiet 不显示进度输出
-h, --help 打印帮助
lit batch-parse [OPTIONS]
Options:
--format 输出格式: json|text
--no-ocr 禁用 OCR
--ocr-language OCR 语言
--ocr-server-url HTTP OCR 服务器地址
--tessdata-path tessdata 目录路径
--max-pages 每个文件最大解析页数
--dpi 渲染 DPI
--recursive 递归搜索子目录
--extension 只处理特定扩展名的文件,如 ".pdf"
--password 加密文档密码
--num-workers 并发 OCR 工作线程数
-q, --quiet 不显示进度
lit screenshot [OPTIONS]
Options:
-o, --output-dir 输出目录 (默认 ./screenshots)
--target-pages 截图页面,如 "1,3,5" 或 "1-5"
--dpi 渲染 DPI (默认 150)
--password 加密文档密码
-q, --quiet 不显示进度
Tesseract 已经打包在库里了,开箱即用:
lit parse document.pdf # 默认开启 OCR
lit parse document.pdf --ocr-language fra # 指定法语
lit parse document.pdf --no-ocr # 关掉 OCR
如果你在离线环境或者内网(没有外网),可以设置 TESSDATA_PREFIX 环境变量指向一个存放了预下载 .traineddata 文件的目录:
export TESSDATA_PREFIX=/path/to/tessdata
lit parse document.pdf --ocr-language eng
或者直接在命令行传路径:
lit parse document.pdf --tessdata-path /path/to/tessdata
如果你觉得 Tesseract 准确率不够,或者想追求更好的性能,可以接一个 HTTP OCR 服务器。官方提供了 EasyOCR 和 PaddleOCR 的即用型封装示例,你也可以按照 OCR_API_SPEC.md 的规范自己实现。
API 要求很简单:
LiteParse 在解析前会自动把很多常见文档格式转成 PDF,前提是你装了对应的转换工具。
办公文档(依赖 LibreOffice):Word(.doc/.docx/.odt等)、PPT(.ppt/.pptx/.odp等)、Excel(.xls/.xlsx/.csv等),甚至 Pages、Keynote 也支持。
安装 LibreOffice:
# macOS
brew install --cask libreoffice
# Ubuntu/Debian
apt-get install libreoffice
# Windows (choco)
choco install libreoffice-fresh
Windows 用户可能需要把 C:\Program Files\LibreOffice\program 加到 PATH 里。
图片(依赖 ImageMagick):.jpg、.png、.gif、.bmp、.tiff、.webp、.svg 都能转。
安装 ImageMagick:
# macOS
brew install imagemagick
# Ubuntu/Debian
apt-get install imagemagick
# Windows
choco install imagemagick.app
目前只有一个比较重要的:
变量 说明 TESSDATA_PREFIX 存放 Tesseract .traineddata 文件的目录,用于离线/内网环境
LiteParse 是一个 Rust 工作区(workspace),包含核心库和各语言绑定的 crate:
crates/
├── liteparse/ # 核心库 + CLI 二进制
├── liteparse-napi/ # Node.js 绑定 (napi-rs)
├── liteparse-python/ # Python 绑定 (PyO3)
├── liteparse-wasm/ # WASM 绑定 (wasm-bindgen)
├── pdfium/ # PDFium Rust 包装
└── pdfium-sys/ # PDFium FFI 绑定
packages/
├── node/ # npm 包 (TS 包装 + 原生二进制)
├── python/ # PyPI 包 (Python 包装 + 原生二进制)
└── wasm/ # WASM npm 包
编译相关命令:
# 编译 CLI
cargo build --release -p liteparse
# 编译 Node.js 绑定
cd packages/node && npm run build
# 编译 Python 绑定
cd packages/python && maturin develop --release
# 编译 WASM
cd packages/wasm && npm run build
项目里还有个 AGENTS.md / CLAUDE.md,对开发者和编码代理比较友好,有兴趣可以翻翻。
LiteParse 不大,但很实在。如果你需要一个不联网、速度快、能 OCR、还能出坐标的 PDF 解析工具,直接装上试试。遇到复杂文档搞不定的,再切到 LlamaParse 云端方案也不迟。
项目地址:github搜索liteparse
顺手点个 Star 鼓励一下作者吧。
更新时间:2026-06-05
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034903号