MPDF to Markdown
OCR · 扫描件

扫描件 PDF 转 Markdown

从扫描件或图片型 PDF 中提取文字,得到干净的 Markdown。OCR 全程在你的浏览器内运行——文件绝不会离开本机。

100% 隐私安全 · 文件不会离开你的浏览器

把扫描件 PDF 拖到这里,或 点击浏览

图片 / 扫描 PDF · 浏览器内 OCR · 最大 50MB

没有 PDF?

首次运行会下载语言模型(约 2–15MB),之后即可离线使用——文件在本地处理。

内置 OCR

能读取普通转换器无法处理的扫描件与图片型 PDF,基于浏览器内的 Tesseract 引擎。

支持 100+ 语言

可识别中文、英文、日文、韩文、西班牙文、法文、德文、俄文等多种语言。

隐私优先

OCR 通过 WebAssembly 在本地运行,仅下载语言模型——你的文档绝不会离开本机。

常见问题

什么是扫描件 PDF?

扫描件或图片型 PDF 没有可选中的文字层,本质上是一张张页面图片。普通转换器读不到内容,需要用 OCR 才能识别文字。

OCR 免费且安全吗?

是的。识别全程通过 WebAssembly 在浏览器内运行,仅从 CDN 下载语言模型;你的 PDF 不会被上传。

支持哪些语言?

开始前可选择英文、简体与繁体中文、日文、韩文、西班牙文、法文、德文、俄文等多种语言。

为什么 OCR 比普通转换慢?

OCR 需要逐像素分析每一页图片来识别字符,比直接读取已有文字层更耗时,文档越大耗时越长。

相关工具