OCR · 扫描件

扫描件 PDF 转 Markdown

从扫描件或图片型 PDF 中提取文字，得到干净的 Markdown。OCR 全程在你的浏览器内运行——文件绝不会离开本机。

100% 隐私安全 · 文件不会离开你的浏览器

文档语言

把扫描件 PDF 拖到这里，或点击浏览

图片 / 扫描 PDF · 浏览器内 OCR · 最大 50MB

没有 PDF？

首次运行会下载语言模型（约 2–15MB），之后即可离线使用——文件在本地处理。

内置 OCR

能读取普通转换器无法处理的扫描件与图片型 PDF，基于浏览器内的 Tesseract 引擎。

可识别中文、英文、日文、韩文、西班牙文、法文、德文、俄文等多种语言。

OCR 通过 WebAssembly 在本地运行，仅下载语言模型——你的文档绝不会离开本机。

什么是扫描件 PDF？

扫描件或图片型 PDF 没有可选中的文字层，本质上是一张张页面图片。普通转换器读不到内容，需要用 OCR 才能识别文字。

OCR 免费且安全吗？

是的。识别全程通过 WebAssembly 在浏览器内运行，仅从 CDN 下载语言模型；你的 PDF 不会被上传。

支持哪些语言？

开始前可选择英文、简体与繁体中文、日文、韩文、西班牙文、法文、德文、俄文等多种语言。

为什么 OCR 比普通转换慢？

OCR 需要逐像素分析每一页图片来识别字符，比直接读取已有文字层更耗时，文档越大耗时越长。