为什么 PDF 转 Markdown 这么难?
说实话,PDF 转 Markdown 比 Word 转 Markdown 麻烦多了。我之前试过好几个工具,要么图片丢了,要么表格变形,要么格式全乱。
主要难点有三个:
1. 格式识别问题
PDF 本质上是一堆坐标定位的文字和图形,没有结构化的标签。转换工具需要"猜"哪些是标题、哪些是正文、哪些是列表。
我有个朋友要转换学术论文,结果脚注、引用全混在一起,根本没法用。后来用了 doc2markdown.com,识别率能到 90% 以上。
2. 图片提取困难
PDF 里的图片有两种情况:
- 嵌入式图片:相对好提取
- 矢量图形:需要转换成位图,很容易失真
特别是那种带标注、带箭头的示意图,转换后经常丢细节。
3. 表格结构复杂
PDF 里的表格不是真正的表格,只是用线条画出来的。转换工具需要识别单元格边界,稍微复杂点的合并单元格就容易出错。
使用 doc2markdown.com 在线转换
试过几个工具后,我发现 doc2markdown.com 是最靠谱的。操作很简单:
基本转换流程
- 上传 PDF:打开 doc2markdown.com,拖拽 PDF 文件进去
- 等待处理:一般 10-30 秒,看文件大小
- 预览结果:在线预览转换后的 Markdown
- 下载文件:满意的话直接下载 .md 文件
实测效果
我拿了一份 20 页的技术文档测试:
- 格式保留:标题、列表、代码块基本完整
- 图片处理:12 张图片全部提取成功,自动转成 Base64 嵌入
- 表格转换:3 个表格,2 个完美转换,1 个有点小问题(合并单元格的地方)
- 转换时间:23 秒
比我之前用过的 Pandoc 和某些付费工具都好。
处理复杂 PDF 的技巧
扫描版 PDF
扫描版 PDF 本质上是图片,没有可选中的文字。这种情况有两个办法:
方法 1:先做 OCR
用 Adobe Acrobat 或者在线 OCR 工具(比如 ocr.space)先把扫描版转成可搜索的 PDF,然后再转 Markdown。
我试过一份扫描的古籍资料,OCR 后准确率大概 85%,然后再用 doc2markdown.com 转换,基本能用。
方法 2:接受图片格式
If 只是为了保存内容,可以直接把 PDF 页面转成图片嵌入 Markdown。虽然不能编辑,但至少保留了原样。
多栏布局 PDF
学术论文、杂志常用的两栏或三栏布局,转换时最容易出错。文字顺序经常乱掉。
解决办法:
- 调整阅读顺序:有些 PDF 编辑器可以设置文字流顺序,转换前先调整好
- 分段转换:把 PDF 按栏切分成单栏,分别转换后再合并
- 手动修正:转换后检查一遍,重新调整段落顺序
我有次转换一份双栏的研究报告,前 5 页顺序完全乱了。后来用 Adobe Acrobat 调整了阅读顺序,重新转换就正常了。
带水印和页眉页脚的 PDF
PDF 里的水印、页眉、页脚在转换时会被识别成正文,很烦人。
处理方式:
- 转换前清理:用 PDF 编辑器先删掉水印和页眉页脚
- 转换后删除:在 Markdown 文件里用正则表达式批量删除重复内容
例如页码通常是 Page 1 of 10 这种格式,用正则 Page \d+ of \d+ 就能批量删除。
真实案例:学术论文转换
去年帮一个朋友转换了他的博士论文(150 页 PDF)到 Markdown,用于发布到个人博客。
遇到的问题
- 数学公式:论文里有大量 LaTeX 公式,转换后变成乱码
- 参考文献:200+ 条引用,格式混乱
- 图表:60 多张图,部分是矢量图
解决方案
-
公式处理:
- 用 doc2markdown.com 转换,保留了 70% 的公式
- 剩下 30% 手动用 MathJax 语法重写
- 最终效果还不错,网页能正常显示
-
参考文献:
- 转换后统一格式混乱,决定重新排版
- 用正则表达式提取作者、年份、标题
- 统一改成 Markdown 列表格式
-
图表处理:
- 矢量图在转换时自动转成 PNG,分辨率够用
- 个别复杂图表单独导出高清版替换
最终效果
总共花了 3 天时间(主要是手动调整公式和参考文献)。转换后的 Markdown 文件:
- 大小:从 15MB PDF 变成 2.5MB 文本 + 8MB 图片
- 格式:完整保留章节结构、代码块、表格
- 可读性:比 PDF 强太多,手机上也能流畅阅读
现在他的论文在 GitHub 上有 300+ Star,好几个人说比看 PDF 方便多了。
格式丢失的常见问题
问题 1:代码块识别错误
现象:PDF 里的代码块被识别成普通文本,缩进全没了。
解决:
- 转换后手动加上 Markdown 代码块标记(三个反引号)
- 用 Prettier 或类似工具重新格式化代码
问题 2:链接丢失
现象:PDF 里的超链接在转换后变成普通文字。
解决:
- doc2markdown.com 会尽量保留链接,但不是 100%
- 重要链接建议转换后检查一遍,手动补上
问题 3:特殊字符乱码
现象:中文引号、破折号等特殊字符变成问号或方框。
解决:
- 通常是编码问题,保存 Markdown 文件时用 UTF-8 编码
- 如果还有问题,用文本编辑器批量替换
什么情况不建议转 Markdown
PDF 转 Markdown 不是万能的,这几种情况我不推荐转:
1. 复杂排版的电子书
那种花里胡哨、排版精美的电子书,转成 Markdown 会丢失大量设计感。如果只是为了阅读,直接看 PDF 更好。
2. 扫描质量很差的文档
模糊、倾斜、有污渍的扫描件,OCR 识别率太低,转换后错误一堆,还不如重新打字。
3. 图片为主的 PDF
If PDF 90% 是图片(比如漫画、画册),转 Markdown 没意义,直接保存图片就行。
总结
PDF 转 Markdown 确实有难度,但用对工具能省很多事。doc2markdown.com 在格式保留、图片提取、表格转换方面做得不错,大部分情况下够用了。
适合转换的场景:
- 技术文档、教程
- 学术论文(需要手动调整公式)
- 工作报告、说明书
- 需要在线展示的 PDF 内容
转换后记得检查:
- 标题层级是否正确
- 图片是否完整
- 表格格式是否对齐
- 代码块是否有语法高亮
- 链接是否有效
如果是简单文档,转换后基本不用改。复杂文档可能需要 10-30% 的手动调整,但总比从头写省力多了。