PDF 转 Markdown 完整指南：保留格式和图片

为什么 PDF 转 Markdown 这么难？

说实话，PDF 转 Markdown 比 Word 转 Markdown 麻烦多了。我之前试过好几个工具，要么图片丢了，要么表格变形，要么格式全乱。

主要难点有三个：

1. 格式识别问题

PDF 本质上是一堆坐标定位的文字和图形，没有结构化的标签。转换工具需要"猜"哪些是标题、哪些是正文、哪些是列表。

我有个朋友要转换学术论文，结果脚注、引用全混在一起，根本没法用。后来用了 doc2markdown.com，识别率能到 90% 以上。

2. 图片提取困难

PDF 里的图片有两种情况：

嵌入式图片：相对好提取
矢量图形：需要转换成位图，很容易失真

特别是那种带标注、带箭头的示意图，转换后经常丢细节。

3. 表格结构复杂

PDF 里的表格不是真正的表格，只是用线条画出来的。转换工具需要识别单元格边界，稍微复杂点的合并单元格就容易出错。

使用 doc2markdown.com 在线转换

试过几个工具后，我发现 doc2markdown.com 是最靠谱的。操作很简单：

基本转换流程

上传 PDF：打开 doc2markdown.com，拖拽 PDF 文件进去
等待处理：一般 10-30 秒，看文件大小
预览结果：在线预览转换后的 Markdown
下载文件：满意的话直接下载 .md 文件

实测效果

我拿了一份 20 页的技术文档测试：

格式保留：标题、列表、代码块基本完整
图片处理：12 张图片全部提取成功，自动转成 Base64 嵌入
表格转换：3 个表格，2 个完美转换，1 个有点小问题（合并单元格的地方）
转换时间：23 秒

比我之前用过的 Pandoc 和某些付费工具都好。

处理复杂 PDF 的技巧

扫描版 PDF

扫描版 PDF 本质上是图片，没有可选中的文字。这种情况有两个办法：

方法 1：先做 OCR

用 Adobe Acrobat 或者在线 OCR 工具（比如 ocr.space）先把扫描版转成可搜索的 PDF，然后再转 Markdown。

我试过一份扫描的古籍资料，OCR 后准确率大概 85%，然后再用 doc2markdown.com 转换，基本能用。

方法 2：接受图片格式

If 只是为了保存内容，可以直接把 PDF 页面转成图片嵌入 Markdown。虽然不能编辑，但至少保留了原样。

多栏布局 PDF

学术论文、杂志常用的两栏或三栏布局，转换时最容易出错。文字顺序经常乱掉。

解决办法：

调整阅读顺序：有些 PDF 编辑器可以设置文字流顺序，转换前先调整好
分段转换：把 PDF 按栏切分成单栏，分别转换后再合并
手动修正：转换后检查一遍，重新调整段落顺序

我有次转换一份双栏的研究报告，前 5 页顺序完全乱了。后来用 Adobe Acrobat 调整了阅读顺序，重新转换就正常了。

带水印和页眉页脚的 PDF

PDF 里的水印、页眉、页脚在转换时会被识别成正文，很烦人。

处理方式：

转换前清理：用 PDF 编辑器先删掉水印和页眉页脚
转换后删除：在 Markdown 文件里用正则表达式批量删除重复内容

例如页码通常是 Page 1 of 10 这种格式，用正则 Page \d+ of \d+ 就能批量删除。

真实案例：学术论文转换

去年帮一个朋友转换了他的博士论文（150 页 PDF）到 Markdown，用于发布到个人博客。

遇到的问题

数学公式：论文里有大量 LaTeX 公式，转换后变成乱码
参考文献：200+ 条引用，格式混乱
图表：60 多张图，部分是矢量图

解决方案

公式处理：
- 用 doc2markdown.com 转换，保留了 70% 的公式
- 剩下 30% 手动用 MathJax 语法重写
- 最终效果还不错，网页能正常显示
参考文献：
- 转换后统一格式混乱，决定重新排版
- 用正则表达式提取作者、年份、标题
- 统一改成 Markdown 列表格式
图表处理：
- 矢量图在转换时自动转成 PNG，分辨率够用
- 个别复杂图表单独导出高清版替换

最终效果

总共花了 3 天时间（主要是手动调整公式和参考文献）。转换后的 Markdown 文件：

大小：从 15MB PDF 变成 2.5MB 文本 + 8MB 图片
格式：完整保留章节结构、代码块、表格
可读性：比 PDF 强太多，手机上也能流畅阅读

现在他的论文在 GitHub 上有 300+ Star，好几个人说比看 PDF 方便多了。

格式丢失的常见问题

问题 1：代码块识别错误

现象：PDF 里的代码块被识别成普通文本，缩进全没了。

解决：

转换后手动加上 Markdown 代码块标记（三个反引号）
用 Prettier 或类似工具重新格式化代码

问题 2：链接丢失

现象：PDF 里的超链接在转换后变成普通文字。

解决：

doc2markdown.com 会尽量保留链接，但不是 100%
重要链接建议转换后检查一遍，手动补上

问题 3：特殊字符乱码

现象：中文引号、破折号等特殊字符变成问号或方框。

解决：

通常是编码问题，保存 Markdown 文件时用 UTF-8 编码
如果还有问题，用文本编辑器批量替换

什么情况不建议转 Markdown

PDF 转 Markdown 不是万能的，这几种情况我不推荐转：

1. 复杂排版的电子书

那种花里胡哨、排版精美的电子书，转成 Markdown 会丢失大量设计感。如果只是为了阅读，直接看 PDF 更好。

2. 扫描质量很差的文档

模糊、倾斜、有污渍的扫描件，OCR 识别率太低，转换后错误一堆，还不如重新打字。

3. 图片为主的 PDF

If PDF 90% 是图片（比如漫画、画册），转 Markdown 没意义，直接保存图片就行。

总结

PDF 转 Markdown 确实有难度，但用对工具能省很多事。doc2markdown.com 在格式保留、图片提取、表格转换方面做得不错，大部分情况下够用了。

适合转换的场景：

技术文档、教程
学术论文（需要手动调整公式）
工作报告、说明书
需要在线展示的 PDF 内容

转换后记得检查：

标题层级是否正确
图片是否完整
表格格式是否对齐
代码块是否有语法高亮
链接是否有效

如果是简单文档，转换后基本不用改。复杂文档可能需要 10-30% 的手动调整，但总比从头写省力多了。