返回博客
博客

PDF 转 Markdown 完整指南:保留格式和图片

发布于 2025年1月14日约 8 分钟阅读
#PDF转Markdown#文档转换#在线转换工具#格式保留
PDF 转 Markdown 完整指南:保留格式和图片

为什么 PDF 转 Markdown 这么难?

说实话,PDF 转 Markdown 比 Word 转 Markdown 麻烦多了。我之前试过好几个工具,要么图片丢了,要么表格变形,要么格式全乱。

主要难点有三个:

1. 格式识别问题

PDF 本质上是一堆坐标定位的文字和图形,没有结构化的标签。转换工具需要"猜"哪些是标题、哪些是正文、哪些是列表。

我有个朋友要转换学术论文,结果脚注、引用全混在一起,根本没法用。后来用了 doc2markdown.com,识别率能到 90% 以上。

2. 图片提取困难

PDF 里的图片有两种情况:

  • 嵌入式图片:相对好提取
  • 矢量图形:需要转换成位图,很容易失真

特别是那种带标注、带箭头的示意图,转换后经常丢细节。

3. 表格结构复杂

PDF 里的表格不是真正的表格,只是用线条画出来的。转换工具需要识别单元格边界,稍微复杂点的合并单元格就容易出错。

使用 doc2markdown.com 在线转换

试过几个工具后,我发现 doc2markdown.com 是最靠谱的。操作很简单:

基本转换流程

  1. 上传 PDF:打开 doc2markdown.com,拖拽 PDF 文件进去
  2. 等待处理:一般 10-30 秒,看文件大小
  3. 预览结果:在线预览转换后的 Markdown
  4. 下载文件:满意的话直接下载 .md 文件

实测效果

我拿了一份 20 页的技术文档测试:

  • 格式保留:标题、列表、代码块基本完整
  • 图片处理:12 张图片全部提取成功,自动转成 Base64 嵌入
  • 表格转换:3 个表格,2 个完美转换,1 个有点小问题(合并单元格的地方)
  • 转换时间:23 秒

比我之前用过的 Pandoc 和某些付费工具都好。

处理复杂 PDF 的技巧

扫描版 PDF

扫描版 PDF 本质上是图片,没有可选中的文字。这种情况有两个办法:

方法 1:先做 OCR

用 Adobe Acrobat 或者在线 OCR 工具(比如 ocr.space)先把扫描版转成可搜索的 PDF,然后再转 Markdown。

我试过一份扫描的古籍资料,OCR 后准确率大概 85%,然后再用 doc2markdown.com 转换,基本能用。

方法 2:接受图片格式

If 只是为了保存内容,可以直接把 PDF 页面转成图片嵌入 Markdown。虽然不能编辑,但至少保留了原样。

多栏布局 PDF

学术论文、杂志常用的两栏或三栏布局,转换时最容易出错。文字顺序经常乱掉。

解决办法

  1. 调整阅读顺序:有些 PDF 编辑器可以设置文字流顺序,转换前先调整好
  2. 分段转换:把 PDF 按栏切分成单栏,分别转换后再合并
  3. 手动修正:转换后检查一遍,重新调整段落顺序

我有次转换一份双栏的研究报告,前 5 页顺序完全乱了。后来用 Adobe Acrobat 调整了阅读顺序,重新转换就正常了。

带水印和页眉页脚的 PDF

PDF 里的水印、页眉、页脚在转换时会被识别成正文,很烦人。

处理方式

  • 转换前清理:用 PDF 编辑器先删掉水印和页眉页脚
  • 转换后删除:在 Markdown 文件里用正则表达式批量删除重复内容

例如页码通常是 Page 1 of 10 这种格式,用正则 Page \d+ of \d+ 就能批量删除。

真实案例:学术论文转换

去年帮一个朋友转换了他的博士论文(150 页 PDF)到 Markdown,用于发布到个人博客。

遇到的问题

  1. 数学公式:论文里有大量 LaTeX 公式,转换后变成乱码
  2. 参考文献:200+ 条引用,格式混乱
  3. 图表:60 多张图,部分是矢量图

解决方案

  1. 公式处理

    • 用 doc2markdown.com 转换,保留了 70% 的公式
    • 剩下 30% 手动用 MathJax 语法重写
    • 最终效果还不错,网页能正常显示
  2. 参考文献

    • 转换后统一格式混乱,决定重新排版
    • 用正则表达式提取作者、年份、标题
    • 统一改成 Markdown 列表格式
  3. 图表处理

    • 矢量图在转换时自动转成 PNG,分辨率够用
    • 个别复杂图表单独导出高清版替换

最终效果

总共花了 3 天时间(主要是手动调整公式和参考文献)。转换后的 Markdown 文件:

  • 大小:从 15MB PDF 变成 2.5MB 文本 + 8MB 图片
  • 格式:完整保留章节结构、代码块、表格
  • 可读性:比 PDF 强太多,手机上也能流畅阅读

现在他的论文在 GitHub 上有 300+ Star,好几个人说比看 PDF 方便多了。

格式丢失的常见问题

问题 1:代码块识别错误

现象:PDF 里的代码块被识别成普通文本,缩进全没了。

解决

  • 转换后手动加上 Markdown 代码块标记(三个反引号)
  • 用 Prettier 或类似工具重新格式化代码

问题 2:链接丢失

现象:PDF 里的超链接在转换后变成普通文字。

解决

  • doc2markdown.com 会尽量保留链接,但不是 100%
  • 重要链接建议转换后检查一遍,手动补上

问题 3:特殊字符乱码

现象:中文引号、破折号等特殊字符变成问号或方框。

解决

  • 通常是编码问题,保存 Markdown 文件时用 UTF-8 编码
  • 如果还有问题,用文本编辑器批量替换

什么情况不建议转 Markdown

PDF 转 Markdown 不是万能的,这几种情况我不推荐转:

1. 复杂排版的电子书

那种花里胡哨、排版精美的电子书,转成 Markdown 会丢失大量设计感。如果只是为了阅读,直接看 PDF 更好。

2. 扫描质量很差的文档

模糊、倾斜、有污渍的扫描件,OCR 识别率太低,转换后错误一堆,还不如重新打字。

3. 图片为主的 PDF

If PDF 90% 是图片(比如漫画、画册),转 Markdown 没意义,直接保存图片就行。

总结

PDF 转 Markdown 确实有难度,但用对工具能省很多事。doc2markdown.com 在格式保留、图片提取、表格转换方面做得不错,大部分情况下够用了。

适合转换的场景

  • 技术文档、教程
  • 学术论文(需要手动调整公式)
  • 工作报告、说明书
  • 需要在线展示的 PDF 内容

转换后记得检查

  • 标题层级是否正确
  • 图片是否完整
  • 表格格式是否对齐
  • 代码块是否有语法高亮
  • 链接是否有效

如果是简单文档,转换后基本不用改。复杂文档可能需要 10-30% 的手动调整,但总比从头写省力多了。

返回博客
标签:PDF转Markdown, 文档转换