返回博客
博客

Markdown 转换常见问题:格式丢失怎么办?

发布于 2025年1月14日更新于 2025年12月13日约 6 分钟阅读
#格式丢失#Markdown转换#表格修复#图片找回#doc2markdown
Markdown 转换常见问题:格式丢失怎么办?

为什么格式总是不听话?

说实话,每次把 Word 或 PDF 转成 Markdown,心里都得捏把汗。上周帮同事转一份 50 页的技术文档,满心欢喜以为一键搞定,结果打开一看:表格炸成了乱码,流程图直接消失,连代码块的缩进都没了。是不是很崩溃?

其实,Markdown 的设计初衷是"轻量化",它天生就不支持 Word 那些花里胡哨的排版。但别慌,这几年我踩过无数坑,总结了几个稳得很的解决办法。

痛点一:表格变成了"天书"

这是最常见的问题。Word 里的复杂表格(合并单元格、多行表头),转过来往往面目全非。

解决方法

如果你用的是 Pandoc,试着加个参数:

pandoc input.docx -f docx -t gfm --extract-media=./media -o output.md

这就好比给转换器换了个"高清镜头"。如果还是乱,我强烈推荐一个笨办法但贼好用:把复杂表格截图。与其花 1 小时调 Markdown 表格语法,不如 1 分钟截图贴上去,既保真又省事。

当然,doc2markdown.com 最近优化的表格引擎也不错,它会自动把合并单元格拆解成标准 Markdown 格式,虽然没法 100% 还原,但至少能看懂了。

痛点二:图片离家出走

"明明 Word 里有图,转出来怎么只剩个文件名了?"

这是因为 Markdown 本身不存图片,它只存链接。转换时,图片得被提取出来存到某个文件夹里。

怎么找回图片?

  1. 使用提取参数:像上面提到的 --extract-media,它会自动把图片“扣”出来放到文件夹里。
  2. 绝对路径 vs 相对路径:很多时候图没丢,只是路径指错了。检查一下 ![]() 里的路径,是不是写成了绝对路径但发给别人时路径变了?建议统一用相对路径,比如 images/pic1.png

痛点三:特殊符号变乱码

遇到过 © 变成 `` 吗?或者是数学公式 $\alpha$ 直接显示源码?

这通常是编码问题。确保你的源文件和编辑器都使用 UTF-8 编码。对于数学公式,要是转换工具支持 MathJax 最好,不支持的话,建议用 LaTeX 语法包裹起来,大部分现代 Markdown 编辑器都能渲染。

终极建议:选对工具省一半力

手动修补格式真的很累。如果你的文档里全是复杂格式,建议:

  1. 源头简化:在 Word 里先把格式“洗”一遍,去掉无用的样式。
  2. 用专业工具:别迷信万能转换器。转论文就用专门针对 LaTeX 优化的工具,转博客就用 doc2markdown 这种针对 Web 优化的。

格式转换没有银弹,但掌握了这些技巧,至少能让你少加几个班。下次再遇到格式乱飞,先别急着重写,试试这些招!

返回博客
标签:格式丢失, Markdown转换