PDF2Word在线工具服务盘点暨我对SMZDM的一点新年愿望
创作立场声明:有感而发
昨天看到社区首页推荐了这么一篇文章《怎么把PDF文件转成Word?》,正好去年自己摸索过,于是抱着学习的态度,点了进去。结果。。。很失望,通篇流水账,连解决的思路、转换的效果都没有说清楚,硬生生将一个技术问题的解决写成了一篇旅游散文,恕我一枚认真的理工男不能苟同。
看到这位大佬好歹粉丝上万,于是好奇地翻了翻他的历史文章,好像有点懂了。最早写的那些,还挺像自己的生活分享;最近写的,全是”超强、必备、宝藏“,从保温杯、宠物用品到无线路由、英语静听、Office,这跨度真的大,搞不懂婚纱礼服这篇是混进来的命题作文?还是大佬能天天操办这个,XING福乐无边啊。再看看这发文的密度,整个一机关枪扫射啊,如果是我的话,感觉早就被掏空了,只剩佩服二字。
自从2018年开始写HiFi器材就发现:SMZDM可能是为了上市,拿出金币、实物、京东e卡等很多奖品鼓励新用户发文分享,一方面文章的数量和人流是多了,另一方面站内文章的水平有所下降,注水文比比皆是。SMZDM作者群里,经常能看到一些作者纯粹就是为了参加近期活动赶文拿金币的。如果大家仔细看文的话,还会发现一个有趣的现象,就是有的作者只写横评文,比如真无线耳机,他的名下全是各种真无线耳机的横向评测,什么双十一必买、年度最佳等等,但细读文章内容,却很少提及自己真实听感,甚至连实物照片都没有,全是厂家照片和官方介绍,洋洋洒洒一大篇。既能迅速提高自己的热度,又能帮网站拉取流量,站内搜索还能往前排,真是太聪明了。之前,我就向官方反映过这个问题,对文章的质量是不是要多加管理多加引导,让深耕的那些老农心里舒服一点,让喜欢的社友更有获得感呢。最近我的一个评论爆红再次证明群众的眼睛还是雪亮的,文章《瓦log 篇七十八:和渣男谈恋爱有多刺激? | 三亚4》一共94条评论,最热的那条就是我写的:我有
虽然SMZDM不是知乎,更偏重“生活分享”,但如果连起码认真的态度都没有,总觉得那里不对,也甚为遗憾,所以希望网站小编们在新一年能进一步提升文章质量,引导大家更好地分享,认真地分享,至少社区首页推荐的文章应该有所保证吧。
下面,言归正传,分享我对PDF转WORD的一些个人经验。
发现问题
其实,这个需求是近两年随着公文流转采用PDF文件才慢慢出现的。因为,有些文件需要反馈意见(又无法提供原始WORD文件),而最好的反馈方法往往是在原文件上进行修订。比较尴尬的是,这个需求并没有大到引发单位领导关注的地步,上头发文理所当然地默认每个人都可以搞定,所以单位每个电脑上会默认安装好Office办公软件,但不会特意安装PDF转WORD软件,最多帮你装一个PDF Reader了不起了。殊不知,WORD转PDF容易,再转回来远没有那么简单方便,尤其还要保留原来的格式便于后期编辑 (─.─|||
分析问题
作为一名偶尔用到这个功能的底层打工仔,那么我希望:
(1)方便,最好能傻瓜式的一键到底,无需添加额外的学习成本。
(2)高效。整个完成的过程耗时要短,得到的效果能满足基本的要求,尽量能保留原文的排版和格式,减少后期再整理的时间和精力。
(3)经济。最好是免费的,不要增加个人额外的支出。
从这三点考虑的话,像Adobe Acrobat Pro DC、ABBYY FineReader等软件就不是很合适,一方面不在单位默认配置的随机软件中,如果私自安装,可能会出现与单位软件冲突的风险;如果装正版,要自己付钱;如果装盗版,又要承担一定风险。另一方面,这些软件体积较大,有的老电脑拖不动,还需要额外的学习,所以像免费的在线服务应该是更好的解决方法。
为此,建立一个Word样张,对一些在线服务进行测试,看看哪家的综合体验最好。本来这个样张根据《党政机关公文格式国家标准(GBT9704-2012) 》建立是最好的,但日常接触的PDF文件没那么严肃,所以就选用了我自己的一篇评测文缩减为二页后作为了样张。包括:
❖ 标题:黑体、二号;
❖ 正文:微软
❖ 落款:微软雅黑,五号;
❖ 图文混排、超链接、表格、页码等等
用WORD 2010导出为PDF文件。WORD文件大小为1.1M,PDF文件为782K。Word原文如下图所示:
PDF文件如下图所示:
解决问题
测试网站:
1、超级PDF(传送门),不限页数,中文页面,速度极快,生成文件改名,588K
2、SmallPDF(传送门),英文页面,OCR收费,速度较快,生成文件改名,588K
3、ilovepdf(传送门),英文页面,速度极快,生成文件改名,588K
4、迅捷
5、Convertio(传送门),中文页面,支持300种文件格式间的转换,速度较快,生成文件改名,610K
6、Clever(传送门),中文页面,速度极快,生成文件不改名,447K
7、万兴(传送门),中文页面,速度较快,生成文件不改名,301K
8、PDF2Go(传送门),中文页面,可选OCR转换,可进一步编辑,速度较快,生成文件改名,588K
9、PDF24 Tools(传送门),英文页面,可Email结果,速度一般,生成文件不改名,542K
10、LightPDF(传送门),中文页面,可Email结果,速度较快,生成文件不改名,588K
11、Office-Converter(传送门),中文页面,最大3M,速度较快,生成文件不改名,425K
12、ConvertFiles(传送门),英文页面,最大250M,要手动选docx格式,支持300种文件格式间的转换,速度一般,生成文件改名,592K
13、CloudConvert(传送门),英文页面,需要注册(不然有时间限制),支持200种文件格式间的转换,速度较快,生成文件改名,592K
14、alltoall(传送门),中文页面,速度极快,生成文件改名,289K
实际测试中,不止以上这些网站,初选已经筛选过了一批。比如转换质量太差的,不支持中文的,乱码的;转换限制太多的;速度太慢的;套娃的,比如PDF派这个网站,从页面设计到转换结果都和Clever如出一辙,两者就合并同类项了。
测试项目说明:
识别:原文中中英文文字是否正确识别
格式:原文字体和格式是否正确还原
颜色:原文字体颜色、黄色标注是否正确还原
图文:原文图文混排是否正确还原;图片质量是否未见明显下降
超链接:原文超链接是否正确还原
表格:原文表格是否正确还原
页码:原文页码是否正确还原
打分标准:
5分,非常好,几乎无需后期再整理
4分,很好,但有瑕疵
3分,基本能用
2分,有重大错误
1分,无法使用
原始样张和所有转换结果可从这里下载,供大家详读。我就不在这里一一放截图了。
链接 提取码: 4gpq
通过本次测试,可以发现:
(1)中英文OCR识别的正确率都非常高,基本不用后期修正,说明近些年ORC技术的提高很快。
(2)字体格式的转换差异较大,多数网站未能正确识别标题的黑体,只有万兴的正确识别为“黑体”,Convertio也算不容易,识别为“微软雅黑”。像SmallPDF等极少数网站直接用一个字体(比如宋体)替换了PDF中所有字体。
对字体格式的表述也存在差异,影响文档的兼容性。比如,不少网站(可能用的国外转换引擎)标注的字体格式为“YaHei”而不是中文名称“微软雅黑”,造成在WORD2007中打开显示为“宋体”。这个也是某些软件在格式一列扣分较多的主要因素。
像迅捷这样的转换结果,是将每段文字作为一个文本框处理的,虽然看上去和原Word文件排版位置一样,实际上后期调整起来会非常麻烦。ABBYY FineReader在转换复杂WORD文件时,也会用这个方法,所以有很多东西不是看看就能明白的,只有认真做过才能知道其中的差别,避免入坑。
(3)除少数网站,字体颜色、黄色标注都能正确转换。
(4)图文混排容易出现的问题是在第二张图片环绕的文字部分,经常会出现文字被图片遮挡或者过于贴近图片的情形。
(5)超链接的转换基本正确。万兴因为横线有点高,扣了0.1分。Convertio落款处的网址和邮件地址两个超链接并排了,少了一个换行,扣了0.5分。
(6)表格转换的正确率出乎我的预期,比前几年好太多了,进步明显。只有PDF2Go出现了混乱的错版。
(7)页码的转换,一半网站转换正确,另一半转换为文本框了。
(8)转换前后的文件大小可以看出,PDF对图片进行了压缩,还原后的WORD文件普遍比之前的小。
总结
从测试结果来看,我个人感觉国内厂商的技术水平比前几年有不小提高,而且对中文的支持往往更好。去年我测试第一名的Clever,今年表现平平,有所退步。如果对页码要求不高的,首推万兴的在线服务,字体格式的识别率最高,图文混排、表格等方面的转换也相当出色,基本无需后期再整离。其次,Convertio的转换结果也相当不错,只是因为多了一行造成了跨页错版,调整起来还是很方便的。如果需要页码的,则超级PDF和ilovePDF更好一些,但个别字体格式可能需要自己后期调整。
昨天看到社区推文后有感而发,希望本文能帮到那些和我有同样需求的朋友们。虽然同样的测试在去年就做过,但还是花了一个晚上重新排摸了一边,记录结果,完善素材。今天早上完成了撰写和排版。对于喜欢的事情,还是应该仔细想认真做,多一点深度,少一点水份,让分享更有料,让自己更快乐 (^o^)
阿明Amin 「原创」

xshhome
校验提示文案
uwin
转化的问题
在线,保密性何来?
还有ABBYY怎么增加字体啊?
校验提示文案
yin2263
校验提示文案
小不点吃鱼
校验提示文案
Down
校验提示文案
南山317
校验提示文案
yin2263
校验提示文案
南山317
校验提示文案
uwin
转化的问题
在线,保密性何来?
还有ABBYY怎么增加字体啊?
校验提示文案
小不点吃鱼
校验提示文案
Down
校验提示文案
xshhome
校验提示文案