PDF2Word在线工具服务盘点暨我对SMZDM的一点新年愿望

2021-02-25 20:10:48 20点赞 107收藏 9评论

创作立场声明:有感而发

昨天看到社区首页推荐了这么一篇文章《怎么把PDF文件转成Word?》,正好去年自己摸索过,于是抱着学习的态度,点了进去。结果。。。很失望,通篇流水账,连解决的思路、转换的效果都没有说清楚,硬生生将一个技术问题的解决写成了一篇旅游散文,恕我一枚认真的理工男不能苟同。

PDF2Word在线工具服务盘点暨我对SMZDM的一点新年愿望

看到这位大佬好歹粉丝上万,于是好奇地翻了翻他的历史文章,好像有点懂了。最早写的那些,还挺像自己的生活分享;最近写的,全是”超强、必备、宝藏“,从保温杯、宠物用品到无线路由、英语静听、Office,这跨度真的大,搞不懂婚纱礼服这篇是混进来的命题作文?还是大佬能天天操办这个,XING福乐无边啊。再看看这发文的密度,整个一机关枪扫射啊,如果是我的话,感觉早就被掏空了,只剩佩服二字。

PDF2Word在线工具服务盘点暨我对SMZDM的一点新年愿望

自从2018年开始写HiFi器材就发现:SMZDM可能是为了上市,拿出金币、实物、京东e卡等很多奖品鼓励新用户发文分享,一方面文章的数量和人流是多了,另一方面站内文章的水平有所下降,注水文比比皆是。SMZDM作者群里,经常能看到一些作者纯粹就是为了参加近期活动赶文拿金币的。如果大家仔细看文的话,还会发现一个有趣的现象,就是有的作者只写横评文,比如真无线耳机,他的名下全是各种真无线耳机的横向评测,什么双十一必买、年度最佳等等,但细读文章内容,却很少提及自己真实听感,甚至连实物照片都没有,全是厂家照片和官方介绍,洋洋洒洒一大篇。既能迅速提高自己的热度,又能帮网站拉取流量,站内搜索还能往前排,真是太聪明了。之前,我就向官方反映过这个问题,对文章的质量是不是要多加管理多加引导,让深耕的那些老农心里舒服一点,让喜欢的社友更有获得感呢。最近我的一个评论爆红再次证明群众的眼睛还是雪亮的,文章《瓦log 篇七十八:和渣男谈恋爱有多刺激? | 三亚4》一共94条评论,最热的那条就是我写的:我有

关注
品牌
粉丝:

  • 商品百科

  • 好价

  • 社区文章

一丝恍惚,这是“什么值得买”。。。。这都买了什么??现在开始深夜直播节目了吗?


虽然SMZDM不是知乎,更偏重“生活分享”,但如果连起码认真的态度都没有,总觉得那里不对,也甚为遗憾,所以希望网站小编们在新一年能进一步提升文章质量,引导大家更好地分享,认真地分享,至少社区首页推荐的文章应该有所保证吧。


下面,言归正传,分享我对PDF转WORD的一些个人经验。


发现问题


其实,这个需求是近两年随着公文流转采用PDF文件才慢慢出现的。因为,有些文件需要反馈意见(又无法提供原始WORD文件),而最好的反馈方法往往是在原文件上进行修订。比较尴尬的是,这个需求并没有大到引发单位领导关注的地步,上头发文理所当然地默认每个人都可以搞定,所以单位每个电脑上会默认安装好Office办公软件,但不会特意安装PDF转WORD软件,最多帮你装一个PDF Reader了不起了。殊不知,WORD转PDF容易,再转回来远没有那么简单方便,尤其还要保留原来的格式便于后期编辑 (─.─|||


分析问题


作为一名偶尔用到这个功能的底层打工仔,那么我希望:
(1)方便,最好能傻瓜式的一键到底,无需添加额外的学习成本。
(2)高效。整个完成的过程耗时要短,得到的效果能满足基本的要求,尽量能保留原文的排版和格式,减少后期再整理的时间和精力。
(3)经济。最好是免费的,不要增加个人额外的支出。

从这三点考虑的话,像Adobe Acrobat Pro DC、ABBYY FineReader等软件就不是很合适,一方面不在单位默认配置的随机软件中,如果私自安装,可能会出现与单位软件冲突的风险;如果装正版,要自己付钱;如果装盗版,又要承担一定风险。另一方面,这些软件体积较大,有的老电脑拖不动,还需要额外的学习,所以像免费的在线服务应该是更好的解决方法。

为此,建立一个Word样张,对一些在线服务进行测试,看看哪家的综合体验最好。本来这个样张根据《党政机关公文格式国家标准(GBT9704-2012) 》建立是最好的,但日常接触的PDF文件没那么严肃,所以就选用了我自己的一篇评测文缩减为二页后作为了样张。包括:
❖ 标题:黑体、二号;
❖ 正文:微软

关注
品牌
粉丝:

  • 商品百科

  • 好价

  • 社区文章

雅黑,四号;字体颜色;亮色标注;
❖ 落款:微软雅黑,五号;
❖ 图文混排、超链接、表格、页码等等

用WORD 2010导出为PDF文件。WORD文件大小为1.1M,PDF文件为782K。Word原文如下图所示:

PDF2Word在线工具服务盘点暨我对SMZDM的一点新年愿望

PDF文件如下图所示:

PDF2Word在线工具服务盘点暨我对SMZDM的一点新年愿望


解决问题


测试网站

1、超级PDF(传送门),不限页数,中文页面,速度极快,生成文件改名,588K
2、SmallPDF(传送门),英文页面,OCR收费,速度较快,生成文件改名,588K
3、ilovepdf(传送门),英文页面,速度极快,生成文件改名,588K
4、迅捷

关注
品牌
粉丝:

  • 商品百科

  • 好价

  • 社区文章

传送门),中文页面,自定义设置,最大2M,速度较快,生成文件改名,122K
5、Convertio(传送门),中文页面,支持300种文件格式间的转换,速度较快,生成文件改名,610K
6、Clever(传送门),中文页面,速度极快,生成文件不改名,447K
7、万兴(传送门),中文页面,速度较快,生成文件不改名,301K
8、PDF2Go(传送门),中文页面,可选OCR转换,可进一步编辑,速度较快,生成文件改名,588K
9、PDF24 Tools(传送门),英文页面,可Email结果,速度一般,生成文件不改名,542K
10、LightPDF(传送门),中文页面,可Email结果,速度较快,生成文件不改名,588K
11、Office-Converter(传送门),中文页面,最大3M,速度较快,生成文件不改名,425K
12、ConvertFiles(传送门),英文页面,最大250M,要手动选docx格式,支持300种文件格式间的转换,速度一般,生成文件改名,592K
13、CloudConvert(传送门),英文页面,需要注册(不然有时间限制),支持200种文件格式间的转换,速度较快,生成文件改名,592K
14、alltoall(传送门),中文页面,速度极快,生成文件改名,289K

实际测试中,不止以上这些网站,初选已经筛选过了一批。比如转换质量太差的,不支持中文的,乱码的;转换限制太多的;速度太慢的;套娃的,比如PDF派这个网站,从页面设计到转换结果都和Clever如出一辙,两者就合并同类项了。

测试项目说明

识别:原文中中英文文字是否正确识别
格式:原文字体和格式是否正确还原
颜色:原文字体颜色、黄色标注是否正确还原
图文:原文图文混排是否正确还原;图片质量是否未见明显下降
超链接:原文超链接是否正确还原
表格:原文表格是否正确还原
页码:原文页码是否正确还原

打分标准

5分,非常好,几乎无需后期再整理
4分,很好,但有瑕疵
3分,基本能用
2分,有重大错误
1分,无法使用

PDF2Word在线工具服务盘点暨我对SMZDM的一点新年愿望

原始样张和所有转换结果可从这里下载,供大家详读。我就不在这里一一放截图了。
链接 提取码: 4gpq


通过本次测试,可以发现:
(1)中英文OCR识别的正确率都非常高,基本不用后期修正,说明近些年ORC技术的提高很快。
(2)字体格式的转换差异较大,多数网站未能正确识别标题的黑体,只有万兴的正确识别为“黑体”,Convertio也算不容易,识别为“微软雅黑”。像SmallPDF等极少数网站直接用一个字体(比如宋体)替换了PDF中所有字体。
对字体格式的表述也存在差异,影响文档的兼容性。比如,不少网站(可能用的国外转换引擎)标注的字体格式为“YaHei”而不是中文名称“微软雅黑”,造成在WORD2007中打开显示为“宋体”。这个也是某些软件在格式一列扣分较多的主要因素。
像迅捷这样的转换结果,是将每段文字作为一个文本框处理的,虽然看上去和原Word文件排版位置一样,实际上后期调整起来会非常麻烦。ABBYY FineReader在转换复杂WORD文件时,也会用这个方法,所以有很多东西不是看看就能明白的,只有认真做过才能知道其中的差别,避免入坑。

迅捷转换结果迅捷转换结果

(3)除少数网站,字体颜色、黄色标注都能正确转换。
(4)图文混排容易出现的问题是在第二张图片环绕的文字部分,经常会出现文字被图片遮挡或者过于贴近图片的情形。
(5)超链接的转换基本正确。万兴因为横线有点高,扣了0.1分。Convertio落款处的网址和邮件地址两个超链接并排了,少了一个换行,扣了0.5分。
(6)表格转换的正确率出乎我的预期,比前几年好太多了,进步明显。只有PDF2Go出现了混乱的错版。
(7)页码的转换,一半网站转换正确,另一半转换为文本框了。
(8)转换前后的文件大小可以看出,PDF对图片进行了压缩,还原后的WORD文件普遍比之前的小。


总结

从测试结果来看,我个人感觉国内厂商的技术水平比前几年有不小提高,而且对中文的支持往往更好。去年我测试第一名的Clever,今年表现平平,有所退步。如果对页码要求不高的,首推万兴的在线服务,字体格式的识别率最高,图文混排、表格等方面的转换也相当出色,基本无需后期再整离。其次,Convertio的转换结果也相当不错,只是因为多了一行造成了跨页错版,调整起来还是很方便的。如果需要页码的,则超级PDF和ilovePDF更好一些,但个别字体格式可能需要自己后期调整。

万兴转换结果万兴转换结果

昨天看到社区推文后有感而发,希望本文能帮到那些和我有同样需求的朋友们。虽然同样的测试在去年就做过,但还是花了一个晚上重新排摸了一边,记录结果,完善素材。今天早上完成了撰写和排版。对于喜欢的事情,还是应该仔细想认真做,多一点深度,少一点水份,让分享更有料,让自己更快乐 (^o^)



阿明Amin 「原创」

文章很值,打赏犒劳作者一下

打赏
11人已打赏
9评论

  • 精彩
  • 最新
  • 为前面的话打赏

    校验提示文案

    提交
    谢谢,大家共同努力吧。

    校验提示文案

    提交
    收起所有回复
  • 楼主第一段可以单独发个帖子,现在确实水文学太多了!
    转化的问题
    在线,保密性何来?
    还有ABBYY怎么增加字体啊?

    校验提示文案

    提交
    我平时接触的文件基本没有密级,就是工作用的。ABBYY,我用的时候几种基础字体都可以正确识别。

    校验提示文案

    提交
    收起所有回复
  • 给你个一键三连。

    校验提示文案

    提交
    谢谢 [高兴] ,希望今年更好

    校验提示文案

    提交
    收起所有回复
  • 赞一个,大部分文章越来越水了,小编也是各种抄来的文章,还是各种标题党

    校验提示文案

    提交
  • 赞!!!的确是一堆莫名奇妙的文章,保持初心很重要

    校验提示文案

    提交
  • wps不香么

    校验提示文案

    提交
提示信息

取消
确认
评论举报

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
107
扫一下,分享更方便,购买更轻松

举报成功

该举报信息「小小值」会优先核实并处理哦!