硬核攻略 篇七:「科普」当我们在谈论PDF时我们在谈论什么(附移动端PDF阅读器测评)
PDF 已经是我们最常接触到的文件格式之一,但许多人仍然对 PDF 还是一知半解,比如 PDF 有什么优势?PDF 为什么没法复制编辑?什么情况下需要采用 PDF 格式?
当然,在回答的最后,也会测评几款主流的手机 PDF 阅读器,希望可以帮助各位
01 PDF 的优势
PDF(便携式文档格式,Portable Document Format),最早是由 Adobe 公司的联合创始人约翰·沃诺克,为解决不同平台间文件格式混乱,而研发推出的跨平台文件格式。
也就是说 PDF 的诞生之初的使命是尽可能保证统一性,而这也就是为什么我们在不同的操作系统,借助不同的软件,最终看到的展示效果却几乎一致。
相比之下,我们即便是在同一设备,用同一软件的不同版本,打开的 Word 文档呈现的效果都有可能迥然不同。
不同软件(Office、WPS)打开同一份 Excel 文件:
那么问题来了,既然 PDF 的目标是尽可能保证一致性,那么我们为什么不采用形式更一致的图片呢?
答案其实很简单,因为图片呈现的信息不够准确,且在传输的过程中,极易造成信息的压缩、缺失,甚至损坏。
这就需要提到 PDF 的第二个优势:保真。
和图片不同,PDF 是将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等信息,打包封装在一个文件中。这意味着,我们可以从 PDF 文件中,还原出文件本身的「真实信息」。
举个直白点的例子,如果我们想还原图片中的文字信息,需要用人眼或 AI 分辨文字的字形、格式、位置等信息,这一过程中难免会出现信息识别和转换的偏差。
但 PDF 则将这些信息完整的还原成了严格的数字信息,例如我们想在文章中添加页眉,Word 就会直接输入「页眉」的指令,但不同软件对「页眉」有不同的标准,这样一来就造成我们在不同软件中查看同一份文档中的显示差异。
那么 PDF 是如何定义「页眉」的?其实PDF 的概念里没有「页眉」的存在,只有数字坐标,例如页眉在 PDF 文档中就是更精准的:
缩放比例0.5倍 坐标(120,230) 【文字定位】
在 PDF 的概念里,不存在模糊的标记式语言,一切都是「实体文档在数字世界中的真实投射」。换言之,PDF 其实是一张数字世界的纸。
The Founders of Adobe Systems Preparing to Release Photoshop. Mountain View, CA, 1988. (Photo Credit: Doug Menuez)
02 PDF 为什么没法复制
PDF 文件无法复制编辑的特性,长久以来饱受诟病。为什么 PDF 文件明明可以选中内容,却无法像 Word 一样复制粘贴,这关键取决于 PDF 文件的两个特性:
1.PDF 中是否包含文本
2.阅读器的支持
第一,刚刚已经说过,PDF 本质是一种将多种信息(文本、位置、图片等)集中封装的文件格式。大多数时候,我们在 PDF 中看到的文字就是文字信息,但如果 PDF 不规范,那么我们看到的「文本」,其实只是图片,PDF 本身并不包括任何文字信息。
即便是是通过 OCR(光学识别) 扫描写入的 PDF 中有时会包含文本,但文字信息通常也会被隐藏起来,我们最终在设备上阅读到的,本质上还是图片,也就当然就没办法复制这些「文本」内容。
第二,常规的 PDF 阅读器只能复制那些真正包含文字内容的 PDF 文件,但对于那些只有图片信息的 PDF 文件,就只能靠 OCR 功能实现复制了。
拥有 OCR 功能的 PDF 阅读器,在打开一份 PDF 文件时,会首先对 PDF 文件进行扫描,将 PDF 文件里的「图片文字」,识别转换为真正的「文字」,然后阅读者就可以对 PDF 文件进行复制了。
这样的复制过程,毕竟不是直接在原文档复制文本。读者在复制文本时,其实是先从「图片」上选择一段文字,然后阅读器再从「扫描后的文本」里面选择对应内容再复制出来,所以我们经常在复制 PDF 文件时会感觉到别扭,具体表现在难以选择要复制的文本,或者复制的内容不连续、不完整等等。
因为本质上来说,我们复制的不是文本,而是图片。
03 PDF 为什么没法编辑
前文我们说过,PDF 的一大优势便是保真性,那么 PDF 是如何做到这一点的?这还要从 PDF 本身的格式结构说起。
一般来说,一份 PDF 文件主要由四部分组成,文件头、主体、交叉引用表和文件尾组成。其中文件头标注了PDF的版本,主体就是我们看到的主要内容,包括文本、图像、格式等,交叉引用表则负责主体内对象及其位置,文件尾则负责软件处理文件的顺序。这些内容互相连接,改变了其中任一一项元素,其它部分都会随之改变。
同理, PDF 主体内容中的每个对象,包括文本、图像、格式等,都拥有唯一的编号,这些对象互相映射、互相影响。改变其中任一对象,PDF 内容的其它部分都会随之改变。
所以,PDF 不是没法编辑,而是过于复杂。也正是因为这种「牵一发而动全身」的特性,让绝大部分 PDF 阅读器都不支持 PDF 编辑。当然,也有例外,例如创造 PDF 这一文件格式的 Adobe 公司官方的 PDF 阅读器, Acrobat Pro,就可以通过种种黑科技手段,实现像编辑 Word 一样编辑 PDF。
04 PDF 的应用场景
通过上面的介绍,我们不难对 PDF 这种奇特,但却普遍的文件格式做个粗略的总结:可以承载丰富的信息格式,并且兼容大部分平台,虽然编辑困难、不便于转化为其他格式,但难以修改的特性和出色的稳定性(例如保留原文件排版、字体等),还有数字签名可以进一步确保文件的真实性。
正是以上这些特性,让 PDF 更适合保存那些珍贵、不希望他人修改的文件。例如我们经常接触到的论文、文献资料、个人文件,例如简历、作品等等。
网上流传的一句话,就对 PDF 做出了非常形象的概括 :
WORD 为写而生,PDF 为看而就。
05 移动端 PDF 阅读器评测
接下来就当下主流的移动端 PDF 阅读器,进行一次简短的评测。
01:Adobe Acrobat Reader
收费:9.9美金/月
平台:Android、iOS
综评:众所周知,PDF 这种格式便是由 Adobe 公司研发推出,因此 Adobe 推出的移动端阅读器 Acrobat Reader 无论是流畅度,还是渲染效果都挺不错,签名和注释也堪称完美,打开较大体积的 PDF 稍慢,不支持删页、合并 PDF,编辑、导出等进阶需求,需要购买会员,且价格较为昂贵(9.9刀/月)。
适合用户:重度 PDF 使用者,土豪
02:福昕PDF阅读器
综评:闻名海内外的国产 PDF 阅读器,你能想到的功能基本都有,打开 PDF 速度比 Acrobat 快一些,不过广告实在是有点多。和 Acrobat 一样,编辑、去广告、格式转换等进阶需求,需要购买会员。
收费:68元/年
平台:Android、iOS
适合用户:国内重度 PDF 使用者
03:WPS
收费:免费(有广告)
平台:Android、iOS
综评:拥有不错的阅读体验,支持文本重排、PDF 格式转换,内容提取、页面管理等功能,但不支持 PDF 编辑。不足之处是广告和 bug 略多,处女座绕道。
适合用户:小米和 WPS 用户,重度 PDF 使用者
04:坚果云
收费:免费
平台:Android、iOS
综评:没错,坚果云移动端也是支持 PDF 阅读的。电脑上保存的 PDF 文件,会通过坚果云自动同步至手机。坚果云可以将原本不适合小屏阅读的 PDF,进行智能适配,裁去多余的留白,对字体和间距进行调整,让文字更清晰,提升阅读体验。
可以说,如果没有编辑等进阶需求,坚果云已经可以满足大多数的 PDF 阅读需求了。
适合用户:轻度 PDF/坚果云用户
05:静读天下
收费:4.99/永久
平台:Android
综评:号称「安卓最强」阅读器,拥有接近完美的阅读体验,文本标记、文字重排等基本的阅读功能都有,并且支持 OCR 文字识别。但不支持 PDF 编辑。当然,epub、mobi 等常见的文本格式,更是静读天下的优势。
适合用户:手机阅读爱好者
06:Yes PDF
收费:免费
平台:Android
综评:一款国内个人开发者开发的 PDF 阅读器,提供 PDF 文档扫描、分组等 PDF 文件管理功能,在阅读体验上, YES PDF 可以实现 PDF 目录分析、水平/垂直阅读切换,自动滚动等功能。
如果你需要经常阅读专业文献,那么福昕或许是不二之选,如果你只是偶尔看看 PDF 文档,那么坚果云和 WPS 也足够使用。总之,并没有最好的,只有最适合你。
如果本文有帮助到各位,请不要忘了:
pnx101
校验提示文案
Tony9999
校验提示文案
乱入
对个人用户来说。基本都是天价。
校验提示文案
tianyuan1231
校验提示文案
tianyuan1231
校验提示文案
乱入
对个人用户来说。基本都是天价。
校验提示文案
Tony9999
校验提示文案
pnx101
校验提示文案