IsaacZ 发表于 2013-2-23 19:24:05

【10世界】关于文件开头几个字节的事儿

【转贴并修改】

2009-10-27 17:43



  一个文件里面的内容到底是啥?用惯了Windows的人肯定是看后缀。但是后缀这个东西说改就改,不可靠。所以,最保险的还是把文件类型信息写到文件里面,通常来说,也就是写到文件开头的那几个字节。这是最方便,最快捷的用来辨别一个文件真实内容的方法。下面举几个例子:

  Java class文件的魔数

   每一个Java Class文件都是以0x CAFEBABE开头的。Java这么做的原因就是为了快速判断一个文件是不是有可能为class文件,以及这个class文件有没有受损(文件受损,文件开头受损的可能性最大)。

  为什么是CAFEBABE呢?这个只能猜了,首先,16进制里面的字母只有A到F,十分的有限。Java一直以咖啡为代言,CAFEBABE可以认为是 Cafe Babe,读音上和Cafe Baby很近。所以这个也许就是代表Cafe Baby的意思。

  文本文件的BOM

   比如说,对于文本文件,开头的几个字节可以叫做BOM(Byte Order Mark),它的作用是用来标记文本文件内部是用的哪种Unicode编码,以及其字节码顺序。UTF-8,UTF-16BE,UTF-16LE等等各种Unicode编码都有自己独一无二的BOM。一般的文本编辑器也都支持 BOM。这样就不会出现乱码了。

  Zip文件的P.K.

   所有的zip文件,都是以PK这两个字母开头的。所以,无论怎么去修改zip文件的后缀,解压程序都可以简单的判断一个文件是不是有可能为zip文件。

  不信可以用二进制文本编辑器打开看看,比如notepad++:



  PK代表的不是游戏里的Person Kill,而是zip算法(PKZIP算法)的发明者菲尔·卡茨(Phil Katz)名字首字母的缩写。

  Phil Katz 在当时也算是个大牛级人物,不想为了一个压缩软件付钱就一跺脚自己写了一个更好的压缩算法,而且还完全无偿开放这个标准。不过,Phil Katz成就了 zip算法,zip算法却没有拯救Phil Katz。zip没有给他带来一分钱,这位无私奉献的工程师生活不顺,死于酗酒,甚至现在连一张像样的照片都流传下来,一声叹息呀。

  这是来自wikipedia的一张照片。


(原图掉链,IsaacZ配图)

  几个关于他的链接:http://en.wikipedia.org/wiki/Phil_Katz,http://www.yeeyan.com/articles/view/35697/15166(IsaacZ补充:http://news.cnblogs.com/n/141451/)

  

来源:http://www.blogjava.net/deepnighttwo/articles/299947.html
页: [1]
查看完整版本: 【10世界】关于文件开头几个字节的事儿