香农创立了信息论

克劳德·香农(Claude Elwood Shannon,1916-2001)于1916年4月30日出生在美国密西根州的伽娄德(Gaylord)小镇,当时镇里只有三千居民。香农的父亲是该镇的法官,母亲是镇里的中学校长。他生长在一个有良好教育的环境,不过父母给他的科学影响好像还不如祖父的影响大。香农的祖父是一位农场主兼发明家,发明过洗衣机和许多农业机械,这对香农的影响比较直接。此外,香农的家庭与大发明家爱迪生(Thomas Alva Edison,1847-1931)还有远亲关系。

  

香农的两大贡献:一是信息理论、信息熵的概念;另一是符号逻辑和开关理论。香农的信息论为明确什么是信息量概念作出决定性的贡献。

1936年香农在密西根大学获得数学与电气工程学士学位,然后进入MIT念研究生。1938年香农在MIT获得电气工程硕士学位,硕士论文题目是《继电器与开关电路的符号分析》。当时他已经注意到电话交换电路与布尔代数之间的类似性,即把布尔代数的“真”与“假”和电路系统的“开”与“关”对应起来,并用1和0表示。于是他用布尔代数分析并优化开关电路,这就奠定了数字电路的理论基础。哈佛大学的
Howard Gardner教授说,“这可能是本世纪最重要、最著名的一篇硕士论文。

1940年香农在MIT获得数学博士学位,而他的博士论文却是关于人类遗传学的,题目是《理论遗传学的代数学》。说明香农的兴趣十分广泛,后来他在不同的学科方面发表过许多有影响的文章。在读学位的同时,他还用部分时间跟温尼法·布什教授进行微分分析器的研究。这种分析器是早期的机械模拟计算机,用于获得常微分方程的数值解。1941年香农发表了《微分分析器的数学理论》,他写道:“大多数结果通过证明的定理形式给出。最重要的是处理了一些条件,有些条件可以生成一个或多个变量的函数,有些条件可使常微分方程得到解。还给出了一些注意事项,给出求函数的近似值、求调整率的近似值以及自动控制速率的方法。”

1941年香农以数学研究员的身份进入新泽西州的AT&T贝尔电话公司,并在贝尔实验室工作到1972年,从24岁到55岁,整整31年。香农与John Riordan一起工作,1942年发表了一篇关于串并联网络的双终端数的论文。这篇论文扩展了麦克马洪1892年在Electrician上发表的论文理论。1948年香农在发表了《通讯的数学理论 》,创立了信息论。

在二次世界大战时,香农博士也是一位著名的密码破译者(这使人联想到比他大4岁的图灵博士)。他在贝尔的破译团队主要是追踪德国飞机和火箭,尤其是在德国火箭对英国进行闪电战时起了很大作用。1949年香农发表了另外一篇重要论文《保密系统的通信理论》,正是基于这种工作实践,它的意义是使保密通信由艺术变成科学。
  
  熵的概念
  香农理论的重要特征是熵(entropy)的概念,他证明熵与信息内容的不确定程度有等价关系。熵曾经是波尔兹曼在热力学第二定律引入的概念,我们可以把它理解为分子运动的混乱度。信息熵也有类似意义,例如在中文信息处理时,汉字的静态平均信息熵比较大,中文是9.65比特,英文是4.03比特。这表明中文的复杂程度高于英文,反映了中文词义丰富、行文简练,但处理难度也大。信息熵大,意味着不确定性也大。因此我们应该深入研究,以寻求中文信息处理的深层突破。不能盲目认为汉字是世界上最优美的文字,从而引申出汉字最容易处理的错误结论。

众所周知,质量、能量和信息量是三个非常重要的量。人们很早就知道用秤或者天平计量物质的质量,而热量和功的关系则是到了19世纪中叶,随着热功当量的明确和能量守恒定律的建立才逐渐清楚。能量一词就是它们的总称,而能量的计量则通过“卡、焦耳”等新单位的出现而得到解决。然而,关于文字、数字、图画、声音的知识已有几千年历史了。但是它们的总称是什么,它们如何统一地计量,直到19世纪末还没有被正确地提出来,更谈不上如何去解决了。

20世纪初期,随着电报、电话、照片、电视、无线电、雷达等的发展,如何计量信号中信息量的问题被隐约地提上日程。1928年哈特利(R.V. H. Harley)考虑到从D个彼此不同的符号中取出N个符号并且组成一个“词”的问题。如果各个符号出现的概率相同,而且是完全随机选取的,就可以得到DN个不同的词。从这些词里取了特定的一个就对应一个信息量I。哈特利建议用N log D这个量表示信息量,即I=N log D 。这里的log表示以10为底的对数。后来,1949年控制论的创始人维纳也研究了度量信息的问题,还把它引向热力学第二定律。但是就信息传输给出基本数学模型的核心人物是香农。1948年香农长达数十页的论文《通信的数学理论》成了信息论正式诞生的里程碑。在他的通信数学模型中,清楚地提出信息的度量问题,他把哈特利的公式扩大到概率pi不同的情况,得到了著名的计算信息熵H的公式:
  H=∑-pi log pi
  如果计算中的对数log是以2为底的,那么计算出来的信息熵就以比特(bit)为单位。今天在计算机和通信中广泛使用的字节(Byte)、KB、MB、GB等词都是从比特演化而来。“比特”的出现标志着人类知道了如何计量信息量。

香农最初的动机是把电话中的噪音除掉,他给出通信速率的上限,这个结论首先用在电话上,后来用到光纤,现在又用在无线通信上。我们今天能够清晰地打越洋电话或卫星电话,都与通信信道质量的改善密切相关。

香农的大部分时间是在贝尔实验室和MIT(麻省理工学院)度过的。人们描述香农的生活,白天他总是关起门来工作,晚上则骑着他的独轮车来到贝尔实验室。他的同事D. Slepian说:“我们大家都带着午饭来上班,饭后在黑板上玩玩数学游戏,但克劳德很少过来。他总是关起门来工作。但是,如果你要找他,他会非常耐心地帮助你。他能立刻抓住问题的本质。他真是一位天才,在我认识的人中,我只对他一人使用这个词。” 

克劳德·香农在公众中并不特别知名,但他是使我们的世界能进行即时通信的少数科学家之一。他是美国科学院院士、美国工程院院士、英国皇家学会会员、美国哲学学会会员。他获得过许多荣誉和奖励。例如1949年Morris奖、1955年Ballantine奖、1962年Kelly奖、1966年的国家科学奖章、IEEE的荣誉奖章、1978年Jaquard奖、1983年Fritz奖、1985年基础科学京都奖。他获得的荣誉学位不胜枚举。 

贝尔实验室和MIT都尊崇香农为信息论及数字通信时代的奠基人。是他将布尔代数的“真”与“假” 电路的“开”与“关”对应起来,并用1和0表示。这是从理论转换到实际产品设计的一个重要的环节。