吴军信息论40讲吴军,约翰霍普金斯大学计算机科学博士、计算机科学家、硅谷投资人、著名自然语言处理和搜索专家,他师从于著名的信息论专家贾里尼克和数学家库旦普,还是信息论中最大熵算法的改进者。
吴军信息论40讲内容
发刊词:信息时代每个人的必修课
面对不确定性世界的方法论,利用信息消除不确定性(香农)
信息时代的最大特征是不确定性
01:影响世界的三比特信息
对一个未知系统所作出的估计和真实情况的偏离,构成信息损失,偏离越多损失越大
信息量和不确定性有关,大家都知道的事,就没有信息量
信息作用的大小和信息量有关
02:解开世界之谜的三篇诺贝尔论文
信息是我们世界固有的属性
世界上最关键的信息(知识)其实是非常简洁的,信息量与信息长度无关
03:大数据思维的科学基础
发现未知规律:互信息理论
动态调整做事策略:足够多的数据可以帮助我们动态匹配最佳结果
精准服务:从重研究方法到重数据收集的转变
解决人工智能问题:利用数据(信息)消除不确定性
04:信息度量,世界上有稳赚不赔的生意吗?
信息量的大小不在于长短,而在于开创多少新知
复杂交易背后通常都用到了信息的可度量性
充满可能性的系统(信息源),当中的不确定性(信息熵),“信息”是用来消除这些不确定性的,需要的“信息量”就等于黑盒子里的“信息熵”
信息可以衡量,但不是用重要性,而是用信息量,单位是“比特”(香农)
05:信息编码:数字和文字是如何诞生的?
只要编码设计得足够巧妙,就可以找到最短编码(香农第一定律)
由于它们是等价的,因此一个编码系统解决不了的问题,换一个系统同样解决不了
各种编码系统,其实都是在编码复杂性和编码长度之间作平衡,它们在数学上是等价的
数字和文字,都是人类用来消除信息不确定性的编码手段
06:有效编码:10个手指能表示多少个数字?
如何组合信息,保证它高效传递,还不违背第一条原则,需要我们主动思考
有效编码,就是让理论最佳值在应用中落地
采用大量用户反馈信息决定产品的设计和技术方案
信息编码的第二个基本原则——有效性
清晰表达的五个原则——明确、诚实、勇气、责任和同理心
信息编码的第一个基本原则——易辨识
07:最短编码:如何利用哈夫曼编码原理投资?
风险投资的霍夫曼编码应用——分几部分逐步投入,每一次投资呈指数减少,而金额倍增,实现大部分资金集中到最优投资项目上
一条信息编码的长度和出现概率的对数成正比
针对信息组合的信息压缩,会产生更高压缩比
哈夫曼编码原理——MIT教授哈夫曼发明
08:矢量化:象形文字和拼音文字是如何演化的?
象形文字和拼音文字的形成和进化代表了两种不同的信息编码方式
让问题变得简单,但会丢失信息,而平衡便利性和信息的完整性,就成为了艺术
信息的矢量化原理
09:冗余度:《史记》和《圣经》哪个信息量大?
善用“废话”侧面诠释想法,利用冗余便于理解
观点一致性,不要补充可能与主要思想相矛盾或无关的冗余信息
大脑存储信息要压缩,明确主线,过滤细节
信息冗余对沟通的应用
冗余度的问题:信息中混有噪音,过多没用的信息可能导致错误
冗余度的好处——易理解、消歧义、容错性
信息的冗余度——对信息“密集”和“稀疏”程度的描述:(信息的编码长度-一条信息的信息量)/信息的编码长度
10:等价性:信息是如何压缩的?
善用等价信息,是这个时代必须掌握的工作技巧
信息压缩的基本原理:找到周期性信号的等价信息、对等价信息进行压缩、如果要使用原有信号,通过压缩后的等价信息复原原有信号
11:信息增量:信息压缩中的保守主义原则
保守主义(总体原则不变,不断作微调)是由世界渐变的特征决定的
善用信息前后的相关性,对后面的信息做增量编码,达到大幅度压缩信息冗余的目的
12:压缩比和失真率:如何在信息取舍之间作平衡?
没有标准答案和最佳答案,只是针对某个场景好的答案,一切都是妥协的结果
失真率与压缩比直接相关,压缩到哪种程度,通常看具体应用场景
信息的压缩分为有损和无损两种,有损压缩在复原后会出现一定程度的失真
13:信息正交性:在信息很多的情况下如何作决策?
信息处理的两个方法——一是不断叠加,二是不断删除
不同的信息要来自不同的信息源
避免反复使用相互嵌套或者相互包含的信息
看问题要刻意改变一下观察的角度,从不同角度看
如何找到正交的信息
在使用信息上,要选用彼此垂直的正交信息
14:互信息:相关不是因果,那相关是什么?
高手用互信息工具进行预判,而言感觉
世界上大部分相关的信息未必有因果关系,它们之间只是一种动态的相互关联的关系
互信息:衡量两条信息之间相关性的新工具,寻找和利用强相关性
15:条件熵和信息增益:你提供的信息到底值多少钱?
第一个发表意见,以及能够发表与众不同的意见,对提高自己的影响力至关重要
信息增益:定量衡量每一条信息价值的尺度
条件熵:概率分布的信息熵——大众已知的信息对投资和其他决策其实都没有意义
16:置信度:马斯克犯了什么数学错误?
世界上有很多道理其实都很难验证,大到历史事件,由于很难多次重复,总结经验其实是非常难的
提高置信度的办法通常是增加所统计的样本数量
置信度:自己有多么确定这件事也量化地衡量
17:交叉熵:如何避免制订出与事实相反的计划?
猜测和真实情况完全一致,将不损失任何东西,但只是不一致就会或多或少有损失
猜测和真实情况相差越大,损失越大
自大的人非常容易遗漏本应考虑的事情
过分防范各种情况,患得患失,也将存在损失
在信息论中,任何硬性的决定(全力以赴对赌)都要损失信息
库尔贝勒交叉熵:信息误判时的损失
18:复盘:如何识别误导人的错误信息?
以耸人听闻的信息刻意引起你注意——放在更大的时空来考量、看信息的一致性、抽取信息要看失真率
没有出处——信息溯源
缺乏上下文——对信息背景限定条件
误导人的信息有哪些特征及应对?
19:信噪比:历史有真相吗?
历史的细节是不准确的(而且无法准确),但历史的轮廓是可以看清楚的
信号和噪音的相伴存在的——现实中我们不能希望找到全是优点没有缺点的人
信号与噪音的能量叠加,具体到每一个信号点,其置信度是受到干扰的
理解信号和噪音的关系:
信噪比:信号和噪音的比例,决定了我们是否能够有效地获取信息
20:去除噪音:如何获得更多更准确的信息?
利用信息的冗余和比对过滤噪音——最可贵的意见不是所谓客观的而是真正反映自已想法的主观意见
换一个角度看问题——将有噪音的信息分解到不同的维度过滤噪音
如何去除噪音
能够找到噪音来源VS不清楚来源
有规律噪音VS随机噪音、固定频率噪音VS白噪音
噪音分类
21:信道:信息通道的容量有边界吗?
信息的传播是有成本的,其成本就源于信道容量
某一范围内的无线电波,其所能承载的信息也是有限的
量化度量是重要的
信道与生活的关系:
信道容量:当信息传输所用的信道一旦固定,能承载的信息量是有限的,其决定了有效的传输率
22:香农第二定律(一)为什么你的网页总是打不开
在边界内做事情的重要性,如果先天信道容量不足,唯一的方法就是降低速度
香农第二定律:如果谁要试图超越信道容量传输信息,不论怎样编码,出错的概率都是100%(R≤C)
23:香农第二定律(二)到底要不要扁平化管理?
带宽是由通信双方的互信息决定的,这在人际交流中就是信任
拓展带宽是今天我们所有人都需要做的事情
扁平化管理是香农第二定律的应用,保证一定带宽内的沟通效率或者利用科技提高带宽
职级和部门之间的壁垒将人与人通信的带宽变得非常窄,信息传输率非常低
24:纠错码:对待错误的正确态度是什么?
通过增加信息冗余,增强检验甚至纠正错误的能力
考虑到错误的必然存在,通过巧妙的信道编码保证有了错误能够自动纠错
在解决任何问题前,都要考虑世界的不完美和不确定性
不确定性是世界自然的属性,不要高估自己的仔细,以及自己通过努力做到最仔细后,能够达到的效果
25:信息加密:韦小宝说谎的秘诀
如果想让人知道你的观点,就要明确表述
无法减少你传递信息的不确定性
密码的精髓在于,对方拿到你的密文,得不到额外的信息
26:极简通信史:从1G到5G通信,到底经历了什么?
单位能量的信息传输率越来越高
网络不断融合
设备的辐射越来越小
每一代都会有新的主导型公司:1G摩托罗拉;2G诺基亚;3G、4G苹果、谷歌和高通;5G是华为
移动通信的发展要点
一是对信息的发送和接收的描述
二是对信息编码的方式
通信标准的核心:
27:通信趋势:5G和IOT的商机在哪里?
判断的标准是:能否以更少的能量传输来处理更多的信息
每一代互联网都有掌握产业链的龙头公司,未来是由掌握核心芯片、操作系统和通信标准公司占据龙头
第三代互联网是万物互联,会在联网设备、带宽及市场规模上有指数级增长
28:复盘:世界不完美,我们该怎么办?
对世界的态度是,承认噪音的存在,争取在有噪音的情况下,准确传递信息
29:交叉验证:电信诈骗为什么能成功?
跨界的意义 不在于同时做很多不同的事情,而是从另一个领域回望所在领域的问题
交叉验证中,垂直正交信息的组合最有效,因为共同作用能最大程度降低信息熵
大数据的重点不在于数据的体量大,而是数据的多维度
交叉验证:生活中绝大部分时候,一个维度的信息很难消除所有不确定性,解决这个问题的最好办法,不是把那个维度的信息搞得更准确,而是用其他维度的信息进行交叉验证
30:等价性:如何从等价信息里找答案?
等价信息和相关信息不同,后者的要求宽松得多,但是可靠性也差很多
很多时候 无法直接获取某种信息,可使用等价信息解决问题的方法
31:大数据(一):从四个特征把握大数据的本质
有数据、有技术、有应用场景(腾讯、阿里巴巴、今日头条等)
有数据、无技术(移动通讯运营商、银行、零售业等)—需要专业人士
缺乏数据、有技术(数据公司等)—可为第二类企业解决实际问题
大数据时代受益的三类企业:
消除数据间矛盾,亦需要领域知识
在特定应用场景还需要具有实时性
大数据的特征:数据量大、多维度(最好正交)、数据完备性(不是抽样)
32:大数据(二):大数据思维的四个层次
第一层:从大量、混乱的数据中总结出相关性
第二层:不事先作假定,从大数据出发得到结论,再分析原因
第三层:利用大数据准确把控宏观规律的同时,精确到每一个细节
第四层:通过几个维度的强相关性,替代过去的因果关系
大数据思维是一种全新的思维方式和做事情的方法
33:互联网广告:为什么GOOGLE搜索的广告效果好?
使用正交、可叠加信息的作用(如FACKBOOK)
用信息熵来定量衡量个性化服务,但通常喜好上的差异程度比我们通常想的要小很多
GOOGLE的广告系统利用的是用户主动输入的信息,它最为有效
34:幸存者偏差:如何避免被已知信息误导?
通识教育的重要性:避免思维习惯带来的盲点
幸存者偏差:要不断淘汰不好的项目,在生活中要止损,将利益最大化
35:奥卡姆剃刀法则:最简单的往往是最有效的
奥卡姆剃刀法则的应用——做减法、不要制造伪需求、可提高判断力(找到基函数)
世界本身的规律在形式上并不复杂
过于复杂的描述常常是骗局
奥卡姆剃刀法则有实践验证
奥卡姆剃刀法则有科学依据——找到这个领域支撑点的关键信息
简洁的往往是正确的,越是复杂,越容易犯错
36:最大熵原理:确定的答案找到之前,我们该做什么?
光滑——不会遇到黑天鹅事件,方方面面都考虑得很周全
不要把鸡蛋放在一个篮子里
一个“光滑”的模型,可以让预测的风险最小
最大熵原理:当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不要作任何主观假设
37:麦克斯韦的妖:为什么要保持系统的开放性?
对于个人而言,引入负熵的方法是:行万里路、读万卷书
一种是直接与外界进行人的交换(能量熵)
另一种是接受外面新的思想(信息熵)
任何一个封闭系统都是越变越无序,要想变得有序,就要引入“负熵”,即能量和信息
38:复盘:如何把信息论学以致用?
需要知道如何把自己领域中的问题,描述成一个信息处理的问题
39:控制论:要不要成为变色龙?
要做变色龙(不断应对环境变化作出调整)
不要做恐龙(架子大,很唬人,但适应性差)
控制论三要点:突破牛顿绝对时间观、系统与外界环境刺激有相互影响、通过反馈回路实现自我调节
40:系统论:如何让整体效用大于部分之和?
发展:空间上作整体考虑,时间要还要考虑影响力,最终决策
科学:分析问题要遵循科学方法,而非简单的经验,方可获得可重复成功
综合:参考IPHONE的方法论
整体:任何局部改进,需要放回到整体中去考察
- PC官方版
- 安卓官方手机版
- IOS官方手机版