发布时间:2020年11月8日
微博:李永乐老师
今年美国总统选举简直比电视剧还要精彩。先是特朗普团队说自己已经赢了,紧跟着拜登翻盘,昨天又爆出某选区6000张投给特朗普的选票错投给拜登。今天早上,拜登终于拿下超过270张选票,赢得选举。
可是,貌似特朗普并不承认自己失败。他发推特指责选举公正性,并宣布自己赢得了选举。推特官方在特朗普的发言下标注:本条关于选举欺诈的声明是有争议的。
更有趣的是:有网友对一些选取的投票情况进行分析后发现:拜登的选票数量居然不符合本福特定律。难道选举真的存在欺诈吗?本福特定律到底是什么?
去年11.11之前,我做了一期节目,教大家如何用本福特定律分析数据是否造假,当时的标的是天猫销售额2684亿。今天我们不妨借着美国大选的热点,再来带着大家复习一下本福特定律。视频请见天猫“双11”2684亿销售额造假了吗?
1.首位为1的概率有多大?
我们每天都会面对成千上万的数据,其中有些数据是非人为规定、杂乱无章的。例如世界上所有国家的人口数量、GDP、国土面积,一张报纸上的经济数据,彩票在各个城市的销售额……等等。
如果我问:这些数字首位是1(比如1.25亿,16,1356万这样的数字)的概率有多大?你会如何回答呢?
也许许多人会回答:1/9。因为首位可以是1、2、3、4、5、6、7、8、9,这些数字毫无规律,自然产生,所以首位是1的可能占1/9。或者你还会用一个表格印证自己的想法:在一位数、两位数、三位数…中,首位是1的数字都只有1/9。
不过,如果你真的拿出一张报纸进行统计,你会发现自己错了,除掉电话号码、邮政编码、日期等特定规律的数字以外,首位是1的数字大约占到30%。
2.本福特定律
十九世纪,在还没有计算机的时代,科学家们经常要查找对数表进行计算。1881年,天文学家纽康在查找对数表时发现:对数表的前几页总是被人翻的比较烂,而后面的页码几乎是全新的。他隐约的感觉到:自然界中的数字好像不是均匀分布的,许多数字都以1开头,所以对数表的前几页才经常被人查阅到。
1938年,物理学家本福特也发现了这个规律,现在被我们称为本福特定律:
从自然、生活中产生的数据,在十进制中以数字n开头的概率为:
按照这个公式,不同的首位数概率如下:
首位是1的数据居然比首位是9的数据多出六倍?事实真的是这样吗?
3.数据检验
我们需要使用一些数据来验证本福特定律,这些数据必须具有一些特点:
第一:数据产生于生活或者自然中的,而不能是人为规定的,例如新生儿数量、死亡人数就满足这个条件,而电话号码、邮政编码、彩票开奖号码,都不满足这个规律。
第二:数据量要足够大,并且跨越几个量级。例如不同国家国家的人口从几百到几十亿,跨越了7个量级,就符合条件。而成人的身高基本都在1米到2米之间,跨度太小,就不满足这个条件。
好了,现在我们可以进行验证了。首先,我选择我的视频播放量数据来验证本福特定律。我在某个平台上上传了266个科普视频,有些视频比较受欢迎,播放量比较大,比如视频《芯片是怎么回事》有两百多万次播放。也有一些播放情况不太好,只有一两万次播放。我把所有视频的播放次数统计了出来,统计出播放次数首数字为1的(无论是播放量1万多、十几万或者一百多万)、是2、是3…的视频个数,并且计算了它们各自所占的比例,如下所示:
如果我们把视频播放量的首位数比例和本福特定律预言的比例放在一起,就会发现:视频播放量基本符合本福特定律。
我们再来用国家人口验证一下。 我查找了2000年世界上235个国家和地区的人口情况,人口首位数是1的国家有67个,占比28.5%。具体的首位数比例如下:
把实际的频率和本福特定律的预测放在一起,就得到了下图,是不是也非常接近?
我们还可以用类似的方法统计世界上所有国家的GDP数据、领土面积等等,也会获得类似的结果。
如果我们认为:无论是视频播放量还是国家人口、领土面积、GDP等,都或多或少是因为人的因素造成的,我们是否能找到与人无关的数据呢?我们再举一例:斐波那契数列。
斐波那契数列也叫做兔子数列,前两个数字都是1,后面每个数字都等于前两个数字之和,于是这个数列就是1、1、2、3、5、8、13、21、34、55、89…
我统计了前154个斐波那契数,它的大小已经从1增长到1031,其中首位数是1的数字有45个,占比29.2%。其余首位数的比例如下:
是不是非常神奇?除了斐波那契数列,许多物理、化学常数(例如放射性元素的半衰期)也符合本福特定律的预言。
4.用本福特定律发现假账
如果我们掌握了本福特定律,就可以利用这个定律发现财务数据造假,因为造假者人为篡改了数据,就会与本福特定律产生偏差。这里最典型的例子是安然公司。
2001年,美国最大的能源交易商、年收入破千亿美元的安然公司宣布破产,同时传出公司财务造假的传闻。于是,有人用本福特定律对安然公司公布的财务报表进行了检验。下图中左侧是所有上市公司的财务数据与本福特定律的符合情况——简直可以用“精准”二字形容;而右图是安然公司在2000-2001年的财务数据与本福特定律的偏离情况,我们会发现数字1、8、9频率相比本福特定律明显偏大,而数字2、3、4、5、7又明显偏小。这说明:安然公司的确有造假嫌疑。
最终,经过深入细致的调查,美国司法部认定安然公司财务造假,安然公司CEO杰弗里·斯基林被判刑24年并罚款4500万美元;财务欺诈策划者费斯托被判6年徒刑并罚款2380万美元。有89年历史并且位列全球五大会计师事务所的安达信因帮助安然公司造假,被判处妨碍司法公正罪后宣告破产,从此全球五大会计师事务所变成「四大」。
现在,本福特定律已经成为会计师们判断销售数据、财务报表等数据是否造假的依据之一,甚至还有人使用本福特定律来检验选举中是否存在舞弊现象。例如:本次美国大选中,有网友指出:拜登在包括威斯康星州密尔沃基、伊利诺伊州芝加哥和宾夕法尼亚州阿勒格尼的曲线均不满足“本福特定律”,而与此同时,特朗普在多个地区的曲线却又正好满足或基本满足该定律。
这是否意味着拜登存在选举舞弊?本着不干涉他国内政的原则,我对此不便于评论(评论也没啥用),让子弹飞一会儿,继续看戏。
5.如何证明本福特定律?
那么,自然界中为什么会有这条神奇的定律呢?我们如何才能证明它?
因为本福特定律并非是严格定律,只在特定条件下成立,所以并不存在一般意义上的证明。或许,我们应该说,我们可以研究:究竟什么样的数据更加符合本福特定律。
在生活中,有许多数据满足这样的特点:单位时间内的增长量正比于存量。
比如,我有100元,存到银行里,年利息3%,明年就会变成103元。如果我有100万,存到银行里,明年就会变成103万,这就是典型的增量正比于存量的情况。再比如,在相似的经济环境下,人口的自然增长率是比较固定的,所以一个国家的人口越多,每年新增的人口也会越多,这也符合增量正比于存量。
视频播放量又如何呢?许多视频网站都采用数据流推送的方式,一个视频有越多的人观看、点赞、评论、转发,系统就会把这个视频推送给更多的人,于是新增的观看次数也会越多。
如果用数学语言来描述,增量ΔN与存量N和时间Δt之间满足下面的关系:
这表示:在单位时间内,增量与存量之比是一个常数。如果在最初数据为N0,经过时间t,数据量就会变为
这是一个指数型函数,随着时间的推移,数据会指数长大。而且,指数型函数有一个特点:数据从N1增长到N2的时间与两个数据的比有关:
比如数据从1增长到10所需要花费的时间,与从10增长到100、从100增长到1000所花费的时间都是相同的。
如果数据满足这个增长率,那么就有很大可能满足本福特定律。比如,假设数据是2位数,从10增长到20的过程首位数都是1,这段增长所需要花的时间为:
同样,数据从20增长到30的阶段首位数是2,时间为:
……
按照这个规律,数据在首位数是n的情况下增长时间为:
在两位数的情况下,数据从10增长到100,首位数就会遍历1、2、3、4、5、6、7、8、9,所需要花费的总时间也可以计算,为:
我们已经知道了这个增长数据保持两位数的时间,还知道在增长过程中,不同首位数的时间。我们会发现,从首位为1增长为首位为2时间最长,因此在进行统计时,这种数据出现的概率最大;而首位数为9的增长时间最短,这种数据出现的概率就小的多。
我们用首位数为n的增长时间占总增长时间的比例代表了首位数为n的概率,于是就会得到公式:
这就是本福特定律。
两位数是这样,三位数、四位数、五位数也同样如此。每一个数据首位数的概率情况如此,那么当大量数据堆积到一起,首位数的频率情况满足本福特定律,就不足为奇了。
有关本福特定律的研究一直在进行中,前几年我有一个学生叫做李聪乔,他现在在北大物理系读书。前几个月,他与老师马伯强、同学丛明舒合写了一篇论文《从拉普拉斯变换看首位数定理》,这篇论文对数据进行拉普拉斯变换,通过变换后的数据特点讨论哪些数据更满足本福特定律,有兴趣的小伙伴不妨下载来看看哦。