核密度估计法是一种典型的非参数检验方法。使用核密度估计法可以推导出分布奇特的函数表达式。因此核密度可以被用于处理公共事务或经济领域的小众问题。本小节将要介绍的大数据预测犯罪是一个最经典的现代公共事务案例,这个案例虽然并没有使用过于复杂的算法,但它确实成功解决了公共管理中的难题。
《少数派报告》的现实版
很久以前,作家们便创造出了为数众多的天才侦探,大侦探福尔摩斯只消看一眼犯罪现场,就能推断出受害者的身份和犯罪嫌疑人的大概特征。后来,野心勃勃的剧作家不再局限于让侦探人物在犯罪发生后再去千里辑凶,转而创作出了《少数派报告》这种极富想象力的作品。在《少数派报告》里,具有预言能力的少数派可以在犯罪还未发生时就预言出犯罪者的名字,警察便可以在犯罪者实施犯罪前将其逮捕。
▲电影《少数派报告》剧照
尽管科技的发展日新月异,但现代技术仍然没办法证实有什么人真的有预言未来的能力,《少数派报告》中的场景从而无法发生在真实世界中。不过条条大路通罗马,在大数据的帮助下,警务犯罪预测系统同样可以帮助警察预测犯罪的发生,达到了和《少数派报告》所一致的效果。
警务犯罪预测系统是由 George Mohler 教授开发的地震预测模型改造而来的。George Mohler 教授发现地震预测模型可以在地震发生后很好的预测余震的发生,而预测犯罪发生的模式则与此惊人的吻合,即,某地区发生犯罪案件后,该预测模型可以很好地预测接下来发生犯罪的可能性与方式。
纽约警察局把过去 80 年内的 130 万个犯罪纪录输入了这个由地震预测模型改造来的警务犯罪预测系统,并使用了包括每个街道上的人口、人群的流动方式、人脸识别在内的多种繁复数据,这些数据一起用于寻找每一条街道上的犯罪趋势和犯罪模式,实时分析城市数据源和社交网络数据,从而提示警察每个具体区域的犯罪概率,达到预测犯罪的效果。除了能够预测犯罪以外,警务犯罪预测系统所收集的庞大数据同样有利于警察更快的破案。
洛杉矶警察局是最早应用犯罪预测系统的警察局之一,数据显示,该警察局已经能够利用大数据分析软件成功的把辖区里的盗窃犯罪降低了 33%, 暴力犯罪降低了 21%,财产类犯罪降低了 12%。如今的美国,从纽约到洛杉矶,许多警察局都在尝试使用这种方法来预测犯罪,维护治安。意大利、法国等国家也在引进这种办法。而我国首都警局在 2014 年的 APEC 会议期间,也尝试了使用大数据分析来维护治安。大数据分析预测犯罪已成为世界性的趋势。
核密度估计法和圣克鲁兹市的犯罪地图
尽管警务预测系统所能达到的效果非常神奇,但其背后的统计学原理并不复杂。其中最主要的统计原理就是核密度估计法。
在警务预测系统中,城市中不同街道的犯罪发生概率和周围环境有密切关系,将城市看做一张二维平面图的话,其每个地区的犯罪发生概率并不服从任何已知的分布,如正态分布、泊松分布等等,因此就不能参照任何已知表达式写出犯罪发生的概率密度,也不能为犯罪发生概率设定参数。此时就需要核密度估计法来估计犯罪发生概率的表达式。
图 1 画出了一个核密度估计的简单示例,在零到一的范围上随机产生 50 个数据,以 0.04 为宽度画出直方图。由图可知,这五十个数据大多分布在靠近 1 的位置,在 0.5 的左边也有一些分布。仅观察直方图,这样的一个数据基本分布不符合任何已知的分布。因此考虑使用核密度估计法估计该分布的分布函数。
图 1 核密度估计示意图
核密度估计法常用的公式如下:
在这个公式中,N(x,z)为正态分布的概率密度函数,z 为待设定的参数。n 为数据量,在图 1 所示的例子中,n 为 50。这个式子所表达的意思是,假设这 50 个数都服从正态分布,那么这 50 个正态分布所叠加起来的分布就是我们所要找的分布。
图 2 中,六个正态分布叠加得到了一个核密度估计模型。其中六个正态分布对应六个数据,同理可得五十个数据推导出来的核密度估计模型。
图 2 正态分布叠加得到核密度估计分布
在除了正态分布外,还可以假设观察到的数据服从均匀分布、伽玛分布或三角分布等,不同的分布可以推导出不同的核函数。虽然正态分布需要设定参数 z,但通过数据的标准化可以将 z 统一设为 0
不论使用的是哪种核函数,核密度估计法的原理都是相似的。对于某一点,如果观察值出现的多,那么该点的概率密度就大,其附近的点的概率密度也会偏大;如果观察值出现的少,那么该店的概率密度就小,其附近的点的概率密度也会偏小。比如图 1 中的零点,由于其附近并没有聚集较多的观察值,因此该点的概率密度十分小。
尽管每个城市每条街道的犯罪事件的概率密度并不服从任何已知的分布,但使用核密度估计的方法,将每一起历史案件都视为服从正态分布,这些正态分布叠加后将得到一个犯罪分布概率密度。如果某地区发生了较多的案件,那么该地区的犯罪概率密度就较高;如果某地区发生了较少的案件,那么该地区的犯罪概率密度就较低。
图 3 是一张圣克鲁兹地区的犯罪预测地图。图中方框框起来的地方即为犯罪案件发生概率较高的地方。
图 3 圣克鲁兹地区犯罪预测地图
这些方框大部分都是五百英尺见方的区域,这样大小的一个区域恰好是一个街区左右大小的地方。圣克鲁兹警察局使用犯罪预测系统就可以得知每个街区的犯罪发生概率,在这些街区的巡逻警察会打起精神来寻找犯罪案件的苗头。
使用核密度估计的方法不仅可以详细的标注出每个街区甚至每条街道的犯罪案件发生概率,按照案件类型为案件分类后,核密度估计法同样可以指出每个街区发生盗窃案、抢劫案、强奸案等各个细类案件的概率;按照案件时间为案件分类后,核密度估计法同样可以指出每个街区在白天、傍晚、深夜发生案件的概率。而将两者结合,则可以提前告诉警察在什么时间段应加强对些街区的巡逻,以及这些街区很可能发生什么案件,从而避免犯罪案件的发生。预测系统同样可以用于提示普通民众在特定时段避开某些街区,以及提示处于危险街区的普通民众警惕罪犯的存在。
使用这种方法预测的犯罪案件有三分之二都真实的发生了。有了预测系统的提前警示,警局可以更合理的布局警力,提高破案效率,并帮助所有人了解犯罪的模式。犯罪预测系统帮助美国一些城市的重案率下降了 30%。
警务犯罪预测系统除了能够提示我们案件的发生以外,还可以从更高角度解释为什么会发生这些案件。这不仅是从某些街区聚集了大量游手好闲的犯罪分子这个馋鬼角度而言,警务犯罪预测系统同样可以发现一些隐藏起来的深层规律。比如预测系统通过对比大量的问题少年的情况,可以告诉我们青少年罪犯与他们的积极向上的同龄人相比,最大的不同是教育程度的低下,这就提示我们应当提高对青少年教育问题的重视。
通过这种对比,犯罪预测系统同样可以发现 14 岁第一次杀人的杀人犯再次杀人的概率要比 30 岁第一次杀人的杀人犯要高,这帮助司法系统收起对青少年的同情心以及对中年犯人的偏见,转而加强对青少年罪犯的监视。而这些发现运用到了统计学中 t 检验和方差分析的知识。
核密度估计法小结
核密度计法是最流行的非参数检验分析之一。与贝叶斯分析相似,核密度估计法尽管原理十分简单,但其所能够完成的事情非常之多。核密度估计法具有不需要过多先验知识,能完成复杂的非线性拟合,预测结果准确的特点。由于这些优点,核密度估计法被广泛的应用于公共事务、地理信息、医疗教育等多个领域,其经典应用包括各类预测和聚类任务。
核密度估计法的局限性主要表现在两方面:首先,核密度估计法的准确与否很大程度上依赖样本数据的准确与否,比如本小节介绍的警务犯罪预测中,倘若使用的历史案例过于陈旧或过于偶然,对于核密度估计的最终结果将有很大影响;其次,核密度估计法存在边界问题,即核密度估计法映射的范围囊括了整个数域,对警务犯罪预测的例子来说,可以理解为圣克鲁兹市的某些地区是没有人活动的,因此根本不可能发生犯罪案件,但是由于无人地区附近的有人地区有案件发生,因此由于边界效应,预测系统会认为无人地区也有可能发生犯罪。这一问题在犯罪预测的例子中并不重要,但在一些医学例子中影响会比较大。
核密度估计法可以和聚类分析相结合,这会产生一种梯度上升的聚类算法,其主要思想是在空间中随机画出一个圆,然后根据分布函数逐渐向密度较高的方向移动,最终达到聚类中心。这种聚类方法可以聚为不规则形状的类,比如半月形的类。
核密度估计法同样可以和贝叶斯分类法相结合。贝叶分类法利用已知的先验知识做推断,而核密度估计法可以在先验知识不充足时做出补充。比如在遥感图像分类的问题上,可以利用核密度估计法先计算各类土地的密度函数,再使用贝叶斯分类法进行分类,此时核密度估计法提供了更充分的先验知识,因此贝叶斯分类的效果会增强。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...