五法则
总体中位数位于该总体中的5个随机样本中的最小值和最大值之间的可能性为93.75%。
仅凭五个随机样本似乎不可能对任何事情有93.75%的确定性,但事实并非如此。如果我们随机选取五个均高于中位数或均低于中位数的值,则中位数将为超出我们的范围。但实际上,这种可能性有多大?请记住,根据定义,随机选择高于中位数的值的几率为50%,这与抛硬币出现正面的情况相同。随机选择五个恰好都高于中位数的值的机会就像掷硬币并连续五次出现正面一样。在随机抛硬币中连续五次出现正面的几率是32分之一,即3.125%;连续获得五个尾巴也是如此。没有得到全部正面或全部反面的概率为100%−(3.125%×2),即93.75%。因此,五个样本中至少有一个高于中位数且至少有一个低于中位数的概率为93.75%(如果您想保守的话,可以将其向下舍入到93%,甚至90%)。一些读者可能还记得一门统计课,其中讨论了非常小样本的统计数据。这些方法比五法则更复杂,但答案确实好不到哪里去。(这两种方法都做出了一些在实践中非常有效的简化假设。)
五法则产生一个区间,描述连续数量的不确定性,例如中断的持续时间或金钱损失的规模。这取决于某个特定人群的样本。它描述了总体的中位数,而不是下一个随机样本的平均值或可能值。这可能很方便,但对于风险评估,我们还需要评估离散事件的不确定性,例如组织是否会在给定年份经历数据泄露,或者给定供应商是否拥有其声称拥有的控制权。这不太像评估总体的中位数,而更像是评估下一次从该总体中随机抽取时发生情况的可能性。对于这些情况,我们可以指定一个概率来表示我们对事件是否会发生的不确定性。
假设您已在同一组织工作六年,并且没有发生重大数据泄露事件。出于我们的目的,我们将“重大”定义为严重到必须在年度报告中报告、导致监管罚款并成为全国新闻的违规行为。我们还假设您除了在该组织工作六年的直接经验之外几乎没有其他信息。这意味着您对组织外部此类事件的新闻一无所知,只知道它们至少是可能的。
您是否会说没有办法评估任何概率?乍一看这似乎有悖常理,但您已经六年没有看到这一事件的事实并非完全没有信息。请记住,我们采用贝叶斯观点,其中概率代表您的不确定性状态。即使您觉得自己完全没有任何信息,这种不确定状态以及如何通过少量观察来改变它也可以用数学方法来描述。
1840年代,数学家兼科学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)对概率数学提出了许多思想,并对贝叶斯方法做出了重大贡献。其中一个贡献是一种计算事件概率的初始估计的方法,即使该事件从未发生过——例如,除了历史记录中每天都会升起之外,在没有其他信息的情况下,太阳明天是否不会升起。他假设我们忽略了我们通常用来判断事件概率的任何背景知识。我们所知道的只是在一些有限的观察集中它发生的频率。在进行这些观察之前,我们不知道该事件发生的频率。在我们看来,“它永远不会发生”和“它每次都会发生”之间的所有可能性都是同样可能的。
他展示了计算这种情况的初步估计的数学基础。假设有特定数量的观察,例如在装有数千个弹珠的瓮中随机抽取弹珠,每个弹珠要么是红色的,要么是绿色的。我们可以对一些弹珠进行采样来估计所有红色弹珠的比例。当然,如果我们取样六颗弹珠,只有一颗是红色的,这并不能证明瓮中的六分之一的弹珠是红色的。这是一个小的随机样本,红色弹珠的真实比例可能超过六分之一或更少。但如果你必须对下一个随机选择的弹珠的颜色下注,你应该押注它更有可能是红色。
我们将每个红色弹珠称为“命中”,将绿色弹珠称为“未命中”,总样本量为命中加上未命中。仅基于这些有限的观察,我们使用以下公式来估计下一次抽奖中出现“中奖”的概率。我们首先假设,在这六次随机抽奖之前,我们不知道命中的真实比例是多少(从0%到100%,所有可能性都是同等的)。拉普拉斯表明,下一次抽奖为红色的概率为(1+命中)/(2+样本量)。这被称为拉普拉斯继承规则(LRS)。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...