入群须知:
改善人力因素的工具
到目前为止所审查的研究可能会让人觉得专家评估风险的空间很小。我们根本不做这种事。当我们能够根据客观观察和历史数据建立合理的数学模型时,我们就应该这样做。尽管如此,我们承认仍有几项任务需要专家完成。专家是风险分析的一个组成部分,我们无法删除,但我们可以改进。
专家必须首先帮助确定问题。他或她必须评估数据不明确或条件与现有统计数据不完全相符的情况。专家还必须提出必须经过测试的解决方案。
事实上,我们的目标是提升专家。我们希望将网络安全专家视为风险评估系统的一部分。就像赛车或运动员一样,它们需要受到监控和微调以获得最佳性能。Expert实际上是一种可以“校准”以提高其输出的测量仪器。
还值得注意的是,我们即将列出的挑战都不是网络安全职业所独有的,但该职业确实有一些特征,使其属于容易受到“未经校准”判断的职业之一。网络安全可以借鉴其他依赖专家判断的技术性很强的工程领域,这些领域有特定的方法来跟踪和校准专家的判断。例如,核管理委员会(NRC)认识到在风险评估过程的几个步骤中需要专家的意见。NRC关于专家判断的使用和引出的报告指出:
专家判断本身有效,并且与其他数据具有可比性。所有数据都是现实的不完美表述。与任何数据一样,专家判断数据的有效性可能会根据收集数据的程序而有所不同。所谓的“硬”数据,例如从仪器中获取的数据,由于随机噪声、设备故障、操作员干扰、数据选择或数据解释等问题,不能被认为是完美的。所有数据的有效性各不相同。专家判断的有效性在很大程度上取决于专家对领域的认知表征的质量和表达知识的能力。专家判断的引出是一种可以审查的数据收集形式;判决的使用也可以而且应该受到审查。
我们同意。我们必须像审查任何其他测量仪器一样审查专家。我们认为网络安全专家是必不可少的最终是任何风险分析中不可替代的组成部分。即使新数据源的出现将允许对风险进行更多定量分析,但在可预见的未来,网络安全仍将继续依赖网络安全专家。由于训练有素的专家将发挥关键作用,我们需要特别注意他们在各种关键任务中的表现。正如我们不能仅仅依靠测量仪器来衡量其自身的准确性一样,我们也不能依靠专家本身来评估他们自己的表现。
正如我们之前所做的那样,我们将首先查看有关该主题的现有研究。我们想要考虑专家使用的工具,以及它们是否真正有助于或损害他们的判断价值。
主观概率成分
风险分析的一个关键组成部分是网络安全专家对网络安全漏洞等事件发生可能性以及这些事件发生时的潜在成本的评估。无论他们使用明确的概率还是非定量的言语尺度,他们都需要判断一种威胁是否比另一种威胁更有可能发生。由于我们可能必须在某种程度上依赖专家来完成这项任务,因此我们需要考虑如何衡量专家在这项任务上的技能以及这些测量结果显示的内容。
这是一个有据可查的研究领域,基于许多不同领域的专家和非专家的记录判断。每项研究都采用类似的方法。从个人那里收集大量估计值,然后与观察到的结果进行比较。这些研究结果是结论性的,并被每项研究这个问题的研究重复:
如果没有训练或其他控制,几乎我们所有人都会分配与观察到的结果显着偏差的概率(例如,在我们说我们有90%的置信度的所有时间中,预测结果发生的频率远低于90%的时间)。
有一些方法,包括培训,可以极大地提高专家估计主观概率的能力(例如,当他们说自己有90%的信心时,结果证明他们在大约90%的情况下是正确的)。
一个与不同职业(即企业首席财务官(CFO))研究相关的例子说明了这些研究的典型结果。美国国家经济研究局2010年的一项研究要求首席财务官提供对标准普尔500指数年回报率的估计。21这些估计值以范围的形式给出,给出了下限和上限,这些值是范围足够宽,以至于CFO相信他们有80%的机会在该范围内包含正确答案。我们可以将这些称为80%置信区间(CI)。22通过简单的等待,很容易确认给定时期内的实际回报是多少的时间。尽管首席财务官在其职位上经验丰富且受过良好教育,但他们80%的CI实际上仅在33%的情况下包含真实答案。他们认为,只有20%的情况下,他们提供的范围不包含正确答案,但事实上,67%的情况下答案超出了范围。这是一个远高于他们预期的“惊喜”率。
这是过度自信的衡量标准。专家的置信度(在本例中以80%CI的宽度表示)包含正确答案的频率远远低于专家的预期。换句话说,他们并没有80%的机会获得包含最终观测值的规定区间。不幸的是,这种现象并不仅限于首席财务官。过去几十年的多项研究证实,过度自信是几乎所有人的普遍特征。自20世纪70年代以来,校准概率评估一直是大量已发表研究的研究领域,最初由Daniel Kahneman和Amos Tversky领导。他们的研究表明,许多不同职业的几乎所有人都像前面提到的首席财务官一样过度自信。
这项研究并不纯粹是学术性的。它影响现实世界的判断并影响解决实际问题所采取的行动。作者之一(Hubbard)在过去20年里有机会收集了有关这一现象的最大数据集之一。哈伯德已经对来自多个不同行业、专业和管理级别的2,000多名人员进行了测试和培训。如前所述,截至撰写本文时,这些研究中有超过150个主题专门针对网络安全领域。
为了衡量专家分配主观概率的程度,哈伯德给他们进行了一系列与大多数其他研究类似的测试。在最初的基准测试中(在任何旨在提高估计技能的培训之前进行),哈伯德会询问参与者他们的90% CI,以估计一般琐事知识(例如,艾萨克·牛顿出生的时间,帝国大厦有多少米高),ETC。)。大多数人提供的范围仅包含大约40%到50%的正确答案,与前面提到的研究人员观察到的情况类似。
当将概率应用于离散事件时,例如网络攻击是否会导致今年的重大数据泄露,也会出现过度自信的现象。当然,单个事件的结果通常并不能很好地表明先前所述的概率有多现实。如果我们说某个事件到明年年底发生的可能性为25%,那么无论它是否发生并不能证明该概率不切实际。但是,如果我们跟踪许多专家进行许多概率评估,那么我们就可以以更有效的方式将期望与观察结果进行比较。
例如,假设一组专家给出了1,000个特定事件的概率估计。这些可能是在规定的时间内发生的最小规模的数据泄露,损失超过1000万美元,等等。假设对于其中100个估计,他们表示对结果有90%的把握。那么所陈述的结果应该发生大约100次中的90次。我们预计会因随机运气而出现一些变化,但我们可以计算(正如我们稍后将展示的)有多少随机误差是可以接受的。另一方面,如果他们说自己有90%的信心,100次中只有65次是对的,那么结果会比我们仅仅因为运气不好而预期的结果要糟糕得多(如果只有运气不好,那么只有689亿分之一他们有可能经常犯错)。因此,更有可能的解释是,专家们只是对他们应该不太确定的事件应用了过高的概率。幸运的是,其他研究人员进行的实验表明,可以通过应用一系列估计测试来训练专家更好地估计概率,为专家提供大量快速、重复、清晰的反馈以及提高主观概率的技术培训。25简而言之,研究人员发现评估不确定性是一项通用技能,可以通过可测量的改进来教授。也就是说,当经过校准的网络安全专家表示他们有85%的信心认为其行业将在未来12个月内发生重大数据泄露事件时,实际发生的可能性为85%。
同样,在这个“组件”上进行衡量的不同人群不仅包括首席财务官,还包括医生、工程师、情报分析师、学生、科学家、项目经理等等。因此,可以合理地说,这些观察结果可能适用于每个人。请记住,以防万一有人试图证明网络安全专家与已衡量的所有其他领域不同,哈伯德的数据确实包括来自许多行业的150多名网络安全专家。他们在第一次测试中的表现与其他职业一样差。我们还观察到,他们在培训期间取得了显着的进步,就像哈伯德测试过的所有其他领域的人一样,并且大约相同比例的人在培训结束时成功地进行了校准(85%到90%的专家进行了校准)。
在第七章中,我们将更详细地描述这种训练及其效果。我们将解释您如何通过一些练习来校准自己以及如何随着时间的推移衡量您的表现。这项技能将成为开发更先进的定量模型的起点。
专家一致性组件
最终,测试相对于过度自信的主观概率校准意味着等待观察到的结果实现。但另一种类型的校准可以非常快速、轻松地观察到,而不必等待预测结果发生或不发生:我们可以衡量专家的一致性。也就是说,与是否判断是准确的,我们也应该期望专家在给出完全相同的情况时始终如一地给出相同的答案。当然,一致的答案并不意味着答案有什么好处,但我们知道,两个矛盾的答案不可能都是正确的。不一致的程度必须至少是估计误差的下限。在一个极端情况下,如果“专家”每次看到完全相同的问题时都会给出截然不同的答案,那么这与忽略所提供的信息并从碗里的纸条中随机挑选估计值的人没有什么区别。我们不必等待预测事件发生才能评估该专家的一致性。同样,即使研究人员与他们自己之前的判断完全一致,但给出的答案却与其他专家截然不同,再说一遍,我们至少知道它们不可能都是对的(当然它们也可能都是错的)。幸运的是,专家表现的这些组成部分也经过了详细的衡量。20世纪60年代的研究人员给这两种一致性衡量标准起了名字:
稳定性:专家对相同情况(同一专家、相同数据、不同时间)的判断与自己之前的判断一致;
共识:一个专家与其他专家的一致意见(相同的数据,不同的专家)。
在最近的工作中,丹尼尔·卡尼曼在他的著作《噪音:人类判断力的缺陷》中总结了这一领域的研究。27他将缺乏稳定性称为“场合噪声”,并将缺乏共识分为“水平噪声”和“模式噪声”,但除此之外,概念和研究结果与早期研究一致。
迄今为止,在每个测试领域中,我们发现专家在几乎每个判断领域的稳定性和共识方面都高度不一致。无论是项目经理估算成本、医生诊断患者还是网络安全专家评估风险,这种不一致都适用。
在二十世纪初这种专家一致性测量的一个例子中,研究人员给了几位放射科医生一堆96张胃溃疡的X光片。要求每位放射科医生判断溃疡是否为恶性肿瘤。一周后,同样的放射科医生又接受了另一组96张X光检查以进行评估。放射科医生不知道的是,它们实际上是与以前相同的X射线,但顺序不同。研究人员发现放射科医生有23%的时间改变了他们的答案。
如果我们在这种情况下询问专家,列表的任意顺序是否应该影响他们的判断,他们都会同意不会。然而研究告诉我们,像这样的列表的任意顺序实际上确实会影响他们的判断。
不一致的一个特殊根源出现在另一种常见的判断类型中。在估计数字时,专家可能会受到“锚定”效应的影响。即使对于完全不相关的问题,仅仅考虑一个数字也会影响后续估计的值。研究人员展示了使用任意值(例如一个人的社会安全号码或随机生成的号码)如何影响随后的估计,例如某个地区的医生数量或eBay上的商品价格。
为什么像锚定这样的随机、不相关的因素不应该影响网络安全专家的判断呢?我们有很多机会收集有关这一点的信息,这些数据的摘要如下:
截至撰写本文时,哈伯德和他的团队在多个单独的项目中校准了来自20多个组织的150多名网络安全专家,并要求他们估计各种类型网络安全事件的概率。这些项目面向来自六个不同行业的客户:石油和天然气、银行、高等教育、保险、零售和医疗保健。这些专家中的每一位之前都完成了校准的概率评估培训。
每位专家都获得了组织中80到200个不同系统或威胁场景的一些描述性数据。场景类型和提供的数据因客户而异,但可能包括有关存在风险的数据类型、涉及的操作系统、现有控制类型、用户类型和数量等的信息。
对于每个系统、场景或控制,每位专家都被要求评估最多六种不同类型事件的概率,包括机密泄露、未经授权的数据编辑、未经授权的资金转移、知识产权盗窃、可用性中断和控制措施可以在多大程度上降低可能性或影响。
总的来说,对于所有接受调查的专家来说,对80到200种情况中的每一种情况评估了2到6个概率,我们有超过60,000份单独的概率评估。
专家们在提供这些估计时没有被告知,他们得到的列表包括一些重复的场景对。换句话说,列表第九行中为系统提供的数据可能与第九十五行中提供的数据相同,第十一行可能与第八十一行中提供的数据相同,依此类推。每位专家在列表中都有多个重复项,截至撰写本文时,总计超过3,700对重复项。
为了衡量不一致性,我们只需将专家提供的第一个估计与他们对相同场景的第二个估计进行比较。图4.1显示了相同的第一次和第二次估计如何情景比较。为了更好地显示图表中相同位置的大量点的集中度,我们在每个点周围添加了一些随机噪声,以便它们不会全部直接绘制在彼此之上。但添加的噪声与整体效果相比非常小,并且噪声仅用于此图表的显示(不用于结果的统计分析)。
图4.1重复场景一致性:同一法官对同一场景的第一和第二概率估计的比较
我们观察到,26%的情况下,第一个估计值和第二个估计值之间的差异大于10个百分点,例如,第一个估计值是15%,第二个估计值是26%。有些差异更为极端。甚至还有2.7%的人差距超过50个百分点。有关这些响应不一致的摘要,请参见图4.2。
尽管这看起来不一致,但实际上比看起来更糟糕。我们不得不将这种不一致与专家的“歧视”进行比较。也就是说,对于给定类型的事件,专家的反应有多大差异?估计的概率因所评估的风险类型而有很大差异。例如,可用性风险(系统崩溃)的概率通常高于完整性风险,即有人实际上可以通过未经授权的交易窃取资金。如果对于给定的情况,专家的所有回答仅在2%到15%之间变化风险类型(例如,重大数据泄露的可能性),那么5或10个百分点的不一致将构成法官改变答案的很大一部分。
图4.2不一致分布总结
一致性在一定程度上衡量了专家考虑每种情况的认真程度。对于一些专家来说,不一致是造成歧视的主要原因。请注意,如果不一致等于歧视,那么如果专家只是随机选择概率而不管提供的信息如何,我们就会观察到这种情况。在我们的调查中,大多数法官似乎至少尝试仔细考虑所提供信息的回答。尽管如此,我们发现至少21%的歧视是由不一致造成的。这是专家判断的一个重要部分,反映的只是个人的不一致。
我们应该注意到,一小部分重复项是由参与者发现的。有些人会发送一封电子邮件说:“我认为您的调查有误。这两行具有相同的数据。”但发现重复的人没有人发现超过两个,而且大多数人都没有发现。更重要的是,估计者发现一些重复只会减少观察到的不一致。事实上,他们碰巧注意到了一些重复项,这意味着它们的一致性被测量为高于其他情况下的一致性。换句话说,不一致性至少与我们所显示的一样高,而不是更低。
幸运的是,我们还可以证明这种不一致性是可以减少的,这将导致估计结果的改进。我们可以统计“平滑”专家使用数学方法的不一致减少了专家的估计误差。作者有机会将这些方法专门应用于网络安全(图4.1中显示的不一致数据来自我们应用这些方法的实际项目)。我们将在本书后面更详细地描述这些方法。
协作组件
我们刚才看到有很多关于个别专家的主观判断的数据,但是关于如何结合许多专家的判断也有有趣的研究。也许最常见的结合专家判断的方法有时在美国军方被称为“BOGSAT”方法,即“一群人围坐在一起说话”方法(请原谅性别特殊性)。专家们在一个房间里开会,讨论事件发生的可能性有多大,或者事件发生后会产生什么影响,直到达成共识(或者至少直到剩余的反对声音平息下来)。
我们可以应用不同的数学方法来结合判断和不同的方式来允许专家之间的互动。因此,正如我们对其他组件测试所做的那样,我们询问某些方法是否明显优于其他方法。
例如,一些研究表明,通过简单地对几个个体进行平均可以减少个体的随机稳定性不一致。每个专家都独立地做出自己的估计,然后将他们的估计一起平均,而不是在同一个房间开会并试图作为一个小组达成共识。
James Surowiecki所著的《群体的智慧》一书中解释了这种方法及其背后的一些研究。Surowiecki还描述了其他几种协作方法,例如“预测市场”,其显示出比个别专家的估计有可衡量的改进。
哈伯德决策研究中心能够衡量专家稳定性的数据也能够衡量共识。如果法官只是个人不一致——也就是说,他们的稳定性较低——我们会认为法官之间的分歧仅仅是由于随机的个人不一致。然而,专家之间实际的总体分歧超出了仅用稳定性所能解释的范围。除了个人意见不一致外,同一组织的专家之间对于各种因素的重要性以及网络安全攻击的整体风险也存在系统性分歧。
然而,有趣的是,特定组织的网络安全专家提供的答复在某种程度上与同一组织的同行相关。一位专家可能已经估计事件的概率始终高于同行,但导致他们增加或减少概率的相同信息也会对其他专家产生相同的影响。至少他们在“方向上”或多或少是一致的。因此,我们没有观察到不同专家的行为就像他们只是随机选择答案一样。他们在某种程度上彼此一致,正如之前的研究表明,如果我们能够将几位专家放在一起进行平均,他们可以更好地预测结果。
除了多个专家的简单平均之外,还有一些优于平均的强大方法。在第7章中,我们将讨论结合多个专家的估计的其他各种方法。一些“专家聚合”方法始终优于平均方法,甚至优于最佳个体专家。
分解成分
我们已经看到,专家的表现不如基于客观历史数据的统计模型。但是仍然基于主观估计的定量模型又如何呢?专家是否有可能仅使用他们当前的知识来构建模型,其效果优于没有定量模型的情况?研究表明是的。
从20世纪70年代到90年代,决策科学研究人员Donald G.MacGregor和J.Scott Armstrong分别或共同进行了实验,研究分解可以在多大程度上改进估计值。34在他们的各种实验中,他们招募了数百名受试者来评估估计的难度,例如给定硬币的周长或美国每年生产的男士裤子的数量。一些受试者被要求直接估计这些数量,而第二组则被要求估计分解变量,然后用这些变量来估计原始数量。例如,对于关于裤子的问题,第二组将估计美国男性人口、男性每年购买的裤子数量、海外制造的裤子的百分比等等。然后将第一组的估计(在没有分解的情况下进行的)与第二组的估计进行比较。
阿姆斯特朗和麦格雷戈发现,如果第一组的估计误差相对较小,那么分解就没有多大帮助——就像估计美国50美分硬币的周长(以英寸为单位)一样。但是,如果第一组的误差很高(例如对美国制造的男士裤子或每年车祸总数的估计),那么分解就会带来巨大的好处。他们发现,对于最不确定的变量,简单的分解(其中变量都不超过5个)可以将误差减少多达10倍或甚至100个。想象一下,如果这是一个具有很大不确定性的现实世界决策。分解本身当然值得花时间。
即使输入本身是主观估计,明确地进行数学计算也可以消除错误来源。如果我们想估计拒绝服务攻击对给定系统的金钱影响,我们可以估计持续时间、受影响的人数以及受影响的每个人每单位时间的成本。然而,一旦我们有了这些估计,我们就不应该仅仅估计这些值的乘积——我们应该计算乘积。正如我们之前所表明的,由于我们在此类计算中往往会犯一些直觉错误,因此我们最好直接进行数学计算。对于许多研究人员来说,显而易见的是,我们最好在头脑中明确地进行任何数学运算。正如米尔在他的一篇论文中提到的:
“当然,我们都知道人类大脑的加权和计算能力很差。当你在超市结账时,你不会盯着成堆的商品然后对店员说:‘嗯,在我看来,它的价值约为17美元;你怎么认为?'店员把它加起来。”
尽管如此,并非所有分解都具有如此丰富的信息。“过度分解”问题是可能的。36我们分解的原因是我们对某些事情的不确定性比对其他事情的不确定性要少,并且我们可以根据前者来计算后者。然而,如果我们对将问题分解成的变量没有更少的不确定性,那么我们可能不会取得进展。事实上,糟糕的分解可能会让事情变得更糟。后面,我们将更详细地讨论所谓的“无信息分解”。即使假设您的分解对您有用,也有几种分解策略可供选择,并且我们不会从特定的立场开始,以确定哪些分解提供的信息更多。由于组织所掌握的信息不同,最佳分解方法可能因组织而异。但是,正如我们将在其他章节看到的,关于分解是否真正减少了不确定性,存在一些严格的数学规则。我们应该使用这些规则以及经验测量的绩效来确定给定组织的最佳分解方法。
摘要和后续步骤
“根据我的经验……”通常是应该谨慎考虑的句子的开头,尤其是在评估专家本身时。即使我们的经历加起来,也是有原因的几十年来,可能不是某些主题的可靠信息来源。由于分析安慰剂,我们不能简单地通过我们是否感觉更好来评估自己在估计任务中的表现。评估专家和他们使用的方法需要我们看看他们背后的科学研究。研究明确指出以下结论:
只要有可能,首选基于客观历史数据的明确的定量模型。专家的作用主要是设计和建立这些模型,而不是负责个人估计。
当我们需要估计概率和其他数量时,可以训练专家提供可与观察到的现实进行比较的主观概率。
专家的不一致可以通过数学和协作方法来调节,以改进估计。当使用多个专家时,即使是专家的简单平均值似乎也比单个专家有所改进。
分解可以改善估计,尤其是在面临非常高的不确定性时。强制计算明确而不是专家“头脑中”的模型可以避免专家容易犯的许多推理错误。
在本章中,我们对不同风险评估方法的衡量集中于先前发表的对风险评估过程各个组成部分的科学研究,包括估计概率的替代工具(使用专家或算法)、如何控制不一致、如何协作以及分解的影响。我们完全专注于我们的研究表明替代方法如何显着改善结果的组件。
第3章中介绍的方法的每个组成部分,以及我们从现在开始介绍的所有内容,都将以这项研究为指导。我们采用的任何方法组件都是有研究支持的。同样重要的是,我们没有采用任何已被证明会增加错误的方法。网络安全风险评估的重要性要求我们必须不断寻求方法的改进。我们必须坚持怀疑态度,迫使我们问:“我怎么知道这有效?”
稍后,我们将描述如何超越现有研究,以统计上合理的方式跟踪您自己的数据,这可以进一步减少不确定性,并让您不断改进风险评估方法。在下一章中,我们将继续基于现有研究进行组件级分析,但我们将重点关注那些要么表明没有任何改善,甚至让事情变得更糟。我们需要这样做,因为这些组件实际上是网络安全中最广泛使用的方法和标准的一部分。因此,现在是我们正面解决这些问题的时候了,同时回应对使用我们刚刚推荐的定量方法的常见反对意见。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...