英文文献阅读-无需人工标签的虚假用户检测

最近面试微博安全的时候，大BOSS提到微博安全一个重要的点就是虚假刷榜行为的检测，这里就涉及到虚假用户的检测，所以阅读了一篇相关文献。

0x00 文献简介

原文标题： SybilBlind: Detecting Fake Users in Online
Social Networks without Manual Labels

原文作者：Binghui Wang, Le Zhang, and Neil Zhenqiang Gong

原文出处：（RAID 2018）

虚假用户往往会被攻击者利用来发动政治安全、经济安全、个人安全等方面的攻击，包括操纵选举、控制舆论、影响股票以及垃圾邮件和钓鱼攻击等。作为业务安全的一部分，社交服务提供商十分重视相关安全层面的检测。

0x01 研究背景

本领域已有研究方法如下：

1 基于结构的方法

随机漫步（Random Walks）和混沌置信传播（LBP）

随机漫步通俗一点说是指我们无法预测运动的下一步动作，但是可以对整个运动的密度分布规律进行掌握，进而进行预测研究的方法。

混沌置信传播是指，马尔科夫随机场中每个节点之间的概率分布会相互干扰，最终在多次迭代中，会达到概率分布的稳态。

社区发现算法（Community Detection Algorithms）

从图结构中找出社群的一系列方法。

2 基于信息的方法

通过对用户内容、用户行为、用户社交结构特征进行分类训练的方法。

其实从这里我们可以看出论文研究中设计模型的两种常见方法，一种是通过理论去计算设计模型，一种是基于实践经验来设计模型，这个问题我觉得可以细聊，这里就不多说了。传统需要 label 的模型存在以下几点问题：

人工标记耗时
无法检测新模式的虚假用户
标记训练集可能被攻击者用于规则逃逸

0x02 论文模型

三部分构成

采样器——检测器——聚合器

采样器对社区图进行相同节点的随机采样标记，检测器利用以前论文中提到的模型进行检测，聚合器根据两个指标进行判别修正检测结果，最后在多次迭代中得到一个趋于稳定的检测模型。

采样器部分提到了随机标记和不同的极化场景，随机标记意味着对于采样结果的区域进行随机label，这时，随机label与真实label之间就会存在差异，这种差异定义为噪声。不同的极化场景会影响已有检测器的性能，正向极化场景下，每个标签域的噪声较小；负向极化场景下，每个标签域的噪声较大；非极化场景下，标签域噪声随机分布。

在这种情况下，利用原有检测器进行检测就会存在问题，因此作者提出对结果进行聚合，聚合的指标主要有两个：

同质性 ，通俗讲就是物以类聚，用公式衡量就是相同属性节点相连的边与所有边的比值。

单边熵 ，衡量虚假用户比例的一个指标，用公式衡量就是虚假用户大于50%，就不正常，单边熵值就为0。其他情况下，单边熵随着虚假用户增加而增加，减少而减少。

在这种情况下，三种场景的对指标的呈现会有不同。

非极化场景下，同质性会很小，这是因为虚假用户和真实用户各占一半。

负极化场景下，同质性大，但单边熵会小，这是因为虚假用户过多。

正极化场景下，同质性大，单边熵也会大，因为虚假用户会维持在一个合理的范围内（不会太大也不会太小）

针对这两个指标评判抽样场景，再决定结果是否应该聚合，最终多次迭代后得到一个虚假用户和真实用户的聚合模型。