G.O.S.S.I.P 学术论文推荐 2021-01-19

今天给大家推荐的是来自Wisec 2020的一篇论文——"Peek-a-Boo: I see your smart home activities, even encrypted!"。作者提出了一种针对物联网用户隐私的多阶段攻击，攻击者能够通过嗅探智能家居设备的通信流量，利用机器学习的方法来检测和识别设备的类型、状态以及用户的行为。

作者假设攻击者位于目标用户智能家居设备的无线通信范围内，并且能够嗅探到智能家居无线网络中传输的各种通信流量，主要针对三类设备：WiFi，ZigBee以及BLE设备。

如表2所示，作者选择了22台流行的智能家居设备用于收集网络流量数据集；将设备安装在实验网络中，模拟用户输入以触发设备状态改变；对收集到的设备流量进行模型训练和离线分析；最后，作者使用不同的指标对不同阶段的攻击进行了评估。

该攻击主要包含四个阶段，如图2所示。

阶段1：设备识别：将每台设备唯一表示为<brand, device-type>。

特征提取：提取的相关特征包括平均数据包长度，平均到达时间以及数据包长度的标准差。
测试：作者使用kNN分类算法对设备进行识别，准确率高达93%。

阶段2：设备状态检测：检测设备状态变化

作者观察到当设备与用户交互时会传输大量数据，从而使得数据流量速率发生明显变化，并且对于相同的活动，设备会进行几乎相同速率的数据传输。当没有活动时，设备仅会发送最少量的数据包（heartbeat）以最大程度的降低功耗。
特征提取：该阶段作者将流量数据划分为时间间隔为W（W约为活动持续时间的1/4）数据包，提取的特征包括平均数据包长度、平均到达时间、数据包大小的绝对中位差。

阶段3：设备状态分类：确定目标设备的状态

特征提取：作者使用tsfresh工具来计算时间序列的特征，以此构造特征向量。其中，提取的特征包含时间序列的长度、均值、中位数、熵、方差、快速傅里叶变换系数等。
特征选择：由于大量的特征会（包含冗余和不相关的部分）造成误差，作者利用随机决策树集合技术来确定单个特征的重要性，并且计算每个特征的相对重要性，将不重要的特征丢弃。

阶段4：用户行为推断

用户行为建模：如要完成活动，用户必须遵循特定的子活动序列并完成每个步骤。因此可以根据从设备捕获的网络流量来推断特定时间段内的设备状态，进一步推断用户正在进行的活动。
特征提取：提取的特征包含定时信息、传感器信息、设备状态、位置等。
测试：作者预先收集了模拟环境中15位用户一周的活动数据，并使用HMM对用户活动进行建模，最后对用户行为推断模型进行了评估，结果如表7。

在文章的最后，作者还给出一种抵御这种针对用户隐私多阶段攻击的方案，方案的基本原理是通过生成欺骗流量（注入虚假数据包），来使攻击者无法准确的推断用户和设备活动和状态。

总的来说，本文主要描述了一种针对物联网设备通信流量的被动攻击，该攻击通过对嗅探得到的流量（加密或者未加密）进行特征提取、训练模型，能够实现设备类型、状态识别以及用户行为的推断，从而泄露用户隐私。由于本文所使用的机器学习方法均为已有方法，因此文章的创新点主要在于加密流量特征的提取，这些特征大多与设备地址和数据包长度、时间相关。

在2018年的CCS上也有一篇与物联网加密流量分析相关的论文 "HoMonit: Monitoring Smart Home Apps from Encrypted Traffic"，两篇文章均利用侧信道的方式（数据包的长度、个数、时间等）来推断设备状态。不同的是，CCS 2018的这篇论文通过对源码和UI进行分析来构建出DFA模型，以此实现对设备行为的监测。感兴趣的同学可以结合阅读。

原文PDF：

https://wisec2020.ins.jku.at/proceedings/wisec20-82.pdf

HoMonit: Monitoring Smart Home Apps from Encrypted Traffic:

https://dl.acm.org/doi/10.1145/3243734.3243820