2024.07.29-2024.08.04
每周文章分享
标题: A lightweight multi-layer perceptron for efficient multivariate time series forecasting
期刊: Knowledge-Based Systems, vol. 288, pp. 111463, 2024.
作者: Zhenghong Wang, Sijie Ruan, Tianqiang Huang, Haoyi Zhou, Shanghang Zhang, Yi Wang, Leye Wang, Zhou Huang, Yu Liu.
分享人: 河海大学——朱松柏
01
研究背景
多元时间序列(MTS)预测对于交通管理和能源调度等决策和规划至关重要。随着智慧城市和边缘计算的发展,加快 MTS 数据的处理有利于资源受限环境(例如网络边缘和移动设备)下激增的服务工作。然而,在边缘设备上的实时预测需要迅速响应的某些场景下,计算密集型模型实际上很慢。因此,有效且高效的 MTS 预测已成为持续的实际需求。当前大多数深度学习研究(例如时空图神经网络和 Transformer)都未能在性能和效率之间进行权衡。现有的 MTS 预测研究尚未完全同时解决诸如时间依赖性和变量依赖性建模以及时间局部性等问题,阻碍了更广泛的应用。提出了一种基于MLP(多层感知机)的算法,通过将时间序列在时间维度上移动,对变量依赖性和时间局部性进行建模。
02
关键技术
多元时间序列预测的目的是根据T个时刻的历史数据预测τ个时刻的未来数据,每个时刻具有多个维度的值。多层感知器(MLP)网络最近在多元时间序列预测中引起了人们的关注。MLP虽然结构简单,但效果却优于许多基于GNN和基于Transformer的方法。多层感知机是一种经典的神经网络模型,由多个神经元层组成。它的结构和功能使其成为深度学习中的重要组成部分。MLP在各种任务中表现出色,如图像分类、文本分类、预测和回归等。MLP的具体结构如图1,包含输入层、隐藏层、输出层。
图1 多层感知机
MLP用于多元时间序列预测时,有三种建模方式,通道依赖在不同通道之间共享权重,旨在发现所有通道之间共享的时间模式;通道独立为每个通道单独建模,专注于学习不同通道的不同时间模式;通道混合在不同的时间步长和通道之间共享权重,共同学习时间模式和跨通道交互,从而实现跨两个维度的通信。
MLP 用于多元时间序列预测仍然面临两个关键问题,使其扩展到 STTF 任务具有挑战性:(1)MLP 的全连接结构具有固有的与位置无关的缺陷。(2) 现有研究主要采用通道无关建模策略,这不仅减少了跨变量依赖性特征的利用率,而且还放大了通道交互噪声的影响。
本文提出了一种用于高效且有效的基于MLP的 MTS 预测的轻量级架构,称为时间序列多层感知器(TSP)。
具体贡献如下:
1)提出了一种无需计算的 Precurrent 机制,它提供了有效的归纳偏差来感知局部时间上下文,从而避免了因使用卷积或自回归过程而产生的效率妥协。
2)提出了 PrecMLP-block,这是一种简单而有效的 MLP 块,由 Precurrent 机制支持,能够感知时间局部性和变量依赖性。
03
算法介绍T
TSP的总体结构如图2(a),采用了编码器-解码器架构。
图2 (a) TSP的整体架构;(b) PrecMLP 的详细布局;(c) 所提出的 Precurrent 机制的详细布局,相同的颜色对应于隐藏状态张量的相同时间戳。
编码器:普通的MLP通常无法利用跨变量交互特征,尤其是当变量相关性变得更加复杂时。因此,采用了广泛用于通道混合策略的典型时间变量 (T2V) 编码器结构,其中时间 MLP(tMLP 和 tFFN)首先沿着时间维度进行操作(将 𝐗 投影到所需的隐藏层维度,R𝑇×D → R𝑇’×D),然后使用沿变量维度操作的变量 MLP (vMLP)。这种建模通过利用每个 MLP 块捕获沿其运行的维度的依赖关系来完成每个维度的输入混合,并通过联合优化实现跨维度特征交互。
解码器:然后,使用 tFFN 作为解码器,它是一个 2 层前馈神经网络来映射R𝑇’×D → Rτ×D进行预测。
PrecMLP:针对时间局部性和变量依赖性。作为 vMLP 的基础层,PrecMLP 设计的总体目标是设计一个能够更好地感知时间局部性和变量依赖性的 MLP 架构,同时减少参数、减少计算量并更容易训练。为此,PrecMLP设计的关键思想在于:(1)残差瓶颈架构(Residual Bottleneck Architecture),它降低了模型容量以保持轻量级,同时还通过下采样到特权主导特征来促进全局变量依赖关系的自监督蒸馏,从而为内层提供更集中的表示。在这里,还提出了一个下采样比率 𝑟 来控制下采样表示𝐡 ∈ R𝑇’×𝐹的大小,其中𝐹 = ⌊𝐷/𝑟⌋。(2)Precurrent机制,提高了时间局部性特征的利用率,且不会产生额外的计算开销;(3)基于范数的门控𝑔,它不仅能够通过将表示归一化为相同分布来减少通道交互噪声的影响,而且还可以通过调节表示来减轻Precurrent机制的计算负担,利用归一化门控的优点。与传统的基于激活的门控不同,这里采用归一化作为门控非线性来调制隐藏特征到下游层的传输:𝑔(𝐳𝟏, 𝐳𝟐) = Norm(𝐳𝟏) ⊙ 𝐳𝟐,其中⊙是逐元素乘法。
Precurrent机制:免计算的时间局部性感知。Precurrent机制可被描述为前一状态和当前状态的特征融合。输出结果迫使后续运算并行处理来自不同时间步的特征。如图 2(c) 所示,给定一个下采样表示,首先将其在变量维度分成两个独立的部分,h1和h2,然后将 𝐡1 沿着时间维度整体向前移动一个时间步,用零填充空余部分并截断多余的部分。移位张量𝐡𝑝𝑟𝑒(即前体张量)然后沿着变量维度与原始张量 𝐡𝑐 = 𝐡2(即当前状态张量)相连接。创建了一个混合表示保留先前和当前状态。
04
实验结果分析T
1)数据集:为了评估 TSP 的性能和通用性,使用 16 个数据集对两个典型的 MTS 预测任务进行了广泛的实验,包括长期时间序列预测 (LTSF) 和流量预测。数据集属性如表3所示。
2)长期时间序列预测,为了评估 TSP 的长期预测性能,遵循先前研究中的实验设置,采用 8 个不同实际应用的数据集,Electricity, Exchange Rate ,Traffic, Weather, and ETT 。如表 4 所示,TSP 优于所有基线。还根据图 3(a) 中的基线可视化了预测性能。与依赖复杂时间先验的模型(例如 Autoformer、Fedformer、TimesNet)相比,TSP 的归纳偏差具有卓越的简单性和适应性。相反,由于 TimesNet 先前对周期性的假设,它不太适合这种情况。这种对比意味着,结合特定的先验知识或受某些模式启发的结构可能并不适用于所有情况。除了利用 Precurrent 来增强局部时间相关性之外,TSP 不依赖于任何额外的先验知识。这使得TSP成为一个通用模型。
3)交通预测,交通数据表现出复杂的模式和可变性,具有高度的时空依赖性。为了评估利用此类特征的能力,采用了 8 个真实世界数据集,包括 5 个基于图的数据集(PEMS03、PEMS04、PEMS07、PEMS08和 METR-LA)和 3 个基于网格的数据集( NYCTaxi、BJTaxi和NYCBike)。结果如表 5 所示,TSP 在基于图的数据集上实现了最佳性能,还在图 3(b) 中可视化了 ST-SSL 的预测性能。
4)效率评估,在图 1 中展示了预测性能、训练速度和参数效率的权衡。与以前最先进的模型相比,TSP 实现了最佳的性能效率权衡,包括最高效的模型(用于 LTSF 和流量预测的 DLinear)和最高性能的模型(用于 LTSF 的 TimesNet 和用于流量预测的 DSTAGNN)。
5)消融实验,为了评估 PrecMLP 设计的有效性,评估了以下变体:(1)TSP-wo𝑔,它删除了基于范数的门控𝑔;(2)TSP-woP,去掉了Precurrent机制;(3) TSP-wo𝑔P,去除Precurrent机制和𝑔,单纯的 MLP;(4) TSP-wotMLP,它消除了 tMLP,仅依赖于建模变量依赖性和时间局部性。结果如表10。TSPwo 𝑔 的性能下降表明,门控显着增强了 Precurrent 模型的优化,通过对特征交互进行去噪和调节表示来释放其潜力。TSP-wo𝑃 表明 Precurrent 作为单独的组件影响最大,突出了局部时间依赖性建模的有效性。TSPwo 𝑔𝑃 作为没有任何附加组件的 MLP,仍然表现良好,凸显了结构设计的有效性。在流量预测方面,观察到 TSP-wo𝑡𝑀𝐿𝑃 导致相对轻微的性能下降。
6)precurrent机制的消融,在图 6(a)中描绘了有和没有 Precurrent 的 TSP 的输出模式。这些模式源自 tFFN 中输出层的嵌入向量对之间的余弦相似度(为了更好的可视化而进行最小-最大归一化)。观察到,如果没有 Precurrent,输出模式是任意且不可解释的,仅在与自身比较时才表现出一致的强相关性。图 6(b) 量化了跨数据集的这一观察结果,进一步表明 Precurrent 机制有效增强了相邻时间步之间的相关性。
7)超参数,PrecMLP 中下采样率 𝐫 的选择可以作为导致每个数据集的变量维度过度拟合的信息冗余水平的指标。充分控制冗余可以提高性能。从图7中可以看出,一方面,当𝐫 = 1(对应于恒等变换)时,与下采样相比,性能较差。另一方面,不同的 𝐫 对性能的影响表现出分段单调性。更改的效果因具体数据而异。
05
总结T
在本文中,提出了一种轻量级模型 TSP,用于高效的多元时间序列预测。
TSP 依赖于所提出的 PrecMLP 和无需计算的 Precurrent 机制来建模变量依赖性和时间局部性,因此简单、有效且通用。通过大量的实验,TSP 展示了与最先进的模型相比具有竞争力的性能,同时享有高效率。
- END -
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
责任编辑:何宇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...