骨干路由器的数据平面的流量拥塞，会影响控制平面吗？

2023年公众号共有68万人的阅读与订阅，感谢朋友们的大力支持！

2024年风雨兼程，不忘初心！

对于现在的骨干网络路由器，有可能数据平面的流量拥塞而影响控制平面吗？比如影响OSPF的hello包、BGP的keep alive数据包传输，使得路由器判断为链路故障，进而重新选择路径?

每个厂家针对这个问题，已经有非常成熟的解决方案。

带宽预留

通常物理接口有一个配置选项叫 Maximum_Available_Bandwidth，知道它是干嘛的？

比如

Maximum_Available_Bandwidth = 90%

什么意思？

代表Data Plane最大的可用带宽为物理接口带宽的90%。

问题来了，剩下的10%带宽做什么用的？

预留给Control Plane使用的。

无论Data Plane如何拥堵，都不怕不怕了。因为Control Plane有自己专属的10%带宽。

以上就是路由器出厂的默认设置。具体每家的预留多少，以及每家使用的命令大同小异。

如果有好事者将以上默认设置修改成Maximum_Available_Bandwidth = 100%，会发生什么？

意味着data plane极端情况下，会将物理接口的带宽全部占满。如果这时发送control plane的流量如OSPF Hello / BGP Keepalive，由于带宽已经占满而丢弃，对吗？

不对！

因为OSPF Hello / BGP Keepalive 如同《红楼梦》里的贾宝玉，生来就自带光环，诞生的时候就被赋予了最高QoS优先级，Precedence = 7 （最高优先级）

作为最高优先级的Control Plane的OSPF Hello / BGP Keepalive，当接口带宽占满，出口队列满的时候是可以插队的，就好比银行柜台那些VIP客人可以强插的原理是一样的。

所以，由于带宽不足导致OSPF Hello / BGP Keepalive丢弃而造成OSPF/BGP Down情况是几乎不会发生的。

但是不要忘记，OSPF/BGP是跑在操作系统上的进程，需要充足的主机CPU/内存资源呵护才能平稳运行。如果主机的CPU资源被其它莫名其妙的进程耗尽（100%占用），那么当需要发送的时候，由于没有CPU资源，难产了。极端情况下，OSPF Hello / BGP Keepalive都无法产生，何谈传输呢？

这也是为何监控平台要时刻监控路由器的CPU资源、内存资源的原因，而不仅仅是带宽资源。

一旦路由器CPU温度过热，会造成CPU计算能力的急剧下降，从而造成CPU资源的短缺，从而影响OSPF / BGP 等进程的平稳可靠工作。

而CPU过热，除了由于计算量巨大引起的，最大的可能是由于风扇停止了工作，空调制冷效果差而引起的，这也是为何监控平台还要监控风扇是否工作正常的原因。

即使CPU、内存、带宽都没有问题的情况下，依然无法保证OSPF Hello / BGP Keepalive校验码出错而丢弃。即使发生这种情况也无需担心，因为只有连续丢失三次OSPF Hello / BGP Keepalive才会Reset邻居关系。连续三次校验码出错是小概率事件。

如果真的发生了连续丢失三次OSPF Hello / BGP Keepalive，大概率是线路问题了，物理链路或者底层网络提供商的载波路径出问题了。

按照单点故障避免的原则，应该有backup线路，流量会自动切换到backup线路。