Top命令失效，内存用到哪了？

引言

在现代的高性能服务器环境中，内存是系统性能的核心资源之一。然而，当内存使用率突然飙升，服务器响应变慢甚至服务崩溃，使用top命令无法明确找到占用内存较多的进程时，这种现象不仅让人感到困惑，也对系统的稳定性和性能优化带来了巨大的挑战。

对于系统管理员和开发人员来说，这种问题的排查不仅需要深厚的技术功底，还需要对系统底层机制的深刻理解。尤其是在现代系统中，内存分配机制变得更加复杂，涉及缓存、共享内存、虚拟内存等多个层面。当这些机制出现问题时，传统的排查方法可能显得力不从心。

今天，我们就来深入探讨这种“内存使用率高但无法定位具体进程”的复杂场景，分享一些实用的排查思路和工具，帮助大家在面对类似问题时，能够快速找到根源并解决问题。

排查思路

确认全局内存分布

free -h

free用于显示系统内存的使用情况。它主要显示物理内存（ram）、虚拟内存（swap）的总量、已用内存、空闲内存以及缓冲区内存使用情况等信息。
输出示例中各列的含义
total：总内存（物理内存或虚拟内存）。
used：已使用的内存。
free：完全空闲的内存。
shared：多个进程共享的内存区域（如共享库占用的内存）。
buff/cache：用于缓存的内存（包括磁盘缓存、inode和目录项等）。
available：可用内存（free + buff/cache中可以回收的部分）。

cat /proc/meminfo | grep -E 'MemTotal|MemFree|Cached|Slab|Shmem:'

/proc/meminfo文件是Linux系统中一个非常重要的文件，它提供了系统的内存使用情况的详细信息。
输出示例中各字段的含义
MemTotal：系统的总物理内存（以KB为单位）。
MemFree：表示当前未被使用的物理内存。
Cached：系统为提高性能而缓存的内存，这部分内存可以被回收，若该值异常高（超过总内存40%~50%），且无大量文件读写需求，可能缓存未释放。
SwapCached：从swap空间交换到物理内存的缓存数据（以KB为单位）。
Shmem：表示系统中用于进程间通信的共享内存区域，如该值较高则可通过ipcs -m命令进行查看。
Slab：表示内核用于存储和管理对象（如inode、目录项）的缓存内存，若该值异常高（超过总内存20%），则可能内核对象缓存泄漏，可通过slabtop进一步分析。

分析进程真实内存

1. 使用smem工具获取准确内存数据

smem提供了比top更精确、更全面的内存使用分析，特别是在涉及共享内存的环境中，其提供了多种内存度量标准，包括USS（Unique Set Size）、PSS和RSS，帮助用户了解进程的独占内存、共享内存分摊后的内存以及实际占用的物理内存。

（1）安装smem

yum install -y epel-releaseyum search smemyum install smem -y

（2）smem内存分析

smem -s uss -r -p | head -n 10   //按实际物理内存（USS）排序

USS (Unique Set Size)：进程独占的物理内存，不包含共享内存，若某个进程USS值接近或超过其预设内存限制（如JVM的Xmx值），可能存在内存泄漏
RSS (Resident Set Size)：常驻集大小，表示该进程在物理内存中实际占用的大小，包括共享内存，若无共享可能性的进程出现高RSS/低USS，需用pmap进一步分析。

2. 使用ps命令

ps aux --sort=-%mem | head -n 20

%MEM：进程占用物理内存百分比，若单个进程%MEM超过总内存30%需要重点关注，分析该内存占用是否正常。
VSZ：虚拟内存大小（包含未使用的分配内存）
RSS：实际使用的物理内存（含共享库），若该值一直上升且无上限则可能存在内存泄漏的风险。

3. 分析隐藏进程

恶意软件或隐藏进程可能通过修改系统工具（如ps）来隐藏自己，为确保所有进程都被正确识别，遗漏关键信息，可通过以下方法，发现这些隐藏进程，对可疑进程进一步分析。

方法1：对比proc与进程列表

ls /proc | grep -E '^[0-9]+' | sort -n > proc_pids.txtps -e -o pid= | sort -n > ps_pids.txtdiff proc_pids.txt ps_pids.txt

方法2：使用unhide工具

unhide proc

若diff结果中出现/proc中有但ps不显示的PID，或unhide检测到隐藏进程（输出"Found HIDDEN PID: XXXX"）则需对这些进程进一步分析，检查/proc/pid/exe是否指向异常路径，cat /proc/pid/maps查看内存映射。

内核内存分析

1. 分析内核内存

内核内存（Slab缓存）用于管理核心数据结构的对象池（如进程描述符、网络连接、文件系统元数据等）。当出现Slab值异常（如超过总内存20%），出现无法解释的内存周期性增长，性能问题（如文件操作变慢、网络延迟）等，可通过slabtop命令分析。

slabtop -o

ACTIVE：活跃的对象数量（当前正在使用的对象数量）
USE：表示ACTIVE / OBJS的百分比，USE%持续<50%且缓存量大（可能存在无效缓存堆积）。
OBJ SIZE：每个对象的大小（字节），若存在异常大对象（如>1MB）需警惕。
OBJ/SLAB：每个slab中包含的对象数量
CACHE SIZE：缓存使用的总大小（KB）
NAME：缓存名称（如dentry表示目录项缓存，buffer_head表示文件缓冲头）

2. 关键缓存对象

dentry：目录项缓存，与文件系统有关。如果此缓存过大且无法释放，可能是某些程序频繁访问大量目录造成的，可以通过清理文件系统或调整内核参数来解决。

inode_cache：文件inode的缓存，与文件系统的文件和目录节点有关。

buffer_head：文件系统的数据缓冲头缓存。

TCP相关缓存：如TCPv6、nf_conntrack等，若slab显示该类对象超过GB级，则可能遭遇网络攻击。

排查共享内容

共享内存是进程间通信（IPC）的高效方式，但管理不当可能会导致进程异常退出后未释放共享内存或无限制的共享内存分配引发OOM（Out-Of-Memory）。当free或/proc/meminfo显示Shmem值异常（如超过总内存20%）或系统可用内存持续减少但进程内存无异常时有必要通过ipcs命令对共享内存进行分析。

bytes： 共享内存段大小，正常与应用需求匹配，若该值异常大，则需进一步审查。
nattch：附加进程数，若nattch=0但bytes≠0则可能存在内存泄漏。
status：内存段状态，通常该字段为空，若为dest表明该段被标记销毁（可能仍有进程使用）。
perms：共享内存段的权限。以八进制表示，类似于文件权限，例如600表示只有所有者可以读写。
owner: 共享内存段的创建者用户，若存在未知用户创建的共享段则需警惕。

系统日志排查

在内存异常场景中，日志分析是定位根因的关键环节，这些日志可以提供系统运行状况和诊断问题的关键信息。

dmesg -T | grep -i 'out of memory'grep -i 'killed process' /var/log/messages*

通过查看内核日志、/var/log/messages等系统日志文件，寻找与内存使用相关的错误或警告信息。例如“Out of memory”：这个关键词表示系统内存不足，系统可能已经启动了OOM（Out of Memory）来终止某些进程；“kill process”：若与“Out of memory”一起出现，表示系统正在杀死进程以回收内存；“Failed to allocate”：可能表明系统在尝试分配内存时失败。

总结

当遇到内存使用率高但无法通过top命令定位到具体进程时，需要从多个角度进行排查。首先通过free命令及/proc/memino文件对系统内存有个全局的认识，然后深入检查缓存、虚拟内存、内核线程、隐藏进程和系统配置。如果仍然无法定位问题，可以使用smem、ps等工具进一步排查，或者通过系统日志进行更深入的分析。通过这些步骤，通常可以找到导致内存使用率高的原因，并采取相应的解决措施。

参考文章

[1]

[2]

[3]

文章作者| 王梦娇