容器CPU飙升的排查 | 云深不知处

type

status

date

slug

summary

1.背景

现象：某段时间开始，频繁出现微服务A的CPU 100%的情况，CPU超限的pod通常不止一个。而且CPU上去后就下不来，只能重启deployment或者删除pod。日志里存在”outofmemoryerror: java heap space”。业务流量和正常情况没有大的差别。

由于日志存在heap oom记录，研发排查可能导致死循环或者类似的代码场景，未果。

某次发现pod CPU超限的同时，网络in方向飙升，超100Mbps，难以置信。第一反应是排查公网in方向的流量，但的确没有大的变化。接着是代理，也没发现。不过只有out方向才走代理，没发现是正常的。

重点来了，检查mongo的网络发现pod CPU飙升的前两分钟mongo 网络out方向飙升，超100Mbps。再加上研发查不出死循环这类缺陷，此问题的根源可能是mongo查询返回的量巨大。

以上