🗒️容器CPU飙升的排查
2023-6-1
| 2023-6-1
0  |  0 分钟
type
status
date
slug
summary
tags
category
icon
password

1.背景

  • springcloud+k8s
  • 微服务A用到了mongo+mysql
现象:某段时间开始,频繁出现微服务A的CPU 100%的情况,CPU超限的pod通常不止一个。而且CPU上去后就下不来,只能重启deployment或者删除pod。日志里存在”outofmemoryerror: java heap space”。业务流量和正常情况没有大的差别。

2.思路1

由于日志存在heap oom记录,研发排查可能导致死循环或者类似的代码场景,未果。

3.思路2

某次发现pod CPU超限的同时,网络in方向飙升,超100Mbps,难以置信。第一反应是排查公网in方向的流量,但的确没有大的变化。接着是代理,也没发现。不过只有out方向才走代理,没发现是正常的。
重点来了,检查mongo的网络发现pod CPU飙升的前两分钟mongo 网络out方向飙升,超100Mbps。再加上研发查不出死循环这类缺陷,此问题的根源可能是mongo查询返回的量巨大。
以上
 
技术
  • 排障
  • k8s
  • python递归查询深层嵌套的json运维方法论
    目录