线上问题排查
线上问题精准定位;
es问题排查:应用报错 es访问超时,部分人员定位 代码查询时间范围太大,超过3个月了,es索引按照天创建;经过仔细观察es 监控,发现有一个节点 cpu 使用率异常,cpu使用较正常水平下降 60%;进一步查看es集群日志发现 改节点 发生了持续了 14分钟的fullgc,确认es集群 java版本是jdk11 垃圾回收器是cms, 决定升级垃圾回收器为 g1,测试环境压测对比,上线后 没有再出现es超时;
服务重启,k8s node组部署未添加反亲和性,导致服务重启后 oom 被kill掉,上游找不到服务,大量报错