在容量管理的日常巡检中,不仅仅要注意单机本身存在的低使用率问题,也要发现单机的部分资源是否处于充足状态,这个也是个大问题,最常见的就是磁盘满了,服务直接终止,欲哭无泪。
我们的解决方案也很简单,除了对主机的CPU、磁盘、内存设置固定阈值的告警之外,每日的容量巡检工作也要对对所有主机及所属资源进行检查,并且判断主机的资源是否处于充足状态,判断逻辑还有是当前指标与历史指标的差距、当前指标的离群值以及当前指标的变化。
历史趋势判断就是根据历史趋势做预测,未来预计会超过预计,则预警,如下个月内存会超过90%。
离群值判定法是与同类型的容量对象作对比,发现低于同类超过20%,则预警
变化率判断是发现增幅变化速度过快,例如磁盘增长速率超过100%/天,则预警
机器上的典型资源有内存、CPU、磁盘、带宽等。