线上巡检机制可以把它理解为实时的进行轮训监控,如果一旦服务出现问题,触发报警的机制通知相关的人员进行紧急的处理。
本人在工作中一般是半小时或者十五分钟的时间为界定,也就是每隔十五分钟进行轮训的检查。极端的情况是刚轮训检查完,服务是没有任何问题的,然后过了一分钟,服务出现不可用,那么问题就会到下一刻时间才能够知道,也就是知晓问题的暴露时间是十五分钟,如果在你实际的业务形态中,觉得十五分钟还是太长,那么可以设置的时间更短,但是不建议到秒级,因为那么对服务而言也是一种性能的损耗。
确保微服务的可用性需要综合考虑服务本身的健康状况、性能指标、网络状态、依赖服务以及日志和事务的监控。通过结合主动检查和被动监控,可以有效地确保微服务的稳定运行和高可用性。