K8S容器调度优先级误设导致集群雪崩踩坑记录
admin
2023-03-28 17:01:25
0

        今天上班的时候,突然收到集群很多容器调度失败的告警,大致如下;

K8S容器调度优先级误设导致集群雪崩踩坑记录

        

        看到大量容器调度失败,里面查了下管理平台,看看这个时间段内有没有哪个业务发布,果然发现有一个转码服务(CPU消耗性)的业务在这个时间点发布了一批任务。但这批任务发布为什么会导致出现一堆任务调度失败呢?

        紧接着我们抽查了几个告警的容器,发现这些容器状态都处于proeempted (抢占)状态,原因只能是有更高优先级的pod调度到这台node节点,把上面原有的pod 排挤走。但是刚刚发布的这个业务并没有设置容器调度优先级,为什么会比其他容器优先级高呢?


K8S容器调度优先级误设导致集群雪崩踩坑记录


        经排查是因为同事在管理平台上调整了容器默认优先级,由原来的默认低优先级修改成高优先级,具体背景是这样:

        前几天有业务反馈他们的业务跑着跑着突然容器挂掉了,最后发现是因为调度了高优先级容器过去导致原本低优先级pod被排挤走。业务方同事觉得这个策略不靠谱,如果大家上来都选择最高优先级,那所有人优先级都一样了,他们建议默认策略改成最高优先级,允许业务按需将优先级调低,优先级低的容器在最后做成本分摊的时候适当打折,于是容器组同事将管理平台上面的容器调度默认优先级修改为最高优先级。


同事将PriotityClasses 中highest-priority 的 globalDefault 设置成了true,也就是说默认所有新调度的容器都将是最高优先级。

查看 PriorityClasses 配置

apiVersion: scheduling.k8s.io/v1beta1

kind: PriorityClass

metadata:

name: highest-priority

value: 400

globalDefault: true


官网上关于priorityClass 做了以下解释

        The globalDefault field indicates that the value of this PriorityClass should be used for Pods without a priorityClassName. Only one PriorityClass with globalDefault set to true can exist in the system. If there is no PriorityClass with globalDefault set, the priority of Pods with no priorityClassName is zero.


        PriorityClass 还有两个可选的字段:globalDefault 和 description。globalDefault 表示 PriorityClass 的值应该给那些没有设置 PriorityClassName 的 Pod 使用。整个系统只能存在一个 globalDefault 设置为 true 的 PriorityClass。如果没有任何 globalDefault 为 true 的 PriorityClass 存在,那么,那些没有设置 PriorityClassName 的 Pod 的优先级将为 0。


注意

1、If you upgrade your existing cluster and enable this feature, the priority of your existing Pods is effectively zero.

如果您升级已经存在的集群环境,并且启用了该功能,那么,那些已经存在系统里面的 Pod 的优先级将会设置为 0。


2、Addition of a PriorityClass with globalDefault set to true does not change the priorities of existing Pods. The value of such a PriorityClass is used only for Pods created after the PriorityClass is added.

将一个 PriorityClass 的 globalDefault 设置为 true,不会改变系统中已经存在的 Pod 的优先级。也就是说,PriorityClass 的值只能用于在 PriorityClass 添加之后创建的那些 Pod 当中。


        也就是说priorityClass 中的globalDefault 设为true的话,只针对后续发布的Pod生效,已发布的Pod优先级仍为0

        今天早上遇到的问题是集群中一台机器宕机,然后上面所有的pod 都重新调度到其他机器,这些重新调度的Pod拥有最高优先级,当这批容器调度到其他node节点后就会把该节点上面原有的低优先级Pod排挤走。然后这些被排挤走的Pod 又拥有最高优先级调度到其他node节点,又把另外一台节点上面的Pod挤走,最终造成整个集群雪崩(全部容器重启了一遍)。


总结:

1、将 priorityClass 中 globalDefault 设置为false 并通过前端默认设置最高优先级

在Pod中指定默认优先级而不是通过globalDefault指定

K8S容器调度优先级误设导致集群雪崩踩坑记录


2、关注集群资源使用情况,资源不足时应及时扩容,至少保证集群中挂掉2,3台node节点后,上面承载的容器能够漂移到其他剩下的node节点上。



相关内容

热门资讯

河南通报:李建国被开除党籍 经中共河南省委批准,河南省纪委监委对中原资产管理有限公司原党委副书记、副董事长、总经理李建国严重违纪...
河南省纪委监委:李建国严重违纪... 经中共河南省委批准,河南省纪委监委对中原资产管理有限公司原党委副书记、副董事长、总经理李建国严重违纪...
当河南创新装上AI大脑 在全球人工智能浪潮奔涌的当下,中国已跻身全球人工智能发展第一梯队,正处在从并跑向领跑跨越的关键机遇期...
云南砚山警方:王某胜、杨某卫、... 5月9日,云南砚山县公安局发布案件通报称,王某某、杨某某、张某、曾某某等人长期以来纠集百余人在砚山县...
圈层聚散之间:当代青年的社交新... 图片由人机协同生成 当代青年的社交生活已离不开网络。普伦斯基(Marc Prensky)在2001年...
收费的豆包,戳破「AI改造一切... 本文来自微信公众号:壹娱观察(ID: yiyuguancha),文/HAL。 AI时代,地主家也开始...
嘴仗还没完!“是的,我特朗普,... 【文/观察者网 齐倩】美国总统特朗普和教皇利奥十四世之间的口水仗还没完。当地时间5月9日,特朗普转发...
俄乌停火期间互指违规,俄军持续... 据凤凰卫视报道,在5月9日至10日俄乌临时停火期间,俄乌双方均指责对方违反停火协议。乌克兰总参谋部9...
“奥德赛时期”寄托了年轻人的一... 澎湃新闻记者 杨宝宝“事实上奥德修斯并未迷茫过。”《奥德赛》权威译者陈中梅认为,在荷马笔下,奥德修斯...
河南首个虚拟电厂AI核心平台上... 河南日报讯 (全媒体记者 曾鸣)4月29日,河南首个虚拟电厂AI核心平台——“大鲨鱼2.0”上线。这...