Karpenter로 생성한 Node에 대한 Auto-Repair 적용하기

🕰️ 작성일 : 2025.07.16

Q : Karpenter의 NodePool로 생성한 Self-Managed Node Group(SNG)에 대하여 Auto-Repair 기능을 통해서 노드에 대한 자동 복구를 지원 할 수 있나요?

A : Karpenter 1.2 버전부터 NodePool로 생성한 SNG에 대하여 Auto Repair 기능을 제공합니다.

Karpenter 공식 가이드 중 일부 발췌

네트워크 사용 불가능, 디스크 압력, 메모리 압력 또는 노드 진단 에이전트가 보고하는 기타 조건과 같은 노드 상태를 통해 드러날 수 있습니다. 이러한 비정상적인 상태를 감지하면 Karpenter는 클라우드 제공업체가 정의한 복구 정책에 따라 영향을 받는 노드를 자동으로 교체합니다. 노드가 구성된 허용 기간을 초과하여 비정상적인 상태가 지속되면, 문제가 있는 노드를 신속하게 교체하기 위해 표준 배수 및 유예 기간 절차를 건너뛰고 해당 노드 및 해당 노드 클레임을 강제로 종료합니다. 연쇄적인 장애를 방지하기 위해 Karpenter에는 안전 메커니즘이 포함되어 있습니다. NodePool의 노드 중 20% 이상이 비정상적인 경우 수리를 수행하지 않으며, 독립형 노드클레임의 경우 클러스터의 모든 노드에 대해 이 임계값을 평가합니다. 이렇게 하면 노드의 건강하지 않은 상태로 인해 정상적인 노드 종료 절차가 영향을 받을 수 있는 시나리오에서도 최소한의 수동 개입으로 클러스터를 건강한 상태로 유지할 수 있습니다.

Disruption

Karpenter에서 Node Auto Repair 사용하기

Node Monitoring Agent가 배포되어 있는지 또는 지원되는 노드에 상태 조건을 추가하는 에이전트(예: Node Problem Detector)가 있는지 확인합니다.
Karpenter의 Feature Flag를 NodeRepair=true로 활성화합니다.
각 장애 별 허용 시간은 Karpenter의 공식 문서를 참고하세요

Karpenter에 Node Auto Repair 적용 및 테스트하기

1. Karpenter 배포하기

Karpenter Controller 생성 시 Feature Flag을 통해 NodeRepair=true 을 활성화해야합니다.
Helm을 통해 Karpenter 배포 시 아래의 옵션을 사용합니다.

helm registry logout public.ecr.aws

helm upgrade --install karpenter oci://public.ecr.aws/karpenter/karpenter --version "${KARPENTER_VERSION}" --namespace "${KARPENTER_NAMESPACE}" --create-namespace \\ 
--set "serviceAccount.annotations.eks\\.amazonaws\\.com/role-arn=${KARPENTER_IAM_ROLE_ARN}" \\ 
--set "settings.clusterName=${CLUSTER_NAME}" \\ 
--set "settings.interruptionQueue=${CLUSTER_NAME}" \\ 
--set controller.resources.requests.cpu=1 \\ 
--set controller.resources.requests.memory=1Gi \\ 
--set controller.resources.limits.cpu=1 \\ 
--set controller.resources.limits.memory=1Gi \\ 
--set settings.featureGates.nodeRepair=true \\  ## featuregates을 통해 nodeRepair을 활성화합니다.
--wait

Karpenter 배포가 완료된 후 Karpenter Controller Pod의 속성을 조회해보면 NodeRepair=true 가 적용 된 것을 확인 할 수 있습니다.

2. Deployment 배포 후 Node 생성하기

Deployment의 Pod 수를 100개로 배포하여 NodeClaim을 발생시키고 여러 개의 Node가 생성되도록 합니다.