post-start silently ignores uncordon failures: should fail fast instead #78

gberche-orange · 2024-11-04T17:14:24Z

Expected behavior

As an operator
In order to notice failure to uncordon nodes at startup
I need bosh job status to surface failure

Current behavior

post-start silently ignores uncordon failures

k3s-wrapper-boshrelease/jobs/k3s-agent/templates/bin/post-start.erb

Lines 23 to 26 in c535c16

    
           #uncordon 
        
           /var/vcap/packages/k3s/k3s kubectl --kubeconfig=/var/vcap/data/k3s-agent/drain-kubeconfig.yaml uncordon $K3S_NODE_NAME \ 
        
           >> $JOB_DIR/post-start.log \ 
        
           2>> $JOB_DIR/post-start-stderr.log

k3s-wrapper-boshrelease/jobs/k3s-server/templates/bin/post-start.erb

Lines 15 to 20 in c535c16

    
           #wait for k8s api to be available, wait for 5 min max 
        
           <% if_p('k3s.master_vip_api') do |vip| %> 
        
           timeout 300 sh -c 'until nc -z <%= vip %> 6443; do sleep 1; done' /var/vcap/packages/k3s/k3s kubectl --kubeconfig=/var/vcap/store/k3s-server/kubeconfig.yml get pods --all-namespaces 
        
           <% end %> 
        
           #uncordon 
        
           /var/vcap/packages/k3s/k3s kubectl --kubeconfig=/var/vcap/store/k3s-server/kubeconfig.yml uncordon $K3S_NODE_NAME

poblin-orange added the bug Something isn't working label Nov 9, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

post-start silently ignores uncordon failures: should fail fast instead #78

post-start silently ignores uncordon failures: should fail fast instead #78

gberche-orange commented Nov 4, 2024

post-start silently ignores uncordon failures: should fail fast instead #78

post-start silently ignores uncordon failures: should fail fast instead #78

Comments

gberche-orange commented Nov 4, 2024

Expected behavior

Current behavior