حل مشاكل تعطل حاويات Kubernetes: الأسباب الشائعة والحلول الفعالة

Kubernetes

أصبح Kubernetes المعيار الفعلي لتنظيم الحاويات، مما يوفر التوسعية والصمود وسهولة النشر. ومع ذلك، إدارة بيئات Kubernetes ليست بدون تحديات. إحدى المشكلات الشائعة التي تواجهها الإداريون والمطورون هي تعطل الـpod. في هذه المقالة، سنستكشف الأسباب وراء تعطل الـpod ونوضح استراتيجيات فعالة لتشخيص وحل هذه المشاكل.

الأسباب الشائعة لتعطل الـpod في Kubernetes

1. أخطاء الذاكرة غير المتاحة (OOM)

السبب

تخصيص ذاكرة غير كافية في حدود الموارد. تستهلك الحاويات في كثير من الأحيان مزيدًا من الذاكرة مما تم تقديره أولاً، مما يؤدي إلى الإنهاء.

الأعراض

يتم طرد الـpods أو إعادة تشغيلها أو إنهاؤها بخطأ OOMKilled. تسبب تسربات الذاكرة أو أنماط استخدام الذاكرة غير الفعالة في تفاقم المشكلة كثيرًا.

مثال على السجلات

Shell

State:          Terminated Reason:         OOMKilled Exit Code:      137

الحل

تحليل استخدام الذاكرة باستخدام خادم القياسات أو Prometheus.
زيادة حدود الذاكرة في تكوين الـpod.
تحسين الكود أو عمليات الحاوية لتقليل استهلاك الذاكرة.
تنفيذ تنبيهات المراقبة لاكتشاف استخدام الذاكرة العالي في وقت مبكر.

مثال على الكود لحدود الموارد

Shell

resources:  requests:    memory: "128Mi"    cpu: "500m"  limits:    memory: "256Mi"    cpu: "1"

2. فشل في اختبارات الجاهزية والحيوية

السبب

تفشل الاختبارات بسبب تكوين غير صحيح، بدء التطبيق المؤجل، أو فشل التشغيل في فحوصات صحة التطبيق.

الأعراض

تدخل الأودية في حالة CrashLoopBackOff أو تفشل في فحوصات الصحة. قد لا يكون التطبيق قادرًا على الرد على الطلبات ضمن حدود وقت الفحص المحددة.

مثال على السجلات

Shell

Liveness probe failed: HTTP probe failed with status code: 500

الحل

قم بمراجعة تكوينات الفحص في ملف نموذج التنفيذ.
قم بفحص استجابات نقطة النهاية يدويًا للتحقق من حالة الصحة.
زيادة مهلة الفحص وحدود الفشل.
استخدم فحوصات البدء للتطبيقات ذات أوقات تهيئة طويلة.

مثال على الكود للفحوصات

Shell

livenessProbe:  httpGet:    path: /healthz    port: 8080  initialDelaySeconds: 3  periodSeconds: 10 readinessProbe:  httpGet:    path: /ready    port: 8080  initialDelaySeconds: 5  periodSeconds: 10

3. أخطاء جلب الصور

السبب

اسم الصورة غير صحيح، أو الوسم، أو مشكلات المصادقة في السجل. قد تسهم مشاكل الاتصال بالشبكة أيضًا.

الأعراض

فشل الأودية في البدء والبقاء في حالة ErrImagePull أو ImagePullBackOff. يحدث الأخطاء في كثير من الأحيان بسبب عدم وجود الصور أو عدم إمكانية الوصول إليها.

مثال على السجلات

Shell

Failed to pull image "myrepo/myimage:latest": Error response from daemon: manifest not found

الحل

تحقق من اسم الصورة والوسم في ملف التنفيذ.
تأكد من تكوين اعتمادات سجل Docker بشكل صحيح باستخدام الأسرار.
تأكد من توافر الصورة في المستودع المحدد.
قم بسحب الصور الحرجة مسبقًا إلى العُقَد لتجنب مشاكل الاعتماد على الشبكة.

مثال على رمز لسرّ جلب الصور

Shell

imagePullSecrets:  - name: myregistrykey

4. أخطاء CrashLoopBackOff

السبب

تتعطّل التطبيقات بسبب الأخطاء أو الاعتمادات المفقودة أو سوء التهيئة في متغيرات البيئة والأسرار.

الأعراض

إعادة تشغيل متكررة وسجلات تُظهر أخطاء التطبيق. وهذه الأمور غالبًا ما تشير إلى استثناءات غير معالجة أو تكوينات تشغيل مفقودة.

مثال على السجلات

Shell

Error: Cannot find module 'express'

الحل

افحص السجلات باستخدام kubectl logs <اسم العُقد>.
تحقق من تكوينات التطبيق والاعتمادات.
قم بالاختبار محليًا لتحديد مشاكل الكود أو البيئة الخاصة.
نفذ آليات أفضل لمعالجة الاستثناءات وآليات الاستعادة.

مثال على رمز لمتغيّرات البيئة

Shell

env:  - name: NODE_ENV    value: production  - name: PORT    value: "8080"

5. استنزاف موارد العُقُد

السبب

ينفد العُقُد من وحدة المعالجة المركزية أو الذاكرة أو مساحة القرص بسبب الأعباء الكبيرة أو التخصيص غير السليم للموارد.

الأعراض

تُخلّى عن العُقود أو تعلق في حالة الانتظار. يؤثر استنزاف الموارد على أداء واستقرار العُنقود بشكل عام.

مثال على السجلات

Shell

0/3 nodes are available: insufficient memory.

الحل

راقب مقاييس العُقد باستخدام أدوات مثل Grafana أو Metrics Server.
أضف المزيد من العقد إلى العنقود أو إعادة جدولة الحاويات باستخدام طلبات وحدود الموارد.
استخدم منظمات التوسع التلقائي للعناقيد لضبط السعة ديناميكيًا بناءً على الطلب.
نفذ الحصص وحدود الموارد لمنع الإفراط في الاستهلاك.

استراتيجيات استكشاف الأخطاء وإصلاحها الفعالة

تحليل السجلات والأحداث

استخدم kubectl logs <اسم-الحاوية> و kubectl describe pod <اسم-الحاوية> للتحقق من المشاكل.

فحص مقاييس الحاويات والعقد

قم بدمج أدوات المراقبة مثل Prometheus و Grafana أو Datadog.

اختبار تكوينات الحاويات محليًا

تحقق من صحة تكوينات YAML باستخدام kubectl apply --dry-run=client.

تصحيح الحاويات

استخدم حاويات مؤقتة أو kubectl exec -it <اسم-الحاوية> -- /bin/sh لتشغيل جلسات تصحيح تفاعلية.

محاكاة الأعطال في بيئة الاختبار

استخدم أدوات مثل Chaos Mesh أو LitmusChaos لمحاكاة وتحليل الأعطال في بيئات غير الإنتاج.

الخاتمة

تسقط الحاويات في Kubernetes أمر شائع ولكنه قابل للإدارة مع أدوات التشخيص والاستراتيجيات الصحيحة. من خلال فهم الأسباب الجذرية وتنفيذ الحلول الموضحة أعلاه، يمكن للفرق الحفاظ على توفر عالي وتقليل فترة التوقف. تعتبر المراقبة المنتظمة والاختبار وتحسين التكوينات مفتاحًا لتجنب هذه المشكلات في المستقبل.

Source:
https://dzone.com/articles/troubleshooting-kubernetes-pod-crashes