Pemodelan Prediktif Risiko Stunting Menggunakan Machine Learning Berbasis Data Sekunder Survei Nasional Pendekatan Eksploratif
Keywords:
balita; CRISP-DM; data sekunder; machine learning; stunting; XGBoostAbstract
Stunting tetap menjadi tantangan kesehatan masyarakat utama di Indonesia, dengan prevalensi nasional 21,6% berdasarkan SKI 2023, masih jauh dari target nasional 14% pada 2024. Identifikasi dini balita berisiko stunting melalui pemodelan prediktif berbasis machine learning (ML) berpotensi mendukung intervensi yang lebih tepat sasaran. Tujuan: Mengembangkan dan mengevaluasi model prediktif risiko stunting pada balita Indonesia menggunakan berbagai algoritma machine learning berbasis data sekunder survei nasional, serta mengidentifikasi variabel prediktor yang paling berkontribusi. Metode: Studi kuantitatif retrospektif eksploratif menggunakan data sekunder dari SDKI 2017, SSGI 2022, dan SKI 2023. Sampel mencakup 14.156 balita usia 0–59 bulan dengan 12 variabel prediktor. Lima algoritma ML diuji: Logistic Regression, Random Forest, XGBoost, LightGBM, dan SVM, mengikuti kerangka CRISP-DM. SMOTE diterapkan untuk mengatasi class imbalance. Evaluasi menggunakan AUC-ROC, akurasi, precision, recall, F1-score, dan kalibrasi Brier score. SHAP digunakan untuk interpretasi feature importance. Hasil: XGBoost menunjukkan performa terbaik (AUC = 0,847; akurasi = 85,9%; F1 = 0,729), diikuti LightGBM (AUC = 0,831) dan Random Forest (AUC = 0,812). Lima variabel prediktor paling kontributif: tinggi badan ibu, berat badan lahir, status ekonomi rumah tangga, pendidikan ibu, dan akses air bersih. Model menunjukkan kalibrasi yang baik (Brier = 0,084) dengan threshold optimal 0,42. Kesimpulan: Pemodelan ML berbasis data survei nasional terbuka berpotensi sebagai alat skrining risiko stunting yang akurat. Implementasi konseptual di tingkat layanan primer dapat mendukung intervensi pencegahan yang lebih terarah.