Clustering — Prediksi Kecepatan Angin BMKG

K-Means Clustering

Segmentasi kondisi angin menggunakan algoritma K-Means Clustering tanpa label (unsupervised learning). Data dikelompokkan berdasarkan kemiripan karakteristik angin.

Jumlah cluster (K=3) dipilih otomatis berdasarkan Silhouette Score tertinggi dari rentang K=2–10. Data Stasiun Klimatologi Jawa Barat selama 5 tahun menunjukkan bahwa angin dengan kecepatan di atas 5 m/s terlalu jarang dan tersebar untuk membentuk cluster tersendiri yang statisik bermakna — sehingga K=3 adalah jumlah optimal yang jujur terhadap data.

Jumlah Cluster (K)

0.3941

Silhouette Score

5493.6

Inertia (SSE)

Fitur Clustering

Elbow Method

Menentukan K optimal

Grafik menunjukkan nilai inertia (total jarak dalam cluster) untuk setiap nilai K. K optimal dipilih pada titik "siku" — di mana penurunan inertia mulai melambat secara signifikan. Menambah K lebih dari titik ini hanya memberi keuntungan kecil namun kompleksitas meningkat.

Silhouette Score per K

Kualitas cluster (semakin tinggi semakin baik)

Silhouette Score mengukur seberapa mirip suatu data point dengan clusternya sendiri dibanding cluster lain. Nilai berkisar -1 hingga 1 — semakin mendekati 1 semakin baik kualitas pemisahan cluster. K yang menghasilkan silhouette tertinggi dipilih sebagai K optimal.

Scatter Plot Cluster

FF_AVG vs FF_X, warna per cluster

Setiap titik mewakili satu hari observasi. Sumbu X adalah kecepatan angin rata-rata (FF_AVG) dan sumbu Y adalah kecepatan angin maksimum (FF_X). Cluster yang terpisah jelas menunjukkan K-Means berhasil membedakan kondisi angin — titik-titik yang mengelompok rapat berarti hari-hari tersebut memiliki karakteristik angin yang serupa.

Distribusi Cluster

Proporsi hari per kategori angin sepanjang 5 tahun data. Dominansi kategori tertentu mencerminkan karakteristik iklim angin khas Stasiun Klimatologi Jawa Barat.

Statistik per Cluster

Cluster	Label	Jumlah Data	FF_AVG Rata-rata (m/s)	FF_X Rata-rata (m/s)	RH_AVG Rata-rata (%)	TAVG Rata-rata (°C)
Memuat data...

Tabel ini merangkum karakteristik rata-rata setiap cluster. Label (Angin Tenang, Ringan, Sedang, Kencang) ditetapkan otomatis berdasarkan urutan FF_AVG rata-rata dari kecil ke besar. Perhatikan juga korelasi antara kelembaban (RH_AVG) dan kecepatan angin — angin lebih kencang umumnya terjadi saat kondisi lebih kering.