Summary Materi Sebelum UTS

📘 Pendahuluan

Dalam era transformasi digital, perusahaan dan organisasi dituntut untuk mampu mengambil keputusan strategis berdasarkan data. Data Mining menjadi salah satu solusi penting dalam mengolah informasi tersembunyi dari data yang bersifat besar dan kompleks. Melalui penerapan teknik statistik dan algoritma pembelajaran mesin, Data Mining memungkinkan kita untuk mengidentifikasi pola dan tren dalam data secara otomatis.

Dalam artikel ini, saya mengulas proses penerapan dua algoritma data mining yang paling populer, yaitu Naive Bayes Classifier dan Decision Tree Classifier, untuk menyelesaikan studi kasus prediksi keputusan pembelian berdasarkan dua variabel utama: Umur (Age) dan Pendapatan (Income).

📂 Dataset yang Digunakan

Data yang digunakan dalam proyek ini berbentuk file .csv dengan struktur sebagai berikut:

Age	Income	Buy
22	35	No
25	40	No
47	80	Yes
52	100	Yes
46	70	Yes
56	95	Yes
55	92	Yes
60	110	Yes
35	60	No
40	65	No

Penjelasan Kolom:

Age – usia pelanggan (dalam tahun)
Income – pendapatan bulanan (dalam jutaan Rupiah)
Buy – target variabel (apakah pelanggan membeli atau tidak; Yes/No)

Dataset ini bersifat sederhana namun merepresentasikan pola yang dapat dieksplorasi dengan metode klasifikasi.

Metodologi

1. Import Library

Proses ini menggunakan beberapa pustaka penting dari Python:

pandas untuk manipulasi dan pemrosesan data
matplotlib untuk visualisasi
scikit-learn untuk membangun model klasifikasi dan evaluasi performa

2. Load dan Preprocessing Data

File CSV dibaca ke dalam dataframe, lalu data pada kolom Buy dikonversi ke dalam bentuk numerik untuk kebutuhan algoritma klasifikasi.

3. Visualisasi Data

Visualisasi scatter plot dibuat untuk memahami pola awal:

Hasil Visualisasi: Terlihat bahwa pendapatan dan usia yang lebih tinggi cenderung diasosiasikan dengan keputusan membeli (Buy = Yes).

4. Split Data

Data dibagi menjadi dua bagian:

- Training Set (70%)

- Testing Set (30%)

Algoritma yang Digunakan

Naive Bayes Classifier

Naive Bayes adalah algoritma klasifikasi berbasis probabilistik, yang diasumsikan bahwa fitur (umur dan pendapatan) saling independen. Model menghitung kemungkinan setiap kelas berdasarkan input, lalu memilih kelas dengan probabilitas tertinggi.

Evaluasi Naive Bayes:

Decision Tree Classifier

Decision Tree membentuk struktur seperti pohon berdasarkan pemisahan fitur yang paling informatif. Model ini sangat berguna untuk menjelaskan proses pengambilan keputusan secara visual.

Evaluasi Decision Tree:

Visualisasi Decision Tree:

Hasil dan Perbandingan

Aspek	Naive Bayes	Decision Tree
Akurasi	Sangat tinggi (100%)	Sangat tinggi (100%)
Kecepatan	Cepat	Cepat
Interpretasi	Rendah	Sangat mudah
Visualisasi	Tidak tersedia	Tersedia
Ketahanan Overfit	Lebih tahan overfit	Rentan overfit

Kesimpulan

Berdasarkan eksperimen sederhana ini, dapat disimpulkan bahwa:

- Kedua model bekerja sangat baik pada dataset kecil.

- Naive Bayes unggul dalam kecepatan dan efisiensi untuk data probabilistik.

- Decision Tree sangat ideal ketika interpretasi model menjadi penting bagi pengguna bisnis karena mudah dipahami secara visual.

Rekomendasi:

Untuk proyek yang memerlukan transparansi dan dapat dipahami oleh pihak non-teknis, Decision Tree sangat disarankan. Namun untuk kecepatan analisis dalam skala besar, Naive Bayes memberikan performa yang memadai dengan proses yang efisien.

Potensi Pengembangan

Proyek ini masih dapat dikembangkan lebih lanjut, antara lain:

- Menggunakan dataset yang lebih besar dan nyata

- Menambahkan fitur lain seperti jenis kelamin, pekerjaan, wilayah domisili, dll.

- Membandingkan dengan algoritma klasifikasi lain seperti K-Nearest Neighbor (KNN)

- Mengimplementasikan evaluasi model seperti ROC Curve, Precision-Recall, dan Cross Validation

Penutup

Data Mining adalah keterampilan penting dalam dunia teknologi dan bisnis saat ini. Dengan menggabungkan alat seperti Python, pandas, matplotlib, dan scikit-learn, kita dapat mengembangkan solusi analitik yang kuat, bahkan dari dataset yang sederhana. Melalui proyek ini, saya membuktikan bahwa teknik dasar klasifikasi sudah cukup kuat untuk memahami pola perilaku pelanggan dan memberikan wawasan bisnis yang bernilai.

Cari Blog Ini

Proyek Data Mining Saya