Summary Materi Sebelum UTS

📘 Pendahuluan

Dalam era transformasi digital, perusahaan dan organisasi dituntut untuk mampu mengambil keputusan strategis berdasarkan data. Data Mining menjadi salah satu solusi penting dalam mengolah informasi tersembunyi dari data yang bersifat besar dan kompleks. Melalui penerapan teknik statistik dan algoritma pembelajaran mesin, Data Mining memungkinkan kita untuk mengidentifikasi pola dan tren dalam data secara otomatis.

Dalam artikel ini, saya mengulas proses penerapan dua algoritma data mining yang paling populer, yaitu Naive Bayes Classifier dan Decision Tree Classifier, untuk menyelesaikan studi kasus prediksi keputusan pembelian berdasarkan dua variabel utama: Umur (Age) dan Pendapatan (Income)

📂 Dataset yang Digunakan

Data yang digunakan dalam proyek ini berbentuk file .csv dengan struktur sebagai berikut:

Age Income Buy
22 35 No
25 40 No
47 80 Yes
52 100 Yes
46 70 Yes
56 95 Yes
55 92 Yes
60 110 Yes
35 60 No
40 65 No

Penjelasan Kolom:

  • Age – usia pelanggan (dalam tahun)

  • Income – pendapatan bulanan (dalam jutaan Rupiah)

  • Buy – target variabel (apakah pelanggan membeli atau tidak; Yes/No)

Dataset ini bersifat sederhana namun merepresentasikan pola yang dapat dieksplorasi dengan metode klasifikasi.

Metodologi

1. Import Library

Proses ini menggunakan beberapa pustaka penting dari Python:

  • pandas untuk manipulasi dan pemrosesan data

  • matplotlib untuk visualisasi

  • scikit-learn untuk membangun model klasifikasi dan evaluasi performa

2. Load dan Preprocessing Data

File CSV dibaca ke dalam dataframe, lalu data pada kolom Buy dikonversi ke dalam bentuk numerik untuk kebutuhan algoritma klasifikasi.

3. Visualisasi Data

Visualisasi scatter plot dibuat untuk memahami pola awal:

Hasil Visualisasi: Terlihat bahwa pendapatan dan usia yang lebih tinggi cenderung diasosiasikan dengan keputusan membeli (Buy = Yes).

4. Split Data

Data dibagi menjadi dua bagian:

- Training Set (70%)

- Testing Set (30%)

Algoritma yang Digunakan

Naive Bayes Classifier

Naive Bayes adalah algoritma klasifikasi berbasis probabilistik, yang diasumsikan bahwa fitur (umur dan pendapatan) saling independen. Model menghitung kemungkinan setiap kelas berdasarkan input, lalu memilih kelas dengan probabilitas tertinggi.


Evaluasi Naive Bayes:

Decision Tree Classifier

Decision Tree membentuk struktur seperti pohon berdasarkan pemisahan fitur yang paling informatif. Model ini sangat berguna untuk menjelaskan proses pengambilan keputusan secara visual.


Evaluasi Decision Tree:


Visualisasi Decision Tree:


Hasil dan Perbandingan

Aspek Naive Bayes Decision Tree
Akurasi Sangat tinggi (100%) Sangat tinggi (100%)
Kecepatan Cepat Cepat
Interpretasi Rendah Sangat mudah
Visualisasi Tidak tersedia Tersedia
Ketahanan Overfit Lebih tahan overfit Rentan overfit

Kesimpulan

Berdasarkan eksperimen sederhana ini, dapat disimpulkan bahwa:

- Kedua model bekerja sangat baik pada dataset kecil.

- Naive Bayes unggul dalam kecepatan dan efisiensi untuk data probabilistik.

- Decision Tree sangat ideal ketika interpretasi model menjadi penting bagi pengguna bisnis karena mudah dipahami secara visual.

Rekomendasi:

Untuk proyek yang memerlukan transparansi dan dapat dipahami oleh pihak non-teknis, Decision Tree sangat disarankan. Namun untuk kecepatan analisis dalam skala besar, Naive Bayes memberikan performa yang memadai dengan proses yang efisien.

Potensi Pengembangan

Proyek ini masih dapat dikembangkan lebih lanjut, antara lain:

- Menggunakan dataset yang lebih besar dan nyata

- Menambahkan fitur lain seperti jenis kelamin, pekerjaan, wilayah domisili, dll.

- Membandingkan dengan algoritma klasifikasi lain seperti K-Nearest Neighbor (KNN)

- Mengimplementasikan evaluasi model seperti ROC Curve, Precision-Recall, dan Cross Validation

Penutup

Data Mining adalah keterampilan penting dalam dunia teknologi dan bisnis saat ini. Dengan menggabungkan alat seperti Python, pandas, matplotlib, dan scikit-learn, kita dapat mengembangkan solusi analitik yang kuat, bahkan dari dataset yang sederhana. Melalui proyek ini, saya membuktikan bahwa teknik dasar klasifikasi sudah cukup kuat untuk memahami pola perilaku pelanggan dan memberikan wawasan bisnis yang bernilai.

Komentar

Postingan populer dari blog ini

Analisis Data Pelanggan dengan Teknik Klasifikasi dan Klasterisasi Menggunakan Python