Summary Materi Sebelum UTS
📘 Pendahuluan
Dalam era transformasi digital, perusahaan dan organisasi dituntut untuk mampu mengambil keputusan strategis berdasarkan data. Data Mining menjadi salah satu solusi penting dalam mengolah informasi tersembunyi dari data yang bersifat besar dan kompleks. Melalui penerapan teknik statistik dan algoritma pembelajaran mesin, Data Mining memungkinkan kita untuk mengidentifikasi pola dan tren dalam data secara otomatis.
Dalam artikel ini, saya mengulas proses penerapan dua algoritma data mining yang paling populer, yaitu Naive Bayes Classifier dan Decision Tree Classifier, untuk menyelesaikan studi kasus prediksi keputusan pembelian berdasarkan dua variabel utama: Umur (Age) dan Pendapatan (Income).
📂 Dataset yang Digunakan
Data yang digunakan dalam proyek ini berbentuk file .csv dengan struktur sebagai berikut:
| Age | Income | Buy |
|---|---|---|
| 22 | 35 | No |
| 25 | 40 | No |
| 47 | 80 | Yes |
| 52 | 100 | Yes |
| 46 | 70 | Yes |
| 56 | 95 | Yes |
| 55 | 92 | Yes |
| 60 | 110 | Yes |
| 35 | 60 | No |
| 40 | 65 | No |
Penjelasan Kolom:
-
Age– usia pelanggan (dalam tahun) -
Income– pendapatan bulanan (dalam jutaan Rupiah) -
Buy– target variabel (apakah pelanggan membeli atau tidak; Yes/No)
Dataset ini bersifat sederhana namun merepresentasikan pola yang dapat dieksplorasi dengan metode klasifikasi.
Metodologi
1. Import Library
Proses ini menggunakan beberapa pustaka penting dari Python:
-
pandasuntuk manipulasi dan pemrosesan data -
matplotlibuntuk visualisasi -
scikit-learnuntuk membangun model klasifikasi dan evaluasi performa
2. Load dan Preprocessing Data
File CSV dibaca ke dalam dataframe, lalu data pada kolom Buy dikonversi ke dalam bentuk numerik untuk kebutuhan algoritma klasifikasi.
3. Visualisasi Data
Visualisasi scatter plot dibuat untuk memahami pola awal:
Hasil Visualisasi: Terlihat bahwa pendapatan dan usia yang lebih tinggi cenderung diasosiasikan dengan keputusan membeli (Buy = Yes).
4. Split Data
Data dibagi menjadi dua bagian:
Algoritma yang Digunakan
Naive Bayes Classifier
Naive Bayes adalah algoritma klasifikasi berbasis probabilistik, yang diasumsikan bahwa fitur (umur dan pendapatan) saling independen. Model menghitung kemungkinan setiap kelas berdasarkan input, lalu memilih kelas dengan probabilitas tertinggi.
Decision Tree membentuk struktur seperti pohon berdasarkan pemisahan fitur yang paling informatif. Model ini sangat berguna untuk menjelaskan proses pengambilan keputusan secara visual.
| Aspek | Naive Bayes | Decision Tree |
|---|---|---|
| Akurasi | Sangat tinggi (100%) | Sangat tinggi (100%) |
| Kecepatan | Cepat | Cepat |
| Interpretasi | Rendah | Sangat mudah |
| Visualisasi | Tidak tersedia | Tersedia |
| Ketahanan Overfit | Lebih tahan overfit | Rentan overfit |









Komentar
Posting Komentar