Informasi singkat tentang k-NN (k-Nearest Neighbors)
k-Nearest Neighbors (k-NN) adalah algoritma pembelajaran sederhana, non-parametrik, dan malas yang digunakan untuk klasifikasi dan regresi. Dalam masalah klasifikasi, k-NN memberikan label kelas berdasarkan mayoritas label kelas di antara 'k' tetangga terdekat objek. Untuk regresi, ia memberikan nilai berdasarkan rata-rata atau median dari nilai 'k' tetangga terdekatnya.
Sejarah asal usul k-NN (k-Nearest Neighbours) dan penyebutan pertama kali
Algoritma k-NN berakar pada literatur pengenalan pola statistik. Konsep ini diperkenalkan oleh Evelyn Fix dan Joseph Hodges pada tahun 1951, menandai dimulainya teknik ini. Sejak itu, ini telah digunakan secara luas di berbagai domain karena kesederhanaan dan efektivitasnya.
Informasi lengkap tentang k-NN (k-Nearest Neighbours). Memperluas topik k-NN (k-Nearest Neighbours)
k-NN beroperasi dengan mengidentifikasi contoh pelatihan 'k' yang paling dekat dengan masukan tertentu dan membuat prediksi berdasarkan aturan mayoritas atau rata-rata. Metrik jarak seperti jarak Euclidean, jarak Manhattan, atau jarak Minkowski sering digunakan untuk mengukur kesamaan. Komponen utama k-NN adalah:
- Pilihan 'k' (jumlah tetangga yang perlu dipertimbangkan)
- Metrik jarak (misalnya, Euclidean, Manhattan)
- Aturan pengambilan keputusan (misalnya, pemungutan suara mayoritas, pemungutan suara berbobot)
Struktur internal k-NN (k-Nearest Neighbors). Cara kerja k-NN (k-Nearest Neighbours).
Cara kerja k-NN dapat dipecah menjadi beberapa langkah berikut:
- Pilih nomor 'k' – Pilih jumlah tetangga yang akan dipertimbangkan.
- Pilih metrik jarak – Tentukan bagaimana mengukur 'kedekatan' contoh.
- Temukan k-tetangga terdekat – Identifikasi sampel pelatihan 'k' yang paling dekat dengan instance baru.
- Buatlah prediksi – Untuk klasifikasi menggunakan suara terbanyak. Untuk regresi, hitung mean atau median.
Analisis fitur utama k-NN (k-Nearest Neighbours)
- Kesederhanaan: Mudah diimplementasikan dan dipahami.
- Fleksibilitas: Bekerja dengan berbagai metrik jarak dan dapat beradaptasi dengan tipe data yang berbeda.
- Tidak Ada Fase Pelatihan: Langsung menggunakan data pelatihan selama fase prediksi.
- Sensitif terhadap Data yang Berisik: Pencilan dan noise dapat memengaruhi performa.
- Komputasi Intensif: Memerlukan penghitungan jarak ke semua sampel dalam kumpulan data pelatihan.
Jenis k-NN (k-Tetangga Terdekat)
Ada berbagai varian k-NN, seperti:
Jenis | Keterangan |
---|---|
Standar k-NN | Memanfaatkan bobot yang seragam untuk semua tetangga. |
K-NN berbobot | Memberi bobot lebih pada tetangga yang lebih dekat, biasanya berdasarkan kebalikan dari jarak. |
K-NN adaptif | Menyesuaikan 'k' secara dinamis berdasarkan struktur lokal ruang masukan. |
K-NN Tertimbang Lokal | Menggabungkan 'k' adaptif dan pembobotan jarak. |
- Penggunaan: Klasifikasi, Regresi, Sistem Rekomendasi, Pengenalan Gambar.
- Masalah: Biaya komputasi tinggi, Sensitif terhadap fitur yang tidak relevan, Masalah skalabilitas.
- Solusi: Pemilihan fitur, Pembobotan jarak, Memanfaatkan struktur data yang efisien seperti KD-Trees.
Ciri-ciri utama dan perbandingan lain dengan istilah serupa
Atribut | k-NN | Pohon Keputusan | SVM |
---|---|---|---|
Tipe model | Malas Belajar | Ingin Belajar | Ingin Belajar |
Kompleksitas Pelatihan | Rendah | Sedang | Tinggi |
Kompleksitas Prediksi | Tinggi | Rendah | Sedang |
Sensitivitas terhadap Kebisingan | Tinggi | Sedang | Rendah |
Kemajuan di masa depan mungkin berfokus pada pengoptimalan k-NN untuk data besar, integrasi dengan model pembelajaran mendalam, meningkatkan ketahanan terhadap noise, dan mengotomatiskan pemilihan hyperparameter.
Bagaimana server proxy dapat digunakan atau dikaitkan dengan k-NN (k-Nearest Neighbours)
Server proxy, seperti yang disediakan oleh OneProxy, dapat berperan dalam aplikasi k-NN yang melibatkan web scraping atau pengumpulan data. Mengumpulkan data melalui proxy memastikan anonimitas dan dapat menyediakan kumpulan data yang lebih beragam dan tidak memihak untuk membangun model k-NN yang kuat.