Maklumat ringkas tentang k-NN (k-Nearest Neighbours)
k-Nearest Neighbors (k-NN) ialah algoritma pembelajaran mudah, bukan parametrik dan malas yang digunakan untuk pengelasan dan regresi. Dalam masalah pengelasan, k-NN memberikan label kelas berdasarkan majoriti label kelas antara 'k' jiran terdekat objek. Untuk regresi, ia memberikan nilai berdasarkan purata atau median nilai 'k' jiran terdekatnya.
Sejarah asal usul k-NN (k-Nearest Neighbours) dan sebutan pertama mengenainya
Algoritma k-NN mempunyai akarnya dalam literatur pengecaman corak statistik. Konsep ini diperkenalkan oleh Evelyn Fix dan Joseph Hodges pada tahun 1951, menandakan permulaan teknik tersebut. Sejak itu, ia telah digunakan secara meluas merentasi domain yang berbeza kerana kesederhanaan dan keberkesanannya.
Maklumat terperinci tentang k-NN (k-Nearest Neighbours). Memperluas topik k-NN (k-Nearest Neighbours)
k-NN beroperasi dengan mengenal pasti 'k' contoh latihan yang paling hampir dengan input yang diberikan dan membuat ramalan berdasarkan peraturan majoriti atau purata. Metrik jarak seperti jarak Euclidean, jarak Manhattan, atau jarak Minkowski sering digunakan untuk mengukur persamaan. Komponen utama k-NN ialah:
- Pilihan 'k' (bilangan jiran untuk dipertimbangkan)
- Metrik jarak (cth, Euclidean, Manhattan)
- Peraturan keputusan (cth, undian majoriti, undian wajaran)
Struktur dalaman k-NN (k-Nearest Neighbours). Cara k-NN (k-Nearest Neighbours) berfungsi
Kerja k-NN boleh dipecahkan kepada langkah-langkah berikut:
- Pilih nombor 'k' – Pilih bilangan jiran untuk dipertimbangkan.
- Pilih metrik jarak – Tentukan cara mengukur 'kedekatan' kejadian.
- Cari jiran-jiran terdekat – Kenal pasti sampel latihan 'k' yang paling hampir dengan contoh baharu.
- Buat ramalan – Untuk klasifikasi, gunakan undian majoriti. Untuk regresi, hitung min atau median.
Analisis ciri utama k-NN (k-Nearest Neighbours)
- Kesederhanaan: Mudah dilaksanakan dan difahami.
- Fleksibiliti: Berfungsi dengan pelbagai metrik jarak dan boleh disesuaikan dengan jenis data yang berbeza.
- Tiada Fasa Latihan: Secara langsung menggunakan data latihan semasa fasa ramalan.
- Sensitif kepada Data Bising: Outlier dan hingar boleh menjejaskan prestasi.
- Intensif Pengiraan: Memerlukan pengiraan jarak ke semua sampel dalam set data latihan.
Jenis k-NN (k-Jiran Terdekat)
Terdapat pelbagai varian k-NN, seperti:
taip | Penerangan |
---|---|
Standard k-NN | Menggunakan berat seragam untuk semua jiran. |
K-NN berwajaran | Memberi lebih berat kepada jiran yang lebih dekat, biasanya berdasarkan songsangan jarak. |
Suai k-NN | Laraskan 'k' secara dinamik berdasarkan struktur tempatan ruang input. |
Wajaran Tempatan k-NN | Menggabungkan kedua-dua penyesuaian 'k' dan pemberat jarak. |
- Penggunaan: Klasifikasi, Regresi, Sistem Pengesyoran, Pengecaman Imej.
- Masalah: Kos pengiraan yang tinggi, Sensitif kepada ciri yang tidak berkaitan, Isu kebolehskalaan.
- Penyelesaian: Pemilihan ciri, Pemberat jarak, Menggunakan struktur data yang cekap seperti KD-Trees.
Ciri-ciri utama dan perbandingan lain dengan istilah yang serupa
Atribut | k-NN | Pokok Keputusan | SVM |
---|---|---|---|
Jenis Model | Malas Belajar | Bersemangat Belajar | Bersemangat Belajar |
Kerumitan Latihan | rendah | Sederhana | tinggi |
Kerumitan Ramalan | tinggi | rendah | Sederhana |
Sensitiviti kepada Bunyi | tinggi | Sederhana | rendah |
Kemajuan masa hadapan mungkin menumpukan pada mengoptimumkan k-NN untuk data besar, menyepadukan dengan model pembelajaran mendalam, meningkatkan keteguhan kepada hingar dan mengautomasikan pemilihan hiperparameter.
Bagaimana pelayan proksi boleh digunakan atau dikaitkan dengan k-NN (k-Nearest Neighbours)
Pelayan proksi, seperti yang disediakan oleh OneProxy, boleh memainkan peranan dalam aplikasi k-NN yang melibatkan pengikisan web atau pengumpulan data. Pengumpulan data melalui proksi memastikan tidak dikenali dan boleh menyediakan set data yang lebih pelbagai dan tidak berat sebelah untuk membina model k-NN yang teguh.