SMOTE, singkatan untuk Teknik Persampelan Terlebih Minoriti Sintetik, ialah kaedah penambahan data yang berkuasa yang digunakan dalam pembelajaran mesin untuk menangani masalah set data yang tidak seimbang. Dalam banyak senario dunia sebenar, set data selalunya mengandungi taburan kelas yang tidak seimbang, di mana satu kelas (kelas minoriti) mempunyai keadaan yang jauh lebih sedikit berbanding dengan kelas lain (kelas majoriti). Ketidakseimbangan ini boleh membawa kepada model berat sebelah yang berprestasi rendah dalam mengiktiraf kelas minoriti, yang membawa kepada ramalan suboptimum.
SMOTE telah diperkenalkan untuk menangani isu ini dengan menjana sampel sintetik kelas minoriti, dengan itu mengimbangi pengedaran kelas dan meningkatkan keupayaan model untuk belajar daripada kelas minoriti. Teknik ini telah menemui banyak aplikasi dalam pelbagai bidang, seperti diagnosis perubatan, pengesanan penipuan dan klasifikasi imej, di mana set data tidak seimbang berleluasa.
Sejarah asal usul SMOTE dan sebutan pertama mengenainya
SMOTE telah dicadangkan oleh Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, dan W. Philip Kegelmeyer dalam kertas mani mereka bertajuk "SMOTE: Teknik Persampelan Terlebih Minoriti Sintetik" yang diterbitkan pada tahun 2002. Penulis mengiktiraf cabaran yang ditimbulkan oleh set data tidak seimbang dan membangunkan SMOTE sebagai penyelesaian inovatif untuk mengurangkan berat sebelah yang disebabkan oleh set data sedemikian.
Penyelidikan oleh Chawla et al. menunjukkan bahawa SMOTE telah meningkatkan prestasi pengelas dengan ketara apabila berurusan dengan data yang tidak seimbang. Sejak itu, SMOTE telah mendapat populariti dan telah menjadi teknik asas dalam bidang pembelajaran mesin.
Maklumat terperinci tentang SMOTE
Struktur dalaman SMOTE – Cara SMOTE berfungsi
SMOTE berfungsi dengan mencipta sampel sintetik untuk kelas minoriti dengan menginterpolasi antara contoh sedia ada kelas minoriti. Langkah-langkah utama algoritma SMOTE adalah seperti berikut:
- Kenal pasti tika kelas minoriti dalam set data.
- Untuk setiap contoh minoriti, kenal pasti jiran terdekatnya dalam kelas minoriti.
- Pilih secara rawak salah satu daripada k jiran terdekat.
- Hasilkan tika sintetik dengan mengambil gabungan linear jiran yang dipilih dan tika asal.
Algoritma SMOTE boleh diringkaskan dalam persamaan berikut, di mana x_i mewakili contoh minoriti asal, x_n ialah jiran yang dipilih secara rawak, dan α ialah nilai rawak antara 0 dan 1:
Contoh Sintetik = x_i + α * (x_n – x_i)
Dengan menggunakan SMOTE secara berulang pada contoh kelas minoriti, pengedaran kelas diseimbangkan semula, menghasilkan set data yang lebih mewakili untuk melatih model.
Analisis ciri utama SMOTE
Ciri-ciri utama SMOTE adalah seperti berikut:
-
Pembesaran Data: SMOTE menambah kelas minoriti dengan menjana sampel sintetik, menangani masalah ketidakseimbangan kelas dalam set data.
-
Pengurangan Bias: Dengan menambah bilangan contoh kelas minoriti, SMOTE mengurangkan berat sebelah dalam pengelas, yang membawa kepada prestasi ramalan yang lebih baik untuk kelas minoriti.
-
Kebolehgeneralisasian: SMOTE boleh digunakan pada pelbagai algoritma pembelajaran mesin dan tidak terhad kepada mana-mana jenis model tertentu.
-
Perlaksanaan Mudah: SMOTE adalah mudah untuk dilaksanakan dan boleh disepadukan dengan lancar ke dalam saluran paip pembelajaran mesin sedia ada.
Jenis SMOTE
SMOTE mempunyai beberapa variasi dan penyesuaian untuk memenuhi pelbagai jenis set data tidak seimbang. Beberapa jenis SMOTE yang biasa digunakan termasuk:
-
SMOTE biasa: Ini ialah versi standard SMOTE seperti yang diterangkan di atas, yang mencipta tika sintetik di sepanjang baris yang menghubungkan tika minoriti dan jirannya.
-
SMOTE sempadan: Varian ini memfokuskan pada penjanaan sampel sintetik berhampiran sempadan antara kelas minoriti dan majoriti, menjadikannya lebih berkesan untuk set data dengan kelas bertindih.
-
ADASYN (Pensampelan Sintetik Adaptif): ADASYN menambah baik SMOTE dengan memberikan kepentingan yang lebih tinggi kepada contoh minoriti yang lebih sukar untuk dipelajari, menghasilkan generalisasi yang lebih baik.
-
SMOTEBoost: SMOTEBoost menggabungkan SMOTE dengan teknik penggalak untuk meningkatkan lagi prestasi pengelas pada set data yang tidak seimbang.
-
SMOTE Tahap Selamat: Varian ini mengurangkan risiko overfitting dengan mengawal bilangan sampel sintetik yang dijana berdasarkan tahap keselamatan setiap contoh.
Berikut ialah jadual perbandingan yang meringkaskan perbezaan antara varian SMOTE ini:
Varian SMOTE | Pendekatan | Fokus | Kawalan Overfitting |
---|---|---|---|
SMOTE biasa | Interpolasi linear | T/A | Tidak |
SMOTE sempadan | Interpolasi bukan linear | Berdekatan sempadan kelas | Tidak |
ADASYN | Interpolasi berwajaran | Kes minoriti yang sukar dipelajari | Tidak |
SMOTEBoost | Boosting + SMOTE | T/A | ya |
SMOTE Tahap Selamat | Interpolasi linear | Berdasarkan tahap keselamatan | ya |
Cara-cara menggunakan SMOTE
SMOTE boleh digunakan dalam beberapa cara untuk meningkatkan prestasi model pembelajaran mesin pada set data tidak seimbang:
-
Prapemprosesan: Gunakan SMOTE untuk mengimbangi pengagihan kelas sebelum melatih model.
-
Teknik Ensembel: Gabungkan SMOTE dengan kaedah ensemble seperti Random Forest atau Gradient Boosting untuk mencapai hasil yang lebih baik.
-
Pembelajaran Satu Kelas: Gunakan SMOTE untuk menambah data satu kelas untuk tugas pembelajaran tanpa pengawasan.
Masalah dan Penyelesaian
Walaupun SMOTE ialah alat yang berkuasa untuk menangani data yang tidak seimbang, ia bukan tanpa cabarannya:
-
Terlalu pasang: Menjana terlalu banyak contoh sintetik boleh menyebabkan pemasangan berlebihan, menyebabkan model berprestasi buruk pada data yang tidak kelihatan. Penggunaan SMOTE Tahap Selamat atau ADASYN boleh membantu mengawal overfitting.
-
Sumpahan Dimensi: Keberkesanan SMOTE boleh berkurangan dalam ruang ciri berdimensi tinggi disebabkan oleh kekurangan data. Pemilihan ciri atau teknik pengurangan dimensi boleh digunakan untuk menangani isu ini.
-
Penguatan Bunyi: SMOTE mungkin menghasilkan kejadian sintetik yang bising jika data asal mengandungi outlier. Teknik penyingkiran outlier atau pelaksanaan SMOTE yang diubah suai boleh mengurangkan masalah ini.
Ciri-ciri utama dan perbandingan lain dengan istilah yang serupa
Ciri-ciri | SMOTE | ADASYN | Persampelan Terlebih Rawak |
---|---|---|---|
taip | Pembesaran Data | Pembesaran Data | Pembesaran Data |
Sumber Contoh Sintetik | Jiran Terdekat | Berasaskan persamaan | Penduaan Contoh |
Kawalan Overfitting | Tidak | ya | Tidak |
Mengendalikan Data Bising | ya | ya | Tidak |
Kerumitan | rendah | Sederhana | rendah |
Prestasi | Baik | lebih baik | Berbeza-beza |
Masa depan SMOTE dan pengendalian data yang tidak seimbang dalam pembelajaran mesin adalah menjanjikan. Penyelidik dan pengamal terus membangun dan menambah baik teknik sedia ada, bertujuan untuk menangani cabaran yang ditimbulkan oleh set data tidak seimbang dengan lebih berkesan. Beberapa hala tuju masa depan yang berpotensi termasuk:
-
Sambungan Pembelajaran Mendalam: Meneroka cara untuk mengintegrasikan teknik seperti SMOTE ke dalam seni bina pembelajaran mendalam untuk mengendalikan data yang tidak seimbang dalam tugas yang kompleks.
-
Penyepaduan AutoML: Mengintegrasikan SMOTE ke dalam alatan Automated Machine Learning (AutoML) untuk mendayakan prapemprosesan data automatik untuk set data yang tidak seimbang.
-
Penyesuaian Khusus Domain: Menyesuaikan varian SMOTE kepada domain tertentu seperti penjagaan kesihatan, kewangan atau pemprosesan bahasa semula jadi untuk meningkatkan prestasi model dalam aplikasi khusus.
Cara pelayan proksi boleh digunakan atau dikaitkan dengan SMOTE
Pelayan proksi boleh memainkan peranan penting dalam meningkatkan prestasi dan privasi data yang digunakan dalam SMOTE. Beberapa kemungkinan cara pelayan proksi boleh dikaitkan dengan SMOTE termasuk:
-
Penganoniman Data: Pelayan proksi boleh menamakan data sensitif sebelum menggunakan SMOTE, memastikan kejadian sintetik yang dijana tidak mendedahkan maklumat peribadi.
-
Pengkomputeran Teragih: Pelayan proksi boleh memudahkan pengkomputeran teragih untuk pelaksanaan SMOTE merentas berbilang lokasi, membolehkan pemprosesan set data berskala besar yang cekap.
-
Pengumpulan data: Pelayan proksi boleh digunakan untuk mengumpul data yang pelbagai daripada pelbagai sumber, menyumbang kepada penciptaan lebih banyak set data yang mewakili untuk SMOTE.
Pautan berkaitan
Untuk mendapatkan maklumat lanjut tentang SMOTE dan teknik yang berkaitan, anda boleh merujuk kepada sumber berikut:
- Kertas SMOTE Asal
- ADASYN: Pendekatan Persampelan Sintetik Suaian untuk Pembelajaran Tidak Seimbang
- SMOTEBoost: Memperbaik Ramalan Kelas Minoriti dalam Meningkatkan
- Borderline-SMOTE: Kaedah Persampelan Terlebih Baharu dalam Pembelajaran Set Data Tidak Seimbang
- SMOTE Tahap Selamat: Teknik Persampelan Lebihan Minoriti Sintetik Tahap Selamat untuk Mengendalikan Masalah Ketidakseimbangan Kelas
Kesimpulannya, SMOTE ialah alat penting dalam kotak alat pembelajaran mesin yang menangani cabaran set data yang tidak seimbang. Dengan menjana contoh sintetik untuk kelas minoriti, SMOTE meningkatkan prestasi pengelas dan memastikan generalisasi yang lebih baik. Kebolehsuaian, kemudahan pelaksanaan dan keberkesanannya menjadikannya teknik yang sangat diperlukan dalam pelbagai aplikasi. Dengan penyelidikan dan kemajuan teknologi yang berterusan, masa depan mempunyai prospek yang menarik untuk SMOTE dan peranannya dalam kemajuan pembelajaran mesin.