{"id":479036,"date":"2023-08-09T10:01:33","date_gmt":"2023-08-09T10:01:33","guid":{"rendered":""},"modified":"2023-09-05T11:18:03","modified_gmt":"2023-09-05T11:18:03","slug":"smote","status":"publish","type":"wiki","link":"https:\/\/oneproxy.pro\/my\/wiki\/smote\/","title":{"rendered":"SMOTE"},"content":{"rendered":"<p>SMOTE, singkatan untuk Teknik Persampelan Terlebih Minoriti Sintetik, ialah kaedah penambahan data yang berkuasa yang digunakan dalam pembelajaran mesin untuk menangani masalah set data yang tidak seimbang. Dalam banyak senario dunia sebenar, set data selalunya mengandungi taburan kelas yang tidak seimbang, di mana satu kelas (kelas minoriti) mempunyai keadaan yang jauh lebih sedikit berbanding dengan kelas lain (kelas majoriti). Ketidakseimbangan ini boleh membawa kepada model berat sebelah yang berprestasi rendah dalam mengiktiraf kelas minoriti, yang membawa kepada ramalan suboptimum.<\/p>\n<p>SMOTE telah diperkenalkan untuk menangani isu ini dengan menjana sampel sintetik kelas minoriti, dengan itu mengimbangi pengedaran kelas dan meningkatkan keupayaan model untuk belajar daripada kelas minoriti. Teknik ini telah menemui banyak aplikasi dalam pelbagai bidang, seperti diagnosis perubatan, pengesanan penipuan dan klasifikasi imej, di mana set data tidak seimbang berleluasa.<\/p>\n<h2>Sejarah asal usul SMOTE dan sebutan pertama mengenainya<\/h2>\n<p>SMOTE telah dicadangkan oleh Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, dan W. Philip Kegelmeyer dalam kertas mani mereka bertajuk &quot;SMOTE: Teknik Persampelan Terlebih Minoriti Sintetik&quot; yang diterbitkan pada tahun 2002. Penulis mengiktiraf cabaran yang ditimbulkan oleh set data tidak seimbang dan membangunkan SMOTE sebagai penyelesaian inovatif untuk mengurangkan berat sebelah yang disebabkan oleh set data sedemikian.<\/p>\n<p>Penyelidikan oleh Chawla et al. menunjukkan bahawa SMOTE telah meningkatkan prestasi pengelas dengan ketara apabila berurusan dengan data yang tidak seimbang. Sejak itu, SMOTE telah mendapat populariti dan telah menjadi teknik asas dalam bidang pembelajaran mesin.<\/p>\n<h2>Maklumat terperinci tentang SMOTE<\/h2>\n<h3>Struktur dalaman SMOTE \u2013 Cara SMOTE berfungsi<\/h3>\n<p>SMOTE berfungsi dengan mencipta sampel sintetik untuk kelas minoriti dengan menginterpolasi antara contoh sedia ada kelas minoriti. Langkah-langkah utama algoritma SMOTE adalah seperti berikut:<\/p>\n<ol>\n<li>Kenal pasti tika kelas minoriti dalam set data.<\/li>\n<li>Untuk setiap contoh minoriti, kenal pasti jiran terdekatnya dalam kelas minoriti.<\/li>\n<li>Pilih secara rawak salah satu daripada k jiran terdekat.<\/li>\n<li>Hasilkan tika sintetik dengan mengambil gabungan linear jiran yang dipilih dan tika asal.<\/li>\n<\/ol>\n<p>Algoritma SMOTE boleh diringkaskan dalam persamaan berikut, di mana x_i mewakili contoh minoriti asal, x_n ialah jiran yang dipilih secara rawak, dan \u03b1 ialah nilai rawak antara 0 dan 1:<\/p>\n<p>Contoh Sintetik = x_i + \u03b1 * (x_n \u2013 x_i)<\/p>\n<p>Dengan menggunakan SMOTE secara berulang pada contoh kelas minoriti, pengedaran kelas diseimbangkan semula, menghasilkan set data yang lebih mewakili untuk melatih model.<\/p>\n<h2>Analisis ciri utama SMOTE<\/h2>\n<p>Ciri-ciri utama SMOTE adalah seperti berikut:<\/p>\n<ol>\n<li>\n<p><strong>Pembesaran Data<\/strong>: SMOTE menambah kelas minoriti dengan menjana sampel sintetik, menangani masalah ketidakseimbangan kelas dalam set data.<\/p>\n<\/li>\n<li>\n<p><strong>Pengurangan Bias<\/strong>: Dengan menambah bilangan contoh kelas minoriti, SMOTE mengurangkan berat sebelah dalam pengelas, yang membawa kepada prestasi ramalan yang lebih baik untuk kelas minoriti.<\/p>\n<\/li>\n<li>\n<p><strong>Kebolehgeneralisasian<\/strong>: SMOTE boleh digunakan pada pelbagai algoritma pembelajaran mesin dan tidak terhad kepada mana-mana jenis model tertentu.<\/p>\n<\/li>\n<li>\n<p><strong>Perlaksanaan Mudah<\/strong>: SMOTE adalah mudah untuk dilaksanakan dan boleh disepadukan dengan lancar ke dalam saluran paip pembelajaran mesin sedia ada.<\/p>\n<\/li>\n<\/ol>\n<h2>Jenis SMOTE<\/h2>\n<p>SMOTE mempunyai beberapa variasi dan penyesuaian untuk memenuhi pelbagai jenis set data tidak seimbang. Beberapa jenis SMOTE yang biasa digunakan termasuk:<\/p>\n<ol>\n<li>\n<p><strong>SMOTE biasa<\/strong>: Ini ialah versi standard SMOTE seperti yang diterangkan di atas, yang mencipta tika sintetik di sepanjang baris yang menghubungkan tika minoriti dan jirannya.<\/p>\n<\/li>\n<li>\n<p><strong>SMOTE sempadan<\/strong>: Varian ini memfokuskan pada penjanaan sampel sintetik berhampiran sempadan antara kelas minoriti dan majoriti, menjadikannya lebih berkesan untuk set data dengan kelas bertindih.<\/p>\n<\/li>\n<li>\n<p><strong>ADASYN (Pensampelan Sintetik Adaptif)<\/strong>: ADASYN menambah baik SMOTE dengan memberikan kepentingan yang lebih tinggi kepada contoh minoriti yang lebih sukar untuk dipelajari, menghasilkan generalisasi yang lebih baik.<\/p>\n<\/li>\n<li>\n<p><strong>SMOTEBoost<\/strong>: SMOTEBoost menggabungkan SMOTE dengan teknik penggalak untuk meningkatkan lagi prestasi pengelas pada set data yang tidak seimbang.<\/p>\n<\/li>\n<li>\n<p><strong>SMOTE Tahap Selamat<\/strong>: Varian ini mengurangkan risiko overfitting dengan mengawal bilangan sampel sintetik yang dijana berdasarkan tahap keselamatan setiap contoh.<\/p>\n<\/li>\n<\/ol>\n<p>Berikut ialah jadual perbandingan yang meringkaskan perbezaan antara varian SMOTE ini:<\/p>\n<table>\n<thead>\n<tr>\n<th>Varian SMOTE<\/th>\n<th>Pendekatan<\/th>\n<th>Fokus<\/th>\n<th>Kawalan Overfitting<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>SMOTE biasa<\/td>\n<td>Interpolasi linear<\/td>\n<td>T\/A<\/td>\n<td>Tidak<\/td>\n<\/tr>\n<tr>\n<td>SMOTE sempadan<\/td>\n<td>Interpolasi bukan linear<\/td>\n<td>Berdekatan sempadan kelas<\/td>\n<td>Tidak<\/td>\n<\/tr>\n<tr>\n<td>ADASYN<\/td>\n<td>Interpolasi berwajaran<\/td>\n<td>Kes minoriti yang sukar dipelajari<\/td>\n<td>Tidak<\/td>\n<\/tr>\n<tr>\n<td>SMOTEBoost<\/td>\n<td>Boosting + SMOTE<\/td>\n<td>T\/A<\/td>\n<td>ya<\/td>\n<\/tr>\n<tr>\n<td>SMOTE Tahap Selamat<\/td>\n<td>Interpolasi linear<\/td>\n<td>Berdasarkan tahap keselamatan<\/td>\n<td>ya<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Cara untuk menggunakan SMOTE, masalah dan penyelesaiannya yang berkaitan dengan penggunaan<\/h2>\n<h3>Cara-cara menggunakan SMOTE<\/h3>\n<p>SMOTE boleh digunakan dalam beberapa cara untuk meningkatkan prestasi model pembelajaran mesin pada set data tidak seimbang:<\/p>\n<ol>\n<li>\n<p><strong>Prapemprosesan<\/strong>: Gunakan SMOTE untuk mengimbangi pengagihan kelas sebelum melatih model.<\/p>\n<\/li>\n<li>\n<p><strong>Teknik Ensembel<\/strong>: Gabungkan SMOTE dengan kaedah ensemble seperti Random Forest atau Gradient Boosting untuk mencapai hasil yang lebih baik.<\/p>\n<\/li>\n<li>\n<p><strong>Pembelajaran Satu Kelas<\/strong>: Gunakan SMOTE untuk menambah data satu kelas untuk tugas pembelajaran tanpa pengawasan.<\/p>\n<\/li>\n<\/ol>\n<h3>Masalah dan Penyelesaian<\/h3>\n<p>Walaupun SMOTE ialah alat yang berkuasa untuk menangani data yang tidak seimbang, ia bukan tanpa cabarannya:<\/p>\n<ol>\n<li>\n<p><strong>Terlalu pasang<\/strong>: Menjana terlalu banyak contoh sintetik boleh menyebabkan pemasangan berlebihan, menyebabkan model berprestasi buruk pada data yang tidak kelihatan. Penggunaan SMOTE Tahap Selamat atau ADASYN boleh membantu mengawal overfitting.<\/p>\n<\/li>\n<li>\n<p><strong>Sumpahan Dimensi<\/strong>: Keberkesanan SMOTE boleh berkurangan dalam ruang ciri berdimensi tinggi disebabkan oleh kekurangan data. Pemilihan ciri atau teknik pengurangan dimensi boleh digunakan untuk menangani isu ini.<\/p>\n<\/li>\n<li>\n<p><strong>Penguatan Bunyi<\/strong>: SMOTE mungkin menghasilkan kejadian sintetik yang bising jika data asal mengandungi outlier. Teknik penyingkiran outlier atau pelaksanaan SMOTE yang diubah suai boleh mengurangkan masalah ini.<\/p>\n<\/li>\n<\/ol>\n<h2>Ciri-ciri utama dan perbandingan lain dengan istilah yang serupa<\/h2>\n<table>\n<thead>\n<tr>\n<th>Ciri-ciri<\/th>\n<th>SMOTE<\/th>\n<th>ADASYN<\/th>\n<th>Persampelan Terlebih Rawak<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>taip<\/td>\n<td>Pembesaran Data<\/td>\n<td>Pembesaran Data<\/td>\n<td>Pembesaran Data<\/td>\n<\/tr>\n<tr>\n<td>Sumber Contoh Sintetik<\/td>\n<td>Jiran Terdekat<\/td>\n<td>Berasaskan persamaan<\/td>\n<td>Penduaan Contoh<\/td>\n<\/tr>\n<tr>\n<td>Kawalan Overfitting<\/td>\n<td>Tidak<\/td>\n<td>ya<\/td>\n<td>Tidak<\/td>\n<\/tr>\n<tr>\n<td>Mengendalikan Data Bising<\/td>\n<td>ya<\/td>\n<td>ya<\/td>\n<td>Tidak<\/td>\n<\/tr>\n<tr>\n<td>Kerumitan<\/td>\n<td>rendah<\/td>\n<td>Sederhana<\/td>\n<td>rendah<\/td>\n<\/tr>\n<tr>\n<td>Prestasi<\/td>\n<td>Baik<\/td>\n<td>lebih baik<\/td>\n<td>Berbeza-beza<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Perspektif dan teknologi masa depan yang berkaitan dengan SMOTE<\/h2>\n<p>Masa depan SMOTE dan pengendalian data yang tidak seimbang dalam pembelajaran mesin adalah menjanjikan. Penyelidik dan pengamal terus membangun dan menambah baik teknik sedia ada, bertujuan untuk menangani cabaran yang ditimbulkan oleh set data tidak seimbang dengan lebih berkesan. Beberapa hala tuju masa depan yang berpotensi termasuk:<\/p>\n<ol>\n<li>\n<p><strong>Sambungan Pembelajaran Mendalam<\/strong>: Meneroka cara untuk mengintegrasikan teknik seperti SMOTE ke dalam seni bina pembelajaran mendalam untuk mengendalikan data yang tidak seimbang dalam tugas yang kompleks.<\/p>\n<\/li>\n<li>\n<p><strong>Penyepaduan AutoML<\/strong>: Mengintegrasikan SMOTE ke dalam alatan Automated Machine Learning (AutoML) untuk mendayakan prapemprosesan data automatik untuk set data yang tidak seimbang.<\/p>\n<\/li>\n<li>\n<p><strong>Penyesuaian Khusus Domain<\/strong>: Menyesuaikan varian SMOTE kepada domain tertentu seperti penjagaan kesihatan, kewangan atau pemprosesan bahasa semula jadi untuk meningkatkan prestasi model dalam aplikasi khusus.<\/p>\n<\/li>\n<\/ol>\n<h2>Cara pelayan proksi boleh digunakan atau dikaitkan dengan SMOTE<\/h2>\n<p>Pelayan proksi boleh memainkan peranan penting dalam meningkatkan prestasi dan privasi data yang digunakan dalam SMOTE. Beberapa kemungkinan cara pelayan proksi boleh dikaitkan dengan SMOTE termasuk:<\/p>\n<ol>\n<li>\n<p><strong>Penganoniman Data<\/strong>: Pelayan proksi boleh menamakan data sensitif sebelum menggunakan SMOTE, memastikan kejadian sintetik yang dijana tidak mendedahkan maklumat peribadi.<\/p>\n<\/li>\n<li>\n<p><strong>Pengkomputeran Teragih<\/strong>: Pelayan proksi boleh memudahkan pengkomputeran teragih untuk pelaksanaan SMOTE merentas berbilang lokasi, membolehkan pemprosesan set data berskala besar yang cekap.<\/p>\n<\/li>\n<li>\n<p><strong>Pengumpulan data<\/strong>: Pelayan proksi boleh digunakan untuk mengumpul data yang pelbagai daripada pelbagai sumber, menyumbang kepada penciptaan lebih banyak set data yang mewakili untuk SMOTE.<\/p>\n<\/li>\n<\/ol>\n<h2>Pautan berkaitan<\/h2>\n<p>Untuk mendapatkan maklumat lanjut tentang SMOTE dan teknik yang berkaitan, anda boleh merujuk kepada sumber berikut:<\/p>\n<ol>\n<li><a href=\"https:\/\/arxiv.org\/abs\/1106.1813\" target=\"_new\" rel=\"noopener nofollow\">Kertas SMOTE Asal<\/a><\/li>\n<li><a href=\"https:\/\/arxiv.org\/abs\/1106.1813\" target=\"_new\" rel=\"noopener nofollow\">ADASYN: Pendekatan Persampelan Sintetik Suaian untuk Pembelajaran Tidak Seimbang<\/a><\/li>\n<li><a href=\"https:\/\/www.ijcai.org\/Proceedings\/09\/Papers\/200.pdf\" target=\"_new\" rel=\"noopener nofollow\">SMOTEBoost: Memperbaik Ramalan Kelas Minoriti dalam Meningkatkan<\/a><\/li>\n<li><a href=\"https:\/\/ieeexplore.ieee.org\/document\/5128907\" target=\"_new\" rel=\"noopener nofollow\">Borderline-SMOTE: Kaedah Persampelan Terlebih Baharu dalam Pembelajaran Set Data Tidak Seimbang<\/a><\/li>\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/abs\/pii\/S0925231218307422\" target=\"_new\" rel=\"noopener nofollow\">SMOTE Tahap Selamat: Teknik Persampelan Lebihan Minoriti Sintetik Tahap Selamat untuk Mengendalikan Masalah Ketidakseimbangan Kelas<\/a><\/li>\n<\/ol>\n<p>Kesimpulannya, SMOTE ialah alat penting dalam kotak alat pembelajaran mesin yang menangani cabaran set data yang tidak seimbang. Dengan menjana contoh sintetik untuk kelas minoriti, SMOTE meningkatkan prestasi pengelas dan memastikan generalisasi yang lebih baik. Kebolehsuaian, kemudahan pelaksanaan dan keberkesanannya menjadikannya teknik yang sangat diperlukan dalam pelbagai aplikasi. Dengan penyelidikan dan kemajuan teknologi yang berterusan, masa depan mempunyai prospek yang menarik untuk SMOTE dan peranannya dalam kemajuan pembelajaran mesin.<\/p>","protected":false},"featured_media":470514,"menu_order":0,"template":"","meta":{"_acf_changed":false,"content-type":"","inline_featured_image":false,"footnotes":""},"class_list":["post-479036","wiki","type-wiki","status-publish","has-post-thumbnail","hentry"],"acf":{"faq_title":"Frequently Asked Questions about <mark>SMOTE: Synthetic Minority Over-sampling Technique<\/mark>","faq_items":[{"question":"What is SMOTE?","answer":"<p>SMOTE stands for Synthetic Minority Over-sampling Technique. It is a data augmentation method used in machine learning to address imbalanced datasets. By generating synthetic samples of the minority class, SMOTE balances the class distribution and improves model performance.<\/p>"},{"question":"How was SMOTE developed?","answer":"<p>SMOTE was introduced in a seminal research paper titled \"SMOTE: Synthetic Minority Over-sampling Technique\" by Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, and W. Philip Kegelmeyer in 2002.<\/p>"},{"question":"How does SMOTE work?","answer":"<p>SMOTE works by creating synthetic instances of the minority class by interpolating between existing minority instances and their nearest neighbors. These synthetic samples help balance the class distribution and reduce bias in the model.<\/p>"},{"question":"What are the key features of SMOTE?","answer":"<p>The key features of SMOTE include data augmentation, bias reduction, generalizability, and easy implementation.<\/p>"},{"question":"What types of SMOTE variants are there?","answer":"<p>Several SMOTE variants exist, including Regular SMOTE, Borderline SMOTE, ADASYN, SMOTEBoost, and Safe-Level SMOTE. Each variant has its own specific approach and focus.<\/p>"},{"question":"How can I use SMOTE?","answer":"<p>SMOTE can be used in various ways, such as preprocessing, ensemble techniques, and one-class learning, to improve model performance on imbalanced datasets.<\/p>"},{"question":"What problems can arise when using SMOTE?","answer":"<p>Potential issues with SMOTE include overfitting, curse of dimensionality in high-dimensional spaces, and noise amplification. However, there are solutions and adaptations to address these problems.<\/p>"},{"question":"How does SMOTE compare to other data augmentation methods?","answer":"<p>SMOTE can be compared to ADASYN and Random Oversampling. Each method has its own characteristics, complexity, and performance.<\/p>"},{"question":"What is the future outlook for SMOTE in machine learning?","answer":"<p>The future of SMOTE looks promising, with potential advancements in deep learning extensions, AutoML integration, and domain-specific adaptations.<\/p>"},{"question":"How can proxy servers be associated with SMOTE?","answer":"<p>Proxy servers can play a role in anonymizing data, facilitating distributed computing, and collecting diverse data for SMOTE applications. They can enhance the privacy and performance of SMOTE implementations.<\/p>"}]},"_links":{"self":[{"href":"https:\/\/oneproxy.pro\/my\/wp-json\/wp\/v2\/wiki\/479036","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/oneproxy.pro\/my\/wp-json\/wp\/v2\/wiki"}],"about":[{"href":"https:\/\/oneproxy.pro\/my\/wp-json\/wp\/v2\/types\/wiki"}],"version-history":[{"count":0,"href":"https:\/\/oneproxy.pro\/my\/wp-json\/wp\/v2\/wiki\/479036\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/oneproxy.pro\/my\/wp-json\/wp\/v2\/media\/470514"}],"wp:attachment":[{"href":"https:\/\/oneproxy.pro\/my\/wp-json\/wp\/v2\/media?parent=479036"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}