{"id":479036,"date":"2023-08-09T10:01:33","date_gmt":"2023-08-09T10:01:33","guid":{"rendered":""},"modified":"2023-09-05T11:18:03","modified_gmt":"2023-09-05T11:18:03","slug":"smote","status":"publish","type":"wiki","link":"https:\/\/oneproxy.pro\/pt\/wiki\/smote\/","title":{"rendered":"FERIR"},"content":{"rendered":"<p>SMOTE, abrevia\u00e7\u00e3o de Synthetic Minority Over-sampling Technique, \u00e9 um poderoso m\u00e9todo de aumento de dados usado em aprendizado de m\u00e1quina para resolver o problema de conjuntos de dados desequilibrados. Em muitos cen\u00e1rios do mundo real, os conjuntos de dados geralmente cont\u00eam distribui\u00e7\u00f5es de classes desequilibradas, onde uma classe (a classe minorit\u00e1ria) tem significativamente menos inst\u00e2ncias em compara\u00e7\u00e3o com as outras classes (classes majorit\u00e1rias). Este desequil\u00edbrio pode levar a modelos tendenciosos com fraco desempenho no reconhecimento da classe minorit\u00e1ria, levando a previs\u00f5es abaixo do ideal.<\/p>\n<p>O SMOTE foi introduzido para resolver esse problema, gerando amostras sint\u00e9ticas da classe minorit\u00e1ria, equilibrando assim a distribui\u00e7\u00e3o de classes e aumentando a capacidade do modelo de aprender com a classe minorit\u00e1ria. Esta t\u00e9cnica encontrou in\u00fameras aplica\u00e7\u00f5es em v\u00e1rios campos, como diagn\u00f3stico m\u00e9dico, detec\u00e7\u00e3o de fraudes e classifica\u00e7\u00e3o de imagens, onde prevalecem conjuntos de dados desequilibrados.<\/p>\n<h2>A hist\u00f3ria da origem do SMOTE e a primeira men\u00e7\u00e3o dele<\/h2>\n<p>O SMOTE foi proposto por Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall e W. Philip Kegelmeyer em seu artigo seminal intitulado \u201cSMOTE: Synthetic Minority Over-sampling Technique\u201d publicado em 2002. Os autores reconheceram os desafios colocados por conjuntos de dados desequilibrados e desenvolveu o SMOTE como uma solu\u00e7\u00e3o inovadora para mitigar o preconceito causado por tais conjuntos de dados.<\/p>\n<p>A pesquisa de Chawla et al. demonstraram que o SMOTE melhorou significativamente o desempenho dos classificadores ao lidar com dados desequilibrados. Desde ent\u00e3o, o SMOTE ganhou popularidade e se tornou uma t\u00e9cnica fundamental na \u00e1rea de aprendizado de m\u00e1quina.<\/p>\n<h2>Informa\u00e7\u00f5es detalhadas sobre SMOTE<\/h2>\n<h3>A estrutura interna do SMOTE \u2013 Como funciona o SMOTE<\/h3>\n<p>SMOTE funciona criando amostras sint\u00e9ticas para a classe minorit\u00e1ria, interpolando entre inst\u00e2ncias existentes da classe minorit\u00e1ria. As principais etapas do algoritmo SMOTE s\u00e3o as seguintes:<\/p>\n<ol>\n<li>Identifique as inst\u00e2ncias de classe minorit\u00e1ria no conjunto de dados.<\/li>\n<li>Para cada inst\u00e2ncia minorit\u00e1ria, identifique seus k vizinhos mais pr\u00f3ximos dentro da classe minorit\u00e1ria.<\/li>\n<li>Selecione aleatoriamente um dos k vizinhos mais pr\u00f3ximos.<\/li>\n<li>Gere uma inst\u00e2ncia sint\u00e9tica usando uma combina\u00e7\u00e3o linear do vizinho selecionado e da inst\u00e2ncia original.<\/li>\n<\/ol>\n<p>O algoritmo SMOTE pode ser resumido na seguinte equa\u00e7\u00e3o, onde x_i representa a inst\u00e2ncia minorit\u00e1ria original, x_n \u00e9 um vizinho selecionado aleatoriamente e \u03b1 \u00e9 um valor aleat\u00f3rio entre 0 e 1:<\/p>\n<p>Inst\u00e2ncia Sint\u00e9tica = x_i + \u03b1 * (x_n \u2013 x_i)<\/p>\n<p>Ao aplicar SMOTE iterativamente \u00e0s inst\u00e2ncias de classes minorit\u00e1rias, a distribui\u00e7\u00e3o de classes \u00e9 reequilibrada, resultando em um conjunto de dados mais representativo para treinar o modelo.<\/p>\n<h2>An\u00e1lise dos principais recursos do SMOTE<\/h2>\n<p>Os principais recursos do SMOTE s\u00e3o os seguintes:<\/p>\n<ol>\n<li>\n<p><strong>Aumento de dados<\/strong>: SMOTE aumenta a classe minorit\u00e1ria gerando amostras sint\u00e9ticas, resolvendo o problema de desequil\u00edbrio de classe no conjunto de dados.<\/p>\n<\/li>\n<li>\n<p><strong>Redu\u00e7\u00e3o de polariza\u00e7\u00e3o<\/strong>: Ao aumentar o n\u00famero de inst\u00e2ncias da classe minorit\u00e1ria, o SMOTE reduz o vi\u00e9s no classificador, levando a um melhor desempenho preditivo para a classe minorit\u00e1ria.<\/p>\n<\/li>\n<li>\n<p><strong>Generaliza\u00e7\u00e3o<\/strong>: SMOTE pode ser aplicado a v\u00e1rios algoritmos de aprendizado de m\u00e1quina e n\u00e3o est\u00e1 limitado a nenhum tipo espec\u00edfico de modelo.<\/p>\n<\/li>\n<li>\n<p><strong>F\u00e1cil implementa\u00e7\u00e3o<\/strong>: O SMOTE \u00e9 simples de implementar e pode ser perfeitamente integrado aos pipelines de aprendizado de m\u00e1quina existentes.<\/p>\n<\/li>\n<\/ol>\n<h2>Tipos de SMOTE<\/h2>\n<p>O SMOTE possui diversas varia\u00e7\u00f5es e adapta\u00e7\u00f5es para atender a diferentes tipos de conjuntos de dados desequilibrados. Alguns dos tipos de SMOTE comumente usados incluem:<\/p>\n<ol>\n<li>\n<p><strong>SMOTE normal<\/strong>: Esta \u00e9 a vers\u00e3o padr\u00e3o do SMOTE conforme descrito acima, que cria inst\u00e2ncias sint\u00e9ticas ao longo da linha que conecta a inst\u00e2ncia minorit\u00e1ria e seus vizinhos.<\/p>\n<\/li>\n<li>\n<p><strong>SMOTE lim\u00edtrofe<\/strong>: esta variante se concentra na gera\u00e7\u00e3o de amostras sint\u00e9ticas pr\u00f3ximas \u00e0 fronteira entre as classes minorit\u00e1rias e majorit\u00e1rias, tornando-a mais eficaz para conjuntos de dados com classes sobrepostas.<\/p>\n<\/li>\n<li>\n<p><strong>ADASYN (amostragem sint\u00e9tica adaptativa)<\/strong>: ADASYN melhora o SMOTE atribuindo maior import\u00e2ncia \u00e0s inst\u00e2ncias minorit\u00e1rias que s\u00e3o mais dif\u00edceis de aprender, resultando em melhor generaliza\u00e7\u00e3o.<\/p>\n<\/li>\n<li>\n<p><strong>SMOTE Boost<\/strong>: SMOTEBoost combina SMOTE com t\u00e9cnicas de boosting para melhorar ainda mais o desempenho dos classificadores em conjuntos de dados desequilibrados.<\/p>\n<\/li>\n<li>\n<p><strong>SMOTE de n\u00edvel seguro<\/strong>: Esta variante reduz o risco de overfitting controlando o n\u00famero de amostras sint\u00e9ticas geradas com base no n\u00edvel de seguran\u00e7a de cada inst\u00e2ncia.<\/p>\n<\/li>\n<\/ol>\n<p>Aqui est\u00e1 uma tabela de compara\u00e7\u00e3o que resume as diferen\u00e7as entre essas variantes do SMOTE:<\/p>\n<table>\n<thead>\n<tr>\n<th>Variante SMOTE<\/th>\n<th>Abordagem<\/th>\n<th>Foco<\/th>\n<th>Controle de sobreajuste<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>SMOTE normal<\/td>\n<td>Interpola\u00e7\u00e3o linear<\/td>\n<td>N \/ D<\/td>\n<td>N\u00e3o<\/td>\n<\/tr>\n<tr>\n<td>SMOTE lim\u00edtrofe<\/td>\n<td>Interpola\u00e7\u00e3o n\u00e3o linear<\/td>\n<td>Perto da fronteira das aulas<\/td>\n<td>N\u00e3o<\/td>\n<\/tr>\n<tr>\n<td>ADASYN<\/td>\n<td>Interpola\u00e7\u00e3o ponderada<\/td>\n<td>Casos minorit\u00e1rios dif\u00edceis de aprender<\/td>\n<td>N\u00e3o<\/td>\n<\/tr>\n<tr>\n<td>SMOTE Boost<\/td>\n<td>Impulso + SMOTE<\/td>\n<td>N \/ D<\/td>\n<td>Sim<\/td>\n<\/tr>\n<tr>\n<td>SMOTE de n\u00edvel seguro<\/td>\n<td>Interpola\u00e7\u00e3o linear<\/td>\n<td>Com base nos n\u00edveis de seguran\u00e7a<\/td>\n<td>Sim<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Formas de usar o SMOTE, problemas e suas solu\u00e7\u00f5es relacionadas ao uso<\/h2>\n<h3>Maneiras de usar o SMOTE<\/h3>\n<p>O SMOTE pode ser empregado de v\u00e1rias maneiras para melhorar o desempenho de modelos de aprendizado de m\u00e1quina em conjuntos de dados desequilibrados:<\/p>\n<ol>\n<li>\n<p><strong>Pr\u00e9-processando<\/strong>: aplique SMOTE para equilibrar a distribui\u00e7\u00e3o de classes antes de treinar o modelo.<\/p>\n<\/li>\n<li>\n<p><strong>T\u00e9cnicas de conjunto<\/strong>: Combine SMOTE com m\u00e9todos de conjunto como Random Forest ou Gradient Boosting para obter melhores resultados.<\/p>\n<\/li>\n<li>\n<p><strong>Aprendizagem em uma aula<\/strong>: Use SMOTE para aumentar os dados de uma classe para tarefas de aprendizagem n\u00e3o supervisionadas.<\/p>\n<\/li>\n<\/ol>\n<h3>Problemas e solu\u00e7\u00f5es<\/h3>\n<p>Embora o SMOTE seja uma ferramenta poderosa para lidar com dados desequilibrados, ele tem seus desafios:<\/p>\n<ol>\n<li>\n<p><strong>Sobreajuste<\/strong>: a gera\u00e7\u00e3o de muitas inst\u00e2ncias sint\u00e9ticas pode levar ao ajuste excessivo, fazendo com que o modelo tenha um desempenho insatisfat\u00f3rio em dados n\u00e3o vistos. O uso de Safe-Level SMOTE ou ADASYN pode ajudar a controlar o overfitting.<\/p>\n<\/li>\n<li>\n<p><strong>Maldi\u00e7\u00e3o da Dimensionalidade<\/strong>: A efic\u00e1cia do SMOTE pode diminuir em espa\u00e7os de recursos de alta dimens\u00e3o devido \u00e0 escassez de dados. T\u00e9cnicas de sele\u00e7\u00e3o de recursos ou redu\u00e7\u00e3o de dimensionalidade podem ser empregadas para resolver esse problema.<\/p>\n<\/li>\n<li>\n<p><strong>Amplifica\u00e7\u00e3o de ru\u00eddo<\/strong>: o SMOTE pode gerar inst\u00e2ncias sint\u00e9ticas ruidosas se os dados originais contiverem valores discrepantes. T\u00e9cnicas de remo\u00e7\u00e3o de valores discrepantes ou implementa\u00e7\u00f5es SMOTE modificadas podem mitigar esse problema.<\/p>\n<\/li>\n<\/ol>\n<h2>Principais caracter\u00edsticas e outras compara\u00e7\u00f5es com termos semelhantes<\/h2>\n<table>\n<thead>\n<tr>\n<th>Caracter\u00edsticas<\/th>\n<th>FERIR<\/th>\n<th>ADASYN<\/th>\n<th>Sobreamostragem aleat\u00f3ria<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Tipo<\/td>\n<td>Aumento de dados<\/td>\n<td>Aumento de dados<\/td>\n<td>Aumento de dados<\/td>\n<\/tr>\n<tr>\n<td>Fonte de amostra sint\u00e9tica<\/td>\n<td>Vizinhos mais pr\u00f3ximos<\/td>\n<td>Baseado em similaridade<\/td>\n<td>Duplicando Inst\u00e2ncias<\/td>\n<\/tr>\n<tr>\n<td>Controle de sobreajuste<\/td>\n<td>N\u00e3o<\/td>\n<td>Sim<\/td>\n<td>N\u00e3o<\/td>\n<\/tr>\n<tr>\n<td>Lidando com dados barulhentos<\/td>\n<td>Sim<\/td>\n<td>Sim<\/td>\n<td>N\u00e3o<\/td>\n<\/tr>\n<tr>\n<td>Complexidade<\/td>\n<td>Baixo<\/td>\n<td>Moderado<\/td>\n<td>Baixo<\/td>\n<\/tr>\n<tr>\n<td>Desempenho<\/td>\n<td>Bom<\/td>\n<td>Melhorar<\/td>\n<td>Varia<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Perspectivas e tecnologias do futuro relacionadas ao SMOTE<\/h2>\n<p>O futuro do SMOTE e do tratamento desequilibrado de dados no aprendizado de m\u00e1quina \u00e9 promissor. Os investigadores e profissionais continuam a desenvolver e a melhorar as t\u00e9cnicas existentes, com o objetivo de enfrentar de forma mais eficaz os desafios colocados pelos conjuntos de dados desequilibrados. Algumas poss\u00edveis dire\u00e7\u00f5es futuras incluem:<\/p>\n<ol>\n<li>\n<p><strong>Extens\u00f5es de aprendizagem profunda<\/strong>: Explorando maneiras de integrar t\u00e9cnicas do tipo SMOTE em arquiteturas de aprendizagem profunda para lidar com dados desequilibrados em tarefas complexas.<\/p>\n<\/li>\n<li>\n<p><strong>Integra\u00e7\u00e3o AutoML<\/strong>: Integra\u00e7\u00e3o do SMOTE em ferramentas de Automated Machine Learning (AutoML) para permitir o pr\u00e9-processamento automatizado de dados para conjuntos de dados desequilibrados.<\/p>\n<\/li>\n<li>\n<p><strong>Adapta\u00e7\u00f5es Espec\u00edficas de Dom\u00ednio<\/strong>: Adapta\u00e7\u00e3o de variantes SMOTE para dom\u00ednios espec\u00edficos, como sa\u00fade, finan\u00e7as ou processamento de linguagem natural para melhorar o desempenho do modelo em aplica\u00e7\u00f5es especializadas.<\/p>\n<\/li>\n<\/ol>\n<h2>Como os servidores proxy podem ser usados ou associados ao SMOTE<\/h2>\n<p>Os servidores proxy podem desempenhar um papel significativo na melhoria do desempenho e da privacidade dos dados usados no SMOTE. Algumas maneiras poss\u00edveis pelas quais os servidores proxy podem ser associados ao SMOTE incluem:<\/p>\n<ol>\n<li>\n<p><strong>Anonimiza\u00e7\u00e3o de dados<\/strong>: Os servidores proxy podem anonimizar dados confidenciais antes de aplicar o SMOTE, garantindo que as inst\u00e2ncias sint\u00e9ticas geradas n\u00e3o revelem informa\u00e7\u00f5es privadas.<\/p>\n<\/li>\n<li>\n<p><strong>Computa\u00e7\u00e3o distribu\u00edda<\/strong>: os servidores proxy podem facilitar a computa\u00e7\u00e3o distribu\u00edda para implementa\u00e7\u00f5es SMOTE em v\u00e1rios locais, permitindo o processamento eficiente de conjuntos de dados em grande escala.<\/p>\n<\/li>\n<li>\n<p><strong>Cole\u00e7\u00e3o de dados<\/strong>: Servidores proxy podem ser usados para coletar diversos dados de diversas fontes, contribuindo para a cria\u00e7\u00e3o de conjuntos de dados mais representativos para o SMOTE.<\/p>\n<\/li>\n<\/ol>\n<h2>Links Relacionados<\/h2>\n<p>Para obter mais informa\u00e7\u00f5es sobre SMOTE e t\u00e9cnicas relacionadas, consulte os seguintes recursos:<\/p>\n<ol>\n<li><a href=\"https:\/\/arxiv.org\/abs\/1106.1813\" target=\"_new\" rel=\"noopener nofollow\">Papel SMOTE Original<\/a><\/li>\n<li><a href=\"https:\/\/arxiv.org\/abs\/1106.1813\" target=\"_new\" rel=\"noopener nofollow\">ADASYN: Abordagem Adaptativa de Amostragem Sint\u00e9tica para Aprendizagem Desequilibrada<\/a><\/li>\n<li><a href=\"https:\/\/www.ijcai.org\/Proceedings\/09\/Papers\/200.pdf\" target=\"_new\" rel=\"noopener nofollow\">SMOTEBoost: Melhorando a previs\u00e3o da classe minorit\u00e1ria no Boosting<\/a><\/li>\n<li><a href=\"https:\/\/ieeexplore.ieee.org\/document\/5128907\" target=\"_new\" rel=\"noopener nofollow\">Borderline-SMOTE: um novo m\u00e9todo de sobreamostragem na aprendizagem de conjuntos de dados desequilibrados<\/a><\/li>\n<li><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/abs\/pii\/S0925231218307422\" target=\"_new\" rel=\"noopener nofollow\">SMOTE de n\u00edvel seguro: t\u00e9cnica de sobreamostragem de minoria sint\u00e9tica de n\u00edvel seguro para lidar com o problema de desequil\u00edbrio de classe<\/a><\/li>\n<\/ol>\n<p>Concluindo, o SMOTE \u00e9 uma ferramenta vital na caixa de ferramentas de aprendizado de m\u00e1quina que aborda os desafios de conjuntos de dados desequilibrados. Ao gerar inst\u00e2ncias sint\u00e9ticas para a classe minorit\u00e1ria, o SMOTE melhora o desempenho dos classificadores e garante uma melhor generaliza\u00e7\u00e3o. Sua adaptabilidade, facilidade de implementa\u00e7\u00e3o e efic\u00e1cia fazem dela uma t\u00e9cnica indispens\u00e1vel em diversas aplica\u00e7\u00f5es. Com pesquisas cont\u00ednuas e avan\u00e7os tecnol\u00f3gicos, o futuro reserva perspectivas animadoras para o SMOTE e seu papel no avan\u00e7o do aprendizado de m\u00e1quina.<\/p>","protected":false},"featured_media":470514,"menu_order":0,"template":"","meta":{"_acf_changed":false,"content-type":"","inline_featured_image":false,"footnotes":""},"class_list":["post-479036","wiki","type-wiki","status-publish","has-post-thumbnail","hentry"],"acf":{"faq_title":"Frequently Asked Questions about <mark>SMOTE: Synthetic Minority Over-sampling Technique<\/mark>","faq_items":[{"question":"What is SMOTE?","answer":"<p>SMOTE stands for Synthetic Minority Over-sampling Technique. It is a data augmentation method used in machine learning to address imbalanced datasets. By generating synthetic samples of the minority class, SMOTE balances the class distribution and improves model performance.<\/p>"},{"question":"How was SMOTE developed?","answer":"<p>SMOTE was introduced in a seminal research paper titled \"SMOTE: Synthetic Minority Over-sampling Technique\" by Nitesh V. Chawla, Kevin W. Bowyer, Lawrence O. Hall, and W. Philip Kegelmeyer in 2002.<\/p>"},{"question":"How does SMOTE work?","answer":"<p>SMOTE works by creating synthetic instances of the minority class by interpolating between existing minority instances and their nearest neighbors. These synthetic samples help balance the class distribution and reduce bias in the model.<\/p>"},{"question":"What are the key features of SMOTE?","answer":"<p>The key features of SMOTE include data augmentation, bias reduction, generalizability, and easy implementation.<\/p>"},{"question":"What types of SMOTE variants are there?","answer":"<p>Several SMOTE variants exist, including Regular SMOTE, Borderline SMOTE, ADASYN, SMOTEBoost, and Safe-Level SMOTE. Each variant has its own specific approach and focus.<\/p>"},{"question":"How can I use SMOTE?","answer":"<p>SMOTE can be used in various ways, such as preprocessing, ensemble techniques, and one-class learning, to improve model performance on imbalanced datasets.<\/p>"},{"question":"What problems can arise when using SMOTE?","answer":"<p>Potential issues with SMOTE include overfitting, curse of dimensionality in high-dimensional spaces, and noise amplification. However, there are solutions and adaptations to address these problems.<\/p>"},{"question":"How does SMOTE compare to other data augmentation methods?","answer":"<p>SMOTE can be compared to ADASYN and Random Oversampling. Each method has its own characteristics, complexity, and performance.<\/p>"},{"question":"What is the future outlook for SMOTE in machine learning?","answer":"<p>The future of SMOTE looks promising, with potential advancements in deep learning extensions, AutoML integration, and domain-specific adaptations.<\/p>"},{"question":"How can proxy servers be associated with SMOTE?","answer":"<p>Proxy servers can play a role in anonymizing data, facilitating distributed computing, and collecting diverse data for SMOTE applications. They can enhance the privacy and performance of SMOTE implementations.<\/p>"}]},"_links":{"self":[{"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/wiki\/479036","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/wiki"}],"about":[{"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/types\/wiki"}],"version-history":[{"count":0,"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/wiki\/479036\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/media\/470514"}],"wp:attachment":[{"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/media?parent=479036"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}