{"id":477558,"date":"2023-08-09T09:16:45","date_gmt":"2023-08-09T09:16:45","guid":{"rendered":""},"modified":"2023-09-05T11:14:58","modified_gmt":"2023-09-05T11:14:58","slug":"imbalanced-data","status":"publish","type":"wiki","link":"https:\/\/oneproxy.pro\/pt\/wiki\/imbalanced-data\/","title":{"rendered":"Dados desequilibrados"},"content":{"rendered":"<p>Dados desequilibrados referem-se a um desafio comum no campo da an\u00e1lise de dados e do aprendizado de m\u00e1quina, onde a distribui\u00e7\u00e3o de classes dentro de um conjunto de dados \u00e9 altamente distorcida. Isto significa que uma classe (a classe minorit\u00e1ria) est\u00e1 significativamente sub-representada em compara\u00e7\u00e3o com outra (a classe maiorit\u00e1ria). A quest\u00e3o dos dados desequilibrados pode ter um impacto profundo no desempenho e na precis\u00e3o de v\u00e1rios aplicativos baseados em dados, incluindo modelos de aprendizado de m\u00e1quina. Abordar este problema \u00e9 crucial para obter resultados confi\u00e1veis e imparciais.<\/p>\n<h2>A hist\u00f3ria da origem dos dados desequilibrados e a primeira men\u00e7\u00e3o deles<\/h2>\n<p>O conceito de dados desequilibrados tem sido reconhecido como uma preocupa\u00e7\u00e3o em v\u00e1rios campos cient\u00edficos h\u00e1 d\u00e9cadas. No entanto, sua introdu\u00e7\u00e3o formal na comunidade de aprendizado de m\u00e1quina remonta \u00e0 d\u00e9cada de 1990. Come\u00e7aram a aparecer artigos de pesquisa discutindo esta quest\u00e3o, destacando os desafios que ela representava para os algoritmos de aprendizagem tradicionais e a necessidade de t\u00e9cnicas especializadas para enfrent\u00e1-la de forma eficaz.<\/p>\n<h2>Informa\u00e7\u00f5es detalhadas sobre dados desequilibrados: expandindo o t\u00f3pico<\/h2>\n<p>Dados desequilibrados surgem em v\u00e1rios cen\u00e1rios do mundo real, como diagn\u00f3sticos m\u00e9dicos, detec\u00e7\u00e3o de fraudes, detec\u00e7\u00e3o de anomalias e previs\u00e3o de eventos raros. Nestes casos, o evento de interesse \u00e9 frequentemente raro em compara\u00e7\u00e3o com as inst\u00e2ncias sem evento, levando a distribui\u00e7\u00f5es de classes desequilibradas.<\/p>\n<p>Os algoritmos tradicionais de aprendizado de m\u00e1quina geralmente s\u00e3o projetados com a suposi\u00e7\u00e3o de que o conjunto de dados \u00e9 balanceado, tratando todas as classes igualmente. Quando aplicados a dados desequilibrados, esses algoritmos tendem a favorecer a classe majorit\u00e1ria, levando a um baixo desempenho na identifica\u00e7\u00e3o de inst\u00e2ncias de classes minorit\u00e1rias. A raz\u00e3o por tr\u00e1s desse preconceito \u00e9 que o processo de aprendizagem \u00e9 impulsionado pela precis\u00e3o geral, que \u00e9 fortemente influenciada pela turma maior.<\/p>\n<h2>A estrutura interna dos dados desequilibrados: como funciona<\/h2>\n<p>Os dados desequilibrados podem ser representados da seguinte forma:<\/p>\n<pre><div class=\"bg-black rounded-md mb-4\"><div class=\"flex items-center relative text-gray-200 bg-gray-800 px-4 py-2 text-xs font-sans justify-between rounded-t-md\"><span>Lua<\/span><button class=\"flex ml-auto gap-2\"><svg stroke=\"currentColor\" fill=\"none\" stroke-width=\"2\" viewbox=\"0 0 24 24\" stroke-linecap=\"round\" stroke-linejoin=\"round\" class=\"h-4 w-4\" height=\"1em\" width=\"1em\" ><path d=\"M16 4h2a2 2 0 0 1 2 2v14a2 2 0 0 1-2 2H6a2 2 0 0 1-2-2V6a2 2 0 0 1 2-2h2\"><\/path><rect x=\"8\" y=\"2\" width=\"8\" height=\"4\" rx=\"1\" ry=\"1\"><\/rect><\/svg>Copiar c\u00f3digo<\/button><\/div><div class=\"p-4 overflow-y-auto\"><code class=\"!whitespace-pre hljs language-lua\" data-no-translation=\"\">|<span class=\"hljs-comment\">----------------------- | ---------------|<\/span>\n|       Class           |   Instances  |\n|<span class=\"hljs-comment\">----------------------- | ---------------|<\/span>\n|   Majority Class      |      N        |\n|<span class=\"hljs-comment\">----------------------- | ---------------|<\/span>\n|   Minority Class      |      M        |\n|<span class=\"hljs-comment\">----------------------- | ---------------|<\/span>\n<\/code><\/div><\/div><\/pre>\n<p>Onde N representa o n\u00famero de inst\u00e2ncias na classe majorit\u00e1ria e M representa o n\u00famero de inst\u00e2ncias na classe minorit\u00e1ria.<\/p>\n<h2>An\u00e1lise dos principais recursos de dados desequilibrados<\/h2>\n<p>Para compreender melhor os dados desequilibrados, \u00e9 essencial analisar alguns recursos principais:<\/p>\n<ol>\n<li>\n<p><strong>Taxa de desequil\u00edbrio de classe<\/strong>: A propor\u00e7\u00e3o de inst\u00e2ncias na classe majorit\u00e1ria para a classe minorit\u00e1ria. Pode ser expresso como N\/M.<\/p>\n<\/li>\n<li>\n<p><strong>Raridade da classe minorit\u00e1ria<\/strong>: o n\u00famero absoluto de inst\u00e2ncias na classe minorit\u00e1ria em rela\u00e7\u00e3o ao n\u00famero total de inst\u00e2ncias no conjunto de dados.<\/p>\n<\/li>\n<li>\n<p><strong>Sobreposi\u00e7\u00e3o de dados<\/strong>: O grau de sobreposi\u00e7\u00e3o entre as distribui\u00e7\u00f5es de caracter\u00edsticas das classes minorit\u00e1rias e majorit\u00e1rias. Mais sobreposi\u00e7\u00e3o pode levar a maior dificuldade na classifica\u00e7\u00e3o.<\/p>\n<\/li>\n<li>\n<p><strong>Sensibilidade ao Custo<\/strong>: O conceito de atribuir diferentes custos de classifica\u00e7\u00e3o incorreta a diferentes classes, dando mais peso \u00e0 classe minorit\u00e1ria para alcan\u00e7ar uma classifica\u00e7\u00e3o equilibrada.<\/p>\n<\/li>\n<\/ol>\n<h2>Tipos de dados desequilibrados<\/h2>\n<p>Existem diferentes tipos de dados desequilibrados com base no n\u00famero de classes e no grau de desequil\u00edbrio de classes:<\/p>\n<h3>Com base no n\u00famero de aulas:<\/h3>\n<ol>\n<li>\n<p><strong>Dados bin\u00e1rios desequilibrados<\/strong>: um conjunto de dados com apenas duas classes, onde uma \u00e9 significativamente superada em n\u00famero pela outra.<\/p>\n<\/li>\n<li>\n<p><strong>Dados desequilibrados multiclasse<\/strong>: um conjunto de dados com m\u00faltiplas classes, das quais pelo menos uma est\u00e1 significativamente sub-representada em compara\u00e7\u00e3o com as outras.<\/p>\n<\/li>\n<\/ol>\n<h3>Com base no grau de desequil\u00edbrio de classe:<\/h3>\n<ol>\n<li>\n<p><strong>Desequil\u00edbrio moderado<\/strong>: A taxa de desequil\u00edbrio \u00e9 relativamente baixa, normalmente entre 1:2 e 1:5.<\/p>\n<\/li>\n<li>\n<p><strong>Desequil\u00edbrio Grave<\/strong>: O r\u00e1cio de desequil\u00edbrio \u00e9 muito elevado, excedendo frequentemente 1:10 ou mais.<\/p>\n<\/li>\n<\/ol>\n<h2>Maneiras de usar dados desequilibrados, problemas e suas solu\u00e7\u00f5es<\/h2>\n<h3>Problemas com dados desequilibrados:<\/h3>\n<ol>\n<li>\n<p><strong>Classifica\u00e7\u00e3o tendenciosa<\/strong>: O modelo tende a favorecer a classe majorit\u00e1ria, levando a um fraco desempenho da classe minorit\u00e1ria.<\/p>\n<\/li>\n<li>\n<p><strong>Dificuldade em aprender<\/strong>: Os algoritmos tradicionais lutam para aprender padr\u00f5es de inst\u00e2ncias de classes raras devido \u00e0 sua representa\u00e7\u00e3o limitada.<\/p>\n<\/li>\n<li>\n<p><strong>M\u00e9tricas de avalia\u00e7\u00e3o enganosas<\/strong>: A precis\u00e3o pode ser uma m\u00e9trica enganosa, pois um modelo pode atingir alta precis\u00e3o simplesmente prevendo a classe majorit\u00e1ria.<\/p>\n<\/li>\n<\/ol>\n<h3>Solu\u00e7\u00f5es:<\/h3>\n<ol>\n<li>\n<p><strong>T\u00e9cnicas de Reamostragem<\/strong>: A subamostragem da classe majorit\u00e1ria ou a superamostragem da classe minorit\u00e1ria pode ajudar a equilibrar o conjunto de dados.<\/p>\n<\/li>\n<li>\n<p><strong>Abordagens algor\u00edtmicas<\/strong>: Algoritmos espec\u00edficos projetados para lidar com dados desequilibrados, como Random Forest, SMOTE e ADASYN.<\/p>\n<\/li>\n<li>\n<p><strong>Aprendizagem sens\u00edvel ao custo<\/strong>: Modificar o processo de aprendizagem para atribuir diferentes custos de classifica\u00e7\u00e3o incorreta a diferentes classes.<\/p>\n<\/li>\n<li>\n<p><strong>M\u00e9todos de conjunto<\/strong>: A combina\u00e7\u00e3o de v\u00e1rios classificadores pode melhorar o desempenho geral em dados desequilibrados.<\/p>\n<\/li>\n<\/ol>\n<h2>Principais caracter\u00edsticas e compara\u00e7\u00f5es com termos semelhantes<\/h2>\n<table>\n<thead>\n<tr>\n<th>Caracter\u00edstica<\/th>\n<th>Dados desequilibrados<\/th>\n<th>Dados balanceados<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Distribui\u00e7\u00e3o de Classes<\/td>\n<td>Inclinado<\/td>\n<td>Uniforme<\/td>\n<\/tr>\n<tr>\n<td>Desafio<\/td>\n<td>Preconceito em rela\u00e7\u00e3o \u00e0 classe majorit\u00e1ria<\/td>\n<td>Trata igualmente todas as classes<\/td>\n<\/tr>\n<tr>\n<td>Solu\u00e7\u00f5es Comuns<\/td>\n<td>Reamostragem, ajustes algor\u00edtmicos<\/td>\n<td>Algoritmos de aprendizagem padr\u00e3o<\/td>\n<\/tr>\n<tr>\n<td>M\u00e9tricas de desempenho<\/td>\n<td>Precis\u00e3o, recall, pontua\u00e7\u00e3o F1<\/td>\n<td>Precis\u00e3o, precis\u00e3o, recall<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Perspectivas e tecnologias do futuro relacionadas a dados desequilibrados<\/h2>\n<p>\u00c0 medida que a pesquisa sobre aprendizado de m\u00e1quina avan\u00e7a, \u00e9 prov\u00e1vel que surjam t\u00e9cnicas e algoritmos mais avan\u00e7ados para enfrentar os desafios dos dados desequilibrados. Os investigadores est\u00e3o continuamente a explorar novas abordagens para melhorar o desempenho dos modelos em conjuntos de dados desequilibrados, tornando-os mais adapt\u00e1veis a cen\u00e1rios do mundo real.<\/p>\n<h2>Como os servidores proxy podem ser usados ou associados a dados desequilibrados<\/h2>\n<p>Os servidores proxy desempenham um papel vital em v\u00e1rios aplicativos com uso intensivo de dados, incluindo coleta de dados, web scraping e anonimato. Embora n\u00e3o estejam diretamente relacionados ao conceito de dados desequilibrados, os servidores proxy podem ser utilizados para lidar com tarefas de coleta de dados em grande escala, que podem envolver conjuntos de dados desequilibrados. Ao alternar endere\u00e7os IP e gerenciar o tr\u00e1fego, os servidores proxy ajudam a evitar banimentos de IP e garantem uma extra\u00e7\u00e3o de dados mais f\u00e1cil de sites ou APIs.<\/p>\n<h2>Links Relacionados<\/h2>\n<p>Para obter mais informa\u00e7\u00f5es sobre dados desequilibrados e t\u00e9cnicas para resolv\u00ea-los, voc\u00ea pode explorar os seguintes recursos:<\/p>\n<ol>\n<li><a href=\"https:\/\/towardsdatascience.com\/dealing-with-imbalanced-data-in-machine-learning-7c4a692eda42\" target=\"_new\" rel=\"noopener nofollow\">Rumo \u00e0 ci\u00eancia de dados \u2013 Lidando com dados desequilibrados no aprendizado de m\u00e1quina<\/a><\/li>\n<li><a href=\"https:\/\/scikit-learn.org\/stable\/auto_examples\/applications\/plot_tomography_reconstruction.html\" target=\"_new\" rel=\"noopener nofollow\">Documenta\u00e7\u00e3o do Scikit-learn \u2013 Tratamento de dados desequilibrados<\/a><\/li>\n<li><a href=\"https:\/\/machinelearningmastery.com\/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset\/\" target=\"_new\" rel=\"noopener nofollow\">Dom\u00ednio do aprendizado de m\u00e1quina \u2013 t\u00e1ticas para combater classes desequilibradas em seu conjunto de dados de aprendizado de m\u00e1quina<\/a><\/li>\n<li><a href=\"https:\/\/ieeexplore.ieee.org\/document\/5128907\" target=\"_new\" rel=\"noopener nofollow\">Transa\u00e7\u00f5es IEEE sobre Conhecimento e Engenharia de Dados \u2013 Aprendendo com Dados Desequilibrados<\/a><\/li>\n<\/ol>","protected":false},"featured_media":468603,"menu_order":0,"template":"","meta":{"_acf_changed":false,"content-type":"","inline_featured_image":false,"footnotes":""},"class_list":["post-477558","wiki","type-wiki","status-publish","has-post-thumbnail","hentry"],"acf":{"faq_title":"Frequently Asked Questions about <mark>Imbalanced Data: A Comprehensive Guide<\/mark>","faq_items":[{"question":"Question: What is imbalanced data?","answer":"<p>Answer: Imbalanced data refers to a situation where the distribution of classes within a dataset is highly skewed, with one class (the minority class) being significantly underrepresented compared to another (the majority class). This can pose challenges in various data-driven applications, including machine learning, leading to biased classification and lower performance on the minority class.<\/p>"},{"question":"Question: How did the issue of imbalanced data originate?","answer":"<p>Answer: The concept of imbalanced data has been recognized as a concern in various fields for years. However, its formal introduction into the machine learning community can be traced back to the 1990s when research papers began highlighting the challenges it posed to traditional learning algorithms.<\/p>"},{"question":"Question: What are the key features of imbalanced data?","answer":"<p>Answer: Key features of imbalanced data include the class imbalance ratio, the rareness of the minority class, the degree of data overlap between classes, and cost sensitivity. These features influence the learning process and the performance of machine learning models.<\/p>"},{"question":"Question: What are the types of imbalanced data?","answer":"<p>Answer: Imbalanced data can be categorized based on the number of classes and the degree of class imbalance. Based on the number of classes, it can be binary (two classes) or multiclass (multiple classes). Based on the degree of class imbalance, it can be moderate or severe.<\/p>"},{"question":"Question: What are the problems with imbalanced data, and how can they be solved?","answer":"<p>Answer: The problems with imbalanced data include biased classification, difficulty in learning patterns from rare classes, and misleading evaluation metrics. To address these issues, various solutions can be employed, such as resampling techniques, algorithmic approaches, and cost-sensitive learning.<\/p>"},{"question":"Question: How can proxy servers be associated with imbalanced data?","answer":"<p>Answer: While not directly related to imbalanced data, proxy servers play a crucial role in data-intensive applications, including data collection and web scraping. They can be used to handle large-scale data collection tasks, which may involve imbalanced datasets, by rotating IP addresses and managing traffic to prevent IP bans and ensure smoother data extraction.<\/p>"},{"question":"Question: What are the future perspectives and technologies related to imbalanced data?","answer":"<p>Answer: As machine learning research progresses, more advanced techniques and algorithms are likely to emerge to address the challenges of imbalanced data. Researchers are continuously exploring novel approaches to enhance model performance on imbalanced datasets and make them more adaptable to real-world scenarios.<\/p>"},{"question":"Question: Where can I find more information about imbalanced data?","answer":"<p>Answer: For more in-depth information and resources about imbalanced data and techniques to address it, you can explore the provided links in the article, which include helpful articles, documentation, and research papers.<\/p>"}]},"_links":{"self":[{"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/wiki\/477558","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/wiki"}],"about":[{"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/types\/wiki"}],"version-history":[{"count":0,"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/wiki\/477558\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/media\/468603"}],"wp:attachment":[{"href":"https:\/\/oneproxy.pro\/pt\/wp-json\/wp\/v2\/media?parent=477558"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}