{"id":477558,"date":"2023-08-09T09:16:45","date_gmt":"2023-08-09T09:16:45","guid":{"rendered":""},"modified":"2023-09-05T11:14:58","modified_gmt":"2023-09-05T11:14:58","slug":"imbalanced-data","status":"publish","type":"wiki","link":"https:\/\/oneproxy.pro\/fr\/wiki\/imbalanced-data\/","title":{"rendered":"Donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es"},"content":{"rendered":"<p>Les donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es font r\u00e9f\u00e9rence \u00e0 un d\u00e9fi courant dans le domaine de l&#039;analyse des donn\u00e9es et de l&#039;apprentissage automatique, o\u00f9 la r\u00e9partition des classes au sein d&#039;un ensemble de donn\u00e9es est tr\u00e8s asym\u00e9trique. Cela signifie qu\u2019une classe (la classe minoritaire) est nettement sous-repr\u00e9sent\u00e9e par rapport \u00e0 une autre (la classe majoritaire). Le probl\u00e8me des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es peut avoir un impact profond sur les performances et la pr\u00e9cision de diverses applications bas\u00e9es sur les donn\u00e9es, y compris les mod\u00e8les d&#039;apprentissage automatique. R\u00e9soudre ce probl\u00e8me est crucial pour obtenir des r\u00e9sultats fiables et impartiaux.<\/p>\n<h2>L&#039;histoire de l&#039;origine des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es et leur premi\u00e8re mention<\/h2>\n<p>Le concept de donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es est reconnu comme une pr\u00e9occupation dans divers domaines scientifiques depuis des d\u00e9cennies. Cependant, son introduction formelle dans la communaut\u00e9 de l\u2019apprentissage automatique remonte aux ann\u00e9es 1990. Des articles de recherche traitant de cette question ont commenc\u00e9 \u00e0 para\u00eetre, soulignant les d\u00e9fis qu&#039;elle posait aux algorithmes d&#039;apprentissage traditionnels et la n\u00e9cessit\u00e9 de techniques sp\u00e9cialis\u00e9es pour y r\u00e9pondre efficacement.<\/p>\n<h2>Informations d\u00e9taill\u00e9es sur les donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es\u00a0: \u00e9largir le sujet<\/h2>\n<p>Des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es surviennent dans de nombreux sc\u00e9narios du monde r\u00e9el, tels que les diagnostics m\u00e9dicaux, la d\u00e9tection de fraudes, la d\u00e9tection d&#039;anomalies et la pr\u00e9diction d&#039;\u00e9v\u00e9nements rares. Dans ces cas, l\u2019\u00e9v\u00e9nement d\u2019int\u00e9r\u00eat est souvent rare par rapport aux instances sans \u00e9v\u00e9nement, ce qui conduit \u00e0 des r\u00e9partitions de classes d\u00e9s\u00e9quilibr\u00e9es.<\/p>\n<p>Les algorithmes d&#039;apprentissage automatique traditionnels sont souvent con\u00e7us en partant du principe que l&#039;ensemble de donn\u00e9es est \u00e9quilibr\u00e9, traitant toutes les classes de la m\u00eame mani\u00e8re. Lorsqu\u2019ils sont appliqu\u00e9s \u00e0 des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es, ces algorithmes ont tendance \u00e0 favoriser la classe majoritaire, ce qui entra\u00eene de mauvaises performances dans l\u2019identification des instances de classe minoritaire. La raison derri\u00e8re ce biais est que le processus d\u2019apprentissage est d\u00e9termin\u00e9 par la pr\u00e9cision globale, qui est fortement influenc\u00e9e par la classe plus nombreuse.<\/p>\n<h2>La structure interne des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es\u00a0: comment \u00e7a marche<\/h2>\n<p>Les donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es peuvent \u00eatre repr\u00e9sent\u00e9es comme suit\u00a0:<\/p>\n<pre><div class=\"bg-black rounded-md mb-4\"><div class=\"flex items-center relative text-gray-200 bg-gray-800 px-4 py-2 text-xs font-sans justify-between rounded-t-md\"><span>Lua<\/span><button class=\"flex ml-auto gap-2\"><svg stroke=\"currentColor\" fill=\"none\" stroke-width=\"2\" viewbox=\"0 0 24 24\" stroke-linecap=\"round\" stroke-linejoin=\"round\" class=\"h-4 w-4\" height=\"1em\" width=\"1em\" ><path d=\"M16 4h2a2 2 0 0 1 2 2v14a2 2 0 0 1-2 2H6a2 2 0 0 1-2-2V6a2 2 0 0 1 2-2h2\"><\/path><rect x=\"8\" y=\"2\" width=\"8\" height=\"4\" rx=\"1\" ry=\"1\"><\/rect><\/svg>Copier le code<\/button><\/div><div class=\"p-4 overflow-y-auto\"><code class=\"!whitespace-pre hljs language-lua\" data-no-translation=\"\">|<span class=\"hljs-comment\">----------------------- | ---------------|<\/span>\n|       Class           |   Instances  |\n|<span class=\"hljs-comment\">----------------------- | ---------------|<\/span>\n|   Majority Class      |      N        |\n|<span class=\"hljs-comment\">----------------------- | ---------------|<\/span>\n|   Minority Class      |      M        |\n|<span class=\"hljs-comment\">----------------------- | ---------------|<\/span>\n<\/code><\/div><\/div><\/pre>\n<p>O\u00f9 N repr\u00e9sente le nombre d&#039;instances dans la classe majoritaire et M repr\u00e9sente le nombre d&#039;instances dans la classe minoritaire.<\/p>\n<h2>Analyse des principales caract\u00e9ristiques des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es<\/h2>\n<p>Pour mieux comprendre les donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es, il est essentiel d\u2019analyser certaines caract\u00e9ristiques cl\u00e9s\u00a0:<\/p>\n<ol>\n<li>\n<p><strong>Ratio de d\u00e9s\u00e9quilibre des classes<\/strong>: Le rapport des instances dans la classe majoritaire par rapport \u00e0 la classe minoritaire. Il peut \u00eatre exprim\u00e9 par N\/M.<\/p>\n<\/li>\n<li>\n<p><strong>Raret\u00e9 de la classe minoritaire<\/strong>: nombre absolu d&#039;instances dans la classe minoritaire par rapport au nombre total d&#039;instances dans l&#039;ensemble de donn\u00e9es.<\/p>\n<\/li>\n<li>\n<p><strong>Chevauchement des donn\u00e9es<\/strong>: Le degr\u00e9 de chevauchement entre les r\u00e9partitions des caract\u00e9ristiques des classes minoritaires et majoritaires. Un chevauchement accru peut entra\u00eener une difficult\u00e9 accrue de classification.<\/p>\n<\/li>\n<li>\n<p><strong>Sensibilit\u00e9 aux co\u00fbts<\/strong>: Le concept consistant \u00e0 attribuer diff\u00e9rents co\u00fbts de classification erron\u00e9e \u00e0 diff\u00e9rentes classes, en donnant plus de poids \u00e0 la classe minoritaire pour parvenir \u00e0 une classification \u00e9quilibr\u00e9e.<\/p>\n<\/li>\n<\/ol>\n<h2>Types de donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es<\/h2>\n<p>Il existe diff\u00e9rents types de donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es en fonction du nombre de classes et du degr\u00e9 de d\u00e9s\u00e9quilibre des classes\u00a0:<\/p>\n<h3>Bas\u00e9 sur le nombre de classes\u00a0:<\/h3>\n<ol>\n<li>\n<p><strong>Donn\u00e9es binaires d\u00e9s\u00e9quilibr\u00e9es<\/strong>: Un ensemble de donn\u00e9es avec seulement deux classes, o\u00f9 l\u2019une est nettement plus nombreuse que l\u2019autre.<\/p>\n<\/li>\n<li>\n<p><strong>Donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es multiclasses<\/strong>: Un ensemble de donn\u00e9es avec plusieurs classes, dont au moins une est significativement sous-repr\u00e9sent\u00e9e par rapport aux autres.<\/p>\n<\/li>\n<\/ol>\n<h3>Bas\u00e9 sur le degr\u00e9 de d\u00e9s\u00e9quilibre de classe\u00a0:<\/h3>\n<ol>\n<li>\n<p><strong>D\u00e9s\u00e9quilibre mod\u00e9r\u00e9<\/strong>: Le rapport de balourd est relativement faible, g\u00e9n\u00e9ralement compris entre 1:2 et 1:5.<\/p>\n<\/li>\n<li>\n<p><strong>D\u00e9s\u00e9quilibre grave<\/strong>: Le rapport de balourd est tr\u00e8s \u00e9lev\u00e9, d\u00e9passant souvent 1:10 ou plus.<\/p>\n<\/li>\n<\/ol>\n<h2>Fa\u00e7ons d&#039;utiliser des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es, des probl\u00e8mes et leurs solutions<\/h2>\n<h3>Probl\u00e8mes avec des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es\u00a0:<\/h3>\n<ol>\n<li>\n<p><strong>Classification biais\u00e9e<\/strong>: Le mod\u00e8le tend \u00e0 favoriser la classe majoritaire, conduisant \u00e0 de mauvaises performances sur la classe minoritaire.<\/p>\n<\/li>\n<li>\n<p><strong>Difficult\u00e9 d&#039;apprentissage<\/strong>: Les algorithmes traditionnels ont du mal \u00e0 apprendre des mod\u00e8les \u00e0 partir d&#039;instances de classe rares en raison de leur repr\u00e9sentation limit\u00e9e.<\/p>\n<\/li>\n<li>\n<p><strong>Mesures d&#039;\u00e9valuation trompeuses<\/strong>: La pr\u00e9cision peut \u00eatre une mesure trompeuse, car un mod\u00e8le peut atteindre une grande pr\u00e9cision en pr\u00e9disant simplement la classe majoritaire.<\/p>\n<\/li>\n<\/ol>\n<h3>Solutions:<\/h3>\n<ol>\n<li>\n<p><strong>Techniques de r\u00e9\u00e9chantillonnage<\/strong>: Sous-\u00e9chantillonner la classe majoritaire ou sur\u00e9chantillonner la classe minoritaire peut aider \u00e0 \u00e9quilibrer l&#039;ensemble de donn\u00e9es.<\/p>\n<\/li>\n<li>\n<p><strong>Approches algorithmiques<\/strong>: Algorithmes sp\u00e9cifiques con\u00e7us pour g\u00e9rer des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es, tels que Random Forest, SMOTE et ADASYN.<\/p>\n<\/li>\n<li>\n<p><strong>Apprentissage sensible aux co\u00fbts<\/strong>: Modifier le processus d&#039;apprentissage pour attribuer diff\u00e9rents co\u00fbts de mauvaise classification \u00e0 diff\u00e9rentes classes.<\/p>\n<\/li>\n<li>\n<p><strong>M\u00e9thodes d&#039;ensemble<\/strong>: La combinaison de plusieurs classificateurs peut am\u00e9liorer les performances globales sur les donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es.<\/p>\n<\/li>\n<\/ol>\n<h2>Principales caract\u00e9ristiques et comparaisons avec des termes similaires<\/h2>\n<table>\n<thead>\n<tr>\n<th>Caract\u00e9ristique<\/th>\n<th>Donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es<\/th>\n<th>Donn\u00e9es \u00e9quilibr\u00e9es<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>R\u00e9partition des classes<\/td>\n<td>asym\u00e9trique<\/td>\n<td>Uniforme<\/td>\n<\/tr>\n<tr>\n<td>D\u00e9fi<\/td>\n<td>Biais en faveur de la classe majoritaire<\/td>\n<td>Traite de la m\u00eame mani\u00e8re toutes les classes<\/td>\n<\/tr>\n<tr>\n<td>Solutions communes<\/td>\n<td>R\u00e9\u00e9chantillonnage, ajustements algorithmiques<\/td>\n<td>Algorithmes d&#039;apprentissage standards<\/td>\n<\/tr>\n<tr>\n<td>Indicateurs de performance<\/td>\n<td>Pr\u00e9cision, rappel, score F1<\/td>\n<td>Exactitude, Pr\u00e9cision, Rappel<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Perspectives et technologies du futur li\u00e9es aux donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es<\/h2>\n<p>\u00c0 mesure que la recherche sur l\u2019apprentissage automatique progresse, des techniques et des algorithmes plus avanc\u00e9s appara\u00eetront probablement pour relever les d\u00e9fis li\u00e9s au d\u00e9s\u00e9quilibre des donn\u00e9es. Les chercheurs explorent continuellement de nouvelles approches pour am\u00e9liorer les performances des mod\u00e8les sur des ensembles de donn\u00e9es d\u00e9s\u00e9quilibr\u00e9s, les rendant ainsi plus adaptables aux sc\u00e9narios du monde r\u00e9el.<\/p>\n<h2>Comment les serveurs proxy peuvent \u00eatre utilis\u00e9s ou associ\u00e9s \u00e0 des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es<\/h2>\n<p>Les serveurs proxy jouent un r\u00f4le essentiel dans diverses applications gourmandes en donn\u00e9es, notamment la collecte de donn\u00e9es, le web scraping et l&#039;anonymisation. Bien que cela ne soit pas directement li\u00e9 au concept de donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es, les serveurs proxy peuvent \u00eatre utilis\u00e9s pour g\u00e9rer des t\u00e2ches de collecte de donn\u00e9es \u00e0 grande \u00e9chelle, qui peuvent impliquer des ensembles de donn\u00e9es d\u00e9s\u00e9quilibr\u00e9s. En alternant les adresses IP et en g\u00e9rant le trafic, les serveurs proxy aident \u00e0 emp\u00eacher les interdictions IP et garantissent une extraction plus fluide des donn\u00e9es des sites Web ou des API.<\/p>\n<h2>Liens connexes<\/h2>\n<p>Pour plus d\u2019informations sur les donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es et les techniques pour y rem\u00e9dier, vous pouvez explorer les ressources suivantes\u00a0:<\/p>\n<ol>\n<li><a href=\"https:\/\/towardsdatascience.com\/dealing-with-imbalanced-data-in-machine-learning-7c4a692eda42\" target=\"_new\" rel=\"noopener nofollow\">Vers la science des donn\u00e9es \u2013 G\u00e9rer les donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es dans l\u2019apprentissage automatique<\/a><\/li>\n<li><a href=\"https:\/\/scikit-learn.org\/stable\/auto_examples\/applications\/plot_tomography_reconstruction.html\" target=\"_new\" rel=\"noopener nofollow\">Documentation Scikit-learn \u2013 Gestion des donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es<\/a><\/li>\n<li><a href=\"https:\/\/machinelearningmastery.com\/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset\/\" target=\"_new\" rel=\"noopener nofollow\">Ma\u00eetrise de l&#039;apprentissage automatique \u2013 Tactiques pour lutter contre les classes d\u00e9s\u00e9quilibr\u00e9es dans votre ensemble de donn\u00e9es d&#039;apprentissage automatique<\/a><\/li>\n<li><a href=\"https:\/\/ieeexplore.ieee.org\/document\/5128907\" target=\"_new\" rel=\"noopener nofollow\">Transactions IEEE sur l&#039;ing\u00e9nierie des connaissances et des donn\u00e9es - Apprendre \u00e0 partir de donn\u00e9es d\u00e9s\u00e9quilibr\u00e9es<\/a><\/li>\n<\/ol>","protected":false},"featured_media":468603,"menu_order":0,"template":"","meta":{"_acf_changed":false,"content-type":"","inline_featured_image":false,"footnotes":""},"class_list":["post-477558","wiki","type-wiki","status-publish","has-post-thumbnail","hentry"],"acf":{"faq_title":"Frequently Asked Questions about <mark>Imbalanced Data: A Comprehensive Guide<\/mark>","faq_items":[{"question":"Question: What is imbalanced data?","answer":"<p>Answer: Imbalanced data refers to a situation where the distribution of classes within a dataset is highly skewed, with one class (the minority class) being significantly underrepresented compared to another (the majority class). This can pose challenges in various data-driven applications, including machine learning, leading to biased classification and lower performance on the minority class.<\/p>"},{"question":"Question: How did the issue of imbalanced data originate?","answer":"<p>Answer: The concept of imbalanced data has been recognized as a concern in various fields for years. However, its formal introduction into the machine learning community can be traced back to the 1990s when research papers began highlighting the challenges it posed to traditional learning algorithms.<\/p>"},{"question":"Question: What are the key features of imbalanced data?","answer":"<p>Answer: Key features of imbalanced data include the class imbalance ratio, the rareness of the minority class, the degree of data overlap between classes, and cost sensitivity. These features influence the learning process and the performance of machine learning models.<\/p>"},{"question":"Question: What are the types of imbalanced data?","answer":"<p>Answer: Imbalanced data can be categorized based on the number of classes and the degree of class imbalance. Based on the number of classes, it can be binary (two classes) or multiclass (multiple classes). Based on the degree of class imbalance, it can be moderate or severe.<\/p>"},{"question":"Question: What are the problems with imbalanced data, and how can they be solved?","answer":"<p>Answer: The problems with imbalanced data include biased classification, difficulty in learning patterns from rare classes, and misleading evaluation metrics. To address these issues, various solutions can be employed, such as resampling techniques, algorithmic approaches, and cost-sensitive learning.<\/p>"},{"question":"Question: How can proxy servers be associated with imbalanced data?","answer":"<p>Answer: While not directly related to imbalanced data, proxy servers play a crucial role in data-intensive applications, including data collection and web scraping. They can be used to handle large-scale data collection tasks, which may involve imbalanced datasets, by rotating IP addresses and managing traffic to prevent IP bans and ensure smoother data extraction.<\/p>"},{"question":"Question: What are the future perspectives and technologies related to imbalanced data?","answer":"<p>Answer: As machine learning research progresses, more advanced techniques and algorithms are likely to emerge to address the challenges of imbalanced data. Researchers are continuously exploring novel approaches to enhance model performance on imbalanced datasets and make them more adaptable to real-world scenarios.<\/p>"},{"question":"Question: Where can I find more information about imbalanced data?","answer":"<p>Answer: For more in-depth information and resources about imbalanced data and techniques to address it, you can explore the provided links in the article, which include helpful articles, documentation, and research papers.<\/p>"}]},"_links":{"self":[{"href":"https:\/\/oneproxy.pro\/fr\/wp-json\/wp\/v2\/wiki\/477558","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/oneproxy.pro\/fr\/wp-json\/wp\/v2\/wiki"}],"about":[{"href":"https:\/\/oneproxy.pro\/fr\/wp-json\/wp\/v2\/types\/wiki"}],"version-history":[{"count":0,"href":"https:\/\/oneproxy.pro\/fr\/wp-json\/wp\/v2\/wiki\/477558\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/oneproxy.pro\/fr\/wp-json\/wp\/v2\/media\/468603"}],"wp:attachment":[{"href":"https:\/\/oneproxy.pro\/fr\/wp-json\/wp\/v2\/media?parent=477558"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}