معلومات موجزة عن k-NN (k-أقرب الجيران)
k-Nearest Neighbors (k-NN) هي خوارزمية تعلم بسيطة وغير بارامترية وكسول تستخدم للتصنيف والانحدار. في مشاكل التصنيف، تقوم k-NN بتعيين تسمية فئة استنادًا إلى غالبية تسميات الفئة بين أقرب الجيران "k" للكائن. بالنسبة للانحدار، فإنه يقوم بتعيين قيمة بناءً على متوسط أو متوسط قيم أقرب جيرانه "k".
تاريخ أصل k-NN (k-أقرب الجيران) وأول ذكر له
تعود جذور خوارزمية k-NN إلى أدبيات التعرف على الأنماط الإحصائية. تم تقديم هذا المفهوم من قبل إيفلين فيكس وجوزيف هودجز في عام 1951، إيذانًا ببداية هذه التقنية. ومنذ ذلك الحين، تم استخدامه على نطاق واسع في مجالات مختلفة بسبب بساطته وفعاليته.
معلومات تفصيلية حول k-NN (k-أقرب الجيران). توسيع الموضوع k-NN (k-أقرب الجيران)
تعمل k-NN من خلال تحديد أقرب أمثلة التدريب "k" لمدخل معين وإجراء تنبؤات بناءً على قاعدة الأغلبية أو المتوسط. غالبًا ما تُستخدم مقاييس المسافة مثل المسافة الإقليدية أو مسافة مانهاتن أو مسافة مينكوفسكي لقياس التشابه. المكونات الرئيسية لـ k-NN هي:
- اختيار "k" (عدد الجيران الذي يجب مراعاته)
- مقياس المسافة (على سبيل المثال، الإقليدية، مانهاتن)
- قاعدة القرار (على سبيل المثال، تصويت الأغلبية، التصويت المرجح)
الهيكل الداخلي لـ k-NN (k-أقرب الجيران). كيف يعمل k-NN (k-أقرب الجيران).
يمكن تقسيم عمل k-NN إلى الخطوات التالية:
- اختر الرقم "ك" – حدد عدد الجيران للنظر فيها.
- حدد مقياس المسافة - تحديد كيفية قياس "تقارب" الحالات.
- ابحث عن أقرب جيران k – تحديد عينات التدريب الأقرب إلى المثيل الجديد.
- توقع - للتصنيف، استخدم تصويت الأغلبية. بالنسبة للانحدار، قم بحساب المتوسط أو الوسيط.
تحليل السمات الرئيسية لـ k-NN (k-أقرب الجيران)
- بساطة: سهل التنفيذ والفهم.
- المرونة: يعمل مع مقاييس المسافة المختلفة وقابل للتكيف مع أنواع البيانات المختلفة.
- لا توجد مرحلة التدريب: يستخدم بيانات التدريب مباشرة خلال مرحلة التنبؤ.
- حساسة للبيانات الصاخبة: القيم المتطرفة والضوضاء يمكن أن تؤثر على الأداء.
- مكثفة حسابيا: يتطلب حساب المسافات لجميع العينات في مجموعة بيانات التدريب.
أنواع k-NN (أقرب الجيران)
هناك أنواع مختلفة من k-NN، مثل:
يكتب | وصف |
---|---|
معيار ك-NN | يستخدم وزنًا موحدًا لجميع الجيران. |
مرجح ك NN | يعطي وزنًا أكبر للجيران الأقرب، ويعتمد عادةً على عكس المسافة. |
التكيف ك NN | يضبط "k" ديناميكيًا بناءً على البنية المحلية لمساحة الإدخال. |
مرجح محليا k-NN | يجمع بين كل من "k" التكيفي ووزن المسافة. |
- الاستخدام: التصنيف، الانحدار، أنظمة التوصية، التعرف على الصور.
- مشاكل: تكلفة حسابية عالية، حساسة للميزات غير ذات الصلة، مشكلات قابلية التوسع.
- حلول: اختيار الميزة، وترجيح المسافة، واستخدام هياكل البيانات الفعالة مثل KD-Trees.
الخصائص الرئيسية ومقارنات أخرى مع مصطلحات مماثلة
يصف | ك-ن.ن | أشجار القرار | SVM |
---|---|---|---|
نوع النموذج | التعلم الكسول | التعلم بشغف | التعلم بشغف |
تعقيد التدريب | قليل | واسطة | عالي |
تعقيد التنبؤ | عالي | قليل | واسطة |
الحساسية للضوضاء | عالي | واسطة | قليل |
قد تركز التطورات المستقبلية على تحسين k-NN للبيانات الضخمة، والتكامل مع نماذج التعلم العميق، وتعزيز متانة الضوضاء، وأتمتة اختيار المعلمات الفائقة.
كيف يمكن استخدام الخوادم الوكيلة أو ربطها بـ k-NN (k-Nearest Neighbours)
يمكن للخوادم الوكيلة، مثل تلك التي يوفرها OneProxy، أن تلعب دورًا في تطبيقات k-NN التي تتضمن تجريف الويب أو جمع البيانات. يضمن جمع البيانات من خلال الوكلاء عدم الكشف عن هويته ويمكن أن يوفر مجموعات بيانات أكثر تنوعًا وغير متحيزة لبناء نماذج k-NN قوية.