فیلتر مشارکتی (CF) یک روش الگوریتمی قدرتمند است که اغلب در قلمرو سیستم های توصیه استفاده می شود. فرض اصلی آن پیشبینی علایق یک کاربر خاص با جمعآوری اولویتها از بسیاری از کاربران است. فرضیه زیربنای CF این است که اگر دو کاربر در مورد یک موضوع به توافق برسند، احتمالاً در مورد دیگران نیز توافق دارند.
پیدایش و تکامل فیلترینگ مشارکتی
اولین بار در سال 1992 توسط دیوید گلدبرگ و دیگران از زیراکس PARC از فیلترینگ مشارکتی در توسعه Tapestry، یک سیستم ایمیل اولیه، استفاده شد. Tapestry برای استفاده از هوش انسانی طراحی شده است و به افراد امکان می دهد حاشیه نویسی یا "برچسب" را به پیام های دریافتی اضافه کنند، که بعداً می تواند برای فیلتر کردن پیام ها استفاده شود.
در سال 1994، پروژه GroupLens توسط دانشگاه مینه سوتا، اصطلاح "فیلتر مشترک" را با پیشنهاد یک رویکرد CF خودکار معرفی کرد. این پروژه از CF برای اخبار یوزنت استفاده کرد - شبکهای از گروههای خبری که کاربران میتوانستند در آن پست کنند و میتوانستند آنها را بر اساس ترجیحات خود فیلتر کنند.
آشکارسازی فیلتر مشارکتی
فیلتر مشارکتی عمدتاً با ایجاد یک ماتریس کاربر-مورد که شامل اولویتهای (مانند رتبهبندی) دادهشده توسط کاربران به موارد است، عمل میکند. به عنوان مثال، در زمینه یک سیستم توصیه فیلم، این ماتریس شامل رتبهبندیهایی است که کاربران به فیلمهای مختلف دادهاند.
CF بر اساس دو پارادایم اصلی است: CF مبتنی بر حافظه و CF مبتنی بر مدل.
-
CF مبتنی بر حافظه: همچنین به عنوان CF مبتنی بر همسایگی شناخته می شود، این پارادایم پیش بینی هایی را بر اساس شباهت بین کاربران یا موارد انجام می دهد. این به دو دسته User-User CF (کاربرانی را که مشابه کاربر پیش بینی شده هستند) و Item-Item CF (مواردی که مشابه مواردی که کاربر رتبه بندی کرده است را مشخص می کند) تقسیم می شود.
-
CF مبتنی بر مدل: این رویکرد شامل توسعه مدلی از کاربران به منظور یادگیری ترجیحات آنها است. تکنیک های درگیر عبارتند از خوشه بندی، فاکتورسازی ماتریس، یادگیری عمیق و غیره.
مکانیسم پشت فیلتر مشارکتی
در هسته خود، فرآیندهای فیلتر مشارکتی شامل دو مرحله است: یافتن کاربران با سلیقه های مشابه و توصیه موارد بر اساس ترجیحات این کاربران مشابه. در اینجا یک طرح کلی از عملکرد آن است:
- شباهت بین کاربران یا موارد را محاسبه کنید.
- رتبه بندی مواردی که هنوز توسط کاربر رتبه بندی نشده اند را پیش بینی کنید.
- موارد N برتر با بالاترین رتبهبندی پیشبینیشده را توصیه کنید.
شباهت بین کاربران یا آیتم ها معمولاً با استفاده از شباهت کسینوس یا همبستگی پیرسون محاسبه می شود.
ویژگی های کلیدی فیلتر مشارکتی
- شخصی سازی: CF توصیههای شخصیسازی شده را ارائه میکند زیرا هنگام توصیه، رفتار کاربر را در نظر میگیرد.
- تطبیق پذیری: می تواند با علایق در حال تغییر کاربر سازگار شود.
- مقیاس پذیری: الگوریتم های CF قادر به مقابله با حجم زیادی از داده ها هستند.
- مشکل شروع سرد: کاربران جدید یا آیتم های جدید می توانند مشکل ساز باشند، زیرا داده های کافی برای ارائه توصیه های دقیق وجود ندارد - مشکلی که به عنوان مشکل شروع سرد شناخته می شود.
انواع فیلترهای مشارکتی
تایپ کنید | شرح |
---|---|
CF مبتنی بر حافظه | از حافظه تعاملات کاربران قبلی برای محاسبه شباهت کاربران یا شباهت موارد استفاده می کند. |
CF مبتنی بر مدل | شامل مرحله ای از یادگیری مدل است، سپس از این مدل برای پیش بینی استفاده می کند. |
CF هیبریدی | روشهای مبتنی بر حافظه و مبتنی بر مدل را برای غلبه بر برخی محدودیتها ترکیب میکند. |
استفاده از فیلتر مشارکتی: چالش ها و راه حل ها
CF در حوزههای مختلف از جمله فیلمها، موسیقی، اخبار، کتابها، مقالات تحقیقاتی، پرسشهای جستجو، برچسبهای اجتماعی و محصولات به طور کلی استفاده میشود. با این حال، چالش هایی مانند:
- مشکل شروع سرد: راه حل در مدل های ترکیبی نهفته است که دارای فیلتر مبتنی بر محتوا یا استفاده از ابرداده های اضافی در مورد کاربران یا موارد است.
- پراکندگی: بسیاری از کاربران با تعداد کمی از آیتم ها تعامل دارند و ماتریس کاربر-مورد را پراکنده می کنند. تکنیکهای کاهش ابعاد، مانند تجزیه مقدار منفرد، میتوانند این مشکل را کاهش دهند.
- مقیاس پذیری: با رشد داده ها، ارائه توصیه ها به سرعت می تواند از نظر محاسباتی فشرده شود. راه حل ها شامل محاسبات توزیع شده یا استفاده از الگوریتم های مقیاس پذیرتر است.
مقایسه با تکنیک های مشابه
روش | شرح |
---|---|
فیلتر مشارکتی | بر اساس این فرض که مردم چیزهایی مشابه آنچه در گذشته دوست داشتند و چیزهایی که مورد پسند افراد با سلیقه های مشابه است را می پسندند. |
فیلترینگ مبتنی بر محتوا | با مقایسه محتوای اقلام و نمایه کاربر، موارد را توصیه می کند. |
روش های ترکیبی | این روشها فیلتر مشارکتی و فیلتر مبتنی بر محتوا را با هدف اجتناب از محدودیتهای خاص ترکیب میکنند. |
دیدگاه های آینده در مورد فیلتر مشارکتی
با ظهور فناوریهای پیشرفتهتر یادگیری ماشین و هوش مصنوعی، روشهای CF در حال تکامل هستند. تکنیک های یادگیری عمیق اکنون برای توسعه مدل های پیچیده برای CF استفاده می شود که توصیه های دقیق تری ارائه می دهد. علاوه بر این، تحقیقات در زمینه پرداختن به چالشهای پراکندگی دادهها و مشکل شروع سرد ادامه دارد و نویدبخش روشهای CF کارآمدتر و مؤثرتر در آینده است.
سرورهای پروکسی و فیلتر مشارکتی
سرورهای پروکسی، مانند آنهایی که توسط OneProxy ارائه می شوند، می توانند به طور غیرمستقیم به فیلتر مشارکتی کمک کنند. آنها ناشناس بودن و امنیت را فراهم می کنند و به کاربران اجازه می دهند با حریم خصوصی مرور کنند. این کاربران را تشویق می کند تا آزادانه با موارد موجود در اینترنت بدون ترس از به خطر انداختن حریم خصوصی آنها تعامل داشته باشند. دادههای بهدستآمده برای CF ضروری است، زیرا برای ارائه توصیهها به شدت به تعاملات کاربر-مورد متکی است.
لینک های مربوطه
- تحقیقات گروه لنز
- تحقیق نتفلیکس
- تحقیقات آمازون
- کتابخانه دیجیتال ACM برای تحقیقات دانشگاهی در مورد فیلتر مشارکتی
- Google Scholar برای مقالات دانشگاهی در مورد فیلتر مشارکتی