सहयोगी फ़िल्टरिंग (CF) एक शक्तिशाली एल्गोरिथम विधि है जिसे अक्सर अनुशंसा प्रणालियों के दायरे में लागू किया जाता है। इसका मुख्य आधार कई उपयोगकर्ताओं से वरीयताएँ एकत्र करके किसी विशिष्ट उपयोगकर्ता की रुचियों का पूर्वानुमान लगाना है। CF के पीछे यह धारणा है कि यदि दो उपयोगकर्ता एक मुद्दे पर सहमत होते हैं, तो वे अन्य मुद्दों पर भी सहमत होने की संभावना रखते हैं।
सहयोगात्मक फ़िल्टरिंग की उत्पत्ति और विकास
सहयोगात्मक फ़िल्टरिंग का पहला उल्लेख 1992 में डेविड गोल्डबर्ग और ज़ेरॉक्स PARC के अन्य लोगों द्वारा टेपेस्ट्री के विकास में किया गया था, जो एक प्रारंभिक ईमेल प्रणाली थी। टेपेस्ट्री को मानव बुद्धि का उपयोग करने और लोगों को आने वाले संदेशों में एनोटेशन, या "टैग" जोड़ने की अनुमति देने के लिए डिज़ाइन किया गया था, जिसका उपयोग बाद में संदेशों को फ़िल्टर करने के लिए किया जा सकता था।
1994 में, मिनेसोटा विश्वविद्यालय द्वारा ग्रुपलेंस परियोजना ने एक स्वचालित CF दृष्टिकोण का प्रस्ताव करके "सहयोगी फ़िल्टरिंग" शब्द पेश किया। इस परियोजना ने यूज़नेट समाचार के लिए CF का उपयोग किया - समाचार समूहों का एक नेटवर्क जिस पर उपयोगकर्ता पोस्ट कर सकते थे और जिसे वे अपनी पसंद के अनुसार फ़िल्टर कर सकते थे।
सहयोगात्मक फ़िल्टरिंग का विस्तार
सहयोगी फ़िल्टरिंग मुख्य रूप से एक उपयोगकर्ता-आइटम मैट्रिक्स बनाकर संचालित होती है जिसमें उपयोगकर्ताओं द्वारा आइटम को दी गई प्राथमिकताएँ (जैसे रेटिंग) शामिल होती हैं। उदाहरण के लिए, मूवी अनुशंसा प्रणाली के संदर्भ में, इस मैट्रिक्स में उपयोगकर्ताओं द्वारा विभिन्न मूवी को दी गई रेटिंग शामिल होगी।
सीएफ दो प्रमुख प्रतिमानों पर आधारित है: मेमोरी-आधारित सीएफ और मॉडल-आधारित सीएफ।
-
मेमोरी-आधारित CF: इसे पड़ोस-आधारित CF के रूप में भी जाना जाता है, यह प्रतिमान उपयोगकर्ताओं या वस्तुओं के बीच समानता के आधार पर पूर्वानुमान लगाता है। इसे उपयोगकर्ता-उपयोगकर्ता CF (उन उपयोगकर्ताओं की पहचान करता है जो पूर्वानुमानित उपयोगकर्ता के समान हैं) और आइटम-आइटम CF (उन वस्तुओं की पहचान करता है जो उपयोगकर्ता द्वारा रेट की गई वस्तुओं के समान हैं) में विभाजित किया गया है।
-
मॉडल-आधारित CF: इस दृष्टिकोण में उपयोगकर्ताओं की प्राथमिकताओं को जानने के लिए उनका मॉडल विकसित करना शामिल है। इसमें शामिल तकनीकें हैं क्लस्टरिंग, मैट्रिक्स फैक्टराइजेशन, डीप लर्निंग आदि।
सहयोगात्मक फ़िल्टरिंग के पीछे का तंत्र
इसके मूल में, सहयोगी फ़िल्टरिंग प्रक्रिया में दो चरण शामिल हैं: समान रुचि वाले उपयोगकर्ताओं को ढूँढना और इन समान उपयोगकर्ताओं की प्राथमिकताओं के आधार पर आइटम की अनुशंसा करना। यहाँ इसके संचालन की एक सामान्य रूपरेखा दी गई है:
- उपयोगकर्ताओं या वस्तुओं के बीच समानता की गणना करें।
- उन वस्तुओं की रेटिंग का पूर्वानुमान लगाएं जिन्हें उपयोगकर्ता द्वारा अभी तक रेट नहीं किया गया है।
- उच्चतम पूर्वानुमानित रेटिंग वाले शीर्ष-N आइटम की अनुशंसा करें।
उपयोगकर्ताओं या वस्तुओं के बीच समानता की गणना आमतौर पर कोसाइन समानता या पियर्सन सहसंबंध का उपयोग करके की जाती है।
सहयोगात्मक फ़िल्टरिंग की मुख्य विशेषताएं
- वैयक्तिकरण: सीएफ व्यक्तिगत अनुशंसाएं प्रदान करता है क्योंकि यह अनुशंसा करते समय व्यक्तिगत उपयोगकर्ता के व्यवहार पर विचार करता है।
- अनुकूलता: यह उपयोगकर्ता की बदलती रुचियों के अनुरूप ढल सकता है।
- स्केलेबिलिटी: सीएफ एल्गोरिदम बड़ी मात्रा में डेटा से निपटने में सक्षम हैं।
- शीत प्रारंभ समस्या: नए उपयोगकर्ता या नए आइटम समस्यामूलक हो सकते हैं, क्योंकि सटीक अनुशंसाएं करने के लिए डेटा अपर्याप्त होता है - यह समस्या कोल्ड स्टार्ट समस्या के रूप में जानी जाती है।
सहयोगात्मक फ़िल्टरिंग के प्रकार
प्रकार | विवरण |
---|---|
मेमोरी-आधारित CF | उपयोगकर्ताओं की समानता या वस्तुओं की समानता की गणना करने के लिए पिछले उपयोगकर्ताओं की अंतःक्रियाओं की स्मृति का उपयोग करता है। |
मॉडल-आधारित सी.एफ. | इसमें मॉडल सीखने का एक चरण शामिल है, फिर इस मॉडल का उपयोग पूर्वानुमान लगाने के लिए किया जाता है। |
हाइब्रिड सीएफ | कुछ सीमाओं पर काबू पाने के लिए मेमोरी-आधारित और मॉडल-आधारित विधियों को संयोजित करता है। |
सहयोगात्मक फ़िल्टरिंग का उपयोग: चुनौतियाँ और समाधान
CF का उपयोग विभिन्न क्षेत्रों में व्यापक रूप से किया जाता है, जिसमें फ़िल्में, संगीत, समाचार, पुस्तकें, शोध लेख, खोज क्वेरी, सोशल टैग और सामान्य रूप से उत्पाद शामिल हैं। हालाँकि, इसमें कुछ चुनौतियाँ हैं जैसे:
- शीत प्रारंभ समस्या: इसका समाधान हाइब्रिड मॉडल में निहित है, जिसमें सामग्री-आधारित फ़िल्टरिंग या उपयोगकर्ताओं या वस्तुओं के बारे में अतिरिक्त मेटाडेटा का उपयोग शामिल है।
- विरलता: कई उपयोगकर्ता कम संख्या में आइटम के साथ इंटरैक्ट करते हैं, जिससे उपयोगकर्ता-आइटम मैट्रिक्स विरल रह जाता है। आयाम घटाने की तकनीकें, जैसे कि एकवचन मान विघटन, इस समस्या को कम कर सकती हैं।
- स्केलेबिलिटी: जैसे-जैसे डेटा बढ़ता है, जल्दी से सिफारिशें प्रदान करना कम्प्यूटेशनल रूप से गहन हो सकता है। समाधान में वितरित कंप्यूटिंग या अधिक स्केलेबल एल्गोरिदम का उपयोग करना शामिल है।
समान तकनीकों के साथ तुलना
तरीका | विवरण |
---|---|
सहयोगी को छानने | इस धारणा के आधार पर कि लोगों को वे चीजें पसंद आती हैं जो उन्हें अतीत में पसंद थीं तथा वे चीजें जो समान रुचि वाले लोगों को पसंद आती हैं। |
सामग्री-आधारित फ़िल्टरिंग | आइटम की सामग्री और उपयोगकर्ता की प्रोफ़ाइल की तुलना करके आइटम की अनुशंसा करता है। |
संकर विधियाँ | ये विधियाँ सहयोगात्मक फ़िल्टरिंग और सामग्री-आधारित फ़िल्टरिंग को जोड़ती हैं, जिसका उद्देश्य कुछ सीमाओं से बचना है। |
सहयोगात्मक फ़िल्टरिंग पर भविष्य के परिप्रेक्ष्य
अधिक परिष्कृत मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस तकनीकों के आगमन के साथ, CF विधियाँ विकसित हो रही हैं। अब डीप लर्निंग तकनीकों का उपयोग CF के लिए जटिल मॉडल विकसित करने के लिए किया जाता है, जो अधिक सटीक सिफारिशें प्रदान करता है। इसके अलावा, डेटा स्पार्सिटी और कोल्ड स्टार्ट समस्या की चुनौतियों का समाधान करने के लिए अनुसंधान जारी है, जो भविष्य में अधिक कुशल और प्रभावी CF विधियों का वादा करता है।
प्रॉक्सी सर्वर और सहयोगात्मक फ़िल्टरिंग
OneProxy द्वारा प्रदान किए गए प्रॉक्सी सर्वर, अप्रत्यक्ष रूप से सहयोगी फ़िल्टरिंग में सहायता कर सकते हैं। वे गुमनामी और सुरक्षा प्रदान करते हैं, जिससे उपयोगकर्ता गोपनीयता के साथ ब्राउज़ कर सकते हैं। यह उपयोगकर्ताओं को अपनी गोपनीयता से समझौता किए बिना इंटरनेट पर आइटम के साथ स्वतंत्र रूप से बातचीत करने के लिए प्रोत्साहित करता है। परिणामी डेटा CF के लिए आवश्यक है, क्योंकि यह अनुशंसा करने के लिए उपयोगकर्ता-आइटम इंटरैक्शन पर बहुत अधिक निर्भर करता है।
सम्बंधित लिंक्स
- ग्रुपलेंस रिसर्च
- नेटफ्लिक्स रिसर्च
- अमेज़न रिसर्च
- एसीएम डिजिटल लाइब्रेरी सहयोगात्मक फ़िल्टरिंग पर अकादमिक शोध के लिए
- गूगल ज्ञानी सहयोगात्मक फ़िल्टरिंग पर अकादमिक पेपर के लिए