Collaborative Filtering (CF) เป็นวิธีการอัลกอริธึมที่มีประสิทธิภาพซึ่งมักใช้ภายในขอบเขตของระบบการแนะนำ หลักฐานสำคัญคือการคาดการณ์ความสนใจของผู้ใช้รายใดรายหนึ่งโดยการรวบรวมการตั้งค่าจากผู้ใช้จำนวนมาก สมมติฐานที่สนับสนุน CF คือ หากผู้ใช้สองคนเห็นด้วยกับประเด็นเดียว พวกเขาก็จะมีแนวโน้มที่จะเห็นด้วยกับประเด็นอื่นเช่นกัน
กำเนิดและวิวัฒนาการของการกรองแบบร่วมมือกัน
การกล่าวถึง Collaborative Filtering ครั้งแรกเกิดขึ้นในปี 1992 โดย David Goldberg และคนอื่นๆ จาก Xerox PARC ในการพัฒนา Tapestry ซึ่งเป็นระบบอีเมลในยุคแรกๆ Tapestry ได้รับการออกแบบมาเพื่อใช้สติปัญญาของมนุษย์และอนุญาตให้ผู้คนเพิ่มคำอธิบายประกอบหรือ "แท็ก" ลงในข้อความขาเข้า ซึ่งสามารถใช้เพื่อกรองข้อความในภายหลังได้
ในปี 1994 โครงการ GroupLens ของมหาวิทยาลัยมินนิโซตาได้แนะนำคำว่า "การกรองการทำงานร่วมกัน" โดยเสนอแนวทาง CF อัตโนมัติ โปรเจ็กต์นี้ใช้ CF สำหรับข่าว Usenet ซึ่งเป็นเครือข่ายของกลุ่มข่าวสารที่ผู้ใช้สามารถโพสต์และกรองตามความต้องการได้
การเปิดเผยการกรองการทำงานร่วมกัน
การกรองการทำงานร่วมกันส่วนใหญ่ดำเนินการโดยการสร้างเมทริกซ์รายการผู้ใช้ซึ่งประกอบด้วยการกำหนดค่าตามความชอบ (เช่น การให้คะแนน) ที่ผู้ใช้กำหนดให้กับรายการ ตัวอย่างเช่น ในบริบทของระบบการแนะนำภาพยนตร์ เมทริกซ์นี้จะมีการจัดอันดับที่ผู้ใช้กำหนดให้กับภาพยนตร์ต่างๆ
CF ขึ้นอยู่กับสองกระบวนทัศน์หลัก: CF ตามหน่วยความจำและ CF ตามโมเดล
-
CF ตามหน่วยความจำ: หรือเรียกอีกอย่างว่า CF ตามพื้นที่ใกล้เคียง กระบวนทัศน์นี้คาดการณ์ตามความคล้ายคลึงกันระหว่างผู้ใช้หรือรายการ โดยแบ่งออกเป็น User-User CF (ระบุผู้ใช้ที่คล้ายกับผู้ใช้ที่คาดการณ์) และ Item-Item CF (ระบุรายการที่คล้ายกับที่ผู้ใช้ให้คะแนน)
-
CF ตามโมเดล: แนวทางนี้เกี่ยวข้องกับการพัฒนาโมเดลของผู้ใช้เพื่อเรียนรู้ความชอบของพวกเขา เทคนิคที่เกี่ยวข้อง ได้แก่ การจัดกลุ่ม การแยกตัวประกอบเมทริกซ์ การเรียนรู้เชิงลึก ฯลฯ
กลไกเบื้องหลังการกรองแบบร่วมมือ
โดยพื้นฐานแล้ว กระบวนการกรองการทำงานร่วมกันประกอบด้วยสองขั้นตอน: การค้นหาผู้ใช้ที่มีรสนิยมคล้ายกัน และการแนะนำรายการตามความต้องการของผู้ใช้ที่คล้ายกัน ต่อไปนี้เป็นโครงร่างทั่วไปของการดำเนินการ:
- คำนวณความคล้ายคลึงกันระหว่างผู้ใช้หรือรายการ
- คาดการณ์การให้คะแนนของรายการที่ยังไม่ได้รับการจัดอันดับโดยผู้ใช้
- แนะนำรายการ Top-N ที่มีคะแนนคาดการณ์สูงสุด
โดยทั่วไปความคล้ายคลึงกันระหว่างผู้ใช้หรือรายการจะคำนวณโดยใช้ความคล้ายคลึงโคไซน์หรือสหสัมพันธ์แบบเพียร์สัน
คุณสมบัติที่สำคัญของการกรองร่วมกัน
- การปรับเปลี่ยนในแบบของคุณ: CF ให้คำแนะนำส่วนบุคคลเนื่องจากจะพิจารณาพฤติกรรมของผู้ใช้แต่ละรายในขณะแนะนำ
- ความสามารถในการปรับตัว: สามารถปรับให้เข้ากับความสนใจที่เปลี่ยนแปลงของผู้ใช้ได้
- ความสามารถในการขยายขนาด: อัลกอริธึม CF สามารถจัดการกับข้อมูลจำนวนมากได้
- ปัญหาการเริ่มเย็น: ผู้ใช้ใหม่หรือรายการใหม่อาจเป็นปัญหาได้เนื่องจากมีข้อมูลไม่เพียงพอที่จะให้คำแนะนำที่ถูกต้อง ซึ่งเป็นปัญหาที่เรียกว่าปัญหาการสตาร์ทขณะเครื่องเย็น
ประเภทของการกรองร่วม
พิมพ์ | คำอธิบาย |
---|---|
CF ที่ใช้หน่วยความจำ | ใช้หน่วยความจำของการโต้ตอบของผู้ใช้ก่อนหน้านี้เพื่อคำนวณความคล้ายคลึงของผู้ใช้หรือความคล้ายคลึงของรายการ |
CF ตามโมเดล | เกี่ยวข้องกับขั้นตอนการเรียนรู้แบบจำลอง จากนั้นจึงใช้แบบจำลองนี้เพื่อคาดการณ์ |
ไฮบริด ซีเอฟ | รวมวิธีการตามหน่วยความจำและตามโมเดลเพื่อเอาชนะข้อจำกัดบางประการ |
การใช้การกรองร่วมกัน: ความท้าทายและแนวทางแก้ไข
CF พบการใช้งานอย่างกว้างขวางในโดเมนต่างๆ รวมถึงแต่ไม่จำกัดเฉพาะภาพยนตร์ เพลง ข่าว หนังสือ บทความวิจัย ข้อความค้นหา แท็กโซเชียล และผลิตภัณฑ์โดยทั่วไป อย่างไรก็ตาม ยังมีความท้าทายเช่น:
- ปัญหาการสตาร์ทเย็น: โซลูชันอยู่ในโมเดลไฮบริดซึ่งรวมการกรองตามเนื้อหาหรือใช้ข้อมูลเมตาเพิ่มเติมเกี่ยวกับผู้ใช้หรือรายการ
- ความเบาบาง: ผู้ใช้จำนวนมากโต้ตอบกับรายการจำนวนเล็กน้อย ทำให้เมทริกซ์รายการผู้ใช้กระจัดกระจาย เทคนิคการลดขนาด เช่น การสลายตัวของค่าเอกพจน์ สามารถบรรเทาปัญหานี้ได้
- ความสามารถในการขยายขนาด: เมื่อข้อมูลเติบโตขึ้น การให้คำแนะนำอย่างรวดเร็วอาจกลายเป็นเรื่องเข้มข้นในการคำนวณ โซลูชันเกี่ยวข้องกับการประมวลผลแบบกระจายหรือใช้อัลกอริธึมที่ปรับขนาดได้มากขึ้น
เปรียบเทียบกับเทคนิคที่คล้ายกัน
วิธี | คำอธิบาย |
---|---|
การกรองการทำงานร่วมกัน | จากการสันนิษฐานว่าคนชอบของที่คล้ายกับสิ่งที่ตนเคยชอบในอดีตและสิ่งที่ชื่นชอบของคนที่มีรสนิยมคล้ายคลึงกัน |
การกรองตามเนื้อหา | แนะนำรายการโดยการเปรียบเทียบเนื้อหาของรายการและโปรไฟล์ของผู้ใช้ |
วิธีการแบบผสมผสาน | วิธีการเหล่านี้ผสมผสานการกรองร่วมกันและการกรองตามเนื้อหา โดยมีจุดมุ่งหมายเพื่อหลีกเลี่ยงข้อจำกัดบางประการ |
มุมมองในอนาคตเกี่ยวกับการกรองร่วมกัน
ด้วยการถือกำเนิดของการเรียนรู้ของเครื่องและเทคโนโลยีปัญญาประดิษฐ์ที่ซับซ้อนยิ่งขึ้น วิธี CF จึงมีการพัฒนา ปัจจุบันมีการใช้เทคนิคการเรียนรู้เชิงลึกเพื่อพัฒนาแบบจำลองที่ซับซ้อนสำหรับ CF โดยให้คำแนะนำที่แม่นยำยิ่งขึ้น นอกจากนี้ การวิจัยเพื่อจัดการกับความท้าทายของข้อมูลกระจัดกระจายและปัญหาการสตาร์ทขณะเครื่องยังดำเนินอยู่ โดยมีแนวโน้มว่าจะใช้วิธีการ CF ที่มีประสิทธิภาพและประสิทธิผลมากขึ้นในอนาคต
พร็อกซีเซิร์ฟเวอร์และการกรองการทำงานร่วมกัน
พร็อกซีเซิร์ฟเวอร์ เช่นเดียวกับที่ OneProxy มอบให้ สามารถช่วยเหลือทางอ้อมในการกรองการทำงานร่วมกันได้ พวกเขาให้การไม่เปิดเผยตัวตนและความปลอดภัยทำให้ผู้ใช้สามารถท่องเว็บด้วยความเป็นส่วนตัว สิ่งนี้สนับสนุนให้ผู้ใช้โต้ตอบกับรายการต่างๆ บนอินเทอร์เน็ตได้อย่างอิสระโดยไม่ต้องกลัวว่าจะกระทบต่อความเป็นส่วนตัว ข้อมูลผลลัพธ์เป็นสิ่งจำเป็นสำหรับ CF เนื่องจากต้องอาศัยการโต้ตอบระหว่างผู้ใช้กับรายการเป็นอย่างมากในการให้คำแนะนำ
ลิงก์ที่เกี่ยวข้อง
- การวิจัยกลุ่มเลนส์
- การวิจัยของ Netflix
- การวิจัยของอเมซอน
- ห้องสมุดดิจิทัล ACM สำหรับการวิจัยทางวิชาการเรื่องการกรองแบบร่วมมือ
- Google Scholar สำหรับผลงานวิชาการเรื่อง Collaborative Filtering