Filtrowanie oparte na współpracy (CF) to potężna metoda algorytmiczna często stosowana w systemach rekomendacyjnych. Jego zasadniczym założeniem jest przewidywanie zainteresowań konkretnego użytkownika poprzez zbieranie preferencji od wielu użytkowników. Założeniem leżącym u podstaw CF jest to, że jeśli dwóch użytkowników zgodzi się w jednej kwestii, prawdopodobnie zgodzi się również w innych.
Geneza i ewolucja filtrowania zespołowego
Pierwsza wzmianka o filtrowaniu zespołowym pojawiła się w 1992 roku przez Davida Goldberga i innych pracowników Xerox PARC podczas opracowywania wczesnego systemu poczty elektronicznej Tapestry. Tapestry zaprojektowano tak, aby wykorzystywał ludzką inteligencję i umożliwiał użytkownikom dodawanie adnotacji, czyli „tagów” do przychodzących wiadomości, które można było później wykorzystać do filtrowania wiadomości.
W 1994 r. w ramach projektu GroupLens Uniwersytetu Minnesota wprowadzono termin „filtrowanie oparte na współpracy”, proponując zautomatyzowane podejście CF. W projekcie tym wykorzystano CF for Usenet news — sieć grup dyskusyjnych, w których użytkownicy mogli zamieszczać posty i które mogli filtrować według swoich preferencji.
Rozwijanie wspólnego filtrowania
Filtrowanie zespołowe działa głównie poprzez utworzenie macierzy elementów użytkownika, która zawiera preferencje (takie jak oceny) nadane przez użytkowników elementom. Na przykład w kontekście systemu rekomendacji filmów ta matryca będzie zawierać oceny przyznane przez użytkowników różnym filmom.
CF opiera się na dwóch głównych paradygmatach: CF oparty na pamięci i CF oparty na modelu.
-
CF oparty na pamięci: Znany również jako CF oparty na sąsiedztwie, ten paradygmat umożliwia prognozowanie na podstawie podobieństwa między użytkownikami lub elementami. Jest on podzielony na CF User-User (identyfikuje użytkowników podobnych do przewidywanego użytkownika) i CF Item-Item CF (identyfikuje elementy podobne do tych, które ocenił użytkownik).
-
CF w oparciu o model: Podejście to polega na opracowaniu modelu użytkowników w celu poznania ich preferencji. Stosowane techniki to grupowanie, faktoryzacja macierzy, głębokie uczenie się itp.
Mechanizm wspólnego filtrowania
W swojej istocie procesy filtrowania opartego na współpracy obejmują dwa etapy: znajdowanie użytkowników o podobnych gustach i polecanie produktów na podstawie ich preferencji. Oto ogólny zarys jego działania:
- Oblicz podobieństwo między użytkownikami lub przedmiotami.
- Przewiduj oceny elementów, które nie zostały jeszcze ocenione przez użytkownika.
- Polecaj N najlepszych elementów z najwyższymi przewidywanymi ocenami.
Podobieństwo między użytkownikami lub elementami jest zwykle obliczane przy użyciu podobieństwa cosinus lub korelacji Pearsona.
Kluczowe cechy filtrowania zespołowego
- Personalizacja: CF zapewnia spersonalizowane rekomendacje, ponieważ podczas rekomendowania bierze pod uwagę indywidualne zachowanie użytkownika.
- Zdolność adaptacji: Potrafi dostosować się do zmieniających się zainteresowań użytkownika.
- Skalowalność: Algorytmy CF są w stanie poradzić sobie z dużymi ilościami danych.
- Problem z zimnym startem: Nowi użytkownicy lub nowe produkty mogą powodować problemy, ponieważ nie ma wystarczających danych, aby sformułować dokładne zalecenia — jest to problem znany jako problem zimnego rozruchu.
Rodzaje filtrowania zespołowego
Typ | Opis |
---|---|
CF oparty na pamięci | Wykorzystuje pamięć poprzednich interakcji użytkowników do obliczenia podobieństwa użytkowników lub podobieństwa przedmiotów. |
CF oparty na modelu | Obejmuje etap uczenia się modelu, a następnie wykorzystuje ten model do przewidywania. |
Hybrydowy CF | Łączy metody oparte na pamięci i modelu, aby pokonać pewne ograniczenia. |
Korzystanie ze wspólnego filtrowania: wyzwania i rozwiązania
CF znajduje szerokie zastosowanie w różnych dziedzinach, w tym między innymi w filmach, muzyce, wiadomościach, książkach, artykułach naukowych, zapytaniach wyszukiwania, tagach społecznościowych i ogólnie produktach. Istnieją jednak wyzwania, takie jak:
- Problem z zimnym startem: Rozwiązanie polega na modelach hybrydowych, które obejmują filtrowanie oparte na treści lub wykorzystanie dodatkowych metadanych o użytkownikach lub przedmiotach.
- Rzadkość: Wielu użytkowników wchodzi w interakcję z niewielką liczbą elementów, przez co macierz elementów użytkownika jest rzadka. Techniki redukcji wymiarowości, takie jak rozkład wartości osobliwych, mogą złagodzić ten problem.
- Skalowalność: W miarę wzrostu ilości danych szybkie dostarczanie rekomendacji może wymagać dużej mocy obliczeniowej. Rozwiązania obejmują przetwarzanie rozproszone lub wykorzystanie bardziej skalowalnych algorytmów.
Porównanie z podobnymi technikami
metoda | Opis |
---|---|
Wspólne filtrowanie | Opiera się na założeniu, że ludzie lubią rzeczy podobne do tego, co lubili w przeszłości oraz rzeczy, które lubią osoby o podobnych gustach. |
Filtrowanie oparte na treści | Poleca elementy, porównując zawartość elementów z profilem użytkownika. |
Metody hybrydowe | Metody te łączą filtrowanie zespołowe i filtrowanie oparte na treści, mając na celu uniknięcie pewnych ograniczeń. |
Przyszłe perspektywy wspólnego filtrowania
Wraz z pojawieniem się bardziej wyrafinowanych technologii uczenia maszynowego i sztucznej inteligencji metody CF ewoluują. Techniki głębokiego uczenia się są obecnie wykorzystywane do opracowywania złożonych modeli CF, zapewniając dokładniejsze zalecenia. Co więcej, trwają badania nad wyzwaniami związanymi z rzadkością danych i problemem zimnego startu, co daje nadzieję na bardziej wydajne i skuteczne metody CF w przyszłości.
Serwery proxy i wspólne filtrowanie
Serwery proxy, takie jak te dostarczane przez OneProxy, mogą pośrednio pomagać we wspólnym filtrowaniu. Zapewniają anonimowość i bezpieczeństwo, umożliwiając użytkownikom przeglądanie z zachowaniem prywatności. Zachęca to użytkowników do swobodnej interakcji z elementami w Internecie bez obawy o naruszenie ich prywatności. Uzyskane dane są niezbędne dla CF, ponieważ formułowanie rekomendacji w dużym stopniu opiera się na interakcjach użytkownik-element.
powiązane linki
- Badania GroupLens
- Badania Netflixa
- Badania Amazona
- Biblioteka cyfrowa ACM do badań akademickich na temat filtrowania zespołowego
- Google Scholar za artykuły akademickie na temat filtrowania zespołowego