Lọc cộng tác (CF) là một phương pháp thuật toán mạnh mẽ thường được áp dụng trong lĩnh vực hệ thống đề xuất. Tiền đề cơ bản của nó là dự đoán sở thích của một người dùng cụ thể bằng cách thu thập sở thích từ nhiều người dùng. Giả định củng cố CF là nếu hai người dùng đồng ý về một vấn đề thì họ cũng có khả năng đồng ý về những vấn đề khác.
Nguồn gốc và sự phát triển của lọc cộng tác
Lọc cộng tác được đề cập lần đầu tiên vào năm 1992 bởi David Goldberg và những người khác từ Xerox PARC khi phát triển Tapestry, một hệ thống email thời kỳ đầu. Tapestry được thiết kế để sử dụng trí thông minh của con người và cho phép mọi người thêm chú thích hoặc “thẻ” vào các tin nhắn đến, sau này có thể được sử dụng để lọc tin nhắn.
Năm 1994, dự án GroupLens của Đại học Minnesota đã giới thiệu thuật ngữ “lọc cộng tác” bằng cách đề xuất phương pháp CF tự động. Dự án này sử dụng CF cho tin tức Usenet—một mạng lưới các nhóm tin mà người dùng có thể đăng lên và họ có thể lọc theo sở thích của mình.
Khai thác tính năng lọc cộng tác
Lọc cộng tác chủ yếu hoạt động bằng cách tạo ma trận mục người dùng chứa các tùy chọn (như xếp hạng) do người dùng cung cấp cho các mục. Ví dụ: trong ngữ cảnh của hệ thống đề xuất phim, ma trận này sẽ chứa các xếp hạng do người dùng đưa ra cho các bộ phim khác nhau.
CF dựa trên hai mô hình chính: CF dựa trên bộ nhớ và CF dựa trên mô hình.
-
CF dựa trên bộ nhớ: Còn được gọi là CF dựa trên vùng lân cận, mô hình này đưa ra dự đoán dựa trên sự giống nhau giữa người dùng hoặc vật phẩm. Nó được chia thành CF người dùng-người dùng (xác định người dùng tương tự với người dùng được dự đoán) và CF mục-mục (xác định các mục tương tự với những mục mà người dùng đã xếp hạng).
-
CF dựa trên mô hình: Cách tiếp cận này liên quan đến việc phát triển mô hình người dùng để tìm hiểu sở thích của họ. Các kỹ thuật liên quan là phân cụm, nhân tố ma trận, học sâu, v.v.
Cơ chế đằng sau việc lọc cộng tác
Về cốt lõi, quy trình Lọc cộng tác bao gồm hai bước: tìm người dùng có sở thích tương tự và đề xuất các mặt hàng dựa trên sở thích của những người dùng tương tự này. Đây là một phác thảo chung về hoạt động của nó:
- Tính toán độ tương tự giữa người dùng hoặc vật phẩm.
- Dự đoán xếp hạng của các mục chưa được người dùng xếp hạng.
- Đề xuất N mục hàng đầu có xếp hạng dự đoán cao nhất.
Độ tương tự giữa người dùng hoặc vật phẩm thường được tính toán bằng cách sử dụng độ tương tự cosine hoặc tương quan Pearson.
Các tính năng chính của lọc cộng tác
- Cá nhân hóa: CF cung cấp các đề xuất được cá nhân hóa vì nó xem xét hành vi của từng người dùng trong khi đề xuất.
- Khả năng thích ứng: Nó có thể thích ứng với sở thích thay đổi của người dùng.
- Khả năng mở rộng: Thuật toán CF có khả năng xử lý lượng lớn dữ liệu.
- Vấn đề khởi động nguội: Người dùng mới hoặc mặt hàng mới có thể gặp vấn đề vì không có đủ dữ liệu để đưa ra đề xuất chính xác—vấn đề được gọi là vấn đề khởi động nguội.
Các loại lọc cộng tác
Kiểu | Sự miêu tả |
---|---|
CF dựa trên bộ nhớ | Sử dụng bộ nhớ về các tương tác của người dùng trước đó để tính toán độ tương tự của người dùng hoặc các mặt hàng. |
CF dựa trên mô hình | Bao gồm một bước học mô hình, sau đó sử dụng mô hình này để đưa ra dự đoán. |
CF lai | Kết hợp các phương pháp dựa trên bộ nhớ và dựa trên mô hình để khắc phục một số hạn chế. |
Sử dụng Lọc cộng tác: Những thách thức và giải pháp
CF được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau bao gồm nhưng không giới hạn ở phim ảnh, âm nhạc, tin tức, sách, bài báo nghiên cứu, truy vấn tìm kiếm, thẻ xã hội và sản phẩm nói chung. Tuy nhiên, còn có những thách thức như:
- Vấn đề khởi động nguội: Giải pháp nằm ở các mô hình kết hợp kết hợp lọc dựa trên nội dung hoặc sử dụng siêu dữ liệu bổ sung về người dùng hoặc mục.
- Độ thưa thớt: Nhiều người dùng tương tác với một số lượng nhỏ các mục, khiến ma trận mục người dùng trở nên thưa thớt. Các kỹ thuật giảm kích thước, như phân tách giá trị số ít, có thể giảm thiểu vấn đề này.
- Khả năng mở rộng: Khi dữ liệu phát triển, việc đưa ra các đề xuất nhanh chóng có thể đòi hỏi cường độ tính toán cao. Các giải pháp liên quan đến điện toán phân tán hoặc sử dụng các thuật toán có khả năng mở rộng hơn.
So sánh với các kỹ thuật tương tự
Phương pháp | Sự miêu tả |
---|---|
Lọc cộng tác | Dựa trên giả định rằng mọi người thích những thứ tương tự như những gì họ thích trong quá khứ và những thứ được những người có cùng sở thích thích. |
Lọc dựa trên nội dung | Đề xuất các mặt hàng bằng cách so sánh nội dung của các mặt hàng và hồ sơ của người dùng. |
Phương pháp lai | Các phương pháp này kết hợp Lọc cộng tác và Lọc dựa trên nội dung, nhằm tránh những hạn chế nhất định. |
Quan điểm tương lai về lọc cộng tác
Với sự ra đời của công nghệ học máy và trí tuệ nhân tạo phức tạp hơn, các phương pháp CF đang phát triển. Các kỹ thuật học sâu hiện được sử dụng để phát triển các mô hình phức tạp cho CF, cung cấp các đề xuất chính xác hơn. Hơn nữa, nghiên cứu nhằm giải quyết các thách thức về độ thưa thớt dữ liệu và vấn đề khởi động nguội đang được tiến hành, hứa hẹn các phương pháp CF hiệu quả và hiệu quả hơn trong tương lai.
Máy chủ proxy và lọc cộng tác
Các máy chủ proxy, giống như các máy chủ do OneProxy cung cấp, có thể gián tiếp hỗ trợ Lọc cộng tác. Chúng cung cấp tính ẩn danh và bảo mật, cho phép người dùng duyệt web với sự riêng tư. Điều này khuyến khích người dùng tự do tương tác với các mục trên internet mà không sợ xâm phạm quyền riêng tư của họ. Dữ liệu thu được rất cần thiết cho CF vì nó phụ thuộc rất nhiều vào tương tác giữa người dùng và mục để đưa ra đề xuất.
Liên kết liên quan
- Nghiên cứu ống kính nhóm
- Nghiên cứu Netflix
- Nghiên cứu Amazon
- Thư viện số ACM cho nghiên cứu học thuật về Lọc cộng tác
- Học giả Google cho các tài liệu học thuật về Lọc cộng tác