開源備受推崇的原因有很多,人們相信它經過眾多專業貢獻者的努力后是可靠的。然而,在推薦算法領域,其結果的“可靠性”值得商榷。
推薦算法通過篩選和預測與用戶的偏好和行為一致的可能性,引導用戶發現符合他們偏好的內容、產品和服務,基于數據分析為人們提供產品、服務或信息。例如:引導在線購物者購買他們下一個可能喜歡/最喜歡的產品。推薦算法是在數字平臺上推動用戶首選操作的隱藏力量。通過幫助消費者識別他們可能會喜歡的新項目和內容來改善用戶體驗,從而為企業帶來參與度和收入。然而,平臺對內容分發的控制、不透明的運營標準、推廣有害內容等風險使得人們呼吁將算法公諸于眾。
然而,以下問題即使在推薦算法開源后,仍然需要面對,包括:隱私問題、激勵問題、個性化問題,以及算法復雜度問題。
隱私問題&激勵問題—雖然開源推薦算法可以讓人們深入了解推薦的意圖,但披露算法本身并不能解決算法所面臨的更大的激勵問題。以貝葉斯的博弈中提到的在戰爭中統計士兵吸食大麻實驗為例:實驗設計要求士兵在回答前拋擲硬幣,背面向上就誠實回答,正面向上則直接做出肯定的回答。實驗具有隨機性,然而數學證明即使在這一隨機性下,仍然有相當高(75%)的置信度可以推測出事實,士兵仍然無法做到真正的隱私保護。當然,引入差分隱私算法后,可以更有效的解決上述問題。然而研究發現,通過開源情報進行交叉驗證,假名化依然毫無隱私可言。因此,統計信息如何以允許各方在不犧牲隱私的情況下得出近似正確的結論并披露是個非常具有挑戰性的問題。在網絡安全領域,用戶是否愿意積極配合即處于這樣的場景中,例如:釣魚郵件是否是網絡安全意識工程的一部分;對釣魚郵件的舉報將會得到怎樣的網絡安全部門的反饋。
個性化問題—除了激勵問題,“興趣點”也是算法所需要解決的重要問題。推薦算法如何分配內容很大程度上取決于對興趣點的預測。然而,內容的個性化難度需要考慮到即使是關注了相同事物的不同用戶,仍然有可能會喜歡不同內容,這背后取決于“品味”?!白x懂”用戶的思想并了解他們的確切偏好幾乎是不可能的,雖然機器學習模型可以利用過去的行為來預測問題的答案,然而在“品味”方面仍有很大提高空間。
另外,算法的復雜性決定了即使在開源的情況下,想要完全了解它們也是非常困難的?,F代算法模型使用了數以百萬、千萬甚至更多的特征進行預測,尤其是算法在微妙的心理學情境下進行工作所面對的特征之間的相互作用,對應的是可解釋模型的研究仍然處于起步階段。
推薦算法能夠有效改善用戶體驗并推動企業發展,其工作結果不僅為消費者有針對性的定制其訪問內容,還能夠幫助企業策略性地管理內容分發并獲取有關用戶行為的基本信息。隨著技術的進步,尤其是LLM與AI Agent的發展,將會出現更多越來越復雜、上下文感知和以用戶為中心的推薦系統,這些系統不僅可以滿足用戶的要求和偏好,還可以預測用戶的要求和偏好,從而與數字平臺建立更具吸引力和認可度的關系。但是,其“可靠性”需要更多的關注和研究。