sponsored links

Item2Vec負取樣最佳化基礎上專題地圖產品個性化推薦方法探究

摘要:建立適用於專題地圖產品檢索的使用者偏好推薦模型是提高專題地圖質量的有效方式之一,在專題地圖產品推薦場景中,存在嚴重的內容冷啟動和評論資料稀疏問題,現有的推薦演算法無法為特定類使用者推薦不同特徵的專題地圖產品,導致使用者從專題地圖中獲取偏好資訊受到限制。因此,本文構建基於負取樣的連續詞袋模型和基於Word2Vec的Item2Vec相結合的使用者偏好推薦方法,用於專題地圖產品推薦。①計算使用者行為日誌檔案中互動行為資料的隱性評分,以代替專題地圖推薦資訊流場景中稀疏的使用者評論資料;②基於負取樣的連續詞袋模型提取目標專題地圖的前後地圖序列感知特徵資訊,透過控制正負樣本比例為1:2,提升目標專題地圖潛在評分的預測精度;③透過Item2Vec將帶有使用者行為特徵資訊的專題地圖對映到向量空間,計算使用者對專題地圖的相似度矩陣,根據使用者偏好程度完成推薦。在構建的專題地圖評分實驗資料集ThematicCMaps和4個公開驗證資料集MovieLens上的測試結果表明:與LFM、PersonalRank、ContentBased和SVD4種傳統推薦演算法相比,本文所提方法可有效提高潛在評分的預測精度,推薦效能最高達到27.85%;與以霍夫曼取樣方式的Item2Vec基礎方法和YouTubeNet2種神經網路推薦演算法相比,評分預測精度有一定提高,且推薦效能不斷提升,最高達到2.97%和5.78%。以經典演算法奇異值分解(SVD)為例,將MovieLens-20M資料集切分後,在資料量不斷增大的資料子集中,本文所用方法的評分預測精度和效能均優於SVD方法。

關鍵詞: 專題地圖產品檢索 地圖個性化推薦 深度學習 使用者事件行為 負取樣

1、引言

針對嚴重的“資訊過載”問題,推薦演算法透過使用者基礎畫像(年齡、性別等)、使用者評論資料及物品(商品、APP等)評分資訊等進行資料建模,提取語義特徵資訊,抽象使用者個性化需求的偏好程度,為使用者推薦滿足個性化需求的物品,實現使用者偏好推薦。目前,推薦演算法已應用到許多領域,如:電商場景中使用者購買物品(Amazon、Alibaba等)、資訊流場景中使用者瀏覽資訊(iGoogle、AMiner等)、位置服務中的使用者評分系統(FourSquare、大眾點評等)[1]。

將推薦演算法引入專題地圖產品推薦場景是為了快速有效地獲得特定類使用者的偏好資訊,以提升專題地圖質量。一些學者採用地學眼動實驗方法探求使用者對地圖的認知機理,透過Web日誌獲取使用者對地圖的感興趣度資訊,利用問卷調查法篩選地圖相關的情境因素,以設計的推薦案例庫和推薦規則為準,為使用者推薦滿足偏好需求的地圖[2,3]。也有學者對相關應急場景構建本體知識庫,透過相似度計算工具訓練知識庫,根據使用者檢索條目,匹配知識庫中相似度較高的內容項,為使用者推薦偏好專題地圖[4]。相關場景的規則庫和知識庫需人工前期編制,耗時長且主觀性較強,面對專題地圖推薦場景中多變的情境資訊,這些推薦方法無法真實體現不同類使用者的偏好程度且時效性不強。傳統推薦演算法透過表徵使用者、物品之間的相似偏好模型挖掘使用者對物品的潛在評分,對使用者偏好的物品進行召回或排序,如:協同過濾演算法[5]、基於內容的推薦演算法[6,7]和基於圖的推薦演算法[8]等,以上方法採用的淺層模型需人工設計使用者和物品的偏好關係特徵,面對嚴重的冷啟動和資料稀疏問題,演算法推薦效能和評分預測精度下降。深度學習有效推動了推薦演算法研究,神經網路中輸入層與隱層、隱層與輸出層之間均是全連線的網路,且啟用函式的去線性化,利於從多源異構資料中自動學習使用者和物品的潛在特徵,有效緩解冷啟動和資料稀疏問題,特徵抽象能力優於傳統推薦演算法,推薦準確率較高[9,10]。OrenBarkan等[11]首次將Word2Vec方法中基於負取樣的Skip-Gram模型(SGNS)遷移到基於物品的協同過濾(Item-basedCF)演算法中,使用神經項嵌入演算法學習物品的潛在特徵,透過計算物品相似度完成個性化推薦;陳晉音等[12]提出一種基於圖過濾的快速密度聚類雙層網路推薦演算法,利用基於圖的過濾器快速確定節點執行度閾值,對資料內虛假資訊進行過濾,再透過快速密度聚類雙層網路完成推薦;黃金超等[13]提出一種基於偏好度特徵構造的個性化推薦演算法,使用改進的基於內容的推薦演算法計算偏好分,構造物品偏好度特徵矩陣,最後透過XGBoost非線性分類器對線上旅遊業的子房型進行個性化推薦;張敏等[14]提出層疊降噪自動編碼器(StackedDenoisingAuto-Encoder,SDAE)與隱含因子模型(LatentFactorModel,LFM)相結合的混合推薦方法,SDAE透過引入商品評論文字,增強了LFM模型分解使用者評分矩陣後商品特徵矩陣的一般性,有效提升了模型的評分預測精度。該類演算法均涉及使用者基礎畫像、使用者訂單、使用者評論等多特徵提取、多工學習的特性,對於富含專題地圖產品的資訊流場景,相關的統計類特徵資訊稀少,適用性不強。

以上推薦方法對專題地圖產品個性化推薦提供了案例參考,針對專題地圖推薦場景中本體規則庫編制耗時較長,受使用者型別侷限性較強,專題地圖特徵利用不充分等問題,鑑於此,本文提出了面向專題地圖產品推薦場景的使用者偏好推薦方法。首先,透過Web使用者日誌資料對特定類使用者的偏好興趣進行建模,計算使用者互動行為下每幅專題地圖的隱性評分,以減弱真實場景中出現的內容冷啟動和稀疏的評論資料問題;基於負取樣(NegativeSampling)的連續詞袋(ContinuousBagofWords,CBOW)模型對使用者行為序列進行建模,提取含使用者行為序列特徵的地圖特徵向量,其充分考慮前後地圖序列感知特徵資訊,可有效提高目標地圖的預測評分精度;基於CBOW模型最佳化的Item2Vec方法根據提取的地圖特徵向量構建相似度矩陣,透過Cosine相似度函式計算專題地圖間的相似度,完成特定類使用者的個性化推薦。

2、面向專題地圖產品推薦場景的使用者偏好推薦方法

面向專題地圖產品推薦場景的使用者偏好推薦方法框架如圖1所示,主要包括:基於使用者互動行為資料的隱性評分計算、基於負取樣的CBOW模型最佳化和基於CBOW模型最佳化的Item2Vec方法3個部分。

基於使用者互動行為資料的隱性評分計算,在PC/Web端採集使用者訪問專題地圖網站的使用者日誌檔案,檔案中包含使用者ID、專題地圖ID及使用者對專題地圖的具體事件行為(具體專題地圖的點選量、收藏、下載等)等隱式反饋資料。按使用者點選連結的瀏覽路徑,對各事件行為分類,透過定義使用者事件行為隱性評分函式,計算特定類使用者對各類專題地圖的事件行為評分,獲得評分的專題地圖為使用者感興趣的專題地圖;透過定義時間衰減函式,計算特定類使用者對各類感興趣專題地圖的偏好程度[15],另提取各專題地圖的描述資訊“專題地圖名稱/分類”,以上提取資料和計算結果構成了專題地圖產品推薦場景中使用者偏好推薦方法所需的訓練樣本。

圖1專題地圖檢索的使用者偏好推薦方法框架

基於負取樣的CBOW模型最佳化將高維的使用者行為序列轉化為低維的專題地圖特徵向量,並帶有使用者行為特徵的語義資訊[16]。CBOW模型根據前後地圖序列預測目標專題地圖,相比於Word2Vec中另一種模型Skip-Gram,CBOW模型更新目標專題地圖及其前後地圖序列的初始化向量,作為正樣本;對樣本庫中前後地圖序列的鄰近地圖序列進行一次負取樣,構成負樣本。透過控制正負樣本比例,提升目標專題地圖的預測機率。此外,訓練樣本中出現較多生僻詞時,取樣模式為負取樣,效率高於原有的霍夫曼方法,有助於提升Item2Vec方法的召回效能。

基於CBOW模型最佳化的Item2Vec方法從使用者日誌檔案中抽取使用者行為序列,按使用者點選專題地圖連結的最新行為記錄構建專題地圖特徵序列,透過基於負取樣的CBOW模型得到專題地圖特徵向量,用於訓練模型引數。藉助Word2Vec方法中詞向量之間距離遠近表示詞語義之間距離遠近的思想,專題地圖特徵向量之間距離遠近可表徵專題地圖之間隱語義的距離遠近[17],利用Cosine相似度函式構建專題地圖語義距離矩陣,根據矩陣預測每幅專題地圖的評分,完成特定類使用者的專題地圖個性化推薦。

2.1基於使用者互動行為資料的隱性評分

計算特定類使用者對專題地圖的隱性評分,從使用者日誌檔案中檢索使用者對專題地圖的事件行為資料,隱性評分透過不同型別事件行為的互動次數進行計量,MEij為構建的專題地圖-事件行為矩陣(式(1))。專題地圖產品有多個主題,每個主題下包含多個專題要素集合,使用者定位感興趣專題地圖透過一系列點選專題地圖連結的事件行為完成。按使用者線上瀏覽路徑,使用者對各類專題地圖的事件行為分為4類:(1)網站主頁使用者對各主題的瀏覽行為(以下簡稱“瀏覽行為”);(2)使用者對感興趣主題描述資訊的行為(以下簡稱“描述性行為”);(3)使用者對感興趣專題要素屬性資訊的行為(以下簡稱“屬性行為”);(4)使用者對感興趣專題地圖進行收藏、下載等行為(以下簡稱“決定性行為”)。透過SQLScript從使用者日誌檔案中檢索的包含特定使用者ID和內容ID的資料條目格式(表1)。

式中:i為使用者;j為含使用者事件行為的專題地圖;1表示使用者對感興趣專題地圖執行了所有事件行為;0表示使用者執行決定性行為之前的其他事件行為。

特定類使用者對專題地圖的隱性評分計算流程如圖2所示,包括2個方面:(1)使用者對感興趣專題地圖執行各事件行為,透過權重係數和衰減係數對特定類使用者的偏好興趣進行建模。不同型別的事件行為分配不同的權重係數,依據各事件行為的權重係數,透過隱性評分函式,計算使用者對各專題地圖的事件行為評分,對評分資料進行標準化處理,SQL查詢返回特定類使用者的事件行為評分資料,按各資料項的事件行為時間節點,計算該資料項的衰減係數,基於使用者事件行為評分和衰減係數,計算特定類使用者對感興趣專題地圖的隱性評分;(2)使用者對一定量的感興趣專題地圖均執行“決定性行為”,其它各型別事件行為次數不同,則偏好程度存在一定差別。TF-IDF根據使用者查詢對文件價值進行排序,引入逆使用者頻率IUF,對(1)中感興趣專題地圖的隱性評分進行過濾,確定特殊項專題地圖的重要性排序,透過逆使用者頻率IUF值,計算特定類使用者對特殊項專題地圖的事件行為評分,對評分資料進行標準化處理,獲得特定類使用者對特殊項專題地圖的隱性評分。

(1)特定類使用者對感興趣專題地圖的隱性評分

特定類使用者對專題地圖的事件行為評分高低取決於各型別事件行為的權重係數和所佔比例[18]。依據帶權重係數的專題地圖事件行為隱性評分函式(式(2)),對專題地圖產品推薦場景中的使用者事件行為進行表示:“#event1”表示“決定性行為”、“#event2”表示“屬性行為”、“#event3”表示“描述性行為”。對使用者事件行為進行權重分配(表2),加權值的確定符合權重分配規則,其中,w1為“決定性行為”的加權值,w2為“屬性行為”的加權值,w3為“描述性行為”的加權值。確定各型別事件行為的加權值和互動次數後,計算使用者對各專題地圖的事件行為評分,利用最高評分對各評分資料進行標準化處理,獲得評分範圍在(1,10)的同比例評分資料(式(3))。

表1用於計算專題地圖隱性評分的資料格式

圖2特定類使用者對感興趣專題地圖隱性評分的計算流程

表2使用者事件行為權重分配

式中:u為使用者;i為專題地圖;w1…wn為各型別事件行為的權重係數;#event1…#eventn為各型別事件行為發生的次數;RI′u,i表示使用者關於專題地圖的事件行為評分。m為專題地圖數量;max(RI′u,i)表示各專題地圖事件行為評分的最大值;SRI′u,i表示標準化後各專題地圖的事件行為評分。

SQL查詢返回特定類使用者的事件行為評分資料,透過時間衰減函式(式(4)),計算使用者行為過的專題地圖的衰減係數,用於測度一定時段內使用者對專題地圖的偏好程度,衰減係數是對使用者長短期行為序列的綜合最佳化,它弱化使用者的短期意圖,強化使用者的長期偏好興趣,反映使用者近期行為與長期行為的相關性,使用者期望評分呈緩慢下降趨勢,以提升使用者對感興趣專題地圖的隱性評分。式(5)是計算特定類使用者對感興趣專題地圖的隱性評分。

式中:dt為使用者當前時間;dc#eventi為使用者對第i幅專題地圖開始事件行為的時間;timedelta()表示2個時間節點之間的時間差;days為使用者規定時段;dfi表示第i幅專題地圖的衰減係數。wi為第i幅專題地圖的事件行為權重係數;SRIu,i表示特定類使用者對感興趣專題地圖的隱性評分。

(2)特定類使用者對特殊項專題地圖的隱性評分

計算特定類使用者對特殊項專題地圖的隱性評分,確定使用者對具有“決定性行為”的感興趣專題地圖的偏好程度。計算逆使用者頻率IUF值(式(6)),確定使用者感興趣的專題地圖中存在的特殊項專題地圖,以對數函式方式計算是確保較少的感興趣專題地圖之間存在較大差別,使用者對特殊項專題地圖的事件行為次數越多,重要性就越大,IUF值可確定特定類使用者對特殊項專題地圖的偏好程度[19]。逆使用者頻率IUF值作為特殊項專題地圖的加權值,計算特殊項專題地圖的事件行為評分(式(7)),利用最高評分對各評分資料進行標準化處理,獲得評分範圍在(1,10)的同比例特殊項專題地圖的隱性評分資料(式(8))。

式中:n為使用者u對特殊項專題地圖i執行各型別事件行為的次數;N為資料條目中使用者數量;“+1”表示對IUF進行平滑處理,使資料條目中未具有“決定性行為”的特殊項專題地圖得到一個合適的IUF值。RIu,i表示特殊項專題地圖的加權隱性評分;SRIu,i表示標準化後特定類使用者對特殊項專題地圖的隱性評分。

至此,專題地圖產品推薦場景中(1,10)範圍內特定類使用者對各專題地圖的隱性評分計算完畢,使用其代替顯性評分,使用者ID、專案ID、專題地圖名稱/分類和專題地圖的隱性評分作為Item2Vec方法訓練的語料個體,將由訓練語料個體構成的評分實驗資料集命名為“ThematicCMaps”。

2.2基於負取樣的CBOW模型最佳化

CBOW是根據上下文資訊預測目標詞出現機率的神經網路模型,CBOW神經網路結構分為3層,輸入層將使用者行為序列構成的item句子中某個中心詞的上下文資訊初始化,獲得相關詞對應的詞向量,投影層將上下文資訊各對應的初始化向量求和,輸出層輸出目標詞的詞向量[20]。負取樣最佳化以選定的中心詞和設定視窗長度後中心詞的上下文資訊作為正樣本,輸入層對映到投影層生成訓練樣本的詞彙表,負取樣選取詞彙表中其他詞作為負樣本,透過二元邏輯迴歸求解每個詞對應的待訓練引數θ和中心詞對應上下文中每個詞的詞向量[21,22],基於負取樣的CBOW模型最佳化訓練流程如圖3所示。

從專題地圖評分實驗資料集“ThematicCMaps”中抽取一個使用者行為序列樣本,經CBOW模型讀取生成專題地圖詞彙表D,以中心專題地圖wt及其前後地圖序列Context(wt)為正樣本,透過負取樣在D中選取neg個特徵專題地圖作為負樣本NEG(wt)。每一個Context(wt)經權重矩陣W初始化,在投影層求和作為語境向量,並與輸出權重矩陣W′相乘得到前後地圖序列的輸出向量,經啟用函式處理,得到描述目標專題地圖向量的V-dim機率分佈,最大機率索引的專題地圖為預測的目標專題地圖,最大化目標專題地圖輸出向量v′(wt)擬合語境向量x的目標函式為:

式中:c為上下文視窗長度;K為負樣本數;P(wt|Context(wt))P(wt|Context(wt))表示最大化條件機率函式(Softmax),定義如下:

式中:v(wt)為輸入的專題地圖向量;v′(wt)為輸出的專題地圖向量;v(wt)為逐次輸入的專題地圖;|v|為專題地圖向量的維度;|C|為專題地圖詞彙表大小;2*|v|*|C|表示模型引數個數;x為語境向量。P(wt|Context(wt))P(wt|Context(wt))的梯度複雜度與|C|值有關,此時,式(10)無法計算目標專題地圖的最大化機率,按照正負樣本數比例1:2,透過負取樣採集負樣本,將原來的|C|分類最佳化為|K|分類,最佳化後最大化正樣本的似然函式為:

式中:Xw為正樣本中各專題地圖的向量和;θu∈Rmθu為待訓練引數,指投影層與輸出層的向量為待預測目標專題地圖u時,二者之間的全連線;Lw(u)為用於分類的判別閾值,判別為中心專題地圖時值為1,判別為負樣本時值為0。式(11)由2部分組成:σ(XwΤθu)Lw(u)表示前後地圖序列時,正樣本中預測目標專題地圖wt的機率;(1-σ(XwΤθu))(1-Lw(u))表示前後地圖序列時,負樣本中預測目標專題地圖wt的機率,最佳化似然函式增大正樣本的預測概率同時降低負樣本的的預測機率。為計算方便,損失函式採用對數損失函式,最終的最佳化目標函式為:

圖3CBOW模型最佳化訓練流程

透過隨機梯度上升法迭代更新neg個模型所需的引數Xw和θu,繼而迭代訓練樣本中每幅專題地圖對應的向量,最佳化目標函式在梯度推導中記為:L(wt,u),分別計算損失函式對引數Xw和θu的梯度,Xw為投影層中心專題地圖對應的前後地圖序列中所有向量的加和,θu共享於正負樣本對中每幅專題地圖對應的向量。損失函式中Xw和θu對偶,損失函式對Xw的偏導數與θu有關係,首先對引數θu求導,根據式(13)和式(14),引數Xw和θu的偏導數為:

啟用函式(Sigmoid)求導後,藉助鏈導法則對引數Xw和θu進行梯度推導(式(15)):

式中:XwΤθu表示模型輸出,啟用函式處理後值為(0,1)。引數θu的初始值貢獻到e後,完成θu的下一次更新,根據模型學習率計算e值(e初值為0),由式(16)定義:

待預測目標專題地圖u可能來自正樣本,也有可能來自負樣本。專題地圖詞彙表D的詞權值α設定為3/4,便於負取樣透過二元邏輯迴歸求解模型引數,訓練完正負樣本對後,得到關於Xw的總梯度,依據總梯度值Xw完成自身更新,Xw和θu的更新公式為:

式中:v(wContext)為Xw對正負樣本對的梯度加和。前後地圖序列中每幅專題地圖對應的向量都共享該梯度值,同樣地,θu的梯度加和貢獻到前後地圖序列中每幅專題地圖對應的向量上,前後地圖序列中每幅專題地圖對應的向量根據Xw、θu的梯度和完成自身更新,得到的專題地圖向量既是使用者行為過的內容項的向量,也是使用者的事件行為向量。注意的是,Xw依賴於θu存在,正負樣本對的梯度加和構成Xw的梯度後,更新每幅專題地圖對應的引數Xw和θu的時候,先更新Xw自身所佔的比例梯度。

2.3基於CBOW模型最佳化的Item2Vec方法

藉助Word2Vec方法計算詞語義距離的思想,從使用者日誌檔案中抽取使用者行為序列轉化為專題地圖特徵序列,每個專題地圖特徵序列表示一次完整的使用者行為,將帶有使用者行為特徵的專題地圖特徵序列放入Word2Vec進行訓練,得到專題地圖特徵序列的隱語義向量,透過Cosine相似度函式計算專題地圖特徵序列的語義距離矩陣,離線寫入KV儲存,計算每幅特徵專題地圖相似度較高的Topk個鄰居特徵專題地圖,完成特定類使用者的專題地圖個性化推薦[23],Item2Vec方法的訓練主流程如圖4所示。

透過Cosine相似度函式計算特徵專題地圖兩兩之間的隱語義相關度(式(19)),獲得特徵專題地圖相似度矩陣(Item-Sim)。其中,專題地圖的隱性評分被視作n維空間向量,根據向量之間的角度計算特徵專題地圖之間的相似性(式(20))。專題地圖產品協同過濾進行專題地圖評分預測時,不需要校正使用者的平均評分,預測評分由使用者本身對專題地圖的事件行為決定。

式中:n為專題地圖評分實驗資料集中專題地圖數目;xu,1k,xu,2k為含使用者行為特徵的專題地圖向量的分量;Iu,1k,Iu,2k為專題地圖特徵向量。

3、實驗資料及結果分析

3.1實驗資料

專題地圖評分實驗資料集“ThematicCMaps”的資料來源是PC端採集的WebService記錄(http://www.onegreen.net/),使用者日誌檔案中詳細記錄了使用者的瀏覽行為、檔案下載等資訊。資料預處理後,計算其隱性評分,實驗資料集包含1179幅地圖的分類描述資料(maps.txt)和個人使用者的872條隱性評分資料(ratings.txt),資料示例格式如下:

圖4Item2Vec訓練主流程

分類描述資料maps.txt中資料條目格式:

隱性評分資料ratings.txt中資料條目格式:

本文選取MovieLens(http://movielens.org)收集的電影評分資料集作為驗證資料集,目的是為了驗證本文構建的面向專題地圖產品推薦場景的使用者偏好推薦方法和專題地圖實驗資料集的有效性、可行性[24]。MovieLens-100K、MovieLens-1M、MovieL-ens-10M和MovieLens-20M4個數據集的詳細資訊見表3所示。MovieLens基準資料集是推薦系統中常用的高質量實驗資料集,由GroupLens研究組在UniversityofMinnesot中組織,使用者對自己看過的電影進行評分,分值範圍:0~5。

3.2評測指標

採用均方根誤差(RMSE)評價模型的預測評分效能(式(21)),RMSE是推薦系統中最受歡迎的用來度量預測評分準確性的指標,RMSE反映預測評分偏離真實評分的程度,值越小,評分預測精度越高[25]。存在資料集D={(uk,ik,SRIuk,ik)},計算RMSE:

表3驗證資料集資訊

式中:uk為第k個行為使用者ID;ik為第k個含使用者行為特徵的物品ID;SRIuk,ik,和SR͂Iuk,ik為第k個使用者對物品的真實評分和預測評分;N為資料集評分量。

3.3引數設定和模型對比

根據實驗資料集和驗證資料集大小,本文所提面向專題地圖產品推薦場景的使用者偏好推薦方法Item2Vec中,基於負取樣的CBOW模型訓練相關的引數設定見表4所示。

本文選取LFM、PersonalRank、ContentBased3種傳統的非神經網路模型與本文提出的使用者偏好推薦方法進行比較;選取SVD和CBOW(負取樣)作為Item-Item協同過濾的代表模型,比較在資訊流場景中資料量不同,生僻詞出現次數不同時的評分預測區別;選取以霍夫曼取樣方式的Item2Vec基礎方法、YouTubeNet模型作為個性化推薦召回演算法的深度學習比較模型。

表4模型訓練引數設定

(1)LFM:透過隱含特徵構建使用者興趣和物品關係的潛在因子矩陣,對矩陣分解和評分偏移量模型進行正則化處理,減弱模型的泛化能力。

(2)PersonalRank:基於圖的推薦演算法將使用者行為轉化為二分圖,依據頂點相關度對使用者、物品進行排序,相關度越高的物品在使用者推薦列表中越靠前。

(3)ContentBased:基於內容的推薦演算法分別刻畫使用者和專案畫像,透過多種分類器對不同權重的專案結果進行線性加權,結合使用者分類結果進行推薦。

(4)SVD:奇異值分解(SingularValueDecomposition)方法將高維度使用者評分矩陣分解為隱藏特性空間中的使用者特性矩陣和產品特性矩陣,SVD矩陣分解模型在NetflixPrize比賽中可生成產品建議[26]。

(5)YouTubeNet:YouTubeNet推薦模型首先引入了使用者的個性化資訊(使用者點選記錄,使用者年齡、性別等),在此基礎下學習使用者特徵向量和物品序列特徵向量,直接使用內積結果選出使用者最感興趣的物品列表[27]。

3.4結果分析

本文在用於專題地圖產品偏好推薦的評分實驗資料集“ThematicCMaps”和4種不同資料量的驗證資料集MovieLens中執行4種傳統推薦模型:LFM、PersonalRank、ContentBased和SVD,以及本文提出的推薦方法,以多次實驗的預測評分和真實評分的RMSE指標平均值來衡量各模型推薦效果,表5給出了各模型在測試集上的評分預測效能對比結果。從表5可知,本文所提用於專題地圖產品推薦場景的使用者偏好推薦方法,在專題地圖評分實驗資料集和驗證資料集上的評分預測精度均優於4種傳統推薦模型,且推薦效能均有所提升,說明本文所提方法,相比於LFM和SVD,對使用者和專案的潛在特徵有較好的學習能力;相比於PersonalRank和ContentBased,具有有效的特徵提取能力,能對使用者行為的情景資訊進行有效建模。其中,在實驗資料集中,基於CBOW模型最佳化的Item2Vec方法比4種傳統推薦模型在預測準確率上提升:16.44%、15.33%、13.80%和1.49%。在4個驗證資料集中,總體上本文所提方法的預測準確率優於4種傳統推薦模型,相比於LFM模型,本文所提方法預測準確率整體提升27.85%;相比於PersonalRank模型,本文所提方法預測準確率整體提升27.45%;相比於ContentBased模型,本文所提方法預測準確率整體提升18.63%;相比於SVD模型,本文所提方法預測準確率整體提升4.95%。按模型在資料集中的實驗結果,除ContentBased模型外,本文所提方法相比於其餘3種模型在提升預測準確率上均為正相關,隨資料集中資料量的不斷變大,評分預測效能提升越明顯。在基於神經網路的推薦模型中,本文所提方法相比於以霍夫曼取樣方式的Item2Vec基礎方法,實驗資料集中提升0.45%,驗證資料集中提升0.55%、0.68%、1.88%和2.97%,說明評分預測精度上優於後者,評分預測效能也有了一定的提升;本文對YouTubeNet模型作了改動,在不引入使用者個性化資訊的情況下,只對具有使用者行為特徵的物品序列進行建模,結果表明,實驗資料集中預測準確率提升0.97%,驗證資料集中預測準確率提升1.19%、1.13%、4.24%和5.78%,說明本文所提方法在評分預測精度上優於後者,且評分預測效能有了大幅度提升。為驗證本文所提方法在不同比例訓練集下的評分預測效能變化差異,本文對MovieL-ens-20M資料集進行不同大小的切分,實驗結果見表6所示。

表5各模型預測評分效能對比

從MovieLens-20M資料集中隨機抽取5種不同比例的資料子集用於模型訓練,由表6可知,本文所提方法在10%、30%和50%的資料子集上的預測準確率,相比於SVD提升了4.09%、4.47%和5.75%,預測準確率提升較低,但在70%和90%的資料子集中,相比於SVD,本文所提方法的預測準確率提升了7.28%和9.50%,預測準確率提升較高,說明隨訓練量的增多,本文所提方法的評分預測準確率上升,評分預測效能優於SVD模型。

表6模型在MovieLens-20M資料集切分下的實驗結果

表5、表6給出了本文所提方法與其他推薦模型在評分預測效能上的定量比較,針對構建的面向專題地圖推薦場景中專題地圖檢索的實驗資料集,進行離線測試,定性比較兩種推薦模型的推薦結果(表7)。表7顯示獲得特定類使用者最高預測評分的種子專題地圖和相似度排名前5的鄰居專題地圖,相似度較高的專題地圖則是為特定類使用者進行推薦的專案。由表7可知,基於CBOW模型最佳化的Item2Vec方法推薦的專題地圖列表相似度較高,基本屬於同一地圖主題下的各專題指標,推薦效果優於SVD模型,“ThematicCMaps”資料量較少,但仍能很好地推斷各專題地圖之間的相似關係。

表72種模型的推薦結果對比

4、結論

面對現有專題地圖推薦場景中使用者偏好建模案例研究相對較少,專題地圖評分實驗資料集缺少,透過編制本體規則等傳統方法進行地圖推薦的時效性不強等問題,本文提出面向專題地圖產品推薦場景的使用者偏好推薦方法,基於WebService記錄構造專題地圖序列的統計類特徵,如專題地圖的點選量、收藏率等,透過計算專題地圖隱性評分,完成使用者偏好興趣建模;基於負取樣最佳化的CBOW模型,可有效提升目標專題地圖的評分預測精度;基於CBOW模型最佳化的Item2Vec方法,充分考慮專題地圖序列之間的區域性共現關係,根據專題地圖預測評分,完成個性化推薦,推薦效果優於傳統方法,形成了較為合理的專題地圖向量檢索式召回策略。主要結論如下:

(1)首先使用特定類使用者對感興趣專題地圖隱性評分的計算方法,構建用於專題地圖檢索的實驗資料集“ThematicCMaps”。針對不同類使用者形成不同專題地圖分類粒度的評分,彌補了使用者行為序列中特徵專題地圖強度無區分性的不足,解決了專題地圖產品推薦場景中無專題地圖評分實驗資料集的不足,根據使用者行為日誌計算的隱性評分能客觀反映檢索使用者的真實偏好程度。CBOW模型對專題地圖的“專題地圖名稱/分類”標籤的多次迭代更新,獲得的專題地圖的文字特徵,可有效避免內容冷啟動問題。

(2)基於負取樣的CBOW模型最佳化,控制負樣本個數是正樣本個數的2倍,可過濾點選序列長度小於5的樣本,過濾之後,使用者點選序列能覆蓋99%的預測專題地圖。CBOW模型經負取樣改進,降低了梯度下降過程中的計算量,引數Xw和θu的迭代更新,可有效提高對大型資料集的訓練效率和評分預測效能。

(3)基於CBOW模型最佳化的Item2Vec方法是將神經項嵌入物品的協同過濾,在類似於專題地圖推薦的資訊流場景中,資料量較大,生僻詞出現次數較多,CBOW模型預測目標專題地圖會受到前後地圖序列的影響,地圖特徵向量的跳幀隨中心專題地圖的前後地圖序列對應的地圖向量一起調整,多次的前後地圖序列對應的向量調整使得預測目標專題地圖的向量更加準確,且這種訓練方式適用於分類明確、生僻詞較多的資訊流場景。Item2Vec方法學習出來的專題地圖序列向量含使用者實時的偏好行為特徵,具有較好的相似性,可覆蓋10%以上的曝光佔比,在專題地圖個性化推薦召回層,專題地圖點選率提升了1.83%,使用者時長提升了1.11%,所以與傳統推薦模型相比,基於CBOW模型最佳化的Item2Vec方法在專題地圖推薦場景中能取得較好的推薦效果。

本文所提方法為語義環境下專題地圖的Web上下文感知特徵提取與建模提供了新的思路,專題地圖向不同情境的特定使用者傳遞偏好資訊,個性化推薦基於使用者認知語義為特定使用者快速匹配合理有效的專題地圖,量化專題地圖推薦場景中不同類使用者的知識構成和偏好程度,可促進專題地圖服務中專題製圖技術的發展,提高適應於不同類使用者的專題地圖質量,滿足專題地圖推薦場景中的個性化推薦效率。

分類: 新聞
時間: 2021-10-12

相關文章

小明Q1 Pro在小明Q1的基礎上做了哪些改進?值得購買嗎?

小明Q1 Pro在小明Q1的基礎上做了哪些改進?值得購買嗎?
馬上就到祖國母親的生日了,蘑菇就尋思著給家裡人買點禮物.逛著逛著就看到了一個熟悉的面孔,這不是小明Q1麼,之前蘑菇也寫過文章來向大家介紹它,仔細一看原來是小明Q1 Pro,這簡直是拉滿了小編的好奇心, ...

俄羅斯外交部:俄與中亞各國在互信基礎上建立平等合作
來源:央視新聞客戶端 20日,俄羅斯外交部副部長魯登科在瓦爾代國際辯論俱樂部會議上表示,俄羅斯的政策是儘可能開放的,俄努力與該地區所有國家建立平等的合作關係. 魯登科強調,俄羅斯希望與中亞國家開展廣泛 ...

李鐵,戰術都是建立在無畏強敵基礎上的,未戰先怯還談什麼戰術?
我來告訴大家你採取了什麼戰術? 無非就是跟踢日本那場一樣,上半場防守反擊,期望能頂住日本隊的進攻,然後下半場換上歸化球員打對攻. 好吧,對日本採取此戰術儘管輸了,但球迷並沒有過多抱怨,畢竟結果沒出來之 ...

「最適合家長的複習材料」人教版二年級上語文第二單元複習方法

「最適合家長的複習材料」人教版二年級上語文第二單元複習方法
做丨減丨負丨不丨躺丨平丨的丨家丨長 <語文園地二>及第二單元複習思路 一.我愛閱讀<十二月花名歌>思維導圖 1.文章按照什麼順序描寫了多少種花?每種花的特色是什麼? 2.哪幾句 ...

手機怎麼投屏到電視、電腦或投影儀上?分享4種方法!操作簡單

手機怎麼投屏到電視、電腦或投影儀上?分享4種方法!操作簡單
第一種:手機無線投屏 現在大部分比較新款的智慧手機都有無線投屏功能,不過這個方法的缺點在於如果你當前的網路不穩定,影片就會卡頓,如果家裡的網路很穩定,就不用在意了!步驟如下:1.確保你的手機和電視連線 ...

衣服上各種汙漬的祛除方法

衣服上各種汙漬的祛除方法
[ 汗漬 ] 所需物品:氨水(大藥店有售).冬瓜.鹽水 清洗方法:1.把有汗漬的衣服放入3%-5%的冷鹽水中浸泡1-2小時,使汗漬融化;2.搗碎冬瓜,擠出汁液用來搓洗有汗漬的衣服,並用清水洗淨;3.把 ...

讓演算法推薦不再“算計人”
來源:人民網-人民日報海外版 身處移動網際網路時代,每天都要面對海量資訊,怎樣才能高效地做出最佳選擇?演算法推薦技術大顯身手,成為平臺與使用者的好幫手,但一些亂象也隨之而來,過度推薦.廣告精準推薦讓人 ...

十年牛熊風格趨勢轉換與牛股盤點

十年牛熊風格趨勢轉換與牛股盤點
1.十年風格與行業覆盤 2009:四萬億強刺激,經歷過08年金融海嘯後,全世界量化寬鬆救市,週期爆發. 2010:週期餘溫,偏新科技趨勢. 2011:加息週期開啟,市場肅殺,僅銀行抗跌.防禦一般選公共 ...

揭秘新中國第一臺國產蒸汽機車 |《美術經典中的黨史》邀您走近中國畫《機車大夫》……

揭秘新中國第一臺國產蒸汽機車 |《美術經典中的黨史》邀您走近中國畫《機車大夫》……
1952年7月26日,青島四方鐵路工廠的南廣場上,隨著一聲高亢的汽笛聲響起,整個廣場的工人們沸騰起來了,大家激動地喊著:"成功了!成功了!" 隨著新中國第一臺國產蒸汽機車試車的成功 ...

劉少奇:土地改革法的主持起草者與推動者
新中國成立後,如何建立一個適合中國國情的新型的經濟和政治制度,平穩順利地實現國家制度的歷史性變革,就成了中國共產黨認真思考和探索的問題.劉少奇主持起草的<中華人民共和國土地改革法>及其指導 ...

特稿推薦|劉昌明院士等:黃河干流徑流變化歸因分析與有關問題商榷

特稿推薦|劉昌明院士等:黃河干流徑流變化歸因分析與有關問題商榷
引用格式:劉昌明,魏豪杉,張永強,等.黃河干流徑流變化歸因分析與有關問題商榷[J].人民黃河,2021,43(10):1-6,16. 作者簡介:劉昌明(1934-),男,湖南汨羅人,中國科學院院士,主 ...

Klipsch Heresy IV:經典產品的最新型號,為更好的音效而進一步最佳化

Klipsch Heresy IV:經典產品的最新型號,為更好的音效而進一步最佳化
說到中置音箱,我相信絕大部分人對中置音箱的印象中來自於家庭影院音訊系統裡面那隻擺放在螢幕中間,且經常發出人聲對白的音箱.但實際上,立體聲音響裡面很早就提倡加入中置音箱以三聲道配置的形式來播放音樂,加入 ...

智慧音箱市場變天,靠上億補貼也撐不住了

智慧音箱市場變天,靠上億補貼也撐不住了
小度,小度!小愛,小愛!你有沒有被這些聲音洗腦過? 這種親切的暱稱作為智慧音箱智慧功能喚醒的標誌,出現在產品宣傳和各類使用場景中,而這番操作也改變了以往電子產品冰冷的形象,增加了智慧生活互動的體驗感. ...

上半年毛利率下滑 提升產品力成房企共識
Wind資料顯示,申萬房地產行業披露了上半年業績的143家房企銷售毛利率算術平均值為26.9%,較去年同期減少了4個百分點,近4年來首次跌破30%.儘管提升產品力與品質成為眾多房企的共識,但對於行業毛 ...

首個新藥CAR-T產品瑞基奧侖賽獲批上市,中國CAR-T治療藍圖展開

首個新藥CAR-T產品瑞基奧侖賽獲批上市,中國CAR-T治療藍圖展開
來了,瑞基奧侖賽注射液正式獲批! 2021年9月3日,首個一類新藥CAR-T產品(商品名倍諾達)瑞基奧侖賽注射液獲中國國家藥品監督管理局(NMPA)批准上市,用於治療經過二線或以上全身性治療後成人患者 ...

全新榮威RX5 PLUS產品力解讀:運動屬性突出,智聯體驗領先

全新榮威RX5 PLUS產品力解讀:運動屬性突出,智聯體驗領先
文:懂車快報 劉竟洋 榮威RX5自上市起便憑藉大螢幕與斑馬智行出色的互聯體驗,令"科技化"成為上汽榮威的品牌標籤.在後續車型迭代中,全新榮威RX5 PLUS融入了更多傳統文化元素與 ...

沃爾沃新款XC60上新,除了安全,還有什麼能出圈?

沃爾沃新款XC60上新,除了安全,還有什麼能出圈?
提起沃爾沃品牌,"安全堡壘"和"冷淡風設計"無疑是最出圈的,但對於一個有著近百年曆史和積澱,並正向電氣化轉型的品牌來說,優勢顯然不止於此. 剛上市的沃爾沃新款X ...

中國企業500強,哪些乳企上榜?

中國企業500強,哪些乳企上榜?
9月25日,中國企業聯合會.中國企業家協會參照國際通行做法,以2020年企業營業收入為主要依據,連續第20年釋出中國企業500強. 榜單顯示,2021中國500強企業營業收入和淨利潤總額實現增長,資產 ...

以開放最佳化發展環境——東北如何實現全面振興新突破(下)
來源:經濟日報 深度開放是東北實現全面振興的重要動力來源,在立足新發展階段.貫徹新發展理念.構建新發展格局的背景下,如何抓住這一歷史機遇,形成對外開放新格局,促進東北全面振興取得新突破?圍繞東北地區對 ...