信息檢索與利用(AI研習丨專題:知識支撐的信息檢索與推薦)

摘 要

本文介紹了目前國內外關于知識支撐的信息檢索與推薦的研究進展,主要針對結合知識圖譜的信息檢索與推薦方法,以及知識支撐的搜索用戶行為分析兩個主要的研究方向進行了梳理和分析,并對未來工作提出了展望。

 

關 鍵 字

信息檢索;推薦系統;知識圖譜;探索式搜索

 

0 引言

 

知識和信息,是兩個聯系緊密而又有所區別的概念。信息科學領域的 DIKW 體系(
DataInformation-Knowledge-Wisdom pyramid)能很好地闡釋它們之間的關系。如圖 1 所示,DIKW 體系是一個金字塔,從下往上包含數據(data)、信 息 (information)、 知 識(knowledge) 和智慧(wisdom)四個組成部分。其中,數據是信息的基礎;信息是知識的基礎;知識是智慧的基礎。經過一定組織和處理,使其與當前的上下文或者任務相關,因此具有一定的意義、價值和相關性,并對完成當前任務有用,數據就可以被稱為信息。當信息被進一步結構化,與其他信息建立聯系,或者被吸收和整合現有的知識體系和結構中去,以幫助人們完成當前或未來的任務,信息就被轉化為了知識。

AI研習丨專題:知識支撐的信息檢索與推薦

 

圖 1 DIKW 體系

 

傳統信息檢索研究主要涉及對非結構化或半結構化的海量數據進行存儲、組織、索引和檢索,使用戶能快捷有效地從中檢索和獲取相關的信息。即主要涉及如何幫助用戶從數據中獲取信息。然而隨著信息檢索研究的不斷發展,研究者開始逐漸意識到在信息檢索領域中引入知識的重要性。

 

一方面,從系統的角度,研究者開始意識到,在傳統的文本數據和用戶行為數據之外,我們可以利用知識圖譜等高質量的結構化知識,進一步改進搜索引擎和推薦系統的排序性能。另一方面,從用戶的角度,研究者開始將搜索過程看作是用戶學習和獲取知識的過程,從這一角度對用戶的搜索行為進行分析、理解和建模。因此,本文將從上述兩個方面,介紹知識支撐的信息檢索與推薦相關研究進展。

 

1 結合知識圖譜的信息檢索與推薦方法

在信息檢索領域,搜索引擎和推薦系統是兩個最重要的應用方向。目前已有大量研究工作從不同方面嘗試改進搜索排序和推薦排序的效果,包括利用用戶的各類交互行為(點擊和瀏覽等)和待排序條目的內容信息(描述和關鍵詞等),也已在不同場景提升了算法表現。隨著近些年相關研究的逐漸深入,越來越多的研究者開始意識到,信息檢索場景之外的結構化知識對進一步改進搜索和推薦算法有重要作用,這些結構化知識能幫助我們更好地刻畫搜索和推薦場景中的待排序條目。

 

具體來說,知識圖譜中包含了大量的實體和實體間的聯系信息,這兩類信息都對信息檢索系統中的待排序內容的表示有重要幫助。一方面,如果將待排序內容(如搜索引擎中的文檔或推薦系統中的商品等)與知識圖譜中實體進行鏈接匹配,我們將能找出待排序內容的關鍵信息(即包含的實體詞);另一方面,實體之間的特殊關系能協助做推理擴散,不管是對搜索場景下查詢詞的擴展還是推薦場景下待推薦內容的關系發現都將有重要作用。

 

近年來,在搜索引擎和推薦系統領域有不少工作已基于類似思路開始了研究。已有學者在搜索場景下嘗試在傳統查詢詞-文檔內容匹配的基礎上借助知識圖譜,考慮查詢詞中包含的實體與文檔包含的實體之間的關聯關系情況,進一步改進了文檔排序的效果;在推薦系統場景中,由于知識信息的引入還能幫助緩解推薦的可解釋性問題,因此有不少研究工作從這一角度入手,提升推薦算法表現的同時改進結果的可解釋性。相關研究的應用于場景包括在網頁搜索、信息流推薦、商品推薦和電影推薦等場景??梢钥吹?,知識增強的信息檢索方法研究已成為近年來研究的熱點與重點。下面將對兩個場景的知識利用分別做具體介紹。

 

(1)搜索場景下的知識圖譜利用

在搜索排序算法中,查詢詞與文檔的內容及語義匹配情況不管是在傳統的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,這些算法在進行匹配時大都賦予查詢詞中的每個詞語以同等權重,沒有將更多注意力放在關鍵信息上。例如,當查詢詞為“奧巴馬的親屬關系”時,用戶更關注的是“奧巴馬”和“親屬”,而不是“關系”這個詞語。為了解決這一問題,近年來,卡內基梅隆大學熊辰炎與清華大學劉知遠等提出,可以在現有詞語匹配的基礎上,引入知識圖譜中實體詞對查詢詞和文檔中包含的實體詞同樣進行匹配和相似度計算,以實現對關鍵實體信息的有效利用和挖掘。更進一步地,他們還考慮了詞語和實體詞的交叉匹配,即考慮了:① 查詢詞中詞語 - 文檔中詞語;② 查詢詞中實體詞 - 文檔中詞語;③ 查詢詞中詞語 - 文檔中實體詞;④ 查詢詞中實體詞 - 文檔中實體詞,四個維度的語義匹配情況。然后再使用池化和全連接操作得到最終的排序評分。該算法被命名為 EDRM(Entity-Duet Neural Ranking),框架如圖 2 所示。

AI研習丨專題:知識支撐的信息檢索與推薦

 

圖 2 EDRM 算法模型圖

 

在實驗過程中,使用 DBPedia 作為額外引入的知識圖譜的 EDRM 算法被應用在大規模中文搜索日志數據集上。結果顯示,該算法較基準算法在 NDCG@1 上取得了近 20% 的提升。該結果表明,關鍵實體信息的引入對于改進搜索排序方法起到了重要作用。

 

(2)推薦場景下的知識圖譜利用

在推薦場景中,我們注意到待推薦條目可能存在一些特定的關系,例如,特別是在商品推薦場景下,不同商品間存在互補(手機和手機殼)、替代(華為手機和蘋果手機)等關系。如果能考慮商品之間的這些關系,我們將可以根據用戶的歷史行為進一步優化待推薦內容,為用戶推薦與歷史購買有互補關系的商品,同時避免推薦有替代關系的商品。然而,要獲取商品間的關系并不容易,商品數量過于龐大導致不可能通過人工標注的方法獲取??紤]到知識圖譜中包含著大量的現有知識,這些現有知識可能對挖掘和推理商品間的關系有一定幫助。因此,我們基于商品間的關系(如替代和互補),提出了一種新的聯合優化框架,用于從知識圖譜中學習到歸納規則,并基于歸納規則生成商品對之間的關聯特征,將其應用在推薦算法中。該算法框架被命名RuleRec,框架圖見圖3。

AI研習丨專題:知識支撐的信息檢索與推薦

 

圖 3 RuleRec 算法框架圖

 

該模型主要包含規則學習模塊和推薦模塊兩個部分。在規則學習模塊中,我們通過在知識圖譜上進行隨機游走,找到對于商品間的替代關系和互補關系有較好預測作用的規則特征(限定了兩個節點間隨機游走經過的邊的類型序列)。通過這些規則能為每個商品對建模學習到它們的相關性緊密程度,進而可以擴展到單個商品與用戶之前購買的商品序列的聯系情況。在推薦模塊中,我們將學習得到的規則特征進行加權后,與其他推薦算法得到的推薦概率相加,以得到新的推薦概率,并依此生成推薦結果。由于該模型具有很好的耦合性,因此可以與現有的推薦算法有效地結合到一起。在實驗過程中,我們使用了 Amazon 的手機和電子產品購物歷史數據作為用戶和商品的消費記錄,并將它們鏈接到了 Freebase 知識圖譜上(最大的開源知識圖譜數據集)。最終,我們提出的算法較已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。實驗說明,圖譜中的知識信息能幫助改進推薦排序算法。除了能提升推薦系統的算法表現,推薦結果的可解釋性也是相關研究關注的重點問題之一。在本場景下,知識信息的引入所生成的規則就是天然的用戶能直接閱讀的推薦解釋,通過人工標注我們也發現 94% 的推薦解釋能被用戶接受。這是說明知識圖譜的引入還可以用于提高推薦算法的可解釋性。從這些研究可以看到,知識圖譜的引入能有效幫助刻畫信息檢索場景下的待排序內容,同時還提升了相應算法的可解釋性。外部的知識的引入為相關領域的研究帶來了新的方向和更多可能。

 

2 知識支撐的搜索用戶行為分析

隨著搜索技術的發展和廣泛應用,搜索引擎在幫助用戶高效檢索和獲取信息的基礎上,進一步成為了人類學習和獲取知識不可或缺的工具。然而,與通過使用搜索引擎檢索和獲取較為具體的信息(例如查詢明天的天氣預報)不同,進行搜索獲取知識(例如理解搜索引擎的工作原理)是一個更為復雜的過程 , 用戶往往需要進行多次查詢,才能完成相應的學習任務。這一方面是由于知識之間往往存在關聯與依賴關系,學習任務具有內在多樣性(intrinsic diversity),因此用戶需要進行多次查詢,獲取多方面的信息,構建包含知識間關系的知識體系。另外,在開始進行搜索時,用戶常常因對相關領域缺乏了解,而陷入無法組織有效的查詢的困境中。因此,用戶需要在多次查詢迭代的過程中,逐漸探索該領域,進而學習如何組織有效查詢,更好地獲取構建知識體系所需的相關信息。這種復雜的、高度交互式的搜索過程被概括為探索式搜索(exploratory search)。由于現代搜索引擎已經能較好地滿足針對具體信息的檢索需求,如何有效地支持探索式搜索已經成為信息檢索領域的重要研究方向之一。與此同時,一些學者將搜索過程本身視為一個學習的過程,提出了“搜索即學習”(search as learning)這一概念。通過在搜索與學習過程之間建立類比,一方面可以借助心理學理論和學習理論對用戶的搜索行為進行歸類、分析、刻畫和解釋;另一方面可以將知識建模、表示和計算的相關方法,應用于復雜多查詢會話的評價和用戶意圖理解模型等任務中。

 

在分析用戶搜索行為方面,IP&M 雜志主編Jansen 等利用認知學習(cognitive learning)領域的分類方法將搜索任務按照復雜程度分為了記憶(remembering)、理解(understanding)、應用(applying)、分析(analyzing)、評價(evaluating)和創造(creating)六類,并比較和分析了用戶在完成這六類搜索任務時的搜索行為。芬蘭坦佩雷大學的 Vakkari 將搜索時的學習概念化為“用戶知識結構的改變”(changes in one’s knowledge structure)并提出可以用概念和其之間的關系來表示用戶的知識結構。進一步的,Vakkari 基 于知識結構的變化方式,將搜索過程劃分為三個階段。在第一個階段里,用戶會對知識結構進行重構(restructuring),即改變和替換原有知識結構中包含的概念和關系。相應的用戶在這一階段里會使用較為寬泛的查詢詞進行檢索,會從搜索結果中學習到新的查詢詞,會更多地閱讀與問題背景相關的文檔。在第二階段里,用戶會對知識結構進行調整(tuning), 即不替換和修改已有概念和關系,而只是調整它們的范圍和含義。在這個階段里,用戶會使用相對更長更具體的查詢,并且會建立起較為明確的相關性判斷準則(relevance criteria)。在第三階段里,用戶會對知識結構進行同化(assimilation),即獲取和知識結構中已有概念相關的實例信息和事實類信息。在這個階段,用戶的查詢會變得更加具體,會獲取大量的具體的事實類信息,并且會重新檢查一些之前忽視的信息來源。

 

如果將搜索看作是一個學習的過程,除了搜索任務的類型和當前所處的搜索階段,用戶自身具有的領域知識水平(domain expertise)也將會影響不同用戶在完成同一個搜索任務時的行為。為了研究用戶領域知識水平對其搜索行為和搜索結果的影響,我們組織了一次用戶實驗。實驗中,設置了來自環境、醫學、政治學三個領域的六個搜索任務,并從相應的院系招募了 30 個被試參加實驗。通過要求每個被試完成兩個本領域的搜索任務和四個非本領域搜索任務,我們有效地控制了用戶知識水平這一自變量,并系統地分析了自變量對一系列刻畫搜索結果和搜索過程的因變量影響。實驗結果顯示,被試能更好地完成本領域搜索任務,學習到更多的知識并正確回答相關問題,然而,其在完成本領域任務時的搜索滿意度并沒有顯著提升。除此之外,利用眼動儀記錄的細粒度用戶行為信息,我們發現,用戶在完成不熟悉領域的搜索任務時,會更依賴在搜索過程中學到的新查詢詞,并在閱讀搜索結果時花費更多的認知負擔(cognitive effort)。

 

其次,在具體應用方面,由于用戶的搜索過程和知識獲取及學習過程存在緊密聯系,可以利用一系列知識表示方法,對用戶在搜索過程中的知識狀態變化進行測量與建模,并以此為基礎,改進搜索評價和用戶意圖理解模型。首先,在搜索評價方面,通過將搜索過程看作是一個學習的過程,可以通過評估學習的效果(learning outcome),對用戶搜索過程是否有效、成功進行相對客觀評價。日本學者 Yuka Egusa 和Noriko Kando 等首先嘗試了使用概念圖(concept map)對探索式搜索進行評價。概念圖最早在教育領域被用于表示學生掌握的科學知識。一個概念圖包含若干個概念節點和若干條表示概念之間關系的有向邊。Egusa 等在用戶實驗中要求參與的被試在開始搜索之前和搜索結束后,分別繪制兩張與搜索任務主體相關的概念圖。通過比較兩張概念圖,可以計算新增、刪除、共有的節點數和邊數等指標,用于評價在搜索過程中,用戶獲取了多少新知識。注意到與傳統的搜索滿意度評價不同,上述評價方法能測量用戶在搜索過程中是否成功地獲取了新的知識。我們進一步嘗試探究搜索成功程度與搜索滿意度之間的聯系與差別,以及能否有效地估計和預測搜索成功程度。為了研究上述問題,我們設計和組織了一次用戶實驗。在實驗中每個被試被要求完成六個不同的搜索任務。每個搜索任務包含一道需要用 100 字左右答案回答的簡答題。通過對最終答案的正確性進行打分,來測量用戶搜索的成功程度;并通過用戶的反饋來測量用戶的搜索滿意度。通過比較搜索成功程度與搜索滿意度,發現存在相當比例的搜索會話出現了“滿意但失敗”和“不滿意但成功”的現象。較為客觀的搜索成功程度與主觀的搜索滿意度并不一致。我們進一步將每個任務的正確答案涉及的關鍵得分點(key point)進行了提取,并對用戶在實驗過程中閱讀過的所有文檔進行了細粒度的標注。標注信息包括文檔是否包含每個關鍵得分點,以及文檔的相關性、可靠性(credibility)和可讀性(readability)。利用文檔包含關鍵得分點和用戶的搜索行為信息,分別構建了搜索成功程度評價指標和搜索成果程度預測模型。實驗結果表明,利用文檔包含知識點的信息,我們能有效地對搜索成功程度這一較為客觀的搜索評價指標進行估計。

 

其次,在用戶意圖理解方面,我們可以利用知識表示方法對用戶在會話中搜索意圖的變化進行建模,進而更好地預測用戶下一個可能提交的查詢,改進搜索引擎的查詢推薦功能。例如,來自加州大學洛杉磯分校的 Jiang 和 Wang 將查詢日志表示為一個包含不同查詢、詞項和網站三類型節點的異質網絡。該網絡中包含四種不同類型的邊:① 查詢內詞項指向下一個詞項的邊;② 會話內上一查詢指向下一查詢的邊;③ 查詢指向包含詞項的邊;④ 查詢指向點擊網站的邊?;谠摦愘|網絡,我們可以使用Node2Vec等表示學習算法,獲得網絡中節點的嵌入表示,并利用得到的嵌入表示進行查詢推薦。查詢改寫還可進一步分為增加查詢詞、刪除查詢詞和替換查詢詞等不同的類別。因此,我們可以將查詢作為實體,不同類型的查詢改寫看作關系,利用TransE 等翻譯嵌入模型,得到對應于不同類別查詢(不同關系)改寫的向量表示。我們在購物搜索的環境下進行了實驗。針對購物搜索的特點,構建了一個二級的查詢改寫分類體系。該分類體系在增、刪、改查詢詞之外,還對修改的查詢詞是針對設計、商品、風格、品牌、樣式、功能、材料、渠道、價格和尺寸 10 類屬性中的哪一類進行了區分。結合兩級分類,該分類體系共涉及 30 類不同的購物搜索查詢改寫。通過TransE、TransH 和 TransR 模 型,可以訓練得到每個查詢詞和每一類查詢改寫的嵌入表示。為了驗證得到嵌入表示的有效性,我們設計了一個查詢改寫類別分類任務,即采用查詢改寫涉及的前后兩個查詢的嵌入表示的差作為特征,預測查詢改寫的類別。實驗結果顯示,采用翻譯嵌入模型得到的向量表示,能有效地預測查詢改寫的類別。這再一次說明了使用知識表示學習方法,能較為有效地捕捉用戶進行查詢改寫時隱含的搜索意圖。

 

相比于 Xu 等的工作,在模態間隱式對齊的任務上,我們采取了一種反其道而行之的做法。如圖 4 所示,從視頻圖像信息出發,通過注意力機制與時間鄰域內的多條文本間建立匹配和對齊?;谶@個思想,設計了一種聯合圖像視覺與用戶評論信息的多模態人物重識別模型,并在真實數據集上進行了驗證。實驗結果證實了模態間的對齊是有效的,使用注意力機制可以在一定程度上識別出那些與視頻人物描述更為相關的文本信息,從而有助于更精確地刻畫出人物的身份特征,達到更好的人物重識別效果。

 

3 結束語

由于知識與信息之間存在緊密的聯系,在信息檢索研究中引入知識的概念,以及知識計算方法是一個值得深入探索的研究方向。從系統的角度出發,可以通過構建模型,引入豐富的外部知識,有效地改進信息檢索和推薦模型的排序性能。從用戶的角度出發,通過將用戶的搜索過程視為一個獲取知識的過程,可以加深對用戶搜索行為的理解,并借助知識計算方法,改進搜索性能評價和搜索用戶意圖理解。

 

AI研習丨專題:知識支撐的信息檢索與推薦

掃一掃手機訪問

發表評論

條留言  
給我留言