聯手自然語言處理專業委員會：“知識圖譜補全”術語釋出

本期釋出術語熱詞：知識圖譜補全(Knowledge Graph Completion)。

基本簡介：

知識圖譜補全通常定義為“三元組分類”或“連結預測”任務。首先，一條知識在知識圖譜中通常由三元組表示：“頭實體，關係，尾實體”。三元組分類即對於給定的三元組，預測其正確的機率。而連結預測則是對於三元組中缺失的某個元素加以補全。由此可見，連結預測可以轉換為三元組分類任務，它們都可以對不存在於當前知識圖譜中的“新知識”做出預測。

知識圖譜補全(Knowledge Graph Completion)

作者：曹藝馨（新加坡管理大學）

InfoBox：

中文名：知識圖譜補全

外文名：Knowledge Graph Completion

簡寫：KGC

學科：人工智慧

實質：利用知識圖譜中已有的知識（包括結構和屬性等）經過推斷得到新的知識。

背景與動機：

近年來，研究者們構建了各種各樣的大規模的知識圖譜，如Wikidata[1]、YAGO[2]等。雖然它們已經在多個領域取得了顯著的成績，但是在實際應用中，知識覆蓋率不足一直是一個令人頭疼的問題。那麼，如何在已有知識中透過學習得到新的知識，從而對知識圖譜進行補全，成為了一種有效手段。並且，在學習的過程中，知識圖譜補全檢驗了模型的推理能力。如圖1所示，實線表示已有知識，虛線表示預測的新知識。可以看到，模型從已有知識（貝多芬，職業，鋼琴家）和（貝多芬，樂器，鋼琴）中歸納出可靠的規則：鋼琴家的樂器是鋼琴，再透過（Bob，職業，鋼琴家）演繹出新知識（Bob，樂器，鋼琴），對知識圖譜缺失的邊進行了補全。

圖1. 知識圖譜補全多跳推理樣例，來源於[3].

研究概況：

現有的知識圖譜補全模型大體上可分為兩種：表示學習模型和多跳推理模型。它們的區別在於是否對於新知識的預測具有可解釋性。

表示學習模型：基本思想是將實體和關係嵌入到同一表徵空間中，透過學習知識圖譜的結構資訊，對錶示向量加以限制。那麼，在判斷新知識的時候，可以直接使用對應的實體和關係向量，對三元組進行打分，分數的高低反應該條知識的正確機率。這類方法大體上又分為三種：翻譯距離模型（如TransE[4]、RotatE[5]等），矩陣分解模型（如ComplEx[6]、TuckER[7]等）以及神經網路模型（如ConvE[8]、CapsE[9]等）。

多跳推理模型：基本思想則是對於即將判定的三元組，找到等效的路徑。這樣一來，該條知識的正確機率取決於對應路徑的打分情況以及兩者在多大程度上“相等”。並且，除了可以補全三元組以外，多跳推理模型可以利用路徑作為推理的解釋。這類方法多數利用強化學習在知識圖譜上進行遊走，從而找到相關路徑，如DeepPath[10], R2D2[11], RuleGuider[12]等。

此外，類似多跳推理模型，規則挖掘方法忽略了路徑上的實體資訊，著重於挖掘“關係的關係”，即規則。利用挖掘到的規則，透過演繹也可以進行知識圖譜補全。經典方法包括AMIE+[13]和AnyBURL[14]。關於模型更細緻的分類和具體的描述，最近有很多綜述工作，可以作為參考[15,16].

下一階段研究方向：

然而，現有模型距離實際應用仍有很多不足，如在經典資料集FB15k237上只有0.51 Hit@1和187的Mean Rank[17]。這到底是什麼問題呢？是模型仍有較大的進步空間？還是評測的資料集質量不夠高？答案是兩者都有。

圖2. 知識圖譜補全資料集FB15k237的測試和訓練樣例。

一方面，現有的資料集對已有知識進行隨機劃分，得到訓練集和測試集，這樣並不能保證測試的新知識確實可以透過訓練時已有的知識得到。如圖2所示，第一個例子需要判斷David的location在哪裡，正確答案為Florida。然而，僅僅透過訓練中的相關知識—David出生於Atlanta以及他的國籍是美國，即使人類也很難做出判斷，我們又怎麼能期待AI模型做出正確的預測呢？第二個例子則展示了無意義的評測—找出一年中在訓練集中缺失的月份。針對這些問題，[18]提出了更高質量的資料集InferWiki。它滿足三個原則：（1）測試的三元組要確保由訓練集推理而來。（2）測試的知識可以是正確的，錯誤的，也可以是不確定。這大大提升了三元組分類任務的挑戰性，並更符合現實中的開放世界假設（沒見過的知識不代表是錯的，而是不確定）。（3）推理過程可以多種多樣，如不同的推理路徑長度、規則種類等。作者基於該資料集建立了評測基準，並從多個方面進行分析，給出了研究挑戰。

圖3. 知識圖譜補全多跳推理質量較低的樣例，來源於[3].

另一方面，雖然現有的模型可以進行一定程度的推理，但是並不能區分推理的好壞。這大大降低了知識驅動模型的實際意義。比如每個人都有自己的推理手段，但是高下不同（福爾摩斯的推理能力就比我們要更加嚴謹）。圖3展示了現有知識圖譜補全模型學習到的推理路徑。我們可以看到雖然它和圖1有著相似的模式，但是非常荒謬—模型從大量的相關知識中歸納出“出生於LA的人會自然死亡“，例如Jack Kemp。再進行演繹的時候，自然做出了非常可笑的預測。事實上，這種基於資料關聯的荒謬的預測錯誤隨處可見，包括大規模預訓練模型GPT-3同樣也會對問題“我的腳有幾隻眼睛？”，生成可笑的答案“兩隻”。針對這一問題，[3]提出了對多跳推理模型的推理質量和解釋性進行評測。它提供了上萬條人工標註的規則對推理路徑的合理性及可解釋性進行自動化的評估。

參考文獻

[1] Vrandečić D, Krötzsch M. Wikidata: a free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85.

[2] Tanon T P, Weikum G, Suchanek F. Yago 4: A reason-able knowledge base[C]//European Semantic Web Conference. Springer, Cham, 2020: 583-596.

[3] Lv X, Cao Y, Hou L, et al. Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking Reasoning Interpretability[J]. arXiv preprint arXiv:2104.06751, 2021.

[4] Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[J]. Advances in neural information processing systems, 2013, 26.

[5] Sun Z, Deng Z H, Nie J Y, et al. Rotate: Knowledge graph embedding by relational rotation in complex space[J]. arXiv preprint arXiv:1902.10197, 2019.

[6] Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//International conference on machine learning. PMLR, 2016: 2071-2080.

[7] Balažević I, Allen C, Hospedales T M. Tucker: Tensor factorization for knowledge graph completion[J]. arXiv preprint arXiv:1901.09590, 2019.

[8] Dettmers T, Minervini P, Stenetorp P, et al. Convolutional 2d knowledge graph embeddings[C]//Thirty-second AAAI conference on artificial intelligence. 2018.

[9] Vu T, Nguyen T D, Nguyen D Q, et al. A capsule network-based embedding model for knowledge graph completion and search personalization[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 2180-2189.

[10] Xiong W, Hoang T, Wang W Y. Deeppath: A reinforcement learning method for knowledge graph reasoning[J]. arXiv preprint arXiv:1707.06690, 2017.

[11] Hildebrandt M, Serna J A Q, Ma Y, et al. Reasoning on knowledge graphs with debate dynamics[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(04): 4123-4131.

[12] Lei D, Jiang G, Gu X, et al. Learning Collaborative Agents with Rule Guidance for Knowledge Graph Reasoning[J]. arXiv preprint arXiv:2005.00571, 2020.

[13] Galárraga L, Teflioudi C, Hose K, et al. Fast rule mining in ontological knowledge bases with AMIE $$+ $$+[J]. The VLDB Journal, 2015, 24(6): 707-730.

[14] Meilicke C, Chekol M W, Ruffinelli D, et al. Anytime Bottom-Up Rule Learning for Knowledge Graph Completion[C]//IJCAI. 2019: 3137-3143.

[15] Wang Q, Mao Z, Wang B, et al. Knowledge graph embedding: A survey of approaches and applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2724-2743.

[16] Rossi A, Barbosa D, Firmani D, et al. Knowledge graph embedding for link prediction: A comparative analysis[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2021, 15(2): 1-49.

[17] Wang R, Li B, Hu S, et al. Knowledge graph embedding via graph attenuated attention networks[J]. IEEE Access, 2019, 8: 5212-5224.

[18] Cao Y, Ji X, Lv X, et al. Are Missing Links Predictable? An Inferential Benchmark for Knowledge Graph Completion[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). 2021: 6855-6865.

術語工委及術語平臺介紹：

計算機術語審定委員會(Committee on Terminology)主要職能為收集、翻譯、釋義、審定和推薦計算機新詞，並在CCF平臺上宣傳推廣。這對釐清學科體系，開展科學研究，並將科學和知識在全社會廣泛傳播，都具有十分重要的意義。

術語眾包平臺CCFpedia的建設和持續最佳化，可以有效推進中國計算機術語的收集、審定、規範和傳播工作，同時又能起到各領域規範化標準定製的推廣作用。

新版的CCFpedia計算機術語平臺(http://term.ccf.org.cn)將術語的編輯運營與瀏覽使用進行了整合，摒棄老版中跨平臺操作的繁瑣步驟，在介面可觀性上進行了升級，讓使用者能夠簡單方便地查閱術語資訊。同時，新版平臺中引入知識圖譜的方式對所有術語資料進行組織，透過圖譜多層關聯的形式升級了術語瀏覽的應用形態。