近日,在國際頂級圖學習標準OGB(Open Graph Benchmark)挑戰賽中,第四范式憑借AutoML(自動機器學習)技術,在與斯坦福大學、康奈爾大學、Facebook、阿里巴巴等國際頂尖高校與科技巨頭同場競技中脫穎而出,以較大優勢斬獲ogbl-biokg、ogbl-wikikg2兩項任務榜單第一。
近年來,知識圖譜因可挖掘實體之間的潛在關系、提供更高效的搜索結果,被廣泛應用在智能搜索、智能問答、社交網絡、金融風控等諸多行業應用中。作為知識圖譜領域重要的技術手段,圖學習已成為機器學習重要的研究領域之一,受到了學術界和工業界的廣泛關注。
OGB是目前公認的圖學習基準數據集代表,由斯坦福大學Jure Leskovec教授團隊建立,于2019年國際頂級學術會議NeurIPS上正式開源。其囊括了節點性質預測、邊性質鏈接預測、圖性質預測等知識圖譜領域眾多權威賽題,以質量高、規模大、場景復雜、難度高著稱,素有知識圖譜領域“ImageNet”之稱,成為眾多科技巨頭、科研院所和高校團隊試驗技術成色的試金石。
此次,第四范式參與了ogbl-biokg、ogbl-wikikg2兩項數據量龐大且極具業務價值的知識圖譜鏈接預測任務,均在處理嘈雜、不完整知識圖譜等方面挑戰巨大。其中,ogbl-biokg包含多個海量生物醫學知識庫,構成了500多萬個三元組(實體-關系-實體、實體-屬性-屬性值),在藥物屬性預測及生物醫學研究方面具有重要意義。ogbl-wikikg2來源于Wikidata知識庫,需要在1700多萬個事實三元組中精準預測實體間的潛在關系,可有效提升推薦系統、智能問答等場景應用效果。
為了精準理解數據集中復雜語義信息、挖掘潛在關系,業界通常以評分函數(SF)作為衡量知識圖譜中三元組可編程性的重要指標,但現有評分函數設計僅專注于某一類語義模型,無法應對實際應用中千變萬化的知識圖譜任務場景。
受AutoML啟發,第四范式本次采用AutoSF(自動評分函數)參賽,通過理解生物醫學、維基百科等復雜知識圖譜中的不同語義信息,設計出更符合場景認知特性的評分函數,實現在對應任務上的性能突破。同時,AutoSF設計的評分函數可高效利用模型參數,在具有更小模型復雜度的基礎上,預測性能位居第一,以較大優勢超過PairRE、TransE、ComplEx、RotatE等其他知名評分函數。