》政策和國防科技工業(yè)發(fā)展戰(zhàn)略。平臺充分利用大數據、人工智能等先進技術和手段,為優(yōu)勢民企提供精準的技術支持、項目對接、市場信息等服務,為科研機構的成果轉化、軍轉民提供市場和資金通道">
知識圖譜,目前已在全世界得到了重視和應用,成為當下人工智能熱的一個重要組成部分。它究竟是怎樣的一種技術?它的應用場景在哪里?未來國內企業(yè)該如何發(fā)展?讓我們一起來聊聊。
從知識圖譜技術的起源聊起
什么是知識圖譜?
知識圖譜在學界存在各種不同的定義。
按照維基百科的解釋,知識圖譜是谷歌公司用來從語義角度組織數據、更好地進行信息的采集、標引和搜索服務的知識庫。而知識庫則是一種便于對知識進行組織和管理的特殊的數據庫。
我們認為,目前學界和工業(yè)界對知識圖譜概念的理解較為零亂。有時它指具體的知識庫,有時它指這類知識庫所使用的標簽體系和組織框架,也就是“本體(ontology)”。為區(qū)別起見,我們在本文中采用后一種理解,凡提到“知識圖譜”時,均指知識庫使用的標簽體系和組織框架,而在談到在這種框架下建立的具體知識庫的時候,我們則會根據情況把它們稱為“實體知識庫”、“領域知識庫”等。
知識圖譜之所以在當下受到青睞,主要是由于它的這樣幾個特點:
——它提供了組織知識的基本構件,語義表達能力足夠豐富,可以把觸角伸進各行各業(yè),便于基于領域知識應用落地。
——它提供了基于XML的半結構化、標簽化表達方式,使得構件的外在形式得以統(tǒng)一,相應的配套處理工具在形式統(tǒng)一的基礎上更加聚焦和通用。
——它提供了本質上是圖(graph)的基礎數據結構,結合圖數據庫技術的最新進展,在面向這套基礎數據結構的搜索、漫游、遍歷、傳播以及可視化等方面形成了一整套配套技術和工具集合,為大規(guī)模跨知識單元的應用開辟了新途徑。
知識圖譜技術的沿革簡介
雖然知識圖譜的概念是谷歌提出來的,但這一概念的沿革卻有著不短的歷史。
知識圖譜的最早前身是作為自然語言語義知識表示工具的“語義網絡(semantic networks)”。早期的語義網絡只存在于論文里,后來悄悄進入工程。隨著人們對自然語言語義認識的深入,以及語言資源建設的扎實推進,自然語言語義知識表示進入了“本體(ontology)”階段。國內外著名的語義本體包括WordNet和HowNet,后者即我國著名計算語言學家董振東先生開發(fā)的“知網”。
Ontology這一概念不僅在自然語言語義表示領域,也在知識工程和信息檢索等領域有所推進。除了領域無關的語言學知識本體,也有大量的領域相關的本體問世。本體作為領域共享的知識組織框架,在許多行業(yè)都有推進的嘗試,但由于缺乏共同標準和頂層設計,這方面工作進展并不理想。
一個標志性的轉折點就是語義網(Semantic Web)的提出。這個概念的中文翻譯和上面提到的語義網絡雖然僅僅一字之差,但其內在含義的差別其實非常之大。語義網的想法是,與信息資源發(fā)布同步,用一套有語義深度的標簽體系把信息資源組織起來,這樣對信息的查詢檢索就可以利用標簽的語義深度達到更高的精準度。這一轉折,帶有語義網和萬維網的共同發(fā)明人Tim Berners Lee的一貫風格,并通過W3C組織扎扎實實的推進工作,逐漸形成了一整套技術體系。等到谷歌公司提出“知識圖譜”的概念之時,這套技術體系已經非常成熟,雖然基于知識圖譜的搜索服務還有待進一步建設,但知識圖譜本身一定程度上已經可以脫離依附于信息資源的“標簽體系”的從屬地位,獨立發(fā)展了。
由此可見,知識圖譜技術的發(fā)展是有很深的歷史淵源的,它源于自然語言的語義知識表示,經歷互聯(lián)網信息服務不斷深化的需求洗禮,現(xiàn)在已經成為互聯(lián)網知識服務的核心工具了。
知識圖譜的關聯(lián)技術群
知識圖譜技術不是孤立的。圍繞知識圖譜作為知識表示和組織框架這個核心,已經形成了一個關聯(lián)技術群。我們在此擇其要者,略作介紹。
圖譜發(fā)現(xiàn)
知識圖譜技術的成功落地,離不開知識圖譜最核心的標簽體系構建,而長期以來,這個構建過程只能靠人工來完成。為了加速知識基礎設施的建設,提高知識圖譜的構建效率,自動化構建知識圖譜就顯得格外迫切。
各種通過外部信息源獲取標簽體系、構建知識圖譜的技術當中,利用在線百科全書構建知識圖譜的嘗試被證明在一定程度上是有效的。維基百科作為最有影響的在線百科全書,通過眾包模式凝結了大量志愿者的智慧,具備了用于獲取標簽體系的初步條件。當然,這樣獲取來的標簽體系仍然要通過人類專家的人工清洗和確認,才能具有專業(yè)權威性。但是隨著圖譜發(fā)現(xiàn)過程自動化程度的提高,由此獲取標簽體系的效率和質量也都有所提高。
信息抽取
按本文最初約定的理解,知識圖譜只是作為領域知識組織框架的標簽體系。真正的具體的知識,需要在這個框架下逐條收錄進“實體知識庫”。一些不嚴格的表述把實體知識庫的構建等同于知識圖譜的構建。其實這是不小的區(qū)別。構建所使用的技術也完全不同。
構建實體知識庫所使用的核心技術是“信息抽?。↖nformation Extraction,簡稱IE)”。信息抽取是根據需要從輸入文本中摘取特定部分,用以填充預先設定的抽取模板中空白槽位的過程。這一過程中,要用到一定層次的自然語言處理(NLP)技術。知識圖譜的標簽結構表達力越豐富,就越能容納深層自然語言處理的成果。
信息抽取的應用場景有兩類。一類是在線過濾,即只填充少數被預設條件激活的模板,一切與此無關的信息都被丟棄。另一類是實體知識庫建設,即不管三七二十一,能入庫的信息就先抽取入庫,以備今后之用。隨著大數據分析處理基礎設施的不斷完善,今天已經有能力進行大體量的實體知識庫建設。
情感分析
依托知識圖譜,可以進行有深度的情感分析。在知識圖譜的結構制導之下,對實體的情感評價可以進一步分解為對實體的組成部分和特征屬性的情感評價。比如,針對一款電腦產品,就可以從客戶的投訴和調查問卷反饋中抽取出針對電腦的主頻、硬盤、屏幕、散熱、外形、手感、重量、電池壽命等多個側面的評價,從而更加精準地改進產品質量及用戶體驗。如今,知識圖譜與情感分析相伴而行已經是很多輿情類產品和服務平臺的標配。
復雜網絡分析
知識圖譜的一大特點就是其網狀的圖結構。通過知識圖譜的組織形成的實體數據庫,會呈現(xiàn)出一種復雜的關聯(lián)結構。利用近年來發(fā)展迅猛的圖算法、圖數據庫技術,對大型實體數據庫進行復雜網絡分析,會得到很有價值的宏觀互聯(lián)特征。如果實體是個人,那么復雜網絡分析就會得到人群的社交拓撲特征。如果實體是公司,那么復雜網絡分析就會得到公司間的產業(yè)鏈對接拓撲特征。把人和公司都納入復雜網絡,又可以得到更進一步的分析結果。
自動推理
靜態(tài)的知識固然已有其應用價值,但是知識本身可以推導出更多的知識,知識可以在一定程度上預測未來,這些都離不開推理。依托于知識圖譜的自動推理,既不同于傳統(tǒng)那種孤立專家系統(tǒng)的自動推理,也不同于沒有推理功能的直接基于字面答案的知識服務。知識圖譜為自動推理準備了現(xiàn)成的通道。
比如,“克林頓的夫人是從哪所大學畢業(yè)的”這樣的問題,就可以通過用知識圖譜組織起來的實體知識庫,從“克林頓”的實體條目找到其“夫人”,再從夫人的實體條目找到其畢業(yè)的大學。通過這種順著知識圖譜結構在實體之間的“跳躍”,就可以完成字面上不曾提供的知識服務。
當然,更復雜的自動推理,比如醫(yī)學上的診斷推理和經濟上的產業(yè)鏈推理,所使用的模型比上述順著結構“跳躍”的推理方式更加復雜。正因為這樣,號稱能依托知識圖譜做好復雜自動推理的平臺,具有重大的商業(yè)價值,受到資本的青睞。
命名實體消岐
命名實體消岐技術解決的是實踐中經常遇到的“重名”問題。在建設實體知識庫時,實體的同一性不能以人名為唯一標識,因為重名的干擾將使實體數據庫嚴重失實。
解決命名實體消岐問題需要對命名實體出現(xiàn)的上下文做進一步的分析,找出實體同一性的特征,利用特征進行識別。
從以上分析可以看出:在這一波Fintech大潮中,知識圖譜的應用價值格外引人關注。關注的深層原因是:隨著人工智能走到臺前,人們越來越認識到,場景才是盤活存量數據、吸附和創(chuàng)造增量數據,最終產生更加強大智能的核心。數據驅動的人工智能正在朝著場景驅動的人工智能發(fā)展。如果要用數字化給一個行業(yè)賦能,那么機器首先要理解這個行業(yè),而理解這個行業(yè)的最直接的表現(xiàn)就是能夠玩轉這個行業(yè)的知識圖譜。所以,知識圖譜,就是場景的骨架和靈魂,是把更多行業(yè)知識、領域知識轉化為數字化生產力的知識基礎設施。
知識圖譜的應用場景在哪里?
客戶畫像
一個金融機構對自身客戶的全面了解,是對客戶開展更加貼心的個性化服務的前提,也是很多金融科技創(chuàng)新得以推進的基礎性工作。利用知識圖譜進行客戶畫像,其實就是把客戶畫像的必備要素條理化、標準化、結構化、動態(tài)化的過程。證券公司、基金公司、期貨公司、信托公司、銀行,都有這方面的需求。
資訊整合
資訊整合是資本市場信息服務商面臨的共性問題。所謂資訊整合,就是利用多渠道來源、多種數據格式的碎片化信息協(xié)同作用、互相補充,最后得出一幅全景圖的過程。這種技術主要被用在情報分析領域,但資本市場也有類似的需求。比如,對并購重組意向的早期預警,對上市公司業(yè)績疑點的多方求證,對未披露的實際控制人身份的鎖定等等。
產業(yè)鏈建模
產業(yè)鏈建模能力是分析師的核心競爭力之一。在業(yè)內,產業(yè)鏈數據模型被視為“不傳之秘”,裝在有行業(yè)研究經驗的研究員頭腦中。往往一人跳槽導致一個行業(yè)方向垮掉。這種故事在人工智能高度發(fā)達的年代不應該再繼續(xù)了。
知識圖譜對于產業(yè)鏈建模的意義,似乎有被高估的傾向。實事求是地說,靜態(tài)知識圖譜,即不含推理、演化和復雜作用鏈傳導的領域/行業(yè)知識庫,對于加強投研團隊的知識管理和核心競爭力傳承,甚至工作效率的提高,都是有正面意義的。但是把這拔高成人工智能可以預測蝴蝶效應,可以讓分析師下崗,從筆者的經驗看來完全是夸大其詞。業(yè)內的探索表明,在利用動態(tài)知識圖譜進行源頭事件沿產業(yè)鏈的影響傳播擴散效應模擬方面,目前只有短推理具有接近實用的水平,長推理的可控性、通用性、魯棒性表現(xiàn)還遠未符合預期。
知識圖譜在產業(yè)鏈建模中的應用場景包括:業(yè)績預測、概念股提取、突發(fā)事件影響分析等等。以知識圖譜為基礎進行人機對話式的實時行情技術分析和基本面分析,對知識圖譜和自然語言處理方面的技術積累都有很高的要求,目前還鮮有看到成功案例。最近,哈工大NLP團隊推出了“事理圖譜”技術,試圖把面向事件的作用鏈傳播機制跟面向實體-靜態(tài)關系的知識圖譜相區(qū)別并模擬其獨有的傳播推理機制,這個動向很值得關注。可短暫觀察一個時期,遇到合適的案例和進展再跟進。
教育與培訓
教育和培訓雖然不是資本市場的主業(yè),但卻是資本市場的剛需。面向各類投資者的培訓課程五花八門、此起彼伏。教育培訓的手段正在朝著智能化、個性化的方向快速發(fā)展。實現(xiàn)教育培訓手段智能化、個性化的一個直接的技術途徑,就是使用知識圖譜對培訓課程的知識點、練習和考試題庫的知識點以及學員對知識點的掌握狀況一體化建模,通過模型揭示出來的差距來快速形成個性化教案,高度針對性地做到因材施教。
目前來看,企業(yè)要想達到共生均衡點生態(tài),未來還需要不斷提高生產效率,努力擁抱共贏的結局。