》政策和國(guó)防科技工業(yè)發(fā)展戰(zhàn)略。平臺(tái)充分利用大數(shù)據(jù)、人工智能等先進(jìn)技術(shù)和手段,為優(yōu)勢(shì)民企提供精準(zhǔn)的技術(shù)支持、項(xiàng)目對(duì)接、市場(chǎng)信息等服務(wù),為科研機(jī)構(gòu)的成果轉(zhuǎn)化、軍轉(zhuǎn)民提供市場(chǎng)和資金通道">
知識(shí)圖譜,目前已在全世界得到了重視和應(yīng)用,成為當(dāng)下人工智能熱的一個(gè)重要組成部分。它究竟是怎樣的一種技術(shù)?它的應(yīng)用場(chǎng)景在哪里?未來(lái)國(guó)內(nèi)企業(yè)該如何發(fā)展?讓我們一起來(lái)聊聊。
從知識(shí)圖譜技術(shù)的起源聊起
什么是知識(shí)圖譜?
知識(shí)圖譜在學(xué)界存在各種不同的定義。
按照維基百科的解釋?zhuān)R(shí)圖譜是谷歌公司用來(lái)從語(yǔ)義角度組織數(shù)據(jù)、更好地進(jìn)行信息的采集、標(biāo)引和搜索服務(wù)的知識(shí)庫(kù)。而知識(shí)庫(kù)則是一種便于對(duì)知識(shí)進(jìn)行組織和管理的特殊的數(shù)據(jù)庫(kù)。
我們認(rèn)為,目前學(xué)界和工業(yè)界對(duì)知識(shí)圖譜概念的理解較為零亂。有時(shí)它指具體的知識(shí)庫(kù),有時(shí)它指這類(lèi)知識(shí)庫(kù)所使用的標(biāo)簽體系和組織框架,也就是“本體(ontology)”。為區(qū)別起見(jiàn),我們?cè)诒疚闹胁捎煤笠环N理解,凡提到“知識(shí)圖譜”時(shí),均指知識(shí)庫(kù)使用的標(biāo)簽體系和組織框架,而在談到在這種框架下建立的具體知識(shí)庫(kù)的時(shí)候,我們則會(huì)根據(jù)情況把它們稱(chēng)為“實(shí)體知識(shí)庫(kù)”、“領(lǐng)域知識(shí)庫(kù)”等。
知識(shí)圖譜之所以在當(dāng)下受到青睞,主要是由于它的這樣幾個(gè)特點(diǎn):
——它提供了組織知識(shí)的基本構(gòu)件,語(yǔ)義表達(dá)能力足夠豐富,可以把觸角伸進(jìn)各行各業(yè),便于基于領(lǐng)域知識(shí)應(yīng)用落地。
——它提供了基于XML的半結(jié)構(gòu)化、標(biāo)簽化表達(dá)方式,使得構(gòu)件的外在形式得以統(tǒng)一,相應(yīng)的配套處理工具在形式統(tǒng)一的基礎(chǔ)上更加聚焦和通用。
——它提供了本質(zhì)上是圖(graph)的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),結(jié)合圖數(shù)據(jù)庫(kù)技術(shù)的最新進(jìn)展,在面向這套基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)的搜索、漫游、遍歷、傳播以及可視化等方面形成了一整套配套技術(shù)和工具集合,為大規(guī)模跨知識(shí)單元的應(yīng)用開(kāi)辟了新途徑。
知識(shí)圖譜技術(shù)的沿革簡(jiǎn)介
雖然知識(shí)圖譜的概念是谷歌提出來(lái)的,但這一概念的沿革卻有著不短的歷史。
知識(shí)圖譜的最早前身是作為自然語(yǔ)言語(yǔ)義知識(shí)表示工具的“語(yǔ)義網(wǎng)絡(luò)(semantic networks)”。早期的語(yǔ)義網(wǎng)絡(luò)只存在于論文里,后來(lái)悄悄進(jìn)入工程。隨著人們對(duì)自然語(yǔ)言語(yǔ)義認(rèn)識(shí)的深入,以及語(yǔ)言資源建設(shè)的扎實(shí)推進(jìn),自然語(yǔ)言語(yǔ)義知識(shí)表示進(jìn)入了“本體(ontology)”階段。國(guó)內(nèi)外著名的語(yǔ)義本體包括WordNet和HowNet,后者即我國(guó)著名計(jì)算語(yǔ)言學(xué)家董振東先生開(kāi)發(fā)的“知網(wǎng)”。
Ontology這一概念不僅在自然語(yǔ)言語(yǔ)義表示領(lǐng)域,也在知識(shí)工程和信息檢索等領(lǐng)域有所推進(jìn)。除了領(lǐng)域無(wú)關(guān)的語(yǔ)言學(xué)知識(shí)本體,也有大量的領(lǐng)域相關(guān)的本體問(wèn)世。本體作為領(lǐng)域共享的知識(shí)組織框架,在許多行業(yè)都有推進(jìn)的嘗試,但由于缺乏共同標(biāo)準(zhǔn)和頂層設(shè)計(jì),這方面工作進(jìn)展并不理想。
一個(gè)標(biāo)志性的轉(zhuǎn)折點(diǎn)就是語(yǔ)義網(wǎng)(Semantic Web)的提出。這個(gè)概念的中文翻譯和上面提到的語(yǔ)義網(wǎng)絡(luò)雖然僅僅一字之差,但其內(nèi)在含義的差別其實(shí)非常之大。語(yǔ)義網(wǎng)的想法是,與信息資源發(fā)布同步,用一套有語(yǔ)義深度的標(biāo)簽體系把信息資源組織起來(lái),這樣對(duì)信息的查詢(xún)檢索就可以利用標(biāo)簽的語(yǔ)義深度達(dá)到更高的精準(zhǔn)度。這一轉(zhuǎn)折,帶有語(yǔ)義網(wǎng)和萬(wàn)維網(wǎng)的共同發(fā)明人Tim Berners Lee的一貫風(fēng)格,并通過(guò)W3C組織扎扎實(shí)實(shí)的推進(jìn)工作,逐漸形成了一整套技術(shù)體系。等到谷歌公司提出“知識(shí)圖譜”的概念之時(shí),這套技術(shù)體系已經(jīng)非常成熟,雖然基于知識(shí)圖譜的搜索服務(wù)還有待進(jìn)一步建設(shè),但知識(shí)圖譜本身一定程度上已經(jīng)可以脫離依附于信息資源的“標(biāo)簽體系”的從屬地位,獨(dú)立發(fā)展了。
由此可見(jiàn),知識(shí)圖譜技術(shù)的發(fā)展是有很深的歷史淵源的,它源于自然語(yǔ)言的語(yǔ)義知識(shí)表示,經(jīng)歷互聯(lián)網(wǎng)信息服務(wù)不斷深化的需求洗禮,現(xiàn)在已經(jīng)成為互聯(lián)網(wǎng)知識(shí)服務(wù)的核心工具了。
知識(shí)圖譜的關(guān)聯(lián)技術(shù)群
知識(shí)圖譜技術(shù)不是孤立的。圍繞知識(shí)圖譜作為知識(shí)表示和組織框架這個(gè)核心,已經(jīng)形成了一個(gè)關(guān)聯(lián)技術(shù)群。我們?cè)诖藫衿湟撸宰鹘榻B。
圖譜發(fā)現(xiàn)
知識(shí)圖譜技術(shù)的成功落地,離不開(kāi)知識(shí)圖譜最核心的標(biāo)簽體系構(gòu)建,而長(zhǎng)期以來(lái),這個(gè)構(gòu)建過(guò)程只能靠人工來(lái)完成。為了加速知識(shí)基礎(chǔ)設(shè)施的建設(shè),提高知識(shí)圖譜的構(gòu)建效率,自動(dòng)化構(gòu)建知識(shí)圖譜就顯得格外迫切。
各種通過(guò)外部信息源獲取標(biāo)簽體系、構(gòu)建知識(shí)圖譜的技術(shù)當(dāng)中,利用在線(xiàn)百科全書(shū)構(gòu)建知識(shí)圖譜的嘗試被證明在一定程度上是有效的。維基百科作為最有影響的在線(xiàn)百科全書(shū),通過(guò)眾包模式凝結(jié)了大量志愿者的智慧,具備了用于獲取標(biāo)簽體系的初步條件。當(dāng)然,這樣獲取來(lái)的標(biāo)簽體系仍然要通過(guò)人類(lèi)專(zhuān)家的人工清洗和確認(rèn),才能具有專(zhuān)業(yè)權(quán)威性。但是隨著圖譜發(fā)現(xiàn)過(guò)程自動(dòng)化程度的提高,由此獲取標(biāo)簽體系的效率和質(zhì)量也都有所提高。
信息抽取
按本文最初約定的理解,知識(shí)圖譜只是作為領(lǐng)域知識(shí)組織框架的標(biāo)簽體系。真正的具體的知識(shí),需要在這個(gè)框架下逐條收錄進(jìn)“實(shí)體知識(shí)庫(kù)”。一些不嚴(yán)格的表述把實(shí)體知識(shí)庫(kù)的構(gòu)建等同于知識(shí)圖譜的構(gòu)建。其實(shí)這是不小的區(qū)別。構(gòu)建所使用的技術(shù)也完全不同。
構(gòu)建實(shí)體知識(shí)庫(kù)所使用的核心技術(shù)是“信息抽?。↖nformation Extraction,簡(jiǎn)稱(chēng)IE)”。信息抽取是根據(jù)需要從輸入文本中摘取特定部分,用以填充預(yù)先設(shè)定的抽取模板中空白槽位的過(guò)程。這一過(guò)程中,要用到一定層次的自然語(yǔ)言處理(NLP)技術(shù)。知識(shí)圖譜的標(biāo)簽結(jié)構(gòu)表達(dá)力越豐富,就越能容納深層自然語(yǔ)言處理的成果。
信息抽取的應(yīng)用場(chǎng)景有兩類(lèi)。一類(lèi)是在線(xiàn)過(guò)濾,即只填充少數(shù)被預(yù)設(shè)條件激活的模板,一切與此無(wú)關(guān)的信息都被丟棄。另一類(lèi)是實(shí)體知識(shí)庫(kù)建設(shè),即不管三七二十一,能入庫(kù)的信息就先抽取入庫(kù),以備今后之用。隨著大數(shù)據(jù)分析處理基礎(chǔ)設(shè)施的不斷完善,今天已經(jīng)有能力進(jìn)行大體量的實(shí)體知識(shí)庫(kù)建設(shè)。
情感分析
依托知識(shí)圖譜,可以進(jìn)行有深度的情感分析。在知識(shí)圖譜的結(jié)構(gòu)制導(dǎo)之下,對(duì)實(shí)體的情感評(píng)價(jià)可以進(jìn)一步分解為對(duì)實(shí)體的組成部分和特征屬性的情感評(píng)價(jià)。比如,針對(duì)一款電腦產(chǎn)品,就可以從客戶(hù)的投訴和調(diào)查問(wèn)卷反饋中抽取出針對(duì)電腦的主頻、硬盤(pán)、屏幕、散熱、外形、手感、重量、電池壽命等多個(gè)側(cè)面的評(píng)價(jià),從而更加精準(zhǔn)地改進(jìn)產(chǎn)品質(zhì)量及用戶(hù)體驗(yàn)。如今,知識(shí)圖譜與情感分析相伴而行已經(jīng)是很多輿情類(lèi)產(chǎn)品和服務(wù)平臺(tái)的標(biāo)配。
復(fù)雜網(wǎng)絡(luò)分析
知識(shí)圖譜的一大特點(diǎn)就是其網(wǎng)狀的圖結(jié)構(gòu)。通過(guò)知識(shí)圖譜的組織形成的實(shí)體數(shù)據(jù)庫(kù),會(huì)呈現(xiàn)出一種復(fù)雜的關(guān)聯(lián)結(jié)構(gòu)。利用近年來(lái)發(fā)展迅猛的圖算法、圖數(shù)據(jù)庫(kù)技術(shù),對(duì)大型實(shí)體數(shù)據(jù)庫(kù)進(jìn)行復(fù)雜網(wǎng)絡(luò)分析,會(huì)得到很有價(jià)值的宏觀互聯(lián)特征。如果實(shí)體是個(gè)人,那么復(fù)雜網(wǎng)絡(luò)分析就會(huì)得到人群的社交拓?fù)涮卣鳌H绻麑?shí)體是公司,那么復(fù)雜網(wǎng)絡(luò)分析就會(huì)得到公司間的產(chǎn)業(yè)鏈對(duì)接拓?fù)涮卣?。把人和公司都納入復(fù)雜網(wǎng)絡(luò),又可以得到更進(jìn)一步的分析結(jié)果。
自動(dòng)推理
靜態(tài)的知識(shí)固然已有其應(yīng)用價(jià)值,但是知識(shí)本身可以推導(dǎo)出更多的知識(shí),知識(shí)可以在一定程度上預(yù)測(cè)未來(lái),這些都離不開(kāi)推理。依托于知識(shí)圖譜的自動(dòng)推理,既不同于傳統(tǒng)那種孤立專(zhuān)家系統(tǒng)的自動(dòng)推理,也不同于沒(méi)有推理功能的直接基于字面答案的知識(shí)服務(wù)。知識(shí)圖譜為自動(dòng)推理準(zhǔn)備了現(xiàn)成的通道。
比如,“克林頓的夫人是從哪所大學(xué)畢業(yè)的”這樣的問(wèn)題,就可以通過(guò)用知識(shí)圖譜組織起來(lái)的實(shí)體知識(shí)庫(kù),從“克林頓”的實(shí)體條目找到其“夫人”,再?gòu)姆蛉说膶?shí)體條目找到其畢業(yè)的大學(xué)。通過(guò)這種順著知識(shí)圖譜結(jié)構(gòu)在實(shí)體之間的“跳躍”,就可以完成字面上不曾提供的知識(shí)服務(wù)。
當(dāng)然,更復(fù)雜的自動(dòng)推理,比如醫(yī)學(xué)上的診斷推理和經(jīng)濟(jì)上的產(chǎn)業(yè)鏈推理,所使用的模型比上述順著結(jié)構(gòu)“跳躍”的推理方式更加復(fù)雜。正因?yàn)檫@樣,號(hào)稱(chēng)能依托知識(shí)圖譜做好復(fù)雜自動(dòng)推理的平臺(tái),具有重大的商業(yè)價(jià)值,受到資本的青睞。
命名實(shí)體消岐
命名實(shí)體消岐技術(shù)解決的是實(shí)踐中經(jīng)常遇到的“重名”問(wèn)題。在建設(shè)實(shí)體知識(shí)庫(kù)時(shí),實(shí)體的同一性不能以人名為唯一標(biāo)識(shí),因?yàn)橹孛母蓴_將使實(shí)體數(shù)據(jù)庫(kù)嚴(yán)重失實(shí)。
解決命名實(shí)體消岐問(wèn)題需要對(duì)命名實(shí)體出現(xiàn)的上下文做進(jìn)一步的分析,找出實(shí)體同一性的特征,利用特征進(jìn)行識(shí)別。
從以上分析可以看出:在這一波Fintech大潮中,知識(shí)圖譜的應(yīng)用價(jià)值格外引人關(guān)注。關(guān)注的深層原因是:隨著人工智能走到臺(tái)前,人們?cè)絹?lái)越認(rèn)識(shí)到,場(chǎng)景才是盤(pán)活存量數(shù)據(jù)、吸附和創(chuàng)造增量數(shù)據(jù),最終產(chǎn)生更加強(qiáng)大智能的核心。數(shù)據(jù)驅(qū)動(dòng)的人工智能正在朝著場(chǎng)景驅(qū)動(dòng)的人工智能發(fā)展。如果要用數(shù)字化給一個(gè)行業(yè)賦能,那么機(jī)器首先要理解這個(gè)行業(yè),而理解這個(gè)行業(yè)的最直接的表現(xiàn)就是能夠玩轉(zhuǎn)這個(gè)行業(yè)的知識(shí)圖譜。所以,知識(shí)圖譜,就是場(chǎng)景的骨架和靈魂,是把更多行業(yè)知識(shí)、領(lǐng)域知識(shí)轉(zhuǎn)化為數(shù)字化生產(chǎn)力的知識(shí)基礎(chǔ)設(shè)施。
知識(shí)圖譜的應(yīng)用場(chǎng)景在哪里?
客戶(hù)畫(huà)像
一個(gè)金融機(jī)構(gòu)對(duì)自身客戶(hù)的全面了解,是對(duì)客戶(hù)開(kāi)展更加貼心的個(gè)性化服務(wù)的前提,也是很多金融科技創(chuàng)新得以推進(jìn)的基礎(chǔ)性工作。利用知識(shí)圖譜進(jìn)行客戶(hù)畫(huà)像,其實(shí)就是把客戶(hù)畫(huà)像的必備要素條理化、標(biāo)準(zhǔn)化、結(jié)構(gòu)化、動(dòng)態(tài)化的過(guò)程。證券公司、基金公司、期貨公司、信托公司、銀行,都有這方面的需求。
資訊整合
資訊整合是資本市場(chǎng)信息服務(wù)商面臨的共性問(wèn)題。所謂資訊整合,就是利用多渠道來(lái)源、多種數(shù)據(jù)格式的碎片化信息協(xié)同作用、互相補(bǔ)充,最后得出一幅全景圖的過(guò)程。這種技術(shù)主要被用在情報(bào)分析領(lǐng)域,但資本市場(chǎng)也有類(lèi)似的需求。比如,對(duì)并購(gòu)重組意向的早期預(yù)警,對(duì)上市公司業(yè)績(jī)疑點(diǎn)的多方求證,對(duì)未披露的實(shí)際控制人身份的鎖定等等。
產(chǎn)業(yè)鏈建模
產(chǎn)業(yè)鏈建模能力是分析師的核心競(jìng)爭(zhēng)力之一。在業(yè)內(nèi),產(chǎn)業(yè)鏈數(shù)據(jù)模型被視為“不傳之秘”,裝在有行業(yè)研究經(jīng)驗(yàn)的研究員頭腦中。往往一人跳槽導(dǎo)致一個(gè)行業(yè)方向垮掉。這種故事在人工智能高度發(fā)達(dá)的年代不應(yīng)該再繼續(xù)了。
知識(shí)圖譜對(duì)于產(chǎn)業(yè)鏈建模的意義,似乎有被高估的傾向。實(shí)事求是地說(shuō),靜態(tài)知識(shí)圖譜,即不含推理、演化和復(fù)雜作用鏈傳導(dǎo)的領(lǐng)域/行業(yè)知識(shí)庫(kù),對(duì)于加強(qiáng)投研團(tuán)隊(duì)的知識(shí)管理和核心競(jìng)爭(zhēng)力傳承,甚至工作效率的提高,都是有正面意義的。但是把這拔高成人工智能可以預(yù)測(cè)蝴蝶效應(yīng),可以讓分析師下崗,從筆者的經(jīng)驗(yàn)看來(lái)完全是夸大其詞。業(yè)內(nèi)的探索表明,在利用動(dòng)態(tài)知識(shí)圖譜進(jìn)行源頭事件沿產(chǎn)業(yè)鏈的影響傳播擴(kuò)散效應(yīng)模擬方面,目前只有短推理具有接近實(shí)用的水平,長(zhǎng)推理的可控性、通用性、魯棒性表現(xiàn)還遠(yuǎn)未符合預(yù)期。
知識(shí)圖譜在產(chǎn)業(yè)鏈建模中的應(yīng)用場(chǎng)景包括:業(yè)績(jī)預(yù)測(cè)、概念股提取、突發(fā)事件影響分析等等。以知識(shí)圖譜為基礎(chǔ)進(jìn)行人機(jī)對(duì)話(huà)式的實(shí)時(shí)行情技術(shù)分析和基本面分析,對(duì)知識(shí)圖譜和自然語(yǔ)言處理方面的技術(shù)積累都有很高的要求,目前還鮮有看到成功案例。最近,哈工大NLP團(tuán)隊(duì)推出了“事理圖譜”技術(shù),試圖把面向事件的作用鏈傳播機(jī)制跟面向?qū)嶓w-靜態(tài)關(guān)系的知識(shí)圖譜相區(qū)別并模擬其獨(dú)有的傳播推理機(jī)制,這個(gè)動(dòng)向很值得關(guān)注??啥虝河^察一個(gè)時(shí)期,遇到合適的案例和進(jìn)展再跟進(jìn)。
教育與培訓(xùn)
教育和培訓(xùn)雖然不是資本市場(chǎng)的主業(yè),但卻是資本市場(chǎng)的剛需。面向各類(lèi)投資者的培訓(xùn)課程五花八門(mén)、此起彼伏。教育培訓(xùn)的手段正在朝著智能化、個(gè)性化的方向快速發(fā)展。實(shí)現(xiàn)教育培訓(xùn)手段智能化、個(gè)性化的一個(gè)直接的技術(shù)途徑,就是使用知識(shí)圖譜對(duì)培訓(xùn)課程的知識(shí)點(diǎn)、練習(xí)和考試題庫(kù)的知識(shí)點(diǎn)以及學(xué)員對(duì)知識(shí)點(diǎn)的掌握狀況一體化建模,通過(guò)模型揭示出來(lái)的差距來(lái)快速形成個(gè)性化教案,高度針對(duì)性地做到因材施教。
目前來(lái)看,企業(yè)要想達(dá)到共生均衡點(diǎn)生態(tài),未來(lái)還需要不斷提高生產(chǎn)效率,努力擁抱共贏的結(jié)局。