亚洲国产日韩欧美综合A_欧美日韩亚洲色熟_亚洲男人在线天堂2019香蕉_在线观看亚洲国产色_国产色噜噜在线观看_精品国产高清一区二区三区av_久久伦理免费视频_免费无遮挡无码视频观看_14萝粉嫩自慰喷水_超碰牛牛91精品无码

<sup id="scc00"></sup>

<strike id="scc00"><menu id="scc00"></menu></strike>

<samp id="scc00"><tbody id="scc00"></tbody></samp>

中工云網(wǎng)

售前咨詢： 400-605-9030

? ×

全國站

微信公眾號

資訊洞察

平臺動態(tài)

平臺動態(tài)

行業(yè)觀察

運行環(huán)境

管理與監(jiān)控

數(shù)據(jù)庫

應用開發(fā)工具

大咖有約

上地智庫

財務管理

人事管理

營銷管理

生產(chǎn)/供應鏈

電商管理

企業(yè)服務
產(chǎn)品與服務

研發(fā)設計

精益研發(fā)BPM系統(tǒng)HOT
精益研發(fā)解決方案
研發(fā)流程管理解決方案
研發(fā)知識管理解決方案
數(shù)據(jù)協(xié)同解決方案
知識工程庫HOT

生產(chǎn)制造

機房三維可視化綜合管理系統(tǒng)
智能制造運營管理系統(tǒng)

質量管理

產(chǎn)品溯源管理系統(tǒng)HOT
技術狀態(tài)管理系統(tǒng)

數(shù)字化管理

風控管理系統(tǒng)
保密管理系統(tǒng)HOT
倉儲管理系統(tǒng)
客戶管理系統(tǒng)
協(xié)同辦公系統(tǒng)
呼叫中心
Domino服務NEW

保密產(chǎn)品

終端安全防護
防電磁泄漏
會議會場要塞基地防護
網(wǎng)絡安全防護
保密辦公設備
介質清除銷毀
保密檢查取證
手機屏蔽防護設備

平臺建設

供應鏈協(xié)同平臺HOT
物流大數(shù)據(jù)平臺
云倉儲平臺
智慧供應鏈平臺
供應鏈數(shù)據(jù)中心 HOT

產(chǎn)業(yè)六庫

供應商庫
產(chǎn)品庫
方案庫
項目庫
技術庫
專家?guī)?

企業(yè)云圖

企業(yè)云圖

產(chǎn)業(yè)云圖

產(chǎn)業(yè)經(jīng)濟運行監(jiān)測與決策分析
企業(yè)綜合評價系統(tǒng)
招商項目運營中心

應用方案

企業(yè)知識庫
客戶關聯(lián)洞察
客戶風險感知和預警
事件偵測及傳導
供應鏈金融風控方案
大數(shù)據(jù)精準商機獲客
產(chǎn)業(yè)鏈獲客及風險識別
產(chǎn)業(yè)中心

云平臺解決方案

工業(yè)互聯(lián)網(wǎng)平臺建設解決方案
平臺數(shù)據(jù)解決方案

工業(yè)場景化解決方案

質量管控
產(chǎn)品溯源
工業(yè)設備健康管理
工業(yè)物聯(lián)網(wǎng)一體化解決方案
工業(yè)APP開發(fā)
工業(yè)知識工程庫

工業(yè)安全解決方案

企業(yè)數(shù)據(jù)安全解決方案
鋼鐵冶金自動化控制網(wǎng)絡安全
智能制造業(yè)信息安全解決方案
風電生產(chǎn)監(jiān)控系統(tǒng)安全解決方案

協(xié)同創(chuàng)新

準入資質HOT
共享工廠HOT
創(chuàng)新微工廠HOT
產(chǎn)業(yè)協(xié)同
人才培養(yǎng)與技能實訓
企業(yè)服務中心

特色培訓

涉密人員培訓
保密資質申辦培訓
保密教育培訓
軟件造價工程
軍隊招投標培訓
軍采網(wǎng)入庫培訓
在線課程

人才培養(yǎng)與培訓

一線人員
中層管理
高級管理

保密特色服務

安全規(guī)劃咨詢服務
保密風險評估服務
應急響應服務
環(huán)境安全檢測服務

解決方案

會議會場安全防護
電磁泄露發(fā)射防護
安全保密綜合管理
環(huán)境安全檢測方案
商業(yè)秘密安全保護

保密問答

保密知識庫
云采購
創(chuàng)新中心

協(xié)同制造

共享裝備車間
創(chuàng)新微工廠
產(chǎn)業(yè)協(xié)同

技術情報

國防專利

技術尋源

技術尋源
商業(yè)航天 HOT

服務共享平臺

試驗設備服務
技術能力服務
衛(wèi)星產(chǎn)品

知識工程

航天知識庫
知識工程庫

幫助文檔

技術文檔

新手入門

API與SDK

技術白皮書

客戶支持

服務保障

金牌服務

自助服務

聯(lián)系我們

云揚計劃

動態(tài)

產(chǎn)品動態(tài)

新聞動態(tài)
創(chuàng)新中心

協(xié)同制造

共享裝備車間
創(chuàng)新微工廠
產(chǎn)業(yè)協(xié)同

技術情報

國防專利

技術尋源

技術尋源
生態(tài)合作
更多

登錄免費注冊

新聞動態(tài) > 新聞詳情

文檔智能：數(shù)字化轉型的技術基石

2020-08-19 10:15 來源：微軟亞洲研究院瀏覽：9130

隨著數(shù)字化進程的加快，文檔、圖像等載體的結構化分析和內(nèi)容提取成為關乎企業(yè)數(shù)字化轉型成敗的關鍵一環(huán)，自動、精準、快速的信息處理對于生產(chǎn)力的提升至關重要。以商業(yè)文檔為例，不僅包含了公司內(nèi)外部事務的處理細節(jié)和知識沉淀，還有大量行業(yè)相關的實體和數(shù)字信息。人工提取這些信息既耗時費力且精度低，而且可復用性也不高，因此，文檔智能技術（Document Intelligence）應運而生。

文檔智能技術深層次地結合了人工智能和人類智能，在金融、醫(yī)療、保險、能源、物流等多個行業(yè)都有不同類型的應用。例如：在金融領域，它可以實現(xiàn)財報分析和智能決策分析，為企業(yè)戰(zhàn)略的制定和投資決策提供科學、系統(tǒng)的數(shù)據(jù)支撐；在醫(yī)療領域，它可以實現(xiàn)病例的數(shù)字化，提高診斷的精準度，并通過分析醫(yī)學文獻和病例的關聯(lián)性，定位潛在的治療方案。

什么是文檔智能？

文檔智能主要是指對于網(wǎng)頁、數(shù)字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息，通過人工智能技術進行理解、分類、提取以及信息歸納的過程。

文檔智能技術

在過去的30年中，文檔智能的發(fā)展大致經(jīng)歷了三個階段。90年代初期，研究人員大多使用基于啟發(fā)式規(guī)則的方法進行文檔的理解與分析，通過人工觀察文檔的布局信息，總結歸納一些處理規(guī)則，對固定布局信息的文檔進行處理。然而，傳統(tǒng)基于規(guī)則的方法往往需要較大的人力成本，而且這些人工總結的規(guī)則可擴展性不強，因此研究人員開始采用基于統(tǒng)計學習的方法。隨著機器學習技術的發(fā)展和進步，基于大規(guī)模標注數(shù)據(jù)驅動的機器學習模型成為了文檔智能的主流方法，它通過人工設計的特征模板，利用有監(jiān)督學習的方式在標注數(shù)據(jù)中學習不同特征的權重，以此來理解、分析文檔的內(nèi)容和布局。

基于深度學習特別是預訓練技術的文檔智能模型，近幾年受到越來越多的重視，大型科技公司紛紛推出相應的文檔智能服務，包括微軟、亞馬遜、谷歌、IBM、阿里巴巴、百度等在內(nèi)的很多公司在這個領域持續(xù)發(fā)力，對于許多傳統(tǒng)行業(yè)的數(shù)字化轉型提供了有力的支撐。

隨著各類實際業(yè)務和產(chǎn)品的出現(xiàn)，文檔智能領域的基準數(shù)據(jù)集也百花齊放，這些基準數(shù)據(jù)集通常包含了基于自然語言文本或圖像的標注信息，涵蓋了文檔布局分析、表格識別、信息抽取等重要的文檔智能任務，它們的出現(xiàn)也推動了文檔智能技術的進一步發(fā)展。

文檔智能相關的基準數(shù)據(jù)集

傳統(tǒng)的文檔理解和分析技術往往基于人工定制的規(guī)則或少量標注數(shù)據(jù)進行學習，這些方法雖然能夠帶來一定程度的性能提升，但由于定制規(guī)則和可學習的樣本數(shù)量不足，其通用性往往不盡如人意，而且針對不同類別文檔的分析遷移成本較高。隨著深度學習預訓練技術的發(fā)展，以及大量無標注電子文檔的積累，文檔分析與識別技術進入了一個全新的時代。

微軟亞洲研究院提出的 LayoutLM 便是一個全新的文檔理解模型，通過引入預訓練技術，同時利用文本布局的局部不變性特征，可有效地將未標注文檔的信息遷移到下游任務中。LayoutLM 的論文（論文鏈接：https://arxiv.org/abs/1912.13318）已被KDD 2020 接收，并將在下周舉行的 KDD 大會上進行分享。同時，為了解決文檔理解領域現(xiàn)有的數(shù)據(jù)集標注規(guī)模小、標注粒度大、多模態(tài)信息缺失等缺陷，微軟亞洲研究院的研究員們還提出了大規(guī)模表格識別數(shù)據(jù)集 TableBank和大規(guī)模文檔布局標注數(shù)據(jù)集 DocBank（論文鏈接：https://arxiv.org/abs/2006.01038），利用弱監(jiān)督的方法，構建了高質量的文檔布局細粒度標注。

LayoutLM：在預訓練階段實現(xiàn)文本和布局信息對齊

大量的研究成果表明，大規(guī)模預訓練語言模型通過自監(jiān)督任務，可在預訓練階段有效捕捉文本中蘊含的語義信息，經(jīng)過下游任務微調后能有效的提升模型效果。然而，現(xiàn)有的預訓練語言模型主要針對文本單一模態(tài)進行，忽視了文檔本身與文本天然對齊的視覺結構信息。為了解決這一問題，研究員們提出了一種通用文檔預訓練模型LayoutLM[1][2]，選擇了文檔結構信息（Document Layout Information）和視覺信息（Visual Information）進行建模，讓模型在預訓練階段進行多模態(tài)對齊。

在實際使用的過程中，LayoutLM 僅需要極少的標注數(shù)據(jù)即可達到行業(yè)領先的水平。研究員們在三個不同類型的下游任務中進行了驗證：表單理解（Form Understanding）、票據(jù)理解（Receipt Understanding），以及文檔圖像分類（Document Image Classification）。實驗結果表明，在預訓練中引入的結構和視覺信息，能夠有效地遷移到下游任務中，最終在三個下游任務中都取得了顯著的準確率提升。

文檔結構和視覺信息不可忽視

很多情況下，文檔中文字的位置關系蘊含著豐富的語義信息。以下圖的表單為例，表單通常是以鍵值對（key-value pair）的形式展示的（例如 “DATE: 11/28/84”）。一般情況下，鍵值對的排布是以左右或者上下的形式，并且有特殊的類型關系。類似地，在表格文檔中，表格中的文字通常是網(wǎng)格狀排列，并且表頭一般出現(xiàn)在第一列或第一行。通過預訓練，這些與文本天然對齊的位置信息可以為下游的信息抽取任務提供更豐富的語義信息。

表單示例

對于富文本文檔，除了文字本身的位置關系之外，文字格式所呈現(xiàn)的視覺信息同樣可以幫助下游任務。對文本級（token-level）任務來說，文字大小、是否傾斜、是否加粗，以及字體等富文本格式都能夠體現(xiàn)相應的語義。例如，表單鍵值對的鍵位（key）通常會以加粗的形式給出；而在一般文檔中，文章的標題通常會放大加粗呈現(xiàn)，特殊概念名詞會以斜體呈現(xiàn)，等等。對文檔級（document-level）任務來說，整體的文檔圖像能提供全局的結構信息。例如個人簡歷的整體文檔結構與科學文獻的文檔結構是有明顯的視覺差異的。這些模態(tài)對齊的富文本格式所展現(xiàn)的視覺特征，可以通過視覺模型抽取，再結合到預訓練階段，從而有效地幫助下游任務。

將視覺信息與文檔結構融入到通用預訓練方案

建模上述信息需要尋找這些信息的有效表示方式。然而現(xiàn)實中的文檔格式豐富多樣，除了格式明確的電子文檔外，還有大量掃描式報表和票據(jù)等圖片式文檔。對于計算機生成的電子文檔，可以使用對應的工具獲取文本和對應的位置以及格式信息；對于掃描圖片文檔，則可以使用 OCR 技術進行處理，從而獲得相應的信息。兩種不同的手段幾乎可以使用現(xiàn)存的所有文檔數(shù)據(jù)進行預訓練，保證了預訓練數(shù)據(jù)的規(guī)模。

基于文檔結構和視覺信息的 LayoutLM 模型結構

利用上述信息，微軟亞洲研究院的研究員們在現(xiàn)有的預訓練模型基礎上添加了二維位置嵌入（2-D Position Embedding）和圖嵌入（Image Embedding）兩種新的 Embedding 層，可以有效地結合文檔結構和視覺信息：

1) 二維位置嵌入 2-D Position Embedding：根據(jù) OCR 獲得的文本邊界框 (Bounding Box)，能獲取文本在文檔中的具體位置。在將對應坐標轉化為虛擬坐標之后，則可以計算該坐標對應在 x、y、w、h 四個 Embedding 子層的表示，最終的 2-D Position Embedding 為四個子層的 Embedding 之和。

2) 圖嵌入 Image Embedding：將每個文本相應的邊界框 (Bounding Box) 當作 Faster R-CNN 中的候選框（Proposal），從而提取對應的局部特征。其特別之處在于，由于 [CLS] 符號用于表示整個輸入文本的語義，所以同樣使用整張文檔圖像作為該位置的 Image Embedding，從而保持模態(tài)對齊。

在預訓練階段，研究員們針對 LayoutLM 的特點提出了兩個自監(jiān)督預訓練任務：

1) 掩碼視覺語言模型（Masked Visual-Language Model，MVLM）：大量實驗已經(jīng)證明 MLM 能夠在預訓練階段有效地進行自監(jiān)督學習。研究員們在此基礎上進行了修改：在遮蓋當前詞之后，保留對應的 2-D Position Embedding 暗示，讓模型預測對應的詞。在這種方法下，模型根據(jù)已有的上下文和對應的視覺暗示預測被掩碼的詞，從而讓模型更好地學習文本位置和文本語義的模態(tài)對齊關系。

2) 多標簽文檔分類（Multi-label Document Classification，MDC）：MLM 能夠有效的表示詞級別的信息，但是對于文檔級的表示，還需要將文檔級的預訓練任務引入更高層的語義信息。在預訓練階段研究員們使用的 IIT-CDIP 數(shù)據(jù)集為每個文檔提供了多標簽的文檔類型標注，并引入 MDC 多標簽文檔分類任務。該任務使得模型可以利用這些監(jiān)督信號，聚合相應的文檔類別并捕捉文檔類型信息，從而獲得更有效的高層語義表示。

實驗結果：LayoutLM 的表單、票據(jù)理解和文檔圖像分類水平顯著提升

預訓練過程使用了 IIT-CDIP 數(shù)據(jù)集，這是一個大規(guī)模的掃描圖像公開數(shù)據(jù)集，經(jīng)過處理后的文檔數(shù)量達到約11,000,000。研究員們隨機采樣了1,000,000個進行測試實驗，最終使用全量數(shù)據(jù)進行完全預訓練。通過千萬文檔量級的預訓練并在下游任務微調，LayoutLM 在測試的三個不同類型的下游任務中都取得了 SOTA 的成績，具體如下：

1) 表單理解（Form Understanding）：表單理解任務上，使用了 FUNSD 作為測試數(shù)據(jù)集，該數(shù)據(jù)集中的199個標注文檔包含了31,485個詞和9,707個語義實體。在該數(shù)據(jù)集上，需要對數(shù)據(jù)集中的表單進行鍵值對（key-value）抽取。通過引入位置信息的訓練，LayoutLM 模型在該任務上取得了顯著的提升，將表單理解的 F1 值從70.72 提高至79.2。

2) 票據(jù)理解（Receipt Understanding）：票據(jù)理解任務中，選擇了 SROIE 測評比賽作為測試。SROIE 票據(jù)理解包含1000張已標注的票據(jù)，每張票據(jù)都標注了店鋪名、店鋪地址、總價、消費時間四個語義實體。通過在該數(shù)據(jù)集上微調，LayoutLM 模型在 SROIE 測評中的 F1 值高出第一名（2019）1.2個百分點，達到95.24%。

3) 文檔圖像分類（Document Image Classification）：對于文檔圖像分類任務，則選擇了 RVL-CDIP 數(shù)據(jù)集進行測試。RVL-CDIP 數(shù)據(jù)集包含有16類總記40萬個文檔，每一類都包含25,000個文檔數(shù)據(jù)。LayoutLM 模型在該數(shù)據(jù)集上微調之后，將分類準確率提高了1.35個百分點，達到了94.42%。

DocBank數(shù)據(jù)集：50萬文檔頁面，以弱監(jiān)督方法獲取高質量標注

在許多文檔理解應用中，文檔布局分析是一項重要任務，因為它可以將半結構化信息轉換為結構化表示形式，同時從文檔中提取關鍵信息。由于文檔的布局和格式不同，因此這一直是一個具有挑戰(zhàn)性的問題。目前，最先進的計算機視覺和自然語言處理模型通常采用“預訓練-微調”范式來解決這個問題，首先在預先訓練的模型上初始化，然后對特定的下游任務進行微調，從而獲得十分可觀的結果。

但是，模型的預訓練過程不僅需要大規(guī)模的無標記數(shù)據(jù)進行自我監(jiān)督學習，還需要高質量的標記數(shù)據(jù)進行特定任務的微調以實現(xiàn)良好的性能。對于文檔布局分析任務，目前已經(jīng)有一些基于圖像的文檔布局數(shù)據(jù)集，但其中大多數(shù)是為計算機視覺方法而構建的，很難應用于自然語言處理方法。此外，基于圖像的標注主要包括頁面圖像和大型語義結構的邊界框，精準度遠不如細粒度的文本級標注。然而，人工標注細粒度的 Token 級別文本的人力成本和時間成本非常高昂。因此，利用弱監(jiān)督方法，以較少的人力物力來獲得帶標簽的細粒度文檔標注，同時使數(shù)據(jù)易于應用在任何自然語言處理和計算機視覺方法上至關重要。

為此，微軟亞洲研究院的研究員們構建了 DocBank 數(shù)據(jù)集[3][4]，這是一個文檔基準數(shù)據(jù)集，其中包含了50萬文檔頁面以及用于文檔布局分析的細粒度 Token 級標注。與常規(guī)的人工標注數(shù)據(jù)集不同，微軟亞洲研究院的方法以簡單有效的方式利用弱監(jiān)督的方法獲得了高質量標注。DocBank 數(shù)據(jù)集是文檔布局標注數(shù)據(jù)集 TableBank[5][6] 的擴展，基于互聯(lián)網(wǎng)上大量的數(shù)字化文檔進行開發(fā)而來。例如當下很多研究論文的 PDF 文件，都是由 LaTeX 工具編譯而成。LaTeX 系統(tǒng)的命令中包含了標記作為構造塊的顯式語義結構信息，例如摘要、作者、標題、公式、圖形、頁腳、列表、段落、參考、節(jié)標題、表格和文章標題。為了區(qū)分不同的語義結構，研究員們修改了 LaTeX 源代碼，為不同語義結構的文本指定不同的顏色，從而能清楚地劃分不同的文本區(qū)域，并標識為對應的語義結構。

從自然語言處理的角度來看，DocBank 數(shù)據(jù)集的優(yōu)勢是可用于任何序列標注模型，同時還可以輕松轉換為基于圖像的標注，以支持計算機視覺中的物體檢測模型。通過這種方式，可以使用 DocBank 公平地比較來自不同模態(tài)的模型，并且進一步研究多模態(tài)方法，提高文檔布局分析的準確性。

為了驗證 DocBank 的有效性，研究員們使用了 BERT、RoBERTa 和 LayoutLM 三個基線模型進行實驗。實驗結果表明，對于文檔布局分析任務，LayoutLM 模型明顯優(yōu)于 DocBank 上的 BERT 和 RoBERTa 模型。微軟亞洲研究院希望 DocBank 可以驅動更多文檔布局分析模型，同時促進更多的自定義網(wǎng)絡結構在這個領域取得實質性進展。

DocBank 數(shù)據(jù)集的數(shù)據(jù)樣例

四步構建 DocBank 數(shù)據(jù)集

DocBank 的處理步驟

研究員們使用 Token 級標注構建 DocBank 數(shù)據(jù)集，以支持自然語言處理和計算機視覺模型的研究。DocBank 的構建包括四個步驟：文檔獲取、語義結構檢測、Token 級別文本標注、后處理。DocBank 數(shù)據(jù)集總共包括50萬個文檔頁面，其中訓練集包括40萬個文檔頁面，驗證集和測試集分別包括5萬個文檔頁面（點擊閱讀原文，訪問DocBank 數(shù)據(jù)集網(wǎng)站了解更多具體信息）。

文檔獲取

研究員們在 arXiv.com 上獲取了大量科研論文的 PDF 文件，以及對應的 LaTeX 源文件，因為需要通過修改源代碼來檢測語義結構。這些論文包含物理、數(shù)學、計算機科學以及許多其他領域，非常有利于 DocBank 數(shù)據(jù)集的多樣性覆蓋，同時也可以使其訓練出的模型更加魯棒。目前這項工作聚焦在英文文檔上，未來將會擴展到其他語言。

語義結構檢測

DocBank 是 TableBank 數(shù)據(jù)集的擴展，其中除了表格之外還包括其他語義單元，用于文檔布局分析。在 DocBank 數(shù)據(jù)集中標注了以下語義結構：摘要、作者、標題、公式、圖形、頁腳、列表、段落、參考文獻、節(jié)標題、表格和文章標題。

之前的 TableBank 研究使用了 “fcolorbox” 命令標記表格。但是，對于 DocBank 數(shù)據(jù)集，目標結構主要由文本組成，因此無法很好地應用 “fcolorbox” 命令。所以此次使用 “color” 命令來改變這些語義結構的字體顏色，通過特定于結構的顏色來區(qū)分它們。有兩種類型的命令可以表示語義結構。

一類是 LaTeX 命令的簡單單詞，后接反斜杠。例如，LaTeX 文檔中的節(jié)標題通常采用以下格式：

另一類命令通常會啟動一個環(huán)境。例如，LaTeX 文檔中的列表聲明如下所示：

\begin 命令啟動一個環(huán)境，而 \end 命令結束該環(huán)境。實際命令名稱是 “begin” 命令和 “end” 命令的參數(shù)。將 “color” 命令插入到語義結構的代碼中（如下所示），然后重新編譯 LaTeX 文檔。同時，為所有語義結構定義特定的顏色，使它們更好地被區(qū)分。不同的結構命令要求將 “color” 命令放置在不同的位置才能生效。最后，重新編譯 LaTeX 文檔來獲取更新的 PDF 頁面，其中每個目標結構的字體顏色已修改為特定于結構的顏色。

Token 級別文本標注

研究員們使用 PDFPlumber（基于 PDFMiner 構建的 PDF 解析器）來提取文本行和非文本元素，以及它們的邊界框。通過劃分空格將文本行分詞，由于只能從解析器中獲得字符的邊界框，因此 Token 的邊界框定義是組成 Token 的單詞中最左上角坐標和最右下角坐標的集合。對于沒有任何文本的元素（例如 PDF 文件中的圖形和線條），則在 PDFMiner 中使用其類名和兩個“#”符號將其組成一個特殊標記。表示圖形和線條的類名分別是 “LTFigure” 和 “LTLine”。

PDFPlumber 可以從 PDF 文件中以 RGB 值的形式，提取字符和非文本元素的顏色。通常，每個 Token 由具有相同顏色的字符組成。如果不是的話，則使用第一個字符的顏色作為 Token 的顏色。根據(jù)上述的顏色到結構的映射，可以確定 Token 級別的文本標簽。此外，語義結構可以同時包含文本和非文本元素。例如，表格由單詞和組成表格的線條構成。在這項工作中，為了使模型在元素被切分之后能夠盡可能地獲取表格的布局，單詞和線條都被標注為“表格”類。

后處理

在某些情況下，一些 Token 天然具有多種顏色，并且無法通過 “ color” 命令進行轉換，例如 PDF 文件中的超鏈接和引用，這些不變的顏色將導致標記的標注錯誤。因此，為了更正這些 Token 的標簽，還需要對 DocBank 數(shù)據(jù)集進行一些后處理步驟。

通常，相同語義結構的 Token 將按閱讀順序組織在一起。因此，一般在相同的語義結構中連續(xù)的標記都具有相同的標簽。當語義結構交替時，邊界處相鄰 Token 的標簽將不一致。研究員們會根據(jù)文檔中的閱讀順序檢查所有標簽。當單個 Token 的標簽與其上文和下文的標簽不同，但上文和下文的標簽相同時，會將此 Token 的標簽校正為與上下文標記相同。通過手動檢查，研究員們發(fā)現(xiàn)這些后處理步驟大大改善了DocBank 數(shù)據(jù)集的質量。

實驗數(shù)據(jù)統(tǒng)計

DocBank 數(shù)據(jù)集具有12種語義單元，DocBank 中訓練集、驗證集和測試集的統(tǒng)計信息，顯示了每個語義單元的數(shù)量（定義為包含該語義單元的文檔頁面數(shù)量），以及占總文檔頁面數(shù)量的百分比。由于這些文檔頁面是隨機抽取并進行劃分的，因此語義單元在不同集合中的分布幾乎是一致的。

DocBank 中訓練、驗證和測試集的語義結構統(tǒng)計信息

年份統(tǒng)計信息中展示了不同年份文檔頁面的分布，可以看到論文的數(shù)量是逐年增加的。為了保持這種自然分布，研究員們隨機抽取了不同年份的文檔樣本以構建 DocBank，而沒有平衡不同年份的數(shù)量。

DocBank 中訓練、驗證和測試集的年份統(tǒng)計信息

DocBank 與現(xiàn)有的文檔布局分析數(shù)據(jù)集（包括 Article Regions、GROTOAP2、PubLayNet 和 TableBank）的比較顯示，DocBank 在數(shù)據(jù)集的規(guī)模和語義結構的種類上都超過了現(xiàn)有的數(shù)據(jù)集。而且，表格中所有數(shù)據(jù)集都是基于圖像的，只有DocBank 同時支持基于文本和基于圖像的模型。由于 DocBank 是基于公開論文自動構建的，因此具有可擴展性，可以隨著時間繼續(xù)擴大數(shù)據(jù)規(guī)模。

DocBank 與現(xiàn)有的文檔布局分析數(shù)據(jù)集的比較

評價指標

由于模型的輸入是序列化的二維文檔，所以典型的 BIO 標簽評估并不適合這個任務。每個語義單元的 Token 可以在輸入序列中不連續(xù)地分布。針對基于文本的文檔布局分析方法，研究員們提出了一個新的指標，其定義如下：

實驗結果

LayoutLM、BERT、RoBERTa 模型在 DocBank 測試集的準確性

在 DocBank 的測試集上評估了六個模型后，研究員們發(fā)現(xiàn) LayoutLM 在摘要、作者、表格標題、方程式、圖形、頁腳、列表、段落、節(jié)標題、表格、文章標題標簽上得分最高。在其他標簽上 LayoutLM 與其他模型的差距也較小。這表明在文檔布局分析任務中，LayoutLM 結構明顯優(yōu)于 BERT 和 RoBERTa 結構。

測試集上預訓練 BERT 模型和預訓練 LayoutLM 模型的樣例輸出

研究員們又選取了測試集的一些樣本，將預訓練 BERT 和預訓練 LayoutLM 的輸出進行了可視化?？梢杂^察到，序列標記方法在 DocBank 數(shù)據(jù)集上表現(xiàn)良好，它可以識別不同的語義單元。對于預訓練的 BERT 模型，某些 Token 沒有被正確標記，這表明僅使用文本信息仍不足以完成文檔布局分析任務，還應考慮視覺信息。

與預訓練的 BERT 模型相比，預訓練的 LayoutLM 模型集成了文本和布局信息，因此它在基準數(shù)據(jù)集上實現(xiàn)了更好的性能。這是因為二維的位置嵌入可以在統(tǒng)一的框架中對語義結構的空間距離和邊界進行建模，從而提高了檢測精度。

結束語

信息處理是產(chǎn)業(yè)化的基礎和前提，如今對處理能力、處理速度和處理精度也都有著越來越高的要求。以商業(yè)領域為例，電子商業(yè)文檔就涵蓋了采購單據(jù)、行業(yè)報告、商務郵件、銷售合同、雇傭協(xié)議、商業(yè)發(fā)票、個人簡歷等大量繁雜的信息。機器人流程自動化（Robotic Process Automation，RPA）行業(yè)正是在這一背景下應運而生，利用人工智能技術幫助大量人工從繁雜的電子文檔處理任務中解脫出來，并通過一系列配套的自動化工具提升生產(chǎn)力，RPA的關鍵核心之一就是文檔智能技術。

傳統(tǒng)的人工智能技術往往需要利用大量的人工標注數(shù)據(jù)來構建自動化機器學習模型，然而標注數(shù)據(jù)的過程費時費力，通常成為產(chǎn)業(yè)化的瓶頸。LayoutLM 文檔理解預訓練技術的優(yōu)勢在于，利用基于深度神經(jīng)網(wǎng)絡的自學習技術，通過大規(guī)模無標注數(shù)據(jù)學習基礎模型，之后再通過遷移學習技術僅需少量標注數(shù)據(jù)即可達到人工處理文檔的水平。目前，LayoutLM 技術已經(jīng)成功應用于微軟的核心產(chǎn)品和服務中。

為了推動文檔智能技術的發(fā)展，LayoutLM 的相關模型代碼和論文也已經(jīng)開源（https://aka.ms/layoutlm），并受到了學術界和工業(yè)界的廣泛關注和好評，據(jù)媒體報道在金融智能分析領域已經(jīng)有機構開始采用 LayoutLM 模型[7]進行流程自動化的集成和部署，同時也有相關機構采用 LayoutLM 模型[8]進行文檔視覺問答（Document VQA）方面的研究工作。相信隨著傳統(tǒng)行業(yè)數(shù)字化轉型的逐步深入，文檔智能研究工作將被更多的個人和企業(yè)關注，進一步推動相關技術和行業(yè)的發(fā)展。

附錄

[1]LayoutLM 論文：https://arxiv.org/abs/1912.13318

[2]LayoutLM 代碼&模型：https://aka.ms/layoutlm

[3] DocBank 論文：https://arxiv.org/abs/2006.01038

[4] DocBank 數(shù)據(jù)集&模型：https://github.com/doc-analysis/DocBank

[5] TableBank 論文：https://arxiv.org/abs/1903.01949

[6] TableBank 數(shù)據(jù)集&模型：https://github.com/doc-analysis/TableBank

[7] “Injecting Artificial Intelligence into Financial Analysis”：https://medium.com/reimagine-banking/injecting-artificial-intelligence-into-financial-analysis-54718fbd5949

[8] “Document Visual Question Answering”：https://medium.com/@anishagunjal7/document-visual-question-answering-e6090f3bddee

免責聲明：凡注明為其它來源的信息均轉自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。如果您發(fā)現(xiàn)網(wǎng)站上有侵犯您的知識產(chǎn)權的作品，請與我們?nèi)〉寐?lián)系，我們會及時修改或刪除。聯(lián)系郵箱：liz@cimim.cn

上一篇：城市數(shù)字治理風起云涌
下一篇：數(shù)字化轉型中的CIO

新聞推薦

<samp id="meuw2"><pre id="meuw2"></pre></samp>