sponsored links

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

智慧文件處理(Intelligent Document Processing ,簡稱 IDP )是來也科技智慧自動化平臺的核心能力之一。IDP 基於光學字元識別(OCR)、計算機視覺(CV)、自然語言處理(NLP)、知識圖譜(KG)等前沿技術,對各類文件進行識別、分類、抽取、校驗等處理,幫助企業實現文件處理工作的智慧化和自動化。

IDP 最常見的應用場景之一是從各種型別的文件中抽取關鍵資訊,本文介紹機器學習在文件資訊抽取中的應用。

背/景

企業中存在大量需要從文件中抽取資訊並進行處理的業務場景,例如從發票、報銷單、發貨單等不同型別的文件中抽取所需欄位,進行錄入、校驗、比對等操作。因此,文件資訊抽取是智慧文件處理平臺的核心能力之一。通常情況下,文件資訊抽取需要用到機器學習技術。我們知道,訓練一個機器學習模型需要一定規模的標註資料,在文件資訊抽取任務下訓練機器學習模型面臨兩個挑戰。

第一,文件的型別繁多,即便是同一個型別的文件,其版式也可能存在多種。下面是幾個中文完稅證明的例子,我們可以發現,它們雖然都是完稅證明,但版式差別很大,尤其體現在明細表格部分,表格的欄位數量、欄位順序都不太一樣。這意味著,如果使用傳統的方法,需要訓練多個機器學習模型才能滿足不同版式資訊抽取的需求

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?


*完稅證明示例(圖片來源於網路)

第二,很多文件型別是企業特有的,也就是說我們很難提前收集到資料並訓練好模型,而是需要基於企業特有的文件資料,在小樣本下訓練出可用的模型,否則模型的訓練成本太高。下面是幾個英文發票(Invoice)的例子,我們可以發現它們不僅版式不同,而且每一類的數量都不多。

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?


*英文發票示例(圖片來源於網路)

本文中,我們介紹來也科技 IDP 平臺中用到的文件資訊抽取方法,該方法充分利用文件的視覺特徵和語義特徵,能夠在較少樣本的情況下訓練出效果很好的模型,且具備較強的泛化能力,從而快速滿足企業中多種文件資訊抽取的需求。

技/術/方/案

我們的技術方案以 OCR 識別的結果作為輸入,充分利用視覺和語義資訊建模,在低成本(標註資料少、資源佔用少)的情況下完成文件資訊抽取任務。該方案將 OCR 和資訊抽取完全解耦合,這樣設計有兩個優點:

OCR 和資訊抽取相互不受影響,可以分別進行最佳化。

同一個 OCR 引擎可以對接不同的資訊抽取模型;同理,同一個資訊抽取模型也可以對接不同的 OCR 引擎,以滿足不同場景下的需求。

OCR 引擎完成識別和預處理後,由三個子任務構成完整的 pipeline ,如下圖所示。下面我們分別介紹。

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

1.文字塊序列化

這個任務的目的是將 OCR 識別到的文字塊,按正常的閱讀順序重新進行排列,解決內容折行、資料分組的問題。

如在下面的完稅證明示例中,稅收詳情中存在較多的內容折行, OCR 識別引擎通常會按從左到右、從上到下的順序返回。如圖中所示,OCR輸出的文字塊的順序為圖上標識的數字(1、2、3……11),顯然這個順序既不符合閱讀順序,也會打亂語義和排版資訊。如果不進行調整,會導致模型無法準確的得到正確的語義資訊和結構資訊

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

透過上述的例子可以發現,文字序列化任務和具體文件型別基本無關,因此我們可以透過大量標註資料訓練一個通用的文字塊序列化模型,在其他專案中直接使用,降低專案啟動的代價。以下是經過文字塊序列化模型重排序後的順序,在這個排序基礎上進行一定的後處理,我們就可以還原出文檔中的欄位。

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

2.文字塊分類

對文字塊進行序列化之後,我們的下一個任務是利用文字分類的方法獲得每個文字塊對應的標籤,即每個文字塊屬於哪個待抽取的欄位。在這個任務中,我們將每個 OCR 輸出的文字塊作為獨立的分類目標,利用多分類的方法獲得每個文字塊對應的資訊標籤。透過文字塊的文字語義、空間位置、上下文關係、排版格式等視覺特徵,使用統計模型進行建模並訓練文字塊分類模型。以下是文字塊分類模型用到的主要特徵:

語義特徵:利用文字塊包含的文字資訊生成的特徵;

空間位置:利用文字塊在文件上的位置,以及和其他文字塊的相對位置關係;

排版格式:利用文件的各種排版資訊,如表格、列表等。

3.抽取結果組裝

透過使用以上兩個子任務的輸出結果,我們就可以進行最終的抽取結果組裝。以下面這個資料為例,抽取結果組裝主要解決兩類問題:

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

文字換行

如在上述完稅證明示例中,稅款所屬稅務機構這列內容中“國家稅務總局”和“xx市稅務局”因為換行的原因被切分為了兩個文字塊,我們可以依據他們有相同的分類標籤(文字塊分類結果)、緊鄰的順序(文字塊序列化結果)、上下的位置關係,將其判定為同一個欄位進行合併,得到最終的資訊抽取結果:

field:稅款所屬稅務機構;value:國家稅務總局xx市稅務局。

資料關聯

在完稅證明的示例中,稅務具體資訊的多個欄位是存在關聯關係的,如果直接將這些欄位的識別結果進行輸出,會丟失其中的關係,難以在下游任務中使用。透過文字塊序列化的輸出結合位置資訊,自動將有關聯關係的欄位進行組裝,為下游任務提供欄位之間的關係資訊。上述例子經過資料關聯後的最終輸出為(JSON格式):

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

效/果/評/估

為了驗證上述文件資訊抽取方案的效果,我們選擇了“中文完稅證明”和“英文發票”兩個資料集進行測試。

資料集介紹

中文完稅證明

如第一節中樣本所示,全國各個省市的完稅證明版式存在較大差異,但待抽取的欄位基本相同。我們從中文完稅證明中抽取 15 個欄位:發票號碼、填發日期、稅務機關、納稅人識別號、納稅人名稱、稅款所屬時期、原憑證號、稅種、品目名稱、實繳(退)金額、大寫金額、總金額、填票人、備註資訊、入(退)庫日期。我們共使用 12 個版式共 98 張完稅證明進行模型訓練,在 33 張樣本上進行評測。

*以下為完稅證明資訊抽取輸出的示例:

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

英文發票

如第一節中樣本所示,我們從英文發票中抽取 15 個欄位:發票號碼、發行日期、買家姓名、買家地址、產品專案No.、產品明細、數量明細、產品單價、總額明細、稅額合計、含稅總額、付款方式、採購訂單號、到期日、折扣合計。共使用 34 個版式共 294 張進行模型訓練,在 90 張樣本上進行評測。

*以下為英文發票資訊抽取輸出的示例:

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

模型整體效果

首先,我們針對上述兩個資料集,分別測試模型的整體效果,即模型抽取的準確率、召回率和 F1 值。可以看到我們的方法在兩個資料集上都能取得約 0.95 的 F1 值

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

*F1 值:準確率及召回率的綜合評價指標,越趨近於 1 則表明演算法或模型越佳

模型在小樣本下的效果

最後,我們用模型從未見過的文件來測試模型的泛化能力,並用極少量的該類文件重新訓練模型,對比原模型和新模型的效果。我們在中文完稅證明模型上進行上述實驗,結果如下:

智慧文件處理技術揭秘:如何低成本實現高準確率的文件資訊抽取?

可以發現,在遇到全新版式的資料時,原模型的效果並不理想, F1 值在 0.5 以下。此時,我們只需要補充 5 張資料重新訓練模型就可以迅速改善模型在新版式上的效果,將 F1 值提升到 0.93 以上。這充分說明,模型有一定的泛化能力,只需原模型的基礎上用極少量樣本即可適應新的版式。

來也科技 IDP 平臺提供強大的文件資訊抽取能力,它透過使用視覺和語義資訊進行建模,在處理類似發票、證件、發貨單、完稅證明等文件資訊抽取任務時,只需極低的標註成本,就能達到非常好的效果。在遇到新資料格式帶來的 badcase 時,透過少量的標註干預,即可有效的提升效果,讓文件處理的自動化變得更加容易。對來也科技 IDP 平臺以及文件資訊抽取能力感興趣的朋友,可點選歡迎申請試用來也科技產品,或登陸來也科技官網檢視更多資訊。

分類: 教育
時間: 2022-01-08

相關文章

39所985大學的校徽和車標相似,北大的像大眾,南大的像保時捷

39所985大學的校徽和車標相似,北大的像大眾,南大的像保時捷
先來"科普"一下什麼叫作985.1998年5月份,在北京大學建校100週年之際,國家提出要建設若干所世界一流大學,此項工程的代號便是985.起初只有清華北大列入此項工程,後來發展到 ...

在河南招生人數最多的五所985大學,高三家長請收藏

在河南招生人數最多的五所985大學,高三家長請收藏
之前給大家講了,河南考生上985大學有多麼不容易,我們以2021年為例,河南本科一批985大學的招生計劃共8295個,其中理科計劃7312個,文科983個.2021年河南高考報名人數125萬,實際參加 ...

中國4所985大學,學霸看不上中等生考不上,學校也很為難

中國4所985大學,學霸看不上中等生考不上,學校也很為難
說起重點名牌大學人們首先想到的就是985這類大學,大家都知道這些985大學都是我國實力最頂尖的大學,能夠考上這些大學的都是學霸中的學霸,越是頂級的學校分數也越高一些,那麼這些985類的大學分數差多少呢 ...

集才華與美貌於一身,陝科大博士入職西北工業大學,引發網友熱議

集才華與美貌於一身,陝科大博士入職西北工業大學,引發網友熱議
隨著國人的素質顯著提高,用人單位也對人才的學歷要求越來越高,畢竟大多數企業都深知優中擇優的道理,各行各業的文化素質有了不一樣的體現,其中表現的最為明顯的,就是教師這一職業. 在人人都重視教育的年代,更 ...

這七所985大學沒有入選副部級大學是因為實力嗎?

這七所985大學沒有入選副部級大學是因為實力嗎?
副部級大學想必很多人都已經很瞭解了,副部級大學作為我國普通高考招生行政級別最高的高等院校,其實力和地位都是得到了廣泛的認可.當然副部級大學也全是985高校,現在副部級高校一共有32所,但是985高校有 ...

高校頂尖學科985大學排名:哪些大學最多?哪些大學未上榜?

高校頂尖學科985大學排名:哪些大學最多?哪些大學未上榜?
#我的大學#高校頂尖學科985大學排行榜: 1.24個學科(2校):北京大學.清華大學 2.10個學科(1校):中國人民大學 3.7個學科(4校):復旦大學.上海交通大學.北京師範大學.中國農業大學 ...

農業大學等於畢業種田?考生考上985大學,鄰居表示:沒出息

農業大學等於畢業種田?考生考上985大學,鄰居表示:沒出息
文章原創,版權歸本作者所有,歡迎個人轉發分享 大學的選擇體現了考生的人生追求,考生所報考的學校以及被錄取的專業,往往會成為他人衡量考生的價值標準. 那些被醫學院.師範學院.警校.軍校.名校錄取的學生, ...

985大學“重新洗牌”,哈工大跌出前十,西安交大成“黑馬”

985大學“重新洗牌”,哈工大跌出前十,西安交大成“黑馬”
導語:每一所大學都記錄著一個時代的變遷,很多大學建在建國初期,也有很多大學建立在建國前期. 這些大學好像是一位位飽經風霜的老者,雖已高齡,卻滿腹經綸,培育出來了很多優秀的子子孫孫,在祖國的各個領域發光 ...

湖南一名考生逆襲!高一時物理不及格,高考622分考入一所985大學

湖南一名考生逆襲!高一時物理不及格,高考622分考入一所985大學
不偏科是考出高分的基礎,也是考生考入心儀大學的前提.因此,在平時的學習中,不管是老師.家長,還是考生個人,都對偏科現象抓得很緊. 但是,偏科不是想提上去就能提上去的,很多考生就是語文.數學.英語.物理 ...

美國前50大學在中國的招生,相當於三所“985大學”

美國前50大學在中國的招生,相當於三所“985大學”
日前,上海紐約大學舉行迎新活動,中國駐美大使秦剛透過影片,向上海紐約大學師生髮表致辭. 秦剛大使在致辭中表示:"人文交流日益成為打通國家邊界.跨越文化差異.促進民心的橋樑,也是國與國關係深化 ...

985大學畢業生簽約單位,很多都是上市國企,學歷真的改變命運

985大學畢業生簽約單位,很多都是上市國企,學歷真的改變命運
你知道世界一流大學如北京大學.清華大學.北京航空航天大學.北京理工大學等高校畢業生都去了哪些單位工作嗎?今天我們給大家帶來了20多所中國985大學畢業生簽約人數最多的公司. 北京大學畢業生簽約人數前三 ...

985大學“重新洗牌”,清華大學無緣榜首,浙江大學表現亮眼

985大學“重新洗牌”,清華大學無緣榜首,浙江大學表現亮眼
導語: 高考對於很多家長來說是一件很重要的事情,因為絕大部分的家長都懂得高考對於學生來說意義非常,不僅是決定了學生上哪一所大學,從某種程度上來說也決定了學生的未來發展方向. 很多的家長和老師,在學生剛 ...

能去北京電子科技學院深造,但要放棄985大學,是否值得

能去北京電子科技學院深造,但要放棄985大學,是否值得
我國有39所985大學,每一所985大學,每年的招生名額基本上是固定的.但這幾年,參加高考的人很多,考上985大學的難度可想而知. 不過,這兩年大家很嚮往體制內就業,使得有些情況下,部分學子會放棄98 ...

國內985大學“大洗牌”,北京大學榮登榜首,華科表現亮眼

國內985大學“大洗牌”,北京大學榮登榜首,華科表現亮眼
隨著教育資源的不斷髮展,現在我國大約共有3000多所大學院校,而985大學卻僅有39所,其中清華與北大深受學生們的青睞. 但能順利考入清北的學生基本上都是學霸級別的學生,而國內的985大學的排名也會出 ...

985大學最新排名出爐,清華無緣僅排第2,復旦大學無緣前5

985大學最新排名出爐,清華無緣僅排第2,復旦大學無緣前5
我國學生學習的壓力是不言而喻的,一所好大學是給之前十幾年努力的最好獎勵.目前我國大學分為985,211工程,雙一流大學,雙非大學,專科等等. 其中985大學在國內最為搶眼,是所有考生的夢寐以求的高階學 ...

985大學排名“重新洗牌”,清華大學無奈第二,浙江大學進步明顯

985大學排名“重新洗牌”,清華大學無奈第二,浙江大學進步明顯
在新一屆的學生入學後,各大高校的開學典禮和軍訓匯演成了熱門討論的話題.同時各個大學之間的綜合實力和排名,也吸引了很多人的目光.有些學校的實力在漸漸上升,也有的高校在悄然掉隊. 學生在高考時能考進什麼樣 ...

兒子考上985大學,舅舅噴我!團圓飯變鴻門宴!我錯了嗎?

兒子考上985大學,舅舅噴我!團圓飯變鴻門宴!我錯了嗎?
兒子考上985大學,舅舅噴我!團圓飯變鴻門宴!我錯了嗎?#洞見教育##教育# 前不久,我老婆的大哥請他的兩個弟弟.妹妹三家人到他家一起吃飯,說是過節了,親兄妹一起吃個團圓飯. 這不是一頓普通的團圓飯, ...

985大學舍友聚會,選擇金融行業和公務員,15年後差距一目瞭然

985大學舍友聚會,選擇金融行業和公務員,15年後差距一目瞭然
國慶黃金週,是國人出遊的日子,也是同窗校友難得的聚會佳期.10月3日,中國人民大學1991屆畢業生就在母校舉行了畢業30週年的紀念活動,300多位校友代表集體在學校體育場跑道繞場30圈. 假期就是人們 ...

僅有36所985大學進行招生的“強基計劃”到底是什麼來頭?

僅有36所985大學進行招生的“強基計劃”到底是什麼來頭?
大家對很多與高校相關的戰略.工程.計劃等都已經非常熟悉了,如:985.211.雙一流.公費師範生.卓越計劃等等.但是今天要介紹的"強基計劃"很多人就很陌生了.強基計劃是一類高校招生 ...

圍觀!15所985大學在各高中學校錄取人數公佈,最高超過130人

圍觀!15所985大學在各高中學校錄取人數公佈,最高超過130人
電子科技大學 錄取人數前三的高中: 01.成都市樹德中學,77人 02.四川省綿陽中學,63人 03.綿陽東辰國際學校,48人 武漢大學 錄取人數前三的高中: 01.華中師範大學第一附屬中學,127人 ...