機器翻譯、輿論分析、智慧問答……NLP的應用場景你知道多少?
如果你聽說過人工智慧,那麼對於自然語言處理技術一定也不陌生,自然語言處理技術屬於人工智慧的一個子領域,它對計算機和人類的互動方式產生了很重要的影響。為了更方便大家理解,在介紹什麼是NLP之前,首先我們先來了解一下語言的分類。
語言的分類
語言,人類區別於其它動物的根本標誌之一。沒有語言,人類的思維體現、溝通交流就會像無源之水、無本之木一樣,可以說在人類社會中,語言扮演了極其重要的角色。
根據形成條件和使用目的不同,人類所使用的語言可以大致分為自然語言、半形式化語言和形式化語言三類。
自然語言通常是指自然進化而成、隨文化而演化的語言,比如漢語、英語、日語等就是自然語言的例子,是人與人之間交流和思考表達的主要工具。
半形式化語言雖然與自然語言有許多共同之處,但都會自然語言的基礎上附加一些特定的符號,會比自然語言更具形式化,通常具有無窮性、統一性、可操作性的特點。數學語言就是一種很典型的半形式化語言。
形式化語言是用精確的數學或機器可處理的公式定義的語言,按一定規律構成的句子或符號串的有限或無限的集合。例如機器語言就是由“0”和“1”組成的二進位制數字串,不同個數、順序的“0”和“1”可以組成一條條不同的指令,計算機無需進行翻譯即可直接識別。同自然語言一樣,形式化語言一般也有語法和語義兩個方面,通常用於數學、邏輯和計算機科學中。
什麼是NLP(NaturalLanguage Processing,自然語言處理)?
在人工智慧出現之前,機器能夠自動處理少量結構化的資料(比如Excel裡的資料),隨著網路的普及,人類進入了資訊爆炸的時代,機器需要處理的資料越來越多,而網路中大量存在的文字、圖片、影片往往都屬於非結構化資料,在這之中,文字的數量又是最多的,且其中絕大部分都屬於上文提到的自然語言,雖然資訊量大,但由於計算機無法理解,這時為了能夠分析和利用這些文字資訊,就需要用到NLP技術。
NLP(NaturalLanguageProcessing,自然語言處理)就相當於存在於機器語言和人類語言之間的翻譯,透過搭建溝通的橋樑,藉以實現人機交流的目的。
即NLP是計算機科學領域及人工智慧領域的一個重要研究方向,其目的是讓計算機能夠處理、理解以及運用人類語言,以實現人和計算機之間的有效通訊。
NLP的基本分類
自AlphaGo先後戰勝李世石、柯潔後,逐漸掀起了人工智慧的熱潮,深度學習、人工神經網路等概念逐漸進入了大眾視野,NLP作為其中一份子,透過先前研究成果的不斷積累,已逐漸發展成為一門獨立的學科。
從自然語言的角度出發,NLP可以分為自然語言處理和自然語言生成兩大部分,即理解和生成文字。
自然語言處理和自然語言生成作為綜合性的系統學科,又各自分別包含了很多細分學科。
自然語言處理是對語言、語境及其形式進行研究,研究範圍包括音系學、詞態學、句法學、語義學和語用學等。在對自然語言理解過程進行實際操作時,往往要克服語言的多樣性、歧義性、魯棒性、知識依賴、需要聯絡上下文等難點。
自然語言生成則是透過文字規劃→語句規劃→實現的思路來從已獲取的結構化資料中以讀取的方式自動生成文字。即透過規劃對待生成文字的內容、結構進行規劃確定,隨後根據已獲取或學習的句子模型進行整合,參考待生成目標語言的語法表達進行最佳化處理,最終完成生成輸出任務。
NLP的研究應用領域
資訊提取:從指定文字範圍中提取出重要資訊,例如時間、地點、人物、事件等,可以幫人們節省大量時間成本,且效率更高。比如文摘生成利用計算機自動從原始文獻中摘取文字,成果能夠完整準確反映出文獻的中心內容。
文字生成:根據限定條件或輸入內容的不同,進行資料到文字或文字到文字的生成。
智慧問答:對一個自然語言表達的問題進行某種程度的分析(例如實體連結、關係式、形成邏輯表示式等),分析完畢後在知識庫中查詢可能的候選答案,透過排序機智找出最佳的答案進行回覆。比如電商行業中廣泛應用的自動回覆客服,透過回覆許多基本而重複的問題,從而過濾掉大量重複問題,使得人工客服能夠更好地服務客戶。
機器翻譯:透過把輸入的源語言文字透過自動翻譯獲得另一種語言的文字,是自然語言處理中最為人所熟知的場景,比如百度翻譯、Google翻譯等。
文字挖掘:包括文字聚類、分類、情感分析以及對挖掘的資訊和知識透過視覺化、互動式介面進行表達。
輿論分析:透過收集和處理海量資訊,對網路輿情進行自動化的分析,幫助分析哪些話題是目前的熱點,同時對熱點的傳播路徑及發展趨勢進行分析判斷,以實現及時應對網路輿情。
知識圖譜:又稱科學知識圖譜,在圖書情報界稱為知識域視覺化或知識領域對映地圖,是顯示知識發展程序與結構關係的一系列各種不同的圖形。以視覺化技術為載體來描述知識資源及其載體,挖掘、分析、構建、繪製和顯示知識及它們之間的相互聯絡。
除此之外,NLP還可以用來做情感分析、語音識別和生成、資訊過濾、資訊檢索等。
NLP的目標是彌補人類交流和計算機理解之間的差距,最終實現計算機在理解自然語言上像人類一樣智慧。未來,NLP的發展將會使人工智慧可以逐漸面對更加複雜的情況、解決更多的問題。