TWI512503B

TWI512503B - 電子設備及其自然語言分析方法

Info

Publication number: TWI512503B
Application number: TW101100938A
Authority: TW
Inventors: Yu-Kai Xiong; Xin Lu; Shih Fang Wong; Hui-Feng Liu; Dong-Sheng Lv; yu-yong Zhang; Jian-Jian Zhu; xiang-lin Cheng; Xiao-Shan Zhou; Xuan-Fen Huang; an-lin Jiang; Xin-Hua Li
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2011-12-29
Filing date: 2012-01-10
Publication date: 2015-12-11
Also published as: CN103186522A; TW201327218A; CN103186522B; US20130173251A1

Description

電子設備及其自然語言分析方法

本發明涉及一種電子設備及其自然語言分析方法。

隨著技術的發展，具有人機會話功能的電腦等智慧型的電子設備越來越受到消費者的親睞。然而，自然語言理解一直是人工智慧學科內引人注目而又困難重重的一個核心研究課題。在人機會話的過程中，電子設備將用戶的自然語言通過詞彙切分法等方式進行切分，並通過分析排除不適當的歧義，從而形成對應原文的機器可識別的語言。然後結合預存的語料庫來理解用戶的自然語言，通過轉換最終得到句子的語意。然而，在自然語言理解處理過程中，語言的複雜性導致理解處理結果會產生多種語言歧義，尤其是中文語言，往往存在電子設備錯誤理解用戶的語言的問題。

有鑒於此，有必要提供一種用於電子設備的自然語言分析方法，可提高電子設備理解用戶的自然語言的準確度，以便於更有效的人機會話，以解決上述問題。

有鑒於此，還有必要提供一種採用自然語言分析方法的電子設備，以解決上述問題。

一種自然語言分析方法，用於包括存儲有語料庫的電子設備。該語料庫記錄了多個詞彙以及每一詞彙的使用頻率。該方法包括如下步驟：

接收用戶的語音和/或文字輸入，將接收的語音和/或文字輸入轉換為電信號；

將該用戶的語音信號和/或文字輸入信號轉換為一預設的語言的文本資訊；

將該文本資訊切分為包括多個詞彙的多種詞彙切分結果；

從該語料庫中獲取該多種詞彙切分結果中每一詞彙的使用頻率，在獲取的每一詞彙的使用頻率的基礎上，計算出每一種詞彙切分結果的第一概率值，並將各種詞彙切分結果按照各自的第一概率值排序，得到一語言分析結果的第一排序方式；

在多種詞彙切分結果的基礎上根據句式構造規則，將該文本資訊進行語句成分劃分；

根據該語句劃分結果，計算出各種詞彙切分結果的第二概率值，並根據各種詞彙切分結果的第二概率值對該語言分析結果的第一排序方式進行調整，得到語言分析結果的第二排序方式，其中，該第一排序方式和第二排序方式均是根據各種詞彙切分結果的概率值的降冪對詞彙切分結果所對應的語言分析結果進行排序；及

根據該第二排序方式中排在最前面的語言分析結果以及語料庫確定用於回應用戶的該文本資訊的一回復資訊。

一種電子設備，包括存儲有語料庫的存儲單元和輸入單元。該語料庫記錄了多個詞彙以及每一詞彙的使用頻率。該輸入單元用於接收用戶的語音和/或文字輸入，將接收的語音和/或文字輸入轉換為電信號。該電子設備還包括：

一語言文字轉換模組，用於將該用戶的語音信號和/或文字輸入信號轉換為一預設的語言的文本資訊；

一詞彙切分模組，用於將該文本資訊切分為包括多個詞彙的多種詞彙切分結果；

一語句分析模組，用於在多種詞彙切分結果的基礎上根據句式構造規則，將該文本資訊進行語句成分劃分；

一分析控制模組，用於從該語料庫中獲取該多種詞彙切分結果中每一詞彙的使用頻率，在獲取的每一詞彙的使用頻率的基礎上，計算出每一種詞彙切分結果的第一概率值，並將各種詞彙切分結果按照各自的第一概率值排序，得到對語言分析結果的第一排序方式；以及根據該語句劃分結果，計算出各種詞彙切分結果的第二概率值，並根據各種詞彙切分結果的第二概率值對該語言分析結果的第一排序方式進行調整，得到語言分析結果的第二排序方式，其中，該第一排序方式和第二排序方式均是根據各種詞彙切分結果的概率值的降冪對詞彙切分結果所對應的語言分析結果進行排序；及

一智慧會話模組，用於根據該第二排序方式中排在最前面的語言分析結果以及語料庫確定用於回應用戶的該文本資訊的一回復資訊。

相對於現有技術，上述電子設備及其自然語言分析方法，當用戶啟動電子設備後，用戶可以通過輸入單元與電子設備進行人機會話，通過將用戶的語音和/或文字輸入轉換為一文本資訊，並將該文本資訊切分為多個詞彙的多種詞彙詞彙切分結果，並將與多種詞彙切分結果對應的語言分析結果進行排序得到語言分析結果的第一排序方式，再將該文本資訊進行語句劃分，並根據語句劃分結果對語言分析結果的第一排序方式進行調整，得到第二排序方式，最後將該文本資訊進行段落分析，並根據段落分析結果對語言分析結果的第二排序方式進行調整，得到第三排序方式，從而更準確的理解用戶的自然語言，提高了人機會話的效率。

請參閱圖1，其為本發明的一實施方式的電子設備100的功能模組圖。電子設備100可更準確的理解用戶自然語言，具有較高的人機會話效率。在本實施方式中，電子設備100為一電腦，在其他實施方式中，電子設備100還可以是手機等電子設備。

電子設備100包括一存儲單元10、一輸入單元20、一處理單元30、一顯示單元50和一語音輸出單元60。

存儲單元10存儲有語料庫12。語料庫12記錄了海量的詞彙以及每一詞彙的使用頻率。語料庫12是按照明確的語言學標準選擇並排序的語言運用材料彙集，是按照明確的設計標準集成的可機讀的大型文本庫。在本實施方式中，語料庫12是存有大量的中文自然語言的文本庫，在其他實施方式中，該語料庫12還可以存儲有英文、日文等其他語言種類的自然語言的文本庫。具體文本的語言種類可以根據需要設置。

輸入單元20用於接收用戶的語音和/或文字輸入，將接收的語音和/或文字輸入轉換為電信號，並將轉換得到的語音信號和/或文字輸入信號傳輸至處理單元30。

處理單元30包括一語音文字轉換模組31、一詞彙切分模組32、一語句分析模組33和一分析控制模組34。

當用戶開啟電子設備100後，輸入單元20即被啟動，用戶可以通過輸入單元20與電子設備100進行人機會話。

語音文字轉換模組31用於將輸入單元20傳輸的用戶的語音信號和/或文字輸入信號轉換為一預設的語言的文本資訊。在本實施方式中，該預設的語言為中文，該文本資訊可以為包括一個詞、一句話或一段話的文本資訊。在其他實施方式中，該預設的語言還可以是英文、日文等。

詞彙切分模組32用於將語音文字轉換模組31轉換得到的文本資訊切分為包括多個詞彙的多種詞彙切分結果，並將該多種詞彙切分結果一一傳輸至分析控制模組34。在本實施方式中，詞彙切分模組32按照雙向最大匹配法對文本資訊進行切分以提高詞彙切分的準確度，即從正向和逆向均進行切分，並將多種詞彙切分結果均傳輸至分析控制模組34。例如：當文本資訊為包括“老虎咬死了獵人的狗”這句話時，詞彙切分模組32從正向將該文本資訊可以切分為包括“老虎”、“咬”、“死了”、“獵人”、“的”和“狗”這些詞彙的一個詞彙切分結果，包括“老虎”、“咬死了”、“獵人”、“的”和“狗”這些詞彙的另一個詞彙切分結果，以及包括“老虎”、“咬死了”和“獵人的狗”這些詞彙的又一個詞彙切分結果等；詞彙切分模組32從反向將該文本資訊可以切分為包括“狗”、“的”、“獵人”、“死了”、“咬”和“老虎”這些詞彙的一個詞彙切分結果，包括“狗”、“的”、“獵人”、“咬死了”和“老虎”這些詞彙的另一個詞彙切分結果，以及包括“獵人的狗”、“咬死了”和“老虎”這些詞彙的又一個詞彙切分結果等。

分析控制模組34用於從存儲在存儲單元10的語料庫12中獲取詞彙切分模組32傳輸的切分後的每一詞彙的使用頻率，並在獲取的每一詞彙的使用頻率的基礎上，計算出每一種詞彙切分結果的第一概率值，並將各種詞彙切分結果按照各自的第一概率值排序，得到對語言分析結果的第一排序方式。在本實施方式中，每一種詞彙切分結果對應一種語言分析結果，詞彙切分結果的概率值越高，則根據該詞彙切分結果所對應的語言分析結果對自然語言的理解為最接近用戶的意思的理解，或是與用戶的意思相同的理解。分析控制模組34將各種詞彙切分結果按照第一概率值的降冪排序，第一概率值最大的詞彙切分結果排在最前面，即語言分析結果中最可能的分析結果排在最前面。

語句分析模組33用於在多種詞彙切分結果的基礎上根據句式構造規則，將語音文字轉換模組31轉換得到的文本資訊進行語句成分劃分，並將語句劃分結果傳輸至分析控制模組34。

分析控制模組34還用於根據語句分析模組33傳輸的語句劃分結果，計算出詞彙切分模組32所切分得到的各種詞彙切分結果的第二概率值，並根據各種詞彙切分結果的第二概率值對該語言分析結果的第一排序方式進行調整，得到語言分析結果的第二排序方式。在一實施方式中，分析控制模組34還用於根據每一種詞彙切分結果的第二概率值將概率值低的詞彙切分結果排除，同時在語言分析結果的第二排序方式中刪除該詞彙切分結果所對應的語言分析結果。其中，詞彙切分結果的第二概率值越低，則根據該詞彙切分結果所對應的語言分析結果得到的理解越會偏離用戶的本意。

處理單元30還包括一段落分析模組35，用於根據上下文理解法對用戶的一預設時段內的文本資訊進行分析，並將段落分析結果傳輸至分析控制模組34。

分析控制模組34還用於根據段落分析模組35傳輸的段落分析結果，計算出詞彙切分模組32所切分得到的各種詞彙切分結果的第三概率值，並根據各種詞彙切分結果的第三概率值對該語言分析結果的第二排序方式進行調整，得到語言分析結果的第三排序方式。在一實施方式中，分析控制模組34還用於根據每一種詞彙切分結果的第三概率值將概率值低的詞彙切分結果排除，同時在語言分析結果的第三排序方式中刪除該詞彙切分結果所對應的語言分析結果。

處理單元30還包括一智慧會話模組36，智慧會話模組36用於根據該第二排序方式中排在最前面的語言分析結果以及語料庫12確定用於回應用戶的該文本資訊的一回復資訊。在一實施方式中，智慧會話模組36根據語言分析結果的第三排序方式以及語料庫12確定一回復資訊。

語音文字轉換模組31還用於將智慧會話模組36所確定的回復資訊轉換為自然語言的文本資訊和/或語音信號；並控制將該文本資訊顯示於顯示單元50和/或將該語音信號通過語音輸出單元60進行播放。

電子設備100還包括一暫存器40，用於暫存語音文字轉換模組31轉換得到的文本資訊、詞彙切分模組32所切分的各個詞彙以及詞彙切分結果、語句分析模組33所劃分的語句成分劃分結果、段落分析模組35所分析得到的分析結果以及分析控制模組34計算得到的概率值及語言分析結果的各種排序方式，即第一排序方式、第二排序方式及第三排序方式。

請參閱圖2，其為本發明的電子設備100的自然語言分析方法的流程圖，用於存儲有語料庫12的電子設備，語料庫12記錄了海量的詞彙以及每一詞彙的使用頻率。該自然語言分析方法包括：

步驟S20，輸入單元20接收用戶的語音和/或文字輸入，將接收的語音和/或文字輸入轉換為電信號。

步驟S21，語音文字轉換模組31將該用戶的語音信號和/或文字輸入信號轉換為一預設的語言的文本資訊。在本實施方式中，該預設的語言為中文，該文本資訊可以為包括一個詞、一句話或一段話的文本資訊。在其他實施方式中，該預設的語言還可以是英文、日文等。

步驟S22，詞彙切分模組32將轉換得到的該文本資訊切分為包括多個詞彙的多種詞彙切分結果。

步驟S23，分析控制模組34從語料庫12中獲取該詞彙切分結果中每一詞彙的使用頻率，在獲取的每一詞彙的使用頻率的基礎上，計算出每一種詞彙切分結果的第一概率值，並將各種詞彙切分結果按照各自的第一概率值排序，得到一語言分析結果的第一排序方式。在本實施方式中，每一種詞彙切分結果對應一種語言分析結果，分析控制模組34將各種詞彙切分結果按照概率值的降冪排序，概率值最大的詞彙切分結果排在最前面，即語言分析結果中最可能的分析結果排在最前面。

步驟S24，語句分析模組33在多種詞彙切分結果的基礎上根據句式構造規則將該文本資訊進行語句成分劃分。

步驟S25，分析控制模組34根據語句分析模組33傳輸的語句劃分結果，計算出詞彙切分模組32所切分得到的各種詞彙切分結果的第二概率值，並根據各種詞彙切分結果的第二概率值對該語言分析結果的第一排序方式進行調整，得到語言分析結果的第二排序方式。在一實施方式中，分析控制模組34還根據每一種詞彙切分結果的第二概率值將概率值低的詞彙切分結果排除，同時在語言分析結果的第二排序方式中刪除該詞彙切分結果所對應的語言分析結果。其中，詞彙切分結果的第二概率值越低，則根據該詞彙切分結果所對應的語言分析結果得到的理解越會偏離用戶的本意。

步驟S26，段落分析模組35根據上下文理解法對用戶的一預設時段內的文本資訊進行分析，並將段落分析結果傳輸至分析控制模組34。

步驟S27，分析控制模組34根據該段落分析結果，計算出詞彙切分模組32所切分得到的各種詞彙切分結果的第三概率值，並根據各種詞彙切分結果的第三概率值對該語言分析結果的第二排序方式進行調整，得到語言分析結果的第三排序方式。在一實施方式中，分析控制模組34還根據每一種詞彙切分結果的第三概率值將概率值低的詞彙切分結果排除，同時在語言分析結果的第三排序方式中刪除該詞彙切分結果所對應的語言分析結果。

步驟S28，智慧會話模組36根據該第三排序方式中排在最前面的語言分析結果以及語料庫12確定用於回應用戶的該文本資訊的一回復資訊。在一實施方式中，智慧會話模組36根據語言分析結果的第二排序方式以及語料庫12確定一回復資訊。

步驟S29，語音文字轉換模組31將該回復資訊轉換為自然語言的文本資訊和/或語音信號；並控制將該文本資訊顯示於顯示單元50和/或將該語音信號通過語音輸出單元進行播放。

使用上述電子設備100及其自然語言分析方法，當用戶啟動電子設備100後，用戶可以通過輸入單元20與電子設備100進行人機會話，通過將用戶的語音和/或文字輸入轉換為一文本資訊，並將該文本資訊切分為多個詞彙的多種詞彙切分結果，並將與多種詞彙切分結果對應的語言分析結果進行排序得到語言分析結果的第一排序方式，再將該文本資訊進行語句劃分，並根據語句劃分結果對語言分析結果的第一排序方式進行調整，得到第二排序方式，最後將該文本資訊進行段落分析，並根據段落分析結果對語言分析結果的第二排序方式進行調整，得到第三排序方式，從而更準確的理解用戶的自然語言，提高了人機會話的效率。

本技術領域的普通技術人員應當認識到，以上的實施方式僅是用來說明本發明，而並非用作為對本發明的限定，只要在本發明的實質精神範圍之內，對以上實施例所作的適當改變和變化都落在本發明要求保護的範圍之內。

100．．．電子設備

10．．．存儲單元

12．．．語料庫

20．．．輸入單元

30．．．處理單元

31．．．語音文字轉換模組

32．．．詞彙切分模組

33．．．語句分析模組

34．．．分析控制模組

35．．．段落分析模組

36．．．智慧會話模組

40．．．暫存器

50．．．顯示單元

60．．．語音輸出單元

圖1為本發明一實施方式的電子設備的功能模組圖。

圖2為本發明中電子設備的自然語言分析方法的步驟流程圖。