TWI553491B - 問句處理系統及其方法 - Google Patents

問句處理系統及其方法 Download PDF

Info

Publication number
TWI553491B
TWI553491B TW103140400A TW103140400A TWI553491B TW I553491 B TWI553491 B TW I553491B TW 103140400 A TW103140400 A TW 103140400A TW 103140400 A TW103140400 A TW 103140400A TW I553491 B TWI553491 B TW I553491B
Authority
TW
Taiwan
Prior art keywords
question
candidate
natural language
processing
correction
Prior art date
Application number
TW103140400A
Other languages
English (en)
Other versions
TW201619850A (zh
Inventor
沈民新
邱中人
張如瑩
張俊盛
Original Assignee
財團法人工業技術研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人工業技術研究院 filed Critical 財團法人工業技術研究院
Priority to TW103140400A priority Critical patent/TWI553491B/zh
Priority to CN201410782497.7A priority patent/CN105760359B/zh
Publication of TW201619850A publication Critical patent/TW201619850A/zh
Application granted granted Critical
Publication of TWI553491B publication Critical patent/TWI553491B/zh

Links

Landscapes

  • Machine Translation (AREA)

Description

問句處理系統及其方法
本揭露係關於一種問句處理系統及其方法,特別是指一種具備容錯能力之問句處理系統及其方法。
習知技術之搜尋引擎或問答系統中,由於其不具備問句容錯能力,因此當使用者輸入含有錯別字詞、火星文(Martian language)、誤用字詞或缺漏字詞之自然語言問句時,可能會造成該搜尋引擎或問答系統誤判該自然語言問句之問句意圖,因而回覆錯誤的答案予該使用者。
第1A圖至第1C圖係分別繪示習知技術中含有火星文、音似之錯別字詞與形似之錯別字詞之自然語言問句之表單。圖中,該些自然語言問句中含有許多不恰當的用語(以底線_標示),例如第1A圖所示之火星文(如注音文),或者第1B圖所示音似之錯別字詞,抑或者第1C圖所示形似之錯別字詞,該些火星文或錯別字詞將明顯地降低搜尋引擎或問答系統對該自然語言問句之回覆答案之正確率。
第2A圖至第2G圖係分別繪示習知技術中以搜尋引擎或自動問答系統提供含有關鍵詞組11、錯別字詞13、火星 文14或誤用字詞15之自然語言問句之答案之網頁。
在第2A圖之搜尋引擎(如Google)中,該搜尋引擎對於例如中文之自然語言問句「日本戰嶺台灣幾年」,雖可將關鍵詞組11「戰嶺」修正為關鍵詞組12「佔領」,並直接以「日本佔領台灣幾年」進行搜尋,但仍無法搜尋到有關「幾年」的正確答案。
在第2B圖之搜尋引擎(如Google)中,該搜尋引擎對於例如中文之自然語言問句「楊傳廣是那一足的」,並無法將錯別字詞13「那一足的」進行修正,以致無法搜尋到適當的答案。
而在第2C圖之搜尋引擎(如Google)中,該搜尋引擎對於例如中文之自然語言問句「鄭成功的ㄐㄩˋ點?」,亦無法將火星文14(如注音文)「ㄐㄩˋ」進行修正,因而無法搜尋到正確的答案。
又在第2D圖之搜尋引擎(如Google)中,該搜尋引擎對於例如英文之自然語言問句「rice plented」,雖可將關鍵詞組11「rice plented」修正為「rice planted」以進行搜尋,但仍無法搜尋到適當的答案。
另在第2E圖之搜尋引擎(如Google)中,該搜尋引擎對於例如英文之自然語言問句「whom is taiwan president」,雖可直接以「who」代替關鍵詞組11「whom」進行搜尋,但仍無法搜尋到正確的答案。
而在第2F圖之自動問答系統(如WorframAlpha)中,該自動問答系統對於例如英文之自然語言問句「where does rice live」,並無法將誤用字詞15「rice live」進行修正,以致回覆錯誤的答案16。
又在第2G圖之自動問答系統(如WorframAlpha)中,該自動問答系統對於例如英文之自然語言問句「Where is the Taiwan President」,也無法將誤用字詞15「Where」進行修正,因而回覆錯誤的答案16。
因此,如何克服上述習知技術的問題,實已成目前亟欲解決的課題。
本揭露係提供一種問句處理系統及其方法,其可具備良好的容錯能力,以提高對自然語言問句之回覆答案之正確率。
本揭露之問句處理系統係應用於具有處理器、記憶體與作業系統之電子裝置中,且該問句處理系統包括一具有錯字處理單元與誤用詞處理單元之問句建構模組以及一問句類別處理模組。該錯字處理單元係偵測並修正自然語言問句之錯別字詞或火星文,以產生一符合該自然語言問句之問句意圖之校正問句。該誤用詞處理單元係分析該校正問句之至少二詞組之搭配關係,並依據該搭配關係修正該校正問句之誤用字詞以產生至少一符合該問句意圖之候選問句。該問句類別處理模組係分析該候選問句以產生該候選問句之問句類別。
本揭露之問句處理方法係應用於具有處理器、記憶體與作業系統之電子裝置中,且該問句處理方法包括:偵測 並修正自然語言問句之錯別字詞或火星文,以產生一符合該自然語言問句之問句意圖之校正問句;分析該校正問句之至少二詞組之搭配關係,並依據該搭配關係修正該校正問句之誤用字詞以產生至少一符合該問句意圖之候選問句;以及分析該候選問句以產生該候選問句之問句類別。
上述之問句處理系統及其方法中,可以缺漏詞處理單元分析該候選問句之缺漏字詞,並自語料庫或同義/近義詞庫中擷取至少一搭配詞以補足該校正問句之缺漏字詞而產生該候選問句。
由上述內容可知,本揭露之問句處理系統及其方法中,主要是透過問句建構模組之錯字處理單元、誤用詞處理單元與缺漏詞處理單元,以分別修正自然語言問句之錯別字詞、火星文、誤用字詞及缺漏字詞,並透過問句類別處理模組分析該自然語言問句之問句類別。
藉此,本揭露能具備良好的容錯能力,以容忍該自然語言問句之錯別字詞、火星文、誤用字詞及缺漏字詞,並降低對該自然語言問句之問句意圖之分析錯誤所造成之影響,進而提高對該自然語言問句之回覆答案之正確率。
11、12‧‧‧關鍵詞組
13‧‧‧錯別字詞
14‧‧‧火星文
15‧‧‧誤用字詞
16‧‧‧答案
2‧‧‧問句處理系統
20‧‧‧使用者介面
21‧‧‧問句建構模組
211‧‧‧錯字處理單元
211a‧‧‧翻譯模型
211b‧‧‧語言模型
212‧‧‧誤用詞處理單元
213‧‧‧缺漏詞處理單元
214‧‧‧關鍵詞組擷取單元
22‧‧‧問句類別處理模組
23‧‧‧語料庫
24‧‧‧同義/近義詞庫
25‧‧‧知識庫
26‧‧‧段落檢索模組
261‧‧‧文件
262‧‧‧段落
27‧‧‧答案處理模組
271‧‧‧答案
41‧‧‧自然語言問句
42‧‧‧候選問句
43、44‧‧‧關鍵詞組
S31至S36‧‧‧步驟
第1A圖至第1C圖係分別繪示習知技術中含有火星文、音似之錯別字詞與形似之錯別字詞之自然語言問句之表單;第2A圖至第2G圖係分別繪示習知技術中以搜尋引擎搜尋或自動問答系統提供含有關鍵詞組、錯別字詞、火星 文或誤用字詞之自然語言問句之答案之網頁;第3圖係繪示本揭露之問句處理系統之方塊示意圖;第4圖係繪示本揭露之問句處理方法之流程示意圖;以及第5圖係繪示本揭露之問句處理系統及其方法之實施例示意圖。
以下藉由特定的具體實施形態說明本揭露之實施方式,熟悉此技術之人士可由本說明書所揭示之內容輕易地了解本揭露之其他優點與功效,亦可藉由其他不同的具體實施形態加以施行或應用。
第3圖係繪示本揭露之問句處理系統2之方塊示意圖。如圖所示,問句處理系統2可應用於具有處理器、記憶體與作業系統之電子裝置中,且該問句處理系統2主要包括一使用者介面(User Interface,UI)20、一具有錯字處理單元211與誤用詞處理單元212之問句建構模組21、以及一問句類別處理模組22。該電子裝置可為個人電腦、平板電腦、筆記型電腦、網路伺服器、雲端伺服器、行動電話或智慧型手機等。
該使用者介面20係供使用者輸入自然語言問句,且該自然語言問句可為中文、英文或各種的語言。該錯字處理單元211係偵測並修正該自然語言問句之錯別字詞或火星文,以產生一符合該自然語言問句之問句意圖之校正問句。
具體而言,該錯字處理單元211可依據錯別字偵測法 或火星文轉譯法,以偵測並修正該自然語言問句之錯別字詞或火星文,且該錯字處理單元211可具有翻譯模型211a與語言模型(Language Model)211b。
該翻譯模型211a係提供該自然語言問句之錯別字詞或火星文之修正資料,例如:(1)音似或形似之錯誤字、(2)詞組之字彙之特徵值(如同偏旁、同字首、部首差別、部首筆劃差、偏旁筆劃差、注音差或調號差)、(3)易混淆字彙(如躁vs.燥)。
又,該語言模型211b係依據該修正資料修正該自然語言問句之錯別字詞或火星文以產生該校正問句,且該語言模型211b可為以n-連詞為基礎之統計式語言模型(Statistical Language Model,SLM)、或類神經網路語言模型(Neural Network-based Language Modeling,NNLM)等。該語言模型211b可具有解碼單元(decoder)以轉換一個中文字、一個注音符號或一串完整的注音符號至原字、音似/形似字或注音之對應字。
上述之錯別字詞可例如為習知技術第1B圖所示音似之錯別字詞、或第1C圖所示形似之錯別字詞,且該錯別字詞可為該自然語言問句之疑問詞(question words)或功能詞(function words)等,該功能詞可為限定詞(如這,一隻,我的)、代名詞(如你,我,他)、前置詞/介系詞/後置詞(如上,下,為了)、或連接詞(如和,或,如果)等。該火星文可例如為習知技術第1A圖所示之注音文,亦可為表情符號(如*,#,!)等。
舉例而言,在例如中文之自然語言問句中,該錯字處理單元211可偵測使用者所輸入之自然語言問句「水稻住在舍麼ㄉ」之錯別字詞「舍」與火星文「ㄉ」,並依據該自然語言問句之問句意圖將「舍」與「ㄉ」分別修正為正確字詞「什」與「地」,亦即將該自然語言問句「水稻住在舍麼ㄉ」修正為校正問句「水稻住在什麼地」。
該誤用詞處理單元212係分析該校正問句之至少二詞組之搭配關係,並依據該搭配關係修正該校正問句之誤用字詞以產生至少一符合該問句意圖之候選問句。
詳言之,該誤用詞處理單元212係分析該問句意圖與該校正問句之至少二詞組之語境(context)是否衝突,並於發生衝突時依據該語境且自語料庫23或同義/近義詞庫24中擷取至少一第一搭配詞,以利用該第一搭配詞修正該校正問句之誤用字詞而產生該候選問句,使得該候選問句之詞組之語境不具有衝突且符合該問句意圖。
例如,該誤用詞處理單元212分析出該校正問句「水稻住在什麼地」中,三個詞組「水稻」、「住」與「地」之搭配關係較差並具有衝突性,因「水稻」通常不與「住」共用在同一問句中,而且該詞組「住」應為誤用字詞,故該誤用詞處理單元212可依據該三個詞組之搭配關係以擷取至少一第一搭配詞「種植」或「栽種」來修正該詞組「住」,亦即將該校正問句「水稻住在什麼地」修正為符合該問句意圖之候選問句「水稻種植在什麼地」或「水稻栽植在什麼地」...等等。
該問句類別處理模組22係分析該候選問句以產生該候選問句之問句類別,且該問句類別可為人、事、時、地、物、數量、質量、速度、高度、尺寸...等各種類型或種類。
該問句建構模組21亦可具有缺漏詞處理單元213,係分析該候選問句之缺漏字詞,並自該語料庫23或同義/近義詞庫24中擷取至少一第二搭配詞,以利用該第二搭配詞補足該校正問句之缺漏字詞而產生該候選問句,使得該候選問句之詞組之語境完整且符合該問句意圖。
例如,該缺漏詞處理單元213分析出該候選問句「水稻種植在什麼地」或「水稻栽植在什麼地」中,「地」應為「地方」或「地區」之意,則該缺漏詞處理單元213擷取至少一第二搭配詞「地方」或「地區」以修正「地」並加上問號「?」,藉以補足該校正問句之缺漏字詞而產生完整的候選問句,亦即將該候選問句「水稻種植在什麼地」或「水稻栽植在什麼地」修正為「水稻種植在什麼地方?」、「水稻種植在什麼地區?」、「水稻栽植在什麼地方?」或「水稻栽植在什麼地區?」...等等。
上述至少一候選問句可為複數最優先之候選問句,且該問句類別處理模組22可依據問句分類模型與知識庫25,以分析該些最優先之候選問句而產生該些最優先之候選問句之問句類別。
該問句分類模型可包括混合分類法(hybrid approaches)、正規表示規則(regular expression rule)、機器學習分類器(classifier for machine learning)、支援向量機 (support vector machine,SVM)、最大熵函數分類器(Maximum Entropy classifier)、或決策樹分類器(decision tree classifier)等。
該知識庫25可提供對應該些最優先之候選問句之問句類別之資料,例如:最優先之候選問句為「至聖先師是哪一位?」,則該知識庫25提供該問句類別為「人」。該知識庫25也可提供對應該些最優先之候選問句之問句類別之規則,例如:假如「有」字後面或前面接「哪些人」、「哪位」或「哪幾位」,則該知識庫25提供該問句類別為「人」;或者,假如「要」字後面接「多久」,則該知識庫25提供該問句類別為「時」。
該問句類別處理模組22可依據該些最優先之候選問句之信心分數重新排序該些最優先之候選問句,並自該些最優先之候選問句中擷取超過預定之信心分數門檻值且具有最高信心分數者作為第一優先之候選問句。
例如,該問句類別處理模組22可重新排序上述之候選問句「水稻種植在什麼地方?」、「水稻種植在什麼地區?」、「水稻栽植在什麼地方?」與「水稻栽植在什麼地區?」,並以「水稻栽植在什麼地區?」作為該第一優先之候選問句。
該問句建構模組21可具有關鍵詞組擷取單元214,係依據該第一優先之候選問句產生至少一關鍵詞組或一問句建構結果。例如,該關鍵詞組擷取單元214可自該第一優先之候選問句「水稻栽植在什麼地區?」中產生三個關鍵 詞組「水稻」、「栽種」及「地區」,或者產生一個問句建構結果「水稻栽種地區」。
該問句處理系統2可包括段落檢索模組26與答案處理模組27,該段落檢索模組26係自至少一文件261中擷取符合該第一優先之候選問句之關鍵詞組或問句建構結果之段落262,而該答案處理模組27係自該段落262中擷取符合該第一優先之候選問句之問句類別之答案271,以將該答案271(或包括該段落262)顯示於該使用者介面20。
第4圖係繪示本揭露之問句處理方法之流程示意圖,第5圖係繪示本揭露之問句處理系統2及其方法之實施例示意圖,請一併參閱上述第3圖之問句處理系統2。
本揭露之問句處理方法可應用於具有處理器、記憶體與作業系統之電子裝置中,且該電子裝置可為個人電腦、平板電腦、筆記型電腦、網路伺服器、雲端伺服器、行動電話或智慧型手機等。同時,本揭露之問句處理方法主要包括下列步驟:
(1)如第4圖之步驟S31與第5圖所示,在小學生知識問答系統中,先由使用者自使用者介面20中輸入自然語言問句41「水稻住在舍麼ㄉ」,並由該問句處理系統2接收該自然語言問句41。接著,進至步驟S32。
(2)如第4圖之步驟S32所示,由問句建構模組21之錯字處理單元211偵測並修正該自然語言問句41之錯別字詞或火星文,以產生一符合該自然語言問句41之問句意圖之校正問句。
具體而言,該錯字處理單元211可依據錯別字偵測法或火星文轉譯法,以偵測並修正該自然語言問句41之錯別字詞或火星文。同時,該錯字處理單元211可具有翻譯模型211a與語言模型211b,該翻譯模型211a係提供該自然語言問句41之錯別字詞或火星文之修正資料,且該語言模型211b係依據該修正資料修正該自然語言問句41之錯別字詞或火星文以產生該校正問句。
例如,該錯字處理單元211可偵測該自然語言問句「水稻住在舍麼ㄉ」之錯別字詞「舍」與火星文「ㄉ」,並依據該自然語言問句41之問句意圖將「舍」與「ㄉ」分別修正為正確字詞「什」與「地」,亦即將該自然語言問句「水稻住在舍麼ㄉ」修正為校正問句「水稻住在什麼地」。接著,進至步驟S33。
(3)如第4圖之步驟S33所示,由該問句建構模組21之誤用詞處理單元212分析該校正問句之至少二詞組之搭配關係,並依據該搭配關係修正該校正問句之誤用字詞。同時,可由該問句建構模組21之缺漏詞處理單元213補足該校正問句之缺漏字詞而產生一或複數最優先之候選問句。
詳言之,該誤用詞處理單元212係分析該問句意圖與該校正問句之至少二詞組之語境是否衝突,並於發生衝突時依據該語境自語料庫23或同義/近義詞庫24中擷取至少一第一搭配詞,以依據該第一搭配詞修正該校正問句之誤用字詞而產生該候選問句,使得該候選問句之詞組之語境 不具有衝突且符合該問句意圖。
例如,該誤用詞處理單元212分析出該校正問句「水稻住在什麼地」中,三個詞組「水稻」、「住」與「地」之搭配關係較差並具有衝突性,因「水稻」通常不與「住」共用在同一問句中,而且該詞組「住」應為誤用字詞,故該誤用詞處理單元212可依據該三個詞組之搭配關係,以擷取至少一第一搭配詞「種植」或「栽種」來修正該詞組「住」,亦即將校正問句「水稻住在什麼地」修正為符合該問句意圖之候選問句「水稻種植在什麼地」或「水稻栽植在什麼地」...等等。
而該缺漏詞處理單元213係分析該候選問句之缺漏字詞,並自該語料庫23或同義/近義詞庫24中擷取至少一第二搭配詞,以利用該第二搭配詞補足該校正問句之缺漏字詞而產生該候選問句,使得該候選問句之詞組之語境完整且符合該問句意圖。
例如,該缺漏詞處理單元213分析出該候選問句「水稻種植在什麼地」或「水稻栽植在什麼地」中,「地」應為「地方」或「地區」之意,則該缺漏詞處理單元213擷取至少一第二搭配詞「地方」或「地區」修正「地」並加上問號「?」,藉以補足該校正問句之缺漏字詞而產生完整的候選問句,亦即將該候選問句「水稻種植在什麼地」或「水稻栽植在什麼地」修正為「水稻種植在什麼地方?」、「水稻種植在什麼地區?」、「水稻栽植在什麼地方?」或「水稻栽植在什麼地區?」...等等。接著,進至步驟S34。
(4)如第4圖之步驟S34所示,由問句類別處理模組22依據問句分類模型與知識庫25分析該些最優先之候選問句以產生該些最優先之候選問句之問句類別。
另外,可由該問句類別處理模組22依據該些最優先之候選問句之信心分數重新排序該些最優先之候選問句,並自該些最優先之候選問句中擷取超過預定之信心分數門檻值且具有最高信心分數者作為第一優先之候選問句。
例如,該問句類別處理模組22可重新排序上述之候選問句「水稻種植在什麼地方?」、「水稻種植在什麼地區?」、「水稻栽植在什麼地方?」與「水稻栽植在什麼地區?」,並以「水稻栽植在什麼地區?」作為該第一優先之候選問句,如第5圖所示「我猜你想問“水稻栽植在什麼地區?”」之候選問句42「水稻栽植在什麼地區?」。接著,進至步驟S35。
(5)如第4圖之步驟S35所示,由該問句建構模組21之關鍵詞組擷取單元214依據該第一優先之候選問句產生至少一關鍵詞組或一問句建構結果。例如,自該第一優先之候選問句「水稻栽植在什麼地區?」中,產生如第5圖所示之關鍵詞組43「稻」及關鍵詞組44「栽種」等,或者產生一個問句建構結果「水稻栽植地區」。接著,進至步驟S36。
(6)如第4圖之步驟S36所示,由段落檢索模組26自至少一文件261中擷取符合該第一優先之候選問句之關鍵詞組或問句建構結果之段落262,並由答案處理模組27自 該段落262中擷取符合該第一優先之候選問句之問句類別之答案271,以將該答案271(或包括該段落262)顯示於該使用者介面20上。
例如,自第5圖所示維基百科之文件中擷取符合關鍵詞組43「稻」及關鍵詞組44「栽種」之段落,並將答案「水稻在中國大陸廣為栽種後,逐漸向西傳播到印度,中世紀引入歐洲幹部,現時全世界有一半的人口食用稻,主要在亞洲、歐洲幹部和熱帶美洲及非洲部分地區」顯示於該使用者介面20上。而且,該答案可以是上述之一個段落,也可以是一個簡單答案,如「中國大陸」。
同理,在例如英文之自然語言問句中,一樣可以採用上述第3圖之問句處理系統2與第4圖之問句處理方法,下列以一個例子簡單說明之。
(1)如同上述第3圖與第4圖之步驟S31所示,由使用者自使用者介面20輸入自然語言問句41「What does rice live?」,並由該問句處理系統2接收該自然語言問句41。
(2)如同上述第3圖與第4圖之步驟S32所示,由問句建構模組21之錯字處理單元211偵測並修正該自然語言問句41「What does rice live?」之錯別字詞或火星文,以產生一符合該自然語言問句41之問句意圖之校正問句。
因該錯字處理單元211並未偵測到該自然語言問句41「What does rice live?」中含有錯別字詞或火星文,也符合該自然語言問句41之問句意圖,故可直接以該自然語言問句41作為該校正問句「What does rice live?」。
(3)如同上述第3圖與第4圖之步驟S33所示,由該問句建構模組21之誤用詞處理單元212分析該校正問句之至少二詞組「Where」、「does」及「live」之搭配關係,並依據該搭配關係修正該校正問句之誤用字詞「live」為正確字詞「grown」或「planted」。
同時,可由該問句建構模組21之缺漏詞處理單元213補足該校正問句之缺漏字詞而產生一或複數最優先之候選問句。因該校正問句「What does rice live?」中並未含有缺漏字詞,故該缺漏詞處理單元213可直接產生一或複數最優先之候選問句,例如該候選問句為「where does rice grown?」與「where is rice planted?」。
(4)如同上述第3圖與第4圖之步驟S34所示,由問句類別處理模組22依據問句分類模型與知識庫25分析該些最優先之候選問句,以產生該些最優先之候選問句之問句類別,例如該問句類別為「where」。
另外,可由該問句類別處理模組22依據該些最優先之候選問句之信心分數重新排序該些最優先之候選問句,並自該些最優先之候選問句中擷取超過預定之信心分數門檻值且具有最高信心分數者作為第一優先之候選問句,例如該第一優先之候選問句為「where does rice grown?」。
(5)如同上述第3圖與第4圖之步驟S35所示,由該問句建構模組21之關鍵詞組擷取單元214依據該第一優先之候選問句產生至少一關鍵詞組或一問句建構結果,例如該關鍵詞組為「where」、「rice」及「grown」,或者該問句建 構結果為「where rice grown」。
(6)如同上述第3圖與第4圖之步驟S36所示,由段落檢索模組26自至少一文件261中擷取符合該第一優先之候選問句之關鍵詞組或問句建構結果之段落262,並由答案處理模組27自該段落262中擷取符合第一優先之候選問句之問句類別之答案271,以將該答案271(或包括該段落262)顯示於該使用者介面20上。
由上述內容可知,本揭露之問句處理系統及其方法中,主要是透過問句建構模組之錯字處理單元、誤用詞處理單元與缺漏詞處理單元,以分別修正自然語言問句之錯別字詞、火星文、誤用字詞及缺漏字詞,並透過問句類別處理模組分析該自然語言問句之問句類別。
藉此,本揭露能具備良好的容錯能力,以容忍該自然語言問句之錯別字詞、火星文、誤用字詞及缺漏字詞,並降低對該自然語言問句之問句意圖之分析錯誤所造成之影響,進而提高對該自然語言問句之回覆答案之正確率。
上述實施形態僅例示性說明本揭露之原理、特點及其功效,並非用以限制本揭露之可實施範疇,任何熟習此項技藝之人士均可在不違背本揭露之精神及範疇下,對上述實施形態進行修飾與改變。任何運用本揭露所揭示內容而完成之等效改變及修飾,均仍應為下述之申請專利範圍所涵蓋。因此,本揭露之權利保護範圍,應如申請專利範圍所列。
2‧‧‧問句處理系統
20‧‧‧使用者介面
21‧‧‧問句建構模組
211‧‧‧錯字處理單元
211a‧‧‧翻譯模型
211b‧‧‧語言模型
212‧‧‧誤用詞處理單元
213‧‧‧缺漏詞處理單元
214‧‧‧關鍵詞組擷取單元
22‧‧‧問句類別處理模組
23‧‧‧語料庫
24‧‧‧同義/近義詞庫
25‧‧‧知識庫
26‧‧‧段落檢索模組
261‧‧‧文件
262‧‧‧段落
27‧‧‧答案處理模組
271‧‧‧答案

Claims (17)

  1. 一種問句處理系統,係應用於具有處理器、記憶體與作業系統之電子裝置中,該問句處理系統包括:問句建構模組,係具有:錯字處理單元,係偵測並修正自然語言問句之錯別字詞或火星文,以產生一符合該自然語言問句之問句意圖之校正問句;以及誤用詞處理單元,係分析該校正問句之至少二詞組之搭配關係,並依據該搭配關係修正該校正問句之誤用字詞以產生至少一符合該問句意圖之候選問句,其中,該至少一候選問句係為複數最優先之候選問句;以及問句類別處理模組,係藉由問句分類模型與知識庫分析該些最優先之候選問句以產生該些最優先之候選問句之問句類別。
  2. 如申請專利範圍第1項所述之問句處理系統,更包括使用者介面,係供使用者輸入該自然語言問句。
  3. 如申請專利範圍第1項所述之問句處理系統,其中,該錯字處理單元係依據錯別字偵測法或火星文轉譯法,以偵測並修正該自然語言問句之錯別字詞或火星文。
  4. 如申請專利範圍第1項所述之問句處理系統,其中,該錯字處理單元係具有翻譯模型與語言模型,該翻譯模型係提供該自然語言問句之錯別字詞或火星文之修 正資料,該語言模型係依據該修正資料修正該自然語言問句之錯別字詞或火星文以產生該校正問句。
  5. 如申請專利範圍第1項所述之問句處理系統,其中,該誤用詞處理單元係分析該問句意圖與該校正問句之詞組之語境,並依據該語境自語料庫或同義/近義詞庫中擷取至少一第一搭配詞以修正該校正問句之誤用字詞而產生該候選問句。
  6. 如申請專利範圍第1項所述之問句處理系統,其中,該問句建構模組更具有缺漏詞處理單元,係分析該候選問句之缺漏字詞,並自語料庫或同義/近義詞庫中擷取至少一第二搭配詞以補足該校正問句之缺漏字詞而產生該候選問句。
  7. 如申請專利範圍第1項所述之問句處理系統,其中,該問句類別處理模組更依據該些最優先之候選問句之信心分數重新排序該些最優先之候選問句,並自該些最優先之候選問句中擷取具有最高信心分數者作為第一優先之候選問句。
  8. 如申請專利範圍第7項所述之問句處理系統,其中,該問句建構模組更具有關鍵詞組擷取單元,係依據該第一優先之候選問句產生至少一關鍵詞組或一問句建構結果。
  9. 如申請專利範圍第8項所述之問句處理系統,更包括段落檢索模組與答案處理模組,該段落檢索模組係自文件中擷取符合該第一優先之候選問句之關鍵詞組或 問句建構結果之段落,該答案處理模組係自該段落中擷取符合該第一優先之候選問句之問句類別之答案。
  10. 一種問句處理方法,係應用於具有處理器、記憶體與作業系統之電子裝置中,該問句處理方法包括:偵測並修正自然語言問句之錯別字詞或火星文,以產生一符合該自然語言問句之問句意圖之校正問句;分析該校正問句之至少二詞組之搭配關係,並依據該搭配關係修正該校正問句之誤用字詞以產生至少一符合該問句意圖之候選問句,其中,該至少一候選問句係為複數最優先之候選問句;以及藉由問句分類模型與知識庫分析該些最優先之候選問句以產生該些最優先之候選問句之問句類別。
  11. 如申請專利範圍第10項所述之問句處理方法,更包括依據錯別字偵測法或火星文轉譯法以偵測並修正該自然語言問句之錯別字詞或火星文。
  12. 如申請專利範圍第10項所述之問句處理方法,更包括提供該自然語言問句之錯別字詞或火星文之修正資料,並依據該修正資料修正該自然語言問句之錯別字詞或火星文以產生該校正問句。
  13. 如申請專利範圍第10項所述之問句處理方法,更包括分析該問句意圖與該校正問句之詞組之語境,並依據該語境自語料庫或同義/近義詞庫中擷取至少一第一搭配詞以修正該校正問句之誤用字詞而產生該候選問 句。
  14. 如申請專利範圍第10項所述之問句處理方法,更包括分析該候選問句之缺漏字詞,並自語料庫或同義/近義詞庫中擷取至少一第二搭配詞以補足該校正問句之缺漏字詞而產生該候選問句。
  15. 如申請專利範圍第10項所述之問句處理方法,更包括依據該些最優先之候選問句之信心分數重新排序該些最優先之候選問句,並自該些最優先之候選問句中擷取具有最高信心分數者作為第一優先之候選問句。
  16. 如申請專利範圍第15項所述之問句處理方法,更包括依據該第一優先之候選問句產生至少一關鍵詞組或一問句建構結果。
  17. 如申請專利範圍第16項所述之問句處理方法,更包括自文件中擷取符合該第一優先之候選問句之關鍵詞組或問句建構結果之段落,並自該段落中擷取符合該第一優先之候選問句之問句類別之答案。
TW103140400A 2014-11-21 2014-11-21 問句處理系統及其方法 TWI553491B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW103140400A TWI553491B (zh) 2014-11-21 2014-11-21 問句處理系統及其方法
CN201410782497.7A CN105760359B (zh) 2014-11-21 2014-12-17 问句处理系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103140400A TWI553491B (zh) 2014-11-21 2014-11-21 問句處理系統及其方法

Publications (2)

Publication Number Publication Date
TW201619850A TW201619850A (zh) 2016-06-01
TWI553491B true TWI553491B (zh) 2016-10-11

Family

ID=56335582

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103140400A TWI553491B (zh) 2014-11-21 2014-11-21 問句處理系統及其方法

Country Status (2)

Country Link
CN (1) CN105760359B (zh)
TW (1) TWI553491B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6819990B2 (ja) * 2016-08-16 2021-01-27 国立研究開発法人情報通信研究機構 対話システム及びそのためのコンピュータプログラム
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN108573696B (zh) * 2017-03-10 2021-03-30 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
TWI678686B (zh) * 2018-08-23 2019-12-01 國立臺灣師範大學 互動式教育方法及教學電子裝置
CN110598222B (zh) * 2019-09-12 2023-05-30 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置
JP7264115B2 (ja) * 2020-05-28 2023-04-25 Jfeスチール株式会社 情報検索システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI226560B (en) * 2003-12-31 2005-01-11 Lin Guei Mei Information system with natural language parsing ability and processing method thereof
US20050210383A1 (en) * 2004-03-16 2005-09-22 Silviu-Petru Cucerzan Systems and methods for improved spell checking

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10269204A (ja) * 1997-03-28 1998-10-09 Matsushita Electric Ind Co Ltd 中国語文書自動校正方法及びその装置
CN1228565A (zh) * 1997-07-18 1999-09-15 睿扬资讯股份有限公司 电脑文档自动检错、改错装置及方法
CN1442787A (zh) * 2002-03-01 2003-09-17 何万贯 作文修改写作系统
JP2004127003A (ja) * 2002-10-03 2004-04-22 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答装置、質問応答プログラム及び記録媒体
JP4039282B2 (ja) * 2003-03-17 2008-01-30 富士ゼロックス株式会社 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
CN100416570C (zh) * 2006-09-22 2008-09-03 浙江大学 一种基于问答库的中文自然语言问答方法
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101287228A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的拼音纠错技术及装置
CN101287229A (zh) * 2008-05-26 2008-10-15 北京捷讯畅达科技发展有限公司 应用于手机短信查询的自然语言处理技术及装置
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101414310A (zh) * 2008-10-17 2009-04-22 山西大学 一种自然语言搜索的方法和装置
CN101727271B (zh) * 2008-10-22 2012-11-14 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统
CN101847140B (zh) * 2009-03-23 2012-04-18 中国科学院计算技术研究所 一种错别字符处理方法和系统
CN101630312A (zh) * 2009-08-19 2010-01-20 腾讯科技(深圳)有限公司 一种用于问答平台中问句的聚类方法及系统
CN102456001B (zh) * 2010-10-27 2014-11-26 北京四维图新科技股份有限公司 错别字的检查方法和装置
CN102737042B (zh) * 2011-04-08 2015-03-25 北京百度网讯科技有限公司 建立问句生成模型的方法和装置以及问句生成方法和装置
CN103927329B (zh) * 2014-03-19 2017-03-29 北京奇虎科技有限公司 一种即时搜索方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI226560B (en) * 2003-12-31 2005-01-11 Lin Guei Mei Information system with natural language parsing ability and processing method thereof
US20050210383A1 (en) * 2004-03-16 2005-09-22 Silviu-Petru Cucerzan Systems and methods for improved spell checking
US20070106937A1 (en) * 2004-03-16 2007-05-10 Microsoft Corporation Systems and methods for improved spell checking

Also Published As

Publication number Publication date
TW201619850A (zh) 2016-06-01
CN105760359A (zh) 2016-07-13
CN105760359B (zh) 2020-03-20

Similar Documents

Publication Publication Date Title
TWI553491B (zh) 問句處理系統及其方法
US10176804B2 (en) Analyzing textual data
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
Derczynski et al. Microblog-genre noise and impact on semantic annotation accuracy
US9910886B2 (en) Visual representation of question quality
US7584092B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
KR102025968B1 (ko) 구문 기반 사전 추출 및 번역 품질 평가 기법
US7546235B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
JP5356197B2 (ja) 単語意味関係抽出装置
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
US10896222B1 (en) Subject-specific data set for named entity resolution
US10997223B1 (en) Subject-specific data set for named entity resolution
US20060106592A1 (en) Unsupervised learning of paraphrase/ translation alternations and selective application thereof
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
KR102100951B1 (ko) 기계 독해를 위한 질의응답 데이터 생성 시스템
US20180157646A1 (en) Command transformation method and system
US10452785B2 (en) Translation assistance system, translation assistance method and translation assistance program
CN106610990A (zh) 情感倾向性分析的方法及装置
Ganfure et al. Design and implementation of morphology based spell checker
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
CN102609410A (zh) 规范文档辅助写作系统及规范文档生成方法
Chiu et al. Chinese spell checking based on noisy channel model