TWI635406B - 字串辨識方法與機器學習方法 - Google Patents

字串辨識方法與機器學習方法 Download PDF

Info

Publication number
TWI635406B
TWI635406B TW105138999A TW105138999A TWI635406B TW I635406 B TWI635406 B TW I635406B TW 105138999 A TW105138999 A TW 105138999A TW 105138999 A TW105138999 A TW 105138999A TW I635406 B TWI635406 B TW I635406B
Authority
TW
Taiwan
Prior art keywords
keyword
string
content
prefix
suffix
Prior art date
Application number
TW105138999A
Other languages
English (en)
Other versions
TW201820177A (zh
Inventor
陳重江
莊家裕
彭少良
吳德毅
Original Assignee
英業達股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 英業達股份有限公司 filed Critical 英業達股份有限公司
Priority to TW105138999A priority Critical patent/TWI635406B/zh
Publication of TW201820177A publication Critical patent/TW201820177A/zh
Application granted granted Critical
Publication of TWI635406B publication Critical patent/TWI635406B/zh

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一種字串辨識方法,包含:依據字串內容,從多個關鍵字資料庫中選取對應的關鍵字資料庫,其中該關鍵字資料庫定義有至少一字首關鍵字。比對該字串內容與該至少一字首關鍵字。當該字串內容對應於該至少一字首關鍵字其中之一時,依照對應的該字首關鍵字的定義更新該字串內容。當該字串內容不對應於該至少一字首關鍵字其中任一時,選擇性地結束程序,並輸出更新的該字串內容。

Description

字串辨識方法與機器學習方法
本發明係關於一種字串辨識方法與機器學習方法,特別關於降低資訊離散度的字串辨識方法與機器學習方法。
深度學習、類神經網路等人工智慧技術於近年來快速地發展。人工智慧領域中另一個重要的技術是機器學習。其中一種機器學習的方法通常是提供大量文件給計算機裝置,使計算機裝置從大量文件中建構出特定的判讀原則以及對應的其他人工智慧運作原則。
然而,於某些領域中,文件帶有大量的縮寫、代號,而且每個人可能用不同的代號、縮寫來指涉同一件事。而對於計算機裝置來說,不同的代號、縮寫就會被判讀成不同的事物。因此,如何增進計算機裝置判讀代號、縮寫的能力,為有待克服的方法。
有鑑於上述問題,本發明旨在提供一種字串辨識方法與應用此方法的機器學習方法。以增進計算機裝置判讀代號與縮寫的能力。
依據本發明一實施例的字串辨識方法,包含:依據字串內容,從多個關鍵字資料庫中選取對應的關鍵字資料庫,其中該關鍵字資料庫定義有至少一字首關鍵字;比對該字串內容與該至少一字首關鍵字;當該字串內容對應於該至少一字首關鍵字其中之一時,依照對應的該字首關鍵字的定義更新該字串內容;以及當該字串內容不對應於該至少一字首關鍵字其中任一時,選擇性地結束程序,並輸出更新的該字串內容。
依據本發明一實施例的機器學習方法,於前述字串辨識方法之後,依據更新的該字串內容進行機器學習。本發明關聯於一種自然語言處理方法,可有效解決現行物聯網架構中關於字串辨識及機器學習所存在的問題。
以上之關於本揭露內容之說明及以下之實施方式之說明係用以示範與解釋本發明之精神與原理,並且提供本發明之專利申請範圍更進一步之解釋。
以下在實施方式中詳細敘述本發明之詳細特徵以及優點,其內容足以使任何熟習相關技藝者了解本發明之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本發明相關之目的及優點。以下之實施例係進一步詳細說明本發明之觀點,但非以任何觀點限制本發明之範疇。
依據本發明一實施例的字串辨識方法如圖1所示,有下列步驟,其中下列步驟可以用具有一個處理器與一個儲存媒介的計算機裝置來執行。如步驟S110,依據字串內容,從多個關鍵字資料庫中選取對應的關鍵字資料庫,其中該關鍵字資料庫定義有至少一字首關鍵字。步驟S120,比對該字串內容與該至少一字首關鍵字。步驟S130,當該字串內容對應於該至少一字首關鍵字其中之一時,依照對應的該字首關鍵字的定義更新該字串內容。步驟S140,當該字串內容不對應於該至少一字首關鍵字其中任一時,選擇性地結束程序,並輸出更新的該字串內容。
於一實施例中,步驟S110係依據該字串的一個或多個起始字元,於該些關鍵字資料庫搜尋對應的一字首關鍵字,以確定該字串內容對應的該關鍵字資料庫。舉例來說,當得到一個字串WIN2008_xxx R2 x64,則依據其起始字元WIN,判斷可能指涉Windows,因此是應該搜尋關於微軟的產品的關鍵字資料庫。
然而,如果得到的字串是W2008 R2 x64,而關鍵字資料庫中沒有一個關鍵字是W時,由字根關鍵字2008及/或字尾關鍵字R2,尋找有這兩個關鍵字的關鍵字資料庫。因此可以找到微軟產品的關鍵字資料庫。並且關鍵字2008與關鍵字R2對應到的是跟Windows有關的字首,因此計算機可以判斷W可能指涉的是Windows。因此計算機將W新增為字首關鍵字,其定義為Windows。關於關鍵字資料庫定義方式例如表1所示。
表1 <TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td> 關鍵字 </td><td> 定義 </td></tr><tr><td> W </td><td> WINDOWS </td></tr><tr><td> WIN </td></tr><tr><td> 視窗 </td></tr><tr><td> 2008 </td><td> 2008 </td></tr><tr><td> 08 </td></tr><tr><td> SP </td><td> Service pack </td></tr><tr><td> R </td><td> Release, Service pack </td></tr></TBODY></TABLE>
於一實施例中,關鍵字資料庫中的每個字首關鍵字會有對應的字根關鍵字,以前述Windows的例子來說,字根關鍵字例如為95、98、ME、2000、XP、2008、Vista、7、8、10等等。而於步驟S130中,比對字串內容與前述的字根關鍵字。當該字串內容對應於該至少一字根關鍵字其中之一時,依照對應的該字根關鍵字的定義更新該字串內容。以前述例子來說,會判斷2008_xxx應該是對應到字根關鍵字2008,並對應的更新字串內容。當該字串內容不對應於該至少一字根關鍵字其中任一時,選擇性地結束程序,並輸出更新的該字串內容。舉例來說,一個字串W2007要在微軟產品關鍵字資料庫中的Windows關鍵字下就會找不到對應的字根關鍵字,因此在Windows關鍵字下搜尋的程序可以被終結。此時,計算機裝置可以重新判斷字元W對應的字首關鍵字W是指涉的定義是Word,因此計算機裝置將W2007更新為Word2007,並繼續進一步的搜尋與更新字串的程序。在自然語言處理技術中,尋找字根關鍵字、字首關鍵字、字尾關鍵字等技術已經相當成熟,在此不加以贅述。
於一實施例中,關鍵字資料庫中的每個字首關鍵字會有對應的字尾關鍵字,以前述Windows的例子來說,字尾關鍵字例如為x32、x64、R2等等。而於步驟S130中,比對該字串內容與該至少一字尾關鍵字。當該字串內容對應於該至少一字尾關鍵字其中之一時,依照對應的該字尾關鍵字的定義更新該字串內容。當該字串內容不對應於該至少一字尾關鍵字其中任一時,選擇性地結束程序,並輸出更新的該字串內容。其程序類似於字根關鍵字的處理,因此於此不再贅述。於一實施例中,當搜尋字串中可能的字尾關鍵字時,係從該字串內容中對應該字首關鍵字的字元起,比對每一字元是否對應於該至少一字尾關鍵字其中之一。舉例來說,於 W2008 R2 x64這個字串中,當判斷W是字首關鍵字,則往後的2008不是字尾關鍵字,接著往後尋找R是字尾關鍵字。
因此,前述的字串辨識方法,其關鍵字資料庫的每一個字首關鍵字對應於一個或多個字根關鍵字與一個及/或多個字尾關鍵字。反之亦然,因此於一實施例中,每個字首關鍵字的定義值除了本身的定義以外,更包含了對應的字根關鍵字的定義及/或對應的字尾關鍵字的定義。同樣的,每個字根關鍵字的定義值除了本身的定義以外,更包含了對應的字首關鍵字的定義及/或對應的字尾關鍵字的定義。每個字尾關鍵字的定義值除了本身的定義以外,更包含了對應的字根關鍵字的定義及/或對應的字首關鍵字的定義。從而使得關鍵字彼此有連結關係,因此能提高關鍵字搜尋與更新的效率。
具體來說,當計算機裝置收集到一個領域的100筆文獻資料時,首先可以由操作人員或是計算機裝置從100筆文獻資料中選取例如20篇文獻資料。並由計算機裝置或操作人員將這20篇文獻的關鍵字建立起一個關鍵字資料庫,這個關鍵字資料庫定義了一些字首關鍵字、一些字根關鍵字或是一些字尾關鍵字。關鍵字資料庫可能只定義了字首關鍵字,也可能是只定義了字根關鍵字、或是字尾關鍵字。而後當計算機裝置讀取其他80篇文獻,或是後續的相關文獻時,可以依照本發明前述實施例所定義的方式,來使得文獻的內容更具有一致性,降低計算機要進行機器學習的門檻。此外,當有相關的文獻新增進來後,藉由前述的方式也可以擴增關鍵字資料庫,使得本發明所揭示的方法更具可實施性。
而依據本發明一實施例的機器學習資料獲取方法,包含前述任意一個實施例的字串辨識方法。當得到更新的字串內容後,計算機裝置依據更新的該字串內容進行機器學習。
此外,於本發明另一實施例中,計算機裝置可以更具有儲存媒介中的資料庫,藉此計算機得以依據資料庫來建立每個使用者的關鍵字使用。例如某甲習慣用W2003來指涉Word2003,而習慣用視窗2000來指涉Windows2000,則計算機歸納出某甲使用關鍵字的習慣並儲存於儲存媒介中。當某甲對計算機裝置提出一個需求,而計算機裝置要推薦Windows 10給某甲的時候,計算機裝置對某甲呈現「視窗10」的文字。如此,也能更貼合使用者的使用習慣。
由於字串內容已經依據定義重新更新為統一的規格,因此對於計算機學習來說,字串的離散程度降低,機器學習的門檻也因此降低。
雖然本發明以前述之實施例揭露如上,然其並非用以限定本發明。在不脫離本發明之精神和範圍內,所為之更動與潤飾,均屬本發明之專利保護範圍。關於本發明所界定之保護範圍請參考所附之申請專利範圍。
S110~S140 步驟
圖1係依據本發明一實施例的字串辨識方法流程圖。

Claims (8)

  1. 一種字串辨識方法,包含:依據字串內容,從多個關鍵字資料庫中選取對應的關鍵字資料庫,其中該關鍵字資料庫定義有至少一字首關鍵字;比對該字串內容與該至少一字首關鍵字;當該字串內容對應於該至少一字首關鍵字其中之一時,依照對應的該字首關鍵字的定義更新該字串內容;以及當該字串內容不對應於該至少一字首關鍵字其中任一時,選擇性地結束程序,並輸出更新的該字串內容。
  2. 如請求項1所述的方法,其中該關鍵字資料庫中,每一該字首關鍵字對應有至少一字尾關鍵字,且於依照對應的該字首關鍵字的定義更新該字串內容的步驟中,包含:比對該字串內容與該至少一字尾關鍵字;當該字串內容對應於該至少一字尾關鍵字其中之一時,依照對應的該字尾關鍵字的定義更新該字串內容;以及當該字串內容不對應於該至少一字尾關鍵字其中任一時,選擇性地結束程序,並輸出更新的該字串內容。
  3. 如請求項2所述的方法,其中於比對該字串內容與該至少一字尾關鍵字的步驟中,係從該字串內容中對應該字首關鍵字的字元起,比對每一字元是否對應於該至少一字尾關鍵字其中之一。
  4. 如請求項1所述的方法,其中該關鍵字資料庫中,每一該字首關鍵字對應有至少一字根關鍵字,且於依照對應的該字首關鍵字的定義更新該字串內容的步驟中,包含:比對該字串內容與該至少一字根關鍵字;當該字串內容對應於該至少一字根關鍵字其中之一時,依照對應的該字根關鍵字的定義更新該字串內容;以及當該字串內容不對應於該至少一字根關鍵字其中任一時,選擇性地結束程序,並輸出更新的該字串內容。
  5. 如請求項1所述的方法,其中於依據該字串內容,從該些關鍵字資料庫中選取對應的該關鍵字資料庫的步驟中,係依據該字串的一個或多個起始字元,於該些關鍵字資料庫搜尋對應的一字首關鍵字,以確定該字串內容對應的該關鍵字資料庫。
  6. 如請求項5所述的方法,其中於依據該字串內容,從該些關鍵字資料庫中選取對應的該關鍵字資料庫的步驟中,更包含:當於該些關鍵字資料庫沒有對應的一字首關鍵字時,於該些關鍵字資料庫中尋找該字串內容中一個或多個字元所對應的一字尾關鍵字或一字根關鍵字;以及依據該一個或多個字元與所對應的該字尾關鍵字或該字根關鍵字,選擇性地將該一個或多個字元以前的至少一字元判別為前述對應的該字尾關鍵字或該字根關鍵字所對應的一字首關鍵字的定義。
  7. 如請求項6所述的方法,其中將該至少一字元與對應的該字首關鍵字的定義連結,以得到一新增字首關鍵字。
  8. 一種機器學習資料獲取方法,包含:如請求項1至7其中之一的字串辨識方法;以及一計算機依據更新的該字串內容進行機器學習。
TW105138999A 2016-11-25 2016-11-25 字串辨識方法與機器學習方法 TWI635406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW105138999A TWI635406B (zh) 2016-11-25 2016-11-25 字串辨識方法與機器學習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105138999A TWI635406B (zh) 2016-11-25 2016-11-25 字串辨識方法與機器學習方法

Publications (2)

Publication Number Publication Date
TW201820177A TW201820177A (zh) 2018-06-01
TWI635406B true TWI635406B (zh) 2018-09-11

Family

ID=63258295

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105138999A TWI635406B (zh) 2016-11-25 2016-11-25 字串辨識方法與機器學習方法

Country Status (1)

Country Link
TW (1) TWI635406B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW476033B (en) * 1997-11-19 2002-02-11 Inventec Corp System and method for increasing word recognition rate
CN101308030A (zh) * 2008-06-02 2008-11-19 凯立德欣技术(深圳)有限公司 一种汉字联想方法及使用了此方法的汉字联想装置
US20120317100A1 (en) * 2008-01-11 2012-12-13 International Business Machines Corporation String pattern conceptualization from detection of related concepts by analyzing substrings with common prefixes and suffixes
US20150160855A1 (en) * 2013-12-10 2015-06-11 Google Inc. Multiple character input with a single selection
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW476033B (en) * 1997-11-19 2002-02-11 Inventec Corp System and method for increasing word recognition rate
US20120317100A1 (en) * 2008-01-11 2012-12-13 International Business Machines Corporation String pattern conceptualization from detection of related concepts by analyzing substrings with common prefixes and suffixes
CN101308030A (zh) * 2008-06-02 2008-11-19 凯立德欣技术(深圳)有限公司 一种汉字联想方法及使用了此方法的汉字联想装置
US20150160855A1 (en) * 2013-12-10 2015-06-11 Google Inc. Multiple character input with a single selection
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法

Also Published As

Publication number Publication date
TW201820177A (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
CN109145153B (zh) 意图类别的识别方法和装置
KR102170929B1 (ko) 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체
JP4427500B2 (ja) 意味解析装置、意味解析方法および意味解析プログラム
WO2015135455A1 (en) Natural language question answering method and apparatus
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
US10437868B2 (en) Providing images for search queries
US9507861B2 (en) Enhanced query rewriting through click log analysis
CN107506486A (zh) 一种基于实体链接的关系扩充方法
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN114556328B (zh) 数据处理方法、装置、电子设备和存储介质
CN104462126A (zh) 一种实体链接方法及装置
JP2004086913A (ja) 2言語コーパスを整列させるための方法および装置
JP2017508214A (ja) 検索推奨の提供
WO2010125463A1 (en) Method and apparatus for identifying synonyms and using synonyms to search
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
CN111104801B (zh) 基于网址域名的文本分词方法、系统、设备及介质
US11675845B2 (en) Identifying merchant data associated with multiple data structures
CN102087648A (zh) 一种新闻评论页面的爬取方法及系统
CN103440315B (zh) 一种基于主题的Web页面清洗方法
WO2020010996A1 (zh) 超链接的处理方法和装置及存储介质
CN103514289A (zh) 一种兴趣本体库构建方法及装置
CN117688163B (zh) 基于指令微调和检索增强生成的在线智能问答方法及装置
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、系统
CN105630822A (zh) 一种专利检索相似内容标红法
CN104021202B (zh) 一种知识共享平台的词条处理装置和方法