TW202109349A - 通訊伺服器裝置、通訊裝置及其操作方法 - Google Patents
通訊伺服器裝置、通訊裝置及其操作方法 Download PDFInfo
- Publication number
- TW202109349A TW202109349A TW109115648A TW109115648A TW202109349A TW 202109349 A TW202109349 A TW 202109349A TW 109115648 A TW109115648 A TW 109115648A TW 109115648 A TW109115648 A TW 109115648A TW 202109349 A TW202109349 A TW 202109349A
- Authority
- TW
- Taiwan
- Prior art keywords
- text
- text data
- abbreviated
- unit
- candidate
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
一通訊伺服器裝置(100)被配置成接收(202)包括與一經縮略文字單元相關聯的至少一個文字資料元素的文字資料。該文字資料元素與一給定文字資料庫的一表現形態中的複數候選文字資料元素被比較(204),每一個候選文字資料元素與該資料庫中的一分別候選文字單元相關聯;該至少一個文字資料元素與該候選文字資料元素之間的一類似性度量的值被確定(206),候選文字資料元素被處理(208),以利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素。該類似性度量值及該候選文字資料元素選擇被使用(210)於提名一相關聯候選文字單元作為該經縮略文字單元的一經反縮略原型化文字單元。
Description
本發明概言之係關於通訊領域。本發明的一個態樣係關於一種用於處理文字單元的反縮略原型的文字資料的通訊伺服器裝置。本發明的另一個態樣係關於一種用於處理文字單元的反縮略原型的文字資料的通訊裝置及一種系統。本發明的其他態樣係關於一種用於處理文字單元的反縮略原型的文字資料的方法及包括用於實施該方法的指令的電腦程式及電腦程式產品。
通訊系統中的資料處理為此項技術所公知。通訊系統中使用的資料處理的一個實例是以促進基於文字的通訊而不促進基於音訊的通訊的方式處理指示及資訊。為使通訊系統盡可能有效地工作且減小頻寬使用及計算處理,以前研究的技術已解決對文字資料的處理。
一些此等技術透過處理該文字資料的資料元素而在基於文字的通訊中解決文字單元(諸如,單字)。以前研究的某些文字資料處理技術舉例而言已嘗試確定基於文字的通訊中呈現的文字單元是否對於一文字語料庫、資料庫或字典是規範的。其他技術已解決了確定不規範文字單元是否可被轉換為規範形式。
然而,以前研究的此等方法通常情況下使用了不成熟的技術將不規範文字單元的與規範文字單元的資料進行比較,或已經提供非常複雜的技術,不過非常複雜的技術容易遭受偽陽性及偽陰性(false positive and negative)。此等方法對於諸如通常情況下可見於基於文字的通訊中的常用單字的縮略語的經縮略文字單元特別困難。
本發明的態樣係如獨立請求項中指出的。一些選用的特徵被定義於該附屬請求項中。
本文中揭露的技術的實施可提供顯著的技術優點。舉例而言,在對基於文字的通訊中的文字資料中的經縮略文字單元解碼或確定正確的或規範的文字單元或單字中,可達成更高的準確性。
在至少一些實施中,本文中揭露的技術考量到解碼或反縮略原型化文字單元,其以別的方式不可破解,或者至少先前考慮的技術太難以解決,而無不可接受的偽陽性/陰性的級別。並且,此等技術使得隨後的任一資料處理(諸如,促進一使用者介面的特徵或一通訊裝置的其他特徵的文字性分析、通訊的壓縮或封包化、文字翻譯及類似者)更準確且更高效。
在一示範性實施中,本文中揭露的技術的功能性可以運行於諸如一行動電話的一手持通訊裝置上的軟體的方式被實施。實施本文中揭露的技術的功能性的軟體可被含在該使用者已從一線上商店下載的一「app」(一電腦程式或電腦程式產品)中。當運行於舉例而言該使用者的行動電話上時,該行動電話的硬體特徵可被使用於實施下面描述的功能性,諸如,使用該行動電話的收發組件建立用於接收基於文字的通訊的安全通訊頻道,及使用該行動電話的(複數)處理器確定該文字資料中經縮略文字單元的候選文字。
首先參考圖1,一通訊系統100被例示。通訊系統100包括通訊伺服器裝置102、服務提供者通訊裝置104及使用者通訊裝置106。此等裝置通過實施舉例而言網際網路通訊協定的分別通訊鏈路110、112、114被連接於該通訊系統108(舉例而言,網際網路)中。通訊裝置104、106可能能夠通過包含蜂巢式行動通訊網路的諸如公共交換電話網(PSTN網)的其他通訊網路而通訊,但為清楚起見,從圖1省略了它們。
通訊伺服器裝置102可以是單一伺服器,如圖1中示意性地例示,或具有分散於多重伺服器組件中的伺服器裝置102實施的功能性。在圖1的實例中,通訊伺服器裝置102可包括許複數別組件,包含但並不僅限於:一或複數微處理器116、一用於載入可執行指令120的記憶體118(例如,諸如一RAM的一揮發性記憶體),該可執行指令定義該伺服器裝置102在該處理器116的控制下實行的功能性。通訊伺服器裝置102亦包括使伺服器經過該通訊網路108通訊的一輸入/輸出模組122。使用者介面124係為使用者控制而提供,且可包括舉例而言傳統的計算週邊裝置,諸如,顯示監視器、電腦鍵盤及類似者。伺服器裝置120亦包括資料庫126,其用途由下面的討論顯而易見。
服務提供者通訊裝置104可包括許複數別元素,包含但並不僅限於:一或複數微處理器128、一用於載入可執行指令132的記憶體130(例如,諸如一RAM的一揮發性記憶體),該可執行指令定義該服務提供者通訊裝置104在該處理器128的控制下實行的功能性。服務提供者通訊裝置104亦包括允許服務提供者通訊裝置104經過該通訊網路108通訊的一輸入/輸出模組134。使用者介面136為使用者控制而提供。若該服務提供者通訊裝置104是比如一智慧型電話或平板裝置,則該使用者介面136將具有一觸控面板顯示器,其在許多智慧型電話及其他手持裝置中盛行。作為替選,若該服務提供者通訊裝置是比如傳統桌上型電腦或膝上型電腦,則該使用者介面可具有舉例而言傳統計算週邊裝置,諸如,顯示監視器、電腦鍵盤及類似者。該服務提供者通訊裝置可舉例而言是文字資料處理服務提供者管理的一裝置。
使用者通訊裝置106可舉例而言是智慧型電話或平板裝置,與服務提供者通訊裝置104具有相同或類似的硬體架構。
圖2是例示用於處理文字單元的反縮略原型的文字資料的一方法的一流程圖。圖1和圖2及前面的描述例示且描述一用於處理文字單元的反縮略原型的文字資料的通訊伺服器裝置102,其包括一處理器116和一記憶體120,該通訊伺服器裝置102被配置成在該處理器116的控制下執行儲存於該記憶體118中的指令120,以:接收(202)包括與一經縮略文字單元相關聯的至少一個文字資料元素的文字資料;將該至少一個文字資料元素與一給定文字資料庫的一表現形態中的複數候選文字資料元素進行比較(204),每一個候選文字資料元素與該資料庫中的一分別候選文字單元相關聯;確定(206)該至少一個文字資料元素與該候選文字資料元素之間的一類似性度量的值;處理(208)候選文字資料元素,以利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素;及使用(210)該類似性度量值及該候選文字資料元素選擇來提名一相關聯候選文字單元作為該經縮略文字單元的一經反縮略原型化文字單元。
再者,亦提供了一種在一通訊伺服器裝置102中實施用於處理文字單元的反縮略原型的文字資料方法,該方法包括在該伺服器裝置的一處理器116的控制下:接收(202)包括與一經縮略文字單元相關聯的至少一個文字資料元素的文字資料;將該至少一個文字資料元素與一給定文字資料庫的一表現形態中的複數候選文字資料元素進行比較(204),每一個候選文字資料元素與該資料庫中的一分別候選文字單元相關聯;確定(206)該至少一個文字資料元素與該候選文字資料元素之間的一類似性度量的值;處理(208)候選文字資料元素,以利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素;及使用(210)該類似性度量值及該候選文字資料元素選擇來提名一相關聯候選文字單元作為該經縮略文字單元的一經反縮略原型化文字單元。
又再者,亦提供了一處理文字單元的反縮略原型的文字資料的通訊系統,該通訊系統包括:通訊伺服器裝置(102)、至少一個使用者通訊裝置(106)及通訊網路設備(104、108),該通訊網路設備(104、108)可操作,以使該通訊伺服器裝置與該至少一個使用者通訊裝置通過其彼此建立通訊,其中該至少一個使用者通訊裝置(104、106)包括一第一處理器及一第一記憶體,該至少一個使用者通訊裝置被配置成在該第一處理器的控制下執行儲存於該第一記憶體中的第一指令,以:接收包括與一經縮略文字單元相關聯的至少一個文字資料元素的文字資料,且其中該通訊伺服器裝置(102)包括一第二處理器及一第二記憶體,該通訊伺服器裝置被配置成在該第二處理器的控制下執行儲存於該第二記憶體中的第二指令,以:將該至少一個文字資料元素與一給定文字資料庫的一表現形態中的複數候選文字資料元素進行比較(204),每一個候選文字資料元素與該資料庫中的一分別候選文字單元相關聯;確定(206)該至少一個文字資料元素與該候選文字資料元素之間的一類似性度量的值;處理(208)候選文字資料元素,以利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素;及使用(210)該類似性度量值及該候選文字資料元素選擇來提名一相關聯候選文字單元作為該經縮略文字單元的一經反縮略原型化(disabbreviated)文字單元。
如上所述,本文所描述的技術係關於處理文字資料,以對在一基於文字的通訊或訊息中可見的已被縮略的諸如單字的文字單元進行解碼或反縮略原型化。該反縮略原型化使得舉例而言該單元或單字可經過諸如文字分析或翻譯的一進一步處理步驟被解釋,或可以所解釋的未經縮略(non-abbreviated)形式對舉例而言經由該通訊裝置的一顯示裝置接收該通訊或訊息的一通訊裝置的一使用者顯示。
通訊訊息中的單字或文字單元的縮略語(abbreviation)的個例可見於多種設定及媒體中,但特別是被使用於電腦及電子裝置的使用者之間的基於文字的通訊中,諸如,電子郵件、文字訊息或SMS訊息、經由社交媒體平臺的訊息及類似者。作為個例,當在手持電子裝置上鍵入將被傳輸至接收者的短訊息時,當使用者認為處於簡化形式的一單字/短語的表達為該接收者所明白時,該使用者常常鍵入該單字或短語的簡化版。例如:
●官方認可的首字母縮略詞(acronym)(例如,UN=聯合國,USA=美國)。
●雖不為官方認可卻很大程度上慣用化的俚語詞(例如,「lol」表達「laugh out loud(出聲大笑)」;「how r u」表達「how are you?(你好嗎?)」)。
● 特定縮寫,儘管作者可能不認為讀者已經明白此確切縮寫形式,但認為讀者總將會正確地重構原始表達(「thks」、「thx」、「thnks」全部是「thanks」的認可版)。
特定縮寫在一些語言中特別盛行。典型模式包含剔除諸如母音的一些字元:舉例而言,如上所述的「thanks」的其他形式;在印尼語中,「sy sdh smp」表達「saya sudah sampai」(我已到達)。其他模式可包含在使用它們的語言中,省略變音符號(diacritical mark):在越語中,「5 phut」表達「five phút」(5分鐘)。
本文中描述的技術針對於處理此等訊息中表示或構築該文字單元(單字、音節、詞素、及類似者)的文字資料及/或資料,以舉例而言將經縮略形式的單字轉換為其非經縮略形式,因此將經縮略的或不規範的輸入文字映射為適當規範形式。
如上所述,本文中描述的技術在資料處理及通訊領域中提供技術優點,諸如,提高效率且對後繼文字資料處理應用提供較高準確性。此等技術亦當然地使得使用者更容易解釋訊息。此等技術的其他潛在應用是:
● 在各方說不同語言的文字對話中,支援自動翻譯。此可被使用於舉例而言在一約車應用中,在將正確規範形式的輸入文字傳遞至諸如谷歌翻譯(Google Translate)的翻譯服務而將翻譯結果傳輸/傳送至接收者之前,在使用不同語言的乘車人與駕駛員之間預處理輸入文字。
● 一手持電子裝置中的自校正(auto-correct),以顯示正確規範形式的輸入文字。該輸入文字不需要被向前傳輸至一接收者。作為個例,其可用於個人做筆記。
一種廣泛形式的實例技術旨在使用如下二個或以上的結合:
a. 將該經縮略單字或文字單元與類似單字(諸如在一類似上下文中可見的及/或措辭類似的或拼法類似的)進行比較;
b. 藉由類似順序或匹配順序的經縮略單字,找到該正確規範單字的潛在候選者;及
c. 將該經縮略單元與從參考作品主體導出的參考資料進行比較,找到該參考資料中頻繁使用的單字作為候選者。
舉例而言,在其最簡單形式中,基於選擇在參考作品主體中最頻繁可見的候選單字/短語,可完成步驟c.:例如,在Wikipedia中有個例數量最多的單字/短語。
關於步驟a.,一個選項是針對一文字資料庫訓練一啟發式模型,且透過將其與模型化資料進行比較來將該經縮略輸入文字單元與該文字資料庫進行比較。舉例而言,在一文字資料庫的一向量空間模型中(如在下面所做的更詳細描述),可將對該輸入文字單元找到的向量比較於該模型化資料庫中的規範單字的相鄰向量,及對每一個候選單字/短語所導出一分數。該輸入文字的最可能的規範形式可以是具有最高分數的單字/短語。
如下是步驟a.的一類似性度量的一個實例。
假定一文字單元(在此情況中是一單字)W的字元替換給出候選目標{W1, W2, … Wn}。亦即,透過移除字元(作為個例,我們可規定該被移除字元是母音)或變音符(diacritic),全部Wi都可被轉換為W。Wi與W的比較可返送直接匹配。然後,可使用類似性分數sim(A, B)來選擇哪個Wi與該源單字W最類似。亦即,對於每一個Wi,我們計算sim(W, Wi),且利用該最大類似性分數選擇該Wi。
在一種技術中,可選擇許多類似候選者做進一步處理(諸如,步驟b.及/或c.)。舉例而言,候選者可利用類似性分數被分類或排名,且以一排名順序被處理,或僅高於給定類似性分數臨界值的候選者被處理。
應當注意,存在很多本領域所知的此等文字類似性度量。透過比較單字的散佈在一給定文字語料庫或資料庫多麼類似,一些技術起效。
這樣做的一種方式是構建一文字語料庫的一向量空間模型。為本領域所知的是,透過利用具有各別維度的每一個單字或文字及每一個單字在該語料庫的頻率構成的一計數表示一多維度空間中的文字語料庫,從而給出該向量值,能夠實施此舉。對於任一輸入文字單元,該對應向量可見於該向量空間中,且然後,可計算此向量與相鄰向量的類似性度量。作為個例,可計算一餘弦類似性-該向量空間中的二個向量之間的角度的一表現形態。
因此,在一給定語料庫中常與另一單字一起可見的一單字(諸如,此單字移除字母或變音符號的縮略語)在具有該二個單字的對應向量的向量空間模型中,具有高餘弦類似性值。
另一類似性度量可計算文字單元之間的簡單拼法類似性或措辭類似性;舉例而言,該等文字單元類是否具有類似長度,其是否具有相同數量的母音、子音及類似者。
圖3是例示文字資料元素及其相關聯文字單元的一示意圖。基於文字的訊息302含有一文字串「Pls pickup…」。為了找到此基於文字訊息中的文字單元或單字的反縮略原型,該訊息文字(舉例而言,如使用者的裝置GUI上所顯示的)可被轉換為文字資料元素Ei(304)。舉例而言,此可以是每一個文字單元至一向量空間模型中的代表向量的一轉換。該資料元素亦可以是該文字單元作為措辭基礎的表現形態,用於進行拼法比較。為傳輸而將該文字單元編碼為封包資料亦可提供適當文字資料元素,用於進行比較。與一給定文字單元相關聯的一資料元素當然地可包括一個以上的上述者;舉例而言,對於一給定文字單元處理的(複數)構築文字資料元素既可包括表示向量又可包括處於壓縮、編碼、傳輸或其他軟體元素格式之表示該文字單元的資料。
在該資料元素Ei中,存在與該訊息(「2 ppl, 2 luggage…」)中的文字單元「ppl」(308)相關聯的一文字資料元素或(複數)文字資料元素Ex(306)。因此,該(複數)資料元素Ei可使用於該文字資料處理中,以找到該文字單元「ppl」的一反縮略原型。在一個實例中,該處理步驟涉及在對該語料庫文字訓練的向量空間模型中找到與「ppl」相關聯的向量,及藉由該向量的餘弦類似性找到相鄰者。
關於該技術,在上面步驟c.的一實例中,候選文字單元出現於一文字資料庫中的一頻率被確定,且被使用於提名一相關聯候選文字單元。舉例而言,可使用一Wikipedia語料庫,且該輸入文字單元在該語料庫中的頻率可被使用於説明確定許多候選者(舉例而言,與該輸入文字單元相關聯的向量的相鄰向量的餘弦類似性所建議的候選者)中的哪個候選者是最佳選擇。
關於該向量空間模型,有利的是,由與可能獲取反縮略原型的該文字輸入相關的一語料庫訓練或產生該模型。舉例而言,一Wikipedia語料庫含有少許諸如「thx」的縮略語;然而,若該語料庫是特定應用,舉例而言,使用基於文字的訊息的一語料庫作為該訓練資料,其中基於文字的訊息確實將被解釋,其可能具有縮略語的類似群體。並且,若該語料庫是相關的,舉例而言,若一組駕駛員訊息被使用於訓練一向量空間模型,用於之後分析駕駛員訊息,則結果仍應被進一步改善。
然而,關於出現頻率技術,該較佳語料庫可以是標準化集,藉以使得規範單字更可能存在於相關上下文中。因此,在一種技術中,用於確定該相關聯候選文字單元的出現頻率的文字資料庫是與該向量空間模型的的文字資料庫。此技術具有的其他優點在於,此一標準化資料庫揭露可用。
在一技術中,關於上面的步驟b. 可選擇該反縮略原型的候選文字單元,若其與該經縮略文字單元具有一有序關係;舉例而言,若該經縮略文字單元的字元是(對於)該候選文字單元的字元的部分有序集,或該經縮略文字單元的字元與該候選文字資料單元處於一類似順序,或該經縮略文字單元的子音與該候選文字單元的子音相同或類似,或者處於相同或類似順序。
此等技術與先前技術的一個不同之處在於,大多數類似性度量是對稱的,亦即,sim(a, b) = sim(b, a)。對於文字正規化,此性質通常情況下不是想要的,因為(舉例而言)我們始終希望將「dmn」映射至「dimana」,而我們從不希望將「dimana」映射至「dmn」。由此,我們希望sim(“dmn”, “dimana”)高,而sim(“dimana”, “dmn”)低。僅透過考慮加回母音使該源映射至該目標的配對,此舉即可被實施。此可被實施為一濾波器。由此,舉例而言,只透過移除字母(在此情況中為母音),「dimana」可被轉換為「dmn」,由此,「dimana」被看作「dmn」的一潛在替代者。反之則不成立,由此,「dmn」不能被看作「dimana」的一潛在替代者。
即使當該輸入單字的縮減形式是遠離目標單字的很多字元,利用有序關係的過濾的類似性度量與利用在一(不同)語料庫中的頻率選用地辨別的類似性度量的此結合仍提供準確結果。先前考慮的技術已發現此等情事困難;對於只使用向量相鄰者的,一些單字比正確形式更高位;子音過濾及語料庫頻率加權可證實正確單字。對於實際上是正確反縮略原型的一些候選者,僅僅拼法差別大。本文描述的技術可允許不類似的單字被選作候選者,若其亦通過有序及頻率比較階段。
圖4是例示文字資料記錄400的實例及對此等記錄的處理的一示意圖。一文字資料記錄或封包具有一標頭402及輔助訊息組成406。該記錄含有許多文字資料組成,該文字資料組成可包含:文字資料、文字資料元素、經壓縮文字資料或類似者。在此,存在圖3中的文字訊息中的該經縮略文字單元「ppl」的(複數)文字資料組成。此記錄或封包可被該使用者通訊裝置、通訊裝置或服務提供者通訊裝置接收。
該資料記錄的酬載(payload)資料組成可以本文描述的方式被處理,以找到「ppl」的反縮略原型,且該有效負載被編輯或一新資料記錄(422、426)被形成,從而現在包含(424)該經反縮略原型化文字單元「people」的資料組成。
圖5是例示用於處理文字資料的一示範性方法的步驟的一流程圖。在一示範性技術中,可見的反縮略原型單字是「berapa」,在印尼語中表示「多少/多少個」,且該輸入縮略語是「brp」,是基於文字的訊息中的一常用縮略語。在此實例中被分析的基於文字的訊息在旅遊環境中是駕駛員與乘客之間的訊息。
該輸入單字「brp」被接收(502)。該第一階段是該向量空間模型或單字植入類似性步驟。在此,使用於訓練或產生向量空間模型的語料庫是被稱為「Grab」的一旅遊公司的一組審核。該審核可能被以一類似方言的方式寫到接收的訊息,用於進行反縮略原型化。
Grab審核504中的單字(使用者審核其旅行、該駕駛員等的單字語料庫)被預映射至n維度向量506。此是作為預處理階段實施的(其在516,518中進行Wikipedia比較而計數的單字,請見如下)。
在一替選中,該向量模型可針對Grab審核與該Wikipedia語料庫的一結合被訓練,此舉給出預期位於該訊息中的方言的一結合,而且在每一個語料庫中的一些單字缺失的情況下,給出該Wikipedia語料庫的範圍。
最近相鄰者被識別(508)自該向量模型。透過餘弦類似性計算進行評分。然後,下面列出該候選者的階段(510)設置一截止臨界值,以給出比如10個最靠近命中。此舉給出最靠近相鄰者及其分別類似性分數(與該輸入文字的類似性)之列表。
在此階段,選用上,亦可計算一拼法類似性分數,且不是被並行地使用,就是利用該餘弦類似性的結合分數被使用。使用拼法類似性仍可賦能使單字的縮寫與Wikipedia及Grab審核中的對應單字進行比較,即使其未呈現於Grab審核中。透過降低下面的過濾階段512的複雜性,舉例而言,透過降低進行過濾的候選者的數量,在此階段使用拼法類似性可改善整個處理技術的效率。
然後,由(複數)類似性分數獲得的此等結果藉由有序關係被過濾,舉例而言,以在此僅選擇透過添加一些項(例如,字元–子音、母音)或變音符號(變音符)而由該輸入文字導出的。在該實例(512)中,在一或複數母音被添加的情況下,該濾波器針對以相同的順序具有相同子音的目標。結果(514)因此又被減少。
接著,在已經被使用於找到單字頻率計數(518)的印尼語的Wikipedia語料庫(516)中,將該類似性分數乘以Wikipedia的計數的某個函數。在此實例中(520),每一個單字對(輸入單字、每一個最靠近相鄰者)的類似性分數乘以此單字呈現於該Wikipedia語料庫中的次數的對數。出於許多原因使用該log(2+計數):比另一個單字多呈現10次的一單字就是明顯重要,而不一定10次是更重要;該加增量常數使得零個例的無用結果- log(0)被看作未定義,而對數曲線的斜度用於低輸入數量:log(1)是零,藉以使得每件事都至少從2開始。Grab審核中的一單字可能在Wikipedia語料庫中具有零個例,藉此,在取log之前,對其加2。作為替選,亦可進行其他類型的加權,例如,使用平方根,或另一個具有正y截距的單調遞增函數。
由此最後階段獲得的最高評分結果(522)被取作最可能的規範形式,且因此,取作所提名的候選文字。
應當理解,僅借助實例描述了本發明。可對本文中描述的技術進行各種修改,而不脫離所附申請專利範圍的精神和範圍。所揭露的技術包括以分立樣式提供的技術或彼此的組合。因此,對一種技術描述的特徵亦能夠以與另一種技術組合的方式呈現。
100、108:通訊系統
102:通訊伺服器裝置
104:提供者通訊裝置
106:使用者通訊裝置
110、112、114:分別通訊鏈路
116、128:微處理器(µP)
118、130:記憶體
120、132:可執行指令
122、134:輸入/輸出(I/O)模組
124、136:使用者介面(UI)
126:資料庫(DB)
422、426:新資料記錄
502:輸入單字「brp」被接收
504:Grab審核
506:n維度向量
516:印尼語的Wikipedia語料庫
518:單字頻率計數
現在僅借助實例且參考隨附圖示描述本發明,其中:
圖1是例示用於處理文字單元的反縮略原型的文字資料的一第一示範性通訊系統的一示意方塊圖;
圖2是例示用於處理文字資料的一示範性方法的步驟的流程圖;
圖3是例示對文字資料元素及其相關聯文字單元的處理的一示意圖;
圖4是例示文字資料記錄的實例及對此等記錄的處理的一示意圖;及
圖5是例示用於處理文字資料的一示範性方法的步驟的一流程圖。
502:輸入單字「brp」被接收
504:Grab審核
506:n維度向量
516:印尼語的Wikipedia語料庫
518:單字頻率計數
Claims (18)
- 一種用於處理文字單元的反縮略原型的文字資料的通訊伺服器裝置,包括:一處理器及一記憶體,該通訊伺服器裝置被配置成在該處理器的控制下執行儲存於該記憶體中的指令,以: 接收包括與一經縮略文字單元相關聯的至少一個文字資料元素的文字資料; 將該至少一個文字資料元素與一給定文字資料庫的一表現形態中的複數候選文字資料元素進行比較,每一個候選文字資料元素與該資料庫中的一分別候選文字單元相關聯; 確定該至少一個文字資料元素與該候選文字資料元素之間的一類似性度量的值; 處理候選文字資料元素,以利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素;及 使用該類似性度量值及該候選文字資料元素選擇來提名一相關聯候選文字單元作為該經縮略文字單元的一經反縮略原型化文字單元。
- 如請求項1所述的通訊伺服器裝置,其中該文字資料庫的該表現形態是針對該給定文字資料庫訓練的一模型。
- 如請求項2所述的通訊伺服器裝置,其中該模型是一向量空間模型,且其中該文字資料元素包括該模型中的向量,該向量空間模型的每一個向量與一分別候選文字單元相關聯, 且其中該裝置被配置成將至少一個文字資料元素向量與複數候選文字資料元素向量進行比較。
- 如上述請求項中的任一項所述的通訊伺服器裝置,其中該裝置被配置成在確定該類似性度量的值後: 基於該類似性度量值,對候選文字資料元素分類;及 處理經分類候選文字資料元素以利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇該候選文字資料元素。
- 如請求項4所述的通訊伺服器裝置,其中該裝置被配置成使用一臨界值最小類似性度量值對該候選文字資料元素進行分類。
- 如上述請求項中的任一項所述的通訊伺服器裝置,其中該裝置被配置成:確定一相關聯候選文字單元出現於一文字資料庫中的一頻率;及使用出現的該確定頻率來用於提名一相關聯候選文字單元之該步驟。
- 如請求項6所述的通訊伺服器裝置,其中用於該相關聯候選文字單元的出現之該頻率的該確定之該文字資料庫是一副文字資料庫。
- 如上述請求項中的任一項所述的通訊伺服器裝置,其中對於利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素的該步驟,該裝置被配置成:對於一候選文字單元及一經縮略文字單元,確定該經縮略文字單元的字元是否是該候選文字單元的該字元之一部分有序集或用於該候選文字單元的該字元之該部分有序集。
- 如上述請求項中的任一項所述的通訊伺服器裝置,其中對於利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素的該步驟,該裝置被配置成:對於一候選文字單元及一經縮略文字單元,確定該經縮略文字單元的字元是否與該候選文字單元的字元處於一類似順序。
- 如上述請求項中的任一項所述的通訊伺服器裝置,其中對於利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素的該步驟,該裝置被配置成:對於一候選文字單元及一經縮略文字單元,確定該經縮略文字單元的字元是否與該候選文字單元的子音相同或類似。
- 如上述請求項中的任一項所述的通訊伺服器裝置,其中該類似性度量包括一餘弦類似性度量。
- 如上述請求項中的任一項所述的通訊伺服器裝置,其中該類似性度量包括一拼法類似性度量。
- 一種用於處理文字單元的反縮略原型的文字資料的通訊裝置,包括:一處理器及一記憶體,該通訊裝置被配置成在該處理器的控制下執行儲存於該記憶體中的指令,以: 接收包括與一經縮略文字單元相關聯的至少一個文字資料元素的文字資料; 將該至少一個文字資料元素與一給定文字資料庫的一表現形態中的複數候選文字資料元素進行比較,每一個候選文字資料元素與該資料庫中的一分別候選文字單元相關聯; 確定該至少一個文字資料元素與該候選文字資料元素之間的一類似性度量的值; 處理候選文字資料元素,以利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素;及 使用該類似性度量值及該候選文字資料元素選擇來提名一相關聯候選文字單元作為該經縮略文字單元的一經反縮略原型化文字單元。
- 一種用於處理文字單元的反縮略原型的文字資料的系統,包括通訊伺服器裝置、至少一個使用者通訊裝置及通訊網路設備,該通訊網路設備可操作,以使該通訊伺服器裝置與該至少一個使用者通訊裝置通過其彼此建立通訊,其中該至少一個使用者通訊裝置包括一第一處理器及一第一記憶體,該至少一個使用者通訊裝置被配置成在該第一處理器的控制下執行儲存於該第一記憶體中的第一指令,以: 接收包括與一經縮略文字單元相關聯的至少一個文字資料元素的文字資料,且其中: 該通訊伺服器裝置包括一第二處理器及一第二記憶體,該通訊伺服器裝置被配置成在該第二處理器的控制下執行儲存於該第二記憶體中的第二指令,以: 將該至少一個文字資料元素與一給定文字資料庫的一表現形態中的複數候選文字資料元素進行比較,每一個候選文字資料元素與該資料庫中的一分別候選文字單元相關聯; 確定該至少一個文字資料元素與該候選文字資料元素之間的一類似性度量的值; 處理候選文字資料元素,以利用與該經縮略文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素;及 使用該類似性度量值及該候選文字資料元素選擇來提名一相關聯候選文字單元作為該經縮略文字單元的一經反縮略原型化文字單元。
- 一種在一通訊伺服器裝置中實施用於處理文字單元的反縮略原型的文字資料的方法,該方法包括在該伺服器裝置的一處理器的控制下: 接收包括與一經縮略文字單元相關聯的至少一個文字資料元素的文字資料; 將該至少一個文字資料元素與一給定文字資料庫的一表現形態中的複數候選文字資料元素進行比較,每一個候選文字資料元素與該資料庫中的一分別候選文字單元相關聯; 確定該至少一個文字資料元素與該候選文字資料元素之間的一類似性度量的值; 處理候選文字資料元素,以利用與該反縮略原型文字單元具有一有序關係的相關聯候選文字單元選擇候選文字資料元素;及 使用該類似性度量值及該候選文字資料元素選擇來提名一相關聯候選文字單元作為該經縮略文字單元的一經反縮略原型化文字單元。
- 一種包括用於實施請求項15中所述的方法的指令的電腦程式產品。
- 一種包括用於實施請求項15中所述的方法的指令的電腦程式。
- 一種非暫態儲存媒體,用於儲存指令,其當被一處理器執行時使該處理器實行請求項15所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
WOPCT/SG2019/050266 | 2019-05-15 | ||
PCT/SG2019/050266 WO2020231323A1 (en) | 2019-05-15 | 2019-05-15 | Communications server apparatus, communications device(s) and methods of operation thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202109349A true TW202109349A (zh) | 2021-03-01 |
Family
ID=73290311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109115648A TW202109349A (zh) | 2019-05-15 | 2020-05-11 | 通訊伺服器裝置、通訊裝置及其操作方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11907275B2 (zh) |
EP (1) | EP3970058A4 (zh) |
JP (1) | JP2022533948A (zh) |
KR (1) | KR20220007170A (zh) |
CN (1) | CN113826102A (zh) |
SG (1) | SG11202112042UA (zh) |
TW (1) | TW202109349A (zh) |
WO (1) | WO2020231323A1 (zh) |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070220037A1 (en) | 2006-03-20 | 2007-09-20 | Microsoft Corporation | Expansion phrase database for abbreviated terms |
US7640233B2 (en) * | 2006-08-29 | 2009-12-29 | International Business Machines Corporation | Resolution of abbreviated text in an electronic communications system |
US20090248401A1 (en) | 2008-03-31 | 2009-10-01 | International Business Machines Corporation | System and Methods For Using Short-Hand Interpretation Dictionaries In Collaboration Environments |
US20100145676A1 (en) * | 2008-12-09 | 2010-06-10 | Qualcomm Incorporated | Method and apparatus for adjusting the length of text strings to fit display sizes |
JP2010152561A (ja) * | 2008-12-24 | 2010-07-08 | Toshiba Corp | 類似表現抽出装置、サーバ装置及びプログラム |
CN103229137B (zh) * | 2010-09-29 | 2016-01-20 | 国际商业机器公司 | 基于上下文的首字母缩略词和缩写词的歧义消除 |
US8930813B2 (en) * | 2012-04-03 | 2015-01-06 | Orlando McMaster | Dynamic text entry/input system |
US11010535B1 (en) * | 2012-12-21 | 2021-05-18 | Crkl, Inc. | Method for coding a vanity message for display |
US10303746B1 (en) * | 2012-12-21 | 2019-05-28 | CRLK, Inc. | Method for coding a vanity message for display |
US10643276B1 (en) * | 2013-03-15 | 2020-05-05 | Capital One Services, Llc | Systems and computer-implemented processes for model-based underwriting |
US9355084B2 (en) * | 2013-11-14 | 2016-05-31 | Elsevier B.V. | Systems, computer-program products and methods for annotating documents by expanding abbreviated text |
US10152532B2 (en) | 2014-08-07 | 2018-12-11 | AT&T Interwise Ltd. | Method and system to associate meaningful expressions with abbreviated names |
US10083167B2 (en) | 2014-10-03 | 2018-09-25 | At&T Intellectual Property I, L.P. | System and method for unsupervised text normalization using distributed representation of words |
US9922015B2 (en) | 2014-10-09 | 2018-03-20 | International Business Machines Corporation | System for handling abbreviation related text using profiles of the sender and the recipient |
CN104731771A (zh) * | 2015-03-27 | 2015-06-24 | 大连理工大学 | 一种基于词向量的缩写词歧义消除系统及方法 |
US20160350652A1 (en) | 2015-05-29 | 2016-12-01 | North Carolina State University | Determining edit operations for normalizing electronic communications using a neural network |
US10140272B2 (en) | 2015-09-25 | 2018-11-27 | International Business Machines Corporation | Dynamic context aware abbreviation detection and annotation |
US9858336B2 (en) | 2016-01-05 | 2018-01-02 | International Business Machines Corporation | Readability awareness in natural language processing systems |
US20180089172A1 (en) | 2016-09-27 | 2018-03-29 | Intel Corporation | Communication system supporting blended-language messages |
JP6705352B2 (ja) * | 2016-09-29 | 2020-06-03 | 富士通株式会社 | 言語処理装置、言語処理方法、及び言語処理プログラム |
WO2019204086A1 (en) * | 2018-04-18 | 2019-10-24 | HelpShift, Inc. | System and methods for processing and interpreting text messages |
US11138382B2 (en) * | 2019-07-30 | 2021-10-05 | Intuit Inc. | Neural network system for text classification |
-
2019
- 2019-05-15 KR KR1020217041180A patent/KR20220007170A/ko active IP Right Grant
- 2019-05-15 SG SG11202112042UA patent/SG11202112042UA/en unknown
- 2019-05-15 WO PCT/SG2019/050266 patent/WO2020231323A1/en active Search and Examination
- 2019-05-15 US US17/610,075 patent/US11907275B2/en active Active
- 2019-05-15 CN CN201980096352.2A patent/CN113826102A/zh active Pending
- 2019-05-15 EP EP19928628.7A patent/EP3970058A4/en not_active Withdrawn
- 2019-05-15 JP JP2021568104A patent/JP2022533948A/ja active Pending
-
2020
- 2020-05-11 TW TW109115648A patent/TW202109349A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
JP2022533948A (ja) | 2022-07-27 |
CN113826102A (zh) | 2021-12-21 |
US20220237217A1 (en) | 2022-07-28 |
EP3970058A4 (en) | 2022-12-14 |
KR20220007170A (ko) | 2022-01-18 |
WO2020231323A1 (en) | 2020-11-19 |
US11907275B2 (en) | 2024-02-20 |
EP3970058A1 (en) | 2022-03-23 |
SG11202112042UA (en) | 2021-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636264B2 (en) | Stylistic text rewriting for a target author | |
US9075793B2 (en) | System and method of providing autocomplete recommended word which interoperate with plurality of languages | |
US7831911B2 (en) | Spell checking system including a phonetic speller | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
JP2008539476A (ja) | スペル提示の生成方法およびシステム | |
CN112925898B (zh) | 基于人工智能的问答方法、装置、服务器及存储介质 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
WO2014036827A1 (zh) | 一种文本校正方法及用户设备 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
KR102030551B1 (ko) | 인스턴트 메신저 구동 장치 및 그 동작 방법 | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
CN110516125B (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
WO2022022049A1 (zh) | 文本长难句的压缩方法、装置、计算机设备及存储介质 | |
CN116521133B (zh) | 软件功能安全需求分析方法、装置、设备及可读存储介质 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
US20200243092A1 (en) | Information processing device, information processing system, and computer program product | |
CN113272799B (zh) | 编码信息提取器 | |
CN111581347A (zh) | 语句相似度匹配方法及装置 | |
TW202109349A (zh) | 通訊伺服器裝置、通訊裝置及其操作方法 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
JP7293743B2 (ja) | 処理装置、処理方法及びプログラム | |
US20220351085A1 (en) | Method and apparatus for presenting candidate character string, and method and apparatus for training discriminative model | |
CN112733492B (zh) | 基于知识库的辅助设计方法、装置、终端和存储介质 | |
US8788507B1 (en) | Watermarking of structured results and watermark generation |