TWI822370B - 使用信艾普模型單元之自然語言處理系統以及方法 - Google Patents

使用信艾普模型單元之自然語言處理系統以及方法 Download PDF

Info

Publication number
TWI822370B
TWI822370B TW111137024A TW111137024A TWI822370B TW I822370 B TWI822370 B TW I822370B TW 111137024 A TW111137024 A TW 111137024A TW 111137024 A TW111137024 A TW 111137024A TW I822370 B TWI822370 B TW I822370B
Authority
TW
Taiwan
Prior art keywords
neural
natural language
language processing
words
data
Prior art date
Application number
TW111137024A
Other languages
English (en)
Other versions
TW202407576A (zh
Inventor
敏九 金
Original Assignee
敏九 金
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 敏九 金 filed Critical 敏九 金
Application granted granted Critical
Publication of TWI822370B publication Critical patent/TWI822370B/zh
Publication of TW202407576A publication Critical patent/TW202407576A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本文中揭露一種自然語言處理系統以及方法,更具體而言揭露一種使用信艾普模型單元之自然語言處理系統以及方法。

Description

使用信艾普模型單元之自然語言處理系統以及方法
本發明一般而言是有關於一種自然語言處理系統以及方法,更具體而言是有關於一種使用信艾普模型單元(synapper model unit)之自然語言處理系統以及方法。
使用包括自然語言分析(natural language analysis)、自然語言理解(natural language understanding)、自然語言產生(natural language generation)及類似操作的基本技術實行自然語言處理,並將自然語言處理應用於包括資訊檢索、機器翻譯、問與答(Questions & Answers,Q&A)及類似情境的各種領域。
使用典型自然語言處理方法的機器翻譯可能產生不準確或不可理解的句子。
為了使自然語言處理更正確,可施行各種自然語言處理過程,且自然語言處理可採用自然語言分析、自然語言理解、自然語言產生及類似操作。
自然語言分析是一種對自然語言的含義進行分析的技 術,自然語言理解是一種允許電腦因應於以自然語言呈現的輸入資料進行操作的技術,且自然語言產生是一種將視訊或顯示內容轉換成人類可理解的自然語言的技術。
近年來,自然語言處理採用神經網路模型(neural network model)。
儘管在自然語言處理中語義解析的效能有所改善,但神經網路模型可能不會提供高精度且在源資料少時會由不一致的操作驅動。另外,由於神經網路模型需要非常快的電腦效能及巨大的功耗,因此存在若干實際困難。
[相關參考文獻]
[專利文檔]
韓國專利公開出版物第10-2022-0049693號(2022年4月22日)
本發明的一個目的是提供一種自然語言處理系統以及方法,其使用信艾普模型單元即使在不存在巨量資料(big data)的情況下亦能夠以非常快的速度以高精度及一致性進行自然語言處理。
本發明不限於上述目的,且本發明的其他目的將自下面的說明變得顯而易見。
根據本發明的一態樣,一種使用信艾普模型單元的自然語言處理方法包括:預處理步驟,其中接收以自然語言書寫或發 音的文本並將所述文本轉換成由單詞構成的句子;第一轉換步驟,其中藉由第一代碼轉換器(WNC)將在所述預處理步驟中轉換的所述句子的所述單詞中的每一者轉換成神經概念代碼;信艾普模型輸入步驟,其中將在所述第一轉換步驟中轉換的所述神經概念代碼輸入至語言處理單元的信艾普模型;解析/輸出步驟,其中解析並輸出藉由所述語言處理單元的所述信艾普模型辨識出的所述神經概念代碼;第二轉換步驟,其中藉由第二代碼轉換器(NWC)將由所述語言處理單元解析並自所述語言處理單元輸出的所述神經概念代碼轉換成單詞;以及解析資料輸出步驟,其中將在所述第二轉換步驟中轉換的資料作為解析資料輸出。
較佳為,所述第一轉換步驟包括將輸入的所述單詞轉換成二進制/十進制數代碼。
較佳為,在所述第一轉換步驟中,所述十進制數代碼的前兩個數位代表將輸入的所述單詞轉換成所述神經概念代碼時的詞性(part-of-speech)。
較佳為,在所述解析/輸出步驟中,對暫存器集合中的每一神經概念代碼(neural concept code,NCC)的所述詞性進行解析以確定所述句子的正確解釋。
較佳為,在所述解析/輸出步驟中,當所述句子的所有單詞在所述第一轉換步驟中被轉換成所述神經概念代碼(NCC)時,確定所述句子的句法結構並在所述信艾普模型中對所述句子的所述句法結構進行解析,以作為經解析的神經概念代碼(NCC)輸 出。
較佳為,在所述解析/輸出步驟中,在輸出所述資料之前,高速緩衝記憶體臨時儲存藉由所述信艾普模型解析的資料。
較佳為,在所述解析/輸出步驟中,文本隨機存取記憶體(text random access memory,TRAM)儲存信艾普模型資料,以允許對所述高速緩衝記憶體中難以處理的大量句子進行存取。
較佳為,在所述解析/輸出步驟中,包括快閃記憶體的儲存裝置儲存包含重要資訊的句子,以允許稍後對所述句子進行存取。
較佳為,在所述解析/輸出步驟中,所述信艾普模型將所述文本劃分成句子,每一句子由單詞構成且以自然語言的各種方式表達,並且基於所述句子中每一單詞的詞性及與其相鄰的單詞來確定所述單詞中的哪些單詞是分支及所述單詞中的哪些單詞是節點。
較佳為,在所述解析/輸出步驟中,在確定所述節點及所述分支之後,所述信艾普模型在第一方向上將所述節點彼此連接,同時在不同於所述第一方向的方向上將所述分支連接至對應的所述節點。
根據本發明的另一態樣,一種使用信艾普模型單元的自然語言處理系統包括:輸入單元,輸入自然語言;類比數位轉換器(analog-to-digital converter,ADC),將輸入至所述輸入單元的類比資料轉換成數位資料;第一代碼轉換器(WNC),將所述數位 資料轉換成神經概念代碼;語言處理單元,自所述第一代碼轉換器(WNC)接收所述神經概念代碼,以藉由信艾普模型解析並輸出所述神經概念代碼;第二代碼轉換器(NWC),將自所述語言處理單元輸出的經解析的所述神經概念代碼轉換成經解析的單詞資料;數位類比轉換器(digital-to-analog converter,DAC),將藉由所述第二代碼轉換器(NWC)轉換的所述經解析的單詞資料轉換成類比資料;以及輸出單元,輸出藉由所述數位類比轉換器(DAC)轉換的所述類比資料,以提供自然語言的解析資料。
根據本發明,所述系統及方法在使用信艾普模型單元進行自然語言處理時即使不存在巨量資料亦能夠以非常快的速度以高精度及一致性進行自然語言處理。
100:中央處理單元(CPU)
110:輸入單元
120:類比數位轉換器(ADC)
160:第一代碼轉換器
170:第二代碼轉換器
180:數位類比轉換器(DAC)
190:輸出單元
200:語言處理單元(LPU)
210:控制單元
220:暫存器
230:信艾普模型/信艾普模型單元(SMU)
240:高速緩衝記憶體
310:文本隨機存取記憶體(TRAM)
320:快閃記憶體
S110、S120、S130、S140、S150、S160:步驟
結合附圖閱讀以下實施例的詳細說明,本發明的上述及其他態樣、特徵及優點將變得顯而易見:圖1是示出自然語言的單詞次序(word order)的整合狀態的圖。
圖2及圖3是根據本發明實施例的信艾普模型的概念圖。
圖4是根據本發明一個實施例的使用信艾普模型單元的自然語言處理系統的圖。
圖5是根據本發明另一實施例的使用信艾普模型單元的自然語言處理系統的圖。
圖6是根據本發明一個實施例的使用信艾普模型單元的自然語言處理方法的流程圖。
在下文中,將參照附圖闡述本發明的實施例。
應理解,本發明不限於以下實施例,且可以不同的方式呈現,且提供實施例是為了使揭露完整並使熟習此項技術者徹底理解本發明。本發明的範圍僅由申請專利範圍來定義。
將省略可能不必要地使本發明的標的物模糊不清的已知功能及構成的說明。
世界上有許多種自然語言。由於該些自然語言使用各種單詞次序的句子,因此在翻譯或句子處理中存在許多困難。可利用多個維度將該些語言的不同句子結構整合成一個統一的結構系統。
在本文中,源資料可意指包括自然語言處理中所使用的文本資料的資料。
如圖1所示,依據語言而定,單詞以不同的次序排列形成句子。因此,語言被認為具有不同的語法。舉例而言,例如韓語及英語等語言似乎不具有語法共性,乃因該些語言中的單詞次序在根本上不同。每種語言的單詞次序依據其中主體(subject)、賓物(object)及動詞排列的單詞次序而變化。
亦即,在主體-賓物-動詞(subject-object-verb,SOV)、主體-動詞-賓物(subject-verb-object,SVO)、OVS、VOS、VSO 及OSV六種單詞次序中,韓語使用SOV作為基本單詞次序,而英語及其他西歐語言一般使用SVO作為基本單詞次序。當三個符記(token)(即,主體、賓物及動詞)以圓形狀連接時,組合方法的數目自6種減少至2種。
圖1(a)示出其中符記以順時針方向移動的單詞次序SOV、OVS、VSO。相反,圖1(b)示出其中符記以逆時針方向移動的單詞次序SVO、VOS、OSV。除了符記移動的方向之外,所述兩個圓具有相同的結構。可看出,自然語言的所有單詞次序都存在於此種單一結構中。
此處,即使改變每種語言中單詞的排列次序,由所述單詞構成的句子的含義亦不會改變。
信艾普模型是藉由連接不同維度的單詞來達成。
參照圖2至圖6,將闡述根據本發明的使用信艾普模型的自然語言處理系統以及方法。
參照圖2,當句子中的單詞自主體以順時針方向排列時,句子以主體「簡(Jane)」開始並完成一個英語句子。
另一方面,當句子中的單詞自主體以逆時針方向排列時,可輸出韓語或日語句子。
具體而言,英語:簡有一匹非常快的棕色馬(Jane has a very fast brown horse)。
韓語:簡(一匹)非常快的棕色馬有(Jane(a)very fast brown horse has)。
Figure 111137024-A0305-02-0009-2
.
日語:簡(一匹)非常快的棕色馬有(Jane(a)very fast brown horse has)。
Figure 111137024-A0305-02-0009-3
Figure 111137024-A0305-02-0009-4
茶色
Figure 111137024-A0305-02-0009-5
Figure 111137024-A0305-02-0009-6
Figure 111137024-A0305-02-0009-11
由於韓語或日語中省略了冠詞,因此可去掉「a」。在一些語言中,修飾語可放在被修飾語(modificand)之後。在該情況下,可改變處理次序以在被修飾語之後處理修飾語。如此一來,當將一個一般的敘述性句子應用於信艾普模型時,就可能確定句子結構。
在此種結構中,藉由根據單詞次序排列單詞,可不考慮語言而確定正確的句子。即,可藉由n維句子結構提取通常使用的一維句子。
即,藉由寫作表達個人思想的問題在於:單詞越多,用於解析的句子就越複雜。此乃因所有的單詞都在同一個方向或維度上書寫。藉由信艾普模型,使用二或更多個方向或維度使句子的句法結構變得更加直觀得多。
本文中使用的信艾普模型是用於將傳統(一維或線性)句子轉換成多維句子結構的基於模型的方法。
語言、即信艾普模型視處理而定以達成句子的多維表達。
信艾普模型基於關於人腦如何構成句子(思想)(即,人腦如何形成句子)的假設來處理及建議句子。一旦以信艾普斯(synapse)形式或模型對一個句子(即,句子背後的想法或概念) 進行處理及建議,所述句子便會易於重新創建或渲染成幾乎任何目標語言的句子以供進行翻譯及解釋。
首先,利用信艾普模型的結構提供句子。即,根據本發明,信艾普模型藉由學習資料(動詞資料庫、形容詞資料庫、藉由影像訊號處理(Image Signal Processing,ISP)供應的資料源及類似資料)對文本進行處理,以確定每一單詞的詞性。
接著,信艾普模型對正在處理的句子中每一單詞前後的單詞的詞性進行解析,以確定單詞中的哪些單詞是分支(branch)及單詞中的哪些單詞是節點(node)。
此處,節點意指與主循環(main loop)有關係的單詞。
另外,分支意指與一個特定節點相關的補充詞。
然後,信艾普模型將所有節點在一個方向上彼此連接,並在不同方向上將分支詞連接至節點。
然後,基於信艾普模型確定句子的類型。
即,可藉由在信艾普模型中對句子進行處理來去掉所有分支詞。
將句子的剩餘部分(簡單節點)視為基於信艾普模型的關鍵句(key sentence)。此可根據創造性原理進一步進行處理,以進一步去掉源資料語言的原始句子作為節點的詞性。
此後,基於此種資訊,信艾普模型可判斷對應的句子是疑問句、簡單句還是其他句型(即,不同類型的句子結構)。
使用信艾普模型處理的句子可被視為句子或命令。此 後,可進一步解析臨時組建的句子模型的內容,例如辨識主體、動詞短語及句子的其餘部分。
另外,所有節點可以一維表示,而分支詞未必以一維表示。此預先假定一種理解,即人腦很可能使用多個維度用於分支詞。
舉例而言,信艾普模型根據單詞與對應句子中的其他單詞的關係將所述單詞確定為節點或分支。
舉例而言,當一形容詞後跟著另一形容詞或名詞時,所述形容詞則變成分支詞(例如,快的車(fast car))。
另外,當一形容詞後面沒有跟著另一形容詞或名詞時,所述形容詞則變成節點(例如,車是快的(car is fast))。
如上所述,在使用信艾普模型的自然語言處理方法中,所有語言只有六(6)種單詞次序。
在SOV、SVO、OSV、OVS、VSO及VOS中,三種次序具有在一個方向(順時針方向)上移動的符記,而其他三種次序具有在相反方向(逆時針方向)上移動的符記。
因此,至少在理論上,只要句子具有正確的結構,就有可能將句子翻譯成任何自然語言。
信艾普模型為句子提供正確的結構。另外,信艾普模型能夠藉由將句子中的單詞中的每一者轉換成特定的數代碼(即,神經概念代碼)來處理句子,而不依賴於特定的語言。
此種特徵區別於將特定語言(即源語言)中的每一單詞 翻譯成另一種語言(即目標語言)中的單詞的常見做法。
此乃因許多單詞具有各種各樣的含義,進而造成誤譯。
圖4至圖5示出根據本發明的使用信艾普模型的自然語言處理系統。
參照圖4至圖5,自輸入至中央處理單元(central processing unit,CPU)100的自然語言文本提取單詞,並藉由第一代碼轉換器(WNC:單詞至NCC轉換器(word-to-NCC converter))160將其轉換成神經概念代碼。
接著,將神經概念代碼的資料輸入至語言處理單元(language processing unit,LPU)200,其實行神經概念代碼的自然語言處理並將經處理的神經概念代碼輸出至第二代碼轉換器(NWC:NCC至單詞轉換器(NCC-to-word converter))170。
在第二代碼轉換器170中,可將經過自然語言處理並自語言處理單元200輸出的神經概念代碼轉換成單詞。
將由第二代碼轉換器170轉換的單詞發送至CPU 100,CPU 100藉由對輸入至CPU的自然語言文本進行自然語言處理(翻譯)輸出翻譯結果。
此處,神經概念代碼可意指代表神經概念的32位元二進制代碼。
二進制代碼可由十進制數來表示,其中前兩個數位可用於表示詞性。
接著的8個數位可用於表示特定神經概念。
NCC可表達成32個二進制數及十進制數4,294,967,295,如下所示。
1111 1111 1111 1111 1111 1111 1111 1111(二進制)
4294967295(十進制數)
在十進制數中,前兩個數位可用於代表詞性。其餘的8個數位可用於代表特定神經概念。
舉例而言,0001001732(十進制數)是意指「出租車司機(taxi driver)」的NCC,且0500008055(十進制數)意指「承諾(promise)」。
在第一個NCC中,前兩個數位00代表神經概念是名詞。在第二個NCC中,前兩個數位05代表神經概念是動詞。
有一種模式是使用其中兩個數位來代表詞性。
具體而言,兩個數位可能表示如下:00=名詞,05=動詞,10=形容詞,15=副詞,20=介詞,22=連詞,且30=感歎詞。
然而,例如連詞及感歎詞等詞性需要數百個神經概念。在所有語言中,需要最多數目個神經概念的詞性是名詞。能夠表示接近1億(確切而言94,967,295)個名詞神經概念的神經概念代碼可能足以滿足所有實際目的。
NCC介於人類理解的(單詞)與機器理解的(二進制數)之間。NCC相似於使用例如C等程式化語言,使人類與電腦可彼此理解。此是為什麼神經概念代碼(NCC)表達為十進制數的原因。否則,人們可能無法在代碼中找到含義。然而,電腦只可對 二進制數進行處理。因此,需要將由十進制數構成的神經概念代碼(NCC)的前兩個數位解析成二進制的附加步驟。舉例而言,220007710意指神經概念代碼(NCC)。在此神經概念代碼中,前兩個數位22指示連詞。人們容易知道詞性是什麼。然而,電腦有必要將該些資訊解析成二進制。因此,需要6個位元來獲得所述前兩個數位。
在神經概念代碼(NCC)中,代表詞性的數在00與42之間。舉例而言,數22是010110。邏輯閘藉由對此類資訊進行分析來處理句子。神經概念代碼(NCC)的其餘部分大多與處理無關,且應忽略。
當句子中的所有單詞被轉換成神經概念代碼(NCC)時,可確定句子的句法結構並將其轉換成信艾普模型230。在神經概念代碼(NCC)中,句子的信艾普模型就像具有擁有機器的藍圖。由於信艾普模型包含用於句子解析的足夠資訊,因此即使不使用機器學習技術,信艾普模型亦可應用於翻譯、閱讀理解、轉換及類似操作。
利用此種結構,可藉由語言處理單元(LPU)200對自然語言進行處理。語言處理單元即使在不存在巨量資料的情況下亦可以非常高的速度高效地對語言進行處理。此相似於算術邏輯單元(Arithmetic Logic Unit,ALU)是如何利用非常少的功率以非常高的速度輸出數學計算。
此步驟的結果可能較當前可用的用於自然語言處理 (natural language processing,NLP)的機器學習演算法更精確。此乃因信艾普模型單元(synapper model unit,SMU),其被設想成以相似於人腦的方式處理語言。
另一方面,機器學習演算法固有地計算概率預測,且因此可能不會總是生成正確的結果。
語言處理單元(LPU)200可包括控制單元210、暫存器220、信艾普模型單元(SMU)230及高速緩衝記憶體240。
控制單元210可控制暫存器220、信艾普模型單元230及高速緩衝記憶體240。
暫存器220將自CPU 100接收的句子放置於暫存器集合中。最初,暫存器集合是藉由忽略標點符號(例如逗號、句號及問號)依序組合的經轉換的神經概念代碼(NCC)文本字符串。
在此種簡單的暫存器集合中,對每一神經概念代碼(NCC)的詞性進行解析以確定句子的正確信艾普模型。
舉例而言,在句子「三個火槍手是一本非常好的書(The three musketeers is a very good book)」中,前三個單詞(三個火槍手(The three musketeers))可被視為三個單獨的單詞。然而,該些單詞代表指示具有與所述三個單獨的單詞同名的一本書的單個神經概念。
因此,三個火槍手可能會被簡化為單個神經概念代碼(NCC)。
00-------- 05-------- 11-------- 15-------- 10-------- 00--------
此NCC文本串包括句子的詞性,如下所示:名詞(00)+動詞(05)+限定詞(11)+副詞(15)+形容詞(10)+名詞(00)(其餘的8個數位是無關的)。當將此資訊輸入至暫存器時,暫存器使用邏輯閘形成單詞之間的句法關係。舉例而言,副詞+形容詞+名詞的組合(「非常好的書(very good book)」)指示該些單詞應組合在一起作為一個節點。藉由及(AND)閘,NCC文本串可改變成:00-------- — 05-------- — 11--------,15-------- + 10-------- | 00--------
T.T.M.—是—一本,非常+好的|書
即,如圖3所示,—(破折號)=在側向上連接節點(例如,「是—書(is — book)」)。
|(豎線)=將節點連接至分支(例如,「一本|書(a | book)」)。
,(逗號)=下一符記亦是分支,但不在同一維度中(例如,「一,好(a,good)」)。
+(相加)=將屬於同一維度的節點或分支彼此連接(例如,「非常+好(
Figure 111137024-A0305-02-0016-12
+
Figure 111137024-A0305-02-0016-13
)」。
即,15及10指示「15+10」且10及00指示「10 | 00」。(此是默認的。必須為「10及00」的所有例子提供相同的結果。)因此,三個單詞全部指示「15+10 | 00」或「
Figure 111137024-A0305-02-0016-14
+
Figure 111137024-A0305-02-0016-15
|
Figure 111137024-A0305-02-0016-16
」。此種結果相似於使用邏輯閘獲得的結果。
使用符號(例如加及減)來實行計算。
為了將句子儲存為信艾普模型,需要7個暫存器集合。
PNP+PVP+SP+CE 1+CE 2+CE 3+CE 4
將普通的句子劃分為基礎名詞短語(basic noun phrase,PNP)、基礎動詞短語(basic verb phrase,PVP)及次謂語(sub-predicate,SP)。可首先且最重要的是排列一個互補元素(complementary element,CE)。
可將另外兩個互補元素放置於PNP、PVP與SP之間。在SVO中,句子顯示如下。
CE 1+PNP+CE 2+PVP+CE 3+SP+CE 4
接著是一個包括所有7個部分的示例性句子:相傳在很久很久以前,一隻雌性的龍一邊噴火一邊飛過這座山。(
Figure 111137024-A0305-02-0017-17
Figure 111137024-A0305-02-0017-18
.)
一個核心句子(PNP+PVP+SP)簡而言之是「龍飛過這座山」。
可在開頭(「很久很久以前」)、PNP與PVP之間(「雌性」)、PVP與SP之間(「一邊噴火」)及結尾(「相傳」)添加選擇性短語或從句(clause,CE)。為了確保能夠儲存每一類別的NCC的足夠的空間,建議採取以下措施。
PNP:25×(32位元NCC+2位元S+1位元P)+1位元V=876位元
PVP:15×(32位元NCC+2位元S+1位元P)+1位元V=526位元
SP:40×(32位元NCC+2位元S+1位元P)+1位元V=1,401位元
CE:20×(32位元NCC+2位元S+1位元P)+1位元V=701位元(總共2,804位元)
當所有位元相加時,總共為5,607位元。然而,在神經概念代碼(NCC)之間亦需要3位元代碼暫存器,以使得神經概念代碼(NCC)能夠以特定方式鏈接在一起。
因此,分別向PNP、PVP、SP及四個CE中的每一者添加72位元、42位元、117位元及228位元。因此,需要6,066位元暫存器來儲存單個信艾普模型。
需要2位元補充暫存器(S)來儲存資訊,例如名詞的性別(例如,女性)或動詞的時態(例如,過去時態)。此暫存器亦可用於指示形容詞是比較級、最高級亦或兩者都不是。
需要1位元暫存器(P)來確定複數名詞(例如,水果(fruit)對一些水果(fruits))。此暫存器亦可用於指示動詞的詞形變化或動詞的變形條件(例如,go/goes)。需要1位元暫存器(V)來指示溢出(overflow)。
選項暫存器可用於算出關於每個句子的更多資訊,如下所示:句子類型(2位元):陳述句、疑問句等。
內容類型(6位元):一般、會話、休閒、正式、法律、物理等。
語言類型(9位元):英語(en)、英語-英國(en-uk)、英語-美國(en-us)、法語-法國(fr-fr)、法語-加拿大(fr-ca)等。
單詞次序(3位元):SVO、SOV等。
主體(32位元):代詞所指的名詞(例如,他->約翰)
賓物(32位元):代詞所指的名詞(例如,它->鳥)
動詞(32位元):補充動詞所指的動詞(例如,做(did)->走(walked))
此種特定暫存器(共116位元)僅在句子改變時改變條件。
高速緩衝記憶體240臨時儲存經處理的句子以產生輸出。要求語言處理單元(LPU)200的高速緩衝記憶體240具有能夠儲存一或兩個段落的句子的大空間。
有時,需要對書中的所有句子進行存取。即,需要將數萬個句子儲存於特別設計用於儲存信艾普模型資料的文本隨機存取記憶體(TRAM)310中。
用於語言處理單元200的TRAM 310可被認為是與用於圖形處理單元(graphics processing unit,GPU)的視訊隨機存取記憶體(Video RAM,VRAM)相同的概念。
即,語言處理單元200的高速緩衝記憶體240可儲存一或兩個段落的句子,而TRAM 310用於儲存若干個句子。
另外,快閃記憶體320可稍後對包含重要資訊的句子進行存取。如此一來,語言處理單元200不僅可處理語言,亦可回答問題。
人腦具有語言處理單元(「語言能力」)及記憶。藉由將被認為重要的句子的信艾普模型儲存於快閃記憶體320中,語言處理單元200可像人腦一樣工作。
參照圖5,根據本發明的使用信艾普模型的自然語言處理系統可包括:輸入單元110(例如相機、麥克風及類似裝置),輸入自然語言;類比數位轉換器(ADC)120,將輸入至輸入單元110的類比資料轉換成數位資料;第一代碼轉換器(WNC)160,將數位資料轉換成神經概念代碼;語言處理單元200,自第一代碼轉換器(WNC)160接收神經概念代碼,以藉由信艾普模型單元(SMU)解析並輸出神經概念代碼;第二代碼轉換器(NWC)170,將自語言處理單元200輸出的經解析的神經概念代碼轉換成經解析的單詞資料;數位類比轉換器(DAC)180,將藉由第二代碼轉換器(NWC)180轉換的經解析的單詞資料轉換成類比資料;以及輸出單元190(例如顯示器及揚聲器),輸出藉由數位類比轉換器(DAC)180轉換的類比資料,以提供自然語言的解析資料。
參照圖6,根據本發明的使用信艾普模型單元的自然語言處理方法包括:預處理步驟S110,其中接收以自然語言書寫或發音的文本(即,源資料),並將其轉換成由單詞構成的句子;第一轉換步驟S120,其中藉由第一代碼轉換器(WNC)將在預處理 步驟S110中轉換的句子的單詞中的每一者轉換成神經概念代碼;信艾普模型單元輸入步驟S130,其中將在第一轉換步驟S120中轉換的神經概念代碼輸入至語言處理單元(LPU)200的信艾普模型單元;解析/輸出步驟S140,其中解析並輸出藉由語言處理單元的信艾普模型單元(SMU)辨識的神經概念代碼;第二轉換步驟S150,其中藉由第二代碼轉換器(NWC)將由語言處理單元解析並自語言處理單元輸出的資料的神經概念代碼轉換成單詞;以及解析資料輸出步驟S160,其中輸出在第二轉換步驟S150中轉換的資料作為解析資料。
在使用信艾普模型的自然語言處理方法中,第一轉換步驟S120可包括將輸入的單詞轉換成二進制/十進制數代碼。
在將輸入的單詞轉換成十進制數代碼時,前兩個數位可可表示詞性。
在解析/輸出步驟S140中,可對暫存器集合中的每一神經概念代碼(NCC)的詞性進行解析,以確定句子的正確解釋。
另外,在解析/輸出步驟S140中,當在第一轉換步驟S120中將句子的所有單詞轉換成神經概念代碼(NCC)時,可確定句子的句法結構並在信艾普模型單元(SMU)中對句子的句法結構進行解析,以作為經解析的神經概念代碼(NCC)輸出。
此外,在解析/輸出步驟S140中,高速緩衝記憶體240可在輸出資料之前臨時儲存藉由信艾普模型單元解析的資料。
此外,在解析/輸出步驟S140中,文本隨機存取記憶體 (TRAM)310儲存信艾普模型資料,以允許對高速緩衝記憶體240中難以處理的大量句子進行存取。
此外,在解析/輸出步驟S140中,當使用快閃記憶體320時,快閃記憶體320可儲存包含重要資訊的句子,以允許稍後對所述句子進行存取。
此外,在解析/輸出步驟S140中,信艾普模型可將文本劃分成句子,每一句子由單詞構成且以自然語言的各種方式表達,並且可基於所述句子中每一單詞的詞性及與其相鄰的單詞來確定單詞中的哪些單詞是分支及單詞中的哪些單詞是節點。
此外,在解析/輸出步驟S140中,在確定節點及分支之後,信艾普模型可在第一方向上將節點彼此連接,同時在不同於第一方向的方向上將分支連接至對應的節點。
更具體而言,在處理韓語句子例如「
Figure 111137024-A0305-02-0022-20
Figure 111137024-A0305-02-0022-21
」時,在使用信艾普模型單元(SMU)的自然語言處理方法中,自CPU或另一個源接收文本形式的資料。
當接收的資料不是文本時,接收的資料被轉換成文本。
由於該句子由典型的單詞構成,因此在第一轉換步驟S120中,藉由第一代碼轉換器(WNC)160將單詞轉換成神經概念代碼(NCC)。
此處,可去掉所有的後置助詞。
Figure 111137024-A0305-02-0022-22
(
Figure 111137024-A0305-02-0022-23
)
Figure 111137024-A0305-02-0022-24
(英熙去了哲洙家)→
Figure 111137024-A0305-02-0022-25
→0012334534 0035475344 0084023453 2048554671 0587335288
該些神經概念代碼以十進制數表達,以便於人們理解,且可對二進制數施行處理。因此,將對應的資料發送至語言處理單元(LPU),以藉由控制單元210發送至暫存器220。
PNP:0012334534
PVP:0587335288
SP:0035475344 0084023453 2048554671
然後,信艾普模型單元(SMU)基於對應的資料產生解析資料。
舉例而言,根據若名詞後跟著另一名詞,則所述另一名詞被視為分支(若單詞03及單詞04==「名詞」,則...)的規則,確定每一NCC如何連接。然後,單詞根據正確的次序排列成一個句子。為了將句子翻譯成英語句子,如下所示設定信艾普模型。
(CE 1) +PNP+(CE 2) +PVP+(CE 3) +SP+(CE 4)
0012334534 + 0587335288 + 2048554671 + 0035475344 + 0084023453
0012334534 — 0587335288 — 2048554671 — 0035475344 | 0084023453
接著,將信艾普模型發送至高速緩衝記憶體。另外,信艾普模型可根據需要儲存於TRAM中。
在此實施例中,由於任務完成,將對應的資料自語言處 理單元(LPU)發送至第二代碼轉換器(NWC)170。
第二代碼轉換器170將神經概念代碼(NCC)轉換成英語單詞。
0012334534 — 0587335288 — 2048554671 — 0035475344 | 0084023453
英熙—去—了—哲洙|家(younghee — went — to — cheolsoo | house)
CPU 100接收輸出的資料並將其轉換成一般的線性句子結構。對特定語言特定的規則根據每種語言的語法藉由CPU中的各種方法進行修改。
英熙去了哲洙家→英熙去了哲洙的家。
因此,根據本發明,與當前基於機器學習的神經機器翻譯(neural machine translation,NMT)不同,可實行翻譯而不會對原始文本造成損壞。
當在信艾普模型中確定原始文本的句法結構時,可在此種結構中產生所有語言的翻譯。
由於在保持人工造句的同時提取翻譯,因此翻譯變得自然而正確。
另外,根據本發明的方法以及系統不使用巨量資料,借此消除學習過程。
基於機器學習的SMT或NMT演算法需要對特定語言進 行單獨學習。舉例而言,奈博(Naver)的趴趴狗(Papago)擅長英語至韓語及韓語至英語的翻譯,此提供大量的學習資料,但在其他語言組合(例如烏茲別克語->越南語及類似語言)中提供的翻譯效能差。然而,根據本發明的使用信艾普模型的自然語言處理方法可基本上應用於所有語言,藉此解決翻譯效能差的問題。
另外,由於信艾普模型可確定每個句子的確切結構,因此信艾普模型亦可具有關於每個句子的含義的資訊。正如當基因結構被確定時許多事情變得可能一樣,當句子的結構被確定時,先前不可能或困難的事情變得可能。即,藉由對句子的結構進行分析,可確定句子是肯定句還是否定句。
因此,由於基於機器學習的演算法不需要功耗或計算能力,因此使用一般智慧型手機就可充分處理簡單的任務。因此,在沒有網際網路接入的使用者裝置上可進行自然語言處理。若需要快速處理大量句子,可藉由在硬體晶片中設計上述過程來達成更快得多的效能。
綜上所述,根據本發明,使用信艾普模型單元的自然語言處理即使在不存在巨量資料的情況下亦可以高精度及一致性高速實行。
根據本發明的上述系統可被實施為硬體組件、軟體組件及/或硬體組件與軟體組件的組合。舉例而言,處理系統可運作操作系統(operating system,OS)及在操作系統上運作的至少一個軟體應用。另外,處理系統亦可因應於軟體的執行來存取、儲存、 操縱、處理及產生資料。為了便於理解,儘管有時闡述一個處理裝置,但是此項技術中具有通常知識者將意識到所述處理系統可包括多個處理元件及/或多種類型的處理元件。舉例而言,處理系統可包括多個處理器或者一個處理器及一個控制器。亦可利用例如並列處理器等其他處理配置。
軟體可包括電腦程式、代碼、指令或其組合,其將處理系統配置成根據需要進行操作或者在處理系統中獨立地操作或共同地操作。軟體及/或資料可包含於任何種類的機器、組件、實體裝置、虛擬設備、電腦儲存媒體或裝置中,由處理裝置解釋或向處理系統提供指令或資料。軟體可分佈於聯網的電腦系統之上,以分佈式方式儲存或執行。軟體及資料可儲存於至少一個電腦可讀記錄媒體中。
根據實施例的方法可以程式指令的形式達成,所述程式指令可藉由各種電腦組件來實施,且可記錄於電腦可讀儲存媒體中。電腦可讀儲存媒體可包括程式指令、資料檔案、資料結構及類似形式或者是單獨的或者是其組合。記錄於電腦可讀儲存媒體中的程式指令可為為本揭露特別設計及構造的或者電腦軟體領域的技術人員已知的任何程式指令。電腦可讀儲存媒體的實例包括磁性記錄媒體(例如硬碟、軟碟及磁帶)、光學資料儲存媒體(例如光碟唯讀記憶體(compact disc-read only memory,CD-ROM)及數位視訊唯讀記憶體(digital video disc-read only memory,DVD-ROM))、磁光媒體(例如光軟盤)以及硬體裝置(例如唯讀 記憶體(read-only memory,ROM)、隨機存取記憶體(RAM)及快閃記憶體),其等被特別構造成儲存及實施程式指令。程式指令的實例不僅包括由編譯器產生的機器語言代碼亦包括可由電腦使用解釋器執行的高階語言代碼(high level language code)。硬體裝置可被配置成由一或多個軟體模組操作,或者反之,以實行根據本發明的過程。
儘管本文中已經闡述了根據本發明的使用信艾普模型單元之自然語言處理系統以及方法的一些實施例,但是應理解,熟習此項技術者可在不背離本發明的精神及範圍的情況下進行各種修改、改變及變更。因此,本發明的範圍應該由所附申請專利範圍及其等同物來定義,而不是限制於前述實施例。
亦即,應理解,前述實施例僅用於例示而不應以任何方式解釋為對本發明進行限制,本發明的範圍由所附申請專利範圍而不是本文中的詳細說明來定義,且所附申請專利範圍及其等同物旨在涵蓋落入本發明的範圍及精神內的此種修改、改變及變更。
S110、S120、S130、S140、S150、S160:步驟

Claims (9)

  1. 一種使用信艾普模型單元之自然語言處理方法,其中所述自然語言處理方法適用於具有處理器的電腦裝置,所述自然語言處理方法透過所述處理器執行以下步驟,包括:預處理步驟,包括接收以自然語言書寫或發音的文本並將所述文本轉換成由單詞構成的句子;第一轉換步驟,包括藉由第一代碼轉換器(WNC)將在所述預處理步驟中轉換的所述句子的所述單詞中的每一者轉換成以二進制數或/以及十進制數表示的神經概念代碼,其中以所述十進制數表示的所述神經概念代碼的前兩個數位代表所述單詞轉換成所述神經概念代碼時的詞性;信艾普模型輸入步驟,包括將在所述第一轉換步驟中轉換的所述神經概念代碼輸入至語言處理單元的信艾普模型;解析/輸出步驟,包括解析並輸出藉由所述語言處理單元的所述信艾普模型辨識出的所述神經概念代碼;第二轉換步驟,包括藉由第二代碼轉換器(NWC)將由所述語言處理單元解析並自所述語言處理單元輸出的所述神經概念代碼轉換成經解析的單詞;以及解析資料輸出步驟,包括將在所述第二轉換步驟中轉換成所述經解析的單詞的資料輸出為所述自然語言的解析資料。
  2. 如請求項1所述的自然語言處理方法,其中,在所述解析/輸出步驟中,透過所述處理器對暫存器集合中的每一所述 神經概念代碼(NCC)的所述詞性進行解析以確定所述句子的正確解釋。
  3. 如請求項1所述的自然語言處理方法,其中,在所述解析/輸出步驟中,當所述句子的所有單詞在所述第一轉換步驟中被轉換成所述神經概念代碼(NCC)時,透過所述處理器確定所述句子的句法結構並在所述信艾普模型中對所述句子的所述句法結構進行解析,以作為經解析的神經概念代碼(NCC)輸出。
  4. 如請求項1所述的自然語言處理方法,其中,在所述解析/輸出步驟中,在輸出所述資料之前,透過高速緩衝記憶體臨時儲存藉由所述信艾普模型解析的資料。
  5. 如請求項4所述的自然語言處理方法,其中,在所述解析/輸出步驟中,透過文本隨機存取記憶體(TRAM)儲存信艾普模型資料,以允許對所述高速緩衝記憶體中難以處理的大量句子進行存取。
  6. 如請求項5所述的自然語言處理方法,其中,在所述解析/輸出步驟中,透過快閃記憶體儲存包含重要資訊的句子,以允許稍後對所述句子進行存取。
  7. 如請求項1所述的自然語言處理方法,其中,在所述解析/輸出步驟中,透過所述信艾普模型將所述文本劃分成句子,每一句子由單詞構成且以自然語言的各種方式表達,並且基於所述句子中每一單詞的詞性及與其相鄰的單詞來確定所述單詞中的哪些單詞是分支及所述單詞中的哪些單詞是節點。
  8. 如請求項7所述的自然語言處理方法,其中,在所述解析/輸出步驟中,在透過所述處理器確定所述節點及所述分支之後,所述信艾普模型在第一方向上將所述節點彼此連接,同時在不同於所述第一方向的方向上將所述分支連接至對應的所述節點。
  9. 一種使用信艾普模型單元之自然語言處理系統,包括:輸入單元,用以輸入自然語言;類比數位轉換器(ADC),用以將輸入至所述輸入單元的類比資料轉換成由單詞資料構成的數位資料;第一代碼轉換器(WNC),用以將所述數位資料的所述單詞資料中的每一者轉換成以二進制數或/以及十進制數表示的神經概念代碼,其中以所述十進制數表示的所述神經概念代碼的前兩個數位代表所述單詞資料轉換成所述神經概念代碼時的詞性;語言處理單元,用以自所述第一代碼轉換器(WNC)接收所述神經概念代碼,以藉由信艾普模型解析並輸出所述神經概念代碼;第二代碼轉換器(NWC),用以將自所述語言處理單元輸出的經解析的所述神經概念代碼轉換成經解析的單詞資料;數位類比轉換器(DAC),用以將藉由所述第二代碼轉換器(NWC)轉換的所述經解析的單詞資料轉換成類比資料;以及輸出單元,用以輸出藉由所述數位類比轉換器(DAC)轉換的所述類比資料,以提供所述自然語言的解析資料。
TW111137024A 2022-08-02 2022-09-29 使用信艾普模型單元之自然語言處理系統以及方法 TWI822370B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220096224A KR20240018229A (ko) 2022-08-02 2022-08-02 시내퍼 모델을 이용한 자연어 처리 시스템 및 방법
KR10-2022-0096224 2022-08-02

Publications (2)

Publication Number Publication Date
TWI822370B true TWI822370B (zh) 2023-11-11
TW202407576A TW202407576A (zh) 2024-02-16

Family

ID=83546721

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111137024A TWI822370B (zh) 2022-08-02 2022-09-29 使用信艾普模型單元之自然語言處理系統以及方法

Country Status (7)

Country Link
US (1) US11636275B1 (zh)
EP (1) EP4318300A1 (zh)
JP (1) JP7511614B2 (zh)
KR (2) KR20240018229A (zh)
CN (1) CN117494696A (zh)
CA (1) CA3197945A1 (zh)
TW (1) TWI822370B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201919040A (zh) * 2017-11-03 2019-05-16 財團法人資訊工業策進會 聲控方法及系統
TWI677796B (zh) * 2017-03-02 2019-11-21 大陸商騰訊科技(深圳)有限公司 自然語言的語義提取方法及裝置和電腦儲存介質
TWM607509U (zh) * 2020-09-25 2021-02-11 國泰人壽保險股份有限公司 語音服務系統
TW202211077A (zh) * 2020-09-07 2022-03-16 和碩聯合科技股份有限公司 多國語言語音辨識及翻譯方法與相關的系統
TWI770754B (zh) * 2020-03-05 2022-07-11 大陸商上海商湯智能科技有限公司 神經網路訓練方法及電子設備和儲存介質

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
AUPR956901A0 (en) * 2001-12-17 2002-01-24 Jayaratne, Neville Real time translator
US7346493B2 (en) 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
US7433893B2 (en) * 2004-03-08 2008-10-07 Marpex Inc. Method and system for compression indexing and efficient proximity search of text data
JP5309480B2 (ja) * 2007-06-14 2013-10-09 沖電気工業株式会社 文字列入力装置、文字列入力方法およびプログラム
US20100121630A1 (en) * 2008-11-07 2010-05-13 Lingupedia Investments S. A R. L. Language processing systems and methods
US9176949B2 (en) 2011-07-06 2015-11-03 Altamira Technologies Corporation Systems and methods for sentence comparison and sentence-based search
JP6784084B2 (ja) 2016-07-27 2020-11-11 富士通株式会社 符号化プログラム、符号化装置、符号化方法、及び検索方法
US11250842B2 (en) * 2019-01-27 2022-02-15 Min Ku Kim Multi-dimensional parsing method and system for natural language processing
KR101986721B1 (ko) 2019-03-27 2019-06-10 월드버텍 주식회사 신경망 기반 기계번역 및 셈뭉치를 이용한 수학문제 개념유형 예측 서비스 제공 방법
US11544457B2 (en) * 2020-03-25 2023-01-03 Adobe Inc. Machine learning based abbreviation expansion
US20220050967A1 (en) * 2020-08-11 2022-02-17 Adobe Inc. Extracting definitions from documents utilizing definition-labeling-dependent machine learning background
KR102427934B1 (ko) 2020-10-15 2022-08-02 한동대학교 산학협력단 신경망 기반의 고유명사 기호화를 이용한 번역 방법 및 그 시스템
US11837221B2 (en) * 2021-02-26 2023-12-05 Rovi Guides, Inc. Age-sensitive automatic speech recognition
US11119985B1 (en) * 2021-03-19 2021-09-14 Atlassian Pty Ltd. Apparatuses, methods, and computer program products for the programmatic documentation of extrinsic event based data objects in a collaborative documentation service

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI677796B (zh) * 2017-03-02 2019-11-21 大陸商騰訊科技(深圳)有限公司 自然語言的語義提取方法及裝置和電腦儲存介質
TW201919040A (zh) * 2017-11-03 2019-05-16 財團法人資訊工業策進會 聲控方法及系統
TWI770754B (zh) * 2020-03-05 2022-07-11 大陸商上海商湯智能科技有限公司 神經網路訓練方法及電子設備和儲存介質
TW202211077A (zh) * 2020-09-07 2022-03-16 和碩聯合科技股份有限公司 多國語言語音辨識及翻譯方法與相關的系統
TWM607509U (zh) * 2020-09-25 2021-02-11 國泰人壽保險股份有限公司 語音服務系統

Also Published As

Publication number Publication date
US11636275B1 (en) 2023-04-25
KR20240018229A (ko) 2024-02-13
KR20240018401A (ko) 2024-02-13
TW202407576A (zh) 2024-02-16
CN117494696A (zh) 2024-02-02
JP2024021023A (ja) 2024-02-15
EP4318300A1 (en) 2024-02-07
JP7511614B2 (ja) 2024-07-05
CA3197945A1 (en) 2024-02-02

Similar Documents

Publication Publication Date Title
JP7072585B2 (ja) 文脈固有の単語ベクトルを用いた自然言語処理
Zhang et al. A simple and effective neural model for joint word segmentation and POS tagging
US6684201B1 (en) Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
US12045569B2 (en) Graph-based cross-lingual zero-shot transfer
Jin et al. Unsupervised grammar induction with depth-bounded PCFG
Graliński et al. PSI-toolkit: A natural language processing pipeline
Chaudhury et al. Anusaaraka: An expert system based machine translation system
Bahcevan et al. Deep neural network architecture for part-of-speech tagging for turkish language
US10922486B2 (en) Parse tree based vectorization for natural language processing
KR20200064880A (ko) 한국어 워드넷 기반 지식 주도 심층학습을 이용한 워드 임베딩 장치 및 방법
Li et al. Empowering Large Language Models for Textual Data Augmentation
TWI822370B (zh) 使用信艾普模型單元之自然語言處理系統以及方法
Arwidarasti et al. Converting an Indonesian constituency treebank to the Penn treebank format
Ramesh et al. Interpretable natural language segmentation based on link grammar
Murthy et al. A New Approach to Tagging in Indian Languages.
Ottersen et al. Triplet extraction leveraging sentence transformers and dependency parsing
Rahman et al. Dense word representation utilization in Indonesian dependency parsing
Kurup et al. A Roadmap to Realization Approaches in Natural Language Generation
Vacariu A high-throughput dependency parser
Teichert et al. Unsupervised part of speech tagging without a lexicon
Mahbub et al. Context-based Bengali Next Word Prediction: A Comparative Study of Different Embedding Methods
Roy et al. Parsing and Part of Speech Tagging For Assamese Texts
Enikuomehin et al. A Structural Algorithm for Complex Natural Languages Parse Generation
Hoya Representation of Lexical Networks and Word-Level Data Processing
Okediya et al. Building Ontologyfor Yorùbá Language