TWM650497U - 使用簡化標籤序列提昇自然語言理解的語意分析系統 - Google Patents

使用簡化標籤序列提昇自然語言理解的語意分析系統 Download PDF

Info

Publication number
TWM650497U
TWM650497U TW112209563U TW112209563U TWM650497U TW M650497 U TWM650497 U TW M650497U TW 112209563 U TW112209563 U TW 112209563U TW 112209563 U TW112209563 U TW 112209563U TW M650497 U TWM650497 U TW M650497U
Authority
TW
Taiwan
Prior art keywords
tag
semantic analysis
sequence
analysis system
module
Prior art date
Application number
TW112209563U
Other languages
English (en)
Inventor
陳威廷
Original Assignee
賽微科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 賽微科技股份有限公司 filed Critical 賽微科技股份有限公司
Priority to TW112209563U priority Critical patent/TWM650497U/zh
Publication of TWM650497U publication Critical patent/TWM650497U/zh

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本創作提供一種語意分析系統,包括一語音辨識模組,用以對一語音文句進行辨識;一標籤字典模組,與該語音辨識模組耦接,用以將該語音文句轉換為一標籤序列;以及一語意分析模組,與該標籤字典模組耦接,用以將該標籤序列處理成一語意序列。藉此以精簡過後的輸入輸出對語意分析模組進行訓練,進而減少本創作語意分析系統的複雜度並提昇訓練效率與精準度。

Description

使用簡化標籤序列提昇自然語言理解的語意分析系統
本創作係關於一種語意分析系統,特別是關於一種語意分析系統,特別是指一種使用簡化標籤序列提昇自然語言理解、訓練效率以及準確率的語意分析系統。
過去,語意分析技術多採用純文字作為輸入與輸出,需要使用較複雜的模型才能達到相對理想的辨識率。而這些模型通常使用循環神經網路(Recurrent Neutral Network,RNN)架構,由於其時間序列特性,平行運算較難實現,因此訓練效率較低。
另外,也有採用規則式的做法,但這通常需要專家知識,且對於不在規則範圍內的語句容易出現辨識錯誤,因此效果不佳。多數做法需要將不同領域分開訓練,若需部署多個領域,則需要進行多次耗時的訓練。
本創作者鑑於前述的問題,進而用心研究開發,因此本創作主要目的係在提供一種語意分析系統,透過使用者定義的標籤字典替換文句中的字詞,並且將其轉換為標籤序列(Tagged Sequence)做為語意分析(Semantic Parser)模組的輸入,並將輸出的格式轉換為語意序列(Semantic Sequence);以此精簡過後的輸入輸出對語意分析(Semantic Parser)模組進行訓練,進而減少本創作語意分析系統的複雜度並提昇訓練效率與精準度。
為達上述的目的,本創作提供一種語意分析系統,包括一語音辨識模組,用以對一語音文句進行辨識;一標籤字典模組,與該語音辨識模組耦接,用以將該語音文句轉換為一標籤序列;以及一語意分析模組,與該標籤字典模組耦接,用以將該標籤序列處理成一語意序列。
在一些實施例中,該語音文句包括多個字詞。
在一些實施例中,該標籤字典模組將該多個字詞轉換成相對應的一標籤,並將各該標籤標上對應的一編號。
在一些實施例中,該多個字詞具有多個相同的標籤,該等標籤係依序標上該編號。
在一些實施例中,該等字詞中的其中之一具有多個標籤,該等標籤係依據英文字母順序拼接在一起。
在一些實施例中,該等字詞中的其中之一或多個沒有標籤,係設定為一未知標籤或將該字詞設定為一標籤。
在一些實施例中,該語音辨識模組係為一語音辨識系統神經網路模型。
在一些實施例中,該語意分析模組係為一跨領域序列到序列模型。
在一些實施例中,該語意分析模組係透過一跨領域批次推論而將該標籤序列處理成該語意序列。
100:語意分析系統
110:語音辨識模組
120:標籤字典模組
121:標籤字典
130:語意分析模組
140:語音文句
150:標籤序列
160:語意序列
圖1為本創作語意分析系統的結構方塊示意圖。
關於本創作藉以達到上述目的之技術手段,茲以下列實施型態配合圖示於下文作詳細說明,俾令 鈞上深入瞭解並認同之。
圖1為本創作語意分析系統的結構方塊示意圖。請參考圖1,本創作的語意分析系統100係包括一語音辨識模組110、一標籤字典模組120以及一語意分析模組130。
語音辨識模組110用以對一語音文句140進行辨識。在一些實施例中,語音辨識模組110係為一語音辨識系統(Automatic Speech Recognition,ASR)神經網路模型。所述的語音文句140係可為一般人的說話語音的句子內容。在一些實施例中,語音文句140包括多個字詞。
標籤字典模組120係與語音辨識模組110耦接,用以將語音文句140轉換為一標籤序列。意即,語音辨識模組110對語音文句140進行辨識之後取得多個語音辨識的結果後,透過在標籤字典模組120內的使用者所定義的標籤字典(Tag Lexicon)121以將欲進行辨識的語音文句140轉換為一標籤序列 (Tagged Sequence)150,將語音文句140的所有字詞轉換成相對應的一標籤,接著對各標籤標上相對應的一編號。若有多個相同的標籤的字詞,則會依照先後順序標上編號。若某個字詞包含多個標籤,則會依照標籤的字母順序拼接在一起。如果遇到沒有標籤的字詞,則可以根據使用者設定轉為一未知(unknow,Unk)標籤,或者將字詞本身當成標籤。
以「AC DOWN BY FIVE」為例,根據標籤字典模組120的標籤字典轉換後的結果如下。
Figure 112209563-A0305-02-0006-1
以「AIR CON FACE AND FLOOR」為例,其中「FACE」與「FLOOR」皆具有「<Mode>」標籤,則依序對其編上編號,其表示如下。
Figure 112209563-A0305-02-0006-2
以「BACK」為例,同時擁有返回、後面、後座的意思,因此產生三個標籤「Back」、「Position」、「Seat」,轉換成標籤序列其表示如下。
Figure 112209563-A0305-02-0006-3
以「LISTEN TO LADY GAGA POKER FACE」為例,假設「POKER FACE」是一首新歌而不在標籤字典模組120的標籤字典裡面,則會被標為Unk(即未知標籤)如下。
Figure 112209563-A0305-02-0006-4
語意分析(Semantic Parser)模組130係與標籤字典模組120耦接,用以將標籤序列150處理成一語意序列(Semantic Sequence)160。意即,將標籤序列150輸入到語意分析模組130內進行跨領域批次推論(Cross-Domain Batch Inference)以得到語意序列160的輸出。在一些實施例中,語意分析模組係為一跨領域序列到序列模型(Cross-Domain Sequence-To-Sequence Model)。語意分析模組130為序列對序列(Sequence-To-Sequence)的架構,並且不依賴於任何特定語言的預訓練模型,能根據機器與資料規模調整模型大小。
語意序列160是一種簡化過後的語意理解結構,將階層式的語意結構簡化為平展序列,此序列可透過訓練資料歸納得出。而在訓練階段時,會將資料集整理成標籤序列150與語意序列160的對應規則。這兩個序列經過精密的設計,能大幅減少標籤字典模組120中標籤字典的數量,降低本創作的輸入輸出空間大小,因此使得本創作擁有較低的複雜度。
綜上所述,本創作的語意分析系統100係透過使用者定義的標籤字典121替換文句中的字詞,並且將其轉換為標籤序列150做為語意分析模組130的輸入,並將輸出的格式轉換為語意序列160;以此精簡過後的輸入輸出對語意分析模組130進行訓練,進而減少本創作語意分析系統100的複雜度並提昇訓練效率與精準度。
100:語意分析系統
110:語音辨識模組
120:標籤字典模組
121:標籤字典
130:語意分析模組
140:語音文句
150:標籤序列
160:語意序列

Claims (9)

  1. 一種語意分析系統,包括: 一語音辨識模組,用以對一語音文句進行辨識; 一標籤字典模組,與該語音辨識模組耦接,用以將該語音文句轉換為一標籤序列;以及 一語意分析模組,與該標籤字典模組耦接,用以將該標籤序列處理成一語意序列。
  2. 如請求項1所述之語意分析系統,其中,該語音文句包括多個字詞。
  3. 如請求項2所述之語意分析系統,其中,該標籤字典模組將該多個字詞轉換成相對應的一標籤,並將各該標籤標上對應的一編號。
  4. 如請求項3所述之語意分析系統,其中,該多個字詞具有多個相同的標籤,該等標籤係依序標上該編號。
  5. 如請求項3所述之語意分析系統,其中,該等字詞中的其中之一具有多個標籤,該等標籤係依據英文字母順序拼接在一起。
  6. 如請求項3所述之語意分析系統,其中,該等字詞中的其中之一或多個沒有標籤,係設定為一未知標籤或將該字詞設定為一標籤。
  7. 如請求項1所述之語意分析系統,其中,該語音辨識模組係為一語音辨識系統神經網路模型。
  8. 如請求項1所述之語意分析系統,其中,該語意分析模組係為一跨領域序列到序列模型。
  9. 如請求項1所述之語意分析系統,其中,該語意分析模組係透過一跨領域批次推論而將該標籤序列處理成該語意序列。
TW112209563U 2023-09-05 2023-09-05 使用簡化標籤序列提昇自然語言理解的語意分析系統 TWM650497U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW112209563U TWM650497U (zh) 2023-09-05 2023-09-05 使用簡化標籤序列提昇自然語言理解的語意分析系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW112209563U TWM650497U (zh) 2023-09-05 2023-09-05 使用簡化標籤序列提昇自然語言理解的語意分析系統

Publications (1)

Publication Number Publication Date
TWM650497U true TWM650497U (zh) 2024-01-11

Family

ID=90456186

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112209563U TWM650497U (zh) 2023-09-05 2023-09-05 使用簡化標籤序列提昇自然語言理解的語意分析系統

Country Status (1)

Country Link
TW (1) TWM650497U (zh)

Similar Documents

Publication Publication Date Title
CN100568225C (zh) 文本中数字和特殊符号串的文字符号化处理方法及系统
WO2018153213A1 (zh) 一种多语言混合语音识别方法
CN110164447B (zh) 一种口语评分方法及装置
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN108460027A (zh) 一种口语即时翻译方法及系统
CN105741831A (zh) 一种基于语法分析的口语评测方法和系统
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN110852075A (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN109376360A (zh) 一种辅助学习语言的方法和装置
CN118629432A (zh) 一种基于大模型实现多语言智能语音质检系统
Huu et al. Mispronunciation detection and diagnosis model for tonal language, applied to Vietnamese
CN105895076B (zh) 一种语音合成方法及系统
Bharathi et al. Overview of the Fifth Shared Task on Speech Recognition for Vulnerable Individuals in Tamil
CN114822491A (zh) 文本处理、模型训练与语音合成方法、装置、系统及介质
CN110188342A (zh) 一种基于知识图谱与语义图技术的口语理解方法
CN111429886B (zh) 一种语音识别方法及系统
TW201937479A (zh) 一種多語言混合語音識別方法
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
Huang et al. Improving Braille–Chinese translation with jointly trained and pre-trained language models
TWM650497U (zh) 使用簡化標籤序列提昇自然語言理解的語意分析系統
Jackson et al. LLMs and linguistic competency: An exploration of GPT-4 and a non-hegemonic English variety
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
Suhasini et al. Attention‐Based End‐to‐End Automatic Speech Recognition System for Vulnerable Individuals in Tamil
Larrayoz et al. Eating Disorders Detection by means of Deep Learning.
Baranwal et al. Extracting primary objects and spatial relations from sentences