TWI818427B - 使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統 - Google Patents
使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統 Download PDFInfo
- Publication number
- TWI818427B TWI818427B TW111103724A TW111103724A TWI818427B TW I818427 B TWI818427 B TW I818427B TW 111103724 A TW111103724 A TW 111103724A TW 111103724 A TW111103724 A TW 111103724A TW I818427 B TWI818427 B TW I818427B
- Authority
- TW
- Taiwan
- Prior art keywords
- text
- speaker
- processor
- word
- units
- Prior art date
Links
- 230000008859 change Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000012937 correction Methods 0.000 claims abstract description 26
- 230000002457 bidirectional effect Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本發明公開使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統,本發明一實施例的說話者劃分糾正方法可包括如下的步驟:對所輸入的音頻流進行說話者劃分;識別在所輸入的上述音頻流中包含的語音並轉換成文本;基於轉換的上述文本來檢測說話者變更;以及基於所檢測的上述說話者變更來糾正上述說話者劃分。
Description
以下的說明涉及使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統。
說話者劃分(speaker diarisation或speaker diarization)為將輸入音頻流根據說話者識別字劃分成同種段的處理。這種說話者劃分可以通過將音頻流結構化成說話者回合,當與說話者識別系統一同使用時提供說話者的實際識別字來提高自動語音轉換的可讀性。在說話者劃分中最有人氣的方法之一是使用高斯混合模型來對各個說話者進行建模並在隱馬爾可夫模型(Hidden Markov Model)的幫助下對各個說話者分配對應的幀。
但是,在現有技術中,僅使用語音來進行說話者劃分,因此,出現多種類型的錯誤。作為一例,頻頻發生判斷成在不應有說話者變更的部分中存在說話者變更的錯誤。
[現有技術文獻] 韓國公開專利第10-2015-0093482號
[發明所欲解決之問題]
本發明提供如下的說話者劃分糾正方法及系統,即,在完成基於語音的說話者劃分之後,可通過基於所識別到的文本的說話者變更檢測來糾正說話者變更錯誤的位置。
[解決問題之技術手段]
本發明提供說話者劃分糾正方法,上述說話者劃分糾正方法為包括至少一個處理器的電腦裝置的說話者劃分糾正方法,上述說話者劃分糾正方法的特徵在於,包括如下的步驟:通過上述至少一個處理器,對所輸入的音頻流進行說話者劃分;通過上述至少一個處理器,識別在所輸入的上述音頻流中包含的語音並轉換成文本;通過上述至少一個處理器,基於轉換的上述文本來檢測說話者變更;以及通過上述至少一個處理器,基於所檢測的上述說話者變更來糾正上述說話者劃分。
根據一實施方式,本發明的特徵在於,在檢測上述說話者變更的步驟中,可利用以接收每個說話區間的語音識別結果來輸出以單詞為單位的說話者變更概率的方式學習的模型,來識別以單詞為單位的每個文本是否發生說話者變更。
根據再一實施方式,本發明的特徵在於,檢測上述說話者變更的步驟可包括如下的步驟:接收每個說話區間的語音識別結果;將每個上述說話區間的語音識別結果包含的文本編碼成以單詞為單位的文本;對上述以單詞為單位的文本進行編碼,以考慮對話文脈;以及確定考慮到上述對話文脈的以單詞為單位的每個文本與之前以單詞為單位的文本相比是否發生說話者變更。
根據另一實施方式,本發明的特徵在於,每個上述說話者區間的語音識別結果可包含端點檢測(EPD,EndPoint Detection)單位的語音識別結果。
根據還有一實施方式,本發明的特徵在於,在編碼成上述以單詞為單位的文本的步驟中,可利用基於轉換器的句子雙向編碼表徵(sBERT,sentence Bidirectional Encoder Representations from Transformers)來將每個上述說話區間的語音識別結果所包含的端點檢測單位的文本編碼成以單詞為單位的文本。
根據又一實施方式,本發明的特徵在於,在以考慮上述對話文脈的方式進行編碼的步驟中,可利用基於轉換器的對話雙向編碼表徵(dBERT,dialog Bidirectional Encoder Representations from Transformers)來對上述以單詞為單位的文本進行編碼,以考慮對話文脈。
根據又一實施方式,本發明的特徵在於,在上述糾正的步驟中,可根據上述以單詞為單位的每個文本是否發生說話者變更,來以上述單詞為單位糾正上述說話者劃分。
本發明提供電腦可讀記錄介質,記錄有用於在電腦裝置中執行上述方法的電腦程式。
本發明提供電腦裝置,其中,包括用於執行電腦可讀指令的至少一個處理器,通過上述至少一個處理器,對所輸入的音頻流進行說話者劃分,識別在所輸入的上述音頻流中包含的語音並轉換成文本,基於轉換的上述文本來檢測說話者變更,基於所檢測的上述說話者變更來糾正上述說話者劃分。
[對照先前技術之功效]
在完成基於語音的說話者劃分之後,可通過基於所識別到的文本的說話者變更檢測來糾正說話者變更錯誤的位置。
以下,參照附圖,詳細說明實施例。
本發明實施例的說話者劃分糾正系統可通過至少一個電腦裝置實現,本發明實施例的說話者劃分糾正方法可通過說話者劃分糾正系統中所包括的至少一個電腦裝置執行。在電腦裝置可設置及驅動本發明一實施例的電腦程式,電腦裝置可根據所驅動的電腦程式的控制執行本發明實施例的說話者劃分糾正方法。上述電腦程式可存儲在電腦可讀記錄介質,以通過與電腦裝置結合來在電腦中執行說話者劃分糾正方法。
圖1為示出本發明一實施例的網路環境的示意圖。圖1的網路環境示出包括電子設備110、120、130、140、多個伺服器150、160及網路170的實施例。上述圖1為用於說明本發明的一實施例,電子設備的數量或伺服器的數量並不局限於圖1。並且,圖1的網路環境僅說明可適用於本實施例的多個環境中的一實施例,可適用於本實施例的環境並不局限於圖1的網路環境。
多個電子設備110、120、130、140可以為通過電腦系統實現的固定型終端或移動終端。例如,多個電子設備110、120、130、140包括智能手機(smart phone)、手機、導航儀、電腦、筆記本電腦、數字廣播終端、個人數據助理(PDA,Personal Digital Assistants)、可攜式多媒體播放器(PMP,Portable Multimedia Player)、平板電腦(PC)等。作為一實施例,圖1中示出作為電子設備110之實施例的智能手機的形狀,但是在本發明的實施例中,電子設備110實質上可以為利用無線或有線通信方式,通過網路170與其他電子設備120、130、140和/或伺服器150、160進行通信的各種物理電腦系統中的一種。
通信方式並不受限,可包括使用網路170可包括的通信網(例如,移動通信網、有線網路、無線網路、廣播網絡)的通信方式和多個設備之間的無線通信。例如,網路170可包括個人區域網(PAN,personal area network)、本地網路(LAN,local area network)、校園網(CAN,campus area network)、城域網(MAN,metropolitan area network)、廣域網(WAN,wide area network)、寬頻網(BBN,broadband network)、互聯網等網路中的任意一種以上網路。並且,網路170可包括具有匯流排網路、星型網路、環型網路、網狀網路、星型匯流排網路、樹形網路、分級(hierarchical)網路等的網路拓撲中的任意一種以上,但並不局限於此。
伺服器150、160可以為通過網路170與多個電子設備110、120、130、140進行通信來提供指令、代碼、檔、內容、服務等的電腦裝置或多個電腦裝置。例如,伺服器150可以為向通過網路170訪問的多個電子設備110、120、130、140提供服務(作為一實施例,其包含內容提供服務、群組通話服務(或語音會議服務)、消息服務、郵件服務、社交網路服務、地圖服務、翻譯服務、金融服務、支付服務、搜索服務等)的系統。
圖2為示出本發明一實施例的電腦裝置的示意圖。上述說明的多個電子設備110、120、130、140或多個伺服器150、160可通過圖2中所示的電腦裝置200實現。
如圖2所示,電腦裝置200可包括記憶體210、處理器220、通信介面230及輸入輸出介面240。記憶體210作為電腦可讀記錄介質,可包括如隨機存取記憶體(RAM,random access memory)、只讀記憶體(ROM,read only memory)、硬碟驅動器等的非易失性大容量存儲裝置(permanent mass storage device)。其中,如只讀記憶體、固態硬碟等的非易失性大容量存儲裝置為與記憶體210區分的單獨的永久存儲裝置,可形成在電腦裝置200。並且,記憶體210可存儲操作系統和至少一個程式代碼。上述軟體結構要素可從與記憶體210分開的電腦可讀記錄介質加載到記憶體210。上述單獨的電腦可讀記錄介質可包括軟碟驅動器、磁片、磁帶、DVD/CD-ROM驅動器、存儲卡等電腦可讀記錄介質。在另一實施例中,軟體結構要素不是通過電腦可讀記錄介質,而是通過通信介面230加載到記憶體210。例如,軟體結構要素可基於以通過網路170接收的檔設置的電腦程式加載到電腦裝置200的記憶體210。
處理器220可執行基本的計算、邏輯及輸入輸出計算,由此可以處理電腦程式的指令。指令可通過記憶體210或通信介面230向處理器220提供。例如,處理器220可根據存儲於如記憶體210的存儲裝置的程式代碼來執行所接收的指令。
通信介面230可提供通過網路170來使電腦裝置200與其他裝置(作為一實施例,上述說明的多個存儲裝置)相互進行通信的功能。於一實施例,電腦裝置200的處理器220可根據通信介面230的控制,通過網路170向其他裝置傳遞根據存儲於如記憶體210的記錄裝置的程式代碼生成的請求、指令、數據、檔等。相反,來自其他裝置的信號、指令、內容、檔等可經過網路170來通過電腦裝置200的通信介面230向電腦裝置200提供。例如,通過通信介面230接收的信號、指令、數據等可傳遞至處理器220或記憶體210,檔等可存儲於電腦裝置200進一步包括的存儲介質(上述永久存儲裝置)存儲。
輸入輸出介面240可以為用於與輸入輸出裝置250的介面單元。例如,輸入裝置可包括麥克風、鍵盤或滑鼠等裝置,輸出裝置可包括如顯示器、揚聲器等的裝置。作為另一實施例,輸入輸出介面240也可以為用於與如觸摸螢幕的用於輸入和輸出的功能集成為一體的裝置的介面單元。輸入輸出裝置250也可以與電腦裝置200配置為一個裝置。
並且,在另一實施例中,電腦裝置200可包括比圖2的結構要素更多的結構要素。但是,無需明確示出大部分現有技術的結構要素。例如,電腦裝置200包括上述輸入輸出裝置250中的至少一部分,或者還可包括如收發器(transceiver)、資料庫等的其他結構要素。
圖3為示出本發明一實施例的說話者劃分糾正方法的流程圖。本實施例的說話者劃分糾正方法可通過電腦裝置200執行。在此情況下,電腦裝置200的處理器220可執行基於記憶體210所包括的操作系統的代碼或至少一個電腦程式的代碼的控制指令(instruction)。其中,處理器220可根據由存儲於電腦裝置200的代碼所提供的控制指令控制電腦裝置200,使得電腦裝置200執行圖3的方法所包括的多個步驟(步驟310至步驟340)。
在步驟310中,電腦裝置200可對所輸入的音頻流進行說話者劃分。如上所述,說話者劃分為根據說話者識別字來將輸入音頻流劃分成同種段的處理,是可以通過將音頻流結構化成說話者回合,當與說話者識別系統一同使用時提供說話者的實際識別字來提高自動語音轉換的可讀性。作為一實施例,電腦裝置200可使用高斯混合模型來對各個說話者進行建模並通過隱馬爾可夫模型(Hidden Markov Model)對各個說話者分配對應的幀。
在步驟320中,電腦裝置200可通過識別在所輸入的音頻流中包含的語音並轉換成文本。在此情況下,語音識別結果可在每個說話區間生成。作為一實施例,每個說話區間的語音識別結果可以包含端點檢測單位的語音識別結果。端點檢測為在音頻流中僅找出具有語音的區域的工法,電腦裝置200能夠以這種端點檢測單位生成語音識別結果。這種語音識別結果可以為文本形態。
在步驟330中,電腦裝置200可基於轉換的文本來檢測說話者變更。作為一實施例,電腦裝置200可利用以接收每個說話區間的語音識別結果來輸出以單詞為單位的說話者變更概率的方式學習的模型,來識別以單詞為單位的每個文本是否發生說話者變更。這種模組可通過基於轉換器的雙向編碼表徵(BERT,Bidirectional Encoder Representations from Transformers)實現,但並不局限於此。基於轉換器的雙向編碼表徵為用於基於自然語言處理(Natural Language Processing,NLP)預先學習的轉換器的機器學習技術,在沒有教育的情況下可以雙向預先學習自然語言處理。這種基於轉換器的雙向編碼表徵能夠以學習反應構成文本的詞彙(token)的文脈資訊的含義向量(contextual word embedding)為目的,隨意刪除原本文本的詞彙(token),以機械學習模型(transformer)預測原本文本的方式進行對於基於轉換器的雙向編碼表徵的學習。當預先進行(pre-training)這種基於轉換器的雙向編碼表徵學習過程時,可以在詞性識別、意圖識別、問答等各種自然語言處理任務中大幅度提高性能。
在此情況下,存在學習基於轉換器的雙向編碼表徵的技術,以利用大容量文本數據來對所有空格(space)部分識別標點符號(句號、問號、感嘆號等)部分和非標點符號的部分。在本發明的實施例中,可以學習基於轉換器的雙向編碼表徵以識別具有說話者變更的部分,而並非識別標點符號。作為更具體的實施例,電腦裝置200可以接收每個說話區間的語音識別結果,可以將包含每個說話區間的語音識別結果的文本編碼成以單詞為單位的文本。為此,電腦裝置200可利用基於轉換器的句子雙向編碼表徵(sentence-BERT)來將每個說話區間的語音識別結果所包含的端點檢測單位的文本編碼成以單詞為單位的文本。並且,電腦裝置200在完成對以單詞為單位的文本的編碼之後,對以單詞為單位的文本進行編碼以考慮對話文脈。作為一實施例,電腦裝置200可利用基於轉換器的對話雙向編碼表徵(dialog-BERT)來對利用基於轉換器的句子雙向編碼表徵編碼的以單詞為單位的文本進行追加編碼以考慮對話文脈。之後,電腦裝置200可以確定考慮到對話文脈的以單詞為單位的每個文本與之前以單詞為單位的文本相比是否發生說話者變更。在此情況下,包括基於轉換器的句子雙向編碼表徵及基於轉換器的對話雙向編碼表徵的基於轉換器的雙向編碼表徵可以輸出(例如:當說話者變更時輸出“1”,當說話者維持時輸出“0”)與以單詞為單位的文本有關的說話者變更概率,電腦裝置200可根據這種基於轉換器的雙向編碼表徵的輸出來確定以單詞為單位的每個文本是否發生說話者變更。
在步驟340中,電腦裝置200可基於所檢測的說話者變更來糾正說話者劃分。例如,在步驟310中,可通過基於語音執行的說話者劃分判斷為在特定端點檢測單位中已劃分說話者,在步驟330中,當判斷為對與對應端點檢測單位有關的單詞未變更說話者時,電腦裝置200可以將說話者劃分糾正為在對應端點檢測單位中未劃分說話者。如上所述,可將基於考慮文脈的文本的說話者變更與否用於說話者劃分的糾正,由此可以解決現有的說話者劃分技術所具有的識別錯誤的問題。
圖4為示出本發明一實施例的說話者劃分糾正過程的示意圖。
在圖4的實施例中,假設說話者1說出“Good morning. I am Kil-dong Hong(早上好,我是洪吉童)”,說話者2說出“Good morning(早上好)”的情況。電腦裝置200可以在音頻流410中以端點檢測單位識別語音,在此情況下,圖4的音頻流410包括所識別的端點檢測單位411、412、413、414。其中,說話者1說出“I am(我是)”的時間點和說話者2說出“morning(早上)”的時間點類似,從而假設在端點檢測單位413中均包括“說話者1”說出的“I am(我是)”和說話者2說出的“morning(早上)”。在此情況下,在僅利用語音的說話者劃分中存在端點檢測單位413的“I am morning(我是早上)”被識別成一個說話者的說話的問題。
電腦裝置200可通過自動語言識別420(ASR,Automatic Speech Recognition)來在音頻流410中識別對於每個端點檢測單位411、412、413、414的語音。作為一實施例,對於端點檢測單位411的語音識別結果可包括說話者1說出的“good morning(早上好)”,對於端點檢測單位412的語音識別結果可包括說話者2說出的“good(好)”。並且,對於端點檢測單位413的語音識別結果可包括說話者1說出的“I am(我是)”和說話者2說出的“morning(早上)”,對於端點檢測單位414的語音識別結果可包括說話者1說出的“Kil-dong Hong(洪吉童)”。
在此情況下,電腦裝置200可通過基於轉換器的句子雙向編碼表徵430來將對於每個端點檢測單位411、412、413、414的語音識別結果編碼成以單詞為單位的文本。換句話說,對於第一端點檢測單位411的語音識別結果可被編碼成以單詞為單位的文本“good(好)”及“morning(早上)”,對於第二端點檢測單位412的語音識別結果可被編碼成“good(好)”,對於第三端點檢測單位413的語音識別結果可被編碼成“I(我)”、“am(是)”及“morning(早上)”,對於第四端點檢測單位414的語音識別結果可被編碼成“Kil-dong(吉童)”及“Hong(洪)”。更詳細地,電腦裝置200可利用基於轉換器的句子雙向編碼表徵430來將端點檢測單位的文本編碼成以單詞為單位的文本。其中,假設所識別的多個單詞的序列為(good、morning、good、I、am、morning、Kil-dong、Hong(好、早上、好、我、是、早上、吉童、洪))。
之後,電腦裝置200可通過基於轉換器的對話雙向編碼表徵440對以單詞為單位的文本進行編碼以使以單詞為單位的文本考慮對話文脈。其中,考慮文脈可意味著一同考慮至少一個之前以單詞為單位的文本和/或至少一個之後以單詞為單位的文本。例如,在以單詞為單位的文本“I(我)”之後出現“am(是)”符合文脈特性,相反,在“I(我)”之前出現“good(好)”或在“I(我)”之後出現“morning(早上)”不符合文脈特性。
在此情況下,電腦裝置200可確定考慮到這種對話文脈的以單詞為單位的每個文脈與之前以單詞為單位的文本相比是否發生說話者變更。例如,電腦裝置200可在所識別的多個單詞的序列(good、morning、good、I、am、morning、Kil-dong、Hong(好、早上、好、我、是、早上、吉童、洪))中通過對於作為第二個“good(好)”的之前單詞的“morning(早上)”的文脈識別說話者是否變更。並且,電腦裝置200可通過對於作為“I(我)”的之前單詞的“good(好)”的文脈識別說話者是否變更。如上所述,電腦裝置200可利用基於文本的說話者識別來糾正對於音頻流410的說話者劃分。換句話說,即使通過對於音頻流410的說話者劃分說話者發生變更,當通過基於文本的說話者識別以高的可靠性維持說話者時,將對於音頻流410的說話者劃分糾正成以維持說話者。相反,即使通過對於音頻流410的說話者劃分維持說話者,當通過基於文本的說話者識別以高的可靠性發生說話者變更時,可以將對於音頻流410的說話者劃分糾正成說話者發生變更。
為此,電腦裝置200在確定考慮到對話文脈的以單詞為單位的每個文脈與之前以單詞為單位的文本相比是否發生說話者變更的過程中可以計算其可靠性,可通過比較所計算的可靠性與閾值(作為一實施例,用於說話者變更的第一閾值和/或用於維持說話者的第二閾值)來確定是否將基於文本的說話者識別反應到對於音頻流410的說話者劃分。在此情況下,計算可靠性的方法可以使用已知方法,第一閾值和/或第二閾值可根據可靠性計算方法預先設定。
如上所述,根據本發明的實施例,在完成基於語音的說話者劃分之後,可通過基於所識別到的文本的說話者變更檢測來糾正說話者變更錯誤的位置。
上述裝置可以實現為硬體組件、軟體組件和/或硬體組件和軟體組件的組合。例如,實施例中說明的裝置和組件可利用處理器、控制器、算術邏輯單元(ALU,arithmetic logic unit)、數字信號處理器(digital signal processor)、微型電腦(field programmable gate array)、現場可編程門陣列(FPGA,field programmable gate array)、可編程邏輯單元(PLU,programmable logic unit)、微型處理器、或如可執行且回應指令(instruction)的其他任何裝置的一個以上通用電腦或專用電腦來實現。處理裝置可執行操作系統(OS)和在上述操作系統上運行的一個以上軟體應用程式。並且,處理裝置還可回應軟體的執行來訪問、存儲、操作、處理和生成數據。為了便於理解,可將處理裝置說明為使用一個元件,但本領域普通技術人員可以理解,處理裝置包括多個處理元件(processing element)和/或各種類型的處理元件。例如,處理裝置可以包括多個處理器或包括一個處理器和一個控制器。並且,例如並行處理器(parallel processor)的其他處理配置(processing configuration)也是可行的。
軟體可以包括電腦程式(computer program)、代碼(code)、指令(instruction)或它們中的一個以上的組合,並且可以配置處理裝置以根據需要進行操作,或獨立地或共同地(collectively)命令處理裝置。軟體和/或數據可以具體表現(embody)為任何類型的機器、組件(component)、物理裝置、虛擬裝置、電腦存儲介質或裝置,以便由處理裝置解釋或向處理裝置提供指令或數據。軟體可以分佈在聯網的電腦系統上,並以分佈的方式存儲或執行。軟體和數據可以存儲在一個以上的電腦可讀記錄介質中。
根據實施例的方法能夠以可以通過各種電腦裝置執行的程式指令的形式實現,並記錄在電腦可讀介質中。上述電腦可讀介質可以包括單個或多個程式指令、數據檔、數據結構等。介質可以繼續存儲可執行程式或為了執行或下載而暫時存儲。並且,介質可以為單個或多個硬體結合的形態的多種記錄單元或存儲單元,並不局限於直接連接在一種電腦系統的介質,也可以分散存在於網路上。作為介質的例示,可以包括如硬碟、軟碟和磁帶等的磁性介質,如CD-ROM和DVD等的光學記錄介質,如軟式光碟(floptical disk)等的磁光介質(magneto-optical medium),以及ROM、RAM、閃存等來存儲程式指令。並且,作為其他介質的例示,還可以包括由流通應用的應用商店或提供或流通各種其他多種軟體的網站以及在伺服器中管理的記錄介質或存儲介質。程式指令的示例不僅包括如由編譯器生成的機器語言代碼,而且還包括可以使用解釋器等通過電腦執行的高級語言代碼。
如上所述,雖然參考有限的實施例和附圖進行了說明,但本領域技術人員可以根據以上說明進行各種修改和改進。例如,以不同於所述方法的順序執行所述技術,和/或以不同於所述方法的形式結合或組合的所述系統、結構、裝置、電路等的組件,或其他組件或即使被同技術方案代替或替換也能夠達到適當的結果。
因此,其他實施方式、其他實施例和等同於申請專利範圍的內容也屬於本發明的保護範圍內。
110、120、130、140:電子設備
150、160:伺服器
170:網路
200:電腦裝置
210:記憶體
220:處理器
230:通信介面
240:輸入輸出介面
250:輸入輸出裝置
310、320、330、340:步驟
410:音頻流
411、412、413、414:端點檢測單位
420:自動語言識別
430:句子雙向編碼表徵
440:對話雙向編碼表徵
圖1為示出本發明一實施例的網路環境的示意圖;
圖2為示出本發明一實施例的電腦裝置的示意圖;
圖3為示出本發明一實施例的說話者劃分糾正方法的流程圖;
圖4為示出本發明一實施例的說話者劃分糾正過程的示意圖。
410:音頻流
411、412、413、414:端點檢測單位
420:自動語言識別
430:句子雙向編碼表徵
440:對話雙向編碼表徵
Claims (11)
- 一種說話者劃分糾正方法,應用於包括至少一處理器的一電腦裝置,其中,包括如下的步驟:通過上述至少一該處理器,對所輸入的一音頻流進行一說話者劃分;通過上述至少一該處理器,識別在所輸入的該音頻流中包含的語音並轉換成一文本;通過上述至少一個處理器,基於轉換的該文本來檢測一說話者變更;以及通過上述至少一個處理器,基於所檢測的該說話者變更來糾正該說話者劃分;其中,檢測該說話者變更的步驟更包括:接收每一說話區間的語音識別結果作為轉換的該文本;以及將每一該說話區間的語音識別結果包含的文本編碼成以至少一單詞為單位的文本。
- 如請求項1之說話者劃分糾正方法,其中,在檢測該說話者變更的步驟中,利用以接收每一說話區間的語音識別結果來輸出以單詞為單位的說話者變更概率的方式學習的模型,來識別以單詞為單位的每個文本是否發生該說話者變更。
- 如請求項1之說話者劃分糾正方法,其中,檢測該說話者變更的步驟包括如下的步驟:對上述以單詞為單位的文本進行編碼,以考慮一對話文脈;以及確定考慮到該對話文脈的以單詞為單位的每個文本與之前以單詞為單位的文本相比是否發生該說話者變更。
- 如請求項2之說話者劃分糾正方法,其中,每一該說話者區間的語音識別結果是一端點檢測單位的語音識別結果。
- 一種說話者劃分糾正方法,應用於包括至少一處理器的一電腦裝置,其中,包括如下的步驟:通過上述至少一該處理器,對所輸入的一音頻流進行一說話者劃分;通過上述至少一該處理器,識別在所輸入的該音頻流中包含的語音並轉換成一文本;通過上述至少一個處理器,基於轉換的該文本來檢測一說話者變更;以及通過上述至少一個處理器,基於所檢測的該說話者變更來糾正該說話者劃分;其中,檢測該說話者變更的步驟更包括:接收每一說話區間的語音識別結果作為轉換的該文本;將每一該說話區間的語音識別結果包含的文本編碼成以至少一單詞為單位的文本;對上述以單詞為單位的文本進行編碼,以考慮一對話文脈;以及確定考慮到該對話文脈的以單詞為單位的每個文本與之前以單詞為單位的文本相比是否發生該說話者變更;其中,在編碼成上述以單詞為單位的文本的步驟中,利用基於轉換器的一句子雙向編碼表徵來將每一該說話區間的語音識別結果所包含的該端點檢測單位的文本編碼成以單詞為單位的文本。
- 一種說話者劃分糾正方法,應用於包括至少一處理器的一電腦裝置,其中,包括如下的步驟:通過上述至少一該處理器,對所輸入的一音頻流進行一說話者劃分;通過上述至少一該處理器,識別在所輸入的該音頻流中包含的語音並轉換成一文本;通過上述至少一個處理器,基於轉換的該文本來檢測一說話者變更;以及 通過上述至少一個處理器,基於所檢測的該說話者變更來糾正該說話者劃分;其中,檢測該說話者變更的步驟更包括:接收每一說話區間的語音識別結果作為轉換的該文本;將每一該說話區間的語音識別結果包含的文本編碼成以至少一單詞為單位的文本;對上述以單詞為單位的文本進行編碼,以考慮一對話文脈;以及確定考慮到該對話文脈的以單詞為單位的每個文本與之前以單詞為單位的文本相比是否發生該說話者變更;其中,在以考慮上述對話文脈的方式進行編碼的步驟中,利用基於轉換器的一對話雙向編碼表徵來對上述以單詞為單位的文本進行編碼,以考慮對話文脈。
- 如請求項3之說話者劃分糾正方法,其中,在上述糾正的步驟中,根據上述以單詞為單位的每個文本是否發生說話者變更,來以上述單詞為單位糾正該說話者劃分。
- 一種電腦可讀記錄介質,其中,記錄有用於在電腦裝置中執行如請求項1之方法的電腦程式。
- 一種電腦裝置,其中,包括用於執行一電腦可讀指令的至少一處理器,通過上述至少一該處理器,對所輸入的一音頻流進行一說話者劃分,識別在所輸入的該音頻流中包含的語音並轉換成一文本,基於轉換的該文本來檢測一說話者變更,基於所檢測的該說話者變更來糾正該說話者劃分; 其中,於檢測該說話者變更時,通過上述至少一該處理器,接收每一說話區間的語音識別結果作為轉換的該文本,並將每一該說話區間的語音識別結果包含的文本編碼成以至少一單詞為單位的文本。
- 如請求項9之電腦裝置,其中,為了檢測該說話者變更,通過上述至少一該處理器利用以接收每一說話區間的語音識別結果來輸出以單詞為單位的說話者變更概率的方式學習的模型,來識別以單詞為單位的每個文本是否發生該說話者變更。
- 如請求項9之電腦裝置,其中,為了檢測該說話者變更,通過上述至少一該處理器,對上述以單詞為單位的文本進行編碼,以考慮一對話文脈,確定考慮到該對話文脈的以單詞為單位的每個文本與之前以單詞為單位的文本相比是否發生該說話者變更。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0017814 | 2021-02-08 | ||
KR1020210017814A KR102577346B1 (ko) | 2021-02-08 | 2021-02-08 | 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202232468A TW202232468A (zh) | 2022-08-16 |
TWI818427B true TWI818427B (zh) | 2023-10-11 |
Family
ID=82703966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111103724A TWI818427B (zh) | 2021-02-08 | 2022-01-27 | 使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220254351A1 (zh) |
JP (1) | JP7348447B2 (zh) |
KR (1) | KR102577346B1 (zh) |
TW (1) | TWI818427B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11955127B2 (en) * | 2021-02-24 | 2024-04-09 | Kyndryl, Inc. | Cognitive correlation of group interactions |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200601264A (en) * | 2004-06-02 | 2006-01-01 | America Online Inc | Multimodal disambiguation of speech recognition |
US20160225374A1 (en) * | 2012-09-28 | 2016-08-04 | Agnito, S.L. | Speaker Recognition |
CN107210045A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 会议搜索以及搜索结果的回放 |
US20190074028A1 (en) * | 2017-09-01 | 2019-03-07 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5296455B2 (ja) * | 2008-08-26 | 2013-09-25 | 日本放送協会 | 話者識別装置、及びコンピュータプログラム |
JP2017009825A (ja) | 2015-06-23 | 2017-01-12 | トヨタ自動車株式会社 | 会話状況分析装置および会話状況分析方法 |
US11031017B2 (en) | 2019-01-08 | 2021-06-08 | Google Llc | Fully supervised speaker diarization |
JP7287006B2 (ja) * | 2019-03-01 | 2023-06-06 | コニカミノルタ株式会社 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
KR102281581B1 (ko) * | 2019-07-17 | 2021-07-23 | 에스케이텔레콤 주식회사 | 목표지향 대화시스템에서의 대화상태 추적방법 및 장치 |
KR102208387B1 (ko) * | 2020-03-10 | 2021-01-28 | 주식회사 엘솔루 | 음성 대화 재구성 방법 및 장치 |
-
2021
- 2021-02-08 KR KR1020210017814A patent/KR102577346B1/ko active IP Right Grant
-
2022
- 2022-01-27 TW TW111103724A patent/TWI818427B/zh active
- 2022-01-28 JP JP2022012297A patent/JP7348447B2/ja active Active
- 2022-02-07 US US17/665,672 patent/US20220254351A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200601264A (en) * | 2004-06-02 | 2006-01-01 | America Online Inc | Multimodal disambiguation of speech recognition |
US20160225374A1 (en) * | 2012-09-28 | 2016-08-04 | Agnito, S.L. | Speaker Recognition |
CN107210045A (zh) * | 2015-02-03 | 2017-09-26 | 杜比实验室特许公司 | 会议搜索以及搜索结果的回放 |
US20190074028A1 (en) * | 2017-09-01 | 2019-03-07 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
Also Published As
Publication number | Publication date |
---|---|
JP2022121386A (ja) | 2022-08-19 |
JP7348447B2 (ja) | 2023-09-21 |
KR102577346B1 (ko) | 2023-09-12 |
TW202232468A (zh) | 2022-08-16 |
KR20220114378A (ko) | 2022-08-17 |
US20220254351A1 (en) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2017076222A1 (zh) | 语音识别方法及装置 | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110097870B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN116888662A (zh) | 学习用于子词端到端自动语音识别的词级置信度 | |
CN116250038A (zh) | 变换器换能器:一种统一流式和非流式语音识别的模型 | |
US20230056680A1 (en) | Integrating dialog history into end-to-end spoken language understanding systems | |
CN112825249A (zh) | 语音处理方法和设备 | |
JP2020042257A (ja) | 音声認識方法及び装置 | |
US20230368796A1 (en) | Speech processing | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
TWI818427B (zh) | 使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統 | |
JP7044856B2 (ja) | 増強された一貫性正規化を利用した音声認識モデル学習方法およびシステム | |
US20240046921A1 (en) | Method, apparatus, electronic device, and medium for speech processing | |
KR20210042707A (ko) | 음성 처리 방법 및 장치 | |
US20220310097A1 (en) | Reducing Streaming ASR Model Delay With Self Alignment | |
CN115294974A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
JP5982265B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP4537755B2 (ja) | 音声対話システム | |
US11609947B2 (en) | Guidance query for cache system | |
US11955120B1 (en) | Systems and methods for integrating voice controls into applications | |
US20240135934A1 (en) | Evaluation-based speaker change detection evaluation metrics | |
WO2021159756A1 (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 | |
JP2024512071A (ja) | 自動音声認識のための多言語再スコアリングモデル |