TWI801941B - 個人化語音轉換系統 - Google Patents
個人化語音轉換系統 Download PDFInfo
- Publication number
- TWI801941B TWI801941B TW110126851A TW110126851A TWI801941B TW I801941 B TWI801941 B TW I801941B TW 110126851 A TW110126851 A TW 110126851A TW 110126851 A TW110126851 A TW 110126851A TW I801941 B TWI801941 B TW I801941B
- Authority
- TW
- Taiwan
- Prior art keywords
- speech
- voice
- intelligible
- original
- signal
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 156
- 230000005540 biological transmission Effects 0.000 claims description 89
- 238000004458 analytical method Methods 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 50
- 238000007781 pre-processing Methods 0.000 claims description 25
- 238000005352 clarification Methods 0.000 claims description 21
- 238000009432 framing Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 25
- 230000000694 effects Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 206010013887 Dysarthria Diseases 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000876799 Euphonia Species 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000001568 sexual effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 208000014604 Specific Language disease Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
- G10L2021/0575—Aids for the handicapped in speaking
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本發明係揭露一種個人化語音轉換系統,其包含雲端伺服器與其連線之智慧型裝置。智慧型裝置上傳原始語音訊號至雲端伺服器。雲端伺服器根據一可理解語音模型轉換原始語音訊號為可理解語音訊號,以供智慧型裝置下載並播放。雲端伺服器或智慧型裝置根據原始語音訊號及對應之可理解語音訊號訓練離線語音轉換模型,以供智慧型裝置使用。在智慧型裝置與雲端伺服器斷線時,智慧型裝置根據離線語音轉換模型轉換新語音訊號為新可理解語音訊號,且播放新可理解語音訊號,以避免增加智慧型裝置在離線狀態時所使用的儲存空間。
Description
本發明係關於一種轉換系統,且特別關於一種個人化語音轉換系統。
語音轉換指的是語音透過訊號處理與人工智慧處理。當語音進行轉換時,語音之聲調(pitch)、音速(sound speed)與音色(timbre)會被改變,就像變聲器之變聲技術。此類技術也能用於協助構音異常(dysphasia)病患,例如中風病患所發出的聲音轉換成容易理解的語音。由於病患有不同構音異常的原因,且發出的聲音皆不同,故語音轉換裝置通常是針對特定使用者的語音進行訓練,此種語音轉換裝置稱為個人化語音轉換裝置。
個人化語音轉換裝置透過具有強大的運算能力之雲端伺服器進行語音轉換。第1圖為先前技術之個人化語音轉換系統於線上狀態之方塊圖。請參閱第1圖,個人化語音轉換系統1包含一智慧型裝置10與一雲端伺服器11,其中智慧型裝置10與雲端伺服器11互相連線。智慧型裝置10錄製原始語音VI,並對其進行訊號處理後,上傳原始語音VI至雲端伺服器11。雲端伺服器11利用人工智慧轉換原始語音VI為可理解語音VO後,下傳可理解語音VO至智慧型裝置10。最後,智慧型裝置10播出可理解語音VO。然而,當智慧型裝置10位於離線環境,例如地下室或電梯中時,將無法順利轉換原始語音VI。因此,若欲在離線環境中轉換原始語音VI,則智慧型裝置10必須具有一額外的儲存空間。在線上狀態時,智慧型裝置10將原始語音VI及其對應之可理解語音VO建檔並儲存在此儲存空間中。第2圖為先前技術之個人化語音轉換系統於離線狀態之方塊圖。請參閱第2圖,在離線狀態時,若智慧型裝置10接收另一原始語音VI’,智慧
型裝置10會從儲存空間以類似快取方式尋找與原始語音VI’最接近的原始語音VI及其對應之可理解語音VO,並播放此可理解語音VO。然而,此個人化語音轉換系統1有一些缺點。舉例來說,離線狀態的較佳語音轉換效果需要巨量的儲存空間。此外,尋找對應語音需要額外運算。當被儲存語音之資料量愈大時,運算量也會愈大。還有,不容易找到相同的語音進行轉換。
因此,本發明係在針對上述的困擾,提出一種個人化語音轉換系統,以解決習知所產生的問題。
本發明提供一種個人化語音轉換系統,其係在不會增加額外儲存空間與運算的前提下,提升語音轉換效果。
在本發明之一實施例中,一種個人化語音轉換系統包含至少一個雲端伺服器與其連線之一智慧型裝置。智慧型裝置用以接收至少一個第一原始語音訊號,並上傳第一原始語音訊號至雲端伺服器。雲端伺服器用以儲存第一原始語音訊號,並根據一可理解語音模型轉換第一原始語音訊號為至少一個第一可理解語音訊號。智慧型裝置用以下載並播放第一可理解語音訊號,雲端伺服器用以根據第一原始語音訊號及對應之第一可理解語音訊號訓練至少一個離線語音轉換模型,智慧型裝置用以下載離線語音轉換模型。在智慧型裝置與雲端伺服器斷線時,智慧型裝置接收一第二原始語音訊號,並根據離線語音轉換模型轉換第二原始語音訊號為一第二可理解語音訊號,且播放第二可理解語音訊號。
在本發明之一實施例中,至少一個雲端伺服器包含一第一雲端伺服器與一第二雲端伺服器,第一雲端伺服器電性連接第二雲端伺服器。在第一雲端伺服器與第二雲端伺服器連線智慧型裝置時,智慧型裝置上傳第一原始語音訊號至第一雲端伺服器,以儲存第一原始語音訊號於
第一雲端伺服器中,第一雲端伺服器根據可理解語音模型轉換第一原始語音訊號為第一可理解語音訊號,並傳送第一原始語音訊號與第一可理解語音訊號至第二雲端伺服器,第二雲端伺服器根據第一原始語音訊號及對應之第一可理解語音訊號訓練離線語音轉換模型。在智慧型裝置斷線第一雲端伺服器與第二雲端伺服器時,智慧型裝置接收第二原始語音訊號。
在本發明之一實施例中,至少一個第一原始語音訊號包含複數個第一原始語音訊號,至少一個第一可理解語音訊號包含複數個第一可理解語音訊號,至少一個離線語音轉換模型包含複數個離線語音轉換模型,智慧型裝置用以依序下載所有離線語音轉換模型,並以所有離線語音轉換模型之最新者更新所有離線語音轉換模型之其餘者。在智慧型裝置與雲端伺服器斷線時,智慧型裝置根據所有離線語音轉換模型之最新者轉換第二原始語音訊號為第二可理解語音訊號。
在本發明之一實施例中,雲端伺服器包含一資料傳輸介面、一資料庫、一語音澄析裝置與一語音訓練裝置。資料傳輸介面連線智慧型裝置,智慧型裝置用以透過資料傳輸介面下載第一可理解語音訊號與離線語音轉換模型。資料庫電性連接資料傳輸介面,其中資料庫用以透過資料傳輸介面接收並儲存第一原始語音訊號。語音澄析裝置電性連接資料傳輸介面,其中語音澄析裝置用以透過資料傳輸介面接收第一原始語音訊號,並根據可理解語音模型轉換第一原始語音訊號為第一可理解語音訊號。語音訓練裝置電性連接資料庫、資料傳輸介面與語音澄析裝置,其中語音訓練裝置用以接收第一原始語音訊號及對應之第一可理解語音訊號,並據此訓練離線語音轉換模型。
在本發明之一實施例中,語音澄析裝置包含一第一正規化器(normalizer)、一音框化(framing)電路、一短時傅立葉轉換器(short time Fourier transformer)、一第二正規化器、一語音轉換器、一反正規化器(denormalizer)、
一快速傅立葉反轉換器(Inverse fast Fourier transformer)與一內插(interpolation)電路。第一正規化器電性連接資料傳輸介面,其中第一正規化器用以接收並正規化第一原始語音訊號,以產生正規化語音訊號。音框化電路電性連接第一正規化器,其中音框化電路用以接收正規化語音訊號,並分割正規化語音訊號成互相重疊(overlapping)過的多個音框。短時傅立葉轉換器電性連接音框化電路,其中短時傅立葉轉換器用以從每一音框擷取頻域資訊,頻域資訊包含語音強度與語音相位。第二正規化器電性連接短時傅立葉轉換器,其中第二正規化器用以接收並正規化語音強度,以產生正規化語音強度。語音轉換器電性連接第二正規化器,其中語音轉換器用以接收正規化語音強度,並根據可理解語音模型轉換正規化語音強度為可理解語音強度。反正規化器電性連接語音轉換器,其中反正規化器用以反正規化可理解語音強度,以產生反正規化可理解語音強度。快速傅立葉反轉換器電性連接短時傅立葉轉換器與反正規化器,其中快速傅立葉反轉換器用以接收並合成語音相位與反正規化可理解語音強度,以產生時域上的合成語音訊號。內插電路電性連接語音訓練裝置、快速傅立葉反轉換器與資料傳輸介面,其中內插電路用以接收合成語音訊號,並對合成語音訊號進行內插操作,以產生第一可理解語音訊號。
在本發明之一實施例中,語音訓練裝置包含一前置處理電路、一短時傅立葉轉換器、一正規化器與一語音模型訓練器。前置處理電路電性連接資料庫與語音澄析裝置,其中前置處理電路用以接收第一原始語音訊號及對應之第一可理解語音訊號,並利用動態時序規整(dynamic time warping,DTW)將第一原始語音訊號及對應之第一可理解語音訊號對齊並音框化,以產生複數個原始音框與複數個可理解音框。短時傅立葉轉換器電性連接前置處理電路,其中短時傅立葉轉換器用以接收所有原始音框與所有可理解音框,並從所有原始音框與所有可理解音框分別擷取出原始語音特徵與可理解語音特徵。正規化
器電性連接短時傅立葉轉換器,其中正規化器用以接收原始語音特徵與可理解語音特徵,並正規化原始語音特徵與可理解語音特徵,以分別產生正規化原始語音特徵與正規化可理解語音特徵。語音模型訓練器電性連接正規化器與資料傳輸介面,其中語音模型訓練器用以接收正規化原始語音特徵與正規化可理解語音特徵,並據此訓練離線語音轉換模型。
在本發明之一實施例中,智慧型裝置為智慧型手機或平板電腦。
在本發明之一實施例中,可理解語音模型與離線語音轉換模型以深度神經網路(DNN)或生成對抗網路(GAN)實現。
在本發明之一實施例中,提供一種個人化語音轉換系統,其包含至少一個雲端伺服器與一智慧型裝置。智慧型裝置連線雲端伺服器,其中智慧型裝置用以接收且儲存至少一個第一原始語音訊號,並上傳第一原始語音訊號至雲端伺服器,雲端伺服器用以根據一可理解語音模型轉換第一原始語音訊號為至少一個第一可理解語音訊號。智慧型裝置用以下載並播放第一可理解語音訊號,智慧型裝置用以根據第一原始語音訊號及對應之第一可理解語音訊號訓練至少一個離線語音轉換模型。在智慧型裝置與雲端伺服器斷線時,智慧型裝置接收一第二原始語音訊號,並根據離線語音轉換模型轉換第二原始語音訊號為一第二可理解語音訊號,且播放第二可理解語音訊號。
在本發明之一實施例中,至少一個第一原始語音訊號包含複數個第一原始語音訊號,至少一個第一可理解語音訊號包含複數個第一可理解語音訊號,至少一個離線語音轉換模型包含複數個離線語音轉換模型,智慧型裝置用以依序訓練所有離線語音轉換模型,並以所有離線語音轉換模型之最新者更新所有離線語音轉換模型之其餘者。在智慧型裝置與雲端伺服器斷線時,智慧型裝置根據所有離線語音轉換模型之最新者轉換第二原始語音訊號為第二可理解語音訊號。
在本發明之一實施例中,雲端伺服器包含一第一資料傳輸介面與一語音澄析裝置。第一資料傳輸介面連線智慧型裝置,語音澄析裝置電性連接第一資料傳輸介面。語音澄析裝置用以透過第一資料傳輸介面接收第一原始語音訊號,並根據可理解語音模型轉換第一原始語音訊號為第一可理解語音訊號。
在本發明之一實施例中,語音澄析裝置包含一第一正規化器、一音框化電路、一短時傅立葉轉換器、一第二正規化器、一語音轉換器、一反正規化器、一快速傅立葉反轉換器與一內插電路。第一正規化器電性連接第一資料傳輸介面,其中第一正規化器用以接收並正規化第一原始語音訊號,以產生正規化語音訊號。音框化電路電性連接第一正規化器,其中音框化電路用以接收正規化語音訊號,並分割正規化語音訊號成互相重疊(overlapping)過的多個音框。短時傅立葉轉換器電性連接音框化電路,其中短時傅立葉轉換器用以從每一音框擷取頻域資訊,頻域資訊包含語音強度與語音相位。第二正規化器電性連接短時傅立葉轉換器,其中第二正規化器用以接收並正規化語音強度,以產生正規化語音強度。語音轉換器電性連接第二正規化器,其中語音轉換器用以接收正規化語音強度,並根據可理解語音模型轉換正規化語音強度為可理解語音強度。反正規化器電性連接語音轉換器,其中反正規化器用以反正規化可理解語音強度,以產生反正規化可理解語音強度。快速傅立葉反轉換器電性連接短時傅立葉轉換器與反正規化器,其中快速傅立葉反轉換器用以接收並合成語音相位與反正規化可理解語音強度,以產生時域上的合成語音訊號。內插電路電性連接快速傅立葉反轉換器與第一資料傳輸介面,其中內插電路用以接收合成語音訊號,並對合成語音訊號進行內插操作,以產生第一可理解語音訊號。
在本發明之一實施例中,智慧型裝置包含一儲存器、一語音收發
介面、一第二資料傳輸介面、一處理器、一語音訓練裝置與一語音澄析裝置。語音收發介面用以接收第一原始語音訊號。第二資料傳輸介面與連線第一資料傳輸介面,處理器電性連接儲存器、語音收發介面與第二資料傳輸介面。處理器用以透過語音收發介面接收第一原始語音訊號,並透過第二資料傳輸介面輸出第一原始語音訊號,且儲存第一原始語音訊號於儲存器中。語音訓練裝置電性連接儲存器與內插電路,其中語音訓練裝置用以接收第一原始語音訊號及對應之第一可理解語音訊號,並據此訓練離線語音轉換模型。語音澄析裝置電性連接語音收發介面與語音訓練裝置,其中語音澄析裝置用以透過語音收發介面接收第二原始語音訊號,並根據離線語音轉換模型轉換第二原始語音訊號為第二可理解語音訊號。語音澄析裝置與語音收發介面播放第二可理解語音訊號。
在本發明之一實施例中,語音訓練裝置包含一前置處理電路、一短時傅立葉轉換器、一正規化器與一語音模型訓練器。前置處理電路電性連接儲存器與內插電路,其中前置處理電路用以接收第一原始語音訊號及對應之第一可理解語音訊號,並利用動態時序規整(dynamic time warping,DTW)將第一原始語音訊號及對應之第一可理解語音訊號對齊並音框化,以產生複數個原始音框與複數個可理解音框。短時傅立葉轉換器電性連接前置處理電路,其中短時傅立葉轉換器用以接收所有原始音框與所有可理解音框,並從所有原始音框與所有可理解音框分別擷取出原始語音特徵與可理解語音特徵。正規化器電性連接短時傅立葉轉換器,其中正規化器用以接收原始語音特徵與可理解語音特徵,並正規化原始語音特徵與可理解語音特徵,以分別產生正規化原始語音特徵與正規化可理解語音特徵。語音模型訓練器電性連接正規化器與語音澄析裝置,其中語音模型訓練器用以接收正規化原始語音特徵與正規化可理解語音特徵,並據此訓練離線語音轉換模型。
在本發明之一實施例中,智慧型裝置為智慧型手機或平板電腦。
在本發明之一實施例中,可理解語音模型與離線語音轉換模型以深度神經網路(DNN)或生成對抗網路(GAN)實現。
基於上述,個人化語音轉換系統根據計算式快取(computational cache)技術與離線語音轉換模型,以得到對應之資料結果。當計算式快取技術使用次數愈高,語音轉換效果愈好,也不會增加額外儲存空間與運算。
茲為使 貴審查委員對本發明的結構特徵及所達成的功效更有進一步的瞭解與認識,謹佐以較佳的實施例圖及配合詳細的說明,說明如後:
1:個人化語音轉換系統
10:智慧型裝置
11:雲端伺服器
2:個人化語音轉換系統
20:雲端伺服器
200:資料傳輸介面
201:資料庫
202:語音澄析裝置
203:語音訓練裝置
20_1:第一雲端伺服器
20_11:資料傳輸介面
20_12:資料庫
20_13:語音澄析裝置
20_2:第二雲端伺服器
20_21:資料傳輸介面
20_22:語音訓練裝置
21:智慧型裝置
3:語音澄析裝置
30:第一正規化器
31:音框化電路
32:短時傅立葉轉換器
33:第二正規化器
34:語音轉換器
35:反正規化器
36:快速傅立葉反轉換器
37:內插電路
4:語音訓練裝置
40:前置處理電路
41:短時傅立葉轉換器
42:正規化器
43:語音模型訓練器
5:個人化語音轉換系統
50:雲端伺服器
500:第一資料傳輸介面
501:語音澄析裝置
5010:第一正規化器
5011:音框化電路
5012:短時傅立葉轉換器
5013:第二正規化器
5014:語音轉換器
5015:反正規化器
5016:快速傅立葉反轉換器
5017:內插電路
51:智慧型裝置
510:儲存器
511:語音收發介面
512:第二資料傳輸介面
513:處理器
514:語音訓練裝置
5140:前置處理電路
5141:短時傅立葉轉換器
5142:正規化器
5143:語音模型訓練器
515:語音澄析裝置
VI、VI’:原始語音
VO:可理解語音
V1、v1:第一原始語音訊號
V1’、v1’:第一可理解語音訊號
M、m:離線語音轉換模型
V2、v2:第二原始語音訊號
V2’、v2’:第二可理解語音訊號
NV、nv:正規化語音訊號
F、f:音框
MG、mg:語音強度
Φ、φ:語音相位
NM、nm:正規化語音強度
NM’、nm’:可理解語音強度
DNM’、dnm’:反正規化可理解語音強度
SV、sv:合成語音訊號
OF、of:原始音框
IF、if:可理解音框
OFM、ofm:原始語音特徵
IFM、ifm:可理解語音特徵
NO、no:正規化原始語音特徵
NI、ni:正規化可理解語音特徵
第1圖為先前技術之個人化語音轉換系統於線上狀態之方塊圖。第2圖為先前技術之個人化語音轉換系統於離線狀態之方塊圖。第3圖為本發明之第一實施例之個人化語音轉換系統於線上狀態之方塊圖。第4圖為本發明之第一實施例之個人化語音轉換系統於離線狀態之方塊圖。第5圖為本發明之第二實施例之個人化語音轉換系統於線上狀態之方塊圖。第6圖為本發明之第二實施例之個人化語音轉換系統於離線狀態之方塊圖。第7圖為本發明之一實施例之語音澄析裝置之方塊圖。第8圖為本發明之一實施例之語音訓練裝置之方塊圖。
第9圖為本發明之第三實施例之個人化語音轉換系統於線上狀態之方塊圖。第10圖為本發明之第三實施例之個人化語音轉換系統於離線狀態之方塊圖。第11圖為本發明之另一實施例之語音澄析裝置之方塊圖。第12圖為本發明之另一實施例之語音訓練裝置之方塊圖。
本發明之實施例將藉由下文配合相關圖式進一步加以解說。盡可能的,於圖式與說明書中,相同標號係代表相同或相似構件。於圖式中,基於
簡化與方便標示,形狀與厚度可能經過誇大表示。可以理解的是,未特別顯示於圖式中或描述於說明書中之元件,為所屬技術領域中具有通常技術者所知之形態。本領域之通常技術者可依據本發明之內容而進行多種之改變與修改。
在說明書及申請專利範圍中使用了某些詞彙來指稱特定的元件。然而,所屬技術領域中具有通常知識者應可理解,同樣的元件可能會用不同的名詞來稱呼。說明書及申請專利範圍並不以名稱的差異做為區分元件的方式,而是以元件在功能上的差異來做為區分的基準。在說明書及申請專利範圍所提及的「包含」為開放式的用語,故應解釋成「包含但不限定於」。另外,「耦接」在此包含任何直接及間接的連接手段。因此,若文中描述第一元件耦接於第二元件,則代表第一元件可通過電性連接或無線傳輸、光學傳輸等信號連接方式而直接地連接於第二元件,或者通過其他元件或連接手段間接地電性或信號連接至該第二元件。
揭露特別以下述例子加以描述,這些例子僅係用以舉例說明而已,因為對於熟習此技藝者而言,在不脫離本揭示內容之精神和範圍內,當可作各種之更動與潤飾,因此本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。在通篇說明書與申請專利範圍中,除非內容清楚指定,否則「一」以及「該」的意義包含這一類敘述包括「一或至少一」該元件或成分。此外,如本揭露所用,除非從特定上下文明顯可見將複數個排除在外,否則單數冠詞亦包括複數個元件或成分的敘述。而且,應用在此描述中與下述之全部申請專利範圍中時,除非內容清楚指定,否則「在其中」的意思可包含「在其中」與「在其上」。在通篇說明書與申請專利範圍所使用之用詞(terms),除有特別註明,通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。某些用以描述本揭露之用詞將於下或在此說明書的別處討論,以提供從業人員(practitioner)在有關本揭露之描述上額外的引導。在通篇說明書之任何地方
之例子,包含在此所討論之任何用詞之例子的使用,僅係用以舉例說明,當然不限制本揭露或任何例示用詞之範圍與意義。同樣地,本揭露並不限於此說明書中所提出之各種實施例。
此外,若使用「電(性)耦接」或「電(性)連接」一詞在此係包含任何直接及間接的電氣連接手段。舉例而言,若文中描述一第一裝置電性耦接於一第二裝置,則代表該第一裝置可直接連接於該第二裝置,或透過其他裝置或連接手段間接地連接至該第二裝置。另外,若描述關於電訊號之傳輸、提供,熟習此技藝者應該可了解電訊號之傳遞過程中可能伴隨衰減或其他非理想性之變化,但電訊號傳輸或提供之來源與接收端若無特別敘明,實質上應視為同一訊號。舉例而言,若由電子電路之端點A傳輸(或提供)電訊號S給電子電路之端點B,其中可能經過一電晶體開關之源汲極兩端及/或可能之雜散電容而產生電壓降,但此設計之目的若非刻意使用傳輸(或提供)時產生之衰減或其他非理想性之變化而達到某些特定的技術效果,電訊號S在電子電路之端點A與端點B應可視為實質上為同一訊號。
於下文中關於“一個實施例”或“一實施例”之描述係指關於至少一實施例內所相關連之一特定元件、結構或特徵。因此,於下文中多處所出現之“一個實施例”或“一實施例”之多個描述並非針對同一實施例。再者,於一或多個實施例中之特定構件、結構與特徵可依照一適當方式而結合。
除非特別說明,一些條件句或字詞,例如「可以(can)」、「可能(could)」、「也許(might)」,或「可(may)」,通常是試圖表達本案實施例具有,但是也可以解釋成可能不需要的特徵、元件,或步驟。在其他實施例中,這些特徵、元件,或步驟可能是不需要的。
第3圖為本發明之第一實施例之個人化語音轉換系統於線上狀態之方塊圖。請參閱第3圖,以下介紹本發明之個人化語音轉換系統之第一
實施例。個人化語音轉換系統2包含至少一個雲端伺服器20與一智慧型裝置21,其中雲端伺服器20與智慧型裝置21互相連線。為了方便與清晰,雲端伺服器20之數量以一為例。智慧型裝置21可為智慧型手機或平板電腦,但本發明並不以此為限。
在雲端伺服器20與智慧型裝置21互相連線時,智慧型裝置21接收至少一個第一原始語音訊號V1,並上傳第一原始語音訊號V1至雲端伺服器20。雲端伺服器20儲存第一原始語音訊號V1,並根據一訓練好的人工智慧模型,例如可理解語音模型轉換第一原始語音訊號V1為至少一個第一可理解語音訊號V1’。智慧型裝置21下載並播放第一可理解語音訊號V1’,雲端伺服器20根據第一原始語音訊號V1及對應之第一可理解語音訊號V1’訓練至少一個離線語音轉換模型M。智慧型裝置21下載離線語音轉換模型M。可理解語音模型與離線語音轉換模型M可以深度神經網路(DNN)或生成對抗網路(GAN)實現,但本發明並不以此為限。
第4圖為本發明之第一實施例之個人化語音轉換系統於離線狀態之方塊圖。請參閱第4圖,智慧型裝置21具有一語音澄析裝置。在智慧型裝置21與雲端伺服器20斷線時,智慧型裝置21之語音澄析裝置接收一第二原始語音訊號V2,並根據計算式快取(computational cache)技術與離線語音轉換模型M轉換第二原始語音訊號V2為一第二可理解語音訊號V2’,且播放第二可理解語音訊號V2’。
如第3圖與第4圖所示,在本發明之某些實施例中,第一原始語音訊號V1有複數個,第一可理解語音訊號V1’有複數個,離線語音轉換模型M也有複數個。智慧型裝置21依序下載所有離線語音轉換模型M,並以所有離線語音轉換模型M之最新者定期或不定期更新所有離線語音轉換模型M之其餘者。在智慧型裝置21與雲端伺服器20斷線時,智慧型裝置21根據所有離線語音轉換模型M
之最新者轉換第二原始語音訊號V2為第二可理解語音訊號V2’。因此,當計算式快取技術使用次數愈高,語音轉換效果愈好。例如音調與音色之轉換效果會愈好,也不會增加額外儲存空間與運算。
如第3圖與第4圖所示,在本發明之某些實施例中,雲端伺服器20可包含一資料傳輸介面200、一資料庫201、一語音澄析裝置202與一語音訓練裝置203。資料傳輸介面200連線智慧型裝置21,資料庫201電性連接資料傳輸介面200,語音澄析裝置202電性連接資料傳輸介面200,語音訓練裝置203電性連接資料庫201、資料傳輸介面200與語音澄析裝置202。在資料傳輸介面200連線智慧型裝置21時,資料庫201透過資料傳輸介面200接收並儲存第一原始語音訊號V1。語音澄析裝置202透過資料傳輸介面200接收第一原始語音訊號V1,並根據可理解語音模型轉換第一原始語音訊號V1為第一可理解語音訊號V1’。智慧型裝置21透過資料傳輸介面200下載第一可理解語音訊號V1’。語音訓練裝置203分別從資料庫201與語音澄析裝置202接收第一原始語音訊號V1及對應之第一可理解語音訊號V1’,並據此訓練離線語音轉換模型M。智慧型裝置21透過資料傳輸介面200下載離線語音轉換模型M。語音澄析裝置202與智慧型裝置21所使用的語音澄析裝置可以相同,但本發明並不限制語音澄析裝置之實施例。
第5圖為本發明之第二實施例之個人化語音轉換系統於線上狀態之方塊圖。請參閱第5圖,以下介紹本發明之個人化語音轉換系統之第二實施例。第二實施例與第一實施例差別在於雲端伺服器20之數量與內部元件。在第二實施例中,有第一雲端伺服器20_1與第二雲端伺服器20_2其係分別用以儲存資料與訓練模型。第一雲端伺服器20_1電性連接第二雲端伺服器20_2。在第一雲端伺服器20_1與第二雲端伺服器20_2連線智慧型裝置21時,智慧型裝置21上傳第一原始語音訊號V1至第一雲端伺服器20_1,以儲存第一原始語音訊號V1於第一雲端伺服器20_1中,第一雲
端伺服器20_1根據可理解語音模型轉換第一原始語音訊號V1為第一可理解語音訊號V1’,並傳送第一原始語音訊號V1與第一可理解語音訊號V1’至第二雲端伺服器20_2。第二雲端伺服器20_2根據第一原始語音訊號V1及對應之第一可理解語音訊號V1’訓練離線語音轉換模型M。智慧型裝置21下載此離線語音轉換模型M。
第6圖為本發明之第二實施例之個人化語音轉換系統於離線狀態之方塊圖。請參閱第6圖,智慧型裝置21具有一語音澄析裝置。在智慧型裝置21斷線第一雲端伺服器20_1與第二雲端伺服器20_2時,智慧型裝置21之語音澄析裝置接收第二原始語音訊號V2,並根據計算式快取技術與離線語音轉換模型M轉換第二原始語音訊號V2為第二可理解語音訊號V2’,且播放第二可理解語音訊號V2’。
如第5圖與第6圖所示,在本發明之某些實施例中,第一雲端伺服器20_1可包含一資料傳輸介面20_11、一資料庫20_12與一語音澄析裝置20_13。第二雲端伺服器20_2可包含一資料傳輸介面20_21與一語音訓練裝置20_22。資料傳輸介面20_11與20_21連線智慧型裝置21,資料庫20_12電性連接資料傳輸介面20_11,語音澄析裝置20_13電性連接資料傳輸介面20_11,語音訓練裝置20_22電性連接資料庫20_12、資料傳輸介面20_21與語音澄析裝置20_13。在資料傳輸介面20_11與20_21連線智慧型裝置21時,資料庫20_12透過資料傳輸介面20_11接收並儲存第一原始語音訊號V1。語音澄析裝置20_13透過資料傳輸介面20_11接收第一原始語音訊號V1,並根據可理解語音模型轉換第一原始語音訊號V1為第一可理解語音訊號V1’。智慧型裝置21透過資料傳輸介面20_11下載第一可理解語音訊號V1’。語音訓練裝置20_22分別從資料庫20_12與語音澄析裝置20_13接收第一原始語音訊號V1及對應之第一可理解語音訊號V1’,並據此訓練離線語音轉換模型M。
智慧型裝置21透過資料傳輸介面20_21下載離線語音轉換模型M。語音澄析裝置20_13與智慧型裝置21所使用的語音澄析裝置可以相同,但本發明並不限制語音澄析裝置之實施例。
本發明並不限制語音澄析裝置202或20_13之實施例。第7圖為本發明之一實施例之語音澄析裝置之方塊圖。請參閱第3圖、第5圖與第7圖,語音澄析裝置3可應用於第一實施例或第二實施例。語音澄析裝置3可包含一第一正規化器(normalizer)30、一音框化(framing)電路31、一短時傅立葉轉換器(short time Fourier transformer)32、一第二正規化器33、一語音轉換器34、一反正規化器(denormalizer)35、一快速傅立葉反轉換器(Inverse fast Fourier transformer)36與一內插(interpolation)電路37。第一正規化器30電性連接資料傳輸介面200或20_11,音框化電路31電性連接第一正規化器30,短時傅立葉轉換器32電性連接音框化電路31,第二正規化器33電性連接短時傅立葉轉換器32,語音轉換器34電性連接第二正規化器33,反正規化器35電性連接語音轉換器34,快速傅立葉反轉換器36電性連接短時傅立葉轉換器32與反正規化器35。內插電路37電性連接語音訓練裝置203、快速傅立葉反轉換器36與資料傳輸介面200。或者,內插電路37電性連接語音訓練裝置20_22、快速傅立葉反轉換器36與資料傳輸介面20_21。第一正規化器30接收並正規化第一原始語音訊號V1,以產生正規化語音訊號NV。音框化電路31接收正規化語音訊號NV,並分割正規化語音訊號NV成互相重疊(overlapping)過的多個音框F。短時傅立葉轉換器32從每一音框F擷取頻域資訊,頻域資訊包含語音強度MG與語音相位Φ。第二正規化器33接收並正規化語音強度MG,以產生正規化語音強度NM。語音轉換器34接收正規化語音強度NM,並根據可理解語音模型轉換正規化語音強度NM為可理解語音強度NM’。反正規化器35反正規化可理解語音強度NM’,以產生反正規化可理解語音強度DNM’。快速傅立葉反轉換器36接收並合成語音相位Φ與
反正規化可理解語音強度DNM’,以產生時域上的合成語音訊號SV。內插電路37接收合成語音訊號SV,並對合成語音訊號SV進行內插操作,以產生第一可理解語音訊號V1’。
本發明並不限制語音訓練裝置203或20_22之實施例。第8圖為本發明之一實施例之語音訓練裝置之方塊圖。請參閱第3圖、第5圖與第8圖,語音訓練裝置4可應用於第一實施例或第二實施例。語音訓練裝置4可包含一前置處理電路40、一短時傅立葉轉換器41、一正規化器42與一語音模型訓練器43。前置處理電路40電性連接資料庫201與語音澄析裝置202。或者,前置處理電路40電性連接資料庫20_12與語音澄析裝置20_13。短時傅立葉轉換器41電性連接前置處理電路40,正規化器42電性連接短時傅立葉轉換器41。語音模型訓練器43電性連接正規化器42與資料傳輸介面200。或者,語音模型訓練器43電性連接正規化器42與資料傳輸介面20_21。前置處理電路40接收第一原始語音訊號V1及對應之第一可理解語音訊號V1’,並利用動態時序規整(dynamic time warping,DTW)將第一原始語音訊號V1及對應之第一可理解語音訊號V1’對齊並音框化,以產生複數個原始音框OF與複數個可理解音框IF。短時傅立葉轉換器41接收所有原始音框OF與所有可理解音框IF,並從所有原始音框OF與所有可理解音框IF分別擷取出原始語音特徵OFM與可理解語音特徵IFM。正規化器42接收原始語音特徵OFM與可理解語音特徵IFM,並正規化原始語音特徵OFM與可理解語音特徵IFM,以分別產生正規化原始語音特徵NO與正規化可理解語音特徵NI。語音模型訓練器43接收正規化原始語音特徵NO與正規化可理解語音特徵NI,並據此訓練離線語音轉換模型M。
第9圖為本發明之第三實施例之個人化語音轉換系統於線上狀態之方塊圖。請參閱第9圖,以下介紹本發明之個人化語音轉換系統之第三實施例。個人化語音轉換系統5包含至少一個雲端伺服器50與一智慧型裝置
51,其中雲端伺服器50與智慧型裝置51互相連線。為了方便與清晰,雲端伺服器50之數量以一為例。智慧型裝置51可為智慧型手機或平板電腦,但本發明並不以此為限。
在智慧型裝置51連線雲端伺服器50時,智慧型裝置51接收且儲存至少一個第一原始語音訊號v1,並上傳第一原始語音訊號v1至雲端伺服器50,雲端伺服器50根據一訓練好的人工智慧模型,例如可理解語音模型轉換第一原始語音訊號v1為至少一個第一可理解語音訊號v1’,智慧型裝置51下載並播放第一可理解語音訊號v1’,智慧型裝置51根據第一原始語音訊號v1及對應之第一可理解語音訊號v1’訓練至少一個離線語音轉換模型m。可理解語音模型與離線語音轉換模型m可以深度神經網路(DNN)或生成對抗網路(GAN)實現,但本發明並不以此為限。
第10圖為本發明之第三實施例之個人化語音轉換系統於離線狀態之方塊圖。請參閱第10圖,在智慧型裝置51與雲端伺服器50斷線時,智慧型裝置51接收一第二原始語音訊號v2,並根據計算式快取技術與離線語音轉換模型m轉換第二原始語音訊號v2為一第二可理解語音訊號v2’,且播放第二可理解語音訊號v2’。
如第9圖與第10圖所示,在本發明之某些實施例中,第一原始語音訊號v1有複數個,第一可理解語音訊號v1’有複數個,離線語音轉換模型m也有複數個。智慧型裝置51依序訓練所有離線語音轉換模型m,並以所有離線語音轉換模型m之最新者定期或不定期更新所有離線語音轉換模型m之其餘者。在智慧型裝置51與雲端伺服器50斷線時,智慧型裝置51根據所有離線語音轉換模型m之最新者轉換第二原始語音訊號v2為第二可理解語音訊號v2’。因此,當計算式快取技術使用次數愈高,語音轉換效果愈好。例如音調與音色之轉換效果會愈好,也不會增加額外儲存空間與運算。
如第9圖與第10圖所示,在本發明之某些實施例中,雲端伺服器50可包含一第一資料傳輸介面500與一語音澄析裝置501。第一資料傳輸介面500連線智慧型裝置51,語音澄析裝置501電性連接第一資料傳輸介面500。語音澄析裝置501透過第一資料傳輸介面500接收第一原始語音訊號v1,並根據可理解語音模型轉換第一原始語音訊號v1為第一可理解語音訊號v1’。
智慧型裝置51可包含一儲存器510、一語音收發介面511、一第二資料傳輸介面512、一處理器513、一語音訓練裝置514與一語音澄析裝置515。第二資料傳輸介面512連線第一資料傳輸介面500,處理器510電性連接儲存器510、語音收發介面511與第二資料傳輸介面512。語音訓練裝置514電性連接儲存器510與語音澄析裝置501,語音澄析裝置515電性連接語音收發介面511與語音訓練裝置514。語音收發介面511接收第一原始語音訊號v1,處理器513透過語音收發介面511接收第一原始語音訊號v1,並透過第二資料傳輸介面512輸出第一原始語音訊號v1,且儲存第一原始語音訊號v1於儲存器510中。語音訓練裝置514接收第一原始語音訊號v1及對應之第一可理解語音訊號v1’,並據此訓練離線語音轉換模型m。語音澄析裝置515透過語音收發介面511接收第二原始語音訊號v2,並根據離線語音轉換模型m轉換第二原始語音訊號v2為第二可理解語音訊號v2’,語音澄析裝置515與語音收發介面511播放第二可理解語音訊號v2’。語音澄析裝置501與語音澄析裝置515可以相同,但本發明並不限制語音澄析裝置之實施例。
本發明並不限制語音澄析裝置501之實施例。第11圖為本發明之另一實施例之語音澄析裝置之方塊圖。請參閱第9圖與第11圖,語音澄析裝置501可包含一第一正規化器(normalizer)5010、一音框化(framing)電路5011、一短時傅立葉轉換器(short time Fourier transformer)5012、一第二正規化器5013、一語音轉換器5014、一反正規化器(denormalizer)5015、一快速傅立葉反轉換器
(Inverse fast Fourier transformer)5016與一內插(interpolation)電路5017。第一正規化器5010電性連接第一資料傳輸介面500,音框化電路5011電性連接第一正規化器5010,短時傅立葉轉換器5012電性連接音框化電路5011,第二正規化器5013電性連接短時傅立葉轉換器5012,語音轉換器5014電性連接第二正規化器5013,反正規化器5015電性連接語音轉換器5014,快速傅立葉反轉換器5016電性連接短時傅立葉轉換器5012與反正規化器5015,內插電路5017電性連接語音訓練裝置514、快速傅立葉反轉換器5016與第一資料傳輸介面500。第一正規化器5010接收並正規化第一原始語音訊號v1,以產生正規化語音訊號nv。音框化電路5011接收正規化語音訊號nv,並分割正規化語音訊號nv成互相重疊(overlapping)過的多個音框f。短時傅立葉轉換器5012從每一音框f擷取頻域資訊,頻域資訊包含語音強度mg與語音相位φ。第二正規化器5013接收並正規化語音強度mg,以產生正規化語音強度nm。語音轉換器5014接收正規化語音強度nm,並根據可理解語音模型轉換正規化語音強度nm為可理解語音強度nm’。反正規化器5015反正規化可理解語音強度nm’,以產生反正規化可理解語音強度dnm’。快速傅立葉反轉換器5016接收並合成語音相位φ與反正規化可理解語音強度dnm’,以產生時域上的合成語音訊號sv。內插電路5017接收合成語音訊號sv,並對合成語音訊號sv進行內插操作,以產生第一可理解語音訊號v1’。
本發明並不限制語音訓練裝置514之實施例。第12圖為本發明之另一實施例之語音訓練裝置之方塊圖。請參閱第9圖、第11圖與第12圖,語音訓練裝置514可包含一前置處理電路5140、一短時傅立葉轉換器5141、一正規化器5142與一語音模型訓練器5143。前置處理電路5140電性連接儲存器510與內插電路5017。短時傅立葉轉換器5141電性連接前置處理電路5140,正規化器5142電性連接短時傅立葉轉換器5141。語音模型訓練器5143電性連接正規化器5142與語音澄析裝置515。前置處理電路5140接收第一原始語音訊號v1及對應
之第一可理解語音訊號v1’,並利用動態時序規整(dynamic time warping,DTW)將第一原始語音訊號v1及對應之第一可理解語音訊號v1’對齊並音框化,以產生複數個原始音框of與複數個可理解音框if。短時傅立葉轉換器5141接收所有原始音框of與所有可理解音框if,並從所有原始音框of與所有可理解音框if分別擷取出原始語音特徵ofm與可理解語音特徵ifm。正規化器5142接收原始語音特徵ofm與可理解語音特徵ifm,並正規化原始語音特徵ofm與可理解語音特徵ifm,以分別產生正規化原始語音特徵no與正規化可理解語音特徵ni。語音模型訓練器5143接收正規化原始語音特徵no與正規化可理解語音特徵ni,並據此訓練離線語音轉換模型m。
第二原始語音訊號進行轉換時不需要進行自動語音辨識(automatic speech recognition,ASR)與文字轉語音(text-to-speech)。也就是說,此個人化語音轉換系統不需要將語音轉換成文字,也不需要將文字轉換成語音。此外,個人化語音轉換系統也不需要使用任何離線資料庫。個人化語音轉換系統能夠處理較難辨識的語音,例如難以利用ASR辨識的構音異常語音,應用範圍較廣。且以ASR與TTS為基礎的神經網路模型較為複雜,很難利用低複雜度的全連接深度神經網路(FC-DNN)達到較佳的語音轉換效果,不適合應用在邊緣裝置上。而基於人耳對於人聲有一定的敏感度。透過低複雜度生成對抗網路以頻譜映射(spectral mapping)的方式進行轉換即可使人們清楚辨識被轉換語音。
上述個人化語音轉換系統可應用於漸凍人,使其語音轉換成可理解語音,其中智慧型裝置以智慧型手機實現,離線語音轉換模型以全連接深度神經網路實現,並利用雲端伺服器安裝的Google Project Euphonia提供之漸凍人語音轉換服務訓練語音與轉換語音。在過去,已經能使用全連接深度神經網路成功轉換構音異常語音為高辨識度語音。首先判斷智慧型手機是否位於有線環境,若智慧型手機位於有線環境,則上傳漸凍人之語音至雲端伺服器,利用
Google Project Euphonia轉換語音,並下傳被轉換語音至智慧型手機中進行播放。同時,雲端伺服器利用被儲存語音訓練離線語音轉換模型。在訓練完離線語音轉換模型後,在智慧型手機位於有線環境與待機狀態下,下載離線語音轉換模型。當智慧型手機位於離線環境時,智慧型手機仍可利用全連接深度神經網路轉換漸凍人之語音為可理解語音。
根據上述實施例,個人化語音轉換系統利用計算式快取技術,以得到對應之資料結果。當計算式快取技術使用次數愈高,語音轉換效果愈好,也不會增加額外儲存空間與運算。
以上所述者,僅為本發明一較佳實施例而已,並非用來限定本發明實施之範圍,故舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾,均應包括於本發明之申請專利範圍內。
2:個人化語音轉換系統
20:雲端伺服器
200:資料傳輸介面
201:資料庫
202:語音澄析裝置
203:語音訓練裝置
21:智慧型裝置
V1:第一原始語音訊號
V1’:第一可理解語音訊號
M:離線語音轉換模型
V2:第二原始語音訊號
V2’:第二可理解語音訊號
Claims (14)
- 一種個人化語音轉換系統,包含:至少一個雲端伺服器;以及一智慧型裝置,連線該至少一個雲端伺服器,其中該智慧型裝置用以接收至少一個第一原始語音訊號,並上傳該至少一個第一原始語音訊號至該至少一個雲端伺服器,該至少一個雲端伺服器用以儲存該至少一個第一原始語音訊號,並根據一可理解語音模型轉換該至少一個第一原始語音訊號為至少一個第一可理解語音訊號,該智慧型裝置用以下載並播放該至少一個第一可理解語音訊號,該至少一個雲端伺服器用以根據該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號訓練至少一個離線語音轉換模型,該智慧型裝置用以下載該至少一個離線語音轉換模型,在該智慧型裝置與該至少一個雲端伺服器斷線時,該智慧型裝置接收一第二原始語音訊號,並根據該至少一個離線語音轉換模型轉換該第二原始語音訊號為一第二可理解語音訊號,且播放該第二可理解語音訊號;其中該至少一個第一原始語音訊號包含複數個第一原始語音訊號,該至少一個第一可理解語音訊號包含複數個第一可理解語音訊號,該至少一個離線語音轉換模型包含複數個離線語音轉換模型,該智慧型裝置用以依序下載該些離線語音轉換模型,並以該些離線語音轉換模型之最新者更新該些離線語音轉換模型之其餘者,在該智慧型裝置與該至少一個雲端伺服器斷線時,該智慧型裝置根據該些離線語音轉換模型之該最新者轉換該第二原始語音訊號為該第二可理解語音訊號。
- 如請求項1所述之個人化語音轉換系統,其中該至少一個雲端伺服器包含一第一雲端伺服器與一第二雲端伺服器,該第一雲端伺服器電性連接該第二雲端伺服器,在該第一雲端伺服器與該第二雲 端伺服器連線該智慧型裝置時,該智慧型裝置上傳該至少一個第一原始語音訊號至該第一雲端伺服器,以儲存該至少一個第一原始語音訊號於該第一雲端伺服器中,該第一雲端伺服器根據該可理解語音模型轉換該至少一個第一原始語音訊號為該至少一個第一可理解語音訊號,並傳送該至少一個第一原始語音訊號與該至少一個第一可理解語音訊號至該第二雲端伺服器,該第二雲端伺服器根據該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號訓練該至少一個離線語音轉換模型,在該智慧型裝置斷線該第一雲端伺服器與該第二雲端伺服器時,該智慧型裝置接收該第二原始語音訊號。
- 如請求項1所述之個人化語音轉換系統,其中該至少一個雲端伺服器包含:一資料傳輸介面,連線該智慧型裝置,該智慧型裝置用以透過該資料傳輸介面下載該至少一個第一可理解語音訊號與該至少一個離線語音轉換模型;一資料庫,電性連接該資料傳輸介面,其中該資料庫用以透過該資料傳輸介面接收並儲存該至少一個第一原始語音訊號;一語音澄析裝置,電性連接該資料傳輸介面,其中該語音澄析裝置用以透過該資料傳輸介面接收該至少一個第一原始語音訊號,並根據該可理解語音模型轉換該至少一個第一原始語音訊號為該至少一個第一可理解語音訊號;以及一語音訓練裝置,電性連接該資料庫、該資料傳輸介面與該語音澄析裝置,其中該語音訓練裝置用以接收該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號,並據此訓練該至少一個離線語音轉換模型。
- 如請求項3所述之個人化語音轉換系統,其中該語音澄析裝 置包含:一第一正規化器(normalizer),電性連接該資料傳輸介面,其中該第一正規化器用以接收並正規化該至少一個第一原始語音訊號,以產生正規化語音訊號;一音框化(framing)電路,電性連接該第一正規化器,其中該音框化電路用以接收該正規化語音訊號,並分割該正規化語音訊號成互相重疊(overlapping)過的多個音框;一短時傅立葉轉換器(short time Fourier transformer),電性連接該音框化電路,其中該短時傅立葉轉換器用以從每一該音框擷取頻域資訊,該頻域資訊包含語音強度與語音相位;一第二正規化器,電性連接該短時傅立葉轉換器,其中該第二正規化器用以接收並正規化該語音強度,以產生正規化語音強度;一語音轉換器,電性連接該第二正規化器,其中該語音轉換器用以接收該正規化語音強度,並根據該可理解語音模型轉換該正規化語音強度為可理解語音強度;一反正規化器(denormalizer),電性連接該語音轉換器,其中該反正規化器用以反正規化該可理解語音強度,以產生反正規化可理解語音強度;一快速傅立葉反轉換器(Inverse fast Fourier transformer),電性連接該短時傅立葉轉換器與該反正規化器,其中該快速傅立葉反轉換器用以接收並合成該語音相位與該反正規化可理解語音強度,以產生時域上的合成語音訊號;以及一內插(interpolation)電路,電性連接該語音訓練裝置、該快速傅立葉反轉換器與該資料傳輸介面,其中該內插電路用以接收該合成語音訊號,並對該合成語音訊號進行內插操作,以產生該至少一個第一可理解語音訊號。
- 如請求項3所述之個人化語音轉換系統,其中該語音訓練裝置包含: 一前置處理電路,電性連接該資料庫與該語音澄析裝置,其中該前置處理電路用以接收該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號,並利用動態時序規整(dynamic time warping,DTW)將該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號對齊並音框化,以產生複數個原始音框與複數個可理解音框;一短時傅立葉轉換器,電性連接該前置處理電路,其中該短時傅立葉轉換器用以接收該些原始音框與該些可理解音框,並從該些原始音框與該些可理解音框分別擷取出原始語音特徵與可理解語音特徵;一正規化器,電性連接該短時傅立葉轉換器,其中該正規化器用以接收該原始語音特徵與該可理解語音特徵,並正規化該原始語音特徵與該可理解語音特徵,以分別產生正規化原始語音特徵與正規化可理解語音特徵;以及一語音模型訓練器,電性連接該正規化器與該資料傳輸介面,其中該語音模型訓練器用以接收該正規化原始語音特徵與該正規化可理解語音特徵,並據此訓練該至少一個離線語音轉換模型。
- 如請求項1所述之個人化語音轉換系統,其中該智慧型裝置為智慧型手機或平板電腦。
- 如請求項1所述之個人化語音轉換系統,其中該可理解語音模型與該至少一個離線語音轉換模型以深度神經網路(DNN)或生成對抗網路(GAN)實現。
- 一種個人化語音轉換系統,包含:至少一個雲端伺服器;以及一智慧型裝置,連線該至少一個雲端伺服器,其中該智慧型裝置用以接收且儲存至少一個第一原始語音訊號,並上傳該至少一個第一原始語音訊號至該至少一個雲端伺服器,該至少一個雲端伺服器用以根據一可理解語 音模型轉換該至少一個第一原始語音訊號為至少一個第一可理解語音訊號,該智慧型裝置用以下載並播放該至少一個第一可理解語音訊號,該智慧型裝置用以根據該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號訓練至少一個離線語音轉換模型,在該智慧型裝置與該至少一個雲端伺服器斷線時,該智慧型裝置接收一第二原始語音訊號,並根據該至少一個離線語音轉換模型轉換該第二原始語音訊號為一第二可理解語音訊號,且播放該第二可理解語音訊號;其中該至少一個第一原始語音訊號包含複數個第一原始語音訊號,該至少一個第一可理解語音訊號包含複數個第一可理解語音訊號,該至少一個離線語音轉換模型包含複數個離線語音轉換模型,該智慧型裝置用以依序訓練該些離線語音轉換模型,並以該些離線語音轉換模型之最新者更新該些離線語音轉換模型之其餘者,在該智慧型裝置與該至少一個雲端伺服器斷線時,該智慧型裝置根據該些離線語音轉換模型之該最新者轉換該第二原始語音訊號為該第二可理解語音訊號。
- 如請求項8所述之個人化語音轉換系統,其中該至少一個雲端伺服器包含:一第一資料傳輸介面,連線該智慧型裝置;以及一語音澄析裝置,電性連接該第一資料傳輸介面,其中該語音澄析裝置用以透過該第一資料傳輸介面接收該至少一個第一原始語音訊號,並根據該可理解語音模型轉換該至少一個第一原始語音訊號為該至少一個第一可理解語音訊號。
- 如請求項9所述之個人化語音轉換系統,其中該語音澄析裝置包含:一第一正規化器(normalizer),電性連接該第一資料傳輸介面,其中該第一正規化器用以接收並且正規化該至少一個第一原始語音訊號,以產 生正規化語音訊號;一音框化(framing)電路,電性連接該第一正規化器,其中該音框化電路用以接收該正規化語音訊號,並分割該正規化語音訊號成互相重疊(overlapping)過的多個音框;一短時傅立葉轉換器(short time Fourier transformer),電性連接該音框化電路,其中該短時傅立葉轉換器用以從每一該音框擷取頻域資訊,該頻域資訊包含語音強度與語音相位;一第二正規化器,電性連接該短時傅立葉轉換器,其中該第二正規化器用以接收並正規化該語音強度,以產生正規化語音強度;一語音轉換器,電性連接該第二正規化器,其中該語音轉換器用以接收該正規化語音強度,並且根據該可理解語音模型轉換該正規化語音強度為可理解語音強度;一反正規化器(denormalizer),電性連接該語音轉換器,其中該反正規化器用以反正規化該可理解語音強度,以產生反正規化可理解語音強度;一快速傅立葉反轉換器(Inverse fast Fourier transformer),電性連接該短時傅立葉轉換器與該反正規化器,其中該快速傅立葉反轉換器用以接收並合成該語音相位與該反正規化可理解語音強度,以產生時域上的合成語音訊號;以及一內插(interpolation)電路,電性連接該快速傅立葉反轉換器與該第一資料傳輸介面,其中該內插電路用以接收該合成語音訊號,並對該合成語音訊號進行內插操作,以產生該至少一個第一可理解語音訊號。
- 如請求項10所述之個人化語音轉換系統,其中該智慧型裝置包含:一儲存器;一語音收發介面,用以接收該至少一個第一原始語音訊號; 一第二資料傳輸介面,連線該第一資料傳輸介面;一處理器,電性連接該儲存器、該語音收發介面與該第二資料傳輸介面,其中該處理器用以透過該語音收發介面接收該至少一個第一原始語音訊號,並透過該第二資料傳輸介面輸出該至少一個第一原始語音訊號,且儲存該至少一個第一原始語音訊號於該儲存器中;一語音訓練裝置,電性連接該儲存器與該內插電路,其中該語音訓練裝置用以接收該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號,並據此訓練該至少一個離線語音轉換模型;以及一語音澄析裝置,電性連接該語音收發介面與該語音訓練裝置,其中該語音澄析裝置用以透過該語音收發介面接收該第二原始語音訊號,並根據該至少一個離線語音轉換模型轉換該第二原始語音訊號為該第二可理解語音訊號,該語音澄析裝置與該語音收發介面播放該第二可理解語音訊號。
- 如請求項11所述之個人化語音轉換系統,其中該語音訓練裝置包含:一前置處理電路,電性連接該儲存器與該內插電路,其中該前置處理電路用以接收該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號,並利用動態時序規整(dynamic time warping,DTW)將該至少一個第一原始語音訊號及對應之該至少一個第一可理解語音訊號對齊並音框化,以產生複數個原始音框與複數個可理解音框;一短時傅立葉轉換器,電性連接該前置處理電路,其中該短時傅立葉轉換器用以接收該些原始音框與該些可理解音框,並從該些原始音框與該些可理解音框分別擷取出原始語音特徵與可理解語音特徵;一正規化器,電性連接該短時傅立葉轉換器,其中該正規化器用以接收該原始語音特徵與該可理解語音特徵,並正規化該原始語音特徵與該可理解語 音特徵,以分別產生正規化原始語音特徵與正規化可理解語音特徵;以及一語音模型訓練器,電性連接該正規化器與該語音澄析裝置,其中該語音模型訓練器用以接收該正規化原始語音特徵與該正規化可理解語音特徵,並據此訓練該至少一個離線語音轉換模型。
- 如請求項8所述之個人化語音轉換系統,其中該智慧型裝置為智慧型手機或平板電腦。
- 如請求項8所述之個人化語音轉換系統,其中該可理解語音模型與該至少一個離線語音轉換模型以深度神經網路(DNN)或生成對抗網路(GAN)實現。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110126851A TWI801941B (zh) | 2021-07-21 | 2021-07-21 | 個人化語音轉換系統 |
US17/475,903 US11741968B2 (en) | 2021-07-21 | 2021-09-15 | Personalized voice conversion system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110126851A TWI801941B (zh) | 2021-07-21 | 2021-07-21 | 個人化語音轉換系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202305783A TW202305783A (zh) | 2023-02-01 |
TWI801941B true TWI801941B (zh) | 2023-05-11 |
Family
ID=84975836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110126851A TWI801941B (zh) | 2021-07-21 | 2021-07-21 | 個人化語音轉換系統 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11741968B2 (zh) |
TW (1) | TWI801941B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI801941B (zh) * | 2021-07-21 | 2023-05-11 | 國立中正大學 | 個人化語音轉換系統 |
US20240005944A1 (en) * | 2022-06-30 | 2024-01-04 | David R. Baraff | Devices for Real-time Speech Output with Improved Intelligibility |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW487903B (en) * | 1999-11-02 | 2002-05-21 | Speechworks Int Inc | Method and apparatus for discriminative training of acoustic models of a speech recognition system |
CN108268452A (zh) * | 2018-01-15 | 2018-07-10 | 东北大学 | 一种基于深度学习的专业领域机器同步翻译装置及方法 |
CN109710949A (zh) * | 2018-12-04 | 2019-05-03 | 深圳市酷达通讯有限公司 | 一种翻译方法及翻译机 |
US20210183397A1 (en) * | 2018-04-20 | 2021-06-17 | Facebook, Inc. | Multiple Wake Words for Systems with Multiple Smart Assistants |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102277259B1 (ko) * | 2014-11-26 | 2021-07-14 | 엘지전자 주식회사 | 디바이스 제어 시스템, 디지털 디바이스 및 디지털 디바이스 제어 방법 |
US10529353B2 (en) * | 2017-12-11 | 2020-01-07 | Intel Corporation | Reliable reverberation estimation for improved automatic speech recognition in multi-device systems |
EP3621068A4 (en) * | 2018-05-18 | 2021-07-21 | Shenzhen Aukey Smart Information Technology Co., Ltd. | PORTABLE INTELLIGENT VOICE INTERACTION CONTROL DEVICE, METHOD AND SYSTEM |
WO2019218368A1 (zh) * | 2018-05-18 | 2019-11-21 | 深圳傲智天下信息科技有限公司 | 一种tws耳机、腕带式ai语音交互装置及系统 |
WO2020132897A1 (zh) * | 2018-12-25 | 2020-07-02 | 华为技术有限公司 | 可穿戴设备 |
US11687778B2 (en) * | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
USD983744S1 (en) * | 2020-12-08 | 2023-04-18 | Lg Electronics Inc. | Combined cradle with charging pad for wireless earphones |
TWI801941B (zh) * | 2021-07-21 | 2023-05-11 | 國立中正大學 | 個人化語音轉換系統 |
-
2021
- 2021-07-21 TW TW110126851A patent/TWI801941B/zh active
- 2021-09-15 US US17/475,903 patent/US11741968B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW487903B (en) * | 1999-11-02 | 2002-05-21 | Speechworks Int Inc | Method and apparatus for discriminative training of acoustic models of a speech recognition system |
CN108268452A (zh) * | 2018-01-15 | 2018-07-10 | 东北大学 | 一种基于深度学习的专业领域机器同步翻译装置及方法 |
US20210183397A1 (en) * | 2018-04-20 | 2021-06-17 | Facebook, Inc. | Multiple Wake Words for Systems with Multiple Smart Assistants |
CN109710949A (zh) * | 2018-12-04 | 2019-05-03 | 深圳市酷达通讯有限公司 | 一种翻译方法及翻译机 |
Also Published As
Publication number | Publication date |
---|---|
TW202305783A (zh) | 2023-02-01 |
US20230026329A1 (en) | 2023-01-26 |
US11741968B2 (en) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7427723B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
CN111402855B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
WO2020232860A1 (zh) | 语音合成方法、装置及计算机可读存储介质 | |
TWI801941B (zh) | 個人化語音轉換系統 | |
CN104424952B (zh) | 语音处理设备、语音处理方法以及程序 | |
US10453476B1 (en) | Split-model architecture for DNN-based small corpus voice conversion | |
WO2022017040A1 (zh) | 语音合成方法及系统 | |
WO2019242414A1 (zh) | 语音处理方法、装置、存储介质及电子设备 | |
WO2019233364A1 (zh) | 基于深度学习的音频音质增强 | |
KR20200027331A (ko) | 음성 합성 장치 | |
CN113436609B (zh) | 语音转换模型及其训练方法、语音转换方法及系统 | |
CN111081249A (zh) | 一种模式选择方法、装置及计算机可读存储介质 | |
JPH0576040B2 (zh) | ||
CN108172241B (zh) | 一种基于智能终端的音乐推荐方法及音乐推荐系统 | |
JP7218143B2 (ja) | 再生システムおよびプログラム | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
Kiran Reddy et al. | DNN-based cross-lingual voice conversion using Bottleneck Features | |
CN112382297A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN112382268A (zh) | 用于生成音频的方法、装置、设备和介质 | |
CN114333874B (zh) | 处理音频信号的方法 | |
WO2023102932A1 (zh) | 音频转换方法、电子设备、程序产品及存储介质 | |
CN113160849B (zh) | 歌声合成方法、装置及电子设备和计算机可读存储介质 | |
US20230186900A1 (en) | Method and system for end-to-end automatic speech recognition on a digital platform | |
US11335321B2 (en) | Building a text-to-speech system from a small amount of speech data | |
KR102457822B1 (ko) | 자동 통역 장치 및 그 방법 |