TW202016922A - 有聲播放裝置及其播放方法 - Google Patents

有聲播放裝置及其播放方法 Download PDF

Info

Publication number
TW202016922A
TW202016922A TW107138001A TW107138001A TW202016922A TW 202016922 A TW202016922 A TW 202016922A TW 107138001 A TW107138001 A TW 107138001A TW 107138001 A TW107138001 A TW 107138001A TW 202016922 A TW202016922 A TW 202016922A
Authority
TW
Taiwan
Prior art keywords
sound
playback device
voice
text
audio playback
Prior art date
Application number
TW107138001A
Other languages
English (en)
Other versions
TWI685835B (zh
Inventor
鄧廣豐
蔡政宏
谷圳
朱志國
劉瀚文
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW107138001A priority Critical patent/TWI685835B/zh
Priority to CN201811324524.0A priority patent/CN111105776A/zh
Priority to US16/207,078 priority patent/US11049490B2/en
Application granted granted Critical
Publication of TWI685835B publication Critical patent/TWI685835B/zh
Publication of TW202016922A publication Critical patent/TW202016922A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09FDISPLAYING; ADVERTISING; SIGNS; LABELS OR NAME-PLATES; SEALS
    • G09F27/00Combined visual and audible advertising or displaying, e.g. for public address
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一種有聲播放裝置以及用於該有聲播放裝置的播放方法被揭露於此。該有聲播放裝置接收來自一使用者的一使用者指令,以自複數聲音模型中選擇一目標聲音模型,並將該目標聲音模型指定於該文本中的一目標角色。該有聲播放裝置還將一文本轉換為一語音,且在該轉換的過程中,根據該目標聲音模型將該文本中屬於該目標角色的語句轉換成一目標角色語音。

Description

有聲播放裝置及其播放方法
本揭露與有聲播放裝置及用於該有聲播放裝置的播放方法有關。更具體而言,本揭露與能夠將一文本中一目標角色的語句轉換成使用者所指定的語音呈現的有聲播放裝置及用於該有聲播放裝置的播放方法有關。
傳統主要用來播放故事或內容的有聲播放裝置(例如:有聲書、說故事機)僅能夠採用固定的語音播放模式來將一文本(例如:一故事、一小說、一散文、一詩集等)轉換為語音。舉例而言,傳統的有聲播放裝置會針對該文本儲存一聲音檔案,並播放該聲音檔案來敘述該文本的內容,其中該聲音檔案大多是透過配音員或是計算機裝置預先針對該文本中的語句錄製相對應的聲音而形成的。由於傳統的有聲播放裝置的語音呈現是固定、單調、且不可變的,故容易削弱使用者的新鮮感,從而無法吸引使用者長期使用。有鑑於此,如何改善傳統的有聲播放裝置使其不受限於單一的語音呈現,對本發明所屬技術領域而言是相當重要的。
為了至少解決上述的問題,本揭露提供一種有聲播放裝置。 該有聲播放裝置可包含一儲存器、一輸入裝置、分別與該處理器及該輸入裝置電性連接的一處理器以及與該處理器電性連接的一輸出裝置。該儲存器可用以儲存一文本。該輸入裝置可用以接收來自一使用者的一使用者指令。該處理器可用以根據該第一指令自複數聲音模型中選擇一目標聲音模型,並將該目標聲音模型指定於該文本中的一目標角色。該處理器還可用以將該文本轉換為一語音,且該輸出裝置可用以輸出該語音,其中該語音包含一目標角色語音。在將該文本轉換為該語音的過程中,該處理器根據該目標聲音模型將該文本中屬於該目標角色的語句轉換成該目標角色語音。
為了至少解決上述的問題,本揭露還提供一種用於一有聲播放裝置的播放方法。該用於該有聲播放裝置的播放方法可包含:由該有聲播放裝置接收來自一使用者的一使用者指令;由該有聲播放裝置根據該第一指令自複數聲音模型中選擇一目標聲音模型,並將該目標聲音模型指定於該文本中的一目標角色;由該有聲播放裝置將一文本轉換為一語音,其中該語音包含一目標角色語音;以及由該有聲播放裝置輸出該語音;其中,在該有聲播放裝置將該文本轉換為該語音的過程中更包含:由該有聲播放裝置根據該目標聲音模型將該文本中屬於該目標角色的語句轉換成該目標角色語音。
綜上所述,透過本揭露提供的有聲播放裝置及其播放方法,使用者可依自身喜好從多個不同的聲音模型中選出一個聲音模型來為一文本中的任一角色的語句產生相對應的語音。由於本揭露提供的有聲播放裝置及其播放方法能夠提供多種客製化的語音呈現,故有效地解決了傳統的有聲播放裝置對故事或內容文本只能提供單一的語音呈現的上述問題。
如下所示:
1‧‧‧有聲播放系統
11‧‧‧有聲播放裝置
13‧‧‧雲端伺服器
111‧‧‧處理器
113‧‧‧儲存器
115‧‧‧輸入裝置
117‧‧‧輸出裝置
119‧‧‧收發器
3A、3B‧‧‧使用者介面頁面
4‧‧‧用於有聲播放裝置的播放方法
401、403、405、407‧‧‧步驟
AUD‧‧‧語音
INS_1‧‧‧第一指令
INS_2‧‧‧第二指令
INS_3‧‧‧第三指令
DEF‧‧‧預設資料
OC‧‧‧其他角色
OCS‧‧‧其他角色語音
PV_1、PV_2、PV_3、PV_4、PV_5、PV_6‧‧‧試聽聲音檔案
TC‧‧‧目標角色
TCS‧‧‧目標角色語音
TVM‧‧‧目標聲音模型
TXT‧‧‧文本
VM_1、VM_2、VM_3、VM_4、VM_5、VM_6‧‧‧聲音模型
第1圖例示了在本發明的一或多個實施例中的一種有聲播放系統的示意圖。
第2圖例示了在本發明的一或多個實施例中聲音模型、文本中的角色與語句、以及語音的關係的示意圖。
第3A圖例示了在本發明的一或多個實施例中的一有聲播放裝置所提供的使用者介面的示意圖。
第3B圖例示了在本發明的一或多個實施例中的一有聲播放裝置所提供的使用者介面的另一示意圖。
第4圖例示了在本發明的一或多個實施例中的一種用於一有聲播放裝置的播放方法的示意圖。
以下所述各種實施例並非用以限制本發明只能在所述的環境、應用、結構、流程或步驟方能實施。於圖式中,與本發明的實施例非直接相關的元件皆已省略。於圖式中,各元件的尺寸以及各元件之間的比例僅是範例,而非用以限制本發明。除了特別說明之外,在以下內容中,相同(或相近)的元件符號可對應至相同(或相近)的元件。在可被實現的情況下,如未特別說明,以下所述的每一個元件的數量是指一個或多個。
第1圖例示了在本發明的一或多個實施例中的一種有聲播放系統的示意圖。然而,第1圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
參照第1圖,一有聲播放系統1可包含一有聲播放裝置11以及 雲端伺服器13。有聲播放裝置11可包含一處理器111以及皆各自與處理器111電性連接的一儲存器113、一輸入裝置115、一輸出裝置117、以及一收發器119。收發器119與雲端伺服器13耦合,以與雲端伺服器13進行通訊。於某些實施例中,有聲播放系統1不包含雲端伺服器13,且有聲播放裝置11不包含收發器119。
儲存器113可用以儲存有聲播放裝置11所產生的資料、外部裝置雲端伺服器13傳入的資料、或使用者自行輸入的資料。儲存器113可包含第一級記憶體(又稱主記憶體或內部記憶體),且處理器111可直接讀取儲存在第一級記憶體內的指令集,並在需要時執行這些指令集。儲存器113可選擇性地包含第二級記憶體(又稱外部記憶體或輔助記憶體),且此記憶體可透過資料緩衝器將儲存的資料傳送至第一級記憶體。舉例而言,第二級記憶體可以是但不限於:硬碟、光碟等。儲存器113可選擇性地包含第三級記憶體,亦即,可直接插入或自電腦拔除的儲存裝置,例如隨身硬碟。
在某些實施例中,儲存器113可儲存一文本TXT。文本TXT可以是各種文字檔案。舉例而言,文本TXT可以是例如但不限於關於一故事、一小說、一散文、一詩集的一文字檔案。文本TXT中可包含至少一角色以及與該至少一角色相對應的至少一語句。舉例而言,當文本TXT為一童話故事時,其可包含國王、皇后、王子、公主、旁白等角色及與該等角色相對應的對白、獨白、或台詞等語句。
輸入裝置115可為獨立的一鍵盤、一滑鼠,或者是鍵盤、滑鼠與一顯示器之組合、一聲控裝置與一顯示器之組合、或一觸控螢幕等可用以讓使用者輸入各種指令至有聲播放裝置11的裝置。輸出裝置117可為用以 播放聲音的各種裝置,例如一揚聲器或一耳機等。於某些實施例中,輸入裝置115與輸出裝置117可以整合為單一裝置。
收發器119與雲端伺服器13連接,且二者可用以進行無線通訊及/或有線通訊。收發器119可包含一傳送器(transmitter)和一接收器(receiver)。以無線通訊為例,收發器119可包含但不限於:天線、放大器、調變器、解調變器、偵測器、類比至數位轉換器、數位至類比轉換器等通訊元件。以有線通訊為例,收發器119可以是例如但不限於:一十億位元乙太網路收發器(gigabit Ethernet transceiver)、一十億位元乙太網路介面轉換器(gigabit interface converter,GBIC)、一小封裝可插拔收發器(small form-factor pluggable(SFP)transceiver)、一百億位元小封裝可插拔收發器(ten gigabit small form-factor pluggable(XFP)transceiver)等。
雲端伺服器13可為一計算機裝置或一網路伺服器等具備計算、儲存,且能夠在有線網路或無線網路中傳輸資料等功能的裝置。
處理器111可以是具備訊號處理功能的微處理器(microprocessor)或微控制器(microcontroller)等。微處理器或微控制器是一種可程式化的特殊積體電路,其具有運算、儲存、輸出/輸入等能力,且可接受並處理各種編碼指令,藉以進行各種邏輯運算與算術運算,並輸出相應的運算結果。處理器111可被編程以在有聲播放裝置11中執行各種運算或程式。舉例而言,處理器111可被編程以將文本TXT轉換為一語音AUD。
第2圖例示了在本發明的一或多個實施例中聲音模型、文本中的角色與語句、以及語音的關係的示意圖。然而,第2圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
同時參照第1圖與第2圖。在某些實施例中,使用者可透過輸入裝置115傳送第一指令INS_1至處理器111,而處理器111可根據第一指令INS_1自複數聲音模型(例如,VM_1、VM_2、VM_3、VM_4、...)中選擇一目標聲音模型TVM,並將目標聲音模型TVM指定於文本TXT中的一目標角色TC。隨後,處理器111可根據目標聲音模型TVM將文本TXT中屬於目標角色TC的語句轉換成一目標角色語音TCS。
在某些實施例中,除了文本TXT之外,儲存器113還可儲存一預設資料DEF。預設資料DEF可用以記錄文本TXT中的一或多個其他角色OC及與該等其他角色OC對應的複數其他聲音模型(例如,聲音模型VM_2、VM_3、VM_4、...)。另外,處理器111可根據預設資料DEF,透過與文本TXT中該等其他角色OC對應的該等其他聲音模型將文本TXT中屬於該等其他角色OC的語句轉換成一其他角色語音OCS。在產生目標角色語音TCS及其他角色語音OCS之後,處理器111即可將二者合成為一語音AUD,並可透過輸出裝置117輸出語音AUD。
舉例而言,如第2圖所示,假設文本TXT為一童話故事「國王的新衣」,其中包含複數角色如國王、裁縫師、大臣等,且預設地,聲音模型VM_1、VM_2、VM_3分別被指定到文本TXT中的角色國王、裁縫師、大臣。若處理器111根據來自使用者的第一指令INS_1而得知使用者欲指定聲音模型VM_4來為目標角色TC的「國王」進行配音(預設是指定聲音模型VM_1來為「國王」進行配音),則處理器111可自複數聲音模型中選擇聲音模型VM_4來作為目標聲音模型TVM,並將其指定於作為目標角色TC的國王。隨後,處理器111可根據聲音模型VM_4,透過一文字轉換語音引擎(text- to-speech engine,TTS engine)將文本TXT中屬於國王的語句轉換成國王的語音,並作為目標角色語音TCS。此外,處理器111還可根據預設資料DEF,得知文本TXT中除了國王以外的其他角色OC(例如:裁縫師與大臣)的預設他聲音模型,即聲音模型VM_2與聲音模型VM_3,並且分別根據聲音模型VM_2與聲音模型VM_3,透過該文字轉換語音引擎,將文本TXT中屬於裁縫師與大臣的語句轉換為裁縫師的語音與大臣的語音,以形成其他角色語音OCS。最後,處理器111可將目標角色語音TCS與其他角色語音OCS合成為語音AUD,並透過輸出裝置117播放語音AUD。
第3A圖例示了在本發明的一或多個實施例中的一有聲播放裝置所提供的使用者介面的示意圖。第3B圖例示了在本發明的一或多個實施例中的一有聲播放裝置所提供的使用者介面的另一示意圖。然而,第3A圖與第3B圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
同時參照第1圖、第2圖、第3A圖以及第3B圖。在某些實施例中,處理器111可提供一使用者介面(例如但不限於一圖形使用者介面(graphic user interface,GUI)),使得使用者透過輸入裝置115傳送各種指令至處理器111。具體而言,使用者可於一使用者介面頁面3A中瀏覽關於複數聲音模型VM_1、VM_2、...、VM_6等的複數試聽檔案PV_1、PV_2、...、PV_6,並可透過點擊使用者介面頁面3A選擇該等試聽檔案PV_1、PV_2、...、PV_6中的任一者以傳送一第三指令INS_3至輸入裝置115,同時進入一使用者介面頁面3B以試聽該等試聽檔案PV_1、PV_2、...、PV_6中的任一者。舉例而言,假設文本TXT仍為童話故事「國王的新衣」,且使用者正針對作為目標角色TC的「國王」進行配音內容的瀏覽。在使用者介面頁面3A中,使 用者可透過點擊任一試聽檔案,以進入使用者介面頁面3B中進行試聽。舉例而言,使用者可點擊對應至聲音模型VM_4的一試聽檔案PV_4以傳送第三指令INS_3至輸入裝置115,同時進入使用者介面頁面3B中,而輸出裝置117可接著根據第三指令INS_3播放試聽檔案PV_4給使用者試聽。在此範例中,聲音模型VM_1、VM_2、VM_3均是對應到「國王的新衣」這個故事文本中的角色的聲音模型。另外,聲音模型VM_4、VM_5、VM_6都不是對應到「國王的新衣」中的角色的聲音模型,其中聲音模型VM_4可以是對應到另一個故事文本如「白雪公主」這個故事中的「白雪公主」的聲音模型,而聲音模型VM_5、與VM_6是分別對應到真實的人物如使用者的爸爸與媽媽的聲音模型。
在使用者介面頁面3B中,使用者可根據其對試聽檔案PV_4的滿意程度,決定是否使用試聽聲音檔案PV_4所對應的聲音模型VM_4作為目標聲音模型TVM來為目標角色TC進行配音。若使用者決定使用試聽聲音檔案PV_4所對應的聲音模型VM_4作為目標聲音模型TVM來為目標角色TC進行配音,則可透過點擊使用者介面頁面3B中的「確定」鍵以傳送第一指令INS_1至處理器111。若使用者想要收藏與試聽檔案PV_4相對應的聲音模型VM_4,則可透過點擊使用者介面頁面3B中的「收藏」鍵以傳送一第二指令INS_2至處理器111。
上述使用者介面頁面3A與使用者介面頁面3B的呈現方式僅為本發明諸多實施例當中的一個態樣,而不是一個限制。
在某些實施例中,處理器111或雲端伺服器13可針對某一特定性格,建立相應的一聲音參數調整模式,以得知當欲建立對應至各種性 格的聲音模型時該如何相應地調整聲音參數。該特定性格可以是例如但不限於:開朗型、自戀型、喜怒無常型、隨和型、神經質型、...等。
上述該等聲音模型VM_1、VM_2、VM_3、...的每一者可以是由有聲播放裝置11的處理器111或雲端伺服器13從一聲音檔案中萃取該等聲音特徵,並且根據該聲音檔案中的聲音(例如:一自戀狂的聲音)已知的性格(例如:一自戀型性格)來建立,或者是由有聲播放裝置11的處理器111或雲端伺服器13從該聲音檔案中萃取該等聲音特徵,並且根據該特定性格調整該等聲音特徵而建立的。也因此,根據不同的需求,該等聲音模型可儲存於有聲播放裝置11的儲存器113之中,或者儲存於雲端伺服器13之中。
舉例而言,該等聲音特徵可包含該聲音檔案的一音高特徵、一語速特徵、一音頻特徵以及一音量特徵;其中,該音高特徵與基頻範圍(F0 range)及/或基頻均值(F0 mean)有關,該語速特徵與聲音的時長(tempo)有關,該音頻特徵與「頻譜參數(spectrum parameter)」有關,而該音量特徵則與聲音的大小(loudness)有關。有關音高特徵、語速特徵、音頻特徵以及音量特徵的敘述僅是舉例而非限制。
處理器111或雲端伺服器13在萃取某一聲音檔案中的音高特徵、語速特徵、音頻特徵以及音量特徵後,即可依據該聲音的音高特徵、語速特徵、音頻特徵以及音量特徵來判斷對應於哪一種性格,並基於該性格所對應的該聲音參數調整模式來針對該等聲音特徵所對應的音高參數、語速參數、音頻參數以及音量參數進行調整,或者是根據某一特定性格所對應的該聲音參數調整模式來針對該等聲音特徵所對應的音高參數、語速參數、 音頻參數以及音量參數進行調整,以建立對應於不同性格的該等聲音模型其中之一者。於某些實施例中,處理器111或雲端伺服器13可分析每一文本TXT的內容以確定該文本TXT中的每一個角色的性格,以取得複數特定性格。舉例而言,處理器111或雲端伺服器13可藉由分析「國王的新衣」這個文本TXT中「國王」這個角色的語句(或特徵詞)而得知「國王」這個角色的特定性格為「自大型」,然後可進一步從該等聲音模型中找出對應至自大型性格或是相近於自大型性格的聲音模型來進行配音。
更進一步而言,處理器111或雲端伺服器13可事先收錄和分析使用者或其父母、家人的聲音,並分別建立其聲音模型,該等聲音模型中的每一個可包含一音色子模型,且該音色子模型可包含一音高參數、一語速參數、一音頻參數以及一音量參數,以在經調整後可對應至不同的性格。也就是說,處理器111或雲端伺服器13可分別根據不同的特定性格,調整該等音色子模型所包含的音高參數、語速參數、音頻參數以及音量參數,以建立複數個符合不同特定性格的聲音模型。舉例而言,當欲將某一聲音模型調整為符合「浪漫甜美型」的性格時,處理器111或雲端伺服器13可調整該聲音模型的音色子模型,使其音高參數上調百分之五十,語速參數下調百分之十,將音頻參數上調百分之十五,並將音量參數上調百分之五。
於某些實施例中,處理器111或雲端伺服器13可分析每一文本TXT的內容以確定該文本TXT中的每一個角色的性格,然後為每一角色指派一個預設的聲音模型。舉例而言,處理器111或雲端伺服器13可藉由分析「國王的新衣」這個文本TXT中「國王」這個角色的語句(或特徵詞)而得知「國王」這個角色的特定性格,例如「自大型」,然後將對應至「自大型」 的聲音模型指派給「國王」這個角色。
在某些實施例中,除了音色子模型之外,每一個聲音模型還可以包含一情緒子模型。每一個情緒子模型可具備不同的情緒轉換參數,例如但不限於:「開心」、「生氣」、「疑問」、「難過」等。每一個情緒轉換參數可用以調整音色子模型中的音高參數、語速參數、音頻參數、以及音量參數。另外,處理器111可根據文本TXT中任一角色的語句中的情緒特徵詞,使用相對應的聲音模型中的情緒子模型來調整音色子模型。舉例而言,如第2圖所示,假設處理器111根據文本TXT中作為目標角色TC的「國王」的語句中的情緒特徵詞如「大笑」、「怒斥」、「質問」而分別辨識出國王的情緒為「開心」、「生氣」及「疑問」,則在將作為目標角色TC的「國王」的語句轉換為語音的過程中,處理器111可進一步根據「開心」、「生氣」及「疑問」的情緒,使用被指定的聲音模型VM_4所包含的情緒子模型來調整被指定的聲音模型VM_4所包含的音色子模型的音高參數、語速參數、音頻參數、以及音量參數。藉此,因應於不同情緒的「國王」語句,輸出裝置117可輸出不同情緒的「國王」語音。
在某些實施例中,一聲音檔案可以是由一人員錄音所產生的一真人錄音檔案。舉例而言,該聲音檔案可以是由使用者、使用者的親友或一專業配音員透過對錄音裝置覆誦預設的複數(例如:一百句)語料所建立。
在某些實施例中,該聲音檔案可以是從一影片音軌、一廣播、一音樂劇等包含人物聲音的來源所獲得。舉例而言,該聲音檔案可以是自一英雄電影中擷取關於超級英雄的語句所組成的音軌檔案。
在某些實施例中,目標角色TC的數量可不僅限於一個,且 因本發明所屬技術領域中具有通常知識者能夠藉由上述說明得知目標角色TC的數量多於一個時的相應流程,故於此不再贅述。
第4圖例示了在本發明的一或多個實施例中的一種用於一有聲播放裝置的播放方法的示意圖。然而,第4圖所示內容僅是為了說明本發明的實施例,而非為了限制本發明。
參照第4圖,一種用於一有聲播放裝置的播放方法4可包含以下步驟:由該有聲播放裝置接收來自一使用者的一第一指令(標示為步驟401);由該有聲播放裝置根據該第一指令自複數聲音模型中選擇一目標聲音模型,並將該目標聲音模型指定於一文本中的一目標角色(標示為步驟403);由該有聲播放裝置將該文本轉換為一語音,其中,在將該文本被轉換為該語音的過程中,該有聲播放裝置根據該目標聲音模型將該文本中屬於該目標角色的語句轉換成一目標角色語音(標示為步驟405);以及由該有聲播放裝置輸出該語音(標示為步驟407)。
第4圖所示的步驟401~步驟407的順序並非限制。在可實施的情況下,第4圖所示的步驟401~步驟407的順序可以被任意調整。
在某些實施例中,用於該有聲播放裝置的播放方法4還可包含以下步驟:由該有聲播放裝置儲存一預設資料,其中該預設資料用以記錄該文本中的複數其他角色及該等其他角色對應的複數其他聲音模型,且該等其他角色的每一者所分別對應的該等其他聲音模型其中之一係為該等聲音模型 其中之一;以及由該有聲播放裝置在將該文本轉換為該語音的過程中,根據該預設資料中的該等其他角色分別對應的該等其他聲音模型將該文本中屬於該等其他角色的語句轉換成一其他角色語音,且該語音包含該目標角色語音及該其他角色語音。
在某些實施例中,該等聲音模型的每一者可以是由該有聲播放裝置或與該有聲播放裝置耦合的一雲端伺服器從一聲音檔案中萃取複數聲音特徵,並根據一特定性格而建立的,且該等聲音特徵可包含該聲音檔案的一音高特徵、一語速特徵以及一音頻特徵。非限制地,該聲音檔案可以是一真人錄音檔案。
在某些實施例中,用於該有聲播放裝置的播放方法4還可包含以下步驟:由該有聲播放裝置接收該使用者的一第二指令;以及由該有聲播放裝置根據該第二指令,標記該等聲音模型的其中之一為一收藏聲音模型。
在某些實施例中,用於該有聲播放裝置的播放方法4還可包含以下步驟:由該有聲播放裝置接收來自於該使用者的一第三指令;以及由該有聲播放裝置根據該第三指令播放該等聲音模型所各自轉換出的複數試聽聲音檔案,以讓該使用者基於該等試聽聲音檔案選擇該等聲音模型中的其中一者作為該目標聲音模型。
在某些實施例中,該等聲音模型中的每一個可包含一音色子 模型,且該音色子模型可包含一音高參數、一語速參數以及一音頻參數。
在某些實施例中,該等聲音模型中的每一個可包含一音色子模型,且該音色子模型可包含一音高參數、一語速參數以及一音頻參數。另外,該等聲音模型中的每一個還可包含一情緒子模型,且用於該有聲播放裝置的播放方法4還可包含:由該有聲播放裝置根據該文本中的語句情緒,使用該情緒子模型調整該音色子模型,其中該語句情緒可包含疑問、開心、生氣、難過。
在某些實施例中,該等聲音模型中的每一個可包含一音色子模型,且該音色子模型可包含一音高參數、一語速參數以及一音頻參數。另外,該等聲音模型中的每一個還可包含一情緒子模型,且用於該有聲播放裝置的播放方法4還可包含:由該有聲播放裝置根據該文本中的語句情緒,使用該情緒子模型調整該音色子模型,其中該語句情緒可包含疑問、開心、生氣、難過;以及:由該有聲播放裝置辨識該文本中的該目標角色以及屬於該目標角色的語句中的語句情緒。非限制地,該目標角色的語句中的語句情緒可以是由該處理器根據該文本中的該目標角色的語句中的至少一情緒特徵詞而確認的。
在某些實施例中,用於該有聲播放裝置的播放方法4的上述全部步驟可以由有聲播放裝置11單獨執行,或由有聲播放裝置11及雲端伺服器13所共同執行。除了上述步驟之外,用於該有聲播放裝置的播放方法4還可以包含與有聲播放裝置11及雲端伺服器13的上述所有實施例相對應的其他步驟。因本發明所屬技術領域中具有通常知識者可根據上文針對有聲播放裝置11及雲端伺服器13的說明而瞭解這些其他步驟,於此不再贅述。
雖然本文揭露了多個實施例,但該等實施例並非用以限制本發明,且在不脫離本發明的精神和範圍的情況下,該等實施例的等效物或方法(例如,對上述實施例進行修改及/或合併)亦是本發明的一部分。本發明的範圍以申請專利範圍所界定的內容為準。
1‧‧‧有聲播放系統
11‧‧‧有聲播放裝置
13‧‧‧雲端伺服器
111‧‧‧處理器
113‧‧‧儲存器
115‧‧‧輸入裝置
117‧‧‧輸出裝置
119‧‧‧收發器
AUD‧‧‧語音
DEF‧‧‧預設資料
INS_1‧‧‧第一指令
TXT‧‧‧文本

Claims (20)

  1. 一種有聲播放裝置,包含:一儲存器,用以儲存一文本;一輸入裝置,用以接收來自一使用者的一第一指令;一處理器,與該輸入裝置及該儲存器電性連接,用以將該文本轉換為一語音,其中該語音包含一目標角色語音;以及一輸出裝置,與該處理器電性連接,用以輸出該語音;其中該處理器更用以:根據該第一指令自複數聲音模型中選擇一目標聲音模型,並將該目標聲音模型指定於該文本中的一目標角色;以及在將該文本轉換為該語音的過程中,根據該目標聲音模型將該文本中屬於該目標角色的語句轉換成該目標角色語音。
  2. 如請求項1所述的有聲播放裝置,其中:該儲存器更用以儲存一預設資料,該預設資料用以記錄該文本中的複數其他角色及該等其他角色對應的複數其他聲音模型,且該等其他聲音模型其中之一係為該等聲音模型其中之一;以及該處理器更用以在將該文本轉換為該語音的過程中,根據該等其他聲音模型將該文本中屬於該等其他角色的語句轉換成複數其他角色語音,且該語音包含該目標角色語音及該等其他角色語音。
  3. 如請求項1所述的有聲播放裝置,其中該等聲音模型的每一者是由該處理器或與該有聲播放裝置耦合的一雲端伺服器從一聲音檔案中萃取複數聲音特徵,並根據一特定性格而建立的,且該等聲音特徵包含該聲音檔案 的一音高特徵、一語速特徵以及一音頻特徵。
  4. 如請求項3所述的有聲播放裝置,其中該聲音檔案是一真人錄音檔案。
  5. 如請求項1所述的有聲播放裝置,其中:該輸入裝置更用以接收來自該使用者的一第二指令;以及該處理器更用以根據該第二指令,標記該等聲音模型的其中之一為一收藏聲音模型。
  6. 如請求項1所述的有聲播放裝置,其中:該輸入裝置更用以接收來自於該使用者的一第三指令;以及該輸出裝置更用以根據該第三指令播放該等聲音模型所各自轉換出的複數試聽聲音檔案,以讓該使用者基於該等試聽聲音檔案選擇該等聲音模型中的其中一者作為該目標聲音模型。
  7. 如請求項1所述的有聲播放裝置,其中該等聲音模型中的每一個包含一音色子模型,且該音色子模型包含一音高參數、一語速參數以及一音頻參數。
  8. 如請求項7所述的有聲播放裝置,其中該等聲音模型中的每一個還包含一情緒子模型,且該處理器還用以根據該文本中的語句情緒,使用該情緒子模型調整該音色子模型,且該語句情緒包含疑問、開心、生氣、難過。
  9. 如請求項8所述的有聲播放裝置,其中該處理器還用以辨識該文本中的該目標角色以及屬於該目標角色的語句中的語句情緒。
  10. 如請求項9所述的有聲播放裝置,其中該目標角色的語句中的語句情緒是由該處理器根據該文本中的該目標角色的語句中的至少一情緒特徵詞而確認的。
  11. 一種用於一有聲播放裝置的播放方法,包含:由該有聲播放裝置接收來自一使用者的一第一指令;由該有聲播放裝置根據該第一指令自複數聲音模型中選擇一目標聲音模型,並將該目標聲音模型指定於該文本中的一目標角色;由該有聲播放裝置將一文本轉換為一語音,其中該語音包含一目標角色語音;以及由該有聲播放裝置輸出該語音;其中,在該有聲播放裝置將該文本轉換為該語音的過程中更包含:由該有聲播放裝置根據該目標聲音模型將該文本中屬於該目標角色的語句轉換成該目標角色語音。
  12. 如請求項11所述用於該有聲播放裝置的播放方法,更包含:由該有聲播放裝置儲存一預設資料,其中該預設資料用以記錄該文本中的複數其他角色及該等其他角色對應的複數其他聲音模型,且該等其他角色的每一者所分別對應的該等其他聲音模型其中之一係為該等聲音模型其中之一;以及由該有聲播放裝置在將該文本轉換為該語音的過程中,根據該預設資料中的該等其他角色分別對應的該等其他聲音模型將該文本中屬於該等其他角色的語句轉換成一其他角色語音,且該語音包含該目標角色語音及該其他角色語音。
  13. 如請求項11所述用於該有聲播放裝置的播放方法,其中該等聲音模型的每一者是由該有聲播放裝置或與該有聲播放裝置耦合的一雲端伺服器從一聲音檔案中萃取複數聲音特徵,並根據一特定性格而建立的,且該等 聲音特徵包含該聲音檔案的一音高特徵、一語速特徵以及一音頻特徵。
  14. 如請求項13所述用於該有聲播放裝置的播放方法,其中該聲音檔案是一真人錄音檔案。
  15. 如請求項11所述用於該有聲播放裝置的播放方法,更包含:由該有聲播放裝置接收該使用者的一第二指令;以及由該有聲播放裝置根據該第二指令,標記該等聲音模型的其中之一為一收藏聲音模型。
  16. 如請求項11所述用於該有聲播放裝置的播放方法,更包含:由該有聲播放裝置接收來自於該使用者的一第三指令;以及由該有聲播放裝置根據該第三指令播放該等聲音模型所各自轉換出的複數試聽聲音檔案,以讓該使用者基於該等試聽聲音檔案選擇該等聲音模型中的其中一者作為該目標聲音模型。
  17. 如請求項11所述用於該有聲播放裝置的播放方法,其中該等聲音模型中的每一個包含一音色子模型,且該音色子模型包含一音高參數、一語速參數以及一音頻參數。
  18. 如請求項17所述用於該有聲播放裝置的播放方法,其中該等聲音模型中的每一個還包含一情緒子模型,且該用於該有聲播放裝置的播放方法還包含:由該有聲播放裝置根據該文本中的語句情緒,使用該情緒子模型調整該音色子模型,且該語句情緒包含疑問、開心、生氣、難過。
  19. 如請求項18所述用於該有聲播放裝置的播放方法,還包含:由該有聲播放裝置辨識該文本中的該目標角色以及屬於該目標角色的語句中的語句情緒。
  20. 如請求項19所述用於該有聲播放裝置的播放方法,其中該目標角色的語句中的語句情緒是由該處理器根據該文本中的該目標角色的語句中的至少一情緒特徵詞而確認的。
TW107138001A 2018-10-26 2018-10-26 有聲播放裝置及其播放方法 TWI685835B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW107138001A TWI685835B (zh) 2018-10-26 2018-10-26 有聲播放裝置及其播放方法
CN201811324524.0A CN111105776A (zh) 2018-10-26 2018-11-08 有声播放装置及其播放方法
US16/207,078 US11049490B2 (en) 2018-10-26 2018-11-30 Audio playback device and audio playback method thereof for adjusting text to speech of a target character using spectral features

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107138001A TWI685835B (zh) 2018-10-26 2018-10-26 有聲播放裝置及其播放方法

Publications (2)

Publication Number Publication Date
TWI685835B TWI685835B (zh) 2020-02-21
TW202016922A true TW202016922A (zh) 2020-05-01

Family

ID=70327123

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107138001A TWI685835B (zh) 2018-10-26 2018-10-26 有聲播放裝置及其播放方法

Country Status (3)

Country Link
US (1) US11049490B2 (zh)
CN (1) CN111105776A (zh)
TW (1) TWI685835B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI777771B (zh) * 2021-09-15 2022-09-11 英業達股份有限公司 行動影音裝置及影音播放控制方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628609A (zh) * 2020-05-09 2021-11-09 微软技术许可有限责任公司 自动音频内容生成
CN111883100B (zh) * 2020-07-22 2021-11-09 马上消费金融股份有限公司 语音转换方法、装置及服务器
CN113010138B (zh) * 2021-03-04 2023-04-07 腾讯科技(深圳)有限公司 文章的语音播放方法、装置、设备及计算机可读存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027568B1 (en) * 1997-10-10 2006-04-11 Verizon Services Corp. Personal message service with enhanced text to speech synthesis
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
CN102479506A (zh) * 2010-11-23 2012-05-30 盛乐信息技术(上海)有限公司 用于网络游戏的语音合成系统及其实现方法
KR101274961B1 (ko) 2011-04-28 2013-06-13 (주)티젠스 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
GB2516965B (en) 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
US9978359B1 (en) * 2013-12-06 2018-05-22 Amazon Technologies, Inc. Iterative text-to-speech with user feedback
US9397972B2 (en) * 2014-01-24 2016-07-19 Mitii, Inc. Animated delivery of electronic messages
CN105095183A (zh) * 2014-05-22 2015-11-25 株式会社日立制作所 文本情感倾向判断方法与系统
CN104123932B (zh) * 2014-07-29 2017-11-07 科大讯飞股份有限公司 一种语音转换系统及方法
CN104298659A (zh) * 2014-11-12 2015-01-21 广州出益信息科技有限公司 一种语义识别方法及装置
US10586535B2 (en) * 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN107391545B (zh) * 2017-05-25 2020-09-18 阿里巴巴集团控股有限公司 一种对用户进行分类的方法、输入方法及装置
CN107340991B (zh) * 2017-07-18 2020-08-25 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107564510A (zh) * 2017-08-23 2018-01-09 百度在线网络技术(北京)有限公司 一种语音虚拟角色管理方法、装置、服务器和存储介质
CN107481735A (zh) * 2017-08-28 2017-12-15 中国移动通信集团公司 一种转换音频发声的方法、服务器及计算机可读存储介质
CN108231059B (zh) * 2017-11-27 2021-06-22 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI777771B (zh) * 2021-09-15 2022-09-11 英業達股份有限公司 行動影音裝置及影音播放控制方法

Also Published As

Publication number Publication date
US20200135169A1 (en) 2020-04-30
CN111105776A (zh) 2020-05-05
TWI685835B (zh) 2020-02-21
US11049490B2 (en) 2021-06-29

Similar Documents

Publication Publication Date Title
TWI685835B (zh) 有聲播放裝置及其播放方法
US11080474B2 (en) Calculations on sound associated with cells in spreadsheets
CN107464555B (zh) 增强包含语音的音频数据的方法、计算装置和介质
US10977299B2 (en) Systems and methods for consolidating recorded content
US10861210B2 (en) Techniques for providing audio and video effects
US12069345B2 (en) Characterizing content for audio-video dubbing and other transformations
US9330657B2 (en) Text-to-speech for digital literature
US20090326948A1 (en) Automated Generation of Audiobook with Multiple Voices and Sounds from Text
EP3824461B1 (en) Method and system for creating object-based audio content
Mitra Introduction to multimedia systems
CN112799630B (zh) 使用网络可寻址设备创建电影化的讲故事体验
US20140249673A1 (en) Robot for generating body motion corresponding to sound signal
TW200901162A (en) Indexing digitized speech with words represented in the digitized speech
CN110019962B (zh) 一种视频文案信息的生成方法及装置
TW201214413A (en) Modification of speech quality in conversations over voice channels
WO2022242706A1 (zh) 基于多模态的反应式响应生成
WO2022041192A1 (zh) 语音消息处理方法、设备及即时通信客户端
Pant Building a Virtual Assistant for Raspberry Pi
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
US20220236945A1 (en) Information processing device, information processing method, and program
WO2022041177A1 (zh) 通信消息处理方法、设备及即时通信客户端
US11182417B1 (en) Method and system for facilitating conversion of content based on user preferences
Kamble et al. Audio Visual Speech Synthesis and Speech Recognition for Hindi Language
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11636131B1 (en) Methods and systems for facilitating conversion of content for transfer and storage of content