TW202006534A - 音頻合成方法、裝置、儲存媒體和計算機設備 - Google Patents
音頻合成方法、裝置、儲存媒體和計算機設備 Download PDFInfo
- Publication number
- TW202006534A TW202006534A TW108123649A TW108123649A TW202006534A TW 202006534 A TW202006534 A TW 202006534A TW 108123649 A TW108123649 A TW 108123649A TW 108123649 A TW108123649 A TW 108123649A TW 202006534 A TW202006534 A TW 202006534A
- Authority
- TW
- Taiwan
- Prior art keywords
- song
- target
- tune
- control model
- audio
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims description 79
- 239000000463 material Substances 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 34
- 238000001308 synthesis method Methods 0.000 claims description 25
- 230000002194 synthesizing effect Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 18
- 230000002452 interceptive effect Effects 0.000 description 12
- 239000011295 pitch Substances 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 241000282376 Panthera tigris Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10527—Audio or video recording; Data buffering arrangements
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/021—Background music, e.g. for video sequences or elevator music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/325—Musical pitch modification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/005—Non-interactive screen display of musical or status data
- G10H2220/011—Lyrics displays, e.g. for karaoke applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/091—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
- G10H2220/101—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
- G10H2220/106—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters using icons, e.g. selecting, moving or linking icons, on-screen symbols, screen regions or segments representing musical elements or parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/471—General musical sound synthesis principles, i.e. sound category-independent synthesis methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Electrophonic Musical Instruments (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Auxiliary Devices For Music (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本發明涉及一種音頻合成方法、裝置、儲存媒體和計算機設備,該方法包括:獲取目標文件;確定透過選擇指令所選中的目標歌曲;獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,所述自製歌曲以所述目標文件為歌詞;以及播放所述自製歌曲。本申請提供的方案提高了音頻播放的效果。
Description
本發明涉及計算機技術領域,特別是涉及一種音頻合成方法、裝置、儲存媒體和計算機設備。
隨著計算機技術的發展,越來越多的計算機設備都具有音頻播放功能,比如智慧手機以及平板電腦等。這樣用戶為了緩解緊張的工作情緒並增加生活樂趣,越來越普遍地選擇在閒暇時聆聽歌曲,或者視頻剪輯過程中使用歌曲等。
目前,用戶通常會從歌曲庫中選擇歌曲來播放。但是,由於版權等問題導致歌曲庫中可選的歌曲數量有限,用戶難以從這些歌曲中選中符合自己期望的歌曲來播放,從而導致音頻播放的用戶體驗較差。
基於此,有必要針對目前音頻播放的用戶體驗較差的問題,提供一種音頻合成方法、裝置、儲存媒體和計算機設備。
一種音頻合成方法,包括:
獲取目標文件;
確定透過選擇指令所選中的目標歌曲;以及
獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,所述自製歌曲以所述目標文件為歌詞;
播放所述自製歌曲。
一種音頻合成裝置,包括:
獲取模組,用於獲取目標文件;
確定模組,用於確定透過選擇指令所選中的目標歌曲,獲取模組還用於獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲;所述自製歌曲以所述目標文件為歌詞;
播放模組,用於播放所述自製歌曲。
一種計算機可讀儲存媒體,所述計算機可讀儲存媒體上儲存有計算機程式,所述計算機程式被處理器執行時,使得所述處理器執行以下步驟:
獲取目標文件;
確定透過選擇指令所選中的目標歌曲;以及
獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,所述自製歌曲以所述目標文件為歌詞;
播放所述自製歌曲。
一種計算機設備,包括儲存器和處理器,所述儲存器中儲存有計算機程式,所述計算機程式被所述處理器執行時,使得所述處理器執行以下步驟:
獲取目標文件;
確定透過選擇指令所選中的目標歌曲;以及
獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,所述自製歌曲以所述目標文件為歌詞;
播放所述自製歌曲。
上述音頻合成方法、裝置、儲存媒體和計算機設備,在獲取到目標文件,並確定透過選擇指令所選中的目標歌曲後,即可獲取到透過曲調控制模型將目標文件作為歌詞,並結合目標歌曲的曲調訊息合成自製歌曲。這樣用戶即可自主選擇歌詞和曲調,自定義符合自己期望的歌曲,以播放符合自己期望的歌曲,極大地提高了音頻播放的效果。
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合圖式及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。
第1圖為本發明一個實施例中音頻合成方法的應用環境圖。參照第1圖,該音頻合成方法應用於音頻合成系統。該音頻合成系統包括終端110和伺服器120。其中,終端110和伺服器120透過網路連接。終端110具體可以是桌上型終端或移動終端,移動終端具體可以手機、平板電腦、筆記型電腦等中的至少一種。伺服器120具體可以是獨立的伺服器,也可以是多個獨立的伺服器組成的伺服器集群。
終端110可用於執行該音頻合成方法。具體地,終端110可獲取目標文件,並確定透過選擇指令所選中的目標歌曲;然後在本地根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲;其中,該自製歌曲以獲取的目標文件為歌詞。終端110便可播放該自製歌曲,還可將該自製歌曲配置為背景音頻,基於該背景音頻錄製視頻。這裡的曲調控制模型可以是由伺服器120訓練完成後下發至終端110的,也可以是終端110在本地訓練得到的。終端110也可將目標文件和目標歌曲的歌曲標識發送至伺服器120,由伺服器120來根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲後反饋至終端110。
第2圖為本發明一個實施例中音頻合成方法的流程示意圖。本實施例主要以該音頻合成方法應用於第1圖中的終端110來舉例說明。參照第2圖,該方法具體包括如下步驟:
S202,獲取目標文件。
其中,目標文件是待作為歌詞合成新歌曲的文件。具體地,目標文件可以是用戶透過終端提供的文件輸入框輸入的文件,也可以是用戶透過選擇指令從終端提供的文件模板列表中選中的文件,還可以是其他計算機設備傳遞的文件。當然,目標文件也可以是其他來源的文件,本發明的實施例中不對目標文件的來源和獲取方式進行限定。
舉例說明,第3圖示出了本發明一個實施例中獲取目標文件的界面示意圖。參考第3圖,該界面包括文件輸入框310和文件模板列表320。用戶可在文件輸入框310中輸入文件311,終端從而獲取用戶在文件輸入框310中輸入的文件311作為目標文件。用戶也可在文件模板列表320中進行文件選擇,終端從而獲取用戶從文件模板列表320中選中的文件321作為目標文件。
S204,確定透過選擇指令所選中的目標歌曲。
其中,目標歌曲是待合成的新歌曲的曲調所選擇的歌曲。比如,用戶想要以“我愛北京天安門”這首歌的曲調作為新歌曲的曲調來合成歌曲,那麼“我愛北京天安門”即為目標歌曲。再比如,用戶想要以“兩隻老虎”這首歌的曲調作為新歌曲的曲調來合成歌曲,那麼“兩隻老虎”即為目標歌曲。
在一個實施例中,終端可提供候選歌曲,並接收用戶對候選歌曲的選擇指令,從而獲取選擇指令所選中的候選歌曲作為目標歌曲。
具體地,終端可在界面上展示候選歌曲,繼而檢測對於展示的候選歌曲的預定義的觸發操作,在檢測到該觸發操作時觸發相應的選擇指令。觸發操作可以是對界面中展示的候選歌曲的觸控操作或者游標點擊操作等。觸發操作也可以是對預定義的物理按鈕的點擊,或者在逐一顯示候選歌曲時觸發的晃動操作。
在另外的實施例中,終端也可從候選歌曲中隨機選取一首歌曲作為目標歌曲。用戶也可從候選歌曲中挑選出與目標文件匹配的歌曲作為目標歌曲。
舉例說明。繼續參考第3圖,該界面還包括候選歌曲列表330。用戶可在候選歌曲列表330中進行歌曲選擇,終端從而獲取用戶從候選歌曲列表330中選中的歌曲331作為目標歌曲。
S206,獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲;自製歌曲以目標文件為歌詞。
其中,曲調控制模型是經過訓練後具有曲調控制能力的機器學習模型。機器學習英文全稱為Machine Learning,簡稱ML。機器學習模型可透過樣本學習具備曲調控制能力。機器學習模型可採用神經網路模型、支持向量機或者邏輯回歸模型等。神經網路模型比如卷積神經網路、反向傳播神經網路、反饋神經網路、徑向基神經網路或者自組織神經網路等。本發明的實施例中對機器學習模型的類型不作限定,能實現曲調控制功能的機器學習模型均可。
曲調訊息是可反映出歌曲的音高隨時間變化的趨勢的資料。曲調有兩個基本要素,即旋律(或稱音高)和節奏。終端可透過一系列音高和相應的時間訊息的對應關係來表示曲調訊息。這裡的時間訊息用於反映節奏,比如音高的開始時間,或者音高的持續時間長度,或者不同音高之間的停頓時間長度等。一個音高代表一個音符。一個音符的聲學參數包括基頻和強度等。
可以理解,歌曲是由歌詞和曲調相結合的一種藝術表現形式。目標歌曲是歌曲演唱者按照歌曲創作者創作的歌詞和曲調演唱得到的音頻資料。本實施例中,透過保持目標歌曲的曲調不變,更換歌詞以合成曲調不變的自製歌曲。當然,本發明實施例中也可根據更換的歌詞調整目標歌曲的曲調來合成自製歌曲。
其中,自製歌曲是自定義歌詞的歌曲。自製歌曲的曲調沿用已有歌曲的曲調。當然,自製歌曲也可以自定義曲調。終端根據原有歌詞和自定義曲調合成自製歌曲,或者根據自定義歌詞和自定義曲調合成自製歌曲。根據自定義歌詞和自定義曲調合成的自製歌曲即為原創歌曲。
在一個實施例中,目標歌曲的曲調訊息可以是從目標歌曲的歌曲檔案中提取的資料。比如,從目標歌曲的歌曲檔案中提取MIDI(Musical Instrument Digital Interface,樂器數位連接埠)檔案作為目標歌曲的曲調訊息。可以理解,由於MIDI檔案本身包括音高和相應的時間訊息,而曲調訊息可以由一系列音高和相應的時間訊息的對應關係來表示,因此MIDI檔案本身所包括的音高和相應的時間訊息就可以構成曲調訊息。
在一個實施例中,目標歌曲的曲調訊息是從歌曲演唱者演唱的音頻資料中提取的。歌曲演唱者演唱的音頻資料可以是攜帶背景伴奏的音頻資料,也可以是清唱的音頻資料,清唱的音頻資料是記錄了歌曲演唱者的演唱聲音但沒有背景音樂的資料,終端可錄製與目標歌曲對應的歌曲演唱者演唱的音頻資料,再從中提取曲調訊息。其中,曲調訊息可以是透過構建好的模型來提取。當然,目標歌曲的曲調訊息也可以透過其他方式得到,在本發明的實施例中不作限定。
具體地,終端在確定透過選擇指令所選中的目標歌曲後,可查詢該選中的目標歌曲的曲調訊息,繼而將目標文件和查詢到的曲調訊息共同輸入曲調控制模型,以透過曲調控制模型輸出以目標文件為歌詞、且以目標歌曲的曲調為曲調的自製歌曲。
在一個實施例中,S206包括:將目標文件和目標歌曲的歌曲標識發送至伺服器;目標文件和歌曲標識,用於指示伺服器在查找到與歌曲標識對應的曲調訊息後,根據訓練完成的曲調控制模型、目標文件和曲調訊息合成自製歌曲;接收伺服器所反饋的自製歌曲。
其中,歌曲標識用於唯一標識一個歌曲。具體地,終端在確定透過選擇指令所選中的目標歌曲後,可將該目標歌曲的歌曲標識和獲取的目標文件一起發送至伺服器。這樣,伺服器在接收到歌曲標識後即查找與該歌曲標識對應的曲調訊息,將該曲調訊息和目標文件輸入曲調控制模型,透過曲調控制模型輸出以目標文件為歌詞、且曲調與目標歌曲一致的自製歌曲。伺服器便可將該自製歌曲反饋至終端。
其中,自製歌曲可以是自製清唱歌曲,也可以是攜帶背景伴奏的自製歌曲。當自製歌曲為自製清唱歌曲時,伺服器直接將自製清唱歌曲反饋至終端,也可將自製清唱歌曲與背景伴奏混音後得到的自製歌曲反饋至終端,也可將兩者均反饋至終端,供終端展示給用戶選擇。
在本實施例中,在伺服器側實現音頻合成的步驟,利用伺服器強大和高速的計算能力,提高了音頻合成的效率。
S208,播放自製歌曲。
具體地,終端在合成自製歌曲或者接收到伺服器反饋的自製歌曲後,可播放該自製歌曲,用戶即可透過收聽播放的自製歌曲,判斷是否符合自己的預期,以在自製歌曲符合自己預期時進行後續的操作。
上述音頻合成方法,在獲取到目標文件,並確定透過選擇指令所選中的目標歌曲後,即可獲取到透過曲調控制模型將目標文件作為歌詞,並結合目標歌曲的曲調訊息合成自製歌曲。這樣用戶即可自主選擇歌詞和曲調,自定義符合自己期望的歌曲,以播放符合自己期望的歌曲,極大地提高了音頻播放的效果。
在一個實施例中,該音頻合成方法還包括:將自製歌曲配置為背景音頻,基於該背景音頻錄製視頻。
具體地,終端可在合成自製歌曲,或者接收到伺服器反饋的自製歌曲後,可自動將該自製歌曲配置為背景音頻,並調用本地的圖像採集設備以準備錄製視頻。終端也可根據用戶觸發的指令將合成的自製歌曲配置為背景音頻,再調用本地的圖像採集設備以準備錄製視頻。這樣,終端可在合成的自製歌曲作為背景音頻下錄製視頻。
在一個具體的實施例中,終端上安裝有視頻錄製應用。終端可根據用戶指令運行該視頻錄製應用,並繼續根據用戶指令進入背景音頻配置界面(例如,可以是如第3圖所示的界面)。終端可再獲取用戶輸入的目標文件以及用戶選取的目標歌曲,進而確定目標歌曲的曲調訊息,將目標文件作為歌詞,並結合確定的曲調訊息合成自製歌曲,終端可再配置合成的制歌曲為背景音頻,進入視頻錄製頁面,並根據用戶指令播放配置的背景音頻並採集圖像錄製視頻。
在本實施例中,用戶自主選擇歌詞和曲調,自定義符合自己期望的歌曲,進而將自定義的歌曲作為背景音頻來錄製視頻,極大地豐富了背景音頻的來源,且提高了視頻錄製的效率。
在一個實施例中,S206包括:查詢與目標歌曲匹配的曲調訊息;將目標文件和曲調訊息輸入曲調控制模型,透過曲調控制模型的隱藏層根據曲調訊息確定目標文件中各字元各自相應的曲調特徵;透過曲調控制模型的輸出層,輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。
具體地,終端確定透過選擇指令所選中的目標歌曲後,查詢事先得到的該目標歌曲的曲調訊息,再將目標文件和曲調訊息共同輸入訓練完成的曲調控制模型,透過曲調控制模型的隱藏層對目標文件中的各字元進行曲調匹配,確定目標文件中的各字元各自相應的曲調特徵,再透過曲調控制模型的輸出層,輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。
在一個實施例中,該音頻合成方法還包括訓練曲調控制模型的步驟。訓練曲調控制模型包括:收集候選歌曲所對應的候選歌曲音頻;根據收集的候選歌曲音頻,確定各候選歌曲所對應的候選歌曲曲調;獲取文件樣本;根據文件樣本和候選歌曲曲調訓練得到所述曲調控制模型。
具體地,終端可對各候選歌曲分別錄製歌曲演唱者演唱的音頻資料,對音頻資料進行曲調特徵標註,得到相應候選歌曲的曲調訊息;或者,獲取各候選歌曲的MIDI檔案作為相應候選歌曲的曲調訊息。終端可再隨機選取字串作為文件樣本,將文件樣本和候選歌曲的曲調訊息共同作為曲調控制模型的訓練樣本,透過曲調控制模型中的各層對文件樣本和候選歌曲進行處理,以輸出以文件樣本為歌詞、且曲調符合輸入的曲調訊息的歌曲樣本。終端可再根據輸出的歌曲樣本與期望結果的差異來調整曲調控制模型的模型參數,及作為輸入的候選歌曲的曲調訊息。終端在調整參數後,可繼續訓練,直至曲調控制模型訓練完成。終端在訓練得到曲調控制模型後,可將該曲調控制模型保存在本地,以在需要使用曲調控制模型時獲取並使用。
在一個實施例中,曲調控制模型輸出的歌曲樣本與期望結果的差異可透過人工判斷。曲調控制模型是對各候選歌曲通用的模型。
在一個實施例中,模型訓練的過程也可以在伺服器上進行,伺服器在訓練完成曲調控制模型後,將曲調控制模型下發至終端使用。
上述實施例中,透過機器學習模型強大的學習能力學習曲調控制的能力,透過訓練完成的曲調控制模型進行語音合成,相較於傳統的語音合成方式,提高了語音合成效率,而且提高了語音合成的準確性。
在一個實施例中,該音頻合成方法還包括:確定目標說話對象。S206包括:查詢與目標說話對象對應的曲調控制模型;根據查詢到的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲;自製歌曲的音色符合目標說話對象。
其中,目標說話對象是目標音色所屬的對象。目標音色是用戶意圖合成的自製歌曲或者自製語音的聲音特徵。目標說話對象可以是虛擬對象,也可以是真實對象。虛擬對象比如遊戲中的虛擬角色或者動漫中的虛擬角色等。真實對象比如現實場景中的歌唱家或者演員等。
可以理解,不同的發聲體由於材料或者結構不同,導致發出的聲音的音色也不同。例如鋼琴、小提琴和人的音色不一樣,發出的聲音也就不一樣。每個人的音色也會不一樣。音色是聲音的特點。不同的音色,即使在同一音高和同一聲音強度下,也有所區別。
需要說明的是,目標說話對象對應的曲調控制模型,是根據由目標說話人演唱的音頻資料訓練得到的曲調控制模型,這樣訓練得到的曲調控制模型所輸出的自製歌曲的音色符合目標說話對象。而前述實施例中所提到的曲調控制模型不限制訓練使用的音頻資料的演唱者,這樣即不對音色作出限定。
具體地,終端可確定透過選擇指令繼續選中的目標說話對象,終端也可獲取目標歌曲的演唱者作為目標說話對象。進一步地,終端再將目標文件和目標歌曲的曲調訊息輸入與目標說話對象對應的曲調控制模型合成自製歌曲。
可以理解,與目標說話對象對應的曲調控制模型,即為與目標說話對象的音色訊息匹配的曲調控制模型,終端將目標文件和曲調訊息共同輸入訓練完成的、且與目標說話對象的音色訊息匹配曲調控制模型,透過曲調控制模型的隱藏層對目標文件中的各字元進行曲調匹配,確定各字元各自相應的曲調特徵,透過曲調控制模型的輸出層,輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的、且符合目標說話對象音色的自製歌曲。
當然,終端在透過模型實現該過程時,可以透過一個模型實現端到端(目標文件到自製歌曲)的轉換,也可以透過多個模型實現,各模型分工合作,各自實現一個功能。比如,先透過音色控制模型將目標文件轉化為音色符合目標說話對象的自製語音,再透過曲調控制模型將自製語音轉化為曲調符合目標歌曲的自製歌曲。這裡的音色控制模型可參考後文描述,這裡的曲調控制模型訓練輸入資料不再是目標文件和曲調訊息,而是音色控制模型輸出的自製語音和曲調訊息。
可以理解,本實施例可以合成透過用戶選擇的聲音唱出用戶自定義歌詞的歌曲。比如某個明星的聲音唱出用戶自製歌曲,以完成歌曲創作。
在一個實施例中,終端還可對獲取的目標文件進行安全檢測,在目標文件符合規定時,繼續後續的操作;在目標文件不符合規定時,則反饋錯誤提示。其中,目標文件的安全檢測步驟也可由伺服器進行。
舉例說明,第4圖本發明示出了一個實施例中合成自製歌曲的原理方塊圖。參考第4圖,伺服器(或終端)可事先收集聲音素材(候選說話對象的音頻資料),對收集的聲音素材進行標註(音節、基頻、聲音強度以及時間訊息等),並根據收集的聲音素材和標註資料訓練模型。這裡的模型可以是音色控制模型,或者通用的曲調控制模型,或者與各候選說話對象對應的曲調控制模型等;根據從聲音素材選取的作為模型輸入的資料和標註資料的不同,可訓練出不同的模型。伺服器(或終端)可保存訓練得到的模型以備使用,伺服器也可將模型下發到終端使用。
終端在獲取目標文件後,可將該目標文件上傳至伺服器,終端還可將用戶選中的目標歌曲或者目標說話對象的標識上傳至伺服器。由伺服器對目標文件進行安全檢查。在安全檢查透過後,在用戶選取的目標說話對象時,透過訓練得到的音色控制模型根據目標文件的音節序列得到目標文件對應的自製語音;或者在用戶選取的目標歌曲時,透過訓練得到的曲調控制模型根據目標歌曲的曲調訊息得到以目標文件為歌詞的自製歌曲,或者在用戶選取目標歌曲和目標說話對象時,透過訓練得到的曲調控制模型根據目標文件的音節序列和目標歌曲的曲調訊息得到以目標文件為歌詞的自製歌曲。伺服器在透過模型得到自製歌曲或者自製語音後下發至終端,或者將自製歌曲或者自製語音與伴奏混音後再下發至終端。終端也可以在本地完成上述過程。
上述實施例中,用戶可自主選擇歌詞、曲調和音色,自定義符合自己期望的歌曲,進而將自定義的歌曲作為背景音頻來錄製視頻,極大地豐富了背景音頻的來源,且提高了視頻錄製的效率。
在一個實施例中,該音頻合成方法還包括:接收選擇指令;當選擇指令選中目標歌曲時,則執行獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲的步驟;當選擇指令選中目標說話對象時,則獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻;音色控制模型與目標說話對象匹配。
其中,選擇指令是根據用戶操作觸發的計算機可讀指令。選擇指令用於對目標進行選取。目標可以是目標歌曲或者目標說話對象。音色控制模型是經過訓練後具有音色控制能力的機器學習模型。
具體地,終端可在界面上提供候選歌曲列表或者候選說話對象列表,繼而檢測對於展示的候選歌曲或者候選說話對象的預定義的觸發操作,在檢測到該觸發操作時觸發相應的選擇指令。終端在確定透過選擇指令指向目標歌曲後,執行獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲的步驟。
終端在確定透過選擇指令指向目標說話對象後,則獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻;其中,音色控制模型與目標說話對象匹配。可以理解,本實施例可以實現,用戶選擇透過某個虛擬角色或者真實人物的聲音說出自己想說的話。
在一個實施例中,獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻,包括:查詢與目標說話對象匹配的音色控制模型;確定目標文件所對應的音節序列;透過音色控制模型根據音節序列合成自製語音;根據自製語音和背景伴奏合成自製音頻。
其中,與目標說話對象匹配的音色控制模型,是根據目標說話對象的音頻資料訓練得到的音色控制模型,透過該音色控制模型輸出的語音的音色與目標說話對象的音色一致。
音節是根據語音的自然屬性劃分出的最小語音單元。以漢語音節舉例說明:ā(啊)只有一個音節,ài(愛)有兩個音節,dāi(呆)則有三個音節等。終端中可儲存有字元與音節的對應關係。
具體地,終端在獲取目標文件後,可根據字元與音節的對應關係,確定目標文件所對應的音節序列終端可,再將目標文件所對應的音節序列輸入訓練完成的音色控制模型,透過音色控制模型的隱藏層確定各音節各自對應的聲學參數,繼而透過音色控制模型的隱藏層根據各音節各自對應的聲學參數,確定各音節各自對應的語音波形單元,從而透過音色控制模型的輸出層根據各音節各自對應的語音波形單元,輸出目標文件所對應的語音波形,得到自製語音。
其中,音色控制模型輸出的自製語音是沒有背景伴奏的目標說話對象的說話聲,終端可將自製語音和背景伴奏混音,得到自製音頻。
在本實施例中,透過機器學習模型強大的學習能力學習音色控制的能力,透過訓練完成的音色控制模型進行語音合成,相較於傳統的語音合成方式,提高了語音合成效率,而且提高了語音合成的準確性。
在一個實施例中,該音頻合成方法還包括訓練與各候選說話對象匹配的音色控制模型的步驟;目標說話對象選擇候選說話對象;訓練與各候選說話對象匹配的音色控制模型,包括:收集各候選說話對象相應的音頻素材;根據各音頻素材確定相應候選說話對象所相應的音節素材序列;採用各候選說話對象所相應的音節素材序列,訓練得到各候選說話對象匹配的音色控制模型。
具體地,終端可收集各候選說話對象相應的音頻素材。對於每個候選說話對象,對該候選說話對象相應的音頻素材進行音頻切分,得到音頻素材對應的音節序列樣本,將音節序列樣本作為輸入資料訓練音色控制模型,以輸出符合該候選說話對象的音色的音頻。終端可再根據輸出的音頻與輸入的音節序列樣本所來自的音頻素材的差異來調整音色控制模型的模型參數。終端在調整參數後,可繼續訓練,直至音色控制模型訓練完成。這樣,終端即對每個候選說話對象分別訓練了相匹配的音色控制模型。
終端在訓練得到音色控制模型後,可將該音色控制模型保存在本地,以在需要使用音色控制模型時獲取並使用。音色控制模型訓練的過程也可在伺服器上進行,伺服器在訓練完成音色控制模型後,將音色控制模型下發至終端使用。
在一個實施例中,終端可對自製語音進行音節劃分,通常一個音節表示一個字元。這樣,終端可調整各音節的時間訊息,如開始時間、持續時間長度及不同音節之間的停頓時間長度等,使得自製語音的節奏符合曲調訊息;終端可再調整各音節的音高,如基頻和聲音強度等,使得自製語音的旋律符合曲調訊息;從而得到以目標文件為歌詞、曲調與目標歌曲一致、且音色與目標說話對象一致的自製歌曲。
上述本實施例中,用戶可以自主選擇歌詞和曲調,自定義符合自己期望的歌曲,進而將自定義的歌曲作為背景音頻來錄製視頻;或者自主選擇目標音色,以得符合自己選中的音色的語音。
在一個實施例中,接收選擇指令,包括:接收對應於虛擬對象附加元素的選擇指令;確定選擇指令選中的虛擬對象附加元素所對應的目標說話對象。該音頻合成方法還包括:將自製音頻配置為背景音頻;將虛擬對象附加元素疊加至採集的圖像得到視頻幀;基於背景音頻和疊加得到的視頻幀生成錄製的視頻。
其中,虛擬對象附加元素是可視內容為虛擬對象形象的資料。虛擬對象附加元素可以用於額外添加在圖像中來修飾圖像內容。比如虛擬對象外掛程式等。虛擬對象附加元素可以是動態資料,比如動態圖片;也可以是靜態資料,比如靜態圖片。
具體地,終端可在界面上提供虛擬對象附加元素列表,繼而檢測對於展示的虛擬對象附加元素的預定義的觸發操作,在檢測到該觸發操作時觸發相應的選擇指令,並選中選擇指令指向的虛擬對象附加元素。終端繼而將選中虛擬對象附加元素所對應的虛擬對象作為目標說話對象。進一步地,終端可獲取目標文件,根據該目標說話對象匹配的音色控制模型,將目標文件轉換為自製音頻,再透過圖像採集裝置採集圖像,將虛擬對象附加元素疊加至採集的圖像得到視頻幀。終端也可渲染得到的視頻幀形成預覽畫面,基於自製音頻錄製視頻。
舉例說明,第5圖示出了本發明一個實施例中錄製視頻的界面示意圖。參考第5圖左圖,該界面包括虛擬對象附加元素列表510和文件輸入框入口520。用戶可在虛擬對象附加元素列表510中進行選擇,終端從而獲取用戶從虛擬對象附加元素列表510中選中的虛擬對象附加元素511,將虛擬對象附加元素所對應的虛擬對象作為目標說話對象。用戶可透過文件輸入框入口520開啟文件輸入框530,如第5圖中圖所示,在文件輸入框中輸入目標文件,或者如第5圖右圖所示,在候選文件模板中選擇目標文件。
在具體的場景下,終端可在視頻錄製應用的拍攝界面上,提供遊戲的英雄外掛程式,並可以讓用戶自定義一段文件,然後就可以用這個英雄的聲音把用戶自定義的文件念出來,達到用戶直接指揮遊戲英雄說出想說的話的效果。在合成自製語音後,在以自製語音為背景音頻錄製視頻時,用戶可以透過對口型表演,從裝扮、聲音和口型等多個方位,達到模仿的效果。
在一個實施例中,接收選擇指令,包括:接收用於進行模擬視頻通話的選擇指令;確定選擇指令選中的目標說話對象所對應的圖片。該音頻合成方法還包括:將自製音頻配置為背景音頻;根據圖片和採集的圖像生成通話視頻幀;基於背景音頻和生成的通話視頻幀生成錄製的視頻。
具體地,終端可在視頻播放界面提供互動入口。終端可根據用戶指令透過該互動入口進行互動界面。終端可在互動界面提供模擬視頻通話入口並,在接收到作用於模擬視頻通話入口的選擇指令後,確定選擇指令選中的目標說話對象為當前播放的視頻中的對象,或者發佈該視頻的用戶;再確定目標說話對象所對應的圖片,根據確定的圖片和採集的圖像生成通話視頻幀,基於背景音頻和生成的通話視頻幀生成與目標說話對象的進行視頻通話的視頻。
終端還可在互動界面提供文件輸入框,獲取輸入的目標文件,根據確定的目標說話對象的音色訊息,將目標文件轉換為自製語音,以該自製語音和生成的通話視頻幀生成錄製的視頻。這樣,即可達到用戶直接可控制通話視頻對象說出用戶想要視頻通話對象對自己說的話的效果。
舉例說明,第6圖示出了本發明一個實施例中提供互動入口的界面示意圖。參考第6圖左圖,該界面包括當前播放視頻的視頻幀610和互動入口620。終端可根據用戶指令透過該互動入口620進行如第6圖右圖所示的互動界面。該互動界面中包括文件輸入框631和模擬視頻通話入口632。用戶可透過模擬視頻通話入口632模擬與視頻幀610中的對象進行視頻通話。用戶可透過文件輸入框631輸入文件,終端則獲取用戶輸入的文件為目標文件,來合成自製語音,將該自製語音在模擬視頻通話時播放,作為模擬視頻通話內容。
第7圖示出了本發明一個實施例中模擬視頻通話的界面示意圖。參考第7圖左圖,為視頻通話邀請界面。視頻通話邀請界面中包括目標說話對象所對應的圖片711。用戶可透過視頻通話接聽入口進行模擬視頻通話。終端也可在渲染視頻通話邀請界面預設時間長度後進入視頻通話界面。再參考第7圖右圖,為視頻通話界面,該界面包括目標說話對象(視頻對象)所對應的圖片721,和採集的圖像722,模擬與目標說話對象進行視頻通話的場景。
在具體的場景下,終端可在視頻錄製應用提供“明星說出你的名字”的玩法。用戶在看視頻時,會出現引導輸入名字的彈窗,根據指引可以輸入2-4個字的文件,輸入的文件會先給到伺服器做安全鑒定,文件符合規定,則將用戶輸入的文件和明星語料庫做語音合成處理,合成好的自製語音返回到終端,終端響應跳轉行為,跳到拍攝頁,加載明星打電話的素材(視頻通話邀請界面)。素材加載成功後,就可以看到明星來電的頁面,明星會在視頻中念出剛輸入的文件(即播放自製語音),同時用戶會以小窗的形式,出現在拍攝界面的右上方,達到跟明星同屏的效果,按下拍攝按鈕,就可以獲得一條獨一無二的明星同屏視頻。
應該理解的是,雖然上述各實施例的流程圖中的各個步驟按照箭頭的指示依次顯示,但是這些步驟並不是必然按照箭頭指示的順序依次執行。除非本文中有明確的說明,這些步驟的執行並沒有嚴格的順序限制,這些步驟可以以其它的順序執行。而且,上述各實施例中的至少一部分步驟可以包括多個子步驟或者多個階段,這些子步驟或者階段並不必然是在同一時刻執行完成,而是可以在不同的時刻執行,這些子步驟或者階段的執行順序也不必然是依次進行,而是可以與其它步驟或者其它步驟的子步驟或者階段的至少一部分輪流或者交替地執行。
如第8圖所示,在一個實施例中,提供了一種音頻合成裝置800。參照第8圖,該音頻合成裝置800包括:獲取模組801、確定模組802和播放模組803。
獲取模組801,用於獲取目標文件。
確定模組802,用於確定透過選擇指令所選中的目標歌曲。
獲取模組801還用於獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲;自製歌曲以目標文件為歌詞。
播放模組803,用於播放自製歌曲。
在一個實施例中,獲取模組801還用於將目標文件和目標歌曲的歌曲標識發送至伺服器;目標文件和歌曲標識,用於指示伺服器在查找到與歌曲標識對應的曲調訊息後,根據訓練完成的曲調控制模型、目標文件和曲調訊息合成自製歌曲;接收伺服器所反饋的自製歌曲。
在一個實施例中,獲取模組801還用於查詢與目標歌曲匹配的曲調訊息;將目標文件和曲調訊息輸入曲調控制模型,透過曲調控制模型的隱藏層根據曲調訊息確定目標文件中各字元各自相應的曲調特徵;透過曲調控制模型的輸出層,輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。
在一個實施例中,音頻合成裝置800還包括訓練模組804用於訓練曲調控制模型;具體用於收集候選歌曲所對應的候選歌曲音頻;根據收集的候選歌曲音頻,確定各候選歌曲所對應的候選歌曲曲調;獲取文件樣本;根據文件樣本和候選歌曲曲調訓練得到曲調控制模型。其中,目標歌曲選自候選歌曲。
在一個實施例中,確定模組802還用於確定目標說話對象;獲取模組801還用於查詢與目標說話對象對應的曲調控制模型;根據查詢到的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲;自製歌曲的音色符合目標說話對象。
如第9圖所示,在一個實施例中,音頻合成裝置800還包括訓練模組804和錄製模組805。
錄製模組805用於將自製歌曲配置為背景音頻;基於背景音頻錄製視頻。
在一個實施例中,獲取模組801還用於接收選擇指令;當選擇指令選中目標歌曲時,獲取模組801還用於獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲;當選擇指令選中目標說話對象時,獲取模組801還用於獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻;音色控制模型與目標說話對象匹配。
在一個實施例中,訓練模組804還用於訓練與各候選說話對象匹配的音色控制模型;具體用於收集各候選說話對象相應的音頻素材;根據各音頻素材確定相應候選說話對象所相應的音節素材序列;採用各候選說話對象所相應的音節素材序列,訓練得到各候選說話對象匹配的音色控制模型。其中,目標說話對象選自候選說話對象。
在一個實施例中,獲取模組801還用於查詢與目標說話對象匹配的音色控制模型;確定目標文件所對應的音節序列;透過音色控制模型根據音節序列合成自製語音;根據自製語音和背景伴奏合成自製音頻。
在一個實施例中,獲取模組801還用於接收對應於虛擬對象附加元素的選擇指令;確定選擇指令選中的虛擬對象附加元素所對應的目標說話對象。錄製模組805還用於將自製音頻配置為背景音頻;將虛擬對象附加元素疊加至採集的圖像得到視頻幀;基於背景音頻和疊加得到的視頻幀生成錄製的視頻。
在一個實施例中,獲取模組801還用於接收用於進行模擬視頻通話的選擇指令;確定選擇指令選中的目標說話對象所對應的圖片。錄製模組805還用於將自製音頻配置為背景音頻;根據圖片和採集的圖像生成通話視頻幀;基於背景音頻和生成的通話視頻幀生成錄製的視頻。
第10圖示出了本發明一個實施例中計算機設備的內部結構圖。該計算機設備具體可以是第1圖中的終端110。如第10圖所示,該計算機設備包括透過系統匯流排連接的處理器、儲存器、網路連接埠、輸入設備和顯示螢幕。其中,儲存器包括非揮發性儲存媒體和記憶體。該計算機設備的非揮發性儲存媒體儲存有操作系統,還可儲存有計算機程式,該計算機程式被處理器執行時,可使得處理器實現音頻合成方法。該記憶體中也可儲存有計算機程式,該計算機程式被處理器執行時,可使得處理器執行音頻合成方法。計算機設備的顯示螢幕可以是液晶顯示螢幕或者電子墨水顯示螢幕等,輸入裝置可以是顯示螢幕上覆蓋的觸摸層,也可以是計算機設備外殼上設置的按鍵、軌跡球或觸控板,也可以是外接的鍵盤、觸控板或滑鼠等。所屬技術領域具有通常知識者可以理解,第10圖中示出的結構,僅僅是與本申請方案相關的部分結構的方塊圖,並不構成對本申請方案所應用於其上的計算機設備的限定,具體的計算機設備可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件佈置。
在一個實施例中,本申請提供的音頻合成裝置可以實現為一種計算機程式的形式,計算機程式可在如第10圖所示的計算機設備上運行,計算機設備的非揮發性儲存媒體可儲存組成該音頻合成裝置的各個程式模組,比如,第8圖所示的獲取模組801、確定模組802、合成模組803、配置模組804和錄製模組805等。各個程式模組組成的計算機程式使得處理器執行本說明書中描述的本申請各個實施例的音頻合成方法中的步驟。
例如,第10圖所示的計算機設備可以透過如第8圖所示的音頻合成裝置800中的獲取模組801獲取目標文件。透過確定模組802確定透過選擇指令所選中的目標歌曲。透過獲取模組801獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲;自製歌曲以目標文件為歌詞。透過播放模組803播放自製歌曲。
在一個實施例中,提供了一種計算機可讀儲存媒體,該計算機可讀儲存媒體上儲存有計算機程式,該計算機程式被處理器執行時,使得處理器執行以下步驟:獲取目標文件;確定透過選擇指令所選中的目標歌曲;獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲;自製歌曲以目標文件為歌詞;播放自製歌曲。
在一個實施例中,獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲,包括:將目標文件和目標歌曲的歌曲標識發送至伺服器;目標文件和歌曲標識,用於指示伺服器在查找到與歌曲標識對應的曲調訊息後,根據訓練完成的曲調控制模型、目標文件和曲調訊息合成自製歌曲;接收伺服器所反饋的自製歌曲。
在一個實施例中,獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲,包括:查詢與目標歌曲匹配的曲調訊息;將目標文件和曲調訊息輸入曲調控制模型,透過曲調控制模型的隱藏層根據曲調訊息確定目標文件中各字元各自相應的曲調特徵;透過曲調控制模型的輸出層,輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:訓練曲調控制模型;其中,目標歌曲選自候選歌曲。訓練曲調控制模型,包括:收集候選歌曲所對應的候選歌曲音頻;根據收集的候選歌曲音頻,確定各候選歌曲所對應的候選歌曲曲調;獲取文件樣本;根據文件樣本和候選歌曲曲調訓練得到曲調控制模型。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:確定目標說話對象。獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲,包括:查詢與目標說話對象對應的曲調控制模型;根據查詢到的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲;自製歌曲的音色符合目標說話對象。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:將自製歌曲配置為背景音頻;基於背景音頻錄製視頻。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:接收選擇指令;當選擇指令選中目標歌曲時,則執行獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲的步驟;當選擇指令選中目標說話對象時,則獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻;音色控制模型與目標說話對象匹配。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:訓練與各候選說話對象匹配的音色控制模型;其中,目標說話對象選自候選說話對象。訓練與各候選說話對象匹配的音色控制模型,包括:收集各候選說話對象相應的音頻素材;根據各音頻素材確定相應候選說話對象所相應的音節素材序列;採用各候選說話對象所相應的音節素材序列,訓練得到各候選說話對象匹配的音色控制模型。
在一個實施例中,獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻,包括:查詢與目標說話對象匹配的音色控制模型;確定目標文件所對應的音節序列;透過音色控制模型根據音節序列合成自製語音;根據自製語音和背景伴奏合成自製音頻。
在一個實施例中,接收選擇指令,包括:接收對應於虛擬對象附加元素的選擇指令;確定選擇指令選中的虛擬對象附加元素所對應的目標說話對象。該計算機程式還使得處理器執行以下步驟:將自製音頻配置為背景音頻;將虛擬對象附加元素疊加至採集的圖像得到視頻幀;基於背景音頻和疊加得到的視頻幀生成錄製的視頻。
在一個實施例中,接收選擇指令,包括:接收用於進行模擬視頻通話的選擇指令;確定選擇指令選中的目標說話對象所對應的圖片。該計算機程式還使得處理器執行以下步驟:將自製音頻配置為背景音頻;根據圖片和採集的圖像生成通話視頻幀;基於背景音頻和生成的通話視頻幀生成錄製的視頻。
在一個實施例中,提供了一種計算機設備,包括儲存器和處理器,儲存器中儲存有計算機程式,計算機程式被處理器執行時,使得處理器執行以下步驟:獲取目標文件;確定透過選擇指令所選中的目標歌曲;獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲;自製歌曲以目標文件為歌詞;播放自製歌曲。
在一個實施例中,獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲,包括:將目標文件和目標歌曲的歌曲標識發送至伺服器;目標文件和歌曲標識,用於指示伺服器在查找到與歌曲標識對應的曲調訊息後,根據訓練完成的曲調控制模型、目標文件和曲調訊息合成自製歌曲;接收伺服器所反饋的自製歌曲。
在一個實施例中,獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲,包括:查詢與目標歌曲匹配的曲調訊息;將目標文件和曲調訊息輸入曲調控制模型,透過曲調控制模型的隱藏層根據曲調訊息確定目標文件中各字元各自相應的曲調特徵;透過曲調控制模型的輸出層,輸出將目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:訓練曲調控制模型;其中,目標歌曲選自候選歌曲。訓練曲調控制模型,包括:收集候選歌曲所對應的候選歌曲音頻;根據收集的候選歌曲音頻,確定各候選歌曲所對應的候選歌曲曲調;獲取文件樣本;根據文件樣本和候選歌曲曲調訓練得到曲調控制模型。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:確定目標說話對象。獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲,包括:查詢與目標說話對象對應的曲調控制模型;根據查詢到的曲調控制模型、目標文件和目標歌曲的曲調訊息合成自製歌曲;自製歌曲的音色符合目標說話對象。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:將自製歌曲配置為背景音頻;基於背景音頻錄製視頻。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:接收選擇指令;當選擇指令選中目標歌曲時,則執行獲取根據訓練完成的曲調控制模型、目標文件和目標歌曲的曲調訊息所合成的自製歌曲的步驟;當選擇指令選中目標說話對象時,則獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻;音色控制模型與目標說話對象匹配。
在一個實施例中,該計算機程式還使得處理器執行以下步驟:訓練與各候選說話對象匹配的音色控制模型;其中,目標說話對象選自候選說話對象。訓練與各候選說話對象匹配的音色控制模型,包括:收集各候選說話對象相應的音頻素材;根據各音頻素材確定相應候選說話對象所相應的音節素材序列;採用各候選說話對象所相應的音節素材序列,訓練得到各候選說話對象匹配的音色控制模型。
在一個實施例中,獲取根據訓練完成的音色控制模型和目標文件所合成的自製音頻,包括:查詢與目標說話對象匹配的音色控制模型;確定目標文件所對應的音節序列;透過音色控制模型根據音節序列合成自製語音;根據自製語音和背景伴奏合成自製音頻。
在一個實施例中,接收選擇指令,包括:接收對應於虛擬對象附加元素的選擇指令;確定選擇指令選中的虛擬對象附加元素所對應的目標說話對象。該計算機程式還使得處理器執行以下步驟:將自製音頻配置為背景音頻;將虛擬對象附加元素疊加至採集的圖像得到視頻幀;基於背景音頻和疊加得到的視頻幀生成錄製的視頻。
在一個實施例中,接收選擇指令,包括:接收用於進行模擬視頻通話的選擇指令;確定選擇指令選中的目標說話對象所對應的圖片。該計算機程式還使得處理器執行以下步驟:將自製音頻配置為背景音頻;根據圖片和採集的圖像生成通話視頻幀;基於背景音頻和生成的通話視頻幀生成錄製的視頻。
所屬技術領域具有通常知識者可以理解實現上述實施例方法中的全部或部分流程,是可以透過計算機程式來指令相關的硬體來完成,所述的程式可儲存於一非揮發性計算機可讀取儲存媒體中,該程式在執行時,可包括如上述各方法的實施例的流程。其中,本申請所提供的各實施例中所使用的對儲存器、儲存、資料庫或其它媒體的任何引用,均可包括非揮發性和/或揮發性記憶體。非揮發性記憶體可包括唯讀記憶體(ROM)、可編程ROM(PROM)、電可編程ROM(EPROM)、電可擦除可編程ROM(EEPROM)或快閃記憶體。揮發性記憶體可包括隨機存取記憶體(RAM)或者外部高速緩沖記憶體。作為說明而非局限,RAM以多種形式可得,諸如靜態RAM(SRAM)、動態RAM(DRAM)、同步DRAM(SDRAM)、雙資料率SDRAM(DDRSDRAM)、增強型SDRAM(ESDRAM)、同步鏈路(Synchlink) DRAM(SLDRAM)、記憶體匯流排(Rambus)直接RAM(RDRAM)、直接記憶體匯流排(Rambus)動態RAM(DRDRAM)、以及記憶體匯流排(Rambus)動態RAM(RDRAM)等。
以上實施例的各技術特徵可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術特徵所有可能的組合都進行描述,然而,只要這些技術特徵的組合不存在矛盾,都應當認為是本說明書記載的範圍。
以上實施例僅表達了本發明的幾種實施方式,其描述較為具體和詳細,但並不能因此而理解為對本發明專利範圍的限制。應當指出的是,對於所屬技術領域具有通常知識者來說,在不脫離本發明構思的前提下,還可以做出各種變形和改進,這些都屬本發明的保護範圍。因此,本發明專利的保護範圍應以所附申請專利範圍為準。
110‧‧‧終端
120‧‧‧伺服器
310‧‧‧文件輸入框
311‧‧‧文件
320‧‧‧文件模板列表
321‧‧‧文件
330‧‧‧候選歌曲列表
331‧‧‧歌曲
510‧‧‧虛擬對象附加元素列表
511‧‧‧虛擬對象附加元素
520‧‧‧文件輸入框入口
530‧‧‧文件輸入框
610‧‧‧視頻幀
620‧‧‧互動入口
631‧‧‧文件輸入框
632‧‧‧模擬視頻通話入口
711‧‧‧圖片
721‧‧‧圖片
722‧‧‧採集的圖像
800‧‧‧音頻合成裝置
801‧‧‧獲取模組
802‧‧‧確定模組
803‧‧‧播放模組
804‧‧‧錄製模組
805‧‧‧訓練模組
S202~S208‧‧‧步驟
[第1圖]為本發明一個實施例中音頻合成方法的應用環境圖;
[第2圖]為本發明一個實施例中音頻合成方法的流程示意圖;
[第3圖]為本發明一個實施例中獲取目標文件的界面示意圖;
[第4圖]為本發明一個實施例中合成自製歌曲的原理方塊圖;
[第5圖]為本發明一個實施例中錄製視頻的界面示意圖;
[第6圖]為本發明一個實施例中提供互動入口的界面示意圖;
[第7圖]為本發明一個實施例中模擬視頻通話的界面示意圖;
[第8圖]為本發明一個實施例中音頻合成裝置的模組結構圖;
[第9圖]為本發明另一個實施例中音頻合成裝置的模組結構圖;
[第10圖]為本發明一個實施例中計算機設備的內部結構圖。
S202~S208‧‧‧步驟
Claims (15)
- 一種音頻合成方法,包括: 獲取目標文件; 確定透過選擇指令所選中的目標歌曲; 獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,所述自製歌曲以所述目標文件為歌詞;以及 播放所述自製歌曲。
- 如請求項1所述的方法,其中所述獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,包括: 將所述目標文件和所述目標歌曲的歌曲標識發送至伺服器,所述目標文件和所述歌曲標識用於指示伺服器在查找到與所述歌曲標識對應的曲調訊息後,根據訓練完成的曲調控制模型、所述目標文件和所述曲調訊息合成自製歌曲;以及 接收所述伺服器所反饋的自製歌曲。
- 如請求項1所述的方法,其中所述獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,包括: 查詢與所述目標歌曲匹配的曲調訊息; 將所述目標文件和所述曲調訊息輸入曲調控制模型,透過所述曲調控制模型的隱藏層根據所述曲調訊息確定所述目標文件中各字元各自相應的曲調特徵;以及 透過所述曲調控制模型的輸出層,輸出將所述目標文件中各字元按照相應的曲調特徵進行語音合成得到的自製歌曲。
- 如請求項1所述的方法,還包括: 訓練曲調控制模型的步驟,所述目標歌曲選自候選歌曲, 所述訓練曲調控制模型,包括: 收集候選歌曲所對應的候選歌曲音頻; 根據收集的候選歌曲音頻,確定各候選歌曲所對應的候選歌曲曲調; 獲取文件樣本;以及 根據所述文件樣本和所述候選歌曲曲調訓練得到所述曲調控制模型。
- 如請求項1所述的方法,還包括: 確定目標說話對象, 所述獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,包括: 查詢與所述目標說話對象對應的曲調控制模型;以及 根據查詢到的所述曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息合成自製歌曲,所述自製歌曲的音色符合所述目標說話對象。
- 如請求項1至5中任一項所述的方法,還包括: 將所述自製歌曲配置為背景音頻;以及 基於所述背景音頻錄製視頻。
- 如請求項1所述的方法,還包括: 接收選擇指令; 當所述選擇指令選中目標歌曲時,則執行所述獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲的步驟;以及 當所述選擇指令選中目標說話對象時,則獲取根據訓練完成的音色控制模型和所述目標文件所合成的自製音頻,所述音色控制模型與所述目標說話對象匹配。
- 如請求項7所述的方法,還包括: 訓練與各候選說話對象匹配的音色控制模型的步驟,所述目標說話對象選自候選說話對象, 所述訓練與各候選說話對象匹配的音色控制模型,包括: 收集各候選說話對象相應的音頻素材; 根據各音頻素材確定相應候選說話對象所相應的音節素材序列;以及 採用各候選說話對象所相應的音節素材序列,訓練得到各候選說話對象匹配的音色控制模型。
- 如請求項7所述的方法,其中所述獲取根據訓練完成的音色控制模型和所述目標文件所合成的自製音頻,包括: 查詢與所述目標說話對象匹配的音色控制模型; 確定所述目標文件所對應的音節序列; 透過所述音色控制模型根據所述音節序列合成自製語音;以及 根據所述自製語音和背景伴奏合成自製音頻。
- 如請求項7所述的方法,其中所述接收選擇指令,包括: 接收對應於虛擬對象附加元素的選擇指令;以及 確定所述選擇指令選中的虛擬對象附加元素所對應的目標說話對象, 所述方法還包括: 將所述自製音頻配置為背景音頻; 將所述虛擬對象附加元素疊加至採集的圖像得到視頻幀;以及 基於所述背景音頻和疊加得到的所述視頻幀生成錄製的視頻。
- 如請求項6所述的方法,其中所述接收選擇指令,包括: 接收用於進行模擬視頻通話的選擇指令;以及 確定所述選擇指令選中的目標說話對象所對應的圖片, 所述方法還包括: 將所述自製音頻配置為背景音頻; 根據所述圖片和採集的圖像生成通話視頻幀;以及 基於所述背景音頻和生成的所述通話視頻幀生成錄製的視頻。
- 一種音頻合成裝置,包括: 獲取模組,用於獲取目標文件; 確定模組,用於確定透過選擇指令所選中的目標歌曲,獲取模組還用於獲取根據訓練完成的曲調控制模型、所述目標文件和所述目標歌曲的曲調訊息所合成的自製歌曲,所述自製歌曲以所述目標文件為歌詞;以及 播放模組,用於播放所述自製歌曲。
- 如請求項12所述的裝置,其中所述獲取模組還用於接收選擇指令,當所述選擇指令選中目標說話對象時,獲取模組還用於獲取根據訓練完成的音色控制模型和所述目標文件所合成的自製音頻,所述音色控制模型與所述目標說話對象匹配。
- 一種計算機可讀儲存媒體,所述計算機可讀儲存媒體上儲存有計算機程式,所述計算機程式被處理器執行時,使得所述處理器執行如請求項1至11中任一項所述的方法。
- 一種計算機設備,包括儲存器和處理器,所述儲存器中儲存有計算機程式,所述計算機程式被所述處理器執行時,使得所述處理器執行如請求項1至11中任一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810730283.3 | 2018-07-05 | ||
CN201810730283.3A CN110189741B (zh) | 2018-07-05 | 2018-07-05 | 音频合成方法、装置、存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202006534A true TW202006534A (zh) | 2020-02-01 |
TWI774967B TWI774967B (zh) | 2022-08-21 |
Family
ID=67713854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108123649A TWI774967B (zh) | 2018-07-05 | 2019-07-04 | 音頻合成方法、裝置、儲存媒體和計算機設備 |
Country Status (7)
Country | Link |
---|---|
US (1) | US12046225B2 (zh) |
EP (1) | EP3736806A4 (zh) |
JP (1) | JP7317850B2 (zh) |
KR (1) | KR102500087B1 (zh) |
CN (1) | CN110189741B (zh) |
TW (1) | TWI774967B (zh) |
WO (1) | WO2020007148A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI838509B (zh) * | 2020-04-06 | 2024-04-11 | 陳樟卿 | 用於現場演奏之觸控式伴奏混音系統 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110910917B (zh) * | 2019-11-07 | 2021-08-31 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频片段的拼接方法及装置 |
CN111161695B (zh) * | 2019-12-26 | 2022-11-04 | 北京百度网讯科技有限公司 | 歌曲生成方法和装置 |
CN111415399B (zh) * | 2020-03-19 | 2023-12-22 | 北京奇艺世纪科技有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN111429881B (zh) * | 2020-03-19 | 2023-08-18 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
CN111445892B (zh) * | 2020-03-23 | 2023-04-14 | 北京字节跳动网络技术有限公司 | 歌曲生成方法、装置、可读介质及电子设备 |
CN111477199B (zh) * | 2020-04-02 | 2021-11-30 | 北京瑞迪欧文化传播有限责任公司 | 一种嵌入式音乐控制系统 |
CN111653265B (zh) * | 2020-04-26 | 2023-08-18 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111583972B (zh) * | 2020-05-28 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 歌唱作品生成方法、装置及电子设备 |
CN111757163B (zh) * | 2020-06-30 | 2022-07-01 | 北京字节跳动网络技术有限公司 | 视频播放的控制方法、装置、电子设备和存储介质 |
CN111899706B (zh) * | 2020-07-30 | 2024-08-23 | 广州酷狗计算机科技有限公司 | 音频制作方法、装置、设备及存储介质 |
CN112331222B (zh) * | 2020-09-23 | 2024-07-26 | 北京捷通华声科技股份有限公司 | 一种转换歌曲音色的方法、系统、设备及存储介质 |
CN112509538A (zh) * | 2020-12-18 | 2021-03-16 | 咪咕文化科技有限公司 | 音频处理方法、装置、终端及存储介质 |
CN113223486B (zh) * | 2021-04-29 | 2023-10-17 | 北京灵动音科技有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN113436601A (zh) * | 2021-05-27 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 音频合成方法、装置、电子设备及存储介质 |
CN113591489B (zh) * | 2021-07-30 | 2023-07-18 | 中国平安人寿保险股份有限公司 | 语音交互方法、装置及相关设备 |
CN113870818A (zh) * | 2021-09-14 | 2021-12-31 | 杭州网易云音乐科技有限公司 | 歌曲和弦编配模型的训练方法、装置、介质和计算设备 |
CN113946254B (zh) * | 2021-11-01 | 2023-10-20 | 北京字跳网络技术有限公司 | 内容显示方法、装置、设备及介质 |
CN113763924B (zh) * | 2021-11-08 | 2022-02-15 | 北京优幕科技有限责任公司 | 声学深度学习模型训练方法、语音生成方法及设备 |
CN113920979B (zh) * | 2021-11-11 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 语音数据的获取方法、装置、设备及计算机可读存储介质 |
CN117012169A (zh) * | 2022-04-29 | 2023-11-07 | 脸萌有限公司 | 一种音乐生成方法、装置、系统以及存储介质 |
CN117012170A (zh) * | 2022-04-29 | 2023-11-07 | 脸萌有限公司 | 一种音乐生成方法、装置、系统及存储介质 |
CN117059052A (zh) * | 2022-05-07 | 2023-11-14 | 脸萌有限公司 | 歌曲生成方法、装置、系统及存储介质 |
CN116153338B (zh) * | 2023-04-23 | 2023-06-20 | 深圳市声菲特科技技术有限公司 | 一种调音参数的加载方法、装置、设备及存储介质 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9711339D0 (en) * | 1997-06-02 | 1997-07-30 | Isis Innovation | Method and apparatus for reproducing a recorded voice with alternative performance attributes and temporal properties |
JP2002132281A (ja) * | 2000-10-26 | 2002-05-09 | Nippon Telegr & Teleph Corp <Ntt> | 歌声メッセージ生成・配信方法及びその装置 |
JP2003195876A (ja) * | 2001-12-26 | 2003-07-09 | Funai Electric Co Ltd | カラオケシステム |
TW200515186A (en) * | 2003-10-24 | 2005-05-01 | Inventec Multimedia & Telecom | System and method for integrating multimedia data for editing and playing |
JP2005321706A (ja) * | 2004-05-11 | 2005-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 電子書籍の再生方法及びその装置 |
KR100731761B1 (ko) * | 2005-05-02 | 2007-06-22 | 주식회사 싸일런트뮤직밴드 | 인터넷을 통한 음악제작 시스템 및 방법 |
TWI394142B (zh) * | 2009-08-25 | 2013-04-21 | Inst Information Industry | 歌聲合成系統、方法、以及裝置 |
CN101789255A (zh) * | 2009-12-04 | 2010-07-28 | 康佳集团股份有限公司 | 一种基于手机原有歌曲更改歌词的处理方法及手机 |
US20110219940A1 (en) * | 2010-03-11 | 2011-09-15 | Hubin Jiang | System and method for generating custom songs |
JP5598056B2 (ja) * | 2010-03-30 | 2014-10-01 | ヤマハ株式会社 | カラオケ装置およびカラオケ曲紹介プログラム |
JP5974436B2 (ja) * | 2011-08-26 | 2016-08-23 | ヤマハ株式会社 | 楽曲生成装置 |
JP6083764B2 (ja) * | 2012-12-04 | 2017-02-22 | 国立研究開発法人産業技術総合研究所 | 歌声合成システム及び歌声合成方法 |
CN103117057B (zh) * | 2012-12-27 | 2015-10-21 | 安徽科大讯飞信息科技股份有限公司 | 一种特定人语音合成技术在手机漫画配音中的应用方法 |
CN107076631A (zh) * | 2014-08-22 | 2017-08-18 | 爵亚公司 | 用于将文本消息自动地转换成音乐作品的系统和方法 |
US9305530B1 (en) * | 2014-09-30 | 2016-04-05 | Amazon Technologies, Inc. | Text synchronization with audio |
JP6728754B2 (ja) * | 2015-03-20 | 2020-07-22 | ヤマハ株式会社 | 発音装置、発音方法および発音プログラム |
JP6622505B2 (ja) * | 2015-08-04 | 2019-12-18 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
CN105068748A (zh) * | 2015-08-12 | 2015-11-18 | 上海影随网络科技有限公司 | 触屏智能设备的摄像头实时画面中用户界面交互方法 |
CN106131475A (zh) * | 2016-07-28 | 2016-11-16 | 努比亚技术有限公司 | 一种视频处理方法、装置及终端 |
CN107799119A (zh) * | 2016-09-07 | 2018-03-13 | 中兴通讯股份有限公司 | 音频制作方法、装置及系统 |
CN106652984B (zh) * | 2016-10-11 | 2020-06-02 | 张文铂 | 一种使用计算机自动创作歌曲的方法 |
CN106971703A (zh) * | 2017-03-17 | 2017-07-21 | 西北师范大学 | 一种基于hmm的歌曲合成方法及装置 |
US10818308B1 (en) * | 2017-04-28 | 2020-10-27 | Snap Inc. | Speech characteristic recognition and conversion |
US11587541B2 (en) * | 2017-06-21 | 2023-02-21 | Microsoft Technology Licensing, Llc | Providing personalized songs in automated chatting |
US11475867B2 (en) * | 2019-12-27 | 2022-10-18 | Spotify Ab | Method, system, and computer-readable medium for creating song mashups |
WO2023058173A1 (ja) * | 2021-10-06 | 2023-04-13 | ヤマハ株式会社 | 音制御装置およびその制御方法、電子楽器、プログラム |
CN115346503A (zh) * | 2022-08-11 | 2022-11-15 | 杭州网易云音乐科技有限公司 | 歌曲创作方法、歌曲创作装置、存储介质及电子设备 |
-
2018
- 2018-07-05 CN CN201810730283.3A patent/CN110189741B/zh active Active
-
2019
- 2019-05-31 KR KR1020207024631A patent/KR102500087B1/ko active IP Right Grant
- 2019-05-31 WO PCT/CN2019/089678 patent/WO2020007148A1/zh unknown
- 2019-05-31 JP JP2020549777A patent/JP7317850B2/ja active Active
- 2019-05-31 EP EP19830395.0A patent/EP3736806A4/en active Pending
- 2019-07-04 TW TW108123649A patent/TWI774967B/zh active
-
2020
- 2020-08-11 US US16/990,869 patent/US12046225B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI838509B (zh) * | 2020-04-06 | 2024-04-11 | 陳樟卿 | 用於現場演奏之觸控式伴奏混音系統 |
Also Published As
Publication number | Publication date |
---|---|
US12046225B2 (en) | 2024-07-23 |
TWI774967B (zh) | 2022-08-21 |
US20200372896A1 (en) | 2020-11-26 |
JP2021516787A (ja) | 2021-07-08 |
CN110189741B (zh) | 2024-09-06 |
CN110189741A (zh) | 2019-08-30 |
JP7317850B2 (ja) | 2023-07-31 |
EP3736806A4 (en) | 2021-10-06 |
EP3736806A1 (en) | 2020-11-11 |
KR102500087B1 (ko) | 2023-02-16 |
WO2020007148A1 (zh) | 2020-01-09 |
KR20200115588A (ko) | 2020-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI774967B (zh) | 音頻合成方法、裝置、儲存媒體和計算機設備 | |
US10657934B1 (en) | Enhancements for musical composition applications | |
CN108806656B (zh) | 歌曲的自动生成 | |
US11037541B2 (en) | Method of composing a piece of digital music using musical experience descriptors to indicate what, when and how musical events should appear in the piece of digital music automatically composed and generated by an automated music composition and generation system | |
CN108806655B (zh) | 歌曲的自动生成 | |
US12051394B2 (en) | Automated midi music composition server | |
JP2018537727A5 (zh) | ||
US10325581B2 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
CN106708894B (zh) | 电子书配置背景音乐的方法和装置 | |
JP2010518459A (ja) | 配布オーディオファイル編集用ウェブポータル | |
WO2020000751A1 (zh) | 自动作曲方法、装置、计算机设备和存储介质 | |
JP2017513049A (ja) | カラオケ曲の演奏に関するフィードバックをユーザに提供する方法 | |
US10497347B2 (en) | Singing voice edit assistant method and singing voice edit assistant device | |
US11366851B2 (en) | Karaoke query processing system | |
JP6452229B2 (ja) | カラオケ効果音設定システム | |
CN111316350A (zh) | 用于自动生成媒体的系统和方法 | |
KR100664677B1 (ko) | 휴대용 단말기에서의 음악 컨텐츠 생성 방법 | |
CN113066454A (zh) | 自定义音色的midi音乐编辑播放方法、装置、系统及介质 | |
JP2011133882A (ja) | 音声付映像合成システム及び音声付映像合成方法 | |
CN114125543B (zh) | 弹幕处理方法、计算设备及弹幕处理系统 | |
CN114974184A (zh) | 音频制作方法、装置、终端设备及可读存储介质 | |
KR20140054810A (ko) | 반주음악 제작 서비스 시스템 및 그 방법, 그리고 이에 적용되는 장치 | |
Furduj | Virtual orchestration: a film composer's creative practice | |
CN112825244A (zh) | 配乐音频生成方法和装置 | |
Bacot et al. | The creative process of sculpting the air by Jesper Nordin: conceiving and performing a concerto for conductor with live electronics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |