KR102500087B1 - 오디오 합성 방법, 저장 매체 및 컴퓨터 장비 - Google Patents

오디오 합성 방법, 저장 매체 및 컴퓨터 장비 Download PDF

Info

Publication number
KR102500087B1
KR102500087B1 KR1020207024631A KR20207024631A KR102500087B1 KR 102500087 B1 KR102500087 B1 KR 102500087B1 KR 1020207024631 A KR1020207024631 A KR 1020207024631A KR 20207024631 A KR20207024631 A KR 20207024631A KR 102500087 B1 KR102500087 B1 KR 102500087B1
Authority
KR
South Korea
Prior art keywords
tune
song
target
control model
audio
Prior art date
Application number
KR1020207024631A
Other languages
English (en)
Other versions
KR20200115588A (ko
Inventor
링루이 추이
이 루
이팅 저우
신완 우
이둥 량
샤오 메이
치항 펑
팡샤오 왕
후이푸 장
상전 정
러 위
성페이 샤
징쉬안 왕
란 장
이판 궈
전윈 장
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20200115588A publication Critical patent/KR20200115588A/ko
Application granted granted Critical
Publication of KR102500087B1 publication Critical patent/KR102500087B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences or elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/106Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters using icons, e.g. selecting, moving or linking icons, on-screen symbols, screen regions or segments representing musical elements or parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

오디오 합성 방법, 저장 매체 및 컴퓨터 장비, 상기 방법은 대상 텍스트를 취득하는 단계(S202); 선택 명령에 의해 선택된 대상 곡을 결정하는 단계(S204); 곡조 제어 모델, 대상 텍스트 및 대상 곡의 곡조 정보에 따라 합성된 맞춤화된 곡을 취득하는 단계 - 상기 맞춤화된 곡은 가사로서 대상 텍스트를 사용함 - (S206); 및 맞춤화된 곡을 재생하는 단계(S208)를 포함한다. 전술한 해결책은 오디오 재생 효과를 개선시킨다.

Description

오디오 합성 방법, 저장 매체 및 컴퓨터 장비
관련 출원
본원은 그 전체가 본원에 참조로 포함된 "AUDIO SYNTHESIS METHOD AND APPARATUS, STORAGE MEDIUM, AND COMPUTER DEVICE"라고 하는, 2018년 7월 5일자 출원된 중국 특허 출원 번호 201810730283.3호를 우선권 주장한다.
본원은 컴퓨터 기술들의 분야에 관한 것으로, 특히, 오디오 합성 방법, 저장 매체, 및 컴퓨터 디바이스에 관한 것이다.
컴퓨터 기술들의 발달로, 스마트폰들 및 태블릿 컴퓨터들과 같은 증가하는 양의 컴퓨터 디바이스들은 오디오 재생 기능을 갖는다. 이 경우에, 사용자들이 작업 관련 스트레스를 감소시키고 생활의 재미를 더 많이 즐기기 위해 레저 시간에 노래들을 듣기를 선택하거나 비디오들 등을 찍기 위해 배경 오디오로서 노래들을 사용하는 것은 점점 더 인기가 더해지고 있다.
현재, 사용자는 일반적으로 재생을 위해 곡 라이브러리로부터 곡을 선택한다. 그러나, 저작권 문제들 등으로 제한된 양의 곡들이 곡 라이브러리에서 선택가능하다. 결과적으로, 사용자가 이들 곡으로부터 만족할만한 노래를 선택하기가 어려워서, 비교적 빈약한 오디오 재생 효과를 야기한다.
본원의 실시예들은 오디오 재생 효과를 향상시키기 위해, 오디오 합성 방법, 저장 매체, 및 컴퓨터 디바이스를 제공한다. 기술적 해결책들은 다음과 같다:
한 양태에 따르면,
오디오 합성 방법은 프로세서 및 프로세서에 의해 실행될 복수의 프로그램을 저장하는 메모리를 갖는 컴퓨터 디바이스에서 수행되고, 상기 방법은
대상 텍스트를 획득하는 단계;
선택 명령에 따라 대상 곡을 결정하는 단계;
곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계 - 대상 텍스트는 자작곡의 가사로서 사용됨 -; 및
자작곡을 재생하는 단계
를 포함한다.
한 양태에 따르면,
대상 텍스트를 획득하도록 구성된 획득 모듈;
선택 명령에 따라 대상 곡을 결정하도록 구성된 결정 모듈 - 획득 모듈은 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하도록 추가로 구성되고, 대상 텍스트는 자작곡의 가사로서 사용됨 -; 및
자작곡을 재생하도록 구성된 재생 모듈
을 포함하는 오디오 합성 장치가 제공된다.
한 양태에 따르면, 복수의 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체가 제공되고, 컴퓨터 프로그램들은 컴퓨터 디바이스의 프로세서에 의해 실행될 때, 컴퓨터 디바이스로 하여금 오디오 합성 방법을 수행하게 한다.
삭제
삭제
삭제
삭제
한 양태에 따르면, 메모리 및 프로세서를 포함하는 컴퓨터 디바이스가 제공되고, 메모리는 복수의 컴퓨터 프로그램을 저장하고, 컴퓨터 프로그램들은 프로세서에 의해 실행될 때, 컴퓨터 디바이스로 하여금 오디오 합성 방법을 수행하게 한다.
삭제
삭제
삭제
삭제
도 1은 실시예에 따른 오디오 합성 방법의 적용 환경의 도면이다.
도 2는 실시예에 따른 오디오 합성 방법의 개략적 플로우차트이다.
도 3은 실시예에 따른 대상 텍스트를 획득하기 위한 인터페이스의 개략도이다.
도 4는 실시예에 따른 자작곡을 합성하는 원리의 블록도이다.
도 5는 실시예에 따른 비디오를 기록하기 위한 인터페이스의 개략도이다.
도 6은 실시예에 따른 대화형 포털을 제공하기 위한 인터페이스의 개략도이다.
도 7은 실시예에 따른 비디오 콜을 시뮬레이트하기 위한 인터페이스의 개략도이다.
도 8은 실시예에 따른 오디오 합성 장치의 모듈러 구조의 도면이다.
도 9는 또 하나의 실시예에 따른 오디오 합성 장치의 모듈러 구조의 도면이다.
도 10은 실시예에 따른 컴퓨터 디바이스의 내부 구조의 도면이다.
본원의 목적들, 기술적 해결책들, 및 장점들을 더 분명하고 더 이해할 수 있게 하기 위해, 다음에 첨부 도면들 및 실시예들을 참조하여 본원을 상세히 추가로 설명한다. 본원에 설명된 특정한 실시예들은 단지 본원을 설명하기 위해 사용되고 본원을 제한하려는 것이 아니라는 것을 이해하여야 한다.
도 1은 실시예에 따른 오디오 합성 방법의 적용 환경의 도면이다. 도 1을 참조하면, 오디오 합성 방법은 오디오 합성 시스템에 적용된다. 오디오 합성 시스템은 단말기(110) 및 서버(120)를 포함한다. 단말기(110)와 서버(120)는 네트워크에 의해 접속된다. 단말기(110)는 구체적으로 데스크탑 단말기 또는 이동 단말기일 수 있다. 이동 단말기는 구체적으로 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터 등 중 적어도 하나일 수 있다. 서버(120)는 구체적으로 독립 서버일 수 있거나 복수의 독립 서버를 포함하는 서버 클러스터일 수 있다.
단말기(110)는 오디오 합성 방법을 수행하도록 구성될 수 있다. 단말기(110)는 그것의 운영 체제에 기초하여, 오디오 합성 방법을 수행하기 위해 인터페이스들을 불러낼 수 있다. 물론, 단말기(110)는 대안적으로 설치된 애플리케이션 클라이언트에 기초하여 오디오 합성 방법을 수행할 수 있다.
전술한 프로세스에서, 애플리케이션 클라이언트는 오디오 합성 서비스를 제공하는 클라이언트일 수 있다. 예를 들어, 애플리케이션 클라이언트는 짧은 비디오를 재생하도록 구성된 클라이언트일 수 있다. 애플리케이션 클라이언트에 로그인한 후에, 사용자는 애플리케이션 클라이언트에 기초하여 짧은 비디오를 재생할 수 있다. 임의로, 사용자는 또한 애플리케이션 클라이언트에 기초하여 짧은 비디오를 기록할 수 있다. 기록 시작들 전에, 사용자는 기록될 짧은 비디오의 배경 오디오를 설정할 수 있다. 예를 들어, 단말기(110)는 사용자에게 복수의 후보 곡을 제공하고, 사용자의 선택 명령에 따라 짧은 비디오의 배경 오디오를 결정할 수 있어서, 기록 명령을 수신할 때 현재 기록된 짧은 비디오에 배경 오디오를 추가한다. 단말기(110)는 사용자 이외의 다른 사용자들에 의한 재생을 위해 서버(120)에 기록된 짧은 비디오를 업로드할 수 있다. 물론, 사용자는 또한 먼저 짧은 비디오를 기록하고, 기록이 완료된 후에 짧은 비디오에 대해 편집 동작을 수행하고, 편집 동작을 사용하여 기록된 짧은 비디오에 배경 오디오를 추가하고, 다음에 서버(120)에 편집된 짧은 비디오를 업로드할 수 있다.
그러나, 저작권 문제들 등으로, 제한된 양의 곡들이 배경 오디오의 곡 라이브러리에서 선택가능하다. 결과적으로, 사용자가 재생을 위해 이들 곡으로부터 만족할만한 노래를 선택하기가 어려워서, 비교적 빈약한 오디오 재생 효과를 야기한다. 그러므로, 단말기(110)는 본원의 실시예들에서의 오디오 합성 방법을 사용하여 오디오 재생 효과를 개선시킬 수 있다.
일부 실시예들에서, 단말기(110)는 대상 텍스트를 획득하고; 선택 명령에 따라 대상 곡을 결정하고; 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성할 수 있고, 획득된 대상 텍스트는 자작곡의 가사로서 사용된다. 자작곡을 발생한 후에, 단말기(110)는 자작곡을 재생할 수 있다. 또한, 단말기(110)는 배경 오디오로서 자작곡을 구성하고, 배경 오디오에 기초하여 비디오를 기록할 수 있다.
전술한 프로세스에서, 자작곡은 단말기(110) 측 상에서 로컬로 합성될 수 있다. 물론, 자작곡은 대안적으로 서버(120) 측 상에서 합성되고 단말기(110)에 송신될 수 있다. 자작곡의 합성 측은 본원의 실시예들에서 특정적으로 제한되지 않는다.
일부 실시예들에서, 자작곡이 단말기(110)에 의해 로컬로 합성되는 경우에, 단말기(110)는 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성한다. 임의로, 여기서의 곡조 제어 모델은 서버(120)에 의해 트레이닝되고 단말기(110)에 전달될 수 있거나 단말기(110)에 의해 로컬로 트레이닝될 수 있다.
일부 실시예들에서, 자작곡이 서버(120))에 의해 합성되고 단말기(110)에 송신되는 경우에, 단말기(110)는 서버(120)에 대상 텍스트 및 대상 곡의 곡 식별자를 송신한다. 서버(120)는 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하고, 단말기(110)에 자작곡을 송신한다.
도 2는 실시예에 따른 오디오 합성 방법의 개략적 플로우차트이다. 본 실시예는 오디오 합성 방법이 도 1의 단말기(110)에 적용되는 예를 사용하여 주로 설명된다. 도 2를 참조하면, 방법은 구체적으로 다음의 단계들을 포함한다:
S202: 단말기는 대상 텍스트를 획득한다.
대상 텍스트는 합성될 자작곡을 위한 가사를 제공하기 위해 사용된다. 구체적으로, 대상 텍스트는 단말기에 의해 제공된 텍스트 입력 박스를 사용하여 사용자에 의해 입력된 텍스트, 단말기에 의해 제공된 텍스트 템플릿 리스트로부터 사용자에 의한 선택 명령에 따라 결정된 텍스트 또는 또 하나의 컴퓨터 디바이스에 의해 송신된 텍스트일 수 있다. 물론, 대상 텍스트는 대안적으로 또 하나의 소스로부터의 텍스트일 수 있다. 대상 텍스트의 소스 및 획득 방식은 본원의 본 실시예에서 제한되지 않는다.
예를 들어, 도 3은 실시예에 따른 대상 텍스트를 획득하기 위한 인터페이스의 개략도이다. 도 3을 참조하면, 인터페이스는 텍스트 입력 박스(310) 및 텍스트 템플릿 리스트(320)를 포함한다. 사용자는 텍스트 입력 박스(310) 내로 텍스트(311)를 입력할 수 있으므로, 단말기는 대상 텍스트로서 텍스트 입력 박스(310) 내로 사용자에 의해 입력된 텍스트(311)를 획득한다. 사용자는 대안적으로 텍스트 템플릿 리스트(320)에서 텍스트를 선택할 수 있으므로, 단말기는 대상 텍스트로서 텍스트 템플릿 리스트(320)로부터 사용자에 의해 선택된 텍스트(321)를 획득한다.
S204: 단말기는 선택 명령에 따라 대상 곡을 결정한다.
대상 곡은 합성될 자작곡을 위한 곡조를 제공하기 위해 사용된다. 예를 들어, 사용자가 곡을 합성하기 위해 자작곡의 곡조로서 곡 "I Love Beijing Tiananmen"의 곡조를 사용하기를 원하면, "I Love Beijing Tiananmen"이 대상 곡이다. 또 하나의 예로서, 사용자가 곡을 합성하기 위해 자작곡의 곡조로서 곡 "Brother John"의 곡조를 사용하기를 원하면, "Brother John"이 대상 곡이다.
실시예에서, 단말기는 후보 곡들을 제공하고, 대상 곡으로서 선택 명령에 따라 후보 곡을 획득하기 위해, 후보 곡에 대한 사용자의 선택 명령을 수신할 수 있다.
구체적으로, 단말기는 인터페이스에서 후보 곡들을 디스플레이하고, 다음에 디스플레이된 후보 곡들에 대한 미리 정해진 트리거 조작을 모니터하고, 트리거 조작을 검출할 때 대응하는 선택 명령의 발생을 트리거할 수 있다. 트리거 조작은 인터페이스에 디스플레이된 후보 곡에 대한 터치 조작 또는 커서 클릭 조작일 수 있다. 트리거 조작은 대안적으로 후보 곡들이 하나씩 디스플레이되거나 재생될 때 트리거되는 미리 정해진 물리적 키의 누름 또는 셰이크 조작일 수 있다.
또 하나의 실시예에서, 단말기는 대안적으로 대상 곡으로서 후보 곡들로부터 곡을 무작위로 선택할 수 있다. 단말기는 대안적으로 대상 곡으로서 후보 곡들로부터 대상 텍스트와 매칭하는 곡을 선택할 수 있다.
예를 들어, 도 3을 계속 참조하면, 인터페이스는 후보 곡 리스트(330)를 추가로 포함한다. 사용자는 후보 곡 리스트(330)에서 곡을 선택할 수 있으므로, 단말기는 대상 곡으로서 후보 곡 리스트(330)로부터 사용자에 의해 선택된 곡(331)을 획득한다.
S206: 단말기는 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하고, 대상 텍스트는 자작곡의 가사로서 사용된다.
곡조 제어 모델은 곡조 제어 능력을 갖는 머신 학습(ML) 모델일 수 있다. ML 모델은 샘플 학습을 통해 곡조 제어 능력을 취득할 수 있다. ML 모델은 신경 네트워크 모델, 지원 벡터 머신, 로지스틱 회귀 모델 등일 수 있다. 신경 네트워크 모델은 예를 들어, 콘볼루셔널 신경 네트워크, 후방 전파 신경 네트워크, 피드백 신경 네트워크, 방사형 기저 함수 신경 네트워크, 자체 구성 신경 네트워크 등이다. ML 모델의 유형은 ML 모델이 곡조 제어 기능을 구현할 수 있다면 본원의 본 실시예에서 제한되지 않는다.
곡조 정보는 시간에 따른 곡의 음높이(pitch)의 변화 경향을 반영하는 데이터이다. 곡조는 2개의 기본 요소들을 갖는데, 즉, 멜로디(또는 음높이라고 함)와 리듬이다. 단말기는 일련의 음높이들과 대응하는 시간 정보 간의 대응관계를 사용하여 곡조 정보를 나타낼 수 있다. 여기서의 시간 정보는 리듬, 예를 들어, 음높이의 시작 시간, 음높이의 지속기간, 또는 상이한 음높이들 간의 일시중지의 지속기간을 반영하기 위해 사용된다. 하나의 음높이는 하나의 음표를 나타낸다. 음표의 음향 파라미터들은 기본 주파수 및 세기를 포함한다.
곡은 가사와 곡조를 조합하는 예술적 표현의 형태라는 것을 이해할 수 있다. 대상 곡은 곡 가수가 부르는 가사와 작곡가에 의해 창작된 곡조에 의해 획득된 오디오 데이터이다. 본 실시예에서, 대상 곡의 곡조는 변화하지 않은 채로 유지되고 가사는 동일한 곡조를 갖는 자작곡을 합성하기 위해 변화된다. 물론, 본원의 본 실시예에서, 대상 곡의 곡조는 또한 자작곡을 합성하기 위해 변화된 가사에 따라 조정될 수 있다.
자작곡은 맞춤화된 가사를 갖는 곡이다. 기존의 곡의 곡조는 자작곡의 곡조로서 사용된다. 물론, 자작곡의 곡조는 또한 맞춤화될 수 있다. 단말기는 원래의 가사와 맞춤화된 곡조에 따라 자작곡을 합성하거나 맞춤화된 가사와 맞춤화된 곡조에 따라 자작곡을 합성한다. 맞춤화된 가사와 맞춤화된 곡조에 따라 합성된 자작곡은 사용자-창작 곡이다.
실시예에서, 대상 곡의 곡조 정보는 대상 곡의 곡 파일로부터 추출된 데이터일 수 있다. 예를 들어, 전자 악기 디지털 인터페이스(MIDI) 파일은 대상 곡의 곡 파일로부터 추출되고 대상 곡의 곡조 정보로서 사용된다. MIDI 파일은 음높이들 및 대응하는 시간 정보를 포함하고 곡조 정보는 일련의 음높이들과 대응하는 시간 정보 간의 대응관계에 의해 나타내질 수 있기 때문에, MIDI 파일 내에 포함된 음높이들 및 대응하는 시간 정보는 곡조 정보를 형성할 수 있다는 것을 이해할 수 있다.
실시예에서, 대상 곡의 곡조 정보는 곡 가수에 의해 불려진 오디오 데이터로부터 추출될 수 있다. 곡 가수에 의해 불려진 오디오 데이터는 배경 반주를 갖는 오디오 데이터일 수 있거나 보컬만 있는 곡의 오디오 데이터일 수 있다. 보컬만 있는 곡의 오디오 데이터는 배경 음악 없이 곡 가수가 부르는 목소리를 기록한 데이터이다. 단말기는 대상 곡에 대응하는 곡 가수에 의해 불려진 오디오 데이터를 기록하고 다음에 오디오 데이터로부터 곡조 정보를 추출할 수 있다. 곡조 정보는 구성된 모델을 사용하여 추출될 수 있다. 물론, 대상 곡의 곡조 정보는 대안적으로 다른 방식으로 획득될 수 있다. 이것은 본원의 본 실시예에서 제한되지 않는다.
구체적으로, 선택 명령에 따라 대상 곡을 결정한 후에, 단말기는 선택된 대상 곡의 곡조 정보를 찾고, 다음에 곡조 제어 모델 내로 대상 텍스트 및 발견된 곡조 정보를 입력하여, 곡조 제어 모델을 사용하여 가사로서 대상 텍스트 및 곡조로서 대상 곡의 곡조를 갖는 자작곡을 출력할 수 있다.
임의로, 단말기는 대안적으로 먼저 TTS(text to speech) 기술에 기초하여 대상 텍스트에 대응하는 음향 스펙트럼 특징을 발생하고, 곡조 제어 모델 내로 음향 스펙트럼 특징 및 곡조 정보를 입력하고, 자작곡을 획득하기 위해 곡조 제어 모델을 사용하여 음향 스펙트럼 특징의 곡조를 곡조 정보와 매칭하는 곡조로 변환하고, 자작곡의 음향 스펙트럼 특징을 출력할 수 있다.
전술한 프로세스에서, 상이한 가수들에 의해 불려진 동일한 곡조를 갖는 곡들은 일반적으로 동일한 곡조 정보를 갖는다. 이 경우에, 대상 텍스트에 대응하고 복수의 가수에 대응하는 복수의 음향 스펙트럼 특징이 발생되고, 하나의 자작곡이 각각의 음향 스펙트럼 특징에 대해 발생될 수 있으므로, 복수의 자작곡이 복수의 음향 스펙트럼 특징 및 곡조 정보에 따라 발생될 수 있다. 상이한 자작곡들은 동일한 곡조이지만 상이한 음색들을 가지므로, 변화된 옵션들이 오디오 합성 프로세스에서 제공된다.
실시예에서, S206은 단말기에 의해, 서버에 대상 텍스트 및 대상 곡의 곡 식별자를 송신하는 단계 - 대상 텍스트 및 곡 식별자는 서버에, 곡 식별자에 대응하는 곡조 정보가 발견된 후에, 곡조 제어 모델에 따라 대상 텍스트 및 곡조 정보를 사용하여 자작곡을 합성하라고 명령하기 위해 사용됨 -; 및 단말기에 의해, 서버에 의해 반환된 자작곡을 수신하는 단계를 포함한다.
곡 식별자는 곡을 고유하게 식별하기 위해 사용된다. 구체적으로, 선택 명령에 따라 대상 곡을 결정한 후에, 단말기는 서버에 대상 곡의 곡 식별자 및 획득된 대상 텍스트를 송신할 수 있다. 이 방식으로, 곡 식별자를 수신한 후에, 서버는 곡 식별자에 대응하는 곡조 정보를 찾고, 곡조 제어 모델 내로 곡조 정보 및 대상 텍스트를 입력하고, 곡조 제어 모델을 사용하여 가사로서의 대상 텍스트 및 대상 곡의 것과 일치하는 곡조를 갖는 자작곡을 출력한다. 다음에, 서버는 단말기에 자작곡을 반환할 수 있다.
자작곡은 자작의 보컬만 있는 곡일 수 있거나 배경 반주를 갖는 자작곡일 수 있다. 자작곡이 자작의 보컬만 있는 곡일 때, 서버는 단말기에 자작의 보컬만 있는 곡을 직접 반환하거나, 단말기에 자작의 보컬만 있는 곡과 배경 반주를 혼합함으로써 획득된 자작곡을 반환한다. 대안적으로, 자작의 보컬만 있는 곡과 자작곡 둘 다가 단말기에 반환되고, 사용자에 의한 선택을 위해 단말기에 의해 디스플레이된다.
본 실시예에서, 서버 측 상에서 오디오 합성을 구현하는 단계에서, 오디오 합성의 효율은 서버의 강력하고 고속인 컴퓨팅 능력을 사용하여 개선된다.
S208: 단말기는 자작곡을 재생한다.
구체적으로, 자작곡을 합성하거나 서버에 의해 반환된 자작곡을 수신한 후에, 단말기는 자작곡을 재생할 수 있으므로, 자작곡이 만족할만한지를 결정하기 위해 재생되는 자작곡을 청취할 수 있어서, 자작곡이 만족할만할 때 사용자는 후속하는 동작을 수행한다.
임의로, 단말기는 대안적으로 자작곡을 합성한 후에 전술한 단계 S208을 스킵할 수 있지만, 자작곡을 로컬로 저장하거나 서버에 자작곡을 업로드한다. 재생 명령을 어느 순간에 수신할 때, 단말기는 전술한 단계 S208를 수행한다.
전술한 오디오 합성 방법에서, 대상 텍스트가 획득되고 대상 곡이 선택 명령에 따라 결정된 후에, 가사로서 대상 텍스트를 사용하여 그리고 대상 곡의 곡조 정보와 조합하여 합성된 자작곡이 곡조 제어 모델을 사용하여 획득될 수 있다. 이 방식으로, 사용자는 만족할만한 곡을 재생하기 위해, 만족할만한 곡을 맞춤화할 가사 및 곡조를 독립적으로 선택할 수 있어서, 오디오 재생 효과를 크게 개선시킨다.
실시예에서, 오디오 합성 방법은 단말기에 의해, 배경 오디오로서 자작곡을 구성하는 단계, 및 배경 오디오에 기초하여 비디오를 기록하는 단계를 추가로 포함한다.
구체적으로, 자작곡을 합성하거나 서버에 의해 반환된 자작곡을 수신한 후에, 단말기는 배경 오디오로서 자작곡을 자동적으로 구성하고, 비디오를 기록할 준비를 하기 위해 로컬 영상 취득 디바이스를 불러낼 수 있다. 대안적으로, 단말기는 사용자에 의해 트리거된 명령에 따라 배경 오디오로서 합성된 자작곡을 구성하고, 다음에 비디오를 기록할 준비를 하기 위해 로컬 영상 취득 디바이스를 불러낼 수 있다. 이 방식으로, 단말기는 배경 오디오로서 합성된 자작곡을 사용하여 비디오를 기록할 수 있다.
특정한 실시예에서, 비디오 기록 애플리케이션이 단말기 상에 설치된다. 단말기는 사용자 명령에 따라 비디오 기록 애플리케이션을 실행하고, 사용자 명령에 따라 배경 오디오 구성 인터페이스(예를 들어, 도 3에 도시한 인터페이스)에 계속 들어갈 수 있다. 단말기는 추가로 사용자에 의해 입력된 대상 텍스트 및 사용자에 의해 선택된 대상 곡을 획득하고, 대상 곡의 곡조 정보를 결정하고, 가사로서 대상 텍스트를 사용하여 그리고 결정된 곡조 정보와 조합하여 자작곡을 합성할 수 있다. 단말기는 추가로 배경 오디오로서 합성된 자작곡을 구성하고, 비디오 기록 페이지에 들어가고, 사용자 명령에 따라 구성된 배경 오디오를 재생하고, 비디오를 기록하기 위해 영상을 취득할 수 있다.
본 실시예에서, 사용자는 가사와 곡조를 독립적으로 선택하고, 만족할만한 곡을 맞춤화하고, 다음에 비디오를 기록하기 위해 배경 오디오로서 맞춤화된 곡을 사용하므로, 배경 오디오의 풍부하게 변화된 소스들이 있고 비디오 기록의 효율이 개선된다.
실시예에서, S206은 단말기에 의해, 대상 곡과 매칭하는 곡조 정보를 찾는 단계; 곡조 제어 모델 내로 대상 텍스트 및 곡조 정보를 입력하고, 곡조 제어 모델의 숨겨진 계층을 사용하여 곡조 정보에 따라 대상 텍스트 내의 각각의 문자에 대응하는 곡조 특징을 결정하는 단계; 및 곡조 제어 모델의 출력 계층을 사용하여, 음성 합성이 대응하는 곡조 특징에 따라 대상 텍스트 내의 각각의 문자에 대해 수행된 후에 발생된 자작곡을 출력하는 단계를 포함한다.
구체적으로, 선택 명령에 따라 대상 곡을 결정한 후에, 단말기는 미리 획득된 대상 곡의 곡조 정보를 찾고, 트레이닝된 곡조 제어 모델 내로 대상 텍스트 및 곡조 정보를 입력하고, 대상 텍스트 내의 각각의 문자에 대응하는 곡조 특징을 결정하기 위해, 곡조 제어 모델의 숨겨진 계층을 사용하여 대상 텍스트 내의 각각의 문자에 대해 곡조 매칭을 수행하고, 다음에 곡조 제어 모델의 출력 계층을 사용하여, 음성 합성이 대응하는 곡조 특징에 따라 대상 텍스트 내의 각각의 문자에 대해 수행된 후에 발생된 자작곡을 출력한다.
실시예에서, 오디오 합성 방법은 곡조 제어 모델을 트레이닝하는 단계를 추가로 포함한다. 곡조 제어 모델을 트레이닝하는 단계는 단말기에 의해, 후보 곡들에 대응하는 후보 곡 오디오를 수집하는 단계; 수집된 후보 곡 오디오에 따라 각각의 후보 곡에 대응하는 후보 곡 곡조를 결정하는 단계; 텍스트 샘플을 획득하는 단계; 및 텍스트 샘플 및 후보 곡 곡조에 따라 트레이닝을 통해 곡조 제어 모델을 획득하는 단계를 포함한다.
구체적으로, 단말기는 각각의 후보 곡에 대해, 곡 가수에 의해 불려진 오디오 데이터를 기록하고, 대응하는 후보 곡의 곡조 정보를 획득하기 위해, 오디오 데이터에 대해 곡조 특징 주석달기를 수행하고; 또는 대응하는 후보 곡의 곡조 정보로서 각각의 후보 곡의 MIDI 파일을 획득할 수 있다. 단말기는 다음에 텍스트 샘플로서 문자 스트링을 무작위로 선택하고, 곡조 제어 모델의 트레이닝 샘플로서 텍스트 샘플 및 후보 곡의 곡조 정보를 사용할 수 있다. 텍스트 샘플 및 후보 곡은 가사로서 텍스트 샘플 및 입력된 곡조 정보에 따르는 곡조를 갖는 곡 샘플을 출력하기 위해, 곡조 제어 모델 내의 계층들을 사용하여 처리된다. 단말기는 출력된 곡 샘플과 예상된 결과 간의 차이에 따라, 곡조 제어 모델의 모델 파라미터 및 후보 곡의 입력으로서 사용된 곡조 정보를 추가로 조정할 수 있다. 파라미터를 조정한 후에, 단말기는 곡조 제어 모델의 트레이닝이 완료될 때까지 트레이닝을 계속할 수 있다. 트레이닝을 통해 곡조 제어 모델을 획득한 후에, 단말기는 곡조 제어 모델이 사용될 필요가 있을 때 곡조 제어 모델을 획득 및 사용하기 위해, 곡조 제어 모델을 로컬로 저장할 수 있다.
실시예에서, 곡조 제어 모델에 의해 출력된 곡 샘플과 예상된 결과 간의 차이가 수동으로 결정될 수 있다. 곡조 제어 모델은 후보 곡들을 위한 범용 모델이다.
실시예에서, 모델 트레이닝 프로세스가 대안적으로 서버에 대해 수행될 수 있다. 곡조 제어 모델의 트레이닝을 완료한 후에, 서버는 사용을 위해 단말기에 곡조 제어 모델을 전달한다.
전술한 실시예에서, 곡조 제어 능력은 ML 모델의 강력한 학습 능력을 사용하여 학습되고, 음성 합성은 트레이닝된 곡조 제어 모델을 사용하여 수행된다. 종래의 음성 합성 방식과 비교하여, 음성 합성의 효율이 개선되고, 음성 합성의 정확도가 개선된다.
실시예에서, 오디오 합성 방법은 단말기에 의해, 대상 발성 객체를 결정하는 단계를 추가로 포함한다. S206은 단말기에 의해, 대상 발성 객체에 대응하는 곡조 제어 모델을 찾는 단계; 및 단말기에 의해, 발견된 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계 - 자작곡의 음색은 대상 발성 객체에 따름 - 를 포함한다.
대상 발성 객체는 대상 음색이 속하는 물체이다. 대상 음색은 사용자가 합성하려는 자작곡 또는 자작 음성의 목소리 특징이다. 대상 발성 객체는 가상 물체 또는 실제 물체일 수 있다. 가상 물체는 예를 들어, 게임 내의 가상 캐릭터 또는 애니메이션 내의 가상 캐릭터이다. 실제 물체는 예를 들어, 실제 장면 내의 가수 또는 배우이다.
상이한 사운드 발생기들은 상이한 소재들 또는 구조들로 인해 상이한 음색들의 사운드들을 발생한다는 것을 이해할 수 있다. 예를 들어, 피아노, 바이올린 및 사람은 상이한 사운드들을 발생하는 상이한 음색들을 갖는다. 상이한 사람들은 또한 상이한 음색들을 갖는다. 음색은 사운드의 특징이다. 동일한 음높이 및 동일한 사운드 세기의 사운드들도 또한 상이한 음색들을 가진다.
대상 발성 객체에 대응하는 곡조 제어 모델은 대상 발성자에 의해 불려진 오디오 데이터에 따라 트레이닝을 통해 획득된 곡조 제어 모델이다. 이 방식으로, 트레이닝을 통해 획득된 곡조 제어 모델에 의해 출력된 자작곡의 음색은 대상 발성 객체에 따른다. 전술한 실시예에서 설명된 곡조 제어 모델은 트레이닝을 위해 사용된 오디오 데이터의 가수를 제한하지 않는다. 즉, 음색은 제한되지 않는다.
구체적으로, 단말기는 후속하여 선택 명령에 따라 대상 발성 객체를 결정할 수 있고, 또는 단말기는 대상 발성 객체로서 대상 곡의 가수를 획득할 수 있다. 또한, 단말기는 다음에 자작곡을 합성하기 위해 대상 발성 객체에 대응하는 곡조 제어 모델 내로 대상 텍스트 및 대상 곡의 곡조 정보를 입력한다.
대상 발성 객체에 대응하는 곡조 제어 모델은 대상 발성 객체의 음색 정보와 매칭하는 곡조 제어 모델이라는 것을 이해할 수 있다. 단말기는 대상 발성 객체의 음색 정보와 매칭하는 트레이닝된 곡조 제어 모델 내로 대상 텍스트 및 곡조 정보를 입력하고, 각각의 문자에 대응하는 곡조 특징을 결정하기 위해, 곡조 제어 모델의 숨겨진 계층을 사용하여 대상 텍스트 내의 각각의 문자에 대해 곡조 매칭을 수행하고, 곡조 제어 모델의 출력 계층을 사용하여, 음성 합성이 대응하는 곡조 특징에 따라 대상 텍스트 내의 각각의 문자에 대해 수행된 후에 발생되고 대상 발성 객체의 음색에 따르는 자작곡을 출력한다.
물론, 단말기가 모델을 사용하여 프로세스를 구현할 때, (대상 텍스트로부터 자작곡으로의) 단-대-단 변환(end-to-end conversion)은 하나의 모델을 사용하여 구현될 수 있거나 복수의 모델을 사용하여 구현될 수 있다. 모델들은 서로 협력하고, 각각의 모델은 하나의 기능을 구현한다. 예를 들어, 대상 텍스트는 먼저 음색 제어 모델을 사용하여 대상 발성 객체에 따르는 음색을 갖는 자작 음성으로 변환되고, 자작 음성은 다음에 곡조 제어 모델을 사용하여 대상 곡에 따르는 곡조를 갖는 자작곡으로 변환된다. 여기서의 음색 제어 모델에 대해, 다음의 설명들을 참조한다. 여기서의 곡조 제어 모델을 트레이닝하기 위해 입력된 데이터는 더 이상 대상 텍스트 및 곡조 정보가 아니고, 음색 제어 모델에 의해 출력된 자작 음성 또는 곡조 정보이다.
본 실시예에서, 사용자-정의된 가사가 사용자에 의해 선택된 사운드로 불려진 곡이 합성될 수 있다는 것을 이해할 수 있다. 예를 들어, 사용자가 만든 곡은 곡 창작을 완성하기 위해 스타의 목소리로 불려진다.
실시예에서, 단말기는 획득된 대상 텍스트에 대해 보안 검출을 추가로 수행할 수 있다. 대상 텍스트가 규정에 따를 때, 후속하는 동작이 수행된다. 대상 텍스트가 규정에 따르지 않을 때, 에러 프롬프트가 피드백된다. 대안적으로, 대상 텍스트에 대해 보안 검출을 수행하는 단계가 서버에 의해 수행될 수 있다.
예를 들어, 도 4는 실시예에 따른 자작곡을 합성하는 원리의 블록도이다. 도 4를 참조하면, 서버(또는 단말기)는 미리 사운드 소재(후보 발성 객체의 오디오 데이터)를 수집하고, 수집된 사운드 소재(음소, 기본 주파수, 사운드 세기, 시간 정보 등)에 주석달기를 하고, 수집된 사운드 소재 및 주석 데이터에 따라 모델을 트레이닝할 수 있다. 여기서의 모델은 각각의 후보 발성 객체에 대응하는 음색 제어 모델, 공통 곡조 제어 모델, 곡조 제어 모델 등일 수 있다. 상이한 모델들이 모델의 입력으로서 사운드 소재로부터 선택된 상이한 데이터 또는 주석 데이터에 따라 트레이닝을 통해 획득될 수 있다. 서버(또는 단말기)는 사용을 위해 트레이닝을 통해 획득된 모델을 저장할 수 있거나 서버는 사용을 위해 단말기에 모델을 전달할 수 있다.
대상 텍스트를 획득한 후에, 단말기는 서버에 대상 텍스트를 업로드할 수 있고, 단말기는 서버에 대상 곡의 식별자 또는 사용자에 의해 선택된 대상 발성 객체를 추가로 업로드할 수 있다. 서버는 대상 텍스트에 대해 보안 체크를 수행한다. 보안 체크가 성공한 후에, 사용자가 대상 발성 객체를 선택할 때, 대상 텍스트에 대응하는 자작 음성은 트레이닝을 통해 획득된 음색 제어 모델을 사용하여 대상 텍스트의 음소 시퀀스에 따라 획득된다. 대안적으로, 사용자가 대상 곡을 선택할 때, 가사로서 대상 텍스트를 갖는 자작곡이 트레이닝을 통해 획득된 곡조 제어 모델을 사용하여 대상 곡의 곡조 정보에 따라 발생된다. 대안적으로, 사용자가 대상 곡 및 대상 발성 객체를 선택할 때, 가사로서 사용된 대상 텍스트를 갖는 자작곡이 트레이닝을 통해 획득된 곡조 제어 모델을 사용하여 대상 텍스트의 음소 시퀀스 및 대상 곡의 곡조 정보에 따라 발생된다. 모델을 사용하여 자작곡 또는 자작 음성을 획득한 후에, 서버는 단말기에 자작곡 또는 자작 음성을 전달한다. 대안적으로, 서버는 자작곡 또는 자작 음성을 반주와 혼합하고 단말기에 반주를 갖는 자작곡 또는 자작 음성을 전달한다. 대안적으로, 단말기는 전술한 프로세스를 로컬로 완료할 수 있다.
전술한 실시예에서, 사용자는 가사, 곡조, 및 음색을 독립적으로 선택하고, 만족할만한 곡을 맞춤화하고, 다음에 비디오를 기록하기 위해 배경 오디오로서 맞춤화된 곡을 사용할 수 있으므로, 배경 오디오에 풍부하게 변화된 소스들이 있고 비디오 기록의 효율이 개선된다.
실시예에서, 오디오 합성 방법은, 단말기에 의해 선택 명령을 수신하는 단계; 대상 곡이 선택 명령에 따라 결정되는 경우에, 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계를 수행하는 단계; 및 대상 발성 객체가 선택 명령에 따라 결정되는 경우에, 음색 제어 모델에 따라 대상 텍스트를 사용하여 자작 오디오를 합성하는 단계 - 음색 제어 모델은 대상 발성 객체와 매칭함 - 를 추가로 포함한다.
선택 명령은 사용자의 조작에 따라 트리거된 컴퓨터 판독가능 명령어일 수 있다. 선택 명령은 대상을 선택하기 위해 사용된다. 대상은 대상 곡 또는 대상 발성 객체일 수 있다. 음색 제어 모델은 트레이닝 후의 음색 제어 능력을 갖는 ML 모델이다.
구체적으로, 단말기는 인터페이스에서 후보 곡 리스트 또는 후보 발성 객체 리스트를 제공하고, 다음에 디스플레이된 후보 곡 또는 후보 발성 객체에 대한 미리 정해진 트리거 조작을 검출하고, 트리거 조작을 검출할 때 대응하는 선택 명령의 발생을 트리거할 수 있다. 선택 명령이 대상 곡을 지정하기 위해 사용된다고 결정한 후에, 단말기는 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계를 수행한다.
선택 명령이 대상 발성 객체를 지정하기 위해 사용된다고 결정한 후에, 단말기는 음색 제어 모델에 따라 대상 텍스트를 사용하여 자작 오디오를 합성하고, 음색 제어 모델은 대상 발성 객체와 매칭한다. 본 실시예에서, 사용자가 가상 캐릭터 또는 실제 캐릭터의 사운드로 말하기를 선택하는 것이 구현될 수 있다는 것을 이해할 수 있다.
실시예에서, 음색 제어 모델에 따라 대상 텍스트를 사용하여 자작 오디오를 합성하는 단계는 대상 발성 객체와 매칭하는 음색 제어 모델을 찾는 단계; 대상 텍스트에 대응하는 음소 시퀀스를 결정하는 단계; 음색 제어 모델을 사용하여 음소 시퀀스에 따라 자작 음성을 합성하는 단계; 및 자작 음성 및 배경 반주에 따라 자작 오디오를 합성하는 단계를 포함한다.
대상 발성 객체와 매칭하는 음색 제어 모델은 대상 발성 객체의 오디오 데이터에 따라 트레이닝을 통해 획득된 음색 제어 모델이고, 음색 제어 모델을 사용하여 출력된 음성의 음색은 대상 발성 객체의 음색과 일치한다.
음소는 음성의 자연 속성에 따라 분할을 수행함으로써 획득된 최소 발음 단위이다. 예를 들어, 중국어 음절들에서,
Figure 112020089838114-pct00001
(발음)는 하나의 음소를 포함하고,
Figure 112020089838114-pct00002
(발음)는 2개의 음소들을 포함하고,
Figure 112020089838114-pct00003
(발음)는 3개의 음소들을 포함한다. 단말기는 문자와 음소 간의 대응관계를 저장할 수 있다.
구체적으로, 대상 텍스트를 획득한 후에, 단말기는 문자와 음소 간의 대응관계에 따라 대상 텍스트에 대응하는 음소 시퀀스를 결정하고, 다음에 음색 제어 모델의 숨겨진 계층을 사용하여 각각의 음소에 대응하는 음향 파라미터를 결정하기 위해, 트레이닝된 음색 제어 모델 내로 대상 텍스트에 대응하는 음소 시퀀스를 입력하고, 다음에, 음색 제어 모델의 숨겨진 계층을 사용하여 각각의 음소에 대응하는 음향 파라미터에 따라 각각의 음소에 대응하는 음성 파형 단위를 결정하여, 음색 제어 모델의 출력 계층을 사용하여 각각의 음소에 대응하는 음성 파형 단위에 따라 대상 텍스트에 대응하는 음성 파형을 출력하고, 자작 음성을 획득할 수 있다.
음색 제어 모델에 의해 출력된 자작 음성은 배경 반주 없는 대상 발성 객체의 음성 사운드이다. 단말기는 자작 오디오를 발생하기 위해 자작 음성을 배경 반주와 혼합할 수 있다.
본 실시예에서, ML 모델의 강력한 학습 능력이 음색 제어 능력을 학습하기 위해 사용되고, 음성 합성이 트레이닝된 음색 제어 모델을 사용하여 수행된다. 종래의 음성 합성 방식과 비교하여, 음성 합성의 효율이 개선되고, 음성 합성의 정확도가 개선된다.
실시예에서, 오디오 합성 방법은 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 트레이닝하는 단계 - 대상 발성 객체는 후보 발성 객체들로부터 선택됨 - 를 추가로 포함하고; 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 트레이닝하는 단계는 각각의 후보 발성 객체에 대응하는 오디오 소재를 수집하는 단계; 각각의 오디오 소재에 따라 대응하는 후보 발성 객체에 대응하는 음소 소재 시퀀스를 결정하는 단계; 및 각각의 후보 발성 객체에 대응하는 음소 소재 시퀀스를 사용하여 트레이닝을 통해 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 획득하는 단계를 포함한다.
구체적으로, 단말기는 각각의 후보 발성 객체에 대응하는 오디오 소재를 수집할 수 있다. 각각의 후보 발성 객체에 대해, 오디오 분할이 오디오 소재에 대응하는 음소 시퀀스 샘플을 획득하기 위해, 후보 발성 객체에 대응하는 오디오 소재에 대해 수행된다. 음소 시퀀스 샘플은 후보 발성 객체의 음색에 따르는 오디오를 출력하기 위해, 음색 제어 모델을 트레이닝하기 위해 입력 데이터로서 사용된다. 단말기는 출력된 오디오와 입력된 음소 시퀀스 샘플의 오디오 소재 간의 차이에 따라 음색 제어 모델의 모델 파라미터를 추가로 조정할 수 있다. 파라미터를 조정한 후에, 단말기는 음색 제어 모델의 트레이닝이 완료될 때까지 트레이닝을 계속할 수 있다. 이 방식으로, 단말기는 각각의 후보 발성 객체에 대해 매칭 음색 제어 모델을 별개로 트레이닝한다.
트레이닝을 통해 음색 제어 모델을 획득한 후에, 단말기는 음색 제어 모델이 사용될 필요가 있을 때 음색 제어 모델을 획득 및 사용하기 위해, 음색 제어 모델을 로컬로 저장할 수 있다. 음색 제어 모델을 트레이닝하는 프로세스는 대안적으로 서버에 대해 수행될 수 있다. 음색 제어 모델의 트레이닝을 완료한 후에, 서버는 사용을 위해 단말기에 음색 제어 모델을 전달한다.
실시예에서, 음색 제어 모델 내로 음소 시퀀스를 입력하기 전에, 단말기는 대상 텍스트에 대해 문장 분할을 추가로 수행하고, 문장 분할의 결과에 따라 음소 시퀀스 내로 분할 심볼을 삽입할 수 있으므로, 합성된 자작 음성은 음절 나눔 효과를 갖고, 그럼으로써, 재생 효과를 추가로 최적화한다.
실시예에서, 자작 음성을 합성한 후에, 단말기는 자작 음성에 대해 음절 나눔(syllabication)을 수행할 수 있다. 일반적으로, 하나의 음절은 하나의 문자를 나타낸다. 이 방식으로, 단말기는 각각의 음절의 시간 정보, 예를 들어, 각각의 음절의 시작 시간, 각각의 음절의 지속기간, 및 상이한 음절들 간의 일시중지의 지속기간을 조정할 수 있으므로, 자작 음성의 리듬은 곡조 정보에 따른다. 단말기는 각각의 음절의 음높이, 예를 들어, 각각의 음절의 기본 주파수 및 사운드 세기를 추가로 조정할 수 있으므로, 자작 음성의 멜로디는 곡조 정보에 따르고, 그럼으로써 가사로서의 대상 텍스트, 대상 곡의 것과 일치하는 곡조, 및 대상 발성 객체의 것과 일치하는 음색을 갖는 자작곡을 획득한다.
전술한 실시예에서, 사용자는 가사와 곡조를 독립적으로 선택하고, 만족할만한 곡을 맞춤화하고, 다음에 비디오를 기록하기 위해 배경 오디오로서 맞춤화된 곡을 사용할 수 있다. 대안적으로, 사용자는 사용자에 의해 선택된 음색에 따르는 음성을 획득하기 위해, 대상 음색을 독립적으로 선택할 수 있다.
실시예에서, 선택 명령을 수신하는 단계는, 단말기에 의해 가상 물체 추가 요소에 대응하는 선택 명령을 수신하는 단계; 선택 명령에 따라 결정된 가상 물체 추가 요소에 대응하는 대상 발성 객체를 결정하는 단계를 포함한다. 오디오 합성 방법은, 단말기에 의해 배경 오디오로서 자작 오디오를 구성하는 단계; 비디오 프레임을 획득하기 위해 취득된 영상에 가상 물체 추가 요소를 중첩하는 단계; 및 배경 오디오 및 중첩을 통해 획득된 비디오 프레임에 기초하여 기록된 비디오를 발생하는 단계를 추가로 포함한다.
가상 물체 추가 요소는 가상 물체 영상인 시각적 콘텐트를 갖는 데이터이다. 가상 물체 추가 요소는 영상 콘텐트를 수정하기 위해 영상에 추가될 수 있다. 가상 물체 추가 요소는 예를 들어, 가상 물체 액세서리일 수 있다. 가상 물체 추가 요소는 동화상과 같은 동적 데이터일 수 있거나 정지 화상과 같은 정지 데이터일 수 있다.
구체적으로, 단말기는 인터페이스에서 가상 물체 추가 요소 리스트를 제공하고, 다음에 디스플레이된 가상 물체 추가 요소에 대한 미리 정해진 트리거 조작을 검출하고, 트리거 조작을 검출할 때 대응하는 선택 명령을 트리거하고, 선택 명령에 의해 지정된 가상 물체 추가 요소를 선택할 수 있다. 단말기는 다음에 대상 발성 객체로서 선택된 가상 물체 추가 요소에 대응하는 가상 물체를 사용한다. 또한, 단말기는 대상 텍스트를 획득하고, 대상 발성 객체와 매칭하는 음색 제어 모델에 따라 대상 텍스트를 자작 오디오로 변환하고, 다음에 영상 취득 장치를 사용하여 영상을 취득하고, 비디오 프레임을 획득하기 위해 취득된 영상에 가상 물체 추가 요소를 중첩할 수 있다. 단말기는 또한 프리뷰 영상을 형성하기 위해 획득된 비디오 프레임을 렌더링하고, 자작 오디오에 기초하여 비디오를 기록할 수 있다.
예를 들어, 도 5는 실시예에 따른 비디오를 기록하기 위한 인터페이스의 개략도이다. 도 5의 좌측 도면을 참조하면, 인터페이스는 가상 물체 추가 요소 리스트(510) 및 텍스트 입력 박스 포털(520)을 포함한다. 사용자는 가상 물체 추가 요소 리스트(510)에서 선택을 수행할 수 있으므로, 단말기는 가상 물체 추가 요소 리스트(510)로부터 사용자에 의해 선택된 가상 물체 추가 요소(511)를 획득하고, 대상 발성 객체로서 가상 물체 추가 요소에 대응하는 가상 물체를 사용한다. 사용자는 텍스트 입력 박스 포털(520)을 사용하여 텍스트 입력 박스(530)를 열 수 있다. 도 5의 중간 도면에 도시한 것과 같이, 대상 텍스트는 텍스트 입력 박스 내로 입력되고, 또는 도 5의 우측 도면에 도시한 것과 같이, 대상 텍스트는 후보 텍스트 템플릿으로부터 선택된다.
특정한 시나리오에서, 단말기는 비디오 기록 애플리케이션의 촬영 인터페이스(shooting interface) 상에 게임의 영웅 액세서리를 제공하고, 사용자가 텍스트를 맞춤화하게 하고, 다음에 사용자에 의해 맞춤화된 텍스트를 읽기 위해 영웅의 목소리를 사용하고, 그럼으로써 게임의 영웅에 말하라고 직접 명령하는 효과를 달성한다. 자작 음성이 합성된 후에 배경 오디오로서 자작 음성을 사용하여 비디오를 기록할 때, 사용자는 립-싱크 퍼포먼스를 수행함으로써 의상, 목소리, 및 입 모양과 같은 복수의 차원으로부터 모방의 효과를 달성할 수 있다.
실시예에서, 선택 명령을 수신하는 단계는 단말기에 의해, 시뮬레이트된 비디오 콜에 대한 선택 명령을 수신하는 단계; 및 선택 명령에 따라 결정된 대상 발성 객체에 대응하는 화상을 결정하는 단계를 포함한다. 오디오 합성 방법은 배경 오디오로서 자작 오디오를 구성하는 단계; 화상 및 취득된 영상에 따라 콜 비디오 프레임을 발생하는 단계; 및 배경 오디오 및 발생된 콜 비디오 프레임에 기초하여 기록된 비디오를 발생하는 단계를 추가로 포함한다.
구체적으로, 단말기는 비디오 재생 인터페이스에서 대화형 포털을 제공할 수 있다. 단말기는 사용자 명령에 따라 대화형 포털을 통해 대화형 인터페이스에 들어갈 수 있다. 단말기는 대화형 인터페이스에서 시뮬레이트된 비디오 콜 포털을 제공하고, 시뮬레이트된 비디오 콜 포털 상에 나오는 선택 명령을 수신한 후에, 선택 명령에 따라 결정된 대상 발성 객체가 현재 재생되는 비디오 내의 객체 또는 비디오를 배포한 사용자라고 결정하고, 다음에 대상 발성 객체에 대응하는 화상을 결정하고, 결정된 화상 및 취득된 영상에 따라 콜 비디오 프레임을 발생하고, 배경 오디오 및 발생된 콜 비디오 프레임에 기초하여 대상 발성 객체와의 비디오 콜의 비디오를 발생할 수 있다.
단말기는 추가로, 대화형 인터페이스에서 텍스트 입력 박스를 제공하고, 입력된 대상 텍스트를 획득하고, 결정된 대상 발성 객체의 음색 정보에 따라 대상 텍스트를 자작 음성으로 변환하고, 자작 음성 및 발생된 콜 비디오 프레임을 사용하여 기록된 비디오를 발생할 수 있다. 이 방식으로, 사용자가 비디오 콜 객체가 자신에게 말하고 싶은 것을 말하도록 비디오 콜 객체를 직접 제어할 수 있는 효과가 달성될 수 있다.
예를 들어, 도 6은 실시예에 따른 대화형 포털을 제공하기 위한 인터페이스의 개략도이다. 도 6의 좌측 도면을 참조하면, 인터페이스는 현재 재생되는 비디오의 비디오 프레임(610) 및 대화형 포털(620)을 포함한다. 단말기는 사용자 명령에 따라 대화형 포털(620)을 사용하여 도 6의 우측 도면에 도시한 대화형 인터페이스에 들어갈 수 있다. 대화형 인터페이스는 텍스트 입력 박스(631) 및 시뮬레이트된 비디오 콜 포털(632)을 포함한다. 사용자는 시뮬레이트된 비디오 콜 포털(632)을 통해 비디오 프레임(610) 내의 객체와의 비디오 콜을 시뮬레이트할 수 있다. 사용자는 텍스트 입력 박스(631)를 사용하여 텍스트를 입력할 수 있고, 단말기는 다음에 자작 음성을 합성하기 위해 대상 텍스트로서 사용자에 의해 입력된 텍스트를 획득하고 시뮬레이트된 비디오 콜의 콘텐트로서 시뮬레이트된 비디오 콜 동안 자작 음성을 재생한다.
도 7은 실시예에 따른 비디오 콜을 시뮬레이트하기 위한 인터페이스의 개략도이다. 도 7의 좌측 도면을 참조하면, 비디오 콜 초대 인터페이스가 도시된다. 비디오 콜 초대 인터페이스는 대상 발성 객체에 대응하는 화상(711)을 포함한다. 사용자는 비디오 콜 응답 포털을 사용하여 시뮬레이트된 비디오 콜을 수행할 수 있다. 대안적으로, 단말기는 비디오 콜 초대 인터페이스가 프리셋 지속기간 동안 렌더딩된 후에 비디오 콜 인터페이스에 들어갈 수 있다. 도 7의 우측 도면을 계속 참조하면, 비디오 콜 인터페이스가 도시된다. 인터페이스는 대상 발성 객체와의 비디오 콜의 시나리오를 시뮬레이트하기 위해, 대상 발성 객체(비디오 객체)에 대응하는 화상(721) 및 취득된 영상(722)을 포함한다.
특정한 시나리오에서, 단말기는 비디오 기록 애플리케이션에서 특징 "A star speaks your name"을 제공할 수 있다. 사용자가 비디오를 볼 때, 이름의 입력을 안내하기 위한 팝업 윈도우가 나타나고, 2개 내지 4개의 문자들의 텍스트가 안내에 따라 입력될 수 있다. 입력된 텍스트는 먼저 보안 인증을 위해 서버에 송신된다. 텍스트가 규정에 따르면, 음성 합성 처리가 텍스트 및 사용자에 의해 입력된 스타 말뭉치에 대해 수행된다. 합성된 자작 음성이 단말기에 반환된다. 단말기는 점프 동작에 응답하여 촬영 페이지로 점프하고, 스타로부터의 콜의 소재(비디오 콜 초대 인터페이스)를 로드한다. 소재가 성공적으로 로드된 후에, 스타로부터의 들어오는 콜의 페이지가 보일 수 있다. 스타는 비디오 내의 입력된 텍스트를 읽고(즉, 자작 음성이 재생되고), 사용자가 작은 윈도우의 형태로 촬영 인터페이스의 우상부에 나타나고, 그럼으로써 사용자와 스타가 동일한 화면 상에 디스플레이되는 효과를 달성한다. 동일한 화면 상에 사용자와 스타가 있는 고유 비디오가 촬영 버튼을 누름으로써 획득될 수 있다.
전술한 실시예들의 플로우차트들 내의 단계들이 화살표들의 표시에 따라 순차적으로 디스플레이되지만, 이들 단계는 반드시 화살표들에 의해 표시된 시퀀스에 따라 순차적으로 수행되지 않는다는 것을 이해하여야 한다. 본 명세서에 명시적으로 특정되지 않는다면, 이들 단계는 어떤 엄격한 시퀀스 제한 없이도 수행될 수 있고, 또 하나의 시퀀스에서 수행될 수 있다. 또한, 전술한 실시예들에서의 적어도 일부 단계들은 복수의 부단계 또는 복수의 스테이지를 포함할 수 있다. 이들 부단계 또는 스테이지는 반드시 동일한 순간에 수행되지 않고, 상이한 순간들에서 수행될 수 있다. 이들 부단계 또는 스테이지는 반드시 순차적으로 수행되지 않고, 다른 단계들의 적어도 일부 또는 다른 단계들의 부단계들 또는 스테이지들로 차례차례 또는 교대로 수행될 수 있다.
도 8에 도시한 것과 같이, 실시예에서, 오디오 합성 장치(800)가 제공된다. 도 8을 참조하면, 오디오 합성 장치(800)는 획득 모듈(801), 결정 모듈(802), 및 재생 모듈(803)을 포함한다.
획득 모듈(801)은 대상 텍스트를 획득하도록 구성된다.
결정 모듈(802)은 선택 명령에 따라 대상 곡을 결정하도록 구성된다.
획득 모듈(801)은 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하도록 추가로 구성되고, 대상 텍스트는 자작곡의 가사로서 사용된다.
재생 모듈(803)은 자작곡을 재생하도록 구성된다.
임의로, 오디오 합성 장치(800)는 재생 모듈(803)을 포함하지 않을 수 있다. 즉, 오디오 합성 장치(800)는 단지 획득 모듈(801) 및 결정 모듈(802)을 포함할 수 있으므로, 오디오 합성 장치(800)에 기초하여, 대상 텍스트가 획득되고 대상 곡이 결정된 후에 자작곡이 획득될 수 있고, 그럼으로써, 오디오 합성을 구현한다.
실시예에서, 획득 모듈(801)은 서버에 대상 텍스트 및 대상 곡의 곡 식별자를 송신하고 - 대상 텍스트 및 곡 식별자는 서버에, 곡 식별자에 대응하는 곡조 정보가 발견된 후에, 곡조 제어 모델에 따라 대상 텍스트 및 곡조 정보를 사용하여 자작곡을 합성하라고 명령하기 위해 사용됨 -; 서버에 의해 반환된 자작곡을 수신하도록 추가로 구성된다.
실시예에서, 획득 모듈(801)은 대상 곡과 매칭하는 곡조 정보를 찾고; 곡조 제어 모델 내로 대상 텍스트 및 곡조 정보를 입력하고, 곡조 제어 모델의 숨겨진 계층을 사용하여 곡조 정보에 따라 대상 텍스트 내의 각각의 문자에 대응하는 곡조 특징을 결정하고; 곡조 제어 모델의 출력 계층을 사용하여, 음성 합성이 대응하는 곡조 특징에 따라 대상 텍스트 내의 각각의 문자에 대해 수행된 후에 발생된 자작곡을 출력하도록 추가로 구성된다.
실시예에서, 오디오 합성 장치(800)는 곡조 제어 모델을 트레이닝하도록 구성되고, 후보 곡들에 대응하는 후보 곡 오디오를 수집하고; 수집된 후보 곡 오디오에 따라 각각의 후보 곡에 대응하는 후보 곡 곡조를 결정하고; 텍스트 샘플을 획득하고; 텍스트 샘플 및 후보 곡 곡조에 따라 트레이닝을 통해 곡조 제어 모델을 획득하도록 구체적으로 구성되는 트레이닝 모듈(804)을 추가로 포함한다. 대상 곡은 후보 곡들로부터 선택된다.
실시예에서, 결정 모듈(802)은 대상 발성 객체를 결정하도록 추가로 구성된다. 획득 모듈(801)은 대상 발성 객체에 대응하는 곡조 제어 모델을 찾고; 발견된 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하도록 - 자작곡의 음색은 대상 발성 객체에 따름 - 추가로 구성된다.
도 9에 도시한 것과 같이, 실시예에서, 오디오 합성 장치(800)는 트레이닝 모듈(804) 및 기록 모듈(805)을 추가로 포함한다.
기록 모듈(805)은 배경 오디오로서 자작곡을 구성하고; 배경 오디오에 기초하여 비디오를 기록하도록 구성된다.
실시예에서, 획득 모듈(801)은 선택 명령을 수신하도록 추가로 구성된다. 대상 곡이 선택 명령에 따라 결정될 때, 획득 모듈(801)은 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하도록 추가로 구성된다. 대상 발성 객체가 선택 명령에 따라 결정될 때, 획득 모듈(801)은 음색 제어 모델에 따라 대상 텍스트를 사용하여 자작 오디오를 합성하도록 - 음색 제어 모델은 대상 발성 객체와 매칭함 - 추가로 구성된다.
실시예에서, 트레이닝 모듈(804)은 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 트레이닝하도록 추가로 구성되고, 각각의 후보 발성 객체에 대응하는 오디오 소재를 수집하고; 각각의 오디오 소재에 따라 대응하는 후보 발성 객체에 대응하는 음소 소재 시퀀스를 결정하고; 각각의 후보 발성 객체에 대응하는 음소 소재 시퀀스를 사용하여 트레이닝을 통해 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 획득하도록 - 대상 발성 객체는 후보 발성 객체들로부터 선택됨 - 구체적으로 구성된다.
실시예에서, 획득 모듈(801)은 대상 발성 객체와 매칭하는 음색 제어 모델을 찾고; 대상 텍스트에 대응하는 음소 시퀀스를 결정하고; 음색 제어 모델을 사용하여 음소 시퀀스에 따라 자작 음성을 합성하고; 자작 음성 및 배경 반주에 따라 자작 오디오를 합성하도록 추가로 구성된다.
실시예에서, 획득 모듈(801)은 가상 물체 추가 요소에 대응하는 선택 명령을 수신하고; 선택 명령에 따라 결정된 가상 물체 추가 요소에 대응하는 대상 발성 객체를 결정하도록 추가로 구성된다. 기록 모듈(805)은 배경 오디오로서 자작 오디오를 구성하고; 비디오 프레임을 획득하기 위해 취득된 영상에 가상 물체 추가 요소를 중첩하고; 배경 오디오 및 중첩을 통해 획득된 비디오 프레임에 기초하여 기록된 비디오를 발생하도록 추가로 구성된다.
실시예에서, 획득 모듈(801)은 시뮬레이트된 비디오 콜에 대한 선택 명령을 수신하고; 선택 명령에 따라 결정된 대상 발성 객체에 대응하는 화상을 결정하도록 추가로 구성된다. 기록 모듈(805)은 배경 오디오로서 자작 오디오를 구성하고; 화상 및 취득된 영상에 따라 콜 비디오 프레임을 발생하고; 배경 오디오 및 발생된 콜 비디오 프레임에 기초하여 기록된 비디오를 발생하도록 추가로 구성된다.
도 10은 실시예에 따른 컴퓨터 디바이스의 내부 구조의 도면이다. 컴퓨터 디바이스는 구체적으로 도 1 내의 단말기(110)일 수 있다. 도 10에 도시한 것과 같이, 컴퓨터 디바이스는 시스템 버스에 의해 접속된 프로세서, 메모리, 네트워크 인터페이스, 입력 디바이스, 및 디스플레이 화면을 포함한다. 메모리는 비휘발성 저장 매체 및 내부 메모리를 포함한다. 컴퓨터 디바이스의 비휘발성 저장 매체는 운영 체제를 저장하고, 추가로 컴퓨터 프로그램을 저장할 수 있다. 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 프로세서로 하여금 오디오 합성 방법을 구현하게 할 수 있다. 내부 메모리는 또한 컴퓨터 프로그램을 저장할 수 있다. 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 프로세서로 하여금 오디오 합성 방법을 수행하게 할 수 있다. 컴퓨터 디바이스의 디스플레이 화면은 액정 디스플레이 화면, e-잉크 디스플레이 화면 등일 수 있다. 입력 디바이스는 디스플레이 화면을 덮는 터치 층일 수 있거나, 컴퓨터 디바이스의 하우징 상에 배치된 키, 트랙볼 또는 터치 패드일 수 있거나, 외부 키보드, 터치 패드, 마우스 등일 수 있다. 본 기술 분야의 통상의 기술자는 도 10에 도시한 구조는 단지 본원의 해결책과 관련된 부분적 구조의 블록도이고, 본원의 해결책이 적용되는 컴퓨터 디바이스를 제한하지 않는다는 것을 이해할 수 있다. 구체적으로, 컴퓨터 디바이스는 도면에 도시한 것들보다 많거나 적은 수의 컴포넌트들을 포함할 수 있거나, 일부 컴포넌트들이 조합될 수 있거나, 상이한 컴포넌트 배치가 사용될 수 있다.
실시예에서, 본원에 제공된 오디오 합성 장치는 컴퓨터 프로그램의 형태로 구현될 수 있다. 컴퓨터 프로그램은 도 10에 도시한 컴퓨터 디바이스 상에서 실행할 수 있다. 컴퓨터 디바이스의 비휘발성 저장 매체는 오디오 합성 장치를 형성하는 프로그램 모듈들, 예를 들어, 도 8에 도시한 획득 모듈(801), 결정 모듈(802) 및 재생 모듈(803)을 저장할 수 있다. 프로그램 모듈들에 의해 형성된 컴퓨터 프로그램은 프로세서로 하여금 본 명세서에 설명된 본원의 실시예들에서의 오디오 합성 방법의 단계들을 수행하게 한다.
예를 들어, 도 10에 도시한 컴퓨터 디바이스는 도 8에 도시한 오디오 합성 장치(800) 내의 획득 모듈(801)을 사용하여 대상 텍스트를 획득하고; 결정 모듈(802)을 사용하여, 선택 명령에 따라 결정된 대상 곡을 결정하고; 획득 모듈(801)을 사용하여, 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하고 - 대상 텍스트는 자작곡의 가사로서 사용됨 -; 재생 모듈(803)을 사용하여 자작곡을 재생할 수 있다.
실시예에서, 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체가 제공되고, 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 프로세서로 하여금 다음의 단계들을 수행하게 한다: 대상 텍스트를 획득하는 단계; 선택 명령에 따라 대상 곡을 결정하는 단계; 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계 - 대상 텍스트는 자작곡의 가사로서 사용됨 -; 및 자작곡을 재생하는 단계.
실시예에서, 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계는 서버에 대상 텍스트 및 대상 곡의 곡 식별자를 송신하는 단계 - 대상 텍스트 및 곡 식별자는 서버에, 곡 식별자에 대응하는 곡조 정보가 발견된 후에, 곡조 제어 모델에 따라 대상 텍스트 및 곡조 정보를 사용하여 자작곡을 합성하라고 명령하기 위해 사용됨 -; 및 서버에 의해 반환된 자작곡을 수신하는 단계를 포함한다.
실시예에서, 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계는 대상 곡과 매칭하는 곡조 정보를 찾는 단계; 곡조 제어 모델 내로 대상 텍스트 및 곡조 정보를 입력하고, 곡조 제어 모델의 숨겨진 계층을 사용하여 곡조 정보에 따라 대상 텍스트 내의 각각의 문자에 대응하는 곡조 특징을 결정하는 단계; 및 곡조 제어 모델의 출력 계층을 사용하여, 음성 합성이 대응하는 곡조 특징에 따라 대상 텍스트 내의 각각의 문자에 대해 수행된 후에 발생된 자작곡을 출력하는 단계를 포함한다.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계를 수행하게 한다: 곡조 제어 모델을 트레이닝하는 단계 - 대상 곡은 후보 곡들로부터 선택됨 -. 곡조 제어 모델을 트레이닝하는 단계는 후보 곡들에 대응하는 후보 곡 오디오를 수집하는 단계; 수집된 후보 곡 오디오에 따라 각각의 후보 곡에 대응하는 후보 곡 곡조를 결정하는 단계; 텍스트 샘플을 획득하는 단계; 및 텍스트 샘플 및 후보 곡 곡조에 따라 트레이닝을 통해 곡조 제어 모델을 획득하는 단계를 포함한다.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계를 수행하게 한다: 대상 발성 객체를 결정하는 단계. 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계는 대상 발성 객체에 대응하는 곡조 제어 모델을 찾는 단계; 및 발견된 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계 - 자작곡의 음색은 대상 발성 객체에 따름 - 를 포함한다.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계들을 수행하게 한다: 배경 오디오로서 자작곡을 구성하는 단계; 및 배경 오디오에 기초하여 비디오를 기록하는 단계.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계들을 수행하게 한다: 선택 명령을 수신하는 단계; 대상 곡이 선택 명령에 따라 결정되는 경우에, 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계를 수행하는 단계; 및 대상 발성 객체가 선택 명령에 따라 결정되는 경우에, 음색 제어 모델에 따라 대상 텍스트를 사용하여 자작 오디오를 합성하는 단계 - 음색 제어 모델은 대상 발성 객체와 매칭함 -.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계를 수행하게 한다: 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 트레이닝하는 단계 - 대상 발성 객체는 후보 발성 객체들로부터 선택됨 -. 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 트레이닝하는 단계는 각각의 후보 발성 객체에 대응하는 오디오 소재를 수집하는 단계; 각각의 오디오 소재에 따라 대응하는 후보 발성 객체에 대응하는 음소 소재 시퀀스를 결정하는 단계; 및 각각의 후보 발성 객체에 대응하는 음소 소재 시퀀스를 사용하여 트레이닝을 통해 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 획득하는 단계를 포함한다.
실시예에서, 음색 제어 모델에 따라 대상 텍스트를 사용하여 자작 오디오를 합성하는 단계는 대상 발성 객체와 매칭하는 음색 제어 모델을 찾는 단계; 대상 텍스트에 대응하는 음소 시퀀스를 결정하는 단계; 음색 제어 모델을 사용하여 음소 시퀀스에 따라 자작 음성을 합성하는 단계; 및 자작 음성 및 배경 반주에 따라 자작 오디오를 합성하는 단계를 포함한다.
실시예에서, 선택 명령을 수신하는 단계는 가상 물체 추가 요소에 대응하는 선택 명령을 수신하는 단계; 및 선택 명령에 따라 결정된 가상 물체 추가 요소에 대응하는 대상 발성 객체를 결정하는 단계를 포함한다. 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계들을 수행하게 한다: 배경 오디오로서 자작 오디오를 구성하는 단계; 비디오 프레임을 획득하기 위해 취득된 영상에 가상 물체 추가 요소를 중첩하는 단계; 및 배경 오디오 및 중첩을 통해 획득된 비디오 프레임에 기초하여 기록된 비디오를 발생하는 단계.
실시예에서, 선택 명령을 수신하는 단계는 시뮬레이트된 비디오 콜에 대한 선택 명령을 수신하는 단계; 및 선택 명령에 따라 결정된 대상 발성 객체에 대응하는 화상을 결정하는 단계를 포함한다. 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계들을 수행하게 한다: 배경 오디오로서 자작 오디오를 구성하는 단계; 화상 및 취득된 영상에 따라 콜 비디오 프레임을 발생하는 단계; 및 배경 오디오 및 발생된 콜 비디오 프레임에 기초하여 기록된 비디오를 발생하는 단계.
실시예에서, 메모리 및 프로세서를 포함하는 컴퓨터 디바이스가 제공되고, 메모리는 컴퓨터 프로그램을 저장하고, 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 프로세서로 하여금 다음의 단계들을 수행하게 한다: 대상 텍스트를 획득하는 단계; 선택 명령에 따라 대상 곡을 결정하는 단계; 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계 - 대상 텍스트는 자작곡의 가사로서 사용됨 -; 및 자작곡을 재생하는 단계.
실시예에서, 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계는 서버에 대상 텍스트 및 대상 곡의 곡 식별자를 송신하는 단계 - 대상 텍스트 및 곡 식별자는 서버에, 곡 식별자에 대응하는 곡조 정보가 발견된 후에, 곡조 제어 모델에 따라 대상 텍스트 및 곡조 정보를 사용하여 자작곡을 합성하라고 명령하기 위해 사용됨 -; 및 서버에 의해 반환된 자작곡을 수신하는 단계를 포함한다.
실시예에서, 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계는 대상 곡과 매칭하는 곡조 정보를 찾는 단계; 곡조 제어 모델 내로 대상 텍스트 및 곡조 정보를 입력하고, 곡조 제어 모델의 숨겨진 계층을 사용하여 곡조 정보에 따라 대상 텍스트 내의 각각의 문자에 대응하는 곡조 특징을 결정하는 단계; 및 곡조 제어 모델의 출력 계층을 사용하여, 음성 합성이 대응하는 곡조 특징에 따라 대상 텍스트 내의 각각의 문자에 대해 수행된 후에 발생된 자작곡을 출력하는 단계를 포함한다.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계를 수행하게 한다: 곡조 제어 모델을 트레이닝하는 단계 - 대상 곡은 후보 곡들로부터 선택됨 -. 곡조 제어 모델을 트레이닝하는 단계는 후보 곡들에 대응하는 후보 곡 오디오를 수집하는 단계; 수집된 후보 곡 오디오에 따라 각각의 후보 곡에 대응하는 후보 곡 곡조를 결정하는 단계; 텍스트 샘플을 획득하는 단계; 및 텍스트 샘플 및 후보 곡 곡조에 따라 트레이닝을 통해 곡조 제어 모델을 획득하는 단계를 포함한다.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계를 수행하게 한다: 대상 발성 객체를 결정하는 단계. 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계는 대상 발성 객체에 대응하는 곡조 제어 모델을 찾는 단계; 및 발견된 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계 - 자작곡의 음색은 대상 발성 객체에 따름 - 를 포함한다.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계들을 수행하게 한다: 배경 오디오로서 자작곡을 구성하는 단계; 및 배경 오디오에 기초하여 비디오를 기록하는 단계.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계들을 수행하게 한다: 선택 명령을 수신하는 단계; 대상 곡이 선택 명령에 따라 결정되는 경우에, 곡조 제어 모델에 따라 대상 텍스트 및 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계를 수행하는 단계; 및 대상 발성 객체가 선택 명령에 따라 결정되는 경우에, 음색 제어 모델에 따라 대상 텍스트를 사용하여 자작 오디오를 합성하는 단계 - 음색 제어 모델은 대상 발성 객체와 매칭함 -.
실시예에서, 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계를 수행하게 한다: 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 트레이닝하는 단계 - 대상 발성 객체는 후보 발성 객체들로부터 선택됨 -. 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 트레이닝하는 단계는 각각의 후보 발성 객체에 대응하는 오디오 소재를 수집하는 단계; 각각의 오디오 소재에 따라 대응하는 후보 발성 객체에 대응하는 음소 소재 시퀀스를 결정하는 단계; 및 각각의 후보 발성 객체에 대응하는 음소 소재 시퀀스를 사용하여 트레이닝을 통해 각각의 후보 발성 객체와 매칭하는 음색 제어 모델을 획득하는 단계를 포함한다.
실시예에서, 음색 제어 모델에 따라 대상 텍스트를 사용하여 자작 오디오를 합성하는 단계는 대상 발성 객체와 매칭하는 음색 제어 모델을 찾는 단계; 대상 텍스트에 대응하는 음소 시퀀스를 결정하는 단계; 음색 제어 모델을 사용하여 음소 시퀀스에 따라 자작 음성을 합성하는 단계; 및 자작 음성 및 배경 반주에 따라 자작 오디오를 합성하는 단계를 포함한다.
실시예에서, 선택 명령을 수신하는 단계는 가상 물체 추가 요소에 대응하는 선택 명령을 수신하는 단계; 선택 명령에 따라 결정된 가상 물체 추가 요소에 대응하는 대상 발성 객체를 결정하는 단계를 포함한다. 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계들을 수행하게 한다: 배경 오디오로서 자작 오디오를 구성하는 단계; 비디오 프레임을 획득하기 위해 취득된 영상에 가상 물체 추가 요소를 중첩하는 단계; 및 배경 오디오 및 중첩을 통해 획득된 비디오 프레임에 기초하여 기록된 비디오를 발생하는 단계.
실시예에서, 선택 명령을 수신하는 단계는 시뮬레이트된 비디오 콜에 대한 선택 명령을 수신하는 단계; 및 선택 명령에 따라 결정된 대상 발성 객체에 대응하는 화상을 결정하는 단계를 포함한다. 컴퓨터 프로그램은 추가로 프로세서로 하여금 다음의 단계들을 수행하게 한다: 배경 오디오로서 자작 오디오를 구성하는 단계; 화상 및 취득된 영상에 따라 콜 비디오 프레임을 발생하는 단계; 및 배경 오디오 및 발생된 콜 비디오 프레임에 기초하여 기록된 비디오를 발생하는 단계.
본 기술 분야의 통상의 기술자는 전술한 실시예들의 방법에서의 프로세스들의 모두 또는 일부가 관련 하드웨어에 명령하는 컴퓨터 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 비휘발성 컴퓨터 판독가능 저장 매체 내에 저장될 수 있고, 프로그램은 실행될 때, 전술한 방법 실시예들의 프로세스들을 포함할 수 있다. 본원에 제공된 실시예들에서 사용된 메모리, 스토리지, 데이터베이스 또는 또 하나의 매체에 대한 임의의 참조는 비휘발성 및/또는 휘발성 메모리를 포함할 수 있다. 비휘발성 메모리는 리드 온리 메모리(ROM), 프로그램가능한 ROM(PROM), 전기적으로 프로그램가능한 ROM(EPROM), 전기적으로 소거가능하고 프로그램가능한 ROM(EEPROM), 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 랜덤 액세스 메모리(RAM) 또는 외부 캐시를 포함할 수 있다. 제한하기보다는 예시로서, RAM은 정적 RAM(SRAM), 동적 RAM(DRAM), 동기식 DRAM(SDRAM), 이중 데이터 속도 SDRAM(DDRSDRAM), 향상된 SDRAM(ESDRAM), 동기화 링크(Synchlink) DRAM(SLDRAM), 메모리 버스(Rambus) 직접 RAM(RDRAM), 직접 메모리 버스 동적 RAM(DRDRAM), 및 메모리 버스 동적 RAM(RDRAM)과 같은 복수의 형태로 가용하다.
전술한 실시예들의 기술적 특징들이 무작위로 조합될 수 있다. 설명을 구체적으로 하기 위해, 전술한 실시예들에서의 기술적 특징들의 모든 가능한 조합들이 설명되지 않는다. 그러나, 이들 기술적 특징의 조합들은 충돌이 존재하지 않는다면 본 명세서에 의해 기록된 범위 내에 드는 것으로 고려될 것이다.
전술한 실시예들은 단지 본원의 몇가지 구현들을 도시하고, 그들은 본원의 특허 범위에 대한 제한으로서 해석되지 않아야 한다. 본 기술 분야의 통상의 기술자는 본원의 보호 범위 내에 모두 드는, 본원의 아이디어들로부터 벗어나지 않고서, 다양한 변화들 및 개선들을 할 수 있다. 그러므로, 본원의 특허의 보호 범위는 첨부된 청구범위의 대상일 것이다.

Claims (20)

  1. 프로세서 및 상기 프로세서에 의해 실행될 복수의 프로그램을 저장하는 메모리를 갖는 컴퓨터 디바이스에서 수행되는 오디오 합성 방법으로서,
    대상 텍스트를 획득하는 단계;
    제1 선택 명령에 따라 대상 곡을 결정하는 단계;
    곡조 제어 모델에 따라 상기 대상 텍스트 및 상기 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계 - 상기 대상 텍스트는 상기 자작곡의 가사로서 사용되고, 상기 곡조 제어 모델은 곡조 제어 능력을 갖는 머신 학습 모델이고, 상기 머신 학습 모델은 신경 네트워크 모델임 -; 및
    상기 자작곡을 재생하는 단계
    를 포함하고,
    상기 곡조 제어 모델에 따라 상기 대상 텍스트 및 상기 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계는:
    상기 대상 곡과 매칭하는 상기 곡조 정보를 찾는 단계;
    상기 곡조 제어 모델 내로 상기 대상 텍스트 및 상기 곡조 정보를 입력하고, 상기 곡조 제어 모델의 숨겨진 계층을 사용하여 상기 곡조 정보에 따라 상기 대상 텍스트 내의 각각의 문자에 대응하는 곡조 특징(tune feature)을 결정하는 단계; 및
    상기 곡조 제어 모델의 출력 계층을 사용하여, 음성 합성이 상기 대응하는 곡조 특징에 따라 상기 대상 텍스트 내의 각각의 문자에 대해 수행된 후에 발생된 상기 자작곡을 출력하는 단계를 포함하고,
    상기 방법은,
    인터페이스에서 가상 물체 추가 요소 리스트를 제공하는 단계;
    상기 가상 물체 추가 요소 리스트 내의 가상 물체 추가 요소에 대응되는 제2 선택 명령을 수신하는 단계 - 상기 가상 물체 추가 요소는 가상 물체 영상인 시각적 콘텐트를 갖는 데이터이고 영상 콘텐트를 수정하기 위해 영상에 추가됨 -;
    상기 제2 선택 명령에 따라 결정되는 상기 가상 물체 추가 요소에 대응되는 가상 물체를 결정하고 상기 가상 물체를 대상 발성 객체로서 사용하는 단계;
    상기 대상 발성 객체를 매칭하는 음색 제어 모델에 따라 상기 대상 텍스트를 사용하여 자작 오디오를 합성하는 단계 - 상기 음색 제어 모델은 트레이닝 후에 음색 제어 능력을 가지는 머신 학습 모델이고, 상기 음색 제어 모델을 트레이닝하기 위한 데이터는 상기 음색 제어 모델 및 상기 곡조 정보에 의해 출력된 상기 자작 오디오를 포함함 -;
    상기 자작 오디오를 배경 오디오로서 구성하는 단계;
    비디오 프레임을 획득하기 위해 취득된 영상에 상기 가상 물체 추가 요소를 중첩하는 단계; 및
    상기 배경 오디오 및 중첩을 통해 획득된 상기 비디오 프레임을 사용하여 기록된 비디오를 발생하는 단계
    를 더 포함하는, 방법.
  2. 제1항에 있어서, 상기 대상 곡은 다수의 후보 곡으로부터 선택되고, 상기 곡조 제어 모델은
    상기 후보 곡들에 대응하는 후보 곡 오디오를 수집하고;
    상기 수집된 후보 곡 오디오에 따라 각각의 후보 곡에 대응하는 후보 곡 곡조를 결정하고;
    텍스트 샘플을 획득하고;
    상기 텍스트 샘플 및 상기 후보 곡 곡조에 따라 트레이닝을 통해 상기 곡조 제어 모델을 획득함으로써
    트레이닝되는 방법.
  3. 제1항에 있어서,
    대상 발성 객체(target speaking object)를 결정하는 단계를 추가로 포함하고,
    곡조 제어 모델에 따라 상기 대상 텍스트 및 상기 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하는 단계는
    상기 대상 발성 객체에 대응하는 곡조 제어 모델을 찾는 단계; 및
    상기 발견된 곡조 제어 모델에 따라, 상기 대상 텍스트 및 상기 대상 곡의 곡조 정보를 사용하여 상기 자작곡을 합성하는 단계 - 상기 자작곡의 음색은 상기 대상 발성 객체에 따름 -
    를 포함하는 방법.
  4. 제1항에 있어서,
    배경 오디오로서 상기 자작곡을 구성하는 단계; 및
    상기 배경 오디오에 기초하여 비디오를 기록하는 단계
    를 추가로 포함하는 방법.
  5. 복수의 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체로서, 상기 컴퓨터 프로그램들은 컴퓨터 디바이스의 프로세서에 의해 실행될 때, 상기 컴퓨터 디바이스로 하여금 제1항 내지 제4항 중 어느 한 항에 청구된 오디오 합성 방법을 수행하게 하는 컴퓨터 판독가능 저장 매체.
  6. 메모리 및 프로세서를 포함하는 컴퓨터 디바이스로서, 상기 메모리는 복수의 컴퓨터 프로그램을 저장하고, 상기 컴퓨터 프로그램들은 상기 프로세서에 의해 실행될 때, 상기 컴퓨터 디바이스로 하여금 제1항 내지 제4항 중 어느 한 항에 청구된 오디오 오디오 합성 방법을 수행하게 하는 컴퓨터 디바이스.
  7. 오디오 합성 장치로서,
    대상 텍스트를 획득하도록 구성된 획득 모듈;
    제1 선택 명령에 따라 대상 곡을 결정하도록 구성된 결정 모듈 - 상기 획득 모듈은 곡조 제어 모델에 따라 상기 대상 텍스트 및 상기 대상 곡의 곡조 정보를 사용하여 자작곡을 합성하도록 추가로 구성되고, 상기 대상 텍스트는 상기 자작곡의 가사로서 사용되고, 상기 곡조 제어 모델은 곡조 제어 능력을 갖는 머신 학습 모델이고, 상기 머신 학습 모델은 신경 네트워크 모델임 -; 및
    상기 자작곡을 재생하도록 구성된 재생 모듈
    을 포함하고,
    상기 획득 모듈은 상기 대상 곡과 매칭하는 상기 곡조 정보를 찾고; 상기 곡조 제어 모델 내로 상기 대상 텍스트 및 상기 곡조 정보를 입력하고, 상기 곡조 제어 모델의 숨겨진 계층을 사용하여 상기 곡조 정보에 따라 상기 대상 텍스트 내의 각각의 문자에 대응하는 곡조 특징(tune feature)을 결정하고; 상기 곡조 제어 모델의 출력 계층을 사용하여, 음성 합성이 상기 대응하는 곡조 특징에 따라 상기 대상 텍스트 내의 각각의 문자에 대해 수행된 후에 발생된 상기 자작곡을 출력하도록 구성되고,
    상기 장치는:
    인터페이스에서 가상 물체 추가 요소 리스트를 제공하고; 상기 가상 물체 추가 요소 리스트 내의 가상 물체 추가 요소에 대응되는 제2 선택 명령을 수신하고 - 상기 가상 물체 추가 요소는 가상 물체 영상인 시각적 콘텐트를 갖는 데이터이고 영상 콘텐트를 수정하기 위해 영상에 추가됨 -;상기 제2 선택 명령에 따라 결정되는 상기 가상 물체 추가 요소에 대응되는 가상 물체를 결정하고 상기 가상 물체를 대상 발성 객체로서 사용하고; 상기 대상 발성 객체를 매칭하는 음색 제어 모델에 따라 상기 대상 텍스트를 사용하여 자작 오디오를 합성하고 - 상기 음색 제어 모델은 트레이닝 후에 음색 제어 능력을 가지는 머신 학습 모델이고, 상기 음색 제어 모델을 트레이닝하기 위한 데이터는 상기 음색 제어 모델 및 상기 곡조 정보에 의해 출력된 상기 자작 오디오를 포함함 -; 상기 자작 오디오를 배경 오디오로서 구성하고; 비디오 프레임을 획득하기 위해 취득된 영상에 상기 가상 물체 추가 요소를 중첩하고; 상기 배경 오디오 및 중첩을 통해 획득된 상기 비디오 프레임을 사용하여 기록된 비디오를 발생하도록 구성된 처리 모듈을 더 포함하는, 오디오 합성 장치.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020207024631A 2018-07-05 2019-05-31 오디오 합성 방법, 저장 매체 및 컴퓨터 장비 KR102500087B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810730283.3 2018-07-05
CN201810730283.3A CN110189741B (zh) 2018-07-05 2018-07-05 音频合成方法、装置、存储介质和计算机设备
PCT/CN2019/089678 WO2020007148A1 (zh) 2018-07-05 2019-05-31 音频合成方法、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
KR20200115588A KR20200115588A (ko) 2020-10-07
KR102500087B1 true KR102500087B1 (ko) 2023-02-16

Family

ID=67713854

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207024631A KR102500087B1 (ko) 2018-07-05 2019-05-31 오디오 합성 방법, 저장 매체 및 컴퓨터 장비

Country Status (7)

Country Link
US (1) US12046225B2 (ko)
EP (1) EP3736806A4 (ko)
JP (1) JP7317850B2 (ko)
KR (1) KR102500087B1 (ko)
CN (1) CN110189741B (ko)
TW (1) TWI774967B (ko)
WO (1) WO2020007148A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910917B (zh) * 2019-11-07 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 音频片段的拼接方法及装置
CN111161695B (zh) * 2019-12-26 2022-11-04 北京百度网讯科技有限公司 歌曲生成方法和装置
CN111429881B (zh) * 2020-03-19 2023-08-18 北京字节跳动网络技术有限公司 语音合成方法、装置、可读介质及电子设备
CN111415399B (zh) * 2020-03-19 2023-12-22 北京奇艺世纪科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN111445892B (zh) * 2020-03-23 2023-04-14 北京字节跳动网络技术有限公司 歌曲生成方法、装置、可读介质及电子设备
CN111477199B (zh) * 2020-04-02 2021-11-30 北京瑞迪欧文化传播有限责任公司 一种嵌入式音乐控制系统
TWI838509B (zh) * 2020-04-06 2024-04-11 陳樟卿 用於現場演奏之觸控式伴奏混音系統
CN111653265B (zh) * 2020-04-26 2023-08-18 北京大米科技有限公司 语音合成方法、装置、存储介质和电子设备
CN111583972B (zh) * 2020-05-28 2022-03-25 北京达佳互联信息技术有限公司 歌唱作品生成方法、装置及电子设备
CN111757163B (zh) * 2020-06-30 2022-07-01 北京字节跳动网络技术有限公司 视频播放的控制方法、装置、电子设备和存储介质
CN111899706B (zh) * 2020-07-30 2024-08-23 广州酷狗计算机科技有限公司 音频制作方法、装置、设备及存储介质
CN112331222B (zh) * 2020-09-23 2024-07-26 北京捷通华声科技股份有限公司 一种转换歌曲音色的方法、系统、设备及存储介质
CN112509538A (zh) * 2020-12-18 2021-03-16 咪咕文化科技有限公司 音频处理方法、装置、终端及存储介质
CN113223486B (zh) * 2021-04-29 2023-10-17 北京灵动音科技有限公司 信息处理方法、装置、电子设备及存储介质
CN113436601A (zh) * 2021-05-27 2021-09-24 北京达佳互联信息技术有限公司 音频合成方法、装置、电子设备及存储介质
CN113591489B (zh) * 2021-07-30 2023-07-18 中国平安人寿保险股份有限公司 语音交互方法、装置及相关设备
CN113870818A (zh) * 2021-09-14 2021-12-31 杭州网易云音乐科技有限公司 歌曲和弦编配模型的训练方法、装置、介质和计算设备
CN113946254B (zh) * 2021-11-01 2023-10-20 北京字跳网络技术有限公司 内容显示方法、装置、设备及介质
CN113763924B (zh) * 2021-11-08 2022-02-15 北京优幕科技有限责任公司 声学深度学习模型训练方法、语音生成方法及设备
CN113920979B (zh) * 2021-11-11 2023-06-02 腾讯科技(深圳)有限公司 语音数据的获取方法、装置、设备及计算机可读存储介质
CN117012170A (zh) * 2022-04-29 2023-11-07 脸萌有限公司 一种音乐生成方法、装置、系统及存储介质
CN117012169A (zh) * 2022-04-29 2023-11-07 脸萌有限公司 一种音乐生成方法、装置、系统以及存储介质
CN117059052A (zh) * 2022-05-07 2023-11-14 脸萌有限公司 歌曲生成方法、装置、系统及存储介质
CN116153338B (zh) * 2023-04-23 2023-06-20 深圳市声菲特科技技术有限公司 一种调音参数的加载方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132281A (ja) * 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置
JP2003195876A (ja) * 2001-12-26 2003-07-09 Funai Electric Co Ltd カラオケシステム
US20110219940A1 (en) * 2010-03-11 2011-09-15 Hubin Jiang System and method for generating custom songs

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9711339D0 (en) * 1997-06-02 1997-07-30 Isis Innovation Method and apparatus for reproducing a recorded voice with alternative performance attributes and temporal properties
TW200515186A (en) * 2003-10-24 2005-05-01 Inventec Multimedia & Telecom System and method for integrating multimedia data for editing and playing
JP2005321706A (ja) * 2004-05-11 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> 電子書籍の再生方法及びその装置
KR100731761B1 (ko) * 2005-05-02 2007-06-22 주식회사 싸일런트뮤직밴드 인터넷을 통한 음악제작 시스템 및 방법
TWI394142B (zh) * 2009-08-25 2013-04-21 Inst Information Industry 歌聲合成系統、方法、以及裝置
CN101789255A (zh) * 2009-12-04 2010-07-28 康佳集团股份有限公司 一种基于手机原有歌曲更改歌词的处理方法及手机
JP5598056B2 (ja) * 2010-03-30 2014-10-01 ヤマハ株式会社 カラオケ装置およびカラオケ曲紹介プログラム
JP5974436B2 (ja) * 2011-08-26 2016-08-23 ヤマハ株式会社 楽曲生成装置
EP2930714B1 (en) * 2012-12-04 2018-09-05 National Institute of Advanced Industrial Science and Technology Singing voice synthesizing system and singing voice synthesizing method
CN103117057B (zh) * 2012-12-27 2015-10-21 安徽科大讯飞信息科技股份有限公司 一种特定人语音合成技术在手机漫画配音中的应用方法
JP2017532608A (ja) * 2014-08-22 2017-11-02 ザイア インクZya, Inc. テキストメッセージを音楽組成物に自動的に変換するシステム及び方法
US9305530B1 (en) * 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
JP6728754B2 (ja) * 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
JP6622505B2 (ja) * 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN105068748A (zh) * 2015-08-12 2015-11-18 上海影随网络科技有限公司 触屏智能设备的摄像头实时画面中用户界面交互方法
CN106131475A (zh) * 2016-07-28 2016-11-16 努比亚技术有限公司 一种视频处理方法、装置及终端
CN107799119A (zh) * 2016-09-07 2018-03-13 中兴通讯股份有限公司 音频制作方法、装置及系统
CN106652984B (zh) * 2016-10-11 2020-06-02 张文铂 一种使用计算机自动创作歌曲的方法
CN106971703A (zh) * 2017-03-17 2017-07-21 西北师范大学 一种基于hmm的歌曲合成方法及装置
US10818308B1 (en) * 2017-04-28 2020-10-27 Snap Inc. Speech characteristic recognition and conversion
CN109716326A (zh) * 2017-06-21 2019-05-03 微软技术许可有限责任公司 在自动聊天中提供个性化歌曲
US11475867B2 (en) * 2019-12-27 2022-10-18 Spotify Ab Method, system, and computer-readable medium for creating song mashups
WO2023058173A1 (ja) * 2021-10-06 2023-04-13 ヤマハ株式会社 音制御装置およびその制御方法、電子楽器、プログラム
CN115346503A (zh) * 2022-08-11 2022-11-15 杭州网易云音乐科技有限公司 歌曲创作方法、歌曲创作装置、存储介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132281A (ja) * 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置
JP2003195876A (ja) * 2001-12-26 2003-07-09 Funai Electric Co Ltd カラオケシステム
US20110219940A1 (en) * 2010-03-11 2011-09-15 Hubin Jiang System and method for generating custom songs

Also Published As

Publication number Publication date
TW202006534A (zh) 2020-02-01
TWI774967B (zh) 2022-08-21
CN110189741B (zh) 2024-09-06
US20200372896A1 (en) 2020-11-26
EP3736806A1 (en) 2020-11-11
WO2020007148A1 (zh) 2020-01-09
CN110189741A (zh) 2019-08-30
US12046225B2 (en) 2024-07-23
JP2021516787A (ja) 2021-07-08
KR20200115588A (ko) 2020-10-07
EP3736806A4 (en) 2021-10-06
JP7317850B2 (ja) 2023-07-31

Similar Documents

Publication Publication Date Title
KR102500087B1 (ko) 오디오 합성 방법, 저장 매체 및 컴퓨터 장비
CN108806656B (zh) 歌曲的自动生成
JP5895740B2 (ja) 歌唱合成を行うための装置およびプログラム
KR101274961B1 (ko) 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
JP2018537727A5 (ko)
JP6665446B2 (ja) 情報処理装置、プログラム及び音声合成方法
JP2010518459A (ja) 配布オーディオファイル編集用ウェブポータル
CN108053814B (zh) 一种模拟用户歌声的语音合成系统及方法
US20190103083A1 (en) Singing voice edit assistant method and singing voice edit assistant device
Arzt et al. Artificial intelligence in the concertgebouw
KR100664677B1 (ko) 휴대용 단말기에서의 음악 컨텐츠 생성 방법
JP2016070999A (ja) カラオケ効果音設定システム
JP2013231872A (ja) 歌唱合成を行うための装置およびプログラム
JP5193654B2 (ja) デュエットパート歌唱生成システム
Magalhães et al. Recovering Music-Theatre Works Involving Electronic Elements: The Case of Molly Bloom and FE… DE… RI… CO…
JP2023013684A (ja) 歌唱声質変換プログラム及び歌唱声質変換装置
JP2022065554A (ja) 音声合成方法およびプログラム
Furduj Virtual orchestration: a film composer's creative practice
CN112825244A (zh) 配乐音频生成方法和装置
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
JP7503870B1 (ja) 楽曲制作支援プログラム、楽曲制作支援装置、楽曲制作支援方法、及び音楽再生装置
JP7186476B1 (ja) 音声合成装置
Dai et al. An Efficient AI Music Generation mobile platform Based on Machine Learning and ANN Network
Puckette et al. Between the Tracks: Musicians on Selected Electronic Music
JP2020184092A (ja) 情報処理方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right