KR102239650B1 - 음성 변환 방법, 컴퓨터 장치 및 저장 매체 - Google Patents

음성 변환 방법, 컴퓨터 장치 및 저장 매체 Download PDF

Info

Publication number
KR102239650B1
KR102239650B1 KR1020197013802A KR20197013802A KR102239650B1 KR 102239650 B1 KR102239650 B1 KR 102239650B1 KR 1020197013802 A KR1020197013802 A KR 1020197013802A KR 20197013802 A KR20197013802 A KR 20197013802A KR 102239650 B1 KR102239650 B1 KR 102239650B1
Authority
KR
South Korea
Prior art keywords
speech
machine speech
speech unit
machine
computer device
Prior art date
Application number
KR1020197013802A
Other languages
English (en)
Other versions
KR20190065408A (ko
Inventor
하오레이 유안
샤오 메이
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20190065408A publication Critical patent/KR20190065408A/ko
Application granted granted Critical
Publication of KR102239650B1 publication Critical patent/KR102239650B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)

Abstract

음성 변환 방법은: 목표 텍스트를 획득하는 단계; 목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계; 비동기 기계 음성 라이브러리로부터 운율 특징이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계; 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계; 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계; 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하는 단계; 및 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계를 포함한다.

Description

음성 변환 방법, 컴퓨터 장치 및 저장 매체
본 출원은 2017년 2월 21일 출원되고 발명의 명칭이 "SPEECH CONVERSION METHOD AND APPARATUS"인 중국특허출원 No. 2017100938608에 대한 우선권을 주장하는 바이며, 상기 문헌의 내용은 본 명세서에 원용되어 포함된다.
본 출원은 컴퓨터 기술 분야에 관한 것이며, 특히 음성 변환 방법, 컴퓨터 장치 및 저장 매체에 관한 것이다.
컴퓨터 기술이 발전함에 따라 음성 내용 변환이 점점 더 폭넓게 적용되고 있으며, 예를 들어, 오디오 픽션 리딩(audio fiction reading) 또는 음성 내비게이션에서 개인화된 사운드를 실현하고 있다. 생활수준이 향상됨에 따라 사람들은 더 이상 음성 콘텐츠 변환에서 음색만 변환하는 것에 만족하지 않으며 변환된 음성이 특정 화자의 음성 습관 및 음성 스타일에 더 잘 부합할 것을 요구하고 있다.
종래의 음성 내용 변환 기술에서는 변환에 의해 대상 화자의 음성을 획득할 필요가 있는 경우, 주로 화자 변환 방법을 이용하여 다른 화자의 음성을 대상 화자의 음성으로 변환한다. 그렇지만, 종래의 음성 변환 방법을 사용하여 획득된 음성은 화자의 음성 스타일을 진정으로 반영할 수 없다. 결과적으로, 음성 변환 효과는 실제 화자와 어느 정도 차이가 난다.
본 출원의 실시예는 음성 변환 방법, 컴퓨터 장치 및 저장 매체를 제공한다.
음성 변환 방법은:
컴퓨터 장치가 목표 텍스트를 획득하는 단계;
상기 컴퓨터 장치가 목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계;
상기 컴퓨터 장치가 비동기 기계 음성 라이브러리로부터 운율 특징(prosodic feature)이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계;
상기 컴퓨터 장치가 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계;
상기 컴퓨터 장치가 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계;
상기 컴퓨터 장치가 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성(acoustic feature)에 부합하는 동기 기계 음성 유닛을 선택하는 단계; 및
상기 컴퓨터 장치가 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계
를 포함하며,
동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용 및 화자 음성 라이브러리의 텍스트 내용은 동일하고, 화자 음성 라이브러리의 운율 특징은 동기 기계 음성 라이브러리의 운율 특징에 부합한다.
컴퓨터 장치는 메모리 및 프로세서를 포함하며, 상기 메모리는 컴퓨터 판독 가능형 명령을 저장하며, 컴퓨터 판독 가능형 명령이 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령은 프로세서로 하여금 다음의 단계:
목표 텍스트를 획득하는 단계;
목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계;
비동기 기계 음성 라이브러리로부터 운율 특징이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계;
비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계;
동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계;
동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하는 단계; 및
화자 음성 라이브러리 내의, 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계
를 수행하게 하며,
동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용 및 화자 음성 라이브러리의 텍스트 내용은 동일하고, 화자 음성 라이브러리의 운율 특징은 동기 기계 음성 라이브러리의 운율 특징에 부합한다.
컴퓨터 판독 가능형 명령을 저장하는 하나 이상의 비휘발성 저장 매체가 제공되며, 컴퓨터 판독 가능형 명령이 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령이 하나 이상의 프로세서로 하여금 다음의 단계:
목표 텍스트를 획득하는 단계;
목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계;
비동기 기계 음성 라이브러리로부터 운율 특징이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계;
비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계;
동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계;
동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하는 단계; 및
화자 음성 라이브러리 내의, 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계
를 수행하게 하며,
동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용 및 화자 음성 라이브러리의 텍스트 내용은 동일하고, 화자 음성 라이브러리의 운율 특징은 동기 기계 음성 라이브러리의 운율 특징에 부합한다.
본 출원의 하나 이상의 실시예에 대한 설명은 이하의 첨부 도면 및 상세한 설명에 제공된다. 본 출원의 다른 특징, 목적 및 이점은 명세서, 첨부 도면 및 특허청구범위에서 자명하게 된다.
본 발명의 실시예의 기술적 솔루션을 더 명확하게 설명하기 위해, 이하에서는 본 발명의 실시예를 설명하는 데 필요한 첨부된 도면에 대해 간략하게 설명한다. 당연히, 이하의 실시예의 첨부된 도면은 본 발명의 일부의 실시예에 지나지 않으며, 당업자라면 창조적 노력 없이 첨부된 도면으로부터 다른 도면을 도출해낼 수 있을 것이다.
도 1은 실시예에 따른 음성 변환 방법을 실행하기 위한 컴퓨터 장치에 대한 개략적인 구조도이다.
도 2는 실시예에 따라 단말 상에서 음성 변환 방법을 실행하는 인터페이스에 대한 개략적인 도면이다.
도 3은 실시예에 따른 음성 변환 방법에 대한 개략적인 흐름도이다.
도 4는 실시예에 따라 운율 특징이 비동기 기계 음성 라이브러리로부터의 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계에 대한 개략적인 흐름도이다.
도 5는 실시예에 따라 비동기 기계 음성 라이브러리로부터의 제2 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛을 선택하는 단계에 대한 개략적인 흐름도이다.
도 6은 실시예에 따라 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계에 대한 개략적인 흐름도이다.
도 7은 실시예에 따라 인접 화자 음성 유닛을 스플라이싱하는 개략도이다.
도 8은 실시예에 따라 음성 라이브러리를 구축하는 논리 블록도이다.
도 9는 실시예에 따른 음성 변환 방법의 논리 블록도이다.
도 10은 실시예에 따른 컴퓨터 장치의 블록 구조도이다.
도 11은 다른 실시예에 따른 컴퓨터 장치의 블록 구조도이다.
본 발명의 실시예의 목적, 기술적 솔루션, 및 이점을 더 잘 이해할 수 있도록 하기 위해, 이하에서는 본 발명의 실시예의 첨부된 도면을 참조하여 본 발명의 실시예에 따른 기술적 솔루션에 대해 명확하고 완전하게 설명한다. 여기에 설명된 특정 실시예는 본 출원을 제한하는 대신 본 출원을 설명하는 데 사용될 뿐임을 이해해야 한다.
도 1은 실시예에 따른 음성 변환 방법을 실행하기 위한 컴퓨터 장치에 대한 개략적인 구조도이다. 컴퓨터 장치는 서버 또는 단말일 수 있으며, 단말은 데스크톱 단말 또는 이동 단말일 수 있으며, 이동 단말은 구체적으로 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터과 같은 것들 중 적어도 하나일 수 있다. 도 1에 도시된 바와 같이, 컴퓨터 장치는 시스템 버스를 이용해서 접속되는 프로세서, 메모리, 및 네트워크 인터페이스를 포함한다. 메모리는 비휘발성 저장 매체 및 내부 메모리를 포함한다. 컴퓨터 장치의 비휘발성 저장 매체는 운영체제 및 컴퓨터 판독 가능형 명령을 저장할 수 있다. 컴퓨터 판독 가능형 명령이 실행될 때, 프로세서는 음성 변환 방법을 수행하도록 되어 있다. 프로세서는 컴퓨팅 및 제어 성능을 제공하도록 구성되고 전체 단말의 운영을 지원한다. 컴퓨터 장치의 내부 메모리는 컴퓨터 판독 가능형 명령을 저장할 수 있으며, 컴퓨터 판독 가능형 명령이 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령은 프로세서로 하여금 음성 변환 방법을 수행하게 한다. 당업자는 도 1에 도시된 구조가 본 출원의 솔루션과 관련된 부분 구조에 대한 블록도에 불과하며 본 출원의 솔루션이 적용되는 컴퓨터 장치를 제한하지 않는다는 것을 이해할 수 있을 것이다. 컴퓨터 장치는 구체적으로 도면에 도시된 구성요소보다 더 많은 또는 더 적은 구성요소를 포함할 수도 있고 일부의 구성요소는 결합될 수도 있으며 서로 다른 구성요소 배치가 사용될 수도 있다.
도 2는 실시예에 따라 단말 상에서 음성 변환 방법을 실행하는 인터페이스에 대한 개략적인 도면이다. 구체적으로, 단말은 음성 변환 방법을 수행하는 데 사용되는 애플리케이션 프로그램을 실행할 수 있다. 도 2의 좌측에 도시된 바와 같이, 사용자는 애플리케이션 프로그램을 실행하고 멀티미디어 데이터를 플레이할 수 있다. 멀티미디어 데이터에 포함된 음성이 콘텐츠 오류를 가지고 있고 정정될 필요가 있을 때, 또는 음성이 비디오 픽처에 기초해서 조정될 필요가 있을 때, 사용자는 재생된 멀티미디어 데이터에서 정정 또는 조정될 필요가 있는 음성을 결정하고 리다이렉션 포털(redirection portal)(210)을 사용해서 도 2의 우측 도면에 도시된 인터페이스로 점프할 수 있다. 사용자는 애플리케이션 프로그램에 의해 제공되는 텍스트 입력 박스(220)에 텍스트 내용을 입력할 수 있다. 텍스트 콘텐츠는 정정 또는 조정될 필요가 있는 음성에 대응하는 정확한 텍스트 콘텐츠이다. 이 방식에서, 애플리케이션 프로그램이 텍스트 입력 박스에서 사용자에 의해 입력된 텍스트 콘텐츠를 음성으로 변환한 후, 변환에 의해 획득된 음성은 정정 또는 조정될 필요가 있는 음성을 대체할 수 있다.
다른 시나리오에서, 예를 들어, 애플리케이션 프로그램은 구체적으로 소셜 애플리케이션 프로그램일 수 있다. 소셜 애플리케이션 프로그램을 이용해서 사회적 대화 동안 대상 화자 음성을 보내려 할 때, 사용자는 소셜 애플리케이션 프로그램에서 제공하는 텍스트 입력 박스에 텍스트 내용을 입력할 수 있다. 텍스트 내용은 사용자가 합성하려고 하는 음성에 대응하는 텍스트 내용이다. 이 방식에서, 사용자가 텍스트 입력 박스에 입력하는 텍스트 내용을 음성으로 변환한 후, 소셜 애플리케이션 프로그램은 대화에 의해 획득된 음성을 송신할 수 있다.
구체적으로, 사용자에 의해 입력된 텍스트 내용을 획득한 후, 단말은 텍스트 내용을 목표 텍스트로 사용하고 목표 텍스트에 대응하는 제1 기계 음성을 합성하고, 비동기 기계 음성 라이브러리로부터 운율 특징(prosodic feature)이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하며, 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하여 화자의 음성 유형에 부합하는 운율 특징을 획득한다.
또한, 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하고, 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성(acoustic feature)에 부합하는 동기 기계 음성 유닛을 선택하며, 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성(target speaker speech)을 획득할 수 있다. 대상 화자 음성을 획득한 후, 단말은 그 획득된 목표 텍스트를 현재의 대화 중에 다른 대화 사용자에 대응하는 단말에 송신할 수 있다.
동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용, 및 화자 음성 라이브러리의 텍스트 내용은 같으며, 화자 음성 라이브러리의 운율 특징 및 동기 기계 음성 라이브러리의 운율 특징은 서로 부합한다. 다른 실시예에서, 단말은 비동기 기계 음성 라이브러리, 동기 기계 음성 라이브러리 및 화자 음성 라이브러리를 서버에 업로드하며, 이에 따라 서버 역시 비동기 기계 음성 라이브러리, 동기 기계 음성 라이브러리 및 화자 음성 라이브러리에 기초하여 음성 변환 방법을 실행할 수 있다.
도 3에 도시된 바와 같이, 실시예는 음성 변환 방법을 제공하며, 본 실시예는 이 방법이 도 1의 단말에 적용되는 예를 사용해서 설명한다. 방법은 구체적으로 다음의 단계를 포함한다:
S302: 목표 텍스트를 획득한다.
목표 텍스트는 변환될 대상 화자 음성에 대응하는 텍스트 내용이다. 텍스트 내용은 하나 이상의 문자가 순서대로 형성되는 캐릭터 스트링이다. 본 실시예에서, 변환될 대상 화자 음성에 대응하는 텍스트 내용은 화자가 말한 내용이 아니다.
구체적으로, 단말은 사용자가 입력 인터페이스를 사용해서 입력하고 음성 변환을 요구하는 텍스트 내용을 획득하며, 그 획득된 텍스트 내용을 목표 텍스트로 사용한다.
S304: 목표 텍스트에 대응하는 제1 기계 음성을 합성한다.
기계 음성은 프로세싱에 의해 자동 음성 합성 시스템에 의해 획득되고 이 자동 음성 합성 시스템의 음성 유형에 부합하는 오디오 데이터이다. 제1 기계 음성은 음색 및 운율 특징이 모두 자동 음성 합성 시스템의 음성 유형에 부합하는 기계 음성이다. 음색은 음원에 의해 만들어진 소리의 특성을 말하고 다른 음원에 의해 만들어진 소리의 음색은 다른 자료 및 구조로 인해 다르다. 음색은 물리학에서 스펙트럼 파라미터로 나타내어진다. 운율 특징은 음원에 의해 만들어진 소리의 기본적인 톤과 리듬이고 물리학에서 기본 주파수 파라미터, 지속시간 분포 및 신호 강도에 의해 나타내어진다. 자동 음성 합성 시스템은 음성 합성에 사용되는 시스템이고, 구체적으로 텍스트 대 음성(text to speech, TTS) 파라미터 합성 시스템일 수 있다.
구체적으로, 목표 텍스트를 획득한 후, 단말은 TTS 파라미터 합성 시스템에 기초하여 음성을 합성할 수 있다. 단말은 먼저 목표 텍스트에 대해 언어학 분석을 수행하여, 텍스트의 문장 분할, 단어 분할, 다성 문자 처리, 디지트 처리, 단축 처리 등을 포함하여 각 단어의 문장 및 음소 구성의 계층 구조를 결정할 수 있다. 단말은 그런 다음 자동 음성 합성 시스템을 사용해서 처리된 텍스트에 대해 소리 합성을 수행하고, TTS 운율 특징에 기초해서 처리된 텍스트를 음성 파형으로 변환하여 제1 기계 음성을 획득한다.
S306: 운율 특징이 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 선택한다. 동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용, 화자 음성 라이브러리의 텍스트 내용은 같고, 화자 음성 라이브러리의 운율 특징 및 동기 기계 음성 라이브러리의 운율 특징은 서로 부합한다.
화자 음성 라이브러리는 수 개의 화자 음성 유닛 시퀀스를 포함한다. 화자 음성 유닛 시퀀스는 적어도 하나의 화자 음성 유닛에 의해 순서대로 형성된 시퀀스이다. 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스는 모두 화자의 내력 음성으로부터 선택된다. 음색 및 운율 특징은 모두 화자의 음성 유형에 부합한다.
화자 음성 라이브러리 내의 각각의 화자 음성 유닛 시퀀스는 화자 음성 유닛 시퀀스와 동일한 텍스트 내용을 가지는 기계 음성 유닛을 가진다. 기계 음성 유닛 시퀀스의 운율 특징은 화자의 운율 특징에 부합하지 않기 때문에, 기계 음성 유닛 시퀀스를 비동기 기계 음성 유닛 시퀀스라 한다. 비동기 기계 음성 유닛 시퀀스는 비동기 기계 음성 라이브러리를 형성한다.
화자 음성 라이브러리 내의 각각의 화자 음성 유닛 시퀀스는 화자 음성 유닛 시퀀스와 동일한 텍스트 내용을 가지며 그리고 부합하는 운율 특징을 가지는 기계 음성 유닛을 가진다. 기계 음성 유닛 시퀀스의 운율 특징은 화자의 운율 특징에 부합하기 때문에, 기계 음성 유닛 시퀀스를 동기 기계 음성 유닛 시퀀스라 한다. 동기 기계 음성 유닛 시퀀스는 동기 기계 음성 라이브러리를 형성한다.
또한, 비동기 기계 음성 라이브러리, 동기 기계 음성 라이브러리 및 화자 음성 라이브러리는 텍스트 내용에 기초해서 정렬될 수 있고, 병렬 음성 라이브러리로 결합될 수 있다. 비동기 기계 음성 라이브러리, 동기 기계 음성 라이브러리 및 화자 음성 라이브러리는 모두 파일, 데이터베이스, 또는 캐시에 저장될 수 있고, 필요에 따라 파일, 데이터베이스, 또는 캐시로부터 획득될 수 있다.
구체적으로, 단말은 열거를 통해 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스를 순서대로 획득하고, 획득된 비동기 기계 음성 라이브러리의 운율 특징과 제1 기계 음성의 운율 특징을 비교하고, 비동기 기계 음성 라이브러리와 제1 기계 음성에 포함된 각각의 비동기 기계 음성 유닛 시퀀스를 비교를 완료한 후, 운율 특징이 제1 기계 음성의 운율 특징과 대부분 유사한 비동기 기계 음성 유닛 시퀀스를 부합된 비동기 기계 음성 유닛 시퀀스로서 선택할 수 있다.
운율 특징을 비교하는 단계는 각각의 비동기 기계 음성 유닛 시퀀스에 대응하는 기본 주파수 파라미터와 제1 기계 음성을 비교하는 단계, 및 각각의 비동기 기계 음성 유닛 시퀀스에 대응하는 지속시간 분포와 제1 기계 음성을 비교하는 단계를 포함한다.
S308: 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색한다.
음성 유닛은 단말에 의해 정의되는 시간 차원이다. 이 실시예에서, 단말은 중국어 병음 구축 방식에 기초해서 내력 화자 음성에 대해 음성 유닛 분할을 수행한다. 중국어 "unit"의 병음은 "danyuan"이고, 4개의 음성 유닛이 중국어 병음 구축 방식에 기초해서 분할을 통해 획득될 수 있으며, 각각 "d", "an", "y", 및 "uan"이다. 다른 실시예에서, 단말은 대안으로 문자, 음소 등에 기초해서 음성 유닛 분할을 수행할 수 있다.
구체적으로, 단말은 비동기 기계 음성 유닛 시퀀스와의 대응관계가 텍스트 내용을 사용해서 구축되는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하여 동기 기계 음성 유닛 시퀀스를 획득한다.
S310: 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성한다.
제2 기계 음성은 음색이 자동 음성 합성 시스템의 음성 유형에 부합하지만 운율 특징은 화자 음성 유형에 부합하는 기계 음성이다. 제2 기계 음성 및 제1 기계 음성 모두는 기계 음성이지만 서로 다른 기계 음성이다.
구체적으로, 단말은 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 자동 음성 합성 시스템을 사용함으로써 화자의 운율 특징에 부합하는 제2 기계 음성을 합성할 수 있다.
예를 들어, 목표 텍스트 내용 "xiao qiao liu shui ren jia"인 것으로 가정하면, TTS 파라미터 합성 시스템 및 TTS 운율 특징에 기초해서 합성된 제1 기계 음성은 "xiao qiao liu-shui-ren jia"이고, 동기 기계 음성 라이브러리로부터 찾아낸 동기 기계 음성 유닛 시퀀스는 "kuteng-laoshu-hunya"이고, TTS 파라미터 합성 시스템 및 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초해서 합성된 제2 기계 음성은 "xiao qiao-liu shui-ren jia"이고, 여기서 "-"는 일시중지를 나타낸다.
S312: 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택한다.
음향 특성은 물리학에서 음원의 진동에 의해 발생되는 소리 파형의 특성이다. 음향 파라미터는 음향 특성을 나타내는 데 사용되는 파라미터이고, 구체적으로 기본 주파수 파라미터, 스펙트럼 파라미터, 비주기적 신호 파라미터 등을 포함한다.
구체적으로, 단말은 생성 단계에서 제2 기계 음성의 유닛 분할에 기초해서 대응하는 기계 음성 유닛 시퀀스를 획득하고, 생성 단계에서 각각의 음성 유닛의 발음 주석에 기초하여 후보 동기 기계 음성 유닛과 동일한 발음을 가지는 동기 기계 음성 유닛에 대한 동기 기계 음성 라이브러리를 검색한다.
그런 다음 단말은 동기 기계 음성 라이브러리에 저장되어 있고 후보 동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터를 검색하고, 찾아낸 유닛 음향 파라미터와 제2 기계 음성 내의 음성 유닛의 대응하는 유닛 음향 파라미터를 일대일로 비교하며, 제2 기계 음성의 음향 파라미터와 대부분 유사한 후보 동기 기계 음성 유닛을 부합된 음향 특성을 가지는 화자 음성으로 선택한다.
S314: 화자 음성 라이브러리 내의 동기 기계 음성 유닛 시퀀스에 대응하는 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다.
구체적으로, 단말은 동기 기계 음성 유닛 시퀀스와의 대응관계가 텍스트 내용을 사용해서 구축되는 화자 음성 유닛에 대한 화자 음성 라이브러리를 검색하고, 찾아낸 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다.
음성 변환 방법에서, 스플라이싱을 통해 목표 화자 음성을 획득하는 데 사용되는 음성 유닛을 화자 음성 라이브러리로부터 선택하고, 스플라이싱되고 변환된 음성은 화자의 음색을 유지한다. 또한, 비동기 기계 음성 라이브러리 내의 기계 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스와 동기 기계 음성 라이브러리 내의 화자의 운율 특징에 부합하는 동기 기계 음성 유닛 시퀀스 간의 대응관계가 사용된다. 기계 운율 특징에 부합하는 제1 기계 음성이 합성된 후, 화자의 음성 유형에 부합하는 운율 특징을 대응관계에 기초하여 결정한다. 그런 다음 운율 특징에 기초하여 제2 기계 음성을 합성하고, 제2 기계 음성의 운율 특징에 부합하는 동기 기계 음성 유닛을 제2 기계 음성의 운율 특징에 기초하여 동기 기계 음성 라이브러리로부터 선택한다. 화자 음성 라이브러리 내의 선택된 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득하고 이에 의해 화자의 운율 특징을 유지한다. 이 방식에서, 화자의 음색 및 화자의 운율 특징이 유지되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합하므로 음성 변환 효과를 향상시킨다.
도 4에 도시된 바와 같이, 일 실시예에서, 단계 S306은 다음의 단계를 포함한다:
S402: 제1 기계 음성에 기초하여 비동기 기계 음성 라이브러리로부터 후보 비동기 기계 음성 유닛 시퀀스를 획득한다.
구체적으로, 단말은 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량에 기초하여 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스를 미리 분류할 수 있다. 제1 기계 음성을 합성한 후, 단말은 제1 기계 음성의 생성 동안 음성 유닛 분할에 기초하여 분할을 통해 획득된 기계 음성 유닛의 수량에 대한 통계를 수집하고, 비동기 기계 음성 라이브러리로부터 통계 수집을 통해 획득된 수량보다 크거나 같은 비동기 기계 음성 유닛의 수량을 포함하는 비동기 기계 음성 유닛 시퀀스를 획득하여 후보 음성 유닛 시퀀스로서 서비스한다.
일 실시예에서, 단계 S402는 구체적으로: 제1 기계 음성에 포함된 기계 음성 유닛의 수량을 결정하는 단계, 및 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 획득하는 단계를 포함한다.
구체적으로, 단말은 비동기 기계 음성 유닛 시퀀스를 선택하는 데 사용되는 후보 조건을 미리 구성할 수 있다. 후보 조건은 포함된 비동기 기계 음성 유닛의 수량이 제1 기계 음성에 포함된 기계 음성 유닛의 수량과 같다는 것이다. 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 제1 기계 음성에 포함된 기계 음성 유닛의 수량보다 크거나 같을 때, 후보 조건이 충족되는 것으로 결정되며, 비동기 기계 음성 유닛 시퀀스 또는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛 서브시퀀스는 후보 비동기 기계 음성 유닛 시퀀스로 사용된다.
이 실시예에서, 후보 비동기 기계 음성 유닛 시퀀스는 제1 기계 음성에 포함된 기계 음성 유닛의 수량에 기초하여 선택되어 운율 특징 차이를 계산하며, 이에 의해 운율 특징 차리의 후보 결과의 신뢰도를 향상시킨다.
일 실시예에서, 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 획득하는 단계는 구체적으로: 비동기 기계 음성 라이브러리에 포함된 비동기 기계 음성 유닛 시퀀스를 검색하는 단계; 검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 작을 때, 계속 검색하는 단계; 검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량과 같을 때, 검색되는 비동기 기계 음성 유닛 시퀀스를 후보 비동기 기계 음성 유닛 시퀀스로 사용하는 단계; 및 검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 클 때, 상기 포함된 비동기 기계 음성 유닛의 시퀀스 및 상기 결정된 수량에 기초하여 검색되는 비동기 기계 음성 유닛 시퀀스를 분할하여 후보 비동기 기계 음성 유닛 시퀀스를 획득하는 단계를 포함한다.
이 실시예에서, 제2 기계 음성에 포함된 기계 음성 유닛의 수량보다 큰 비동기 기계 음성 유닛의 수량을 포함하는 비동기 기계 음성 유닛 시퀀스는 포함된 비동기 기계 음성 유닛의 시퀀스 및 결정된 수량에 기초하여 비동기 기계 음성 유닛 서브시퀀스를 후보 비동기 기계 음성 유닛 시퀀스로 획득하기 위해 분할되며, 이에 의해 자연스런 언어 일관성에 부합하고, 운율 특징 차이의 계산 결과의 신뢰도를 보장하며, 비동기 기계 음성 라이브러리의 말뭉치 사용(corpus usage)을 향상시킨다.
예를 들어, 제1 기계 음성을 분할하여 3개의 음성 유닛: a-b-c를 획득하는 것으로 가정하면, 단말이 비동기 기계 음성 라이브러리에 포함된 비동기 기계 음성 유닛 시퀀스를 횡단할 때, 횡단되는 비동기 기계 음성 유닛 시퀀스가 d-e일 때, 비동기 기계 음성 유닛 시퀀스는 2개의 비동기 기계 음성 유닛을 포함한다. 이것은 후보 조건 및 횡단 조건에 부합하지 않는다. 횡단되는 비동기 기계 음성 유닛 시퀀스가 f-g-h일 때, 비동기 기계 음성 유닛 시퀀스는 3개의 비동기 기계 음성 유닛을 포함한다. 이것은 후보 조건에 부합하고, 단말은 후보 비동기 기계 음성 유닛 시퀀스로서 "f-g-h"로 직접 사용할 수 있다.
횡단되는 비동기 기계 음성 유닛 시퀀스가 i-j-k-l일 때, 비동기 기계 음성 유닛 시퀀스는 4개의 비동기 기계 음성 유닛을 포함하고, 이것은 후보 조건에 부합한다. 그렇지만, 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 제1 기계 음성에 포함된 기계 음성 유닛의 수량보다 크기 때문에, 비동기 기계 음성 유닛 시퀀스는 제1 기계 음성에 포함된 기계 음성 유닛의 수량과 같은 비동기 기계 음성 유닛의 수량을 포함하는 비동기 기계 음성 유닛 서브시퀀스를 획득하기 위해 분할될 필요가 있다. 비동기 기계 음성 유닛 시퀀스가 단방향이 때문에, 단말은 비동기 기계 음성 유닛 서브시퀀스 "i-j-k", "j-k-l", "i-k-l", 및 "i-j-l"을 후보 비동기 기계 음성 유닛 시퀀스로 사용할 수 있다.
S404: 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 결정한다.
구체적으로, 후보 비동기 기계 음성 유닛 시퀀스(들)를 선택한 후, 단말은 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 순서대로 계산할 수 있다.
일 실시예에서, 단계 S404는 구체적으로: 제1 기계 음성을 분할하여 기계 음성 유닛을 획득하는 단계; 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 각각의 대응하는 기계 음성 유닛 간의 운율 파라미터 차이에 기초하여 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 생성하는 단계를 포함하며, 운율 파라미터 차이는 지속시간 차이, 기본 주파수 변화율 차이, 음향 파라미터의 지속시간 분포 차이 및 기본 주파수 변화율의 확률 분포 차이 중 적어도 하나를 포함한다.
구체적으로, 단말은 제1 기계 음성의 합성화 동안 획득되는 제1 기계 음성의 운율 파라미터 및 대응하는 기계 음성 유닛 분할을 사용해서 유닛 운율 파라미터를 획득할 수 있다. 단말은 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛에 대응하는 유닛 운율 파라미터를 추가로 획득하고, 비동기 기계 음성 유닛에 대응하는 유닛 운율 파라미터와 분할된 기계 음성 유닛에 대응하는 유닛 운율 파라미터 간의 차이를 계산하여 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 계산할 수 있다.
이 실시예에서, 운율 특징 차이는 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 운율 특징 차이를 사용해서 계산되며, 운율 특징에 영향을 주는 파라미터는 계산에 사용되며, 이에 의해 운율 특징의 부합 정확도가 향상된다.
비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이는 이하의 식을 사용해서 계산될 수 있다:
Figure 112019049023068-pct00001
Figure 112019049023068-pct00002
는 후보 비동기 기계 음성 유닛 시퀀스 A의 운율 특징 파라미터를 나타내고,
Figure 112019049023068-pct00003
는 제1 기계 음성 B의 운율 특징 파라미터를 나타내고, N은 운율 특징 특징의 계산 동안 선택된 운율 특징의 수량을 니타내고,
Figure 112019049023068-pct00004
은 n번째 운율 특징의 가중치를 나타내고,
Figure 112019049023068-pct00005
는 운율 특징 차이를 나타내며,
Figure 112019049023068-pct00006
의 작은 값은 후보 비동기 기계 음성 유닛 시퀀스 A의 운율 특징 및 제1 기계 음성 B의 운율 특징이 서로 더 잘 부합한다는 것을 나타낸다. 후보 비동기 기계 음성 유닛 시퀀스 A와 제1 기계 음성 B의 운율 특징 차이
Figure 112019049023068-pct00007
는 지속시간 차이, 기본 주파수 변화율 차이, 음향 파라미터의 지속시간 분포 차이 및 기본 주파수 변화율의 확률 분포 차이 중 적어도 하나를 포함한다.
지속시간 차이는 비동기 기계 음성 유닛 이전의 음성 일시 중지 지속시간과 분할에 의해 획득된 대응하는 기계 음성 유닛 이전의 음성 일시 중지 지속시간 간의 차이
Figure 112019049023068-pct00008
, 비동기 기계 음성 유닛 이전의 발음 지속시간과 분할에 의해 획득된 대응하는 기계 음성 유닛 이전의 발음 지속시간 간의 차이
Figure 112019049023068-pct00009
, 및 비동기 기계 음성 유닛 이후의 발음 지속시간과 분할에 의해 획득된 대응하는 기계 음성 유닛 이후의 발음 지속시간 간의 차이
Figure 112019049023068-pct00010
를 포함한다.
Figure 112019049023068-pct00011
는 후보 비동기 기계 음성 유닛 시퀀스 A의 기본 주파수 변화율을 나타내고,
Figure 112019049023068-pct00012
는 제1 기계 음성 B의 기본 주파수 변화율을 나타낸다. 기본 주파수 변화율은 기본 주파수의 제1 도함수이다.
Figure 112019049023068-pct00013
는 후보 비동기 기계 음성 유닛 시퀀스 A와 제1 기계 음성 B 간의 기본 주파수 변화율 차이를 나타낸다.
Figure 112019049023068-pct00014
는 후보 비동기 기계 음성 유닛 시퀀스 A에 대응하는 음향 파라미터의 지속시간 분포를 나타내고,
Figure 112019049023068-pct00015
는 제1 기계 음성 B에 대응하는 음향 파라미터의 지속시간 분포를 나타내고,
Figure 112019049023068-pct00016
는 후보 비동기 기계 음성 유닛 시퀀스 A에 대응하는 음향 파라미터의 지속시간 분포와 제1 기계 음성 B에 대응하는 음향 파라미터의 지속시간 분포 간의 쿨백-라이블러 발산(kullback-leibler divergence, KLD)을 푸는 것을 나타낸다. 이 실시예에서, 가우시안 분포를 이용해서 음향 파라미터의 지속시간 분포에 대해 모델링을 수행하고,
Figure 112019049023068-pct00017
는 후보 비동기 기계 음성 유닛 시퀀스 A의 지속시간 분포의 평균값 및 분산과 같고,
Figure 112019049023068-pct00018
는 제1 기계 음성 B의 지속시간 분포의 평균값 및 분산과 같다.
Figure 112019049023068-pct00019
는 후보 비동기 기계 음성 유닛 시퀀스 A에 대응하는 기본 주파수 변화율의 확률 분포를 나타내고,
Figure 112019049023068-pct00020
는 제1 기계 음성 B에 대응하는 기본 주파수 변화율의 확률 분포를 나타내며,
Figure 112019049023068-pct00021
는 후보 비동기 기계 음성 유닛 시퀀스 A에 대응하는 기본 주파수 변화율의 확률 분포와 제1 기계 음성 B에 대응하는 기본 주파수 변화율의 확률 분포 간의 KL 발산을 푸는 것을 나타낸다. 이 실시예에서,
가우시안 분포를 이용해서 기분 주파수 변화율의 확률 분포에 대해 모델링을 수행하고,
Figure 112019049023068-pct00022
는 후보 비동기 기계 음성 유닛 시퀀스 A의 기본 주파수 변화율의 평균값 및 및 확률 분산과 같고,
Figure 112019049023068-pct00023
는 제1 기계 음성 B의 기본 주파수 변화율의 확률 분포의 평균값 및 분산과 같다.
일차원 단일 가우시안 모델에서, KLD는 구체적으로 다음과 같이 정의된다:
Figure 112019049023068-pct00024
Figure 112019049054208-pct00025
는 후보 비동기 기계 음성 유닛 시퀀스 A의 운율 파라미터가
Figure 112019049054208-pct00026
의 평균값 및
Figure 112019049054208-pct00027
의 분산을 가우시안 분포에 부합한다는 것을 나타낸다.
Figure 112019049054208-pct00068
는 제1 기계 음성 B의 운율 파라미터가
Figure 112019049054208-pct00029
의 평균값 및
Figure 112019049054208-pct00030
의 분산을 가우시안 분포에 부합한다는 것을 나타낸다.
S406: 최소 음율 특징 차이에 대응하는 후보 비동기 기계 음성 유닛 시퀀스를 운율 특징이 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스로 사용한다.
이 실시예에서, 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이가 계산되고 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 선택하기 위한 제한 조건으로 사용되며, 이에 의해 운율 특징을 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
도 5에 도시된 바와 같이, 일 실시예에서, 단계 S312는 구체적으로 이하의 단계를 포함한다:
S502: 제2 기계 음성을 분할하여 기계 음성 유닛을 획득한다.
S504: 분할에 의해 획득된 기계 음성 유닛의 발음 특성을 결정한다.
S506: 발음 특성이 분할에 의해 획득된 기계 음성 유닛의 발음 특성에 부합하는 동기 기계 음성 유닛 부분집합을 동기 기계 음성 라이브러리로부터 선택한다.
구체적으로, 단말은 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛을 횡단하고, 횡단된 동기 기계 음성 유닛의 발음과 횡단 도중의 제2 기계 음성의 주석이 달린 발음과 비교하며, 횡단된 동기 기계 음성 유닛의 발음이 제2 기계 음성의 주석이 달린 발음과 일치할 때, 동기 기계 음성 유닛을 선택하여 발음 특징이 분할에 의해 획득된 기계 음성 유닛의 발음 특징에 부합하는 동기 기계 음성 유닛 부분집합을 획득한다.
S508: 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정한다.
구체적으로, 단말은 각각의 동기 기계 음성 유닛 부분집합 내의 동기 기계 음성 유닛을 횡단하고, 횡단 도중에 횡단된 동기 기계 음성 유닛에 대응하는 음향 파라미터를 획득하며, 획득된 음향 파라미터와 분할에 의해 획득된 대응하는 기계 음성 유닛에 대응하는 음향 파라미터 간의 음향 특성 차이를 하나씩 계산한다.
일 실시예에서, 단계 S508은 구체적으로 이하의 단계: 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛의 음향 파라미터를 결정하는 단계; 분할에 의해 획득된 기계 음성 유닛의 음향 파라미터를 결정하는 단계; 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 대응하는 음향 파라미터 차이를 계산하는 단계; 및 계산된 차이에 기초하여 그 차이와의 양의 상관관계에 있는 음향 특성 차이를 생성한다.
구체적으로, 동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터에 대한 동기 기계 음성 라이브러리를 검색할 수 있다. 단말은 대안으로 제2 기계 음성이 합성될 때 음향 모델을 사용해서 출력되는 제1 기계 음성의 각각의 음성 유닛에 대응하는 유닛 음향 파라미터를 획득할 수 있다.
동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 분할된 기계 음성 유닛 간의 음향 특성 차이는 이하의 식을 사용해서 계산될 수 있다:
Figure 112019049023068-pct00031
Figure 112019049054208-pct00032
는 음향 특성 차이이고, N은 음향 특성 차이가 계산될 때 음향 파라미터의 수량을 나타내고,
Figure 112019049054208-pct00033
는 동기 기계 음성 유닛 a에 대응하는 음향 파라미터를 나타내고,
Figure 112019049054208-pct00034
는 분할에 의해 획득된 대응하는 기계 음성 유닛 b에 대응하는 음향 파라미터를 나타내고,
Figure 112019049054208-pct00035
은 n번째 음향 특성의 가중치를 나타내고,
Figure 112019049054208-pct00036
의 작은 값은 동기 기계 음성 유닛 a의 음향 특성과 분할에 의해 획득된 대응하는 기계 음성 유닛 b의 음향 특성이 서로 더 잘 부합하는 것을 나타낸다.
이 실시예에서, 음향 특성 차이는 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 파라미터 차이를 이용해서 계산되고, 음향 특성에 영향을 주는 파라미터는 계산에 사용되며, 이에 의해 음향 특성의 부합 정확도가 향상된다.
S510: 최소 음향 특성 차이에 대응하는 동기 기계 음성 유닛을 음향 특성이 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛으로 선택한다.
이 실시예에서, 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛과 제2 기계 음성에 포함된 기계 음성 유닛 간의 음향 특성 차이가 계산되며, 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하기 위한 제한 조건으로 사용되며, 이에 의해 음향 특성을 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
도 6에 도시된 바와 같이, 일 실시예에서, 단계 S314는 구체적으로 이하의 단계를 포함한다:
S602: 대응하는 목표 텍스트 내의 발음 시퀀스에 기초하여 선택된 동기 기계 음성 유닛을 분류한다.
구체적으로, 동기 기계 음성 라이브러리를 구축할 때, 단말은 이에 상응해서 동기 기계 음성 라이브러리 내의 각각의 동기 기계 음성 유닛과 동기 기계 음성 유닛의 유닛 발음 간의 대응관계를 구축한다. 동기 기계 음성 유닛을 선택한 후, 단말은 동기 기계 음성 유닛에 대응하는 유닛 발음에 기초하여 목표 텍스트 내의 발음 시퀀스 내의 선택된 동기 기계 음성 유닛을 분류할 수 있다.
S604: 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정한다.
구체적으로, 단말은 인접 동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터를 동기 기계 음성 라이브러리로부터 획득하고, 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터 간의 유사도를 계산하며, 계산된 유사도에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정한다.
일 실시예에서, 단계 S604는 구체적으로: 선택된 동기 기계 음성 유닛을 분할함으로써 획득된 음성 프레임을 획득하는 단계; 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하는 단계 - 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임은 최소 차이를 가짐 - ; 및 중첩된 스플라이싱 음성 프레임의 수량에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하는 단계를 포함한다.
구체적으로, 단말은 음성 프레임의 지속시간, 예를 들어, 5 ms 또는 10 ms를 미리 설정할 수 있다. 단말은 미리 설정된 지속시간에 기초하여 시간 도메인에서 동기 기계 음성 유닛을 추가로 분할하여 복수의 음성 프레임을 획득할 수 있다. 이 실시예에서, 단말은 열거를 통해 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 순서대로 증가시키고, 중첩된 스플라이싱 음성 프레임의 수량의 증가에 기초하여 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임 간의 차이를 하나씩 계산하며, 최소 차이에 대응하는 중첩된 스플라이싱 음성 프레임의 수량을 중첩된 스플라이싱 음성 프레임의 결정된 수량으로 선택한다.
또한, 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정한 후, 단말은 미리 구성된 스플라이싱 기능을 획득하고, 스플라이싱 기능에 기초하여 전면에서 분류된 동기 기계 음성 유닛에 의해 포함된 중첩된 스플라이싱 음성 프레임의 요구된 유지되는 부분과 후면에서 분류된 동기 기계 음성 유닛에 의해 포함된 중첩된 스플라이싱 음성 프레임의 요구된 유지되는 부분을 결정하며, 이에 따라 음향 파라미터 천이는 스플라이싱 후에 자연스런 음성에 더 잘 부합한다.
이 실시예에서, 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임 간의 차이는 인접 동기 기계 음성 유닛의 스플라이싱 위치를 선택하기 위한 제한 조건으로 사용되며, 이에 의해 스플라이싱 위치를 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
다른 실시예에서, 단말은 숨겨진 마르코프 모델(hidden Markov model, HMM)에 기초하여 선택된 동기 기계 음성 유닛으로부터 분할된 음성 상태를 획득하고, 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 상태의 수량을 결정하며 - 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 상태 간의 차이는 최소임 - , 중첩된 스플라이싱 음성 상태의 수량에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정한다.
일 실시예에서, 단말은 이하의 식에 기초하여 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정할 수 있다:
Figure 112019049023068-pct00037
T는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 나타내고, t는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임 중 t번째 프레임을 나타내고,
Figure 112019049023068-pct00038
는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임 중 t번째 프레임의 음성 프레임 차이를 나타내며,
Figure 112019049023068-pct00039
Figure 112019049023068-pct00040
가 최소가 되도록 T를 푸는 것을 나타낸다.
일 실시예에서,
Figure 112019049023068-pct00041
는 이하의 식을 사용해서 계산될 수 있다:
Figure 112019049023068-pct00042
Figure 112019049054208-pct00043
는 인접 동기 기계 음성 유닛이 T개의 중첩된 스플라이싱 음성 프레임을 가질 때의 차이를 나타낸다.
Figure 112019049054208-pct00045
는 인접 동기 기계 음성 유닛에서 전면에서 분류된 음성 유닛에 의해 포함된 중첩된 스플라이싱 음성 프레임 중 t번째 프레임의 음향 파라미터를 나타내고,
Figure 112019049054208-pct00046
는 인접 동기 기계 음성 유닛에서 후면에서 분류된 음성 유닛에 의해 포함된 중첩된 스플라이싱 음성 프레임 중 t번째 프레임의 음향 파라미터를 나타낸다. N은 음성 프레임 차이가 계산될 때 선택된 음향 파라미터의 수량을 나타내고,
Figure 112019049054208-pct00047
은 각각의 선택된 음향 파라미터에 할당된 가중치를 나타내며,
Figure 112019049054208-pct00048
는 각각의 음성 프레임에 할당된 가중치를 나타낸다.
이 실시예는 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임 간의 최소 차이를 보장하는 중첩된 스플라이싱 프레임의 수량을 푸는 데 구체적으로 사용되는 방법을 제공하여 스플라이싱 위치를 더 정확하게 선택할 수 있게 한다.
S606: 동기 기계 음성 유닛에 대응하는 화자 음성 유닛에 대한 화자 음성 라이브러리를 검색한다.
S608: 인접 동기 기계 음성 유닛의 결정된 스플라이싱 위치에 기초하여 대응하는 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다.
구체적으로, 각각의 동기 기계 음성 유닛의 스플라이싱 위치를 결정한 후, 단말은 이 스플라이싱 위치를 대응하는 화자 음성 유닛의 스플라이싱 위치로서 사용하고 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다.
이 실시예에서, 인접 화자 음성 유닛은 결정된 스플라이싱 위치에 기초하여 스플라이싱되므로 스플라이싱 천이가 더 자연스럽고, 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
도 7은 실시예에 따라 인접 화자 음성 유닛을 스플라이싱하는 개략도이다. 도 7에 도시된 바와 같이, 개략도는 정면에서 분류된 화자 음성 유닛(710) 및 후면에서 분류된 화자 음성 유닛(720)을 포함한다. 화자 음성 유닛(710)은 중첩된 스플라이싱된 부분(711)을 포함하고, 중첩된 스플라이싱된 부분(711)은 T개의 음성 프레임을 포함하고, 음성 프레임(712)은 화자 음성 유닛(710)의 중첩된 스플라이싱 된 부분의 t번째 프레임이다. 화자 음성 유닛(720)은 중첩된 스플라이싱된 부분(721)을 포함하고, 중첩된 스플라이싱된 부분(721)은 T개의 음성 프레임을 포함하고, 음성 프레임(722)은 화자 음성 유닛(720)의 중첩된 스플라이싱된 부분의 t번째 프레임이다. 음성 유닛(710)의 중첩된 스플라이싱된 부분의 t번째 프레임은 음성 프레임(722)인 화자 음성 유닛(720)의 중첩된 스플라이싱된 부분의 t번째 프레임과 중첩한다.
일 실시예에서, 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정한 후, 단말은 화자 음성 라이브러리로부터 각각의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 획득할 수 있다. 단말은 대응하는 목표 텍스트 내의 발음 시퀀스에 기초하여 획득된 화자 음성 유닛을 추가로 배열 및 결합하여 복수의 스플라이싱될 화자 음성 시퀀스를 획득하고, 각각의 스플라이싱될 화자 음성 유닛 시퀀스 내의 인접 동기 기계 음성 유닛 간의 차이를 결정하고, 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 대응하는 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이로 사용할 수 있다.
단말은 각각의 스플라이싱될 스피커의 음성 유닛 시퀀스와 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이에 대한 가중치 합산을 수행하여 각각의 스플라이싱될 화자 음성 유닛 시퀀스에 대응하는 목표 비용을 획득할 수 있다. 또한, 단말은 각각의 스플라이싱될 화자 음성 유닛 시퀀스에서의 인접 화자 음성 유닛 간의 차이에 대한 가중 합산을 수행하여, 각각의 스플라이싱될 화자 음성 유닛 시퀀스에 대응하는 스플라이싱 비용을 획득한다.
단말은 각각의 스플라이싱될 화자 음성 유닛 시퀀스에 대응하는 목표 비용 및 스플라이싱 비용을 획득한 후, 동적 계획 방법을 사용하여 목표 비용과 스플라이싱 비용의 최소 합을 보장하는 스플라이싱 방식을 결정한다. 동적 계획은 데이터 계산 방법으로 최적의 솔루션을 해결하는 방법이다.
일 실시예에서, 음성 변환 방법은 비동기 기계 음성 라이브러리 및 동기 기계 음성 라이브러리를 구축하는 프로세스를 포함하며, 구체적으로: 내력 화자 음성을 수집하는 단계; 내력 화자 음성에 대응하는 텍스트 내용을 인식하는 단계; 인식된 텍스트 내용에 기초하여 비동기 기계 음성 유닛 시퀀스를 생성하는 단계; 생성된 비동기 기계 음성 유닛 시퀀스에 기초하여 비동기 기계 음성 라이브러리를 구축하는 단계; 수집된 내력 화자 음성의 운율 특징을 획득하는 단계; 인식된 텍스트 콘텐츠 및 획득된 운율 특징에 기초하여 동기 기계 음성 유닛 시퀀스를 생성하는 단계; 및 생성된 동기 기계 음성 유닛 시퀀스에 기초하여 동기 기계 음성 라이브러리를 구축하는 단계를 포함한다. 비동기 기계 음성 라이브러리 및 동기 기계 음성 라이브러리를 구축하는 프로세스는 S302 이전에 수행될 수 있다.
도 8은 실시예에 따라 음성 라이브러리를 구축하는 논리 블록도이다. 구체적으로, 단말은 내력 화자 음성을 미리 수집할 수 있으며, 수집된 내력 화자 음성은 소리 수집 장치를 사용해서 수집된 음성 파형일 수 있다. 단말은 음성 인식 시스템을 사용해서 각각의 내력 음성 파형에 대한 음성 유닛 분할을 수행하여 대응하는 화자 음성 유닛 시퀀스 및 각각의 유닛 파형을 획득하고, 음성 인식 시스템을 사용해서 각각의 화자 음성 유닛 시퀀스에 대응하는 텍스트 내용을 인식하고, 각각의 화자 음성 유닛 시퀀스 내의 각각의 음성 유닛의 발음 및 지속시간 분포에 대한 주석을 달아 각각의 음성 유닛의 유닛 발음을 획득한다. 단말은 획득되는 유닛 발음, 각각의 유닛 파형 및 각각의 화자 음성 유닛 시퀀스에 기초하여 화자 음성 라이브러리를 구축할 수 있다.
단말은 자동 음성 합성 시스템을 사용하여 각각의 음성 유닛의 발음 주석에 기초하여 각각의 음성 유닛의 발음과 같은 발음을 가지는 비동기 기계 음성 유닛 시퀀스를 합성하고, 비동기 기계 음성 유닛 시퀀스에 대응하는 음성 파형을 획득하며, 음향 모델을 사용함으로써 비동기 기계 음성 유닛 시퀀스에 대응하는 음향 파라미터를 출력한다. 또한, 단말은 비동기 기계 음성 유닛에 기초하여 비동기 기계 음성 유닛 시퀀스에 대응하는 음성 파형 및 음향 파라미터를 분류하여 각각 비동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터 및 유닛 파형을 획득하며, 유닛 발음, 각각의 유닛 파형, 각각의 유닛 음향 파라미터 및 각각의 비동기 기계 음성 유닛 시퀀스에 기초하여 비동기 기계 음성 라이브러리를 구축한다.
단말은 자동 음성 합성 시스템을 사용하여 각각의 음성 유닛의 발음 주석 및 지속시간 분포 주석에 기초하여 각각의 음성 유닛의 발음 및 지속시간 분배와 모두 동일한 발음 및 지속시간 분배를 가지는 동기 기계 음성 유닛 시퀀스를 합성하고, 동기 기계 음성 유닛 시퀀스에 대응하는 음성 파형을 획득하며, 음향 모델을 사용함으로써 비동기 기계 음성 유닛 시퀀스에 대응하는 음향 파라미터를 출력한다. 또한, 단말은 비동기 기계 음성 유닛에 기초하여 비동기 기계 음성 유닛 시퀀스에 대응하는 음성 파형 및 음향 파라미터를 분류하여 각각 비동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터 및 유닛 파형을 획득하며, 유닛 발음, 각각의 유닛 파형, 각각의 유닛 음향 파라미터 및 각각의 동기 기계 음성 유닛 시퀀스에 기초하여 동기 기계 음성 라이브러리를 구축한다.
또한, 단말은 대응하는 텍스트 내용에 기초하여 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스, 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스, 및 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛 시퀀스를 정렬하고, 결합을 통해 병렬 음성 라이브러리를 구축할 수 있다.
예를 들어, 내력 화자 음성(광둥 강세)은: "ta-zai hui ji shang-na zhe yi duo-xian fa"이고, 인식된 텍스트 내용은: "ta zai fei ji shang na zhe yi duo xian hua"이다. 합성된 비동기 기계 음성 유닛 시퀀스는: "ta zai-fei ji shang-na zhe- yi duo xian hua"이다. 이 경우, 발음은 텍스트 내용의 발음과 같고, 운율 특징은 기계 운율 특징에 부합한다. 합성된 동기 기계 음성 유닛 시퀀스는: "ta-zai fei ji shang-na zhe yi duo-xian hua"이다. 이 경우, 발음은 텍스트 내용의 발음과 같다. "-"는 음성 간의 운율 일시중지를 나타낸다.
이 실시예에서, 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스의 텍스트 내용과 동일한 텍스트 내용을 가지는 비동기 기계 음성 유닛 시퀀스를 포함하는 비동기 기계 음성 라이브러리가 구축되고, 화자 음성 유형과 기계 음성 유형 간의 대응관계가 구축되므로 목표 텍스트의 운율 특징이 더 정확하게 선택된다. 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스의 텍스트 내용 및 운율 특징과 동일한 텍스트 내용 및 운율 특징을 가지는 동기 기계 음성 유닛 시퀀스를 포함하는 동기 기계 음성 라이브러리가 구축되고, 동일한 운율 특징을 가지는 화자 음성과 기계 음성 간의 대응관계가 구축되므로 스플라이싱을 통해 목표 화자 음성을 획득하는 데 사용되는 화자 음성 유닛이 더 정확하게 선택된다.
도 9는 실시예에 따른 음성 변환 방법의 논리 블록도이다. 도 9에 도시된 바와 같이, 내력 화자 음성을 미리 수집하고, 내력 화자 음성에 대한 음성 인식을 수행하여 화자 음성 라이브러리를 획득할 수 있다. 단말은 각각의 음성 유닛의 발음 및 지속시간 분포에 대해 주석을 달고 TTS 파라미터 합성 시스템을 사용함으로써 발음 주석에 기초하여 비동기 기계 음성 유닛 시퀀스를 합성하여 비동기 기계 음성 라이브러리를 구축하며, TTS 파라미터 합성 시스템을 사용함으로써 발음 주석 및 지속시간 분포에 기초하여 동기 기계 음성 유닛 시퀀스를 합성하여 동기 기계 음성 라이브러리를 구축한다.
단말은 목표 텍스트를 획득하고, 목표 텍스트에 기초하여 제1 기계 음성을 합성하고, 운율 특징이 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 선택한다. 단말은 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하고, 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성한다. 단말은 제2 기계 음성의 음향 특성에 기초하여 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 동기 기계 음성 라이브러리로부터 추가로 선택하고, 화자 음성 라이브러리로부터 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 선택하며, 선택된 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다. 동기 기계 음성 유닛 시퀀스와 화자 유닛 음성 시퀀스는 동일한 지속기간 분포를 가지기 때문에, 동기 기계 음성 유닛 시퀀스의 운율 특징은 화자 음성 유닛 시퀀스의 운율 특징으로 사용될 수 있다.
이 출원의 실시예에서의 단계들은 단계 번호로 지시된 순서로 반드시 수행되지 않아도 된다는 것을 이해해야 한다. 본 명세서에 달리 설명되지 않으면, 단계를 수행하는 순서는 엄격하게 제한되지 않으며, 단계는 다른 순서로 수행될 수도 있다. 또한, 실시예에서의 일부의 단계는 복수의 하위단계 또는 복수의 스테이지를 포함할 수 있다. 하위단계 또는 스테이지는 반드시 같은 순간에 수행되지 않아도 되며, 대신 다른 순간에 수행될 수도 있다. 하위단계 또는 스테이지는 반드시 순서대로 수행되지 않아도 되며 대신에 하위단계 또는 스테이지 및 하위단계의 다른 단계 또는 다른 단계의 스테이지 중 적어도 일부가 차례로 또는 대안으로 수행될 수도 있다.
도 10에 도시된 바와 같이, 실시예는 컴퓨터 장치(1000)를 제공한다. 컴퓨터 장치(1000)의 내부 구조에 대해서는 도 1에 도시된 구조를 참조한다. 이하의 모듈 중 일부 또는 전부는 소프트웨어, 하드웨어, 또는 이것들의 조합으로 실행될 수 있다. 도 10을 참조하면, 컴퓨터 장치(1000)는: 획득 모듈(1001), 제1 합성 모듈(1002), 제1 선택 모듈(1003), 검색 모듈(1004), 제2 합성 모듈(1005), 제2 선택 모듈(1006), 및 스플라이싱 모듈(1007)을 포함한다.
획득 모듈(1001)은 목표 텍스트를 획득하도록 구성된다.
제1 합성 모듈(1002)은 목표 텍스트에 대응하는 제1 기계 음성을 합성하도록 구성된다.
제1 선택 모듈(1003)은 비동기 기계 음성 라이브러리로부터 운율 특징이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하도록 구성된다.
검색 모듈(1004)은 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하도록 구성된다.
제2 합성 모듈(1005)은 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하도록 구성된다.
제2 선택 모듈(1006)은 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하도록 구성된다.
스플라이싱 모듈(1007)은 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성(target speaker speech)을 획득하도록 구성된다.
동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용 및 화자 음성 라이브러리의 텍스트 내용은 동일하고, 화자 음성 라이브러리의 운율 특징 및 동기 기계 음성 라이브러리의 운율 특징은 서로 부합한다.
이 실시예에서, 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛과 제2 기계 음성에 포함된 기계 음성 유닛 간의 음향 특성이 계산되며, 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하기 위한 제한 조건으로 사용되며, 이에 의해 음향 특성을 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
일 실시예에서, 제2 선택 모듈(1006)은: 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛의 음향 파라미터를 결정하고, 분할에 의해 획득된 기계 음성 유닛의 음향 파라미터를 결정하고, 분할에 의해 획득된 대응하는 기계 음성 유닛과 각각의 동기 기계 음성 유닛 간의 대응하는 음향 파라미터 차이를 계산하며, 그 차이에 기초하여 그 차이와 양의 상관관계에 있는 음향 특성 차이를 생성하도록 추가로 구성되어 있다.
이 실시예에서, 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이가 계산되고 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 선택하기 위한 제한 조건으로 사용되며, 이에 의해 운율 특징을 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
제1 선택 모듈(1006)은: 제1 기계 음성에 포함된 기계 음성 유닛의 수량을 결정하고, 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 획득하도록 추가로 구성되어 있다.
이 실시예에서, 후보 비동기 기계 음성 유닛 시퀀스는 음향 특성 차이를 계산하기 위해 제1 기계 음성에 포함된 기계 음성 유닛의 수량에 기초하여 선택되며, 이에 의해 음향 특성 차이의 계산 결과의 신뢰도가 향상된다.
일 실시예에서, 제1 선택 모듈(1006)은: 비동기 기계 음성 라이브러리에 포함된 비동기 기계 음성 유닛 시퀀스를 횡단하고, 횡단되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 작을 때, 계속 횡단하고, 횡단되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량과 같을 때, 횡단되는 비동기 기계 음성 유닛 시퀀스를 후보 비동기 기계 음성 유닛 시퀀스로 사용하고, 횡단되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 클 때, 상기 포함된 비동기 기계 음성 유닛의 시퀀스 및 상기 결정된 수량에 기초하여 횡단되는 비동기 기계 음성 유닛 시퀀스를 분할하여 후보 비동기 기계 음성 유닛 시퀀스를 획득하도록 추가로 구성되어 있다.
이 실시예에서, 제1 기계 음성에 포함된 기계 음성 유닛의 수량보다 큰 비동기 기계 음성 유닛의 수량을 포함하는 비동기 기계 음성 유닛 시퀀스는 포함된 비동기 기계 음성 유닛의 시퀀스 및 결정된 수량에 기초하여 비동기 기계 음성 유닛 서브시퀀스를 후보 비동기 기계 음성 유닛 시퀀스로 획득하기 위해 분할되며, 이에 의해 자연스런 언어 일관성에 부합하고, 운율 특징 차이의 계산 결과의 신뢰도를 보장하며, 비동기 기계 음성 라이브러리의 말뭉치 사용을 향상시킨다.
일 실시예에서, 제1 선택 모듈(1006)은: 제1 기계 음성을 분할하여 기계 음성 유닛을 획득하고, 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 각각의 대응하는 기계 음성 유닛 간의 운율 파라미터 차이에 기초하여 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 생성하도록 추가로 구성되어 있으며, 운율 파라미터 차이는 지속시간 차이, 기본 주파수 변화율 차이, 음향 파라미터의 지속시간 분포 차이 및 기본 주파수 변화율의 확률 분포 차이 중 적어도 하나를 포함한다.
이 실시예에서, 운율 특징 차이는 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 운율 특징 차이를 사용해서 계산되며, 운율 특징에 영향을 주는 파라미터는 계산에 사용되며, 이에 의해 운율 특징의 부합 정확도가 향상된다.
일 실시예에서, 제2 선택 모듈(1006)은: 제2 기계 음성을 분할하여 기계 음성 유닛을 획득하고, 분할에 의해 획득된 기계 음성 유닛의 발음 특성을 결정하고, 발음 특성이 분할에 의해 획득된 기계 음성 유닛의 발음 특성에 부합하는 동기 기계 음성 유닛 부분집합을 동기 기계 음성 라이브러리로부터 선택하고, 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정하며, 최소 음향 특성 차이에 대응하는 동기 기계 음성 유닛을 음향 특성이 제2 기계 음성의 운율 특성에 부합하는 동기 기계 음성 유닛으로 선택하도록 추가로 구성되어 있다.
이 실시예에서, 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛과 제2 기계 음성에 포함된 기계 음성 유닛 간의 음향 특성 차이가 계산되며, 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하기 위한 제한 조건으로 사용되며, 이에 의해 음향 특성을 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
일 실시예에서, 제2 선택 모듈(1006)은: 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛의 음향 파라미터를 결정하고, 분할에 의해 획득된 기계 음성 유닛의 음향 파라미터를 결정하고, 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 대응하는 음향 파라미터 차이를 계산하며, 대응하는 음향 파라미터 차이에 기초하여 대응하는 음향 파라미터 차이와 양의 상관관계(positive correlation)에 있는 음향 특성 차이를 생성하도록 추가로 구성되어 있다.
이 실시예에서, 음향 특성 차이는 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 파라미터 차이를 이용해서 계산되고, 음향 특성에 영향을 주는 파라미터는 계산에 사용되며, 이에 의해 음향 특성의 부합 정확도가 향상된다.
일 실시예에서, 스플라이싱 모듈(1007)은: 대응하는 목표 텍스트 내의 발음 시퀀스에 기초하여 선택된 동기 기계 음성 유닛을 분류하고, 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하고, 동기 기계 음성 유닛에 대응하는 화자 음성 유닛에 대한 화자 음성 라이브러리를 검색하며, 인접 동기 기계 음성 유닛의 결정된 스플라이싱 위치에 기초하여 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하도록 추가로 구성되어 있다.
이 실시예에서, 인접 화자 음성 유닛은 결정된 스플라이싱 위치에 기초하여 스플라이싱되므로 스플라이싱 천이가 더 자연스럽고, 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
일 실시예에서, 스플라이싱 모듈(1007)은: 선택된 동기 기계 음성 유닛을 분할함으로써 획득된 음성 프레임을 획득하고, 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하며 - 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임은 최소 차이를 가짐 - , 그리고 중첩된 스플라이싱 음성 프레임의 수량에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하도록 추가로 구성되어 있다.
이 실시예에서, 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임 간의 차이는 인접 동기 기계 음성 유닛의 스플라이싱 위치를 선택하기 위한 제한 조건으로 사용되며, 이에 의해 스플라이싱 위치를 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.
일 실시예에서, 스플라이싱 모듈(1007)은 다음의 식에 기초하여 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하도록 추가로 구성되어 있다:
Figure 112019049023068-pct00049
.
T는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 나타내고, t는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량 중 t번째 프레임을 나타내고,
Figure 112019049023068-pct00050
는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량 중 t번째 프레임의 음성 프레임 차이를 나타내며,
Figure 112019049023068-pct00051
Figure 112019049023068-pct00052
가 최소가 되도록 T를 푸는 것을 나타낸다.
이 실시예는 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임 간의 최소 차이를 보장하는 중첩된 스플라이싱 프레임의 수량을 푸는 데 구체적으로 사용되는 방법을 제공하여 스플라이싱 위치를 더 정확하게 선택할 수 있게 한다.
도 11에 도시된 바와 같이, 일 실시예에서, 컴퓨터 장치(1000)는 음성 라이브러리 생성 모듈(1008)을 더 포함한다.
음성 라이브러리 생성 모듈(1008)은: 내력 화자 음성을 수집하고, 내력 화자 음성에 대응하는 텍스트 내용을 인식하고, 인식된 텍스트 내용에 기초하여 비동기 기계 음성 유닛 시퀀스를 생성하고, 생성된 비동기 기계 음성 유닛 시퀀스에 기초하여 비동기 기계 음성 라이브러리를 구축하고, 수집된 내력 화자 음성의 운율 특징을 획득하고, 인식된 텍스트 콘텐츠 및 획득된 운율 특징에 기초하여 동기 기계 음성 유닛 시퀀스를 생성하며, 생성된 동기 기계 음성 유닛 시퀀스에 기초하여 동기 기계 음성 라이브러리를 구축하도록 추가로 구성되어 있다.
이 실시예에서, 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스의 텍스트 내용과 동일한 텍스트 내용을 가지는 비동기 기계 음성 유닛 시퀀스를 포함하는 비동기 기계 음성 라이브러리가 구축되고, 화자 음성 유형과 기계 음성 유형 간의 대응관계가 구축되므로 목표 텍스트의 운율 특징이 더 정확하게 선택된다. 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스의 텍스트 내용 및 운율 특징과 동일한 텍스트 내용 및 운율 특징을 가지는 동기 기계 음성 유닛 시퀀스를 포함하는 동기 기계 음성 라이브러리가 구축되고, 동일한 운율 특징을 가지는 화자 음성과 기계 음성 간의 대응관계가 구축되므로 스플라이싱을 통해 목표 화자 음성을 획득하는 데 사용되는 화자 음성 유닛이 더 정확하게 선택된다.
당업자는 실시예에서의 방법의 프로세스 중 일부 또는 전부는 관련 하드웨어에 명령을 내리는 컴퓨터 프로그램에 의해 실행될 수 있다는 것을 이해할 수 있을 것이다. 프로그램은 비휘발성 컴퓨터 판독 가능형 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 방법의 실시예에서의 프로세스가 수행될 수 있다. 본 출원의 실시예에서의 메모리, 스토리지, 데이터베이스 또는 그 외 매체에 대한 어떠한 인용도 비휘발성 메모리 및/또는 휘발성 메모리를 포함할 수 있다. 비휘발성 메모리는 리드-온리 메모리(read-only memory, ROM), 프로그래머블 ROM(PROM), 전기적 프로그래머블 ROM(EPROM), 전기적으로 소거 가능한 프로그래머블 ROM(EEPROM), 또는 플래시를 포함할 수 있다. 휘발성 메모리는 랜덤 액세스 메모리(random access memory, RAM) 또는 외부 캐시 메모리를 포함할 수 있다. 제한하려는 것이 아닌 설명의 목적상, RAM은 다양한 형태로 획득될 수 있는데, 예를 들어, 정적 RAM(SRAM), 동적 RAM(DRAM), 동기 DRAM(SDRAM), 이중 데이터 레이트 SDRAM(DDRSDRAM), 강화된 SDRAM(ESDRAM), 동기 링크(Synchlink) DRAM(SLDRAM), 램버스(Rambus) 다이렉트 RAM(RDRAM), 다이렉트 램버스 동적 RAM(DRDRAM), 및 램버스 동적 RAM(RDRAM)로 획득될 수 있다.
전술한 실시예의 기술적 특징은 무작위로 결합될 수 있다. 설명을 간결하게 하기 위해, 전술한 실시예의 기술적 특징의 모든 가능한 결합을 설명하지 않고, 기술적 특징의 조합이 서로 충돌하지 않는 한, 기술적 특징의 조합은 본 명세서의 범위 내에 있는 것으로 간주되어야 한다.
전술한 실시예는 본 출원의 몇몇 실시일 뿐이고 상세히 설명되었으나, 본 개시의 특허 범위를 제한하는 것으로 이해되어서는 안 된다. 당업자는 본 출원의 개념을 벗어남이 없이 추가의 변형 및 개선을 할 수도 있으며, 변형 또는 개선은 모두 본 출원의 보호 범위 내에 있다는 것에 유의해야 한다. 그러므로 본 출원의 특허 범위는 첨부된 특허청구범위 내에 있어야 한다.

Claims (20)

  1. 음성 변환 방법으로서,
    컴퓨터 장치가 목표 텍스트(target text)를 획득하는 단계;
    상기 컴퓨터 장치가 상기 목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계 - 상기 제1 기계 음성을 합성하는 단계는, 자동 음성 합성 시스템을 통해 상기 목표 텍스트에 대해 소리 합성을 수행하는 단계, 및 상기 자동 음성 합성 시스템의 텍스트 대 음성(text-to-speech) 운율 특징(prosodic feature)에 기초해서 상기 목표 텍스트를 음성 파형으로 변환하여 상기 제1 기계 음성의 운율 특징을 가진 상기 제1 기계 음성을 획득하는 단계를 포함하고, 운율 특징은 소리의 기본 톤(basic tone)과 리듬임 - ;
    상기 컴퓨터 장치가 비동기 기계 음성 라이브러리로부터, 운율 특징이 상기 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계 - 상기 비동기 기계 음성 라이브러리는 상기 자동 음성 합성 시스템을 통해 합성된 복수의 비동기 기계 음성 유닛 시퀀스를 포함하고, 상기 복수의 비동기 기계 음성 유닛 시퀀스의 운율 특징은 대상 화자(target speaker)의 운율 특징에 부합하지 않으나, 상기 복수의 비동기 기계 음성 유닛 시퀀스의 텍스트 내용은 상기 대상 화자의 음성 유닛 시퀀스의 텍스트 내용에 부합함 - ;
    상기 컴퓨터 장치가 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계 - 상기 동기 기계 음성 라이브러리는 상기 자동 음성 합성 시스템을 통해 합성된 복수의 동기 기계 음성 유닛 시퀀스를 포함하고, 상기 복수의 동기 기계 음성 유닛 시퀀스의 운율 특징은 대상 화자의 운율 특징에 부합하고, 상기 복수의 동기 기계 음성 유닛 시퀀스의 텍스트 내용은 상기 대상 화자의 음성 유닛 시퀀스의 텍스트 내용에 부합함 - ;
    상기 컴퓨터 장치가, 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 상기 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계;
    상기 컴퓨터 장치가 상기 동기 기계 음성 라이브러리로부터 상기 제2 기계 음성의 음향 특성(acoustic feature)에 부합하는 복수의 동기 기계 음성 유닛을 선택하는 단계 - 음향 특성은 소리 파형의 특성임 - ; 및
    상기 컴퓨터 장치가, 상기 대상 화자의 음성 유닛 시퀀스를 포함하는 화자 음성 라이브러리 내의 복수의 동기 기계 음성 유닛에 대응하는 복수의 화자 음성 유닛을 스플라이싱하여 대상 화자 음성(target speaker speech)을 획득하는 단계를 포함하는,
    음성 변환 방법.
  2. 제1항에 있어서,
    상기 컴퓨터 장치가 비동기 기계 음성 라이브러리로부터, 운율 특징이 상기 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계는,
    상기 컴퓨터 장치가 상기 제1 기계 음성에 기초해서 상기 비동기 기계 음성 라이브러리로부터 후보 비동기 기계 음성 유닛 시퀀스를 획득하는 단계;
    상기 컴퓨터 장치가 후보 비동기 기계 음성 유닛 시퀀스와 상기 제1 기계 음성 간의 운율 특징 차이를 결정하는 단계; 및
    상기 컴퓨터 장치가 최소 음율 특징 차이에 대응하는 후보 비동기 기계 음성 유닛 시퀀스를, 운율 특징이 상기 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스로 사용하는 단계
    를 포함하는, 음성 변환 방법.
  3. 제2항에 있어서,
    상기 컴퓨터 장치가 상기 제1 기계 음성에 기초해서 상기 비동기 기계 음성 라이브러리로부터 후보 비동기 기계 음성 유닛 시퀀스를 획득하는 단계는,
    상기 컴퓨터 장치가 상기 제1 기계 음성에 포함된 기계 음성 유닛의 수량을 결정하는 단계; 및
    상기 컴퓨터 장치가 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 상기 비동기 기계 음성 라이브러리로부터 획득하는 단계
    를 포함하는, 음성 변환 방법.
  4. 제3항에 있어서,
    상기 컴퓨터 장치가 상기 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 상기 비동기 기계 음성 라이브러리로부터 획득하는 단계는,
    상기 컴퓨터 장치가 상기 비동기 기계 음성 라이브러리에 포함된 비동기 기계 음성 유닛 시퀀스를 검색하는 단계(searching);
    검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 작을 때, 상기 컴퓨터 장치가 계속 검색하는 단계;
    검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량과 같을 때, 상기 컴퓨터 장치가 검색되는 비동기 기계 음성 유닛 시퀀스를 상기 후보 비동기 기계 음성 유닛 시퀀스로 사용하는 단계; 및
    검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 클 때, 상기 컴퓨터 장치가 포함된 비동기 기계 음성 유닛의 시퀀스 및 상기 결정된 수량에 기초하여 검색되는 비동기 기계 음성 유닛 시퀀스를 분할하여 상기 후보 비동기 기계 음성 유닛 시퀀스를 획득하는 단계
    를 포함하는, 음성 변환 방법.
  5. 제2항에 있어서,
    상기 컴퓨터 장치가 후보 비동기 기계 음성 유닛 시퀀스와 상기 제1 기계 음성 간의 운율 특징 차이를 결정하는 단계는,
    상기 컴퓨터 장치가 상기 제1 기계 음성을 분할하여 기계 음성 유닛을 획득하는 단계; 및
    상기 컴퓨터 장치가 상기 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 각각의 대응하는 기계 음성 유닛 간의 운율 파라미터 차이에 기초하여 상기 후보 비동기 기계 음성 유닛 시퀀스와 상기 제1 기계 음성 간의 운율 특징 차이를 생성하는 단계
    를 포함하며,
    운율 파라미터 차이는 지속시간 차이, 기본 주파수 변화율 차이, 음향 파라미터의 지속시간 분포 차이 및 기본 주파수 변화율의 확률 분포 차이 중 적어도 하나를 포함하는, 음성 변환 방법.
  6. 제1항에 있어서,
    상기 컴퓨터 장치가 상기 동기 기계 음성 라이브러리로부터 상기 제2 기계 음성의 음향 특성에 부합하는 복수의 동기 기계 음성 유닛을 선택하는 단계는,
    상기 컴퓨터 장치가 상기 제2 기계 음성을 분할하여 기계 음성 유닛을 획득하는 단계;
    상기 컴퓨터 장치가 분할에 의해 획득된 기계 음성 유닛의 발음 특성을 결정하는 단계;
    상기 컴퓨터 장치가 발음 특성이 분할에 의해 획득된 기계 음성 유닛의 발음 특성에 부합하는 동기 기계 음성 유닛 부분집합을 상기 동기 기계 음성 라이브러리로부터 선택하는 단계;
    상기 컴퓨터 장치가 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정하는 단계; 및
    상기 컴퓨터 장치가 최소 음향 특성 차이에 대응하는 복수의 동기 기계 음성 유닛을, 음향 특성이 제2 기계 음성의 음향 특성에 부합하는 복수의 동기 기계 음성 유닛으로 선택하는 단계
    를 포함하는, 음성 변환 방법.
  7. 제6항에 있어서,
    상기 컴퓨터 장치가 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정하는 단계는,
    상기 컴퓨터 장치가 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛의 음향 파라미터를 결정하는 단계;
    상기 컴퓨터 장치가 분할에 의해 획득된 기계 음성 유닛의 음향 파라미터를 결정하는 단계;
    상기 컴퓨터 장치가 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 대응하는 음향 파라미터 차이를 계산하는 단계; 및
    상기 컴퓨터 장치가 대응하는 음향 파라미터 차이에 기초하여 대응하는 음향 파라미터 차이와 양의 상관관계(positive correlation)에 있는 음향 특성 차이를 생성하는 단계
    를 포함하는, 음성 변환 방법.
  8. 제1항에 있어서,
    상기 컴퓨터 장치가, 화자 음성 라이브러리 내의 복수의 동기 기계 음성 유닛에 대응하는 복수의 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계는,
    상기 컴퓨터 장치가 대응하는 목표 텍스트 내의 발음 시퀀스에 기초하여 선택된 동기 기계 음성 유닛을 분류하는 단계;
    상기 컴퓨터 장치가 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하는 단계;
    상기 컴퓨터 장치가 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 찾아 상기 화자 음성 라이브러리를 검색하는 단계; 및
    상기 컴퓨터 장치가 인접 동기 기계 음성 유닛의 결정된 스플라이싱 위치에 기초하여 대응하는 화자 음성 유닛을 스플라이싱하여 상기 대상 화자 음성을 획득하는 단계
    를 포함하는, 음성 변환 방법.
  9. 제8항에 있어서,
    상기 컴퓨터 장치가 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하는 단계는,
    상기 컴퓨터 장치가 선택된 동기 기계 음성 유닛을 분할함으로써 획득된 음성 프레임을 획득하는 단계;
    상기 컴퓨터 장치가 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하는 단계 - 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임은 최소 차이를 가짐 - ; 및
    상기 컴퓨터 장치가 중첩된 스플라이싱 음성 프레임의 수량에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하는 단계
    를 포함하는, 음성 변환 방법.
  10. 제9항에 있어서,
    상기 컴퓨터 장치가 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하는 단계는,
    Figure 112019049054208-pct00069

    를 포함하고, 여기서 T는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 나타내고, t는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임 중 t번째 프레임을 나타내고,
    Figure 112019049054208-pct00070
    는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임 중 t번째 프레임의 음성 프레임 차이를 나타내며,
    Figure 112019049054208-pct00071
    Figure 112019049054208-pct00072
    가 최소가 되도록 T를 푸는 것을 나타내는, 음성 변환 방법.
  11. 제1항에 있어서,
    상기 컴퓨터 장치가 내력(history) 화자 음성을 수집하는 단계;
    상기 컴퓨터 장치가 내력 화자 음성에 대응하는 텍스트 내용을 인식하는 단계;
    상기 컴퓨터 장치가 인식된 텍스트 내용에 기초하여 비동기 기계 음성 유닛 시퀀스를 생성하는 단계;
    상기 컴퓨터 장치가 생성된 비동기 기계 음성 유닛 시퀀스에 기초하여 비동기 기계 음성 라이브러리를 구축하는 단계;
    상기 컴퓨터 장치가 수집된 내력 화자 음성의 운율 특징을 획득하는 단계;
    상기 컴퓨터 장치가 인식된 텍스트 콘텐츠 및 획득된 운율 특징에 기초하여 동기 기계 음성 유닛 시퀀스를 생성하는 단계; 및
    상기 컴퓨터 장치가 생성된 동기 기계 음성 유닛 시퀀스에 기초하여 동기 기계 음성 라이브러리를 구축하는 단계
    를 더 포함하는 음성 변환 방법.
  12. 컴퓨터 장치로서,
    메모리 및 프로세서를 포함하며, 상기 메모리는 컴퓨터 판독 가능형 명령을 저장하며,
    컴퓨터 판독 가능형 명령이 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령은 프로세서로 하여금 제1항 내지 제11항 중 어느 한 항에서의 방법을 수행하게 하는, 컴퓨터 장치.
  13. 컴퓨터 판독 가능형 명령을 저장하는 하나 이상의 비휘발성 저장 매체로서,
    컴퓨터 판독 가능형 명령이 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령이 하나 이상의 프로세서로 하여금 제1항 내지 제11항 중 어느 한 항에서의 방법을 수행하게 하는, 하나 이상의 비휘발성 저장 매체.
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020197013802A 2017-02-21 2018-01-29 음성 변환 방법, 컴퓨터 장치 및 저장 매체 KR102239650B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710093860.8 2017-02-21
CN201710093860.8A CN106920547B (zh) 2017-02-21 2017-02-21 语音转换方法和装置
PCT/CN2018/074435 WO2018153223A1 (zh) 2017-02-21 2018-01-29 语音转换方法、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
KR20190065408A KR20190065408A (ko) 2019-06-11
KR102239650B1 true KR102239650B1 (ko) 2021-04-12

Family

ID=59454008

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197013802A KR102239650B1 (ko) 2017-02-21 2018-01-29 음성 변환 방법, 컴퓨터 장치 및 저장 매체

Country Status (6)

Country Link
US (1) US10878803B2 (ko)
EP (1) EP3588490B1 (ko)
JP (1) JP6893246B2 (ko)
KR (1) KR102239650B1 (ko)
CN (1) CN106920547B (ko)
WO (1) WO2018153223A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920547B (zh) 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置
US20190019497A1 (en) * 2017-07-12 2019-01-17 I AM PLUS Electronics Inc. Expressive control of text-to-speech content
CN107818795B (zh) * 2017-11-15 2020-11-17 苏州驰声信息科技有限公司 一种英语口语的测评方法及装置
CN107705783B (zh) * 2017-11-27 2022-04-26 北京搜狗科技发展有限公司 一种语音合成方法及装置
CN111317316A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 模拟指定人声进行人机对话的照片框
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN110288682B (zh) 2019-06-28 2023-09-26 北京百度网讯科技有限公司 用于控制三维虚拟人像口型变化的方法和装置
CN110689885B (zh) * 2019-09-18 2023-05-23 平安科技(深圳)有限公司 机器合成语音识别方法、装置、存储介质及电子设备
KR102281600B1 (ko) * 2019-09-19 2021-07-29 엘지전자 주식회사 합성 음성에 대한 보정을 수행하는 인공 지능 장치 및 그 방법
CN110782875B (zh) * 2019-10-16 2021-12-10 腾讯科技(深圳)有限公司 一种基于人工智能的语音韵律处理方法及装置
WO2021134232A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 一种流式语音转换方法、装置、计算机设备及存储介质
CN113223513A (zh) * 2020-02-05 2021-08-06 阿里巴巴集团控股有限公司 语音转换方法、装置、设备和存储介质
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN111785247A (zh) * 2020-07-13 2020-10-16 北京字节跳动网络技术有限公司 语音生成方法、装置、设备和计算机可读介质
CN112365881A (zh) * 2020-11-11 2021-02-12 北京百度网讯科技有限公司 语音合成方法及对应模型的训练方法、装置、设备与介质
CN112509552B (zh) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN113470664B (zh) * 2021-06-30 2024-01-30 平安科技(深圳)有限公司 语音转换方法、装置、设备及存储介质
US11605370B2 (en) 2021-08-12 2023-03-14 Honeywell International Inc. Systems and methods for providing audible flight information

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2548188A (en) * 1987-10-09 1989-05-02 Edward M. Kandefer Generating speech from digitally stored coarticulated speech segments
ATE102731T1 (de) * 1988-11-23 1994-03-15 Digital Equipment Corp Namenaussprache durch einen synthetisator.
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5987412A (en) * 1993-08-04 1999-11-16 British Telecommunications Public Limited Company Synthesising speech by converting phonemes to digital waveforms
JPH09305197A (ja) 1996-05-16 1997-11-28 N T T Data Tsushin Kk 音声変換方法及び装置
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
JP3576066B2 (ja) 1999-03-25 2004-10-13 松下電器産業株式会社 音声合成システム、および音声合成方法
CN1156819C (zh) 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
US6961704B1 (en) * 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
EP1640968A1 (en) * 2004-09-27 2006-03-29 Multitel ASBL Method and device for speech synthesis
US7865365B2 (en) * 2004-08-05 2011-01-04 Nuance Communications, Inc. Personalized voice playback for screen reader
CN101064103B (zh) * 2006-04-24 2011-05-04 中国科学院自动化研究所 基于音节韵律约束关系的汉语语音合成方法及系统
CN101000765B (zh) * 2007-01-09 2011-03-30 黑龙江大学 基于韵律特征的语音合成方法
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN101894547A (zh) * 2010-06-30 2010-11-24 北京捷通华声语音技术有限公司 一种语音合成方法和系统
KR101203188B1 (ko) * 2011-04-14 2012-11-22 한국과학기술원 개인 운율 모델에 기반하여 감정 음성을 합성하기 위한 방법 및 장치 및 기록 매체
JP5665780B2 (ja) 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
CN106297765B (zh) * 2015-06-04 2019-10-18 科大讯飞股份有限公司 语音合成方法及系统
US20160365087A1 (en) * 2015-06-12 2016-12-15 Geulah Holdings Llc High end speech synthesis
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
CN105206257B (zh) * 2015-10-14 2019-01-18 科大讯飞股份有限公司 一种声音转换方法及装置
CN105551481B (zh) * 2015-12-21 2019-05-31 百度在线网络技术(北京)有限公司 语音数据的韵律标注方法及装置
CN105654940B (zh) * 2016-01-26 2019-12-24 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
CN106920547B (zh) * 2017-02-21 2021-11-02 腾讯科技(上海)有限公司 语音转换方法和装置

Also Published As

Publication number Publication date
KR20190065408A (ko) 2019-06-11
US10878803B2 (en) 2020-12-29
CN106920547B (zh) 2021-11-02
EP3588490B1 (en) 2023-07-19
US20190221201A1 (en) 2019-07-18
JP2020505652A (ja) 2020-02-20
EP3588490A1 (en) 2020-01-01
CN106920547A (zh) 2017-07-04
WO2018153223A1 (zh) 2018-08-30
EP3588490A4 (en) 2020-04-08
JP6893246B2 (ja) 2021-06-23

Similar Documents

Publication Publication Date Title
KR102239650B1 (ko) 음성 변환 방법, 컴퓨터 장치 및 저장 매체
EP3614376B1 (en) Speech synthesis method, server and storage medium
US10140973B1 (en) Text-to-speech processing using previously speech processed data
JP3913770B2 (ja) 音声合成装置および方法
JP4056470B2 (ja) イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
CN111566656A (zh) 利用多种语言文本语音合成模型的语音翻译方法及系统
US10692484B1 (en) Text-to-speech (TTS) processing
US9978359B1 (en) Iterative text-to-speech with user feedback
US11763797B2 (en) Text-to-speech (TTS) processing
KR20160058470A (ko) 음성 합성 장치 및 그 제어 방법
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
US20230169953A1 (en) Phrase-based end-to-end text-to-speech (tts) synthesis
KR20230079503A (ko) 샘플 생성 방법 및 장치
WO2021134591A1 (zh) 语音合成方法、装置、终端及存储介质
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
CN113593522A (zh) 一种语音数据标注方法和装置
US11282495B2 (en) Speech processing using embedding data
CN113178188A (zh) 语音合成方法、装置、设备及存储介质
WO2008056604A1 (fr) Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
US11393451B1 (en) Linked content in voice user interface
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
US20230386475A1 (en) Systems and methods of text to audio conversion
WO2023279976A1 (zh) 语音合成方法、装置、设备及存储介质
Dong et al. A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant