KR20230079503A

KR20230079503A - 샘플 생성 방법 및 장치

Info

Publication number: KR20230079503A
Application number: KR1020237017827A
Authority: KR
Inventors: 둥샤오 왕; 밍치 양; 난 마; 룽 시아; 창천 구오
Original assignee: 베이징 유안리 웨이라이 사이언스 앤드 테크놀러지 씨오., 엘티디.
Priority date: 2020-11-20
Filing date: 2021-11-12
Publication date: 2023-06-07
Also published as: US20230317052A1; CN112133277B; CN112133277A; WO2022105693A1; US11810546B2

Abstract

본 명세서는 샘플 생성 방법 및 장치를 제공하고, 여기서, 상기 샘플 생성 방법은, 복수의 텍스트-오디오 쌍을 획득하되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되는 단계; 상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내는 단계; 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 단계; 및 상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하는 단계를 포함한다.

Description

샘플 생성 방법 및 장치

본 발명은 2020년 11월 20일 중국 특허청에 제출된 출원번호가 202011309190.7이고 발명 명칭이 "샘플 생성 방법 및 장치”인 중국 특허출원의 우선권을 주장하는 바, 그 모든 내용은 참조로서 본 발명에 인용된다.

본 명세서는 데이터 처리 기술분야에 관한 것으로, 특히는 샘플 생성 방법 및 장치에 관한 것이다.

인터넷 기술의 발전과 더불어 점점 더 많은 장면에서 음성 합성이 응용되고 있으며; 문자 음성 변환 기술이라고도 알려진 음성 합성(Text ToSpeech, TTS)은 소프트웨어와 하드웨어의 결합을 통해 텍스트를 자연 음성으로 변환하는 기술로서, 상기 기술은 파형 스플라이싱, 파라미터 기반 합성 또는 신경망을 이용한 엔드 투 엔드 합성 방법을 통해 구현될 수 있는 바; 그 중 파형 스플라이싱 방법은 음성 합성을 완성하기 위해 비교적 긴 시간의 트레이닝 데이터가 필요하고; 파라미터 기반 합성 방법은 음성 합성을 완성할 수는 있으나 참조 요소가 적어 최종 합성 결과가 만족스럽지 못하며; 선행기술에서 비교적 광범위하게 활용되고 있는 것이 바로 신경망 기반 엔드 투 엔드 합성 방법인데, 이 방법은 요구되는 데이터 양이 적고, 수동으로 대량의 파라미터를 조정하지 않고도 음성 합성을 실현할 수 있으며; 엔드 투 엔드 음성 합성 방법은 다른 방법에 비해 요구되는 데이터 양이 적으나, 신경망 기반 엔드 투 엔드 합성 방법의 특성상 음성 데이터에 대한 품질 요구가 다른 방법보다 훨씬 높으므로 초기에 음성 데이터를 준비하는 비용이 크게 증가하며, 준비된 음성 데이터가 불완전한 문제도 존재할 수 있어 신경망 기반 엔드투 엔드 합성 방법의 구현에 심각한 영향을 주므로 상술한 문제를 해결하기 위한 효과적인 방안이 시급이 필요하다.

이에 감안하여, 본 명세서의 실시예에서는 샘플 생성 방법을 제공한다. 본 명세서는 또한 선행기술의 기술적 결함을 해결하기 위한 샘플 생성 장치, 컴퓨팅 기기, 및 컴퓨터 판독 가능 저장 매체를 다루고 있다.

본 명세서의 실시예의 제1 양태에 따르면, 샘플 생성 방법을 제공하고, 상기 방법은,

복수의 텍스트-오디오 쌍을 획득하되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되는 단계;

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내는 단계;

상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 단계; 및

상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하는 단계를 포함한다.

선택적으로, 복수의 텍스트-오디오 쌍을 획득하는 상기 단계는,

타깃 텍스트 및 상기 타깃 텍스트에 대응되는 오디오를 획득하는 단계;

상기 오디오에 대해 전처리를 수행하여 타깃 오디오를 획득하고, 상기 타깃 텍스트를 음소 시퀀스로 변환하는 단계; 및

상기 음소 시퀀스와 상기 타깃 오디오에 대해 정렬 처리를 수행하고, 정렬 처리 결과에 따라 상기 복수의 텍스트-오디오 쌍을 생성하는 단계를 포함한다.

선택적으로, 정렬 처리 결과에 따라 상기 복수의 텍스트-오디오 쌍을 생성하는 상기 단계는,

정렬 처리 결과에 따라 음소 오디오 파일을 얻고, 상기 음소 오디오 파일의 분할 위치를 결정하는 단계;

상기 분할 위치에 따라 상기 음소 오디오 파일을 분할하여 복수의 음소-오디오 쌍을 획득하되, 각각의 음소-오디오 쌍에는 음소 세그먼트 및 오디오 세그먼트가 포함되는 단계;

상기 타깃 텍스트를 기반으로 상기 복수의 음소-오디오 쌍 중 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트를 결정하는 단계; 및

각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트, 및 각각의 음소-오디오 쌍의 오디오 세그먼트에 따라 상기 복수의 텍스트-오디오 쌍을 생성하는 단계를 포함한다.

선택적으로, 상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하는 상기 단계는,

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트를 추출하고, 각각의 텍스트-오디오 쌍의 오디오 세그먼트에 대해 프레이밍 처리를 수행하여 각각의 텍스트-오디오 쌍의 오디오 프레임 세트를 획득하는 단계;

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 프레임 세트에 포함된 오디오 프레임을 기반으로, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징을 계산하는 단계; 및

각각의 텍스트-오디오 쌍의 오디오 세그먼트의 상기 피치 주파수 특징 및 상기 오디오 프레임 특징에 따라 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 상기 오디오 특징을 결정하는 단계를 포함한다.

선택적으로, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내는 상기 단계는,

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트, 텍스트 세그먼트 및 오디오 특징을 통합하여 각각의 텍스트-오디오 쌍에 대응되는 텍스트-오디오 패키지를 획득하고 이를 세그먼트 데이터베이스에 기입하는 단계;

상기 세그먼트 데이터베이스에서 임의의 하나의 텍스트-오디오 패키지를 타깃 텍스트-오디오 패키지로 선택하고, 상기 타깃 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 타깃 텍스트-오디오 쌍으로 결정하는 단계; 및

상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지 및 상기 오디오 특징을 기반으로 스플라이싱 텍스트-오디오 패키지를 결정하고, 상기 스플라이싱 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하는 단계를 포함한다.

선택적으로, 상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지 및 상기 오디오 특징을 기반으로 스플라이싱 텍스트-오디오 패키지를 결정하는 상기 단계는,

상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지를 선택하여 선별할 텍스트-오디오 패키지 세트를 구성하는 단계;

상기 선별할 텍스트-오디오 패키지 세트에 포함된 각각의 선별할 텍스트-오디오 패키지의 텍스트-오디오 쌍을 선별할 텍스트-오디오 쌍으로 결정하는 단계; 및

상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 상기 선별할 텍스트-오디오 패키지 세트에서 상기 스플라이싱 텍스트-오디오 패키지를 선별해내는 단계를 포함한다.

선택적으로, 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 상기 선별할 텍스트-오디오 패키지 세트에서 상기 스플라이싱 텍스트-오디오 패키지를 선별해내는 상기 단계는,

상기 타깃 텍스트-오디오 패키지에 따라 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 제1 오디오 특징을 결정하고, 상기 선별할 텍스트-오디오 패키지에 따라 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 제2 오디오 특징을 결정하는 단계;

상기 제1 오디오 특징과 상기 제2 오디오 특징 사이의 특징 거리를 계산하는 단계; 및

상기 특징 거리가 기설정된 거리 임계값보다 작은 선별할 텍스트-오디오 쌍이 속하는 선별할 텍스트-오디오 패키지를 상기 스플라이싱 텍스트-오디오 패키지로 결정하는 단계를 포함한다.

선택적으로, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 상기 단계를 수행하기 이전에, 상기 샘플 생성 방법은,

상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트에 대해 샘플링 처리를 수행하여 타깃 샘플링 정보를 획득하고, 상기 타깃 텍스트-오디오 쌍의 텍스트 세그먼트의 타깃 텍스트 정보를 결정하는 단계;

상기 타깃 샘플링 정보 및 상기 타깃 텍스트 정보가 상기 기설정된 검출 조건을 만족하는지 여부를 판단하는 단계; 및

만족하지 않는 경우, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 단계를 수행하는 단계를 더 포함한다.

선택적으로, 상기 샘플링 정보 및 상기 텍스트 정보가 상기 기설정된 검출 조건을 만족하는지 여부를 판단하는 상기 단계의 판단 결과가 "예"인 경우, 상기 타깃 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입한다.

선택적으로, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하는 상기 단계는,

상기 타깃 텍스트-오디오 쌍의 타깃 텍스트 세그먼트와 타깃 오디오 세그먼트, 및 상기 스플라이싱 텍스트-오디오 쌍의 스플라이싱 텍스트 세그먼트와 스플라이싱 오디오 세그먼트를 추출하는 단계;

상기 타깃 텍스트 세그먼트 및 상기 스플라이싱 텍스트 세그먼트를 검출할 텍스트 세그먼트로 스플라이싱하고, 상기 타깃 오디오 세그먼트 및 상기 스플라이싱 오디오 세그먼트를 검출할 오디오 세그먼트로 스플라이싱하는 단계; 및

상기 검출할 텍스트 세그먼트 및 상기 검출할 오디오 세그먼트를 기반으로 상기 검출할 텍스트-오디오 쌍을 구성하는 단계를 포함한다.

선택적으로, 상기 검출할 텍스트-오디오 쌍을 검출하는 상기 단계는,

상기 검출할 오디오 세그먼트에 대해 샘플링 처리를 수행하여 검출할 샘플링 정보를 획득하고, 상기 검출할 텍스트 세그먼트의 검출할 텍스트 정보를 결정하는 단계; 및

상기 기설정된 검출 조건을 기반으로 상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보를 검출하는 단계를 포함하고,

상응하게, 상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하는 상기 단계는,

상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보가 모두 상기 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입하는 단계를 포함한다.

선택적으로, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 상기 단계를 수행한 이후에, 상기 샘플 생성 방법은,

상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하지 않는 경우, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 상기 스플라이싱 텍스트-오디오 쌍에 대응되는 다차원 스플라이싱 텍스트-오디오 쌍을 선별해내는 단계;

상기 다차원 스플라이싱 텍스트-오디오 쌍 및 상기 검출할 텍스트-오디오 쌍을 다차원 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 다차원 검출할 텍스트-오디오 쌍이 상기 기설정된 검출 조건을 만족하는지 여부를 판단하는 단계;

만족하는 경우, 상기 다차원 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입하는 단계; 및

만족하지 않는 경우, 상기 다차원 스플라이싱 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하고, 상기 다차원 검출할 텍스트-오디오 쌍을 상기 검출할 텍스트-오디오 쌍으로 사용하며, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 상기 스플라이싱 텍스트-오디오 쌍에 대응되는 다차원 스플라이싱 텍스트-오디오 쌍을 선별해내는 상기 단계를 수행하는 단계를 더 포함한다.

선택적으로, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하는 상기 단계를 수행한 이후에, 상기 샘플 생성 방법은,

상기 트레이닝 데이터베이스에서 샘플 텍스트-오디오 쌍을 추출하되, 상기 샘플 텍스트-오디오 쌍에는 샘플 텍스트 세그먼트 및 샘플 오디오 세그먼트가 포함되는 단계; 및

상기 샘플 텍스트 세그먼트 및 상기 샘플 오디오 세그먼트를 기반으로 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 단계를 더 포함한다.

본 명세서의 실시예의 제2 양태에 따르면, 샘플 생성 장치를 제공하고, 상기 장치는,

복수의 텍스트-오디오 쌍을 획득하도록 구성되되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되는 획득 모듈;

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내도록 구성되는 계산 모듈;

상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하도록 구성되는 스플라이싱 모듈; 및

상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하도록 구성되는 기입 모듈을 포함한다.

본 명세서의 실시예의 제3 양태에 따르면, 컴퓨팅 기기를 제공하고, 상기 컴퓨팅 기기는,

메모리 및 프로세서를 포함하되;

상기 메모리는 컴퓨터 실행 가능 명령을 저장하기 위해 사용되고, 상기 프로세서는 상기 컴퓨터 실행 가능 명령을 실행하여,

복수의 텍스트-오디오 쌍을 획득하되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되며;

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내며;

상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하며; 및

상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하도록 한다.

본 명세서의 실시예의 제4 양태에 따르면, 컴퓨터 명령이 저장된 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 명령은 프로세서에 의해 실행될 경우 상기 샘플 생성 방법의 단계를 수행한다.

본 명세서에서는 샘플 생성 방법을 제공하여, 복수의 텍스트-오디오 쌍을 획득한 후, 상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해낸 후, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하며, 상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입함으로써, 샘플 데이터 준비 단계에서 스플라이싱 방식을 통해 다운스트림 태스크의 사용 요구를 충족하는 고품질의 샘플 데이터를 얻을 수 있어, 데이터 준비 단계의 자원 소모 비용을 절감하고, 또한, 스플라이싱된 후 상기 트레이닝 데이터베이스에 기입되는 샘플 데이터의 데이터 양이 상대적으로 많으므로, 다운스트림 태스크의 샘플 데이터 양이 적고 샘플 데이터의 오디오 길이의 분포가 고르지 않아 음성 합성 효과가 떨어지는 문제를 효과적으로 해결하여 다운스트림 태스크의 태스크 처리 효율을 높인다.

도 1은 본 명세서의 일 실시예에서 제공하는 샘플 생성 방법의 흐름도이다.
도 2는 본 명세서의 일 실시예에서 제공하는 샘플 생성 방법에서 정렬 처리 결과의 모식도이다.
도 3은 본 명세서의 일 실시예에서 제공하는 샘플 생성 방법에서 분할 처리 결과의 모식도이다.
도 4는 본 명세서의 일 실시예에서 제공하는 샘플 생성 방법에서 스플라이싱 텍스트-오디오 쌍을 선별하는 흐름도이다.
도 5는 본 명세서의 일 실시예에서 제공하는 음성 합성 장면에 응용되는 샘플 생성 방법의 흐름도이다.
도 6은 본 명세서의 일 실시예에서 제공하는 샘플 생성 장치의 구조 모식도이다.
도 7은 본 명세서의 일 실시예에서 제공하는 컴퓨팅 기기의 구조 블록도이다.

아래의 설명에서는 본 명세서를 충분히 이해할 수 있도록 많은 구체적인 세부사항이 기술되었다. 그러나 본 명세서는 여기서 설명된 방법과는 상이한 많은 다른 방식으로 구현될 수 있으며, 본 분야의 기술자는 본 명세서의 원리를 벗어나지 않는 전제하에 유사하게 확장을 진행할 수 있으므로, 본 명세서는 아래에 개시된 구체적인 실시형태에 한정되지 않는다.

본 명세서의 하나 이상의 실시예에서 사용된 용어는 단지 특정 실시예를 설명하기 위한 목적으로 사용된 것이며, 본 명세서의 하나 이상의 실시예를 제한하기 위한 것이 아니다. 문맥에서 달리 명시되지 않는 한, 본 명세서의 하나 이상의 실시예 및 첨부된 청구범위에서 사용된 단수형의 "하나”, "상기" 및 "그”는 복수형도 포함하도록 의도된다. 또한, 본 명세서의 하나 이상의 실시예에서 사용된 용어 "및/또는”은 하나 이상의 나열된 연관 항목들의 임의의 또는 모든 가능한 조합을 지칭하고 포함함을 이해해야 한다.

본 명세서의 하나 이상의 실시예에서는 "제1", "제2" 등의 용어를 사용하여 다양한 정보를 설명하였으나, 이러한 정보는 이러한 용어에 한정되지 않음을 이해해야 한다. 이러한 용어는 단지 동일한 유형의 정보를 서로 구분하기 위해 사용된다. 예를 들어, 본 명세서의 하나 이상의 실시예의 범위를 벗어나지 않는 전제하에, "제1"은 "제2"로 명명될 수도 있으며, 유사하게, "제2"도 "제1"로 명명될 수 있다. 문맥에 따라, 본문에서 사용된 단어 “만약”은 "????때” 또는 "????경우” 또는 "결정된 것에 응답하여”로 해석될 수 있다.

우선, 본 명세서의 하나 이상의 실시예에서 언급된 용어에 대해 설명한다.

F0(피치 주파수): 일반적으로 소리는 발음체에서 발산되는 일련의 주파수 및 진폭이 서로 다른 진동이 복합되어 형성되며; 이러한 진동들 중 주파수가 가장 낮은 진동이 하나 있는데 그것으로부터 발산되는 소리가 피치이고, 그에 대응되는 주파수가 바로 피치 주파수이다.

강제 정렬: 주어진 음소의 시퀀스와 음성의 시간적 대응 관계를 얻는 기술로서, kaldi(WFST를 사용하여 디코딩 알고리즘을 구현하는 오픈 소스 음성 인식 도구(Toolkit)) 또는 HTK(HMM Toolkit, hmm 모델 기반 음성 처리 도구) 등과 같은 강제 정렬 도구를 통해 음소의 시퀀스와 오디오를 정렬할 수 있다.

음소는 음성의 자연 속성에 따라 구분되는 최소 음성 단위로서, 음절 내 발음 동작을 기반으로 분석되며, 하나의 동작이 하나의 음소를 구성한다. 음소는 모음과 자음 두 종류로 나뉜다. 예를 들어, 중국어 음절 아(

,

)에는 음소가 하나만 있고, 애(愛,

)에는 음소가 2개, 대(代,

)에는 음소가 3개 있는 등이며; 중국어에서 음소는 병음이고; 영어에서 음소는 음표이다.

본 명세서에서는 샘플 생성 방법을 제공하고, 본 명세서는 또한 샘플 생성 장치, 컴퓨팅 기기, 및 컴퓨터 판독 가능 저장 매체를 다루고 있으며, 아래의 실시예에서 하나하나 자세히 설명하기로 한다.

실제 응용에서, 신경망 기반 엔드 투 엔드 음성 합성 방법에서는 방법의 특성상 모델을 트레이닝하기 전에 사용 요구를 만족하는 음성 합성 모델을 트레이닝할 수 있도록 품질이 상대적으로 높은 일부 샘플 데이터를 준비해야 하는데; 이러한 일부 샘플 데이터는 통상적으로 전문적인 녹음실에서 녹음한 다음 다듬고 정리한 후에야 모델의 트레이닝에 사용될 수 있으므로, 데이터를 준비하기 위해 비교적 많은 시간을 준비해야 할 뿐만 아니라 비용도 많이 들며; 동시에, 샘플 데이터에 대한 요구가 비교적 엄격하므로 최종적으로 모델의 트레이닝에 사용할 수 있는 데이터가 훨씬 적어지며, 이에 길이 및 운율을 종합적으로 포괄하는 샘플 데이터를 얻을 수 없어 음성 합성 시 음색이 다르고 운율(톤 업다운)이 부자연스러운 등 문제를 초래하게 된다. 따라서, 샘플 데이터 준비 단계에서 품질이 높고 속성이 풍부한 샘플 데이터를 생성하는 방법은 시급히 해결해야 할 문제이다.

도 1은 본 명세서의 일 실시예에서 제공하는 샘플 생성 방법의 흐름도를 도시하며, 구체적으로 아래와 같은 단계를 포함한다.

단계 S102에서, 복수의 텍스트-오디오 쌍을 획득하되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함된다.

구체적으로, 상기 텍스트-오디오 쌍은 구체적으로 대응 관계를 가진 텍스트 세그먼트 및 오디오 세그먼트로 구성된 대기열을 말하며, 상기 텍스트 세그먼트는 문자 단위, 단어 단위 또는 문장 단위 등을 포함하되 이에 한정되지 않으며, 상기 오디오 세그먼트는 문자 단위, 단어 단위 또는 문장 단위에 매칭되는 음성을 포함하나 이에 한정되지 않는다.

이를 기반으로, 다운스트림 태스크의 처리 과정은 음성 합성 모델의 트레이닝, 즉 텍스트를 오디오로 변환할 수 있는 모델을 트레이닝하는 것이므로, 샘플 데이터의 준비 단계에서 다운스트림 태스크의 요구를 만족하는 대량의 샘플 데이터를 준비해야 하며, 또한, 예측 정확도가 높은 음성 합성 모델을 트레이닝하기 위해, 데이터 준비 단계에서 오디오 특징과 결합하여 샘플 데이터를 준비함으로써 낮은 소모 비용으로 고품질 및 대량의 샘플 데이터 준비 작업을 완성한다.

나아가, 다운스트림 태스크는 많은 샘플 데이터를 필요로 하고 품질에 대한 요구가 높기 때문에, 수동으로 오디오를 녹음하는 방식만으로 샘플 데이터를 구축하면 시간이 많이 걸리고 속성의 포괄 범위가 작으므로, 본 발명에서는 상기 문제를 해결하기 위해 스플라이싱 방식으로 샘플 데이터 준비 작업을 실현하여, 대량의 샘플 데이터를 스플라이싱하여 다운스트림 태스크에 사용할 수 있고, 또한, 샘플 데이터의 질량 요구를 보장하기 위해 오디오 특징과 결합하여 스플라이싱 처리를 완성함으로써 샘플 데이터의 준비 작업을 완성하며; 이를 기반으로, 샘플 데이터의 준비 단계에서 길이가 서로 다른 소량의 텍스트를 준비하고 이 부분의 텍스트에 대응되는 오디오를 생성한 다음, 소량의 텍스트 및 그에 대응되는 소량의 오디오를 기반으로 트레이닝 데이터베이스에 기입되는 샘플 데이터를 구축할 수 있다.

본 실시예에서는 소량의 텍스트 중의 임의의 하나의 텍스트를 타깃 텍스트로 하는 예를 들어 상기 샘플 생성 방법에 대해 설명하며, 요구를 만족하는 샘플 데이터를 생성하는 과정은 모두 본 실시예의 상응한 설명을 참조할 수 있으므로, 여기서는 반복하여 설명하지 않는다.

상기 샘플 데이터를 생성하는 과정에서, 상기 트레이닝 데이터베이스에 기입될 수 있는 대량의 텍스트-오디오 쌍을 스플라이싱하기 위해, 획득한 타깃 텍스트 및 그에 대응되는 오디오에 대해 분할 후 정렬 처리를 수행함으로써 상기 복수의 텍스트-오디오 쌍을 얻으며, 본 실시예에서, 구체적인 구현 방법은 다음과 같다.

타깃 텍스트 및 상기 타깃 텍스트에 대응되는 오디오를 획득한다.

상기 오디오에 대해 전처리를 수행하여 타깃 오디오를 획득하고, 상기 타깃 텍스트를 음소 시퀀스로 변환한다.

상기 음소 시퀀스와 상기 타깃 오디오에 대해 정렬 처리를 수행하고, 정렬 처리 결과에 따라 상기 복수의 텍스트-오디오 쌍을 생성한다.

구체적으로, 상기 타깃 텍스트는 한 편의 글 또는 하나의 문장 등을 포함하되 이에 한정되지 않으며, 상응하게, 상기 오디오는 구체적으로 상기 타깃 텍스트에 대해 생성된 음성을 말하고, 상기 타깃 텍스트에 대응되는 오디오는 녹음 방식 또는 음성 합성의 방식으로 생성될 수 있으며, 본 실시예는 여기서 어떠한 제한도 하지 않으나, 유의해야 할 점은, 상기 오디오와 상기 타깃 텍스트의 매칭 정도는 상대적으로 높아서 후속적인 스플라이싱 시 상기 트레이닝 데이터베이스에 기입될 수 있는 샘플 데이터를 더 많이 얻을 수 있도록 하고; 상기 타깃 오디오는 구체적으로 상기 오디오에 대해 표준화 처리를 수행한 후 얻은 오디오를 말하고, 상기 음소 시퀀스는 구체적으로 상기 타깃 텍스트를 구성하는 최소 단위로 구성된 시퀀스를 말하며, 상기 정렬 처리는 구체적으로 오디오에서 텍스트에 대응되는 시간 구간을 찾는 것을 말한다.

이를 기반으로, 텍스트-오디오 쌍의 텍스트 세그먼트와 오디오 세그먼트가 상대적으로 높은 근접 정도를 갖도록 보장하기 위해, 상기 텍스트-오디오 쌍을 생성할 때 텍스트의 최소 단위로부터 시작하여 정렬 처리 과정을 완료하며, 즉 상기 타깃 텍스트 및 타깃 텍스트에 대응되는 오디오를 획득한 후, 우선 상기 오디오에 대해 전처리를 수행하여 타깃 오디오를 얻음으로써, 상기 오디오에서 후속 처리 과정에 방해가 되는 부분, 예를 들어 오디오의 시작 및/또는 끝의 빈 오디오 세그먼트(무성 오디오 세그먼트) 또는 오디오 시작 및/또는 끝의 소음이 큰 오디오 세그먼트(발음 내용을 구별할 수 없는 오디오 세그먼트) 등을 제거한 다음; 상기 타깃 텍스트를 음소 시퀀스로 변환하여 최소 단위로 텍스트와 오디오를 정렬하여 정렬의 정확도를 향상시키며; 마지막으로 상기 음소 시퀀스와 상기 타깃 오디오에 대해 정렬 처리를 수행하면, 정렬 처리 결과에 따라 상기 복수의 텍스트-오디오 쌍을 얻을 수 있다.

실제 응용에서, 상기 음소 시퀀스와 상기 타깃 오디오에 대해 정렬 처리를 수행하는 과정에서, kaldi 정렬 도구 또는 HTK 정렬 도구를 사용하여 완성할 수 있고; 이 외에도 실제 요구에 따라 다른 정렬 도구를 사용하여 상기 음소 시퀀스와 상기 타깃 오디오의 정렬을 완성할 수도 있으며, 본 실시예는 여기서 어떠한 제한도 하지 않는다.

나아가, 정렬 처리 결과에 따라 상기 복수의 텍스트-오디오 쌍을 생성하는 과정에서, 텍스트의 최소 단위로부터 정렬 처리 과정을 완성하므로, 음소와 오디오의 정렬 처리를 완료한 후 또한 음소를 텍스트로 변환함으로써 텍스트와 오디오가 정확히 정렬되도록 해야 하며, 후속적인 사용 요구를 만족하는 복수의 텍스트-오디오 쌍을 얻도록 분할을 수행하며, 본 실시예에서, 구체적인 구현 방법은 다음과 같다.

정렬 처리 결과에 따라 음소 오디오 파일을 얻고, 상기 음소 오디오 파일의 분할 위치를 결정한다.

상기 분할 위치에 따라 상기 음소 오디오 파일을 분할하여 복수의 음소-오디오 쌍을 획득하되, 각각의 음소-오디오 쌍에는 음소 세그먼트 및 오디오 세그먼트가 포함된다.

상기 타깃 텍스트를 기반으로 상기 복수의 음소-오디오 쌍 중 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트를 결정한다.

각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트, 및 각각의 음소-오디오 쌍의 오디오 세그먼트에 따라 상기 복수의 텍스트-오디오 쌍을 생성한다.

구체적으로, 상기 음소 오디오 파일은 구체적으로 음소 시퀀스와 타깃 오디오에 대해 정렬 처리를 수행한 후 얻은 파일을 말하고; 상기 분할 위치는 상기 타깃 오디오에서 끊어 읽은 위치 또는 발음 중단 시간이 설정된 시간 임계값을 초과하는 위치일 수 있으며; 상기 음소-오디오 쌍은 구체적으로 대응 관계를 가진 음소 세그먼트 및 오디오 세그먼트로 구성된 대기열을 말한다.

이를 기반으로, 상기 음소 시퀀스와 상기 타깃 오디오의 정렬을 완료한 후 상기 음소 오디오 파일을 얻으며, 후속적으로 트레이닝 데이터베이스의 기입을 만족하는 대량의 샘플 데이터를 스플라이싱하기 위해, 상기 음소 오디오 파일 중 타깃 오디오의 분할 위치에 따라 상기 음소 오디오 파일에 대해 분할 처리를 수행하여 복수의 음소-오디오 쌍을 획득하되, 각각의 음소-오디오 쌍에는 음소 세그먼트 및 그에 대응되는 오디오 세그먼트가 포함되고, 그다음, 다시 상기 타깃 텍스트를 기반으로 각각의 음소-오디오 쌍의 음소 세그먼트를 텍스트 세그먼트로 변환함으로써 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트 및 오디오 세그먼트에 따라 상기 텍스트-오디오 쌍을 구성하되, 상기 텍스트-오디오 쌍에는 텍스트 세그먼트 및 그에 대응되는 오디오 세그먼트가 포함된다. 이때 형성된 복수의 텍스트-오디오 쌍은 후속적인 처리에서 트레이닝 데이터베이스에 기입하기 위한 샘플 데이터로 스플라이싱되어 샘플 데이터의 준비 작업을 완성할 수 있다.

구체적인 실시에서, 상기 타깃 오디오는 이미 상기 오디오 시퀀스에 대해 정확히 정렬되었으므로, 상기 타깃 오디오의 분할 위치에 따라 상기 음소 오디오 파일을 분할할 때 분할된 음소-오디오 쌍에 포함된 음소 세그먼트와 오디오 세그먼트도 서로 대응될 수 있으며; 또한, 사용자의 발화 특성에 따라, 분할된 음소-오디오 쌍에 포함된 음소 세그먼트는 타깃 텍스트에서 상응한 텍스트 세그먼트를 찾을 수 있도록 보장할 수 있으며, 음소 세그먼트가 분할된 후 불완전한 문제가 발생하지 않는다.

예를 들어, 타깃 텍스트가 "나는 재밌는 축구 경기를 한 판 보았다(我看了一

精彩的足球比

)"이고, 상기 타깃 텍스트에 대해 12s의 오디오가 생성된 경우, 후속적인 정렬 처리를 만족하기 위해 상기 오디오의 시작 및 끝의 빈 오디오 세그먼트를 삭제하여 길이가 10s인 타깃 오디오를 얻고, 동시에, 정렬의 정확도를 향상시키기 위하여, 타깃 텍스트 "나는 재밌는 축구 경기를 한 판 보았다(我看了一

精彩的足球比

)"에 대응되는 음소 시퀀스(wo kan le yi chang jing cai de zu qiu bi sai)로 변환하고, kaldi 정렬 도구를 통해 음소 시퀀스와 타깃 오디오에 대해 정렬 처리를 수행하여 도2에 도시된 바와 같은 정렬 처리 결과, 즉 음소 시퀀스 및 타깃 오디오로 구성된 음소 오디오 파일을 얻는다.

나아가, 음소 오디오 파일에서 타깃 오디오를 검출하는 것을 통해 타깃 오디오의 발화한 사용자가 이 음성을 녹음할 때 4번 끊어 읽었음을 결정하는 바, 첫 번째 끊김은 타깃 오디오의 3s 부분, 두 번째 끊김은 타깃 오디오의 4s 부분, 세 번째 끊김은 타깃 오디오의 6s 부분, 네 번째 끊김은 타깃 오디오의 8s 부분이고, 이때 음소 오디오 파일의 분할 위치가 각각 T₁=3, T₂=4, T₃=6 및 T₄=8임을 결정할 수 있으며, 분할 위치에 따라 음소 오디오 파일을 분할하여 5개의 음소-오디오 쌍을 얻되, 제1 음소-오디오 쌍 P₁은 제1 음소 세그먼트(wo kan le)와 제1 오디오 세그먼트(0s~3s)로 구성되고; 제2 음소-오디오 쌍 P₂는 제2 음소 세그먼트(yi chang)와 제2 오디오 세그먼트(3s~4s)로 구성되며; 제3 음소-오디오 쌍 P₃은 제3 음소 세그먼트(jing cai de)와 제3 오디오 세그먼트(4s~6s)로 구성되고; 제4 음소-오디오 쌍 P₄는 제4 음소 세그먼트(zu qiu)와 제4 오디오 세그먼트(6s~8s)로 구성되며; 제5 음소-오디오 쌍 P₅는 제5 음소 세그먼트(bi sai)와 제5 오디오 세그먼트(8s~10s)로 구성된다.

더 나아가, 음소-오디오 쌍 P₁~P₅를 얻은 후, 각각의 음소-오디오 쌍의 음소 세그먼트를 텍스트 세그먼트로 변환하여 후속적인 스플라이싱 처리에 사용될 수 있는 텍스트-오디오 쌍을 얻어야 하며, 이때 타깃 텍스트 “나는 재밌는 축구 경기를 한 판 보았다(我看了一

精彩的足球比

)”에 따라 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트를 결정할 수 있는 바, 즉 제1 음소-오디오 쌍 P₁에 포함된 제1 음소 세그먼트(wo kan le)에 대응되는 제1 텍스트 세그먼트는 (나는 보았다(我看了))이고; 제2 음소-오디오 쌍 P₂에 포함된 제2 음소 세그먼트(yi chang)에 대응되는 제2 텍스트 세그먼트는 (한 판(一

))이며; 제3 음소-오디오 쌍 P₃에 포함된 제3 음소 세그먼트(jing cai de)에 대응되는 제3 텍스트 세그먼트는 (재밌는(精彩的))이고; 제4 음소-오디오 쌍 P₄에 포함된 제4 음소 세그먼트(zu qiu)에 대응되는 제4 텍스트 세그먼트는 (축구(足球))이며; 제5 음소-오디오 쌍 P₅에 포함된 제5 음소 세그먼트(bi sai)에 대응되는 제5 텍스트 세그먼트는 (경기(比

))이다.

마지막으로, 도3에 도시된 분할 결과에서와 같이, 상기 얻은 텍스트 세그먼트 및 오디오 세그먼트에 따라 타깃 텍스트 및 타깃 오디오에 대응되는 복수의 텍스트-오디오 쌍을 생성할 수 있으며, 여기서, 제1 텍스트-오디오 쌍 TA₁은 제1 텍스트 세그먼트(나는 보았다)와 제1 오디오 세그먼트(0s~3s)로 구성되고; 제2 텍스트-오디오 쌍 TA₂은 제2 텍스트 세그먼트(한 판)와 제2 오디오 세그먼트(3s~4s)로 구성되며; 제3 텍스트-오디오 쌍 TA₃은 제3 텍스트 세그먼트(재밌는)와 제3 오디오 세그먼트(4s~6s)로 구성되고; 제4 텍스트-오디오 쌍 TA₄은 제4 텍스트 세그먼트(축구)와 제4 오디오 세그먼트(6s~8s)로 구성되며; 제5 텍스트-오디오 쌍 TA₅은 제5 텍스트 세그먼트(경기)와 제5 오디오 세그먼트(8s~10s)로 구성되어; 후속적으로 트레이닝 데이터베이스의 기입을 만족하는 샘플 데이터를 스플라이싱하여 음성 합성 모델의 트레이닝에 사용되도록 한다.

상기 내용을 종합하면, 상기 복수의 텍스트-오디오 쌍을 구축할 때 최소 단위 음소로 타깃 오디오의 정렬을 완성함으로써, 텍스트와 오디오의 정렬의 정확도를 향상시킬 수 있을 뿐만 아니라, 후속적으로 분할을 수행할 때 분할된 음소 세그먼트와 오디오 세그먼트의 높은 매칭 정도를 보장하여, 분할된 복수의 텍스트-오디오 쌍이 모두 후속적인 샘플 생성 과정에 사용될 수 있도록 하여 후속적인 샘플 데이터의 생성을 위해 충분한 양을 보장할 수 있다.

단계 S104에서, 상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해낸다.

구체적으로, 상기 복수의 텍스트-오디오 쌍을 획득한 상기 기초 상에, 나아가, 상기 트레이닝 데이터베이스에 기입되는 텍스트-오디오 쌍은 모델의 트레이닝에 사용되기 위한 것이므로, 트레이닝된 모델의 예측 정확도를 향상시키기 위해, 모델의 트레이닝에 사용되는 샘플 데이터의 품질도 보장해야 하는 바, 즉 트레이닝 데이터베이스에 기입될 수 있는 텍스트-오디오 쌍을 스플라이싱할 때, 스플라이싱하기 전의 텍스트-오디오 쌍 사이의 음색 및 운율 등 문제를 고려해야 하며; 만약 스플라이싱하기 전 2개의 텍스트-오디오 쌍이 음색 및 운율 등 면에서 모두 상이하거나 비슷하지 않거나, 또는 톤의 업다운이 일치하지 않으면 스플라이싱된 텍스트-오디오 쌍에는 오디오 세그먼트가 매칭되지 않고, 텍스트 세그먼트의 전후 의미가 불일치한 문제가 존재하여 모델의 트레이닝에 사용될 수 없다.

이를 기반으로, 고품질의 텍스트-오디오 쌍(트레이닝 데이터베이스에 기입될 수 있는 샘플 데이터)을 스플라이싱하여 예측 정확도가 상대적으로 높은 모델을 트레이닝하기 위하여, 본 발명은 텍스트-오디오 쌍을 스플라이싱하기 전에 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산한 후, 상기 오디오 특징을 기반으로 복수의 텍스트-오디오 쌍에서 스플라이싱할 수 있는 텍스트-오디오 쌍을 선택하여, 톤, 운율 등 속성이 비슷한 텍스트 오디오에 대해 스플라이싱을 수행하여 오디오 세그먼트가 연속되고 텍스트 세그먼트의 의미가 일치한 텍스트-오디오 쌍을 얻음으로써 고품질의 텍스트-오디오 쌍을 얻어 후속적인 모델의 트레이닝에 사용한다.

여기서, 상기 오디오 특징은 오디오 세그먼트의 피치 주파수를 표시하는 특징, 오디오 프레임의 특징 및/또는 오디오 프레임 에너지의 특징 등을 포함하나 이에 한정되지 않으며, 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 통해 스플라이싱이 필요한 각각의 텍스트-오디오 쌍이 스플라이싱에 적합한지 분석해낼 수 있으며, 즉 피치 주파수 특징, 오디오 프레임의 특징 및/또는 오디오 프레임 에너지의 특징을 통해 스플라이싱이 필요한 텍스트-오디오 쌍 사이의 톤, 운율 등 속성이 비슷하거나 동일한지 여부를 결정함으로써, 상기 오디오 특징을 통해 상기 복수의 텍스트-오디오 쌍에서 상기 스플라이싱 텍스트-오디오 쌍을 선별해내며; 상기 타깃 텍스트-오디오 쌍은 구체적으로 참조 텍스트-오디오 쌍을 말하고, 상기 스플라이싱 텍스트-오디오 쌍은 상기 참조 텍스트-오디오 쌍과의 스플라이싱 조건을 만족하는 텍스트-오디오 쌍을 말한다.

이를 기반으로, 상기 복수의 텍스트-오디오 쌍을 얻은 후, 서로 스플라이싱 가능한 텍스트-오디오 쌍(즉 텍스트-오디오 쌍 사이 음색, 운율이 비슷하거나 동일함)을 얻어 상대적으로 많은 샘플 데이터를 얻기 위해, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 타깃 텍스트-오디오 쌍이 결정된 후, 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 복수의 텍스트-오디오 쌍의 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 상기 복수의 텍스트-오디오 쌍에서 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내여 후속적인 샘플 데이터의 생성에 사용함으로써, 대량의 샘플 데이터를 스플라이싱할 때 샘플 데이터의 개수 요구를 만족할 뿐만 아니라, 오디오 특징과 결합하여 스플라이싱하기 전 텍스트-오디오 쌍 사이의 근접 정도를 보장하여 스플라이싱된 후의 텍스트-오디오 쌍의 품질을 향상시킨다.

나아가, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하는 과정에서, 오디오 특징을 통해 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 속성 특징을 충분히 반영할 수 있도록, 각각의 텍스트-오디오 쌍의 오디오 세그먼트에 대해 프레이밍 처리를 수행하여 오디오 프레임을 통해 상기 오디오 특징을 분석할 수 있으며, 본 실시예에서, 구체적인 구현 방법은 다음과 같다.

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트를 추출하고, 각각의 텍스트-오디오 쌍의 오디오 세그먼트에 대해 프레이밍 처리를 수행하여 각각의 텍스트-오디오 쌍의 오디오 프레임 세트를 획득한다.

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 프레임 세트에 포함된 오디오 프레임을 기반으로, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징을 계산한다.

각각의 텍스트-오디오 쌍의 오디오 세그먼트의 상기 피치 주파수 특징 및 상기 오디오 프레임 특징에 따라 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 상기 오디오 특징을 결정한다.

구체적으로, 상기 피치 주파수 특징은 구체적으로 오디오 세그먼트 중 발음체에 의해 발산되는 일련의 주파수 및 진폭이 서로 다른 진동 중에서 주파수가 가장 낮은 진동에 대응되는 주파수 수치이고; 상기 오디오 프레임 특징은 구체적으로 상기 오디오 세그먼트의 오디오 프레임에 대해 푸리에 변환을 거친 후 스펙트럼 상의 점을 계산하여 얻은 프레임 에너지 수치이며; 상응하게, 상기 피치 주파수 특징은 텍스트-오디오 쌍을 스플라이싱할 때 서로 발음 진동 폭이 비슷하거나 동일한지 분석하기 위해 사용될 수 있고; 상기 오디오 프레임 특징은 텍스트-오디오 쌍에 대해 스플라이싱을 수행할 때 서로 에너지 분포가 비슷하거나 동일한지 분석하기 위해 사용될 수 있으며; 이로써 피치 주파수 및 프레임 에너지를 통해 스플라이싱된 후의 효과가 보다 좋은 텍스트-오디오 쌍에 대해 스플라이싱을 수행하여 사용 요구를 만족하는 샘플 데이터를 얻는다.

이를 기반으로, 우선 상기 각각의 텍스트-오디오 쌍의 오디오 세그먼트를 추출하고, 각각의 텍스트-오디오 쌍의 오디오 세그먼트에 대해 프레이밍 처리를 수행하여 각각의 텍스트-오디오 쌍의 오디오 프레임 세트를 획득한 다음, 오디오 프레임 세트에 포함된 오디오 프레임을 기반으로 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징을 계산하며, 마지막으로 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징에 따라 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 결정할 수 있다.

또한, 임의의 2개의 텍스트-오디오 쌍은 모두 스플라이싱될 가능성이 있으므로, 트레이닝 데이터베이스에 기입될 수 있는 텍스트-오디오 쌍을 더 많이 발굴하기 위해, 상기 오디오 특징을 계산할 때 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 시작 오디오 특징(시작 피치 주파수 특징 및 시작 오디오 프레임 특징) 및 종료 오디오 특징(종료 피치 주파수 특징 및 종료 오디오 프레임 특징)을 계산한 후, 상기 복수의 텍스트-오디오 쌍에서 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별할 때, 상기 타깃 텍스트-오디오 쌍을 시작 텍스트-오디오 쌍으로 사용하여, 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 종료 오디오 특징 및 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 시작 오디오 특징을 기반으로 계산을 진행한 후 상기 스플라이싱 텍스트-오디오 쌍을 선별할 수 있으며, 그다음, 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍에 대해 스플라이싱을 수행할 때 상기 타깃 텍스트-오디오 쌍을 시작 텍스트-오디오 쌍으로 사용하고 상기 스플라이싱 텍스트-오디오 쌍을 종료 텍스트-오디오 쌍으로 사용하여, 양자를 선후 순서에 따라 스플라이싱함으로써 후속적으로 검출이 필요한 검출할 텍스트-오디오 쌍을 얻는다.

또는 상기 타깃 텍스트-오디오 쌍을 종료 텍스트-오디오 쌍으로 사용하여, 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 시작 오디오 특징 및 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 종료 오디오 특징을 기반으로 계산을 진행한 후 상기 스플라이싱 텍스트-오디오 쌍을 선별한 후, 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍에 대해 스플라이싱을 수행할 때 상기 타깃 텍스트-오디오 쌍을 종료 텍스트-오디오 쌍으로 사용하고 상기 스플라이싱 텍스트-오디오 쌍을 시작 텍스트-오디오 쌍으로 사용하여, 양자를 선후 순서에 따라 스플라이싱함으로써 후속적으로 검출이 필요한 검출할 텍스트-오디오 쌍을 얻으며; 또한, 이 과정에서 이미 타깃 텍스트-오디오 쌍을 시작 텍스트-오디오 쌍 및 종료 텍스트-오디오 쌍으로 사용하여 기타 텍스트 오디오와 가능한 스플라이싱을 수행하였으므로, 기타 텍스트-오디오 쌍에 대해 스플라이싱을 수행할 때 타깃 텍스트-오디오 쌍과 스플라이싱하는 처리 과정을 생략하여 후속적인 스플라이싱 처리 과정에서 처리 효율을 향상시킨다.

구체적인 실시에서, 상기 피치 주파수 특징의 계산은 자기 상관 방법, 병렬 처리 방법, 평균 진폭 차이 방법 또는 데이터 감소 방법과 같이 시간 영역 추정 방법을 통해 오디오 파형으로 직접 피치 주파수를 추정할 수 있으며; 또는 변환법을 통해, 즉 오디오의 음성 신호를 주파수 영역 또는 시간 영역으로 변환하여 피치 주파수를 추정할 수 있는 바, 우선 동형 분석법을 사용하여 사운드 채널의 영향을 제거하여 여기 부분에 속하는 정보를 얻은 후, 다시 켑스트럼법 등으로 피치 주파수를 계산할 수 있으며; 또는 혼합 방법을 통해 구현할 수도 있는 바, 즉 먼저 신호 채널 모델 파라미터를 추출한 후, 이를 사용하여 신호를 선별해내여 음원 시퀀스를 얻고, 마지막으로 자기 상관 방법 또는 평균 진폭 차이 방법을 사용하여 상기 피치 주파수를 계산할 수도 있으며; 상기 오디오 세그먼트의 피치 주파수 특징의 계산은 실제 응용 장면에 따라 적절한 방법을 선택하여 구현할 수 있으며, 본 실시예는 여기서 어떠한 제한도 하지 않는다.

상기 오디오 프레임 특징의 계산은 오디오의 각 프레임에 대해 푸리에 변환을 수행하여 오디오 세그먼트에 대응되는 스펙트럼을 얻은 후, 스펙트럼 중 각 점의 값을 통계하고 제곱한 후 더하면 각각의 오디오 프레임의 에너지를 얻을 수 있고, 마지막으로 평균값을 취하면 상기 오디오 프레임 특징을 얻을 수 있으며; 또는 복소수 영역에서의 오디오 프레임의 길이를 더하여 오디오의 각 프레임에 대응되는 프레임 에너지를 얻고, 마지막으로 평균값을 취하여 상기 오디오 프레임 특징을 얻을 수도 있으며; 상기 오디오 세그먼트의 오디오 프레임 특징의 계산은 실제 응용 장면에 따라 적절한 방법을 선택하여 구현할 수 있으며, 본 실시예는 여기서 어떠한 제한도 하지 않는다.

이 밖에, 상기 각각의 텍스트-오디오 쌍의 오디오 세그먼트에 대해 프레이밍 처리를 수행할 때, 고정된 프레임 길이에 따라 프레이밍할 수 있으며, 예를 들어 32ms 또는 64ms로 프레이밍할 수 있고, 구체적인 프레임 길이는 실제 요구에 따라 설정될 수 있으며, 본 실시예는 여기서 어떠한 제한도 하지 않는다.

상기 예시를 그대로 사용하면, 텍스트-오디오 쌍 TA₁~TA₅을 얻은 기초에서, 나아가, 후속적으로 품질 요구를 만족하는 대량의 샘플 데이터를 스플라이싱할 수 있도록, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 시작 피치 주파수와 시작 프레임 에너지, 및 종료 피치 주파수와 종료 프레임 에너지를 미리 계산하고; 이를 기반으로, 우선 각각의 텍스트-오디오 쌍의 오디오 세그먼트를 추출하고, 각각의 오디오 세그먼트에 대해 프레이밍 처리를 수행하여 텍스트-오디오 쌍 TA₁~TA₅에 각각 대응되는 5개의 오디오 프레임 세트를 얻은 후; 변환법 및 5개의 오디오 프레임 세트에 따라 제1 오디오 세그먼트의 시작 피치 주파수 F0_s1=N_s1, 종료 피치 주파수 F0_e1=N_e1; 제2 오디오 세그먼트의 시작 피치 주파수 F0_s2=N_s2, 종료 피치 주파수 F0_e2=N_e2; 제3 오디오 세그먼트의 시작 피치 주파수 F0_s3=N_s3, 종료 피치 주파수 F0_e3=N_e3; 제4 오디오 세그먼트의 시작 피치 주파수 F0_s4=N_s4, 종료 피치 주파수F0_e4=N_e4; 제5 오디오 세그먼트의 시작 피치 주파수 F0_s5=N_s5, 종료 피치 주파수 F0_e5=N_e5를 계산하고, 동시에, 푸리에 변환 후 스펙트럼의 중간점 값의 제곱의 합을 통계하는 방법 및 5개의 오디오 프레임 세트에 따라, 제1 오디오 세그먼트의 시작 프레임 에너지 E_s1=M_s1, 종료 프레임 에너지 E_e1=M_e1; 제2 오디오 세그먼트의 시작 프레임 에너지 E_s2=M_s2, 종료 프레임 에너지 E_e2=M_e2; 제3 오디오 세그먼트의 시작 프레임 에너지 E_s3=M_s3, 종료 프레임 에너지 E_e3=M_e3; 제4 오디오 세그먼트의 시작 프레임 에너지 E_s4=M_s4, 종료 프레임 에너지 E_e4=M_e4; 제5 오디오 세그먼트의 시작 프레임 에너지 E_s5=M_s5, 종료 프레임 에너지 E_e5=M_e5를 계산한다.

나아가, 각각의 오디오 세그먼트의 시작/종료 피치 주파수와 시작/종료 프레임 에너지에 따라 각각의 오디오 세그먼트에 대응되는 오디오 특징을 결정할 수 있으며, 제1 오디오 세그먼트의 시작 오디오 특징(F0_s1=N_s1, E_s1=M_s1), 종료 오디오 특징(F0_e1=N_e1, E_e1=M_e1); 제2 오디오 세그먼트의 시작 오디오 특징(F0_s2=N_s2, E_s2=M_s2), 종료 오디오 특징(F0_e2=N_e2, E_e2=M_e2); 제3 오디오 세그먼트의 시작 오디오 특징(F0_s3=N_s3, E_s3=M_s3), 종료 오디오 특징(F0_e3=N_e3, E_e3=M_e3); 제4 오디오 세그먼트의 시작 오디오 특징(F0_s4=N_s4, E_s4=M_s4), 종료 오디오 특징(F0_e4=N_e4, E_e4=M_e4); 제5 오디오 세그먼트의 시작 오디오 특징(F0_s5=N_s5, E_s5=M_s5), 종료 오디오 특징(F0_e5=N_e5, E_e5=M_e5)을 얻어; 후속적인 스플라이싱 텍스트-오디오 쌍의 선별에 사용될 때 오디오 특징에 따라 스플라이싱 효과가 높은 텍스트-오디오 쌍을 선별해내여 스플라이싱 처리를 수행할 수 있도록 한다.

이 외에도, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산할 때, 계산 효율을 높이기 위해 전방 연결 및 후방 연결 방식으로 효율적으로 계산할 수 있으며, 즉 임의의 하나의 오디오 세그먼트의 오디오 특징을 계산할 필요가 있다고 결정되면, 상기 오디오 세그먼트의 앞에 연결된 오디오 세그먼트와 뒤에 연결된 오디오 세그먼트를 선택하여 인접한 오디오 세그먼트를 구성하여, 임의의 하나의 오디오 세그먼트 및 인접한 오디오 세그먼트 중 2개의 오디오 세그먼트에 대해 각각의 오디오 특징을 동시에 계산함으로써 오디오 특징을 계산하는 데 걸리는 시간을 절약하고 트레이닝 데이터베이스에 대한 업데이트의 효율성을 제공한다.

상기 내용을 종합하면, 후속적으로 고품질의 샘플 데이터를 스플라이싱하기 위해, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 미리 계산하여, 속성 차원에서 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 속성 정보를 분석함으로써, 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별할 때 오디오 특징을 결합하여 스플라이싱된 후의 효과가 상대적으로 좋은 텍스트-오디오 쌍을 선별해내여 상기 스플라이싱 텍스트-오디오 쌍으로 사용하여 샘플 데이터의 품질을 향상시킨다.

더 나아가, 상기 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징에 대한 계산을 완료한 후, 오디오 특징에 따라 상기 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 선별해내여 후속적인 스플라이싱 처리에 사용하여 기입 요구를 만족하는 샘플 데이터를 얻으며, 본 실시예에서, 구체적인 구현 방법은 도 4에 도시된 단계 S1042~단계 S1052와 같다.

단계 S1042에서, 상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트, 텍스트 세그먼트 및 오디오 특징을 통합하여 각각의 텍스트-오디오 쌍에 대응되는 텍스트-오디오 패키지를 획득하고 이를 세그먼트 데이터베이스에 기입한다.

단계 S1044에서, 상기 세그먼트 데이터베이스에서 임의의 하나의 텍스트-오디오 패키지를 타깃 텍스트-오디오 패키지로 선택하고, 상기 타깃 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 타깃 텍스트-오디오 쌍으로 결정한다.

단계 S1046에서, 상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지를 선택하여 선별할 텍스트-오디오 패키지 세트를 구성한다.

단계 S1048에서, 상기 선별할 텍스트-오디오 패키지 세트에 포함된 각각의 선별할 텍스트-오디오 패키지의 텍스트-오디오 쌍을 선별할 텍스트-오디오 쌍으로 결정한다.

단계 S1050에서, 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 상기 선별할 텍스트-오디오 패키지 세트에서 상기 스플라이싱 텍스트-오디오 패키지를 선별해낸다.

단계 S1052에서, 상기 스플라이싱 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용한다.

구체적으로, 상기 텍스트-오디오 패키지는 구체적으로 세그먼트 데이터베이스에 기입되는 텍스트-오디오 쌍 및 그에 대응되는 텍스트 특징으로 구성된 세트를 말하고, 상기 세그먼트 데이터베이스는 구체적으로 텍스트-오디오 쌍의 텍스트 세그먼트, 오디오 세그먼트 및 그에 대응되는 오디오 특징을 임시로 저장하는 데이터베이스를 말하며, 상기 복수의 텍스트-오디오 쌍을 획득한 후, 후속적으로 상기 타깃 텍스트-오디오 쌍에 대해 연관된 스플라이싱 텍스트-오디오 쌍을 선별할 때 일정한 시간이 소모되므로, 상기 텍스트-오디오 패키지를 상기 세그먼트 데이터베이스에 기입하고, 스플라이싱 처리를 수행해야 할 경우 다시 상기 세그먼트 데이터베이스에서 텍스트-오디오 쌍을 추출하여 후속적인 스플라이싱 처리를 수행할 수 있다.

나아가, 상기 선별할 텍스트-오디오 패키지 세트에 포함된 선별할 텍스트-오디오 패키지는 구체적으로 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 기타 텍스트-오디오 패키지를 말하고, 상응하게, 상기 선별할 텍스트-오디오 쌍은 상기 선별할 텍스트-오디오 패키지에 포함된 텍스트-오디오 쌍이며; 상기 스플라이싱 텍스트-오디오 패키지는 구체적으로 상기 타깃 텍스트-오디오 패키지와 스플라이싱될 수 있는 텍스트-오디오 쌍이 속하는 텍스트-오디오 패키지를 말한다.

이를 기반으로, 우선 상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트 오디오의 오디오 세그먼트, 텍스트 세그먼트 및 오디오 특징을 통합하여 복수의 텍스트-오디오 패키지를 얻고, 임시로 상기 세그먼트 데이터베이스에 기입한 후; 텍스트-오디오 쌍에 대해 스플라이싱을 수행해야 할 때 상기 세그먼트 데이터베이스에서 임의의 하나의 텍스트-오디오 패키지를 타깃 텍스트-오디오 패키지로 선택하고, 상기 타깃 텍스트-오디오 패키지에 포함된 텍스트-오디오 쌍을 추출하여 상기 타깃 텍스트-오디오 쌍으로 사용하며, 동시에, 다시 상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 기타 텍스트-오디오 패키지를 선별할 텍스트-오디오 패키지로 선택하고, 선별할 텍스트-오디오 패키지 세트를 구성한다.

다음, 상기 선별할 텍스트-오디오 패키지 세트에 포함된 각각의 선별할 텍스트-오디오 패키지에서 텍스트-오디오 쌍을 추출하여 상기 선별할 텍스트-오디오 쌍으로 사용하고, 각각의 선별할 텍스트-오디오 패키지의 통합된 오디오 특징에 따라 각각의 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 결정한다.

마지막으로, 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 각각의 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 타깃 텍스트-오디오 쌍과 각각의 선별할 텍스트-오디오 쌍의 매칭 정도를 계산할 수 있고, 그다음, 매칭 정도가 상대적으로 높은 선별할 텍스트-오디오 쌍이 속하는 텍스트-오디오 패키지를 상기 스플라이싱 텍스트-오디오 패키지로 할 수 있는 바, 즉 상기 스플라이싱 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍으로 사용하여 후속적으로 양자의 스플라이싱에 사용함으로써 트레이닝 데이터베이스의 기입 요구를 만족하는 샘플 데이터를 얻는다.

더 나아가, 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 상기 스플라이싱 텍스트-오디오 패키지를 선별해내는 과정에서, 상기 타깃 텍스트-오디오 쌍과의 매칭 정도가 높은 텍스트-오디오 쌍을 선별할 수 있도록, 본 실시예에서는 아래와 같은 방식으로 스플라이싱 텍스트-오디오 패키지를 얻음으로써 상기 스플라이싱 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하여 후속적으로 타깃 텍스트-오디오 쌍과의 스플라이싱에 사용하여 트레이닝 데이터베이스의 기입 요구를 만족하는 샘플 데이터를 얻으며, 구체적인 구현 방법은 다음과 같다.

상기 타깃 텍스트-오디오 패키지에 따라 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 제1 오디오 특징을 결정하고, 상기 선별할 텍스트-오디오 패키지에 따라 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 제2 오디오 특징을 결정한다.

상기 제1 오디오 특징과 상기 제2 오디오 특징 사이의 특징 거리를 계산한다.

상기 특징 거리가 기설정된 거리 임계값보다 작은 선별할 텍스트-오디오 쌍이 속하는 선별할 텍스트-오디오 패키지를 상기 스플라이싱 텍스트-오디오 패키지로 결정한다.

구체적으로, 상기 제1 오디오 특징이 바로 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징이고, 상기 제2 오디오 특징이 바로 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징이며, 상응하게, 상기 특징 거리는 구체적으로 텍스트-오디오 쌍 사이 매칭 정도를 평가하는 수치를 말하고, 상기 특징 거리가 클수록 상기 텍스트-오디오 쌍 사이의 매칭 정도가 낮음을 나타내고, 반대로, 상기 특징 거리가 작을수록 상기 텍스트-오디오 쌍 사이의 매칭 정도가 높음을 나타낸다.

이를 기반으로, 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 제1 오디오 특징, 및 상기 선별할 텍스트-오디오 쌍의 제2 오디오 세그먼트의 오디오 특징이 결정된 기초 상에, 상기 제1 오디오 특징 및 상기 제2 오디오 특징에 따라 상기 타깃 텍스트-오디오 쌍과 각각의 선별할 텍스트-오디오 쌍 사이의 특징 거리를 계산한 후, 특징 거리가 기설정된 거리 임계값보다 작은 선별할 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하여 후속적인 스플라이싱 처리에 사용할 수 있다.

상기 특징 거리를 계산하는 과정에서, 아래의 공식 (1)을 사용하여 구현할 수 있다.

L=(F0_e-F0_s)²+(E_e-E_s)² (1)

여기서, L은 특징 거리를 표시하고, F0_e은 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 종료 피치 주파수 특징을 표시하며, F0_s는 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 시작 피치 주파수 특징을 표시하고, E_e는 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 종료 오디오 프레임 특징을 표시하며, E_s는 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 시작 오디오 프레임 특징을 표시한다.

상기 예시를 그대로 사용하면, 텍스트-오디오 쌍 TA₁~TA₅ 및 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 얻은 후, 텍스트-오디오 쌍 및 그에 대응되는 오디오 특징을 텍스트-오디오 패키지(TP₁~TP₅)로 통합하여 세그먼트 데이터베이스 D에 기입함으로써 후속적인 스플라이싱 시 이들 중에서 텍스트-오디오 패키지를 선택하여 스플라이싱 처리를 수행할 수 있도록 한다.

나아가, 세그먼트 데이터베이스 D에서 텍스트-오디오 패키지 TP₁를 타깃 텍스트-오디오 패키지로 선택하며, 이 때 텍스트-오디오 패키지 TP₁에 포함된 텍스트-오디오 쌍 TA₁을 타깃 텍스트-오디오 쌍으로 결정하며; 동시에, 세그먼트 데이터베이스 D에서 텍스트-오디오 패키지 TP₂, TP₃, TP₄, TP₅를 선별할 텍스트-오디오 패키지로 선택하고, 각각의 선별할 텍스트-오디오 패키지의 텍스트-오디오 쌍 TA₂, TA₃, TA₄, TA₅를 선별할 텍스트-오디오 쌍으로 사용하며, 텍스트-오디오 패키지 TP₁에 따라 타깃 텍스트-오디오 쌍 TA₁의 오디오 특징을 [(F0_s1=N_s1, E_s1=M_s1), (F0_e1=N_e1, E_e1=M_e1)]로 결정할 수 있고; 텍스트-오디오 패키지 TP₂에 따라 선별할 텍스트-오디오 쌍 TA₂의 오디오 특징을 [(F0_s2=N_s2, E_s2=M_s2), (F0_e2=N_e2, E_e2=M_e2)]로 결정할 수 있으며; 텍스트-오디오 패키지 TP₃에 따라 타깃 텍스트-오디오 쌍 TA₃의 오디오 특징을 [(F0_s3=N_s3, E_s3=M_s3), (F0_e3=N_e3, E_e3=M_e3)]로 결정할 수 있고; 텍스트-오디오 패키지 TP₄에 따라 타깃 텍스트-오디오 쌍 TA₄의 오디오 특징을 [(F0_s4=N_s4, E_s4=M_s4), (F0_e4=N_e4, E_e4=M_e4)]로 결정할 수 있으며; 텍스트-오디오 패키지 TP₅에 따라 타깃 텍스트-오디오 쌍 TA₅의 오디오 특징을 [(F0_s5=N_s5, E_s5=M_s5), (F0_e5=N_e5, E_e5=M_e5)]로 결정할 수 있다.

더 나아가, 상기 공식 (1)에 따라 타깃 텍스트-오디오 쌍과 각각의 선별할 텍스트-오디오 쌍의 특징 거리를 계산하여, 타깃 텍스트-오디오 쌍 TA₁과 선별할 텍스트-오디오 쌍 TA₂의 특징 거리를 L₁=(F0_e1-F0_s2)²+(E_e1-E_s2)²=(N_e1-N_s2)²+(M_e1-M_s2)²로 결정하고; 타깃 텍스트-오디오 쌍 TA₁과 선별할 텍스트-오디오 쌍 TA₃의 특징 거리를 L₂=(F0_e1-F0_s3)²+(E_e1-E_s3)²=(N_e1-N_s3)²+(M_e1-M_s3)²로 결정하며; 타깃 텍스트-오디오 쌍 TA₁과 선별할 텍스트-오디오 쌍 TA₄의 특징 거리를 L₃=(F0_e1-F0_s4)²+(E_e1-E_s4)²=(N_e1-N_s4)²+(M_e1-M_s4)²로 결정하고; 타깃 텍스트-오디오 쌍 TA₁과 선별할 텍스트-오디오 쌍 TA₅의 특징 거리를 L₄=(F0_e1-F0_s5)²+(E_e1-E_s5)²=(N_e1-N_s5)²+(M_e1-M_s5)²로 결정한다.

마지막으로, 특징 거리가 작을수록 타깃 텍스트-오디오 쌍과 선별할 텍스트-오디오 쌍의 매칭 정도가 높음을 나타내므로, 특징 거리 L₁~L₄를 각각 기설정된 거리 임계값 L_T과 비교할 때, 거리 임계값 L_T보다 작은 선별할 텍스트-오디오 쌍을 타깃 텍스트-오디오 쌍 TA₁과 스플라이싱할 수 있는 스플라이싱 텍스트-오디오 쌍으로 결정하고, 비교 결과를 통해 특징 거리 L₁, L₃ 및 L₄가 거리 임계값 L_T보다 작은 것을 결정하여, 나아가 타깃 텍스트-오디오 쌍 TA₁을 선별할 텍스트-오디오 쌍 TA₂, TA₄ 및 TA₅과 스플라이싱할 때, 서로의 음색, 운율이 모두 비교적 접근함을 나타내여, 후속적으로 품질이 높은 샘플 데이터를 스플라이싱할 수 있도록 만족하며, 즉 선별할 텍스트-오디오 쌍 TA₂, TA₄ 및 TA₅이 타깃 텍스트-오디오 쌍 TA₁과 스플라이싱되도록 하고, 텍스트-오디오 쌍 TA₂, TA₄ 및 TA₅를 타깃 텍스트-오디오 쌍 TA₁의 스플라이싱 텍스트-오디오 쌍으로 결정한다.

이 밖에, 후속적으로 기타 텍스트-오디오 쌍을 타깃 텍스트-오디오 쌍으로 할 때 특징 거리의 계산 효율을 향상시키기 위해, 상기 타깃 텍스트-오디오 쌍을 후방향 텍스트-오디오 쌍으로 사용하고, 선별할 텍스트-오디오 쌍을 전방향 텍스트-오디오 쌍으로 사용하여, 서로의 특징 거리를 계산할 수 있다. 예를 들어, 타깃 텍스트-오디오 쌍 TA₁와 선별할 텍스트-오디오 쌍 TA₂의 특징 거리 L₁를 계산할 때, 또한 타깃 텍스트-오디오 쌍 TA₁과 선별할 텍스트-오디오 쌍 TA₂의 특징 거리 L₁₁를 계산할 수 있으며, 여기서 L₁₁=(F0_e2-F0_s1)²+(E_e2-E_s1)²=(N_e2-N_s1)²+(M_e2-M_s1)²이며, 특징 거리 L₁₁는 선별할 텍스트-오디오 쌍 TA₂을 스플라이싱 후의 전방향 텍스트-오디오 쌍으로 사용하고, 타깃 텍스트-오디오 쌍 TA₁을 스플라이싱 후의 후방향 텍스트-오디오 쌍으로 사용하는 경우 양자 사이의 매칭 정도를 나타내어; 타깃 텍스트-오디오 쌍과 각각의 선별할 텍스트-오디오 쌍의 특징 거리를 계산할 때, 타깃 텍스트-오디오 쌍을 전방향 텍스트-오디오 쌍 및 후방향 텍스트-오디오 쌍으로 사용하는 특징 거리를 모두 계산함으로써, 선별할 텍스트-오디오 쌍 TA₂을 타깃 텍스트-오디오 쌍으로 할 때 텍스트-오디오 쌍 TA₁과 텍스트-오디오 쌍 TA₂의 특징 거리의 계산 과정을 생략하여 후속적인 특징 거리의 계산 효율을 향상시킨다.

상기 내용을 종합하면, 상기 복수의 텍스트-오디오 쌍에서 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내기 위해, 오디오 특징을 결합하여 상기 스플라이싱 텍스트-오디오 쌍에 대해 선별을 수행함으로써, 선별된 텍스트-오디오 쌍이 상기 타깃 텍스트-오디오 쌍과 음색, 운율 등 속성 면에서 서로 접근하도록 하여, 후속적으로 사용 요구를 만족하는 검출할 텍스트-오디오 쌍을 스플라이싱할 수 있어 상기 트레이닝 데이터베이스를 확장하여 다운스트림 태스크에 사용할 수 있도록 한다.

단계 S106에서, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출한다.

구체적으로, 상기 오디오 특징을 기반으로 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 얻은 상기 기초 상에, 나아가, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 스플라이싱하여 상기 검출할 텍스트-오디오 쌍을 얻고, 또한, 상기 검출할 텍스트-오디오 쌍은 2개의 텍스트-오디오 쌍이 스플라이싱되어 형성된 것이므로, 상기 트레이닝 데이터베이스에 기입되는 텍스트-오디오 쌍의 품질을 더욱 보장하기 위해(스플라이싱된 검출할 텍스트-오디오 쌍의 효과가 상대적으로 좋도록 하기 위해), 상기 트레이닝 데이터베이스에 기입하기 전, 상기 검출할 텍스트-오디오 쌍을 검출하여, 상기 검출할 텍스트-오디오 쌍의 오디오 세그먼트가 명확한지 여부, 텍스트 세그먼트의 길이가 적절한지 여부 등을 검출함으로써 품질이 보다 우수한 텍스트-오디오 쌍을 얻어 상기 트레이닝 데이터베이스에 기입한다.

이에 앞서, 상기 타깃 텍스트-오디오 쌍은 상기 트레이닝 데이터베이스의 기입 요구를 만족할 수 있으므로, 즉 기타 텍스트-오디오 쌍과 스플라이싱할 필요 없이 바로 상기 트레이닝 데이터베이스에 기입될 수 있으므로, 상기 트레이닝 데이터베이스의 풍부성을 향상시키고 상기 트레이닝 데이터베이스에 기입될 수 있는 샘플 데이터의 누락을 방지하기 위해, 스플라이싱 처리를 수행하기 전 타깃 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는지 여부를 판단할 수 있으며, 본 실시예에서, 구체적인 구현 방법은 다음과 같다.

상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트에 대해 샘플링 처리를 수행하여 타깃 샘플링 정보를 획득하고, 상기 타깃 텍스트-오디오 쌍의 텍스트 세그먼트의 타깃 텍스트 정보를 결정한다.

상기 타깃 샘플링 정보 및 상기 타깃 텍스트 정보가 상기 기설정된 검출 조건을 만족하는지 여부를 판단한다.

만족하지 않는 경우, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 단계를 수행한다.

만족하는 경우, 상기 타깃 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입한다.

구체적으로, 상기 타깃 샘플링 정보는 구체적으로 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트에 대해 무작위로 샘플링할 때의 샘플링 비트 수 및 샘플링 주파수를 말하고, 상기 샘플링 비트 수는 오디오 세그먼트를 처리할 때의 해상도로 이해할 수 있으며, 샘플링 비트 수가 클수록 해상도가 높고 오디오 세그먼트의 진실성도 높아지며, 반대로, 샘플링 비트 수가 작을수록 해상도가 낮고 오디오 세그먼트의 진실성도 낮아지며; 상기 샘플링 주파수는 1초 동안 오디오 세그먼트에 대한 샘플링 횟수를 말하고, 샘플링 주파수가 높을수록 오디오 세그먼트의 복원이 더 진실되고 자연스러워지며, 반대로, 샘플링 주파수가 낮을수록 오디오 세그먼트의 복원은 더 진실되지 못하고 부자연스러우며; 상기 타깃 텍스트 정보는 구체적으로 상기 타깃 텍스트-오디오 쌍의 텍스트 세그먼트의 길이 정보, 문자 수 정보 등을 말하고; 상응하게, 상기 기설정된 검출 조건은 구체적으로 검출 오디오 세그먼트 및 텍스트 세그먼트가 트레이닝 데이터베이스의 기입 조건을 만족하는지 여부를 말하며, 텍스트-오디오 쌍의 오디오 세그먼트 및 텍스트 세그먼트가 모두 기설정된 검출 조건을 모두 만족하는 경우, 이를 상기 트레이닝 데이터베이스에 기입할 수도 있고, 또는 텍스트-오디오 쌍의 오디오 세그먼트 또는 텍스트 세그먼트가 기설정된 검출 조건을 만족하는 경우, 이를 상기 트레이닝 데이터베이스에 기입할 수도 있다.

이를 기반으로, 상기 타깃 텍스트-오디오 쌍 및 그에 대응되는 스플라이싱 텍스트-오디오 쌍을 얻은 기초 상에, 나아가, 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트에 대해 [0, 1] 사이에서 무작위로 샘플링 처리를 수행하여 상기 타깃 샘플링 정보를 얻고, 동시에, 상기 타깃 텍스트-오디오 쌍의 텍스트 세그먼트의 타깃 텍스트 정보를 결정한 후, 상기 타깃 샘플링 정보 및 상기 타깃 텍스트 정보가 상기 기설정된 검출 조건을 만족하는지 여부를 판단하며; 만족하는 경우, 상기 타깃 텍스트-오디오 쌍이 이미 상기 트레이닝 데이터베이스의 기입 요구를 만족한다는 것을 설명하므로 상기 타깃 텍스트-오디오 쌍을 직접 다운스트림 태스크의 샘플 데이터로 하여 상기 트레이닝 데이터베이스에 기입할 수 있고; 만족하지 않는 경우, 상기 타깃 텍스트-오디오 쌍이 상기 트레이닝 데이터베이스의 기입 요구를 만족하지 않음을 설명하므로 단계 S106을 수행하여 스플라이싱된 검출할 텍스트-오디오 쌍에 대해 다시 검출을 수행할 수 있으며, 이로써 텍스트-오디오 쌍의 오디오 세그먼트 및 텍스트 세그먼트를 트레이닝 데이터베이스에 균형 있게 기입하여, 트레이닝 데이터베이스에 있는 텍스트-오디오 쌍의 텍스트 세그먼트 및 오디오 세그먼트의 형식( 오디오 길이, 텍스트 길이 또는 오디오 에너지 등)이 모두 비슷하거나 동일하여 다운스트림 태스크의 사용에 더욱 편리하다.

상기 예시를 그대로 사용하면, 텍스트-오디오 쌍 TA₁~TA₅ 중에서 텍스트-오디오 쌍 TA₁을 타깃 텍스트-오디오 쌍으로 선택한 기초 상에, 나아가, 이 때 텍스트-오디오 쌍 TA₁의 제1 오디오 세그먼트(0s~3s)에 대해 [0, 1] 사이에서 무작위로 샘플링하여 제1 오디오 세그먼트의 타깃 샘플링 정보 U를 얻고, 동시에, 텍스트-오디오 쌍 TA₁의 제1 텍스트 세그먼트(나는 보았다)의 길이를 X개의 문자로 결정하며, 이때 제1 오디오 세그먼트의 타깃 샘플링 정보 U가 기설정된 샘플링 Ut보다 작은지, 및 제1 텍스트 세그먼트의 길이 X가 기설정된 텍스트 길 Xt보다 작은지 여부를 판단하며, 그럴 경우, 텍스트-오디오 쌍 TA₁의 제1 오디오 세그먼트 및 제1 텍스트 세그먼트가 모두 트레이닝 데이터베이스 T의 기입 요구를 만족함을 설명하며, 이때 텍스트-오디오 쌍 TA₁을 트레이닝 데이터베이스 T에 기입하여 다운스트림 태스크에서 음성 합성 모델을 트레이닝 시 샘플 데이터로 하고; 그렇지 않는 경우, 텍스트-오디오 쌍 TA₁의 제1 오디오 세그먼트 또는 제1 텍스트 세그먼트가 트레이닝 데이터베이스 T의 기입 요구를 만족하지 못함을 설명하며, 이때 스플라이싱 텍스트-오디오 쌍 TA₂, TA₄및 TA₅와 텍스트-오디오 쌍 TA₁를 스플라이싱하여 복수의 검출할 텍스트-오디오 쌍을 얻고, 다시 검출할 텍스트-오디오 쌍을 검출하여 트레이닝 데이터베이스 T의 기입 요구를 만족하는 텍스트-오디오 쌍을 얻는다.

상기 내용을 종합하면, 스플라이싱 텍스트-오디오 쌍 및 타깃 텍스트-오디오 쌍에 대해 스플라이싱을 수행하기 전, 상기 타깃 텍스트-오디오 쌍을 검출하여 트레이닝 데이터베이스의 기입을 만족하는 텍스트-오디오 쌍을 누락하지 않도록 방지함으로써 트레이닝 데이터베이스의 풍부성을 향상시킨다.

나아가, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 스플라이싱하는 과정에서, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되므로, 스플라이싱 텍스트 세그먼트를 스플라이싱하는 동시에 오디오 세그먼트를 스플라이싱하여 상기 검출할 텍스트 오디오 세그먼트를 생성해야 하며, 본 실시예에서, 구체적인 구현 방법은 다음과 같다.

상기 타깃 텍스트-오디오 쌍의 타깃 텍스트 세그먼트와 타깃 오디오 세그먼트, 및 상기 스플라이싱 텍스트-오디오 쌍의 스플라이싱 텍스트 세그먼트와 스플라이싱 오디오 세그먼트를 추출한다.

상기 타깃 텍스트 세그먼트 및 상기 스플라이싱 텍스트 세그먼트를 검출할 텍스트 세그먼트로 스플라이싱하고, 상기 타깃 오디오 세그먼트 및 상기 스플라이싱 오디오 세그먼트를 검출할 오디오 세그먼트로 스플라이싱한다.

상기 검출할 텍스트 세그먼트 및 상기 검출할 오디오 세그먼트를 기반으로 상기 검출할 텍스트-오디오 쌍을 구성한다.

구체적으로, 우선 상기 타깃 텍스트-오디오 쌍의 타깃 텍스트 세그먼트 및 타깃 오디오 세그먼트를 추출함과 동시에, 상기 스플라이싱 텍스트-오디오 쌍의 스플라이싱 텍스트 세그먼트 및 스플라이싱 오디오 세그먼트를 추출한 다음, 상기 타깃 텍스트 세그먼트 및 상기 스플라이싱 텍스트 세그먼트를 검출할 텍스트 세그먼트로 스플라이싱하고, 상기 타깃 오디오 세그먼트 및 상기 스플라이싱 오디오 세그먼트를 검출할 오디오 세그먼트로 스플라이싱하며; 마지막으로 상기 검출할 텍스트 세그먼트 및 상기 검출할 오디오 세그먼트를 기반으로 상기 검출할 텍스트-오디오 쌍을 구성한다.

더 나아가, 상기 검출할 텍스트-오디오 쌍을 검출하는 과정에서, 검출할 텍스트-오디오 쌍의 품질을 보장하기 위해, 상기 검출할 텍스트-오디오 쌍의 검출할 텍스트 세그먼트에 대해 검출을 수행할 수 있을 뿐만 아니라, 동시에 검출할 텍스트-오디오 쌍의 검출할 오디오 세그먼트에 대해 검출을 수행함으로써 트레이닝 데이터베이스에 기입되는 텍스트-오디오 쌍의 텍스트 세그먼트 및 오디오 세그먼트가 모두 기입 요구를 만족하도록 할 수 있으며, 본 실시예에서, 구체적인 구현 방법은 다음과 같다.

상기 검출할 오디오 세그먼트에 대해 샘플링 처리를 수행하여 검출할 샘플링 정보를 획득하고, 상기 검출할 텍스트 세그먼트의 검출할 텍스트 정보를 결정한다.

상기 기설정된 검출 조건을 기반으로 상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보를 검출한다.

상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보가 모두 상기 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입한다.

구체적으로, 상기 검출할 텍스트-오디오 쌍이 스플라이싱된 기초 상에, 나아가, 상기 검출할 텍스트-오디오 쌍의 검출할 오디오 세그먼트에 대해 무작위로 샘플링 처리를 수행하여 상기 검출할 오디오 세그먼트의 검출할 샘플링 정보를 얻고, 동시에, 상기 검출할 텍스트-오디오 쌍의 상기 검출할 텍스트 세그먼트의 검출할 텍스트 정보를 결정한 후, 상기 기설정된 검출 조건을 기반으로 상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보를 검출하며; 상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보가 모두 상기 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍이 상기 트레이닝 데이터베이스에 기입될 수 있음을 설명하므로, 상기 검출할 텍스트-오디오 쌍을 샘플 데이터로 하여 상기 트레이닝 데이터베이스에 기입할 수 있으며, 상기 검출할 샘플링 정보 또는 상기 검출할 텍스트 정보가 상기 기설정된 검출 조건을 만족하지 않는 경우, 상기 검출할 텍스트-오디오 쌍이 상기 트레이닝 데이터베이스에 기입될 수 없음을 설명하므로 상기 검출할 텍스트-오디오 쌍을 폐기할 수 있다.

상기 예시를 그대로 사용하면, 타깃 텍스트-오디오 쌍 TA₁ 및 스플라이싱 텍스트-오디오 쌍 TA₂, TA₄ 및 TA₅이 결정된 기초 상에, 나아가, 타깃 텍스트-오디오 쌍 및 스플라이싱 텍스트-오디오 쌍에 대해 스플라이싱 처리를 수행하여, 즉 타깃 텍스트-오디오 쌍 TA₁의 제1 오디오 세그먼트(0s~3s) 및 제1 텍스트 세그먼트(나는 보았다)를 추출함과 동시에, 스플라이싱 텍스트-오디오 쌍 TA₂의 제2 오디오 세그먼트(3s~4s) 및 제2 텍스트 세그먼트(한 판)를 추출하고, 스플라이싱 텍스트-오디오 쌍 TA₄의 제4 오디오 세그먼트(6s~8s) 및 제4 텍스트 세그먼트(축구)를 추출하며, 스플라이싱 텍스트-오디오 쌍 TA₅의 제5 오디오 세그먼트(8s~10s) 및 제5 텍스트 세그먼트(경기)를 추출한다.

나아가, 제1 오디오 세그먼트 및 제2 오디오 세그먼트를 스플라이싱하여 제1 검출할 오디오 세그먼트(길이는 4s)를 얻고, 제1 오디오 세그먼트 및 제4 오디오 세그먼트를 스플라이싱하여 제2 검출할 오디오 세그먼트(길이는 5s)를 얻으며, 제1 오디오 세그먼트 및 제5 오디오 세그먼트를 스플라이싱하여 제3 검출할 오디오 세그먼트(길이는 5s)를 얻고; 동시에 제1 텍스트 세그먼트 및 제2 텍스트 세그먼트를 스플라이싱하여 제1 검출할 텍스트 세그먼트(나는 한 판 보았다(我看了一

))를 얻고, 제1 텍스트 세그먼트 및 제4 텍스트 세그먼트를 스플라이싱하여 제2 검출할 텍스트 세그먼트(나는 축구를 보았다(我看了足球))를 얻으며, 제1 텍스트 세그먼트 및 제5 텍스트 세그먼트를 스플라이싱하여 제3 검출할 텍스트 세그먼트(나는 경기를 보았다(我看了比

))를 얻고; 이때 제1 검출할 오디오 세그먼트 및 제1 검출할 텍스트 세그먼트로 제1 검출할 텍스트-오디오 쌍을 구성하고, 제2 검출할 오디오 세그먼트 및 제2 검출할 텍스트 세그먼트로 제2 검출할 텍스트-오디오 쌍을 구성하며, 제3 검출할 오디오 세그먼트 및 제3 검출할 텍스트 세그먼트로 제3 검출할 텍스트-오디오 쌍을 구성한다.

더 나아가, 제1 검출할 텍스트-오디오 쌍, 제2 검출할 텍스트-오디오 쌍 및 제3 검출할 텍스트-오디오 쌍을 얻은 기초 상에, 나아가 상기 3개의 검출할 텍스트-오디오 쌍을 검출하여, 트레이닝 데이터베이스에 기입될 수 있는 텍스트-오디오 쌍을 샘플 데이터로 선택하고, 이를 기반으로, 각각의 검출할 텍스트-오디오 쌍의 검출할 오디오 세그먼트에 대해 [0, 1] 사이에서 무작위로 샘플링하여, 제1 검출할 텍스트-오디오 쌍의 제1 검출할 오디오 세그먼트의 샘플링 결과를 U₁로 결정하고, 제2 검출할 텍스트-오디오 쌍의 제2 검출할 오디오 세그먼트의 샘플링 결과를 U₂로 결정하며, 제3 검출할 텍스트-오디오 쌍의 제3 검출할 오디오 세그먼트의 샘플링 결과를 U₃으로 결정하며; 동시에, 제1 검출할 텍스트-오디오 쌍의 제1 검출할 텍스트 세그먼트의 텍스트 길이를 X₁로 결정하고, 제2 검출할 텍스트-오디오 쌍의 제2 검출할 텍스트 세그먼트의 텍스트 길이를 X₂로 결정하며, 제3 검출할 텍스트-오디오 쌍의 제3 검출할 텍스트 세그먼트의 텍스트 길이를 X₃으로 결정한다.

마지막으로, 샘플링 결과 U₁, U₂ 및 U₃가 기설정된 샘플링 결과 Ut보다 크고 텍스트 길이 X₁, X₂및 X₃가 기설정된 텍스트 길이 Xt보다 작은지 각각 판단하고, 판단 결과에 따라 샘플링 결과 U₂가 기설정된 샘플링 결과 Ut보다 크고 텍스트 길이 X₂가 기설정된 텍스트 길이 Xt보다 작으며, 샘플링 결과 U₃가 기설정된 샘플링 결과 Ut보다 크고, 텍스트 길이 X₃가 기설정된 텍스트 길이 Xt보다 작은 것으로 결정하여, 즉 제2 검출할 텍스트-오디오 쌍 및 제3 검출할 텍스트-오디오 쌍이 트레이닝 데이터베이스 T의 기입에 적합한 것으로 결정하여, 제2 검출할 텍스트-오디오 쌍(오디오 5s, 텍스트 “나는 축구를 보았다”), 및 제3 검출할 텍스트-오디오 쌍(오디오 5s, 텍스트 “나는 경기를 보았다”)을 샘플 데이터로 트레이닝 데이터베이스 T에 기입하여 후속적인 음성 합성 모델의 트레이닝에 사용한다.

상기 내용을 종합하면, 오디오의 차원 및 텍스트의 차원을 통해 상기 검출할 텍스트-오디오 쌍을 검출함으로써, 상기 트레이닝 데이터베이스에 기입되는 텍스트-오디오 쌍이 모두 기입 요구를 만족하도록 하여 상기 트레이닝 데이터베이스의 샘플 데이터의 품질을 효과적으로 향상시킨다.

단계 S108에서, 상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입한다.

구체적으로, 상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍이 상기 트레이닝 데이터베이스의 기입 요구를 만족함을 설명하고, 상기 검출할 텍스트-오디오 쌍을 샘플 데이터로 하여 상기 트레이닝 데이터베이스에 기입할 수 있고, 후속적으로 음성 합성 모델을 트레이닝할 때, 트레이닝 데이터베이스에서 트레이닝 요구를 만족하는 샘플 데이터를 추출할 수 있어, 트레이닝된 음성 합성 모델의 예측 정확도를 향상시킨다.

이를 기반으로, 복수의 텍스트의 각각의 텍스트에 대한 상기 처리를 통해 트레이닝 데이터베이스의 기입에 부합되는 대량의 샘플 데이터를 얻을 수 있고, 상기 트레이닝 데이터베이스에 기입되는 샘플 데이터는 개수 및 품질 면에서 모두 다운스트림의 모델 트레이닝 요구를 만족하여, 음성 합성 모델을 트레이닝하기 전에 데이터 준비 단계에서 비용을 절감하고 샘플 데이터의 풍부성을 향상시킨다.

이 밖에, 상기 트레이닝 데이터베이스에 샘플 데이터를 기입하는 과정에서, 데이터베이스의 용량 및 다운스트림 태스크의 요구를 고려하여, 트레이닝 데이터베이스에 기록되는 데이터의 개수를 제한할 수 있는 바, 즉 상기 트레이닝 데이터베이스에 기설정된 검출 조건을 만족하는 검출할 텍스트-오디오 쌍을 기입할 때, 상기 트레이닝 데이터베이스의 텍스트-오디오 쌍의 개수가 기설정된 데이터 양의 임계값보다 작거나 같은지 검출하여, 작은 경우, 트레이닝 데이터베이스에 텍스트-오디오 쌍을 계속 기입할 수 있음을 설명하고, 기설정된 검출 조건을 만족하는 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입할 수 있고, 큰 경우, 트레이닝 데이터베이스에 텍스트-오디오 쌍을 계속 기입할 수 없음을 설명하고, 후속적인 스플라이싱 텍스트-오디오 쌍의 처리를 중지시킬 수 있다.

또한, 상기 트레이닝 데이터베이스에 텍스트-오디오 쌍을 기입할 수 있는 경우, 중복 저장으로 인해 너무 많은 저장 리소스를 차지하지 않도록, 트레이닝 데이터베이스에 기입하기 전 트레이닝 데이터베이스에 상기 텍스트-오디오 쌍이 존재하는지 여부를 검출할 수 있으며, 존재하는 경우 폐기하고 기타 텍스트-오디오 쌍에 대해 계속 스플라이싱 처리를 수행하고, 존재하지 않는 경우, 트레이닝 데이터베이스에 기입한 후 다시 기타 텍스트-오디오 쌍에 대해 스플라이싱 처리를 계속한다.

나아가, 상기 트레이닝 데이터베이스의 확장을 완료한 후, 이때 상기 트레이닝 데이터베이스의 텍스트-오디오 쌍을 샘플 데이터(샘플 텍스트-오디오 쌍)로 사용하여 다운스트림 태스크의 음성 합성 모델에 대해 트레이닝을 수행할 수 있으며, 본 실시예에서, 모델의 트레이닝 과정은 다음과 같다.

상기 트레이닝 데이터베이스에서 샘플 텍스트-오디오 쌍을 추출하되, 상기 샘플 텍스트-오디오 쌍에는 샘플 텍스트 세그먼트 및 샘플 오디오 세그먼트가 포함된다.

상기 샘플 텍스트 세그먼트 및 상기 샘플 오디오 세그먼트를 기반으로 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득한다.

실제 응용에서, 상기 음성 합성 모델에 대해 트레이닝을 수행하는 과정에서, 상기 트레이닝 데이터베이스에서 대량의 샘플 텍스트-오디오 쌍을 추출한 후, 샘플 텍스트-오디오 쌍의 샘플 텍스트 세그먼트 및 샘플 오디오 세그먼트를 기반으로 트레이닝 중지 조건을 만족하는 음성 합성 모델을 얻을 때까지 상기 음성 합성 모델에 대해 트레이닝을 수행하고, 이를 타깃 음성 합성 모델로 저장하여 음성 합성 장면에서 텍스트를 오디오로 변환할 때 사용할 수 있도록 할 수 있다. 텍스트가 "나는 축구 경기 보기를 좋아한다(我喜

看足球比

)"인 경우, 상기 텍스트를 음성 합성 모델에 입력하여 처리하면 상기 텍스트에 대응되는 오디오를 얻어 텍스트를 음성으로 변환할 수 있다.

이 밖에, 스플라이싱된 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하지 않는 경우, 상기 검출할 텍스트-오디오 쌍의 검출할 오디오 세그먼트 또는 검출할 텍스트 세그먼트가 상기 기설정된 검출 조건을 만족하지 않을 수 있으며, 조건을 만족하는 샘플 데이터를 얻기 위해, 이때 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 트레이닝 데이터베이스의 기입을 만족하는 텍스트-오디오 쌍을 얻을 때까지 상기 스플라이싱 텍스트-오디오 쌍에 대응되는 다차원 스플라이싱 텍스트-오디오 쌍을 선별해내여 스플라이싱한 후 검출 처리를 수행하며, 유의해야 할 점은, 계속 스플라이싱 및 검출 처리를 수행하여 얻은 검출할 텍스트-오디오 쌍은 여전히 트레이닝 데이터베이스의 기입 요구를 만족하지 않을 수 있으며, 따라서 지속적으로 스플라이싱 및 검출을 수행하는 과정에서 중지 조건을 설정하여 스플라이싱 횟수가 일정한 조건에 도달하는 경우 상기 텍스트-오디오 쌍에 대한 처리를 중지하여 폐기할 수 있으며, 본 실시예에서, 구체적인 구현 방법은 다음과 같다.

상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하지 않는 경우, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 상기 스플라이싱 텍스트-오디오 쌍에 대응되는 다차원 스플라이싱 텍스트-오디오 쌍을 선별해낸다.

상기 다차원 스플라이싱 텍스트-오디오 쌍 및 상기 검출할 텍스트-오디오 쌍을 다차원 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 다차원 검출할 텍스트-오디오 쌍이 상기 기설정된 검출 조건을 만족하는지 여부를 판단한다.

만족하는 경우, 상기 다차원 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입한다.

만족하지 않는 경우, 상기 다차원 스플라이싱 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하고, 상기 다차원 검출할 텍스트-오디오 쌍을 상기 검출할 텍스트-오디오 쌍으로 사용하며, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 상기 스플라이싱 텍스트-오디오 쌍에 대응되는 다차원 스플라이싱 텍스트-오디오 쌍을 선별해내는 상기 단계를 수행한다.

구체적으로, 상기 다차원 스플라이싱 텍스트-오디오 쌍은 구체적으로 상기 스플라이싱 텍스트-오디오 쌍과 스플라이싱될 수 있는 텍스트-오디오 쌍을 말하고; 이를 기반으로, 상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하지 않는 경우, 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍이 스플라이싱된 검출할 텍스트-오디오 쌍이 상기 트레이닝 데이터베이스의 기입 요구에 부합되지 않음을 설명하며, 기입 요구를 만족하는 텍스트-오디오 쌍을 얻기 위해, 다시 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 스플라이싱 텍스트-오디오 쌍과 스플라이싱할 수 있는 다차원 스플라이싱 텍스트-오디오 쌍을 선택한 후, 검출할 텍스트-오디오 쌍 및 다차원 스플라이싱 텍스트-오디오 쌍을 스플라이싱하여 다차원 검출할 텍스트-오디오 쌍을 얻고, 상기 다차원 검출할 텍스트-오디오 쌍을 검출하며, 상기 다차원 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 이를 상기 트레이닝 데이터베이스에 기입할 수 있고, 상기 다차원 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하지 않는 경우, 다차원 검출할 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 사용하고, 다차원 스플라이싱 텍스트-오디오 쌍을 스플라이싱 텍스트-오디오 쌍으로 사용하여, 되돌아가 트레이닝 데이터베이스의 기입 요구를 만족하는 텍스트-오디오 쌍을 얻을 때까지, 또는스플라이싱 중지 조건에 도달하여 텍스트-오디오 쌍을 폐기할 때까지 다차원 스플라이싱 텍스트-오디오 쌍을 선별해내는 과정을 수행할 수 있다.

상기 예시를 그대로 사용하면, 획득한 제1 검출할 텍스트-오디오 쌍이 트레이닝 데이터베이스 T의 기입 요구에 부합되지 않는 경우, 제1 검출할 텍스트-오디오 쌍의 제1 검출할 오디오 세그먼트는 제1 오디오 세그먼트 및 제2 오디오 세그먼트로 구성되고, 제1 검출할 텍스트 세그먼트는 제1 텍스트 세그먼트 및 제2 텍스트 세그먼트로 구성되므로, 제2 텍스트-오디오 쌍 TA₂과 스플라이싱될 가능성이 있는 제3 텍스트-오디오 쌍 TA₃을 다차원 스플라이싱 텍스트-오디오 쌍으로 선택한 후, 다차원 스플라이싱 텍스트-오디오 쌍 TA₃과 제1 검출할 텍스트-오디오 쌍(TA₁+TA₂)을 스플라이싱하여 다차원 검출할 텍스트-오디오 쌍(TA₁+TA₂+TA₃)을 얻을 수 있다.

동시에, 다차원 검출할 텍스트-오디오 쌍의 다차원 검출할 오디오 세그먼트는 제1 오디오 세그먼트, 제2 오디오 세그먼트 및 제3 오디오 세그먼트로 구성되고, 다차원 검출할 텍스트-오디오 쌍의 다차원 검출할 텍스트 세그먼트는 제1 텍스트 세그먼트, 제2 텍스트 세그먼트 및 제3 텍스트 세그먼트로 구성됨을 결정하고, 즉 다차원 검출할 텍스트-오디오 쌍은(오디오 세그먼트 6s, 텍스트 세그먼트 “나는 재밌는 한 판 보았다(我看了一

精彩的)”)이고, 이때 다차원 검출할 텍스트-오디오 쌍을 검출하여, 상기 다차원 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하면 다차원 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스 T에 기입할 수 있고, 다차원 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하지 않는 경우, 다시 제3 텍스트-오디오 쌍 TA₃과 스플라이싱될 가능성이 있는 텍스트-오디오 쌍에 대해 스플라이싱 및 검출 처리를 수행하거나, 또는 상기 다차원 검출할 텍스트-오디오 쌍을 폐기하고 기타 텍스트-오디오 쌍을 선택하여 상기 처리를 수행함으로써 트레이닝 데이터베이스 T의 기입을 만족하는 샘플 데이터을 얻을 수 있다.

상기 내용을 종합하면, 순환 스플라이싱 방식을 통해 상기 트레이닝 데이터베이스의 샘플 데이터의 균형성을 보장함으로써 다운스트림 태스크에서 모델의 트레이닝 시 사용에 편리할 뿐만 아니라, 상기 트레이닝 데이터베이스의 풍부성을 향상시켜 다운스트림 태스크의 사용 요구를 효과적으로 보장한다.

아래 도 5를 결부하여, 본 명세서에서 제공하는 샘플 생성 방법의 음성 합성 장면에서의 응용을 예로 들어 상기 샘플 생성 방법에 대해 더 자세히 설명한다. 여기서, 도 5는 본 명세서의 일 실시예에서 제공하는 음성 합성 장면에 응용되는 샘플 생성 방법의 처리 흐름도를 도시하고, 구체적으로 아래의 단계를 포함한다.

단계 S502에서, 타깃 텍스트 및 타깃 텍스트에 대응되는 오디오를 획득한다.

실제 응용에서, 신경망 기반 엔드 투 엔드 음성 합성 방법에서는 상기 방법의 특성상 모델을 트레이닝하기 전에 사용 요구를 만족하는 음성 합성 모델을 트레이닝할 수 있도록 품질이 상대적으로 높은 일부 샘플 데이터를 준비해야 하는데; 이러한 일부 샘플 데이터는 통상적으로 전문적인 녹음실에서 녹음한 다음 다듬과 정리한 후에야 모델의 트레이닝에 사용될 수 있으므로, 데이터를 준비하기 위해 비교적 많은 시간을 준비해야 할 뿐만 아니라 비용도 많이 들며; 동시에, 샘플 데이터에 대한 요구가 비교적 엄격하므로 최종적으로 모델의 트레이닝에 사용할 수 있는 데이터가 훨씬 적어지며, 이에 길이 및 운율을 종합적으로 포괄하는 샘플 데이터를 얻을 수 없어 음성 합성 시 음색이 다르고 운율(톤 업다운)이 부자연스러운 등 문제를 초래하게 된다. 따라서, 샘플 데이터 준비 단계에서 품질이 높고 속성이 풍부한 샘플 데이터를 생성하는 방법은 시급히 해결해야 할 문제이다.

본 실시예에서는 상기 문제를 해결하기 위해 음성 합성 장면에 응용되는 샘플 생성 방법을 제공한다.

단계 S504에서, 오디오에 대해 전처리를 수행하여 타깃 오디오를 획득하고, 타깃 텍스트를 음소 시퀀스로 변환한다.

단계 S506에서, 음소 시퀀스와 타깃 오디오에 대해 정렬 처리를 수행하고, 정렬 처리 결과에 따라 음소 오디오 파일을 얻고, 음소 오디오 파일의 분할 위치를 결정한다.

단계 S508에서, 분할 위치에 따라 음소 오디오 파일을 분할하여 복수의 음소-오디오 쌍을 획득하고, 타깃 텍스트를 기반으로 복수의 음소-오디오 쌍 중의 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트를 결정한다.

단계 S510에서, 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트, 및 각각의 음소-오디오 쌍의 오디오 세그먼트에 따라 복수의 텍스트-오디오 쌍을 생성한다.

단계 S512에서, 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트를 추출하고, 각각의 텍스트-오디오 쌍의 오디오 세그먼트에 대해 프레이밍 처리를 수행하여 각각의 텍스트-오디오 쌍의 오디오 프레임 세트를 획득한다.

단계 S514에서, 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 프레임 세트에 포함된 오디오 프레임을 기반으로, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징을 계산한다.

단계 S516에서, 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트, 텍스트 세그먼트, 피치 주파수 특징 및 오디오 프레임 특징을 통합하여 각각의 텍스트-오디오 쌍에 대응되는 텍스트-오디오 패키지를 획득하고 이를 세그먼트 데이터베이스에 기입한다.

단계 S518에서, 세그먼트 데이터베이스에서 임의의 하나의 텍스트-오디오 패키지를 타깃 텍스트-오디오 패키지로 선택하고, 타깃 텍스트-오디오 패키지 중의 텍스트-오디오 쌍을 타깃 텍스트-오디오 쌍으로 결정한다.

단계 S520에서, 세그먼트 데이터베이스에서 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지를 선택하여 선별할 텍스트-오디오 패키지 세트를 구성한다.

단계 S522에서, 선별할 텍스트-오디오 패키지 세트에 포함된 각각의 선별할 텍스트-오디오 패키지의 텍스트-오디오 쌍을 선별할 텍스트-오디오 쌍으로 결정한다.

단계 S524에서, 타깃 텍스트-오디오 패키지에 따라 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징을 결정하고, 선별할 텍스트-오디오 패키지에 따라 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징을 결정한다.

단계 S526에서, 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징과 오디오 프레임 특징, 및 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징과 오디오 프레임 특징을 기반으로 특징 거리를 계산한다.

단계 S528에서, 특징 거리가 기설정된 거리 임계값보다 작은 선별할 텍스트-오디오 쌍이 속하는 선별할 텍스트-오디오 패키지를 스플라이싱 텍스트-오디오 패키지로 결정한다.

단계 S530에서, 스플라이싱 텍스트-오디오 패키지의 텍스트-오디오 쌍을 스플라이싱 텍스트-오디오 쌍으로 사용한다.

단계 S532에서, 타깃 텍스트-오디오 쌍의 타깃 텍스트 세그먼트 및 타깃 오디오 세그먼트, 및 스플라이싱 텍스트-오디오 쌍의 스플라이싱 텍스트 세그먼트 및 스플라이싱 오디오 세그먼트를 추출한다.

단계 S534에서, 타깃 텍스트 세그먼트 및 스플라이싱 텍스트 세그먼트를 검출할 텍스트 세그먼트로 스플라이싱하고, 타깃 오디오 세그먼트 및 스플라이싱 오디오 세그먼트를 검출할 오디오 세그먼트로 스플라이싱한다.

단계 S536에서, 검출할 텍스트 세그먼트 및 검출할 오디오 세그먼트를 기반으로 검출할 텍스트-오디오 쌍을 구성한다.

단계 S538에서, 검출할 텍스트-오디오 쌍의 검출할 오디오 세그먼트에 대해 샘플링 처리를 수행하여 검출할 샘플링 정보를 획득하고, 검출할 텍스트-오디오 쌍의 검출할 텍스트 세그먼트의 검출할 텍스트 정보를 결정한다.

단계 S540에서, 검출할 샘플링 정보 및 검출할 텍스트 정보가 모두 기설정된 검출 조건을 만족하는 경우, 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입한다.

본 명세서는 샘플 생성 방법을 제공하고, 샘플 데이터 준비 단계에서 스플라이싱 방식을 통해 다운스트림 태스크의 사용 요구를 충족하는 고품질의 샘플 데이터를 얻을 수 있어, 데이터 준비 단계의 자원 소모 비용을 절감하고, 또한, 스플라이싱된 후 상기 트레이닝 데이터베이스에 기입되는 샘플 데이터의 데이터 양이 상대적으로 많으므로, 다운스트림 태스크의 샘플 데이터 양이 적고 샘플 데이터의 오디오 길이의 분포가 고르지 않아 음성 합성 효과가 떨어지는 문제를 효과적으로 해결하여 다운스트림 태스크의 태스크 처리 효율을 높인다.

상기 방법 실시예에 대응되게, 본 명세서는 또한 샘플 생성 장치 실시예를 제공하며, 도 5는 본 명세서의 일 실시예에서 제공하는 샘플 생성 장치의 구조 모식도를 도시한다. 도 5에 도시된 바와 같이, 상기 장치는,

복수의 텍스트-오디오 쌍을 획득하도록 구성되되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되는 획득 모듈(602);

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내도록 구성되는 계산 모듈(604);

상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하도록 구성되는 스플라이싱 모듈(606); 및

상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하도록 구성되는 기입 모듈(608)을 포함한다.

하나의 선택 가능한 실시예에서, 상기 획득 모듈(602)은 또한,

타깃 텍스트 및 상기 타깃 텍스트에 대응되는 오디오를 획득하고; 상기 오디오에 대해 전처리를 수행하여 타깃 오디오를 획득하고, 상기 타깃 텍스트를 음소 시퀀스로 변환하며; 상기 음소 시퀀스와 상기 타깃 오디오에 대해 정렬 처리를 수행하고, 정렬 처리 결과에 따라 상기 복수의 텍스트-오디오 쌍을 생성하도록 구성된다.

정렬 처리 결과에 따라 음소 오디오 파일을 얻고, 상기 음소 오디오 파일의 분할 위치를 결정하고; 상기 분할 위치에 따라 상기 음소 오디오 파일을 분할하여 복수의 음소-오디오 쌍을 획득하되, 각각의 음소-오디오 쌍에는 음소 세그먼트 및 오디오 세그먼트가 포함되며; 상기 타깃 텍스트를 기반으로 상기 복수의 음소-오디오 쌍 중 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트를 결정하고; 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트, 및 각각의 음소-오디오 쌍의 오디오 세그먼트에 따라 상기 복수의 텍스트-오디오 쌍을 생성하도록 구성된다.

하나의 선택 가능한 실시예에서, 상기 계산 모듈(604)은 또한,

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트를 추출하고, 각각의 텍스트-오디오 쌍의 오디오 세그먼트에 대해 프레이밍 처리를 수행하여 각각의 텍스트-오디오 쌍의 오디오 프레임 세트를 획득하고; 상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 프레임 세트에 포함된 오디오 프레임을 기반으로, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징을 계산하며; 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 상기 피치 주파수 특징 및 상기 오디오 프레임 특징에 따라 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 상기 오디오 특징을 결정하도록 구성된다.

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트, 텍스트 세그먼트 및 오디오 특징을 통합하여 각각의 텍스트-오디오 쌍에 대응되는 텍스트-오디오 패키지를 획득하고 이를 세그먼트 데이터베이스에 기입하고; 상기 세그먼트 데이터베이스에서 임의의 하나의 텍스트-오디오 패키지를 타깃 텍스트-오디오 패키지로 선택하고, 상기 타깃 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 타깃 텍스트-오디오 쌍으로 결정하며; 상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지 및 상기 오디오 특징을 기반으로 스플라이싱 텍스트-오디오 패키지를 결정하고, 상기 스플라이싱 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하도록 구성된다.

상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지를 선택하여 선별할 텍스트-오디오 패키지 세트를 구성하고; 상기 선별할 텍스트-오디오 패키지 세트에 포함된 각각의 선별할 텍스트-오디오 패키지의 텍스트-오디오 쌍을 선별할 텍스트-오디오 쌍으로 결정하며; 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 상기 선별할 텍스트-오디오 패키지 세트에서 상기 스플라이싱 텍스트-오디오 패키지를 선별해내도록 구성된다.

상기 타깃 텍스트-오디오 패키지에 따라 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 제1 오디오 특징을 결정하고, 상기 선별할 텍스트-오디오 패키지에 따라 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 제2 오디오 특징을 결정하고; 상기 제1 오디오 특징과 상기 제2 오디오 특징 사이의 특징 거리를 계산하며; 상기 특징 거리가 기설정된 거리 임계값보다 작은 선별할 텍스트-오디오 쌍이 속하는 선별할 텍스트-오디오 패키지를 상기 스플라이싱 텍스트-오디오 패키지로 결정하도록 구성된다.

하나의 선택 가능한 실시예에서, 상기 샘플 생성 장치는,

상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트에 대해 샘플링 처리를 수행하여 타깃 샘플링 정보를 획득하고, 상기 타깃 텍스트-오디오 쌍의 텍스트 세그먼트의 타깃 텍스트 정보를 결정하고; 상기 타깃 샘플링 정보 및 상기 타깃 텍스트 정보가 상기 기설정된 검출 조건을 만족하는지 여부를 판단하며;

만족하지 않는 경우 상기 스플라이싱 모듈(606)을 실행시키도록 구성되는 샘플링 모듈을 더 포함한다.

하나의 선택 가능한 실시예에서, 상기 샘플링 모듈의 판단 결과가 "예"인 경우, 상기 타깃 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입한다.

하나의 선택 가능한 실시예에서, 상기 스플라이싱 모듈(606)은 또한,

상기 타깃 텍스트-오디오 쌍의 타깃 텍스트 세그먼트와 타깃 오디오 세그먼트, 및 상기 스플라이싱 텍스트-오디오 쌍의 스플라이싱 텍스트 세그먼트와 스플라이싱 오디오 세그먼트를 추출하고; 상기 타깃 텍스트 세그먼트 및 상기 스플라이싱 텍스트 세그먼트를 검출할 텍스트 세그먼트로 스플라이싱하고, 상기 타깃 오디오 세그먼트 및 상기 스플라이싱 오디오 세그먼트를 검출할 오디오 세그먼트로 스플라이싱하며; 상기 검출할 텍스트 세그먼트 및 상기 검출할 오디오 세그먼트를 기반으로 상기 검출할 텍스트-오디오 쌍을 구성하도록 구성된다.

상기 검출할 오디오 세그먼트에 대해 샘플링 처리를 수행하여 검출할 샘플링 정보를 획득하고, 상기 검출할 텍스트 세그먼트의 검출할 텍스트 정보를 결정하고; 상기 기설정된 검출 조건을 기반으로 상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보를 검출하도록 구성되며;

상응하게, 상기 기입 모듈(608)은 또한,

상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보가 모두 상기 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입하도록 구성된다.

하나의 선택 가능한 실시예에서, 상기 샘플 생성 장치는,

상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하지 않는 경우, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 상기 스플라이싱 텍스트-오디오 쌍에 대응되는 다차원 스플라이싱 텍스트-오디오 쌍을 선별해내고; 상기 다차원 스플라이싱 텍스트-오디오 쌍 및 상기 검출할 텍스트-오디오 쌍을 다차원 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 다차원 검출할 텍스트-오디오 쌍이 상기 기설정된 검출 조건을 만족하는지 여부를 판단하며;

만족하는 경우, 상기 다차원 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입하고;

만족하지 않는 경우, 상기 다차원 스플라이싱 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하고, 상기 다차원 검출할 텍스트-오디오 쌍을 상기 검출할 텍스트-오디오 쌍으로 사용하며, 상기 선별 모듈을 실행시키도록 구성되는 선별 모듈을 더 포함한다.

하나의 선택 가능한 실시예에서, 상기 샘플 생성 장치는,

상기 트레이닝 데이터베이스에서 샘플 텍스트-오디오 쌍을 추출하되, 상기 샘플 텍스트-오디오 쌍에는 샘플 텍스트 세그먼트 및 샘플 오디오 세그먼트가 포함되고; 상기 샘플 텍스트 세그먼트 및 상기 샘플 오디오 세그먼트를 기반으로 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하도록 구성되는 트레이닝 모듈을 더 포함한다.

본 실시예에서 제공하는 샘플 생성 장치는, 복수의 텍스트-오디오 쌍을 획득한 후, 상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해낸 후, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하며, 상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입함으로써, 샘플 데이터 준비 단계에서 스플라이싱 방식을 통해 다운스트림 태스크의 사용 요구를 충족하는 고품질의 샘플 데이터를 얻을 수 있어, 데이터 준비 단계의 자원 소모 비용을 절감하고, 또한, 스플라이싱된 후 상기 트레이닝 데이터베이스에 기입되는 샘플 데이터의 데이터 양이 상대적으로 많으므로, 다운스트림 태스크의 샘플 데이터 양이 적고 샘플 데이터의 오디오 길이의 분포가 고르지 않아 음성 합성 효과가 떨어지는 문제를 효과적으로 해결하여 다운스트림 태스크의 태스크 처리 효율을 높인다.

상술한 내용은 본 실시예에 따른 샘플 생성 장치의 예시적 해결수단이다. 유의해야 할 점은, 상기 샘플 생성 장치의 기술적 해결수단은 전술한 샘플 생성 방법의 기술적 해결수단과 동일한 구상에 속하며, 샘플 생성 장치의 기술적 해결수단에서 자세히 설명되지 않은 세부적인 내용은 모두 전술한 샘플 생성 방법의 기술적 해걸수단에 대한 설명을 참조할 수 있다.

도7은 본 명세서의 일 실시예에서 제공하는 컴퓨팅 기기(700)의 구조 블록도를 도시한다. 상기 컴퓨팅 기기(700)의 부재는 메모리(710) 및 프로세서(720)를 포함하나 이에 한정되지 않는다. 프로세서(720)와 메모리(710)는 버스(730)를 통해 서로 연결되며, 데이터베이스(750)는 데이터를 저장하기 위해 사용된다.

컴퓨팅 기기(700)는 액세스 기기(740)를 더 포함하며, 액세스 기기(740)는 컴퓨팅 기기(700)가 하나 이상의 네트워크(760)를 통해 통신할 수 있도록 한다. 이러한 네트워크의 예로는 공중 교환 전화망(PSTN), 근거리 통신망(LAN), 광대역 네트워크(WAN), 개인 통신망(PAN) 또는 인터넷과 같은 통신 네트워크의 조합을 포함한다. 액세스 기기(740)는 IEEE502.11 무선 근거리 통신망(WLAN) 무선 인터페이스, 글로벌 마이크로파 인터커넥트 액세스(Wi-MAX) 인터페이스, 이더넷 인터페이스, 범용 직렬 버스(USB) 인터페이스, 셀룰러 네트워크 인터페이스, 블루투스 인터페이스, 근거리 무선통신(NFC) 인터페이스 등과 같은 유선 또는 무선의 임의의 유형의 네트워크 인터페이스(예를 들어, 네트워크 인터페이스 카드(NIC)) 중 하나 이상을 포함할 수 있다.

본 명세서의 일 실시예에서, 컴퓨팅 기기(700)의 상기 부재 및 도 7에 도시되지 않은 기타 부재는 예를 들어 버스를 통해 서로 연결될 수 있다. 도 7에 도시된 컴퓨팅 기기의 구조 블록도는 단지 예시를 위한 목적일 뿐 본 명세서의 범위를 제한하기 위한 것이 아님을 이해해야 한다. 본 기술분야의 기술자는 수요에 따라 다른 부재를 추가하거나 교체할 수 있다.

컴퓨팅 기기(700)는 모바일 컴퓨터 또는 모바일 컴퓨팅 기기(예를 들어, 태블릿 컴퓨터, 개인용 정보 단말기, 랩톱 컴퓨터, 노트북 컴퓨터, 넷북 등), 모바일 전화(예를 들어, 스마트폰), 웨어러블 컴퓨팅 기기(예를 들어, 스마트 워치, 스마트 안경 등) 또는 기타 유형의 모바일 기기, 또는 데스크탑 컴퓨터 또는 PC와 같은 고정식 컴퓨팅 기기를 포함하는 임의의 유형의 고정식 또는 모바일 컴퓨팅 기기일 수 있다. 컴퓨팅 기기(700)는 또한 모바일 또는 고정식 서버일 수도 있다.

여기서, 프로세서(720)는 아래와 같은 컴퓨터 실행 가능 명령을 실행하기 위해 사용된다.

복수의 텍스트-오디오 쌍을 획득하되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함된다.

상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해낸다.

상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출한다.

상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입한다.

상술한 내용은 본 실시예에 따른 컴퓨팅 기기의 예시적 해결수단이다. 유의해야 할 점은, 상기 컴퓨팅 기기의 기술적 해결수단은 전술한 샘플 생성 방법의 기술적 해결수단과 동일한 구상에 속하며, 컴퓨팅 기기의 기술적 해결수단에서 자세히 설명되지 않은 세부적인 내용은 모두 전술한 샘플 생성 방법의 기술적 해결수단에 대한 설명을 참조할 수 있다.

본 명세서의 일 실시예는 또한 컴퓨터 명령이 저장된 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 명령은 프로세서에 의해 실행될 경우 다음의 단계를 수행한다.

상술한 내용은 본 실시예에 따른 컴퓨터 판독 가능 저장 매체의 예시적 해결수단이다. 유의해야 할 점은, 상기 저장 매체의 기술적 해결수단은 전술한 샘플 생성 방법의 기술적 해결수단과 동일한 구상에 속하며, 저장 매체의 기술적 해결수단에서 자세히 설명되지 않은 세부적인 내용은 모두 전술한 샘플 생성 방법의 기술적 해걸수단의 설명을 참조할 수 있다.

이상으로 본 명세서의 특정 실시예에 대해 설명하였다. 다른 실시예들도 첨부된 특허청구의 범위 내에 속한다. 일부 경우 청구범위에 기재된 동작 또는 단계는 실시예에서와 상이한 순서로 실행될 수 있고, 여전히 기대되는 결과를 달성할 수 있다. 또한, 첨부된 도면에 표시된 과정은 반드시 도시된 특정 순서 또는 연속적인 순서에 의해서만 기대되는 결과를 달성할 수 있는 것은 아니다. 일부 실시형태에서, 멀티태스킹 및 병렬 처리도 가능하거나 유리할 수 있다.

상기 컴퓨터 명령은 컴퓨터 프로그램 코드를 포함하고, 상기 컴퓨터 프로그램 코드는 소스 코드 형태, 객체 코드 형태, 실행 파일 또는 일부 중간 형태 등일 수 있다. 상기 컴퓨터 판독 가능 매체는 상기 컴퓨터 프로그램 코드를 휴대할 수 있는 임의의 엔티티 또는 장치, 기록 매체, USB 메모리, 이동식 하드 디스크, 자기 디스크, 광 디스크, 컴퓨터 메모리, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 전기 반송파 신호, 통신 신호 및 스프트웨어 배포 매체 등을 포함할 수 있다. 유의해야 할 점은, 상기 컴퓨터 판독 가능 매체에 포함된 내용은 관할 지역 내의 입법 및 특허 관행의 요구에 따라 적절하게 증감될 수 있으며, 예를 들어, 일부 관할 지역에서는 입법 및 특허 관행에 따라 컴퓨터 판독 가능 매체에 전기 반송파 신호 및 통신 신호가 포함되지 않을 수 있다.

유의해야 할 점은, 전술한 각 방법 실시예에서는 설명의 편의를 위해 일련의 동작의 조합으로 표현되었으나, 본 명세서에 따라 일부 단계는 이와 다른 순서로 또는 동시에 수행될 수 있으므로, 본 기술분야의 기술자는 본 명세서가 설명된 동작 순서에 한정되지 않음을 이해해야 한다. 또한, 본 기술분야의 기술자는 명세서에 설명된 실시예는 모두 바람직한 실시예이며, 언급된 동작 및 모듈이 반드시 본 명세서에 필수적인 것은 아님을 이해해야 한다.

상기 실시예에서, 각 실시예에 대한 설명은 모두 각각 치중점이 있으며, 특정 실시예에서 자세히 설명되지 않은 부분은 기타 실시예의 관련 설명을 참조할 수 있다.

상기 개시된 본 명세서의 바람직한 실시예는 단지 본 명세서의 설명을 돕기 위한 것이다. 선택적인 실시예에서는 모든 세부사항이 자세히 설명된 것은 아니며, 본 발명은 상기 구체적인 실시형태에 한정되지 않는다. 분명한 것은, 본 명세서의 내용을 기반으로 많은 수정 및 변경이 이루어질 수 있다. 본 명세서에서는 본 명세서의 원리 및 실제 응용을 더 잘 해석하여 본 기술분야의 기술자들이 본 명세서를 잘 이해하고 이용할 수 있도록 하기 위해 이러한 실시예들을 선택하여 구체적으로 설명하였다. 본 명세서는 단지 청구범위 및 그 전체 범위 및 그의 등가물에 의해서만 한정된다.

Claims

샘플 생성 방법으로서,
복수의 텍스트-오디오 쌍을 획득하되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되는 단계;
상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내는 단계;
상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 단계; 및
상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제1항에 있어서,
복수의 텍스트-오디오 쌍을 획득하는 상기 단계는,
타깃 텍스트 및 상기 타깃 텍스트에 대응되는 오디오를 획득하는 단계;
상기 오디오에 대해 전처리를 수행하여 타깃 오디오를 획득하고, 상기 타깃 텍스트를 음소 시퀀스로 변환하는 단계; 및
상기 음소 시퀀스와 상기 타깃 오디오에 대해 정렬 처리를 수행하고, 정렬 처리 결과에 따라 상기 복수의 텍스트-오디오 쌍을 생성하는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제2항에 있어서,
정렬 처리 결과에 따라 상기 복수의 텍스트-오디오 쌍을 생성하는 상기 단계는,
정렬 처리 결과에 따라 음소 오디오 파일을 얻고, 상기 음소 오디오 파일의 분할 위치를 결정하는 단계;
상기 분할 위치에 따라 상기 음소 오디오 파일을 분할하여 복수의 음소-오디오 쌍을 획득하되, 각각의 음소-오디오 쌍에는 음소 세그먼트 및 오디오 세그먼트가 포함되는 단계;
상기 타깃 텍스트를 기반으로 상기 복수의 음소-오디오 쌍 중 각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트를 결정하는 단계; 및
각각의 음소-오디오 쌍의 음소 세그먼트에 대응되는 텍스트 세그먼트, 및 각각의 음소-오디오 쌍의 오디오 세그먼트에 따라 상기 복수의 텍스트-오디오 쌍을 생성하는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제1항에 있어서,
상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하는 상기 단계는,
상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트를 추출하고, 각각의 텍스트-오디오 쌍의 오디오 세그먼트에 대해 프레이밍 처리를 수행하여 각각의 텍스트-오디오 쌍의 오디오 프레임 세트를 획득하는 단계;
상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 프레임 세트에 포함된 오디오 프레임을 기반으로, 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 피치 주파수 특징 및 오디오 프레임 특징을 계산하는 단계; 및
각각의 텍스트-오디오 쌍의 오디오 세그먼트의 상기 피치 주파수 특징 및 상기 오디오 프레임 특징에 따라 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 상기 오디오 특징을 결정하는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제1항에 있어서,
상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내는 상기 단계는,
상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트, 텍스트 세그먼트 및 오디오 특징을 통합하여 각각의 텍스트-오디오 쌍에 대응되는 텍스트-오디오 패키지를 획득하고 이를 세그먼트 데이터베이스에 기입하는 단계;
상기 세그먼트 데이터베이스에서 임의의 하나의 텍스트-오디오 패키지를 타깃 텍스트-오디오 패키지로 선택하고, 상기 타깃 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 타깃 텍스트-오디오 쌍으로 결정하는 단계; 및
상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지 및 상기 오디오 특징을 기반으로 스플라이싱 텍스트-오디오 패키지를 결정하고, 상기 스플라이싱 텍스트-오디오 패키지의 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제5항에 있어서,
상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지 및 상기 오디오 특징을 기반으로 스플라이싱 텍스트-오디오 패키지를 결정하는 상기 단계는,
상기 세그먼트 데이터베이스에서 상기 타깃 텍스트-오디오 패키지를 제외한 텍스트-오디오 패키지를 선택하여 선별할 텍스트-오디오 패키지 세트를 구성하는 단계;
상기 선별할 텍스트-오디오 패키지 세트에 포함된 각각의 선별할 텍스트-오디오 패키지의 텍스트-오디오 쌍을 선별할 텍스트-오디오 쌍으로 결정하는 단계; 및
상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 상기 선별할 텍스트-오디오 패키지 세트에서 상기 스플라이싱 텍스트-오디오 패키지를 선별해내는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제6항에 있어서,
상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징 및 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 기반으로, 상기 선별할 텍스트-오디오 패키지 세트에서 상기 스플라이싱 텍스트-오디오 패키지를 선별해내는 상기 단계는,
상기 타깃 텍스트-오디오 패키지에 따라 상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트의 제1 오디오 특징을 결정하고, 상기 선별할 텍스트-오디오 패키지에 따라 상기 선별할 텍스트-오디오 쌍의 오디오 세그먼트의 제2 오디오 특징을 결정하는 단계;
상기 제1 오디오 특징과 상기 제2 오디오 특징 사이의 특징 거리를 계산하는 단계; 및
상기 특징 거리가 기설정된 거리 임계값보다 작은 선별할 텍스트-오디오 쌍이 속하는 선별할 텍스트-오디오 패키지를 상기 스플라이싱 텍스트-오디오 패키지로 결정하는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제1항에 있어서,
상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 상기 단계를 수행하기 이전에, 상기 샘플 생성 방법은,
상기 타깃 텍스트-오디오 쌍의 오디오 세그먼트에 대해 샘플링 처리를 수행하여 타깃 샘플링 정보를 획득하고, 상기 타깃 텍스트-오디오 쌍의 텍스트 세그먼트의 타깃 텍스트 정보를 결정하는 단계;
상기 타깃 샘플링 정보 및 상기 타깃 텍스트 정보가 상기 기설정된 검출 조건을 만족하는지 여부를 판단하는 단계; 및
만족하지 않는 경우, 상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 단계를 수행하는 단계를 더 포함하는 것을 특징으로 하는 샘플 생성 방법.
제8항에 있어서,
상기 샘플링 정보 및 상기 텍스트 정보가 상기 기설정된 검출 조건을 만족하는지 여부를 판단하는 상기 단계의 판단 결과가 "예"인 경우, 상기 타깃 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입하는 것을 특징으로 하는 샘플 생성 방법.
제1항에 있어서,
상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하는 상기 단계는,
상기 타깃 텍스트-오디오 쌍의 타깃 텍스트 세그먼트와 타깃 오디오 세그먼트, 및 상기 스플라이싱 텍스트-오디오 쌍의 스플라이싱 텍스트 세그먼트와 스플라이싱 오디오 세그먼트를 추출하는 단계;
상기 타깃 텍스트 세그먼트 및 상기 스플라이싱 텍스트 세그먼트를 검출할 텍스트 세그먼트로 스플라이싱하고, 상기 타깃 오디오 세그먼트 및 상기 스플라이싱 오디오 세그먼트를 검출할 오디오 세그먼트로 스플라이싱하는 단계; 및
상기 검출할 텍스트 세그먼트 및 상기 검출할 오디오 세그먼트를 기반으로 상기 검출할 텍스트-오디오 쌍을 구성하는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제10항에 있어서,
상기 검출할 텍스트-오디오 쌍을 검출하는 상기 단계는,
상기 검출할 오디오 세그먼트에 대해 샘플링 처리를 수행하여 검출할 샘플링 정보를 획득하고, 상기 검출할 텍스트 세그먼트의 검출할 텍스트 정보를 결정하는 단계; 및
상기 기설정된 검출 조건을 기반으로 상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보를 검출하는 단계를 포함하고,
상응하게, 상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하는 상기 단계는,
상기 검출할 샘플링 정보 및 상기 검출할 텍스트 정보가 모두 상기 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입하는 단계를 포함하는 것을 특징으로 하는 샘플 생성 방법.
제1항에 있어서,
상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하는 상기 단계를 수행한 이후에, 상기 샘플 생성 방법은,
상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하지 않는 경우, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 상기 스플라이싱 텍스트-오디오 쌍에 대응되는 다차원 스플라이싱 텍스트-오디오 쌍을 선별해내는 단계;
상기 다차원 스플라이싱 텍스트-오디오 쌍 및 상기 검출할 텍스트-오디오 쌍을 다차원 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 다차원 검출할 텍스트-오디오 쌍이 상기 기설정된 검출 조건을 만족하는지 여부를 판단하는 단계;
만족하는 경우, 상기 다차원 검출할 텍스트-오디오 쌍을 상기 트레이닝 데이터베이스에 기입하는 단계; 및
만족하지 않는 경우, 상기 다차원 스플라이싱 텍스트-오디오 쌍을 상기 스플라이싱 텍스트-오디오 쌍으로 사용하고, 상기 다차원 검출할 텍스트-오디오 쌍을 상기 검출할 텍스트-오디오 쌍으로 사용하며, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 상기 스플라이싱 텍스트-오디오 쌍에 대응되는 다차원 스플라이싱 텍스트-오디오 쌍을 선별해내는 상기 단계를 수행하는 단계를 더 포함하는 것을 특징으로 하는 샘플 생성 방법.
샘플 생성 장치로서,
복수의 텍스트-오디오 쌍을 획득하도록 구성되되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되는 획득 모듈;
상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내도록 구성되는 계산 모듈;
상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하도록 구성되는 스플라이싱 모듈; 및
상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하도록 구성되는 기입 모듈을 포함하는 것을 특징으로 하는 샘플 생성 장치.
샘플 생성 장치로서,
복수의 텍스트-오디오 쌍을 획득하도록 구성되되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되는 획득 모듈;
상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내도록 구성되는 계산 모듈;
상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하도록 구성되는 스플라이싱 모듈; 및
상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하도록 구성되는 기입 모듈을 포함하는 것을 특징으로 하는 샘플 생성 장치.
컴퓨팅 기기로서,
메모리 및 프로세서를 포함하되;
상기 메모리는 컴퓨터 실행 가능 명령을 저장하기 위해 사용되고, 상기 프로세서는 상기 컴퓨터 실행 가능 명령을 실행하여,
복수의 텍스트-오디오 쌍을 획득하되, 각각의 텍스트-오디오 쌍에는 텍스트 세그먼트 및 오디오 세그먼트가 포함되며;
상기 복수의 텍스트-오디오 쌍 중 각각의 텍스트-오디오 쌍의 오디오 세그먼트의 오디오 특징을 계산하고, 상기 오디오 특징에 따라 상기 복수의 텍스트-오디오 쌍에서 타깃 텍스트-오디오 쌍 및 상기 타깃 텍스트-오디오 쌍에 대응되는 스플라이싱 텍스트-오디오 쌍을 선별해내며;
상기 타깃 텍스트-오디오 쌍 및 상기 스플라이싱 텍스트-오디오 쌍을 검출할 텍스트-오디오 쌍으로 스플라이싱하고, 상기 검출할 텍스트-오디오 쌍을 검출하며;
상기 검출할 텍스트-오디오 쌍이 기설정된 검출 조건을 만족하는 경우, 상기 검출할 텍스트-오디오 쌍을 트레이닝 데이터베이스에 기입하도록 하는 것을 특징으로 하는 컴퓨팅 기기.
컴퓨터 명령이 저장된 컴퓨터 판독 가능 저장 매체로서,
상기 명령은 프로세서에 의해 실행될 경우 제1항 내지 제13항 중 어느 한 항에 따른 샘플 생성 방법의 단계를 수행하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.