KR20220064940A

KR20220064940A - 음성 생성 방법, 장치, 전자기기 및 저장매체

Info

Publication number: KR20220064940A
Application number: KR1020220054088A
Authority: KR
Inventors: 용궈 캉; 쥔차오 왕
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-06-22
Filing date: 2022-05-02
Publication date: 2022-05-19
Also published as: US20220301545A1; JP2022046731A; EP4075430A2; EP4075430A3; CN113450759A

Abstract

본 발명은 음성 생성 방법, 장치, 전자기기 및 저장매체를 제공하는데, 이는 컴퓨터 기술분야에 관한 것으로, 특히 딥 러닝, 음성 기술 등 인공지능 기술분야에 관한 것이다. 구체적인 구현방안은, 오리지널 스피커의 음성 정보를 획득하고; 상기 음성 정보와 대응되는 텍스트 특징을 얻도록 상기 음성 정보에 대해 텍스트 특징 추출을 진행하며; 상기 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하고; 상기 음향 특징에 근거하여 타깃 음성 신호를 생성하는 것이다. 오리지널 스피커의 음성 정보를 대응되는 음색이 타깃 스피커와 일치한 타깃 음성 신호로 변환하여 타깃 음성 신호를 이용하여 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 나타나는 것을 방지할 수 있다.

Description

음성 생성 방법, 장치, 전자기기 및 저장매체{METHOD AND APPARATUS FOR GENERATING SPEECH, ELECTRONIC DEVICE AND STORAGE MEDIUM}

본 발명은 컴퓨터 기술분야에 관한 것으로, 특히 딥 러닝, 음성 기술 등 인공지능 기술분야에 관한 것이며, 특히 음성 생성 방법, 장치, 전자기기 및 저장매체에 관한 것이다.

인공지능과 미디어 산업, 고객 서비스 산업의 긴밀한 통합으로 인해 점점 더 많은 가상 디지털 인간이 미디어, 고객 서비스 직책에 등장한다. 현재의 가상 디지털 인간은 음성에 의해 구동되는 바, 즉 음성을 통해 가상 디지털 인간을 구동시켜 입술, 표정 변화 및 여러 가지 신체의 움직임을 수행하도록 한다.

그러나 관련 기술에서는, 통상적으로 직접 스피커의 오리지널 음성을 통해 가상 디지털 인간을 구동시키는 바, 예를 들면 고객 서비스 시나리오에서는, 리얼 고객 서비스 음성을 통해 직접 가상 디지털 인간을 구동시키는데, 가상 디지털 인간의 음성 음색과 리얼 고객 서비스의 음성의 음색이 동일하므로 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 발생할 수 있다.

본 발명은 음성 생성 방법, 장치, 전자기기 및 저장매체를 제공한다.

본 발명의 일 측면에 따르면, 음성 생성 방법을 제공하는데, 이는, 오리지널 스피커의 음성 정보를 획득하는 단계; 상기 음성 정보와 대응되는 텍스트 특징을 얻도록 상기 음성 정보에 대해 텍스트 특징 추출을 진행하는 단계; 상기 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하는 단계; 상기 음향 특징에 근거하여 타깃 음성 신호를 생성하는 단계; 를 포함한다.

본 발명의 다른 측면에 따르면, 음성 생성 장치를 제공하는데, 이는, 오리지널 스피커의 음성 정보를 획득하는 제1 획득 모듈; 상기 음성 정보와 대응되는 텍스트 특징을 얻도록 상기 음성 정보에 대해 텍스트 특징 추출을 진행하는 추출 모듈; 상기 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하는 변환 모듈; 상기 음향 특징에 근거하여 타깃 음성 신호를 생성하는 생성 모듈; 을 포함한다.

본 발명의 다른 측면에 따르면, 전자기기를 제공하는데, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결하는 메모리; 를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 상술한 바와 같은 음성 생성 방법을 수행한다.

본 발명의 다른 측면에 따르면, 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 제공하는데, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 상술한 바와 같은 음성 생성 방법이 수행된다.

본 발명의 다른 측면에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하는데, 상기 컴퓨터 프로그램 중의 명령이 실행될 경우, 상술한 바와 같은 음성 생성 방법이 구현된다.

본 명세서에서 설명한 내용은 본 발명의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니고 본 발명의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 발명의 기타 특징은 아래의 명세서를 통해 보다 용이하게 이해할 수 있을 것이다.

첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 발명을 한정하지 않는다.
도 1은 본 발명의 제1 실시예에 따른 음성 생성 방법의 흐름 모식도이다.
도 2는 본 발명의 제2 실시예에 따른 음성 생성 방법의 흐름 모식도이다.
도 3은 본 발명의 제2 실시예에 따른 음성 생성 방법의 다른 흐름 모식도이다.
도 4는 본 발명의 제3 실시예에 따른 음성 생성 방법의 흐름 모식도이다.
도 5는 본 발명의 제4 실시예에 따른 음성 생성 장치의 구조 모식도이다.
도 6은 본 발명의 제5 실시예에 따른 음성 생성 장치의 구조 모식도이다.
도 7은 본 발명의 실시예에 따른 음성 생성 방법의 전자기기를 구현하기 위한 블록도이다.

이하 도면과 결부하여 본 발명의 시범적인 실시예를 설명하되, 이해를 돕기 위해 여기에는 본 발명의 실시예의 여러 가지 세부 절차가 포함되고 이들은 단지 시범적인 것으로 이해되어야 한다. 따라서, 본 기술분야에서 통상의 지식을 가진 자들은 본 발명의 범위와 정신을 벗어나지 않는 전제하에 여기서 설명한 실시예에 대해 여러 가지 개변과 수정을 진행할 수 있다는 것을 알아야 한다. 마찬가지로, 뚜렷함과 간결함을 위하여 아래의 설명에서는 공지 기능과 구조에 대한 설명을 생략한다.

설명해야 할 것은, 본 발명의 기술적 해결수단에서 관련된 사용자 개인 정보의 획득, 저장 및 응용 등은 모두 관련 법률 법규의 규정에 부합되며 공서양속에 위배되지 않는다.

이해할 수 있는바, 관련 기술에서는, 통상적으로 직접 스피커의 오리지널 음성을 통해 가상 디지털 인간을 구동시키는 바, 예를 들면 고객 서비스 시나리오에서는, 리얼 고객 서비스 음성을 통해 직접 가상 디지털 인간을 구동시키는데, 가상 디지털 인간의 음성 음색과 리얼 고객 서비스의 음성의 음색이 동일하므로 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 발생할 수 있다. 예를 들면, 가상 디지털 인간이 여성의 형상이라고 가정하면, 남성 스피커의 음성을 통해 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 음성이 남성의 소리가 되는데, 이는 가상 디지털 인간의 형상과 일치하지 않게 된다.

본 발명은 상기 문제에 대하여 음성 생성 방법을 제공하는데, 당해 음성 생성 방법은, 오리지널 스피커의 음성 정보를 획득한 후, 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행하고, 그 다음 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 하며, 나아가 음향 특징에 근거하여 타깃 음성 신호를 생성함으로써 오리지널 스피커의 음성 정보를 대응되는 음색이 타깃 스피커와 일치한 타깃 음성 신호로 변환하여, 타깃 음성 신호를 이용하여 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 나타나는 것을 방지할 수 있다.

이하 도면을 참조하여 본 발명의 실시예의 음성 생성 방법, 장치, 전자기기, 비일시적 컴퓨터 판독 가능 저장매체 및 컴퓨터 프로그램을 설명한다.

우선 도 1과 결부하여, 본 발명이 제공하는 음성 생성 방법을 상세히 설명한다.

도 1은 본 발명의 제1 실시예에 따른 음성 생성 방법의 흐름 모식도이다. 여기서, 설명해야 할 것은, 본 발명의 실시예에서 제공하는 음성 생성 방법은, 실행주체가 음성 생성 장치이다. 당해 음성 생성 장치는 전자기기일 수도 있고, 전자기기에 구성되어 오리지널 스피커의 음성 정보를 타깃 스피커의 음색과 일치한 타깃 음성 신호로 변환시킬 수도 있다. 본 발명의 실시예는 음성 생성 장치가 전자기기에 구성된 것을 예로 들어 설명한다.

여기서, 전자기기는 데이터 처리를 진행할 수 있는 임의의 정적 또는 모바일 계산 기기, 예를 들면 노트북, 스마트 폰, 웨어러블 기기 등 모바일 계산 기기, 또는 데스크톱 컴퓨터 등과 같은 정적인 계산 기기, 또는 서버, 또는 기타 유형의 계산 기기 등수 있는데, 본 발명은 이에 대해 한정하지 않는다.

도 1에 도시된 바와 같이, 음성 생성 방법은 아래 단계를 포함할 수 있다.

단계101, 오리지널 스피커의 음성 정보를 획득한다.

여기서, 오리지널 스피커는 임의의 스피커일 수 있다.

설명해야 할 것은, 본 발명의 실시예에서의 음성 생성 장치는 여러 가지 공개적이고 합법적인 방식으로 오리지널 스피커의 음성 정보를 획득할 수 있는 바, 예를 들면 음성 생성 장치는 오리지널 스피커의 허가를 받은 후, 오리지널 스피커가 말을 할 때 실시간으로 오리지널 스피커의 음성 정보를 수집하거나, 또는 오리지널 스피커의 허가를 받은 후, 기타 장치로부터 오리지널 스피커의 녹음 정보를 획득하거나, 또는 기타 합법적인 방식으로 오리지널 스피커의 음성 정보를 획득할 수 있는데, 본 발명은 이에 대해 한정하지 않는다.

고객 서비스 시나리오에서 리얼 고객 서비스의 음성을 통해 가상 디지털 인간을 구동시키는 것을 예로 하면, 리얼 고객 서비스는 바로 오리지널 스피커이고, 리얼 고객 서비스의 허가를 받은 후, 음성 생성 장치는 리얼 고객 서비스가 말을 할 때 실시간으로 리얼 고객 서비스의 음성을 수집하여 오리지널 스피커의 음성 정보를 획득할 수 있다.

단계102, 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행한다.

여기서, 텍스트 특징은 음성 정보에서 텍스트와 관련되는 특징이고, 텍스트 특징은 음성 정보의 음성 텍스트 콘텐츠를 나타낸다.

예시적인 실시예에서, 텍스트 특징은 사후 확률 맵 특징(Phonetic Posterior Grams, PPG)일 수 있는데, 여기서, 사후 확률 맵 특징의 물리적 의미는 각 음향 세그먼트가 속하는 언어학 유닛의 확률 분포이거나, 또는 텍스트 특징은 요인 시퀀스 등 기타 특징일 수도 있는데, 본 발명은 이에 대해 한정하지 않는다.

예시적인 실시예에서는, 특징 추출 모델을 미리 트레이닝하여 얻을 수 있는데, 여기서, 특징 추출 모델의 입력은 추출 대기 텍스트 특징의 음성 정보이고, 출력은 입력한 음성 정보에서의 텍스트 특징이므로 오리지널 스피커의 음성 정보를 트레이닝을 거친 특징 추출 모델에 입력하여 음성 정보와 대응되는 텍스트 특징을 얻을 수 있다. 여기서, 특징 추출 모델은 텍스트 특징을 추출할 수 있는 임의의 유형의 모델로서, 예를 들면 신경망 모델일 수 있는데, 본 발명은 이에 대해 한정하지 않는다.

단계103, 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환한다.

예시적인 실시예에서는, 특징 변환 모델을 미리 트레이닝함으로써 특징 변환 모델을 이용하여 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환할 수 있다.

여기서, 음향 특징은 음성 음향 특성을 나타내는 물리량이다. 타깃 스피커와 대응되는 음향 특징은 오리지널 스피커의 음성 정보가 타깃 스피커에 대응될 때의 음향 특징이고, 오리지널 스피커를 나타내는 음성 정보는 타깃 스피커와 대응될 때의 음성 음향 특성이다.

예시적인 실시예에서, 음향 특징은 멜(mel) 눈금의 주파수 스펙트럼 엔빌로프 특징이거나, 또는 기본 주파수 특징 등 기타 특징일 수 있는데, 본 발명은 이에 대해 한정하지 않는다.

타깃 스피커는 미리 설정한 특정 스피커이다. 예를 들면, 대응되는 음성과 가상 디지털 인간의 형상이 일치한 스피커이다.

예를 들어 설명하면, 고객 서비스 시나리오에서 리얼 고객 서비스의 음성을 통해 가상 디지털 인간을 구동시키는 것을 예로 들 경우, 가상 디지털 인간의 형상과 스피커A의 음성이 일치하다고 가정하면, 리얼 고객 서비스B(즉 오리지널 스피커)의 음성을 통해 가상 디지털 인간을 구동시킬 때, 리얼 고객 서비스B의 음성 정보를 대응되는 음색이 스피커A의 음색과 일치한 음성 신호로 변환시켜야 하는데, 이때 스피커A는 타깃 스피커이다. 본 발명의 실시예에서는, 오리지널 스피커B의 음성 정보에서 추출된 텍스트 특징을 타깃 스피커A와 대응되는 음향 특징으로 변환시킬 수 있는데, 여기서, 음향 특징은 오리지널 스피커B의 음성 정보가 타깃 스피커A와 대응될 때의 음성 음향 특성을 나타낸다.

설명해야 할 것은, 본 발명의 실시예에서의 가상 디지털 인간의 형상은 어느 특정 사용자의 형상에 대한 것이 아닌 바, 어느 특정된 사용자의 개인 정보를 반영할 수 없다.

단계104, 음향 특징에 근거하여 타깃 음성 신호를 생성한다.

예시적인 실시예에서는, 타깃 스피커와 대응되는 음향 특징을 얻은 후, 음향 특징에 근거하여 타깃 음성 신호를 생성할 수 있는데, 여기서, 타깃 음성 신호와 대응되는 음색은 타깃 스피커와 일치하므로 오리지널 스피커의 음성 정보를 대응되는 음색과 타깃 스피커가 일치한 타깃 음성 신호로 변환시킨다.

이해할 수 있는바, 본 발명의 실시예에서 생성한 타깃 음성 신호는 가상 디지털 인간을 구동시킬 수 있는데, 타깃 스피커를 이의 음성과 가상 디지털 인간의 형상이 일치한 스피커로 설치할 수 있고 오리지널 스피커의 음성 정보를 대응되는 음색과 타깃 스피커가 일치한 타깃 음성 신호로 변환시킬 수 있으므로 오리지널 스피커가 어떠한 스피커이든 모두 본 발명의 실시예에서 제공하는 음성 생성 방법을 사용할 수 있으며, 오리지널 스피커의 음성 정보를 대응되는 음색과 가상 디지털 인간의 형상이 일치한 타깃 음성 신호로 변환시킬 수 있어 타깃 음성 신호로 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 나타나는 것을 방지할 수 있다.

예를 들어 설명하면, 고객 서비스 시나리오에서 리얼 고객 서비스의 음성을 통해 가상 디지털 인간을 구동시키는 것을 예로 들 경우, 가상 디지털 인간의 형상과 스피커A의 음성이 일치하다고 가정하면 스피커A를 타깃 스피커로 설치하는데, 본 발명의 실시예에서 제공하는 음성 생성 방법을 통해 오리지널 스피커의 음성 정보를 대응되는 음색과 타깃 스피커가 일치한 타깃 음성 신호로 변환시킬 수 있으므로 오리지널 스피커가 스피커B이든 스피커C 또는 기타 임의의 스피커이든 모두 스피커A의 음색과 일치한 타깃 음성 신호를 얻을 수 있어 타깃 음성 신호로 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 음성과 형상이 일치하도록 담보할 수 있다.

설명해야 할 것은, 본 발명의 실시예에서 제공하는 음성 생성 방법은, 오리지널 스피커의 음성 정보에서 추출한 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 직접 변환시켜 음향 특징에 근거하여 타깃 음성 신호를 생성하고, 타깃 음성 신호에 오리지널 스피커의 감정, 말투 등 특징을 보류하여 본 발명의 실시예에서 생성한 타깃 음성 신호를 통해 가상 디지털 인간을 구동시킬 경우, 가상 디지털 인간의 음성에 오리지널 스피커의 감정, 말투 등 리얼 특징이 포함되도록 함으로써 사용자에게 따뜻한 대화 경험을 제공하여 가상 디지털 인간의 재미와 신선함을 향상시킨다.

본 발명의 실시예에서 제공하는 음성 생성 방법은, 오리지널 스피커의 음성 정보를 획득한 후, 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행하고, 그 다음 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 하며, 나아가 음향 특징에 근거하여 타깃 음성 신호를 생성함으로써 오리지널 스피커의 음성 정보를 대응되는 음색이 타깃 스피커와 일치한 타깃 음성 신호로 변환하여, 타깃 음성 신호를 이용하여 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 나타나는 것을 방지할 수 있다.

상기 분석을 통해 알 수 있는바, 본 발명의 실시예에서는, 트레이닝을 거친 특징 변환 모델을 이용하여 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환시킬 수 있는데, 아래에서는 도 2와 결부하여 본 발명이 제공하는 음성 생성 방법에서 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환시키는 과정에 대해 추가로 설명한다.

도 2는 본 발명의 제2 실시예에 따른 음성 생성 방법의 흐름 모식도이다. 도 2에 도시된 바와 같이, 음성 생성 방법은 아래 단계를 포함할 수 있다.

단계201, 오리지널 스피커의 음성 정보를 획득한다.

여기서, 단계201의 구체적인 구현과정 및 원리는 상기 실시예의 설명을 참조할 수 있는 바, 여기서 더 이상 설명하지 않는다.

단계202, 음성 정보에 대해 음성 인식을 진행한다.

단계203, 음성 정보에 대해 음성 인식을 진행하는 과정에서의 중간 결과를 획득한다.

단계204, 중간 결과를 텍스트 특징으로 사용한다.

이해할 수 있는바, 음성 정보에 대해 음성 인식을 진행하는 과정에서는, 음성 정보에서의 텍스트 특징을 추출하여 중간 결과로서의 텍스트 특징을 추가로 처리함으로써 음성 정보에 대한 음성 인식을 구현한다.

그러면, 본 발명의 실시예에서는, 관련 기술에서의 음성 인식 방법을 이용, 예를 들어 음성 기술분야에서의 음성 인식 모델을 직접 이용하여 음성 정보에 대해 음성 인식을 진행하고, 음성 정보에 대해 음성 인식을 진행하는 과정에서의 중간 결과를 획득하며, 중간 결과를 텍스트 특징으로 사용하여 음성 정보에서의 텍스트 특징을 획득하는 것을 구현할 수 있다.

관련 기술에서의 음성 인식 방법을 직접 이용하여 음성 정보에 대해 음성 인식을 진행하고, 음성 정보의 음성 인식 과정에서의 중간 결과를 음성 정보와 대응되는 텍스트 특징으로 사용할 수 있어 특징 추출 모델을 다시 트레이닝하여 텍스트 특징을 추출할 필요가 없으므로 음성 정보와 대응되는 텍스트 특징을 획득하는 비용을 저하시킬 수 있다.

단계205, 타깃 스피커와 대응되는 음향 특징을 얻도록 텍스트 특징과 타깃 스피커의 태그를 트레이닝을 거친 특징 변환 모델에 입력한다.

여기서, 타깃 스피커와 대응되는 음향 특징은 오리지널 스피커의 음성 정보가 타깃 스피커와 대응될 때의 음향 특징이다.

타깃 스피커의 태그는 타깃 스피커를 고유하게 식별하기 위한 것으로, 이는 수요에 따라 설치할 수 있다.

예시적인 실시예에서는, 특징 변환 모델을 미리 트레이닝하여 얻을 수 있는데, 특징 변환 모델의 입력은 어느 스피커의 태그와 어느 음성 정보로부터 추출한 텍스트 특징이고, 출력은 당해 음성 정보가 당해 스피커와 대응될 때의 음향 특징이므로 오리지널 스피커의 음성 정보와 대응되는 텍스트 특징 및 타깃 스피커의 태그를 획득한 후, 텍스트 특징과 타깃 스피커의 태그를 트레이닝을 거친 특징 변환 모델에 입력하여 오리지널 스피커의 음성 정보가 타깃 스피커와 대응될 때의 음향 특징을 얻을 수 있도록 한다.

도 3을 참조하면, 오리지널 스피커의 음성 정보(301)를 획득한 후, 음성 정보에 대해 텍스트 특징 추출을 진행하여 음성 정보(301)와 대응되는 텍스트 특징(302)을 획득한 다음, 다시 텍스트 특징(302)과 타깃 스피커의 태그에 근거하여 특징 변환 방식으로 타깃 스피커와 대응되는 음향 특징(303)을 획득할 수 있다.

타깃 스피커와 대응되는 음향 특징을 얻도록 텍스트 특징과 타깃 스피커의 태그를 트레이닝을 거친 특징 변환 모델에 입력하는 것을 통해 오리지널 스피커의 음성 정보가 타깃 스피커와 대응될 때의 음향 특징을 정확하게 획득할 수 있다.

상응하게, 단계205 이전에 또한,

트레이닝 데이터를 획득하되, 여기서, 트레이닝 데이터에는 다수의 샘플 스피커의 태그 및 각각의 샘플 스피커와 대응되는 샘플 음성 정보로부터 추출한 샘플 텍스트 특징이 포함되고, 트레이닝 데이터는 샘플 음성 정보의 샘플 음향 특징을 이용하여 태깅하는 방식;

초기 특징 변환 모델을 획득하는 방식;

샘플 스피커와 대응되는 샘플 음성 정보의 예측 음향 특징을 얻도록 샘플 스피커의 태그 및 샘플 스피커와 대응되는 샘플 음성 정보에서 추출한 샘플 텍스트 특징을 초기 특징 변환 모델에 입력하는 방식;

트레이닝을 거친 특징 변환 모델을 얻도록 샘플 스피커와 대응되는 샘플 음성 정보의 예측 음향 특징과 샘플 음성 정보의 샘플 음향 특징 사이의 차이에 근거하여 초기 특징 변환 모델의 모델 파라미터를 조절하는 방식; 을 통해 특징 변환 모델을 트레이닝하여 얻을 수 있다.

여기서, 샘플 음성 정보의 샘플 음향 특징을 이용하여 트레이닝 데이터를 태깅할 경우, 샘플 음성 정보의 샘플 음향 특징은 당해 샘플 음성 정보가 샘플 스피커와 대응될 때의 샘플 음향 특징인데, 여기서, 샘플 스피커는 당해 샘플 음성 정보와 대응되는 샘플 스피커이다.

예를 들어, 샘플 스피커a에 대하여, 트레이닝 데이터에는 샘플 스피커a의 태그 및 샘플 스피커a와 대응되는 샘플 음성 정보b로부터 추출된 샘플 텍스트 특징이 포함될 수 있고, 당해 샘플 스피커a의 태그 및 샘플 스피커a와 대응되는 샘플 음성 정보b로부터 추출된 샘플 텍스트 특징은 샘플 음성 정보b가 스피커a에 대응될 때의 샘플 음향 특징으로 태깅한다.

여기서, 초기 특징 변환 모델은, 심층 신경망 모델과 같이 텍스트 특징으로부터 음향 특징으로의 변환을 구현할 수 있는 임의의 유형의 모델일 수 있는 바, 본 발명은 초기 특징 변환 모델의 구조와 유형을 한정하지 않는다.

설명해야 할 것은, 본 발명의 실시예에서, 각 샘플 스피커와 대응되는 샘플 음성 정보는 음성 생성 장치가 여러 가지 공개적이고 합법적인 방식으로 획득될 수 있는 바, 예를 들어 음성 생성 장치가 공개 데이터 집합으로부터 획득한 것이거나 또는 샘플 스피커의 허가를 받은 후 샘플 스피커로부터 획득한 것일 수 있다.

예시적인 실시예에서는, 초기 특징 변환 모델을 트레이닝할 경우, 예를 들면 딥 러닝의 방식으로 트레이닝할 수 있는데, 기타 기계 학습 방법에 비해, 딥 러닝은 빅데이터 세트에서의 표현이 더 양호하다.

딥 러닝의 방식으로 초기 특징 변환 모델을 트레이닝할 경우, 트레이닝 데이터에서의 하나 또는 다수의 샘플 스피커의 태그 및 당해 샘플 스피커와 대응되는 샘플 음성 정보에서 추출한 샘플 텍스트 특징을 입력으로 하여 초기 특징 변환 모델에 입력함으로써 당해 샘플 스피커와 대응되는 샘플 음성 정보의 예측 음향 특징을 추출하고, 당해 샘플 스피커의 샘플 음성 정보의 샘플 음향 특징과 결부하여 샘플 스피커와 대응되는 샘플 음성 정보의 예측 음향 특징과 샘플 스피커와 대응되는 샘플 음성 정보의 샘플 음향 특징 사이의 차이를 얻어 차이에 따라 초기 특징 변환 모델의 모델 파라미터를 조절함으로써 조절한 후의 특징 변환 모델을 얻을 수 있다. 다시, 트레이닝 데이터에서의 다른 하나 또는 다수의 샘플 스피커의 태그 및 당해 샘플 스피커와 대응되는 샘플 음성 정보에서 추출한 샘플 텍스트 특징을 입력으로 하여 조절한 후의 특징 변환 모델에 입력함으로써 당해 샘플 스피커와 대응되는 샘플 음성 정보의 예측 음향 특징을 획득하고, 당해 샘플 스피커의 샘플 음성 정보의 샘플 음향 특징과 결부하여 샘플 스피커와 대응되는 샘플 음성 정보의 예측 음향 특징과 샘플 스피커와 대응되는 샘플 음성 정보의 샘플 음향 특징 사이의 차이를 얻어 차이에 따라 조절한 후의 특징 변환 모델의 모델 파라미터를 조절하여 추가로 조절된 특징 변화 모델을 얻을 수 있다. 이로써, 특징 변환 모델이 출력한 예측 음향 특징의 정확도가 미리 설정한 임계값을 만족시킬 때까지 초기 특징 변환 모델의 모델 파라미터를 끊임없이 조절하여 초기 특징 변화 모델에 대해 반복 트레이닝을 진행하고, 트레이닝이 완료되면 트레이닝을 거친 특징 변환 모델을 얻게 된다.

더 나아가, 트레이닝된 특징 변환 모델을 얻은 후, 트레이닝을 거친 특징 변환 모델을 이용하여 오리지널 스피커의 음성 정보에서 추출한 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환시킬 수 있다.

설명해야 할 것은, 특징 변환 모델이 타깃 스피커의 태그 및 텍스트 특징과 음향 특징 사이의 연관 관계를 학습하여 임의의 스피커의 음성 정보에 대해 모두 특징 변환 모델을 이용하여 음성 정보와 대응되는 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환시킬 수 있는데, 특징 변환 모델을 트레이닝할 경우, 트레이닝 데이터에는 타깃 스피커와 대응되는 태그, 타깃 스피커와 대응되는 샘플 음성 정보에서 추출한 샘플 텍스트 특징, 및 타깃 스피커와 대응되는 태그와 타깃 스피커와 대응되는 샘플 음성 정보에서 추출한 샘플 텍스트 특징을 태깅한 샘플 음성 정보의 샘플 음향 특징이 포함되어야 한다.

즉, 타깃 스피커와 대응되는 태그는 트레이닝 데이터에서 임의의 샘플 스피커와 대응되는 태그일 수 있다.

유의해야 할 것은, 상기 실시예를 통해 알 수 있는바, 트레이닝 데이터를 이용하여 특징 변환 모델을 트레이닝하여 생성하는 과정에서, 트레이닝 데이터에서의 샘플 스피커태그, 샘플 스피커와 대응되는 샘플 음성 정보에서 추출한 샘플 텍스트 특징, 및 샘플 음성 정보의 샘플 음향 특징은 동일한 샘플 스피커와 대응된다. 트레이닝을 거친 특징 변환 모델을 이용하여 텍스트 특징으로부터 음향 특징으로의 변환을 진행할 경우, 타깃 스피커 태그 및 타깃 스피커와 대응되는 음향 특징은 타깃 스피커와 대응되고, 텍스트 특징은 임의의 스피커와 대응된다.

단계206, 음향 특징을 음성 합성 시스템에서의 보코더 모듈에 입력한다.

단계207, 보코더 모듈이 출력한 적어도 하나의 주파수의 음성 파형 데이터를 타깃 음성 신호로 사용한다.

여기서, 음성 합성 시스템은 관련 기술에서 음성 합성을 위한 시스템일 수 있다.

이해할 수 있는바, 음성 합성 시스템에는 통상적으로 보코더 모듈이 포함되는데, 보코더 모듈의 입력은 음성 신호의 음향 특징, 예를 들면 mel 눈금의 주파수 스펙트럼 엔빌로프 특징이고, 출력은 음성 신호의 적어도 하나의 주파수의 음성 파형 데이터이다. 본 발명의 실시예에서는, 음성 합성 시스템에서의 보코더 모듈을 이용하여 타깃 스피커와 대응되는 음향 특징에 따라 타깃 음성 신호를 생성할 수 있다.

구체적으로, 타깃 스피커와 대응되는 음향 특징을 음성 합성 시스템의 보코더 모듈에 입력하고, 보코더 모듈이 출력한 적어도 하나의 주파수의 음성 파형 데이터를 타깃 음성 신호로 사용할 수 있다.

타깃 스피커와 대응되는 음향 특징에 따라 음성 합성 시스템에서의 보코더 모듈을 이용하여 타깃 음성 신호를 생성함으로써 타깃 음성 신호를 생성하는 비용을 저하시킨다.

도 3을 참조하면, 타깃 스피커와 대응되는 음향 특징(303)을 생성한 후, 음향 특징(303)에 근거하여 타깃 음성 신호(304)를 생성할 수 있다.

본 발명의 실시예의 음성 생성 방법은, 오리지널 스피커의 음성 정보를 획득한 후, 음성 정보에 대해 음성 인식을 진행하고, 음성 정보에 대해 음성 인식을 진행하는 과정에서의 중간 결과를 획득하며, 중간 결과를 텍스트 특징으로 사용한 다음, 타깃 스피커와 대응되는 음향 특징을 얻도록 텍스트 특징과 타깃 스피커의 태그를 트레이닝을 거친 특징 변환 모델에 입력하고, 음향 특징을 음성 합성 시스템에서의 보코더 모듈에 입력하고, 보코더 모듈이 출력한 적어도 하나의 주파수의 음성 파형 데이터를 타깃 음성 신호로 사용하며, 오리지널 스피커의 음성 정보를 대응되는 음색이 타깃 스피커와 일치한 타깃 음성 신호로 변환하여, 타깃 음성 신호를 이용하여 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 나타나는 것을 방지할 수 있다.

상기 분석을 통해 알 수 있는바, 본 발명의 실시예에서 생성한 타깃 음성 신호는 가상 디지털 인간을 구동할 수 있는데, 이하 가상 디지털 인간을 구동시키는 시나리오와 결부하여 본 발명에서 제공하는 음성 생성 방법을 추가로 설명한다.

도 4는 본 발명의 제3 실시예에 따른 음성 생성 방법의 흐름 모식도이다. 도 4에 도시된 바와 같이, 음성 생성 방법은 아래 단계를 포함할 수 있다.

단계401, 스피커를 제1 스피커로부터 오리지널 스피커로 전환하도록 결정한다.

단계402, 제1 스피커를 타깃 스피커로 결정한다.

설명해야 할 것은, 단계402는 단계403 이전에 수행할 할 수도 있고, 단계403 다음에 수행할 수도 있으며, 본 발명은 단계402의 수행 시기를 한정하지 않고, 단계405 이전에 수행하기만 하면 된다.

단계403, 오리지널 스피커의 음성 정보를 획득한다.

단계404, 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행한다.

단계405, 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환시킨다.

단계406, 음향 특징에 근거하여 타깃 음성 신호를 생성한다.

단계407, 타깃 음성 신호를 이용하여 가상 디지털 인간이 입술의 움직임, 표정의 변화 및 신체의 움직임에서의 적어도 하나를 진행하고 소리를 내도록 구동한다.

이해할 수 있는바, 미디어, 고객 서비스 산업에서의 가상 디지털 인간은 작업 과정에서 언어는 자연스럽고 유창해야 하고 사용자가 제기하는 질문에 유연하게 응답하여 언어 표달에서 리얼 고객 서비스와 같아야 한다. 실제 응용 시나리오에서, 사용자가 제기한 간단한 문제에 대하여, 통상적으로 인공지능 고객 서비스가 해답하고 사용자가 제기한 어려운 문제에 대해서는 리얼 고객 서비스가 해답해야 하는데, 당해 과정에서 가상 디지털 인간은 인공지능 고객 서비스의 음성 구동과 리얼 고객 서비스의 음성 구동 사이에서 전환해야 하는 현상이 나타나게 된다. 그러나 가상 디지털 인간은 고품질의 형상을 표현하는 동시에 인공지능 고객 서비스와 리얼 고객 서비스사이에서 원활하게 전환되거나 또는 리얼 고객 서비스의 교대 근무 전에 원활하게 연결되어 가상 디지털 인간의 소리의 음색이 전환 전후에 여전히 일치하도록 유지하여 따뜻한 대화 경험을 제공하고 가상 디지털 인간의 재미와 신선함을 향상시키며 스마트 미디어, 지능형 고객 서비스가 젊은 세대들 사이에서의 영향력을 향상시킨다.

가상 디지털 인간의 음성과 대응되는 스피커를 인공지능 고객 서비스로부터 리얼 고객 서비스로 전환하는 것을 예로 하면, 즉 제1 스피커가 인공지능 고객 서비스이고, 오리저널 스피커가 리얼 고객 서비스일 경우, 본 발명의 실시예에서는, 인공지능 고객 서비스를 타깃 스피커로 결정하여 오리지널 스피커의 음성 정보를 획득한 후 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행하고, 그 다음 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하며, 음향 특징에 근거하여 타깃 음성 신호를 생성하여 리얼 고객 서비스의 음성 정보를 인공지능 고객 서비스의 음색과 일치한 타깃 음성 신호로 변환시킬 수 있으며, 타깃 음성 신호로 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 소리의 음색이 인공지능 고객 서비스의 음색과 일치하도록 유지시켜 가상 디지털 인간이 인공지능 고객 서비스의 음성 구동으로부터 리얼 고객 서비스로 전환될 때, 소리의 음색이 항상 일치하도록 유지시킨다.

예시적인 실시예에서는, 타깃 음성 신호를 이용하여 가상 디지털 인간을 구동할 경우, 타깃 음성 신호를 이용하여 가상 디지털 인간이 입술의 움직임, 표정의 변화 및 신체의 움직임에서의 적어도 하나를 진행하고 소리를 내도록 구동함으로써 가상 디지털 인간의 입술 동작, 표정 및 신체의 움직임이 가상 디지털 인간의 음성과 일치하도록 할 수 있다.

여기서, 단계403-단계406의 구체적인 구현과정 및 원리는 상기 실시예의 설명을 참조할 수 있는 바, 여기서 더 이상 설명하지 않는다.

본 발명의 실시예의 음성 생성 방법은, 스피커를 제1 스피커로부터 오리지널 스피커로 전환하도록 결정한 후, 제1 스피커를 타깃 스피커로 결정할 수 있고, 오리지널 스피커의 음성 정보를 획득한 후, 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행한 다음, 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하며, 음향 특징에 근거하여 타깃 음성 신호를 생성하며, 나아가 타깃 음성 신호를 이용하여 가상 디지털 인간이 입술의 움직임, 표정의 변화 및 신체의 움직임에서의 적어도 하나를 진행하고 소리를 내도록 구동한다. 이로써, 가상 디지털 인간의 음성과 대응되는 스피커를 구동하여 제1 스피커로부터 오리지널 스피커로 전환되도록 할 경우, 오리지널 스피커의 음성 정보를 대응되는 음색과 제1 스피커가 일치한 타깃 음성 신호로 변환시켜 타깃 음성 신호를 이용하여 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 소리의 음색이 제1 스피커의 음성에 의해 구동할 때의 소리의 음색과 일치하도록 한다.

이하 도 5와 결부하여 본 발명이 제공하는 음성 생성 장치를 설명한다.

도 5는 본 발명의 제4 실시예에 따른 음성 생성 장치의 구조 모식도이다.

도 5에 도시된 바와 같이, 본 발명이 제공하는 음성 생성 장치(500)는, 제1 획득 모듈(501), 추출 모듈(502), 변환 모듈(503) 및 생성 모듈(504)을 포함한다.

여기서, 제1 획득 모듈(501)은, 오리지널 스피커의 음성 정보를 획득하고;

추출 모듈(502)은, 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행하며;

변환 모듈(503)은, 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하고;

생성 모듈(504)은, 음향 특징에 근거하여 타깃 음성 신호를 생성한다.

설명해야 할 것은, 본 실시예에서 제공하는 음성 생성 장치는 상기 실시예의 음성 생성 방법을 수행할 수 있다. 여기서, 음성 생성 장치는 전자기기일 수도 있고 전자기기에 구성되어 오리지널 스피커의 음성 정보를 타깃 스피커의 음색과 일치한 타깃 음성 신호로 변환시킬 수 있다.

여기서, 전자기기는 데이터 처리를 진행할 수 있는 임의의 정적 또는 모바일 계산 기기, 예를 들면 노트북, 스마트 폰, 웨어러블 기기 등 모바일 계산 기기, 또는 데스크톱 컴퓨터 등과 같은 정적인 계산 기기, 또는 서버, 또는 기타 유형의 계산 기기 등일 수 있는데, 본 발명은 이에 대해 한정하지 않는다.

설명해야 할 것은, 상술한 음성 생성 방법의 실시예에 대한 설명은 본 발명이 제공하는 음성 생성 장치에도 적용되는데, 여기서 더 이상 설명하지 않는다.

본 발명의 실시예에서 제공하는 음성 생성 장치는, 오리지널 스피커의 음성 정보를 획득한 후, 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행하고, 그 다음 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 하며, 나아가 음향 특징에 근거하여 타깃 음성 신호를 생성함으로써 오리지널 스피커의 음성 정보를 대응되는 음색이 타깃 스피커와 일치한 타깃 음성 신호로 변환하여 타깃 음성 신호를 이용하여 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 나타나는 것을 방지할 수 있다.

이하 도 6과 결부하여 본 발명이 제공하는 음성 생성 장치를 설명한다.

도 6은 본 발명의 제5 실시예에 따른 음성 생성 장치의 구조 모식도이다.

도 6에 도시된 바와 같이, 음성 생성 장치(600)는 구체적으로, 제1 획득 모듈(601), 추출 모듈(602), 변환 모듈(603) 및 생성 모듈(604)을 포함할 수 있다. 여기서, 도 6에서의 제1 획득 모듈(601), 추출 모듈(602), 변환 모듈(603) 및 생성 모듈(604)은 도 5에서의 제1 획득 모듈(501), 추출 모듈(502), 변환 모듈(503) 및 생성 모듈(504)과 동일한 기능과 구조를 가진다.

예시적인 실시예에서는, 변환 모듈(603)은,

타깃 스피커와 대응되는 음향 특징을 얻도록 텍스트 특징과 타깃 스피커의 태그를 트레이닝을 거친 특징 변환 모델에 입력하는 변환 유닛을 포함한다.

예시적인 실시예에서, 도 6에 도시된 바와 같이, 음성 생성 장치(600)는,

트레이닝 데이터를 획득하되, 여기서, 트레이닝 데이터에는 다수의 샘플 스피커의 태그 및 각각의 샘플 스피커와 대응되는 샘플 음성 정보로부터 추출한 샘플 텍스트 특징이 포함되고, 트레이닝 데이터는 샘플 음성 정보의 샘플 음향 특징을 이용하여 태깅하는 제2 획득 모듈(605);

초기 특징 변환 모델을 획득하는 제3 획득 모듈(606);

샘플 스피커와 대응되는 샘플 음성 정보의 예측 음향 특징을 얻도록 샘플 스피커의 태그 및 샘플 스피커와 대응되는 샘플 음성 정보에서 추출한 샘플 텍스트 특징을 초기 특징 변환 모델에 입력하는 처리 모듈(607);

트레이닝을 거친 특징 변환 모델을 얻도록 샘플 스피커와 대응되는 샘플 음성 정보의 예측 음향 특징과 샘플 음성 정보의 샘플 음향 특징 사이의 차이에 근거하여, 초기 특징 변환 모델의 모델 파라미터를 조절하는 조절 모듈(608); 을 더 포함한다.

예시적인 실시예에서는, 변환 모듈(603)은,

예시적인 실시예에서는, 타깃 스피커와 대응되는 태그는 트레이닝 데이터에서의 임의의 샘플 스피커와 대응되는 태그이다.

예시적인 실시예에서는, 추출 모듈(602)은,

음성 정보에 대해 음성 인식을 진행하는 인식 유닛;

음성 정보에 대해 음성 인식을 진행하는 과정에서의 중간 결과를 획득하는 획득 유닛;

중간 결과를 텍스트 특징으로 사용하는 제1 처리 유닛; 을 포함한다.

예시적인 실시예에서는, 생성 모듈(604)은,

음향 특징을 음성 합성 시스템에서의 보코더 모듈에 입력하는 제2 처리 유닛;

보코더 모듈이 출력한 적어도 하나의 주파수의 음성 파형 데이터를 타깃 음성 신호로 사용하는 제3 처리 유닛; 을 포함한다.

예시적인 실시예에서, 음성 생성 장치(600)는,

스피커를 제1 스피커로부터 오리지널 스피커로 전환하도록 결정하는 제1 결정 모듈(609);

제1 스피커를 타깃 스피커로 결정하는 제2 결정 모듈(610)을 더 포함한다.

예시적인 실시예에서는, 음성 생성 장치(600)는,

타깃 음성 신호를 이용하여 가상 디지털 인간이 입술의 움직임, 표정의 변화 및 신체의 움직임에서의 적어도 하나를 진행하고 소리를 내도록 구동하는 구동 모듈(611)을 더 포함한다.

본 발명의 실시예에 따르면, 본 발명은 전자기기, 판독 가능 저장매체 및 컴퓨터 프로그램을 더 제공한다.

도 7은 본 발명의 실시예에 따른 예시적인 전자기기(700)의 모식적인 블록도를 도시한다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 벤치, 개인용 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자기기는 또한 개인용 정보 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 도시된 부재, 이들의 연결과 관계 및 이들의 기능은 단지 예시에 불과하며, 본 명세서에 기술되거나 및/또는 청구된 본 발명의 구현을 한정하도록 의도되지 않는다.

도 7에 도시된 바와 같이, 기기(700)는 계산 유닛(701)을 포함할 수 있는데 이는 읽기 전용 메모리(ROM)(702)에 저장된 컴퓨터 프로그램 또는 저장 유닛(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로딩된 컴퓨터 프로그램에 근거하여 여러 가지 적당한 동작과 처리를 수행할 수 있다. RAM(703)에는 기기(700)의 동작에 필요한 여러 가지 프로그램과 데이터가 더 저장될 수 있다. 계산 유닛(701), ROM (702) 및 RAM (703)은 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.

기기(700)에서의 다수의 부품은 키 보드, 마우스 등과 같은 입력 유닛(706); 여러 가지 유형의 디스플레이, 스피커 등과 같은 출력 유닛(707); 자기 디스크, 시디 롬 등과 같은 저장 유닛(708); 및 네트워크 카드, 모뎀, 무선 통신 트랜시버와 같은 통신 유닛(709)을 포함하는 I/O인터페이스(705)에 연결된다. 통신 유닛(709)은 기기(700)가 인터넷과 같은 컴퓨터 네트워크 및/또는 여러 가지 전신 네트워크를 통해 기타 기기와 정보/데이터를 교환하도록 허용한다.

계산 유닛(701)은 처리 및 컴퓨팅 능력을 가지는 여러 가지 범용 및/또는 전용 처리 어셈블리일 수 있다. 계산 유닛(701)의 일부 예시는 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 여러 가지 전용 인공 지능(AI) 컴퓨팅 칩, 여러 가지 기계 학습 모델 알고리즘을 운행하는 계산 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적당한 프로세서, 제어기, 마이크로 제어기 등을 포함하나 이에 한정되지 않는다. 계산 유닛(701)은 상기에서 설명한 각 방법과 처리, 예를 들어 음성 생성 방법을 수행한다. 예를 들어, 일부 실시예에서, 음성 방법은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 이는 저장 유닛(708)과 같은 기계 판독 가능 매체에 유형적으로 포함될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및/또는 통신 유닛(709)을 거쳐 기기(700)에 로딩 및/또는 장착될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로딩되어 계산 유닛(701)에 의해 실행될 경우, 상기 내용에서 설명한 음성 방법에서의 하나 또는 다수의 단계를 수행할 수 있다. 대안적으로, 기타 실시예에서, 계산 유닛(701)은 기타 임의의 적당한 방식(예를 들어, 펌웨어)에 의해 음성 방법을 수행하도록 구성될 수 있다.

본 명세서에서 설명한 시스템과 기술적인 내용의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적 회로 시스템, 필드 프로그램 가능 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩 시스템(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 여러 가지 실시형태는, 하나 또는 다수의 컴퓨터 프로그램에서 실시되되, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서의 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있고, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서로서, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터와 명령을 수신할 수 있고 데이터와 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송하는 방식을 포함할 수 있다.

본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 다수의 프로그래밍 언어의 임의의 조합을 이용하여 프로그래밍할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공되어 프로그램 코드가 프로세서 또는 제어기에 의해 실행될 때 흐름도 및/또는 블록도에서 규정한 기능/동작이 실시되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행될 수도 있고 일부가 기계에서 실행될 수도 있으며, 독립적인 소프트웨어 패키지로서 일부가 기계에서 실행되는 동시에 일부가 원격 기계에서 실행되거나 또는 전부가 원격 기계 또는 서버에서 실행될 수 있다.

본 발명의 앞뒤 문장에서, 기계 판독 가능 매체는 유형적인 매체일 수 있는 바, 이는 명령 실행 시스템, 장치 또는 기기에 제공되어 사용하거나 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용하는 프로그램을 포함하거나 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기 또는 상기 내용물의 임의의 적합한 조합일 수 있다. 기계 판독 가능 저장매체의 더 구체적인 예는 하나 또는 다수의 라인의 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기 또는 상기 내용물의 임의의 적합한 조합을 포함한다.

사용자와의 인터랙티브를 제공하기 위해, 여기에 설명된 시스템 및 기술을 컴퓨터에서 구현할 수 있는데, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터)와 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하고, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 종류의 장치를 사용하여 사용자와의 인터랙티브를 제공할 수도 있는 바, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력 포함)로 사용자에 의해 입력된 정보를 수신할 수 있다.

본 명세서에 설명된 시스템 및 기술은 백 엔드 구성 요소(예를 들어, 데이터 서버)를 포함하는 컴퓨팅 시스템 또는 미들웨어 구성 요소(예를 들어, 애플리케이션 서버)를 포함하는 컴퓨팅 시스템 또는 프론트 엔드 구성 요소(예를 들어, 예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 사용자 컴퓨터일 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 실시형태와 인터랙티브 할 수 있음)를 포함하는 컴퓨팅 시스템 또는 이러한 백 엔드 구성 요소, 미들웨어 구성 요소 또는 프론트 엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에 의해 구현될 수 있다. 시스템의 구성 요소는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷 및 블록체인 네트워크가 포함될 수 있다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터랙티브한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 발생된다. 서버는 클라우드 서버일 수 있고 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 바, 이는 클라우드 컴퓨팅 서비스 시스템에서의 하나의 호스트 제품으로서 전통적인 물리 호스트와 VPS서비스(Virtual Private Server, 또는 약칭 "VPS")에서 관리 난이도가 크고 서비스 확장성이 약한 단점을 해결한다. 서버는 분산 시스템의 서버 또는 블록체인과 결합된 서버일 수도 있다.

본 발명은 컴퓨터 기술분야에 관한 것으로, 특히 딥 러닝, 음성 기술 등 인공지능 기술분야에 관한 것이다.

설명해야 할 것은, 인공지능은 컴퓨터가 사람의 일부 사고 과정과 지적인 행동(예를 들면 학습, 추론, 생각, 계획 등)을 시뮬레이션하도록 하는 학과로서, 하드웨어 차원의 기술이 있을 뿐만 아니라 소프트웨어 차원의 기술도 있다. 인공지능 하드웨어 기술은 일반적으로 센서, 전용 인공지능 칩, 클라우드 계산, 분포형 저장, 빅 데이터 처리 등 기술을 포함하고; 인공지능 소프트웨어 기술은 주요하게 컴퓨터 비전 기술, 음성 인식 기술, 자연 언어 처리 기술 및 기계 학습, 딥 러닝, 빅 데이터 처리 기술, 지식 그래프 기술 등과 같은 몇 가지 방향을 포함한다.

본 발명의 실시예의 기술적 해결수단에 근거하면, 오리지널 스피커의 음성 정보를 획득한 후, 음성 정보와 대응되는 텍스트 특징을 얻도록 음성 정보에 대해 텍스트 특징 추출을 진행하고, 그 다음 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 하며, 나아가 음향 특징에 근거하여 타깃 음성 신호를 생성함으로써 오리지널 스피커의 음성 정보를 대응되는 음색이 타깃 스피커와 일치한 타깃 음성 신호로 변환하여 타깃 음성 신호를 이용하여 가상 디지털 인간을 구동할 경우, 가상 디지털 인간의 형상과 음성이 일치하지 않은 상황이 나타나는 것을 방지할 수 있다.

이해해야 할 것은, 이상에서 설명한 여러 가지 형태의 과정을 다시 정렬시키고 증가 또는 삭제하는 단계를 사용할 수 있다. 예를 들면, 본 발명에서 기재한 각 단계는 동시에 수행할 수도 있고 순차적으로 수행할 수도 있으며 상이한 순서로 수행할 수도 있는 바, 본 발명에서 개시한 기술적 해결수단에서 기대하는 결과를 실현할 수만 있다면 본 내용은 이에 대해 한정하지 않는다.

상기 구체적인 실시형태는 본 발명의 보호범위를 한정하지 않는다. 본 기술분야에서 통상의 지식을 가진 자들은 설계 요구와 기타 요소에 근거하여 여러 가지 수정, 조합, 하위 조합과 대체를 진행할 수 있다는 것을 이해할 수 있다. 본 발명의 정신과 원칙 내에서 진행한 그 어떤 수정, 균등한 대체와 개선은 모두 본 발명의 보호범위 내에 포함된다.

Claims

오리지널 스피커의 음성 정보를 획득하는 단계;
상기 음성 정보와 대응되는 텍스트 특징을 얻도록 상기 음성 정보에 대해 텍스트 특징 추출을 진행하는 단계;
상기 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하는 단계;
상기 음향 특징에 근거하여 타깃 음성 신호를 생성하는 단계; 를 포함하는,
것을 특징으로 하는 음성 생성 방법.
제1항에 있어서,
상기 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하는 단계는,
상기 타깃 스피커와 대응되는 음향 특징을 얻도록 상기 텍스트 특징과 상기 타깃 스피커의 태그를 트레이닝을 거친 특징 변환 모델에 입력하는 단계를 포함하는,
것을 특징으로 하는 음성 생성 방법.
제2항에 있어서,
상기 텍스트 특징과 상기 타깃 스피커의 태그를 트레이닝을 거친 특징 변환 모델에 입력하는 단계 이전에,
트레이닝 데이터를 획득하는 단계 - 상기 트레이닝 데이터에는 다수의 샘플 스피커의 태그 및 각각의 상기 샘플 스피커와 대응되는 샘플 음성 정보로부터 추출한 샘플 텍스트 특징이 포함되고, 상기 트레이닝 데이터는 상기 샘플 음성 정보의 샘플 음향 특징을 이용하여 태깅함 - ;
초기 특징 변환 모델을 획득하는 단계;
상기 샘플 스피커와 대응되는 상기 샘플 음성 정보의 예측 음향 특징을 얻도록 상기 샘플 스피커의 태그 및 상기 샘플 스피커와 대응되는 샘플 음성 정보에서 추출한 상기 샘플 텍스트 특징을 상기 초기 특징 변환 모델에 입력하는 단계;
트레이닝을 거친 상기 특징 변환 모델을 얻도록 상기 샘플 스피커와 대응되는 상기 샘플 음성 정보의 예측 음향 특징과 상기 샘플 음성 정보의 샘플 음향 특징 사이의 차이에 근거하여 상기 초기 특징 변환 모델의 모델 파라미터를 조절하는 단계; 를 더 포함하는,
것을 특징으로 하는 음성 생성 방법.
제3항에 있어서,
상기 타깃 스피커와 대응되는 태그는 상기 트레이닝 데이터에서의 임의의 샘플 스피커와 대응되는 태그인,
것을 특징으로 하는 음성 생성 방법.
제1항에 있어서,
상기 음성 정보와 대응되는 텍스트 특징을 얻도록 상기 음성 정보에 대해 텍스트 특징 추출을 진행하는 단계는,
상기 음성 정보에 대해 음성 인식을 진행하는 단계;
상기 음성 정보에 대해 음성 인식을 진행하는 과정에서의 중간 결과를 획득하는 단계;
상기 중간 결과를 상기 텍스트 특징으로 사용하는 단계; 를 포함하는,
것을 특징으로 하는 음성 생성 방법.
제1항에 있어서,
상기 음향 특징에 근거하여 타깃 음성 신호를 생성하는 단계는,
상기 음향 특징을 음성 합성 시스템에서의 보코더 모듈에 입력하는 단계;
상기 보코더 모듈이 출력한 적어도 하나의 주파수의 음성 파형 데이터를 상기 타깃 음성 신호로 사용하는 단계; 를 포함하는,
것을 특징으로 하는 음성 생성 방법.
제1항에 있어서,
오리지널 스피커의 음성 정보를 획득하는 단계 이전에,
스피커를 제1 스피커로부터 상기 오리지널 스피커로 전환하도록 결정하는 단계;
상기 제1 스피커를 상기 타깃 스피커로 결정하는 단계; 를 더 포함하는,
것을 특징으로 하는 음성 생성 방법.
제7항에 있어서,
상기 음향 특징에 근거하여 타깃 음성 신호를 생성하는 단계 다음에,
상기 타깃 음성 신호를 이용하여 가상 디지털 인간이 입술의 움직임, 표정의 변화 및 신체의 움직임에서의 적어도 하나를 진행하고 소리를 내도록 구동하는 단계를 더 포함하는,
것을 특징으로 하는 음성 생성 방법.
오리지널 스피커의 음성 정보를 획득하는 제1 획득 모듈;
상기 음성 정보와 대응되는 텍스트 특징을 얻도록 상기 음성 정보에 대해 텍스트 특징 추출을 진행하는 추출 모듈;
상기 텍스트 특징을 타깃 스피커와 대응되는 음향 특징으로 변환하는 변환 모듈;
상기 음향 특징에 근거하여 타깃 음성 신호를 생성하는 생성 모듈; 을 포함하는,
것을 특징으로 하는 음성 생성 장치.
제9항에 있어서,
상기 변환 모듈은,
상기 타깃 스피커와 대응되는 음향 특징을 얻도록 상기 텍스트 특징과 상기 타깃 스피커의 태그를 트레이닝을 거친 특징 변환 모델에 입력하는 변환 유닛을 포함하는,
것을 특징으로 하는 음성 생성 장치.
제10항에 있어서,
트레이닝 데이터를 획득하는 제2 획득 모듈 - 상기 트레이닝 데이터에는 다수의 샘플 스피커의 태그 및 각각의 상기 샘플 스피커와 대응되는 샘플 음성 정보로부터 추출한 샘플 텍스트 특징이 포함되고, 상기 트레이닝 데이터는 상기 샘플 음성 정보의 샘플 음향 특징을 이용하여 태깅함 - ;
초기 특징 변환 모델을 획득하는 제3 획득 모듈;
상기 샘플 스피커와 대응되는 상기 샘플 음성 정보의 예측 음향 특징을 얻도록 상기 샘플 스피커의 태그 및 상기 샘플 스피커와 대응되는 샘플 음성 정보에서 추출한 상기 샘플 텍스트 특징을 상기 초기 특징 변환 모델에 입력하는 처리 모듈;
트레이닝을 거친 상기 특징 변환 모델을 얻도록 상기 샘플 스피커와 대응되는 상기 샘플 음성 정보의 예측 음향 특징과 상기 샘플 음성 정보의 샘플 음향 특징 사이의 차이에 근거하여 상기 초기 특징 변환 모델의 모델 파라미터를 조절하는 조절 모듈; 을 더 포함하는,
것을 특징으로 하는 음성 생성 장치.
제11항에 있어서,
상기 타깃 스피커와 대응되는 태그는 상기 트레이닝 데이터에서의 임의의 샘플 스피커와 대응되는 태그인,
것을 특징으로 하는 음성 생성 장치.
제9항 내지 제12항 중 어느 한 항에 있어서,
상기 추출 모듈은,
상기 음성 정보에 대해 음성 인식을 진행하는 인식 유닛;
상기 음성 정보에 대해 음성 인식을 진행하는 과정에서의 중간 결과를 획득하는 획득 유닛;
상기 중간 결과를 상기 텍스트 특징으로 사용하는 제1 처리 유닛; 을 포함하는,
것을 특징으로 하는 음성 생성 장치.
제9항 내지 제12항 중 어느 한 항에 있어서,
상기 생성 모듈은,
상기 음향 특징을 음성 합성 시스템에서의 보코더 모듈에 입력하는 제2 처리 유닛;
상기 보코더 모듈이 출력한 적어도 하나의 주파수의 음성 파형 데이터를 상기 타깃 음성 신호로 사용하는 제3 처리 유닛; 을 포함하는,
것을 특징으로 하는 음성 생성 장치.
제9항 내지 제12항 중 어느 한 항에 있어서,
스피커를 제1 스피커로부터 상기 오리지널 스피커로 전환하도록 결정하는 제1 결정 모듈;
상기 제1 스피커를 상기 타깃 스피커로 결정하는 제2 결정 모듈; 을 더 포함하는,
것을 특징으로 하는 음성 생성 장치.
제15항에 있어서,
상기 타깃 음성 신호를 이용하여 가상 디지털 인간이 입술의 움직임, 표정의 변화 및 신체의 움직임에서의 적어도 하나를 진행하고 소리를 내도록 구동하는 구동 모듈을 더 포함하는,
것을 특징으로 하는 음성 생성 장치.
전자기기에 있어서
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결하는 메모리; 를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제8항 중 어느 한 항에 따른 방법을 수행하는,
것을 특징으로 하는 전자기기.
컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
상기 컴퓨터 프로그램 중의 명령이 실행될 경우, 제1항 내지 제8항 중 어느 한 항에 따른 음성 생성 방법이 구현되는,
것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램 중의 명력이 실행될 경우, 제1항 내지 제8항 중 어느 한 항에 따른 음성 생성 방법이 구현되는,
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.