KR20210116367A

KR20210116367A - 음성 인식 방법, 장치, 전자기기 및 저장매체

Info

Publication number: KR20210116367A
Application number: KR1020210116873A
Authority: KR
Inventors: 인로우 차오; 리아오 창; 쳉시앙 지앙
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-11-04
Filing date: 2021-09-02
Publication date: 2021-09-27
Also published as: CN112382275B; JP7268113B2; CN112382275A; JP2022020056A; US20220028370A1

Abstract

본 출원은 음성 인식 방법, 장치, 전자기기 및 저장매체를 개시하는 바, 이는 음성 기술분야 및 딥 러닝 분야에 관한 것이다. 구체적인 구현방안은, 인식 대기 음성을 획득하고; 인식 대기 음성의 음향 특징과 언어 특징을 획득하며; 인식 대기 음성을 발음 차이 통계기에 입력하여 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성하고; 및 발음 차이 단어 쌍, 음향 특징 및 언어 특징에 따라 인식 대기 음성의 텍스트 정보를 생성하는 것이다. 본 출원은 발음 차이 단어 쌍을 발굴하고 상기 발음 차이 단어 쌍을 음향 특징 및 언어 특징과 함께 디코더에 입력하여 인식하는 것을 통해 특정 시나리오에서의 인식 대기 음성의 텍스트 정보를 획득하는데, 이렇게 되면 음성 인식 시스템으로 하여금 소스로부터 특정 시나리오와 중국어 간체 사이의 매핑 관계를 학습하게 되어 별도로 번역기를 트레이닝하여 효과를 향상시킬 필요가 없으므로 인력과 물력을 절약하고 오리지널 시스템의 기초상에 확장 트레이닝을 수행하여 중국어 음성 인식 시스템의 개발 비용을 저하시킬 수 있다.

Description

음성 인식 방법, 장치, 전자기기 및 저장매체{ METHOD AND APPARATUS FOR VOICE RECOGNITION, ELECTRONIC DEVICE AND STORAGE MEDIUM}

본 출원은 음성 기술분야 및 딥 러닝 분야에 관한 것으로, 특히 음성 인식 방법, 장치, 전자기기 및 저장매체에 관한 것이다.

관련 기술에서, 특정 시나리오에 대한 중국어 인식 시스템의 구현은 통상적으로 다음과 같은 단계로 구획된다. 우선, 관련 오디오 및 오디오 라벨을 포함하는 데이터 라벨 및 관련 시나리오 텍스트를 수행한다. 다음 음향 모델 트레이닝 및 언어 모델 트레이닝을 포함한 모델 트레이닝을 수행한다. 다음 그림을 구성하고 Look-ahead (디코더가 경로를 검색할 때 언어 모델 점수를 계산하고 경로 클리핑을 수행하는 기술을 말한다)를 구성하며 음향 모델, 언어 모델 및 디코더를 결합하여 최종적인 인식을 형성한다. 이 외에, 타겟 시나리오의 결과 리소스의 한계로 인해 좋은 결과를 얻기 위해서는 흔히 번역기를 훈련시켜 특정 시나리오의 인식 결과를 중국어 간체로 번역할 수 있도록 해야 한다.

그러나, 현재 특정 시나리오에 대한 중국어 음성 인식 시스템을 트레이닝 하는 기술적 해결수단은 통상적으로 아래와 같은 단점을 구비한다. 1) 프로젝트 주기가 긴 바, 상기 시스템을 구현하는 것은 상기 방식에 따라 일반적으로 처음부터 시작해야 하기 때문에 이 기간에 모델을 선택하고 디버깅 해야 하는데, 이는 마찬가지로 대량의 인력과 물력을 소모하게 되며; 2) 흔히 타겟 시나리오를 별도로 중국어 간체의 번역 시스템에 트레이닝해야 하는데, 이는 마찬가지로 대량의 인력과 물력을 소모하게 되고; 3) 타겟 시나리오 인식 시스템과 번역 시스템이 결합되므로 강한 의존성 관계가 아니기에 최종적인 효과가 양자의 공동적인 영향을 받게 되어 시스템 통합의 난이도가 증가하게 된다.

본 출원은 음성 인식 방법, 장치, 전자기기 및 저장매체를 제공한다.

본 출원의 제1 양태에 따르면,

인식 대기 음성을 획득하는 단계;

상기 인식 대기 음성의 음향 특징과 언어 특징을 획득하는 단계;

상기 인식 대기 음성을 발음 차이 통계기에 입력하여 상기 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성하는 단계; 및

상기 발음 차이 단어 쌍, 상기 음향 특징 및 상기 언어 특징에 따라 상기 인식 대기 음성의 텍스트 정보를 생성하는 단계를 포함하는 음성 인식 방법을 제공한다.

본 출원의 제2 양태에 따르면,

인식 대기 음성을 획득하는 제1 획득 모듈;

상기 인식 대기 음성의 음향 특징과 언어 특징을 획득하는 제2 획득 모듈;

상기 인식 대기 음성을 발음 차이 통계기에 입력하여 상기 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성하는 제1 생성 모듈; 및

상기 발음 차이 단어 쌍, 상기 음향 특징 및 상기 언어 특징에 따라 상기 인식 대기 음성의 텍스트 정보를 생성하는 제2 생성 모듈을 포함하는 음성 인식 장치를 제공한다.

본 출원의 제3 양태에 따르면, 전자기기를 제공하는데,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 가능하게 연결하는 메모리를 포함하는 전자기기에 있어서,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 본 출원의 제1 양태의 실시예에 따른 음성 인식 방법을 수행할 수 있다.

본 출원의 제4 양태에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체를 제공하는데, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 본 출원의 제1 양태의 실시예에 따른 음성 인식 방법을 수행하도록 한다.

본 출원의 제5 양태에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1 양태의 실시예에 따른 음성 인식 방법이 실행된다.

본 출원의 기술적 해결수단에 따르면, 발음 차이 단어 쌍을 발굴하고 상기 발음 차이 단어 쌍을 음향 특징 및 언어 특징과 함께 디코더에 입력하여 인식함으로써 특정 시나리오에서의 인식 대기 음성의 텍스트 정보를 획득하는데, 이렇게 되면 음성 인식 시스템으로 하여금 소스로부터 특정 시나리오와 중국어 간체 사이의 매핑 관계를 학습하게 되어 하나의 번역기를 별도로 트레이닝 하여 효과를 향상시킬 필요가 없으므로 인력과 물력을 절약하고 다시 모델 트레이닝을 수행하지 않아도 되며 오리지널 시스템의 기초상에 확장 트레이닝을 수행하여 중국어 음성 인식 시스템의 개발 비용을 저하시키고 음성 인식 시스템의 트레이닝 주기를 단축시킨다.

본 명세서에서 설명한 내용은 본 출원의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니고 본 출원의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 출원의 기타 특징은 아래의 명세서를 통해 더 용이하게 이해할 수 있을 것이다.

첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않는다. 여기서,
도 1은 본 출원의 한 실시예에 따른 음성 인식 방법의 흐름도이고;
도 2는 본 출원의 다른 실시예에 따른 음성 인식 방법의 흐름도이며;
도 3은 본 출원의 또 다른 실시예에 따른 음성 인식 방법의 흐름도이고;
도 4는 전통적인 타겟 시나리오의 중국어 인식 시스템의 예시도이며;
도 5는 본 출원의 실시예에서 제기한 발음 차이에 기반한 타겟 시나리오의 중국어 인식 시스템의 예시도이다.
도 6은 본 출원의 한 실시예에 따른 음성 인식 장치의 구조 블록도이다.
도 7은 본 출원의 다른 실시예에 따른 음성 인식 장치의 구조 블록도이다.
도 8은 본 출원의 또 다른 실시예에 따른 음성 인식 장치의 구조 블록도이다.
도 9는 본 출원의 실시예에 따른 음성 인식 방법을 구현하기 위한 전자기기의 블록도이다.

이하, 첨부 도면을 결부하여 본 출원의 예시적인 실시예들을 설명하고자 하며, 이해를 돕기 위해 본 출원의 실시예들의 다양한 세부 사항들이 포함되는데, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 출원의 기술 분야의 통상의 지식을 가진 자라면 본 출원의 범위 및 사상을 벗어나지 않으면서 본 명세서에 설명된 실시예들에 대해 다양한 변경 및 수정이 이루어질 수 있음을 알아야 한다. 또한, 명확성 및 간결성을 위해, 공지된 기능 및 구조에 대한 설명은 아래 설명에서 생략된다.

음성 인식 시스템의 출현은 사용자의 두 손을 해방하여 사용자에게 큰 편리를 가져오게 되어 미래 기술의 큰 추세가 되었다. 일반적으로 표준어 음성 인식은 일정한 정도에서 사용자의 요구를 양호하게 만족시킬 수 있고 사용자에게 양호한 사용 체험을 제공할 수 있다. 그러나 일부 특정 시나리오에 대하여, 예를 들어 광둥어 검색 음성 시스템의 효과는 흔히 표준어 검색의 음성 인식 효과보다 좋지 않다. 이를 초래하는 주요한 원인은 광둥어 검색 트레이닝 리소스가 비교적 적어 수동 라벨을 수행하는 비용이 상대적으로 비교적 높다. 광둥어 검색을 트레이닝 하고자 하면 더 많은 리소스를 증가할 수밖에 없다. 이 외에, 일반적으로 광둥어가 검색한 최종적인 결과 리소스는 흔히 비교적 적고, 중국어 간체가 검색한 최종적인 중국어 리소스는 흔히 아주 풍부하여 타겟 시나리오의 인식 시스템만 트레이닝 하게 되어 최종적인 효과가 예상에 도달할 수 없어 사용자 수요를 만족시킬 수 없으므로 사람들은 이와 관련되게 매칭되는 광둥어-표준어 텍스트 번역기를 트레이닝 하게 되는데 이는 작업 부담을 더 증가하게 된다.

특정 시나리오에 대한 중국어 인식 시스템을 구현하고자 할 경우, 전통적인 방식으로는 일반적으로 다음과 같은 단계로 구획된다. 우선, 관련 오디오 및 오디오 라벨을 포함하는 데이터 라벨 및 관련 시나리오 텍스트를 수행한다. 다음 음향 모델 트레이닝 및 언어 모델 트레이닝을 포함한 모델 트레이닝을 수행한다. 다음 그림을 구성하고 Look-ahead (디코더가 경로를 검색할 때 언어 모델 점수를 계산하고 경로 클리핑을 수행하는 기술을 말한다)를 구성하며 음향 모델, 언어 모델 및 디코더를 결합하여 최종적인 인식을 형성한다. 이 외에, 타겟 시나리오의 결과 리소스의 한계로 인해 좋은 결과를 얻기 위해서는 흔히 번역기를 훈련시켜 특정 시나리오의 인식 결과를 중국어 간체로 번역할 수 있도록 해야 한다.

상기 기술적 과제를 해결하기 위하여, 본 출원은 음성 인식 방법, 장치, 전자기기 및 저장매체를 제공하는데, 이는 기존의 시스템 리소스를 이용하여 인력과 물력을 절약하고 신속한 반복을 구현하는 동시에 비교적 양호한 효과를 얻을 수 있다. 구체적으로, 아래에서는 도면을 참조하여 본 출원의 실시예에 따른 음성 인식 방법, 장치, 전자기기 및 저장매체를 설명한다.

도 1은 본 출원의 한 실시예에 따른 음성 인식 방법의 흐름도이다. 설명해야 할 것은, 본 출원의 실시예에 따른 음성 인식 방법은 본 출원의 실시예에 따른 음성 인식 장치에 응용될 수 있고, 상기 음성 인식 장치는 전자기기에 배치될 수 있다.

도 1에 도시된 바와 같이, 상기 음성 인식 방법은 하기와 같은 단계를 포함할 수 있다.

단계101, 인식 대기 음성을 획득한다.

예를 들어 설명하면, 본 출원의 실시예에 따른 음성 인식 방법이 특정 타겟 시나리오의 중국어 인식 시스템에 적용된다고 가정한다. 예를 들어, 광둥어로부터 중국어 간체로의 인식을 예로 하면, 본 출원은 광둥어 음성을 인식하여 대응되는 중국어 간체 텍스트를 얻을 수 있다. 한가지 예시로서, 상기 인식 대기 음성의 언어 유형은 광둥어 일 수 있다.

한가지 예시로서, 본 출원의 실시예에 따른 음성 인식 방법은 검색 엔진에 응용될 수 있는 바, 예를 들어, 검색 엔진은 광둥어 음성 인식을 지지할 수 있고, 사용자가 검색 엔진을 통해 광둥어 음성을 입력한 것이 모니터링 될 경우, 사용자가 입력한 음성을 인식 대기 음성으로 결정한 다음 상기 인식 대기 음성을 인식하여 대응되는 중국어 간체 텍스트를 획득함으로써 검색 엔진이 상기 중국어 간체 텍스트를 이용하여 검색하여 광둥어 음성 검색의 기능을 구현할 수 있도록 할 수 있다.

단계102, 인식 대기 음성의 음향 특징과 언어 특징을 획득한다.

본 출원의 실시예에서, 인식 대기 음성을 획득할 경우, 상기 인식 대기 음성을 음향 모델에 입력하여 상기 인식 대기 음성의 음향 특징을 획득하고 상기 인식 대기 음성을 언어 모델에 입력하여 상기 인식 대기 음성의 언어 특징을 획득할 수 있다.

본 출원의 실시예에서, 음향 모델은 GMM(Gaussian Mixed Model, 가우스 혼합 모델)-HMM(Hidden Markov Model, 히든 마르코프 모델) 또는 DNN(Deep Neural Networks, 딥 신경망)-HMM으로 트레이닝 하여 획득한 모델을 사용할 수 있고; 언어 모델은 N-Gram(통계에 기반한 언어 모델) 또는 NNLM(Nerual Network Language Model, 신경망 언어 모델)으로 트레이닝 하여 획득한 모델을 사용할 수 있다.

단계103, 인식 대기 음성을 발음 차이 통계기에 입력하여 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성한다.

본 단계에서, 인식 대기 음성을 획득할 경우, 상기 인식 대기 음성을 미리 트레이닝한 발음 차이 통계기에 입력하여 상기 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 획득할 수 있다. 예를 들어, 하나의 오디오에 대해 인식된 텍스트가 "뭐(

)"이고 이의 발음은 "몌예(mie ye)"이나 라벨 텍스트는 "뭐(

)"이고 이의 발음은 "썬머(shen me)"인데 이렇게 되면 『shen me』와 『mie ye』는 바로 하나의 발음 차이 단어 쌍이다.

설명해야 할 것은, 본 출원의 실시예에서, 상기 발음 차이 통계기는 미리 트레이닝 하여 얻을 수 있다. 상기 발음 차이 통계기는 주요하게 라벨 텍스트와 인식 텍스트 사이의 단어 쌍 사이의 발음 차이를 통계하는 것으로서, 실제 상황에 따라 임계값을 설치하여 발음 차이 단어 쌍을 선별할 수 있다. 대량의 관련 타겟 시나리오에서의 타겟 샘플 텍스트를 획득한 후, 오리지널 음성 인식 시스템을 사용하여 예측을 수행하고, 인식 결과와 타겟 샘플 텍스트 사이의 차이성을 통해 관련 발음 차이 단어 쌍을 찾으며, 최종적으로 타겟 샘플 텍스트의 확장 발음을 발굴한다. 상기 발음 차이 통계기의 트레이닝 과정은 사후 실시예의 설명을 참조할 수 있다.

단계104, 발음 차이 단어 쌍, 음향 특징 및 언어 특징에 따라 인식 대기 음성의 텍스트 정보를 생성한다.

본 출원의 일부 실시예에서, 발음 차이 단어 쌍, 음향 특징 및 언어 특징을 디코더에 입력하여 상기 인식 대기 음성의 텍스트 정보를 생성할 수 있다.

설명해야 할 것은, 본 출원의 실시예에서, 디코더는 WFST(Weighted Finaite-State Transducer, 가중 유한 상태 변환기)의 기초상에 구축될 수 있다. 바꾸어 말하면, WFST 모델을 이용하여 디코더를 트레이닝 할 수 있다.

더 설명해야 할 것은, 본 출원의 실시예에 따른 음성 인식 방법은 중국어음성 인식 시스템에 응용되고, 상기 중국어 음성 인식 시스템은 발음 차이 통계기, 음향 모델, 언어 모델 및 디코더를 포함한다. 상기 중국어 음성 인식 시스템을 이용하여 광둥어 음성을 인식함으로써 상기 광둥어 음성에 대응되는 중국어 간체 텍스트를 획득하여 광둥어 음성으로부터 중국어 텍스트에 대한 인식 기능을 구현할 수 있다.

본 출원의 실시예의 음성 인식 방법에 따르면, 인식 대기 음성을 획득하고, 인식 대기 음성의 음향 특징과 언어 특징을 획득하며; 인식 대기 음성을 발음 차이 통계기에 입력하여 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성한 다음, 발음 차이 단어 쌍, 음향 특징 및 언어 특징에 따라 인식 대기 음성의 텍스트 정보를 생성할 수 있다. 이로써 알 수 있다 시피, 전통적인 음성 인식 시스템은 흔히 하나의 번역기를 트레이닝 하여 특정 시나리오 인식 결과를 중국어 간체로 번역함으로써 인식 효과를 향상시키고, 본 출원은 발음 차이 단어 쌍을 발굴하고 상기 발음 차이 단어 쌍을 음향 특징 및 언어 특징과 함께 디코더에 입력하여 인식함으로써 특정 시나리오에서의 인식 대기 음성의 텍스트 정보를 획득하는데, 이렇게 되면 음성 인식 시스템으로 하여금 소스로부터 특정 시나리오와 중국어 간체 사이의 매핑 관계를 학습하게 되어 하나의 번역기를 별도로 트레이닝 하여 효과를 향상시킬 필요가 없으므로 인력과 물력을 절약하고 다시 모델 트레이닝을 수행하지 않아도 되며 오리지널 시스템의 기초상에 확장 트레이닝을 수행하여 중국어 음성 인식 시스템의 개발 비용을 저하시키고 음성 인식 시스템의 트레이닝 주기를 단축시킨다.

설명해야 할 것은, 상기 발음 차이 통계기는 미리 트레이닝 하여 얻을 수 있다. 본 출원의 일부 실시예에서, 도 2에 도시된 바와 같이, 상기 발음 차이 통계기는 하기와 같은 단계를 통해 트레이닝 하여 얻을 수 있다.

단계201, 타겟 시나리오에서의 타겟 샘플 텍스트를 획득한다.

본 출원의 일부 실시예에서, 샘플 텍스트를 획득하고, 샘플 텍스트를 타겟 시나리오 텍스트 분류기에 입력하여 샘플 텍스트가 타겟 시나리오에 속하는지 여부를 판정하며, 타겟 시나리오에 속할 경우 샘플 텍스트를 타겟 샘플 텍스트로 하고; 타겟 시나리오에 속하지 않을 경우 샘플 텍스트를 폐기할 수 있다.

한가지 예시로서, 웹 크롤러 기술을 이용하여 인터넷의 여러 가지 사이트로부터 샘플 텍스트를 획득할 수 있다. 예를 들어, 웹 크롤러 기술을 이용하여 사이트로부터 샘플 텍스트를 획득하고 상기 샘플 텍스트를 미리 트레이닝한 타겟 시나리오 텍스트 분류기에 입력하며, 타겟 시나리오 텍스트 분류기의 분류 결과에 따라 상기 샘플 텍스트가 타겟 시나리오에 속하는지 여부를 판정할 수 있는데, 만약 타겟 시나리오에 속할 경우 상기 샘플 텍스트를 타겟 샘플 텍스트로 결정하고, 그렇지 않으면 상기 샘플 텍스트를 폐기한다. 타겟 시나리오가 광둥어로부터 중국어 간체로의 인식임을 예로 하면, 웹 크롤러 기술을 이용하여 샘플 텍스트를 획득하고, 상기 샘플 텍스트를 타겟 시나리오 텍스트 분류기에 입력하여 상기 타겟 시나리오와 매칭되는 샘플 텍스트를 획득하며, 상기 타겟 시나리오와 매칭되는 샘플 텍스트를 타겟 샘플 텍스트로 결정한다.

본 출원의 실시예에서, 타겟 시나리오 텍스트 분류기는 베이시안 텍스트 분류기, 서포트 벡터 머신 텍스트 분류기, 신경망 텍스트 분류기 등과 같은 여러 가지 분류기 일 수 있고, 실제 상황에 따라 맞춤 제작할 수 있으며, 심지어 PPL 값(즉 곤혹도)을 사용하여 데이터 필터링을 수행할 수도 있다. 상기 분류기의 주요한 작용은 타겟 시나리오와 매칭되는 데이터를 획득하기 위함이다. 한가지 예시로서, DNN에 기반한 텍스트 분류기를 사용하여 타겟 시나리오 텍스트를 양성 샘플로 할 수 있고, 비 타겟 시나리오 텍스트를 음성 샘플로 할 수 있으며, 단어 벡터 매핑을 거쳐 DNN에 이송하여 트레이닝 함으로써 최종적으로 타겟 시나리오 텍스트 분류기를 획득하여 타겟 시나리오에서의 타겟 샘플 텍스트를 찾을 수 있다.

단계202, 타겟 샘플 텍스트를 인식하여 샘플인식 결과를 생성한다.

본 출원의 실시예에서, 타겟 시나리오에서의 타겟 샘플 텍스트를 획득할 경우, 오리지널 음성 인식 시스템을 사용하여 예측함으로써 샘플 인식 결과를 획득할 수 있다.

단계203, 타겟 샘플 텍스트에 대응되는 제1 오디오를 획득하고 샘플인식 결과에 대응되는 제2 오디오를 획득한다.

예를 들어, 타겟 시나리오가 광둥어로부터 중국어 간체로의 인식임을 예로 하면, 타겟 샘플 텍스트의 언어 종류는 광둥어이고 샘플 인식 결과의 언어 종류는 중국어 일 수 있으며, 상기 타겟 샘플 텍스트에 대응되는 제1 오디오는 광둥어 오디오 일 수 있고, 샘플 인식 결과에 대응되는 제2 오디오는 중국어 오디오 일 수 있다.

단계204, 제1 오디오와 제2 오디오 사이의 발음 차이 단어 쌍을 획득한다.

선택적으로, 제1 오디오와 제2 오디오 사이의 차이를 비교하여 제1 오디오와 제2 오디오 사이의 발음 차이 단어 쌍을 찾는 것을 통해 상기 발음 차이 단어 쌍을 상기 타겟 시나리오에서의 타겟 샘플 텍스트의 확장 발음으로 할 수 있다.

단계205, 샘플발음 차이 단어 쌍에 따라 발음 차이 통계기를 트레이닝 한다.

선택적으로, 샘플 발음 차이 단어 쌍을 획득한 후, 상기 샘플 발음 차이 단어 쌍과 임계값의 크기를 비교하는데, 만약 샘플 발음 차이 단어 쌍의 차이 크기가 상기 임계값보다 작으면, 즉 제1 오디오와 제2 오디오의 발음 차이 값이 상기 임계값보다 작으면 상기 샘플 발음 차이 단어 쌍을 폐기하고, 발음 차이 값이 상기 임계값보다 크거나 같은 샘플 발음 차이 단어 쌍을 보류하며, 이로써 각 타겟 샘플 텍스트의 샘플 발음 차이 단어 쌍(즉 발음 차이 값이 임계값보다 큰 샘플 발음 차이 단어 쌍)을 통계하여 통계된 발음 차이 단어 쌍을 발음 차이 통계기로 함으로써 라벨 텍스트와 인식 텍스트 사이의 단어 쌍 사이의 발음 차이를 통계할 수 있다. 다른 한 예시로서, 샘플 발음 차이 단어 쌍에 따라 딥 러닝 기술에 의해 발음 차이 통계기를 트레이닝 하여 트레이닝된 발음 차이 통계기를 얻음으로써 트레이닝된 발음 차이 통계기로 음성을 인식하여 상기 음성에 대응되는 발음 차이 단어 쌍을 얻을 수 있다.

예를 들어 설명하면, 하나의 오디오에 대해 인식된 텍스트가 "뭐(

)"이고 이의 발음은 "몌예(mie ye)"이나 라벨 텍스트는 "뭐(

)"이고 이의 발음은 "썬머(shen me)"인데 이렇게 되면 『shen me』와 『mie ye』는 바로 하나의 발음 차이 단어 쌍이 되고, 이러한 방식으로 라벨 텍스트와 인식 텍스트 사이의 단어 쌍 사이의 발음 차이를 통계하는 것을 통해 발음 차이 통계기를 얻을 수 있다.

이로써 알 수 있다 시피, 본 출원은 기존의 특정 시나리오 시스템을 이용하고, 기존의 데이터 리소스를 충분히 이용하여 데이터 발굴 트레이닝을 수행하므로 별도의 리소스 라벨 비용을 절감하며; 그 밖에, 발음 차이 단어 쌍을 발굴하고 중국어 음성 인식 시스템에 발송하여 트레이닝 함으로써 음성 인식 시스템으로 하여금 소스로부터 특정 시나리오와 중국어 간체 사이의 매핑 관계를 학습할 수 있도록 한다.

설명해야 할 것은, 타겟 시나리오 텍스트 분류기는 미리 트레이닝 하여 얻은 것일 수 있다. 본 출원의 일부 실시예에서, 도 3에 도시된 바와 같이, 상기 타겟 시나리오 텍스트 분류기는 하기와 같은 단계를 통해 트레이닝 하여 얻을 수 있다.

단계301, 타겟 시나리오 샘플과 비 타겟 시나리오 샘플을 획득한다.

단계302, 타겟 시나리오 샘플과 비 타겟 시나리오 샘플의 제1 단어 벡터 표징과 제2 단어 벡터 표징을 각각 획득한다.

단계303, 제1 단어 벡터 표징을 양성 샘플로 하고, 제2 단어 벡터 표징을 음성 샘플로 하여 초기 타겟 시나리오 텍스트 분류기에 입력하여 초기 타겟 시나리오 텍스트 분류기를 트레이닝 한다.

설명해야 할 것은, 타겟 시나리오 텍스트 분류기는 베이시안 텍스트 분류기, 서포트 벡터 머신 텍스트 분류기, 신경망 텍스트 분류기 등과 같은 여러 가지 분류기 일 수 있고, 사용자는 실제 상황에 따라 맞춤 제작할 수 있으며, 심지어 PPL 값(즉 곤혹도)을 사용하여 데이터 필터링을 수행하여 타겟 시나리오와 매칭되는 데이터를 획득할 수 있다. 한가지 예시로서, 초기 시나리오 텍스트 분류기는 DNN에 기반한 텍스트 분류기 일 수 있는 바, 타겟 시나리오 텍스트를 양성 샘플로 하고 비 타겟 시나리오 텍스트를 음성 샘플로 하여 단어 벡터 매핑을 거쳐 DNN에 이송하여 트레이닝 함으로써 최종적으로 타겟 시나리오 텍스트 분류기를 획득하여 타겟 시나리오 텍스트 분류기로 타겟 시나리오에서의 타겟 샘플 텍스트를 발굴할 수 있다.

본 기술분야에서 통상의 지식을 가진 자들이 본 출원을 더 뚜렷하게 이해할 수 있도록 하기 위하여 아래에서는 도 4 및 도 5와 결부하여 상세히 설명한다.

도 4에 도시된 바와 같이, 이는 전통적인 타겟 시나리오의 중국어 인식 시스템인 바, 광둥어로부터 중국어 간체로의 인식을 예로 하면, 본 기술분야에서 통상의 지식을 가진 자들은 통상적으로 먼저 음향 모델 트레이닝, 언어 모델 트레이닝을 포함하여 하나의 광둥어 음성 인식 시스템을 트레이닝 하고, 그 다음 다시 인식된 결과를 로봇 번역 방식에 의해 중국어 텍스트로 번역한다.

도 5에 도시된 바와 같이, 이는 본 출원의 실시예에서 제기한 발음 차이에 기반한 타겟 시나리오의 중국어 인식 시스템의 예시도이다. 타겟 시나리오 텍스트 분류기는 베이시안 텍스트 분류기, 서포트 벡터 머신 텍스트 분류기, 신경망 텍스트 분류기 등과 같은 여러 가지 분류기 일 수 있고, 실제 상황에 따라 맞춤 제작할 수 있으며, 심지어 PPL 값(즉 곤혹도)을 사용하여 데이터 필터링을 수행할 수도 있다. 상기 분류기의 주요한 작용은 타겟 시나리오와 매칭되는 데이터를 획득하기 위함이다. 여기서 우리가 사용한 것은 DNN에 기반한 텍스트 분류기인 바, 타겟 시나리오 텍스트를 양성 샘플로 하고 비 타겟 시나리오 텍스트를 음성 샘플로 하여 단어 벡터 매핑을 거쳐 DNN에 이송하여 트레이닝 함으로써 최종적으로 텍스트 분류기를 얻는다. 마지막으로 타겟 시나리오 텍스트를 발굴한다.

발음 차이 통계기는 주요하게 라벨 텍스트를 통계하고 텍스트 사이의 단어 쌍 사이의 발음 차이를 인식하는 것인 바, 사용자는 실제 상황에 따라 임계값을 설치하여 발음 차이 단어 쌍을 선별할 수 있다. 대량의 관련 타겟 텍스트를 획득한 후, 오리지널 음성 인식 시스템을 사용하여 예측하고, 인식 결과와 타겟 텍스트 사이의 차이성을 비교함으로써 관련 차이 단어 쌍을 찾아 최종적으로 타겟 텍스트의 확장 발음을 발굴한다.

마지막으로, 중국어 음성 인식 시스템은 기존의 인식 시스템의 기초상에 선별된 발음 차이 단어 쌍을 이용하여 트레이닝 학습을 수행한다. 확장한 후의 발음 차이 단어 쌍과 언어 모델, 음향 모델, 디코더는 함께 최종적인 중국어 음성 인식 시스템을 조성하고, 그 다음 타겟 시나리오의 오디오를 중국어 텍스트로 인식할 수 있다.

상술한 내용을 종합하면, 본 출원과 전통적인 타겟 시나리오의 중국어 음성 인식 시스템(예를 들어, 광둥어 오디오로부터 중국어 텍스트로의 인식)의 주요한 구별은 하기 내용을 포함한다. 1) 별도로 트레이닝 된 관련 텍스트 번역기가 필요 없이 직접 중국어 텍스트를 생성할 수 있고; 2) 기존의 데이터 리소스를 충분히 이용하여 데이터 발굴 트레이닝을 수행함으로써 별도의 리소스 라벨 비용을 절감할 수 있으며; 3) 다른 한 중국어 인식 시스템을 다시 트레이닝 할 필요가 없이 오리지널 시스템의 기초상에 확장 트레이닝을 수행하여 중국어 음성 인식 시스템의 개발 비용을 저하시킬 수 있다.

이로써 알 수 있다 시피, 본 출원은 기존의 특정 시나리오 시스템을 이용하여 시스템의 재사용성을 구현하고, 인력과 물력을 절약하며, 트레이닝을 다시 시작할 필요가 없어 프로젝트 주기를 단축시키고; 별도의 트레이닝 번역기가 필요 없으며, 전통적인 트레이닝 방법은 흔히 하나의 번역기를 트레이닝 하여 효과를 향상시켜야 하는데 본 출원은 발음 차이 단어 쌍을 발굴하고 중국어 음성 인식 시스템에 이송하여 트레이닝 하는 것을 통해 상기 시스템으로 하여금 소스로부터 특정 시나리오와 중국어 간체 사이의 매핑 관계를 학습할 수 있도록 한다.

도 6은 본 출원의 한 실시예에 따른 음성 인식 장치의 구조 블록도이다. 도 6에 도시된 바와 같이, 상기 음성 인식 장치(600)는 제1 획득 모듈(601), 제2 획득 모듈(602), 제1 생성 모듈(603) 및 제2 생성 모듈(604)을 포함할 수 있다.

구체적으로, 제1 획득 모듈(601)은 인식 대기 음성을 획득한다.

제2 획득 모듈(602)은 인식 대기 음성의 음향 특징과 언어 특징을 획득한다.

제1 생성 모듈(603)은 인식 대기 음성을 발음 차이 통계기에 입력하여 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성한다.

제2 생성 모듈(604)은 발음 차이 단어 쌍, 음향 특징 및 언어 특징에 따라 인식 대기 음성의 텍스트 정보를 생성한다. 한가지 구현예로서, 제2 생성 모듈(604)은 발음 차이 단어 쌍, 음향 특징 및 언어 특징을 디코더에 입력하여 인식 대기 음성의 텍스트 정보를 생성한다.

본 출원의 일부 실시예에서, 도 7에 도시된 바와 같이, 상기 음성 인식 장치(700)는 제1 트레이닝 모듈(705)을 더 포함할 수 있다. 상기 제1 트레이닝 모듈(705)은 발음 차이 통계기를 트레이닝 한다. 본 출원의 실시예에서, 제1 트레이닝 모듈(705)은 구체적으로, 타겟 시나리오에서의 타겟 샘플 텍스트를 획득하고; 타겟 샘플 텍스트를 인식하여 샘플인식 결과를 생성하며; 타겟 샘플 텍스트에 대응되는 제1 오디오를 획득하고 샘플인식 결과에 대응되는 제2 오디오를 획득하고; 제1 오디오와 제2 오디오 사이의 발음 차이 단어 쌍을 획득하며; 및 샘플발음 차이 단어 쌍에 따라 발음 차이 통계기를 트레이닝 하는데 사용된다.

본 출원의 일부 실시예에서, 제1 트레이닝 모듈(705)이 타겟 시나리오에서의 타겟 샘플 텍스트를 획득하는 구체적인 구현과정은 아래와 같다. 샘플 텍스트를 획득하고; 샘플 텍스트를 타겟 시나리오 텍스트 분류기에 입력하여 샘플 텍스트가 타겟 시나리오에 속하는지 여부를 판정하되; 타겟 시나리오에 속할 경우 샘플 텍스트를 타겟 샘플 텍스트로 하고; 타겟 시나리오에 속하지 않을 경우 샘플 텍스트를 폐기한다.

도 7에서의 단계701-단계704와 도 6에서의 단계601-단계604는 동일한 기능과 구조를 가진다.

본 출원의 일부 실시예에서, 도 8에 도시된 바와 같이, 상기 음성 인식 장치(800)는 제2 트레이닝 모듈(806)을 더 포함할 수 있다. 제2 트레이닝 모듈(806)은 타겟 시나리오 텍스트 분류기를 트레이닝 한다. 본 출원의 실시예에서, 제2 트레이닝 모듈(806)은 구체적으로, 타겟 시나리오 샘플과 비 타겟 시나리오 샘플을 획득하고; 타겟 시나리오 샘플과 비 타겟 시나리오 샘플의 제1 단어 벡터 표징과 제2 단어 벡터 표징을 각각 획득하며; 제1 단어 벡터 표징을 양성 샘플로 하고, 제2 단어 벡터 표징을 음성 샘플로 하여 초기 타겟 시나리오 텍스트 분류기에 입력하여 초기 타겟 시나리오 텍스트 분류기를 트레이닝 하는데 사용된다.

도 8에서의 단계801-단계805와 도 7에서의 단계701-단계705는 동일한 기능과 구조를 가진다.

상기 실시예에서의 장치에 있어서, 각각의 모듈이 동작을 수행하는 구체적인 방식은 이미 상기 방법과 관련되는 실시예에서 상세히 설명하였으며, 여기서 더 이상 상세히 설명하지 않는다.

본 출원의 실시예의 음성 인식 장치에 따르면, 인식 대기 음성을 획득하고, 인식 대기 음성의 음향 특징과 언어 특징을 획득하며; 인식 대기 음성을 발음 차이 통계기에 입력하여 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성한 다음, 발음 차이 단어 쌍, 음향 특징 및 언어 특징에 따라 인식 대기 음성의 텍스트 정보를 생성할 수 있다. 이로써 알 수 있다 시피, 전통적인 음성 인식 시스템은 흔히 하나의 번역기를 트레이닝 하여 특정 시나리오 인식 결과를 중국어 간체로 번역함으로써 인식 효과를 향상시키고, 본 출원은 발음 차이 단어 쌍을 발굴하고 상기 발음 차이 단어 쌍을 음향 특징 및 언어 특징과 함께 디코더에 입력하여 인식함으로써 특정 시나리오에서의 인식 대기 음성의 텍스트 정보를 획득하는데, 이렇게 되면 음성 인식 시스템으로 하여금 소스로부터 특정 시나리오와 중국어 간체 사이의 매핑 관계를 학습하게 되어 하나의 번역기를 별도로 트레이닝 하여 효과를 향상시킬 필요가 없으므로 인력과 물력을 절약하고 다시 모델 트레이닝을 수행하지 않아도 되며 오리지널 시스템의 기초상에 확장 트레이닝을 수행하여 중국어 음성 인식 시스템의 개발 비용을 저하시키고 음성 인식 시스템의 트레이닝 주기를 단축시킨다.

본 출원의 실시예에 따르면, 본 출원은 전자기기와 판독 가능 저장매체를 더 제공한다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 음성 인식 방법이 실행된다.

도 9에 도시된 바와 같이, 이는 본 출원의 실시예에 따른 음성 인식 방법을 구현하기 위한 전자기기의 블록도이다. 전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 벤치, 개인용 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등의 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자기기는 또한 개인용 정보 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 도시된 구성 요소, 그들의 연결 및 관계 및 그 기능은 단지 예시에 불과하며, 본 명세서에 기술되거나 및/또는 청구된 구현을 한정하도록 의도되지 않는다.

도 9에 도시된 바와 같이, 상기 전자기기는 하나 이상의 프로세서(901), 메모리(902) 및 고속 인터페이스 및 저속 인터페이스를 포함하는 다양한 구성 요소를 연결하기 위한 인터페이스를 포함한다. 다양한 구성 요소는 서로 다른 버스를 사용하여 서로 연결되며 마더 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장치)에 GUI의 그래픽 정보를 표시하기 위해 메모리에 저장된 명령을 포함하여 전자기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요한 경우, 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 여러 전자기기를 연결할 수 있고, 각 장치는 단지 몇 가지 필요한 기능(예를 들어, 서버 배열, 블레이드 서버 그룹 또는 다중 프로세서 시스템)을 제공할 수 있다. 도 9는 프로세서(901)가 하나인 경우를 예를 들어 설명한다.

메모리(902)는 본 출원에 의해 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 적어도 하나의 프로세서에 의해 본 출원의 음성 인식 방법을 수행하도록, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장된다. 본 출원의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터로 하여금 본 출원의 음성 인식 방법을 실행하게 하는 컴퓨터 명령어가 저장된다.

메모리(902)는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능 프로그램, 본 출원의 실시예의 음성 인식 방법에 대응하는 프로그램 명령/모듈과 같은 모듈(예를 들어, 도 6에 도시된 제1 획득 모듈(601), 제2 획득 모듈(602), 제1 생성 모듈(603) 및 제2 생성 모듈(604))을 저장하기 위해 사용될 수 있다. 프로세서(901)는 메모리(902)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여 서버의 다양한 기능적 애플리케이션 및 데이터 처리를 실행한다. 다시 말하면, 상기 방법 실시예의 음성 인식 방법을 구현한다.

메모리(902)는 프로그램을 저장하기 위한 영역 및 데이터를 저장하기 위한 영역을 포함할 수 있고, 여기서 프로그램을 저장하기 위한 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램이 저장될 수 있고; 데이터를 저장하기 위한 영역에는 음성 인식 방법에 따른 전자기기를 사용하여 생성된 데이터가 저장될 수 있다. 또한, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 자기 디스크 저장 장치, 플래시 메모리 장치 또는 다른 비 일시적 솔리드 스테이트 저장 장치와 같은 적어도 하나의 비 일시적 메모리를 포함할 수 있다. 일부 실시예에서, 메모리(902)는 프로세서(901)에 대해 원격으로 설정된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 음성 인식 방법을 구현하기 위한 전자기기에 연결될 수 있다. 상기 네트워크의 사례는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지는 않는다

음성 인식 방법을 수행하는 전자기기는 입력 장치(903) 및 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스를 통해 연결되거나 또는 다른 방식으로 연결될 수 있으며, 도 9는 버스를 통한 연결을 예시한 것이다.

입력 장치(903)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 음성 인식 방법을 구현하기 위한 전자기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 터치 스크린, 키 패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 이상의 마우스 버튼, 트랙 볼, 조이스틱 및 기타 입력 장치일 수 있다. 출력 장치(904)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지는 않는다. 일부 실시형태에서, 디스플레이 장치는 터치 스크린일 수 있다.

본 명세서에 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로, 집적 회로 시스템, 전용 ASIC(특정 용도 지향 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에 의해 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에 의해 실시될 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서의 프로그램 가능 시스템에 의해 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하며, 데이터 및 명령을 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그램 가능 프로세서의 기계 명령어가 포함되고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리 언어/기계어를 사용하여 이러한 컴퓨터 프로그램을 구현할 수 있다. 본 명세서에서 사용되는 용어 "기계 판독 가능 매체” 및 "컴퓨터 판독 가능 매체”는 프로그램 가능 프로세서에 기계 명령 및/또는 데이터를 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장비 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키며, 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 지칭한다.

사용자와의 인터랙션을 제공하기 위해, 여기에 설명된 시스템 및 기술을 컴퓨터에서 구현할 수 있다. 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터)와 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 포함하고, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 종류의 장치를 사용하여 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각 피드백 또는 촉각 피드백) 일 수 있고, 임의의 형태(음성 입력, 스피치 입력 또는 촉각 입력 포함)로 사용자에 의해 발송된 정보를 수신할 수 있다.

본 명세서에 설명된 시스템 및 기술은 백 엔드 구성 요소(예를 들어, 데이터 서버)를 포함하는 컴퓨팅 시스템 또는 미들웨어 구성 요소(예를 들어, 애플리케이션 서버)를 포함하는 컴퓨팅 시스템 또는 프론트 엔드 구성 요소(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 사용자 컴퓨터일 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 실시형태와 인터랙션 할 수 있음)를 포함하는 컴퓨팅 시스템 또는 이러한 백 엔드 구성 요소, 미들웨어 구성 요소 또는 프론트 엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에 의해 구현될 수 있다. 시스템의 구성 요소는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷이 포함될 수 있다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터랙션 한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 발생된다. 서버는 클라우드 서버 일 수 있고 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 바, 이는 클라우드 컴퓨팅 서비스 시스템에서의 하나의 호스트 제품으로서 전통적인 물리 호스트와 VPS 서비스("Virtual Private Server", 또는 약칭 "VPS") 서비스에서 관리 난이도가 크고 서비스 확장성이 약한 단점을 해결한다.

상기에 도시된 다양한 형태의 과정을 통해 단계를 재정렬, 추가 또는 삭제할 수 있다는 것을 이해해야 한다. 예를 들어, 본 출원에 설명된 각 단계들은 병렬, 순차적 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결책이 원하는 결과를 달성할 수만 있으면, 별도로 한정되지 않는다.

상기 구체적인 실시형태는 본 출원의 보호 범위에 대한 제한을 구성하지 않는다. 당업자는 설계 요건 및 다른 요인에 따라 다양한 변형, 조합, 하위 조합 및 대체가 이루어질 수 있다는 것을 이해해야 한다. 본 출원의 원리와 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 모두 본 출원의 보호 범위에 포함된다.

Claims

음성 인식 방법에 있어서,
인식 대기 음성을 획득하는 단계;
상기 인식 대기 음성의 음향 특징과 언어 특징을 획득하는 단계;
상기 인식 대기 음성을 발음 차이 통계기에 입력하여 상기 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성하는 단계; 및
상기 발음 차이 단어 쌍, 상기 음향 특징 및 상기 언어 특징에 따라 상기 인식 대기 음성의 텍스트 정보를 생성하는 단계를 포함하는
것을 특징으로 하는 음성 인식 방법.
제1항에 있어서,
상기 발음 차이 통계기는,
타겟 시나리오에서의 타겟 샘플 텍스트를 획득하는 단계;
상기 타겟 샘플 텍스트를 인식하여 샘플인식 결과를 생성하는 단계;
상기 타겟 샘플 텍스트에 대응되는 제1 오디오를 획득하고 상기 샘플인식 결과에 대응되는 제2 오디오를 획득하는 단계;
상기 제1 오디오와 상기 제2 오디오 사이의 발음 차이 단어 쌍을 획득하는 단계; 및
상기 샘플발음 차이 단어 쌍에 따라 상기 발음 차이 통계기를 트레이닝 하는 단계를 통해 트레이닝 되는
것을 특징으로 하는 음성 인식 방법.
제2항에 있어서,
상기 타겟 시나리오에서의 타겟 샘플 텍스트를 획득하는 단계는,
샘플 텍스트를 획득하는 단계;
상기 샘플 텍스트를 타겟 시나리오 텍스트 분류기에 입력하여 상기 샘플 텍스트가 타겟 시나리오에 속하는지 여부를 판정하는 단계;
상기 타겟 시나리오에 속할 경우 상기 샘플 텍스트를 상기 타겟 샘플 텍스트로 하는 단계;
상기 타겟 시나리오에 속하지 않을 경우 상기 샘플 텍스트를 폐기하는 단계를 포함하는
것을 특징으로 하는 음성 인식 방법.
제3항에 있어서,
상기 타겟 시나리오 텍스트 분류기는,
타겟 시나리오 샘플과 비 타겟 시나리오 샘플을 획득하는 단계;
상기 타겟 시나리오 샘플과 상기 비 타겟 시나리오 샘플의 제1 단어 벡터 표징과 제2 단어 벡터 표징을 각각 획득하는 단계;
상기 제1 단어 벡터 표징을 양성 샘플로 하는 동시에 상기 제2 단어 벡터 표징을 음성 샘플로 하여 초기 타겟 시나리오 텍스트 분류기에 입력하여 상기 초기 타겟 시나리오 텍스트 분류기를 트레이닝 하는 단계를 통해 트레이닝 되는
것을 특징으로 하는 음성 인식 방법.
제1항에 있어서,
상기 발음 차이 단어 쌍, 상기 음향 특징 및 상기 언어 특징에 따라 상기 인식 대기 음성의 텍스트 정보를 생성하는 단계는,
상기 발음 차이 단어 쌍, 상기 음향 특징 및 상기 언어 특징을 디코더에 입력하여 상기 인식 대기 음성의 텍스트 정보를 생성하는 단계를 포함하는
것을 특징으로 하는 음성 인식 방법.
음성 인식 장치에 있어서,
인식 대기 음성을 획득하는 제1 획득 모듈;
상기 인식 대기 음성의 음향 특징과 언어 특징을 획득하는 제2 획득 모듈;
상기 인식 대기 음성을 발음 차이 통계기에 입력하여 상기 인식 대기 음성에 대응되는 발음 차이 단어 쌍을 생성하는 제1 생성 모듈; 및
상기 발음 차이 단어 쌍, 상기 음향 특징 및 상기 언어 특징에 따라 상기 인식 대기 음성의 텍스트 정보를 생성하는 제2 생성 모듈을 포함하는
것을 특징으로 하는 음성 인식 장치.
제6항에 있어서,
상기 장치는,
상기 발음 차이 통계기를 트레이닝 하기 위한 제1 트레이닝 모듈을 더 포함하되;
상기 제1 트레이닝 모듈은 구체적으로,
타겟 시나리오에서의 타겟 샘플 텍스트를 획득하고;
상기 타겟 샘플 텍스트를 인식하여 샘플인식 결과를 생성하며;
상기 타겟 샘플 텍스트에 대응되는 제1 오디오를 획득하고 상기 샘플인식 결과에 대응되는 제2 오디오를 획득하고;
상기 제1 오디오와 상기 제2 오디오 사이의 발음 차이 단어 쌍을 획득하며; 및
상기 샘플발음 차이 단어 쌍에 따라 상기 발음 차이 통계기를 트레이닝 하는데 사용되는
것을 특징으로 하는 음성 인식 장치.
제7항에 있어서,
상기 제1 트레이닝 모듈은 구체적으로,
샘플 텍스트를 획득하고;
상기 샘플 텍스트를 타겟 시나리오 텍스트 분류기에 입력하여 상기 샘플 텍스트가 타겟 시나리오에 속하는지 여부를 판정하며;
상기 타겟 시나리오에 속할 경우 상기 샘플 텍스트를 상기 타겟 샘플 텍스트로 하고;
상기 타겟 시나리오에 속하지 않을 경우 상기 샘플 텍스트를 폐기하는데 사용되는
것을 특징으로 하는 음성 인식 장치.
제8항에 있어서,
상기 장치는,
상기 타겟 시나리오 텍스트 분류기를 트레이닝 하기 위한 제2 트레이닝 모듈을 더 포함하되;
상기 제2 트레이닝 모듈은 구체적으로,
타겟 시나리오 샘플과 비 타겟 시나리오 샘플을 획득하고;
상기 타겟 시나리오 샘플과 상기 비 타겟 시나리오 샘플의 제1 단어 벡터 표징과 제2 단어 벡터 표징을 각각 획득하며;
상기 제1 단어 벡터 표징을 양성 샘플로 하는 동시에 상기 제2 단어 벡터 표징을 음성 샘플로 하여 초기 타겟 시나리오 텍스트 분류기에 입력하여 상기 초기 타겟 시나리오 텍스트 분류기를 트레이닝 하는데 사용되는
것을 특징으로 하는 음성 인식 장치.
제6항에 있어서,
상기 제2 생성 모듈은 구체적으로,
상기 발음 차이 단어 쌍, 상기 음향 특징 및 상기 언어 특징을 디코더에 입력하여 상기 인식 대기 음성의 텍스트 정보를 생성하는데 사용되는
것을 특징으로 하는 음성 인식 장치.
전자기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결하는 메모리를 포함하는 전자기기에 있어서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 음성 인식 방법을 수행할 수 있도록 하는
것을 특징으로 하는 전자기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 음성 인식 방법을 수행하도록 하는
것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체
컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제5항 중 어느 한 항에 따른 음성 인식 방법이 실행되는,
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.