KR20220132414A

KR20220132414A - 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체

Info

Publication number: KR20220132414A
Application number: KR1020220004740A
Authority: KR
Inventors: 준야오 샤오; 시아오인 푸; 치구앙 장; 즈지에 천; 밍씬 리앙; 후안씬 정; 셩 치안
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-03-23
Filing date: 2022-01-12
Publication date: 2022-09-30
Also published as: JP7346788B2; EP4064277A1; EP4064277B1; CN113129870A; US12033616B2; CN113129870B; US20220310064A1; JP2022151649A

Abstract

본 발명은 컴퓨터 기술분야에 관한 것으로, 구체적으로, 음성 인식, 딥 러닝 등의 기술분야에 관한 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체를 개시한다. 음성 인식 모델의 트레이닝 방법은 음향 디코딩 모델과 언어 모델에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하는 단계; 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는 단계; 상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝하는 단계;를 포함한다. 본 발명은 음성 인식 모델의 인식 정밀도를 향상시킬 수 있다.

Description

음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체 {A TRAINING METHOD AND DEVICE FOR SPEECH RECOGNITION MODEL, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}

본 발명은 컴퓨터 기술 분야에 관한 것으로, 구체적으로, 음성 인식, 딥 러닝 등의 기술 분야에 관한 것으로, 특히, 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체에 관한 것이다.

자동 음성 인식(Automatic Speech Recognition, ASR)은 음성을 텍스트로 변환하는 기술이다. 음성 인식 태스크를 복수의 서브 태스크(subtask)에 분할하는 기존의 ASR 방식과 달리, 엔드-투-엔드의 음성 인식 모델(end-to-end speech recognition model)의 입력은 음향적 특징이며, 출력은 직접 자연 언어 텍스트이므로, 모델 트레이닝 과정을 간소화한다.

엔드-투-엔드의 음성 인식 모델은 시퀀스-투-시퀀스(Seq2Seq) 모델일 수 있고, 시퀀스-투-시퀀스 모델은 디코더(decoder)를 포함하고, 엔드-투-엔드의 음성 인식 모델을 트레이닝할 경우, 디코더는 빔 검색(beam search) 방식을 사용하여, 복수의 디코딩 결과를 획득할 수 있다.

관련 기술에서, 디코더가 빔 검색(beam search)을 수행할 경우, 입력은 단지 하나 전의 순간(previous moment)의 출력 텍스트 및 음향 관련 정보를 포함한다.

본 발명은 음성 인식 모델의 트레이닝 방법, 장치, 기기 및 기록 매체를 제공한다.

본 발명의 일 측면에 의하면, 음성 인식 모델의 트레이닝 방법을 제공하고, 음향 디코딩 모델과 언어 모델에 기반하여, 적어도 하나의 후보 텍스트의 융합 확률을 계산하는 단계 - 상기 후보 텍스트는 음성에 대응하는 후보 텍스트임 -; 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는 단계; 및 상기 음성에 대응하는 표준 텍스트와 상기 예측 텍스트에 기반하여, 손실 함수를 계산하고, 상기 손실 함수에 기반하여 음성 인식 모델을 트레이닝하는 단계;를 포함한다.

본 발명의 다른 측면에 의하면, 음성 인식 모델의 트레이닝 장치를 제공하고, 음향 디코딩 모델과 언어 모델에 기반하여, 적어도 하나의 후보 텍스트의 융합 확률을 계산하기 위한 처리 모듈; 상기 후보 텍스트는 음성에 대응하는 후보 텍스트인 처리 모듈; 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하기 위한 결정 모듈; 상기 음성에 대응하는 표준 텍스트와 상기 예측 텍스트에 기반하여, 손실 함수를 계산하고, 상기 손실 함수에 기반하여 음성 인식 모델을 트레이닝하기 위한 트레이닝 모듈;을 포함한다.

본 발명의 다른 측면에 의하면, 전자 기기를 제공하고, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 상기의 임의의 측면 중 임의의 하나의 방법이 수행되도록 한다.

본 발명의 다른 측면에 의하면, 컴퓨터 명령이 기억되어 있는 비일시적 컴퓨터 판독 가능 기록 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터에 상기의 임의의 측면 중 임의의 하나의 방법을 수행하도록 한다.

본 발명의 다른 측면에 의하면, 컴퓨터 프로그램 제품을 제공하고, 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때에 상기의 임의의 측면 중 임의의 하나의 방법을 구현한다.

본 발명의 기술 방안에 의하면, 음성 인식 모델의 인식 정밀도를 향상시킬 수 있다.

본 명세서에서 설명된 내용은 본 발명의 실시예의 키 또는 중요한 특징을 식별하려는 것이 아니고, 또한 본 발명의 범위를 제한하려는 것도 아닌 것을 이해하여야 한다. 본 발명의 다른 특징은 이하의 명세서를 통해 용이하게 이해할 수 있다.

첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 발명에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 발명의 제1 실시예에 따른 개략도이다.
도 2는 본 발명의 제2 실시예에 따른 개략도이다.
도 3은 본 발명의 제3 실시예에 따른 개략도이다.
도 4는 본 발명의 제4 실시예에 따른 개략도이다.
도 5는 본 발명의 제5 실시예에 따른 개략도이다.
도 6은 본 발명의 제6 실시예에 따른 개략도이다.
도 7은 본 발명의 실시예의 음성 인식 모델의 트레이닝 방법 중 임의의 하나 방법을 구현하기 위한 전자 기기의 개략도이다.

하기는 첨부된 도면을 결부하여 본 발명의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.

도 1은 본 발명의 제1 실시예에 따른 개략도이다. 본 실시예는 음성 인식 모델의 트레이닝 방법을 제공하고, 상기 음성 인식 모델은, 음향 디코더와 언어 모델을 포함하고, 해당 방법은 하기와 같은 단계를 포함한다.

101, 상기 음향 디코딩 모델(acoustic decoding model)과 상기 언어 모델(language model)에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률(fusion probability)을 획득한다.

102, 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트(candidate text)를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트(predicted text)를 결정한다.

103, 상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트(standard text)에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝한다.

본 발명의 실시예에서, 음성 인식 모델은 구체적으로, 엔드-투-엔드의 음성 인식 모델일 수 있고, 엔드-투-엔드의 음성 인식 모델은 구체적으로, 주의력(attention-based)에 기반한 시퀀스-투-시퀀스 모델일 수도 있다.

도 2에 도시된 바와 같이, 엔드-투-엔드의 음성 인식 모델은 인코더(encoder)(201), 주의력 모델(attention)(202) 및 디코더(203)를 포함할 수 있다. 인코더(201)의 입력은 음향적 특징이며, 벡터 x로 표시하고, 음향적 특징은 여러 가지 관련 기술을 사용하여 음성에 대해 특징을 추출한 후에 획득할 수 있고, 예를 들어, 음성 신호를 프레임화한 후, 프레임별로 추출된 필터뱅크(Filterbank) 특징이다. 인코더(201)는 음향적 특징을 인코딩하여, 인코딩 특징을 획득하고, 인코딩 특징은 벡터 h^enc로 표시한다. 주의력 모델(202)은 서로 다른 인코딩 특징에 서로 다른 무게를 할당하고, 주의력 처리 후의 특징을 획득하고, 벡터 c_u로 표시하고, u는 시간 정보(step)의 인덱스이다. 디코더(203)는 텍스트를 출력하고, 텍스트 출력 시에 문자별로 출력할 수 있고, 즉, 디코더(203)는 입력 특징에 기반하여 출력 텍스트 시퀀스를 획득하고, 입력 특징은 하나 전의 순간(previous moment)의 출력 텍스트 y_u-1와 주의력 모델(202)에 의해 출력되는 c_u를 포함하고, 디코더(203)의 출력은 현재 순간(current moment)의 출력 텍스트 y_u이다. 또한, y_u는 시작 문자 [SOS]과 종료 문자 [EOS]를 포함할 수 있다. 예를 들어, 음성이 "오늘 날씨(今天天氣)"일 경우, 시작 문자 [SOS]에 기반하여 "今"을 예측하고, "今"에 기반하여 "天"을 예측하고, 종료 문자 [EOS]를 출력할 때까지, 이에 따라 유추할 수 있다.

주의력 모델의 출력은 기존의 ASR 방식과 유사한 음향 모델의 출력인 것을 이해할 수 있고, 따라서, 주의력 모델의 출력 c_u는 음향 관련 정보인 것을 이해할 수 있고, 관련 기술에서, 디코더의 입력은 하나 전의 순간의 출력 텍스트 y_u-1과 음향 관련 정보 c_u만을 포함하고, 상응하게, 관련 기술에서의 디코더는 단지 음향 디코딩 모델만을 포함하는 것을 이해할 수 있다.

본 발명의 실시예에서, 도 2를 참조하고, 디코딩할 때에, 음향 관련 정보에 의존할 뿐만 아니라, 언어 관련 정보에도 의존한다. 도 2에 도시된 바와 같이, 디코더는 음향 디코딩 모델을 포함할 뿐만 아니라, 언어 모델(Language Model, LM)을 더 포함하고, LM는 하나 전의 순간의 출력 텍스트에 기반하여 현재 순간의 출력 텍스트를 예측하는데 사용된다. 음향 디코딩 모델의 출력 노드의 수는 후보 텍스트의 총수와 같고, 언어 모델의 출력 노드의 수도 후보 텍스트의 총수와 같으며, 후보 텍스트의 수는 하나 또는 복수일 수 있고, 복수는 적어도 2개를 가리킨다. 예를 들어, 후보 텍스트가 M개일 경우, 음향 디코딩 모델의 출력 노드와 언어 모델의 출력 노드의 수는 모두 M이며, 음향 디코딩 모델의 출력과 언어 모델의 출력은 각각 softmax 처리를 거쳐, [0, 1] 사이의 수치를 획득할 수 있고, 후보 텍스트가 하나일 경우, 해당 수치는 즉 해당 하나의 후보 텍스트가 표준 텍스트인 확률이며, 일반적으로, 후보 텍스트가 복수일 경우, 복수의 후보 텍스트에서의 각 후보 텍스트에 대응하는 확률을 결정할 필요가 있고, 각 후보 텍스트에 대응하는 확률을 결정하는 것을 예로 설명하면, 즉 해당 수치는 각 후보 텍스트가 표준 텍스트인 확률이며, 표준 텍스트는 음성에 대응하는 정확한 텍스트를 가리킨다. 구별하기 위해, softmax 처리 후의 음향 디코딩 모델의 출력은 제1 확률 P1이라고 할 수 있고, softmax 처리 후의 언어 모델의 출력은 제2 확률 P2이라고 할 수 있고, 그 후, 제1 확률 P1과 제2 확률 P2에 기반하여, 각 후보 텍스트의 융합 확률 P를 계산하고, 예를 들어, 제1 확률 P1과 제2 확률 P2을 가중 합산하여, 가중 합산 값을 융합 확률 P로 한다. 가중 합산 시의 가중 계수는 실제의 수요에 따라 설치할 수 있다. 융합 확률을 계산할 경우, 각 후보 텍스트에 대응하여 계산을 하고, 예를 들어, 후보 텍스트 "今"에 대응하고, 음향 디코딩 모델을 사용하여 "今"의 제1 확률을 결정하고, 언어 모델을 사용하여 "今"의 제2 확률을 결정하고, 또한 "今"의 제1 확률과 "今"의 제2 확률에 기반하여, "今"의 융합 확률을 계산할 수 있다.

각 후보 텍스트의 융합 확률을 획득한 후, 빔 검색(beam search)의 폭이 N이라고 가정할 경우, 융합 확률이 큰 것부터 작은 것 순서로 N개의 후보 텍스트를 선택할 수 있다. 예를 들어, "오늘 날씨(今天天氣)"로, 제1 순간 출력 문자를 예측할 때에, 후보 텍스트는 "今", "金" 및 "斤"을 포함할 수 있고, "今"의 융합 확률이 0.7이며, "金"의 융합 확률이 0.2이며, "斤"의 융합 확률이 0.1이라고 가정하고, N=2일 경우, "今", "金"을 선택할 수 있다.

N개의 후보 텍스트를 선택한 후, N개의 후보 텍스트에 기반하여 예측 텍스트를 결정할 수 있다. 예를 들어, 직접에 N개의 후보 텍스트를 예측 텍스트로 할 수 있다. 예를 들어, 제1 순간에 대응하고, "今"과 "金"을 예측 텍스트로 한다.

예측 텍스트를 획득한 후, 예측 텍스트와 표준 텍스트에 기반하여 손실 함수를 계산할 수 있다. 표준 텍스트는 음성이 정확한 텍스트라고 가리키고, 수동으로 라벨링하는 방식을 사용하여 획득할 수 있고, 예를 들어, 상기 예에서, 표준 텍스트가 "오늘 날씨(今天天氣)"이다. 손실 함수는, 변별 학습 알고리즘(discrimination training algorithm)에서 사용되는 손실 함수일 수 있고, 구체적 형식은 교차 엔트로피 함수(cross-entropy function)와 같은, 실제의 수요에 따라 선택할 수 있고, 본 발명의 실시예에서, 손실 함수가 단어 오류율(word error rate) 함수인 것을 예로 한다. 이하의 공식으로 표시한다.

는 손실 함수이고,

는 i번째의 예측 텍스트이며, N개의 예측 텍스트를 공유하고,

는 표준 텍스트이며,

는 i번째의 예측 텍스트의 오류 수이며,

는,

에 대한 오류 수이며,

는 N개의 예측 텍스트의 평균 오류 수이며,

는 정규화 후의 값이며,

는 출력 문자

의 분포 확률이며, 예를 들어,

의 융합 확률 P이다.

손실 함수를 획득한 후, 손실 함수에 기반하여 음성 인식 모델을 트레이닝할 수 있고, 즉, 음성 인식 모델은 랜덤 방식 또는 사전 트레이닝 모델을 로드하는 방식을 사용하여 초기화하고, 초기화한 후, 손실 함수가 수렴될 때까지, 음성 인식 모델의 파라미터를 조정하고, 손실 함수가 수렴될 때의 음성 인식 모델을 최종적으로 획득된 음성 인식 모델로 한다. 음성 인식 모델은 인코더, 주의력 모델 및 디코더를 포함하고, 디코더는 음향 디코딩 모델 및 언어 모델을 포함하고, 인코더, 음향 디코딩 모델 및 언어 모델은, 모두 심층 신경망 모델일 수 있고, 구체적인 모델 구조는, 실제의 수요에 따라 선택할 수 있고, 예를 들어, 인코더, 음향 디코더 모델, 언어 모델은 모두 순환 신경망(Recurrent Neural Network, RNN) 모델이며, 주의력 모델은 멀티-헤딩 주의력 모델(multi-headed attention)을 사용한다.

본 실시예에서, 음향 디코딩 모델과 언어 모델에 기반하여 후보 텍스트의 융합 확률을 계산하고, 융합 확률에 기반하여 후보 텍스트를 선택하고, 후보 텍스트를 선택할 때에 음향 관련 정보를 참조할 뿐만 아니라, 언어 모델의 관련 정보도 참조할 수 있고, 음성 인식 모델의 인식 정밀도를 향상시킬 수 있다.

도 3은 본 발명의 제3 실시예에 따른 개략도이다. 본 실시예는 음성 인식 모델의 트레이닝 방법을 제공하고, 본 실시예는 문자별로의 출력을 예로, 도 2에 도시된 구조를 조합하고, 해당 방법은 하기와 같은 단계를 포함하고,

301, 음성의 음향적 특징을 추출한다.

음성은 예를 들어, "오늘 날씨(今天天氣)"에 대응하는 음성이다.

여러 가지 관련 기술을 사용하여 음향적 특징을 추출할 수 있고, 음향적 특징은 예를 들어, 필터뱅크(Filterbank) 특징이다.

302, 인코더를 사용하여, 상기 음향적 특징을 인코딩하여, 인코딩 특징을 획득한다.

인코더는 장단기 기억 네트워크(Long Short-Term Memory, LSTM) 모델과 같은 RNN모델일 수도 있다.

303, 주의력 모델을 사용하여, 상기 인코딩 특징에 대해 주의력 처리를 하여, 주의력 처리 후의 특징을 획득한다.

주의력 모델은 멀티-헤딩 주의력 모델(multi-headed attention)과 같은 여러 가지 관련 기술에서의 모델을 사용할 수 있다.

본 실시예에서, 음향적 특징을 추출하고, 음향적 특징을 인코딩하여, 인코딩 특징에 대해 주의력 처리를 하는 것에 의해, 시멘틱 특징을 획득할 수 있고, 시멘틱 특징을 디코딩하여 예측 텍스트를 획득할 수 있고, 예측 텍스트에 기반하여 음성 인식 모델을 트레이닝할 수 있다.

304, 음향 디코딩 모델을 사용하여, 하나 전의 순간 출력 문자 및 상기 주의력 처리 후의 특징을 처리하여, 상기 음성에 대응하는 적어도 하나의 후보 텍스트 중의 각 후보 텍스트에 대응하는 제1 확률을 획득한다.

음향 디코딩 모델은 장단기 기억 네트워크(Long Short-Term Memory, LSTM) 모델과 같은 RNN모델일 수도 있다.

예를 들어, 음성은 "오늘 날씨(今天天氣)"에 대응하는 음성이며, 현재 순간은 "今"을 예측할 경우, 음향 디코딩 모델을 사용하여, 시작 문자 [SOS] 및 현재 순간 주의력 처리 후의 특징 c1에 기반하여 처리하여, 각 후보 텍스트에 대응하는 제1 확률을 획득하고, 예를 들어, 각 후보 텍스트가 금(今), 금(金) 등을 포함할 경우, 금(今)의 제1 확률, 금(金)의 제1 확률 등을 예측하여 획득할 수 있다.

305, 언어 모델을 사용하여, 하나 전의 순간 출력 문자를 처리하여, 상기 각 후보 텍스트에 대응하는 제2 확률을 획득한다.

언어 모델은 RNN 모델, 변환기(Transformer) 모델 등과 같은 신경망 모델일 수도 있다.

예를 들어, 현재 순간은 "今"을 예측할 경우, 언어 모델을 사용하여, 시작 문자 [SOS]에 기반하여 처리하여, 각 후보 텍스트에 대응하는 제2 확률을 획득할 수 있고, 예를 들어, 각 후보 텍스트가 금(今), 금(金) 등을 포함할 경우, 금(今)의 제2 확률, 금(金)의 제2 확률 등을 예측하여 획득할 수 있다.

306, 상기 제1 확률과 상기 제2 확률에 기반하여, 상기 각 후보 텍스트에 대응하는 융합 확률을 획득한다.

구체적으로, 상기 각 후보 텍스트에 대응하여, 상기 제1 확률과 상기 제2 확률을 가중 합산하여, 가중 합산 값을 획득하고, 상기 가중 합산 값을 대응하는 후보 텍스트의 융합 확률로 결정할 수 있다.

예를 들어, "今"에 대응하고, "今"의 제1 확률과 제2 확률에 대해 가중 합산한 후, "今"의 융합 확률을 획득할 수 있다.

본 실시예에서, 제1 확률과 제2 확률에 대해 가중 합산하여 융합 확률을 획득함으로써, 융합 확률의 계산을 용이하게 구현할 수 있다.

307, 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택한다.

구체적으로, 융합 확률이 큰 것부터 작은 것 순서로, 수가 빔 검색(beam search)의 폭의 후보 텍스트를 선택할 수 있고, 예를 들어, 빔 검색(beam search)의 폭은 N로 표시하고, N=2이라고 가정할 경우, 제1 순간에 대응하고, "今"과 "金"의 융합 확률이 비교적으로 높은 2개라고 가정할 경우, "今"과 "金"을 제1 순간 후보 텍스트로 선택할 수 있다.

308, 상기 미리 설정된 수의 후보 텍스트에 상기 음성에 대응하는 표준 텍스트가 존재하는지 여부를 판단하고, 존재하는 경우, 309를 수행하고, 그렇지 않은 경우, 310을 수행한다.

음성에 대응하는 표준 텍스트는 수동으로 라벨링하는 방식을 사용하여 획득할 수 있고, 예를 들어, 제1 순간에 대응하고, 표준 텍스트는 "今"이다.

309, 상기 미리 설정된 수의 후보 텍스트를 예측 텍스트로 결정한다.

310, 상기 표준 텍스트를 사용하여 상기 미리 설정된 수의 후보 텍스트 중 하나의 후보 텍스트를 대체하여, 대체 후의 텍스트를 획득하고, 상기 대체 후의 텍스트를 예측 텍스트로 결정한다.

예를 들어, 제1 순간에 대응하고, 표준 텍스트는 "今"이며, 선택된 N개의 후보 텍스트에는 "金"과 "斤"이며, "今"이 포함되지 않은 경우, 강제적으로 예측 텍스트에 표준 텍스트 "今"을 포함시킬 수 있다. 구체적으로, 인코딩의 방식을 사용하여, 지정된 출력 패스 또는 랜덤으로 선택된 출력 패스에서, 표준 텍스트를 사용하여 앞의 후보 텍스트를 대체할 수 있고, 예를 들어, "今"으로 "斤"을 대체하면, 예측 텍스트는 "今"과 "金"이다.

관련 기술에서, 변별 학습할 경우, 일반적으로, 평균 오류율보다 높은 후보 텍스트를 억제하고, 평균 오류율보다 낮은 후보 텍스트를 권장한다. 그러나, N개의 후보 텍스트에 완전히 정확한 결과가 없을 경우, 틀린 결과를 권장하는 문제가 발생할 수 있다.

본 실시예에서, 표준 텍스트를 사용하여 후보 텍스트를 대체하는 방식에 의해, 강제적으로 예측 텍스트에 표준 텍스트를 포함할 수 있고, 음성 인식 모델의 인식 효과를 향상시킬 수 있다.

311, 상기 음성에 대응하는 표준 텍스트와 상기 예측 텍스트에 기반하여, 상기 예측 텍스트의 누적 오류 수를 획득하고, 상기 누적 오류 수는 이력 오류 수와 현재 오류 수에 기반하여 획득한다.

현재 오류 수는 현재 순간의 예측 텍스트가 표준 텍스트에 대한 오류 수를 가리키고, 이력 오류 수는 현재 순간 앞 이력 순간의 예측 텍스트가 표준 텍스트에 대한 오류 수를 가리킨다.

예를 들어, 도 4를 참조하면, 표준 텍스트는 "오늘 날씨(今天天氣)"이며, 관련 기술에서, 도 4의 상측에 도시된 바와 같이, 오류 수를 계산할 경우, 문장 전체를 기준으로 하고, 3개의 예측 텍스트의 문장 전체 오류 수(글로벌 오류 수)는 모두 1이므로, 국부적인 오류 조정을 할 수 없다.

본 실시예에서, 도 4의 하측에 도시된 바와 같이, 각 순간에 기반하여 오류 수를 계산하고, 예를 들어, 제1 순간에 대해, "今" "金"의 오류 수를 계산하고, 제2 순간에 대해, "今"과 "天"의 누적 오류 수 및 "金"과 "天"의 누적 오류 수를 계산하고, 제3 순간에 대해, "今", "天" 및 "天"의 누적 오류 수와, "金", "天" 및 "天"의 누적 오류 수와, "今", "天" 및 "添"의 누적 오류 수를 계산하고, 문장 전체의 종료까지, 이에 따라 유추한다.

본 실시예에서, 누적 오류 수를 계산함으로써, 국부적인 오류 조정을 구현할 수 있다.

312, 상기 예측 텍스트의 누적 오류 수에 기반하여, 손실 함수를 획득한다.

313, 상기 손실 함수에 기반하여, 음성 인식 모델을 트레이닝한다.

본 실시예에서, 음향 디코딩 모델을 사용하여 제1 확률을 계산하고, 언어 모델을 사용하여 제2 확률을 계산하고, 제1 확률과 제2 확률에 기반하여 융합 확률을 획득하고, 융합 확률에 기반하여 후보 텍스트를 선택함으로써, 더 정확한 후보 텍스트를 획득하고, 음성 인식 모델의 인식 효과를 더 향상시킬 수 있다.

도 5는 본 발명의 제5 실시예에 따른 개략도이다. 본 실시예는 음성 인식 모델의 트레이닝 장치를 제공하고, 해당 장치(500)는 처리 모듈(501), 결정 모듈(502) 및 트레이닝 모듈(503)을 포함한다. 처리 모듈(501)은 상기 음향 디코딩 모델과 상기 언어 모델에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하는데 사용되고, 결정 모듈(502)은 상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는데 사용되고, 트레이닝 모듈(503)은 상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝하는데 사용된다.

일부 실시예에서, 상기 처리 모듈(501)은 구체적으로, 상기 음향 디코딩 모델을 사용하여, 하나 전의 순간의 출력 텍스트와 현재 순간의 음향 관련 정보를 처리하여, 음성에 대응하는 적어도 하나의 후보 텍스트에 대응하는 제1 확률을 획득하고, 상기 언어 모델을 사용하여, 하나 전의 순간의 출력 텍스트를 처리하여, 상기 후보 텍스트에 대응하는 제2 확률을 획득하고, 상기 제1 확률과 상기 제2 확률에 기반하여, 상기 후보 텍스트의 융합 확률을 획득하는데 사용된다.

일부 실시예에서, 상기 처리 모듈(501)은 또한, 구체적으로, 상기 후보 텍스트에 대응하여, 상기 제1 확률과 상기 제2 확률을 가중 합산하여, 가중 합산 값을 획득하고, 상기 가중 합산 값을 대응하는 후보 텍스트의 융합 확률로 결정하는데 사용된다.

일부 실시예에서, 상기 결정 모듈(502)은 구체적으로, 상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함될 경우, 상기 미리 설정된 수의 후보 텍스트를 예측 텍스트로 결정하거나, 또는, 상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함되지 않은 경우, 상기 표준 텍스트를 사용하여 상기 미리 설정된 수의 후보 텍스트 중 하나의 후보 텍스트를 대체하여, 대체 후의 텍스트를 획득하고, 상기 대체 후의 텍스트를 예측 텍스트로 결정하는데 사용된다.

일부 실시예에서, 상기 트레이닝 모듈(503)은 구체적으로, 상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 상기 예측 텍스트의 누적 오류 수를 획득하고, 상기 누적 오류 수는 이력 오류 수(historical error number)와 현재 오류 수(current error number)에 기반하여 획득하고, 상기 예측 텍스트의 누적 오류 수에 기반하여, 손실 함수를 획득하는데 사용된다.

일부 실시예에서, 도 6에 도시된 바와 같이, 음성 인식 모델의 트레이닝 장치를 더 제공하고, 해당 장치(600)는 처리 모듈(601), 결정 모듈(602) 및 트레이닝 모듈(603)을 포함하고, 추출 모듈(604), 인코딩 모듈(605) 및 주의력 처리 모듈(606)을 더 포함한다.

추출 모듈(604)은 상기 음성의 음향적 특징을 추출하는데 사용되고, 인코딩 모듈(605)은 상기 음향적 특징을 인코딩하여, 인코딩 특징을 획득하는데 사용되고, 주의력 처리 모듈(606)은 상기 인코딩 특징을 처리하고, 상기 주의력 처리 후의 특징을 획득하는데 사용된다.

본 발명의 실시예에서, 음향적 특징을 추출하고, 음향적 특징을 인코딩하여, 인코딩 특징에 대해 주의력 처리를 하는 것에 의해, 시멘틱 특징을 획득할 수 있고, 시멘틱 특징을 디코딩하여 예측 텍스트를 획득할 수 있고, 예측 텍스트에 기반하여 음성 인식 모델을 트레이닝할 수 있다. 음향 디코딩 모델을 사용하여 제1 확률을 계산하고, 언어 모델을 사용하여 제2 확률을 계산하고, 제1 확률과 제2 확률에 기반하여 융합 확률을 획득하고, 융합 확률에 기반하여 후보 텍스트를 선택함으로써, 더 정확한 후보 텍스트를 획득하고, 음성 인식 모델의 인식 효과를 더 향상시킬 수 있다. 제1 확률과 제2 확률에 대해 가중 합산하여 융합 확률을 획득함으로써, 융합 확률의 계산을 용이하게 구현할 수 있다. 누적 오류 수를 계산함으로써, 국부적인 오류 조정을 구현할 수 있다.

본 발명의 실시예에서, 서로 다른 실시예에서의 동일하거나 또는 유사한 내용은 서로 참조하는 것이 할 수 있는 것을 이해할 수 있다.

본 발명의 실시예에서의 "제1" 및 "제2" 등은 단지 구분하기 위한 것일 뿐, 중요도의 고저, 타이밍의 전후 등을 표시하는 것이 아님을 이해할 수 있다.

본 발명의 실시예에 의하면, 본 발명은 전자 기기, 판독 가능 기록 매체 및 컴퓨터 프로그램 제품을 더 제공한다.

도 7에 도시된 바와 같이, 본 발명의 실시예를 구현하는데 사용되는 예시적인 전자 기기(700)의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 계산 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.

도 7에 도시된 바와 같이, 전자 기기(700)는 계산 유닛(701)을 포함하고, 계산 유닛(701)은 판독 전용 메모리(ROM)(702)에 저장되어 있는 컴퓨터 프로그램 또는 저장 유닛(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로드된 컴퓨터 프로그램에 따라, 다양한 적절한 동작과 처리를 실행할 수 있다. RAM(703)에는 전자 기기(700)가 동작하는데 필요한 여러 가지 프로그램과 데이터도 저장할 수 있다. 계산 유닛(701), ROM(702) 및 RAM(703)는 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.

전자 기기(700) 중의 복수 컴포넌트는 I/O 인터페이스(705)에 연결되고, 키보드, 마우스 등과 같은 입력 유닛(706); 여러 가지 타입의 디스플레이, 스피커 등과 같은 출력 유닛(707); 디스크, 광디스크 등과 같은 저장 유닛(708) 및 네트워크 카드, 모뎀, 무선통신 트랜시버 등과 같은 통신 유닛(709)을 포함한다. 통신 유닛(709)은 전자 기기(700)가 인터넷 등과 같은 컴퓨터 네트워크 및 여러 가지 통신 네트워크 중의 적어도 하나를 통해 다른 기기와 정보/데이터를 교환할 수 있다.

계산 유닛(701)은 여러 가지 처리와 계산 능력을 갖춘 범용 처리 컴포넌트 및 전용 처리 컴포넌트 중의 적어도 하나일 수 있다. 계산 유닛(701)의 일부 예는, 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 다양한 전용 인공지능(AI) 계산 팁, 다양한 기계학습 모델 알고리즘을 실행하는 계산 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 한정되지 않는다. 계산 유닛(701)은 음성 인식 모델의 트레이닝 방법 등과 같은 상기의 다양한 방법과 처리를 실행한다. 예를 들면, 일부 실시예에서, 음성 인식 모델의 트레이닝 방법은 저장 유닛(708) 등과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현할 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및 통신 유닛(709) 중의 적어도 하나를 통해 전자 기기(700)에 로드 및/또는 인스톨될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로드되어 계산 유닛(701)에 의해 실행될 경우, 상기의 음성 인식 모델의 트레이닝 방법의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 다른 실시예에서, 계산 유닛(701)은 다른 임의의 적절한 방식(예를 들면, 펌웨어에 의해)을 통해 음성 인식 모델의 트레이닝 방법을 실행하도록 구성될 수 있다.

여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래밍 가능한 게이트 어레이(FPGA), 특정 용도 대상 집적 회로(ASIC), 특정 용도 대상 표준제품(ASSP), 시스템 온 칩 시스템(SOC), 부하 프로그래밍 가능 논리 장치(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 결합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

본 발명의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 결합을 사용하여 작성할 수 있다. 이러한 프로그램 코드는 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행될 때 흐름도 및 블록도 중의 적어도 하나에 규정된 기능/동작이 실행되도록, 대형 기계(슈퍼 컴퓨터), 전용 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립된 소프트웨어 패키지로서 부분적으로 기계에서 실행되고, 부분적으로 리모트 기계에서 실행되거나 또는 완전히 리모트 기계 또는 서버에서 실행될 수 있다.

본 발명의 문맥에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기의 사용, 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형적인 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적절한 결합을 포함하지만, 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예는 하나 또는 복수의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 포터블 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 상술한 내용의 임의의 적절한 결합을 포함한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 계산 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 계산 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 계산 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 결합을 포함하는 계산 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 클라우드 계산 또는 클라우드 호스트일 수도 있으며, 클라우드 계산 서비스 시스템 중의 하나의 호스트 제품일 수 있어, 종래의 물리 호스트와 VPS 서비스 ("Virtual Private Server" 또는 "VPS"라고 약칭한다)에 존재하는 관리 곤란도가 높고, 업무 확장성이 약한 것을 해결한다. 서버는 분산 시스템의 서버일 수 있거나, 또는 블록 체인을 결합한 서버일 수도 있다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 발명에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.

상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 결합, 서브 결합 및 대체를 진행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

음성 인식 모델의 트레이닝 방법(a training method for speech recognition model)에 있어서,
상기 음성 인식 모델은 음향 디코딩 모델과 언어 모델을 포함하고, 상기 방법은,
상기 음향 디코딩 모델과 상기 언어 모델에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하는 단계;
상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는 단계; 및
상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝하는 단계;
를 포함하는,
음성 인식 모델의 트레이닝 방법.
제1항에 있어서,
상기 음향 디코딩 모델과 상기 언어 모델에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하는 단계는,
상기 음향 디코딩 모델을 사용하여, 하나 전의 순간(previous moment)의 출력 텍스트와 현재 순간(current moment)의 음향 관련 정보를 처리하여, 음성에 대응하는 적어도 하나의 후보 텍스트에 대응하는 제1 확률을 획득하는 단계;
상기 언어 모델을 사용하여, 상기 하나 전의 순간의 출력 텍스트를 처리하여, 상기 후보 텍스트에 대응하는 제2 확률을 획득하는 단계; 및
상기 제1 확률과 상기 제2 확률에 기반하여, 상기 후보 텍스트의 융합 확률을 획득하는 단계;를 포함하는,
음성 인식 모델의 트레이닝 방법.
제2항에 있어서,
상기 제1 확률과 상기 제2 확률에 기반하여, 상기 후보 텍스트의 융합 확률을 획득하는 단계는,
상기 후보 텍스트에 대응하여, 상기 제1 확률과 상기 제2 확률을 가중 합산하여, 가중 합산 값을 획득하고, 상기 가중 합산 값을 대응하는 후보 텍스트의 융합 확률로 결정하는 단계;를 포함하는,
음성 인식 모델의 트레이닝 방법.
제1항에 있어서,
상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하는 단계는,
상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함될 경우, 상기 미리 설정된 수의 후보 텍스트를 예측 텍스트로 결정하는 단계; 및
상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함되지 않은 경우, 상기 표준 텍스트를 사용하여 상기 미리 설정된 수의 후보 텍스트 중 하나의 후보 텍스트를 대체하여, 대체 후의 텍스트를 획득하고, 상기 대체 후의 텍스트를 예측 텍스트로 결정하는 단계;를 포함하는,
음성 인식 모델의 트레이닝 방법.
제1항에 있어서,
상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하는 단계는,
상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 상기 예측 텍스트의 누적 오류 수를 획득하는 단계 - 상기 누적 오류 수는 이력 오류 수(historical error number)와 현재 오류 수(current error number)에 기반하여 획득함 -; 및
상기 예측 텍스트의 누적 오류 수에 기반하여, 손실 함수를 획득하는 단계;를 포함하는,
음성 인식 모델의 트레이닝 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 음성 인식 모델은 인코더와 주의력 모델을 더 포함하고, 음향 관련 정보는 주의력 처리 후의 특징이며,
상기 방법은,
상기 음성의 음향적 특징을 추출하는 단계;
상기 인코더를 사용하여, 상기 음향적 특징을 인코딩하여, 인코딩 특징을 획득하는 단계; 및
상기 주의력 모델을 사용하여, 상기 인코딩 특징을 주의력 처리하여, 상기 주의력 처리 후의 특징을 획득하는 단계;
를 더 포함하는,
음성 인식 모델의 트레이닝 방법.
음성 인식 모델의 트레이닝 장치(a training device for speech recognition model)에 있어서,
음향 디코딩 모델(acoustic decoding model)과 언어 모델(language model)에 기반하여, 음성에 대응하는 적어도 하나의 후보 텍스트의 융합 확률을 획득하기 위한 처리 모듈;
상기 융합 확률에 기반하여, 미리 설정된 수의 후보 텍스트를 선택하고, 상기 미리 설정된 수의 후보 텍스트에 기반하여 예측 텍스트를 결정하기 위한 결정 모듈; 및
상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 손실 함수를 획득하고, 상기 손실 함수에 기반하여 상기 음성 인식 모델을 트레이닝하기 위한 트레이닝 모듈;
을 포함하는,
음성 인식 모델의 트레이닝 장치.
제7항에 있어서,
상기 처리 모듈은, 구체적으로,
상기 음향 디코딩 모델을 사용하여, 하나 전의 순간의 출력 텍스트와 현재 순간의 음향 관련 정보를 처리하여, 음성에 대응하는 적어도 하나의 후보 텍스트에 대응하는 제1 확률을 획득하고,
상기 언어 모델을 사용하여, 하나 전의 순간의 출력 텍스트를 처리하여, 상기 후보 텍스트에 대응하는 제2 확률을 획득하고,
상기 제1 확률과 상기 제2 확률에 기반하여, 상기 후보 텍스트의 융합 확률을 획득하는데 사용되는,
음성 인식 모델의 트레이닝 장치.
제8항에 있어서,
상기 처리 모듈은, 또한, 구체적으로,
상기 후보 텍스트에 대응하여, 상기 제1 확률과 상기 제2 확률을 가중 합산하여, 가중 합산 값을 획득하고, 상기 가중 합산 값을 대응하는 후보 텍스트의 융합 확률로 결정하는데 사용되는,
음성 인식 모델의 트레이닝 장치.
제7항에 있어서,
상기 결정 모듈은, 구체적으로,
상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함될 경우, 상기 미리 설정된 수의 후보 텍스트를 예측 텍스트로 결정하고,
상기 미리 설정된 수의 후보 텍스트에 상기 표준 텍스트가 포함되지 않은 경우, 상기 표준 텍스트를 사용하여 상기 미리 설정된 수의 후보 텍스트 중 하나의 후보 텍스트를 대체하여, 대체 후의 텍스트를 획득하고, 상기 대체 후의 텍스트를 예측 텍스트로 결정하는데 사용되는,
음성 인식 모델의 트레이닝 장치.
제7항에 있어서,
상기 트레이닝 모듈은, 구체적으로,
상기 예측 텍스트와 상기 음성에 대응하는 표준 텍스트에 기반하여, 상기 예측 텍스트의 누적 오류 수를 획득하고, 상기 누적 오류 수는 이력 오류 수와 현재 오류 수에 기반하여 획득하고,
상기 예측 텍스트의 누적 오류 수에 기반하여, 손실 함수를 획득하는데 사용되는,
음성 인식 모델의 트레이닝 장치.
제7항 내지 제11항 중 어느 한 항에 있어서,
상기 음성 인식 모델은 인코더와 주의력 모델을 더 포함하고, 음향 관련 정보는 주의력 처리 후의 특징이며, 상기 장치는,
상기 음성의 음향적 특징을 추출하기 위한 추출 모듈;
상기 음향적 특징을 인코딩하여, 인코딩 특징을 획득하기 위한 인코딩 모듈; 및
상기 인코딩 특징을 처리하고, 상기 주의력 처리 후의 특징을 획득하기 위한 주의력 처리 모듈;
을 더 포함하는,
음성 인식 모델의 트레이닝 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제6항 중 어느 한 항의 방법이 수행되도록 하는,
전자 기기.
컴퓨터 명령이 기억되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항의 방법을 수행하도록 하는,
비일시적 컴퓨터 판독 가능 기록 매체.
컴퓨터 프로그램 제품에 있어서,
컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 수행될 때, 제1항 내지 제6항 중 어느 한 항의 방법을 구현하는,
컴퓨터 프로그램 제품.
비일시적 컴퓨터 판독 가능 기록 매체에 기억되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 상기 컴퓨터가 제1항 내지 제6항 중 어느 한 항의 방법을 수행하도록 하는,
비일시적 컴퓨터 판독 가능 기록 매체에 기억되어 있는 컴퓨터 프로그램.