KR20220035222A

KR20220035222A - 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체

Info

Publication number: KR20220035222A
Application number: KR1020227005374A
Authority: KR
Inventors: 리 수; 지아 판; 지구오 왕; 구오핑 후
Original assignee: 아이플라이텍 캄파니 리미티드
Priority date: 2019-11-25
Filing date: 2020-11-17
Publication date: 2022-03-21
Also published as: CN110956959B; KR102648306B1; EP4068280A1; CN110956959A; US20220383853A1; WO2021104102A1; JP2022552662A; EP4068280A4

Abstract

음성 인식 오류 정정 방법, 관련 디바이스들 및 판독 가능 저장 매체. 방법은 인식될 음성 데이터 및 그의 제1 인식 결과를 획득하는 단계(S101); 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여, 음성 데이터에 대해 재인식을 수행하는 단계(S102); 및 제2 인식 결과에 따라 최종 인식 결과를 결정하는 단계(S103)를 포함한다. 상기의 해결 수단에서, 제1 인식 결과의 컨텍스트 정보가 참조되고, 재인식은 음성 데이터에 대해 수행되고, 인식 결과들의 컨텍스트 정보의 적용 시나리오 및 음성 데이터가 완전히 고려되며, 제1 인식 결과가 잘못된 경우, 재인식을 통해 결과에 대해 오류 정정이 수행될 수 있다. 따라서, 음성 인식의 정확도가 향상될 수 있다. 또한, 키워드가 제1 인식 결과로부터 더 추출될 수 있고, 이를 기반으로, 음성 데이터에 대해 재인식을 수행하는 데 제1 인식 결과의 컨텍스트 정보 및 키워드가 참조될 수 있으며, 이에 따라, 제2 인식 결과의 정확도가 더 향상될 수 있다.

Description

음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체

본 출원은, 그 전체가 참조로서 여기에 포함되는, 2019년 11월 25일에 출원된 “음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체”라는 명칭의 중국 특허 출원 제201911167009.0호의 우선권을 주장한다.

최근 몇 년 동안, 인공 지능 기술의 급속한 발전으로 인해, 인공 지능 디바이스들은 점차 대중의 생활과 업무에 들어가 없어서는 안될 존재가 되었다. 인간-기계 상호 작용의 가장 자연스러운 방식인 음성 상호 작용은 인간과 기계들 사이의 의사 소통을 용이하게 하기 위해 다양한 인공 지능 디바이스들에 널리 사용된다. 음성 상호 작용 과정에서, 음성 인식 기술을 기반으로 하는 기계들은 인간의 언어를 이해하여, 인간에게 봉사한다.

현재, 딥 러닝(deep learning)을 기반으로 하는 음성 인식 기술은 성숙하고 있으며, 기존의 음성 인식 모델들을 이용하여 일반적인 시나리오들에서 만족스러운 인식 정확도가 달성된다. 그러나, 일부 특수한 시나리오들(예컨대, 전문 분야들)의 음성은 일반적으로, 일반적인 시나리오들에서는 드문 일부 기술적 용어들을 포함하며, 이에 따라, 기존의 음성 인식 모델은 이러한 단어들을 잘 인식하지 못할 수 있다. 일부 특수한 시나리오들에서, 기존의 음성 인식 모델로의 이러한 단어들을 포함하는 음성의 인식은 종종 오류들을 발생하여, 음성 인식의 낮은 정확도를 초래한다.

따라서, 해당 기술분야에서 통상의 지식을 가진 사람에 대해 음성 인식의 정확도를 향상시킬 필요가 있다.

상기의 문제점들을 감안하여, 본 개시에 따른 음성 인식 오류 정정 방법 및 디바이스, 및 판독 가능 저장 매체가 제공된다. 해결 수단은 후술된다.

본 개시의 제1 양태에 따르면, 음성 인식 오류 정정 방법이 제공된다. 상기 방법은,

인식될(to-be-recognized) 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하는 단계;

제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트(context) 정보를 참조하여 상기 음성 데이터를 재인식하는 단계; 및

상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계

를 포함한다.

본 개시의 제2 양태에 따르면, 다른 음성 인식 오류 정정 방법이 제공된다. 상기 방법은,

인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하는 단계;

상기 제1 인식 결과로부터 키워드를 추출하는 단계;

제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하는 단계; 및

를 포함한다.

일 실시예에서, 상기 제1 인식 결과로부터 키워드를 추출하는 단계는,

상기 제1 인식 결과로부터의 분야-특정(field-specific) 단어를 상기 키워드로서 추출하는 단계

를 포함한다.

일 실시예에서, 제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하는 단계는,

상기 음성 데이터의 음향 특징을 획득하는 단계; 및

상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하는 단계

를 포함하고, 여기서,

상기 음성 인식 오류 정정 모델은 오류-정정 훈련 데이터 셋을 이용하여 미리 설정된 모델을 훈련함으로써 획득되고,

상기 오류-정정 훈련 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스(piece)의 음성 데이터의 음향 특징, 상기 하나의 피스의 음성 데이터에 대응하는 텍스트, 상기 하나의 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 상기 제1 인식 결과의 키워드를 포함한다.

일 실시예에서, 상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하는 단계는,

상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩(encoding) 및 어텐션(attention) 계산을 수행하는 단계, 및 계산 결과에 기반하여 상기 제2 인식 결과를 획득하는 단계

를 포함한다.

일 실시예에서, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계, 및 계산 결과에 기반하여 상기 제2 인식 결과를 획득하는 단계는,

상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및

상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여 상기 계산 결과를 디코딩하는 단계

를 포함한다.

병합된 벡터(merged vector)를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 병합하는 단계;

상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어에 의해, 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및

상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어에 의해, 상기 계산 결과를 디코딩하는 단계

를 포함한다.

일 실시예에서, 상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,

각 타겟 오브젝트에 대해,

상기 타겟 오브젝트의 음향 어드밴스드(advanced) 특징을 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어에 의해, 상기 타겟 오브젝트를 인코딩하는 단계;

상기 타겟 오브젝트와 관련된 히든(hidden) 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 타겟 오브젝트와 관련된 이전 시맨틱(semantic) 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및

상기 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 타겟 오브젝트의 상기 음향 어드밴스드 특징 및 상기 타겟 오브젝트와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계

를 포함하고,

상기 타겟 오브젝트는 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과, 및 상기 키워드를 포함한다.

일 실시예에서, 상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어 및 상기 어텐션 레이어에 의해, 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,

상기 병합된 벡터의 음향 어드밴스드 특징을 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어에 의해, 상기 병합된 벡터를 인코딩하는 단계;

상기 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 병합된 벡터와 관련된 이전 시맨틱 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및

상기 병합된 벡터와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 병합된 벡터의 상기 음향 어드밴스드 특징 및 상기 병합된 벡터와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계

를 포함한다.

일 실시예에서, 상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계는,

상기 제1 인식 결과의 신뢰도(confidence) 및 상기 제2 인식 결과의 신뢰도를 획득하는 단계; 및

상기 제1 인식 결과 및 상기 제2 인식 결과 중 더 높은 신뢰도를 갖는 것을 상기 최종 인식 결과로서 결정하는 단계

를 포함한다.

본 개시의 제3 양태에 따르면, 음성 인식 오류 정정 디바이스가 제공된다. 디바이스는 획득 유닛, 제1 음성 인식 유닛, 및 인식 결과 결정 유닛을 포함한다.

획득 유닛은 인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하도록 구성된다.

제1 음성 인식 유닛은 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 상기 음성 데이터를 재인식하도록 구성된다.

인식 결과 결정 유닛은 상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성된다.

본 개시의 제4 양태에 따르면, 다른 음성 인식 오류 정정 디바이스가 제공된다. 디바이스는 획득 유닛, 키워드 추출 유닛, 제2 음성 인식 유닛 및 인식 결과 결정 유닛을 포함한다.

키워드 추출 유닛은 상기 제1 인식 결과로부터 키워드를 추출하도록 구성된다.

제2 음성 인식 유닛은 제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하도록 구성된다.

일 실시예에서, 상기 키워드 추출 유닛은 분야-특정 단어 추출 유닛을 포함한다.

분야-특정 단어 추출 유닛은 상기 제1 인식 결과로부터의 분야-특정 단어를 키워드로서 추출하도록 구성된다.

일 실시예에서, 제2 음성 인식 유닛은 음향 특징 획득 유닛 및 모델 프로세싱 유닛을 포함한다.

상기 음향 특징 획득 유닛은 상기 음성 데이터의 음향 특징을 획득하도록 구성된다.

상기 모델 프로세싱 유닛은 상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음향 인식 오류 정정 모델에 입력하도록 구성된다. 음성 인식 오류 정정 모델은 오류-정정 훈련 데이터 셋을 이용하여 미리 설정된 모델을 훈련함으로써 획득된다.

상기 오류-정정 훈련 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스의 음성 데이터의 음향 특징, 상기 하나의 피스의 음성 데이터에 대응하는 텍스트, 상기 하나의 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 상기 제1 인식 결과의 키워드를 포함한다.

일 실시예에서, 상기 모델 프로세싱 유닛은 인코딩 및 어텐션 계산 유닛 및 인식 유닛을 포함한다.

상기 인코딩 및 어텐션 계산 유닛은 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.

상기 인식 유닛은 상기 계산 결과에 기반하여 상기 제2 인식 결과를 획득하도록 구성된다.

일 실시예에서, 상기 인코딩 및 어텐션 계산 유닛은 제1 인코딩 및 어텐션 계산 유닛을 포함하고, 상기 인식 유닛은 제1 디코딩 유닛을 포함한다.

상기 제1 인코딩 및 어텐션 계산 유닛은 상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.

상기 제1 디코딩 유닛은 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여 상기 계산 결과를 디코딩하도록 구성된다.

일 실시예에서, 상기 모델 프로세싱 유닛은 병합 유닛을 더 포함한다. 상기 인코딩 및 어텐션 계산 유닛은 제2 인코딩 및 어텐션 계산 유닛을 포함한다. 인식 유닛은 제2 디코딩 유닛을 포함한다.

상기 병합 유닛은 병합된 벡터를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 병합하도록 구성된다.

상기 제2 인코딩 및 어텐션 계산 유닛은 상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어 및 상기 어텐션 레이어를 이용하여 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.

상기 제2 디코딩 유닛은 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 디코딩 레이어를 이용하여 상기 계산 결과를 디코딩하도록 구성된다.

일 실시예에서, 상기 제1 인코딩 및 어텐션 계산 유닛은 제1 인코딩 유닛 및 제1 어텐션 계산 유닛을 포함한다.

상기 제1 인코딩 유닛은 각 타겟 오브젝트의 상기 음향 어드밴스드 특징을 획득하기 위해, 상기 음향 인식 오류 정정 모델의 상기 인코딩 레이어를 이용하여 상기 타겟 오브젝트를 인코딩하도록 구성된다.

상기 제1 어텐션 계산 유닛은 상기 타겟 오브젝트와 관련된 히든 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어를 이용하여 각 타겟 오브젝트와 관련된 이전 시맨틱 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하며; 상기 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어를 이용하여 상기 타겟 오브젝트의 상기 음향 어드밴스드 특징 및 상기 타겟 오브젝트와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하도록 구성된다. 상기 타겟 오브젝트는 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과, 및 상기 키워드를 포함한다.

일 실시예에서, 상기 제2 인코딩 및 어텐션 계산 유닛은 제2 인코딩 유닛 및 제2 어텐션 계산 유닛을 포함한다.

상기 제2 인코딩 유닛은 상기 병합된 벡터의 상기 음향 어드밴스드 특징을 획득하기 위해, 상기 음향 인식 오류 정정 모델의 상기 인코딩 레이어를 이용하여 상기 병합된 벡터를 인코딩하도록 구성된다.

상기 제2 어텐션 계산 유닛은 상기 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어를 이용하여 상기 병합된 벡터와 관련된 이전 시맨틱 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하며; 상기 병합된 벡터와 관련된 상기 시맨틱 벡터를 획득하기 위해, 상기음성 인식 오류 정정 모델의 상기 어텐션 레이어를 이용하여 상기 병합된 벡터의 상기 음향 어드밴스드 특징 및 상기 병합된 벡터와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하도록 구성된다.

일 실시예에서, 상기 인식 결과 결정 유닛은 신뢰도 획득 유닛 및 결정 유닛을 포함한다.

신뢰도 획득 유닛은 상기 제1 인식 결과의 신뢰도 및 상기 제2 인식 결과의 신뢰도를 획득하도록 구성된다.

결정 유닛은 상기 제1 인식 결과 및 상기 제2 인시 결과 중 더 높은 신뢰도를 갖는 것을 최종 인식 결과로서 결정하도록 구성된다.

본 개시의 제5 양태에 따르면, 음성 인식 오류 정정 시스템이 제공된다. 상기 시스템은 메모리 및 프로세서를 포함한다.

상기 메모리는 프로그램을 저장하도록 구성된다.

상기 프로세서는 전술된 음성 인식 오류 정정 방법을 수행하기 위해 상기 프로그램을 실행시키도록 구성된다.

본 개시의 제6 양태에 따르면, 판독 가능 저장 매체가 제공된다. 판독 가능 저장 매체는, 프로세서에 의해 실행될 때, 전술된 음성 인식 오류 정정 방법을 수행하는 컴퓨터 프로그램을 저장한다.

본 개시의 제7 실시예에 따르면, 컴퓨터 프로그램 제품이 제공된다. 컴퓨터 프로그램 제품은, 단말 디바이스에서 실행될 때, 상기 단말 디바이스가 전술된 음성 인식 오류 정정 방법을 수행하게 한다.

본 개시의 해결 수단에 따르면, 음성 인식 오류 정정 방법 및 디바이스, 및 판독 가능 저장 매체가 제공된다. 방법은, 인식될 음성 데이터 및 음성 데이터의 제1 인식 결과를 획득하는 단계, 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하는 단계, 및 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계를 포함한다. 이 방법에서, 음성 데이터는 제1 인식 결과의 컨텍스트 정보를 참조하여 재인식되며, 이는 그 인식 결과의 컨텍스트 정보와 음성 데이터의 적용 시나리오를 충분히 고려한다. 제1 인식 결과에 어떤 오류가 발생하면, 제2 인식에 기반하여, 제1 인식 결과는 정정된다. 따라서, 음성 인식의 정확도가 향상될 수 있다.

상기에 기초하여, 제1 인식 결과로부터 키워드가 더 추출될 수 있다. 음성 데이터는 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여 재인식될 수 있으며, 이로써, 제2 인식 결과의 정확도가 더 향상될 수 있다.

이하, 바람직한 실시예들의 상세한 설명을 읽음으로써, 다양한 다른 이득들 및 장점들은 해당 기술분야에서 통상의 지식을 가진 사람에게 명백하다. 도면은 본 개시를 제한하기 보다는 바람직한 실시예들을 예시하기 위해 사용된다. 도면 전체에 걸쳐, 동일한 참조 부호들은 동일한 구성 요소들을 나타내는 데 사용된다. 도면에서,
도 1은 본 개시의 일 실시예에 다른 음성 인식 오류 정정 방법의 순서도이다;
도 2는 본 개시의 다른 실시예에 따른 음성 인식 오류 정정 방법의 순서도이다;
도 3은 본 개시의 일 실시예에 따른 음성 인식 오류 정정 모델을 훈련하기 위한 미리 설정된 모델의 토폴로지 구조의 개략도이다;
도 4는 본 개시의 다른 실시예에 따른 음성 인식 오류 정정 모델을 훈련하기 위한 미리 설정된 모델의 토폴로지 구조의 개략도이다;
도 5는 본 개시의 일 실시예에 따른 음성 인식 오류 정정 디바이스의 개략적인 구조도이다;
도 6은 본 개시의 다른 실시예에 따른 음성 인식 오류 정정 디바이스의 개략적인 구조도이다; 그리고
도 7은 본 개시의 일 실시예에 따른 음성 인식 오류 정정 시스템의 하드웨어 구조의 블록도이다.

이하, 본 개시의 실시예들의 기술적 해결 수단이 본 개시의 실시예들에 대한 도면과 함께 명확하고 완전하게 설명된다. 명백히, 후술되는 실시예들은 모든 실시예들이 아니라, 본 개시의 일부 실시예들에 불과하다. 본 개시의 실시예들에 기반하여 해당 기술분야에서 통상의 지식을 가진 사람에 의해 어떠한 창의적인 노력 없이 획득되는 임의의 다른 실시예들도 본 개시의 범위에 속한다.

특수한 시나리오들(예컨대, 전문 분야들)에서 음성 인식의 정확도를 향상시키기 위해, 본 발명자들은 다음과 같은 연구를 수행하였다.

특수한 시나리오의 분야-특정 단어들을 포함하는 텍스트들이 기존의 음성 인식 모델을 최적화하고 커스터마이즈(customize)하기 위해 코퍼스들(corpuses)로서 수집된다. 커스터마이즈되고 최적화된 모델은 이 특수한 시나리오에서 음성들을 인식하는 데 있어서 높은 정확도를 달성한다. 그러나, 커스터마이즈되고 최적화된 모델은 기존의 음성 인식 모델에 비해 일반적인 시나리오에서 음성들을 인식하는 데 있어서 정확도가 저하된다.

일반적인 시나리오들과 특수한 시나리오들 모두에서 정확한 음성 인식을 보장하기 위해서는, 인식을 시작하기 전에, 인식될 음성이 일반적인 시나리오에서 생성되는지 또는 특수한 시나리오에서 생성되는지를 미리 판단하는 것이 필요하다. 음성이 일반적인 시나리오에서 생성되면, 인식은 기존의 음성 인식 모델을 이용하여 수행된다. 음성이 특수한 시나리오에서 생성되면, 인식은 커스터마이즈되고 최적화된 모델을 이용하여 수행된다. 이러한 방식으로, 일반적인 시나리오와 특수한 시나리오 모두에서 음성 인식의 정확도가 보장된다. 그러나, 음성 인식 시스템은, 인식을 시작하기 전에, 인식될 음성이 일반적인 시나리오에서 생성되는지 또는 특수한 시나리오에서 생성되는지 판단하는 것이 불가능하다.

상기와 같은 관점에서, 본 발명자들은 심도 있는 연구를 수행하여, 기존의 음성 인식 기술에서는, 음성 데이터 스트림에 기반하여 인식 결과가 획득되면, 인식 결과가 정정되지 않는다는 점을 발견하였다. 그러나, 실제 적용에서, 음성 데이터 스트림의 첫 번째 절(clause)은 불충분한 컨텍스트 정보로 인해 잘못 인식되더라도, 첫 번째 절 다음의 절은 충분한 컨텍스트 정보로 인해 정확하게 인식될 수 있다. 즉, 동일한 단어가 첫 번째 절에서는 잘못 인식되지만, 두 번째 절에서는 정확하게 인식될 수 있다.

예를 들어, “Scientists from the Sok Institute in California found that autophagy reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so the therapies for inhibiting autophagy reaction may result in bad consequences.(캘리포니아의 속 연구소의 과학자들은 자가포식 반응이 암의 발생을 억제한다는 것을 발견했는데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)”라는 음성은 “Scientists from the Sok Institute in California found that this reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so that the therapies for inhibiting autophagy reaction may result in bad consequences.(캘리포니아의 속 연구소의 과학자들은 이 반응이 암의 발생을 억제한다는 것을 발견했는데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)”와 같이 인식된다.

상기의 예에서, 생소한 분야-특정 용어 “autophagy reaction(자가포식 반응)”이 처음 발생할 때 선행 텍스트에 관련 콘텐트가 많지 않으며, 인식 오류가 초래된다. 이에 반해, 용어 “autophagy reaction”의 두 번째 발생은 용어 “inhibiting(억제하는)”의 다음이며, “inhibiting autophagy reaction(자가포식 반응을 억제하는)”의 병합된 언어 모델이 높은 스코어를 가지므로, 인식이 정확하다.

상기의 연구에 기반하여, 본 발명자들은 인식 결과의 컨텍스트 정보가 인식 결과의 정확성에 영향을 미칠 수 있음을 발견하였다. 따라서, 인식될 음성 데이터의 제1 인식 결과의 컨텍스트 정보에 기반하여, 인식될 음성 데이터가 재인식되어, 제2 인식 결과가 획득될 수 있다. 제2 인식 결과에서, 제1 인식 결과에서 잘못 인식된 분야-특정 단어가 정정됨으로써, 음성 인식 결과의 정확도가 향상될 수 있다.

이에, 본 발명자들은 음성 인식 오류 정정 방법을 제안한다. 다음으로, 본 개시에 따른 음성 인식 오류 정정 방법이 다음의 실시예들과 관련하여 설명된다.

본 개시의 일 실시예에 따른 음성 인식 오류 정정 방법의 순서도인 도 1을 참조하면, 방법은 다음의 단계들 S101 내지 S103을 포함할 수 있다.

S101에서, 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과가 획득된다.

이 실시예에서, 인식될 음성 데이터는, 필요에 따라 애플리케이션에서 사용자로부터의 것, 예컨대, 단문 메시지를 보내거나 채팅할 때 음성 입력을 사용하여 사용자에 의해 입력되는 음성 데이터이다. 인식될 음성 데이터는 일반적인 분야의 음성 데이터 또는 특수한 시나리오(예컨대, 전문 분야)의 음성 데이터일 수 있다.

본 개시에서, 인식될 음성 데이터의 제1 인식 결과는 다양한 방식들로 획득될 수 있다. 예를 들어, 제1 인식 결과는 신경망 모델(neural network model)에 기반하여 획득될 수 있다. 명백히, 인식될 음성의 제1 인식 결과를 획득하는 다른 방식들도 본 개시의 범위 내에 속한다. 예를 들어, 인식될 음성 데이터의 제1 인식 결과는 미리 저장될 수 있고, 사용을 위해 저장 매체로부터 직접 획득될 수 있다.

단계 S102에서, 제2 인식 결과를 획득하기 위해, 음성 데이터가 제1 인식 결과의 컨텍스트 정보를 참조하여 재인식될 수 있다.

상기에서 소개된 본 발명자들의 연구로부터, 인식 결과의 컨텍스트 정보가 인식 결과의 정확성에 영향을 미친다는 것을 알 수 있다. 따라서, 이 실시예에서, 제2 인식 결과를 획득하기 위해, 음성 데이터가 제1 인식 결과의 컨텍스트 정보를 참조하여 재인식될 수 있다.

이 실시예에서, 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하기 위한 많은 구현들이 있다. 예를 들어, 음성 데이터는 신경망 모델에 기반하여 재인식될 수 있다.

명백히, 다른 구현들도 본 개시의 범위 내에 속한다. 예를 들어, 제1 인식 결과에 포함된 분야-특정 단어가 식별되어, 제1 인식 결과 내의 다른 단어들로부터, 분야-특정 단어와 미리 설정된 한계(limit)보다 더 높은 정도로 일치하고 분야-특정 단어와 정확하게 동일하지는 않은 단어가 발견된다. 제2 인식 결과를 획득하기 위해, 발견된 단어가 분야-특정 단어로 대체된다.

상기의 예에서, 제1 인식 결과 “Scientists from the Sok Institute in California found that this reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so that the therapies for inhibiting autophagy reaction may result in bad consequences.(캘리포니아의 속 연구소의 과학자들은 이 반응이 암의 발생을 억제한다는 것을 발견했는데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)”에 대해, “autophagy reaction”과 같은 분야-특정 단어가 추출될 수 있다. 그런 다음, 제1 인식 결과의 단어들이 비교된다. 용어 “this reaction”이 “autophagy reaction”이 50 %의 정도로 일치하는 것으로 나타난다. 미리 설정된 하한이 30 %라고 가정하면, 제1 인식 결과의 “this reaction”은 “autophagy reaction”으로 대체되어, 제2 인식 결과 "Scientists from the Sok Institute in California found that autophagy reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so that the therapies for inhibiting autophagy reaction may result in bad consequences.(캘리포니아의 속 연구소의 과학자들은 자가포식 반응이 암의 발생을 억제한다는 것을 발견했는데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)"를 얻을 수 있음을 나타낸다.

단계 S103에서, 제2 인식 결과에 기반하여, 최종 인식 결과가 결정된다.

본 개시에서, 제2 식별 결과가 최종 식별 결과로서 바로 결정될 수 있다. 그러나, 일부 경우들에서, 제2 인식 결과는 제1 인식 결과보다 좋지 않을 수 있으며, 제2 인식 결과가 최종 인식 결과로서 바로 결정되면, 인식 정확도가 저하된다. 따라서, 이 경우에, 제1 인식 결과 및 제2 인식 결과 중 최적의 하나가 최종 인식 결과로서 결정된다.

제1 인식 결과 및 제2 인식 결과 중 최적의 하나를 결정하기 위한 많은 방식들이 있다. 일 구현으로서, 제1 인식 결과의 신뢰도 및 제2 인식 결과의 신뢰도가 획득될 수 있고, 제1 인식 결과 및 제2 인식 결과 중 더 높은 신뢰도를 갖는 것이 최종 인식 결과로서 결정된다.

명백히, 다른 구현들도 본 개시의 범위 내에 속한다. 예를 들어, 최적의 식별 결과는 제1 식별 결과 및 제2 식별 결과로부터 수동 검증에 의해 결정될 수 있다.

이 실시예에 따른 음성 인식 오류 정정 방법이 제공된다. 방법은, 인식될 음성 데이터 및 인식도리 음성 데이터의 제1 인식 결과를 획득하는 단계; 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하는 단계; 및 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계를 포함한다. 방법에서, 음성 데이터는 제1 인식 결과의 컨텍스트 정보를 참조하여 재인식되며, 따라서, 인식 결과의 컨텍스트 정보의 적용 시나리오가 충분히 고려된다. 제1 인식 결과가 잘못된 경우, 제1 인식 결과는 재인식에 기반하여 정정된다. 따라서, 음성 인식의 정확도가 향상될 수 있다.

본 개시의 다른 실시예들에 따른 음성 인식 오류 정정 방법이 더 제공되며, 여기서, 키워드가 제1 인식 결과로부터 추출될 수 있고, 이에 따라, 음성 데이터가 컨텍스트 정보 및 키워드를 참조하여 재인식되어, 제2 인식 결과의 정확도가 더 향상될 수 있다. 도 2를 참조하면, 방법은 다음의 단계들 S2012 내지 S203을 포함한다.

단계 S201에서, 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과가 획득된다.

단계 S201은 상술된 단계 S101과 동일하다. 상세한 구현에 대해, 상기의 설명을 참조할 수 있으며, 그 구현은 여기에서 반복되지 않는다.

단계 S202에서, 키워드가 제1 인식 결과로부터 추출된다.

이 실시예에서, 키워드는 제1 인식 결과로부터 추출되는 분야-특정 단어일 수 있다. 즉, 키워드는 제1 인식 결과에 포함되고 분야와 관련되는 단어일 수 있다. 일반적으로, 키워드는 분야-특정 단어이다. 이러한 종류의 단어들의 예들로는, 의료 분야의 “자가포식 반응(autophagy reaction)”, “뼈 견인(bone traction)”, “신장 생검(renal biopsy)” 등 및 컴퓨터 분야의 “피드포워드(feedforward) 신경망”, “풀 레이어(pool layer)” 등이 있을 수 있다.

단계 S203에서, 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 결과 및 키워드를 참조하여, 음성 데이터가 재인식된다.

이 실시예에서, 음성 데이터는 제1 인식 결과의 컨텍스트 정보 및 키워드를 모두 참조하여 재인식된다. 제2 인식 결과를 획득하는 많은 구현들이 있을 수 있다. 예를 들어, 제2 인식 결과는 신경망 모델에 기반하여 획득될 수 있다.

명백히, 다른 구현들도 본 개시의 범위 내에 속한다. 예를 들어, 키워드와 미리 설정된 한계보다 더 높은 정도로 일치하고 키워드와 정확하게 동일하지 않은 제1 인식 결과에 포함된 단어가 발견된다. 제2 인식 결과를 획득하기 위해, 발견된 단어가 키워드로 대체된다.

단계 S204에서, 제2 인식 결과에 기반하여, 최종 인식 결과가 결정된다.

단계 S204는 상술된 단계 S103과 동일하다. 상세한 구현에 대해, 상기의 설명을 참조할 수 있으며, 그 구현은 여기에서 반복되지 않는다.

이 실시예의 음성 인식 오류 정정 방법이 개시된다. 방법에서, 키워드는 제1 인식 결과로부터 추출된다. 키워드는 분야-특정 단어일 수 있다. 따라서, 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여, 음성 데이터가 재인식됨으로써, 제2 인식 결과의 정확도가 더 향상된다.

본 개시에서, 인식될 음성 데이터의 제1 인식 결과가 신경망 모델에 기반하여 획득되는 경우, 제1 인식 결과를 획득하기 위해, 음성 데이터가 미리 훈련된 음성 인식 모델에 입력될 수 있다. 미리 훈련된 음성 인식 모델은 기존의 음성 인식 모델, 또는 인식-훈련 데이터 셋으로 미리 설정된 모델을 훈련함으로써 생성되는 음성 인식 모델일 수 있다. 인식-훈련 데이터 셋은 적어도 하나의 그룹의 인식-훈련 데이터를 포함하고, 각 그룹의 인식-훈련 데이터는 하나의 피스의 음성 데이터에 대응하는 텍스트 및 그 피스의 음성 데이터의 음향 특징을 포함한다. 미리 설정된 모델은 임의의 신경망 모델일 수 있으며, 이는 본 개시에서 제한되지 않는다.

미리 훈련된 음성 인식 모델이 인식-훈련 데이터 셋으로 미리 설정된 모델을 훈련함으로써 생성되는 음성 인식 모델인 경우, 셋 내 각 피스의 인식-훈련 데이터는, 하나의 피스의 음성 데이터를 획득하고, 음성 데이터에 대응하는 텍스트를 획득하기 위해, 음성 데이터에 수동으로 라벨링하고; 음성 데이터의 음향 특징을 추출하며; 음성 데이터에 대응하는 텍스트 및 음성 데이터의 음향 특징을 포함하는 하나의 피스의 인식-훈련 데이터를 생성함으로써, 획득된다는 점에 유의해야 한다.

본 개시에서, 음성 데이터를 획득하기 위한 다양한 방식들이 있다. 예를 들어, 음성 데이터는 지능형 단말의 마이크로폰을 통해 수신될 수 있다. 지능형 단말기는 스마트폰, 컴퓨터, 번역기(translator), 로봇, 스마트홈, 및 스마트가전과 같은 음성 인식 기능을 갖는 전자 디바이스이다. 대안적으로, 음성 데이터를 획득하는 다른 방식들도 본 개시의 범위 내에 속하며, 이는 본 개시에서 제한되지 않는다.

본 개시에서, 각 피스의 음성 데이터의 음향 특징은 음성 데이터의 스펙트럼 특징(spectral feature), 예컨대, MFCC(Mel frequency cepstral coefficient) 또는 FBank 특징일 수 있다. 본 개시에서, 각 피스의 음성 데이터의 음향 특징은 임의의 메인스트림 음향 특징 추출 방법으로 추출될 수 있으며, 이는 본 개시에서 제한되지 않는다.

본 개시에서, 훈련될 미리 설정된 모델은 전통적인 어텐션 기반 인코더-디코더(어텐션 메커니즘에 기반한 인코딩 및 디코딩) 또는 임의의 다른 모델 구조일 수 있으며, 이는 본 개시에서 제한되지 않는다.

본 개시에서, 인식-훈련 데이터로 미리 설정된 모델을 훈련할 때, 미리 설정된 모델의 파라미터들을 훈련하기 위해, 인식-훈련 데이터 내 각 피스의 음성 데이터의 음향 특징은 미리 설정된 모델에 대한 입력으로서 취해지고, 각 피스의 음성 데이터에 대응하는 텍스트는 훈련 타겟으로서 취해진다.

본 개시에서, 키워드는 명명된 개체 인식(Named Entity Recognition; NER) 기술을 이용하여 제1 인식 결과로부터 추출될 수 있다. 명백히, 제1 인식 결과의 키워드를 추출하는 다른 구현들도 본 개시의 범위 내에 속한다. 예를 들어, 키워드는 제1 인식 결과로부터 수동으로 추출될 수 있다.

현재, NER 기술은 신경망 모델에 기반하여 실현될 수 있다. 이 경우, 제1 인식 결과의 키워드를 획득하기 위해, 미리 훈련된 키워드 추출 모델에 제1 인식 결과를 입력함으로써, 제1 인식 결과로부터 키워드가 추출될 수 있다.

키워드 추출 모델은, 추출-훈련을 위한 데이터 셋에 기반하여 미리 설정된 모델 구조를 훈련함으로써, 생성될 수 있다는 점에 유의해야 한다. 데이터 셋은 적어도 하나의 그룹의 추출-훈련 데이터를 포함하고, 각 그룹의 추출-훈련 데이터는 분야-특정 용어들이 마크된(marked) 텍스트를 포함한다. 각 텍스트는 특수한 시나리오의 텍스트일 수 있으며, 여기서, 분야-특정 용어들이 수동 주석(annotation)에 의해 마크된다.

미리 설정된 모델은 딥 러닝 기반의 BiLSTM_CRF(bidirectional long-term and short-term memory model_conditional random field) 모델일 수 있다.

예를 들어, "Autophagy reaction inhibits the occurrence of cancer, which is just the opposite of what many people thought in the past, so that the therapies for inhibiting autophagy reaction may result in bad consequences.(자가포식 반응이 암의 발생을 억제하는 데, 이는 많은 사람들이 과거에 생각했던 것과는 정반대이므로 자가포식 반응을 억제하는 치료법들이 나쁜 결과들을 초래할 수 있다.)"의 제1 인식 결과가 키워드 추출 모델에 입력되며, 키워드 추출 모델은 키워드들 “autophagy reaction”, “cancer(암)” 및 “therapies(치료법들)”를 출력한다.

또한, NER 기술은 통계적 모델에 기반하여 구현될 수도 있다. 이 경우, 제1 인식 결과의 키워드를 획득하기 위해, 통계적 모델에 제1 인식 모델을 입력함으로써, 제1 인식 결과로부터 키워드가 추출될 수 있다. 통계적 모델을 구성하는 방식은 해당 기술분야에 알려져 있으며, 본 개시에서 상세하게 설명되지 않는다.

본 개시에서, 신경망 모델에 기반하여 제2 인식 결과를 획득하기 위해, 제 1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터가 재인식되는 경우, 제2 인식 결과를 획득하기 위해, 음성 데이터의 음향 특징 및 제1 인식 결과가 미리 훈련된 음성 인식 오류 정정 모델에 입력될 수 있다. 음성 인식 오류 정정 모델은, 오류-정정 훈련을 위한 데이터 셋으로 미리 설정된 모델을 훈련함으로써, 획득된다. 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스의 음성 데이터에 대응하는 음향 특징, 그 피스의 음성 데이터에 대응하는 텍스트, 및 그 피스의 음성 데이터에 대응하는 제1 인식 결과를 포함한다.

음성 인식 오류 정정 모델을 훈련할 때, 하나의 피스의 음성 데이터에 대응하는 음향 특징 및 그 피스의 음성 데이터에 대응하는 제1 인식 결과는 미리 설정된 음성 인식 오류 정정 모델 구조에 대한 입력으로서 취해지고, 그 피스의 음성 데이터에 대응하는 텍스트는 미리 설정된 음성 인식 오류 정정 모델 구조의 훈련 타겟으로서 취해진다는 점에 유의해야 한다.

각 그룹의 오류 정정 훈련 데이터는, 하나의 피스의 음성 데이터를 획득하고, 음성 데이터에 대응하는 텍스트를 획득하기 위해, 음성 데이터에 수동으로 마크하고(marking), 음성 데이터의 음향 특징을 추출하며, 음성 데이터에 대응하는 제1 인식 결과를 획득하기 위해, 미리 훈련된 음성 인식 모델에 음성 데이터를 입력함으로써, 획득될 수 있다.

다른 실시예에서, 신경망 모델에 기반하여 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여 음성 데이터가 재인식되는 경우, 제2 인식 결과를 획득하기 위해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드가 미리 훈련된 음성 인식 오류 정정 모델에 입력될 수 있다. 음성 인식 오류 정정 모델은, 오류-정정 훈련 데이터 셋으로 미리 설정된 모델을 훈련함으로써, 획득된다. 오류-정정 훈련 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스의 음성 데이터에 대응하는 음향 특징, 그 피스의 음성 데이터에 대응하는 텍스트, 그 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 제1 인식 결과의 키워드를 포함한다.

음성 인식 오류 정정 모델을 훈련할 때, 하나의 피스의 음성 데이터에 대응하는 음향 특징, 그 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 제1 인식 결과의 키워드는 미리 설정된 음성 인식 오류 정정 모델 구조에 대한 입력으로서 취해지며, 그 피스의 음성 데이터에 대응하는 텍스트는 미리 설정된 음성 인식 오류 정정 모델 구조의 훈련 타겟으로서 취해진다는 점에 유의해야 한다.

각 그룹의 오류-정정 훈련 데이터는, 하나의 피스의 음성 데이터를 획득하고, 음성 데이터에 대응하는 텍스트를 획득하기 위해, 음성 데이터에 수동으로 마크하고, 음성 데이터의 음향 특징을 추출하고, 음성 데이터에 대응하는 제1 인식 결과를 획득하기 위해, 미리 훈련된 음성 인식 모델에 음성 데이터를 입력하며, 제1 인식 결과의 키워드를 획득하기 위해, 미리 훈련된 키워드 추출 모델에 제1 인식 결과를 입력함으로써, 획득될 수 있다.

본 개시의 실시예들에서, 제2 인식 결과는 두 가지의 구현들로 획득될 수 있다. 두 가지의 구현들은 음성 인식 오류 정정 모델을 기반으로 하며, 두 가지의 구현들은 모델의 입력 데이터에서 서로 다르다. 첫 번째 구현에서, 음성 데이터의 음향 특징 및 제1 인식 결과가 모델에 입력된다. 두 번째 구현에서, 음성 데이터의 음향 특징, 제1 인식 결과, 및 제1 인식 결과로부터 추출되는 키워드가 모델에 입력된다. 즉, 제1 구현과 비교하여, 제2 구현은 모델에 키워드를 추가로 입력한다.

다음으로, 두 번째 구현을 예로 들어, 음성 인식 오류 정정 모델에 대한 프로세싱이 설명된다.

본 개시에서, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드가 미리 훈련된 음성 인식 오류 정정 모델에 입력되어, 음성 인식 오류 정정 모델에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델에 의해, 어텐션 계산을 수행함으로써, 제2 인식 결과가 획득된다.

본 개시의 일 실시예에 따른 음성 인식 오류 정정 모델을 훈련하기 위한 미리 설정된 모델의 토폴로지 구조의 개략도인 도 3을 참조한다. 모델은 세 개의 레이어들, 즉, 인코딩 레이어, 어텐션 레이어 및 디코딩 레이어를 포함한다. 인코딩 레이어의 기능은 어드밴스드 특징을 추출하는 것이다. 어텐션 레이어의 기능은 어텐션 레이어에 대한 입력과 최종 출력 결과 사이의 상관 관계(correlation)를 계산하는 것이다. 어텐션 레이어의 출력은 디코딩 레이어에 대한 입력이 되며, 디코딩 레이어의 출력은 현재 출력 결과가 된다. 디코딩 레이어는 소프트맥스(softmax)를 갖는 단일 레이어 신경망일 수 있으며, 이는 본 개시에서 제한되지 않는다.

인코딩 레이어는 세 개의 부분들, 즉, 제1 인코딩 모듈, 제2 인코딩 모듈 및 제3 인코딩 모듈로 더 구분될 수 있다.

제1 인코딩 모듈, 제2 인코딩 모듈 및 제3 인코딩 모듈은 역 피라미드 형태의 양방향 순환 신경망(recursive neural network; RNN) 또는 컨볼루션 신경망(convolutional neural network; CNN)의 구조일 수 있으며, 이는 본 개시에서 제한되지 않는다.

어텐션 레이어도 세 개의 부분들, 즉, 제1 어텐션 모듈, 제2 어텐션 모듈 및 제3 어텐션 모듈로 구분될 수 있다. 제1 어텐션 모듈, 제2 어텐션 모듈 및 제3 어텐션 모듈은 양방향 RNN 또는 단방향 RNN의 구조일 수 있으며, 이는 본 개시에서 제한되지 않는다.

어텐션 레이어의 출력은 디코딩 레이어에 대한 입력이 되며, 디코딩 레이어의 출력은 현재 출력 결과가 된다. 디코딩 레이어는 소프트맥스를 갖는 단일 레이어 신경망일 수 있으며, 이는 여기에서 제한되지 않는다.

제1 인코딩 모듈에 대한 입력은 인식될 음성 데이터의 음향 특징 X이고, 제1 인코딩 모듈의 출력은 어드밴스드 음향 특징 Ha이다. 제2 인코딩 모듈에 대한 입력은 인식될 음성 데이터의 제1 인식 결과의 캐릭터리제이션(characterization) P이고, 제2 인코딩 모듈의 출력은 제1 인식 결과의 캐릭터리제이션 P의 어드밴스드 특징 Hw이다. 제3 인코딩 모듈에 대한 입력은 인식될 음성 데이터의 제1 인식 결과의 키워드의 캐릭터리제이션 Q이며, 제3 인코딩 모듈의 출력은 키워드의 캐릭터리제이션 Q의 어드밴스드 특징 Hr이다.

이전 출력 결과 y_i-1는 제1 어텐션 모듈, 제2 어텐션 모듈 및 제3 어텐션 모듈에 대한 공통 입력이다. 또한, 세 개의 부분들은 상이한 입력들과 출력들을 갖는다. 제1 어텐션 모듈에 대한 입력은 Ha이고, 제1 어텐션 모듈의 출력은 음성과 관련된 히든 레이어 상태 sa_i 및 시맨틱 벡터 ca_i이다. 제2 어텐션 모듈에 대한 입력은 Hw이고, 제2 어텐션 모듈의 출력은 제1 인식 결과와 관련된 히든 레이어 sw_i 및 시맨틱 벡터 cw_i이다. 제3 어텐션 모듈에 대한 입력은 Hr이고, 제3 어텐션 모듈의 출력은 제1 인식 결과의 키워드와 관련된 히든 레이터 상태 sr_i 및 시맨틱 벡터 cr_i이다.

디코딩 레이어에 대한 입력은 어텐션 레이어의 출력 sa_i, ca_i, sw_i, cw_i, sr_i 및 cr_i이다. 디코딩 레이어의 출력은 현재 출력 결과 y_i이고, y_i는 인식될 음성 데이터의 인식 결과이다.

일반적으로, P(y_i)가 미리 결정된 임계값보다 클 때, 훈련이 종료된다. P(y_i)는 현재 출력 결과가 y_i일 확률을 나타내며, P(y_i)=Decode(sa_i, sw_i, sr_i, ca_i, cw_i, cr_i)이다.

상기의 모델에 기반하여, 본 개시의 일 구현으로서, 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 및 음성 인식 오류 정정 모델에 의해, 어텐션 계산을 수행하는 것은, 계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 음성 인식 오류 정정 모델의 어텐션 레이어에 의해, 어텐션 계산을 수행하는 단계; 및 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 디코딩 레이어에 의해, 계산 결과를 디코딩하는 단계를 포함할 수 있다.

계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 음성 인식 오류 정정 모델의 어텐션 레이어에 의해, 어텐션 계산을 수행하는 단계는, 타겟 오브젝트의 음향 어드밴스드 특징을 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어에 의해, 각 타겟 오브젝트를 인코딩하는 단계; 타겟 오브젝트와 관련된 히든 레이어 상태를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어에 의해, 타겟 오브젝트와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어에 의해, 타겟 오브젝트의 음향 어드밴스드 특징 및 타겟 오브젝트와 관련된 히든 상태 레이어에 대해 어텐션 계산을 수행한느 단계를 포함할 수 있다.

타겟 오브젝트는 음성 데이터의 음향 특징, 제1 인식 결과, 및 키워드를 포함한다.

상세한 프로세스가 후술된다.

제1 인코딩 모듈은 음성 데이터의 음향 어드밴스드 특징을 획득하기 위해, 음성 데이터의 음향 특징을 인코딩한다. 제1 어텐션 모듈은 음성 데이터와 관련된 히든 레이어 상태를 획득하기 위해, 음성 데이터와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행한다. 제1 어텐션 모듈은 음성 데이터와 관련된 시맨틱 벡터를 획득하기 위해, 음성 데이터의 음향 어드밴스드 특징 및 음성 데이터와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행한다.

제2 인코딩 모듈은 제1 인식 결과의 어드밴스드 특징을 획득하기 위해, 제1 인식 결과를 인코딩한다. 제2 어텐션 모듈은 제1 인식 결과와 관련된 히든 레이어 상태를 획득하기 위해, 제1 인식 결과와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행한다. 제2 어텐션 모듈은 제1 인식 결과와 관련된 시맨틱 벡터를 획득하기 위해, 제1 인식 결과의 어드밴스드 특징 및 제1 인식 결과와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행한다.

제3 인코딩 모듈은 키워드의 어드밴스드 특징을 획득하기 위해, 키워드를 인코딩한다. 제3 어텐션 모듈은 키워드와 관련된 히든 레이어 상태를 획득하기 위해, 키워드와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행한다. 제3 어텐션 모듈은 키워드와 관련된 시맨틱 벡터를 획득하기 위해, 키워드의 어드밴스드 특징 및 키워드와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행한다.

상기의 예는 입력 데이터가 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 포함하는 경우의 음성 인식 오류 정정 모델의 선택적(optional) 프로세싱 프로세스임을 이해할 수 있다. 입력 데이터가 음성 데이터의 음향 특징 및 제1 인식 결과를 포함하는 경우, 도 3의 키워드를 포함하는 모든 모델 구조들 및 프로세싱 프로세스들이 생략된다. 즉, 제3 인코딩 모듈 및 제3 어텐션 모듈이 다른 모델 구조들을 변경하지 않고 음성 인식 오류 정정 모델로부터 제거된다. 특정 프로세스에 대해, 상기의 설명을 참조할 수 있으며, 그 프로세스는 여기에서 반복되지 않는다.

또한, 여전히 두 번째 구현을 예로 들어, 본 개시의 다른 실시예에 따른 음성 인식 오류 정정 모델을 훈련하기 위한 미리 설정된 모델의 토폴로지 구조의 개략도인 도 4를 참조한다. 모델은 세 개의 레이어들, 즉, 인코딩 레이어, 어텐션 레이어 및 디코딩 레이어를 포함한다. 인코딩 레이어의 기능은 어드밴스드 특징을 추출하는 것이다. 어텐션 레이어의 기능은 어텐션 레이어에 대한 입력과 최종 출력 결과 사이의 상관 관계를 계산하는 것이다. 어텐션 레이어의 출력은 디코딩 레이어에 대한 입력이 되고, 디코딩 레이어의 출력은 현재 출력 결과가 된다. 디코딩 레이어는 소프트맥스를 갖는 단일 레이어 신경망일 수 있으며, 이는 본 개시에서 제한되지 않는다.

인코딩 레이어에 대한 입력은 인식될 음성 데이터의 음향 특징 X, 인식될 음성 데이터의 제1 인식 결과의 캐릭터리제이션 P, 및 제1 인식 결과의 키워드의 캐릭터리제이션 Q에 의해 형성되는 병합된 벡터 [X, P, Q]이다. 인코딩 레이어의 출력은 음향 특징의 어드밴스드 특징 Ha, 인식될 음성 데이터의 제1 인식 결과의 캐릭터리제이션 P의 어드밴스드 특징 Hw, 및 제1 인식 결과의 키워드의 캐릭터리제이션 Q의 어드밴스드 특징 Hr에 의해 형성되는 병합된 벡터 [Ha, Hw, Hr]이다.

인코딩 레이어의 출력 및 모델의 이전 출력 결과 y_i-1가 어텐션 레이어에 대한 입력이 된다. 어텐션 레이어의 출력은 음성과 관련된 히든 레이어 상태 sa_i 및 시맨틱 벡터 ca_i, 제1 인식 결과와 관련된 히든 레이어 상태 sw_i 및 시맨틱 벡터 cw-_i, 및 제1 인식 결과의 키워드와 관련된 히든 레이어 상태 sr_i 및 시맨틱 벡터 cr_i에 의해 형성되는 벡터 [sa_i, ca_i, sw_i, cw_i, sr_i, cr_i]이다.

어텐션 레이어의 출력은 디코딩 레이어에 대한 입력이 된다. 디코딩 레이어의 출력은 현재 출력 결과 y_i가 되며, y_i는 인식될 음성 데이터의 인식 결과이다.

상기의 모델에 기반하여, 본 개시의 일 구현으로서, 계산 결과에 기반하여 제2 인식 모델을 획득하기 위해, 음성 인식 오류 정정 모델에 의해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 인코딩하고, 음성 인식 오류 정정 모델에 의해, 어텐션 계산을 수행하는 것은, 병합된 벡터를 획득하기 위해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 병합하는 단계; 계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어에 의해, 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 디코딩 레이어에 의해, 계산 결과를 디코딩하는 단계를 포함할 수 있다.

계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어에 의해, 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계는, 병합된 벡터의 음향 어드밴스드 특징을 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어에 의해, 병합된 벡터를 인코딩하는 단계; 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 병합된 벡터와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및 병합된 벡터와 관련된 시맨틱 벡터를 획득하기 위해, 병합된 벡터의 음향 어드밴스드 특징 및 병합된 벡터와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계를 포함할 수 있다.

기존의 음성 인식 모델의 경우, 어텐션 레이어는 주로 기존의 음성 인식 모델의 출력 결과와 음성 데이터의 음향 특징 사이의 상관 관계에 초점을 둔다는 점에 유의해야 한다. 본 개시에 따른 음성 인식 오류 정정 모델에서, 음성 데이터의 제1 인식 결과 및 제1 인식 결과의 키워드가 어텐션 레이어에 통합됨으로써, 음성 인식 오류 정정 모델의 출력 결과는 인식 결과의 오류 정정 정보 및 인식 결과의 컨텍스트 정보와 관련된다. 이와 같이, 음성 인식 오류 정정 모델은, 출력 결과가 컨텍스트 정보와 관련되는 어텐션 메커니즘을 학습할 수 있고, 출력 결과가 오류-정정과 관련되는 어텐션 메커니즘을 학습할 수 있으며, 이로써, 현재 음성 데이터에 필요한 컨텍스트 정보 및 오류 정정 정보가 획득된다. 즉, 입력된 음성 데이터에 기반하여 제1 인식 결과 및 제1 인식 결과의 키워드 정보에 어텐션을 부여할 지의 여부가 자동으로 선택된다. 즉, 음성 인식 오류 정정 모델은 제1 인식 결과 및 제1 인식 결과의 키워드에 기반하여 자동 오류 정정 능력을 갖는다.

상기의 예는 입력 데이터가 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 포함하는 경우의 음성 인식 오류 정정 모델의 다른 선택적 프로세싱 프로세스를 보여준다는 점을 이해할 수 있다. 입력 데이터가 음성 데이터의 음향 특징 및 제1 인식 결과를 포함하는 경우, 도 4에 도시된 인코딩 레이어에 대한 입력은 인식될 음성 데이터의 음향 특징 X 및 인식될 음성 데이터의 제1 인식 결과의 캐릭터리제이션 P에 의해 형성되는 병합된 벡터 [X, P]이며, 인코딩 레이어의 출력은 음향 특징의 어드밴스드 특징 Ha 및 제1 인식 결과의 캐릭터리제이션 P의 어드밴스드 특징 Hw에 의해 형성되는 병합된 벡터 [Ha, Hw]이다. 또한, 어텐션 레이어의 출력 결과는 음성과 관련된 히든 레이어 상태 sa_i 및 시맨틱 벡터 ca_i, 및 제1 인식 결과와 관련된 히든 레이어 상태 sw_i 및 시맨틱 벡터 cw_i에 의해 형성되는 벡터 [sa_i, ca_i, sw_i, cw_i]이다. 어텐션 레이어의 출력은 디코딩 레이어의 입력이 된다. 디코딩 레이어의 출력은 현재 출력 결과 y_i가 되며, y_i는 인식될 음성 데이터의 인식 결과이다.

즉, 모델에 입력되는 데이터가 키워드를 포함하지 않는 경우, 인코딩 레이어에 입력되는 병합된 벡터는 키워드의 정보를 포함하지 않는다. 모델의 다른 레이어들은 유사한 로직(logic)으로 인코딩 레이어로부터의 입력을 처리할 수 있고, 상기의 설명을 참조할 수 있으며, 여기에서 반복되지 않는다.

또한, 본 개시에 따른 인식-훈련 데이터 셋 및 오류-정정 데이터 셋을 생성하기 위한 구현이 더 제공되며, 이에 대해 상세하게 후술된다.

음성 인식 모델 및 음성 인식 오류 정정 모델을 훈련하기 위한 음성 데이터가 수집된다. 음성 데이터는 스마트 단말의 마이크로폰을 통해 수신될 수 있다. 스마트 단말은 음성 인식 기능을 갖는 전자 디바이스, 예컨대, 스마트폰, 컴퓨터, 번역기, 로봇, 스마트홈(가전) 등이다. 그런 다음, 각 피스의 음성 데이터가 수동으로 마크된다. 즉, 각 피스의 음성 데이터가 수동으로 텍스트 데이터로 전사된다(transcribed). 각 피스의 음성 데이터의 음향 특징이 추출된다. 음향 특징은 일반적으로 음성 데이터의 스펙트럼 특징, 예컨대, MFCC 특징, FBank 특징 및 다른 특징이다. 음향 특징은 기존의 방식으로 추출될 수 있으며, 여기에서 반복되지 않는다. 마지막으로, 음성 데이터의 음향 특징 및 음성 데이터에 대응하는 수동으로 마크된 텍스트가 획득된다.

상기의 단계들에서 획득되는 음성 데이터의 음향 특징 및 음성 데이터에 대응하는 수동으로 마크된 텍스트는 두 개의 부분들로 구분된다. 본 개시에서, 첫 번째 부분은 셋 A로 표현되고, 두 번째 부분은 셋 B로 표현된다. 예를 들어, 상기의 단계들에서 획득되는 100만 개의 그룹들의 음성 데이터의 음향 특징들 및 음성 데이터에 대응하는 수동으로 마크된 텍스트들은 임의로 동일한 양의 두 개의 셋들, 즉, 셋 A 및 셋 B로 구분된다. 셋 A 및 셋 B의 각각은 다수의 그룹들의 훈련 데이터를 포함하고, 각 그룹의 훈련 데이터는 하나의 피스의 훈련 데이터의 음향 특징 및 그 피스의 음성 데이터에 대응하는 수동으로 마크된 텍스트를 포함한다.

음성 인식 모델을 획득하기 위해, 셋 A를 인식-훈련 데이터 셋으로 이용하여, 훈련이 수행된다.

셋 B에 대응하는 인식 결과들을 획득하기 위해, 셋 B가 훈련된 음성 인식 모델에 입력된다. 그런 다음, 셋 B에 대응하는 인식 결과들의 키워드들을 획득하기 위해, 셋 B에 대응하는 인식 결과들이 키워드 추출 모델로 입력된다. 셋 B에 대응하는 음향 특징들, 수동으로 마크된 텍스트들, 인식 결과들 및 키워드들은 셋 C를 형성한다. 셋 C는 다수의 그룹들의 훈련 데이터를 포함하며, 각 그룹의 훈련 데이터는 하나의 피스의 음성 데이터에 대응하는 음향 특징, 그 피스의 음성 데이터에 대응하는 수동으로 마크된 텍스트, 그 피스의 음성 데이터에 대응하는 인식 결과 및 인식 결과의 키워드를 포함한다.

음성 인식 오류 정정 모델을 획득하기 위해, 셋 C를 오류-정정 훈련 데이터 셋으로서 이용하여, 훈련이 수행된다.

셋 B에 대응하는 Nbest 개의 인식 결과들을 획득하기 위해, 셋 B가 훈련된 음성 인식 모델에 입력될 수 있다는 점에 더 유의해야 한다. 그런 다음, 인식 결과의 키워드를 획득하기 위해, 각 인식 결과가 키워드 추출 모델에 입력된다. 셋 B가 n 개의 피스들의 음성 데이터를 포함하고, 각 피스의 음성이 Nbest 개의 인식 결과들에 대응하면, n*N 개의 그룹들의 훈련 데이터가 최종적으로 획득된다. 이 프로세싱은 오류 정정 훈련 데이터 셋을 풍부하게 하고, 음성 인식 오류 정정 모델의 적용 범위(coverage)를 향상시킨다.

인식-훈련 데이터 셋 및 오류 정정 훈련 데이터 셋의 각각은 키워드를 포함한다는 것을 이해할 수 있다. 음성 인식 오류 정정 모델에 대한 입력이 음성 데이터의 음향 특징 및 제1 인식 결과만을 포함하는 경우, 즉, 입력 데이터가 키워드를 포함하지 않는 경우, 상기의 프로세서에서 키워드를 획득하는 단계는 생략될 수 있다. 최종적으로 획득된 인식-훈련 데이터 셋 및 오류 정정 훈련 데이터 셋은 키워드들을 포함하도록 요구되지 않는다.

본 개시의 일 실시예에 따른 음성 인식 오류 정정 디바이스가 후술된다. 후술되는 음성 인식 오류 정정 디바이스 및 상술된 음성 인식 오류 정정 방법은 상호 참조될 수 있다.

본 개시의 일 실시예에 따른 음성 인식 오류 정정 디바이스의 개략적인 구조도인 도 5를 참조한다. 도 5에 도시된 바와 같이, 음성 인식 오류 정정 디바이스는 획득 유닛(51), 제1 음성 인식 유닛(52) 및 인식 결과 결정 유닛(53)을 포함한다.

획득 유닛(51)은 인식될 음성 데이터 및 음성 데이터의 제1 인식 결과를 획득하도록 구성된다.

제1 음성 인식 유닛(52)은 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하도록 구성된다.

인식 결과 결정 유닛(53)은 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성된다.

본 개시의 다른 실시예에서, 다른 음성 인식 오류 정정 디바이스가 제공된다. 도 6에 도시된 바와 같이, 음성 인식 오류 정정 디바이스는 획득 유닛(51), 키워드 추출 유닛(54), 제2 음성 인식 유닛(55), 및 인식 결과 결정 유닛(53)을 포함한다.

키워드 추출 유닛(54)은 제1 인식 결과로부터 키워드를 추출하도록 구성된다.

제2 음성 인식 유닛(55)은 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보 및 키워드들을 참조하여 음성 데이터를 재인식하도록 구성된다.

일 실시예에서, 키워드 추출 유닛은 분야-특정 단어 추출 유닛을 포함한다.

분야-특정 단어 추출 유닛은 제1 인식 결과로부터 분야-특정 단어를 키워드로서 추출하도록 구성된다.

음향 특징 획득 유닛은 음성 데이터의 음향 특징을 획득하도록 구성된다.

모델 프로세싱 유닛은 제2 인식 결과를 획득하기 위해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하도록 구성된다. 음성 인식 오류 정정 모델은, 오류-정정 훈련 데이터 셋을 이용하여 미리 설정된 모델을 훈련함으로써, 획득된다.

오류-정정 훈련 데이터 셋은 적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하며, 각 그룹의 오류-정정 훈련 데이터는 하나의 피스의 음성 데이터의 음향 특징, 그 피스의 음성 데이터에 대응하는 텍스트, 그 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 제1 인식 결과의 키워드를 포함한다.

일 실시예에서, 모델 프로세싱 유닛은 인코딩 및 어텐션 계산 유닛 및 인식 유닛을 포함한다.

인코딩 및 어텐션 계산 유닛은 음성 인식 오류 정정 모델을 이용하여, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.

인식 유닛은 계산 결과에 기반하여 제2 인식 결과를 획득하도록 구성된다.

일 실시예에서, 인코딩 및 어텐션 계산 유닛은 제1 인코딩 및 어텐션 계산 유닛을 포함하고, 인식 유닛은 제1 디코딩 유닛을 포함한다.

제1 인코딩 및 어텐션 계산 유닛은 계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.

제1 디코딩 유닛은 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여, 계산 결과를 디코딩하도록 구성된다.

일 실시예에서, 모델 프로세싱 유닛은 병합 유닛을 더 포함한다. 인코딩 및 어텐션 계산 유닛은 제2 인코딩 및 어텐션 계산 유닛을 포함한다. 인식 유닛은 제2 디코딩 유닛을 포함한다.

병합 유닛은 병합된 벡터를 획득하기 위해, 음성 데이터의 음향 특징, 제1 인식 결과 및 키워드를 병합하도록 구성된다.

제2 인코딩 및 어텐션 계산 유닛은 계산 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여, 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하도록 구성된다.

제2 디코딩 유닛은 제2 인식 결과를 획득하기 위해, 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여, 계산 결과를 디코딩하도록 구성된다.

일 실시예에서, 제1 인코딩 및 어텐션 계산 유닛은 제1 인코딩 유닛 및 제1 어텐션 계산 유닛을 포함한다.

제1 인코딩 유닛은 각 타겟 오브젝트의 음향 어드밴스드 특징을 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어를 이용하여, 타겟 오브젝트를 인코딩하도록 구성된다.

제1 어텐션 계산 유닛은 각 타겟 오브젝트와 관련된 히든 레이어 상태를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어를 이용하여, 타겟 오브젝트와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하고; 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어를 이용하여, 타겟 오브젝트의 음향 어드밴스드 특징 및 타겟 오브젝트와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행하도록 구성된다. 타겟 오브젝트는 음성 데이터의 음향 특징, 제1 인식 결과, 및 키워드를 포함한다.

일 실시예에서, 제2 인코딩 및 어텐션 계산 유닛은 제2 인코딩 유닛 및 제2 어텐션 계산 유닛을 포함한다.

제2 인코딩 유닛은 병합된 벡터의 음향 어드밴스드 특징을 획득하기 위해, 음성 인식 오류 정정 모델의 인코딩 레이어를 이용하여, 병합된 벡터를 인코딩하도록 구성된다.

제2 어텐션 계산 유닛은 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어를 이용하여, 병합된 벡터와 관련된 이전 시맨틱 벡터 및 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하고; 병합된 벡터와 관련된 시맨틱 벡터를 획득하기 위해, 음성 인식 오류 정정 모델의 어텐션 레이어를 이용하여, 병합된 벡터의 음향 어드밴스드 특징 및 병합된 벡터와 관련된 히든 레이어 상태에 대해 어텐션 계산을 수행하도록 구성된다.

일 실시예에서, 인식 결과 결정 유닛은 신뢰도 획득 유닛 및 결정 유닛을 포함한다.

신뢰도 획득 유닛은 제1 인식 결과의 신뢰도 및 제2 인식 결과의 신뢰도를 획득하도록 구성된다.

결정 유닛은 제1 인식 결과 및 제2 인식 결과 중 더 높은 신뢰도를 갖는 것을 최종 인식 결과로서 결정하도록 구성된다.

도 7은 본 개시의 일 실시예에 따른 음성 인식 오류 정정 시스템의 하드웨어 구조의 블록도이다. 도 7을 참조하면, 음성 인식 오류 정정 시스템의 하드웨어 구조는 적어도 하나의 프로세서(1), 적어도 하나의 통신 인터페이스(2), 적어도 하나의 메모리(3) 및 적어도 하나의 통신 버스(4)를 포함한다.

본 개시의 일 실시예에서, 적어도 하나의 프로세서(1), 적어도 하나의 통신 인터페이스(2), 적어도 하나의 메모리(3) 및 적어도 하나의 통신 버스(4)가 있다. 또한, 프로세서(1), 통신 인터페이스(2) 및 메모리(3)는 통신 버스(4)를 통해 서로 통신한다.

프로세서(1)는 중앙 처리 유닛(central processing unit; CPU), 주문형 집적 회로(application specific integrated circuit; ASIC), 또는 본 개시의 실시예들을 구현하도록 구성되는 하나 이상의 집적 회로들일 수 있다.

메모리(3)은 고속 RAM 메모리, 비휘발성 메모리 등, 예컨대, 적어도 하나의 디스크 메모리를 포함할 수 있다.

메모리는 프로그램을 저장하고, 프로세서는 메모리에 저장된 프로그램을 호출한다. 프로그램은 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과를 획득하고; 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하고; 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 데 이용된다.

대안적으로, 프로그램은 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과를 획득하고; 제1 인식 결과로부터 키워드를 추출하고; 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여 음성 데이터를 재인식하고; 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 데 이용된다.

프로그램의 특정 기능 및 확장 기능에 대해, 상기의 설명을 참조할 수 있다.

본 개시의 일 실시예에 따른 저장 매체가 더 제공된다. 저장 매체는 프로세서에 의해 실행 가능한 프로그램을 저장한다. 프로그램은 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식 결과를 획득하고; 제2 인식 결과를 획득하기 위해, 제1 인식 결과의 컨텍스트 정보를 참조하여 음성 데이터를 재인식하고; 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 데 이용된다.

대안적으로, 프로그램은 인식될 음성 데이터 및 인식될 음성 데이터의 제1 인식결과를 획득하고; 제1 인식 결과로부터 키워드를 추출하고; 제2 인식 결과를 획득하기 위해 제1 인식 결과의 컨텍스트 정보 및 키워드를 참조하여 음성 데이터를 재인식하고; 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 데 이용될 수 있다.

본 개시의 일 실시예에 따른 컴퓨터 프로그램 제품이 더 제공된다. 컴퓨터 프로그램 제품은, 단말 디바이스에서 실행될 때, 단말 디바이스가 음성 인식 오류 정정 방법의 임의의 구현을 수행하게 한다.

마지막으로, 본 개시에서, “제1” 및 “제2”와 같은 관계 용어들은 하나의 개체 또는 동작을 다른 개체 또는 동작과 구별하기 위한 것일 뿐, 이러한 개체들 또는 동작들 사이의 실제 관계 또는 순서를 나타내거나 암시하는 것은 아니다. 또한, 본 문서에서, “포함하다”, “갖다” 또는 임의의 다른 변형들은 비배타적인 것으로 의도된다. 따라서, 다수의 구성 요소들을 포함하는 프로세스, 방법, 물품 또는 디바이스는 구성 요소들뿐 아니라 열거되지 않은 다른 구성 요소들을 포함하거나, 프로세스, 방법, 물품 또는 디바이스 고유의 구성 요소들을 포함한다. 달리 명시적으로 제한되지 않는 한, “포함하는”과 같은 언급은 다른 유사한 구성 요소들이 프로세스, 방법, 물품 또는 디바이스에 존재할 수 있는 경우를 배제하지 않는다.

본 문서의 실시예들은 각각이 다른 것들과의 차이점들을 강조하는 점진적인 방식으로 설명된다는 점에 유의해야 한다. 실시예들은 서로 결합될 수 있으며, 실시예들 사이에서 동일하거나 유사한 부분들에 대해서는 다른 실시예들의 설명을 참조할 수 있다.

상기에 개시된 실시예들의 설명과 함께, 해당 기술분야에서 통상의 지식을 가진 사람은 본 개시의 기술적 해결 수단을 구현하거나 이용할 수 있다. 실시예들에 따른 수많은 수정들이 해당 기술분야에서 통상의 지식을 가진 사람에게 명백하고, 여기에 정의된 일반 원리들은 본 개시의 사상 또는 범위를 벗어나지 않고 다른 실시예들에서 구현될 수 있다. 따라서, 본 개시는 여기에 설명된 실시예들에 제한되지 않고, 여기에 개시된 원리들 및 신규한 특징들과 일치하는 가장 넓은 범위를 준수해야 한다.

Claims

음성 인식 오류 정정 방법에 있어서,
인식될(to-be-recognized) 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하는 단계;
제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트(context) 정보를 참조하여 상기 음성 데이터를 재인식하는 단계; 및
상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계
를 포함하는,
방법.
음성 인식 오류 정정 방법에 있어서,
인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하는 단계;
상기 제1 인식 결과로부터 키워드를 추출하는 단계;
제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하는 단계; 및
상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계
를 포함하는,
방법.
제2 항에 있어서,
상기 제1 인식 결과로부터 키워드를 추출하는 단계는,
상기 제1 인식 결과로부터의 분야-특정(field-specific) 단어를 상기 키워드로서 추출하는 단계
를 포함하는,
방법.
제2 항에 있어서,
제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하는 단계는,
상기 음성 데이터의 음향 특징을 획득하는 단계; 및
상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하는 단계
를 포함하고,
상기 음성 인식 오류 정정 모델은,
오류-정정 훈련 데이터 셋으로 미리 설정된 모델을 훈련함으로써 획득되고,
상기 오류-정정 훈련 데이터 셋은,
적어도 하나의 그룹의 오류-정정 훈련 데이터를 포함하고,
각 그룹의 오류-정정 훈련 데이터는,
하나의 피스(piece)의 음성 데이터의 음향 특징, 상기 하나의 피스의 음성 데이터에 대응하는 텍스트, 상기 하나의 피스의 음성 데이터에 대응하는 제1 인식 결과, 및 상기 제1 인식 결과의 키워드를 포함하는,
방법.
제4 항에 있어서,
상기 제2 인식 결과를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 미리 훈련된 음성 인식 오류 정정 모델에 입력하는 단계는,
계산 결과에 기반하여 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩(encoding) 및 어텐션(attention) 계산을 수행하는 단계
를 포함하는,
방법.
제5 항에 있어서,
계산 결과에 기반하여 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및
상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어를 이용하여 상기 계산 결과를 디코딩하는 단계
를 포함하는,
방법.
제5 항에 있어서,
계산 결과에 기반하여 상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델을 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
병합된 벡터(merged vector)를 획득하기 위해, 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드를 병합하는 단계;
상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어에 의해, 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계; 및
상기 제2 인식 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 디코딩 레이어에 의해, 상기 계산 결과를 디코딩하는 단계
를 포함하는,
방법.
제6 항에 있어서,
상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 인코딩 레이어 및 어텐션 레이어를 이용하여 상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과 및 상기 키워드의 각각에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
각 타겟 오브젝트에 대해,
상기 타겟 오브젝트의 음향 어드밴스드(advanced) 특징을 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어에 의해, 상기 타겟 오브젝트를 인코딩하는 단계;
상기 타겟 오브젝트와 관련된 히든(hidden) 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 타겟 오브젝트와 관련된 이전 시맨틱(semantic) 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및
상기 타겟 오브젝트와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 타겟 오브젝트의 상기 음향 어드밴스드 특징 및 상기 타겟 오브젝트와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계
를 포함하고,
상기 타겟 오브젝트는,
상기 음성 데이터의 상기 음향 특징, 상기 제1 인식 결과, 및 상기 키워드를 포함하는,
방법.
제7 항에 있어서,
상기 계산 결과를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어 및 상기 어텐션 레이어에 의해, 상기 병합된 벡터에 대해 인코딩 및 어텐션 계산을 수행하는 단계는,
상기 병합된 벡터의 음향 어드밴스드 특징을 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 인코딩 레이어에 의해, 상기 병합된 벡터를 인코딩하는 단계;
상기 병합된 벡터와 관련된 히든 레이어 상태를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 병합된 벡터와 관련된 이전 시맨틱 벡터 및 상기 음성 인식 오류 정정 모델의 이전 출력 결과에 대해 어텐션 계산을 수행하는 단계; 및
상기 병합된 벡터와 관련된 시맨틱 벡터를 획득하기 위해, 상기 음성 인식 오류 정정 모델의 상기 어텐션 레이어에 의해, 상기 병합된 벡터의 상기 음향 어드밴스드 특징 및 상기 병합된 벡터와 관련된 상기 히든 레이어 상태에 대해 어텐션 계산을 수행하는 단계
를 포함하는,
방법.
제2 항에 있어서,
상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하는 단계는,
상기 제1 인식 결과의 신뢰도(confidence) 및 상기 제2 인식 결과의 신뢰도를 획득하는 단계; 및
상기 제1 인식 결과 및 상기 제2 인식 결과 중 더 높은 신뢰도를 갖는 것을 상기 최종 인식 결과로서 결정하는 단계
를 포함하는,
방법.
음성 인식 오류 정정 디바이스에 있어서,
인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하도록 구성되는 획득 유닛;
제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보를 참조하여 상기 음성 데이터를 재인식하도록 구성되는 제1 음성 인식 유닛; 및
상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성되는 인식 결과 결정 유닛
을 포함하는,
음성 인식 오류 정정 디바이스.
음성 인식 오류 정정 디바이스에 있어서,
인식될 음성 데이터 및 상기 음성 데이터의 제1 인식 결과를 획득하도록 구성되는 획득 유닛;
상기 제1 인식 결과로부터 키워드를 추출하도록 구성되는 키워드 추출 유닛;
제2 인식 결과를 획득하기 위해, 상기 제1 인식 결과의 컨텍스트 정보 및 상기 키워드를 참조하여 상기 음성 데이터를 재인식하도록 구성되는 제2 음성 인식 유닛; 및
상기 제2 인식 결과에 기반하여 최종 인식 결과를 결정하도록 구성되는 인식 결과 결정 유닛
을 포함하는,
음성 인식 오류 정정 디바이스.
음성 인식 오류 정정 시스템에 있어서,
프로그램을 저장하도록 구성되는 메모리; 및
제1 항 내지 제10 항 중 어느 한 한에 따른 상기 음성 인식 오류 정정 방법을 수행하기 위해 상기 프로그램을 실행시키도록 구성되는 프로세서
를 포함하는,
음성 인식 오류 정정 시스템.
컴퓨터 프로그램을 저장하는 판독 가능 저장 매체에 있어서,
상기 컴퓨터 프로그램은,
프로세서에 의해 실행될 때, 제1 항 내지 제10 항 중 어느 한 항에 따른 상기 음성 인식 오류 정정 방법을 구현하는,
판독 가능 저장 매체.
단말 디바이스에서 실행될 때, 상기 단말 디바이스가 제1 항 내지 제10 항 중 어느 한 항에 따른 상기 방법을 수행하게 하는 컴퓨터 프로그램 제품.