KR20230064471A

KR20230064471A - 음성 인식 방법 및 장치

Info

Publication number: KR20230064471A
Application number: KR1020210150100A
Authority: KR
Inventors: 김준태; 이윤한
Original assignee: 주식회사 카카오엔터프라이즈
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2023-05-10

Abstract

음성 인식 방법 및 장치가 개시된다. 일 실시 예에 따른 음성 인식 방법은 음성 인식 모델로부터 맥락 정보가 활용된 문구(phrase)를 지시하는 식별자를 포함하는 음성 인식 결과를 획득하는 단계, 식별자에 기초하여, 음성 인식 결과에서 제1 대상 문구의 끝점에 대응하는 제1 위치를 획득하는 단계, 제1 위치에 대응하는 제1 대상 문구의 후보들과 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 제1 대상 문구 및 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하는 단계, 및 제1 대상 문구와 제1 맥락 문구 사이의 유사도에 기초하여 제1 대상 문구를 제1 맥락 문구로 교체함으로써, 음성 인식 결과를 수정하는 단계를 포함한다.

Description

음성 인식 방법 및 장치{METHOD AND APPARATUS FOR SPEECH RECOGNITION}

아래 실시예들은 음성 인식 방법 및 장치에 관한 것으로, 구체적으로는 음성 인식 결과를 후처리하는 방법에 관한 것이다.

최근 종단간(End-to-End; E2E) 모델이 음성 인식(automatic speech recognition; ASR)의 주요 방법으로 이용되고 있다. E2E 모델은 전통적인 ASR 모델에 포함된 음향 모델(acoustic model), 언어 모델(language model) 및 발음 모델(pronunciation model)을 단일 모델로 결합하여 전통적인 ASR 모델을 단순화하면서 개선된 성능을 달성할 수 있다. E2E 모델의 대표적인 프레임 워크에는 단어 출력 대상이 있는 CTC(connectionist temporal classification), RNN-T(recurrent neural network transducer) 및 LAS(“Listen, Attend, and Spell") 인코더-디코더 아키텍처가 포함된다.

이러한 E2E 모델은 음성 검색 작업과 같은 일반적인 ASR 영역에서 뛰어난 성능을 보였지만 희귀한 단어 또는 OOV(out-of-vocabulary) 단어를 포함하는 맥락에 기반한 ASR(예를 들어, 사용자가 좋아하는 노래, 연락처 또는 앱과 같은 사용자 별 정보에 대한 ASR)에 취약할 수 있다. E2E 모델은 희귀한 단어 또는 OOV 단어를 학습 어휘 내 발음이 유사한 단어로 인식할 가능성이 높다.

실시 예들을 통해 희귀한 단어 또는 OOV(out-of-vocabulary) 단어를 포함하는 음성을 인식하기 위한 음성 인식 방법을 제공할 수 있다.

실시 예들을 통해 디코딩 과정에서 맥락 정보를 이용하는 CLAS 모델의 음성 인식 결과를 후처리하여 정확도가 향상된 음성 인식 결과를 출력하는 음성 인식 방법을 제공할 수 있다.

다만, 기술적 과제는 상술한 기술적 과제들로 한정되는 것은 아니며, 또 다른 기술적 과제들이 존재할 수 있다.

일 측에 따른 프로세서에 의해 수행되는 음성 인식 방법은 음성 인식 모델로부터 맥락 정보가 활용된 문구(phrase)를 지시하는 식별자를 포함하는 음성 인식 결과를 획득하는 단계; 상기 식별자에 기초하여, 상기 음성 인식 결과에서 제1 대상 문구의 끝점에 대응하는 제1 위치를 획득하는 단계; 상기 제1 위치에 대응하는 제1 대상 문구의 후보들과 상기 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하는 단계; 및 상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도에 기초하여 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체함으로써, 상기 음성 인식 결과를 수정하는 단계를 포함한다.

상기 제1 대상 문구의 후보들은 상기 음성 인식 결과의 적어도 일부에 해당하며, 상기 제1 위치를 끝점으로 하는 복수의 문구들을 포함한다.

상기 제1 대상 문구의 후보들과 상기 맥락 문구들 사이의 유사도들은 각각의 상기 제1 대상 문구의 후보들과 각각의 상기 맥락 문구들 사이의 유사도를 포함할 수 있다.

상기 제1 대상 문구 및 상기 제1 맥락 문구 사이의 유사도는 상기 유사도들 중 가장 높은 유사도에 대응할 수 있다.

상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하는 단계는 상기 맥락 문구들 각각에 대응하여, 해당 맥락 문구의 어절 수에 기초하여, 상기 해당 맥락 문구에 대응하는 상기 제1 대상 문구의 후보들을 결정하는 단계; 및 상기 결정된 제1 대상 문구의 후보들 중 상기 해당 맥락 문구와의 유사도가 높은 후보를 상기 해당 맥락 문구에 대응하여 저장하는 단계; 상기 맥락 문구들 중 대응하여 저장된 후보와의 유사도가 높은 맥락 문구를 상기 제1 맥락 문구로 결정하는 단계; 및 상기 제1 맥락 문구에 대응하여 저장된 후보를 상기 제1 대상 문구로 결정하는 단계를 포함할 수 있다.

상기 해당 맥락 문구에 대응하는 상기 제1 대상 문구의 후보들을 결정하는 단계는 상기 해당 맥락 문구의 어절 수에 기초하여, 상기 음성 인식 결과 내 복수의 제2 위치들을 설정하는 단계; 및 상기 제2 위치들 각각에 대응하여, 해당 제2 위치를 시작점으로 하고, 상기 제1 위치를 끝점으로 하는 문구를 상기 해당 맥락 문구에 대응하는 상기 제1 대상 문구의 후보로 결정하는 단계를 포함할 수 있다.

상기 해당 맥락 문구에 대응하여 저장하는 단계는 상기 제1 대상 문구의 후보들 각각에 대응하여, 상기 해당 맥락 문구에 대응하는 자소 시퀀스 및 해당 후보에 대응하는 자소 시퀀스 사이의 편집 거리에 기초하여, 문자적 유사도를 측정하는 단계; 상기 해당 맥락 문구에 대응하는 음소 시퀀스 및 상기 해당 후보에 대응하는 음소 시퀀스 사이의 편집 거리에 기초하여, 발음적 유사도를 측정하는 단계; 및 상기 문자적 유사도 및 상기 발음적 유사도에 기초하여, 상기 해당 맥락 문구 및 상기 해당 후보 사이의 유사도를 측정하는 단계를 더 포함할 수 있다.

상기 음성 인식 결과를 수정하는 단계는 상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도를 임계 값과 비교하여, 상기 제1 대상 문구의 교체 여부를 결정하는 단계; 및 상기 교체 여부의 결정에 기초하여, 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체함으로써, 상기 음성 인식 결과를 수정하는 단계를 포함할 수 있다.

상기 음성 인식 결과를 수정하는 단계는 상기 제1 위치를 상기 음성 인식 결과에 포함된 다른 어절에 대응하는 제3 위치로 변경하는 단계; 상기 제3 위치에 대응하는 제2 대상 문구의 후보들과 상기 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 상기 제2 대상 문구 및 상기 제2 대상 문구에 대응하는 제2 맥락 문구를 결정하는 단계; 및 상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도 및 상기 제2 대상 문구와 상기 제2 맥락 문구 사이의 유사도에 기초하여, 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체한 제1 음성 인식 결과 및 상기 제2 대상 문구를 상기 제2 맥락 문구로 교체한 제2 음성 인식 결과 중 어느 하나를 출력하는 단계를 포함할 수 있다.

상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하는 단계는 상기 제1 대상 문구의 후보들을 상기 맥락 문구들로 교체한 문장들의 언어 모델에 기초한 확률들에 더 기초하여, 상기 제1 대상 문구 및 상기 제1 맥락 문구를 결정하는 단계를 포함할 수 있다.

상기 언어 모델은 상기 맥락 문구들에 대응하는 언어 모델을 포함할 수 있다.

상기 음성 인식 결과를 수정하는 단계는 상기 음성 인식 결과에서 상기 식별자를 제거하는 단계를 더 포함할 수 있다.

상기 제1 위치를 획득하는 단계는 상기 음성 인식 결과에 복수의 식별자들이 포함되는지 여부를 판단하는 단계; 상기 음성 인식 결과 내 상기 복수의 식별자들의 위치들에 기초하여, 상기 복수의 식별자들 중 어느 하나의 식별자를 선택하는 단계; 및 상기 선택된 식별자에 기초하여, 상기 제1 위치를 획득하는 단계를 포함할 수 있다.

상기 음성 인식 모델은 CLAS(contextual LAS) 모델을 포함할 수 있다.

상기 맥락 정보는 상기 CLAS 모델의 바이어스 인코더에서 상기 맥락 문구들을 임베딩하여 획득된 벡터를 포함할 수 있다.

상기 맥락 문구들은 하나의 어절 단위로 분리되어 상기 바이어스 인코더에 입력될 수 있다.

일 측에 따른 음성 인식 장치는 음성 인식 모델로부터 맥락 정보가 활용된 문구(phrase)를 지시하는 식별자를 포함하는 음성 인식 결과를 획득하고, 상기 식별자에 기초하여, 상기 음성 인식 결과에서 제1 대상 문구의 끝점에 대응하는 제1 위치를 획득하고, 상기 제1 위치에 대응하는 제1 대상 문구의 후보들과 상기 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하며, 상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도에 기초하여 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체함으로써, 상기 음성 인식 결과를 수정하는, 적어도 하나의 프로세서를 포함한다.

상기 제1 대상 문구의 후보들은 상기 음성 인식 결과의 적어도 일부에 해당하며, 상기 제1 위치를 끝점으로 하는 복수의 문구들을 포함할 수 있다.

상기 프로세서는, 상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정함에 있어서, 상기 맥락 문구들 각각에 대응하여, 해당 맥락 문구의 어절 수에 기초하여, 상기 해당 맥락 문구에 대응하는 상기 제1 대상 문구의 후보들을 결정하고, 상기 결정된 제1 대상 문구의 후보들 중 상기 해당 맥락 문구와의 유사도가 높은 후보를 상기 해당 맥락 문구에 대응하여 저장하고, 상기 맥락 문구들 중 대응하여 저장된 후보와의 유사도가 높은 맥락 문구를 상기 제1 맥락 문구로 결정하며, 상기 제1 맥락 문구에 대응하여 저장된 후보를 상기 제1 대상 문구로 결정할 수 있다.

상기 프로세서는, 상기 음성 인식 결과를 수정함에 있어서, 상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도를 임계 값과 비교하여, 상기 제1 대상 문구의 교체 여부를 결정하고, 상기 교체 여부의 결정에 기초하여, 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체함으로써, 상기 음성 인식 결과를 수정할 수 있다.

상기 프로세서는, 상기 음성 인식 결과를 수정함에 있어서, 상기 제1 위치를 상기 음성 인식 결과에 포함된 다른 어절에 대응하는 제3 위치로 변경하고, 상기 제3 위치에 대응하는 제2 대상 문구의 후보들과 상기 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 상기 제2 대상 문구 및 상기 제2 대상 문구에 대응하는 제2 맥락 문구를 결정하며, 상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도 및 상기 제2 대상 문구와 상기 제2 맥락 문구 사이의 유사도에 기초하여, 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체한 제1 음성 인식 결과 및 상기 제2 대상 문구를 상기 제2 맥락 문구로 교체한 제2 음성 인식 결과 중 어느 하나를 출력할 수 있다.

상기 프로세서는, 상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정함에 있어서, 상기 제1 대상 문구의 후보들을 상기 맥락 문구들로 교체한 문장들의 언어 모델에 기초한 확률들에 더 기초하여, 상기 제1 대상 문구 및 상기 제1 맥락 문구를 결정할 수 있다.

상기 프로세서는, 상기 제1 위치를 획득함에 있어서, 상기 음성 인식 결과에 복수의 식별자들이 포함되는지 여부를 판단하고, 상기 음성 인식 결과 내 상기 복수의 식별자들의 위치들에 기초하여, 상기 복수의 식별자들 중 어느 하나의 식별자를 선택하며, 상기 선택된 식별자에 기초하여, 상기 제1 위치를 획득할 수 있다.

도 1은 일 실시 예에 따른 음성 인식 방법의 동작 흐름도이다.
도 2는 일 실시예에 따른 음성 인식 모델의 입출력 데이터의 예를 도시한 도면이다.
도 3은 일 실시예에 따른 제1 대상 문구 및 제1 맥락 문구 결정하는 방법의 구체적인 동작 흐름도이다.
도 4a 및 도 4b는 일 실시 예에 따른 제1 대상 문구 및 제1 맥락 문구 결정하는 방법을 설명하기 위한 도면들이다.
도 5a 및 도 5c는 일 실시 예에 따른 음성 인식 결과를 수정하는 방법을 설명하기 위한 도면들이다.
도 6은 일 실시 예에 따른 언어 모델에 기초한 확률에 기초하여 제1 대상 문구 및 제1 맥락 문구를 결정하는 방법을 설명하기 위한 도면이다.
도 7 내지 도 9는 일 실시 예에 따른 음성 인식 방법의 동작들을 장치에서 실행하기 위하여 알고리즘으로 구현한 예를 도시한 도면들이다.
도 10은 일 실시예에 따른 장치의 구성의 예시도이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

이하에서,

는 ^{^}x (x는 임의의 문자)로 기재될 수 있다.

도 1은 일 실시 예에 따른 음성 인식 방법의 동작 흐름도이다.

도 1을 참조하면, 일 실시 예에 따른 음성 인식 방법은 음성 인식 모델로부터 음성 인식 결과 획득하는 단계(110), 음성 인식 결과에서 제1 대상 문구(phrase)의 끝점(end-point)에 대응하는 제1 위치를 획득하는 단계(120), 제1 대상 문구의 후보들과 맥락 문구(context phrase)들 사이의 유사도들에 기초하여, 제1 대상 문구 및 제1 맥락 문구를 결정하는 단계(130), 및 제1 대상 문구를 제1 맥락 문구로 교체함으로써, 음성 인식 결과를 수정하는 단계(140)를 포함할 수 있다.

실시 예에서, 제1 위치에 대응하는 제1 대상 문구 및 제1 대상 문구의 후보(들)은 이하에서 제3 위치에 대응하는 제2 대상 문구 및 제2 대상 문구의 후보(들)과 구분하여 지칭하기 위하여 '제1' 또는 '제2'를 부가한 것으로, 제1 대상 문구 및 제2 대상 문구는 대상 문구에 포함되며, 제1 대상 문구의 후보(들) 및 제2 대상 문구의 후보(들)은 대상 문구의 후보(들)에 포함될 수 있다.

실시 예에서 '문구'는 하나 이상의 단어(word)를 포함하는 단위를 의미한다. 예를 들어, "딸기 라떼 주세요"의 문장에서 '딸기', '라떼' 및 '주세요' 각각은 단어에 해당하며, 1개의 단어를 포함하는 문구에 해당할 수 있다. '딸기 라떼' 및 '라떼 주세요'는 2개의 단어를 포함하는 문구, '딸기 라떼 주세요'는 3개의 단어를 포함하는 문구에 해당할 수 있다.

실시 예에서 '단어'는 음성 인식 모델의 인식 결과에 기초하여 결정된 단위의 단어를 의미할 수 있다. 예를 들어, 문법적으로 '딸기' 및 '라떼'는 각각의 단어에 해당하지만, 음성 인식 모델에서 '딸기라떼'를 하나의 단어로 인식한 경우, '딸기라떼'는 2개의 단어가 아니라 단일 단어로 간주될 수 있다.

일 실시 예에 따른 단계(110)는 음성 인식 모델로부터 맥락 정보가 활용된 문구를 지시하는 식별자를 포함하는 음성 인식 결과를 획득하는 단계를 포함할 수 있다.

일 실시 예에 따른 음성 인식 모델은 입력된 음성 신호에 대응하는 텍스트를 출력하는 모델에 해당할 수 있다. 예를 들어, 도 2를 참조하면 음성 인식 모델(210)은 음성 신호(201) 및 맥락 문구(202)를 입력 받아 음성 인식 결과(203)를 출력하는 모델을 포함할 수 있다. 다시 말해, 음성 인식 모델(210)의 입력 데이터는 음성 신호(201) 및 맥락 문구(202)를 포함할 수 있다. 음성 신호(201)는 사용자의 발화를 포함하는 음향 신호로, 예를 들어 "딸기 라떼 하나 주세요"를 발화한 음향 신호를 포함할 수 있다. 맥락 문구(202)는 특정 맥락에서 사용되는 문구로, 예를 들어 딸기 라떼, 아메리카노와 같은 카페 메뉴 이름을 포함할 수 있다.

일 실시 예에 따르면, 음성 인식 모델(210)은 입력된 맥락 문구(202)에 기초하여 맥락 정보를 획득할 수 있다. 예를 들어, 맥락 정보는 맥락 문구(202)를 임베딩하여 획득된 벡터를 포함할 수 있다. 음성 인식 모델(210)은 음성 신호(201)의 인식 과정에 맥락 정보를 활용할 수 있으며, 맥락 정보가 활용된 문구를 지시하는 식별자를 포함하는 음성 인식 결과(203)를 출력할 수 있다. 일 예로, 식별자는 음성 인식 결과(203) 내에서 맥락 정보가 활용된 문구의 끝점에 표시될 수 있다. 예를 들어, 음성 인식 모델(210)은 "딸기 라떼 주세요"를 발화한 음성 신호(201) 및 '딸기 라떼', '아메리카노', '카푸치노'를 포함하는 맥락 문구(202)를 입력 받아, "딸기 라떼 주세요"의 음성 신호의 인식을 수행할 수 있으며, "딸기 라떼"에 대응하는 음성 신호의 인식 과정에서 맥락 정보를 활용한 경우, "딸기 라떼" 의 끝점에 식별 자 '<T>'를 표시한 "딸기 라떼<T> 주세요"의 음성 인식 결과를 출력할 수 있다.

일 실시 예에 따른 음성 인식 모델은 CLAS 모델을 포함할 수 있다. 맥락에 기반한 LAS 모델인 CLAS(contextual LAS)의 아키텍처는 맥락 문구들을 임베딩하기 위한 바이어스 인코더를 추가적으로 포함하는 LAS을 기반으로 한다. CLAS의 디코더는 디코딩 과정에서 바이어스 인코더의 맥락 정보를 적응적으로 활용할 수 있다. 맥락 정보는 CLAS의 바이어스 인코더에서 맥락 문구들을 임베딩하여 획득된 벡터를 포함할 수 있다.

일 실시 예에 따르면, CLAS의 디코더에서 바이어스 인코더의 해당 맥락 정보를 사용한 경우, CLAS는 맥락 정보가 활용되었다고 판단되는 부분 뒤에 식별자로 특수한 기호(예: <T>)를 추가적으로 붙여서 음성 인식 결과를 출력할 수 있다. 일 실시 예에 따르면, 맥락 문구 외 비 맥락 문구를 위한 다른 식별자(예: <n/a>)가 이용될 수 있다.

일 실시 예에 따르면, CLAS의 디코딩 과정 중에 맥락 문구를 활용하거나 활용하지 않는 결정은 어텐션 메커니즘(attention mechanism), 즉 데이터 기반 방식에 기초하여 수행될 수 있다. 예를 들어, 사용자가 "play watermelon sugar"을 발화하고, "watermelon sugar"가 CLAS의 맥락 문구에 포함된 경우 CLAS의 지향하는 동작은 맥락 문구 중 "watermelon sugar"에 명확하게 어텐션하고 디코딩 과정 중에 "watermelon sugar" 관련 맥락 정보를 활용하는 것이다. CLAS가 맥락 정보를 활용하는 경우 해당 맥락 정보가 활용된 문구 뒤에 식별자 <T>를 표시한다고 할 때, 위 예에서 CLAS의 가설(hypothesis)은 "play watermelon<T>"이 될 것이다. CLAS의 가설은 음성 인식 모델에서 출력된 음성 인식 결과에 대응될 수 있다.

일 실시 예에 따른 음성 인식 결과는 맥락 정보가 활용된 문구를 지시하기 위한 다양한 형태의 식별자를 포함할 수 있으나, 설명의 편의를 위해 이하에서 음성 인식 결과는 맥락 정보가 활용된 문구의 끝점에 <T>가 표시되어 출력되는 경우를 예로 들어 설명한다.

다시 도 1을 참조하면, 일 실시 예에 따른 단계(120)는 식별자에 기초하여, 제1 대상 문구의 끝점에 대응하는 제1 위치를 획득하는 단계를 포함할 수 있다. 예를 들어, 제1 위치는 음성 인식 결과에서 식별자 <T>의 위치로 획득될 수도 있고, 음성 인식 결과에서 식별자 <T>를 끝점으로 하는 단어의 위치로 획득될 수도 있다.

일 실시 예에 따른 대상 문구는 음성 인식 결과에서 문맥 문구 중 어느 하나로 교체될 여지가 있는 문구에 해당할 수 있다. 제1 대상 문구는 음성 인식 결과 내에서 제1 위치를 끝점으로 하는 대상 문구에 해당할 수 있다. 단계(120)에서는 제1 대상 문구를 결정하기 위한 끝점이 제1 위치로 설정되는 것으로, 음성 인식 결과에서 제1 위치를 끝점으로 하는 하나 이상의 단어를 포함하는 문구가 제1 대상 문구의 후보가 될 수 있다. 제1 대상 문구의 시작점은 단계(120)에 따라 결정되며, 시작점 내지 끝점에 포함된 단어들이 제1 대상 문구로 결정될 수 있다.

일 실시 예에 따른 단계(120)는 음성 인식 결과에 복수의 식별자들이 포함되는지 여부를 판단하는 단계, 음성 인식 결과 내 복수의 식별자들의 위치들에 기초하여, 복수의 식별자들 중 어느 하나의 식별자를 선택하는 단계 및 선택된 식별자에 기초하여, 제1 위치를 획득하는 단계를 포함할 수 있다. 일 예로, 음성 인식 결과에 복수의 식별자들이 포함된 경우, 복수의 식별자들 중 음성 인식 결과 내에서 시간 순서 상 마지막에 위치한 식별자를 선택할 수 있으며, 선택된 마지막 식별자에 기초하여, 제1 위치를 획득하는 단계를 포함할 수 있다. 또 일 예로, 음성 인식 결과에 복수의 식별자들이 포함된 경우, 복수의 식별자들 중 음성 인식 결과 내에서 시간 순서 상 첫번째에 위치한 식별자를 선택할 수 있으며, 선택된 첫번째에 위치한 식별자에 기초하여, 제1 위치를 획득하는 단계를 포함할 수 있다. 복수의 식별자들 중 선택하는 방법은 제시한 예에 한정되지 않으며, 복수의 식별자들 중 어느 하나를 특정할 수 있는 다양한 방법을 포함할 수 있다.

일 실시 예에 따르면, 음성 인식 결과에 복수의 식별자들이 포함된 경우, 복수의 식별자들의 위치들에 기초한 순서에 따라 복수의 식별자들 각각에 대응하여 단계(120) 내지 단계(140)가 반복적으로 수행될 수 있다. 복수의 식별자들 각각에 대응하여 단계(120) 내지 단계(140)가 반복적으로 수행되는 실시 예는 이하에서 상술한다.

예를 들어, "아메리카노 하나랑 딸기 라떼 하나 주세요"의 음성 신호의 음성 인식 결과는 "아메리카노<T> 하나랑 딸기 라떼<T> 하나 주세요"로 '아메리카노'의 끝점에 표시된 제1 식별자 및 '라떼'의 끝점에 표시된 제2 식별자를 포함할 수 있다. 복수의 식별자들 중 음성 인식 결과 내에서 시간 순서 상 마지막에 위치한 제2 식별자에 기초하여 '라떼'의 끝점에 대응하는 위치가 제1 위치로 획득되어 단계(130) 및 단계(140)가 수행될 수 있다. 이후 음성 인식 결과에서 제2 식별자를 제외한 식별자(들) 중 시간 순서 상 마지막에 위치한 제1 식별자에 기초하여 '아메리카노'의 끝점에 대응하는 위치가 제1 위치로 획득되어 단계(130) 및 단계(140)가 수행될 수 있다.

일 실시 예에 따른 단계(130)는 제1 위치에 대응하는 제1 대상 문구의 후보들과 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 제1 대상 문구 및 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하는 단계를 포함할 수 있다. 제1 대상 문구의 후보들은 음성 인식 결과의 적어도 일부에 해당하며, 제1 위치를 끝점으로 하는 복수의 문구들을 포함할 수 있다.

상술한 바와 같이, 제1 위치는 음성 인식 결과에서 식별자 <T>의 위치로 획득될 수도 있고, 음성 인식 결과에서 식별자 <T>를 끝점으로 하는 단어의 위치로 획득될 수도 있다. 음성 인식 결과에서 식별자 <T>의 위치가 제1 위치로 획득된 경우, 제1 위치를 끝점으로 하는 문구는 음성 인식 결과 내에서 <T>의 바로 앞에 위치한 단어를 마지막 단어로 포함하는 문구를 포함할 수 있다. 음성 인식 결과에서 식별자 <T>를 끝점으로 하는 단어의 위치가 제1 위치로 획득된 경우, 제1 위치를 끝점으로 하는 문구는 제1 위치에 해당하는 단어를 마지막 단어로 포함하는 문구를 포함할 수 있다. 다시 말해, 제1 위치가 음성 인식 결과에서 식별자 <T>의 위치로 획득된 경우 및 음성 인식 결과에서 식별자 <T>를 끝점으로 하는 단어의 위치로 획득된 경우 모두에서 제1 위치에 대응하는 제1 대상 문구의 후보들은 제1 위치의 획득 과정에서 이용된 식별자의 바로 앞에 위치한 단어를 마지막 단어로 포함하는 문구들에 해당할 수 있다.

예를 들어, "저는 달기 라떼<T> 하나 주세요"의 음성 인식 결과에서 제1 위치가 <T>의 위치로 획득된 경우, 제1 대상 문구의 후보들은 제1 위치를 끝점으로 하는 문구는 <T>의 바로 앞에 위치한 '라떼'를 마지막 단어로 포함하는 문구들인 '라떼', '달기 라떼' 및 '저는 달기 라떼'를 포함할 수 있다. 또 예를 들어, "저는 달기 라떼<T> 하나 주세요"의 음성 인식 결과에서 제1 위치가 <T>를 끝점으로 하는 단어 '라떼'의 위치로 획득된 경우, 제1 대상 문구의 후보들은 '라떼'를 포함하는 문구들인 '라떼', '달기 라떼' 및 '저는 달기 라떼'를 포함할 수 있다.

일 실시 예에 따른 단계(130)에서 제1 대상 문구의 후보들과 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들은 각각의 제1 대상 문구의 후보들과 각각의 맥락 문구들 사이의 유사도를 포함할 수 있다. 다시 말해, 제1 대상 문구의 후보들 중 어느 하나 및 맥락 문구들 중 어느 하나로 구성된 쌍(pair) 사이의 유사도를 포함할 수 있다. 제1 대상 문구의 후보 및 맥락 문구 사이의 유사도는 발음적 유사도 및 문자적 유사도 중 적어도 하나를 포함할 수 있다. 발음적 유사도는 제1 대상 문구의 후보 및 맥락 문구 사이의 발음의 유사 정도를 수치로 나타낸 값으로, 예를 들어 제1 대상 문구의 후보에 대응하는 음소 시퀀스 및 맥락 문구에 대응하는 음소 시퀀스 사이의 편집 거리에 기초하여 결정될 수 있다. 문자적 유사도는 제1 대상 문구의 후보 및 맥락 문구 사이의 문자의 유사 정도를 수치로 나타낸 값으로, 예를 들어 제1 대상 문구의 후보에 대응하는 자소 시퀀스 및 맥락 문구에 대응하는 자소 시퀀스 사이의 편집 거리에 기초하여 결정될 수 있다. 두 시퀀스 사이의 편집 거리는 어느 하나의 시퀀스를 다른 시퀀스로 변경하기 위하여 수정되어야 하는 시퀀스의 구성 요소의 수를 의미하므로, 편집 거리가 작을수록 유사도는 큰 값으로 결정될 수 있다.

일 실시 예에 따르면, 단계(130)에 따라 결정된 제1 대상 문구 및 제1 맥락 문구 사이의 유사도는 제1 대상 문구의 후보들과 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들 중 가장 높은 유사도에 대응될 수 있다. 다시 말해, 제1 대상 문구의 후보들 중 어느 하나 및 맥락 문구들 중 어느 하나로 구성된 쌍(pair) 사이의 유사도를 측정한 결과, 가장 높은 유사도를 갖는 쌍을 구성하는 제1 대상 문구의 후보 및 맥락 문구가 제1 대상 문구 및 제1 맥락 문구로 결정될 수 있다.

일 실시 예에 따른 단계(130)는 각 맥락 문구에 대응하여 유사도가 높은 제1 대상 문구의 후보를 저장하는 단계 및 맥락 문구들 중 대응하여 저장된 후보와의 유사도가 높은 맥락 문구를 제1 맥락 문구로 결정하는 단계 및 제1 맥락 문구에 대응하여 저장된 후보를 상기 제1 대상 문구로 결정하는 단계를 포함할 수 있다. 각 맥락 문구에 대응하여 유사도가 높은 제1 대상 문구의 후보를 저장하는 단계는 맥락 문구들 각각에 대응하여, 해당 맥락 문구의 어절 수에 기초하여, 해당 맥락 문구에 대응하는 제1 대상 문구의 후보들을 결정하는 단계 및 결정된 제1 대상 문구의 후보들 중 해당 맥락 문구와의 유사도가 높은 후보를 해당 맥락 문구에 대응하여 저장하는 단계를 포함할 수 있다. 일 실시 예에 따른 단계(130)의 구체적인 동작은 도 3을 통해 상술한다.

도 3을 참조하면, 음성 인식 모델에 입력된 맥락 문구들은 context_phrase로 표시될 수 있으며, context_phrase에 n개의 맥락 문구가 포함되어 있다면 context_phrase에 포함된 맥락 문구는 context_phrase[i](i=1, 2, …, n)으로 표시될 수 있다. 맥락 문구 context_phrase[i]에 대응하는 제1 대상 문구의 후보들은 candidate_i로 표시될 수 있으며, candidate_i에 m개의 제1 대상 문구의 후보가 포함되어 있다면 candidate_i에 포함된 제1 대상 문구의 후보는 candidate_i[j](j=1, 2, …, m)으로 표시될 수 있다.

도 3을 참조하면, 일 실시 예에 따른 제1 대상 문구 및 제1 맥락 문구를 결정하는 단계(예: 도 1의 단계(130))는 음성 인식 모델에 입력된 맥락 문구들(context_phrase)에 포함된 맥락 문구들 각각에 대응하여, 해당 맥락 문구 (context_phrase[i])에 대응하는 제1 대상 문구의 후보들(candidate_i)을 결정하는 단계(310), 결정된 제1 대상 문구의 후보들(candidate_i)과 해당 맥락 문구(context_phrase[i]) 사이의 유사도를 측정하는 단계(320), 제1 대상 문구의 후보들(candidate_i) 중 해당 맥락 문구(context_phrase[i])와의 유사도가 높은 후보(candidate_i[j])를 획득하는 단계(330) 및 획득된 후보(candidate_i[j])를 해당 맥락 문구(context_phrase[i])에 대응하여 저장하는 단계(340)를 포함할 수 있다. 예를 들어, 단계(340)에서 단계(330)에 따라 획득된 후보(candidate_i[j])는 'target'으로 표시되는 임의의 리스트에 해당 맥락 문구(context_phrase[i])에 대응하는 인덱스(i)를 갖도록 저장될 수 있다.

일 실시 예에 따른 단계(310) 내지 단계(340)는 맥락 문구들(context_phrase)에 n개의 맥락 문구가 포함된 경우, 맥락 문구들에 포함된 제1 맥락 문구(context_phrase[1]) 내지 제n 맥락 문구(context_phrase[n]) 각각에 대응하여 수행될 수 있다. 단계(310) 내지 단계(340)가 맥락 문구들 각각에 대응하여 수행된 결과 'target' 리스트에는 맥락 문구들 각각에 대응하는 제1 대상 문구의 후보가 저장될 수 있다. 예를 들어, 제1 맥락 문구(context_phrase[1])에 대응하는 제1 대상 문구의 후보(candidate₁[j₁])는 target[1]에, 제2 맥락 문구(context_phrase[2])에 대응하는 제1 대상 문구의 후보(candidate₂[j₂])는 target[2]에 각각 저장될 수 있다.

일 실시 예에 따른 단계(310)는 임의의 맥락 문구(context_phrase[i])의 어절 수에 기초하여, 음성 인식 결과 내 복수의 제2 위치들을 설정하는 단계 및 제2 위치들 각각에 대응하여, 해당 제2 위치를 시작점으로 하고, 제1 위치를 끝점으로 하는 문구를 해당 맥락 문구(context_phrase[i])에 대응하는 제1 대상 문구의 후보로 결정하는 단계를 포함할 수 있다. 제1 대상 문구의 후보로 결정된 문구는 맥락 문구(context_phrase[i])에 대응하는 제1 대상 문구의 후보의 리스트(candidate_i)에 저장될 수 있다.

일 실시 예에 따르면, 임의의 맥락 문구(context_phrase[i])에 대응하는 제1 대상 문구의 후보는 해당 맥락 문구의 어절 수에 기초하여 결정된 범위에 해당하는 개수의 단어를 포함하는 문구로 결정될 수 있다. 예를 들어, 도 4a를 참조하면 맥락 문구의 어절 수를 x라고 할 경우, x-1 이상 및 x+1이하의 범위에 해당하는 개수의 단어를 포함하는 문구가 맥락 문구에 대응하는 제1 대상 문구의 후보로 결정될 수 있다. '딸기 라떼'의 맥락 문구의 경우 어절 수가 2개이므로 음성 인식 결과에서 1 개 내지 3개의 단어를 포함하는 문구가 '딸기 라떼'의 맥락 문구에 대응하는 제1 대상 문구의 후보들로 결정될 수 있다. 상술한 바와 같이, 제1 대상 문구의 후보들은 식별자에 기초하여 획득된 제1 위치를 끝점으로 하는 문구들을 포함할 수 있다. 다시 말해, 음성 인식 결과 내에서 <T>의 위치를 끝점으로 하며, 1개의 단어를 포함하는 '라떼', 2개의 단어를 포함하는 '달기 라떼' 및 3개의 단어를 포함하는 '저는 달기 라떼'가 '딸기 라떼'의 맥락 문구에 대응하는 제1 대상 문구의 후보에 해당할 수 있다.

일 실시 예에 따르면, 어절 수에 기초하여 결정되는 범위의 하한은 1로 결정될 수 있다. 예를 들어, 도 4a를 참조하면 '아메리카노'의 맥락 문구의 경우 어절 수가 1개이므로, x-1 이상 및 x+1이하의 범위에 따르면 0 내지 2 이하의 범위로 결정되나, 범위의 하한은 1로 결정될 수 있다. 다시 말해, 1개 내지 2개의 단어를 포함하는 문구가 '아메리카노'의 맥락 문구에 대응하는 제1 대상 문구의 후보들로 결정될 수 있다.

일 실시 예에 따르면, 맥락 문구의 어절 수를 기준으로 음성 인식 결과 내에서 일정 범위의 개수의 단어를 포함하는 문구들을 제1 대상 문구의 후보로 결정함으로써, 음성 인식 결과에서 단일 단어의 범위 인식의 오류로 인하여 제1 대상 문구의 후보가 잘못 결정되는 결과를 방지할 수 있다. 예를 들어, '딸기 라떼'의 맥락 문구에 대응하는 제1 대상 문구의 후보를 맥락 문구의 어절 수와 동일한 2개의 단어를 포함하는 문구로 결정하는 경우, 음성 인식 과정에서 "딸기 라떼"를 '달기라떼'의 하나의 단어로 잘못 인식하는 오류가 발생하면, '달기라떼'의 문구가 '딸기 라떼'의 맥락 문구에 대응하는 제1 대상 문구의 후보에 포함되지 않는다. 한편, '딸기 라떼'의 맥락 문구에 대응하는 제1 대상 문구의 후보를 1개 내지 3개의 단어를 포함하는 문구로 결정함으로써, 음성 인식 과정에서 "딸기 라떼"를 '달기라떼'의 하나의 단어로 잘못 인식하는 오류가 발생한 경우에도 '달기라떼'의 문구가 '딸기 라떼'의 맥락 문구에 대응하는 제1 대상 문구의 후보에 포함될 수 있다.

일 실시 예에 따른 단계(320)는 맥락 문구에 대응하는 제1 대상 문구의 후보들 각각과 해당 맥락 문구 사이의 유사도를 측정하는 단계에 해당할 수 있다. 예를 들어, 맥락 문구 (context_phrase[i])에 대응하는 제1 대상 문구의 후보들(candidate_i)이 candidate_i[1] 내지 candidate_i[m]의 m개의 후보들을 포함하는 경우, j=1 부터 j=m까지 변화시키면서 candidate_i[j]와 맥락 문구 (context_phrase[i]) 사이의 유사도를 측정하는 단계를 포함할 수 있다.

일 실시 예에 따른 단계(320)는 제1 대상 문구의 후보들 각각에 대응하여, 해당 맥락 문구에 대응하는 자소 시퀀스 및 해당 후보에 대응하는 자소 시퀀스 사이의 편집 거리에 기초하여, 문자적 유사도를 측정하는 단계, 해당 맥락 문구에 대응하는 음소 시퀀스 및 해당 후보에 대응하는 음소 시퀀스 사이의 편집 거리에 기초하여, 발음적 유사도를 측정하는 단계 및 문자적 유사도 및 발음적 유사도에 기초하여, 해당 맥락 문구 및 해당 후보 사이의 유사도를 측정하는 단계를 더 포함할 수 있다. 예를 들어, 해당 맥락 문구 및 해당 후보 사이의 유사도는 문자적 유사도 및 발음적 유사도의 평균으로 결정될 수 있다.

일 실시 예에 따르면, 단계(320)에서 측정된 유사도에 기초하여, 맥락 문구 (context_phrase[i])에 대응하는 제1 대상 문구의 후보들(candidate_i)중맥락 문구(context_phrase[i])와의 유사도가 높은 후보(candidate_i[j])가 획득(330)될 수 있다. 예를 들어, 맥락 문구 (context_phrase[i])에 대응하는 제1 대상 문구의 후보들(candidate_i)이 candidate_i[1] 내지 candidate_i[m]의 m개의 후보들을 포함하는 경우, j는 1 부터 m 까지의 자연수 중 어느 하나에 해당할 수 있다.

일 실시 예에 따르면, 단계(330)에서 획득된 후보(candidate_i[j])는 맥락 문구 (context_phrase[i])에 대응하여 target[i]에 저장(340)될 수 있다.

예를 들어, 도 4a를 참조하면, 맥락 문구와 맥락 문구에 대응하는 제1 대상 문구의 후보들 사이의 편집 거리가 계산될 수 있다. 도 4a에 도시된 음성 인식 결과, 맥락 문구 및 제2 대상 문구의 후보는 자소 시퀀스에 해당하며, 편집 거리는 자소 시퀀스 사이의 편집 거리에 해당한다. 자소 시퀀스 사이의 편집 거리는 문자적 유사도 측정을 위해 이용되는 값에 해당할 수 있다. 예를 들어, 문자적 유사도는 자소 시퀀스 사이의 편집 거리가 작을수록 높게 측정될 수 있다. 도 4a에 도시되진 않았으나, 상술한 바와 같이 맥락 문구와 제1 대상 문구의 후보의 음소 시퀀스 사이의 편집 거리가 계산될 수 있으며, 음소 시퀀스 사이의 편집 거리에 더 기초하여 맥락 문구와 제1 대상 문구의 후보 사이의 유사도가 측정될 수 있다.

도 4a를 참조하면, 맥락 문구와 맥락 문구에 대응하는 제1 대상 문구의 후보들 각각의 자소 시퀀스 사이의 편집 거리가 계산되며, 편집 거리에 기초하여 측정된 유사도가 가장 높은 제1 대상 문구의 후보가 맥락 문구에 대응하여 저장될 수 있다. 예를 들어, '딸기 라떼'의 맥락 문구의 경우, 편집 거리가 가장 작은 '달기 라떼'의 제1 대상 문구의 후보가 맥락 문구와의 유사도가 가장 높은 후보에 해당하고, '아메리카노'의 맥락 문구의 경우, 편집 거리가 가장 작은 '달기 라떼'의 제1 대상 문구의 후보가 맥락 문구와의 유사도가 가장 높은 후보에 해당한다.

도 4b를 참조하면, 각 맥락 문구에 대응하여 유사도가 높은 제1 대상 문구의 후보가 저장될 수 있다. 일 실시 예에 따르면, 제1 대상 문구의 후보와 함께 측정된 유사도 또는 유사도 측정을 위한 편집 거리가 각 맥락 문구에 대응하여 저장될 수 있다. 예를 들어, '딸기 라떼'의 맥락 문구의 경우, 유사도가 가장 높게 측정된 '달기 라떼'의 제1 대상 문구의 후보와 편집 거리 1이 '딸기 라떼'의 맥락 문구에 대응하여 저장될 수 있으며, '아메리카노'의 맥락 문구의 경우, 유사도가 가장 높게 측정된 '달기 라떼'의 제1 대상 문구의 후보와 편집 거리 4가 '아메리카노'의 맥락 문구에 대응하여 저장될 수 있다.

다시 도 3을 참조하면, 일 실시 예에 따른 제1 대상 문구 및 제1 맥락 문구를 결정하는 단계(예: 도 1의 단계(130))는 맥락 문구의 리스트(context_phrase) 중 대응하여 저장된 후보와의 유사도가 높은 맥락 문구(context_phrase[k])를 제1 맥락 문구로 결정하는 단계(350) 및 제1 맥락 문구(context_phrase[k])에 대응하여 저장된 제1 대상 문구의 후보(target[k])를 제1 대상 문구로 결정하는 단계(360)를 포함할 수 있다. 예를 들어, 결정된 제1 맥락 문구와 제1 대상 문구 사이의 유사도는 맥락 문구와 해당 맥락 문구에 대응하여 저장된 제1 대상 문구의 후보와의 유사도 중 가장 높은 유사도에 대응될 수 있다. 일 예로, 도 4b에서 '딸기 라떼'의 맥락 문구 및 이에 대응하여 저장된 '달기 라떼'의 쌍과 '아메리카노'의 맥락 문구 및 이에 대응하여 저장된 '달기 라떼'의 쌍 중 편집 거리가 더 작은 '딸기 라떼'의 맥락 문구 및 '달기 라떼'의 제1 대상 문구의 후보가 각각 제1 맥락 문구 및 제1 대상 문구로 결정될 수 있다.

다시 도 1을 참조하면, 단계(140)는 단계(130)에 따라 결정된 제1 대상 문구와 제1 맥락 문구 사이의 유사도에 기초하여, 제1 대상 문구를 제1 맥락 문구로 교체함으로써, 음성 인식 결과를 수정하는 단계를 포함할 수 있다. 예를 들어, '달기 라떼'가 제1 대상 문구로 결정되고, '딸기 라떼'가 제1 맥락 문구로 결정된 경우, “저는 달기 라떼<T> 하나 주세요”의 음성 인식 결과에서 '달기 라떼'가 '딸기 라떼'로 교체된 수정된 음성 인식 결과가 출력될 수 있다.

일 실시 예에 따르면, 제1 대상 문구가 제1 맥락 문구로 교체됨에 따라, 제1 대상 문구의 끝점에 표시된 식별자가 제거될 수 있다. 예를 들어, “저는 달기 라떼<T> 하나 주세요”의 음성 인식 결과에서 '달기 라떼'가 '딸기 라떼'로 교체되면서 식별자 <T>가 제거되어, 음성 인식 결과가 "저는 딸기 라떼 하나 주세요"로 수정될 수 있다. 다시 말해, 일 실시 예에 따르면, 음성 인식 결과를 수정하는 단계(140)는 제1 대상 문구를 제1 맥락 문구로 교체함에 따라, 음성 인식 결과에서 제1 대상 문구의 끝점에 표시된 식별자를 제거하는 단계를 더 포함할 수 있다.

일 실시 예에 따르면, 단계(140)는 제1 대상 문구와 제1 맥락 문구 사이의 유사도를 임계 값과 비교하여, 제1 대상 문구의 교체 여부를 결정하는 단계 및 교체 여부의 결정에 기초하여, 제1 대상 문구를 제1 맥락 문구로 교체함으로써, 음성 인식 결과를 수정하는 단계를 포함할 수 있다. 임계 값은 유사도에 관하여 미리 정해진 임의의 값에 해당할 수 있다. 일 실시 예에 따르면, 제1 대상 문구와 제1 맥락 문구 사이의 유사도가 임계 값보다 큰 경우(혹은 크거나 같은 경우) 제1 대상 문구를 교체하는 것으로 결정될 수 있으며, 그렇지 않은 경우 제1 대상 문구를 교체하지 않는 것으로 결정될 수 있다. 제1 대상 문구를 교체하는 것으로 결정된 경우, 음성 인식 결과에서 제1 대상 문구가 제1 맥락 문구로 교체됨으로써, 음성 인식 결과가 수정될 수 있다.

일 실시 예에 따르면, 유사도는 편집 거리에 기초하여 결정될 수 있으며, 임계 값은 편집 거리에 관하여 정해진 임의의 값에 해당할 수 있다. 편집 거리에 관한 임계 값의 경우, 제1 대상 문구와 제1 맥락 문구의 자소 시퀀스 혹은 음소 시퀀스 사이의 편집 거리가 임계 값보다 작은 경우(혹은 작거나 같은 경우) 제1 대상 문구를 교체하는 것으로 결정될 수 있으며, 그렇지 않은 경우 제1 대상 문구를 교체하지 않는 것으로 결정될 수 있다.

일 실시 예에 따르면, 단계(140)는 제1 대상 문구를 교체하지 않는 것으로 결정된 경우에도 제1 대상 문구의 끝점에 표시된 식별자를 제거하는 단계를 더 포함할 수 있다.

일 실시 예에 따른 음성 인식 결과를 수정하는 단계(140)는 제1 위치를 음성 인식 결과에 포함된 다른 어절에 대응하는 제3 위치로 변경하는 단계, 제3 위치에 대응하는 제2 대상 문구의 후보들과 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 제2 대상 문구 및 제2 대상 문구에 대응하는 제2 맥락 문구를 결정하는 단계, 및 제1 대상 문구와 제1 맥락 문구 사이의 유사도 및 제2 대상 문구와 제2 맥락 문구 사이의 유사도에 기초하여, 제1 대상 문구를 제1 맥락 문구로 교체한 제1 음성 인식 결과 및 제2 대상 문구를 제2 맥락 문구로 교체한 제2 음성 인식 결과 중 어느 하나를 출력하는 단계를 포함할 수 있다.

일 실시 예에 따르면, 제1 위치를 제3 위치로 변경하는 단계는 음성 인식 결과에서 식별자 <T>의 위치를 다른 어절에 대응하는 위치로 변경함으로써, 제1 위치를 변경된 <T>에 대응하는 제3 위치로 변경하는 단계를 포함할 수 있다. 제1 위치의 변경을 위한 다른 어절은 미리 정해진 규칙에 따라 결정될 수도 있으며, 임의로 결정될 수도 있다. 미리 정해진 규칙은 예를 들어, 식별자 <T>의 위치를 음성 인식 결과 내 <T>가 포함된 어절의 다음 어절로 변경하는 규칙, 혹은 식별자 <T>의 위치를 음성 인식 결과 내 <T>가 포함된 어절의 이전 어절로 변경하는 규칙을 포함할 수 있다.

예를 들어, 도 4a 및 5a를 참조하면, 도 4a의 "저는 달기 라떼<T> 하나 주세요"의 음성 인식 결과 내에서 식별자 <T>의 위치가 '라떼'의 다음 어절인 '하나'의 끝점의 위치인 제3 위치로 변경되어 도 5a의 "저는 달기 라떼 하나<T> 주세요"의 음성 인식 결과가 획득될 수 있다.

일 실시 예에 따르면, 제3 위치에 대응하는 제2 대상 문구의 후보들은 음성 인식 결과의 적어도 일부에 해당하며, 제3 위치를 끝점으로 하는 복수의 문구들을 포함할 수 있다. 예를 들어, 도 5a를 참조하면, 제3 위치에 대응하는 제2 대상 문구의 후보들은 '하나', '라떼 하나', '달기 라떼 하나'를 포함할 수 있다. 제2 대상 문구의 후보들 및 맥락 문구들에 기초하여, 단계(130)와 동일한 프로세스에 의해 2 대상 문구 및 제2 대상 문구에 대응하는 제2 맥락 문구가 결정될 수 있다.

일 실시 예에 따르면, 맥락 문구들 및 제2 대상 문구의 후보들에 기초하여, 도 3에 도시된 단계(310) 내지 단계(340)의 동작들이 수행될 수 있다. 예를 들어, 도 도 5a를 참조하면, 맥락 문구와 맥락 문구에 대응하는 제2 대상 문구의 후보들 사이의 편집 거리가 계산될 수 있으며, 각 맥락 문구에 대응하여 각 맥락 문구와의 유사도가 높은 제2 대상 문구의 후보가 저장될 수 있다. 도 5b를 참조하면, 맥락 문구들 및 제2 대상 문구의 후보들에 기초하여, 도 3에 도시된 단계(310) 내지 단계(340)의 동작들이 수행된 결과, 각 맥락 문구에 대응하여 제1 위치에 기초하여 결정된 제1 대상 문구의 후보(511, 512) 및 제3 위치에 기초하여 결정된 제2 대상 문구의 후보(521, 522)가 저장될 수 있다. 도 5b에서 제1 맥락 문구 및 제1 대상 문구는 '딸기 라떼'와 '달기 라떼'(511)의 쌍 및 '아메리카노'와 '달기 라떼'(512)의 쌍 중 유사도가 높은 '딸기 라떼' 및 '달기 라떼'(511)로 결정될 수 있다. 제2 맥락 문구 및 제2 대상 문구는 '딸기 라떼'와 '달기 라떼 하나'(521)의 쌍 및 '아메리카노'와 '하나'(혹은 '라떼 하나')(522)의 쌍 중 유사도가 높은 '딸기 라떼' 및 '달기 라떼 하나'(521)로 결정될 수 있다. 도 5c를 참조하면, 제1 대상 문구(531)를 제1 맥락 문구(532)로 교체한 제1 음성 인식 결과(533) 및 제2 대상 문구(541)를 제2 맥락 문구(542)로 교체한 제2 음성 인식 결과(543)가 획득될 수 있다. 제1 음성 인식 결과(533) 및 제2 음성 인식 결과(543) 중 편집 거리가 더 작아 유사도가 더 높은 것으로 측정되는 제1 음성 인식 결과(533)가 출력될 수 있다.

이하에서 상술하겠으나, 제1 음성 인식 결과 및 제2 음성 인식 결과 중 출력될 어느 하나를 선택함에 있어서, 발음적 및 문자적 유사도 뿐 아니라 언어 모델에 기초한 확률에 따른 점수에 기초하여 어느 하나가 결정될 수 있다.

다시 도 1을 참조하면, 일 실시 예에 따른 단계(130)는 제1 대상 문구의 후보들을 맥락 문구들로 교체한 문장들의 언어 모델에 기초한 확률들에 더 기초하여, 제1 대상 문구 및 제1 맥락 문구를 결정하는 단계를 포함할 수 있다. 일 실시 예에 따른 언어 모델은 맥락 문구들에 대응하는 언어 모델을 포함할 수 있다. 예를 들어, 도 6을 참조하면, 맥락 문구 '딸기 라떼'에 대응하여 획득된 대상 문구의 후보들 각각에 대응하여, 음성 인식 결과 내에서 해당 대상 문구의 후보가 맥락 문구로 교체된 음성 인식 결과(610)를 도시한다. 일 실시 예에 따른 대상 문구의 후보들은 제1 대상 문구의 후보들 및 제2 대상 문구의 후보들 중 적어도 하나를 포함할 수 있다. 음성 인식 결과(610)에서 밑줄 친 부분은 맥락 문구로 교체된 부분에 해당한다. 음성 인식 결과(610) 각각에 대응하여 언어 모델에 기초한 확률(620)이 계산될 수 있다. 일 실시 예에 따르면, 대상 문구의 후보 및 맥락 문구 사이의 유사도 및 해당 대상 문구의 후보를 해당 맥락 문구로 교체한 음성 인식 결과에 대한 언어 모델에 기초한 확률에 기초하여, 제1 맥락 문구 및 제1 대상 문구가 결정될 수 있다. 언어 모델에 기초한 확률들에 더 기초하여 제1 대상 문구 및 제1 맥락 문구를 결정하는 단계의 구체적인 동작은 이하에서 상술한다.

일 실시 예에 따르면, 제3위치는 또 다른 어절에 대응하는 위치로 변경될 수 있으며, 변경된 위치에 대응하는 제3 대상 문구의 후보들과 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 제3 대상 문구 및 제3대상 문구에 대응하는 제3 맥락 문구를 결정하는 단계가 더 수행될 수 있다.

다시 말해, 일 실시 예에 따르면, 제1 위치는 음성 인식 결과에 포함된 다른 어절에 대응하는 위치들로 변경되고, 제1 대상 문구 및 제1 맥락 문구를 결정하는 단계는 변경된 위치들에 기초하여 반복적으로 수행될 수 있다. 제1 대상 문구 및 제1 맥락 문구를 결정하는 단계는 변경된 위치들에 기초하여 n회 반복적으로 수행됨에 따라 제1 대상 문구 및 제1 맥락 문구, 제2 대상 문구 및 제2 맥락 문구와 같은 대상 문구 및 맥락 문구의 쌍이 n개 생성될 수 있다. n개의 대상 문구 및 맥락 문구의 쌍들의 유사도들에 기초하여, 제k 대상 문구를 제k 맥락 문구로 교체한 제k 음성 인식 결과가 출력될 수 있다.

일 실시 예에 따르면, 단계(110)에서 획득된 음성 인식 결과에 복수의 식별자들이 포함된 경우, 각각의 식별자에 대응하여, 단계(120) 내지 단계(140)의 동작들이 반복 수행될 수 있다. 일 실시 예에 따른 제1 위치를 획득하는 단계(120)는 반복 수행을 위해 복수의 식별자들 중 어느 하나를 선택하고, 선택된 식별자에 기초하여 제1 위치를 획득하는 단계를 포함할 수 있다. 보다 구체적으로, 일 실시 예에 따른 제1 위치를 획득하는 단계(120)는 음성 인식 결과에 복수의 식별자들이 포함되는지 여부를 판단하는 단계, 음성 인식 결과 내 복수의 식별자들의 위치들에 기초하여, 복수의 식별자들 중 어느 하나의 식별자를 선택하는 단계 및 선택된 식별자에 기초하여, 제1 위치를 획득하는 단계를 포함할 수 있다.

예를 들어, 음성 인식 결과에 복수의 식별자들이 포함된 경우, 복수의 식별자들 중 음성 인식 결과 내에서 시간 순서 상 가장 마지막에 위치한 식별자가 선택될 수 있으며, 선택된 식별자에 기초하여 식별자의 끝점으로 제1 위치가 획득될 수 있다. 획득된 제1 위치에 기초하여, 단계(130) 내지 단계(140)가 수행되고, 단계(140)가 수행됨에 따라 가장 마지막에 위치한 식별자가 제거될 수 있다. 수정된 음성 인식 결과에 기초하여, 음성 인식 결과 내에서 시간 순서 상 가장 마지막에 위치한 식별자를 선택하고, 선택된 식별자에 기초하여 식별자의 끝점으로 제1 위치를 획득하여, 획득된 제1 위치에 기초하여, 단계(130) 내지 단계(140)가 반복적으로 수행될 수 있다. 일 예로, 음성 인식 결과 내에 포함된 식별자가 모두 제거될 때까지 단계(120) 내지 단계(140)의 수행이 반복될 수 있다.

도 7 내지 도9는 일 실시 예에 따른 음성 인식 방법의 동작들을 장치에서 실행하기 위하여 알고리즘으로 구현한 예를 도시한 도면들이다. 이하는 도 7 내지 도 9를 참조하여 상술한 음성 인식 방법의 동작들이 구현된 알고리즘 1 내지 3의 과정을 상술한다.

단어 매칭 알고리즘(word-matching algorithm; WMA)

일 실시 예에 따른 CLAS의 가설이 주어지면, WMA는 해당 가설 내에서 끝점이 <T>의 위치인 대상 문구의 시작점을 추정하면서 <T> 앞의 대상 문구를 발음적으로, 그리고 문자적으로 유사한 맥락 문구로 변경할지 여부를 결정하는 단계를 포함한다. 대상 문구와 맥락 문구 간의 유사도를 측정할 때, 발음적 측면과 문자적 측면이 모두 고려될 수 있다. 예를 들어, "the color"과 "the colour"은 철자가 다르더라도 동일하게 발음되므로 발음적 측면에서 유사도가 높게 측정된다. WMA의 구체적인 과정은 도 7에 도시된 알고리즘 1을 참조하여 상술한다.

도 7을 참조하면, 알고리즘 1의 2행에서, 먼저 d_arr 및 k_arr은 빈 어레이로 초기화된다. 3 행의 GetLastBiasIndex는 가설에서 마지막이 <T>로 표시된 단어의 인덱스 ^{^}l을 획득하는 함수이다. GetLastBiasIndex는 상술한 도 1의 단계(120)에 대응될 수 있으며, 보다 구체적으로 음성 인식 결과에서 식별자 <T>를 끝점으로 하는 단어의 위치를 제1 위치로 획득하는 단계에 대응될 수 있다. 예를 들어, 가설이 "hey kakao<T> play watermelon sugar<T>"이면, GetLastBiasIndex에 의해 "sugar<T>"에 해당하는 단어의 인덱스가 획득된다.

알고리즘 1의 4행을 참조하면, hyp[1 : ^{^}l]로부터 마지막 ^{^}m + ω 단어들이 획득된다. ^{^}m은 모든 맥락 문구들 중 최대 단어 수, ω는 하이퍼파라미터(hyperparameter), hyp[1 : ^{^}l]은 hyp에서 첫번째 단어부터 ^{^}l번째 단어를 의미한다. 발견된 hyp의 하위 시퀀스를 y^c = [w₁, …, w _^n]로 표시한다. w_i는 단어 또는 공백이고, ^{^}n은 y^c에 포함된 단어들의 수이며, y^c에 대한 대상 문구들의 끝점에 대응된다. 각 w_i는 일련의 자소 또는 일련의 음소로 표현될 수 있다. 위 첨자 c 및 p는 w_i가 공백이 아닌 단어에 해당하는 경우 w_i가 각각 자소의 시퀀스 및 음소의 시퀀스임을 의미한다. hyp의 하위 시퀀스 y^c는 상술한 제1 대상 문구의 후보들에 대응될 수 있다. 5행의 RemoveBias는 y^c의 모든 <T>를 제거한다. 일 예로, y^c를 y^p로 변환하기 위해 6 행에서 자소-음소 변환기(grapheme-to-phoneme converter)를 사용할 수 있다.

알고리즘 1의 7 행의 Z는 맥락 문구인 z^c 및 z^c의 음소 형태의 문구인 z^p를 포함하는 사전(lexicon)이다. 8행의 GetNumWord는 z^c 및 y^c의 단어 수를 획득하는 함수이다. 9 행에서 초기 시작점 ^{^}μ이 획득될 수 있다. 알고리즘 1의 10행의 GetStartPoint는 다음의 수학식 1 및 2와 같이 초기 시작점 ^{^}μ을 기준으로 대상 문구의 시작점을 추정하는 함수이다.

수학식 1에서, EDIT는 두 시퀀스 간의 편집 거리(edit distance)이고, len은 시퀀스의 길이를 나타낸다. 수학식 2에서, NED는 정규화된 EDIT를 의미한다. EDIT 및 len에서 시퀀스의 요소는 단어 단위가 아니라 입력 시퀀스의 유형(예: c 또는 p)에 따라 자소 단위 또는 음소 단위이다. 수학식 1에 따라 시작점 ^{^}k를 추정하는 과정은 상술한 도 1의 단계(130)에 대응될 수 있다.

y^c에 대한 시작점 ^{^}k 및 끝점 ^{^}n이 주어지면, y^c와 y^p 모두에서 대상 문구를 추출할 수 있으므로 대상 문구와 맥락 문구 사이의 평균-NED(ANED)가 11행과 같이 발음적 및 문자적 측면에서 계산된다.

알고리즘 1의 14행을 참조하면, 최소 ANED인 d_min은 임계 값 α과 비교된다. d_min이 α보다 크면, 대상 문구가 Z 내의 모든 맥락 문구와 유사하지 않은 것으로 간주한다. 이 경우 가설이 변경될 필요가 없으므로, WMA는 15행과 같이 RemoveLastBias에 의해 마지막 <T>를 제거한 후 입력 가설 자체를 출력하는 단계를 포함할 수 있다. 다른 경우, hyp에 대한 대상 문구의 시작점 ^{^}s은 19행에서와 같이 재구성되고, 끝점은 3행의 ^{^}l이 된다. 그 후 RepWordBias (20 행)는 대상 문구 hyp [^{^}s : ^{^}l]를 z^c로 대체하는 함수이다. 17행을 참조하면, z^c는 Z에서 대상 문구와 가장 유사한 맥락 문구이다. z^c에는 <T>가 포함되지 않으므로 마지막 <T>는 제거된다. RepWordBias는 상술한 도 1의 단계(140)에 대응될 수 있다.

후방향 검색(backward search; BS)

WMA는 CLAS에서 끝점이 발견된 대상 문구의 시작점을 추정한다. 그러나 CLAS는 항상 끝점을 정확하게 추정할 수 없으므로 WMA는 가설에 맥락 문구가 포함되어 있더라도 대상 문구와 해당 맥락 문구 사이에 예기치 않게 큰 ANED가 획득될 수 있다. 예를 들어, 가설이 "play watermelon<T> sugar"이고, 맥락 문구가 "watermelon sugar"인 경우, 잘못된 <T> 표시로 인하여 WMA는 가설에 포함된 "watermelon sugar"가 아닌 "watermelon"를 맥락 문구와 비교하게 된다. 따라서 BS는 알고리즘 2에서와 같이 <T>를 후방향 단어로 순차적으로 이동시켜 대상 문구의 끝점을 재추정한다. BS의 구체적인 과정은 도 8에 도시된 알고리즘 2를 참조하여 상술한다.

도 8에 도시된 알고리즘 2의 2행을 참조하면, 먼저 d_arr, p_arr 및 h_arr는 빈 어레이로 초기화된다. 3행의 GetLastBiasIndex는 가설에서 마지막 <T>로 표시된 단어의 인덱스인 ^{^}l을 획득한다. 4 행은 BS가 ^{^}l 번째 단어부터 다음 b_index까지의 단어들을 조사한다는 것을 의미한다. 5 행의 MoveLastBias는 i 번째 단어로 <T>를 이동시킨다. 예를 들어, 입력 가설이 "hey kakao<T> how is the weather"이고, i가 3이라면 결과는 hey kakao how<T> is the weather"이다. 그런 다음 6 행과 같이 마지막 <T>가 업데이트된 가설에 대해 WMA가 수행된다. 다른 끝점에 따른 WMA의 결과는 7 행에서와 같이 d_arr, p_arr 및 h_arr에 누적된다. 결과적으로 BS에 대한 가장 좋은 가설이 8 행에서 획득된다. p_arr[^{^}d]에서 ^{^}s를 확인하여 맥락 문구가 WMA에서 대상 문구를 대체했는지 여부를 확인할 수 있다. 예를 들어, 대체한 경우 ^{^}s는 None이 아니고, 대체하지 않은 경우 ^{^}s는 None이다. 전자의 경우, best_hyp에서 잔여 <T>를 처리하기 위한 다음 BS는 이미 대체된 대상 문구를 조사할 필요가 없다. 다른 경우에는 끝점으로 ^{^}1-1 번째 단어까지 조사해야 할 수 있다. 이를 위해 다음 BS 용 b_index는 9행의 GetBoundaryIndex에 의해 아래의 수학식 3과 같이 제공된다.

여기서 ^{^}l 및 ^{^}s는 p_arr[^{^}d]에서 온 것이다.

알고리즘 1 및 2 (WMA-BS)는 도 9에 도시된 알고리즘 3에서와 같이 CLAS의 후처리로 활용될 수 있다.

일 실시 예에 따른 알고리즘 2에서는 후방향 검색을 예로 들어 설명하였으나, 상술한 바와 같이 전방향 검색으로 구현될 수도 있다.

WMA-BS 용 언어 모델

CLAS는 희귀한 단어를 여러 단어로 분리하는 경향이 있으며, WMA-BS에서 짧은 맥락 문구가 선택될 확률이 높다. 따라서 WMA-BS는 일부 분할된 단어를 짧은 맥락 문구로 바꾸고 나머지 단어들은 그대로 출력한다. 예를 들어, "can i have five tiramisu milkshake please"를 발화한 입력 신호에 대하여, "can i have five term a sea milk<T>take please"로 인식될 수 있으며, WMA-BS 알고리즘에 따라 아래의 표 1와 같이 맥락 문구에 대한 ANED가 계산될 수 있다.

Hypothesis	Bias phrase	ANED
(1) can i have five term a sea milk <T>take please	steamed milk	0.31
(2) can i have five term a sea milk take <T> please	tiramisu milkshake	0.42
(3) can i have five term a sea milk take please <T>	tomato cheese	0.59

표 1의 hypothesis는 WMA-BS 알고리즘에 따라 생성된 가설, 각 가설에서 밑줄 친 볼드 체 부분은 대상 문구들, bias word는 해당 가설과 ANED가 가장 작은 맥락 문구, ANED는 해당 가설과 맥락 문구 사이의 WMA-BS 알고리즘에 따라 측정된 평균 편집 거리에 해당한다.

표 1에 따르면, α를 0.5로 설정하면, (1)에 따른 결과 대신 "sea milk"를 "steamed milk"로 대체한 (2)에 따른 결과가 선택된다. 이 문제를 해결하기 위해 맥락 문구를 기반으로 n-gram 언어 모델 (LM)을 구축한다. LM을 (1)와 (2)에 적용하면 (1)에는 대체 후 일부 잔여 단어 ("term", "a", "take")가 있으므로 (1)는 (2)보다 확률이 낮을 수 있으므로, WMA-BS의 결과로 (2)가 선택될 수 있다. 이를 위해 알고리즘 2의 6 행 이후에 아래의 수학식 4와 같은 추가 프로세스가 필요하다.

수학식 4에서 λ는 하이퍼파라미터이다. 이 방법은 맥락 문구에 해당하지 않는 단어들에 패널티를 부여할 수 있다.

고유한 유니그램(unique unigram) 맥락 문구가 있는 CLAS

일 실시 예에 따르면, 맥락 문구들은 하나의 어절 단위로 분리되어 CLAS의 바이어스 인코더에 입력될 수 있다. CLAS는 디코딩 과정에서 맥락 문구 중 하나에 명확하게 어텐션(attention)하면 <T>를 표시한다. CLAS의 어텐션 동작은 데이터 기반 방식으로 수행되므로 CLAS는 경우에 따라 <T> 표시를 생략할 수 있다. 특히 맥락 문구에 공통된 단어가 있는 경우(즉, 서로 음성적으로 유사한 경우), CLAS가 맥락 문구 간의 미묘한 음성 차이를 포착하여 정확한 맥락 문구를 구별하기 어려울 수 있으며, 이 경우 <T> 표시의 생략 가능성이 높다. <T>가 생략된 가설은 WMA-BS에서 처리될 수 없으므로, CLAS에서 <T>를 더 잘 예측하기 위해 맥락 문구를 고유한 유니그램 목록(unique unigram list; ULL)으로 변환하는 규칙을 이용할 수 있다. 예를 들어, 맥락 문구가 {"English breakfast tea", "breakfast sandwich", "chicken sandwich"}로 설정된 경우, UUL은 {"English", "breakfast", "tea", "chicken", "sandwich"} 가 된다. UUL을 이용한 CLAS는 <T>를 원래 맥락 문구의 중간에 표시할 수 있지만 WMA-BS는 BS에서 이러한 문제를 처리할 수 있다.

도 10은 일 실시예에 따른 장치의 구성의 예시도이다.

도 10을 참조하면, 장치(1000)는 프로세서(1001), 메모리(1003) 및 입출력 장치(1005)를 포함한다. 장치(1000)는 예를 들어, 사용자 디바이스(예: 스마트폰, 퍼스널 컴퓨터, 태블릿 PC 등), 시스템 온칩(system on chip; SoC), 서버를 포함할 수 있다.

일실시예에 따른 장치(1000)는 상술한 음성 인식 방법 및/또는 음성 인식 방법을 구현한 알고리즘(예: 도 7 내지 도 9에 도시된 알고리즘 1 내지 알고리즘 3)을 수행하는 장치를 포함할 수 있다.

프로세서(1001)는 도 1 내지 도 9를 통하여 전술한 음성 인식 방법의 적어도 하나의 동작을 수행할 수 있다. 예를 들어, 프로세서(1001)는 상술한 CLAS 모델에 기반한 음성 인식을 수행할 수 있다. 프로세서(1001)는 입력된 음성 신호 및 맥락 문구들을 인코딩하여 음성 신호에 대응하는 부호화 데이터 및 맥락 정보를 획득할 수 있으며, 부호화 데이터를 맥락 정보를 참조하여 디코딩하여 음성 신호에 대응하는 텍스트 데이터를 음성 인식 결과로 획득할 수 있다. 프로세서(1001)는 음성 인식 결과에 대응하여 도 1 내지 도 9를 통해 상술한 방법에 따른 후처리 과정을 수행하여, 수정된 음성 인식 결과를 출력할 수 있다.

메모리(1003)는 상술한 음성 인식 방법과 관련된 정보를 저장할 수 있으며, 음성 인식 모델에 관한 데이터를 저장할 수 있다. 메모리(1003)는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.

일 측에 따른 장치(1000)는 입출력 장치(1005)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다. 예를 들어, 장치(1000)는 입출력 장치(1005)를 통해 음성 신호 및 맥락 문구들을 수신할 수 있으며, 음성 신호의 음성 인식된 결과로 음성 신호에 대응하는 텍스트 데이터를 출력할 수 있다.

일 실시 예에 따르면, 메모리(1003)는 상술한 음성 인식 방법이 구현된 프로그램을 저장할 수 있다. 프로세서(1001)는 메모리(1003)에 저장된 프로그램을 실행하고, 장치(1000)를 제어할 수 있다. 프로세서(1001)에 의하여 실행되는 프로그램의 코드는 메모리(1003)에 저장될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 저장할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

프로세서에 의해 수행되는 음성 인식 방법에 있어서,
음성 인식 모델로부터 맥락 정보가 활용된 문구(phrase)를 지시하는 식별자를 포함하는 음성 인식 결과를 획득하는 단계;
상기 식별자에 기초하여, 상기 음성 인식 결과에서 제1 대상 문구의 끝점에 대응하는 제1 위치를 획득하는 단계;
상기 제1 위치에 대응하는 제1 대상 문구의 후보들과 상기 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하는 단계; 및
상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도에 기초하여 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체함으로써, 상기 음성 인식 결과를 수정하는 단계
를 포함하고,
상기 제1 대상 문구의 후보들은 상기 음성 인식 결과의 적어도 일부에 해당하며, 상기 제1 위치를 끝점으로 하는 복수의 문구들을 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 제1 대상 문구의 후보들과 상기 맥락 문구들 사이의 유사도들은 각각의 상기 제1 대상 문구의 후보들과 각각의 상기 맥락 문구들 사이의 유사도를 포함하고,
상기 제1 대상 문구 및 상기 제1 맥락 문구 사이의 유사도는 상기 유사도들 중 가장 높은 유사도에 대응하는,
음성 인식 방법.
제1항에 있어서,
상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하는 단계는
상기 맥락 문구들 각각에 대응하여,
해당 맥락 문구의 어절 수에 기초하여, 상기 해당 맥락 문구에 대응하는 상기 제1 대상 문구의 후보들을 결정하는 단계; 및
상기 결정된 제1 대상 문구의 후보들 중 상기 해당 맥락 문구와의 유사도가 높은 후보를 상기 해당 맥락 문구에 대응하여 저장하는 단계;
상기 맥락 문구들 중 대응하여 저장된 후보와의 유사도가 높은 맥락 문구를 상기 제1 맥락 문구로 결정하는 단계; 및
상기 제1 맥락 문구에 대응하여 저장된 후보를 상기 제1 대상 문구로 결정하는 단계
를 포함하는,
음성 인식 방법.
제3항에 있어서,
상기 해당 맥락 문구에 대응하는 상기 제1 대상 문구의 후보들을 결정하는 단계는
상기 해당 맥락 문구의 어절 수에 기초하여, 상기 음성 인식 결과 내 복수의 제2 위치들을 설정하는 단계; 및
상기 제2 위치들 각각에 대응하여, 해당 제2 위치를 시작점으로 하고, 상기 제1 위치를 끝점으로 하는 문구를 상기 해당 맥락 문구에 대응하는 상기 제1 대상 문구의 후보로 결정하는 단계
를 포함하는,
음성 인식 방법.
제3항에 있어서,
상기 해당 맥락 문구에 대응하여 저장하는 단계는
상기 제1 대상 문구의 후보들 각각에 대응하여,
상기 해당 맥락 문구에 대응하는 자소 시퀀스 및 해당 후보에 대응하는 자소 시퀀스 사이의 편집 거리에 기초하여, 문자적 유사도를 측정하는 단계;
상기 해당 맥락 문구에 대응하는 음소 시퀀스 및 상기 해당 후보에 대응하는 음소 시퀀스 사이의 편집 거리에 기초하여, 발음적 유사도를 측정하는 단계; 및
상기 문자적 유사도 및 상기 발음적 유사도에 기초하여, 상기 해당 맥락 문구 및 상기 해당 후보 사이의 유사도를 측정하는 단계
를 더 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 음성 인식 결과를 수정하는 단계는
상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도를 임계 값과 비교하여, 상기 제1 대상 문구의 교체 여부를 결정하는 단계; 및
상기 교체 여부의 결정에 기초하여, 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체함으로써, 상기 음성 인식 결과를 수정하는 단계
를 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 음성 인식 결과를 수정하는 단계는
상기 제1 위치를 상기 음성 인식 결과에 포함된 다른 어절에 대응하는 제3 위치로 변경하는 단계;
상기 제3 위치에 대응하는 제2 대상 문구의 후보들과 상기 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 상기 제2 대상 문구 및 상기 제2 대상 문구에 대응하는 제2 맥락 문구를 결정하는 단계; 및
상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도 및 상기 제2 대상 문구와 상기 제2 맥락 문구 사이의 유사도에 기초하여, 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체한 제1 음성 인식 결과 및 상기 제2 대상 문구를 상기 제2 맥락 문구로 교체한 제2 음성 인식 결과 중 어느 하나를 출력하는 단계
를 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하는 단계는
상기 제1 대상 문구의 후보들을 상기 맥락 문구들로 교체한 문장들의 언어 모델에 기초한 확률들에 더 기초하여, 상기 제1 대상 문구 및 상기 제1 맥락 문구를 결정하는 단계
를 포함하고,
상기 언어 모델은 상기 맥락 문구들에 대응하는 언어 모델을 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 음성 인식 결과를 수정하는 단계는
상기 음성 인식 결과에서 상기 식별자를 제거하는 단계
를 더 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 제1 위치를 획득하는 단계는
상기 음성 인식 결과에 복수의 식별자들이 포함되는지 여부를 판단하는 단계;
상기 음성 인식 결과 내 상기 복수의 식별자들의 위치들에 기초하여, 상기 복수의 식별자들 중 어느 하나의 식별자를 선택하는 단계; 및
상기 선택된 식별자에 기초하여, 상기 제1 위치를 획득하는 단계
를 포함하는,
음성 인식 방법.
제1항에 있어서,
상기 음성 인식 모델은 CLAS(contextual LAS) 모델을 포함하고,
상기 맥락 정보는 상기 CLAS 모델의 바이어스 인코더에서 상기 맥락 문구들을 임베딩하여 획득된 벡터를 포함하는,
음성 인식 방법.
제11항에 있어서,
상기 맥락 문구들은 하나의 어절 단위로 분리되어 상기 바이어스 인코더에 입력되는,
음성 인식 방법.
하드웨어와 결합되어 제1항 내지 제12항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
음성 인식 모델로부터 맥락 정보가 활용된 문구(phrase)를 지시하는 식별자를 포함하는 음성 인식 결과를 획득하고,
상기 식별자에 기초하여, 상기 음성 인식 결과에서 제1 대상 문구의 끝점에 대응하는 제1 위치를 획득하고,
상기 제1 위치에 대응하는 제1 대상 문구의 후보들과 상기 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정하며,
상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도에 기초하여 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체함으로써, 상기 음성 인식 결과를 수정하는,
적어도 하나의 프로세서
를 포함하고,
상기 제1 대상 문구의 후보들은 상기 음성 인식 결과의 적어도 일부에 해당하며, 상기 제1 위치를 끝점으로 하는 복수의 문구들을 포함하는,
음성 인식 장치.
제14항에 있어서,
상기 제1 대상 문구의 후보들과 상기 맥락 문구들 사이의 유사도들은 각각의 상기 제1 대상 문구의 후보들과 각각의 상기 맥락 문구들 사이의 유사도를 포함하고,
상기 제1 대상 문구 및 상기 제1 맥락 문구 사이의 유사도는 상기 유사도들 중 가장 높은 유사도에 대응하는,
음성 인식 장치.
제14항에 있어서,
상기 프로세서는,
상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정함에 있어서,
상기 맥락 문구들 각각에 대응하여,
해당 맥락 문구의 어절 수에 기초하여, 상기 해당 맥락 문구에 대응하는 상기 제1 대상 문구의 후보들을 결정하고,
상기 결정된 제1 대상 문구의 후보들 중 상기 해당 맥락 문구와의 유사도가 높은 후보를 상기 해당 맥락 문구에 대응하여 저장하고,
상기 맥락 문구들 중 대응하여 저장된 후보와의 유사도가 높은 맥락 문구를 상기 제1 맥락 문구로 결정하며,
상기 제1 맥락 문구에 대응하여 저장된 후보를 상기 제1 대상 문구로 결정하는,
음성 인식 장치.
제14항에 있어서,
상기 프로세서는,
상기 음성 인식 결과를 수정함에 있어서,
상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도를 임계 값과 비교하여, 상기 제1 대상 문구의 교체 여부를 결정하고,
상기 교체 여부의 결정에 기초하여, 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체함으로써, 상기 음성 인식 결과를 수정하는,
음성 인식 장치.
제14항에 있어서,
상기 프로세서는,
상기 음성 인식 결과를 수정함에 있어서,
상기 제1 위치를 상기 음성 인식 결과에 포함된 다른 어절에 대응하는 제3 위치로 변경하고,
상기 제3 위치에 대응하는 제2 대상 문구의 후보들과 상기 맥락 정보에 대응하는 맥락 문구들 사이의 유사도들에 기초하여, 상기 제2 대상 문구 및 상기 제2 대상 문구에 대응하는 제2 맥락 문구를 결정하며,
상기 제1 대상 문구와 상기 제1 맥락 문구 사이의 유사도 및 상기 제2 대상 문구와 상기 제2 맥락 문구 사이의 유사도에 기초하여, 상기 제1 대상 문구를 상기 제1 맥락 문구로 교체한 제1 음성 인식 결과 및 상기 제2 대상 문구를 상기 제2 맥락 문구로 교체한 제2 음성 인식 결과 중 어느 하나를 출력하는,
음성 인식 장치.
제14항에 있어서,
상기 프로세서는,
상기 제1 대상 문구 및 상기 제1 대상 문구에 대응하는 제1 맥락 문구를 결정함에 있어서,
상기 제1 대상 문구의 후보들을 상기 맥락 문구들로 교체한 문장들의 언어 모델에 기초한 확률들에 더 기초하여, 상기 제1 대상 문구 및 상기 제1 맥락 문구를 결정하고,
상기 언어 모델은 상기 맥락 문구들에 대응하는 언어 모델을 포함하는,
음성 인식 장치.
제14항에 있어서,
상기 프로세서는,
상기 제1 위치를 획득함에 있어서,
상기 음성 인식 결과에 복수의 식별자들이 포함되는지 여부를 판단하고,
상기 음성 인식 결과 내 상기 복수의 식별자들의 위치들에 기초하여, 상기 복수의 식별자들 중 어느 하나의 식별자를 선택하며,
상기 선택된 식별자에 기초하여, 상기 제1 위치를 획득하는,
음성 인식 장치.