KR20210016682A

KR20210016682A - 음성 인식 결과 오류 수정 장치 및 방법

Info

Publication number: KR20210016682A
Application number: KR1020190094742A
Authority: KR
Inventors: 강점자; 박기영; 박전규
Original assignee: 한국전자통신연구원
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2021-02-17

Abstract

음성 인식 결과 오류 수정 장치 및 방법이 개시된다. 입력 문장에 대한 음성 인식 결과의 오류를 수정하는 방법은 상기 입력 문장을 획득하는 단계, 미리 학습된 음성 인식 언어 모델을 기반으로 하여 제1 가중치를 결정하는 단계, 상기 입력 문장의 단어 별로 제1 가중치를 부여하는 단계, 상기 입력 문장에 대응하는 발화 문장을 획득하는 단계, 상기 음성 인식 언어 모델을 기반으로 하여 상기 제1 가중치보다 높은 제2 가중치를 결정하는 단계, 그리고 상기 발화 문장의 단어 별로 제2 가중치를 부여하는 단계를 포함할 수 있다.

Description

음성 인식 결과 오류 수정 장치 및 방법{APPARATUS FOR FIXING ERROR OF SPEECH RECOGNITION RESULT AND METHOD THEREOF}

본 발명은 음성 인식 결과에 따른 오류를 수정하기 위한 장치 및 그 방법에 관한 것이다.

음성인식시스템의 인식 결과는 오류를 포함하고 있기 때문에, 인식 결과를 정답에 가깝게 수정하여 인식시스템의 성능 개선에 사용하고 있다.

기존의 오류 수정 방법은 규칙을 적용한 규칙 기반이거나 정교한 확률 모델 기반으로 오류를 수정하는 방법을 주로 사용하였다.

이러한 방법은 주어진 문장에서 인식 오류를 검출해낼 때, 오류 단어의 주위 문맥이 올바르다고 가정해 버리는 단점이 있다.

본 발명의 기술적 과제는 음성 인식 시스템에서 인식 결과에 대해 단어 신뢰도 척도를 사용하여 End-to-End 기반 음성 인식 결과 오류 수정 방법 및 장치를 제공하는 것이다.

본 발명의 실시예에 따르면, 입력 문장에 대한 음성 인식 결과의 오류를 수정하는 방법이 제공된다. 상기 방법은, 상기 입력 문장을 획득하는 단계, 미리 학습된 음성 인식 언어 모델을 기반으로 하여 제1 가중치를 결정하는 단계, 상기 입력 문장의 단어 별로 제1 가중치를 부여하는 단계, 상기 입력 문장에 대응하는 발화 문장을 획득하는 단계, 상기 음성 인식 언어 모델을 기반으로 하여 상기 제1 가중치보다 높은 제2 가중치를 결정하는 단계, 그리고 상기 발화 문장의 단어 별로 제2 가중치를 부여하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, End-to-End 기반 인식결과 수정을 통해 음성인식시스템의 성능을 개선할 수 있다.

도 1은 본 발명의 실시예에 따른 End-to-End 기반 음성인식 오류 수정 장치를 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 시스템을 위한 음성인식 오류 수정 방법을 나타낸 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성 인식 오류 수정 모델 훈련을 위한 처리 방법을 나타낸 흐름도이다.
도 4는 본 발명의 실시예에 따른 컴퓨터 시스템(400)을 나타내는 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 발명은 음성인식시스템에서 인식 결과에 대해 단위 신뢰도 척도를 사용하여 End-to-End 기반 음성인식 결과 오류 수정 방법 및 장치에 관한 것이다.

음성인식시스템의 인식 결과는 오류를 포함하고 있기 때문에, 인식 결과를 정답에 가깝게 수정하여 인식시스템의 성능 개선에 사용하고 있다. 즉, 일반적으로 음성인식시스템은 오인식 가능성을 포함하고 있기 때문에 인식결과에 대해 인식결과가 맞는지 틀리는지를 검출하여 오류 구간이라 판단되는 부분에 대해서 오류 수정을 하여 인식성능 개선을 하였다.

종래 기술에 따른 오류 수정 방법은 규칙을 적용한 규칙 기반이거나 정교한 확률 모델 기반으로 오류를 수정하는 방법을 주로 사용하였다. 상기한 방법은 주어진 문장에서 인식 오류를 검출해낼 때, 오류 단어의 주위 문맥이 올바르다고 가정해 버리는 단점이 있다.

즉, 기존의 규칙기반 오류 수정 방식은 가우시안 확률 모델을 사용하여 오류구간으로 검출된 단어를중심으로 전후 문맥(context)을 분석하여 오류를 수정하였다. 정교한 확률 모델기반 오류 수정 방식은 오류 구간으로 검출된 구간에 대해 정교한 음향 모델 또는 언어 모델을 적용하여 재인식하거나 인식된 단어열에 대해서 음소별 발음변이를 모델링하여 오류를 보정하거나 n-gram 리스어링을 통해 오류를 수정하는 방법을 사용하였다. 이러한 방법은 주어진 문장에서 인식 오류를 검출해낼 때, 오류 단어의 주위 문맥이 올바르다고 가정해 버리는 단점이 있다.

이하, 도 1 내지 도 3을 참조하여, 본 발명의 실시예에 따른 음성인식시스템에서 인식 결과에 대해 단어 단위 신뢰도 척도를 사용하여 End-to-End 기반 음성인식 결과 오류 수정 방법 및 장치에 대해 설명한다.

도 1은 본 발명의 실시예에 따른 End-to-End 기반 음성인식 오류 수정 장치를 나타낸 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따르면, 음성 인식 결과 오류 수정 장치는 머신 러닝(machine learning) 기반 자연어 처리 기술로서 End-to-End 유형 중 하나인 시퀀스-투-시퀀스(Seq2Seq) 모델을 음성 인식 결과 오류 수정에 사용할 수 있다.

시퀀스-투-시퀀스(Seq2Seq) 모델은 뉴럴 머신 번역(NMT; Neural Machine Translation) 분야에서 사용되는 모델이다. 시퀀스-투-시퀀스(Seq2Seq) 모델은 입력 문장을 Seq2Seq 모델의 인코더 단에서 의미 공간의 히든 벡터로 임베딩할 수 있다. 또한, 시퀀스-투-시퀀스(Seq2Seq) 모델은 디코더 단에서는 임베딩된 벡터를 입력 받으며, 타겟 언어의 번역문을 생성하게 된다.

본 발명의 실시예에 따른 음성 인식 결과 오류 수정 장치는 입력을 처리하는 인코더(11) 및 출력을 처리하는 디코더(12)를 포함한다. 디코더(12)의 처리 결과로 출력 결과(13)을 얻을 수 있다. 인코더(11)와 디코더(12)는 서로 가중치나 매개 변수 집합을 공유할 수 있다.

인코더(11)는 입력으로 음성인식 결과를 사용할 수 있다. 디코더(12)는 입력으로 음성인식 정답 문장을 사용할 수 있다. 인코더(11)의 입력 예로는 "나는/1.0 학교에/0.8 간다/1.0"라는 음성 인식 결과가 입력될 수 있다. 디코더(12)의 입력 예로는 문장의 끝을 알리는 "나는 집에 간다"(<EOS>)와 같은 형태로 입력된다.

인코더(11)의 입력 예에서 숫자는 단어별 신뢰도 척도 값을 나타낸다. 단어와 신뢰도 척도 값을 쌍으로 표시함으로써, 임의의 단어에 대해 오류 가능성을 임베딩 벡터로 표현이 가능하다.

인코더(11)는 어떤 임의의 출력 시퀀스를 생성할 때 전체 입력 데이터를 확인하거나 특정 부분만을 집중하여 확인함으로써, 출력 시퀀스와 입력 데이터간의 연관성을 가중치로 표현하는 주의 집중(attention) 방식을 적용할 수 있다.

도 2는 본 발명의 실시예에 따른 음성 인식 시스템을 위한 음성 인식 오류 수정 방법을 나타낸 흐름도이다.

먼저, 음성 인식 오류 수정은 심층 신경망 기반 문맥 종속 음향모델(23)과 심층신경망 문맥 독립 음향모델(25), n-gram 언어모델(24)을 미리 생성한다.

음성 인식 오류 수정 장치는 음성신호(S21)가 입력되면, 필터뱅크 40*15프레임 형태의 특징을 슈퍼벡터 형태로 특징을 추출한다(S22).

음성 인식 오류 수정 장치는 신경신경망 기반 다중 디코딩(S26)을 수행한다.

음성 인식 오류 수정 장치는 심층신경망 기반으로 훈련된 음향모델(23), n-gram 언어모델(24), 심층신경망 문맥 독립 음향모델(25)을 사용하여 음성인식 결과를 출력한다.

음성 인식 오류 수정 장치는 심층신경망 기반 다중 디코더(25)를 통해 문맥독립 음성인식결과와 문맥종속 음성인식결과를 각각 출력한다. 음성 인식 오류 수정 장치는 심층신경망 기반 다중 디코더(25)를 통해 디코딩을 수행하는 동안 최적 경로에 대한 모든 문맥종속 로그 확률값과 문맥독립 로그 확률값을 구하여 저장한다.

음성 인식 오류 수정 장치는 단어 및 문장수준 신뢰도 척도 계산(S27)을 수행한다. 음성 인식 오류 수정 장치는 문맥종속 음성인식결과를 분석하여 현재 자기 음소를 제외한 반모델 스코어를 계산한다.

즉, 음성 인식 오류 수정 장치는 현재 문맥종속 음소열 이외의 문맥종속 음소열의 로그 확률값을 합하고 문맥종속 음소열을 프레임 수로 나누어, 문맥종속 반 음소 레벨 로그 확률값(LLR: Log Likelihood Ratio)을 구한다.

그런 다음, 음성 인식 오류 수정 장치는 문맥 종속 음소열의 가운데 음소를 기준으로 현재의 문맥독립 음소값을 찾아낸 후, 현재 자기 음소를 제외한 반모델 스코어를 계산한다. 즉, 음성 인식 오류 수정 장치는 현재 문맥종속 음소열의 가운데 음소를 기준으로 현재의 문맥독립 음소의 확률값을 구하고, 현재 음소의 나머지 음소에 대한 로그 확률값을 합하여 프레임 수로 나누어 문맥독립 반음소 로그 확률값(LLR: Log Likelihood Ratio)을 구한다.

음성 인식 오류 수정 장치는 단어 임베딩(S28)를 통해 인식결과 텍스트에 대해서 각각의 단어별로 실수로 수치화 한다.

그 다음, 음성 인식 오류 수정 장치는 단어 임베딩(S28)를 통해 단어 신뢰도 척도 계산(S27)에 계산된 문맥종속 반음소로그 확률값, 문맥독립 반음소 로그 확률값을 한쌍으로 구성(S29)한다. 마지막으로, 음성 인식 오류 수정 장치는 단어 임베딩(S28)를 통해 문장 신뢰도 값을 계산하여 한쌍으로 구성(S29)한다. 예를 들어, 인식결과가 "나는 학교에 간다"인 경우, '나는/1.0 학교에/0.8 간다/1.0'를 생성한다.

오류 수정(30)은 End-to-End모델(S31)에 훈련 셋에 대한 단어 별 확률 값과 바이어스 값들을 저장한다. 음성 인식 오류 수정 장치는 입력문장과 모델과 비교한다. 음성 인식 오류 수정 장치는 인식결과 미리 End-to-End 훈련과정을 통해 얻은 단어별 확률값과 바이어스 값을 사용하여 인식결과를 수정(S30)하여 오류 수정 문장(S32)을 생성한다.

도 3은 본 발명의 실시예에 따른 음성 인식 오류 수정 모델 훈련을 위한 처리 방법을 나타낸 흐름도이다.

도 3에 도시된 바와 같이, 본 발명의 실시예에 따르면, 음성 인식 결과 오류 수정 장치는 먼저 인코더와 디코더를 동시에 학습한다.

그 다음, 음성 인식 결과 오류 수정 장치는 단어 수에 따른 인코더 셀과 디코더 셀을 한꺼번에 전진 전파(forward-propagate)한다. 음성 인식 결과 오류 수정 장치는 손실함수에 근거한 후진전파(backward-propagate)를 수행한다.

상기한 전진 전파 및 후진 전파를 수행함으로써, 음성 인식 결과 오류 수정 장치는 음성 인식 결과 오류 수정 장치는 네트워크에 사용되는 모든 파라미터를 한번 업데이트 한다.

음성 인식 결과 오류 수정 장치는 End-to-End모델을 훈련하기 위해서 음성인식 결과와 정답 텍스트 파일을 준비한다. 음성 인식 결과 오류 수정 장치는 각각의 텍스트 파일을 단어 별로 분할한다. 음성 인식 결과 오류 수정 장치는 단어 별 신뢰도 척도값(S41, S42)을 갖는 훈련 데이터를 준비한다.

음성 인식 결과 오류 수정 장치는 음성인식 결과 텍스트에 대해서 단어 임베딩 및 입력 데이터 구성(S43)을 수행한다. 음성 인식 결과 오류 수정 장치는 음성 인식 정답 텍스트에 대해서 단어 임베딩 및 입력 데이터 구성(S44)을 수행한다.

음성 인식 결과 오류 수정 장치는 이와 같이 구성된 데이터를 다중 LSTM(S45, S47)에 입력으로 사용한다. 다중 LSTM 출력(S47) 시퀀스는 다중 LSTM(S45) 각 셀의 출력과 글로벌 정렬 가중치(Global align weights)를 계산한다. LSTM은 장단기메모리로 Long-Short Term Memory의 약어이다.

해당 가중치는 다시 다중 LSTM(S45)의 출력값과 글로벌 정렬 가중치를 계산하여 글로벌 컨텍스트 벡터라 정의된 주의 집중(S46) 벡터를 구한다.

음성 인식 결과 오류 수정 장치는 이와 같이 구해진 인코더의 주의집중(S46)벡터를 디코더의 다중 LSTM(S47) 입력으로 사용한다. 음성 인식 결과 오류 수정 장치는 추정된 값과 정답과의 비교를 통해 오류보정(S48) 과정을 거쳐 첫번째 출력 값을 구할 수 있다.

음성 인식 결과 오류 수정 장치는 첫번째 출력 값을 다시 다음 입력의 입력으로 사용한다. 음성 인식 결과 오류 수정 장치는 문장의 끝을 만날 때까지 반복하여 End-to-End 모델(S49)을 생성한다.

상기 도 1 내지 도 3에 설명한 바에 따라, 본 발명에서는 오류를 포함하고 있는 인식 문장과 정답 문장을 하나의 쌍으로 대역시킨 병렬 말뭉치를 사용하여 인식 오류와 오류 단어에 대한 교정 정보를 함께 학습할 수 있다.

이에 따라, 특정 인식 오류의 종류를 지정하지 않고 학습이 암시적으로 이루어지기 때문에, 상대적으로 다양한 인식 오류들을 한꺼번에 처리할 수 있어 End-to-End 기반 음성인식 결과 오류 수정 방법을 제안함으로써 음성인식시스템의 성능을 개선할 수 있다.

도 4는 본 발명의 실시예에 따른 컴퓨터 시스템(400)을 나타내는 도면이다.

본 발명의 실시예에 따른 음성 인식 결과 오류 수정 장치는 도 4와 같은 컴퓨터 시스템(400)으로 구현될 수 있다. 그리고 음성 인식 결과 오류 수정 장치의 각 구성 요소도 도 4와 같은 컴퓨터 시스템(400)으로 구현될 수 있다.

컴퓨터 시스템(400)은 버스(420)를 통해 통신하는 프로세서(410), 메모리(430), 사용자 인터페이스 입력 장치(440), 사용자 인터페이스 출력 장치(450), 그리고 저장 장치(460) 중 적어도 하나를 포함할 수 있다.

프로세서(410)는 중앙 처리 장치(central processing unit, CPU)이거나, 또는 메모리(430) 또는 저장 장치(460)에 저장된 명령을 실행하는 반도체 장치일 수 있다. 프로세서(410)는 상기 도 1 내지 도 3에서 설명한 기능들 및 방법을 구현하도록 구성될 수 있다.

메모리(430) 및 저장 장치(460)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(430)는 ROM(read only memory)(431) 및 RAM(random access memory)(432)를 포함할 수 있다. 본 발명의 실시예에서 메모리(430)는 프로세서(410)의 내부 또는 외부에 위치할 수 있고, 메모리(430)는 이미 알려진 다양한 수단을 통해 프로세서(410)와 연결될 수 있다.

따라서, 본 발명의 실시예는 컴퓨터에 구현된 방법으로서 구현되거나, 컴퓨터 실행 가능 명령이 저장된 비일시적 컴퓨터 판독 가능 매체로서 구현될 수 있다. 본 발명의 실시예에서, 프로세서에 의해 실행될 때, 컴퓨터 판독 가능 명령은 본 기재의 적어도 하나의 양상에 따른 방법을 수행할 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

입력 문장에 대한 음성 인식 결과의 오류를 수정하는 방법에 있어서,
상기 입력 문장을 획득하는 단계;
미리 학습된 음성 인식 언어 모델을 기반으로 하여 제1 가중치를 결정하는 단계;
상기 입력 문장의 단어 별로 제1 가중치를 부여하는 단계;
상기 입력 문장에 대응하는 발화 문장을 획득하는 단계;
상기 음성 인식 언어 모델을 기반으로 하여 상기 제1 가중치보다 높은 제2 가중치를 결정하는 단계; 및
상기 발화 문장의 단어 별로 제2 가중치를 부여하는 단계를 포함하는
방법.