KR102197387B1

KR102197387B1 - 자연어 대화체 음성 인식 방법 및 장치

Info

Publication number: KR102197387B1
Application number: KR1020170062292A
Authority: KR
Inventors: 박기영; 박전규
Original assignee: 한국전자통신연구원
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2021-01-04
Also published as: KR20180127020A

Abstract

본 발명은 자연어 대화체 음성 인식 방법에 관한 것으로, 자연어로 발화되는 음성 신호를 매 프레임 단위로 심층 신경망의 출력 값을 계산하는 단계; 계산된 심층 신경망의 출력 값을 이용하여 현재 음성 신호의 프레임에 대한 음소의 정상 여부를 추정하는 단계; 추정된 음성 신호의 프레임에 따라 음성 신호의 음향 모델 스코어 가중치를 변경하거나 스킵하는 단계; 및 변경된 음향 모델 스코어를 이용하여 음성 인식을 수행하는 단계를 포함한다.

Description

자연어 대화체 음성 인식 방법 및 장치{Natural Speech Recognition Method and Apparatus}

본 발명은 음성 인식 시스템에 관한 것으로, 더욱 상세하게는 심층 신경망을 사용하는 음성 인식 디코딩 방법에서 심층 신경망의 출력 값을 이용하되, 불분명한 발화 또는 묵음 구간에 대하여 동적으로 인식 방법을 달리하여 음성 인식 성능을 높이는 자연어 대화체 음성 인식 방법 및 장치에 관한 것이다.

일반적으로, 음성 인식 기술은 발전을 거듭하고 있고, 최근에 들어서는 조용한 환경에서 책을 읽는 것과 같이 낭독체로 정확하게 발성하는 경우 95% 이상의 인식 성능을 보이고 있는 상황이다.

대표적으로 음성 인식 기술이 많이 활용되는 분야로는 휴대폰, 네비게이션, 개인용 로봇 등과 같은 개인화된 장치 분야이다. 이러한 분야에서는 사용자가 음성 인식을 의식하고 명확하게 발성하므로, 음성 인식기의 측면에서는 인식이 비교적 쉬운편이며, 주로 발성 환경의 잡음이 인식 성능을 저하시키는 요소이다.

이와 달리, 사용자가 음성 인식을 고려하지 않고 자연스럽게 발성하는 것을 인식해야하는 분야에서도 음성 인식 기술이 많이 이용되고 있는데, 이러한 분야의 예로는 뉴스, 드라마, 영화 등 멀티미디어 데이터의 캡셔닝, 회의록 녹취, 콜센터 등의 통화 내용 녹취 등이 있다.

이러한 자연어 대화체 음성을 인식하는 분야에서는 사용자가 사람과 대화를 하면서 자연스럽게 발성한 내용을 음성 인식 시스템이 인식하여 텍스트로 변환해야 한다.

그러나 종래 자연어 대화체를 인식하는 음성 인식 시스템은 낭독체 인식에 비하여 그 성능이 크게 못 미치고 있기 때문에 주로 정확한 인식이 되지 않아도 되거나, 정확한 녹취의 보조적인 수단으로 많이 사용된다.

이와 같이, 자연어 대화체 음성 인식이 낭독체 인식에 비하여 성능이 저하되는 주요한 요소 중의 하나는 발성 중 불명확한 구간 또는 묵음 구간이 포함되어 있기 때문이다. 예를 들면, 발화도중에 잠시 멈추었다가 문장을 이어간다거나, 일부 구간에서 머뭇거림이 있다거나, 반복, 간투사 등이 포함된 경우이다.

또한, 문장의 앞부분에 비하여 뒷부분으로 진행될수록 발성이 불명확해지는 것도 자연어 대화체 발화의 특징이다.

이러한, 자연어 대화체의 특성을 개선하고자, 기존의 음성 인식 시스템에서는 음향 모델의 훈련 과정에 이러한 자연어 발성을 많이 포함시켜 음향 모델이 불명확한 발성을 모델링할 수 있도록 함으로써 인식 성능을 개선하고자 하나, 사용자 별로 불명확한 발성의 정도가 다르고 음소 간의 혼돈이 많아지므로 그 개선 정도에 한계가 있는 실정이다.

다른 방법으로는, 가우시안 혼합 모델을 이용하여 음성 신호가 어떤 음소에 속하는지 확률 분포를 추정하던 것을 심층 신경망으로 대체하고 대규모의 음성 데이터로 심층 신경망을 훈련함으로써 낭독체 음성 인식 분야에서도 큰 발전을 이루었다.

그러나 여전히 발성 자체가 불명확한 경우에는 음성 인식 성능이 저하될 수 밖에 없는 문제점이 있다.

본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로 본 발명의 목적은 발성 중 묵음 구간이나 불명확한 발성이 포함되어 있는지를 먼저 추정하고, 추정 정보에 따라 해당 구간을 생략하거나 디코딩 파라미터를 동적으로 변경하여 음성 인식 성능을 개선하는 자연어 대화체 음성 인식 방법 및 장치를 제공하고자 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 목적을 달성하기 위한 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 방법은 자연어로 발화되는 음성 신호를 매 프레임 단위로 심층 신경망의 출력 값을 계산하는 단계; 상기 계산된 심층 신경망의 출력 값을 이용하여 현재 음성 신호의 프레임에 대한 음소의 정상 여부를 추정하는 단계; 추정된 음성 신호의 프레임에 따라 음성 신호의 음향 모델 스코어 가중치를 변경하거나 스킵하는 단계; 및 변경된 음향 모델 스코어를 이용하여 음성 인식을 수행하는 단계를 포함한다.

상기 심층 신경망의 출력 값을 계산하는 단계는, 상기 심층 신경망에서 출력되는 음성 신호의 프레임별로 특징 백터를 추출하여 출력 값을 계산하는 것이 바람직하다.

또한 상기 음소의 정상 여부를 추정하는 단계는, 음성 신호의 현재 프레임과 이전 프레임의 심층 신경망 출력을 조합하여 추정한다.

그리고, 상기 음소의 정상 여부를 추정하는 단계는, 묵음 확률 또는 불명확한 발화일 확률 중 적어도 하나를 추정한다.

또한 상기 음소의 정상 여부를 추정하는 단계는, 상기 심층 신경망의 출력 중, "묵음" 음소에 해당하는 출력 값의 포락선을 통해 계산하되, "묵음" 음소에 해당하는 심층 신경망 출력 값이 기설정된 프레임 동안 일정값 이하이면 상기 음성 신호의 프레임을 "묵음"으로 판단한다.

그리고 상기 음소의 정상 여부를 추정하는 단계는, 심층 신경망의 출력 노드가 기설정된 개수 이상 동시에 활성화되는 경우, 음성 신호의 프레임을 불명확한 발성으로 판단한다.

본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 장치는 자연어로 발화되는 음성 신호를 매 프레임 단위로 심층 신경망의 출력 값을 계산하는 심층 신경망 처리부; 상기 계산된 심층 신경망의 출력 값을 이용하여 현재 음성 신호의 프레임에 대한 음소의 정상 여부를 추정하는 이상 추정부; 추정된 음성 신호의 프레임에 따라 음성 신호의 음향 모델 스코어 가중치를 변경하거나 스킵하는 전처리부; 및 변경된 음향 모델 스코어를 이용하여 음성 인식을 수행하는 디코딩부;를 포함한다.

본 발명의 일 실시예에 따르면, 자연어 대화체 연속어 인식과 같이 사용자가 자유롭게 발성한 연속어 문장 중 프레임 단위로 음소의 정상 여부를 추정하고, 음소의 정상 여부에 따라 음성 신호의 프레임을 스킵하거나 음성 신호의 음상 모델 스코어 가중치를 변경하여 음성 인식 성능을 높일 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 장치의 기능블럭도.
도 2는 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 방법을 설명하기 위한 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 장치의 기능블럭도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 장치는 심층 신경망 처리부(100), 이상 추정부(200), 전처리부(300) 및 디코딩부(400)를 포함하여 이루어진다.

심층 신경망 처리부(100)는 자연어로 발화되어 입력되는 음성 신호를 매 프레임 단위로 처리하여 심층 신경망의 출력 값을 계산한다.

그리고 이상 추정부(200)는 상기 계산된 심층 신경망의 출력 값을 이용하여 현재 음성 신호의 프레임에 대한 음소의 정상 여부를 추정한다.

전처리부(300)는 음성 신호의 프레임에 대한 음소의 정상 여부에 따라, 음성 신호의 음향 모델 스코어 가중치를 변경하거나 스킵한다.

이후, 디코딩부(400)는 음향 모델 스코어를 이용하여 음성 인식(디코딩)을 수행한다.

이러한 본 발명의 일 실시예에 따르면, 자연어 대화체 연속어 인식과 같이 사용자가 자유롭게 발성한 연속어 문장 중 프레임 단위로 음소의 정상 여부를 추정하고, 음소의 정상 여부에 따라 음성 신호의 프레임을 스킵하거나 음성 신호의 음상 모델 스코어 가중치를 변경함으로써 자연어 대화체의 음성 인식 성능을 높일 수 있는 효과가 있다.

본 발명의 일실시예에 따른 자연어 대화체 음성 인식 장치의 동작 과정에 대하여 설명하기로 한다.

먼저, 심층 신경망 처리부(100)는 자연어로 발화되어 입력되는 음성 신호를 매 프레임 단위로 처리하여 심층 신경망의 출력 값을 계산한다. 여기서 심층 신경망의 출력 값은 사후 확률로 표현될 수 있다.

이후, 이상 추정부(200)는 상기 계산된 심층 신경망의 출력 값을 이용하여 현재 음성 신호의 프레임에 대한 음소의 정상 여부를 추정한다. 본 발명의 일 실시예에서의 음소의 정상 여부는 음성 신호의 프레임이 묵음인지의 여부를 통해 판단한다. 본 발명의 일 실시예에서의 이상 추정부(200)는 심층 신경망의 출력 중, "묵음" 음소에 해당하는 출력 값의 포락선을 통해 계산하되, "묵음" 음소에 해당하는 심층 신경망 출력 값이 기설정된 프레임 동안 일정값 이하이면 상기 음성 신호의 프레임을 "묵음"으로 판단하는 것이다.

이와 같이, 음성 신호의 프레임이 묵음인 경우, 전처리부(300)는 음성 신호의 프레임을 스킵하게 된다.

이후, 디코딩부(400)는 전처리부를 통해 묵음인 음성 신호의 프레임이 스킵됨으로써, 음향 모델 스코어를 이용하여 묵음의 음성 신호의 프레임이 제거된 상태에서 음성 신호의 프레임을 디코딩할 수 있게 된다.

따라서, 본 발명의 일 실시예에 따르면, 자연어 대화체 연속어 음성 인식 성능을 향상시킬 수 있으며, 발성 중간의 짧은 휴지 기간에 대한 디코딩을 생략함으로서 음성 인식 속도를 개선할 수 있는 장점이 있다.

한편, 본 발명의 다른 실시예에서는 일 실시예에서의 심층 신경망 처리부(100)는 동일한 동작을 수행하고, 이상 추정부(200)가 음성 신호의 프레임이 불명확한 발성인지의 여부를 추정하여 음소의 정상 여부를 판단한다.

즉, 본 발명의 다른 실시예에 채용된 이상 추정부(200)는 심층 신경망의 출력 노드가 기설정된 개수 이상 동시에 활성화되는 경우, 음성 신호의 프레임을 불명확한 발성으로 판단하는 것이다.

이와 같이, 불명확한 발성의 판단은 현재 프레임의 심층 신경망의 출력 백터의 분포로부터 추정이 가능하다. 즉, 음성 신호가 명료한 발성인 경우 심층 신경망의 출력 중 특정 음소에 대응되는 출력 노드만 활성화되고, 나머지 노드는 0에 가까운 값을 출력하게 된다. 이에 반대로 불명확한 발성인 경우 여러 개의 출력 노드가 동시에 활성화되기 때문에 이러한 특성을 이용하여 현재 프레임의 불명확성을 추정할 수 있다. 본 발명에 채용된 이상 추정부(200)는 엔트로피, KL Divergence 등과 같은 계산 방법을 이용하여 불명확한 발성을 판단할 수도 있다.

이와 같이, 이상 추정부(200)를 통해 음성 신호의 프레임이 불명확한 발성에 의해 발생한 것으로 추정되면, 전처리부(300)는 음성 신호의 프레임에 대한 음소의 정상 여부에 따라, 음성 신호의 음향 모델 스코어 가중치를 변경한다. 즉, 전처리부(300)는 음성 신호의 프레임이 불명확한 발성이면 현재 음성 프레임 처리를 위한 음향 모델 스코어의 가중치를 감소시킨다.

이후, 디코딩부(400)는 음향 모델 스코어를 이용하여 음성 신호의 프레임을 디코딩함으로써, 자연어 대화체 연속어 음성 인식 성능을 향상시킬 수 있는 장점이 있다.

한편, 본 발명의 일 실시예에 채용된 이상 추정부(200)는, 음성 신호의 현재 프레임과 이전 프레임의 심층 신경망 출력을 조합하여 추정한다.

이와 같은 본 발명의 일 실시예에 채용된 이상 추정부(200)는 종래 음성 인식 시스템에 적용되는 심층 신경망의 출력 값으로부터 음소의 정상 여부를 추정하면서도 자연어 대화체 음성의 음성 인식율을 높여줄 수 있는 장점이 있다.

본 발명의 또 다른 실시예에서의 이상 추정부(200)는 묵음 확률 또는 불명확한 발화일 확률을 모두 추정할 수 있다.

이와 같이, 이상 추정부(200)를 통해 현재 입력 프레임이 묵음이라고 판단된 경우에는 현재 프레임을 디코딩에 사용하지 않고 무시함으로써, 전체 계산량을 줄일 수 있는 장점이 있고, 현재 프레임이 불명확한 구간이라고 추정된 경우에는 현재 프레임의 음향 모델 스코어의 가중치를 줄여줌으로써, 현재 프레임의 정보보다는 과거 프레임에 의한 결과 값을 더 중요하게 사용하여 불명확한 발성에 의한 오류를 줄일 수 있는 장점이 있다.

또한, 이상 추정부(200)는 다른 실시예에서 음성 신호의 프레임에 대하여 묵음 여부만을 판단할 수도 있고, 불명확한 발성인지의 여부만을 판단할 수도 있다. 그뿐만 아니라, 묵음 여부와 불명확한 발성인지의 여부를 순차적으로 판단하여 적용할 수도 있다.

도 2는 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 방법을 설명하기 위한 순서도이다.

이하, 하기에서는 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 방법에 대하여 도 2를 참조하여 설명하기로 한다. 이러한, 본 발명의 일 실시예에 따른 자연어 대화체 음성 인식 방법은 각 기능을 수행하는 단일 프로세서에 의해 수행될 수도 있고, 독립된 각각의 프로세서에 의해 수행될 수도 있다.

먼저, 자연어로 발화되는 음성 신호를 매 프레임 단위로 심층 신경망의 출력 값을 계산한다(S100).

이어서, 상기 계산된 심층 신경망의 출력 값을 이용하여 현재 음성 신호의 프레임에 대한 음소의 정상 여부를 추정한다(S200)

이후, 추정된 음성 신호의 프레임에 따라 음성 신호의 음향 모델 스코어 가중치를 변경하거나 스킵한다(S300).

이어서, 변경된 음향 모델 스코어를 이용하여 음성 인식을 수행한다(S400).

본 발명의 일 실시예에 따르면, 자연어 대화체 연속어 인식과 같이 사용자가 자유롭게 발성한 연속어 문장 중 프레임 단위로 음소의 정상 여부를 추정하고, 음소의 정상 여부에 따라 음성 신호의 프레임을 스킵하거나 음성 신호의 음상 모델 스코어 가중치를 변경함으로써 자연어 대화체의 음성 인식 성능을 높일 수 있는 효과가 있다.

한편, 본 발명의 일 실시예에 채용된 상기 심층 신경망의 출력 값을 계산하는 단계(200)는, 상기 심층 신경망에서 출력되는 음성 신호의 프레임별로 특징 백터를 추출하여 출력 값을 계산하는 것이 바람직하다.

또한 본 발명의 일 실시예에 채용된 음소의 정상 여부를 추정하는 단계(S200)는, 음성 신호의 현재 프레임과 이전 프레임의 심층 신경망 출력을 조합하여 추정하는 것이 바람직하며, 묵음 확률 또는 불명확한 발화일 확률 중 적어도 하나를 추정할 수 있다. 즉, 본 발명의 일 실시예에 채용된 음소의 정상 여부를 추정하는 단계(S200)는, 상기 심층 신경망의 출력 중, "묵음" 음소에 해당하는 출력 값의 포락선을 통해 계산하되, "묵음" 음소에 해당하는 심층 신경망 출력 값이 기설정된 프레임 동안 일정값 이하이면 상기 음성 신호의 프레임을 "묵음"으로 판단하는 것이 바람직하다.

반면에, 본 발명의 다른 실시예에 채용된 상기 음소의 정상 여부를 추정하는 단계(S200)는, 심층 신경망의 출력 노드가 기설정된 개수 이상 동시에 활성화되는 경우, 음성 신호의 프레임을 불명확한 발성으로 판단할 수도 있다. 즉, 불명확한 발성의 판단은 현재 프레임의 심층 신경망의 출력 백터의 분포로부터 추정이 가능하다. 즉, 음성 신호가 명료한 발성인 경우 심층 신경망의 출력 중 특정 음소에 대응되는 출력 노드만 활성화되고, 나머지 노드는 0에 가까운 값을 출력하게 된다. 이에 반대로 불명확한 발성인 경우 여러 개의 출력 노드가 동시에 활성화되기 때문에 이러한 특성을 이용하여 현재 프레임의 불명확성을 추정할 수 있다. 본 발명에 채용된 이상 추정부(200)는 엔트로피, KL Divergence 등과 같은 계산 방법을 이용하여 불명확한 발성을 판단할 수도 있다.

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

100 : 심층 신경망 처리부 200 : 이상 추정부
300 : 전처리부 400 : 디코딩부

Claims

자연어로 발화되어 입력되는 음성 신호에 대하여 매 프레임 단위로 심층 신경망에서 출력되는 음성 신호의 프레임별 특징 백터를 추출하여 출력 값을 계산하는 단계;
상기 계산된 심층 신경망의 특징 백터 출력 값을 이용하여 현재 음성 신호의 프레임에 대한 음소가 묵음인지 불명확한 발화인지를 추정하고, 불명확한 발화인 경우 그 확률 값을 추정하는 단계;
추정된 음성 신호가 묵음인 경우, 음성 신호의 음향 모델 스코어 가중치를 적용하지 않고 스킵하고, 불명확한 발화인 경우 그 확률 값에 대응되도록 음성 모델 스코어 가중치를 변경하는 단계; 및
상기 심층 신경망을 통해 입력되는 음성 인식을 수행하는 단계를 포함하는 자연어 대화체 음성 인식 방법.
삭제
제 1항에 있어서,
상기 음소의 정상 여부를 추정하는 단계는,
음성 신호의 현재 프레임과 이전 프레임의 심층 신경망 출력을 조합하여 추정하는 것인 자연어 대화체 음성 인식 방법.
삭제
제 1항에 있어서,
상기 음소의 정상 여부를 추정하는 단계는,
상기 심층 신경망의 출력 중, "묵음" 음소에 해당하는 출력 값의 포락선을 통해 계산하되, "묵음" 음소에 해당하는 심층 신경망 출력 값이 기설정된 프레임 동안 일정값 이하이면 상기 음성 신호의 프레임을 "묵음"으로 판단하는 것인 자연어 대화체 음성 인식 방법.
제 1항에 있어서,
상기 음소의 정상 여부를 추정하는 단계는,
심층 신경망의 출력 노드가 기설정된 개수 이상 동시에 활성화되는 경우, 음성 신호의 프레임을 불명확한 발성으로 판단하는 것인 자연어 대화체 음성 인식 방법.
자연어로 발화되어 입력되는 음성 신호에 대하여 매 프레임 단위로 심층 신경망에서 출력되는 음성 신호의 프레임별 특징 백터를 추출하여 출력 값을 계산하는 심층 신경망 처리부;
상기 계산된 심층 신경망의 특징 백터 출력 값을 이용하여 현재 음성 신호의 프레임에 대한 음소가 묵음인지를 추정하고, 불명확한 발화인 경우 그 확률 값을 추정하는 이상 추정부;
추정된 음성 신호가 묵음인 경우, 음성 신호의 음향 모델 스코어 가중치를 적용하지 않고 스킵하고, 불명확한 발화인 경우 그 확률 값에 대응되도록 음성 모델 스코어 가중치를 변경하는 전처리부; 및
상기 전처리부를 통해 입력되는 음성 신호에 대하여 음성 인식을 수행하는 디코딩부;를 포함하는 자연어 대화체 음성 인식 장치.
삭제
삭제
제 7항에 있어서,
상기 이상 추정부는,
상기 심층 신경망의 출력 중, "묵음" 음소에 해당하는 출력 값의 포락선을 통해 계산하되, "묵음" 음소에 해당하는 심층 신경망 출력 값이 기설정된 프레임 동안 일정값 이하이면 상기 음성 신호의 프레임을 "묵음"으로 판단하는 것인 자연어 대화체 음성 인식 장치.