KR20200102309A

KR20200102309A - 단어 유사도를 이용한 음성 인식 시스템 및 그 방법

Info

Publication number: KR20200102309A
Application number: KR1020190020800A
Authority: KR
Inventors: 김정세; 김상훈; 윤승; 이민규; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2020-08-31

Abstract

본 발명은 단어 유사도를 이용한 음성 인식 시스템 및 그 방법에 관한 것이다.
본 발명에 따른 단어 유사도를 이용한 음성 인식 시스템은 이전 발화 인식 결과를 수신하는 수신부와, 이전 발화 인식 결과에서 추출한 키워드와 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 키워드와 인식 중인 단어 간의 유사도를 계산하고, 인식 중인 단어들 간의 유사도를 계산하여 음성 인식 결과를 출력하는 것을 특징으로 한다.

Description

단어 유사도를 이용한 음성 인식 시스템 및 그 방법{SYSTEM AND METHOD FOR VOICE RECOGNITION USING WORD SIMILARITY}

본 발명은 단어 유사도를 이용한 음성 인식 시스템 및 그 방법에 관한 것이다.

종래 기술에 따른 음성 인식기는 발화 시 주변 잡음에 의한 노이즈 등 여러 문제로 인하여, 음성이 본래와는 다른 단어로 인식되는 문제점이 있고, 언어 모델이 부족하여 인식 문장을 제대로 선택하지 못하는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 음향 모델, 언어 모델 및 단어임베딩의 유사도 정보를 이용하여 음성 인식 성능을 개선하는 것이 가능한 단어 유사도를 이용한 음성 인식 시스템 및 방법을 제공하는데 그 목적이 있다.

본 발명에 따른 단어 유사도를 이용한 음성 인식 시스템은 이전 발화 인식 결과를 수신하는 수신부와, 이전 발화 인식 결과에서 추출한 키워드와 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 키워드와 인식 중인 단어 간의 유사도를 계산하고, 인식 중인 단어들 간의 유사도를 계산하여 음성 인식 결과를 출력하는 것을 특징으로 한다.

본 발명에 따른 단어 유사도를 이용한 음성 인식 방법은 이전 발화 인식 결과로부터 common word를 제거하는 단계와, 이전 발화의 토픽 단어 간의 유사도를 측정하여, 이전 발화의 키워드를 추출하는 단계 및 키워드와 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 한다.

본 발명에 따른 단어 유사도를 이용한 음성 인식 시스템은 이전 발화 인식 결과로부터 common word를 제거하는 common word 제거부와, common word의 제거 결과를 이용하여 이전 발화의 키워드를 추출하는 키워드 추출부 및 이전 발화의 키워드와 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 음성 인식부를 포함하는 것을 특징으로 한다.

본 발명의 실시예에 따르면, 음향 모델과 언어 모델을 사용하여 음성 인식 시 나타나는 인식 단어들에 대해, 단어임베딩 결과를 이용하여 인식 단어 간의 유사도를 측정하고, 유사도가 낮은 단어는 인식 단어에서 제외함으로써, 음성 인식 오류를 줄이고 음성 인식 성능을 향상시키는 것이 가능한 효과가 있다.

본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1 및 도 2는 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 시스템을 나타내는 블록도이다.
도 3은 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 방법을 나타내는 순서도이다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.

한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.

이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.

종래 기술에 따른 음성 인식기는 음향 모델(AM, Acoustic Model)과 언어 모델(LM, Language Model)을 이용하여 음성을 인식하며, 이는 음향적으로 비슷한 단어들을 순차적으로 나열하고, 음향 모델값과 언어 모델값을 이용하여 최적의 PATH를 찾는 과정이다.

종래 기술에 따른 음성 인식기는 음향 모델을 통해서 획득한 유사한 발음의 단어리스트들 중, 말이 될 듯한 리스트를 언어 모델을 통해서 선택하게 되는데, 발화 시 주변 잡음에 의한 노이즈 등 여러 문제로 인해, 본래와는 다른 단어로 인식되는 경우가 발생되는 문제점이 있다.

또한, 종래 기술에 따르면, 언어 모델이 부족하여 인식 문장을 제대로 선택하지 못하는 문제점이 있다.

종래 기술에 따르면, 새로운 토픽의 단어에 대한 인식이 필요할 경우, 새로운 토픽과 관련한 문서를 모아서 인터폴레이션(interpolation)하는 방식으로 언어 모델을 보강하거나, 토픽 별 언어 모델을 구성하고 토픽 별 음성 인식을 수행하여 인식 결과를 출력한다.

그런데, 종래 기술에 따르면 근본적인 오류 해결을 위해 음향 모델 및 언어 모델을 개선하여야 하며, 토픽을 반영하고자 할 경우 음성 인식을 하기 전에 해당 언어 모델들을 미리 가지고 있어야 하는 불편함이 있다.

본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로 음향 모델과 언어 모델에 단어 임베딩의 유사도 정보를 추가적으로 사용하여, 음성 인식 시스템의 오류를 수정하고, 음성 인식 성능을 개선하는 것이 가능한 단어 유사도를 이용한 음성 인식 시스템 및 방법을 제안한다.

본 발명의 실시예에 따르면, 음향 모델과 언어 모델에 단어 임베딩의 유사도 정보를 추가하여, 음성 인식 시 음향 모델 및 언어 모델로 인식 단어를 추출하고, 인식 단어들의 앞뒤 단어들과 임베딩의 유사도를 추가로 계산함으로써, 유사도 값이 스레시홀드(Threshold) 이하인 것은 그 순위를 낮추거나 제거하여, 발화에 대한 음성 인식 성능을 개선하는 것이 가능하다.

도 1및 도 2는 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 시스템을 나타내는 블록도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 시스템은 이전 발화 인식 결과를 수신하는 수신부(100)와, 이전 발화 인식 결과에서 추출한 키워드와 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 프로그램이 저장된 메모리(300) 및 프로그램을 실행시키는 프로세서(200)를 포함하고, 프로세서(200)는 키워드와 인식 중인 단어 간의 유사도를 계산하고, 인식 중인 단어들 간의 유사도를 계산하여 음성 인식 결과를 출력한다.

본 발명의 실시예에 따른 프로세서(200)는 단어출현 빈도(언어 모델 훈련 시 사용한 코퍼스에서의 단어출현 빈도)를 이용하여, 이전 발화 인식 결과로부터 common word를 제거하고, 이전 발화의 토픽 단어 간의 유사도를 측정하여, 이전 발화의 키워드를 추출한다.

본 발명의 실시예에 따른 프로세서(200)는 단어임베딩을 이용하여 이전 발화의 토픽 단어와 인식 중인 단어 간의 유사도를 계산하고, 계산 결과에 따라 유사도 값이 기설정된 문턱값 이하인 경우, 인식 단어에 대한 제거 또는 순위 조정을 수행한다.

본 발명의 실시예에 따른 프로세서(200)는 언어 모델 및 음향 모델을 이용하여 음성을 단어로 치환하고, 음향적으로 유사한 단어들의 순서를 결정하고, 키워드와 인식 중인 단어들간의 유사도를 계산하며, 현재까지의 인식 가능한 리스트의 단어들에 가중치를 부여한다.

또한, 현재 인식 중인 단어들 간의 유사도를 계산하여, 계산 결과에 따라 유사도 값이 기설정된 문턱값 이하인 경우, 인식 단어에 대한 제거 또는 순위 조정을 수행한다.

도 2는 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 시스템을 나타내는 블록도이다.

본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 시스템은 이전 발화 인식 결과로부터 common word를 제거하는 common word 제거부(210)와, common word의 제거 결과를 이용하여 이전 발화의 키워드를 추출하는 키워드 추출부(220) 및 이전 발화의 키워드와 단어임베딩(230)의 유사도 정보를 이용하여 음성 인식을 수행하는 음성 인식부(250)를 포함한다.

본 발명의 실시예에 따른 common word 제거부(210)는 이전 발화의 인식 결과를 입력 받아, common word를 제거한다.

common word는 토픽과 관련이 없는 단어 사전으로서, 토픽에 관련이 없는 단어들은 주로 고빈도 단어이므로, 언어 모델에 충분히 반영이 된 단어들이다.

따라서, 이러한 common word는 이전 발화 키워드에서 제거되어야 하는데, 예컨대 한국어에서는 조사, 영어에서는 a/the 관사 같은 것이 common word에 해당된다.

본 발명의 실시예에 따르면, 고빈도 리스트는 언어 모델 훈련 시 사용한 코퍼스에서의 단어출현빈도를 활용할 수 있으며, 그 외 인칭대명사, 부사 등도 토픽에 관련이 없는 단어들이므로 품사별로 common word를 생성하는 것이 가능하다.

본 발명의 실시예에 따른 키워드 추출부(220)는 이전 발화 키워드를 출력한다.

Common word 제거부(210)를 통해 common word가 제거되고, 이 키워드의 리스트 중 이전 발화의 토픽이 있을 것이다.

키워드 추출부(220)는 이들 단어 간의 유사도를 측정하여, 유사도가 높은 단어들의 순서대로 키워드를 선택하고, 이전 발화의 키워드 리스트를 출력한다.

본 발명의 실시예에 따른 음성 인식부(250)는 음향 모델 및 언어 모델(240)을 이용하여 음향적으로 유사한 단어들을 순차적으로 나열하고, 음향 모델값과 언어 모델값을 이용하여 최적의 PATH를 찾는다.

이 때, 음성 인식부(250)는 단어임베딩(230)을 이용하여, 이전발화 키워드와 인식 중인 단어들간의 유사도를 계산하며, 인식 중인 단어들 간의 유사도를 계산하여 최적의 음성 인식 결과를 출력한다.

단어임베딩(230)은 Word2Vec 등 여러 툴을 사용할 수 있으며, 코퍼스는 언어모델에서 사용하는 Text Normalization된 텍스트 코퍼스를 사용하여, 음성 인식의 출력 단위와 단어임베딩에서의 출력 단위를 동일하게 한다.

본 발명의 실시예에 따른 음성 인식부(250)는 음향 모델 및 언어 모델(240)을 이용하여 음성을 단어로 치환하고, 단어들의 순서를 결정한다.

음성 인식부(250)는 이전 발화 키워드 리스트와 인식 단어들 간의 유사도를 계산하여, 현재까지의 인식 가능한 리스트의 단어들에 가중치를 부여하고, 현재 인식되고 있는 단어들 간의 유사도를 계산한다.

본 발명의 실시예에 따르면, 음향 모델 및 언어 모델(240)에 단어임베딩(230) 정보를 추가적으로 사용하며, 이를 표현하면 아래 [수학식 1]과 같다.

[수학식 1]

음성인식 =max( α*음향모델 + β* 언어모델 + γ*토픽모델 + ζ*단어 간의 유사도)

이 때, α, β, γ, ζ는 가중치이며 이를 합하면 1이 된다.

이전 발화에서 common word를 제외한 나머지 단어들 중에 이전 발화의 토픽이 있을 것이다.

이들 단어 간의 유사도를 측정하여 유사도가 높은 순서대로 단어들을 선택하고, 현재 발화 시에 이전발화 키워드와 현재 인식되고 있는 단어들의 유사도를 계산하여 적용하는 모델을 토픽모델이라 한다.

본 발명의 실시예에 따르면, 단어임베딩을 활용하여 이전 발화의 토픽 단어들과 현재 음성인식 중인 단어들 간의 유사도를 계산하여 적용한다.

즉, 유사도 값이 스레시홀드(Threshold) 이하인 경우, 인식 단어에 대해 발음은 유사하지만, 해당 토픽과 관련이 없는 단어인 것으로 간주하고, 이를 제거하거나 순위를 낮추게 된다.

단어 간의 유사도는 음성 인식을 하면서 나타나는 단어들 간의 유사도를 계산하는 것으로, 유사도 값이 스레시홀드(Threshold) 이하인 경우, 인식 단어에 대해 발음은 유사하지만, 해당 토픽과 관련이 없는 단어인 것으로 간주하고, 이를 제거하거나 순위를 낮추게 된다.

도 3은 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 방법을 나타내는 순서도이다.

본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 방법은 이전 발화 인식 결과로부터 common word를 제거하는 단계(S310)와, 이전 발화의 토픽 단어 간의 유사도를 측정하여, 이전 발화의 키워드를 추출하는 단계(S320) 및 키워드와 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 단계(S330)를 포함한다.

S310 단계는 단어출현 빈도를 이용하여 common word를 제거하고, S330 단계는 단어임베딩을 이용하여 이전 발화의 토픽 단어와 인식 중인 단어 간의 유사도를 계산하고, 그 결과에 따라 인식 단어에 대한 제거 또는 순위 조정을 수행한다.

또한, S330 단계는 언어 모델 및 음향 모델을 이용하여 음성을 단어로 치환하고, 음향적으로 유사한 단어들의 순서를 결정하고, 키워드 및 인식 중인 단어들 간의 유사도를 계산하고, 현재 인식 중인 단어들 간의 유사도를 계산하여, 그 결과에 따라 인식 단어에 대한 제거 또는 순위 조정을 수행한다.

한편, 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.

따라서, 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 단어 유사도를 이용한 음성 인식 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 음성 인식 방법을 수행할 수 있다.

한편, 상술한 본 발명에 따른 단어 유사도를 이용한 음성 인식 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100: 수신부 200: 프로세서
210: common word 제거부 220: 키워드 추출부
230: 단어임베딩 240: 음향 모델 및 언어 모델
250: 음성 인식부

Claims

이전 발화 인식 결과를 수신하는 수신부;
상기 이전 발화 인식 결과에서 추출한 키워드와 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 프로그램이 저장된 메모리; 및
상기 프로그램을 실행시키는 프로세서를 포함하되,
상기 프로세서는 상기 키워드와 인식 중인 단어 간의 유사도를 계산하고, 인식 중인 단어들 간의 유사도를 계산하여 음성 인식 결과를 출력하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
제1항에 있어서,
상기 프로세서는 단어출현 빈도를 이용하여 상기 이전 발화 인식 결과로부터 common word를 제거하고, 이전 발화의 토픽 단어 간의 유사도를 측정하여, 이전 발화의 키워드를 추출하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
제1항에 있어서,
상기 프로세서는 단어임베딩을 이용하여 상기 이전 발화의 토픽 단어와 인식 중인 단어 간의 유사도를 계산하고, 계산 결과에 따라 인식 단어에 대한 제거 또는 순위 조정을 수행하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
제1항에 있어서,
상기 프로세서는 언어 모델 및 음향 모델을 이용하여 음성을 단어로 치환하고, 음향적으로 유사한 단어들의 순서를 결정하며, 상기 키워드와 인식 중인 단어들간의 유사도를 계산하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
제4항에 있어서,
상기 프로세서는 현재까지의 인식 가능한 리스트의 단어들에 가중치를 부여하고, 현재 인식 중인 단어들 간의 유사도를 계산하여, 계산 결과에 따라 인식 단어에 대한 제거 또는 순위 조정을 수행하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
(a) 이전 발화 인식 결과로부터 common word를 제거하는 단계;
(b) 이전 발화의 토픽 단어 간의 유사도를 측정하여, 이전 발화의 키워드를 추출하는 단계; 및
(c) 상기 키워드 및 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 단계
를 포함하는 단어 유사도를 이용한 음성 인식 방법.
제6항에 있어서,
상기 (a) 단계는 단어출현 빈도를 이용하여 상기 common word를 제거하는 것
인 단어 유사도를 이용한 음성 인식 방법.
제6항에 있어서,
상기 (c) 단계는 상기 단어임베딩을 이용하여 이전 발화의 토픽 단어와 인식 중인 단어 간의 유사도를 계산하고, 그 결과에 따라 인식 단어에 대한 제거 또는 순위 조정을 수행하는 것
인 단어 유사도를 이용한 음성 인식 방법.
제6항에 있어서,
상기 (c) 단계는 언어 모델 및 음향 모델을 이용하여 음성을 단어로 치환하고, 음향적으로 유사한 단어들의 순서를 결정하고, 상기 키워드 및 인식 중인 단어들 간의 유사도를 계산하는 것
인 단어 유사도를 이용한 음성 인식 방법.
제9항에 있어서,
상기 (c) 단계는 현재 인식 중인 단어들 간의 유사도를 계산하여, 그 결과에 따라 인식 단어에 대한 제거 또는 순위 조정을 수행하는 것
인 단어 유사도를 이용한 음성 인식 방법.
이전 발화 인식 결과로부터 common word를 제거하는 common word 제거부;
상기 common word의 제거 결과를 이용하여 이전 발화의 키워드를 추출하는 키워드 추출부; 및
상기 이전 발화의 키워드와 단어임베딩의 유사도 정보를 이용하여 음성 인식을 수행하는 음성 인식부
를 포함하는 단어 유사도를 이용한 음성 인식 시스템.
제11항에 있어서,
상기 common word 제거부는 언어 모델 훈련 시 사용한 코퍼스에서의 단어출현 빈도를 이용하여, 상기 common word를 제거하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
제11항에 있어서,
상기 키워드 추출부는 이전 발화의 토픽 단어 간의 유사도를 측정하여, 상기 이전 발화의 키워드를 추출하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
제11항에 있어서,
상기 음성 인식부는 언어 모델 및 음향 모델을 이용하여 음향적으로 유사한 단어를 순차적으로 나열하고, 단어임베딩을 이용하여 상기 이전 발화의 키워드와 인식 중인 단어 간의 유사도를 계산하고, 인식 중인 단어들 간의 유사도를 계산하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
제14항에 있어서,
상기 음성 인식부는 상기 이전 발화의 키워드와 인식 중인 단어 간의 유사도 계산 결과에 따라, 인식 단어에 대한 제거 또는 순위 조정을 수행하는 것
인 단어 유사도를 이용한 음성 인식 시스템.
제14항에 있어서,
상기 음성 인식부는 상기 인식 중인 단어들 간의 유사도 계산 결과에 따라, 인식 단어에 대한 제거 또는 순위 조정을 수행하는 것
인 단어 유사도를 이용한 음성 인식 시스템.