KR20150031896A

KR20150031896A - 음성인식장치 및 그 동작방법

Info

Publication number: KR20150031896A
Application number: KR20130111673A
Authority: KR
Inventors: 김동현
Original assignee: 한국전자통신연구원
Priority date: 2013-09-17
Filing date: 2013-09-17
Publication date: 2015-03-25
Also published as: US20150081288A1; US9514751B2

Abstract

실시 예는, 음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 통신모듈, 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 모델선정모듈 및 상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식모듈을 포함하는 음성인식장치를 제공한다.

Description

음성인식장치 및 그 동작방법{Speech recognition device and the operation method}

실시 예는 음성인식장치 및 그 동작방법에 관한 것으로서, 더욱 상세하게는 음성인식 단말기로부터 음성 데이터 및 멀티센서 데이터 입력시, 멀티센서 데이터를 이용하여 음성 데이터에 대한 음성 인식 성능을 향상시키기 용이한 음성인식장치 및 그 동작방법에 관한 것이다.

기존에 음성 이외의 정보를 이용하여 음성인식 성능을 향상시키는 기술에는 카메라 영상 정보와 음성 정보를 함께 사용하는 방법이 있다.

이러한 방법에는 직접적인 입력으로써 음성과 입술 영상을 함께 처리하는 오디오-비주얼(Audio-Visual) 음성인식 분야가 있는데, 영상 정보는 입모양 읽기(lip-reading)을 하기 위한 수단으로 이용하는 방법과 잡음에 민감한 오디오의 음향 모델을 보조하는 수단으로 연구되었다. 이러한 방법은 입술영상을 통한 음성과의 매칭을 기본으로 음향모델을 위한 추가적인 특징정보를 활용하는 방법이다.

간접적인 방법으로는 음성 끝점추출 방법의 한가지로 잡음이 심한 자동차내에서 음성인식을 하기 위해 입모양을 추적하여 음성의 시작점과 끝점을 잡아내는 기술에도 적용되었다.

최근들어, 단말기에 포함된 멀티센서를 이용하여 음성 검출하는 방법에 대한 연구가 진행 중에 있다.

실시 예의 목적은, 음성인식 단말기로부터 음성 데이터 및 멀티센서 데이터 입력시, 멀티센서 데이터를 이용하여 음성 데이터에 대한 음성 인식 성능을 향상시키기 용이한 음성인식장치 및 그 동작방법을 제공함에 있다.

실시 예에 따른 음성인식장치는, 음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 통신모듈, 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 모델선정모듈 및 상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식모듈을 포함한다.

실시 예에 따른 멀티센서 데이터는, 상기 음성인식 단말기의 위치 및 장소에 대한 위치 데이터, 상기 음성을 입력하는 화자의 영상 데이터 및 상기 음성인식 단말기와 상기 화자 사이의 거리에 대한 근접 데이터 중 적어도 하나를 포함한다.

실시 예에 따른 모델선정모듈은, 상기 위치 데이터를 기반으로 상기 음성인식 단말기의 위치 및 장소를 추정하는 제1 추정부, 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 제2 추정부, 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 제3 추정부 및 상기 제1 내지 제3 추정부에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 언어 및 음향 모델을 선정하는 선정부를 포함한다.

실시 예에 따른 모델선정모듈은, 상기 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 상기 복수의 언어 및 음향 모델을 저장하는 데이터베이스를 더 포함한다.

실시 예에 따른 음성인식모듈은, 상기 음성 데이터에서 상기 특징 벡터를 추출하는 전처리부 및 상기 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식부를 포함한다.

실시 예에 따른 전처리부는, 상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출한다.

실시 예에 따른 음성인식장치의 동작방법은, 음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 단계, 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 단계 및 상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송하는 단계를 포함한다.

실시 예에 따른 선정 단계는, 상기 위치 데이터를 기반으로 상기 음성인식 단말기의 위치 및 장소를 추정하는 단계, 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 단계, 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 단계 및 상기 제1 내지 제3 추정부에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 언어 및 음향 모델을 선정하는 단계를 포함한다.

실시 예에 따른 전송 단계는, 상기 음성 데이터에서 상기 특징 벡터를 추출하는 단계 및 상기 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송하는 단계를 포함한다.

실시 예에 따른 추출 단계는, 상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출한다.

실시 예에 따른 음성인식장치 및 그 동작방법은, 음성인식 단말기로부터 음성 데이터 및 멀티센서 데이터를 이용하여, 화자의 음성 입력시 입력 환경에 접합한 음향 모델 및 언어 모델을 선정하여, 음성 데이터에 대한 음성 인식 성능을 향상시킨 결과를 음성인식 단말기로 전송할 수 있는 이점이 있다.

또한, 실시 예에 따른 음성인식장치 및 그 동작방법은, 음성인식 단말기와 별도로 구비됨으로 음성인식 단말기의 메모리 용량을 줄일 수 있는 이점이 있다.

도 1은 실시 예에 따른 음성인식장치의 제어구성을 나타낸 제어 블록도이다.
도 2는 실시 예에 따른 음성인식장치의 동작방법을 나타낸 순서도이다.
도 3은 도 2에 나타낸 언어모델 선정 단계를 나타낸 순서도이다.
도 4는 도 2에 나타낸 음향모델 선정 단계를 나타낸 순서도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

도 1은 실시 예에 따른 음성인식장치의 제어구성을 나타낸 제어 블록도이다.

도 1을 참조하면, 음성인식장치는 통신모듈(110), 모델선정모듈(120) 및 음성인식모듈(130)을 포함할 수 있다.

실시 예에서, 음성인식장치는 음성인식서버일 수 있으며, 음성인식 단말기(10)와 별도로 구비된 장치일 수 있으며, 이에 한정을 두지 않는다.

통신모듈(110)은 음성인식 단말기(10)로부터 입력된 음성에 대응하는 음성 데이터(s1) 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터(s2)를 수신한다.

이때, 통신모듈(110)은 음성 데이터(s1) 및 멀티센서 데이터(s2)를 구분하여, 모델선정모듈(120) 및 음성인식모듈(130)로 전달할 수 있다.

먼저, 모델선정모듈(120)은 추정부(122), 데이터베이스(124) 및 선정부(126)를 포함할 수 있다.

음성인식 단말기(10)는 화자로부터 음성이 마이크(미도시)로 입력시, 상기 화자와 음성인식 단말기(10) 사이의 거리에 대한 근접 데이터를 생성하는 근접센서(미도시), 상기 화자의 영상을 촬영하여 영상 데이터를 생성하는 카메라(미도시) 및 상기 화자, 즉 음성인식 단말기(10)의 위치 및 장소에 대한 위치 데이터를 생성하는 와이파이(wifi) 및 GPS를 포함할 수 있다.

즉, 멀티센서 데이터(s2)는 상술한 바와 같은 상기 근접 데이터, 상기 영상 데이터 및 상기 위치 데이터 중 적어도 하나를 포함할 수 있으며, 이에 한정을 두지 않는다.

여기서, 추정부(122)는 상기 위치 데이터를 기반으로 음성인식 단말기의 위치 및 장소를 추정하는 제1 추정부(122a), 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 제2 추정부(122b) 및 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 제3 추정부(122c)를 포함할 수 있다.

실시 예에서, 추정부(122)는 제1 내지 제3 추정부(122a ~ 122c)로 나타내고 설명하지만, 그 개수에 대하여 한정을 두지 않는다.

상기 위치 데이터는 위치기반 서비스(LBS: location based service)에 의해 생성될 수 있으며, 상기 위치기반 서비스(LBS)는 위치정보의 수집, 이용, 제공과 관련한 모든 유형의 서비스를 지칭하며 통신망이나 GPS를 통해 얻은 위치 정보를 바탕으로 사용자에게 유용한 기능을 제공하는 서비스에 사용되는 기술을 통칭한다.

상기 위치기반 서비스(LBS)는 위치측정 방식에 따라 네트워크 기반방식과 위성신호 기반방식, WiFi 신호 기반 방식, 혼합 측정 방식으로 나눌 수 있다.

네트워크 기반방식은 이동통신사 기지국의 위치 값과 기지국과 단말기간의 거리 등을 측정하여 위치를 계산하는 방식이고, 위성신호 기반방식은 GPS(global positioning system) 위성에서 송신하는 신호를 바탕으로 위치를 계산하는 방식이다. WiFi 신호 기반은 네트워크 기반의 일종으로 WiFi AP(access point)의 위치를 조회하여 단말기의 위치값을 측정하는 방식으로 WPS(WiFi positioning system)라고도 한다. 그리고 혼합측정 기반은 네트워크 기반과 위성신호 기반, WiFi 신호 기반방식의 위치를 조합하여 단말기의 위치를 측정하는 방법으로 XPS(hybrid positioning system ) 라고도 한다.

또한, 상기 연령 데이터는 얼굴인식 기술을 적용하여 화자의 연령을 추정할 수 있다. 여기서, 상기 얼굴인식 기술은 영상처리나 패턴인식, 컴퓨터 비전과 신경망과 같은 다양한 분야에서 현재 활발이 개발되고 있는 영역으로 정지 영상 및 동영상을 이용하여 사람을 인증을 하거나, 동일인을 추적하거나, 얼굴을 복원하는 등 다양하게 응용되고 있다.

얼굴 영상 인식은 크게 얼굴 영역의 분리, 얼굴 특징의 추출, 그리고 분류 과정으로 구성된다. 전통적인 에지(edge) 추출 영상을 사용하는 방법부터 명도 영상을 함께 사용하는 방법 등으로 얼굴 영역을 분리해 내고, 데이터의 고유벡터를 사용하는 KL(Karhunen-Loeve)변환과 같은 통계적인 방법과 눈, 코, 입술 등의 위치와 거리를 활용하는 구조적 방법으로 특징 추출을 하고 있다. 그리고 얼굴 인식을 위해서 통계적인 방법으로 고유영상(eigenpicture) 또는 고유얼굴(eigenface)라고 불리는 특징 벡터를 사용할 수 있는데, 입력된 영상은 고유얼굴에 의해 차원이 축소된 가중치 벡터로 표현이 가능하여, 가중치 벡터간의 거리값으로 유사성을 인식하는 방법이 있다. 신경망을 이용한 얼굴 인식 방법에는 눈썹의 두께, 코와 입의 넓이 등의 수치적 특징을 입력으로 이용하여 성별 분류, 얼굴 표정 인식 등을 할 수 있는 신경망 개발 방법이 있었다. 또한 측면 얼굴 인식과 3차원 얼굴 인식 방법도 개발되고 있다.

이러한 얼굴인식 기술의 발전과 공개 API의 보급으로 여러가지 활용 제품들이 나오고 있는데, 일본에서는 얼굴 인식으로 나이를 추정하여 담배를 파는 담배 자판기 제품도 있고, 최근에는 성별과 나이를 구별하여 광고를 디스플레이 하는 기술 제품도 나오고 있다. 특히 성별과 연령대를 구별하는 기술에는 머리 모양, 눈가, 입가의 주름과 잡티를 중심으로 얼굴 기관의 형상을 눈꼬리와 같은 방향과 눈의 크기와 같은 거리라는 매개변수로 특징을 추출하고, 이러한 특징과 위치관계를 통계적인 패턴인식과 회기 분석을 통한 추정방법 등이 사용되고 있다.

따라서, 제2 추정부(122b)는 카메라를 이용한 얼굴인식에서 성별 분류와 연령추정 성능이 향상됨에 따라 음성인식 위한 보조 정보로 화자의 성별 및 연령대를 추정하는 정보를 음성과 함께 전달하여 기 분류된 음향 및 언어모델에서 화자에 적합한 성별 및 연령대의 모델을 이용한 음성인식을 할 수 있다.

상기 근접 데이터는 음성인식 단말기(10)에 음성 입력시, 음성 외에 배경 소리의 신호대잡음비를 추정할 수 있도록 할 수 있다.

일반적으로 신호대잡음비는 무음 구간의 에너지와 음성 구간의 에너지를 측정하여 결정된다. 그리고 음성구간의 에너지를 측정하기 전에 배경 음만 가지고 전체 신호 대 잡음비를 추정하는 방법도 제안되고 있다.

상기 근접 데이터는 음성 녹음할 때 무음 구간인 배경 소리의 데시벨(db) 분석을 하는 방법과 녹음 마이크와 사람 얼굴과의 거리를 측정하는 근접센서(proximity sensor)를 함께 이용하여 신호대잡음비를 추정한다.

이 방법은 배경 소리(V_N )만으로 신호대잡음비를 추정하는 방법에서 음성 녹음할 때 주변이 시끄러우면 마이크를 가까이 내는 습관을 차용한 것으로 배경 소리 데시벨에 마이크와의 거리값(D)을 보정계수(α)와 함께 설정하여 실제 잡음이 많고 적은 경우간의 차이를 뚜렷이 나타낼 수 있다. 그리고 작은 목소리로 마이크 가까이 녹음하는 경우도 처리해야 하기 때문에, 실제 음성(V_S)의 데시벨을 측정하여 근접센서에서 나타낸 거리값 데이터와의 상관 관계를 측정한 [수학식 1]과 같이 하나의 예로 나타내어 추정할 수 있다.

데이터베이스(124)는 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 복수의 언어 및 음향 모델을 구분하여 저장할 수 있다.

즉, 데이터베이스(124)는 상기 음성 입력 환경에 대하여, 이전 멀티센서 데이터 입력시 추가적으로 업데이트할 수 있으며 이에 한정을 두지 않는다.

선정부(126)는 제1 내지 제3 추정부(122a ~ 122c)에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 통하여, 데이터베이스(124)에 저장된 상기 복수의 언어 및 음향 모델 중 대응하는 임의의 언어 및 음향 모델을 선정하여, 음성인식부(130)로 전달한다.

예를 들면, 선정부(126)는 제1 추정부(122a)에서 추정된 상기 위치 및 장소를 기반으로, 음성인식 단말기(10) 또는 상기 화자가 위치한 지역 및 장소를 확인하며, 제2 추정부(122b)에서 추정된 상기 연령을 기반으로 화자의 연령대에 부합되는 상기 임의의 언어모델을 선정한다.

또한, 선정부(126)는 상술한 바와 같이 제1 추정부(122a)에서 추정된 상기 위치 및 장소를 기반으로, 음성인식 단말기(10) 또는 상기 화자가 위치한 지역 및 장소를 확인하며, 제2 추정부(122b)에서 추정된 상기 연령을 기반으로 화자의 연령 및 제3 추정부(122c)에서 추정된 상기 신호대잡음비를 통하여 상기 임의의 음향모델을 선정한다.

음성인식모듈(130)은 전처리부(132) 및 음성인식부(134)를 포함할 수 있다.

전처리부(132)는 상기 음성 데이터에서 상기 특징 벡터를 추출한다. 즉 전처리부(132)는 상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출할 수 있다.

이후, 음성인식부(134)는 상기 특징 벡터를 선정부(126)에서 선정된 상기 임의의 언어 및 음향 모델에 적용하여 상기 음성 데이터에 대한 음성인식결과를 음성인식 단말기(10)로 전송되게 통신모듈(110)을 제어한다.

도 2는 실시 예에 따른 음성인식장치의 동작방법을 나타낸 순서도, 도 3은 도 2에 나타낸 언어모델 선정 단계를 나타낸 순서도 및 도 4는 도 2에 나타낸 음향모델 선정 단계를 나타낸 순서도이다.

도 2를 참조하면, 음성인식장치는 음성인식 단말기(10)로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하고(S110), 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하고(S120) 및 상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기(10)로 전송한다.

여기서, 도 3를 참조하면, 음성인식장치는 (S120) 단계에서 임의의 언어 모델 선정시, 상기 위치 데이터를 기반으로 음성인식 단말기(10)의 위치 및 장소를 추정하고(S210), 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하여(S220), 상기 위치 및 장소 및 상기 연령을 기반으로 상기 임의의 언어 모델을 선정한다(S230).

또한, 도 4를 참조하면, 음성인식장치는 (S120) 단계에서 임의의 음향 모델 선정시, 상기 위치 데이터를 기반으로 음성인식 단말기(10)의 위치 및 장소를 추정하고(S310), 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하여(S320), 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하고(S330), 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 음향 모델을 선정한다(S340).

즉, 통신모듈(110)은 음성인식 단말기(10)로부터 입력된 음성에 대응하는 음성 데이터(s1) 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터(s2)를 수신한다.

추정부(122)는 상기 위치 데이터를 기반으로 음성인식 단말기의 위치 및 장소를 추정하는 제1 추정부(122a), 상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 제2 추정부(122b) 및 상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 제3 추정부(122c)를 포함할 수 있다.

따라서, 제2 추정부(122b)는 카메라를 이용한 얼굴인식에서 성별 분류와 연령추정 성능이 향상됨에 따라 음성인식 위한 보조 정보로 화자의 성별 및 연령대를 추정하는 정보를 음성과 함께 전달하여 기 분류된 음향 및 언어모델에서 화자에 적합한 성별 및 연령대를 나타낸 음향 및 언어모델을 선정 할 수 있다.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

110: 통신모듈 120: 모델선정모듈
130: 음성인식모듈

Claims

음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 통신모듈;
이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 모델선정모듈; 및
상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식모듈;을 포함하는 음성인식장치.
제 1 항에 있어서,
상기 멀티센서 데이터는,
상기 음성인식 단말기의 위치 및 장소에 대한 위치 데이터, 상기 음성을 입력하는 화자의 영상 데이터 및 상기 음성인식 단말기와 상기 화자 사이의 거리에 대한 근접 데이터 중 적어도 하나를 포함하는 음성인식장치.
제 2 항에 있어서,
상기 모델선정모듈은,
상기 위치 데이터를 기반으로 상기 음성인식 단말기의 위치 및 장소를 추정하는 제1 추정부;
상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 제2 추정부;
상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 제3 추정부; 및
상기 제1 내지 제3 추정부에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 언어 및 음향 모델을 선정하는 선정부;를 포함하는 음성인식장치.
제 2 항에 있어서,
상기 모델선정모듈은,
상기 이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 상기 복수의 언어 및 음향 모델을 저장하는 데이터베이스;를 더 포함하는 음성인식장치.
제 1 항에 있어서,
상기 음성인식모듈은,
상기 음성 데이터에서 상기 특징 벡터를 추출하는 전처리부; 및
상기 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송되게 상기 통신모듈을 제어하는 음성인식부;를 포함하는 음성인식장치.
제 5 항에 있어서,
상기 전처리부는,
상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출하는 음성인식장치.
음성인식 단말기로부터 입력된 음성에 대응하는 음성 데이터 및 상기 음성의 입력 환경에 대응하는 멀티센서 데이터를 수신하는 단계;
이전 멀티센서 데이터를 기반으로 음성 입력 환경에 따라 구분된 복수의 언어 및 음향 모델 중 상기 멀티센서 데이터에 대응하는 임의의 언어 및 음향 모델을 선정하는 단계; 및
상기 음성 데이터에서 추출된 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송하는 단계;를 포함하는 음성인식장치의 동작방법.
제 7 항에 있어서,
상기 멀티센서 데이터는,
상기 음성인식 단말기의 위치 및 장소에 대한 위치 데이터, 상기 음성을 입력하는 화자의 영상 데이터 및 상기 음성인식 단말기와 상기 화자 사이의 거리에 대한 근접 데이터 중 적어도 하나를 포함하는 음성인식장치의 동작방법.
제 7 항에 있어서,
상기 선정 단계는,
상기 위치 데이터를 기반으로 상기 음성인식 단말기의 위치 및 장소를 추정하는 단계;
상기 영상 데이터를 기반으로 상기 화자의 연령을 추정하는 단계;
상기 근접 데이터를 기반으로 상기 음성 데이터에 대한 신호대잡음비(SNR)를 추정하는 단계; 및
상기 제1 내지 제3 추정부에서 추정된 상기 위치 및 장소, 상기 연령 및 상기 신호대잡음비를 기반으로 상기 임의의 언어 및 음향 모델을 선정하는 단계;를 포함하는 음성인식장치의 동작방법.
제 7 항에 있어서,
상기 전송 단계는,
상기 음성 데이터에서 상기 특징 벡터를 추출하는 단계; 및
상기 특징 벡터를 상기 임의의 언어 및 음향 모델에 적용하여, 상기 음성 데이터에 대한 음성인식결과를 상기 음성인식 단말기로 전송하는 단계;를 포함하는 음성인식장치의 동작방법.
제 9 항에 있어서,
상기 추출 단계는,
상기 음성 데이터를 프레임 단위로 구분하여, 각 프레임 별로 잡음 성분을 제거하여 상기 특징 벡터를 추출하는 음성인식장치의 동작방법.