KR101394422B1

KR101394422B1 - 음성 인식 방법 및 그 장치

Info

Publication number: KR101394422B1
Application number: KR1020120061556A
Authority: KR
Inventors: 문경기
Original assignee: 현대엠엔소프트 주식회사
Priority date: 2012-05-04
Filing date: 2012-06-08
Publication date: 2014-05-13
Also published as: KR20130124123A

Abstract

음성 인식 방법 및 장치가 개시된다. 음성 인식 장치에서 음성을 인식하는 방법은, 각 서비스 시나리오에 따른 멀티 컨텍스트를 메모리에 로딩하고, 사용자로부터 음성을 입력받으며, 상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하며, 상기 인식 결과 셋을 이용하여 상기 음성에 대한 인식 결과를 도출하여 음성을 인식할 수 있다.

Description

음성 인식 방법 및 그 장치{Method and system for remote control}

본 발명은 내비게이션에 관한 것으로, 보다 상세하게 내비게이션에서의 효과적인 음성 인식을 위한 방법 및 장치에 관한 것이다.

일반적으로, 내비게이션 장치에서 음성 인식에 다른 서비스 시나리오에 필요한 데이터베이스는 각기 그 구조가 상이하며, 각각의 서비스 시나리오별로 데이터베이스를 생성한다.

이와 같이, 내비게이션 장치의 경우, 각 서비스 시나리오별로 복수의 음성 인식을 위한 데이터베이스가 생성되어 이용되고 있어, 각 서비스 시나리오별 복수의 음성 인식 데이터베이스를 고려하여 음성 인식의 정확도를 높이기 위한 방안에 대한 강구가 필요한 실정이다.

본 발명은 효율적으로 음성을 인식할 수 있는 방법 및 장치를 제공하기 위한 것이다.

또한, 본 발명은 음성 인식 결과의 보정을 통해 음성 인식율을 높일 수 있는 음성 인식 방법 및 장치를 제공하기 위한 것이다.

본 발명의 일 측면에 따르면, 멀티 컨텍스트에 대한 효율적인 음성 인식 장치가 제공된다.

본 발명의 일 실시예에 따르면, 각 서비스 시나리오별 멀티 컨텍스트를 로딩한 메모리; 사용자로부터 음성을 입력받는 음향 입력부; 및 상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하고, 상기 인식 결과 셋을 이용하여 인식 결과를 도출하는 인식부를 포함하는 음성 인식 장치가 제공될 수 있다.

상기 인식 결과가 특정 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 보정을 수행하는 보정부를 더 포함할 수 있다.

상기 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하며, 상기 인식 결과 후보는 상기 음성에 대한 인식된 텍스트 및 상기 인식된 텍스트에 대한 신뢰도를 각각 포함할 수 있다.

상기 인식부는 상기 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 상기 인식 결과로써 도출할 수 있다.

상기 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 각각의 음성 인식 데이터베이스로, POI 컨텍스트, 명령 컨텍스트 및 주소 검색 컨텍스트 중 적어도 하나를 포함할 수 있다.

상기 인식 결과 셋은 각 컨텍스트별로 복수개 획득될 수 있다.

상기 보정부는 상기 인덱스가 상기 POI 컨텍스트의 인식 결과이면 보정수행하며, 상기 인식 결과가 상기 POI 컨텍스트의 인식 결과이면, 상기 인식 결과의 신뢰도와 다른 컨텍스트의 인식 결과 셋의 신뢰도가 가장 높은 인식 결과 후보의 신뢰도의 차이를 계산하고, 계산된 차이가 임계치 이내이면 다른 컨텍스트의 인식 결과 후보를 음성 인식 결과로써 보정할 수 있다.

상기 보정부는 상기 POI 컨텍스트의 인식 결과 후보에 대해 상기 명령 컨텍스트, 상기 주소 검색 컨텍스트 순으로 인식 결과 셋을 순차적으로 비교하여 보정을 수행할 수 있다.

상기 인식 결과를 출력하는 디스플레이부를 더 포함할 수 있다.

본 발명의 다른 측면에 따르면, 음성 인식 장치에서 멀티 컨텍스트에 따른 음성 인식 방법이 제공된다.

본 발명의 일 실시예에 따르면, 음성 인식 장치에서 음성을 인식하는 방법에 있어서, 각 서비스 시나리오에 따른 멀티 컨텍스트를 메모리에 로딩하는 단계; 사용자로부터 음성을 입력받는 단계; 상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하는 단계; 및 상기 획득된 인식 결과 셋을 이용하여 상기 음성에 대한 인식 결과를 도출하는 단계를 포함하는 음성 인식 방법이 제공될 수 있다.

상기 도출된 인식 결과가 특정 서비스 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 인식 결과에 대한 보정을 수행하는 단계를 더 포함할 수 있다.

상기 인식 결과를 도출하는 단계는,

상기 획득된 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 상기 인식 결과로써 도출할 수 있다.

상기 상기 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 각각의 음성 인식 데이터베이스로, POI 컨텍스트, 명령 컨텍스트 및 주소 검색 컨텍스트 중 적어도 하나를 포함할 수 있다.

상기 보정을 수행하는 단계는, 상기 도출된 인식 결과가 POI 컨텍스트에 따른 인식 결과이면 상기 인식 결과에 대해 보정을 수행할 수 있다.

상기 보정을 수행하는 단계는, 상기 도출된 인식 결과의 신뢰도와 다른 컨텍스트에 따른 인식 결과 셋에 따른 인식 결과 후보의 신뢰도의 차이를 도출하는 단계; 및 상기 도출된 차이가 임계치 이내이면, 상기 다른 컨텍스트의 인식 결과 후보를 인식 결과로써 보정할 수 있다.

상기 보정을 수행하는 단계는, 상기 도출된 차이가 임계치를 초과하면, 상기 POI 컨텍스트에 따른 도출된 인식 결과를 보정하지 않는 단계를 더 포함할 수 있다.

상기 보정을 수행하는 단계는, 상기 다른 컨텍스트는 명령 컨텍스트 및 주소 검색 컨텍스트이고, 순차적으로 상기 도출된 인식 결과와 비교하여 보정을 수행할 수 있다.

본 발명의 일 실시예에 따른 음성 인식 방법 및 장치를 제공함으로써, 효율적으로 음성을 인식할 수 있다. 즉, 본 발명은 음성 인식 결과의 보정을 통해 음성 인식율을 높일 수 있는 이점이 있다.

도 1은 본 발명의 일 실시예에 다른 음성 인식 장치가 차량에 부착된 실예를 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 내부 구성을 개략적으로 도시한 블록도.
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 음성을 인식하는 방법을 설명하기 위한 수단.
도 4는 본 발명의 일 실시예에 따른 음성 인식 결과를 보정하는 방법을 나타낸 순서도.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 다른 음성 인식 장치가 차량에 부착된 실예를 도시한 도면이다.

본 발명의 일 실시예에 따르면, 음성 인식 장치(100)는 차량에 부착된 내비게이션 장치일 수 있다. 본 명세서에서는 이해와 설명의 편의를 도모하기 위해 음성 인식 장치(100)가 차량에 부착된 내비게이션 장치인 것을 가정하여 이를 중심으로 설명하나 이외에도, 복수의 음성 인식을 위한 데이터베이스(또는 컨텍스트)를 메모리에 로딩하여 음성 인식할 수 있는 장치이면 모두 동일하게 적용될 수 있다.

본 명세서에서 컨텍스트는 음성 인식 데이터베이스를 나타낸다.

즉, 멀티 컨텍스트는 복수의 음성 인식 데이터베이스를 칭하는 것으로, 본 명세서에서는 각각의 서비스 시나리오별 음성 인식 데이터베이스를 통칭하는 것으로 해석되어야 할 것이다.

본 명세서에서 멀티 컨텍스트는 POI 컨텍스트, 명령 컨텍스트, 주소검색 컨텍스트 및 명칭 컨텍스트를 포함할 수 있다.

이와 같이, 음성 인식 장치(100)는 멀티 컨텍스트를 메모리에 로딩하고 있으며, 사용자에 의해 음성 인식을 위한 음성이 입력되면, 해당 입력된 음성에 상응하는 인식 결과를 출력할 수 있는 장치이다.

이하, 본 명세서에서는 사용자에 의해 입력된 음성을 효율적으로 인식하기 위한 방법에 대해 관련 도면을 참조하여 보다 상세히 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 내부 구성을 개략적으로 도시한 블록도이다.

도 2를 참조하면, 음성 인식 장치(100)는, 입력부(210), 음향 입력부(215), 음향 출력부(220), 인식부(225), 보정부(230), 디스플레이부(235), 메모리(240) 및 제어부(245)를 포함하여 구성된다.

입력부(210)는 사용자로부터 음성 인식 장치(100)를 제어하기 위한 제어 명령, 특정 어플리케이션의 실행을 제어하기 위한 명령 등을 입력받기 위한 수단이다. 예를 들어, 입력부(210)는 적어도 하나의 키버튼으로 구현될 수도 있으며, 터치스크린의 형태로 구현될 수도 있다.

음향 입력부(215)는 외부로부터 아날로그 형태의 음향 신호를 입력받기 위한 수단이다. 예를 들어, 음향 입력부(215)는 마이크일 수 있다.

이때, 음향 입력부(215)는 제어부(245)의 제어에 따라 동작 개시되고, 제어부(245)의 제어에 따라 동작 종료할 수 있다.

음향 출력부(220)는 당해 음성 인식 장치(100)에 저장된 음향 신호를 외부로 출력하기 위한 수단이다. 예를 들어, 음향 출력부(220)는 스피커일 수 있다. 이때, 음향 출력부(220)는 제어부(245)의 제어에 따라 동작 개시되고, 제어부(245)의 제어에 따라 동작 종료될 수 있다.

인식부(225)는 메모리(240)상에 로딩된 멀티 컨텍스트를 대상으로 음향 입력부(215)를 통해 입력된 음성에 대한 인식 결과 셋(set)을 획득하고, 해당 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과를 도출하기 위한 수단이다.

이때, 인식 결과 셋은 각 컨텍스트별로 획득될 수 있다.

또한, 각각의 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하며, 인식 결과 후보는 각각 음성에 대한 인식된 텍스트와 해당 텍스트에 대한 신뢰도를 포함할 수 있다.

여기서, 인식 결과 셋은 VoCon Embedded Development System(이하, VoCon 엔진이라 칭하기로 함)을 통해 도출될 수 있다.

보다 상세하게 인식부(225)는 멀티 컨텍스트를 대상으로 각각의 인식 결과 셋을 획득하고, 해당 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보에 대한 인덱스를 인식 결과로써 제어부(245)로 출력할 수 있다.

이에 따라, 제어부(245)는 해당 인식 결과가 특정 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 해당 인식 결과에 대한 보정 여부를 결정할 수 있다.

예를 들어, 제어부(245)는 해당 인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 인식 결과에 대한 보정을 수행하도록 보정부(230)를 동작시킬 수 있다.

보정부(230)는 인식부(225)의 인식 결과를 보정하기 위한 수단이다.

예를 들어, 보정부(230)는 인식부(225)의 인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 보정을 수행할 수 있다.

예를 들어, 보정부(230)는 인식부(225)의 인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 다른 컨텍스트(예를 들어, 명령 컨텍스트, 주소검색 컨텍스트 등)에 대한 인식 결과 셋의 인식 결과 후보의 신뢰도와의 차이값을 각각 도출한다. 이어, 보정부(230)는 도출된 차이값이 미리 설정된 임계값 이내이면, 해당 다른 컨텍스트의 인식 결과 후보를 인식 결과로써 보정할 수 있다.

이때, 보정부(230)는 도출된 차이값이 미리 설정된 임계값 이내인 다른 컨텍스트의 인식 결과 후보에 대한 인덱스를 인식 결과로써 출력할 수 있다. 그러나 만일 도출된 차이값이 미리 설정된 임계치를 초과하는 경우, 보정부(230)를 인식부(225)를 통해 인식된 인식 결과를 보정하지 않고, 그대로 출력할 수 있다.

또한, 보정부(230)는 다른 컨텍스트가 복수개인 경우, 미리 설정된 컨텍스트 비교 순서에 따라 인식부(225)를 통해 인식된 인식 결과와 해당 비교 순서에 따른 컨텍스트별 인식 결과 셋을 비교할 수 있다.

예를 들어, 보정부(230)는 인식부(225)를 통해 인식된 인식 결과가 POI 컨텍스트이면, 제1 순서로 명령 컨텍스트의 인식 결과 셋과의 비교를 수행하고, 이어 주소 검색 컨텍스트의 인식 결과 셋과의 비교를 수행할 수 있다.

디스플레이부(235)는 음성 인식 장치(100)를 통해 입력된 데이터 또는 저장된 데이터를 시각 정보의 형태로 표출하기 위한 수단이다. 예를 들어, 디스플레이부(235)는 액정화면일 수 있다.

본 명세서에서는 입력부(210)와 디스플레이부(235)가 별도의 개별 구성으로 구현되는 것을 가정하여 설명하고 있으나, 구현 방법에 따라 입력부(210)와 디스플레이부(235)는 예를 들어, 터치스크린과 같은 하나의 구성으로 구현될 수 있다.

메모리(240)는 당해 음성 인식 장치(100)를 운영하기 위해 필요한 다앙한 어플리케이션을 저장한다. 또한, 메모리(240)는 각 서비스 시나리오에 따른 멀티 컨텍스트를 로딩하기 위한 수단이다.

제어부(245)는 본 발명의 일 실시예에 따른 음성 인식 장치(100)의 내부 구성 요소들(예를 들어, 입력부(210), 음향 입력부(215), 음향 출력부(220), 인식부(225), 보정부(230), 디스플레이부(235), 메모리(240) 등)을 제어하기 위한 수단이다.

도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 음성을 인식하는 방법을 설명하기 위한 수단이다. 이하에서 설명되는 각각의 단계는 음성 인식 장치의 각각의 내부 구성 요소에 의해 수행되나 이해와 설명의 편의를 도모하기 위해 음성 인식 장치로 통칭하여 설명하기로 한다.

단계 310에서 음성 인식 장치(100)는 멀티 컨텍스트를 메모리에 로딩한다.

전술한 바와 같이, 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 음성 인식 데이터베이스이다. 예를 들어, 멀티 컨텍스트는 POI 컨텍스트, 명령 컨텍스트, 주소 검색 컨텍스트 일 수 있다.

단계 315에서 음성 인식 장치(100)는 사용자로부터 음성을 입력받는다.

단계 320에서 음성 인식 장치(100)는 멀티 컨텍스트를 대상으로 입력된 음성에 대한 인식 결과 셋(set)을 획득한다. 전술한 바와 같이, 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하고, 인식 결과 후보는 각각 음성에 대한 인식된 텍스트 및 인식된 텍스트에 대한 신뢰도를 포함한다. 여기서, 신뢰도는 정수로 표현될 수 있다.

또한, 전술한 바와 같이, 인식 결과 셋은 각 컨텍스트별로 획득될 수 있다.

단계 325에서 음성 인식 장치(100)는 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 도출한다.

이어, 단계 330에서 음성 인식 장치(100)는 도출된 인식 결과 후보가 POI 컨텍스트에 대한 인식 결과인지 여부를 판단한다.

만일 POI 컨텍스트에 대한 인식 결과가 아니면, 단계 335에서 음성 인식 장치(100)는 인식 결과 후보를 단계 315에서 입력된 음성에 대한 인식 결과로써 출력한다.

그러나 만일 POI 컨텍스트이면, 단계 340에서 음성 인식 장치(100)는 도출된 인식 결과 후보에 대한 보정을 수행한다. 이하, 도 4를 참조하여 인식 결과 후보에 대한 보정을 수행하는 방법에 대해 설명하기로 한다.

도 4는 본 발명의 일 실시예에 따른 음성 인식 결과를 보정하는 방법을 나타낸 순서도이다.

인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 단계 410에서 음성 인식 장치(100)는 POI 컨텍스트의 인식 결과 후보의 신뢰도와 다른 컨텍스트의 인식 결과 후보의 신뢰도의 차이를 도출한다.

이어, 단계 415에서 음성 인식 장치(100)는 도출된 차이가 미리 설정된 임계치 이내인지 여부를 판단한다.

만일 도출된 차이가 미리 설정된 임계치 이내이면, 단계 420에서 음성 인식 장치(100)는 다른 컨텍스트의 인식 결과 후보를 인식 결과로써 보정하여 출력한다.

그러나 만일 도출된 차이가 미리 설정된 임계치를 초과하면, 단계 425에서 음성 인식 장치(100)는 POI 컨텍스트의 인식 결과 후보를 인식 결과로써 출력한다. 즉, 인식부(225)에 의해 인식된 인식 결과에 대해 보정을 수행하지 않는다.

도 4에서는 음성 인식 결과를 보정하는 방법을 일반화하여 설명하고 있으나, 보다 구체적으로 인식부(225)에 의해 인식된 인식 결과가 POI 컨텍스트에 대한 인식 결과인 경우, 음성 인식 장치(100)는 제1차 명령 컨텍스트의 인식 결과 후보의 신뢰도와의 비교를 수행한다. 즉, 제1차 명령 컨텍스트의 인식 결과 후보를 대상으로, 도 4를 수행한다.

이어, 음성 인식 장치(100)는 제2차 주소 검색 컨텍스트의 인식 결과 후보를 대상으로 도 4의 방법을 수행할 수 있다.

이와 같이, 음성 인식 장치(100)는 음성에 대해 인식된 인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 미리 설정된 순서대로 각각의 컨텍스트에 대한 인식 결과 후보의 신뢰도와의 비교를 통한 보정을 수행할 수 있다.

한편, 본 발명의 실시예에 따른 음성 인식 방법은 다양한 전자적으로 정보를 처리하는 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 저장 매체에 기록될 수 있다. 저장 매체는 프로그램 명령, 데이터 파일, 데이터 구조등을 단독으로 또는 조합하여 포함할 수 있다.

저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 저장 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

210: 입력부
215: 음향 입력부
220: 음향 출력부
225: 인식부
230: 보정부
235: 디스플레이부
240: 메모리
245: 제어부

Claims

각 서비스 시나리오별 멀티 컨텍스트를 로딩한 메모리;
사용자로부터 음성을 입력받는 음향 입력부;
상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하고, 상기 인식 결과 셋을 이용하여 인식 결과를 도출하는 인식부; 및
상기 인식 결과가 특정 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 보정을 수행하는 보정부를 포함하되,
상기 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 각각의 음성 인식 데이터베이스로, POI 컨텍스트, 명령 컨텍스트 및 주소 검색 컨텍스트 중 적어도 하나를 포함하며,
상기 보정부는 상기 도출된 인식 결과가 POI 컨텍스트에 따른 인식 결과이면 상기 인식 결과에 대해 보정을 수행하는 것을 특징으로 하는 음성 인식 장치.
삭제
제1 항에 있어서,
상기 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하며, 상기 인식 결과 후보는 상기 음성에 대한 인식된 텍스트 및 상기 인식된 텍스트에 대한 신뢰도를 각각 포함하는 음성 인식 장치.
제3 항에 있어서,
상기 인식부는 상기 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 상기 인식 결과로써 도출하는 음성 인식 장치.
삭제
제1항에 있어서,
상기 인식 결과 셋은 각 컨텍스트별로 복수개 획득되는 음성 인식 장치.
삭제
제3 항에 있어서,
상기 보정부는 상기 인식 결과 후보가 상기 POI 컨텍스트의 인식 결과이면, 상기 인식 결과 후보의 신뢰도와 다른 컨텍스트의 인식 결과 셋의 신뢰도가 가장 높은 인식 결과 후보의 신뢰도의 차이를 계산하고, 계산된 차이가 임계치 이내이면 다른 컨텍스트의 인식 결과 후보를 음성 인식 결과로써 보정하는 음성 인식 장치.
제8 항에 있어서,
상기 보정부는 상기 POI 컨텍스트의 인식 결과 후보에 대해 상기 명령 컨텍스트, 상기 주소 검색 컨텍스트 순으로 인식 결과 셋을 순차적으로 비교하여 보정을 수행하는 음성 인식 장치.
제1 항에 있어서,
상기 인식 결과를 출력하는 디스플레이부를 더 포함하는 음성 인식 장치.
음성 인식 장치에서 음성을 인식하는 방법에 있어서,
각 서비스 시나리오에 따른 멀티 컨텍스트를 메모리에 로딩하는 단계;
사용자로부터 음성을 입력받는 단계;
상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하는 단계;
상기 획득된 인식 결과 셋(set)을 이용하여 상기 음성에 대한 인식 결과를 도출하는 단계; 및
상기 도출된 인식 결과가 특정 서비스 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 인식 결과에 대한 보정을 수행하는 단계:
를 포함하되,
상기 보정을 수행하는 단계는,
상기 도출된 인식 결과가 POI 컨텍스트에 따른 인식 결과이면 상기 인식 결과에 대해 보정을 수행하는 것을 더 포함하며,
상기 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 각각의 음성 인식 데이터베이스로, POI 컨텍스트, 명령 컨텍스트 및 주소 검색 컨텍스트 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 방법.
삭제
제11 항에 있어서,
상기 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하며, 상기 인식 결과 후보는 상기 음성에 대한 인식된 텍스트 및 상기 인식된 텍스트에 대한 신뢰도를 각각 포함하는 음성 인식 방법.
제13 항에 있어서,
상기 인식 결과를 도출하는 단계는,
상기 획득된 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 상기 인식 결과로써 도출하는 것인 음성 인식 방법.
삭제
삭제
제11 항에 있어서,
상기 보정을 수행하는 단계는,
상기 도출된 인식 결과의 신뢰도와 다른 컨텍스트에 따른 인식 결과 셋에 따른 인식 결과 후보의 신뢰도의 차이를 도출하는 단계; 및
상기 도출된 차이가 임계치 이내이면, 상기 다른 컨텍스트의 인식 결과 후보를 인식 결과로써 보정하는 단계를 포함하는 음성 인식 방법.
제17 항에 있어서,
상기 보정을 수행하는 단계는,
상기 도출된 차이가 임계치를 초과하면, 상기 POI 컨텍스트에 따른 도출된 인식 결과를 보정하지 않는 단계를 더 포함하는 음성 인식 방법.
제17 항에 있어서,
상기 보정을 수행하는 단계는,
상기 다른 컨텍스트는 명령 컨텍스트 및 주소 검색 컨텍스트이고, 순차적으로 상기 도출된 인식 결과와 비교하여 보정을 수행하는 음성 인식 방법.
제11 항, 제13항, 제14항, 제17항, 제18항, 또는 제19 항 중 어느 한 항에 따른 음성 인식 방법을 수행하기 위한 프로그램을 기록한 기록매체.