KR101394422B1 - 음성 인식 방법 및 그 장치 - Google Patents

음성 인식 방법 및 그 장치 Download PDF

Info

Publication number
KR101394422B1
KR101394422B1 KR1020120061556A KR20120061556A KR101394422B1 KR 101394422 B1 KR101394422 B1 KR 101394422B1 KR 1020120061556 A KR1020120061556 A KR 1020120061556A KR 20120061556 A KR20120061556 A KR 20120061556A KR 101394422 B1 KR101394422 B1 KR 101394422B1
Authority
KR
South Korea
Prior art keywords
recognition result
context
recognition
speech
candidate
Prior art date
Application number
KR1020120061556A
Other languages
English (en)
Other versions
KR20130124123A (ko
Inventor
문경기
Original Assignee
현대엠엔소프트 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대엠엔소프트 주식회사 filed Critical 현대엠엔소프트 주식회사
Publication of KR20130124123A publication Critical patent/KR20130124123A/ko
Application granted granted Critical
Publication of KR101394422B1 publication Critical patent/KR101394422B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

음성 인식 방법 및 장치가 개시된다. 음성 인식 장치에서 음성을 인식하는 방법은, 각 서비스 시나리오에 따른 멀티 컨텍스트를 메모리에 로딩하고, 사용자로부터 음성을 입력받으며, 상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하며, 상기 인식 결과 셋을 이용하여 상기 음성에 대한 인식 결과를 도출하여 음성을 인식할 수 있다.

Description

음성 인식 방법 및 그 장치{Method and system for remote control}
본 발명은 내비게이션에 관한 것으로, 보다 상세하게 내비게이션에서의 효과적인 음성 인식을 위한 방법 및 장치에 관한 것이다.
일반적으로, 내비게이션 장치에서 음성 인식에 다른 서비스 시나리오에 필요한 데이터베이스는 각기 그 구조가 상이하며, 각각의 서비스 시나리오별로 데이터베이스를 생성한다.
이와 같이, 내비게이션 장치의 경우, 각 서비스 시나리오별로 복수의 음성 인식을 위한 데이터베이스가 생성되어 이용되고 있어, 각 서비스 시나리오별 복수의 음성 인식 데이터베이스를 고려하여 음성 인식의 정확도를 높이기 위한 방안에 대한 강구가 필요한 실정이다.
본 발명은 효율적으로 음성을 인식할 수 있는 방법 및 장치를 제공하기 위한 것이다.
또한, 본 발명은 음성 인식 결과의 보정을 통해 음성 인식율을 높일 수 있는 음성 인식 방법 및 장치를 제공하기 위한 것이다.
본 발명의 일 측면에 따르면, 멀티 컨텍스트에 대한 효율적인 음성 인식 장치가 제공된다.
본 발명의 일 실시예에 따르면, 각 서비스 시나리오별 멀티 컨텍스트를 로딩한 메모리; 사용자로부터 음성을 입력받는 음향 입력부; 및 상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하고, 상기 인식 결과 셋을 이용하여 인식 결과를 도출하는 인식부를 포함하는 음성 인식 장치가 제공될 수 있다.
상기 인식 결과가 특정 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 보정을 수행하는 보정부를 더 포함할 수 있다.
상기 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하며, 상기 인식 결과 후보는 상기 음성에 대한 인식된 텍스트 및 상기 인식된 텍스트에 대한 신뢰도를 각각 포함할 수 있다.
상기 인식부는 상기 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 상기 인식 결과로써 도출할 수 있다.
상기 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 각각의 음성 인식 데이터베이스로, POI 컨텍스트, 명령 컨텍스트 및 주소 검색 컨텍스트 중 적어도 하나를 포함할 수 있다.
상기 인식 결과 셋은 각 컨텍스트별로 복수개 획득될 수 있다.
상기 보정부는 상기 인덱스가 상기 POI 컨텍스트의 인식 결과이면 보정수행하며, 상기 인식 결과가 상기 POI 컨텍스트의 인식 결과이면, 상기 인식 결과의 신뢰도와 다른 컨텍스트의 인식 결과 셋의 신뢰도가 가장 높은 인식 결과 후보의 신뢰도의 차이를 계산하고, 계산된 차이가 임계치 이내이면 다른 컨텍스트의 인식 결과 후보를 음성 인식 결과로써 보정할 수 있다.
상기 보정부는 상기 POI 컨텍스트의 인식 결과 후보에 대해 상기 명령 컨텍스트, 상기 주소 검색 컨텍스트 순으로 인식 결과 셋을 순차적으로 비교하여 보정을 수행할 수 있다.
상기 인식 결과를 출력하는 디스플레이부를 더 포함할 수 있다.
본 발명의 다른 측면에 따르면, 음성 인식 장치에서 멀티 컨텍스트에 따른 음성 인식 방법이 제공된다.
본 발명의 일 실시예에 따르면, 음성 인식 장치에서 음성을 인식하는 방법에 있어서, 각 서비스 시나리오에 따른 멀티 컨텍스트를 메모리에 로딩하는 단계; 사용자로부터 음성을 입력받는 단계; 상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하는 단계; 및 상기 획득된 인식 결과 셋을 이용하여 상기 음성에 대한 인식 결과를 도출하는 단계를 포함하는 음성 인식 방법이 제공될 수 있다.
상기 도출된 인식 결과가 특정 서비스 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 인식 결과에 대한 보정을 수행하는 단계를 더 포함할 수 있다.
상기 인식 결과를 도출하는 단계는,
상기 획득된 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 상기 인식 결과로써 도출할 수 있다.
상기 상기 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 각각의 음성 인식 데이터베이스로, POI 컨텍스트, 명령 컨텍스트 및 주소 검색 컨텍스트 중 적어도 하나를 포함할 수 있다.
상기 보정을 수행하는 단계는, 상기 도출된 인식 결과가 POI 컨텍스트에 따른 인식 결과이면 상기 인식 결과에 대해 보정을 수행할 수 있다.
상기 보정을 수행하는 단계는, 상기 도출된 인식 결과의 신뢰도와 다른 컨텍스트에 따른 인식 결과 셋에 따른 인식 결과 후보의 신뢰도의 차이를 도출하는 단계; 및 상기 도출된 차이가 임계치 이내이면, 상기 다른 컨텍스트의 인식 결과 후보를 인식 결과로써 보정할 수 있다.
상기 보정을 수행하는 단계는, 상기 도출된 차이가 임계치를 초과하면, 상기 POI 컨텍스트에 따른 도출된 인식 결과를 보정하지 않는 단계를 더 포함할 수 있다.
상기 보정을 수행하는 단계는, 상기 다른 컨텍스트는 명령 컨텍스트 및 주소 검색 컨텍스트이고, 순차적으로 상기 도출된 인식 결과와 비교하여 보정을 수행할 수 있다.
본 발명의 일 실시예에 따른 음성 인식 방법 및 장치를 제공함으로써, 효율적으로 음성을 인식할 수 있다. 즉, 본 발명은 음성 인식 결과의 보정을 통해 음성 인식율을 높일 수 있는 이점이 있다.
도 1은 본 발명의 일 실시예에 다른 음성 인식 장치가 차량에 부착된 실예를 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 내부 구성을 개략적으로 도시한 블록도.
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 음성을 인식하는 방법을 설명하기 위한 수단.
도 4는 본 발명의 일 실시예에 따른 음성 인식 결과를 보정하는 방법을 나타낸 순서도.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 다른 음성 인식 장치가 차량에 부착된 실예를 도시한 도면이다.
본 발명의 일 실시예에 따르면, 음성 인식 장치(100)는 차량에 부착된 내비게이션 장치일 수 있다. 본 명세서에서는 이해와 설명의 편의를 도모하기 위해 음성 인식 장치(100)가 차량에 부착된 내비게이션 장치인 것을 가정하여 이를 중심으로 설명하나 이외에도, 복수의 음성 인식을 위한 데이터베이스(또는 컨텍스트)를 메모리에 로딩하여 음성 인식할 수 있는 장치이면 모두 동일하게 적용될 수 있다.
본 명세서에서 컨텍스트는 음성 인식 데이터베이스를 나타낸다.
즉, 멀티 컨텍스트는 복수의 음성 인식 데이터베이스를 칭하는 것으로, 본 명세서에서는 각각의 서비스 시나리오별 음성 인식 데이터베이스를 통칭하는 것으로 해석되어야 할 것이다.
본 명세서에서 멀티 컨텍스트는 POI 컨텍스트, 명령 컨텍스트, 주소검색 컨텍스트 및 명칭 컨텍스트를 포함할 수 있다.
이와 같이, 음성 인식 장치(100)는 멀티 컨텍스트를 메모리에 로딩하고 있으며, 사용자에 의해 음성 인식을 위한 음성이 입력되면, 해당 입력된 음성에 상응하는 인식 결과를 출력할 수 있는 장치이다.
이하, 본 명세서에서는 사용자에 의해 입력된 음성을 효율적으로 인식하기 위한 방법에 대해 관련 도면을 참조하여 보다 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 2를 참조하면, 음성 인식 장치(100)는, 입력부(210), 음향 입력부(215), 음향 출력부(220), 인식부(225), 보정부(230), 디스플레이부(235), 메모리(240) 및 제어부(245)를 포함하여 구성된다.
입력부(210)는 사용자로부터 음성 인식 장치(100)를 제어하기 위한 제어 명령, 특정 어플리케이션의 실행을 제어하기 위한 명령 등을 입력받기 위한 수단이다. 예를 들어, 입력부(210)는 적어도 하나의 키버튼으로 구현될 수도 있으며, 터치스크린의 형태로 구현될 수도 있다.
음향 입력부(215)는 외부로부터 아날로그 형태의 음향 신호를 입력받기 위한 수단이다. 예를 들어, 음향 입력부(215)는 마이크일 수 있다.
이때, 음향 입력부(215)는 제어부(245)의 제어에 따라 동작 개시되고, 제어부(245)의 제어에 따라 동작 종료할 수 있다.
음향 출력부(220)는 당해 음성 인식 장치(100)에 저장된 음향 신호를 외부로 출력하기 위한 수단이다. 예를 들어, 음향 출력부(220)는 스피커일 수 있다. 이때, 음향 출력부(220)는 제어부(245)의 제어에 따라 동작 개시되고, 제어부(245)의 제어에 따라 동작 종료될 수 있다.
인식부(225)는 메모리(240)상에 로딩된 멀티 컨텍스트를 대상으로 음향 입력부(215)를 통해 입력된 음성에 대한 인식 결과 셋(set)을 획득하고, 해당 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과를 도출하기 위한 수단이다.
이때, 인식 결과 셋은 각 컨텍스트별로 획득될 수 있다.
또한, 각각의 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하며, 인식 결과 후보는 각각 음성에 대한 인식된 텍스트와 해당 텍스트에 대한 신뢰도를 포함할 수 있다.
여기서, 인식 결과 셋은 VoCon Embedded Development System(이하, VoCon 엔진이라 칭하기로 함)을 통해 도출될 수 있다.
보다 상세하게 인식부(225)는 멀티 컨텍스트를 대상으로 각각의 인식 결과 셋을 획득하고, 해당 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보에 대한 인덱스를 인식 결과로써 제어부(245)로 출력할 수 있다.
이에 따라, 제어부(245)는 해당 인식 결과가 특정 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 해당 인식 결과에 대한 보정 여부를 결정할 수 있다.
예를 들어, 제어부(245)는 해당 인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 인식 결과에 대한 보정을 수행하도록 보정부(230)를 동작시킬 수 있다.
보정부(230)는 인식부(225)의 인식 결과를 보정하기 위한 수단이다.
예를 들어, 보정부(230)는 인식부(225)의 인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 보정을 수행할 수 있다.
예를 들어, 보정부(230)는 인식부(225)의 인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 다른 컨텍스트(예를 들어, 명령 컨텍스트, 주소검색 컨텍스트 등)에 대한 인식 결과 셋의 인식 결과 후보의 신뢰도와의 차이값을 각각 도출한다. 이어, 보정부(230)는 도출된 차이값이 미리 설정된 임계값 이내이면, 해당 다른 컨텍스트의 인식 결과 후보를 인식 결과로써 보정할 수 있다.
이때, 보정부(230)는 도출된 차이값이 미리 설정된 임계값 이내인 다른 컨텍스트의 인식 결과 후보에 대한 인덱스를 인식 결과로써 출력할 수 있다. 그러나 만일 도출된 차이값이 미리 설정된 임계치를 초과하는 경우, 보정부(230)를 인식부(225)를 통해 인식된 인식 결과를 보정하지 않고, 그대로 출력할 수 있다.
또한, 보정부(230)는 다른 컨텍스트가 복수개인 경우, 미리 설정된 컨텍스트 비교 순서에 따라 인식부(225)를 통해 인식된 인식 결과와 해당 비교 순서에 따른 컨텍스트별 인식 결과 셋을 비교할 수 있다.
예를 들어, 보정부(230)는 인식부(225)를 통해 인식된 인식 결과가 POI 컨텍스트이면, 제1 순서로 명령 컨텍스트의 인식 결과 셋과의 비교를 수행하고, 이어 주소 검색 컨텍스트의 인식 결과 셋과의 비교를 수행할 수 있다.
디스플레이부(235)는 음성 인식 장치(100)를 통해 입력된 데이터 또는 저장된 데이터를 시각 정보의 형태로 표출하기 위한 수단이다. 예를 들어, 디스플레이부(235)는 액정화면일 수 있다.
본 명세서에서는 입력부(210)와 디스플레이부(235)가 별도의 개별 구성으로 구현되는 것을 가정하여 설명하고 있으나, 구현 방법에 따라 입력부(210)와 디스플레이부(235)는 예를 들어, 터치스크린과 같은 하나의 구성으로 구현될 수 있다.
메모리(240)는 당해 음성 인식 장치(100)를 운영하기 위해 필요한 다앙한 어플리케이션을 저장한다. 또한, 메모리(240)는 각 서비스 시나리오에 따른 멀티 컨텍스트를 로딩하기 위한 수단이다.
제어부(245)는 본 발명의 일 실시예에 따른 음성 인식 장치(100)의 내부 구성 요소들(예를 들어, 입력부(210), 음향 입력부(215), 음향 출력부(220), 인식부(225), 보정부(230), 디스플레이부(235), 메모리(240) 등)을 제어하기 위한 수단이다.
도 3은 본 발명의 일 실시예에 따른 음성 인식 장치에서 음성을 인식하는 방법을 설명하기 위한 수단이다. 이하에서 설명되는 각각의 단계는 음성 인식 장치의 각각의 내부 구성 요소에 의해 수행되나 이해와 설명의 편의를 도모하기 위해 음성 인식 장치로 통칭하여 설명하기로 한다.
단계 310에서 음성 인식 장치(100)는 멀티 컨텍스트를 메모리에 로딩한다.
전술한 바와 같이, 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 음성 인식 데이터베이스이다. 예를 들어, 멀티 컨텍스트는 POI 컨텍스트, 명령 컨텍스트, 주소 검색 컨텍스트 일 수 있다.
단계 315에서 음성 인식 장치(100)는 사용자로부터 음성을 입력받는다.
단계 320에서 음성 인식 장치(100)는 멀티 컨텍스트를 대상으로 입력된 음성에 대한 인식 결과 셋(set)을 획득한다. 전술한 바와 같이, 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하고, 인식 결과 후보는 각각 음성에 대한 인식된 텍스트 및 인식된 텍스트에 대한 신뢰도를 포함한다. 여기서, 신뢰도는 정수로 표현될 수 있다.
또한, 전술한 바와 같이, 인식 결과 셋은 각 컨텍스트별로 획득될 수 있다.
단계 325에서 음성 인식 장치(100)는 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 도출한다.
이어, 단계 330에서 음성 인식 장치(100)는 도출된 인식 결과 후보가 POI 컨텍스트에 대한 인식 결과인지 여부를 판단한다.
만일 POI 컨텍스트에 대한 인식 결과가 아니면, 단계 335에서 음성 인식 장치(100)는 인식 결과 후보를 단계 315에서 입력된 음성에 대한 인식 결과로써 출력한다.
그러나 만일 POI 컨텍스트이면, 단계 340에서 음성 인식 장치(100)는 도출된 인식 결과 후보에 대한 보정을 수행한다. 이하, 도 4를 참조하여 인식 결과 후보에 대한 보정을 수행하는 방법에 대해 설명하기로 한다.
도 4는 본 발명의 일 실시예에 따른 음성 인식 결과를 보정하는 방법을 나타낸 순서도이다.
인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 단계 410에서 음성 인식 장치(100)는 POI 컨텍스트의 인식 결과 후보의 신뢰도와 다른 컨텍스트의 인식 결과 후보의 신뢰도의 차이를 도출한다.
이어, 단계 415에서 음성 인식 장치(100)는 도출된 차이가 미리 설정된 임계치 이내인지 여부를 판단한다.
만일 도출된 차이가 미리 설정된 임계치 이내이면, 단계 420에서 음성 인식 장치(100)는 다른 컨텍스트의 인식 결과 후보를 인식 결과로써 보정하여 출력한다.
그러나 만일 도출된 차이가 미리 설정된 임계치를 초과하면, 단계 425에서 음성 인식 장치(100)는 POI 컨텍스트의 인식 결과 후보를 인식 결과로써 출력한다. 즉, 인식부(225)에 의해 인식된 인식 결과에 대해 보정을 수행하지 않는다.
도 4에서는 음성 인식 결과를 보정하는 방법을 일반화하여 설명하고 있으나, 보다 구체적으로 인식부(225)에 의해 인식된 인식 결과가 POI 컨텍스트에 대한 인식 결과인 경우, 음성 인식 장치(100)는 제1차 명령 컨텍스트의 인식 결과 후보의 신뢰도와의 비교를 수행한다. 즉, 제1차 명령 컨텍스트의 인식 결과 후보를 대상으로, 도 4를 수행한다.
이어, 음성 인식 장치(100)는 제2차 주소 검색 컨텍스트의 인식 결과 후보를 대상으로 도 4의 방법을 수행할 수 있다.
이와 같이, 음성 인식 장치(100)는 음성에 대해 인식된 인식 결과가 POI 컨텍스트에 대한 인식 결과이면, 미리 설정된 순서대로 각각의 컨텍스트에 대한 인식 결과 후보의 신뢰도와의 비교를 통한 보정을 수행할 수 있다.
한편, 본 발명의 실시예에 따른 음성 인식 방법은 다양한 전자적으로 정보를 처리하는 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 저장 매체에 기록될 수 있다. 저장 매체는 프로그램 명령, 데이터 파일, 데이터 구조등을 단독으로 또는 조합하여 포함할 수 있다.
저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 저장 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
210: 입력부
215: 음향 입력부
220: 음향 출력부
225: 인식부
230: 보정부
235: 디스플레이부
240: 메모리
245: 제어부

Claims (20)

  1. 각 서비스 시나리오별 멀티 컨텍스트를 로딩한 메모리;
    사용자로부터 음성을 입력받는 음향 입력부;
    상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하고, 상기 인식 결과 셋을 이용하여 인식 결과를 도출하는 인식부; 및
    상기 인식 결과가 특정 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 보정을 수행하는 보정부를 포함하되,
    상기 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 각각의 음성 인식 데이터베이스로, POI 컨텍스트, 명령 컨텍스트 및 주소 검색 컨텍스트 중 적어도 하나를 포함하며,
    상기 보정부는 상기 도출된 인식 결과가 POI 컨텍스트에 따른 인식 결과이면 상기 인식 결과에 대해 보정을 수행하는 것을 특징으로 하는 음성 인식 장치.
  2. 삭제
  3. 제1 항에 있어서,
    상기 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하며, 상기 인식 결과 후보는 상기 음성에 대한 인식된 텍스트 및 상기 인식된 텍스트에 대한 신뢰도를 각각 포함하는 음성 인식 장치.
  4. 제3 항에 있어서,
    상기 인식부는 상기 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 상기 인식 결과로써 도출하는 음성 인식 장치.
  5. 삭제
  6. 제1항에 있어서,
    상기 인식 결과 셋은 각 컨텍스트별로 복수개 획득되는 음성 인식 장치.
  7. 삭제
  8. 제3 항에 있어서,
    상기 보정부는 상기 인식 결과 후보가 상기 POI 컨텍스트의 인식 결과이면, 상기 인식 결과 후보의 신뢰도와 다른 컨텍스트의 인식 결과 셋의 신뢰도가 가장 높은 인식 결과 후보의 신뢰도의 차이를 계산하고, 계산된 차이가 임계치 이내이면 다른 컨텍스트의 인식 결과 후보를 음성 인식 결과로써 보정하는 음성 인식 장치.
  9. 제8 항에 있어서,
    상기 보정부는 상기 POI 컨텍스트의 인식 결과 후보에 대해 상기 명령 컨텍스트, 상기 주소 검색 컨텍스트 순으로 인식 결과 셋을 순차적으로 비교하여 보정을 수행하는 음성 인식 장치.
  10. 제1 항에 있어서,
    상기 인식 결과를 출력하는 디스플레이부를 더 포함하는 음성 인식 장치.
  11. 음성 인식 장치에서 음성을 인식하는 방법에 있어서,
    각 서비스 시나리오에 따른 멀티 컨텍스트를 메모리에 로딩하는 단계;
    사용자로부터 음성을 입력받는 단계;
    상기 멀티 컨텍스트를 대상으로 상기 입력된 음성에 대한 인식 결과 셋(set)을 획득하는 단계;
    상기 획득된 인식 결과 셋(set)을 이용하여 상기 음성에 대한 인식 결과를 도출하는 단계; 및
    상기 도출된 인식 결과가 특정 서비스 시나리오에 따른 컨텍스트의 인식 결과인지 여부에 따라 인식 결과에 대한 보정을 수행하는 단계:
    를 포함하되,
    상기 보정을 수행하는 단계는,
    상기 도출된 인식 결과가 POI 컨텍스트에 따른 인식 결과이면 상기 인식 결과에 대해 보정을 수행하는 것을 더 포함하며,
    상기 멀티 컨텍스트는 각각의 서비스 시나리오에 따른 각각의 음성 인식 데이터베이스로, POI 컨텍스트, 명령 컨텍스트 및 주소 검색 컨텍스트 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 방법.
  12. 삭제
  13. 제11 항에 있어서,
    상기 인식 결과 셋은 적어도 하나의 인식 결과 후보를 포함하며, 상기 인식 결과 후보는 상기 음성에 대한 인식된 텍스트 및 상기 인식된 텍스트에 대한 신뢰도를 각각 포함하는 음성 인식 방법.
  14. 제13 항에 있어서,
    상기 인식 결과를 도출하는 단계는,
    상기 획득된 인식 결과 셋에서 신뢰도가 가장 높은 인식 결과 후보를 상기 인식 결과로써 도출하는 것인 음성 인식 방법.
  15. 삭제
  16. 삭제
  17. 제11 항에 있어서,
    상기 보정을 수행하는 단계는,
    상기 도출된 인식 결과의 신뢰도와 다른 컨텍스트에 따른 인식 결과 셋에 따른 인식 결과 후보의 신뢰도의 차이를 도출하는 단계; 및
    상기 도출된 차이가 임계치 이내이면, 상기 다른 컨텍스트의 인식 결과 후보를 인식 결과로써 보정하는 단계를 포함하는 음성 인식 방법.
  18. 제17 항에 있어서,
    상기 보정을 수행하는 단계는,
    상기 도출된 차이가 임계치를 초과하면, 상기 POI 컨텍스트에 따른 도출된 인식 결과를 보정하지 않는 단계를 더 포함하는 음성 인식 방법.
  19. 제17 항에 있어서,
    상기 보정을 수행하는 단계는,
    상기 다른 컨텍스트는 명령 컨텍스트 및 주소 검색 컨텍스트이고, 순차적으로 상기 도출된 인식 결과와 비교하여 보정을 수행하는 음성 인식 방법.
  20. 제11 항, 제13항, 제14항, 제17항, 제18항, 또는 제19 항 중 어느 한 항에 따른 음성 인식 방법을 수행하기 위한 프로그램을 기록한 기록매체.
KR1020120061556A 2012-05-04 2012-06-08 음성 인식 방법 및 그 장치 KR101394422B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20120047644 2012-05-04
KR1020120047644 2012-05-04

Publications (2)

Publication Number Publication Date
KR20130124123A KR20130124123A (ko) 2013-11-13
KR101394422B1 true KR101394422B1 (ko) 2014-05-13

Family

ID=49853207

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120061556A KR101394422B1 (ko) 2012-05-04 2012-06-08 음성 인식 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR101394422B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060098673A (ko) * 2005-03-03 2006-09-19 삼성전자주식회사 음성 인식 방법 및 장치
JP2009230068A (ja) * 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060098673A (ko) * 2005-03-03 2006-09-19 삼성전자주식회사 음성 인식 방법 및 장치
JP2009230068A (ja) * 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム

Also Published As

Publication number Publication date
KR20130124123A (ko) 2013-11-13

Similar Documents

Publication Publication Date Title
KR102550932B1 (ko) 음성 인식 모델의 개인화 방법 및 장치
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US8972260B2 (en) Speech recognition using multiple language models
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
KR102396983B1 (ko) 문법 교정 방법 및 장치
KR102443087B1 (ko) 전자 기기 및 그의 음성 인식 방법
US10140976B2 (en) Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
KR101614746B1 (ko) 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
JP2015206906A (ja) 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US9378735B1 (en) Estimating speaker-specific affine transforms for neural network based speech recognition systems
US20130262090A1 (en) System and method for reducing semantic ambiguity
US9870769B2 (en) Accent correction in speech recognition systems
KR100490406B1 (ko) 음성 명령어 처리 장치 및 방법
JP2018200452A (ja) 音声認識装置および音声認識方法
CN104239043B (zh) 指令的执行方法和装置
JP5326549B2 (ja) 音声認識装置及び方法
KR101394422B1 (ko) 음성 인식 방법 및 그 장치
JP4854732B2 (ja) 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
CN113454575A (zh) 利用音频信号模式的触觉信号产生方法及装置
KR102067973B1 (ko) 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법
CN111222322B (zh) 信息处理方法和电子设备
US20220199083A1 (en) Command analysis device, command analysis method, and program
KR102187528B1 (ko) 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
JP6811865B2 (ja) 音声認識装置および音声認識方法
JP6494879B2 (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 6