KR20190056115A - 차량의 음성인식 시스템 및 방법 - Google Patents

차량의 음성인식 시스템 및 방법 Download PDF

Info

Publication number
KR20190056115A
KR20190056115A KR1020170153220A KR20170153220A KR20190056115A KR 20190056115 A KR20190056115 A KR 20190056115A KR 1020170153220 A KR1020170153220 A KR 1020170153220A KR 20170153220 A KR20170153220 A KR 20170153220A KR 20190056115 A KR20190056115 A KR 20190056115A
Authority
KR
South Korea
Prior art keywords
command
voice
instruction
speech recognition
paging
Prior art date
Application number
KR1020170153220A
Other languages
English (en)
Other versions
KR102417899B1 (ko
Inventor
조재민
김비호
Original Assignee
현대자동차주식회사
기아자동차주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아자동차주식회사 filed Critical 현대자동차주식회사
Priority to KR1020170153220A priority Critical patent/KR102417899B1/ko
Publication of KR20190056115A publication Critical patent/KR20190056115A/ko
Application granted granted Critical
Publication of KR102417899B1 publication Critical patent/KR102417899B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

본 발명의 음성인식 시스템은 사용자로부터 명령어를 수신하는 입력부 및 상기 명령어에 포함된 호출명령어를 인식하는 제1음성인식엔진 및 상기 호출명령어 및 음성명령어를 인식하는 제2음성인식엔진을 포함하고, 상기 제1음성인식엔진 및 상기 제2음성인식엔진을 동시에 구동하여 상기 명령어를 인식하는 제어부를 포함하는 것을 특징으로 하여, 사용자로부터 호출명령어와 음성명령어가 연속적으로 입력된 경우에도 호출명령어와 음성명령어가 동시에 검색되도록 하여 명령어를 실행하기 위한 반응시간을 절약할 수 있다.

Description

차량의 음성인식 시스템 및 방법{APPARATUS AND METHOD FOR RECOGNIZING VOICE OF VEHICLE}
본 발명은 차량의 음성인식 시스템 및 방법에 관한 것으로, 보다 자세하게는 호출명령어 및 음성명령어를 동시에 인식할 수 있도록 음성인식엔진이 병렬로 구성된 차량의 음성인식 시스템 및 방법에 관한 것이다.
최근 입력장치를 통해 직접 문자나 단축기를 통해 제어하던 방식에서 벗어나, 사용자의 환경에 따라 편리하게 음성을 이용하여 기기들을 제어하는 음성 인식 기술이 개발되고 있다.
즉, 음성인식기술은 자동적으로 음성인식장치를 통해 사용자로부터 발화된 음성으로부터 언어적 의미, 내용을 식별하는 것으로서, 구체적으로 음성 신호를 입력하여 단어나 문장을 식별하고 처리하는 과정을 나타낸다.
이러한 음성인식기술은 차량에 적용되어 음성인식을 통해 차량에서 구현 가능한 일부 기능들이 수행되도록 하고 있다. 예를들면, 자동차에 구비되는 파워 윈도우, 와이퍼, 비상램프, 에어컨, 오디오 장치를 제어하거나, 길 안내를 요청하거나, 전화를 거는 기능 등이 음성인식 기술을 통해 구현되고 있다.
이를 위하여, 음성인식장치는 호출명령어를 입력받아 음성인식 기능을 활성화시키고, 음성인식이 활성화되면 음성명령어를 입력받아 음성인식이 수행되도록 하였다.
그러나, 매번 호출명령어 이후 묵음을 감지하고, 음성명령어를 입력받는 일련의 과정을 반복하고, 입력된 음성명령어를 서버로 송신해야하므로 음성인식의 결과값을 응답받는 응답시간이 길어지는 한계가 있다. 또한, 호출명령어와 음성명령어 사이에 묵음이 없이 연속적으로 입력되는 경우, 호출명령어만 인식이되고, 호출명령어 이후에 수신된 음성명령어에 대해서는 인식되지 않는 경우가 발생하여 음성인식이 실패되는 한계가 있다.
한편, 최근에는 호출명령어를 활용하여 차량 내에서 음성을 인식하는 방법이 다양화되고 있으며, 호출명령어를 인식하기 위한 음성인식장치의 성능향상이 요구되고 있다.
그러나, 음성인식장치의 호출명령어의 인식률과 거절률은 트레이드 오프 관계에 있어서, 호출명령어의 인식률을 향상시키기 위해 신뢰도 스코어를 최소화하게 되는 경우 음성인식의 거절률이 낮아지고, 호출명령어의 거절률을 향상시키는 경우 인식률이 낮아지는 한계가 있다. 이에, 호출명령어의 인식률과 거절률을 조절하여 호출명령어가 인식되도록 하는 기술도 요구되는 실정이다.
본 발명은 상술한 한계점을 극복하기 위한 것으로, 호출명령어를 명확하게 인식하고, 호출명령어와 음성명령어가 동시에 처리되도록 하는 차량의 음성인식 시스템 및 방법을 제공하는데 목적이 있다.
본 발명의 차량의 음성인식 시스템은 사용자로부터 명령어를 수신하는 입력부 및 상기 명령어에 포함된 호출명령어를 인식하는 제1음성인식엔진 및 상기 호출명령어 및 음성명령어를 인식하는 제2음성인식엔진을 포함하고, 상기 호출명령어 및 상기 음성명령어가 연속적으로 수신되면, 상기 제1음성인식엔진 및 상기 제2음성인식엔진을 동시에 구동하여 상기 명령어를 인식하는 제어부를 포함하는 것을 특징으로 한다.
그리고, 상기 제2음성인식엔진은 상기 호출명령어 및 상기 음성명령어 사이에 묵음이 존재하는 경우 및 상기 묵음이 존재하지 않는 경우를 포함하여 구성된 컨텍스트(context)를 기반으로 상기 명령어를 인식하는 것을 특징으로 한다.
그리고, 상기 제2음성인식엔진은 상기 컨텍스트(context)의 문자소(Grapheme)를 음소(Phoneme)로 변환하는 변환부를 포함하는 것을 특징으로 한다.
그리고, 상기 제어부는 상기 호출명령어의 인식률이 임계치 미만인 경우 상기 명령어의 인식이 실패한 것으로 판단하는 것을 특징으로 한다.
그리고, 상기 제어부는 상기 호출명령어가 수신된 이후 추가로 수신된 음성이 존재하지 않는 경우, 상기 음성명령어를 수신하도록 하는 것을 특징으로 한다.
그리고, 상기 제어부는 상기 호출명령어가 수신된 이후 수신된 음성이 존재하지 않는 경우, 상기 제2음성인식엔진의 구동을 종료하는 것을 특징으로 한다.
그리고, 상기 제어부는 상기 제1음성인식엔진 및 상기 제2음성인식엔진의 음성인식 결과에 상기 호출명령어가 포함되지 않으면 상기 명령어의 인식이 실패한 것으로 판단하는 것을 특징으로 한다.
그리고, 상기 제1음성인식엔진 및 상기 제2음성인식엔진의 음성인식 결과에 상기 호출명령어가 포함되면, 상기 호출명령어를 삭제하고 상기 음성명령어가 실행되도록 하는 것을 특징으로 한다.
본 발명의 차량의 음성인식 방법은 사용자로부터 명령어를 수신하는 단계와, 호출명령어 및 음성명령어가 연속적으로 수신되면, 상기 호출명령어를 인식하는 제1음성인식엔진 및 상기 호출명령어 및 음성명령어를 인식하는 제2음성인식엔진을 동시에 구동하여 상기 명령어를 인식하는 단계와, 상기 명령어의 음성인식결과에 상기 호출명령어가 포함되는지 판단하는 단계 및 상기 명령어의 음성인식결과로부터 상기 호출명령어를 삭제하고 상기 음성명령어를 실행하는 단계를 포함하는 것을 특징으로 한다.
그리고, 상기 명령어를 인식하는 단계는 상기 호출명령어 및 상기 음성명령어 사이에 묵음이 존재하는 경우 및 상기 묵음이 존재하지 않는 경우를 포함하여 구성된 컨텍스트를 기반으로 상기 제2음성인식엔진을 구동하여 상기 명령어를 인식하는 것을 수행하는 것을 특징으로 한다.
그리고, 상기 명령어를 인식하는 단계는 상기 컨텍스트(context)의 문자소(Grapheme)를 음소(Phoneme)로 변환하여 상기 명령어를 인식하는 것을 특징으로 한다.
그리고, 상기 명령어를 인식하는 단계 이후, 상기 호출명령어의 인식률이 임계치 이상인지 판단하는 단계 및 상기 호출명령어의 인식률이 임계치 이상이면, 수신된 호출명령어 이후 추가로 수신된 음성이 존재하는지 판단하는 단계를 더 수행하는 것을 특징으로 한다.
그리고, 상기 호출명령어의 인식률이 임계치 이상인지 판단하는 단계에서, 상기 호출명령어의 인식률이 임계치 미만인 경우 상기 명령어의 인식이 실패한 것으로 판단하는 것을 특징으로 한다.
그리고, 상기 호출명령어의 인식률이 임계치 이상이면, 수신된 호출명령어 이후 추가로 수신된 음성이 존재하는지 판단하는 단계에서, 상기 호출명령어가 수신된 이후 수신된 음성이 존재하지 않는 경우, 상기 제2음성인식엔진의 구동을 종료하는 것을 특징으로 한다.
그리고, 상기 명령어의 음성인식결과에 상기 호출명령어가 포함되는지 판단하는 단계에서, 상기 제1음성인식엔진 및 상기 제2음성인식엔진의 음성인식 결과에 상기 호출명령어가 포함되지 않으면 상기 명령어의 인식이 실패한 것으로 판단하는 것을 특징으로 한다.
본 발명의 차량의 음성인식 시스템 및 방법은 사용자로부터 호출명령어와 음성명령어가 연속적으로 입력된 경우에도 제1음성인식엔진 및 제2음성인식엔진을 구동하여 호출명령어와 음성명령어가 동시에 처리되도록 하여 명령어를 실행하기 위한 반응시간을 절약할 수 있다.
또한, 본 발명의 차량의 음성인식 시스템 및 방법은 호출명령어와 음성명령어 사이에 묵음이 존재하지 않는 경우에도 음성인식이 이루어지도록 할 수 있다.
또한, 본 발명의 차량의 음성인식 시스템 및 방법은 호출명령어의 인식률이 낮은 경우 거절하여 호출명령어의 인식률을 향상시킬 수 있다.
도 1은 본 발명의 차량의 음성인식 시스템을 나타낸 도면이다.
도 2는 본 발명의 제2음성인식엔진의 구성을 나타낸 도면이다.
도 3은 본 발명의 차량의 음성인식방법을 나타낸 순서도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 차량의 음성인식장치를 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명의 음성인식장치는 입력부(10), 제어부(20), 메모리(50) 및 통신부(60)를 포함할 수 있다.
입력부(10)는 사용자의 명령어를 수신할 수 있다. 실시예에 따르면, 입력부(10)는 마이크로폰을 포함할 수 있으며, 마이크로폰을 통해 수신된 명령어를 전기적신호로 변환할 수 있다. 여기서, 입력부(10)에 수신된 명령어는 호출명령어 및 음성명령어가 연속되는 자연어를 포함할 수 있다.
제어부(20)는 제1음성인식엔진(30) 및 제2음성인식엔진(40)을 포함할 수 있다. 제1음성인식엔진 및 제2음성인식엔진은 음성 활성화 감지(Voice Activity Detection)방식을 이용하여 음성인식을 수행할 수 있다. 음성 활성화 감지 방식은 음성인식 이전에 전처리를 수행하고, 수신된 음성에서 음성 활동 구간을 검출한 후, 음성인식하는 것을 의미할 수 있다. 음성 활성화 감지는 음성 신호만이 음성 인식기로 입력되도록 함으로써 음성 신호가 아닌 노이즈 신호에 의해 음성 인식기가 오작동하는 것을 막을 수 있다.
제어부(40)는 제1음성인식엔진(30)은 호출명령어를 인식할 수 있고, 제2음성인식엔진(40)은 호출명령어 및 음성명령어를 인식할 수 있다. 입력부(10)에서 사용자로부터 명령어를 수신하면, 제1음성인식엔진 및 제2음성인식엔진을 구동시켜 호출명령어 및 음성명령어가 동시에 인식되도록 할 수 있다.
여기서, 호출명령어는 음성인식장치를 활성화시키기 위한 명령어를 포함할 수 있고, 음성명령어는 네트워크를 통해 음성인식이 이루어지도록 하는 명령어를 포함할 수 있다. 보다 구체적으로 음성명령어는 사용자가 소정의 기능을 실행하기 위한 명령어를 포함할 수 있다. 예를들면, 호출명령어는 '하이 제네시스'를 포함할 수 있다. 그리고, 음성명령어는 '오늘 날씨 어때?'를 포함할 수 있다.
본 발명의 제2음성인식엔진(40)은 호출명령어 및 음성명령어를 인식하도록 컨텍스트를 구성하고, 음향모델을 이용하여 음성인식이 되도록 할 수 있다. 보다 자세하게 제2음성인식엔진(40)의 구성은 도 2를 참조하여 설명한다.
도 2를 참조하면, 본 발명의 제2음성인식엔진(40)은 호출명령어 및 음성명령어를 인식하도록 하기 위해, 호출명령어와 음성명령어가 조합된 컨텍스트를 이용하여 음성인식을 수행할 수 있다. 실시예에 따르면, 컨텍스트는 호출명령어와 음성명령어 사이에 묵음이 있는 경우와 묵음이 없는 경우를 가정하여 구성될 수 있다. 즉, 호출명령어-묵음-음성명령어, 호출명령어-음성명령어의 구성을 갖는 컨텍스트를 구성할 수 있다.
제2음성인식엔진(40)의 변환부(41)는 미리 구성된 컨텍스트(context)의 문자소(Grapheme)를 음소(Phoneme)로 변환하는 것으로, 컨텍스트의 문자소를 음소단위로 변환할 수 있다. 따라서, 컨텍스트의 문자를 음성인식의 발음열로 변환할 수 있다.
제2음성인식엔진(40)의 음성인식부(42)는 기 저장된 음향모델을 이용하여 음성인식을 할 수 있다. 음향모델은 사용자들의 음성으로 학습된 음소 기반의 확률모델을 의미할 수 있다. 참고로, 음향모델은 음색, 음역 등에 기초하여 다양하게 설계된 음성데이터 중에서 가장 표준에 가까운 데이터에 기초하여 설계될 수 있다. 따라서, 음향모델은 각각 음색이나 음역에 의해 구별될 수 있다. 예를들면, 음향모델은 남성과 여성의 음색 또는 음역에 따라 구별되어 생성될 수 있다.
음성인식부(42)는 호출명령어 및 음성명령어가 조합된 컨텍스트 및 음향모델을 기반으로 입력부(10)에서 수신된 음성을 인식할 수 있다. 하지만, 이에 한정되는 것은 아니다.
다시 도 1을 참조하면, 제어부(40)는 제1음성인식엔진 및 제2음성인식엔진을 동시에 구동시켜 호출명령어 및 음성명령어가 동시에 인식되도록 함으로써, 호출명령어및 음성명령어의 인식결과를 빠르게 응답받을 수 있다. 즉, 종래에는 호출명령어의 인식결과를 응답받은 이후 음성명령어의 인식결과를 받을 수 있었지만, 본 발명의 음성인식장치는 호출명령어가 인식됨과 동시에 음성명령어가 인식됨으로써 인식결과를 빠르게 응답받을 수 있다.
제어부(40)는 호출명령어의 인식률이 임계치 이상인지 판단하여, 호출명령어의 인식률이 임계치 미만이면, 호출명령어의 인식실패로 판단하여 음성인식을 중단한다. 종래에는 사용자가 '싸이 노래가 좋아'라고 발화한 경우, 호출명령어를 인식하는 엔진이 '싸이'를 '하이'로 오인식하여, '노래가 좋아'만을 음성명령어로 판단하고 서버로 전송하였다.
그러나, 본 발명의 제1음성인식엔진은 '싸이'를 호출명령어의 인식률이 임계치 미만인 것으로 판단하고, '싸이'를 '하이'로 인식하지 않아 호출명령어의 인식실패로 판단하여 음성인식을 중단할 수 있다. 그리고, 호출명령어의 인식률이 임계치 이상이면 호출명령어가 수신된 이후 추가로 수신된 음성이 존재하는지 판단할 수 있다.
일 실시예에 따라 입력부(10)가 '하이 제네시스-홍길동 전화걸기'라는 음성이 수신한 경우, 본 발명에 따른 제1음성인식엔진은 '하이 제네시스'를 호출명령어로 인식하고, 제어부(40)는 '하이 제네시스' 이후에 추가로 수신된 음성이 존재하는 것으로 판단할 수 있다.
이 경우, 제2음성인식엔진은 호출명령어 및 음성명령어를 모두 인식할 수 있기 때문에 '하이 제네시스-홍길동 전화걸기'를 동시에 인식할 수 있다. 여기서, 제2음성인식엔진은 호출명령어 및 음성명령어 사이에 묵음이 존재하지 않는 경우에도 인식할 수 있도록 설계되었기 때문에 '하이 제네세스'와 '홍길동 전화걸기'사이에 묵음이 존재하지 않더라도 인식가능하다.
다른 실시예에 따라 입력부(10)에 '하이 제네시스'라는 음성이 수신된 경우, 제1음성인식엔진은 호출명령어를 인식하였지만, 호출명령어 이후 수신된 음성이 존재하지 않는다고 판단할 수 있으며, 이 경우에는 음성명령어의 수신을 대기하고, 제2음성인식엔진의 구동을 종료하도록 할 수 있다.
제어부(40)는 입력부(10)에서 수신된 명령어가 제1음성인식엔진 및 제2음성인식엔진에서 인식된 경우, 인식결과(dictation 결과)에 호출명령어가 포함되었는지 판단할 수 있다. 또한, 음성명령어의 인식률이 임계치 이상인지 판단할 수 있다. 인식결과에 호출명령어가 포함되지 않거나, 음성명령어의 인식률이 임계치 미만인 것으로 판단한 경우 음성인식이 실패한 것으로 판단할 수 있다.
한편, 제어부(40)는 인식결과에 호출명령어가 포함되거나 음성명령어의 인식률이 임계치 이상인 것으로 판단한 경우, 호출명령어를 인식결과에서 삭제하고 명령어 결과를 표시할 수 있다. 여기서 명령어 결과는 음성명령어의 실행결과를 의미할 수 있다.
메모리(50)는 호출명령어 및 음성명령어의 조합으로 구성된 컨텍스트가 저장될 수 있고, 사용자의 음성으로 설계된 음향모델이 저장될 수 있다. 메모리(50)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기메모리, 자기 디스크, 또는 광디스크 타입의 저장매체를 포함할 수 있다.
통신부(60)는 무선통신망 또는 유선통신망에 통해 외부기기와 각종 데이터를 주고 받을 수 있다. 여기서, 무선통신망은 데이터가 포함된 신호를 무선으로 주고 받을 수 있는 통신망을 의미한다. 예를 들어, 무선통신망은 3G 통신망, 4G 통신망뿐만 아니라 블루투스 통신망 등을 포함할 수 있다. 유선통신망은 데이터가 포함된 신호를 유선으로 주고 받을 수 있는 통신망을 의미한다. 예를 들어, 유선통신망은 PCI(Peripheral Component Interconnect), PCI-express, USB(Universe Serial Bus) 등을 포함할 수 있다.
통신부(60)는 통신망을 통해 사용자의 음성 명령 또는 음성 명령에 관한 분석 결과를 서버에 송신할 수 있으며, 서버로부터 이에 관한 처리 결과를 수신할 수 있다. 하지만 이에 한정되는 것은 아니다. 여기서, 서버는 음성인식서버를 포함할 수 있고, 대어휘(large vocabulary)를 검색할 수 있도록 구성될 수 있다.
참고로, 통신부(60)는 음성인식서버로부터 입력 받은 음성 명령을 전달하거나 또는 이에 관한 파형, 음소 시퀀스 등 다양한 분석 결과를 전달할 수 있다. 이에 따라 서버는 이를 기초로 음성 명령을 인식하고, 음성인식에 관한 처리 결과를 전달할 수 있다.
도 3은 본 발명의 음성인식방법을 나타낸 순서도이다.
도 3에 도시된 바와 같이, 먼저 사용자로부터 명령어를 수신한다(S100). S100에서 수신되는 명령어는 호출명령어 및 음성명령어가 연속되는 자연어를 포함할 수 있다. 여기서 호출명령어는 음성인식장치를 활성화시키기 위한 명령어일 수 있으며, 음성명령어는 네트워크를 통해 서버에서 음성인식이 이루어지도록 하는 명령어를 포함할 수 있다. 보다 구체적으로 음성명령어는 사용자가 소정의 기능을 실행하기 위한 명령어를 포함할 수 있다.
수신된 명령어에 대하여 호출명령어 및 음성명령어를 동시에 인식하기 위하여, 제1음성인식엔진 및 제2음성인식엔진을 동시에 구동한다(S110,S120). 제1음성인식엔진은 호출명령어를 인식할 수 있고, 제2음성인식엔진은 호출명령어 및 음성명령어를 인식할 수 있다.
호출명령어의 인식률이 임계치 이상인지 판단한다(S130). S130에서 호출명령어의 인식률이 임계치 미만(No)이면, 호출명령어의 인식실패로 판단하여 음성인식을 중단한다. 실시예에 따르면 입력부가 '싸이 노래가 좋아'를 수신한 경우, 본 발명의 제1음성인식엔진은 '싸이'를 호출명령어의 인식률이 임계치 미만인 것으로 판단하여 '싸이'를 호출명령어로 인식하지 않고, 호출명령어의 인식실패로 판단하여 음성인식을 중단할 수 있다.
S130에서 호출명령어의 인식률이 임계치 이상(Yes)이면 호출명령어가 수신된 이후 추가로 수신된 음성이 존재하는지 판단한다(S140). 실시예에 따르면, 입력부가 '하이 제네시스-홍길동 전화걸기'를 수신한 경우, 호출명령어가 수신된 이후 추가로 수신된 음성이 존재하는 것으로 판단할 수 있다. 호출명령어가 수신된 이후 추가로 수신된 음성이 존재하지 않는 경우에는 음성명령어를 수신하도록 하고, S120을 종료할 수 있다.
S110 및 S120에서 수행된 음성인식의 결과(dictation 결과)에 호출명령어가 포함되었는지 판단한다(S150). S150 단계에서는 S120에서 수행된 음성명령어의 인식률이 임계치 이상인지 판단할 수 있다.
S150에서 호출명령어가 포함된 것으로 판단되거나 음성명령어의 인식률이 임계치 이상인 것으로 판단되는 경우, 호출명령어를 인식결과에서 삭제한다(S170). S170는 사용자로부터 수신된 명령어의 인식결과로부터 호출명령어를 삭제하여, 음성명령어에 대해서만 실행되도록 하는 것으로 이해될 수 있다.
그리고, 명령어의 실행결과를 표시한다(S180). 명령어의 실행 결과는 음성명령어의 실행결과를 의미할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
입력부 10
제어부 20
제1음성인식엔진 30
제2음성인식엔진 40
메모리 50
통신부 60

Claims (15)

  1. 사용자로부터 명령어를 수신하는 입력부; 및
    상기 명령어에 포함된 호출명령어를 인식하는 제1음성인식엔진 및 상기 호출명령어 및 음성명령어를 인식하는 제2음성인식엔진을 포함하고, 상기 호출명령어 및 상기 음성명령어가 연속적으로 수신되면, 상기 제1음성인식엔진 및 상기 제2음성인식엔진을 동시에 구동하여 상기 명령어를 인식하는 제어부를 포함하는 것을 특징으로 하는 차량의 음성인식 시스템.
  2. 청구항 1에 있어서,
    상기 제2음성인식엔진은
    상기 호출명령어 및 상기 음성명령어 사이에 묵음이 존재하는 경우 및 상기 묵음이 존재하지 않는 경우를 포함하여 구성된 컨텍스트(context)를 기반으로 상기 명령어를 인식하는 것을 특징으로 하는 차량의 음성인식 시스템.
  3. 청구항 1에 있어서,
    상기 제2음성인식엔진은
    상기 컨텍스트(context)의 문자소(Grapheme)를 음소(Phoneme)로 변환하는 변환부를 포함하는 것을 특징으로 하는 차량의 음성인식 시스템.
  4. 청구항 1에 있어서,
    상기 제어부는
    상기 호출명령어의 인식률이 임계치 미만인 경우 상기 명령어의 인식이 실패한 것으로 판단하는 것을 특징으로 하는 차량의 음성인식 시스템.
  5. 청구항 1에 있어서,
    상기 제어부는
    상기 호출명령어가 수신된 이후 추가로 수신된 음성이 존재하지 않는 경우, 상기 음성명령어를 수신하도록 하는 것을 특징으로 하는 차량의 음성인식 시스템.
  6. 청구항 1에 있어서,
    상기 제어부는
    상기 호출명령어가 수신된 이후 수신된 음성이 존재하지 않는 경우, 상기 제2음성인식엔진의 구동을 종료하는 것을 특징으로 하는 차량의 음성인식 시스템.
  7. 청구항 1에 있어서,
    상기 제어부는
    상기 제1음성인식엔진 및 상기 제2음성인식엔진의 음성인식 결과에 상기 호출명령어가 포함되지 않으면 상기 명령어의 인식이 실패한 것으로 판단하는 것을 특징으로 하는 차량의 음성인식 시스템.
  8. 청구항 1에 있어서,
    상기 제어부는
    상기 제1음성인식엔진 및 상기 제2음성인식엔진의 음성인식 결과에 상기 호출명령어가 포함되면, 상기 호출명령어를 삭제하고 상기 음성명령어가 실행되도록 하는 것을 특징으로 하는 차량의 음성인식 시스템.
  9. 사용자로부터 명령어를 수신하는 단계;
    호출명령어 및 음성명령어가 연속적으로 수신되면, 상기 호출명령어를 인식하는 제1음성인식엔진 및 상기 호출명령어 및 음성명령어를 인식하는 제2음성인식엔진을 동시에 구동하여 상기 명령어를 인식하는 단계;
    상기 명령어의 음성인식결과에 상기 호출명령어가 포함되는지 판단하는 단계; 및
    상기 명령어의 음성인식결과로부터 상기 호출명령어를 삭제하고 상기 음성명령어를 실행하는 단계를 포함하는 것을 특징으로 하는 차량의 음성인식 방법.
  10. 청구항 9에 있어서,
    상기 명령어를 인식하는 단계는
    상기 호출명령어 및 상기 음성명령어 사이에 묵음이 존재하는 경우 및 상기 묵음이 존재하지 않는 경우를 포함하여 구성된 컨텍스트를 기반으로 상기 제2음성인식엔진을 구동하여 상기 명령어를 인식하는 것을 수행하는 것을 특징으로 하는 차량의 음성인식 방법.
  11. 청구항 10에 있어서,
    상기 명령어를 인식하는 단계는
    상기 컨텍스트(context)의 문자소(Grapheme)를 음소(Phoneme)로 변환하여 상기 명령어를 인식하는 것을 특징으로 하는 차량의 음성인식 방법.
  12. 청구항 9에 있어서,
    상기 명령어를 인식하는 단계 이후,
    상기 호출명령어의 인식률이 임계치 이상인지 판단하는 단계; 및
    상기 호출명령어의 인식률이 임계치 이상이면, 수신된 호출명령어 이후 추가로 수신된 음성이 존재하는지 판단하는 단계를 더 수행하는 것을 특징으로 하는 차량의 음성인식 방법.
  13. 청구항 12에 있어서,
    상기 호출명령어의 인식률이 임계치 이상인지 판단하는 단계에서,
    상기 호출명령어의 인식률이 임계치 미만인 경우 상기 명령어의 인식이 실패한 것으로 판단하는 것을 특징으로 하는 차량의 음성인식 방법.
  14. 청구항 12에 있어서,
    상기 호출명령어의 인식률이 임계치 이상이면, 수신된 호출명령어 이후 추가로 수신된 음성이 존재하는지 판단하는 단계에서,
    상기 호출명령어가 수신된 이후 수신된 음성이 존재하지 않는 경우, 상기 제2음성인식엔진의 구동을 종료하는 것을 특징으로 하는 차량의 음성인식 방법.
  15. 청구항 9에 있어서,
    상기 명령어의 음성인식결과에 상기 호출명령어가 포함되는지 판단하는 단계에서,
    상기 제1음성인식엔진 및 상기 제2음성인식엔진의 음성인식 결과에 상기 호출명령어가 포함되지 않으면 상기 명령어의 인식이 실패한 것으로 판단하는 것을 특징으로 하는 차량의 음성인식 방법.
KR1020170153220A 2017-11-16 2017-11-16 차량의 음성인식 시스템 및 방법 KR102417899B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170153220A KR102417899B1 (ko) 2017-11-16 2017-11-16 차량의 음성인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170153220A KR102417899B1 (ko) 2017-11-16 2017-11-16 차량의 음성인식 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190056115A true KR20190056115A (ko) 2019-05-24
KR102417899B1 KR102417899B1 (ko) 2022-07-07

Family

ID=66680368

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170153220A KR102417899B1 (ko) 2017-11-16 2017-11-16 차량의 음성인식 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102417899B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021015319A1 (ko) * 2019-07-22 2021-01-28 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150022786A (ko) * 2012-04-26 2015-03-04 뉘앙스 커뮤니케이션즈, 인코포레이티드 사용자 정의 제약 조건으로 소형 풋프린트 음성 인식을 구성하는 임베디드 시스템
EP3032535A1 (en) * 2014-12-11 2016-06-15 MediaTek, Inc Voice wakeup detecting device and method
KR20160100765A (ko) * 2015-02-16 2016-08-24 삼성전자주식회사 전자 장치 및 음성 인식 기능 운용 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150022786A (ko) * 2012-04-26 2015-03-04 뉘앙스 커뮤니케이션즈, 인코포레이티드 사용자 정의 제약 조건으로 소형 풋프린트 음성 인식을 구성하는 임베디드 시스템
EP3032535A1 (en) * 2014-12-11 2016-06-15 MediaTek, Inc Voice wakeup detecting device and method
KR20160100765A (ko) * 2015-02-16 2016-08-24 삼성전자주식회사 전자 장치 및 음성 인식 기능 운용 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021015319A1 (ko) * 2019-07-22 2021-01-28 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Also Published As

Publication number Publication date
KR102417899B1 (ko) 2022-07-07

Similar Documents

Publication Publication Date Title
US11817094B2 (en) Automatic speech recognition with filler model processing
KR101986354B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
CN113327609B (zh) 用于语音识别的方法和装置
EP0653701B1 (en) Method and system for location dependent verbal command execution in a computer based control system
KR101422020B1 (ko) 음성 인식 방법 및 장치
KR20190001434A (ko) 발화 인식 모델을 선택하는 시스템 및 전자 장치
US11004453B2 (en) Avoiding wake word self-triggering
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
CN113272893A (zh) 用于多口语检测的系统和方法
CN107949880A (zh) 车载用语音识别装置以及车载设备
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
KR20190096308A (ko) 전자기기
US20150310853A1 (en) Systems and methods for speech artifact compensation in speech recognition systems
CN107680592B (zh) 一种移动终端语音识别方法、及移动终端及存储介质
US20200111493A1 (en) Speech recognition device and speech recognition method
JP2016061888A (ja) 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
CN110580901A (zh) 语音识别设备、包括该设备的车辆及该车辆控制方法
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
KR102061206B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
CN110400568B (zh) 智能语音系统的唤醒方法、智能语音系统及车辆
WO2014108981A1 (ja) 車載情報システムおよび音声認識適応方法
JP5157596B2 (ja) 音声認識装置
CN110265018B (zh) 一种连续发出的重复命令词识别方法
JP6811865B2 (ja) 音声認識装置および音声認識方法
US20150039312A1 (en) Controlling speech dialog using an additional sensor

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right