KR20200053242A - 차량용 음성 인식 시스템 및 그 제어 방법 - Google Patents

차량용 음성 인식 시스템 및 그 제어 방법 Download PDF

Info

Publication number
KR20200053242A
KR20200053242A KR1020180136625A KR20180136625A KR20200053242A KR 20200053242 A KR20200053242 A KR 20200053242A KR 1020180136625 A KR1020180136625 A KR 1020180136625A KR 20180136625 A KR20180136625 A KR 20180136625A KR 20200053242 A KR20200053242 A KR 20200053242A
Authority
KR
South Korea
Prior art keywords
recognition
voice
result
speech recognition
vehicle
Prior art date
Application number
KR1020180136625A
Other languages
English (en)
Inventor
신용진
Original Assignee
현대자동차주식회사
기아자동차주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아자동차주식회사 filed Critical 현대자동차주식회사
Priority to KR1020180136625A priority Critical patent/KR20200053242A/ko
Publication of KR20200053242A publication Critical patent/KR20200053242A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Abstract

본 발명은 보다 정확한 음성 인식을 위해 복수의 음성 인식 결과를 효과적으로 조합할 수 있는 차량용 음성인식 시스템 및 그 제어 방법에 관한 것이다. 본 발명의 일 실시예에 따른 음성 인식 방법은, 메시지 전송을 위한 발화자의 음성 데이터를 획득하는 단계; 상기 음성 데이터를 기반으로 폰북에 접근 가능하며, 차량 내부에서 구동되는 제1 음성 인식 엔진에서 제1 음성 인식을 수행하는 단계; 상기 음성 데이터를 기반으로 차량 외부에서 구동되는 제2 음성 인식 엔진에서 제2 음성 인식을 수행하는 단계; 및 상기 제1 음성 인식의 결과인 제1 인식 결과와 상기 제2 음성 인식의 결과인 제2 인식 결과가 획득되면, 적어도 상기 제1 인식 결과에 포함된 이름(Name) 정보와 상기 제2 인식 결과에 포함된 바디(SMS body) 정보를 이용하여 최종 인식 결과를 결정하는 단계를 포함할 수 있다.

Description

차량용 음성 인식 시스템 및 그 제어 방법{VOICE RECOGNITION SYSTEM FOR VEHICLE AND METHOD OF CONTROLLING THE SAME}
본 발명은 보다 정확한 음성 인식을 위해 복수의 음성 인식 결과를 효과적으로 조합할 수 있는 차량용 음성인식 시스템 및 그 제어 방법에 관한 것이다.
최근 음성 인식 기술의 발달로 인해 인식률이 높아짐에 따라, 음성 인식 기술의 적용 대상이 확대되고 있다. 이러한 적용 대상의 대표적인 예로 차량을 들 수 있다. 차량에서의 음성 인식은 손을 사용할 필요가 없어 보다 운전에 집중할 수 있도록 하며, 문자 메시지 작성과 같이 조작량이 많을 경우 특히 유용하다.
차량에서의 음성 인식은 크게 차량에 구비된 음성 인식 엔진, 예컨대 AVN(Audio/Video/Navigation) 시스템 또는 헤드 유닛(H/U)에서 구동되는 음성 인식 엔진을 이용하는 방법과 음성 데이터를 지정된 서버에 전송하면, 서버에서 음성 인식 결과를 리턴하는 방식의 서버 기반 음성 인식 엔진을 이용하는 방법으로 구분될 수 있다.
그런데, 일반적인 AVN 시스템에서 구동되는 음성 인식 엔진은 자유 발화에 대한 인식률 자체가 서버 기반 음성 인식 엔진 대비 떨어지는 경향이 있다. 반면에, 서버 기반 음성 인식 엔진은 자유 발화에 대한 음성 인식률은 비교적 높은 편이나, 문자 메시지 전송을 위한 음성 인식에 있어서는 발화 내용 중 문자 메시지에 대한 전송 요청과, 문자 메시지에 포함될 내용(즉, 바디)에 대한 구분을 정확히 하지 못하는 문제가 있다.
예를 들어, 발화 내용이 'Send message to Morrow "I am on the way".'와 같은 문장의 경우, 'Send message to Morrow'가 메시지 전송 요청에 해당하고, '"I am on the way"'가 메시지 바디에 해당한다. 그런데, 'To'와 'Morrow'를 서버가 'tomorrow'란 하나의 단어로 인식할 경우(즉, 이름과 유사하되 사용 빈도가 높은 단어가 있을 경우), 서버 기반 음성 인식 엔진의 음성 인식 결과는 'Send message "Tomorrow I am on the way".'와 같이 된다. 결국, 차량에서는 서버의 인식 결과를 그대로 사용할 경우 Morrow에게 "Tomorrow I am on the way" 라는 메시지를 전송하게 되는 문제점이 있다.
본 발명은 차량 환경에서 음성 인식을 수행함에 있어서, 보다 높은 인식률을 갖는 차량용 음성 인식 시스템 및 그 제어 방법을 제공하기 위한 것이다.
특히, 본 발명은 특정 서비스의 실행 요청에 대응되는 음성 명령에 대한 인식률을 높이기 위한 차량용 음성 인식 시스템 및 그 제어 방법을 제공하기 위한 것이다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 방법은, 메시지 전송을 위한 발화자의 음성 데이터를 획득하는 단계; 상기 음성 데이터를 기반으로 폰북에 접근 가능하며, 차량 내부에서 구동되는 제1 음성 인식 엔진에서 제1 음성 인식을 수행하는 단계; 상기 음성 데이터를 기반으로 차량 외부에서 구동되는 제2 음성 인식 엔진에서 제2 음성 인식을 수행하는 단계; 및 상기 제1 음성 인식의 결과인 제1 인식 결과와 상기 제2 음성 인식의 결과인 제2 인식 결과가 획득되면, 적어도 상기 제1 인식 결과에 포함된 이름(Name) 정보와 상기 제2 인식 결과에 포함된 바디(SMS body) 정보를 이용하여 최종 인식 결과를 결정하는 단계를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 차량용 음성 인식 시스템은, 메시지 전송을 위한 발화자의 음성 명령어를 입력받는 마이크; 및 상기 음성 명령어에 대응되는 음성 데이터를 획득하고, 상기 음성 데이터를 기반으로 최종 인식 결과를 결정하는 음성 인식 장치를 포함하되, 상기 음성 인식 장치는 상기 음성 데이터를 기반으로 폰북에 접근 가능한 제1 음성 인식 엔진을 통해 제1 음성 인식을 수행하여 제1 인식 결과를 획득하는 제어부; 및 상기 음성 데이터를 제2 음성 인식 엔진을 구동하는 외부 음성 인식 장치에 전달하고, 상기 제2 음성 인식 엔진에서 수행된 제2 음성 인식의 결과인 제2 인식 결과를 획득하는 통신부를 포함하되, 상기 제어부는 적어도 상기 제1 인식 결과에 포함된 이름(Name) 정보와 상기 제2 인식 결과에 포함된 바디(SMS body) 정보를 이용하여 상기 최종 인식 결과를 결정할 수 있다.
상기와 같이 구성되는 본 발명의 적어도 하나의 실시예에 의하면, 차량 환경에서 보다 인식률이 높은 음성 인식 서비스가 제공될 수 있다.
특히, 본 발명은 메시지 전송 요청에 대응되는 음성 인식을 수행함에 있어서, 폰북에 접근 가능한 음성 인식 엔진과 자유 발화 인식률이 높은 음성 인식 엔진을 각각 이용하여 인식 결과를 서로 비교함으로써 높은 인식률이 기대될 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 차량용 음성 인식 시스템 구성 및 동작의 일례를 나타내는 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템을 통한 음성 인식 결과를 출력하는 과정의 일례를 나타낸다.
도 3은 본 발명의 일 실시예에 따른 서로 다른 음성 인식 엔진에서 출력된 음성 인식 결과가 비교되는 형태의 일례를 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소들을 의미한다.
본 발명의 일 실시예에 의하면, 특정 서비스를 실행하기 위한 음성 명령이 입력되면, 서로 다른 음성 인식 엔진으로부터 음성 인식 결과를 획득하고, 각각의 음성 인식 결과를 서로 비교하여 음성 인식률을 높일 수 있는 차량용 음성 인식 시스템 및 그 제어 방법이 제공된다.
본 실시예의 일 양상에 의하면, 특정 서비스는 문자 메시지(SMS) 전송 서비스일 수 있다. 이러한 경우, 음성 명령은 크게 네 가지 부분으로 구성될 수 있다. 구체적으로, 네 부분은 각각 서비스 도메인(Domain), 의도(intention), 대상 이름(name), 그리고 바디(body)에 해당한다. 서비스 도메인은 서비스의 종류(즉, SMS 서비스)에 해당하며, 의도는 해당 서비스의 실행 형태(즉, 메시지 작성)를 의미하며, 대상 이름은 수신자에 해당하고, 바디는 메시지 자체의 내용을 의미한다. 여기서, 도메인과 의도는 비교적 정형성을 갖는 부분으로 음성 인식 엔진의 종류에 따라 인식률 차이가 크게 발생하지 아니하나, 대상 이름과 바디는 비교적 정형적이지 못하므로 음성 인식 엔진에 따른 편차가 발생한다.
구체적으로, 대상 이름의 경우, 발화자가 전화번호나 이메일 주소 등 수신처의 고유 식별 정보를 말하지 않는 이상, 폰북을 참조하게 된다. 따라서, 적어도 대상 이름은 폰북에 접근이 가능한 주체에서 구동되는 음성 인식 엔진을 통해 인식되는 것이 바람직하며, 본 실시예에서 이러한 주체는 AVN 시스템(즉, 헤드유닛)에서 구동되는(Embedded) 음성 인식 엔진이 될 수 있다. 반면에, 바디의 경우 자유 발화에 해당하는 경우가 많아 서버 기반 음성 인식 엔진의 인식률이 높다.
따라서, 본 실시예에서는 발화자의 음성 명령에 대하여, 폰북 접근이 가능한 음성 인식 엔진(이하, 편의상 '임베디드 엔진'이라 칭함)의 인식 결과에서 적어도 대상 이름을 추출하고, 서버 기반 음성 인식 엔진(이하, 편의상 '서버 엔진'이라 칭함)의 인식 결과에서는 적어도 바디를 추출하여 최종 인식 결과를 결정할 것을 제안한다. 이를 수행하기 위한 음성 인식 시스템의 구성을 도 1을 참조하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 차량용 음성 인식 시스템 구성 및 동작의 일례를 나타내는 블럭도이다.
도 1을 참조하면, 음성 인식 시스템은 크게 차량측 구성 요소와 차량 외부 구성 요소로 구분될 수 있다. 차량측 구성 요소는 마이크(110)와 헤드 유닛(120, 또는 AVN 시스템)을 포함할 수 있으며, 차량 외부 구성 요소는 중계 개체(130) 및 음성 인식 서버(140)를 포함할 수 있다.
헤드 유닛(120)은 다시 폰북 정보를 저장하는 저장부와, 임베디드 엔진을 구동하며 최종 인식 결과를 결정하는 제어부, 그리고 마이크로부터 입력된 발화자의 음성 데이터를 외부로 전송하고, 음성 인식 서버(140)가 인식한 결과(즉, 서버 인식 결과)를 수신하는 통신부(미도시)를 포함할 수 있다.
중계 개체(130)는 차량 제조사 등에서 제공하는 텔레매틱스 서버일 수 있으나, 이는 예시적인 것으로 반드시 이에 한정되는 것은 아니고, 헤드 유닛(120)과 음성 인식 서버(140) 사이에서 데이터 전송을 중계할 수 있다면 어떠한 개체에도 적용될 수 있다.
음성 인식 서버(140)는 중계 개체(130)를 통해 헤드 유닛(120)이 전송한 음성 데이터를 기반으로 음성 인식을 수행하고, 그 결과를 다시 중계 개체(130)를 통해 헤드 유닛(120)으로 전달할 수 있다. 이때, 음성 인식 서버(140)는 적어도 음성 데이터에서 바디를 추출할 수 있다.
상술한 구성 요소간의 연결 관계를 기반으로 음성 명령 처리 과정을 설명하면 다음과 같다.
먼저, 발화자가 차량 내 마이크(110)를 통해 'Send Message to Anna "I am on the way".'라는 음성 명령(210)을 발화하면, 헤드 유닛(120)에서는 해당 음성 명령을 중계 개체(130)로 전송하는 한편, 임베디드 엔진을 통해 음성 인식을 수행한다. 구체적으로, 임베디드 엔진은 해당 음성 명령(210)에 대한 도메인 판단 및 기 저장된 폰북에서 이름(Anna) 추출을 수행할 수 있다. 다만, 바디에 대한 부분은 인식이 되더라도 무시(즉, Garbage 처리)하여, 임베디드 엔진의 인식 결과, 즉, 임베디드 인식 결과(220)는 'Send Message to Anna <Garbage>'가 된다.
한편, 음성 인식 서버(140)에서는 서버 엔진을 통해 음성 인식을 수행한다. 구체적으로, 서버 엔진은 전송된 음성 데이터를 기반으로 도메인 판단, 이름 추출 (Ana) 및 바디 (I am on the way) 추출을 수행한다. 그에 따른 서버 엔진의 인식 결과, 즉, 서버 인식 결과(230)는 'Send Message to Ana "I am on the way".'가 된다.
해당 서버 인식 결과(230)가 다시 헤드 유닛(120)에 전달되면, 헤드 유닛(120)은 적어도 이름은 임베디드 인식 결과(220)의 것을 사용하고, 적어도 바디는 서버 인식 결과(230)의 것을 사용하여 최종 인식 결과(240)를 결정한다. 따라서, 최종 인식 결과(240)는 서버가 인식한 'Ana'가 아닌, 'Anna에게 "I am on the way"란 메시지를 보낼 것'이 된다.
상술한 음성 인식 시스템이 적용될 경우, 상대적으로 바디에 대한 인식률이 높은 서버가 이름을 잘못 인식하더라도, 폰북 조회가 가능한 헤드 유닛에서 인식된 이름이 최종 결과에 적용되므로 각 음성 인식 엔진의 장점이 선별적으로 조합될 수 있으므로 최종 인식률이 향상될 수 있다.
다만, 상술한 방법이 적용되더라도, 전술된 바와 같이 발화 내용이 'Send message to Morrow "I am on the way".'와 같은 문장의 경우, 서버 인식 결과의 바디가 "Tomorrow I am on the way"와 같이 될 경우, 이름이 정확히 인식되더라도 바디 내용에 오류가 있게 된다. 따라서, 본 실시예의 다른 양상에서는 임베디드 인식 결과와 서버 인식 결과를 조합하여 최종 인식 결과를 결정함에 있어 타임 스탬프 정보를 이용할 것을 제안한다.
이를 도 2 및 도 3을 참조하여 설명한다. 이하에서 설명되는 내용에서는 타임 스탬프에 관련된 내용을 제외하면, 기본적인 음성 인식 과정은 도 1을 참조하여 설명한 바와 같으므로 중복되는 설명은 생략하기로 한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템을 통한 음성 인식 결과를 출력하는 과정의 일례를 나타내고, 도 3은 본 발명의 일 실시예에 따른 서로 다른 음성 인식 엔진에서 출력된 음성 인식 결과가 비교되는 형태의 일례를 설명하기 위한 도면이다.
도 2를 참조하면, 먼저 발화자가 음성 명령어를 발화한다(S310).
발화된 음성 명령어는 마이크(110)를 통해 전기 신호로 변환되며, 헤드 유닛은 다시 이를 기반으로 음성 데이터(예를 들어, 웨이브 파일)를 생성하여 음성 인식 서버(140)로 전송한다(S320). 이때, 음성 데이터는 중계 개체(130)를 경유할 수 있음은 전술한 바와 같다.
헤드 유닛(120)에서는 임베디드 엔진의 딕테이션(Dictation)을 통해 음성 명령어에 대한 음성 인식을 수행하며, 이때, 소정 인식 단위로 타임 스탬프를 함께 추출할 수 있다(S330A). 여기서 소정 인식 단위는 단어 단위일 수 있으나, 반드시 이에 한정되는 것은 아니다. 예컨대, "Send Message to"에 대한 인식열(또는 말뭉치: Corpus)은 임베디드 엔진에 미리 저장되어 있을 것이므로 해당 인식에 대한 타임 스탬프가 추출될 수 있다.
또한, 임베디드 엔진에서는 기 저장(다운로드)된 폰북을 기반으로 폰북 검색 및 인식을 통해 이름을 추출할 수 있다(S340A).
한편, 음성 인식 서버(140)에서는 획득된 음성 데이터를 기반으로 서버 엔진의 딕테이션(Dictation)을 통한 음성 인식 및 소정 인식 단위별 타임 스탬프 추출을 수행할 수 있다(S330B). 물론, 임베디드 엔진의 경우와 같이 소정 인식 단위는 단어 단위일 수 있으나, 반드시 이에 한정되는 것은 아니다.
음성 인식 서버(140)는 딕테이션(Dictation)된 텍스트를 기반으로 바디(SMS Body)를 추출할 수 있다(S340B).
이후, 음성 인식 서버(140)는 서버 인식 결과를 차량으로 전송할 수 있다(S350). 여기서, 서버 인식 결과에는 딕테이션된 텍스트와 타임 스탬프 정보가 포함될 수 있으며, 바디를 구분하기 위한 정보가 더욱 포함될 수도 있다.
헤드 유닛(120)에서는 서버 인식 결과를 획득하면, 타임 스탬프를 기반으로 최종 인식 결과에 포함될 바디를 결정할 수 있다(S360). 본 과정은 헤드 유닛(120)의 제어부를 통해 구동되는 음성 인식(VR: Voice Recognition) 어플리케이션을 통해 수행될 수 있다. 이때, 최종 인식 결과에 포함되는 이름(Name)에 해당하는 부분은 적어도 임베디드 인식 결과에 포함된 이름인 것은 전술된 바와 같다. 구체적인 바디 결정 형태는 도 3을 참조하여 설명한다.
도 3을 참조하면, 임베디드 인식 결과에서 이름에 해당하는 부분(Morrow)는 음성 데이터의 시작을 기준으로 0.6초 내지 0.9초 사이에 위치한다. 따라서, 헤드 유닛(120)에서는 임베디드 인식 결과에서 이름에 해당하는 부분의 시점을 판단하여, 서버 인식 결과의 바디 중 0.9초 이후 부분만을 최종 인식 결과의 바디로 적용할 수 있다. 따라서, 최종 인식 결과는 'Send message to Morrow "I am on the way".'가 될 수 있다.
이러한 최종 인식 결과에 따라, 헤드 유닛(120)은 "I am on the way"라는 바디를 갖는 SMS를 폰북의 'Morrow'에 해당하는 고유 식별 주소로 전송할 수 있게 되며, 이러한 인식 결과는 헤드 유닛(120)의 출력부를 통해 출력될 수 있다(S370). 여기서, 출력부는 스피커와 디스플레이 중 적어도 하나를 포함할 수 있다. 예를 들어, 스피커를 통해서는 'Morrow에게 "I am on the way"라고 문자를 전송합니다'와 같은 음성 메시지가 출력될 수 있고, 디스플레이에는 그에 해당하는 텍스트 정보가 표시될 수 있다.
상술한 실시예에서는 음성 명령 내에서 바디가 이름(Name) 뒤에 오는 경우를 가정하였으나, 본 발명의 실시예들은 음성 명령 내에서 바디와 이름 또는 그 외의 요소의 상대적인 위치에 제한되지 아니한다. 예를 들어, 'Send message to Morrow "I am on the way".' 대신에 'Send message "I am on the way" to Morrow.'와 같은 음성 명령에도 본 실시예는 적용이 가능하다. 이는 상술한 바와 같이 자연어 음성인식 처리하기 위한 말뭉치(Corpus)가 사전에 수집되어 임베디드 엔진 측에 저장되어 있기 때문이다. 결국, 임베디드 엔진 단에서도 말뭉치를 기반으로 딕테이션이 가능하므로, 각 인식된 단어 또는 문장 단위로 임베디드 엔진과 서버에서 타임 스탬프를 추적(tracking)이 가능하다. 다시 말해, 임베디드 엔진에서 말뭉치 기반 인식을 통해 서비스 도메인(Domain)과 의도(intention)에 해당하는 타임 스탬프를 판단하고, 폰북 기반 인식을 통해 대상 이름(name)의 타임 스탬프를 판단하면, 임베디드 엔진은 위치에 무관하게 나머지 부분을 바디(body)에 해당한다고 판단하여, 바디에 해당하는 시간 구간을 서버 인식 결과로 대체할 수 있게 된다.
또한, 지금까지 설명된 실시예들에서는 음성 명령어가 영어로 구성된 경우가 가정되었으나, 이는 설명의 편의를 위한 것으로 언어마다 음성 명령어 내에서 이름과 바디가 위치하는 지점에 따라 타임 스탬프를 이용하여 서버 인식 결과에서 바디를 추출하는 기준 시점이 상이하게 적용될 수 있음은 당업자에 자명하다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.
따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (19)

  1. 메시지 전송을 위한 발화자의 음성 데이터를 획득하는 단계;
    상기 음성 데이터를 기반으로 폰북에 접근 가능하며, 차량 내부에서 구동되는 제1 음성 인식 엔진에서 제1 음성 인식을 수행하는 단계;
    상기 음성 데이터를 기반으로 차량 외부에서 구동되는 제2 음성 인식 엔진에서 제2 음성 인식을 수행하는 단계; 및
    상기 제1 음성 인식의 결과인 제1 인식 결과와 상기 제2 음성 인식의 결과인 제2 인식 결과가 획득되면, 적어도 상기 제1 인식 결과에 포함된 이름(Name) 정보와 상기 제2 인식 결과에 포함된 바디(SMS body) 정보를 이용하여 최종 인식 결과를 결정하는 단계를 포함하는, 차량용 음성 인식 시스템의 제어 방법.
  2. 제1 항에 있어서,
    상기 제1 음성 인식을 수행하는 단계는,
    상기 폰북을 조회하여 상기 이름 정보를 추출하는 단계를 포함하는, 차량용 음성 인식 시스템의 제어 방법.
  3. 제2 항에 있어서,
    상기 제1 음성 인식을 수행하는 단계는,
    상기 메시지 전송에 해당하는 도메인을 판단하는 단계를 더 포함하는, 차량용 음성 인식 시스템의 제어 방법.
  4. 제1 항에 있어서,
    상기 제1 음성 인식을 수행하는 단계 및 상기 제2 음성 인식을 수행하는 단계 각각은,
    소정 인식 단위별로 타임 스탬프를 추출하는 단계를 포함하는, 차량용 음성 인식 시스템의 제어 방법.
  5. 제4 항에 있어서,
    상기 소정 인식 단위는, 단어 단위를 포함하는, 차량용 음성 인식 시스템의 제어 방법.
  6. 제4 항에 있어서,
    상기 결정하는 단계는,
    상기 추출된 타임 스탬프를 기반으로, 상기 제1 인식 결과에서 상기 이름 정보의 위치를 판단하는 단계를 포함하는, 차량용 음성 인식 시스템의 제어 방법.
  7. 제6 항에 있어서,
    상기 결정하는 단계는,
    상기 제2 인식 결과에서 상기 판단된 이름 정보의 위치를 고려하여 상기 최종 인식 결과의 바디를 결정하는 단계를 더 포함하는, 차량용 음성 인식 시스템의 제어 방법.
  8. 제1 항에 있어서,
    상기 최종 인식 결과를 출력부를 통해 출력하는 단계를 더 포함하는, 차량용 음성 인식 시스템의 제어 방법.
  9. 제1 항에 있어서,
    상기 제1 음성 인식 엔진은 헤드 유닛 또는 AVN 시스템에서 구동되고,
    상기 제2 음성 인식 엔진은 외부 음성 인식 서버에서 구동되는, 차량용 음성 인식 시스템의 제어 방법.
  10. 제1 항 내지 제9 항 중 어느 한 항에 따른 차량용 음성 인식 시스템의 제어 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 해독 가능 기록 매체.
  11. 메시지 전송을 위한 발화자의 음성 명령어를 입력받는 마이크; 및
    상기 음성 명령어에 대응되는 음성 데이터를 획득하고, 상기 음성 데이터를 기반으로 최종 인식 결과를 결정하는 음성 인식 장치를 포함하되,
    상기 음성 인식 장치는,
    상기 음성 데이터를 기반으로 폰북에 접근 가능한 제1 음성 인식 엔진을 통해 제1 음성 인식을 수행하여 제1 인식 결과를 획득하는 제어부; 및
    상기 음성 데이터를 제2 음성 인식 엔진을 구동하는 외부 음성 인식 장치에 전달하고, 상기 제2 음성 인식 엔진에서 수행된 제2 음성 인식의 결과인 제2 인식 결과를 획득하는 통신부를 포함하되,
    상기 제어부는, 적어도 상기 제1 인식 결과에 포함된 이름(Name) 정보와 상기 제2 인식 결과에 포함된 바디(SMS body) 정보를 이용하여 상기 최종 인식 결과를 결정하는, 차량용 음성 인식 시스템.
  12. 제11 항에 있어서,
    상기 제어부는,
    상기 폰북을 조회하여 상기 이름 정보를 추출하는, 차량용 음성 인식 시스템.
  13. 제12 항에 있어서,
    상기 제어부는,
    상기 메시지 전송에 해당하는 도메인을 판단하는, 차량용 음성 인식 시스템.
  14. 제11 항에 있어서,
    상기 음성 인식 장치 및 상기 외부 음성 인식 장치 각각은,
    상기 제1 음성 인식 및 상기 제2 음성 인식을 수행하는 과정에서 소정 인식 단위별로 타임 스탬프를 추출하는, 차량용 음성 인식 시스템.
  15. 제14 항에 있어서,
    상기 소정 인식 단위는, 단어 단위를 포함하는, 차량용 음성 인식 시스템.
  16. 제14 항에 있어서,
    상기 제어부는,
    상기 추출된 타임 스탬프를 기반으로, 상기 제1 인식 결과에서 상기 이름 정보의 위치를 판단하는, 차량용 음성 인식 시스템.
  17. 제16 항에 있어서,
    상기 제어부는,
    상기 제2 인식 결과에서 상기 판단된 이름 정보의 위치를 고려하여 상기 최종 인식 결과의 바디를 결정하는, 차량용 음성 인식 시스템.
  18. 제11 항에 있어서,
    상기 최종 인식 결과를 출력하는 출력부를 더 포함하는, 차량용 음성 인식 시스템.
  19. 제11 항에 있어서,
    상기 음성 인식 장치는, 헤드 유닛 또는 AVN 시스템을 포함하고,
    상기 외부 음성 인식 장치는, 외부 음성 인식 서버를 포함하는, 차량용 음성 인식 시스템.
KR1020180136625A 2018-11-08 2018-11-08 차량용 음성 인식 시스템 및 그 제어 방법 KR20200053242A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180136625A KR20200053242A (ko) 2018-11-08 2018-11-08 차량용 음성 인식 시스템 및 그 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180136625A KR20200053242A (ko) 2018-11-08 2018-11-08 차량용 음성 인식 시스템 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20200053242A true KR20200053242A (ko) 2020-05-18

Family

ID=70913038

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180136625A KR20200053242A (ko) 2018-11-08 2018-11-08 차량용 음성 인식 시스템 및 그 제어 방법

Country Status (1)

Country Link
KR (1) KR20200053242A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023007960A (ja) * 2021-07-02 2023-01-19 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、情報処理方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023007960A (ja) * 2021-07-02 2023-01-19 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP6683234B2 (ja) 音声データ処理方法、装置、設備及びプログラム
KR102205371B1 (ko) 개별화된 핫워드 검출 모델들
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
KR20190100334A (ko) 문맥상의 핫워드들
US11978432B2 (en) On-device speech synthesis of textual segments for training of on-device speech recognition model
US10319379B2 (en) Methods and systems for voice dialogue with tags in a position of text for determining an intention of a user utterance
JP7230806B2 (ja) 情報処理装置、及び情報処理方法
US20160004501A1 (en) Audio command intent determination system and method
KR20190067582A (ko) 사용자의 발화 에러 보정 장치 및 그 방법
US11545133B2 (en) On-device personalization of speech synthesis for training of speech model(s)
US11151996B2 (en) Vocal recognition using generally available speech-to-text systems and user-defined vocal training
JP2008122483A (ja) 情報処理装置及び方法並びにプログラム
KR102020773B1 (ko) 음성합성엔진을 이용한 멀티미디어 음성인식 자동 평가시스템
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
JP2013050742A (ja) 音声認識装置および音声認識方法
KR20200053242A (ko) 차량용 음성 인식 시스템 및 그 제어 방법
JP2023162265A (ja) テキストエコー消去
JP5818753B2 (ja) 音声対話システム及び音声対話方法
WO2019163242A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2003162293A (ja) 音声認識装置及び方法
US20220189461A1 (en) Augmented training data for end-to-end models
CN110895938B (zh) 语音校正系统及语音校正方法
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
US11935539B1 (en) Integrating voice controls into applications
JP6342792B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
A201 Request for examination