KR20170078788A

KR20170078788A - 차량용 음성 명령어 인식 방법, 장치 및 저장 매체

Info

Publication number: KR20170078788A
Application number: KR1020177014756A
Authority: KR
Inventors: 리후이 쉰; 넝쥐안 오우양; 시앙위 무
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2015-07-02
Filing date: 2015-11-23
Publication date: 2017-07-07
Also published as: JP6458149B2; KR101955958B1; JP2018503857A; US20180190283A1; EP3319081A1; EP3319081A4; WO2017000489A1; CN105070288B; CN105070288A; US10446150B2

Abstract

본 발명의 실시예는 차량용 음성 명령어 인식 방법, 장치 및 저장 매체를 개시한다. 상기 방법은, 사용자가 입력한 음성 명령어를 획득하는 단계(S11); 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계(S12); 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계(S13); 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계(S14); 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계(S15); 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계(S16);를 포함한다. 상기 차량용 음성 명령어 인식 방법, 장치 및 저장 매체는 음성 명령어의 정확인식율을 효과적으로 향상시킬 수 있다.

Description

차량용 음성 명령어 인식 방법, 장치 및 저장 매체{ON-BOARD VOICE COMMAND IDENTIFICATION METHOD AND APPARATUS, AND STORAGE MEDIUM}

본 특허 출원은 2015년 07월 02일에 제출한 출원인이 바이두 온라인 네트워크 테크놀러지 (베이징) 유한회사이고 발명의 명칭이 “차량용 음성 명령어 인식 방법 및 장치”인 제201510382215.9호 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로 본 출원에 원용된다.

본 발명의 실시예는 컴퓨터 데이터 처리 기술 분야에 관한 것으로, 특히는 차량용 음성 명령어 인식 방법, 장치 및 저장 매체에 관한 것이다.

차량 산업이 발전되고 전자제품 시장이 성숙됨에 따라, 차량용 지능형 단말기들이 점차적으로 차량의 중요한 부속 장치로 거듭나고 있다. 근래, 또한 경제적 번영에 의해 국내의 차량 보유량이 급속히 증가되었고, 이에 사람들의 외출 습관에도 변화가 생기게 되었고, 사람들이 차량 내에서 보내는 시간이 점점 늘어가고 있다. 따라서, 차량용 지능형 단말기의 기능도 간단한 네비게이션 기능에서부터 다기능 방향으로 변화되고 있다.

최근에 개발된 여러가지 기능들 중에서, 음성 명령어의 인식 및 실행이 많은 주목을 받고 있다. 그러나, 기존의 차량용 지능형 단말기는 자체에 내장된 명령어 조합의 제한으로 인해 사용자의 음성 명령어를 정확히 인식할 수 없는 경우가 많다. 예를 들어, 표준어의 음성 명령어 대한 기존의 차량용 지능형 단말기의 인식율은 상대적으로 높으나, 다양한 방언에 대한 인식율은 상대적으로 낮다. 이는 사용자의 상이한 음성에 대한 적응성이 높지 않고, 인식율이 높지 못하므로 인해 사용자의 사용에 불편을 초래한다. 이로 인해, 사용자가 실제로 차량용 지능형 단말기의 음성 명령어 인식 기능을 사용하는 비율이 상당히 낮은 상황이다.

상기 기술적 문제에 있어서, 본 발명의 실시예는 음성 명령어의 정확인식율을 향상시키기 위하여 차량용 음성 명령어 인식 방법, 장치 및 저장 매체를 제공한다.

제1 양태에 있어서, 본 발명의 실시예는 차량용 음성 명령어 인식 방법을 제공하며, 상기 방법은,

사용자가 입력한 음성 명령어를 획득하는 단계;

사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계;

상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계;

상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계;

상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계; 및

상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계;를 포함한다.

제2 양태에 있어서, 본 발명의 실시예는 차량용 음성 명령어 인식 장치를 더 제공하며, 상기 장치는,

사용자가 입력한 음성 명령어를 획득하도록 구성된 명령어 획득 모듈;

사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하도록 구성된 기본 정보 확정 모듈;

상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하도록 구성된 의도 인식 모듈;

상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하도록 구성된 신뢰도 확정 모듈;

상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하도록 구성된 의도 확정 모듈; 및

상기 사용자의 실제 의도에 따라 상응한 동작을 실행하도록 구성된 동작 실행 모듈;을 포함한다.

제3 양태에 있어서,본 발명의 실시예는 하나 또는 다수의 컴퓨터 실행 가능한 명령어를 포함하는 저장 매체를 제공하며, 상기 컴퓨터 실행 가능한 명령어가 컴퓨터 프로세서에 의해 실행될 경우 차량용 음성 명령어 인식 방법을 실행하고, 상기 방법은,

사용자가 입력한 음성 명령어를 획득하는 단계;

본 발명의 실시예에서 제공하는 차량용 음성 명령어 인식 방법, 장치 및 저장 매체는, 심층 신경망DNN 모델을 이용하여 사용자의 기본 정보를 획득하고, 사용자가 음성 명령어를 입력 시 정경 페이지 맥락을 기반으로 사용자의 가능한 의도를 판단하고, 상기 심층 신경망DNN 모델을 이용하여 상기 가능한 의도의 신뢰도를 산출하며, 마지막으로 해당 신뢰도를 기반으로 사용자의 실제 의도를 확정하고 상응한 동작을 실행함으로써, 사용자의 음성 명령어에 대한 정확인식율을 효과적으로 향상시킨다.

본 발명의 실시예들 중의 기술적 방안을 더욱 명확하게 설명하기 위하여, 실시예에 대한 아래의 설명에 필요한 첨부도면들에 대해 간단한 소개를 진행하기로 한다. 물론, 아래의 설명 중의 첨부도면들은 오직 본 발명의 일부 실시예들일 뿐이며, 해당 기술분야의 당업자들은 창조적인 능력을 발휘하지 않고서도 이러한 첨부도면들에 대해 변형 및 대체를 진행할 수 있다.
도1은 본 발명의 제1 실시예에서 제공하는 차량용 음성 명령어 인식 방법의 흐름도이다.
도2는 본 발명의 제2 실시예에서 제공하는 차량용 음성 명령어 인식 방법 중 기본 정보 확정의 흐름도이다.
도3은 본 발명의 제3 실시예에서 제공하는 차량용 음성 명령어 인식 방법의 흐름도이다.
도4는 본 발명의 제4 실시예에서 제공하는 차량용 음성 명령어 인식 방법의 흐름도이다.
도5는 본 발명의 제5 실시예에서 제공하는 차량용 음성 명령어 인식 방법 의 신뢰도 확정의 흐름도이다.
도6은 본 발명의 제6 실시예에서 제공하는 차량용 음성 명령어 인식 방법 중 의도 확정의 흐름도이다.
도7은 본 발명의 제7 실시예에서 제공하는 차량용 음성 명령어 인식 방법 중 동작 실행의 흐름도이다.
도8은 본 발명의 제8 실시예에서 제공하는 차량용 음성 명령어 인식 방법의 프로세스 개략도이다.
도9는 본 발명의 제9 실시예에서 제공하는 차량용 음성 명령어 인식 장치의 구성도이다.

이하, 첨부된 도면들에 결부하여 본 발명의 실시예들 중의 기술적 방안에 대하여 명확하고 완정한 설명을 진행하기로 한다. 물론, 설명된 실시예들은 본 발명의 모든 실시예들이 아니라 일부 실시예들일 뿐이며, 본 발명의 원리를 설명하기 위한 것으로서, 본 발명을 이러한 구체적인 실시예들에 한정하기 위한 것은 아니다. 본 발명 중의 실시예들을 기초로, 해당 기술분야의 당업자들은 창조적인 노동을 진행하지 않고서 획득한 모든 기타 실시예들은 본 발명의 보호 범위에 포함된다.

제1 실시예

본 실시예는 차량용 음성 명령어 인식 방법의 일 기술적 방안을 제공한다. 본 기술적 방안은 차량용 음성 명령어 인식 장치에 의해 실행될 수 있다. 상기 차량용 음성 명령어 인식 장치는 네트워크 측의 서버 내에 집적될 수 있다. 상기 서버는 인터넷을 통해 사용자가 차량 탑재 시스템에 입력한 음성 명령어를 수신하고, 수신된 음성 명령어에 대해 처리를 진행하고, 처리된 결과를 기반으로 인터넷을 통해 차량 탑재 시스템에 다음으로 실행할 동작을 지시한다. 상기 차량용 음성 명령어 인식 장치는 단말기 측의 컴퓨팅 장치 내에 집적될 수도 있다. 이때, 상기 컴퓨팅 장치가 상기 음성 명령어에 대한 획득은 인터넷을 경유할 필요가 없다.

구체적으로, 도1을 참조하면, 상기 차량용 음성 명령어 인식 방법은 아래와 같은 단계들을 포함한다.

S11에서, 사용자가 입력한 음성 명령어를 획득한다.

차량 인터넷 개념이 흥행됨에 따라, 차량 내에는 일반적으로 모두 네트워크 연결 기능을 구비한 차량 탑재 시스템이 구비되며, 사용자는 차량 내부에 배치된 차량 탑재 시스템을 통해 음성 명령어를 입력할 수 있다. 상기 음성 명령어는 사용자가 차량 탑재 시스템으로 실행하고자 하는 다음 동작을 나타낼 수 있다. 예를 들어, 상기 음성 명령어가 "주걸륜의 노래들을 다시 틀어줘요"일 경우, 차량 탑재 시스템는 다음으로 모든 주걸륜의 노래들을 재생하는 동작을 실행하여야 한다.

S12에서, 사전 트레이닝된 심층 신경망 (Deep neutral network, DNN) 모델을 기반으로 사용자의 기본 정보를 확정한다.

본 실시예에 있어서, 사용자의 입력 음성을 기반으로 사용자의 일부 기본 정보를 확정할 필요가 있다. 상기 기본 정보는, 음성 명령어를 입력하는 시간, 음성 명령어를 입력하는 지점, 음성 실행 입력 동작을 실행하는 사용자의 나이, 성별, 출생지, 심지어 직업을 포함한다.

상기 기본 정보에 대한 저장 및 해석을 통일화하기 위하여, 사용자의 "화상"을 정의한다. 상기 "화상"은 상기 기본 정보를 저장하기 위한 일종의 프로필 형식의 데이터 구조이다. 사용자의 각 기본 정보의 속성은 상기 "화상"의 하나의 필드로서 저장된다.

사용자의 입력 음성을 기반으로 사용자의 기본 정보를 확정하기 위하여, 하나의 DNN 모델을 사전 트레이닝하여야 한다. 트레이닝 과정에, 트레이닝 음성 중의 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 등 특징을 트레이닝 음성의 특징 파라미터로서 추출하고, 입력 파라미터로서 상기 DNN 모델에 입력하며, 상기 DNN 모델의 출력 파라미터와 상기 트레이닝 음성의 주석 파라미터 사이의 차이점을 기반으로 상기 DNN 모델의 모델 파라미터를 확정한다. 트레이닝을 완료한 후, 사용자가 입력한 한 단락의 입력 음성을 수신할 경우, 상기 DNN 모델은 상기 입력 음성의 특징을 기반으로 사용자의 나이, 성별, 출생지, 직업 등 기본 정보를 정확하게 판단할 수 있다.

S13에서, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정한다.

상기 음성 명령어에 대해 실행하는 내용 인식은 상기 음성 명령어에 대한 음성 인식이다. 상기 음성 명령어에 대한 음성 인식은 사용자의 기본 정보를 참고로 진행하는 음성 인식이다. 예를 들어, 사용자의 출생지 속성 및 사용자의 출생지에 대응되는 지역의 억양 특징을 참고로 사용자의 음성 명령어에 대한 음성 인식을 진행한다.

상기 음성 명령어에 대한 내용 인식을 완료한 후, 나아가 상기 음성 명령어에 대해 사용자의 가능한 의도를 확정한다. 상기 사용자의 가능한 의도는 사용자가 상기 음성 명령어 입력 시 가능한 목적이다. 상기 사용자의 가능한 의도는 차량 탑재 시스템이 다음으로 실행하여야 할 적어도 하나의 동작에 대응된다. 예를 들어, 상기 음성 명령어 "주걸륜의 노래들을 다시 틀어줘요"에 대해 의도 인식을 진행하여 획득한 사용자의 가능한 의도는, 차량 탑재 시스템에서의 주결륜의 노래들을 선택하고 선택된 노래들을 재생하는 동작에 대응된다.

S14에서, 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정한다.

사용자의 입력 음성에 대해 사용자의 적어도 하나의 가능한 의도를 확정한 후, 상기 DNN 모델을 기반으로 각 사용자의 가능한 의도의 신뢰도를 확정한다. 나아가, 상기 음성 명령어에 대해 진행한 내용 인식의 결과를 분석하고, 해당 결과를 상기 DNN 모델에 입력하여 사용자의 상이한 가능한 의도의 신뢰도를 획득할 수 있다.

S15에서, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정한다.

신뢰도 확정의 동작을 경과한 후, 사용자의 상이한 가능한 의도가 상이한 신뢰도에 대응된다는 것을 이해할 수 있을 것이다. 이때, 상기 사용자의 가능한 의도들로부터 신뢰도와 사전 확정된 신뢰도 구간 사이의 매칭도가 가장 높은 하나의 사용자의 가능한 의도를 선택하여, 상기 음성 명령어에 대응되는 사용자의 실제 의도로 한다.

S16에서, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행한다.

사용자의 실제 의도를 확정한 후, 상기 실제 의도에 대응되는 동작을 실행한다. 상기 동작은 음성을 재생시키는 동작, 동영상을 재생시키는 동작, 이미지를 표시하는 동작, 웹 페이지를 여는 동작 등일 수 있다.

본 실시예에 있어서, 사용자가 입력한 음성 명령어를 획득하고, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하고, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하며, 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하고, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하고, 상기 실제 의도에 따라 상응한 동작을 실행함으로써, 음성 명령어의 정확인식율을 효과적으로 향상시킨다.

제2 실시예

본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법 중의 기본 정보를 확정하는 일 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계는, 상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하는 단계와, 상기 음성 특징 파라미터, 상기 위치 및 상기 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하는 단계를 포함한다.

도2를 참조하면, 사전 트레이닝된 DNN 모델에 근거하여 사용자의 기본 정보를 확정하는 단계는 아래와 같은 단계들을 포함한다.

S21에서, 상기 음성 명령어로부터 음성 특징 파라미터를 추출한다.

사용자가 입력한 음성 명령어로부터 다수의 음성 특징 파라미터를 추출할 수 있다. 상기 음성 특징 파라미터는 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수, 기본 주파수 중의 적어도 하나를 포함한다. 상기 음성 명령어로부터 추출된 음성 특징 파라미터는 상기 음성 명령어의 특징으로서 상기 DNN 모델에 입력될 수 있다.

S22에서, 상기 음성 특징 파라미터, 위치 및 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 기본 정보를 확정한다.

상기 DNN은 DNN 이론을 기반으로 사전 트레이닝하여 획득한, 사용자의 기본 정보를 판단하기 위한 모델이다. 상기 기본 정보는 사용자의 성별, 나이, 출생지 및 직업을 포함한다.

상기 DNN은 입력층, 히든층 및 출력층으로 구성된다. 상기 입력층은 입력 파라미터를 수신하도록 구성되고, 상기 출력층은 연산 결과를 출력하도록 구성되며, 상기 히든층은 상기 입력 파라미터의 값를 기반으로 상기 연산 결과를 산출하도록 구성된다.

상기 입력 파라미터는 음성 특징 파라미터, 음성 명령어 입력 시 사용자가 위치한 위치 및 상기 음성 명령어를 입력한 시간을 포함한다. 상기 입력 파라미터를 상기 DNN에 입력한 후, 상기 입력층, 히든층 및 출력층의 산출을 기반으로 사용자의 기본 정보에 대한 판단 결과를 획득할 수 있다.

더욱 바람직하게, 상기 입력 파라미터는 호출된 사용자의 식별 번호(Called user identification number, CUID)를 더 포함할 수 있다. 상기 CUID는 사용자의 성별, 나이 등 기본 정보를 확정함에 있어서 중요한 참고적 가치를 지닌다.

본 실시예에 있어서, 상기 음성 명령어로부터 음성 특징 파라미터를 추출하고, 상기 음성 특징 파라미터, 상기 위치 및 상기 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 입력 파라미터를 기반으로 사용자의 기본 정보를 확정함으로써, DNN을 통해 사용자의 기본 정보를 판단하는 것을 실현한다.

제3 실시예

본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법의 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계는, 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계를 포함한다.

도3을 참조하면, 상기 차량용 음성 명령어 인식 방법은 아래와 같은 단계들을 포함한다.

S31, 사용자가 입력한 음성 명령어를 획득한다.

S32, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정한다.

S33, 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단한다.

세션(Session) 대상을 설정하여, 상기 세션 대상에 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지 및 사용자가 상기 나타났던 페이지 상에 머문 시간을 저장할 수 있다. 사용자의 가능한 의도를 판단해야 할 경우, 상기 세션 대상으로부터 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지 및 사용자가 각 페이지 상에 머문 시간을 획득하고, 상기 음성 명령어에 대한 인식 코퍼스를 결부하여 사용자의 가능한 의도를 종합적으로 판단한다.

예를 들어, 경험에 따르면, 3분간의 기정 시간 내에 나타났던 페이지가 네비게이션 페이지이고, 사용자가 네비게이션 페이지에 머문 시간이 3분이며, 상기 인식 코퍼스에 키워드 "네비"가 포함되어 있으면, 사용자의 실제 의도가 네비게이션 노선을 다시 계획하는 것일 가능성이 높으며, 상술한 상황이 나타날 경우, 네비게이션 노선을 다시 계획하는 것을 사용자의 가능한 의도로 판정할 수 있다.

S34에서, 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정한다.

S35에서, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정한다.

S36에서, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행한다.

본 실시예에 있어서, 사용자의 기본 정보를 확정한 후, 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단함으로써, 사용자의 가능한 의도에 대한 정확한 판단을 실현한다.

제4 실시예

본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법의 일 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계는, 사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계를 포함한다.

도4를 참조하면, 상기 차량용 음성 명령어 인식 방법은 아래와 같은 단계들을 포함한다.

S41에서, 사용자가 입력한 음성 명령어를 획득한다.

S42에서, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정한다.

S43에서, 사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단한다.

본 발명의 제3 실시예와 동일하게, 세션 대상을 설정하여, 상기 세션 대상에 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지 및 사용자가 상기 나타났던 페이지 상에 머문 시간을 저장할 수 있다. 사용자의 가능한 의도를 판단해야 할 경우, 상기 세션 대상으로부터 이전에 저장된 페이지 및 머문 시간 파라미터를 획득하고, 상기 음성 명령어의 인식 코퍼스에 결부하여 사용자의 가능한 의도를 종합적으로 판단한다.

예를 들어, 음성 명령어를 입력하기 전에 나타났던 두개의 페이지는 각각 음악 재생 페이지 및 지도 네비게이션 페이지이다. 사용자가 음악 재생 페이지 및 지도 네비게이션 페이지 상에 머문 시간은 각각 3분 및 2분 내지 10분이고, 상기 인식 코퍼스는 키워드 "네비"를 포함한다. 경험에 따르면, 이러할 경우, 사용자의 실제 의도가 네비게이션 노선을 다시 계획하는 것일 가능성이 매우 높다. 상술한 상황이 발생할 경우, 사용자의 가능한 의도를 네비게이션 노선을 다시 계획하는 것으로 판단할 수 있다.

S44에서, 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정한다.

S45에서, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정한다.

S46에서, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행한다.

본 실시예에 있어서, 사용자의 기본 정보를 확정한 후, 사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단함으로써, 사용자의 가능한 의도에 대한 정확한 판단을 실현한다.

제5 실시예

본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법 중의 신뢰도 확정에 대한 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계는, 상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하고, 상기 정서 상태를 기반으로 상기 사용자의 가능한 의도의 신뢰도를 획득하는 단계를 포함한다.

도5를 참조하면, 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계는 아래와 같은 단계들을 포함한다.

S51에서, 상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가한다.

상기 DNN 모델은 사용자의 기본 정보를 확정할 수 있을 뿐만 아니라, 가능한 의도의 신뢰도를 확정함에 있어서 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가할 수도 있다.

구체적으로, 다수의 사용자의 가능한 정서 상태를 사전에 정의할 수 있다. 예를 들어, 사용자의 정서 상태는 기쁨, 슬픔, 분노 등을 포함할 수 있다. 사용자의 정서 상태를 확정한 후, 상기 DNN 모델의 출력층에 상이한 정서 상태에 대응되는 출력 유닛을 설정한다. 이로써, 상기 DNN의 트레이닝을 완료한 후, 상기 DNN은 정서 상태의 평가에 이용될 수 있다.

S52에서, 상기 정서 상태를 기반으로 상기 사용자의 가능한 의도의 신뢰도를 획득한다.

구체적으로, 경험에 따라 사용자의 상이한 정서 상태에 대응되는 신뢰도의 값을 지정할 수 있다. 예를 들어, 경험에 따라 기쁜 정서 상태에서의 상기 신뢰도의 값을 최고치로 지정하고, 슬픈 정서 상태에서의 상기 신뢰도의 값을 최소치로 지정할 수 있다.

본 실시예에 있어서, 상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하며, 상기 정서 상태를 기반으로 상기 가능한 의도의 신뢰도를 획득함으로써, DNN 모델을 이용하여 음성 명령어 입력 시 사용자의 정서 상태를 평가하여, 나아가 상기 정서 상태를 기반으로 사용자의 가능한 의도의 신뢰도를 확정한다.

제6 실시예

본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법 중의 신뢰도 확정에 대한 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계는, 상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키고, 상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 하는 단계를 포함한다.

도6을 참조하면, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계는 아래와 같은 단계들을 포함한다.

S61에서, 상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시킨다.

상이한 가능한 의도는 상응한 신뢰도 구간에 대응된다. 예를 들어, 의도 "네비게이션 노선을 다시 계획하는 것"의 가능한 신뢰도 구간은 0.45 내지 0.6에 해당한다. 각 가능한 의도에 대응되는 신뢰도 구간을 사전에 수집하고, 상기 음성 명령어에 대응되는 가능한 의도 및 상기 가능한 의도의 신뢰도를 획득한 후, 상기 신뢰도와 수집된 각 신뢰도 구간을 매칭시킨다.

더욱 바람직하게, 가능한 의도, 즉, 사용자의 가능한 의도는 그에 대응되는 파라미터를 부가적으로 구비할 수도 있다. 예를 들어, "재생 모드를 변경하는" 의도가 부가적으로 구비할 수 있는 파라미터는 순환 재생, 순차 재생, 랜덤 재생 등 목표 재생 모드를 포함한다. 이때, 부가적으로 구비한 각 파라미터마다 하나의 독립적인 방안으로 간주하여야 하고, 이에 대응되는 신뢰도 구간을 개별적으로 수집하고, 상기 신뢰도를 획득한 후, 상기 신뢰도와 개별적으로 수집한 신뢰도 구간을 매칭시켜야 한다.

S62에서, 상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 한다.

신뢰도 구간의 매칭을 진행한 후, 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 가능한 의도를 사용자의 실제 의도로 한다.

본 실시예에 있어서, 상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키고, 상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 함으로써, 신뢰도 파라미터에 근거하여 사용자의 실제 의도를 인식하는 것을 실현한다.

제7 실시예

본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법 중의 의도 확정에 대한 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계는, 상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하고, 상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하며, 상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도와 유사한 동작을 실행한다.

도7을 참조하면, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계는 아래와 같은 단계들을 포함한다.

S71에서, 상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행한다.

사용자의 실제 의도를 확정한 후, 상기 실제 의도에 대응되는 동작을 실행할 지 여부는 상기 실제 의도의 실행 조건이 성립되는지 여부에 달려있다. 예를 들어, 실제 의도가 "위챗 보기"일 경우, 이에 대응되는 실행 조건은 차량이 멈춘 상태여야 한다. 음성 명령어를 수신하여 실제 의도 "위챗 보기"를 인식한 시간이 주차 상태에 처했을 때 일 경우, 상기 실제 의도에 대응되는 동작, 즉 위책 보기를 실행한다.

S72에서, 상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시한다.

실제 의도 "위챗 보기"를 예로 들면, 음성 명령어를 수신하여 실제 의도 "위챗 보기"를 인식한 시간이 주행 상태에 처했을 때 일 경우, 위챗 보기 동작을 실행하지 않고, 메세지의 방식으로 사용자에게 현재 상태에서 이러한 동작을 실행할 경우의 위험성을 제시한다.

S73에서, 상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도와 유사한 동작을 실행한다.

사용자의 정서 상태가 좋지 않거나 사용자의 실제 의도를 판단하기 어려운 상황에서, 사용자의 실제 의도의 실행 조건에 대한 인식이 불명확할 수 있다. 이때, 상기 사용자의 실제 의도와 유사한 동작을 실행하여야 하되, 상기 유사한 동작이 안전한 동작임을 필시 확보하여야 한다.

본 실시예에 있어서, 상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하고, 상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도와 유사한 동작을 실행함으로써, 실행 조건에 대해 다시 확인하여 실행하는 동작의 안전성을 확보한다.

제8 실시예

본 실시예는 상기 차량용 음성 명령어 인식 방법의 일 기술적 방안을 제공한다. 해당 기술적 방안에 있어서, 상기 차량용 음성 명령어 인식 방법은, 사용자의 기본 정보를 판단하는 단계와, 세션 처리에 근거하여 사용자의 가능한 의도를 획득하는 단계와, 의도 신뢰도 처리를 기반으로 사용자의 상이한 가능한 의도의 신뢰도를 획득하는 단계와, 안전 처리를 기반으로 실행하여야 할 동작을 확정하는 단계와, 종합적으로 판단한 결과에 근거하여 상응한 동작을 실행할 지 여부를 확정하는 단계를 포함한다.

도8을 참조하면, 상기 차량용 음성 명령어 인식 방법은 아래와 같은 단계들을 포함한다.

S81에서, 사용자의 기본 정보를 판단한다.

본 실시예에 있어서, 사전 트레이닝된 DNN을 통해 사용자의 기본 정보를 인식한다. 상기 기본 정보는 사용자의 나이, 성별, 출생지, 직업 등을 포함한다.

S82에서, 세션 처리를 기반으로 사용자의 가능한 의도를 획득한다.

세션 대상을 이용하여 저장한 사용자가 음성 명령어를 발송하기 전에 사용하였던 페이지를 기반으로 사용자의 가능한 의도를 획득한다.

S83에서, 의도 신뢰도 처리를 기반으로 사용자의 상이한 가능한 의도의 신뢰도를 획득한다.

본 실시예에 있어서, 마찬가지로, 사전 트레이닝된 DNN을 기반으로 상이한 가능한 의도의 신뢰도를 인식한다.

S84에서, 안전 처리를 기반으로 실행하여야 할 동작을 확정한다.

차량의 현재 상태에 대한 인식을 통해, 실행해야 할 동작이 안전 동작인지를 확정함으로써, 나아가 실행하여야 하는 동작을 확정한다.

S85에서, 종합적으로 판단한 결과에 근거하여 상응한 동작을 실행할 지 여부를 확정한다.

앞선 몇 단계의 결과에 대한 종합적인 판단을 통해, 상응한 동작을 실행하여야 할지 여부를 확정한다.

본 실시예에 있어서, 사용자의 기본 정보를 판단하고, 세션 처리를 기반으로 사용자의 가능한 의도를 획득하고, 의도 신뢰도 처리를 기반으로 사용자의 상이한 가능한 의도의 신뢰도를 획득하고, 안전 처리를 기반으로 실행하여야 할 동작을 확정하고, 종합적으로 판단한 결과에 근거하여 상응한 동작을 실행할지 여부를 확정함으로써, 음성 명령어의 획득에서부터 상응한 동작의 실행까지의 전체적인 과정을 실현한다.

제9 실시예

본 실시예는 차량용 음성 명령어 인식 장치의 일 기술적 방안을 제공한다. 해당 기술적 방안에 있어서, 상기 차량용 음성 실행 인식 장치는, 명령어 획득 모듈(91), 기본 정보 확정 모듈(92), 의도 인식 모듈(93), 신뢰도 확정 모듈(94), 및 동작 실행 모듈(96)을 포함한다.

상기 명령어 획득 모듈(91)은 사용자가 입력한 음성 명령어를 획득하도록 구성된다.

상기 기본 정보 확정 모듈(92)은 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하도록 구성된다.

상기 의도 인식 모듈(93)은 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하도록 구성된다.

상기 신뢰도 확정 모듈(94)은 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하도록 구성된다.

상기 의도 확정 모듈(95)은 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하도록 구성된다.

상기 동작 실행 모듈(96)은 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하도록 구성된다.

나아가, 상기 기본 정보 확정 모듈(92)은, 특징 추출 유닛 및 DNN 인식 유닛을 포함한다.

상기 특징 추출 유닛은 상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하도록 구성된다.

상기 DNN 인식 유닛은 상기 음성 특징 파라미터, 상기 위치 및 상기 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하도록 구성된다.

나아가, 상기 의도 인식 모듈(93)은, 제1 의도 인식 유닛 또는 제2 의도 인식 유닛을 포함한다.

상기 제1 의도 인식 유닛은 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하도록 구성된다.

상기 제2 의도 인식 유닛은 사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하도록 구성된다.

나아가, 상기 신뢰도 확정 모듈(94)은, 정서 평가 유닛 및 신뢰도 획득 유닛을 포함한다.

상기 정서 평가 유닛은 상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하도록 구성된다.

상기 신뢰도 획득 유닛은 상기 정서 상태를 기반으로 상기 사용자의 가능한 의도의 신뢰도를 획득하도록 구성된다.

나아가, 상기 의도 확정 모듈(95)은, 매칭 유닛 및 실제 의도 획득 유닛을 포함한다.

상기 매칭 유닛은 상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키도록 구성된다.

상기 실제 의도 획득 유닛은 상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 간주하도록 구성된다.

나아가, 상기 동작 실행 모듈(96)은, 제1 동작 실행 유닛, 제2 동작 실행 유닛 및 제3 동작 실행 유닛을 포함한다.

상기 제1 동작 실행 유닛은 상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하도록 구성된다.

상기 제2 동작 실행 유닛은 상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하도록 구성된다.

상기 제3 동작 실행 유닛은 상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도와 유사한 동작을 실행하도록 구성된다.

상기 이미지 검색 장치는 본 발명의 임의의 실시예에서 제공하는 이미지 검색 방법을 실행할 수 있으며, 실행 방법에 해당하는 기능 모듈 및 유익한 효과를 구비한다.

해당 분야의 당업자들은 상술한 본 발명의 각 모듈 또는 각 단계들이 범용의 컴퓨팅 장치에 의해 실현될 수 있으며, 이들이 단일 컴퓨팅 장치에 집중되거나 다수의 컴퓨팅 장치로 구성된 네트워크 상에 분포될 수 있으며, 선택적으로, 이들이 컴퓨팅 장치가 실행 가능한 프로그램 코드로 실현될 수 있고, 따라서, 이들을 저장 장치에 저장하여 컴퓨팅 장치로 실행하거나 이들을 각각 별개의 집적 회로 모듈로 제작하거나 또는 이들 중의 다수의 모듈 또는 단계를 단일 집적 회로 모듈로 제작하여 실현할 수 있음을 이해할 것이다. 본 발명은 그 어떤 특정된 하드웨어 및 소프트웨어의 결합에 한정되지 않는다.

제10 실시예

하나 또는 다수의 컴퓨터 실행 가능한 명령어를 포함하는 저장 매체를 제공한다. 상기 컴퓨터 실행 가능한 명령어는 컴퓨터 프로세서로 실행될 경우 차량용 음성 명령어 인식 방법을 실행하며, 상기 방법은,

사용자가 입력한 음성 명령어를 획득하는 단계와,

사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계와,

상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계와,

상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계와,

상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계와,

상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계를 포함한다.

상기 저장 매체가 상기 방법을 실행할 경우, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계는,

상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하는 단계와,

상기 음성 특징 파라미터, 위치 및 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하는 단계를 포함한다.

상기 저장 매체가 상기 방법을 실행할 경우, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계는,

사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계; 또는

사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계를 포함한다.

상기 저장 매체가 상기 방법을 실행할 경우, 상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계는,

상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하는 단계와,

상기 정서 상태를 기반으로 상기 사용자의 가능한 의도의 신뢰도를 획득하는 단계를 포함한다.

상기 저장 매체가 상기 방법을 실행할 경우, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계는,

상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키는 단계와,

상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 간주하는 단계를 포함한다.

상기 저장 매체가 상기 방법을 실행할 경우, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계는,

상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하는 단계와,

상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하는 단계와,

상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도와 유사한 동작을 실행하는 단계를 포함한다.

본 발명은 소프트웨어 및 필요한 하드웨어로 실현될 수 있으며, 물론 하드웨어로만 실현될 수도 있으나, 대부분 경우, 전자가 더욱 바람직한 실시예이며, 이러한 이해를 기반으로 본 발명의 기술적 방안은 본질적으로 또는 기존의 기술에 대해 기여가 되는 부분은 소프트웨어 제품의 형식으로 구현할 수 있으며, 컴퓨터 소프트웨어 제품은 자기 디스크, 콤팩트디스크, 판독 전용 기억 장치(Read-Only Memory, ROM) 또는 랜덤 액세스 기억 장치(Random Access Memory, RAM) 등과 같은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 다수의 명령어를 포함하여 하나의 컴퓨터 장치(개인용 컴퓨터, 서버 또는 네트워크 장치 등일 수 있음)로 하여금 본 발명의 각 실시예 중의 상기 방법들을 실행하도록 할 수 있음을 해당 기술분야의 당업자들은 상술한 실시예들에 관한 설명을 통해 명확히 이해할 것이다.

상기 차량용 음성 명령어 인식 장치의 실시예에 있어서, 포함된 각 유닛 및 모듈은 오직 기능적 로직에 따라 구분된 것이나, 이는 상술한 구분에 한정되지 않으며, 상응한 기능을 실현할 수만 있으면 되고, 또한, 각 기능 유닛의 구체적인 명칭도 상호 구분의 편리를 위해 명명된 것 일 뿐, 본 발명의 보호 범위를 한정하기 위한 것은 아니다.

상술한 바와 같이, 이는 본 발명의 구체적인 실시예일 뿐, 본 발명의 보호 범위를 한정하지 않으며, 해당 기술분야의 임의의 당업자가 본 발명에 개시된 기술적 범위 내에서 용이하게 생각해 낼 수 있는 변경 또는 대체는 모두 본 발명의 보호 범위에 포함되어야 한다. 따라서, 본 발명의 보호 범위는 첨부된 청구항의 보호 범위를 기준으로 정의된다.

본 명세서 중의 각 실시예는 모두 점진적인 방식으로 설명을 진행하며, 각 실시예들에서 중점적으로 설명하고자 하는 것은 모두 기타 실시예들과의 차이점들이며, 각 실시예들 사이의 동일하거나 유사한 부분은 서로 참조할 수 있다.

상술한 바와 같이, 이는 본 발명의 구체적인 실시예일 뿐, 본 발명의 보호 범위를 한정하지 않으며, 해당 기술분야의 임의의 당업자가 본 발명에 개시된 기술적 범위 내에서 용이하게 생각해 낼 수 있는 변화 또는 대체는 모두 본 발명의 보호 범위에 포함되어야 한다. 따라서, 본 발명의 보호 범위는 첨부된 청구항의 보호 범위를 기준으로 정의된다.

Claims

사용자가 입력한 음성 명령어를 획득하는 단계;
사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계;
상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계;
상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계;
상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계; 및
상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
제1항에 있어서,
사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계는,
상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하는 단계; 및
상기 음성 특징 파라미터, 위치 및 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
제1항에 있어서,
상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계는,
사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계; 또는
사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
제1항에 있어서,
상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계는,
상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하는 단계; 및
상기 정서 상태를 기반으로 상기 사용자의 가능한 의도의 신뢰도를 획득하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
제1항에 있어서,
상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계는,
상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키는 단계; 및
상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 간주하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
제1항에 있어서,
상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계는,
상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하는 단계;
상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하는 단계; 및
상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도와 유사한 동작을 실행하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
사용자가 입력한 음성 명령어를 획득하도록 구성된 명령어 획득 모듈;
사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하도록 구성된 기본 정보 확정 모듈;
상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하도록 구성된 의도 인식 모듈;
상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하도록 구성된 신뢰도 확정 모듈;
상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하도록 구성된 의도 확정 모듈; 및
상기 사용자의 실제 의도에 따라 상응한 동작을 실행하도록 구성된 동작 실행 모듈;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
제7항에 있어서,
상기 기본 정보 확정 모듈은,
상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하도록 구성된 특징 추출 유닛;
상기 음성 특징 파라미터, 위치 및 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하도록 구성된 DNN 인식 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
제7항에 있어서,
상기 의도 인식 모듈은,
사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하도록 구성된 제1 의도 인식 유닛; 또는
사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하도록 구성된 제2 의도 인식 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
제7항에 있어서,
상기 신뢰도 확정 모듈은,
상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하도록 구성된 정서 평가 유닛; 및
상기 정서 상태를 기반으로 상기 사용자의 가능한 의도의 신뢰도를 획득하도록 구성된 신뢰도 획득 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
제7항에 있어서,
상기 의도 확정 모듈은,
상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키도록 구성된 매칭 유닛; 및
상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 간주하도록 구성된 실제 의도 획득 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
제7항에 있어서,
상기 동작 실행 모듈은,
상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하도록 구성된 제1 동작 실행 유닛;
상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하도록 구성된 제2 동작 실행 유닛; 및
상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도와 유사한 동작을 실행하도록 구성된 제3 동작 실행 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
하나 또는 다수의 컴퓨터 실행 가능한 명령어를 포함하는 저장 매체에 있어서,
상기 컴퓨터 실행 가능한 명령어가 컴퓨터 프로세서에 의해 실행될 경우, 차량용 음성 명령어 인식 방법을 실행하며, 상기 방법은,
사용자가 입력한 음성 명령어를 획득하는 단계;
사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계;
상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 정경 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계;
상기 DNN 모델을 기반으로 사용자의 가능한 의도의 신뢰도를 확정하는 단계;
상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계; 및
상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계;를 포함하는 것을 특징으로 하는 저장 매체.