KR101955958B1 - 차량용 음성 명령어 인식 방법, 장치 및 저장 매체 - Google Patents

차량용 음성 명령어 인식 방법, 장치 및 저장 매체 Download PDF

Info

Publication number
KR101955958B1
KR101955958B1 KR1020177014756A KR20177014756A KR101955958B1 KR 101955958 B1 KR101955958 B1 KR 101955958B1 KR 1020177014756 A KR1020177014756 A KR 1020177014756A KR 20177014756 A KR20177014756 A KR 20177014756A KR 101955958 B1 KR101955958 B1 KR 101955958B1
Authority
KR
South Korea
Prior art keywords
user
intention
voice command
reliability
basic information
Prior art date
Application number
KR1020177014756A
Other languages
English (en)
Other versions
KR20170078788A (ko
Inventor
리후이 쉰
넝쥐안 오우양
시앙위 무
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20170078788A publication Critical patent/KR20170078788A/ko
Application granted granted Critical
Publication of KR101955958B1 publication Critical patent/KR101955958B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

본 발명의 실시예는 차량용 음성 명령어 인식 방법, 장치 및 저장 매체를 개시한다. 상기 방법은, 사용자가 입력한 음성 명령어를 획득하는 단계(S11); 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계(S12); 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계(S13); 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하는 단계(S14); 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계(S15); 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계(S16);를 포함한다. 상기 차량용 음성 명령어 인식 방법, 장치 및 저장 매체는 음성 명령어의 정확인식율을 효과적으로 향상시킬 수 있다.

Description

차량용 음성 명령어 인식 방법, 장치 및 저장 매체{IN-VEHICLE VOICE COMMAND RECOGNITION METHOD AND APPARATUS, AND STORAGE MEDIUM}
본 특허 출원은 2015년 07월 02일에 제출한 출원인이 바이두 온라인 네트워크 테크놀러지 (베이징) 유한회사이고 발명의 명칭이 “차량용 음성 명령어 인식 방법 및 장치”인 제201510382215.9호 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로 본 출원에 원용된다.
본 발명의 실시예는 컴퓨터 데이터 처리 기술 분야에 관한 것으로, 특히는 차량용 음성 명령어 인식 방법, 장치 및 저장 매체에 관한 것이다.
차량 산업이 발전되고 전자제품 시장이 성숙됨에 따라, 차량용 지능형 단말기들이 점차적으로 차량의 중요한 부속 장치로 거듭나고 있다. 근래, 또한 경제적 번영에 의해 국내의 차량 보유량이 급속히 증가되었고, 이에 사람들의 외출 습관에도 변화가 생기게 되었고, 사람들이 차량 내에서 보내는 시간이 점점 늘어가고 있다. 따라서, 차량용 지능형 단말기의 기능도 간단한 네비게이션 기능에서부터 다기능 방향으로 변화되고 있다.
최근에 개발된 여러가지 기능들 중에서, 음성 명령어의 인식 및 실행이 많은 주목을 받고 있다. 그러나, 기존의 차량용 지능형 단말기는 자체에 내장된 명령어 조합의 제한으로 인해 사용자의 음성 명령어를 정확히 인식할 수 없는 경우가 많다. 예를 들어, 표준어의 음성 명령어 대한 기존의 차량용 지능형 단말기의 인식율은 상대적으로 높으나, 다양한 방언에 대한 인식율은 상대적으로 낮다. 이는 사용자의 상이한 음성에 대한 적응성이 높지 않고, 인식율이 높지 못하므로 인해 사용자의 사용에 불편을 초래한다. 이로 인해, 사용자가 실제로 차량용 지능형 단말기의 음성 명령어 인식 기능을 사용하는 비율이 상당히 낮은 상황이다.
상기 기술적 문제에 있어서, 본 발명의 실시예는 음성 명령어의 정확인식율을 향상시키기 위하여 차량용 음성 명령어 인식 방법, 장치 및 저장 매체를 제공한다.
제1 양태에 있어서, 본 발명의 실시예는 차량용 음성 명령어 인식 방법을 제공하며, 상기 방법은,
사용자가 입력한 음성 명령어를 획득하는 단계;
사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계;
상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계;
상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하는 단계;
상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계; 및
상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계;를 포함한다.
제2 양태에 있어서, 본 발명의 실시예는 차량용 음성 명령어 인식 장치를 더 제공하며, 상기 장치는,
사용자가 입력한 음성 명령어를 획득하도록 구성된 명령어 획득 모듈;
사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하도록 구성된 기본 정보 확정 모듈;
상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하도록 구성된 의도 인식 모듈;
상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하도록 구성된 신뢰도 확정 모듈;
상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하도록 구성된 의도 확정 모듈; 및
상기 사용자의 실제 의도에 따라 상응한 동작을 실행하도록 구성된 동작 실행 모듈;을 포함한다.
제3 양태에 있어서,본 발명의 실시예는 하나 또는 다수의 컴퓨터 실행 가능한 명령어를 포함하는 저장 매체를 제공하며, 상기 컴퓨터 실행 가능한 명령어가 컴퓨터 프로세서에 의해 실행될 경우 차량용 음성 명령어 인식 방법을 실행하고, 상기 방법은,
사용자가 입력한 음성 명령어를 획득하는 단계;
사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계;
상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계;
상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하는 단계;
상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계; 및
상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계;를 포함한다.
본 발명의 실시예에서 제공하는 차량용 음성 명령어 인식 방법, 장치 및 저장 매체는, 심층 신경망DNN 모델을 이용하여 사용자의 기본 정보를 획득하고, 사용자가 음성 명령어를 입력 시의 사용 페이지의 맥락을 기반으로 사용자의 가능한 의도를 판단하고, 상기 심층 신경망DNN 모델을 이용하여 상기 음성 명령어의 신뢰도를 산출하며, 마지막으로 해당 신뢰도를 기반으로 사용자의 실제 의도를 확정하고 상응한 동작을 실행함으로써, 사용자의 음성 명령어에 대한 정확인식율을 효과적으로 향상시킨다.
본 발명의 실시예들 중의 기술적 방안을 더욱 명확하게 설명하기 위하여, 실시예에 대한 아래의 설명에 필요한 첨부도면들에 대해 간단한 소개를 진행하기로 한다. 물론, 아래의 설명 중의 첨부도면들은 오직 본 발명의 일부 실시예들일 뿐이며, 해당 기술분야의 당업자들은 창조적인 능력을 발휘하지 않고서도 이러한 첨부도면들에 대해 변형 및 대체를 진행할 수 있다.
도1은 본 발명의 제1 실시예에서 제공하는 차량용 음성 명령어 인식 방법의 흐름도이다.
도2는 본 발명의 제2 실시예에서 제공하는 차량용 음성 명령어 인식 방법 중 기본 정보 확정의 흐름도이다.
도3은 본 발명의 제3 실시예에서 제공하는 차량용 음성 명령어 인식 방법의 흐름도이다.
도4는 본 발명의 제4 실시예에서 제공하는 차량용 음성 명령어 인식 방법의 흐름도이다.
도5는 본 발명의 제5 실시예에서 제공하는 차량용 음성 명령어 인식 방법 의 신뢰도 확정의 흐름도이다.
도6은 본 발명의 제6 실시예에서 제공하는 차량용 음성 명령어 인식 방법 중 의도 확정의 흐름도이다.
도7은 본 발명의 제7 실시예에서 제공하는 차량용 음성 명령어 인식 방법 중 동작 실행의 흐름도이다.
도8은 본 발명의 제8 실시예에서 제공하는 차량용 음성 명령어 인식 방법의 프로세스 개략도이다.
도9는 본 발명의 제9 실시예에서 제공하는 차량용 음성 명령어 인식 장치의 구성도이다.
이하, 첨부된 도면들에 결부하여 본 발명의 실시예들 중의 기술적 방안에 대하여 명확하고 완정한 설명을 진행하기로 한다. 물론, 설명된 실시예들은 본 발명의 모든 실시예들이 아니라 일부 실시예들일 뿐이며, 본 발명의 원리를 설명하기 위한 것으로서, 본 발명을 이러한 구체적인 실시예들에 한정하기 위한 것은 아니다. 본 발명 중의 실시예들을 기초로, 해당 기술분야의 당업자들은 창조적인 노동을 진행하지 않고서 획득한 모든 기타 실시예들은 본 발명의 보호 범위에 포함된다.
제1 실시예
본 실시예는 차량용 음성 명령어 인식 방법의 일 기술적 방안을 제공한다. 본 기술적 방안은 차량용 음성 명령어 인식 장치에 의해 실행될 수 있다. 상기 차량용 음성 명령어 인식 장치는 네트워크 측의 서버 내에 집적될 수 있다. 상기 서버는 인터넷을 통해 사용자가 차량 탑재 시스템에 입력한 음성 명령어를 수신하고, 수신된 음성 명령어에 대해 처리를 진행하고, 처리된 결과를 기반으로 인터넷을 통해 차량 탑재 시스템에 다음으로 실행할 동작을 지시한다. 상기 차량용 음성 명령어 인식 장치는 단말기 측의 컴퓨팅 장치 내에 집적될 수도 있다. 이때, 상기 컴퓨팅 장치가 상기 음성 명령어에 대한 획득은 인터넷을 경유할 필요가 없다.
구체적으로, 도1을 참조하면, 상기 차량용 음성 명령어 인식 방법은 아래와 같은 단계들을 포함한다.
S11에서, 사용자가 입력한 음성 명령어를 획득한다.
차량 인터넷 개념이 흥행됨에 따라, 차량 내에는 일반적으로 모두 네트워크 연결 기능을 구비한 차량 탑재 시스템이 구비되며, 사용자는 차량 내부에 배치된 차량 탑재 시스템을 통해 음성 명령어를 입력할 수 있다. 상기 음성 명령어는 사용자가 차량 탑재 시스템으로 실행하고자 하는 다음 동작을 나타낼 수 있다. 예를 들어, 상기 음성 명령어가 "주걸륜의 노래들을 다시 틀어줘요"일 경우, 차량 탑재 시스템는 다음으로 모든 주걸륜의 노래들을 재생하는 동작을 실행하여야 한다.
S12에서, 사전 트레이닝된 심층 신경망 (Deep neutral network, DNN) 모델을 기반으로 사용자의 기본 정보를 확정한다.
본 실시예에 있어서, 사용자의 입력 음성을 기반으로 사용자의 일부 기본 정보를 확정할 필요가 있다. 상기 기본 정보는, 음성 명령어를 입력하는 시간, 음성 명령어를 입력하는 지점, 음성 실행 입력 동작을 실행하는 사용자의 나이, 성별, 출생지, 심지어 직업을 포함한다.
상기 기본 정보에 대한 저장 및 해석을 통일화하기 위하여, 사용자의 "화상"을 정의한다. 상기 "화상"은 상기 기본 정보를 저장하기 위한 일종의 프로필 형식의 데이터 구조이다. 사용자의 각 기본 정보의 속성은 상기 "화상"의 하나의 필드로서 저장된다.
사용자의 입력 음성을 기반으로 사용자의 기본 정보를 확정하기 위하여, 하나의 DNN 모델을 사전 트레이닝하여야 한다. 트레이닝 과정에, 트레이닝 음성 중의 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 등 특징을 트레이닝 음성의 특징 파라미터로서 추출하고, 입력 파라미터로서 상기 DNN 모델에 입력하며, 상기 DNN 모델의 출력 파라미터와 상기 트레이닝 음성의 주석 파라미터 사이의 차이점을 기반으로 상기 DNN 모델의 모델 파라미터를 확정한다. 트레이닝을 완료한 후, 사용자가 입력한 한 단락의 입력 음성을 수신할 경우, 상기 DNN 모델은 상기 입력 음성의 특징을 기반으로 사용자의 나이, 성별, 출생지, 직업 등 기본 정보를 정확하게 판단할 수 있다.
S13에서, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정한다.
상기 음성 명령어에 대해 실행하는 내용 인식은 상기 음성 명령어에 대한 음성 인식이다. 상기 음성 명령어에 대한 음성 인식은 사용자의 기본 정보를 참고로 진행하는 음성 인식이다. 예를 들어, 사용자의 출생지 속성 및 사용자의 출생지에 대응되는 지역의 억양 특징을 참고로 사용자의 음성 명령어에 대한 음성 인식을 진행한다.
상기 음성 명령어에 대한 내용 인식을 완료한 후, 나아가 상기 음성 명령어에 대해 사용자의 가능한 의도를 확정한다. 상기 사용자의 가능한 의도는 사용자가 상기 음성 명령어 입력 시 가능한 목적이다. 상기 사용자의 가능한 의도는 차량 탑재 시스템이 다음으로 실행하여야 할 적어도 하나의 동작에 대응된다. 예를 들어, 상기 음성 명령어 "주걸륜의 노래들을 다시 틀어줘요"에 대해 의도 인식을 진행하여 획득한 사용자의 가능한 의도는, 차량 탑재 시스템에서의 주결륜의 노래들을 선택하고 선택된 노래들을 재생하는 동작에 대응된다.
S14에서, 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정한다.
사용자의 입력 음성에 대해 사용자의 적어도 하나의 가능한 의도를 확정한 후, 상기 DNN 모델을 기반으로 각 사용자의 음성 명령어의 신뢰도를 확정한다. 나아가, 상기 음성 명령어에 대해 진행한 내용 인식의 결과를 분석하고, 해당 결과를 상기 DNN 모델에 입력하여 사용자의 상이한 음성 명령어의 신뢰도를 획득할 수 있다.
S15에서, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정한다.
신뢰도 확정의 동작을 경과한 후, 사용자의 상이한 가능한 의도가 상이한 신뢰도에 대응된다는 것을 이해할 수 있을 것이다. 이때, 상기 사용자의 가능한 의도들로부터 신뢰도와 사전 확정된 신뢰도 구간 사이의 매칭도가 가장 높은 하나의 사용자의 가능한 의도를 선택하여, 상기 음성 명령어에 대응되는 사용자의 실제 의도로 한다.
S16에서, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행한다.
사용자의 실제 의도를 확정한 후, 상기 실제 의도에 대응되는 동작을 실행한다. 상기 동작은 음성을 재생시키는 동작, 동영상을 재생시키는 동작, 이미지를 표시하는 동작, 웹 페이지를 여는 동작 등일 수 있다.
본 실시예에 있어서, 사용자가 입력한 음성 명령어를 획득하고, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하고, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하며, 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하고, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하고, 상기 실제 의도에 따라 상응한 동작을 실행함으로써, 음성 명령어의 정확인식율을 효과적으로 향상시킨다.
제2 실시예
본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법 중의 기본 정보를 확정하는 일 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계는, 상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하는 단계와, 상기 음성 특징 파라미터, 상기 위치 및 상기 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하는 단계를 포함한다.
도2를 참조하면, 사전 트레이닝된 DNN 모델에 근거하여 사용자의 기본 정보를 확정하는 단계는 아래와 같은 단계들을 포함한다.
S21에서, 상기 음성 명령어로부터 음성 특징 파라미터를 추출한다.
사용자가 입력한 음성 명령어로부터 다수의 음성 특징 파라미터를 추출할 수 있다. 상기 음성 특징 파라미터는 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수, 기본 주파수 중의 적어도 하나를 포함한다. 상기 음성 명령어로부터 추출된 음성 특징 파라미터는 상기 음성 명령어의 특징으로서 상기 DNN 모델에 입력될 수 있다.
S22에서, 상기 음성 특징 파라미터, 위치 및 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 기본 정보를 확정한다.
상기 DNN은 DNN 이론을 기반으로 사전 트레이닝하여 획득한, 사용자의 기본 정보를 판단하기 위한 모델이다. 상기 기본 정보는 사용자의 성별, 나이, 출생지 및 직업을 포함한다.
상기 DNN은 입력층, 히든층 및 출력층으로 구성된다. 상기 입력층은 입력 파라미터를 수신하도록 구성되고, 상기 출력층은 연산 결과를 출력하도록 구성되며, 상기 히든층은 상기 입력 파라미터의 값를 기반으로 상기 연산 결과를 산출하도록 구성된다.
상기 입력 파라미터는 음성 특징 파라미터, 음성 명령어 입력 시 사용자가 위치한 위치 및 상기 음성 명령어를 입력한 시간을 포함한다. 상기 입력 파라미터를 상기 DNN에 입력한 후, 상기 입력층, 히든층 및 출력층의 산출을 기반으로 사용자의 기본 정보에 대한 판단 결과를 획득할 수 있다.
더욱 바람직하게, 상기 입력 파라미터는 호출된 사용자의 식별 번호(Called user identification number, CUID)를 더 포함할 수 있다. 상기 CUID는 사용자의 성별, 나이 등 기본 정보를 확정함에 있어서 중요한 참고적 가치를 지닌다.
본 실시예에 있어서, 상기 음성 명령어로부터 음성 특징 파라미터를 추출하고, 상기 음성 특징 파라미터, 상기 위치 및 상기 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 입력 파라미터를 기반으로 사용자의 기본 정보를 확정함으로써, DNN을 통해 사용자의 기본 정보를 판단하는 것을 실현한다.
제3 실시예
본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법의 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계는, 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계를 포함한다.
도3을 참조하면, 상기 차량용 음성 명령어 인식 방법은 아래와 같은 단계들을 포함한다.
S31, 사용자가 입력한 음성 명령어를 획득한다.
S32, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정한다.
S33, 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단한다.
세션(Session) 대상을 설정하여, 상기 세션 대상에 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지 및 사용자가 상기 나타났던 페이지 상에 머문 시간을 저장할 수 있다. 사용자의 가능한 의도를 판단해야 할 경우, 상기 세션 대상으로부터 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지 및 사용자가 각 페이지 상에 머문 시간을 획득하고, 상기 음성 명령어에 대한 인식 코퍼스를 결부하여 사용자의 가능한 의도를 종합적으로 판단한다.
예를 들어, 경험에 따르면, 3분간의 기정 시간 내에 나타났던 페이지가 네비게이션 페이지이고, 사용자가 네비게이션 페이지에 머문 시간이 3분이며, 상기 인식 코퍼스에 키워드 "네비"가 포함되어 있으면, 사용자의 실제 의도가 네비게이션 노선을 다시 계획하는 것일 가능성이 높으며, 상술한 상황이 나타날 경우, 네비게이션 노선을 다시 계획하는 것을 사용자의 가능한 의도로 판정할 수 있다.
S34에서, 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정한다.
S35에서, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정한다.
S36에서, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행한다.
본 실시예에 있어서, 사용자의 기본 정보를 확정한 후, 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단함으로써, 사용자의 가능한 의도에 대한 정확한 판단을 실현한다.
제4 실시예
본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법의 일 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계는, 사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계를 포함한다.
도4를 참조하면, 상기 차량용 음성 명령어 인식 방법은 아래와 같은 단계들을 포함한다.
S41에서, 사용자가 입력한 음성 명령어를 획득한다.
S42에서, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정한다.
S43에서, 사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단한다.
본 발명의 제3 실시예와 동일하게, 세션 대상을 설정하여, 상기 세션 대상에 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지 및 사용자가 상기 나타났던 페이지 상에 머문 시간을 저장할 수 있다. 사용자의 가능한 의도를 판단해야 할 경우, 상기 세션 대상으로부터 이전에 저장된 페이지 및 머문 시간 파라미터를 획득하고, 상기 음성 명령어의 인식 코퍼스에 결부하여 사용자의 가능한 의도를 종합적으로 판단한다.
예를 들어, 음성 명령어를 입력하기 전에 나타났던 두개의 페이지는 각각 음악 재생 페이지 및 지도 네비게이션 페이지이다. 사용자가 음악 재생 페이지 및 지도 네비게이션 페이지 상에 머문 시간은 각각 3분 및 2분 내지 10분이고, 상기 인식 코퍼스는 키워드 "네비"를 포함한다. 경험에 따르면, 이러할 경우, 사용자의 실제 의도가 네비게이션 노선을 다시 계획하는 것일 가능성이 매우 높다. 상술한 상황이 발생할 경우, 사용자의 가능한 의도를 네비게이션 노선을 다시 계획하는 것으로 판단할 수 있다.
S44에서, 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정한다.
S45에서, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정한다.
S46에서, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행한다.
본 실시예에 있어서, 사용자의 기본 정보를 확정한 후, 사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단함으로써, 사용자의 가능한 의도에 대한 정확한 판단을 실현한다.
제5 실시예
본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법 중의 신뢰도 확정에 대한 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하는 단계는, 상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하고, 상기 정서 상태를 기반으로 상기 사용자의 음성 명령어의 신뢰도를 획득하는 단계를 포함한다.
도5를 참조하면, 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하는 단계는 아래와 같은 단계들을 포함한다.
S51에서, 상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가한다.
상기 DNN 모델은 사용자의 기본 정보를 확정할 수 있을 뿐만 아니라, 음성 명령어의 신뢰도를 확정함에 있어서 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가할 수도 있다.
구체적으로, 다수의 사용자의 가능한 정서 상태를 사전에 정의할 수 있다. 예를 들어, 사용자의 정서 상태는 기쁨, 슬픔, 분노 등을 포함할 수 있다. 사용자의 정서 상태를 확정한 후, 상기 DNN 모델의 출력층에 상이한 정서 상태에 대응되는 출력 유닛을 설정한다. 이로써, 상기 DNN의 트레이닝을 완료한 후, 상기 DNN은 정서 상태의 평가에 이용될 수 있다.
S52에서, 상기 정서 상태를 기반으로 상기 사용자의 음성 명령어의 신뢰도를 획득한다.
구체적으로, 경험에 따라 사용자의 상이한 정서 상태에 대응되는 신뢰도의 값을 지정할 수 있다. 예를 들어, 경험에 따라 기쁜 정서 상태에서의 상기 신뢰도의 값을 최고치로 지정하고, 슬픈 정서 상태에서의 상기 신뢰도의 값을 최소치로 지정할 수 있다.
본 실시예에 있어서, 상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하며, 상기 정서 상태를 기반으로 상기 음성 명령어의 신뢰도를 획득함으로써, DNN 모델을 이용하여 음성 명령어 입력 시 사용자의 정서 상태를 평가하여, 나아가 상기 정서 상태를 기반으로 사용자의 음성 명령어의 신뢰도를 확정한다.
제6 실시예
본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법 중의 신뢰도 확정에 대한 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계는, 상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키고, 상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 하는 단계를 포함한다.
도6을 참조하면, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계는 아래와 같은 단계들을 포함한다.
S61에서, 상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시킨다.
상이한 가능한 의도는 상응한 신뢰도 구간에 대응된다. 예를 들어, 의도 "네비게이션 노선을 다시 계획하는 것"의 가능한 신뢰도 구간은 0.45 내지 0.6에 해당한다. 각 가능한 의도에 대응되는 신뢰도 구간을 사전에 수집하고, 상기 음성 명령어에 대응되는 가능한 의도 및 상기 음성 명령어의 신뢰도를 획득한 후, 상기 신뢰도와 수집된 각 신뢰도 구간을 매칭시킨다.
더욱 바람직하게, 가능한 의도, 즉, 사용자의 가능한 의도는 그에 대응되는 파라미터를 부가적으로 구비할 수도 있다. 예를 들어, "재생 모드를 변경하는" 의도가 부가적으로 구비할 수 있는 파라미터는 순환 재생, 순차 재생, 랜덤 재생 등 목표 재생 모드를 포함한다. 이때, 부가적으로 구비한 각 파라미터마다 하나의 독립적인 방안으로 간주하여야 하고, 이에 대응되는 신뢰도 구간을 개별적으로 수집하고, 상기 신뢰도를 획득한 후, 상기 신뢰도와 개별적으로 수집한 신뢰도 구간을 매칭시켜야 한다.
S62에서, 상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 한다.
신뢰도 구간의 매칭을 진행한 후, 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 가능한 의도를 사용자의 실제 의도로 한다.
본 실시예에 있어서, 상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키고, 상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 함으로써, 신뢰도 파라미터에 근거하여 사용자의 실제 의도를 인식하는 것을 실현한다.
제7 실시예
본 실시예는 본 발명의 상기 실시예를 기초로, 상기 차량용 음성 명령어 인식 방법 중의 의도 확정에 대한 기술적 방안을 더 제공한다. 해당 기술적 방안에 있어서, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계는, 상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하고, 상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하며, 상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도로 예상되는 동작을 실행한다.
도7을 참조하면, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계는 아래와 같은 단계들을 포함한다.
S71에서, 상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행한다.
사용자의 실제 의도를 확정한 후, 상기 실제 의도에 대응되는 동작을 실행할 지 여부는 상기 실제 의도의 실행 조건이 성립되는지 여부에 달려있다. 예를 들어, 실제 의도가 "위챗 보기"일 경우, 이에 대응되는 실행 조건은 차량이 멈춘 상태여야 한다. 음성 명령어를 수신하여 실제 의도 "위챗 보기"를 인식한 시간이 주차 상태에 처했을 때 일 경우, 상기 실제 의도에 대응되는 동작, 즉 위책 보기를 실행한다.
S72에서, 상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시한다.
실제 의도 "위챗 보기"를 예로 들면, 음성 명령어를 수신하여 실제 의도 "위챗 보기"를 인식한 시간이 주행 상태에 처했을 때 일 경우, 위챗 보기 동작을 실행하지 않고, 메세지의 방식으로 사용자에게 현재 상태에서 이러한 동작을 실행할 경우의 위험성을 제시한다.
S73에서, 상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도로 예상되는 동작을 실행한다.
사용자의 정서 상태가 좋지 않거나 사용자의 실제 의도를 판단하기 어려운 상황에서, 사용자의 실제 의도의 실행 조건에 대한 인식이 불명확할 수 있다. 이때, 상기 사용자의 실제 의도로 예상되는 동작을 실행하여야 하되, 상기 동작은 안전한 동작임을 필시 확보하여야 한다.
본 실시예에 있어서, 상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하고, 상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도로 예상되는 동작을 실행함으로써, 실행 조건에 대해 다시 확인하여 실행하는 동작의 안전성을 확보한다.
제8 실시예
본 실시예는 상기 차량용 음성 명령어 인식 방법의 일 기술적 방안을 제공한다. 해당 기술적 방안에 있어서, 상기 차량용 음성 명령어 인식 방법은, 사용자의 기본 정보를 판단하는 단계와, 세션 처리에 근거하여 사용자의 가능한 의도를 획득하는 단계와, 의도 신뢰도 처리를 기반으로 사용자의 상이한 음성 명령어의 신뢰도를 획득하는 단계와, 안전 처리를 기반으로 실행하여야 할 동작을 확정하는 단계와, 종합적으로 판단한 결과에 근거하여 상응한 동작을 실행할 지 여부를 확정하는 단계를 포함한다.
도8을 참조하면, 상기 차량용 음성 명령어 인식 방법은 아래와 같은 단계들을 포함한다.
S81에서, 사용자의 기본 정보를 판단한다.
본 실시예에 있어서, 사전 트레이닝된 DNN을 통해 사용자의 기본 정보를 인식한다. 상기 기본 정보는 사용자의 나이, 성별, 출생지, 직업 등을 포함한다.
S82에서, 세션 처리를 기반으로 사용자의 가능한 의도를 획득한다.
세션 대상을 이용하여 저장한 사용자가 음성 명령어를 발송하기 전에 사용하였던 페이지를 기반으로 사용자의 가능한 의도를 획득한다.
S83에서, 의도 신뢰도 처리를 기반으로 사용자의 상이한 음성 명령어의 신뢰도를 획득한다.
본 실시예에 있어서, 마찬가지로, 사전 트레이닝된 DNN을 기반으로 상이한 음성 명령어의 신뢰도를 인식한다.
S84에서, 안전 처리를 기반으로 실행하여야 할 동작을 확정한다.
차량의 현재 상태에 대한 인식을 통해, 실행해야 할 동작이 안전 동작인지를 확정함으로써, 나아가 실행하여야 하는 동작을 확정한다.
S85에서, 종합적으로 판단한 결과에 근거하여 상응한 동작을 실행할 지 여부를 확정한다.
앞선 몇 단계의 결과에 대한 종합적인 판단을 통해, 상응한 동작을 실행하여야 할지 여부를 확정한다.
본 실시예에 있어서, 사용자의 기본 정보를 판단하고, 세션 처리를 기반으로 사용자의 가능한 의도를 획득하고, 의도 신뢰도 처리를 기반으로 사용자의 상이한 음성 명령어의 신뢰도를 획득하고, 안전 처리를 기반으로 실행하여야 할 동작을 확정하고, 종합적으로 판단한 결과에 근거하여 상응한 동작을 실행할지 여부를 확정함으로써, 음성 명령어의 획득에서부터 상응한 동작의 실행까지의 전체적인 과정을 실현한다.
제9 실시예
본 실시예는 차량용 음성 명령어 인식 장치의 일 기술적 방안을 제공한다. 해당 기술적 방안에 있어서, 상기 차량용 음성 실행 인식 장치는, 명령어 획득 모듈(91), 기본 정보 확정 모듈(92), 의도 인식 모듈(93), 신뢰도 확정 모듈(94), 의도 확정 모듈(95) 및 동작 실행 모듈(96)을 포함한다.
상기 명령어 획득 모듈(91)은 사용자가 입력한 음성 명령어를 획득하도록 구성된다.
상기 기본 정보 확정 모듈(92)은 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하도록 구성된다.
상기 의도 인식 모듈(93)은 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하도록 구성된다.
상기 신뢰도 확정 모듈(94)은 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하도록 구성된다.
상기 의도 확정 모듈(95)은 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하도록 구성된다.
상기 동작 실행 모듈(96)은 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하도록 구성된다.
나아가, 상기 기본 정보 확정 모듈(92)은, 특징 추출 유닛 및 DNN 인식 유닛을 포함한다.
상기 특징 추출 유닛은 상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하도록 구성된다.
상기 DNN 인식 유닛은 상기 음성 특징 파라미터, 상기 위치 및 상기 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하도록 구성된다.
나아가, 상기 의도 인식 모듈(93)은, 제1 의도 인식 유닛 또는 제2 의도 인식 유닛을 포함한다.
상기 제1 의도 인식 유닛은 사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하도록 구성된다.
상기 제2 의도 인식 유닛은 사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하도록 구성된다.
나아가, 상기 신뢰도 확정 모듈(94)은, 정서 평가 유닛 및 신뢰도 획득 유닛을 포함한다.
상기 정서 평가 유닛은 상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하도록 구성된다.
상기 신뢰도 획득 유닛은 상기 정서 상태를 기반으로 상기 사용자의 음성 명령어의 신뢰도를 획득하도록 구성된다.
나아가, 상기 의도 확정 모듈(95)은, 매칭 유닛 및 실제 의도 획득 유닛을 포함한다.
상기 매칭 유닛은 상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키도록 구성된다.
상기 실제 의도 획득 유닛은 상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 간주하도록 구성된다.
나아가, 상기 동작 실행 모듈(96)은, 제1 동작 실행 유닛, 제2 동작 실행 유닛 및 제3 동작 실행 유닛을 포함한다.
상기 제1 동작 실행 유닛은 상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하도록 구성된다.
상기 제2 동작 실행 유닛은 상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하도록 구성된다.
상기 제3 동작 실행 유닛은 상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도로 예상되는 동작을 실행하도록 구성된다.
상기 차량용 음성 명령어 인식 장치는 본 발명의 임의의 실시예에서 제공하는 차량용 음성 명령어 인식 방법을 실행할 수 있으며, 실행 방법에 해당하는 기능 모듈 및 유익한 효과를 구비한다.
해당 분야의 당업자들은 상술한 본 발명의 각 모듈 또는 각 단계들이 범용의 컴퓨팅 장치에 의해 실현될 수 있으며, 이들이 단일 컴퓨팅 장치에 집중되거나 다수의 컴퓨팅 장치로 구성된 네트워크 상에 분포될 수 있으며, 선택적으로, 이들이 컴퓨팅 장치가 실행 가능한 프로그램 코드로 실현될 수 있고, 따라서, 이들을 저장 장치에 저장하여 컴퓨팅 장치로 실행하거나 이들을 각각 별개의 집적 회로 모듈로 제작하거나 또는 이들 중의 다수의 모듈 또는 단계를 단일 집적 회로 모듈로 제작하여 실현할 수 있음을 이해할 것이다. 본 발명은 그 어떤 특정된 하드웨어 및 소프트웨어의 결합에 한정되지 않는다.
제10 실시예
하나 또는 다수의 컴퓨터 실행 가능한 명령어를 포함하는 저장 매체를 제공한다. 상기 컴퓨터 실행 가능한 명령어는 컴퓨터 프로세서로 실행될 경우 차량용 음성 명령어 인식 방법을 실행하며, 상기 방법은,
사용자가 입력한 음성 명령어를 획득하는 단계와,
사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계와,
상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계와,
상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하는 단계와,
상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계와,
상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계를 포함한다.
상기 저장 매체가 상기 방법을 실행할 경우, 사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계는,
상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하는 단계와,
상기 음성 특징 파라미터, 위치 및 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하는 단계를 포함한다.
상기 저장 매체가 상기 방법을 실행할 경우, 상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계는,
사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계; 또는
사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계를 포함한다.
상기 저장 매체가 상기 방법을 실행할 경우, 상기 DNN 모델을 기반으로 사용자의 음성 명령어의 신뢰도를 확정하는 단계는,
상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하는 단계와,
상기 정서 상태를 기반으로 상기 사용자의 음성 명령어의 신뢰도를 획득하는 단계를 포함한다.
상기 저장 매체가 상기 방법을 실행할 경우, 상기 신뢰도에 기반하여 상기 사용자의 가능한 의도들로부터 사용자의 실제 의도를 확정하는 단계는,
상기 신뢰도와 상기 사용자의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키는 단계와,
상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 간주하는 단계를 포함한다.
상기 저장 매체가 상기 방법을 실행할 경우, 상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계는,
상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하는 단계와,
상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하는 단계와,
상기 사용자의 실제 의도의 실행 조건이 불확정할 경우, 상기 사용자의 실제 의도로 예상되는 동작을 실행하는 단계를 포함한다.
본 발명은 소프트웨어 및 필요한 하드웨어로 실현될 수 있으며, 물론 하드웨어로만 실현될 수도 있으나, 대부분 경우, 전자가 더욱 바람직한 실시예이며, 이러한 이해를 기반으로 본 발명의 기술적 방안은 본질적으로 또는 기존의 기술에 대해 기여가 되는 부분은 소프트웨어 제품의 형식으로 구현할 수 있으며, 컴퓨터 소프트웨어 제품은 자기 디스크, 콤팩트디스크, 판독 전용 기억 장치(Read-Only Memory, ROM) 또는 랜덤 액세스 기억 장치(Random Access Memory, RAM) 등과 같은 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 다수의 명령어를 포함하여 하나의 컴퓨터 장치(개인용 컴퓨터, 서버 또는 네트워크 장치 등일 수 있음)로 하여금 본 발명의 각 실시예 중의 상기 방법들을 실행하도록 할 수 있음을 해당 기술분야의 당업자들은 상술한 실시예들에 관한 설명을 통해 명확히 이해할 것이다.
상기 차량용 음성 명령어 인식 장치의 실시예에 있어서, 포함된 각 유닛 및 모듈은 오직 기능적 로직에 따라 구분된 것이나, 이는 상술한 구분에 한정되지 않으며, 상응한 기능을 실현할 수만 있으면 되고, 또한, 각 기능 유닛의 구체적인 명칭도 상호 구분의 편리를 위해 명명된 것 일 뿐, 본 발명의 보호 범위를 한정하기 위한 것은 아니다.
상술한 바와 같이, 이는 본 발명의 구체적인 실시예일 뿐, 본 발명의 보호 범위를 한정하지 않으며, 해당 기술분야의 임의의 당업자가 본 발명에 개시된 기술적 범위 내에서 용이하게 생각해 낼 수 있는 변경 또는 대체는 모두 본 발명의 보호 범위에 포함되어야 한다. 따라서, 본 발명의 보호 범위는 첨부된 청구항의 보호 범위를 기준으로 정의된다.
본 명세서 중의 각 실시예는 모두 점진적인 방식으로 설명을 진행하며, 각 실시예들에서 중점적으로 설명하고자 하는 것은 모두 기타 실시예들과의 차이점들이며, 각 실시예들 사이의 동일하거나 유사한 부분은 서로 참조할 수 있다.
상술한 바와 같이, 이는 본 발명의 구체적인 실시예일 뿐, 본 발명의 보호 범위를 한정하지 않으며, 해당 기술분야의 임의의 당업자가 본 발명에 개시된 기술적 범위 내에서 용이하게 생각해 낼 수 있는 변화 또는 대체는 모두 본 발명의 보호 범위에 포함되어야 한다. 따라서, 본 발명의 보호 범위는 첨부된 청구항의 보호 범위를 기준으로 정의된다.

Claims (13)

  1. 사용자가 입력한 음성 명령어를 획득하는 단계;
    사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계;
    상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계;
    상기 DNN 모델을 기반으로 사용자의 상기 음성 명령어의 신뢰도를 확정하는 단계;
    상기 신뢰도에 기반하여, 상기 사용자의 적어도 하나의 가능한 의도로부터 사용자의 실제 의도를 확정하는 단계; 및
    상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
  2. 제1항에 있어서,
    사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계는,
    상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하는 단계; 및
    상기 음성 특징 파라미터, 위치 및 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
  3. 제1항에 있어서,
    상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계는,
    사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계; 또는
    사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
  4. 제1항에 있어서,
    상기 DNN 모델을 기반으로 사용자의 상기 음성 명령어의 신뢰도를 확정하는 단계는,
    상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하는 단계; 및
    상기 정서 상태를 기반으로 상기 사용자의 상기 음성 명령어의 신뢰도를 획득하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
  5. 제1항에 있어서,
    상기 사용자의 적어도 하나의 가능한 의도에 대응되는 신뢰도 구간은 사전에 수집되고,
    상기 신뢰도에 기반하여, 상기 사용자의 적어도 하나의 가능한 의도로부터 사용자의 실제 의도를 확정하는 단계는,
    상기 신뢰도와, 상기 사용자의 적어도 하나의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키는 단계; 및
    상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 간주하는 단계;를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
  6. 제1항에 있어서,
    상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계는,
    상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하는 단계; 및
    상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하는 단계를 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 방법.
  7. 사용자가 입력한 음성 명령어를 획득하도록 구성된 명령어 획득 모듈;
    사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하도록 구성된 기본 정보 확정 모듈;
    상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하도록 구성된 의도 인식 모듈;
    상기 DNN 모델을 기반으로 사용자의 상기 음성 명령어의 신뢰도를 확정하도록 구성된 신뢰도 확정 모듈;
    상기 신뢰도에 기반하여 상기 사용자의 적어도 하나의 가능한 의도로부터 사용자의 실제 의도를 확정하도록 구성된 의도 확정 모듈; 및
    상기 사용자의 실제 의도에 따라 상응한 동작을 실행하도록 구성된 동작 실행 모듈;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
  8. 제7항에 있어서,
    상기 기본 정보 확정 모듈은,
    상기 음성 명령어로부터 제로 크로싱 율, 단시간 에너지, 캡스트럴 계수 및 기본 주파수 중 적어도 하나를 포함하는 음성 특징 파라미터를 추출하도록 구성된 특징 추출 유닛;
    상기 음성 특징 파라미터, 위치 및 시간을 상기 DNN의 입력 파라미터로 하고, 상기 DNN의 출력 파라미터를 기반으로 사용자의 성별, 나이, 출생지 및 직업 중 적어도 하나를 포함하는 사용자의 기본 정보를 확정하도록 구성된 DNN 인식 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
  9. 제7항에 있어서,
    상기 의도 인식 모듈은,
    사용자가 상기 음성 명령어를 입력하기 전의 기정 시간 내에 나타났던 페이지를 획득하고, 상기 기정 시간 내에 나타났던 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하도록 구성된 제1 의도 인식 유닛; 또는
    사용자가 상기 음성 명령어를 입력하기 전에 나타났던 기정 수량의 페이지를 획득하고, 상기 나타났던 기정 수량의 페이지, 각 페이지에 머문 시간 및 상기 음성 명령어 내의 관건적인 인식 코퍼스를 기반으로 사용자의 가능한 의도를 판단하도록 구성된 제2 의도 인식 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
  10. 제7항에 있어서,
    상기 신뢰도 확정 모듈은,
    상기 음성 명령어의 음성 특징 파라미터를 입력 파라미터로 하고, 상기 DNN 모델을 이용하여 상기 음성 명령어 입력 시 사용자의 정서 상태를 평가하도록 구성된 정서 평가 유닛; 및
    상기 정서 상태를 기반으로 상기 사용자의 상기 음성 명령어의 신뢰도를 획득하도록 구성된 신뢰도 획득 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
  11. 제7항에 있어서,
    상기 사용자의 적어도 하나의 가능한 의도에 대응되는 신뢰도 구간은 사전에 수집되고,
    상기 의도 확정 모듈은,
    상기 신뢰도와, 상기 사용자의 적어도 하나의 가능한 의도에 대응되는 신뢰도 구간을 매칭시키도록 구성된 매칭 유닛; 및
    상기 신뢰도와 매칭 정도가 가장 높은 신뢰도 구간에 대응되는 사용자의 가능한 의도를 사용자의 실제 의도로 간주하도록 구성된 실제 의도 획득 유닛;을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
  12. 제7항에 있어서,
    상기 동작 실행 모듈은,
    상기 사용자의 실제 의도의 실행 조건이 성립될 경우, 상기 사용자의 실제 의도에 대응되는 동작을 실행하도록 구성된 제1 동작 실행 유닛;
    상기 사용자의 실제 의도의 실행 조건이 성립되지 않을 경우, 상기 사용자의 실제 의도에 대응되는 동작의 실행을 종료하고, 사용자에게 제시하도록 구성된 제2 동작 실행 유닛을 포함하는 것을 특징으로 하는 차량용 음성 명령어 인식 장치.
  13. 하나 또는 다수의 컴퓨터 실행 가능한 명령어를 포함하는 저장 매체에 있어서,
    상기 컴퓨터 실행 가능한 명령어가 컴퓨터 프로세서에 의해 실행될 경우, 차량용 음성 명령어 인식 방법을 실행하며, 상기 방법은,
    사용자가 입력한 음성 명령어를 획득하는 단계;
    사전 트레이닝된 심층 신경망DNN 모델을 기반으로 사용자의 기본 정보를 확정하는 단계;
    상기 사용자의 기본 정보를 기반으로 음성 명령어에 대해 내용 인식을 진행하고, 인식된 내용 및 사용자가 상기 음성 명령어를 입력한 때의 사용 페이지의 맥락을 기반으로 사용자의 적어도 하나의 가능한 의도를 확정하는 단계;
    상기 DNN 모델을 기반으로 사용자의 상기 음성 명령어의 신뢰도를 확정하는 단계;
    상기 신뢰도에 기반하여 상기 사용자의 적어도 하나의 가능한 의도로부터 사용자의 실제 의도를 확정하는 단계; 및
    상기 사용자의 실제 의도에 따라 상응한 동작을 실행하는 단계;를 포함하는 것을 특징으로 하는 저장 매체.

KR1020177014756A 2015-07-02 2015-11-23 차량용 음성 명령어 인식 방법, 장치 및 저장 매체 KR101955958B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510382215.9 2015-07-02
CN201510382215.9A CN105070288B (zh) 2015-07-02 2015-07-02 车载语音指令识别方法和装置
PCT/CN2015/095269 WO2017000489A1 (zh) 2015-07-02 2015-11-23 车载语音指令识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
KR20170078788A KR20170078788A (ko) 2017-07-07
KR101955958B1 true KR101955958B1 (ko) 2019-03-08

Family

ID=54499641

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177014756A KR101955958B1 (ko) 2015-07-02 2015-11-23 차량용 음성 명령어 인식 방법, 장치 및 저장 매체

Country Status (6)

Country Link
US (1) US10446150B2 (ko)
EP (1) EP3319081A4 (ko)
JP (1) JP6458149B2 (ko)
KR (1) KR101955958B1 (ko)
CN (1) CN105070288B (ko)
WO (1) WO2017000489A1 (ko)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
CN105376416A (zh) * 2015-12-04 2016-03-02 广东小天才科技有限公司 一种通话终端的控制方法和装置
CN106910513A (zh) * 2015-12-22 2017-06-30 微软技术许可有限责任公司 情绪智能聊天引擎
CN105529030B (zh) * 2015-12-29 2020-03-03 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106940998B (zh) * 2015-12-31 2021-04-16 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
CN105931642B (zh) * 2016-05-31 2020-11-10 北京京东尚科信息技术有限公司 语音识别方法、设备及系统
CN106228989A (zh) * 2016-08-05 2016-12-14 易晓阳 一种语音交互识别控制方法
CN106601231A (zh) * 2016-12-22 2017-04-26 深圳市元征科技股份有限公司 车辆控制方法和装置
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
CN107424607B (zh) * 2017-07-04 2023-06-06 珠海格力电器股份有限公司 语音控制模式切换方法、装置及具有该装置的设备
CN107316643B (zh) * 2017-07-04 2021-08-17 科大讯飞股份有限公司 语音交互方法及装置
CN107464115A (zh) * 2017-07-20 2017-12-12 北京小米移动软件有限公司 个人特征信息验证方法及装置
CN107507621B (zh) * 2017-07-28 2021-06-22 维沃移动通信有限公司 一种噪声抑制方法及移动终端
CN107590123B (zh) * 2017-08-07 2022-07-05 大众问问(北京)信息科技有限公司 车载中地点上下文指代消解方法及装置
CN107945796B (zh) * 2017-11-13 2021-05-25 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读介质
CN108564374A (zh) * 2018-04-12 2018-09-21 出门问问信息科技有限公司 支付认证方法、装置、设备及存储介质
CN108648752A (zh) * 2018-04-17 2018-10-12 重庆物奇科技有限公司 一种基于云处理的智能语音控制系统及其控制方法
CN110390938A (zh) * 2018-04-20 2019-10-29 比亚迪股份有限公司 基于声纹的语音处理方法、装置和终端设备
CN110019740B (zh) * 2018-05-23 2021-10-01 京东方科技集团股份有限公司 车载终端的交互方法、车载终端、服务器和存储介质
CN109263649B (zh) * 2018-08-21 2021-09-17 北京汽车股份有限公司 车辆及其自动驾驶模式下的物体识别方法和物体识别系统
CN110875038A (zh) * 2018-09-03 2020-03-10 蔚来汽车有限公司 意图行为关系的定义方法及意图转换为行为的执行方法
KR20200042627A (ko) * 2018-10-16 2020-04-24 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109618204B (zh) * 2018-12-12 2021-04-23 百度在线网络技术(北京)有限公司 多媒体资源播放方法和装置
CN111508482A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 语义理解及语音交互方法、装置、设备及存储介质
KR102041617B1 (ko) * 2019-03-07 2019-11-27 주식회사 다이얼로그디자인에이전시 인공 지능의 다양한 스타일의 응답 제공 방법 및 장치
CN109948537A (zh) * 2019-03-19 2019-06-28 苏州宏裕千智能设备科技有限公司 基于用户意图识别的车载设备操控方法及其系统
CN109878441B (zh) * 2019-03-21 2021-08-17 百度在线网络技术(北京)有限公司 车辆控制方法和装置
CN111796926A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
KR102017229B1 (ko) * 2019-04-15 2019-09-02 미디어젠(주) 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템
CN110276072B (zh) * 2019-06-10 2021-07-23 湖北亿咖通科技有限公司 电子设备、存储介质及基于神经网络的语义意图识别方法
CN110400563A (zh) * 2019-07-18 2019-11-01 平安科技(深圳)有限公司 车载语音指令识别方法、装置、计算机设备及存储介质
US11568239B2 (en) * 2019-08-13 2023-01-31 Lg Electronics Inc. Artificial intelligence server and method for providing information to user
CN110534093A (zh) * 2019-08-26 2019-12-03 河北微幼趣教育科技有限公司 对幼儿语音识别的请假方法、服务器、客户端
CN110534098A (zh) * 2019-10-09 2019-12-03 国家电网有限公司客户服务中心 一种年龄增强的语音识别增强方法和装置
CN110648654A (zh) * 2019-10-09 2020-01-03 国家电网有限公司客户服务中心 一种引入语言向量的语音识别增强方法和装置
CN110853621B (zh) * 2019-10-09 2024-02-13 科大讯飞股份有限公司 语音顺滑方法、装置、电子设备及计算机存储介质
CN110795532A (zh) * 2019-10-18 2020-02-14 珠海格力电器股份有限公司 一种语音信息的处理方法、装置、智能终端以及存储介质
US11676586B2 (en) * 2019-12-10 2023-06-13 Rovi Guides, Inc. Systems and methods for providing voice command recommendations
CN111081225B (zh) * 2019-12-31 2022-04-01 思必驰科技股份有限公司 技能语音唤醒方法及装置
CN111261196A (zh) * 2020-01-17 2020-06-09 厦门快商通科技股份有限公司 一种年龄预估方法和装置以及设备
CN111210821A (zh) * 2020-02-07 2020-05-29 普强时代(珠海横琴)信息技术有限公司 一种基于互联网应用的智能语音识别系统
US11722324B2 (en) * 2020-03-11 2023-08-08 Pricewaterhousecoopers Llp Secure and accountable execution of robotic process automation
CN111737544A (zh) * 2020-05-13 2020-10-02 北京三快在线科技有限公司 搜索意图识别方法、装置、电子设备和存储介质
CN111767021A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音交互方法、车辆、服务器、系统和存储介质
KR102491119B1 (ko) * 2020-09-17 2023-01-25 주식회사 인텔로이드 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램
CN112489639A (zh) * 2020-11-26 2021-03-12 北京百度网讯科技有限公司 音频信号处理方法及装置、系统、电子设备、可读介质
CN112466280B (zh) * 2020-12-01 2021-12-24 北京百度网讯科技有限公司 语音交互方法、装置、电子设备和可读存储介质
DE102021129535A1 (de) * 2021-11-12 2023-05-17 Ford Global Technologies, Llc System und Verfahren zum Steuern von autonom steuerbaren Fahrzeugfunktionen eines mit Partnersubjekten kooperierenden autonomen Fahrzeugs, Computerprogrammprodukt, computerlesbarer Datenträger und Fahrzeug
CN114120972B (zh) * 2022-01-28 2022-04-12 科大讯飞华南有限公司 一种基于场景化的语音智能识别方法及系统
CN115056746A (zh) * 2022-06-10 2022-09-16 浙江吉利控股集团有限公司 应用于车辆的用户意图识别方法、装置、设备
CN115294976A (zh) * 2022-06-23 2022-11-04 中国第一汽车股份有限公司 一种基于车载语音场景的纠错交互方法、系统及其车辆

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05157311A (ja) * 1991-12-03 1993-06-22 Matsushita Electric Ind Co Ltd 空調制御装置
KR100775006B1 (ko) * 2005-11-30 2007-11-08 한국정보통신대학교 산학협력단 상황인지 기반의 이동 서비스를 제공하는 단말 장치 및 그방법과, 그 단말 장치와 협력하여 옥내 이동 서비스를제공하는 서버 시스템
KR100764174B1 (ko) * 2006-03-03 2007-10-08 삼성전자주식회사 음성 대화 서비스 장치 및 방법
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
US9502025B2 (en) * 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8972253B2 (en) * 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
CN103024530A (zh) * 2012-12-18 2013-04-03 天津三星电子有限公司 智能电视语音应答系统及方法
JP2016508271A (ja) * 2013-01-04 2016-03-17 コピン コーポレーション 制御可能なヘッドセットコンピュータディスプレイ
KR20240132105A (ko) * 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9177550B2 (en) * 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US9666188B2 (en) * 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US20160163314A1 (en) * 2013-11-25 2016-06-09 Mitsubishi Electric Corporation Dialog management system and dialog management method
CN104751842B (zh) * 2013-12-31 2019-11-15 科大讯飞股份有限公司 深度神经网络的优化方法及系统
CN104021373B (zh) * 2014-05-27 2017-02-15 江苏大学 一种半监督语音特征可变因素分解方法
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN105070288B (zh) 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
TWI640943B (zh) * 2015-10-27 2018-11-11 大陸商北京嘀嘀無限科技發展有限公司 遞送訊息的系統和方法
US20170357521A1 (en) * 2016-06-13 2017-12-14 Microsoft Technology Licensing, Llc Virtual keyboard with intent-based, dynamically generated task icons
US20180046470A1 (en) * 2016-08-11 2018-02-15 Google Inc. Methods, systems, and media for presenting a user interface customized for a predicted user activity
US10176808B1 (en) * 2017-06-20 2019-01-08 Microsoft Technology Licensing, Llc Utilizing spoken cues to influence response rendering for virtual assistants

Also Published As

Publication number Publication date
WO2017000489A1 (zh) 2017-01-05
CN105070288A (zh) 2015-11-18
KR20170078788A (ko) 2017-07-07
JP6458149B2 (ja) 2019-01-23
EP3319081A1 (en) 2018-05-09
US10446150B2 (en) 2019-10-15
CN105070288B (zh) 2018-08-07
EP3319081A4 (en) 2018-07-04
JP2018503857A (ja) 2018-02-08
US20180190283A1 (en) 2018-07-05

Similar Documents

Publication Publication Date Title
KR101955958B1 (ko) 차량용 음성 명령어 인식 방법, 장치 및 저장 매체
CN109086329B (zh) 基于话题关键词引导的进行多轮对话方法及装置
CN108255934B (zh) 一种语音控制方法及装置
CN109920410B (zh) 用于基于车辆的环境确定推荐的可靠性的装置和方法
DE112016004863T5 (de) Parametersammlung und automatische Dialogerzeugung in Dialogsystemen
CN105096941A (zh) 语音识别方法以及装置
US10741178B2 (en) Method for providing vehicle AI service and device using the same
CN113421561B (zh) 语音控制方法、语音控制装置、服务器和存储介质
CN109360551B (zh) 一种语音识别方法及装置
JP2011215742A (ja) 対話システム、対話フローの更新方法およびプログラム
CN107170447B (zh) 声音处理系统以及声音处理方法
CN117316164A (zh) 语音交互的处理方法、装置、存储介质及电子设备
CN117407507A (zh) 基于大语言模型的事件处理方法、装置、设备及介质
US11705108B1 (en) Visual responses to user inputs
CN105955698B (zh) 一种语音操控方法及装置
CN115602160A (zh) 基于语音识别的业务办理方法、装置及电子设备
Frampton et al. Using dialogue acts to learn better repair strategies for spoken dialogue systems
WO2006003542A1 (en) Interactive dialogue system
EP4216209B1 (en) Speech recognition method, terminal and storage medium
CN116168704B (zh) 语音交互的引导方法、装置、设备、介质及车辆
WO2023019517A1 (zh) 推荐指令的方法及其装置
CN117577106A (zh) 语音意图确定方法、装置、设备及存储介质
CN116844555A (zh) 车辆语音交互的方法及装置、车辆、电子设备和存储介质
CN114861680A (zh) 对话处理方法及装置
CN117669678A (zh) 模型训练方法、装置、计算机设备、存储介质及程序产品

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant