KR102329888B1 - 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법 - Google Patents

음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법 Download PDF

Info

Publication number
KR102329888B1
KR102329888B1 KR1020170002863A KR20170002863A KR102329888B1 KR 102329888 B1 KR102329888 B1 KR 102329888B1 KR 1020170002863 A KR1020170002863 A KR 1020170002863A KR 20170002863 A KR20170002863 A KR 20170002863A KR 102329888 B1 KR102329888 B1 KR 102329888B1
Authority
KR
South Korea
Prior art keywords
guide message
output
time
user
voice recognition
Prior art date
Application number
KR1020170002863A
Other languages
English (en)
Other versions
KR20180081933A (ko
Inventor
김비호
Original Assignee
현대자동차주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사 filed Critical 현대자동차주식회사
Priority to KR1020170002863A priority Critical patent/KR102329888B1/ko
Priority to US15/630,076 priority patent/US10629210B2/en
Publication of KR20180081933A publication Critical patent/KR20180081933A/ko
Application granted granted Critical
Publication of KR102329888B1 publication Critical patent/KR102329888B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/34Microprocessors

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Navigation (AREA)
  • Telephone Function (AREA)

Abstract

안내 메시지를 수정하고 사용자에게 보다 적합한 길이의 안내 메시지를 제공함으로써, 사용자가 음성 인식을 편리하게 사용할 수 있게 하고, 사용자의 행동에 기초한 탄력적인 출력을 제공하여 인터랙션을 강화하는 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법을 제공한다.
개시된 일 예에 따른 음성 인식 장치는 음성 명령을 수신하는 수신부; 안내 메시지를 출력하는 제공부; 상기 음성 명령에 대응하여 상기 제공부를 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 패턴을 분석하여 상기 청취 패턴에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함한다.

Description

음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법{SPEECH RECOGNITION APPARATUS, VEHICLE HAVING THE SAME AND CONTROLLING METHOD OF SPEECH RECOGNITION APPARATUS}
사용자의 음성 명령을 인식하여 사용자에게 편리한 서비스를 제공하는 기술에 관한 것이다.
디지털 디바이스가 출시된 이후, 디지털 디바이스를 조작하기 위한 인터페이스는 다양하게 발전되어 왔다. 최근에는 평판 디스플레이와 정전식 터치 센서가 스마트폰, 태블릿 등 다양한 개인용 스마트 기기를 조작하기 위한 대표적인 센서로 널리 활용되고 있다.
터치 센서의 장점은 직관적이고, 명령에 대한 피드백을 즉각적으로 받을 수 있다는 점이다. 그러나, 두 손이 자유롭지 않은 경우, 복잡한 명령을 수행하는 경우, 여러 단계의 상호작용을 거쳐 명령을 수행해야 하는 경우, 또는 긴 텍스트를 입력해야 하는 경우 등과 같이 복잡한 인터렉션(Interaction)이 필요한 상황에서는 터치 센서의 활용성이 떨어진다는 단점이 있다.
반면에, 음성 인식 센서는 자연스럽고 직관적인 인터페이스로서, 활용성이 떨어진다는 터치 센서의 단점을 보완할 수 있다. 이에 따라, 음성 인식 센서는 차량용 기기 제어, 스마트 기기용 음성 비서 등을 중심으로 활용이 증대되고 있다.
이러한 음성 인식 센서를 포함하는 음성 인식 장치는 사용자의 음성을 인식하고, 사용자의 음성에 관련된 여러 다양한 동작을 통해 인터랙션을 강화한다. 예를 들어 음성 인식 장치는 차량에서 운전자의 음성을 인식하여, 음성 인식에 따라 관계되는 안내 동작 또는 안내 메시지를 출력한다.
한편, 이러한 안내 메시지는 음성 인식 장치에 저장된 시나리오를 통해서 진행된다. 이 때, 사용자는 반복적인 사용에 의해서 안내 메시지를 충분히 인식하고 있어, 내용을 듣지 않고 또는 앞부분만을 듣고 반응하는 경우가 있었다.
사용자의 사용 패턴에 따라 안내 메시지를 수정하고, 보다 적합한 길이의 안내 메시지를 제공함으로써, 사용자가 음성 인식을 편리하게 사용할 수 있게 하고, 사용자의 행동에 기초한 탄력적인 출력을 제공하여 인터랙션을 강화하는 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법을 제공한다.
개시된 일 예에 따른 음성 인식 장치는 음성 명령을 수신하는 수신부; 안내 메시지를 출력하는 제공부; 상기 음성 명령에 대응하여 상기 제공부를 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 패턴을 분석하여 상기 청취 패턴에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함한다.
상기 청취 패턴은 상기 안내 메시지의 평균적인 청취 시간을 포함하고, 상기 청취 시간은, 상기 안내 메시지가 출력 되는 시점으로부터 사용자의 입력에 의해서 상기 출력이 중단되는 시점까지의 시간을 포함할 수 있다.
상기 제어부는, 미리 설정된 시간과 상기 청취 시간을 비교하여 상기 안내 메시지의 출력을 조정할 수 있다.
상기 제어부는, 상기 청취 시간이 미리 설정된 시간 이상이면, 상기 안내 메시지보다 짧아진 안내 메시지를 출력할 수 있다.
상기 제어부는, 상기 짧아진 안내 메시지와 상기 청취 시간을 비교하여 상기 짧아진 안내 메시지의 출력 속도를 조정할 수 있다.
상기 제어부는, 상기 청취 패턴이 미리 설정된 시간 미만이면, 상기 안내 메시지를 출력하지 않고, 비프(Beep)음을 출력하도록 상기 제공부를 제어할 수 있다.
상기 제어부는, 상기 안내 메시지가 출력되는 동안 사용자로부터 새로운 음성 명령을 수신하면, 상기 안내 메시지의 출력을 중단할 수 있다.
상기 청취 시간을 저장하는 음성 명령 데이터베이스;를 더 포함하고, 상기 제어부는, 상기 음성 명령 데이터베이스에 저장된 상기 청취 시간의 평균 시간에 기초하여 상기 안내 메시지의 출력을 조정할 수 있다.
개시된 다른 실시예에 따른 차량은 음성 명령을 수신하는 수신부; 안내 메시지를 포함하는 서비스를 출력하는 AVN(Audio Video Navigation) 단말; 상기 음성 명령에 대응하여 상기 AVN 단말을 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 패턴을 분석하여 상기 청취 패턴에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함한다.
상기 청취 패턴은 상기 안내 메시지의 평균적인 청취 시간을 포함하고, 상기 청취 시간은, 상기 안내 메시지가 출력 되는 시점으로부터 사용자의 입력에 의해서 상기 출력이 중단되는 시점까지의 시간을 포함할 수 있다.
상기 제어부는, 상기 청취 시간이 미리 설정된 시간 이상이면, 상기 안내 메시지보다 짧아진 안내 메시지를 출력할 수 있다.
상기 제어부는, 상기 짧아진 안내 메시지와 상기 청취 시간을 비교하여 상기 짧아진 안내 메시지의 출력 속도를 조정할 수 있다.
상기 제어부는, 상기 청취 패턴이 미리 설정된 시간 미만이면, 상기 안내 메시지를 출력하지 않고, 비프(Beep)음을 출력하도록 상기 AVN 단말을 제어할 수 있다.
상기 AVN 단말은, 사용자의 터치를 인식하는 디스플레이;를 더 포함하고, 상기 제어부는, 상기 안내 메시지가 출력되는 동안 상기 터치가 입력되면, 상기 안내 메시지의 출력을 중단할 수 있다.
상기 청취 시간을 저장하는 음성 명령 데이터베이스;를 더 포함하고, 상기 제어부는, 상기 음성 명령 데이터베이스에 저장된 상기 청취 시간의 평균 시간에 기초하여 상기 안내 메시지의 출력을 조정할 수 있다.
개시된 또 다른 실시예에 따른 음성 인식 장치의 제어방법은 사용자의 입력 및 음성 명령 중 적어도 하나를 수신하고; 상기 사용자의 입력 및 상기 음성 명령 중 적어도 하나에 대응하는 상기 안내 메시지를 출력하고; 상기 안내 메시지의 청취 패턴을 분석하고; 상기 청취 패턴에 기초하여 상기 안내 메시지의 출력을 조정하는 것;을 포함한다.
상기 출력하는 것은, 상기 안내 메시지가 출력된 후, 상기 사용자의 입력에 의해서 상기 안내 메시지의 출력을 중단하는 것;을 포함할 수 있다.
상기 출력하는 것은, 상기 안내 메시지가 출력되는 도중, 상기 음성 명령이 수신되면 상기 안내 메시지의 출력을 중단하는 것;을 포함할 수 있다.
상기 출력하는 것은, 상기 음성 명령의 입력 시간이 미리 설정된 시간 미만이면, 상기 안내 메시지를 계속 출력하는 것;을 포함할 수 있다.
상기 출력하는 것은, 상기 사용자의 입력 및 상기 음성 입력 중 적어도 하나가 다시 수신되면, 상기 조정된 안내 메시지를 출력하는 것;을 포함할 수 있다.
개시된 일 측면에 따른 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법은 사용자의 사용 패턴에 따라 안내 메시지를 수정하고, 보다 적합한 길이의 안내 메시지를 제공함으로써, 사용자가 음성 인식을 편리하게 사용할 수 있게 하고, 사용자의 행동에 기초한 탄력적인 출력을 제공하여 인터랙션을 강화할 수 있다.
도 1, 및 도 2는 일 실시예에 따른 음성 인식 장치를 설명하기 위한 블록도이다.
도 3 및 도 4는 다른 실시예에 따라 음성 인식 장치가 내장된 차량의 제어 블록도를 도시한 도면이다.
도 5는 다른 실시예에 따른 음성 인식 장치가 내장된 차량의 내부 구성을 나타낸 도면이다.
도 6은 일 실시예에 따른 음성 인식 장치가 내장된 차량, 및 휴대용 단말을 통해 사용자에게 음성 인식 서비스를 제공하는 경우를 도시한 도면이다.
도 7은 일 실시예에 따른 음성 인식 장치의 제어방법을 설명하기 위한 순서도이다.
도 8은 청취 패턴을 분석하는 일 예를 설명하기 위한 순서도이다.
도 9는 청취 패턴의 분석 결과에 따라 안내 메시지를 조정하는 일 예를 설명하기 위한 순서도이다.
도 10은 일 예에 따라 차량의 AVN 단말에 포함된 음성 인식 장치가 안내 메시지를 출력하는 서비스를 제공하는 방법을 도시한 도면이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.
도 1, 및 도 2는 일 실시예에 따른 음성 인식 장치를 설명하기 위한 블록도이다.
이하에서 설명되는 음성 인식 장치(100)는 음성 인식 엔진을 통해 음성 인식 서비스를 제공하는 장치를 의미한다. 음성 인식 장치(100)는 스마트 폰, PDA와 같은 휴대용 단말, 사용자의 신체에 탈부착이 가능한 웨어러블 디바이스뿐만 아니라 음성 명령 시스템을 포함하는 스마트 TV, 및 차량 등에 내장될 수 있다. 이하에서 설명되는 음성 인식 서비스는 음성 인식 센서를 통해 수신한 사용자의 음성 명령을 이용하여 사용자가 제공받고자 하는 서비스를 실행하도록 도와주는 서비스를 의미한다.
도 1에 도시된 바와 같이, 음성 인식 장치(100)는 수신부(110), 제어부(120), 음성 명령 데이터베이스(130) 및 제공부(140)를 포함할 수 있다. 수신부(110), 제어부(120), 음성 명령 데이터베이스(130), 및 제공부(140)는 음성 인식 장치(100)에 내장된 시스템 온 칩(System On Chip)에 집적될 수 있다.
수신부(110)는 음성 인식 센서를 통해 사용자의 음성 명령을 수신할 수 있다. 이하에서 설명되는 음성 인식 센서는 사용자의 음성 명령을 수신할 수 있는 센서를 의미한다. 음성 인식 센서는 마이크로 폰 등을 포함할 수 있다.
또한, 수신부(110)는 터치 센서를 통해 화면에서 감지되는 사용자의 터치 입력을 수신할 수 있다. 이하에서 설명되는 터치 센서는 음성 인식 장치의 화면 내에서 발생하는 사용자의 터치 입력을 감지할 수 있는 센서를 의미한다. 즉, 수신부(110)는 사용자의 음성 명령, 및 터치 입력 중 적어도 하나를 수신할 수 있다.
개시된 일 예에 따른 제어부(120)는 음성 인식 장치(100)의 전반적인 동작을 제어하는 모듈을 의미한다. 구체적으로 제어부(120)는 수신부(110)가 수신하는 음성 인식을 기초로 안내 메시지의 청취 패턴을 분석한다. 이 후 제어부(120)는 청취 패턴의 분석 결과에 기초하여 안내 메시지의 출력을 조정한다.
제어부(120)는 음성 명령 데이터베이스(130)를 이용하여 사용자의 음성 명령으로부터 키워드를 추출할 수 있다. 구체적으로 제어부(120)는 음성 인식 엔진을 이용하여 음성 명령 데이터베이스(130)에 저장된 데이터를 검색함으로써, 사용자의 음성 명령으로부터 키워드를 추출할 수도 있다.
제어부(120)는 제공부(140)를 제어하여 추출된 키워드에 따라 안내 메시지를 출력한다. 이러한 안내 메시지는 인식된 키워드에 따른 시나리오에 따라 안내 음성 인식 서비스에 포함된다.
여기서 키워드는, 음성 명령 내에 포함된 단어들 중에서 일부 또는 전부를 의미한다. 일 실시예에 따르면, 키워드는 사용자의 음성 명령에 포함된 단어 중에서 사용자가 제공받고자 하는 서비스와 관련된 단어를 포함한다. 키워드는 일 실시예에 한하지 않고, 다양한 방법을 통해 사용자의 음성 명령 내에 포함된 단어들 중에서 일부 또는 전부가 키워드로 선택될 수 있다. 또한, 이하에서 설명되는 서비스는 음성 인식 장치의 프로세서를 통해 실행될 수 있는 어플리케이션과 같은 모든 응용 서비스를 의미한다.
일 예로, 제어부(120)가 '네 명령어를 말씀하세요'라고 안내 메시지를 출력한 후, 사용자가 '전화를 연결해줘'라고 음성 명령을 입력하면, 키워드는 '전화'일 수 있다. 제어부(120)는 음성 명령 데이터베이스(130)를 이용하여, 사용자의 음성 명령 중 '전화'를 키워드로 추출하고, 이와 관련된 안내 서비스를 실행할 수 있다.
한편, 제어부(120)는 사용자의 청취 패턴을 분석한다. 앞서 언급한 일 예에서 사용자는 안내 메시지 중 '네 명령어를'까지만 청취하고, '전화를 연결해줘'라고 말할 수 있다. 제어부(120)는 사용자의 청취 패턴을 분석하여, 안내 메시지를 짧게 출력하도록 조정할 수 있다. 이와 관련된 구체적인 설명은 이하의 도면을 통해서 후술한다.
음성 명령 데이터베이스(130)는 사용자의 청취 패턴, 음성 인식 서비스의 사용 이력 및 키워드에 따른 시나리오가 저장된다.
구체적으로 사용자의 청취 패턴은 사용자가 안내 메시지를 청취하는 평균적인 시간을 의미한다. 음성 인식 서비스의 사용 이력은 사용자가 주로 사용하는 음성 인식 서비스의 종류 등 실행한 서비스와 관련된 정보를 의미한다. 키워드와 관련된 시나리오는 음성 명령이 입력된 후, 음성 인식 장치(100)가 제공하는 서비스의 과정을 의미한다.
도 1에 도시된 바와 같이.음성 명령 데이터베이스(130)는 음성 인식 장치(100) 내에 저장될 수 있으며, 수신부(110), 제어부(120) 및 제공부(140)와 하나의 모듈로 구현될 수도 있다.
제공부(140)는 안내 메시지를 출력하고, 키워드와 관련된 서비스를 제공할 수 있다.
일 예에 따르면, 제공부(140)는 사용자의 음성 발화 또는 사용자의 버튼 입력에 따라 '네 명령어를 말씀하세요'라는 안내 메시지를 출력할 수 있다.
또한, 제공부(140)는 사용자의 명령어를 수신하고, 명령어에 포함된 키워드와 관련된 어플리케이션과 같은 응용 서비스를 실행할 수 있다. 키워드가 '전화'인 경우, 제공부(140)는 키워드 '전화'에 매핑된 전화 연결 어플리케이션을 실행할 수 있다.
한편, 사용자의 음성 명령으로부터 음성 인식 서비스를 출력하는 중에 사용자의 터치 입력 등을 감지한 경우, 제공부(140)는 사용자의 음성 명령으로부터 추출된 서비스를 제공하는 것을 중단할 수 있다.
예를 들어, '전화'에 관한 키워드에 따라 "네 전화할 상대방을 말씀하세요 "라는 안내 메시지를 출력하는 중, 사용자는 상대방의 이름을 말하기 위해 터치하거나, 상대방의 이름을 말할 수 있다. 이 경우, 제공부(140)는 안내 메시지의 출력을 중단하고, 제어부(120)는 수신부(110)를 통해 사용자의 음성을 수신한다.
도 2를 참조하면, 음성 명령 데이터베이스(130)는 음성 인식 장치(100)와는 별개의 외부 장치 내에 저장될 수도 있다. 이 때, 음성 인식 장치(100)는 통신망을 통해 음성 명령 데이터베이스(130)가 저장된 외부 장치와 연동하여 음성 인식 서비스를 제공할 수 있다.
일 예로, 외부 장치는 차량에 포함된 다른 저장 매체를 의미할 수 있다. 구체적으로 음성 인식 장치(100)가 차량에 마련되는 경우, 음성 명령 데이터베이스(130)는 차량에 포함된 메모리에 마련될 수 있다. 이 때, 음성 인식 장치(100)는 차량 내 네트워크, 예를 들어 CAN(Control Area Network)를 통해 음성 명령 데이터베이스(130)가 저장하는 다양한 데이터를 제공받을 수 있다. 이와 관련된 자세한 설명은 이하의 도면을 통해 후술한다.
도 3 및 도 4는 다른 실시예에 따라 음성 인식 장치가 내장된 차량의 제어 블록도를 도시한 도면이다. 중복되는 설명을 피하기 위해서 이하 함께 설명한다.
다른 실시예에 따르면, 음성 인식 장치(200)는 차량에 내장된 AVN(Audio Video Navigation) 장치와 함께 마련될 수 있다. 이하에서 설명되는 AVN 단말은 오디오, 비디오 및 내비게이션 기능을 통합적으로 수행할 수 있는 장치를 의미한다.
도 3, 및 도 4에 도시된 수신부(210)는 음성 인식 센서를 통해 사용자의 음성 명령을 수신할 뿐만 아니라, 터치 센서를 통해 AVN 단말의 디스플레이(250) 상에서 감지되는 사용자의 터치 입력을 수신할 수 있다. 또한, 수신부(210)는 차량 내에 설치된 죠그 셔틀(jog shuttle) 타입 또는 하드 키 타입의 컨트롤러를 통해 사용자가 입력한 명령을 수신할 수도 있다.
도 3, 및 도 4에 도시된 제어부(220), 및 제공부(240)는 앞서 설명한 도 1, 및 도 2의 제어부(120), 및 제공부(140)가 수행하는 프로세스와 동일하므로 자세한 설명은 생략하도록 한다.
즉, 차량 내 설치된 음성 인식 장치(200)도 음성 인식 서비스, 구체적으로 음성 안내 메시지를 출력하는 동안, 사용자의 청취 패턴을 분석하고, 분석 결과에 기초하여 음성 안내 메시지의 출력을 조정한다.
한편, 도 3에 도시된 바와 같이, 음성 명령 데이터베이스(230)는 음성 인식 장치(200) 내에 저장될 수 있으며, 수신부(210), 제어부(220) 및 제공부(240)와 하나의 모듈로 구현될 수도 있다.
다른 예로, 도 4에 도시된 바와 같이, 음성 명령 데이터베이스(230)는 음성 인식 장치(200)와는 별개의 외부 장치 내에 저장될 수도 있다.
구체적으로 음성 인식 장치(200)가 AVN 단말에 마련되는 경우, 음성 명령 데이터베이스(230)는 AVN 단말에 마련된 메모리에 포함될 수 있다. 이 경우, AVN 단말에 마련된 메모리는 사용자의 청취 이력, 음성 인식 서비스의 사용 이력 및 키워드에 따른 시나리오 등의 데이터를 함께 저장하고, 음성 인식 장치(200)가 사용자의 청취 패턴을 분석하는데 필요한 사용자의 청취 이력을 제공할 수 있다.
한편, 제공부(240)와 연결되어, 안내 메시지를 출력하는 다스플레이(250) 및 스피커(260)와 관련된 자세한 설명은 이하의 도면을 통해서 후술한다.
도 5는 다른 실시예에 따른 음성 인식 장치가 내장된 차량의 내부 구성을 나타낸 도면이다.
전술한 바와 같이, 음성 인식 장치(200)는 차량 내에 내장된 AVN 단말(170)에 대응될 수 있다. AVN 단말(170)는 오디오, 비디오 및 내비게이션 기능을 통합적으로 수행할 수 있는 장치이다. AVN 단말(170)은 AVN 디스플레이(171)를 통해 오디오 화면, 비디오 화면 및 내비게이션 화면 중 적어도 하나를 선택적으로 표시할 수 있을 뿐만 아니라, 차량의 제어와 관련된 각종 제어 화면 또는 AVN 단말(170)에서 실행할 수 있는 부가 기능과 관련된 화면을 표시할 수 있다.
도 5를 참조하면, AVN 디스플레이(171)는 대시 보드(10)의 중앙 영역인 센터페시아(11)에 위치할 수 있다. 일 예에 따르면, AVN 디스플레이(171)는 LCD(Liquid Crystal Display), LED(Light Emitting Diode), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diode), 및 CRT(Cathode Ray Tube) 등으로 구현될 수 있다.
또한, AVN 입력부(172)는 대시 보드(10)의 중앙 영역인 센터페시아(11)에 위치할 수 있다. 운전자는 AVN 입력부(172)를 조작하여 AVN 단말(170)을 제어하기 위한 명령을 입력할 수 있다.
도 5에 도시된 바와 같이, AVN 입력부(172)는 AVN 디스플레이(171)와 인접한 영역에 하드 키 타입으로 마련될 수도 있다. 또한, AVN 디스플레이(171)가 터치 스크린 타입으로 구현되는 경우, AVN 디스플레이(171)는 AVN 입력부(172)의 기능도 함께 수행할 수 있다.
한편, 센터 콘솔(40)에는 죠그 셔틀 타입 또는 하드 키 타입의 센터 입력부(43)가 마련될 수 있다. 센터 콘솔(40)은 운전석(21)과 조수석(22) 사이에 위치하여 기어조작 레버(41)와 트레이(42)가 형성된 부분을 의미한다. 센터 입력부(43)는 AVN 입력부(172)의 전부 또는 일부 기능을 수행할 수 있다.
음성 입력부(180)는 마이크로폰(microphone)을 통해 운전자가 발화(utterance)한 음성 명령이 수신하여 전기적 신호로 변환할 수 있다. 효과적인 음성의 입력을 위하여 음성 입력부(180)는 도 5에 도시된 바와 같이 헤드라이닝(13)에 장착될 수 있으나, 차량의 실시예가 이에 반드시 한정되는 것은 아니며, 대시보드(10) 위에 장착되거나 스티어링 휠(12)에 장착되는 것도 가능하다. 즉, 음성 입력부(180)는 운전 중인 운전자의 음성을 입력 받기에 적합한 위치이면 어디든 제한이 없다.
도 3 및 도 4에 도시된 수신부(210)는 음성 입력부(180)를 통해 운전자의 음성 명령을 수신할 뿐만 아니라, AVN 디스플레이(171)를 통해 터치 입력을 수신할 수 있다. 뿐만 아니라, 수신부(210)는 운전자가 AVN 입력부(172), 및 센터 입력부(43) 등을 조작하여 입력한 제어 명령도 수신할 수 있다.
한편, 도 3 및 도 4에서 도시된 수신부(210), 디스플레이(250) 및 스피커(260)는 도 5의 차량에 마련된 음성 입력부(180), AVN 디스플레이(171) 및 차량 내 스피커(143)에 대응될 수 있다.
다시 도 5를 참조하면, 차량의 내부에는 음향을 출력할 수 있는 스피커(143)가 마련될 수 있다. 이에 따라, 차량은 스피커(143)를 통해 오디오 기능, 비디오 기능, 내비게이션 기능 및 기타 부가 기능을 수행함에 있어 필요한 음향을 출력할 수 있다.
운전자의 음성 명령을 수신한 경우, AVN 단말(170)은 음성 명령 데이터베이스를 이용하여 운전자의 음성 명령으로부터 키워드를 추출할 수 있다. 음성 인식 장치는 키워드와 관련된 서비스를 실행할 수 있다. 일 실시예에 따르면, 음성 명령 데이터베이스(230)를 이용하여 운전자로부터 추출한 키워드가 '목적지 검색'에 해당하는 경우, 음성 인식 장치는 내비게이션 어플리케이션을 실행할 수 있다.
이 후, 음성 인식 장치(200)는 목적지에 관한 정보를 운전자에게 되묻는 안내 메시지를 출력함으로써, 운전자가 원하는 목적지에 갈수 있도록 도울 수 있다. 이 때, AVN 단말(170)은 AVN 디스플레이(171)를 통해 목적지에 관한 정보를 입력 받거나, 또는 음성 입력부(180)를 통해 목적지에 관한 정보를 입력 받을 수 있다.
운전자의 음성 명령으로부터 추출한 키워드와 관련된 서비스를 검색하는 중에, AVN 단말(170)은 운전자의 터치 입력을 수신할 수 있다. 이 때, AVN 단말(170)은 음성 명령 데이터베이스로부터 키워드와 관련된 서비스를 검색하는 것을 중단할 수 있다.
AVN 단말(170)은 음성 명령 데이터베이스를 이용하여 운전자의 터치 입력이 감지된 지역에 표시된 카테고리와 관련된 서비스를 검색할 수 있다. 이에 따라, AVN 단말(170)은 사용 빈도가 높은 순으로 카테고리와 관련된 서비스를 AVN 디스플레이(171)에 표시하거나 또는 스피커(143)를 통해 운전자에게 전달할 수 있다.
도 6은 일 실시예에 따른 음성 인식 장치가 내장된 차량, 및 휴대용 단말을 통해 사용자에게 음성 인식 서비스를 제공하는 경우를 도시한 도면이다.
도 6을 참조하면, 음성 인식 장치는 휴대용 단말(800)에 내장될 수 있다. 사용자는 휴대용 단말(800)의 디스플레이를 터치하여 터치 입력을 전달하거나 또는 휴대용 단말(800)에 내장된 마이크를 통해 음성 명령을 전달할 수 있다.
사용자의 터치 입력, 및 음성 명령 중 적어도 하나를 수신하면, 음성 인식 장치는 사용자의 음성 인식 서비스의 사용 빈도와 관련된 데이터가 구축된 음성 명령 데이터베이스를 이용하여 사용자가 원하는 서비스를 검색하고, 검색된 서비스를 제공할 수 있다.
음성 인식 장치는 휴대용 단말(800) 내에 저장된 음성 데이터베이스를 이용하여 사용자가 원하는 서비스를 검색하고, 검색된 서비스를 제공할 수 있다. 또 다른 예로, 휴대용 단말(800)은 인터넷 등 네트워크 통신망을 통해 외부 장치에 저장된 음성 데이터베이스와 연동하여 사용자가 원하는 서비스에 관한 검색 결과를 수신하고, 수신된 검색 결과에 기초하여 서비스를 제공할 수도 있다.
한편, 휴대용 단말(800)에 마련된 음성 인식 장치 또한, 사용자의 청취 이력을 저장하고, 청취 이력에 기초하여 청취 패턴을 분석할 수 있다. 이 후, 음성 인식 장치는 제공되는 안내 메시지를 조정하고, 사용자와의 인터랙션을 강화할 수 있다. 이러한 동작과 관련된 설명은 이하의 순서도를 기초로 구체적으로 후술한다.
도 7은 일 실시예에 따른 음성 인식 장치의 제어방법을 설명하기 위한 순서도이다.
도 7을 참조하면, 개시된 음성 인식 장치(100)는 사용자가 안내 메시지를 청취하는 패턴을 분석한다(300).
여기서 청취 패턴이란, 사용자가 평소 안내 메시지를 듣고자 하는 평균적인 청취 시간을 의미한다. 앞서 언급한 바와 같이, 음성 인식 장치(100)는 미리 저장된 시나리오에 따라 안내 메시지를 출력한다. 사용자는 반복적으로 출력되는 안내 메시지의 내용을 충분히 인지할 수 있어, 안내 메시지의 내용을 모두 듣지 않고, 다음 음성 입력 명령을 발화할 수 있다.
이러한 사용자의 청취 패턴에 맞추어 개시된 음성 인식 장치(100)는 다음 번 출력되는 안내 메시지의 출력을 조정할 수 있다(400).
안내 메시지의 출력을 조정하는 예는 다양할 수 있다. 일 예로, 음성 인식 장치는 사용자의 청취 시간이 매우 짧은 경우, 안내 메시지의 출력을 제공하지 않고, 짧은 비프(beep)음만을 출력할 수 있다. 또한, 청취 시간이 비교적 긴 편이라면, 정상적인 시나리오에서 출력되는 안내 메시지 이외의 다른 짧은 길이의 메시지를 출력하거나, 짧은 메시지의 출력 속도를 줄여서 출력할 수도 있다.
도 7에서 설명한 제어방법에 관해서는 이하 도 8 및 9를 통해서 구체적으로 설명한다.
도 8은 청취 패턴을 분석하는 일 예를 설명하기 위한 순서도이다.
도 8을 참조하면, 음성 인식 장치(100)는 안내 메시지를 출력한다(310).
일 예로, 수신부(110)는 사용자의 동작 개시 명령을 수신한다. 수신부(110)는 수신한 명령을 전기적 신호로 변환하고, 제어부(120)로 전달한다.
제어부(120)는 전달받은 신호를 기초로 음성 명령 데이터베이스(130)안에 저장된 시나리오에 따라 안내 메시지를 출력할 수 있다.
한편, 안내 메시지는 음성 인식 장치가 출력하는 다양한 프롬프트(Prompt)에 해당한다. 여기서 프롬프트는 일반적인 컴퓨터 장치가 사용자의 입력을 기다리고 있음을 가리키기 위한 인터페이스를 의미한다.
즉, 음성 인식 장치(100)는 사용자의 명령을 대기하고 있다는 신호를 안내 메시지와 함께 화면의 표시 형태를 변화하여 출력할 수 있다. 이와 관련된 구체적인 예시는 도 10을 통해서 설명한다.
안내 메시지를 출력하면서, 수신부(110)는 PTT(Push To Talk) 기능의 입력 명령을 수신할 수 있다(320).
여기서 PTT 기능이란, 특정 버튼을 누르고 있을 때만, 사용자나 상대방에게 소리를 전달하는 기능을 의미한다. 일 예로, 음성 인식 장치(100)는 앞서 언급한 프롬프트의 일 예로 안내 메시지를 출력하면서, 사용자의 음성 입력을 대기하고 있다는 확인을 받는 입력 버튼을 포함할 수 있다. 즉, 사용자는 안내 메시지가 출력되는 도중, 원하는 음성 명령을 입력하기 위해서 PTT 기능에 해당하는 버튼을 누르거나 터치를 입력할 수 있다.
만약 음성 인식 장치(100)가 PTT 기능 입력 명령을 수신하면, 안내 메시지가 출력이 정지되고, 안내 메시지 출력 후 PTT 기능의 입력 명령을 수신할 때까지의 청취 시간을 저장한다(350).
이렇게 저장된 청취 시간은 청취 패턴을 분석하는데 사용된다. 청취 시간은 음성 명령 데이터베이스(130)에 저장되거나, 통신을 통해 외부에 저장될 수도 있다.
만약 음성 인식 장치(100)가 PTT 기능에 해당하는 입력 명령을 수신하지 않거나, 이러한 기능을 출력하지 않는 경우, 음성 인식 장치(100)는 안내 메시지를 출력하는 도중 사용자의 새로운 음성 발화를 수신한다(330).
여기서 사용자의 발화는 사용자가 발성하는 새로운 음성 명령을 의미한다. 또한, 안내 메시지의 출력 중 사용자의 발화는 반복적으로 출력되는 안내 메시지를 숙지한 사용자가 안내 메시지가 출력 완료를 기다리지 않고, 도중에 끼어들어(Barge-in) 발화하는 음성이다.
이후, 개시된 일 예에 따른 음성 인식 장치(100)는 사용자의 발화가 오발화인지 여부를 결정한다(340).
안내 메시지를 재생하는 도중, 수신부(110)는 사용자의 음성 명령 이외에도 다양한 소리를 수신할 수 있다. 제어부(120)는 수신된 소리 중 사용자의 발화가 새로운 음성 명령인지 아니면 단순한 오발화인지 여부를 판단할 수 있다.
일 예로, 개시된 음성 인식 장치(100)는 안내 메시지의 출력 시간부터 미리 설정된 시간 안에 발화 입력이 수신되면, 오발화로 판단할 수 있다. 즉, 안내 메시지가 출력된 후 매우 짧은 시간 안에 입력되는 사용자의 음성은 새로운 음성 명령으로 판단하지 않는다.
한편, 오발화를 판단하는 방법이 반드시 앞서 언급한 일 예에 한정되는 것은 아니다. 다른 예로 음성 인식 장치(100)는 음성 데이터 베이스(130)에 저장된 키워드와 음성 명령을 비교하여 오발화인지 여부를 판단할 수도 있으며, 다양한 변형례가 있을 수 있다.
사용자의 음성이 오발화로 판단되지 않고, 새로운 음성 명령으로 인식되면, 음성 인식 장치(100)는 안내 메시지의 출력 시작 시간에서 음성 명령의 발화 시작 시간을 측정하고, 이를 청취 시간으로 저장한다(350).
저장된 청취 시간은 다음 번 사용자의 안내 메시지 청취 패턴을 분석하는 자료로 이용된다. 즉, 개시된 음성 인식 장치(100)는 사용자의 청취 시간을 저장하고, 평균적인 청취 시간을 산출한다.
이렇게 산출된 청취 패턴은 이후 안내 메시지의 출력을 조정하는데 사용된다. 안내 메시지를 조정하는 일 예는 이하 도 9를 참조하여 설명한다.
도 9는 청취 패턴의 분석 결과에 따라 안내 메시지를 조정하는 일 예를 설명하기 위한 순서도이다.
도 9를 참조하면, 개시된 음성 인식 장치(100)는 안내 메시지의 평균 청취 시간을 산출한다 (410).
도 8에서 전술한 바와 같이, 평균 청취 시간은 사용자가 안내 메시지 출력 도중, PTT 기능을 가지는 입력 명령을 지시하거나, 새로운 음성 명령을 발화하는 청취 시간을 의미한다.
음성 인식 장치(100)는 평균 청취 시간이 0.5초보다 긴 시간인지 여부를 판단한다(420). 여기서 0.5초는 미리 설정된 시간으로, 안내 메시지가 거의 출력되지 않고, 사용자가 새로운 음성 명령을 발화하거나 PTT 기능의 입력 명령을 지시하는 시간이면 충분하고, 다양하게 변경될 수 있다.
일 예로, 안내 메시지가 '네 명령어를 말씀하세요'인 경우, 0.5초는 '네'를 출력하기도 짧은 시간이다.
판단 결과, 사용자의 청취 시간이 0.5초 미만이면, 음성 인식 장치(100)는 간단한 비프(Beep)음을 출력할 수 있다(462).
여기서 비프 음은 간단한 출력 음(sound)으로 사용자에게 장치의 상태를 알리기 위한 소리를 의미한다. 일 예에 따른 음성 인식 장치(100)는 사용자의 평균적인 청취 시간이 매우 짧은 경우, 안내 메시지를 출력하는 대신 간단한 소리만을 출력할 수 있다.
만약 청취 시간이 0.5초 이상인 경우, 음성 인식 장치(100)는 시나리오에 저장된 안내 메시지를 대신해 짧은 길이의 안내 메시지를 평균 청취 시간과 비교한다(430).
여기서 짧은 길이의 안내 메시지(제 2 안내 메시지)는 시나리오에 의해서 출력된 안내 메시지(제 1 안내 메시지)의 예비적 프롬프트를 의미한다. 일 예로, 제 1 안내 메시지가 '네 명령어를 말씀하세요'라면, 제 2 안내 메시지는 '네 말씀하세요'일 수 있다. 즉, 제 2 안내 메시지는 짧아질 수 있는 청취 시간동안 출력되어 사용자가 인지할 수 있는 예비적인 안내 메시지를 포함한다.
이후, 음성 인식 장치(100)는 짧은 길이의 안내 메시지의 출력 시간과 평균 청취 시간을 비교한다(440).
만약 짧은 길이의 안내 메시지의 출력 시간이 평균 청취 시간 미만이면, 개시된 음성 인식 장치(100)는 이러한 예비적 안내 메시지를 출력한다(461).
이는 사용자의 청취 시간동안 안내 메시지가 출력될 수 있음을 의미하는 것이고, 나아가 사용자가 내용을 청취할 수 있는 시간을 확보할 수 있게 도와줌으로써, 사용자와의 인터랙션이 강화된다.
그러나 짧은 길이의 안내 메시지의 출력 시간이 평균 청취 시간 이상이면, 개시된 음성 인식 장치(100)는 예비적 안내 메시지의 속도를 조절한다(450).
짧은 길이의 안내 메시지의 출력 시간이 평균 청취 시간 이상이라는 것은, 사용자가 청취 시간동안 예비적인 안내 메시지가 충분히 전달되지 못하는 것을 의미한다. 일 예로, 개시된 음성 인식 장치(100)는 '네 말씀하세요'라고 출력되는 제 2 안내 메시지의 템포를 높여 안내되는 음성의 속도를 증가시킬 수 있다.
이후, 개시된 음성 인식 장치(100)는 조정된 제 2 안내 메시지를 출력한다(460).
한편, 안내 메시지의 출력을 조정하는 예가 반드시 출력 속도에 한정되는 것은 아니고, 사용자가 인지할 수 있는 다양한 조정을 포함한다. 예를 들어 개시된 음성 인식 장치(100)는 제 2 안내 메시지를 조정하면서, 비프(Beep)음을 함께 출력할 수도 있으며, 단계 460 내지 단계 462를 조합하여 다양하게 변경할 수도 있다.
도 10은 일 예에 따라 차량의 AVN 단말에 포함된 음성 인식 장치가 안내 메시지를 출력하는 서비스를 제공하는 방법을 도시한 도면이다.
일 예에 따라 음성 인식 장치(100)가 차량의 AVN 단말과 함께 마련되고, 도 10과 같이 음성 명령에 대응하는 음성 인식 서비스를 AVN 디스플레이(171)으로 제공할 수 있다. 도 10을 참조하면, 일 예에 따른 음성 인식 서비스는 '목적지 검색', '음악 찾기', '라디오', 'DMB', '전화 걸기', 및 'Blue link Assistant' 등과 같은 응용 서비스를 포함할 수 있다.
한편, 사용자는 음성 명령 또는 AVN 입력부(172)의 버튼을 통해 음성 인식 장치(100)가 동작을 실행하도록 명령할 수 있다. 전술한 명령을 수신한 음성 인식 장치(100)는 도 10과 같은 프롬프트 화면을 출력하면서 '네 명령어를 말씀하세요'라는 안내 메시지(171b)를 출력할 수 있다.
사용자는 안내 메시지(171b)의 유도에 따라 전술한 여러 응용 서비스를 음성을 통해서 선택하고, 음성 인식 장치(100)는 음성 명령을 수신한다(400).
음성 명령을 수신하고, 음성 인식 장치(100)는 음성 인식 엔진을 가동시켜 음성 명령에서 키워드를 추출할 수 있다(410). 만약 음성 인식 장치(100)가 '전화'라는 키워드를 추출하면, 음성 인식 장치(100)는 '전화걸기'응용 서비스를 실행한다.
한편, 사용자는 반복적인 AVN 단말(170)의 사용으로 인해 안내 메시지(171b)를 충분히 숙지할 수 있으므로, 안내 메시지(171b)의 출력 완료를 기다리지 않고 바로 음성 명령을 입력할 수 있다. 또는 안내 메시지(171b)가 출력되는 동안, 사용자는 PTT 기능을 가진 입력 버튼(171a)를 터치할 수 있다.
이 경우, 음성 인식 장치(100)는 안내 메시지의 출력을 중단한다.
개시된 음성 인식 장치(100)는 사용자의 안내 메시지의 청취 시간을 측정하고, 음성 명령 데이터베이스(130)에 청취 시간을 저장한다(420).
음성 인식 장치(100)는 미리 저장된 이전의 청취 시간과 현재 청취 시간에 기초하여 평균적인 안내 메시지의 청취 시간을 산출할 수 있다.
만약 사용자의 청취 시간이 안내 메시지(171b)의 출력시간보다 짧은 경우, 음성 인식 장치(100)는 안내 메시지의 출력 속도를 높여 청취 시간에 모든 안내 메시지가 출력될 수 있도록 조정할 수 있다.
다른 예로, 사용자의 청취 시간이 매우 짧은 경우, 음성 인식 장치(100)는 비프 음만을 출력하여 사용자에게 음성 명령을 수신할 준비가 완료되었음을 알릴 수 있다.
이를 통해서 개시된 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법은 안내 메시지를 수정하고 사용자에게 보다 적합한 길이의 안내 메시지를 제공함으로써, 사용자가 음성 인식을 편리하게 사용할 수 있게 하고, 사용자의 행동에 기초한 탄력적인 출력을 제공하여 인터랙션을 강화할 수 있다.
한편, 도 10에서 언급한 설명은 개시된 발명의 일 예에 불과하고, 다양한 변형례를 포함할 수 있다.
10: 대시보드, 11: 센터페시아
12: 스티어링 휠, 13: 헤드라이닝
21: 운전석, 22: 조수석
40: 센터 콘솔, 41: 기어조작 레버
42: 트레이, 143: 스피커
170: AVN 단말, 171: AVN 디스플레이
172: AVN 입력부, 180: 음성 입력부

Claims (20)

  1. 음성 명령을 수신하는 수신부;
    안내 메시지를 출력하는 제공부;
    상기 음성 명령에 대응하여 상기 제공부를 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 시간을 분석하여 상기 청취 시간에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함하고,
    상기 제어부는 상기 청취 시간이 미리 설정된 시간 이상이면, 상기 안내 메시지보다 짧아진 안내 메시지를 출력하고, 상기 짧아진 안내 메시지와 상기 청취 시간에 기초하여 상기 짧아진 안내 메시지의 출력 속도를 조정하는 음성 인식 장치.
  2. 제 1항에 있어서,
    상기 청취 시간은 상기 안내 메시지의 평균적인 청취 시간이고,
    상기 청취 시간은,
    상기 안내 메시지가 출력 되는 시점으로부터 사용자의 입력에 의해서 상기 출력이 중단되는 시점까지의 시간을 포함하는 음성 인식 장치.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1항에 있어서,
    상기 제어부는,
    상기 청취 시간이 상기 미리 설정된 시간 미만이면, 상기 안내 메시지를 출력하지 않고, 비프(Beep)음을 출력하도록 상기 제공부를 제어하는 음성 인식 장치.
  7. 제 1항에 있어서,
    상기 제어부는,
    상기 안내 메시지가 출력되는 동안 사용자로부터 새로운 음성 명령을 수신하면, 상기 안내 메시지의 출력을 중단하는 음성 인식 장치.
  8. 제 2항에 있어서,
    상기 청취 시간을 저장하는 음성 명령 데이터베이스;를 더 포함하는 음성 인식 장치.
  9. 음성 명령을 수신하는 수신부;
    안내 메시지를 포함하는 서비스를 출력하는 AVN(Audio Video Navigation) 단말;
    상기 음성 명령에 대응하여 상기 AVN 단말을 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 시간을 분석하여 상기 청취 시간에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함하고,
    상기 제어부는, 상기 청취 시간이 미리 설정된 시간 이상이면, 상기 안내 메시지보다 짧아진 안내 메시지를 출력하고, 상기 짧아진 안내 메시지와 상기 청취 시간에 기초하여 상기 짧아진 안내 메시지의 출력 속도를 조정하는 차량.
  10. 제 9항에 있어서,
    상기 청취 시간은 상기 안내 메시지의 평균적인 청취 시간이고,
    상기 청취 시간은,
    상기 안내 메시지가 출력 되는 시점으로부터 사용자의 입력에 의해서 상기 출력이 중단되는 시점까지의 시간을 포함하는 차량.
  11. 삭제
  12. 삭제
  13. 제 9항에 있어서,
    상기 제어부는,
    상기 청취 시간이 상기 미리 설정된 시간 미만이면, 상기 안내 메시지를 출력하지 않고, 비프(Beep)음을 출력하도록 상기 AVN 단말을 제어하는 차량.
  14. 제 9항에 있어서,
    상기 AVN 단말은,
    사용자의 터치를 인식하는 디스플레이;를 더 포함하고,
    상기 제어부는,
    상기 안내 메시지가 출력되는 동안 상기 터치가 입력되면, 상기 안내 메시지의 출력을 중단하는 차량.
  15. 제 9항에 있어서,
    상기 청취 시간을 저장하는 음성 명령 데이터베이스;를 더 포함하는 차량.
  16. 사용자의 입력 및 음성 명령 중 적어도 하나를 수신하고;
    상기 사용자의 입력 및 상기 음성 명령 중 적어도 하나에 대응하는 안내 메시지를 출력하고;
    상기 안내 메시지의 청취 패턴을 분석하고;
    상기 청취 패턴에 기초하여 상기 안내 메시지의 출력을 조정하고,
    상기 출력하는 것은, 상기 안내 메시지가 출력되는 도중, 상기 음성 명령이 수신되었을 때 상기 음성 명령의 입력 시간이 미리 설정된 시간 미만이면, 상기 안내 메시지를 계속 출력하는 것;을 포함하는 음성 인식 장치의 제어방법.
  17. 제 16항에 있어서,
    상기 출력하는 것은,
    상기 안내 메시지가 출력된 후, 상기 사용자의 입력에 의해서 상기 안내 메시지의 출력을 중단하는 것;을 포함하는 음성 인식 장치의 제어방법.
  18. 삭제
  19. 삭제
  20. 제 17항에 있어서,
    상기 출력하는 것은,
    상기 사용자의 입력 및 상기 음성 명령 중 적어도 하나가 다시 수신되면, 상기 조정된 안내 메시지를 출력하는 것;을 더 포함하는 음성 인식 장치의 제어방법.
KR1020170002863A 2017-01-09 2017-01-09 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법 KR102329888B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170002863A KR102329888B1 (ko) 2017-01-09 2017-01-09 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법
US15/630,076 US10629210B2 (en) 2017-01-09 2017-06-22 Voice recognition apparatus, vehicle having the same, and control method of voice recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170002863A KR102329888B1 (ko) 2017-01-09 2017-01-09 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법

Publications (2)

Publication Number Publication Date
KR20180081933A KR20180081933A (ko) 2018-07-18
KR102329888B1 true KR102329888B1 (ko) 2021-11-23

Family

ID=62783384

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170002863A KR102329888B1 (ko) 2017-01-09 2017-01-09 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법

Country Status (2)

Country Link
US (1) US10629210B2 (ko)
KR (1) KR102329888B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415696A (zh) * 2019-07-26 2019-11-05 广东美的制冷设备有限公司 语音控制方法、电器控制装置、电器及电器控制系统

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100335946B1 (ko) * 1999-07-31 2002-05-09 이계안 음성안내 중지기능을 갖는 네비게이션 시스템
US20020004722A1 (en) * 2000-02-28 2002-01-10 Takeo Inoue Voice speed converting apparatus
US7953219B2 (en) * 2001-07-19 2011-05-31 Nice Systems, Ltd. Method apparatus and system for capturing and analyzing interaction based content
US8019121B2 (en) * 2002-07-27 2011-09-13 Sony Computer Entertainment Inc. Method and system for processing intensity from input devices for interfacing with a computer program
US7359859B2 (en) * 2003-05-27 2008-04-15 Inventec Corporation Computer-based training system and method for enhancing language listening comprehension
KR100552077B1 (ko) * 2003-08-29 2006-02-20 바로비젼(주) 컨텐츠 제공시스템과 이를 위한 이동단말
GB2405948B (en) * 2003-09-12 2006-06-28 Canon Res Ct Europ Ltd Voice activated device
US8204884B2 (en) * 2004-07-14 2012-06-19 Nice Systems Ltd. Method, apparatus and system for capturing and analyzing interaction based content
EP1770688B1 (en) * 2004-07-21 2013-03-06 Fujitsu Limited Speed converter, speed converting method and program
US8150020B1 (en) * 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
KR100902477B1 (ko) 2007-08-20 2009-06-11 에스케이 텔레콤주식회사 차량 주행 중 음성 안내 메시지의 성량을 제어하기 위한방법 및 네비게이션 단말기와 이를 위한 네비게이션 서비스시스템
US8380499B2 (en) * 2008-03-31 2013-02-19 General Motors Llc Speech recognition adjustment based on manual interaction
US20110276329A1 (en) * 2009-01-20 2011-11-10 Masaaki Ayabe Speech dialogue apparatus, dialogue control method, and dialogue control program
US8515763B2 (en) * 2009-11-24 2013-08-20 Honeywell International Inc. Methods and systems for utilizing voice commands onboard an aircraft
US9084058B2 (en) * 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
JP5999839B2 (ja) * 2012-09-10 2016-09-28 ルネサスエレクトロニクス株式会社 音声案内システム及び電子機器
EP2916317B1 (en) * 2012-10-31 2017-10-11 NEC Corporation Playback apparatus, setting apparatus, playback method, and program
JP5956936B2 (ja) * 2013-01-28 2016-07-27 シナノケンシ株式会社 音声データ再生速度変換方法および音声データ再生速度変換装置
US20140281976A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Adjusting content playback to correlate with travel time
US9523585B2 (en) * 2013-03-15 2016-12-20 Google Inc. Systems and methods for handling application notifications
JP6111802B2 (ja) 2013-03-29 2017-04-12 富士通株式会社 音声対話装置及び対話制御方法
KR101558656B1 (ko) 2013-07-30 2015-10-08 현대자동차주식회사 수신자 맞춤형 메시지 처리 장치 및 그 방법
US9575563B1 (en) * 2013-12-30 2017-02-21 X Development Llc Tap to initiate a next action for user requests
KR102249392B1 (ko) 2014-09-02 2021-05-07 현대모비스 주식회사 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법
KR101643560B1 (ko) * 2014-12-17 2016-08-10 현대자동차주식회사 음성 인식 장치, 그를 가지는 차량 및 그 방법
KR101688164B1 (ko) * 2015-04-16 2016-12-20 엘지전자 주식회사 차량 단말 장치 및 이의 제어방법
GB2537646B (en) * 2015-04-22 2018-03-28 Elaratek Ltd Monitoring acoustic energy of headset
US9633546B2 (en) * 2015-09-11 2017-04-25 WashSense, Inc. Touchless compliance system
WO2017109759A1 (en) * 2015-12-23 2017-06-29 Booktrack Holdings Limited System and method for the creation and playback of soundtrack-enhanced audiobooks
US10095470B2 (en) * 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
TWM533386U (en) * 2016-08-16 2016-12-01 Unlimiter Mfa Co Ltd Electronic device capable of automatically adjusting volume

Also Published As

Publication number Publication date
US20180197546A1 (en) 2018-07-12
US10629210B2 (en) 2020-04-21
KR20180081933A (ko) 2018-07-18

Similar Documents

Publication Publication Date Title
US11676601B2 (en) Voice assistant tracking and activation
US9576575B2 (en) Providing voice recognition shortcuts based on user verbal input
US9211854B2 (en) System and method for incorporating gesture and voice recognition into a single system
US8700408B2 (en) In-vehicle apparatus and information display system
US6968311B2 (en) User interface for telematics systems
US20140267035A1 (en) Multimodal User Interface Design
US9570076B2 (en) Method and system for voice recognition employing multiple voice-recognition techniques
US20070281748A1 (en) Method & apparatus for unlocking a mobile phone keypad
KR102329888B1 (ko) 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법
US20180135998A1 (en) Method for improved user experience during driver distraction lockout modes
US20060282268A1 (en) Method for a menu-based voice-operated device, and menu-based voice-operated device for realizing the method
KR20210095569A (ko) 에이전트 시스템, 서버 및 컴퓨터 판독 가능한 기록 매체
CN110556104B (zh) 语音识别装置、语音识别方法以及存储程序的存储介质
KR102371513B1 (ko) 대화 시스템 및 대화 처리 방법
JP2014065359A (ja) 表示制御装置、表示システム及び表示制御方法
JP2005208798A (ja) 情報提供端末、および情報提供方法
KR102092058B1 (ko) 인터페이스 제공 방법 및 장치
KR100749088B1 (ko) 대화형 네비게이션 시스템 및 그 제어방법
JP2009271835A (ja) 機器操作制御装置及びプログラム
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
KR100986506B1 (ko) 음성인식 시스템
KR200429347Y1 (ko) 진동으로 터치감을 구현한 개인용 단말기
CN117090668A (zh) 车辆排气声音调节方法、装置及车辆
KR20230114073A (ko) 차량 제어 시스템 및 방법
KR20240053428A (ko) 대화 관리 방법, 대화 관리 시스템 및 컴퓨터로 판독 가능한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant