KR102491119B1 - 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램 - Google Patents

차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102491119B1
KR102491119B1 KR1020200119834A KR20200119834A KR102491119B1 KR 102491119 B1 KR102491119 B1 KR 102491119B1 KR 1020200119834 A KR1020200119834 A KR 1020200119834A KR 20200119834 A KR20200119834 A KR 20200119834A KR 102491119 B1 KR102491119 B1 KR 102491119B1
Authority
KR
South Korea
Prior art keywords
vehicle
speaker
utterance
voice
request
Prior art date
Application number
KR1020200119834A
Other languages
English (en)
Other versions
KR20220037187A (ko
Inventor
양태영
Original Assignee
주식회사 인텔로이드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인텔로이드 filed Critical 주식회사 인텔로이드
Priority to KR1020200119834A priority Critical patent/KR102491119B1/ko
Publication of KR20220037187A publication Critical patent/KR20220037187A/ko
Application granted granted Critical
Publication of KR102491119B1 publication Critical patent/KR102491119B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

음성 인식 장치가 개시된다. 본 음성 인식 장치는 차량 내 화자의 발화에 따른 음성을 수신하는 음성 입력부, 수신된 음성을 텍스트로 변환하는 음성-텍스트 변환부, 텍스트로부터 화자의 발화 의도를 분석하여 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 차량의 기능 동작을 요청하는 제2 요청인지 판단하는 자연어 이해부 및 제1 요청으로 판단되는 경우, 차량의 문제상황의 처리를 위한 안내를 제공하도록 제어하는 제어부를 포함한다.

Description

차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램{Voice recognition device for vehicle, method for handling vehicle problem situation using the same, and computer program}
본 발명은 차량 내 화자의 음성을 기반으로 차량의 문제 상황에 대한 처리를 수행하는 차량용 음성 인식 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.
최근 음성 인식 기술이 발전함에 따라 그 기술의 적용 대상도 점차 확대되고 있다. 그 대표적인 예로 차량을 들 수 있다.
차량에 적용된 음성 인식 기술은 차량을 운전하는 운전자 또는 동승자의 음성을 인식하여 해당 음성에 대응되는 기능을 수행한다. 이 경우, 운전자가 차량에 구비된 각종 장비들의 조작에 익숙하지 않더라도, 음성을 통하여 차량의 기능을 쉽게 선택할 수 있고, 운전자는 손을 사용할 필요가 없어 운전에 보다 집중할 수 있다.
다만, 이러한 종래의 차량 음성 인식 기술은 내비게이션 조작, 라디오 조작, 에어컨 조작, 전화 통화 연결, 날씨 안내 등과 같이, 차량의 기능 조작이나 주행 환경 정보 제공 등에 제한적이었다.
운전자가 차량을 사용하는 과정에는 차량 구비 장치들이 정상적으로 작동하지 않는 다양한 문제 상황(예를 들어, 에어컨이 동작하지 않거나, 주유구가 열리지 않는 상황 등)이 발생할 수 있는데, 기존의 차량 음성 인식 기술은 이에 대한 적절한 조치 방안을 제공하지 못하였다.
따라서, 차량 내 음성 인식 기술을 보다 고도화 시키기 위해서는 이에 대한 해결 방안이 필요하다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 차량 내 화자의 발화가 차량 문제상황에 대한 대응 방안을 요청하는 것인지 또는 차량의 기능 동작을 요청하는 것인지 구별하여 차량 문제상황을 처리하는 차량용 음성 인식 장치, 방법 및 컴퓨터 프로그램을 제공함에 있다.
또한, 본 발명의 목적은 차량 내 사용자 발화에 따른 음성 인식 결과에 포함된 차량 관련 용어나 운전자들의 상황 묘사 오류를 보정하는 차량용 음성 인식 장치, 방법 및 컴퓨터 프로그램을 제공함에 있다.
상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 차량의 문제상황에 대한 처리 방법은 차량 내 화자의 발화에 따른 음성을 수신하는 단계, 상기 수신된 음성을 텍스트로 변환하는 단계; 상기 텍스트로부터 상기 화자의 발화 의도를 분석하여 상기 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 상기 차량의 기능 동작을 요청하는 제2 요청인지 판단하는 단계 및 상기 제1 요청으로 판단되는 경우, 상기 차량의 문제상황의 처리를 위한 안내를 제공하는 단계를 포함한다.
그리고, 상기 판단하는 단계는, 화자 종속적인 자연어 이해 모델을 이용하여 상기 화자의 의도를 분석하여 상기 제1 요청 또는 상기 제2 요청으로 판단할 수 있다.
또한, 상기 판단하는 단계는, 상기 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 상기 차량의 문제상황을 질의하는 문의를 생성하는 단계 및 상기 생성된 문의를 상기 화자에게 제공하는 단계를 더 포함할 수 있다.
그리고, 상기 판단하는 단계는, 차량에 구비된 장치들의 동작 정보를 포함하는 차량 감지 데이터를 획득하는 단계, 상기 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 상기 획득된 차량 감지 데이터를 기초로 상기 화자의 발화가 상기 차량 문제상황에 부합하는 발화인지 여부를 판단하는 단계 및 상기 부합하는 발화인 경우, 상기 화자의 발화를 상기 제1 요청으로 판단하는 단계를 포함할 수 있다.
또한, 상기 생성된 텍스트에 포함된 차량 관련 단어를 검출하는 단계 및 상기 검출된 차량 관련 단어를 기 설정된 표준 단어로 보정하는 단계를 더 포함할 수 있다.
한편, 상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는 차량 내 화자의 발화에 따른 음성을 수신하는 음성 입력부, 상기 수신된 음성을 텍스트로 변환하는 음성-텍스트 변환부, 상기 텍스트로부터 상기 화자의 발화 의도를 분석하여 상기 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 상기 차량의 기능 동작을 요청하는 제2 요청인지 판단하는 자연어 이해부 및 상기 제1 요청으로 판단되는 경우, 상기 차량의 문제상황의 처리를 위한 안내를 제공하도록 제어하는 제어부를 포함한다.
그리고, 상기 자연어 이해부, 화자 종속적인 자연어 이해 모델을 이용하여 상기 화자의 의도를 분석하여 상기 제1 요청 또는 상기 제2 요청으로 판단할 수 있다.
또한, 상기 제어부는, 상기 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 상기 차량의 문제상황을 질의하는 문의를 생성하고, 상기 생성된 문의를 상기 화자에게 제공하도록 제어할 수 있다.
그리고, 차량에 구비된 장치들의 동작 정보를 포함하는 차량 감지 데이터를 획득하는 차량 감지 데이터 획득부를 더 포함하고, 상기 제어부는, 상기 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 상기 획득된 차량 감지 데이터를 기초로 상기 화자의 발화가 상기 차량 문제상황에 부합하는 발화인지 여부를 판단하고, 상기 자연어 이해부는, 상기 부합하는 발화인 경우, 상기 화자의 발화를 상기 제1 요청으로 판단할 수 있다.
또한, 상기 생성된 텍스트에 포함된 차량 관련 단어를 검출하고, 상기 검출된 차량 관련 단어를 기 설정된 표준 단어로 보정하는 단어 보정부를 더 포함할 수 있다.
한편, 상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 기록 매체에 저장된 프로그램은 상술한 차량의 문제상황에 대한 처리 방법을 실행하기 위한 프로그램 코드를 포함할 수 있다.
본 발명에 따르면, 차량 내 화자의 발화를 기초로 차량의 문제 상황에 대한 적절한 처리 방안을 제공할 수 있다.
또한, 본 발명에 따르면, 차량 내 화자의 발화가 차량 문제상황에 대한 대응 방안을 요청하는 것인지 또는 차량의 기능 동작을 요청하는 것인지, 화자의 발화 의도 파악의 정확성을 높일 수 있고, 화자의 발화 의도에 부합하는 응답을 제공할 수 있다.
또한, 본 발명에 따르면, 차량 내 사용자 발화에 따른 음성 인식 결과에 포함된 차량 관련 용어나 운전자들의 상황 묘사 오류를 보정함으로써, 차량 내 화자 발화 의도를 보다 정확하게 파악할 수 있고, 음성 인식 시스템의 오동작 발생 가능성을 낮출 수 있다.
도 1은 본 발명의 일 실시 예에 따른 차량 음성 인식 장치의 활용 예를 나타내는 도면 이다.
도 2는 본 발명의 일 실시 예에 따른 차량 음성 인식 장치를 나타내는 블록도 이다.
도 3은 본 발명의 일 실시 예에 따른 음성 처리부를 보다 구체적으로 나타내는 블록도 이다.
도 4는 본 발명의 일 실시 예에 따른 화자와의 질의 응답을 추가 고려한 화자 의도 파악 과정을 나타내는 도면 이다.
도 5는 본 발명의 일 실시 예에 따른 차량 문제상황 처리 방법을 개략적으로 나타내는 흐름도 이다.
도 6는 본 발명의 다른 실시 예에 따른 화자와의 질의 응답을 추가 고려한 화자 의도 파악하는 과정을 나타내는 흐름도 이다.
도 7은 본 발명의 또 다른 실시 예에 따른 차량 감지 데이터를 추가 고려한 화자 의도 파악 과정을 나타내는 흐름도 이다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시 예들뿐만 아니라 특정 실시 예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
프로세서 또는 이와 유사한 개념으로 표시된 기능 블럭을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 상기 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
본 명세서의 청구범위에서, 상세한 설명에 기재된 기능을 수행하기 위한 수단으로 표현된 구성요소는 예를 들어 상기 기능을 수행하는 회로 소자의 조합 또는 펌웨어/마이크로 코드 등을 포함하는 모든 형식의 소프트웨어를 포함하는 기능을 수행하는 모든 방법을 포함하는 것으로 의도되었으며, 상기 기능을 수행하도록 상기 소프트웨어를 실행하기 위한 적절한 회로와 결합된다. 이러한 청구범위에 의해 정의되는 본 발명은 다양하게 열거된 수단에 의해 제공되는 기능들이 결합되고 청구항이 요구하는 방식과 결합되기 때문에 상기 기능을 제공할 수 있는 어떠한 수단도 본 명세서로부터 파악되는 것과 균등한 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시 예에 대하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 차량 음성 인식 장치의 활용 예를 나타내는 도면 이다. 도 1을 참조하면, 차량 내부에 위치한 화자(10)는 차량에 구비된 음성 인식 장치(미도시)의 음성 인식 기능을 이용하기 위하여 발화를 통해 음성 인식 장치에 음성을 입력할 수 있다. 여기서, 화자(10)는 차량의 운전자, 차량의 동승자 등과 같이 차량 내부에 위치한 사람을 의미할 수 있다.
이러한 화자의 음성은 차량의 주차, 정차 및 주행 중 다양한 상황에서 차량에 구비된 음성 인식 장치에 입력될 수 있다.
이 때, 차량의 음성 인식 기능 사용을 위한 화자(10)의 발화는 크게 세 가지 유형으로 구별될 수 있다.
첫 번째 발화 유형은 "라디오 틀어줘(11)", 실내 온도 22도(12)", "우리집 가는 길 안내해(13)", "오늘 날씨 알려줘(14)"와 같이, 차량의 기능을 조작하거나 차량 주행 환경을 확인하기 위한 발화일 수 있다.
만약, 화자(10)가 "라디오 틀어줘(10)"와 같이 발화하는 경우, 음성 인식 장치는 화자(10)의 음성을 인식하여 인식된 음성 명령에 대응되는 요청을 차량의 ECU(Electronic Control unit)에 전송하고, ECU는 차량의 라디오 모듈의 전원을 온(On) 시키도록 제어할 수 있다.
두 번째 발화 유형은 "와이퍼가 안 움직여(21)", "주유구가 안 열려(22)", "시동이 안걸리네(23)"과 같이, 차량이 문제 상황에 있음을 알리고 이에 대한 해결책을 안내받기 위한 발화일 수 있다.
만약, 화자(10)가 "주유구가 안 열려(22)"와 같이 발화하는 경우, 음성 인식 장치는 화자(10)의 발화를 인식하고, 이를 기초로 해당 문제 상황을 해결하기 위한 해결책을 기 저장된 데이터베이스로부터 검출하며, 검출된 해결책을 음성 또는 디스플레이를 통해 화자(10)에게 안내할 수 있다.
세 번째 발화 유형은 "에어컨 온도가 높네(31)", "와이퍼 속도가 느리네(32)"와 같이, 차량이 문제 상황에 있다는 것을 알리기 위함인지 또는 차량의 기능을 조작하기 위함인지 불분명한 발화 유형이다.
일 예로, 화자의 발화 "와이퍼 속도가 느리네(32)"는 "와이퍼 동작 속도가 내가 설정한 속도보다 늦네. 고장난건가?" 또는 "현재 상황에서는 와이퍼 동작 속도가 더 빨라야하는데 늦네. 와이퍼 동작 속도를 높여줬으면 좋겠네."의 의미를 함축적으로 표현한 것이고, 어느 것에 해당하는지 불분명한 발화 유형이다.
이러한 세 번째 발화 유형의 경우, 음성 인식 장치가 화자(10)의 의도를 잘못 판단하게 된다면, 화자(10)의 요구에 정확하게 부응할 수 없다.
일 예로, 화자가 에어컨에 문제가 있음을 알리고 이에 대한 해결책을 제공 받길 원하여 "에어컨 온도가 높네(31)"를 발화하였는데, 음성인식장치는 화자(10)의 의도와는 다르게 에어컨 온도를 낮추라는 것으로 판단할 수 있다. 이 경우, 음성 인식 장치는 화자(10)의 음성을 인식하여 인식된 음성 명령에 대응되는 요청을 차량의 ECU에 전송하고, ECU는 차량의 공기조화모듈을 제어하여 에어컨 온도를 낮추도록 제어하게 된다.
반대로, 화자가 에어컨 온도를 낮추기 위하여 "에어컨 온도가 높네(31)"를 발화하였는데, 음성인식장치는 화자(10)의 의도와는 다르게 에어컨에 문제가 있다고 판단할 수 있다. 이 경우, 음성 인식 장치는 화자(10)의 발화를 인식하고, 이를 기초로 해당 문제 상황을 해결하기 위한 해결책을 기 저장된 데이터베이스로부터 검출하여 음성 또는 디스플레이를 통해 화자(10)에게 안내할 수 있다. 즉, 화자(10)의 발화 의도와는 전혀 다른 동작이 수행되게 된다.
즉, 세 번째 발화 유형의 경우, 음성 인식 장치가 화자(10)의 의도를 잘못 판단하게 된다면, 화자(10)의 발화 의도와는 전혀 다른 동작이 수행되어 화자(10)에게 불편함을 초래할 수 있다.
이에 따라, 본 발명에 따른 음성 인식 장치는 차량 내 화자로부터 수신된 음성이 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 차량의 기능 동작을 요청하는 제2 요청인지 판단함으로써 이러한 문제점을 해결할 수 있다.
이러한 본 발명에 따른 음성 인식 장치에 대해서는 이후 도면을 참조하여 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시 예에 따른 음성 인식 장치를 나타내는 블록도 이다. 도 2를 참조하면, 음성 인식 장치(100)는 음성 처리부(110), 차량 감지 데이터 획득부(120) 및 제어부(130)의 전부 또는 일부를 포함할 수 있다.
음성 처리부(110)는 차량 내 화자의 발화에 따른 음성을 수신하고, 수신된 음성을 기초로 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 차량의 기능 동작을 요청하는 제2 요청인지 판단할 수 있다.
이러한 음성 처리부(110)의 동작에 대해서는 도 3을 참조하여 설명하기로 한다.
도 3은 본 발명의 일 실시 예에 따른 음성 처리부를 보다 구체적으로 나타내는 블록도 이다. 도 3을 참조하면, 음성 처리부(110)는 음성 입력부(111), 음성-텍스트 변환부(112), 단어 보정부(113), 자연어 이해부(114), 자연어 생성부(115) 및 음성 합성부(116)의 전부 또는 일부를 포함할 수 있다.
음성 입력부(111)는 차량 내 화자가 발화한 발화 음성을 입력 받을 수 있다. 이를 위해 음성 입력부(111)는 하나 이상의 마이크(미도시)를 구비할 수 있다. 또한, 음성 입력부(111)는 사용자의 발화 음성을 수신하는 과정에서 발생하는 노이즈를 제거하기 위한 다양한 노이즈 제거 알고리즘을 사용할 수 있다. 구체적으로, 음성 입력부(111)는 발화 음성의 노이즈를 제거하는 필터(미도시), 필터에서 출력되는 신호를 증폭하여 출력하는 증폭기(미도시) 등을 포함할 수 있다.
음성-텍스트 변환부(112)는 음성 입력부(111)를 통하여 입력되는 일련의 발화 음성 신호를 텍스트로 변환할 수 있다. 음성 인식부는 음향 모델, 언어 모델, 발음 모델을 포함할 수 있다.
음향 모델(Acoustic Model)은 음소가 어떤 식으로 발성되는지를 다수의 화자 발성 데이터를 토대로 훈련함으로써 만들어지는 음성의 통계적 모델을 포함할 수 있다. 이러한 음향 모델은 음성 입력부(111)에서 입력된 환자의 음성을 기초로 음소 텍스트를 생성할 수 있다. 여기서, 음향 모델은 HMM(Hidden Markov Model), GMM(Gaussian mixture emissions)-HMM, HMM에 심층신경망을 적용한 DNN(Deep Neural Network)-HMM 등 다양한 방식으로 구현될 수 있다. 여기서, 음향 모델은 일 예로 주파수 영역 에너지 추정방식으로 가장 대표적인 방법인 MFCC(melfrequency cepstral coefficient)을 특징으로 이용할 수 있다.
또한, 언어 모델(Language model)은 자연어 안에서 문법, 구문, 단어 등에 대한 규칙성을 찾아내고, 그 규칙성을 이용하여 검색하고자 하는 대상의 정확도를 높이기 위한 알고리즘을 포함할 수 있다. 이 때, 일반적으로 사용되는 방식이 확률값을 산출하는 통계적 모델링 기법이며, 이는 대량의 말뭉치를 통하여 입력되는 발화 음성 신호)에서 언어규칙을 확률로 나타내고, 확률값을 통해서 탐색 영역을 제한하는 방법을 포함할 수 있다. 일 예로, 언어 모델은 N-Gram을 사용할 수 있다.
또한, 발음 모델은 텍스트를 소리 나는 대로 변환하는 음소 변환(G2P : Grapheme-to-Phoneme)하는 발음 사전 모델로, 표준 발음 뿐만 아니라 방언 등에 대해서도 발음 사전을 구축할 수 있다.
이러한 음성-텍스트 변환부(112)는 특정 화자에 종속되지 않은 화자 독립적인 음성 인식 모델을 이용할 수 있다.
한편, 음성-텍스트 변환부(112)를 통해 음성이 텍스트로 변환되면, 변환된 텍스트는 단어 보정부(113)로 입력될 수 있다.
이 경우, 단어 보정부(113)는 텍스트에 포함된 차량 관련 단어를 기 설정된 차량 관련 단어로 보정할 수 있다.
구체적으로, 단어 보정부(113)는 텍스트를 단어 단위로 분리하고, 분리된 단어들 중 차량 관련 단어를 검출할 수 있다. 이 경우, 단어 보정부(113)는 적어도 하나의 단어가 결합된 최소의 자립 형식을 단어 단위로 설정하여 단어를 분리할 수 있다.
그리고, 단어 보정부(113)는 검출된 차량 관련 단어를 차량 관련 단어 데이터베이스에 적용하여 검출된 차량 관련 단어가 표준 단어인지 또는 비표준 단어인지 판단할 수 있다.
만약, 검출된 차량 관련 단어가 표준 단어인 경우, 단어 보정부(113)는 검출된 차량 관련 단어를 보정하지 않을 수 있다.
다만, 검출된 차량 관련 단어가 비표준 단어인 경우, 단어 보정부(113)는 차량 관련 단어 데이터베이스를 이용하여 검출된 차량 관련 단어를 표준 단어로 보정할 수 있다.
여기서, 표준 단어는 차량 업계에서 일반적으로 사용되는 단어를 의미하고, 비표준 단어는 차량 업계에서 일반적으로 사용되지 않는 단어를 의미한다.
그리고, 차량 관련 단어 데이터베이스는 비표준 단어와 표준 단어를 매칭시켜 높은 것으로, 단어 보정부(113)는 차량 관련 단어 데이터베이스는 차량 내에서 사용되는 복수의 차량 관련 용어나 상황 묘사 단어들을 기초로 학습시킬 수 있다.
일 예로, 차량의 계기판이 제대로 동작을 하지 않는 상황에서 "계기판"이라는 단어를 모르는 차량 운전자는 상황을 묘사하면서 "핸들 앞 화면이 동작을 안하네"와 같이 말할 수 있다. 이 경우, 입력된 음성은 음성-텍스트 변환부(112)를 통해 텍스트로 변환되어 단어 보정부(113)에 입력될 수 있다. 이 경우, 단어 보정부(113)는 "핸들 앞 화면"이라는 비표준 단어를 차량 관련 단어 데이터베이스에 적용하여 대응되는 표준 단어인 "계기판"을 검출하고, "핸들 앞 화면"을 "계기판"으로 수정하여 “계기판이 동작을 안하네"로 수정할 수 있다.
다른 예로, 차량의 와이퍼가 제대로 동작을 하지 않는 상황에서 "와이퍼"이라는 단어를 모르는 차량 운전자는 상황을 묘사하면서 "차량 앞 유리닦이가 느리네"와 같이 말할 수 있다. 이 경우, 입력된 음성은 음성-텍스트 변환부(112)를 통해 텍스트로 변환되어 단어 보정부(113)에 입력될 수 있다. 이 경우, 단어 보정부(113)는 "차량 앞 유리닦이"라는 비표준 단어를 차량 관련 단어 데이터베이스에 적용하여 대응되는 표준 단어인 "와이퍼"를 검출하고, "차량 앞 유리닦이"을 "와이퍼"로 수정하여 “와이퍼가 느리네"로 수정할 수 있다.
이러한 본 발명에 따르면, 단어 보정부(113)에서 학습된 데이터베이스를 이용하여 비표준 단어를 표준 단어로 변환하는 선처리를 수행함으로써, 후술할 자연어 이해부(114)의 경량화에 도움을 줄 수 있다. 그리고, 이는 자연어 이해부(114)의 성능을 향상시켜 차량 내 화자 발화 의도를 보다 정확하게 파악하게 할 수 있다.
한편, 단어 보정부(113)에서 수정된 텍스트는 자연어 이해부(114)로 입력될 수 있다.
자연어 이해부(114)(natural language understanding)는 단어 보정부(113)로부터 입력받은 텍스트의 의미를 이해하기 위한 처리를 수행할 수 있다. 구체적으로 자연어 이해부(114)는 음성 인식 결과로 생성된 텍스트에 대하여 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자의 발화음성에 대한 발화 의도를 분석할 수 있다.
여기서, 문법적 분석은 질의 텍스트를 문법적 단위(예: 단어, 구, 형태소 등)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다.
또한 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다.
이에 따라, 자연어 이해부(183)는 차량 내 화자의 음성 인식 결과로 생성된 텍스트가 어떤 의도(intent)인지 분석할 수 있다. 특히, 자연어 이해부(183)는 텍스트로부터 화자의 발화 의도를 분석하여 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 차량의 기능 동작을 요청하는 제2 요청인지 판단할 수 있다.
한편, 자연어 생성부(natural language generation)(115)는 자연어 이해부(114)에서 분석한 발화 의도에 기초하여 지식 베이스(knowledge-base)를 이용하여 응답 텍스트를 생성할 수 있다.
음성 합성부(TTS: text to speech)(116)는 자연어 생성부(115)가 생성한 자연어 발화 형태의 응답 텍스트에 대한 응답 발화음성을 생성할 수 있다. 이러한 음성 합성부(116)에서 생성된 음성은 차량 내 화자에게 음성으로 제공될 수 있다.
한편, 상술한 자연어 이해부(114)는 자연어 이해 모델을 이용하여 화자의 발화 의도를 분석하여 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 차량의 기능 동작을 요청하는 제2 요청인지 판단할 수 있다.
여기서, 본 발명에 따른 자연어 이해부(114)의 자연어 이해 모델은 화자의 신원 및 화자의 운전 여부에 따라 분류된 화자 종속적인 자연어 이해 모델일 수 있다.
일 예로, 차량을 이용하는 사람이 "A", "B" 두 사람인 경우, 본 발명에 따른 자연어 이해부(114)는 "A가 운전자인 경우", "A가 동승자인 경우", "B가 운전자인 경우", "B가 동승자인 경우"로 구분하여 각 경우에 따른 화자 종속적인 자연어 이해 모델을 구축할 수 있다.
즉, 화자가 운전 중인지 또는 운전 중이 아닌지에 따라 화자의 음성의 속도, 명료도, 톤, 피치, 크기, 뉘앙스 등과 같은 음성 특성은 서로 다를 수 있고, 사용하는 단어, 어휘, 문법 구성 등도 달라질 수 있다. 이러한 특성은 화자가 누구인지에 따라서도 종속적으로 달라질 수 있다.
이에 따라, 본 발명에 따른 음성 인식 장치(100)는 발화가 발생된 위치를 기초로 화자의 운전 여부를 판단하고, 발화의 음성, 피치, 톤 등에 따라 화자의 신원을 식별할 수 있다. 그리고, 자연어 이해부(114)는 화자의 신원 및 화자의 운전 여부에 따라 분류된 화자 종속적인 자연어 이해 모델을 이용하여 차량 내 화자의 발화 의도를 분석할 수 있다. 이에 따라, 본 발명에 따른 자연어 이해부(114)는 차량 내 화자 발화 의도를 보다 정확하게 파악하게 할 수 있다.
또한, 각 차량을 이용하는 사람은 제한적이기에, 본 발명에 따르면, 정확성을 높이면서도 차량 내 사용 환경에 맞게 최적화된 모델을 구축할 수 있다.
한편, 본 발명에 따른 자연어 이해부(114)는 자연어 이해 모델을 통한 화자의 의도 분석 결과에 대한 신뢰도의 스코어링(scoring)을 수행할 수 있고, 제어부(130)는 그 신뢰도 값에 따라 화자와의 질의응답 과정의 추가 수행 여부를 결정할 수 있다.
구체적으로, 자연어 이해부(114)의 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 큰 경우, 신뢰도 값이 가장 큰 분석 결과를 화자의 의도로 판단할 수 있다.
다만, 자연어 이해부(114)의 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 제어부(130)는 자연어 생성부(115)를 제어하여 차량의 문제 상황을 질의하는 문의를 생성할 수 있다. 그리고, 제어부(130)는 생성된 문의를 음성 합성부(116)를 통해 음성으로 화자에게 제공하거나 또는 디스플레이와 같은 별도의 출력 수단을 통해 화자에게 제공할 수 있다. 이에 대해서는 도 4를 참조하여 보다 구체적으로 설명하기로 한다.
도 4는 본 발명의 일 실시 예에 따른 화자와의 질의 응답에 따른 의도 파악 과정을 나타내는 흐름도 이다. 도 4를 참조하면, 일 예로, 차량 내 화자(10)는 차량을 이용하는 중에 "와이퍼 동작 속도가 늦네(S11)"라고 말할 수 있다. 이 경우, 차량에 구비된 음성 인식 장치(100)의 자연어 이해부(114)는 자연어 이해 모델을 통하여 화자의 발화 의도 분석하고, 의도 분석 결과에 대한 신뢰도를 스코어링(scoring)을 수행하여 신뢰도 값을 출력하게 되는데, 그 값은 기 설정된 신뢰도 값 보다 높아 의도 분석의 정확성이 높을 수도 있지만, 그 값은 기 설정된 신뢰도 값 보다 작을 수도 있다.
만약, 의도 분석 결과에 대한 신뢰도 값이 기 설정된 신뢰도 값 보다 작은 경우, 제어부(130)는 자연어 생성부(115)를 제어하여 차량의 문제상황을 질의하는 문의를 생성할 수 있다. 이 때, 제어부(130)는 화자의 발화 "와이퍼 동작 속도가 늦네" 로부터 차량에 문제가 있는 장비인 "와이퍼"와 문제 증상 "동작 속도"를 검출할 수 있다. 그리고, 제어부(130)는 검출된 단어에 고장 여부를 질의할 수 있는 문장이나 단어를 추가하여 차량의 문제상황을 질의하는 문의를 동적으로 생성할 수 있다. 여기서, 고장 여부를 질의할 수 있는 문장이나 단어는 "이상", "고장"과 같은 문제 상황을 나타내는 단어 또는 부정적인 의미를 갖는 접두사나 접미사가 포함된 단어 또는 이들을 포함한 문장일 수 있다.
일 예로, 제어부(130)는 "와이퍼 동작 속도에 이상이 있는 것 같나요?"(S12)와 같은 질의를 생성하고, 생성된 문의를 음성 합성부(116)를 통해 음성으로 화자에게 제공할 수 있다. 또 다른 예로, 제어부(130)는 "와이퍼 동작 속도가 설정 속도랑 안맞나요?"와 같은 질의를 생성할 수도 있다.
도 4(a)와 같이, 만약, 상기 질의에 대한 화자의 응답으로 질의에 동의하는 응답, 예를 들어 "예"(S13)가 입력되면, 자연어 이해부(114)는 해당 화자의 발화 "와이퍼 동작 속도가 늦네(S11)"는 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인 것으로 판단할 수 있다. 그리고, 제어부(130)는 기 생성된 차량 문제상황 솔루션 데이터베이스를 이용하여 와이퍼 동작 속도 문제 상황에 대한 솔루션을 생성하고, 생성된 솔루션을 음성 합성부(116)를 통해 음성으로 화자에게 제공할 수 있다.
다만, 도 4(b)와 같이, 만약, 상기 질의에 대한 화자의 응답으로 질의에 비동의 하는 응답, 예를 들어 "아니오"(S23)가 입력되면, 자연어 이해부(114)는 해당 화자의 발화 "와이퍼 동작 속도가 늦네(S11)"는 차량의 기능 동작을 요청하는 제2 요청인 것으로 판단할 수 있다. 이 경우, 제어부(130)는 와이퍼 동작 속도를 높이기 위한 신호를 생성하여 ECU 에 전송할 수 있고, ECU는 와이퍼 모듈의 동작 속도를 높일 수 있다.
추가로, 제어부(130)는 자연어 생성부(115)를 제어하여 차량의 기능 동작을 질의하는 문의를 생성할 수 있다. 이 때, 제어부(130)는 화자의 발화 "와이퍼 동작 속도가 늦네"로부터 검출된 단어인 문제가 있는 장비 "와이퍼"와 문제 증상 "동작 속도"에 동사 "늦네"의 반어 표현인 "빠르다"를 결합하여 차량의 기능 동작을 질의하는 문의를 동적으로 생성할 수 있다.
일 예로, 제어부(130)는 "와이퍼 동작 속도를 빠르게 할까요?"(S24)와 같은 질의를 생성하고, 생성된 문의를 음성 합성부(116)를 통해 음성으로 화자에게 제공할 수 있다.
한편, 자연어 이해부(114)는 화자(10)와의 질의 응답 결과를 기초로 자연어 이해 모델을 학습시킬 수 있다. 일 예로, 도 4(A)와 같이, 차량 문제상황에 대한 문의에 사용자로부터 S13 과 같은 동의 응답이 수신되면, 해당 화자의 발화 "와이퍼 동작 속도가 늦네(S11)"는 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인 것으로 자연어 이해 모델을 학습시킬 수 있다. 다른 예로, 도 4(B)와 같이, 차량 문제상황에 대한 문의에 사용자로부터 S23 과 같은 비동의 응답이 수신되면, 해당 화자의 발화 "와이퍼 동작 속도가 늦네(S11)"는 차량의 기능 동작을 요청하는 제2 요청인 것으로 자연어 이해 모델을 학습시킬 수 있다.
한편, 본 발명에 따른 자연어 이해부(114)는 자연어 이해 모델을 통한 화자의 의도 분석 결과에 대한 신뢰도를 스코어링(scoring)을 수행할 수 있고, 제어부(130)는 그 신뢰도 값에 따라 차량 감지 데이터 획득부(120)를 통해 획득된 차량 감지 데이터의 활용 여부를 결정할 수 있다.
구체적으로, 본 발명의 일 실시 예에 따른 음성 인식 장치(100)의 차량 감지 데이터 획득부(120)는 차량에 구비된 각종 장치들에 대한 감지 데이터를 획득할 수 있다. 여기서, 차량에 구비된 각종 장치들은 에어컨, 방향 지시등, 시동 스위치, 경음기, 자동 항법 장치, 각종 페달(클러치 페달, 가속 페달, 브레이크 페달 등), 인포테인먼트 장치, 와이퍼 등과 같이, 차량을 구성하는 각종 장치를 포함할 수 있다.
그리고, 차량 감지 데이터는 차량에 구비된 장치들의 동작 상태, 동작 환경 등과 같은 동작 정보를 포함할 수 있다.
일 예로, 와이퍼의 경우, 사용자 조작에 따라 설정된 와이퍼 동작 속도 정보, 실제 와이퍼 동작 속도 정보, 와이퍼 동작 여부 정보를 포함할 수 있다. 다른 예로, 에어컨의 경우, 사용자 조작에 따라 설정된 에어컨 온도 정보, 차량 내부 온도 정보, 에어컨 동작 여부 정보를 포함할 수 있다.
여기서, 차량 감지 데이터는 차량에 구비된 각종 센서에서 수집될 수 있고, 차량 감지 데이터 획득부(120)는 상기 센서에서 수집된 정보를 수신할 수 있다.
또는, 음성 인식 장치(100)는 차량 감지를 위한 센서를 추가로 구비할 수 있고, 구비된 센서의 감지 신호를 기초로 감지 데이터를 획득할 수도 있다.
이러한 차량 감지 데이터는 자연어 이해부(114)에서 화자의 의도 분석의 정확성을 높이기 위한 데이터로 활용될 수 있다.
구체적으로, 자연어 이해부(114)의 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 제어부(130)는 차량 감지 데이터 획득부(120)에서 획득된 차량 감지 데이터를 기초로 화자의 발화가 차량 문제상황에 부합하는 발화인지 여부를 판단할 수 있다.
일 예로, 차량 내 화자(10)는 차량을 이용하는 중에 "와이퍼 동작 속도가 늦네"라고 말할 수 있다. 이 경우, 차량에 구비된 음성 인식 장치(100)의 자연어 이해부(114)는 자연어 이해 모델을 통하여 화자의 발화 의도 분석하고, 의도 분석 결과에 대한 신뢰도를 스코어링(scoring)을 수행하여 신뢰도 값을 출력하게 되는데, 그 값은 기 설정된 신뢰도 값 보다 높아 의도 분석의 정확성이 높을 수도 있지만, 그 값은 기 설정된 신뢰도 값 보다 낮을 수도 있다.
만약, 의도 분석 결과에 대한 신뢰도 값이 기 설정된 신뢰도 값 보다 작은 경우, 제어부(130)는 차량 감지 데이터 획득부(120)에서 획득된 차량 감지 데이터 중 와이퍼에 대한 감지 데이터로부터 사용자 조작에 따라 설정된 와이퍼 동작 속도 정보, 실제 와이퍼 동작 속도 정보를 검출할 수 있다. 그리고, 제어부(130)는 검출된 정보를 기초로 사용자 설정 와이퍼 동작 속도와 실제 와이퍼 동작 속도를 비교할 수 있다.
만약, 사용자 설정 와이퍼 동작 속도 보다 실제 와이퍼 동작 속도가 느리다고 판단되면, 제어부(130)는 화자의 발화가 차량 문제상황에 부합하는 발화라고 판단할 수 있다. 이 경우, 자연어 이해부(114)는 화자의 발화를 와이퍼의 동작 속도 문제상황에 대한 대응방안을 요청하는 제1 요청으로 판단할 수 있다.
그리고, 제어부(130)는 기 생성된 차량 문제상황 솔루션 데이터베이스를 이용하여 와이퍼 동작 속도 문제 상황에 대한 솔루션을 생성하고, 생성된 솔루션을 음성 합성부(116)를 통해 음성으로 화자에게 제공할 수 있다.
다만, 사용자 설정 와이퍼 동작 사용자 설정 와이퍼 동작 속도가 실제 와이퍼 동작 속도와 일치하거나 또는 빠르다고 판단되면, 제어부(130)는 화자의 발화가 차량 문제상황에 부합하는 발화가 아니라고 판단할 수 있다. 이 경우, 자연어 이해부(114)는 화자의 발화를 차량의 기능 동작을 요청하는 제2 요청으로 판단할 수 있다.
그리고, 제어부(130)는 와이퍼의 동작 속도를 높이기 위한 제어 신호를 생성하고, 생성된 제어 신호를 차량의 ECU에 전송할 수 있다. 이 경우, ECU는 와이퍼의 동작 속도를 높일 수 있다.
한편, 자연어 이해부(114)는 차량 감지 데이터 획득부(120)를 통해 획득된 차량 감지 데이터를 기초로 자연어 이해 모델을 학습시킬 수 있다. 일 예로, 화자의 발화가 차량 문제상황에 부합하는 발화라고 판단되면, 해당 화자의 발화 "와이퍼 동작 속도가 늦네"는 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인 것으로 자연어 이해 모델을 학습시킬 수 있다. 다른 예로, 화자의 발화가 차량 문제상황에 부합하지 않는 발화라고 판단되면, 해당 화자의 발화 "와이퍼 동작 속도가 늦네"는 차량의 기능 동작을 요청하는 제2 요청인 것으로 자연어 이해 모델을 학습시킬 수 있다.
한편, 본 발명의 다른 실시 예에 따르면, 차량 감지 데이터 획득부(120)를 통해 획득된 차량 감지 데이터와 화자와의 질의응답 모두를 수행하여 화자의 의도를 판단할 수도 있다. 이 경우, 차량 감지 데이터와 화자와의 질의응답의 순서에는 제한되지 않고, 동시 또는 순차적으로 수행될 수 있다.
이하에서는 이후 도면을 참조하여 흐름도를 참조하여 본 발명의 일 실시 예에 따른 차량 문제상황 처리 방법에 대하여 설명하기로 한다. 여기서, 설명된 순서는 본 발명의 일 예시일 뿐, 그 순서에 한정되는 것은 아니다.
도 5는 본 발명의 일 실시 예에 따른 차량 문제상황 처리 방법을 개략적으로 나타내는 흐름도 이다. 도 5를 참조하면, 먼저 차량 내 화자의 발화에 따른 음성을 수신할 수 있다(S110).
그리고, 수신된 음성을 텍스트로 변환할 수 있다(S120). 구체적으로, 단계(S120)는 음향 모델, 언어 모델, 발음 모델을 이용하여 입력되는 일련의 발화 음성 신호를 텍스트로 변환할 수 있다.
그리고, 텍스트로부터 화자의 발화 의도를 분석하여 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 차량의 기능 동작을 요청하는 제2 요청인지 판단할 수 있다(S130). 여기서 판단하는 단계(S130)는 자연어 이해 모델을 이용하여 화자의 의도를 분석하여 제1 요청 또는 제2 요청으로 판단할 수 있다. 그리고 자연어 이해 모델은 화자의 신원 및 화자의 운전 여부에 따라 분류된 화자 종속적인 자연어 이해 모델일 수 있다.
만약, 화자의 발화가 제1 요청으로 판단되는 경우(S140:Y), 차량의 문제상황의 처리를 위한 안내를 화자에게 제공할 수 있다(S150). 일 예로, 차량의 문제상황에 대한 해결책을 음성 또는 디스플레이를 통해 화자에게 제공할 수 있다.
다만, 화자의 발화가 제2 요청으로 판단되는 경우(S140:N), 차량의 기능 동작을 요청하기 위한 신호를 생성할 수 있다(S160). 여기서, 생성된 신호는 차량의 ECU(Electronic Control unit)에 전송될 수 있고, ECU는 수신된 제어 신호를 분석하여 대응되는 차량 구비 장치의 기능 동작을 제어할 수 있다.
한편, 도 5에는 도시되지 않았으나, 본 발명의 일 실시 예에 따른 방법은 S120 단계와 S130 단계 사이에 텍스트에 포함된 차량 관련 단어를 검출하고, 검출된 차량 관련 단어를 기 설정된 표준 단어로 보정하는 단계를 더 포함할 수 있다.
도 6는 본 발명의 다른 실시 예에 따른 화자와의 질의 응답을 추가 고려한 화자 의도 파악하는 과정을 나타내는 흐름도 이다. 도 6을 참조하면, 자연어 이해 모델을 이용한 화자의 의도 분석 결과에 대한 신뢰도 값을 스코어링 할 수 있다(S210).
만약, 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 큰 경우(S220:Y), 신뢰도 값이 가장 큰 분석 결과를 화자의 의도로 판단할 수 있다(S230).
다만, 화자의 의도 분석 결과에 대한 신뢰도 값이 기 설정된 값보다 작은 경우(S220:N), 차량의 문제상황을 질의하는 문의를 생성할 수 있다(S240).
그리고, 생성된 문의를 화자에게 제공할 수 있다(S250).
그리고, 질의에 대한 화자의 응답을 기초로 화자의 발화 의도를 제1 요청 또는 제2 요청을 판단할 수 있다(S260). 일 예로, 질의에 대한 화자의 응답으로 질의에 동의하는 응답 입력되면, S250 단계는 화자의 발화 의도를 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인 것으로 판단할 수 있다. 다만, 질의에 대한 화자의 응답으로 질의에 비동의 하는 응답이 입력되면, S250 단계는 화자의 발화 의도를 차량의 기능 동작을 요청하는 제2 요청인 것으로 판단할 수 있다.
그리고, 화자와의 질의 응답 결과를 기초로 자연어 이해 모델을 학습시킬 수 있다(S270).
도 7은 본 발명의 또 다른 실시 예에 따른 차량 감지 데이터를 추가 고려한 화자 의도 파악 과정을 나타내는 흐름도 이다. 자연어 이해 모델을 이용한 화자의 의도 분석 결과에 대한 신뢰도 값을 스코어링 할 수 있다(S310).
만약, 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 큰 경우(S320:Y), 신뢰도 값이 가장 큰 분석 결과를 화자의 의도로 판단할 수 있다(S330).
다만, 화자의 의도 분석 결과에 대한 신뢰도 값이 기 설정된 값보다 작은 경우(S320:N), 차량에 구비된 장치들의 동작 정보를 포함하는 차량 감지 데이터를 획득할 수 있다(S340).
그리고, 획득된 차량 감지 데이터를 기초로 화자의 발화가 차량 문제상황에 부합하는 발화인지 여부를 판단할 수 있다(S350).
그리고, 화자의 발화가 차량 문제상황에 부합하는 발화인지 여부에 따라 화자의 발화 의도를 제1 요청 또는 제2 요청을 판단할 수 있다(S360). 일 예로, 화자의 발화가 차량 문제상황에 부합하는 발화라고 판단되면, 해당 화자의 발화는 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인 것으로 판단할 수 있다. 다만, 화자의 발화가 차량 문제상황에 부합하지 않는 발화라고 판단되면, 해당 화자의 발화는 차량의 기능 동작을 요청하는 제2 요청인 것으로 판단할 수 있다.
그리고, 획득된 차량 감지 데이터를 기초로 자연어 이해 모델을 학습시킬 수 있다(S370).
한편, 명세서 및 청구범위에서 "제 1", "제 2", "제 3" 및 "제 4" 등의 용어는, 만약 있는 경우, 유사한 구성요소 사이의 구분을 위해 사용되며, 반드시 그렇지는 않지만 특정 순차 또는 발생 순서를 기술하기 위해 사용된다. 그와 같이 사용되는 용어는 여기에 기술된 본 발명의 실시예에 의해 이해될 것이다. 마찬가지로, 여기서 방법이 일련의 단계를 포함하는 것으로 기술되는 경우, 여기에 제시된 그러한 단계의 순서는 반드시 그러한 단계가 실행될 수 있는 순서인 것은 아니며, 임의의 기술된 단계는 생략될 수 있고/있거나 여기에 기술되지 않은 임의의 다른 단계가 그 방법에 부가 가능할 것이다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
또한 명세서 및 청구범위의 "왼쪽", "오른쪽", "앞", "뒤", "상부", "바닥", "위에", "아래에" 등의 용어는, 설명을 위해 사용되는 것이며, 반드시 불변의 상대적 위치를 기술하기 위한 것은 아니다. 그와 같이 사용되는 용어는 여기에 기술된 본 발명의 실시예가, 예컨대, 여기에 도시 또는 설명된 것이 아닌 다른 방향으로 동작할 수 있도록 적절한 환경하에서 호환 가능한 것이 이해될 것이다. 여기서 사용된 용어 "연결된"은 전기적 또는 비 전기적 방식으로 직접 또는 간접적으로 접속되는 것으로 정의된다. 여기서 서로 "인접하는" 것으로 기술된 대상은, 그 문구가 사용되는 문맥에 대해 적절하게, 서로 물리적으로 접촉하거나, 서로 근접하거나, 서로 동일한 일반적 범위 또는 영역에 있는 것일 수 있다. 여기서 "일실시예에서"라는 문구의 존재는 반드시 그런 것은 아니지만 동일한 실시예를 의미한다.
또한 명세서 및 청구범위에서 '연결된다', '연결하는', '체결된다', '체결하는', '결합된다', '결합하는' 등과 이런 표현의 다양한 변형들의 지칭은 다른 구성요소와 직접적으로 연결되거나 다른 구성요소를 통해 간접적으로 연결되는 것을 포함하는 의미로 사용된다.
반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
또한, 본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로써, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
또한 본 명세서에서 사용된 용어들은 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 명세서를 통해 개시된 모든 실시예들과 조건부 예시들은, 본 발명의 기술 분야에서 통상의 지식을 가진 당업자가 독자가 본 발명의 원리와 개념을 이해하도록 돕기 위한 의도로 기술된 것으로, 당업자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다.
그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 차량 문제상황 처리 방법은 프로그램으로 구현되어 서버 또는 기기들에 제공될 수 있다. 이에 따라 각 장치들은 프로그램이 저장된 서버 또는 기기에 접속하여, 상기 프로그램을 다운로드 할 수 있다.
또한, 상술한 본 발명의 다양한 실시 예들에 따른 방법은 프로그램으로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다. 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100 : 음성 인식 장치 10 : 음성 처리부
120 : 차량 감지 데이터 획득부 30 : 제어부

Claims (11)

  1. 차량의 문제상황에 대한 처리 방법에 있어서,
    차량 내 화자의 발화에 따른 음성을 수신하는 단계;
    상기 수신된 음성을 텍스트로 변환하는 단계; 상기 텍스트로부터 상기 화자의 발화 의도를 분석하여 상기 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 상기 차량의 기능 동작을 요청하는 제2 요청인지 판단하는 단계; 및
    상기 제1 요청으로 판단되는 경우, 상기 차량의 문제상황의 처리를 위한 안내를 제공하는 단계;를 포함하고,
    상기 판단하는 단계는,
    상기 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 상기 차량의 문제상황을 질의하는 문의를 생성하는 단계; 및
    상기 생성된 문의를 상기 화자에게 제공하는 단계;를 더 포함하고,
    상기 판단하는 단계는,
    상기 발화가 발생된 위치를 기초로 상기 화자가 운전자인지 여부를 판단한 후, 상기 화자가 운전자인지 여부에 따라 분류된 화자 종속적인 자연어 이해 모델을 이용하여 상기 화자의 의도를 분석하여 상기 제1 요청 또는 상기 제2 요청으로 판단하고,
    상기 문의를 생성하는 단계는 상기 화자의 발화에서 상기 차량에 문제가 있는 장비에 대응되는 단어를 검출하고, 검출된 단어에 고장 여부를 질의할 수 있는 문장 또는 단어를 추가하여 상기 차량의 문제상황을 질의하는 문의를 동적으로 생성하는 것을 특징으로 하는 처리 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 판단하는 단계는,
    차량에 구비된 장치들의 동작 정보를 포함하는 차량 감지 데이터를 획득하는 단계;
    상기 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 상기 획득된 차량 감지 데이터를 기초로 상기 화자의 발화가 상기 차량의 문제상황에 부합하는 발화인지 여부를 판단하는 단계; 및
    상기 부합하는 발화인 경우, 상기 화자의 발화를 상기 제1 요청으로 판단하는 단계;를 포함하는 것을 특징으로 하는 처리 방법.
  5. 제1항에 있어서,
    상기 변환된 텍스트에 포함된 차량 관련 단어를 검출하는 단계; 및
    상기 검출된 차량 관련 단어를 기 설정된 표준 단어로 보정하는 단계;를 더 포함하는 것을 특징으로 하는 처리 방법.
  6. 음성 인식 장치에 있어서,
    차량 내 화자의 발화에 따른 음성을 수신하는 음성 입력부;
    상기 수신된 음성을 텍스트로 변환하는 음성-텍스트 변환부;
    상기 텍스트로부터 상기 화자의 발화 의도를 분석하여 상기 화자의 발화가 차량의 문제상황에 대한 대응방안을 요청하는 제1 요청인지 또는 상기 차량의 기능 동작을 요청하는 제2 요청인지 판단하는 자연어 이해부; 및
    상기 제1 요청으로 판단되는 경우, 상기 차량의 문제상황의 처리를 위한 안내를 제공하도록 제어하는 제어부;를 포함하고,
    상기 자연어 이해부는,
    상기 발화가 발생된 위치를 기초로 상기 화자가 운전자인지 여부를 판단한 후, 상기 화자가 운전자인지 여부에 따라 분류된 화자 종속적인 자연어 이해 모델을 이용하여 상기 화자의 의도를 분석하여 상기 제1 요청 또는 상기 제2 요청으로 판단하고,
    상기 제어부는, 상기 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 상기 차량의 문제상황을 질의하는 문의를 생성하고, 상기 생성된 문의를 상기 화자에게 제공하도록 제어하고,
    상기 제어부는 상기 화자의 발화에서 상기 차량에 문제가 있는 장비에 대응되는 단어를 검출하고, 검출된 단어에 고장 여부를 질의할 수 있는 문장 또는 단어를 추가하여 상기 차량의 문제상황을 질의하는 문의를 동적으로 생성하는 것을 특징으로 하는 음성 인식 장치.
  7. 삭제
  8. 삭제
  9. 제6항에 있어서,
    차량에 구비된 장치들의 동작 정보를 포함하는 차량 감지 데이터를 획득하는 차량 감지 데이터 획득부;를 더 포함하고,
    상기 제어부는,
    상기 화자의 의도 분석 결과에 대한 신뢰도가 기 설정된 값보다 작은 경우, 상기 획득된 차량 감지 데이터를 기초로 상기 화자의 발화가 상기 차량의 문제상황에 부합하는 발화인지 여부를 판단하고,
    상기 자연어 이해부는,
    상기 부합하는 발화인 경우, 상기 화자의 발화를 상기 제1 요청으로 판단하는 것을 특징으로 하는 음성 인식 장치.
  10. 제6항에 있어서,
    상기 변환된 텍스트에 포함된 차량 관련 단어를 검출하고, 상기 검출된 차량 관련 단어를 기 설정된 표준 단어로 보정하는 단어 보정부;를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  11. 제1항, 제4항 및 제5항 중 어느 한 항에 기재된 차량의 문제상황에 대한 처리 방법을 실행하기 위한 프로그램 코드를 포함하는 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램.
KR1020200119834A 2020-09-17 2020-09-17 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램 KR102491119B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200119834A KR102491119B1 (ko) 2020-09-17 2020-09-17 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200119834A KR102491119B1 (ko) 2020-09-17 2020-09-17 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20220037187A KR20220037187A (ko) 2022-03-24
KR102491119B1 true KR102491119B1 (ko) 2023-01-25

Family

ID=80935806

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200119834A KR102491119B1 (ko) 2020-09-17 2020-09-17 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102491119B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114802029A (zh) * 2022-04-19 2022-07-29 中国第一汽车股份有限公司 一种车载用多屏控制方法、装置、系统及车辆
WO2024039191A1 (ko) * 2022-08-19 2024-02-22 삼성전자주식회사 전자 장치 및 사용자 발화 처리 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6604151B2 (ja) 2015-11-09 2019-11-13 三菱自動車工業株式会社 音声認識制御システム
JP2020060861A (ja) 2018-10-05 2020-04-16 本田技研工業株式会社 エージェントシステム、エージェント方法、およびプログラム
JP2020160181A (ja) 2019-03-25 2020-10-01 パナソニックIpマネジメント株式会社 音声処理装置及び音声処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070288B (zh) * 2015-07-02 2018-08-07 百度在线网络技术(北京)有限公司 车载语音指令识别方法和装置
KR102437833B1 (ko) * 2017-06-13 2022-08-31 현대자동차주식회사 음성 명령 기반 작업 선택 장치, 차량, 음성 명령 기반 작업 선택 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6604151B2 (ja) 2015-11-09 2019-11-13 三菱自動車工業株式会社 音声認識制御システム
JP2020060861A (ja) 2018-10-05 2020-04-16 本田技研工業株式会社 エージェントシステム、エージェント方法、およびプログラム
JP2020160181A (ja) 2019-03-25 2020-10-01 パナソニックIpマネジメント株式会社 音声処理装置及び音声処理方法

Also Published As

Publication number Publication date
KR20220037187A (ko) 2022-03-24

Similar Documents

Publication Publication Date Title
US11830485B2 (en) Multiple speech processing system with synthesized speech styles
US11170776B1 (en) Speech-processing system
JP4188989B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US10176802B1 (en) Lattice encoding using recurrent neural networks
US11295741B2 (en) Dynamic wakewords for speech-enabled devices
JP2018151631A (ja) ドメイン曖昧性除去を含む音声対応システム
US20090182559A1 (en) Context sensitive multi-stage speech recognition
US20070124147A1 (en) Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US11837225B1 (en) Multi-portion spoken command framework
KR102491119B1 (ko) 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램
US20190311713A1 (en) System and method to fulfill a speech request
US10621985B2 (en) Voice recognition device and method for vehicle
US8108215B2 (en) Speech recognition apparatus and method
US11715472B2 (en) Speech-processing system
US20160111089A1 (en) Vehicle and control method thereof
JP7305844B2 (ja) 音声処理
US20240071385A1 (en) Speech-processing system
WO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
US11157696B1 (en) Language agnostic phonetic entity resolution
JP2008089625A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US10468017B2 (en) System and method for understanding standard language and dialects
US11783806B2 (en) Dialogue system and dialogue processing method
KR102527346B1 (ko) 차량용 음성 인식 장치, 이를 이용한 차량의 주행상태를 고려한 응답 제공 방법 및 컴퓨터 프로그램
US11735178B1 (en) Speech-processing system
JP2008076812A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant