KR20130046759A - 차량에서 운전자 명령 인지장치 및 방법 - Google Patents

차량에서 운전자 명령 인지장치 및 방법 Download PDF

Info

Publication number
KR20130046759A
KR20130046759A KR1020110111315A KR20110111315A KR20130046759A KR 20130046759 A KR20130046759 A KR 20130046759A KR 1020110111315 A KR1020110111315 A KR 1020110111315A KR 20110111315 A KR20110111315 A KR 20110111315A KR 20130046759 A KR20130046759 A KR 20130046759A
Authority
KR
South Korea
Prior art keywords
command
driver
sound
voice
movement
Prior art date
Application number
KR1020110111315A
Other languages
English (en)
Inventor
고한석
양철종
손수원
윤종성
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020110111315A priority Critical patent/KR20130046759A/ko
Publication of KR20130046759A publication Critical patent/KR20130046759A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 차량에서 음성 명령과 동작 명령의 조합에 의해 명령을 인지하는 장치 및 방법을 구현한다.
이를 위해 차량 내에서 각각이 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성된 제1 및 제2 어레이들을 구비한다. 상기 제1 어레이를 운전자 방향으로 배치하고, 상기 제2 어레이를 조수석 방향으로 배치하며, 구조화 광원을 이용하여 운전자에 의한 손의 움직임을 인지하는 동작 인식 센서를 배치한다.
상기 제1 어레이를 통해 인가되는 음향과 상기 제2 어레이를 통해 인가되는 음향으로부터 상기 운전자를 음원으로 발생되는 음향의 전달 방향을 추정하고, 상기 추정한 전달 방향으로 인가되는 상기 운전자의 음향을 기반으로 음성 명령을 인식한다. 상기 운전자의 음향을 기반으로 음성 명령이 인식될 시에 상기 운전자에 의한 손의 움직임에 대응하여 상기 동작 인식 센서를 통해 인식되는 깊이 정보를 기반으로 동작 명령을 인식한다. 상기 인식한 음성 명령과 상기 인식한 동작 명령을 조합하여 멀티 모달 융합에 의한 명령을 생성하며, 상기 생성한 명령에 의해 차량의 대상 기기 또는 기능을 제어한다.

Description

차량에서 운전자 명령 인지장치 및 방법{APPARATUS AND METHOD FOR RECOGNITING DRIVER COMMAND IN A VEHICLE}
본 발명은 차량에서 운전자의 명령을 인지하는 장치 및 방법에 관한 것으로, 특히 차량에서 음성 명령과 동작 명령의 조합에 의해 명령을 인지하는 장치 및 방법에 관한 것이다.
통상적으로 특정 장치의 조작을 위해서는 사용자에 의한 조작이 요구된다. 예컨대 사용자가 특정 장치를 조작하기 위한 대표적인 방안은 키 조작 등을 통해 사용자가 직접 명령을 입력하는 방식이었다.
예컨대 차량 내부 환경을 제어하는 장치는 운전석과 조수석 사이의 전면 패널에 위치한 버튼, 혹은 핸들에 위치한 물리적 버튼을 주로 이용한다. 그러나 물리적 버튼을 이용하는 경우 운전자의 시선이 운전 방향과 어긋나게 되어 안전상의 문제가 발생할 수 있다.
따라서 각종 센서, 특히 음향 센서, 적외선 센서 등이 상용화됨에 따라 사용자가 특정 장치를 제어하기 위해 음성 인식 기술, 동작 인식 기술 등을 이용하는 새로운 방안이 제안되고 있다. 또한 상기 음성 인식 기술과 동작 인식 기술은 다양한 기술 분야에서 매우 오랫동안 연구되어 왔다.
통상적으로 동작 인식 기술은 사용하는 장비에 따라 초음파 방식, 보철 방식, 자기식 방식, 및 광학 방식 등으로 분류된다. 여기서 상기 광학 방식은 비교적 정확한 결과를 간단한 장비를 통해서 얻을 수 있는 이점이 있다.
그리고 음성 인식 기술은 최초 음성이 입력되면 전 처리 과정을 거쳐 음성의 특징을 추출하고, 상기 추출한 음성의 특징을 고려하여 추가로 입력되는 음성을 인식한다. 하지만 음성 인식 기술의 경우에는 화자의 음성이 주변 환경에 반사되는 반향 현상으로 인해 경계 점을 찾기 어려울 수 있는데, 이를 개선하기 위한 연구가 계속하여 진행되고 있다. 즉 연속 음성 인식은 사용자가 연속적인 동작을 시도하면서 여러 단어를 발음하거나 문장으로 구성된 주문을 사용하면 단어간의 경계 점을 찾기가 어렵고, 음성에서의 ‘반향’현상이 잡음으로 작용할 수 있어 음성 인식을 통해 인지한 명령에 오류가 발생할 수 있다.
따라서 대한민국 공개특허 ‘공개번호 10-2007-0055210’에서는 동작 인식이나 음성 인식의 영역에서 비교적 성능이 입증된 방법들을 조합하여 동작 정보와 음성 정보 상호간에 불완전한 부분을 보완하고 역동적인 게임을 제공하는 방안을 제안하고 있다.
그러나 앞서도 밝힌 바와 같이 음성 인식 기술은 잡음, 소음 등에 매우 민감하다. 따라서 차량의 외부에서 발생하는 정규적인 잡음 (stationary noise)은 음성 잡음 제거 기술을 통하여 억제가 가능하지만, 차량 내부에서 발생하는 운전자 외의 동승자간의 음성 및 차량 내부 스피커에서 발생하는 비정규적인 잡음 (non-stationary noise)과 운전자의 음성을 알고리즘 적으로 구분하는 것은 매우 어려운 일이다.
그러므로 운전자가 동승자와 함께 명령을 내리는 경우, 차량 내부 스피커에서 소리가 나오는 경우 또는 차량 밖에서 발생하는 큰 소음이 차량 내부로 전달되는 경우에는 운전자의 음성 명령 이외에도 소음이 함께 존재하여 음성 인식 결과 처리에 부정적인 영향을 줄 수 있다.
이와 같이 비정규적인 잡음이 존재하는 환경에서의 음성 인식 성능은 현저히 저하됨에 따라 이를 보완하기 위해 앞서 밝힌 인용문헌에서 제안한 바와 같이 동작 인식 기술을 함께 사용할 수 있다.
상기 동작 인식 기술은 운전자의 손 동작으로부터 손의 움직임 정보를 추출하여 그 동작의 의미를 인지하여 반응하도록 하는 기술이다. 이러한 동작 인식 기술은 음성 인식 기술의 대체 혹은 보조 수단으로 사용자 인터페이스를 위해 활용될 수 있다.
하지만 차량 등과 같이 비정규적인 잡음이 존재하는 환경에서는 동작 인식 기술을 보조 수단으로 음성 인식 기술과 함께 사용된다고 하더라도, 음성 인식 기술의 성능 저하는 시스템의 전제 성능을 저하시키는 원인으로 작용한다.
따라서 비정규적인 잡음이 존재하는 환경에서 음성 인식 기술과 동작 인식 기술을 결합하여 명령 인식 성능을 향상시키기 위한 방안 마련이 절실하다고 할 것이다.
본 발명의 실시 예에서는 비정규적인 잡음이 존재하는 환경에서 음성 인식 기술과 동작 인식 기술을 함께 사용하여 인지한 사용자의 명령을 실행하는 장치 및 방법을 제공한다.
또한 본 발명의 실시 예에서는 차량 주행 중 물리적 버튼을 이용하여 내부 환경을 제어할 때 발생할 수 있는 운전자의 안전 문제를 해결하는 차량용 인터페이스를 제공한다.
또한 본 발명의 실시 예에서는 다양한 환경의 잡음이 존재하는 차량 내부에서 멀티 모달 시스템이 운전자의 음성 및 동작을 왜곡 없이 입력 받는 장치 및 방법을 제공한다.
또한 본 발명의 실시 예에서는 주행 중인 차량용 인터페이스에 사용되는 멀티 모달 시스템에서 운전자의 음성 및 손 동작을 정확하게 기계에 전달하여 차량 내부 환경을 제어하는 장치 및 방법을 제공한다.
본 발명의 실시 예에 따라 차량 내에서 각각이 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성된 제1 및 제2 어레이들을 구비하고, 상기 제1 어레이를 운전자 방향으로 배치하고, 상기 제2 어레이를 조수석 방향으로 배치하며, 구조화 광원을 이용하여 운전자에 의한 손의 움직임을 인지하는 동작 인식 센서를 배치하여 운전자로부터의 명령을 인지하는 방법은, 상기 제1 어레이를 통해 인가되는 음향과 상기 제2 어레이를 통해 인가되는 음향으로부터 상기 운전자를 음원으로 발생되는 음향의 전달 방향을 추정하고, 상기 추정한 전달 방향으로 인가되는 상기 운전자의 음향을 기반으로 음성 명령을 인식하는 과정과, 상기 운전자의 음향을 기반으로 음성 명령이 인식될 시에 상기 운전자에 의한 손의 움직임에 대응하여 상기 동작 인식 센서를 통해 인식되는 깊이 정보를 기반으로 동작 명령을 인식하는 과정과, 상기 인식한 음성 명령과 상기 인식한 동작 명령을 조합하여 멀티 모달 융합에 의한 명령을 생성하는 과정과, 상기 생성한 명령에 의해 차량의 대상 기기 또는 기능을 제어하는 과정을 포함한다.
또한 본 발명의 실시 예에 따른 차량 내에서 운전자로부터의 명령을 인지하는 장치는, 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성되어 운전자 방향으로 배치된 제1 어레이와, 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성되어 조수석 방향으로 배치된 제2 어레이와, 구조화 광원을 이용하여 상기 운전자에 의한 손의 움직임을 인지하는 동작 인식 센서와, 상기 제1 어레이를 통해 인가되는 음향과 상기 제2 어레이를 통해 인가되는 음향으로부터 상기 운전자를 음원으로 발생되는 음향의 전달 방향을 추정하는 음원 위치 추정부와, 상기 음원 위치 추정부에 의해 추정된 전달 방향으로 인가되는 상기 운전자의 음향을 기반으로 음성 명령을 인식하는 음성 명령 인식부와, 상기 운전자의 음향을 기반으로 음성 명령이 인식될 시에 상기 동작 인식 센서를 통해 촬영된 운전자에 의한 손의 움직임에 대응하여 깊이 정보를 검출하는 동작 검출부와, 상기 동작 검출부에 의해 검출된 깊이 정보를 기반으로 동작 명령을 인식하는 동작 명령 인식부와, 상기 인식한 음성 명령과 상기 인식한 동작 명령을 조합하여 멀티 모달 융합에 의한 명령을 생성하는 명령 결정부를 포함하고, 상기 생성한 명령에 의해 차량의 대상 기기 또는 기능을 제어함을 특징으로 한다.
본 발명의 실시 예에서는 차량 운전자의 집중력을 방해하지 않으면서도 차량의 내부 환경을 제어하는 기능을 제공함으로써, 운전자의 안전을 보장할 수 있다. 특히 음성 위치 추적 알고리즘과 깊이 정보 기반의 손 추적 알고리즘을 차량 내부에 적용하여 주행 중에 발생하는 다양한 환경에서도 강인한 인터페이스를 지원할 수 있다.
한편 그 외의 다양한 효과는 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 것이다.
도 1은 본 발명의 실시 예에 따라 차량 내에 운전자 명령 인지장치가 설치된 일 예를 보이고 있는 도면;
도 2은 본 발명의 실시 예에 따른 차량 내에서 멀티 모달 기술을 차용하여 구현한 운전자 명령 인지장치의 구성에 대한 일 예를 보이고 있는 도면;
도 3은 본 발명의 실시 예에 따른 차량 내에서 멀티 모달 기술을 차용하여 운전자 명령을 인지하기 위한 제어 흐름을 보이고 있는 도면.
하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술 되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
후술될 본 발명의 실시 예에서는 멀티미디어 서비스에 따른 데이터 박스를 복원 시에 원하는 레벨을 만족하는 샘플만을 선별적으로 복원하는 것이 가능하도록 하는 방안을 구체적으로 설명할 것이다.
후술될 본 발명의 실시 예에서는 차량용 인터페이스를 제안하는 것으로, 멀티 모달 시스템을 기반으로 하여 구현한다. 상기 멀티 모달 시스템은 음성 인식과 동작 인식의 융합을 의미한다. 상기 멀티 모달 시스템을 이용한 차량용 인터페이스는 음성 인식과 동작 인식을 함께 사용하여 차량 내부 환경을 제어하는 조작 기술을 포함 한다.
통상적으로 차량은 기본적으로 주행 수단이기 때문에 다양한 환경에서 강인한 성능의 인터페이스 기술을 요구한다. 예컨대 멀티 모달을 구성하는 음성 인식 기술과 동작 인식 기술은 운전자의 음성 및 동작을 잡음 없이 입력 받는 것이 매우 중요하다고 할 것이다. 그러나 주행 중인 차량 내부에서는 다양한 소음 및 조명의 변화로 인해 음성 및 동작을 잡음 없이 입력 받기가 어려울 수 있다.
따라서 본 발명의 실시 예에서는 차량 내에 강인한 인터페이스를 위하여 음성 인식을 위한 빔 포밍 (Beamforming) 알고리즘과 동작 인식을 위한 깊이 정보를 기반으로 하는 손 추적 (Hand Tracking) 알고리즘을 이용한다.
상기 빔 포밍 알고리즘은 차량 내에서 다수의 목소리 및 배경 잡음으로부터 운전자의 목소리를 추출하기 위해 이용된다. 또한 상기 깊이 정보를 기반으로 하는 손 추적 알고리즘은 주/야간 주행에서 발생하는 다양한 조명 변화에 대하여 손의 위치 및 동작을 정확하게 추적하기 위해 이용된다.
한편 본 발명의 실시 예에 따른 운전자 명령 인지장치 및 방법에서는 음성 인식 기술과 동작 인식 기술을 기반으로 운전자의 음성과 손 동작을 인식하여 운전자에 의해 요청되는 명령에 따라 최종적으로 차량의 내부 환경을 제어한다.
이하 본 발명의 실시 예를 첨부된 도면을 참조하여 상세히 설명한다.
도 1은 본 발명의 실시 예에 따라 차량 내에 운전자 명령 인지장치가 설치된 일 예를 보이고 있다.
도 1을 참조하면, 운전자 명령 인지장치는 멀티 모달 기술을 차용하기 위해 음성 인식을 위한 구성 (110)과 동작 인식을 위한 구성 (120)을 포함한다.
상기 음성 인식을 위한 구성 (110)은 음성 인식을 저해하는 소음으로부터 운전자의 음성만을 입력으로 받아들이기 위해 운전자의 위치에 대한 빔 포밍 알고리즘을 적용하기 위해 제1 및 제2 어레이를 구비한다. 상기 제1 및 제2 어레이 각각은 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성된다. 이때 상기 음향 센서는 지향성 마이크가 될 수 있다. 도 1에서는 상기 제1 및 제2 어레이 각각이 네 개의 음향 센서들에 의해 구성된 예를 도시하고 있다.
상기 제1 어레이는 빔 포밍 알고리즘을 적용하여 운전자를 음원으로 하는 음향을 수신하고, 상기 수신한 음향을 전기적인 신호로 변환하여 출력하기 위해 운전자 방향으로 배치한다.
그리고 상기 제2 어레이는 빔 포밍 알고리즘을 적용하여 조수석의 동승자를 음원으로 하는 음향을 수신하고, 상기 수신한 음향을 전기적인 신호로 변환하여 출력하기 위해 조수석 방향으로 배치한다.
상술한 바와 같이 네 개의 지향성 마이크 배열에 의한 빔 포밍은 다수의 마이크를 통해 입력되는 음향 간 시간차의 분석을 통해 얻을 수 있는 음향의 방향성을 이용하여 운전석 방향에서 발생하는 음향 신호만을 입력으로 받아들이는데 사용된다.
상기 동작 인식을 위한 구성 (120)은 구조화 광원 (Structured Light)을 이용하여 운전자에 의한 손의 움직임을 인지하기 위해 동작 인식 센서를 운전자 방향으로 배치한 구조를 가진다. 바람직하기로 상기 동작 인식을 위한 구성 (120)에 해당하는 동작 인식 센서, 즉 카메라는 운전자의 손 중 핸들을 다루지 않는 오른손의 움직임을 촬영하기에 용이한 방향으로 설치한다.
통상적인 동작 인식 기술은 다양한 손 동작의 궤적을 구분하고, 이를 인식하는 수준에 이르렀다. 하지만 주/야간 주행, 주간 주행 중 터널 통과, 야간 주행 중 가로등 밑 통과 등과 같이 다양한 조명 변화가 발행하는 차량 내에서 손 동작을 추적하기 위해서는 보다 강인한 동작 인식 기술이 필요하다.
예컨대 일반적으로 손 동작 추적은 색상 정보를 기반으로 하였으나, 이는 다양한 조명 변화에서 손 동작을 추적하는데 실패하거나 손과 유사한 색을 갖는 배경에서 손을 구분하지 못할 수 있다. 이러한 한계로 인하여 동작 인식 기반의 인터페이스는 음성 인식 기반의 인터페이스에 비하여 차량용 인터페이스에 적용하는데 어려움이 있다.
따라서 본 발명의 실시 예에 따른 멀티 모달 기술에서는 동작 인식을 위해 구조화 광원 (Structured Light)을 이용할 것을 제안하고 있다. 예컨대 상기 동작 인식을 위한 구성 (120)은 깊이 (depth) 기반의 카메라가 될 수 있다. 상기 구조화 광원을 이용할 경우에는 색상이 아닌 깊이 (depth) 정보를 기반으로 손의 동작을 인식한다. 따라서 다양한 조명 변화가 발행하는 차량 내에서도 손 동작을 정확하게 인지할 수 있다.
상기 동작 인식을 위한 구성 (120)은 운전자가 차량에 탑승하는 순간부터 손에 대한 추적을 시작하고, 동작의 시작과 끝을 알리는 특정 동작을 감지한다. 그리고 동작의 시작에서부터 끝까지에 해당하는 손의 좌표를 저장한 후 깊이 기반의 손 추적을 이용하여 3차원상의 손 동작도 인식할 수 있게 한다.
도 2은 본 발명의 실시 예에 따른 차량 내에서 멀티 모달 기술을 차용하여 구현한 운전자 명령 인지장치의 구성에 대한 일 예를 보이고 있다.
도 2를 참조하면, 음원 위치 추정부 (210)는 마이크 어레이로부터의 전기적인 신호를 입력으로 하여 운전자로부터 전달되는 음향의 방향, 즉 운전자의 위치를 추정한다. 예컨대 마이크 어레이를 제1 및 제2 어레이로 구성하고, 상기 제1 어레이를 통해 인가되는 음향과 상기 제2 어레이를 통해 인가되는 음향으로부터 운전자를 음원으로 발생되는 음향의 전달 방향을 추정한다.
상기 음원 위치 추정부 (210)는 각각이 네 개의 지향성 마이크의 배열에 의해 구성된 상기 제1 및 제2 어레이에 의한 빔 포밍으로 상기 네 개의 마이크를 통해 입력되는 음향의 시간 차를 분석한다. 그리고 상기 음원 위치 추정부 (210)는 상기 분석에 의한 시간 차를 기반으로 운전자를 음원으로 발생되는 음향의 전달 방향을 추정한다. 상기 음원 위치 추정부 (210)는 상기 추정한 전달 방향을 기반으로 상기 운전자를 음원으로 발생되는 음향만을 전기적 신호로 출력한다.
상기 제1어레이는 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성되어 운전자 방향으로 배치되며, 상기 제2 어레이는 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성되어 조수석 방향으로 배치된다.
음성 명령 인식부 (220)는 상기 음원 위치 추정부 (210)에 의해 추정된 음향의 전달 방향을 기반으로 수신한 운전자의 음향을 상응하는 음성 명령을 분석하며, 상기 분석을 통해 상기 운전자의 음향 명령을 인식한다. 상기 음성 명령 인식부 (220)는 인식한 음향 명령을 명령 결정부 (250)로 제공한다.
동작 검출부 (230)는 상기 음성 명령 인식부 (220)에 의해 운전자의 음향을 기반으로 음성 명령이 인식될 시에 동작 인식 센서에 의해 촬영된 운전자 손의 움직임에 대응한 영상으로부터 깊이 정보를 검출한다. 상기 동작 인식 센서는 구조화 광원을 이용하여 상기 운전자의 손에 대한 움직임을 촬영하고, 상기 촬영에 따른 영상 신호 또는 깊이 정보를 상기 동작 검출부 (230)로 제공한다.
동작 명령 인식부 (240)는 상기 동작 검출부 (230)에 의해 검출된 깊이 정보를 기반으로 운전자가 손의 움직임으로 지시한 동작 명령을 인식한다. 상기 동작 명령 인식부 (240)는 인식한 동작 명령을 상기 명령 결정부 (250)로 제공한다.
상기 명령 결정부 (250)는 상기 음성 명령 인식부 (220)에 의해 인식된 음성 명령과 상기 동작 명령 인식부 (240)에 의해 인식된 동작 명령을 조합하여 멀티 모달 융합에 의한 명령을 생성한다. 예컨대 상기 음성 명령은 제어할 대상 기기를 식별하기 위한 정보이고, 상기 동작 명령은 상기 음성 명령에 의해 식별한 대상 기기의 기능을 제어하기 위한 정보이다.
상기 생성한 명령은 차량의 대상 기기 또는 기능을 제어하기 위해 해당 기기 등으로 출력된다.
도 3은 본 발명의 실시 예에 따른 차량 내에서 멀티 모달 기술을 차용하여 운전자 명령을 인지하기 위한 제어 흐름을 보이고 있다.
도 3을 참조하면, 사용자 명령 인지장치는 310단계에서 수신한 음량을 기반으로 음원의 위치를 추정한다. 예컨대 마이크 어레이를 구성하는 제1 어레이를 통해 인가되는 음향과 제2 어레이를 통해 인가되는 음향으로부터 운전자로부터의 음향이 전달되는 방향을 추정한다.
보다 구체적으로, 각각이 네 개의 지향성 마이크의 배열에 의해 구성된 제1 및 제2 어레이에 의한 빔 포밍으로 상기 네 개의 마이크를 통해 입력되는 음향의 시간 차를 분석한다. 그리고 상기 분석에 의한 시간 차를 기반으로 운전자로부터 발생되는 음향의 전달 방향을 추정한다. 상기 사용자 명령 인지장치는 상기 추정한 전달 방향을 기반으로 상기 운전자에 의해 전달되는 음향만을 전기적 신호로 변환하여 출력한다.
한편 상기한 바와 같은 동작을 위해 상기 제1어레이는 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성하여 운전자 방향으로 배치하며, 상기 제2 어레이는 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성하여 조수석 방향으로 배치하는 것이 바람직하다.
상기 사용자 명령 인지장치는 312단계에서 앞서 추정한 위치의 음원, 즉 운전자로부터 전달되는 음향에 상응한 전기적 신호로부터 운전자에 의해 지시된 음성 명령을 인식한다. 즉 상기 추정된 음향의 전달 방향을 기반으로 수신한 운전자의 음향에 상응하는 음성 명령을 분석하며, 상기 분석을 통해 상기 운전자의 음향 명령을 인식한다.
상기 사용자 명령 인지장치는 운전자로부터 전달된 음향을 기반으로 음성 명령이 인식될 시, 314단계에서 동작 인식 센서에 의해 촬영된 운전자 손의 움직임을 검출한다. 상기 손의 움직임의 검출은 상기 동작 인식 센서에 의해 촬영된 영상에서 운전자 손의 움직임에 따른 깊이 정보를 검출하는 것에 상응한다.
이를 위해 상기 동작 인식 센서는 구조화 광원을 이용하여 운전자의 손에 대한 움직임을 촬영하고, 상기 촬영에 따른 영상 신호 또는 깊이 정보를 손 동작 검출을 위해 이용하도록 한다. 그 후 상기 사용자 명령 인지장치는 상기 검출된 깊이 정보를 기반으로 운전자가 손의 움직임으로 지시한 동작 명령을 인식한다.
상기 사용자 명령 인지장치는 316단계에서 앞에서 인식된 음성 명령과 동작 명령을 조합하여 멀티 모달 융합에 의한 명령을 생성한다. 예컨대 상기 음성 명령은 제어할 대상 기기를 식별하기 위한 정보이고, 상기 동작 명령은 상기 음성 명령에 의해 식별한 대상 기기의 기능을 제어하기 위한 정보이다.
상기 사용자 명령 인지장치는 318단계에서 상기 생성한 명령에 의해 차량의 대상 기기 또는 기능을 제어함으로써, 차량의 환경을 변화시킨다.
앞에서 제안하고 있는 본 발명의 실시 예를 실제 구현 예에 따른 동작의 일 예를 통해 설명하면 다음과 같다. 즉 음성 인식과 동작 인식에 따른 결과를 융합하여 인터페이스 명령어로 해석하고, 상기 해석을 통해 적합한 차량 내부 환경을 제어하는 일 예를 설명하도록 한다.
먼저 음성 인식 기술을 적용하여 제어하고자 하는 주체를 지정한다. 예컨대 음성 인식 기술을 통해 “소리”,“네비게이션”,“전화”,“실내온도” 등과 같이 제어를 위한 대상을 선택한다.
그 후 동작 인식 기술을 적용하여 선택한 대상의 동작을 지정한다. 예컨대 동작 인식 기술을 통해 “올림”,“내림”,“다음”,“이전”,“선택”,“취소” 등과 같은 주체의 동작을 제어한다.
일 예로 음성 인식 결과가 “소리”이고 동작 인식 결과가 “올림”이면, 최종적으로 이를 융합하여 “소리 올려”라는 인터페이스 명령으로 해석하여 해당 동작을 수행할 것을 제어한다.
한편 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
예컨대 운전자와 조수석에 탑승한 동승자의 목소리를 구분하기 위해 차량의 전면 중앙에 운전자와 동승자를 향하는 두 종류의 마이크 배열을 이용하여 기본적으로 차량 내에 존재하는 다양한 잡음 환경에서 운전자의 음성만 구분한다. 하지만 상황에 따라 조수석에 위치한 동승자의 음성을 별도의 명령으로 받을 수 있다.
또한 음성 인식과 동작 인식의 융합을 통하여 차량에 필요한 내부 환경의 제어뿐만 아니라 위치 탐색에 따른 장치를 제어할 수도 있다. 예컨대 내부 환경의 제어는 차량 내부에 존재하는 오디오 볼륨의 조절, 재생 순서의 제어, 실내 온도의 제어, 내부/외부 거울 위치의 제어, 운전자의 전화기 제어 및 네트워크 기능의 제어 등을 포함한다. 그리고 위치 탐색에 따른 장치의 제어는 차량 내부에 위치한 네비게이션을 이용하여 주변 상가의 정보 검색, 목적지 검색, 현재 주행 중인 위치의 확인 등의 기능을 포함한다.

Claims (6)

  1. 차량 내에서 각각이 적어도 세 개 이상의 음향 센서들의 배열에 의해 구성된 제1 및 제2 어레이들을 구비하고, 상기 제1 어레이를 운전자 방향으로 배치하고, 상기 제2 어레이를 조수석 방향으로 배치하며, 구조화 광원을 이용하여 운전자에 의한 손의 움직임을 인지하는 동작 인식 센서를 배치하여 운전자로부터의 명령을 인지하는 방법에 있어서,
    상기 제1 어레이를 통해 인가되는 음향과 상기 제2 어레이를 통해 인가되는 음향으로부터 상기 운전자를 음원으로 발생되는 음향의 전달 방향을 추정하고, 상기 추정한 전달 방향으로 인가되는 상기 운전자의 음향을 기반으로 음성 명령을 인식하는 과정과,
    상기 운전자의 음향을 기반으로 음성 명령이 인식될 시에 상기 운전자에 의한 손의 움직임에 대응하여 상기 동작 인식 센서를 통해 인식되는 깊이 정보를 기반으로 동작 명령을 인식하는 과정과,
    상기 인식한 음성 명령과 상기 인식한 동작 명령을 조합하여 멀티 모달 융합에 의한 명령을 생성하는 과정과,
    상기 생성한 명령에 의해 차량의 대상 기기 또는 기능을 제어하는 과정을 포함하는 운전자 명령 인지방법.
  2. 제1항에 있어서,
    상기 음성 명령은 상기 대상 기기를 식별하기 위한 정보이고, 상기 동작 명령은 상기 음성 명령에 의해 식별한 대상 기기의 기능을 제어하기 위한 정보임을 특징으로 하는 운전자 명령 인지방법.
  3. 제2항에 있어서, 상기 음성 명령을 인식하는 과정은,
    각각이 네 개의 지향성 마이크의 배열에 의해 구성된 상기 제1 및 제2 어레이에 의한 빔 포밍으로 상기 네 개의 마이크를 통해 입력되는 음향의 시간 차를 분석하는 과정과,
    상기 분석에 의한 시간 차를 기반으로 상기 운전자를 음원으로 발생되는 음향의 전달 방향을 추정하는 과정과,
    상기 추정한 전달 방향을 기반으로 상기 운전자를 음원으로 발생되는 음향만을 전기적 신호로 출력하는 과정을 포함하는 운전자 명령 인지방법.
  4. 차량 내에서 운전자로부터의 명령을 인지하는 장치에 있어서,
    적어도 세 개 이상의 음향 센서들의 배열에 의해 구성되어 운전자 방향으로 배치된 제1 어레이와,
    적어도 세 개 이상의 음향 센서들의 배열에 의해 구성되어 조수석 방향으로 배치된 제2 어레이와,
    구조화 광원을 이용하여 상기 운전자에 의한 손의 움직임을 인지하는 동작 인식 센서와,
    상기 제1 어레이를 통해 인가되는 음향과 상기 제2 어레이를 통해 인가되는 음향으로부터 상기 운전자를 음원으로 발생되는 음향의 전달 방향을 추정하는 음원 위치 추정부와,
    상기 음원 위치 추정부에 의해 추정된 전달 방향으로 인가되는 상기 운전자의 음향을 기반으로 음성 명령을 인식하는 음성 명령 인식부와,
    상기 운전자의 음향을 기반으로 음성 명령이 인식될 시에 상기 동작 인식 센서를 통해 촬영된 운전자에 의한 손의 움직임에 대응하여 깊이 정보를 검출하는 동작 검출부와,
    상기 동작 검출부에 의해 검출된 깊이 정보를 기반으로 동작 명령을 인식하는 동작 명령 인식부와,
    상기 인식한 음성 명령과 상기 인식한 동작 명령을 조합하여 멀티 모달 융합에 의한 명령을 생성하는 명령 결정부를 포함하고,
    상기 생성한 명령에 의해 차량의 대상 기기 또는 기능을 제어함을 특징으로 하는 운전자 명령 인지장치.
  5. 제4항에 있어서,
    상기 음성 명령은 상기 대상 기기를 식별하기 위한 정보이고, 상기 동작 명령은 상기 음성 명령에 의해 식별한 대상 기기의 기능을 제어하기 위한 정보임을 특징으로 하는 운전자 명령 인지장치.
  6. 제5항에 있어서, 상기 음성 위치 추정부는,
    각각이 네 개의 지향성 마이크의 배열에 의해 구성된 상기 제1 및 제2 어레이에 의한 빔 포밍으로 상기 네 개의 마이크를 통해 입력되는 음향의 시간 차를 분석하고, 상기 분석에 의한 시간 차를 기반으로 상기 운전자를 음원으로 발생되는 음향의 전달 방향을 추정하며, 상기 추정한 전달 방향을 기반으로 상기 운전자를 음원으로 발생되는 음향만을 전기적 신호로 출력함을 특징으로 하는 운전자 명령 인지장치.
KR1020110111315A 2011-10-28 2011-10-28 차량에서 운전자 명령 인지장치 및 방법 KR20130046759A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110111315A KR20130046759A (ko) 2011-10-28 2011-10-28 차량에서 운전자 명령 인지장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110111315A KR20130046759A (ko) 2011-10-28 2011-10-28 차량에서 운전자 명령 인지장치 및 방법

Publications (1)

Publication Number Publication Date
KR20130046759A true KR20130046759A (ko) 2013-05-08

Family

ID=48658359

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110111315A KR20130046759A (ko) 2011-10-28 2011-10-28 차량에서 운전자 명령 인지장치 및 방법

Country Status (1)

Country Link
KR (1) KR20130046759A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101499101B1 (ko) * 2013-07-08 2015-03-06 체이시로보틱스(주) 차량의 자동주차 장치
KR20160093774A (ko) 2015-01-29 2016-08-09 전자부품연구원 동작인식에 기반한 자동차 모의 운전 제어장치 및 그 방법
KR20160103676A (ko) * 2015-02-25 2016-09-02 현대자동차주식회사 차량 및 차량의 제어 방법
US9485474B2 (en) 2013-12-27 2016-11-01 Electronics And Telecommunications Research Institute System and method for learning driving information in vehicle
CN108399044A (zh) * 2017-02-06 2018-08-14 大众汽车有限公司 用户界面、运输工具和用于区分用户的方法
CN113689852A (zh) * 2021-08-09 2021-11-23 东风汽车集团股份有限公司 一种基于声源定位的车载语音控制方法和系统
CN115356682A (zh) * 2022-08-21 2022-11-18 嘉晨云控新能源(上海)有限公司 一种基于精确定位的声源位置感知装置及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101499101B1 (ko) * 2013-07-08 2015-03-06 체이시로보틱스(주) 차량의 자동주차 장치
US9485474B2 (en) 2013-12-27 2016-11-01 Electronics And Telecommunications Research Institute System and method for learning driving information in vehicle
KR20160093774A (ko) 2015-01-29 2016-08-09 전자부품연구원 동작인식에 기반한 자동차 모의 운전 제어장치 및 그 방법
KR20160103676A (ko) * 2015-02-25 2016-09-02 현대자동차주식회사 차량 및 차량의 제어 방법
CN108399044A (zh) * 2017-02-06 2018-08-14 大众汽车有限公司 用户界面、运输工具和用于区分用户的方法
KR20180091732A (ko) * 2017-02-06 2018-08-16 폭스바겐 악티엔 게젤샤프트 사용자 인터페이스, 운송 수단 및 사용자 구별을 위한 방법
CN108399044B (zh) * 2017-02-06 2022-01-18 大众汽车有限公司 用户界面、运输工具和用于区分用户的方法
CN113689852A (zh) * 2021-08-09 2021-11-23 东风汽车集团股份有限公司 一种基于声源定位的车载语音控制方法和系统
CN113689852B (zh) * 2021-08-09 2023-11-10 东风汽车集团股份有限公司 一种基于声源定位的车载语音控制方法和系统
CN115356682A (zh) * 2022-08-21 2022-11-18 嘉晨云控新能源(上海)有限公司 一种基于精确定位的声源位置感知装置及方法

Similar Documents

Publication Publication Date Title
CN102023703B (zh) 组合唇读与语音识别的多模式界面系统
US10923124B2 (en) Method and apparatus for using image data to aid voice recognition
KR20130046759A (ko) 차량에서 운전자 명령 인지장치 및 방법
US9881610B2 (en) Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9485474B2 (en) System and method for learning driving information in vehicle
CN108320739B (zh) 根据位置信息辅助语音指令识别方法和装置
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
WO2017081960A1 (ja) 音声認識制御システム
US20130339027A1 (en) Depth based context identification
US20130030811A1 (en) Natural query interface for connected car
US11176948B2 (en) Agent device, agent presentation method, and storage medium
JP6604151B2 (ja) 音声認識制御システム
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
CN102324035A (zh) 口型辅助语音识别术在车载导航中应用的方法及系统
KR102176098B1 (ko) 음원 인식 방법 및 장치
JP2021033048A (ja) 車載装置、発声を処理する方法およびプログラム
WO2007138503A1 (en) Method of driving a speech recognition system
KR20180119929A (ko) 음성 인식 장치, 음성 인식 방법 및 상기 음성 인식 장치를 포함하는 차량
JP2017090614A (ja) 音声認識制御システム
CN110444047A (zh) 用于辅助飞行器的方法和系统
CN113593572A (zh) 在空间区域内进行音区定位方法和装置、设备和介质
WO2007145331A1 (ja) カメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体
CN109313040A (zh) 车载信息处理装置、车载装置及车载信息处理方法
CN115831141A (zh) 车载语音的降噪方法、装置、车辆及存储介质
CN110194181A (zh) 驾驶支持方法、车辆和驾驶支持系统

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination