KR20140007282A - 음성 인식 장치 및 그 방법 - Google Patents

음성 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR20140007282A
KR20140007282A KR20130079179A KR20130079179A KR20140007282A KR 20140007282 A KR20140007282 A KR 20140007282A KR 20130079179 A KR20130079179 A KR 20130079179A KR 20130079179 A KR20130079179 A KR 20130079179A KR 20140007282 A KR20140007282 A KR 20140007282A
Authority
KR
South Korea
Prior art keywords
user
voice signal
voice
microphone
detected
Prior art date
Application number
KR20130079179A
Other languages
English (en)
Other versions
KR102206383B1 (ko
Inventor
정두경
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Publication of KR20140007282A publication Critical patent/KR20140007282A/ko
Application granted granted Critical
Publication of KR102206383B1 publication Critical patent/KR102206383B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

본 명세서는 사용자가 음성 인식 시작 버튼 등을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있는 음성 인식 장치 및 그 방법에 관한 것으로서, 본 명세서의 실시예들에 따른 음성 인식 장치는, 사용자 이미지를 촬영하는 카메라와; 마이크로폰과; 상기 사용자 이미지로부터 미리설정된 사용자 제스처를 검출하고, 상기 사용자 제스처가 검출된 시점부터 상기 마이크로폰을 통해 입력된 음성 신호에서 비어휘가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 유효한 음성 신호로서 결정하는 제어부와; 상기 유효한 음성 신호를 인식하는 음성 인식부를 포함할 수 있다.

Description

음성 인식 장치 및 그 방법{SPEECH RECOGNITION APPARATUS AND METHOD THEREOF}
본 발명은 음성 인식 장치 및 그 방법에 관한 것이다.
일반적으로, 음성인식이란 음성에 포함된 음향학적 정보로부터 음운 즉, 언어적 정보를 추출하여 이를 기계가 인지하고 반응하게 만드는 일련의 과정이다. 음성으로 대화하는 것은 수많은 인간과 기계의 정보 교환 매체 중 가장 자연스럽고 간편한 방법으로 인식되어지고 있지만 기계와 음성으로 대화하기 위해서는 인간의 음성을 기계가 처리할 수 있는 코드로 변환을 해줘야 하는 제약이 따르게 된다. 이런 코드로 변환해주는 과정이 바로 음성 인식이다. 종래 기술에 따른 음성 인식 장치는 한국 특허 출원 번호 10-2011-0129412에도 개시되어 있다.
본 발명은, 사용자가 음성 인식 시작 버튼 등을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있는 음성 인식 장치 및 그 방법을 제공하는 데 그 목적이 있다.
본 명세서의 실시예들에 따른 음성 인식 장치는, 사용자 이미지를 촬영하는 카메라와; 마이크로폰과; 상기 사용자 이미지로부터 미리설정된 사용자 제스처를 검출하고, 상기 사용자 제스처가 검출된 시점부터 상기 마이크로폰을 통해 입력된 음성 신호에서 비어휘가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 유효한 음성 신호로서 결정하는 제어부와; 상기 유효한 음성 신호를 인식하는 음성 인식부를 포함할 수 있다.
본 발명과 관련된 일 예로서, 상기 제어부는, 상기 카메라를 통해 사용자 시선을 실시간 추적하고, 상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 상기 마이크로폰을 통해 입력된 음성 신호에서 상기 비어휘가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 상기 유효한 음성 신호로서 결정할 수 있다.
본 발명과 관련된 일 예로서, 상기 비어휘는 간투사일 수 있다.
본 발명과 관련된 일 예로서, 상기 제어부는 상기 사용자의 시선이 상기 마이크로폰을 향할 때 상기 음성 인식부를 동작시킬 수 있다.
본 발명과 관련된 일 예로서, 상기 제어부는 상기 사용자의 시선이 상기 마이크로폰을 향하고, 상기 마이크로폰을 통해 입력된 음성 신호에서 상기 비어휘가 검출되지 않으면 상기 음성 인식부를 턴-오프시킬 수 있다.
본 발명과 관련된 일 예로서, 상기 카메라와 상기 마이크로폰은 동일 또는 인접한 위치에 설치될 수 있다.
본 발명과 관련된 일 예로서, 상기 제어부는, 상기 카메라를 통해 사용자 시선을 실시간 추적하고, 상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 입력된 상기 사용자 이미지에서 미리설정된 사용자 입 모양이 검출되면, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호를 상기 유효한 음성 신호로서 결정할 수 있다.
본 발명과 관련된 일 예로서, 상기 미리설정된 사용자 입 모양은 사용자 입이 움직이는 모양이거나 사용자 입이 열려져 모양일 수 있다.
본 발명과 관련된 일 예로서, 상기 제어부는, 카메라를 통해 사용자 시선을 실시간 추적하고, 상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 입력된 상기 사용자 이미지에서 미리설정된 사용자 입 모양이 검출되면, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양에 대응하는 음성 신호만을 음성 인식을 위한 음성 구간으로서 결정할 수 있다.
본 발명과 관련된 일 예로서, 상기 제어부는 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양에 대응하는 음성 신호를 제외한 나머지 음성 신호를 비음성 구간으로서 결정할 수 있다.
본 명세서의 실시예들에 따른 음성 인식 방법은, 카메라에 의해 촬영된 사용자 이미지로부터 미리설정된 사용자 제스처를 검출하는 단계와; 상기 사용자 제스처가 검출된 시점부터 마이크로폰을 통해 입력된 음성 신호에서 비어휘가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 유효한 음성 신호로서 결정하는 단계와; 상기 유효한 음성 신호를 음성 인식부를 통해 인식하는 단계를 포함할 수 있다.
본 발명의 실시예들에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 음성 신호에 비어휘(예를 들면, 간투사)가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 유효한 음성 신호로서 자동으로 인식함으로써, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있다.
본 발명의 실시예들에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지 또는 사용자 입이 벌어진 이미지)이 검출되면 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호를 유효한 음성 신호로서 자동으로 인식함으로써, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있다.
본 발명의 실시예들에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)이 검출되면 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)에 대응하는 음성 신호만을 음성 인식 인식함으로써, 차량 내의 잡음(예를 들면, 와이퍼(wiper) 소음, 신호대기시 방향 지시등 동작 소리, 차량 엔진 소리 등)에 상관없이 사용자 음성을 정확하게 인식할 수 있다.
도 1은 본 발명의 실시예들을 설명하기 위한 이동 통신 단말기의 구성을 나타낸 블록도 이다.
도 2는 본 발명의 실시예들을 설명하기 위한 차량 내비게이션 시스템을 나타낸 블록도 이다.
도 3은 본 발명의 실시예들을 설명하기 위한 텔레매틱스 단말기의 구성을 나타낸 블록도 이다.
도 4는 본 발명의 실시예들을 설명하기 위한 내비게이션(차량 내비게이션) 장치의
도 5는 본 발명의 실시예들에 따른 음성 인식 장치가 적용된 단말기를 나타낸 예시도 이다.
도 6은 본 발명의 일 실시예에 따른 음성 인식 방법을 나타낸 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 유효한 음성 신호를 결정하는 방법을 나타낸 예시도 이다.
도 8은 본 발명의 다른 실시예에 따른 음성 인식 방법을 나타낸 흐름도이다.
도 9는 본 발명의 다른 실시예에 따른 유효한 음성 신호를 결정하는 방법을 나타낸 다른 예시도 이다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
도 1은 본 발명의 실시예들을 설명하기 위한 이동 통신 단말기(100)의 구성을 나타낸 블록도 이다. 이동 통신 단말기(이동 전화기)(100)는 다양한 형태로 구현될 수 있다. 예를 들면, 이동 통신 단말기(100)는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(notebook computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 등이 있다.
도 1에 도시한 바와 같이, 이동 통신 단말기(100)는 무선 통신부(110), A/V(Audio/Video) 입력부(120), 사용자 입력부(130), 센싱부(140), 출력부(150), 메모리(160), 인터페이스부(170), 제어부(180) 및 전원 공급부(190) 등을 포함할 수 있다. 도1에 도시된 이동 통신 단말기(100)의 구성요소 모두가 필수 구성요소인 것은 아니며, 도1에 도시된 구성요소보다 많은 구성요소에 의해 이동 통신 단말기(100)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 이동 통신 단말기(100)가 구현될 수도 있다.
상기 무선 통신부(110)는 이동 통신 단말기(100)와 무선 통신 시스템 간의 무선 통신 또는 이동 통신 단말기(100)와 그 이동 통신 단말기(100)가 위치한 네트워크간의 무선 통신을 수행하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들면, 무선 통신부(110)는 방송 수신 모듈(111), 이동 통신 모듈(112), 무선 인터넷 모듈(113), 근거리 통신 모듈(114) 및 위치 정보 모듈(115) 등을 포함할 수 있다.
상기 방송 수신 모듈(111)은 방송 채널을 통하여 외부의 방송 관리 서버로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 상기 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 상기 방송 관리 서버는, 방송 신호 및/또는 방송 관련 정보를 생성하여 송신하는 서버 또는 미리 생성된 방송 신호 및/또는 방송 관련 정보를 제공받아 이동 통신 단말기(100)에 송신하는 서버를 의미할 수 있다. 상기 방송 관련 정보는, 방송 채널, 방송 프로그램 또는 방송 서비스 제공자에 관련한 정보를 의미할 수 있다. 상기 방송 신호는, TV 방송 신호, 라디오 방송 신호, 데이터 방송 신호를 포함할 뿐만 아니라, TV 방송 신호 또는 라디오 방송 신호에 데이터 방송 신호가 결합한 형태의 방송 신호도 포함할 수 있다.
한편, 상기 방송 관련 정보는, 이동 통신망을 통하여도 제공될 수 있으며, 이러한 경우에는 상기 이동 통신 모듈(112)에 의해 수신될 수 있다. 상기 방송 관련 정보는 다양한 형태로 존재할 수 있다. 예를 들면, DMB(Digital Multimedia Broadcasting)의 EPG(Electronic Program Guide) 또는 DVB-H(Digital Video Broadcast-Handheld)의 ESG(Electronic Service Guide) 등의 형태로 존재할 수 있다.
상기 방송 수신 모듈(111)은, 각종 방송 시스템을 이용하여 방송 신호를 수신하는데, 특히, DMB-T(Digital Multimedia Broadcasting-Terrestrial), DMB-S(Digital Multimedia Broadcasting-Satellite), MediaFLO(Media Forward Link Only), DVB-H(Digital Video Broadcast-Handheld), ISDB-T(Integrated Services Digital Broadcast-Terrestrial) 등의 디지털 방송 시스템을 이용하여 디지털 방송 신호를 수신할 수 있다. 물론, 상기 방송 수신 모듈(111)은, 상술한 디지털 방송 시스템뿐만 아니라 방송 신호를 제공하는 모든 방송 시스템에 적합하도록 구성된다. 방송 수신 모듈(111)을 통해 수신된 방송 신호 및/또는 방송 관련 정보는 메모리(160)에 저장될 수 있다.
상기 이동 통신 모듈(112)은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기서, 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 및/또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
상기 무선 인터넷 모듈(113)은 무선 인터넷 접속을 위한 모듈을 의미하는 것으로, 상기 무선 인터넷 모듈(113)은 이동 통신 단말기(100)에 내장되거나 외장될 수 있다. 여기서, 무선 인터넷 기술로는 WLAN(Wireless LAN), 와이 파이(Wi-Fi), 와이브로(Wireless Broadband : Wibro), 와이맥스(World Interoperability for Microwave Access : Wimax), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.
상기 근거리 통신 모듈(114)은 근거리 통신을 위한 모듈을 의미한다. 근거리 통신 기술로서 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.
상기 위치 정보 모듈(115)은 이동 단말기의 위치(이동 단말기가 차량에 장착되었을 때 차량의 위치 확인 가능)를 확인하거나 얻기 위한 모듈이다. 일례로 GPS(Global Position System) 모듈이 있다. GPS 모듈은 복수 개의 인공위성으로부터 위치 정보를 수신한다. 여기서, 위치 정보는 위도 및 경도로 표시되는 좌표 정보를 포함할 수 있다. 예를 들면, GPS 모듈은, 3개 이상의 위성으로부터 정확한 시간과 거리를 측정하여 3개의 각각 다른 거리를 삼각 방법에 따라서 현 위치를 정확히 계산할 수 있다. 3개의 위성으로부터 거리와 시간 정보를 얻고 1개 위성으로 오차를 수정하는 방법이 사용될 수 있다. 특히, GPS 모듈은 위성으로부터 수신한 위치 정보로부터, 위도, 경도, 고도의 위치뿐만 아니라 3차원의 속도 정보와 함께 정확한 시간까지 얻을 수 있다. 상기 위치 정보 모듈(115)로서 와이파이 위치추적 시스템(Wi-Fi Positioning System) 및/또는 하이브리드 위치추적 시스템(Hybrid Positioning System)이 적용될 수도 있다.
상기 A/V(Audio/Video) 입력부(120)는 오디오 신호 또는 비디오 신호를 입력하기 위한 것으로서, 상기 A/V(Audio/Video) 입력부(120)에는 카메라(121)와 마이크(122) 등이 포함될 수 있다. 상기 카메라(121)는 화상 통화모드 또는 촬영 모드에서 이미지 센서에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 상기 처리된 화상 프레임은 디스플레이부(151)에 표시될 수 있다.
상기 카메라(121)에서 처리된 화상 프레임은 메모리(160)에 저장되거나 무선 통신부(110)를 통하여 외부로 전송될 수 있다. 상기 카메라(121)는 이동 단말기의 구성 형태에 따라 2개 이상이 구성될 수도 있다.
상기 마이크(122)는 통화 모드 또는 녹음 모드, 음성인식 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호를 수신하여 전기적인 음성 데이터로 처리한다. 상기 통화 모드일 때, 상기 처리된 음성 데이터는 이동 통신 모듈(112)을 통하여 이동 통신 기지국으로 송신 가능한 형태로 변환되어 출력될 수 있다. 상기 마이크(122)는 외부의 음향 신호를 입력받는 과정에서 발생되는 잡음을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다.
상기 사용자 입력부(130)는 사용자가 이동 단말기의 동작 제어를 위한 입력 데이터를 발생시킨다. 사용자 입력부(130)는 키 패드(key pad) 돔 스위치 (dome switch), 터치 패드(정압/정전), 조그 휠, 조그 스위치 등으로 구성될 수 있다. 특히, 터치 패드가 상기 디스플레이부(151)와 상호 레이어 구조를 이룰 경우, 이를 터치 스크린이라 부를 수 있다.
상기 센싱부(140)는 이동 통신 단말기(100)의 개폐 상태, 이동 통신 단말기(100)의 위치, 사용자 접촉 유무, 이동 통신 단말기(100)의 방위, 이동 통신 단말기(100)의 가속/감속 등과 같이 이동 통신 단말기(100)의 현 상태를 감지하여 이동 통신 단말기(100)의 동작을 제어하기 위한 센싱 신호를 발생시킨다. 예를 들면, 이동 통신 단말기(100)가 슬라이드 폰 형태인 경우 슬라이드 폰의 개폐 여부를 센싱할 수 있다. 또한, 상기 센싱부(140)는 전원 공급부(190)의 전원 공급 여부, 인터페이스부(170)의 외부 기기 결합 여부 등과 관련된 센싱 기능을 담당한다.
상기 인터페이스부(170)는 이동 통신 단말기(100)에 연결되는 모든 외부기기와의 인터페이스 역할을 한다. 예를 들면, 상기 인터페이스부(170)는 유/무선 헤드셋 포트(Headset port), 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(memory card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등으로 구성될 수 있다. 여기서, 식별 모듈은 이동 통신 단말기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module; 'UIM'), 가입자 인증 모듈(Subscriber Identify Module; 'SIM'), 범용 사용자 인증 모듈(Universal Subscriber Identity Module; 'USIM') 등을 포함할 수 있다. 또한, 상기 식별 모듈이 구비된 장치(이하 '식별 장치')는, 스마트 카드(smart card) 형식으로 제작될 수 있다. 따라서, 상기 식별 모듈은 포트를 통하여 이동 통신 단말기(100)와 연결될 수 있다. 이와 같은 인터페이스부(170)는 외부 기기로부터 데이터를 수신하거나 전원을 수신하여 이동 통신 단말기(100) 내부의 각 구성 요소에 전달하거나 이동 통신 단말기(100) 내부의 데이터가 외부 기기로 전송되도록 한다.
상기 출력부(150)는 오디오 신호 또는 비디오 신호 또는 알람(alarm) 신호의 출력을 위한 것으로서, 상기 출력부(150)에는 디스플레이부(151)과 음향 출력 모듈(152), 알람부(153) 등이 포함될 수 있다.
상기 디스플레이부(151)는 이동 통신 단말기(100)에서 처리되는 정보를 표시하여 출력한다. 예를 들면, 이동 통신 단말기(100)가 통화 모드인 경우 통화와 관련된 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 그리고 이동 통신 단말기(100)가 화상 통화 모드 또는 촬영 모드인 경우 촬영 또는/및 수신된 영상 또는 UI, GUI를 표시한다.
상기 디스플레이부(151)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 중에서 적어도 하나를 포함할 수 있다. 그리고 이동 통신 단말기(100)의 구현 형태에 따라 디스플레이부(151)가 2개 이상 존재할 수도 있다. 예를 들면, 이동 통신 단말기(100)에 외부 디스플레이부(도시하지 않음)와 내부 디스플레이부(도시하지 않음)가 동시에 구비될 수 있다.
상기 디스플레이부(151)와 터치 동작을 감지하는 센서(이하, '터치 센서'라 함)가 상호 레이어 구조를 이루는 경우(이하, '터치 스크린'이라 함)에, 상기 디스플레이부(151)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 터치 센서는, 예를 들어, 터치 필름, 터치 시트, 터치 패드 등의 형태를 가질 수 있다.
또한, 상기 터치 센서는, 상기 디스플레이부(151)의 특정 부위에 가해진 압력 또는 디스플레이부(151)의 특정 부위에 발생하는 정전 용량 등의 변화를 전기적인 입력신호로 변환하도록 구성될 수 있다. 상기 터치 센서는, 터치되는 위치 및 면적뿐만 아니라, 터치 시의 압력까지도 검출할 수 있도록 구성될 수 있다. 상기 터치 센서에 대한 터치 입력이 있는 경우, 그에 대응하는 신호(들)는 터치 제어기(도시하지 않음)로 보내진다. 터치 제어기는 그 신호(들)를 처리한 다음 대응하는 데이터를 제어부(180)에 전송한다. 이로써, 상기 제어부(180)는, 상기 디스플레이부(151)의 어느 영역이 터치 되었는지 여부 등을 알 수 있게 된다.
상기 근접 센서(141)는, 터치 스크린에 의해 감싸지는 이동 통신 단말기(100)의 내부 영역 또는 상기 터치 스크린의 근처에 배치될 수 있다. 상기 근접 센서(141)는, 소정의 검출 면에 접근하는 물체, 혹은 근방에 존재하는 물체의 유무를 전자계의 힘 또는 적외선을 이용하여 기계적 접촉이 없이 검출하는 센서를 말한다. 상기 근접 센서(141)는, 접촉식 센서보다는 그 수명이 길며 그 활용도 또한 높다.
상기 근접 센서(141)의 예로는, 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다. 상기 터치 스크린이 정전식인 경우에는 상기 포인터의 근접에 따른 전계의 변화로 상기 포인터의 근접을 검출하도록 구성된다. 이 경우 상기 터치 스크린(터치 센서)은 근접 센서로 분류될 수도 있다.
이하에서는 설명의 편의를 위해, 상기 터치 스크린 상에 포인터가 접촉되지 않으면서 근접되어 상기 포인터가 상기 터치 스크린 상에 위치함이 인식되도록 하는 행위를 "근접 터치(Proximity Touch)"라고 칭하고, 상기 터치 스크린 상에 포인터가 실제로 접촉되는 행위를 "접촉 터치(Contact Touch)"라고 칭한다. 상기 터치 스크린 상에서 포인터로 근접 터치가 되는 위치는, 상기 포인터가 근접 터치될 때 상기 포인터가 상기 터치 스크린에 대해 수직으로 대응되는 위치를 의미한다.
또한, 상기 근접 센서(141)는, 근접 터치와, 근접 터치 패턴(예를 들어, 근접 터치 거리, 근접 터치 방향, 근접 터치 속도, 근접 터치 시간, 근접 터치 위치, 근접 터치 이동 상태 등)을 감지한다. 상기 감지된 근접 터치 동작 및 근접 터치 패턴에 상응하는 정보는 상기 터치 스크린 상에 출력될 수 있다.
상기 음향 출력 모듈(152)은 호 신호 수신, 통화 모드 또는 녹음 모드, 음성 인식 모드, 방송 수신 모드 등에서 무선 통신부(110)로부터 수신되거나 메모리(160)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력 모듈(152)은 이동 통신 단말기(100)에서 수행되는 기능(예를 들면, 호신호 수신음, 메시지 수신음 등)과 관련된 음향 신호를 출력한다. 이러한 음향 출력 모듈(152)에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.
상기 알람부(153)는 이동 통신 단말기(100)의 이벤트 발생을 알리기 위한 신호를 출력한다. 이동 단말기에서 발생되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력 등이 있다. 상기 알람부(153)는 오디오 신호나 비디오 신호 이외에 다른 형태로 이벤트 발생을 알리기 위한 신호를 출력할 수도 있다. 예를 들면, 진동 형태로 신호를 출력할 수 있다. 호 신호가 수신되거나 메시지가 수신될 때, 이를 알리기 위해 알람부(153)는 진동 수단을 통해 이동 단말기를 진동시킬 수 있다. 또는, 상기 알람부(153)는, 키 신호가 입력된 경우, 그 키 신호 입력에 대한 피드백으로 진동 수단을 통해 이동 통신 단말기(100)를 진동시킬 수 있다. 상기와 같은 진동을 통해 사용자는 이벤트 발생을 인지할 수 있다. 물론 이벤트 발생 알림을 위한 신호는 디스플레이부(151)이나 음성 출력 모듈(152)을 통해서도 출력될 수 있다.
햅틱 모듈(haptic module)(154)은 사용자가 느낄 수 있는 다양한 촉각 효과를 발생시킨다. 햅틱 모듈(154)이 발생시키는 촉각 효과의 대표적인 예로는 진동이 있다. 햅택 모듈(154)이 발생하는 진동의 세기와 패턴 등은 제어가능하다. 예를 들어, 서로 다른 진동을 합성하여 출력하거나 순차적으로 출력할 수도 있다.
상기 햅틱 모듈(154)은, 진동 외에도, 접촉 피부면에 대해 수직 운동하는 핀 배열, 분사구나 흡입구를 통한 공기의 분사력이나 흡입력, 피부 표면에 대한 스침, 전극(eletrode)의 접촉, 정전기력 등의 자극에 의한 효과와, 흡열이나 발열 가능한 소자를 이용한 냉온감 재현에 의한 효과 등 다양한 촉각 효과를 발생시킬 수 있다.
상기 햅틱 모듈(154)은 직접적인 접촉을 통해 촉각 효과의 전달할 수 있을 뿐만 아니라, 사용자가 손가락이나 팔 등의 근 감각을 통해 촉각 효과를 느낄 수 있도록 구현할 수도 있다. 햅틱 모듈(154)은 텔레매틱스 단말기의 구성 태양에 따라 2개 이상이 구비될 수 있다. 햅틱 모듈(154)은 차량에서 사용자와의 접촉이 빈번한 곳에 구비될 수 있다. 예를 들어, 조향 휠, 변속 기어 레버, 좌석 시트 등에 구비될 수 있다.
상기 메모리(160)는 제어부(180)의 처리 및 제어를 위한 프로그램이 저장될 수도 있고, 입/출력되는 데이터들(예를 들어, 지도 데이터, 폰북, 메시지, 정지영상, 동영상 등)의 임시 저장을 위한 기능을 수행할 수도 있다.
상기 메모리(160)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들면, SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 이동 통신 단말기(100)는 인터넷(internet)상에서 메모리(150)의 저장 기능을 수행하는 웹 스토리지(web storage)를 운영할 수도 있다.
상기 인터페이스부(170)는 이동 단말기(100)에 연결되는 모든 외부기기와의 인터페이스 역할을 한다. 예를 들면, 상기 인터페이스부(170)는 유/무선 헤드셋 포트(Headset Port), 외부 충전기 포트, 유/무선 데이터 포트, 메모리 카드(Memory Card) 포트, 식별 모듈이 구비된 장치를 연결하는 포트, 오디오 I/O(Input/Output) 포트, 비디오 I/O(Input/Output) 포트, 이어폰 포트 등으로 구성될 수 있다. 여기서, 식별 모듈은 이동 단말기(100)의 사용 권한을 인증하기 위한 각종 정보를 저장한 칩으로서, 사용자 인증 모듈(User Identify Module: UIM), 가입자 인증 모듈(Subscriber Identify Module: SIM), 범용 사용자 인증 모듈(Universal Subscriber Identity Module: USIM) 등을 포함할 수 있다. 또한, 상기 식별 모듈이 구비된 장치(이하 '식별 장치'라 한다)는, 스마트 카드(Smart Card) 형식으로 제작될 수 있다. 따라서, 상기 식별 모듈은 포트를 통하여 이동 단말기(100)와 연결될 수 있다. 이와 같은 인터페이스부(170)는 외부 기기로부터 데이터를 수신하거나 전원을 수신하여 이동 단말기(100) 내부의 각 구성 요소에 전달하거나 이동 단말기(100) 내부의 데이터가 외부 기기로 전송되도록 한다.
상기 인터페이스부(170)는 이동 단말기(100)가 외부 크래들(Cradle)과 연결될 때 상기 크래들로부터의 전원이 상기 이동 단말기(100)에 공급되는 통로가 되거나, 사용자에 의해 상기 크래들에서 입력되는 각종 명령 신호가 상기 이동 단말기(100)로 전달되는 통로가 될 수 있다. 상기 크래들로부터 입력되는 각종 명령 신호 또는 상기 전원은 상기 이동 단말기(100)가 상기 크래들에 정확히 장착되었음을 인지하기 위한 신호로 동작될 수도 있다.
상기 제어부(180)는 통상적으로 이동 통신 단말기(100)의 전반적인 동작을 제어한다. 예를 들면, 상기 제어부(180)는 음성 통화, 데이터 통신, 화상 통화 등을 위한 관련된 제어 및 처리를 수행한다. 또한, 상기 제어부(180)는 멀티 미디어 재생을 위한 멀티미디어 모듈(181)을 구비할 수도 있다. 상기 멀티미디어 모듈(181)은 상기 제어부(180) 내에 구현될 수도 있고, 상기 제어부(180)와 별도로 구현될 수도 있다.
상기 제어부(180)는 터치 스크린 상에서 행해지는 필기 입력 또는 그림 그리기 입력을 각각 문자 및 이미지로 인식할 수 있는 패턴 인식 처리를 행할 수 있다.
상기 전원 공급부(190)는 상기 제어부(180)의 제어에 의해 외부의 전원, 내부의 전원을 수신하여 각 구성요소들의 동작에 필요한 전원을 공급한다.
상기 이동 통신 단말기(100)에 적용된 구성 요소의 기능은 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터로 읽을 수 있는 기록매체 내에서 구현될 수도 있다. 하드웨어적인 구현에 의하면, ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 그러한 실시예들이 제어부(180)에 의해 구현될 수 있다. 소프트웨어적인 구현에 의하면, 절차나 기능과 같은 실시예들은 적어도 하나의 기능 또는 작동을 수행하게 하는 별개의 소프트웨어 모듈과 함께 구현될 수 있다. 소프트웨어 코드는 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션에 의해 구현될 수 있다. 또한, 소프트웨어 코드는 메모리(160)에 저장되고, 제어부(180)에 의해 실행될 수도 있다.
상기 음성 인식 모듈(182)은 사용자에 의해 발성된 음성을 인식하고, 그 인식된 음성 신호에 따라 해당 기능을 수행한다.
상기 이동 통신 단말기(100)에 적용된 내비게이션 세션(session)(300)은 지도 데이터 상에 주행 경로를 표시한다.
도 2는 본 발명의 실시예들을 설명하기 위한 차량 내비게이션 시스템을 나타낸 블록도 이다.
도 2에 도시한 바와 같이, 차량 내비게이션 시스템은, 교통 정보 및 각종 데이터(예를 들면, 프로그램, 실행 파일 등)를 제공하는 정보 제공 센터(30)와; 차량 내에 장착되고, 원거리 무선 통신망(20) 및/또는 근거리 무선 통신망을 통해 교통 정보를 수신하고, 인공위성(10)을 통해 수신된 GPS 신호 및 상기 교통 정보를 근거로 길 안내 서비스를 제공하는 텔래매틱스 단말기(200)로 구성된다. 여기서, 상기 통신망은 LAN(Local Area Network), WAN(Wide Area Network)과 같은 유무선 통신 네트워크를 더 포함할 수도 있다.
상기 통신망을 통해서는 신호등 정보를 비롯한 각종 교통정보(ex: 도로 교통 정보, 관심지역 정보)가 수집되며, 수집된 정보는 정보 제공 센터(30)(예를 들면, 서버)에서 TPEG(Transport Protocol Expert Group) 규격에 따라 처리되어 방송국으로 전송된다. 이에 따라 방송국에서는 신호등 정보를 포함하는 교통정보를 방송신호에 삽입하여 차량(200)으로 방송한다.
상기 서버는 통신망에 연결된 여러 가지 경로, 예를 들어 운영자 입력, 유무선 인터넷, TDC(Transparent Data Channel), MOC(Multimedia Object Transport)와 같은 디지털 방송 서비스, 타 서버 또는 검증 카(probe car)로부터 수집되는 각종 교통정보를, 예를 들면 교통정보 서비스를 위한 규격인 TPEG(Transport Protocol
Expert Group) 규격에 따른 포맷과 같은 교통정보 포맷으로 재구성하여 방송국으로 전송한다.
상기 서버는 신호등 정보를 포함하는 TPEG 규격의 교통정보 포맷을 생성하여
방송국으로 전송할 수 있다.
방송국은 차량(200) 등에 탑재된 교통정보 수신 단말기, 예를 들어 내비게이션 장치가 수신할 수 있도록 서버로부터 수신한 신호등 정보를 포함하는 교통 정보를 방송신호에 실어 무선으로 송출한다. 상기 교통정보는 신호등 정보를 포함하며, 그 밖에 사고, 도로 상황, 교통 혼잡, 도로 건설, 도로 폐쇄, 공공 교통망 지연, 항공 운항 지연과 같은 도로, 해양, 항공 운항을 위해 필요한 각종 교통 조건에 대한 정보를 포함할 수 있다.
상기 방송국은 서버로부터 처리된 신호등 정보를 포함하는 교통정보를 수신하여, 다양한 디지털 방송 규격에 따른 디지털 신호를 통해 차량(200)에 전송한다. 이 경우, 방송 규격으로는 유레카-147[ETSI EN 300 401]에 기반한 유럽향 디지털 오디오 방송 (Digital Audio Broadcasting: DAB) 규격, 지상파 또는 위성 디지털 멀티미디어 방송(Digital Multimedia Broadcasting: DMB), 지상파 디지털 비디오 방송(Digital Video Broadcasting: DVB-T) 규격, 휴대용 디지털 비디오 방송(Digital Video Broadcasting-Handheld: DVB-H) 규격, MFLO(Media Forward Link Only) 규격과 같은 각종 디지털 방송 규격을 포함한다.
또한, 상기 방송국은 신호등 정보를 포함하는 교통정보를 유무선 인터넷과 같은 유무선 네트워크를 통해 전송할 수 있다.
상기 차량(200)은 일반적인 승용차, 버스, 기차, 선박, 항공기 등 사람이나 물건의 이동을 목적으로 기계, 전자 장치를 이용하여 구현된 가능한 모든 운반체를 의미한다.
상기 차량(200)은 교통정보 수신 단말기를 탑재하며, 탑재된 교통정보 수신 단말기를 이용하여 방송국으로부터 신호등 정보를 수신하고, 신호등 정보를 처리하여, 처리된 신호등 정보를 그래픽, 텍스트 및/또는 오디오를 통해 사용자에게 전달한다.
이하에서는, 본 발명의 실시예을 설명하기 위한 텔레매틱스 단말기(200)의 구성을 도 3을 참조하여 설명한다.
도 3은 본 발명의 실시예들을 설명하기 위한 텔레매틱스 단말기(200)의 구성을 나타낸 블록도 이다.
도 3에 도시한 바와 같이, 텔레매틱스 단말기(200)는 텔레매틱스 단말기(200)를 전체적으로 제어하는 제어부(예를 들면, 중앙 처리 장치, CPU)(212)와, 각종 정보를 저장하는 메모리(213)와, 각종 키 신호를 제어하는 키 제어부(211)와, LCD(liquid crystal display)를 제어하는 LCD 제어부(214)를 내장한 메인 보드(210)로 구성된다.
상기 메모리(213)는 길 안내 정보를 디지털 지도상에 표시하기 위한 지도 정보(지도 데이터)를 저장한다. 또한, 상기 메모리(213)는 차량이 현재 주행하는 도로 상황에 따른 교통 정보를 입력할 수 있도록 하는 교통 정보 수집 제어 알고리즘 및 상기 알고리즘의 제어를 위한 정보를 저장한다.
상기 메인 보드(210)는 고유의 기기번호가 부여되어 차량에 내장된 이동 통신 단말기인 CDMA(code division multiple access) 모듈(206), 차량의 위치 안내, 출발지부터 목적지까지의 주행 경로 추적 등을 위한 GPS 신호를 수신하거나 사용자에 의해서 수집된 교통정보를 GPS(Global Positioning System) 신호로 송신하는 GPS 모듈(207), CD(compact disk)에 기록된 신호를 재생하기 위한 CD 데크(CD Deck)(208), 자이로 센서(gyro sensor)(209) 등으로 구성된다. 상기 CDMA 모듈(206), GPS 모듈(207)은 안테나(204, 205)를 통해서 신호를 송신/수신한다.
또한, 방송 수신 모듈(222)은 상기 메인 보드(210)에 연결되고, 안테나(223)를 통해서 방송 신호를 수신한다. 상기 메인보드(210)에는 인터페이스 보드(203)를 통해서 상기 LCD 제어부(214)의 제어를 받는 표시부(LCD)(201)와, 키 제어부(211)의 제어를 받는 프론트 보드(202)와 차량의 내부 및/또는 외부를 촬영하는 카메라(227)가 연결된다. 상기 표시부(201)는, 각종 비디오 신호, 문자 신호를 표시하고, 상기 프론트 보드(202)는 각종 키 신호 입력을 위한 버튼을 구비하고, 사용자 선택이 이루어진 버튼에 해당하는 키 신호를 메인 보드(210)에 제공한다. 또한, 상기 표시부(201)는 도2의 근접 센서 및 터치 센서(터치 스크린)을 포함한다.
상기 프론트 보드(202)는 교통정보를 직접 입력하기 위한 메뉴 키를 구비하며, 상기 메뉴 키는 키 제어부(211)의 제어를 받도록 구성될 수 있다.
상기 오디오 보드(217)는 상기 메인 보드(210)와 연결되고, 각종 오디오 신호를 처리한다. 상기 오디오 보드(217)는 오디오 보드(217)의 제어를 위한 마이크로컴퓨터(219), 라디오 신호를 수신하는 튜너(218), 상기 마이크로컴퓨터(219)에 전원을 공급하는 전원부(216), 각종 음성 신호를 처리하는 신호 처리부(215)로 구성된다.
또한, 상기 오디오 보드(217)는 라디오 신호를 수신하기 위한 라디오 안테나(220)와, 오디오 테이프를 재생하기 위한 테이프 데크(221)로 구성된다. 상기 오디오 보드(217)는 상기 오디오 보드(217)에서 신호 처리된 음성 신호를 출력하기 위한 음성 출력부(예를 들면, 앰프)(226)를 더 구성할 수도 있다.
상기 음성 출력부(앰프)(226)는 차량 인터페이스(224)에 연결된다. 즉, 상기 오디오 보드(217)와 메인 보드(210)는 상기 차량 인터페이스(224)에 연결된다. 상기 차량 인터페이스(224)는 음성 신호를 입력하는 핸즈프리(225a), 탑승자 안전을 위한 에어백(225b), 차량의 속도를 검출하기 위한 속도 센서(225c) 등이 연결될 수도 있다. 상기 속도 센서(225c)는 차량 속도를 산출하고, 그 산출된 차량 속도 정보를 상기 중앙 처리 장치(212)에 제공한다.
상기 텔레매틱스 단말기(200)에 적용된 내비게이션 세션(300)은, 지도 데이터 및 차량 현재 위치 정보를 근거로 길 안내 정보를 발생하고, 그 발생된 길 안내 정보를 사용자에게 통지한다.
상기 표시부(201)는 근접 센서를 통해 표시창 내에서 근접 터치를 감지한다. 예를 들면, 상기 표시부(201)는 포인터(예를 들면, 손가락 또는 스타일러스 팬(stylus pen))가 근접 터치될 때 그 근접 터치의 위치를 검출하고, 그 검출된 위치에 대응하는 위치 정보를 상기 제어부(212)에 출력한다.
음성 인식 장치(또는 음성 인식 모듈)(301)는 사용자에 의해 발성된 음성을 인식하고, 그 인식된 음성 신호에 따라 해당 기능을 수행한다.
상기 텔레매틱스 단말기(200)에 적용된 내비게이션 세션(session)(300)은, 지도 데이터 상에 주행 경로를 표시하고, 상기 이동 통신 단말기(100)의 위치가 상기 주행 경로에 포함된 사각지대로부터 미리설정된 거리 이내일 때 무선 통신(예를 들면,근거리 무선 통신망)을 통해 주변 차량에 장착된 단말기(예를 들면, 차량 내비게이션 장치) 및/또는 주변 보행자가 휴대하고 있는 이동 통신 단말기와 자동으로 무선 네트워크를 형성함으로써 상기 주변 차량에 장착된 단말기로부터 그 주변 차량의 위치 정보를 수신하고, 주변 보행자가 휴대하고 있는 이동 통신 단말기로부터 상기 주변 보행자의 위치 정보를 수신한다.
도 4는 본 발명의 실시예들을 설명하기 위한 내비게이션(차량 내비게이션) 장치(400)의 구성을 나타낸 블록도 이다.
상기 내비게이션(차량 내비게이션) 장치(400)는 차량(200)에서의 설치 형태에 따라 인데시 타입(In Dash Type)과 온데시 타입(OnDash Type)으로 구분된다. 인데시 타입의 내비게이션(차량 내비게이션) 장치는 차량(200)의 데시 보드(Dash Board) 내에 할당된 일정 공간에 삽입되어 고정적으로 장착되는 형태이다. 온데시 타입의 내비게이션(차량 내비게이션) 장치는 차량(200)의 데시보드 위에 거치되거나 또는 그 근처에 일정한 지지대를 이용하여 설치되는 형태로서 탈착이 가능하므로 차량(200)으로부터 분리되어 휴대할 수 있다.
본 실시예들에 따른 내비게이션(차량 내비게이션) 장치(400)는 이러한 인데시 타입과 온데시 타입의 내비게이션(차량 내비게이션) 장치를 포함하며, 이외에도 차량(200) 내에서 GPS(Global Positioning System) 위성으로부터 전송되는 항법 메시지를 수신하는 GPS 수신기와 연동하여 내비게이션 기능을 수행할 수 있는 각종 휴대용 단말기(Portable Terminal)와 같은 교통정보의 수신 및/또는 처리가 가능한 정보 처리 장치를 모두 포함한다.
도 4에 도시한 바와 같이, 상기 내비게이션 장치(400)는, 위성으로부터 수신되는 GPS(global positioning system) 신호를 수신하고, 상기 수신된 GPS 신호를 근거로 내비게이션 장치(텔레매틱스 단말기(200) 또는 이동 통신 단말기(100)와 동일한 위치인 것으로 간주함)의 제1 차량 위치 데이터를 발생하는 GPS 모듈(401)과; 차량의 주행 방향 및 상기 차량의 속도를 근거로 제2 차량 위치 데이터를 발생하는 DR(Dead-Reckoning) 센서(402)와; 지도 데이터 및 다양한 정보를 저장하는 저장부(또는 메모리)(404)와; 상기 제1 차량 위치 데이터 및 상기 제2 차량 위치 데이터를 근거로 차량 추정 위치를 발생하고, 상기 발생된 차량 추정 위치와 상기 저장부(404)에 저장된 지도 데이터 내의 링크(지도 정합 링크 또는 지도 정합 도로)를 정합(matching)하고, 상기 정합된 지도 정보(지도 정합 결과)를 출력하는 지도 정합부(403)와; 무선 통신망(500)을 통해 정보 제공 센터 및/또는 주변 차량으로부터 실시간 교통 정보를 수신하고, 교통 신호등 정보를 수신하고, 전화 통신을 수행하는 통신부(408)와; 상기 정합된 지도 정보(지도 정합 결과)를 근거로 길 안내 정보를 발생하는 제어부(407)와; 상기 길 안내 정보에 포함된 길 안내 지도(관심지 정보 포함) 및 상기 교통 신호등 정보를 표시하는 표시부(405)와; 상기 길 안내 정보에 포함된 길 안내 음성 정보(길 안내 음성 메시지) 및 상기 교통 신호등 정보에 대응하는 음성 신호를 출력하는 음성 출력부(406)로 구성된다.
상기 내비게이션 장치(400)는 사용자에 의해 발성된 음성을 인식하는 음성 인식 장치(또는 음성 인식 모듈)(409)를 포함할 수 있다.
상기 통신부(408)는 블루투스 모듈을 갖는 핸즈프리를 더 포함하며, 안테나를 통해 TPEG 포맷의 교통정보를 포함하는 방송신호를 방송국으로부터 수신할 수도 있다. 상기 방송신호는 지상파 또는 위성 디지털 멀티미디어 방송(DMB), 디지털 오디오 방송(DAB), 디지털 비디오 방송(DVB-T, DVB-H) 등 각종 규격에 따른 비디오와 오디오 데이터 뿐만 아니라, 교통정보(TPEG) 서비스, BIFS(Binary Format for Scene) 데이터 서비스에 따른 교통정보 및 각종 부가 데이터와 같은 부가 정보를 포함한다. 또한, 상기 통신부(408)는 교통정보가 제공되는 신호 대역을 동조하고 동조된 신호를 복조하여 TPEG 디코더(제어부(407)에 포함됨)로 출력한다.
상기 TPEG 디코더는 TPEG 포맷의 교통정보를 복호화하여, 교통정보에 포함된 신호등 정보를 비롯한 각종 정보를 제어부(407)에 제공한다.
상기 길 안내 정보는, 지도 데이터뿐만 아니라, 차선 정보, 주행 제한 속도 정보, 턴바이턴 정보, 교통 안전 정보, 교통 안내 정보, 차량 정보, 길 찾기 정보 등의 주행과 관련된 각종 정보를 포함할 수 있다.
상기 GPS 모듈(401)를 통해 수신되는 신호는, IEEE(Institute of Electrical and Electronics Engineers)에서 제안한 무선 LAN 및 일부 적외선 통신 등을 포함하는 무선 LAN에 대한 무선 네트워크의 표준 규격인 802.11과, 블루투스, UWB, 지그비 등을 포함하는 무선 PAN(Personal Area Network)에 대한 표준 규격인 802.15과, 도시 광대역 네트워크(Fixed Wireless Access : FWA) 등을 포함하는 무선 MAN(Metropolitan Area Network)(Broadband Wireless Access : BWA)에 대한 표준 규격인 802.16과, 와이브로(Wibro), 와이맥스(WiMAX) 등을 포함하는 무선MAN(MBWA : Mobile Broadband Wireless Access)에 대한 모바일 인터넷에 대한 표준 규격인 802.20 등의 무선 통신 방식을 이용하여 단말기의 위치 정보를 상기 네비게이션 장치(400)에 제공하도록 구성할 수도 있다.
상기 내비게이션 장치(400)에 입력부가 더 구성될 수 있으며, 상기 입력부는, 사용자가 원하는 기능을 선택하거나 정보를 입력받으며, 키패드, 터치스크린, 조그셔틀, 마이크 등의 다양한 장치가 사용될 수 있다.
상기 지도 정합부(403)는, 상기 제1 위치 데이터 및 상기 제2 위치 데이터를 근거로 차량 추정 위치를 발생하고, 상기 저장부(404)로부터 주행 경로에 대응하는 지도 데이터를 독출한다.
상기 지도 정합부(403)는, 상기 차량 추정 위치와 상기 지도 데이터에 포함된 링크(도로)를 정합(matching)하고, 상기 정합된 지도 정보(지도 정합 결과)를 상기 제어부(407)에 출력한다. 예를 들면, 상기 지도 정합부(403)는 상기 제1 위치 데이터 및 상기 제2 위치 데이터를 근거로 차량 추정 위치를 발생하고, 상기 발생된 차량 추정 위치와 상기 저장부(404)에 저장된 지도 데이터 내의 링크들을 링크 순번에 따라 정합하고, 상기 정합된 지도 정보(지도 정합 결과)를 제어부(407)에 출력한다. 상기 지도 정합부(403)는 상기 정합된 지도 정보(지도 정합 결과)에 포함된 단층 도로 또는 복층 도로 등과 같은 도로 속성 정보를 상기 제어부(407)에 출력할 수도 있다. 또한, 상기 지도 정합부(403)의 기능은 상기 제어부(407)에서 구현될 수도 있다.
상기 저장부(404)는, 지도 데이터를 저장한다. 이때, 상기 저장되는 지도 데이터는, 도분초 단위(DMS 단위 : Degree/Minute/Second)로 위도 및 경도를 표시하는 지리 좌표(Geographic Coordinate 또는, 경위도 좌표)를 포함한다. 여기서, 상기 저장되는 지도 데이터는 상기 지리 좌표 이외에도 UTM(Universal Transverse Mercator) 좌표, UPS(Universal Polar System) 좌표, TM(Transverse Mercator) 좌표 등을 사용할 수도 있다.
상기 저장부(404)는, 각종 메뉴 화면, 관심 지점(POI: Point Of Interest, 이하 'POI' 라 한다), 지도 데이터의 특정 위치에 따른 기능 특성 정보 등의 각종 정보를 저장한다.
상기 저장부(404)는, 다양한 사용자 인터페이스(User Interface: UI) 및/또는 그래픽 사용자 인터페이스(Graphic User Interface: GUI)를 저장한다.
상기 저장부(404)는, 상기 네비게이션 장치(400)가 동작하는데 필요한 데이터와 프로그램 등을 저장한다.
상기 저장부(404)는, 상기 입력부를 통해 사용자로부터 입력된 목적지 정보를 저장한다. 이때, 상기 목적지 정보는 목적지, 또는 출발지와 목적지 중 어느 하나일 수 있다.
상기 표시부(405)는, 상기 제어부(407)에 의해 발생된 길 안내 정보에 포함된 화상 정보(또는, 길 안내 지도)를 표시한다. 여기서, 상기 표시부(405)는, 터치 센서(터치 스크린) 및 근접 센서를 포함한다. 또한, 상기 길 안내 정보에는, 지도 데이터뿐만 아니라, 차선 정보, 주행 제한 속도 정보, 턴바이턴 정보, 교통 안전 정보, 교통 안내 정보, 차량 정보, 길 찾기 정보 등의 주행과 관련된 각종 정보가 포함될 수 있다.
상기 표시부(405)는, 상기 화상 정보를 표시할 때, 상기 저장부(404)에 포함된 사용자 인터페이스 및/또는 그래픽 사용자 인터페이스를 이용하여 다양한 메뉴 화면과 길 안내 정보 등과 같은 다양한 콘텐츠를 표시할 수 있다. 여기서, 상기 표시부(405)에 표시되는 콘텐츠는, 다양한 텍스트 또는 이미지 데이터(지도 데이터나 각종 정보 데이터 포함)와 아이콘, 리스트 메뉴, 콤보 박스 등의 데이터를 포함하는 메뉴 화면 등을 포함한다.
상기 음성 출력부(406)는, 상기 제어부(407)에 의해 발생된 길 안내 정보에 포함된 음성 정보(또는, 상기 길 안내 정보에 대한 음성 메시지)를 출력한다. 여기서, 상기 음성 출력부(406)는, 앰프 또는 스피커가 될 수도 있다.
상기 제어부(407)는, 상기 정합된 지도 정보를 근거로 길 안내 정보를 발생하고, 상기 발생된 길 안내 정보를 상기 표시부(405) 및 음성 출력부(406)에 출력한다. 이때, 상기 표시부(405)는 상기 길 안내 정보를 표시한다.
상기 제어부(407), 상기 정보 제공 센터 및/또는 주변 차량에 장착된 단말기(차량 내비게이션 장치)로부터 실시간 교통 정보를 수신하여 길 안내 정보를 발생한다.
상기 제어부(407)는, 콜 센터와 통신부(408)를 통해 연결되어, 전화 통화를 수행하거나, 상기 내비게이션 장치(400)와 상기 콜센터 간의 정보를 송신/수신할 수 있다. 여기서, 상기 통신부(408)는 근거리 무선 통신 방식을 사용하는 블루투스 기능을 갖는 핸즈프리 모듈을 더 포함한다.
상기 제어부(407)는 사용자에 의해 POI 검색 메뉴가 선택되면, 현재 위치로부터 목적지까지의 경로 상에 위치한 POI를 검색하고, 그 검색된 POI를 상기 표시부(405)에 표시한다. 이때, 상기 제어부(407)는 상기 경로 상에 위치한 POI(경로를 변경(재탐색)하지 않아도 되는 지점, 예를 들면, 주행 도로의 좌측 또는 우측에 위치한 POI) 및/또는 상기 경로의 주변에 위치한 POI(경로를 변경하여야 하는 지점, 예를 들면, 주변 POI를 경유하기 위해 미리 설정된 경로를 변경하여야 하는 지점)를 검색하고, 그 검색된 POI를 상기 표시부(405)에 표시한다.
일반적으로, 차량 내에서 음성을 인식할 때 음성 인식 시작을 알리기 위해 차량용 SWC(Steering wheel control) 버튼을 조작하여 시작하게 된다. 따라서, 차량 주행 중 차량용 SWC(Steering wheel control) 버튼 조작에 따른 운전 부주의 등으로 인해 차량 사고의 위험성이 발생할 수 있다.
이하에서는, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있는 음성 인식 장치 및 그 방법을 설명한다.
도 5는 본 발명의 실시예들에 따른 음성 인식 장치가 적용된 단말기를 나타낸 예시도 이다.
도 5에 도시한 바와 같이, 상기 단말기는 차량에 장착된 텔레매틱스 단말기(또는 헤드 유닛(Head Unit))(200)일 수 있다. 상기 텔레매틱스 단말기(200)에 포함된 카메라(227)는 차량의 리어 미러(rear mirror)의 상단에 설치될 수 있으며, 상기 텔레매틱스 단말기(200)에 포함된 마이크로폰(MIC)(228)은 상기 리어 미러의 하단에 설치될 수 있다. 상기 카메라(227) 및 상기 마이크로폰(228)은 상기 리어 미러뿐만 아니라 차량의 대쉬 보드에 설치될 수도 있으며, 상기 텔레매틱스 단말기(200)에 설치될 수도 있다.
상기 텔레매틱스 단말기(200) 대신에 내비게이션 장치(400)가 사용되거나 이동 통신 단말기(100)가 사용될 수도 있다. 상기 다수의 이동 통신 단말기(100) 대신에 다수의 RSE(Rear Seat Entertainment System), 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(notebook computer), 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 테블릿 PC(Tablet Personal Computer) 등이 사용될 수도 있다. 이하에서는, 텔레매틱스 단말기(200)에 적용된 음성 인식 장치를 예를 들어 설명한다.
도 6은 본 발명의 일 실시예에 따른 음성 인식 방법을 나타낸 흐름도이다.
먼저, 상기 제어부(212)는 상기 카메라(227)를 통해 실시간 수신되는 사용자 이미지를 수신하고, 상기 사용자 이미지로부터 사용자의 시선(눈)을 실시간 추적한다(S11). 예를 들면, 상기 제어부(212)는 일반적인 시선 추적(eye tracking) 기술을 통해 사용자의 시선(눈)을 실시간 추적한다.
상기 메모리(213)는 상기 차량 내 오디오 신호를 실시간 저장한다(S12). 예를 들면, 상기 메모리(213)는 상기 차량 내 오디오 신호를 미리설정된 시간(예를 들면, 5초~10초) 동안만 실시간 저장한다. 상기 메모리(213), 상기 제어부(212), 상기 음성 인식 모듈(음성 인식부)(301), 상기 카메라(227)는 서로 시간 동기화될 수 있다. 상기 메모리(213)는 링 버퍼(ring buffer)일 수 있다.
상기 제어부(212)는 상기 카메라(227)를 통해 촬영된 사용자 이미지로부터 미리설정된 사용자 제스처가 검출되었는지를 결정한다. 예를 들면, 상기 제어부(212)는 상기 사용자의 시선이 상기 마이크로폰(228)을 향하는지를 결정(판단)한다(S13). 상기 카메라(227)와 상기 마이크로폰(228)이 동일 또는 유사한 위치(예를 들면, 차량의 리어 미러)에 설치되었다고 가정할 때, 상기 제어부(212)는 상기 사용자의 시선이 상기 카메라(227)를 향하면 상기 사용자의 시선이 상기 마이크로폰(228)을 향하는 것으로 결정할 수 있다.
상기 제어부(212)는 사용자 시선이 상기 마이크로폰(228)을 향하는 사용자 제스처(사용자 움직임) 이외에도 사용자의 팔 또는 손이 사용자 얼굴 또는 사용자 입 근처로 이동할 때 사용자가 미리설정된 사용자 제스처를 취한 것으로 결정할 수도 있다.
상기 제어부(212)는 상기 사용자의 시선이 상기 마이크로폰(228)을 향하면 상기 음성 인식 모듈(301)을 동작시키고, 상기 사용자가 마이크로폰(228)을 향하는 시점부터 상기 메모리(213)에 기록된 차량 내 오디오 신호에 간투사(예를 들면, "Uhm", "Ah" 등)가 존재하는지를 결정한다(S14). 즉, 상기 제어부(212)는 인간이 발화를 시작할 때 습관적으로 발화하는 간투사와 같은 비어휘를 음성 인식의 시작점으로 결정한다. 여기서, 상기 제어부(212)와 상기 음성 인식 모듈(301)은 하나로 구성될 수도 있으며, 이를 제어부(212)로 명명할 수도 있다.
도 7은 본 발명의 일 실시예에 따른 유효한 음성 신호를 결정하는 방법을 나타낸 예시도 이다.
도 7에 도시한 바와 같이, 상기 제어부(212)는 상기 사용자의 시선이 상기 마이크로폰(228)을 향하면 상기 음성 인식 모듈(301)을 동작시키고, 상기 사용자가 마이크로폰(228)을 향하는 시점(7-1)부터 미리설정된 시간(예를 들면, 5초 이내) 동안 상기 메모리(213)에 기록된 차량 내 오디오 신호를 상기 음성 인식 모듈(301)을 통해 인식하고, 그 인식된 오디오 신호로부터 미리설정된 간투사(7-2)를 검출한다.
상기 제어부(212)는 상기 인식된 오디오 신호로부터 상기 미리설정된 간투사(7-2)가 검출되면, 상기 검출된 간투사에 이어지는 음성 신호(7-3)를 유효한 음성 신호로서 결정하고(S15), 상기 유효한 음성 신호(7-3)를 상기 음성 인식 모듈(301)을 통해 인식한다(S16). 상기 음성 인식 모듈(301)은 상기 제어부(212)의 제어 신호에 따라 동작하고, 사용자에 의해 발화(utterance)된 음성 신호를 수신한다. 즉, 상기 음성 인식 모듈(301)은 실시간 동작하는 것이 아니라 상기 사용자의 시선이 상기 마이크로폰(228)을 향할 때 상기 제어부(212)에 의해 발생하는 제어 신호를 근거로 동작함으로써, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 수신 및 인식할 수 있다.
상기 제어부(212)는 상기 인식된 오디오 신호로부터 상기 미리설정된 간투사가 검출되지 않으면 상기 음성 인식 모듈(301)을 턴-오프시킴으로써 상기 음성 인식 동작을 종료한다.
상기 음성 인식 모듈(301)은 상기 사용자에 의해 발화(utterance)된 음성 신호와 미리결정된 음성 모델을 비교하고, 그 비교 결과에 따라 상기 사용자에 의해 발화된 음성 신호를 상기 사용자의 음성으로서 결정한다. 예를 들면, 상기 음성 인식 모듈(301)은 입력 음성과 다수의 음성 모델들 간의 유사도를 나타내는 신뢰도 점수들(confidence scores)을 제공하는 미리결정된 음성 모델들과 상기 사용자 음성 신호를 비교하고, 상기 비교 결과에 따라 상기 사용자 음성 신호가 임계치(threshold value)보다 높은 신뢰도 점수들에 해당될 때 상기 사용자 음성 신호를 음성으로서 허용한다.
반면, 상기 음성 인식 모듈(301)은, 상기 미리결정된 모델들과 상기 사용자 음성 신호를 비교한 결과, 상기 사용자 음성 신호가 상기 임계치보다 낮은 신뢰도 점수들에 해당될 때 상기 사용자 음성 신호를 비음성인것 결정하여 거절한 후, 미리설정된 안내 메시지(예를 들면, 조금 천천히 이야기해 주십시오)를 제공하여 음성 인식을 재유도한다. 상기 음성 인식 모듈(301)은 상기 신뢰도 점수(confidence score)의 범위(range)가 0에서 100으로 설정되었다고 가정할 때, 상기 사용자 음성 신호의 신뢰도 점수가 90~100점일 때 사용자 음성을 허용하고, 상기 사용자 음성 신호의 신뢰도 점수가 90점 미만 일 때 사용자 음성을 거절할 수 있다. 여기서, 상기 신뢰도 점수를 이용하여 사용자 음성을 인식하는 방법은 미국 특허 번호 6,735,562에도 개시되어 있다.
상기 음성 인식 모듈(301)은 상기 허용된 사용자 음성이 단어인지 문장인지를 결정한다. 예를 들면, 상기 음성 인식 모듈(301)은 사용자가 문장을 발화할 때 단어와 단어 사이에 발생하는 포즈(pause)가 상기 허용된 사용자 음성에 존재하면 상기 허용된 사용자 음성이 문장인 것으로 결정한다. 반면, 상기 음성 인식 모듈(301)은 사용자가 문장을 발화할 때 단어와 단어 사이에 발생하는 포즈(pause)가 상기 허용된 사용자 음성에 존재하지 않으면 상기 허용된 사용자 음성이 단어인 것으로 결정한다.
상기 제어부(212)는 상기 음성 인식 모듈(301)에 의해 결정된 단어 또는 문장에 대응하는 미리설정된 기능을 제어한다. 상기 인식된 단어 또는 문장에 대응하는 미리설정된 기능을 제어하는 기술은 이미 공지된 기술이므로, 이에 대한 상세한 설명은 생략한다.
상기 제어부(212)는, 상기 핸즈프리(225a)를 통해 사용자가 전화 통화를 수행할 때, 상기 음성 인식 동작을 하지 않을 수도 있다. 예를 들면, 상기 제어부(212)는 상기 핸즈프리(225a)가 동작중일 때 상기 음성 인식 동작을 수행하지 않을 수도 있다.
따라서, 본 발명의 일 실시예에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 음성 신호에 비어휘(예를 들면, 간투사)가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 유효한 음성 신호로서 자동으로 인식함으로써, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있다.
도 8은 본 발명의 다른 실시예에 따른 음성 인식 방법을 나타낸 흐름도이다.
먼저, 상기 제어부(212)는 상기 카메라(227)를 통해 실시간 수신되는 사용자 이미지를 수신하고, 상기 사용자 이미지로부터 사용자의 시선(눈)을 실시간 추적한다(S21). 예를 들면, 상기 제어부(212)는 일반적인 시선 추적(eye tracking) 기술을 통해 사용자의 시선(눈)을 실시간 추적한다.
상기 제어부(212)는 상기 카메라(227)를 통해 실시간 수신되는 사용자 이미지로부터 사용자 입 모양을 실시간 검출한다(S22). 예를 들면, 상기 제어부(212)는 상기 카메라(227)를 통해 실시간 검출된 사용자 입 모양을 근거로 사용자 입이 움직이는지 아니면 사용자 입이 다물어진 상태(예를 들면, 사용자 입이 정지된 상태)인지를 검출한다. 상기 카메라(227)를 통해 실시간 수신되는 사용자 이미지는 상기 메모리(213)에 저장될 수 있다. 상기 메모리(213), 상기 제어부(212), 상기 음성 인식 모듈(음성 인식부)(301), 상기 카메라(227)는 서로 시간 동기화될 수 있다.
상기 제어부(212)는 상기 사용자의 시선이 상기 마이크로폰(228)을 향하는지를 결정(판단)한다(S23). 상기 카메라(227)와 상기 마이크로폰(228)이 동일 또는 인접한 위치(예를 들면, 차량의 리어 미러)에 설치되었다고 가정할 때, 상기 제어부(212)는 상기 사용자의 시선이 상기 카메라(227)를 향하면 상기 사용자의 시선이 상기 마이크로폰(228)을 향하는 것으로 결정할 수 있다.
상기 제어부(212)는 상기 사용자의 시선이 상기 마이크로폰(228)을 향하면 상기 음성 인식 모듈(301)을 동작시키고, 상기 사용자가 마이크로폰(228)을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 모양(이미지) 또는 사용자 입이 벌어진 모양(이미지))이 검출되었는지를 결정한다(S24). 즉, 상기 제어부(212)는 상기 사용자가 마이크로폰(228)을 쳐다보면서 입을 벌리는 시점을 음성 인식의 시작점으로 결정한다.
상기 제어부(212)는 상기 사용자의 시선이 마이크로폰(228)을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지 또는 사용자 입이 벌어진 이미지)이 검출되면, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호를 유효한 음성 신호로서 결정하고(S25), 상기 유효한 음성 신호를 상기 음성 인식 모듈(301)을 통해 인식한다(S26).
도 9는 본 발명의 다른 실시예에 따른 유효한 음성 신호를 결정하는 방법을 나타낸 다른 예시도 이다.
도 9에 도시한 바와 같이, 상기 제어부(212)는 상기 사용자의 시선이 마이크로폰(228)을 향하는 시점(9-1)부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)이 검출되면, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)에 대응하는 음성 신호만을 음성 구간(9-2)으로 결정하고, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)에 대응하는 음성 신호를 제외한 나머지 음성 신호를 비음성 구간(9-3)으로 결정한다. 상기 음성 인식 모듈(301)은 상기 비음성 구간에 대응하는 음성 신호가 아닌 상기 결정된 음성 구간에 대응하는 음성 신호만을 인식하고, 그 인식된 음성 신호(예를 들면, 단어 또는 문장)를 상기 제어부(212)에 출력한다.
상기 음성 인식 모듈(301)은 상기 제어부(212)의 제어 신호에 따라 동작하고, 사용자에 의해 발화(utterance)된 음성 신호를 수신한다. 즉, 상기 음성 인식 모듈(301)은 실시간 동작하는 것이 아니라 상기 사용자의 시선이 상기 마이크로폰(228)을 향할 때 상기 제어부(212)에 의해 발생하는 제어 신호를 근거로 동작함으로써, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 수신 및 인식할 수 있다.
상기 제어부(212)는 상기 사용자의 시선이 마이크로폰(228)을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지 또는 사용자 입이 벌어진 이미지)이 검출되지 않으면 상기 음성 인식 모듈(301)을 턴-오프시킴으로써 상기 음성 인식 동작을 종료한다.
상기 음성 인식 모듈(301)은 상기 사용자에 의해 발화(utterance)된 음성 신호(음성 구간에 대응하는 유효한 음성 신호)와 미리결정된 음성 모델을 비교하고, 그 비교 결과에 따라 상기 사용자에 의해 발화된 음성 신호를 상기 사용자의 음성으로서 결정한다. 예를 들면, 상기 음성 인식 모듈(301)은 입력 음성과 다수의 음성 모델들 간의 유사도를 나타내는 신뢰도 점수들(confidence scores)을 제공하는 미리결정된 음성 모델들과 상기 사용자 음성 신호를 비교하고, 상기 비교 결과에 따라 상기 사용자 음성 신호가 임계치(threshold value)보다 높은 신뢰도 점수들에 해당될 때 상기 사용자 음성 신호를 음성으로서 허용한다.
반면, 상기 음성 인식 모듈(301)은, 상기 미리결정된 모델들과 상기 사용자 음성 신호를 비교한 결과, 상기 사용자 음성 신호가 상기 임계치보다 낮은 신뢰도 점수들에 해당될 때 상기 사용자 음성 신호를 비음성인것 결정하여 거절한 후, 미리설정된 안내 메시지(예를 들면, 조금 천천히 이야기해 주십시오)를 제공하여 음성 인식을 재유도한다. 상기 음성 인식 모듈(301)은 상기 신뢰도 점수(confidence score)의 범위(range)가 0에서 100으로 설정되었다고 가정할 때, 상기 사용자 음성 신호의 신뢰도 점수가 90~100점일 때 사용자 음성을 허용하고, 상기 사용자 음성 신호의 신뢰도 점수가 90점 미만 일 때 사용자 음성을 거절할 수 있다.
따라서, 본 발명의 다른 실시예에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지 또는 사용자 입이 벌어진 이미지)이 검출되면 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호를 유효한 음성 신호로서 자동으로 인식함으로써, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있다.
본 발명의 다른 실시예에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)이 검출되면 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)에 대응하는 음성 신호만을 음성 인식 인식함으로써, 차량 내의 잡음(예를 들면, 와이퍼(wiper) 소음, 신호대기시 방향 지시등 동작 소리, 차량 엔진 소리 등)에 상관없이 사용자 음성을 정확하게 인식할 수 있다.
이상에서 상세히 설명한 바와 같이, 본 발명의 실시예들에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 음성 신호에 비어휘(예를 들면, 간투사)가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 유효한 음성 신호로서 자동으로 인식함으로써, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있다.
본 발명의 실시예들에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지 또는 사용자 입이 벌어진 이미지)이 검출되면 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호를 유효한 음성 신호로서 자동으로 인식함으로써, 차량에 탑승한 운전자(사용자)가 음성 인식 시작 버튼을 조작하지 않아도 쉽고 편리하게 사용자 음성을 정확하게 인식할 수 있다.
본 발명의 실시예들에 따른 음성 인식 장치 및 그 방법은, 사용자의 시선이 마이크로폰을 향하는 시점부터 입력된 사용자 이미지에서 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)이 검출되면 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양(예를 들면, 사용자 입이 움직이는 이미지)에 대응하는 음성 신호만을 음성 인식 인식함으로써, 차량 내의 잡음(예를 들면, 와이퍼(wiper) 소음, 신호대기시 방향 지시등 동작 소리, 차량 엔진 소리 등)에 상관없이 사용자 음성을 정확하게 인식할 수 있다.
본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
212: 제어부 227: 카메라
228: 마이크로폰 301: 음성 인식 모듈

Claims (20)

  1. 사용자 이미지를 촬영하는 카메라와;
    마이크로폰과;
    상기 사용자 이미지로부터 미리설정된 사용자 제스처를 검출하고, 상기 사용자 제스처가 검출된 시점부터 상기 마이크로폰을 통해 입력된 음성 신호에서 비어휘가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 유효한 음성 신호로서 결정하는 제어부와;
    상기 유효한 음성 신호를 인식하는 음성 인식부를 포함하는 것을 특징으로 하는 음성 인식 장치.
  2. 제1항에 있어서, 상기 제어부는,
    상기 카메라를 통해 사용자 시선을 실시간 추적하고, 상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 상기 마이크로폰을 통해 입력된 음성 신호에서 상기 비어휘가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 상기 유효한 음성 신호로서 결정하는 것을 특징으로 하는 음성 인식 장치.
  3. 제1항에 있어서, 상기 비어휘는 간투사인 것을 특징으로 하는 음성 인식 장치.
  4. 제1항에 있어서, 상기 제어부는,
    상기 사용자의 시선이 상기 마이크로폰을 향할 때 상기 음성 인식부를 동작시키는 것을 특징으로 하는 음성 인식 장치.
  5. 제2항에 있어서, 상기 제어부는,
    상기 사용자의 시선이 상기 마이크로폰을 향하고, 상기 마이크로폰을 통해 입력된 음성 신호에서 상기 비어휘가 검출되지 않으면 상기 음성 인식부를 턴-오프시키는 것을 특징으로 하는 음성 인식 장치.
  6. 제1항에 있어서, 상기 카메라와 상기 마이크로폰은 동일 또는 인접한 위치에 설치되는 것을 특징으로 하는 음성 인식 장치.
  7. 제1항에 있어서, 상기 제어부는,
    상기 카메라를 통해 사용자 시선을 실시간 추적하고, 상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 입력된 상기 사용자 이미지에서 미리설정된 사용자 입 모양이 검출되면, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호를 상기 유효한 음성 신호로서 결정하는 것을 특징으로 하는 음성 인식 장치.
  8. 제7항에 있어서, 상기 미리설정된 사용자 입 모양은 사용자 입이 움직이는 모양이거나 사용자 입이 열려져 모양인 것을 특징으로 하는 음성 인식 장치.
  9. 제1항에 있어서, 상기 제어부는,
    상기 카메라를 통해 사용자 시선을 실시간 추적하고, 상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 입력된 상기 사용자 이미지에서 미리설정된 사용자 입 모양이 검출되면, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양에 대응하는 음성 신호만을 음성 인식을 위한 음성 구간으로서 결정하는 것을 특징으로 하는 음성 인식 장치.
  10. 제9항에 있어서, 상기 제어부는,
    상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양에 대응하는 음성 신호를 제외한 나머지 음성 신호를 비음성 구간으로서 결정하는 것을 특징으로 하는 음성 인식 장치.
  11. 카메라에 의해 촬영된 사용자 이미지로부터 미리설정된 사용자 제스처를 검출하는 단계와;
    상기 사용자 제스처가 검출된 시점부터 마이크로폰을 통해 입력된 음성 신호에서 비어휘가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 유효한 음성 신호로서 결정하는 단계와;
    상기 유효한 음성 신호를 음성 인식부를 통해 인식하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  12. 제11항에 있어서, 상기 유효한 음성 신호를 결정하는 단계는,
    상기 카메라를 통해 사용자 시선을 실시간 추적하는 단계와;
    상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 상기 마이크로폰을 통해 입력된 음성 신호에서 상기 비어휘가 검출되면 상기 검출된 비어휘에 이어지는 음성 신호를 상기 유효한 음성 신호로서 결정하는 단계인 것을 특징으로 하는 음성 인식 방법.
  13. 제11항에 있어서, 상기 비어휘는 간투사인 것을 특징으로 하는 음성 인식 방법.
  14. 제11항에 있어서,
    상기 사용자의 시선이 상기 마이크로폰을 향할 때 상기 음성 인식부를 동작시키는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  15. 제12항에 있어서,
    상기 사용자의 시선이 상기 마이크로폰을 향하고, 상기 마이크로폰을 통해 입력된 음성 신호에서 상기 비어휘가 검출되지 않으면 상기 음성 인식부를 턴-오프시키는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  16. 제11항에 있어서, 상기 카메라와 상기 마이크로폰은 동일 또는 인접한 위치에 설치되는 것을 특징으로 하는 음성 인식 방법.
  17. 제11항에 있어서, 상기 유효한 음성 신호를 결정하는 단계는,
    상기 카메라를 통해 사용자 시선을 실시간 추적하는 단계와;
    상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 입력된 상기 사용자 이미지에서 미리설정된 사용자 입 모양이 검출되면, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호를 상기 유효한 음성 신호로서 결정하는 단계인 것을 특징으로 하는 음성 인식 방법.
  18. 제17항에 있어서, 상기 미리설정된 사용자 입 모양은 사용자 입이 움직이는 모양이거나 사용자 입이 열려져 모양인 것을 특징으로 하는 음성 인식 방법.
  19. 제11항에 있어서, 상기 유효한 음성 신호를 결정하는 단계는,
    상기 카메라를 통해 사용자 시선을 실시간 추적하는 단계와;
    상기 추적된 사용자 시선이 상기 마이크로폰을 향하는 시점부터 입력된 상기 사용자 이미지에서 미리설정된 사용자 입 모양이 검출되면, 상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양에 대응하는 음성 신호만을 음성 인식을 위한 음성 구간으로서 결정하는 단계인 것을 특징으로 하는 음성 인식 방법.
  20. 제19항에 있어서,
    상기 미리설정된 사용자 입 모양이 검출된 시점부터 입력된 음성 신호 중에서 상기 미리설정된 사용자 입 모양에 대응하는 음성 신호를 제외한 나머지 음성 신호를 비음성 구간으로서 결정하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
KR1020130079179A 2012-07-09 2013-07-05 음성 인식 장치 및 그 방법 KR102206383B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261669501P 2012-07-09 2012-07-09
US61/669,501 2012-07-09

Publications (2)

Publication Number Publication Date
KR20140007282A true KR20140007282A (ko) 2014-01-17
KR102206383B1 KR102206383B1 (ko) 2021-01-22

Family

ID=49916272

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130079179A KR102206383B1 (ko) 2012-07-09 2013-07-05 음성 인식 장치 및 그 방법

Country Status (5)

Country Link
US (1) US9443510B2 (ko)
EP (1) EP2871640B1 (ko)
KR (1) KR102206383B1 (ko)
CN (1) CN104428832B (ko)
WO (1) WO2014010879A1 (ko)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015187587A1 (en) * 2014-06-03 2015-12-10 Harman International Industries, Incorporated Hands free device with directional interface
KR20190104798A (ko) * 2018-03-02 2019-09-11 삼성전자주식회사 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법
CN111028843A (zh) * 2019-04-11 2020-04-17 广东小天才科技有限公司 一种听写方法及电子设备
KR20210002755A (ko) * 2018-03-26 2021-01-08 애플 인크. 자연스러운 어시스턴트 상호작용
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
WO2023080296A1 (ko) * 2021-11-08 2023-05-11 엘지전자 주식회사 Ar 디바이스 및 ar 디바이스 제어 방법
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
WO2014025012A1 (ja) * 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
CA2881198C (en) * 2012-08-17 2021-08-17 King Abdullah University Of Science And Technology System and method for monitoring traffic while preserving personal privacy
US20150039312A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Controlling speech dialog using an additional sensor
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
JP6221535B2 (ja) * 2013-09-11 2017-11-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10163455B2 (en) * 2013-12-03 2018-12-25 Lenovo (Singapore) Pte. Ltd. Detecting pause in audible input to device
JP6350903B2 (ja) * 2014-05-20 2018-07-04 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP6233650B2 (ja) * 2014-05-20 2017-11-22 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
CN104217719A (zh) * 2014-09-03 2014-12-17 深圳如果技术有限公司 一种触发处理方法
JP6592940B2 (ja) * 2015-04-07 2019-10-23 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2016175354A1 (ko) * 2015-04-29 2016-11-03 주식회사 아카인텔리전스 인공지능 대화 장치 및 방법
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
DE102015210430A1 (de) * 2015-06-08 2016-12-08 Robert Bosch Gmbh Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren
CN105489222B (zh) * 2015-12-11 2018-03-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
US9853758B1 (en) * 2016-06-24 2017-12-26 Harman International Industries, Incorporated Systems and methods for signal mixing
US10621992B2 (en) * 2016-07-22 2020-04-14 Lenovo (Singapore) Pte. Ltd. Activating voice assistant based on at least one of user proximity and context
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
JP7337699B2 (ja) 2017-03-23 2023-09-04 ジョイソン セイフティ システムズ アクイジション エルエルシー 口の画像を入力コマンドと相互に関連付けるシステム及び方法
US10664533B2 (en) 2017-05-24 2020-05-26 Lenovo (Singapore) Pte. Ltd. Systems and methods to determine response cue for digital assistant based on context
CN107678793A (zh) * 2017-09-14 2018-02-09 珠海市魅族科技有限公司 语音助手启动方法及装置、终端及计算机可读存储介质
CN109903769A (zh) * 2017-12-08 2019-06-18 Tcl集团股份有限公司 一种终端设备交互的方法、装置和终端设备
KR102420567B1 (ko) * 2017-12-19 2022-07-13 삼성전자주식회사 음성 인식 장치 및 방법
CN108156326B (zh) * 2018-01-02 2021-02-02 京东方科技集团股份有限公司 一种自动启动录音的方法、系统及装置
CN108154140A (zh) * 2018-01-22 2018-06-12 北京百度网讯科技有限公司 基于唇语的语音唤醒方法、装置、设备及计算机可读介质
CN110164444A (zh) * 2018-02-12 2019-08-23 优视科技有限公司 语音输入启动方法、装置及计算机设备
KR102568044B1 (ko) 2018-09-12 2023-08-21 썬전 샥 컴퍼니 리미티드 다중 음향-전기 변환기들을 구비한 신호 처리 디바이스
CN109243441B (zh) * 2018-09-26 2023-01-20 广东小天才科技有限公司 调整语音采集距离的引导方法、装置、终端及存储介质
FR3088741B1 (fr) * 2018-11-16 2021-03-05 Faurecia Interieur Ind Procede d'assistance vocale, dispositif d'assistance vocale et vehicule comprenant le dispositif d'assistance vocale
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
JP7250547B2 (ja) * 2019-02-05 2023-04-03 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム
CN110021297A (zh) * 2019-04-13 2019-07-16 上海影隆光电有限公司 一种基于音视频识别的智能显示方法及其装置
CN109949812A (zh) * 2019-04-26 2019-06-28 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备及存储介质
CN110737335B (zh) * 2019-10-11 2021-03-23 深圳追一科技有限公司 机器人的交互方法、装置、电子设备及存储介质
US10878840B1 (en) * 2019-10-15 2020-12-29 Audio Analytic Ltd Method of recognising a sound event
CN110853638A (zh) * 2019-10-23 2020-02-28 吴杰 语音交互过程中实时打断语音机器人的方法及设备
CN112507829B (zh) * 2020-11-30 2023-04-07 株洲手之声信息科技有限公司 一种多人视频手语翻译方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020105575A1 (en) * 2000-12-05 2002-08-08 Hinde Stephen John Enabling voice control of voice-controlled apparatus
US20030048930A1 (en) * 1998-01-30 2003-03-13 Kabushiki Kaisha Toshiba Image recognition apparatus and method

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131437A (ja) 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
US6230128B1 (en) * 1993-03-31 2001-05-08 British Telecommunications Public Limited Company Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
JPH07306772A (ja) 1994-05-16 1995-11-21 Canon Inc 情報処理方法及び装置
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
DE59601778D1 (de) * 1995-03-07 1999-06-02 Siemens Ag Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
US5918222A (en) * 1995-03-17 1999-06-29 Kabushiki Kaisha Toshiba Information disclosing apparatus and multi-modal information input/output system
GB2355833B (en) * 1999-10-29 2003-10-29 Canon Kk Natural language input method and apparatus
KR100576553B1 (ko) 2000-01-20 2006-05-03 한국전자통신연구원 멀티모달 인터페이스 처리 장치 및 그 방법
ATE282880T1 (de) * 2000-01-27 2004-12-15 Siemens Ag System und verfahren zur blickfokussierten sprachverarbeitung
US6735562B1 (en) 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
JP3581881B2 (ja) * 2000-07-13 2004-10-27 独立行政法人産業技術総合研究所 音声補完方法、装置および記録媒体
JP2002091466A (ja) * 2000-09-12 2002-03-27 Pioneer Electronic Corp 音声認識装置
US6795806B1 (en) * 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US20030001908A1 (en) 2001-06-29 2003-01-02 Koninklijke Philips Electronics N.V. Picture-in-picture repositioning and/or resizing based on speech and gesture control
US20030171932A1 (en) * 2002-03-07 2003-09-11 Biing-Hwang Juang Speech recognition
CN1182513C (zh) * 2003-02-21 2004-12-29 清华大学 基于局部能量加权的抗噪声语音识别方法
US7076422B2 (en) * 2003-03-13 2006-07-11 Microsoft Corporation Modelling and processing filled pauses and noises in speech recognition
WO2006069358A2 (en) * 2004-12-22 2006-06-29 Enterprise Integration Group Turn-taking model
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
US9250703B2 (en) * 2006-03-06 2016-02-02 Sony Computer Entertainment Inc. Interface with gaze detection and voice input
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
WO2008069519A1 (en) * 2006-12-04 2008-06-12 Electronics And Telecommunications Research Institute Gesture/speech integrated recognition system and method
US8140325B2 (en) * 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
CN101335005A (zh) * 2007-06-28 2008-12-31 上海闻通信息科技有限公司 语音识别系统中的前导噪声处理
US8321219B2 (en) * 2007-10-05 2012-11-27 Sensory, Inc. Systems and methods of performing speech recognition using gestures
US8112281B2 (en) * 2007-12-19 2012-02-07 Enbiomedic Accelerometer-based control of wearable audio recorders
CN101308653A (zh) 2008-07-17 2008-11-19 安徽科大讯飞信息科技股份有限公司 一种应用于语音识别系统的端点检测方法
US9020816B2 (en) 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8160311B1 (en) * 2008-09-26 2012-04-17 Philip Raymond Schaefer System and method for detecting facial gestures for control of an electronic device
US9108513B2 (en) * 2008-11-10 2015-08-18 Volkswagen Ag Viewing direction and acoustic command based operating device for a motor vehicle
WO2010054373A2 (en) * 2008-11-10 2010-05-14 Google Inc. Multisensory speech detection
US8390680B2 (en) * 2009-07-09 2013-03-05 Microsoft Corporation Visual representation expression based on player expression
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
JP2011257943A (ja) * 2010-06-08 2011-12-22 Canon Inc ジェスチャ操作入力装置
JP5636888B2 (ja) * 2010-11-09 2014-12-10 ソニー株式会社 情報処理装置、プログラムおよびコマンド生成方法
US20120259638A1 (en) * 2011-04-08 2012-10-11 Sony Computer Entertainment Inc. Apparatus and method for determining relevance of input speech
CN102360187B (zh) * 2011-05-25 2013-06-05 吉林大学 语谱图互相关的驾驶员汉语语音控制系统及方法
US20120304067A1 (en) * 2011-05-25 2012-11-29 Samsung Electronics Co., Ltd. Apparatus and method for controlling user interface using sound recognition
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
US20130325474A1 (en) * 2012-05-31 2013-12-05 Royce A. Levien Speech recognition adaptation systems based on adaptation data
CN102833634A (zh) * 2012-09-12 2012-12-19 康佳集团股份有限公司 一种电视机语音识别功能的实现方法及电视机
CN103051790A (zh) * 2012-12-14 2013-04-17 康佳集团股份有限公司 一种基于手机的语音交互方法和系统、及手机

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030048930A1 (en) * 1998-01-30 2003-03-13 Kabushiki Kaisha Toshiba Image recognition apparatus and method
US20020105575A1 (en) * 2000-12-05 2002-08-08 Hinde Stephen John Enabling voice control of voice-controlled apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kitayama 등, "Speech Starter: Noise-Robust Endpoint Detection by Using Filled Pauses", 8th European Conference on Speech Communication and Technology, 2003.* *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
WO2015187587A1 (en) * 2014-06-03 2015-12-10 Harman International Industries, Incorporated Hands free device with directional interface
JP2017526024A (ja) * 2014-06-03 2017-09-07 ハーマン インターナショナル インダストリーズ インコーポレイテッド 指向性インタフェースを備えるハンズフリー機器
US10318016B2 (en) 2014-06-03 2019-06-11 Harman International Industries, Incorporated Hands free device with directional interface
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
KR20190104798A (ko) * 2018-03-02 2019-09-11 삼성전자주식회사 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법
KR20220140026A (ko) * 2018-03-26 2022-10-17 애플 인크. 자연스러운 어시스턴트 상호작용
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
KR20210002755A (ko) * 2018-03-26 2021-01-08 애플 인크. 자연스러운 어시스턴트 상호작용
KR20220076525A (ko) * 2018-03-26 2022-06-08 애플 인크. 자연스러운 어시스턴트 상호작용
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
CN111028843A (zh) * 2019-04-11 2020-04-17 广东小天才科技有限公司 一种听写方法及电子设备
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
WO2023080296A1 (ko) * 2021-11-08 2023-05-11 엘지전자 주식회사 Ar 디바이스 및 ar 디바이스 제어 방법

Also Published As

Publication number Publication date
EP2871640A4 (en) 2016-03-02
CN104428832B (zh) 2018-06-26
WO2014010879A1 (ko) 2014-01-16
US9443510B2 (en) 2016-09-13
CN104428832A (zh) 2015-03-18
EP2871640B1 (en) 2021-01-06
KR102206383B1 (ko) 2021-01-22
EP2871640A1 (en) 2015-05-13
US20150161992A1 (en) 2015-06-11

Similar Documents

Publication Publication Date Title
KR102206383B1 (ko) 음성 인식 장치 및 그 방법
KR101569022B1 (ko) 정보 제공 장치 및 그 방법
KR101972089B1 (ko) 정보 제공 방법 및 그 장치
KR101649643B1 (ko) 정보 표시 장치
KR101646139B1 (ko) 이동 단말기의 내비게이션 방법 및 그 장치
KR101562589B1 (ko) 영상 표시 장치 및 그 방법
KR101631959B1 (ko) 차량 제어 시스템 및 그 제어 방법
KR20160047879A (ko) 이동 단말기 및 그 제어 방법
KR101917700B1 (ko) 이동 단말기 및 그 제어 방법
KR102070868B1 (ko) 정보 제공 장치 및 그 방법
KR101562581B1 (ko) 내비게이션 장치 및 그 방법
KR101677641B1 (ko) 사용자 인식 장치 및 그 방법
KR20110004706A (ko) 이동 단말기의 응급사고 처리 장치 및 그 방법
KR101677618B1 (ko) 이동 단말기의 내비게이션 방법 및 그 장치
KR101537695B1 (ko) 내비게이션 시스템 및 그 방법
KR101695686B1 (ko) 차량 제어 장치 및 그 방법
KR101575047B1 (ko) 차량 내비게이션 방법 및 그 장치
KR101544454B1 (ko) 차량 제어 시스템 및 그 제어 방법
KR101622729B1 (ko) 정보 제공 장치 및 그 방법
KR20140095873A (ko) 전자기기 및 그것의 제어방법
KR20150033149A (ko) 차량 제어 장치 및 그 방법
KR101635025B1 (ko) 정보 표시 장치
KR101818962B1 (ko) 이동 단말기 및 그 제어 방법
KR101855835B1 (ko) 서비스 제공 시스템 및 그 방법
KR102010297B1 (ko) 정보 제공 장치 및 그 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant