KR102061925B1 - 깊이 기반 콘텍스트 식별 - Google Patents
깊이 기반 콘텍스트 식별 Download PDFInfo
- Publication number
- KR102061925B1 KR102061925B1 KR1020157001026A KR20157001026A KR102061925B1 KR 102061925 B1 KR102061925 B1 KR 102061925B1 KR 1020157001026 A KR1020157001026 A KR 1020157001026A KR 20157001026 A KR20157001026 A KR 20157001026A KR 102061925 B1 KR102061925 B1 KR 102061925B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- gesture
- depth camera
- command
- vehicle
- Prior art date
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000005236 sound signal Effects 0.000 claims abstract description 19
- 210000000245 forearm Anatomy 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 7
- 230000033001 locomotion Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G06K9/6288—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G06K9/00335—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/08—Cursor circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Social Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Position Input By Displaying (AREA)
Abstract
깊이 카메라로부터 검출된 사용자의 동작에 기초하여 음성 인식과 관련된 적용가능한 구두 명령을 선택하거나 전지하기 위한 방법 또는 시스템. 사용자의 손 또는 팔의 깊이에 따라, 구두 명령의 콘텍스트가 결정되고, 결정된 콘텍스트에 대응하는 구두 명령이 선택된다. 이어서 음성 인식이 선택된 구두 명령을 사용하여 오디오 신호에 수행된다. 적절한 세트의 구두 명령을 사용함으로써, 음성 인식의 정확성이 증가된다.
Description
본 발명은 음성 인식의 정확성을 증가시키기 위해 포즈 또는 제스처 정보를 사용하여 음성 명령을 인식하는 것에 관한 것이다.
차량의 운전자 또는 승객은 전형적으로 스위치, 스크린, 키패드 또는 다른 입력 메커니즘을 사용하는 차량 내의 다양한 장치를 손가락 또는 손을 사용하여 조작한다. 그러한 입력 메커니즘은 예를 들어 내비게이션 시스템, 오락 시스템, 실내 온도 시스템(climate system) 또는 전화 시스템을 조작하기 위해 사용될 수 있다. 때때로, 장치에 원하는 명령을 내리기 위해 입력 메커니즘에 복잡한 일련의 조작이 수행되어야 한다. 그러나, 운전자가 양손을 스티어링 휠 상에 유지시키고 이들 입력 장치를 짧은 시간 동안만 단속적으로 손에 의해 조작하는 것이 바람직하다. 조작의 복잡성에 따라, 운전자가 원하는 대로 조작을 수행할 수 있기 전에 입력 장치 조작이 여러 번 시도될 수 있다.
따라서, 운전자의 손을 덜 이용하는 조작 모드를 사용하는 것이 유리하다. 하나의 그러한 조작 모드는 음성 인식이다. 음성 인식은 음향 신호를 음성 요소(예컨대, 음소, 단어 및 문장)로 변환시키는 프로세스이다. 음성 인식은 전화 통신으로부터 차량 조작에 이르는 다양한 분야에 적용되었다. 음성 인식 시스템에서, 오디오 신호가 입력 장치(예컨대, 마이크로폰)에 의해 수집되고, 디지털 신호로 변환되며, 이어서 오디오 신호 내에 담긴 음성 요소를 출력하기 위해 하나 이상의 알고리즘을 사용하여 처리된다. 응용 분야에 따라, 인식된 음성 요소는 음성 인식의 최종 결과 또는 후속 처리에 사용되는 중간 정보일 수 있다.
차량 내에서 음성 인식을 사용하는 데 있어서의 문제 중 하나는 유사하거나 동일한 구두 명령이 상이한 장치에 사용될 수 있다는 것이다. 유사하거나 동일한 구두 명령의 공유는 구두 명령의 모호성을 초래한다. 예를 들어, "XYZ 위치 찾기"와 같은 명령이 내비게이션의 맥락에서 특정 관심 지점(point-of-interest, POI)의 위치 찾기를 지시할 수 있는 반면에, 동일한 명령이 또한 오락 시스템에서 사운드 트랙의 식별을 지시할 수 있다. 사용자의 명령의 콘텍스트가 정확하게 식별되지 않으면, 사용자에 의해 의도되는 것과는 다른 조작이 차량 내의 장치에 의해 수행될 수 있다.
모호한 구두 명령으로 인한 의도하지 않은 조작과 후속 시정 조치에 소비되는 시간이 사용자 경험을 악화시키고 사용자가 수동 조작으로 되돌아가게 할 수 있다.
본 발명의 실시예는 사용자의 포즈 또는 제스처에 기초하여 구두 명령을 인식하는 시스템 및 방법을 제공한다. 조작을 위해 사용자에 의해 표적화될 가능성이 있는 복수의 장치 중 하나 이상의 장치가 사용자의 포즈 또는 제스처를 나타내는 제스처 정보에 의해 선택된다. 사용자에 의해 표적화된 하나 이상의 장치와 관련된 복수의 구두 명령이 수신된 제스처 정보에 기초하여 선택된다. 오디오 신호가 하나 이상의 장치를 조작하기 위한 장치 명령을 결정하기 위해 선택된 복수의 구두 명령을 사용하여 처리된다.
본 발명의 일 실시예에서, 깊이 카메라가 적어도 하나의 깊이 이미지를 포착하기 위해 사용된다. 깊이 이미지 각각은 사용자의 적어도 일부를 커버하고, 깊이 카메라로부터 사용자의 적어도 일부까지의 거리를 나타내는 픽셀을 포함한다. 적어도 하나의 깊이 이미지는 사용자의 포즈 또는 제스처를 결정하도록 처리된다. 제스처 정보는 인식된 포즈 또는 제스처에 기초하여 생성된다.
일 실시예에서, 사용자의 적어도 일부는 사용자의 손 또는 팔뚝을 포함한다.
일 실시예에서, 깊이 카메라는 사용자를 커버하는 시야를 갖고서 차량 내의 오버헤드 콘솔 내에 설치된다.
일 실시예에서, 복수의 장치는 적어도 차량 내의 내비게이션 시스템과 오락 시스템을 포함한다.
일 실시예에서, 제스처 정보는 사용자의 손 또는 팔뚝이 깊이 카메라로부터의 일정 거리 내에 위치되는지 상기한 깊이 카메라로부터의 일정 거리 밖에 위치되는지를 나타낸다. 손 또는 팔뚝이 상기한 일정 거리 내에 위치되는 것을 나타내는 제스처 정보에 응답하여 제1 세트의 구두 명령이 선택된다. 손 또는 팔뚝이 상기한 일정 거리 밖에 위치되는 것을 나타내는 제스처 정보에 응답하여 제2 세트의 구두 명령이 선택된다.
일 실시예에서, 제1 세트의 구두 명령은 차량 내에서 내비게이션 조작을 수행하는 것과 관련된다. 제2 세트의 구두 명령은 오락 시스템, 실내 온도 조절 시스템 또는 진단 시스템을 조작하는 것과 관련된다.
본 명세서에 기술된 특징과 이점은 포괄적이지 않으며, 특히 많은 추가의 특징과 이점이 도면, 명세서 및 특허청구범위를 고려하여 당업자에게 명백할 것이다. 또한, 본 명세서에 사용된 언어가 주로 가독성 및 교수 목적을 위해 선택되었고, 본 발명의 기술적 요지를 기술하거나 제한하도록 선택되지 않았을 수 있다는 것에 유의하여야 한다.
본 개시 내용의 교시 사항은 첨부 도면과 함께 하기의 상세한 설명을 고려함으로써 쉽게 이해될 수 있다.
도 1a는 일 실시예에 따른, 명령 처리 시스템을 갖춘 차량의 측면도이다.
도 1b는 일 실시예에 따른, 도 1a의 차량의 평면도이다.
도 2는 일 실시예에 따른, 명령 처리 시스템의 블록 다이어그램이다.
도 3은 일 실시예에 따른, 음성 인식 모듈의 블록 다이어그램이다.
도 4는 일 실시예에 따른, 관심 지점에 대한 탐색 영역을 예시한 개념도이다.
도 5는 일 실시예에 따른, 카메라에 의해 포착된 깊이 이미지에 기초하여 음성 인식을 수행하는 방법에 대한 순서도이다.
도 1a는 일 실시예에 따른, 명령 처리 시스템을 갖춘 차량의 측면도이다.
도 1b는 일 실시예에 따른, 도 1a의 차량의 평면도이다.
도 2는 일 실시예에 따른, 명령 처리 시스템의 블록 다이어그램이다.
도 3은 일 실시예에 따른, 음성 인식 모듈의 블록 다이어그램이다.
도 4는 일 실시예에 따른, 관심 지점에 대한 탐색 영역을 예시한 개념도이다.
도 5는 일 실시예에 따른, 카메라에 의해 포착된 깊이 이미지에 기초하여 음성 인식을 수행하는 방법에 대한 순서도이다.
이제 동일한 도면 부호가 동일하거나 기능적으로 유사한 요소를 가리키는 도면을 참조하여 바람직한 실시예가 설명된다.
본 명세서에서 "일 실시예" 또는 "어느 한 실시예"에 대한 언급은 실시예들과 관련하여 기술된 특정 특징, 구조 또는 특성이 적어도 하나의 실시예에 포함됨을 의미한다. 본 명세서의 다양한 부분에서 어구 "일 실시예에서"의 출현은 반드시 모두 동일한 실시예를 지칭하는 것은 아니다.
하기의 상세한 설명 중 일부 부분은 컴퓨터 메모리 내의 데이터 비트에 대한 조작의 기호적 표현과 알고리즘에 관하여 제시된다. 이들 알고리즘 설명과 표현은 데이터 처리 기술의 당업자에 의해 그들의 작업의 본질을 다른 당업자에게 가장 효과적으로 전달하기 위해 사용되는 수단이다. 알고리즘은 여기에서 그리고 일반적으로 원하는 결과를 산출하는 자기 모순 없는 일련의 단계(명령)인 것으로 여겨진다. 단계는 물리량의 물리적 조작을 필요로 하는 것이다. 반드시는 아니지만 보통, 이들 양은 저장, 전달, 조합, 비교 및 달리 조작될 수 있는 전기, 자기 또는 광학 신호의 형태를 취한다. 주로 일반적인 용법의 이유로, 때로는 이들 신호를 비트, 값, 요소, 기호, 문자, 용어, 숫자 등으로 지칭하는 것이 편리하다. 또한, 때로는 물리량의 물리적 조작을 필요로 하는 단계의 소정 배열을 일반성을 잃지 않고 모듈 또는 코드 장치로 지칭하는 것이 또한 편리하다.
그러나, 이들 및 유사한 용어 모두는 적절한 물리량과 관련되도록 의도되고, 단지 이들 양에 적용되는 편리한 라벨일 뿐이다. 하기의 논의로부터 명백한 바와 같이 달리 명확하게 명시되지 않는 한, 본 명세서 전반에 걸쳐, "처리" 또는 "컴퓨팅" 또는 "계산" 또는 "결정" 또는 "표시" 또는 "결정" 등과 같은 용어를 사용한 논의는 컴퓨터 시스템 메모리 또는 레지스터 내에 (전자) 물리량으로 표현된 데이터를 조작하고 변환하는 컴퓨터 시스템 또는 유사한 전자 컴퓨팅 장치 또는 다른 그러한 정보 저장, 전송 또는 표시 장치의 작동 및 프로세스와 관련되는 것이 인식되어야 한다.
실시예의 소정 태양은 본 명세서에 기술된 프로세스 단계와 명령을 알고리즘의 형태로 포함한다. 이러한 프로세스 단계와 명령이 소프트웨어, 펌웨어 또는 하드웨어로 구현될 수 있고, 소프트웨어로 구현될 때, 다양한 운영 체제에 의해 사용되는 상이한 플랫폼 상에 상주하도록 다운로드되고 그것으로부터 조작될 수 있다.
실시예는 또한 본 명세서의 조작을 수행하기 위한 장치에 관한 것이다. 이러한 장치는 요구되는 목적을 위해 특별히 구성될 수 있거나, 또는 그것은 컴퓨터 내에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨터를 포함할 수 있다. 그러한 컴퓨터 프로그램은 플로피 디스크, 광학 디스크, CD-ROM, 광자기 디스크, 읽기 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), EPROM, EEPROM, 자기 또는 광학 카드, 응용 특정 집적 회로(ASIC)를 비롯한 임의의 유형의 디스크, 또는 전자 명령어를 저장하기에 적합한 그리고 각각이 컴퓨터 시스템 버스에 결합되는 임의의 다른 유형의 매체와 같은 그러나 이에 제한되지 않는 컴퓨터 판독가능 저장 매체 내에 저장될 수 있다. 또한, 본 명세서에서 언급된 컴퓨터는 단일 프로세서를 포함할 수 있거나, 증가된 컴퓨팅 능력을 위해 다수의 프로세서 설계를 채용한 아키텍처일 수 있다.
본 명세서에 제시된 알고리즘과 디스플레이는 본질적으로 임의의 특정 컴퓨터 또는 다른 장치와 관련되지 않는다. 다양한 범용 시스템이 또한 본 명세서의 교시 사항에 따른 프로그램과 함께 사용될 수 있거나, 또는 요구되는 방법 단계를 수행하기 위해 더욱 전문화된 장치를 구성하는 것이 편리한 것으로 판명될 수 있다. 다양한 이들 시스템에 대한 요구되는 구조는 아래의 설명으로부터 나타날 것이다. 또한, 실시예는 임의의 특정 프로그래밍 언어에 관하여 기술되지 않는다. 다양한 프로그래밍 언어가 본 명세서에 기술된 바와 같은 교시 사항을 구현하기 위해 사용될 수 있고, 아래에서 특정 언어에 대한 임의의 언급은 실시가능성과 최적 모드의 개시 내용을 위해 제공되는 것이 인식될 것이다.
또한, 본 명세서에 사용된 언어는 주로 가독성 및 교수 목적을 위해 선택되었고, 본 발명의 기술적 요지를 기술하거나 제한하도록 선택되지 않았을 수 있다. 따라서, 본 개시 내용은 하기의 특허청구범위에 기재되는 범위를 제한이 아닌 예시하도록 의도된다.
실시예는 깊이 카메라로부터 검출된 사용자의 동작 또는 제스처에 기초하여 음성 인식과 관련된 적용가능한 구두 명령을 선택하거나 전지(pruning)하는 것과 관련된다. 깊이 카메라에 대한 사용자의 손 또는 팔뚝의 깊이에 따라, 구두 명령의 콘텍스트가 결정되고, 결정된 콘텍스트에 대응하는 하나 이상의 명령어 사전이 선택된다. 이어서 음성 인식이 선택된 명령어 사전을 사용하여 오디오 신호에 수행된다. 콘텍스트에 따라 명령어 사전을 사용함으로써, 음성 인식의 정확성이 증가된다.
본 명세서에 사용되는 바와 같이, 용어 "사용자"는 차량의 운전자뿐만 아니라 승객도 또한 포함한다. 사용자는 차량 내의 하나 이상의 장치를 제어하려고 시도하는 누군가일 수 있다.
본 명세서에 사용되는 바와 같이, "포즈"는 사용자의 신체 부위의 구성을 지칭한다. 포즈는 예를 들어 다른 신체 부위 또는 기준점(예컨대, 카메라)에 대한 사용자의 손과 팔뚝의 관계를 나타낼 수 있다.
본 명세서에 사용되는 바와 같이, "제스처"는 시간의 경과에 따라 변하는 사용자의 신체 부위의 일련의 구성을 지칭한다. 제스처는 예를 들어 어느 한 방향을 가리키는 일련의 팔과 손 동작을 포함할 수 있다.
본 명세서에 사용되는 바와 같이, "장치 명령(device command)"은 장치를 조작하거나 제어하기 위한 명령을 지칭한다. 장치 명령은 소정 조작 또는 일단의 조작을 수행하기 위해 장치에 의해 수신되고 해석될 수 있다.
본 명세서에 사용되는 바와 같이, "내비게이션 조작"은 목적지로 주행하기 위한 정보를 식별하거나 찾아내거나 선택하거나 획득하기 위해 컴퓨팅 장치(예컨대, 차내 텔레매틱스 장치)를 사용하기 위한 사용자에 의한 조작을 지칭한다. 예를 들어, 내비게이션 조작은 주소 또는 관심 지점을 선택하기 위한 사용자 입력을 제공하는 것과 사용자 입력 제공으로 인해 표시된 주소 또는 관심 지점을 선택하는 것을 포함할 수 있다.
구두 명령 시스템을 갖춘 차량의 개요
도 1a와 도 1b는 일 실시예에 따른, 명령 처리 시스템을 갖춘 차량(100)을 예시한다. 명령 처리 시스템은 다른 구성요소들 중에서도 특히 중앙 처리 장치(120)와 오버헤드 콘솔 유닛(110)을 포함할 수 있다. 명령 처리 시스템은 다양한 조작을 수행하기 위해 차량(100)의 다른 구성요소(예컨대, 내비게이션 시스템과 오락 시스템)에 연결될 수 있다. 명령 처리 시스템은 아래에서 도 3과 도 4를 참조하여 상세히 기술되는 바와 같이 사용자의 동작 또는 제스처에 기초하여 구두 명령을 인식한다.
중앙 처리 장치(120)는 오디오 신호를 오디오 신호 내에 포함된 사용자의 구두 명령을 검출하도록 처리한다. 중앙 처리 장치(120)는 캐빈 시스템(cabin system)(예컨대, 내비게이션 시스템, 오락 시스템, 실내 온도 조절 시스템(climate control system) 및 진단 시스템)과 같은 다른 구성요소에 연결된다. 중앙 처리 장치(120)는 사용자로부터 수신된 구두 명령에 기초하여 이들 장치를 제어한다. 중앙 처리 장치(120)는 독립형 장치일 수 있거나, 보다 큰 시스템(예컨대, 텔레매틱스 시스템(telematics system))의 일부일 수 있다. 중앙 처리 장치(120)는 아래에서 도 2를 참조하여 상세히 기술된다.
중앙 처리 장치(120)는 차량(100) 내의 임의의 위치에 배치될 수 있다. 도 1a와 도 1b에 예시된 바와 같이, 중앙 처리 장치(120)는 차량(100)의 중앙 콘솔에 위치될 수 있다. 대안적으로, 중앙 처리 장치(120)는 차량(100)의 대시보드 내에 설치될 수 있다. 또한, 중앙 처리 장치(120)는 또한 차량의 천장 상에 설치될 수 있다.
오버헤드 콘솔 유닛(110)은 차량 내부의 천장에 위치되고, 아래에서 도 2를 참조하여 상세히 기술되는 바와 같이 사용자의 깊이 이미지를 포착하고 오디오 신호를 검출하기 위한 센서(예컨대, 마이크로폰과 카메라)를 포함한다. 오버헤드 콘솔 유닛(110)은 차고문 개폐기(garage opener)와 같은 다양한 다른 구성요소를 포함할 수 있다. 오버헤드 콘솔 유닛(110)의 센서는 사용자의 구두 명령을 검출하기 위한 신호를 제공하기 위해 중앙 처리 장치(120)와 통신한다.
오버헤드 콘솔 유닛(110)과 중앙 처리 장치(120) 사이의 통신은 현재 사용되고 있거나 미래에 개발될 임의의 유선 또는 무선 통신 매체에 의해 확립될 수 있다.
예시적인 명령 처리 시스템
도 2는 일 실시예에 따른, 명령 처리 시스템(200)을 예시한 블록 다이어그램이다. 명령 처리 시스템(200)은 다른 구성요소들 중에서도 특히 프로세서(210), 출력 인터페이스(214), 입력 인터페이스(218), 메모리(240) 및 이들 구성요소를 연결하는 버스를 포함할 수 있다. 명령 처리 시스템(200)은 또한 깊이 카메라(222)와 마이크로폰(260)을 포함할 수 있다. 깊이 카메라(222)와 마이크로폰(260)은 채널(220, 262)을 통해 입력 인터페이스(218)에 연결된다. 도 2에 예시되진 않았지만, 명령 처리 시스템(200)은 하나 초과의 깊이 카메라 또는 마이크로폰을 포함할 수 있다.
프로세서(210)는 메모리(240) 내에 저장된 명령을 실행하고, 입력 인터페이스(218)를 통해 수신된 센서 데이터를 처리한다. 단지 단일 프로세서(210)만이 도 2에 예시되지만, 명령 처리 시스템(200)의 처리 용량을 증가시키기 위해 하나 초과의 프로세서가 사용될 수 있다.
출력 인터페이스(214)는 장치 명령을 비롯한 데이터를 통신 채널을 통해 내비게이션 시스템, 오락 시스템, 실내 온도 조절 시스템 및 진단 시스템과 같은 다른 장치로 보내기 위한 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합이다. 데이터를 보내기 위해, 출력 인터페이스(214)는 신호를 사전결정된 통신 프로토콜에 따르도록 포맷하고 조절할 수 있다.
입력 인터페이스(218)는 오버헤드 콘솔 유닛(110)으로부터 센서 신호를 수신하기 위한 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합이다. 센서 신호는 채널(220)을 통해 수신되는 깊이 이미지와 채널(262)을 통해 수신되는 오디오 신호를 포함한다. 입력 인터페이스(218)는 수신된 센서 신호를 버퍼링할 수 있고, 센서 신호를 버스(268)를 통해 프로세서(210) 또는 메모리(240)로 전송하기 전에 센서 신호에 전처리를 수행할 수 있다.
깊이 카메라(222)는 운전자의 깊이 이미지를 포착하고, 이러한 깊이 이미지를 채널(220)을 통해 입력 인터페이스(218)로 보낸다. 깊이 카메라(222)는 타임-오브-플라이트(time-of-flight, TOF) 카메라, 입체시 카메라 또는 그것의 시야 내의 물체의 상이한 점까지의 거리에 관한 정보를 비롯한 깊이 이미지를 생성하는 다른 유형의 카메라로서 구현될 수 있다. 입체시 카메라는 상이한 위치로부터 이미지를 포착하기 위해 2개의 렌즈를 사용한다. 포착된 이미지는 이어서 깊이 이미지를 생성하도록 처리된다. 일 실시예에서, 깊이 카메라(222)는 각각의 픽셀이 깊이 카메라(222)로부터 픽셀에 대응하는 물체(예컨대, 운전자)의 점까지의 거리를 나타내는 그레이스케일 이미지를 생성한다.
도 1a를 참조하면, 깊이 카메라(222)는 오버헤드 콘솔 유닛(110) 상에 설치되고, 차량(100)의 운전자를 내려다보는 시야(116)를 갖는다. 깊이 카메라(222)를 오버헤드 콘솔 유닛(110) 상에 설치함으로써, 깊이 카메라(222)는 유리하게는 운전자와 차량(100)의 중앙 콘솔을 방해받지 않고 조망한다. 또한, 깊이 카메라(222)에 대한 사용자의 손 또는 팔의 깊이는 아래에서 제스처 인식 모듈(252)을 참조하여 상세히 기술되는 바와 같이 운전자에 의해 의도되는 조작의 지시를 제공한다.
마이크로폰(260)은 음파를 감지하고, 이러한 음파를 아날로그 전기 신호로 변환한다. 마이크로폰(260)은 아날로그 전기 신호를 디지털 신호로 변환하기 위한 아날로그-디지털(A/D) 변환기를 포함한다. 변환된 디지털 신호는 채널(262)을 통해 입력 인터페이스(218)로 보내진다. 대안적으로, A/D 변환기는 입력 인터페이스(218) 내에 포함될 수 있다. 이러한 경우에, 마이크로폰(260)은 아날로그 전기 신호를 디지털 신호로의 변환과 후속 처리를 위해 채널(262)을 통해 입력 인터페이스(218)로 보낸다.
메모리(240)는 프로세서(210)에 의해 실행될 명령과 이러한 명령과 관련된 다른 데이터를 저장한다. 메모리(240)는 휘발성 메모리, 비-휘발성 메모리 또는 이들의 조합일 수 있다. 메모리(240)는 다른 소프트웨어 모듈들 중에서도 특히 명령 포맷 모듈(244), 제스처 인식 모듈(252) 및 음성 인식 모듈(256)을 저장할 수 있다. 메모리(240)는 간결성을 위해 본 명세서에서 그것의 설명이 생략되는 조작 시스템과 같은 다른 소프트웨어 모듈을 포함할 수 있다.
제스처 인식 모듈(252)은 깊이 카메라(222)에 의해 포착된 깊이 이미지에 기초하여 운전자의 제스처 또는 동작을 검출한다. 일 실시예에서, 제스처 인식 모듈(252)은 구두 명령의 콘텍스트를 결정하기 위해 손 또는 팔뚝의 위치 및/또는 동작을 검출한다. 일 실시예에서, 제스처 인식 모듈(252)은 깊이 카메라(222)에 대한 운전자의 손 또는 팔뚝의 위치를 결정한다. 운전자의 손 또는 팔뚝이 깊이 카메라(222)에 더욱 가까우면(즉, 깊이 카메라(222)로부터 손 또는 팔뚝까지의 거리가 한계치 미만이면), 예를 들어, 운전자는 내비게이션 조작과 관련된 행동을 취하거나 제스처를 할 가능성이 있다(예컨대, 손가락을 창문 밖의 방향을 향해 가리킴). 반면에, 운전자의 손 또는 팔뚝이 깊이 카메라(222)로부터 떨어져 있으면(즉, 깊이 카메라(222)로부터 손 또는 팔뚝까지의 거리가 한계치 이상이면), 운전자는 전형적으로 중앙 콘솔 내에 제공된 다른 제어 기능과 관련된 행동을 취하거나 제스처를 할 가능성이 있다(예컨대, 오락 시스템과 실내 온도 조절 시스템을 조작함).
제스처 인식 모듈(252)은 깊이 이미지 내의 픽셀의 그룹을 클러스터화하는 그리고 운전자의 동작 또는 제스처를 결정하기 위해 시간의 경과에 따라 이들 그룹의 위치를 추적하는 컴퓨팅 알고리즘을 채용할 수 있다. 픽셀은 픽셀의 깊이 차이와 픽셀의 2차원 거리의 근접에 기초하여 그룹으로 클러스터화될 수 있다. 제스처 인식 모듈(252)은 또한 인체의 모델을 저장할 수 있고, 손 및/또는 팔뚝의 위치를 정확하게 검출하고 추적하기 위해 픽셀의 그룹을 저장된 모델에 매핑할 수 있다.
일 실시예에서, 제스처 인식 모듈(252)은 또한 운전자의 조작과 관련된 장치를 결정하기 위해 운전자의 손의 위치를 보다 높은 해상도로 검출할 수 있다. 차량의 중앙 콘솔이 중앙 콘솔의 중간에 오락 시스템을 조작하기 위한 스위치 또는 노브를 그리고 양쪽 가장자리에 실내 온도 조절 시스템을 위한 스위치를 구비하면, 중앙 콘솔의 중간 부근에 있는 운전자의 손의 위치는 운전자가 오락 시스템의 조작에 관여되는 것을 나타낸다. 운전자의 손이 중앙 콘솔의 중간 부분보다 중앙 콘솔의 가장자리에 더욱 가까우면, 운전자는 실내 온도 조절 시스템의 조작에 관여될 가능성이 더욱 많다. 따라서, 명령 처리 시스템(200)은 운전자가 구두 명령을 내릴 때 구두 명령과 관련된 장치를 결정하기 위해 손의 특정 위치에 관한 제스처 정보를 사용할 수 있다.
음성 인식 모듈(256)은 운전자가 내린 구두 명령을 결정한다. 구두 명령을 결정하기 위해, 음성 인식 모듈(256)은 아래에서 도 3을 참조하여 상세히 기술되는 바와 같이 제스처 인식 모듈(252)로부터 운전자의 제스처에 관한 제스처 정보를 수신한다.
명령 포맷 모듈(244)은 음성 인식 모듈(256)에서 검출된 구두 명령을 차량(100) 내에 설치된 장치를 조작하기 위한 장치 명령으로 변환한다. 차량(100) 내에 설치된 각각의 장치는 명령이 상이한 포맷으로 제공되는 것을 필요로 할 수 있다. 따라서, 명령 포맷 모듈(244)은 명령을 각각의 장치에 의해 처리될 수 있는 포맷으로 변환한다. 또한, 명령 포맷 모듈(244)은 내려진 구두 명령이 불분명하거나 모호하거나 결함이 있으면 운전자에게 또 다른 정보를 요구할 수 있다. 또 다른 정보의 그러한 요구는 스피커를 통해 이루어질 수 있다. 명령 포맷(244)은 또한 아래에서 도 4를 참조하여 상세히 기술되는 바와 같이 장치 명령을 생성하기 위해 제스처 인식 모듈(252)로부터의 정보를 조합할 수 있다.
명령 포맷 모듈(244), 제스처 인식 모듈(252) 및 음성 인식 모듈(256)은 동일한 메모리(240) 내에 저장될 필요가 없다. 예를 들어, 제스처 인식 모듈(252)은 오버헤드 콘솔 유닛 내의 메모리 내에 저장될 수 있는 반면에, 음성 인식 모듈(256)과 명령 포맷 모듈(244)은 중앙 콘솔 유닛 내의 메모리 내에 저장될 수 있다. 또한, 이들 모듈 중 하나 이상이 전용 하드웨어 구성요소로서 구현될 수 있다.
음성 인식 모듈의 예시적인 아키텍처
도 3은 일 실시예에 따른, 음성 인식 모듈(256)의 구성요소를 예시한 블록 다이어그램이다. 음성 인식 모듈(256)은 다른 구성요소들 중에서도 특히 제스처 인식 인터페이스(312), 명령 추출 모듈(316) 및 명령어 사전(320)을 포함할 수 있다. 음성 인식 모듈(256)은 또한 이전에 사용자가 내린 구두 명령의 목록을 보유하는 이력 관리 모듈과 같은 다른 모듈을 포함할 수 있다.
제스처 인식 인터페이스(312)는 음성 인식 모듈(256)이 제스처 인식 모듈(252)과 통신할 수 있게 한다. 일 실시예에서, 제스처 인식 모듈(252)로부터 제스처 인식 인터페이스(312)를 통해 수신된 제스처 정보는 운전자의 손 또는 팔뚝의 위치를 나타낸다.
명령어 사전(320)은 차량(100)의 다양한 장치와 관련된 명령어를 포함한다. 명령어 사전(320)은 각각이 차량(100)의 장치 또는 시스템과 관련되는 복수의 사전(320A 내지 320N)을 포함한다. 예를 들어, 사전(320A)은 내비게이션 시스템의 조작과 관련된 명령어를 저장하고, 사전(320B)은 오락 시스템의 조작과 관련된 명령어를 저장하며, 사전(320C)은 실내 온도 조절 시스템과 관련된 명령어를 저장한다.
명령 추출 모듈(316)은 선택된 명령어 사전(320) 내에 저장된 명령어와 제스처 데이터에 기초하여 오디오 신호 내에 포함된 구두 명령을 추출한다. 제스처 정보가 수신된 후, 명령 추출 모듈(316)은 제스처 정보에 의해 지시되는 바와 같은 사용자의 손 또는 팔뚝의 위치에 기초하여 하나 이상의 사전을 선택한다. 제스처 데이터가 사용자의 손 또는 팔뚝이 소정 포즈를 취하고 있는 것을 나타내면, 운전자의 손 또는 팔뚝 부근의 장치와 관련된 사전이 명령 추출을 위해 선택된다. 예를 들어, 사용자의 손이 오락 시스템으로부터 소정 거리 내에 있으면, 오락 시스템과 관련된 사전(예컨대, 사전(320B))이 명령 추출을 위해 선택된다.
반대로, 구두 명령이 내려질 때, 운전자의 손 또는 팔뚝이 이들 장치로부터 떨어져 있고 소정 레벨 위로 들어올려져 있으면(즉, 대시보드 위로 들어올려져 있으면), 명령 추출 모듈(316)은 구두 명령이 내비게이션 시스템과 관련된다고 결정한다. 따라서, 명령 추출 모듈(316)은 내비게이션 조작과 관련된 사전(예컨대, 사전(320A))을 선택하고 그것을 음성 인식을 수행하기 위해 사용한다.
일 실시예에서, 명령 추출 모듈(316)에 의해 인식된 구두 명령은 명령 포맷 모듈(244)에서 내비게이션 명령을 생성하기 위해 제스처 정보와 조합된다. 제스처 정보는 예를 들어 아래에서 도 4를 참조하여 상세히 기술되는 바와 같이 운전자의 손가락의 배향을 나타낼 수 있다.
명령 추출 모듈(316)은 구두 명령을 추출하기 위해 하나 초과의 사전을 사용할 수 있다. 사용자의 손이 중앙 콘솔 부근에 위치되면, 중앙 콘솔에서 조작될 수 있는 임의의 장치(예컨대, 오락 시스템 또는 실내 온도 조절 시스템)와 관련된 사전이 선택될 수 있다.
일 실시예에서, 명령 추출 모듈(316)은 사용자의 손 또는 팔뚝의 위치에 기초하여 명령에 확률 가중치(probability weight)를 할당한다. 명령 추출 모듈(316)은 순서대로 나타나는 음소에 기초하여 말해진 구두 명령의 확률을 계산하는 통계 모델을 사용한다. 통계 모델은 운전자에 의해 의도되는 가장 가능성 있는 명령을 결정하는 데 손 또는 팔뚝의 위치를 고려하는 파라미터를 포함할 수 있다.
도 3의 음성 인식 모듈(256)은 단지 예시적이다. 음성 인식 모듈(256)에 다양한 변경이 이루어질 수 있다. 예를 들어, 다수의 사전을 갖는 것 대신에, 명령어 사전(320)은 복수의 명령어 각각을 하나 이상의 장치에 매핑할 수 있다.
제스처 및 구두 명령을 사용한 관심 지점의 예시적인 검출
손 제스처와 음성 명령의 조합을 사용함으로써, 사용자가 관심 지점 또는 목적지를 편리하게 찾을 수 있다. 관심 지점 또는 목적지를 가리키는 동안, 사용자는 내비게이션 시스템이 관심 지점을 찾고/찾거나 설정하도록 요구하는 명령을 말할 수 있다. 명령 포맷 모듈(244)은 음성으로부터 인식된 명령과 제스처 정보로부터 추출된 파라미터를 조합하여 내비게이션 명령을 생성할 수 있다.
도 4는 일 실시예에 따른, 관심 지점에 대한 탐색 영역을 예시한 개념도이다. 도 4에서, 운전자는 빌딩(410)으로 가기를 원하거나 빌딩(410)의 이름 또는 주소를 찾기를 원한다. 운전자는 그의 손가락을 빌딩(410)을 향해 가리키면서 "저 빌딩을 찾아라"는 구두 명령을 말한다. 다양한 부정확성으로 인해, 제스처 인식 모듈(252)은 운전자가 그의 손가락을 방향 O-A(파선으로 도시됨)로 가리키고 있다고 검출할 수 있다.
이에 응답하여, 음성 인식 모듈(256)은 사용자의 팔 또는 팔뚝이 들어올려져 있음을 나타내는 제스처 인식 모듈(252)로부터의 제스처 정보를 수신한다. 음성 인식 모듈(256)은 구두 명령이 내비게이션 시스템과 관련된다고 결정하고(머리와 팔뚝이 들어올려져 있기 때문에), 구두 명령을 인식하기 위해 내비게이션 시스템과 관련된 사전을 사용한다. 음성 인식 모듈(256)은 식별된 구두 명령을 명령 포맷 모듈(244)로 보낸다.
명령 포맷 모듈(244)은 구두 명령을 수신하고, 구두 명령을 분석하며, 어구 "저 빌딩"이 추가 설명을 필요로 한다고 결정한다. 명령 포맷 모듈(244)은 제스처 정보를 분석하고, 내비게이션 시스템이 선 O-A의 방향으로 임의의 관심 지점을 찾도록 요구하는 장치 명령을 생성하기 위해 사용자의 손가락의 배향(선 O-A에 의해 표시됨)을 나타내는 제스처 정보 내의 파라미터를 사용한다. 예를 들어, 파라미터는 차량(100)의 전방 방향에 대한 각도 θ일 수 있다.
내비게이션 시스템은 장치 명령을 수신하고, O-B-C-O에 의해 표시되는 탐색 원뿔(search cone)을 확립한다. 탐색 원뿔은 탐색 반경(예컨대, 10 마일)을 나타내는 R의 높이를 갖고, 2α의 원뿔각을 갖는다. 원뿔각 2α는 탐색을 확장시키기 위해 또는 오차에 대한 증가된 공차를 허용하기 위해 증가될 수 있다. 내비게이션 시스템은 차량 속도와 차량 운동 방향을 고려하여, 탐색 원뿔에 의해 식별되는 탐색 영역 내에서 탐색을 수행한다. 일 실시예에서, 차량에 더욱 근접한 관심 지점이 우선된다. 일 실시예에서, 내비게이션 시스템은 탐색 영역 내에서 발견된 관심 지점의 목록을 사용자에게 제공한다. 사용자는 이어서 탐색된 목록으로부터 관심 지점을 가리킬 수 있고, 추가 조치(예컨대, 관심 지점으로 가거나 관심 지점에 전화를 검)를 요구할 수 있다.
제스처 데이터에 기초하여 구두 명령을 인식하는 예시적인 방법
도 5는 일 실시예에 따른, 운전자의 동작 또는 제스처에 기초하여 구두 명령을 인식하는 방법을 예시한 순서도이다. 명령 처리 시스템(200)은 깊이 카메라(222)를 사용하여 깊이 이미지를 생성한다(506). 생성된 깊이 이미지를 사용하여, 명령 처리 시스템(200)은 사용자의 제스처 정보를 생성한다(510). 제스처 정보는 다른 것들 중에서도 특히 깊이 카메라(222)에 대한 사용자의 손 또는 팔뚝의 위치를 나타낼 수 있다.
제스처 정보에 기초하여, 명령 처리 시스템(200)은 구두 명령을 인식하기 위해 하나 이상의 사전을 선택한다(514). 각각의 사전은 차량(100) 내의 소정 시스템 또는 장치를 위한 명령어를 포함할 수 있다.
명령 처리 시스템(200)은 또한 마이크로폰(260)에서 수신된 음향 신호에 기초하여 운전자의 발언을 나타내는 디지털 오디오 신호를 생성한다.
적용가능한 사전 또는 사전들이 선택된 후, 명령 처리 시스템(200)은 하나 이상의 선택된 사전을 사용하여 생성된 오디오 신호에 음성 인식을 수행한다(518). 구두 명령이 말해질 때 사용자의 포즈 또는 제스처를 나타내는 제스처 정보에 기초하여 적용가능한 구두 명령을 제한하거나 전지함으로써, 음성 인식의 정확성이 증가될 수 있다.
구두 명령이 생성된 후, 명령 처리 시스템(200)은 구두 명령을 장치 명령으로 변환함으로써 구두 명령에 대응하는 장치 명령을 생성한다(522). 필요하다면, 명령 처리 시스템(200)은 장치 명령을 생성하기 위한 정보를 추가, 변경 또는 요구할 수 있다.
도 5에 예시된 바와 같은 프로세스와 그것들의 순서는 단지 예시적이다. 이러한 프로세스 및/또는 순서에 다양한 변경이 이루어질 수 있다. 예를 들어, 음성 인식은 일단의 후보 구두 명령을 생성하도록 수행될 수 있다(518). 이어서, 운전자의 제스처의 결정(510)에 기초하여 상기한 일단의 후보 구두 명령으로부터 최종 구두 명령이 선택될 수 있다. 또한, 하나 이상의 프로세스가 병렬로 수행될 수 있다. 예를 들어, 깊이 카메라(222)에서 깊이 이미지를 생성하는 단계(506)는 오디오 신호를 생성하는 단계(516)와 병렬로 수행될 수 있다.
대안적인 실시예
하나 이상의 실시예에서, 제스처 검출의 정확성을 증가시키기 위해 하나 이상의 카메라가 사용된다. 카메라는 또한 컬러 이미지를 포착할 수 있다. 컬러 이미지는 운전자의 손을 나타내는 피부 색조를 검출할 수 있다. 컬러 이미지와 깊이 이미지를 상관시킴으로써, 손 또는 팔뚝의 위치가 더욱 정확하게 검출될 수 있다. 또한, 하나의 깊이 카메라에서 포착된 깊이 이미지를 보완하거나 대체하기 위해 차량(100) 내의 천장 또는 다른 곳의 상이한 위치에 2개 이상의 카메라가 위치될 수 있다.
하나 이상의 실시예에서, 명령 처리 시스템(200)의 하나 이상의 구성요소가 차량(100) 내에 설치된 명령 처리 시스템(200)과 통신하는 원격 서버에 의해 구현될 수 있다. 예를 들어, 음성 인식 모듈(256)은 차량(100) 내에 설치된 명령 처리 시스템(200)과 무선으로 통신하는 원격 서버 내에 구현된다.
하나 이상의 실시예에서, 명령 처리 시스템(200)은 차량과는 다른 수송 장치에 사용된다. 명령 처리 시스템(200)은 예를 들어 비행기 또는 모터사이클에 사용될 수 있다.
수개의 실시예가 위에 기술되지만, 본 개시 내용의 범위 내에서 다양한 변경이 이루어질 수 있다. 따라서, 본 발명의 개시 내용은 하기의 특허청구범위에 기재되는 본 발명의 범위를 제한이 아닌 예시하도록 의도된다.
Claims (21)
- 구두 명령을 인식하는 컴퓨터 구현 방법으로서,
차량 내에 위치된 깊이 카메라에 의해 적어도 하나의 깊이 이미지를 포착하는 단계 - 상기 깊이 이미지의 각각은 사용자의 적어도 일부를 커버하고, 상기 깊이 카메라부터 상기 사용자의 적어도 일부까지의 거리를 나타내는 픽셀을 포함함 - ;
포착된 상기 깊이 이미지에 기초하여 상기 사용자의 포즈 또는 제스처를 인식하는 단계;
인식된 상기 포즈 또는 제스처에 기초하여 제스처 정보를 생성하는 단계;
상기 제스처 정보에 기초하여 조작을 위해 상기 사용자에 의해 표적화될 가능성이 있는 복수의 장치 중 하나 이상의 장치를 결정하는 단계;
표적화된 것으로 결정된 상기 하나 이상의 장치와 관련된 복수의 구두 명령을 선택하는 단계;
상기 사용자가 상기 포즈 또는 제스처를 취하고 있을 때 상기 사용자에 의한 발언을 비롯한 오디오 신호를 수신하는 단계; 및
선택된 상기 복수의 구두 명령을 사용하여 상기 오디오 신호에 음성 인식을 수행함으로써 상기 하나 이상의 장치를 조작하기 위한 장치 명령을 결정하는 단계
를 포함하는, 컴퓨터 구현 방법. - 제1항에 있어서,
상기 사용자의 적어도 일부는 상기 사용자의 손 또는 팔뚝을 포함하는, 컴퓨터 구현 방법. - 제1항에 있어서,
상기 깊이 카메라는 상기 차량 내의 오버헤드 콘솔 내에 설치되고, 상기 깊이 카메라는 상기 사용자를 내려다보는, 컴퓨터 구현 방법. - 제1항에 있어서,
상기 복수의 장치는 적어도 상기 차량 내의 내비게이션 시스템과 오락 시스템을 포함하는, 컴퓨터 구현 방법. - 제1항에 있어서,
상기 제스처 정보는 상기 사용자의 손 또는 팔뚝이 상기 깊이 카메라로부터의 사전결정된 거리 내에 위치되는지 또는 상기 깊이 카메라로부터의 사전결정된 거리 밖에 위치되는지를 나타내고, 상기 손 또는 팔뚝이 상기 사전결정된 거리 내에 위치되는 것을 나타내는 제스처 정보에 응답하여 제1 세트의 구두 명령이 선택되며, 상기 손 또는 팔뚝이 상기 사전결정된 거리 밖에 위치되는 것을 나타내는 제스처 정보에 응답하여 제2 세트의 구두 명령이 선택되는, 컴퓨터 구현 방법. - 제5항에 있어서,
상기 제1 세트의 구두 명령은 상기 차량 내에서 내비게이션 조작을 수행하는 것과 관련되는, 컴퓨터 구현 방법. - 제6항에 있어서,
상기 제1 세트의 구두 명령은 상기 내비게이션 조작을 위해 관심 지점을 찾거나 설정하기 위한 명령을 포함하는, 컴퓨터 구현 방법. - 제6항에 있어서,
상기 제2 세트의 구두 명령은 오락 시스템, 실내 온도 조절(climate control) 시스템 또는 진단 시스템을 조작하는 것과 관련되는, 컴퓨터 구현 방법. - 구두 명령을 인식하기 위한 명령 처리 시스템으로서,
차량 내에 위치되는 깊이 카메라 - 상기 깊이 카메라는 상기 깊이 카메라에 의해 적어도 하나의 깊이 이미지를 포착하도록 구성되며, 상기 깊이 이미지의 각각은 사용자의 적어도 일부를 커버하고, 상기 깊이 카메라부터 상기 사용자의 적어도 일부까지의 거리를 나타내는 픽셀을 포함함 - ;
상기 깊이 카메라에 결합되는 제스처 인식 모듈 - 상기 제스처 인식 모듈은 포착된 상기 깊이 이미지에 기초하여 상기 사용자의 포즈 또는 제스처를 인식하고 인식된 상기 포즈 또는 제스처에 기초하여 제스처 정보를 생성하도록 구성됨 - ;
상기 인식된 상기 포즈 또는 제스처에 기초하여 상기 제스처 정보를 생성하도록 구성되는 제스처 인식 인터페이스; 및
명령 추출 모듈 - 명령 추출 모듈은,
수신된 상기 제스처 정보에 기초하여 조작을 위해 상기 사용자에 의해 표적화될 가능성이 있는 복수의 장치 중 하나 이상의 장치를 결정하도록;
표적화된 것으로 결정된 상기 하나 이상의 장치와 관련된 복수의 구두 명령을 선택하도록;
상기 사용자가 상기 포즈 또는 제스처를 취하고 있는 동안 상기 사용자에 의한 발언을 비롯한 오디오 신호를 수신하도록; 및
선택된 상기 복수의 구두 명령을 사용하여 상기 오디오 신호에 음성 인식을 수행함으로써 상기 하나 이상의 장치를 조작하기 위한 장치 명령을 결정하도록 구성됨 -
을 포함하는, 명령 처리 시스템. - 제9항에 있어서,
상기 사용자의 적어도 일부는 상기 사용자의 손 또는 팔뚝을 포함하는, 명령 처리 시스템. - 제9항에 있어서,
상기 깊이 카메라는 상기 차량 내의 오버헤드 콘솔 내에 설치되어 상기 사용자를 내려다보는, 명령 처리 시스템. - 제11항에 있어서,
상기 깊이 카메라는 상기 적어도 하나의 깊이 이미지로의 처리를 위해 포착된 이미지를 제공하는 입체시 카메라를 포함하는, 명령 처리 시스템. - 제9항에 있어서,
상기 복수의 장치는 적어도 상기 차량 내의 내비게이션 시스템과 오락 시스템을 포함하는, 명령 처리 시스템. - 제9항에 있어서,
상기 제스처 정보는 상기 사용자의 손 또는 팔뚝이 깊이 카메라로부터의 사전결정된 거리 내에 위치되는지 또는 상기 깊이 카메라로부터의 사전결정된 거리 밖에 위치되는지를 나타내며, 상기 명령 추출 모듈은, 상기 손 또는 팔뚝이 상기 사전결정된 거리 내에 위치되는 것을 나타내는 제스처 정보에 응답하여 제1 세트의 구두 명령을 선택하고, 상기 손 또는 팔뚝이 상기 사전결정된 거리 밖에 위치되는 것을 나타내는 제스처 정보에 응답하여 제2 세트의 구두 명령을 선택하는, 명령 처리 시스템. - 제14항에 있어서,
상기 제1 세트의 구두 명령은 상기 차량 내에서 내비게이션 조작을 수행하는 것과 관련되는, 명령 처리 시스템. - 제14항에 있어서,
상기 제1 세트의 구두 명령은 내비게이션 조작을 위해 관심 지점을 찾거나 설정하기 위한 명령을 포함하는, 명령 처리 시스템. - 제16항에 있어서,
상기 제2 세트의 구두 명령은 오락 시스템, 실내 온도 조절 시스템 또는 진단 시스템을 조작하는 것과 관련되는, 명령 처리 시스템. - 구두 명령을 인식하기 위한 비일시적 컴퓨터 판독가능 저장 매체로서,
상기 컴퓨터 판독가능 저장 매체는, 실행될 때 프로세서로 하여금,
차량 내에 위치된 깊이 카메라에 의해 적어도 하나의 깊이 이미지를 포착하게 하고 - 상기 깊이 이미지의 각각은 사용자의 적어도 일부를 커버하고, 상기 깊이 카메라부터 상기 사용자의 적어도 일부까지의 거리를 나타내는 픽셀을 포함함 - ;
포착된 상기 깊이 이미지에 기초하여 상기 사용자의 포즈 또는 제스처를 인식하게 하고;
인식된 상기 포즈 또는 제스처에 기초하여 제스처 정보를 생성하게 하고;
인식된 상기 제스처 정보에 기초하여 조작을 위해 상기 사용자에 의해 표적화될 가능성이 있는 복수의 장치 중 하나 이상의 장치를 결정하게 하고;
표적화된 것으로 결정된 상기 하나 이상의 장치와 관련된 복수의 구두 명령을 선택하게 하고;
상기 사용자가 상기 포즈 또는 제스처를 취하고 있는 동안 상기 사용자에 의한 발언을 비롯한 오디오 신호를 수신하게 하고; 및
선택된 상기 복수의 구두 명령을 사용하여 상기 오디오 신호에 음성 인식을 수행함으로써 상기 하나 이상의 장치를 조작하기 위한 장치 명령을 결정하게 하는
명령을 저장하도록 구조화된, 컴퓨터 판독가능 저장 매체. - 제18항에 있어서,
상기 사용자의 적어도 일부는 상기 사용자의 손 또는 팔뚝을 포함하는 컴퓨터 판독가능 저장 매체. - 제18항에 있어서,
상기 깊이 카메라는 상기 차량 내의 오버헤드 콘솔 내에 설치되어 상기 사용자를 내려다보는, 컴퓨터 판독가능 저장 매체. - 제18항에 있어서,
상기 복수의 장치는 적어도 상기 차량 내의 내비게이션 시스템과 오락 시스템을 포함하는, 컴퓨터 판독가능 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/524,351 US9092394B2 (en) | 2012-06-15 | 2012-06-15 | Depth based context identification |
US13/524,351 | 2012-06-15 | ||
PCT/US2013/036654 WO2013188002A1 (en) | 2012-06-15 | 2013-04-15 | Depth based context identification |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150044874A KR20150044874A (ko) | 2015-04-27 |
KR102061925B1 true KR102061925B1 (ko) | 2020-01-02 |
Family
ID=49756700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157001026A KR102061925B1 (ko) | 2012-06-15 | 2013-04-15 | 깊이 기반 콘텍스트 식별 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9092394B2 (ko) |
EP (1) | EP2862125B1 (ko) |
JP (1) | JP6010692B2 (ko) |
KR (1) | KR102061925B1 (ko) |
CN (1) | CN104620257B (ko) |
IL (1) | IL236089A (ko) |
WO (1) | WO2013188002A1 (ko) |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104040620B (zh) * | 2011-12-29 | 2017-07-14 | 英特尔公司 | 用于进行直接语法存取的装置和方法 |
US20140309876A1 (en) | 2013-04-15 | 2014-10-16 | Flextronics Ap, Llc | Universal vehicle voice command system |
DE102012013503B4 (de) * | 2012-07-06 | 2014-10-09 | Audi Ag | Verfahren und Steuerungssystem zum Betreiben eines Kraftwagens |
EP2909755B1 (en) * | 2012-10-22 | 2019-08-28 | Sony Corporation | User interface with location mapping |
US20140122086A1 (en) * | 2012-10-26 | 2014-05-01 | Microsoft Corporation | Augmenting speech recognition with depth imaging |
US20140379346A1 (en) * | 2013-06-21 | 2014-12-25 | Google Inc. | Video analysis based language model adaptation |
US10038740B2 (en) * | 2013-08-19 | 2018-07-31 | Nant Holdings Ip, Llc | Camera-to-camera interactions, systems and methods |
US9847082B2 (en) * | 2013-08-23 | 2017-12-19 | Honeywell International Inc. | System for modifying speech recognition and beamforming using a depth image |
JP2015153324A (ja) * | 2014-02-18 | 2015-08-24 | 株式会社Nttドコモ | 情報検索装置、情報検索方法及び情報検索プログラム |
WO2015128960A1 (ja) * | 2014-02-26 | 2015-09-03 | 三菱電機株式会社 | 車載制御装置および車載制御方法 |
US9342797B2 (en) | 2014-04-03 | 2016-05-17 | Honda Motor Co., Ltd. | Systems and methods for the detection of implicit gestures |
US10409382B2 (en) | 2014-04-03 | 2019-09-10 | Honda Motor Co., Ltd. | Smart tutorial for gesture control system |
EP3126934B1 (en) * | 2014-04-03 | 2019-12-11 | Honda Motor Co., Ltd. | Systems and methods for the detection of implicit gestures |
US10466657B2 (en) | 2014-04-03 | 2019-11-05 | Honda Motor Co., Ltd. | Systems and methods for global adaptation of an implicit gesture control system |
DE112015003357B4 (de) * | 2014-07-22 | 2021-01-14 | Mitsubishi Electric Corporation | Verfahren und System zum Erkennen einer eine Wortabfolge enthaltenden Sprachansage |
US9881610B2 (en) | 2014-11-13 | 2018-01-30 | International Business Machines Corporation | Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities |
US9626001B2 (en) * | 2014-11-13 | 2017-04-18 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
CN105741312B (zh) * | 2014-12-09 | 2018-04-27 | 株式会社理光 | 目标对象跟踪方法和设备 |
US9811312B2 (en) * | 2014-12-22 | 2017-11-07 | Intel Corporation | Connected device voice command support |
WO2016103809A1 (ja) * | 2014-12-25 | 2016-06-30 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP2016218852A (ja) * | 2015-05-22 | 2016-12-22 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
US10008201B2 (en) * | 2015-09-28 | 2018-06-26 | GM Global Technology Operations LLC | Streamlined navigational speech recognition |
US10692126B2 (en) | 2015-11-17 | 2020-06-23 | Nio Usa, Inc. | Network-based system for selling and servicing cars |
US20170176207A1 (en) * | 2015-12-17 | 2017-06-22 | Jaguar Land Rover Limited | In vehicle system and method for providing information regarding points of interest |
US10166995B2 (en) * | 2016-01-08 | 2019-01-01 | Ford Global Technologies, Llc | System and method for feature activation via gesture recognition and voice command |
CN105957521B (zh) * | 2016-02-29 | 2020-07-10 | 青岛克路德机器人有限公司 | 一种用于机器人的语音和图像复合交互执行方法及系统 |
JP6930531B2 (ja) * | 2016-04-11 | 2021-09-01 | ソニーグループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN109074819B (zh) * | 2016-04-29 | 2023-05-16 | 维塔驰有限公司 | 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备 |
US20180012197A1 (en) | 2016-07-07 | 2018-01-11 | NextEv USA, Inc. | Battery exchange licensing program based on state of charge of battery pack |
US9928734B2 (en) | 2016-08-02 | 2018-03-27 | Nio Usa, Inc. | Vehicle-to-pedestrian communication systems |
CN106373568A (zh) * | 2016-08-30 | 2017-02-01 | 深圳市元征科技股份有限公司 | 智能车载单元控制方法和装置 |
WO2018061743A1 (ja) * | 2016-09-28 | 2018-04-05 | コニカミノルタ株式会社 | ウェアラブル端末 |
US10241584B2 (en) * | 2016-09-28 | 2019-03-26 | Lenovo (Singapore) Pte. Ltd. | Gesture detection |
US11024160B2 (en) | 2016-11-07 | 2021-06-01 | Nio Usa, Inc. | Feedback performance control and tracking |
US10694357B2 (en) | 2016-11-11 | 2020-06-23 | Nio Usa, Inc. | Using vehicle sensor data to monitor pedestrian health |
US10410064B2 (en) | 2016-11-11 | 2019-09-10 | Nio Usa, Inc. | System for tracking and identifying vehicles and pedestrians |
US10708547B2 (en) | 2016-11-11 | 2020-07-07 | Nio Usa, Inc. | Using vehicle sensor data to monitor environmental and geologic conditions |
US10699305B2 (en) | 2016-11-21 | 2020-06-30 | Nio Usa, Inc. | Smart refill assistant for electric vehicles |
US10249104B2 (en) | 2016-12-06 | 2019-04-02 | Nio Usa, Inc. | Lease observation and event recording |
US10074223B2 (en) | 2017-01-13 | 2018-09-11 | Nio Usa, Inc. | Secured vehicle for user use only |
US10471829B2 (en) | 2017-01-16 | 2019-11-12 | Nio Usa, Inc. | Self-destruct zone and autonomous vehicle navigation |
US10031521B1 (en) | 2017-01-16 | 2018-07-24 | Nio Usa, Inc. | Method and system for using weather information in operation of autonomous vehicles |
US9984572B1 (en) | 2017-01-16 | 2018-05-29 | Nio Usa, Inc. | Method and system for sharing parking space availability among autonomous vehicles |
US10464530B2 (en) | 2017-01-17 | 2019-11-05 | Nio Usa, Inc. | Voice biometric pre-purchase enrollment for autonomous vehicles |
US10286915B2 (en) | 2017-01-17 | 2019-05-14 | Nio Usa, Inc. | Machine learning for personalized driving |
US10897469B2 (en) | 2017-02-02 | 2021-01-19 | Nio Usa, Inc. | System and method for firewalls between vehicle networks |
US10234302B2 (en) | 2017-06-27 | 2019-03-19 | Nio Usa, Inc. | Adaptive route and motion planning based on learned external and internal vehicle environment |
US10710633B2 (en) | 2017-07-14 | 2020-07-14 | Nio Usa, Inc. | Control of complex parking maneuvers and autonomous fuel replenishment of driverless vehicles |
US10369974B2 (en) | 2017-07-14 | 2019-08-06 | Nio Usa, Inc. | Control and coordination of driverless fuel replenishment for autonomous vehicles |
US10837790B2 (en) | 2017-08-01 | 2020-11-17 | Nio Usa, Inc. | Productive and accident-free driving modes for a vehicle |
US10635109B2 (en) | 2017-10-17 | 2020-04-28 | Nio Usa, Inc. | Vehicle path-planner monitor and controller |
US10606274B2 (en) | 2017-10-30 | 2020-03-31 | Nio Usa, Inc. | Visual place recognition based self-localization for autonomous vehicles |
US10935978B2 (en) | 2017-10-30 | 2021-03-02 | Nio Usa, Inc. | Vehicle self-localization using particle filters and visual odometry |
US10717412B2 (en) | 2017-11-13 | 2020-07-21 | Nio Usa, Inc. | System and method for controlling a vehicle using secondary access methods |
JP2019128374A (ja) * | 2018-01-22 | 2019-08-01 | トヨタ自動車株式会社 | 情報処理装置、及び情報処理方法 |
JP2019191946A (ja) * | 2018-04-25 | 2019-10-31 | パイオニア株式会社 | 情報処理装置 |
US10872604B2 (en) | 2018-05-17 | 2020-12-22 | Qualcomm Incorporated | User experience evaluation |
US10369966B1 (en) | 2018-05-23 | 2019-08-06 | Nio Usa, Inc. | Controlling access to a vehicle using wireless access devices |
KR102653009B1 (ko) | 2018-10-11 | 2024-04-01 | 에스케이하이닉스 주식회사 | 스토리지 디바이스 쿨링 시스템 및 이를 포함하는 스마트 자동차 |
WO2021029457A1 (ko) * | 2019-08-13 | 2021-02-18 | 엘지전자 주식회사 | 사용자에게 정보를 제공하는 인공 지능 서버 및 그 방법 |
CN110727410A (zh) * | 2019-09-04 | 2020-01-24 | 上海博泰悦臻电子设备制造有限公司 | 人机交互方法、终端及计算机可读存储介质 |
CN110730115B (zh) * | 2019-09-11 | 2021-11-09 | 北京小米移动软件有限公司 | 语音控制方法及装置、终端、存储介质 |
US11873000B2 (en) | 2020-02-18 | 2024-01-16 | Toyota Motor North America, Inc. | Gesture detection for transport control |
DE102021129535A1 (de) * | 2021-11-12 | 2023-05-17 | Ford Global Technologies, Llc | System und Verfahren zum Steuern von autonom steuerbaren Fahrzeugfunktionen eines mit Partnersubjekten kooperierenden autonomen Fahrzeugs, Computerprogrammprodukt, computerlesbarer Datenträger und Fahrzeug |
DE102022103066A1 (de) | 2022-02-09 | 2023-08-10 | Cariad Se | Verfahren zum Bereitstellen einer geografisch verorteten elektronischen Erinnerungsnotiz in einem Kraftfahrzeug |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050134117A1 (en) | 2003-12-17 | 2005-06-23 | Takafumi Ito | Interface for car-mounted devices |
US20090150160A1 (en) | 2007-10-05 | 2009-06-11 | Sensory, Incorporated | Systems and methods of performing speech recognition using gestures |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131437A (ja) | 1992-10-20 | 1994-05-13 | Hitachi Ltd | 複合形態による操作指示方法 |
US6243683B1 (en) | 1998-12-29 | 2001-06-05 | Intel Corporation | Video control of speech recognition |
US7920102B2 (en) | 1999-12-15 | 2011-04-05 | Automotive Technologies International, Inc. | Vehicular heads-up display system |
US6624833B1 (en) | 2000-04-17 | 2003-09-23 | Lucent Technologies Inc. | Gesture-based input interface system with shadow detection |
US6804396B2 (en) | 2001-03-28 | 2004-10-12 | Honda Giken Kogyo Kabushiki Kaisha | Gesture recognition system |
JP4363076B2 (ja) * | 2002-06-28 | 2009-11-11 | 株式会社デンソー | 音声制御装置 |
KR100575906B1 (ko) * | 2002-10-25 | 2006-05-02 | 미츠비시 후소 트럭 앤드 버스 코포레이션 | 핸드 패턴 스위치 장치 |
AU2003291320A1 (en) | 2002-11-05 | 2004-06-07 | Disney Enterprises, Inc. | Video actuated interactive environment |
US7665041B2 (en) | 2003-03-25 | 2010-02-16 | Microsoft Corporation | Architecture for controlling a computer using hand gestures |
US8745541B2 (en) * | 2003-03-25 | 2014-06-03 | Microsoft Corporation | Architecture for controlling a computer using hand gestures |
CN1816792A (zh) | 2003-07-02 | 2006-08-09 | 新世代株式会社 | 信息处理装置、信息处理系统、操作物、信息处理方法、信息处理程序以及游戏系统 |
DE60318430T2 (de) * | 2003-08-14 | 2009-01-02 | Harman Becker Automotive Systems Gmbh | Computergestütztes System und Verfahren zur Informationsausgabe an einen Fahrer eines Fahrzeuges |
US7295904B2 (en) * | 2004-08-31 | 2007-11-13 | International Business Machines Corporation | Touch gesture based interface for motor vehicle |
JP2007121576A (ja) * | 2005-10-26 | 2007-05-17 | Matsushita Electric Works Ltd | 音声操作装置 |
US20090278915A1 (en) | 2006-02-08 | 2009-11-12 | Oblong Industries, Inc. | Gesture-Based Control System For Vehicle Interfaces |
JP2007237785A (ja) * | 2006-03-06 | 2007-09-20 | National Univ Corp Shizuoka Univ | 車載用情報提示システム |
JP2008045962A (ja) * | 2006-08-14 | 2008-02-28 | Nissan Motor Co Ltd | 車両用のナビゲーション装置 |
JP2008145676A (ja) * | 2006-12-08 | 2008-06-26 | Denso Corp | 音声認識装置及び車両ナビゲーション装置 |
JP2009025715A (ja) * | 2007-07-23 | 2009-02-05 | Xanavi Informatics Corp | 車載装置および音声認識方法 |
DE102008051757A1 (de) * | 2007-11-12 | 2009-05-14 | Volkswagen Ag | Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen |
JP4609527B2 (ja) | 2008-06-03 | 2011-01-12 | 株式会社デンソー | 自動車用情報提供システム |
US20110115702A1 (en) * | 2008-07-08 | 2011-05-19 | David Seaberg | Process for Providing and Editing Instructions, Data, Data Structures, and Algorithms in a Computer System |
US20100057781A1 (en) * | 2008-08-27 | 2010-03-04 | Alpine Electronics, Inc. | Media identification system and method |
EP2219097A1 (en) | 2009-02-13 | 2010-08-18 | Ecole Polytechnique Federale De Lausanne (Epfl) | Man-machine interface method executed by an interactive device |
US20100274480A1 (en) | 2009-04-27 | 2010-10-28 | Gm Global Technology Operations, Inc. | Gesture actuated point of interest information systems and methods |
US9377857B2 (en) | 2009-05-01 | 2016-06-28 | Microsoft Technology Licensing, Llc | Show body position |
US9047256B2 (en) * | 2009-12-30 | 2015-06-02 | Iheartmedia Management Services, Inc. | System and method for monitoring audience in response to signage |
US8296151B2 (en) * | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US8836638B2 (en) * | 2010-09-25 | 2014-09-16 | Hewlett-Packard Development Company, L.P. | Silent speech based command to a computing device |
US8817087B2 (en) | 2010-11-01 | 2014-08-26 | Robert Bosch Gmbh | Robust video-based handwriting and gesture recognition for in-car applications |
US9823742B2 (en) * | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
-
2012
- 2012-06-15 US US13/524,351 patent/US9092394B2/en active Active
-
2013
- 2013-04-15 EP EP13804195.9A patent/EP2862125B1/en active Active
- 2013-04-15 WO PCT/US2013/036654 patent/WO2013188002A1/en active Application Filing
- 2013-04-15 KR KR1020157001026A patent/KR102061925B1/ko active IP Right Grant
- 2013-04-15 JP JP2015517255A patent/JP6010692B2/ja active Active
- 2013-04-15 CN CN201380030981.8A patent/CN104620257B/zh active Active
-
2014
- 2014-12-04 IL IL236089A patent/IL236089A/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050134117A1 (en) | 2003-12-17 | 2005-06-23 | Takafumi Ito | Interface for car-mounted devices |
US20090150160A1 (en) | 2007-10-05 | 2009-06-11 | Sensory, Incorporated | Systems and methods of performing speech recognition using gestures |
Also Published As
Publication number | Publication date |
---|---|
CN104620257B (zh) | 2017-12-12 |
WO2013188002A1 (en) | 2013-12-19 |
JP6010692B2 (ja) | 2016-10-19 |
IL236089A0 (en) | 2015-02-01 |
CN104620257A (zh) | 2015-05-13 |
EP2862125A4 (en) | 2016-01-13 |
EP2862125B1 (en) | 2017-02-22 |
US20130339027A1 (en) | 2013-12-19 |
EP2862125A1 (en) | 2015-04-22 |
US9092394B2 (en) | 2015-07-28 |
JP2015526753A (ja) | 2015-09-10 |
IL236089A (en) | 2016-02-29 |
KR20150044874A (ko) | 2015-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102061925B1 (ko) | 깊이 기반 콘텍스트 식별 | |
US10381003B2 (en) | Voice acquisition system and voice acquisition method | |
CN102023703B (zh) | 组合唇读与语音识别的多模式界面系统 | |
US9679557B2 (en) | Computer-implemented method for automatic training of a dialogue system, and dialogue system for generating semantic annotations | |
US20180033429A1 (en) | Extendable vehicle system | |
CN107851437B (zh) | 语音操作系统、服务器装置、车载设备和语音操作方法 | |
US20190057696A1 (en) | Information processing apparatus, information processing method, and program | |
US20190120649A1 (en) | Dialogue system, vehicle including the dialogue system, and accident information processing method | |
JP6604151B2 (ja) | 音声認識制御システム | |
US11176948B2 (en) | Agent device, agent presentation method, and storage medium | |
US10655981B2 (en) | Method for updating parking area information in a navigation system and navigation system | |
JP2017090613A (ja) | 音声認識制御システム | |
US20200111489A1 (en) | Agent device, agent presenting method, and storage medium | |
US11810575B2 (en) | Artificial intelligence robot for providing voice recognition function and method of operating the same | |
CN114175114A (zh) | 从自动驾驶车辆内部识别兴趣点的系统和方法 | |
JP6385624B2 (ja) | 車載情報処理装置、車載装置および車載情報処理方法 | |
JP7556202B2 (ja) | 音声認識方法及び音声認識装置 | |
JP2018144534A (ja) | 運転支援システムおよび運転支援方法並びに運転支援プログラム | |
KR20190074344A (ko) | 대화 시스템 및 대화 처리 방법 | |
JP4938719B2 (ja) | 車載情報システム | |
US11464380B2 (en) | Artificial intelligence cleaner and operating method thereof | |
US20150192425A1 (en) | Facility search apparatus and facility search method | |
KR20100062413A (ko) | 텔레매틱스 장치를 위한 음성인식 장치 및 그 방법 | |
US20240037956A1 (en) | Data processing system, data processing method, and information providing system | |
US20230326348A1 (en) | Control system, control method, and storage medium for storing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |