KR101749143B1 - 탑승자 오디오 및 시각적 입력의 차량 기반 결정 - Google Patents

탑승자 오디오 및 시각적 입력의 차량 기반 결정 Download PDF

Info

Publication number
KR101749143B1
KR101749143B1 KR1020147017764A KR20147017764A KR101749143B1 KR 101749143 B1 KR101749143 B1 KR 101749143B1 KR 1020147017764 A KR1020147017764 A KR 1020147017764A KR 20147017764 A KR20147017764 A KR 20147017764A KR 101749143 B1 KR101749143 B1 KR 101749143B1
Authority
KR
South Korea
Prior art keywords
vehicle
occupants
speech recognition
audio data
received
Prior art date
Application number
KR1020147017764A
Other languages
English (en)
Other versions
KR20140104461A (ko
Inventor
펭 왕
이민 장
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Publication of KR20140104461A publication Critical patent/KR20140104461A/ko
Application granted granted Critical
Publication of KR101749143B1 publication Critical patent/KR101749143B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Abstract

차량의 하나 이상의 탑승자로부터 오디오 데이터 및 비주얼 데이터를 수신하기 위한 동작들을 포함하는 시스템, 장치, 물품 및 방법이 기술된다. 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 차량의 하나 이상의 탑승자 중 누가 수신된 오디오 데이터와 연관되는지에 관한 결정이 수행될 수 있다.

Description

탑승자 오디오 및 시각적 입력의 차량 기반 결정{VEHICLE BASED DETERMINATION OF OCCUPANT AUDIO AND VISUAL INPUT}
때때로 음성 제어 시스템들(voice-control systems)은 오프라인 트레이닝 및 온라인 인식을 갖는 통계 기반 알고리즘들을 따른다. 학계 및 산업계 둘다에 있어서, 화자 인식(speaker recognition)(예를 들면, 누가 이야기하는지) 및 스피치 인식(speech recognition)(예를 들면, 무엇이 이야기되고 있는지)이 2개의 활발한 주제였다. 전형적으로, 음성 인식은 화자 인식과 스피치 인식의 조합으로서 이해된다. 음성 인식은 무엇이 이야기되고 있는지를 결정하기 위해 화자의 음성의 학습된 양상들을 이용할 수 있다. 예를 들어, 몇몇 음성 인식 시스템들은 임의적인 화자들로부터의 스피치를 매우 정확하게 인식할 수 없지만, 음성 인식 시스템이 트레이닝한 개별적인 음성들에 대해서는 높은 정확성에 도달할 수 있다.
오디오-비주얼 스피치 인식이 수 십년 동안 학계에서 연구되어 왔다. 일반적인 오디오-비주얼 스피치 인식은 안면 검출, 트랙킹; 안면 특징 로케이션; 비주얼 스피치에 대한 안면 특징 표현; 스피치의 오디오 및 비주얼 표현들의 결합으로 구성된다.
전형적으로, IVI(In-Vehicle-Infotainment) 시스템들(예를 들면, OnStar, SYNC 및 Nuance)에 대한 현존하는 스피치 제어 시스템들은 스피치 인식을 위해 음향 신호 처리 기법들에 의존한다. IVI에 대한 현존하는 스피치 제어 시스템들은 음성 인식을 위한 비주얼 신호 처리 기법들을 도입하지 않았다.
본 명세서에 개시된 내용은 첨부 도면들에서, 제한적인 것이 아닌, 예시로써 도시된다. 예시의 간략성 및 명료성을 위해, 도면들에 도시된 요소들이 실제 축적으로 도시될 필요는 없다. 예를 들어, 몇몇 요소들의 치수는 명료성을 위해, 다른 요소들에 대하여 과장될 수 있다. 더욱이, 적절한 것으로 고려되는 경우, 대응하거나 또는 유사한 요소들을 나타내기 위해, 참조 라벨들이 도면들 사이에서 반복된다.
도 1은 예시적인 IVI 시스템의 예시적인 도면이다.
도 2는 예시적인 음성 인식 프로세스를 도시하는 흐름도이다.
도 3은 예시적인 IVI의 동작시의 예시적인 도면이다.
도 4는 립 트랙킹(lip tracking) 동안 처리된 몇 개의 예시적인 이미지들을 도시한다.
도 5는 예시적인 시스템의 예시적인 도면이다.
도 6은 본 개시 내용의 적어도 일부 구현들에 따라 모두 배열되는 예시적인 시스템의 예시적인 도면이다.
이제, 첨부된 도면들을 참조하여, 하나 이상의 실시예 또는 구현이 기술된다. 특정한 구성들 및 배열들이 기술되지만, 이것은 단지 예시를 위한 목적으로 행해진 것임을 이해해야 한다. 관련 기술 분야의 당업자라면, 본 개시 내용의 사상 및 영역을 벗어나지 않고서도 다른 구성들 및 배열들이 이용될 수 있음을 알 것이다. 관련 기술 분야의 당업자라면, 본 명세서에서 설명된 기술들 및/또는 배열들은, 본 명세서에서 설명된 것이 아닌 다양한 다른 시스템들 및 애플리케이션들에서도 이용될 수 있음을 명백히 알 것이다.
이하의 설명은 예를 들면, SoC(system-on-a-chip) 아키텍쳐와 같은 아키텍쳐들에서 명백하게 나타날 수 있는 다양한 구현들을 개시하지만, 본 명세서에서 설명된 기술들 및/또는 배열들은 특정한 아키텍쳐들 및/또는 컴퓨팅 시스템들로 한정되지 않으며, 유사한 목적을 위한 임의의 아키텍쳐 및/또는 컴퓨팅 시스템에 의해 구현될 수 있다. 예컨대, 다수의 집적 회로(IC) 칩 및/또는 패키지, 및/또는 다양한 컴퓨팅 디바이스 및/또는 셋탑 박스, 스마트폰 등과 같은 소비자 전자(CE) 장치들을 이용하는 다양한 아키텍쳐들은 본 명세서에서 설명된 기술들 및/또는 배열들을 구현할 수 있다. 더욱이, 이하의 설명은 시스템 구성요소들의 로직 구현들, 타입들 및 상호관계들, 로직 분할/통합 선택 등과 같은 많은 특정 세부사항들을 개시할 수 있지만, 청구된 주된 내용은 그러한 특정 세부사항들없이도 실시될 수 있다. 다른 경우들에 있어서, 예를 들면, 제어 구조들 및 전체 소프트웨어 인스트럭션 시퀀스들과 같은 몇몇 내용은 본 명세서에서 개시된 내용을 불명료하게 하지 않도록 세부적으로 도시되지 않을 수 있다.
본 명세서에서 개시된 내용은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 본 명세서에서 개시된 내용은 머신 판독가능 저장 매체 상에 저장되는, 하나 이상의 프로세서에 의해 판독 및 실행될 수 있는 인스트럭션들로서 구현될 수도 있다. 머신 판독가능 저장 매체는 정보를 머신(예를 들면, 컴퓨팅 디바이스)에 의해 판독가능한 형태로 저장하기 위한 임의의 매체 및/또는 메카니즘을 포함할 수 있다. 예를 들어, 머신 판독가능 저장 매체는 ROM(read only memory); RAM(random access memory); 자기 디스크 저장 매체; 광학 저장 매체; 플래시 메모리 디바이스들 등을 포함할 수 있다.
명세서에서의 "하나의 구현", "구현", "예시적인 구현" 등에 대한 참조들은, 기술된 구현이 특정한 특징, 구조 또는 특성을 포함할 수 있지만, 모든 구현이 특정한 특징, 구조 또는 특성을 포함할 필요는 없음을 나타낸다. 더욱이, 그러한 문구들이 동일한 구현을 나타낼 필요는 없다. 더욱이, 특정한 특징, 구조 또는 특성이 구현과 관련되어 기술될 때, 그것은 본 명세서에서 명시적으로 기술되었는지의 여부와는 관계없이 그러한 특징, 구조 또는 특성이 다른 구현들과 관련되어 실시될 수 있도록 본 기술분야의 당업자의 지식 내에 있는 것이다.
차량의 하나 이상의 탑승자로부터 오디오 데이터 및 비주얼 데이터를 수신하기 위한 동작들을 포함하는 시스템, 장치, 물품 및 방법이 이하에 기술된다. 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 차량의 하나 이상의 탑승자 중 누가 수신된 오디오 데이터와 연관되는지에 관한 결정이 수행될 수 있다. 몇몇 예에서, IVI 시스템들에서의 지능형 음성 제어를 위해 립 검출 및 트랙킹(lip detection and tracking)이 구현될 수 있다.
몇몇 IVI 시스템들은 작은 수의 미리정의된 어휘(vocabulary)에 기초하여 스피치 기반 인식 제어를 수행할 수 있다. 때때로 차량내(In-vehicle) 스피치 인식 시스템들은 도전 과제들을 갖는데, 예를 들어, 때때로 차량내 스피치 인식 시스템들은 5 내지 20 데시벨 범위의 신호대 잡음비를 갖는 잡음 환경을 갖는다. 추가적으로, 때때로 차량내 스피치 인식 시스템들은 화자로부터 30 내지 100 cm에 장착된 저비용 마이크로폰들을 또한 갖는다.
보다 자연스러운 사용자 인터페이스는 보다 자연스럽고 및/또는 보다 강건한 언어 처리 기술을 이용할 수 있다. 예를 들어, 몇몇 예시적인 구현에서, IVI 시스템은 잡음-강건(noise-robust) 음성 인식 시스템을 개선하기 위해 화자의 비주얼 데이터를 추출할 수 있다. 예컨대, 하나보다 많은 사용자가 음성 코맨드들을 이야기할 때, IVI 시스템이 어느 화자가 이야기하고 있는지를 판별하고, 사용자 특정 스피치 인식기에 적응하는 것이 유용할 수 있다. 유사하게, 드라이버가 음성 코맨드를 생성할 때, 무선 장치 볼륨이 자동으로 낮추어져서, 배경 잡음이 덜 발생되게 하는 것이 유용할 수 있다.
이하에 보다 상세히 기술되는 바와 같이, 몇몇 예시적인 구현들은 화자 인식(예를 들면, 화자 변경 검출)을 위해서, 및 적응적 사용자 특정 음성 인식을 위해 립 검출 및 트랙킹을 이용할 수 있다. 그러한 오디오-비주얼 음성 인식 시스템에서, 립 판독(lip reading)은 립 윤곽 검출 및/또는 트랙킹의 정확성에 의존할 수 있다. 유사하게, 정확한 립 검출도 마찬가지로 안면 검출의 강건성에 의존할 수 있다.
본 명세서에서 이용된 바와 같이, "화자 인식" 이라는 용어는 이야기하고 있는 사람의 인식을 지칭할 수 있다. 본 명세서에서 이용된 바와 같이, "스피치 인식" 이라는 용어는 이야기되고 있는 것의 인식을 지칭할 수 있다. 본 명세서에서 이용된 바와 같이, "음성 인식" 이라는 용어는 이야기하고 있는 사람의 인식에 적어도 부분적으로 기초한 이야기되고 있는 것의 인식, 즉, 화자 인식과 스피치 인식의 조합으로서의 인식을 지칭할 수 있다. 오디오-비주얼 음성 제어는 계산적으로 비용이 많이 소요되지만, 단지 스피치 인식에 의한 것보다는 더 높은 정확성을 제공할 수 있다.
도 1은 본 개시 내용의 적어도 몇몇 구현들에 따라 배열된 예시적인 IVI 시스템(100)의 예시 도면이다. 예시된 구현에서, IVI 시스템(100)은 이미징 디바이스(104) 및 마이크로폰 디바이스(106)를 포함할 수 있다. IVI 시스템(100)은 차량(108)과 동작가능하게 관련될 수 있다. 예를 들어, IVI 시스템(100)은 차량(108) 내에 위치될 수 있다. 몇몇 예에서, IVI 시스템(100)은 명료성을 위해 도 1에 도시되지 않은 추가적인 항목들을 포함할 수 있다. 예를 들어, IVI 시스템(100)은 프로세서, 무선 주파수-타입(radio frequency-type; RF) 트랜시버, 및/또는 안테나를 포함할 수 있다. 더욱이, IVI 시스템(100)은 명료성을 위해 도 1에 도시되지 않은 스피커(speaker), 디스플레이, 가속도계, 메모리, 라우터, 네트워크 인터페이스 로직 등과 같은 추가적인 항목들을 포함할 수 있다.
본 명세서에서 이용된 바와 같이, "IVI(In-Vehicle-Infotainment)" 라는 용어는 차량들 내에 위치되어, 엔터테인먼트 및/또는 정보제공 서비스들을 수행하도록 구성되는 시스템들을 지칭할 수 있다. 몇몇 예에서, IVI는 턴-바이-턴 네비게이션(turn-by-turn navigation), 핸즈 프리 콜(hands-free calling), 차량 진단(vehicle diagnostics), 비상 서비스, 911 도움, 음악 검색, 가청 텍스트 메시지(audible text message), 비지니스 검색, 관심 지점 웹 검색(point-of-interest web search), 음성-텍스트 메시징(voice to text messaging), 무선 청구(wireless charging), 원격 모니터링 등, 및/또는 이들의 조합들을 지칭할 수 있다. 위에서의 애플리케이션들 중에서, 본 명세서에서 설명된 음성 인식 기술들을 이용할 수 있는 사용자 인터페이스 특징들의 보다 특정적인 몇몇 예들은, 스마트폰 애플리케이션들의 음성 제어, 음성 활성 네비게이션 시스템, 음성 제어와 터치 스크린 액세스의 조합, 음성 코맨드들, 블루투스 기반 음성 통신 애플리케이션들, 음성 기반 페이스북 애플리케이션들, 운전중의 음성 기반 텍스트 메시지, 대화형 음성 응답 등, 및/또는 이들의 조합을 포함할 수 있다.
이미징 디바이스(104)는 차량(108)의 하나 이상의 탑승자들(110)로부터의 비주얼 데이터를 캡쳐하도록 구성될 수 있다. 예를 들어, 이미징 디바이스(104)는 드라이버(112), 앞 좌석 승객(114), 하나 이상의 뒷 좌석 승객(116) 등, 및/또는 이들의 조합들로부터 비주얼 데이터를 캡쳐하도록 구성될 수 있다.
몇몇 예에서, 제1 사용자의 비주얼 데이터는, 이야기하고 있는 사람의 위치 결정을 위해 RGB(red-green-blue) 깊이 카메라(depth camera) 및/또는 마이크로폰-어레이를 이용하지 않고, 카메라 센서 등(예를 들면, CMOS(complementary metal-oxide-semiconductor-type) 이미지 센서 또는 CCD(charge-coupled device-type) 이미지 센서)을 통해 캡쳐될 수 있다. 다른 예들에서, RGB 깊이 카메라 및/또는 마이크로폰-어레이는, 카메라 센서에 추가하여 또는 카메라 센서를 대체하여 이용될 수 있다.
때때로 차량들은 제약이 있는 환경을 가지므로, 탑승자들의 활동 및 동작은 전형적으로 제한된다. 특히, 전형적으로 탑승자들은 좌석에 앉고, 탑승자들은 코맨드를 생성할 때 통상적으로 대시보드를 향하게 된다. 따라서, 이미징 디바이스(104)는 백미러(rearview mirror) 위치에 장착된 카메라 센서를 포함할 수 있다. 그러한 예에서, 백미러 장착 카메라 센서는 차량에서의 모든 탑승자들의 뷰를 캡쳐할 수 있다.
마이크로폰 디바이스(106)는 하나 이상의 탑승자(110)로부터의 오디오 데이터를 캡쳐하도록 구성될 수 있다. 몇몇 예에서, 제1 사용자의 비주얼 데이터는, 이야기하고 있는 사람의 위치 결정을 위해 RGB 깊이 카메라 및/또는 마이크로폰-어레이를 이용하지 않고서 캡쳐될 수 있다. 다른 예들에서, RGB 깊이 카메라 및/또는 마이크로폰-어레이는 카메라 센서에 추가하여 또는 카메라 센서를 대체하여 이용될 수 있다.
이하에 보다 상세히 기술되는 바와 같이, IVI 시스템(100)은 도 2 및/또는 3과 관련하여 이하에 기술된 다양한 기능들의 일부 또는 전부를 수행하는데 이용될 수 있다. 예를 들어, IVI 시스템(100)은 차량(108)의 하나 이상의 탑승자(110)로부터의 이미징 디바이스(104)로부터 비주얼 데이터 및/또는 마이크로폰 디바이스(106)로부터의 오디오 데이터를 수신할 수 있다. 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 차량(108)의 하나 이상의 탑승자(110) 중 누가 수신된 오디오 데이터와 연관되는지에 관한 결정이 수행될 수 있다.
동작시에, IVI 시스템(100)은 사용자 구두 입력(user verbal input)들에 대한 스마트 및 컨택스트 인지 응답들을 이용할 수 있다. 오디오 및 비주얼 입력들은 마이크로폰 디바이스(106) 및 이미징 디바이스(104)에 의해 각각 캡쳐될 수 있다. 오디오 및 비주얼 데이터를 결합함으로써, IVI 시스템(100)은 차량 내에 있거나 또는 다른 제약된 환경에서와 같은 제약된 환경에서 하나의 승객을 다른 승객들로부터 구별할 수 있다. 따라서, IVI 시스템(100)은 비주얼 정보 처리 기술들을 행함으로써 IVI 시스템들에서의 스마트 및 강건한 음성 제어를 수행할 수 있다.
도 2는 본 개시 내용의 적어도 일부 구현에 따라 배열된 예시적인 음성 인식 프로세스(200)를 도시하는 흐름도이다. 예시된 구현에서, 프로세스(200)는 블록들(202, 204 및/또는 206) 중 하나 이상에 의해 예시된 바와 같은 하나 이상의 동작들, 기능들 또는 작용들을 포함할 수 있다. 비제한적인 예로써, 프로세스(200)는 본 명세서에서 도 1의 예시적인 IVI 시스템(100)을 참조하여 기술될 것이다.
프로세스(200)는 블록(202)(오디오 데이터 수신)에서 시작될 수 있으며, 여기서 오디오 데이터가 수신될 수 있다. 예를 들어, 수신된 오디오 데이터는 차량의 하나 이상의 탑승자로부터의 구두 입력(spoken input)을 포함할 수 있다.
처리는 동작(202)으로부터 동작(204)(비주얼 데이터 수신)으로 계속되며, 여기서 비주얼 데이터가 수신될 수 있다. 예를 들어, 수신된 비주얼 데이터는 차량의 하나 이상의 탑승자의 비디오를 포함할 수 있다.
처리는 동작(204)으로부터 동작(206)(차량의 하나 이상의 탑승자 중 누가 수신된 오디오 데이터와 연관되는지를 결정)으로 계속될 수 있으며, 여기서 차량의 하나 이상의 탑승자 중 누가 수신된 오디오 데이터와 연관되는지 결정될 수 있다. 예를 들어, 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 차량의 하나 이상의 탑승자 중 누가 수신된 오디오 데이터와 연관되는지 결정될 수 있다.
동작시에, 프로세스(200)는 사용자 구두 입력들에 대한 스마트 및 컨텍스트 인지 응답들을 이용할 수 있다. 오디오 및 비주얼 데이터를 결합함으로써, 프로세스(200)는 차량 내에 있거나 또는 다른 제약된 환경과 같은 제약된 환경에서 하나의 승객을 다른 승객들로부터 구별할 수 있다. 따라서, 프로세스(200)는 비주얼 정보 처리 기술들을 행함으로써 IVI 시스템들에서의 스마트 및 강건한 음성 제어를 수행할 수 있다.
프로세스(200)와 관련된 몇몇 추가적인 및/또는 대안적인 세부사항들이, 도 3에 대하여 이하에 보다 상세히 기술된 구현들의 하나 이상의 예에서 예시될 수 있다.
도 3은 본 개시 내용의 적어도 몇몇 구현들에 따라 배열된 예시적인 IVI(100) 및 음성 인식 프로세스(300)의 동작시의 예시 도면이다. 예시된 구현에서, 프로세스(300)는 하나 이상의 작용들(310, 311, 312, 314, 316, 318, 320, 322, 324, 326 및/또는 328) 중 하나 이상에 의해 도시된 바와 같은 하나 이상의 동작, 기능 또는 작용을 포함할 수 있다. 비제한적인 예로써, 프로세스(200)는 도 1의 예시적인 IVI 시스템(100)을 참조하여 본 명세서에서 기술될 것이다.
예시적인 구현에서, IVI 시스템(100)은 스피치 인식 모듈(302), 안면 검출 모듈(304), 립 트랙킹 모듈(306), 제어 시스템(108) 등 및/또는 이들의 조합들을 포함할 수 있다. 도시된 바와 같이, 스피치 인식 모듈(302), 안면 검출 모듈(304) 및 립 트랙킹 모듈(306)은 서로 통신하고/하거나, 제어 시스템(308)과 통신할 수 있다. 도 3에 도시된 바와 같은 IVI 시스템(100)은 특정 모듈들과 관련된 작용들 또는 블록들의 하나의 특정 세트를 포함할 수 있지만, 이러한 블록들 또는 작용들은 여기서 예시된 특정 모듈이 아닌 다른 모듈들과 관련될 수 있다.
프로세스(300)는 차량내 잡음들 및/또는 화자 적응 문제들을 다루기 위해 오디오 및 비주얼 처리 기술들을 결합할 수 있는 개선된 음성 제어 방법을 제공할 수 있다. 차량내 잡음들은 엔진, 도로, 자동차 내 엔터테인먼트 사운드 등으로부터 발생된다. 드라이버 또는 승객이 발행하는 코맨드를 인식하기 위한 음향 신호 처리 기술들 이외에, 프로세스(300)는 안면 검출 및 립 트랙킹과 같은 비주얼 정보 처리 기술들을 더 이용할 수 있다. 그러한 비주얼 정보 처리 기술들은 다양한 잡음 환경들 하에서 코맨드 인식의 강건성을 개선시킬 수 있다.
프로세스(300)는 블록(310)(오디오 데이터 수신)에서 시작될 수 있으며, 여기서 오디오 데이터가 수신될 수 있다. 예를 들어, 오디오 데이터는 스피치 인식 모듈(302)을 통해 수신될 수 있다. 오디오 데이터는 차량의 하나 이상의 탑승자로부터의 구두 입력을 포함할 수 있다.
처리는 동작(310)으로부터 동작(311)(스피치 인식 수행)으로 계속될 수 있으며, 여기서 스피치 인식이 수행될 수 있다. 예를 들어, 스피치 인식은 스피치 인식 모듈(302)을 통해 수행될 수 있다. 몇몇 예들에서, 그러한 스피치 인식은 수신된 오디오 데이터에 적어도 부분적으로 기초하여 수행될 수 있다.
오디오 데이터 스트림이 좀처럼 아주 깨끗한 것은 아님을 이해하는 것이 중요하다. 예를 들어, 오디오 데이터 스트림은 스피치 데이터(예를 들면, 이야기되는 것) 뿐만 아니라 배경 잡음들도 포함할 수 있다. 이러한 잡음은 인식 프로세스를 방해할 수 있으며, 스피치 인식 모듈(302)은 오디오가 이야기되고 있는 환경을 처리(및 심지어 그것에 적응)할 수 있다.
스피치 인식 모듈(302)은 처리하기에 다소 복잡한 작업을 갖는데, 미처리 오디오 입력을 취하여, 그것을 애플리케이션이 이해하는 인식된 텍스트로 변환한다. 몇몇 구현들에서, 스피치 인식 모듈(302)은 하나 이상의 언어 문법 모델들 및/또는 음향 모델을 이용하여, 차량의 탑승자들로부터의 오디오 데이터 입력으로부터 인식된 텍스트를 리턴할 수 있다. 예를 들어, 스피치 인식 모듈(302)은 하나 이상의 언어 문법 모델들을 이용하여, 구두 오디오 데이터 입력을 텍스트로 변환할 수 있다. 그러한 언어 문법 모델들은 모든 종류의 데이터, 통계치 및/또는 소프트웨어 알고리즘들을 이용하여, 활성인 문법들에 관해 알려진 단어들 및 문구들을 고려할 수 있다. 유사하게, 환경에 대한 지식이 음향 모델의 형태로 스피치 인식 모듈(302)에 제공된다.
스피치 인식 모듈(302)이 이야기된 것에 대해 가장 근사한 매치(match)를 식별하면, 스피치 인식 모듈(302)은 인식된 것을 초기 텍스트 스트링으로서 리턴할 수 있다. 구두 오디오 데이터가 초기 텍스트 스트링의 적절한 포맷으로 되어 있다면, 스피치 인식 모듈(302)은 출력 텍스트 스트링에 대한 최상의 매치를 검색할 수 있다. 스피치 인식 모듈(302)은 출력 텍스트 스트링에 대한 매치를 찾기 위해 시도할 수 있으며, 매우 관대할 수 있다(예를 들면, 전형적으로 비교적 불량한 품질의 초기 텍스트 스트링에 기초하여 최상의 추측을 제공할 수 있다).
이하에 보다 상세히 기술되는 바와 같이, 차량의 하나 이상의 탑승자 중 누가 수신된 오디오 데이터와 연관되는지에 대한 결정은 몇 가지의 동작을 포함할 수 있다. 도시된 예에서, 그러한 동작들은 립 트랙킹과 함께 안면 검출을 포함할 수 있다.
처리는 동작(311)으로부터 동작(312)(비주얼 데이터 수신)으로 계속될 수 있으며, 여기서 비주얼 데이터가 수신될 수 있다. 예를 들어, 비주얼 데이터는 안면 검출 모듈(304)을 통해 수신될 수 있다. 수신된 비주얼 데이터는 차량의 하나 이상의 탑승자의 비디오를 포함할 수 있다.
처리는 동작(312)으로부터 동작(314)(안면 검출 수행)으로 계속될 수 있으며, 여기서 탑승자의 안면이 검출될 수 있다. 예를 들어, 차량의 하나 이상의 탑승자의 안면은, 비주얼 데이터에 적어도 부분적으로 기초하여 안면 검출 모듈(304)을 통해 검출될 수 있다. 몇몇 예들에서, 그러한 안면 검출은 차량의 하나 이상의 탑승자들을 구별하는데 이용될 수 있다.
몇몇 예들에서, 안면의 검출은 비올라-존스-타입 프레임워크(Viola-Jones-type framework)(예를 들면, Paul Viola, Michael Jones, Rapid Object Detection using a Boosted Cascade of Simple Features, CVPR 2001 및/또는 Yangzhou Du, Qiang Li에 의해, TECHNIQUES FOR FACE DETECTION AND TRACKING 이라는 명칭으로, 2010년 12월 10일에 출원된 PCT/CN2010/000997 참조)에 적어도 부분적으로 기초하여 안면을 검출하는 것을 포함할 수 있다. 그러한 안면 검출 기술들은 상대적인 축적들이 안면 검출, 랜드마크 검출, 안면 정렬, 웃음/깜박임/성별/연령 검출, 안면 인식, 둘 이상의 안면의 검출 등을 포함하도록 허용할 수 있다.
비올라-존스-타입 프레임워크는 실시간 물체 검출을 위한 하나의 방안이다. 트레이닝은 상대적으로 느리지만, 검출은 상대적으로 빠를 수 있다. 그러한 비올라-존스-타입 프레임워크는 고속 특징 평가를 위한 통합 이미지들, 특징 선택을 위한 부스팅, 비안면 윈도우들의 고속 거절을 위한 주의 단계(attentional cascade)를 이용할 수 있다.
예를 들어, 안면 검출은 이미지에 걸쳐 윈도우를 슬라이딩하고, 모든 위치에서 안면 모델을 평가하는 것을 포함할 수 있다. 전형적으로, 안면들은 이미지들에서 드문 것이며, 슬라이딩 윈도우 검출기는 안면 검출 작업 동안 수 만개의 위치/스케일 조합들을 평가할 수 있다. 계산의 효율성을 위해, 비 안면 윈도우들에 대해 가능한 한 적은 시간이 소요될 수 있다. 메가픽셀 이미지는 약 106 픽셀 및 비슷한 수의 후보 안면 위치들을 갖는다. 모든 이미지에서 긍정 오류(false positive)를 갖는 것을 피하기 위해, 긍정 오류 레이트는 텐 투 식스(ten to six) 미만일 수 있다.
처리는 동작(314)으로부터 동작(316)(립 트랙킹 수행)으로 계속될 수 있으며, 여기서 립 트랙킹이 수행될 수 있다. 예를 들어, 차량의 하나 이상이 탑승자의 립 트랙킹이 립 트랙킹 모듈(306)을 통해 수행될 수 있다. 몇몇 예들에서, 립 트랙킹은 수신된 비주얼 데이터 및 수행된 안면 검출에 적어도 부분적으로 기초하여 수행될 수 있다.
립 트랙킹의 하나의 예시적인 구현에 관한 추가적인 세부사항들은, 이하 도 4에서 보다 상세히 기술된다.
처리는 동작(316)으로부터 동작(318)(이야기하고 있는지 결정)으로 계속될 수 있으며, 여기서 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부가 결정될 수 있다. 예를 들어, 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부가, 립 트랙킹 모듈(306)을 통해 결정될 수 있다. 몇몇 예들에서, 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부는, 립 트랙킹에 적어도 부분적으로 기초할 수 있다.
처리는 동작(318)으로부터 동작(320)(볼륨을 낮춤)으로 계속될 수 있으며, 여기서 차량 오디오 출력의 볼륨이 낮추어질 수 있다. 예를 들어, 차량 오디오 출력의 볼륨은 제어 시스템(308)을 통해 낮추어질 수 있다. 몇몇 예들에서, 차량 오디오 출력의 볼륨은, 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부에 대한 결정에 적어도 부분적으로 기초하여 낮추어질 수 있다.
예컨대, 운전시의 엔진 잡음, 오디오 듣기로부터의 배경 음악 교란, 및/또는 다수의 이야기하는 탑승자들은 때때로 스피치 인식의 정확성을 떨어뜨릴 것이다. 오디오 데이터 자체가 음성 제어의 정확성을 개선하는데 도움을 줄 수 없을 때, 비주얼 데이터는 차량 탑승자와 상호 작용하기 위해 IVI 시스템(100)에 대한 상호보완적 신호(complementary cue)일 수 있다. 몇몇 예들에서, 차량 오디오 출력의 볼륨은, 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부에 대한 결정에 적어도 부분적으로 기초하여 낮추어질 수 있다.
처리는 동작(320)으로부터 동작(322)(누가 이야기하고 있는지를 결정)으로 계속될 수 있으며, 여기서 차량의 하나 이상의 탑승자 중 누가 이야기하고 있는지 결정될 수 있다. 예를 들어, 차량의 하나 이상의 탑승자 중 누가 이야기하고 있는지, 립 트랙킹 모듈(306)을 통해 결정될 수 있다. 몇몇 예들에서, 차량의 하나 이상의 탑승자 중 누가 이야기하고 있는지에 대한 그러한 결정은 립 트랙킹에 적어도 부분적으로 기초할 수 있다.
처리는 동작(322)으로부터 동작(324)(화자를 개인 프로파일(individual profile)과 연관시킴)으로 계속될 수 있으며, 여기서 차량의 하나 이상의 탑승자가 개인 프로파일과 연관될 수 있다. 예를 들어, 차량의 하나 이상의 탑승자가, 제어 시스템(306)을 통해, 개인 프로파일과 연관될 수 있다. 몇몇 예들에서, 차량의 하나 이상의 탑승자가 안면 검출에 적어도 부분적으로 기초하여 및 어느 탑승자가 이야기하고 있는지에 대한 결정에 적어도 부분적으로 기초하여 개인 프로파일과 연관될 수 있다.
본 명세서에서 이용된 바와 같이, "개인 프로파일" 이라는 용어는, 탑승자 식별, 제어 시스템 선호도 등과 같은 개별적인 탑승자들과 관련된 제어 정보를 포함할 수 있다. 예를 들어, 제어 시스템(308)은 그러한 개인이 차량 내에서 위치됨을 나타내는 데이터를 수신시에, 또는 그러한 개인이 이야기하고 있거나 또는 코맨드를 전달했다는 데이터 표시를 수신시에, 그러한 개인 프로파일들에 적어도 부분적으로 기초하여 코맨드들에 응답하거나 또는 세팅들을 우선적으로 조절할 수 있다.
예를 들어, 강건한 안면 검출 모듈(304)을 이용하여, IVI 시스템(100)은 이야기하고 있는 사람의 아이덴티티(identity)를 자동으로 구별하고, 그 다음 개인화된 세팅 IVI 시스템(100)을 수행할 수 있다. 몇몇 예들에서, 안면이 검출 및 인식될 때, 제어 시스템(308)은 인식된 탑승자의 아이덴티티에 적어도 부분적으로 기초하여 제어 세팅들을 조절하도록 적응될 수 있다. 추가적으로 또는 대안적으로, 안면이 검출 및 인식될 때, 제어 시스템(308)은 인식된 탑승자의 아이덴티티에 적어도 부분적으로 기초하여 응답을 조절하기 위해 코맨드에 대한 임의의 응답에 적응할 수 있다. 추가적으로, 동작(322)의 누가 이야기하고 있는지의 결정이 제어 시스템(308)에 통신될 수 있다. 그러한 예에서, 안면이 검출 및 인식되고, 그러한 개인이 이야기하고 있다는 결정이 수행될 때, 제어 시스템(308)은 제어 세팅들을 조절하고/하거나 인식된 탑승자의 아이덴티티에 적어도 부분적으로 기초하여 탑승자 코맨드들에 대한 응답을 조절하도록 적응될 수 있다.
처리는 동작(324)으로부터 동작(326)(음성 인식 수행)으로 계속될 수 있으며, 여기서 음성 인식이 수행될 수 있다. 예를 들어, 음성 인식은 스피치 인식 모듈(302)을 통해 수행될 수 있다. 몇몇 예들에서, 음성 인식은 수행된 스피치 인식 및 차량의 하나 이상의 탑승자 중 누가 수신된 오디오 데이터와 연관되는지에 대한 결정에 적어도 부분적으로 기초할 수 있다.
몇몇 예에서, 그러한 음성 인식은 동작(311)의 스피치 인식의 수정(modification)으로서 수행될 수 있다. 대안적으로, 그러한 음성 인식은 독립적으로, 또는 동작(311)의 스피치 인식에 대한 대체로서 수행될 수 있다.
몇몇 예들에서, 안면이 검출 및 인식될 때, 스피치 인식 모듈(302)은 인식된 탑승자의 아이덴티티에 적어도 부분적으로 기초하여 특정 화자 모델에 대해 적응될 수 있다. 예를 들어, 스피치 인식 모듈(302)은 (예컨대, 운전자 및/또는 적은 수의 탑승자들과 같은, 특정 탑승자에 대해 미리 오프라인 트레이닝되는 특정 인식자를 이용하여) 다양한 입력들을 조절하도록 적응될 수 있다. 추가적으로, 동작(322)의 누가 이야기하고 있는지의 결정이 스피치 인식 모듈(302)에 통신될 수 있다. 그러한 예에서, 안면이 검출 및 인식되고, 그러한 개인이 이야기하고 있다는 결정이 수행될 때, 스피치 인식 모듈(302)은 인식된 탑승자의 아이덴티티에 적어도 부분적으로 기초하여 특정 화자 모델에 대해 적응될 수 있다.
처리는 동작(326)으로부터 동작(328)(사용자 코맨드 결정)으로 계속될 수 있으며, 여기서 사용자 코맨드가 결정될 수 있다. 예를 들어, 사용자 코맨드는 제어 시스템(308)을 통해 결정될 수 있다. 사용자 코맨드의 그러한 결정은 수행된 스피치 인식 및/또는 음성 인식에 적어도 부분적으로 기초할 수 있다.
동작시에, IVI 시스템(100)은 사용자 구두 입력들에 대해 스마트 및 컨텍스트 인지 응답들을 이용할 수 있다. 오디오 및 비주얼 데이터 입력들은 마이크로폰 및 카메라에 의해 각각 캡쳐될 수 있다. 오디오 데이터 처리 스레드에서, 스피치 인식 모듈(302)은 이야기되고 있는 것을 단어별로 구별할 수 있다. 비주얼 데이터 처리 스레드(예를 들면, 안면 검출 모듈(304) 및/또는 립 트랙킹 모듈(306))에서, 안면 검출 모듈(304)은 카메라 이미지에서의 안면(들)의 위치, 크기 및 갯수를 식별할 수 있다. 안면이 검출될 때, 립 영역은 립 트랙킹 모듈(306)을 통해 모션 픽쳐들에서 더 위치결정 및 트랙킹될 수 있다. 안면 인식 및 립 트랙킹을 이용하여, 제어 시스템(308)은 누가 자동차 안에 있고, 그/그녀가 지금 이야기하고 있는지를 말할 수 있다. 오디오 및 비주얼 데이터를 결합함으로써, 제어 시스템(308)은 화자 변경 및 코맨드 입력 상태를 모니터링할 수 있다.
몇몇 구현들에서, 비주얼 처리 모듈들(예를 들면, 안면 검출 모듈(304) 및/또는 립 트랙킹 모듈(306))은 단지 음성 인식을 돕는 것보다 많은 것을 달성할 수 있다. 예를 들어, 강건한 안면 검출 모듈(304)을 이용하여, IVI 시스템(100)은 이야기하고 있는 사람의 아이덴티티를 자동으로 구별하고, 그 다음 개인화된 세팅 IVI 시스템(100)을 수행할 수 있다. 더욱이, 안면이 검출 및 인식될 때, 스피치 인식 모듈(302)은 인식된 탑승자의 아이덴티티에 적어도 부분적으로 기초하여 특정 화자 모델에 대해 적응될 수 있다. 그 이외에, 안정적인 립 트랙킹 모듈(306)을 이용하여, IVI 시스템(100)은 누군가 이야기하고 있는지에 대한 상태를 자동으로 식별하고, 그 다음 무선 장치 볼륨을 낮추는 것 등과 같은 포지티브 음향 환경 세팅을 수행할 수 있다. 다른 예에서, 립 트랙킹 출력이 포지티브인 경우, IVI 시스템(100) 볼륨은 스마트한 방식으로 낮추어질 수 있다.
도 2 및 3에 도시된 바와 같은 예시적인 프로세스들(200, 300)의 구현은 예시된 순서로 도시된 모들 블록들의 착수를 포함할 수 있지만, 본 개시 내용은 이와 관련하여 제한되지 않으며, 다양한 예들에서, 프로세스들(200, 300)의 구현은 도시된 블록들의 서브세트만을, 및/또는 예시된 것과는 상이한 순서로 착수하는 것을 포함할 수 있다.
또한, 도 2 및 3의 임의의 하나 이상의 블록들은 하나 이상의 컴퓨터 프로그램 제품에 의해 제공된 인스트럭션들에 응답하여 착수될 수 있다. 그러한 프로그램 제품들은 인스트럭션들을 제공하는 신호 베어링 매체를 포함할 수 있으며, 인스트럭션들은 예를 들면, 프로세서에 의해 실행될 때, 본 명세서에서 기술된 기능을 제공할 수 있다. 컴퓨터 프로그램 제품들은 임의의 형태의 컴퓨터 판독가능 매체로 제공될 수 있다. 따라서, 예를 들어, 하나 이상의 프로세서 코어(들)를 포함하는 프로세서가, 컴퓨터 판독가능 매체에 의해 프로세서로 전달된 인스트럭션들에 응답하여, 도 5 및 6에 도시된 블록들 중 하나 이상을 착수할 수 있다.
본 명세서에서 기술된 임의의 구현에서 이용된 바와 같이, "모듈" 이라는 용어는 본 명세서에서 기술된 기능을 제공하도록 구성된 소프트웨어, 펌웨어 및/또는 하드웨어의 임의의 조합을 지칭한다. 소프트웨어는 소프트웨어 패키지, 코드 및/또는 인스트럭션 세트 혹은 인스트럭션들로서 구현될 수 있으며, 본 명세서에서 기술된 임의의 구현에서 이용된 바와 같이 "하드웨어"는, 예를 들면, 하드와이어드 회로, 프로그래밍가능 회로, 상태 머신 회로, 및/또는 프로그래밍가능 회로에 의해 실행된 인스트럭션들을 저장하는 펌웨어를 단독으로 또는 임의의 조합으로 포함할 수 있다. 모듈들은, 집합적으로 또는 개별적으로, 보다 큰 시스템, 예를 들면, 집적 회로(IC), 시스템 온-칩(SoC) 등의 일부를 형성하는 회로로서 구현될 수 있다.
도 4는 본 개시 내용의 적어도 몇몇 구현들에 따라 배열된, 립 트랙킹 프로세스(400) 동안에 처리된 몇 개의 예시적인 이미지들을 도시한다. 전술한 바와 같이, 몇몇 예시적인 구현은 화자 인식(예를 들면, 화자 변경 검출)을 위해서, 및 적응적 사용자 특정 음성 인식을 위해서, 립 검출 및 트랙킹을 이용할 수 있다.
립 국부화 및 트랙킹에서의 도전과제는 수 개의 양상으로 존재한다. 예를 들어, 변형가능 물체 모델(deformable object models)은 복잡할 수 있고, 일부 안면 포즈 및/또는 립 형상들은 잘 알려지거나 또는 잘 연구되지 않을 수 있고, 조명 조건들은 빈번한 변경을 겪을 수 있고, 배경들은 복잡하고/하거나 빈번한 변경을 겪을 수 있으며, 머리 움직임과 함께 립 움직임은 빈번하게 위치를 변경하거나 또는 예측되지 않는 방식, 및/또는 자기 폐쇄(self-occlusion)와 같은 다른 요인들을 겪을 수 있다.
예시된 구현에서, 립 트랙킹 프로세스(400)는 립 윤곽 검출 및/또는 트랙킹의 정확성에 의존할 수 있다. 유사하게, 정확한 립 검출은 안면 검출의 강건성에 마찬가지로 의존할 수 있다. 예를 들어, 립 트랙킹 프로세스(400)는 모션 기반 립 트랙킹 및 최적화 기반 분할에 의존할 수 있다.
예시된 구현에서, 비디오 데이터 이미지(401)는 립(402)들이 검출되도록 처리될 수 있다. 립 트랙킹 프로세스(400)의 모션 기반 립 트랙킹 부분은 특징 포인트 초기화, 최적 흐름 트랙킹 및/또는 특징 포인트 개선 등의 3개의 단계를 따를 수 있다. 예를 들어, 4개의 특징 포인트가 HDAM(Hierarchical Direct Appearance Model)에 의해 초기화될 수 있으며, 그 후 피라미드 루카스-카나드 광학 흐름 방법(pyramid Lucas-Kanade optical method)은 희박한 특징 세트들(sparse feature sets) 상에서의 트랙킹을 도울 수 있다. 예를 들어, 립 트랙킹 프로세스(400)의 특징 포인트 초기화 동작은 립 국부화(404)를 포함할 수 있다. 그 다음, 특징 포인트 개선(406)은 립 국부화(404)를 수정할 수 있다. 예를 들어, 특징 포인트 개선(406)의 특징 포인트 위치들은 예시된 바와 같이, 컬러 히스토그램 비교 및/또는 국부 탐색(local search)에 의해 개선될 수 있다.
립 트랙킹 프로세스(400)는 립 윤곽의 타원형 모델링(407)을 포함할 수 있다. 립 트랙킹 프로세스(400)를 통해, 립 윤곽은 타원형 모델(408)로 표현될 수 있다. 때때로 립들은 대칭적이므로, 예시된 바와 같이, 립 윤곽은 먼저 좌측/우측 입 코너들(410)을 식별한 후, 상부/하부 에지 포인트들(412)을 식별함으로써 구성될 수 있다.
립 트랙킹 프로세스(400)는 립들(402)의 입 에지를 국부적으로 탐색함으로써 립 윤곽 구성(414)을 포함할 수 있다. 예를 들어, 예시된 바와 같이, 4개 이상의 포인트(416)가 위치결정될 수 있고, 립 윤곽(414)은 입 에지를 국부적으로 탐색함으로써 구성될 수 있다.
립 트랙킹 프로세스(400)는 립들(402)이 움직임에 따라 모션 픽쳐들 사이에서 립 윤곽 구성(414) 결과들을 트랙킹하는 것을 포함할 수 있다. 예를 들어, 비디오 데이터 이미지(420)는 립들(402)이 닫힘에 따라 립 윤곽 구성(414) 결과들을 트랙킹하는 립 트랙킹 프로세스(400)를 도시한다. 유사하게, 비디오 데이터 이미지(422)는 립들(402)이 닫힘에 따라 립 윤곽 구성(414)을 트랙킹하는 립 트랙킹 프로세스(400)를 도시한다. 립 윤곽 구성(414)을 트랙킹함으로써, 립 트랙킹 프로세스(400)는 차량 탑승자가 이야기하고 있는지의 여부를 말할 수 있다.
도 5는 본 개시 내용에 따른 예시적인 시스템(500)을 도시한다. 다양한 구현들에서, 시스템(500)은 매체 시스템일 수 있으나, 시스템(500)이 이러한 문맥으로 제한되지는 않는다. 예를 들어, 시스템(500)은 개인용 컴퓨터(PC), 랩탑 컴퓨터, 울트라-랩탑 컴퓨터, 태블릿, 터치 패드, 휴대용 컴퓨터, 핸드헬드 컴퓨터, 팜탑 컴퓨터, PDA(personal digital assistant), 셀룰라 폰, 결합 셀룰라 폰/PDA, 텔레비젼, 스마트 디바이스(예를 들면, 스마트 폰, 스마트 태블릿 또는 스마트 텔레비젼), 모바일 인터넷 디바이스(MID), 메시징 디바이스, 데이터 통신 디바이스 등에 통합될 수 있다.
다양한 구현들에서, 시스템(500)은 디스플레이(520)에 연결된 플랫폼(502)을 포함한다. 플랫폼(502)은 콘텐츠 서비스 디바이스(들)(530) 또는 콘텐츠 전달 디바이스(들)(540) 또는 다른 유사한 콘텐츠 소스들과 같은 콘텐츠 디바이스로부터 콘텐츠를 수신할 수 있다. 하나 이상의 네비게이션 특징부들을 포함하는 네비게이션 제어기(550)를 이용하여, 예를 들면, 플랫폼(502) 및/또는 디스플레이(520)와 상호 작용할 수 있다. 이들 구성요소들 각각은 이하에 보다 상세히 기술된다.
다양한 구현들에서, 플랫폼(502)은 칩셋(505), 프로세서(510), 메모리(512), 저장소(storage)(514), 그래픽 서브시스템(515), 애플리케이션들(516) 및/또는 무선 장치(518)의 임의의 조합을 포함할 수 있다. 칩셋(505)은 프로세서(510), 메모리(512), 저장소(514), 그래픽 서브시스템(515), 애플리케이션들(516) 및/또는 무선 장치(518) 사이에 상호 통신을 제공할 수 있다. 예를 들어, 칩셋(505)은 저장소(514)와의 상호 통신을 제공할 수 있는 저장소 어댑터(도시되지 않음)를 포함할 수 있다.
프로세서(510)는 CISC(Complex Instruction Set Computer) 또는 RISC(Reduced Instruction Set Computer) 프로세서들, x86 인스트럭션 세트 호환가능 프로세스들, 멀티 코어 또는 임의의 다른 마이크로프로세서 또는 CPU(central processing unit)으로서 구현될 수 있다. 다양한 구현들에서, 프로세서(510)는 듀얼 코어 프로세서(들), 듀얼 코어 모바일 프로세서(들) 등일 수 있다.
메모리(512)는 제한적인 것은 아니지만, RAM(Random Access Memory), DRAM(Dynamic Random Access Memory) 또는 SRAM(Static RAM)과 같은 휘발성 메모리 디바이스로서 구현될 수 있다.
저장소(514)는 제한적인 것은 아니지만, 자기 디스크 드라이브, 광학 디스크 드라이브, 테이프 드라이브, 내부 저장 디바이스, 부착형 저장 디바이스, 플래시 메모리, 배터리 백업형 SDRAM, 및/또는 네트워크 액세스가능 저장 디바이스와 같은 비휘발성 저장 디바이스로서 구현될 수 있다. 다양한 구현들에서, 저장소(514)는, 예를 들면, 다수의 하드 드라이브가 포함될 때, 가치있는 디지털 매체에 대한 저장 성능 개선 보호를 증가시키기 위한 기술을 포함할 수 있다.
그래픽 서브시스템(515)은 디스플레이를 위해 스틸 또는 비디오와 같은 이미지들의 처리를 수행할 수 있다. 그래픽 서브시스템(515)은 GPU(graphics processing unit) 또는 VPU(visual processing unit)일 수 있다. 아날로그 또는 디지털 인터페이스를 이용하여 그래픽 서브시스템(515)과 디스플레이(520)를 통신가능하게 연결할 수 있다. 예를 들어, 인터페이스는 고선명 멀티미디어 인터페이스(High-Definition Multimedia Interface), 디스플레이포트(DisplayPort), 무선 HDMI, 및/또는 무선 HD 호환 기술들 중 임의의 것일 수 있다. 그래픽 서브시스템(515)은 프로세서(510) 또는 칩셋(505)에 통합될 수 있다. 몇몇 구현들에서, 그래픽 서브시스템(515)은 칩셋(505)에 통신가능하게 연결된 자립형 카드일 수 있다.
본 명세서에서 기술된 그래픽 및/또는 비디오 처리 기술들은 다양한 하드웨어 아키텍쳐로 구현될 수 있다. 예를 들어, 그래픽 및/또는 비디오 기능은 칩셋 내에 통합될 수 있다. 대안적으로, 이산적 그래픽 및/또는 비디오 프로세서가 이용될 수 있다. 다른 구현으로서, 그래픽 및/또는 비디오 기능들은, 멀티 코어 프로세서를 포함하는 범용 프로세서에 의해 제공될 수 있다. 다른 실시예들에서, 기능들은 소비자 전자 장치로 구현될 수 있다.
무선 장치(518)는 여러가지의 적절한 무선 통신 기술들을 이용하여 신호들을 송신 및 수신할 수 있는 하나 이상의 무선 장치를 포함할 수 있다. 그러한 기술들은 하나 이상의 무선 네트워크를 통한 통신들을 포함할 수 있다. 예시적인 무선 네트워크들은 (제한적인 것은 아니지만) WLAN(wireless local area network), WPAN(wireless personal area network), WMAN(wireless metropolitan area network), 셀룰라 네트워크 및 위성 네트워크를 포함한다. 그러한 네트워크를 통한 통신시에, 무선 장치(518)는 임의의 버젼의 하나 이상의 적용가능한 표준에 따라 동작할 수 있다.
다양한 구현들에서, 디스플레이(520)는 임의의 텔레비젼 타입 모니터 또는 디스플레이를 포함할 수 있다. 디스플레이(520)는, 예를 들면, 컴퓨터 디스플레이 스크린, 터치 스크린 디스플레이, 비디오 모니터, 텔레비젼형 디바이스 및/또는 텔레비젼을 포함할 수 있다. 디스플레이(520)는 디지털 및/또는 아날로그일 수 있다. 다양한 구현들에서, 디스플레이(520)는 홀로그래픽 디스플레이일 수 있다. 또한, 디스플레이(520)는 비주얼 프로젝션을 수신할 수 있는 투명 표면일 수 있다. 그러한 프로젝션들은 다양한 형태의 정보, 이미지 및/또는 대상을 전달할 수 있다. 예를 들어, 그러한 프로젝션들은 MAR(mobile augmented reality) 애플리케이션을 위한 비주얼 오버레이일 수 있다. 하나 이상의 소프트웨어 애플리케이션들(516)의 제어하에서, 플랫폼(502)은 디스플레이(520) 상에 사용자 인터페이스(522)를 디스플레이할 수 있다.
다양한 구현들에서, 콘텐츠 서비스 디바이스(들)(530)은 임의의 국내, 국제 및/또는 독립된 서비스에 의해 호스팅되어, 예를 들면, 인터넷을 통해 플랫폼(502)에 액세스가능할 수 있다. 콘텐츠 서비스 디바이스(들)(530)은 플랫폼(502) 및/또는 디스플레이(520)에 연결될 수 있다. 플랫폼(502) 및/또는 콘텐츠 서비스 디바이스(들)(530)은 네트워크(560)로의 및 네트워크(560)로부터의 매체 정보를 통신(예를 들면, 송신 및/또는 수신)하기 위해 네트워크(560)에 연결될 수 있다. 또한, 콘텐츠 전달 디바이스(들)(540)이 플랫폼(502) 및/또는 디스플레이(520)에 연결될 수 있다.
다양한 구현들에서, 콘텐츠 서비스 디바이스(들)(530)은 케이블 텔레비젼 박스, 개인용 컴퓨터, 네트워크, 전화, 인터넷 가능 디바이스들 또는 디지털 정보 및/또는 콘텐츠를 전달가능한 기기, 및 콘텐츠 제공자와 플랫폼(502) 및/또는 디스플레이(520) 사이에서, 네트워크(560)를 통해 또는 직접적으로, 콘텐츠를 단방향 또는 양방향으로 통신할 수 있는 임의의 다른 유사한 디바이스를 포함할 수 있다. 콘텐츠는 네트워크(560)를 통해 콘텐츠 제공자 및 시스템(500)에서의 구성요소들 중 임의의 하나로 및 임의의 하나로부터 단방향 및/또는 양방향으로 통신될 수 있음을 이해할 것이다. 콘텐츠의 예들은, 예를 들면, 비디오, 음악, 의료 및 게임 정보 등을 포함하는 임의의 매체 정보를 포함할 수 있다.
콘텐츠 서비스 디바이스(들)(530)은 매체 정보, 디지털 정보 및/또는 다른 콘텐츠를 포함하는 케이블 텔레비젼 프로그래밍과 같은 콘텐츠를 수신할 수 있다. 콘텐츠 제공자들의 예들은 임의의 케이블 또는 위성 텔레비젼 또는 무선 장치 또는 인터넷 콘텐츠 제공자들을 포함할 수 있다. 제공된 예들은 본 개시 내용에 따른 구현들을 어떠한 방식으로든 제한하기 위한 것은 아니다.
다양한 구현들에서, 플랫폼(502)은 하나 이상의 네비게이션 특징부를 갖는 네비게이션 제어기(550)로부터 제어 신호들을 수신할 수 있다. 제어기(550)의 네비게이션 특징부들은, 예를 들면, 사용자 인터페이스(522)와 상호 작용하는데 이용될 수 있다. 실시예들에서, 네비게이션 제어기(550)는 사용자가 공간적인 (예를 들면, 연속적 및 다차원적인) 데이터를 컴퓨터에 입력할 수 있도록 하는 컴퓨터 하드웨어 구성요소(구체적으로, 인간 인터페이스 디바이스)일 수 있는 포인팅 디바이스일 수 있다. GUI, 텔레비젼 및 모니터와 같은 많은 시스템들은 사용자가 물리적인 제스쳐들을 이용하여 데이터를 제어하고, 데이터를 컴퓨터 또는 텔레비젼에 제공할 수 있도록 한다.
제어기(550)의 네비게이션 특징부들의 움직임은 디스플레이 상에 디스플레이된 포인터, 커서, 초점 링, 또는 다른 비주얼 표시자들의 움직임에 의해 디스플레이(예를 들면, 디스플레이(520)) 상에 복제될 수 있다. 예를 들어, 소프트웨어 애플리케이션들(516)의 제어하에, 네비게이션 제어기(550) 상에 위치된 네비게이션 특징부들은, 예를 들면, 사용자 인터페이스(522) 상에 디스플레이된 가상 네비게이션 특징부들로 맵핑될 수 있다. 실시예들에서, 제어기(550)는 분리된 구성요소가 아닐 수 있으며, 플랫폼(502) 및/또는 디스플레이(520)에 통합될 수 있다. 그러나, 본 개시 내용은 본 명세서에서 도시되거나 기술된 요소들 또는 문맥으로 제한되지 않는다.
다양한 구현들에서, 드라이버들(도시되지 않음)은 사용자들이 플랫폼(502)을, 예를 들면, 초기 부팅(boot-up) 이후에 인에이블링될 때, 버튼의 터치를 통해 텔레비젼과 같이 즉각적으로 턴 온 및 오프할 수 있도록 하는 기술을 포함할 수 있다. 프로그램 로직은 플랫폼(502)으로 하여금, 플랫폼이 턴 "오프"된 경우에도, 콘텐츠를 매체 어댑터들 또는 다른 콘텐츠 서비스 디바이스(들)(530) 또는 콘텐츠 전달 디바이스(들)(540)에게 스트리밍하도록 할 수 있다. 또한, 칩셋(505)은 예를 들면, 5.1 서라운드 사운드 오디오 및/또는 고선명 7.1 서라운드 사운드 오디오에 대한 하드웨어 및/또는 소프트웨어 지원을 포함할 수 있다. 드라이버들은 통합된 그래픽 플랫폼들을 위한 그래픽 드라이버를 포함할 수 있다. 실시예들에서, 그래픽 드라이버는 PCI(peripheral component interconnect) Express 그래픽 카드를 포함할 수 있다.
다양한 구현들에서, 시스템(500)에 도시된 구성요소들 중 임의의 하나 이상이 통합될 수 있다. 예를 들어, 플랫폼(502) 및 콘텐츠 서비스 디바이스(들)(530)이 통합되거나, 또는 플랫폼(502) 및 콘텐츠 전달 디바이스(들)(540)이 통합되거나, 또는 플랫폼(502), 콘텐츠 서비스 디바이스(들)(530) 및 콘텐츠 전달 디바이스(들)이 통합될 수 있다. 다양한 실시예들에서, 플랫폼(502) 및 디스플레이(520)는 통합된 유닛일 수 있다. 예를 들어, 디스플레이(520) 및 콘텐츠 서비스 디바이스(들)(530)이 통합되거나, 또는 디스플레이(520) 및 콘텐츠 전달 디바이스(들)(540)이 통합될 수 있다. 이러한 예들은 본 개시 내용을 제한하는 것을 의미하지 않는다.
다양한 실시예들에서, 시스템(500)은 무선 시스템, 유선 시스템, 또는 둘다의 조합으로서 구현될 수 있다. 무선 시스템으로서 구현될 때, 시스템(500)은 하나 이상의 안테나, 송신기, 수신기, 트랜시버, 증폭기, 필터, 제어 로직 등과 같은 무선 공유 매체를 통해 통신하기에 적합한 구성요소들 및 인터페이스들을 포함할 수 있다. 무선 공유 매체의 예는 RF 스펙트럼 등과 같은 무선 스펙트럼의 부분들을 포함할 수 있다. 유선 시스템으로서 구현될 때, 시스템(500)은 입/출력(I/O) 어댑터, I/O 어댑터를 대응하는 유선 통신 매체와 접속하기 위한 물리적 접속기, 네트워크 인터페이스 카드(NIC), 디스크 제어기, 비디오 제어기, 오디오 제어기 등과 같은 유선 통신 매체를 통해 통신하기에 적합한 구성요소들 및 인터페이스들을 포함할 수 있다. 유선 통신 매체의 예들은 와이어, 케이블, 금속 리드, PCB(printed circuit board), 백플레인, 스위치 패브릭, 반도체 재료, 트위스트-쌍 와이어, 동축 케이블, 광섬유 등을 포함할 수 있다.
플랫폼(502)은 정보를 통신하기 위한 하나 이상의 논리적 또는 물리적 채널을 형성할 수 있다. 정보는 매체 정보 및 제어 정보를 포함할 수 있다. 매체 정보는 사용자에 대한 콘텐츠를 나타내는 임의의 데이터를 지칭할 수 있다. 콘텐츠의 예들은, 예를 들면, 음성 대화로부터의 데이터, 화상 회의, 스트리밍 비디오, 전자 메일("email") 메시지, 음성 메일 메시지, 영숫자 심볼, 그래픽, 이미지, 비디오, 텍스트 등을 포함할 수 있다. 음성 대화로부터의 데이터는, 예를 들면, 스피치 정보, 침묵 기간, 배경 잡음, 컴포트 잡음(comfort noise), 톤(tone) 등일 수 있다. 제어 정보는 자동화된 시스템에 대한 코맨드, 인스트럭션 또는 제어 워드를 나타내는 임의의 데이터를 지칭할 수 있다. 예를 들어, 제어 정보는 시스템을 통해 매체 정보를 라우팅하거나, 또는 노드에게 매체 정보를 미리결정된 방식으로 처리하도록 지시하는데 이용될 수 있다. 그러나, 실시예들은 도 5에 도시되거나 기술된 요소들 또는 문맥으로 제한되지 않는다.
전술한 바와 같이, 시스템(500)은 가변하는 물리적 스타일 또는 형태 계수로 구현될 수 있다. 도 6은 시스템(500)이 구현될 수 있는 소형 형태 계수 디바이스(600)의 구현들을 도시한다. 실시예들에서, 예를 들어, 디바이스(600)는 무선 능력을 갖는 모바일 컴퓨팅 디바이스로서 구현될 수 있다. 모바일 컴퓨팅 디바이스는, 예를 들면, 처리 시스템, 및 하나 이상의 배터리와 같은 모바일 전력 소스 또는 공급기를 갖는 임의의 디바이스를 지칭할 수 있다.
전술한 바와 같이, 모바일 컴퓨팅 디바이스의 예들은 개인용 컴퓨터(PC), 랩탑 컴퓨터, 울트라-랩탑 컴퓨터, 태블릿, 터치 패드, 휴대용 컴퓨터, 핸드헬드 컴퓨터, 팜탑 컴퓨터, PDA, 셀룰라 전화, 결합 셀룰라 전화/PDA, 텔레비젼, 스마트 디바이스(예를 들면, 스마트 폰, 스마트 태블릿 또는 스마트 텔레비젼), 모바일 인터넷 디바이스(MID), 메시징 디바이스, 데이터 통신 디바이스 등을 포함할 수 있다.
또한, 모바일 컴퓨팅 디바이스의 예들은 손목 컴퓨터, 손가락 컴퓨터, 링 컴퓨터, 안경 컴퓨터, 벨트-클립 컴퓨터, 암-밴드 컴퓨터, 신발 컴퓨터, 의류 컴퓨터, 및 다른 착용가능한 컴퓨터와 같은, 사람이 착용하도록 배열되는 컴퓨터들을 포함할 수 있다. 다양한 실시예들에서, 예를 들어, 모바일 컴퓨팅 디바이스는 음성 통신 및/또는 데이터 통신 뿐만 아니라, 컴퓨터 애플리케이션들을 실행할 수 있는 스마트 폰으로서 구현될 수 있다. 몇몇 실시예들은 예로써 스마트 폰으로서 구현된 모바일 컴퓨팅 디바이스에 의해 기술될 수 있지만, 다른 무선 모바일 컴퓨팅 디바이스들을 또한 이용하는 다른 실시예들이 구현될 수 있음을 이해할 수 있다. 실시예들은 이러한 문맥으로 제한되지 않는다.
도 6에 도시된 바와 같이, 디바이스(600)는 하우징(602), 디스플레이(604), 입/출력(I/O) 디바이스(606) 및 안테나(608)를 포함할 수 있다. 또한, 디바이스(600)는 네비게이션 특징부들(612)을 포함할 수 있다. 디스플레이(604)는 모바일 컴퓨팅 디바이스에 대해 적합한 정보를 디스플레이하기 위한 임의의 적절한 디스플레이 유닛을 포함할 수 있다. I/O 디바이스(606)는 모바일 컴퓨팅 디바이스에 정보를 입력하기 위한 임의의 적절한 I/O 디바이스를 포함할 수 있다. I/O 디바이스(606)에 대한 예들은 영숫자 키보드, 숫자 키패드, 터치 패드, 입력 키, 버튼, 스위치, 락커 스위치, 마이크로폰, 스피커, 음성 인식 디바이스 및 소프트웨어 등을 포함할 수 있다. 또한, 정보는 마이크로폰(도시되지 않음)을 통해 디바이스(600)에 입력될 수 있다. 그러한 정보는 음성 인식 디바이스(도시되지 않음)에 의해 디지털화될 수 있다. 실시예들은 이러한 문맥으로 제한되지 않는다.
다양한 실시예들이 하드웨어 요소들, 소프트웨어 요소들 또는 이들의 조합을 이용하여 구현될 수 있다. 하드웨어 요소들의 예들은 프로세서, 마이크로프로세서, 회로, 회로 소자(예를 들면, 트랜지스터, 저항기, 캐패시터, 인덕터 등), 집적 회로, ASIC(application specific integrated circuit), PLD(programmable logic device), DSP(digital signal processor), FPGA(field programmable gate array), 논리 게이트, 레지스터, 반도체 디바이스, 칩, 마이크로칩, 칩셋 등을 포함할 수 있다. 소프트웨어의 예들은 소프트웨어 구성요소, 프로그램, 애플리케이션, 컴퓨터 프로그램, 애플리케이션 프로그램, 시스템 프로그램, 머신 프로그램, 운영 체제 소프트웨어, 미들웨어, 펌웨어, 소프트웨어 모듈, 루틴, 서브루틴, 함수, 방법, 절차, 소프트웨어 인터페이스, API(application program interface), 인스트럭션 세트, 컴퓨팅 코드, 컴퓨터 코드, 코드 세그먼트, 컴퓨터 코드 세그먼트, 워드, 값, 심볼, 또는 이들의 임의의 조합을 포함할 수 있다. 실시예가 하드웨어 요소들 및/또는 소프트웨어 요소들을 이용하여 구현되는지의 여부에 대한 결정은, 원하는 계산 레이트, 전력 레벨, 열 허용도, 처리 사이클 예산, 입력 데이터 레이트, 출력 데이터 레이트, 메모리 자원, 데이터 버스 속도 및 다른 설계 혹은 성능 제약과 같은 임의의 수의 요인들에 따라 변할 수 있다.
적어도 하나의 실시예의 하나 이상의 양상은 프로세서 내의 다양한 로직을 나타내는 머신 판독가능 저장 매체 상에 저장된 대표적인 인스트럭션들에 의해 구현될 수 있으며, 인스트럭션들은 머신에 의해 판독될 때, 머신으로 하여금 본 명세서에서 설명된 기술들을 수행하기 위한 로직을 형성하도록 한다. "IP 코어" 로서 알려진 그러한 표현들은 유형의 머신 판독가능 저장 매체 상에 저장되고, 로직 또는 프로세서를 실제로 만드는 제조 머신으로 로딩하기 위해 다양한 고객 또는 제조 설비들에 공급될 수 있다.
본 명세서에서 개시된 특정한 특징들은 다양한 구현들을 참조하여 설명되었지만, 그러한 설명은 제한을 위한 것으로 해석되는 것을 의도하지 않는다. 따라서, 본 명세서에서 기술된 구현들 뿐만 아니라, 본 개시 내용이 속하는 기술 분야의 당업자에게 명백한 다른 구현들의 다양한 수정들은, 본 개시 내용의 사상 및 영역 내에 속하는 것으로 간주된다.

Claims (30)

  1. 컴퓨터로 구현된 방법(computer-implemented method)으로서,
    차량의 하나 이상의 탑승자로부터의 구두 입력(spoken input)을 포함하는 오디오 데이터(audio data)를 수신하는 단계와,
    무엇이 이야기되고 있는지를 인식하기 위해 상기 수신된 오디오 데이터에 적어도 부분적으로 기초하여 스피치 인식(speech recognition)을 수행하는 단계와,
    상기 차량의 하나 이상의 탑승자의 비디오를 포함하는 비주얼 데이터(visual data)를 수신하는 단계와,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자의 립 트랙킹(lip tracking)을 수행함으로써, 오디오 기반 화자 검증 없이 상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 것에 적어도 부분적으로 기초하여 누가 말하고 있는지를 결정하는 단계와,
    오디오 기반 화자 검증 없이 누가 말하고 있는지에 대한 비주얼 데이터 기반 결정에 적어도 부분적으로 기초하여 특정 화자 모델을 선택하는 단계와,
    상기 선택된 특정 화자 모델에 적응된 음성 인식(voice recognition)을 상기 수행된 스피치 인식 동작의 수정(modification)으로서 수행하는 것에 적어도 부분적으로 기초하여 무엇이 이야기되고 있는지를 결정하는 단계- 상기 수행된 음성 인식은 상기 수행된 스피치 인식 및 상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지의 결정에 적어도 부분적으로 기초함 -와,
    상기 수행된 음성 인식에 적어도 부분적으로 기초하여 상기 차량의 동작과 연관된 사용자 코맨드를 실행하는 단계
    를 포함하는 컴퓨터로 구현된 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 단계는,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자의 안면 검출(face detection)을 수행하는 단계 - 상기 안면 검출은 상기 차량의 하나 이상의 탑승자 간을 구별하도록 구성됨 - 를 더 포함하는
    컴퓨터로 구현된 방법.
  5. 제1항에 있어서,
    상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 단계는,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자의 안면 검출을 수행하는 단계 - 상기 안면 검출은 상기 차량의 하나 이상의 탑승자 간을 구별하도록 구성됨 - 와,
    상기 안면 검출에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자를 개인 프로파일(individual profile)과 연관시키는 단계를 더 포함하는
    컴퓨터로 구현된 방법.
  6. 삭제
  7. 제1항에 있어서,
    상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 단계는,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자를 개인 프로파일과 연관시키는 단계와,
    상기 립 트랙킹에 적어도 부분적으로 기초하여 상기 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부를 결정하는 단계와,
    상기 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부에 대한 결정에 적어도 부분적으로 기초하여 차량 오디오 출력의 볼륨을 낮추는 단계를 더 포함하는
    컴퓨터로 구현된 방법.
  8. 삭제
  9. 삭제
  10. 프로세서를 포함하는 장치로서,
    상기 프로세서는,
    차량의 하나 이상의 탑승자로부터의 구두 입력을 포함하는 오디오 데이터를 수신하고,
    무엇이 이야기되고 있는지를 인식하기 위해 상기 수신된 오디오 데이터에 적어도 부분적으로 기초하여 스피치 인식을 수행하고,
    상기 차량의 하나 이상의 탑승자의 비디오를 포함하는 비주얼 데이터를 수신하고,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자의 립 트랙킹을 수행함으로써, 오디오 기반 화자 검증 없이 상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 것에 적어도 부분적으로 기초하여 누가 말하고 있는지를 결정하고,
    오디오 기반 화자 검증 없이 누가 말하고 있는지에 대한 비주얼 데이터 기반 결정에 적어도 부분적으로 기초하여 특정 화자 모델을 선택하고,
    상기 선택된 특정 화자 모델에 적응된 음성 인식을 상기 수행된 스피치 인식 동작의 수정으로서 수행하는 것에 적어도 부분적으로 기초하여 무엇이 이야기되고 있는지를 결정하며- 상기 수행된 음성 인식은 상기 수행된 스피치 인식 및 상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지의 결정에 적어도 부분적으로 기초함 -,
    상기 수행된 음성 인식에 적어도 부분적으로 기초하여 상기 차량의 동작과 연관된 사용자 코맨드를 실행하도록 구성된
    장치.
  11. 삭제
  12. 제10항에 있어서,
    상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 것은,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자의 안면 검출을 수행 - 상기 안면 검출은 상기 차량의 하나 이상의 탑승자 간을 구별하도록 구성됨 - 하는 것과,
    상기 안면 검출에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자를 개별 프로파일과 연관시키는 것을 더 포함하는
    장치.
  13. 제10항에 있어서,
    상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 것은,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자를 개별 프로파일과 연관시키는 것과,
    상기 립 트랙킹에 적어도 부분적으로 기초하여 상기 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부를 결정하는 것과,
    상기 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부에 대한 결정에 적어도 부분적으로 기초하여 차량 오디오 출력의 볼륨을 낮추는 것을 더 포함하는
    장치.
  14. 제10항에 있어서,
    상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 것은,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자를 개인 프로파일과 연관시키는 것과,
    상기 립 트랙킹에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자 중 누가 이야기하고 있는지 결정하는 것을 더 포함하는
    장치.
  15. 비주얼 데이터를 캡쳐하도록 구성된 이미징 디바이스와,
    상기 이미징 디바이스에 통신가능하게 연결되는 컴퓨팅 시스템을 포함하고,
    상기 컴퓨팅 시스템은,
    차량의 하나 이상의 탑승자로부터의 구두 입력을 포함하는 오디오 데이터를 수신하고,
    무엇이 이야기되고 있는지를 인식하기 위해 상기 수신된 오디오 데이터에 적어도 부분적으로 기초하여 스피치 인식을 수행하고,
    상기 차량의 하나 이상의 탑승자의 비디오를 포함하는 비주얼 데이터를 수신하고,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자의 립 트랙킹을 수행함으로써, 오디오 기반 화자 검증 없이 상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지를 결정하는 것에 적어도 부분적으로 기초하여 누가 말하고 있는지를 결정하고,
    오디오 기반 화자 검증 없이 누가 말하고 있는지에 대한 비주얼 데이터 기반 결정에 적어도 부분적으로 기초하여 특정 화자 모델을 선택하고,
    상기 선택된 특정 화자 모델에 적응된 음성 인식을 상기 수행된 스피치 인식 동작의 수정으로서 수행하는 것에 적어도 부분적으로 기초하여 무엇이 이야기되고 있는지를 결정하며- 상기 수행된 음성 인식은 상기 수행된 스피치 인식 및 상기 차량의 하나 이상의 탑승자 중 누가 상기 수신된 오디오 데이터와 연관되는지의 결정에 적어도 부분적으로 기초함 -,
    상기 수행된 음성 인식에 적어도 부분적으로 기초하여 상기 차량의 동작과 연관된 사용자 코맨드를 실행하도록 구성된
    시스템.
  16. 삭제
  17. 제15항에 있어서,
    상기 컴퓨팅 시스템은,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자의 안면 검출을 수행하고- 상기 안면 검출은 상기 차량의 하나 이상의 탑승자 간을 구별하도록 구성됨 -,
    상기 안면 검출에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자를 개별 프로파일과 연관시키도록 더 구성되는
    시스템.
  18. 제15항에 있어서,
    상기 컴퓨팅 시스템은,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자를 개별 프로파일과 연관시키고,
    상기 립 트랙킹에 적어도 부분적으로 기초하여 상기 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부를 결정하고,
    상기 차량의 임의의 하나 이상의 탑승자가 이야기하고 있는지의 여부에 대한 결정에 적어도 부분적으로 기초하여 차량 오디오 출력의 볼륨을 낮추도록 더 구성되는
    시스템.
  19. 제15항에 있어서,
    상기 컴퓨팅 시스템은,
    상기 수신된 비주얼 데이터에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자를 개인 프로파일과 연관시키고,
    상기 립 트랙킹에 적어도 부분적으로 기초하여 상기 차량의 하나 이상의 탑승자 중 누가 이야기하고 있는지 결정하도록 더 구성되는
    시스템.
  20. 컴퓨팅 장치 상에서 실행되는 것에 응답하여, 상기 컴퓨팅 장치가 제 1 항, 제 4 항, 제 5 항 및 제 7 항 중 어느 한 항에 따른 방법을 수행하게 하는, 복수의 명령어를 포함하는 머신 판독가능 저장 매체.
  21. 제 1 항, 제 4 항, 제 5 항 및 제 7 항 중 어느 한 항에 따른 방법을 수행하는 수단을 포함하는 장치.
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
KR1020147017764A 2011-12-26 2011-12-26 탑승자 오디오 및 시각적 입력의 차량 기반 결정 KR101749143B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/084649 WO2013097075A1 (en) 2011-12-26 2011-12-26 Vehicle based determination of occupant audio and visual input

Publications (2)

Publication Number Publication Date
KR20140104461A KR20140104461A (ko) 2014-08-28
KR101749143B1 true KR101749143B1 (ko) 2017-06-20

Family

ID=48696171

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147017764A KR101749143B1 (ko) 2011-12-26 2011-12-26 탑승자 오디오 및 시각적 입력의 차량 기반 결정

Country Status (7)

Country Link
US (1) US20140214424A1 (ko)
EP (1) EP2798635A4 (ko)
JP (1) JP5928606B2 (ko)
KR (1) KR101749143B1 (ko)
CN (1) CN104011735B (ko)
BR (1) BR112014015844A8 (ko)
WO (1) WO2013097075A1 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
JP5902632B2 (ja) * 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
US9159317B2 (en) * 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
DE102013222645A1 (de) * 2013-11-07 2015-05-07 Robert Bosch Gmbh Erkennungssystem in einem Fahrzeug zur Erfassung der Sprachaktivität eines Fahrzeuginsassen
US10741182B2 (en) 2014-02-18 2020-08-11 Lenovo (Singapore) Pte. Ltd. Voice input correction using non-audio based input
GB2528247A (en) * 2014-07-08 2016-01-20 Imagination Tech Ltd Soundbar
WO2016074176A1 (en) * 2014-11-12 2016-05-19 Intel Corporation Flexible system-in-package solutions for wearable devices
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和系统
EP3147898A1 (en) 2015-09-23 2017-03-29 Politechnika Gdanska Method and system for improving the quality of speech signals in speech recognition systems
US9963096B2 (en) * 2015-11-16 2018-05-08 Continental Automotive Systems, Inc. Vehicle infotainment and connectivity system
US20170174221A1 (en) * 2015-12-18 2017-06-22 Robert Lawson Vaughn Managing autonomous vehicles
US20170330413A1 (en) * 2016-05-13 2017-11-16 Universal Entertainment Corporation Speech recognition device and gaming machine
US20170372697A1 (en) * 2016-06-22 2017-12-28 Elwha Llc Systems and methods for rule-based user control of audio rendering
JP7337699B2 (ja) * 2017-03-23 2023-09-04 ジョイソン セイフティ システムズ アクイジション エルエルシー 口の画像を入力コマンドと相互に関連付けるシステム及び方法
EP3466761B1 (en) * 2017-10-05 2020-09-09 Ningbo Geely Automobile Research & Development Co. Ltd. A display system and method for a vehicle
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
DE102018212902A1 (de) * 2018-08-02 2020-02-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
EP3648479B1 (en) * 2018-11-02 2023-09-27 Ningbo Geely Automobile Research & Development Co. Ltd. Audio communication in a vehicle
JP7023823B2 (ja) 2018-11-16 2022-02-22 アルパイン株式会社 車載装置及び音声認識方法
US11167693B2 (en) * 2018-11-19 2021-11-09 Honda Motor Co., Ltd. Vehicle attention system and method
US10863971B2 (en) 2018-11-30 2020-12-15 Fujifilm Sonosite, Inc. Touchless input ultrasound control
CN109887515B (zh) * 2019-01-29 2021-07-09 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质
EP3722158A1 (en) * 2019-04-10 2020-10-14 Volvo Car Corporation A voice assistant system
CN110164440B (zh) * 2019-06-03 2022-08-09 交互未来(北京)科技有限公司 基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
CN110428838A (zh) * 2019-08-01 2019-11-08 大众问问(北京)信息科技有限公司 一种语音信息识别方法、装置及设备
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
CN113963692A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种车舱内语音指令控制方法及相关设备
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
US20220179615A1 (en) * 2020-12-09 2022-06-09 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
CN113488043B (zh) * 2021-06-30 2023-03-24 上海商汤临港智能科技有限公司 乘员说话检测方法及装置、电子设备和存储介质
WO2023121871A1 (en) * 2021-12-23 2023-06-29 Stoneridge Electronics Ab Method and apparatus for system command verification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020135618A1 (en) * 2001-02-05 2002-09-26 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US20040195854A1 (en) * 2001-05-12 2004-10-07 Alexander Streit Motor vehicle having a number of seats

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19962218C2 (de) * 1999-12-22 2002-11-14 Siemens Ag Verfahren und System zum Autorisieren von Sprachbefehlen
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US6996526B2 (en) * 2002-01-02 2006-02-07 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating
JP3807307B2 (ja) * 2002-01-07 2006-08-09 株式会社デンソー 車両用空調装置
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
JP2004354930A (ja) * 2003-05-30 2004-12-16 Calsonic Kansei Corp 音声認識システム
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
JP2006251266A (ja) * 2005-03-10 2006-09-21 Hitachi Ltd 視聴覚連携認識方法および装置
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
JP5153211B2 (ja) * 2007-05-25 2013-02-27 キヤノン株式会社 撮像装置及びその制御方法
JP2009146263A (ja) * 2007-12-17 2009-07-02 Panasonic Corp 本人認証システム
US8423362B2 (en) * 2007-12-21 2013-04-16 General Motors Llc In-vehicle circumstantial speech recognition
JP2010156825A (ja) * 2008-12-26 2010-07-15 Fujitsu Ten Ltd 音声出力装置
KR101035768B1 (ko) * 2009-01-02 2011-05-20 전남대학교산학협력단 립 리딩을 위한 입술 영역 설정 방법 및 장치
US8275622B2 (en) * 2009-02-06 2012-09-25 Mitsubishi Electric Research Laboratories, Inc. Ultrasonic doppler sensor for speaker recognition
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别系统和方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020135618A1 (en) * 2001-02-05 2002-09-26 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US20040195854A1 (en) * 2001-05-12 2004-10-07 Alexander Streit Motor vehicle having a number of seats

Also Published As

Publication number Publication date
WO2013097075A1 (en) 2013-07-04
JP2015507219A (ja) 2015-03-05
CN104011735A (zh) 2014-08-27
EP2798635A4 (en) 2016-04-27
JP5928606B2 (ja) 2016-06-01
US20140214424A1 (en) 2014-07-31
BR112014015844A8 (pt) 2017-07-04
EP2798635A1 (en) 2014-11-05
KR20140104461A (ko) 2014-08-28
CN104011735B (zh) 2018-03-30
BR112014015844A2 (pt) 2017-06-13

Similar Documents

Publication Publication Date Title
KR101749143B1 (ko) 탑승자 오디오 및 시각적 입력의 차량 기반 결정
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US9972322B2 (en) Speaker recognition using adaptive thresholding
US10043521B2 (en) User defined key phrase detection by user dependent sequence modeling
US11031005B2 (en) Continuous topic detection and adaption in audio environments
US10083710B2 (en) Voice control system, voice control method, and computer readable medium
US11854550B2 (en) Determining input for speech processing engine
US20140129207A1 (en) Augmented Reality Language Translation
CN110634507A (zh) 用于语音唤醒的音频的语音分类
KR20100062207A (ko) 화상통화 중 애니메이션 효과 제공 방법 및 장치
US20240096132A1 (en) Multi-modal far field user interfaces and vision-assisted audio processing
WO2022033556A1 (zh) 电子设备及其语音识别方法和介质
Thermos et al. Audio-visual speech activity detection in a two-speaker scenario incorporating depth information from a profile or frontal view
US20230409122A1 (en) Hand-Gesture Activation of Actionable Items
US20240119930A1 (en) Artificial intelligence device and operating method thereof
WO2023006001A1 (zh) 视频处理方法及电子设备
EP4141867A1 (en) Voice signal processing method and related device therefor
US20210082427A1 (en) Information processing apparatus and information processing method
JP6457700B2 (ja) 表示制御システム、表示制御方法及び表示制御プログラム
WO2024059427A1 (en) Source speech modification based on an input speech characteristic
CN115394285A (zh) 语音克隆方法、装置、设备及存储介质
CN113766285A (zh) 音量控制方法、电视机和存储介质
Pérez et al. Improvements in Speech Recognition for Embedded Devices by taking Advantage of Lip Reading Techniques

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)