KR102491846B1 - 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선 - Google Patents
다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선 Download PDFInfo
- Publication number
- KR102491846B1 KR102491846B1 KR1020227034256A KR20227034256A KR102491846B1 KR 102491846 B1 KR102491846 B1 KR 102491846B1 KR 1020227034256 A KR1020227034256 A KR 1020227034256A KR 20227034256 A KR20227034256 A KR 20227034256A KR 102491846 B1 KR102491846 B1 KR 102491846B1
- Authority
- KR
- South Korea
- Prior art keywords
- visual
- gaze
- visual element
- user
- input
- Prior art date
Links
- 230000003993 interaction Effects 0.000 title description 20
- 230000000007 visual effect Effects 0.000 claims abstract description 457
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000000605 extraction Methods 0.000 claims description 43
- 238000004458 analytical method Methods 0.000 claims description 42
- 230000009471 action Effects 0.000 claims description 26
- 238000001914 filtration Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 2
- 238000004873 anchoring Methods 0.000 claims 2
- 230000002452 interceptive effect Effects 0.000 description 39
- 210000003128 head Anatomy 0.000 description 19
- 238000004891 communication Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 230000002093 peripheral effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010006 flight Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229910052698 phosphorus Inorganic materials 0.000 description 2
- 239000011574 phosphorus Substances 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 241000708754 Hauffenia media Species 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/0093—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Optics & Photonics (AREA)
- Ophthalmology & Optometry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Position Input By Displaying (AREA)
Abstract
컴퓨터화된 대화 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 이해하고/하거나 해결하는 정확도를 향상시키는 기술이 설명되어 있다. 본 명세서에 설명된 기술은 제스처를 가진 시선 입력 및/또는 음성 입력을 활용하여, 컴퓨터화된 대화 시스템에서 음성 언어 이해를 향상시킨다. 시선 입력과 음성 입력을 활용하는 것은, 시스템이 시각적 컨텍스트에서 시각적 요소들에 관한 언급을 해결하거나 사용자의 의도를 해석할 수 있는 정확도를 향상시킴으로써, 대화 시스템에서 음성 언어 이해를 향상시킨다. 적어도 하나의 예에서, 본 명세서의 기술은 시선 입력을 생성하기 위하여 시선을 추적하고, 음성 입력을 인식하고, 사용자 입력으로부터 시선 특징들 및 어휘 특징들을 추출하는 것을 설명한다. 시선 입력들 및 어휘 특징들에 적어도 부분적으로 기초하여, 시각적 컨텍스트에서 시각적 요소들에 관한 사용자 발언이 해결될 수 있다.
Description
본 발명은, 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선에 관한 것이다.
사람들이 서로 대화할 때 그들은 음성, 제스처, 얼굴/머리 포즈 및 표정 등 상이한 모드의 정보를 자연스럽게 결합한다. 컴퓨터화된 장치가 확산됨에 따라 사람들은 컴퓨터화된 장치와 관련된 디스플레이와 상호 작용할 수 있는 기회가 더 많다. 음성 대화형 시스템(spoken dialog system) 또는 대화형 시스템(conversational system)은 인간 사용자들이 음성 및/또는 제스처와 같은 다양한 통신 모드에 의해 컴퓨팅 시스템과 통신할 수 있게 한다. 현재 대화형 시스템은 다양한 통신 모드를 기반으로 대화형 시스템과 상호 작용하는 사용자의 의도를 식별한다. 일부 예들에서, 대화형 시스템은 사용자의 발언(utterance)과 항목의 어휘 설명 및 스크린 상의 관련 텍스트 간의 유사성을 계산함으로써 사용자 발언에서 언급하는 표현(referring expressions in user utterances)을 해결한다. 다른 예들에서, 사용자의 발언은 사용자가 어떤 스크린상 객체(on-screen object)를 언급하고 있을 수 있는지에 관해 불분명하기 때문에, 사용자의 의도를 이해하는 데 스크린상의 객체 식별이 필요하다. 따라서, 현재의 기술은 음성 및 제스처와 같은 다중 모드 입력을 활용(leverage)하여 사용자가 스크린상에서 어떤 객체를 언급하는지를 결정한다.
대화형 컴퓨팅 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 이해하고 해결하기 위한 기술이 본 명세서에 설명되어 있다. 본 명세서의 기술은 시선을 검출하고, 음성을 인식하며, 사용자 입력(예를 들어, 시선, 음성 등)으로부터 추출된 시선 특징들 및 어휘 특징들에 적어도 부분적으로 기초하여 시각적 컨텍스트에서 시각적 요소들에 대한 사용자의 의도를 해석하는 것을 설명한다.
적어도 하나의 예에서, 본 명세서에 설명된 기술들은 웹 브라우저, 애플리케이션 인터페이스 또는 몇몇 다른 대화형 시스템과 같은 시각적 컨텍스트에서 사용자 상호 작용에 이용 가능한 시각적 요소들을 식별하는 것을 포함한다. 또한, 본 명세서에 설명된 기술들은 시각적 컨텍스트에서 하나 이상의 시각적 요소들과 관련된 사용자 입력을 수신하는 것을 포함한다. 적어도 하나의 예에서, 사용자 입력은, 음성 입력으로부터 도출된, 의도된 특정 시각적 요소를 언급하는 사용자 발언 및 시각적 요소들 중 적어도 일부와 관련된 사용자 시선 입력을 포함할 수 있다. 본 명세서에 설명된 기술들은 사용자 발언 및 시각적 요소들에 적어도 부분적으로 기초하여 어휘 특징들을 추출하고, 사용자 시선 입력 및 시각적 요소들에 적어도 부분적으로 기초하여 시선 특징들을 추출하는 것을 또한 포함한다. 더욱이, 본 명세서에 설명된 기술들은 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초하여 사용자 입력과 관련된 하나 이상의 시각적 요소들 중 특정 시각적 요소를 결정하는 것을 포함한다. 일부 예들에서, 특정 시각적 요소를 결정하는 것은 또한 히트 맵(heat map) 특징들에 적어도 부분적으로 기초할 수 있다.
이 요약은 상세한 설명에서 하기에서 더 설명되는 단순화된 형태로 개념들의 선택을 소개하기 위해 제공된다. 이 요약은 청구된 주제의 주요 특징 또는 필수 특징을 식별하기 위한 것이 아니며 청구된 주제의 범위를 제한하는 데 사용되는 의도도 아니다.
상세한 설명은 첨부된 도면을 언급하여 설명된다. 도면에서, 참조 번호의 가장 왼쪽 숫자는 참조 번호가 처음 나타나는 숫자를 식별한다. 상이한 도면에서 동일한 참조 번호는 유사하거나 동일한 항목들을 나타낸다.
도 1은 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위한 예시적인 환경을 도시한다.
도 2는 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위해 구현될 수 있는 다양한 장치 및 컴포넌트를 포함하는 동작 환경의 예를 도시한다.
도 3은 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위해 구현될 수 있는 동작 환경의 예를 도시한다.
도 4는 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위한 예시적인 프로세스를 도시한다.
도 5는 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초하여 사용자 발언에서 언급되는 특정 시각적 요소를 결정하기 위한 예시적인 프로세스를 도시한다.
도 6은 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 의도된 시각적 요소를 필터링하고 식별하기 위한 프로세스를 도시한다.
도 1은 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위한 예시적인 환경을 도시한다.
도 2는 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위해 구현될 수 있는 다양한 장치 및 컴포넌트를 포함하는 동작 환경의 예를 도시한다.
도 3은 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위해 구현될 수 있는 동작 환경의 예를 도시한다.
도 4는 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위한 예시적인 프로세스를 도시한다.
도 5는 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초하여 사용자 발언에서 언급되는 특정 시각적 요소를 결정하기 위한 예시적인 프로세스를 도시한다.
도 6은 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 의도된 시각적 요소를 필터링하고 식별하기 위한 프로세스를 도시한다.
대화형 컴퓨팅 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 이해하고 해결하는데 있어서 정확성을 향상시키는 기술이 본 명세서에 설명되어 있다. 디스플레이상에 정보를 제시하는 컴퓨팅 시스템의 가용성 및 사용이 증가함에 따라, 사용자는 시각적 요소들과 관련된 작업을 수행하기 위하여 디스플레이 상의 시각적 요소들을 언급하며 시스템에게 말을 하는 기회를 점점 더 많이 얻는다. 사용자 시선을 추적하고, 제스처를 가진 사용자 시선 및/또는 음성 입력에 기초하여 시선 입력을 활용하는 것은, 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 시스템이 이해하고 해결할 수 있는 정확성을 향상시킴으로써 대화형 시스템에서의 음성 언어(spoken language) 이해를 향상시킬 수 있다.
본 명세서에서 기술된 기술들은 시선 입력을 음성 입력과 결합하여 사용자가 디스플레이상에서 언급하거나 다른 시각적 컨텍스트에서 제시되는 시각적 요소들을 보다 정확하게 식별한다. 적어도 하나의 예에서, 본 명세서에 설명된 기술들은 시선을 검출하고, 음성을 인식하고, 시선 및/또는 음성 입력과 관련된 특징들에 적어도 부분적으로 기초하여 시각적 컨텍스트에서 시각적 요소들에 대한 사용자의 의도를 해석한다. 시선 입력으로 음성 입력을 보완하는 다중 모드 통신은 사용자 발언이 의도된 목표 대상인 시각적 요소들을 식별할 때 오류율을 감소시킨다. 즉, 사용자가 보고 있고/있거나 집중하고 있는 것을 아는 것은 사용자 발언에서 언급하는 표현을 해결할 수 있는 정확성을 향상시킴으로써 음성 언어 이해를 향상시킬 수 있다. 음성 및 시선 입력을 결합하면 사용자가 대화형 컴퓨팅 시스템과 상호 작용하고 있을 때 사용자가 의미하고/의미하거나 언급하는 것을 확인하는 프로세스를 간소화할 수 있다.
예시적인 환경
아래에서 설명하는 환경은 하나의 예를 구성하며 아래에 설명된 시스템을 어떤 하나의 특정한 동작 환경에 적용하는 것을 제한하려는 의도가 아니다. 청구된 주제의 사상 및 범위를 벗어나지 않고 다른 환경들이 사용될 수 있다. 본 명세서에서 설명된 다양한 유형의 처리는 독립형 컴퓨팅 시스템, 네트워크 환경(예를 들어, LAN(local area network) 또는 WAN(wide area network), 피어-투- 피어 네트워크 환경, 분산 컴퓨팅(예를 들어, 클라우드 컴퓨팅) 환경 등을 포함하되 이에 국한되지 않는 여러 가지 환경에서 구현될 수 있다.
도 1은 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위한 예시적인 환경(100)을 도시한다. 환경(100)은 하나 이상의 사용자(들)(102)가 하나 이상의 사용자 장치(들)(104)를 통해 시각적 컨텍스트와 상호 작용하는 것을 포함한다. 시각적 컨텍스트는 사용자에게 정보를 제시하는 임의의 환경을 포함할 수 있고, 제시된 정보에서 사용자가 보는 것에 기초하여 동작(actions) 및/또는 선택에 관한 사용자 입력을 수신하도록 구성된다. 시각적 컨텍스트는 웹 브라우저, 대화형 상호 작용 시스템, 휴먼 로봇 및/또는 다른 휴먼/기계 상호 작용 시스템 등을 포함할 수 있다. 적어도 하나의 예에서, 웹 브라우저는 사용자가 임의의 웹 페이지를 브라우징할 수 있게 해주는 웹 브라우저(예를 들어, Internet Explorer®, Chrome®, Safari® 등)와 같은 자유로운 형태의 웹 브라우저일 수 있다. 대화형 상호 작용 시스템은 사용자 인터페이스를 통해 영화, 레스토랑, 시간 등을 나타내는 시각적 요소들을 사용자(102)에게 제시할 수 있는 애플리케이션일 수 있다.
하나 이상의 사용자 장치(들)(104)는 예를 들어 데스크탑 컴퓨터, 랩톱 컴퓨터, 스마트폰, 비디오 게임 콘솔, 텔레비전, 또는 도 2와 관련하여 이하에서 설명되는 임의의 사용자 장치(들)(104)를 포함할 수 있다. 하나 이상의 사용자 장치(들)(104)는 추적 컴포넌트(106), 및 적어도 일부 예에서 디스플레이(108)와 통신할 수 있다. 적어도 하나의 예에서, 추적 컴포넌트(106) 및/또는 디스플레이(108)는 하나 이상의 사용자 장치(들)(104) 내에 통합될 수 있다. 다른 예들에서, 추적 컴포넌트(106) 및/또는 디스플레이(108)는 하나 이상의 사용자 장치(들)(104)에 연결된 개별 장치일 수 있다. 도 1에서, 디스플레이(108)는 사용자 장치(104) 내에 통합되고, 추적 컴포넌트(106)는 사용자 장치(104)와는 독립적이다. 추적 컴포넌트(106)는 눈 시선, 머리 포즈, 몸 움직임 등을 추적하는데 사용될 수 있는 임의의 센서, 카메라, 장치, 시스템 등을 포함할 수 있다. 예를 들어, 추적 컴포넌트(106)는 Tobii Rex 눈 추적 시스템, Sentry 눈 추적 시스템, 마이크로소프트 Kinect® 기술 등을 포함할 수 있다.
적어도 하나의 예에서, 디스플레이(108)는 사용자 인터페이스를 나타낼 수 있고, 사용자 인터페이스는 전술한 바와 같이 웹 브라우저 또는 대화형 상호 작용 시스템과 같은 시각적 컨텍스트에서 사용자(102)에게 하나 이상의 시각적 요소를 제시할 수 있다. 시각적 요소들은 대화형 컴퓨팅 시스템에 의해 수행될 수 있는 브라우징, 검색, 필터링 등과 같은 작업 및/또는 동작과 관련된 텍스트, 객체 및/또는 항목을 포함할 수 있다. 시각적 요소들은 시각적 요소들과 관련된 작업 및/또는 동작을 수행하도록 대화형 컴퓨팅 시스템에 지시하는 사용자 상호 작용을 수신하기 위해 디스플레이(108)를 통해 사용자(102)에게 제공될 수 있다. 몇몇 예에서, 시각적 컨텍스트는 다양한 형태의 하이퍼링크, 버튼, 텍스트 박스 등을 포함하는 웹 브라우저를 포함할 수 있다. 하이퍼링크, 버튼, 텍스트 박스 등은 각각 상이한 시각적 요소를 나타낼 수 있다. 다른 예들에서, 시각적 컨텍스트는 애플리케이션 인터페이스와 같은 대화형 상호 작용 시스템을 포함할 수 있고, 시스템에 저장된 영화, 서적, 이미지, 레스토랑 등과 같은 항목 세트를 제시할 수 있다. 영화, 서적, 이미지, 레스토랑 등을 나타내는 텍스트 및/또는 이미지는 각각 상이한 시각적 요소를 나타낼 수 있다. 다른 예들에서, 시각적 컨텍스트는 휴먼 로봇 및/또는 다른 휴먼/기계 상호 작용 시스템을 포함할 수 있다. 이러한 예들에서, 디스플레이(108)는 시스템의 일부로서 포함될 수 없고, 시각적 요소들은 물리적인 서적, 비디오, 이미지 등을 포함할 수 있다. 시각적 요소들은 동적이고/동적이거나 상황에 따를 수 있고 시각적 컨텍스트 및 시각적 요소들과의 사용자(102) 상호 작용에 따라 바뀔 수 있다.
전술한 바와 같이, 하나 이상의 사용자 장치(들)(104)는 컴퓨터화된 대화형 시스템의 시각적인 컨텍스트와 관련될 수 있다. 하나 이상의 사용자(들)(102)는 시선, 음성, 제스처, 음성 운율, 얼굴 표정 등과 같은 다양한 통신 모드를 통해 시각적 컨텍스트와 상호 작용할 수 있다. 사용자 입력은 음성 입력(110), 시선 입력(112), 제스처 입력 등 중 하나 이상을 포함할 수 있다. 일부 예들에서, 적어도 2명의 사용자(들)(102)가 시각적 컨텍스트와 상호 작용할 수 있다. 음성 입력(110)을 검출 및/또는 수신하기 위해 하나 이상의 사용자 장치(들)(104)와 관련될 수 있는 마이크로폰 및 컴포넌트는 제1 사용자에 의해 말해진 사용자 음성 입력(110) 및 제2 사용자에 의해 말해진 음성 입력(110)의 차이를 검출할 수 있다. 음성 입력들(110) 간의 차이를 검출하는 것은 하나 이상의 사용자 장치(들)가 제1 사용자의 시선 입력(112)을 제1 사용자의 음성 입력(110)에 일치시키고, 제1 사용자의 입력들을 제2 사용자의 시선 입력(112) 및 제2 사용자의 음성 입력(110)과 구별할 수 있게 한다.
사용자 발언은 음성 입력(110)으로부터 표기된(transcribed) 입력을 포함할 수 있다. 일부 예들에서, 사용자 발언은 시각적 컨텍스트에서 하나 이상의 시각적 요소에 대한 언급을 포함할 수 있다. 사용자 발언에서 언급되는 하나 이상의 시각적 요소는 사용자(102)가 상응하는 동작 또는 작업을 수행하기 위해 상호 작용하거나 지시하려는 시각적 요소들을 나타낼 수 있다. 사용자(102)는 사용자 발언을 구성할 수 있는 어휘, 문법, 및/또는 의도의 선택에 대한 제약 없이 시각적 컨텍스트와 상호 작용할 수 있다. 일부 예들에서, 사용자 발언은 표기(transcription) 오류 및/또는 오류를 유발할 수 있는 특정 음성 패턴에 기초한 오류를 포함할 수 있다.
사용자 발언은 대화형 시스템이 시각적 컨텍스트에 제시된 시각적 요소들과 관련된 작업을 수행하도록 지시하는 명령을 포함할 수 있다. 사용자 발언은 스크롤, 디스플레이 상의 링크를 따라가는 것, 양식 내의 공란 채우기 등의 요청과 같은 사용자 동작 또는 사용자 선택을 실행하기 위한 명령을 포함할 수 있다. 일부 예들에서, 언급은 시각적 컨텍스트에서 사용자에게 제시되는 시각적 요소들과 독립적으로, 일반적인 요청을 포함할 수 있다. 예를 들어, 사용자(102)는 컴퓨터화된 대화형 시스템에 "근처에 있는 영화를 보여주세요(show me the movies)" 또는 "신발 가게에 데려가 주세요(take me to the shoes)"라고 요청할 수 있다. 다른 예들에서, 언급은 시각적 컨텍스트에서 사용자(102)에게 제시되는 시각적 요소를 언급하는 명령을 포함할 수 있다. 예를 들어, 사용자(102)는 워싱턴 주의 시애틀(SEA)에서 하와이섬의 마우이(OGG)까지 비행하기 위한 다수의 출발 항공 옵션을 볼 수 있으며, 구입할 항공편을 식별할 수 있다. 사용자(102)는 도 1의 음성 입력(110)에 도시된 바와 같이 "이 항공편을 내 장바구니에 추가해주세요(add this flight to my cart)"라는 단어들을 말할 수 있다. 사용자 발언은 전술한 바와 같이 음성 입력(110)으로부터 표기될 수 있다. 전술한 바와 같이, 사용자의 발언은 음성 입력(110)으로부터 표기될 수 있다.
"이 항공편을 내 장바구니에 추가해주세요"라는 사용자의 발언은 애매모호한데, 컴퓨터화된 대화형 시스템이 사용자(102)에게 제시된 다수의 항공편 중 어느 항공편을 사용자(102)가 언급하고 있는지 알지 못할 수 있기 때문이다. 컴퓨터화된 대화형 시스템은 사용자(102)가 발언하기 전, 발언하는 도중, 발언한 직후에, 어느 항공편을 보고 있는지를 고려함으로써, 사용자 발언에서 언급된 항공편을 더욱 쉽게 식별할 수 있다.
적어도 하나의 예에서, 사용자 발언은 전술한 바와 같은 오류를 포함할 수 있다. 일부 예들에서, 사용자 발언은 음성 입력(110)으로부터의 잘못된 표기를 포함할 수 있다. 사용자(102)는 "이 항공편을 내 장바구니에 추가해주세요(add this flight to my cart)"라는 단어들을 말했을지 모르지만, 표기된 사용자 발언은 "이 싸움을 내 장바구니에 추가해주세요(add this fight to my cart)"라는 단어들을 포함할 수 있다. 다른 예들에서, 사용자 발언은 표기 오류를 유발하는 특정 음성 패턴을 반영할 수 있다. 사용자(102)는 "오렌지(orange)"라는 단어를 발음하는 데 어려움을 겪을 수 있으며 캘리포니아 주 오렌지 카운티(Orange County)로의 항공권을 구입하기를 원할 수 있다. 사용자(102)는 "오렌지 카운티로의 항공편을 내 장바구니에 추가해주세요(add the flight to Orange County to my cart)"라는 단어들을 말하고 싶어할 수 있지만, 사용자(102)는 "오렌지(orange)"를 "온지(onge)"로 잘못 발음하기 때문에, 사용자 발언은 오류를 포함할 수 있다. 그러나, 표기 오류 또는 표기 오류를 유발하는 음성 패턴의 두 가지 예에서, 컴퓨터화된 대화형 시스템은 시선 입력(112)을 활용하여 오류가 있는 사용자 발언을 해결할 수 있다. 즉, 사용자(102)가 사용자 발언하기 전, 발언하는 도중 또는 발언한 직후에 사용자(102)가 어떤 항공편을 보고/보거나 어느 항공편에 그의 또는 그녀의 시선을 고정하는지 확인함으로써, 컴퓨터화된 대화형 시스템은 사용자(102)가 구입하기를 원하는 항공편을 식별할 수 있다.
시선은 음성 입력(110) 동안에 사용자의 눈이 향하고 있는 방향을 나타낼 수있다. 추적 컴포넌트(106)는 사용자 시선을 추적하여, 시선 입력(112)을 생성할 수 있다. 시선 입력(112)은 눈의 시선 입력, 머리 포즈 입력, 및/또는 코 포인팅(nose pointing) 입력을 포함할 수 있다. 머리 포즈 입력은 음성 입력(110) 동안 사용자의 머리가 포즈를 취하는 구성을 포함할 수 있다. 코 포인팅은 음성 입력(110) 동안 사용자의 코가 가리키는 방향을 포함할 수 있다. 머리 포즈 입력 및 코 포인팅 입력은 각각 눈 시선 입력에 대한 프록시(proxy)로서 작용할 수 있다. 대안적 및/또는 추가적 얼굴 방위 특성(예를 들어, 머리 포즈 및/또는 코 포인팅)이 추적 컴포넌트(106)의 범위에 따라 사용될 수 있다. 적어도 하나의 예에서, 추적 컴포넌트(106)는 사용자(102)의 얼굴로부터 미리 결정된 거리 내에 있을 수 있고, 이에 따라, 추적 컴포넌트(106)는 시선 입력(112)을 위해 사용자(102) 눈 입력을 추적할 수 있다. 대안적인 예에서, 추적 컴포넌트는 사용자(102)의 얼굴로부터 미리 결정된 거리를 벗어날 수 있고, 결과적으로 추적 컴포넌트(106)는 사용자(102) 시선에 대한 프록시로서 머리 포즈 또는 코 포인팅을 추적할 수 있다.
추적 컴포넌트(106)는 사용자(102)에 대한 시선 입력(112)을 생성하기 위해 사용자(102)의 눈의 움직임을 추적할 수 있다. 컴퓨터화된 대화형 시스템은 음성 입력(110) 및 시선 입력(112)으로부터 유도된 사용자 발언에 적어도 부분적으로 기초하여, 사용자(102)가 음성 입력(110)에서 어느 시각적 요소와 상호작용할 의도였는지 식별할 수 있다. 음성 입력(110)과 시선 입력(112)의 조합을 활용함으로써, 컴퓨터화된 대화형 시스템이 음성 입력(110)에서 언급된 의도된 시각적 요소를 식별할 수 있는 정확도를 향상시킬 수 있다.
도 2는 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위해 구현될 수 있는 다양한 장치 및 컴포넌트를 포함하는 동작 환경(200)의 일례를 도시한다. 적어도 하나의 예에서, 본 명세서에 설명된 기술들은 (예를 들어, 서버, 클라우드 등에 의해) 원격으로 수행될 수 있다. 일부 예들에서, 본 명세서에 설명된 기술들은 이하에서 설명되는 바와 같이 컴퓨팅 장치상에서 국부적으로 수행될 수 있다. 보다 구체적으로, 예시적인 동작 환경(200)은 도 1에 도시된 바와 같이, 서비스 제공자(202), 하나 이상의 네트워크(들)(204), 하나 이상의 사용자(들)(102), 및 하나 이상의 사용자(102)와 관련된 하나 이상의 사용자 장치(들)(104)를 포함할 수 있다.
도시된 바와 같이, 서비스 제공자(202)는 하나 이상의 서버(들) 및 다른 기계들(206) 및/또는 하나 이상의 처리 장치(들)(104)를 포함할 수 있고, 이 중 어느 것이라도 하나 이상의 처리 장치(들)(208) 및 컴퓨터 판독 가능 매체(210)를 포함할 수 있다. 다양한 예들에서, 서비스 제공자(202)는 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하는데 있어서 오류율을 감소시킬 수 있다.
일부 예들에서, 네트워크(들)(204)는 인터넷과 같은 당업계에 공지된 임의의 유형의 네트워크일 수 있다. 또한, 하나 이상의 사용자 장치(들)(104)는 글로벌 또는 로컬 유선 또는 무선 접속(예를 들어, LAN(local area network), 인트라넷 등)에 의한 것과 같은 임의의 방식으로 네트워크(들)(204)에 통신 가능하게 연결될 수 있다. 네트워크(들)(204)는 서버(들) 및 다른 기계들(206) 및/또는 하나 이상의 사용자(들)(102)와 관련된 하나 이상의 사용자 장치(들)(104) 간의 통신을 용이하게 할 수 있다.
일부 예들에서, 하나 이상의 사용자(들)(102)는 하나 이상의 사용자 장치(들)(104)와 관련된 다양한 기능을 수행하기 위하여 대응 사용자 장치(들)(104)와 상호 작용할 수 있으며, 사용자 장치는 하나 이상의 처리 장치(들)(208), 컴퓨터 판독 가능 매체(210), 추적 컴포넌트(106) 및 디스플레이(108)를 포함할 수 있다.
하나 이상의 사용자 장치(들)(104)는 다양한 종류의 장치 유형을 나타낼 수 있으며 임의의 특정 유형의 장치에 제한되지 않는다. 사용자 장치(들)(104)의 예는 고정식(stationary) 컴퓨터, 모바일 컴퓨터, 내장된 컴퓨터, 또는 이들의 조합을 포함할 수 있지만, 이에 한정되는 것은 아니다. 예시적인 고정식 컴퓨터는 데스크탑 컴퓨터, 워크 스테이션, 개인용 컴퓨터, 씬(thin) 클라이언트, 단말기, 게임 콘솔, PVR(personal video recorder), 셋톱 박스 등을 포함할 수 있다. 예시적인 모바일 컴퓨터는 랩탑 컴퓨터, 태블릿 컴퓨터, 웨어러블 컴퓨터, 이식형(implanted) 컴퓨팅 장치, 원격 통신 장치, 자동차 컴퓨터, PDA(personal data assistant), 휴대용 게임 장치, 미디어 플레이어, 카메라 등을 포함할 수 있다. 예시적인 내장형 컴퓨터는 네트워크 가능 텔레비전, 컴퓨팅 장치, 가전 제품, 마이크로 컨트롤러, 디지털 신호 프로세서 또는 임의의 다른 종류의 처리 장치에 포함시키기 위한 통합 컴포넌트 등을 포함할 수 있다.
서비스 제공자(202)는 온라인 통신 플랫폼을 포함하는 통신 플랫폼으로부터의 특징들의 세트를 활용(leverage)할 수 있는 임의의 엔티티, 서버(들), 플랫폼 등일 수 있다. 또한, 도시된 바와 같이, 서비스 제공자(202)는 하나 이상의 처리 장치(들)(208) 및 메모리와 같은 컴퓨터 판독 가능 매체(210)를 포함할 수 있는 하나 이상의 서버(들) 및/또는 다른 기계들(206)을 포함할 수 있다. 하나 이상의 서버(들) 및/또는 다른 기계들(206)은 이하에서 설명되는 바와 같이 장치들을 포함할 수 있다.
예들은 하나 이상의 서버(들) 및/또는 다른 기계들(206)에 포함될 수 있는 장치(들)가 자원을 공유하거나, 부하를 밸런싱하거나, 성능을 증가시키거나, 시스템 대체 작동(fail-over) 지원 또는 리던던시를 제공하거나, 또는 다른 목적을 위한 클러스터 또는 다른 그룹화된 구성에서 동작하는 하나 이상의 컴퓨팅 장치를 포함할 수 있는 시나리오들을 지원한다. 하나 이상의 서버(들) 및/또는 다른 기계들(206)에 포함된 장치(들)는 전통적인 서버 유형 장치, 데스크탑 컴퓨터 유형 장치, 모바일 장치, 특수 목적 유형 장치, 내장형 장치 및/또는 웨어러블 유형 장치와 같은 다양한 카테고리 또는 클래스의 장치들에 속할 수 있다. 따라서, 데스크탑 컴퓨터로서 도시되었지만, 장치(들)는 다양한 종류의 장치 유형을 포함할 수 있고 특정 유형의 장치로 제한되지 않는다. 하나 이상의 서버(들) 및/또는 다른 기계들(206)에 포함된 장치(들)는 데스크탑 컴퓨터, 서버 컴퓨터, 웹 서버 컴퓨터, 개인용 컴퓨터, 모바일 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 웨어러블 컴퓨터, 이식형 컴퓨팅 장치, 원격 통신 장치, 자동차 컴퓨터, 네트워크 가능 텔레비젼, 씬 클라이언트, 단말기, PDA, 게임 콘솔, 게임 장치, 워크 스테이션, 미디어 플레이어, PVR, 셋톱 박스, 카메라, 컴퓨팅 장치, 가전 제품 또는 임의의 다른 종류의 컴퓨팅 장치에 포함시키기 위한 통합 컴포넌트를 나타낼 수 있지만, 이에 한정되는 것은 아니다.
하나 이상의 서버(들) 및/또는 다른 기계들(206)에 포함될 수 있는 장치(들)는, 예를 들어, 버스를 통하여 컴퓨터 판독 가능 매체(210)에 동작 가능하게 연결된 하나 이상의 처리 장치(들)(208)를 구비한 임의의 유형의 컴퓨팅 장치를 포함할 수 있는데, 어떤 경우에 버스는 시스템 버스, 데이터 버스, 어드레스 버스, PCI 버스, 미니-PCI 버스 및 임의의 다양한 로컬, 주변 장치 및/또는 독립 버스 중 하나 이상을 포함할 수 있다. 컴퓨터 판독 가능 매체(210) 상에 저장된 실행 가능한 명령어들은, 예를 들어 디스플레이 모듈(212), 수신 모듈(214), 추출 모듈(216), 분석 모듈(218) 및 처리 장치(들)(208)에 의해 로드되고 실행될 수 있는 임의의 다른 모듈, 프로그램 또는 애플리케이션을 포함할 수 있다. 대안적으로, 또는 부가적으로, 여기에 설명된 기능은 가속 장치(accelerator)와 같은 하나 이상의 하드웨어 로직 컴포넌트에 의해 적어도 부분적으로 수행될 수 있다. 예를 들어, 제한 없이, 사용될 수 있는 예시적 유형의 하드웨어 로직 컴포넌트는 FPGA(Field-Programmable Gate Array), ASIC(Application-Specific Integrated Circuit), ASSP(Application-Specific Standard Product), SOC(System-on-a-chip system), CPLD(Complex Programmable Logic Device) 등을 포함한다. 예를 들어 가속 장치는 FPGA 패브릭에 내장된 CPU 코스를 포함하는 ZYLEX 또는 ALTERA 제품과 같은 하이브리드 장치를 나타낼 수 있다.
하나 이상의 서버(들) 및/또는 다른 기계들(206)에 포함될 수 있는 장치(들)는 장치(들)가 사용자 입력 주변 장치들(예컨대, 키보드, 마우스, 펜, 게임 컨트롤러, 음성 입력 장치, 터치 입력 장치, 제스처 입력 장치, 눈 및/또는 신체 추적 장치 등) 및/또는 출력 주변 장치들(예컨대, 디스플레이, 프린터, 오디오 스피커, 햅틱 출력 등)과 같은 다른 장치들과 통신할 수 있도록 하기 위하여, 버스에 결합된 하나 이상의 입출력(I/O) 인터페이스(들)를 더 포함할 수 있다. 하나 이상의 입력/출력(I/O) 인터페이스(들)는 사용자 장치(들)(104)로 하여금 추적 컴포넌트(106) 및/또는 디스플레이(108)와 통신할 수 있게 해 준다. 하나 이상의 서버(들) 및/또는 다른 기계들(206)에 포함될 수 있는 장치들은 컴퓨팅 장치와 하나 이상의 사용자 장치(들)(104)와 같은 다른 네트워크된 장치들 간의 통신을 가능하게 하기 위하여, 버스에 결합된 하나 이상의 네트워크 인터페이스를 또한 포함할 수 있다. 이러한 네트워크 인터페이스(들)는 네트워크를 통하여 통신을 송신하고 수신하기 위하여, 하나 이상의 네트워크 인터페이스 컨트롤러(network interface controller, NIC) 또는 다른 유형의 트랜스시버 장치들을 포함할 수 있다. 단순화를 위해, 일부 컴포넌트들은 도시된 장치에서 생략되어 있다.
사용자 장치(들)(104)는 사용자 장치(들)(104)가 사용자 입력 주변 장치들(예를 들어, 키보드, 마우스, 펜, 게임 컨트롤러, 음성 입력 장치, 터치 입력 장치, 제스처 입력 장치, 눈 및/또는 신체 추적 장치 등) 및/또는 출력 주변 장치들(예를 들어, 디스플레이, 프린터, 오디오 스피커, 햅틱 출력 등)과 같은 다른 장치들과 통신할 수 있게 하기 위하여 버스에 연결된 하나 이상의 입력/출력(I/O) 인터페이스(들)를 더 포함할 수 있다. 하나 이상의 입력/출력(I/O) 인터페이스(들)는 사용자 장치(104)가 추적 컴포넌트(106) 및/또는 디스플레이(108)와 통신하도록 허용할 수 있다.
처리 장치(들)(208)는 예를 들어, 중앙 처리 장치(central processing unit, CPU) 유형의 처리 장치, GPU 유형의 처리 장치, FPGA(Field-Programmable Gate Array), 다른 클래스의 DSP(digital signal processor), 또는 어떤 경우에 CPU에 의해 구동될 수 있는 다른 하드웨어 로직 컴포넌트들을 나타낼 수 있다. 예를 들어, 사용될 수 있는 예시적인 유형의 하드웨어 로직 컴포넌트들은 ASIC(Application-Specific Integrated Circuit), ASSP(Application-Specific Standard Product), SOC(System-on-a Chip) 시스템, CPLD(Complex Programmable Logic Device) 등을 포함하는데, 제한은 없다. 다양한 예들에서 처리 장치(들)(208)는 하나 이상의 사용자 장치(들)(104)가, 전술한 그리고 아래 개시에서 좀 더 상세히 설명되는 다양한 기능을 수행하도록 하기 위하여, 하나 이상의 모듈 및/또는 프로세스를 실행할 수 있다. 또한, 처리 장치(들)(208) 각각은 프로그램 모듈, 프로그램 데이터, 및/또는 하나 이상의 운영 체제를 저장할 수 있는 자체 로컬 메모리를 소유할 수 있다.
적어도 하나의 예에서, 하나 이상의 사용자 장치(들)(104) 내의 컴퓨터 판독 가능 매체(210)는 사용자 장치(들)(104)와 사용자(들)(102) 간의 상호 작용을 용이하게 하는 컴포넌트들을 포함할 수 있다. 예를 들어, 컴퓨터 판독 가능 매체(210)는 적어도 컴퓨터 판독 가능 명령어들로서 구현될 수 있는 디스플레이 모듈(212), 수신 모듈(214), 추출 모듈(216), 및 분석 모듈(208), 및 다양한 데이터 구조 등을 포함하고, 적어도 하나의 처리 장치(들)(208)를 통하여 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결할 때 오류율을 줄이도록 장치를 구성할 수 있다.
적어도 하나의 예에서, 디스플레이 모듈(212)은 디스플레이(108)와 통신하여, 시각적 요소들(예를 들어, 텍스트, 객체, 항목 등)이 디스플레이(108) 상에 표시되도록 구성될 수 있다. 전술한 바와 같이, 디스플레이(108)는 사용자 인터페이스를 나타낼 수 있고, 디스플레이 모듈(212)은 웹 브라우저 또는 대화형 상호 작용 시스템과 관련된 사용자 인터페이스에서 하나 이상의 시각적 요소를 사용자(102)에게 제시하도록 디스플레이와 통신할 수 있다. 시각적 요소들은 대화형 컴퓨팅 시스템에 의해 수행될 수 있는 브라우징, 검색, 필터링 등과 같은 작업 및/또는 동작과 관련된 텍스트, 객체 및/또는 항목을 포함할 수 있다. 디스플레이 모듈(212)은 전술한 바와 같이 시각적 요소들과 관련된 작업 및/또는 동작을 수행하도록 대화형 컴퓨팅 시스템에게 지시하는 사용자 상호 작용을 수신하기 위해, 디스플레이(108)를 통해 사용자(102)에게 시각적 요소들을 제시할 수 있다.
적어도 하나의 예에서, 수신 모듈(214)은 음성 입력(110), 제스처, 시선 입력(112), 몸의 위치(body positioning) 등과 같은 입력을 하나 이상의 사용자(들)(102)로부터 수신하도록 구성될 수 있다. 또한, 수신 모듈(214)은 음성 입력(110)을 추출 모듈(216)에 의한 처리를 위해 사용자 발언으로 표기하도록 구성될 수 있다. 추출 모듈(216)은 시각적 컨텍스트에서 사용자 입력 및 시각적 요소들에 적어도 부분적으로 기초하여 특징들을 추출하도록 구성될 수 있다. 예를 들어, 추출 모듈(216)은 어휘 유사성 특징, 음성 일치 특징, 시선 특징 및/또는 히트 맵 특징을 추출할 수 있다. 추출 모듈(216) 및 특징들에 관한 부가적인 세부 사항은 아래에서 설명된다. 분석 모듈(218)은 후술되는 바와 같이, 추출된 특징들에 적어도 부분적으로 기초하여 시각적 컨텍스트에서 시각적 요소들에 대한 언급들을 해결하도록 구성될 수 있다.
사용자 장치(들)(104) 및/또는 서버들 및/또는 다른 기계들(206)의 정확한 구성 및 유형에 따라, 컴퓨터 판독 가능 매체(210)는 컴퓨터 저장 매체 및/또는 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 다른 데이터와 같은 정보의 저장을 위하여 임의의 방법 또는 기술로 구현되는, 휘발성 메모리, 비휘발성 메모리, 및/또는 다른 영구적인 및/또는 보조 컴퓨터 저장 매체, 착탈식 및 비착탈식 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 메모리는 컴퓨터 저장 매체의 예이다. 따라서, 컴퓨터 저장 매체는 장치의 일부 또는 장치 외부에 있는 장치 및/또는 하드웨어 컴포넌트에 포함된 유형의(tangible) 및/또는 물리적 형태의 매체를 포함하며, RAM(random-access memory), SRAM(static random-access memory), DRAM(dynamic random-access memory), PRAM(phase change memory), ROM(read-only memory), EPROM(erasable programmable read-only memory), EEPROM(electrically erasable programmable read-only memory), 플래시 메모리, CD-ROM(compact disc read-only memory), DVD(digital versatile disk), 광학 카드 또는 기타 광학 저장 매체, 소형 하드 드라이브, 메모리 카드, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치, 자기 카드 또는 다른 자기 저장 장치 또는 매체, 솔리드 스테이트 메모리 장치(solid-state memory devices), 저장 장치 어레이, 네트워크 부착 저장 장치, 저장 영역 네트워크, 호스트 컴퓨터 저장 장치 또는 임의의 다른 저장 장치 메모리, 저장 장치, 및/또는 컴퓨팅 장치에 의해 액세스하기 위한 정보를 저장하고 유지하는데 사용될 수 있는 저장 매체를 포함하나, 이에 한정되는 것은 아니다.
대조적으로, 통신 매체는 컴퓨터 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들, 또는 반송파와 같은 변조된 데이터 신호로 된 다른 데이터 또는 다른 전송 메카니즘을 구현할 수 있다. 여기에 정의된 바와 같이, 컴퓨터 저장 매체는 통신 매체를 포함하지 않는다.
도 3은 시각적 컨텍스트에서 시각적 요소들에 대한 언급을 해결하기 위해 구현될 수 있는 예시적인 동작 환경(300)을 도시한다. 적어도 하나의 예에서, 동작 환경(300)은 자유형 웹 브라우징 시각적 컨텍스트, 애플리케이션 인터페이스 등에서 사용자들이 비행기 티켓 구매, 레스토랑 찾기, 온라인 쇼핑 등과 같은 공통 작업들을 수행하게 할 수 있다. 후술하는 바와 같이, 예시적인 동작 환경(300)은 수신 모듈(214), 추출 모듈(216) 및 분석 모듈(218)을 활용하여, 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 시각적 요소들을 식별하는데 음성 언어 이해가 사용될 수 있는 정확도를 향상시킨다. 디스플레이 모듈(212)은 도 3에 도시되지 않았다.
전술한 바와 같이, 수신 모듈(214)은 음성 입력(302)(예를 들어, 음성 입력(110)), 제스처, 시선 입력(304)(예를 들어, 시선 입력(112)), 몸의 위치 등과 같은 입력을 하나 이상의 사용자(들)(102)로부터 수신하도록 구성될 수 있다. 수신 모듈(214)은 음성 입력(302)을 수신하도록 구성된 사용자 장치(104)와 관련된 마이크로폰 또는 다른 장치를 통해 음성 입력(302)을 수신할 수 있다. 적어도 하나의 예에서, 음성 입력(302)은 사용자 장치(104)의 디스플레이(108)상의 시각적 요소에 대한 언급을 포함할 수 있다. 언급은 웹 페이지 상의 항목을 명시적으로 식별(예를 들어, 직접 언급)할 수 있거나, 언급은 웹 페이지 상의 항목을 암시적으로 식별(예를 들어, 간접 언급)할 수 있다. 예를 들어, 음성 입력(302)은 음성 입력(302)에서 링크, 항목, 영화 등의 전체 또는 부분 텍스트를 포함함으로써 링크, 항목, 영화 등을 직접 언급할 수 있다. 다른 예들에서, 음성 입력(302)은 "나에게 빨간 신발을 보여 주세요(show me the red shoes)", "나는 저것을 사고 싶습니다(I want to buy that one)", 또는 "최고가 좋아 보입니다(the top flight looks good)"와 같은 암시적 언급을 포함할 수 있다. 음성 입력(302)은 음성 입력을 구성할 수 있는 어휘, 문법 및/또는 의도 선택에 대한 제약에서 벗어날 수 있다. 수신 모듈(214)은 음성 입력(302)을 표기함으로써 사용자 발언을 생성하도록 구성될 수 있다. 사용자 발언은 처리를 위해 추출 모듈(216)로 전송될 수 있다.
또한, 수신 모듈(214)은 추적 컴포넌트(106)를 통해 시선 입력(304)을 수신할 수 있다. 적어도 하나의 예에서, 추적 컴포넌트(106)는 사용자(102)의 눈 시선 고정(fixation)을 추적한다. 일부 실시 예들에서, 추적 컴포넌트(106)는 전술한 바와 같이, 사용자(102)의 머리 포즈 및/또는 사용자의 코가 가리키는 방향을 시선 고정을 위한 프록시로서 추적할 수 있다. 추적 컴포넌트(106)는 수신 모듈(214)에 시선 입력(304)을 제공할 수 있다.
수신 모듈(214)은 입력 데이터(306)를 추출 모듈(216)에 출력할 수 있다. 입력 데이터(306)는 사용자 발언, 시선 입력(304) 및/또는 다른 형태의 사용자(102) 입력으로 표기되는 음성 입력(302)을 포함할 수 있다. 추출 모듈(216)은 입력 데이터(306)에 적어도 부분적으로 기초하여 특징들을 추출하도록 구성될 수 있다. 추출 모듈(216)은 어휘 특징들, 시선 특징들, 히트 맵 특징들 등을 추출할 수 있다.
추출 모듈(216)은 하나 이상의 어휘 특징을 추출할 수 있다. 어휘적 유사성은 단어들 및 관련 의미를 사용하여 두 개 이상의 단어 세트에 있는 단어들 사이의 유사성을 결정하는 프로세스를 설명한다. 어휘 특징들은 시각적 컨텍스트에서 하나 이상의 시각적 요소와 관련된 텍스트를 구성하는 단어들과 음성 입력(302)의 단어들 사이의 어휘적 유사성을 결정할 수 있다. 추출 모듈(216)은 자동 음성 인식(automatic speech recognition, "ASR") 모델 및/또는 일반 언어 모델을 활용하여 어휘 특징들을 계산할 수 있다. 추출 모듈(216)은 시각적 항목의 시각적 컨텍스트에 따라 다양한 모델 및/또는 기술을 활용할 수 있다. 예를 들어, 시각적 컨텍스트가 웹 브라우저를 포함하는 경우, 추출 모듈(216)은 파서(parser)를 활용하여 디스플레이(108)상의 시각적 요소들과 관련된 링크들을 파싱할 수 있다.
어휘 특징들의 비한정적인 예는 시각적 컨텍스트에서 하나 이상의 시각적 요소와 관련된 텍스트의 용어 벡터와 음성 입력(302) 사이의 코사인 유사성(cosine similarity), 시각적 컨텍스트에서 하나 이상의 시각적 요소와 관련된 텍스트와 음성 입력(302)의 가장 긴 공통 서브 시퀀스의 문자(characters) 수, 및/또는 시각적 컨텍스트에서 하나 이상의 시각적 요소와 관련된 텍스트가 음성 입력(302)에 포함되었는지 여부를 나타내는 이진(binary) 특징을 포함하고, 만일 포함되었다면, 시각적 컨텍스트에서 하나 이상의 시각적 요소와 관련된 텍스트의 길이를 포함한다. 어휘 특징들은 어구(phrase), 단어 및/또는 문자 레벨에서 계산할 수 있다.
추출 모듈(216)은 또한 하나 이상의 시선 특징들을 추출할 수 있다. 시선 특징들은 시각적 요소들과 시선 입력(304)의 고정 지점들 사이의 거리를 다양한 시간에 나타낼 수 있다. 시선 특징들은 시간 기반의 시선 특징들 및/또는 거리 기반의 시선 특징들이 될 수 있다. 거리 기반 특징들 및 시간 기반 특징들은 함께 사용될 수 있다.
시선 특징들을 결정하기 위해, 추출 모듈(216)은 텍스트 및/또는 링크와 관련된 화상(예를 들어, 웹 브라우저 시각적 컨텍스트에서) 및/또는 항목(예를 들어, 대화형 시스템 시각적 컨텍스트에서)을 식별할 수 있고, 텍스트 및/또는 이미지와 관련된 영역 또는 주변 거리를 계산할 수 있다. 텍스트 및/또는 이미지와 관련된 계산된 거리 또는 영역은 경계 박스(bounding box)를 나타낼 수 있으며 시선 특징 추출에 사용될 수 있다. 시선 특징들은 경계 박스의 크기 및/또는 사용자(102)의 시선이 경계 박스에서 또는 주변에서 얼마나 자주 고정되는지를 나타내는 빈도를 고려할 수 있다.
추출 모듈(216)은 사용자(102)의 시선이 시각적 컨텍스트에서 어디에 머무는지를 나타내는 고정 지점들을 식별할 수 있다. 추출 모듈(216)은 시선 입력 데이터(306)로부터 개별 고정 지점들을 식별하기 위하여 모델을 활용할 수 있다. 적어도 하나의 예에서, 추출 모듈(216)은 시선 입력 데이터(306)로부터 고정 지점들을 식별하기 위하여, 속도-임계치 식별 알고리즘, 은닉 마르코프 모델 고정 식별(hidden Markov model fixation identification) 알고리즘, 분산-임계치 식별 알고리즘, 최소 스패닝 트리 식별 알고리즘, 관심 영역 식별 알고리즘 및/또는 속도 기반, 분산 기반 및/또는 영역 기반 알고리즘과 같은 모델을 활용할 수 있다. 고정 지점들은 클러스터들로 그룹화될 수 있으며 클러스터들은 개별 시선 위치를 식별하는 데 사용될 수 있다. 클러스터는 미리 결정된 거리(예를 들어, 40 픽셀 미만 등) 내에 위치한 2 이상의 개별 고정 지점에 의해 정의될 수 있다. 고정 지점 클러스터의 중심은 아래에 설명된 시선 특징 추출에 사용할 수 있다.
시선 기능들은 전술한 바와 같이 다양한 시간에 고정 지점들의 하나 이상의 클러스터의 경계 박스와 중심 고정 지점 사이의 거리들을 나타낼 수 있다. 시선 특징들의 비한정적인 예는, 아래 중 하나 이상을 포함할 수 있다:
● 음성 입력(302)의 시작에서 중심 고정 지점으로부터 경계 박스까지의 거리;
● 음성 입력(302)의 끝에서 중심 고정 지점으로부터 경계 박스까지의 거리;
● 음성 입력(302)의 시작과 음성 입력(302)의 끝 사이의 시간 동안 중심 고정 지점으로부터 경계 박스까지의 거리;
● 음성 입력(302)이 시작되기 전에 미리 결정된 시간 윈도우(예를 들어, 1 초, 2 초 등) 동안 중심 고정 지점으로부터 경계 박스까지의 거리;
● 음성 입력(302)이 시작되기 전 미리 결정된 시간 간격(예 : 1 초, 2 초, 3 초 등)에서 경계 박스가 중심 고정 지점의 미리 결정된 반경(예 : 1cm, 3cm 등) 내에 있었는지 여부;
● 음성 입력(302)이 수신된 시점에서 경계 박스가 중심 고정 지점의 미리 결정된 반경(예 : 1cm, 3cm 등) 내에 있었는지 여부;
● 경계 박스의 크기;
● 음성 입력(302) 동안 사용자(102)가 경계 박스를 얼마나 자주 보았는가;
● 음성 입력(302) 동안 사용자(102)가 경계 박스를 본 총 시간 길이;
● 음성 입력(302) 동안 경계 박스가 중심 고정 지점의 미리 결정된 반경(예를 들어, 1cm, 3cm 등) 내에 있었던 빈도; 및/또는
● 음성 입력(302) 동안 경계 박스가 중심 고정 지점의 미리 결정된 반경(예를 들어, 1cm, 3cm 등) 내에 있었던 총 시간 길이.
추출 모듈(216)은 또한 하나 이상의 히트 맵 특징을 추출할 수 있다. 히트 맵은 사용자(102)가 시각적인 컨텍스트에서 볼 수 있는 것의 확률론적 모델을 나타낼 수 있다. 히트 맵은 시선 입력(112)(예를 들어, 시선, 머리 포즈 등)으로부터 계산될 수 있다. 적어도 하나의 예에서, 추출 모듈(216)은 사용자(102)가 시각적 컨텍스트에서 제시되는 임의의 특정 시각적 요소를 본 확률을 모델링하기 위하여 개별적인 고정 지점들에 2차원 가우시안 모델을 활용할 수 있다. 개별 고정 지점들은 전술한 바와 같이 시선 입력(112)(예를 들어, 눈 시선, 머리 포즈 등)으로부터 결정될 수 있다. 일부 예들에서, 가우시안 모델은 미리 결정된 길이의 반경을 사용할 수 있다. 가우시안 모델은 시선 고정이 시간에 따라 어떻게 변화하는지를 모델링할 수 있고, 사용자(102)가 시각적 컨텍스트에서 특정 시각적 요소를 볼 수 있는 가능성을 나타내는데 사용되는 확률을 결정할 수 있다. 적어도 하나의 예에서, 눈 시선 입력(112)에 기초하여 결정된 히트 맵은 머리 포즈 또는 코 포인팅 시선 입력(112)에 기초하여 결정된 히트 맵보다 사용자(102)가 바라볼 수 있는 것을 더 대표할 수 있다.
추출 모듈(216)은 히트 맵을 활용하여 히트 맵 특징들을 추출할 수 있다. 히트 맵 특징들에는 시각적 컨텍스트에서 고정 지점들과 시각적 요소들을 연결하는 하나 이상의 특징이 포함될 수 있다. 전술한 바와 같이, 추출 모듈(216)은 시각적 컨텍스트와 관련된 디스플레이(108) 상에 제시될 수 있는 각각의 시각적 요소(예를 들어, 텍스트, 그림 등)와 관련된 영역 또는 주변 거리를 계산할 수 있다. 시각적 요소와 관련하여 계산된 거리 또는 영역은 경계 박스를 나타낼 수 있으며 히트 맵 특징 추출에 사용될 수 있다. 적어도 하나의 예에서, 히트 맵 특징은 경계 박스 내의 영역과 관련된 히트 맵 확률에 적어도 부분적으로 기초할 수 있다. 경계 박스 내부의 영역과 관련된 히트 맵 확률은 사용자(102)가 디스플레이(108)상의 경계 박스에 대응하는 시각적 요소를 보았을 가능성을 계산하는데 사용될 수 있다. 일부 예들에서, 히트 맵 특징들은 미리 결정된 시간의 윈도우들에 걸쳐 시선 고정을 캡처하는 하나 이상의 특징을 포함할 수 있다.
추출 모듈(216)은 시각적 컨텍스트에서 음성 입력(302), 시선 입력(304) 및 시각적 요소들에 적어도 부분적으로 기초하여 한 세트의 특징(308)을 출력할 수 있다. 특징 세트(308)는 어휘 특징, 눈 시선 특징, 및/또는 히트 맵 특징을 포함할 수 있다.
분석 모듈(218)은 추출된 특징들에 적어도 부분적으로 기초하여 시각적인 컨텍스트에서 시각적 요소들에 대한 언급을 해결하도록 구성될 수 있다. 적어도 하나의 예에서, 분석 모듈(218)은 분류 시스템을 활용하여 개개의 시각적 요소와 관련된 확률을 계산하고 계산된 확률에 적어도 부분적으로 기초하여 어떤 시각적 요소가 음성 입력(302)의 대상인지를 결정할 수 있다. 일부 예들에서, 분석 모듈(218)은 가장 높은 확률을 갖는 시각적 요소를 식별하는 것에 적어도 부분적으로 기초하여 음성 입력의 대상인 시각적 요소를 식별할 수 있다. 다른 예들에서, 분석 모듈(218)은 분류 시스템을 활용하여 미리 결정된 임계치를 초과하는 계산된 확률을 갖는 시각적 컨텍스트 내의 시각적 요소들을 식별할 수 있다. 분석 모듈(218)은 음성 입력(302)의 대상인 시각적 요소를 미리 결정된 임계치를 초과하는 계산된 확률을 갖는 시각적 요소들 중 하나로서 식별할 수 있다.
일부 예들에서, 분석 모듈(218)은 시각적 요소들을 분류하는데 2개 이상의 특징(예를 들어, 어휘 특징, 시선 특징, 히트 맵 특징 등)의 조합을 고려할 수 있다. 적어도 하나의 예에서, 분석 모듈(218)은 추출 모듈(216)에 의해 추출된 특징들(308)의 세트에 적어도 부분적으로 기초하여 특정 시각적 요소가 음성 입력(302)의 의도된 대상인지 여부를 결정하도록 구성된 분류기(classifier)를 활용할 수 있다. 적어도 하나의 예에서, 분류기는 icsiboost 분류기, AdaBoost 분류 기, sleeping-experts 분류기, Naive-Bayes 분류기, Rocchio 분류기, RIPPER 분류 기 등을 포함할 수 있다. 일부 예들에서, 분류기는 2진 분류기를 나타낼 수 있다. 분석 모듈(218)은 특정 시각적 요소가 음성 입력(302)의 대상이었던 가능성의 측정치를 나타내는 의도된 언급의 확률(예를 들어, f(item was referred │item, f_lexical, f_gaze), 여기서 f_lexical은 어휘 특징을 지칭하고, f_gaze을 지칭함)을 출력할 수 있다. 다른 분류기들은 시각적인 컨텍스트에서 시각적 요소에 대한 언급을 해결하기 위해 분석 모듈(218)에 의해 사용될 수 있다.
적어도 하나의 예에서, 분석 모듈(218)은 도 3에 도시된 바와 같이 분류기를 통한 처리를 위해 특징 세트(308)를 수신할 수 있다. 일부 예들에서, 특징 세트는 특정 시각적 요소가 어휘 특징들에 적어도 부분적으로 기초하여 음성 입력(302)에서 언급된 시각적 요소일 확률, 및 특정 시각적 요소가 시선 특징들에 적어도 부분적으로 기초한 시각적 요소일 확률을 포함할 수 있다. 분류기는 두 개의 확률을 함께 곱하여 특정 시각적 요소가 시각적 컨텍스트에서 사용자(102)가 상호 작용하고자 했던 특정 시각적 요소였는지 여부를 결정하는 데 사용될 수 있는 새로운 확률을 계산할 수 있다. 다른 예들에서, 분석 모듈(218)은 특징들(예를 들어 어휘 특징들, 시선 특징들, 히트 맵 특징들) 각각을 개별적으로 분류한 다음, 분류의 출력을 결합하여 시각적 컨텍스트에서의 시각적 요소에 대한 언급을 해결할 수 있다. 대안적으로, 분석 모듈(218)은 사용자 발언(110)로부터 추출된 어휘 특징 세트에 제1 분류기를 적용할 수 있고, 사용자 발언이 모호 및/또는 애매한 경우, 시선 입력(112)으로부터 추출된 시선 특징 세트에 제2 분류기를 적용할 수 있다 .
분석 모듈(218)은 가장 높은 확률을 갖는 하나 이상의 시각적 요소 및/또는 미리 결정된 임계치를 초과하는 것으로 결정된 확률을 갖는 하나 이상의 시각적 요소를 식별하는 필터링 모듈을 포함할 수 있다. 일부 예들에서, 분석 모듈(218)은 분석 모듈(218)에 의해 결정된 확률에 적어도 부분적으로 기초하여 시각적 요소를 순위 매기기 위한 랭킹 모듈(ranking module)을 부가적으로 또는 대안적으로 포함할 수 있다. 분석 모듈(218)은 랭킹 모듈의 결과를 활용하여 시각적인 컨텍스트에서 시각적 요소에 대한 언급을 해결할 수 있다. 일부 예들에서, 가장 높은 확률을 갖는 시각적 요소는 시각적 요소들의 리스트의 최상위에 있는 것으로 순위가 매겨질 수 있고, 분석 모듈(218)은 최상위 등급의 시각적 요소가 사용자 발언의 의도된 목표라는 것을 결정할 수 있다.
도 4는 컴퓨터화된 대화형 시스템과 관련된 시각적 컨텍스트에서 하나 이상의 시각적 요소들 중 의도된 시각적 요소를 결정하기 위한 예시적인 프로세스(400)를 도시한다.
블록(402)은 시각적 컨텍스트에서 사용자 상호 작용을 수신하기 위해 이용 가능한 시각적 요소를 식별하는 것을 도시한다. 전술한 바와 같이, 시각적 컨텍스트는 웹 브라우저, 대화형 상호 작용 시스템, 또는 시각적 요소들을 디스플레이하기 위한 다른 시각적 컨텍스트를 포함할 수 있다. 개별 시각적 요소는 컴퓨터화된 대화형 시스템에 의해 수행될 수 있는 동작 및/또는 작업과 관련될 수 있다. 추출 모듈(216)은 시각적 요소를 식별할 수 있고, 전술한 바와 같이, 시각적 요소 주위의 영역(예를 들어, 경계 박스) 및/또는 거리를 결정할 수 있다.
블록(404)은 시각적 컨텍스트 내의 하나 이상의 시각적 요소와 관련된 사용자 입력을 수신하는 것을 도시한다. 수신 모듈(214)은 사용자 발언로 표기될 수 있는 음성 입력(302), 시선 입력(304)(예를 들어, 눈 시선, 머리 포즈 등), 제스처 입력 등의 사용자 입력을 수신할 수 있다. 적어도 하나의 예에서, 음성 입력(302)은 시각적 컨텍스트에서 하나 이상의 시각적 요소들 중 특정 시각적 요소를 언급할 수 있다. 전술한 바와 같이, 음성 입력(302)은 특정 시각적 요소를 명시적으로 언급할 수 있고/있거나 특정 시각적 요소를 암시적으로 언급할 수 있다. 음성 입력(302)은 음성 입력(302)을 구성할 수 있는 어휘, 문법 및/또는 의도 선택에 제약을 받지 않을 수 있다. 음성 입력(302)에 추가하여, 수신 모듈(214)은 시선 입력(304)을 수신할 수 있다. 적어도 하나의 예에서, 시선 입력(304)은 사용자(102)가 컴퓨터화된 컴퓨팅 시스템과 상호 작용하는 동안 사용자 시선, 머리 포즈 등을 추적하는 추적 컴포넌트(106)에 의해 수집될 수 있다.
블록(406)은 시각적 요소들 및 사용자 입력에 적어도 부분적으로 기초하여 어휘 특징들 및 시선 특징들을 추출하는 것을 도시한다. 추출 모듈(216)은 전술한 바와 같이 어휘 특징들, 시선 특징들 및 히트 맵 특징들을 추출할 수 있다. 시선 특징들을 추출하는 것은 미리 결정된 시간들에(at predetermined times) 개별 시각적 요소에 대하여 결정된 정의된 영역(예를 들어, 경계 박스) 및 시선 입력(304)과 관련된 고정 지점(예를 들어, 중심 고정 지점 및/또는 임의의 고정 지점) 사이의 거리를 계산하는 것을 포함할 수 있다. 어휘 특징들을 추출하는 것은 전술한 바와 같이, 시각적 컨텍스트 내의 시각적 요소들의 개별 시각적 요소와 관련된 텍스트와 음성 입력(302) 사이의 어휘적 유사성을 계산하는 것을 포함할 수 있다. 히트 맵 특징들을 추출하는 것은 시선 입력(304) 고정과 디스플레이(108) 상에 표시된 시각적 요소를 연결하는 하나 이상의 특징을 추출하는 것을 포함할 수 있다.
블록(408)은 사용자 입력과 관련된 하나 이상의 시각적 요소들 중 특정 시각적 요소를 결정하는 것을 도시한다. 분석 모듈(218)은 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초하여 음성 입력(302)의 의도된 대상이었던 시각적 요소를 결정할 수 있다. 의도된 시각적 요소를 결정하는 것은 전술한 바와 같이 이진 분류기를 통해 시각적 요소들을 분류하는 것을 포함할 수 있다. 분석 모듈(218)은 시각적 요소와 관련된 확률을 계산하기 위해 분류기를 활용할 수 있다. 전술한 바와 같이, 분석 모듈(218)은 계산된 확률에 적어도 부분적으로 기초하여 시각적 요소를 추가로 필터링하고/하거나 순위를 매길 수 있다. 분석 모듈(218)은 적어도 계산된 확률에 기초하여 특정 시각적 요소를 결정할 수 있다. 적어도 일부 예들에서, 특정 시각적 요소는 동작 및/또는 작업와 관련될 수 있고, 적어도 부분적으로 특정 시각적 요소를 식별하는 것에 기초하여, 분석 모듈(218)은 특정 시각적 요소와 관련된 동작 및/또는 작업이 시각적 컨텍스트에서 수행되도록 할 수 있다.
도 5는 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초하여 사용자 발성에서 언급되는 특정 시각적 요소를 결정하기 위한 예시적인 프로세스(500)를 도시한다.
블록(502)은 시각적 컨텍스트에서 사용자 상호 작용을 수신하기 위한 시각적 요소들을 식별하는 것을 도시한다. 전술한 바와 같이, 시각적 컨텍스트는 웹 브라우저, 애플리케이션 인터페이스 또는 시각적 요소를 표시하기 위한 다른 시각적 컨텍스트를 포함할 수 있다. 추출 모듈(216)은 시각적 컨텍스트에서 시각적 요소들을 식별할 수 있고, 전술한 바와 같이, 시각적 요소들 주위의 영역(예를 들어, 경계 박스) 및/또는 거리를 결정할 수 있다.
블록(504)은 시각적 컨텍스트에서 하나 이상의 시각적 요소들 중 제1 시각적 요소를 언급하는 사용자 발언을 수신하는 것을 나타낸다. 수신 모듈(214)은 음성 입력(302)과 같은 사용자 입력을 수신할 수 있고, 추출 모듈(216)에 의한 처리를 위해 음성 입력(302)을 사용자 발언으로 표기할 수 있다. 적어도 하나의 예에서, 사용자 발언은 시각적 컨텍스트에서 하나 이상의 시각적 요소들 중 특정 시각적 요소를 언급할 수 있다. 전술한 바와 같이, 사용자 발언은 특정 시각적 요소를 명시적으로 언급할 수 있고/있거나 특정 시각적 요소를 암시적으로 지칭할 수 있다. 사용자 발언은 사용자 발언을 구성할 수 있는 어휘, 문법, 및/또는 의도 선택에 대한 제약으로부터 자유로울 수 있다.
블록(506)은 시각적 컨텍스트에서 하나 이상의 시각적 요소들 중 적어도 제2 시각적 요소와 관련된 시선 입력(304)을 수신하는 것을 도시한다. 수신 모듈(214)은 시선 입력(304)(예를 들어, 눈 시선, 머리 포즈 등)과 같은 사용자 입력을 수신할 수 있다. 적어도 하나의 예에서, 시선 입력(304)은 전술한 바와 같이 추적 컴포넌트(106)에 의해 수집될 수 있다.
블록(508)은 사용자 발언 및 시각적 요소들에 적어도 부분적으로 기초하여 어휘 특징들을 추출하는 것을 도시한다. 추출 모듈(216)은 어휘 특징들을 추출할 수 있다. 어휘 특징들을 추출하는 것은 전술한 바와 같이, 시각적 컨텍스트 내의 시각적 요소들의 개별 시각적 요소와 관련된 텍스트와 사용자 발언 사이의 어휘적 유사성을 계산하는 것을 포함할 수 있다.
블록(510)은 시선 입력(304) 및 시각적 요소들에 적어도 부분적으로 기초하여 시선 특징들을 추출하는 것을 도시한다. 추출 모듈(216)은 시선 특징들을 추출할 수 있다. 전술한 바와 같이, 시선 특징들을 추출하는 것은 미리 결정된 시간들에 개별 시각적 요소와 관련된 경계 박스 및 시선 입력(304)과 관련된 고정 지점 사이의 거리를 계산하는 것을 포함할 수 있다.
블록(512)은 사용자 발언에서 언급되는 시각적 요소들 중 특정 시각적 요소를 결정하는 것을 나타낸다. 전술한 바와 같이, 결정은 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초할 수 있다. 일부 예들에서, 결정은 어휘 특징들 및 시선 특징들에 추가하여 히트 맵 특징들에 기초할 수 있다. 분석 모듈(218)은 시각적 요소와 관련된 확률을 계산하기 위해 분류기를 활용할 수 있다. 전술한 바와 같이, 분석 모듈(218)은 계산된 확률에 적어도 부분적으로 기초하여 시각적 요소를 추가로 필터링하고/하거나 순위를 매길 수 있다. 분석 모듈(218)은 적어도 계산된 확률에 기초하여 의도된 시각적 요소를 결정할 수 있다. 적어도 일부 예들에서, 의도된 시각적 요소는 동작 및/또는 작업과 관련될 수 있고, 의도된 시각적 요소를 식별하는 것에 적어도 부분적으로 기초하여, 분석 모듈(218)은 컴퓨터화된 대화형 시스템이 의도된 시각적 요소와 관련된 동작 및/또는 작업을 수행하도록 할 수 있다.
도 6은 시각적 컨텍스트에서 특정 시각적 요소를 필터링하고 식별하기 위한 프로세스(600)를 도시한다.
블록(602)은 계산된 확률에 적어도 부분적으로 기초하여 시각적 요소를 필터링하는 것을 나타낸다. 전술한 바와 같이, 분석 모듈(218)은 추출 모듈(216)에 의해 추출된 특징 세트(308)에 적어도 부분적으로 기초하여 특정 시각적 요소가 사용자 발언(110)의 대상일 수 있는지 여부를 결정하도록 구성된 분류기를 활용할 수 있다. 분석 모듈(218)은 전술한 바와 같이, 의도된 언급의 확률(예를 들어, f(item was referred │item, f_lexical, f_gaze), 여기서 f_lexical은 어휘 특징을 지칭하고, f_gaze는 시선 특징을 지칭함)을 출력할 수 있다. 분석 모듈(218)은 적어도 부분적으로 확률에 기초하여 시각적 요소들을 필터링하는 필터링 모듈을 포함할 수 있다. 일부 예들에서, 분석 모듈(218)은 추가적으로 또는 대안적으로, 분석 모듈(218)에 의해 결정된 확률에 적어도 부분적으로 기초하여 시각적 요소들을 순위 매기기 위한 랭킹 모듈을 포함할 수 있다.
블록(604)은 미리 결정된 임계치를 초과하는 확률을 갖는 시각적 요소들의 세트 내의 개별 시각적 요소들에 적어도 부분적으로 기초하여 시각적 요소 세트를 식별하는 것을 도시한다. 적어도 하나의 예에서, 분석 모듈(218)은 전술한 바와 같이 미리 결정된 임계치를 초과하는 것으로 결정된 확률을 갖는 시각적 요소들의 세트를 식별할 수 있다.
블록(606)은 시각적 요소들의 세트로부터 특정 시각적 요소를 식별하는 것을 도시한다. 분석 모듈(218)은 미리 결정된 임계치를 초과하는 것으로 결정된 확률을 가진 시각적 요소들의 세트로부터 특정 시각적 요소를 식별할 수 있다. 일부 예들에서, 특정 시각적 요소는 가장 높은 확률 또는 미리 결정된 임계치를 초과하는 확률을 갖는 시각적 요소일 수 있다.
A. 컴퓨터 구현 방법에 있어서, 시각적 컨텍스트에서 사용자 상호 작용을 위해 이용 가능한 시각적 요소들을 식별하는 단계; 상기 시각적 컨텍스트 내의 하나 이상의 시각적 요소와 관련된 사용자 입력을 수신하는 단계로서, 상기 사용자 입력은 상기 하나 이상의 시각적 요소 중 특정 시각적 요소를 언급하는 음성 입력으로부터 도출된 발언, 및 상기 하나 이상의 시각적 요소 중 적어도 일부 - 상기 하나 이상의 시각적 요소 중 적어도 일부는 상기 특정 시각적 요소를 포함함 - 와 관련된 시선 입력을 포함하는, 상기 사용자 입력 수신 단계; 상기 시각적 요소들 및 상기 사용자 입력에 적어도 부분적으로 기초하여 어휘 특징들 및 시선 특징들을 추출하는 단계; 및 상기 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초하여 상기 특정 시각적 요소를 결정하는 단계를 포함하는, 컴퓨터 구현 방법.
B. 단락 A에 있어서, 상기 시각적 컨텍스트는 자유로운 형태의 웹 브라우저 또는 애플리케이션 인터페이스인 것인 컴퓨터 구현 방법.
C. 단락 A 또는 단락 B에 있어서, 상기 시선 입력은 적어도 상기 의도된 시각적 요소와 관련된 눈 시선 입력 또는 적어도 상기 의도된 요소와 관련된 머리 포즈 입력을 포함하고, 상기 사용자 머리 포즈 입력은 눈 시선 입력에 대한 프록시로서의 역할을 하는 것인 컴퓨터 구현 방법.
D. 단락 A 내지 단락 C 중 어느 한 단락에 있어서, 상기 특정 시각적 요소를 결정하기 위하여, 상기 시각적 요소들의 개별 시각적 요소들과 관련된 확률들을 계산하는 단계를 더 포함하고, 상기 확률들은 상기 어휘 특징들 및 상기 시선 특징들에 적어도 부분적으로 기초하는 것인 컴퓨터 구현 방법.
E. 단락 A 내지 단락 D 중 어느 한 단락에 있어서, 상기 계산된 확률들에 적어도 부분적으로 기초하여 상기 개별 시각적 요소들을 필터링하는 단계; 미리 결정된 임계치를 초과하는 확률들을 갖는 시각적 요소들의 세트 내의 개별 시각적 요소들에 적어도 부분적으로 기초하여 시각적 요소들의 세트를 식별하는 단계; 및 상기 시각적 요소들의 세트로부터 상기 특정 시각적 요소를 식별하는 단계를 더 포함하는 것인 컴퓨터 구현 방법.
F. 단락 A 내지 단락 E 중 어느 한 단락에 있어서, 상기 시선 특징들을 추출하는 단계는, 상기 시선 입력과 관련된 복수의 고정 지점들을 식별하는 단계; 상기 복수의 고정 지점들 중 미리 결정된 수를 함께 클러스터로 그룹화하는 단계; 및 상기 클러스터의 중심을 상기 시선 특징들을 추출하기 위한 특정 고정 지점으로서 식별하는 단계를 포함하는 것인 컴퓨터 구현 방법.
G. 단락 A 내지 단락 F 중 어느 한 단락에 있어서, 상기 시선 특징들을 추출하는 단계는, 상기 음성 입력의 시작 시간 및 끝 시간을 계산하는 단계; 및 상기 시선 특징들을 추출하는 단계를 포함하고, 상기 시선 특징 추출은, 특정 고정 지점과 상기 시각적 요소들의 개별 시각적 요소들과 관련된 영역 간의 거리들; 상기 음성 입력의 시작 시간; 및 상기 음성 입력의 끝 시간에 적어도 부분적으로 기초하는 것인 컴퓨터 구현 방법.
H. 단락 A 내지 단락 G 중 어느 한 단락에 있어서, 상기 특정 시각적 요소는 동작(action)과 관련되어 있고, 상기 방법은, 상기 특정 시각적 요소를 식별하는 것에 적어도 부분적으로 기초하여, 상기 의도된 시각적 요소와 관련된 동작이 상기 시각적 컨텍스트에서 수행되도록 하는 단계를 더 포함하는 것인 컴퓨터 구현 방법.
I. 명령어들로 인코딩된 하나 이상의 컴퓨터 판독 가능 매체로서, 상기 명령어들은 프로세서에 의해 실행될 때, 단락 A 내지 단락 H 중 어느 한 단락에 의한 방법을 수행하도록 컴퓨터를 구성하는 것인 하나 이상의 컴퓨터 판독 가능 매체.
J. 장치에 있어서, 하나 이상의 프로세서와 명령어들로 인코딩된 하나 이상의 컴퓨터 판독 가능 매체를 포함하고, 상기 명령어들은 상기 하나 이상의 프로세서에 의해 실행될 때, 단락 A 내지 단락 H 중 어느 한 단락에 의한 방법을 수행하도록 컴퓨터를 구성하는 것인 장치.
K. 시스템에 있어서, 시각적 컨텍스트에서 사용자 상호 작용을 위해 이용 가능한 시각적 요소들을 식별하는 수단; 상기 시각적 컨텍스트 내의 하나 이상의 시각적 요소와 관련된 사용자 입력을 수신하는 수단으로서, 상기 사용자 입력은 상기 하나 이상의 시각적 요소 중 특정 시각적 요소를 언급하는 음성 입력으로부터 도출된 발언, 및 상기 하나 이상의 시각적 요소 중 적어도 일부 - 상기 하나 이상의 시각적 요소 중 적어도 일부는 상기 특정 시각적 요소를 포함함 - 와 관련된 시선 입력을 포함하는, 상기 사용자 입력 수신 수단; 상기 시각적 요소들 및 상기 사용자 입력에 적어도 부분적으로 기초하여 어휘 특징들 및 시선 특징들을 추출하는 수단; 및 상기 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초하여 상기 특정 시각적 요소를 결정하는 수단을 포함하는 것인, 시스템.
L. 단락 K에 있어서, 상기 시각적 컨텍스트는 자유로운 형태의 웹 브라우저 또는 애플리케이션 인터페이스인 것인 시스템.
M. 단락 K 또는 단락 L에 있어서, 상기 시선 입력은 적어도 상기 의도된 시각적 요소와 관련된 눈 시선 입력 또는 적어도 상기 의도된 요소와 관련된 머리 포즈 입력을 포함하고, 상기 사용자 머리 포즈 입력은 눈 시선 입력에 대한 프록시로서의 역할을 하는 것인 시스템.
N. 단락 K 내지 단락 M 중 어느 한 단락에 있어서, 상기 특정 시각적 요소를 결정하기 위하여, 상기 시각적 요소들의 개별 시각적 요소와 관련된 확률들을 계산하는 수단을 더 포함하고, 상기 확률들은 상기 어휘 특징들 및 상기 시선 특징들에 적어도 부분적으로 기초하는 것인 시스템.
O. 단락 K 내지 단락 N 중 어느 한 단락에 있어서, 상기 계산된 확률들에 부분적으로 기초하여 상기 개별 시각적 요소들을 필터링하는 수단; 미리 결정된 임계치를 초과하는 확률들을 갖는 시각적 요소들의 세트의 개별 시각적 요소들에 적어도 부분적으로 기초하여 시각적 요소들의 세트를 식별하는 수단; 및 상기 시각적 요소들의 세트로부터 상기 특정 시각적 요소를 식별하는 수단을 더 포함하는 것인 시스템.
P. 단락 K 내지 단락 O 중 어느 한 단락에 있어서, 시선 특징들을 추출하는 것은, 상기 시선 입력과 관련된 복수의 고정 지점들을 식별하는 것; 상기 복수의 고정 지점들 중 미리 결정된 수를 함께 클러스터로 그룹화하는 것; 및 상기 클러스터의 중심을 상기 시선 특징들을 추출하기 위한 특정 고정 지점으로서 식별하는 것을 포함하는 것인 시스템.
Q. 단락 K 내지 단락 P 중 어느 한 단락에 있어서, 시선 특징들을 추출하는 것은, 상기 음성 입력의 시작 시간 및 끝 시간을 계산하는 것; 및 상기 시선 특징들을 추출하는 것을 포함하고, 상기 시선 특징 추출은, 특정 고정 지점과 상기 시각적 요소들의 개별 시각적 요소들과 관련된 영역 간의 거리들; 상기 음성 입력의 시작 시간; 및 상기 음성 입력의 끝 시간에 적어도 부분적으로 기초하는 것인 시스템.
R. 단락 K 내지 단락 Q 중 어느 한 단락에 있어서, 상기 특정 시각적 요소는 동작과 관련되어 있고, 상기 방법은, 상기 특정 시각적 요소를 식별하는 것에 적어도 부분적으로 기초하여, 상기 의도된 시각적 요소와 관련된 동작이 상기 시각적 컨텍스트에서 수행되도록 하는 수단을 더 포함하는 것인 시스템.
S. 명령어들로 인코딩된 하나 이상의 컴퓨터 판독 가능 매체에 있어서, 상기 명령어들은 프로세서에 의해 실행될 때, 시각적 컨텍스트에서 사용자 상호 작용을 수신하기 위한 시각적 요소들을 식별하는 동작; 상기 시각적 컨텍스트 내의 시각적 요소들 중 제1 시각적 요소를 언급하는 음성 입력으로부터 표기된 사용자 발언을 수신하는 동작; 상기 시각적 컨텍스트 내의 시각적 요소들 중 적어도 제2 시각적 요소와 관련된 시선 입력을 수신하는 동작; 상기 사용자 발언 및 상기 시각적 요소들에 적어도 부분적으로 기초하여 시선 특징들을 추출하는 동작; 및 상기 어휘 트징들 및 시선 특징들에 적어도 부분적으로 기초하여 상기 제1 시각적 요소를 결정하는 동작을 포함하는 동작들을 수행하도록 컴퓨터를 구성하는 것인, 하나 이상의 컴퓨터 판독 가능 매체.
T. 단락 S에 있어서, 상기 동작들은 상기 시선 입력 및 상기 시각적 요소들에 적어도 부분적으로 기초하여, 히트 맵 특징들을 추출하는 동작을 더 포함하는 것인, 하나 이상의 컴퓨터 판독 가능 매체.
U. 단락 S 또는 단락 T에 있어서, 상기 동작들은 상기 시각적 요소들의 개별 시각적 요소들에 대한 경계 박스를 결정하는 동작을 더 포함하고, 상기 경계 박스는 상기 개별 시각적 요소들과 관련된 영역을 포함하는 것인, 하나 이상의 컴퓨터 판독 가능 매체.
V. 단락 S 내지 단락 U 중 어느 한 단락에 있어서, 시선 특징들을 추출하는 동작은, 미리 결정된 시간들에 개별 시각적 요소들에 대한 경계 박스 및 상기 시선 입력과 관련된 고정 지점들 사이의 거리들을 계산하는 동작을 포함하고, 상기 경계 박스들은 상기 개별 시각적 요소들과 관련된 영역들을 포함하는 것인, 하나 이상의 컴퓨터 판독 가능 매체.
W. 단락 S 내지 단락 V 중 어느 한 단락에 있어서, 어휘 특징들을 추출하는 동작은, 상기 시각적 요소들의 개별 시각적 요소들과 관련된 텍스트와 상기 사용자 발언 사이의 어휘적 유사성을 계산하는 동작을 포함하는 것인, 하나 이상의 컴퓨터 판독 가능 매체.
X. 단락 S 내지 단락 W 중 어느 한 단락에 있어서, 상기 특정 시각적 요소를 결정하는 동작은, 이진 분류기를 상기 어휘 특징들 및 시선 특징들 중 적어도 하나에 적용하는 것에 적어도 부분적으로 기초하여, 상기 시각적 요소들을 분류하는 동작을 포함하는 것인, 하나 이상의 컴퓨터 판독 가능 매체.
Y. 하나 이상의 프로세서 및 단락 S 내지 단락 X 중 어느 한 단락에 기재된 하나 이상의 컴퓨터 판독 가능 매체를 포함하는 장치.
Z. 시스템에 있어서, 컴퓨터 판독 가능 매체; 하나 이상의 프로세서; 및 상기 컴퓨터 판독 가능 매체 상에 있고, 상기 하나 이상의 프로세서에 의해 실행가능한 하나 이상의 모듈을 포함하고, 상기 하나 이상의 모듈은 시각적 컨텍스트와 관련된 사용자 인터페이스 상에 제시된 복수의 시각적 요소들 중 특정 시각적 요소를 언급하는 음성 입력으로부터 표기된 사용자 발언; 및 상기 시각적 컨텍스트와 관련된 사용자 인터페이스 상에 제시된 복수의 시각적 요소들 중 하나 이상에 관한 시선 입력을 수신하도록 구성된 수신 모듈; 상기 복수의 시각적 요소들, 상기 사용자 발언, 및 상기 시선 입력에 적어도 부분적으로 기초하여, 특징들의 세트를 추출하도록 구성된 추출 모듈; 및 상기 특징들의 세트에 적어도 부분적으로 기초하여, 상기 특정 시각적 요소를 식별하도록 구성된 분석 모듈을 포함하는 것인 시스템.
AA. 단락 Z에 있어서, 상기 사용자 인터페이스 상에 상기 복수의 시각적 요소들을 디스플레이하도록 구성된 디스플레이 모듈을 더 포함하는 것인 시스템.
AB. 단락 Z 또는 단락 AA에 있어서, 상기 특징들의 세트는 적어도 어휘 특징들 및 시선 특징들을 포함하고, 상기 어휘 특징들은 상기 복수의 시각적 요소들의 개별 시각적 요소들과 관련된 텍스트 및 상기 사용자 발언 사이의 어휘적 유사성을 나타내고, 상기 시선 특징들은 미리 결정된 시간들에 상기 개별 시각적 요소들과 관련된 경계 박스들, 및 상기 시선 입력과 관련된 고정 지점들 사이의 거리들을 나타내는 것인 시스템.
AC. 단락 Z 내지 단락 AB 중 어느 한 단락에 있어서, 상기 추출 모듈은 또한 상기 시선 입력 및 상기 복수의 시각적 요소들에 적어도 부분적으로 기초하여 히트 맵 특징들을 추출하도록 구성되는 것인, 시스템.
AD. 단락 Z 내지 단락 AC 중 어느 한 단락에 있어서, 상기 분석 모듈은 또한, 상기 특정 시각적 요소를 식별하기 위하여, 상기 복수의 시각적 요소들의 개별 시각적 요소들과 관련된 확률들을 계산하도록 구성되고, 상기 확률들은 상기 어휘 특징들 및 시선 특징들에 적어도 부분적으로 기초하는 것인 시스템.
AE. 단락 Z 내지 단락 AD 중 어느 한 단락에 있어서, 상기 분석 모듈은 또한, 상기 복수의 시각적 요소들과 관련된 상기 계산된 확률들 모두 중에 가장 높은 확률을 가지는 특정 요소에 적어도 부분적으로 기초하여, 상기 특정 시각적 요소를 식별하도록 구성되는 것인 시스템.
AF. 단락 AD에 있어서, 상기 분석 모듈은 또한, 제1 프로세스에서 상기 어휘 특징들을 분류하고; 상기 제1 프로세스와 상이한 시간에 있는 제2 프로세스에서 상기 시선 특징들을 분류하고; 상기 어휘 특징들을 분류하고, 상기 시선 특징들을 분류하는 것에 적어도 부분적으로 기초하여, 상기 특정 시각적 요소를 식별하기 위하여 상기 복수의 시각적 요소들의 개별 시각적 요소들과 관련된 확률들을 계산하고; 상기 계산된 확률들에 적어도 부분적으로 기초하여 상기 특정 시각적 요소를 식별하도록 구성되는 것인 시스템.
결론
마지막으로, 다양한 실시 예들이 구조적 특징들 및/또는 방법론적 동작들에 특유한 언어로 설명되었지만 첨부된 표현에서 정의된 주제가 반드시 기술된 특정 특징들 또는 동작들에 한정되는 것은 아니다. 오히려, 특정한 특징들 및 동작들은 청구된 주제를 구현하는 예시적인 형태로서 개시된다.
Claims (20)
- 컴퓨터 구현 방법으로서,
복수의 시각적 요소를 디스플레이하기 위한 시각적 컨텍스트에서 상기 복수의 시각적 요소 중 하나의 시각적 요소를 참조하는 음성 입력으로부터 도출된 사용자의 사용자 발언(utterance)을 수신하는 단계;
추적 장치로부터 상기 사용자에 관한 시선 입력을 수신하는 단계;
상기 시각적 컨텍스트 내의 상기 복수의 시각적 요소의 각각의 시각적 요소에 대해 상기 시각적 요소와 연관된 텍스트(text)를 식별하는 단계;
상기 시선 입력과 무관한 상기 복수의 시각적 요소의 각각의 시각적 요소에 대해 상기 시각적 요소와 연관된 텍스트와 상기 사용자 발언 간의 어휘적 유사성 및 각각의 어휘적 유사성에 대해 상기 참조된 시각적 요소에 대응하는 어휘 확률(lexical probability)을 계산하는 단계;
상기 시선 입력 및 상기 복수의 시각적 요소를 사용하여 시선 특징(gaze feature)을 추출하는 단계;
상기 복수의 시각적 요소 중 특정 시각적 요소가 상기 음성 입력 내의 상기 참조된 시각적 요소일, 상기 시선 특징을 사용한 계산된 확률과 함께 상기 계산된 어휘 확률의 어휘 확률을 사용하여, 상기 특정 시각적 요소가 상기 사용자 발언 내의 상기 참조된 시각적 요소라고 결정하는 단계; 및
상기 특정 시각적 요소와 연관된 액션(action)이 수행되게 하는 단계
를 포함하는, 컴퓨터 구현 방법. - 제1항에 있어서,
상기 시선 특징을 사용한 상기 계산된 확률과 함께 상기 계산된 어휘 확률의 어휘 확률을 사용하는 것은, 상기 시선 특징이 주어지고, 상기 특정 시각적 요소 및 상기 음성 입력과 연관된 텍스트의 용어 벡터와 상기 특정 시각적 요소와 상기 음성 입력의 가장 긴 공통 서브시퀀스의 문자(characters) 수 사이의 코사인 유사성(cosine similarity) 중 하나 이상이 주어지면, 상기 특정 시각적 요소가 상기 음성 입력 내의 상기 참조된 시각적 요소일 확률을 생성하는 것을 포함하는 것인, 컴퓨터 구현 방법. - 제1항에 있어서,
상기 시선 특징을 사용한 상기 계산된 확률과 함께 상기 계산된 어휘 확률을 사용하여 상기 복수의 시각적 요소의 각각의 시각적 요소를 필터링하는 단계;
미리 결정된 임계치를 초과하는 확률을 가진 상기 복수의 시각적 요소 중의 시각적 요소의 세트를 식별하는 단계; 및
상기 시각적 요소의 세트로부터 상기 특정 시각적 요소를 식별하는 단계
를 포함하는, 컴퓨터 구현 방법. - 제3항에 있어서,
상기 복수의 시각적 요소의 각각의 시각적 요소를 필터링하는 단계는, 각각의 시각적 요소에 대해, 상기 각각의 시각적 요소가 상기 각각의 시각적 요소에 대한 상기 계산된 어휘적 유사성과 상기 시선 특징이 주어진 상기 참조된 시각적 요소일 확률을 사용하여 상기 시각적 요소를 순위 매기는(ranging) 단계를 포함하는 것인, 컴퓨터 구현 방법. - 제1항에 있어서,
상기 방법은, 상기 특정 시각적 요소가 상기 음성 입력 내의 상기 참조된 시각적 요소일 새로운 확률을 형성하기 위해 상기 어휘 확률을, 상기 시선 특징을 사용한 상기 계산된 확률과 함께 곱하는 단계를 포함하는 것인, 컴퓨터 구현 방법. - 제1항에 있어서,
상기 시선 입력과 연관된 복수의 고정 지점들을 식별하는 단계;
상기 복수의 고정 지점들 중 미리 결정된 수의 고정 지점들을 클러스터(cluster)로 함께 그룹화하는 단계; 및
상기 시선 입력으로부터 시선 특징을 추출하기 위한 특정 고정 지점으로서 상기 클러스터의 중심(centroid)을 식별하는 단계
를 포함하는, 컴퓨터 구현 방법. - 제6항에 있어서,
상기 음성 입력의 시작 시간과 종료 시간을 계산하는 단계; 및
상기 시선 특징을 추출하는 단계 - 상기 시선 특징을 추출하는 단계는,
상기 복수의 시각적 요소 중 개별 시각적 요소와 연관된 영역과 상기 특정 고정 지점 사이의 거리;
상기 음성 입력의 시작 시간; 및
상기 음성 입력의 종료 시간
에 적어도 부분적으로 기초함 -
를 포함하는, 컴퓨터 구현 방법 - 장치로서,
하나 이상의 프로세서; 및
명령어들로 인코딩된 컴퓨터 판독가능 매체
를 포함하고,
상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 동작들을 수행하도록 상기 장치를 구성하는 것이며, 상기 동작들은,
복수의 시각적 요소를 디스플레이하기 위한 시각적 컨텍스트에서 복수의 시각적 요소 중 하나의 시각적 요소를 참조하는 음성 입력으로부터 도출된 사용자의 사용자 발언(utterance)을 수신하는 동작;
추적 장치로부터 상기 사용자에 관한 시선 입력을 수신하는 동작;
상기 시각적 컨텍스트 내의 상기 복수의 시각적 요소의 각각의 시각적 요소에 대해 상기 시각적 요소와 연관된 텍스트(text)를 식별하는 동작;
상기 시선 입력과 무관한 상기 복수의 시각적 요소의 각각의 시각적 요소에 대해 상기 시각적 요소와 연관된 텍스트와 상기 사용자 발언 간의 어휘적 유사성 및 각각의 어휘적 유사성에 대해 상기 참조된 시각적 요소에 대응하는 어휘 확률(lexical probability)을 계산하는 동작;
상기 시선 입력 및 상기 복수의 시각적 요소를 사용하여 시선 특징(gaze feature)을 추출하는 동작;
상기 복수의 시각적 요소 중 특정 시각적 요소가 상기 음성 입력 내의 상기 참조된 시각적 요소일, 상기 시선 특징을 사용한 계산된 확률과 함께 상기 계산된 어휘 확률의 어휘 확률을 사용하여, 상기 특정 시각적 요소가 상기 사용자 발언 내의 상기 참조된 시각적 요소라고 결정하는 동작; 및
상기 특정 시각적 요소와 연관된 액션(action)이 수행되게 하는 동작
을 포함하는 것인, 장치. - 제8항에 있어서,
상기 동작들은,
상기 복수의 시각적 요소의 각각의 시각적 요소에 대한 경계 박스(bounding box)를 결정하는 동작 - 상기 경계 박스는 상기 각각의 시각적 요소와 연관된 영역을 포함함 - ; 및
상기 시선 특징의 추출에서, 미리 결정된 시간에 상기 시각적 요소에 대한 경계 박스와 상기 시선 입력과 연관된 고정 지점 사이의 거리를 계산하는 동작
을 포함하는 것인, 장치. - 제8항에 있어서,
상기 시선 특징은,
상기 사용자가 개별 시각적 요소와 연관된 영역을 포함하는 경계 박스를 사용하여 상기 음성 입력 동안 상기 경계 박스를 얼마나 자주 보았는지;
상기 음성 입력 동안 상기 사용자가 상기 경계 박스를 본 총 시간 길이;
상기 음성 입력 동안 상기 경계 박스가 중심 고정 지점의 미리 결정된 반경 내에 얼마나 자주 있었는지; 및
상기 음성 입력 동안 상기 경계 박스가 중심 고정 지점의 미리 결정된 반경 내에 있었던 총 시간 길이
중 하나 이상을 포함하는 것인, 장치. - 제8항에 있어서,
상기 동작들은, 상기 특정 시각적 요소가 상기 음성 입력 내의 상기 참조된 시각적 요소일 새로운 확률을 형성하기 위해, 상기 어휘 확률을, 상기 시선 특징을 사용한 상기 계산된 확률과 함께 곱하는 동작을 포함하는 것인, 장치. - 제8항에 있어서,
상기 시각적 컨텍스트는 자유로운 형태(free-form)의 웹 브라우저 또는 애플리케이션 인터페이스인 것인, 장치. - 제8항에 있어서,
상기 액션은, 상기 시각적 컨텍스트에서 수행되게 되는 것인, 장치. - 장치로서,
하나 이상의 프로세서;
명령어들로 인코딩된 컴퓨터 판독 가능 매체
를 포함하고, 상기 명령어들은 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 장치로 하여금 동작들을 수행하게 하고,
상기 동작들은,
시각적 요소를 디스플레이하기 위한 시각적 컨텍스트에서 상기 시각적 요소를 식별하는 동작;
상기 시각적 컨텍스트 내의 상기 시각적 요소 중 하나의 시각적 요소를 참조하는 음성 입력으로부터 도출된 사용자의 사용자 발언(utterance)을 수신하는 동작;
상기 사용자 및 상기 시각적 요소에 관한 시선 입력을 수신하는 동작;
상기 시각적 컨텍스트 내의 상기 시각적 요소의 개별 시각적 요소와 연관된 텍스트와 상기 사용자 발언 사이의 어휘적 유사성을 계산하는 것에 적어도 부분적으로 기초하여 어휘 특징을 추출하는 동작;
상기 시선 입력 및 상기 시각적 요소를 사용하여 시선 특징을 추출하는 동작;
상기 시선 특징에 기초한 계산 및 상기 어휘 특징을 적어도 부분적으로 사용하여, 상기 시각적 요소 중 특정 시각적 요소가 상기 사용자 발언 내의 상기 참조된 시각적 요소라고 결정하는 동작;
상기 특정 시각적 요소와 연관된 액션이 수행되게 하는 동작
을 포함하고,
상기 시각적 요소 중 특정 시각적 요소가 상기 사용자 발언 내의 상기 참조된 시각적 요소라고 결정하는 동작은, 상기 개별 시각적 요소를 분류하기 위해 상기 시선 특징 또는 상기 어휘 특징 중 적어도 하나에 이진 분류기(binary classifier)를 적용하는 동작을 포함하는 것인, 장치. - 시스템으로서,
추적 센서;
디스플레이;
하나 이상의 프로세서; 및
명령어들로 인코딩된 컴퓨터 판독 가능 매체
를 포함하고,
상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하고,
상기 동작들은,
상기 디스플레이의 사용자 인터페이스 상에 복수의 시각적 요소 중 하나의 시각적 요소를 참조하는 음성 입력으로부터 도출된 사용자의 사용자 발언을 수신하는 동작;
상기 사용자에 관한 사용자의 시선 입력을 상기 추적 센서로부터 수신하는 동작;
시각적 컨텍스트 내의 상기 복수의 시각적 요소 중 각각의 시각적 요소에 대해, 상기 시각적 요소와 연관된 텍스트를 식별하는 동작;
상기 시선 입력과 무관한 상기 복수의 시각적 요소의 각각의 시각적 요소에 대해 상기 시각적 요소와 연관된 텍스트와 상기 사용자 발언 간의 어휘적 유사성 및 각각의 어휘적 유사성에 대해 상기 참조된 시각적 요소에 대응하는 어휘 확률(lexical probability)을 계산하는 동작;
상기 시선 입력 및 상기 복수의 시각적 요소를 사용하여 시선 특징을 추출하는 동작;
상기 복수의 시각적 요소 중 특정 시각적 요소가 상기 음성 입력 내의 참조된 시각적 요소일, 상기 시선 특징을 사용한 계산된 확률과 함께 상기 계산된 어휘 확률의 어휘 확률을 사용하여 상기 특정 시각적 요소가 상기 사용자 발언 내의 참조된 Moil 시각적 요소(referred Moil visual element)라고 결정하는 동작
을 포함하는 것인, 시스템. - 제15항에 있어서,
상기 복수의 시각적 요소 중 특정 시각적 요소가 상기 사용자 발언 내의 상기 참조된 시각적 요소라고 결정하는 동작은, 각 시각적 요소에 대한 시선 확률과 어휘 확률의 조합을 사용하는 동작을 포함하는 것인, 시스템. - 제15항에 있어서,
상기 시선 특징은 시간 기반 시선 특징, 거리 기반 시선 특징, 또는 시간 기반 시선 특징과 거리 기반 시선 특징의 조합인 것인, 시스템. - 제15항에 있어서,
상기 동작들은 상기 시선 입력으로부터 개별 고정 지점을 식별하기 위한 모델을 사용하는 동작을 포함하는 것인, 시스템. - 제15항에 있어서,
상기 동작들을 수행하기 위한 명령어들은 적어도 디스플레이 모듈, 수신 모듈, 추출 모듈, 및 분석 모듈을 포함하는 모듈로 분배된 명령어들을 포함하는 것인, 시스템. - 시스템으로서,
추적 센서;
디스플레이;
하나 이상의 프로세서; 및
명령어들로 인코딩된 컴퓨터 판독 가능 매체
를 포함하고, 상기 명령어들은 상기 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하고,
상기 동작들은,
상기 디스플레이의 사용자 인터페이스 상에 제시된 시각적 요소를 식별하는 동작;
상기 시각적 요소 중 하나의 시각적 요소를 참조하는 음성 입력으로부터 도출된 사용자의 사용자 발언(utterance)을 수신하는 동작;
상기 사용자 및 상기 시각적 요소에 관한 사용자의 시선 입력을 상기 추적 센서로부터 수신하는 동작;
시각적 컨텍스트 내의 상기 시각적 요소의 개별 시각적 요소와 연관된 텍스트와 상기 사용자 발언 사이의 어휘적 유사성을 계산하는 것에 적어도 부분적으로 기초하여 어휘 특징을 추출하는 동작;
상기 시선 입력 및 상기 시각적 요소를 사용하여 시선 특징을 추출하는 동작;
상기 시선 특징에 기초한 계산 및 상기 어휘적 유사성을 계산하는 것으로부터의 어휘 특징을 적어도 부분적으로 사용하여, 상기 시각적 요소 중 특정 시각적 요소가 상기 사용자 발언 내의 상기 참조된 시각적 요소라고 결정하는 동작
을 포함하고,
상기 시각적 요소 중 특정 시각적 요소가 상기 사용자 발언 내의 상기 참조된 시각적 요소라고 결정하는 동작은, 각각의 개별 시각적 요소에 대한 시선 확률과 어휘 확률의 조합 - 상기 조합은 각각의 개별 시각적 요소에 대한 상기 시선 확률과 상기 어휘 확률의 곱을 포함함 - 을 사용하는 동작을 포함하는 것인, 시스템.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/496,538 | 2014-09-25 | ||
US14/496,538 US10317992B2 (en) | 2014-09-25 | 2014-09-25 | Eye gaze for spoken language understanding in multi-modal conversational interactions |
KR1020177010877A KR102451660B1 (ko) | 2014-09-25 | 2015-09-25 | 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선 |
PCT/US2015/052194 WO2016049439A1 (en) | 2014-09-25 | 2015-09-25 | Eye gaze for spoken language understanding in multi-modal conversational interactions |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177010877A Division KR102451660B1 (ko) | 2014-09-25 | 2015-09-25 | 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220137810A KR20220137810A (ko) | 2022-10-12 |
KR102491846B1 true KR102491846B1 (ko) | 2023-01-26 |
Family
ID=54291650
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227034256A KR102491846B1 (ko) | 2014-09-25 | 2015-09-25 | 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선 |
KR1020177010877A KR102451660B1 (ko) | 2014-09-25 | 2015-09-25 | 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177010877A KR102451660B1 (ko) | 2014-09-25 | 2015-09-25 | 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선 |
Country Status (11)
Country | Link |
---|---|
US (2) | US10317992B2 (ko) |
EP (1) | EP3198328B1 (ko) |
JP (1) | JP2017536600A (ko) |
KR (2) | KR102491846B1 (ko) |
CN (1) | CN107077201B (ko) |
AU (1) | AU2015320442A1 (ko) |
BR (1) | BR112017003636A2 (ko) |
CA (1) | CA2961279A1 (ko) |
MX (1) | MX2017003754A (ko) |
RU (1) | RU2017108533A (ko) |
WO (1) | WO2016049439A1 (ko) |
Families Citing this family (194)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9412363B2 (en) | 2014-03-03 | 2016-08-09 | Microsoft Technology Licensing, Llc | Model based approach for on-screen item selection and disambiguation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10317992B2 (en) * | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) * | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9886958B2 (en) | 2015-12-11 | 2018-02-06 | Microsoft Technology Licensing, Llc | Language and domain independent model based approach for on-screen item selection |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9978367B2 (en) * | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US11195517B2 (en) * | 2016-05-12 | 2021-12-07 | Sony Corporation | Information processing apparatus and information processing method |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10854190B1 (en) | 2016-06-13 | 2020-12-01 | United Services Automobile Association (Usaa) | Transcription analysis platform |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
DK179978B1 (en) | 2016-09-23 | 2019-11-27 | Apple Inc. | IMAGE DATA FOR ENHANCED USER INTERACTIONS |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
CN109716285A (zh) * | 2016-09-23 | 2019-05-03 | 索尼公司 | 信息处理装置和信息处理方法 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
KR20180071092A (ko) | 2016-12-19 | 2018-06-27 | 삼성전자주식회사 | 사용자의 시선 및 입력에 기반하여 제어되는 전자 장치, 모바일 전자 장치 및 디스플레이 장치 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
WO2018135302A1 (ja) * | 2017-01-18 | 2018-07-26 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
DE102017108194A1 (de) * | 2017-04-18 | 2018-10-18 | Vorwerk & Co. Interholding Gmbh | Verfahren zum Betrieb eines sich selbsttätig fortbewegenden Fahrzeugs |
JP6994292B2 (ja) * | 2017-05-08 | 2022-01-14 | 達闥机器人有限公司 | ロボットのウェイクアップ方法、装置及びロボット |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
KR102435337B1 (ko) | 2017-05-16 | 2022-08-22 | 애플 인크. | 이모지 레코딩 및 전송 |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US11221823B2 (en) | 2017-05-22 | 2022-01-11 | Samsung Electronics Co., Ltd. | System and method for context-based interaction for electronic devices |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10366691B2 (en) * | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
US9961204B1 (en) * | 2017-08-21 | 2018-05-01 | Avaya Inc. | Monitoring agent oversight of artificial intelligence content in a contact center |
US10515625B1 (en) | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
US10537244B1 (en) * | 2017-09-05 | 2020-01-21 | Amazon Technologies, Inc. | Using eye tracking to label computer vision datasets |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10984786B2 (en) * | 2018-05-07 | 2021-04-20 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US12033296B2 (en) | 2018-05-07 | 2024-07-09 | Apple Inc. | Avatar creation user interface |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11170085B2 (en) | 2018-06-03 | 2021-11-09 | Apple Inc. | Implementation of biometric authentication |
US20190386840A1 (en) * | 2018-06-18 | 2019-12-19 | Cisco Technology, Inc. | Collaboration systems with automatic command implementation capabilities |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
KR101996039B1 (ko) * | 2018-09-27 | 2019-07-03 | 국립공주병원 | 얼굴 표정 인식을 위한 훈련 템플릿 구축 장치 및 그 방법 |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11703939B2 (en) | 2018-09-28 | 2023-07-18 | Shanghai Cambricon Information Technology Co., Ltd | Signal processing device and related products |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10860096B2 (en) * | 2018-09-28 | 2020-12-08 | Apple Inc. | Device control using gaze information |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
KR102669100B1 (ko) * | 2018-11-02 | 2024-05-27 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US11900931B2 (en) | 2018-11-20 | 2024-02-13 | Sony Group Corporation | Information processing apparatus and information processing method |
US11417236B2 (en) * | 2018-12-28 | 2022-08-16 | Intel Corporation | Real-time language learning within a smart space |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11455982B2 (en) * | 2019-01-07 | 2022-09-27 | Cerence Operating Company | Contextual utterance resolution in multimodal systems |
US11183185B2 (en) * | 2019-01-09 | 2021-11-23 | Microsoft Technology Licensing, Llc | Time-based visual targeting for voice commands |
US11322136B2 (en) * | 2019-01-09 | 2022-05-03 | Samsung Electronics Co., Ltd. | System and method for multi-spoken language detection |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US10969863B2 (en) * | 2019-05-08 | 2021-04-06 | International Business Machines Corporation | Configurable sensor array for a multi-target environment |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
TWI716885B (zh) * | 2019-05-27 | 2021-01-21 | 陳筱涵 | 即時外語溝通系統 |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
JP7346135B2 (ja) * | 2019-07-30 | 2023-09-19 | キヤノン株式会社 | 電子機器、電子機器の制御方法、プログラムおよび記憶媒体 |
JP2021033746A (ja) * | 2019-08-27 | 2021-03-01 | アルパイン株式会社 | サービス提供装置、サービス提供システム、及びサービス提供方法 |
US11848000B2 (en) | 2019-09-06 | 2023-12-19 | Microsoft Technology Licensing, Llc | Transcription revision interface for speech recognition system |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
KR102375508B1 (ko) * | 2020-03-16 | 2022-03-17 | 주식회사 한글과컴퓨터 | 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치 및 그 동작 방법 |
KR20210133600A (ko) * | 2020-04-29 | 2021-11-08 | 현대자동차주식회사 | 차량 음성 인식 방법 및 장치 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11996095B2 (en) * | 2020-08-12 | 2024-05-28 | Kyndryl, Inc. | Augmented reality enabled command management |
JP7242902B2 (ja) * | 2020-10-09 | 2023-03-20 | グーグル エルエルシー | 目の注視データを用いたテキストレイアウト解釈 |
EP4264460A1 (en) | 2021-01-25 | 2023-10-25 | Apple Inc. | Implementation of biometric authentication |
US11756574B2 (en) * | 2021-03-11 | 2023-09-12 | Apple Inc. | Multiple state digital assistant for continuous dialog |
US11955137B2 (en) * | 2021-03-11 | 2024-04-09 | Apple Inc. | Continuous dialog with a digital assistant |
US11688106B2 (en) | 2021-03-29 | 2023-06-27 | International Business Machines Corporation | Graphical adjustment recommendations for vocalization |
US20220374109A1 (en) * | 2021-05-14 | 2022-11-24 | Apple Inc. | User input interpretation using display representations |
US11960790B2 (en) | 2021-05-27 | 2024-04-16 | Microsoft Technology Licensing, Llc | Spatial attention model enhanced voice engagement system |
US11681364B1 (en) * | 2021-06-29 | 2023-06-20 | Amazon Technologies, Inc. | Gaze prediction |
US11967335B2 (en) | 2021-09-03 | 2024-04-23 | Google Llc | Foveated beamforming for augmented reality devices and wearables |
EP4384887A1 (en) * | 2021-09-16 | 2024-06-19 | Apple Inc. | Digital assistant for moving and copying graphical elements |
US20230081605A1 (en) * | 2021-09-16 | 2023-03-16 | Apple Inc. | Digital assistant for moving and copying graphical elements |
GB2616288A (en) * | 2022-03-03 | 2023-09-06 | Sony Interactive Entertainment Inc | Gaze tracking system and method |
US20240029726A1 (en) * | 2022-07-21 | 2024-01-25 | Sony Interactive Entertainment LLC | Intent Identification for Dialogue Support |
KR20240111137A (ko) * | 2023-01-09 | 2024-07-16 | 삼성전자주식회사 | 멀티 윈도우 모드에서 포커싱 윈도우를 변경하기 위한 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100033333A1 (en) | 2006-06-11 | 2010-02-11 | Volva Technology Corp | Method and apparatus for determining and analyzing a location of visual interest |
US10317992B2 (en) | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3361980B2 (ja) * | 1997-12-12 | 2003-01-07 | 株式会社東芝 | 視線検出装置及びその方法 |
US6757718B1 (en) | 1999-01-05 | 2004-06-29 | Sri International | Mobile navigation of network-based electronic information using spoken input |
ES2231448T3 (es) | 2000-01-27 | 2005-05-16 | Siemens Aktiengesellschaft | Sistema y procedimiento para el procesamiento de voz enfocado a la vision. |
US6795806B1 (en) | 2000-09-20 | 2004-09-21 | International Business Machines Corporation | Method for enhancing dictation and command discrimination |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7881493B1 (en) | 2003-04-11 | 2011-02-01 | Eyetools, Inc. | Methods and apparatuses for use of eye interpretation information |
US20120253823A1 (en) * | 2004-09-10 | 2012-10-04 | Thomas Barton Schalk | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8467672B2 (en) | 2005-10-17 | 2013-06-18 | Jeffrey C. Konicek | Voice recognition and gaze-tracking for a camera |
US8793620B2 (en) | 2011-04-21 | 2014-07-29 | Sony Computer Entertainment Inc. | Gaze-assisted computer interface |
US9250703B2 (en) | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
US7770136B2 (en) | 2007-01-24 | 2010-08-03 | Microsoft Corporation | Gesture recognition interactive feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
KR101597289B1 (ko) | 2009-07-31 | 2016-03-08 | 삼성전자주식회사 | 동적 화면에 따라 음성을 인식하는 장치 및 방법 |
US8487959B1 (en) * | 2010-08-06 | 2013-07-16 | Google Inc. | Generating simulated eye movement traces for visual displays |
US8700392B1 (en) | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US20120110456A1 (en) * | 2010-11-01 | 2012-05-03 | Microsoft Corporation | Integrated voice command modal user interface |
AU2010257454B2 (en) * | 2010-12-24 | 2014-03-06 | Canon Kabushiki Kaisha | Summary view of video objects sharing common attributes |
US8560321B1 (en) | 2011-01-05 | 2013-10-15 | Interactions Corportion | Automated speech recognition system for natural language understanding |
US20140099623A1 (en) * | 2012-10-04 | 2014-04-10 | Karmarkar V. Amit | Social graphs based on user bioresponse data |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US20120259638A1 (en) | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
US20130030811A1 (en) * | 2011-07-29 | 2013-01-31 | Panasonic Corporation | Natural query interface for connected car |
CA2847975A1 (en) | 2011-09-07 | 2013-03-14 | Tandemlaunch Technologies Inc. | System and method for using eye gaze information to enhance interactions |
US9024844B2 (en) | 2012-01-25 | 2015-05-05 | Microsoft Technology Licensing, Llc | Recognition of image on external display |
US9423870B2 (en) | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US9823742B2 (en) * | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
US20130346085A1 (en) | 2012-06-23 | 2013-12-26 | Zoltan Stekkelpak | Mouth click sound based computer-human interaction method, system and apparatus |
CN103885743A (zh) | 2012-12-24 | 2014-06-25 | 大陆汽车投资(上海)有限公司 | 结合注视跟踪技术的语音文本输入方法和系统 |
US8571851B1 (en) | 2012-12-31 | 2013-10-29 | Google Inc. | Semantic interpretation using user gaze order |
KR20140132246A (ko) * | 2013-05-07 | 2014-11-17 | 삼성전자주식회사 | 오브젝트 선택 방법 및 오브젝트 선택 장치 |
CN103605208B (zh) | 2013-08-30 | 2016-09-28 | 北京智谷睿拓技术服务有限公司 | 内容投射系统及方法 |
-
2014
- 2014-09-25 US US14/496,538 patent/US10317992B2/en active Active
-
2015
- 2015-09-25 KR KR1020227034256A patent/KR102491846B1/ko active IP Right Grant
- 2015-09-25 CA CA2961279A patent/CA2961279A1/en active Pending
- 2015-09-25 KR KR1020177010877A patent/KR102451660B1/ko active IP Right Grant
- 2015-09-25 CN CN201580050763.XA patent/CN107077201B/zh active Active
- 2015-09-25 RU RU2017108533A patent/RU2017108533A/ru not_active Application Discontinuation
- 2015-09-25 EP EP15778481.0A patent/EP3198328B1/en active Active
- 2015-09-25 JP JP2017516128A patent/JP2017536600A/ja active Pending
- 2015-09-25 BR BR112017003636A patent/BR112017003636A2/pt not_active Application Discontinuation
- 2015-09-25 MX MX2017003754A patent/MX2017003754A/es unknown
- 2015-09-25 WO PCT/US2015/052194 patent/WO2016049439A1/en active Application Filing
- 2015-09-25 AU AU2015320442A patent/AU2015320442A1/en not_active Abandoned
-
2019
- 2019-04-30 US US16/399,414 patent/US10901500B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100033333A1 (en) | 2006-06-11 | 2010-02-11 | Volva Technology Corp | Method and apparatus for determining and analyzing a location of visual interest |
US10317992B2 (en) | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
Also Published As
Publication number | Publication date |
---|---|
CA2961279A1 (en) | 2016-03-31 |
WO2016049439A1 (en) | 2016-03-31 |
CN107077201A (zh) | 2017-08-18 |
MX2017003754A (es) | 2017-06-29 |
US10317992B2 (en) | 2019-06-11 |
KR102451660B1 (ko) | 2022-10-05 |
KR20220137810A (ko) | 2022-10-12 |
EP3198328B1 (en) | 2019-11-06 |
KR20170065563A (ko) | 2017-06-13 |
US20160091967A1 (en) | 2016-03-31 |
EP3198328A1 (en) | 2017-08-02 |
US10901500B2 (en) | 2021-01-26 |
AU2015320442A1 (en) | 2017-03-16 |
BR112017003636A2 (pt) | 2017-11-28 |
CN107077201B (zh) | 2020-06-23 |
US20190391640A1 (en) | 2019-12-26 |
JP2017536600A (ja) | 2017-12-07 |
RU2017108533A (ru) | 2018-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102491846B1 (ko) | 다중 모드 대화 상호 작용에서 음성 언어 이해를 위한 눈 시선 | |
US11526713B2 (en) | Embedding human labeler influences in machine learning interfaces in computing environments | |
US11017231B2 (en) | Semantically tagged virtual and physical objects | |
US20240153499A1 (en) | Contextual natural language processing | |
US10824916B2 (en) | Weakly supervised learning for classifying images | |
US10635727B2 (en) | Semantic forward search indexing of publication corpus | |
US10430446B2 (en) | Semantic reverse search indexing of publication corpus | |
US11967315B2 (en) | System and method for multi-spoken language detection | |
JP2022547704A (ja) | 訓練を減らした意図認識技術 | |
US10606873B2 (en) | Search index trimming | |
US20160224591A1 (en) | Method and Device for Searching for Image | |
US11126685B2 (en) | Preview and optimization of publication for target computing device | |
US10789952B2 (en) | Voice command execution from auxiliary input | |
US10741175B2 (en) | Systems and methods for natural language understanding using sensor input | |
KR102700003B1 (ko) | 전자 장치 및 그 제어 방법 | |
US20190341053A1 (en) | Multi-modal speech attribution among n speakers | |
Misu et al. | Situated multi-modal dialog system in vehicles | |
US20240346820A1 (en) | Generation of comments corresponding to videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |