RU2685970C2 - Обнаружение разговора - Google Patents
Обнаружение разговора Download PDFInfo
- Publication number
- RU2685970C2 RU2685970C2 RU2016140453A RU2016140453A RU2685970C2 RU 2685970 C2 RU2685970 C2 RU 2685970C2 RU 2016140453 A RU2016140453 A RU 2016140453A RU 2016140453 A RU2016140453 A RU 2016140453A RU 2685970 C2 RU2685970 C2 RU 2685970C2
- Authority
- RU
- Russia
- Prior art keywords
- conversation
- user
- content item
- fragments
- human speech
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 239000012634 fragment Substances 0.000 claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 23
- 230000000007 visual effect Effects 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims abstract description 15
- 230000003287 optical effect Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 41
- 230000033764 rhythmic process Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 abstract 1
- 230000008859 change Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000007177 brain activity Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Optics & Photonics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Изобретение относится к средствам для обнаружения разговора между пользователями. Технический результат заключается в повышении точности автоматического обнаружения разговора между пользователями. Принимают поток аудиоданных от одного или более датчиков. Обнаруживают разговор между первым пользователем и вторым пользователем на основе потока аудиоданных. Обнаруживают фрагменты человеческой речи поочередно между первым и вторым пользователями, включая пользователя, носящего устанавливаемое на голове устройство отображения, и другое лицо, на основе потока аудиоданных. Принимают изображения сцены, включающей в себя упомянутое другое лицо, от оптического датчика устанавливаемого на голове устройства отображения. Подтверждают, что другое лицо разговаривает с носящим пользователем, на основе упомянутого изображения. Изменяют представление элемента цифрового контента в ответ на обнаружение разговора. Причем элемент цифрового контента включает в себя один или более элементов визуального контента. 3 н. и 7 з.п. ф-лы, 12 ил.
Description
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0001] Раскрыты различные варианты осуществления, относящиеся к обнаружению разговора (диалога) во время представления контента на вычислительном устройстве и выполнению одного или более действий в ответ на обнаружение разговора. В одном примере принимается поток аудио данных от одного или более датчиков, на основе потока аудио данных обнаруживается разговор между первым пользователем и вторым пользователем, и представление элемента цифрового контента модифицируется вычислительным устройством в ответ на обнаружение разговора.
[0002] Настоящее описание сущности изобретения предоставлено, чтобы в упрощенной форме ввести выбор понятий, которые дополнительно описаны ниже в подробном описании. Настоящее описание сущности изобретения не предназначено для определения ключевых признаков или существенных признаков заявленного предмета изобретения, а также не предназначено, чтобы использоваться для ограничения объема заявленного предмета изобретения. Кроме того, заявленный предмет изобретения не ограничивается реализациями, которые преодолевают какие-либо или все недостатки, отмеченные в любой части настоящего раскрытия.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0003] Фиг. 1 показывает пример представления элементов цифрового контента через устанавливаемое на голове устройство отображения (HMD-устройство).
[0004] Фиг. 2 показывает пользователя, носящего HMD-устройство согласно фиг. 1, ведущего разговор с другим лицом.
[0005] Фиг. 3-5 показывают примеры модификаций, которые могут быть внесены в представление цифрового контента согласно фиг. 1 в ответ на обнаружение разговора между пользователем, носящим HMD-устройство, и другим лицом.
[0006] Фиг. 6 показывает еще один пример представления элементов цифрового контента.
[0007] Фиг. 7 показывает пользователя согласно фиг. 6, ведущего разговор с другим лицом.
[0008] Фиг. 8 показывает примерную модификацию, которая может быть внесена в представление цифрового контента согласно фиг. 6 в ответ на обнаружение разговора между пользователем и другим лицом.
[0009] Фиг. 9 показывает пример конвейера обработки обнаружения разговора.
[0010] Фиг. 10 показывает блок-схему последовательности операций, изображающую пример способа для обнаружения разговора.
[0011] Фиг. 11 показывает пример HMD-устройства.
[0012] Фиг.12 показывает пример вычислительной системы.
ПОДРОБНОЕ ОПИСАНИЕ
[0013] Вычислительные устройства могут быть использованы для представления цифрового контента в различных формах. В некоторых случаях вычислительные устройства могут обеспечивать контент иммерсионным (создающим эффект присутствия) и увлекательным образом, например, путем отображения трехмерных (3D) изображений и/или голографических изображений. Кроме того, такой визуальный контент может быть объединен с представлением аудио контента, чтобы обеспечить восприятие с еще большим эффектом погружения.
[0014] Представления цифрового контента могут потребляться при настройках иных, чем традиционные настройки развлекательной системы, по мере того как вычислительные устройства становятся все более портативными. Таким образом, время от времени пользователь такого вычислительного устройства может участвовать в разговорах с другими во время представления контента. В зависимости от характера представления, презентация может быть отвлекающей по отношению к разговору.
[0015] Таким образом, в данном документе раскрыты варианты осуществления, которые относятся к автоматическому обнаружению разговора между пользователями, и изменению представления цифрового контента, в то время как происходит разговор, например, чтобы уменьшить заметность представления во время разговора. Путем обнаружения разговоров, в противоположность простому присутствию человеческих голосов, такие вычислительные устройства могут определять вероятное намерение пользователей вычислительных устройств отвлечься, по меньшей мере частично, от отображаемого контента, чтобы вступить в разговор с другим человеком. Кроме того, подходящие модификации представления контента могут быть осуществлены, чтобы облегчить пользователю отвлечение от контента.
[0016] Разговоры могут быть обнаружены любым подходящим способом. Например, разговор между пользователями может быть обнаружен путем обнаружения первого пользователя, произносящего фрагмент человеческой речи (например, по меньшей мере несколько слов), а затем второго пользователя, произносящего фрагмент человеческой речи, а затем первого пользователя, произносящего фрагмент человеческой речи. Другими словами, разговор может быть обнаружен как ряд фрагментов человеческой речи, которые чередуются между различными местоположениями источников.
[0017] На фиг. 1-5 показан примерный сценарий физической среды 100, в которой носящий пользователь 102 взаимодействует с вычислительным устройством в форме устанавливаемого на голове устройства отображения (HMD-устройства) 104. HMD-устройство 104 может быть сконфигурировано так, чтобы представлять один или более элементов цифрового контента носящему пользователю и изменять представление в ответ на обнаружение разговора между носящим пользователем и другим лицом. HMD-устройство 104 может обнаруживать разговор с использованием, например, аудио и/или видео данных, принимаемых от одного или более датчиков, как описано более подробно ниже.
[0018] На фиг. 1 множество элементов цифрового контента в форме голографических объектов 106 изображены в качестве отображаемых на просвечивающем дисплее 108 HMD-устройства 104 с точки зрения носящего пользователя 102. Множество голографических объектов 106 могут появляться как виртуальные объекты, которые окружают носящего пользователя 102, как будто плавающие в физической среде 100. В другом примере голографические объекты также могут появляться, как будто висящие на стенах или другом объекте, связанном с другими поверхностями в физической среде.
[0019] В изображенном варианте осуществления голографические объекты отображаются как ʺпланшетыʺ, которые могут быть использованы для отображения различного контента. Такие планшеты могут включать в себя любое подходящее видео, изображения или другой визуальный контент. В одном примере первый планшет может представлять портал электронной почты, второй планшет может представлять портал социальной сети, а третий планшет может представлять новостную ленту. В другом примере различные планшеты могут представлять различные телевизионные каналы, такие как различные спортивные события. В еще одном примере один планшет может представлять видеоигру, а другие планшеты могут представлять сопутствующие приложения к видеоигре, такие как ʺкомната чатаʺ (дискуссионная группа), приложение социальных сетей, приложение игровой статистики и отслеживания достижений или другое подходящее приложение. В некоторых случаях один элемент цифрового контента может отображаться через просвечивающий дисплей. Следует понимать, что планшеты согласно фиг. 1 изображены с целью примера, и что голографический контент может отображаться в любой другой подходящей форме.
[0020] HMD-устройство 104 также может быть сконфигурировано, чтобы выводить аудио контент, отдельно или в сочетании с видео контентом, к носящему пользователю 102. Например, HMD-устройство 104 может включать в себя встроенные динамики или наушники для воспроизведения аудио контента.
[0021] Следует понимать, что HMD-устройство может быть сконфигурировано, чтобы представлять любой подходящий тип и количество элементов цифрового контента носящему пользователю. Неограничительные примеры цифрового контента, которые могут быть представлены, включают фильмы, телевизионные шоу, видеоигры, приложения, песни, радиопередачи, подкасты, веб-сайты, текстовые документы, изображения, фотографии и т.д.
[0022] На фиг. 2 в то время как носящий пользователь 102 взаимодействует с множеством голографических объектов 106, отображаемых через просвечивающий дисплей 108, другое лицо 110 входит в физическую среду 100. При виде другого лица 110 носящий пользователь 102 инициирует разговор 112 с другим лицом. Разговор включает в себя то, что каждый из носящего пользователя и другого лица произносит фрагменты человеческой речи друг к другу. Таким образом, HMD-устройство может быть сконфигурировано, чтобы обнаруживать разговор путем обнаружения того, что носящий пользователь говорит как до, так и после того, как говорит другое лицо. Аналогичным образом, HMD-устройство может быть сконфигурировано, чтобы обнаруживать разговор путем обнаружения того, что другое лицо говорит как до, так и после того, как говорит пользователь, носящий HMD-устройство.
[0023] На фиг. 3-5 представлены неограничительные примеры того, как HMD-устройство может изменять представление отображаемых голографических объектов в ответ на обнаружение разговора между носящим пользователем и другим лицом. Во-первых, со ссылкой на фиг. 3, в ответ на обнаружение разговора, HMD-устройство 104 может быть сконфигурировано, чтобы скрывать множество объектов из отображения на просвечивающем дисплее 108. В некоторых реализациях, просвечивающий дисплей может быть полностью очищен от каких-либо виртуальных объектов или наложений. Кроме того, в некоторых реализациях, объекты могут быть скрыты, а виртуальная граница, наложение или инструментальная панель могут оставаться отображаемыми на просвечивающем дисплее. В сценариях, где объекты представляют видео и/или аудио контент, такой контент может быть приостановлен в ответ на скрытие планшетов из вида. Таким образом, носящий пользователь может возобновить потребление контента в момент, в который контент был приостановлен, когда разговор закончится.
[0024] В другом примере, показанном на фиг. 4, в ответ на обнаружение разговора HMD-устройство 104 может быть сконфигурировано так, чтобы перемещать один или более из множества объектов в другое положение на просвечивающем дисплее, которое может быть вне центрального вида носящего пользователя, и, таким образом, менее вероятно блокировать взгляд носящего пользователя в направлении на другое лицо. Кроме того, в некоторых реализациях, HMD-устройство может быть сконфигурировано, чтобы определять положение другого лица по отношению к носящему пользователю, и перемещать множество объектов в положение на просвечивающем дисплее, которое не блокирует направление на другое лицо. Например, направление на другое лицо может быть определено с использованием аудио данных (например, направленных аудио данных от решетки микрофонов), видео данных (цвета, инфракрасных, глубины и т.д.), их комбинации или любых других подходящих данных.
[0025] В другом примере, показанном на фиг. 5, в ответ на обнаружение разговора, HMD-устройство 104 может быть сконфигурировано, чтобы изменять размеры отображаемых объектов и перемещать множество объектов в другое положение на просвечивающем дисплее. В качестве одного неограничительного примера, размер каждого из множества объектов может быть уменьшен, и множество объектов могут быть перемещены в угол просвечивающего дисплея. Множество объектов могут быть изменены, чтобы появиться в виде вкладок в углу, что может служить в качестве напоминания о контенте, который носящий пользователь потреблял до участия в разговоре, или может иметь любой другой подходящий вид. В качестве еще одного примера, изменение представления множества объектов может включать в себя увеличение просвечиваемости отображаемых объектов, чтобы позволить носящему пользователю видеть другого человека через просвечивающий дисплей.
[0026] В описанных выше сценариях виртуальные объекты, представленные посредством просвечиваемого дисплея, являются связанными с корпусом относительно носящего пользователя HMD-устройства. Другими словами, положение виртуального объекта представляется фиксированным или блокированным относительно положения пользователя, носящего HMD-устройство. Таким образом, связанный с корпусом виртуальный объект, может представляться остающимся в том же положении на просвечивающем дисплее с точки зрения носящего пользователя, даже когда носящий пользователь перемещается в пределах физической среды.
[0027] В некоторых реализациях виртуальные объекты, представленные посредством просвечивающего дисплея, могут представляться носящему пользователю, как связанные с реальным миром. Другими словами, положение виртуального объекта представляется фиксированным по отношению к положению в реальном мире в физической среде. Например, голографический планшет может представляться, как будто он висит на стене в физической среде. В некоторых случаях, положение связанного с реальным миром виртуального объекта может создать помеху разговору. Соответственно, в некоторых реализациях, изменение представления виртуального объекта в ответ на обнаружение разговора может включать в себя изменение положения в реальном мире связанного с реальным миром виртуального объекта. Например, виртуальный объект, находящийся в положении в реальном мире между пользователем, носящим HMD-устройство, и другим пользователем, может быть перемещен в другое положение в реальном мире, которое не находится между носящим пользователем и другим пользователем. В одном примере положение может находиться в направлении, отличном от направления на пользователя.
[0028] В некоторых реализациях HMD-устройство может быть дополнительно сконфигурировано, чтобы обнаруживать конец разговора. В ответ на обнаружение конца разговора, HMD-устройство может быть сконфигурировано, чтобы возвращать визуальное состояние объектов на просвечивающем дисплее в их состояние, которое существовало до обнаружения разговора (например, не скрытое, менее прозрачное, более центрированное в визуализации и т.д.). В других реализациях носящий пользователь может обеспечивать ручную команду (например, нажатие кнопки, голосовую команду, жест и т.д.), чтобы повторно инициировать отображение множества объектов на просвечивающем дисплее.
[0029] Обнаружение разговора, как это описано выше, может быть использовано с любым подходящим вычислительным устройством, в том числе, но без ограничения указанным, HMD согласно фиг. 1-5. На фиг. 6-8 показан другой примерный сценарий, в котором первый пользователь 602 в физической среде 600 взаимодействует с крупномасштабным устройством 604 отображения. Устройство 604 отображения может осуществлять связь с вычислительным устройством 606 развлекательной системы. Кроме того, вычислительное устройство 606 может осуществлять связь с сенсорным устройством 608, которое включает в себя один или более датчиков, сконфигурированных для захвата данных о физической среде 600. Сенсорное устройство может включать в себя один или более аудио датчиков для захвата потока аудио данных. В некоторых реализациях сенсорное устройство может включать в себя один или более датчиков изображения для захвата потока видео данных (например, датчики изображения глубины, датчики инфракрасного изображения, датчики изображения видимого света и т.д.).
[0030] Вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы управлять представлением одного или более элементов цифрового контента другому лицу с помощью устройства 604 отображения. Далее, вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы обнаруживать разговор между пользователями на основе аудио и/или видео данных, получаемых от сенсорного устройства 608, и изменять представление одного или более из множества элементов цифрового контента в ответ на обнаружение разговора. Хотя сенсорное устройство, крупномасштабное устройство отображения и вычислительное устройство развлекательной системы показаны в виде отдельных компонентов, в некоторых реализациях сенсорное устройство, крупномасштабное устройство отображения и вычислительное устройство развлекательной системы могут быть объединены в одном корпусе.
[0031] На фиг. 6 первый пользователь 602 играет в видеоигру, исполняемую вычислительным устройством 606 развлекательной системы. В то время как первый пользователь играет в видеоигру, сенсорное устройство 608 захватывает аудио данные, представляющие звуки в физической среде 600. На фиг. 7, в то время как первый пользователь 602 занят видеоигрой, отображаемой на крупномасштабном устройстве 604 отображения, второй пользователь 610 входит в физическую среду 600. Увидев второго пользователя 610, первый пользователь 602 инициирует разговор 612 с вторым пользователем. Разговор включает в себя то, что каждый из первого пользователя и второго пользователя говорит фрагменты человеческой речи друг другу. В качестве одного примера, разговор может быть обнаружен, основываясь на том, что первый пользователь говорит до и после того, как говорит второй пользователь, или второй пользователь говорит до и после того, как говорит первый пользователь.
[0032] Разговор между первым и вторым пользователем может приниматься сенсорным устройством 608 и выводится как поток аудио данных, и вычислительное устройство 606 развлекательной системы может принимать поток аудио данных от сенсорного устройства 608. Вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы обнаруживать разговор между первым пользователем 602 и вторым пользователем 610 на основе потока аудио данных и изменять представление видеоигры в ответ на обнаружение разговора, чтобы уменьшить заметность видеоигры во время разговора.
[0033] Вычислительное устройство 606 развлекательной системы может выполнять любые подходящие действия в ответ на обнаружение разговора. В одном примере, как показано на фиг. 8, вычислительное устройство 606 развлекательной системы может изменить представление видеоигры, приостановив видеоигру. Кроме того, в некоторых реализациях может быть отображен визуальный индикатор 614, чтобы указывать, что представление видеоигры было изменено, причем визуальный индикатор может обеспечить едва заметную индикацию пользователю того, что вычислительное устройство развлекательной системы реагирует на обнаружение разговора. В качестве другого примера, в ответ на обнаружение разговора, вычислительное устройство развлекательной системы может приглушить или уменьшить громкость видеоигры без приостановки видеоигры.
[0034] В некоторых реализациях в ответ на обнаружение разговора, представление элемента цифрового контента может быть изменено различными способами на основе одного или более факторов. В одном примере представление элемента цифрового контента может быть изменено различным образом на основе типа контента элемента цифрового контента. Например, видеоигры могут быть приостановлены, и телевизионные шоу в прямой трансляции могут быть сокращены в размерах, и громкость может быть уменьшена. В другом примере представление элемента цифрового контента может быть изменено различным образом на основе уровня вовлечения или взаимодействия с элементом цифрового контента. Например, может быть реализован механизм для оценки уровня взаимодействия на основе различных показаний датчиков, например, как ʺизмеритель вовлеченияʺ. В одном примере, если пользователь определен, как имеющий высокий уровень вовлечения, то представление элемента цифрового контента может быть изменено просто путем снижения уровня громкости. С другой стороны, если пользователь определен как имеющий пониженный уровень вовлечения, то представление элемента цифрового контента может быть изменено путем скрытия и приглушения элемента цифрового контента. Другие неограничительные факторы, которые могут быть использованы для определения того, как изменяется представление элемента цифрового контента, могут включать в себя время суток, географическое местоположение и физическую настройку (например, работа, дом, кафе и т.д.).
[0035] Возникновение разговора может быть определено различными способами. Например, разговор может быть обнаружен на основе аудио данных, видео данных или их комбинации. Фиг. 9 показывает пример конвейера 900 обработки разговора, который может быть реализован в одном или более вычислительных устройствах для обнаружения разговора. Конвейер 900 обработки разговора может быть сконфигурирован, чтобы обрабатывать потоки данных, принимаемые от множества различных датчиков 902, которые захватывают информацию о физической среде.
[0036] В изображенном варианте осуществления поток 904 аудио данных может быть принят от решетки 904 микрофонов, и поток 924 данных изображения может быть принят от датчика 906 изображения. Поток 908 аудио данных может быть пропущен через стадию 910 обнаружения голосовой активности (VAD), сконфигурированную, чтобы определять, является ли поток аудио данных характерным для человеческого голоса или другого фонового шума. Аудио данные, указанные как включающие в себя голосовую активность 912, могут выводиться из стадии 910 VAD и вводиться в стадию 914 распознавания речи, сконфигурированную, чтобы обнаруживать фрагменты речи из голосовой активности. Стадия 914 распознавания речи может выводить фрагменты 916 человеческой речи. Например, фрагменты человеческой речи могут включать в себя части слов и/или полные слова.
[0037] В некоторых реализациях стадия распознавания речи может выводить уровень достоверности, ассоциированный с фрагментом человеческой речи. Конвейер обработки разговора может быть сконфигурирован так, чтобы устанавливать порог достоверности (например, 50% уверенности в том, что речевой фрагмент является словом), и может отклонять фрагменты человеческой речи, имеющие уровень достоверности, который меньше, чем порог достоверности.
[0038] В некоторых реализациях стадия распознавания речи может быть реализована локально на вычислительном устройстве. В других реализациях стадия распознавания речи может быть реализована как служба, расположенная на удаленном вычислительном устройстве (например, реализованная в вычислительной облачной сети), или распределенная между локальными и удаленными устройствами.
[0039] Фрагменты 916 человеческой речи, выведенные из стадии 914 распознавания речи, могут быть введены в стадию 918 локатора источника речи, сконфигурированную, чтобы определять местоположение источника фрагмента человеческой речи. В некоторых реализациях местоположение источника может быть оценено путем сравнения громкостей преобразователей и/или фаз микрофонов в решетке 904 микрофонов. Например, каждый микрофон в решетке может быть откалиброван, чтобы сообщать уровень громкости преобразователя и/или фазу относительно других микрофонов в решетке. Используя цифровую обработку сигнала, может быть вычислена среднеквадратичная воспринимаемая громкость от каждого микрофонного преобразователя (например, каждые 20 миллисекунд или с другим подходящим интервалом), чтобы обеспечить взвешенную функцию, которая указывает, какие микрофоны сообщают о более громком уровне аудио и насколько больше. Сравнение уровней громкости преобразователей каждого из микрофонов в решетке может быть использовано для оценки местоположения источника захваченных аудио данных.
[0040] В некоторых реализациях диаграммообразующий пространственный фильтр может быть применен к множеству аудио выборок решетки микрофонов, чтобы оценивать местоположение источника захваченных аудио данных. В случае HMD-устройства, аудио поток в сформированной диаграмме может быть направлен непосредственно вперед от HMD-устройства для выравнивания со ртом носящего пользователя. Как таковое, аудио от носящего пользователя и любого другого непосредственно перед носящим пользователем может быть ясным, даже на расстоянии. В некоторых реализациях сравнение уровней громкости преобразователей и диаграммообразующего пространственного фильтра может быть использовано в комбинации, чтобы оценивать местоположение источника захваченных аудио данных.
[0041] Стадия 918 локатора источника речи может вводить местоположения источников фрагментов 920 человеческой речи в стадию 922 детектора разговора, сконфигурированную, чтобы обнаруживать разговор на основе определения, что фрагменты человеческой речи чередуются между различными местоположениями источников. Чередующийся паттерн может указывать, что разные пользователи говорят в направлении назад и вперед друг к другу в разговоре.
[0042] В некоторых реализациях стадия 922 детектора разговора может быть сконфигурирована, чтобы обнаруживать разговор, если фрагменты человеческой речи чередуются между различными местоположениями источников в пределах порогового периода времени, или фрагменты человеческой речи возникают в пределах назначенного диапазона ритма (чередования звука и пауз). Пороговый период времени и ритм могут быть установлены любым подходящим образом. Пороговый период может гарантировать, что чередующиеся фрагменты человеческой речи возникают во времени достаточно близко, чтобы быть разговором, а не несвязанными речевыми фрагментами.
[0043] В некоторых реализациях конвейер 900 обработки разговора может быть сконфигурирован, чтобы анализировать поток 908 аудио данных для определения того, исходят ли один или более фрагментов человеческой речи из электронного аудио устройства, например, из фильма или телевизионного шоу, представляемых на дисплее. В одном примере определение может выполняться на основе идентификации аудио сигнатуры или сигнатуры громкости электронного аудио устройства. В другом примере определение может быть выполнено на основе известного местоположения источника электронного аудио устройства. Кроме того, конвейер 900 обработки разговора может быть сконфигурирован, чтобы активно игнорировать эти один или более фрагментов человеческой речи, обеспечиваемых электронным аудио устройством, при определении того, что фрагменты человеческой речи чередуются между различными местоположениями источников. Таким образом, например, разговор, происходящий между персонажами в кино, невозможно спутать с разговором между реальными пользователями-людьми.
[0044] В некоторых реализациях анализ потока аудио данных может быть улучшен за счет анализа потока 924 данных изображения, принятого от датчика 906 изображения. Например, поток данных изображения может включать в себя изображения одного или обоих говорящих пользователей, потенциально вовлеченных в разговор (например, изображения пользователя с точки зрения пользователя, носящего HMD-устройство, или изображения обоих пользователей с точки зрения сенсорного устройства). Поток 924 данных изображения может быть введен в стадию 926 распознавания признаков. Стадия 926 распознавания признаков может быть сконфигурирована, например, чтобы анализировать изображения для определения того, движется ли рот пользователя. Стадия 926 распознавания признаков может выводить идентифицированный признак и/или уровень 930 достоверности, указывающий уровень достоверности того, что пользователь говорит. Уровень 930 достоверности может быть использован стадией 922 детектора разговора в комбинации с анализом потока аудио данных для обнаружения разговора.
[0045] Поток 924 данных изображения также может быть введен в стадию 928 идентификации пользователя. Стадия 928 идентификации пользователя может быть сконфигурирована, чтобы анализировать изображения для распознавания пользователя, который говорит. Например, структура лица или тела может сравниваться с пользовательскими профилями для идентификации пользователя. Следует понимать, что пользователь может быть идентифицирован на основе любого подходящего визуального анализа. Стадия 928 идентификации пользователя может выводить идентификатор говорящего 932 в стадию 922 детектора разговора, а также уровень достоверности, отражающий достоверность в определении. Стадия 922 детектора разговора может использовать идентификатор 932 говорящего для классификации фрагментов человеческой речи в качестве произнесенных конкретными идентифицированными пользователями. Таким образом, достоверность обнаружения разговора может быть увеличена. Следует понимать, что изображенный конвейер обработки разговора является лишь одним примером способа, которым анализируется поток аудио данных, чтобы обнаружить разговор, и любой подходящий подход может быть реализован, чтобы обнаружить разговор, без отклонения от объема настоящего изобретения.
[0046] На фиг. 10 показана блок-схема последовательности операций, изображающая примерный способ 1000 обнаружения разговора с помощью вычислительного устройства, чтобы помочь уменьшить заметность представления контента во время разговора. Способ 1000 может выполняться, например, с помощью HMD-устройства 104, показанного на фиг. 1, вычислительного устройства 606 развлекательной системы, показанного на фиг. 6, или любого другого подходящего вычислительного устройства.
[0047] На этапе 1002 способ 1000 включает в себя представление одного или более элементов цифрового контента. Например, представление может включать в себя отображение элемента видео контента на дисплее. В другом примере представление может включать в себя воспроизведение элемента аудио контента. Кроме того, на этапе 1004 способ 1000 включает в себя прием потока аудио данных из одного или более датчиков. В одном примере поток аудио данных может быть принят от решетки микрофонов.
[0048] На этапе 1006 способ 1000 включает в себя анализ потока аудио данных на наличие голосовой активности, и на этапе 1008 - определение того, включает ли поток аудио данных голосовую активность. Если поток аудио данных включает в себя голосовую активность, то способ 1000 переходит к этапу 1010. В противном случае, способ 1000 возвращается к другим операциям.
[0049] На этапе 1010 способ 1000 включает в себя анализ голосовой активности на наличие фрагментов человеческой речи, и на этапе 1012 - определение, включает ли в себя голосовая активность фрагменты человеческой речи. Если голосовая активность включает в себя фрагменты человеческой речи, то способ 1000 переходит к этапу 1014. В противном случае, способ 1000 возвращается к другим операциям.
[0050] На этапе 1014 способ 1000 включает в себя определение того, предоставлены ли фрагменты человеческой речи электронным аудио устройством. Если какие-либо из фрагментов человеческой речи предоставляются электронным аудио устройством, то способ 1000 переходит к этапу 1016. В противном случае, способ 1000 переходит к этапу 1018. На этапе 1016 способ 1000 включает в себя активное игнорирование фрагментов человеческой речи, предоставленных электронным аудио устройством. Другими словами, эти фрагменты человеческой речи могут быть исключены из учета при обнаружении разговора. На этапе 1018 способ 1000 включает в себя определение местоположения источника каждого фрагмента человеческой речи потока аудио данных. Далее, на этапе 1020 способ 1000 включает в себя определение, чередуются ли фрагменты человеческой речи между различными местоположениями источников. В одном примере разговор может быть обнаружен, когда фрагменты человеческой речи, произнесенные первым пользователем, возникают до и после фрагмента человеческой речи, произнесенного вторым пользователем. В другом примере разговор может быть обнаружен, когда фрагменты человеческой речи, произнесенные вторым пользователем, возникают до и после фрагмента человеческой речи, произнесенного первым пользователем. В некоторых реализациях это может включать в себя определение, находятся ли чередующиеся фрагменты человеческой речи в пределах назначенного периода времени. Кроме того, в некоторых реализациях это может включать в себя определение, возникают ли чередующиеся фрагменты человеческой речи в пределах назначенного диапазона ритма. Если фрагменты человеческой речи чередуются между различными местоположениями источников (и находятся в пределах назначенного периода времени и возникают в пределах назначенного диапазона ритма), то разговор обнаруживается, и способ 1000 переходит к этапу 1022. В противном случае способ 1000 возвращается к другим операциям.
[0051] Если разговор обнаружен, то на этапе 1022 способ 1000 включает в себя, в ответ на обнаружение разговор, изменение представления одного или более элементов цифрового контента. Например, представление может быть приостановлено, громкость элемента аудио контента может быть снижена, один или более элементов визуального контента могут быть скрыты от просмотра на дисплее, один или более элементов визуального контента могут быть перемещены в другое положение на экране, и/или размер одного или более элементов визуального контента на дисплее может быть изменен.
[0052] Путем изменения представления элемента цифрового контента в ответ на обнаружение разговора между пользователями, представление элемента цифрового контента может быть сделано менее заметными во время разговора. К тому же, таким образом, пользователю не требуется вручную изменять представление элемента цифрового контента, например, вручную приостанавливать воспроизведение контента, уменьшать громкость и т.д., когда разговор инициируется.
[0053] Реализации обнаружения разговора, описанные здесь, могут быть использованы с любым подходящим вычислительным устройством. Например, в некоторых вариантах осуществления, раскрытая реализация может быть осуществлена с использованием HMD-устройства. Фиг. 11 показывает неограничительный пример HMD- устройства 1100 в виде носимых очков с прозрачным дисплеем 1102. Следует понимать, что HMD-устройство может иметь любую другую подходящую форму, в которой прозрачный, полупрозрачный и/или непрозрачный дисплей поддерживается перед глазом или глазами наблюдателя.
[0054] HMD-устройство 1100 включает в себя контроллер 1104, сконфигурированный, чтобы управлять работой просвечивающего дисплея 1102. Просвечивающий дисплей 1102 может обеспечивать то, что изображения, такие как голографические объекты, попадают в глаза пользователя HMD-устройства 1100. Просвечивающий дисплей 1102 может быть сконфигурирован, чтобы визуально усилить внешний вид реального мира, физической среды для носящего пользователя, просматривающего физическую среду через прозрачный дисплей. Например, внешний вид физической среды может быть усилен с помощью графического контента, который представляется с помощью прозрачного дисплея 1102, чтобы создать среду смешанной реальности. В одном примере дисплей может быть сконфигурирован, чтобы отображать один или более элементов цифрового контента. В некоторых случаях, элементы цифрового контента могут быть виртуальными объектами, наложенными перед средой реального мира. Кроме того, в некоторых случаях, элементы цифрового контента могут включать в себя объекты реального мира среды реального мира, просматриваемой через прозрачный дисплей 1102.
[0055] Любой подходящий механизм может быть использован для отображения изображений при помощи прозрачного дисплея 1102. Например, прозрачный дисплей 1102 может включать в себя элементы формирования изображения, расположенные внутри линз 1106 (например, просвечивающий дисплей на органических светоизлучающих диодах (OLED)). В качестве другого примера, прозрачный дисплей 1102 может включать в себя модулятор света, расположенный в оправе HMD-устройства 1100. В этом примере линзы 1106 могут служить световодом для доставки света от модулятора света в глаза пользователя. Такой световод может позволить носящему пользователю воспринимать 3D голографическое изображение, расположенное в физической среде, которую наблюдает носящий пользователь, в то же время позволяя носящему пользователю просматривать физические объекты в физической среде, тем самым создавая среду смешанной реальности.
[0056] HMD-устройство 1100 может также включать в себя различные датчики и связанные с ними системы для предоставления информации контроллеру 1104. Такие датчики могут включать в себя, без ограничения указанным, решетку микрофонов, один или более обращенных вовне датчиков 1108 изображения и блок инерциальных измерений (IMU) 1110.
[0057] В качестве неограничительного примера, решетка микрофонов может включать в себя шесть микрофонов, расположенных в разных частях HMD-устройства 1100. В некоторых реализациях микрофоны 1112 и 1114 могут быть расположены на верхней части линзы 1106, и могут, как правило, быть обращены вперед. Микрофоны 1112 и 1114 могут быть ориентированы под углами сорок пять градусов по отношению к направлению вперед HMD-устройства 1100. Микрофоны 1112 и 1114 могут быть дополнительно ориентированы в плоской горизонтальной плоскости HMD-устройства 1100. Микрофоны 1112 и 1114 могут быть всенаправленными микрофонами, сконфигурированными, чтобы захватывать звук в общей области/направлении перед HMD-устройством 1100, или могут иметь любую другую подходящую форму.
[0058] Микрофоны 1116 и 1118 могут быть расположены на нижней части линзы 1106. В качестве одного неограничительного примера микрофоны 1116 и 1118 могут быть обращены вперед и направлены вниз, чтобы захватывать звук, исходящий от рта носящего пользователя. В некоторых реализациях микрофоны 1116 и 1118 могут быть направленными микрофонами. В некоторых реализациях микрофоны 1112, 1114, 1116 и 1118 могут быть расположены в оправе, окружающей линзу 1106.
[0059] Микрофоны 1120 и 1122 могут, каждый, располагаться в боковой оправе HMD-устройства 1100. Микрофоны 1122 и 1120 могут быть ориентированы под углами девяносто градусов относительно направления вперед HMD-устройства 1100. Микрофоны 1122 и 1120 могут быть дополнительно ориентированы в плоской горизонтальной плоскости HMD устройства 1100. Микрофоны 1122 и 1120 могут быть всенаправленными микрофонами, сконфигурированными, чтобы захватывать звук в общей области/направлении на каждой стороне HMD-устройства 1100. Следует понимать, что любая другая подходящая решетка микрофонов, кроме описанной выше, также может быть использована.
[0060] Как описано выше, решетка микрофонов может формировать поток аудио данных, которые могут анализироваться контроллером 1104, чтобы обнаруживать разговор между пользователем, носящим HMD-устройство, и другим лицом. В одном неограничительном примере с использованием цифровой обработки сигнала, может быть вычислена среднеквадратичная воспринимаемая громкость от каждого микрофонного преобразователя, и взвешенная функция может сообщать, сообщают ли микрофоны слева или справа более громкий звук, и насколько. Аналогично, может быть сообщено значение для случаев ʺко ртуʺ и ʺот ртаʺ и ʺспереди относительно сбокуʺ. Эти данные могут быть использованы для определения местоположения источников фрагментов человеческой речи. Кроме того, контроллер 1104 может быть сконфигурирован, чтобы обнаруживать разговор путем определения того, что фрагменты человеческой речи чередуются между различными положениями источников.
[0061] Следует понимать, что изображенная решетка микрофонов является лишь одним неограничительным примером подходящей решетки микрофонов, и любое подходящее количество микрофонов в любой подходящей конфигурации может быть реализовано без отклонения от сущности и объема настоящего раскрытия.
[0062] Один или более обращенных вовне датчиков 1108 изображения могут быть сконфигурированы, чтобы захватывать визуальные данные из физической среды, в которой расположено HMD-устройство 1100. Например, обращенные вовне датчики 1108 могут быть сконфигурированы, чтобы обнаруживать движения в пределах поля зрения дисплея 1102, такие как движения, выполняемые носящим пользователем или лицом или физическим объектом в поле зрения. В одном примере обращенные вовне датчики 1108 могут обнаруживать пользователя, разговаривающего с пользователем, носящим HMD-устройство. Обращенные вовне датчики могут также захватывать информацию 2D-изображения и информацию о глубине из физической среды и физических объектов в среде. Как описано выше, такие данные изображения могут быть использованы для визуального распознавания того, что пользователь разговаривает с носящим пользователем. Такой анализ может быть скомбинирован с анализом потока аудио данных, чтобы увеличить достоверность обнаружения разговора.
[0063] IMU 1110 может быть сконфигурирован, чтобы предоставлять данные положения и/или ориентации HMD-устройства 1100 в контроллер 1104. В одном варианте осуществления IMU 1110 может быть сконфигурирован в виде трехосной или имеющей три степени свободы системы датчиков положения. Эта примерная система датчиков положения может, например, включать в себя три гироскопа для указания или измерения изменения в ориентации HMD-устройства 1100 в 3D-пространстве относительно трех ортогональных осей (например, х, y, z) (например, по крену, тангажу, рысканию). Ориентация, полученная из сигналов датчиков IMU, может быть использована для определения направления пользователя, которое участвует в разговоре с пользователем, носящим HMD-устройство.
[0064] В другом примере IMU 1110 может быть выполнен в виде шестиосной или имеющей шесть степеней свободы системы датчиков положения. Такая конфигурация может включать в себя три акселерометра и три гироскопа, чтобы указывать или измерять изменение в местоположении HMD-устройства 1100 вдоль трех ортогональных осей и изменение в ориентации устройства относительно трех ортогональных осей. В некоторых вариантах осуществления, данные положения и ориентации от датчика 1108 изображения и IMU 1110 могут использоваться в сочетании для определения положения и ориентации HMD-устройства 100.
[0065] HMD-устройство 1100 может дополнительно включать в себя динамики 1124 и 1126, сконфигурированные для вывода звука к пользователю, носящему HMD-устройство. Динамики 1124 и 1126 могут быть размещены на каждой боковой части оправы HMD-устройства вблизи ушей пользователя. Например, динамики 1124 и 1126 могут воспроизводить аудио контент, такой как музыка или звуковое сопровождение к визуальному контенту, отображаемому через просвечивающий дисплей 1102. В некоторых случаях громкость динамиков может снижаться или приглушаться в ответ на обнаружение разговора между носящим пользователем и другим лицом.
[0066] Контроллер 1104 может включать в себя логическую машину и машину хранения, как описано более подробно ниже со ссылками на фиг. 12, которые могут осуществлять связь с различными датчиками и дисплеем HMD-устройства 1100. В одном примере машина хранения может включать в себя инструкции, которые являются исполняемыми логической машиной, чтобы принимать поток аудио данных от одного или более датчиков, таких, как решетка микрофонов, обнаруживать разговор между носящим пользователем и другим пользователем на основе потока аудио данных и изменять представление элемента цифрового контента в ответ на обнаружение разговора.
[0067] В некоторых вариантах осуществления способы и процессы, описанные здесь, могут быть связаны с вычислительной системой одного или более вычислительных устройств. В частности, такие способы и процессы могут быть реализованы в виде компьютерной прикладной программы или службы, интерфейса программирования приложений (API), библиотеки и/или другого компьютерного программного продукта.
[0068] Фиг. 12 схематично показывает неограничительный вариант осуществления вычислительной системы 1200, которая может вводить в действие один или более способов и процессов, описанных выше. Вычислительная система 1200 показана в упрощенной форме. Вычислительная система 1200 может принимать форму одного или более персональных компьютеров, серверных компьютеров, планшетных компьютеров, компьютеров домашней развлекательной системы, сетевых вычислительных устройств, игровых устройств, мобильных вычислительных устройств, устройств мобильной связи (например, смартфона) и/или других вычислительных устройств. Например, вычислительная система может принимать форму HMD-устройства 104, показанного на фиг. 1, вычислительного устройства 606 развлекательной системы, показанного на фиг. 6, или другого подходящего вычислительного устройства.
[0069] Вычислительная система 1200 включает в себя логическую машину 1202 и машину 1204 хранения. Вычислительная система 1200 может опционально включать в себя подсистему 106 отображения, подсистему 1208 ввода, подсистему 1210 связи и/или другие компоненты, не показанные на фиг. 12.
[0070] Логическая машина 1202 включает в себя одно или более физических устройств, сконфигурированных для выполнения инструкций. Например, логическая машина может быть сконфигурирована для исполнения инструкций, которые являются частью одного или более приложений, служб, программ, подпрограмм, библиотек, объектов, компонентов, структур данных или других логических конструкций. Такие инструкции могут быть реализованы для выполнения задачи, реализации типа данных, преобразования состояния одного или более компонентов, достижения технического результата или достижения иным образом желательного результата.
[0071] Логическая машина может включать в себя один или более процессоров, сконфигурированных для исполнения инструкций программного обеспечения. Дополнительно или в качестве альтернативы, логическая машина может включать в себя одну или более аппаратных или программно-аппаратных логических машин, сконфигурированных для исполнения инструкций аппаратных или программно-аппаратных средств. Процессоры логической машины могут быть одноядерными или многоядерными, и инструкции, исполняемые на них, могут быть сконфигурированы для последовательной, параллельной и/или распределенной обработки. Отдельные компоненты логической машины опционально могут быть распределены среди двух или более отдельных устройств, которые могут быть удаленно расположенными и/или сконфигурированными для скоординированной обработки. Аспекты логической машины могут быть виртуализованными и могут выполняться удаленно доступными, взаимодействующими по сети вычислительными устройствами, сконфигурированными в конфигурации облачных вычислений.
[0072] Машина 1204 хранения включает в себя одно или более физических устройств, сконфигурированных для хранения инструкций, исполняемых логической машиной для реализации методов и процессов, описанных здесь. Когда такие методы и процессы реализуются, состояние машины 1204 хранения может быть преобразовано, например, для сохранения различных данных.
[0073] Машина 1204 хранения может включать в себя съемные и/или встроенные устройства. Машина 1204 хранения может включать в себя оптическую память (например, CD, DVD, HD-DVD, Blu-Ray Disc и т.д.), полупроводниковую память (например, RAM, EPROM, EEPROM и т.д.) и/или магнитную память (например, накопитель на жестком диске, накопитель на гибком диске, накопитель на магнитной ленте, MRAM и т.д.), среди других. Машина 1204 хранения может включать в себя энергозависимые, энергонезависимые, динамические, статические, для чтения/записи, только для чтения, с произвольным доступом, с последовательным доступом, позиционно-адресуемые, с адресацией файла и/или контентно-адресуемые устройства.
[0074] Следует понимать, что машина 1204 хранения включает в себя одно или более физических устройств. Однако аспекты инструкций, описанных здесь, могут быть распространены на коммуникационную среду (например, электромагнитный сигнал, оптический сигнал и т.д.), которая не удерживается физическим устройством в течение конечной длительности.
[0075] Аспекты логической машины 1202 и машины 1204 хранения могут быть интегрированы вместе в один или более аппаратно-логических компонентов. Такие аппаратно-логические компоненты могут включать в себя, например, программируемые пользователем вентильные матрицы (FPGA), программно-ориентированные и ориентированные на приложение интегральные схемы (PASIC/ASIC), программно-ориентированные и ориентированные на приложение стандартные продукты (PSSP/ASSP), однокристальные системы (SOC) и сложные программируемые логические устройства (CPLD).
[0076] Следует понимать, что ʺслужбаʺ, как используется здесь, представляет собой прикладную программу, исполняемую по множеству пользовательских сеансов. Служба может быть доступна для одного или более системных компонентов, программ и/или других служб. В некоторых реализациях служба может исполняться на одном или более серверных вычислительных устройствах.
[0077] Подсистема 1206 отображения, если она включена, может быть использована для обеспечения визуального представления данных, хранящихся в машине 1204 хранения. Это визуальное представление может принимать форму графического пользовательского интерфейса (GUI). Поскольку описанные в данном документе способы и процессы изменяют данные, хранимые машиной хранения, и, таким образом, преобразуют состояние машины хранения, состояние подсистемы 1206 отображения может аналогичным образом преобразовываться, чтобы визуально представлять изменения в исходных данных. Подсистема 1206 отображения может включать в себя одно или более устройств отображения, использующих практически любой тип технологии. Такие устройства отображения могут быть объединены с логической машиной 1202 и/или машиной 1204 хранения в общем корпусе, или такие устройства отображения могут быть периферийными устройствами отображения.
[0078] Подсистема 1208 ввода, если она включена, может содержать или взаимодействовать с одним или более устройствами пользовательского ввода, такими как клавиатура, мышь, сенсорный экран или игровой контроллер. В некоторых вариантах осуществления подсистема ввода может содержать или взаимодействовать с выбранными компонентами естественного пользовательского ввода (NUI). Такие компоненты могут быть интегрированными или периферийными, а преобразование и/или обработка действий ввода могут обрабатываться встроенными или внешними средствами. Пример компонентов NUI может включать в себя микрофон для распознавания речи и/или голоса; инфракрасную, цветную, стереоскопическую камеру и/или камеру с восприятием глубины для систем машинного зрения и/или распознавания жестов; средство слежения за положением головы пользователя, средство слежения за движением глаз пользователя, акселерометр и/или гироскоп для обнаружения движения и/или распознавания намерения; а также компоненты восприятия электрического поля для оценки активности мозга. Например, подсистема 1208 ввода может быть сконфигурирована, чтобы принимать поток сенсорных данных от сенсорного устройства 608, показанного на фиг. 6.
[0079] Подсистема 1210 связи, если она включена, может быть сконфигурирована, чтобы коммуникативно связывать вычислительную систему 1200 с одним или более другими вычислительными устройствами. Подсистема 1210 связи может включать в себя проводные и/или беспроводные устройства связи, совместимые с одним или более различными протоколами связи. В качестве неограничительных примеров, подсистема связи может быть сконфигурирована для связи через беспроводную телефонную сеть, проводную или беспроводную локальную сеть или сеть широкого охвата. В некоторых вариантах осуществления настоящего изобретения подсистема связи может позволить вычислительной системе 1200 передавать и/или принимать сообщения к и/или от других устройств через сеть, такую как Интернет.
[0080] Следует понимать, что конфигурации и/или подходы, описанные в настоящем документе, являются примерными по своей природе, и что эти конкретные варианты осуществления или примеры не следует рассматривать в ограничительном смысле, так как возможны многочисленные вариации. Конкретные процедуры или способы, описанные здесь, могут представлять одну или более из любого числа стратегий обработки. Как таковые, различные проиллюстрированные и/или описанные действия могут выполняться в проиллюстрированной и/или описанной последовательности, в других последовательностях, параллельно или могут быть опущены. Подобным же образом, порядок вышеописанных процессов может быть изменен.
[0081] Предмет настоящего изобретения включает в себя все новые и неочевидные комбинации и подкомбинации различных процессов, систем и конфигураций, а также другие признаки, функции, действия и/или свойства, описанные в настоящем документе, а также любые и все их эквиваленты.
Claims (26)
1. Реализуемый компьютером способ обнаружения разговора между пользователями, причем способ содержит:
прием потока аудиоданных от одного или более датчиков;
обнаружение разговора между первым пользователем и вторым пользователем на основе потока аудиоданных;
обнаружение фрагментов человеческой речи поочередно между первым и вторым пользователями, включая пользователя, носящего устанавливаемое на голове устройство отображения, и другое лицо, на основе потока аудиоданных,
прием изображения сцены, включающей в себя упомянутое другое лицо, от оптического датчика устанавливаемого на голове устройства отображения, и
подтверждение, что другое лицо разговаривает с носящим пользователем, на основе упомянутого изображения;
изменение представления элемента цифрового контента в ответ на обнаружение разговора,
причем элемент цифрового контента включает в себя один или более элементов визуального контента, и в котором изменение представления элемента цифрового контента включает в себя одно или более из скрытия одного или более элементов визуального контента из просмотра на дисплее, перемещение одного или более элементов визуального контента в другое положение на экране, изменение просвечиваемости одного или более элементов визуального контента и изменение размера одного или более элементов визуального контента на дисплее.
2. Способ по п. 1, в котором обнаружение разговора между первым пользователем и вторым пользователем включает в себя
обнаружение голосовой активности в потоке аудиоданных, определение того, что голосовая активность включает в себя фрагменты человеческой речи, и
определение того, что фрагменты человеческой речи чередуются между различными местоположениями источников.
3. Способ по п. 2, в котором один или более датчиков включают в себя решетку микрофонов, содержащую множество микрофонов, и в котором определение местоположения источника фрагмента человеческой речи включает в себя применение диаграммообразующего пространственного фильтра для множества аудиовыборок решетки микрофонов, чтобы оценивать различные местоположения источников.
4. Способ по п. 2, в котором обнаружение разговора между первым пользователем и вторым пользователем дополнительно включает в себя определение того, что фрагменты человеческой речи возникают в пределах назначенного диапазона ритма.
5. Способ по п. 2, в котором обнаружение разговора между первым пользователем и вторым пользователем дополнительно включает в себя определение того, что фрагменты человеческой речи чередуются между различными местоположениями источников в пределах порогового периода времени.
6. Способ по п. 2, дополнительно содержащий:
определение того, что один или более фрагментов человеческой речи предоставлены электронным аудиоустройством, и
игнорирование этих одного или более фрагментов человеческой речи, предоставленных электронным аудиоустройством, при определении, что фрагменты человеческой речи чередуются между различными местоположениями источников.
7. Способ по п. 1, в котором элемент цифрового контента включает в себя один или более из элемента аудиоконтента и элемента видеоконтента и в котором изменение представления элемента цифрового контента включает в себя приостановку представления элемента аудиоконтента или элемента видеоконтента.
8. Способ по п. 1, в котором элемент цифрового контента включает в себя элемент аудиоконтента и в котором изменение представления элемента цифрового контента включает в себя снижение громкости элемента аудиоконтента.
9. Машина хранения, хранящая инструкции, исполняемые логической машиной вычислительной системы, чтобы выполнять способ по любому из предыдущих пунктов.
10. Устанавливаемое на голове устройство отображения, содержащее:
один или более аудиодатчиков, сконфигурированных, чтобы регистрировать поток аудиоданных;
оптический датчик, сконфигурированный, чтобы регистрировать изображение сцены;
просвечиваемый дисплей, сконфигурированный, чтобы отображать элемент цифрового контента;
логическую машину и
машину хранения по п. 9.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/255,804 | 2014-04-17 | ||
US14/255,804 US10529359B2 (en) | 2014-04-17 | 2014-04-17 | Conversation detection |
PCT/US2015/024592 WO2015160561A1 (en) | 2014-04-17 | 2015-04-07 | Conversation detection |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2016140453A RU2016140453A (ru) | 2018-04-16 |
RU2016140453A3 RU2016140453A3 (ru) | 2018-10-05 |
RU2685970C2 true RU2685970C2 (ru) | 2019-04-23 |
Family
ID=52992001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016140453A RU2685970C2 (ru) | 2014-04-17 | 2015-04-07 | Обнаружение разговора |
Country Status (11)
Country | Link |
---|---|
US (1) | US10529359B2 (ru) |
EP (1) | EP3132444B1 (ru) |
JP (1) | JP6612250B2 (ru) |
KR (1) | KR102357633B1 (ru) |
CN (1) | CN106233384B (ru) |
AU (1) | AU2015248061B2 (ru) |
BR (1) | BR112016023776A2 (ru) |
CA (1) | CA2943446C (ru) |
MX (1) | MX366249B (ru) |
RU (1) | RU2685970C2 (ru) |
WO (1) | WO2015160561A1 (ru) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2756097C1 (ru) * | 2021-03-24 | 2021-09-28 | Денис Андреевич Рублев | Цифровой детектор микронаушников |
RU2821283C2 (ru) * | 2019-04-30 | 2024-06-19 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Индивидуально настроенный вывод, который оптимизируется для пользовательских предпочтений в распределенной системе |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9922667B2 (en) | 2014-04-17 | 2018-03-20 | Microsoft Technology Licensing, Llc | Conversation, presence and context detection for hologram suppression |
CA2891742C (en) * | 2014-05-15 | 2023-11-28 | Tyco Safety Products Canada Ltd. | System and method for processing control commands in a voice interactive system |
US9459454B1 (en) * | 2014-05-23 | 2016-10-04 | Google Inc. | Interactive social games on head-mountable devices |
KR20160015972A (ko) * | 2014-08-01 | 2016-02-15 | 엘지전자 주식회사 | 웨어러블 디바이스 및 그 제어 방법 |
US9767606B2 (en) * | 2016-01-12 | 2017-09-19 | Lenovo (Singapore) Pte. Ltd. | Automatic modification of augmented reality objects |
US9922655B2 (en) | 2016-05-31 | 2018-03-20 | International Business Machines Corporation | System, method, and recording medium for controlling dialogue interruptions by a speech output device |
US10089071B2 (en) * | 2016-06-02 | 2018-10-02 | Microsoft Technology Licensing, Llc | Automatic audio attenuation on immersive display devices |
US11195542B2 (en) | 2019-10-31 | 2021-12-07 | Ron Zass | Detecting repetitions in audio data |
US20180018986A1 (en) * | 2016-07-16 | 2018-01-18 | Ron Zass | System and method for measuring length of utterance |
CN107643509B (zh) * | 2016-07-22 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 定位方法、定位系统及终端设备 |
WO2018088450A1 (ja) * | 2016-11-08 | 2018-05-17 | ヤマハ株式会社 | 音声提供装置、音声再生装置、音声提供方法及び音声再生方法 |
US10146300B2 (en) | 2017-01-25 | 2018-12-04 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Emitting a visual indicator from the position of an object in a simulated reality emulation |
US11178280B2 (en) * | 2017-06-20 | 2021-11-16 | Lenovo (Singapore) Pte. Ltd. | Input during conversational session |
US20190037363A1 (en) * | 2017-07-31 | 2019-01-31 | GM Global Technology Operations LLC | Vehicle based acoustic zoning system for smartphones |
US10983663B2 (en) * | 2017-09-29 | 2021-04-20 | Apple Inc. | Displaying applications |
KR102348124B1 (ko) * | 2017-11-07 | 2022-01-07 | 현대자동차주식회사 | 차량의 기능 추천 장치 및 방법 |
EP3495942B1 (en) * | 2017-12-07 | 2023-05-24 | Panasonic Intellectual Property Management Co., Ltd. | Head-mounted display and control method thereof |
JP7065353B2 (ja) * | 2017-12-07 | 2022-05-12 | パナソニックIpマネジメント株式会社 | ヘッドマウントディスプレイ及びその制御方法 |
JP2021526757A (ja) | 2018-06-14 | 2021-10-07 | アップル インコーポレイテッドApple Inc. | オーディオ出力デバイスを有するディスプレイシステム |
CN110634189B (zh) | 2018-06-25 | 2023-11-07 | 苹果公司 | 用于在沉浸式混合现实体验期间用户警报的系统和方法 |
US11366514B2 (en) | 2018-09-28 | 2022-06-21 | Apple Inc. | Application placement based on head position |
US11527265B2 (en) * | 2018-11-02 | 2022-12-13 | BriefCam Ltd. | Method and system for automatic object-aware video or audio redaction |
EP3716038A1 (en) * | 2019-03-25 | 2020-09-30 | Nokia Technologies Oy | An apparatus, method, computer program or system for indicating audibility of audio content rendered in a virtual space |
US11846783B2 (en) * | 2019-05-17 | 2023-12-19 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
EP3928192B1 (en) | 2019-09-26 | 2023-10-18 | Apple Inc. | Wearable electronic device presenting a computer-generated reality environment |
WO2021062278A1 (en) | 2019-09-27 | 2021-04-01 | Apple Inc. | Environment for remote communication |
US11172294B2 (en) * | 2019-12-27 | 2021-11-09 | Bose Corporation | Audio device with speech-based audio signal processing |
CN111326175A (zh) * | 2020-02-18 | 2020-06-23 | 维沃移动通信有限公司 | 一种对话者的提示方法及穿戴设备 |
US11822367B2 (en) * | 2020-06-22 | 2023-11-21 | Apple Inc. | Method and system for adjusting sound playback to account for speech detection |
CN111932619A (zh) * | 2020-07-23 | 2020-11-13 | 安徽声讯信息技术有限公司 | 结合图像识别和语音定位的麦克风跟踪系统及方法 |
JP2022113031A (ja) * | 2021-01-22 | 2022-08-03 | ソフトバンク株式会社 | 制御装置、プログラム、システム及び制御方法 |
JP2024507749A (ja) | 2021-02-08 | 2024-02-21 | サイトフル コンピューターズ リミテッド | エクステンデッドリアリティにおけるコンテンツ共有 |
EP4288856A1 (en) | 2021-02-08 | 2023-12-13 | Sightful Computers Ltd | Extended reality for productivity |
JP2024509722A (ja) | 2021-02-08 | 2024-03-05 | サイトフル コンピューターズ リミテッド | エクステンデッドリアリティにおけるユーザ相互作用 |
US11949948B2 (en) | 2021-05-11 | 2024-04-02 | Sony Group Corporation | Playback control based on image capture |
GB2607569A (en) * | 2021-05-21 | 2022-12-14 | Everseen Ltd | A user interface system and method |
US11848019B2 (en) * | 2021-06-16 | 2023-12-19 | Hewlett-Packard Development Company, L.P. | Private speech filterings |
WO2023009580A2 (en) | 2021-07-28 | 2023-02-02 | Multinarity Ltd | Using an extended reality appliance for productivity |
KR102631227B1 (ko) * | 2021-09-28 | 2024-01-31 | 주식회사 피앤씨솔루션 | 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법 |
US20230123723A1 (en) * | 2021-10-15 | 2023-04-20 | Hyundai Mobis Co., Ltd. | System for controlling vehicle display based on occupant's gaze departure |
US11783449B2 (en) * | 2021-12-09 | 2023-10-10 | Htc Corporation | Method for adjusting displayed content based on host posture, host, and computer readable storage medium |
US20230334795A1 (en) | 2022-01-25 | 2023-10-19 | Multinarity Ltd | Dual mode presentation of user interface elements |
US11948263B1 (en) | 2023-03-14 | 2024-04-02 | Sightful Computers Ltd | Recording the complete physical and extended reality environments of a user |
US20240112427A1 (en) | 2022-09-30 | 2024-04-04 | Sightful Computers Ltd | Location-based virtual resource locator |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002171587A (ja) * | 2000-11-30 | 2002-06-14 | Auto Network Gijutsu Kenkyusho:Kk | 車載音響装置の音量調節装置およびそれを用いた音声認識装置 |
US20050251386A1 (en) * | 2004-05-04 | 2005-11-10 | Benjamin Kuris | Method and apparatus for adaptive conversation detection employing minimal computation |
WO2007138503A1 (en) * | 2006-05-31 | 2007-12-06 | Philips Intellectual Property & Standards Gmbh | Method of driving a speech recognition system |
RU2009108342A (ru) * | 2006-09-08 | 2010-09-20 | Сони Корпорейшн (JP) | Устройство и способ отображения |
US20110218711A1 (en) * | 2010-03-02 | 2011-09-08 | Gm Global Technology Operations, Inc. | Infotainment system control |
US20110257966A1 (en) * | 2010-04-19 | 2011-10-20 | Bohuslav Rychlik | System and method of providing voice updates |
US20120050143A1 (en) * | 2010-08-25 | 2012-03-01 | Border John N | Head-mounted display with environmental state detection |
US20120128186A1 (en) * | 2010-06-30 | 2012-05-24 | Panasonic Corporation | Conversation detection apparatus, hearing aid, and conversation detection method |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370504B1 (en) | 1997-05-29 | 2002-04-09 | University Of Washington | Speech recognition on MPEG/Audio encoded files |
US6289140B1 (en) | 1998-02-19 | 2001-09-11 | Hewlett-Packard Company | Voice control input for portable capture devices |
AU2001260162A1 (en) * | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in a speech signal |
WO2002029784A1 (en) | 2000-10-02 | 2002-04-11 | Clarity, Llc | Audio visual speech processing |
US20020154214A1 (en) | 2000-11-02 | 2002-10-24 | Laurent Scallie | Virtual reality game system using pseudo 3D display driver |
US20050039131A1 (en) * | 2001-01-16 | 2005-02-17 | Chris Paul | Presentation management system and method |
US6931596B2 (en) | 2001-03-05 | 2005-08-16 | Koninklijke Philips Electronics N.V. | Automatic positioning of display depending upon the viewer's location |
US20030037243A1 (en) | 2001-08-14 | 2003-02-20 | International Business Machines Corporation | Method and system for managing the presentation of information |
CA2397703C (en) | 2001-08-15 | 2009-04-28 | At&T Corp. | Systems and methods for abstracting portions of information that is represented with finite-state devices |
JP2004133403A (ja) | 2002-09-20 | 2004-04-30 | Kobe Steel Ltd | 音声信号処理装置 |
US7617094B2 (en) * | 2003-02-28 | 2009-11-10 | Palo Alto Research Center Incorporated | Methods, apparatus, and products for identifying a conversation |
JP2005250233A (ja) | 2004-03-05 | 2005-09-15 | Sanyo Electric Co Ltd | ロボット装置 |
JP2006178842A (ja) | 2004-12-24 | 2006-07-06 | Matsushita Electric Ind Co Ltd | 情報提示装置 |
US7518631B2 (en) | 2005-06-28 | 2009-04-14 | Microsoft Corporation | Audio-visual control system |
US8645985B2 (en) | 2005-09-15 | 2014-02-04 | Sony Computer Entertainment Inc. | System and method for detecting user attention |
US8150688B2 (en) | 2006-01-11 | 2012-04-03 | Nec Corporation | Voice recognizing apparatus, voice recognizing method, voice recognizing program, interference reducing apparatus, interference reducing method, and interference reducing program |
JP2008028492A (ja) | 2006-07-19 | 2008-02-07 | Sharp Corp | 液晶テレビ |
US20090055178A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method of controlling personalized settings in a vehicle |
US7995732B2 (en) * | 2007-10-04 | 2011-08-09 | At&T Intellectual Property I, Lp | Managing audio in a multi-source audio environment |
US8259992B2 (en) * | 2008-06-13 | 2012-09-04 | International Business Machines Corporation | Multiple audio/video data stream simulation method and system |
EP2342884B1 (en) * | 2008-09-18 | 2018-12-05 | Koninklijke Philips N.V. | Method of controlling a system and signal processing system |
JP2010156738A (ja) | 2008-12-26 | 2010-07-15 | Pioneer Electronic Corp | 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体 |
JP5481890B2 (ja) | 2009-03-12 | 2014-04-23 | ブラザー工業株式会社 | ヘッドマウントディスプレイ装置、画像制御方法および画像制御プログラム |
US9285589B2 (en) | 2010-02-28 | 2016-03-15 | Microsoft Technology Licensing, Llc | AR glasses with event and sensor triggered control of AR eyepiece applications |
AU2011220382A1 (en) * | 2010-02-28 | 2012-10-18 | Microsoft Corporation | Local advertising content on an interactive head-mounted eyepiece |
US20120212484A1 (en) | 2010-02-28 | 2012-08-23 | Osterhout Group, Inc. | System and method for display content placement using distance and location information |
US9341843B2 (en) * | 2010-02-28 | 2016-05-17 | Microsoft Technology Licensing, Llc | See-through near-eye display glasses with a small scale image source |
US8949871B2 (en) * | 2010-09-08 | 2015-02-03 | Opentv, Inc. | Smart media selection based on viewer user presence |
JP5960796B2 (ja) | 2011-03-29 | 2016-08-02 | クアルコム,インコーポレイテッド | ローカルマルチユーザ共同作業のためのモジュール式のモバイル接続ピコプロジェクタ |
JP5708155B2 (ja) * | 2011-03-31 | 2015-04-30 | 富士通株式会社 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
GB201116994D0 (en) | 2011-10-03 | 2011-11-16 | The Technology Partnership Plc | Assistive device |
US9081177B2 (en) | 2011-10-07 | 2015-07-14 | Google Inc. | Wearable computer with nearby object response |
JP2013142843A (ja) * | 2012-01-12 | 2013-07-22 | Fuji Xerox Co Ltd | 動作解析装置、音声取得装置、および、動作解析システム |
US8894484B2 (en) | 2012-01-30 | 2014-11-25 | Microsoft Corporation | Multiplayer game invitation system |
US9851563B2 (en) | 2012-04-05 | 2017-12-26 | Magic Leap, Inc. | Wide-field of view (FOV) imaging devices with active foveation capability |
CN103472909B (zh) | 2012-04-10 | 2017-04-12 | 微软技术许可有限责任公司 | 用于头戴式、增强现实显示器的逼真遮挡 |
US9423870B2 (en) * | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US9746916B2 (en) * | 2012-05-11 | 2017-08-29 | Qualcomm Incorporated | Audio user interaction recognition and application interface |
US9219901B2 (en) | 2012-06-19 | 2015-12-22 | Qualcomm Incorporated | Reactive user interface for head-mounted display |
US9767720B2 (en) | 2012-06-25 | 2017-09-19 | Microsoft Technology Licensing, Llc | Object-centric mixed reality space |
JP2014030945A (ja) | 2012-08-02 | 2014-02-20 | Toshiba Tec Corp | プリンタ、情報処理装置、およびプログラム |
US9966075B2 (en) | 2012-09-18 | 2018-05-08 | Qualcomm Incorporated | Leveraging head mounted displays to enable person-to-person interactions |
US9020825B1 (en) * | 2012-09-25 | 2015-04-28 | Rawles Llc | Voice gestures |
CN103871408B (zh) * | 2012-12-14 | 2017-05-24 | 联想(北京)有限公司 | 一种语音识别方法及装置、电子设备 |
US20140288939A1 (en) * | 2013-03-20 | 2014-09-25 | Navteq B.V. | Method and apparatus for optimizing timing of audio commands based on recognized audio patterns |
WO2015001492A1 (en) * | 2013-07-02 | 2015-01-08 | Family Systems, Limited | Systems and methods for improving audio conferencing services |
US20150154960A1 (en) * | 2013-12-02 | 2015-06-04 | Cisco Technology, Inc. | System and associated methodology for selecting meeting users based on speech |
CN106030692B (zh) | 2014-02-20 | 2019-11-15 | 索尼公司 | 显示控制装置、显示控制方法及计算机程序 |
US9922667B2 (en) | 2014-04-17 | 2018-03-20 | Microsoft Technology Licensing, Llc | Conversation, presence and context detection for hologram suppression |
-
2014
- 2014-04-17 US US14/255,804 patent/US10529359B2/en active Active
-
2015
- 2015-04-07 AU AU2015248061A patent/AU2015248061B2/en active Active
- 2015-04-07 RU RU2016140453A patent/RU2685970C2/ru active
- 2015-04-07 KR KR1020167031864A patent/KR102357633B1/ko active IP Right Grant
- 2015-04-07 CA CA2943446A patent/CA2943446C/en active Active
- 2015-04-07 JP JP2016559444A patent/JP6612250B2/ja active Active
- 2015-04-07 WO PCT/US2015/024592 patent/WO2015160561A1/en active Application Filing
- 2015-04-07 BR BR112016023776A patent/BR112016023776A2/pt not_active IP Right Cessation
- 2015-04-07 EP EP15717754.4A patent/EP3132444B1/en active Active
- 2015-04-07 CN CN201580020195.9A patent/CN106233384B/zh active Active
- 2015-04-07 MX MX2016013630A patent/MX366249B/es active IP Right Grant
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002171587A (ja) * | 2000-11-30 | 2002-06-14 | Auto Network Gijutsu Kenkyusho:Kk | 車載音響装置の音量調節装置およびそれを用いた音声認識装置 |
US20050251386A1 (en) * | 2004-05-04 | 2005-11-10 | Benjamin Kuris | Method and apparatus for adaptive conversation detection employing minimal computation |
WO2007138503A1 (en) * | 2006-05-31 | 2007-12-06 | Philips Intellectual Property & Standards Gmbh | Method of driving a speech recognition system |
RU2009108342A (ru) * | 2006-09-08 | 2010-09-20 | Сони Корпорейшн (JP) | Устройство и способ отображения |
US20110218711A1 (en) * | 2010-03-02 | 2011-09-08 | Gm Global Technology Operations, Inc. | Infotainment system control |
US20110257966A1 (en) * | 2010-04-19 | 2011-10-20 | Bohuslav Rychlik | System and method of providing voice updates |
US20120128186A1 (en) * | 2010-06-30 | 2012-05-24 | Panasonic Corporation | Conversation detection apparatus, hearing aid, and conversation detection method |
US20120050143A1 (en) * | 2010-08-25 | 2012-03-01 | Border John N | Head-mounted display with environmental state detection |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2821283C2 (ru) * | 2019-04-30 | 2024-06-19 | МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи | Индивидуально настроенный вывод, который оптимизируется для пользовательских предпочтений в распределенной системе |
RU2756097C1 (ru) * | 2021-03-24 | 2021-09-28 | Денис Андреевич Рублев | Цифровой детектор микронаушников |
Also Published As
Publication number | Publication date |
---|---|
RU2016140453A (ru) | 2018-04-16 |
RU2016140453A3 (ru) | 2018-10-05 |
BR112016023776A2 (pt) | 2017-08-15 |
MX366249B (es) | 2019-07-03 |
CA2943446A1 (en) | 2015-10-22 |
US10529359B2 (en) | 2020-01-07 |
JP2017516196A (ja) | 2017-06-15 |
KR102357633B1 (ko) | 2022-01-28 |
WO2015160561A1 (en) | 2015-10-22 |
MX2016013630A (es) | 2017-02-28 |
CN106233384B (zh) | 2019-11-26 |
EP3132444A1 (en) | 2017-02-22 |
JP6612250B2 (ja) | 2019-11-27 |
EP3132444B1 (en) | 2019-08-21 |
AU2015248061A1 (en) | 2016-10-06 |
CA2943446C (en) | 2021-11-09 |
AU2015248061B2 (en) | 2019-11-21 |
KR20160145719A (ko) | 2016-12-20 |
CN106233384A (zh) | 2016-12-14 |
US20150302867A1 (en) | 2015-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2685970C2 (ru) | Обнаружение разговора | |
US10679648B2 (en) | Conversation, presence and context detection for hologram suppression | |
JP6546603B2 (ja) | 注視トラッキングの方法およびデバイスにおける視覚的な変更の非視覚的なフィードバック | |
US10497175B2 (en) | Augmented reality virtual monitor | |
ES2619615T3 (es) | Aumento del reconocimiento de voz con imágenes de profundidad | |
US9280972B2 (en) | Speech to text conversion | |
US9584915B2 (en) | Spatial audio with remote speakers | |
KR102475873B1 (ko) | 시야 밖 증강 현실 영상의 표시 | |
CN105009031B (zh) | 增强现实设备以及在其上操作用户界面的方法 | |
US9977492B2 (en) | Mixed reality presentation | |
RU2663477C2 (ru) | Навигация по пользовательскому интерфейсу | |
JP2015118574A (ja) | 事前計算された照明による拡張現実環境の構築 | |
KR20200112706A (ko) | 표시자 모드 |