RU2685970C2 - Обнаружение разговора - Google Patents

Обнаружение разговора Download PDF

Info

Publication number
RU2685970C2
RU2685970C2 RU2016140453A RU2016140453A RU2685970C2 RU 2685970 C2 RU2685970 C2 RU 2685970C2 RU 2016140453 A RU2016140453 A RU 2016140453A RU 2016140453 A RU2016140453 A RU 2016140453A RU 2685970 C2 RU2685970 C2 RU 2685970C2
Authority
RU
Russia
Prior art keywords
conversation
user
content item
fragments
human speech
Prior art date
Application number
RU2016140453A
Other languages
English (en)
Other versions
RU2016140453A (ru
RU2016140453A3 (ru
Inventor
Артур Чарльз ТОМЛИН
Джонатан ПОЛОВИЧ
Эван Майкл КЕЙБЛЕР
Джейсон СКОТТ
Кемерон БРАУН
Джонатан Уилльям ПЛАМБ
Original Assignee
МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи filed Critical МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Publication of RU2016140453A publication Critical patent/RU2016140453A/ru
Publication of RU2016140453A3 publication Critical patent/RU2016140453A3/ru
Application granted granted Critical
Publication of RU2685970C2 publication Critical patent/RU2685970C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Изобретение относится к средствам для обнаружения разговора между пользователями. Технический результат заключается в повышении точности автоматического обнаружения разговора между пользователями. Принимают поток аудиоданных от одного или более датчиков. Обнаруживают разговор между первым пользователем и вторым пользователем на основе потока аудиоданных. Обнаруживают фрагменты человеческой речи поочередно между первым и вторым пользователями, включая пользователя, носящего устанавливаемое на голове устройство отображения, и другое лицо, на основе потока аудиоданных. Принимают изображения сцены, включающей в себя упомянутое другое лицо, от оптического датчика устанавливаемого на голове устройства отображения. Подтверждают, что другое лицо разговаривает с носящим пользователем, на основе упомянутого изображения. Изменяют представление элемента цифрового контента в ответ на обнаружение разговора. Причем элемент цифрового контента включает в себя один или более элементов визуального контента. 3 н. и 7 з.п. ф-лы, 12 ил.

Description

СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0001] Раскрыты различные варианты осуществления, относящиеся к обнаружению разговора (диалога) во время представления контента на вычислительном устройстве и выполнению одного или более действий в ответ на обнаружение разговора. В одном примере принимается поток аудио данных от одного или более датчиков, на основе потока аудио данных обнаруживается разговор между первым пользователем и вторым пользователем, и представление элемента цифрового контента модифицируется вычислительным устройством в ответ на обнаружение разговора.
[0002] Настоящее описание сущности изобретения предоставлено, чтобы в упрощенной форме ввести выбор понятий, которые дополнительно описаны ниже в подробном описании. Настоящее описание сущности изобретения не предназначено для определения ключевых признаков или существенных признаков заявленного предмета изобретения, а также не предназначено, чтобы использоваться для ограничения объема заявленного предмета изобретения. Кроме того, заявленный предмет изобретения не ограничивается реализациями, которые преодолевают какие-либо или все недостатки, отмеченные в любой части настоящего раскрытия.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0003] Фиг. 1 показывает пример представления элементов цифрового контента через устанавливаемое на голове устройство отображения (HMD-устройство).
[0004] Фиг. 2 показывает пользователя, носящего HMD-устройство согласно фиг. 1, ведущего разговор с другим лицом.
[0005] Фиг. 3-5 показывают примеры модификаций, которые могут быть внесены в представление цифрового контента согласно фиг. 1 в ответ на обнаружение разговора между пользователем, носящим HMD-устройство, и другим лицом.
[0006] Фиг. 6 показывает еще один пример представления элементов цифрового контента.
[0007] Фиг. 7 показывает пользователя согласно фиг. 6, ведущего разговор с другим лицом.
[0008] Фиг. 8 показывает примерную модификацию, которая может быть внесена в представление цифрового контента согласно фиг. 6 в ответ на обнаружение разговора между пользователем и другим лицом.
[0009] Фиг. 9 показывает пример конвейера обработки обнаружения разговора.
[0010] Фиг. 10 показывает блок-схему последовательности операций, изображающую пример способа для обнаружения разговора.
[0011] Фиг. 11 показывает пример HMD-устройства.
[0012] Фиг.12 показывает пример вычислительной системы.
ПОДРОБНОЕ ОПИСАНИЕ
[0013] Вычислительные устройства могут быть использованы для представления цифрового контента в различных формах. В некоторых случаях вычислительные устройства могут обеспечивать контент иммерсионным (создающим эффект присутствия) и увлекательным образом, например, путем отображения трехмерных (3D) изображений и/или голографических изображений. Кроме того, такой визуальный контент может быть объединен с представлением аудио контента, чтобы обеспечить восприятие с еще большим эффектом погружения.
[0014] Представления цифрового контента могут потребляться при настройках иных, чем традиционные настройки развлекательной системы, по мере того как вычислительные устройства становятся все более портативными. Таким образом, время от времени пользователь такого вычислительного устройства может участвовать в разговорах с другими во время представления контента. В зависимости от характера представления, презентация может быть отвлекающей по отношению к разговору.
[0015] Таким образом, в данном документе раскрыты варианты осуществления, которые относятся к автоматическому обнаружению разговора между пользователями, и изменению представления цифрового контента, в то время как происходит разговор, например, чтобы уменьшить заметность представления во время разговора. Путем обнаружения разговоров, в противоположность простому присутствию человеческих голосов, такие вычислительные устройства могут определять вероятное намерение пользователей вычислительных устройств отвлечься, по меньшей мере частично, от отображаемого контента, чтобы вступить в разговор с другим человеком. Кроме того, подходящие модификации представления контента могут быть осуществлены, чтобы облегчить пользователю отвлечение от контента.
[0016] Разговоры могут быть обнаружены любым подходящим способом. Например, разговор между пользователями может быть обнаружен путем обнаружения первого пользователя, произносящего фрагмент человеческой речи (например, по меньшей мере несколько слов), а затем второго пользователя, произносящего фрагмент человеческой речи, а затем первого пользователя, произносящего фрагмент человеческой речи. Другими словами, разговор может быть обнаружен как ряд фрагментов человеческой речи, которые чередуются между различными местоположениями источников.
[0017] На фиг. 1-5 показан примерный сценарий физической среды 100, в которой носящий пользователь 102 взаимодействует с вычислительным устройством в форме устанавливаемого на голове устройства отображения (HMD-устройства) 104. HMD-устройство 104 может быть сконфигурировано так, чтобы представлять один или более элементов цифрового контента носящему пользователю и изменять представление в ответ на обнаружение разговора между носящим пользователем и другим лицом. HMD-устройство 104 может обнаруживать разговор с использованием, например, аудио и/или видео данных, принимаемых от одного или более датчиков, как описано более подробно ниже.
[0018] На фиг. 1 множество элементов цифрового контента в форме голографических объектов 106 изображены в качестве отображаемых на просвечивающем дисплее 108 HMD-устройства 104 с точки зрения носящего пользователя 102. Множество голографических объектов 106 могут появляться как виртуальные объекты, которые окружают носящего пользователя 102, как будто плавающие в физической среде 100. В другом примере голографические объекты также могут появляться, как будто висящие на стенах или другом объекте, связанном с другими поверхностями в физической среде.
[0019] В изображенном варианте осуществления голографические объекты отображаются как ʺпланшетыʺ, которые могут быть использованы для отображения различного контента. Такие планшеты могут включать в себя любое подходящее видео, изображения или другой визуальный контент. В одном примере первый планшет может представлять портал электронной почты, второй планшет может представлять портал социальной сети, а третий планшет может представлять новостную ленту. В другом примере различные планшеты могут представлять различные телевизионные каналы, такие как различные спортивные события. В еще одном примере один планшет может представлять видеоигру, а другие планшеты могут представлять сопутствующие приложения к видеоигре, такие как ʺкомната чатаʺ (дискуссионная группа), приложение социальных сетей, приложение игровой статистики и отслеживания достижений или другое подходящее приложение. В некоторых случаях один элемент цифрового контента может отображаться через просвечивающий дисплей. Следует понимать, что планшеты согласно фиг. 1 изображены с целью примера, и что голографический контент может отображаться в любой другой подходящей форме.
[0020] HMD-устройство 104 также может быть сконфигурировано, чтобы выводить аудио контент, отдельно или в сочетании с видео контентом, к носящему пользователю 102. Например, HMD-устройство 104 может включать в себя встроенные динамики или наушники для воспроизведения аудио контента.
[0021] Следует понимать, что HMD-устройство может быть сконфигурировано, чтобы представлять любой подходящий тип и количество элементов цифрового контента носящему пользователю. Неограничительные примеры цифрового контента, которые могут быть представлены, включают фильмы, телевизионные шоу, видеоигры, приложения, песни, радиопередачи, подкасты, веб-сайты, текстовые документы, изображения, фотографии и т.д.
[0022] На фиг. 2 в то время как носящий пользователь 102 взаимодействует с множеством голографических объектов 106, отображаемых через просвечивающий дисплей 108, другое лицо 110 входит в физическую среду 100. При виде другого лица 110 носящий пользователь 102 инициирует разговор 112 с другим лицом. Разговор включает в себя то, что каждый из носящего пользователя и другого лица произносит фрагменты человеческой речи друг к другу. Таким образом, HMD-устройство может быть сконфигурировано, чтобы обнаруживать разговор путем обнаружения того, что носящий пользователь говорит как до, так и после того, как говорит другое лицо. Аналогичным образом, HMD-устройство может быть сконфигурировано, чтобы обнаруживать разговор путем обнаружения того, что другое лицо говорит как до, так и после того, как говорит пользователь, носящий HMD-устройство.
[0023] На фиг. 3-5 представлены неограничительные примеры того, как HMD-устройство может изменять представление отображаемых голографических объектов в ответ на обнаружение разговора между носящим пользователем и другим лицом. Во-первых, со ссылкой на фиг. 3, в ответ на обнаружение разговора, HMD-устройство 104 может быть сконфигурировано, чтобы скрывать множество объектов из отображения на просвечивающем дисплее 108. В некоторых реализациях, просвечивающий дисплей может быть полностью очищен от каких-либо виртуальных объектов или наложений. Кроме того, в некоторых реализациях, объекты могут быть скрыты, а виртуальная граница, наложение или инструментальная панель могут оставаться отображаемыми на просвечивающем дисплее. В сценариях, где объекты представляют видео и/или аудио контент, такой контент может быть приостановлен в ответ на скрытие планшетов из вида. Таким образом, носящий пользователь может возобновить потребление контента в момент, в который контент был приостановлен, когда разговор закончится.
[0024] В другом примере, показанном на фиг. 4, в ответ на обнаружение разговора HMD-устройство 104 может быть сконфигурировано так, чтобы перемещать один или более из множества объектов в другое положение на просвечивающем дисплее, которое может быть вне центрального вида носящего пользователя, и, таким образом, менее вероятно блокировать взгляд носящего пользователя в направлении на другое лицо. Кроме того, в некоторых реализациях, HMD-устройство может быть сконфигурировано, чтобы определять положение другого лица по отношению к носящему пользователю, и перемещать множество объектов в положение на просвечивающем дисплее, которое не блокирует направление на другое лицо. Например, направление на другое лицо может быть определено с использованием аудио данных (например, направленных аудио данных от решетки микрофонов), видео данных (цвета, инфракрасных, глубины и т.д.), их комбинации или любых других подходящих данных.
[0025] В другом примере, показанном на фиг. 5, в ответ на обнаружение разговора, HMD-устройство 104 может быть сконфигурировано, чтобы изменять размеры отображаемых объектов и перемещать множество объектов в другое положение на просвечивающем дисплее. В качестве одного неограничительного примера, размер каждого из множества объектов может быть уменьшен, и множество объектов могут быть перемещены в угол просвечивающего дисплея. Множество объектов могут быть изменены, чтобы появиться в виде вкладок в углу, что может служить в качестве напоминания о контенте, который носящий пользователь потреблял до участия в разговоре, или может иметь любой другой подходящий вид. В качестве еще одного примера, изменение представления множества объектов может включать в себя увеличение просвечиваемости отображаемых объектов, чтобы позволить носящему пользователю видеть другого человека через просвечивающий дисплей.
[0026] В описанных выше сценариях виртуальные объекты, представленные посредством просвечиваемого дисплея, являются связанными с корпусом относительно носящего пользователя HMD-устройства. Другими словами, положение виртуального объекта представляется фиксированным или блокированным относительно положения пользователя, носящего HMD-устройство. Таким образом, связанный с корпусом виртуальный объект, может представляться остающимся в том же положении на просвечивающем дисплее с точки зрения носящего пользователя, даже когда носящий пользователь перемещается в пределах физической среды.
[0027] В некоторых реализациях виртуальные объекты, представленные посредством просвечивающего дисплея, могут представляться носящему пользователю, как связанные с реальным миром. Другими словами, положение виртуального объекта представляется фиксированным по отношению к положению в реальном мире в физической среде. Например, голографический планшет может представляться, как будто он висит на стене в физической среде. В некоторых случаях, положение связанного с реальным миром виртуального объекта может создать помеху разговору. Соответственно, в некоторых реализациях, изменение представления виртуального объекта в ответ на обнаружение разговора может включать в себя изменение положения в реальном мире связанного с реальным миром виртуального объекта. Например, виртуальный объект, находящийся в положении в реальном мире между пользователем, носящим HMD-устройство, и другим пользователем, может быть перемещен в другое положение в реальном мире, которое не находится между носящим пользователем и другим пользователем. В одном примере положение может находиться в направлении, отличном от направления на пользователя.
[0028] В некоторых реализациях HMD-устройство может быть дополнительно сконфигурировано, чтобы обнаруживать конец разговора. В ответ на обнаружение конца разговора, HMD-устройство может быть сконфигурировано, чтобы возвращать визуальное состояние объектов на просвечивающем дисплее в их состояние, которое существовало до обнаружения разговора (например, не скрытое, менее прозрачное, более центрированное в визуализации и т.д.). В других реализациях носящий пользователь может обеспечивать ручную команду (например, нажатие кнопки, голосовую команду, жест и т.д.), чтобы повторно инициировать отображение множества объектов на просвечивающем дисплее.
[0029] Обнаружение разговора, как это описано выше, может быть использовано с любым подходящим вычислительным устройством, в том числе, но без ограничения указанным, HMD согласно фиг. 1-5. На фиг. 6-8 показан другой примерный сценарий, в котором первый пользователь 602 в физической среде 600 взаимодействует с крупномасштабным устройством 604 отображения. Устройство 604 отображения может осуществлять связь с вычислительным устройством 606 развлекательной системы. Кроме того, вычислительное устройство 606 может осуществлять связь с сенсорным устройством 608, которое включает в себя один или более датчиков, сконфигурированных для захвата данных о физической среде 600. Сенсорное устройство может включать в себя один или более аудио датчиков для захвата потока аудио данных. В некоторых реализациях сенсорное устройство может включать в себя один или более датчиков изображения для захвата потока видео данных (например, датчики изображения глубины, датчики инфракрасного изображения, датчики изображения видимого света и т.д.).
[0030] Вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы управлять представлением одного или более элементов цифрового контента другому лицу с помощью устройства 604 отображения. Далее, вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы обнаруживать разговор между пользователями на основе аудио и/или видео данных, получаемых от сенсорного устройства 608, и изменять представление одного или более из множества элементов цифрового контента в ответ на обнаружение разговора. Хотя сенсорное устройство, крупномасштабное устройство отображения и вычислительное устройство развлекательной системы показаны в виде отдельных компонентов, в некоторых реализациях сенсорное устройство, крупномасштабное устройство отображения и вычислительное устройство развлекательной системы могут быть объединены в одном корпусе.
[0031] На фиг. 6 первый пользователь 602 играет в видеоигру, исполняемую вычислительным устройством 606 развлекательной системы. В то время как первый пользователь играет в видеоигру, сенсорное устройство 608 захватывает аудио данные, представляющие звуки в физической среде 600. На фиг. 7, в то время как первый пользователь 602 занят видеоигрой, отображаемой на крупномасштабном устройстве 604 отображения, второй пользователь 610 входит в физическую среду 600. Увидев второго пользователя 610, первый пользователь 602 инициирует разговор 612 с вторым пользователем. Разговор включает в себя то, что каждый из первого пользователя и второго пользователя говорит фрагменты человеческой речи друг другу. В качестве одного примера, разговор может быть обнаружен, основываясь на том, что первый пользователь говорит до и после того, как говорит второй пользователь, или второй пользователь говорит до и после того, как говорит первый пользователь.
[0032] Разговор между первым и вторым пользователем может приниматься сенсорным устройством 608 и выводится как поток аудио данных, и вычислительное устройство 606 развлекательной системы может принимать поток аудио данных от сенсорного устройства 608. Вычислительное устройство 606 развлекательной системы может быть сконфигурировано, чтобы обнаруживать разговор между первым пользователем 602 и вторым пользователем 610 на основе потока аудио данных и изменять представление видеоигры в ответ на обнаружение разговора, чтобы уменьшить заметность видеоигры во время разговора.
[0033] Вычислительное устройство 606 развлекательной системы может выполнять любые подходящие действия в ответ на обнаружение разговора. В одном примере, как показано на фиг. 8, вычислительное устройство 606 развлекательной системы может изменить представление видеоигры, приостановив видеоигру. Кроме того, в некоторых реализациях может быть отображен визуальный индикатор 614, чтобы указывать, что представление видеоигры было изменено, причем визуальный индикатор может обеспечить едва заметную индикацию пользователю того, что вычислительное устройство развлекательной системы реагирует на обнаружение разговора. В качестве другого примера, в ответ на обнаружение разговора, вычислительное устройство развлекательной системы может приглушить или уменьшить громкость видеоигры без приостановки видеоигры.
[0034] В некоторых реализациях в ответ на обнаружение разговора, представление элемента цифрового контента может быть изменено различными способами на основе одного или более факторов. В одном примере представление элемента цифрового контента может быть изменено различным образом на основе типа контента элемента цифрового контента. Например, видеоигры могут быть приостановлены, и телевизионные шоу в прямой трансляции могут быть сокращены в размерах, и громкость может быть уменьшена. В другом примере представление элемента цифрового контента может быть изменено различным образом на основе уровня вовлечения или взаимодействия с элементом цифрового контента. Например, может быть реализован механизм для оценки уровня взаимодействия на основе различных показаний датчиков, например, как ʺизмеритель вовлеченияʺ. В одном примере, если пользователь определен, как имеющий высокий уровень вовлечения, то представление элемента цифрового контента может быть изменено просто путем снижения уровня громкости. С другой стороны, если пользователь определен как имеющий пониженный уровень вовлечения, то представление элемента цифрового контента может быть изменено путем скрытия и приглушения элемента цифрового контента. Другие неограничительные факторы, которые могут быть использованы для определения того, как изменяется представление элемента цифрового контента, могут включать в себя время суток, географическое местоположение и физическую настройку (например, работа, дом, кафе и т.д.).
[0035] Возникновение разговора может быть определено различными способами. Например, разговор может быть обнаружен на основе аудио данных, видео данных или их комбинации. Фиг. 9 показывает пример конвейера 900 обработки разговора, который может быть реализован в одном или более вычислительных устройствах для обнаружения разговора. Конвейер 900 обработки разговора может быть сконфигурирован, чтобы обрабатывать потоки данных, принимаемые от множества различных датчиков 902, которые захватывают информацию о физической среде.
[0036] В изображенном варианте осуществления поток 904 аудио данных может быть принят от решетки 904 микрофонов, и поток 924 данных изображения может быть принят от датчика 906 изображения. Поток 908 аудио данных может быть пропущен через стадию 910 обнаружения голосовой активности (VAD), сконфигурированную, чтобы определять, является ли поток аудио данных характерным для человеческого голоса или другого фонового шума. Аудио данные, указанные как включающие в себя голосовую активность 912, могут выводиться из стадии 910 VAD и вводиться в стадию 914 распознавания речи, сконфигурированную, чтобы обнаруживать фрагменты речи из голосовой активности. Стадия 914 распознавания речи может выводить фрагменты 916 человеческой речи. Например, фрагменты человеческой речи могут включать в себя части слов и/или полные слова.
[0037] В некоторых реализациях стадия распознавания речи может выводить уровень достоверности, ассоциированный с фрагментом человеческой речи. Конвейер обработки разговора может быть сконфигурирован так, чтобы устанавливать порог достоверности (например, 50% уверенности в том, что речевой фрагмент является словом), и может отклонять фрагменты человеческой речи, имеющие уровень достоверности, который меньше, чем порог достоверности.
[0038] В некоторых реализациях стадия распознавания речи может быть реализована локально на вычислительном устройстве. В других реализациях стадия распознавания речи может быть реализована как служба, расположенная на удаленном вычислительном устройстве (например, реализованная в вычислительной облачной сети), или распределенная между локальными и удаленными устройствами.
[0039] Фрагменты 916 человеческой речи, выведенные из стадии 914 распознавания речи, могут быть введены в стадию 918 локатора источника речи, сконфигурированную, чтобы определять местоположение источника фрагмента человеческой речи. В некоторых реализациях местоположение источника может быть оценено путем сравнения громкостей преобразователей и/или фаз микрофонов в решетке 904 микрофонов. Например, каждый микрофон в решетке может быть откалиброван, чтобы сообщать уровень громкости преобразователя и/или фазу относительно других микрофонов в решетке. Используя цифровую обработку сигнала, может быть вычислена среднеквадратичная воспринимаемая громкость от каждого микрофонного преобразователя (например, каждые 20 миллисекунд или с другим подходящим интервалом), чтобы обеспечить взвешенную функцию, которая указывает, какие микрофоны сообщают о более громком уровне аудио и насколько больше. Сравнение уровней громкости преобразователей каждого из микрофонов в решетке может быть использовано для оценки местоположения источника захваченных аудио данных.
[0040] В некоторых реализациях диаграммообразующий пространственный фильтр может быть применен к множеству аудио выборок решетки микрофонов, чтобы оценивать местоположение источника захваченных аудио данных. В случае HMD-устройства, аудио поток в сформированной диаграмме может быть направлен непосредственно вперед от HMD-устройства для выравнивания со ртом носящего пользователя. Как таковое, аудио от носящего пользователя и любого другого непосредственно перед носящим пользователем может быть ясным, даже на расстоянии. В некоторых реализациях сравнение уровней громкости преобразователей и диаграммообразующего пространственного фильтра может быть использовано в комбинации, чтобы оценивать местоположение источника захваченных аудио данных.
[0041] Стадия 918 локатора источника речи может вводить местоположения источников фрагментов 920 человеческой речи в стадию 922 детектора разговора, сконфигурированную, чтобы обнаруживать разговор на основе определения, что фрагменты человеческой речи чередуются между различными местоположениями источников. Чередующийся паттерн может указывать, что разные пользователи говорят в направлении назад и вперед друг к другу в разговоре.
[0042] В некоторых реализациях стадия 922 детектора разговора может быть сконфигурирована, чтобы обнаруживать разговор, если фрагменты человеческой речи чередуются между различными местоположениями источников в пределах порогового периода времени, или фрагменты человеческой речи возникают в пределах назначенного диапазона ритма (чередования звука и пауз). Пороговый период времени и ритм могут быть установлены любым подходящим образом. Пороговый период может гарантировать, что чередующиеся фрагменты человеческой речи возникают во времени достаточно близко, чтобы быть разговором, а не несвязанными речевыми фрагментами.
[0043] В некоторых реализациях конвейер 900 обработки разговора может быть сконфигурирован, чтобы анализировать поток 908 аудио данных для определения того, исходят ли один или более фрагментов человеческой речи из электронного аудио устройства, например, из фильма или телевизионного шоу, представляемых на дисплее. В одном примере определение может выполняться на основе идентификации аудио сигнатуры или сигнатуры громкости электронного аудио устройства. В другом примере определение может быть выполнено на основе известного местоположения источника электронного аудио устройства. Кроме того, конвейер 900 обработки разговора может быть сконфигурирован, чтобы активно игнорировать эти один или более фрагментов человеческой речи, обеспечиваемых электронным аудио устройством, при определении того, что фрагменты человеческой речи чередуются между различными местоположениями источников. Таким образом, например, разговор, происходящий между персонажами в кино, невозможно спутать с разговором между реальными пользователями-людьми.
[0044] В некоторых реализациях анализ потока аудио данных может быть улучшен за счет анализа потока 924 данных изображения, принятого от датчика 906 изображения. Например, поток данных изображения может включать в себя изображения одного или обоих говорящих пользователей, потенциально вовлеченных в разговор (например, изображения пользователя с точки зрения пользователя, носящего HMD-устройство, или изображения обоих пользователей с точки зрения сенсорного устройства). Поток 924 данных изображения может быть введен в стадию 926 распознавания признаков. Стадия 926 распознавания признаков может быть сконфигурирована, например, чтобы анализировать изображения для определения того, движется ли рот пользователя. Стадия 926 распознавания признаков может выводить идентифицированный признак и/или уровень 930 достоверности, указывающий уровень достоверности того, что пользователь говорит. Уровень 930 достоверности может быть использован стадией 922 детектора разговора в комбинации с анализом потока аудио данных для обнаружения разговора.
[0045] Поток 924 данных изображения также может быть введен в стадию 928 идентификации пользователя. Стадия 928 идентификации пользователя может быть сконфигурирована, чтобы анализировать изображения для распознавания пользователя, который говорит. Например, структура лица или тела может сравниваться с пользовательскими профилями для идентификации пользователя. Следует понимать, что пользователь может быть идентифицирован на основе любого подходящего визуального анализа. Стадия 928 идентификации пользователя может выводить идентификатор говорящего 932 в стадию 922 детектора разговора, а также уровень достоверности, отражающий достоверность в определении. Стадия 922 детектора разговора может использовать идентификатор 932 говорящего для классификации фрагментов человеческой речи в качестве произнесенных конкретными идентифицированными пользователями. Таким образом, достоверность обнаружения разговора может быть увеличена. Следует понимать, что изображенный конвейер обработки разговора является лишь одним примером способа, которым анализируется поток аудио данных, чтобы обнаружить разговор, и любой подходящий подход может быть реализован, чтобы обнаружить разговор, без отклонения от объема настоящего изобретения.
[0046] На фиг. 10 показана блок-схема последовательности операций, изображающая примерный способ 1000 обнаружения разговора с помощью вычислительного устройства, чтобы помочь уменьшить заметность представления контента во время разговора. Способ 1000 может выполняться, например, с помощью HMD-устройства 104, показанного на фиг. 1, вычислительного устройства 606 развлекательной системы, показанного на фиг. 6, или любого другого подходящего вычислительного устройства.
[0047] На этапе 1002 способ 1000 включает в себя представление одного или более элементов цифрового контента. Например, представление может включать в себя отображение элемента видео контента на дисплее. В другом примере представление может включать в себя воспроизведение элемента аудио контента. Кроме того, на этапе 1004 способ 1000 включает в себя прием потока аудио данных из одного или более датчиков. В одном примере поток аудио данных может быть принят от решетки микрофонов.
[0048] На этапе 1006 способ 1000 включает в себя анализ потока аудио данных на наличие голосовой активности, и на этапе 1008 - определение того, включает ли поток аудио данных голосовую активность. Если поток аудио данных включает в себя голосовую активность, то способ 1000 переходит к этапу 1010. В противном случае, способ 1000 возвращается к другим операциям.
[0049] На этапе 1010 способ 1000 включает в себя анализ голосовой активности на наличие фрагментов человеческой речи, и на этапе 1012 - определение, включает ли в себя голосовая активность фрагменты человеческой речи. Если голосовая активность включает в себя фрагменты человеческой речи, то способ 1000 переходит к этапу 1014. В противном случае, способ 1000 возвращается к другим операциям.
[0050] На этапе 1014 способ 1000 включает в себя определение того, предоставлены ли фрагменты человеческой речи электронным аудио устройством. Если какие-либо из фрагментов человеческой речи предоставляются электронным аудио устройством, то способ 1000 переходит к этапу 1016. В противном случае, способ 1000 переходит к этапу 1018. На этапе 1016 способ 1000 включает в себя активное игнорирование фрагментов человеческой речи, предоставленных электронным аудио устройством. Другими словами, эти фрагменты человеческой речи могут быть исключены из учета при обнаружении разговора. На этапе 1018 способ 1000 включает в себя определение местоположения источника каждого фрагмента человеческой речи потока аудио данных. Далее, на этапе 1020 способ 1000 включает в себя определение, чередуются ли фрагменты человеческой речи между различными местоположениями источников. В одном примере разговор может быть обнаружен, когда фрагменты человеческой речи, произнесенные первым пользователем, возникают до и после фрагмента человеческой речи, произнесенного вторым пользователем. В другом примере разговор может быть обнаружен, когда фрагменты человеческой речи, произнесенные вторым пользователем, возникают до и после фрагмента человеческой речи, произнесенного первым пользователем. В некоторых реализациях это может включать в себя определение, находятся ли чередующиеся фрагменты человеческой речи в пределах назначенного периода времени. Кроме того, в некоторых реализациях это может включать в себя определение, возникают ли чередующиеся фрагменты человеческой речи в пределах назначенного диапазона ритма. Если фрагменты человеческой речи чередуются между различными местоположениями источников (и находятся в пределах назначенного периода времени и возникают в пределах назначенного диапазона ритма), то разговор обнаруживается, и способ 1000 переходит к этапу 1022. В противном случае способ 1000 возвращается к другим операциям.
[0051] Если разговор обнаружен, то на этапе 1022 способ 1000 включает в себя, в ответ на обнаружение разговор, изменение представления одного или более элементов цифрового контента. Например, представление может быть приостановлено, громкость элемента аудио контента может быть снижена, один или более элементов визуального контента могут быть скрыты от просмотра на дисплее, один или более элементов визуального контента могут быть перемещены в другое положение на экране, и/или размер одного или более элементов визуального контента на дисплее может быть изменен.
[0052] Путем изменения представления элемента цифрового контента в ответ на обнаружение разговора между пользователями, представление элемента цифрового контента может быть сделано менее заметными во время разговора. К тому же, таким образом, пользователю не требуется вручную изменять представление элемента цифрового контента, например, вручную приостанавливать воспроизведение контента, уменьшать громкость и т.д., когда разговор инициируется.
[0053] Реализации обнаружения разговора, описанные здесь, могут быть использованы с любым подходящим вычислительным устройством. Например, в некоторых вариантах осуществления, раскрытая реализация может быть осуществлена с использованием HMD-устройства. Фиг. 11 показывает неограничительный пример HMD- устройства 1100 в виде носимых очков с прозрачным дисплеем 1102. Следует понимать, что HMD-устройство может иметь любую другую подходящую форму, в которой прозрачный, полупрозрачный и/или непрозрачный дисплей поддерживается перед глазом или глазами наблюдателя.
[0054] HMD-устройство 1100 включает в себя контроллер 1104, сконфигурированный, чтобы управлять работой просвечивающего дисплея 1102. Просвечивающий дисплей 1102 может обеспечивать то, что изображения, такие как голографические объекты, попадают в глаза пользователя HMD-устройства 1100. Просвечивающий дисплей 1102 может быть сконфигурирован, чтобы визуально усилить внешний вид реального мира, физической среды для носящего пользователя, просматривающего физическую среду через прозрачный дисплей. Например, внешний вид физической среды может быть усилен с помощью графического контента, который представляется с помощью прозрачного дисплея 1102, чтобы создать среду смешанной реальности. В одном примере дисплей может быть сконфигурирован, чтобы отображать один или более элементов цифрового контента. В некоторых случаях, элементы цифрового контента могут быть виртуальными объектами, наложенными перед средой реального мира. Кроме того, в некоторых случаях, элементы цифрового контента могут включать в себя объекты реального мира среды реального мира, просматриваемой через прозрачный дисплей 1102.
[0055] Любой подходящий механизм может быть использован для отображения изображений при помощи прозрачного дисплея 1102. Например, прозрачный дисплей 1102 может включать в себя элементы формирования изображения, расположенные внутри линз 1106 (например, просвечивающий дисплей на органических светоизлучающих диодах (OLED)). В качестве другого примера, прозрачный дисплей 1102 может включать в себя модулятор света, расположенный в оправе HMD-устройства 1100. В этом примере линзы 1106 могут служить световодом для доставки света от модулятора света в глаза пользователя. Такой световод может позволить носящему пользователю воспринимать 3D голографическое изображение, расположенное в физической среде, которую наблюдает носящий пользователь, в то же время позволяя носящему пользователю просматривать физические объекты в физической среде, тем самым создавая среду смешанной реальности.
[0056] HMD-устройство 1100 может также включать в себя различные датчики и связанные с ними системы для предоставления информации контроллеру 1104. Такие датчики могут включать в себя, без ограничения указанным, решетку микрофонов, один или более обращенных вовне датчиков 1108 изображения и блок инерциальных измерений (IMU) 1110.
[0057] В качестве неограничительного примера, решетка микрофонов может включать в себя шесть микрофонов, расположенных в разных частях HMD-устройства 1100. В некоторых реализациях микрофоны 1112 и 1114 могут быть расположены на верхней части линзы 1106, и могут, как правило, быть обращены вперед. Микрофоны 1112 и 1114 могут быть ориентированы под углами сорок пять градусов по отношению к направлению вперед HMD-устройства 1100. Микрофоны 1112 и 1114 могут быть дополнительно ориентированы в плоской горизонтальной плоскости HMD-устройства 1100. Микрофоны 1112 и 1114 могут быть всенаправленными микрофонами, сконфигурированными, чтобы захватывать звук в общей области/направлении перед HMD-устройством 1100, или могут иметь любую другую подходящую форму.
[0058] Микрофоны 1116 и 1118 могут быть расположены на нижней части линзы 1106. В качестве одного неограничительного примера микрофоны 1116 и 1118 могут быть обращены вперед и направлены вниз, чтобы захватывать звук, исходящий от рта носящего пользователя. В некоторых реализациях микрофоны 1116 и 1118 могут быть направленными микрофонами. В некоторых реализациях микрофоны 1112, 1114, 1116 и 1118 могут быть расположены в оправе, окружающей линзу 1106.
[0059] Микрофоны 1120 и 1122 могут, каждый, располагаться в боковой оправе HMD-устройства 1100. Микрофоны 1122 и 1120 могут быть ориентированы под углами девяносто градусов относительно направления вперед HMD-устройства 1100. Микрофоны 1122 и 1120 могут быть дополнительно ориентированы в плоской горизонтальной плоскости HMD устройства 1100. Микрофоны 1122 и 1120 могут быть всенаправленными микрофонами, сконфигурированными, чтобы захватывать звук в общей области/направлении на каждой стороне HMD-устройства 1100. Следует понимать, что любая другая подходящая решетка микрофонов, кроме описанной выше, также может быть использована.
[0060] Как описано выше, решетка микрофонов может формировать поток аудио данных, которые могут анализироваться контроллером 1104, чтобы обнаруживать разговор между пользователем, носящим HMD-устройство, и другим лицом. В одном неограничительном примере с использованием цифровой обработки сигнала, может быть вычислена среднеквадратичная воспринимаемая громкость от каждого микрофонного преобразователя, и взвешенная функция может сообщать, сообщают ли микрофоны слева или справа более громкий звук, и насколько. Аналогично, может быть сообщено значение для случаев ʺко ртуʺ и ʺот ртаʺ и ʺспереди относительно сбокуʺ. Эти данные могут быть использованы для определения местоположения источников фрагментов человеческой речи. Кроме того, контроллер 1104 может быть сконфигурирован, чтобы обнаруживать разговор путем определения того, что фрагменты человеческой речи чередуются между различными положениями источников.
[0061] Следует понимать, что изображенная решетка микрофонов является лишь одним неограничительным примером подходящей решетки микрофонов, и любое подходящее количество микрофонов в любой подходящей конфигурации может быть реализовано без отклонения от сущности и объема настоящего раскрытия.
[0062] Один или более обращенных вовне датчиков 1108 изображения могут быть сконфигурированы, чтобы захватывать визуальные данные из физической среды, в которой расположено HMD-устройство 1100. Например, обращенные вовне датчики 1108 могут быть сконфигурированы, чтобы обнаруживать движения в пределах поля зрения дисплея 1102, такие как движения, выполняемые носящим пользователем или лицом или физическим объектом в поле зрения. В одном примере обращенные вовне датчики 1108 могут обнаруживать пользователя, разговаривающего с пользователем, носящим HMD-устройство. Обращенные вовне датчики могут также захватывать информацию 2D-изображения и информацию о глубине из физической среды и физических объектов в среде. Как описано выше, такие данные изображения могут быть использованы для визуального распознавания того, что пользователь разговаривает с носящим пользователем. Такой анализ может быть скомбинирован с анализом потока аудио данных, чтобы увеличить достоверность обнаружения разговора.
[0063] IMU 1110 может быть сконфигурирован, чтобы предоставлять данные положения и/или ориентации HMD-устройства 1100 в контроллер 1104. В одном варианте осуществления IMU 1110 может быть сконфигурирован в виде трехосной или имеющей три степени свободы системы датчиков положения. Эта примерная система датчиков положения может, например, включать в себя три гироскопа для указания или измерения изменения в ориентации HMD-устройства 1100 в 3D-пространстве относительно трех ортогональных осей (например, х, y, z) (например, по крену, тангажу, рысканию). Ориентация, полученная из сигналов датчиков IMU, может быть использована для определения направления пользователя, которое участвует в разговоре с пользователем, носящим HMD-устройство.
[0064] В другом примере IMU 1110 может быть выполнен в виде шестиосной или имеющей шесть степеней свободы системы датчиков положения. Такая конфигурация может включать в себя три акселерометра и три гироскопа, чтобы указывать или измерять изменение в местоположении HMD-устройства 1100 вдоль трех ортогональных осей и изменение в ориентации устройства относительно трех ортогональных осей. В некоторых вариантах осуществления, данные положения и ориентации от датчика 1108 изображения и IMU 1110 могут использоваться в сочетании для определения положения и ориентации HMD-устройства 100.
[0065] HMD-устройство 1100 может дополнительно включать в себя динамики 1124 и 1126, сконфигурированные для вывода звука к пользователю, носящему HMD-устройство. Динамики 1124 и 1126 могут быть размещены на каждой боковой части оправы HMD-устройства вблизи ушей пользователя. Например, динамики 1124 и 1126 могут воспроизводить аудио контент, такой как музыка или звуковое сопровождение к визуальному контенту, отображаемому через просвечивающий дисплей 1102. В некоторых случаях громкость динамиков может снижаться или приглушаться в ответ на обнаружение разговора между носящим пользователем и другим лицом.
[0066] Контроллер 1104 может включать в себя логическую машину и машину хранения, как описано более подробно ниже со ссылками на фиг. 12, которые могут осуществлять связь с различными датчиками и дисплеем HMD-устройства 1100. В одном примере машина хранения может включать в себя инструкции, которые являются исполняемыми логической машиной, чтобы принимать поток аудио данных от одного или более датчиков, таких, как решетка микрофонов, обнаруживать разговор между носящим пользователем и другим пользователем на основе потока аудио данных и изменять представление элемента цифрового контента в ответ на обнаружение разговора.
[0067] В некоторых вариантах осуществления способы и процессы, описанные здесь, могут быть связаны с вычислительной системой одного или более вычислительных устройств. В частности, такие способы и процессы могут быть реализованы в виде компьютерной прикладной программы или службы, интерфейса программирования приложений (API), библиотеки и/или другого компьютерного программного продукта.
[0068] Фиг. 12 схематично показывает неограничительный вариант осуществления вычислительной системы 1200, которая может вводить в действие один или более способов и процессов, описанных выше. Вычислительная система 1200 показана в упрощенной форме. Вычислительная система 1200 может принимать форму одного или более персональных компьютеров, серверных компьютеров, планшетных компьютеров, компьютеров домашней развлекательной системы, сетевых вычислительных устройств, игровых устройств, мобильных вычислительных устройств, устройств мобильной связи (например, смартфона) и/или других вычислительных устройств. Например, вычислительная система может принимать форму HMD-устройства 104, показанного на фиг. 1, вычислительного устройства 606 развлекательной системы, показанного на фиг. 6, или другого подходящего вычислительного устройства.
[0069] Вычислительная система 1200 включает в себя логическую машину 1202 и машину 1204 хранения. Вычислительная система 1200 может опционально включать в себя подсистему 106 отображения, подсистему 1208 ввода, подсистему 1210 связи и/или другие компоненты, не показанные на фиг. 12.
[0070] Логическая машина 1202 включает в себя одно или более физических устройств, сконфигурированных для выполнения инструкций. Например, логическая машина может быть сконфигурирована для исполнения инструкций, которые являются частью одного или более приложений, служб, программ, подпрограмм, библиотек, объектов, компонентов, структур данных или других логических конструкций. Такие инструкции могут быть реализованы для выполнения задачи, реализации типа данных, преобразования состояния одного или более компонентов, достижения технического результата или достижения иным образом желательного результата.
[0071] Логическая машина может включать в себя один или более процессоров, сконфигурированных для исполнения инструкций программного обеспечения. Дополнительно или в качестве альтернативы, логическая машина может включать в себя одну или более аппаратных или программно-аппаратных логических машин, сконфигурированных для исполнения инструкций аппаратных или программно-аппаратных средств. Процессоры логической машины могут быть одноядерными или многоядерными, и инструкции, исполняемые на них, могут быть сконфигурированы для последовательной, параллельной и/или распределенной обработки. Отдельные компоненты логической машины опционально могут быть распределены среди двух или более отдельных устройств, которые могут быть удаленно расположенными и/или сконфигурированными для скоординированной обработки. Аспекты логической машины могут быть виртуализованными и могут выполняться удаленно доступными, взаимодействующими по сети вычислительными устройствами, сконфигурированными в конфигурации облачных вычислений.
[0072] Машина 1204 хранения включает в себя одно или более физических устройств, сконфигурированных для хранения инструкций, исполняемых логической машиной для реализации методов и процессов, описанных здесь. Когда такие методы и процессы реализуются, состояние машины 1204 хранения может быть преобразовано, например, для сохранения различных данных.
[0073] Машина 1204 хранения может включать в себя съемные и/или встроенные устройства. Машина 1204 хранения может включать в себя оптическую память (например, CD, DVD, HD-DVD, Blu-Ray Disc и т.д.), полупроводниковую память (например, RAM, EPROM, EEPROM и т.д.) и/или магнитную память (например, накопитель на жестком диске, накопитель на гибком диске, накопитель на магнитной ленте, MRAM и т.д.), среди других. Машина 1204 хранения может включать в себя энергозависимые, энергонезависимые, динамические, статические, для чтения/записи, только для чтения, с произвольным доступом, с последовательным доступом, позиционно-адресуемые, с адресацией файла и/или контентно-адресуемые устройства.
[0074] Следует понимать, что машина 1204 хранения включает в себя одно или более физических устройств. Однако аспекты инструкций, описанных здесь, могут быть распространены на коммуникационную среду (например, электромагнитный сигнал, оптический сигнал и т.д.), которая не удерживается физическим устройством в течение конечной длительности.
[0075] Аспекты логической машины 1202 и машины 1204 хранения могут быть интегрированы вместе в один или более аппаратно-логических компонентов. Такие аппаратно-логические компоненты могут включать в себя, например, программируемые пользователем вентильные матрицы (FPGA), программно-ориентированные и ориентированные на приложение интегральные схемы (PASIC/ASIC), программно-ориентированные и ориентированные на приложение стандартные продукты (PSSP/ASSP), однокристальные системы (SOC) и сложные программируемые логические устройства (CPLD).
[0076] Следует понимать, что ʺслужбаʺ, как используется здесь, представляет собой прикладную программу, исполняемую по множеству пользовательских сеансов. Служба может быть доступна для одного или более системных компонентов, программ и/или других служб. В некоторых реализациях служба может исполняться на одном или более серверных вычислительных устройствах.
[0077] Подсистема 1206 отображения, если она включена, может быть использована для обеспечения визуального представления данных, хранящихся в машине 1204 хранения. Это визуальное представление может принимать форму графического пользовательского интерфейса (GUI). Поскольку описанные в данном документе способы и процессы изменяют данные, хранимые машиной хранения, и, таким образом, преобразуют состояние машины хранения, состояние подсистемы 1206 отображения может аналогичным образом преобразовываться, чтобы визуально представлять изменения в исходных данных. Подсистема 1206 отображения может включать в себя одно или более устройств отображения, использующих практически любой тип технологии. Такие устройства отображения могут быть объединены с логической машиной 1202 и/или машиной 1204 хранения в общем корпусе, или такие устройства отображения могут быть периферийными устройствами отображения.
[0078] Подсистема 1208 ввода, если она включена, может содержать или взаимодействовать с одним или более устройствами пользовательского ввода, такими как клавиатура, мышь, сенсорный экран или игровой контроллер. В некоторых вариантах осуществления подсистема ввода может содержать или взаимодействовать с выбранными компонентами естественного пользовательского ввода (NUI). Такие компоненты могут быть интегрированными или периферийными, а преобразование и/или обработка действий ввода могут обрабатываться встроенными или внешними средствами. Пример компонентов NUI может включать в себя микрофон для распознавания речи и/или голоса; инфракрасную, цветную, стереоскопическую камеру и/или камеру с восприятием глубины для систем машинного зрения и/или распознавания жестов; средство слежения за положением головы пользователя, средство слежения за движением глаз пользователя, акселерометр и/или гироскоп для обнаружения движения и/или распознавания намерения; а также компоненты восприятия электрического поля для оценки активности мозга. Например, подсистема 1208 ввода может быть сконфигурирована, чтобы принимать поток сенсорных данных от сенсорного устройства 608, показанного на фиг. 6.
[0079] Подсистема 1210 связи, если она включена, может быть сконфигурирована, чтобы коммуникативно связывать вычислительную систему 1200 с одним или более другими вычислительными устройствами. Подсистема 1210 связи может включать в себя проводные и/или беспроводные устройства связи, совместимые с одним или более различными протоколами связи. В качестве неограничительных примеров, подсистема связи может быть сконфигурирована для связи через беспроводную телефонную сеть, проводную или беспроводную локальную сеть или сеть широкого охвата. В некоторых вариантах осуществления настоящего изобретения подсистема связи может позволить вычислительной системе 1200 передавать и/или принимать сообщения к и/или от других устройств через сеть, такую как Интернет.
[0080] Следует понимать, что конфигурации и/или подходы, описанные в настоящем документе, являются примерными по своей природе, и что эти конкретные варианты осуществления или примеры не следует рассматривать в ограничительном смысле, так как возможны многочисленные вариации. Конкретные процедуры или способы, описанные здесь, могут представлять одну или более из любого числа стратегий обработки. Как таковые, различные проиллюстрированные и/или описанные действия могут выполняться в проиллюстрированной и/или описанной последовательности, в других последовательностях, параллельно или могут быть опущены. Подобным же образом, порядок вышеописанных процессов может быть изменен.
[0081] Предмет настоящего изобретения включает в себя все новые и неочевидные комбинации и подкомбинации различных процессов, систем и конфигураций, а также другие признаки, функции, действия и/или свойства, описанные в настоящем документе, а также любые и все их эквиваленты.

Claims (26)

1. Реализуемый компьютером способ обнаружения разговора между пользователями, причем способ содержит:
прием потока аудиоданных от одного или более датчиков;
обнаружение разговора между первым пользователем и вторым пользователем на основе потока аудиоданных;
обнаружение фрагментов человеческой речи поочередно между первым и вторым пользователями, включая пользователя, носящего устанавливаемое на голове устройство отображения, и другое лицо, на основе потока аудиоданных,
прием изображения сцены, включающей в себя упомянутое другое лицо, от оптического датчика устанавливаемого на голове устройства отображения, и
подтверждение, что другое лицо разговаривает с носящим пользователем, на основе упомянутого изображения;
изменение представления элемента цифрового контента в ответ на обнаружение разговора,
причем элемент цифрового контента включает в себя один или более элементов визуального контента, и в котором изменение представления элемента цифрового контента включает в себя одно или более из скрытия одного или более элементов визуального контента из просмотра на дисплее, перемещение одного или более элементов визуального контента в другое положение на экране, изменение просвечиваемости одного или более элементов визуального контента и изменение размера одного или более элементов визуального контента на дисплее.
2. Способ по п. 1, в котором обнаружение разговора между первым пользователем и вторым пользователем включает в себя
обнаружение голосовой активности в потоке аудиоданных, определение того, что голосовая активность включает в себя фрагменты человеческой речи, и
определение того, что фрагменты человеческой речи чередуются между различными местоположениями источников.
3. Способ по п. 2, в котором один или более датчиков включают в себя решетку микрофонов, содержащую множество микрофонов, и в котором определение местоположения источника фрагмента человеческой речи включает в себя применение диаграммообразующего пространственного фильтра для множества аудиовыборок решетки микрофонов, чтобы оценивать различные местоположения источников.
4. Способ по п. 2, в котором обнаружение разговора между первым пользователем и вторым пользователем дополнительно включает в себя определение того, что фрагменты человеческой речи возникают в пределах назначенного диапазона ритма.
5. Способ по п. 2, в котором обнаружение разговора между первым пользователем и вторым пользователем дополнительно включает в себя определение того, что фрагменты человеческой речи чередуются между различными местоположениями источников в пределах порогового периода времени.
6. Способ по п. 2, дополнительно содержащий:
определение того, что один или более фрагментов человеческой речи предоставлены электронным аудиоустройством, и
игнорирование этих одного или более фрагментов человеческой речи, предоставленных электронным аудиоустройством, при определении, что фрагменты человеческой речи чередуются между различными местоположениями источников.
7. Способ по п. 1, в котором элемент цифрового контента включает в себя один или более из элемента аудиоконтента и элемента видеоконтента и в котором изменение представления элемента цифрового контента включает в себя приостановку представления элемента аудиоконтента или элемента видеоконтента.
8. Способ по п. 1, в котором элемент цифрового контента включает в себя элемент аудиоконтента и в котором изменение представления элемента цифрового контента включает в себя снижение громкости элемента аудиоконтента.
9. Машина хранения, хранящая инструкции, исполняемые логической машиной вычислительной системы, чтобы выполнять способ по любому из предыдущих пунктов.
10. Устанавливаемое на голове устройство отображения, содержащее:
один или более аудиодатчиков, сконфигурированных, чтобы регистрировать поток аудиоданных;
оптический датчик, сконфигурированный, чтобы регистрировать изображение сцены;
просвечиваемый дисплей, сконфигурированный, чтобы отображать элемент цифрового контента;
логическую машину и
машину хранения по п. 9.
RU2016140453A 2014-04-17 2015-04-07 Обнаружение разговора RU2685970C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/255,804 2014-04-17
US14/255,804 US10529359B2 (en) 2014-04-17 2014-04-17 Conversation detection
PCT/US2015/024592 WO2015160561A1 (en) 2014-04-17 2015-04-07 Conversation detection

Publications (3)

Publication Number Publication Date
RU2016140453A RU2016140453A (ru) 2018-04-16
RU2016140453A3 RU2016140453A3 (ru) 2018-10-05
RU2685970C2 true RU2685970C2 (ru) 2019-04-23

Family

ID=52992001

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016140453A RU2685970C2 (ru) 2014-04-17 2015-04-07 Обнаружение разговора

Country Status (11)

Country Link
US (1) US10529359B2 (ru)
EP (1) EP3132444B1 (ru)
JP (1) JP6612250B2 (ru)
KR (1) KR102357633B1 (ru)
CN (1) CN106233384B (ru)
AU (1) AU2015248061B2 (ru)
BR (1) BR112016023776A2 (ru)
CA (1) CA2943446C (ru)
MX (1) MX366249B (ru)
RU (1) RU2685970C2 (ru)
WO (1) WO2015160561A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2756097C1 (ru) * 2021-03-24 2021-09-28 Денис Андреевич Рублев Цифровой детектор микронаушников
RU2821283C2 (ru) * 2019-04-30 2024-06-19 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Индивидуально настроенный вывод, который оптимизируется для пользовательских предпочтений в распределенной системе

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
CA2891742C (en) * 2014-05-15 2023-11-28 Tyco Safety Products Canada Ltd. System and method for processing control commands in a voice interactive system
US9459454B1 (en) * 2014-05-23 2016-10-04 Google Inc. Interactive social games on head-mountable devices
KR20160015972A (ko) * 2014-08-01 2016-02-15 엘지전자 주식회사 웨어러블 디바이스 및 그 제어 방법
US9767606B2 (en) * 2016-01-12 2017-09-19 Lenovo (Singapore) Pte. Ltd. Automatic modification of augmented reality objects
US9922655B2 (en) 2016-05-31 2018-03-20 International Business Machines Corporation System, method, and recording medium for controlling dialogue interruptions by a speech output device
US10089071B2 (en) * 2016-06-02 2018-10-02 Microsoft Technology Licensing, Llc Automatic audio attenuation on immersive display devices
US11195542B2 (en) 2019-10-31 2021-12-07 Ron Zass Detecting repetitions in audio data
US20180018986A1 (en) * 2016-07-16 2018-01-18 Ron Zass System and method for measuring length of utterance
CN107643509B (zh) * 2016-07-22 2019-01-11 腾讯科技(深圳)有限公司 定位方法、定位系统及终端设备
WO2018088450A1 (ja) * 2016-11-08 2018-05-17 ヤマハ株式会社 音声提供装置、音声再生装置、音声提供方法及び音声再生方法
US10146300B2 (en) 2017-01-25 2018-12-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Emitting a visual indicator from the position of an object in a simulated reality emulation
US11178280B2 (en) * 2017-06-20 2021-11-16 Lenovo (Singapore) Pte. Ltd. Input during conversational session
US20190037363A1 (en) * 2017-07-31 2019-01-31 GM Global Technology Operations LLC Vehicle based acoustic zoning system for smartphones
US10983663B2 (en) * 2017-09-29 2021-04-20 Apple Inc. Displaying applications
KR102348124B1 (ko) * 2017-11-07 2022-01-07 현대자동차주식회사 차량의 기능 추천 장치 및 방법
EP3495942B1 (en) * 2017-12-07 2023-05-24 Panasonic Intellectual Property Management Co., Ltd. Head-mounted display and control method thereof
JP7065353B2 (ja) * 2017-12-07 2022-05-12 パナソニックIpマネジメント株式会社 ヘッドマウントディスプレイ及びその制御方法
JP2021526757A (ja) 2018-06-14 2021-10-07 アップル インコーポレイテッドApple Inc. オーディオ出力デバイスを有するディスプレイシステム
CN110634189B (zh) 2018-06-25 2023-11-07 苹果公司 用于在沉浸式混合现实体验期间用户警报的系统和方法
US11366514B2 (en) 2018-09-28 2022-06-21 Apple Inc. Application placement based on head position
US11527265B2 (en) * 2018-11-02 2022-12-13 BriefCam Ltd. Method and system for automatic object-aware video or audio redaction
EP3716038A1 (en) * 2019-03-25 2020-09-30 Nokia Technologies Oy An apparatus, method, computer program or system for indicating audibility of audio content rendered in a virtual space
US11846783B2 (en) * 2019-05-17 2023-12-19 Sony Group Corporation Information processing apparatus, information processing method, and program
EP3928192B1 (en) 2019-09-26 2023-10-18 Apple Inc. Wearable electronic device presenting a computer-generated reality environment
WO2021062278A1 (en) 2019-09-27 2021-04-01 Apple Inc. Environment for remote communication
US11172294B2 (en) * 2019-12-27 2021-11-09 Bose Corporation Audio device with speech-based audio signal processing
CN111326175A (zh) * 2020-02-18 2020-06-23 维沃移动通信有限公司 一种对话者的提示方法及穿戴设备
US11822367B2 (en) * 2020-06-22 2023-11-21 Apple Inc. Method and system for adjusting sound playback to account for speech detection
CN111932619A (zh) * 2020-07-23 2020-11-13 安徽声讯信息技术有限公司 结合图像识别和语音定位的麦克风跟踪系统及方法
JP2022113031A (ja) * 2021-01-22 2022-08-03 ソフトバンク株式会社 制御装置、プログラム、システム及び制御方法
JP2024507749A (ja) 2021-02-08 2024-02-21 サイトフル コンピューターズ リミテッド エクステンデッドリアリティにおけるコンテンツ共有
EP4288856A1 (en) 2021-02-08 2023-12-13 Sightful Computers Ltd Extended reality for productivity
JP2024509722A (ja) 2021-02-08 2024-03-05 サイトフル コンピューターズ リミテッド エクステンデッドリアリティにおけるユーザ相互作用
US11949948B2 (en) 2021-05-11 2024-04-02 Sony Group Corporation Playback control based on image capture
GB2607569A (en) * 2021-05-21 2022-12-14 Everseen Ltd A user interface system and method
US11848019B2 (en) * 2021-06-16 2023-12-19 Hewlett-Packard Development Company, L.P. Private speech filterings
WO2023009580A2 (en) 2021-07-28 2023-02-02 Multinarity Ltd Using an extended reality appliance for productivity
KR102631227B1 (ko) * 2021-09-28 2024-01-31 주식회사 피앤씨솔루션 프로그램에 종속한 음성명령어가 지원되는 머리 착용형 디스플레이 장치 및 머리 착용형 디스플레이 장치를 위한 프로그램에 종속한 음성명령어 지원 방법
US20230123723A1 (en) * 2021-10-15 2023-04-20 Hyundai Mobis Co., Ltd. System for controlling vehicle display based on occupant's gaze departure
US11783449B2 (en) * 2021-12-09 2023-10-10 Htc Corporation Method for adjusting displayed content based on host posture, host, and computer readable storage medium
US20230334795A1 (en) 2022-01-25 2023-10-19 Multinarity Ltd Dual mode presentation of user interface elements
US11948263B1 (en) 2023-03-14 2024-04-02 Sightful Computers Ltd Recording the complete physical and extended reality environments of a user
US20240112427A1 (en) 2022-09-30 2024-04-04 Sightful Computers Ltd Location-based virtual resource locator

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002171587A (ja) * 2000-11-30 2002-06-14 Auto Network Gijutsu Kenkyusho:Kk 車載音響装置の音量調節装置およびそれを用いた音声認識装置
US20050251386A1 (en) * 2004-05-04 2005-11-10 Benjamin Kuris Method and apparatus for adaptive conversation detection employing minimal computation
WO2007138503A1 (en) * 2006-05-31 2007-12-06 Philips Intellectual Property & Standards Gmbh Method of driving a speech recognition system
RU2009108342A (ru) * 2006-09-08 2010-09-20 Сони Корпорейшн (JP) Устройство и способ отображения
US20110218711A1 (en) * 2010-03-02 2011-09-08 Gm Global Technology Operations, Inc. Infotainment system control
US20110257966A1 (en) * 2010-04-19 2011-10-20 Bohuslav Rychlik System and method of providing voice updates
US20120050143A1 (en) * 2010-08-25 2012-03-01 Border John N Head-mounted display with environmental state detection
US20120128186A1 (en) * 2010-06-30 2012-05-24 Panasonic Corporation Conversation detection apparatus, hearing aid, and conversation detection method

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370504B1 (en) 1997-05-29 2002-04-09 University Of Washington Speech recognition on MPEG/Audio encoded files
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
AU2001260162A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
WO2002029784A1 (en) 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
US20020154214A1 (en) 2000-11-02 2002-10-24 Laurent Scallie Virtual reality game system using pseudo 3D display driver
US20050039131A1 (en) * 2001-01-16 2005-02-17 Chris Paul Presentation management system and method
US6931596B2 (en) 2001-03-05 2005-08-16 Koninklijke Philips Electronics N.V. Automatic positioning of display depending upon the viewer's location
US20030037243A1 (en) 2001-08-14 2003-02-20 International Business Machines Corporation Method and system for managing the presentation of information
CA2397703C (en) 2001-08-15 2009-04-28 At&T Corp. Systems and methods for abstracting portions of information that is represented with finite-state devices
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
JP2005250233A (ja) 2004-03-05 2005-09-15 Sanyo Electric Co Ltd ロボット装置
JP2006178842A (ja) 2004-12-24 2006-07-06 Matsushita Electric Ind Co Ltd 情報提示装置
US7518631B2 (en) 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
US8645985B2 (en) 2005-09-15 2014-02-04 Sony Computer Entertainment Inc. System and method for detecting user attention
US8150688B2 (en) 2006-01-11 2012-04-03 Nec Corporation Voice recognizing apparatus, voice recognizing method, voice recognizing program, interference reducing apparatus, interference reducing method, and interference reducing program
JP2008028492A (ja) 2006-07-19 2008-02-07 Sharp Corp 液晶テレビ
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
US7995732B2 (en) * 2007-10-04 2011-08-09 At&T Intellectual Property I, Lp Managing audio in a multi-source audio environment
US8259992B2 (en) * 2008-06-13 2012-09-04 International Business Machines Corporation Multiple audio/video data stream simulation method and system
EP2342884B1 (en) * 2008-09-18 2018-12-05 Koninklijke Philips N.V. Method of controlling a system and signal processing system
JP2010156738A (ja) 2008-12-26 2010-07-15 Pioneer Electronic Corp 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体
JP5481890B2 (ja) 2009-03-12 2014-04-23 ブラザー工業株式会社 ヘッドマウントディスプレイ装置、画像制御方法および画像制御プログラム
US9285589B2 (en) 2010-02-28 2016-03-15 Microsoft Technology Licensing, Llc AR glasses with event and sensor triggered control of AR eyepiece applications
AU2011220382A1 (en) * 2010-02-28 2012-10-18 Microsoft Corporation Local advertising content on an interactive head-mounted eyepiece
US20120212484A1 (en) 2010-02-28 2012-08-23 Osterhout Group, Inc. System and method for display content placement using distance and location information
US9341843B2 (en) * 2010-02-28 2016-05-17 Microsoft Technology Licensing, Llc See-through near-eye display glasses with a small scale image source
US8949871B2 (en) * 2010-09-08 2015-02-03 Opentv, Inc. Smart media selection based on viewer user presence
JP5960796B2 (ja) 2011-03-29 2016-08-02 クアルコム,インコーポレイテッド ローカルマルチユーザ共同作業のためのモジュール式のモバイル接続ピコプロジェクタ
JP5708155B2 (ja) * 2011-03-31 2015-04-30 富士通株式会社 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
GB201116994D0 (en) 2011-10-03 2011-11-16 The Technology Partnership Plc Assistive device
US9081177B2 (en) 2011-10-07 2015-07-14 Google Inc. Wearable computer with nearby object response
JP2013142843A (ja) * 2012-01-12 2013-07-22 Fuji Xerox Co Ltd 動作解析装置、音声取得装置、および、動作解析システム
US8894484B2 (en) 2012-01-30 2014-11-25 Microsoft Corporation Multiplayer game invitation system
US9851563B2 (en) 2012-04-05 2017-12-26 Magic Leap, Inc. Wide-field of view (FOV) imaging devices with active foveation capability
CN103472909B (zh) 2012-04-10 2017-04-12 微软技术许可有限责任公司 用于头戴式、增强现实显示器的逼真遮挡
US9423870B2 (en) * 2012-05-08 2016-08-23 Google Inc. Input determination method
US9746916B2 (en) * 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9219901B2 (en) 2012-06-19 2015-12-22 Qualcomm Incorporated Reactive user interface for head-mounted display
US9767720B2 (en) 2012-06-25 2017-09-19 Microsoft Technology Licensing, Llc Object-centric mixed reality space
JP2014030945A (ja) 2012-08-02 2014-02-20 Toshiba Tec Corp プリンタ、情報処理装置、およびプログラム
US9966075B2 (en) 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US9020825B1 (en) * 2012-09-25 2015-04-28 Rawles Llc Voice gestures
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
US20140288939A1 (en) * 2013-03-20 2014-09-25 Navteq B.V. Method and apparatus for optimizing timing of audio commands based on recognized audio patterns
WO2015001492A1 (en) * 2013-07-02 2015-01-08 Family Systems, Limited Systems and methods for improving audio conferencing services
US20150154960A1 (en) * 2013-12-02 2015-06-04 Cisco Technology, Inc. System and associated methodology for selecting meeting users based on speech
CN106030692B (zh) 2014-02-20 2019-11-15 索尼公司 显示控制装置、显示控制方法及计算机程序
US9922667B2 (en) 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002171587A (ja) * 2000-11-30 2002-06-14 Auto Network Gijutsu Kenkyusho:Kk 車載音響装置の音量調節装置およびそれを用いた音声認識装置
US20050251386A1 (en) * 2004-05-04 2005-11-10 Benjamin Kuris Method and apparatus for adaptive conversation detection employing minimal computation
WO2007138503A1 (en) * 2006-05-31 2007-12-06 Philips Intellectual Property & Standards Gmbh Method of driving a speech recognition system
RU2009108342A (ru) * 2006-09-08 2010-09-20 Сони Корпорейшн (JP) Устройство и способ отображения
US20110218711A1 (en) * 2010-03-02 2011-09-08 Gm Global Technology Operations, Inc. Infotainment system control
US20110257966A1 (en) * 2010-04-19 2011-10-20 Bohuslav Rychlik System and method of providing voice updates
US20120128186A1 (en) * 2010-06-30 2012-05-24 Panasonic Corporation Conversation detection apparatus, hearing aid, and conversation detection method
US20120050143A1 (en) * 2010-08-25 2012-03-01 Border John N Head-mounted display with environmental state detection

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2821283C2 (ru) * 2019-04-30 2024-06-19 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Индивидуально настроенный вывод, который оптимизируется для пользовательских предпочтений в распределенной системе
RU2756097C1 (ru) * 2021-03-24 2021-09-28 Денис Андреевич Рублев Цифровой детектор микронаушников

Also Published As

Publication number Publication date
RU2016140453A (ru) 2018-04-16
RU2016140453A3 (ru) 2018-10-05
BR112016023776A2 (pt) 2017-08-15
MX366249B (es) 2019-07-03
CA2943446A1 (en) 2015-10-22
US10529359B2 (en) 2020-01-07
JP2017516196A (ja) 2017-06-15
KR102357633B1 (ko) 2022-01-28
WO2015160561A1 (en) 2015-10-22
MX2016013630A (es) 2017-02-28
CN106233384B (zh) 2019-11-26
EP3132444A1 (en) 2017-02-22
JP6612250B2 (ja) 2019-11-27
EP3132444B1 (en) 2019-08-21
AU2015248061A1 (en) 2016-10-06
CA2943446C (en) 2021-11-09
AU2015248061B2 (en) 2019-11-21
KR20160145719A (ko) 2016-12-20
CN106233384A (zh) 2016-12-14
US20150302867A1 (en) 2015-10-22

Similar Documents

Publication Publication Date Title
RU2685970C2 (ru) Обнаружение разговора
US10679648B2 (en) Conversation, presence and context detection for hologram suppression
JP6546603B2 (ja) 注視トラッキングの方法およびデバイスにおける視覚的な変更の非視覚的なフィードバック
US10497175B2 (en) Augmented reality virtual monitor
ES2619615T3 (es) Aumento del reconocimiento de voz con imágenes de profundidad
US9280972B2 (en) Speech to text conversion
US9584915B2 (en) Spatial audio with remote speakers
KR102475873B1 (ko) 시야 밖 증강 현실 영상의 표시
CN105009031B (zh) 增强现实设备以及在其上操作用户界面的方法
US9977492B2 (en) Mixed reality presentation
RU2663477C2 (ru) Навигация по пользовательскому интерфейсу
JP2015118574A (ja) 事前計算された照明による拡張現実環境の構築
KR20200112706A (ko) 표시자 모드