RU2632469C2 - Присвоение видео- и аудиометок для обнаружения активного говорящего участника - Google Patents

Присвоение видео- и аудиометок для обнаружения активного говорящего участника Download PDF

Info

Publication number
RU2632469C2
RU2632469C2 RU2015123696A RU2015123696A RU2632469C2 RU 2632469 C2 RU2632469 C2 RU 2632469C2 RU 2015123696 A RU2015123696 A RU 2015123696A RU 2015123696 A RU2015123696 A RU 2015123696A RU 2632469 C2 RU2632469 C2 RU 2632469C2
Authority
RU
Russia
Prior art keywords
video
audio
tag
signal
computer
Prior art date
Application number
RU2015123696A
Other languages
English (en)
Other versions
RU2015123696A (ru
Inventor
Уилльям Джордж ВЕРТЭЙН
Саймон ЛЕОРИН
Original Assignee
МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи filed Critical МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Publication of RU2015123696A publication Critical patent/RU2015123696A/ru
Application granted granted Critical
Publication of RU2632469C2 publication Critical patent/RU2632469C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Burglar Alarm Systems (AREA)

Abstract

Изобретение относится к видеоконференцсвязи. Техническим результатом является выбор активного говорящего участника при исключении ошибочного выбора микрофона или видеокамеры, которые захватывают аудио- или видеосигнал из соединенного сигнала из удаленного местоположения. Предложена система видеоконференцсвязи, в которой определяют, находится ли аудиосигнал выше порогового уровня. Если это так, то осуществляют определение того, присутствует ли в этом аудиосигнале метка. Если это так, то сигнал игнорируется. Если нет, то видеокамеру направляют к источнику звука, идентифицированному посредством аудиосигнала. Определяют, присутствует ли метка в видеосигнале, поступающем от этой видеокамеры. Если это так, то видеокамеру перенаправляют. Если нет, то в аудиосигнал и/или видеосигнал вводят локальную метку (метки). Затем осуществляют передачу помеченного сигнала (сигналов). Таким образом, система будет игнорировать звук или видео, которые имеют встроенную метку от другой системы видеоконференцсвязи. 3 н. и 10 з.п. ф-лы, 5 ил.

Description

УРОВЕНЬ ТЕХНИКИ
Видеоконференцсвязь стала широко распространенной, и во многих учреждениях имеются помещения, конфигурированные главным образом для сеансов видеоконференцсвязи. Такие комнаты обычно содержат аппаратуру для видеоконференцсвязи, такую как одна или более подвижных видеокамер и один или более микрофонов, причем микрофоны обычно размещают в местоположениях вокруг столика в комнате для участников. Обнаружение активного говорящего участника (ASD) часто используют для выбора видеокамеры или для перемещения (наведения и/или наклона) видеокамеры для показа человека в помещении, который говорит, и/или для выбора микрофона, который будет активным. Когда говорит человек, находящийся в удаленном местоположении, его изображение и/или звук исходит из аудио-видеодисплея, такого как телевизор (ТВ), монитор или другой тип дисплея в комнате. Это может побудить ASD случайно выбрать изображение говорящего человека, находящегося в удаленном местоположении, на ТВ вместо выбора последнего говорящего или говорившего человека в данном местоположении.
Также при сеансах видеоконференцсвязи с несколькими местоположениями, при которых во время одного сеанса видеоконференцсвязи имеют место три или более отдельных местоположения, то, как правило, будут отображаться несколько панелей, причем одна панель будет больше, чем другие, и будет показан человек, который говорит, а другие панели будут показывать изображение из видеокамеры при других местоположениях. При возникновении случайного ASD, как было упомянуто выше, оборудование в помещении, где человек говорит, будет отправлять сигнал на оборудование в других местоположениях, при условии, что человек в своем местоположении говорит, и, таким образом, основной дисплей должен находиться в его видеокамере. Когда это происходит, более крупная панель может переключаться от показа человека, который в данный момент говорит, на показ изображения ТВ-экрана или пустого кресла. Таким образом, проблема с ASD состоит в том, что если звук от удаленной системы видеоконференцсвязи отражается, или он настолько громкий, что он приводит в действие ASD, то звук из удаленного местоположения может быть перенаправлен назад в удаленную систему и/или побудить видеокамеру в данном местоположении сфокусироваться на пустом кресле или на экране дисплея, показывающем удаленное местоположение видеоконференцсвязи.
Одна технология, которая была использована для исключения такого ошибочного выбора ASD, состоит в отслеживании линии развертки изображения пятна на экране телевизора для определения того, что звук исходит от телевизора, а не от человека в данном местоположении. Однако телевидение с высокой разрешающей способностью (HDTV), обладает высокими (240 Гц или выше) скоростями поступательной развертки и разрешениями изображения, которые одинаковы для видеокамер, и, таким образом, отслеживание линии развертки изображения имеют ограниченное использование, при задействовании HDTV. Кроме того, ASD часто может иметь помехи при отражении звука в окружающем пространстве помещения. Звукоотражающая поверхность, такая как окно или картинка, покрытая стеклом, может отражать звук от телевизора таким образом, чтобы возникал звук, исходящий от человека за столом, расположенного в данном местоположении, даже если в данный момент отсутствует человек, сидящий в этом местоположении за столом. Кроме того, если запись осуществляют в ходе видеоконференцсвязи, это зависит от того, что человек, чтобы не забыть, точно помечает запись по меньшей мере например, датой видеоконференцсвязи. Это часто забывают и делают позже, иногда с ошибочной или неполной меткой. Это, применительно к этим и другим соображениям, которые описаны в раскрытии, представлено в настоящем документе.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
В настоящем документе описаны технологии для системы видеоконференцсвязи, которые выбирают активного говорящего участника, при исключении ошибочного выбора микрофона или видеокамеры, которые захватывают аудио- или видеосигнал из соединенного сигнала из удаленного местоположения. В одном варианте выполнения метку добавляют к исходящему аудио- и/или видеосигналу. Если микрофон захватывает звук, который содержит метку от удаленной системы, то звук игнорируется, и ASD не реализуется. Если звук не содержит удаленную метку, то просматривают видео, полученное от видеокамеры в данном местоположении. Если он содержит удаленную метку, то ASD не выполняется. Если удаленная метка не присутствует ни в каком сигнале, то ASD выполняется.
Согласно одному варианту выполнения, представленному в настоящем документе, передающая система для системы видеоконференцсвязи имеет генератор меток для формирования по меньшей мере одного из аудиометки или видеометки, блок объединения сигналов для по меньшей мере одного из (i) объединения принятого аудиосигнала с аудиометкой для получения помеченного аудиосигнала, или (ii) объединения принятого видеосигнала с видеометкой для получения помеченного видеосигнала, и передатчик для передачи (i) помеченного аудиосигнала и принятого видеосигнала, (ii) принятого аудиосигнала и помеченного видеосигнала, или (iii) помеченного аудиосигнала и помеченного видеосигнала. Удаленная система видеоконференцсвязи может затем использовать встроенные метки, позволяющие отличать звуки и изображения из в данного местоположения от звуков и изображений из удаленного местоположения.
Способ работы передатчика согласно системе видеоконференцсвязи включает в себя прием аудиосигнала, прием видеосигнала, формирование по меньшей мере одного из аудиометки или видеометки, по меньшей мере одно из (i) объединения аудиосигнала с аудиометкой для получения помеченного аудиосигнала, или (ii) объединения видеосигнала с видеометкой для получения помеченного видеосигнала, и передачу (i) помеченного аудиосигнала и видеосигнала, (ii) аудиосигнала и помеченного видеосигнала, или (iii) помеченного аудиосигнала и помеченного видеосигнала.
Компьютерный запоминающий носитель имеет хранящиеся на нем машиноисполняемые команды. Эти команды побуждают компьютер формировать по меньшей мере одно из аудиометки или видеометки, выполнять о меньшей мере одно из (i) объединения принятого аудиосигнала с аудиометкой для получения помеченного аудиосигнала или (ii) объединения принятого видеосигнала с видеометкой для получения помеченного видеосигнала, и передавать (i) помеченный аудиосигнал и принятый видеосигнал, (ii) принятый аудиосигнал и помеченный видеосигнал, или (iii) помеченный аудиосигнал и помеченный видеосигнал.
Следует учитывать, что вышеописанный предмет изобретения также может быть реализован в виде устройства, управляемого компьютером, компьютерного процесса, вычислительной системы, или в виде готового изделия, такого как машиночитаемый носитель информации. Эти и различные другие признаки станут ясными из прочтения следующего раздела «Осуществление изобретения» и обзора соответствующих чертежей.
Данное раскрытие изобретения приведено для ознакомления с набором понятий, приведенных в упрощенной форме, которые дополнительно описаны ниже в разделе «Осуществление изобретения». Данное раскрытие изобретения не предназначено ни для идентификации ключевых признаков или основных признаков заявленного предмета изобретения, ни для использования данного раскрытия изобретения для ограничения объема заявленного предмета изобретения. Кроме того, заявленный предмет изобретения не ограничен вариантами выполнения, которые устраняют любой или все недостатки, отмеченные в любой части данного раскрытия.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг. 1 представляет собой примерную конфигурацию передающей системы для системы видеоконференцсвязи.
Фиг. 2 представляет собой иллюстрацию примерной среды системы видеоконференцсвязи.
Фиг. 3 представляет собой блок-схему, показывающую примерное обнаружение метки и технологию управления видеокамерой и микрофоном.
Фиг. 4 представляет собой блок-схему примерной технологии записи информации.
Фиг. 5 представляет собой схему архитектуры компьютера, показывающую иллюстративное аппаратное обеспечение компьютера и архитектуру программного обеспечения для вычислительной системы, пригодной для реализации аспектов вариантов выполнения, представленных в настоящем документе.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Нижеследующее подробное описание направлено на создание технологий видеоконференцсвязи, которые могут корректно выбирать активного говорящего участника, при исключении ошибочного выбора микрофона или видеокамеры, которые захватывают аудио- или видеосигнал из соединенного сигнала из удаленного местоположения. В следующем подробном описании будут сделаны ссылки на прилагаемые чертежи, которые составляют его часть, и которые показаны в качестве иллюстрации конкретных вариантов выполнения или примеров. Обратимся теперь к чертежам, на которых одинаковые номера ссылочных позиций обозначают одинаковые элементы среди нескольких чертежей, и будут представлены аспекты вычислительной системы и способы видеоконференцсвязи.
Фиг. 1 представляет собой примерную конфигурацию передающей системы 105 для системы 100 видеоконференцсвязи. Передающая система 105 имеет систему 120 управления и выбора видеокамеры и микрофона, генератор 125 видеометок, блок 130 формирования видеосигналов который обеспечивает выходной видеосигнал 135, генератор 140 аудиометок и блок 145 формирования аудиосигналов, который обеспечивает выходной аудиосигнал 150. Выходные видео и аудиосигналы могут быть переданы путем радиопередачи или переданы передатчиком 155. Система 120 управления также может отправлять сигналы, предназначенные для удаленных систем, при условии, что она имеет активного говорящего участника, которая должна представлять собой более крупную панель, если для отображения нескольких местоположений используется несколько панелей. В передатчике 155 может быть использовано любое удобное средство для отправки выходных видео- и аудиосигналов и любые управляющие сигналы на одну или более системы приемников 160 в удаленных местоположениях. Следует учитывать, что передающая система 105 и приемная система 160 существует в каждом местоположении, и что передающая система 105 и приемная система 160 в местоположении могут быть объединены в одно устройство.
Одна или более видеокамер 110 (110A-110N) и один или более микрофонов 115 (115A-115N) передают, соответственно, видеосигналы и аудиосигналы в передающую систему 105, а точнее, в систему 120 управления, которая имеет входы для приема этих сигналов. Система 120 управления и выбора видеокамеры и микрофона может позволить выбрать, какая видеокамера 110 и какой микрофон 115 будут использованы для формирования изображения и звука из данного местоположения, и если используется более одного из любых устройств, то можно управлять панорамированием, приближением и/или наклоном выбранной видеокамеры 110, если видеокамеру можно регулировать указанным образом, и может позволить регулировать формирование сигнала или других сигналов для передачи на удаленные системы.
Генератор 125 видеометок и генератор 140 аудиометок формирует, соответственно, видео- и аудиометки. Блок 130 формирования видеосигналов управляет или модифицирует видеопиксели в потоке видеоданных, для добавления видеометки и создания помеченного видеосигнала 135. Блок 145 формирования аудиосигналов управляет или модифицирует биты в потоке аудиоданных для получения помеченного аудиосигнала 150. Это можно рассматривать как «присвоение меток» сигналу или добавление метки к сигналу. Генераторы 125 и 140 меток могут быть реализованы в одном устройстве, блоки 130, 145 объединения сигналов могут быть реализованы в одном устройстве, и от одного до всех этих компонентов могут быть реализованы в виде части системы 120 управления.
Предпочтительно, чтобы поток видео- и/или аудиоданных был модифицирован с использованием таких способов, или лишь до таких уровней, которые являются трудноуловимыми и/или не обнаружимыми для людей, но которые могут быть обнаружены путем алгоритмического анализа потока видео- или аудиоданных. Уровень искажения меньший заданного уровня может быть неразличимым для обычного человека-наблюдателя. Например, модифицирование наименьшего значащего бита в слове данных, даже если метка присутствовала в каждом слове, как правило, не может быть заметным или нежелательным. В качестве другого примера, размещение видеометки в ходе гашения интервала или периода обратного хода, в видеокадре, или помещение видеометки в угол нижней части дисплея не может быть заметным или нежелательным. Даже размещение видеометки в качестве наибольшего значащего бита не может быть заметным или нежелательным, но только в случае если это делать на одном пикселе в ходе создания кадра.
Поток видео и/или аудиоданных может быть модифицирован, например, путем использования наименьшего значащего бита или битов для доставки информации, отличной от исходного аудио- или видеосигнала. Такая модификация может быть сделана с каждым словом данных, с каждым другим словом данных, с каждым N-ным словом данных, через каждые N миллисекунд, перед или после синхронизации слова данных или бита, и т.д. Например, последний бит (биты) подходящего слова данных (слов данных) может всегда иметь одинаковый объем, например, 0, 1, 2, 3, и т.д., может принимать различные значения, может возрастать по значениям, и т.д. Другие технологии также могут быть использованы для идентификации слова данных, или его части, такой как метка, или как идентификационная информация, связанная с меткой или видеоконференцсвязью. В качестве другого примера, для этой цели может быть использовано все слово данных. Например, если аудиосигналы отбирают при скорости 4000 проб/секунда, то использование ограниченного количества этих слов для передачи метки информация не может заметно ухудшить качество аудиосигнала. Видеосигналы обеспечивают возможность отправления даже большего количества информации, без значительного ухудшения качества видеосигнала.
Фиг. 2 представляет собой иллюстрацию примерной среды системы 200 видеоконференцсвязи. Несколько человек 205 (205A-205C) собрано вокруг стола 210, на котором имеется множество микрофонов 115 (115A-115E). Присутствует дисплей 215, который может представлять собой телевизор, показывающий человека 220 в удаленном местоположении. Также показан динамик 225. Имеется передающая система 105, которая соединена с видеокамерами и микрофонами, и приемная система 160, которая соединена с дисплеем и акустической системой. Как было упомянуто, передающая система 105 и приемная система 160 могут быть, и обычно реализуются в виде одного устройства и соединены подходящим средством связи с одной или более удаленными системами видеоконференцсвязи.
Когда говорит человек, расположенный в данном местоположении, такой как человек 205B, система 120 управления обнаруживает сигнал, поступающий от микрофона 115B, переключается на микрофон 115B, переключается на видеокамеру 110B, предварительно наведенную на область, в которой находится человек 115B, или наводит видеокамеру 110B на область, в которой находится человек 115B, а затем передает аудиосигнал от микрофона 115B и видеосигнал от видеокамеры 115B в удаленное местоположение, возможно наряду с сигналом, указывающим на то, что человек 205B должен быть заметно отображен на удаленном экране. Наведением или направлением видеокамеры в контексте настоящего документа, является панорамирование, наклон и/или приближение видеокамеры для достижения желаемого изображения желаемого местоположения.
Рассмотрим теперь ситуацию, при которой присутствует звукоотражающий объект или поверхность 230, такую как зеркало, картина или окно. Говорящий участник 220 в удаленном местоположении говорит, и голос говорящего участника 220 в удаленном местоположении передается по радио в помещение посредством динамика 225. Звук 235 от говорящего участника 220 в удаленном местоположении отражается от отражающей поверхности 230 и попадает в микрофон 115D. Система 120 управления обнаруживает отраженный голос 235 на микрофоне 115D и ошибочно определяет, что существует расположенный в данном местоположении человек, говорящий у микрофона 115D. Система 120 управления затем переключается на микрофон 115D и наводит видеокамеру 110 на пустое пространство вблизи микрофона 115D. Таким образом, отраженные звуки и эхо может создать проблемы в ходе сеансов видеоконференцсвязи. Это может происходить циклически, пока человек 220 в удаленном местоположении не прекратит говорить или кто-нибудь не уменьшит громкость динамика 225.
Для исключения или по меньшей мере ослабления такого ошибочного действия ASD, передающая система 105 водит метку (метки) в аудиосигнал и/или в видеосигнал. Дисплей 215 и динамик 225 будут затем воспроизводить эту метку (метки) в своих выходных сигналах. Теперь рассмотрим снова ситуацию, при которой говорит говорящий участник 220 в удаленном местоположении, а голос говорящего участника 220 из удаленного местоположения передается по радио в помещение посредством динамика 225. Звук 235 говорящего участника 220 из удаленного местоположения отражается от отражающей поверхности 230 и попадает на микрофон 115D. Система 120 управления обнаруживает отраженный голос 235 на микрофоне 115D, но также обнаруживает и метку в отраженном голосе 235. Система 120 управления затем определяет, что звук исходит от говорящего участника в удаленном местоположении, а не от говорящего участника в данном местоположении, и поэтому не предпринимает никаких действий применительно к отраженному голосу.
В качестве другого подхода, когда в микрофоне 115D присутствует отраженный голос 235, система 120 управления может, вместо этого или кроме этого, проверять выходной сигнал видеокамеры. Если видеометка присутствует, то система 120 управления определяет, что звук представляет собой отраженный звук, и поэтому не предпринимает никаких действий применительно к отраженному голосу.
Однако, когда говорит человек 205B, расположенный в данном местоположении, микрофон 115B обнаруживает голос человека 205B, расположенного в данном местоположении, но аудиометка отсутствует. Система 120 управления затем корректно переключается на микрофон 115B и направляет видеокамеру 110 на человека 205B, расположенного в данном местоположении, и видеометка будет отсутствовать. Таким образом, система 120 управления корректно определяет, что человек 205B говорит, и предпринимает соответствующее действие. Следует учитывать, что на микрофонах 115B также может возникать некоторый отраженный звук 235. Однако, громкость отраженного звука 235 будет значительно меньше, чем громкость голоса говорящего участника 205B, расположенного в данном местоположении, так что отраженная метка будет находиться на слишком низком уровне, чтобы обнаруживаться системой 120 управления. То есть при оцифровывании звука, исходящего из микрофона, громкость метки будет находиться ниже уровня наименьшего значащего бита (битов). Отраженный звук 235 также может быть уловлен другими микрофонами 115, но система 120 управления будет отвергать эти микрофоны, либо потому что их громкость будет меньше, чем громкость у микрофона 115B, либо потому что метка будет легко обнаружимой.
В некоторых ситуациях возможно, чтобы видеокамера 240 находилась на задней стенке комнаты, в дополнение или вместо видеокамер 110. Предположим теперь, что говорит человек 220 в удаленном местоположении, а звук, испускаемый динамиком 225, принимается микрофоном 115A или 115E. Стандартная система может ошибочно принять этот полученный звук за говорящего участника в данном местоположении и переключиться на этот микрофон и направить видеокамеру 240 на это местоположение. Вместо этого, с помощью метки, используемой в настоящем документе, система 120 управления будет обнаруживать метку в аудиосигнале, захваченном микрофоном 115A или 115E, определять, что голос не является голосом говорящего участника в данном местоположении, и не переключаться на микрофон 115A или 115E. Также система 120 управления может наводить видеокамеру 240 на дисплей 215, обнаруживать видеометку, испускаемую дисплеем 215, а затем наводит видеокамеру 240 назад по ее исходному направлению или по направлению, установленному по умолчанию. Таким образом, аудио и видеометки усиливают эффект видеоконференцсвязи путем снижения или исключения ошибочного переключения видеокамеры и/или микрофона, вызванного голосом говорящего участника в удаленном местоположении.
Метки также могут быть использованы при необходимости для идентификации видеоконференцсвязи. Например, метки могут содержать информацию относительно наименования компании, времени, даты, местоположения комнаты, передачи используемого оборудования, такую как (но не ограничиваясь) модель, изготовитель, серийный номер, версия программного обеспечения, информация о торговой марке, информация об авторском праве, информация о конфиденциальности, информация о праве собственности, используемый протокол или стандарт, и т.д. Всю эту информацию не требуется передавать, и ничто не делает необходимой передачу всей этой желаемой информации мгновенно, циклически или непрерывно. Скорее, биты, которые идентифицируют метку как таковую, необходимо лишь передавать достаточно часто, чтобы система 120 управления могла распознавать метку как таковую. Таким образом, например, как было упомянуто выше, биты, которые идентифицируют метку, которая может быть передана лишь в виде N слов данных, отличных от числа слов, используемых для передачи информации, упомянутой выше.
Кроме того, не требуется, чтобы информация, содержащаяся в метке (в метках), была получена из изображения, представленного дисплеем 215, или из звука, представленного динамиком 225. Скорее, и предпочтительно, эту информацию получают непосредственно из видео- и/или аудиосигналов, принятых приемной системой 160.
Скорость передачи данных может быть достаточно медленной, но является предпочтительным, чтобы идентифицируемая часть метки передавалась бы предпочтительно циклически, с менее чем половинным гистерезисом задержки ASD. Даже более предпочтительным является, чтобы идентифицируемая часть метки передавалась бы более часто, для размещения остатка данных, из-за помех в ходе передачи данных или шума в помещении. Скорость подачи дополнительной информации является менее чувствительной к времени, и поэтому может быть передана в течение более длительного периода времени.
Фиг. 3 представляет собой блок-схему примерного обнаружения метки и технологии управления видеокамерой и микрофоном 300. После запуска 305 делают определение 310 того, будет ли аудиосигнал более высоким, чем пороговый уровень. Если нет, то следует возвратиться к 310. Если это так, то делают определение 315 того, присутствует ли в этом аудиосигнале метка. Если это так, то этот аудиосигнал игнорируется 317 и следует вернуться к 310. Если нет, то затем видеокамеру направляют или наводят 320 на источник звука, идентифицированный аудиосигналом. Например, если аудиосигнал исходит из микрофона 115A, то видеокамера 110 будет направлена на область, обслуживаемую микрофоном 115A, или будет выбрана видеокамера, которая была ранее наведена на эту область.
Затем делают определение 325 того, присутствует ли метка в видеосигнале, исходящем из этой видеокамеры. Если это так, то видеокамеру перенаправляют 330 на ее более раннюю позицию, или выбирают предыдущую видеокамеру. Если нет, то тогда локальную метку (метки) вводят 335 в аудиосигнал и/или в видеосигнал. Затем передают помеченный сигнал (сигналы). Затем следует вернуться к 310.
Таким образом, если микрофон улавливает звук, и существует аудиометка, встроенная в этот звук, или если видеокамера направлена к источнику этого звука, захватывающему видеометку, встроенную в видеосигнал, то система будет игнорировать этот звук и оставлять микрофон и настройки видеокамеры, как они были. Однако, если встроенная метка не обнаружена ни в каком сигнале, то микрофон и/или видеокамера будут выбраны для передачи этого звука и изображения в удаленную видеоконференцию после введения локальной метки по меньшей мере в один из этих сигналов. Таким образом корректно выбирают активного говорящего участника, игнорируя отраженные звуки из удаленных местоположений.
Фиг. 4 представляет собой блок-схему примерной технологии записи информации 400. После запуска 405, делают определение 410 того, записан ли сеанс. Если нет, то процедура заканчивается 415. Если это так, делают определение 420 того, имеются ли метки. Если никаких меток нет, то сеанс записывается 430. Если присутствует по меньшей мере одна метка, то делают определение 425 того, имеется ли в метке (в метках) информация. Если нет, то сеанс записывают 430. Если это так, то сеанс записывают 435 с использованием по меньшей мере некоторой информации. Информация, которую записывают в ходе сеанса, может представлять собой всю информацию, включенную в метку, или может представлять собой лишь предварительно выбранную часть, такую как дата и время.
Следует учитывать, что логические операции, описанные в настоящем документе, реализуются (1) в виде последовательности действий, выполняемых на компьютере, или программных модулей, работающих на вычислительной системе, и/или (2) в виде соединенных между собой цепей машинной логики или электронных модулей в вычислительной системе. Реализация является предметом выбора, зависящим от рабочих характеристик и других требований к вычислительной системе. Следовательно, логические операции, описанные в настоящем документе, относятся к различным установленным операциям, структурным устройствам, действиям или модулям. Эти операции, структурные устройства, действия и модули могут быть реализованы в программном обеспечении, во встроенных программах, в цифровой логической схеме специального назначения и в любом их сочетании. Также следует учитывать, что может быть выполнено больше или меньше операций, чем показано на чертежах и описано в настоящем документе. Эти операции также могут быть выполнены в порядке, отличном от порядка, описанного в настоящем документе.
Фиг. 5 показывает иллюстративную архитектуру компьютера для компьютера 500, пригодного для исполнения компонентов программы, описанных в настоящем документе для системы видеоконференцсвязи способом, представленным выше. Показанная архитектура компьютера иллюстрирует стандартный настольный персональный компьютер, портативный компьютер, или компьютер-сервер, и может быть применена для исполнения любых аспектов компонентов программ, представленных в настоящем документе, которые описаны как исполняемые на клиентском компьютере 104, компьютерах-серверах 106A-106N для предварительной обработки данных или компьютерах-серверах 108A-108N базы данных. Показанная архитектура компьютера включает в себя центральный блок обработки данных 502 («ЦП»), память 508 системы, включающую в себя оперативное запоминающее устройство 514 («ОЗУ») и постоянное запоминающее устройство («ПЗУ») 516, а также шину 504 системы, которая связывает память с ЦП 502. Базовая система ввода/вывода, содержащая базовые подпрограммы, которые помогают перемещать информацию между элементами в компьютере 500, например, в ходе запуска, хранится в ПЗУ 516. Компьютер 500 дополнительно включает в себя запоминающее устройство 510 большой емкости, для хранения операционной системы 518, прикладных программ и других программных модулей, которые более подробно описаны в настоящем документе.
Запоминающее устройство 510 большой емкости соединено с ЦП 502 через контроллер устройства массовой памяти (не показан), соединенный с шиной 504. Запоминающее устройство 510 большой емкости и связанный с ним машиночитаемый носитель обеспечивают энергонезависимое запоминающее устройство для компьютера 500. Хотя описание машиночитаемого носителя, содержащееся в настоящем документе, относится к запоминающему устройству большой емкости, такому как жесткий диск или привод CD-ROM, специалистам в данной области техники следует учитывать, что машиночитаемый носитель может представлять собой любой подходящий компьютерный носитель информации или канал информации, который может быть доступен для архитектуры компьютера 500.
В качестве примера, и без ограничений, компьютерный носитель информации может включать в себя энергозависимый и энергонезависимый, съемный и несъемный носитель, реализуемый посредством любого способа или технологии для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Например, компьютерный носитель информации включает в себя (но не ограничен) RAM, ROM, EPROM, EEPROM, флэш-память или другую твердотельную технологию памяти, CD-ROM, универсальные цифровые диски (DVD), HD-DVD, BLU-RAY, или другое оптическое устройство хранения данных, магнитные кассеты, магнитную ленту, запоминающее устройство на магнитном диске или другие магнитные запоминающие устройства, или любой другой носитель, который может быть использован для хранения желаемой информации и который может быть доступен для компьютера 500. В формуле изобретения словосочетание «компьютерный запоминающий носитель» и ее видоизменения не включает себя волн или сигналов самих по себе и/или каналы информации.
Каналы информации включают в себя машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм переноса и включает в себя любые средства доставки. Термин «модулированный сигнал данных» означает сигнал, который имеет один или более своих характеристик, изменяемых или заданных таким образом, чтобы можно было закодировать информацию в сигнале. В качестве примера (и без ограничений), каналы информации включают в себя проводные носители, такие как проводная сеть или однопроводное соединение, и беспроводные носители, такие как акустические, радиочастотные, инфракрасные и другие беспроводные носители. Сочетания любых из приведенных выше, также должны быть включены в объем машиночитаемого носителя.
Согласно различным вариантам выполнения компьютер 500 может функционировать в сетевой среде, с использованием логических соединений для удаленных компьютеров, через сеть, такую как сеть 520. Компьютер 500 может быть соединен с сетью 520 через блок 506 сетевого интерфейса, соединенный с шиной 504. Следует учитывать, что блок 506 сетевого интерфейса также может быть применен для соединения с другими типами сетей и с удаленными компьютерными системами. Компьютер 500 также может включать в себя контроллер вода/вывода 512 для приема и обработки входных данных, поступающих от множества других устройств, включающих в себя клавиатуру, мышь или световое перо. Аналогично, контроллер вода/вывода может подавать выходной сигнал на экран дисплея, принтер или другой тип устройства вывода.
Как было кратко упомянуто выше, множество программных модулей и файлов данных может быть сохранено в запоминающем устройстве 510 большой емкости и ОЗУ 514 компьютера 500, включая операционную систему 518, пригодную для управления функционированием сетевого настольного компьютера, портативного компьютера или компьютера-сервера. Запоминающее устройство 510 большой емкости и ОЗУ 514 также может хранить один или более программных модулей, которые реализуют различные операции, описанные выше. Запоминающее устройство 510 большой емкости и ОЗУ 514 также могут хранить другие типы программных модулей.
При том, что объект изобретения, описанный в настоящем документе, представлен в общем одним или более программными модулями, которые исполняются в сочетании с исполнением операционной системы и прикладных программ на компьютерной системе, специалистам в данной области техники должно быть понятно, что другие варианты выполнения могут быть выполнены в сочетании с другими типами программных модулей. Как правило, программные модули включают в себя подпрограммы, программы, компоненты, структуры данных и другие типы структур, которые выполняют конкретные задачи или реализуют конкретные типы абстрактных данных. Более того, специалисты в данной области техники должны учитывать, что предмет изобретения, описанный в настоящем документе, может быть реализован на практике, при необходимости с другими конфигурациями компьютерных систем, включая портативные устройства, многопроцессорные системы, микропроцессорную или программируемую бытовую электронную технику, миникомпьютеры, компьютеры обычных размеров и т.п.
Исходя из вышесказанного, следует отметить, что в настоящем документе предложены технологии видеоконференцсвязи. Хотя предмет изобретения, представленный в настоящем документе, был описан в терминологии, характерной для структурных элементов компьютера, методологических и преобразовательных операций, конкретной вычислительной техники и машиночитаемых носителей информации, следует понимать, что изобретение, определенное в прилагаемой формуле изобретения, не обязательно ограничено конкретными элементами, операциями или носителями информации, описанными в настоящей работе. Скорее, конкретные элементы, операции и носители раскрыты в виде примерных форм реализации формулы изобретения.
Объект изобретения, описанный выше, приведен лишь в качестве иллюстрации, и не должен рассматриваться как ограничивающий. Для объекта изобретения, описанного в настоящем документе, могут быть сделаны различные модификации и изменения, помимо следующих проиллюстрированных и описанных примерных вариантов выполнения и применений, и без отступления от истинной сущности и объема представленного изобретения, которое изложено в следующей формуле изобретения.

Claims (31)

1. Передающая система для системы видеоконференцсвязи, содержащая:
- систему управления, выполненную с возможностью определять, имеется ли аудиометка в принятом аудиосигнале;
- генератор меток для формирования аудиометки;
- блок объединения для объединения упомянутого принятого аудиосигнала с аудиометкой, если определено, что принятый сигнал не имеет аудиометки, для получения помеченного аудиосигнала, так что аудиометка является обнаруживаемой в помеченном аудиосигнале для системы управления другой системы видеоконференцсвязи; и
- передатчик для передачи помеченного аудиосигнала и принятого видеосигнала как части видеоконференции.
2. Передающая система по п. 1, дополнительно содержащая систему управления, причем система управления встраивает дополнительную информацию в аудиометку.
3. Передающая система по любому из предшествующих пунктов, в которой генератор меток дополнительно выполнен с возможностью формировать видеометку, блок объединения дополнительно выполнен с возможностью объединять принятый видео сигнал с видеометкой для получения помеченного видеосигнала и при этом передатчик дополнительно выполнен с возможностью передавать помеченный аудиосигнал и помеченный видеосигнал.
4. Способ работы передающей системы для системы видеоконференцсвязи, причем способ содержит этапы, на которых:
- определяют, имеется ли аудиометка в принятом аудиосигнале;
- принимают видеосигнал;
- формируют аудиометку;
- объединяют аудиосигнал с аудиометкой, если определено, что принятый сигнал не имеет аудиометки, для получения помеченного аудиосигнала, так что аудиометка является обнаруживаемой в помеченном аудиосигнале для системы управления системы видеоконференцсвязи; и
- передают помеченный аудиосигнал и видеосигнал как часть видеоконференции.
5. Способ по п. 4, в котором имеется множество аудиосигналов и который дополнительно содержит этап, на котором выбирают аудиосигнал для передачи, который не содержит аудиометку от другой системы видеоконференцсвязи.
6. Способ по п. 4 или 5, дополнительно содержащий:
объединение видеосигнала с видеометкой для получения помеченного видеосигнала; и
передачу помеченного аудиосигнала и видеосигнала.
7. Способ по п. 6, в котором имеется множество видеосигналов и который дополнительно содержит этап, на котором выбирают видеосигнал для передачи, который не содержит видеометку от другой системы видеоконференцсвязи.
8. Компьютерный запоминающий носитель, на котором сохранены машиноисполняемые команды, которые при исполнении компьютером побуждают компьютер:
- определять, имеется ли аудиометка в принятом аудиосигнале;
- формировать аудиометку;
- объединять принятый аудиосигнал с аудиометкой, если определено, что принятый сигнал не имеет аудиометки, для получения помеченного аудиосигнала, так что аудиометка является обнаруживаемой в помеченном аудиосигнале для системы управления системы видеоконференцсвязи; и
- передавать помеченный аудиосигнал и принятый видеосигнал как часть видеоконференции.
9. Компьютерный запоминающий носитель по п. 8, причем компьютерный запоминающий носитель дополнительно содержит машиноисполняемые команды, сохраненные на нем, которые при исполнении компьютером побуждают компьютер обнаруживать аудиометки от удаленной системы видеоконференцсвязи во множестве принятых аудиосигналов и выбирать аудиосигнал, который не содержит аудиометку, для объединения со сформированной аудиометкой.
10. Компьютерный запоминающий носитель по п. 8, причем компьютерный запоминающий носитель дополнительно содержит машиноисполняемые команды, сохраненные на нем, которые при исполнении компьютером побуждают компьютер:
формировать видеометку;
объединять видеосигнал с видеометкой для получения помеченного видеосигнала; и
передавать помеченный аудиосигнал и помеченный видеосигнал.
11. Компьютерный запоминающий носитель по п. 10, причем компьютерный запоминающий носитель дополнительно содержит машиноисполняемые команды, сохраненные на нем, которые при исполнении компьютером побуждают компьютер обнаруживать видеометки от удаленной системы видеоконференцсвязи во множестве принятых видеосигналов и выбирать видеосигнал, который не содержит видеометку, для объединения со сформированной аудиометкой.
12. Компьютерный запоминающий носитель по п. 8, причем компьютерный запоминающий носитель дополнительно содержит машиноисполняемые команды, сохраненные на нем, которые при исполнении компьютером побуждают компьютер встраивать дополнительную информацию в по меньшей мере одно из сформированной видеометки или аудиометки.
13. Компьютерный запоминающий носитель по п. 10, причем компьютерный запоминающий носитель дополнительно содержит машиноисполняемые команды, сохраненные на нем, которые при исполнении компьютером побуждают компьютер объединять принятый аудиосигнал с аудиометкой для получения помеченного аудиосигнала таким образом, чтобы искажение помеченного аудиосигнала было меньше заданного уровня, или объединять принятый видеосигнал с видеометкой для получения помеченного видеосигнала, в котором искажение помеченного видеосигнала будет меньше заданного уровня.
RU2015123696A 2012-12-19 2013-12-19 Присвоение видео- и аудиометок для обнаружения активного говорящего участника RU2632469C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/719,314 US9065971B2 (en) 2012-12-19 2012-12-19 Video and audio tagging for active speaker detection
US13/719,314 2012-12-19
PCT/US2013/076671 WO2014100466A2 (en) 2012-12-19 2013-12-19 Video and audio tagging for active speaker detection

Publications (2)

Publication Number Publication Date
RU2015123696A RU2015123696A (ru) 2017-01-10
RU2632469C2 true RU2632469C2 (ru) 2017-10-05

Family

ID=49943568

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015123696A RU2632469C2 (ru) 2012-12-19 2013-12-19 Присвоение видео- и аудиометок для обнаружения активного говорящего участника

Country Status (11)

Country Link
US (1) US9065971B2 (ru)
EP (1) EP2912841B1 (ru)
JP (1) JP6321033B2 (ru)
KR (1) KR102110632B1 (ru)
CN (1) CN104937926B (ru)
AU (1) AU2013361258B2 (ru)
BR (1) BR112015011758B1 (ru)
CA (1) CA2889706C (ru)
MX (1) MX352445B (ru)
RU (1) RU2632469C2 (ru)
WO (1) WO2014100466A2 (ru)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9065971B2 (en) * 2012-12-19 2015-06-23 Microsoft Technology Licensing, Llc Video and audio tagging for active speaker detection
US20150281832A1 (en) * 2014-03-28 2015-10-01 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
US9681097B1 (en) 2016-01-20 2017-06-13 Global Tel*Link Corporation Secure video visitation system
US10296994B2 (en) 2016-02-11 2019-05-21 Global Tel*Link Corporation System and method for visitation management in a controlled environment
US9558523B1 (en) 2016-03-23 2017-01-31 Global Tel* Link Corp. Secure nonscheduled video visitation system
US10311219B2 (en) * 2016-06-07 2019-06-04 Vocalzoom Systems Ltd. Device, system, and method of user authentication utilizing an optical microphone
JP6520878B2 (ja) * 2016-09-21 2019-05-29 トヨタ自動車株式会社 音声取得システムおよび音声取得方法
KR20180093676A (ko) 2017-02-14 2018-08-22 한국전자통신연구원 스테레오 오디오 신호에 대한 태그 삽입 장치 및 태그 삽입 방법, 그리고, 태그 추출 장치 및 태그 추출 방법
US11282537B2 (en) 2017-06-09 2022-03-22 International Business Machines Corporation Active speaker detection in electronic meetings for providing video from one device to plurality of other devices

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7081915B1 (en) * 1998-06-17 2006-07-25 Intel Corporation Control of video conferencing using activity detection
US7161939B2 (en) * 2001-06-29 2007-01-09 Ip Unity Method and system for switching among independent packetized audio streams
US20090002480A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Techniques for detecting a display device
RU2009146029A (ru) * 2007-06-12 2011-06-20 Майкрософт Корпорейшн (Us) Идентификация активного говорящего участника
RU2010133959A (ru) * 2008-02-14 2012-02-20 Майкрософт Корпорейшн (Us) Способы для генерации визуальной композиции для события мультимедийной конференц-связи
US20120127259A1 (en) * 2010-11-19 2012-05-24 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5099319A (en) * 1989-10-23 1992-03-24 Esch Arthur G Video information delivery method and apparatus
US5689641A (en) 1993-10-01 1997-11-18 Vicor, Inc. Multimedia collaboration system arrangement for routing compressed AV signal through a participant site without decompressing the AV signal
AUPP392498A0 (en) * 1998-06-04 1998-07-02 Innes Corporation Pty Ltd Traffic verification system
US7062039B1 (en) * 1999-05-27 2006-06-13 Telefonaktiebolaget Lm Ericsson Methods and apparatus for improving adaptive filter performance by inclusion of inaudible information
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
JP2002223422A (ja) * 2001-01-29 2002-08-09 Nec Corp 多地点テレビ会議制御装置およびビデオパケット送信方法
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
US6749512B2 (en) * 2002-03-15 2004-06-15 Macgregor Brian Computer network implemented gaming system and method of using same
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
GB2404297B (en) * 2003-07-24 2007-12-05 Hewlett Packard Development Co Editing multiple camera outputs
JP4414708B2 (ja) * 2003-09-19 2010-02-10 株式会社リコー 動画表示用パーソナルコンピュータ、データ表示システム、動画表示方法、動画表示プログラムおよび記録媒体
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US20050138674A1 (en) * 2003-12-17 2005-06-23 Quadrock Communications, Inc System and method for integration and synchronization of interactive content with television content
US7563168B2 (en) * 2004-02-13 2009-07-21 Texas Instruments Incorporated Audio effect rendering based on graphic polygons
GB2415639B (en) * 2004-06-29 2008-09-17 Sony Comp Entertainment Europe Control of data processing
US7304585B2 (en) * 2004-07-02 2007-12-04 Nokia Corporation Initiation of actions with compressed action language representations
US20060147063A1 (en) 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
US7450752B2 (en) * 2005-04-07 2008-11-11 Hewlett-Packard Development Company, L.P. System and method for automatic detection of the end of a video stream
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
CN100596061C (zh) * 2006-01-12 2010-03-24 大连理工大学 一种基于盲源分离的小波域数字音频多目的水印方法
CA2544459A1 (en) * 2006-04-21 2007-10-21 Evertz Microsystems Ltd. Systems and methods for synchronizing audio and video data signals
US7688889B2 (en) * 2006-09-18 2010-03-30 Rgb Networks, Inc. Methods, apparatus, and systems for insertion of overlay content into a video signal with transrating capabilities
US8087044B2 (en) * 2006-09-18 2011-12-27 Rgb Networks, Inc. Methods, apparatus, and systems for managing the insertion of overlay content into a video signal
US20080136623A1 (en) * 2006-12-06 2008-06-12 Russell Calvarese Audio trigger for mobile devices
US8633960B2 (en) * 2007-02-20 2014-01-21 St-Ericsson Sa Communication device for processing person associated pictures and video streams
FR2952263B1 (fr) * 2009-10-29 2012-01-06 Univ Paris Descartes Procede et dispositif d'annulation d'echo acoustique par tatouage audio
US8713593B2 (en) * 2010-03-01 2014-04-29 Zazum, Inc. Detection system and method for mobile device application
US20110214143A1 (en) * 2010-03-01 2011-09-01 Rits Susan K Mobile device application
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8589167B2 (en) * 2011-05-11 2013-11-19 Nuance Communications, Inc. Speaker liveness detection
US20120321062A1 (en) * 2011-06-17 2012-12-20 Fitzsimmons Jeffrey E Telephonic Conference Access System
CN102368816A (zh) * 2011-12-01 2012-03-07 中科芯集成电路股份有限公司 一种视频会议智能前端系统
US8886011B2 (en) * 2012-12-07 2014-11-11 Cisco Technology, Inc. System and method for question detection based video segmentation, search and collaboration in a video processing environment
US9065971B2 (en) * 2012-12-19 2015-06-23 Microsoft Technology Licensing, Llc Video and audio tagging for active speaker detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7081915B1 (en) * 1998-06-17 2006-07-25 Intel Corporation Control of video conferencing using activity detection
US7161939B2 (en) * 2001-06-29 2007-01-09 Ip Unity Method and system for switching among independent packetized audio streams
RU2009146029A (ru) * 2007-06-12 2011-06-20 Майкрософт Корпорейшн (Us) Идентификация активного говорящего участника
US20090002480A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Techniques for detecting a display device
RU2010133959A (ru) * 2008-02-14 2012-02-20 Майкрософт Корпорейшн (Us) Способы для генерации визуальной композиции для события мультимедийной конференц-связи
US20120127259A1 (en) * 2010-11-19 2012-05-24 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
US 7161939 B2 IP, 2007-01-09. *

Also Published As

Publication number Publication date
AU2013361258B2 (en) 2017-03-09
KR20150096419A (ko) 2015-08-24
CN104937926B (zh) 2018-05-25
MX2015008119A (es) 2016-04-25
JP2016506670A (ja) 2016-03-03
WO2014100466A2 (en) 2014-06-26
MX352445B (es) 2017-11-24
BR112015011758B1 (pt) 2023-04-18
CN104937926A (zh) 2015-09-23
JP6321033B2 (ja) 2018-05-09
EP2912841A2 (en) 2015-09-02
US20140168352A1 (en) 2014-06-19
CA2889706A1 (en) 2014-06-26
AU2013361258A1 (en) 2015-05-14
BR112015011758A2 (pt) 2017-07-11
KR102110632B1 (ko) 2020-05-13
CA2889706C (en) 2020-04-28
RU2015123696A (ru) 2017-01-10
EP2912841B1 (en) 2020-10-28
WO2014100466A3 (en) 2014-08-07
US9065971B2 (en) 2015-06-23

Similar Documents

Publication Publication Date Title
RU2632469C2 (ru) Присвоение видео- и аудиометок для обнаружения активного говорящего участника
US9294738B2 (en) System and method of security monitoring
JP2019207710A (ja) スマート音声機器間のインタラクション方法、装置、機器及び記憶媒体
US20200336865A1 (en) Two-way communication interface for vision-based monitoring system
KR20210014625A (ko) 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
EP1613084A2 (en) AV system and control unit
CN112822435A (zh) 一种用户可轻松接入的安防方法、装置及系统
US9832372B1 (en) Dynamic vediotelphony systems and methods of using the same
US10762913B2 (en) Image-based techniques for audio content
US8943247B1 (en) Media sink device input identification
US20230215011A1 (en) Panoramic video conference system and method
US11895041B2 (en) Establishing network presence
US11849171B2 (en) Deepfake content watch parties
US20230289126A1 (en) System, method for adjusting audio volume, and apparatus
KR20080022837A (ko) 디지털 비디오 레코더에서의 카메라 영상 기록 방법
US20240046951A1 (en) Speech image providing method and computing device for performing the same
US20230316883A1 (en) Smart device with switch to enable privacy feature
US20210271441A1 (en) Information processor, information processing method, and program
US20130007351A1 (en) Information processor, information processing method, and computer program product
KR102273399B1 (ko) 녹화 영상 재생 장치 및 방법
JP2015080034A (ja) 画像処理装置、画像処理方法、プログラム