RU2398277C2

RU2398277C2 - Автоматическое извлечение лиц для использования во временной шкале записанных конференций

Info

Publication number: RU2398277C2
Application number: RU2005133403/09A
Authority: RU
Inventors: Росс Г. КАТЛЕР (US); Росс Г. КАТЛЕР
Original assignee: Майкрософт Корпорейшн
Priority date: 2004-10-30
Filing date: 2005-10-28
Publication date: 2010-08-27
Also published as: AU2005220252A1; CA2521670C; JP2006129480A; CN1783998A; MXPA05010595A; EP1659518A3; US7598975B2; EP1659518B1; CA2521670A1; RU2005133403A; BRPI0504224A; KR20060051672A; US20050285943A1; ES2645313T3; EP1659518A2; JP5027400B2; CN1783998B; KR101238586B1

Abstract

Изобретение относится к средствам обеспечения индексированной временной шкалы для воспроизведения видеоданных. Техническим результатом является обеспечение согласования временной шкалы участия докладчика видеоконференции с параметрами докладчика. Лица докладчиков конференции или переговоров автоматически выявляются, и изображения лиц, соответствующие каждому докладчику, сохраняются в базе данных лиц. Временная шкала создается для графической идентификации докладчиков в течение воспроизведения записанной конференции. Вместо обобщенной идентификации каждого докладчика во временной шкале для идентификации каждого докладчика, ассоциированного с временной шкалой, предоставляется, например, изображение лица. 5 н. и 27 з.п. ф-лы, 6 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Последующее описание относится в целом к обработке видеоизображений. В частности, последующее описание относится к обеспечению индексированной временной шкалы (графического представления промежутка времени и хронологической связи событий) для воспроизведения видеоданных.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

Воспроизведение записанных видеоданных, сценарий которых включает более одного докладчика, как, например, воспроизведение записанных конференций, обычно отображается одновременно с индексированной временной шкалой. Используя временную шкалу, пользователь может быстро переместиться к конкретному моменту времени в конференции посредством управления одним или несколькими элементами управления временной шкалой. Когда видеоданные содержат больше чем одного докладчика, может быть использовано множество временных шкал, где с конкретным докладчиком ассоциирована одна временная шкала. Каждая временная шкала показывает, когда выступает соответствующий докладчик конференции. Таким образом, пользователь может перемещаться к частям конференции, в которых выступает конкретный докладчик.

Для идентификации каждого докладчика такие многочисленные временные шкалы могут быть единым образом обозначены как, например, «Докладчик 1», «Докладчик 2» и т.д. Существующие способы для автоматического обозначения временных шкал с помощью конкретных имен докладчиков неточны и также могут требовать базу данных о пользователях и ассоциированные с ними образцы речи и изображений лиц, которые могут повлечь за собой проблемы безопасности и конфиденциальности.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Согласно настоящему изобретению предоставляется способ обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащий этапы, на которых: выявляют два или более изображений лиц в выборке видеоданных; выявляют двух или более докладчиков в выборке аудиоданных, которая соответствует выборке видеоданных; выявляют основного докладчика из этих двух или более докладчиков; группируют упомянутых двух или более докладчиков по времени и по пространству; сохраняют временную шкалу докладчика для каждого выявленного докладчика, которая идентифицирует этого докладчика посредством идентификатора докладчика и местоположения докладчика в различные моменты времени вдоль данной временной шкалы докладчика; сохраняют по меньшей мере одно изображение лица для каждого выявленного докладчика в базе данных лиц и ассоциируют временную шкалу докладчика и изображение лица с каждым выявленным докладчиком.

При выявлении двух или более изображений лиц может быть использовано слежение за лицами для выявления двух или более изображений лиц, а при выявлении двух или более докладчиков может быть использовано определение местоположения источника звука.

Предлагаемый способ может дополнительно содержать этапы, на которых идентифицируют более чем одно изображение лица для каждого докладчика и выбирают наилучшее изображение лица для сохранения в базе данных лиц. При этом при данном выборе в качестве наилучшего изображения лица может быть выбрано изображение лица, которое содержит наиболее фронтальный вид лица, или изображение лица, которому соответствует минимум движения, или изображение лица, которое проявляет максимум симметрии.

Согласно предлагаемому способу местоположение докладчика может обозначаться ограничивающим докладчика прямоугольником, идентифицируемым координатами выборки видеоданных, либо ракурсами лица докладчика, идентифицируемыми азимутом и углом места в выборке видеоданных.

Согласно настоящему изобретению также предоставляется способ воспроизведения видеоданных с использованием индексированной временной шкалы, содержащий этапы, на которых: отображают выборку аудио/видеоданных, в которой имеются два или более докладчиков; выявляют основного докладчика из этих двух или более докладчиков; группируют упомянутых двух или более докладчиков по времени и по пространству; отображают временную шкалу докладчика, соответствующую каждому докладчику из упомянутых двух или более докладчиков, причем эта временная шкала докладчика показывает, в какие моменты времени во временном континууме докладчик, соответствующий данной временной шкале докладчика, выступает; ассоциируют изображение лица докладчика с каждой временной шкалой докладчика, причем изображение лица докладчика соответствует докладчику, ассоциированному с временной шкалой докладчика; и отображают изображение лица с соответствующей временной шкалой докладчика.

Предлагаемый способ может дополнительно содержать этап, на котором извлекают временную шкалу докладчика из базы данных временных шкал, которая идентифицирует каждого докладчика посредством идентификатора докладчика, местоположения докладчика и одного или более моментов времени, в которые докладчик выступает.

Предлагаемый способ может дополнительно содержать этап, на котором извлекают изображение лица докладчика из базы данных лиц, которая ассоциирует идентификатор каждого докладчика с по меньшей мере одним изображением лица докладчика, соответствующего этому идентификатору докладчика.

Согласно настоящему изобретению также предоставляется считываемый компьютером носитель, содержащий исполняемые компьютером инструкции, которыми при их исполнении реализуется способ обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащий: идентификацию каждого докладчика в выборке аудио/видеоданных (A/V выборке) посредством идентификатора докладчика; идентификацию местоположения каждого докладчика в A/V выборке; выявление основного докладчика; выполнение в отношении каждого идентифицированного докладчика группирования по времени и по пространству; извлечение по меньшей мере одного изображения лица для каждого докладчика, идентифицированного в A/V выборке; создание временной шкалы докладчика для каждого докладчика, идентифицированного в A/V выборке, причем каждая временная шкала докладчика показывает время, идентификатор докладчика и местоположение докладчика; и ассоциирование изображения лица для докладчика с временной шкалой докладчика, которая соответствует этому докладчику.

Помимо этого, согласно настоящему изобретению предоставляется считываемый компьютером носитель, содержащий: базу данных временных шкал докладчиков, которая содержит временную шкалу докладчика для каждого докладчика в A/V выборке, причем каждая временная шкала докладчика идентифицирует докладчика и его местоположение для множества моментов времени во временном континууме, при этом выявлен основной докладчик и в отношении каждого идентифицированного докладчика выполнено группирование по времени и по пространству; и базу данных лиц, которая содержит по меньшей мере одно изображение лица для каждого докладчика, идентифицированного во временной шкале докладчика, и идентификатор докладчика, который связывает каждое изображение лица с соответствующей временной шкалой докладчика в базе данных временных шкал докладчиков.

Наконец, согласно настоящему изобретению предоставляется система для обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащая: A/V выборку; средства для идентификации каждого докладчика, представленного в A/V выборке; средства для идентификации изображения лица для каждого докладчика, идентифицированного в A/V выборке; средства для выявления основного докладчика; средства для выполнения в отношении каждого идентифицированного докладчика группирования по времени и по пространству; средства для создания временной шкалы докладчика для каждого докладчика, идентифицированного в A/V выборке; и средства для ассоциирования изображения лица с соответствующей временной шкалой докладчика. При этом A/V выборка предпочтительно содержит записанную конференцию.

ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙ

Вышеупомянутые аспекты и множество сопутствующих преимуществ этого изобретения будут приведены более понятно далее с использованием ссылок на прилагаемые фигуры, в которых:

фиг.1 - блок-схема, изображающая иллюстративное вычислительное устройство общего назначения с камерой;

фиг.2 - блок-схема, изображающая иллюстративную панорамную камеру и клиентское устройство;

фиг.3 - представление иллюстративного экрана воспроизведения с панорамным изображением и временной шкалой с изображениями лиц;

фиг.4 - иллюстративный экран воспроизведения с панорамным изображением и временной шкалой с изображениями лиц;

фиг.5 - иллюстративная блок-схема последовательности операций методологической реализации для создания временной шкалы с изображениями лиц;

фиг.6 - иллюстративная блок-схема последовательности операций, изображающая методологическую реализацию для создания базы данных лиц.

ПОДРОБНОЕ ОПИСАНИЕ

Последующее описание относится к различным реализациям и вариантам осуществления изобретения для автоматического выявления лица каждого докладчика в окружении многих докладчиков и ассоциирования одного или более изображений лица докладчика с частью временной шкалы, которая соответствует этому докладчику. Эта разновидность специальной маркировки имеет преимущества перед общей маркировкой, в которой наблюдатель может более легко определить, какая часть временной шкалы соответствует одному конкретному докладчику из множества докладчиков.

В последующем обсуждении описывается вариант панорамной камеры, которая используется для записи конференции, имеющей более чем одного докладчика и/или участника. Несмотря на то что описываемая панорамная камера содержит множество камер, последующее описание также относится к однокамерным и многокамерным устройствам, имеющим две или более камер.

Панорамное изображение является входными данными средства слежения за лицами (FT), которое выявляет и следит за лицами в конференции. Данные с набора микрофонов являются входными данными средства определения местоположения источника звука (SSL), которое определяет местоположения докладчиков на основе звука. Выходные данные средства слежения за лицами и средства определения местоположения источника звука являются входными данными виртуального кинооператора для определения местоположений докладчиков.

В отношении докладчиков выполняется заключительная обработка модулем группирования докладчиков, который группирует докладчиков по времени и по пространству для лучшего определения совокупной временной шкалы, которая содержит две или более отдельных временных шкал. (Совокупная) временная шкала сохраняется в базе данных временных шкал. База данных лиц создается для хранения одного или более изображений для каждого докладчика, по меньшей мере, одно из лиц подлежит использованию во временной шкале, ассоциированной с докладчиком.

Представленные и заявленные здесь концепции описаны более подробно ниже с рассмотрением одной или более соответствующих рабочих сред. Некоторые из описанных далее элементов также описаны в родительской заявке на патент США №10/177315, озаглавленной «A System and Method for Distributed Meetings», поданной 21.06.2002 г. и включенной сюда посредством ссылки, приведенной выше.

ИЛЛЮСТРАТИВНАЯ РАБОЧАЯ СРЕДА

Блок-схема на фиг.1 представляет вычислительное устройство общего назначения с камерой. Среда 100 вычислительной системы является только одним примером из соответствующих вычислительных сред и не предназначена для обозначения какого-либо ограничения как в объеме использования, так и функционирования заявленных объектов изобретения. Также вычислительную среду 100 не следует интерпретировать как имеющую какую-либо зависимость или требование по отношению к любому одному компоненту или комбинации компонентов, изображенных в иллюстративной рабочей среде 100.

Описанные способы и объекты являются работоспособными с множеством других сред или конфигураций вычислительных систем общего или специального назначения. Примеры широкоизвестных вычислительных систем, сред и/или конфигураций, которые могут быть применены для использования, включают в себя, но не в ограничительном смысле, персональные компьютеры, серверные компьютеры, карманные или портативные устройства, многопроцессорные системы, основанные на микропроцессорах системы, телевизионные приставки, программируемую потребителем электронику, сетевые компьютеры, мини-компьютеры, мэйнфреймы, распределенные вычислительные среды, которые включают в себя любые из вышеназванных систем или устройств, и тому подобное.

Последующее описание может быть сформулировано в основном контексте машиноисполняемых инструкций, таких как программные модули, исполняемые компьютером. В целом, программный модуль содержит процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют определенные задачи и реализуют определенные абстрактные типы данных. Описанные реализации могут также быть реализованы на практике в распределенных вычислительных средах, где задачи выполняются удаленными обрабатывающими устройствами, которые связаны через коммуникационную сеть. В распределенной вычислительной среде программные модули могут быть расположены как на локальных, так и на удаленных компьютерных носителях данных, включая запоминающие устройства.

На фиг.1 представлена иллюстративная система для реализации изобретения, содержащая вычислительное устройство общего назначения в форме компьютера 110. Компоненты компьютера 110 могут включать в себя, но не в ограничительном смысле, блок 120 обработки данных, системную память 130 и системную шину 121, которая соединяет различные компоненты системы, включая системную память, с блоком 120 обработки данных. Системная шина 121 может относиться к любому типу из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, с использованием любой из разнообразия шинных архитектур. В качестве неограничивающего примера, такие архитектуры включают шину архитектуры промышленного стандарта (ISA), шину микроканальной архитектуры (MCA), шину расширенной архитектуры промышленного стандарта (EISA), шину стандарта VESA высокоскоростной локальной видеошины для ПК (VESA) и периферийную соединяющую компоненты (PCI) шину, также известную как шина расширения.

Компьютер 110 обычно содержит множество машиночитаемых носителей. Машиночитаемые носители могут быть любыми из имеющихся носителей, к которым компьютер 110 может осуществить доступ, и включают в себя как энергозависимые, так энергонезависимые носители, как съемные, так и несъемные носители. Например, без ограничения, машиночитаемые носители могут содержать компьютерные носители данных и коммуникационные среды. Компьютерные носители данных включают в себя энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули и другие данные. Компьютерные носители данных включают в себя, но не в ограничительном смысле, RAM, ROM, EEPROM, флэш-память и память другой технологии, CD-ROM, цифровой многофункциональный диск (DVD) или другие оптические дисковые накопители, магнитные кассеты, магнитные ленты, магнитные дисковые накопители или другие магнитные устройства хранения данных, или любые другие носители, которые могут быть использованы для хранения желаемой информации и к которым компьютер 110 может осуществить доступ. Коммуникационные среды обычно воплощают машиночитаемые инструкции, структуры данных, программные модули или другие данные в модулированный информационный сигнал, такой как несущая волна или другой механизм передачи, и включают любые другие среды доставки информации. Термин «модулированный информационный сигнал» означает сигнал, одна или более характеристик которого установлены или изменены таким образом, чтобы обеспечить кодирование информации в этом сигнале. Например, без ограничения, коммуникационные среды включают в себя проводные средства, такие как проводная сеть или прямое кабельное соединение, и беспроводные среды, такие как акустические, радиочастотные, инфракрасные и другие беспроводные среды. Комбинации любых из вышеназванных носителей и сред также охватываются понятием «машиночитаемый носитель».

Системная память 130 включает в себя компьютерные носители данных в форме энергозависимой и/или энергонезависимой памяти, например постоянное запоминающее устройство (ROM) 131 и оперативное запоминающее устройство (RAM) 132. Базовая система ввода/вывода 133 (BIOS) содержит базовые процедуры, которые обеспечивают передачу информации между элементами в компьютере 110, как, например, во время запуска, обычно хранится в ROM 131. RAM 132 обычно содержит данные и/или программные модули, которые непосредственно доступны блоку 120 обработки данных и/или исполняются блоком 120 обработки данных в текущий момент. Например, и без ограничения, на фиг.1 представлена операционная система 134, программы приложений 135, другие программные модули 136 и данные 137 программ.

Компьютер 110 может также включать в себя другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители данных. Только как пример, на фиг.1 представлен накопитель 141 на жестких дисках, который считывает или записывает информацию в отношении несъемных энергозависимых магнитных носителей, магнитный дисковод 151, который считывает или записывает информацию в отношении съемного, энергонезависимого магнитного диска 152, и оптический дисковод 155, который считывает или записывает информацию в отношении съемного, энергонезависимого оптического диска 156, такого как CD-ROM или другой оптический носитель. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители данных могут быть использованы в иллюстративной рабочей среде, включая, но не в ограничительном смысле, кассеты магнитных лент, флэш-карты памяти, цифровые многофункциональные диски, цифровые видеоленты, полупроводниковые устройства RAM и т.п. Накопитель 141 на жестких дисках обычно подсоединен к системной шине 121 через интерфейс несъемной памяти, такой как интерфейс 140, а магнитный дисковод 151 и оптический дисковод 155 обычно подсоединены к системной шине 121 интерфейсом съемной памяти, таким как интерфейс 150.

Накопители и дисководы и связанные с ними компьютерные носители данных, рассмотренные выше и представленные на фиг.1, обеспечивают хранение машиночитаемых инструкций, структур данных, программных модулей и других данных для компьютера 110. На фиг.1, как пример, представлен накопитель 141 на жестких дисках в качестве хранилища операционной системы 144, программ приложений 145, других программных модулей 146 и данных 147 программ. Следует заметить, что эти компоненты могут быть такими же или отличаться от операционной системы 134, программ приложений 135, других программных модулей 136 и данных 137 программ. Операционная система 144, программы приложений 145, другие программные модули 146 и данные 147 программ обозначены здесь другими ссылочными номерами и числами для иллюстрации того, что, как минимум, они могут быть другими копиями. Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода, такие как клавиатура 162 и координатно-указательное устройство 161, в общем упоминаемое как мышь, трекбол или сенсорная панель. Другие устройства ввода (не представлены) могут включать в себя микрофон, джойстик, игровой планшет, спутниковую тарелку, сканер и тому подобное. Эти и другие устройства ввода часто подсоединяются к блоку 120 обработки данных через интерфейс 160 пользовательского ввода, который соединен с системной шиной 121, но могут быть подсоединены через другие интерфейсные и шинные структуры, такие как параллельный порт, игровой порт или универсальная последовательная шина (USB). Монитор 191 или другой тип отображающего устройства также подсоединен к системной шине 121 через интерфейс, такой как видеоинтерфейс 190. Помимо монитора компьютер также может содержать другие периферийные выходные устройства, такие как динамики 197 и принтер 196, которые могут быть подсоединены через выходной периферийный интерфейс 195. С определенной значимостью для настоящего изобретения, в качестве устройства ввода в персональный компьютер 110 может также входить камера 163 (такая как цифровая/электронная фото- или видеокамера либо сканер для пленок/фотографий), выполненная с возможностью захвата последовательности изображений 164. Дополнительно, хотя изображена только одна камера, в качестве устройств ввода для персонального компьютера 110 могут быть включены и много камер. Изображения 164 от одной или более камер передаются в компьютер 110 через соответствующий интерфейс камеры 165. Этот интерфейс 165 подсоединен к системной шине 121, таким образом обеспечивая возможность направления и сохранения изображения в RАМ 132 или в одном из других устройств хранения данных, связанных с компьютером 110. Однако следует отметить, что данные изображения также могут поступать в компьютер 110 из любых из вышеназванных компьютерных носителей данных, без обязательного требования использования камеры 163.

Компьютер 110 может функционировать в сетевой среде, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, сервером, маршрутизатором, сетевым компьютером, одноранговым устройством или другим общим узлом сети и обычно включает в себя большинство или все из элементов, описанных выше относительно компьютера 110, несмотря на то, что на фиг.1 представлено только запоминающее устройство 181. Изображенные на фиг.1 логические соединения включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но могут также включать в себя и другие сети. Такие сетевые среды типичны для офисов, компьютерных сетей масштаба предприятий, внутренних корпоративных сетей и Интернет.

При использовании в сетевой среде LAN компьютер 110 подсоединяется к LAN 171 через сетевой интерфейс или адаптер 170. При использовании в сетевой среде WAN компьютер 110 обычно содержит модем 172 или другие устройства для установления связи через WAN 173, такую как Интернет. Модем 172, который может быть внутренним или внешним, может быть соединен с системной шиной 121 через интерфейс 160 пользовательского ввода или другой подходящий механизм. В сетевой среде программные модули, представленные относительно компьютера 110, или их части могут быть сохранены на удаленном запоминающем устройстве. Например, и без ограничения, на фиг.1 представлены программы приложений 185 как находящиеся на запоминающем устройстве 181. Следует принять во внимание, что сетевые соединения представлены как иллюстративные, и также могут быть использованы и другие средства установления линии связи между компьютерами.

ИЛЛЮСТРАТИВНАЯ ПАНОРАМНАЯ КАМЕРА И КЛИЕНТСКОЕ УСТРОЙСТВО

На фиг.2 представлена блок-схема иллюстративного устройства 200 панорамной камеры и иллюстративное клиентское устройство 222. Несмотря на то что оно представлено в конкретной конфигурации, следует заметить, что устройство 200 панорамной камеры может быть любым устройством, которое содержит панорамную камеру или ее функциональный эквивалент. В практическое приложение, включающее в себя один или более способов, описанных здесь, может быть включено больше или меньше компонентов по сравнению с теми, что изображены здесь как входящие в состав устройства 200 панорамной камеры.

Устройство 200 панорамной камеры содержит процессор 202 и память 204. Устройство 200 панорамной камеры создает панорамное изображение посредством совмещения нескольких отдельных изображений, полученных множеством камер 206 (обозначенные 206_1-206_n). Панорамное изображение может быть полным на 360° панорамным изображением или может быть только частью его. Это означает, что, несмотря на то, что устройство 200 панорамной камеры представлено и описано здесь, описанные способы могут также быть использованы и с одной камерой.

Устройство 200 панорамной камеры также включает в себя набор 208 микрофонов. Как будет описано более подробно далее, набор микрофонов сконфигурирован так, чтобы можно было бы определить направление звука. Другими словами, анализ звука, поступающего на набор микрофонов, дает в результате направление, из которого исходит обнаруженный звук. Динамик 210 может также быть включен в состав устройства 200 панорамной камеры для обеспечения пользователю возможности громкой связи или для издавания предупредительных сигналов и тому подобного для пользователей.

В памяти 204 хранятся некоторые настройки 212 камеры, такие как данные калибровки, установки экспозиции, таблицы совмещения и т.д. Операционная система 214, которая управляет функционированием камеры, также хранится в памяти 204 вместе с одним или более другими программными приложениями 216 камеры.

Устройство 200 панорамной камеры также включает в себя модуль 218 ввода/вывода (I/O) для передачи и приема данных устройством 200 панорамной камеры и разнообразные другие элементы оборудования 220, которые могут потребоваться для функционирования камеры.

Устройство 200 панорамной камеры осуществляет связь, по меньшей мере, с одним клиентским устройством 222, которое содержит процессор 224, память 226 и запоминающее устройство 242 большой емкости (такое как накопитель на жестких дисках) и другое оборудование 230, которое может потребоваться для исполнения функциональных возможностей, ассоциированных с клиентским устройством 222 ниже.

В памяти 226 хранится модуль 230 слежения за лицами (FT) и модуль 232 определения местоположения источника звука (SSL). Модуль 230 слежения за лицами и модуль 232 определения местоположения источника звука используются совместно с виртуальным кинооператором 234 для выявления человека в сцене камеры, если этот человек в это время говорит. Для определения местоположения источника звука может быть использован любой из нескольких традиционных способов. Различные способы слежения за лицами (или системы выявления человека и слежения за человеком), включая способ, описанный в заявке, являющейся родительской по отношению к данной заявке, могут быть использованы, как описано здесь.

В памяти 226 также хранится модуль 236 группирования докладчиков, который сконфигурирован для определения основного докладчика, когда два или более человека говорят, и фокусирует конкретную часть временной шкалы на основном докладчике. В большинстве ситуаций на конференциях случается так, что в одно и то же время говорят больше, чем один человек. Обычно, основной докладчик говорит, когда другой человек прерывает этого докладчика на короткое время или говорит вместе с этим докладчиком. Модуль 236 группирования докладчиков сконфигурирован для группирования докладчиков по времени и пространству для прояснения временной шкалы.

Временная шкала 238 создается виртуальным кинооператором 234. Временная шкала 238 сохраняется в базе 244 данных временных шкал на запоминающем устройстве 242 большой емкости. База 244 данных временных шкал, содержащая множество полей, включая, но не в ограничительном смысле, время, номер докладчика и ограничивающий докладчика прямоугольник в пределах изображения с камеры (х, у, ширина, высота). База 238 данных временных шкал может также включать в себя один или более ракурсов лица докладчика (азимут и угол места).

Модуль 240 извлечения лица также хранится в памяти 226, и он сконфигурирован для извлечения изображения лица докладчика из ограничивающего лицо прямоугольника (идентифицированного модулем 230 слежения за лицами) в изображении с камеры. Модуль 240 извлечения лиц сохраняет извлеченные изображения лиц в базе 246 данных лиц на запоминающем устройстве 242 большой емкости.

По меньшей мере в одном варианте осуществления для одного или более докладчиков может быть сохранено множество изображений лица. Параметры могут быть заданы для определения того, какое изображение лица используется в конкретные моменты времени. Или пользователь может вручную выбрать конкретное изображение лица из множества изображений лиц.

По меньшей мере в одном альтернативном варианте осуществления для каждого докладчика может быть сохранено только одно изображение лица. Сохраненное изображение лица может быть одним изображением, извлеченным модулем 240 извлечения лиц, но модуль 240 извлечения лиц может также быть сконфигурирован для выбора наилучшего изображения докладчика.

Выбор наилучшего изображения докладчика может быть выполнен посредством идентификации фронтальных ракурсов лица (в предположении, что изображение с фронтальным изображением лица является наилучшим представлением по сравнению с альтернативным изображением), посредством идентификации изображения лица, которому соответствует минимум движения, или посредством идентификации изображения лица, которое имеет максимальную симметрию лица.

Записанная конференция 248 тоже хранится на запоминающем устройстве 242 большой емкости так, что она может быть вызвана и воспроизведена в последующее время.

Элементы и набор функциональных возможностей, представленные и описанные в соответствии с фиг.2, будут описаны более полно ниже в отношении последующих фигур.

ИЛЛЮСТРАТИВНЫЙ ЭКРАН ВОСПРОИЗВЕДЕНИЯ

На фиг.3 представлен чертеж экрана 300 воспроизведения, который содержит панорамное изображение 302 и временную шкалу 304 с изображениями лиц. Панорамное изображение 302 представлено с первым участником 303 конференции и вторым участником 305 конференции. Экран 300 воспроизведения также представлен имеющим панель 306 заголовка и изображение 308 человека. Изображение 308 человека является необязательным признаком, обозначающим фокусировку на конкретного человека, обычно основного докладчика. На фиг.3 изображение 308 человека является изображением лица первого участника 303 конференции.

Иллюстративный экран 300 воспроизведения также содержит раздел 310 элементов управления, который содержит элементы управления, обычно имеющиеся в медиаплеере (средстве воспроизведения мультимедийных данных), такие как клавиша воспроизведения, клавиша перемотки вперед, клавиша перемотки назад и т.д. Информационная область 312, содержащаяся в иллюстративном экране 300 воспроизведения, может отображать информацию касаемо содержательной сущности экрана 300 воспроизведения. Например, название конференции, номер комнаты конференции, список докладчиков конференции и тому подобное могут быть отображены в информационной области 312.

Временная шкала 304 с изображениями лиц включает в себя первую временную подшкалу 314, которая соответствует первому участнику 303 конференции, и вторую временную подшкалу 316, которая соответствует второму участнику 305 конференции. Каждая из временных подшкал 314, 316 указывает отрезки во временном континууме, где выступает соответствующий докладчик конференции. Пользователь может непосредственно иметь доступ к любой точке временных подшкал 314, 316 для мгновенного доступа к части конференции, где выступает конкретный участник.

Первое изображение 318 лица первого участника 303 конференции появляется рядом с первой временной подшкалой 314 для обозначения того, что первая временная подшкала ассоциирована с первым участником 303 конференции. Изображение 320 лица второго участника 305 конференции появляется рядом со второй временной подшкалой 316 для обозначения того, что вторая временная подшкала ассоциирована со вторым участником 305 конференции.

На фиг.4 представлен иллюстративный экран 400 воспроизведения, который содержит элементы, аналогичные элементам иллюстративного экрана 300 воспроизведения, представленного и описанного на фиг.3. Элементы и ссылочные номера, приведенные и описанные в соответствии с фиг.3, будут использованы со ссылкой на иллюстративный экран 400 воспроизведения по фиг.4.

Иллюстративный экран 400 воспроизведения содержит панорамное изображение 302 и временную шкалу 304 с изображениями лиц. Панорамное изображение 302 представляет первого участника 303 конференции и второго участника 305 конференции. Панель 306 заголовка расположена сверху экрана 400 воспроизведения, и изображение 308 человека представляет второго участника 305 конференции.

Иллюстративный экран 400 воспроизведения также содержит изображение 402 докладчика на фоне белой доски, которое изображает участника конференции (в данном случае, второго участника 305 конференции), который располагается перед белой доской. Изображение 402 докладчика на фоне белой доски не включено в экран 300 воспроизведения по фиг.3 и используется здесь для демонстрации того, как другие изображения могут быть включены в любой конкретный экран 300, 400 воспроизведения.

Раздел 310 элементов управления содержит элементы управления воспроизведением и информационную область 312, отображающую информацию о конференции, представляемой на экране 400 воспроизведения.

Временная шкала 304 с изображениями лиц содержит первую временную подшкалу 314, вторую временную подшкалу 316 и третью временную подшкалу 402. Это означает, что, поскольку только две временные подшкалы изображены на фиг.3, временная шкала может содержать любое поддающееся управлению число временных подшкал. На фиг.4, например, изображено три временные подшкалы.

Следует отметить, что хотя имеется только два участника конференции в этом примере, имеется три временные подшкалы. Это имеет место потому, что один докладчик может быть ассоциирован больше, чем с одной временной подшкалой. В настоящем примере вторая временная подшкала 316 ассоциирована со вторым участником 305 конференции в то время, когда второй участник 305 конференции находится на фоне белой доски, а третья временная подшкала 402 ассоциирована со вторым участником 305 конференции в то время, когда второй участник 305 конференции находится в месте, отличающемся от белой доски.

Такая ситуация может произойти, когда участник конференции занимает более чем одно место во время конференции. Виртуальный кинооператор 234 в рассматриваемом случае выявил докладчиков в трех местоположениях. Не является необходимым, чтобы он был осведомлен о том, что только два участника находятся в этих местоположениях. Эти особенности помогают пользователю в случае, когда пользователь интересуется главным образом докладчиком, когда докладчик находится в некотором местоположении. Например, пользователь может желать воспроизвести часть записанной конференции, когда докладчик находится у белой доски.

Иллюстративный экран 400 воспроизведения также содержит первое изображение 318 лица первого участника 303 конференции и второе изображение 320 лица второго участника 305 конференции. Дополнительно, третье изображение 404 лица включается и ассоциируется с третьей временной подшкалой 402. Третье изображение 404 лица соответствует второму местоположению второго участника 305 конференции.

Методики, использованные при представлении иллюстративных экранов 300, 400 воспроизведения, будут описаны более подробно далее со ссылками на соответствующие фигуры.

ИЛЛЮСТРАТИВНАЯ МЕТОДОЛОГИЧЕСКАЯ РЕАЛИЗАЦИЯ: СОЗДАНИЕ ВРЕМЕННОЙ ШКАЛЫ С ИЗОБРАЖЕНИЯМИ ЛИЦ

На фиг.5 представлена иллюстративная блок-схема 500 последовательности операций методологической реализации для создания временной шкалы с изображениями лиц. В последующем обсуждении иллюстративная блок-схема 500 последовательности операций содержит ссылки на элементы и ссылочные номера, представленные на предыдущих фигурах.

На этапе 502 устройство 200 панорамной камеры делает выборку одного или более видеоизображений для создания панорамного изображения. Панорамное изображение является входными данными модуля 230 слежения за лицами (этап 504), который выявляет и следит за лицами в изображении. Приблизительно одновременно на этапе 506 набор 208 микрофонов делает выборку звука, соответствующего панорамному изображению, и вводит звук в модуль 232 определения местоположения источника звука, который определяет местоположения докладчиков на основе выборок звука на этапе 508.

Виртуальный кинооператор 234 обрабатывает данные от модуля 232 слежения за лицами и средства 232 определения местоположения источника звука для создания временной шкалы 238 на этапе 510. На этапе 512 модуль 236 группирования докладчиков группирует выступающих участников по времени и по пространству для объединения и прояснения частей временной шкалы 238, как описано ранее.

Временная шкала сохраняется в базе 244 данных временных шкал со следующими полями: время, номер докладчика, ограничивающий лицо докладчика прямоугольник в изображении (х, у, ширина, высота), ракурсы лица докладчика (азимут, угол места) и т.д.

Использование панорамного изображения и идентифицирующие лицо координаты (т.е. ограничивающие лицо прямоугольники) определяются модулем 230 слежения за лицами, модуль 240 извлечения лиц извлекает изображения лиц докладчиков на этапе 514. Извлеченные изображения лиц сохраняются в базе 246 данных лиц и ассоциируются с номером докладчика.

Как отмечено ранее, модуль 240 извлечения лиц может быть сконфигурирован для извлечения больше чем одного изображения для каждого докладчика и использования того лица, изображение которого определено модулем 240 извлечения лиц как наилучшее изображение во временной шкале 238.

Иллюстративное методологическое осуществление выбора «наилучшего» изображения лица и создание базы 246 данных лиц представлено и описано ниже в соответствии с фиг.6.

ИЛЛЮСТРАТИВНОЕ МЕТОДОЛОГИЧЕСКОЕ ОСУЩЕСТВЛЕНИЕ: СОЗДАНИЕ БАЗЫ ДАННЫХ ЛИЦ

На фиг.6 представлена блок-схема 600 последовательности операций, изображающая методологическое осуществление для создания базы данных лиц. В последующем обсуждении фиг.6 содержатся ссылки на элементы и ссылочные номера, представленные на предыдущих фигурах.

На этапе 602 модуль 240 извлечения лиц извлекает изображение лица из панорамного изображения, как описано выше. Если изображение лица докладчика не хранится в базе 246 данных лиц (ветвь «нет», этап 604), то изображение лица сохраняется в базе 246 данных лиц на этапе 610. Следует заметить, что определение того, хранится ли изображение лица, необязательно зависит от того, имеется ли для человека, появившегося на изображении лица, уже сохраненное схожее изображение, но от того, имеется ли для идентифицированного докладчика уже сохраненное изображение, которое соответствует этому докладчику. Так, если докладчик, находящийся в первом местоположении, имеет хранящееся изображение лица, а затем этот докладчик выявлен во втором местоположении, то изображение лица этого докладчика во втором местоположении не будет сравниваться с хранящимся изображением лица докладчика в первом местоположении для определения того, имеет ли этот докладчик хранящееся изображение лица.

Если изображение лица для докладчика уже хранится в базе 246 данных лиц, здесь и далее называемое «хранящееся изображение лица» (ветвь «Да», этап 604), то изображение лица сравнивается с хранящимся изображением лица на этапе 606. Если модуль 240 извлечения лиц определяет, что изображение лица лучше или более приемлемо, чем хранящееся изображение лица (ветвь «Да», этап 608), то изображение лица сохраняется в базе 246 данных лиц, таким образом заменяя ранее сохраненное изображение лица.

Если изображение лица не лучше, чем хранящееся изображение лица (ветвь «Нет», этап 608), то изображение лица отбрасывают и остается хранящееся изображение лица.

Критерии для определения того, какое из изображений лица лучше, могут быть многочисленными и разнообразными. Например, модуль 234 извлечения лиц может быть сконфигурирован для определения того, что «лучшее» изображение лица - это изображение, на котором докладчик заснят в положении, в котором лицо докладчика находится в наиболее фронтальном положении. Или, если первое изображение лица содержит признаки движения, а второе изображение лица нет, то модуль 234 извлечения лиц может определить, что второе изображение лица есть наилучшее изображение лица. Или модуль 234 извлечения лиц может быть сконфигурирован для определения того, какое из множества изображений докладчика обладает максимальной симметрией, и использования этого изображения во временной шкале. Для определения наиболее подходящего изображения лица для использования во временной шкале могут быть использованы и другие критерии, не перечисленные здесь.

Если имеется другой докладчик (ветвь «Да», этап 612), то процесс возвращается к этапу 602 и повторяется для каждого уникального докладчика. Опять же, термин «уникальный докладчик», как он используется в данном контексте, не обязательно означает уникального человека, поскольку человек, который появляется в разных местоположениях при выступлении, может быть интерпретирован как разные докладчики. Процесс завершается, когда нет больше уникальных докладчиков для идентификации (ветвь «Нет», этап 612).

ЗАКЛЮЧЕНИЕ

Хотя были представлены и описаны один или более иллюстративных вариантов осуществления, будет очевидно, в них могут быть внесены различные изменения без отхода от сущности и объема изобретения, определяемого прилагаемой формулой изобретения.

Claims

1. Способ обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащий этапы, на которых
выявляют два или более изображений лиц в выборке видеоданных;
выявляют двух или более докладчиков в выборке аудиоданных, которая соответствует выборке видеоданных;
выявляют основного докладчика из этих двух или более докладчиков;
группируют упомянутых двух или более докладчиков по времени и по пространству;
сохраняют временную шкалу докладчика для каждого выявленного докладчика, которая идентифицирует этого докладчика посредством идентификатора докладчика и местоположения докладчика в различные моменты времени вдоль данной временной шкалы докладчика;
сохраняют по меньшей мере одно изображение лица для каждого выявленного докладчика в базе данных лиц и ассоциируют временную шкалу докладчика и изображение лица с каждым выявленным докладчиком.

2. Способ по п.1, в котором при выявлении двух или более изображений лиц дополнительно используют слежение за лицами для выявления двух или более изображений лиц.

3. Способ по п.1, в котором при выявлении двух или более докладчиков дополнительно используют определение местоположения источника звука для выявления двух или более докладчиков.

4. Способ по п.1, дополнительно содержащий этапы, на которых идентифицируют более чем одно изображение лица для каждого докладчика и
выбирают наилучшее изображение лица для сохранения в базе данных лиц.

5. Способ по п.4, в котором при выборе дополнительно выбирают изображение лица, которое содержит наиболее фронтальный вид лица, в качестве наилучшего изображения лица.

6. Способ по п.4, в котором при выборе дополнительно выбирают изображение лица, которому соответствует минимум движения, в качестве наилучшего изображения лица.

7. Способ по п.4, в котором при выборе дополнительно выбирают изображение лица, которое проявляет максимум симметрии, в качестве наилучшего изображения лица.

8. Способ по п.1, в котором местоположение докладчика обозначается ограничивающим докладчика прямоугольником, идентифицируемым координатами выборки видеоданных.

9. Способ по п.1, в котором местоположение докладчика обозначается ракурсами лица докладчика, идентифицируемыми азимутом и углом места в выборке видеоданных.

10. Способ воспроизведения видеоданных с использованием индексированной временной шкалы, содержащий этапы, на которых
отображают выборку аудио/видеоданных, в которой имеются два или более докладчиков;
выявляют основного докладчика из этих двух или более докладчиков;
группируют упомянутых двух или более докладчиков по времени и по пространству;
отображают временную шкалу докладчика, соответствующую каждому докладчику из упомянутых двух или более докладчиков, причем эта временная шкала докладчика показывает, в какие моменты времени во временном континууме докладчик, соответствующий данной временной шкале докладчика, выступает;
ассоциируют изображение лица докладчика с каждой временной шкалой докладчика, причем изображение лица докладчика соответствует докладчику, ассоциированному с временной шкалой докладчика; и
отображают изображение лица с соответствующей временной шкалой докладчика.

11. Способ по п.10, дополнительно содержащий этап, на котором извлекают временную шкалу докладчика из базы данных временных шкал, которая идентифицирует каждого докладчика посредством идентификатора докладчика, местоположения докладчика и одного или более моментов времени, в которые докладчик выступает.

12. Способ по п.10, дополнительно содержащий этап, на котором извлекают изображение лица докладчика из базы данных лиц, которая ассоциирует идентификатор каждого докладчика с по меньшей мере одним изображением лица докладчика, соответствующего этому идентификатору докладчика.

13. Считываемый компьютером носитель, содержащий исполняемые компьютером инструкции, которыми при их исполнении реализуется способ обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащий
идентификацию каждого докладчика в выборке аудио/видеоданных (A/V выборке) посредством идентификатора докладчика;
идентификацию местоположения каждого докладчика в A/V выборке;
выявление основного докладчика;
выполнение в отношении каждого идентифицированного докладчика группирования по времени и по пространству;
извлечение по меньшей мере одного изображения лица для каждого докладчика, идентифицированного в A/V выборке;
создание временной шкалы докладчика для каждого докладчика, идентифицированного в A/V выборке, причем каждая временная шкала докладчика показывает время, идентификатор докладчика и местоположение докладчика; и
ассоциирование изображения лица для докладчика с временной шкалой докладчика, которая соответствует этому докладчику.

14. Считываемый компьютером носитель по п.13, дополнительно содержащий идентификацию каждого докладчика, используя определение местоположения источника звука.

15. Считываемый компьютером носитель по п.13, дополнительно содержащий идентификацию местоположения каждого докладчика, используя слежение за лицами.

16. Считываемый компьютером носитель по п.13, в котором местоположение докладчика идентифицируется ограничивающим докладчика прямоугольником в A/V выборке.

17. Считываемый компьютером носитель по п.13, дополнительно содержащий сохранение временных шкал докладчиков и изображений лиц и связывание каждой временной шкалы докладчика с соответствующим изображением лица.

18. Считываемый компьютером носитель по п.13, дополнительно содержащий извлечение больше, чем одного изображения лица для каждого докладчика.

19. Считываемый компьютером носитель по п.18, дополнительно содержащий выбор наилучшего изображения лица для ассоциирования с временной шкалой докладчика.

20. Считываемый компьютером носитель по п.19, в котором при выборе наилучшего изображения лица дополнительно выбирается изображение лица, которое имеет максимально фронтальное изображение лица.

21. Считываемый компьютером носитель по п.19, в котором при выборе наилучшего изображения лица дополнительно выбирается изображение лица, которому соответствует минимум движения.

22. Считываемый компьютером носитель по п.19, в котором при выборе наилучшего изображения лица дополнительно выбирается изображение лица, которое проявляет максимальную симметрию лица.

23. Считываемый компьютером носитель, содержащий
базу данных временных шкал докладчиков, которая содержит временную шкалу докладчика для каждого докладчика в выборке аудио/видеоданных (A/V выборке), причем каждая временная шкала докладчика идентифицирует докладчика и его местоположение для множества моментов времени во временном континууме, при этом выявлен основной докладчик и в отношении каждого идентифицированного докладчика выполнено группирование по времени и по пространству; и
базу данных лиц, которая содержит по меньшей мере одно изображение лица для каждого докладчика, идентифицированного во временной шкале докладчика, и идентификатор докладчика, который связывает каждое изображение лица с соответствующей временной шкалой докладчика в базе данных временных шкал докладчиков.

24. Считываемый компьютером носитель по п.23, в котором каждая временная шкала докладчика в базе данных временных шкал докладчиков содержит соответствующий идентификатор докладчика для связывания базы данных временных шкал докладчиков с базой данных лиц.

25. Система для обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащая
выборку аудио/видеоданных (A/V выборку);
средства для идентификации каждого докладчика, представленного в A/V выборке;
средства для идентификации изображения лица для каждого докладчика, идентифицированного в A/V выборке;
средства для выявления основного докладчика;
средства для выполнения в отношении каждого идентифицированного докладчика группирования по времени и по пространству;
средства для создания временной шкалы докладчика для каждого докладчика, идентифицированного в A/V выборке; и средства для ассоциирования изображения лица с соответствующей временной шкалой докладчика.

26. Система по п.25, в которой средства для идентификации каждого докладчика дополнительно содержат средство определения местоположения источника звука.

27. Система по п.25, в которой средства для идентификации изображения лица дополнительно содержат средство слежения за лицами.

28. Система по п.25, в которой временная шкала докладчика идентифицирует докладчика, ассоциированного с этой временной шкалой докладчика, посредством идентификатора докладчика и местоположения докладчика для каждого из множества моментов времени во временном континууме.

29. Система по п.28, в которой ассоциирование изображения лица с соответствующей временной шкалой докладчика дополнительно содержит ассоциирование каждого изображения лица с идентификатором докладчика.

30. Система по п.25, дополнительно содержащая сохранение временных шкал докладчиков и изображений лиц.

31. Система по п.30, в которой временные шкалы докладчиков и изображения лиц хранятся отдельно.

32. Система по п.25, в которой А/У выборка дополнительно содержит записанную конференцию.