RU2398277C2 - Автоматическое извлечение лиц для использования во временной шкале записанных конференций - Google Patents

Автоматическое извлечение лиц для использования во временной шкале записанных конференций Download PDF

Info

Publication number
RU2398277C2
RU2398277C2 RU2005133403/09A RU2005133403A RU2398277C2 RU 2398277 C2 RU2398277 C2 RU 2398277C2 RU 2005133403/09 A RU2005133403/09 A RU 2005133403/09A RU 2005133403 A RU2005133403 A RU 2005133403A RU 2398277 C2 RU2398277 C2 RU 2398277C2
Authority
RU
Russia
Prior art keywords
speaker
timeline
face image
face
sample
Prior art date
Application number
RU2005133403/09A
Other languages
English (en)
Other versions
RU2005133403A (ru
Inventor
Росс Г. КАТЛЕР (US)
Росс Г. КАТЛЕР
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн
Publication of RU2005133403A publication Critical patent/RU2005133403A/ru
Application granted granted Critical
Publication of RU2398277C2 publication Critical patent/RU2398277C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3876Recombination of partial images to recreate the original image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/6027Correction or control of colour gradation or colour contrast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/002Diagnosis, testing or measuring for television systems or their details for television cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N23/84Camera processing pipelines; Components thereof for processing colour signals
    • H04N23/88Camera processing pipelines; Components thereof for processing colour signals for colour balance, e.g. white-balance circuits or colour temperature control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • H04N9/73Colour balance circuits, e.g. white balance circuits or colour temperature control

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Изобретение относится к средствам обеспечения индексированной временной шкалы для воспроизведения видеоданных. Техническим результатом является обеспечение согласования временной шкалы участия докладчика видеоконференции с параметрами докладчика. Лица докладчиков конференции или переговоров автоматически выявляются, и изображения лиц, соответствующие каждому докладчику, сохраняются в базе данных лиц. Временная шкала создается для графической идентификации докладчиков в течение воспроизведения записанной конференции. Вместо обобщенной идентификации каждого докладчика во временной шкале для идентификации каждого докладчика, ассоциированного с временной шкалой, предоставляется, например, изображение лица. 5 н. и 27 з.п. ф-лы, 6 ил.

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Последующее описание относится в целом к обработке видеоизображений. В частности, последующее описание относится к обеспечению индексированной временной шкалы (графического представления промежутка времени и хронологической связи событий) для воспроизведения видеоданных.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ
Воспроизведение записанных видеоданных, сценарий которых включает более одного докладчика, как, например, воспроизведение записанных конференций, обычно отображается одновременно с индексированной временной шкалой. Используя временную шкалу, пользователь может быстро переместиться к конкретному моменту времени в конференции посредством управления одним или несколькими элементами управления временной шкалой. Когда видеоданные содержат больше чем одного докладчика, может быть использовано множество временных шкал, где с конкретным докладчиком ассоциирована одна временная шкала. Каждая временная шкала показывает, когда выступает соответствующий докладчик конференции. Таким образом, пользователь может перемещаться к частям конференции, в которых выступает конкретный докладчик.
Для идентификации каждого докладчика такие многочисленные временные шкалы могут быть единым образом обозначены как, например, «Докладчик 1», «Докладчик 2» и т.д. Существующие способы для автоматического обозначения временных шкал с помощью конкретных имен докладчиков неточны и также могут требовать базу данных о пользователях и ассоциированные с ними образцы речи и изображений лиц, которые могут повлечь за собой проблемы безопасности и конфиденциальности.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Согласно настоящему изобретению предоставляется способ обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащий этапы, на которых: выявляют два или более изображений лиц в выборке видеоданных; выявляют двух или более докладчиков в выборке аудиоданных, которая соответствует выборке видеоданных; выявляют основного докладчика из этих двух или более докладчиков; группируют упомянутых двух или более докладчиков по времени и по пространству; сохраняют временную шкалу докладчика для каждого выявленного докладчика, которая идентифицирует этого докладчика посредством идентификатора докладчика и местоположения докладчика в различные моменты времени вдоль данной временной шкалы докладчика; сохраняют по меньшей мере одно изображение лица для каждого выявленного докладчика в базе данных лиц и ассоциируют временную шкалу докладчика и изображение лица с каждым выявленным докладчиком.
При выявлении двух или более изображений лиц может быть использовано слежение за лицами для выявления двух или более изображений лиц, а при выявлении двух или более докладчиков может быть использовано определение местоположения источника звука.
Предлагаемый способ может дополнительно содержать этапы, на которых идентифицируют более чем одно изображение лица для каждого докладчика и выбирают наилучшее изображение лица для сохранения в базе данных лиц. При этом при данном выборе в качестве наилучшего изображения лица может быть выбрано изображение лица, которое содержит наиболее фронтальный вид лица, или изображение лица, которому соответствует минимум движения, или изображение лица, которое проявляет максимум симметрии.
Согласно предлагаемому способу местоположение докладчика может обозначаться ограничивающим докладчика прямоугольником, идентифицируемым координатами выборки видеоданных, либо ракурсами лица докладчика, идентифицируемыми азимутом и углом места в выборке видеоданных.
Согласно настоящему изобретению также предоставляется способ воспроизведения видеоданных с использованием индексированной временной шкалы, содержащий этапы, на которых: отображают выборку аудио/видеоданных, в которой имеются два или более докладчиков; выявляют основного докладчика из этих двух или более докладчиков; группируют упомянутых двух или более докладчиков по времени и по пространству; отображают временную шкалу докладчика, соответствующую каждому докладчику из упомянутых двух или более докладчиков, причем эта временная шкала докладчика показывает, в какие моменты времени во временном континууме докладчик, соответствующий данной временной шкале докладчика, выступает; ассоциируют изображение лица докладчика с каждой временной шкалой докладчика, причем изображение лица докладчика соответствует докладчику, ассоциированному с временной шкалой докладчика; и отображают изображение лица с соответствующей временной шкалой докладчика.
Предлагаемый способ может дополнительно содержать этап, на котором извлекают временную шкалу докладчика из базы данных временных шкал, которая идентифицирует каждого докладчика посредством идентификатора докладчика, местоположения докладчика и одного или более моментов времени, в которые докладчик выступает.
Предлагаемый способ может дополнительно содержать этап, на котором извлекают изображение лица докладчика из базы данных лиц, которая ассоциирует идентификатор каждого докладчика с по меньшей мере одним изображением лица докладчика, соответствующего этому идентификатору докладчика.
Согласно настоящему изобретению также предоставляется считываемый компьютером носитель, содержащий исполняемые компьютером инструкции, которыми при их исполнении реализуется способ обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащий: идентификацию каждого докладчика в выборке аудио/видеоданных (A/V выборке) посредством идентификатора докладчика; идентификацию местоположения каждого докладчика в A/V выборке; выявление основного докладчика; выполнение в отношении каждого идентифицированного докладчика группирования по времени и по пространству; извлечение по меньшей мере одного изображения лица для каждого докладчика, идентифицированного в A/V выборке; создание временной шкалы докладчика для каждого докладчика, идентифицированного в A/V выборке, причем каждая временная шкала докладчика показывает время, идентификатор докладчика и местоположение докладчика; и ассоциирование изображения лица для докладчика с временной шкалой докладчика, которая соответствует этому докладчику.
Помимо этого, согласно настоящему изобретению предоставляется считываемый компьютером носитель, содержащий: базу данных временных шкал докладчиков, которая содержит временную шкалу докладчика для каждого докладчика в A/V выборке, причем каждая временная шкала докладчика идентифицирует докладчика и его местоположение для множества моментов времени во временном континууме, при этом выявлен основной докладчик и в отношении каждого идентифицированного докладчика выполнено группирование по времени и по пространству; и базу данных лиц, которая содержит по меньшей мере одно изображение лица для каждого докладчика, идентифицированного во временной шкале докладчика, и идентификатор докладчика, который связывает каждое изображение лица с соответствующей временной шкалой докладчика в базе данных временных шкал докладчиков.
Наконец, согласно настоящему изобретению предоставляется система для обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащая: A/V выборку; средства для идентификации каждого докладчика, представленного в A/V выборке; средства для идентификации изображения лица для каждого докладчика, идентифицированного в A/V выборке; средства для выявления основного докладчика; средства для выполнения в отношении каждого идентифицированного докладчика группирования по времени и по пространству; средства для создания временной шкалы докладчика для каждого докладчика, идентифицированного в A/V выборке; и средства для ассоциирования изображения лица с соответствующей временной шкалой докладчика. При этом A/V выборка предпочтительно содержит записанную конференцию.
ПЕРЕЧЕНЬ ЧЕРТЕЖЕЙ
Вышеупомянутые аспекты и множество сопутствующих преимуществ этого изобретения будут приведены более понятно далее с использованием ссылок на прилагаемые фигуры, в которых:
фиг.1 - блок-схема, изображающая иллюстративное вычислительное устройство общего назначения с камерой;
фиг.2 - блок-схема, изображающая иллюстративную панорамную камеру и клиентское устройство;
фиг.3 - представление иллюстративного экрана воспроизведения с панорамным изображением и временной шкалой с изображениями лиц;
фиг.4 - иллюстративный экран воспроизведения с панорамным изображением и временной шкалой с изображениями лиц;
фиг.5 - иллюстративная блок-схема последовательности операций методологической реализации для создания временной шкалы с изображениями лиц;
фиг.6 - иллюстративная блок-схема последовательности операций, изображающая методологическую реализацию для создания базы данных лиц.
ПОДРОБНОЕ ОПИСАНИЕ
Последующее описание относится к различным реализациям и вариантам осуществления изобретения для автоматического выявления лица каждого докладчика в окружении многих докладчиков и ассоциирования одного или более изображений лица докладчика с частью временной шкалы, которая соответствует этому докладчику. Эта разновидность специальной маркировки имеет преимущества перед общей маркировкой, в которой наблюдатель может более легко определить, какая часть временной шкалы соответствует одному конкретному докладчику из множества докладчиков.
В последующем обсуждении описывается вариант панорамной камеры, которая используется для записи конференции, имеющей более чем одного докладчика и/или участника. Несмотря на то что описываемая панорамная камера содержит множество камер, последующее описание также относится к однокамерным и многокамерным устройствам, имеющим две или более камер.
Панорамное изображение является входными данными средства слежения за лицами (FT), которое выявляет и следит за лицами в конференции. Данные с набора микрофонов являются входными данными средства определения местоположения источника звука (SSL), которое определяет местоположения докладчиков на основе звука. Выходные данные средства слежения за лицами и средства определения местоположения источника звука являются входными данными виртуального кинооператора для определения местоположений докладчиков.
В отношении докладчиков выполняется заключительная обработка модулем группирования докладчиков, который группирует докладчиков по времени и по пространству для лучшего определения совокупной временной шкалы, которая содержит две или более отдельных временных шкал. (Совокупная) временная шкала сохраняется в базе данных временных шкал. База данных лиц создается для хранения одного или более изображений для каждого докладчика, по меньшей мере, одно из лиц подлежит использованию во временной шкале, ассоциированной с докладчиком.
Представленные и заявленные здесь концепции описаны более подробно ниже с рассмотрением одной или более соответствующих рабочих сред. Некоторые из описанных далее элементов также описаны в родительской заявке на патент США №10/177315, озаглавленной «A System and Method for Distributed Meetings», поданной 21.06.2002 г. и включенной сюда посредством ссылки, приведенной выше.
ИЛЛЮСТРАТИВНАЯ РАБОЧАЯ СРЕДА
Блок-схема на фиг.1 представляет вычислительное устройство общего назначения с камерой. Среда 100 вычислительной системы является только одним примером из соответствующих вычислительных сред и не предназначена для обозначения какого-либо ограничения как в объеме использования, так и функционирования заявленных объектов изобретения. Также вычислительную среду 100 не следует интерпретировать как имеющую какую-либо зависимость или требование по отношению к любому одному компоненту или комбинации компонентов, изображенных в иллюстративной рабочей среде 100.
Описанные способы и объекты являются работоспособными с множеством других сред или конфигураций вычислительных систем общего или специального назначения. Примеры широкоизвестных вычислительных систем, сред и/или конфигураций, которые могут быть применены для использования, включают в себя, но не в ограничительном смысле, персональные компьютеры, серверные компьютеры, карманные или портативные устройства, многопроцессорные системы, основанные на микропроцессорах системы, телевизионные приставки, программируемую потребителем электронику, сетевые компьютеры, мини-компьютеры, мэйнфреймы, распределенные вычислительные среды, которые включают в себя любые из вышеназванных систем или устройств, и тому подобное.
Последующее описание может быть сформулировано в основном контексте машиноисполняемых инструкций, таких как программные модули, исполняемые компьютером. В целом, программный модуль содержит процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют определенные задачи и реализуют определенные абстрактные типы данных. Описанные реализации могут также быть реализованы на практике в распределенных вычислительных средах, где задачи выполняются удаленными обрабатывающими устройствами, которые связаны через коммуникационную сеть. В распределенной вычислительной среде программные модули могут быть расположены как на локальных, так и на удаленных компьютерных носителях данных, включая запоминающие устройства.
На фиг.1 представлена иллюстративная система для реализации изобретения, содержащая вычислительное устройство общего назначения в форме компьютера 110. Компоненты компьютера 110 могут включать в себя, но не в ограничительном смысле, блок 120 обработки данных, системную память 130 и системную шину 121, которая соединяет различные компоненты системы, включая системную память, с блоком 120 обработки данных. Системная шина 121 может относиться к любому типу из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, с использованием любой из разнообразия шинных архитектур. В качестве неограничивающего примера, такие архитектуры включают шину архитектуры промышленного стандарта (ISA), шину микроканальной архитектуры (MCA), шину расширенной архитектуры промышленного стандарта (EISA), шину стандарта VESA высокоскоростной локальной видеошины для ПК (VESA) и периферийную соединяющую компоненты (PCI) шину, также известную как шина расширения.
Компьютер 110 обычно содержит множество машиночитаемых носителей. Машиночитаемые носители могут быть любыми из имеющихся носителей, к которым компьютер 110 может осуществить доступ, и включают в себя как энергозависимые, так энергонезависимые носители, как съемные, так и несъемные носители. Например, без ограничения, машиночитаемые носители могут содержать компьютерные носители данных и коммуникационные среды. Компьютерные носители данных включают в себя энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, такой как машиночитаемые инструкции, структуры данных, программные модули и другие данные. Компьютерные носители данных включают в себя, но не в ограничительном смысле, RAM, ROM, EEPROM, флэш-память и память другой технологии, CD-ROM, цифровой многофункциональный диск (DVD) или другие оптические дисковые накопители, магнитные кассеты, магнитные ленты, магнитные дисковые накопители или другие магнитные устройства хранения данных, или любые другие носители, которые могут быть использованы для хранения желаемой информации и к которым компьютер 110 может осуществить доступ. Коммуникационные среды обычно воплощают машиночитаемые инструкции, структуры данных, программные модули или другие данные в модулированный информационный сигнал, такой как несущая волна или другой механизм передачи, и включают любые другие среды доставки информации. Термин «модулированный информационный сигнал» означает сигнал, одна или более характеристик которого установлены или изменены таким образом, чтобы обеспечить кодирование информации в этом сигнале. Например, без ограничения, коммуникационные среды включают в себя проводные средства, такие как проводная сеть или прямое кабельное соединение, и беспроводные среды, такие как акустические, радиочастотные, инфракрасные и другие беспроводные среды. Комбинации любых из вышеназванных носителей и сред также охватываются понятием «машиночитаемый носитель».
Системная память 130 включает в себя компьютерные носители данных в форме энергозависимой и/или энергонезависимой памяти, например постоянное запоминающее устройство (ROM) 131 и оперативное запоминающее устройство (RAM) 132. Базовая система ввода/вывода 133 (BIOS) содержит базовые процедуры, которые обеспечивают передачу информации между элементами в компьютере 110, как, например, во время запуска, обычно хранится в ROM 131. RAM 132 обычно содержит данные и/или программные модули, которые непосредственно доступны блоку 120 обработки данных и/или исполняются блоком 120 обработки данных в текущий момент. Например, и без ограничения, на фиг.1 представлена операционная система 134, программы приложений 135, другие программные модули 136 и данные 137 программ.
Компьютер 110 может также включать в себя другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители данных. Только как пример, на фиг.1 представлен накопитель 141 на жестких дисках, который считывает или записывает информацию в отношении несъемных энергозависимых магнитных носителей, магнитный дисковод 151, который считывает или записывает информацию в отношении съемного, энергонезависимого магнитного диска 152, и оптический дисковод 155, который считывает или записывает информацию в отношении съемного, энергонезависимого оптического диска 156, такого как CD-ROM или другой оптический носитель. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители данных могут быть использованы в иллюстративной рабочей среде, включая, но не в ограничительном смысле, кассеты магнитных лент, флэш-карты памяти, цифровые многофункциональные диски, цифровые видеоленты, полупроводниковые устройства RAM и т.п. Накопитель 141 на жестких дисках обычно подсоединен к системной шине 121 через интерфейс несъемной памяти, такой как интерфейс 140, а магнитный дисковод 151 и оптический дисковод 155 обычно подсоединены к системной шине 121 интерфейсом съемной памяти, таким как интерфейс 150.
Накопители и дисководы и связанные с ними компьютерные носители данных, рассмотренные выше и представленные на фиг.1, обеспечивают хранение машиночитаемых инструкций, структур данных, программных модулей и других данных для компьютера 110. На фиг.1, как пример, представлен накопитель 141 на жестких дисках в качестве хранилища операционной системы 144, программ приложений 145, других программных модулей 146 и данных 147 программ. Следует заметить, что эти компоненты могут быть такими же или отличаться от операционной системы 134, программ приложений 135, других программных модулей 136 и данных 137 программ. Операционная система 144, программы приложений 145, другие программные модули 146 и данные 147 программ обозначены здесь другими ссылочными номерами и числами для иллюстрации того, что, как минимум, они могут быть другими копиями. Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода, такие как клавиатура 162 и координатно-указательное устройство 161, в общем упоминаемое как мышь, трекбол или сенсорная панель. Другие устройства ввода (не представлены) могут включать в себя микрофон, джойстик, игровой планшет, спутниковую тарелку, сканер и тому подобное. Эти и другие устройства ввода часто подсоединяются к блоку 120 обработки данных через интерфейс 160 пользовательского ввода, который соединен с системной шиной 121, но могут быть подсоединены через другие интерфейсные и шинные структуры, такие как параллельный порт, игровой порт или универсальная последовательная шина (USB). Монитор 191 или другой тип отображающего устройства также подсоединен к системной шине 121 через интерфейс, такой как видеоинтерфейс 190. Помимо монитора компьютер также может содержать другие периферийные выходные устройства, такие как динамики 197 и принтер 196, которые могут быть подсоединены через выходной периферийный интерфейс 195. С определенной значимостью для настоящего изобретения, в качестве устройства ввода в персональный компьютер 110 может также входить камера 163 (такая как цифровая/электронная фото- или видеокамера либо сканер для пленок/фотографий), выполненная с возможностью захвата последовательности изображений 164. Дополнительно, хотя изображена только одна камера, в качестве устройств ввода для персонального компьютера 110 могут быть включены и много камер. Изображения 164 от одной или более камер передаются в компьютер 110 через соответствующий интерфейс камеры 165. Этот интерфейс 165 подсоединен к системной шине 121, таким образом обеспечивая возможность направления и сохранения изображения в RАМ 132 или в одном из других устройств хранения данных, связанных с компьютером 110. Однако следует отметить, что данные изображения также могут поступать в компьютер 110 из любых из вышеназванных компьютерных носителей данных, без обязательного требования использования камеры 163.
Компьютер 110 может функционировать в сетевой среде, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, сервером, маршрутизатором, сетевым компьютером, одноранговым устройством или другим общим узлом сети и обычно включает в себя большинство или все из элементов, описанных выше относительно компьютера 110, несмотря на то, что на фиг.1 представлено только запоминающее устройство 181. Изображенные на фиг.1 логические соединения включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но могут также включать в себя и другие сети. Такие сетевые среды типичны для офисов, компьютерных сетей масштаба предприятий, внутренних корпоративных сетей и Интернет.
При использовании в сетевой среде LAN компьютер 110 подсоединяется к LAN 171 через сетевой интерфейс или адаптер 170. При использовании в сетевой среде WAN компьютер 110 обычно содержит модем 172 или другие устройства для установления связи через WAN 173, такую как Интернет. Модем 172, который может быть внутренним или внешним, может быть соединен с системной шиной 121 через интерфейс 160 пользовательского ввода или другой подходящий механизм. В сетевой среде программные модули, представленные относительно компьютера 110, или их части могут быть сохранены на удаленном запоминающем устройстве. Например, и без ограничения, на фиг.1 представлены программы приложений 185 как находящиеся на запоминающем устройстве 181. Следует принять во внимание, что сетевые соединения представлены как иллюстративные, и также могут быть использованы и другие средства установления линии связи между компьютерами.
ИЛЛЮСТРАТИВНАЯ ПАНОРАМНАЯ КАМЕРА И КЛИЕНТСКОЕ УСТРОЙСТВО
На фиг.2 представлена блок-схема иллюстративного устройства 200 панорамной камеры и иллюстративное клиентское устройство 222. Несмотря на то что оно представлено в конкретной конфигурации, следует заметить, что устройство 200 панорамной камеры может быть любым устройством, которое содержит панорамную камеру или ее функциональный эквивалент. В практическое приложение, включающее в себя один или более способов, описанных здесь, может быть включено больше или меньше компонентов по сравнению с теми, что изображены здесь как входящие в состав устройства 200 панорамной камеры.
Устройство 200 панорамной камеры содержит процессор 202 и память 204. Устройство 200 панорамной камеры создает панорамное изображение посредством совмещения нескольких отдельных изображений, полученных множеством камер 206 (обозначенные 206_1-206_n). Панорамное изображение может быть полным на 360° панорамным изображением или может быть только частью его. Это означает, что, несмотря на то, что устройство 200 панорамной камеры представлено и описано здесь, описанные способы могут также быть использованы и с одной камерой.
Устройство 200 панорамной камеры также включает в себя набор 208 микрофонов. Как будет описано более подробно далее, набор микрофонов сконфигурирован так, чтобы можно было бы определить направление звука. Другими словами, анализ звука, поступающего на набор микрофонов, дает в результате направление, из которого исходит обнаруженный звук. Динамик 210 может также быть включен в состав устройства 200 панорамной камеры для обеспечения пользователю возможности громкой связи или для издавания предупредительных сигналов и тому подобного для пользователей.
В памяти 204 хранятся некоторые настройки 212 камеры, такие как данные калибровки, установки экспозиции, таблицы совмещения и т.д. Операционная система 214, которая управляет функционированием камеры, также хранится в памяти 204 вместе с одним или более другими программными приложениями 216 камеры.
Устройство 200 панорамной камеры также включает в себя модуль 218 ввода/вывода (I/O) для передачи и приема данных устройством 200 панорамной камеры и разнообразные другие элементы оборудования 220, которые могут потребоваться для функционирования камеры.
Устройство 200 панорамной камеры осуществляет связь, по меньшей мере, с одним клиентским устройством 222, которое содержит процессор 224, память 226 и запоминающее устройство 242 большой емкости (такое как накопитель на жестких дисках) и другое оборудование 230, которое может потребоваться для исполнения функциональных возможностей, ассоциированных с клиентским устройством 222 ниже.
В памяти 226 хранится модуль 230 слежения за лицами (FT) и модуль 232 определения местоположения источника звука (SSL). Модуль 230 слежения за лицами и модуль 232 определения местоположения источника звука используются совместно с виртуальным кинооператором 234 для выявления человека в сцене камеры, если этот человек в это время говорит. Для определения местоположения источника звука может быть использован любой из нескольких традиционных способов. Различные способы слежения за лицами (или системы выявления человека и слежения за человеком), включая способ, описанный в заявке, являющейся родительской по отношению к данной заявке, могут быть использованы, как описано здесь.
В памяти 226 также хранится модуль 236 группирования докладчиков, который сконфигурирован для определения основного докладчика, когда два или более человека говорят, и фокусирует конкретную часть временной шкалы на основном докладчике. В большинстве ситуаций на конференциях случается так, что в одно и то же время говорят больше, чем один человек. Обычно, основной докладчик говорит, когда другой человек прерывает этого докладчика на короткое время или говорит вместе с этим докладчиком. Модуль 236 группирования докладчиков сконфигурирован для группирования докладчиков по времени и пространству для прояснения временной шкалы.
Временная шкала 238 создается виртуальным кинооператором 234. Временная шкала 238 сохраняется в базе 244 данных временных шкал на запоминающем устройстве 242 большой емкости. База 244 данных временных шкал, содержащая множество полей, включая, но не в ограничительном смысле, время, номер докладчика и ограничивающий докладчика прямоугольник в пределах изображения с камеры (х, у, ширина, высота). База 238 данных временных шкал может также включать в себя один или более ракурсов лица докладчика (азимут и угол места).
Модуль 240 извлечения лица также хранится в памяти 226, и он сконфигурирован для извлечения изображения лица докладчика из ограничивающего лицо прямоугольника (идентифицированного модулем 230 слежения за лицами) в изображении с камеры. Модуль 240 извлечения лиц сохраняет извлеченные изображения лиц в базе 246 данных лиц на запоминающем устройстве 242 большой емкости.
По меньшей мере в одном варианте осуществления для одного или более докладчиков может быть сохранено множество изображений лица. Параметры могут быть заданы для определения того, какое изображение лица используется в конкретные моменты времени. Или пользователь может вручную выбрать конкретное изображение лица из множества изображений лиц.
По меньшей мере в одном альтернативном варианте осуществления для каждого докладчика может быть сохранено только одно изображение лица. Сохраненное изображение лица может быть одним изображением, извлеченным модулем 240 извлечения лиц, но модуль 240 извлечения лиц может также быть сконфигурирован для выбора наилучшего изображения докладчика.
Выбор наилучшего изображения докладчика может быть выполнен посредством идентификации фронтальных ракурсов лица (в предположении, что изображение с фронтальным изображением лица является наилучшим представлением по сравнению с альтернативным изображением), посредством идентификации изображения лица, которому соответствует минимум движения, или посредством идентификации изображения лица, которое имеет максимальную симметрию лица.
Записанная конференция 248 тоже хранится на запоминающем устройстве 242 большой емкости так, что она может быть вызвана и воспроизведена в последующее время.
Элементы и набор функциональных возможностей, представленные и описанные в соответствии с фиг.2, будут описаны более полно ниже в отношении последующих фигур.
ИЛЛЮСТРАТИВНЫЙ ЭКРАН ВОСПРОИЗВЕДЕНИЯ
На фиг.3 представлен чертеж экрана 300 воспроизведения, который содержит панорамное изображение 302 и временную шкалу 304 с изображениями лиц. Панорамное изображение 302 представлено с первым участником 303 конференции и вторым участником 305 конференции. Экран 300 воспроизведения также представлен имеющим панель 306 заголовка и изображение 308 человека. Изображение 308 человека является необязательным признаком, обозначающим фокусировку на конкретного человека, обычно основного докладчика. На фиг.3 изображение 308 человека является изображением лица первого участника 303 конференции.
Иллюстративный экран 300 воспроизведения также содержит раздел 310 элементов управления, который содержит элементы управления, обычно имеющиеся в медиаплеере (средстве воспроизведения мультимедийных данных), такие как клавиша воспроизведения, клавиша перемотки вперед, клавиша перемотки назад и т.д. Информационная область 312, содержащаяся в иллюстративном экране 300 воспроизведения, может отображать информацию касаемо содержательной сущности экрана 300 воспроизведения. Например, название конференции, номер комнаты конференции, список докладчиков конференции и тому подобное могут быть отображены в информационной области 312.
Временная шкала 304 с изображениями лиц включает в себя первую временную подшкалу 314, которая соответствует первому участнику 303 конференции, и вторую временную подшкалу 316, которая соответствует второму участнику 305 конференции. Каждая из временных подшкал 314, 316 указывает отрезки во временном континууме, где выступает соответствующий докладчик конференции. Пользователь может непосредственно иметь доступ к любой точке временных подшкал 314, 316 для мгновенного доступа к части конференции, где выступает конкретный участник.
Первое изображение 318 лица первого участника 303 конференции появляется рядом с первой временной подшкалой 314 для обозначения того, что первая временная подшкала ассоциирована с первым участником 303 конференции. Изображение 320 лица второго участника 305 конференции появляется рядом со второй временной подшкалой 316 для обозначения того, что вторая временная подшкала ассоциирована со вторым участником 305 конференции.
На фиг.4 представлен иллюстративный экран 400 воспроизведения, который содержит элементы, аналогичные элементам иллюстративного экрана 300 воспроизведения, представленного и описанного на фиг.3. Элементы и ссылочные номера, приведенные и описанные в соответствии с фиг.3, будут использованы со ссылкой на иллюстративный экран 400 воспроизведения по фиг.4.
Иллюстративный экран 400 воспроизведения содержит панорамное изображение 302 и временную шкалу 304 с изображениями лиц. Панорамное изображение 302 представляет первого участника 303 конференции и второго участника 305 конференции. Панель 306 заголовка расположена сверху экрана 400 воспроизведения, и изображение 308 человека представляет второго участника 305 конференции.
Иллюстративный экран 400 воспроизведения также содержит изображение 402 докладчика на фоне белой доски, которое изображает участника конференции (в данном случае, второго участника 305 конференции), который располагается перед белой доской. Изображение 402 докладчика на фоне белой доски не включено в экран 300 воспроизведения по фиг.3 и используется здесь для демонстрации того, как другие изображения могут быть включены в любой конкретный экран 300, 400 воспроизведения.
Раздел 310 элементов управления содержит элементы управления воспроизведением и информационную область 312, отображающую информацию о конференции, представляемой на экране 400 воспроизведения.
Временная шкала 304 с изображениями лиц содержит первую временную подшкалу 314, вторую временную подшкалу 316 и третью временную подшкалу 402. Это означает, что, поскольку только две временные подшкалы изображены на фиг.3, временная шкала может содержать любое поддающееся управлению число временных подшкал. На фиг.4, например, изображено три временные подшкалы.
Следует отметить, что хотя имеется только два участника конференции в этом примере, имеется три временные подшкалы. Это имеет место потому, что один докладчик может быть ассоциирован больше, чем с одной временной подшкалой. В настоящем примере вторая временная подшкала 316 ассоциирована со вторым участником 305 конференции в то время, когда второй участник 305 конференции находится на фоне белой доски, а третья временная подшкала 402 ассоциирована со вторым участником 305 конференции в то время, когда второй участник 305 конференции находится в месте, отличающемся от белой доски.
Такая ситуация может произойти, когда участник конференции занимает более чем одно место во время конференции. Виртуальный кинооператор 234 в рассматриваемом случае выявил докладчиков в трех местоположениях. Не является необходимым, чтобы он был осведомлен о том, что только два участника находятся в этих местоположениях. Эти особенности помогают пользователю в случае, когда пользователь интересуется главным образом докладчиком, когда докладчик находится в некотором местоположении. Например, пользователь может желать воспроизвести часть записанной конференции, когда докладчик находится у белой доски.
Иллюстративный экран 400 воспроизведения также содержит первое изображение 318 лица первого участника 303 конференции и второе изображение 320 лица второго участника 305 конференции. Дополнительно, третье изображение 404 лица включается и ассоциируется с третьей временной подшкалой 402. Третье изображение 404 лица соответствует второму местоположению второго участника 305 конференции.
Методики, использованные при представлении иллюстративных экранов 300, 400 воспроизведения, будут описаны более подробно далее со ссылками на соответствующие фигуры.
ИЛЛЮСТРАТИВНАЯ МЕТОДОЛОГИЧЕСКАЯ РЕАЛИЗАЦИЯ: СОЗДАНИЕ ВРЕМЕННОЙ ШКАЛЫ С ИЗОБРАЖЕНИЯМИ ЛИЦ
На фиг.5 представлена иллюстративная блок-схема 500 последовательности операций методологической реализации для создания временной шкалы с изображениями лиц. В последующем обсуждении иллюстративная блок-схема 500 последовательности операций содержит ссылки на элементы и ссылочные номера, представленные на предыдущих фигурах.
На этапе 502 устройство 200 панорамной камеры делает выборку одного или более видеоизображений для создания панорамного изображения. Панорамное изображение является входными данными модуля 230 слежения за лицами (этап 504), который выявляет и следит за лицами в изображении. Приблизительно одновременно на этапе 506 набор 208 микрофонов делает выборку звука, соответствующего панорамному изображению, и вводит звук в модуль 232 определения местоположения источника звука, который определяет местоположения докладчиков на основе выборок звука на этапе 508.
Виртуальный кинооператор 234 обрабатывает данные от модуля 232 слежения за лицами и средства 232 определения местоположения источника звука для создания временной шкалы 238 на этапе 510. На этапе 512 модуль 236 группирования докладчиков группирует выступающих участников по времени и по пространству для объединения и прояснения частей временной шкалы 238, как описано ранее.
Временная шкала сохраняется в базе 244 данных временных шкал со следующими полями: время, номер докладчика, ограничивающий лицо докладчика прямоугольник в изображении (х, у, ширина, высота), ракурсы лица докладчика (азимут, угол места) и т.д.
Использование панорамного изображения и идентифицирующие лицо координаты (т.е. ограничивающие лицо прямоугольники) определяются модулем 230 слежения за лицами, модуль 240 извлечения лиц извлекает изображения лиц докладчиков на этапе 514. Извлеченные изображения лиц сохраняются в базе 246 данных лиц и ассоциируются с номером докладчика.
Как отмечено ранее, модуль 240 извлечения лиц может быть сконфигурирован для извлечения больше чем одного изображения для каждого докладчика и использования того лица, изображение которого определено модулем 240 извлечения лиц как наилучшее изображение во временной шкале 238.
Иллюстративное методологическое осуществление выбора «наилучшего» изображения лица и создание базы 246 данных лиц представлено и описано ниже в соответствии с фиг.6.
ИЛЛЮСТРАТИВНОЕ МЕТОДОЛОГИЧЕСКОЕ ОСУЩЕСТВЛЕНИЕ: СОЗДАНИЕ БАЗЫ ДАННЫХ ЛИЦ
На фиг.6 представлена блок-схема 600 последовательности операций, изображающая методологическое осуществление для создания базы данных лиц. В последующем обсуждении фиг.6 содержатся ссылки на элементы и ссылочные номера, представленные на предыдущих фигурах.
На этапе 602 модуль 240 извлечения лиц извлекает изображение лица из панорамного изображения, как описано выше. Если изображение лица докладчика не хранится в базе 246 данных лиц (ветвь «нет», этап 604), то изображение лица сохраняется в базе 246 данных лиц на этапе 610. Следует заметить, что определение того, хранится ли изображение лица, необязательно зависит от того, имеется ли для человека, появившегося на изображении лица, уже сохраненное схожее изображение, но от того, имеется ли для идентифицированного докладчика уже сохраненное изображение, которое соответствует этому докладчику. Так, если докладчик, находящийся в первом местоположении, имеет хранящееся изображение лица, а затем этот докладчик выявлен во втором местоположении, то изображение лица этого докладчика во втором местоположении не будет сравниваться с хранящимся изображением лица докладчика в первом местоположении для определения того, имеет ли этот докладчик хранящееся изображение лица.
Если изображение лица для докладчика уже хранится в базе 246 данных лиц, здесь и далее называемое «хранящееся изображение лица» (ветвь «Да», этап 604), то изображение лица сравнивается с хранящимся изображением лица на этапе 606. Если модуль 240 извлечения лиц определяет, что изображение лица лучше или более приемлемо, чем хранящееся изображение лица (ветвь «Да», этап 608), то изображение лица сохраняется в базе 246 данных лиц, таким образом заменяя ранее сохраненное изображение лица.
Если изображение лица не лучше, чем хранящееся изображение лица (ветвь «Нет», этап 608), то изображение лица отбрасывают и остается хранящееся изображение лица.
Критерии для определения того, какое из изображений лица лучше, могут быть многочисленными и разнообразными. Например, модуль 234 извлечения лиц может быть сконфигурирован для определения того, что «лучшее» изображение лица - это изображение, на котором докладчик заснят в положении, в котором лицо докладчика находится в наиболее фронтальном положении. Или, если первое изображение лица содержит признаки движения, а второе изображение лица нет, то модуль 234 извлечения лиц может определить, что второе изображение лица есть наилучшее изображение лица. Или модуль 234 извлечения лиц может быть сконфигурирован для определения того, какое из множества изображений докладчика обладает максимальной симметрией, и использования этого изображения во временной шкале. Для определения наиболее подходящего изображения лица для использования во временной шкале могут быть использованы и другие критерии, не перечисленные здесь.
Если имеется другой докладчик (ветвь «Да», этап 612), то процесс возвращается к этапу 602 и повторяется для каждого уникального докладчика. Опять же, термин «уникальный докладчик», как он используется в данном контексте, не обязательно означает уникального человека, поскольку человек, который появляется в разных местоположениях при выступлении, может быть интерпретирован как разные докладчики. Процесс завершается, когда нет больше уникальных докладчиков для идентификации (ветвь «Нет», этап 612).
ЗАКЛЮЧЕНИЕ
Хотя были представлены и описаны один или более иллюстративных вариантов осуществления, будет очевидно, в них могут быть внесены различные изменения без отхода от сущности и объема изобретения, определяемого прилагаемой формулой изобретения.

Claims (32)

1. Способ обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащий этапы, на которых
выявляют два или более изображений лиц в выборке видеоданных;
выявляют двух или более докладчиков в выборке аудиоданных, которая соответствует выборке видеоданных;
выявляют основного докладчика из этих двух или более докладчиков;
группируют упомянутых двух или более докладчиков по времени и по пространству;
сохраняют временную шкалу докладчика для каждого выявленного докладчика, которая идентифицирует этого докладчика посредством идентификатора докладчика и местоположения докладчика в различные моменты времени вдоль данной временной шкалы докладчика;
сохраняют по меньшей мере одно изображение лица для каждого выявленного докладчика в базе данных лиц и ассоциируют временную шкалу докладчика и изображение лица с каждым выявленным докладчиком.
2. Способ по п.1, в котором при выявлении двух или более изображений лиц дополнительно используют слежение за лицами для выявления двух или более изображений лиц.
3. Способ по п.1, в котором при выявлении двух или более докладчиков дополнительно используют определение местоположения источника звука для выявления двух или более докладчиков.
4. Способ по п.1, дополнительно содержащий этапы, на которых идентифицируют более чем одно изображение лица для каждого докладчика и
выбирают наилучшее изображение лица для сохранения в базе данных лиц.
5. Способ по п.4, в котором при выборе дополнительно выбирают изображение лица, которое содержит наиболее фронтальный вид лица, в качестве наилучшего изображения лица.
6. Способ по п.4, в котором при выборе дополнительно выбирают изображение лица, которому соответствует минимум движения, в качестве наилучшего изображения лица.
7. Способ по п.4, в котором при выборе дополнительно выбирают изображение лица, которое проявляет максимум симметрии, в качестве наилучшего изображения лица.
8. Способ по п.1, в котором местоположение докладчика обозначается ограничивающим докладчика прямоугольником, идентифицируемым координатами выборки видеоданных.
9. Способ по п.1, в котором местоположение докладчика обозначается ракурсами лица докладчика, идентифицируемыми азимутом и углом места в выборке видеоданных.
10. Способ воспроизведения видеоданных с использованием индексированной временной шкалы, содержащий этапы, на которых
отображают выборку аудио/видеоданных, в которой имеются два или более докладчиков;
выявляют основного докладчика из этих двух или более докладчиков;
группируют упомянутых двух или более докладчиков по времени и по пространству;
отображают временную шкалу докладчика, соответствующую каждому докладчику из упомянутых двух или более докладчиков, причем эта временная шкала докладчика показывает, в какие моменты времени во временном континууме докладчик, соответствующий данной временной шкале докладчика, выступает;
ассоциируют изображение лица докладчика с каждой временной шкалой докладчика, причем изображение лица докладчика соответствует докладчику, ассоциированному с временной шкалой докладчика; и
отображают изображение лица с соответствующей временной шкалой докладчика.
11. Способ по п.10, дополнительно содержащий этап, на котором извлекают временную шкалу докладчика из базы данных временных шкал, которая идентифицирует каждого докладчика посредством идентификатора докладчика, местоположения докладчика и одного или более моментов времени, в которые докладчик выступает.
12. Способ по п.10, дополнительно содержащий этап, на котором извлекают изображение лица докладчика из базы данных лиц, которая ассоциирует идентификатор каждого докладчика с по меньшей мере одним изображением лица докладчика, соответствующего этому идентификатору докладчика.
13. Считываемый компьютером носитель, содержащий исполняемые компьютером инструкции, которыми при их исполнении реализуется способ обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащий
идентификацию каждого докладчика в выборке аудио/видеоданных (A/V выборке) посредством идентификатора докладчика;
идентификацию местоположения каждого докладчика в A/V выборке;
выявление основного докладчика;
выполнение в отношении каждого идентифицированного докладчика группирования по времени и по пространству;
извлечение по меньшей мере одного изображения лица для каждого докладчика, идентифицированного в A/V выборке;
создание временной шкалы докладчика для каждого докладчика, идентифицированного в A/V выборке, причем каждая временная шкала докладчика показывает время, идентификатор докладчика и местоположение докладчика; и
ассоциирование изображения лица для докладчика с временной шкалой докладчика, которая соответствует этому докладчику.
14. Считываемый компьютером носитель по п.13, дополнительно содержащий идентификацию каждого докладчика, используя определение местоположения источника звука.
15. Считываемый компьютером носитель по п.13, дополнительно содержащий идентификацию местоположения каждого докладчика, используя слежение за лицами.
16. Считываемый компьютером носитель по п.13, в котором местоположение докладчика идентифицируется ограничивающим докладчика прямоугольником в A/V выборке.
17. Считываемый компьютером носитель по п.13, дополнительно содержащий сохранение временных шкал докладчиков и изображений лиц и связывание каждой временной шкалы докладчика с соответствующим изображением лица.
18. Считываемый компьютером носитель по п.13, дополнительно содержащий извлечение больше, чем одного изображения лица для каждого докладчика.
19. Считываемый компьютером носитель по п.18, дополнительно содержащий выбор наилучшего изображения лица для ассоциирования с временной шкалой докладчика.
20. Считываемый компьютером носитель по п.19, в котором при выборе наилучшего изображения лица дополнительно выбирается изображение лица, которое имеет максимально фронтальное изображение лица.
21. Считываемый компьютером носитель по п.19, в котором при выборе наилучшего изображения лица дополнительно выбирается изображение лица, которому соответствует минимум движения.
22. Считываемый компьютером носитель по п.19, в котором при выборе наилучшего изображения лица дополнительно выбирается изображение лица, которое проявляет максимальную симметрию лица.
23. Считываемый компьютером носитель, содержащий
базу данных временных шкал докладчиков, которая содержит временную шкалу докладчика для каждого докладчика в выборке аудио/видеоданных (A/V выборке), причем каждая временная шкала докладчика идентифицирует докладчика и его местоположение для множества моментов времени во временном континууме, при этом выявлен основной докладчик и в отношении каждого идентифицированного докладчика выполнено группирование по времени и по пространству; и
базу данных лиц, которая содержит по меньшей мере одно изображение лица для каждого докладчика, идентифицированного во временной шкале докладчика, и идентификатор докладчика, который связывает каждое изображение лица с соответствующей временной шкалой докладчика в базе данных временных шкал докладчиков.
24. Считываемый компьютером носитель по п.23, в котором каждая временная шкала докладчика в базе данных временных шкал докладчиков содержит соответствующий идентификатор докладчика для связывания базы данных временных шкал докладчиков с базой данных лиц.
25. Система для обеспечения индексированной временной шкалы для воспроизведения видеоданных, содержащая
выборку аудио/видеоданных (A/V выборку);
средства для идентификации каждого докладчика, представленного в A/V выборке;
средства для идентификации изображения лица для каждого докладчика, идентифицированного в A/V выборке;
средства для выявления основного докладчика;
средства для выполнения в отношении каждого идентифицированного докладчика группирования по времени и по пространству;
средства для создания временной шкалы докладчика для каждого докладчика, идентифицированного в A/V выборке; и средства для ассоциирования изображения лица с соответствующей временной шкалой докладчика.
26. Система по п.25, в которой средства для идентификации каждого докладчика дополнительно содержат средство определения местоположения источника звука.
27. Система по п.25, в которой средства для идентификации изображения лица дополнительно содержат средство слежения за лицами.
28. Система по п.25, в которой временная шкала докладчика идентифицирует докладчика, ассоциированного с этой временной шкалой докладчика, посредством идентификатора докладчика и местоположения докладчика для каждого из множества моментов времени во временном континууме.
29. Система по п.28, в которой ассоциирование изображения лица с соответствующей временной шкалой докладчика дополнительно содержит ассоциирование каждого изображения лица с идентификатором докладчика.
30. Система по п.25, дополнительно содержащая сохранение временных шкал докладчиков и изображений лиц.
31. Система по п.30, в которой временные шкалы докладчиков и изображения лиц хранятся отдельно.
32. Система по п.25, в которой А/У выборка дополнительно содержит записанную конференцию.
RU2005133403/09A 2004-10-30 2005-10-28 Автоматическое извлечение лиц для использования во временной шкале записанных конференций RU2398277C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/978,172 US7598975B2 (en) 2002-06-21 2004-10-30 Automatic face extraction for use in recorded meetings timelines
US10/978,172 2004-10-30

Publications (2)

Publication Number Publication Date
RU2005133403A RU2005133403A (ru) 2007-05-10
RU2398277C2 true RU2398277C2 (ru) 2010-08-27

Family

ID=35658932

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2005133403/09A RU2398277C2 (ru) 2004-10-30 2005-10-28 Автоматическое извлечение лиц для использования во временной шкале записанных конференций

Country Status (11)

Country Link
US (1) US7598975B2 (ru)
EP (1) EP1659518B1 (ru)
JP (1) JP5027400B2 (ru)
KR (1) KR101238586B1 (ru)
CN (1) CN1783998B (ru)
AU (1) AU2005220252A1 (ru)
BR (1) BRPI0504224A (ru)
CA (1) CA2521670C (ru)
ES (1) ES2645313T3 (ru)
MX (1) MXPA05010595A (ru)
RU (1) RU2398277C2 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2610451C2 (ru) * 2012-09-24 2017-02-13 Хуавэй Текнолоджиз Ко., Лтд. Способ, устройство и система записи видеоконференции
RU2651885C2 (ru) * 2010-10-07 2018-04-24 Сони Корпорейшн Устройство обработки информации и способ обработки информации

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7602412B2 (en) * 2002-06-21 2009-10-13 Microsoft Corporation Temperature compensation in multi-camera photographic devices
US7259784B2 (en) * 2002-06-21 2007-08-21 Microsoft Corporation System and method for camera color calibration and image stitching
US7782357B2 (en) 2002-06-21 2010-08-24 Microsoft Corporation Minimizing dead zones in panoramic images
JP2006350577A (ja) * 2005-06-14 2006-12-28 Fuji Xerox Co Ltd 動作分析装置
GB2432064B (en) * 2005-10-31 2011-01-19 Hewlett Packard Development Co Method of triggering a detector to detect a moving feature within a video stream
US7808521B2 (en) * 2006-01-09 2010-10-05 Apple Inc. Multimedia conference recording and manipulation interface
US7636450B1 (en) 2006-01-26 2009-12-22 Adobe Systems Incorporated Displaying detected objects to indicate grouping
US7813557B1 (en) 2006-01-26 2010-10-12 Adobe Systems Incorporated Tagging detected objects
US7694885B1 (en) 2006-01-26 2010-04-13 Adobe Systems Incorporated Indicating a tag with visual data
US7706577B1 (en) * 2006-01-26 2010-04-27 Adobe Systems Incorporated Exporting extracted faces
US7978936B1 (en) 2006-01-26 2011-07-12 Adobe Systems Incorporated Indicating a correspondence between an image and an object
US7813526B1 (en) 2006-01-26 2010-10-12 Adobe Systems Incorporated Normalizing detected objects
US8259995B1 (en) 2006-01-26 2012-09-04 Adobe Systems Incorporated Designating a tag icon
US7720258B1 (en) 2006-01-26 2010-05-18 Adobe Systems Incorporated Structured comparison of objects from similar images
US7716157B1 (en) 2006-01-26 2010-05-11 Adobe Systems Incorporated Searching images with extracted objects
US7823056B1 (en) 2006-03-15 2010-10-26 Adobe Systems Incorporated Multiple-camera video recording
US8024189B2 (en) 2006-06-22 2011-09-20 Microsoft Corporation Identification of people using multiple types of input
GB2440993C (en) * 2006-07-25 2014-03-19 Sony Comp Entertainment Europe Apparatus and method of interaction with a data processor
US7623755B2 (en) 2006-08-17 2009-11-24 Adobe Systems Incorporated Techniques for positioning audio and video clips
US7847815B2 (en) 2006-10-11 2010-12-07 Cisco Technology, Inc. Interaction based on facial recognition of conference participants
CN101558448B (zh) * 2006-12-13 2011-09-21 汤姆森许可贸易公司 用于获取并编辑音频数据和视频数据的系统和方法
IL182391A0 (en) * 2007-04-10 2007-07-24 Nario C System, method and device for presenting video signals
US9117119B2 (en) 2007-09-01 2015-08-25 Eyelock, Inc. Mobile identity platform
US9280706B2 (en) 2011-02-17 2016-03-08 Eyelock Llc Efficient method and system for the acquisition of scene imagery and iris imagery using a single sensor
US9002073B2 (en) * 2007-09-01 2015-04-07 Eyelock, Inc. Mobile identity platform
WO2009029757A1 (en) 2007-09-01 2009-03-05 Global Rainmakers, Inc. System and method for iris data acquisition for biometric identification
US8212870B2 (en) 2007-09-01 2012-07-03 Hanna Keith J Mirror system and method for acquiring biometric data
US9036871B2 (en) 2007-09-01 2015-05-19 Eyelock, Inc. Mobility identity platform
CN101350906B (zh) * 2008-09-04 2012-06-27 北京中星微电子有限公司 图像矫正方法和图像矫正装置
JP5247356B2 (ja) * 2008-10-29 2013-07-24 キヤノン株式会社 情報処理装置およびその制御方法
JP5483863B2 (ja) * 2008-11-12 2014-05-07 キヤノン株式会社 情報処理装置およびその制御方法
US8645283B2 (en) 2008-11-24 2014-02-04 Nokia Corporation Determination of event of interest
EP2526507A1 (en) 2010-01-20 2012-11-28 Telefonaktiebolaget L M Ericsson (PUBL) Meeting room participant recogniser
JP2011205599A (ja) * 2010-03-26 2011-10-13 Toshiba Corp 信号処理装置
US20110304774A1 (en) * 2010-06-11 2011-12-15 Microsoft Corporation Contextual tagging of recorded data
JP5740972B2 (ja) * 2010-09-30 2015-07-01 ソニー株式会社 情報処理装置および情報処理方法
US9484065B2 (en) * 2010-10-15 2016-11-01 Microsoft Technology Licensing, Llc Intelligent determination of replays based on event identification
US8868657B2 (en) 2010-12-17 2014-10-21 Avaya Inc. Method and system for generating a collaboration timeline illustrating application artifacts in context
KR101760345B1 (ko) * 2010-12-23 2017-07-21 삼성전자주식회사 동영상 촬영 방법 및 동영상 촬영 장치
US8949123B2 (en) 2011-04-11 2015-02-03 Samsung Electronics Co., Ltd. Display apparatus and voice conversion method thereof
CN102572356B (zh) 2012-01-16 2014-09-03 华为技术有限公司 记录会议的方法和会议系统
US9449303B2 (en) * 2012-01-19 2016-09-20 Microsoft Technology Licensing, Llc Notebook driven accumulation of meeting documentation and notations
CN102724181A (zh) * 2012-05-30 2012-10-10 中兴通讯股份有限公司 会议控制方法和装置
US9302178B2 (en) 2012-12-13 2016-04-05 Empire Technology Development Llc Gaming scheme using general mood information
US9124762B2 (en) 2012-12-20 2015-09-01 Microsoft Technology Licensing, Llc Privacy camera
US9020120B2 (en) 2013-02-06 2015-04-28 Avaya Inc. Timeline interface for multi-modal collaboration
CN103297688A (zh) * 2013-04-16 2013-09-11 宁波高新区阶梯科技有限公司 一种多媒体全景录制系统及录制方法
TWI611692B (zh) * 2013-09-18 2018-01-11 佳能企業股份有限公司 電子裝置及影像顯示方法
US9257117B2 (en) * 2014-02-04 2016-02-09 Avaya Inc. Speech analytics with adaptive filtering
CN104932665B (zh) * 2014-03-19 2018-07-06 联想(北京)有限公司 一种信息处理方法以及一种电子设备
JP5959771B2 (ja) * 2014-06-27 2016-08-02 株式会社東芝 電子機器、方法およびプログラム
CN105376515B (zh) * 2014-09-02 2019-03-19 华为技术有限公司 用于视频通讯的通讯信息的呈现方法、装置及系统
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
CN105512348B (zh) * 2016-01-28 2019-03-26 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN105976828A (zh) * 2016-04-19 2016-09-28 乐视控股(北京)有限公司 一种声音区分方法和终端
CN106101857B (zh) * 2016-06-16 2019-07-19 华为技术有限公司 一种视频画面的显示方法及装置
TW201901527A (zh) * 2017-05-26 2019-01-01 和碩聯合科技股份有限公司 視訊會議裝置與視訊會議管理方法
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
JP6672399B2 (ja) * 2018-08-13 2020-03-25 Dynabook株式会社 電子機器
CN111193890B (zh) * 2018-11-14 2022-06-17 株式会社理光 会议记录解析装置、方法和会议记录播放系统
RU2719328C1 (ru) * 2019-12-26 2020-04-17 Общество с ограниченной ответственностью "ФАН ЭДИТОР" Система автоматического создания сценарного видеоролика с присутствием в кадре заданного объекта или группы объектов
CN111899743A (zh) * 2020-07-31 2020-11-06 斑马网络技术有限公司 获取目标声音的方法、装置、电子设备及存储介质
US11463499B1 (en) * 2020-12-18 2022-10-04 Vr Edu Llc Storage and retrieval of virtual reality sessions state based upon participants
TWI790669B (zh) * 2021-07-02 2023-01-21 信驊科技股份有限公司 會議檢視方法及裝置
CN114819110B (zh) * 2022-06-23 2022-10-21 之江实验室 一种实时识别视频中说话人的方法及装置

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59196679A (ja) * 1983-04-22 1984-11-08 Toshiba Corp 複数のカラ−テレビジヨンカメラのホワイトバランス調整方式
US5504524A (en) * 1993-10-15 1996-04-02 Vlsi Vision Limited Method and apparatus for controlling color balance of a video signal
US5796426A (en) 1994-05-27 1998-08-18 Warp, Ltd. Wide-angle image dewarping method and apparatus
US5745305A (en) 1995-04-28 1998-04-28 Lucent Technologies Inc. Panoramic viewing apparatus
US5990934A (en) 1995-04-28 1999-11-23 Lucent Technologies, Inc. Method and system for panoramic viewing
US5793527A (en) 1995-06-30 1998-08-11 Lucent Technologies Inc. High resolution viewing system
US5539483A (en) 1995-06-30 1996-07-23 At&T Corp. Panoramic projection apparatus
US6115176A (en) 1995-11-30 2000-09-05 Lucent Technologies Inc. Spherical viewing/projection apparatus
US6111702A (en) 1995-11-30 2000-08-29 Lucent Technologies Inc. Panoramic viewing system with offset virtual optical centers
US6493032B1 (en) 1996-06-24 2002-12-10 Be Here Corporation Imaging arrangement which allows for capturing an image of a view at different resolutions
US6373642B1 (en) 1996-06-24 2002-04-16 Be Here Corporation Panoramic imaging arrangement
US6331869B1 (en) 1998-08-07 2001-12-18 Be Here Corporation Method and apparatus for electronically distributing motion panoramic images
US6341044B1 (en) 1996-06-24 2002-01-22 Be Here Corporation Panoramic imaging arrangement
US6459451B2 (en) 1996-06-24 2002-10-01 Be Here Corporation Method and apparatus for a panoramic camera to capture a 360 degree image
AU6515798A (en) 1997-04-16 1998-11-11 Isight Ltd. Video teleconferencing
US6356296B1 (en) 1997-05-08 2002-03-12 Behere Corporation Method and apparatus for implementing a panoptic camera system
US6043837A (en) 1997-05-08 2000-03-28 Be Here Corporation Method and apparatus for electronically distributing images from a panoptic camera system
US6466254B1 (en) 1997-05-08 2002-10-15 Be Here Corporation Method and apparatus for electronically distributing motion panoramic images
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6101287A (en) * 1998-05-27 2000-08-08 Intel Corporation Dark frame subtraction
US6404900B1 (en) 1998-06-22 2002-06-11 Sharp Laboratories Of America, Inc. Method for robust human face tracking in presence of multiple persons
JP4194133B2 (ja) * 1998-06-24 2008-12-10 キヤノン株式会社 画像処理方法及び装置及び記憶媒体
US6924832B1 (en) 1998-08-07 2005-08-02 Be Here Corporation Method, apparatus & computer program product for tracking objects in a warped video image
US6128143A (en) 1998-08-28 2000-10-03 Lucent Technologies Inc. Panoramic viewing system with support stand
US6195204B1 (en) 1998-08-28 2001-02-27 Lucent Technologies Inc. Compact high resolution panoramic viewing system
US6144501A (en) 1998-08-28 2000-11-07 Lucent Technologies Inc. Split mirrored panoramic image display
US6141145A (en) 1998-08-28 2000-10-31 Lucent Technologies Stereo panoramic viewing system
US6285365B1 (en) 1998-08-28 2001-09-04 Fullview, Inc. Icon referenced panoramic image display
GB2342802B (en) 1998-10-14 2003-04-16 Picturetel Corp Method and apparatus for indexing conference content
US6369818B1 (en) 1998-11-25 2002-04-09 Be Here Corporation Method, apparatus and computer program product for generating perspective corrected data from warped information
US6175454B1 (en) 1999-01-13 2001-01-16 Behere Corporation Panoramic imaging arrangement
US6597520B2 (en) 1999-01-13 2003-07-22 Be Here Corporation Panoramic imaging arrangement
US6788340B1 (en) * 1999-03-15 2004-09-07 Texas Instruments Incorporated Digital imaging control with selective intensity resolution enhancement
TW420937B (en) * 1999-05-06 2001-02-01 Umax Data Systems Inc Dynamic calibration method
US6795106B1 (en) 1999-05-18 2004-09-21 Intel Corporation Method and apparatus for controlling a video camera in a video conferencing system
JP4581210B2 (ja) 2000-09-29 2010-11-17 日本電気株式会社 テレビ会議システム
US6741250B1 (en) 2001-02-09 2004-05-25 Be Here Corporation Method and system for generation of multiple viewpoints into a scene viewed by motionless cameras and for presentation of a view path
JP2002251393A (ja) * 2001-02-22 2002-09-06 Ricoh Co Ltd 記録装置、記録方法、プログラムおよび記録媒体並びに記録再生システム
US6756990B2 (en) 2001-04-03 2004-06-29 Be Here Corporation Image filtering on 3D objects using 2D manifolds
US20040021764A1 (en) 2002-01-28 2004-02-05 Be Here Corporation Visual teleconferencing apparatus
US20040008423A1 (en) 2002-01-28 2004-01-15 Driscoll Edward C. Visual teleconferencing apparatus
US20030142402A1 (en) 2002-01-30 2003-07-31 Be Here Corporation Method and apparatus for triggering a remote flash on a camera with a panoramic lens
US20030146982A1 (en) * 2002-02-01 2003-08-07 Tindall John R. Special color pigments for calibrating video cameras
JP2003230049A (ja) 2002-02-06 2003-08-15 Sharp Corp カメラ制御方法及びカメラ制御装置並びにテレビ会議システム
US6995791B2 (en) * 2002-04-02 2006-02-07 Freescale Semiconductor, Inc. Automatic white balance for digital imaging
US6917702B2 (en) * 2002-04-24 2005-07-12 Mitsubishi Electric Research Labs, Inc. Calibration of multiple cameras for a turntable-based 3D scanner
US7012757B2 (en) 2002-05-08 2006-03-14 Be Here Corporation Method for designing a lens system and resulting apparatus
US20030220971A1 (en) 2002-05-23 2003-11-27 International Business Machines Corporation Method and apparatus for video conferencing with audio redirection within a 360 degree view
US20050046703A1 (en) 2002-06-21 2005-03-03 Cutler Ross G. Color calibration in photographic devices
US7602412B2 (en) 2002-06-21 2009-10-13 Microsoft Corporation Temperature compensation in multi-camera photographic devices
US7782357B2 (en) 2002-06-21 2010-08-24 Microsoft Corporation Minimizing dead zones in panoramic images
US7852369B2 (en) * 2002-06-27 2010-12-14 Microsoft Corp. Integrated design for omni-directional camera and microphone array
US8599266B2 (en) 2002-07-01 2013-12-03 The Regents Of The University Of California Digital processing of video images
GB2395780A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Face detection
GB2395852B (en) * 2002-11-29 2006-04-19 Sony Uk Ltd Media handling system
US7019918B2 (en) 2003-06-12 2006-03-28 Be Here Corporation Panoramic imaging system
US20040254982A1 (en) 2003-06-12 2004-12-16 Hoffman Robert G. Receiving system for video conferencing system
US7433327B2 (en) * 2003-10-09 2008-10-07 Hewlett-Packard Development Company, L.P. Method and system for coordinating communication devices to create an enhanced representation of an ongoing event

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2651885C2 (ru) * 2010-10-07 2018-04-24 Сони Корпорейшн Устройство обработки информации и способ обработки информации
RU2610451C2 (ru) * 2012-09-24 2017-02-13 Хуавэй Текнолоджиз Ко., Лтд. Способ, устройство и система записи видеоконференции

Also Published As

Publication number Publication date
AU2005220252A1 (en) 2006-05-18
CA2521670C (en) 2013-12-24
JP2006129480A (ja) 2006-05-18
CN1783998A (zh) 2006-06-07
MXPA05010595A (es) 2006-05-04
EP1659518A3 (en) 2010-01-13
US7598975B2 (en) 2009-10-06
EP1659518B1 (en) 2017-08-02
CA2521670A1 (en) 2006-04-30
RU2005133403A (ru) 2007-05-10
BRPI0504224A (pt) 2006-06-27
KR20060051672A (ko) 2006-05-19
US20050285943A1 (en) 2005-12-29
ES2645313T3 (es) 2017-12-04
EP1659518A2 (en) 2006-05-24
JP5027400B2 (ja) 2012-09-19
CN1783998B (zh) 2010-07-21
KR101238586B1 (ko) 2013-02-28

Similar Documents

Publication Publication Date Title
RU2398277C2 (ru) Автоматическое извлечение лиц для использования во временной шкале записанных конференций
US8111282B2 (en) System and method for distributed meetings
JP4453392B2 (ja) ライブのおよび記録されたマルチメディアドキュメントをブックマークするシステムと方法
KR100996787B1 (ko) 오디오 비주얼 컨텐트 요약 및 인덱싱 방법, 이 방법을 수행하도록 실행가능한 컴퓨터 판독가능 기록 매체, 및 미팅의 오디오 및 비디오 컨텐트를 캡쳐하기 위한 시스템
US7512883B2 (en) Portable solution for automatic camera management
EP2328018A1 (en) Digital camera and associated method
US20060251384A1 (en) Automatic video editing for real-time multi-point video conferencing
US20060164552A1 (en) Embedding a panoramic image in a video stream
JP2005267279A (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
JP2006085440A (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
US20230231973A1 (en) Streaming data processing for hybrid online meetings
JP2007052566A (ja) 情報処理システムおよび情報処理方法
JP2016063477A (ja) 会議システム、情報処理方法、及びプログラム
WO2023160288A1 (zh) 会议纪要生成方法、装置、电子设备和可读存储介质
US10474743B2 (en) Method for presenting notifications when annotations are received from a remote device
JP2012053855A (ja) コンテンツ閲覧装置、コンテンツ表示方法及びコンテンツ表示プログラム
Ronzhin et al. A software system for the audiovisual monitoring of an intelligent meeting room in support of scientific and education activities
CN112822554A (zh) 一种多媒体处理方法、装置及电子设备
JP2006146348A (ja) データ管理装置、データ管理システム、データ管理方法、およびコンピュータプログラム
JP2005250317A (ja) 情報処理装置
JP2009026261A (ja) マルチマディア情報処理システム、マルチメディア情報処理システム用プログラム

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150526

MM4A The patent is invalid due to non-payment of fees

Effective date: 20191029