RU2008150475A - Идентификация людей с помощью нескольких типов ввода - Google Patents

Идентификация людей с помощью нескольких типов ввода Download PDF

Info

Publication number
RU2008150475A
RU2008150475A RU2008150475/09A RU2008150475A RU2008150475A RU 2008150475 A RU2008150475 A RU 2008150475A RU 2008150475/09 A RU2008150475/09 A RU 2008150475/09A RU 2008150475 A RU2008150475 A RU 2008150475A RU 2008150475 A RU2008150475 A RU 2008150475A
Authority
RU
Russia
Prior art keywords
feature
classifier
input
preferred feature
type
Prior art date
Application number
RU2008150475/09A
Other languages
English (en)
Inventor
Ча ЧЖАН (US)
Ча ЧЖАН
Пол А. ВАЙОЛА (US)
Пол А. ВАЙОЛА
Пей ИНЬ (US)
Пей ИНЬ
Росс Г. КАТЛЕР (US)
Росс Г. КАТЛЕР
Синьдин САН (US)
Синьдин САН
Йонг РЮЙ (US)
Йонг РЮЙ
Original Assignee
Майкрософт Корпорейшн (Us)
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн (Us), Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн (Us)
Publication of RU2008150475A publication Critical patent/RU2008150475A/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Social Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

1. Способ, содержащий этапы, на которых ! идентифицируют пул признаков (310), содержащий, по меньшей мере, один признак из первого типа ввода и, по меньшей мере, один признак из второго типа ввода, где второй тип ввода отличается от первого типа ввода; и ! формируют классификатор для обнаружения (315) источников речи с помощью алгоритма обучения, при этом узлы классификатора выбираются из пула признаков. ! 2. Способ по п.1, дополнительно содержащий этап, на котором ! оценивают классификатор, чтобы обнаружить человека (320). !3. Способ по п.2, в котором, по меньшей мере, один из, по меньшей мере, одного признака из первого типа ввода или из, по меньшей мере, одного признака из второго типа ввода работает таким образом, что ошибочный положительный результат ассоциативно связан со вторым человеком, который отличается от человека. ! 4. Способ по п.1, дополнительно содержащий этап, на котором ! сортируют узлы классификатора после этапа (315) формирования таким образом, чтобы предпочтительный признак размещался в классификаторе перед менее предпочтительным признаком. ! 5. Способ по п.4, в котором предпочтительный признак требует меньше вычислений, чем менее предпочтительный признак. ! 6. Способ по п.4, в котором предпочтительный признак более тесно коррелирует с обнаружением источника речи, чем менее предпочтительный признак. ! 7. Способ по п.1, в котором этап (315) формирования дополнительно содержит этап, на котором взвешивают предпочтительный признак с более высоким коэффициентом, чем менее предпочтительный признак, с тем, чтобы предпочтительный признак размещался в классификаторе перед менее предпочтительным признаком. ! 8. Способ по п.1, �

Claims (20)

1. Способ, содержащий этапы, на которых
идентифицируют пул признаков (310), содержащий, по меньшей мере, один признак из первого типа ввода и, по меньшей мере, один признак из второго типа ввода, где второй тип ввода отличается от первого типа ввода; и
формируют классификатор для обнаружения (315) источников речи с помощью алгоритма обучения, при этом узлы классификатора выбираются из пула признаков.
2. Способ по п.1, дополнительно содержащий этап, на котором
оценивают классификатор, чтобы обнаружить человека (320).
3. Способ по п.2, в котором, по меньшей мере, один из, по меньшей мере, одного признака из первого типа ввода или из, по меньшей мере, одного признака из второго типа ввода работает таким образом, что ошибочный положительный результат ассоциативно связан со вторым человеком, который отличается от человека.
4. Способ по п.1, дополнительно содержащий этап, на котором
сортируют узлы классификатора после этапа (315) формирования таким образом, чтобы предпочтительный признак размещался в классификаторе перед менее предпочтительным признаком.
5. Способ по п.4, в котором предпочтительный признак требует меньше вычислений, чем менее предпочтительный признак.
6. Способ по п.4, в котором предпочтительный признак более тесно коррелирует с обнаружением источника речи, чем менее предпочтительный признак.
7. Способ по п.1, в котором этап (315) формирования дополнительно содержит этап, на котором взвешивают предпочтительный признак с более высоким коэффициентом, чем менее предпочтительный признак, с тем, чтобы предпочтительный признак размещался в классификаторе перед менее предпочтительным признаком.
8. Способ по п.1, в котором первый тип ввода или второй тип ввода включает в себя аудиоввод (120), а пул признаков включает в себя аудиопризнак (420), ассоциативно связанный со вводом с локализацией источника звука.
9. Способ по п.8, в котором аудиопризнак (420) ассоциативно связан с функцией, выбираемой из следующих функций:
Figure 00000001
10. Способ по п.1, в котором первый тип ввода или второй тип ввода включает в себя видеоввод (110), а пул признаков включает в себя видеопризнак (430), задаваемый посредством прямоугольника.
11. Способ по п.1, в котором алгоритм (745) обучения содержит алгоритм AdaBoost.
12. Способ, содержащий этапы, на которых
принимают входные данные (810), содержащие первый тип входных данных и второй тип входных данных, который отличается от первого типа входных данных; и
оценивают классификатор (855) обнаружения людей, чтобы детектировать человека, причем классификатор создан посредством этапов, на которых
идентифицируют пул признаков (310), содержащий, по меньшей мере, один признак, ассоциативно связанный с первым типом входных данных, и, по меньшей мере, один признак, ассоциативно связанный со вторым типом входных данных; и
формируют классификатор с помощью алгоритма обучения посредством выбора узлов классификатора из пула признаков.
13. Способ по п.12, в котором источник речи является человеком.
14. Способ по п.12, в котором классификатор дополнительно создается посредством сортировки узлов классификатора после этапа формирования, с тем, чтобы предпочтительный признак размещался в классификаторе перед менее предпочтительным признаком.
15. Способ по п.14, в котором предпочтительный признак требует меньше вычислений, чем менее предпочтительный признак.
16. Способ по п.14, в котором предпочтительный признак более тесно коррелируется с обнаружением человека, чем менее предпочтительный признак.
17. Способ по п.12, в котором этап формирования дополнительно содержит этап, на котором взвешивают предпочтительный признак с более высоким коэффициентом, чем менее предпочтительный признак, с тем, чтобы предпочтительный признак размещался в классификаторе перед менее предпочтительным признаком.
18. Система, содержащая
устройство (110) видеоввода, которое формирует видеоданные (140);
устройство (120) аудиоввода, которое формирует аудиоданные (150); и
устройство (165) обнаружения, включающее в себя детектор (170), выполненный с возможностью принимать видеоданные и аудиоданные и оценивать классификатор обнаружения людей, чтобы детектировать человека, причем классификатор создан посредством этапов, на которых
идентифицируют пул признаков (310), содержащий, по меньшей мере, один признак, ассоциативно связанный с видеоданными, и, по меньшей мере, один признак, ассоциативно связанный с аудиоданными; и
формируют классификатор с помощью алгоритма обучения посредством выбора узлов классификатора из пула признаков.
19. Система по п.18, дополнительно содержащая
вспомогательное устройство (175), которое предоставляет хранилище, по меньшей мере, для части видеоданных и, по меньшей мере, для части аудиоданных.
20. Система по п.18, в которой аудиоданные включают в себя данные локализации источника звука, а пул признаков включает в себя аудиопризнак (420), ассоциативно связанный с функцией, выбираемой из следующих функций:
Figure 00000002
Figure 00000003
RU2008150475/09A 2006-06-22 2007-02-13 Идентификация людей с помощью нескольких типов ввода RU2008150475A (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/425,967 US8024189B2 (en) 2006-06-22 2006-06-22 Identification of people using multiple types of input
US11/425,967 2006-06-22

Publications (1)

Publication Number Publication Date
RU2008150475A true RU2008150475A (ru) 2010-06-27

Family

ID=38873629

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008150475/09A RU2008150475A (ru) 2006-06-22 2007-02-13 Идентификация людей с помощью нескольких типов ввода

Country Status (14)

Country Link
US (3) US8024189B2 (ru)
EP (1) EP2035799B1 (ru)
KR (1) KR101323056B1 (ru)
CN (1) CN101473207B (ru)
BR (1) BRPI0711800A2 (ru)
CA (1) CA2653278C (ru)
CY (1) CY1113152T1 (ru)
DK (1) DK2035799T3 (ru)
ES (1) ES2390295T3 (ru)
PL (1) PL2035799T3 (ru)
PT (1) PT2035799E (ru)
RU (1) RU2008150475A (ru)
SI (1) SI2035799T1 (ru)
WO (1) WO2008016392A2 (ru)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8300080B2 (en) 2007-06-29 2012-10-30 Microsoft Corporation Techniques for detecting a display device
US20090150435A1 (en) * 2007-12-08 2009-06-11 International Business Machines Corporation Dynamic updating of personal web page
JP2009200713A (ja) * 2008-02-20 2009-09-03 Sony Corp 画像処理装置、画像処理方法、プログラム
US8150108B2 (en) * 2008-03-17 2012-04-03 Ensign Holdings, Llc Systems and methods of identification based on biometric parameters
US8571332B2 (en) 2008-03-19 2013-10-29 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for automatically classifying face images
US20090263010A1 (en) * 2008-04-18 2009-10-22 Microsoft Corporation Adapting a parameterized classifier to an environment
US8346800B2 (en) * 2009-04-02 2013-01-01 Microsoft Corporation Content-based information retrieval
CN101872477B (zh) * 2009-04-24 2014-07-16 索尼株式会社 检测图像中的对象的方法、装置,及包括该装置的系统
JP2012038131A (ja) * 2010-08-09 2012-02-23 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8983089B1 (en) * 2011-11-28 2015-03-17 Rawles Llc Sound source localization using multiple microphone arrays
CN103366177B (zh) * 2012-03-28 2016-12-07 佳能株式会社 对象检测分类器生成方法和设备、图像对象检测方法和设备
KR20140013142A (ko) * 2012-07-18 2014-02-05 삼성전자주식회사 이미지에서 목표를 검출하는 목표 검출 방법 및 이미지 처리 장치
US9449259B1 (en) * 2012-07-25 2016-09-20 Hrl Laboratories, Llc Opportunistic cascade and cascade training, evaluation, and execution for vision-based object detection
US9594968B1 (en) * 2012-09-27 2017-03-14 EMC IP Holding Company LLC Biometric profile creation
US9190061B1 (en) * 2013-03-15 2015-11-17 Google Inc. Visual speech detection using facial landmarks
US9596437B2 (en) * 2013-08-21 2017-03-14 Microsoft Technology Licensing, Llc Audio focusing via multiple microphones
US9215543B2 (en) * 2013-12-03 2015-12-15 Cisco Technology, Inc. Microphone mute/unmute notification
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
JP6966421B2 (ja) 2015-04-01 2021-11-17 オウル・ラブズ・インコーポレイテッドOwl Labs, Inc. 角度分離されたサブシーンの合成およびスケーリング
JP6528574B2 (ja) 2015-07-14 2019-06-12 株式会社リコー 情報処理装置、情報処理方法、および情報処理プログラム
JP2017028375A (ja) 2015-07-16 2017-02-02 株式会社リコー 映像処理装置、及びプログラム
JP2017028633A (ja) 2015-07-27 2017-02-02 株式会社リコー 映像配信端末、プログラム、及び、映像配信方法
EP3131311B1 (en) * 2015-08-14 2019-06-19 Nokia Technologies Oy Monitoring
US9904872B2 (en) 2015-11-13 2018-02-27 Microsoft Technology Licensing, Llc Visual representations of photo albums
CN107276777B (zh) * 2017-07-27 2020-05-29 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
EP3805902B1 (en) * 2018-05-04 2023-08-23 Google LLC Selective detection of visual cues for automated assistants
KR101925248B1 (ko) * 2018-05-16 2018-12-04 주식회사 공훈 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
CN111768760B (zh) * 2020-05-26 2023-04-18 云知声智能科技股份有限公司 一种多模态语音端点检测方法及装置
WO2022031872A1 (en) 2020-08-04 2022-02-10 Owl Labs Inc. Designated view within a multi-view composited webcam signal
US11736801B2 (en) 2020-08-24 2023-08-22 Owl Labs Inc. Merging webcam signals from multiple cameras

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3118340A (en) * 1964-01-21 Panoramic motion picture camera arrangement
JPH0771279B2 (ja) 1988-08-17 1995-07-31 富士通株式会社 テレビ会議用画像処理装置
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
TW223724B (en) 1993-05-24 1994-05-11 American Telephone & Telegraph Conference call participation tracking
US5436896A (en) 1994-03-17 1995-07-25 At&T Corp. Conference bridge for packetized speech-signal networks
JP3458486B2 (ja) 1994-10-25 2003-10-20 松下電器産業株式会社 全方位撮影装置及び全方位画像合成装置
US7570785B2 (en) * 1995-06-07 2009-08-04 Automotive Technologies International, Inc. Face monitoring system and method for vehicular occupants
US5778082A (en) 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
US6219639B1 (en) * 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US6317710B1 (en) 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
EP1062839B1 (en) 1998-11-11 2011-05-25 Koninklijke Philips Electronics N.V. Improved signal localization arrangement
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
US6766035B1 (en) 2000-05-03 2004-07-20 Koninklijke Philips Electronics N.V. Method and apparatus for adaptive position determination video conferencing and other applications
US7099510B2 (en) * 2000-11-29 2006-08-29 Hewlett-Packard Development Company, L.P. Method and system for object detection in digital images
US20020140804A1 (en) 2001-03-30 2002-10-03 Koninklijke Philips Electronics N.V. Method and apparatus for audio/image speaker detection and locator
US7174029B2 (en) * 2001-11-02 2007-02-06 Agostinelli John A Method and apparatus for automatic selection and presentation of information
US7024033B2 (en) * 2001-12-08 2006-04-04 Microsoft Corp. Method for boosting the performance of machine-learning classifiers
US7020257B2 (en) 2002-04-17 2006-03-28 Texas Instruments Incorporated Voice activity identiftication for speaker tracking in a packet based conferencing system with distributed processing
US20050046703A1 (en) 2002-06-21 2005-03-03 Cutler Ross G. Color calibration in photographic devices
US7598975B2 (en) 2002-06-21 2009-10-06 Microsoft Corporation Automatic face extraction for use in recorded meetings timelines
US7782357B2 (en) 2002-06-21 2010-08-24 Microsoft Corporation Minimizing dead zones in panoramic images
US7602412B2 (en) 2002-06-21 2009-10-13 Microsoft Corporation Temperature compensation in multi-camera photographic devices
US6940540B2 (en) 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
US7020337B2 (en) * 2002-07-22 2006-03-28 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting objects in images
US7031499B2 (en) * 2002-07-22 2006-04-18 Mitsubishi Electric Research Laboratories, Inc. Object recognition system
US7039199B2 (en) 2002-08-26 2006-05-02 Microsoft Corporation System and process for locating a speaker using 360 degree sound source localization
EP1443498B1 (en) 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US20040254982A1 (en) 2003-06-12 2004-12-16 Hoffman Robert G. Receiving system for video conferencing system
US7197186B2 (en) * 2003-06-17 2007-03-27 Mitsubishi Electric Research Laboratories, Inc. Detecting arbitrarily oriented objects in images
US7212651B2 (en) * 2003-06-17 2007-05-01 Mitsubishi Electric Research Laboratories, Inc. Detecting pedestrians using patterns of motion and appearance in videos
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings
US7495694B2 (en) 2004-07-28 2009-02-24 Microsoft Corp. Omni-directional camera with calibration and up look angle improvements
US20050117015A1 (en) 2003-06-26 2005-06-02 Microsoft Corp. Foveated panoramic camera system
WO2005031654A1 (en) * 2003-09-30 2005-04-07 Koninklijke Philips Electronics, N.V. System and method for audio-visual content synthesis
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
US7242810B2 (en) * 2004-05-13 2007-07-10 Proximex Corporation Multimodal high-dimensional data fusion for classification and identification
JP3985234B2 (ja) 2004-06-29 2007-10-03 ソニー株式会社 音像定位装置
US7812882B2 (en) 2004-12-30 2010-10-12 Microsoft Corporation Camera lens shuttering mechanism
US7616588B2 (en) 2005-03-31 2009-11-10 Microsoft Corporation Simplified creation and termination of an ad hoc wireless network with internet connection sharing

Also Published As

Publication number Publication date
SI2035799T1 (sl) 2012-10-30
US8234113B2 (en) 2012-07-31
PT2035799E (pt) 2012-09-17
EP2035799A2 (en) 2009-03-18
CN101473207A (zh) 2009-07-01
CA2653278C (en) 2015-06-23
KR101323056B1 (ko) 2013-10-29
PL2035799T3 (pl) 2012-12-31
CY1113152T1 (el) 2016-04-13
WO2008016392A2 (en) 2008-02-07
CA2653278A1 (en) 2008-02-07
US8024189B2 (en) 2011-09-20
ES2390295T3 (es) 2012-11-08
US20120278077A1 (en) 2012-11-01
EP2035799B1 (en) 2012-07-25
WO2008016392A3 (en) 2008-03-13
CN101473207B (zh) 2013-03-27
DK2035799T3 (da) 2012-09-10
US20070297682A1 (en) 2007-12-27
EP2035799A4 (en) 2010-08-25
BRPI0711800A2 (pt) 2011-12-06
US20110313766A1 (en) 2011-12-22
KR20090031512A (ko) 2009-03-26
US8510110B2 (en) 2013-08-13

Similar Documents

Publication Publication Date Title
RU2008150475A (ru) Идентификация людей с помощью нескольких типов ввода
CN110704682B (zh) 一种基于视频多维特征智能推荐背景音乐的方法及系统
CN110246512B (zh) 声音分离方法、装置及计算机可读存储介质
Coughlin et al. Classifying the unknown: discovering novel gravitational-wave detector glitches using similarity learning
US20130346412A1 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
RU2008152794A (ru) Идентификация медиаданных
JP6928206B2 (ja) 連合クラスタリング深層学習ニューラルネットワークに基づくデータ識別方法
CA2671091A1 (en) Identifying images using face recognition
CN110427859A (zh) 一种人脸检测方法、装置、电子设备及存储介质
JP2016076073A (ja) データ処理装置、データ処理方法、及び、コンピュータ・プログラム
US11748864B2 (en) Person verification device and method and non-transitory computer readable media
CN110309744A (zh) 一种嫌疑人识别方法及装置
CN106599110A (zh) 基于人工智能的语音搜索方法及装置
Gong et al. Vocalsound: A dataset for improving human vocal sounds recognition
CN114677650B (zh) 地铁乘客行人违法行为智能分析方法及装置
Dong et al. At the speed of sound: Efficient audio scene classification
US10191976B2 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
CN116208802A (zh) 视频数据多模态合规检测方法、存储介质和合规检测设备
JP2003281157A (ja) 人物検索システム、人物追跡システム、人物検索方法および人物追跡方法
CN108875770B (zh) 行人检测误报数据的标注方法、装置、系统和存储介质
Elizalde et al. City-identification of flickr videos using semantic acoustic features
CN111523318A (zh) 一种汉语短语分析方法、系统、存储介质及电子设备
Leškovský et al. Multimedia Analysis in Police–Citizen Communication: Supporting Daily Policing Tasks
Alnasser et al. Vocally Specified Text Recognition in Natural Scenes for the Blind and Visually Impaired
JP6714276B2 (ja) 情報抽出装置、情報抽出方法及びプログラム