KR20040086366A - 비디오-음성 조화법을 사용하여 사람 식별을 위한 방법 및시스템 - Google Patents

비디오-음성 조화법을 사용하여 사람 식별을 위한 방법 및시스템 Download PDF

Info

Publication number
KR20040086366A
KR20040086366A KR10-2004-7012461A KR20047012461A KR20040086366A KR 20040086366 A KR20040086366 A KR 20040086366A KR 20047012461 A KR20047012461 A KR 20047012461A KR 20040086366 A KR20040086366 A KR 20040086366A
Authority
KR
South Korea
Prior art keywords
audio
video
face
correlation
matrix
Prior art date
Application number
KR10-2004-7012461A
Other languages
English (en)
Inventor
리밍군
리동게
디미트로바네벤카
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20040086366A publication Critical patent/KR20040086366A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

비디오 데이터 내에서 누가 말하는 사람인지를 결정하기 위한 방법 및 시스템이 개시된다. 이러한 방법 및 시스템은 비디오 내용 분석 및 검색 애플리케이션에 사람 식별을 부가하기 위하여 사용된다. 얼굴 인식과 말하는 사람 식별 모두에 의존하여 사람 인식률을 개선하기 위한 상관관계가 사용된다. 잠재 어휘 결합(LSA) 처리 역시 말하는 사람의 얼굴과 그의 음성과의 결합을 개선하기 위하여 사용될 수 있다. 데이터의 다른 소스(예, 텍스트)가 비디오 내용을 이해하는 애플리케이션의 더 넓은 영역을 위하여 통합될 수 있다.

Description

비디오-음성 조화법을 사용하여 사람 식별을 위한 방법 및 시스템{METHOD AND SYSTEM FOR PERSON IDENTIFICATION USING VIDEO-SPEECH MATCHING}
사람 식별을 위한 종래의 시스템은 단일 양상의 처리 예컨대, 얼굴 검출 및 인식, 말하는 사람의 식별 및 이름 검출에 집중해왔다. 특히, 전형적인 비디오 데이터는 세 가지 상보적인 소스, 즉 영상, 오디오 및 텍스트를 통해 많은 양의 정보를 포함한다. 각각의 소스에서 사람 식별을 수행하는 기술, 예컨대 영상 영역에서 얼굴 검출 및 인식, 오디오 영역에서 말하는 사람의 식별 및 문자 영역에서의 이름 검출 등이 존재한다. 각각의 기술은 자신만의 애플리케이션과 단점을 갖는다. 예컨대, 이름 검출은 텔레비전 신호 내의 클로즈 캡션(closed captions) 또는 텔레텍스트와 같은 양호한 텍스트 소스가 없는 비디오에서는 작동하지 않는다.
일부 종래 기술, 예컨대 J. Yang 등에 의한 "멀티미디어 회의 브라우저를 위한 다중양식의 사람 ID"(ACM Multimedia '99의 회보, ACM 1999)은 비디오로부터 다중 큐(cue)를 통합하려고 시도하였다. 이러한 시스템은 확률 하부구조를 사용하는 얼굴 검출/인식 기술 및 말하는 사람의 식별 기술을 사용한다. 그러나 이 시스템은 비디오 상에 출현하는 개인을 말하는 사람이라고 간주하는데, 이는 항상 그러한 것은 아니다.
따라서, 해당 기술 분야에서, 비디오 내에서 누가 말하고 있는 지를 찾을 수 있고, 낮은 수준의 특성으로부터 비디오 내에서 음성/오디오와 다수 얼굴 사이의 관계를 구축할 수 있는 사람 식별 시스템이 필요하다.
본 발명은 비디오 데이터 내의 물체 식별 분야에 관한 것이다. 보다 상세하게, 본 발명은 비디오 데이터 내에서 말하는 사람을 식별하기 위한 방법 및 시스템에 관한 것이다.
사람 식별은 우리의 일상사에서 중요한 역할을 한다. 우리는 매우 어릴 때부터 어떻게 사람을 식별하는 지를 알고 있다. 비디오 카메라의 광범위한 사용에 따라, 비디오 데이터로부터 자동적으로 사람을 식별하기 위한 필요성이 증가하고 있다. 예컨대, 미국에서의 거의 모든 백화점은 감시 카메라 시스템을 구비한다. 예컨대 대량의 비디오 세트로부터 범죄자 또는 다른 사람을 식별할 필요가 있다. 그러나, 비디오 세트를 수동으로 검색하는 것은 시간 소모적이고 값비싼 과정이다. 대량의 비디오 수집자료에서 자동으로 사람 식별을 위한 수단이 이러한 목적을 위해 필요하다.
도 1은 본 발명의 한 실시예에 따른 사람 식별 시스템을 도시하는 도면.
도 2는 본 발명의 다양한 실시예에 실현될 수 있는 시스템의 개념도.
도 3은 도 2의 시스템의 구조를 도시하는 블록도.
도 4는 본 발명의 다른 실시예에 따른 사람 식별 방법을 설명하는 흐름도.
도 5a 및 도 5b는 얼굴 및 오디오 특성 사이의 상관관계 매트릭스의 그래픽 묘사의 예를 도시하는 도면.
도 6a 및 도 6b는 평균 에너지와 제 1 고유얼굴(eigenface) 사이의 관계를 도시하는 그래프의 한 예.
도 7은 LSI 절차를 적용한 후의 상관관계 매트릭스의 그래픽 묘사의 한 예.
본 발명은 얼굴을 말하는 것과 결합시키는데 낮은 수준의 오디오 및 비디오 특성을 사용할 수 있는 얼굴-음성 조화 방법을 구현한다. 이것은 복잡한 얼굴 인식 및 말하는 사람 식별 기술의 도움 없이 이루어진다. 본 발명의 다양한 실시예는 비디오 내에서 사람의 실체에 대한 사전 지식이 없이 일반적인 비디오 데이터의 분석을 위해 사용될 수 있다.
본 발명은 화상 회의에서 말하는 사람의 검출, 비디오 인덱싱(video indexing) 및 인간-컴퓨터 인터페이스의 개선과 같은 많은 애플리케이션을 갖는다. 화상 회의에서 누가 말하는 지의 인식은 비디오 카메라에게 그 말하는 사람에게 줌인(zoom-in)하도록 큐 신호를 보내는데 사용될 수 있다. 본 발명은 또한 말하는 사람의 비디오만이 전송되도록 대역폭-제한 화상 회의 애플리케이션에 사용될 수 있다. 본 발명은 또한 비디오를 인덱싱하기 위하여(예컨대, 사람이 말하고 있는 모든 비디오 세그먼트를 찾기 위하여) 사용될 수 있고, (예컨대, 말하는 특정 사람의 모든 비디오 세그먼트를 찾는)얼굴 인식 기술과 결합될 수 있다. 본 발명은 또한 소프트웨어 애플리케이션에 사용자가 말하는 장소와 시간의 지식을 제공함으로써 인간-컴퓨터 상호작용을 개선하는데 사용될 수 있다.
위에서 논의된 바와 같이, 사람 식별은 비디오 내용 분석과 검색 애플리케이션에서 중요한 역할을 한다. 시각 영역에서 얼굴 인식과 오디오 영역에서 말하는 사람 식별은 비디오 내에서 사람을 찾는 두 가지 주요 기술이다. 본 발명의 한 양상은 얼굴 인식 및 말하는 사람 식별 애플리케이션 모두에 의존하여 사람 인식률을 개선하는 것이다. 한 실시예에 있어서, 수학적인 하부구조 즉, 잠재-어휘-결합(Latent Semantic Association : LSA)이 말하는 사람의 얼굴과 그의 음성을 결합시키기 위하여 사용된다. 이러한 수학적인 하부구조는 상관관계 방법 및 잠재 어휘 인덱싱 방법을 통합한다. 이러한 수학적인 하부구조는 보다 많은 소스(예, 텍스트 정보 소스)를 통합하기 위하여 확장될 수 있고, 비디오 내용을 이해하는 애플리케이션의 더 넓은 영역에서 사용될 수 있다.
본 발명의 한 실시예는 비디오 데이터를 처리하기 위한 오디오-비주얼 시스템에 관한 것이다. 이러한 시스템은 비디오 데이터로부터 복수의 물체 특성을 제공할 수 있는 물체 검출 모듈과, 비디오 데이터로부터 복수의 오디오 특성을 제공할 수 있는 오디오 분할 모듈을 포함한다. 하나의 프로세서가 얼굴 검출 모듈 및 오디오 분할 모듈에 연결된다. 프로세서는 복수의 얼굴 특성과 복수의 오디오 특성 사이의 상관관계를 결정한다. 이러한 상관관계는 비디오 내의 한 얼굴이 말을 하고 있는 지의 여부를 결정하는데 사용될 수 있다.
본 발명의 다른 실시예는 비디오 데이터 내의 말하는 사람을 식별하기 위한 방법에 관한 것이다. 이러한 방법은 영상과 오디오 정보를 포함하는 비디오 데이터를 수신하는 단계와, 상기 비디오 데이터 내의 하나 이상의 얼굴로부터 복수의 얼굴 영상 특성을 결정하는 단계와, 오디오 정보에 관련된 복수의 오디오 특성을 결정하는 단계를 포함한다. 이러한 방법은 또한 복수의 얼굴 영상 특성과 오디오 특성 사이의 상관관계를 계산하는 단계와, 상기 상관관계에 기초하여 말하는 사람을 결정하는 단계를 포함한다.
본 발명의 또 다른 실시예는 영상과 오디오를 포함하는 비디오를 처리하기 위한 소프트웨어 코드를 포함하는 메모리 매체에 관한 것이다. 이러한 코드는 비디오로부터 복수의 물체 특성을 얻기 위한 코드와, 비디오로부터 복수의 오디오 특성을 얻기 위한 코드를 포함한다. 상기 코드는 또한 복수의 물체 특성과 복수의 오디오 특성 사이의 상관관계를 결정하기 위한 코드와, 비디오 내의 하나 이상의 물체와 오디오 사이의 결합을 결정하기 위한 코드를 포함한다.
다른 실시예에 있어서, 잠재-어휘 인덱싱 처리가 상관관계 절차를 개선하기 위하여 수행될 수 있다.
본 발명의 또 다른 특성 및 양상과, 다양한 장점은 첨부된 도면과 양호한 실시예의 다음의 설명으로부터 더욱 자명해질 것이다.
다음의 설명에서는, 제한이 아닌 설명을 위하여, 특정 구조, 인터페이스, 기술 등과 같은 특정 상세사항이 본 발명의 철저한 이해를 돕기 위하여 설명된다. 그러나, 본 발명이 이들 특정 상세사항으로부터 파생되는 다른 실시예로도 실시될 수 있다는 사실은 당업자에게는 자명할 것이다. 더욱이, 단순함과 명료함을 위하여, 본 발명의 설명을 불필요한 상세사항으로 모호하게 하지 않도록, 잘 알려진 디바이스, 회로, 및 방법의 상세한 설명은 생략된다.
도 1을 참조하면, 사람 식별 시스템(10)은 세 개의 독립적이고, 서로 상호작용하는 모듈, 즉 말하는 사람 식별 모듈(20), 얼굴 인식 모듈(30) 및 이름 검출 모듈(40)을 포함한다. 그러나, 모듈이 독립적일 필요는 없고, 예컨대 일부는 집적될 수 있음을 주목해야 한다. 그러나, 얼굴-음성 조화와 이름-얼굴 결합으로부터 더 양호한 성능을 얻기 위하여 각 모듈이 독립적이고 서로 상호작용할 수 있는 것이 바람직하다. 말하는 사람 식별 모듈(20)은 오디오 분할 및 분류 유니트(21), 말하는 사람 식별 유니트(22) 및 말하는 사람 ID 유니트(23)를 포함한다. 얼굴 인식 모듈(30)은 전체-얼굴 검출 유니트(31), 얼굴 인식 유니트(32) 및 얼굴 ID 유니트(33)를 포함한다. 이름 검출 모듈(40)은 텍스트 검출 인식 유니트(41), 이름 검출 유니트(42) 및 이름 유니트(43)을 포함한다. 사람 식별 시스템(10)은 얼굴-음성-조화 유니트(50), 이름-얼굴 결합 유니트(60) 및 사람 ID 유니트(70)를 더 포함한다.
얼굴 검출 및 인식, 말하는 사람 식별과 이름 검출을 독립적으로 수행하기 위한 몇가지 잘 알려진 기술이 있다. 예컨대, TV 뉴스에서 이름-얼굴 결합을 수행하는 시스템을 위한, S, Satoh 등에 의한 "이름 명명법 : 뉴스 비디오에서 얼굴에 이름을 붙이고 검출하는 방법"{IEEE 멀티미디어 6(1): 22-23쪽, 1999년 1월-3월(봄)}을 참조. 그러나, 이러한 시스템 역시 비디오에 출현하는 얼굴이 말하고 있는 사람이라고 간주하는데, 이는 항상 그러한 것은 아니다.
각 모듈에 대한 입력, 즉 오디오(A), 비디오(V), 비디오 캡션(VC)(비디오텍스트로도 불림) 및 클로스 캡션(CC)은 다양한 소스로부터 입력될 수 있다. 입력은 화상회의 시스템, 디지털 TV 신호, 인터넷, DVD 또는 다른 비디오 소스로부터 입력될 수 있다.
한 사람이 말하고 있을 때, 그는 전형적으로 얼굴 및/또는 머리를 일정하게 움직인다. 예컨대, 머리가 앞뒤로 움직이거나, 또는 좌측이나 우측으로 돌아갈 수 있다. 말하는 사람의 입은 또한 열리거나 닫힌다. 어느 순간에 그 사람은 일부 형태의 몸짓을 보이는 것과 함께 얼굴의 표현을 표출할 수 있다.
머리 움직임의 초기 결과는 얼굴 영상의 위치가 바뀐다는 점이다. 화상회의의 경우, 카메라의 움직임은 일반적으로 말하는 사람의 머리 움직임과 다르다, 즉 동기가 맞춰지지 않는다. 효과는 얼굴의 카메라에 대한 방향의 변화이다. 따라서, 얼굴의 하위 영상은 그 크기, 강도 및 컬러를 약간 변경시킬 것이다. 이러한 관점에서, 머리의 움직임은 얼굴의 위치 및 영상 변화를 초래한다.
입의 움직임을 포착하기 위하여, 두 가지 기본적인 접근법이 사용될 수 있다. 첫 번째로, 입의 움직임이 추적될 수 있다. 입술 판독을 고려한 종래의 시스템이 음성 인식에서 알려져 있다. 이러한 시스템은 어떤 단어가 발음되는 지를 추정하기 위하여 입술의 움직임을 추적한다. 그러나, 비디오 영역의 복잡성으로 인해, 입술의 움직임을 추적하는 것은 복잡한 일이다.
대안적으로, 입술 움직임으로부터 초래되는 얼굴 변화가 추적될 수 있다. 입술의 움직임에 따라, 하부 얼굴 영상의 컬러 강도가 별할 것이다. 덧붙여, 얼굴 영상의 크기 역시 약간 변할 것이다. 얼굴 영상의 하부에서 변화의 추적을 통해, 입술 움직임이 추적될 수 있다. 입술이 움직였는 지의 여부를 고려하는 지식만이 필요하기 때문에, 입술이 어떻게 움직였는 지를 정확하게 알 필요는 없다.
입술의 움직임과 유사하게, 얼굴 표현도 얼굴의 영상을 변화시킬 것이다. 이러한 변화는 유사한 방식으로 추적될 수 있다.
말하는 것으로부터 초래되는 이들 세 가지 작용(즉, 머리 움직임, 입술 움직임 및 얼굴 표현)을 고려할 때, 가장 중요한 것은 입술의 움직임이다. 명백하듯이, 입술의 움직임은 직접적으로 말하는 것에 관계가 된다. 따라서, 입술의 움직임을 정확하게 추적함으로써, 말하는 사람에 대한 결정이 이루어질 수 있다. 이러한 이유로, 머리 및 입술의 움직임을 반영하는, 머리 및 얼굴의 하부 영상의 위치를 추적하는 것이 바람직하다.
상기 논의는 시간 영역에서의 비디오 변화에 초점을 맞춘 것이다. 공간 영역에 있어서, 영상 변화를 추적하는 것을 돕기 위하여, 몇 가지 유용한 관찰이 이루어질 수 있다. 먼저, 말하는 사람은 자주 비디오 영상의 중앙에 출현한다. 두 번째로 말하는 사람의 얼굴은 일반적으로 디스플레이되는 전체 영상의 상당히 큰 부분(예컨대, 영상의 25% 이상)을 차지한다. 세 번째로 말하는 사람의 얼굴은 주로 정면이다. 이들 관찰은 영상 변화를 추적하는데 도움을 주기 위하여 사용될 수 있다. 그러나, 이들 관찰이 영상 변화를 추적하는데 필요한 것이 아님을 주목해야 한다.
패턴 인식 시스템에 있어서, 특성 선택은 결정적인 부분이다. 추적하기 위한 적절한 특성을 선택하는데 도움을 주기 위하여, 위에서 논의된 논의와 분석이 사용된다. 이후 특성의 최적화 및 감축을 수행하기 위하여 학습 과정이 역시 사용될 수있다.
얼굴 영상(비디오 입력)을 위하여, 기본 성분 분석(PCA : principal component analysis) 표현이 사용될 수 있다. {Francis Kubala 등에 의한 "구두 언어를 인덱싱하기 위한 통합 기술"(ACM 발표, 2000년 2월/vol 43, No.2)를 참조}. PCA 표현은 특성의 수를 극적으로 감소시키는데 사용될 수 있다. 그러나, PCA가 얼굴 방향에 매우 민감하고, 이는 얼굴 인식을 위해서는 불행이라는 것은 잘 알려져 있다. 그러나, 종래의 지식과는 반대로, 얼굴 방향에 민감하다는 점이 선호되는 것인데, 왜냐하면 이러한 점이 얼굴 방향 변화의 추적을 허용할 것이기 때문이다.
선택적으로, 국부 특성 분석(LFA : local feature analysis) 표현은 얼굴 영상을 위하여 사용될 수 있다. LFA는 PCA의 확장이다. LFA는 하나의 얼굴을 표현하는데 국부 특성을 사용한다. {Howard D. Wactlar 등에 의한 "방송 뉴스 자료를 위한 보완 비디오 및 오디오 분석"(ACM 발표, 2000년 2월/vol 43, No.2)를 참조}. LFA를 사용하여, 얼굴의 다른 움직임 예컨대 입술의 움직임이 추적될 수 있다.
오디오 입력 데이터를 위하여, 20개까지의 오디오 특성이 사용될 수 있다. 이들 오디오 특성은,
- 평균 에너지,
- 피치(pitch),
- 영 교차,
- 대역폭,
- 대역 중앙,
- 화제전환(roll off),
- 낮은 비율,
- 스펙트럼 플럭스(spectral flux) 및
- 12 MFCC 성분이다.
{Dongge Li 등에 의한 "내용에 기초한 검색을 위한 일반 오디오 데이터의 분류"(패턴 인식에 대한 근황보고 22, 2001, 533-544쪽)를 참조}. 이들 오디오 특성 모두 또는 이들의 일부는 말하는 사람의 식별을 위해 사용될 수 있다.
수학적인 개념에 있어서, 오디오 특성은 다음과 같이 표현될 수 있다.
K는 음성 신호를 표현하기 위하여 사용된 오디오 특성의 수를 나타낸다. 따라서, 예컨대 각 비디오 프레임 즉 K 차원의 벡터가 특정 비디오 프레임 내의 음성을 표현하기 위하여 사용된다. 심벌 '은 행렬의 전치를 나타낸다.
영상 데이터(예, 비디오 입력)의 경우, 각 얼굴에 대해 I 특성은 이것을 나타내기 위하여 사용된다. 따라서, 각 비디오 프레임에 대해, I 차원의 얼굴 벡터는 각 얼굴을 위해 사용된다. 비디오 데이터에 M 개의 얼굴이 있다고 하면, 각 비디오 프레임에 대한 얼굴은 다음과 같이 표현될 수 있다.
얼굴 특성과 오디오 특성의 모든 성분을 결합하면, 최종 벡터는 다음과 같다.
V는 한 비디오 프레임 내의 음성과 얼굴에 대한 모든 정보를 나타낸다. 더 큰 개념에서 고려될 때, 하나의 궤적에 N 개의 프레임이 있다면, i번째 프레임에 대한 V 벡터는 Vi이다.
도 1을 참조하면, 얼굴-음성-조화 유니트(50)가 도시되었다. 얼굴-음성-조화 유니트(50)는 말하는 사람 식별 모듈(20)과 얼굴 인식 모듈(30) 모두로부터의 데이터를 사용한다. 위에서 논의된 바와 같이, 이러한 데이터는 오디오 특성과 영상 특성을 포함한다. 얼굴-음성-조화 유니트(50)는 따라서 비디오 내에서 누가 말하는 지를 결정하여, 낮은 수준의 특성으로부터 비디오 내의 음성/오디오와 다수 얼굴 사이의 관계를 구축한다.
본 발명의 제 1 실시예에 있어서, 얼굴-음성-조화를 수행하기 위하여 상관관계 방법이 사용된다. 정규화된 상관관계는 오디오와 복수의 후보 얼굴 중 각 얼굴 사이에서 계산된다. 오디오와 최대 상관관계를 갖는 후보 얼굴은 말하는 얼굴이다. 얼굴과 음성 사이의 관계는 말하는 얼굴을 결정하기 위하여 필요함을 이해해야 한다. 두 개의 변수 사이의 관계를 계산하는 상관관계 처리는 이러한 일을 위하여 적합하다.
상관관계 처리를 수행하기 위하여, 오디오 벡터(수학식 1)와 얼굴 벡터(수학식 2) 사이의 상관관계를 결정하는 계산이 수행된다. 오디오와 최대 상관관계를 갖는 얼굴이 말하는 얼굴로 선택된다. 이것은 비디오 데이터 내의 얼굴 변화가 비디오 내의 음성에 대응하는 것을 고려한 것이다. 음성과 말하는 사람 사이에 일부 고유한 관계, 즉 수학적인 관계의 표현인 상관관계가 존재하는데, 이들 관계를 측정하기 위한 수단을 제공한다. 오디오 벡터와 얼굴 벡터 사이의 상관관계를 계산하기 위한 상관관계 처리는 다음과 같이 수학적으로 표현된다.
비디오의 평균 벡터는 다음과 같이 주어진다.
V의 공분산 행렬은 다음과 같이 주어진다.
정규화된 공분산은 다음과 같이 주어진다.
A{오디오 벡터(수학식 1)}와 얼굴 벡터(수학식 2)에서 m번째 얼굴 사이의 상관관계 행렬은 부분행렬 C(IM+1:IM+K, (m-1)I+1:MI)이다. c(m)으로 표기되는, 이들 부분행렬의 모든 성분의 합이 계산되는데, 이 합은 (m-1)번째 얼굴 벡터와 m번째얼굴 벡터 사이의 상관관계이다. 최대값 c(m)을 갖는 얼굴이 다음과 같이 말하는 얼굴로 선택된다.
제 2 실시예에 있어서, 얼굴-음성 조화를 수행하기 위하여 잠재 어휘 인덱싱(LSI : Latent Semantic Indexing) 방법이 또한 사용될 수 있다. LSI는 텍스트 정보 검색에서 강력한 방법이다. LSI는 거기에서의 객체들 즉, 키워드와 문헌 사이의 고유한 어휘의 관계를 밝힌다. LSI는 키워드와 문헌을 위한 새로운 표현을 얻기 위하여 행렬 계산에서 특이값 분해(SVD : singular value decomposition)를 사용한다. 이러한 새로운 표현에 있어서, 키워드와 문헌에 대한 기초는 상호관련되지 않는다. 이것은 키워드와 문헌을 표현하는데 훨씬 더 적은 세트의 기초 벡터의 사용을 허용한다. 결과적으로, 세 가지 이점이 보장된다. 첫 번째는 차원 감축이다. 두 번째는 잡음 제거이다. 세 번째는 키워드와 문헌과 같은 다른 객체 사이의 어휘 및 숨겨진 관계를 찾는 것이다.
본 발명의 이러한 실시예에 있어서, LSI는 오디오와 얼굴 사이의 고유 관계를 찾기 위하여 사용될 수 있다. LSI는 일부 의미에서 잡음을 제거하고 특성을 감소시키는데, 이는 전형적인 영상 및 오디오 데이터가 여분의 정보와 잡음을 포함하기 때문에 특히 유용하다.
그러나, 비디오 영역에 있어서의 사항은 텍스트 영역에서 보다 더욱 난해하다. 왜냐하면 텍스트 영역에서 문헌, 키워드의 기본 합성 블록이 그 자체로서 의미 있기 때문이다. 비디오 영역에 있어서, 영상과 오디오의 낮은 수준의 표현은 그 자체로서는 의미가 없다. 그러나, 이들의 결합은 개별적인 요소보다 다른 무언가를 나타낸다. 이러한 전제로, 영상 시퀀스와 수반되는 오디오 시퀀스 사이에는 일정한 관계가 있다. 본 발명자는 LSI가 비디오 영역에서의 관계를 처리함을 발견하였다.
LSI 처리를 수행하기 위하여, 비디오 시퀀스에 대한 행렬은 위에서 논의된 벡터를 사용하여 구성된다.
위에서 논의된 바와 같이, V의 각 요소는 비디오 및 오디오 특성:으로 이루어진 다른 성분이다. 단순히 이들을 함께 모아 직접 SVD를 수행하는 것은 의미가 없다. 그러므로, 각 성분은 다음과 같이 그들의 최대 요소에 의해 정규화된다.
수학식 9에서, X(i,:)는 행렬 X의 i번째 행을 나타낸다. 분모는 i번째 행의 최대 절대값 요소이다. 최종 행렬 X는 -1과 1 사이의 요소를 갖는다. V의 차원이 H이면, X는 H×N 차원의 행렬이다. 그 후, 특이값 분해는 다음과 같이 X에 대해 수행된다.
S는 한 열씩 XX'의 고유벡터로 이루어지고, D는 X'X의 고유벡터로 이루어지고, V는 대각선 요소가 고유벡터인 대각선 행렬이다.
일반적으로, S, V, D의 행렬은 모두 최대 계수(full rank)로 이루어져야만 한다. 그러나, SVD 처리는 더 적은 행렬을 사용하는, 최적의 근사 적합도를 위한 단순한 전략을 허용한다. 고유값은 V 내에서 내림차순으로 순서가 정해진다. 첫 번째 k개 요소가 X가 다음과 같이 표현될 수 있도록 유지된다.
는 V의 첫 번째 k개 요소로 이루어지고,는 S의 첫 번째 k개 열로 구성되고,는 D의 첫 번째 k 개 열로 구성된다.는 최소 자승의 의미에서 X의 최적의 표현이다.
X의 새로운 표현 이 후, 새로운 공간에서 다양한 연산이 수행될 수 있다. 예컨대, 얼굴 벡터(수학식 2)와 오디오 벡터(수학식 1)의 상관관계가 계산될 수 있다. 얼굴 벡터(수학식 2)와 오디오 벡터(수학식 1) 사이의 거리가 계산될 수 있다. 프레임 클러스터링을 수행하기 위한 비디오 프레임간의 차이 역시 계산될 수 있다. 얼굴-음성 조화를 위해, 얼굴 특성과 오디오 특성 사이의 상관관계가 상관관계 처리에서 상술한 바와 같이 계산된다.
k의 선택에는 어느정도 유연성이 있다. 이러한 값은 하부 데이터의 주요 정보를 유지하기에 충분하도록 크게, 그리고 동시에 잡음 및 관련없는 정보를 제거하기에 충분하도록 적게 선택되어야 한다. 일반적으로 k는 양호한 시스템 성능을 제공하기 위하여 10 내지 20의 범위이어야 한다.
도 2는 본 발명의 다양한 실시예가 구현될 수 있는 예시적인 물리적인 구조를 기술하는 개념도를 도시한다. 이러한 예시는 개인용 컴퓨터에 포함된 요소를 사용하는 방법의 실현을 기술한다. 양호한 실시예에 있어서, 시스템(10)은 데이터 처리 장치에 의해 실행되는 컴퓨터 판독가능 코드에 의해 구현된다. 코드는 데이터 처리 장치 내의 메모리에 저장될 수 있고, CD-ROM 또는 플로피 디스크와 같은 메모리 매체로부터 판독/다운로드될 수 있다. 다른 실시예에 있어서, 하드웨어 회로가 본 발명을 실현하기 위한 소프트웨어 지령 대신에 또는 이와 조합하여 사용될 수 있다. 예컨대, 본 발명은 처리를 위한 트라이미디어(Trimedia) 프로세서와 디스플레이를 위한 텔레비전 모니터를 사용하는 디지털 텔레비전 플랫폼 또는 셋톱 박스 상에서 구현될 수 있다.
도 2에 도시된 바와 같이, 컴퓨터(100)는 가변-대역폭 네트워크 즉 인터넷과 같은 데이터 네트워크에 인터페이스하기 위한 네트워크 연결(101), 및/또는 비디오 또는 디지털 카메라(미도시)와 같은 다른 원격 소스(102)와 인터페이스하기 위한 팩스/모뎀 연결을 포함할 수 있다. 컴퓨터(100)는 또한 정보(비디오 데이터를 포함)를 사용자에게 디스플레이하기 위한 디스플레이(103), 텍스트 및 사용자 명령을 입력하기 위한 키보드(104), 디스플레이(103) 상에서 커서의 위치를 지정하여 사용자 명령을 입력하기 위한 마우스(105), 설치된 플로피 디스크로부터 판독하거나 이에 기록하기 위한 디스크 드라이브(106) 및 CD-ROM 또는 DVD에 저장된 정보에 액세스하기 위한 CD-ROM/DVD 드라이브(107)를 포함한다. 컴퓨터(100)는 영상 등을 입력하기 위한 한 쌍의 화상회의 카메라와 같이 컴퓨터에 부착된 하나 이상의 주변 디바이스와, 영상, 텍스트 등을 출력하기 위한 프린터(108)를 구비할 수 있다.
다른 실시예는 하드웨어 및 소프트웨어의 다양한 수단, 및 광범위한 컨트롤러 및 프로세서에 의해 구현될 수 있다. 예컨대, 랩톱 또는 팜톱 컴퓨터, 화상회의 시스템, 개인휴대 단말기(PDA : personal digital assistant), 디스플레이를 구비한 전화기, 텔레비전, 셋톱박스 또는 다른 형태의 유사 디바이스가 사용될 수 있음을 주목해야 한다.
도 3은, 랜덤 액세스 메모리(RAM), 판독전용 메모리(ROM) 및 하드디스크와 같은 컴퓨터 판독가능 매체를 포함할 수 있는 메모리(110)를 포함하는 컴퓨터(100)의 내부 구조를 도시한다. 메모리(110) 내에 저장된 항목은 운영체계, 다양한 데이터 및 애플리케이션을 포함한다. 메모리(110)에 저장된 애플리케이션은 비디오 코더, 비디오 디코더 및 프레임 그래버(frame grabber)를 포함한다. 비디오 코더는 비디오 데이터를 종래의 방식으로 엔코딩하고, 비디오 디코더는 종래 방식으로 엔코딩된 비디오 데이터를 디코딩한다. 프레임 그래버는 비디오 신호 스트림으로부터 단일 프레임을 포착하여 처리할 수 있게 한다.
컴퓨터(100)에 포함된 것은 중앙 처리 유니트(CPU)(120), 통신 인터페이스(121), 메모리 인터페이스(122), CD-ROM/DVD 드라이브 인터페이스(123),비디오 인터페이스(124) 및 버스(125)를 들 수 있다. CPU(120)는 메모리(110)로부터 상술한 바와 같은 컴퓨터 판독가능한 코드, 즉 애플리케이션을 실행하기 위한 마이크로프로세서 등을 포함한다. 이러한 애플리케이션은 (상술한 바와 같이)메모리(110) 또는 선택적으로 디스크 드라이브(106)내의 플로피 디스크, 또는 CD-ROM 드라이브(107) 내의 CD-ROM에 저장될 수 있다. CPU(120)는 메모리 인터페이스(122)를 통해 플로피 디스크 상에 저장된 애플리케이션(또는 다른 데이터)을 액세스하고, CD-ROM 드라이브 인터페이스(123)를 통해 CD-ROM 상에 저장된 애플리케이션(또는 다른 데이터)을 액세스한다.
CPU(120)는 예컨대 마이크로프로세서, 중앙처리 유니트, 컴퓨터, 회로 카드, 디지털 신호 프로세서 또는 주문형 집적회로(ASIC : application-specific integrated circuit)를 나타낼 수 있다. 메모리(110)는 예컨대 디스크에 기초한 광 또는 자기 저장 유니트, 전자 메모리, 그리고 이들 메모리 디바이스의 일부 또는 조합을 나타낼 수 있다.
시스템(10)과 관련된 다양한 기능 동작은 메모리(110)에 저장되고 CPU(120)에 의해 실행되는 하나 이상의 소프트웨어 프로그램으로 전체 또는 부분적으로 구현되어, 실행될 수 있다. 이러한 형태의 계산 및 매체 처리 디바이스(도 3에 도시된)는 차세대 셋톱 박스의 일부가 될 수 있다.
도 4에 도시된 것은 말하는 사람 식별 방법에 대한 흐름도이다. 도시된 단계는 상술한 구조/절차에 대응한다. 특히, 단계(S100)에서, 비디오/오디오 데이터가 얻어진다. 비디오/오디오 데이터는 직접 상관관계 절차(S102)를 거치거나 또는 LSI절차(S101)를 사용하여 먼저 전처리 될 수 있다. 상관관계 절차의 출력에 기초하여, 얼굴-음성 조화 분석(S103)이 수행될 수 있다. 예컨대, 가장 큰 상관관계 값을 갖는 얼굴이 말하는 얼굴로 선택된다. 이 후 이러한 결과는 사람 식별(S104)을 위하여 사용될 수 있다. 아래에서 부가적으로 설명되는 바와 같이, 상관관계 절차(S102)는 이름-얼굴 결합 절차(S106)를 사용하여 처리된 텍스트 데이터(S105)를 사용하여 수행될 수도 있다.
상술한 비디오와 오디오 사이의 관계를 확인하기 위하여, 본 발명자는 일련의 실험을 수행하였다. 두 개의 비디오 클립이 실험을 위해 사용되었다. 하나의 실험에서는 화면에 두 사람이 출현하는 동시에 한 사람이 말하는 비디오 클립이 선택되었다. 다른 실험에서는 한 사람이 많은 움직임이 없이 말하고, 한 사람이 많은 움직임과 함께 말하고, 다른 사람이 말하는 동안 한 사람이 움직임 없이 앉아 있고, 다른 사람이 말하는 동안 한 사람이 많은 움직임과 함께 앉아 있는 비디오 클립이 선택되었다. 이들 실험에 대해, 비디오 내의 얼굴의 수동 선택과 주석을 위한 프로그램이 실행되었다.
실험을 세 부분으로 이루어졌다. 첫 번째 부분은 오디오와 비디오 사이의 관계를 도시하기 위하여 사용되었다. 다른 부분은 얼굴-음성 조화를 시험하기 위하여 사용되었다. 실험의 목적이 사람 식별이었기 때문에 얼굴을 나타내기 위하여 고유 얼굴이 사용되었다. PCA를 사용한 얼굴 인식이 또한 사용되었다.
일부 사전 작업은 오디오 및 비디오의 일반 관계를 조사하였다. {Yao Wang 등에 의한 "오디오 및 비디오 실마리 모두를 사용하는 멀티미디어 내용 분석"(IEEE신호 처리 매거진, 2000년 11월, 12-36쪽)을 참조}. 그러나 이러한 작업은 전체 비디오 프레임 특성을 갖는 오디오 특성 사이에 관계가 전혀 없다고 선언한다. 이것은 정확하지 않은데, 종래 기술의 시스템에서 비디오 및 오디오 모두에서 너무 많은 잡음이 있기 때문이다. 따라서, 오디오 및 비디오 사이의 관계가 잡음에 의해 감춰진다. 대조적으로, 위에서 논의된 실시예에 있어서, 오직 얼굴 영상만이 오디오 및 비디오 사이의 관계를 계산하기 위하여 사용되었다.
예를 통해, (위에서 논의한 바와 같이 계산된) 상관관계 행렬이 도 5a 및 도 5b에 도시되었다. 하나의 셀(예, 사각형)은 상관관계 행렬의 대응하는 요소를 나타낸다. 요소의 숫자가 커질수록, 셀은 더 흰색이 된다. 도 5a의 화상은 말하는 얼굴에 대한 상관관계 행렬을 나타내는데, 이러한 행렬은 음성을 갖는 말하는 사람의 얼굴 사이의 관계를 반영한다. 도 5b의 화상은 말하는 다른 사람의 음성에 대해 조용히 듣는 사람 사이의 상관관계 행렬을 나타낸다. 첫 번째 4개의 요소(EF)는 고유얼굴에 대한 상관관계 값이다. 나머지 요소는 각각 오디오 특성(AF), 평균 에너지, 피치, 영 교차, 대역폭, 대역 중앙, 화제 전환, 낮은 비율, 스펙트럼 플럭스 및 12 MFCC 성분이다.
이들 두 개의 행렬로부터, 오디오와 비디오 사이에 관계가 있음을 알 수 있다. 다른 관찰은, 도 5a의 화상에서 4번째 행의 4개 열의 요소(L)가 도 5b의 화상의 대응하는 요소(R)보다 훨씬 밝다는 것인데, 이는 말하는 사람의 얼굴이 그의 음성과 관계를 가짐을 의미한다. 실제, 도 5a의 행렬에서 이들 요소의 합은 15.6591이고, 도 5b의 행렬에서 이들 요소의 합은 9.8628이다.
도 5a 및 도 5b로부터의 다른 뚜렷한 관찰은 왼쪽 화상에서 5번째 및 6번째 행의 첫 번째 4개 열이 오른쪽 화상에서의 대응하는 요소보다 훨씬 밝다는 점이다. 이들 8개 요소의 합은 왼쪽 화상에서 3.5028이고, 오른쪽 화상에서 0.7227이다. 5번째 행은 얼굴과 평균 에너지 사이의 상관관계를 나타낸다. 6번째 행은 얼굴과 피치 사이의 상관관계를 나타낸다. 사람이 말할 때, 그의 얼굴 역시 변화함을 이해해야 한다. 보다 상세하게는, 음성의 에너지는 말하는 사람의 열려지는 입과 닫혀지는 입에 대한 관계를 갖는다. 피치는 대응하는 관계를 갖는다.
이것은 시간에 대한 제 1 고유얼굴과 평균 에너지가 도시된 도 6a 및 도 6b에서 더 설명되었다. 선(AE)은 평균 에너지를 나타낸다. 선(FE)은 제 1 고유얼굴을 나타낸다. 도 6a의 화상은 말하는 사람의 고유얼굴을 사용한다. 도 6b의 화상은 말하지 않은 사람의 고유얼굴을 사용한다. 도 6a의 화상으로부터 고유얼굴은 평균 에너지와 유사한 변화 경향을 갖는다. 대조적으로, 말하지 않는 사람의 얼굴은 전혀 변화하지 않는다.
도 7에 도시된 것은 LSI에 의해 변환된 새로운 공간상에서 오디오 및 비디오 특성의 계산된 상관관계이다. 첫 번째 두 개의 요소는 말하는 사람의 고유얼굴(SE)이다. 다음 두 개의 요소는 듣는 사람의 고유얼굴(LE)이다. 다른 요소는 오디오 특성(AF)이다. 도 7로부터 첫 번째 두 개의 열은 다음 두 개의 열보다 더 밝고, 이는 말하는 사람의 얼굴이 그의 음성과 상관관계를 가짐을 의미한다는 것을 알 수 있다.
얼굴-음성-조화 하부구조에 관련된 다른 실험에 있어서, 다양한 비디오 클립이 수집되었다. 제 1 세트의 4개 비디오 클립은 4명의 다른 사람을 포함하고, 각 클립은 두 명 이상의 사람(말하는 사람과 듣는 사람)을 포함한다. 제 2 세트의 14개 비디오 클립은 7명의 다른 사람을 포함하고, 각 사람은 두 번 이상의 말하는 클립을 갖는다. 덧붙여, 시험 목적으로 인위적인 두 명의 듣는 사람이 이들 비디오 클립에 삽입되었다. 따라서, 제 2 세트에는 28개의 얼굴-음성 쌍이 존재한다. 전체적으로 비디오 시험 세트 수집물에 32 개의 얼굴 음성 쌍이 존재한다.
먼저, 각 얼굴-음성 쌍에 대해 오디오 특성과 고유얼굴 사이의 상관관계가 상관관계 실시예에 따라 결정된다. 오디오와 최대 상관관계를 갖는 얼굴이 말하는 사람으로 선택된다. 56.2%의 인식률을 야기하는 14개의 잘못된 판단이 존재하였다. 그후 LSI 실시예가 각 쌍에 대해 수행되었다. 그 후 오디오와 얼굴 특성 사이에서 상관관계가 계산되었다. 이러한 LSI 경우에, 24/32 = 75%의 인식률을 야기하는 8 개의 잘못된 판단이 존재하였다. 따라서, LSI가 없는 상관관계 실시예로부터의 결과와 비교하여 상당한 개선이 이루어졌다.
위에서 논의된 고유얼굴 방법은 기본 성분 분석(PCA)의 효과를 결정하기 위하여 사용되었다. 비디오 세트에서 7명의 사람이 존재하고, 각 사람에 대해 40개의 얼굴이 있다. 각 사람의 10개 얼굴의 제 1 세트는 훈련 세트로 사용되었고, 나머지 세트의 30개 얼굴은 시험 세트로 사용되었다. 제 1 16개 고유얼굴이 얼굴을 나타내기 위하여 사용되었다. 100%의 인식률이 얻어졌다. 이 결과는 비디오가 상당히 제어되는 환경을 나타낸다는 사실에 기여할 수 있다. 훈련 세트와 시험 세트 사이의 조명과 자세의 변동은 거의 없다. 본 실험은 PCA가 일부 상황에서는 양호한 얼굴인식 방법임을 보여준다. 장점은, 이해하기 쉽고, 실현이 쉬우며, 너무 많은 컴퓨터 소스를 필요로 하지 않는다는 점이다.
다른 실시예에 있어서, 강화된 사람 식별을 얻기 위하여 데이터의 다른 소스, 예컨대 텍스트{이름-얼굴 관계 유니트(60)}가 사용되거나/결합될 수 있다. 유사한 상관관계 처리는 부가된 특성(예, 텍스트)을 처리하기 위하여 사용될 수 있다.
덧붙여, 얼굴-음성 조화 처리는 비디오 이해로 확장될 있고, 소리를 내면서 일부 종류의 고유한 동작을 행하는 소리와 물체 사이의 관계를 구축할 수 있다. 이러한 점에서, 본 발명은 사람 식별 영역에만 국한되지 않는다. 본 발명은 또한 비디오 내에서 오디오와 비주얼 신호 사이의 임의의 고유 관계를 추출하는데 적용될 수 있다. 예컨대, 소리는 움직이는 물체와 결합될 수 있다. 짖는 소리는 짖고 있는 개와 결합되고, 지저귀는 소리는 새와 결합되며, 팽창하는 주황색과 폭발 소리가 결합되고, 움직이는 낙엽과 바람 소리 등이 결합된다. 더욱이, 이러한 종류의 결합을 구축하기 위하여 관리되는 학습 또는 클러스터링 방법이 사용될 수 있다. 결과는 비디오에 대한 통합된 지식이다.
위에서 논의된 LSI 실시예는 LSI로부터의 특성 공간을 사용하였음을 주목해야 한다. 그러나, 프레임 공간이 사용될 수 있다, 예컨대 프레임 공간은 프레임 클러스터링을 수행하기 위하여 사용될 수 있다.
본 발명이 특정 실시예에 관해 위에서 설명되었지만, 본 발명이 본 명세서에서 개시된 실시예에 제한되거나 국한되도록 의도된 것이 아님을 이해해야 한다. 대조적으로, 본 발명은 첨부된 청구범위의 사상과 범주 내에 드는 다양한 구조와 변형을 포함하려 한다.
본 발명은 비디오 데이터 내의 물체 식별 분야에 적용될 수 있다. 보다 상세하게, 본 발명은 비디오 데이터 내에서 말하는 사람을 식별하기 위한 방법 및 시스템에 적용될 수 있으며, 또한 비디오 내에서 오디오와 시각 신호 사이의 임의의 고유 관계를 추출하는데 적용될 수 있다.

Claims (20)

  1. 비디오 데이터를 처리하기 위한 오디오-비주얼 시스템(10)으로서,
    상기 비디오 데이터로부터 복수의 물체 특성을 제공할 수 있는 물체 검출 모듈(30)과,
    상기 비디오 데이터로부터 복수의 오디오 특성을 제공할 수 있는 오디오 분할 모듈(20)과,
    상기 물체 검출 모듈(30)과 오디오 분할 모듈(20)에 연결된 프로세서(120)를 포함하고,
    여기에서, 상기 프로세서(120)는 복수의 얼굴 특성과 복수의 오디오 특성 사이의 상관관계를 결정하도록 배치되는, 오디오-비주얼 시스템.
  2. 제 1항에 있어서, 상기 프로세서(120)는 상기 비디오 데이터 내의 움직이는 물체가 오디오와 결합되는 지를 결정하도록 추가로 배치되는, 오디오-비주얼 시스템.
  3. 제 2항에 있어서, 상기 복수의 오디오 특성은 다음의 평균 에너지, 피치(pitch), 영 교차, 대역폭, 대역 중앙, 화제 전환, 낮은 비율, 스펙트럼 플럭스 및 12 MFCC 성분 중 두 개 이상을 포함하는, 오디오-비주얼 시스템.
  4. 제 2항에 있어서, 상기 움직이는 물체는 얼굴이고, 상기 프로세서는 상기 얼굴이 말하고 있는 지를 결정하도록 배치되는, 오디오-비주얼 시스템.
  5. 제 4항에 있어서, 복수의 영상 특성은 상기 얼굴의 전체적인 특성을 나타내는 고유얼굴인, 오디오-비주얼 시스템.
  6. 제 1항에 있어서, 상기 프로세서에 연결된 잠재 어휘 인덱싱(latent semantic indexing) 모듈(50)을 더 포함하고, 상기 상관관계가 수행되기 전에 상기 복수의 물체 특성과 상기 복수의 오디오 특성을 전처리하는, 오디오-비주얼 시스템.
  7. 제 6항에 있어서, 상기 잠재 어휘 인덱싱 모듈(50)은 특이값 분해 모듈(50)을 포함하는, 오디오-비주얼 시스템.
  8. 비디오 데이터 내에서 말하는 사람을 식별하기 위한 방법(도 4)으로서,
    - 영상과 오디오 정보를 포함하는 비디오 데이터를 수신하는 단계와,
    - 상기 비디오 데이터 내의 하나 이상의 얼굴로부터 복수의 얼굴 영상 특성을 결정하는 단계와,
    - 오디오 정보와 관련된 복수의 오디오 특성을 결정하는 단계와,
    - 상기 복수의 얼굴 영상 특성과 상기 복수의 오디오 특성 사이의 상관관계를 계산하는 단계와,
    - 상기 상관관계에 기초하여 상기 말하는 사람을 결정하는 단계를 포함하는, 말하는 사람을 식별하기 위한 방법.
  9. 제 8항에 있어서, 상기 얼굴 영상 특성과 상기 오디오 특성을 정규화하는 단계를 더 포함하는, 말하는 사람을 식별하기 위한 방법.
  10. 제 9항에 있어서, 상기 정규화된 얼굴 영상 특성과 상기 오디오 특성에 대해 특이값 분해를 수행하는 단계를 더 포함하는, 말하는 사람을 식별하기 위한 방법.
  11. 제 8항에 있어서, 상기 결정 단계는, 가장 큰 상관관계를 갖는 하나 이상의 얼굴에 기초하여 상기 말하는 사람을 결정하는 단계를 포함하는, 말하는 사람을 식별하기 위한 방법.
  12. 제 10항에 있어서, 상기 계산 단계는 상기 얼굴 영상 특성과 상기 오디오 특성으로 이루어진 행렬을 형성하는 단계를 포함하는, 말하는 사람을 식별하기 위한 방법.
  13. 제 12항에 있어서, 상기 얼굴 영상 특성과 상기 오디오 특성으로 이루어진 최대 계수(full rank)의 행렬과 비교하여 더 적은 행렬을 사용하여, 최적의 근사적합도(optimal approximate fit)를 수행하는 단계를 포함하는, 말하는 사람을 식별하기 위한 방법.
  14. 제 13항에 있어서, 상기 더 적은 행렬의 계수는 상기 최대 계수 행렬로부터 잡음을 제거하고 관련 없는 정보를 제거하도록 선택되는, 말하는 사람을 식별하기 위한 방법.
  15. 영상과 오디오를 포함하는 비디오를 처리하기 위한 코드를 포함하는 메모리 매체(110)로서,
    - 상기 비디오로부터 복수의 물체 특성을 얻기 위한 코드와,
    - 상기 비디오로부터 복수의 오디오 특성을 얻기 위한 코드와,
    - 상기 복수의 물체 특성과 상기 복수의 오디오 특성 사이의 상관관계를 결정하기 위한 코드와,
    - 상기 비디오 내의 하나 이상의 물체와 상기 오디오 사이의 결합을 결정하기 위한 코드를 포함하는, 메모리 매체.
  16. 제 15항에 있어서, 상기 하나 이상의 물체는 하나 이상의 얼굴을 포함하는, 메모리 매체.
  17. 제 16항에 있어서, 말하는 얼굴을 결정하기 위한 코드를 더 포함하는, 메모리 매체.
  18. 제 15항에 있어서, 상기 복수의 물체 특성과 상기 오디오 특성을 사용하여 하나의 행렬을 생성하기 위한 코드와, 상기 행렬에 대한 특이값 분해를 수행하기 위한 코드를 더 포함하는, 메모리 매체.
  19. 제 18항에 있어서, 상기 물체 특성과 상기 오디오 특성으로 이루어진 최대 계수의 행렬과 비교하여 더 적은 행렬을 사용하여 최적의 근사 적합도를 수행하기 위한 코드를 포함하는, 메모리 매체.
  20. 제 19항에 있어서, 상기 더 적은 행렬의 계수는 상기 최대 계수 행렬로부터 잡음을 제거하고 관련 없는 정보를 제거하도록 선택되는, 메모리 매체.
KR10-2004-7012461A 2002-02-14 2003-02-05 비디오-음성 조화법을 사용하여 사람 식별을 위한 방법 및시스템 KR20040086366A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/076,194 2002-02-14
US10/076,194 US20030154084A1 (en) 2002-02-14 2002-02-14 Method and system for person identification using video-speech matching
PCT/IB2003/000387 WO2003069541A1 (en) 2002-02-14 2003-02-05 Method and system for person identification using video-speech matching

Publications (1)

Publication Number Publication Date
KR20040086366A true KR20040086366A (ko) 2004-10-08

Family

ID=27660198

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7012461A KR20040086366A (ko) 2002-02-14 2003-02-05 비디오-음성 조화법을 사용하여 사람 식별을 위한 방법 및시스템

Country Status (7)

Country Link
US (1) US20030154084A1 (ko)
EP (1) EP1479032A1 (ko)
JP (1) JP2005518031A (ko)
KR (1) KR20040086366A (ko)
CN (1) CN1324517C (ko)
AU (1) AU2003205957A1 (ko)
WO (1) WO2003069541A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130117624A (ko) * 2012-04-17 2013-10-28 삼성전자주식회사 비주얼 큐를 이용하여 비디오 시퀀스에서 토킹 세그먼트를 검출하는 방법 및 장치

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7274800B2 (en) * 2001-07-18 2007-09-25 Intel Corporation Dynamic gesture recognition from stereo sequences
US20030212552A1 (en) * 2002-05-09 2003-11-13 Liang Lu Hong Face recognition procedure useful for audiovisual speech recognition
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US7209883B2 (en) * 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
US7171043B2 (en) * 2002-10-11 2007-01-30 Intel Corporation Image recognition using hidden markov models and coupled hidden markov models
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US7203368B2 (en) * 2003-01-06 2007-04-10 Intel Corporation Embedded bayesian network for pattern recognition
US20050080849A1 (en) * 2003-10-09 2005-04-14 Wee Susie J. Management system for rich media environments
US8229751B2 (en) * 2004-02-26 2012-07-24 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals
EP1730105B1 (en) * 2004-02-26 2012-01-25 Mediaguide, inc. Method and apparatus for automatic detection and identification of broadcast audio or video programming signal
US20060155754A1 (en) * 2004-12-08 2006-07-13 Steven Lubin Playlist driven automated content transmission and delivery system
WO2007026280A1 (en) * 2005-08-31 2007-03-08 Philips Intellectual Property & Standards Gmbh A dialogue system for interacting with a person by making use of both visual and speech-based recognition
US20090006337A1 (en) * 2005-12-30 2009-01-01 Mediaguide, Inc. Method and apparatus for automatic detection and identification of unidentified video signals
JP4685712B2 (ja) * 2006-05-31 2011-05-18 日本電信電話株式会社 話者顔画像決定方法及び装置及びプログラム
US7689011B2 (en) * 2006-09-26 2010-03-30 Hewlett-Packard Development Company, L.P. Extracting features from face regions and auxiliary identification regions of images for person recognition and other applications
KR101391599B1 (ko) 2007-09-05 2014-05-09 삼성전자주식회사 컨텐트에서의 등장 인물간의 관계에 대한 정보 생성 방법및 그 장치
US20090060287A1 (en) * 2007-09-05 2009-03-05 Hyde Roderick A Physiological condition measuring device
US20090062686A1 (en) * 2007-09-05 2009-03-05 Hyde Roderick A Physiological condition measuring device
US7952596B2 (en) * 2008-02-11 2011-05-31 Sony Ericsson Mobile Communications Ab Electronic devices that pan/zoom displayed sub-area within video frames in response to movement therein
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
JP5201050B2 (ja) * 2009-03-27 2013-06-05 ブラザー工業株式会社 会議支援装置、会議支援方法、会議システム、会議支援プログラム
US20110096135A1 (en) * 2009-10-23 2011-04-28 Microsoft Corporation Automatic labeling of a video session
JP2012038131A (ja) * 2010-08-09 2012-02-23 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
JP5772069B2 (ja) * 2011-03-04 2015-09-02 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9866731B2 (en) * 2011-04-12 2018-01-09 Smule, Inc. Coordinating and mixing audiovisual content captured from geographically distributed performers
US8577876B2 (en) * 2011-06-06 2013-11-05 Met Element, Inc. System and method for determining art preferences of people
EP2595031A3 (en) * 2011-11-16 2016-01-06 Samsung Electronics Co., Ltd Display apparatus and control method thereof
CN104011735B (zh) * 2011-12-26 2018-03-30 英特尔公司 基于车辆的对乘员音频和可视输入的确定
CN102662554B (zh) * 2012-01-09 2015-06-24 联想(北京)有限公司 信息处理设备及其密码输入方式切换方法
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
CN103902963B (zh) * 2012-12-28 2017-06-20 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
US9123340B2 (en) 2013-03-01 2015-09-01 Google Inc. Detecting the end of a user question
KR102090948B1 (ko) * 2013-05-20 2020-03-19 삼성전자주식회사 대화 기록 장치 및 그 방법
JP2015037212A (ja) * 2013-08-12 2015-02-23 オリンパスイメージング株式会社 情報処理装置、撮影機器及び情報処理方法
US20150088515A1 (en) * 2013-09-25 2015-03-26 Lenovo (Singapore) Pte. Ltd. Primary speaker identification from audio and video data
KR102306538B1 (ko) 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
CN106599765B (zh) * 2015-10-20 2020-02-21 深圳市商汤科技有限公司 基于对象连续发音的视-音频判断活体的方法及系统
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
JP6447578B2 (ja) * 2016-05-27 2019-01-09 トヨタ自動車株式会社 音声対話装置および音声対話方法
US11100360B2 (en) * 2016-12-14 2021-08-24 Koninklijke Philips N.V. Tracking a head of a subject
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
CN109002447A (zh) * 2017-06-07 2018-12-14 中兴通讯股份有限公司 一种信息采集整理方法及装置
US10878824B2 (en) * 2018-02-21 2020-12-29 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
US20190294886A1 (en) * 2018-03-23 2019-09-26 Hcl Technologies Limited System and method for segregating multimedia frames associated with a character
CN108962216B (zh) * 2018-06-12 2021-02-02 北京市商汤科技开发有限公司 一种说话视频的处理方法及装置、设备和存储介质
CN108920639B (zh) * 2018-07-02 2022-01-18 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109815806A (zh) * 2018-12-19 2019-05-28 平安科技(深圳)有限公司 人脸识别方法及装置、计算机设备、计算机存储介质
WO2020139121A1 (en) * 2018-12-28 2020-07-02 Ringcentral, Inc., (A Delaware Corporation) Systems and methods for recognizing a speech of a speaker
KR102230667B1 (ko) * 2019-05-10 2021-03-22 네이버 주식회사 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
CN110660102B (zh) * 2019-06-17 2020-10-27 腾讯科技(深圳)有限公司 基于人工智能的说话人识别方法及装置、系统
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
FR3103598A1 (fr) 2019-11-21 2021-05-28 Psa Automobiles Sa Module de traitement d’un flux audio-vidéo associant les paroles prononcées aux visages correspondants
US11132535B2 (en) * 2019-12-16 2021-09-28 Avaya Inc. Automatic video conference configuration to mitigate a disability
CN111899743A (zh) * 2020-07-31 2020-11-06 斑马网络技术有限公司 获取目标声音的方法、装置、电子设备及存储介质
CN112218129A (zh) * 2020-09-30 2021-01-12 沈阳大学 一种通过音频进行互动的广告播放系统以及方法
US11581004B2 (en) 2020-12-02 2023-02-14 HearUnow, Inc. Dynamic voice accentuation and reinforcement
US11949948B2 (en) * 2021-05-11 2024-04-02 Sony Group Corporation Playback control based on image capture
CN114466179A (zh) * 2021-09-09 2022-05-10 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置
CN114299944B (zh) * 2021-12-08 2023-03-24 天翼爱音乐文化科技有限公司 视频处理方法、系统、装置及存储介质
US20230215440A1 (en) * 2022-01-05 2023-07-06 CLIPr Co. System and method for speaker verification

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5331544A (en) * 1992-04-23 1994-07-19 A. C. Nielsen Company Market research method and system for collecting retail store and shopper market research data
US6208971B1 (en) * 1998-10-30 2001-03-27 Apple Computer, Inc. Method and apparatus for command recognition using data-driven semantic inference
US6192395B1 (en) * 1998-12-23 2001-02-20 Multitude, Inc. System and method for visually identifying speaking participants in a multi-participant networked event
CN1174374C (zh) * 1999-06-30 2004-11-03 国际商业机器公司 并发进行语音识别、说话者分段和分类的方法
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
US6324512B1 (en) * 1999-08-26 2001-11-27 Matsushita Electric Industrial Co., Ltd. System and method for allowing family members to access TV contents and program media recorder over telephone or internet
CN1115646C (zh) * 1999-11-10 2003-07-23 碁康电脑有限公司 自动识别视频数字分割显示卡
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
DE19962218C2 (de) * 1999-12-22 2002-11-14 Siemens Ag Verfahren und System zum Autorisieren von Sprachbefehlen
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US7113943B2 (en) * 2000-12-06 2006-09-26 Content Analyst Company, Llc Method for document comparison and selection
US20030108334A1 (en) * 2001-12-06 2003-06-12 Koninklijke Philips Elecronics N.V. Adaptive environment system and method of providing an adaptive environment
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130117624A (ko) * 2012-04-17 2013-10-28 삼성전자주식회사 비주얼 큐를 이용하여 비디오 시퀀스에서 토킹 세그먼트를 검출하는 방법 및 장치

Also Published As

Publication number Publication date
WO2003069541A1 (en) 2003-08-21
AU2003205957A1 (en) 2003-09-04
US20030154084A1 (en) 2003-08-14
JP2005518031A (ja) 2005-06-16
CN1633670A (zh) 2005-06-29
CN1324517C (zh) 2007-07-04
EP1479032A1 (en) 2004-11-24

Similar Documents

Publication Publication Date Title
KR20040086366A (ko) 비디오-음성 조화법을 사용하여 사람 식별을 위한 방법 및시스템
US7120626B2 (en) Content retrieval based on semantic association
Clarkson Life patterns: structure from wearable sensors
Hong et al. Dynamic captioning: video accessibility enhancement for hearing impairment
Stiefelhagen et al. Estimating focus of attention based on gaze and sound
Paleari et al. Towards multimodal emotion recognition: a new approach
Maragos et al. Cross-modal integration for performance improving in multimedia: A review
Monteiro et al. Design and evaluation of classifier for identifying sign language videos in video sharing sites
McCowan et al. Towards computer understanding of human interactions
CN113642536A (zh) 数据处理方法、计算机设备以及可读存储介质
Sharma et al. Cross modal video representations for weakly supervised active speaker localization
Wachman et al. Tools for browsing a TV situation comedy based on content specific attributes
Liu et al. Major cast detection in video using both speaker and face information
Li et al. Audio–visual keyword transformer for unconstrained sentence‐level keyword spotting
Umamaheswaran et al. Caption positioning structure for hard of hearing people using deep learning method
Yu et al. Towards smart meeting: Enabling technologies and a real-world application
Li et al. Audio-visual talking face detection
Butko Feature selection for multimodal: acoustic Event detection
Sahrawat et al. " Notic My Speech"--Blending Speech Patterns With Multimedia
Samir et al. A proposed standardization for arabic sign language benchmark database
Melnyk et al. Towards computer assisted international sign language recognition system: a systematic survey
Al-Hames et al. Automatic multi-modal meeting camera selection for video-conferences and meeting browsers
Snoek The authoring metaphor to machine understanding of multimedia
Kumagai et al. Speech shot extraction from broadcast news videos
Sanchez-Riera et al. Audio-visual robot command recognition: D-META'12 grand challenge

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid