KR20230088381A - 오디오비주얼 딥페이크 검출 - Google Patents

오디오비주얼 딥페이크 검출 Download PDF

Info

Publication number
KR20230088381A
KR20230088381A KR1020237015335A KR20237015335A KR20230088381A KR 20230088381 A KR20230088381 A KR 20230088381A KR 1020237015335 A KR1020237015335 A KR 1020237015335A KR 20237015335 A KR20237015335 A KR 20237015335A KR 20230088381 A KR20230088381 A KR 20230088381A
Authority
KR
South Korea
Prior art keywords
data
audiovisual data
audiovisual
machine learning
score
Prior art date
Application number
KR1020237015335A
Other languages
English (en)
Inventor
티안시앙 첸
엘리 코우리
Original Assignee
핀드롭 시큐리티 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핀드롭 시큐리티 인코포레이티드 filed Critical 핀드롭 시큐리티 인코포레이티드
Publication of KR20230088381A publication Critical patent/KR20230088381A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

본 실시예들은 생체 정보 기반 신원 인식(예를 들어, 대화자 인식, 얼굴 인식) 및 딥페이크 검출(deepfake detection)(예를 들어, 대화자 딥페이크 검출, 얼굴 딥페이크 검출)을 위한 기계 학습 아키텍처들을 실행한다. 본 기계 학습 아키텍처는 대화자 딥페이크 검출, 대화자 인식, 얼굴 딥페이크 검출, 얼굴 인식, 및 입술 동기 추정 엔진을 위한 서브 아키텍처들을 포함하는 다수의 점수화 구성요소들을 정의하는 계층들을 포함한다. 본 기계 학습 아키텍처는 오디오 데이터와 비주얼 데이터 둘 다로부터 다양한 유형들의 저레벨 특징들을 추출 및 분석하고, 다양한 점수들을 조합하며, 점수들을 사용하여 오디오비주얼 데이터가 딥페이크 콘텐츠를 포함할 가능성 및 비디오 내의 개인의 주장되는 신원이 예상되거나 등록된 개인의 신원과 매칭될 가능성을 결정한다. 이는 기계 학습 아키텍처가 오디오 데이터와 비주얼 데이터 둘 모두에 대해, 통합된 방식으로, 신원 인식 및 확인, 및 딥페이크 검출을 수행할 수 있게 한다.

Description

오디오비주얼 딥페이크 검출
관련 출원 교차 참조
본 출원은 2020년 10월 16일에 출원된 미국 가출원 제63/092,956호의 우선권을 청구하며, 이의 전문이 원용된다.
본 출원은 일반적으로, 2016년 9월 12일에 출원된 "End-to-End Speaker Recognition Using Deep Neural Network"라는 명칭의 미국 출원 제15/262,748호(미국 특허 제9,824,692호로 공고됨)에 관한 것이며, 이의 전문이 원용된다.
본 출원은 일반적으로, 2020년 8월 21일에 출원된 "Robust spoofing detection system using deep residual neural networks"라는 명칭의 미국 출원 제17/155,851호에 관한 것이며, 이의 전문이 원용된다.
본 출원은 일반적으로, 2017년 5월 31일에 출원된 "System and Method for Cluster-Based Audio Event Detection"라는 명칭의 미국 출원 제15/610,378호(미국 특허 제10,141,009호로 공고됨)에 관한 것이며, 이의 전문이 원용된다.
기술분야
본 출원은 일반적으로, 오디오 처리를 위한 기계 학습 아키텍처를 관리, 트레이닝, 및 디플로이하기 위한 시스템들 및 방법들에 관한 것이다.
조작된 오디오비주얼 데이터의 딥페이크는 점점 더 보편화되고 정교해지고 있다. 이를 통해 소셜 미디어 웹 사이트 및 비디오 공유 플랫폼 전반에 걸쳐 개인의 비디오를 확산할 수 있다. 사기범, 기만자, 또는 다른 부정 행위자는 스푸핑된 비디오에서 나오는 개인에 관한 거짓 정보 및/또는 잘못 알려진 정보를 게시하여 개인의 평판을 손상시키거나 대인 관계 담론을 방해하기 위해 딥페이크를 이용할 수 있다. 사용자를 인증하거나 사용자 활동을 확인하기 위해 오디오비주얼 데이터에 의존하는 통신 또는 컴퓨팅 시스템들에서 다른 문제가 발생한다. 인가된 특정 액세스 시스템 특징들의 신원을 스푸핑(spoofing)하기 위해 사기범 또는 다른 부정행위자에 의해 딥페이크가 이용될 수 있다.
"딥페이크"는 개인의 이미지 및/또는 음성의 정교하고 믿을 만한 스푸프를 생성하는 것이 가능한 인공 지능 알고리즘들에 의해 생성된 조작된 비디오 콘텐츠, 오디오 콘텐츠, 또는 임의의 다른 디지털 포맷을 지칭한다. 알고리즘들은 보통 진짜로 보이는 오디오 및/또는 비주얼 콘텐츠를 생성한다. 딥페이크 알고리즘들의 최근 개선으로 인해, 딥페이크 비디오들 및 오디오들은 매우 정교해지고 있고, 일부 경우들에서, 사람들이 거의 또는 완전히 구별할 수 없게 되고 있다. 이들 위조 비디오 및 오디오는 딥페이크가 사실적인 담론을 조작할 수 있고, 사람들이 위조 뉴스를 현실로 믿게 하거나 개인의 평판을 손상시키는 데 사용될 수 있기 때문에, 소셜 미디어 플랫폼에 큰 위협이 된다. 딥페이크 검출 및 생체 정보 시스템에 대한 개선은 여러 상황에서 유익할 것이다.
많은 종래의 딥페이크 검출 시스템들은 오디오 발화 또는 얼굴 이미지 중 어느 하나에서 딥페이크 콘텐츠를 검출하는 것에 중점을 둔다. 이들 딥페이크 검출 시스템은 한 번에 하나의 형태의 (예를 들어, 오디오 또는 비주얼) 데이터만을 평가하고 보안할 수 있으며, 잠재적으로 비주얼 데이터로부터 오디오 데이터를 개별적으로 평가하기 위해 추가적인 컴퓨팅 자원들을 필요로 하고, 잠재적으로 딥페이크를 검출하지 못한다. 하나 이상의 통합 기계 학습 아키텍처의 통합 시스템을 사용하여 오디오 데이터, 비주얼 데이터, 및/또는 오디오비주얼 데이터를 평가하기 위한 수단이 요구된다.
상술한 단점들을 해결할 수 있는 시스템들 및 방법들이 본원에서 개시되고, 또한 여러 추가적인 또는 대안적인 이점들을 제공할 수 있다. 실시예들은 하나 이상의 기계 학습 아키텍처에 대한 소프트웨어 루틴을 실행하는 컴퓨팅 디바이스를 포함한다. 기계 학습 아키텍처는 오디오 데이터, 비주얼 데이터, 및 오디오비주얼 데이터를 평가 및 보안하기 위해 오디오 및 비주얼 딥페이크 검출을 위한 통합된 평가 동작들을 실행한다. 또한, 이 조합은 딥페이크 검출 시스템의 전체 정확도를 증가시킨다.
본원에서 개시되는 실시예들은 생체 정보 기반 신원 인식(예를 들어, 대화자 인식, 얼굴 인식) 및 딥페이크 검출(예를 들어, 대화자 딥페이크 검출, 얼굴 딥페이크 검출)을 위한 기계 학습 아키텍처들을 실행하는 시스템들 및 방법들을 포함한다. 기계 학습 아키텍처는 대화자 딥페이크 검출(대화자 딥페이크 점수를 생성함), 대화자 인식(대화자 인식 유사도 점수를 생성함), 얼굴 딥페이크 검출(얼굴 딥페이크 점수를 생성함), 얼굴 인식(얼굴 인식 유사도 점수를 생성함), 및 입술 동기 추정 엔진(입술 동기 추정 점수를 생성함)을 위한 서브 아키텍처들을 포함하여, 다수의 점수화 구성요소들을 정의하는 계층들을 포함한다. 본 기계 학습 아키텍처는 주어진 비디오(오디오비주얼 데이터 샘플)의 오디오 데이터와 비주얼 데이터 둘 다로부터 다양한 유형들의 저레벨 특징들을 추출 및 분석하고, 점수화 구성요소들에 의해 생성되는 다양한 점수들을 조합하며, 다양한 점수들을 사용하여 오디오비주얼 데이터가 딥페이크 콘텐츠를 포함할 가능성 및 비디오 내의 개인의 주장되는 신원이 예상되거나 등록된 개인의 신원과 매칭될 가능성을 결정한다. 이는 기계 학습 아키텍처가 오디오 데이터와 비주얼 데이터 둘 모두에 대해, 통합된 방식으로, 신원 인식 및 확인, 및 딥페이크 검출을 수행할 수 있게 한다.
실시예에서, 컴퓨터 구현 방법은 컴퓨터에 의해, 오디오비주얼 데이터를 포함하는 오디오비주얼 데이터 샘플을 획득하는 단계; 상기 컴퓨터에 의해, 상기 오디오비주얼 데이터에 기계 학습 아키텍처를 적용하여 상기 오디오비주얼 데이터로부터 추출되는 생체 정보 임베딩을 사용하여 유사도 점수를 생성하고, 상기 오디오비주얼 데이터로부터 추출되는 스푸프프린트를 사용하여 딥페이크 점수를 생성하는 단계; 및 상기 컴퓨터에 의해, 상기 유사도 점수 및 상기 딥페이크 점수를 사용하여 상기 오디오비주얼 데이터가 진짜일 가능성을 나타내는 최종 출력 점수를 생성하는 단계를 포함한다.
다른 실시예에서, 프로세서를 포함하는 컴퓨터는: 오디오비주얼 데이터를 포함하는 오디오비주얼 데이터 샘플을 획득하도록; 상기 오디오비주얼 데이터에 기계 학습 아키텍처를 적용하여 상기 오디오비주얼 데이터로부터 추출되는 생체 정보 임베딩을 사용하여 유사도 점수를 생성하고, 상기 오디오비주얼 데이터로부터 추출되는 스푸프프린트를 사용하여 딥페이크 점수를 생성하도록; 그리고 상기 유사도 점수 및 상기 딥페이크 점수를 사용하여 상기 오디오비주얼 데이터가 진짜일 가능성을 나타내는 최종 출력 점수를 생성하도록 구성된다.
전술한 개괄적인 설명 및 하기의 상세한 설명은 모두 예시적 그리고 설명적이고, 청구된 바와 같은 본 발명에 대한 추가 설명을 제공하기 위한 것으로 이해되어야 한다.
본 개시는 다음의 도면들을 참조함으로써 더 잘 이해될 수 있다. 도면들에서의 구성요소들은 반드시 일정한 축적으로 그려지는 것이 아니라, 본 개시의 원리들을 도시하는 것에 중점을 둔다. 도면들에서, 참조 부호들은 상이한 도면들에 걸쳐 대응하는 부분들을 가리킨다.
도 1은 오디오비주얼 데이터를 수신하고 분석하기 위한 시스템의 구성요소들을 도시한다.
도 2는 신원 인식 및 딥페이크 검출 동작들을 수행하는 시스템의 구성요소들 간의 데이터 흐름을 도시한 도해이다.
도 3은 특정인에 대한 등록된 오디오비주얼 프로필을 구축하기 위해 등록 동작들을 수행하는 시스템의 구성요소들 간의 데이터흐름을 도시한 도해이다.
도 4는 딥페이크 검출 및 신원 인식을 위한 하나 이상의 기계 학습 아키텍처를 구현하기 위한 방법의 실행 단계들을 도시한다.
도 5는 다양한 생체 정보 측정들에 적용되는 점수 레벨 점수 종합 동작(score-level score fusion operation)에 따라, 딥페이크 검출 및 신원 인식을 위한 기계 학습 아키텍처를 구현하기 위한 시스템의 구성요소들의 데이터 흐름을 도시한다.
도 6은 다양한 생체 정보 측정들에 적용되는 임베딩 레벨 점수 종합 동작에 따라, 딥페이크 검출 및 신원 인식을 위한 기계 학습 아키텍처를 구현하기 위한 시스템의 구성요소들의 데이터 흐름을 도시한다.
도 7은 다양한 생체 정보 측정들에 적용되는 특징 레벨 점수 종합 동작에 따라, 딥페이크 검출 및 신원 인식을 위한 기계 학습 아키텍처를 구현하기 위한 시스템의 구성요소들의 데이터 흐름을 도시한다.
도 8은 딥페이크 검출 및 신원 인식을 위한 하나 이상의 기계 학습 아키텍처를 구현하기 위한 방법의 실행 단계들을 도시한다.
이제 도면들에 도시된 예시적인 실시예들에 대한 참조가 이루어질 것이고, 이를 설명하기 위해 여기서 특정 언어가 사용될 것이다. 그럼에도 불구하고, 본 발명의 범위를 제한하려는 의도는 없다는 것을 이해할 것이다. 본 개시의 소유권을 가지며 관련 기술 분야에 숙련된 자에게 떠오를 수 있는, 본 명세서에 예시되는 본 발명의 특징들의 변경 및 추가 수정, 및 여기서 예시되는 바와 같은 본 발명들의 원리들의 추가적인 적용은 본 발명의 범주이내인 것으로 간주되어야 한다.
많은 종래의 딥페이크 검출 시스템들은 오디오 발화 또는 얼굴 이미지 중 어느 하나에서 딥페이크 콘텐츠를 검출하는 것에 중점을 둔다. 이러한 시스템들은 효과적이다. 그러나, 그러한 시스템들은, 데이터 스트림들 또는 컴퓨터 파일들이 보통 오디오와 비주얼 구성요소들 둘 다를 갖는 오디오비주얼 데이터를 포함하지만, 하나의 유형의 데이터 ― 오디오 데이터 또는 이미지 데이터 ― 에서 딥페이크(또는 스푸프) 만을 검출할 수 있다. 이에 따라, 종래의 접근법들은 보통 불충분하거나 비효율적이다. 본원에서 개시되는 실시예들은 하나 이상의 기계 학습 아키텍처에 대한 소프트웨어를 실행하는 컴퓨팅 디바이스를 포함하며, 여기서 기계 학습 아키텍처는 오디오 데이터, 비주얼 데이터, 및 오디오비주얼 데이터를 평가하기 위해 오디오 및 비주얼 딥페이크 검출들에 대한 통합 분석 동작들을 실행한다.
본원에서 개시되는 실시예들은 생체 정보 기반 신원 인식(예를 들어, 대화자 인식, 얼굴 인식) 및 딥페이크 검출(예를 들어, 대화자 딥페이크 검출, 얼굴 딥페이크 검출)을 위한 기계 학습 아키텍처들을 실행하는 시스템들 및 방법들을 포함한다. 기계 학습 아키텍처는 대화자 딥페이크 검출(대화자 딥페이크 점수를 생성함), 대화자 인식(대화자 인식 유사도 점수를 생성함), 얼굴 딥페이크 검출(얼굴 딥페이크 점수를 생성함), 얼굴 인식(얼굴 인식 유사도 점수를 생성함), 및 입술 동기 추정 엔진(입술 동기 추정 점수를 생성함)을 위한 서브 아키텍처들을 포함하는, 다수의 점수화 구성요소들을 정의하는 계층들을 포함한다. 본 기계 학습 아키텍처는 주어진 비디오(오디오비주얼 데이터 샘플)의 오디오 데이터와 비주얼 데이터 둘 다로부터 다양한 유형들의 저레벨 특징들을 추출 및 분석하고, 점수화 구성요소들에 의해 생성되는 다양한 점수들을 조합하며, 다양한 점수들을 사용하여 오디오비주얼 데이터가 딥페이크 콘텐츠를 포함할 가능성 및 비디오 내의 개인의 주장되는 신원이 예상되거나 등록된 개인의 신원과 매칭될 가능성을 결정한다. 이는 기계 학습 아키텍처가 오디오 데이터와 비주얼 데이터 둘 모두에 대해, 통합된 방식으로, 신원 인식 및 확인, 및 딥페이크 검출을 수행할 수 있게 한다.
도 1은 오디오비주얼 데이터를 수신하고 분석하기 위한 시스템(100)의 구성요소들을 도시한다. 시스템(100)은 분석 시스템(101) 및 최종 사용자 디바이스들(114)을 포함한다. 분석 시스템(101)은 분석 서버들(102), 분석 데이터베이스들(104), 및 운영 디바이스들(103)을 포함한다. 실시예들은 추가적인 또는 대안적인 구성요소들을 포함할 수 있거나 도 1의 구성요소들로부터 특정 구성요소들을 생략할 수 있고, 여전히 본 개시의 범위 내에 있다. 예를 들어, 다수의 분석 서버들(102)을 포함하는 것이 통상적일 수 있다. 실시예들은 본원에서 설명되는 다양한 특징들 및 작업들을 수행하는 것이 가능한 임의의 수의 디바이스를 포함하거나 달리 구현할 수 있다. 예를 들어, 도 1은 분석 서버(102)를 분석 데이터베이스(104)와 별개의 컴퓨팅 디바이스로서 도시한다. 일부 실시예들에서, 분석 데이터베이스(104)는 통합된 분석 서버(102)를 포함한다. 동작 시, 분석 서버(102)는 최종 사용자 디바이스들(114)로부터 오디오비주얼 데이터를 수신하고, 비디오에서 대화자의 음성 및 얼굴을 인식하고/거나 비디오가 대화자의 음성 또는 얼굴 이미지의 딥페이크를 포함하는지 여부를 검출하도록 오디오비주얼 데이터를 처리한다. 분석 서버(102)는 오디오비주얼 입력이 진짜 오디오비주얼 데이터를 포함할 가능성이 있는지 또는 스푸핑된 오디오비주얼 데이터를 포함할 가능성이 있는지의 점수 또는 표시를 출력한다.
시스템(100)은 시스템(100)의 다양한 구성요소들을 상호연결하는 하나 이상의 공중 또는 사설 네트워크(108)의 다양한 하드웨어 및 소프트웨어 구성요소들을 포함한다. 이러한 네트워크들(108)의 비제한적인 예들은 근거리 통신망(LAN), 무선 근거리 통신망(WLAN), 도시권 통신망(MAN), 광역 통신망(WAN), 및 인터넷을 포함할 수 있다. 네트워크들(108)을 통한 통신은 송신 제어 프로토콜 및 인터넷 프로토콜(TCP/IP), 사용자 데이터그램 프로토콜(UDP), 및 IEEE 통신 프로토콜들과 같은 다양한 통신 프로토콜들에 따라 수행될 수 있다. 마찬가지로, 최종 사용자 디바이스들(114)은 오디오비주얼 데이터(예를 들어, 컴퓨터 파일들, 데이터 스트림)를 호스팅, 전송, 및 교환하는 것이 가능한 전화 및 원격통신 프로토콜들, 하드웨어, 및 소프트웨어를 통해 분석 시스템(101) 또는 다른 고객 대면 시스템들과 통신할 수 있다. 원격통신 및/또는 컴퓨팅 네트워킹 하드웨어의 비제한적인 예들은 데이터 통신, 회로들, 및 인터넷 또는 다른 디바이스 통신 매체를 통한 시그널링을 호스팅, 라우팅, 또는 관리하기 위해 사용되는 다른 추가적인 또는 대안적인 하드웨어 중에서 특히, 스위치들 및 트렁크들을 포함할 수 있다.
분석 시스템(101)은 특정 서비스(예를 들어, 원격 회의 소프트웨어)를 호스팅하는 기업 조직에 의해 관리되거나 운영되는 물리적으로 그리고 논리적으로 관련된 소프트웨어 및 전자 디바이스들을 포함하는 컴퓨팅 네트워크 인프라스트럭처를 나타낸다. 네트워크 시스템 인프라스트럭처(101)의 디바이스들은 특정 기업 조직의 의도된 서비스들을 제공하고, 하나 이상의 내부 네트워크를 통해 통신할 수 있다. 일부 실시예들에서, 분석 시스템(101)은 서드파티, 고객 대면 기업들(예를 들어, 회사들, 정부 기관들, 대학들)의 중간 컴퓨팅 네트워크 인프라스트럭처를 대신하여 작동한다. 이러한 실시예들에서, 서드파티 인프라스트럭처는 오디오비주얼 데이터를 캡처하고, 저장하며, 분석 시스템(101)에 포워딩하는 컴퓨팅 디바이스들(예를 들어, 서버들)을 포함한다. 분석 서버(102)는 클라우드 기반 서비스를 호스팅하거나, 클라우드 기반 서비스들을 호스팅하는 서버와 통신한다.
최종 사용자 디바이스(114)는 최종 사용자가 오디오비주얼 데이터를 특정 목적지(예를 들어, 분석 시스템(101), 고객 대면 시스템)에 송신하도록 동작하는 임의의 통신 또는 컴퓨팅 디바이스일 수 있다. 최종 사용자 디바이스(114)는 하나 이상의 네트워크(108)를 통해 분석 시스템(101)에 오디오비주얼 데이터를 송신하기 위한 프로세서 및 소프트웨어를 포함한다. 일부 경우들에서, 최종 사용자 디바이스(114)는 카메라 및 마이크로폰을 포함하는, 오디오비주얼 데이터를 생성하기 위한 소프트웨어 및 하드웨어를 포함한다. 최종 사용자 디바이스들(114)의 비제한적인 예들은 모바일 디바이스들(114a)(예를 들어, 스마트폰들, 태블릿들) 및 최종 사용자 컴퓨터들(114b)(예를 들어, 랩탑들, 데스크탑들, 서버들)을 포함할 수 있다. 예를 들어, 최종 사용자 디바이스(114)는 오디오비주얼을 캡처하고, 분석 서버(102)로서 기능하거나, 또는 이와 통신하는, 중앙 호스트 서버에 오디오비주얼을 송신하는 원격회의 소프트웨어를 실행하는 최종 사용자 컴퓨터(114b)일 수 있다.
통화 분석 시스템(101)의 분석 서버(102)는 하나 이상의 프로세서 및 소프트웨어를 포함하고 본원에서 설명되는 다양한 프로세스들 및 작업들을 수행하는 것이 가능한 임의의 컴퓨팅 디바이스일 수 있다. 분석 서버(102)는 최종 사용자 디바이스들(114)로부터 송신되거나 트레이닝 동안 분석 데이터베이스(104)로부터 수신되는 바와 같은 오디오비주얼 데이터를 수신 및 처리한다. 분석 서버(102)는 기계 학습 아키텍처의 계층들을 실행할 때, 분석 서버(102)가 참조하거나 질의하는 다양한 유형들의 정보를 포함하는 분석 데이터베이스(104)를 호스팅하거나 이와 통신할 수 있다. 분석 데이터베이스(104)는 예를 들어, 다른 유형들의 정보 중에서 특히, 등록된 개인들(예를 들어, 등록된 사용자들, 유명 인사들)에 대한 등록된 오디오비주얼 프로필, 및 기계 학습 아키텍처의 트레이닝된 모델들을 저장할 수 있다. 도 1은 단일 분석 서버(102)만을 도시하지만, 분석 서버(102)는 임의의 수의 컴퓨팅 디바이스를 포함할 수 있다. 일부 경우들에서, 분석 서버(102)의 컴퓨팅 디바이스들은 분석 서버(102)의 프로세스들 및 베네핏들의 전부 또는 하위 부분들을 수행할 수 있다. 분석 서버(102)는 분산 또는 클라우드 컴퓨팅 구성 및/또는 가상 기계 구성으로 동작하는 컴퓨팅 디바이스들을 포함할 수 있다. 일부 실시예들에서, 분석 서버(102)의 기능들은 분석 시스템(101) 또는 다른 컴퓨팅 인프라스트럭처의 다양한 컴퓨팅 디바이스들에 의해 부분적으로 또는 전체적으로 수행될 수 있다는 것이 또한 인식되어야 한다.
분석 서버(102)는 오디오비주얼 데이터를 포함하는 이산적인 컴퓨터 파일 또는 연속적인 스트림을 포함할 수 있는 데이터 스트림으로 오디오비주얼 데이터를 수신한다. 일부 경우들에서, 분석 서버(102)는 최종 사용자 디바이스(114) 또는 서드파티 디바이스(예를 들어, 웹서버, 컴퓨팅 서비스의 서드파티의 서버)로부터 오디오비주얼 데이터를 수신한다. 예를 들어, 최종 사용자 디바이스(114)는 오디오비주얼 데이터를 포함하는 멀티미디어 컴퓨터 파일(예를 들어, MP4 파일, MOV 파일) 또는 하이퍼링크를, 오디오비주얼 데이터를 호스팅하는 서드파티 서버(예를 들어, YouTube®서버)에 송신한다. 일부 경우들에서, 분석 서버(102)는 오디오비주얼 통신 소프트웨어를 호스팅하는 서버에 의해 생성되고 분배된 오디오비주얼 데이터를 수신한다. 예를 들어, 두 개 이상의 최종 사용자 디바이스들(114)은 통신 이벤트 세션을 확립하고 호스팅하는 서버에 의해 직접적으로 또는 간접적으로 최종 사용자 디바이스들(114)간에 통신 이벤트 세션을 확립하는 통신 소프트웨어(예를 들어, Skype®, MS Teams®, Zoom®)를 실행한다. 최종 사용자 디바이스들(114) 및 서버에 의해 실행되는 통신 소프트웨어는 오디오비주얼 데이터를 캡처 및 저장하고, 통신 이벤트 세션과 통신하는 최종 사용자 디바이스들(114)간에 배포한다.
일부 실시예들에서, 분석 서버(102) 또는 서드파티 인프라스트럭처의 서드파티 서버는 클라우드 기반 오디오비주얼 통신 서비스를 호스팅한다. 이러한 소프트웨어는 다른 잠재적인 소프트웨어 동작들 중에서 특히, 특정 디바이스 통신 이벤트 세션(예를 들어, 원격회의, 비디오 통화)과 관련된 최종 사용자 디바이스들(114)에 대한 디바이스 통신 큐들을 관리하고/거나, 하나 이상의 네트워크(108)를 통해 최종 사용자 디바이스들(114) 간에 오디오비주얼 데이터를 포함하는 디바이스 통신에 대한 데이터 패킷들을 라우팅하기 위한 프로세스들을 실행한다. 특정 서버(예를 들어, 분석 서버(102), 서드파티 서버)에 의해 실행되는 오디오비주얼 통신 소프트웨어는 최종 사용자 디바이스들(114) 및/또는 최종 사용자들에 관한 다양한 유형들의 정보를 캡처, 질의, 또는 생성할 수 있다. 서드파티 서버에 의해 실행될 때, 서드파티 서버는 오디오비주얼 데이터 및 다른 유형들의 정보를 분석 서버(102)에 송신한다.
분석 서버(102)는 오디오비주얼 데이터 샘플들(예를 들어, 컴퓨터 파일, 기계 판독가능 데이터 스트림)을 처리하기 위한 분석 소프트웨어를 실행한다. 입력 오디오비주얼 데이터는 대화자의 오디오 신호를 나타내는 오디오 데이터 및 특정인의 얼굴 이미지를 포함하는 비주얼 이미지 데이터를 포함한다. 분석 서버(102) 처리 소프트웨어는 가우시안 혼합 행렬(Gaussian Mixture Matrix, GMM), 신경망(예를 들어, 컨볼루션 신경망(convolutional neural network, CNN), 심층 신경망(deep neural network, DNN)) 등과 같은 다양한 유형들의 기계 학습 아키텍처들 또는 모델들로서 조직된 기계 학습 소프트웨어 루틴들을 포함한다. 기계 학습 아키텍처는 본원에서 논의되는 다양한 처리 동작들을 수행하는 기능들 또는 계층들을 포함한다. 예를 들어, 분석 소프트웨어는 대화자 및 얼굴 식별과, 대화자 및 얼굴 스푸핑 검출을 위한 하나 이상의 기계 학습 아키텍처를 포함한다. 기계 학습 아키텍처의 계층들 및 동작들은 별개의 아키텍처들 또는 서브 아키텍처들일 수 있는 기계 학습 아키텍처의 구성요소를 정의한다. 그 구성요소들은 다른 것들 중에서 특히, 신경망 아키텍처들 또는 가우시안 혼합 모델들(GMM들)과 같은 다양한 유형들의 기계 학습 기술들 또는 기능들을 포함할 수 있다.
기계 학습 아키텍처는 트레이닝 단계, 선택적 등록 단계, 및 디플로이먼트 단계(때때로 "테스트" 단계 또는 "테스팅"으로 지칭됨)를 포함하는, 여러 동작 단계들에서 동작한다. 분석 서버(102)에 의해 처리된 입력 오디오비주얼 데이터는 디플로이먼트 단계 동안 수신되고 처리된 트레이닝 오디오비주얼 데이터, 트레이닝 오디오 신호들, 트레이닝 비주얼 데이터, 등록 오디오비주얼 데이터, 등록 오디오 신호들, 등록 비주얼 데이터, 및 인바운드 오디오비주얼 데이터를 포함할 수 있다. 분석 서버(102)는 대응하는 동작 단계 동안 입력 오디오비주얼 데이터의 유형들 각각에 기계 학습 아키텍처를 적용한다.
분석 서버(102) 또는 시스템(100)의 다른 컴퓨팅 디바이스(예를 들어, 콜 센터 서버(111))는 입력 오디오비주얼 데이터에 대해 다양한 전처리 동작들 및/또는 데이터 증강 동작들을 수행할 수 있다. 전처리 동작들의 비제한적인 예들은 다른 잠재적인 전처리 동작들 중에서 특히, 오디오 신호 또는 이미지 데이터로부터 저레벨 특징들을 추출하는 것, 오디오 신호 또는 이미지 데이터를 프레임들 및 세그먼트들로 파싱(parsing) 및 세그먼트화하는 것, 그리고 단시간 푸리에 변환(Short-time Fourier Transform, SFT) 또는 고속 푸리에 변환(Fast Fourier Transform, FFT)과 같은 하나 이상의 변환 함수를 수행하는 것을 포함한다. 분석 서버(102)는 기계 학습 아키텍처의 입력 계층들에 입력 오디오비주얼 데이터를 공급하기 전에 전처리 또는 데이터 증강 동작들을 수행할 수 있거나, 또는 분석 서버(102)는 기계 학습 아키텍처를 실행하는 것의 일부로서 이러한 동작들을 실행할 수 있으며, 여기서 기계 학습 아키텍처의 입력 계층들(또는 다른 계층들)이 이러한 동작들을 수행한다. 예를 들어, 그 기계 학습 아키텍처는 입력 오디오비주얼 데이터에 대해 특정 전처리 또는 데이터 증강 동작들을 수행하는 네트워크내 전처리 또는 정보 증강 계층을 포함할 수 있다.
기계 학습 아키텍처는 오디오비주얼 딥페이크 검출 아키텍처의 구성요소들을 정의하는 계층들을 포함한다. 그 계층들은 오디오 스푸프 검출(또는 "오디오 딥페이크" 검출), 대화자 인식, 얼굴 스푸프 검출(또는 "얼굴 딥페이크") 검출, 얼굴 인식, 및 입술 동기 추정을 포함하는, 오디오비주얼 데이터의 양태들을 점수화하기 위한 엔진들을 정의한다. 기계 학습 아키텍처의 구성요소들은 예를 들어, 대화자 인식 엔진, 대화자 딥페이크 엔진, 얼굴 인식 엔진, 얼굴 딥페이크 엔진, 및 일부 실시예들에서, 입술 동기 추정 엔진을 포함한다. 기계 학습 아키텍처는 이들 점수화 엔진들을 다양한 유형들의 오디오비주얼 데이터에 적용함으로써 오디오비주얼 데이터의 오디오 신호와 이미지 데이터 둘 다를 분석하고, 특정 유형들의 점수들을 생성하고, 점수들을 조합하며, 오디오비주얼 데이터가 딥페이크 구성요소들을 포함하는지 여부를 결정한다.
대화자 엔진
기계 학습 아키텍처는 대화자 인식 엔진 및 대화자 딥페이크 검출 엔진을 포함하는, 하나 이상의 대화자 임베딩 엔진(때때로 "대화자 생체 정보 엔진" 또는 "대화자 엔진"으로 지칭됨)을 정의하는 계층들을 포함한다.
대화자 인식 엔진은 오디오 데이터 또는 오디오 데이터의 세그먼트들로부터 오디오 특징들의 세트를 추출한다. 특징들은 예를 들어, 다른 것들 중에서 특히, MFCC(mel frequency cepstral coefficient), LFB(linear filter bank)를 포함하는, 스펙트럼-시간적 특징들을 포함할 수 있다. 분석 서버(102)는 대화자 인식 엔진을 오디오 특징들에 적용하여 대화자에 대한 특징들의 세트를 나타내는 특징 벡터로서 임베딩을 추출한다. 등록 단계 동안, 분석 서버(102)는 하나 이상의 대응하는 등록 오디오 임베딩을 생성하기 위해 하나 이상의 등록 오디오비주얼 데이터 샘플을 수집한다. 기계 학습 아키텍처는 분석 서버(102)가 분석 데이터베이스(104)에 저장하는 등록자 오디오비주얼 프로필에 대한 등록된 보이스프린트를 생성하기 위해 등록 오디오 임베딩들을 알고리즘으로 조합(예를 들어, 평균)한다.
디플로이먼트 단계 동안, 분석 서버(102)는 인바운드 보이스프린트로서 인바운드 오디오 임베딩을 추출하기 위해 인바운드 오디오비주얼 데이터 샘플을 수집한다. 일부 경우들에서, 분석 서버(102)는 인바운드 보이스프린트와 연관된 개인에 대한 신원 주장을 또한 수신한다. 대화자 인식을 위해, 기계 학습 아키텍처는 등록된 보이스프린트에 있어서의 대화자와 인바운드 보이스프린트의 대화자 간의 유사성의 가능성을 나타내는 대화자 유사성 점수를 생성한다. 분석 서버(102)는 하나 이상의 대화자 인식 유사성 점수를 출력한다.
대화자 임베딩 표현은 예를 들어, GMM 기반 시스템 또는 신경망 아키텍처(예를 들어, 심층 신경망, 컨볼루션 신경망)를 구현함으로써 생성될 수 있다. 대화자 인식 엔진의 예시적인 실시예들은 미국 특허 제9,824,692호 및 제10,141,009호, 및 미국 출원 제17/155,851호에서 찾아볼 수 있으며, 이들 각각의 전문이 원용된다.
분석 서버(102)는 대화자 딥페이크 엔진을 오디오 특징들에 적용하여 스푸핑된 대화 신호들의 아티팩트들에 대한 특징들의 세트를 나타내는 특징 벡터로서 대화자 스푸프 임베딩을 추출한다. 선택적 등록 단계 동안, 분석 서버(102)는 하나 이상의 대응하는 등록 스푸프프린트 임베딩을 생성하기 위해 하나 이상의 등록 오디오비주얼 데이터 샘플을 수집한다. 기계 학습 아키텍처는 분석 서버(102)가 분석 데이터베이스(104)에 저장하는 등록자 오디오비주얼 프로필 또는 다른 개인에 대한 등록된 스푸프프린트를 생성하기 위해 등록 스푸프프린트 임베딩들을 알고리즘으로 조합(예를 들어, 평균)한다.
디플로이먼트 단계 동안, 분석 서버(102)는 인바운드 스푸프프린트로서 인바운드 스푸프 임베딩을 추출하기 위해 인바운드 오디오비주얼 데이터 샘플을 수집한다. 일부 경우들에서, 분석 서버(102)는 인바운드 스푸프프린트와 연관된 개인에 대한 신원 주장을 또한 수신한다. 대화자 딥페이크 검출을 위해, 기계 학습 아키텍처는 인바운드 오디오비주얼 데이터 샘플이 하나 이상의 미리 구성된 또는 등록된 스푸프프린트와 인바운드 스푸프프린트의 대화자 간의 유사성에 기초하여 대화자의 딥페이크를 포함할 가능성을 나타내는 스푸프프린트 유사성 점수를 생성한다. 분석 서버(102)는 하나 이상의 대화자 딥페이크 유사성 또는 검출 점수를 출력한다.
오디오 딥페이크 검출 엔진은 예를 들어, 신경망 아키텍처 또는 GMM 기반 아키텍처를 구현할 수 있다. 대화자 딥페이크 검출의 예시적인 실시예들은 미국 특허 제9,824,692호 및 미국 출원 제17/155,851호에서 찾아볼 수 있으며, 이들 각각의 전문이 원용된다.
얼굴 엔진
기계 학습 아키텍처는 얼굴 인식 엔진 및 얼굴 딥페이크 검출 엔진을 포함하는, 하나 이상의 얼굴 임베딩 엔진(때때로 "얼굴 생체 정보 엔진" 또는 "얼굴 엔진"으로 지칭됨)을 정의하는 계층들을 포함한다.
얼굴 인식 엔진은 오디오비주얼 데이터의 프레임들에서 얼굴들의 얼굴 임베딩 표현을 추출한다. 얼굴 인식 엔진은 이미지 데이터 또는 이미지 데이터의 세그먼트들로부터 이미지 특징들의 세트를 추출한다. 특징들은 예를 들어, 다른 것들 중에서 특히, (예를 들어, 픽셀 벡터들, 선형 이진 패턴(LBP), 이산 코사인 변환(DCT)들)을 포함하는, 저레벨 이미지 특징들을 포함할 수 있다. 분석 서버(102)는 얼굴 인식 엔진을 이미지 특징들에 적용하여 개인의 얼굴에 대한 특징들의 세트를 나타내는 특징 벡터로서 얼굴 임베딩을 추출한다. 등록 단계 동안, 분석 서버(102)는 하나 이상의 대응하는 등록 얼굴 임베딩을 생성하기 위해 하나 이상의 등록 오디오비주얼 데이터 샘플을 수집한다. 기계 학습 아키텍처는 분석 서버(102)가 분석 데이터베이스(104)에 저장하는 등록자 오디오비주얼 프로필에 대한 등록된 페이스프린트를 생성하기 위해 등록 얼굴 임베딩들을 알고리즘으로 조합(예를 들어, 평균)한다.
디플로이먼트 단계 동안, 분석 서버(102)는 인바운드 페이스프린트로서 인바운드 얼굴 임베딩을 추출하기 위해 인바운드 오디오비주얼 데이터 샘플을 수집한다. 일부 경우들에서, 분석 서버(102)는 인바운드 페이스프린트와 연관된 개인에 대한 신원 주장을 또한 수신한다. 얼굴 인식을 위해, 기계 학습 아키텍처는 등록된 페이스프린트에서의 얼굴과 인바운드 페이스프린트의 얼굴 간의 유사성의 가능성을 나타내는 얼굴 유사성 점수를 생성한다. 분석 서버(102)는 하나 이상의 얼굴 인식 유사성 점수를 출력한다.
얼굴 인식 엔진은 vggface와 같은 신경망 아키텍처(예를 들어, 심층 신경망)를 구현할 수 있다. 얼굴 인식 엔진의 예시적인 실시예들은 Cao, 등의 "Vggface2: A Dataset for Recognising Faces across Pose and Age," IEEE, 13th IEEE International Conference on Automatic Face & Gesture Recognition, pp. 67-74 (2018)"에서 찾아볼 수 있으며, 이의 전문이 원용된다.
분석 서버(102)는 얼굴 딥페이크 엔진을 이미지 특징들에 적용하여 스푸핑된 얼굴 이미지들의 아티팩트들에 대한 특징들의 세트를 나타내는 특징 벡터로서 얼굴 스푸프 임베딩을 추출한다. 선택적 등록 단계 동안, 분석 서버(102)는 하나 이상의 대응하는 등록 얼굴 스푸프프린트 임베딩을 생성하기 위해 하나 이상의 등록 오디오비주얼 데이터 샘플을 수집한다. 기계 학습 아키텍처는 분석 서버(102)가 분석 데이터베이스(104)에 저장하는 등록자 오디오비주얼 프로필 또는 다른 개인에 대한 등록된 얼굴 스푸프프린트를 생성하기 위해 등록 얼굴 스푸프프린트 임베딩들을 알고리즘으로 조합(예를 들어, 평균)한다.
디플로이먼트 단계 동안, 분석 서버(102)는 인바운드 페이스프린트로서 인바운드 얼굴 스푸프 임베딩을 추출하기 위해 인바운드 오디오비주얼 데이터 샘플을 수집한다. 일부 경우들에서, 분석 서버(102)는 인바운드 페이스프린트와 연관된 개인에 대한 신원 주장을 또한 수신한다. 얼굴 딥페이크 검출을 위해, 기계 학습 아키텍처는 인바운드 오디오비주얼 데이터 샘플이 하나 이상의 미리 구성된 또는 등록된 페이스프린트와 인바운드 페이스프린트의 얼굴 간의 유사성에 기초하여 얼굴의 딥페이크를 포함할 가능성을 나타내는 페이스프린트 유사성 점수를 생성한다. 분석 서버(102)는 하나 이상의 얼굴 딥페이크 유사성 또는 검출 점수를 출력한다.
얼굴 딥페이크 검출 엔진은 예를 들어, 다른 것들 중에서 특히, 신경망 아키텍처 또는 GMM 기반 아키텍처, 이를테면 ResNet(residual network)들, Xception 네트워크들, 및 EffecientNet들을 구현할 수 있다.
입술 동기 추정 엔진
기계 학습 아키텍처는 대화자의 오디오 신호와 대화자의 얼굴 제스처들 간의 편차가 동기화 임계치를 초과하는지 여부를 결정하기 위한 입술 동기 추정 엔진을 정의하는 계층들을 포함한다. 기계 학습 아키텍처는 오디오비주얼 데이터 또는 오디오 데이터와 이미지 데이터 둘 다에 대해 입술 동기 추정 엔진을 적용한다. 입술 동기 추정 엔진은 대화자의 대화 오디오와 오디오비주얼 데이터의 비디오에서 나오는 특정 대화자의 입 또는 얼굴 제스처들 간의 동기화를 분석한다. 입술 동기 추정 엔진은 대화자의 입과 대화 오디오 간의 동기화의 품질을 나타내는 입술 동기 점수를 생성하며, 이에 의해 대화자가 비디오에서 보이고 들리는 바와 같이 발화했을 가능성을 나타낸다.
일부 구현예들에서, 입술 동기 추정 엔진은 신호 처리 기술을 구현하며; 비제한적인 예들을 F. Pitie, et al., “Assessment of Audio/Video Synchronisation in Streaming Media," IEEE, 2014 Sixth International Workshop on Quality of Multimedia Experience (QoMEX), pp. 171-176 (2014)에서 찾아볼 수 있다. 일부 구현예들에서, 입술 동기 추정 엔진은 심층 학습 알고리즘 또는 신경망 아키텍처를 구현한다. 심층 학습 접근법의 비제한적인 예들은 J.S. Chung, et al., “Out of Time: Automated Lip Sync in the Wild," ACCV, Workshop on Multi-view Lip-Reading (2016)에서 찾아볼 수 있으며, 이의 전문이 원용된다.
입술 동기 추정 엔진은 스냅샷마다 움직이는 얼굴의 얼굴 제스처들 또는 입/입술들에 대한 이미지 데이터, 및 오디오 데이터의 세그먼트들로부터의 음소들을 분석한다. 예를 들어, 입술 동기 추정 엔진은 오디오비주얼 데이터로부터 추출된 얼굴 제스처들, 오디오 음소들, 및 관련 타이밍 데이터에 대한 저레벨 특징들을 표현하는 특징 벡터들로서 입술 동기 임베딩을 추출할 수 있다. 입술 동기 추정 엔진은 입 주위의 직사각형 영역에 대한 특징들을 추출함으로써 입의 움직임에 집중한다. 입술 동기 추정 엔진은 관련 픽셀들 또는 이미지 맵을 사용하여 입술 움직임 추정 또는 비주얼 디스크립터들을 생성하고, 움직임 추정을 오디오 데이터 또는 오디오비주얼 데이터의 세그먼트로부터 검출되는 오디오 특징들과 조합한다. 입술 동기화 추정 엔진은 오디오 음소들과 입술들의 움직임 및/또는 얼굴 제스처들 간의 타이밍 지연을 결정한다. 입술 동기 추정 엔진은 동기화의 품질 또는 비디오의 오디오 및 비디오 양태들이 동기화될 가능성을 나타내는 입술 동기 점수를 생성한다. 일부 경우들에서, 입술 동기 추정 엔진의 이진 분류자가 입술 동기 점수가 미리 구성된 동기화 점수를 만족시키는지 여부에 기초하여, 세그먼트 또는 비디오의 오디오 및 비주얼 양태들이 동기인지 또는 비동기인지를 결정한다.
생체 정보 점수들, 점수 종합, 및 분류자들
기계 학습 아키텍처는 하나 이상의 점수화 동작 및/또는 점수 종합 동작을 위한 계층들을 포함한다. 언급된 바와 같이, 기계 학습 아키텍처는 주장되는 신원에 대한 오디오비주얼 프로필을 포함할 수 있는 하나 이상의 등록된 신원의 등록된 오디오비주얼 프로필과 같은 등록된 임베딩(예를 들어, 등록된 보이스프린트, 등록된 페이스프린트, 미리 구성된 대화자 스푸프프린트들, 미리 구성된 얼굴 스푸프프린트들)과 비교하여, 인바운드 오디오비주얼 데이터로부터 추출된 인바운드 임베딩(예를 들어, 인바운드 보이스프린트, 인바운드 페이스프린트, 인바운드 대화자 스푸프프린트, 인바운드 얼굴 스푸프프린트)을 사용하여 특정 최종 사용자의 주장되는 신원에 대한 다양한 생체인식 유사성 점수들을 생성한다. 주장되는 신원의 인바운드 페이스프린트 및 인바운드 보이스프린트와 주장되는 신원의 등록된 페이스프린트 및 등록된 보이스프린트가 주어지면, 생체 점수화기는 대응하는 임베딩들 간의 수학적 유사성을 계산한다. 유사성 점수들은 예를 들어, 코사인 유사성, 확률적 선형 판별 분석(probabilistic linear discriminant analysis, PLDA)을 정의하는 계층들의 출력, 서포트 벡터 머신(support vector machine, SVM)을 정의하는 계층들의 출력, 또는 인공 신경망(artificial neural network, ANN)을 정의하는 계층들의 출력일 수 있다.
기계 학습 아키텍처는 특정 오디오비주얼 데이터에 대한 최종 출력 점수를 생성하기 위해 하나 이상의 종합 동작을 수행할 수 있다. 일부 실시예들에서, 종합 동작은 이전에 생성된 대화자 딥페이크 검출 점수, 얼굴 딥페이크 검출 점수, 및 생체 정보 유사성 점수들을 알고리즘으로 조합하는 점수 종합을 포함한다. 점수 종합 동작은 예를 들어, 최종 출력 점수, 최종 오디오비주얼 딥페이크 점수, 및/또는 최종 오디오비주얼 인식 점수를 생성한다. 점수 종합 동작들을 위한 계층들은 예를 들어, 간단 규칙 기반 모델 또는 선형 기계 학습 모델(예를 들어, 로지스틱 회귀)일 수 있다. 기계 학습 아키텍처는 오디오비주얼 데이터의 "진짜" 부류와 오디오비주얼 데이터에 대한 "스푸프" 부류(때때로 "딥페이크" 분류로 지칭됨) 간을 분류하기 위해 하나 이상의 최종 점수에 적용되는 하나 이상의 분류자 모델을 더 포함할 수 있다. 트레이닝 단계 동안, 분석 서버(102)는 트레이닝 오디오비주얼 데이터에서 라벨링된 데이터에 따라 "진짜" 및 "스푸프" 부류들 간을 분류하기 위해 분류자 모델을 트레이닝한다.
일부 실시예들에서, 종합 동작은 다양한 임베딩들을 알고리즘으로 조합하기 위해 임베딩 레벨 종합(때때로 "중간 레벨" 종합으로 지칭됨)을 포함한다. 기계 학습 아키텍처의 대화자 엔진, 얼굴 엔진, 및/또는 입술 동기 추정 엔진은 하나 이상의 점수를 계산하기 위해 오디오비주얼 데이터로부터 추출되는 임베딩들을 추출하고 연결한다. 예를 들어, 기계 학습 아키텍처는 하나 이상의 점수를 생성하기 위해 조인트 임베딩(예를 들어, 조인트 인바운드 임베딩, 조인트 등록된 임베딩), 및 조인트 임베딩들에 따라 "진짜" 부류와 "스푸프" 부류 간을 분류하도록 트레이닝된 기계 학습 분류자의 계층들을 추출한다. 분류자 계층들은 다른 것들 중에서 특히, 선형 판별 분석(LDA), 확률적 선형 판별 분석(PLDA), 서포트 벡터 머신(SVM), 또는 인공 신경망(ANN)을 구현할 수 있다.
일부 실시예들에서, 종합 동작은 "특징 레벨" 종합을 포함한다. 분석 서버(102)는 오디오 데이터(예를 들어, MFCC(mel frequency cepstral coefficient), LFB(linear filter bank)) 및 비주얼 데이터(예를 들어, 픽셀 벡터들, 선형 이진 패턴(LBP), 이산 코사인 변환(DCT))의 세그먼트들로부터 스펙트럼 시간적 특징들 또는 다른 특징들을 추출한다. 그 후, 기계 학습 아키텍처는 하나 이상의 유사성 점수를 결정하기 위해 특징들을 연결한다. 기계 학습 아키텍처는 연결된 조인트 특징들로부터 추출되는 임베딩들에 따라 "진짜" 및 "스푸프" 부류들 간을 분류하도록 트레이닝된 기계 학습 분류자의 계층들을 포함한다.
관심 제안 엔진의 영역
일부 실시예들에서, 기계 학습 아키텍처는 관심 영역(region of interest, ROI) 제안 엔진을 정의하는 계층들을 포함한다. 분석 서버(102)가 오디오비주얼 데이터 샘플이 진짜가 아니라고 결정한다면, 분석 서버(102)는 ROI 제안 엔진을 적용한다. ROI 제안 엔진은 대화자 딥페이크 콘텐츠 및/또는 얼굴 딥페이크 콘텐츠를 포함할 가능성이 있는 하나 이상의 문제 세그먼트의 세트를 식별하기 위해 딥페이크 검출 점수들을 참조한다. ROI 제안 엔진은 최종 사용자 디바이스(114) 또는 운영 디바이스(103)에서 디스플레이 통지를 생성한다. 통지는 하나 이상의 문제 세그먼트의 세트를 최종 사용자 또는 운영 사용자에게 나타낸다. 일부 구현예들에서, 문제 세그먼트들을 식별하기 위해, ROI 제안 엔진은 하나 이상의 세그먼트 레벨 딥페이크 점수를 하나 이상의 대응하는 미리 구성된 위조 세그먼트 임계치들과 비교한다. 예를 들어, ROI 제안 엔진은 특정 세그먼트에 대한 대화자 딥페이크 검출 점수가 대화자 위조 세그먼트 임계치를 만족시키는 데 실패할 때 특정 세그먼트가 대화자 위조 콘텐츠를 포함할 가능성이 있다고 결정한다. 일부 구현예들에서, ROI 제안 엔진은 문제 세그먼트들을 검출하기 위한 추가적인 또는 대안적인 동작들(예를 들어, 점수 평활화)을 수행할 수 있다.
분석 데이터베이스(104) 또는 시스템(100)의 다른 데이터베이스는 트레이닝 오디오비주얼 데이터 샘플들, 트레이닝 오디오 신호들, 또는 트레이닝 이미지 데이터의 임의의 수의 코퍼스를 포함할 수 있고, 하나 이상의 네트워크(108)를 통해 분석 서버(102)에 액세스가능하다. 일부 실시예들에서, 분석 서버(102)는 기계 학습 아키텍처의 다양한 계층들을 트레이닝하기 위해 지도형 트레이닝을 채용하며, 여기서 분석 데이터베이스(104)는 특정 트레이닝 오디오비주얼 데이터에 대한 예상되는 특징들, 임베딩들, 또는 부류들을 나타내는 트레이닝 오디오비주얼 데이터 샘플과 연관된 라벨들을 포함한다. 분석 서버(102)는 트레이닝 동안 하나 이상의 손실 계층에 따라 기계 학습 아키텍처에 대한 가중치들 또는 하이퍼 파라미터들을 조정한다. 손실 계층들은 라벨들에 의해 나타내어지는 예상 출력들(예를 들어, 예상 특징들, 예상 임베딩들, 예상 분류들)과 기계 학습 아키텍처에 의해 생성되는 대응하는 예측 출력들(예를 들어, 예측 특징들, 예측 임베딩들, 예측 부류들) 간의 거리들을 나타내는 에러 레벨을 출력한다. 분석 서버(102)는 에러 레벨이 트레이닝 에러 임계치를 만족시킨다고 결정하는 것에 응답하여 분석 데이터베이스(104)에 하이퍼 파라미터들 또는 가중치들을 고정 및 저장한다.
분석 데이터베이스(104)는 오디오비주얼 프로필들에 대한 임의의 수의 등록 임베딩을 또한 저장할 수 있다. 분석 서버(102)는 특정 서비스의 특정 등록자 사용자들에 대한 오디오비주얼 프로필들을 생성할 수 있다. 일부 경우들에서, 분석 서버(102)는 유명 인사들 또는 다른 하이 프로필 개인들에 대한 오디오비주얼 프로필들을 생성한다.
운영 디바이스(103) 또는 시스템(100)의 다른 컴퓨팅 디바이스는 소프트웨어 프로그래밍을 실행하고, 분석 시스템(101)의 직원이 분석 서버(102)를 구성하는 것과 같은 다양한 운영 작업들, 또는 분석 서버(102)에 의해 실행되는 사용자 프롬프트 분석 동작들을 수행할 수 있게 하는 그래픽 사용자 인터페이스를 포함한다. 운영 디바이스(103)는 프로세서 및 소프트웨어를 포함하고, 본원에서 설명되는 다양한 작업들 및 프로세스들을 수행하는 것이 가능한 임의의 컴퓨팅 디바이스일 수 있다. 운영 디바이스(103)의 비제한적인 예들은 서버, 개인용 컴퓨터, 랩탑 컴퓨터, 태블릿 컴퓨터 등을 포함할 수 있다. 동작 시, 운영 사용자는 운영 디바이스(103)를 채용하여 시스템(100)의 다양한 구성요소들의 동작들을 구성하고 이러한 구성요소들에 질의들 및 명령어들을 발행한다.
일부 경우들에서, 분석 서버(102) 또는 시스템(100)의 다른 서버는 기계 학습 아키텍처에 의해 생성된 출력된 결과들을 운영 디바이스(103)에 송신한다. 운영 디바이스(103) 또는 다른 컴퓨팅 디바이스의 그래픽 사용자 인터페이스는 특정 통신 이벤트 세션의 오디오비주얼 데이터가 진짜 또는 스푸핑된 데이터 또는 기계 학습 아키텍처의 구성요소에 의해 생성된 하나 이상의 점수를 포함한다는 것을 나타내는 통지와 같은, 출력된 결과 데이터의 일부 또는 전부를 디스플레이한다.
시스템 수행 딥페이크 검출의 구성요소들
도 2는 개인 인식 및 딥페이크 검출 동작들을 수행하는 시스템(200)의 구성요소들 간의 데이터 흐름을 도시한 도해이다. 서버(202)(또는 다른 컴퓨팅 디바이스)는 하나 이상의 기계 학습 아키텍처(203)의 계층들 및 동작들을, 최종 사용자 디바이스로부터의 하나 이상의 입력에 의해 나타내어지는 바와 같은 주장되는 신원과 연관된 오디오비주얼 데이터(206) 및 개인의 타겟 신원에 대한 등록된 오디오비주얼 프로필에 적용한다. 서버(202)는 대화자 인식 및 얼굴 인식 동작들을 실행함으로써 주장되는 신원이 오디오비주얼 데이터(206)에 있는지 여부를 결정한다. 서버(202)는 기계 학습 아키텍처(203)의 딥페이크 검출 및/또는 입술 동기 추정 동작들을 실행함으로써 주장되는 신원이 진짜인지 또는 스푸핑되는지를 또한 결정한다.
시스템(200)은 하나 이상의 기계 학습 아키텍처(203)의 계층들 및 동작들을 실행하도록 구성된 소프트웨어를 포함하는 서버(202)를 포함한다. 시스템(200)은 하나 이상의 등록된 프로필을 저장하도록 구성된 데이터베이스(204)를 더 포함한다. 동작 시, 서버(202)는 오디오비주얼 데이터(206)를 미디어 데이터 파일 또는 데이터 스트림으로서 수신하며, 여기서 오디오비주얼 데이터(206)는 특정 오디오비주얼 미디어 포맷(예를 들어, MP4, MOV)을 포함한다. 오디오비주얼 데이터(206)는 대화자의 음성의 오디오 신호를 포함하는 오디오 데이터(208), 및 개인의 비디오 또는 하나 이상의 이미지를 포함하는 이미지 데이터(210)를 포함한다. 서버(202)는 오디오비주얼 데이터(206)에 나오고 대화하는 것으로 알려진 특정인의 주장되는 신원을 나타내는 최종 사용자 입력 또는 다른 데이터를 수신한다.
트레이닝 단계 동안, 서버(202)는 트레이닝 오디오비주얼 데이터(206)를 수신하고, 기계 학습 아키텍처(203)를 트레이닝하기 위해 기계 학습 아키텍처(203)를 트레이닝 오디오비주얼 데이터(206)에 적용한다. 등록 단계 동안, 서버(202)는 등록 오디오비주얼 데이터(206)를 수신하고, 특정인(예를 들어, 서비스의 등록된 사용자들, 유명 인사들)에 대한 기계 학습 아키텍처(203)를 개발하기 위해 기계 학습 아키텍처(203)를 등록 오디오비주얼 데이터(206)에 적용한다. 서버(202)는 등록된 보이스프린트 및 등록된 페이스프린트와 같은 등록인의 양태들을 나타내는 생체 정보 특징 임베딩들을 포함하는 등록된 프로필들을 생성한다. 서버(202)는 프로필 데이터를 데이터베이스(204)에 저장하고, 이 데이터베이스를 서버(202)가 디플로이먼트 단계 동안 참조한다.
디플로이먼트 단계에서, 서버(202)는 인바운드 오디오비주얼 데이터(206)를 수신하고, 인바운드 오디오비주얼 데이터(206)가 개인의 진짜 비디오 또는 개인의 딥페이크 비디오 중 어느 하나일 가능성이 있는지를 결정하기 위해 기계 학습 아키텍처(203)를 인바운드 오디오비주얼 데이터(206)에 적용한다. 서버(202)는 인바운드 보이스프린트 및 인바운드 페이스프린트와 같은 한 명 이상의 개인의 양태들(예를 들어, 대화자의 음성, 개인의 얼굴)을 나타내는 생체 정보 특징 임베딩들을 포함하는 인바운드 프로필을 생성한다. 일부 구현예들에서, 서버(202)는 등록된 개인에 대한 등록된 프로필(예를 들어, 등록된 보이스프린트, 등록된 페이스프린트)과 인바운드 프로필(예를 들어, 인바운드 보이스프린트, 및 인바운드 페이스프린트) 간의 유사성들을 나타내는 하나 이상의 점수를 생성한다.
서버(202)는 오디오비주얼 데이터(206)를 오디오 데이터(208) 및 이미지 데이터(210)의 세그먼트들로 파싱할 수 있다. 서버(202)는 이들 파싱된 세그먼트들의 데이터 포맷을 상이한 데이터 포맷들로 변환할 수 있다. 예를 들어, 서버(202)는 등록 오디오비주얼 데이터(206)의 오디오 데이터(208)를 하나 이상의 1초 오디오 세그먼트의 세트로 파싱하고, 등록 오디오비주얼 데이터(306)의 이미지 데이터(210)를 오디오비주얼 데이터(206)의 각 초에서의 스냅샷 화상들로 파싱한다. 이러한 예에서, 서버는 오디오 데이터(208)의 세트를 오디오 포맷(예를 들어, mp3, wav)으로 그리고 이미지 데이터(210)의 세트를 이미지 포맷(예를 들어, jpg, gif)으로 생성한다.
서버(202)는 기계 학습 아키텍처(203)를 오디오비주얼 데이터(206)에 적용하여 하나 이상의 점수를 생성한다. 서버(202)는 점수를 참조하여 오디오비주얼 데이터(206)가 개인의 진짜 비디오 또는 개인의 딥페이크를 포함할 가능성을 결정한다. 기계 학습 아키텍처(203)는 대화자 인식 엔진, 대화자 딥페이크 엔진, 얼굴 인식 엔진, 얼굴 딥페이크 엔진, 및 일부 실시예들에서 입술 동기 추정 엔진을 포함하는, 다양한 구성요소들을 정의하는 계층들을 포함한다. 동작 시, 서버(202)는 오디오 데이터(208)로부터 오디오 특징들의 세트를 그리고 이미지 데이터(210)로부터 비주얼 특징들의 세트를 추출한다. 기계 학습 아키텍처(203)의 구성요소들은 임베딩들을 추출하며, 여기서 각 임베딩은 오디오 데이터(208) 또는 이미지 데이터(210)의 특정 세그먼트로부터 추출된 특징들의 특정 세트를 나타내는 벡터를 포함한다.
기계 학습 아키텍처(203)는 대화자 인식 엔진 및 대화자 딥페이크 검출 엔진을 포함하는, 대화자 엔진들을 포함한다. 기계 학습 아키텍처(203)의 대화자 인식 엔진은 오디오 데이터(208)로부터 추출된 바와 같은 대화자 인식을 위한 특징들 및 임베딩들에 기초하여 대화자 보이스프린트(예를 들어, 트레이닝 보이스프린트, 등록 보이스프린트, 인바운드 보이스프린트)를 추출한다. 기계 학습 아키텍처(203)의 대화자 딥페이크 검출 엔진은 오디오 데이터(208)로부터 추출된 바와 같은 대화자 딥페이크 검출을 위한 특징들 및 임베딩들에 기초하여 대화자 스푸프프린트(예를 들어, 트레이닝 대화자 스푸프프린트, 등록 대화자 스푸프프린트, 인바운드 대화자 스푸프프린트)를 추출한다. 대화자 엔진은 대화자 인식 및 대화자 딥페이크 검출을 위한 하나 이상의 유사성 점수를 출력한다.
기계 학습 아키텍처(203)는 얼굴 인식 엔진 및 얼굴 딥페이크 검출 엔진을 포함하는, 얼굴 엔진들을 포함한다. 기계 학습 아키텍처(203)의 얼굴 인식 엔진은 이미지 데이터(210)로부터 추출된 바와 같은 얼굴 인식을 위한 특징들 및 임베딩들에 기초하여 페이스프린트(예를 들어, 트레이닝 페이스프린트, 등록 페이스프린트, 인바운드 페이스프린트)를 추출한다. 기계 학습 아키텍처(203)의 얼굴 딥페이크 엔진은 이미지 데이터(210)로부터 추출된 바와 같은 얼굴 딥페이크 검출을 위한 특징들 및 임베딩들에 기초하여 얼굴 스푸프프린트(예를 들어, 트레이닝 얼굴 스푸프프린트, 등록 얼굴 스푸프프린트, 인바운드 얼굴 스푸프프린트)를 추출한다. 얼굴 엔진은 얼굴 인식 및 얼굴 딥페이크 검출을 위한 하나 이상의 유사성 점수를 출력한다.
기계 학습 아키텍처(203)의 입술 동기 추정 엔진은 입술 동기 점수를 생성한다. 입술 동기 추정 엔진은 스냅샷마다 움직이는 얼굴의 얼굴 제스처들 또는 입/입술들에 대한 이미지 데이터, 및 오디오비주얼 데이터(206)의 세그먼트들로부터의 음소들을 분석한다. 예를 들어, 입술 동기 추정 엔진은 오디오비주얼 데이터(206)로부터 추출된 얼굴 제스처들, 오디오 음소들, 및 관련 타이밍 데이터에 대한 저레벨 특징들을 표현하는 특징 벡터들로서 입술 동기 임베딩을 추출할 수 있다. 입술 동기 추정 엔진은 이미지 데이터(210) 또는 오디오비주얼 데이터(206)에서의 입 주위의 직사각형 영역에 대한 특징들을 추출함으로써 입의 움직임에 집중한다. 입술 동기 추정 엔진은 관련 픽셀들 또는 이미지 맵을 사용하여 입술 움직임 추정 또는 비주얼 디스크립터들을 생성하고, 움직임 추정을 오디오 데이터(208) 또는 오디오비주얼 데이터(206)의 세그먼트로부터 검출되는 오디오 특징들과 조합한다. 입술 동기화 추정 엔진은 오디오 음소들과 입술들의 움직임 및/또는 얼굴 제스처들 간의 타이밍 지연을 결정한다. 입술 동기 추정 엔진은 동기화의 품질 또는 비디오의 오디오 및 비디오 양태들이 동기화될 가능성을 나타내는 입술 동기 점수를 생성한다.
기계 학습 아키텍처(203)는 하나 이상의 점수화 동작 및/또는 점수 종합 동작을 위한 계층들을 포함한다. 점수 종합 계층들은 신원 인식(예를 들어, 대화자 인식, 얼굴 인식)의 높은/낮은 가능성, 딥페이크 검출(예를 들어, 대화자 딥페이크, 얼굴 딥페이크)의 높은/낮은 가능성, 및 높은/낮은 입술 동기 품질을 나타내는 하나 이상의 최종 출력 점수를 출력한다. 기계 학습 아키텍처(203)는 오디오비주얼 데이터(206)를 진짜 또는 가짜 중 어느 하나일 가능성으로 분류하도록 트레이닝된 하나 이상의 분류 계층을 포함한다.
도 3은 등록된 오디오비주얼 프로필을 구축하기 위해 등록 동작들을 수행하는 시스템(300)의 구성요소들 간의 데이터흐름을 도시한 도해이다. 시스템(300)은 서버(302) 및 데이터베이스(304)를 포함한다. 서버(302)는 등록 오디오비주얼 데이터(306)를 미디어 데이터 파일 또는 데이터 스트림으로서 수신하며, 여기서 등록 오디오비주얼 데이터(306)는 특정 오디오비주얼 미디어 포맷(예를 들어, mp4, mov)을 포함한다. 기계 학습 아키텍처는 대화자 엔진 및 이미지 엔진을 정의하는 계층들을 포함한다. 서버(302)는 특정인에 대한 등록된 프로필을 생성하기 위해 기계 학습 아키텍처의 구성요소들을 등록 오디오비주얼 데이터(306) 상에 적용하며, 여기서 등록된 프로필은 등록된 보이스프린트(312) 및 등록된 페이스프린트(314)를 포함한다. 서버(302)는 등록된 보이스프린트(312)를 생성하기 위해 대화자 엔진을 등록 오디오 데이터(308) 상에 적용하고, 등록된 페이스프린트(314)를 생성하기 위해 이미지 엔진을 등록 이미지 데이터(310) 상에 적용한다.
일부 경우들에서, 서버(302)는 등록 오디오비주얼 데이터(306)와 별개인 등록 오디오 데이터(308) 및/또는 등록 이미지 데이터(310)를 수신할 수 있다. 이들 경우들에서, 등록 오디오 데이터(308)는 특정 오디오 포맷(예를 들어, mp3, wav) 또는 이미지 포맷(예를 들어, jpg, gif)을 포함한다. 서버(302)는 등록 오디오비주얼 데이터(306)를 등록 오디오 데이터(308) 및 등록 이미지 데이터(310)의 세그먼트들로 파싱할 수 있다. 서버(302)는 이들 파싱된 세그먼트들의 데이터 포맷을 상이한 데이터 포맷들로 변환할 수 있다. 예를 들어, 서버(302)는 등록 오디오비주얼 데이터(306)의 오디오 데이터를 하나 이상의 1초 오디오 세그먼트의 세트로 파싱하고, 등록 오디오비주얼 데이터(306)의 이미지 데이터를 등록 오디오비주얼 데이터(306)의 각 초에서의 스냅샷 화상들로 파싱한다. 이러한 예에서, 서버는 오디오 데이터(308)의 세트를 오디오 포맷으로 그리고 등록 이미지 데이터(310)의 세트를 이미지 포맷으로 생성한다.
서버(302)는 등록 오디오 데이터(308) 및 등록 이미지 데이터(310)로부터 특징들의 세트 및, 등록 이미지 데이터(310)로부터 특징들의 세트를 추출한다. 대화자 엔진은 등록 오디오 데이터(308)의 특정 세그먼트의 특징들을 나타내는 벡터로서 대화자 임베딩을 추출한다. 대화자 엔진은 등록된 보이스프린트(312)를 추출하기 위해 대화자 임베딩들(예를 들어, 평균들)을 알고리즘으로 조합한다. 유사하게, 이미지 엔진은 특정 등록 이미지 데이터(310)의 특징들을 나타내는 벡터로서 이미지 임베딩을 추출한다. 이미지 엔진은 등록된 페이스프린트(314)를 추출하기 위해 이미지 임베딩들을 알고리즘으로 조합한다. 서버(302)는 등록된 보이스프린트(312) 및 등록된 얼굴 프린트(314)를 데이터베이스(304)에 저장하며, 이 데이터베이스를 서버(302)가 디플로이먼트 단계 동안 이후에 참조한다.
예시적인 프로세스 동작들
도 4는 다양한 생체 정보를 사용하여 딥페이크 검출(예를 들어, 대화자 스푸프, 얼굴 스푸프) 및 신원 인식(예를 들어, 대화자 인식, 얼굴 인식)을 위한 하나 이상의 기계 학습 아키텍처를 구현하기 위한 방법(400)의 실행 단계들을 도시한다. 실시예들은 방법(400)에서 설명된 것보다 추가적인, 더 적은, 또는 상이한 동작들을 포함할 수 있다. 서버는 하나 이상의 기계 학습 아키텍처를 포함하는 기계 판독가능 소프트웨어 코드를 실행함으로써 방법(400)의 단계들을 수행하지만, 임의의 수의 컴퓨팅 디바이스 및/또는 프로세서가 방법(400)의 다양한 동작들을 수행할 수 있다는 것이 인식되어야 한다.
단계 402에서, 서버는 특정인에 대한 트레이닝 이미지 데이터 및 트레이닝 오디오 데이터를 포함하여, 트레이닝 단계 동안 트레이닝 오디오비주얼 데이터를 획득한다. 트레이닝 단계 동안, 서버는 트레이닝 오디오비주얼 데이터(예를 들어, 트레이닝 오디오비주얼 데이터 샘플들)를 수신하거나, 다양한 시뮬레이션된 오디오비주얼 데이터 샘플들을 생성하며, 이는 트레이닝 오디오비주얼 데이터의 열화된 또는 혼합된 사본들, 트레이닝 이미지 데이터, 또는 트레이닝 오디오 데이터를 포함할 수 있다.
기계 학습 아키텍처의 서버 또는 계층들은 오디오 데이터(예를 들어, 대화자 오디오 신호) 및 비주얼 데이터(예를 들어, 얼굴 이미지)를 포함하는, 입력 오디오비주얼 데이터(예를 들어, 트레이닝 오디오비주얼 데이터, 등록 오디오비주얼 데이터, 인바운드 오디오비주얼 데이터)에 대해 다양한 전처리 동작들을 수행할 수 있다. 이들 전처리 동작들은 예를 들어, SFT(Short-time Fourier Transform), FFT(Fast Fourier Transform), 또는 다른 변환 동작을 수행함으로써, 대화자 오디오 신호들 또는 비주얼 이미지 데이터로부터 저레벨 특징들을 추출하는 것 그리고 이들 특징들을 특징들의 다양한 대안적인 표현들로 변환하는 것(예를 들어, 오디오 데이터를 시간 도메인 표현으로부터 주파수 영역 표현으로 변환하는 것)을 포함할 수 있다. 전처리 동작들은 또한 오디오 신호 또는 비주얼 데이터를 프레임들 또는 서브 프레임들로 파싱하는 것, 그리고 다양한 정규화 또는 스케일링 동작들을 수행하는 것을 포함할 수 있다. 선택사항으로서, 서버는 오디오비주얼 데이터를 기계 학습 아키텍처의 계층들에 공급하기 전에 임의의 수의 전처리 동작을 수행한다. 서버는 동작 단계들 중 하나 이상에서 다양한 전처리 동작을 수행할 수 있지만, 수행되는 특정 전처리 동작들은 동작 단계들에 걸쳐 달라질 수 있다. 서버는 기계 학습 아키텍처와 별개로 또는 기계 학습 아키텍처의 네트워크내 계층으로서 다양한 전처리 동작들을 수행할 수 있다.
기계 학습 아키텍처의 서버 또는 계층들은 트레이닝 또는 등록 목적을 위해 오디오비주얼 데이터에 대해 다양한 증강 동작들을 수행할 수 있다. 증강 동작들은 입력 오디오 신호에 대한 다양한 유형들의 왜곡 또는 열화를 생성하여, 결과적인 오디오 신호들이 예를 들어, 특징 벡터들을 생성하는 컨볼루션 동작들에 의해 수집된다. 서버는 신경망 아키텍처로부터의 별개의 동작들로서 또는 네트워크내 증강 계층들로서 다양한 증강 동작들을 수행할 수 있다. 서버는 동작 단계들 중 하나 이상에서 다양한 증강 동작을 수행할 수 있지만, 수행되는 특정 증강 동작들은 동작 단계들에 걸쳐 달라질 수 있다.
단계 404에서, 서버는 기계 학습 아키텍처의 계층들을 트레이닝 오디오비주얼 데이터에 적용함으로써 기계 학습 아키텍처를 트레이닝한다. 서버는 기계 학습 아키텍처의 특정 구성요소의 동작 계층들에 따라 예측 출력들을 생성하기 위해 기계 학습 아키텍처의 계층들을 적용한다. 기계 학습 아키텍처들의 손실 계층들 또는 다른 기능은 예측 출력과 예측 출력을 나타내는 라벨들 또는 다른 데이터 간의 에러 레벨(예를 들어, 하나 이상의 유사성, 거리)을 결정한다. 기계 학습 아키텍처의 손실 계층들 또는 다른 양태는 예측 출력들(예를 들어, 예측 임베딩들, 예측 점수들, 예측 분류)에 대한 에러 레벨이 예측 출력들(예를 들어, 예측 임베딩들, 예측 점수들, 예측 분류)에 대한 임계 에러 레벨 에러를 만족시킬 때까지 하이퍼 파라미터들을 조정한다. 그 후, 서버는 하이퍼 파라미터들, 가중치들, 또는 특정 기계 학습 아키텍처의 다른 항들을 데이터베이스에 저장하며, 이에 의해, 기계 학습 아키텍처의 특정 구성요소 및 하나 이상의 모델을 "고정"한다.
단계 406에서, 서버는 신경망을 선택적 등록 동작 단계에 두고, 등록 오디오비주얼 데이터를 획득하여 등록된 프로필에 대한 등록 임베딩들을 생성한다. 서버는 특정인의 프로필에 대한 등록 오디오비주얼 프로필에 대한 등록 임베딩들을 생성하기 위해 기계 학습 아키텍처의 계층들을 등록 오디오비주얼 데이터에 적용한다. 서버는 등록자에 대한 등록 오디오비주얼 데이터 샘플들을 수신하고, 예를 들어, 대화자 스푸프프린트, 등록자 보이스프린트, 얼굴 스푸프프린트, 및 등록 페이스프린트를 포함하는, 다양한 등록 특징 벡터들을 생성하기 위해 기계 학습 아키텍처를 적용한다. 서버는 등록 단계 동안 기계 학습 아키텍처의 특정 계층들을 인에이블 및/또는 디스에이블할 수 있다. 예를 들어, 서버는 통상적으로 등록 단계 동안 계층들 각각을 인에이블하고 적용하지만, 일부 구현예들에서 서버는 특정 분류 계층들을 디스에이블할 수 있다.
등록자에 대한 특정 임베딩(예를 들어, 보이스프린트, 페이스프린트, 스푸프프린트(들))을 추출할 때, 기계 학습 아키텍처는 임베딩의 특정 유형에 관련된 특징들의 대응하는 유형들에 기초하여 등록자 임베딩들의 세트를 특징 벡터들로서 생성한다. 그 후, 기계 학습 아키텍처는 보이스프린트, 페이스프린트, 또는 대화자/얼굴 스푸프프린트를 생성하기 위해 대응하는 유형들의 임베딩들을 알고리즘으로 조합한다. 서버는 각 등록자 임베딩을 데이터베이스의 비일시적 저장 미디어에 저장한다.
단계 408에서, 서버는 신경망 아키텍처를 디플로이먼트 단계에 두고, 인바운드 오디오비주얼 데이터를 수신한다. 서버는 인바운드 오디오비주얼 데이터를 세그먼트들로 파싱하고, 세그먼트들로부터 저레벨 특징들을 추출한다. 그 후, 서버는 인바운드 오디오비주얼 데이터에 대한 특정인과 연관된 다양한 유형들의 임베딩들(예를 들어, 인바운드 보이스프린트, 인바운드 페이스프린트, 인바운드 스푸프프린트(들))을 추출한다. 일부 경우들에서, 서버는 특정인을 나타내는 신원 주장을 포함하는 데이터 입력들을 수신한다.
단계 410에서, 서버는 기계 학습 아키텍처를 인바운드 오디오비주얼 데이터의 특징들에 적용함으로써 인바운드 오디오비주얼 데이터가 진짜인지 여부를 결정한다. 기계 학습 아키텍처는 인바운드 임베딩들 ― 이들은 일부 경우들에서 신원 주장의 개인과 연관된 등록된 임베딩들임 ― 과 대응하는 등록된 임베딩들 간의 유사성들 또는 차이들에 기초하여 하나 이상의 유사성 점수를 생성한다.
예로서, 기계 학습 아키텍처는 인바운드 보이스프린트를 추출하고, 대화자 인식을 위해 인바운드 보이스프린트와 등록자 보이스프린트 간의 유사성을 나타내는 유사성 점수를 출력한다. 마찬가지로, 얼굴 인식을 위해, 기계 학습 아키텍처는 인바운드 페이스프린트 및 등록된 페이스프린트를 추출하고, 인바운드 페이스프린트와 등록된 페이스프린트 간의 거리를 나타내는 유사성 점수를 출력한다. 더 큰 거리는 인바운드 오디오비주얼 데이터의 대화자 또는 얼굴이 등록된 대화자의 음성 또는 얼굴과 매칭될 더 낮은 가능성 및 더 낮은 정도의 유사성을 나타낼 수 있다. 이 예에서, 서버는 유사성 점수가 대화자 또는 얼굴 인식 임계치를 만족시킬 때 대화자 또는 얼굴을 등록자로서 매치를 식별한다(또는 인식한다).
다른 예로서, 신경망 아키텍처는 인바운드 얼굴 스푸프프린트 및 인바운드 대화자 스푸프프린트를 추출하고, 인바운드 대화자/얼굴 스푸핑프린트와 대응하는 등록된 대화자/얼굴 스푸프프린트 간의 유사성들을 나타내는 유사성 점수들을 출력한다. 더 큰 거리는 인바운드 대화자/얼굴 스푸프프린트와 등록자 대화자/얼굴 스푸프프린트 간의 더 낮은/더 적은 유사성들로 인해, 인바운드 오디오비주얼이 스푸프일 더 낮은 가능성을 나타낼 수 있다. 이 예에서, 서버는 유사성 점수가 딥페이크 검출 임계치를 만족시킬 때 인바운드 오디오비주얼 데이터의 대화자 또는 얼굴이 딥페이크라고 결정한다.
일부 실시예들에서, 기계 학습 아키텍처는 (보이스프린트들의 비교에 기초한) 대화자/얼굴 유사성 점수 및 (스푸프프린트들의 비교에 기초한) 대응하는 대화자/얼굴 딥페이크 검출 점수들을 사용하여 조합된 유사성 점수를 생성하는 하나 이상의 종합 동작을 포함한다. 서버는 대화자/얼굴 유사성 점수와 대응하는 대화자/얼굴 딥페이크 검출 점수를 합산하거나 그 외 알고리즘으로 조합함으로써 조합된 유사성 점수를 생성한다. 그 후, 서버는 조합된 유사성 점수가 인증 또는 확인 임계 점수를 만족시키는지 여부를 결정한다. 본원에서 논의된 바와 같이, 기계 학습 아키텍처는 다양한 유사성 점수들 및 부류들을 결정하기 위한 추가적인 또는 대안적인 점수 종합 동작들을 구현할 수 있다.
도 5는 점수 레벨 점수 종합 동작(524)에 따라, 딥페이크 검출(예를 들어, 대화자 딥페이크 스푸프, 얼굴 딥페이크 스푸프) 및 생체 정보 인식(예를 들어, 대화자 인식, 얼굴 인식)을 위한 하나 이상의 기계 학습 아키텍처를 구현하기 위한 시스템(500)의 구성요소들의 데이터 흐름을 도시한다. 서버 또는 다른 컴퓨팅 디바이스는 시스템(500)에서 다양한 동작들을 수행하도록 구성된 하나 이상의 기계 학습 아키텍처(507)의 소프트웨어를 실행한다.
기계 학습 아키텍처(507)는 비디오 클립을 포함하는 컴퓨터 파일 또는 데이터 스트림의 형태의 오디오비주얼 데이터(502)를 수신한다. 오디오비주얼 데이터(502)는 대화자의 오디오 신호를 포함하는 오디오 데이터(504) 및 개인의 얼굴의 이미지를 포함하는 이미지 데이터(506)를 포함한다. 기계 학습 아키텍처(507)는 오디오 데이터(504)를 수집하는 대화자 엔진(508), 이미지 데이터(506)를 수집하는 얼굴 엔진(512), 및 오디오비주얼 데이터(502) 및/또는 오디오 데이터(504)와 이미지 데이터(506) 둘 다를 수집하는 입술 동기 추정 엔진(510)을 포함한다. 서버는 오디오 데이터(504), 이미지 데이터(506), 및/또는 오디오비주얼 데이터(502)를 주어진 크기(예를 들어, 길이, 스냅샷, 데이터 크기)의 세그먼트들 또는 프레임들로 파싱한다. 그 후, 서버는 오디오비주얼 데이터(502), 오디오 데이터(504), 및/또는 이미지 데이터(506)의 대응하는 부분으로부터 다양한 유형들의 저레벨 특징들을 추출한다. 서버는 기계 학습 아키텍처(507)를 오디오비주얼 데이터(502), 오디오 데이터(504), 및/또는 이미지 데이터(506)로부터 추출된 특징들에 적용하고, 생체 정보 유사성 점수들(예를 들어, 대화자 유사성 점수(514), 얼굴 유사성 점수(520))을 생성한다.
기계 학습 아키텍처(507)의 대화자 엔진(508)은 오디오 데이터(504)의 특정 특징들에 대한 대화자 인식 임베딩(보이스프린트)을 추출하고, 오디오 데이터(504)의 특정 특징들에 대해 오디오 딥페이크 임베딩을 추출한다. 대화자 엔진(508)은 대화자 생체 정보 유사성 점수(514)를 생성하기 위한 입력 보이스프린트와 등록된 보이스프린트 간의 유사성들을 결정하기 위해 데이터베이스 내의 등록된 보이스프린트를 참조한다. 대화자 엔진(508)은 음성 딥페이크 검출을 위한 대화자 딥페이크 점수(516)를 생성하기 위한 오디오 딥페이크 임베딩과 미리 구성된 대화자 스푸프프린트들 간의 유사성들을 결정하기 위해 데이터베이스 내의 하나 이상의 미리 구성된 대화자 스푸프프린트를 참조한다. 대화자 엔진(508)은 대화자 유사성 점수(514) 및 대화자 딥페이크 점수(516)를 점수 종합 동작(524)에 출력한다.
기계 학습 아키텍처(507)의 얼굴 엔진(512)은 이미지 데이터(506)의 특정 특징들에 대한 얼굴 인식 임베딩(페이스프린트)을 추출하고, 이미지 데이터(506)의 특정 특징들에 대해 얼굴 딥페이크 임베딩을 추출한다. 얼굴 엔진(512)은 얼굴 생체 정보 유사성 점수(520)를 생성하기 위한 입력 페이스프린트와 등록된 보이스프린트 간의 유사성들을 결정하기 위해 데이터베이스 내의 등록된 페이스프린트를 참조한다. 얼굴 엔진(512)은 얼굴 딥페이크 검출을 위한 얼굴 딥페이크 점수(522)를 생성하기 위한 얼굴 딥페이크 임베딩과 미리 구성된 얼굴 스푸프프린트들 간의 유사성들을 결정하기 위해 데이터베이스 내의 하나 이상의 미리 구성된 얼굴 스푸프프린트를 참조한다. 얼굴 엔진(512)은 얼굴 유사성 점수(520) 및 얼굴 딥페이크 점수(522)를 점수 종합 동작(524)에 출력한다.
오디오비주얼 데이터(502), 오디오 데이터(504), 및/또는 이미지 데이터(506)의 세그먼트들에 대해, 입술 동기 추정 엔진(510)은 입술 동기 점수(518)를 출력한다. 입술 동기 추정 엔진(510)은 오디오비주얼 데이터(502)에서 비디오의 특정 세그먼트들에 대한 입술/입 제스처들, 음소들, 및/또는 타이밍 데이터에 대한 특징들을 추출하고, 주어진 세그먼트들에 대한 추정된 입술 동기 특징들을 나타내는 특징 벡터 임베딩을 추출할 수 있다. 입술 동기 점수(518)는 대화와 입술 움직임 둘 다가 주어진 정도만큼 동기 또는 비동기일 가능성을 나타낸다. 입술 동기 추정 엔진(510)은 입술 동기 점수(518)를 점수 종합 기능(524)에 출력한다.
방법(500)의 점수 종합 기능(524)은 최종 오디오비주얼 점수(526)를 출력하기 위해 오디오비주얼 데이터(502), 오디오 데이터(504), 및 이미지 데이터(506)를 사용하여 생성된 점수들(514, 516, 518, 520, 522)을 알고리즘으로 조합한다. 기계 학습 아키텍처(507)는 최종 출력 점수(526)가 특정 임계 점수를 만족할 때 오디오비주얼 데이터(502)가 진짜이거나 스푸핑된 것으로 결정한다. 일부 경우들에서, 기계 학습 아키텍처(507)는 벡터로서 표현될 때 최종 출력 점수(526)에 기초하여 오디오비주얼 데이터(502)를 진짜 또는 스푸핑된 것으로서 분류하도록 트레이닝된 분류자 계층들을 포함한다.
도 6은 임베딩 레벨 점수 종합 동작(624)에 따라, 딥페이크 검출(예를 들어, 대화자 스푸프, 얼굴 스푸프) 및 개인 인식(예를 들어, 대화자 인식, 얼굴 인식)을 위한 하나 이상의 기계 학습 아키텍처를 구현하기 위한 시스템(600)의 구성요소들의 데이터 흐름을 도시한다. 서버 또는 다른 컴퓨팅 디바이스는 시스템(600)에서 다양한 동작들을 수행하도록 구성된 하나 이상의 기계 학습 아키텍처(607)의 소프트웨어를 실행한다.
기계 학습 아키텍처(607)는 비디오 클립을 포함하는 컴퓨터 파일 또는 데이터 스트림의 형태의 오디오비주얼 데이터(602)를 수신한다. 오디오비주얼 데이터(602)는 대화자의 오디오 신호를 포함하는 오디오 데이터(604) 및 개인의 얼굴의 이미지를 포함하는 이미지 데이터(606)를 포함한다. 기계 학습 아키텍처(607)는 오디오 데이터(604)를 수집하는 대화자 엔진(608), 이미지 데이터(606)를 수집하는 얼굴 엔진(612), 및 오디오비주얼 데이터(602) 및/또는 오디오 데이터(604)와 이미지 데이터(606) 둘 다를 수집하는 입술 동기 추정 엔진(610)을 포함한다. 서버는 오디오 데이터(604), 이미지 데이터(606), 및/또는 오디오비주얼 데이터(602)를 주어진 크기(예를 들어, 길이, 스냅샷, 데이터 크기)의 세그먼트들 또는 프레임들로 파싱한다. 그 후, 서버는 오디오비주얼 데이터(602), 오디오 데이터(604), 및/또는 이미지 데이터(606)의 대응하는 부분으로부터 다양한 유형들의 저레벨 특징들을 추출한다. 서버는 기계 학습 아키텍처(607)를 오디오비주얼 데이터(602), 오디오 데이터(604), 및/또는 이미지 데이터(606)로부터 추출된 특징들에 적용하고, 대응하는 유형들의 특징들을 사용하여 다양한 유형들의 임베딩들(614, 616, 618, 620, 622)을 추출한다.
기계 학습 아키텍처(607)의 대화자 엔진(608)은 오디오 데이터(604)의 특정 특징들에 대한 대화자 인식 임베딩(614)(보이스프린트)을 추출하고, 오디오 데이터(604)의 특정 특징들에 대해 오디오 스푸프프린트 임베딩(616)을 추출한다. 대화자 엔진(608)은 스푸프프린트(614) 및 대화자 스푸프프린트(616)를 점수 종합 동작(624)에 출력한다.
기계 학습 아키텍처(607)의 얼굴 엔진(612)은 이미지 데이터(606)의 특정 특징들에 대한 얼굴 인식 임베딩(620)(페이스프린트)을 추출하고, 이미지 데이터(606)의 특정 특징들에 대해 얼굴 스푸프프린트 임베딩(622)을 추출한다. 얼굴 엔진(612)은 페이스프린트 임베딩(620) 및 스푸프프린트(622)를 점수 종합 동작(624)에 출력한다.
오디오비주얼 데이터(602), 오디오 데이터(604), 및/또는 이미지 데이터(606)의 세그먼트들에 대해, 입술 동기 추정 엔진(610)은 입술 동기 점수(618)를 출력한다. 입술 동기 추정 엔진(610)은 오디오비주얼 데이터(602)에서 비디오의 특정 세그먼트들에 대한 입술/입 제스처들, 음소들, 및/또는 타이밍 데이터에 대한 특징들을 추출하고, 주어진 세그먼트들에 대한 추정된 입술 동기 특징들을 나타내는 특징 벡터를 입술 동기 임베딩(618)으로서 추출할 수 있다. 입술 동기 추정 엔진(610)은 입술 동기 임베딩(618)을 점수 종합 기능(624)에 출력한다.
방법(600)의 점수 종합 기능(624)은 오디오비주얼 데이터(602), 오디오 데이터(604), 및 이미지 데이터(606)를 사용하여 공동 임베딩을 생성하기 위해 임베딩들(614, 616, 618, 620, 622)을 알고리즘으로 조합(예를 들어, 연결)한다. 점수 종합 기능(624) 또는 기계 학습 아키텍처(607)의 다른 기능은 오디오비주얼 데이터(602)에 대한 조인트 임베딩과 데이터베이스에 저장된 등록된 조인트 임베딩 간의 거리들 또는 유사성들에 기초하여 조인트 유사성 점수(최종 점수(626)로서 나타남)를 결정한다.
기계 학습 아키텍처(607)는 최종 출력 점수(626)가 미리 구성된 임계 점수를 만족시키는지 여부에 기초하여 오디오비주얼 데이터(602)가 진짜이거나 스푸핑된 것으로 결정한다. 일부 경우들에서, 기계 학습 아키텍처(607)는 벡터로서 표현되는 최종 출력 점수(626)에 기초하여 오디오비주얼 데이터(602)를 진짜 또는 스푸핑된 것으로서 분류하도록 트레이닝된 분류자 계층들을 포함한다.
도 7은 특징 레벨 점수 종합 동작(724)에 따라, 딥페이크 검출(예를 들어, 대화자 스푸프, 얼굴 스푸프) 및 개인 인식(예를 들어, 대화자 인식, 얼굴 인식)을 위한 하나 이상의 기계 학습 아키텍처를 구현하기 위한 시스템(700)의 구성요소들의 데이터 흐름을 도시한다. 서버 또는 다른 컴퓨팅 디바이스는 시스템(700)에서 다양한 동작들을 수행하도록 구성된 하나 이상의 기계 학습 아키텍처(707)의 소프트웨어를 실행한다.
기계 학습 아키텍처(707)는 비디오 클립을 포함하는 컴퓨터 파일 또는 데이터 스트림의 형태의 오디오비주얼 데이터(702)를 수신한다. 오디오비주얼 데이터(702)는 대화자의 오디오 신호를 포함하는 오디오 데이터(704) 및 개인의 얼굴의 이미지를 포함하는 이미지 데이터(706)를 포함한다. 기계 학습 아키텍처(707)는 오디오 데이터(704)를 수집하는 대화자 엔진(708), 이미지 데이터(706)를 수집하는 얼굴 엔진(712), 및 오디오비주얼 데이터(702) 및/또는 오디오 데이터(704)와 이미지 데이터(706) 둘 다를 수집하는 입술 동기 추정 엔진(710)을 포함한다. 서버는 오디오 데이터(704), 이미지 데이터(706), 및/또는 오디오비주얼 데이터(702)를 주어진 크기(예를 들어, 길이, 스냅샷, 데이터 크기)의 세그먼트들 또는 프레임들로 파싱한다. 그 후, 서버는 오디오비주얼 데이터(702), 오디오 데이터(704), 및/또는 이미지 데이터(706)의 대응하는 부분으로부터 다양한 유형들의 저레벨 특징들을 추출한다. 서버는 기계 학습 아키텍처(707)가 데이터베이스에 저장된 하나 이상의 대응하는 등록된 조인트 임베딩과 비교할 하나 이상의 조인트 임베딩을 추출하기 위해 기계 학습 아키텍처(707) 및 특징 레벨 점수 종합 기능(724)을 다양한 유형들의 특징들(714, 716, 718, 720, 722)에 적용한다.
기계 학습 아키텍처(607)의 대화자 엔진(708)은 오디오 데이터(704)에 대한 특정 저레벨, 대화자 인식 특징들(714) 및 오디오 스푸프프린트 특징들(716)을 추출한다. 대화자 엔진(708)은 대화자 보이스프린트 특징들(714) 및 대화자 스푸프프린트 특징들(716)을 연결하고 점수 종합 동작(724)에 출력한다.
기계 학습 아키텍처(707)의 얼굴 엔진(712)은 이미지 데이터(706)에 대한 특정 저레벨 얼굴 인식 특징들(720) 및 얼굴 스푸프프린트 특징들(722)을 추출한다. 얼굴 엔진(712)은 페이스프린트 특징들(720) 및 얼굴 스푸프프린트 특징들(722)을 연결하고 점수 종합 동작(724)에 출력한다.
오디오비주얼 데이터(702), 오디오 데이터(704), 및/또는 이미지 데이터(706)의 세그먼트들에 대해, 입술 동기 추정 엔진(710)은 오디오비주얼 데이터(702)에서의 비디오의 특정 세그먼트들에 대한 입술/입 제스처들, 음소들, 및/또는 타이밍 데이터에 대한 저레벨 입술 동기 특징들(718)을 추출한다. 입술 동기 추정 엔진(710)은 입술 동기 특징들(718)을 점수 종합 기능(724)에 출력한다.
방법(700)의 점수 종합 기능(724)은 오디오비주얼 데이터(702), 오디오 데이터(704), 및 이미지 데이터(706)를 사용하여 공동 임베딩을 추출하기 위해 다양한 유형들의 특징들(714, 716, 718, 720, 722)을 알고리즘으로 조합(예를 들어, 연결)한다. 점수 종합 기능(724)은 조인트 임베딩과 데이터베이스에서의 등록된 조인트 임베딩 간의 유사성들에 기초하여 조인트 유사성 점수(최종 점수(726)로서 나타남)를 결정한다. 기계 학습 아키텍처(707)는 최종 출력 점수(726)가 미리 구성된 임계 점수를 만족시키는지 여부에 기초하여 오디오비주얼 데이터(702)가 진짜이거나 스푸핑된 것으로 결정한다. 일부 경우들에서, 기계 학습 아키텍처(707)는 벡터로서 표현되는 최종 출력 점수(726)에 기초하여 오디오비주얼 데이터(672)를 진짜 또는 스푸핑된 것으로서 분류하도록 트레이닝된 분류자 계층들을 포함한다.
도 8은 실시예에 따라, 딥페이크 검출(예를 들어, 대화자 스푸프, 얼굴 스푸프) 및 개인 인식(예를 들어, 대화자 인식, 얼굴 인식)을 위한 하나 이상의 기계 학습 아키텍처를 구현하기 위한 방법(800)의 실행 단계들을 도시한다. 기계 학습 아키텍처는(단계 806-단계 814에서) 별개의 오디오 및 비주얼 생체 정보 임베딩들을 분석하기 위한 계층들 및 (단계 805에서) 오디오비주얼 임베딩을 입술 동기 추정으로서 분석하기 위한 계층들을 포함한다. 방법(800)에서, 서버는 각 세그먼트에 대해 (단계 814에서) 오디오 임베딩들 및 비주얼 임베딩들을 사용하여 세그먼트 레벨 종합 점수를 생성하고, 오디오비주얼 데이터(예를 들어, 비디오 클립)의 대부분 또는 전부에 대해 (단계 816에서) 세그먼트 레벨 점수 및 입술 동기 추정 점수에 대한 기록 레벨 종합 점수를 생성한다. 실시예들은 다양한 레벨들의 데이터(예를 들어, 특징 레벨, 임베딩 레벨)에서, 그리고 다양한 레벨들 데이터량들(예를 들어, 풀 레코딩들, 세그먼트들)에 대해 점수 종합 동작들을 구현할 수 있다.
단계 802에서, 서버는 오디오비주얼 데이터를 획득한다. 트레이닝 또는 등록 단계들에서, 서버는 최종 사용자 디바이스들, 트레이닝 또는 등록 오디오비주얼 데이터의 하나 이상의 코포라를 포함하는 데이터베이스들, 또는 트레이닝 또는 등록 오디오비주얼 데이터를 호스팅하는 서드파티 데이터 소스들로부터 트레이닝 또는 등록 오디오비주얼 데이터 샘플들을 수신할 수 있다. 일부 경우들에서, 서버는 추가적인 트레이닝 오디오비주얼 데이터에 대한 시뮬레이션된 오디오비주얼 데이터를 생성하기 위해 트레이닝 오디오비주얼 데이터에 대해 데이터 증강 동작들을 적용한다. 디플로이먼트 단계에서, 서버는 인바운드 오디오비주얼 데이터를 생성하는 소프트웨어 서비스를 호스팅하는 최종 사용자 디바이스 또는 서드파티 서버로부터 인바운드 오디오 오디오비주얼 데이터 샘플을 수신한다.
단계 804에서, 서버는 오디오비주얼 데이터를 세그먼트들 또는 프레임들로 파싱한다. 서버는 (단계 806-단계 814에서) 생체 정보 임베딩들을 위한 세그먼트들에 기계 학습 아키텍처를 적용하고, (단계 805에서) 입술 동기 추정을 위해 기계 학습 아키텍처를 오디오비주얼 데이터의 일부 또는 전부에 적용한다. 서버는 오디오비주얼 데이터의 세그먼트들로부터 다양한 유형들의 저레벨 특징들을 추출한다.
단계 805에서, 세그먼트들의 일부 또는 전부에 대해, 서버는 특정 세그먼트의 특징들을 사용하여 입술 동기 임베딩들을 추출한다. 그 후, 서버는 입술 동기 점수를 결정하기 위해 세그먼트들의 입술 동기 임베딩들에 입술 동기 추정 엔진을 적용한다.
단계 806에서, 세그먼트들의 일부 또는 전부에 대해, 서버는 특정 세그먼트의 특징들을 사용하여 생체 정보 임베딩들(예를 들어, 보이스프린트, 페이스프린트)을 추출한다. 단계 808에서, 서버는 대화자 보이스프린트와 등록된 대화자 보이스프린트 간의 유사성들에 기초하여 대화자 인식 유사성 점수를 생성한다. 서버는 또한 페이스프린트와 등록된 페이스프린트 간의 유사성들에 기초하여 얼굴 인식 유사성 점수를 생성한다.
선택적 단계 810에서, 서버는 대화자 유사성 점수와 얼굴 유사성 점수 둘 다가 하나 이상의 대응하는 인식 임계 점수를 만족시키는지 여부를 결정한다. 서버는 대화자 유사성 점수를 대응하는 대화자 인식 점수와 비교하고, 얼굴 유사성 점수를 대응 얼굴 인식 점수와 비교한다. 방법(800)은 서버가 하나 이상의 생체 정보 유사성 점수가 대응하는 인식 임계치를 만족시키지 못한다고 결정한다면 단계 812로 진행한다. 대안적으로, 방법(800)은 서버가 하나 이상의 생체 정보 유사성 점수가 대응하는 인식 임계치를 만족시킨다고 결정한다면 단계 814로 진행한다.
추가적으로 또는 대안적으로, 일부 실시예들에서, 서버는 (단계 806)에서) 조인트 생체 정보 임베딩들을 생성하기 위해 생체 정보 임베딩들의 유형들을 종합하고, (단계 808에서) 조인트 유사성 점수를 생성한다. 그 후, 서버는 등록된 조인트 임베딩과 인바운드 조인트 임베딩을 비교함으로써 조인트 유사성 점수가 조인트 인식 점수를 만족시키는지 여부를 결정한다.
결정 단계 810은 선택적이다. 서버는 유사성 점수들 중 하나 이상이 대응하는 인식 임계치들을 만족시키는지 여부를 결정할 필요가 없다. 일부 실시예들에서, 서버는 각 경우에서 (단계 812에서) 딥페이크 검출 기능들을 적용하며, 이에 의해 선택적 단계 810을 스킵한다.
단계 812에서, 서버가 (단계 810에서) 생체 정보 유사성 점수들 중 하나 이상이 대응하는 인식 임계치들을 만족시키지 못한다고 결정할 때, 서버는 대화자 딥페이크 검출 및 얼굴 딥페이크 검출을 위한 기계 학습 아키텍처의 계층들을 적용한다. 기계 학습 아키텍처는 각 특정 세그먼트에 대해 추출된 저레벨 특징들을 사용하여 딥페이크 검출 임베딩들(예를 들어, 대화자 스푸프프린트, 얼굴 스푸프프린트)을 추출한다. 서버는 대화자 스푸프프린트와 하나 이상의 등록된 대화자 스푸프프린트들 간의 거리들 또는 유사성들에 기초하여 대화자 딥페이크 검출 점수를 생성한다. 서버는 얼굴 스푸프프린트와 하나 이상의 등록된 얼굴 스푸프프린트 간의 거리들 또는 유사성들에 기초하여 얼굴 딥페이크 검출 점수를 또한 생성한다.
단계 814에서, 서버는 세그먼트들 각각에 대해 생성된 점수들(예를 들어, 얼굴 인식 유사성 점수, 대화자 인식 유사성 점수, 대화자 딥페이크 검출 점수, 얼굴 딥페이크 검출 점수)을 사용하여 점수 레벨 종합 점수를 생성하기 위해 점수 종합 동작을 적용하며, 이에 의해 세그먼트 레벨 점수를 생성한다.
단계 816에서, 서버는 (단계 805에서) 서버에 의해 생성된 세그먼트 레벨 점수 및 입술 동기 추정 점수를 사용하여 최종 종합 점수를 생성하기 위해 점수 종합 동작을 적용하며, 이에 의해 기록 레벨 점수를 생성한다. 현재 실시예에서, 하나 이상의 세그먼트 레벨 점수는 예를 들어, 최종 생체 평가 점수, 딥페이크 가능성, 및 대화자/얼굴 인식 가능성을 나타낸다. 입술 동기 추정 점수는 전체 비디오가 진짜 콘텐츠를 포함하는지 또는 딥페이크 콘텐츠를 포함하는지를 결정하기 위해 신뢰도 조정 또는 신뢰도 검사로서 적용될 수 있다. 기록 레벨 점수는 평균 또는 중앙 연산, 또는 휴리스틱 연산, 이를테면 Top N 점수들(예를 들어, N=10)의 평균으로서 계산될 수 있다.
단계 818에서, 서버는 오디오비주얼 데이터에 대한 레코딩 점수를 생성한다. 서버는 인바운드 오디오비주얼 데이터가 진짜 데이터를 포함하는지 또는 스푸핑된 데이터를 포함하는지를 결정하기 위해 보나 파이드 비디오 임계치와 기록 점수를 비교한다. 서버는 다른 잠재적 정보 중에서 특히, 오디오비주얼 데이터가 진짜인지 또는 스푸핑되었는지의 표시 또는 기계 학습 아키텍처에 의해 생성된 하나 이상의 점수의 표시와 같은 최종 출력에 기초하여 통지를 생성한다. 서버는 임의 수의 프로토콜 및 기계 판독가능 소프트웨어 코드에 따라 통지를 생성하고, 서버 또는 최종 사용자 디바이스의 사용자 인터페이스 상에 디스플레이하도록 구성된다.
일부 실시예들에서, 서버는 오디오비주얼 데이터가 본 파이드 비디오 임계치를 만족시키지 못할 때, 기계 학습 아키텍처의 관심 영역(region of interest, ROI) 제안 엔진의 계층들을 실행한다. ROI 제안 엔진은 세그먼트 레벨 오디오 비주얼 딥페이크 점수(들)를 참조하고, 대화자 및/또는 얼굴 딥페이크 콘텐츠를 포함할 가능성이 있는 하나 이상의 문제 세그먼트의 세트를 식별한다. ROI 제안 엔진은 최종 사용자 디바이스에서의 디스플레이를 위한 통지를 생성할 수 있다. 통지는 하나 이상의 문제 세그먼트의 세트를 사용자에게 나타낸다. 일부 구현예들에서, 문제 세그먼트들을 식별하기 위해, ROI 제안 엔진은 하나 이상의 세그먼트 레벨 딥페이크 점수(들)를 하나 이상의 대응하는 미리 구성된 위조 세그먼트 임계치(들)와 비교한다. 예를 들어, ROI 제안 엔진은 특정 세그먼트에 대한 대화자 딥페이크 검출 점수가 대화자 위조 세그먼트 임계치를 만족시키는 데 실패할 때 특정 세그먼트가 대화자 위조 콘텐츠를 포함할 가능성이 있다고 결정한다. ROI 제안 엔진은 문제 세그먼트들을 검출하기 위한 추가적인 또는 대안적인 동작들(예를 들어, 점수 평활화)을 수행할 수 있다.
추가적인 예시적인 실시예들
인터넷 상에서의 악성 딥페이크 비디오들의 검출
일부 실시예들에서, 교환 비디오 클립들을 위한 소셜 미디어 사이트 또는 포럼 웹사이트와 같은 웹사이트 또는 클라우드 기반 서버는 본원에서 설명된 기계 학습 아키텍처를 실행하는 하나 이상의 서버를 포함한다. 호스트 인프라스트럭처는 웹서버, 분석 서버, 및 신원들에 대한 등록 보이스프린트들 및 페이스프린트들을 지속하여 포함하는 데이터베이스를 포함한다.
제1 예에서, 기계 학습 아키텍처는 소셜 미디어 플랫폼들에 포스팅되고 소셜 미디어 플랫폼에 의해 호스팅되는 딥페이크 비디오들을 검출한다. 최종 사용자는 등록된 보이스프린트 및 등록된 페이스프린트를 추출하기 위해 분석 서버에 등록 오디오비주얼 데이터 샘플들을 제공한다. 호스트 시스템은 유명인사들에 대한 등록된 보이스프린트들 및 등록된 페이스프린트들뿐만 아니라, 등록된 대화자 스푸프프린트들 및 얼굴 스푸프프린트들을 또한 생성할 수 있다. 디플로이먼트 동안, 소셜 미디어 플랫폼들 상의 임의의 주어진 오디오비주얼 데이터 파일 또는 데이터 스트림에 대해, 분석 서버는 등록된 보이스프린트들, 유명 인사들에 대한 등록된 페이스프린트들, 및 등록된 얼굴 스푸프프린트들을 적용한다. 분석 서버는 인바운드 오디오비주얼 데이터가 특정 유명 인사의 딥페이크 콘텐츠를 포함하는지 여부를 결정한다. 분석 서버가 딥페이크 콘텐츠를 검출한다면, 분석 서버는 딥페이크 콘텐츠를 포함하는 문제 세그먼트들을 식별하고, 문제 세그먼트를 나타내는 추천을 생성한다.
제2 예에서, 기계 학습 아키텍처는 인터넷 포럼들 상에서 (통상적으로 동의 없이 획득된 유명 인사들에 대한) 딥페이크 불법 성인 비디오 콘텐츠를 검출한다. 최종 사용자는 등록된 보이스프린트 및 등록된 페이스프린트를 추출하기 위해 분석 서버에 등록 오디오비주얼 데이터 샘플들을 제공한다. 호스트 시스템은 유명인사들에 대한 등록된 보이스프린트들 및 등록된 페이스프린트들뿐만 아니라, 등록된 대화자 스푸프프린트들 및 얼굴 스푸프프린트들을 또한 생성할 수 있다. 디플로이먼트 동안, 인터넷 포럼들 상의 임의의 주어진 비디오에 대해, 분석 서버는 대화자 및 얼굴 딥페이크 검출을 위한 계층들에 의해 오디오비주얼 데이터 샘플을 다운로드하고 분석한다. 분석 서버는 다운로드 오디오비주얼 데이터가 특정 유명 인사의 딥페이크 콘텐츠를 포함하는지 여부를 결정한다. 분석 서버가 딥페이크 콘텐츠를 검출한다면, 분석 서버는 딥페이크 콘텐츠를 포함하는 문제 세그먼트들을 식별하고, 문제 세그먼트를 나타내는 추천을 생성한다.
제3 예에서, 호스트 서버 또는 분석 서버는 트위터 및 페이스북과 같은 소셜 미디어 플랫폼들 상의 유명 인사들에 대한 평판 서비스를 호스팅한다. 분석 서버는 이 애드 온 서비스를 구매한 유명 인사 사용자들에 대한 등록된 보이스프린트들 및 등록된 페이스프린트들을 생성한다. 소셜 미디어 플랫폼들에 포스팅되고 이에 의해 호스팅되는 오디오비주얼 데이터 샘플들에 대해, 분석 서버는 오디오비주얼 데이터가 딥페이크 콘텐츠들을 포함하는지 여부를 검출할 수 있다.
본원에서 개시된 실시예들과 관련하여 설명되는 다양한 예시적인 논리 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 둘 다의 조합들로서 구현될 수 있다. 하드웨어 및 소프트웨어의 이러한 상호교환가능성을 명확히 예시하기 위해, 다양한 예시적인 구성요소들, 블록들, 모듈들, 회로들, 및 단계들이 각자의 기능성의 관점에서 위에서 일반적으로 설명되었다. 이러한 기능성이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정 적용예 및 전체 시스템에 부과된 설계 제약들에 의존한다. 당업자들은 설명된 기능성을 각 특정 적용예에 대해 다양한 방식들로 구현할 수 있지만, 이러한 구현 결정들이 본 발명의 범위로부터 벗어나는 것으로 해석되지 않아야 한다.
컴퓨터 소프트웨어에서 구현되는 실시예들은 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 기술 언어들, 또는 이들의 임의의 조합으로 구현될 수 있다. 코드 세그먼트 또는 기계 실행가능 명령어들은 절차, 기능, 서브 프로그램, 프로그램, 루틴, 서브 루틴, 모듈, 소프트웨어 패키지, 클래스, 또는 명령어들, 데이터 구조들, 또는 프로그램 문들의 임의의 조합을 나타낼 수 있다. 코드 세그먼트는 정보, 데이터, 인수들, 속성들, 또는 메모리 콘텐츠를 전달 및/또는 수신함으로써 다른 코드 세그먼트 또는 하드웨어 회로에 결합될 수 있다. 정보, 인수들, 속성들, 데이터 등은 메모리 공유, 메시지 전달, 토큰 전달, 네트워크 송신 등을 포함하는 임의의 적합한 수단을 통해 전달, 포워딩, 또는 송신될 수 있다.
이들 시스템들 및 방법들을 구현하는 데 사용되는 실제 소프트웨어 코드 또는 특수 제어 하드웨어는 본 발명을 제한하지 않는다. 이에 따라, 본 시스템들 및 방법들의 동작 및 거동은 소프트웨어 및 제어 하드웨어가 본원에서의 설명에 기초하여 시스템들 및 방법들을 구현하도록 설계될 수 있는 것으로 이해되는 특정 소프트웨어 코드를 참조하지 않고 설명되었다.
소프트웨어로 구현될 때, 기능들은 비일시적 컴퓨터 판독가능 또는 프로세서 판독가능 저장 매체 상에 하나 이상의 명령어 또는 코드로서 저장될 수 있다. 본원에서 개시된 방법 또는 알고리즘의 단계들은 컴퓨터 판독가능 또는 프로세서 판독가능 저장 매체 상에 상주할 수 있는 프로세서 실행가능 소프트웨어 모듈로 구현될 수 있다. 비일시적 컴퓨터 판독가능 또는 프로세서 판독가능 매체는 한 장소에서 다른 장소로의 컴퓨터 프로그램의 전송을 가능하게 하는 컴퓨터 저장 매체와 유형의 저장 매체 둘 다를 포함한다. 비일시적 프로세서 판독가능 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있다. 제한이 아닌 예로서, 이러한 비일시적 프로세서 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 명령어들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 저장하는 데 사용될 수 있고, 컴퓨터 또는 프로세서에 의해 액세스될 수 있는 임의의 다른 유형의 스토리지 매체를 포함할 수 있다. 디스크(disk) 및 디스크(disc)는 본원에서 사용될 때, 컴팩트 디스크(CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크(DVD), 플로피 디스크, 및 블루 레이 디스크를 포함하며, 여기서 디스크(disk)들은 일반적으로 데이터를 자기적으로 재생하지만, 디스크(disc)들은 레이저들을 이용하여 데이터를 광학적으로 재생한다. 상기한 내용의 조합들은 또한 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다. 추가적으로, 방법 또는 알고리즘의 동작들은 컴퓨터 프로그램 제품에 통합될 수 있는 비일시적 프로세서 판독가능 매체 및/또는 컴퓨터 판독가능 매체 상에 코드들 및/또는 명령어들 중 하나 또는 임의의 조합 또는 세트로서 상주할 수 있다.
개시된 실시예에 대한 전술한 설명은 당업자가 본 발명을 제조하거나 사용할 수 있게 하기 위해 제공된다. 이들 실시예들에 대한 다양한 수정들은 당업자들에게 용이하게 명백할 것이고, 본원에서 정의된 일반적인 원리들은 본 발명의 사상 또는 범위로부터 벗어나지 않고 다른 실시예들에 적용될 수 있다. 이에 따라, 본 발명은 본원에서 제시된 실시예들로 제한되도록 의도되지 않고, 다음의 청구항들 및 본원에서 개시된 원리들 및 신규한 특징들과 부합하는 가장 넓은 범위를 따를 것이다.
다양한 양태들 및 실시예들이 개시되었지만, 다른 양태들 및 실시예들이 고려된다. 개시된 다양한 양태들 및 실시예들은 예시의 목적을 위한 것이고, 제한적인 것으로 의도되지 않으며, 진정한 범위 및 사상은 다음의 청구항들에 의해 나타내어진다.

Claims (22)

  1. 컴퓨터 구현 방법으로서,
    컴퓨터에 의해, 오디오비주얼 데이터를 포함하는 오디오비주얼 데이터 샘플을 획득하는 단계;
    상기 컴퓨터에 의해, 상기 오디오비주얼 데이터에 기계 학습 아키텍처를 적용하여 상기 오디오비주얼 데이터로부터 추출되는 생체 정보 임베딩을 사용하여 유사도 점수를 생성하고, 상기 오디오비주얼 데이터로부터 추출되는 스푸프프린트를 사용하여 딥페이크 점수를 생성하는 단계; 및
    상기 컴퓨터에 의해, 상기 유사도 점수 및 상기 딥페이크 점수를 사용하여 상기 오디오비주얼 데이터가 진짜일 가능성을 나타내는 최종 출력 점수를 생성하는 단계를 포함하는,
    방법.
  2. 제1항에 있어서,
    상기 최종 출력 점수가 임계치를 만족시킨다고 결정하는 것에 응답하여, 상기 컴퓨터에 의해, 상기 오디오비주얼 데이터 샘플을 진짜 데이터 샘플로서 식별하는 단계를 더 포함하는,
    방법.
  3. 제1항에 있어서,
    딥페이크 점수가 딥페이크 검출 임계치를 만족시킨다고 결정하는 것에 응답하여, 상기 컴퓨터에 의해, 상기 오디오비주얼 데이터에서 딥페이크 콘텐츠를 식별하는 단계를 더 포함하는,
    방법.
  4. 제1항에 있어서,
    상기 스푸프프린트는 대화자 스푸프프린트 및 얼굴 스푸프프린트 중 적어도 하나를 포함하고, 상기 생체 정보 임베딩은 보이스프린트 및 페이스프린트 중 적어도 하나를 포함하는,
    방법.
  5. 제1항에 있어서,
    컴퓨터에 의해, 상기 기계 학습 아키텍처의 대화자 임베딩 추출 엔진을 상기 오디오비주얼 데이터의 오디오 신호에 적용함으로써 오디오비주얼 샘플에 대한 보이스프린트를 추출하는 단계; 및
    상기 컴퓨터에 의해, 상기 기계 학습 아키텍처의 오디오 스푸프프린트 임베딩 추출 엔진을 상기 오디오비주얼 데이터의 오디오 신호에 적용함으로써 상기 오디오비주얼 샘플에 대한 대화자 스푸프프린트를 추출하는 단계를 더 포함하는,
    방법.
  6. 제1항에 있어서,
    컴퓨터에 의해, 상기 기계 학습 아키텍처의 페이스프린트 임베딩 추출 엔진을 상기 오디오비주얼 데이터의 비주얼 미디어에 적용함으로써 상기 오디오비주얼 데이터에 대한 페이스프린트를 추출하는 단계; 및
    컴퓨터에 의해, 상기 기계 학습 아키텍처의 비주얼 스푸프프린트 임베딩 추출 엔진을 상기 오디오비주얼 데이터의 비주얼 미디어에 적용함으로써 상기 오디오비주얼 데이터에 대한 얼굴 스푸프프린트를 추출하는 단계를 더 포함하는,
    방법.
  7. 제1항에 있어서,
    상기 컴퓨터에 의해, 상기 생체 정보 임베딩의 대화자 보이스프린트 임베딩에 대한 특징을 추출하는 단계를 더 포함하며, 상기 특징은 상기 오디오비주얼 데이터의 오디오 데이터로부터 추출되는,
    방법.
  8. 제1항에 있어서,
    상기 컴퓨터에 의해, 상기 하나 이상의 생체 정보 임베딩의 페이스프린트 임베딩에 대한 특징을 추출하는 단계를 더 포함하며, 상기 특징은 상기 오디오비주얼 데이터의 이미지 데이터로부터 추출되는,
    방법.
  9. 제1항에 있어서,
    상기 컴퓨터에 의해, 상기 오디오비주얼 샘플을 미리 구성된 길이를 갖는 복수의 세그먼트들로 파싱하는 단계를 더 포함하며, 상기 컴퓨터는 각 세그먼트에 대한 생체 정보 임베딩 및 스푸프프린트를 생성하는,
    방법.
  10. 제1항에 있어서,
    상기 컴퓨터에 의해, 상기 오디오비주얼 데이터에 상기 기계 학습 아키텍처의 입술 동기 추정 엔진을 적용함으로써 입술 동기 점수를 생성하는 단계를 더 포함하며, 상기 컴퓨터는 상기 입술 동기 점수를 사용하여 최종 출력 점수를 생성하는,
    방법.
  11. 제1항에 있어서,
    상기 오디오비주얼 데이터는 오디오 데이터, 이미지 데이터, 또는 오디오 데이터와 이미지 데이터 둘 다를 포함하는,
    방법.
  12. 시스템으로서,
    프로세서를 포함하는 컴퓨터를 포함하며, 상기 컴퓨터는:
    오디오비주얼 데이터를 포함하는 오디오비주얼 데이터 샘플을 획득하도록;
    상기 오디오비주얼 데이터에 기계 학습 아키텍처를 적용하여 상기 오디오비주얼 데이터로부터 추출되는 생체 정보 임베딩을 사용하여 유사도 점수를 생성하고, 상기 오디오비주얼 데이터로부터 추출되는 스푸프프린트를 사용하여 딥페이크 점수를 생성하도록; 그리고
    상기 유사도 점수 및 상기 딥페이크 점수를 사용하여 상기 오디오비주얼 데이터가 진짜일 가능성을 나타내는 최종 출력 점수를 생성하도록 구성된,
    시스템.
  13. 제12항에 있어서,
    상기 컴퓨터는 또한, 상기 최종 출력 점수가 임계치를 만족시킨다고 결정하는 것에 응답하여, 상기 오디오비주얼 데이터 샘플을 진짜 데이터 샘플로서 식별하도록 구성되는,
    시스템.
  14. 제12항에 있어서,
    상기 컴퓨터는 또한, 딥페이크 점수가 딥페이크 검출 임계치를 만족시킨다고 결정하는 것에 응답하여, 상기 오디오비주얼 데이터에서 딥페이크 콘텐츠를 식별하도록 구성되는,
    시스템.
  15. 제12항에 있어서,
    상기 스푸프프린트는 대화자 스푸프프린트 및 얼굴 스푸프프린트 중 적어도 하나를 포함하고, 상기 생체 정보 임베딩은 보이스프린트 및 페이스프린트 중 적어도 하나를 포함하는,
    시스템.
  16. 제12항에 있어서,
    상기 컴퓨터는 또한:
    상기 기계 학습 아키텍처의 대화자 임베딩 추출 엔진을 상기 오디오비주얼 데이터의 오디오 신호에 적용함으로써 오디오비주얼 샘플에 대한 보이스프린트를 추출하도록; 그리고
    상기 기계 학습 아키텍처의 오디오 스푸프프린트 임베딩 추출 엔진을 상기 오디오비주얼 데이터의 오디오 신호에 적용함으로써 상기 오디오비주얼 샘플에 대한 대화자 스푸프프린트를 추출하도록 구성되는,
    시스템.
  17. 제12항에 있어서,
    상기 컴퓨터는 또한:
    상기 기계 학습 아키텍처의 페이스프린트 임베딩 추출 엔진을 상기 오디오비주얼 데이터의 비주얼 미디어에 적용함으로써 상기 오디오비주얼 데이터에 대한 페이스프린트를 추출하도록; 그리고
    상기 기계 학습 아키텍처의 비주얼 스푸프프린트 임베딩 추출 엔진을 상기 오디오비주얼 데이터의 비주얼 미디어에 적용함으로써 상기 오디오비주얼 데이터에 대한 얼굴 스푸프프린트를 추출하도록 구성되는,
    시스템.
  18. 제12항에 있어서,
    상기 컴퓨터는 또한, 상기 생체 정보 임베딩의 대화자 보이스프린트 임베딩에 대한 특징을 추출하는 단계를 더 포함하며, 상기 특징은 상기 오디오비주얼 데이터의 오디오 데이터로부터 추출하도록 구성되는,
    시스템.
  19. 제12항에 있어서,
    상기 컴퓨터는 또한, 상기 생체 정보 임베딩의 페이스프린트 임베딩에 대한 특징을 추출하는 단계를 더 포함하며, 상기 특징은 상기 오디오비주얼 데이터의 이미지 데이터로부터 추출하도록 구성되는,
    시스템.
  20. 제11항에 있어서,
    상기 컴퓨터는 또한, 상기 오디오비주얼 샘플을 미리 구성된 길이를 갖는 복수의 세그먼트들로 파싱하도록 구성되고, 상기 컴퓨터는 각 세그먼트에 대한 생체 정보 임베딩 및 스푸프프린트를 생성하는,
    시스템.
  21. 제12항에 있어서,
    상기 컴퓨터는 또한, 상기 오디오비주얼 데이터에 상기 기계 학습 아키텍처의 입술 동기 추정 엔진을 적용함으로써 입술 동기 점수를 생성하도록 구성되고, 상기 컴퓨터는 상기 입술 동기 점수를 사용하여 최종 출력 점수를 생성하는,
    시스템.
  22. 제12항에 있어서,
    상기 오디오비주얼 데이터는 오디오 데이터, 이미지 데이터, 또는 오디오 데이터와 이미지 데이터 둘 다를 포함하는,
    시스템.
KR1020237015335A 2020-10-16 2021-10-15 오디오비주얼 딥페이크 검출 KR20230088381A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063092956P 2020-10-16 2020-10-16
US63/092,956 2020-10-16
PCT/US2021/055267 WO2022082036A1 (en) 2020-10-16 2021-10-15 Audiovisual deepfake detection

Publications (1)

Publication Number Publication Date
KR20230088381A true KR20230088381A (ko) 2023-06-19

Family

ID=81186303

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237015335A KR20230088381A (ko) 2020-10-16 2021-10-15 오디오비주얼 딥페이크 검출

Country Status (6)

Country Link
US (1) US20220121868A1 (ko)
EP (1) EP4229626A1 (ko)
JP (1) JP2023547808A (ko)
KR (1) KR20230088381A (ko)
CA (1) CA3198473A1 (ko)
WO (1) WO2022082036A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713341B2 (en) * 2011-07-13 2020-07-14 Scott F. McNulty System, method and apparatus for generating acoustic signals based on biometric information
KR20220133235A (ko) * 2020-01-27 2022-10-04 핀드롭 시큐리티 인코포레이티드 심층 잔차 신경망을 이용한 강력한 스푸핑 검출 시스템
US20210406568A1 (en) * 2020-06-24 2021-12-30 Accenture Global Solutions Limited Utilizing multiple stacked machine learning models to detect deepfake content
KR102251781B1 (ko) * 2020-12-30 2021-05-14 (주)라이언로켓 인공신경망을 이용한 입모양 합성 장치 및 방법
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection
US11983925B2 (en) * 2021-02-15 2024-05-14 At&T Intellectual Property I, L.P. Detecting synthetic media
US20240127630A1 (en) * 2022-10-17 2024-04-18 Oracle International Corporation Deepfake detection using synchronous observations of machine learning residuals

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001338295A (ja) * 2000-05-26 2001-12-07 Wens Network Kk 生態情報による本人認証システム
WO2016161481A1 (en) * 2015-04-08 2016-10-13 Wavefront Biometric Technologies Pty Limited Multi-biometric authentication
EP3156978A1 (en) * 2015-10-14 2017-04-19 Samsung Electronics Polska Sp. z o.o. A system and a method for secure speaker verification
GB2555661A (en) * 2016-11-07 2018-05-09 Cirrus Logic Int Semiconductor Ltd Methods and apparatus for biometric authentication in an electronic device
US10692502B2 (en) * 2017-03-03 2020-06-23 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
US10593336B2 (en) * 2018-07-26 2020-03-17 Accenture Global Solutions Limited Machine learning for authenticating voice
GB201814121D0 (en) * 2018-08-30 2018-10-17 Liopa Ltd Liopa
EP3647993B1 (en) * 2018-10-29 2023-12-13 Onfido Ltd Interactive user verification
US11403884B2 (en) * 2019-01-16 2022-08-02 Shenzhen GOODIX Technology Co., Ltd. Anti-spoofing face ID sensing
US11126678B2 (en) * 2019-03-05 2021-09-21 Corinne Chantal David Method and system to filter out harassment from incoming social media data

Also Published As

Publication number Publication date
CA3198473A1 (en) 2022-04-21
WO2022082036A1 (en) 2022-04-21
EP4229626A1 (en) 2023-08-23
JP2023547808A (ja) 2023-11-14
US20220121868A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
US20220121868A1 (en) Audiovisual deepfake detection
US11252374B1 (en) Altering undesirable communication data for communication sessions
US11862177B2 (en) Robust spoofing detection system using deep residual neural networks
US9361442B2 (en) Triggering actions on a user device based on biometrics of nearby individuals
US20220147602A1 (en) System and methods for implementing private identity
US11715460B2 (en) Z-vectors: speaker embeddings from raw audio using sincnet, extended CNN architecture and in-network augmentation techniques
US20220150068A1 (en) System and methods for implementing private identity
US20220147607A1 (en) System and methods for implementing private identity
US20220277064A1 (en) System and methods for implementing private identity
US20240048572A1 (en) Digital media authentication
CN113343831A (zh) 视频中说话人分类方法、装置、电子设备和存储介质
US20230137652A1 (en) Cross-lingual speaker recognition
US11606461B2 (en) Method for training a spoofing detection model using biometric clustering
US20240144935A1 (en) Voice authentication based on acoustic and linguistic machine learning models
US11869511B2 (en) Using speech mannerisms to validate an integrity of a conference participant
US20220059121A1 (en) Speaker recognition with quality indicators
US20240169040A1 (en) Behavioral biometrics using keypress temporal information
US11997423B1 (en) Altering undesirable communication data for communication sessions
US20240061929A1 (en) Monitoring live media streams for sensitive data leaks
WO2024112672A1 (en) Behavioral biometrics using keypress temporal information
CN116847061A (zh) 音唇同步检测方法、装置、设备及存储介质