KR20160148009A

KR20160148009A - 자동 화자 검증 시스템에서의 리플레이 공격 검출

Info

Publication number: KR20160148009A
Application number: KR1020167033708A
Authority: KR
Inventors: 토비아스 보클레트; 아담 마렉; 피오트르 칠레베크
Original assignee: 인텔 코포레이션
Priority date: 2014-07-04
Filing date: 2014-07-04
Publication date: 2016-12-23
Also published as: WO2016003299A1; EP3164865A1; US20170200451A1

Abstract

자동 화자 검증 시스템 상에서 리플레이 공격들을 검출하는 것과 관련된 기법들이 기술된다. 이러한 기법들은 발화(utterance)를 사용자 또는 발화를 재생하는 디바이스로부터 수신하는 단계, 발화와 연관된 특징을 결정하는 단계, 및 상기 특징을 사용하여서, 상기 발화의 통계적 분류 또는 마진 분류에 기초하여 상기 발화를 리플레이 발화 부류(replay utterance class) 또는 원 발화 부류(original utteracne class)로 분류하는 단계를 포함할 수 있다.

Description

자동 화자 검증 시스템에서의 리플레이 공격 검출{REPLAY ATTACK DETECTION IN AUTOMATIC SPEAKER VERIFICATION SYSTEMS}

화자 인식 또는 자동 화자 검증은 예를 들어서, 화자의 음성의 특성에 기초하여 디바이스에 말하는 사람을 인식하는데 사용될 수 있다. 이러한 화자 식별 은 디바이스 또는 건물 구역 등으로의 액세스를 제한하기 위해서 화자의 음성 샘플에 기초하여 신원 요구를 수락 또는 거부하는데 사용될 수 있다. 이러한 자동 화자 검증 시스템은 스푸핑 공격, 예를 들어서, 리플레이 공격, 음성 변형 공격, 등에 취약할 수 있다. 예를 들어서, 리플레이 공격은 침입자가 사람의 음성을 은밀히 녹음하고 검증 시도 동안에 시스템에 상기 녹음한 바를 리플레이하는 것을 포함한다. 리플레이 공격은 통상적으로 수행하기 용이하며 높은 성공율을 갖는 경향이 있다. 예를 들어서, 리플레이된 음성 샘플 또는 발화의 60% 정도가 자동 화자 검증 시스템에 의해서 통과될 수 있다고 평가되었다.

이러한 리플레이 공격에 대한 현 해법은 즉흥적 발화 방식을 포함한다. 이러한 즉흥적 발화 방식에서, 자동 화자 검증 시스템은 각 검증 시도에 대해서, 사용자가 말해야 하는 임의의 새로운 구절을 생성한다. 이러한 방식은 자동 화자 검증 시스템이 (학습 없이) 임의의 구절을 인식해야 하므로, 복잡성을 초래한다. 또한, 이러한 방식은 검증 시도 이전에 시스템이 요청한 구절을 사용자가 먼저 식별해야 하기 때문에 사용자 경험을 약화시킨다.

이로써, 기존의 기법은, 사용자 경험에 부정적인 영향을 주지 않고 다른 문제들 없이 리플레이 공격을 막지 못한다. 이러한 문제들은, 자동 화자 검증을 사용하고자 하는 바가 음성 로그인과 같은 다양한 구현 시에 보다 널리 보급되면서 더 심각해진다.

본 명세서에서 기술된 사항들은 첨부 도면들에서 예시적으로 그리고 비한정적으로 예시된다. 설명의 단순성 및 명료성을 위해서, 도면에서 예시된 요소들은 반드시 실제 축척대로 도시된 것은 아니다. 예를 들어, 일부 요소의 치수는 명료성을 비해 다른 요소에 비해 상대적으로 과장될 수 있다. 적합하다고 고려되면, 참조 부호들이 도면들에서 반복되어서 대응하는 또는 유사한 요소들을 나타낸다.
도 1은 리플레이 공격 검출을 제공하기 위한 예시적인 설정환경의 예시적 도면이다.
도 2는 리플레이 공격 검출을 제공하기 위한 예시적인 시스템의 예시적 도면이다.
도 3은 리플레이 공격 검출을 위한 혼합 모델들을 학습하기 위한 예시적인 시스템의 예시적 도면이다.
도 4는 리플레이 공격 검출을 제공하기 위한 예시적인 시스템의 예시적 도면이다.
도 5는 리플레이 공격 검출을 위한 서포트 벡터 머신을 학습하기 위한 예시적인 시스템의 예시적 도면이다.
도 6은 리플레이 공격 검출을 제공하기 위한 예시적인 시스템의 예시적 도면이다.
도 7은 자동 화자 검증을 위한 예시적인 프로세스를 예시하는 흐름도이다.
도 8은 리플레이 공격 검출을 제공하기 위한 예시적인 시스템의 예시적 도면이다.
도 9는 리플레이 공격 검출을 위한 학습을 제공하기 위한 예시적인 시스템의 예시적 도면이다.
도 10은 예시적인 시스템의 예시적 도면이다.
도 11은 모두가 본 개시의 적어도 일부 구현예들에 따라서 구성된, 예시적인 디바이스를 예시한다.

이하 하나 이상의 실시예들 또는 구현예들을 첨부 도면들을 참조하여 기술한다. 특정 구성들 및 배열들이 논의되지만, 이는 단지 예시적 목적을 위한 것이라는 것이 이해되어야 한다. 본 기술 분야의 당업자는 본 설명의 사상 및 범위를 벗어나지 않으면서 다른 구성 및 배열들이 사용될 수 있다는 것을 인식할 것이다. 본 명세서에서 기술된 기법들 및/또는 배열들은 또한 본 명세서에서 기술된 것과 다른 다양한 다른 시스템들 및 애플리케이션들에서 사용될 수 있다는 것이 본 기술 분야의 당업자에게 명백할 것이다.

다음의 설명이 예를 들어서, 시스템-온-칩(SoC) 아키텍처들과 같은 아키텍처들에서 실현될 수 있는 다양한 구현예들을 제시하지만, 본 명세서에서 기술된 기법들 및/또는 배열들의 구현은 특정 아키텍처들 및/또는 컴퓨팅 시스템들로 한정되지 않으며 유사한 목적을 위해서 임의의 아키텍처 및/또는 컴퓨팅 시스템에 의해서 구현될 수 있다. 예를 들어서, 다수의 집적 회로(IC) 칩들 및/또는 패키지들, 및/또는 다양한 컴퓨팅 디바이스들 및/또는 소비자 전자적(CE) 디바이스들, 예를 들어서, 셋탑 박스들, 스마트 폰들, 등을 사용하는 다양한 아키텍처들이 본 명세서에서 기술된 기법들 및/또는 배열들을 구현할 수 있다. 또한, 다음의 설명은 예를 들어서, 시스템 구성요소들의 로직 구현예들, 타입들 및 상호관계들, 로직 파티셔닝/통합 선택사항들, 등과 같은 수많은 특정 세부사항들을 제시하지만, 청구된 청구 대상은 이러한 특정 세부사항들 없이도 실시될 수 있다. 다른 실례들에서, 일부 사항들, 예를 들어서, 제어 구조들 및 전체 소프트웨어 인스트럭션 시퀀스들은 본 명세서에서 개시된 사항을 모호하게 하지 않도록 세부적으로 도시되지 않는다.

본 명세서에서 개시된 사항은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 본 명세서에서 개시된 사항은 하나 이상의 프로세서들에 의해서 판독 및 실행될 수 있는, 머신-판독가능한 매체 상에 저장된 인스트럭션들로서 또한 구현될 수 있다. 머신-판독가능한 매체는 머신(예를 들어서, 컴퓨팅 디바이스)에 의해서 판독가능한 형태로 정보를 저장 또는 송신하는 임의의 매체 및/또는 메카니즘을 포함할 수 있다. 예를 들어서, 머신-판독가능한 매체는 판독 전용 메모리(ROM); 랜덤 액세스 메모리(RAM); 자기 디스크 저장 매체; 광학 저장 매체; 플래시 메모리 디바이스들; 전기적, 광학, 음향 또는 다른 형태의 전파 신호들(예를 들어서, 반송파들, 적외선 신호들, 디지털 신호들, 등), 및 기타를 포함할 수 있다.

명세서에서, "일 구현예," "구현예," "예시적 구현예," 등을 참조하는 것은 해당 기술된 구현예가 특정 특징, 구조, 또는 특성을 포함할 수 있지만, 모든 구현예가 반드시 이러한 특정 특징, 구조, 또는 특성을 포함해야 하는 것은 아니다. 또한, 이러한 구절들은 반드시 동일한 구현예를 말하는 것도 아니다. 또한, 특정 특징, 구조, 또는 특성이 구현예와 관련하여서 기술될 때에, 명시적으로 기술되었는지의 여부와 상관없이, 다른 구현예들과 관련하여서 이러한 특징, 구조, 또는 특성을 실현하는 것은 본 기술분야의 당업자의 지식 내에서 있다는 것이 제시된다.

자동 화자 검증과 관련된, 특히 자동 화자 검증 시스템들에서 리플레이 공격들을 검출하는 것과 관련된 방법들, 디바이스들, 장치들, 컴퓨팅 플랫폼, 및 제품이 본 명세서에서 기술된다.

상술한 바와 같이, 리플레이 공격들(예를 들어서, 부적절한 액세스를 얻기 위해서 자동 화자 검증 시스템에서 사람의 음성을 은밀히 녹음한 바를 리플레이하는 것)은 용이하게 수행되며 성공적일 수 있다. 이러한 리플레이 공격들을 검출하여서 이러한 검출에 기초하여 시스템 액세스 요청들을 거부하는 것이 유리하다. 예를 들어서, 리플레이 검출 기능이 없는 시스템들은 사기범의 공격들에 취약하며, 이들은 이러한 시스템들의 유용성을 심각하게 저해할 수 있다.

본 명세서에서 기술된 일부 실시예들에서, 발화(utterance)는 자동 화자 검증 시스템 사용자로부터 수신될 수 있다. 예를 들어서, 발화는 시스템에 액세스하는 시도일 수 있다. 예를 들어서, 발화가 사람에 의해서 이루어진 것(예를 들어서, 원 발화)인지 또는 디바이스에 의해서 이루어진 것(예를 들어서, 리플레이 발화)인지를 결정하는 것을 바람직할 수 있다. 리플레이된 발화는 예를 들어서, 리플레이 공격 시에 제공될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 발화는 자동 화자 검증 시스템으로 사람에 의해서 이루어진 발화 및 자동 화자 검증 시스템으로 (예를 들어서, 디바이스를 통해서) 리플레이된 발화를 포함한다. 발화와 연관된 특징들이 추출될 수 있다. 일부 실례들에서, 특징들은 발화 또는 이의 일부의 파워 스펙트럼을 표현하거나 이에 기초한 계수들. 예를 들어서, 계수들은 Me1 주파수 캡스트럼 계수들(MFCC들)이다. 발화는 추출된 특징들에 기초한, 발화의 통계적 분류, 마진 분류, 또는 다른 분류(예를 들어서, 변별 학습 분류: discriminatively trained classification)에 기초하여, 리플레이된 발화 또는 원 발화로서 분류될 수 있다.

예를 들어서, 분류가 통계적 분류에 기초할 때에, 발화에 대한 점수는, 해당 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한, 해당 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비에 기초하여 결정될 수 있다. 이러한 맥락에서, 용어 "에 의해서 생성된"은 해당 발화가 관련 혼합 모델(예를 들어서, 리플레이 또는 원 혼합 모델)을 학습시키는데 사용된 발화와 유사한 특성들을 가질 확률을 말한다. 혼합 모델들은 본 명세서에서 더 논의될 바와 같이, 원 발화 및 리플레이 발화의 수많은 녹음사항들에 기초하여 사전에 학습된 가우시안 혼합 모델들(GMM들)일 수 있다.

분류가 마진 분류에 기초한 실례들에서, 추출된 특징들에 기초한 UBM(유니버설 백그라운드 모델)의 최대-사후확률 적응이 수행될 수 있다. 이 적응은 발화 혼합 모델을 생성할 수 있다. 예를 들어서, 발화 혼합 모델은 가우시안 혼합 모델일 수 있다. 슈퍼 벡터가 발화 혼합 모델에 기초하여 추출될 수 있다. 예를 들어서, 슈퍼 벡터는 발화 혼합 모델의 평균 벡터들을 연결(concatenating)함으로써 추출될 수 있다. 추출된 슈퍼 벡터에 기초하여, 서포트 벡터 머신은 발화가 리플레이 발화 또는 원 발화인지를 결정할 수 있다. 예를 들어서, 서포트 벡터 머신은 이하에서 더 기술될 바와 같이, 원 발화 및 리플레이된 발화의 수많은 녹음사항들에 기초하여 사전 학습될 수 있다.

어느 경우에서든, 리플레이 또는 리플레이된 발화로서 분류된 발화는 자동 화자 검증 시스템이 이 시스템으로의 액세스를 거부하게 한다. 원 발화로서 분류된 발화는 이 시스템으로 하여금 이 시스템으로의 액세스를 허용하고/하거나, 이 시스템으로의 액세스를 허용하기 이전에 사용자 식별을 위해 발화를 더 평가하게 하거나, 또는 다른 특성들을 평가하게 한다.

자동 화자 검증 시스템을 통해서 구현되는 바와 같은, 이러한 기법들은 강한 리플레이 공격 식별을 제공할 수 있다. 예를 들어서, 최신의 컴퓨팅 시스템들에 의해서 구현될 때에, 이러한 기법들은 1.5% 미만의, 일부 구현예들에서는, 0.2% 미만의 에러 레이트를 제공할 수 있다.

도 1은 본 개시의 적어도 일부 구현예들에 따라서 구성된, 리플레이 공격 검출을 제공하기 위한 예시적인 설정환경(100)의 예시적 도면이다. 도 1에 도시된 바와 같이, 설정환경(100)은 디바이스(102)에 의해서 평가되는 발화(103)를 제공하는 사용자(101)를 포함할 수 있다. 예를 들어서, 디바이스(102)는 록킹되며(locked) 사용자(101)는 자동 화자 검증 시스템을 통해서 디바이스(102)로의 액세스를 시도할 수 있다. 사용자(101)가 디바이스(102)의 보안을 통과하는 발화(103)를 제공하면, 디바이스(102)는 액세스, 등을 허용할 수 있다. 예를 들어서, 디바이스(102)는 음성 로그인을 사용자(101)에게 제공할 수 있다. 도시된 바와 같이, 일부 실례들에서, 자동 화자 검증 시스템은 디바이스(102)를 통해서 디바이스(102)로의 액세스를 허용하도록 구현될 수 있다. 또한, 일부 실례들에서, 디바이스(102)는 랩탑 컴퓨터일 수 있다. 그러나, 디바이스(102)는 임의의 적합한 디바이스, 예를 들어서, 컴퓨터, 랩탑, 울트라북, 스마트폰, 태블릿, 자동 텔러 머신, 등일 수 있다. 또한, 예시된 실례에서, 자동 화자 검증은 디바이스(102) 자체로의 액세스를 얻도록 구현되고 있는 중이다. 다른 실례들에서, 자동 화자 검증은 디바이스(102)가 예를 들어서, 보안 잠금, 보안 인디케이터, 등을 다른 디바이스들 또는 장치에게 표시하여서 룸 또는 구역 등으로의 액세스를 허용 또는 거부하도록 디바이스(102)를 통해서 구현될 수 있다. 이러한 실례들에서, 디바이스(102)는 예를 들어서, 특별 보안 디바이스일 수 있다. 임의의 경우에서든, 디바이스(102)는 본 명세서에서 사용된 바와 같은, 컴퓨팅 디바이스로서 기술될 수 있다.

도시된 바와 같이, 일부 실례들에서, 사용자(101)는 디바이스(102)를 통한 보안 액세스를 얻기 위해서 발화(103)를 제공할 수 있다. 기술된 바와 같이, 일부 실례들에서, 사용자(101)는 디바이스(102)를 통한 부적절한 보안 액세스를 얻고자 시도하기 위해서, 리플레이 발화를 디바이스(미도시)를 통해서 제공할 수 있다. 이러한 실례들에서, 사용자(101)는 침입자로서 특성화될 수 있다. 본 명세서에서 사용된 바와 같이, 발화(103)는 사용자(101)로부터의 직접적인 발화(예를 들어서, 사용자(101)의 목소리로 행해지는 발화) 또는 디바이스로부터 리플레이된 발화를 포함할 수 있다. 예를 들어서, 리플레이 발화는 유효한 사용자에 의해서 행해진 발화를 은밀하게 녹음한 발화를 포함할 수 있다. 리플레이 발화는 임의의 디바이스, 예를 들어서, 스마트폰, 랩탑, 음악 플레이어, 음성 녹음기, 등에 의해서 리플레이될 수 있다.

이하에서 더 기술될 바와 같이, 이러한 리플레이 공격 발화(예를 들어서, 리플레이 발화, 등)가 검출되며, 디바이스(102)는 이러한 검출에 기초하여 보안 액세스를 거부할 수 있다. 일부 실례들에서, 이러한 리플레이 발화(예를 들어서, 스피치 또는 오디오 녹음사항)는 이들을 녹음/리플레이하는데 사용된 녹음 및 리플레이 장치에 대한 정보를 포함할 수 있다. 예를 들어서, 이 정보는 마이크로폰 및/또는 재생 스피커의 주파수 응답 특성을 포함할 수 있다. 이러한 정보는 채널 특성들로서 특성화될 수 있다. 예를 들어서, 이러한 채널 특성들은 기술된 바와 같이, 녹음 및 리플레이 장치에 의해서 영향을 받는 녹음 채널들과 연관될 수 있다. 본 명세서에서 기술된 기법들은 사전 학습된 모델들을 사용하여서, 통계적 분류, 마진 분류, 분별 분류, 등을 포함하는 통계적 방식들에 기초하여 이러한 채널 특성들을 모델링 및 검출할 수 있다.

도 2는 본 개시의 적어도 일부 구현예들에 따라서 구성된, 리플레이 공격 검출을 제공하기 위한 예시적인 시스템(200)의 예시적 도면이다. 도 2에 도시된 바와 같이, 시스템(200)은 마이크로폰(201), 특징 추출 모듈(202), 분류기 모듈(204), 및 액세스 거부 모듈(207)을 포함할 수 있다. 예를 들어서, 도 2에 도시된 바와 같이, 분류기 모듈(204)은 리플레이 인디케이터(205)를 제공하면(예를 들어서, 인디케이션 발화(103)가 본 명세서에서 더 기술될 바와 같은, 리플레이 발화 부류로 분류되면), 액세스 거부 모듈(207)은 리플레이 인디케이터(205)를 수신하여서 발화(103)에 기초한 액세스를 거부할 수 있다. 또한, 도 2에 도시된 바와 같이, 분류기 모듈(204)이 원 인디케이터(original indicator)(206)를 제공하면(예를 들어서, 인디케이션 발화(103)가 원 발화 부류로 분류되면), 시스템(200)은 사용자(101)에게 액세스를 허용하기 위해서 사용자 매칭 또는 다른 특성들에 대해서, 발화(103)를 (계속되는 동작(208)을 통해서 예시된 바와 같이) 평가하는 것으로 진행할 수 있다. 예를 들어서, 사용자(101)는 발화(103)가 원 녹음사항으로 식별될 때에만 보안 액세스를 얻을 수 있다.

도시된 바와 같이, 마이크로폰(201)은 발화(103)를 사용자(101)로부터 수신할 수 있다. 일부 실례들에서, 발화(103)는 사용자(103)에 의해서 발생된다(예를 들어서, 발화(103)는 사용자(101)가 목소리로 행한 진정한 발화이다). 다른 실례들에서, 발화(103)는 디바이스를 통해서 리플레이될 수 있다(미도시, 예를 들어서, 발화(103)는 보안 액세스를 얻고자 하는 리플레이 발화 및 거짓 시도이다). 이러한 실례들에서, 사용자(101)는 전술한 바와 같이 침입자일 수 있다. 마이크로폰(201)은 발화(103)를 (예를 들어서, 공기 중의 음향파로) 수신하고, 발화(103)를 전기적 신호, 예를 들어서, 디지털 신호로 변환하여서 발화 녹음사항(209)을 생성할 수 있다. 예를 들어서, 발화 녹음사항(209)은 메모리(도 2에서 미도시) 내에 저장될 수 있다.

특징 추출 모듈(202)은 발화 녹음사항을 마이크로폰(201) 또는 시스템(200)의 메모리로부터 수신하고, 특징 추출 모듈(202)은 발화(103)와 연관된 특징들(203)을 생성할 수 있다. 특징들(203)은 발화(103)를 표현하는 임의의 적합한 특징들일 수 있다. 예를 들어서, 특징들(203)은 수신된 발화의 파워 스펙트럼을 표현하는 계수들일 수 있다. 실시예에서, 특징들(203)은 수신된 발화의 파워 스펙트럼을 표현하는 Mel 주파수 캡스트럼(cepstrum) 계수들일 수 있다. 일부 실례들에서, 특징들(203)은 특징 벡터, 등에 의해서 표현될 수 있다. 일부 실례들에서, 특징들(203)은 전체 발화(103)(및 발화 녹음사항(209))에 기초할 수 있다. 다른 실례들에서, 특징들(203)은 발화(103)(및 발화 녹음사항(209))의 일부에 기초할 수 있다. 예를 들어서, 일부는 발화 녹음사항(209)의 특정 녹음 기간(예를 들어서, 5, 3, 또는 0.5 초, 등)일 수 있다.

전술한 바와 같이, 특징들(203)은 임의의 적합한 발화와 연관된 특징들(103), 예를 들어서, 발화(103)의 파워 스펙트럼을 표현하는 계수들일 수 있다. 실시예에서, 특징들(203)은 Mel 주파수 캡스트럼 계수들이다. 예를 들어서, Mel 주파수 캡스트럼 계수들은 (예를 들어서, 발화 녹음사항(209)을 통한) 발화(103) 또는 이의 일부의 푸리에 변환을 취하고, Mel 스케일로 맵핑하고, 각 Mel 주파수의 파워들의 로그들을 결정하고, 상기 파워들의 로그들의 이산 코사인 변환(DCT)에 기초하여 Mel 주파수 캡스트럼 계수들을 결정함으로써, (예를 들어서, 발화 녹음사항(209)을 통한) 발화(103)에 기초하여, 결정될 수 있다. 특징 추출 모듈(202)은 특징들(203)을 분류기 모듈(204)로 및/또는 시스템(200)의 메모리로 전달할 수 있다.

도 2에 도시된 바와 같이, 특징들(203)은 분류기 모듈(204)에 의해서, 특징 추출 모듈(202) 또는 시스템(200)의 메모리로부터 수신될 수 있다. 분류기 모듈(204)은 발화(103)를 리플레이 발화 부류 또는 원 발화 부류로 분류할 수 있다. 분류기 모듈(204)은 발화(103)를 임의의 적합한 분류 기법에 기초하여 분류할 수 있다. 일부 실례들에서, 분류기 모듈(204)은 특징들(203)을 사용하여서 (예를 들어서, 기초하여) 발화(103)를 통계적 분류 또는 마진 분류에 기초하여 분류할 수 있다. 그러나, 분류기 모듈(204)은 다른 분류 기법들을 사용할 수 있다. 예를 들어서, 분류기 모듈(204)은 분별 학습 분류기, 예를 들어서, 최대 상호 정보(MMI) 분류기일 수 있다. 예시적인 통계적 분류들은 도면들 3 및 4를 참조하여서 본 명세서에서 더 기술될 것이며, 예시적인 마진 분류들은 도면들 5 및 6을 참조하여서 본 명세서에서 더 기술될 것이다.

분류기 모듈(204)은 발화(103)의 분류에 기초하여 인디케이터를 제공할 수 있다. 발화(103)가 원 발화로서 분류되면(예를 들어서, 발화(103)가 원 발화 부류로 분류되며 이로써 분류기 모듈(204)이 발화(103)가 사용자(101)로부터 직접적으로 이루어졌다고 결정하면), 분류기 모듈(204)은 원 인디케이터(206)를 생성할 수 있다. 원 인디케이터(206)는 임의의 적합한 인디케이션 발화(103)가 원 발화로서 분류되었음을, 예를 들어서 데이터의 비트로서, 또는 플래그 인디케이터, 등으로서 포함할 수 있다. 계속되는 동작(208)을 통해서 도시된 바와 같이, 시스템(200)은 스피치 인식 모듈들(미도시), 등을 통해서 발화(103) 평가로 진행하여서, 사용자(101)를 식별하고/하거나 다른 태스크들을 수행하여서 사용자(101)에게 보안 액세스를 (잠재적으로) 허용할 수 있다.

발화(103)가 리플레이 발화로서 분류되면(예를 들어서, 발화(103)가 리플레이 발화 부류로 분류되며 이로써 분류기 모듈(204)이 발화(103)가 디바이스를 통해서를 통해서 리플레이되었다고 결정하면), 분류기 모듈(204)은 리플레이 인디케이터(205)를 생성할 수 있다. 리플레이 인디케이터(205)는 임의의 적합한 인디케이션 발화(103)가 리플레이 발화로서 분류되었음을, 예를 들어서 데이터의 비트로서, 또는 플래그 인디케이터, 등으로서 포함할 수 있다. 도시된 바와 같이, 리플레이 인디케이터(205)는 액세스 거부 모듈(207) 및/또는 시스템(200)의 메모리에 전달될 수 있다. 액세스 거부 모듈(207)은 리플레이 인디케이터(205)를 수신하고, 리플레이 인디케이터(205)에 기초하여(예를 들어서, 발화(103)가 리플레이 발화 부류로 분류되었다는 것에 기초하여) 사용자(101)에 대한 액세스를 거부할 수 있다. 예를 들어서, 액세스 거부 모듈(207)은 디스플레이 디바이스(미도시)를 통해서 액세스가 거부되었음을 사용자(101)에게 표시하고/하거나 사용자로 하여금 보안 액세스를 얻도록 다른 시도를 하도록 하게 할 수 있다. 다른 실례들에서, 액세스 거부 모듈(207)은 도어들을 잠그고, 보안 카메라를 활성화시키거나, 리플레이 인디케이터(205)에 응답하여서 다른 보안 조치를 취할 수 있다.

전술한 바와 같이, 일부 실례들에서, 분류기 모듈(204)은 통계적 분류에 기초하여 발화(103)를 분류할 수 있다. 통계적 분류의 실례들이 도면들 3 및 4을 참조하여서 기술된다.

도 3은 본 개시의 적어도 일부 구현예들에 따라서 구성된, 리플레이 공격 검출을 위한 혼합 모델들을 학습시키기 위한 예시적인 시스템(300)의 예시적 도면이다. 예를 들어서, 시스템(300)은 도 4를 참조하여서 기술될 바와 같이, 발화 분류를 위해서 사용될 수 있는 원 혼합 모델(306) 및 리플레이 혼합 모델(311)을 생성할 수 있다. 실시예에서, 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 가우시안 혼합 모델들이다. 예를 들어서, 도 3을 참조하여서 기술된 학습은 오프라인으로 그리고 구현 이전에 수행될 수 있으며, 도 4를 참조하여서 기술된 분류는 보안 시스템 또는 검증 시스템, 등을 통해서 실시간으로 수행될 수 있다. 일부 실례들에서, 시스템(300) 및 도 4를 참조하여서 기술된 시스템은 동일한 디바이스에 의해서 구현될 수 있으며, 다른 실례들에서, 이들은 상이한 디바이스들에 의해서 구현될 수 있다. 실시예에서, 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 오프라인으로 생성되어서 실시간으로 사용되기 위해서 수많은 디바이스들에 전달될 수 있다.

도 3에 도시된 바와 같이, 시스템(300)은 특징 추출 모듈(302), 최대-사후확률(MAP) 적응 모듈(304), 특징 추출 모듈(308), 최대-사후확률(MAP) 적응 모듈(310), 및 UBM(유니버설 백그라운드 모델)(305)을 포함할 수 있다. 도시된 바와 같이, 시스템(300)은 원 녹음사항들(301) 및 리플레이 녹음사항들(307)을 포함할 수 있거나 이들이 제공될 수 있다. 예를 들어서, 시스템(300)은 (예를 들어서, 시스템(300)의 마이크로폰(미도시)을 통해서) 사용자들에 의해서 이루어진 발화를 녹음함으로써 원 녹음사항들(301)을 생성할 수 있거나, 또는 시스템(300)은 원 녹음사항들(301)을 메모리 디바이스, 등으로부터 수신하며 이로써 원 녹음사항들(301)은 상이한 시스템에서 획득될 수 있다. 또한, 시스템(300)은 리플레이 녹음사항들(307)을 포함하거나 또는 이들이 제공될 수 있다. 예를 들어서, 시스템(300)은 (예를 들어서, 다른 디바이스의 스피커를 통한 재생음을 수신하는 시스템(300)의 마이크로폰을 통해서) 다른 디바이스에 의해서 재생된 발화를 녹음함으로써 리플레이 녹음사항들(307)을 생성할 수 있거나, 또는 시스템(300)은 메모리 디바이스, 등을 통해서 리플레이 녹음사항들(307)을 수신하며 이로써 리플레이 녹음사항들은 상이한 시스템에서 획득될 수 있다.

임의의 이벤트 시에, 원 녹음사항들(301)은 직접적으로 이루어진 사용자 발화의 녹음사항들이며, 리플레이 녹음사항들은 디바이스 스피커를 통해서 재생된 사용자 발화의 녹음사항들이다. 일 실례에서, 사용자들은 발화를 행하고, 시스템(300)은 발화를 녹음하여서 원 녹음사항들(301)을 생성하고, 이와 동시에, 별도의 디바이스는 발화를 녹음한다. 개별적으로 녹음된 발화는 이어서 시스템(300)으로 재생되며, 시스템은 이어서, 리플레이 녹음사항들(307)을 녹음할 수 있다. 원 녹음사항들(301) 및 리플레이 녹음사항들(307)은 원 혼합 모델(306) 및 리플레이 혼합 모델(311)을 학습하기 위한 임의의 기간들의 임의의 다수의 녹음사항들을 포함할 수 있다. 일부 실례들에서, 원 녹음사항들 및 리플레이 녹음사항들(307) 각각은 수백 또는 수천 또는 그 보다 많은 녹음사항들을 포함할 수 있다. 일부 실례들에서, 원 녹음사항들 및 리플레이 녹음사항들(307) 각각은 약 4,000 내지 6,000 개의 녹음사항들을 포함할 수 있다. 또한, 원 녹음사항들 및 리플레이 녹음사항들(307)은 임의의 다수의 사람, 예를 들어서, 10, 12, 20 명 또는 그 보다 많은 화자들에 의해서 이루어질 수 있다. 원 녹음사항들 및 리플레이 녹음사항들(307)은 임의의 기간, 예를 들어서, 0.5, 2, 3, 또는 5 초, 등을 가질 수 있다. 원 녹음사항들 및 리플레이 녹음사항들(307)은 원 혼합 모델(306) 및 리플레이 혼합 모델(311)을 학습하기 위한 녹음사항들의 세트를 제공할 수 있다.

도시된 바와 같이, 특징 추출 모듈(302)은 원 녹음사항들(301)을 (예를 들어서, 메모리, 등으로부터) 수신할 수 있으며, 특징 추출 모듈(302)은 특징들(303)을 생성할 수 있다. 특징들(303)은 원 녹음사항들(301)과 연관된 임의의 특징들일 수 있다. 일부 실례들에서, 특징들(303)은 원 녹음사항들(301) 또는 이의 일부의 파워 스펙트럼을 표현하는 계수들이다. 예를 들어서, 특징들(303)은 원 녹음사항들(301)의 각 원 녹음사항에 대해서 생성될 수 있다. 실시예에서, 특징들(303)은 본 명세서에서 기술된 바와 같은, Mel 캡스트럼 계수들이다. 특징 추출 모듈(302)은 특징들(303)을 MAP-적응 모듈(304)에 및/또는 시스템(300)의 메모리(미도시)에 전달할 수 있다.

MAP-적응 모듈(304)은 특징들(303)을 특징 추출 모듈(302) 또는 메모리로부터 수신하고, MAP-적응 모듈(304)은 UBM(유니버설 백그라운드 모델)(305)의 최대-사후확률 적응을 사용하여서(예를 들어서, 기초하여) UBM(305)을 특징들에 맞게 적응시켜서, 원 혼합 모델(306)을 생성할 수 있다. 예를 들어서, 원 발화 혼합 모듈(306)은 시스템(300)을 구현하는 디바이스를 통해서 또는 다른 디바이스를 통해서 후속 구현을 위해서 메모리에 저장될 수 있다. 실시예에서, 원 혼합 모델(306)은 가우시안 혼합 모델이다. 예를 들어서, 유니버설 백그라운드 모델(305)은 매우 많은 양의 스피치 데이터에 기초하여 오프라인으로 학습된 가우시안 혼합 모델일 수 있다. 실례에서, 유니버설 백그라운드 모델(305)은 가우시안 혼합 모델 기대치 최대화 알고리즘을 사용하여서 사전에 구축될 수 있다.

또한 도시된 바와 같이, 특징 추출 모듈(308)은 리플레이 녹음사항들(307)을 (예를 들어서, 메모리, 등으로부터) 수신하고 특징 추출 모듈(308)은 특징들(309)을 생성할 수 있다. 특징들(303)과 관련하여서 기술된 바와 같이, 특징들(309)은 리플레이 녹음사항들(307)과 연관된 임의의 적합한 특징들일 수 있다. 예를 들어서, 특징들(309)은 리플레이 녹음사항들(307) 또는 이의 일부의 파워 스펙트럼을 표현하는 계수들일 수 있다. 예를 들어서, 특징들(309)은 리플레이 녹음사항들(307)의 각 리플레이 녹음사항에 대해서 생성될 수 있다. 실시예에서, 특징들(309)은 본 명세서에서 기술된 Mel 캡스트럼 계수들이다. 특징 추출 모듈(308)은 특징들(303)을 MAP-적응 모듈(310)에 및/또는 시스템(300)의 메모리에 전달할 수 있다. MAP-적응 모듈(310)은 특징들(309)을 특징 추출 모듈(308) 또는 메모리로부터 수신하고, MAP-적응 모듈(310)은 유니버설 백그라운드 모델(305)의 최대-사후확률 적응을 사용하여서(예를 들어서, 기초하여) 유니버설 백그라운드 모델(305)을 특징들(303)에 맞게 적응시켜서 리플레이 혼합 모델(311)을 생성할 수 있다. 예를 들어서, 리플레이 발화 혼합 모듈(311)은 시스템(300)을 구현하는 디바이스를 통해서 또는 다른 디바이스를 통해서 후속 구현을 위해서 메모리 내에 저장될 수 있다. 실시예에서, 리플레이 혼합 모델(311)은 가우시안 혼합 모델이다.

도시된 바와 같이, 일부 실례들에서, 특징 추출 모듈들(302, 308)은 개별적으로 구현될 수 있다. 다른 실례들에서, 이들은 시스템(300)을 통해서 함께 구현될 수 있다. 일부 실례들에서, 특징 추출 모듈들(302, 308)은 동일한 소프트웨어 모듈을 통해서 구현될 수 있다. 유사하게, 일부 실례들에서, MAP-적응 모듈들(304, 310)은 개별적으로 구현될 수 있으며, 다른 실례들에서, 이들은 함께 구현될 수 있다. 전술한 바와 같이, 시스템(300)을 구현함으로써, 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 생성될 수 있다. 전술한 바와 같은 MAP-적응 방식을 사용함으로써, 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 견고하게 학습될 수 있으며 대응하는 밀도들을 가질 수 있다. 예를 들어서, 이러한 학습 이후에, 다음과 같은 2 개의 GMM들이 형성될 수 있다: 원 발화(예를 들어서, 비-리플레이 녹음사항들)를 표현하는 원 혼합 모델(306) 및 리플레이 발화(예를 들어서, 리플레이 녹음사항들)를 표현하는 리플레이 혼합 모델(311).

도 4는 본 개시의 적어도 일부 구현예들에 따라서 구성된, 리플레이 공격 검출을 제공하기 위한 예시적인 시스템(400)의 예시적 도면이다. 도시된 바와 같이, 시스템(400)은 마이크로폰(201), 특징 추출 모듈(202), 통계적 분류기(401), 및 액세스 거부 모듈(207)을 포함할 수 있다. 또한, 연속 동작(208)을 통해서 도시된 바와 같이, 시스템(400)은 사용자(101)의 보안 액세스를 위해서 원 발화 부류로 분류된 발화를 더 평가할 수 있다. 마이크로폰(201), 특징 추출 모듈(202), 액세스 거부 모듈(207), 및 연속 동작은 도 2를 참조하여서 기술되었으며, 이러한 설명은 명료성을 위해서 다시 반복되지 않을 것이다.

도시된 바와 같이, 통계적 분류기(401)는 원 혼합 모델(306), 리플레이 혼합 모델(311), 점수 모듈(402), 및 점수 비교 모듈(404)을 포함할 수 있다. 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 예를 들어서, 가우시안 혼합 모델들을 포함할 수 있다. 일부 실례들에서, 통계적 분류기(410)는 가우시안 분류를 구현하며 통계적 분류기(410)는 가우시안 분류기로서 특성화될 수 있다. 또한, 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 원 녹음사항들(예를 들어서, 원 녹음사항들(301))의 세트 및 리플레이 녹음사항들(예를 들어서, 리플레이 녹음사항들(307))의 세트에 기초하여 학습된 사전 학습된 혼합 모델들을 포함할 수 있다. 전술한 바와 같이, 녹음사항들은 디바이스를 통해서(예를 들어서, 제 1 디바이스를 통해서) 녹음된 원 녹음사항들 및 다른 디바이스(예를 들어서, 제 2 디바이스)를 통해서 리플레이되고 디바이스를 통해서(예를 들어서, 제 1 디바이스를 통해서) 녹음된 원 녹음사항의 리플레이 음을 포함하는 리플레이 녹음사항들을 포함할 수 있다. 일부 실례들에서, 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 시스템(400)의 메모리(미도시) 내에 저장될 수 있다. 일부 실례들에서, 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 도 3을 참조하여서 전술한 바와 같이 생성될 수 있다.

또한, 전술한 바와 같이, 통계적 분류기(401)는 점수 모듈(402)을 포함할 수 있다. 도시된 바와 같이, 점수 모듈(402)은 특징들(203)을 특징 추출 모듈(202) 또는 메모리로부터 수신하고, 점수 모듈(402)은 점수(403)를 결정할 수 있으며, 이 점수는 점수 비교 모듈(404) 및/또는 메모리에 전달될 수 있다. 점수(403)는 발화(103)와 연관된 특징들(203)이 원 혼합 모델(306) 또는 리플레이 혼합 모델(311)과 보다 강하게 연관된 확률과 연관된 임의의 적합한 점수 또는 점수들을 포함할 수 있다. 일부 실례들에서, 점수 모듈(402)은 점수(403)를, 발화가 원 혼합 모델(306)에 의해서 생성된 로그-확률에 대한 발화가 리플레이 혼합 모델(311)에 의해서 생성된 로그-확률의 비로서 결정할 수 있다. 실례에서, 점수(403)는 다음의 등식(1)에서 도시된 바와 같이 결정될 수 있다:

여기서, SCORE(Y)는 점수(403)이며, Y는 특징들(203)(예를 들어서, 발화(103) 및 발화 녹음사항(209)과 연관된 MFCC-시퀀스)이며, p는 로그-확률 또는 프레임-방식 로그-확률(예를 들어서, 발화(103) 및 발화 녹음사항(209)의 예를 들어서, 0.5, 1, 2, 또는 5 초, 등의 시간적 프레임들에 걸친 MFCC 특징들의 평가) 합산, GMM_REPLAY은 리플레이 혼합 모델(311)이며, GMM_0RIGINAL은 원 혼합 모델(306)일 수 있다. 예를 들어서,

은 발화(103)가 리플레이 혼합 모델(311)에 의해서 생성된(또는 구축된) 로그-확률이며,

은 발화(103)가 원 혼합 모델(306)에 의해서 생성된(또는 구축된) 로그-확률일 수 있다. 이러한 맥락에서, 용어들 "에 의해서 생성된" 또는 "에 의해서 구축된"은 해당 발화가 해당 혼합 모델(예를 들어서, 리플레이 또는 원 혼합 모델)을 학습시키는데 사용된 발화와 유사한 특성들을 갖는 확률을 나타낸다.

도 4에 도시된 바와 같이, 점수(403)는 점수 비교 모듈(404)에 의해서 점수 모듈(402) 또는 메모리로부터 수신될 수 있다. 점수 비교 모듈(404)은 점수(403)를 사전결정된 임계치에 비교한 결과에 기초하여 발화(103)가 리플레이 발화 부류 또는 원 발화 부류 내에 있는지를 결정할 수 있다. 일부 실례들에서, 점수(403)가 사전결정된 임계치보다 크면(또는 이상이면), 발화(103)는 리플레이 발화로서 분류되며, 점수(403)가 사전결정된 임계치보다 작으면(또는 이하이면). 발화(103)는 원 발화로서 분류될 수 있다. 일부 실례들에서, 점수(403)를 사전결정된 임계치에 비교한 결과는 다음의 등식(2)에서 도시된 바와 같이 결정될 수 있다:

여기서, θ는 사전결정된 임계치이며, REPLAY는 리플레이 부류이며, 및 ORIGINAL은 원 발화 부류일 수 있다. 도시된 바와 같이, 실례에서, SCORE(Y)가 사전결정된 임계치 이상이면, 발화(103)는 리플레이 발화 부류 내에 있는 것으로 분류될 수 있으며, SCORE(Y)가 사전결정된 임계치미만이면, 발화(103)는 원 발화 부류 내에 있는 것으로 분류될 수 있다. 예를 들어서, 사전결정된 임계치는 원 혼합 모델(306) 및 리플레이 혼합 모델(311)의 학습에 기초하여 오프라인으로 결정될 수 있다.

전술한 바와 같이, 통계적 분류기(410)는 발화(103)를 리플레이 발화 부류 또는 원 발화 부류 내로 분류할 수 있다. 통계적 분류기(401)가 발화(103)를 리플레이 발화 부류 내로 분류하면, 점수 비교 모듈(404)은 리플레이 인디케이터(205)를 생성할 수 있으며, 이 리플레이 인디케이터(205)는 전술한 바와 같이, 액세스 거부 모듈(207) 및/또는 메모리로 전달될 수 있다. 액세스 거부 모듈(207)은 리플레이 인디케이터(205)에 기초하여, 사용자(101)의 액세스를 거부하고/하거나 다른 보안 동작을 취할 수 있다. 통계적 분류기(401)가 발화(103)를 원 발화 부류로 분류하면, 점수 비교 모듈(404)은 원 인디케이터(206)를 생성할 수 있으며, 원 인디케이터(206)는 전술한 바와 같이, 연속 동작(208)을 통해서, 시스템(400)에 의한 발화(103)의 후속 평가를 지시할 수 있다. 또한 전술한 바와 같이, 통계적 분류기(410)는 원 혼합 모델(306) 및 리플레이 혼합 모델(311)이 가우시안 혼합 모델들이 되도록 원 혼합 모델(306) 및 리플레이 혼합 모델(311)에 기초하여 발화(103)를 분류할 수 있다. 이러한 실례들에서, 통계적 분류기(410)는 가우시안 분류기로서 특성화될 수 있다.

도 2를 참조하면, 전술한 바와 같이, 일부 실례들에서, 분류기 모듈(204)은 마진 분류에 기초하여 발화(103)를 분류할 수 있다. 마진 분류의 실례들이 도면들 5 및 6을 참조하여서 기술된다.

도 5는 본 개시의 적어도 일부 구현예들에 따라서 구성된, 리플레이 공격 검출을 위한 서포트 벡터 머신을 학습시키기 위한 예시적인 시스템(500)의 예시적 도면이다. 예를 들어서, 시스템(500)은 서포트 벡터 머신(514)을 생성할 수 있으며, 이 머신은 도 6을 참조하여서 기술될 바와 같이 발화 분류를 위해서 사용될 수 있다. 예를 들어서, 도 5를 참조하여서 기술된 학습은 오프라인으로 그리고 구현 이전에 수행될 수 있으며, 도 6을 참조하여서 기술된 분류는 실시간으로 수행될 수 있다. 일부 실례들에서, 시스템(500) 및 도 6을 참조하여서 기술된 시스템은 동일한 디바이스에 의해서 구현될 수 있으며, 다른 실례들에서, 이들은 상이한 디바이스들에 의해서 구현될 수 있다. 실시예에서, 서포트 벡터 머신(514)은 오프라인으로 생성될 수 있으며, 사용되기 위해서 실시간으로 수많은 디바이스들에 전달될 수 있다.

도 5에 도시된 바와 같이, 시스템(500)은 특징 추출 모듈(502), 최대-사후확률(MAP) 적응 모듈(504), 슈퍼 벡터 추출 모듈(506), 특징 추출 모듈(509), 최대-사후확률(MAP) 적응 모듈(511), 및 슈퍼 벡터 추출 모듈(513)을 포함할 수 있다. 도시된 바와 같이, 시스템(500)은 원 녹음사항들(501) 및 리플레이 녹음사항들(508)을 포함할 수 있거나 또는 이들이 제공될 수 있다. 예를 들어서, 시스템(500)은 원 녹음사항들(501) 및 리플레이 녹음사항들(508)을 생성할 수 있거나, 또는 시스템(500)은 원 녹음사항들(301) 및 리플레이 녹음사항들(508)을 원 녹음사항들(301), 리플레이 녹음사항들(307), 및 시스템(300)을 참조하여서 전술한 바와 같이 수신할 수 있다. 원 녹음사항들(501) 및 리플레이 녹음사항들(508)은 각기 원 녹음사항들(301) 및 리플레이 녹음사항들(307)을 참조하여서 본 명세서에서 기술된 바와 같은 임의의 속성들을 가질 수 있으며, 이러한 설명은 명료성을 위해서 반복되지 않을 것이다. 원 녹음사항들(501) 및 리플레이 녹음사항들(508)은 학습 서포트 벡터 머신(514)에 녹음사항들의 세트를 제공할 수 있다.

도시된 바와 같이, 특징 추출 모듈(502)은 원 녹음사항들(501)을 (예를 들어서, 메모리, 등으로부터) 수신하고, 특징 추출 모듈(502)은 특징들(503)을 생성할 수 있다. 특징들(503)은 원 녹음사항들(501) 및 이의 일부와 연관된 임의의 특징들일 수 있다. 예를 들어서, 특징들(503)은 원 녹음사항들(501) 또는 이의 일부의 파워 스펙트럼을 표현하는 계수들을 포함할 수 있다. 예를 들어서, 특징들(503)은 원 녹음사항들(501)의 각 원 녹음사항에 대해서 생성될 수 있다. 실시예에서, 특징들(503)은 본 명세서에서 기술된 바와 같은 Mel 캡스트럼(cepstrum) 계수들이다. 특징 추출 모듈(502)은 특징들(503)을 MAP-적응 모듈(504) 및/또는 시스템(500)의 메모리(미도시)에 전달할 수 있다. 실례에서, 특징들(503)은 계수들의 세트를 포함할 수 있으며, 각 세트는 원 녹음사항들(501)의 일 원 녹음사항과 연관될 수 있다.

MAP-적응 모듈(504)은 특징들(503)을 특징 추출 모듈(502) 또는 메모리로부터 수신할 수 있다. 전술한 바와 같이, 특징들(503)은 원 녹음사항들(501) 각각에 대한 특징들 또는 계수들, 등의 세트를 포함할 수 있다. MAP-적응 모듈(504)은, 계수들의 각 세트에 기초하여, 유니버설 백그라운드 모델(507)의 최대-사후확률 적응을 사용하여서(예를 들어서, 기초하여) UBM(유니버설 백그라운드 모델)(507)을 적응시켜서, 원 발화 혼합 모델들(505)(예를 들어서, 특징들(503)의 계수들 또는 특징들의 각 세트에 대한 원 발화 혼합 모델을 포함함)을 생성할 수 있다. 예를 들어서, 유니버설 백그라운드 모델(507)은 많은 양의 스피치 데이터에 기초하여 오프라인으로 학습된 가우시안 혼합 모델이다. 실례에서, 유니버설 백그라운드 모델(507)은 가우시안 혼합 모델 기대치 최대화 알고리즘을 사용하여서 사전 구축될 수 있다.

도 5에서, MAP-적응 모듈(504) 및 다른 유사하게 예시된 모듈들(예를 들어서, 모듈들(502, 505, 506, 509, 511, 512, 513)의 다수의 인스턴스들은 그들과 연관된 동작(또는 그들과 연관된 메모리 항목)이 녹음사항들(예를 들어서, 원 녹음사항들(501) 및 리플레이 녹음사항들(508))의 세트 내에서의 녹음사항의 각 인스턴스에 대해서 수행된다는 것을 나타내도록 의도된다. 예를 들어서, 전술한 바와 같이, 유니버설 백그라운드 모델(507)의 MAP-적응은 특징들 또는 계수들의 각 세트에 대해서 수행되어서 원 발화 혼합 모델을 생성할 수 있으며, 이하에서 후술할 바와 같이, 연관된 슈퍼 벡터(예를 들어서, 원 녹음사항들의 슈퍼 벡터들(515))가 각 원 발화 혼합 모델에 대해서 생성될 수 있다. 유사하게, 리플레이 녹음사항들(508)에 대해서, 특징들(510)은 각 리플레이 녹음사항에 대한 특징들 또는 계수들의 세트를 포함할 수 있으며, MAP-적응 모듈(511)은 계수들의 각 세트에 대해서 리플레이 발화 혼합 모델을 생성할 수 있으며, 슈퍼 벡터 추출 모델(513)은 각 리플레이 발화 혼합 모델에 대해서 리플레이 녹음 슈퍼 벡터(예를 들어서, 리플레이 녹음사항들의 슈퍼 벡터들(516))을 생성할 수 있다. 이로써. 다수의 원 녹음사항들의 슈퍼 벡터들(515) 및 다수의 리플레이 녹음사항들의 슈퍼 벡터들(516)이 서포트 벡터 머신(514)학습에 제공될 수 있다. 도시된 바와 같이, MAP-적응 모듈(504)은 원 발화 혼합 모델들(505)을 슈퍼 벡터 추출 모듈(506) 및/또는 시스템(500)의 메모리(미도시)에 전달할 수 있다.

슈퍼 벡터 추출 모듈(506)은 원 발화 혼합 모델들(505)을 MAP-적응 모듈(504) 또는 시스템(500)의 메모리로부터 수신할 수 있다. 슈퍼 벡터 추출 모듈(506)은, 원 발화 혼합 모델들(505)의 각 원 발화 혼합 모델에 대해서, 원 녹음 슈퍼 벡터를 추출하여서 다수의 추출된 슈퍼 벡터들을 갖는 원 녹음사항들의 슈퍼 벡터들(515)을 생성할 수 있으며, 여기서 각 슈퍼 벡터는 각 원 발화 혼합 모델에 대한 것이다. 슈퍼 벡터 추출 모듈(506)은 임의의 적합한 기법 또는 기법들을 사용하여서 원 녹음사항들의 슈퍼 벡터들(515)을 생성할 수 있다. 실례에서, 슈퍼 벡터 추출 모듈(506)은 각 원 발화 혼합 모델의 평균 벡터들을 연결함으로써 원 녹음사항의 슈퍼 벡터를 생성할 수 있다. 예를 들어서, 각 원 발화 혼합 모델은 수많은 평균 벡터들을 가지며, 각 원 녹음사항의 슈퍼 벡터는 이들을 연결함으로써 형성될 수 있다. 슈퍼 벡터 추출 모듈(506)은 원 녹음사항들의 슈퍼 벡터들(515)을 서포트 벡터 머신(514) 및/또는 시스템(500)의 메모리로 전달할 수 있다.

또한 도 5에 도시된 바와 같이, 특징 추출 모듈(509)은 리플레이 녹음사항들(508)(예를 들어서, 메모리, 등으로부터)수신하고 특징 추출 모듈(509)은 특징들(510)을 생성할 수 있다. 특징들(510)은 리플레이 녹음사항들(508)과 연관된 임의의 특징들일 수 있다. 예를 들어서, 특징들(510)은 리플레이 녹음사항들(509)의 파워 스펙트럼을 표현하는 계수들을 포함할 수 있으며, 예를 들어서, 특징들(510)은 리플레이 녹음사항들(508)의 각 리플레이 녹음사항에 대해서 생성될 수 있다. 실시예에서, 특징들(510)은 본 명세서에서 기술된 바와 같은 Mel 캡스트럼 계수들이다. 특징 추출 모듈(509)은 특징들(510)을 MAP-적응 모듈(511) 및/또는 시스템(500)의 메모리에 전달할 수 있다. 특징들(503)을 참조하여서 전술한 바와 같이, 특징들(510)은 리플레이 녹음사항들(501) 각각에 대해서 계수들의 세트를 포함할 수 있다.

MAP-적응 모듈(511)은 특징들(510)을 특징 추출 모듈(509) 또는 메모리로부터 수신할 수 있다. MAP-적응 모듈(511)은, 계수들의 각 세트에 기초하여, 유니버설 백그라운드 모델(507)의 최대-사후확률 적응을 사용하여서(예를 들어서, 기초하여) 유니버설 백그라운드 모델(507)을 적응시켜서, 리플레이 발화 혼합 모델들(512)(예를 들어서, 특징들(510)의 계수들의 각 세트에 대해서 리플레이 발화 혼합 모델을 포함함)을 생성할 수 있다. 도시된 바와 같이, MAP-적응 모듈(511)은 리플레이 발화 혼합 모델들(512)을 슈퍼 벡터 추출 모듈 13 및/또는 시스템(500)의 메모리에 전달할 수 있다.

슈퍼 벡터 추출 모듈(513)은 원 발화 혼합 모델들(512)을 MAP-적응 모듈(511) 또는 시스템(500)의 메모리로부터 수신할 수 있다. 슈퍼 벡터 추출 모듈(513)은, 리플레이 발화 혼합 모델들(512)의 각 리플레이 발화 혼합 모델에 대해서, 리플레이 녹음사항의 슈퍼 벡터를 추출하여서 다수의 추출된 슈퍼 벡터들을 갖는 리플레이 녹음사항들의 슈퍼 벡터들(516)을 생성할 수 있으며, 일 슈퍼 벡터는 각 리플레이 발화 혼합 모델에 대한 것이다. 슈퍼 벡터 추출 모듈(513)은 임의의 적합한 기법 또는 기법들을 사용하여서 리플레이 녹음사항들의 슈퍼 벡터들(516)을 생성할 수 있다. 실례에서, 슈퍼 벡터 추출 모듈(513)은 각 리플레이 발화 혼합 모델의 평균 벡터들을 연결함으로써 각 리플레이 녹음사항의 슈퍼 벡터를 생성할 수 있다. 예를 들어서, 각 리플레이 발화 혼합 모델은 수많은 평균 벡터들을 가지며 각 리플레이 녹음사항의 슈퍼 벡터는 이들을 연결함으로써 형성될 수 있다. 슈퍼 벡터 추출 모듈(513)은 리플레이 녹음사항들의 슈퍼 벡터들(516)을 서포트 벡터 머신(514) 및/또는 시스템(500)의 메모리에 전달할 수 있다.

서포트 벡터 머신(514)은 원 녹음사항들의 슈퍼 벡터들(515)을 슈퍼 벡터 추출 모듈(506) 또는 메모리로부터 수신하고, 리플레이 녹음사항들의 슈퍼 벡터들(516)을 슈퍼 벡터 추출 모듈(513) 또는 메모리로부터 수신할 수 있다. 서포트 벡터 머신(514)은 원 녹음사항들의 슈퍼 벡터들(515) 및 리플레이 녹음사항들의 슈퍼 벡터들(516)에 기초하여 학습될 수 있다. 예를 들어서, 서포트 벡터 머신(514)은 원 녹음사항들의 슈퍼 벡터들(515) 및 리플레이 녹음사항들의 슈퍼 벡터들(516) 간의 (예를 들어서, 2 개의 부류들 간의) 차들 또는 마진들을 모델링할 수 있다. 예를 들어서, 서포트 벡터 머신(514)은 원 녹음사항들의 슈퍼 벡터들(515) 및 리플레이 녹음사항들의 슈퍼 벡터들(516)간의 차들을 사용하여서, 분류 구현 동안에 수신된 슈퍼 벡터들에 기초하여 판별할 수 있다. 서포트 벡터 머신(514)은 제공된 원 녹음사항들의 슈퍼 벡터들(515) 및 리플레이 녹음사항들의 슈퍼 벡터들(516) 및 각각이 어느 부류(예를 들어서, 원 또는 리플레이 부류)에 속하는지에 기초하여 학습될 수 있다. 서포트 벡터 머신(514)은 이러한 정보에 기초하여, 다양한 파라미터들에 대한 가중치들을 생성하고, 이러한 가중치들은 분류 시에 사용되게 저장될 수 있다.

도 6은 본 개시의 적어도 일부 구현예들에 따라서 구성된, 리플레이 공격 검출을 제공하기 위한 예시적인 시스템(600)의 예시적 도면이다. 도시된 바와 같이, 시스템(600)은 마이크로폰(201), 특징 추출 모듈(202), 마진 분류기(601), 및 액세스 거부 모듈(207)을 포함할 수 있다. 또한, 연속 동작(208)을 통해서 도시된 바와 같이, 시스템(600)은 사용자(101)의 보안 액세스를 위해서 원 발화 부류로 분류된 발화를 더 평가할 수 있다. 마이크로폰(201), 특징 추출 모듈(202), 액세스 거부 모듈(207), 및 연속 동작은 도 2를 참조하여서 기술된 바와 같으며 이러한 설명은 명료성을 위해서 반복되지 않을 것이다.

도시된 바와 같이, 마진 분류기(601)는 최대-사후확률(MAP) 적응 모듈(602), UBM(유니버설 백그라운드 모델)(603), 슈퍼 벡터 추출 모듈(605), 슈퍼 벡터 머신(514), 및 결정 모듈(606)을 포함할 수 있다. 유니버설 백그라운드 모델(603)은 예를 들어서, 수많은 스피치 데이터에 기초하여 오프라인으로 학습된 가우시안 혼합 모델일 수 있다. 실례에서, 유니버설 백그라운드 모델(603)은 가우시안 혼합 모델 기대치 최대화 알고리즘을 사용하여서 사전에 구축될 수 있다. 또한, 서포트 벡터 머신(514)은 원 녹음사항들(예를 들어서, 원 녹음사항들(501))의 세트 및 리플레이 녹음사항들(예를 들어서, 리플레이 녹음사항들(508))의 세트에 기초하여 학습된 사전 학습된 서포트 벡터 머신을 포함할 수 있다. 전술한 바와 같이, 녹음사항들은 디바이스를 통해서(예를 들어서, 제 1 디바이스를 통해서) 녹음된 원 녹음사항들 및 다른 디바이스(예를 들어서, 제 2 디바이스)를 통해서 리플레이되고 디바이스를 통해서(예를 들어서, 제 1 디바이스를 통해서) 녹음된 원 녹음사항들의 리플레이 음들을 포함하는 리플레이 녹음사항들을 포함할 수 있다. 일부 실례들에서, 유니버설 백그라운드 모델(603) 및/또는 서포트 벡터 머신(514)은 시스템(600)의 메모리(미도시) 내에 저장될 수 있다. 일부 실례들에서, 서포트 벡터 머신(514)은 도 4를 참조하여서 전술한 바와 같이 생성될 수 있다.

전술한 바와 같이, 마진 분류기(601)는 MAP-적응 모듈(602)을 포함할 수 있다. 도시된 바와 같이, MAP-적응 모듈(602)은 특징들(203)을 특징 추출 모듈(202) 또는 메모리로부터 수신하고 유니버설 백그라운드 모델(603)을 메모리로부터 수신할 수 있다. MAP-적응 모듈(602)은 특징들(203)(예를 들어서, 임의의 적합한 특징들, 예를 들어서, 발화(103)의 파워 스펙트럼을 표현하는 계수들)에 기초하여 유니버설 백그라운드 모델(603)의 최대-사후확률 적응을 수행하여서 발화 혼합 모델(604)을 생성할 수 있다. 실시예에서, 발화 혼합 모델(604)은 가우시안 혼합 모델이다. MAP-적응 모듈(602)은 발화 혼합 모델(604)을 서포트 벡터 추출 모듈(605) 및/또는 메모리에 전달할 수 있다.

서포트 벡터 추출 모듈(605)은 발화 혼합 모델(604)을 MAP-적응 모듈(602) 또는 메모리로부터 수신할 수 있다. 서포트 벡터 추출 모듈(605)은 발화 혼합 모델(604)에 기초하여 발화 슈퍼 벡터(607)를 추출할 수 있다. 서포트 벡터 추출 모듈(605)은 발화 슈퍼 벡터(607)를 임의의 적합한 기법 또는 기법들을 사용하여서 추출할 수 있다. 실시예에서, 서포트 벡터 추출 모듈(605)은 발화 혼합 모델(604)의 평균 벡터들을 연결함으로써 발화 슈퍼 벡터(607)를 추출할 수 있다. 도시된 바와 같이, 슈퍼 벡터 추출 모듈(605)은 발화 슈퍼 벡터(607)를 서포트 벡터 머신(514) 및/또는 시스템(600)의 메모리에 전달할 수 있다.

서포트 벡터 머신(514)은 발화 슈퍼 벡터(607)를 슈퍼 벡터 추출 모듈(605) 또는 메모리로부터 수신할 수 있다. 서포트 벡터 머신(514)은 발화(103)가 리플레이 발화 부류 또는 원 발화 부류 내에 있는지를, 발화 슈퍼 벡터(607)에 기초하여 결정할 수 있다. 예를 들어서, 서포트 벡터 머신(514)은 도 5를 참조하여서 전술한 바와 같이 사전 학습되어서, 발화(103)가 원 발화 부류 또는 리플레이 발화 부류 중 어느 것에 속하는지를 발화 슈퍼 벡터(607)를 사용하여서(예를 들어서, 기초하여)분류에 기초하여 결정할 수 있다. 분류 모듈(606)은 서포트 벡터 머신(514)으로부터의 입력에 기초하여 발화(103)를 리플레이 발화 부류 또는 원 발화 부류 내로 분류할 수 있다.

일부 실례들에서, 서포트 벡터 머신(514)은 오직 동일한 길이를 갖는 슈퍼 벡터들(예를 들어서, 발화 슈퍼 벡터(607))에 대해서만 동작할 수 있다. 이러한 실례들에서, MAP-적응 모듈(602) 및/또는 슈퍼 벡터 추출 모듈(605)은 사전결정된 길이를 갖는 발화 슈퍼 벡터(607)를 제공하도록 동작할 수 있다. 예를 들어서, MAP-적응 모듈(602) 및/또는 슈퍼 벡터 추출 모듈(605)은 데이터 등의 시작 부분 및/또는 끝 부분을 제거함으로써 발화 슈퍼 벡터(607)의 크기를 제한할 수 있다.

전술한 바와 같이, 마진 분류기(601)는 발화(103)를 리플레이 발화 부류 또는 원 발화 부류 내로 분류할 수 있다. 마진 분류기(601)가 발화(103)를 리플레이 발화 부류 내로 분류하면, 분류 모듈(606)은 리플레이 인디케이터(205)를 생성할 수 있으며, 리플레이 인디케이터(205)는 전술한 바와 같이, 액세스 거부 모듈(207) 및/또는 메모리로 전달될 수 있다. 액세스 거부 모듈(207)은 리플레이 인디케이터(205)에 기초하여 사용자(101)에 대한 액세스를 거부 및/또는 다른 보안 동작을 취할 수 있다. 마진 분류기(601)가 발화(103)를 원 발화 부류 내로 분류하면, 분류 모듈(606)은 원 인디케이터(206)를 생성할 수 있으며, 원 인디케이터(206)는 전술한 바와 같이, 연속 동작(208)을 통해서, 시스템(400)에 의한 발화(103)의 후속 평가를 수행하도록 지시할 수 있다.

도 7은 본 개시의 적어도 일부 구현예들에 따라서 구성된, 자동 화자 검증을 위한 예시적인 프로세스(700)를 예시하는 흐름도이다. 프로세스(700)는 도 7에서 예시된 바와 같은 하나 이상의 동작들(701-703)을 포함할 수 있다. 프로세스(700)는 자동 화자 검증 프로세스의 적어도 일부를 형성할 수 있다. 비한정적 예를 들자면, 프로세스(700)는 예를 들어서, 본 명세서에서 기술된 시스템들(200),(400), 또는(600)에 의해서 착수된 바와 같은, 획득된 발화 발화(103)에 대한 자동 화자 검증 분류 프로세스의 적어도 일부를 형성할 수 있다. 또한, 프로세스(700)는 도 8의 시스템(800)을 참조하여서 본 명세서에서 기술될 것이다.

도 8은 본 개시의 적어도 일부 구현예들에 따라서 구성된, 리플레이 공격 검출을 제공하기 위한 예시적인 시스템(800)의 예시적 도면이다. 도 8에 도시된 바와 같이, 시스템(800)은 하나 이상의 중앙 프로세싱 유닛들(CPU)(801), 그래픽 프로세싱 유닛(GPU)(802), 시스템 메모리(803), 및 마이크로폰(201)을 포함할 수 있다. 또한 도시된 바와 같이, CPU(801)는 특징 추출 모듈(202) 및 분류기 모듈(204)을 포함할 수 있다. 시스템(800)의 실례에서, 시스템 메모리(803)는 자동 화자 검증 데이터, 예를 들어서, 본 명세서에서 기술된 바와 같은, 발화 녹음사항 데이터, 특징들, 계수들, 리플레이 또는 원 인디케이터들, 유니버설 백그라운드 모델들, 혼합 모델들, 점수들, 슈퍼 벡터들, 서포트 벡터 머신 데이터, 등을 저장할 수 있다. 마이크로폰(201)은 발화(103)를 (예를 들어서, 공중 음향 파들로, 도 1 참조) 수신하여서 발화(103)를 전기적 신호 예를 들어서, 디지털 신호로 변환시키는 임의의 적합한 디바이스 또는 디바이스들을 포함할 수 있다. 실시예에서, 마이크로폰은 발화(103)를 발화 녹음사항(209)으로 변환시킨다. 실시예에서, 발화 녹음사항(209)은 CPU(801)에 의해서 액세스되도록 시스템 메모리 내에 저장될 수 있다.

CPU(801) 및 그래픽 프로세싱 유닛(802)은 본 명세서에서 기술된 바와 같은 동작들을 제공할 수 있는 임의의 개수 및 타입의 프로세싱 유닛들을 포함할 수 있다. 이러한 동작들은 소프트웨어 또는 하드웨어 또는 이들의 조합으로 구현될 수 있다. 예를 들어서, 그래픽 프로세싱 유닛(802)은 시스템 메모리(803) 또는 전용 그래픽 메모리(미도시)로부터 획득된 데이터를 조작하는데 전용되는 회로들을 포함할 수 있다. 또한, 중앙 프로세싱 유닛들(801)은 시스템(800)을 위한 제어 및 다른 고도의 기능들 및 본 명세서에서 기술된 바와 같은 동작들을 제공할 수 있는 임의의 개수 및 타입의 프로세싱 유닛들 또는 모듈들을 포함할 수 있다. 시스템 메모리(803)는 임의의 타입의 메모리, 예를 들어서, 휘발성 메모리(예를 들어서, 정적 랜덤 액세스 메모리(SRAM), 동적 랜덤 액세스 메모리(DRAM), 등) 또는 비-휘발성 메모리(예를 들어서, 플래시 메모리, 등), 등일 수 있다. 비한정적 실례에서, 시스템 메모리(803)는 캐시 메모리에 의해서 구현될 수 있다. 도시된 바와 같이, 실시예에서, 특징 추출 모듈(202) 및 분류기 모듈(204)은 CPU(801)를 통해서 구현될 수 있다. 일부 실례들에서, 특징 추출 모듈(202) 및/또는 분류기 모듈(204)은 CPU(801)를 통해서 구현된 바와 같은 소프트웨어에 의해서 제공될 수 있다. 다른 실례들에서, 특징 추출 모듈(202) 및/또는 분류기 모듈(204)은 디지털 신호 프로세서, 등을 통해서 구현될 수 있다. 다른 실시예에서, 특징 추출 모듈(202) 및/또는 분류기 모듈(204)은 그래픽 프로세싱 유닛(802)의 실행 유닛(EU)을 통해서 구현될 수 있다. EU는 프로그램가능한 로직 기능들의 넓은 어레이를 제공할 수 있는, 예를 들어서, 프로그램가능한 로직 또는 회로들, 예를 들어서, 로직 코어 또는 코어들을 포함할 수 있다.

일부 실례들에서, 분류기 모듈(204)은 통계적 분류기(401) 또는 마진 분류기(601) 또는 양자를 구현할 수 있다. 예를 들어서, 분류기 모듈(204)은 점수 모듈(402) 및/또는 점수 비교 모듈(404)을 구현할 수 있으며 원 혼합 모델(306) 및 리플레이 혼합 모델(311)은 시스템 메모리(803) 내에 저장될 수 있다. 이러한 실례들에서, 시스템 메모리(803)은 또한 점수(403)를 저장할 수 있다. 다른 실례에서, 분류기 모듈(204)은 MAP-적응 모듈(602), 슈퍼 벡터 추출 모듈(605), 서포트 벡터 머신(514), 및 분류 모듈(606)을 구현할 수 있으며, 유니버설 백그라운드 모델(603) 및 서포트 벡터 머신(514)의 일부는 시스템 메모리(803) 내에 저장될 수 있다. 이러한 실례들에서, 시스템 메모리(803)은 또한 발화 혼합 모델(604) 및 발화 슈퍼 벡터(607)를 저장할 수 있다.

도 7의 설명으로 돌아가면, 프로세스(700)는 동작(701), "발화 수신"에서 시작하며, 여기서 발화가 수신될 수 있다. 예를 들어서, 발화(803)(사용자(101)에 의해서 최초에 행해진 발화 또는 디바이스를 통해서 사용자(101)에 의해서 부적절하게 재생된 발화)는 마이크로폰(201)을 통해서 수신될 수 있다. 전술한 바와 같이, 마이크로폰(201) 및/또는 관련 회로들은 발화(803)를 발화 녹음사항(209)으로 변환할 수 있다.

프로세싱은 동작(702), "발화와 연관된 특징들 추출"로 진행하여서, 여기서 수신된 발화의 적어도 일부와 연관된 특징들이 추출될 수 있다. 예를 들어서, CPU(801)를 통해서 구현된 바와 같은 특징 추출 모듈(202)은 발화와 연관된 특징들(103), 예를 들어서, 발화(103)(및 발화 녹음사항(209))의 파워 스펙트럼을 나타내는 Mel 주파수 캡스트럼 계수들을 추출할 수 있다.

프로세싱은 동작(703), "발화를 리플레이 발화 부류 또는 원 발화 부류로 분류"로 진행하여서, 여기서 발화가 리플레이 발화 부류 또는 원 발화 부류로 분류될 수 있다. 예를 들어서, 발화는 발화와 연관된 추출된 특징들에 기초한, 발화의 통계적 분류, 마진 분류, 판별 분류, 등 중 적어도 하나에 기초하여 리플레이 발화 부류 또는 원 발화 부류로 분류될 수 있다. 예를 들어서, 분류기 모듈(204)은 본 명세서에서 기술된 바와 같이, 발화(103)를 리플레이 발화 부류 또는 원 발화 부류로 분류할 수 있다.

통계적 분류가 구현되는 실례들에서, 발화를 분류하는 동작은 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 발화에 대한 점수를 (예를 들어서, CPU(801)를 통해서 구현된 바와 같은 통계적 분류기(401)의 점수 모듈(402)을 통해서) 결정하는 동작, 및 발화가 리플레이 발화 부류 또는 원 발화 부류 내에 있는지를 상기 점수를 사전결정된 임계치와 비교한 결과에 기초하여 (예를 들어서, CPU(801)를 통해서 구현된 바와 같은 통계적 분류기(401)의 점수 비교 모듈(404)을 통해서) 결정하는 동작을 포함할 수 있다.

마진 분류가 구현되는 실례들에서, 발화를 분류하는 동작은 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 (예를 들어서, CPU(801)를 통해서 구현된 바와 같은 마진 분류기(601)의 MAP-적응 모듈(602)을 통해서) 수행하여서 발화 혼합 모델을 생성하는 동작 및 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 (예를 들어서, CPU(801)를 통해서 구현된 바와 같은 마진 분류기(601)의 슈퍼 벡터 추출 모듈(605)을 통해서) 추출하는 동작, 및 서포트 벡터 머신을 통해서(예를 들어서, CPU(801) 및/또는 시스템 메모리(803)를 통해서 구현된 바와 같은 마진 분류기(601)의 서포트 벡터 머신(514)을 통해서) 발화가 리플레이 발화 부류 또는 원 발화 부류 내에 있는지를 슈퍼 벡터에 기초하여 결정하는 동작을 포함할 수 있다.

프로세스(700)는 마이크로폰을 통해서 수신된 임의의 다수의 발화에 대해서 순차적으로 또는 병행하여서 임의의 다수의 회로 반복될 수 있다. 프로세스(700)는 디바이스를 통해서, 예를 들어서, 본 명세서에서 기술된 디바이스(102)를 통해서 발화 분류를 가능하게 한다. 또한 본 명세서에서 기술된 바와 같이, 이러한 분류를 실시간으로 하기 이전에, 통계적 분류기(401) 및/또는 마진 분류기(601)의 다양한 구성요소들은 일부 실례들에서, 별도의 시스템을 통해서 사전 학습될 수 있다.

도 9는 본 개시의 적어도 일부 구현예들에 따라서 구성된, 리플레이 공격 검출을 위한 학습을 제공하기 위한 예시적인 시스템(900)의 예시적 도면이다. 도 9에 도시된 바와 같이, 시스템(900)은 하나 이상의 중앙 프로세싱 유닛들(CPU)(901), 그래픽 프로세싱 유닛(GPU)(902), 및 시스템 메모리(903)를 포함할 수 있다. 또한 도시된 바와 같이, CPU(901)는 특징 추출 모듈(904), MAP 적응 모듈(905), 및 슈퍼 벡터 추출 모듈(906)을 포함할 수 있다. 시스템(900)의 실례에서, 시스템 메모리(903)은 자동 화자 검증 데이터, 예를 들어서, UBM(유니버설 백그라운드 모델)(907), 원 혼합 모델(306), 리플레이 혼합 모델(311), 및/또는 서포트 벡터 머신(514), 등을 저장할 수 있다. 예를 들어서, 유니버설 백그라운드 모델(907)은 유니버설 백그라운드 모델(305) 및/또는 유니버설 백그라운드 모델(507)을 포함할 수 있다.

CPU(901) 및 그래픽 프로세싱 유닛(902)은 본 명세서에서 기술된 바와 같은 동작들을 제공할 수 있는 임의의 개수 및 타입의 프로세싱 유닛들을 포함할 수 있다. 이러한 동작들은 소프트웨어 또는 하드웨어 또는 이들의 조합을 통해서 구현될 수 있다. 시스템 메모리(903)는 임의의 타입의 메모리 예를 들어서, 휘발성 메모리(예를 들어서, 정적 랜덤 액세스 메모리(SRAM), 동적 랜덤 액세스 메모리(DRAM), 등) 또는 비-휘발성 메모리(예를 들어서, 플래시 메모리, 등), 등일 수 있다. 본 명세서에서 기술된 시스템들의 다양한 구성요소들은 소프트웨어, 펌웨어, 및/또는 하드웨어 및/또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어서, 시스템들(300 또는 500)의 다양한 구성요소들은 시스템(900)에 의해서 적어도 부분적으로 구현될 수 있다. 일부 실례들에서, 시스템(900)은 본 명세서에서 기술된 바와 같은 통계적 분류 또는 마진 분류를 위한 오프라인 사전-학습을 제공할 수 있다.

통계적 분류를 위한 사전-학습의 실례에서, 특징 추출 모듈(904)은 특징 추출 모듈(302) 및 특징 추출 모듈(308)(도 3 참조)을 함께 또는 개별적으로 구현할 수 있다. 예를 들어서, CPU(901)를 통해서 구현된 바와 같은 특징 추출 모듈(302) 및 특징 추출 모듈(308)은 복수의 원 녹음사항 특징들을 원 녹음사항들에 기초하여 추출하고 복수의 리플레이 녹음사항 특징들을 리플레이된 녹음사항들에 기초하여 추출할 수 있다. 전술한 바와 같이, 원 녹음사항들 및 리플레이 녹음사항들은 시스템(900)에 의해서 생성되거나 시스템(900)에서 수신될 수 있다. 일부 실례들에서, 원 녹음사항들 및 리플레이 녹음사항들은 또한 시스템 메모리(903) 내에 저장될 수 있다. 또한, MAP 적응 모듈(905)은 MAP-적응 모듈(304) 및 MAP-적응 모듈(310)을 구현할 수 있다(도 3 참조). 예를 들어서, CPU(901)를 통해서 구현된 바와 같은 MAP-적응 모듈(304)은 유니버설 백그라운드 모델의 최대 사후확률 적응을 기초하여, 유니버설 백그라운드 모델(예를 들어서, 유니버설 백그라운드 모델(305))을 원 녹음사항 특징들(예를 들어서, 특징들(303))에 맞게 적응시켜서, 원 혼합 모델(예를 들어서, 원 혼합 모델(306))을 생성할 수 있으며, CPU(901)를 통해서 구현된 바와 같은 MAP-적응 모듈(310)은 유니버설 백그라운드 모델의 최대 사후확률 적응을 기초하여, 유니버설 백그라운드 모델(예를 들어서, 유니버설 백그라운드 모델(305))을 복수의 리플레이 녹음사항 특징들(예를 들어서, 특징들(309))에 맞게 적응시켜서, 리플레이 혼합 모델(예를 들어서, 리플레이 혼합 모델(311))을 생성할 수 있다.

마진 분류를 위한 사전-학습의 실례에서, 특징 추출 모듈(904)은 특징 추출 모듈(502) 및 특징 추출 모듈(509)(도 5 참조)을 함께 또는 개별적으로 구현할 수 있다. 예를 들어서, CPU(901)를 통해서 구현된 바와 같은, 특징 추출 모듈(502) 및 특징 추출 모듈(509)은 리플레이 녹음사항 특징들의 복수의 세트들을 리플레이된 녹음사항들에 기초하여, 그리고 원 녹음사항 특징들의 복수의 세트들을 원 녹음사항들에 기초하여 결정할 수 있다. 또한, MAP 적응 모듈(905)은 MAP-적응 모듈(504) 및 MAP-적응 모듈(511)을 구현할 수 있다(도 5 참조). CPU(901)를 통해서 구현된 바와 같은, MAP-적응 모듈(504)은 유니버설 백그라운드 모델의 최대 사후확률 적응을 기초하여, 유니버설 백그라운드 모델(예를 들어서, 유니버설 백그라운드 모델(305))을 원 녹음사항 계수들(예를 들어서, 특징들(503))의 복수의 세트들 각각에 맞게 적응시켜서 복수의 원 발화 혼합 모델들(예를 들어서, 원 발화 혼합 모델들(505))을 생성할 수 있으며, CPU(901)를 통해서 구현된 바와 같은, MAP-적응 모듈(511)은 유니버설 백그라운드 모델의 최대 사후확률 적응을 기초하여, 유니버설 백그라운드 모델(예를 들어서, 유니버설 백그라운드 모델(305))을 리플레이 녹음사항 계수들(예를 들어서, 특징들(510))의 복수의 세트들 각각에 맞게 적응시켜서 복수의 리플레이 발화 혼합 모델들(예를 들어서, 리플레이 발화 혼합 모델들(512))을 생성할 수 있다. 또한, 슈퍼 벡터 추출 모듈(906)은 슈퍼 벡터 추출 모듈(506) 및 슈퍼 벡터 추출 모듈(513)을 구현할 수 있다. 예를 들어서, CPU(901)를 통해서 구현된 바와 같은 슈퍼 벡터 추출 모듈(506)은 원 녹음사항의 슈퍼 벡터들을 원 발화 혼합 모델들(505)로부터 추출하여서 원 녹음사항들의 슈퍼 벡터들(515)을 생성할 수 있으며, CPU(901)를 통해서 구현된 바와 같은 슈퍼 벡터 추출 모듈(513)은 리플레이 녹음사항의 슈퍼 벡터들을 리플레이 발화 혼합 모델들(512)로부터 추출하여서 리플레이 녹음사항들의 슈퍼 벡터들(516)을 생성할 수 있다. 마지막으로, 슈퍼 벡터 머신(514)은 본 명세서에서 기술된 바와 같은 원 및 리플레이 녹음사항들의 슈퍼 벡터들에 기초하여 CPU(901)를 통해서 학습될 수 있다.

본 명세서에서 기술된 예시적인 프로세스들의 구현이 예시된 순서로 모든 동작들을 착수하는 것을 포함할 수 있지만, 본 개시는 이러한 바로 한정되지 않으며, 다양한 실례들에서, 본 명세서에서 기술된 예시적인 프로세스들의 구현은 도시된 동작들의 서브세트만을 포함하거나, 예시된 동작들과는 상이한 순서로 수행된 동작들 또는 추가 동작들을 포함할 수 있다.

또한, 본 명세서에서 기술된 동작들 중 임의의 하나 이상의 것은 하나 이상의 컴퓨터 프로그램 제품들에 의해서 제공된 인스트럭션들에 응답하여서 착수될 수 있다. 이러한 프로그램 제품들은 예를 들어서, 프로세서에 의해서 실행되어서, 본 명세서에서 기술된 기능을 제공할 수 있는 인스트럭션들을 제공하는 신호 보유 매체를 포함할 수 있다. 컴퓨터 프로그램 제품들이 하나 이상의 머신-판독가능한 매체의 임의의 형태로 제공될 수 있다. 이로써, 예를 들어서, 하나 이상의 그래픽 프로세싱 유닛(들) 또는 프로세서 코어(들)를 포함하는 프로세서는 하나 이상의 머신-판독가능한 매체에 의해서 반송되는 프로그램 코드 및/또는 인스트럭션들 또는 인스트럭션 세트들에 응답하여서 본 명세서에서 기술된 예시적인 프로세스들의 하나 이상의 블록들을 착수할 수 있다. 일반적으로, 머신-판독가능한 매체는 본 명세서에서 기술된 디바이스들 및/또는 시스템들로 하여금, 본 명세서에서 기술된 바와 같은 시스템들(200, 300, 400, 500, 600, 800, 또는 900)의 적어도 일부들 또는 임의의 다른 모듈 또는 구성요소를 구현하도록 하게 하는 프로그램 코드 및/또는 인스트럭션들 또는 인스트럭션 세트들의 형태로 된 소프트웨어를 반송할 수 있다.

임의의 구현예에서 사용된 바와 같이, 본 명세서에서 기술된, 용어 "모듈"은 본 명세서에서 기술된 기능을 제공하도록 구성된 소프트웨어 로직, 펌웨어 로직, 하드웨어 로직, 및/또는 회로들의 임의의 조합을 말한다. 소프트웨어는 소프트웨어 패키지, 코드 및/또는 인스트럭션 세트 또는 인스트럭션들로서 실시될 수 있으며, 본 명세서에서 기술된, 임의의 구현예에서 사용된 바와 같은, "하드웨어"는 하드와이어된 회로들, 프로그램가능한 회로들, 상태 머신 회로들, 고정형 기능 회로들, 실행 유닛 회로들, 및/또는 프로그램가능한 회로들에 의해서 실행가능한 인스트럭션들을 저장하는 펌웨어를, 예를 들어서, 단독으로 또는 임의의 조합으로, 포함할 수 있다. 모듈들은 집합적으로 또는 개별적으로, 예를 들어서, 집적 회로(IC), 시스템-온-칩(SoC), 등과 같은 대형 시스템의 일부를 형성하는 회로들로서 실시될 수 있다.

전술한 바와 같이, 자동 화자 검증 시스템을 통해서 구현된 바와 같은, 본 명세서에서 기술된 기법들은 강한 리플레이 공격 식별을 제공할 수 있다. 예를 들어서, 모뎀 컴퓨팅 시스템들을 통해서 구현될 때에, 이러한 기법들은은 1.5% 미만의, 일부 구현예들에서, 0.2% 미만의 에러 레이트를 제공할 수 있다.

예시적인 구현예에서, 12 명의 화자들에 의한 4,620 개의 발화들의 데이터세트가, 다수의 디바이스들(예를 들어서, 자동 화자 검증 시스템을 구현하는 울트라북, 발화를 (은밀하게) 캡처/녹음 및 리플레이하는 제 1 스마트폰, 및 발화를 (은밀하게) 캡처/녹음 및 리플레이하는 제 2 스마트폰)에 의한 동시적 녹음을 통해서 생성되었다. 예시적인 구현예에서, 녹음 길이는 0.5 내지 2 초이었다. 전술한 바와 같이, 이 구현예에서 울트라북은 사용자가 인증을 시도하는 디바이스(예를 들어서, 자동 화자 검증 시스템을 구현하는 울트라북)였다. 제 1 및 제 2 스마트폰들은 사용자의 음성(예를 들어서, 발화)을 캡처하는데 사용되었다(예를 들어서, 이 캡처된 음성은 리플레이 공격 시에 은밀하게 사용될 것임). 제 1 및 제 2 스마트폰들에 의한 녹음사항들이 이어서, 울트라북에 대해서 리플레이되었다. 이로써, 원 녹음사항들(예를 들어서, 울트라북에 의해서 직접적으로 녹음됨) 및 리플레이 녹음사항들(예를 들어서, 울트라북에 의해서 녹음되지만 제 1 또는 제 2 스마트폰에 의해서 재생됨)의 데이터세트가 생성되었다. 이 구현예에서, 학습은 LOO(Leave-One-Speaker-Out) 방식(예를 들어서, 일 에러 배제 방식: leave one error out manner)으로 수행되었다. 이로써, 화자 독립적 평가가 보장된다. 2 개의 시스템들(예를 들어서, 도 4를 참조하여서 기술된 통계적 분류를 사용하는 제 1 시스템 및 도 6을 참조하여서 기술된 마진 분류를 사용하는 제 2 시스템)의 결과들이 표 1에서 도시된다. 도시된 바와 같이, 표 1은 FP(false positive) 레이트(예를 들어서, 얼마나 많은 발화가 리플레이 녹음사항들로서 거짓으로 분류되었는지를 나타냄) 및 TN(true negative) 레이트(예를 들어서, 얼마나 많은 발화가 원 녹음사항들로서 거짓으로 분류되었는지를 나타냄)를 포함한다. 또한, 표 1은 FP 및 TN의 평균치로서 에러 레이트(ER)를 포함한다.

표 1에 도시된 바와 같이, GMM(본 명세서에서의 시스템들(300 및 400)을 참조하여서 기술된 바와 같은, 가우시안 혼합 모델들)를 사용하는 통계적 분류 시스템 및 SVM(본 명세서에서의 시스템들(500 및 600)을 참조하여서 기술된 바와 같은, 서포트 벡터 머신)을 사용하는 마진 분류 시스템은 리플레이 공격들을 검출할 시에 우수한 FP 레이트, TN 레이트 및 전체적인 에러 레이트를 제공할 수 있다. 또한, 표 1은 일부 시스템 구현예들에서 SVM을 사용하는 마진 분류 시스템이 보도 높은 정화도를 제공한다는 것을 보인다.

도 10은 본 개시의 적어도 일부 구현예들에 따라서 구성된, 예시적인 시스템(1000)의 예시적 도면이다. 다양한 구현예들에서, 시스템(1000)은 미디어 시스템일 수 있지만, 시스템(1000)은 이러한 맥락으로 한정되지 않는다. 예를 들어서, 시스템(1000)은 개인용 컴퓨터(PC), 랩탑 컴퓨터, 울트라-랩탑 컴퓨터, 태블릿, 터치 패드, 휴대용 컴퓨터, 핸드헬드 컴퓨터, 팜탑 컴퓨터, 개인용 디지털 보조장치(PDA), 셀룰러 전화, 셀룰러 전화/PDA 조합, 텔레비전, 스마트 디바이스(예를 들어, 스마트 폰, 스마트 태블릿 또는 스마트 텔레비전), 이동 인터넷 디바이스(MID), 메시징 디바이스, 데이터 통신 디바이스, 카메라들(예를 들어서 포인트앤드-슈트 카메라들, 슈퍼-줌 카메라들, 디지털 단일-렌즈 리플렉스(DSLR) 카메라들), 등 내로 통합될 수 있다.

다양한 구현예들에서, 시스템(1000)은 디스플레이(1002)에 연결된 플랫폼(1002)을 포함한다. 플랫폼(1002)은 콘텐츠를 콘텐츠 디바이스, 예를 들어서, 콘텐츠 서비스 디바이스(들)(1030) 또는 콘텐츠 전달 디바이스(들)(1040) 또는 다른 유사한 콘텐츠 소스들로부터 수신할 수 있다. 도시된 바와 같이, 일부 실례들에서, 시스템(1000)은 플랫폼(1002)을 통해서 구현된 마이크로폰(201)을 포함할 수 있다. 플랫폼(1002)은 발화, 예를 들어서, 발화(103)를 본 명세서에서 기술된 바와 같은 마이크로폰(201)을 통해서 수신할 수 있다. 하나 이상의 네비게이션 특징부들을 포함하는 네비게이션 제어기(1050)는 예를 들어서, 플랫폼(1002) 및/또는 디스플레이(1020)와 상호작용하는데 사용될 수 있다. 이러한 구성요소들 각각은 이하에서 보다 상세하게 기술된다.

다양한 구현예들에서, 시스템(1000)은 실시간으로, 자동 화자 검증 동작들, 예를 들어서, 기술된 바와 같은 리플레이 공격 검출을 제공할 수 있다. 예를 들어서, 이러한 실시간 프리젠테이션은 기술된 바와 같은 디바이스 또는 환경을 위한 보안 차단을 가능하게 수 있다. 다른 구현예들에서, 시스템(1000)은 기술된 바와 같은 혼합 모델들 또는 서포트 벡터 머신들의 학습을 가능하게 할 수 있다.이러한 학습은 본 명세서에서 기술된 바와 같은 실제 분류 이전에 오프라인으로 수행될 수 있다.

다양한 구현예들에서, 플랫폼(1002)은 칩셋(1005), 프로세서(1010), 메모리(1012), 저장부(1014), 그래픽 서브시스템(1015), 애플리케이션들(1016) 및/또는 무선부(1018)(예를 들어서, 네트워크 제어기)의 임의의 조합을 포함할 수 있다. 칩셋(1005)은 프로세서(1010), 메모리(1012), 저장부(1014), 그래픽 서브시스템(1015), 애플리케이션들(1016) 및/또는 무선부(1018) 간의 상호통신을 제공할 수 있다. 예를 들어서, 칩셋(1005)은 저장부(1014)와의 상호통신을 제공할 수 있는 저장부 어댑터(미도시)를 포함할 수 있다.

프로세서(1010)는 CISC(Complex Instruction Set Computer) 또는 RISC(Reduced Instruction Set Computer) 프로세서들, x86 인스트럭션 세트 호환가능한 프로세서들, 다중-코어, 또는 임의의 다른 마이크로프로세서 또는 중앙 프로세싱 유닛(CPU)으로서 구현될 수 있다. 다양한 구현예들에서, 프로세서(1010)는 듀얼-코어 프로세서(들), 듀얼-코어 이동 프로세서(들), 등을 포함할 수 있다.

메모리(1012)는 예를 들어서, 다음으로 한정되지 않지만, 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 또는 정적 RAM(SRAM)를 포함하는 휘발성 메모리 디바이스로서 구현될 수 있다.

저장부(1014)는 비휘발성 저장 디바이스, 예를 들어서, 다음으로 한정되지 않지만, 자기 디스크 드라이브, 광학 디스크 드라이브, 테이프 드라이브, 내부 저장 디바이스, 부착형 저장 디바이스, 플래시 메모리, 배터리 지원 SDRAM(동기식 DRAM), 및/또는 네트워크 액세스가능한 저장 디바이스로서 구현될 수 있다. 다양한 구현예들에서, 저장부(1014)는 예를 들어서, 다수의 하드 드라이브가 포함되는 경우에 중요한 디지털 미디어에 대한 저장 성능 개선 보호성을 증가시키는 기술을 포함할 수 있다.

그래픽 서브시스템(1015)은 디스플레이할 정지 영상 또는 비디오와 같은 이미지들의 프로세싱을 수행할 수 있다. 그래픽 서브시스템(1015)은 예를 들어서, 그래픽 프로세싱 유닛(GPU) 또는 시각적 프로세싱 유닛(VPU)일 수 있다. 아날로그 또는 디지털 인터페이스가 사용되어서 그래픽 서브시스템(1015) 및 디스플레이(1020)와 통신하게 연결될 수 있다. 예를 들어서, 인터페이스는 HDMI(High-Definition Multimedia Interface), 디스플레이포트, 무선 HDMI, 및/또는 무선 HD 순응 기법들 중 임의의 것일 수 있다. 그래픽 서브시스템(1015)은 프로세서(1010) 또는 칩셋(1005) 내로 통합될 수 있다. 일부 구현예들에서, 그래픽 서브시스템(1015)은 칩셋(1005)에 통신가능하게 연결된 독립형 카드일 수 있다.

본 명세서에서 기술된 그래픽 및/또는 비디오 프로세싱 기술들은 다양한 하드웨어 아키텍처들로 구현될 수 있다. 예를 들어서, 그래픽 및/또는 비디오 기능들은 칩셋 내에 통합될 수 있다. 이와 달리, 개별 그래픽 및/또는 비디오 프로세서가 사용될 수 있다. 또 다른 실시예로서, 그래픽 및/또는 비디오 기능들이 다중-코어 프로세서를 포함하는, 범용 프로세서에 의해서 구현될 수 있다. 다른 실시예에서, 이 기능들은 소비자 전자 디바이스에서 구현될 수 있다.

무선부(1018)는 다양한 적합한 무선 통신들 기술들을 사용하여서 신호들을 송수신할 수 있는 하나 이상의 무선부들을 포함할 수 있다. 이러한 기술들은 하나 이상의 무선 네트워크들에 걸친 통신들을 수반할 수 있다. 예시적인 무선 네트워크들은 (다음으로 한정되지 않지만) 무선 로컬 구역 네트워크들(WLAN들), 무선 개인용 구역 네트워크들(WPAN들), 무선 메트로폴리턴 구역 네트워크(WMAN들), 셀룰러 네트워크들, 및 인공위성 네트워크들을 포함한다. 이러한 네트워크들을 통한 통신 시에, 무선부(1018)는 임의의 버전으로 된 하나 이상의 적용가능한 표준들에 따라서 동작할 수 있다.

다양한 구현예들에서, 디스플레이(1020)는 임의의 텔레비전 타입 모니터 또는 디스플레이를 포함할 수 있다. 디스플레이(1020)는 예를 들어서, 컴퓨터 디스플레이 스크린, 터치 스크린 디스플레이, 비디오 모니터, 텔레비전-유사 디바이스, 및/또는 텔레비전을 포함할 수 있다. 디스플레이(1020)는 디지털 및/또는 아날로그일 수 있다. 다양한 구현예들에서, 디스플레이(1020)는 홀로그래픽 디스플레이일 수 있다. 또한, 디스플레이(1020)는 시각적 프로젝션을 수신할 수 있는 투명 표면일 수 있다. 이러한 프로젝션들은 정보, 이미지들, 및/또는 객체들의 다양한 형태들을 나를 수 있다. 예를 들어서, 이러한 프로젝션들은 이동 증강 현실(MAR) 애플리케이션을 위한 시각적 오버레이일 수 있다. 하나 이상의 소프트웨어 애플리케이션들(1016)의 제어 하에서, 플랫폼(1002)은 사용자 인터페이스(1022)를 디스플레이(1020) 상에 표시할 수 있다.

다양한 구현예들에서, 콘텐츠 서비스 디바이스(들)(1030)는 임의의 국가적, 국제적 및/또는 독립적 서비스에 의해서 호스트될 수 있으며, 이로써 예를 들어서, 인터넷을 통해서 플랫폼(1002)에 액세스될 수 있다. 콘텐츠 서비스 디바이스(들)(1030)는 플랫폼(1002) 및/또는 디스플레이(1020)에 연결될 수 있다. 플랫폼(1002) 및/또는 콘텐츠 서비스 디바이스(들)(1030)는 네트워크(1060)에 연결되어서 매체 정보를 네트워크(1060)와 주고받을 수 있다(예를 들어, 송신 및/또는 수신할 수 있다). 콘텐츠 전달 디바이스(들)(1040)는 또한 플랫폼(1002) 및/또는 디스플레이(1020)에 연결될 수 있다.

다양한 구현예들에서, 콘텐츠 서비스 디바이스(들)(1030)는 케이블 텔레비전 박스, 개인용 컴퓨터, 네트워크, 전화, 인터넷 가능한 디바이스들 또는 디지털 정보 및/또는 콘텐츠를 전달할 수 있는 어플라이언스 가능한, 및 네트워크(1060)를 통해서 또는 직접적으로 콘텐츠 제공자들 및 플랫폼(1002) 및/또는 디스플레이(1020) 간에서 콘텐츠를 단일방향으로 또는 양방향으로 송수신할 수 있는 임의의 다른 유사한 디바이스를 포함할 수 있다. 콘텐츠가 네트워크(1060)를 통해서 시스템(1000) 내의 구성요소들의 임의의 하나 및 콘텐츠 제공자로부터 그리고 이로 단일방향으로 및/또는 양방향으로 송수신될 수 있다는 것이 이해될 것이다. 콘텐츠의 실례들은 예를 들어서, 비디오, 음악, 의료 및 게임 정보, 등을 포함하는 임의의 매체 정보를 포함할 수 있다.

콘텐츠 서비스 디바이스(들)(1030)는 콘텐츠, 예를 들어서, 케이블 텔레비전 프로그램, 예를 들어서, 매체 정보, 디지털 정보, 및/또는 다른 콘텐츠를 수신한다. 콘텐츠 제공자들의 실례는 임의의 케이블 또는 인공위성 텔레비전 또는 무선 또는 인터넷 콘텐츠 제공자들을 포함할 수 있다. 제공된 실례들은 적용가능한 실시예들을 한정하는 것은 아니다.

다양한 구현예들에서, 플랫폼(1002)은 하나 이상의 네비게이션 특징부들을 갖는 네비게이션 제어기(1050)로부터 제어 신호들을 수신할 수 있다. 제어기(1050)의 네비게이션 특징부들은 예를 들어서, 사용자 인터페이스(1022)와 상호작용하는데 사용될 수 있다. 다양한 구현예들에서, 네비게이션 제어기(1050)는 사용자로 하여금 공간적(예를 들어, 연속적이면서 다차원적인) 데이터를 컴퓨터로 입력하게 하는 컴퓨터 하드웨어 구성요소(구체적으로, 인간 인터페이스 디바이스)일 수 있는 포인팅 디바이스일 수 있다. 수많은 시스템들, 예를 들어서, 그래픽 사용자 인터페이스들(GUI), 및 텔레비전들 및 모니터들이 사용자로 하여금 물리적 제스처를 사용하여서 데이터를 제어하고 이를 컴퓨터 또는 텔레비전으로 제공하게 할 수 있다.

제어기(1050)의 네비게이션 특징부들의 이동은 디스플레이 상에서 표시되는 포인터, 커서, 포커스 링, 또는 다른 시각적 표시자들에 의해서 디스플레이(예를 들어, 디스플레이(1020) 상에서 똑같이 반영될 수 있다. 예를 들어서, 소프트웨어 애플리케이션들(1016)의 제어 하에서, 네비게이션 제어기(1050) 상에 위치한 네비게이션 특징부들은 예를 들어서, 사용자 인터페이스(1022) 상에서 표시된 가상 네비게이션 특징부들로 맵핑될 수 있다. 다양한 구현예들에서, 제어기(1050)는 개별 구성요소가 아니라 플랫폼(1002) 및/또는 디스플레이(1020) 내로 통합될 수 있다. 그러나, 본 개시는 본 명세서에서 기술되거나 도시된 요소들 또는 맥락으로 한정되지 않는다.

다양한 구현예들에서, 드라이버들(미도시)은 예를 들어서, 인에이블될 시에, 초기 부팅 후에, 사용자들로 하여금 버튼의 터치로 텔레비전과 같은 플랫폼(1002)을 즉시 턴 온 및 오프시키게 하는 기술을 포함할 수 있다. 플랫폼이 턴 오프되면, 프로그램 로직은 플랫폼(1002)으로 하여금 콘텐츠를 매체 어댑터들 또는 다른 콘텐츠 서비스 디바이스(들)(1030) 또는 콘텐츠 전달 디바이스(들)(1040)에 스트리밍하게 한다. 또한, 칩셋(1005)은 예를 들어서, 5.1 써라운드 사운드 오디오 및/또는 HD(high definition) 7.1 써라운드 사운드 오디오에 대한 하드웨어 및/또는 소프트웨어 지원사항을 포함할 수 있다. 드라이버들은 통합된 그래픽 플랫폼들을 위한 그래픽 드라이버를 포함할 수 있다. 다양한 구현예들에서, 그래픽 드라이버는 PCI(peripheral component interconnect) Express 그래픽 카드를 포함할 수 있다.

다양한 다양한 구현예들에서, 시스템(1000)에 도시된 구성요소들 중 임의의 하나 이상은 통합될 수 있다. 예를 들어서, 플랫폼(1002) 및 콘텐츠 서비스 디바이스(들)(1030)이 통합될 수 있거나, 또는 플랫폼(1002) 및 콘텐츠 전달 디바이스(들)(1040)이 통합될 수 있거나, 또는 예를 들어서, 플랫폼(1002), 콘텐츠 서비스 디바이스(들)(1030), 및 콘텐츠 전달 디바이스(들)(1040)이 통합될 수 있다. 다양한 다양한 구현예들에서, 플랫폼(1002) 및 디스플레이(1020)는 통합형 유닛일 수 있다. 예를 들어서, 디스플레이(1020) 및 콘텐츠 서비스 디바이스(들)(1030)이 통합될 수 있거나, 또는 디스플레이(1020) 및 콘텐츠 전달 디바이스(들)(1040)이 통합될 수 있다. 이러한 실례들은 본 개시를 한정하고자 하는 것은 아니다.

다양한 다양한 구현예들에서, 시스템(1000)은 무선 시스템, 유선 시스템, 또는 이 둘의 조합으로서 구현될 수 있다. 무선 시스템으로서 구현되는 경우에, 시스템(1000)은 무선 공유 매체, 예를 들어서, 하나 이상의 안테나들, 송신기들, 수신기들, 송수신기들, 증폭기들, 필터들, 제어 로직, 등을 통해서 통신하기 위해서 적합한 구성요소들 및 인터페이스들을 포함할 수 있다. 무선 공유 매체의 실례는 무선 대역의 일부들, 예를 들어서, RF 대역 등을 포함할 수 있다. 유선 시스템으로서 구현되는 경우에, 시스템(1000)은 유선 통신 매체, 예를 들어서, 입출력(I/O)어댑터들, I/O 어댑터를 대응하는 유선 통신 매체와 연결시키는 물리적 커넥터들, 네트워크 인터페이스 카드(NIC), 디스크 제어기, 비디오 제어기, 오디오 제어기, 등을 통해서 통신하기 위해서 적합한 구성요소들 및 인터페이스들을 포함할 수 있다. 유선 통신 매체의 실례는 배선, 케이블, 금속 리드들, 인쇄 회로 기판(PCB), 백플레인, 스위치 패브릭, 반도체 재료, 트위스트-쌍 와이어, 동축 케이블, 광섬유, 등을 포함할 수 있다.

플랫폼(1002)은 정보를 송수신하기 위한 하나 이상의 논리적 또는 물리적 채널들을 확립할 수 있다. 정보는 매체 정보 및 제어 정보를 포함할 수 있다. 매체 정보는 사용자에게로 향하는 콘텐츠를 나타내는 임의의 데이터를 말할 수 있다. 콘텐츠의 실례들은 예를 들어서, 음성 대화로부터의 데이터, 비디오 컨퍼런스, 스트리밍 비디오, 전자 메일("email") 메시지, 음성 메일 메시지, 문자숫자 부호들, 그래픽, 이미지, 비디오, 텍스트, 등을 포함할 수 있다. 음성 대화로부터의 데이터는 예를 들어서, 스피치 정보, 사일런스 기간들, 백그라운드 노이즈, 컴포트 노이즈, 톤 등일 수 있다. 제어 정보는 자동화된 시스템을 향하는 명령들, 인스트럭션들 또는 제어어들을 나타내는 임의의 데이터를 말할 수 있다. 예를 들어서, 제어 정보는 매체 정보를 시스템을 통해서 라우팅되거나, 또는 노드에게 지시하여서 사전결정된 방식으로 매체 정보를 프로세싱하도록 하는데 사용될 수 있다. 그러나, 실시예들은 도 10에 도시되거나 기술된 맥락 또는 요소로 한정되지 않는다.

상술한 바와 같이, 시스템(1000)은 상이한 물리적 스타일들 또는 폼 팩터들로 구현될 수 있다. 도 11은 시스템(1000)이 실시될 수 있는 소형 폼 팩터 디바이스(1100)의 실시예들을 예시한다. 다양한 구현예들에서, 예를 들어서, 디바이스(1100)는 무선 기능들을 갖는 이동 컴퓨팅 디바이스로서 구현될 수 있다. 이동 컴퓨팅 디바이스는 예를 들어서, 하나 이상의 배터리들과 같은, 프로세싱 시스템 및 이동 전력 소스 또는 공급부를 갖는 임의의 디바이스를 말할 수 있다. 일부 실례들에서, 디바이스(1100)는 본 명세서에서 기술된 바와 같은, 자동 화자 검증을 위한 실시간 리플레이 공격 검출을 위해서 마이크로폰(예를 들어서, 마이크로폰(201))을 포함하고/하거나 발화(예를 들어서, 발화(103))를 수신할 수 있다.

상술한 바와 같이, 이동 컴퓨팅 디바이스의 실례들은 개인용 컴퓨터(PC), 랩탑 컴퓨터, 울트라-랩탑 컴퓨터, 태블릿, 터치 패드, 휴대용 컴퓨터, 핸드헬드 컴퓨터, 팜탑 컴퓨터, 개인용 디지털 보조장치(PDA), 셀룰러 전화, 조합된 셀룰러 전화/PDA, 텔레비전, 스마트 디바이스(예를 들어, 스마트 폰, 스마트 태블릿 또는 스마트 텔레비전), 이동 인터넷 디바이스(MID), 메시징 디바이스, 데이터 통신 디바이스, 카메라들(예를 들어서, 포인트-앤드-슈트 카메라들, 슈퍼-줌 카메라들, 디지털 단일-렌즈 리플렉스(DSLR) 카메라들), 등을 포함할 수 있다.

이동 컴퓨팅 디바이스의 실례들은 또한 개인이 착용하도록 구성된 컴퓨터들, 예를 들어서, 손목 컴퓨터, 손가락 컴퓨터, 링 컴퓨터, 안경 컴퓨터, 벨트-클립 컴퓨터, 암-밴드 컴퓨터, 신발 컴퓨터들, 의류 컴퓨터들, 및 다른 웨어러블 컴퓨터들을 포함할 수 있다. 다양한 구현예들에서, 예를 들어서, 이동 컴퓨팅 디바이스는 컴퓨터 애플리케이션들, 및 음성 통신들 및/또는 데이터 통신들을 실행할 수 있는 스마트 폰으로서 구현될 수 있다. 일부 실시예들이 예시적으로 스마트 폰으로서 구현된 이동 컴퓨팅 디바이스로 기술될 수 있지만, 다른 실시예들이 역시 다른 무선 이동 컴퓨팅 디바이스들을 사용하여서 구현될 수 있다는 것이 이해될 것이다. 실시예들은 이러한 맥락으로 한정되지 않는다.

도 11에 도시된 바와 같이, 디바이스(1100)는 하우징(1102), 디스플레이(1104), 입출력(I/O) 디바이스(1106), 및 안테나(1108)를 포함할 수 있다. 디바이스(1100)는 또한 네비게이션 특징부들(1112)을 포함할 수 있다. 디스플레이(1104)는 이동 컴퓨팅 디바이스에 적합한 정보를 표시하기 위한 임의의 적합한 디스플레이 유닛을 포함할 수 있다. I/O 디바이스(1106)는 이동 컴퓨팅 디바이스 내로 정보를 입력하기 위한 임의의 적합한 I/O 디바이스를 포함할 수 있다. I/O 디바이스(1106)의 실례들은 문자숫자 키보드, 수치 키패드, 터치 패드, 입력 키들, 버튼, 스위치, 로커 스위치, 마이크로폰, 스피커, 음성 인식 장치, 및 소프트웨어, 등을 포함할 수 있다. 정보는 또한 마이크로폰(미도시)에 의해서 디바이스(1100) 내로 입력될 수 있다. 이러한 정보는 음성 인식 디바이스에 의해서 디지털화될 수 있다. 실시예들은 이러한 맥락으로 한정되지 않는다.

다양한 실시예들은 하드웨어 요소들, 소프트웨어 요소들, 또는 이 둘의 조합을 사용하여서 구현될 수 있다. 하드웨어 요소들의 실례들은 프로세서들, 마이크로프로세서들, 회로들, 회로 요소들(예를 들어서, 트랜지스터들, 저항기들, 커패시터들, 인덕터들, 등), 집적 회로들, 애플리케이션 특정 집적 회로들(ASIC), 프로그램가능한 로직 디바이스들(PLD), 디지털 신호 프로세서들(DSP), 필드 프로그램가능한 게이트 어레이(FPGA), 로직 게이트들, 레지스터들, 반도체 디바이스, 칩들, 마이크로칩들, 칩 세트들, 등을 포함할 수 있다. 소프트웨어의 실례들은 소프트웨어 구성요소들, 프로그램들, 용도들, 컴퓨터 프로그램들, 애플리케이션 프로그램들, 시스템 프로그램들, 머신 프로그램들, 운영 체제 소프트웨어, 미들웨어, 펌웨어, 소프트웨어 모듈들, 루틴들, 서브루틴들, 함수들, 방법들, 프로시저들, 소프트웨어 인터페이스들, 애플리케이션 프로그램 인터페이스들(API), 인스트럭션 세트들, 컴퓨팅 코드, 컴퓨터 코드, 코드 세그먼트들, 컴퓨터 코드 세그먼트들, 워드들, 값들, 심볼들, 또는 이들의 임의의 조합을 포함할 수 있다. 실시예가 하드웨어 요소들 및/또는 소프트웨어 요소들을 사용하여서 구현될지를 결정하는 것은 임의의 개수의 인자들에 따라서, 예를 들어서, 목표된 컴퓨팅 레이트, 전력 레벨들, 열 허용치들, 프로세싱 사이클 버짓, 입력 데이터 레이트들, 출력 데이터 레이트들, 메모리 자원들, 데이터 버스 속도들 및 다른 설계 또는 성능 제약사항들에 따라서 변할 수 있다.

적어도 하나의 실시예의 하나 이상의 양태들은 머신에 의해서 판독되어서 머신으로 하여금 본 명세서에서 기술된 기법들을 수행하는 로직을 제조하게 하는, 프로세서 내의 다양한 로직을 나타내는 비일시적 머신-판독가능한 저장 매체 상에 저장된 표현적 인스트럭션들에 의해서 구현될 수 있다. "IP 코어들"로서 알려진 이러한 표현사항들은 유형의, 비일시적, 머신 판독가능한 저장 매체 상에 저장되어서 다양한 소비자 또는 제조 설비들로 공급되어서 실제로 로직 또는 프로세서를 만드는 제조 머신들 내로 로딩될 수 있다.

본 명세서에서 제시된 특정 특징들이 다양한 구현예들을 참조하여서 기술되었지만, 이 설명은 한정적으로 해석되지 말아야 한다. 따라서, 본 명세서에서 기술된 구현예들의 다양한 수정사항들 및 본 개시와 관련된 본 기술 분야의 당업자에게 명맥한 다른 구현예들이 본 개시의 사상 및 범위 내에 있다고 간주된다.

하나 이상의 제 1 실시예들에서, 자동 화자 검증을 위한 컴퓨터로 구현된 방법은 발화(utterance)를 수신하는 단계; 상기 수신된 발화의 적어도 일부와 연관된 특징들을 추출하는 단계; 및 상기 추출된 특징들에 기초한, 상기 발화의 통계적 분류 또는 마진 분류 중 적어도 하나에 기초하여 상기 발화를 리플레이 발화 부류(replay utterance class) 또는 원 발화 부류(original utteracne class)로 분류하는 단계를 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 추출된 특징들은 상기 수신된 발화의 파워 스펙트럼을 나타내는 Mel 주파수 캡스트럼 계수들을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 통계적 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 발화가 원 혼합 모델(original mixture model)에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델(replay mixture model)에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 단계; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 단계를 포함하며, 및/또는 상기 리플레이 혼합 모델 및 원 혼합 모델은 가우시안 혼합 모델들을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 통계적 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 단계; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 단계를 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 통계적 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 단계; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 단계를 포함하며, 상기 리플레이 혼합 모델 및 원 혼합 모델은 가우시안 혼합 모델들을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 통계적 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 단계; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 단계를 포함하며, 상기 리플레이 혼합 모델 및 원 혼합 모델은 제 1 디바이스를 통해서 녹음된 원 녹음사항들(original recordings)을 포함하는 녹음사항들 및 상기 제 1 디바이스를 통해서 녹음되고 제 2 디바이스에 의해서 리플레이된 상기 원 녹음사항들의 리플레이된 것들(replays)을 포함하는 리플레이 녹음사항들(replay recordings)의 세트에 기초하여 학습된 사전 학습된 혼합 모델들을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 통계적 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 단계; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 단계를 포함하며, 상기 리플레이 혼합 모델 및 원 혼합 모델은 제 1 디바이스를 통해서 녹음된 원 녹음사항들을 포함하는 녹음사항들 및 상기 제 1 디바이스를 통해서 녹음되고 제 2 디바이스에 의해서 리플레이된 상기 원 녹음사항들의 리플레이된 음들을 포함하는 리플레이 녹음사항들의 세트에 기초하여 학습된 사전 학습된 혼합 모델들을 포함하며, 상기 리플레이 혼합 모델을 학습시키는 동작은, 상기 리플레이 녹음사항들에 기초하여 복수의 리플레이 녹음사항 특징들을 추출하는 동작; 및 유니버설 백그라운드 모델(universal background model)의 최대 사후확률 적응(maximum posteriori adaptation)에 기초하여, 상기 유니버설 백그라운드 모델을 상기 복수의 리플레이 녹음사항 특징들에 맞게 적응시켜서 상기 리플레이 혼합 모델을 생성하는 동작을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 통계적 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 단계; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 단계를 포함하며, 상기 리플레이 혼합 모델 및 원 혼합 모델은 제 1 디바이스를 통해서 녹음된 원 녹음사항들을 포함하는 녹음사항들 및 상기 제 1 디바이스를 통해서 녹음되고 제 2 디바이스에 의해서 리플레이된 상기 원 녹음사항들의 리플레이된 것들을 포함하는 리플레이 녹음사항들의 세트에 기초하여 학습된 사전 학습된 혼합 모델들을 포함하며, 상기 리플레이 혼합 모델을 학습시키는 동작은, 상기 리플레이 녹음사항들에 기초하여 복수의 리플레이 녹음사항 특징들을 추출하는 동작; 및 유니버설 백그라운드 모델의 최대 사후확률 적응에 기초하여, 상기 유니버설 백그라운드 모델을 상기 복수의 리플레이 녹음사항 특징들에 맞게 적응시켜서 상기 리플레이 혼합 모델을 생성하는 동작을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 통계적 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 단계; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 단계를 포함하며, 상기 발화가 상기 리플레이 혼합 모델에 의해서 생성된 로그-확률은 상기 발화의 시간상의 프레임들에 기초하여 결정된 프레임-방식 로그-확률들의 합을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 마진 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 단계; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 단계; 및 서포트 벡터 머신(support vector machine)을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하는 단계를 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 마진 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 단계; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 단계; 및 서포트 벡터 머신(support vector machine)을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하는 단계를 포함하며, 상기 발화 슈퍼 벡터를 추출하는 단계는 상기 발화 혼합 모델의 평균 벡터들을 연결하는(concatenating) 단계를 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 마진 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 단계; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 단계; 및 서포트 벡터 머신(support vector machine)을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하는 단계를 포함하며, 상기 발화 혼합 모델은 가우시안 혼합 모델을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 마진 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 단계; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 단계; 및 서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하는 단계를 포함하며, 상기 발화 슈퍼 벡터를 추출하는 단계는 상기 발화 혼합 모델의 평균 벡터들을 연결하는 단계를 포함하며, 및/또는 상기 발화 혼합 모델은 가우시안 혼합 모델을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 마진 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 단계; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 단계; 및 서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하는 단계를 포함하며, 상기 서포트 벡터 머신은 제 1 디바이스를 통해서 녹음된 원 녹음사항들(original recordings)을 포함하는 녹음사항들 및 상기 제 1 디바이스를 통해서 녹음되고 제 2 디바이스에 의해서 리플레이된 상기 원 녹음사항들의 리플레이된 것들을 포함하는 리플레이 녹음사항들(replay recordings)의 세트에 기초하여 학습된 사전 학습된 서포트 벡터 머신을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 마진 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 단계; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 단계; 및 서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하는 단계를 포함하며, 상기 서포트 벡터 머신은 제 1 디바이스를 통해서 녹음된 원 녹음사항들(original recordings)을 포함하는 녹음사항들 및 상기 제 1 디바이스를 통해서 녹음되고 제 2 디바이스에 의해서 리플레이된 상기 원 녹음사항들의 리플레이된 것들을 포함하는 리플레이 녹음사항들(replay recordings)의 세트에 기초하여 학습된 사전 학습된 서포트 벡터 머신을 포함하며, 상기 서포트 벡터 머신을 학습시키는 동작은, 상기 리플레이 녹음사항들에 기초하여 리플레이 녹음사항 특징들의 복수의 세트들을 추출하고, 상기 원 녹음사항들에 기초하여 원 녹음사항 특징들의 복수의 세트들을 추출하는 동작; 유니버설 백그라운드 모델의 최대 사후확률 적응에 기초하여, 상기 유니버설 백그라운드 모델을 상기 리플레이 녹음사항 특징들의 복수의 세트들 각각 및 상기 원 녹음사항 특징들의 복수의 세트들 각각에 맞게 적응시켜서, 복수의 원 혼합 모델 및 복수의 리플레이 혼합 모델을 생성하는 동작; 상기 복수의 원 혼합 모델들 각각으로부터 원 녹음사항의 슈퍼 벡터(original recording super vector)를 추출하고, 상기 복수의 리플레이 혼합 모델들 각각으로부터 리플레이 녹음사항의 슈퍼 벡터(replay recording super vector)를 추출하는 동작; 및 상기 복수의 원 녹음사항의 슈퍼 벡터들 및 상기 복수의 리플레이 녹음사항의 슈퍼 벡터들에 기초하여 상기 슈퍼 벡터 머신을 학습시키는 동작을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 발화를 분류하는 단계는 상기 마진 분류에 기초하며, 상기 발화를 분류하는 단계는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 단계; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 단계; 및 서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하는 단계를 포함하며, 상기 서포트 벡터 머신은 제 1 디바이스를 통해서 녹음된 원 녹음사항들을 포함하는 녹음사항들 및 상기 제 1 디바이스를 통해서 녹음되고 제 2 디바이스에 의해서 리플레이된 상기 원 녹음사항들의 리플레이된 것들을 포함하는 리플레이 녹음사항들의 세트에 기초하여 학습된 사전 학습된 서포트 벡터 머신을 포함하며, 상기 서포트 벡터 머신을 학습시키는 동작은, 상기 리플레이 녹음사항들에 기초하여 리플레이 녹음사항 특징들의 복수의 세트들을 추출하고, 상기 원 녹음사항들에 기초하여 원 녹음사항 특징들의 복수의 세트들을 추출하는 동작; 유니버설 백그라운드 모델의 최대 사후확률 적응에 기초하여, 상기 유니버설 백그라운드 모델을 상기 리플레이 녹음사항 특징들의 복수의 세트들 각각 및 상기 원 녹음사항 특징들의 복수의 세트들 각각에 맞게 적응시켜서, 복수의 원 혼합 모델 및 복수의 리플레이 혼합 모델을 생성하는 동작; 상기 복수의 원 혼합 모델들 각각으로부터 원 녹음사항의 슈퍼 벡터를 추출하고, 상기 복수의 리플레이 혼합 모델들 각각으로부터 리플레이 녹음사항의 슈퍼 벡터를 추출하는 동작; 및 상기 복수의 원 녹음사항의 슈퍼 벡터들 및 상기 복수의 리플레이 녹음사항의 슈퍼 벡터들에 기초하여 상기 슈퍼 벡터 머신을 학습시키는 동작을 포함한다.

상기 제 1 실시예들에 추가하여서, 상기 방법은 상기 발화가 상기 리플레이 발화 부류로 분류되면 시스템으로의 액세스를 거부하는 단계를 더 포함한다.

하나 이상의 제 2 실시예들에서, 자동 화자 검증을 제공하기 위한 시스템은 발화를 수신하기 위한 스피커; 자동 화자 검증 데이터를 저장하도록 구성된 메모리; 및 상기 메모리에 연결된 중앙 프로세싱 유닛을 포함하며, 상기 중앙 프로세싱 유닛은, 상기 수신된 발화의 적어도 일부와 연관된 특징들을 추출하도록 구성된 특징 추출 회로; 및 상기 추출된 특징들에 기초한, 상기 발화의 통계적 분류 또는 마진 분류 중 적어도 하나에 기초하여 상기 발화를 리플레이 발화 부류 또는 원 발화 부류로 분류하도록 구성된 분류기 회로를 포함한다.

상기 제 2 실시예들에 추가하여서, 상기 특징들은 상기 수신된 발화의 파워 스펙트럼을 나타내는 Mel 주파수 캡스트럼 계수들을 포함한다.

상기 제 2 실시예들에 추가하여서, 상기 분류기 회로는 상기 통계적 분류에 기초하여 상기 발화를 분류하도록 구성되며, 상기 분류기 회로는, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하도록 구성된 점수 회로; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하도록 구성된 점수 비교 회로를 포함한다.

상기 제 2 실시예들에 추가하여서, 상기 분류기 회로는 상기 통계적 분류에 기초하여 상기 발화를 분류하도록 구성되며, 상기 분류기 회로는, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하도록 구성된 점수 회로; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하도록 구성된 점수 비교 회로를 포함하며, 상기 리플레이 혼합 모델 및 원 혼합 모델은 가우시안 혼합 모델들을 포함한다.

상기 제 2 실시예들에 추가하여서, 상기 분류기 회로는 상기 마진 분류에 기초하여 상기 발화를 분류하도록 구성되며, 상기 분류기 회로는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하도록 구성된 최대-사후확률 적응 회로; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하도록 구성된 슈퍼 벡터 추출 회로; 및 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하도록 구성된 서포트 벡터 머신을 포함한다.

상기 제 2 실시예들에 추가하여서, 상기 분류기 회로는 상기 마진 분류에 기초하여 상기 발화를 분류하도록 구성되며, 상기 분류기 회로는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하도록 구성된 최대-사후확률 적응 회로; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하도록 구성된 슈퍼 벡터 추출 회로; 및 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하도록 구성된 서포트 벡터 머신을 포함하며, 상기 발화 슈퍼 벡터를 추출하도록 구성된 슈퍼 벡터 추출 회로는 상기 발화 혼합 모델의 평균 벡터들을 연결하도록 구성되는 슈퍼 벡터 추출 회로를 포함한다.

상기 제 2 실시예들에 추가하여서, 상기 분류기 회로는 상기 마진 분류에 기초하여 상기 발화를 분류하도록 구성되며, 상기 분류기 회로는, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하도록 구성된 최대-사후확률 적응 회로; 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하도록 구성된 슈퍼 벡터 추출 회로; 및 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하도록 구성된 서포트 벡터 머신을 포함하며, 상기 발화 혼합 모델은 가우시안 혼합 모델을 포함한다.

상기 제 2 실시예들에 추가하여서, 상기 시스템은 상기 발화가 상기 리플레이 발화 부류로 분류되면 시스템으로의 액세스를 거부하도록 구성된 액세스 거부 회로를 더 포함한다.

하나 이상의 제 3 실시예들에서, 자동 화자 검증을 제공하기 위한 시스템은 발화를 수신하기 위한 수단; 상기 수신된 발화의 적어도 일부와 연관된 특징들을 추출하는 수단; 및 상기 추출된 특징들에 기초한, 상기 발화의 통계적 분류 또는 마진 분류 중 적어도 하나에 기초하여 상기 발화를 리플레이 발화 부류 또는 원 발화 부류로 분류하는 수단을 포함한다.

상기 제 3 실시예들에 추가하여서, 상기 발화를 분류하는 수단은 상기 통계적 분류에 기초하여 상기 발화를 분류하며, 상기 시스템은, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 수단; 및 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 수단을 더 포함한다.

상기 제 3 실시예들에 추가하여서, 상기 발화를 분류하는 수단은 상기 마진 분류에 기초하여 상기 발화를 분류하며, 상기 시스템은, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 수단; 및 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 수단; 및 서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류하는 수단을 더 포함한다.

하나 이상의 제 4 실시예들에서, 적어도 하나의 머신 판독가능한 매체는 복수의 인스트럭션들을 포함하며, 상기 복수의 인스트럭션들은 컴퓨팅 디바이스 상에서 실행되는 것에 응답하여서, 상기 컴퓨팅 디바이스로 하여금, 발화를 수신하고, 상기 수신된 발화의 적어도 일부와 연관된 특징들을 추출하고, 상기 추출된 특징들에 기초한, 상기 발화의 통계적 분류 또는 마진 분류 중 적어도 하나에 기초하여 상기 발화를 리플레이 발화 부류 또는 원 발화 부류로 분류함으로써, 자동 화자 검증을 제공하게 한다.

상기 제 4 실시예들에 추가하여서, 상기 특징들은 상기 수신된 발화의 파워 스펙트럼을 나타내는 Mel 주파수 캡스트럼 계수들을 포함한다.

상기 제 4 실시예들에 추가하여서, 상기 발화를 분류하는 것은 상기 통계적 분류에 기초하며, 상기 머신 판독가능한 매체는 상기 컴퓨팅 디바이스로 하여금, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하고, 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정함으로써, 상기 발화를 분류하게 하는 인스트럭션들을 더 포함한다.

상기 제 4 실시예들에 추가하여서, 상기 발화를 분류하는 것은 상기 통계적 분류에 기초하며, 상기 머신 판독가능한 매체는 상기 컴퓨팅 디바이스로 하여금, 상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하고, 상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정함으로써, 상기 발화를 분류하게 하는 인스트럭션들을 더 포함하며, 상기 리플레이 혼합 모델 및 원 혼합 모델은 가우시안 혼합 모델들을 포함한다.

상기 제 4 실시예들에 추가하여서, 상기 발화를 분류하는 것은 상기 마진 분류에 기초하며, 상기 머신 판독가능한 매체는 상기 컴퓨팅 디바이스로 하여금, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하고, 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하며, 서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류함으로써, 상기 발화를 분류하게 하는 인스트럭션들을 더 포함한다.

상기 제 4 실시예들에 추가하여서, 상기 발화를 분류하는 것은 상기 마진 분류에 기초하며, 상기 머신 판독가능한 매체는 상기 컴퓨팅 디바이스로 하여금, 상기 추출된 특징들에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하고, 상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하며, 서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 원 발화 부류로 분류함으로써, 상기 발화를 분류하게 하는 인스트럭션들을 더 포함하며, 상기 발화 슈퍼 벡터를 추출하는 것은 상기 발화 혼합 모델의 평균 벡터들을 연결하는(concatenating) 것을 포함한다.

하나 이상의 제 5 실시예들에서, 적어도 하나의 머신 판독가능한 매체는 복수의 인스트럭션들을 포함하며, 상기 복수의 인스트럭션들은 컴퓨팅 디바이스 상에서 실행되는 것에 응답하여서, 상기 컴퓨팅 디바이스로 하여금, 위의 실시예들 중 하나 이상의 것에 따른 방법을 수행하게 한다.

하나 이상의 제 6 실시예들에서, 장치는 위의 실시예들 중 하나 이상의 것에 따른 방법을 수행하는 수단을 포함할 수 있다.

실시예들은 이렇게 기술된 실시예들로 한정되지 않으며, 첨부된 청구항들의 범위를 벗어나지 않으면서 수정 및 변경으로 실시될 수 있다는 것이 인식될 것이다. 예를 들어서, 위의 실시예들은 특징들의 특정 조합을 포함할 수 있다. 그러나, 위의 실시예들은 이러한 측면으로 한정되지 않으며, 다양한 구현예들에서, 위의 실시예들은 이러한 특징들의 오직 서브세트만을 착수하는 것, 이러한 특징들의 상이한 순서를 착수하는 것, 이러한 특징들의 상이한 조합을 착수하는 것 및/또는 명시적으로 열거된 이러한 특징들과는 다른 추가 특징들을 착수하는 것을 포함할 수 있다. 따라서, 실시예들의 범위는 첨부된 청구항들을 참조하여서, 이러한 청구항들에게 주어질 수 있는 전체 균등 범위와 함께 결정될 수 있다.

Claims

자동 화자 검증을 위한 컴퓨터로 구현된 방법으로서,
발화(utterance)를 수신하는 것과,
상기 수신된 발화의 적어도 일부와 연관된 특징을 추출하는 것과,
상기 추출된 특징에 기초한, 상기 발화의 통계적 분류 또는 마진 분류 중 적어도 하나에 기초하여, 리플레이 발화 부류(replay utterance class) 또는 원 발화 부류(original utterance class)로 상기 발화를 분류하는 것을 포함하는
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 추출된 특징은 상기 수신된 발화의 파워 스펙트럼을 나타내는 Mel 주파수 캡스트럼 계수(Mel frequency cepstrum coefficients) 포함하는
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 발화를 분류하는 것은 상기 통계적 분류에 기초하며,
상기 발화를 분류하는 것은,
상기 발화가 원 혼합 모델(original mixture model)에 의해서 생성된 로그-확률(log-likelihood)에 대한 상기 발화가 리플레이 혼합 모델(replay mixture model)에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 것과,
상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 것을 포함하는
컴퓨터로 구현된 방법.
제 3 항에 있어서,
상기 리플레이 혼합 모델 및 상기 원 혼합 모델은 가우시안 혼합 모델을 포함하는
컴퓨터로 구현된 방법.
제 3 항에 있어서,
상기 리플레이 혼합 모델 및 상기 원 혼합 모델은, 제 1 디바이스를 통해서 녹음된 원 녹음사항(original recordings)을 포함하는 녹음사항 및 상기 제 1 디바이스를 통해서 녹음되고 제 2 디바이스에 의해서 리플레이된 상기 원 녹음사항의 리플레이된 것(replays)을 포함하는 리플레이 녹음사항(replay recordings)의 세트에 기초하여 학습된 사전 학습된 혼합 모델을 포함하는
컴퓨터로 구현된 방법.
제 5 항에 있어서,
상기 리플레이 혼합 모델을 학습시키는 것은,
상기 리플레이 녹음사항에 기초하여 복수의 리플레이 녹음사항 특징을 추출하는 것과,
유니버설 백그라운드 모델(universal background model)의 최대 사후확률 적응(maximum posteriori adaptation)에 기초하여, 상기 유니버설 백그라운드 모델을 상기 복수의 리플레이 녹음사항 특징에 맞게 적응시켜서 상기 리플레이 혼합 모델을 생성하는 것을 포함하는
컴퓨터로 구현된 방법.
제 3 항에 있어서,
상기 발화가 상기 리플레이 혼합 모델에 의해서 생성된 로그-확률은 상기 발화의 시간상의 프레임(temporal frames)에 기초하여 결정된 프레임-방식 로그-확률들의 합을 포함하는
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 발화를 분류하는 것은 상기 마진 분류에 기초하며,
상기 발화를 분류하는 것은,
상기 추출된 특징에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 것과,
상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 것과,
서포트 벡터 머신(support vector machine)을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 상기 원 발화 부류로 분류하는 것을 포함하는
컴퓨터로 구현된 방법.
제 8 항에 있어서,
상기 발화 슈퍼 벡터를 추출하는 것은 상기 발화 혼합 모델의 평균 벡터들을 연결하는(concatenating) 것을 포함하는
컴퓨터로 구현된 방법.
제 8 항에 있어서,
상기 발화 혼합 모델은 가우시안 혼합 모델을 포함하는
컴퓨터로 구현된 방법.
제 8 항에 있어서,
상기 서포트 벡터 머신은 제 1 디바이스를 통해서 녹음된 원 녹음사항(original recordings)을 포함하는 녹음사항 및 상기 제 1 디바이스를 통해서 녹음되고 제 2 디바이스에 의해서 리플레이된 상기 원 녹음사항의 리플레이된 것을 포함하는 리플레이 녹음사항(replay recordings)의 세트에 기초하여 학습된 사전 학습된 서포트 벡터 머신을 포함하는
컴퓨터로 구현된 방법.
제 11 항에 있어서,
상기 서포트 벡터 머신을 학습시키는 것은,
상기 리플레이 녹음사항에 기초하여 리플레이 녹음사항 특징의 복수의 세트를 추출하고, 상기 원 녹음사항에 기초하여 원 녹음사항 특징의 복수의 세트를 추출하는 것과,
유니버설 백그라운드 모델의 최대 사후확률 적응에 기초하여, 상기 유니버설 백그라운드 모델을 상기 리플레이 녹음사항 특징의 복수의 세트 각각 및 상기 원 녹음사항 특징의 복수의 세트 각각에 맞게 적응시켜서, 복수의 원 혼합 모델 및 복수의 리플레이 혼합 모델을 생성하는 것과,
상기 복수의 원 혼합 모델 각각으로부터 원 녹음사항의 슈퍼 벡터(original recording super vector)를 추출하고, 상기 복수의 리플레이 혼합 모델 각각으로부터 리플레이 녹음사항의 슈퍼 벡터(replay recording super vector)를 추출하는 것과,
상기 복수의 원 녹음사항의 슈퍼 벡터 및 상기 복수의 리플레이 녹음사항의 슈퍼 벡터에 기초하여 상기 슈퍼 벡터 머신을 학습시키는 것을 포함하는
컴퓨터로 구현된 방법.
제 1 항에 있어서,
상기 발화가 상기 리플레이 발화 부류로 분류되면 시스템으로의 액세스를 거부하는 것을 더 포함하는
컴퓨터로 구현된 방법.
자동 화자 검증을 제공하기 위한 시스템으로서,
발화를 수신하기 위한 스피커와,
자동 화자 검증 데이터를 저장하도록 구성된 메모리와,
상기 메모리에 연결된 중앙 프로세싱 유닛을 포함하며,
상기 중앙 프로세싱 유닛은,
상기 수신된 발화의 적어도 일부와 연관된 특징을 추출하도록 구성된 특징 추출 회로와,
상기 추출된 특징에 기초한, 상기 발화의 통계적 분류 또는 마진 분류 중 적어도 하나에 기초하여, 리플레이 발화 부류 또는 원 발화 부류로 상기 발화를 분류하도록 구성된 분류기 회로를 포함하는
시스템.
제 14 항에 있어서,
상기 특징은 상기 수신된 발화의 파워 스펙트럼을 나타내는 Mel 주파수 캡스트럼 계수를 포함하는
시스템.
제 14 항에 있어서,
상기 분류기 회로는 상기 통계적 분류에 기초하여 상기 발화를 분류하도록 구성되며, 상기 분류기 회로는,
상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하도록 구성된 점수 회로와,
상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하도록 구성된 점수 비교 회로를 포함하는
시스템.
제 16 항에 있어서,
상기 리플레이 혼합 모델 및 상기 원 혼합 모델은 가우시안 혼합 모델을 포함하는
시스템.
제 14 항에 있어서,
상기 분류기 회로는 상기 마진 분류에 기초하여 상기 발화를 분류하도록 구성되며, 상기 분류기 회로는,
상기 추출된 특징에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하도록 구성된 최대-사후확률 적응 회로와,
상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하도록 구성된 슈퍼 벡터 추출 회로와,
상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 상기 원 발화 부류로 분류하도록 구성된 서포트 벡터 머신을 포함하는
시스템.
자동 화자 검증을 제공하기 위한 시스템으로서,
발화를 수신하기 위한 수단과,
상기 수신된 발화의 적어도 일부와 연관된 특징을 추출하는 수단과,
상기 추출된 특징에 기초한, 상기 발화의 통계적 분류 또는 마진 분류 중 적어도 하나에 기초하여, 리플레이 발화 부류 또는 원 발화 부류로 상기 발화를 분류하는 수단을 포함하는
시스템.
제 19 항에 있어서,
상기 발화를 분류하는 수단은 상기 통계적 분류에 기초하여 상기 발화를 분류하며, 상기 시스템은,
상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하는 수단과,
상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정하는 수단을 더 포함하는
시스템.
제 19 항에 있어서,
상기 발화를 분류하는 수단은 상기 마진 분류에 기초하여 상기 발화를 분류하며, 상기 시스템은,
상기 추출된 특징에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하는 수단과,
상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하는 수단과,
서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 상기 원 발화 부류로 분류하는 수단을 더 포함하는
시스템.
복수의 인스트럭션을 포함하는 적어도 하나의 머신 판독가능한 매체로서,
상기 복수의 인스트럭션은 컴퓨팅 디바이스 상에서 실행되는 것에 응답하여서, 상기 컴퓨팅 디바이스로 하여금,
발화를 수신하고,
상기 수신된 발화의 적어도 일부와 연관된 특징을 추출하고,
상기 추출된 특징에 기초한, 상기 발화의 통계적 분류 또는 마진 분류 중 적어도 하나에 기초하여, 상기 발화를 리플레이 발화 부류 또는 원 발화 부류로 분류함으로써, 자동 화자 검증을 제공하게 하는
머신 판독가능한 매체.
제 22 항에 있어서,
상기 특징은 상기 수신된 발화의 파워 스펙트럼을 나타내는 Mel 주파수 캡스트럼 계수를 포함하는
머신 판독가능한 매체.
제 22 항에 있어서,
상기 발화를 분류하는 것은 상기 통계적 분류에 기초하며,
상기 머신 판독가능한 매체는 상기 컴퓨팅 디바이스로 하여금,
상기 발화가 원 혼합 모델에 의해서 생성된 로그-확률에 대한 상기 발화가 리플레이 혼합 모델에 의해서 생성된 로그-확률의 비로서 상기 발화에 대한 점수를 결정하고,
상기 점수와 사전결정된 임계치 간의 점수 비교에 기초하여, 상기 발화가 상기 리플레이 발화 부류 또는 상기 원 발화 부류 내에 있는지를 결정함으로써,
상기 발화를 분류하게 하는 인스트럭션을 더 포함하는
머신 판독가능한 매체.
제 22 항에 있어서,
상기 발화를 분류하는 것은 상기 마진 분류에 기초하며,
상기 머신 판독가능한 매체는 상기 컴퓨팅 디바이스로 하여금,
상기 추출된 특징에 기초하여 유니버설 백그라운드 모델의 최대-사후확률 적응을 수행하여서 발화 혼합 모델을 생성하고,
상기 발화 혼합 모델에 기초하여 발화 슈퍼 벡터를 추출하며,
서포트 벡터 머신을 통해서, 상기 발화 슈퍼 벡터에 기초하여 상기 발화를 상기 리플레이 발화 부류 또는 상기 원 발화 부류로 분류함으로써,
상기 발화를 분류하게 하는 인스트럭션을 더 포함하는
머신 판독가능한 매체.