KR102436517B1

KR102436517B1 - 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치 및 이를 위한 방법

Info

Publication number: KR102436517B1
Application number: KR1020200151726A
Authority: KR
Inventors: 심혜진; 유하진; 정지원; 김주호
Original assignee: 서울시립대학교 산학협력단
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-08-24
Also published as: KR20220065343A

Abstract

심층 신경망을 기초로 동시에 스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치가 제공된다. 상기 장치는 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려지지 않은 음성이 입력되면, 입력된 음성의 화자를 식별하고, 상기 입력된 음성이 상기 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터를 산출하고, 상기 입력된 음성이 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하는 음성분석부와, 상기 화자인식벡터 및 상기 공격검출벡터를 기초로 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 화자검증부를 포함한다.

Description

심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치 및 이를 위한 방법{Apparatus for simultaneously performing spoofing attack detection and speaker recognition based on deep neural network and method therefor}

본 발명은 화자 인식 기술에 관한 것으로, 보다 상세하게는, 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치 및 이를 위한 방법에 관한 것이다.

최근 고성능 음향기기를 이용해 등록된 화자의 목소리를 녹음하여 두었다가 이를 재생하는 재생 공격 스푸핑이 화자인증 시스템의 신뢰도를 저하시키고 있다. 재생 공격 스푸핑에서 사용하는 녹음된 등록 화자 발성은 실제로 등록 화자와 완전히 동일한 화자 정보를 가지고 있기 때문에 화자인증 시스템만으로는 이를 검출하기 어렵다. 뿐만 아니라, 재생 공격 스푸핑을 검출하는 스푸핑 검출 기술이 최근 발전하고 있기는 하지만 대부분 화자인증 시스템과 별도의 시스템으로 동작한다. 이는 화자인증 외에도 별도의 시스템을 요구하여 오버헤드(overhead)가 커지는 문제를 야기한다.

한국등록특허 제1671305호 2016년 10월 26일 등록 (명칭: 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치)

본 발명의 목적은 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치 및 이를 위한 방법을 제공함에 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치는 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려지지 않은 음성이 입력되면, 입력된 음성의 화자를 식별하고, 상기 입력된 음성이 상기 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터를 산출하고, 상기 입력된 음성이 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하는 음성분석부와, 상기 화자인식벡터 및 상기 공격검출벡터를 기초로 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 화자검증부를 포함한다.

상기 화자검증부는 상기 화자인식벡터 및 상기 공격검출벡터를 곱하여 병합벡터를 산출하는 곱셈기와, 상기 화자인식벡터, 상기 병합벡터 및 상기 공격검출벡터를 입력받는 검증병합층과, 상기 화자인식벡터, 상기 병합벡터 및 상기 공격검출벡터에 대한 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 검증출력층을 을 포함하는 통합검증망을 포함한다.

상기 음성분석부는 상기 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성의 화자가 등록된 복수의 화자 각각일 확률을 나타내는 화자식별벡터를 산출하는 화자식별망과, 등록된 복수의 화자의 화자식별벡터를 저장하며, 상기 산출된 화자식별벡터에 따라 화자를 식별하고, 등록된 복수의 화자의 화자식별벡터 중 식별된 화자의 등록된 화자식별벡터를 검출하는 등록벡터처리부와, 상기 등록벡터처리부로부터 상기 등록된 화자식별벡터를 입력받고, 상기 화자식별망으로부터 상기 산출된 화자식별벡터를 입력받으면, 상기 등록된 화자식별특징벡터 및 상기 산출된 화자식별벡터에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터를 산출하는 화자인식망과, 상기 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 스푸핑 공격에 의한 음성인지 혹은 실제 발화에 의한 음성인지 여부를 나타내는 확률인 공격검출벡터를 산출하는 공격검출망을 포함한다.

상기 장치는 입력되는 음성이 등록된 복수의 화자 각각의 음성일 확률을 나타내는 화자식별벡터를 산출하도록 상기 화자식별망을 개별적으로 학습시키고, 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하도록 상기 공격검출망을 개별적으로 학습시키는 기본 학습을 수행한 후, 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망 전체를 한번에 학습시키는 전체 학습을 수행하는 학습부를 더 포함한다.

상기 학습부는 상기 전체 학습 시, 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려진 학습용 음성을 마련하고, 상기 학습용 음성에 대해 화자인식벡터에 대응하는 기댓값인 화자인식레이블과, 통합화자검증벡터에 대응하는 기댓값인 통합화자검증레이블을 설정하고, 상기 학습용 음성으로부터 상기 화자식별망, 상기 화자인식망, 상기 공격검출망 및 상기 통합검증망을 통해 순차로 화자인식벡터 및 통합화자검증벡터를 산출한 후, 상기 산출된 화자인식벡터와 상기 화자인식레이블과의 차이인 이진교차엔트로피 손실 및 상기 산출된 통합화자검증벡터와 상기 통합화자검증레이블과의 차이를 나타내는 분류오차엔트로피 손실을 포함하는 전체 손실이 최소가 되도록 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망의 가중치를 최적화하는 것을 특징으로 한다.

상기 학습부는 손실함수

를 이용하여 상기 전체 손실이 최소가 되도록 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망의 가중치를 최적화하며, 상기 Loss는 상기 전체의 손실이고, 상기 LossSV는 상기 산출된 화자인식벡터와 상기 화자인식레이블과의 차이인 이진교차엔트로피 손실이고, 상기 a는 상기 이진교차엔트로피 손실의 가중치이고, 상기 LossISV는 상기 산출된 통합화자검증벡터와 상기 통합화자검증레이블과의 차이를 나타내는 분류오차엔트로피 손실인 것을 특징으로 한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치는 화자식별망, 화자인식망, 공격검출망 및 통합검증망을 포함하는 심층신경망과, 상기 화자식별망이 학습용 음성이 등록된 복수의 화자 각각의 음성일 확률을 나타내는 화자식별벡터를 산출하고, 상기 화자인식망이 상기 학습용 음성이 상기 화자식별벡터에 의해 식별된 화자의 음성일 확률을 나타내는 화자인식벡터를 산출하고, 상기 공격검출망이 상기 학습용 음성이 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하고, 상기 통합검증망이 상기 학습용 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 학습용 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하도록 상기 심층신경망을 학습시키는 학습부를 포함한다.

상기 학습부는 상기 화자식별망 및 상기 공격검출망 각각을 개별적으로 학습시키는 기본 학습을 수행한 후, 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망 전체를 한번에 학습시키는 전체 학습을 수행하되, 상기 전체 학습 시, 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려진 학습용 음성을 마련하고, 상기 학습용 음성에 대해 화자인식벡터에 대응하는 기댓값인 화자인식레이블과, 통합화자검증벡터에 대응하는 기댓값인 통합화자검증레이블을 설정하고, 상기 학습용 음성으로부터 상기 화자식별망 및 상기 화자인식망을 통해 화자인식벡터를 산출하고, 상기 학습용 음성으로부터 상기 공격검출망을 통해 공격검출벡터를 산출하고, 상기 통합검증망을 통해 상기 화자인식벡터와 상기 공격검출벡터를 곱하여 병합 벡터를 산출하고, 상기 화자인식벡터, 상기 병합 벡터 및 상기 공격검출벡터로부터 통합화자검증벡터를 산출한 후, 상기 산출된 화자인식벡터와 상기 화자인식레이블과의 차이인 이진교차엔트로피 손실 및 상기 산출된 통합화자검증벡터와 상기 통합화자검증레이블과의 차이를 나타내는 분류오차엔트로피 손실을 포함하는 전체 손실이 최소가 되도록 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망의 가중치를 최적화하는 것을 특징으로 한다.

상기 학습부는 손실함수

상기 화자식별망은 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려지지 않은 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성의 화자가 등록된 복수의 화자 각각일 확률을 나타내는 화자식별벡터를 산출하고, 상기 화자인식망은 상기 화자식별망으로부터 상기 산출된 화자식별벡터를 입력받고, 상기 산출된 화자식별벡터에 의해 식별된 화자에 대해 등록된 화자식별벡터를 입력받으면, 상기 등록된 화자식별특징벡터 및 상기 산출된 화자식별벡터에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터를 산출하고, 상기 공격검출망이 상기 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 스푸핑 공격에 의한 음성인지 혹은 실제 발화에 의한 음성인지 여부를 나타내는 확률인 공격검출벡터를 산출하고, 상기 통합검증망이 상기 화자인식벡터 및 상기 공격검출벡터를 곱하여 병합벡터를 산출하고, 상기 화자인식벡터, 상기 병합벡터 및 상기 공격검출벡터에 대한 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 것을 특징으로 한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출 및 화자 인식을 수행하기 위한 방법은 화자식별망이 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려지지 않은 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성의 화자가 등록된 복수의 화자 각각일 확률을 나타내는 화자식별벡터를 산출하는 단계와, 등록벡터처리부가 상기 산출된 화자식별벡터에 따라 화자를 식별하고, 등록된 복수의 화자의 화자식별벡터 중 식별된 화자의 등록된 화자식별벡터를 검출하는 단계와, 화자인식망이 상기 등록된 화자식별특징벡터 및 상기 산출된 화자식별벡터에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터를 산출하는 단계와, 공격검출망이 상기 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 스푸핑 공격에 의한 음성인지 혹은 실제 발화에 의한 음성인지 여부를 나타내는 확률인 공격검출벡터를 산출하는 단계와, 통합검증망이 상기 화자인식벡터 및 상기 공격검출벡터를 기초로 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 단계를 포함한다.

상기 통합화자검증벡터를 산출하는 단계는 상기 통합검증망의 곱셈기가 상기 화자인식벡터 및 상기 공격검출벡터를 곱하여 병합벡터를 산출하는 단계와, 상기 통합검증망의 검증병합층이 상기 화자인식벡터, 상기 병합벡터 및 상기 공격검출벡터를 입력받는 단계와, 상기 통합검증망의 검증출력층이 상기 화자인식벡터, 상기 병합벡터 및 상기 공격검출벡터에 대한 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 단계를 포함한다.

상기 방법은 상기 화자식별벡터를 산출하는 단계 전, 학습부가 상기 화자식별망 및 상기 공격검출망 각각을 개별적으로 학습시키는 기본 학습을 수행하는 단계와, 상기 학습부가 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망 전체를 한번에 학습시키는 전체 학습을 수행하는 단계를 더 포함한다.

상기 전체 학습을 수행하는 단계는 상기 학습부가 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려진 학습용 음성을 마련하는 단계와, 상기 학습부가 상기 학습용 음성에 대해 화자인식벡터에 대응하는 기댓값인 화자인식레이블과, 통합화자검증벡터에 대응하는 기댓값인 통합화자검증레이블을 설정하는 단계와, 상기 학습부가 상기 학습용 음성을 입력으로 상기 화자식별망, 상기 화자인식망, 상기 공격검출망 및 상기 통합검증망을 통해 순차로 화자인식벡터 및 통합화자검증벡터를 산출하는 단계와, 상기 학습부가 상기 산출된 화자인식벡터와 상기 화자인식레이블과의 차이인 이진교차엔트로피 손실 및 상기 산출된 통합화자검증벡터와 상기 통합화자검증레이블과의 차이를 나타내는 분류오차엔트로피 손실을 포함하는 전체 손실이 최소가 되도록 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망의 가중치를 최적화하는 단계를 포함한다.

상기 가중치를 최적화하는 단계는 상기 학습부가 손실함수

본 발명에 따르면, 음성이 식별된 화자의 음성인지 여부 및 실제 발화에 의한 음성인지 혹은 스푸핑 공격에 의한 음성인지 여부를 동시에 판별할 수 있다. 특히, 본 발명은 기존 통합시스템과 다르게 화자 식별, 재생 공격 스푸핑 음성 검출, 통합 화자인증 각 작업에 대해 평균값이 아니라 딥러닝을 활용하여 통합된 결과를 확인할 수 있다. 또한 본 발명은 별도의 SVM(Support Vector Machine)이나 GMM(Gaussian mixture model) 등의 백-엔드 시스템(back-end system) 없이 하나의 통합 시스템 학습으로 재생 공격 스푸핑을 고려한 화자인증 결과를 도출해 낼 수 있다. 이에 따라, 시스템의 오버헤드를 경감하고, 보다 신뢰도 높은 결과를 얻을 수 있다.

도 1은 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치의 전체적인 구성을 설명하기 위한 도면이다.
도 2는 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치의 세부적인 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치의 화자검증부의 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 심층신경망을 학습하는 방법을 설명하기 위한 흐름도이다.
도 5는 본 발명의 실시예에 따른 심층신경망에 대한 전체 학습을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.

본 발명의 실시예에서 "가중치를 최적화한다."는 것의 의미는 학습 데이터를 이용하여 인공신경망을 학습시킬 때, 학습 데이터에 대한 인공신경망이 출력값과 레이블로 설정된 기댓값의 차이가 최소가 되도록 인공신경망의 가중치를 조정한다는 의미이다. 이는 손실함수를 통해 산출되는 손실값이 최소가 되도록 가중치를 조정하는 것과 동치이다.

먼저, 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치의 전체적인 구성을 설명하기 위한 도면이다. 도 2는 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치의 세부적인 구성을 설명하기 위한 도면이다. 도 3은 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치의 화자검증부의 구성을 설명하기 위한 도면이다.

먼저, 도 1을 참조하면, 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 장치(RA: 이하, '인식장치'로 축약함)는 음성분석부(10), 화자검증부(20) 및 학습부(30)를 포함한다.

음성분석부(10)는 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려지지 않은 음성이 입력되면, 입력된 음성의 화자를 식별하고, 입력된 음성이 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터(SV: Speaker Verification)를 산출하고, 입력된 음성이 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터(PAD: Presentation Attack Detection)를 산출한다. 이러한 음성분석부(10)는 도 2에 도시된 바와 같이, 화자식별망(100), 등록벡터처리부(200), 화자인식망(300) 및 공격검출망(400)을 포함한다.

화자식별망(100)은 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 입력된 음성의 화자가 등록된 복수의 화자 각각일 확률을 나타내는 화자식별벡터(cSID: calculated Speaker IDenitity)를 산출한다.

등록벡터처리부(200)는 등록된 복수의 화자의 화자식별벡터(rSID: registered Speaker IDenitity)를 저장하며, 산출된 화자식별벡터(cSID)에 따라 화자를 식별하고, 등록된 복수의 화자의 화자식별벡터(rSID) 중 식별된 화자의 등록된 화자식별벡터(rSID)를 검출하여 제공한다.

화자인식망(300)은 등록벡터처리부(200)로부터 등록된 화자식별벡터(rSID)를 입력받고, 화자식별망(100)으로부터 산출된 화자식별벡터(cSID)를 입력받으면, 등록된 화자식별특징벡터(rSID) 및 산출된 화자식별벡터(cSID)에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 입력된 음성이 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터(SV)를 산출한다.

공격검출망(400)은 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 입력된 음성이 스푸핑 공격에 의한 음성인지 혹은 실제 발화에 의한 음성인지 여부를 나타내는 확률인 공격검출벡터(PAD)를 산출한다.

화자검증부(20)는 화자인식벡터(SV) 및 공격검출벡터(PAD)를 기초로 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 입력된 음성이 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터(ISV: Integrated speaker verification)를 산출한다. 이러한 화자검증부(20)는 도 2에 도시된 바와 같이, 통합검증망(500)을 포함한다. 통합검증망(500)은 도 3에 도시된 바와 같이, 곱셈기(510), 검증병합층(520, verification merge layer: VML) 및 검증출력층(530, verification output layer: VOL)을 포함한다.

곱셈기(510)는 화자인식벡터(SV) 및 공격검출벡터(PAD)를 곱하여 병합벡터(MV)를 산출한다(SV × PAD = MV).

검증병합층(520)은 화자인식벡터(SV), 병합벡터(MV) 및 공격검출벡터(PAD)를 입력받는다.

검증출력층(530)은 화자인식벡터(SV), 병합벡터(MV) 및 공격검출벡터(PAD)에 대한 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 입력된 음성이 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 입력된 음성이 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터(ISV)를 산출한다.

학습부(30)는 화자식별망(100), 화자인식망(300), 공격검출망(400) 및 통합검증망(500)을 포함하는 심층신경망(Deep Neural Network)를 학습(Deep Learning)시키기 위한 것이다. 이를 위하여, 학습부(30)는 우선, 화자식별망(100) 및 공격검출망(400) 각각을 개별적으로 학습시키는 기본 학습을 수행한 후, 화자식별망(100), 등록벡터처리부(200), 화자인식망(300), 공격검출망(400) 및 통합검증망(500) 전체를 함께 학습시키는 전체 학습을 수행한다.

즉, 기본 학습은 학습부(30)가 입력되는 음성이 등록된 복수의 화자 각각의 음성일 확률을 나타내는 화자식별벡터(cSID)를 산출하도록 화자식별망(100)을 개별적으로 학습시키고, 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하도록 상기 공격검출망(400)을 개별적으로 학습시키는 것을 의미한다. 또한, 전체 학습은 학습부(30)가 한 번에 화자식별망(100), 등록벡터처리부(200), 화자인식망(300), 공격검출망(400) 및 통합검증망(500) 전체를 함께 학습시키는 것을 의미한다.

다음으로, 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 방법에 대해서 설명하기로 한다. 이러한 스푸핑 공격 검출과 화자 인식을 수행하기 위해 심층신경망(100, 300, 400, 500)에 대한 학습이 선행되어야 한다. 이에 따라, 먼저, 학습 방법에 대해 설명하기로 한다. 도 4는 본 발명의 실시예에 따른 심층신경망(100, 300, 400, 500)을 학습하는 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 학습부(30)는 S110 단계에서 화자식별망(100) 및 공격검출망(400) 각각을 개별적으로 학습시키는 기본 학습을 수행한다.

기본 학습은 학습부(30)가 입력되는 음성이 등록된 복수의 화자 각각의 음성일 확률을 나타내는 화자식별벡터(cSID)를 산출하도록 화자식별망(100)을 개별적으로 학습시키고, 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하도록 상기 공격검출망(400)을 개별적으로 학습시키는 것을 의미한다.

다음으로, 학습부(30)는 S120 단계에서 화자식별망(100), 등록벡터처리부(200), 화자인식망(300), 공격검출망(400) 및 통합검증망(500) 전체를 함께 학습시키는 전체 학습을 수행한다.

그러면, 전술한 전체 학습(S120)에 대해 보다 상세하게 설명하기로 한다. 도 5는 본 발명의 실시예에 따른 심층신경망에 대한 전체 학습을 설명하기 위한 흐름도이다. 강조하면, 도 5는 S120 단계를 보다 상세하게 설명하기 위한 것이다.

도 5를 참조하면, 학습부(30)는 S210 단계에서 학습용 음성을 마련한다. 학습용 음성은 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려진 음성이다.

이에 따라, 학습부(30)는 S220 단계에서 학습용 음성에 대해 레이블을 설정할 수 있다. 이때, 학습부(30)는 학습용 음성에 대해 화자인식벡터(SV)에 대응하는 기댓값인 화자인식레이블(SVL)과, 통합화자검증벡터(ISV)에 대응하는 기댓값인 통합화자검증레이블(ISVL)을 설정한다. 화자인식레이블(SVL) 및 통합화자검증레이블(ISVL) 양자 모두 원 핫 인코딩 벡터(One-hot-encoding Vector)로 설정될 수 있다. 예컨대, 화자인식레이블(SVL)은 학습용 음성이 등록된 화자의 것이면, 1이고, 학습용 음성이 등록된 화자의 것이 아니면, 0으로 설정될 수 있다. 또한, 통합화자검증레이블(ISVL)은 상기 학습용 음성이 식별된 화자의 음성이면서 실제 발화에 의한 음성인 경우, [1, 0]이고, 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성인 경우, [0, 1]로 설정될 수 있다.

레이블이 설정되면, 학습부(30)는 S230 단계에서 학습용 음성을 심층신경망(100, 300, 400, 500)에 입력한다. 그러면, 심층신경망(100, 300, 400, 500)은 S240 단계에서 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 순차로 화자인식벡터(SV) 및 통합화자검증벡터(ISV)를 산출한다. 즉, 학습용 음성이 입력되면, 화자식별망(100) 및 화자인식망(300)을 통해 화자인식벡터(SV)를 산출하고, 공격검출망(400)을 통해 공격검출벡터(PAD)를 산출한 후, 통합검증망(500)을 통해 화자인식벡터(SV) 및 공격검출벡터(PAD)를 곱하여 병합벡터(MV)를 산출하고, 화자인식벡터(SV), 병합벡터(MV) 및 공격검출벡터(PAD)로부터 통합화자검증벡터(ISV)를 산출할 수 있다.

그러면, 학습부(30)는 산출된 화자인식벡터(SV)와 화자인식레이블(SVL)과의 차이인 이진교차엔트로피 손실(binary cross-entropy (BCE) Loss) 및 산출된 통합화자검증벡터(ISV)와 통합화자검증레이블(ISVL)과의 차이를 나타내는 분류오차엔트로피 손실(categorical cross-entropy (CCE) Loss)을 포함하는 전체 손실이 최소가 되도록 심층신경망, 즉, 화자식별망, 공격검출망, 화자인식망 및 통합검증망(100, 300, 400, 500)의 가중치를 최적화한다.

이때, 학습부(30)는 다음의 수학식 1과 같은 손실함수를 통해 전체 손실이 최소가 되도록 화자식별망, 공격검출망, 화자인식망 및 통합검증망(100, 300, 400, 500)의 가중치를 최적화한다.

수학식 1에서, Loss는 화자인식벡터(SV)와 화자인식레이블(SVL)과의 차이인 이진교차엔트로피 손실(BCE Loss) 및 산출된 통합화자검증벡터(ISV)와 통합화자검증레이블(ISVL)과의 차이를 나타내는 분류오차엔트로피 손실(CCE Loss)을 포함하는 전체 손실을 나타낸다.

또한, LossSV는 화자인식벡터(SV)와 화자인식레이블(SVL)과의 차이인 이진교차엔트로피 손실(BCE Loss)을 나타낸다. 특히, a는 이진교차엔트로피 손실(BCE Loss)의 가중치이다. 그리고 LossISV는 산출된 통합화자검증벡터(ISV)와 통합화자검증레이블(ISVL)과의 차이를 나타내는 분류오차엔트로피 손실(CCE Loss)을 나타낸다.

전술한 바와 같이, 학습이 완료되면, 학습된 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행할 수 있다. 이러한 방법에 대해서 설명하기로 한다. 도 6은 본 발명의 실시예에 따른 심층 신경망을 기초로 동시에 스푸핑 공격 검출과 화자 인식을 수행하기 위한 방법을 설명하기 위한 흐름도이다.

도 6을 참조하면, 음성분석부(10)는 S310 단계에서 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려지지 않은 음성을 입력받는다.

그러면, 음성분석부(10)의 화자식별망(100)은 S320 단계에서 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 입력된 음성의 화자가 등록된 복수의 화자 각각일 확률을 나타내는 화자식별벡터(cSID)를 산출한다.

전술한 바와 같이, 등록벡터처리부(200)는 등록된 복수의 화자의 화자식별벡터(rSID)를 저장한다. 이에 따라, 등록벡터처리부(200)는 S330 단계에서 화자식별망(100)이 산출한 화자식별벡터(cSID)에 따라 화자를 식별하고, 등록된 복수의 화자의 화자식별벡터(rSID) 중 식별된 화자의 등록된 화자식별벡터(rSID)를 검출한다.

다음으로, 화자인식망(300)은 S340 단계에서 등록벡터처리부(200)로부터 등록된 화자식별벡터(rSID)를 입력받고, 화자식별망(100)으로부터 산출된 화자식별벡터(cSID)를 입력받으면, 등록된 화자식별특징벡터(rSID) 및 산출된 화자식별벡터(cSID)에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 입력된 음성이 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터(SV)를 산출한다.

한편, 공격검출망(400)은 S350 단계에서 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 입력된 음성이 스푸핑 공격에 의한 음성인지 혹은 실제 발화에 의한 음성인지 여부를 나타내는 확률인 공격검출벡터(PAD)를 산출한다.

다음으로, 화자검증부(20) 통합검증망(500)의 곱셈기(510)는 S360 단계에서 화자인식벡터(SV) 및 공격검출벡터(PAD)를 곱하여 병합벡터(MV)를 산출한다(SV × PAD = MV).

검증병합층(520)은 S370 단계에서 화자인식벡터(SV), 앞서 산출된 병합벡터(MV) 및 공격검출벡터(PAD)를 병합하여 입력받아 검증출력층(530)으로 학습된 가중치를 적용하여 출력한다.

검증출력층(530)은 화자인식벡터(SV), 병합벡터(MV) 및 공격검출벡터(PAD)에 대한 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 통합화자검증벡터(ISV)를 산출한다. 즉, 검증출력층(530)은 각각에 가중치가 적용된 화자인식벡터(SV), 병합벡터(MV) 및 공격검출벡터(PAD)를 활성화 함수에 입력하여 활성화 함수의 연산을 통해 통합화자검증벡터(ISV)를 산출한다. 통합화자검증벡터(ISV)는 입력된 음성이 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 입력된 음성이 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함한다.

도 7은 본 발명의 실시예에 따른, 컴퓨팅 장치를 나타내는 도면이다. 도 7의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치(예, 인식장치(RA) 등) 일 수 있다.

도 7의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.

한편, 앞서 설명된 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

10: 음성분석부
20: 화자검증부
30: 학습부
100: 화자식별망
200: 등록벡터처리부
300: 화자인식망
400: 공격검출망
500: 통합검증망

Claims

심층 신경망을 기초로 동시에 스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치에 있어서,
등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려지지 않은 음성이 입력되면, 입력된 음성의 화자를 식별하고, 상기 입력된 음성이 상기 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터를 산출하고, 상기 입력된 음성이 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하는 음성분석부; 및
상기 화자인식벡터 및 상기 공격검출벡터를 기초로 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 화자검증부;
를 포함하는 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
제1항에 있어서,
상기 화자검증부는
상기 화자인식벡터 및 상기 공격검출벡터를 곱하여 병합벡터를 산출하는 곱셈기와,
상기 화자인식벡터, 상기 병합벡터 및 상기 공격검출벡터를 입력받는 검증병합층과,
상기 화자인식벡터, 상기 병합벡터 및 상기 공격검출벡터에 대한 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 검증출력층을
을 포함하는
통합검증망;
을 포함하는 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
제2항에 있어서,
상기 음성분석부는
상기 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해
상기 입력된 음성의 화자가 등록된 복수의 화자 각각일 확률을 나타내는 화자식별벡터를 산출하는 화자식별망;
등록된 복수의 화자의 화자식별벡터를 저장하며, 상기 산출된 화자식별벡터에 따라 화자를 식별하고, 등록된 복수의 화자의 화자식별벡터 중 식별된 화자의 등록된 화자식별벡터를 검출하는 등록벡터처리부;
상기 등록벡터처리부로부터 상기 등록된 화자식별벡터를 입력받고, 상기 화자식별망으로부터 상기 산출된 화자식별벡터를 입력받으면, 상기 등록된 화자식별특징벡터 및 상기 산출된 화자식별벡터에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터를 산출하는 화자인식망;
상기 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 스푸핑 공격에 의한 음성인지 혹은 실제 발화에 의한 음성인지 여부를 나타내는 확률인 공격검출벡터를 산출하는 공격검출망;
을 포함하는 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
제3항에 있어서,
입력되는 음성이 등록된 복수의 화자 각각의 음성일 확률을 나타내는 화자식별벡터를 산출하도록 상기 화자식별망을 개별적으로 학습시키고, 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하도록 상기 공격검출망을 개별적으로 학습시키는 기본 학습을 수행한 후,
상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망 전체를 한번에 학습시키는 전체 학습을 수행하는
학습부;
를 더 포함하는 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
제4항에 있어서,
상기 학습부는
상기 전체 학습 시,
등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려진 학습용 음성을 마련하고,
상기 학습용 음성에 대해 화자인식벡터에 대응하는 기댓값인 화자인식레이블과, 통합화자검증벡터에 대응하는 기댓값인 통합화자검증레이블을 설정하고,
상기 학습용 음성으로부터 상기 화자식별망, 상기 화자인식망, 상기 공격검출망 및 상기 통합검증망을 통해 순차로 화자인식벡터 및 통합화자검증벡터를 산출한 후,
상기 산출된 화자인식벡터와 상기 화자인식레이블과의 차이인 이진교차엔트로피 손실 및 상기 산출된 통합화자검증벡터와 상기 통합화자검증레이블과의 차이를 나타내는 분류오차엔트로피 손실을 포함하는 전체 손실이 최소가 되도록 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망의 가중치를 최적화하는 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
제5항에 있어서,
상기 학습부는
손실함수

를 이용하여
상기 전체 손실이 최소가 되도록 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망의 가중치를 최적화하며,
상기 Loss는 상기 전체의 손실이고,
상기 LossSV는 상기 산출된 화자인식벡터와 상기 화자인식레이블과의 차이인 이진교차엔트로피 손실이고,
상기 a는 상기 이진교차엔트로피 손실의 가중치이고,
상기 LossISV는 상기 산출된 통합화자검증벡터와 상기 통합화자검증레이블과의 차이를 나타내는 분류오차엔트로피 손실인 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
심층 신경망을 기초로 동시에 스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치에 있어서,
화자식별망, 화자인식망, 공격검출망 및 통합검증망을 포함하는 심층신경망; 및
상기 화자식별망이 학습용 음성이 등록된 복수의 화자 각각의 음성일 확률을 나타내는 화자식별벡터를 산출하고,
상기 화자인식망이 상기 학습용 음성이 상기 화자식별벡터에 의해 식별된 화자의 음성일 확률을 나타내는 화자인식벡터를 산출하고,
상기 공격검출망이 상기 학습용 음성이 스푸핑 공격에 의한 음성일 확률을 나타내는 공격검출벡터를 산출하고,
상기 통합검증망이 상기 학습용 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 학습용 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하도록
상기 심층신경망을 학습시키는 학습부;
를 포함하는 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
제7항에 있어서,
상기 학습부는
상기 화자식별망 및 상기 공격검출망 각각을 개별적으로 학습시키는 기본 학습을 수행한 후, 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망 전체를 한번에 학습시키는 전체 학습을 수행하되,
상기 전체 학습 시,
등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려진 학습용 음성을 마련하고,
상기 학습용 음성에 대해 화자인식벡터에 대응하는 기댓값인 화자인식레이블과, 통합화자검증벡터에 대응하는 기댓값인 통합화자검증레이블을 설정하고,
상기 학습용 음성으로부터 상기 화자식별망 및 상기 화자인식망을 통해 화자인식벡터를 산출하고,
상기 학습용 음성으로부터 상기 공격검출망을 통해 공격검출벡터를 산출하고,
상기 통합검증망을 통해 상기 화자인식벡터와 상기 공격검출벡터를 곱하여 병합 벡터를 산출하고, 상기 화자인식벡터, 상기 병합 벡터 및 상기 공격검출벡터로부터 통합화자검증벡터를 산출한 후,
상기 산출된 화자인식벡터와 상기 화자인식레이블과의 차이인 이진교차엔트로피 손실 및 상기 산출된 통합화자검증벡터와 상기 통합화자검증레이블과의 차이를 나타내는 분류오차엔트로피 손실을 포함하는 전체 손실이 최소가 되도록 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망의 가중치를 최적화하는 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
제8항에 있어서,
상기 학습부는
손실함수

을 이용하여
상기 전체 손실이 최소가 되도록 상기 화자식별망, 상기 공격검출망, 상기 화자인식망 및 상기 통합검증망의 가중치를 최적화하며,
상기 Loss는 상기 전체의 손실이고,
상기 LossSV는 상기 산출된 화자인식벡터와 상기 화자인식레이블과의 차이인 이진교차엔트로피 손실이고,
상기 a는 상기 이진교차엔트로피 손실의 가중치이고,
상기 LossISV는 상기 산출된 통합화자검증벡터와 상기 통합화자검증레이블과의 차이를 나타내는 분류오차엔트로피 손실인 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 장치.
심층 신경망을 기초로 동시에 스푸핑 공격 검출 및 화자 인식을 수행하기 위한 방법에 있어서,
화자식별망이 등록된 화자의 것인지 여부 및 실제 발화에 의한 것인지 여부가 알려지지 않은 음성이 입력되면, 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성의 화자가 등록된 복수의 화자 각각일 확률을 나타내는 화자식별벡터를 산출하는 단계;
등록벡터처리부가 상기 산출된 화자식별벡터에 따라 화자를 식별하고, 등록된 복수의 화자의 화자식별벡터 중 식별된 화자의 등록된 화자식별벡터를 검출하는 단계;
화자인식망이 상기 등록된 화자식별특징벡터 및 상기 산출된 화자식별벡터에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 상기 식별된 화자의 음성인지 여부를 나타내는 확률인 화자인식벡터를 산출하는 단계;
공격검출망이 상기 입력된 음성에 대해 복수의 계층 간 학습된 가중치가 적용되는 복수의 연산을 통해 상기 입력된 음성이 스푸핑 공격에 의한 음성인지 혹은 실제 발화에 의한 음성인지 여부를 나타내는 확률인 공격검출벡터를 산출하는 단계; 및
통합검증망이 상기 화자인식벡터 및 상기 공격검출벡터를 기초로 상기 입력된 음성이 상기 식별된 화자의 음성이면서 실제 발화에 의한 음성일 확률과 상기 입력된 음성이 상기 식별된 화자의 음성이 아니거나 스푸핑 공격에 의한 음성일 확률을 포함하는 통합화자검증벡터를 산출하는 단계;
를 포함하는 것을 특징으로 하는
스푸핑 공격 검출 및 화자 인식을 수행하기 위한 방법.