KR20190131806A - Voice recognition system for detecting spoofing in speaker voice authentication service - Google Patents
Voice recognition system for detecting spoofing in speaker voice authentication service Download PDFInfo
- Publication number
- KR20190131806A KR20190131806A KR1020180056658A KR20180056658A KR20190131806A KR 20190131806 A KR20190131806 A KR 20190131806A KR 1020180056658 A KR1020180056658 A KR 1020180056658A KR 20180056658 A KR20180056658 A KR 20180056658A KR 20190131806 A KR20190131806 A KR 20190131806A
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- signal
- voice
- speech
- learning
- Prior art date
Links
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 65
- 230000015572 biosynthetic process Effects 0.000 claims description 47
- 238000003786 synthesis reaction Methods 0.000 claims description 47
- 238000011156 evaluation Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 9
- 230000002860 competitive effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
본 발명은 화자 음성 인증 서비스에서 스푸핑을 검출하는 음성 인증 시스템에 관한 것이다. The present invention relates to a voice authentication system for detecting spoofing in a speaker voice authentication service.
일반적으로 시스템 보안에 사용되는 인증 방식 중 화자 인증 방식은 사용자가 말한 음성을 인식하여 사용자 인증을 수행하는 방식을 의미한다. 이러한 종래의 화자 인증 방식은 인증 요청자가 본인의 음성으로 인증을 요청하면, 해당 인증 요청자의 음성과 기 등록된 사용자의 음성과 일치하는지를 판단한 후 해당 인증 요청자의 인증 여부를 결정한다. In general, speaker authentication among authentication methods used for system security means a method of recognizing a voice spoken by a user and performing user authentication. In the conventional speaker authentication method, when an authentication requestor requests authentication using his / her own voice, it is determined whether the authentication requestor is authenticated after determining whether or not the voice of the authentication requester matches the voice of the registered user.
한편, 화자 인증 기술의 적용 가능한 범위가 넓어지고 시장규모가 커짐에 따라 화자 인증 기술의 정확도 및 신뢰도를 높이는 연구 또한 활발해지고 있다. 여기서, 화자 인증 기술의 신뢰도란 스푸핑 검출의 정확도를 의미한다. On the other hand, as the applicable range of the speaker authentication technology becomes wider and the market size increases, studies to increase the accuracy and reliability of the speaker authentication technology are also being actively conducted. Here, the reliability of the speaker authentication technique refers to the accuracy of spoofing detection.
화자 인증에서의 스푸핑은 사칭자가 시스템을 속일 목적으로 음성을 위조한 뒤, 이를 이용해 인증을 받으려는 행위를 말한다. 시스템의 신뢰도가 낮을수록 범죄에 취약하기 때문에, 특히 금융거래와 같이 사칭으로 인한 피해가 큰 분야에 화자 인증 기술을 적용하기 위해서는 높은 신뢰도가 필수적이다. Spoofing in speaker authentication refers to the act of impersonating a user to forge a voice and then use it to fool the system. The lower the reliability of the system, the more vulnerable to crime. Therefore, high reliability is essential to apply speaker authentication technology to areas where damages from impersonation are high.
스푸핑 공격 유형에는 리플레이(등록된 사용자의 음성을 미리 녹음해둔 뒤, 인증 요청 시 이를 재생), 음성 변조(임의의 음성을 등록된 사용자의 음성으로 변소), 음성 합성(등록된 특정 텍스트의 사용자 음성 생성) 등이 있다. Types of spoofing attacks include replay (recording the registered user's voice in advance and playing it upon authentication request), voice modulation (turn any voice into the registered user's voice), and speech synthesis (user's voice in the specific registered text). Generation).
한편, 스푸핑 검출 분야의 공개 경쟁(competition) 중 하나인 'BTAS 2016 speaker anti-spoofing competition' 결과에 따르면, 리플레이 공격에 대한 검출 정확도는 '디벡터(d-vector) 기반 스푸핑 검출 시스템'이 가장 높다. 그러나, 디벡터 스푸핑 검출 시스템은 합성음 공격에는 상대적으로 낮은 검출 정확도를 보인다. Meanwhile, according to the 'BTAS 2016 speaker anti-spoofing competition', one of the open competitions in the field of spoofing detection, 'd-vector based spoof detection system' has the highest detection accuracy for replay attacks. . However, the devector spoofing detection system has a relatively low detection accuracy for synthesized speech attacks.
이는, 디벡터 스푸핑 검출 시스템이 스푸핑 공격을 검출하는데 있어 기 준비된 음성만을 이용하기 때문인 것으로 판단된다. This is considered to be because the devector spoofing detection system uses only the prepared voice in detecting the spoofing attack.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 음성 합성 시스템에서 합성 음성 신호를 생성하고, 학습용 음성 신호의 합성 여부를 판별하고, 스푸핑 검출 시스템에서 학습용 음성 신호 및 평가용 음성 신호를 이용하여 스푸핑 검출을 학습함으로써 보안이 강화된 화자 음성 인증 서비스를 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다. The present invention is to solve the above-mentioned problems of the prior art, generating a synthesized speech signal in the speech synthesis system, to determine whether the learning speech signal synthesis, and using the learning speech signal and the evaluation speech signal in the spoofing detection system By learning the spoof detection, we want to provide security-enhanced speaker voice authentication service. However, the technical problem to be achieved by the present embodiment is not limited to the technical problems as described above, and other technical problems may exist.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 화자 음성 인증 서비스에서 스푸핑을 검출하는 음성 인증 시스템은 제 1 화자의 정상 음성 신호 및 랜덤 노이즈 신호를 합성하여 상기 제 1 화자에 대한 복수의 합성 음성 신호를 생성하는 음성 합성부 및 상기 제 1 화자의 학습용 음성 신호를 수신하고, 상기 제 1 화자의 학습용 음성 신호와 상기 제 1 화자의 정상 음성 신호를 비교하여, 상기 제 1 화자의 학습용 음성 신호의 합성 여부를 판별하는 음성 판별부를 포함하는 음성 합성 시스템; 및 상기 화자 음성 인증 서비스를 제공하는 스푸핑 검출 시스템을 포함할 수 있다. As a technical means for achieving the above-described technical problem, the voice authentication system for detecting spoofing in the speaker voice authentication service according to the first aspect of the present invention synthesizes the normal voice signal and the random noise signal of the first speaker to the first Receives a speech synthesizer for generating a plurality of synthesized speech signals for the speaker and the learning speech signal of the first speaker, by comparing the learning speech signal of the first speaker and the normal speech signal of the first speaker, A speech synthesis system including a speech discrimination unit configured to determine whether or not a speaker's learning speech signal is synthesized; And a spoofing detection system for providing the speaker voice authentication service.
본 발명의 제 2 측면에 따른 화자 음성 인증 서비스에서 스푸핑을 검출하는 방법은 음성 합성 시스템에서 제 1 화자의 정상 음성 신호 및 랜덤 노이즈 신호를 합성하여 상기 제 1 화자에 대한 복수의 합성 음성 신호를 생성하는 단계; 상기 음성 합성 시스템에서 상기 제 1 화자의 학습용 음성 신호를 수신하는 단계; 상기 음성 합성 시스템에서 상기 제 1 화자의 학습용 음성 신호와 상기 제 1 화자의 정상 음성 신호를 비교하여, 상기 제 1 화자의 학습용 음성 신호의 합성 여부를 판별하는 단계 및 스푸핑 검출 시스템에서 상기 화자 음성 인증 서비스를 제공하는 단계를 포함할 수 있다. A method for detecting spoofing in a speaker voice authentication service according to the second aspect of the present invention generates a plurality of synthesized voice signals for the first speaker by synthesizing a normal voice signal and a random noise signal of the first speaker in a voice synthesis system. Doing; Receiving a learning speech signal of the first speaker in the speech synthesis system; Comparing the speech signal for learning of the first speaker with the normal speech signal of the first speaker in the speech synthesis system to determine whether the speech signal for learning of the first speaker is synthesized and the speaker speech authentication in the spoofing detection system Providing a service may include.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.The above-mentioned means for solving the problems are merely exemplary, and should not be construed to limit the present invention. In addition to the exemplary embodiments described above, there may be additional embodiments described in the drawings and detailed description of the invention.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 음성 합성 시스템에서 합성 음성 신호를 생성하고, 학습용 음성 신호의 합성 여부를 판별하고, 스푸핑 검출 시스템에서 학습용 음성 신호 및 평가용 음성 신호를 이용하여 스푸핑 검출을 학습함으로써 보안이 강화된 화자 음성 인증 서비스를 제공할 수 있다. According to any one of the above-described problem solving means of the present invention, the present invention generates a synthesized speech signal in the speech synthesis system, determines whether the learning speech signal is synthesized, and the learning speech signal and the evaluation speech signal in the spoofing detection system By learning the spoofing detection by using can provide a security-enhanced speaker voice authentication service.
또한, 본 발명은 음성 합성 시스템 및 스푸핑 검출 시스템 간의 경쟁적 학습을 유도함으로써 음성 합성 시스템은 보다 자연스러운 화자의 정상 음성 신호와 유사한 합성 음성 신호를 생성할 수 있고, 스푸핑 검출 시스템은 화자의 정상 음성 신호와 매우 유사한 합성 음성 신호라도 합성 여부를 정확하게 검출할 수 있으므로 합성 음성 신호에 대한 검출 정확도를 높일 수 있다 In addition, the present invention induces competitive learning between the speech synthesis system and the spoofing detection system so that the speech synthesis system can generate a synthesized speech signal that is similar to the normal speech signal of a more natural speaker, and the spoofing detection system can Even if very similar synthesized speech signals can be detected accurately, the detection accuracy of synthesized speech signals can be improved.
도 1은 본 발명의 일 실시예에 따른, 음성 인증 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른, 도 1에 도시된 음성 합성 시스템의 블록도이다.
도 3a 내지 3c는 본 발명의 일 실시예에 따른, 음성 합성 시스템 및 스푸핑 검출 시스템에서의 음성 인증 학습 방법을 설명하기 위한 도면이다.
도 4a 내지 4c는 본 발명의 일 실시예에 따른, 스푸핑 검출 시스템에서의 스푸핑 검출 여부에 따라 음성 합성부 및 스푸핑 검출 시스템의 성능을 개선하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 적대적 생성 네트워크를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른, 조건부 적대적 생성 네트워크를 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른, 화자 음성 인증 서비스에서 스푸핑을 검출하는 방법을 나타낸 흐름도이다. 1 is a block diagram of a voice authentication system according to an embodiment of the present invention.
2 is a block diagram of the speech synthesis system shown in FIG. 1, in accordance with an embodiment of the present invention.
3A to 3C are diagrams for describing a voice authentication learning method in a voice synthesis system and a spoofing detection system according to an embodiment of the present invention.
4A to 4C are diagrams for describing a method of improving performance of a speech synthesizer and a spoofing detection system according to whether or not a spoofing is detected in a spoofing detection system according to an embodiment of the present invention.
5 is a diagram for describing a hostile generating network according to an embodiment of the present invention.
6 is a diagram for describing a conditional hostile generating network according to an embodiment of the present invention.
7 is a flowchart illustrating a method for detecting spoofing in a speaker voice authentication service according to an embodiment of the present invention.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part is "connected" to another part, this includes not only "directly connected" but also "electrically connected" with another element in between. . In addition, when a part is said to "include" a certain component, which means that it may further include other components, except to exclude other components unless otherwise stated.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. In the present specification, the term 'unit' includes a unit realized by hardware, a unit realized by software, and a unit realized by both. In addition, one unit may be realized using two or more pieces of hardware, and two or more units may be realized by one piece of hardware.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다. Some of the operations or functions described as being performed by a terminal or a device in the present specification may instead be performed in a server connected to the terminal or device. Similarly, some of the operations or functions described as being performed by the server may be performed by a terminal or a device connected to the server.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다. Hereinafter, with reference to the accompanying configuration diagram or processing flow chart, it will be described in detail for the practice of the present invention.
도 1은 본 발명의 일 실시예에 따른, 음성 인증 시스템의 구성도이다. 1 is a block diagram of a voice authentication system according to an embodiment of the present invention.
도 1을 참조하면, 음성 인증 시스템은 음성 합성 시스템(100), 스푸핑 검출 시스템(110) 및 음성 데이터베이스(120)를 포함할 수 있다. 다만, 이러한 도 1의 음성 인증 시스템은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 1과 다르게 구성될 수도 있다. Referring to FIG. 1, a voice authentication system may include a
이하에서는 도 1과 도 2를 참조하여 음성 합성 시스템(100)에 대하여 설명하기로 한다. Hereinafter, the
음성 합성 시스템(100)은 음성 합성부(200) 및 음성 판별부(210)를 포함할 수 있다. The
음성 합성부(200)는 제 1 화자의 정상 음성 신호 및 랜덤 노이즈 신호를 합성하여 제 1 화자에 대한 복수의 합성 음성 신호를 생성할 수 있다. The
여기서, 랜덤 노이즈 신호는 난수 생성 알고리즘에 의해 생성된 의사 난수(pseudo random number)에 해당될 수 있다. 이 때, 난수 생성 알고리즘은 입력받은 초기값을 이용하여 의사 난수를 생성하는 알고리즘이다. 난수 생성 알고리즘에 입력되는 초기값을 시드(seed)값이라고 부르며, 시드값이 동일하면 난수 생성 알고리즘에 의해 생성되는 의사 난수들도 동일할 수 있다. In this case, the random noise signal may correspond to a pseudo random number generated by a random number generation algorithm. At this time, the random number generation algorithm is an algorithm for generating a pseudo random number using the input initial value. The initial value input to the random number generation algorithm is called a seed value. If the seed values are the same, pseudo random numbers generated by the random number generation algorithm may be the same.
여기서, 제 1 화자에 대한 복수의 합성 음성 신호는 제 1 화자의 학습용 합성 음성 신호 및 평가용 합성 음성 신호를 포함할 수 있다. Here, the plurality of synthesized speech signals for the first speaker may include the synthesized speech signal for learning of the first speaker and the synthesized speech signal for evaluation.
음성 판별부(210)는 제 1 화자의 학습용 음성 신호를 수신하고, 제 1 화자의 학습용 음성 신호와 제 1 화자의 정상 음성 신호를 비교하여 제 1 화자의 학습용 음성 신호의 합성 여부를 판별할 수 있다. The voice
여기서, 제 1 화자의 학습용 음성 신호는 제 1 화자의 학습용 정상 음성 신호 또는 학습용 합성 음성 신호일 수 있다. Here, the learning voice signal of the first speaker may be a learning normal voice signal or a learning synthesized voice signal of the first speaker.
예를 들면, 음성 판별부(210)는 제 1 화자의 학습용 정상 음성 신호와 제 1 화자의 정상 음성 신호를 비교하여 제 1 화자의 학습용 정상 음성 신호가 정상 음성 신호인지 여부를 판단할 수 있다. For example, the
예를 들면, 음성 판별부(210)는 제 1 화자의 학습용 합성 음성 신호와 제 1 화자의 정상 음성 신호를 비교하여 제 1 화자의 학습용 합성 음성 신호가 합성 신호인지 여부를 판단할 수 있다. For example, the speech
음성 합성부(200)는 적대적 생성 네트워크(Generative Adversarial Network, GAN)에 기초하여 제 1 화자의 정상 음성 신호와 유사한 합성 음성 신호를 생성하기 위한 학습을 수행할 수 있다. 여기서, 적대적 생성 네트워크는 심층 신경망에 경쟁적 학습이 적용된 네트워크이다. The
음성 판별부(210)는 적대적 생성 네트워크에 기초하여 제 1 화자의 학습용 음성 신호와 제 1 화자의 정상 음성 신호를 구별하기 위한 학습을 수행할 수 있다. The voice
구체적으로, 음성 합성부(200) 및 음성 판별부(210)는 신경망 모델에 따른 경쟁적 학습을 수행할 수 있다. In detail, the
예를 들면, 음성 합성부(200)는 랜덤 노이즈 신호(z)를 입력받으면, 랜덤 노이즈 신호(z)를 데이터 공간으로 매핑(mapping)하여 합성 음성 신호에 대응하는 확률값(G(z))을 출력할 수 있다. 여기서, 랜덤 노이즈 신호(z)는 임의의 사전 분포(prior distribution)의 로부터 표본 샘플을 샘플링하여 얻은 변수로서 일종의 랜덤 시드(randon seed)의 역할을 수행할 수 있다. For example, when the
음성 판별부(210)는 합성 여부를 판별하고자 하는 음성 신호(x)를 입력받으면 합성 여부에 대한 확률값(D(x))을 출력할 수 있다. 여기서, 합성 여부에 대한 확률값(D(x))은 음성 신호(x)가 정상 음성 신호일 확률값을 나타낸 것으로, 기설정된 확률 범위(예컨대, [0, 1]) 내에서 결정될 수 있다. The speech
예를 들면, 합성 여부에 대한 확률값(D(x))이 제 1 확률값(예컨대, 1)에 가까울수록 음성 신호(x)는 정상 음성 신호에 가깝고, 합성 여부에 대한 확률값(D(x))이 제 2 확률값(예컨대, 0)에 가까울수록 음성 신호(x)는 합성 데이터에 가깝다는 의미를 내포할 수 있다. For example, as the probability value D (x) for synthesis is closer to the first probability value (for example, 1), the speech signal x is closer to the normal speech signal, and the probability value D (x) for synthesis or not is determined. The closer to the second probability value (eg, 0), the more implied that the speech signal x is closer to the composite data.
음성 합성부(200) 및 음성 판별부(210)는 동시에 경쟁적 학습을 수행할 수 있다. 구체적으로, 음성 합성부(200)는 적대적 생성 네트워크에 대한 목적 함수를 최소화하도록 학습하고, 음성 판별부(210)는 적대적 생성 네트워크에 대한 목적 함수를 최대화하도록 학습할 수 있다. 여기서, 적대적 생성 네트워크에 대한 목적 함수는 [수학식 1]과 같이 표현될 수 있다. The
[수학식 1][Equation 1]
음성 판별부(210)는, 음성 판별부(210)가 적대적 생성 네트워크에 대한 목적 함수를 최대화하도록, 제 1 화자의 학습용 음성 신호로서 학습용 정상 음성 신호와 학습용 합성 음성 신호의 구분에 대한 확률을 높이도록 학습할 수 있다. The
예를 들면, 학습용 정상 음성 신호()에 있어서의 합성 여부에 대한 확률값(D(x))이 제 1 확률값에 가까워지도록 매개 변수 x를 조정할 경우, 적대적 생성 네트워크에 대한 목적 함수를 최대화할 수 있다. 여기서, 합성 여부에 대한 확률값(D(x))이 제 1 확률값에 가까워지도록 매개 변수 x를 조정한다는 의미는 정상 음성 신호를 정상 음성 신호로서 판단하도록 학습한다는 것을 의미할 수 있다. For example, the normal voice signal for training ( When the parameter x is adjusted so that the probability value D (x) for the synthesis in the step 1) is close to the first probability value, the objective function for the hostile generation network can be maximized. Here, the adjustment of the parameter x such that the probability value D (x) for synthesis is closer to the first probability value may mean that the learner determines to determine the normal speech signal as a normal speech signal.
또한, 랜덤 노이즈 신호()로부터 생성된 합성 음성 신호(G(z))에 있어서의 합성 여부에 대한 확률값(D(G(z)))이 제 2 확률값에 가까워지도록 매개변수 G(z)를 조정할 경우, 적대적 생성 네트워크에 대한 목적 함수를 최대화할 수 있다. 여기서, 합성 여부에 대한 확률값 (D(G(z)))이 제 2 확률값에 가까워지도록 매개변수 G(z)를 조정한다는 의미는 합성 음성 신호를 합성 음성 신호로서 판단하도록 학습한다는 것을 의미할 수 있다. In addition, the random noise signal ( When the parameter G (z) is adjusted so that the probability value D (G (z)) for synthesis in the synthesized speech signal G (z) generated from the value is close to the second probability value, the hostile generation network You can maximize the objective function for. Here, the adjustment of the parameter G (z) such that the probability value D (G (z)) as to whether the synthesis is close to the second probability value may mean that the training is performed to determine the synthesized speech signal as the synthesized speech signal. have.
한편, 음성 판별부(210)는, 음성 합성부(200)가 적대적 생성 네트워크에 대한 목적 함수를 최소화하도록, 제 1 화자의 학습용 음성 신호의 합성 여부에 대한 확률을 높이도록 학습할 수 있다. On the other hand, the
예를 들면, 음성 판별부(210)가 합성 음성 신호를 정상 음성 신호로 잘못 판단하도록 음성 합성부(200)가 합성 음성 신호(G(z))에 있어서의 합성 여부에 대한 확률값(D(G(z)))을 제 1 확률값에 가까워지게 매개변수 G(z)를 조정할 경우, 적대적 생성 네트워크에 대한 목적 함수가 최소화될 수 있다. For example, the
잠시 도 5를 참조하여 적대적 생성 네트워크를 이용하여 음성 합성부(200) 및 음성 판별부(210)의 학습 수행 방법을 설명하기로 한다. 도 5는 적대적 생성 네트워크의 학습 과정을 각 단계(500, 510, 520, 530)별로 나타낸 도면이다. Referring to FIG. 5, a method of performing learning by the
도 5를 참조하면, 제 1 선(51, 검정색 실선)은 정상 음성 신호()의 분포()를 나타내고, 제 2 선(55, 초록색 실선)은 합성 음성 신호(G(z))의 분포()를 나타내고, 제 3 선(53, 파란색 점선)은 음성 판별부(210)에서 산출된 합성 여부에 대한 확률값(D(x))의 분포를 나타낸다. x에서 z로 향하는 화살표는 z를 x=G(z)로 매핑하는 것을 의미한다. 각 단계에서 x에서 z로 향하는 화살표의 끝이 합성 음성 신호(G(z))의 분포()의 값이 큰 쪽으로 몰려있는 것을 확인할 수 있다. Referring to FIG. 5, the first line 51 (solid black line) represents a normal voice signal ( ) Distribution ), And the second line 55 (solid green line) shows the distribution (of the synthesized speech signal G (z) ( ), And a third line 53 (blue dotted line) represents a distribution of probability values D (x) for synthesis or not calculated by the
제 1 단계(500)에서 정상 음성 신호의 분포()와 합성 음성 신호의 분포()가 차이를 보이므로 음성 판별부(210)는 정상 음성 신호와 합성 음성 신호를 어렵지 않게 분류할 수 있다. In the
제 2 단계(510)에서 음성 판별부(210)는 정상 음성 신호의 분포()와 합성 음성 신호의 분포()를 잘 구분하도록 에 수렵하도록 학습할 수 있다. 이 때, 는 전역 최적 해를 의미한다. 음성 판별부(210)가 정상 음성 신호 및 합성 음성 신호에 대한 분류 정확도가 높은 경우는 일 때 일 수 있다. In a
제 3 단계(520)에서 음성 판별부(210)가 정상 음성 신호와 합성 음성 신호를 구분하기 어렵도록 음성 합성부(200)는 합성 음성 신호의 분포()가 정상 음성 신호의 분포()에 보다 가까워지도록 학습할 수 있다. In the
제 4 단계(530)에서 정상 음성 신호의 분포()와 합성 음성 신호의 분포()는 동일한 분포를 보인다. 이 경우, 음성 판별부(210)는 정상 음성 신호와 합성 음성 신호를 구분하기 어려우므로 어느 구간에서든 합성 여부에 대한 확률값(D(x))은 0.5로 출력될 수 있다. In a
다시 도 1 및 2로 돌아오면, 음성 합성부(200) 및 음성 판별부(210)는 조건부 적대적 생성 네트워크에 기초하여 학습을 수행할 수 있다. 여기서, 조건부 적대적 생성 네트워크는 도 6과 같이, 음성 합성부(200) 및 음성 판별부(210) 각각에 대한 조건(301, 309)을 입력받을 수 있도록 적대적 생성 네트워크를 확장한 개념이다. 1 and 2, the
조건부 적대적 생성 네트워크에 대한 목적 함수는 [수학식 2]와 같이 나타낼 수 있다. 즉, 적대적 생성 네트워크의 목적 함수에 조건(y)이 추가된 형태일 수 있다. The objective function for the conditional hostile generation network can be expressed as shown in [Equation 2]. That is, the condition y may be added to the objective function of the hostile generating network.
[수학식 2][Equation 2]
잠시 도 3a를 참조하면, 음성 합성부(200)는 제 1 화자의 정상 음성 신호에 대한 조건(301)을 수신할 수 있다. 여기서, 조건(301)은 제 1 화자에 대한 정보 및 제 1 화자로부터 수신하는 정상 음성 신호에 대한 텍스트 정보(예컨대, 결제 또는 보안 등에 대한 사용자의 음성 인증으로 사용하기 위해 제 1 화자에 의해 등록된 텍스트 정보임)를 포함할 수 있다. Referring to FIG. 3A for a while, the
음성 합성부(200)는 제 1 화자의 정상 음성 신호에 대한 조건(301), 제 1 화자의 정상 음성 신호(303) 및 랜덤 노이즈 신호(305)를 이용하여 제 1 화자에 대한 합성 음성 신호(307)를 생성할 수 있다. 이 때, 제 1 화자의 정상 음성 신호(303)는 조건(301)에 포함된 텍스트 정보(예컨대, '안녕하세요')에 대응하는 음성 신호(예컨대, '안녕하세요')에 대응될 수 있다. The
잠시 도 6을 참조하면, 음성 합성부(200)에 입력된 제 1 화자의 정상 음성 신호에 대한 조건(301)에 대하여 음성 합성부(200)에서 생성 가능한 제 1 화자에 대한 합성 음성 신호는 랜덤 노이즈 신호(600)를 표본 추출한 횟수와 같을 수 있다. 즉, 음성 합성부(200)에 입력된 조건이 1개일지라도 동일한 조건을 갖는 합성 음성 신호는 복수개 생성될 수 있다. Referring to FIG. 6 for a while, the synthesized speech signal for the first speaker that can be generated by the
다시 도 3a를 참조하면, 음성 합성부(200)는 수신된 제 1 화자의 정상 음성 신호에 대한 조건(310)에 기초하여 제 1 화자의 정상 음성 신호(303) 및 랜덤 노이즈 신호(305)를 이용하여 제 1 화자가 발화한 것과 유사한 음성 신호 또는 텍스트 정보에 대응하는 합성 음성 신호를 생성할 수 있다. Referring again to FIG. 3A, the
한편, 음성 합성부(200)는 음성 파형을 생성하는 웨이브 넷(WaveNet)을 합성 음성 신호로 생성할 수 있다. 여기서, 웨이브 넷은 임의의 구간 [t, t+u-1]에 해당하는 길이 u의 표본 열(sample sequence)에 대응하는 을 입력으로 받고, 해당 구간 [t, t+u-1]의 바로 다음 시간인 t+u에서 표본 값을 출력한다.Meanwhile, the
이 때, 표본 열은 특정 음성으로부터 얻거나 임의의 음성으로 설정될 수 있다. 웨이브 넷은 음성의 양자화 표본 열들을 이용하여 학습을 수행할 수 있다. 예를 들면, 학습용 음성 신호의 양자본 표본들을 라고 가정하면, 웨이브 넷은 길이 u의 학습용 음성 신호의 표본열을 입력으로 받는다. At this time, the sample string may be obtained from a specific voice or set to an arbitrary voice. The wave net may perform learning using quantized sample sequences of speech. For example, quantum samples of a learning speech signal In this example, the wave net receives a sample sequence of a learning speech signal of length u as an input.
예를 들어, 처음에는 [1, u] 구간에 해당하는 표본 열 을 입력으로 받고, 웨이브 넷은 시간 u+1에서의 예상 표본 값()을 생성할 수 있다. 그 다음에는 [2, u+1] 구간에 해당하는 표본 열 로부터 을 생성하고, 와 의 차이가 줄어들도록 학습할 수 있다. 이 과정을 순차적으로 반복하면, 1개의 음성 신호에 대한 학습이 완료된다. 이러한 학습 과정을 목적 함수로 나타내면 [수학식 3]과 같이 나타낼 수 있다. For example, the sample column initially corresponds to the interval [1, u]. As the input, and the wavenet returns the expected sample value at time u + 1 ( ) Can be created. Next, the sample column corresponding to the interval [2, u + 1] from Creates a, Wow You can learn to reduce the difference. If this process is repeated sequentially, the learning of one voice signal is completed. If the learning process is expressed as an objective function, it can be expressed as shown in [Equation 3].
[수학식 3][Equation 3]
여기서, 는 와 를 나타내는 함수이며, 교차 엔트로피(cross-entropy)를 주로 사용한다. here, Is Wow This function indicates that cross-entropy is used.
잠시 도 3b 및 6을 함께 참조하면, 음성 판별부(210)는 제 1 화자의 학습용 음성 신호에 대한 조건(309)을 수신할 수 있다. 여기서, 조건은 제 1 화자에 대한 정보 및 판별하고자 하는 음성 신호에 대한 텍스트 정보를 포함할 수 있다. 3B and 6, the
음성 판별부(210)는 제 1 화자의 학습용 음성 신호에 대한 조건(309), 제 1 화자의 학습용 음성 신호(311) 및 제 1 화자의 정상 음성 신호(303)를 이용하여 제 1 화자의 학습용 음성 신호(311)의 합성 여부(313)를 판별할 수 있다. The
예를 들어, 음성 판별부(210)는 제 1 화자의 학습용 음성 신호에 대한 조건(309)으로 제 1 화자의 학습용 음성 신호(311)와 제 1 화자의 정상 음성 신호(303)가 서로 동일한 음성 신호인지를 구분하는 학습을 수행할 수 있다. For example, the
예를 들면, 음성 판별부(210)는 제 1 화자의 학습용 음성 신호에 대한 조건(309)에 기초하여 제 1 화자의 학습용 정상 음성 신호와 제 1 화자의 정상 음성 신호(303)가 서로 동일한 음성 신호로 판별된 경우, 정상 음성 신호에 해당하는 제 1 확률값(예컨대, 1)을 출력할 수 있다. For example, the
다른 일 예로, 음성 판별부(210)는 제 1 화자의 학습용 음성 신호에 대한 조건(309)과 동일한 화자의 음성 신호가 입력되면, 제 1 확률값을 출력할 수 있다. 만일, 제 1 화자의 학습용 정상 음성 신호 및 제 1 화자의 정상 음성 신호(303)에 대하여 서로 다른 음성 신호로 판별된 경우, 음성 판별부(210)는 제 1 화자의 학습용 정상 음성 신호와 제 1 화자의 정상 음성 신호(303)가 서로 동일한 음성 신호로서 인식되도록 학습할 수 있다. As another example, when the voice signal of the same speaker as the
예를 들면, 음성 판별부(210)는 제 1 화자의 학습용 음성 신호에 대한 조건(309)에 기초하여 제 1 화자의 학습용 합성 음성 신호와 제 1 화자의 정상 음성 신호(303)가 서로 다른 음성 신호로 판별된 경우, 합성 음성 신호에 해당하는 제 2 확률값(예컨대, 0)을 출력할 수 있다. For example, the
다른 일 예로, 음성 판별부(210)는 제 1 화자의 학습용 음성 신호에 대한 조건(309)과 다른 화자의 음성 신호가 입력되면, 제 2 확률값(예컨대, 0)을 출력할 수 있다. 만일, 제 1 화자의 학습용 합성 음성 신호 및 제 1 화자의 정상 음성 신호(303)에 대하여 서로 동일한 음성 신호로 판별된 경우, 음성 판별부(210)는 제 1 화자의 학습용 정상 음성 신호와 제 1 화자의 정상 음성 신호(303)가 구별되도록 학습할 수 있다. As another example, when the voice signal of the speaker different from the
본 발명은 제 1 화자에 대한 합성 음성 신호에 대하여 음성 판별부(210)의 출력값이 제 1 확률값에 가까워지도록 음성 합성부(200)를 학습시키고 있다. 즉, 음성 합성부(200)는 제 1 화자의 정상 음성 신호와 유사한 합성 음성 신호를 생성하도록 학습하고, 음성 판별부(210)는 제 1 화자의 정상 음성 신호와 해당 합성 음성 신호를 정확하게 구분하는 학습을 수행하게 되면, 제 1 화자의 정상 음성 신호와 비슷한 합성 음성 신호가 입력되더라도 합성 음성 신호를 정확하게 구분할 수 있다. The present invention trains the
잠시 도 3c를 참조하면, 스푸핑 검출 시스템(110)은 제 1 화자의 학습용 음성 신호(315)를 수신하고, 수신된 제 1 화자의 학습용 음성 신호(315)에 대한 스푸핑 여부를 검출하는 학습(317)을 수행할 수 있다. Referring to FIG. 3C for a while, the
예를 들면, 스푸핑 검출 시스템(110)은 입력된 제 1 학습용 정상 음성 신호가 합성되지 않은 정상 음성 신호로 검출된 경우, 정상 음성 신호에 해당하는 제 1 확률값을 출력할 수 있다. 만일, 수신된 제 1 화자의 제 1 학습용 정상 음성 신호에 대하여 합성 음성 신호에 해당하는 제 2 확률값이 출력된 경우, 스푸핑 검출 시스템(110)은 제 1 화자의 제 1 학습용 정상 음성 신호가 제 1 화자의 정상 음성 신호로 인식되도록 학습할 수 있다. For example, the
또한, 스푸핑 검출 시스템(110)은 수신된 제 1 학습용 합성 음성 신호가 합성된 음성 신호로 검출된 경우, 합성 음성 신호에 해당하는 제 2 확률값을 출력할 수 있다. 만일, 수신된 제 1 화자의 제 1 학습용 합성 음성 신호에 대하여 정상 음성 신호에 해당하는 제 1 확률값이 출력된 경우, 스푸핑 검출 시스템(110)은 제 1 화자의 제 1 학습용 합성 음성 신호와 제 1 화자의 정상 음성 신호를 구별하도록 하는 학습을 수행할 수 있다.In addition, when the received first learning synthesis speech signal is detected as a synthesized speech signal, the
한편, 스푸핑 검출 시스템(110)은 평가용 음성 신호를 이용하여 평가용 음성 신호의 합성 여부에 대한 검출 정확도를 평가할 수 있다. 여기서, 평가용 음성 신호는 복수의 평가용 정상 음성 신호 및 복수의 평가용 합성 음성 신호를 포함할 수 있다. On the other hand, the
예를 들면, 스푸핑 검출 시스템(110)은 적어도 하나의 평가용 정상 음성 신호에 대하여 정상 음성 신호에 해당하는 제 1 검출값을 출력하는지를 검증하고, 적어도 하나의 평가용 합성 음성 신호에 대하여 합성 음성 신호에 해당하는 제 2 검출값을 출력하는지를 검증할 수 있다. For example, the
잠시 도 4a 내지 4c를 참조하면, 스푸핑 검출 시스템(110)이 적어도 하나의 평가용 합성 음성 신호(401)에 대하여 제 1 화자의 정상 음성 신호에 해당하는 제 1 검출값(403)을 출력하는 경우, 스푸핑 검출 시스템(110)은 해당 평가용 합성 음성 신호(401)에 대한 검출 정확도를 낮게 평가할 수 있다. 4A to 4C, when the
스푸핑 검출 시스템(110)이 적어도 하나의 평가용 합성 음성 신호(401)를 제 1 화자의 정상 음성 신호로 판단한 경우, 스푸핑 검출 시스템(110)은 제 1 화자의 정상 음성 신호로 판단된 적어도 하나의 평가용 합성 음성 신호(401)를 제 1 화자의 정상 음성 신호와 구별하도록 하는 재학습을 수행할 수 있다. When the
스푸핑 검출 시스템(110)이 적어도 하나의 평가용 정상 음성 신호(405)에 대하여 합성 음성 신호에 해당하는 제 2 검출값(407)을 출력하는 경우, 스푸핑 검출 시스템(110)은 해당 평가용 정상 음성 신호(405)에 대한 검출 정확도를 낮게 평가할 수 있다. When the
스푸핑 검출 시스템(110)이 적어도 하나의 평가용 정상 음성 신호(405)를 합성된 음성 신호로 판단한 경우, 스푸핑 검출 시스템(110)은 합성된 음성 신호로 판단된 적어도 하나의 평가용 정상 음성 신호(405)를 제 1 화자의 정상 음성 신호로 인식하도록 재학습을 수행할 수 있다. When the
스푸핑 검출 시스템(110)이 적어도 하나의 평가용 합성 음성 신호(409)에 대하여 합성 음성 신호에 해당하는 제 2 검출값(411)을 출력하는 경우, 스푸핑 검출 시스템(110)은 해당 평가용 합성 음성 신호(409)에 대한 검출 정확도를 높게 평가할 수 있다. When the
스푸핑 검출 시스템(110)이 적어도 하나의 평가용 합성 음성 신호(409)를 합성된 음성 신호로 판단한 경우, 음성 합성부(200)는 제 1 화자의 정상 음성 신호와 유사한 합성 음성 신호를 재생성하도록 학습할 수 있다. When the
이와 같이, 음성 합성 시스템(100)은 스푸핑 검출 시스템(110)에서 합성 음성 여부를 정확하게 검출하기 어려울 정도로 제 1 화자의 정상 음성 신호와 유사한 합성 음성 신호를 생성하도록 학습하고, 스푸핑 검출 시스템(110)은 합성 음성 신호와 제 1 화자의 정상 음성 신호를 정확하게 구별하도록 학습함으로써 음성 합성 시스템(100)은 제 1 화자의 정상 음성 신호와 상당히 비슷한 합성 음성 신호를 생성할 수 있고, 스푸핑 검출 시스템(110)은 제 1 화자의 정상 음성 신호와 상당히 비슷한 합성 음성 신호라도 합성 여부를 정확하게 검출하는 화자 음성 인증 서비스를 제공할 수 있다. As such, the
도 1을 참조하면, 음성 데이터베이스(120)는 복수의 화자 각각에 대한 복수의 학습용 음성 신호를 저장하는 제 1 음성 데이터베이스(122)와 복수의 화자 각각에 대한 복수의 평가용 음성 신호를 저장하는 제 2 음성 데이터베이스(124)를 포함할 수 있다. 예를 들면, 제 1 음성 데이터베이스(122)는 제 1 화자의 복수의 학습용 정상 음성 신호 및 복수의 학습용 합성 음성 신호를 포함하는 복수의 학습용 음성 신호를 저장할 수 있다. 제 2 음성 데이터베이스(124)는 제 1 화자의 복수의 평가용 정상 음성 신호 및 복수의 평가용 합성 음성 신호를 포함하는 복수의 평가용 음성 신호를 저장할 수 있다. Referring to FIG. 1, the
도 7은 본 발명의 일 실시예에 따른, 화자 음성 인증 서비스에서 스푸핑을 검출하는 방법을 나타낸 흐름도이다. 7 is a flowchart illustrating a method for detecting spoofing in a speaker voice authentication service according to an embodiment of the present invention.
도 7에 도시된 실시예에 따른 스푸핑 검출 방법은 도 1 내지 도 6에 도시된 실시예에 따른 음성 합성 시스템(100) 및 스푸핑 검출 시스템(110)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 6의 음성 합성 시스템(100) 및 스푸핑 검출 시스템(110)에 관하여 기술된 내용은 도 7에 도시된 실시예에 따른 스푸핑 검출 방법에도 적용될 수 있다. The spoofing detection method according to the embodiment shown in FIG. 7 includes steps that are processed in time series in the
도 7을 참조하면, 단계 S701에서 음성 합성 시스템(100)은 제 1 화자의 정상 음성 신호 및 랜덤 노이즈 신호를 합성하여 제 1 화자에 대한 복수의 합성 음성 신호를 생성할 수 있다. Referring to FIG. 7, in operation S701, the
단계 S703에서 음성 합성 시스템(100)은 제 1 화자의 학습용 음성 신호를 수신할 수 있다. In operation S703, the
단계 S705에서 음성 합성 시스템(100)은 제 1 화자의 학습용 음성 신호와 제 1 화자의 정상 음성 신호를 비교하여, 제 1 화자의 학습용 음성 신호의 합성 여부를 판별할 수 있다. In operation S705, the
단계 S707에서 스푸핑 검출 시스템(110)은 화자 음성 인증 서비스를 제공할 수 있다. In operation S707, the
상술한 설명에서, 단계 S701 내지 S707은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. In the above description, steps S701 to S707 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present invention. In addition, some steps may be omitted as necessary, and the order between the steps may be changed.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. An embodiment of the present invention may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by the computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, computer readable media may include all computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. The foregoing description of the present invention is intended for illustration, and it will be understood by those skilled in the art that the present invention may be easily modified in other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. .
100: 음성 합성 시스템
110: 스푸핑 검출 시스템
120: 음성 데이터베이스
200: 음성 합성부
210: 음성 판별부100: speech synthesis system
110: spoofing detection system
120: voice database
200: speech synthesis unit
210: voice discriminating unit
Claims (14)
제 1 화자의 정상 음성 신호 및 랜덤 노이즈 신호를 합성하여 상기 제 1 화자에 대한 복수의 합성 음성 신호를 생성하는 음성 합성부 및 상기 제 1 화자의 학습용 음성 신호를 수신하고, 상기 제 1 화자의 학습용 음성 신호와 상기 제 1 화자의 정상 음성 신호를 비교하여, 상기 제 1 화자의 학습용 음성 신호의 합성 여부를 판별하는 음성 판별부를 포함하는 음성 합성 시스템; 및
상기 화자 음성 인증 서비스를 제공하는 스푸핑 검출 시스템
을 포함하는 음성 인증 시스템.
In a voice authentication system for detecting spoofing in a speaker voice authentication service,
Receives a speech synthesizer for synthesizing a normal speech signal and a random noise signal of the first speaker to generate a plurality of synthesized speech signals for the first speaker and a learning speech signal of the first speaker, and for learning the first speaker A speech synthesizing system including a speech discriminating unit configured to compare a speech signal with a normal speech signal of the first speaker and determine whether to synthesize the speech signal for learning of the first speaker; And
Spoofing detection system for providing the speaker voice authentication service
Voice authentication system comprising a.
상기 음성 합성부는 적대적 생성 네트워크에 기초하여 상기 제 1 화자의 정상 음성 신호와 유사한 합성 음성 신호를 생성하기 위한 학습을 수행하고,
상기 음성 판별부는 상기 적대적 생성 네트워크에 기초하여 상기 제 1 화자의 학습용 음성 신호와 상기 제 1 화자의 정상 음성 신호를 구별하기 위한 학습을 수행하는 것인, 음성 인증 시스템.
The method of claim 1,
The speech synthesis unit performs learning to generate a synthesized speech signal similar to the normal speech signal of the first speaker based on the hostile generating network,
And the voice discriminating unit performs learning for distinguishing the learning voice signal of the first speaker from the normal voice signal of the first speaker based on the hostile generating network.
상기 음성 합성부는 상기 적대적 생성 네트워크에 대한 목적 함수를 최소화하도록 학습하고,
상기 음성 판별부는 상기 목적 함수를 최대화하도록 학습하는 것인, 음성 인증 시스템.
The method of claim 2,
The speech synthesizer learns to minimize the objective function for the hostile generating network,
And the speech discriminating unit learns to maximize the objective function.
상기 음성 합성부가 상기 목적 함수를 최소화하도록 상기 음성 합성부는 상기 제 1 화자의 학습용 음성 신호의 합성 여부에 대한 확률을 높이도록 학습하는 것인, 음성 인증 시스템.
The method of claim 3, wherein
And the speech synthesizer learns to increase the probability of synthesizing the learning speech signal of the first speaker so that the speech synthesizer minimizes the objective function.
상기 음성 판별부가 상기 목적 함수를 최대화하도록 상기 음성 판별부는 상기 제 1 화자의 학습용 음성 신호로서 학습용 정상 음성 신호와 학습용 합성 음성 신호의 구분에 대한 확률을 높이도록 학습하는 것인, 음성 인증 시스템.
The method of claim 4, wherein
And the speech discriminating unit learns to increase a probability of distinguishing a learning normal speech signal from a learning synthesized speech signal as the learning speech signal of the first speaker so that the speech discriminating unit maximizes the objective function.
상기 합성 음성 신호는 학습용 합성 음성 신호 및 평가용 합성 음성 신호를 포함하고,
상기 제 1 화자의 학습용 음성 신호는 상기 제 1 화자의 학습용 정상 음성 신호 또는 상기 학습용 합성 음성 신호인 것인, 음성 인증 시스템.
The method of claim 1,
The synthesized speech signal includes a synthesized speech signal for learning and a synthesized speech signal for evaluation,
The learning speech signal of the first speaker is a learning normal speech signal or the learning synthesized speech signal of the first speaker.
상기 음성 합성부 및 상기 음성 판별부는 조건부 적대적 생성 네트워크에 기초하여 학습을 수행하는 것인, 음성 인증 시스템.
The method of claim 1,
And the speech synthesizing unit and the speech discriminating unit perform learning based on a conditional hostile generating network.
상기 음성 합성부는 상기 제 1 화자의 정상 음성 신호에 대한 조건을 수신하고,
상기 음성 판별부는 상기 제 1 화자의 학습용 음성 신호에 대한 조건을 수신하는 것인, 음성 인증 시스템.
The method of claim 7, wherein
The speech synthesizer receives a condition for the normal speech signal of the first speaker,
And the voice discrimination unit receives a condition for the learning voice signal of the first speaker.
상기 조건은 화자에 대한 정보 및 수신하는 음성 신호에 대한 텍스트 정보를 포함하는 것인, 음성 인증 시스템.
The method of claim 8,
Wherein the condition includes information about the speaker and textual information about the received voice signal.
상기 스푸핑 검출 시스템은 상기 제 1 화자의 학습용 음성 신호를 수신하고,
상기 수신된 제 1 화자의 학습용 음성 신호에 대한 스푸핑 여부를 검출하는 학습을 수행하는 것인, 음성 인증 시스템.
The method of claim 1,
The spoofing detection system receives the learning voice signal of the first speaker,
And learning to detect whether to spoof the received speech signal for learning of the first speaker.
상기 스푸핑 검출 시스템이 상기 평가용 합성 음성 신호를 합성된 음성 신호로 판단한 경우, 상기 음성 합성부는 상기 제 1 화자의 정상 음성 신호와 유사한 합성 음성 신호를 재생성하도록 학습하는 것인, 음성 인증 시스템.
The method of claim 6,
And when the spoofing detection system determines the evaluation synthesized speech signal as a synthesized speech signal, the speech synthesizer learns to reproduce a synthesized speech signal similar to the normal speech signal of the first speaker.
상기 스푸핑 검출 시스템이 상기 평가용 정상 음성 신호 중 적어도 하나의 평가용 정상 음성 신호를 합성된 음성 신호로 판단한 경우, 상기 스푸핑 검출 시스템은 상기 합성된 음성 신호로 판단된 적어도 하나의 평가용 정상 음성 신호를 상기 제 1 화자의 정상 음성 신호로 인식하도록 재학습을 수행하는 것인, 음성 인증 시스템.
The method of claim 11,
When the spoofing detection system determines that at least one evaluation normal voice signal of the evaluation normal voice signal is a synthesized voice signal, the spoofing detection system determines at least one evaluation normal voice signal determined as the synthesized voice signal. Re-learning to recognize as a normal voice signal of the first speaker.
상기 스푸핑 검출 시스템이 상기 평가용 합성 음성 신호 중 적어도 하나의 평가용 합성 음성 신호를 상기 제 1 화자의 정상 음성 신호로 판단한 경우,
상기 스푸핑 검출 시스템은 상기 제 1 화자의 정상 음성 신호로 판단된 적어도 하나의 평가용 합성 음성 신호를 상기 제 1 화자의 정상 음성 신호와 구별하도록 하는 재학습을 수행하는 것인, 음성 인증 시스템.
The method of claim 11,
The spoofing detection system determines that at least one evaluation synthesized speech signal of the evaluation synthesized speech signal is a normal speech signal of the first speaker;
And the spoofing detection system performs relearning to distinguish at least one evaluation synthesized speech signal determined as the normal speech signal of the first speaker from the normal speech signal of the first speaker.
제 1 화자의 정상 음성 신호 및 랜덤 노이즈 신호를 합성하여 상기 제 1 화자에 대한 복수의 합성 음성 신호를 생성하는 음성 합성부; 및
상기 제 1 화자의 학습용 음성 신호를 수신하고, 상기 제 1 화자의 학습용 음성 신호와 상기 제 1 화자의 정상 음성 신호를 비교하여, 상기 제 1 화자의 학습용 음성 신호의 합성 여부를 판별하는 음성 판별부
를 포함하는 음성 합성 시스템.A voice synthesis system for synthesizing a speaker's voice used in a spoofing detection system that provides a speaker voice authentication service,
A speech synthesizer configured to synthesize a normal speech signal and a random noise signal of a first speaker to generate a plurality of synthesized speech signals for the first speaker; And
A voice discriminating unit configured to receive a learning voice signal of the first speaker, compare the learning voice signal of the first speaker with a normal voice signal of the first speaker, and determine whether to synthesize the learning voice signal of the first speaker;
Speech synthesis system comprising a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180056658A KR102069135B1 (en) | 2018-05-17 | 2018-05-17 | Voice recognition system for detecting spoofing in speaker voice authentication service |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180056658A KR102069135B1 (en) | 2018-05-17 | 2018-05-17 | Voice recognition system for detecting spoofing in speaker voice authentication service |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190131806A true KR20190131806A (en) | 2019-11-27 |
KR102069135B1 KR102069135B1 (en) | 2020-01-22 |
Family
ID=68730029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180056658A KR102069135B1 (en) | 2018-05-17 | 2018-05-17 | Voice recognition system for detecting spoofing in speaker voice authentication service |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102069135B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220040813A (en) * | 2020-09-24 | 2022-03-31 | 장원준 | Computing Detection Device for AI Voice |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001318692A (en) | 2000-05-11 | 2001-11-16 | Yasutaka Sakamoto | Individual identification system by speech recognition |
JP2012141354A (en) * | 2010-12-28 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus and program for voice synthesis |
KR20160148009A (en) * | 2014-07-04 | 2016-12-23 | 인텔 코포레이션 | Replay attack detection in automatic speaker verification systems |
-
2018
- 2018-05-17 KR KR1020180056658A patent/KR102069135B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001318692A (en) | 2000-05-11 | 2001-11-16 | Yasutaka Sakamoto | Individual identification system by speech recognition |
JP2012141354A (en) * | 2010-12-28 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | Method, apparatus and program for voice synthesis |
KR20160148009A (en) * | 2014-07-04 | 2016-12-23 | 인텔 코포레이션 | Replay attack detection in automatic speaker verification systems |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220040813A (en) * | 2020-09-24 | 2022-03-31 | 장원준 | Computing Detection Device for AI Voice |
Also Published As
Publication number | Publication date |
---|---|
KR102069135B1 (en) | 2020-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Who is real bob? adversarial attacks on speaker recognition systems | |
EP3599606B1 (en) | Machine learning for authenticating voice | |
Villalba et al. | x-Vectors Meet Adversarial Attacks: Benchmarking Adversarial Robustness in Speaker Verification. | |
Muckenhirn et al. | End-to-end convolutional neural network-based voice presentation attack detection | |
Hu et al. | Adversarial examples for automatic speech recognition: Attacks and countermeasures | |
KR20200027475A (en) | System and method for speech-to-speech conversion | |
US9430627B2 (en) | Method and system for enforced biometric authentication | |
CN106062871B (en) | Training a classifier using the selected subset of cohort samples | |
Chen et al. | Towards understanding and mitigating audio adversarial examples for speaker recognition | |
US20140278412A1 (en) | Method and apparatus for audio characterization | |
US9106422B2 (en) | System and method for personalized security signature | |
Marras et al. | Adversarial Optimization for Dictionary Attacks on Speaker Verification. | |
Aravind et al. | Audio spoofing verification using deep convolutional neural networks by transfer learning | |
Salvi et al. | Exploring the synthetic speech attribution problem through data-driven detectors | |
KR102069135B1 (en) | Voice recognition system for detecting spoofing in speaker voice authentication service | |
Cai et al. | Identifying source speakers for voice conversion based spoofing attacks on speaker verification systems | |
Kumar et al. | Deepfakes audio detection techniques using deep convolutional neural network | |
Saleem et al. | Online signature verification based on signer dependent sampling frequency and dynamic time warping | |
CN111667839A (en) | Registration method and apparatus, speaker recognition method and apparatus | |
CN111598020A (en) | Electromagnetic signal identification method based on semi-supervised generation countermeasure network | |
CN110706712A (en) | Recording playback detection method in home environment | |
Karakos et al. | Individual ship detection using underwater acoustics | |
Liu et al. | Speaker-Aware Anti-Spoofing | |
Gonzalez-Soler et al. | Dual-stream temporal convolutional neural network for voice presentation attack detection | |
CN112750067A (en) | Image processing system and training method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |