KR100355113B1 - A Voice authentication system using vowel pitch period of human voice and the method thereof - Google Patents
A Voice authentication system using vowel pitch period of human voice and the method thereof Download PDFInfo
- Publication number
- KR100355113B1 KR100355113B1 KR1020000064660A KR20000064660A KR100355113B1 KR 100355113 B1 KR100355113 B1 KR 100355113B1 KR 1020000064660 A KR1020000064660 A KR 1020000064660A KR 20000064660 A KR20000064660 A KR 20000064660A KR 100355113 B1 KR100355113 B1 KR 100355113B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- vowel
- pitch period
- voice
- authentication
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000004891 communication Methods 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004266 retinal recognition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
개시된 본원 발명은 비선형 방법에 의하여 음성중 모음의 피치를 검출한 후 검출된 모음을 이용하여 사용자를 인증하는 음성의 모음 피치주기를 이용한 사용자음성인증 시스템 및 그 방법에 관한 것이다.The disclosed invention relates to a user voice authentication system using a vowel pitch period of a voice for detecting a pitch of a vowel in a voice by a nonlinear method and then authenticating a user using the detected vowel.
본원 발명에 따르는 음성의 모음 피치주기를 이용한 사용자 음성인증 시스템은 외부로부터 음성 신호를 입력받아 음성 중 모음 신호에 대한 피치주기를 검출하고 전송하는 음성인식장치; 상기 음성인식장치로부터 전송된 각 사용자별 음성의 모음에대한 피치주기를 수신하여 저장하고, 상기 음성인식장치로부터 음성인식에 의한 인증요청이 있는 경우 상기 음성인식장치로부터 검출되어 전송되는 음성 중 모음의 피치주기를 기 저장된 사용자의 모음에 대한 피치주기와 비교하여 인증을 수행하는 인증서버; 및 상기 음성인식장치와 상기 인증서버가 연결되는 통신망을 포함하여 구성된다.A user voice authentication system using a vowel pitch period of a voice according to the present invention includes a voice recognition device that receives a voice signal from an external device and detects and transmits a pitch period of a vowel signal among voices; Receives and stores the pitch period for each user's vowels transmitted from the voice recognition device, and if there is an authentication request by voice recognition from the voice recognition device, the vowels of the voices detected and transmitted from the voice recognition device are transmitted. An authentication server for performing authentication by comparing a pitch period with a pitch period for a previously stored collection of users; And a communication network to which the voice recognition device and the authentication server are connected.
본원 발명에 의하면 기존의 문자나 숫자를 이용한 비밀번호의 도용에 의한 보안의 취약성을 극복하며, 또한 상술한 기존의 문자나 숫자를 이용한 비밀번호에 의한 인증방법과 병행함으로써 보안성을 현저히 높이는 효과가 있고, 해당 사용자를 정확하게 인식할 수 있도록 하는 효과가 있다.According to the present invention, there is an effect of overcoming the vulnerability of security by the theft of the password using the existing letters or numbers, and in addition to the authentication method by the password using the existing letters or numbers, it is effective to significantly increase the security, There is an effect that can accurately recognize the user.
본원 발명의 또 다른 효과는, 음성을 이용하여 사용자 인증을 수행할 경우, 인증시 예제문을 랜덤하게 생성하므로 기존의 음성인식 방법에서 특정 문장을 비밀번호로 하는 경우, 외부의 침입자가 해당 문장을 녹음하여 사용함으로써 침입자가오 승인되는 것을 방지하는 효과가 있다.Another effect of the present invention, when performing a user authentication by using a voice, since the randomly generated example sentences at the time of authentication, if a specific sentence as a password in the existing voice recognition method, an external intruder records the sentence By using it, it is effective to prevent intruders from being approved.
또한 본원 발명의 또 다른 효과는 본원 발명이 모음 중 10개의 단모음에 대한 피치주기만을 사용하므로 인증에 필요한 데이터 양을 현저히 줄여 통신 과부하 현상을 극복하는 효과가 있으며, 이러한 이유로 고속화되지 않은 인터넷 환경에서도 적용할 수 있다는 효과가 있다.In addition, another effect of the present invention is that the present invention uses only a pitch period for 10 short vowels of the vowels, thereby significantly reducing the amount of data required for authentication, thereby overcoming communication overload phenomena. The effect is that you can.
Description
본 발명은 음성신호 중 모음의 피치주기를 이용한 사용자 인증시스템 및 그 방법에 관한 것으로써, 특히 음성신호 중 단모음에 대한 피치주기에 의하여 사용자를 인증하는 음성의 모음 피치주기를 이용한 사용자 인증시스템 및 그 방법에 관한 것이다.The present invention relates to a user authentication system using a pitch period of a vowel of a voice signal, and a method thereof, and more particularly, to a user authentication system using a vowel pitch period of a voice for authenticating a user by a pitch period of a short vowel of a voice signal. It is about a method.
종래에 있어서 사용자를 인증하는 가장 일반적인 방법은, 사용자가 인증되어야할 시스템에 사용자의 ID와 패스워드를 설정하고, 인증이 필요한 경우 ID와 패스워드를 입력하여 인증을 수행하는 것이었다. 그러나 이러한 종래의 방법은 사용자의 ID와 패스워드가 유출되는 경우에 보안을 필요로 하는 시스템을 방어할 수 없다는 문제점이 있다. 이러한 문제점을 해결하기 위하여 사용자 인증을 위해 생체 정보를 이용하는 방법이 사용되고 있고, 그러한 방법으로 지문인식, 홍체정보 인식, 망막인식 등의 다양한 방법이 도출되고 있다. 하나 이러한 인식 방법이 그 보안성 면에서 매우 탁월한 효과를 지니고 있으나 해당 생체 정보데이터가 유출되는 경우 보안상의 허점이 있다.Conventionally, the most common method of authenticating a user is to set an ID and password of a user in a system to be authenticated by a user, and perform authentication by inputting an ID and password when authentication is required. However, this conventional method has a problem in that it is not possible to defend a system requiring security in case a user ID and password are leaked. In order to solve this problem, a method of using biometric information is used for user authentication, and various methods such as fingerprint recognition, iris information recognition, and retinal recognition have been derived. However, this recognition method has a very excellent effect in terms of security, but there is a security hole when the biometric data is leaked.
다음으로 종래기술로서의 국내 공개 특허 특2000-054735호의 "화자인증을 이용한 인터폰 및 시건보안장치"를 예로 들어 종래 기술에서의 문제점을 좀더 상세히 설명하고자 한다.Next, the problem in the prior art will be described in more detail with reference to "interphone and security device using speaker authentication" of Korean Patent Application Publication No. 2000-054735.
도 1에 도시된 종래 기술로서의 국내 공개 특허 "화자인증을 이용한 인터폰 및 시건 보안장치"는 사용자가 외부에서 음성입력부를 통해 암호로써 설정된 멘트를 입력하면, 내부에 구성된 인식 모듈에서 기 저장된 암호에 대한 사용자 정보 및 사용자 음성 정보를 플래시메모리와 같은 저장부로부터 독출하여 음성에 의한 사용자 인증 알고리즘에 의해 사용자를 인증하도록 하여 시건 장치를 개폐하도록 하는 것이다. 이러한 화자인증을 이용한 인터폰 및 시건 보안장치는 단어나 문장을 저장하고 사용자가 저장 사항을 발음하여 이를 근거로 판단하는 시스템이므로 사용자가 많은 경우 같은 단어나 문장을 비밀번호로 작성할 경우 이에 대한 보안이 필요하고, 또한 단어나 문장의 사용은 인터넷상에서 데이터를 주고받을 때 데이터 양이 많으므로, 이의 처리에 시간이 오래 걸리기 때문에 이를 인터넷의 보안에 응용하기에 어렵다는 문제점이 있다. 또한 음성 입력시 이를 디지털화 하는데 있어서 순수하게 소프트웨어적으로 사용하지 않고, 이를 구현하기 위한 하드웨어의 제작이 필요하므로 소프트웨어에 의한 시스템 특히 인터넷에의 적용이 어렵다는 문제점이 있다.Domestic public patent "interphone and security device using the speaker authentication" as a prior art shown in Figure 1, when a user inputs a comment set as a password through the voice input unit from the outside, the recognition module configured therein for the previously stored password The user information and the user voice information are read from a storage unit such as a flash memory to authenticate the user by a user authentication algorithm by voice to open and close the lock device. Interphone and security device using the speaker authentication is a system that stores words or sentences, and the user pronounces the stored matters and judges them based on them. In addition, since the use of words or sentences has a large amount of data when exchanging data on the Internet, there is a problem that it is difficult to apply them to the security of the Internet because the processing thereof takes a long time. In addition, there is a problem in that it is difficult to apply to a system by software, especially the Internet, because it is not necessary to use purely software to digitize the voice input, and to manufacture hardware for implementing the same.
도 2는 종래에 있어서 웹브라우저 상에서의 음성인식 구현을 위한 장치의 일 부분의 구성도이다.2 is a block diagram of a part of an apparatus for implementing speech recognition on a web browser in the related art.
도시된 바와 같이 웹브라우저 상에서 음성인식을 구현하기 위한 일 부분의구성은 웹브라우저, 인식대상어휘 생성부, 가변어휘 인식부, 인식결과 분석부, 음성북마크 및 명령어 모듈부, HTML 파일 분석부로 구성되며, 본 구성요소를 이루는 모듈의 외부에 구성된 중앙처리장치에 의하여 제어되고, 또한 인터넷망을 통해 통신을 수행하게 된다. 이러한 종래에 있어서의 웹브라우저 상에서의 음성인식 방법의 구현은 현재 기술로서 불특정화자에 대한 음성 인식이 이루어지고 있지 않으며, 자음접변, 두음법칙, 연음법칙 등의 음운현상과 동음이의어 등에 대한 음성인식 알고리즘이 정립되어 있지 않고, 특정화자에 대한 음성인식의 경우도 동일 음성에 대한 다른 기호 즉 "퍼센트"에 대한 문자로서의 "퍼센트"인지 기호로서의 "%"인지를 판별하는 알고리즘이 제시되어 있지 않다. 또한 음성 인식에 대한 학습의 방법이나 고립단어 생성 후 이에 대한 데이터 베이스 작성 및 그를 활용하는 구체적인 방법이 제시되어 있지 않고 현재의 음성인식 기술로는 구현이 어려운 상황이다.As shown, a part of the configuration for implementing speech recognition on the web browser is composed of a web browser, a recognition target vocabulary generation unit, a variable vocabulary recognition unit, a recognition result analysis unit, a voice book mark and command module unit, and an HTML file analysis unit. It is controlled by a central processing unit configured outside of the module constituting this component, and also performs communication through the Internet network. The conventional voice recognition method on the web browser is a speech recognition algorithm for consonant phenomena such as consonant consonants, two consonant laws, and the consonant law. This is not established, and even in the case of speech recognition for a particular speaker, no algorithm for discriminating whether it is "percent" as a character for "percent" or another symbol for the same voice is presented. In addition, there is no specific method of learning about speech recognition or creating a database after creating isolated words and using them, and it is difficult to implement with current speech recognition technology.
이러한 관점에서 도 2에 도시된 종래 기술로서의 웹브라우저 상에서의 음성인식 구현 방법을 이용하여서도 음성인식에 의한 사용자 인식의 구현이라는 목적을 달성할 수 없다는 문제점이 있다.From this point of view, there is a problem in that the object of realizing user recognition by speech recognition can not be achieved even by using the speech recognition implementation method on the web browser shown in FIG.
이에 본 발명은 상기와 같은 문제점을 해결하기 위한 것으로서, 음성인식에 의한 보안 시스템을 제공하고, 또한 상술한 음성인식 시스템에서의 녹음에 의한 보안상의 허점을 없애기 위한 음성의 모음 피치주기를 이용한 사용자 인증시스템 및 그 방법을 제공하는데 그 목적이 있다.Accordingly, the present invention is to solve the above problems, to provide a security system by voice recognition, and user authentication using a vowel pitch cycle of voice to eliminate the security loophole by recording in the voice recognition system described above. It is an object of the present invention to provide a system and a method thereof.
또한, 상기와 같이 음성의 모음피치 주기만을 검출하여 인증서버로 전송함으로써 통신망에서 인증에 사용되는 데이터의 양을 줄여 인증절차에 소요되는 시간을 현저하게 줄이며, 인증서버에서의 데이터베이스 구현을 간소화시키는데 그 목적이 있다.In addition, by detecting only the vowel pitch period of the voice as described above and transmitting it to the authentication server, the amount of data used for authentication in the communication network is significantly reduced, thereby significantly reducing the time required for the authentication process and simplifying the database implementation in the authentication server. There is a purpose.
도 1은 종래에 있어서 음성인식을 이용한 인터폰 및 시건 장치를 나타내는 도면,1 is a view showing an interphone and a device using a voice recognition in the prior art,
도 2는 종래에 있어서 웹브라우저 상에서의 음성인식을 구현하는 방법을 나타내는 도면,2 is a view showing a method of implementing speech recognition on a web browser in the related art;
도 3은 본 발명에 따르는 음성의 모음 피치주기를 이용한 사용자 인증시스템의 바람직한 일 실시예를 나타내는 블록도,3 is a block diagram showing a preferred embodiment of a user authentication system using a vowel pitch period of speech according to the present invention;
도 4는 도 3의 사용자 인증시스템의 동작 과정을 개괄적으로 나타내는 블록도,4 is a block diagram schematically illustrating an operation process of the user authentication system of FIG. 3;
도 5는 도 3의 사용자 인증시스템에서 사용자의 음성에서 모음의 피치주기를 검출하여 사용자를 인증하는 방법에 대한 처리과정을 나타내는 순서도,5 is a flowchart illustrating a process of a method of authenticating a user by detecting a pitch period of a vowel in a user's voice in the user authentication system of FIG.
도 6은 도 5의 사용자 인증처리 과정 중 사용자의 모음에 대한 피치주기를 검출하여 등록하는 과정을 나타내는 서브루틴도이다.FIG. 6 is a subroutine diagram illustrating a process of detecting and registering a pitch period of a collection of users during the user authentication process of FIG. 5.
* 도면의 주요 부분에 대한 부호의 설명** Explanation of symbols for the main parts of the drawings *
300 : 음성인식장치 310 : 인증서버300: voice recognition device 310: authentication server
301 : 음성입력부 302 : 모음피치주기 검출부301: voice input unit 302: vowel pitch period detection unit
303, 313 : 제어부 304,314 : 통신부303, 313 control unit 304,314 communication unit
305 : 디스플레이부 311 : 저장부305: display unit 311: storage unit
312 : 모음피치주기 비교부 315 : 인증부312: vowel pitch cycle comparison unit 315: authentication unit
상기와 같은 목적을 달성하기 위한 본 발명에 따르는 음성의 모음 피치주기를 이용한 사용자 인증시스템 및 그 방법은,User authentication system and method using the vowel pitch period of the voice according to the present invention for achieving the above object,
음성입력부(301), 모음피치주기 검출부(302), 통신부(304), 디스플레이부 (305), 및 제어부(303)를 구비한 음성인식 장치(300)와 통신부(314), 모음피치주기 비교부(312), 저장부(311), 제어부(313) 및 인증부(315)를 구비한 인증서버(310) 그리고 상기 음성인식장치(300)와 인증서버(310)를 서로 연결하는 통신망을 포함하여 구성된다.Speech recognition device 300 having a voice input unit 301, vowel pitch period detection unit 302, communication unit 304, display unit 305, and the control unit 303, communication unit 314, vowel pitch period comparison unit 312, the storage unit 311, including the authentication server 310 having a control unit 313 and the authentication unit 315 and a communication network for connecting the voice recognition device 300 and the authentication server 310 with each other It is composed.
다음으로 상기 인증시스템을 이용한 사용자의 음성에 의한 인증처리 절차는 사용자에게 단모음, 즉 ㅏ,ㅑ,ㅓ,ㅕ,ㅗ,ㅛ,ㅜ,ㅠ,ㅡ,ㅣ가 모두 포함된 다수의 예제문을 발성하게 하여 사용자의 음성에 대한 모음의 피치주기를 검출하여 저장하고, 사용자가 인증을 요청하는 경우 랜덤프로세스에 의해 불 특정한 임의의 예제문을 생성하여 사용자가 해당 예제문을 발성하게 한다. 다음으로 발성된 예제문에 대한 음성 신호에서 모음에 대한 피치 주기만을 검출하여 인증서버(310)로 전송하여 기 저장된 사용자의 모음의 피치주기와 비교함으로써 사용자의 인증 절차를 수행하도록 하는 것이다.Next, the authentication process based on the user's voice using the authentication system generates a plurality of example sentences including all of the short vowels, ie, ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅜ, ㅠ, ㅡ, ㅣ to the user. It detects and stores the pitch period of the vowel for the user's voice, and when the user requests authentication, generates random example sentences that are unspecified by the random process and allows the user to speak the example sentences. Next, only the pitch period of the vowel is detected from the voice signal of the spoken example sentence and transmitted to the authentication server 310 to compare with the pitch period of the pre-stored vowel to perform the authentication process of the user.
여기서 화자 인증시스템을 구동할 때 입력되는 음성은 유성음, 무성음, 무음으로 구분할 수 있으며, 구분된 음소들 중 유성음 중에서 모음의 피치 주기만을 검출하여 이를 사용자 인증에 사용하게 된다.Here, the voice input when driving the speaker authentication system can be divided into voiced sound, unvoiced sound, and silent sound, and only the pitch period of the vowel is detected among voiced sounds among the divided phonemes and used for user authentication.
본원 발명의 특징이라 할 수 있는 모음의 피치(Pitch)주기만을 사용자의 음성 인증에 사용하는 이유는 인터넷 상에서 이를 구현할 때 문장이나 단어를 사용하여 사용자인증을 하는 것이 아니라, 인증용 문장이나 단어를 랜덤(Random)하게 발생시켜, 인증 시마다 서로 다른 문장을 사용하게 함으로써 보안정도를 높이고, 또한 인터넷상에서 인증용 파라미터(Parameter)의 빠른 축출과 처리를 위함이며, 또한, 모음의 피치주기는 사람마다 그 음색을 구분하는 요소로서 사람의 성문에서 발생하는 펄스(Pulse)에 의하여 그 특성이 나타나는 것으로서 이로 인하여 발성되는 모음들의 피치(Pitch)주기 만으로도 사용자인증이 가능하기 때문이다.The reason for using only a vowel pitch period, which is a feature of the present invention, for voice authentication of a user is not to use a sentence or word to authenticate a user when implementing it on the Internet, but to randomize a sentence or word for authentication. It is designed to increase the security level by generating a random number and to use different sentences for each authentication, and to quickly extract and process authentication parameters on the Internet. This is because the characteristic is represented by the pulse generated in the human gate as it is possible to authenticate the user only by the pitch period of the vowels uttered.
이를 위하여 입력되는 음성을 기 출원된 출원번호 10-2000-0056532의 특허"비선형 방법에 의한 음성신호의 특성 추출 방법"을 이용하여 유성음을 축출하고, 모음의 경우는 포먼트(Formant)라는 공명주파수의 특성이 확실히 나타나므로 이러한 공명 주파수를 이용하여 모음을 축출한 다음, 상기 축출된 모음에 대한 피치주기를 검출하여 이를 화자인증용 파라미터(Parameter)구성에 사용하며, 여기서 사용되는 모음은 모음 중 기본모음 10 가지인 "ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ, ㅜ, ㅠ, ㅡ, ㅣ"만을 사용하여 이의 피치주기를 검출하여 이를 파라미터화 함으로써 인증을 위해 통신망에 전송되는 데이터의 양을 현저하게 줄임으로써 데이터의 통신이 고속화되고, 인증처리에 걸리는 처리 시간이 단축되게 된다.To this end, the voice input is extracted using the patented "method of extracting the characteristics of the voice signal by the nonlinear method" of the previously applied application No. 10-2000-0056532, and in the case of vowels, a resonance frequency called a formant Since the characteristics of are clearly shown, the vowels are evicted using these resonance frequencies, and then the pitch period of the evicted vowels is detected and used in the configuration of parameters for speaker authentication. By using only 10 vowels, “ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ, ,, ㅠ, ㅡ, ㅣ”, it detects and parameterizes the pitch period, thereby remarkably increasing the amount of data transmitted to the network for authentication. This speeds up communication of data and shortens the processing time required for authentication processing.
이하, 본 발명에 따르는 음성의 모음 피치주기를 이용한 사용자 인증시스템및 그 방법의 바람직한 일 실시 예를 첨부된 도면을 통하여 보다 상세히 설명한다.Hereinafter, a user authentication system using a vowel pitch period of speech according to the present invention and a preferred embodiment of the method will be described in more detail with reference to the accompanying drawings.
도 3은 본 발명의 일 실시예를 나타내는 사용자 인증시스템의 블록도이다.3 is a block diagram of a user authentication system representing an embodiment of the present invention.
도시된 바와 같이, 본 발명에 따르는 음성의 모음 피치주기를 이용한 사용자 인증시스템은, 외부로부터 음성 신호를 입력받아 음성 중 모음 신호에 대한 피치주기를 검출하고 전송하는 음성인식장치(300); 상술한 음성인식장치(300)로부터 전송된 각 사용자별 음성의 모음에 대한 피치주기를 수신하여 저장하고, 상술한 음성인식장치(300)로부터 음성인식에 의한 인증 요청이 있는 경우 상술한 음성인식장치(300)로부터 검출되어 전송되는 음성 중 모음의 피치주기를 기 저장된 사용자의 모음에 대한 피치주기와 비교하여 인증을 수행하는 인증서버(310); 및 상술한 음성인식장치(300)와 인증서버(310)가 연결되는 통신망을 포함하여 구성된다.As shown, the user authentication system using the vowel pitch period of the voice according to the present invention, the voice recognition device 300 for receiving a voice signal from the outside to detect and transmit the pitch period for the vowel signal of the voice; Receives and stores the pitch period for the collection of voices for each user transmitted from the voice recognition device 300 described above, and, if there is an authentication request by voice recognition from the voice recognition device 300 described above, the voice recognition device described above. An authentication server 310 for performing authentication by comparing a pitch period of a vowel among voices detected and transmitted from the 300 with a pitch period of a pre-stored user's vowel; And a communication network to which the aforementioned voice recognition device 300 and the authentication server 310 are connected.
여기서 상술한 음성인식장치(300)는 음성인식장치(300)와 외부의 통신망을 연결하는 통신부(304); 사용자에게 입력되어야할 임의의 예제문을 출력하는 디스플레이부(305); 사용자로부터 입력되는 음성신호를 수신하는 음성입력부(301); 입력된 사용자의 음성신호 중 모음에 대한 피치주기를 검출하는 모음피치주기 검출부(302); 및 디스플레이부(305)에 출력되어야할 예제문을 랜덤프로세스에 의하여 생성하고, 그 데이터 값을 디스플레이부(305)로 전송하여 출력하도록 하며, 출력된 예제문을 사용자가 음성 신호로 입력하는 경우, 입력된 음성신호에 대한 모음의 피치주기 검출 제어 신호를 모음피치주기 검출부(302)로 전송하여 모음피치주기 검출부(302)에서 음성입력 신호 중 모음에 대한 피치주기를 검출하게 하고, 검출된 사용자의 음성 중 모음의 피치주기에 대한 값을 전송하도록 제어하는 제어부(303)를 포함하여 구성된다.Here, the above voice recognition device 300 includes a communication unit 304 for connecting the voice recognition device 300 and an external communication network; A display unit 305 for outputting an arbitrary example sentence to be input to the user; A voice input unit 301 for receiving a voice signal input from a user; A vowel pitch period detection unit 302 for detecting a pitch period of a vowel among input voice signals of the user; And generating a sample sentence to be output to the display unit 305 by a random process, transmitting the data value to the display unit 305 and outputting the example sentence as a voice signal. The vowel pitch period detection control signal of the vowels for the input voice signal is transmitted to the vowel pitch period detector 302 so that the vowel pitch period detector 302 detects the pitch period of the vowels among the voice input signals. And a controller 303 which controls to transmit a value for a pitch period of the vowel in the voice.
다음으로 상술한 인증 서버는 외부의 통신망과 연결된 통신부(314); 음성인식 장치에서 전송된 다수의 사용자의 모음에 대한 피치주기 정보와 사용자 정보를 저장하는 저장부(311); 음성인식 장치로부터 인증요청신호와 함께 사용자가 인증을 수행하기 위하여 랜덤하게 디스플레이된 예제문을 발음하여 입력된 사용자의 음성신호 중 모음의 피치주기에 대한 값과 사용자의 정보가 전송되는 경우, 저장부(311)에 저장된 사용자의 정보를 참조하여 사용자의 모음의 피치주기를 호출하고, 인식장치로부터 입력된 사용자의 모음피치주기와 비교하는 모음피치주기 비교부(312); 모음피치주기 비교부(312)에서 비교된 결과 값의 동일성 여부에 따라 인증을 수행하여 인증 신호를 생성하는 인증부(315); 및 통신부를 통해 인증 요청 신호와 모음피치주기 신호 그리고 사용자 정보가 입력되는 경우, 저장부(311)로부터 사용자 정보를 이용하여 사용자의 모음피치주기 값을 호출하여 모음피치주기 비교부(312)로 전송하여, 모음피치주기 비교부(312)에서 통신부로부터 전송된 인증요청 사용자의 모음의 피치주기와 비교하도록 하며, 모음피치주기 비교부(312)에서 비교된 결과 값을 인증부(315)로 전송하여 인증부(315)에서 사용자의 인증을 수행하도록 제어하고, 인증부(315)에서 수행된 인증의 결과 값을 통신부(314)를 통해 외부로 전송하도록 제어하는 제어부(313)를 포함하여 구성된다.Next, the above-described authentication server includes a communication unit 314 connected to an external communication network; A storage unit 311 for storing pitch period information and user information of a plurality of user collections transmitted from the voice recognition device; When the user's information is transmitted and the value of the pitch period of the vowels among the user's voice signals input by pronounced example sentences randomly displayed to perform authentication with the authentication request signal from the voice recognition device, the storage unit A vowel pitch period comparison unit 312 for calling the pitch period of the vowel of the user with reference to the user's information stored in 311 and comparing the vowel pitch period of the user input from the recognition device; An authentication unit 315 for generating authentication signals by performing authentication according to whether or not the result values compared by the vowel pitch period comparison unit 312 are identical; And when the authentication request signal, the vowel pitch period signal, and the user information are input through the communication unit, call the vowel pitch period value of the user using the user information from the storage unit 311 and transmit the vowel pitch period comparison unit 312. By comparing the pitch period of the vowel of the authentication request user transmitted from the communication unit in the vowel pitch period comparison unit 312, and transmits the result value compared in the vowel pitch period comparison unit 312 to the authentication unit 315 The control unit 313 controls the authentication unit 315 to perform authentication of the user, and controls to transmit the result value of the authentication performed in the authentication unit 315 to the outside through the communication unit 314.
상술한 인증서버(310)에 사용자의 정보와 사용장 음성의 모음에 대한 피치주기에 대한 데이터를 저장하는 저장부(311)는, 사용자 ID, 문자나 숫자를 이용한 전통적인 방법의 비밀번호와 사용자의 일반적인 신상내용을 그 데이터로 한다. 또한사용자가 자신을 음성에 대한 모음의 피치주기를 등록하기 위하여 모음의 피치주기를 검출하는 과정은 음성 중 모음의 피치주기를 검출하는 프로그램을 사용자 작업환경(예를 들어 사용자 PC)에 다운로드 받아서 설치함으로써 통신속도 제한에 의하여 프로그램이 실시간 처리되지 못하는 것을 방지하며, 또한 상술한 바와 같이 모음의 피치주기만을 인증에 필요한 데이터로 전송함으로써, 전송 및 승인 여부의 빠른 통보가 이루어질 수 있도록 한다.The storage unit 311, which stores the data of the user information and the pitch period for the collection of the voices used in the authentication server 310, includes a user ID, a password of a conventional method using letters or numbers, and a user's general information. Personal information is used as the data. In addition, the process of detecting the pitch period of the vowel in order to register the pitch period of the vowel for the voice itself is to download and install a program to detect the pitch period of the vowel in the user's work environment (for example, the user's PC) This prevents the program from being processed in real time due to the communication speed limit. Also, as described above, only the pitch period of the vowel is transmitted as data necessary for authentication, so that quick notification of transmission and approval can be made.
도 4는 도 3의 사용자 인증시스템의 동작 과정을 개괄적으로 나타내는 블록도이다.4 is a block diagram schematically illustrating an operation process of the user authentication system of FIG. 3.
도시된 바와 같이, 전체 구성은 사용자 환경, 통신망 그리고 서버환경으로 구성되며, 전체 인증시스템의 동작 과정은 사용자의 모음에 대한 피치주기를 검출하여 등록하는 모음 피치주기 등록단계(S400)와 사용자가 자신의 음성을 입력하여 인증요청 신호를 보내어 인증을 수행하는 인증단계(S410) 및 인증의 결과에 따라 인증을 승인하거나 에러 메세지를 전송 음성인식장치(300)의 디스플레이부(305)를 통해 출력하며, 또한 인증에 따른 출입장치의 개폐, 및 서버로의 로그인 등을 수행하는 단계를 포함하여 구성된다.As shown, the overall configuration is composed of a user environment, a communication network and a server environment, the operation process of the entire authentication system is a vowel pitch cycle registration step (S400) and the user himself to detect and register the pitch period for the user's vowels The authentication step (S410) to perform the authentication by sending an authentication request signal by inputting the voice and the authentication is approved or output an error message through the display unit 305 of the voice recognition device 300, In addition, the step of performing the opening and closing of the access device according to the authentication, login to the server, and the like.
여기서 상술한 모음 피치주기 등록단계(S400)는, 로그인을 위한 ID를 입력하고, 음성입력을 수행하는 단계(S401), 입력된 음성신호에서 모음의 피치주기를 검출하는 단계(S402), 그리고 모음의 피치주기를 데이터베이스에 등록하는 단계(S403)를 포함하며, 상술한 인증단계(S410)는, 사용자가 인증을 수행하기 위하여 ID를 입력하고, 제시되는 예제문을 입력하는 단계(S411), 입력된 예제문에서 모음의 피치주기를 검출하여 인증서버(310)로 전송하는 단계(S412), 그리고 인증서버(310)에서 수신된 사용자의 모음피치 주기와 데이터 베이스에 저장된 사용자의 모음의 피치주기를 검출하는 모음의 피치주기 비교단계(S413)를 포함한다.Here, the above-described vowel pitch period registration step (S400), the step of inputting the ID for logging in, performing a voice input (S401), detecting the pitch period of the vowel from the input voice signal (S402), and the vowel Registering the pitch period of the database to the database (S403), the authentication step (S410) described above, the user inputs an ID to perform the authentication, and inputting the example sentences presented (S411), input Detecting the pitch period of the vowel in the example statement, and transmitting to the authentication server 310 (S412), and the vowel pitch period of the user received from the authentication server 310 and the pitch period of the user's collection stored in the database Pitch period comparison step of detecting the vowel (S413).
상술한 사용자의 모음피치주기 등록단계는, 사용자가 예제문을 발음하고 이를 음성인식장치(300)에서 받아들임으로써 처리과정이 시작된다. 이 때 사용되는 예제문은 미리 작성되어진 문장으로써 "ㅏ" 부터 "ㅣ"까지의 단모음, 즉 "ㅏ,ㅑ,ㅓ,ㅕ,ㅗ,ㅛ,ㅜ,ㅠ,ㅡ,ㅣ"의 10개의 모음이 모두 들어가는 문장이어야 한다. 다음으로 사용자가 예제문을 발음하고 음성인식장치(300)에서 모음의 피치주기를 검출하여 등록하는 과정은, 사용자로 하여금 수 차례 같은 문장을 반복적으로 발성하게 하고, 발성된 횟수에 따라 각각의 모음의 피치에 대한 주기 값을 추출한 후에 미디엄(mediun)방법에 의해서 검출된 값 중에서 최고 값과 최저 값을 제외한 나머지 값을 평균하여 대표값으로 한다. 이는 모음 피치주기 검출에 대한 정확도를 높이기 위한 것이다.In the above-described vowel pitch cycle registration step of the user, a process is started by the user pronouncing an example sentence and accepting it in the voice recognition apparatus 300. The example sentences used at this time are pre-written sentences and 10 vowels from "ㅏ" to "ㅣ", that is, "ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ, TT, ㅠ, ㅡ, ㅣ" It should all be a sentence. Next, the user pronounces an example sentence and detects and registers the pitch period of the vowel in the speech recognition apparatus 300 to allow the user to repeatedly speak the same sentence several times, and each vowel according to the number of times the vowel is spoken. After extracting the period value for the pitch, the average value is obtained by averaging the remaining values except for the highest value and the lowest value among the values detected by the medium method. This is to increase the accuracy for vowel pitch period detection.
이러한 미디엄 방법의 예를 들면, 먼저 사용자로 하여금 상술한 10개의 모음이 모두 포함된 문장을 다섯번씩 발음하게 하고 상술한 모음 각각에 대한 피치 주기를 5번 검출한 후에 각각의 모음에 대하여 검출된 피치주기 값에서 최고값과 최저값을 제외환 3개의 피치주기 값을 평균하여 그 값을 해당 사용자의 발성된 모음의 피치 주기로 하고 이를 상술한 인증서버(310)로 전송하여 저장부(311)에 구성되는 데이터 베이스에 사용자 정보와 함게 저장하는 것이다. 모음에서 피치주기를 검출은 상술한 바와 같이 기 출원된 특허출원번호 특2000-0054735에 기재된 동적 웨이브렛 변환(DyWT)을 사용한다.As an example of such a medium method, first, the user is allowed to pronounce a sentence containing all of the above 10 vowels five times, and the pitch detected for each vowel five times after detecting the pitch period for each of the above vowels. The maximum value and the lowest value of the period value are the average of three pitch period values, and the value is set as the pitch period of the spoken vowel of the corresponding user and transmitted to the authentication server 310 described above, which is configured in the storage unit 311. It is stored with the user information in the database. Detecting the pitch period in the vowel uses the dynamic wavelet transform (DyWT) described in the previously filed patent application No. 2000-0054735 as described above.
이러한 처리과정에서 사용된 검출 횟수는 단지 발명의 실시예를 설명하기 위함이며 이에 의해 본원 발명이 한정되지 아니한다.The number of detections used in this process is merely to explain the embodiments of the invention and thereby the present invention is not limited.
모음의 피치주기 검출과정에서 상술한 10개의 모음 즉 "ㅏ,ㅑ,ㅓ,ㅕ,ㅗ,ㅛ,ㅜ,ㅠ,ㅡ,ㅣ"만을 사용하는 이유는 복모음의 경우 상술한 10개의 단모음으로 모두 표현이 가능하기 때문이다.The reason for using only the 10 vowels described above in the pitch period detection process of vowels, "ㅏ, ㅑ, ㅓ, ㅕ, ㅜ, TT, ㅠ, ㅡ, ㅣ" is represented by the above 10 short vowels. Because this is possible.
다음으로 상술한 인증처리 과정을 상세하게 설명하면 다음과 같다.Next, the above-described authentication process will be described in detail.
사용자가 기 저장된 ID를 입력하면 비밀번호를 문자나 숫자로 구성된 기존의 방법을 사용할지 음성을 이용한 비밀 번호를 사용할지 아니면 두 가지 방법을 병행하여 사용할지를 선택하게 된다. 여기서 보안상의 이유로 비밀번호 입력시 두 가지 방법을 병행하여 사용함을 기본으로 한다. 이 과정에서 비밀번호를 입력할 때 음성입력과정은 사용자의 음성인식 장치로써 예를, 들면 사용자PC 또는 보안 시스템 등의 장치에서 랜덤프로세스에 의해서 임의로 생성된 예제문을 출력하면, 사용자가 해당 예제문을 발성하여 음성을 입력한다. 입력된 음성은 사용자 환경에 구성된 음성인식장치(300)에서 해당 예제문의 발성된 음성 중 상술한 동적 웨이브렛 변환 방법에 의하여 모음만을 검출해 내고 해당 모음에 대한 피치주기를 각각 검출한다. 이 때 모음 축출을 위해 사용되는 예제문은 다수의 서로 다른 모음이 2번 이상 포함된 문장을 랜덤하게 생성하여야 하며, 적어도 다섯 개의 서로 다른 모음이 2번 이상 포함되어지도록 상기 예제문을 생성하는 것이 바람직하다.When the user enters a pre-stored ID, the user can select whether to use the existing method consisting of letters or numbers, a password using voice or a combination of both methods. For security reasons, it is basically based on two methods for password input. In the process of inputting a password, the voice input process is a voice recognition device of the user. For example, if the user outputs an example sentence randomly generated by a random process on a device such as a user's PC or a security system, the user inputs the example sentence. Speak and input voice. The input voice detects only a vowel by the above-described dynamic wavelet conversion method among voices of the example sentence in the speech recognition apparatus 300 configured in the user environment, and detects a pitch period for the vowel, respectively. In this case, the example sentence used for vowel extraction should randomly generate a sentence containing two or more different vowels, and generating the example statement so that at least five different vowels are included two or more times. desirable.
상기의 검출 횟수 또한 본 발명의 실시예에 대한 설명으로 본 발명의 기술적사상은 상술 한 검출 횟수에 한정되지 아니한다.The number of times of detection is also a description of the embodiments of the present invention, and the technical spirit of the present invention is not limited to the number of times of detection described above.
상술한 바와 같이 인증을 위해 사용자가 발성해야할 예제문을 랜덤하게 발생 시키는 이유는 이렇게 함으로써 보안성을 높이기 위함이며, 보안성이 높아지는 이유는 동일한 문장으로 비밀번호를 입력하도록 하는 경우 녹음에 의하여 음성인식에 의해 보안이 깨질 수 있기 때문이다. 따라서 매번 다른 문장을 발성하게 하고 해당 문장에 포함된 유성음, 무성음, 무음 데이터로 문장이 정확한지를 판별한 후 해당 문장에 포함된 모음의 갯수와 모음의 종류를 인식하게 하고, 다음으로 해당 모음에 대한 피치주기 값을 검출하여 인증에 사용함으로써 상술한 보안성을 높이는 효과가 있다.As described above, the reason for randomly generating the example sentence that the user needs to speak for authentication is to increase the security by doing so, and the reason for the increase in the security is that if the password is entered in the same sentence, the voice recognition is performed by recording. This can be broken by security. Therefore, each time a different sentence is uttered, and the voiced, unvoiced, and silent data included in the sentence to determine whether the sentence is correct, the number of vowels contained in the sentence and the type of the vowels, and then for the vowel By detecting the pitch period value and using it for authentication, there is an effect of increasing the security described above.
다음으로 모음의 피치주기값을 인증서버(310)로 전송하여 해당 모음에 대한 피치주기 값만을 가지고서 인증을 수행하므로, 서로 다른 예제문을 사용자가 발성하더라도 인증에는 아무런 문제가 발생하지 않기 때문에 패스워드와 같이 특정 문장을 정하여 인증에 사용할 필요가 없다.Next, since the pitch period value of the vowel is transmitted to the authentication server 310 to perform authentication using only the pitch period value for the vowel, even if the user speaks different example statements, there is no problem in authentication. As such, there is no need to specify a specific sentence for authentication.
상술한 방법에 의해서 사용자가 발성한 예제문에서 모음 값을 검출하여 인증서버(310)로 전송하면, 인증서버(310)에서는 수신된 인증을 위한 모음들 각각에 대한 피치주기를 기 저장된 사용자의 각 모음에 대한 피치주기와 1:1로 비교하여 오차를 구한다. 다음으로 오차의 제곱의 합이 허용범위내에 있는가를 판단하여 인증을 수행하게 되는데, 오차의 제곱의 합으로 허용범위를 판단하는 이유는, 첫째, 한 두개의 모음의 피치주기에 대한 오차로 인해 사용자가 불승인되는 것을 방지하기 위함이고, 둘째, 오차의 범위가 + 와 - 값을 가지기 때문에 서로 동일 크기의 값이며, 부호가 반대인 경우 선형적으로 합쳐져서 0 값의 오차 범위를 가지게 되므로 불승인되어야할 사용자가 승인되는 것을 방지하기 위함이다.When the vowel value is detected in the example statement uttered by the user by the above-described method and transmitted to the authentication server 310, the authentication server 310 stores the pitch period for each of the vowels for the received authentication. The error is obtained by comparing 1: 1 with the pitch period for the vowel. Next, the authentication is performed by determining whether the sum of squares of the errors is within the allowable range. The reason for determining the allowable range by the sum of the squares of the errors is, firstly, due to an error about the pitch period of one or two vowels. In order to prevent the disapproval, secondly, since the error ranges have + and-values, they are the same size, and if the signs are opposite, they are linearly added and have an error range of 0 value. This is to prevent approval.
다음으로 정확도를 기하기 위하여 사용자가 예제문을 읽는 횟수를 다수로 함이 바람직하다. 이러한 다수의 입력에 사용되는 문장 또한 상술한 바와 같이 랜덤프로세스를 사용하여 매번 다른 예제문을 생성하여 사용자가 발성하도록 하여야 한다.Next, in order to ensure accuracy, it is preferable that the number of times that the user reads the example statement is plural. As described above, a sentence used for a plurality of inputs must also generate another example sentence each time using a random process, so that the user can speak.
다음으로 도 5와 도 6을 참조로 하여 상술한 본원 발명의 음성 중 모음의 피치주기를 이용한 사용자 인증의 처리과정을 상세히 설명하기로 한다.Next, the process of user authentication using the pitch period of the vowels of the voice of the present invention described above with reference to FIGS. 5 and 6 will be described in detail.
도 5는 도 3의 사용자 인증시스템에서 사용자의 음성에서 모음의 피치주기를 검출하여 사용자를 인증하는 방법에 대한 처리과정을 나타내는 순서도이다.FIG. 5 is a flowchart illustrating a process of a method of authenticating a user by detecting a pitch period of a vowel in a user's voice in the user authentication system of FIG. 3.
먼저 인증요청을 요구한 사용자가 사용자 환경에 구성된 PC 또는 별도의 보안 시스템으로써의 도어록과 같은 인증시스템의 구성요소로서의 음성인식장치(300)에 인증을 위한 ID를 입력한다(S501). ID가 입력되면 해당 ID에 해당되는 인증을 수행하기 위하여 음성인식장치(300)에서 음성인증을 수행할 것인지 종래에서의 문자, 숫자 또는 보안 카드 등을 이용하여 인증을 수행할 것인지를 선택하게 하는 메세지를 출력한다(S502). S502 단계에서 사용자가 종래의 인증방법을 선택하면 종래의 전통적인 방법에 의한 즉, 문자, 숫자 또는 보안 카드 등을 이용하여 인증을 수행한다(S515). S502 단계에서 사용자가 음성인증 사용을 선택하면, 음성인식장치 (300)는 인증서버(310)로 사용자의 정보를 전송하여 사용자 음성의 모음에 대한 피치 주기가 등록되어 있는지를 판단한다(S503). S503단계의 판단 결과 사용자의 음성에 대한 모음의 피치주기가 인증서버(310)에 등록되어 있지 않으면, 사용자의 음성 중 모음에 대한 피치주기를 검출하여 등록하는 모음피치주기 등록 서브 루틴을 수행하고(S511) S503 단계부터 반복 수행한다. S503의 판단 결과 사용자의 음성 중 모음에 대한 피치 주기가 등록되어 있으면, 음성인식장치(300)가 음성인식에 의한 인증의 횟수를 판단하기 위한 변수(count)를 발생하고, 해당 변수에 1을 할당한 후(S504), 랜덤프로세스에 의해 예제문을 생성하여 출력하여 사용자로 하여금 예제문을 발성하여 음성인식장치(300)의 음성입력부(301)를 통해 사용자가 발성한 예제문에 대한 음성신호를 입력받는다(S505). S505 단계에서 음성인식장치(300)에 사용자의 음성신호가 입력되면, 음성인식장치(300)는 사용자의 입력된 음성신호가 랜덤프로세스에 의해서 생성된 문장이 맞는지를 확인하고, 해당 문장에 대한 음성신호에서 모음을 축출한다. 여기서 문장의 일치여부를 판단하는 것은 상술한 바와 같이 기 출원된 출원번호 특2000-0056532호의 특허에 기술된 비선형방법에 의한 음성신호의 특성 추출 방법에 의하여 수행될 수 있다(S506). 다음으로 S506단계에서 축출된 모음에 대하여 동적 웨이브렛 변환을 수행하여 모음의 피치주기를 검출한다(S507). 검출된 사용자의 예제문에 대한 모음의 피치주기는 사용자 정보와 함께 사용자 환경에 구성된 음성인식장치(300)에서 인증서버(310)로 전송된다. 모음의 피치주기를 전송받은 인증서버(310)는 해당 사용자의 등록된 사용자 정보를 이용하여 저장부(311)에 구성된 데이터 베이스에서 사용자의 등록된 모음의 피치주기를 독출하여, 수신된 사용자의 모음의 피치주기와 각각 1:1 대응에 의하여 비교한 후 오차범위를 산출한다. 여기서 오차범위의 산출은 상술한 바와 같이 비교된차이값을 제곱하여 산출한다(S508). 다음으로 산출된 오차 범위가 허용범위내에 있는지를 판단하고(S509), 단계 S509 의 판단 결과 오차가 허용범위내에 있으면 사용자 승인 메세지를 사용자 환경에 구성된 음성인식장치(300)로 전송하여 사용자 인증에 따른 처리과정, 즉, 서버로의 로그인, 출입의 허가, 데이터에 대한 액세스 허가, 전자 결제의 수행 등의 처리과정을 수행하도록 하고(S510) 처리과정이 종결되며, S509 단계의 판단 결과 오차의 값이 허용오차 범위를 벗어나는 경우에는 인증 수행 횟수를 나타내는 변수에 1을 더한 후(S512), 변수(count)값이 4 미만인지를 판단하여(S513), 변수 값이 4 보다 작으면 S505 단계부터 반복 수행하고, 변수 값이 4이상인 경우에는 사용자 인증을 승인하지 않음과 동시에 사용자 환경에 구비된 음성인식장치(300)로 사용자 인증거부 메세지를 전송하여 출력되도록 한 후(S514)에 전체 처리과정을 종료한다. 여기서 음성인식 입력 횟수를 제한함은 불법사용자의 수차례의 시도를 방지하기 위함이고 숫자 또한 본원 발명의 일 실시예에 제시된 숫자에 한정되지 아니한다.First, a user requesting an authentication request inputs an ID for authentication to a voice recognition device 300 as a component of an authentication system such as a PC configured in a user environment or a door lock as a separate security system (S501). When the ID is input, a message for selecting whether to perform the voice authentication in the voice recognition device 300 or to perform authentication using a conventional letter, number or security card to perform the authentication corresponding to the ID. Outputs (S502). When the user selects a conventional authentication method in step S502, authentication is performed by using a conventional method, that is, letters, numbers, or security cards (S515). If the user selects to use the voice authentication in step S502, the voice recognition device 300 transmits the user's information to the authentication server 310 to determine whether the pitch period for the collection of the user's voice is registered (S503). If the pitch period of the vowel for the user's voice is not registered in the authentication server 310 as a result of the determination in step S503, the vowel pitch period registration subroutine which detects and registers the pitch period for the vowel of the user's voice is performed; S511) Repeatedly starting from step S503. If the pitch period for the vowels of the user's voice is registered as a result of the determination in S503, the voice recognition apparatus 300 generates a variable for determining the number of times of authentication by voice recognition, and assigns 1 to the variable. Then (S504), by generating a sample sentence by a random process and outputs the user to utter the example sentence through the voice input unit 301 of the speech recognition device 300 to the voice signal for the example statement spoken by the user It receives an input (S505). When the user's voice signal is input to the voice recognition device 300 in step S505, the voice recognition device 300 checks whether the user's input voice signal is a sentence generated by a random process, and then the voice for the sentence. Eject vowels from the signal. Here, the determination of whether the sentences match may be performed by the method of extracting the characteristic of the voice signal by the nonlinear method described in the patent of the application number 2000-0056532 filed as described above (S506). Next, a dynamic wavelet transform is performed on the vowels extracted in step S506 to detect the pitch period of the vowels (S507). The pitch period of the vowel for the detected example sentences of the user is transmitted from the voice recognition device 300 configured in the user environment to the authentication server 310 together with the user information. The authentication server 310 receiving the pitch period of the vowel reads the pitch period of the registered vowel of the user from the database configured in the storage unit 311 by using the registered user information of the user, and receives the vowel of the received user. After comparing the pitch period with a 1: 1 correspondence, calculate the error range. Here, the calculation of the error range is calculated by squaring the compared difference values as described above (S508). Next, it is determined whether the calculated error range is within the allowable range (S509). If the determination result of step S509 is within the allowable range, the user approval message is transmitted to the voice recognition device 300 configured in the user environment according to the user authentication. The processing, that is, login to the server, permission to access, access to the data, and the process of performing the electronic payment to perform the processing (S510) and the processing is terminated, the determination result of step S509 the error value If it is out of the tolerance range, 1 is added to the variable representing the number of times to perform authentication (S512), and it is determined whether the variable (count) value is less than 4 (S513), and if the variable value is less than 4, the process is repeated from step S505. If the variable value is 4 or more, the user authentication is not approved and the user authentication rejection message is transmitted to the voice recognition device 300 provided in the user environment. After that (S514) the entire process ends. Here, limiting the number of times of voice recognition input is to prevent the number of attempts by illegal users and the number is not limited to the number presented in the embodiment of the present invention.
도 6은 도 5의 사용자 인증시스템의 동작 과정 중 사용자의 음성에서 모음의 피치주기를 검출하여 인증서버(310)에 등록하는 과정을 나타내는 서브루틴도이다.FIG. 6 is a subroutine diagram illustrating a process of detecting a pitch period of a vowel from a user's voice and registering it with the authentication server 310 during the operation of the user authentication system of FIG. 5.
도시된 바와 같이 사용자 인증을 위해 사용자를 구별할 사용자의 음성 중 모음에 대한 피치주기를 검출하여 등록하는 과정은,As shown in the drawing, the process of detecting and registering a pitch period for a vowel among voices of a user to distinguish a user for user authentication,
랜덤프로세스에 의하여 사용자로 하여금 발성하게 할 예제문을 생성한다. 생성된 예제문은 ㅏ,ㅑ,ㅓ,ㅕ,ㅗ,ㅛ,ㅜ,ㅠ,ㅡ, 및 ㅣ의 10개 단모음을 모두 포함하도록 하는 것이 바람직하다. 예제문이 생성되면 사용자는 예제문을 발성하여 음성신호를 음성인식장치(300)에 입력하면, 음성인식장치(300)가 음성신호를 입력받고(S601), 다음으로 입력된 사용자의 음성신호에서 상술한 기 출원된 특 2000-0054735호의 특허에 의하여 단모음, 즉 "ㅏ,ㅑ,ㅓ,ㅕ,ㅗ,ㅛ,ㅜ,ㅠ,ㅡ,ㅣ"에 포함되는 모음만을 검출하며(S602), 상술한 S602단계에서 검출된 모음에서 동적웨이브렛 변환(DyWT)을 이용하여 모음의 피치주기를 검출한다(S603). 상술한 S603 단계에서 검출된 모음의 피치주기에 대하여 미디엄(medium) 방법에 의하여 피치주기에 대한 대표값을 검출한후(S604), 검출된 모음의 피치주기에 대한 대표값을 사용자 ID, 패스워드, 사용자의 신상정보 등과 함께 인증서버(310)로 전송하여 인증서버(310)의 저장부(311)에 구성된 데이터 베이스에 저장 등록(S605)함으로써 사용자 인증에 필요한 사용자의 모음에 대한 피치주기를 이용한 모음 파라미터 즉 모음의 피치주기에 대한 대표값의 등록 과정이 종결된다.Generate a sample statement that will cause the user to speak by a random process. The generated example statement should include all 10 short vowels of ㅏ, ㅑ, ㅓ, ㅕ, ㅗ, ㅛ, ㅛ, ㅠ, ㅡ, and,. When the example sentence is generated, the user utters an example sentence and inputs a voice signal to the voice recognition device 300, and the voice recognition device 300 receives the voice signal (S601), and then inputs the voice signal from the user. According to the above-described patent application No. 2000-0054735, only the vowels included in the short vowel, that is, "ㅏ, ㅑ, ㅓ, ㅕ, ㅛ, ㅜ, ㅠ, ㅡ, ㅣ" are detected (S602). The pitch period of the vowel is detected using the dynamic wavelet transform (DyWT) in the vowel detected in step S602 (S603). After detecting the representative value of the pitch period of the vowel detected by the medium method with respect to the pitch period of the vowel detected in step S603 (S604), the representative value of the pitch period of the detected vowel is determined by user ID, password, Collection using the pitch period for the collection of users required for user authentication by transmitting to the authentication server 310 along with the user's personal information and storing and registering in the database configured in the storage unit 311 of the authentication server 310 (S605) The process of registering the representative value for the pitch period of the parameter vowel is terminated.
다음으로 본 발명에 사용되는 기 출원된 출원번호 특2000-0056532호의 특허에서 사용한 동적웨이브렛 변환과 본원 발명에 따르는 모음의 피치 주기 검출 방법을 부가 설명하고자 한다.Next, the dynamic wavelet transform used in the patent application No. 2000-0056532, which is used in the present invention, and the vowel pitch period detection method according to the present invention will be further described.
기 출원된 출원번호 특2000-0056532의 특허에 기재된 동적 웨이브렛 변환을 사용함에 있어서 이용된 웨이브렛은 유성음에 대한 비선형 처리 시에는 하 웨이브렛(Haar Wavelet)을, 무성음에 대한 비선형 처리 시에는 스플라인 웨이브렛(Spline Wavelet)을 사용하였는데, 유성음과 무성음의 구분없이 하 웨이브렛이나 스플라인 웨이브렛의 사용이 가능하다. 또한 위의 두가지 웨이브렛 이외에 가우시안 웨이브렛(Gaussian Wavelet)이나 최소 위상 웨이브렛(Minimum Phase Wavelet)이 있다.The wavelets used in the use of the dynamic wavelet transform described in the patent application No. 2000-0056532 are applied to a haar wavelet for nonlinear processing of voiced sound and a spline for nonlinear processing of unvoiced sound. Spline Wavelet is used, and it is possible to use lower wavelet or spline wavelet without distinguishing voiced and unvoiced sound. In addition to the above two wavelets, there are also Gaussian wavelets or minimum phase wavelets.
그러나 상술한 바와 같이 유성음의 경우는 주기성이 뚜렷하고 저주파 성분이 강하므로, 입력되는 신호의 변화만으로 특성을 나타낼 수 있는 하 웨이브렛이 사용되었고, 무성음의 경우는 주기성이 불분명하고 고주파 성분이 강하므로 신호 전체에 대한 변화를 나타낼 수 있도록 코사인 조합에 의하여 이루어져 상술한 무성음의 특성을 잘 나타내는 스플라인 웨이브렛(Spline Wavelet)을 사용하였다.However, as described above, in the case of the voiced sound, since the periodicity is clear and the low frequency component is strong, a low wavelet is used that can exhibit the characteristics only by the change of the input signal, and in the case of the unvoiced sound, the periodicity is unclear and the high frequency component is strong. Spline wavelet was used by cosine combination to show the change of the whole, and to express the characteristics of the unvoiced sound described above.
즉 입력되는 음성신호를 동적 웨이브렛 변환에 의한 비선형 처리를 할 경우, 유성음의 경우 하 웨이브렛을, 무성음의 경우 스플라인 웨이브렛을 사용하였을 때 음성신호의 특징을 가장 잘 추출할 수 있다.That is, when the input voice signal is subjected to nonlinear processing by dynamic wavelet conversion, the characteristics of the voice signal can be best extracted when the lower wavelet is used for voiced sound and the spline wavelet is used for unvoiced sound.
여기서 모음의 피치주기를 검출하는 방법은, 상술한 바와 같은 방법을 이용하여 음성신호를 유성음만을 추출한 후에 유성음 중에서 모음이 갖는 특성 주파수에 대한 포먼트 값을 이용하여 모음들의 피치주기를 검출하게 된다.Here, in the method of detecting the pitch period of the vowels, only the voice signal is extracted from the voice signal using the method described above, and then the pitch period of the vowels is detected using the formant value for the characteristic frequency of the vowels.
상술한 바와 같은 사용자 인증시스템은 본원 발명에 예시된 바람직한 일 실시예에 국한되지 않으며 본원 발명의 기술적 사상을 벗어나지 않는 범위에서 다양하게 변형실시 될 수 있다.The user authentication system as described above is not limited to the preferred embodiment illustrated in the present invention and may be variously modified within the scope without departing from the spirit of the present invention.
본원 발명에 따르는 음성의 모음에 대한 피치주기를 이용한 인증시스템 및 그 방법은, 기존의 문자나 숫자를 이용한 비밀번호의 도용에 의한 보안의 취약성을 극복하며, 또한 상술한 기존의 문자나 숫자를 이용한 비밀번호에 의한 인증방법과 병행함으로써 보안성을 현저히 높이는 효과가 있으고, 해당 사용자를 정확하게 인식할수 있도록 하는 효과가 있다.An authentication system using a pitch period for a vowel of voice according to the present invention and a method thereof overcome the vulnerability of security by the theft of a password using an existing letter or number, and also the password using the existing letter or number. In parallel with the authentication method, there is an effect to significantly increase the security, it is effective to accurately recognize the user.
본원 발명에 따르는 또 다른 효과는, 음성을 이용하여 사용자 인증을 수행할 경우, 인증시 예제문을 랜덤하게 생성하므로 기존의 음성인식 방법에서 특정 문장을 비밀번호로 함에 따라, 외부의 불법침입자가 해당 문장을 녹음하여 사용함으로써 오 승인되는 것을 방지하는 효과가 있다.Another effect according to the present invention, when performing the user authentication using the voice, since the randomly generated example sentences at the time of authentication, as a specific sentence in the existing voice recognition method as a password, the outside illegal intruder It is effective to prevent misapproval by recording and using it.
또한 본원 발명에 따르는 또 다른 효과는 본원 발명이 모음 중 10개의 단모음에 대한 피치주기만을 사용하므로 인증에 필요한 데이터량을 현저히 줄여 통신 과부하 현상을 극복하는 효과가 있으며, 이러한 이유로 고속화되지 않은 인터넷 환경에서도 적용할 수 있다는 효과가 있다.In addition, another effect of the present invention is that the present invention uses only a pitch period for 10 short vowels of the vowel, thereby significantly reducing the amount of data required for authentication, thereby overcoming communication overload phenomena. There is an effect that can be applied.
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000064660A KR100355113B1 (en) | 2000-11-01 | 2000-11-01 | A Voice authentication system using vowel pitch period of human voice and the method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000064660A KR100355113B1 (en) | 2000-11-01 | 2000-11-01 | A Voice authentication system using vowel pitch period of human voice and the method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20020034414A KR20020034414A (en) | 2002-05-09 |
KR100355113B1 true KR100355113B1 (en) | 2002-10-11 |
Family
ID=19696686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020000064660A KR100355113B1 (en) | 2000-11-01 | 2000-11-01 | A Voice authentication system using vowel pitch period of human voice and the method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100355113B1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101971008B1 (en) | 2012-06-29 | 2019-04-22 | 삼성전자주식회사 | Control method for terminal using context-aware and terminal thereof |
-
2000
- 2000-11-01 KR KR1020000064660A patent/KR100355113B1/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20020034414A (en) | 2002-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10950245B2 (en) | Generating prompts for user vocalisation for biometric speaker recognition | |
US10276152B2 (en) | System and method for discriminating between speakers for authentication | |
US20160248768A1 (en) | Joint Speaker Authentication and Key Phrase Identification | |
JP4213716B2 (en) | Voice authentication system | |
KR100297833B1 (en) | Speaker verification system using continuous digits with flexible figures and method thereof | |
US20060293898A1 (en) | Speech recognition system for secure information | |
CN110689895B (en) | Voice verification method and device, electronic equipment and readable storage medium | |
US10957318B2 (en) | Dynamic voice authentication | |
Singh et al. | Voice disguise by mimicry: deriving statistical articulometric evidence to evaluate claimed impersonation | |
Abdullah et al. | Attacks as defenses: Designing robust audio captchas using attacks on automatic speech recognition systems | |
KR100355113B1 (en) | A Voice authentication system using vowel pitch period of human voice and the method thereof | |
KR20180049422A (en) | Speaker authentication system and method | |
JP4245948B2 (en) | Voice authentication apparatus, voice authentication method, and voice authentication program | |
WO2000058947A1 (en) | User authentication for consumer electronics | |
Mishra et al. | Utilizing parametric models for real-time speaker recognition by stimulating frequency characteristics | |
Skaf et al. | Voiceprint Authentication System | |
van Rensburg et al. | Voice Recognition as a User-Authentication Method | |
Al-Sarayreh et al. | Enhancing the security of e-government portals using biometric voice along with a traditional password | |
Kumar et al. | Architecture of Speech-based registration system | |
KR20130022638A (en) | The method and apparatus for security using voice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |