KR101925253B1 - 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법 - Google Patents

문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법 Download PDF

Info

Publication number
KR101925253B1
KR101925253B1 KR1020180063577A KR20180063577A KR101925253B1 KR 101925253 B1 KR101925253 B1 KR 101925253B1 KR 1020180063577 A KR1020180063577 A KR 1020180063577A KR 20180063577 A KR20180063577 A KR 20180063577A KR 101925253 B1 KR101925253 B1 KR 101925253B1
Authority
KR
South Korea
Prior art keywords
speaker
voice
context
word
database
Prior art date
Application number
KR1020180063577A
Other languages
English (en)
Inventor
이태훈
Original Assignee
주식회사 공훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 공훈 filed Critical 주식회사 공훈
Priority to KR1020180063577A priority Critical patent/KR101925253B1/ko
Application granted granted Critical
Publication of KR101925253B1 publication Critical patent/KR101925253B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법에 관한 것으로서, 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치는, 문맥 제시형 음성 인증 시스템과 연동 가능하고, 화자로부터 수신된 음성의 문맥 정보를 추출하는 문맥정보 추출부, 데이터베이스에 저장된 단어들 중 어느 하나와 동일한 단어가 추출된 문맥 정보에 존재하는지 여부를 판단하고, 존재한다면 추출된 문맥 정보에 존재하는 해당 단어에 대한 음성 특징벡터 및 파라미터 값을 추정하는 문맥정보 분석부, 추정된 음성 특징벡터 및 파라미터 값과 데이터베이스에 저장된 해당 단어에 대한 음성 특징벡터 및 파라미터 값의 비교 분석을 소정의 횟수만큼 반복 수행하여 정합률 데이터값을 도출하는 정합률 데이터 도출부 및 도출된 정합률 데이터값이 기 설정된 기준 정합률 데이터값을 초과하는지 여부를 판단하고, 초과한다면 화자확인을 승인하고, 초과하지 않는다면 문맥 제시형 음성 인증 시스템을 통해 화자확인을 위한 음성 발화가 요청되도록 하는 개시신호를 생성하는 정합률 데이터 분석부를 포함할 수 있다.

Description

문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법{APPARATUS AND METHOD FOR CONTEXT INDEPENDENT SPEAKER INDENTIFICATION}
본 발명은 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법에 관한 것으로, 더욱 상세하게는 화자로부터 발화된 임의의 음성에 포함된 단어를 인식하여 음성특성 및 그에 대한 정합률을 분석함으로써, 별도의 문맥(단어)를 제시하지 않고도 화자를 확인할 수 있도록 하는 장치 및 방법에 관한 것이다.
정보통신 기술의 발달에 따라 사람의 언어를 인식하여 전자기기의 동작, 프로그램 실행, 보안 등 다양한 기능들을 수행할 수 있는 다양한 음성 인식 기술이 개발되고 있다. 이와 관련하여, 최근 사물 인터넷(IoT) 등의 기술 발전으로 인해 보안의 중요성이 강조됨에 따라 단순히 화자의 음성을 인식하는데 그치는 것이 아닌 음성을 인식하여 화자를 확인(식별)하는 음성 인증 기술에 대한 개발이 활발히 이루어지고 있는 실정이다.
종래의 대부분의 음성 인증 기술들은 진정한 화자인지 여부를 구별(확인)하기 위해서 일정한 문맥(단어)를 제시하고, 제시된 문맥(단어)를 화자가 확인하여 발음하면 발음된 음성을 인식하는 방식을 이용하고 있다. 이러한 종래의 방식을 이용하면 화자의 음성과 관련된 누적 데이터들을 기반으로 하여 정해진 문맥(단어)가 제시되므로, 비교적 정확하게 음성 인증을 수행할 수 있다.
그러나, 종래의 방식은 화자가 제시되는 문맥(단어)를 모두 정확히 발음해야 원활한 화자 식별 과정이 수행될 수 있고, 화자가 음성 인증을 위해 일정한 문맥(단어)의 제시를 요청하고 요청에 따라 일정한 문맥(단어)를 생성하는 절차가 반드시 필요하므로, 음성 인증을 위한 화자확인에 상당한 시간이 소요되고, 사용자의 편의성이 감소하는 등의 문제가 존재한다.
대한민국 공개특허공보 제10-2015-0146061호 (2015.12.31)
본 발명은 전술한 바와 같은 문제점을 해결하기 위한 것으로서, 화자로부터 임의의 음성이 발화되더라도, 발화된 임의의 음성에 포함된 단어를 추출 및 분석함으로써 별도의 문맥제시 없이도 화자확인을 수행할 수 있도록 하며, 문맥 제시형 음성 인증 시스템과의 연동을 통해 필요에 따라 추가적인 문맥제시가 이루어질 수 있도록 하는 장치 및 방법을 제공함에 목적이 있다.
본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치는, 문맥 제시형 음성 인증 시스템과 연동 가능하고, 화자로부터 수신된 음성의 문맥 정보를 추출하는 문맥정보 추출부, 데이터베이스에 저장된 단어들 중 어느 하나와 동일한 단어가 추출된 문맥 정보에 존재하는지 여부를 판단하고, 존재한다면 추출된 문맥 정보에 존재하는 해당 단어에 대한 음성 특징벡터 및 파라미터 값을 추정하는 문맥정보 분석부, 추정된 음성 특징벡터 및 파라미터 값과 데이터베이스에 저장된 해당 단어에 대한 음성 특징벡터 및 파라미터 값의 비교 분석을 소정의 횟수만큼 반복 수행하여 정합률 데이터값을 도출하는 정합률 데이터 도출부 및 도출된 정합률 데이터값이 기 설정된 기준 정합률 데이터값을 초과하는지 여부를 판단하고, 초과한다면 화자확인을 승인하고, 초과하지 않는다면 문맥 제시형 음성 인증 시스템을 통해 화자확인을 위한 음성 발화가 요청되도록 하는 개시신호를 생성하는 정합률 데이터 분석부를 포함할 수 있다.
본 발명의 일 실시 예에 따른 문맥 제시형 음성 인증 시스템은, 화자로부터 발화된 음성을 수신하기 위한 음성 수신부, 수신된 음성에 포함된 단어에 대한 음성 특징벡터 및 파라미터 값을 도출하기 위한 음성특성값 도출부, 화자확인을 위한 단어 및 단어에 대한 음성 특징벡터 및 파라미터 값이 행렬(matrix) 형태로 미리 저장되어 있는 저장부, 정합률 데이터 분석부에서 생성된 개시신호를 수신하기 위한 통신부, 개시신호에 따라 화자확인에 사용될 난수를 발생시키는 난수 생성부, 난수 생성부를 통해 생성된 난수에 대응되는 저장부의 행과 열의 단어 및 음성 특성값을 검출하고, 검출된 단어 및 음성 특성값에 기초하여 화자에게 음성 발화를 요청하는 음성발화 요청부 및 음성 발화의 요청에 따라 화자로부터 수신된 단어에 대한 음성 특징벡터 및 파라미터 값을 검출된 단어 및 음성 특성값과 비교하여 화자확인을 수행하는 화자 식별부를 포함할 수 있다.
본 발명의 일 실시 예에 따른 데이터베이스에 저장된 단어들 및 단어들에 대한 음성 특징벡터 및 파라미터 값은 데이터베이스에 행렬 형태로 저장되어 있으며, 데이터베이스 저장된 단어들은 명사일 수 있다.
본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치를 이용한 화자확인 방법에 있어서, 문맥 독립형 화자확인 장치는 문맥 제시형 음성 인증 시스템과 연동 가능하고, 화자로부터 수신된 음성의 문맥 정보를 추출하는 단계, 데이터베이스에 저장된 단어들 중 어느 하나와 동일한 단어가 추출된 문맥 정보에 존재하는지 여부를 판단하고, 존재한다면 추출된 문맥 정보에 존재하는 해당 단어에 대한 음성 특징벡터 및 파라미터 값을 추정하는 단계, 추정된 음성 특징벡터 및 파라미터 값과 데이터베이스에 저장된 해당 단어에 대한 음성 특징벡터 및 파라미터 값의 비교 분석을 소정의 횟수만큼 반복 수행하여 정합률 데이터값을 도출하는 단계 및 도출된 정합률 데이터값이 기 설정된 기준 정합률 데이터값을 초과하는지 여부를 판단하고, 초과한다면 화자확인을 승인하고, 초과하지 않는다면 문맥 제시형 음성 인증 시스템을 통해 화자확인을 위한 음성 발화가 요청되도록 하는 개시신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따른 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치를 이용한 화자확인 방법에서 데이터베이스에 저장된 단어들 및 단어들에 대한 음성 특징벡터 및 파라미터 값은 데이터베이스에 행렬 형태로 저장되어 있으며, 데이터베이스 저장된 단어들은 명사일 수 있다.
한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
본 발명의 일 실시 예로서 제공되는 문맥 독립형 화자확인 장치 및 그 방법에 따르면, 임의의 음성이 화자로부터 발화되더라도 해당 음성에 포함된 단어를 추출 및 분석함으로써 별도의 문맥제시 없이도 화자확인이 수행되고, 추가적인 화자확인이 필요하다고 판단되는 경우에 문맥 제시형 음성 인증 시스템과의 연동을 통해 추가적인 인증 과정이 수행되므로, 종래 대비 음성 인증 과정의 효율성 및 사용자의 편의성을 크게 향상시킬 수 있다.
도 1은 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치를 나타낸 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치 및 이와 연동가능한 문맥 제시형 음성 인증 시스템을 나타낸 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치를 이용한 화자확인 과정을 나타낸다.
도 4는 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치를 이용한 화자확인 방법을 나타낸 순서도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다. 예를 들어, 본 발명에서 사용되는 용어 중 하나인 문맥은 특정 단어뿐만 아니라 해당 단어가 포함된 일련의 문장을 포함하는 것을 지칭한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100)를 나타낸 블록도이며, 도 2는 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100) 및 이와 연동가능한 문맥 제시형 음성 인증 시스템(200)을 나타낸 블록도이다.
또한, 도 3은 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100)를 이용한 화자확인 과정을 나타낸다.
도 1 및 도 2를 참조하면, 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100)는, 문맥 제시형 음성 인증 시스템(200)과 연동 가능하고, 화자로부터 수신된 음성의 문맥 정보를 추출하는 문맥정보 추출부(110), 데이터베이스(150)에 저장된 단어들 중 어느 하나와 동일한 단어가 추출된 문맥 정보에 존재하는지 여부를 판단하고, 존재한다면 추출된 문맥 정보에 존재하는 해당 단어에 대한 음성 특징벡터 및 파라미터 값을 추정하는 문맥정보 분석부(120), 추정된 음성 특징벡터 및 파라미터 값과 데이터베이스(150)에 저장된 해당 단어에 대한 음성 특징벡터 및 파라미터 값의 비교 분석을 소정의 횟수만큼 반복 수행하여 정합률 데이터값을 도출하는 정합률 데이터 도출부(130) 및 도출된 정합률 데이터값이 기 설정된 기준 정합률 데이터값을 초과하는지 여부를 판단하고, 초과한다면 화자확인을 승인하고, 초과하지 않는다면 문맥 제시형 음성 인증 시스템(200)을 통해 화자확인을 위한 음성 발화가 요청되도록 하는 개시신호를 생성하는 정합률 데이터 분석부(140)를 포함할 수 있다.
즉, 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100)는 문맥 제시형 음성 인증 시스템(200)의 전 단계로서 화자확인을 위한 1차 음성 인증 과정을 수행하는 것으로 이해될 수 있다. 다시 말해서, 문맥 독립형 화자확인 장치를 통해 문맥 제시를 통한 음성 인증 이전에 화자로부터 발화된 임의의 음성에 대한 분석을 진행하여 진정한 화자인지 여부를 확인할 수 있으며, 진정한 화자인지 여부에 따라 별도의 문맥 제시없이 화자확인을 승인하거나 추가적인 인증을 위해 문맥 제시형 음성 인증 시스템(200)의 동작이 개시될 수 있다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100)를 이용한 화자확인 과정을 구체적으로 확인할 수 있다. 먼저, 화자로부터 임의의 음성이 발화되고 발화된 음성이 수신되면(S110), 수신된 음성에 대한 문맥 정보가 문맥 추출부를 통해 추출될 수 있다(S120). 전술하였다시피 화자확인을 위해 별도로 문맥이 제시되지 않으므로, 화자로부터 자유롭게 발화된 음성에 포함된 문맥 정보가 자동으로 추출될 수 있다. 예를 들어, 화자로부터 “우리는 민족 중흥의 역사적 사명을 띠고 이 땅에 태어났다” 라는 음성이 발화되면, 발화된 해당 음성에 대한 문맥 정보가 문맥 추출부에 의해 추출될 수 있다. 이때, 문맥 정보는 '민족', '중흥', '역사', '사명' 등과 같은 명사 단어에 대한 정보일 수 있다.
도 3을 참조하면, 문맥 정보가 추출된 이후에는 문맥정보 분석부(120)를 통해 데이터베이스(150)에 기 저장된 단어들에 대한 정보와 일치하는 문맥 정보가 존재하는지 여부가 판단될 수 있다(S210). 이때, 데이터베이스(150)에 저장된 단어들에 대한 정보에는 단어에 대한 음성 특성벡터 및 파라미터 값 등이 포함될 수 있다. 이와 같은 정보는 본 발명의 일 실시 예에 따른 화자확인을 위한 동작 개시 이전에 화자로부터 발화된 단어들에 대한 분석(ex. 단어 별로 최적화된 음성 특성벡터 및 파라미터 값 분석)을 통해 미리 도출되어 데이터베이스(150)에 저장될 수 있다. 또한, 전술한 정보는 문맥 제시형 음성 인증 시스템(200)에 저장된 단어에 대한 정보일 수 있으며, 본 발명의 일 실시 예에 따른 화자확인을 위한 동작 개시 이전에 문맥 제시형 음성 인증 시스템(200)으로부터 전달되어 데이터베이스(150)에 저장될 수 있다.
또한, 본 발명의 일 실시 예에 따른 데이터베이스(150)에 저장된 단어들 및 단어들에 대한 음성 특징벡터 및 파라미터 값은 데이터베이스(150)에 행렬 형태로 저장될 수 있다. 이때, 행렬 형태는 NxM (N, M은 동일하거나 상이한 양의 정수) 형태일 수 있다. 예를 들어, 도 3과 같이 단어들 및 단어들에 대한 음성 특징벡터 및 파라미터 값이 5x5 형태의 행렬로 데이터베이스(150)에 순차적으로 저장될 수 있다.
본 발명의 일 실시 예에 따라 화자확인을 위해 추출되는 문맥 정보 및 데이터베이스(150)에 저장된 단어들은 명사 단어일 수 있다. 이는 문맥 정보 추출 단계 및 동일 단어 비교 단계를 보다 원활히 수행하기 위함이다. 예를 들어, 추출 및 비교 대상 단어가 형용사나 동사일 경우 단어의 사용에 따라 문맥 상에서 변형되는 형태가 다양할 수 있으므로, “우리는 민족 중흥의 역사적 사명을 띠고 이 땅에 태어났다” 라는 음성이 수신되었다면, '민족', '중흥', '역사', '사명' 등의 단어에 대한 정보가 문맥 정보로서 추출될 수 있으며, 데이터베이스(150)에 저장된 단어는 전술한 단어에 대한 정보 중 어느 하나일 수도 있다.
본 발명의 일 실시 예에 따른 문맥정보 분석부(120)의 판단 결과, 동일한 단어가 존재하지 않는다면(i.e. 데이터베이스(150)와 문맥 정보에 서로 일치하는 단어에 대한 정보가 존재하지 않는다면) 화자확인 과정이 더 이상 수행되지 않는다. 동일한 단어가 존재한다면(i.e. 데이터베이스(150)와 문맥 정보에 서로 일치하는 단어에 대한 정보가 존재한다면) 해당 단어에 대한 음성 특성값이 추정될 수 있다(S220). 예를 들어, 추출된 문맥 정보에 '민족', '중흥', '역사' 등 명사 단어에 대한 정보가 포함되어 있고, 데이터베이스(150)에는 '민족' 에 대한 정보가 미리 저장되어 있다면, '민족' 이라는 단어에 대한 정보가 문맥 정보 및 데이터베이스(150)에 존재하므로, 데이터베이스(150)에 저장된 음성 특성값을 기초로 하여 문맥 정보에 존재하는 '민족' 에 대한 음성 특징벡터 및 파라미터 값이 추정될 수 있다.
도 3을 참조하면, 본 발명의 일 실시 예에 따라 문맥정보 분석부(120)를 통해 특정 단어에 대한 음성 특징벡터 및 파라미터 값이 추정되면(S220), 정합률 데이터 도출부(130)에서는 추정된 값과 데이터베이스(150)에 저장된 해당 단어에 대한 음성 특징벡터 및 파라미터 값을 비교 분석하여 정합률 데이터를 도출하기 위한 과정이 소정의 횟수만큼 반복 수행될 수 있다(S310). 예를 들어, 문맥 정보 중 '민족' 이라는 단어에 대한 음성 특징벡터 및 파라미터 값이 추정되면, 데이터베이스(150)에 저장된 '민족' 이라는 단어에 대한 음성 특징벡터 및 파라미터 값과의 비교 분석이 2회 이상 반복 수행될 수 있다. 비교 분석을 통해 얻은 정합률 데이터값은 음성 특징벡터 및 파라미터 값이 서로 일치하는 정도(i.e. 유사도)를 나타내는 것으로, 소수점 값, 퍼센트 값 등으로 표현될 수 있다.
전술한 과정(S310)이 소정의 횟수만큼 반복 수행되는 것은 정합률 데이터값의 오차를 줄임과 동시에 동일 단어가 화자의 음성으로부터 소정의 시간 사이에 추가적으로 도출되는 경우에 이를 화자확인에 함께 활용할 수 있도록 하기 위함이다. 예를 들어, 전술한 정합률 데이터값 도출 과정이 수행되는 중에 최초 음성 수신으로부터 5초 내에 추가로 음성이 수신되어 '민족' 이라는 단어에 대한 음성 특징벡터 및 파라미터 값이 추가적으로 도출된 경우에 이를 정합률 데이터값 도출에 활용하기 위해 비교 분석이 2회 반복 수행될 수 있다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 정합률 데이터 분석부(140)에서는 전술한 과정(S300)을 통해 도출된 정합률 데이터값이 기 설정된 기준 정합률 데이터값을 초과하는지 여부가 판단될 수 있다(S410). 이때, 기준 정합률 데이터값이란 화자확인을 위한 최소 기준값을 말한다. 즉, 도출된 정합률 데이터값이 기준 정합률 데이터값을 초과한다면 진정한 화자일 확률이 높다는 것을 의미하므로, 화자확인이 승인될 수 있다(S420). 또한, 도출된 정합률 데이터값이 기준 정합률 데이터값 이하라면 화자확인을 위한 최소 기준값에 미치지 못한다는 것을 의미하므로, 화자확인이 승인되지 않고 문맥 제시형 음성 인증 시스템(200)을 통한 2차 인증 과정을 진행하기 위해 개시신호가 생성될 수 있다(S430). 개시신호가 문맥 제시형 음성 인증 시스템(200)으로 전달되면, 음성 인증을 위한 문맥 제시 및 화자확인을 위한 음성 발화가 요청될 수 있다(S500).
전술한 기준 정합률 데이터값은 소수점 값 또는 퍼센트 값 등으로 표현될 수 있으며, 바람직하게는 0.7 또는 70% 일 수 있다. 이러한 기준 정합률 데이터값은 사용자 설정에 의해 변경될 수 있으며, 전술한 예시(ex. 0.7 또는 70%)에 국한되지 않는다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 문맥 제시형 음성 인증 시스템(200)은, 화자로부터 발화된 음성을 수신하기 위한 음성 수신부(210), 수신된 음성에 포함된 단어에 대한 음성 특징벡터 및 파라미터 값을 도출하기 위한 음성특성값 도출부(220), 화자확인을 위한 단어 및 단어에 대한 음성 특징벡터 및 파라미터 값이 행렬(matrix) 형태로 미리 저장되어 있는 저장부(230), 정합률 데이터 분석부(140)에서 생성된 개시신호를 수신하기 위한 통신부(240), 개시신호에 따라 화자확인에 사용될 난수를 발생시키는 난수 생성부(250), 난수 생성부(250)를 통해 생성된 난수에 대응되는 저장부(230)의 행과 열의 단어 및 음성 특성값을 검출하고, 검출된 단어 및 음성 특성값에 기초하여 화자에게 음성 발화를 요청하는 음성발화 요청부(260) 및 음성 발화의 요청에 따라 화자로부터 수신된 단어에 대한 음성 특징벡터 및 파라미터 값을 검출된 단어 및 음성 특성값과 비교하여 화자확인을 수행하는 화자 식별부(270)를 포함할 수 있다.
본 발명의 일 실시 예에 따른 음성 수신부(210)는 음성 인증을 위해 화자가 발화한 단어의 음성을 입력받기 위한 것으로서, 마이크 등이 포함될 수 있다.
본 발명의 일 실시 예에 따른 저장부(230)는 음성 인증 전에 미리 화자로부터 단어 사전 데이터를 구축하여 저장할 수 있다. 이때, 저장부(230)에 저장되는 단어 사전 데이터에는 화자확인을 위한 단어 및 단어에 대한 음성 특징벡터 및 파라미터 값이 포함될 수 있으며, 단어 사전 데이터는 NxN(N은 자연수) 형태의 행렬 구조로 저장될 수 있다. 또한, 저장부(230)는 전술한 단어 사전 데이터를 구축하기 위한 단어 사전 데이터베이스를 미리 저장해둘 수 있다. 이때, 단어 사전 데이터베이스는 지속적으로 업데이트될 수 있다.
예를 들어, 화자가 최초로 음성 인증 시스템을 사용하는 경우, 인증에 필요한 단어 사전 데이터를 구축하기 위해서 단어 사전 데이터베이스로 저장된 국민 교육 헌장(ex. 우리는 민족 중흥의 역사적 사명을 띠고 이 땅에 태어났다 등)에 대한 문장을 최초 1회 화자에게 제공하여 발화할 수 있도록 할 수 있다. 화자로부터 발화된 문장은 음성특성값 도출부(220)를 통해 분석되어 10x10 행렬 구조의 단어 사전 데이터로 저장부(230)에 저장될 수 있다. 이때, 저장되는 단어 사전 데이터는 명사 단어에 대한 정보일 수 있다.
본 발명의 일 실시 예에 따른 문맥 제시형 음성 인증 시스템(200)은 문맥 독립형 화자확인 장치(100)로부터 개시신호가 통신부(240)를 통해 수신되면(i.e. 음성 인증이 필요한 사건이 발생되면), 수신된 신호에 따라 난수 생성부(250)에서는 화자확인을 위한 난수를 발생시킬 수 있다. 난수 생성부(250)를 통해 난수가 발생되면, 음성발화 요청부(260)를 통해 난수에 대응되는 저장부(230)에 저장된 단어 사전 데이터의 음성 특성값(i.e. 음성 특징벡터 및 파라미터 값)이 검출될 수 있다.
예를 들어, 단어 사전 데이터가 저장부(230)에 10x10 행렬 구조로 저장되어 있다면, 난수 생성부(250)에 의해 생성된 난수의 자릿수가 구분되어 기 설정된 자릿수에 대응되는 2자리 숫자가 결정되고, 10x10 행렬 구조의 단어 사전 데이터에서 결정된 2자리 숫자와 대응되는 행과 열의 단어가 검출되는 방식을 통해 난수에 대응되는 단어에 대한 음성 특성값이 검출될 수 있다.
즉, 난수 생성부(250)를 통해 생성된 난수가 725384이라고 가정하면, 맨앞 2자리 숫자는 72, 중간 2자리 숫자는 53, 맨끝 2자리 숫자는 84가 될 수 있다. 이때, 맨앞 2자리 숫자를 설정된 자릿수에 대응되는 2자리 숫자로 가정하면 72이라는 2자리 숫자가 결정될 수 있고, 10x10 행렬 구조의 단어 데이터에서 7행 2열에 해당하는 단어가 선택됨으로써 생성된 난수에 대응되는 단어가 검출될 수 있다.
본 발명의 일 실시 예에 따른 음성발화 요청부(260)는 검출된 단어 및 음성 특성값에 기초하여 저장된 단어 사전 데이터의 단어를 사용자에게 발화하도록 요청할 수 있다. 예를 들어, '사과' 라는 단어가 난수 생성부(250)에 생성된 난수(ex. 725384)를 이용하여 저장부(230)에서 검출된 단어(ex. 7행 2열에 해당하는 단어)라면, 음성발화 요청부(260)는 사용자에게 “사과를 발음하시오” 라고 발화를 요청할 수 있다. 이때, 음성발화 요청부(260)는 음성 인증에 필요한 단어의 발화를 소리로 요청하기 위한 스피커, 화면을 통해 제시하기 위한 디스플레이 패널 등을 포함할 수 있다.
본 발명의 일 실시 예에 따른 화자 식별부(270)는 음성 인증을 위해 음성 수신부(210)를 통해 입력된 발화 단어를 인식하고, 인식된 발화 단어를 저장부(230)에 저장된 단어 사전 데이터의 음성 특성값과 비교하여 화자의 음성을 인증할 수 있다. 예를 들어, 화자 식별부(270)는 화자가 발화한 단어인 '사과' 의 음성 특성값(i.e. 음성 특징벡터 및 파라미터 값)에서 임계값을 설정하고, 발화 단어인 '사과' 의 음성 특성값과 저장부(230)에 저장된 '사과' 의 음성 특성값을 비교하여 그 차이가 설정된 임계값 이내인 경우에는 진정한 화자가 발화한 것으로 판단하여 화자확인을 승인할 수 있다.
본 발명의 일 실시 예에 따른 문맥 제시형 음성 인증 시스템(200)은 전술한 바와 같이 통합된 하나의 구성으로 음성 인증을 위한 동작을 수행할 수도 있으나, 음성 인증 요청 장치 및 음성 인증 장치로 구별되어 음성 인증을 위한 동작을 수행할 수도 있다. 예를 들어, 음성 인증 요청 장치에는 제 1 난수 생성부, 제 1 저장부, 음성발화 요청부, 통신부 등이 포함될 수 있으며, 음성 인증 장치에는 음성 수신부, 음성특성값 도출부, 제 2 저장부, 제 2 난수 생성부, 통신부, 화자 식별부 등이 포함될 수 있다. 이때, 각 장치에 포함된 구성들은 전술한 구성들과 동일한 동작 및 기능을 수행하는 것으로 이해될 수 있다.
본 발명의 일 실시 예에 따른 음성 인증 요청 장치와 음성 인증 장치는 시간 동기화 및 단어 사전 데이터를 동기화할 수 있다. 이러한 동기화를 통해 음성 인증을 위한 과정을 음성 인증 요청 장치와 음성 인증 장치가 동일한 시점에 수행할 수 있다. 예를 들어, 음성 인증 요청이 발생하기 전에는 기 설정된 시간 간격으로 각각 시간 동기화와 단어 사전 데이터의 동기화를 수행할 수 있다. 음성 인증이 필요한 사건이 발생하면(ex. 개시신호 수신 등) 음성 인증 장치에서 인증 요청 코드가 생성되어 음성 인증 요청 장치로 전달할 수 있고, 음성 인증 요청 장치의 제 1 난수 생성부에서는 인증 요청 코드의 전송 시간을 입력값으로 난수를 생성할 수 있다. 이때, 음성 인증 장치에서도 마찬가지로 인증 요청 코드의 전송 시간을 입력값으로 난수를 생성하므로, 음성 인증 요청이 발생한 경우에도 시간 동기화 및 단어 사전 데이터를 동기화할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100)를 이용한 화자확인 방법을 나타낸 순서도이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100)를 이용한 화자확인 방법에 있어서, 문맥 독립형 화자확인 장치(100)는 문맥 제시형 음성 인증 시스템(200)과 연동 가능하고, 화자로부터 수신된 음성의 문맥 정보를 추출하는 단계(S100), 데이터베이스(150)에 저장된 단어들 중 어느 하나와 동일한 단어가 추출된 문맥 정보에 존재하는지 여부를 판단하고, 존재한다면 추출된 문맥 정보에 존재하는 해당 단어에 대한 음성 특징벡터 및 파라미터 값을 추정하는 단계(S200), 추정된 음성 특징벡터 및 파라미터 값과 데이터베이스(150)에 저장된 해당 단어에 대한 음성 특징벡터 및 파라미터 값의 비교 분석을 소정의 횟수만큼 반복 수행하여 정합률 데이터값을 도출하는 단계(S300) 및 도출된 정합률 데이터값이 기 설정된 기준 정합률 데이터값을 초과하는지 여부를 판단하고, 초과한다면 화자확인을 승인하고, 초과하지 않는다면 문맥 제시형 음성 인증 시스템(200)을 통해 화자확인을 위한 음성 발화가 요청되도록 하는 개시신호를 생성하는 단계(S400)를 포함할 수 있다.
본 발명의 일 실시 예에 따른 본 발명의 일 실시 예에 따른 문맥 독립형 화자확인 장치(100)를 이용한 화자확인 방법에서 데이터베이스(150)에 저장된 단어들 및 단어들에 대한 음성 특징벡터 및 파라미터 값은 데이터베이스(150)에 행렬 형태로 저장되어 있으며, 데이터베이스(150) 저장된 단어들은 명사일 수 있다.
본 발명의 일 실시 예에 따른 방법과 관련하여서는 전술한 장치에 대한 내용이 적용될 수 있다. 따라서, 방법과 관련하여, 전술한 장치에 대한 내용과 동일한 내용에 대하여는 설명을 생략하였다.
한편, 본 발명의 일 실시 예에 의하면, 전술한 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다. 다시 말해서, 전술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터 판독 가능 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 본 발명의 다양한 방법들을 수행하기 위한 실행 가능한 컴퓨터 프로그램이나 코드를 기록하는 기록 매체는, 반송파(carrier waves)나 신호들과 같이 일시적인 대상들은 포함하는 것으로 이해되지는 않아야 한다. 상기 컴퓨터 판독 가능 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, DVD 등)와 같은 저장 매체를 포함할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 문맥 독립형 화자확인 장치
110: 문맥정보 추출부 120: 문맥정보 분석부
130: 정합률 데이터 도출부 140: 정합률 데이터 분석부
150: 데이터베이스 160: 통신부
200: 문맥 제시형 음성 인증 시스템
210: 음성 수신부 220: 음성특성값 도출부
230: 저장부 240: 통신부
250: 난수 생성부 260: 음성발화 요청부
270: 화자 식별부

Claims (6)

  1. 문맥 독립형 화자확인 장치에 있어서,
    상기 장치는 문맥 제시형 음성 인증 시스템과 연동 가능하고,
    화자로부터 수신된 랜덤한 음성에 대한 문맥 정보를 추출하는 문맥정보 추출부;
    데이터베이스에 저장된 단어들 중 어느 하나와 동일한 단어가 상기 추출된 문맥 정보에 존재하는지 여부를 판단하고, 존재한다면 상기 추출된 문맥 정보에 존재하는 해당 단어에 대한 음성 특징벡터 및 파라미터 값을 추정하는 문맥정보 분석부;
    상기 추정된 음성 특징벡터 및 파라미터 값과 상기 데이터베이스에 저장된 해당 단어에 대한 음성 특징벡터 및 파라미터 값의 비교 분석을 소정의 횟수만큼 반복 수행하여 정합률 데이터값을 도출하는 정합률 데이터 도출부; 및
    상기 도출된 정합률 데이터값이 기 설정된 기준 정합률 데이터값을 초과하는지 여부를 판단하고, 초과한다면 화자확인을 승인하고, 초과하지 않는다면 상기 문맥 제시형 음성 인증 시스템을 통해 상기 화자확인을 위한 음성 발화가 요청되도록 하는 개시신호를 생성하는 정합률 데이터 분석부를 포함하되,
    상기 데이터베이스에 저장된 단어들과 상기 단어들 각각에 대한 분석을 통해 도출된 상기 단어들 각각에 부합하는 음성 특징벡터 및 파라미터 값은 상기 화자확인을 위한 동작 개시 이전에 상기 데이터베이스에 행렬 형태로 미리 저장되어 있으며,
    상기 데이터베이스에 저장된 단어들에 대한 정보 및 상기 화자로부터 수신된 랜덤한 음성에 대한 문맥 정보는 명사 단어에 대한 정보인 것을 특징으로 하는 문맥 독립형 화자확인 장치.
  2. 제 1 항에 있어서,
    상기 문맥 제시형 음성 인증 시스템은,
    화자로부터 발화된 음성을 수신하기 위한 음성 수신부;
    상기 수신된 음성에 포함된 단어에 대한 음성 특징벡터 및 파라미터 값을 도출하기 위한 음성특성값 도출부;
    상기 화자확인을 위한 단어 및 상기 단어에 대한 음성 특징벡터 및 파라미터 값이 행렬(matrix) 형태로 미리 저장되어 있는 저장부;
    상기 정합률 데이터 분석부에서 생성된 개시신호를 수신하기 위한 통신부;
    상기 개시신호에 따라 상기 화자확인에 사용될 난수를 발생시키는 난수 생성부;
    상기 난수 생성부를 통해 생성된 난수에 대응되는 상기 저장부의 행과 열의 단어 및 음성 특성값을 검출하고, 상기 검출된 단어 및 음성 특성값에 기초하여 상기 화자에게 상기 음성 발화를 요청하는 음성발화 요청부; 및
    상기 음성 발화의 요청에 따라 상기 화자로부터 수신된 단어에 대한 음성 특징벡터 및 파라미터 값을 상기 검출된 단어 및 음성 특성값과 비교하여 상기 화자확인을 수행하는 화자 식별부를 포함하는 것을 특징으로 하는 문맥 독립형 화자확인 장치.
  3. 삭제
  4. 문맥 독립형 화자확인 장치를 이용한 화자확인 방법에 있어서,
    상기 장치는 문맥 제시형 음성 인증 시스템과 연동 가능하고,
    화자로부터 수신된 랜덤한 음성에 대한 문맥 정보를 추출하는 단계;
    데이터베이스에 저장된 단어들 중 어느 하나와 동일한 단어가 상기 추출된 문맥 정보에 존재하는지 여부를 판단하고, 존재한다면 상기 추출된 문맥 정보에 존재하는 해당 단어에 대한 음성 특징벡터 및 파라미터 값을 추정하는 단계;
    상기 추정된 음성 특징벡터 및 파라미터 값과 상기 데이터베이스에 저장된 해당 단어에 대한 음성 특징벡터 및 파라미터 값의 비교 분석을 소정의 횟수만큼 반복 수행하여 정합률 데이터값을 도출하는 단계; 및
    상기 도출된 정합률 데이터값이 기 설정된 기준 정합률 데이터값을 초과하는지 여부를 판단하고, 초과한다면 화자확인을 승인하고, 초과하지 않는다면 상기 문맥 제시형 음성 인증 시스템을 통해 상기 화자확인을 위한 음성 발화가 요청되도록 하는 개시신호를 생성하는 단계를 포함하되,
    상기 데이터베이스에 저장된 단어들과 상기 단어들 각각에 대한 분석을 통해 도출된 상기 단어들 각각에 부합하는 음성 특징벡터 및 파라미터 값은 상기 화자확인을 위한 동작 개시 이전에 상기 데이터베이스에 행렬 형태로 미리 저장되어 있으며,
    상기 데이터베이스에 저장된 단어들에 대한 정보 및 상기 화자로부터 수신된 랜덤한 음성에 대한 문맥 정보는 명사 단어에 대한 정보인 것을 특징으로 하는 화자확인 방법.
  5. 삭제
  6. 제 4 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020180063577A 2018-06-01 2018-06-01 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법 KR101925253B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180063577A KR101925253B1 (ko) 2018-06-01 2018-06-01 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180063577A KR101925253B1 (ko) 2018-06-01 2018-06-01 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법

Publications (1)

Publication Number Publication Date
KR101925253B1 true KR101925253B1 (ko) 2018-12-04

Family

ID=64668965

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180063577A KR101925253B1 (ko) 2018-06-01 2018-06-01 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법

Country Status (1)

Country Link
KR (1) KR101925253B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102113879B1 (ko) * 2018-12-19 2020-05-26 주식회사 공훈 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004294755A (ja) * 2003-03-27 2004-10-21 Secom Co Ltd 話者認証装置及び話者認証プログラム
KR101812022B1 (ko) * 2017-10-20 2017-12-26 주식회사 공훈 음성 인증 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004294755A (ja) * 2003-03-27 2004-10-21 Secom Co Ltd 話者認証装置及び話者認証プログラム
KR101812022B1 (ko) * 2017-10-20 2017-12-26 주식회사 공훈 음성 인증 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102113879B1 (ko) * 2018-12-19 2020-05-26 주식회사 공훈 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치

Similar Documents

Publication Publication Date Title
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
KR102371188B1 (ko) 음성 인식 장치 및 방법과 전자 장치
TWI427620B (zh) A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system
CN104509065B (zh) 使用说话能力作为人类交互证明
US8145486B2 (en) Indexing apparatus, indexing method, and computer program product
US11252152B2 (en) Voiceprint security with messaging services
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
US20140337024A1 (en) Method and system for speech command detection, and information processing system
EP2879130A1 (en) Methods and systems for splitting a digital signal
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN104462912B (zh) 改进的生物密码安全
KR102585231B1 (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
WO2022057283A1 (zh) 声纹注册方法、装置和计算机可读存储介质
CN109086455B (zh) 一种语音识别库的构建方法及学习设备
CN111768789B (zh) 电子设备及其语音发出者身份确定方法、装置和介质
CN111684444A (zh) 一种身份验证方法、终端设备、存储介质
JP4318475B2 (ja) 話者認証装置及び話者認証プログラム
KR101925253B1 (ko) 문맥 독립형 화자확인 장치 및 이를 이용한 화자확인 방법
US20140163986A1 (en) Voice-based captcha method and apparatus
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
US11929077B2 (en) Multi-stage speaker enrollment in voice authentication and identification
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
CN110895938B (zh) 语音校正系统及语音校正方法
JP6571587B2 (ja) 音声入力装置、その方法、及びプログラム

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant