KR102203161B1

KR102203161B1 - 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법

Info

Publication number: KR102203161B1
Application number: KR1020190069708A
Authority: KR
Inventors: 박남인; 전옥엽; 이중
Original assignee: 대한민국
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-01-14
Also published as: KR20200142666A

Abstract

본 발명은 음성파일에 기반하여 화자를 인식할 수 있는 장치 및 시스템 그리고 방법에 관한 것이다.
본 발명의 음성파일에 대한 화자인식장치는, 복수 개의 범죄음성파일을 기 저장하고 있으며, 외부장치에서 전송되는 신고음성파일을 저장하는 제1데이터베이스부;
범죄음성파일과 신고음성파일을 수신한 후, 범죄음성파일로부터 복수 개의 N개의 음성벡터들을 추출하고, 신고음성파일에서 신고음성벡터를 추출하는 음성벡터추출부; N개의 음성벡터들과 신고음성벡터에 대해 기 설정된 고정길이의 고정음성신호벡터로 변환하는 특징변환부; 특징변환부에서 변환된 제1고정음성신호벡터들과 신고고정음성신호벡터 간 유사도를 측정하는 유사도측정부; 및 복수 개의 N개의 고정음성벡터들 중 기 설정된 기준유사도값 이상의 매칭값을 나타내는 고정음성벡터를 갖는 범죄음성파일을 후보군으로 추출하는 후보군추출부를 포함한다.

Description

음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법{Speaker Recognition Device Based on Voice Files And Speaker Recognition System Based on Voice Files And Speaker Recognition System Based on Voice Files}

본 발명은 음성파일에 기반하여 화자를 인식할 수 있는 장치 및 시스템 그리고 방법에 관한 것이다. 더욱 상세하게는, 본 발명은 과학수사에서 보이스피싱과 같은 대량의 음성데이터로부터 후보군을 정확하게 추출하는 과정과 추출된 후보군에서 해당 화자에 대한 검증 과정을 효율적으로 처리할 수 있는 장치 및 시스템 그리고 방법에 관한 것이다.

점차적으로 보이스피싱 범죄가 많아지고 있다. 보이스피싱에 대한 범죄를 효과적으로 해결하기 위해, 예전부터 화자를 인식할 수 있는 기술이 발전해 오고 있었다. 일례로, 임의의 음성에 대하여 음성 데이터베이스 중에 누구의 음성인지를 찾아내는 화자식별 그리고 두 개의 음성이 동일한 사람에 의해 발성된 것인지 여부를 결정하는 화자검증 등을 포함하는 화자인식 방법이 개발되었다.

그러나, 화자인식 방법은 음성 주변 잡음 및 마이크로폰의 결함 등으로 인해 음질 왜곡이 발생할 경우, 음성의 특징을 정확히 추출할 수 없는 문제가 있다. 더욱이, 실제 범죄현장에서 취득한 음성 파일은 대다수 주변 잡음을 포함하고 있고, 시스템을 통해 화자를 정확히 추출할 수 없는 문제가 있다. 이러한 음성 파일은 사람이 일일이 청취한 후, 동일한 발성 구간을 찾아 비교하는 과정을 통해서 화자를 검출할 수 있도록 한다. 그러나 사람이 일일이 음성파일을 청취하여 화자를 검출하는 방식은 화자를 검출하는데 있어 많은 시간을 소비한다는 점에서 상당히 비효율적인 방법이다.

이러한 문제점을 해결하기 위해, 패턴인식 알고리즘 및 통계 처리에 의한 문장 독립기반의 자동화자인식(Automatic Speaker Verification)에 대한 기술이 개발되어 왔었다. 특히, 혼합 가우시안 모델(Gaussian Mixture Model)과 슈퍼벡터(Supervector) 기반의 서포트 벡터 머신(Supprot Vector Machine) 기법에 대한 기술이 많이 개발되었다. 이후, 개발된 기술에 기반하여 채널 잡음과 세션의 문제를 해결하기 위한 연구가 진행되면서 JFA(Joint Factor Analysis)과 i-vector 기반의 화자 인식으로 발전하였다.

이와 같은 다양한 방법의 화자 인식 기술의 개발에도 불구하고, 아직도 범죄현장에서 기록된 음성파일에서 화자를 정확하게 추출하지 못하고 있다.

대한민국 공개특허 제10-2017-0062726호 (공개일: 2017.06.08)

본 발명이 해결하고자 하는 과제는, 범죄현장에서 기록된 음성파일에서 화자를 정확하게 추출하고자 하는 것이다. 보다 구체적으로 본 발명이 해결하고자 하는 과제는 확보된 많은 보이스피싱 음성 데이터에서 신고 음성데이터와 유사하다고 판단되는 후보군을 빠르게 추출하고, 추출된 데이터를 다양한 방법으로 검증해 음성데이터에서 화자를 정확하게 추출하는 것이다.

본 발명의 해결하고자 하는 과제는 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 해결하고자 하는 과제를 달성하기 위한 본 발명의 음성파일에 대한 화자인식장치는, 복수 개의 범죄음성파일을 기 저장하고 있으며 외부장치에서 전송되는 신고음성파일을 저장하는 제1데이터베이스부;

상기 범죄음성파일과 상기 신고음성파일을 수신한 후, 상기 범죄음성파일에서 복수 개의 N개의 음성벡터들을 추출하고, 상기 신고음성파일에서 신고음성벡터를 추출하는 음성벡터추출부;

상기 N개의 음성벡터를 N개의 고정음성벡터로 변환하고, 상기 신고음성벡터를 신고고정음성벡터로 변환하는 특징변환부;

상기 N개의 고정음성벡터와 상기 신고고정음성벡터 간 유사도를 측정하는 유사도측정부; 및

기 설정된 기준유사도값 이상의 매칭값을 갖는 범죄음성파일을 후보군으로 추출하는 후보군추출부를 포함한다.

상기 음성벡터추출부와 상기 특징변환부 사이에 위치하여, 상기 음성벡터추출부에서 상기 N개의 음성벡터 및 상기 신고음성벡터를 수신해 노이즈를 제거한 후, 상기 유사도측정부에 전송하는 전처리부를 포함할 수 있다.

상기 유사도측정부는, 상기 특징변환부에서 변환된 상기 N개의 음성벡터들과 상기 고정음성벡터로부터 코사인 유사도를 측정할 수 있다.

상기 유사도측정부는 상기 N개의 고정음성벡터의 위치를 이동시키며 상기 신고고정음성벡터와의 매칭값을 추출할 수 있다.

상기 유사도측정부는 매칭값이 높은 순서대로 N개의 범죄음성파일들을 정렬할 수 있다.

또 하나의 상기 해결하고자 하는 과제를 달성하기 위한 본 발명의 음성파일에 대한 화자인식시스템은,

복수 개의 범죄음성파일을 기 저장하고 있으며, 외부장치에서 전송되는 신고음성파일을 저장하는 제1데이터베이스부;

상기 범죄음성파일과 상기 신고음성파일을 수신한 후, 상기 복수 개의 범죄음성파일을 복수 개의 N개의 음성벡터로 추출하고 상기 신고음성파일을 신고음성벡터로 추출하는 음성벡터추출부;

상기 N개의 음성벡터와 상기 신고음성벡터를 기 설정된 고정 길이의 음성신호벡터로 변환하는 특징변환부;

상기 N개의 고정음성벡터와 상기 신고고정음성벡터 간 유사도를 측정하는 유사도측정부;

기 설정된 기준유사도값 이상의 매칭값을 나타내는 범죄음성파일을 후보군으로 추출하는 후보군추출부;

상기 신고음성파일과 상기 후보군추출부에서 추출된 상기 범죄음성파일을 시간 축과 주파수 축의 변화에 따라 진폭의 차이를 명암의 차이 또는 색상의 차이로 데이터를 나타내는 스펙트로그램부; 및

상기 스펙트로그램부에서 출력된 상기 범죄음성파일의 데이터와 상기 신고음성파일의 데이터를 비교하여 유사도를 검정하는 제1검정단이 포함된 제1화자검정부를 포함한다.

상기 제1화자검정부는 상기 신고음성파일과 상기 범죄음성파일이 동일하다고 판단되면 선택할 수 있는 제1선택지, 상기 신고음성파일과 상기 범죄음성파일이 상이하다고 판단되면 선택할 수 있는 제2선택지, 및 상기 신고음성파일과 상기 범죄음성파일이 동일여부 판단이 곤란하다고 판단되면 선택할 수 있는 제3선택지를 상기 제1검정단에게 제공할 수 있다.

복수 개의 신원정보를 포함하는 제2데이터베이스부;

두 개의 음성이 동일한 동일음성문제와 두 개의 음성이 상이한 상이음성문제를 복수 개 포함하여, 상기 제2데이터베이스부에서 신원확인신호가 수신되면, 상기 동일음성문제와 상기 상이음성문제를 청취문제로 생성하는 청취문제생성부;

상기 신고음성파일과 상기 후보군추출부에서 후보군으로 설정된 상기 범죄음성파일 그리고 상기 청취문제를 수신해 혼합한 후, 혼합문제로 생성하는 혼합문제생성부;

상기 제2데이터베이스부에 상기 신원정보를 제공한 후, 상기 혼합문제생성부에서 접근하여 상기 혼합문제를 푸는 제2검정단이 포함된 제2화자검정부을 포함할 수 있다.

상기 제2화자검정부는 상기 신고음성파일과 상기 범죄음성파일이 동일하다고 판단되면 선택할 수 있는 제1선택지, 상기 신고음성파일과 상기 범죄음성파일이 상이하다고 판단되면 선택할 수 있는 제2선택지 및 상기 신고음성파일과 상기 범죄음성파일이 동일여부 판단이 곤란하다고 판단되면 선택할 수 있는 제3선택지를 상기 제2검정단에게 제공할 수 있다.

상기 제1검정단에 의해 선택된 선택지와 상기 제2검정단에 의해 선택된 선택지의 데이터를 수신하는 관공서서버를 포함할 수 있다.

상기 청취문제생성부는 상기 동일음성문제와 상기 상이음성문제를 같은 비율로 포함하는 상기 청취문제를 생성할 수 있다.

또 다른 하나의 상기 해결하고자 하는 과제를 달성하기 위한 본 발명의 음성파일에 대한 화자인식방법은,

제1테이터베이스부에 복수 개의 범죄음성파일이 저장되고, 외부장치에서 전송되는 신고음성파일을 저장하는 (A)단계;

음성벡터추출부가 상기 범죄음성파일과 상기 신고음성파일을 수신한 후, N개의 범죄음성파일들을 N개의 N개의 음성벡터들로 추출하고 상기 신고음성파일에서 신고음성벡터를 추출하는 (B)단계;

특징변환부가 N개의 음성벡터를 기 설정된 고정 길이의 N개의 고정음성벡터로 변환하고, 상기 신고음성벡터를 기 설정된 고정 길이의 신고고정음성벡터로 변환하는 (C)단계;

유사도측정부가 상기 N개의 고정음성벡터와 상기 신고고정음성벡터 간 유사도를 측정하는 (D)단계;

후보군추출부가 기 설정된 기준유사도값 이상의 매칭값을 나타내는 범죄음성파일을 후보군으로 추출하는 (E)단계;

스펙트로그램부가 상기 신고음성파일과 상기 후보군추출부에서 추출된 상기 범죄음성파일을 시간축과 주파수 축의 변화에 따라 진폭의 차이를 명암 차이 또는 색상의 차이로 출력된 데이터를 출력하는 (F)단계; 및

제1검정단을 포함하는 제1화자검정부가 상기 스펙트로그램부에서 출력된 상기 범죄음성파일의 데이터와 상기 신고음성파일의 데이터를 비교하여 유사도를 검정하는 (G)단계를 포함한다.

상기 (G)단계는 상기 제1검정단이 상기 제1화자검정부가 제공하는 제1선택지, 제2선택지 및 제3선택지 중 어느 하나를 선택할 수 있는 (G-1)단계를 포함할 수 있다.

제2데이터베이스부에 두 개의 음성이 동일한 동일음성문제와 두 개의 음성이 상이한 상이음성문제로 구성된 청취문제와 복수 명의 신원정보를 포함하는 (H)단계;

청취문제생성부가 상기 제2데이터베이스부에 상기 신원정보가 수신되면 상기 청취문제를 생성하는 (I)단계;

혼합문제생성부가 상기 신고음성파일과 상기 후보군추출부에서 후보군으로 설정된 상기 범죄음성파일과 상기 청취문제를 수신해 혼합한 후, 혼합문제를 생성하는 (J)단계;

제2검정단을 포함하는 제2화자검정부가 상기 제2데이터베이스부에 상기 신원정보를 제공한 후, 상기 혼합문제생성부에 접근하여 상기 혼합문제를 푸는 (K)단계를 포함할 수 있다.

상기 (K)단계는 상기 제2검정단이 상기 제2화자검정부가 제공하는 제1선택지, 제2선택지 및 제3선택지 중 어느 하나를 선택할 수 있는 (K-1)단계를 포함할 수 있다.

상기 (G)단계 또는 상기 (K)단계 이후, 선택된 선택지에 대한 데이터를 관공서서버로 전송하는 (L)단계를 포함할 수 있다.

본 발명에 따른 음성파일에 대한 화자인식장치 및 이를 포함하는 시스템 및 음성파일에 대한 화자인식방법은 대량의 음성데이터에서 후보 군을 고속으로 탐색해 추출할 수 있다. 또한, 본 발명은 보이스피싱에 포함되는 정형화된 단어로부터 스펙트로그램을 분석을 통해 신뢰도 높은 후보군을 추출한다. 그리고, 후보군 음성파일과 신고 음성파일간 분석 비교 결과를 동일음성, 상이음성 및 판단곤란으로 나타내며 전문가가 분석 비교 결과를 정확하게 선택할 수 있도록 해, 화자 인식에 대한 오류를 줄일 수 있도록 한다. 또한 수사 기관 및 법원 등에 등록한 청취 실험 참가자들에게 서버 기반 문제 은행에서 추출된 문제, 실제 추출된 후보군 그리고 신고 데이터에 대한 문제를 혼합하여 제공하며, 청취 실험 참가자들로부터 객관적이며 신뢰성 있는 실험결과를 획득 할 수 있다.

다시 말해, 본 발명은 크게 대량 음성 데이터를 고속으로 처리할 수 있는 효과, 전문가에 의한 화자를 검증할 수 있는 효과, 청취자가 청취한 내용을 기반으로 화자를 검증할 수 있는 효과 그리고 법과학적 화자를 인식할 수 있는 효과를 나타낼 수 있다.

도 1은 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식장치에 대한 개략적인 블록도이다.
도 2 및 도 3은 본 발명의 일 실시예에 의한 특징변환부와 유사도측정부의 작동 상태를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식시스템을 개략적으로 나타낸 블록도이다.
도 5는 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식시스템의 구체적인 블록도이다.
도 6은 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식시스템의 스펙트로그램부에서 형성된 스펙트로그램 분포도이다.
도 7 및 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식방법의 순서도이다.

본 발명의 이점 및 특징 그리고 그것들을 달성하기 위한 방법들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 본 실시예들은 단지 본 발명의 개시가 완전하도록 하고 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다. 본 발명의 청구범위는 청구항에 의해 정의될 수 있다. 아울러, 명세서 전체에 걸쳐 동일 참조부호는 동일 구성요소를 지칭한다.

또한, 본 명세서 전체에 걸쳐 기술된 음성파일에 대한 화자인식장치 및 음성파일에 대한화자인식장치에 포함되는 모든 구성요소는 음성파일에 대한 화자인식시스템에 그대로 적용될 수 있다.

본 발명에 대한 설명이 간결하고 명확해질 수 있도록, 도 1 내지 도 3을 참조하여 음성파일에 대한 화자인식장치에 대해 상세히 설명한다. 이후, 음성파일에 대한 화자인식장치에 대한 설명을 바탕으로 도 4 내지 도 6을 참조하며 음성파일에 대한 화자인식시스템에 대해 구체적으로 설명한다. 그리고 음성파일에 대한 화자인식시스템에 대한 설명을 바탕으로 도 7을 참조하며 음성파일에 대한 화자인식방법에 대해 상세히 설명한다.

먼저, 도 1 내지 도 3을 참조하여 본 발명의 음성파일에 대한 화자인식장치에 대해 설명한다.

도 1은 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식장치에 대한 개략적인 블록도이고, 도 2 및 도 3은 본 발명의 일 실시예에 의한 특징변환부와 유사도측정부의 작동 상태를 나타낸 도면이다.

본 발명의 음성파일에 대한 화자인식장치(1)는 확보된 많은 보이스피싱 음성 데이터에 신고 음성데이터를 비교하여, 유사하다고 판단되는 후보군을 빠르게 추출하고, 추출된 데이터를 다양한 방법 및 다양한 단계로 검증해 음성데이터에서 화자를 정확하게 추출할 수 있다. 이와 같은, 음성파일에 대한 화자인식장치(1)는 다양한 방법 및 다양한 단계로 데이터를 검증해 화자를 추출하여 화자 검출에 대해 높은 신뢰도를 가질 수 있다.

본 발명의 음성파일에 대한 화자인식장치(1)는 제1데이터베이스부(10), 음성벡터추출부(20), 특징변환부(40), 유사도측정부(50) 및 후보군추출부(60)를 구성요소로 포함한다. 그리고 전처리부(30)를 구성요소로 포함할 수 있다. 본 발명의 음성파일에 대한 화자인식장치(1)는 이와 같은 구성요소 간 데이터가 이동될 수 있고, 연산될 수 있도록 하는 프로그램이 설치된 컴퓨터가 될 수 있다.

이하, 음성파일에 대한 화자인식장치(1)에 포함되는 구성요소에 대해 구체적으로 설명한다.

제1데이터베이스부(10)는 복수 개의 음성파일을 저장한다. 이러한 제1데이터베이스부(10)는 복수 개의 범죄음성파일들(101)을 기 저장하고 있으며 외부장치에서 전송되는 신고음성파일(102)을 저장할 수 있다. 여기서, 범죄음성파일들(101)은 신고음성파일(102)이 저장되기 전, 발생되었던 다수의 신고음성파일이 될 수 있다. 이러한 범죄음성파일들(101)은 도 1에 도시된 바와 같이 제1범죄음성파일(101), 제2범죄음성파일(101), 제3범죄음성파일(101) 그리고 제n범죄음성파일로 구성되어 있다. 그리고 신고음성파일(102)은 저장되어 있는 범죄음성파일(101) 이후에 발생된 음성파일이 될 수 있다. 그리고 신고음성파일(102)을 생성하는 외부장치는 신고자의 휴대폰 및 녹음기가 될 수 있다. 이러한 제1데이터베이스부(10)는 저장하고 있는 복수 개의 범죄음성파일(101) 및 신고음성파일(102)을 음성벡터추출부(20)로 전송할 수 있다.

음성벡터추출부(20)는 음성파일에서 특징을 추출할 수 있도록 음성을 가공한다. 이러한 음성벡터추출부(20)는 제1데이터베이스부(10)에서 복수 개의 범죄음성파일(101)과 신고음성파일(102)을 수신한 후, 범죄음성파일을 N개의 음성벡터들을 추출하고, 신고음성파일로부터 신고음성벡터로 추출한다.

전처리부(30)는 가공된 벡터데이터에 있는 노이즈를 제거한다. 전처리부(30)는 음성벡터추출부(20)와 특징변환부(40) 사이에 위치하여, 음성벡터추출부(20)에서 복수 개의 N개의 음성벡터 및 신고음성벡터를 수신해 노이즈를 제거한다. 그리고 노이즈가 제거된 N개의 음성벡터들과 신고음성벡터를 특징변환부(40)로 전송한다.

특징변환부(40)는 제1데이터베이스부(10)에서 전송되는 여러 가변길이의 음성파일들에 대한 전처리된 음성벡터로부터 기 설정된 고정 길이의 음성특징벡터를 추출할 수 있다. 일례로, 일례로, 특징변환부(40)는 범죄음성파일들과 신고음성파일에 대해 I-vector 또는 가우시안 혼합방법(GMM: Gauussian Mixture Model)을 이용해 최적화된 파라메터를 추출할 수 있다.

유사도측정부(50)는 범죄음성파일과 신고음성파일 간 유사도를 측정한다. 유사도측정부(50)는 특징변환부(40)에서 변환된 복수 개의 N개의 고정음성벡터들과 신고고정음성벡터 간 유사도를 정밀하게 측정할 수 있다. 일례로, 유사도측정부(50)는 도 2에 도시된 바와 같이 특징변환부(40)에서 수신된 복수 개의 N개의 고정음성벡터들과 상기 신고고정음성벡터 간의 코사인 거리값을 비교하여 복수 개의 N개의 고정음성벡터들과 신고고정음성벡터의 각 방향들에 대한 유사도를 측정할 수 있다.

그리고 유사도측정부(50)는 도 3에 도시된 바와 같이 복수 개의 N개의 고정음성벡터들의 시작 위치를 이동시키면서 신고고정음성벡터와 매칭시킬 수 있다. 그리고 매칭값을 추출할 수 있다.

유사도측정부(50)는 추출된 매칭값 기준으로 하여, 매칭값이 높은 순서로 N개의 범죄음성파일을 정렬할 수 있다.

후보군추출부(60)는 기준유사도값을 가진다. 후보군추출부(60)는 기 설정된 기준유사도값을 이용해, 기준유사도값 이상의 유사도 및 매칭값을 나타내는 제1하위음성벡터를 갖는 범죄음성파일을 후보군으로 추출할 수 있다.

이하, 지금까지 설명한 음성파일에 대한 화자인식장치에 대한 설명을 바탕으로 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식시스템에 대해 상세히 설명한다. 음성파일에 대한 화자인식시스템에 대한 설명은 도 4를 통해 개괄적으로 설명한 후, 도 5 및 도 6을 통해 구성요소 및 구성요소의 특징에 대해 보다 구체적으로 설명하도록 한다.

도 4는 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식시스템을 개략적으로 나타낸 블록도이고, 도 5는 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식시스템의 구체적인 블록도이다. 그리고 도 6은 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식시스템의 스펙트로그램부에서 형성된 스펙트로그램 분포도이다.

음성파일에 대한 화자인식시스템(1-1)은 전술한 음성파일에 대한 화자인식장치(1)를 포함하여 음성파일에 대한 화자인식장치(1)이 갖는 특징을 나타내면서도, 스펙트로그램을 분석을 통해 신뢰도 높은 후보군을 추출할 수 있는 특징을 나타낼 수 있다. 아울러, 음성파일에 대한 화자인식시스템(1-1)은 이러한 특징에 기반하여 신뢰성 있는 화자검증이 진행될 수 있도록 하는 특징 또한 나타낼 수 있다. 보다 구체적으로, 음성파일에 대한 화자인식시스템(1-1)은 후보군 음성파일과 신고 음성파일간 분석 비교 결과를 동일음성, 상이음성 및 판단곤란으로 나타내며 전문가가 발생시키는 화자 인식에 대한 오류를 최소화 시킬 수 있는 특징을 나타낼 수 있다. 그리고 수사 기관 및 법원 등에 등록한 청취 실험 참가자들에게 서버 기반 문제 은행에서 추출된 문제, 실제 추출된 후보군 그리고 신고 데이터에 대한 문제를 혼합하여 제공하며 청취 실험 참가자들로부터 객관적이며 신뢰성 있는 실험결과를 획득 할 수 있도록 하는 특징을 나타낼 수 있다.

이와 같은 음성파일에 대한 화자인식시스템(1-1)은 전술한 특징을 나타낼 수 있도록, 스펙트로그램부(70) 및 제1화자검정부(80)를 포함한다.

스펙트로그램부(70)는 신고음성파일(102)과 후보군추출부(60)에서 추출된 범죄음성파일을 시간 축과 주파수 축의 변화에 따라 진폭의 차이를 명암의 차이 또는 색상의 차이로 데이터를 나타낸다. 일례로, 스펙트로그램부(70)는 신고음성파일(102)은 도 6의 (a)에 도시된 바와 같이 스펙트로그램 분포(710)로 나타낼 수 있고, 후보군추출부(60)에서 추출된 범죄음성파일을 도 6의 (b)에 도시된 스펙트로그램 분포(720)로 나타낼 수 있다. 이러한 스펙트로그램부(70)는‘명의 도용’,‘대포통장’,‘xx 은행’등과 같이 범죄에 자주 사용되는 단어 혹은 자주 자용되는 어절을 유사한 스펙트로그램 분포로 나타낼 수 있다.

제1화자검정부(80)는 데이터를 검증하는 제1검정단을 포함하고, 검증하는 데이터의 평가에 대한 제1검정단에게 다양한 선택지를 제공한다. 여기서, 제1검정단은 스펙트로그램 및 성도의 공명주파수, 즉 포먼트(Formant)에 대해 이해를 하고 있는 한 명 이상의 전문가가 될 수 있다. 이러한 제1검정단은 스펙트로그램부(70)에서 출력된 범죄음성파일의 스펙트로그램 분포데이터와 신고음성파일의 스펙트로그램 분포데이터를 비교하여 유사도를 검정한다.

제1화자검정부(80)는 이러한 제1검정단에게 신고음성파일(102)과 범죄음성파일(101)이 동일하다고 판단되면 선택할 수 있는 제1선택지, 신고음성파일(102)과 범죄음성파일(101)이 상이하다고 판단되면 선택할 수 있는 제2선택지, 및 신고음성파일과 범죄음성파일이 동일여부 판단이 곤란하다고 판단되면 선택할 수 있는 제3선택지를 제공한다.

제1화자검정부(80)는 제1선택지, 제2선택지 및 제3선택지를 제1검증단에게 제공하며, 제1검증단이 화자를 검증하는 과정에서 애매한 부분에 대해 제1선택지 및 제2선택지로 선택하지 않고, 따로 분류하여 화자 인식 검증에 대한 신뢰를 높일 수 있다. 또한, 제1화자검정부(80)는 제1검증단이 제1선택지 및 제2선택지를 선택한 신고음성파일(102)과 범죄음성파일(101)에 대해 관공서서버 즉, 수사기관 이나 법원서버에 제공할 수 있다.

이와 같은 음성파일에 대한 화자인식시스템(1-1)은 화자 인식에 대한 검증에 대해 보다 높은 신뢰도를 나타낼 수 있도록, 제1검정단이 제3선택지로 선택한 신고음성파일(102)과 범죄음성파일(101)을 청취하는 제2검증단이 추가되는 구조로 형성될 수 있다. 음성파일에 대한 화자인식시스템(1-1)은 수사 기관 및 법원 등에서 요청한 청취 실험 참가자로 등록된 제2검증단이 서버 기반 문제 은행에서 추출된 문제와 실제 추출된 후보군과 신고 데이터에 대해 혼합된 문제를 평가할 수 있도록 함으로써, 객관적인 화자 검증 환경을 구축할 수 있다. 그리고 검증 결과에 대한 객관적인 수치 제시가 가능하다.

이러한 음성파일에 대한 화자인식시스템(1-1)은 제2데이터베이스부(90), 청취문제생성부(100), 혼합문제생성부(110) 그리고 제2화자검정부(120)를 더 포함할 수 있다.

제2데이터베이스부(90)는 제2검증단의 신원정보를 포함한다. 이때, 신원정보는 수사 기관 및 법원 등에서 요청한 청취 실험 참가자의 정보가 될 수 있다. 제2데이터베이스부(90)는 제1데이터베이스부(10)와 데이터 통신 가능하게 연결되어, 저장된 데이터를 송수신 할 수 있다.

청취문제생성부(100)는 두 개의 음성이 동일한 동일음성문제와 두 개의 음성이 상이한 상이음성문제를 복수 개 포함한다. 청취문제생성부(100)는 동일음성문제와 상이음성문제를 같은 비율로 포함하는 청취문제를 생성할 수 있다.

청취문제생성부(100)는 제2데이터베이스부(90)에서 신원확인신호가 수신되면 동일음성문제와 상이음성문제를 청취문제로 생성한다.

혼합문제생성부(110)는 신고음성파일(102)과 후보군추출부에서 후보군으로 설정된 범죄음성파일 그리고 청취문제를 수신해 혼합한 후, 혼합문제로 생성한다.

제2화자검정부(120)는 수사 기관 및 법원 등의 관공서 등에서 요청한 청휘 실험 참가자 즉, 제2검정단을 포함한다. 제2화자검정부(120)는 제2검정단이 제2데이터베이스부(90)에 신원정보를 제공하며, 제2검정단에게 후술한 혼합문제생성부(110)에 접근 가능하게 하거나, 혼합문제생성부(110)로부터 혼합문제를 수신하여 제공할 수 있다.

제2화자검정부(120)는 제2검정단에게 신고음성파일(102)과 범죄음성파일(101)이 동일하다고 판단되면 선택할 수 있는 제1선택지, 신고음성파일(102)과 범죄음성파일이 상이하다고 판단되면 선택할 수 있는 제2선택지 및 신고음성파일(102)과 범죄음성파일이 동일여부 판단이 곤란하다고 판단되면 선택할 수 있는 제3선택지를 제공한다.

제2화자검정부(120)는 제1선택지, 제2선택지 및 제3선택지를 제2검증단에게 제공하며 제2검증단이 화자를 검증하는 과정에서 애매한 문제에 대해 제1선택지 및 제2선택지 중 어느 하나로 선택하지 않고, 따로 분류하여 화자 인식 검증에 대한 신뢰를 높일 수 있다. 더욱이, 제2화자검정부(120)는 제2검증단에게 여러 문제를 혼합하여 제공하여 풀도록 함으로써 획득하고자 하는 지표에 대한 산출값을 객관적으로 얻을 수 있도록 한다. 아울러, 제2화자검정부(120)는 제2검증단이 푸는 범죄음성파일(101)과 신고음성파일(102) 문제에 대해 선택지가 모두 동일한 경우에 한해서만 신뢰할 수 있는 데이터로 활용할 수 있도록 하며 화자 검증에 대한 신뢰도를 한층 높이 수 있다. 그리고, 제2화자검정부(120)는 이와 같은 방식으로 얻은 데이터를 관공서서버 즉, 수사기관 이나 법원서버에 제공할 수 있다.

이하, 지금까지 설명한 음성파일에 대한 화자인식시스템에 대한 설명을 바탕으로 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식방법에 대해 상세히 설명한다. 음성파일에 대한 화자인식방법에 대한 설명은 도 7의 순서도를 기준으로 하여 설명한다.

도 7 및 본 발명의 일 실시예에 의한 음성파일에 대한 화자인식방법의 순서도이다.

음성파일에 대한 화자인식방법은 제1데이터베이스부(10)에 복수 개의 음성파일을 저장하는 단계를 시작으로 하여 일련의 단계를 시작하고 제1검정단 및 제2검정단이 선택한 선택지를 관공서서버로 전송하는 단계를 끝으로 하여, 대량 음성 데이터를 고속으로 처리할 수 있는 효과, 전문가에 의한 화자를 검증할 수 있는 효과 및 청취자가 청취한 내용을 기반으로 화자를 검증할 수 있는 효과를 나타낼 수 있다.

이하, 음성파일에 대한 화자인식방법에 대한 순서에 대해 보다 구체적으로 설명한다.

음성파일에 대한 화자인식방법은 복수 개의 범죄음성파일이 저장되고, 외부장치에서 전송되는 신고음성파일을 저장하는 (A)단계(S110)로 시작된다. 이후, 음성벡터추출부(20)가 범죄음성파일(101)과 신고음성파일(102)을 수신한 후, 범죄음성파일(101)을 N개의 음성벡터로 변환하고 신고음성파일(102)을 신고음성벡터로 변환하는 (B)단계(S120)로 진행된다. 그리고 특징변환부(40)가 N개의 음성벡터와 신고음성벡터를 복수 개의 음성구간으로 분할하고, 분할된 음성벡터 마다 기 설정된 길이의 하위음성신호벡터를 추출하는 (C)단계(S130)로 진행된다. 또한, 유사도측정부(50)가 N개의 음성벡터와 신고음성벡터의 유사도를 측정하는 (D)단계(S140)로 진행된다.

이후, 음성파일에 대한 화자인식방법은 후보군추출부(60)가 기 설정된 기준유사도값 이상의 매칭값을 나타내는 상기 N개의 음성벡터를 갖는 범죄음성파일을 후보군으로 추출하는 (E)단계(S150)로 진행된다.

이후, 스펙트로그램부(70)가 신고음성파일(102)과 후보군추출부(60)에서 추출된 범죄음성파일을 시간 축과 주파수 축의 변화에 따라 진폭의 차이를 명암 차이 또는 색상의 차이로 출력된 데이터를 출력하는 (F)단계(S160)로 진행된다. 그리고 제1화자검정부(80)가 스펙트로그램부에서 출력된 범죄음성파일의 데이터와 신고음성파일의 데이터를 비교하여 유사도를 검정하는 (G)단계(S170)로 진행된다.

음성파일에 대한 화자인식방법은 (G)단계(S170)에서, 제1검정단에게 검정하는 문제를 제1선택지, 제2선택지 및 제3선택지 중 어느 하나로 선택하여 검증할 수 있도록 하는 (G-1)단계로 진행될 수 있다.

음성파일에 대한 화자인식방법은 (G-1)단계에서 선택된 제1선택지, 제2선택지 및 제3선택지를 관공서서버로 전송하는 (L)단계로 진행될 수 있다. 아울러, 음성파일에 대한 화자인식방법은 (L)단계와 함께, 제1검증단이 선택한 제3선택지를 제2화자검정부(120)가 참가하여 검증할 수 있도록 하는 (H)단계 내지 (K)단계로 진행될 수 있다.

이하, (H)단계 내지 (K)단계로 진행되는 음성파일에 대한 화자인식방법에 대해 구체적으로 설명한다.

음성파일에 대한 화자인식방법은 (L)단계와 함께, 제2데이터베이스부(90)에 두 개의 음성이 동일한 동일음성문제와 두 개의 음성이 상이한 상이음성문제로 구성된 청취문제와 복수 명의 신원정보를 포함하는 (H)단계(S171)로 진행될 수 있다. 이때, 음성파일에 대한 화자인식방법은 (A)단계가 진행될 때, 제2데이터베이스부(90)에 두 개의 음성이 동일한 동일음성문제와 두 개의 음성이 상이한 상이음성문제로 구성된 청취문제와 복수 명의 신원정보가 저장되는 (H)단계(S210)가 진행될 수 있다. (H)단계 이후, 음성파일에 대한 화자인식방법은 청취문제생성부(100)가 제2데이터베이스부에 신원정보가 수신되면 청취문제를 생성하는 (I)단계로 진행될 수 있고, 혼합문제생성부(110)가 신고음성파일과 후보군추출부(60)에서 후보군으로 설정된 범죄음성파일과 청취문제를 수신해 혼합한 후, 혼합문제를 생성하는 (J)단계로 진행될 수 있다. 이후, 제2검증단이 제2데이터베이스부에 신원정보를 제공하며 혼합문제생성부(110)에 접근하는 단계(S230)로 진행될 수 있다. 제2검증단이 혼합문제를 푸는 (K)단계(S240)로 진행될 수 있다.

음성파일에 대한 화자인식방법은 (K)단계에서 제2검증단에게 푸는 문제에 대해 제1선택지, 제2선택지 및 제3선택지를 제공하는 (K-1)단계로 진행될 수 있다.

아울러, 음성파일에 대한 화자인식방법은 (G)단계, (K) 단계, (K-1)단계 이후, 선택된 선택지에 대한 데이터를 관공서서버로 전송하는 (L)단계로 진행될 수 있다.

음성파일에 대한 화자인식방법은 (L)단계를 끝으로 일련의 단계를 종료하며, 전문가에 의한 스펙트럼분석 비교 결과와 청취기반 화자 검증의 결과를 종합적으로 판단하여, 수사 기관 및 법원 등에 객관적인 자료를 제공할 수 있다.

음성파일에 대한 화자인식방법을 기반하여 작동하는 음성파일에 대한 화자인식시스템 및 음성파일에 대한 화지인식장치는 다양한 방법의 화자 검증 기법을 적용할 수 있을 뿐만 아니라, 대량의 음성데이터에서 신고 음성 데이터가 존재하는지 여부에 따라 여죄를 밝힐 수 있다.

아울러, 본 발명의 제2검증단이 혼합문제에 참여하는 과정은 다양한 법과학 분야 일례로, 얼굴 인식 등에 적용 또한 가능할 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야 한다.

1: 음성파일에 대한 화자인식장치
1-1: 음성파일에 대한 화자인식시스템
10: 제1데이터베이스부 101: 범죄음성파일
1011: 제1범죄음성파일 1012: 제2범죄음성파일
1013: 제3범죄음성파일 101n: 제n범죄음성파일
102: 신고음성파일
20: 음성벡터추출부 30: 전처리부
40: 특징변환부 50: 유사도측정부
60: 후보군추출부 70: 스펙트로그램부
80: 제1화자검정부 90: 제2데이터베이스부
100: 청취문제생성부 110: 혼합문제생성부
120: 제2화자검정부

Claims

삭제
삭제
삭제
삭제
삭제
복수 개의 범죄음성파일을 기 저장하고 있으며, 외부장치에서 전송되는 신고음성파일을 저장하는 제1데이터베이스부;
상기 범죄음성파일과 상기 신고음성파일을 수신한 후, 상기 복수 개의 범죄음성파일로부터 각각 N개의 음성벡터로 추출하고 상기 신고음성파일을 신고음성벡터로 추출하는 음성벡터추출부;
상기 N개의 음성벡터와 상기 신고음성벡터를 기 설정된 고정 길이의 음성신호벡터로 변환하는 특징변환부;
상기 N개의 고정음성벡터와 상기 신고고정음성벡터 간 유사도를 측정하는 유사도측정부;
기 설정된 기준유사도값 이상의 매칭값을 나타내는 상기 N개의 고정음성벡터를 갖는 범죄음성파일을 후보군으로 추출하는 후보군추출부;
상기 신고음성파일과 상기 후보군추출부에서 추출된 상기 범죄음성파일을 시간 축과 주파수 축의 변화에 따라 진폭의 차이를 명암의 차이 또는 색상의 차이로 데이터를 나타내는 스펙트로그램부; 및
상기 스펙트로그램부에서 출력된 상기 범죄음성파일의 데이터와 상기 신고음성파일의 데이터를 비교하여 유사도를 검정하는 제1검정단이 포함된 제1화자검정부를 포함하는, 음성파일에 대한 화자인식시스템.
제6항에 있어서,
상기 제1화자검정부는 상기 신고음성파일과 상기 범죄음성파일이 동일하다고 판단되면 선택할 수 있는 제1선택지, 상기 신고음성파일과 상기 범죄음성파일이 상이하다고 판단되면 선택할 수 있는 제2선택지, 및 상기 신고음성파일과 상기 범죄음성파일이 동일여부 판단이 곤란하다고 판단되면 선택할 수 있는 제3선택지를 상기 제1검정단에게 제공하는, 음성파일에 대한 화자인식시스템.
제7항에 있어서,
복수 개의 신원정보를 포함하는 제2데이터베이스부;
두 개의 음성이 동일한 동일음성문제와 두 개의 음성이 상이한 상이음성문제를 복수 개 포함하여, 상기 제2데이터베이스부에서 신원확인신호가 수신되면, 상기 동일음성문제와 상기 상이음성문제를 청취문제로 생성하는 청취문제생성부;
상기 신고음성파일과 상기 후보군추출부에서 후보군으로 설정된 상기 범죄음성파일 그리고 상기 청취문제를 수신해 혼합한 후, 혼합문제로 생성하는 혼합문제생성부;
상기 제2데이터베이스부에 상기 신원정보를 제공한 후, 상기 혼합문제생성부에서 접근하여 상기 혼합문제를 푸는 제2검정단이 포함된 제2화자검정부을 포함하는, 음성파일에 대한 화자인식시스템.
제8항에 있어서,
상기 제2화자검정부는 상기 신고음성파일과 상기 범죄음성파일이 동일하다고 판단되면 선택할 수 있는 제1선택지, 상기 신고음성파일과 상기 범죄음성파일이 상이하다고 판단되면 선택할 수 있는 제2선택지 및 상기 신고음성파일과 상기 범죄음성파일이 동일여부 판단이 곤란하다고 판단되면 선택할 수 있는 제3선택지를 상기 제2검정단에게 제공하는, 음성파일에 대한 화자인식시스템.
제9항에 있어서,
상기 제1검정단에 의해 선택된 선택지와 상기 제2검정단에 의해 선택된 선택지의 데이터를 수신하는 관공서서버를 포함하는, 음성파일에 대한 화자인식시스템.
제9항에 있어서,
상기 청취문제생성부는 상기 동일음성문제와 상기 상이음성문제를 같은 비율로 포함하는 상기 청취문제를 생성하는, 음성파일에 대한 화자인식시스템.
제1테이터베이스부에 복수 개의 범죄음성파일이 저장되고, 외부장치에서 전송되는 신고음성파일을 저장하는 (A)단계;
음성벡터추출부가 상기 복수 개의 범죄음성파일들과 상기 신고음성파일을 수신한 후, 상기 복수 개의 범죄음성파일들을 N개의 음성벡터들로 추출하고 상기 신고음성파일에서 신고음성벡터로 추출하는 (B)단계;
특징변환부가 N개의 음성벡터를 기 설정된 고정 길이의 N개의 고정음성벡터로 변환하고, 상기 신고음성벡터를 기 설정된 고정 길이의 신고고정음성벡터로 변환하는 (C)단계;
유사도측정부가 상기 N개의 고정음성벡터와 상기 신고고정음성벡터 간 유사도를 측정하는 (D)단계;
후보군추출부가 기 설정된 기준유사도값 이상의 매칭값을 나타내는 범죄음성파일을 후보군으로 추출하는 (E)단계;
스펙트로그램부가 상기 신고음성파일과 상기 후보군추출부에서 추출된 상기 범죄음성파일을 시간축과 주파수 축의 변화에 따라 진폭의 차이를 명암 차이 또는 색상의 차이로 출력된 데이터를 출력하는 (F)단계; 및
제1검정단을 포함하는 제1화자검정부가 상기 스펙트로그램부에서 출력된 상기 범죄음성파일의 데이터와 상기 신고음성파일의 데이터를 비교하여 유사도를 검정하는 (G)단계를 포함하는, 음성파일에 대한 화자인식방법.
제12항에 있어서,
상기 (G)단계는 상기 제1검정단이 상기 제1화자검정부가 제공하는 제1선택지, 제2선택지 및 제3선택지 중 어느 하나를 선택할 수 있는 (G-1)단계를 포함할 수 있는, 음성파일에 대한 화자인식방법.
제12항에 있어서,
제2데이터베이스부에 두 개의 음성이 동일한 동일음성문제와 두 개의 음성이 상이한 상이음성문제로 구성된 청취문제와 복수 명의 신원정보를 포함하는 (H)단계;
청취문제생성부가 상기 제2데이터베이스부에 상기 신원정보가 수신되면 상기 청취문제를 생성하는 (I)단계;
혼합문제생성부가 상기 신고음성파일과 상기 후보군추출부에서 후보군으로 설정된 상기 범죄음성파일과 상기 청취문제를 수신해 혼합한 후, 혼합문제를 생성하는 (J)단계;
제2검정단을 포함하는 제2화자검정부가 상기 제2데이터베이스부에 상기 신원정보를 제공한 후, 상기 혼합문제생성부에 접근하여 상기 혼합문제를 푸는 (K)단계를 포함하는, 음성파일에 대한 화자인식방법.
제14항에 있어서,
상기 (K)단계는 상기 제2검정단이 상기 제2화자검정부가 제공하는 제1선택지, 제2선택지 및 제3선택지 중 어느 하나를 선택할 수 있는 (K-1)단계를 포함하는, 음성파일에 대한 화자인식방법.
제15항에 있어서,
상기 (G)단계 또는 상기 (K)단계 이후, 선택된 선택지에 대한 데이터를 관공서서버로 전송하는 (L)단계를 포함하는, 음성파일에 대한 화자인식방법.