KR20180104595A

KR20180104595A - 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버

Info

Publication number: KR20180104595A
Application number: KR1020187015547A
Authority: KR
Inventors: 지안종 왕; 후이 구오; 지쳉 송; 징 샤오
Original assignee: 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date: 2017-02-16
Filing date: 2017-06-26
Publication date: 2018-09-21
Also published as: CN106847292A; EP3584790A1; SG11201803895RA; US10629209B2; EP3584790A4; JP6649474B2; CN106847292B; US20190272829A1; AU2017341161A1; JP2019510248A; WO2018149077A1; AU2017101877A4

Abstract

본 발명은 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버에 관한 것이다. 당해 성문 식별 방법은, 클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계; 백스테이지 서버는 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계; 백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계; 백스테이지 서버는 타겟 성문 특징과 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 클라이언트 단말에 판단결과를 출력하는 단계; 및 클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 포함한다. 당해 성문 식별 방법은 신속히 음성 식별 효과에 달하고, 음성 식별 효율을 향상시킬 수 있다.

Description

성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버

본 출원은 2017년 2월 16일에 출원되고, 중국 출원 번호가 CN 201710083629.0이고, 발명의 명칭이 "성문 식별 방법 및 장치"인 중국 특허 출원의 우선권을 향유하며, 당해 중국 특허 출원의 모든 내용은 참고의 방식으로 본 출원과 결합되어 있다.

본 발명은 생체 특징의 신분 식별 기술 분야에 관한 것으로, 특히 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버에 관한 것이다.

성문 식별(Voiceprint Recognition)은 음성에 포함된 화자(話者)의 생체 특징에 근거하여, 화자를 식별하는 일종 신분 식별 기술이다. 성문 식별은 안전 신뢰성을 구비하기에, 신분 식별이 필요한 거의 모든 안전성 보호 분야와 개성화 응용 장소에 이용된다. 예를 들어 은행, 증권, 보험 등과 같은 금융기구는, 업무량이 지속적으로 확장되기에, 대량의 신분 식별 수요가 생성되고 있다. 기존의 신분 식별 기술과 비교할 경우, 신분 식별의 장점은 성문 추출 과정이 간단하고 원가가 낮으며, 매개인의 성문 특징과 타인의 성문 특징이 상이하기에, 유일성을 구비하고, 위조 또는 가짜를 제조하기 어려운 것이다. 성문 식별은 안전하고, 신뢰성이 있고, 편리함 등 특징을 구비하여, 신분 식별 분야에서 널리 응용되고 있다. 하지만, 기존의 성문 식별 과정은 시간 소모가 비교적 많고, 대량의 음성 식별 요청을 처리할 때, 오랜 처리 시간으로 일부분의 음성 식별 요청이 유실되어, 성문 식별 기술의 응용에 영향을 준다.

본 발명의 해결하고자 하는 과제로서, 종래 기술의 결함에 대해, 성문 식별 방법, 장치, 저장 매체 및 백스테이지 서버를 제공하여, 대량의 음성 식별 요청 처리 효율을 향상시키고, 처리 시간을 단축시키는 것이다.

본 발명이 기술적 과제를 해결하는데 이용한 기술안은 성문 식별 방법으로서, 상기 성문 식별 방법은,

클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계;

백스테이지 서버는 상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계;

백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계;

백스테이지 서버는 상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단결과를 출력하는 단계; 및

클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 포함한다.

본 발명은 또한 성문 식별 장치를 제공하는 바, 상기 성문 식별 장치는,

사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는데 사용되는 클라이언트 단말;

상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는데 사용되는 백스테이지 서버;

상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는데 사용되는 백스테이지 서버;

상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단 결과를 출력하는데 사용되는 백스테이지 서버; 및

상기 판단 결과를 수신하고 표시하는데 사용되는 클라이언트 단말을 포함한다.

본 발명은 또한 백스테이지 서버를 제공하며, 상기 백스테이지 서버는, 메모리, 프로세서 및 상기 메모리중에 저장되고 상기 프로세서에서 수행되는 컴퓨터 프로그램을 포함하며, 상기 프로세서는 상기 컴퓨터 프로그램을 수행할 시 상기 성문 특별 방법 중의 백스테이지 서버가 수행하는 단계를 실현한다.

본 발명은 또한 컴퓨터 판독가능 저장 매체를 제공하며, 상기 컴퓨터 판독 저장 매체에는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 프로세서에 의해 수행될 시 상기 성문 식별 방법 중의 백스테이지 서버가 수행하는 단계를 실현한다.

본 발명과 종래의 기술을 비교할 경우, 이하의 장점을 갖고 있다. 본 발명에 의해 제공되는 성문 식별 방법 및 장치에 있어서, 백스테이지 서버는 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청 중의 테스트 음성을 기반으로 테스트 성문 특징을 획득하며, 타겟 성문 특징과 테스트 성문 특징을 비교하여, 타겟 성문 특징과 테스트 성문 특징의 화자가 통일한 사용자인지 여부를 확정하고, 신속히 음성 식별 효과에 달하고, 음성 식별 효율을 향상시킬 수 있다. 이 외에도, 백스테이지 서버는 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하여, 대량의 음성 식별 요청 처리 효율을 향상시키고, 오랜 처리 시간으로 인한 음성 식별 요청 유실을 피하도록 한다.

이하, 도면 및 실시예와 결합하여 본 발명을 설명한다. 도면에 있어서,
도1은 본 발명의 실시예1 중의 성문 식별 방법의 흐름도이다.
도2는 본 발명의 실시예2 중의 성문 식별 장치의 원리 블록도이다.
도3은 본 발명의 일 실시예에 의해 제공되는 백스테이지 서버의 모식도이다.

본 발명의 기술적 특징, 목적 및 효과에 대한 더욱 명확한 이해를 위해, 이하 첨부 도면으로 본 발명의 구체적인 실시형태를 상세히 설명한다.

실시예 1

도1은 본 실시예 중의 성문 식별 방법의 흐름도이다. 당해 성문 식별 방법은 클라이언트 단말과 백스테이지 서버에 응용되어, 클라이언트 단말에서 채집된 테스트 음성에 대해 신분 식별을 실현한다. 도1에 도시된 바와 같이, 당해 성문 식별 방법은 이하의 단계를 포함한다.

S10: 클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID와 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신한다.

여기서, 클라이언트 단말은 스마트 휴대폰, 노트북, 데스크톱 컴퓨터 등과 같은 백스테이지 서버와 통신 연결되는 단말을 포함하여, 클라이언트 단말에는 테스트 음성을 채집하는데 사용되는 마이크가 설치되어 있거나 또는 외장 마이크 인터페이스가 설치되어 있다. 사용자 ID는 사용자 신분을 유일하게 식별하는데 사용되는 바, 본 실시예 중의 테스트 음성은 사용자 ID에 관련되어, 테스트 음성에 대응되는 사용자의 확정에 이용되고 있다. 클라이언트 단말은 사용자에 대한 샘플링 및 녹음을 진행하여, WAV 오디오 형식의 테스트 음성을 획득하며, 테스트 음성과 사용자 ID에 따라 음성 식별 요청을 형성하며, 음성 식별 요청을 백스테이지 서버에 송신한다.

클라이언트 단말이 모바일 단말일 경우, 멀티 스레딩 방식(Multithreading Mode)을 이용하여 테스트 음성을 채집하고; 클라이언트 단말이 홈페이지 단말일 경우, Ajax 비동기식 리프레시 방식으로 테스트 음성을 채집하여, 백스테이지 서버와 통신할 시 사용자 작업을 중단하지 않고, 테스트 요청의 채집 속도를 향상시킬 수 있다. Ajax(Asynchronous JavaScript and XML), 비동기식 JavaScript와 XML는 클라이언트 단말의 스크립트(Script)를 이용하여 Web 서버와 데이터를 교환하는 Web 응용 개발 방법이다.

S20: 백스테이지 서버는 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정한다.

여기서, 백스테이지 서버는 적어도 하나의 클라이언트 단말이 송신한 음성 식별 요청을 수신하고, 적어도 하나의 음성 식별 요청을 메시지 대기열에 대기시킨다. 백스테이지 서버는 비동기식 메카니즘을 이용하여 메시지 대기열 중의 적어도 하나의 음성 식별 요청에 대한 조절을 진행하여, 백스테이지 서버가 메시지 대기열 중의 각 정보를 처리할 경우, 송신측과 수신측은 서로 독립되기에, 대방의 회답을 대기할 필요가 없다. 메시지 대기열과 비동기식 메카니즘을 이용하여 적어도 하나의 음성 식별 요청에 대한 조절을 진행하여 처리 대기 음성 식별 요청을 획득하며, 백스테이지 서버로 하여금 동시에 대량의 음성 식별 요청을 획득하도록 하고, 임의의 처리 대기 음성 식별 요청의 처리 시간이 과도하게 긴 것으로 인한 기타 대량의 음성 식별 요청 유실을 피할 수 있도록 한다. 한편으로, 메시지 대기열과 비동기식 메카니즘을 이용하여 백스테이지 서버에 분포식 시스템을 구축하며, 음성 식별 요청의 최고 처리 능력과 영활성을 향상시키고, 프로세서 간의 결합도를 감소시키며, 각 음성 식별 요청이 모두 처리될 수 있도록 보증한다.

S30: 백스테이지 서버는 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청의 테스트 음성에 대응되는 테스트 성문 특징을 획득한다.

구체적으로, 타겟 성문 특징은 사전에 백스테이지 서버 중에 저장되는 것으로, 사용자 ID에 대응되는 사용자 성문 특징이다. 테스트 성문 특징은 음성 요청 중 테스트 음성에 대응되는 성문 특징이다. 여기서, 성문(Voiceprint)은, 전기 음향 기기로 표시되는 언어 정보를 휴대한 음파 주파수 스펙트럼이다. 성문 특징에는, 예를 들어 스펙트럼, 캡스트럼, 포먼트, 기음, 반사계수, 비음, 심호흡음, 목이 잠긴소리, 웃음소리 등과 같은, 인류의 발음 메카니즘의 해부학 구조에 관련된 성학 특징이 포함되나, 이에 한정되는 것이 아니다.

본 실시예에 있어서, 타겟 성문 특징과 테스트 성문 특징은 I-vector(즉 identifying vector, 식별 벡터) 특징인 것이 바람직하다. 임의의 I-vector 특징은 I-vector 알고리즘을 이용하여 획득할 수 있고, i-vector 알고리즘은 숨음 변수를 추정하는 방법으로서, 고정된 길이의 저차원 벡터로 한 단락의 음성을 나타내고, I-vector 특징의 추출 과정에서 클래스 내, 클래스 간의 분산은 별도로 고려하지 않고, 이를 서브 공간에 방치하며, 다시 말해서 총 변량 공간(total variablity space) 중으로부터 고려하여, 무 감독의 방법으로 트레이닝을 진행할 수 있고, 또한 총 변량 공간 중에서 언어 종류와 관련이 없는 정보를 제거하여, 차원을 감소시키고 소음을 제거함과 동시에, 최대 한도로 언어 종류에 관련되는 성학 정보를 보유한다.

단계 S30은 구체적으로 다음과 같은 단계를 포함한다.

S31: 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득한다.

구체적으로, 성문 특징 데이터베이스 중에 사전에 적어도 한 그룹의 사용자 ID 및 사용자 ID에 관련된 타겟 성문 특징을 저장하여, 처리 대기 음성 식별 요청 중의 사용자 ID에 따라 대응되는 타겟 성문 특징을 찾아낸다.

S32: 가우스 혼합 모형 - 통용 배경 모형을 이용하여 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득한다.

여기서, 가우스 혼합형 모형 - 통용 배경 모형(즉 Gaussian Mixture Model-Universal Background Model, GMM-UBM으로 약칭)은 화자와 관련없는 고 차원의 GMM으로서, 이는 화자의 트레이닝 음성에 따라 트레이닝에 적응하며, 다시 말해서 음성 모형은 화자를 통해 자신의 음성으로 모형 중에 포함되지 않는 음성 상황을 반영하며, 화자와 관련없는 음성 특징 분포릍 통해 대략적인 설명을 진행하고, 식별율이 높은 특점을 구비하고 있다.

구체적으로 백스테이지 서버는 수신된 음성 식별 요청을 메시지 대기열에 대기시키며, 유휴 시간(Idle Time)이 있을 때, 메시지 대기열에서 처리 대기 음성 식별 요청을 취하여 백스테이지 Servlet 용기에 전송하여 처리시키며, Servlet 용기는 하나의 HttpRequest 대상을 설립하여, 송신한 정보를 이 대상 중에 저장함과 동시에 HttpResponse 대상을 설립하여, HttpRequest와 HttpResponse를 파라미터로 하여 HttpServlet 대상에 전송하고, HttpServlet 대상의 service 방법을 조절하며, service 방법 중에서 가우스 혼합 모형 - 통용 배경 모형 조절을 통해 테스트 음성을 처리하여, 테스트 성문 특징을 획득한다.

S40: 백스테이지 서버는 타겟 성문 특징과 테스트 성문 특징에 따라 동일한 사용자 대응 여부를 판단하고, 클라이언트 단말에 판단 결과를 출력한다.

타겟 성문 특징은, 사전에 성문 특징 데이터베이스 중에 저장된, 사용자 ID에 관련된 성문 특징이고, 테스트 성문 특징은 클라이언트 단말이 채집한 사용자 ID와 관련된 테스트 음성에 대응되는 성문 특징으로서, 두 개가 동일하거나 유사도가 사전 설정 유사 역치에 달할 경우, 양자를 동일한 사용자로 인정하고, 클라이언트 단말에 양자가 동일한 사용자이거나 동일한 사용자가 아닌 판단 결과를 출력한다.

단계 S40은 구체적으로 다음과 같은 단계를 포함한다.

S41: PLDA 알고리즘을 이용하여 타겟 성문 특징과 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득한다.

여기서, PLDA(Probabilistic Linear Discriminant Analysis) 알고리즘은 채널 보상 알고리즘이다. PLDA는 I-vector 특징을 기반으로 하고, I-vector 특징에는 화자의 정보가 포함되어 있을 뿐만 아니라 채널 차이 정보도 포함되어 있으나, 우리는 화자의 정보에만 관심이 있기에, 채널 보상이 필요하다. PLDA 알고리즘의 채널 보상 기능은 LDA 알고리즘보다 더욱 양호하다.

여기서, PLDA 알고리즘은,

(1)

와

를 초기화하는 단계;

(2)

를 이용하여

를 계산하는 단계;

(3)

가 지정 역치보다 작을 때까지,

을 이용하여

를 계산하고, 되돌아가

를 이용하여

를 계산하는 단계를 포함하며,

여기서,

는 평균값 성문 벡터이고;

는 클래스 사이의 거리이며;

는 성문 특징이며;

는 반복 횟수이다.

S42: 코사인 측정 함수를 이용하여, 타겟 차원 감소값과 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득한다.

구체적으로 코사인 측정 함수에는 다음과 같은 내용이 포함된다.

; 여기서,

는 타겟 성문 특징이고,

는 테스트 성문 특징이며,

는 시간이다. 코사인 측정 함수를 이용하여 타겟 성문 특징과 테스트 성문 특징 사이의 거리를 측정하고, 타겟 성문 특징과 테스트 성문 특징이 지정 유한 차원 공간 내에서 전개될 수 있을 경우, 당해 코사인 측정 함수에 의한 계산은 간단하고 효과적이며 직접적이고 효과적이다.

S43: 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다.

구체적으로,

일 경우, 타겟 성문 특징에 대응되는 화자와 테스트 성문 특징에 대응되는 화자는 동일한 사용자이며; 반대로,

일 경우, 타겟 성문 특징에 대응되는 화자와 테스트 성문 특징에 대응되는 화자는 동일한 사용자가 아니며; 여기서

는 유사 역치로서, 50%보다 큰 상수일 수 있다.

S50: 클라이언트 단말은 판단 결과를 수신하고 표시한다.

해당 판단 결과는 테스트 음성에 대응되는 테스트 성문 특징과 성문 특징 데이터베이스에 저장된 타겟 성문 특징의 화자가 동일한 사용자인 판단 결과, 또는 동일한 사용자가 아닌 판단 결과를 인정할 수 있다.

본 발명이 제공하는 성문 식별 방법에 있어서, 백스테이지 서버는 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청 중의 테스트 음성을 기반으로 테스트 성문 특징을 획득하며, 타겟 성문 특징과 테스트 성문 특징을 비교하여 타겟 성문 특징과 테스트 성문 특징의 화자가 동일한 사용자인지 여부를 확정하고, 신속한 음성 식별 효과에 달하여, 음성 식별 효율을 제고시킬 수 있다. 이 외에도, 백스테이지 서버는 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하여, 대량의 음성 식별 요청의 처리 효율을 향상시키고, 장시간 처리로 인한 일부 음성 식별 요청의 유실을 피할 수 있다.

구체적인 실시형태에 있어서, 해당 성문 식별 방법은 또한 다음과 같은 단계를 포함한다.

S51: 트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득한다.

여기서, MFCC(Mel Frequency Cepstrum Coefficients, 멜 주파수 캡스트럼 계수). 트레이닝 음성에 대하여 MFCC 특징 추출을 진행하는 과정에는 다음과 같은 내용이 포함된다. 트레이닝 음성에 대한 프리 엠퍼시스, 프레이밍, 창 추가를 진행하고; 각 짧은 시간 내에 창을 분석하며, FFT(Fast Fourier Transform, 고속 푸리에 변환)을 통해 대응되는 주파수 스펙트럼을 획득하며; 상기 주파수 스펙트럼은 Mel 필터 그룹을 통하여 멜 주파수를 획득하며; Mel 주파수 스펙트럼 위에서 캡스트럼 분석(로그 값을 취하고, 역변환을 진행하는 바, 실제적으로 역변환은 일반적으로 DCT 이산 코사인 변환에 의해 실현되며, DCT를 취한 후의 2번째부터 13번째의 계수를 MFCC 계수로 함)을 진행하여 멜 주파수 캡스트럼 계수 MFCC를 획득하여, MFCC 성학 특징을 획득한다.

S52: MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정한다.

여기서, 음성 활동 검출은 음성 활동 검출(Voice Activity detection, VAD) 알고리즘을 이용하여 음성과 소음의 부동한 특성에 대하여 음성과 소음 판단을 진행하고, 연속 샘플링을 통하여 획득한 데이터 신호 중에서 검출한 음성 신호 구역과 소음 신호 구역을 획득하며, 음성 신호 구역의 MFCC 성학 특징으로 가우스 혼합 모형(Gaussian Mixture Model 모형, GMM 모형으로 약칭)의 파라미터 그룹을 추정한다. 구체적으로, 음성 활동 검출 알고리즘으로 짧은 시간 내의 에너지, 짧은 시간 내의 제로 크로싱 율, 짧은 시간 내의 자아관련 등과 같은 음성 특징 파라미터를 이용하여, 뮤트 신호(Mutesignal)와 비 음성 신호를 제거하며, 비 뮤트 신호를 보유하여 가우스 혼합 모형의 파라미터를 추정한다. 본 실시예에 있어서, MFCC 성학 특징의 0 차원, 1차원, 2차원 양으로 가우스 혼합 모형의 파라미터를 추정한다.

S53: 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 가우스 혼합 모형 - 통용 배경 모형을 획득한다.

본 실시예에 있어서, 가우스 혼합 모형 파라미터에 대해 통용 배경 모형으로 요인 분석을 진행하여, 가우스 혼합 모형 - 통용 배경 모형을 획득한다. 구체적으로 통용 배경 모형의 요인 분석 알고리즘에는 다음과 같은 내용들이 포함된다.

, 여기서,

는 평균소리, 즉 평균값 벡터이며;

는 성문 공간 매핑 행열이며;

는 성문 차이 벡터이며, 즉 I-vector 특징이다. 요인 분석 알고리즘을 이용하여 가우스 혼합 모형으로 나타내는 성학 특징에 대한 인자분석을 진행하고, 성학 특징의 평균값 벡터량(평균값)과 성문 차이 벡터를 분리(잔여량)시켜 I-vector특징을 획득한다. 해당 요인 분석 알고리즘은 상이한 음성 사이의 성문 차이 벡터를 분리시키어, 상이한 음성 사이의 성문 특이성을 용이하게 추출한다.

S54: 성문 등록 요청을 수신하고, 성문 등록 요청에는 사용자 ID와 타겟 트레이닝 음성이 포함된다.

본 실시예에 있어서, 클라이언트 단말은 사용자가 입력한 성문 등록 요청을 수신하고, 해당 성문 등록 요청을 서버에 송신하고, 서버는 해당 성문 등록 요청을 수신한다.

S55: 가우스 혼합 모형 - 통용 배경 모형을 이용하여 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득한다.

구체적으로, 서버는 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형을 이용하여, 타겟 트레이닝 음성에 대한 특징을 추출하여, 타겟 성문 특징을 획득한다. 다시 말해서, 우선 타겟 트레이닝 음성에 대한 MFCC 특징을 추출하고, 대응되는 타겟 MFCC 성학 특징을 획득한 후, 타겟 MFCC 성학 특징에 대한 음성 활동 검출을 진행하고, 그 다음 활동 음성이 검출된 후의 MFCC 성학 특징을 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형에 두어 특징을 추출하여, 타겟 성문 특징을 획득한다.

S56: 사용자 ID와 타겟 성문 특징을 성문 특징 데이터베이스에 저장한다.

본 실시예에 있어서, 성문 등록 요청 중의 사용자 ID와 타겟 트레이닝 음성을 기반으로 획득한 타겟 성문 특징을 성문 특징 데이터베이스에 저장하여, 사용자 신분 식별시 사용자 ID를 기반으로 상응한 타겟 성문 특징을 조절한다.

해당 구체적인 실시형태에 있어서, 트레이닝 음성을 통하여 MFCC 특징 추출과 음성 활동 검출을 진행하며, 가우스 혼합 모형 파라미터를 추정하고, 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 트레이닝을 진행한 가우스 혼합 모형 - 통용 배경 모형을 획득하며, 해당 가우스 혼합 모형 - 통용 배경 모형은 식별율이 높은 장점을 구비하고 있다. 성문 등록 요청을 수신할 시, 성문 등록 요청 중의 타겟 트레이닝 음성은 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형을 통하여 특징을 추출하고, 타겟 성문 특징을 획득하며, 타겟 성문 특징과 사용자 ID를 성문 특징 데이터베이스 중에 저장하여, 음성 식별 과정에 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응된 타겟 성문 특징을 획득할 수 있으며, 테스트 성문 특징에 비교하여 타겟 성문 특징과 테스트 성문 특징의 화자가 동일한 사용자인지 여부를 확정하여 음성 식별 효과에 달할 수 있다.

실시예 2

도면2는 본 실시예 중의 성문 식별 방법의 흐름도이다. 해당 성문 식별 장치는 클라이언트 단말과 백스테이지 서버를 포함하며, 클라이언트 단말이 채집한 테스트 음성에 대하여 신분 식별을 진행한다. 도2에 도시된바와 같이, 해당 성문 식별 장치는 클라이언트 단말(10)과 백스테이지 서버(20)를 포함한다.

클라이언트 단말(10)은 사용자 테스트 음성 채집에 사용되어, 백스테이지 서버에 음성 식별 요청을 송신하고, 음성 식별 요청에는 사용자 ID와 테스트 음성이 포함된다.

여기서, 클라이언트 단말(10)에는 스마트 휴대폰, 노트북, 데스크톱 컴퓨터 등과 같은 백스테이지 서버와 통신 연결되는 단말이 포함되며, 클라이언트 단말에는 테스트 음성을 채집하는데 사용되는 마이크가 설치되어 있거나 또는 외장 마이크 인터페이스가 설치되어 있다. 사용자 ID는 사용자 신분 식별을 유일하게 식별하는데 사용되는 바, 본 실시예 중의 테스트 음성은 사용자 ID에 관련되어, 테스트 음성에 대응되는 사용자의 확정에 이용되고 있다. 클라이언트 단말은 사용자에 대한 샘플링 및 녹음을 진행하여, wav 오디오 형식의 테스트 음성을 획득하며, 테스트 음성과 사용자 ID에 따라 음성 식별 요청을 형성하며, 음성 식별 요청을 백스테이지 서버에 송신한다.

클라이언트가 모바일 단말일 경우, 멀티 스레딩 방식을 이용하여 테스트 음성을 채집하고; 클라이언트 단말이 홈페이지 단말일 경우, Ajax 비동기식 리프레시 방식으로 테스트 음성을 채집하여, 백스테이지 서버와 통신할 시 사용자 조작을 중단하지 않고, 테스트 요청의 채집 속도를 향상시킬 수 있다. Ajax(Asynchronous JavaScript and XML), 비동기식 JavaScript와 XML는 클라이언트 단말의 스크립트를 이용하여 Web서버와 데이터를 교환하는 Web 응용 개발 방법이다.

백스테이지 서버(20)는 음성 식별 요청의 수신에 사용되고, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정한다.

여기서, 백스테이지 서버(20)는 적어도 하나의 클라이언트 단말이 송신한 음성 식별 요청을 수신하고, 적어도 하나의 음성 식별 요청을 메시지 대기열에 대기시킨다. 백스테이지 서버는 비동기식 메카니즘을 이용하여 메시지 대기열 중의 적어도 하나의 음성 식별 요청에 대한 조절을 진행하여, 백스테이지 서버가 메시지 대기열 중의 각 정보를 처리할 경우, 송신측과 수신측은 서로 독립되기에, 대방의 회답을 대기할 필요가 없다. 메시지 대기열과 비동기식 메카니즘을 이용하여 적어도 하나의 음성 식별 요청에 대한 조절을 진행하여 처리 대기 음성 식별 요청을 획득하며, 백스테이지 서버로 하여금 동시에 대량의 음성 식별 요청을 획득하도록 하고, 임의의 처리 대기 음성 식별 요청의 처리 시간 과도하게 긴 것으로 인한 기타 대량의 음성 식별 요청 유실을 피할 수 있도록 한다. 한편으로, 메시지 대기열과 비동기식 메카니즘을 이용하여 백스테이지 서버에 분포식 시스템을 구축하며, 음성 식별 요청의 최고 처리 능력과 영활성을 향상시키고, 프로세서 간의 결합도를 감소시키며, 각 음성 식별 요청이 모두 처리될 수 있도록 보증한다.

백스테이지 서버(20)는 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청의 테스트 음성에 대응되는 테스트 성문 특징을 획득한다.

구체적으로, 타켓 성문 특징은 사전에 백스테이지 서버 중에 저장되는 것으로, 사용자 ID에 대응되는 사용자 성문 특징이다. 테스트 성문 특징은 음성 요청 중 테스트 음성에 대응되는 성문 특징이다. 여기서, 성문(Voiceprint)은 전기 음향 기기로 표시되는 언어 정보를 휴대한 음파 주파수 스펙트럼이다. 성문 특징에는, 예를 들어 스펙트럼, 캡스트럼, 포먼트, 기음, 반사계수, 비음, 심호흡음, 목이 잠긴소리, 웃음소리 등과 같은, 인류의 발음 메카니즘의 해부학 구조에 관련된 성학 특징이 포함되나, 이에 한정되는 것이 아니다.

본 실시예에 있어서, 타겟 성문 특징과 테스트 성문 특징은 I-vector(즉 identifying vector, 식별 벡터) 특징인 것이 바람직하다. 임의의 I-vector 특징은 I-vector 알고리즘을 이용하여 획득할 수 있고, i-vector 알고리즘은 숨음 변수를 추정하는 방법으로서, 고정된 길이의 저차원 벡터로 한 단락의 음성을 나타내고, I-vector 특징의 추출 과정에서 클래스 내, 클래스 간의 분산은 별도로 고려하지 않고, 이를 서브 공간에 방치하며, 다시 말해서 총 변량 공간(total variablity space) 중으로부터 고려하여, 무 감독의 방법으로 트레이닝을 진행할 수 있고, 또한 총 변량 공간 중에서 언어 종류와 관련이 없는 정보를 제거하여, 차원을 감소시키고 소음을 제거함과 동시에, 최대한도로 언어 종류에 관련되는 성학 정보를 보유한다.

백스테이지 서버(20)는 특징 검색 유닛(211) 및 특징 처리 유닛(212)을 포함한다.

특징 검색 유닛(211)은 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득한다.

특징 처리 유닛(212)은 가우스 혼합 모형 - 통용 배경 모형을 이용하여 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 처리 대기 음성 식별 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득한다.

여기서, 가우스 혼합 모형 - 통용 배경 모형(즉 Gaussian Mixture Model-Universal Background Model, GMM-UBM으로 약칭)은 화자와 관련없는 고 차원의 GMM으로서, 이는 화자의 트레이닝 음성에 따라 트레이닝에 적응하며, 다시 말해서 음성 모형은 화자를 통해 자신의 음성으로 모형 중에 포함되지 않는 음성 상황을 반영하며, 화자와 관련없는 음성 특징 분포를 통해 대략적인 설명을 진행하고, 식별율이 높은 특점을 구비하고 있다.

구체적으로 백스테이지 서버(20)는 수신된 음성 식별 요청을 메시지 대기열에 대기시키며, 유휴 시간이 있을 때, 메시지 대기열에서 처리 대기 음성 식별 요청을 취하여 백스테이지 Servlet 용기에 전송하여 처리시키며, Servlet용기는 하나의 HttpRequest 대상을 설립하여, 송신한 정보를 이 대상 중에 저장함과 동시에 HttpResponse 대상을 설립하여, HttpRequest와 HttpResponse를 파라미터로 하여 HttpServlet 대상에 전송하고, HttpServlet 대상의 service 방법을 조절하며, service방법 중에서 가우스 혼합 모형 - 통용 배경 모형 조절을 통해 테스트 음성을 처리하여, 테스트 성문 특징을 획득한다.

백스테이지 서버(20)는 타겟 성문 특징과 테스트 성문 특징에 따라 동일한 사용자 대응 여부를 판단하고, 클라이언트 단말에 판단 결과를 출력한다.

타겟 성문 특징은, 사전에 성문 특징 데이터베이스 중에 저장된, 사용자 ID에 관련된 성문 특징이고, 테스트 성문 특징은 클라이언트 단말이 채집한 사용자 ID와 관련된 테스트 음성에 대응되는 성문 특징으로서, 두 개가 동일하거나 또는 유사도가 사전 설정 유사 역치에 달할 경우, 양자를 동일한 사용자로 인정하고, 클라이언트 단말에 양자가 동일한 사용자이거나 동일한 사용자가 아닌 판단 결과를 출력한다.

백스테이지 서버(20)는 구체적으로 특징 차원 감소 유닛(221), 코사인 측정 처리 유닛(222) 및 사용자 식별 판단 유닛(223)을 포함한다.

특징 차원 감소 유닛(221)은 PLDA 알고리즘을 이용하여 타겟 성문 특징과 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득한다.

여기서, PLDA 알고리즘은,

(1)

와

를 초기화하는 단계;

(2)

를 이용하여

를 계산하는 단계;

(3)

가 지정 역치보다 작을 때까지,

을 이용하여

를 계산하고, 되돌아가

를 이용하여

를 계산하는 단계를 포함하며,

여기서,

는 평균값 성문 벡터이고;

는 클래스 사이의 거리이며;

는 성문 특징이며;

는 반복 횟수이다.

코사인 측정 처리 유닛(222)은, 코사인 측정함수를 이용하여, 타겟 차원 감소값과 테스트 차원값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득한다.

구체적으로, 코사인 측정 함수에는 다음과 같은 내용이 포함된다.

; 여기서,

는 타겟 성문 특징이며,

는 테스트 성문 특징이며,

는 시간이다. 코사인 측정 함수를 이용하여 타겟 성문 특징과 테스트 성문 특징사이의 거리를 측정하고, 타겟 성문 특징과 테스트 성문 특징이 지정 유한 차원 공간 내에서 전개될 수 있을 경우, 해당 코사인 측정 함수에 의한 계산은 간단하고 효과적이며 직접적이고 효과적이다.

사용자 식별 판단 유닛(223)은, 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다.

구체적으로,

는 유사 역치로서, 50%보다 큰 상수일 수 있다.

클라이언트(10)는, 판단 결과를 수신하고 표시한다.

해당 판단 결과는 테스트 음성에 대응되는 테스트 성문 특징과 성문 특징 데이터베이스에 저장된 타겟 성문 특징의 화자가 동일한 사용자인 판단 결과 또는 동일한 사용자가 아닌 판단 결과를 인정할 수 있다.

본 발명이 제공하는 성문 식별 장치에 있어서, 백스테이지 서버는 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응되는 타겟 성문 특징을 획득하고, 처리 대기 음성 식별 요청 중의 테스트 음성을 기반으로 테스트 성문 특징을 획득하며, 타겟 성문 특징과 테스트 성문 특징을 비교하여 타겟 성문 특징과 테스트 성문 특징의 화자가 동일한 사용자인지 여부를 확정하고, 신속한 음성 식별 효과에 달하여, 음성 식별 효율을 제고시킬 수 있다. 이 외에도, 백스테이지 서버는 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하여, 대량의 음성 식별 요청의 처리 요율을 향상시키고, 장시간 처리로 인한 일부 음성 식별 요청의 유실을 피할 수 있다.

구체적인 실시형태에 있어서, 해당 성문 식별 장치는 성학 특징 추출 유닛(231), 음성 활동 검출 유닛(232), 모형 트레이닝 유닛(233), 등록 음성 수신 유닛(234), 타켓 성문 특징 획득 유닛(235) 및 타겟 성문 특징 저장 유닛(236)을 포함한다.

성학 특성 추출 유닛(231)은, 트레이닝 음성에 대하여 MCFF 특징 추출을 진행하여, MFCC 성학 특징을 획득한다.

여기서, MFCC(Mel Frequency Cepstrum Coefficients, 멜 주파수 캡스트럼 계수). 트레이닝 음성에 대하여 MFCC 특징 추출을 진행하는 과정에는 다음과 같은 내용이 포된다. 트레이닝 음성에 대한 프리엠퍼시스, 프레이밍, 창 추가를 진행하고; 각 짧은 시간 내에 창을 분석하며, FFT(Fast Fourier Transform, 고속 푸리에 변환)을 통해 대응되는 주파수 스펙트럼을 획득하며; 상기 주파수 스펙트럼은 Mel 필터 그룹을 통하여 멜 주파수를 획득하며; Mel 주파수 스펙트럼 위에서 캡스트럼 분석(로그 값을 취하고, 역변환을 진행하는 바, 실제적으로 역변환은 일반적으로 DCT 이산 코사인 변환에 의해 실현되며, DCT를 취한 후의 2번째부터 13번째의 계수를 MFCC 계수로 함)을 진행하여 멜 주파수 캡스트럼 계수 MFCC를 획득하여, MFCC 성학 특징을 획득한다.

음성 활동 검출 유닛(232)은, MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정한다.

여기서, 음성 활동 검출은 음성 활동 검출(Voice Activity detection, VAD) 알고리즘을 이용하여 음성과 소음의 부동한 특성에 대하여 음성과 소음 판단을 진행하고, 연속 샘플링을 통하여 획득한 데이터 신호 중에서 검출한 음성 신호 구역과 소음 신호 구역을 획득하며, 음성 신호 구역의 MFCC 성학 특징으로 가우스 혼합 모형(Gaussian Mixture Model 모형, GMM 모형으로 약칭)의 파라미터 그룹을 추정한다. 구체적으로, 음성 활동 검출 알고리즘으로 짧은 시간 내의 에너지, 짧은 시간 내의 제로 크로싱 율, 짧은 시간 내의 자아관련 등과 같은 음성 특징 파라미터를 이용하여, 뮤트 신호와 비 음성 신호를 제거하여, 비 뮤트 신호를 보유하여 가우스 혼합 모형의 파라미터를 추정한다. 본 실시예에 있어서, MFCC 성학 특징의 0 차원, 1차원, 2차원 양으로 가우스 혼합 모형의 파라미터를 추정한다.

모형 트레이닝 유닛(233)은, 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 가우스 혼합 모형 - 통용 배경 모형을 획득한다.

, 여기서,

는 평균소리, 즉 평균값 벡터이며;

는 성문 공간 매핑 행열이며;

는 성문 차이 벡터이며, 즉 I-vector 특징이다. 요인 분석 알고리즘을 이용하여 가우스 혼합 모형으로 나타내는 성학 특징에 대한 요인 분석을 진행하고, 성학 특징의 평균값 벡터량(평균값)과 성문 차이 벡터를 분리(잔여량)시켜 I-vector 특징을 획득한다. 해당 요인 분석 알고리즘은 상이한 음성 사이의 성문 차이 벡터를 분리시키어, 상이한 음성 사이의 성문 특이성을 용이하게 추출한다.

등록음성 수신 유닛(234)은, 성문 등록 요청을 수신하고, 성문 등록 요청에는 사용자 ID와 타겟 트레이닝 음성이 포함된다. 본 실시예에 있어서, 클라이언트 단말은 사용자가 입력한 성문 등록 요청을 수신하고, 해당 성문 등록 요청을 서버에 송신하고, 서버는 해당 성문 등록 요청을 수신한다.

타겟 성문 특징 획득 유닛(235)은, 가우스 혼합 모형 - 통용 배경 모형을 이용하여 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득한다. 구체적으로, 서버는 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형을 이용하여, 타겟 트레이닝 음성에 대한 특징을 추출하여, 타겟 성문 특징을 획득한다. 다시 말해서, 우선 타겟 트레이닝 음성에 대한 MFCC 특징을 추출하고, 대응되는 타겟 MFCC 성학 특징을 획득한 후, 타겟 MFCC 성학 특징에 대한 음성 활동 검출을 진행하고, 그 다음 활동 음성이 검출된 후의 MFCC 성학 특징을 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형에 두어 특징을 추출하여, 타겟 성문 특징을 획득한다.

타겟 성문 특징 저장 유닛(236)은, 사용자 ID와 타겟 성문 특징을 성문 특징 데이터베이스에 저장한다. 본 실시예에 있어서, 성문 등록 요청 중의 사용자 ID와 타겟 트레이닝 음성을 기반으로 획득한 타겟 성문 특징을 성문 특징 데이터베이스에 저장하여, 사용자 신분 식별시 사용자 ID를 기반으로 상응한 타겟 성문 특징을 조절한다.

해당 구체적인 실시형태가 제공한 음성 식별 장치에 있어서, 트레이닝 음성을 통하여 MFCC 특징 추출과 음성 활동 검출을 진행하며, 가우스 혼합 모형 파라미터를 추정하고, 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 트레이닝을 진행한 가우스 혼합 모형 - 통용 배경 모형을 획득하며, 해당 가우스 혼합 모형 - 통용 배경 모형은 식별율이 높은 장점을 구비하고 있다. 성문 등록 요청을 수신할 시, 성문 등록 요청 중의 타겟 트레이닝 음성은 트레이닝을 거친 가우스 혼합 모형 - 통용 배경 모형을 통하여 특징을 추출하고, 타겟 성문 특징을 획득하며, 타겟 성문 특징과 사용자 ID를 성문 특징 데이터베이스 중에 저장하여, 음성 식별 과정에 처리 대기 음성 식별 요청 중의 사용자 ID를 기반으로 대응된 타겟 성문 특징을 획득하며, 테스트 성문 특징과 비교하여 타겟 성문 특징과 테스트 성문 특징의 화자가 동일한 사용자인지 여부를 확정하여 음성 식별 효과에 달할 수 있다.

도3은 본 발명의 일 실시예가 제공한 백스테이지 서버의 모식도이다. 도3에 도시된 바와 같이, 해당 실시예의 백스테이지 서버(3)는, 프로세서(30), 메모리(31) 및 상기 메모리(31) 중에 저장되고 상기 프로세서(30)에 의해 수행되는 컴퓨터 프로그램(32)을 포함하는 바, 예를 들어 상기 프로그램은 상술한 성문 식별 방법을 수행하는 프로그램이다. 상기 프로세서(30)는 상기 컴퓨터 프로그램(32)을 수행할 시 상기 각 성문 식별 방법의 실시예 중의 단계를 실현하는 바, 예를 들어 도면1에 도시한 단계 S10 부터 S50를 실현한다. 또는, 상기 프로세서(30)가 상기 컴퓨터 프로그램(32)을 수행할 시 상기 각 장치의 실시예 중의 각 모듈/유닛 기능을 실현하는 바, 예를 들어 도면2중의 백스테이지 서버(20)의 각 유닛의 기능을 실현한다.

예시한 바와 같이, 상기 컴퓨터 프로그램(32)은 하나 또는 복수 개의 모듈/유닛으로 분할될 수 있으며, 상기 하나 또는 복수 개의 모듈/유닛은 상기 메모리(31) 중에 저장되고, 상기 프로세서(30)로 수행하여, 본 발명을 완성한다. 상기 하나 또는 복수 개의 모듈/유닛은 특정 기능을 완성할 수 있는 일련의 컴퓨터 프로그램 명령구역일 수 있고, 해당 명령은 상기 컴퓨터 프로그램(32)이 상기 백스테이지 서버(3) 중의 수행 과정에 사용된다.

상기 백스테이지 서버(3)는 로컬 서버, 클라우드 서버 등과 같은 계산 설비이다. 상기 백스테이지 서버에는 프로세서(30), 메모리(31)가 포함되지만 이에 한정되는 것이 아니다. 당업자는, 도3은 백스테이지 서버(3)의 예시일 뿐이고, 백스테이지 서버(3)를 한정하는 것이 아니며, 도시보다 많거나 적은 부품을 포함할 수 있거나, 또는 일부 부품을 조합하거나, 또는 상이한 부품을 포함할 수 있고, 예를 들어 상기 백스테이지 서버는 또한 입력 출력 설비, 네트워크 액세스 설비, 버스 등을 포함할 수 있다는 것을 이해해야 할 것이다.

상기 프로세서(30)는 중앙 프로세서(Central Processing Unit, CPU)이거나, 기타 통용 프로세서, 데이터 신호 프로세서(Digital Signal Processor, DSP), 전용 집적회로(Application Specific Integrated Circuit, ASIC), 필드 프로그래머블 게이트 어레이(Field-Programmable Gate Array, FPGA) 또는 기타 프로그래머블 논리장치, 개별 게이트 또는 트랜지스터 논리장치, 개별 하드웨어 부품 등이다. 통용 프로세서는 마이크로 프로세서이거나 또는 임의의 통상적인 프로세서이다.

상기 메모리(31)는 상기 백스테이지 서버(3)의 내부 메모리일 수 있는 바, 예를 들어 백스테이지 서버(3)의 하드웨어이거나 메모리이다. 상기 메모리(31)는 상기 백스테이지 서버(3)의 외부 저장 장치이며, 예를 들어 상기 백스테이지 서버(3) 위에 배치한 삽입 연결식 하드웨어, 스마트 미디어 카드(Smart Media Card, SMC), 안전 데이터(Secure Digital, SD) 카드, 플래시 카드(Flash Card) 등이 있다. 또한, 상기 메모리(31)는 상기 백스테이지 서버(3)의 내부 메모리 장치를 포함할 수도 있고, 외부 메모리 장치를 포함할 수도 있다. 상기 메모리(31)는 상기 컴퓨터 프로그램 및 상기 백스테이지 서버에 필요한 기타 프로그램과 데이터 저장에 사용된다. 상기 메모리(31)는 이미 출력되었거나 출력할 데이터 저장에 일시적으로 사용될 수 있다.

본 발명은 몇개 구체적인 실시예를 통하여 설명되었는 바, 당업자는 본 발명의 범위를 벗어나지 않는 상황 하에서, 본 발명에 대한 각종 변환과 동등한 대체를 진행할 수 있다는것이 자명하다. 이 외에도, 특정 상황 또는 구체적인 상황하에서 본 발명의 범위를 벗어나지 않는 상황 하에서 본 발명에 대한 각종 수정을 진행할 수 있다. 따라서, 본 발명은 개시된 구체적인 실시예에 한정되는 것이 아니라, 본 특허청구의 범위내에 전부 실시형태를 포함해야 할 것이다.

Claims

성문 식별 방법에 있어서,
클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계;
백스테이지 서버는 상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계;
백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계;
백스테이지 서버는 상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단결과를 출력하는 단계; 및
클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 포함하는 것을 특징으로 하는
성문 식별 방법.
제1항에 있어서,
상기 백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계는,
상기 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하는 단계; 및
가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 상기 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득하는 단계를 포함하는 것을 특징으로 하는
성문 식별 방법.
제2항에 있어서,
트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득하는 단계;
상기 MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정하는 단계;
상기 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 상기 가우스 혼합 모형 - 통용 배경 모형을 획득하는 단계;
사용자 ID와 타겟 트레이닝 음성이 포함하는 성문 등록 요청을 수신하는 단계;
상기 가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득하는 단계; 및
상기 사용자 ID와 상기 타겟 성문 특징을 상기 성문 특징 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는
성문 식별 방법.
제1항에 있어서,
상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하는 단계는,
PLDA 알고리즘을 이용하여 상기 타겟 성문 특징과 상기 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득하는 단계;
코사인 측정 함수를 이용하여, 상기 타겟 차원 감소값과 상기 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득하는 단계; 및
상기 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다고 판단하는 단계를 더 포함하는 것을 특징으로 하는
성문 식별 방법.
제4항에 있어서,
상기 PLDA 알고리즘은,

와
를 초기화하는 단계;

를 이용하여
를 계산하는 단계;

가 지정 역치보다 작을 때까지,
을 이용하여
를 계산하고, 되돌아가
를 이용하여
를 계산하는 단계를 포함하며,
여기서,
는 평균값 성문 벡터이고;
는 클래스 사이의 거리이며;
는 성문 특징이며;
는 반복 횟수이며,
상기 코사인 측정 함수에는,

이 포함되고,
여기서,
는 타겟 성문 특징이고,
는 테스트 성문 특징이며,
는 시간인 것을 특징으로 하는
성문 식별 방법.
성문 식별 장치에 있어서,
사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는데 사용되는 클라이언트 단말;
상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는데 사용되는 백스테이지 서버;
상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는데 사용되는 백스테이지 서버;
상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단 결과를 출력하는데 사용되는 백스테이지 서버; 및
상기 판단 결과를 수신하고 표시하는데 사용되는 클라이언트 단말을 포함하는 것을 특징으로 하는
성문 식별 장치.
제6항에 있어서,
상기 백스테이지 서버는,
상기 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하는, 특징 검색 유닛; 및
가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 상기 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득하는, 특징 처리 유닛을 포함하는 것을 특징으로 하는
성문 식별 장치.
제7항에 있어서,
상기 백스테이지 서버는,
트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득하는, 성학 특징 추출 유닛;
상기 MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정하는, 음성 활동 검출 유닛;
상기 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 상기 가우스 혼합 모형 - 통용 배경 모형을 획득하는, 모형 트레이닝 유닛;
사용자 ID와 타겟 트레이닝 음성이 포함하는 성문 등록 요청을 수신하는, 등록 음성 수신 유닛;
상기 가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득하는, 타켓 성문 특징 획득 유닛; 및
상기 사용자 ID와 상기 타겟 성문 특징을 상기 성문 특징 데이터베이스에 저장하는, 타겟 성문 특징 저장 유닛을 더 포함하는 것을 특징으로 하는
성문 식별 장치.
제6항에 있어서,
상기 백스테이지 서버는,
PLDA 알고리즘을 이용하여 상기 타겟 성문 특징과 상기 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득하는, 특징 차원 감소 유닛;
코사인 측정 함수를 이용하여, 상기 타겟 차원 감소값과 상기 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득하는, 코사인 측정 처리 유닛; 및
상기 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다고 판단하는, 사용자 식별 판단 유닛을 포함하는 것을 특징으로 하는
성문 식별 장치.
제9항에 있어서,
상기 PLDA 알고리즘은,
상기 PLDA 알고리즘은,

와
를 초기화하는 단계;

를 이용하여
를 계산하는 단계;

가 지정 역치보다 작을 때까지,
을 이용하여
를 계산하고, 되돌아가
를 이용하여
를 계산하는 단계를 포함하며,
여기서,
는 평균값 성문 벡터이고;
는 클래스 사이의 거리이며;
는 성문 특징이며;
는 반복 횟수이며,
상기 코사인 측정 함수에는,

이 포함되고,
여기서,
는 타겟 성문 특징이고,
는 테스트 성문 특징이며,
는 시간인 것을 특징으로 하는
성문 식별 장치.
백스테이지 서버에 있어서,
메모리, 프로세서 및 상기 메모리중에 저장되고 상기 프로세서에서 수행되는 컴퓨터 프로그램을 포함하며, 상기 프로세서는 상기 컴퓨터 프로그램을 수행할 시,
클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계;
백스테이지 서버는 상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계;
백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계;
백스테이지 서버는 상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단결과를 출력하는 단계; 및
클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 실현하는 것을 특징으로 하는
백스테이지 서버.
제11항에 있어서,
상기 백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계는,
상기 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하는 단계; 및
가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 상기 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득하는 단계를 포함하는 것을 특징으로 하는
백스테이지 서버.
제12항에 있어서,
트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득하는 단계;
상기 MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정하는 단계;
상기 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 상기 가우스 혼합 모형 - 통용 배경 모형을 획득하는 단계;
사용자 ID와 타겟 트레이닝 음성이 포함하는 성문 등록 요청을 수신하는 단계;
상기 가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득하는 단계; 및
상기 사용자 ID와 상기 타겟 성문 특징을 상기 성문 특징 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는
백스테이지 서버.
제11항에 있어서,
상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하는 단계는,
PLDA 알고리즘을 이용하여 상기 타겟 성문 특징과 상기 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득하는 단계;
코사인 측정 함수를 이용하여, 상기 타겟 차원 감소값과 상기 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득하는 단계; 및
상기 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다고 판단하는 단계를 더 포함하는 것을 특징으로 하는
백스테이지 서버.
제14항에 있어서,
상기 PLDA 알고리즘은,

와
를 초기화하는 단계;

를 이용하여
를 계산하는 단계;

가 지정 역치보다 작을 때까지,
을 이용하여
를 계산하고, 되돌아가
를 이용하여
를 계산하는 단계를 포함하며,
여기서,
는 평균값 성문 벡터이고;
는 클래스 사이의 거리이며;
는 성문 특징이며;
는 반복 횟수이며,
상기 코사인 측정 함수에는,

이 포함되고,
여기서,
는 타겟 성문 특징이고,
는 테스트 성문 특징이며,
는 시간인 것을 특징으로 하는
백스테이지 서버.
컴퓨터 판독가능 저장 매체에 있어서,
컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램은 프로세서에 의해 수행될 시,
클라이언트 단말은 사용자 테스트 음성을 채집하고, 사용자 ID 및 상기 테스트 음성을 포함하는 음성 식별 요청을 백스테이지 서버에 송신하는 단계;
백스테이지 서버는 상기 음성 식별 요청을 수신하며, 메시지 대기열과 비동기식 메카니즘을 이용하여 처리 대기 음성 식별 요청을 확정하는 단계;
백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계;
백스테이지 서버는 상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하고, 상기 클라이언트 단말에 판단결과를 출력하는 단계; 및
클라이언트 단말은 판단 결과를 수신하고 표시하는 단계를 실현하는 것을 특징으로 하는
컴퓨터 판독가능 저장 매체.
제16항에 있어서,
상기 백스테이지 서버는 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응하는 타겟 성문 특징을 획득하고, 상기 처리 대기 음성 식별 요청의 테스트 음성에 대응하는 테스트 성문 특징을 획득하는 단계는,
상기 처리 대기 음성 식별 요청의 사용자 ID에 따라 성문 특징 데이터베이스를 검색하여, 상기 처리 대기 음성 식별 요청의 사용자 ID에 대응되는 타겟 성문 특징을 획득하는 단계; 및
가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 처리 대기 음성 식별 요청의 테스트 성문 특징을 처리하여, 상기 처리 대기 음성 요청 중의 테스트 음성에 대응되는 테스트 성문 특징을 획득하는 단계를 포함하는 것을 특징으로 하는
컴퓨터 판독가능 저장 매체.
제17항에 있어서,
트레이닝 음성에 대하여 MFCC 특징 추출을 진행하여, MFCC 성학 특징을 획득하는 단계;
상기 MFCC 성학 특징에 대하여 음성 활동 검출을 진행하여, 가우스 혼합 모형 파라미터를 추정하는 단계;
상기 가우스 혼합 모형 파라미터를 이용하여 통용 배경 모형에 대한 트레이닝을 진행하여, 상기 가우스 혼합 모형 - 통용 배경 모형을 획득하는 단계;
사용자 ID와 타겟 트레이닝 음성이 포함하는 성문 등록 요청을 수신하는 단계;
상기 가우스 혼합 모형 - 통용 배경 모형을 이용하여 상기 타겟 트레이닝 음성에 대한 특징 추출을 진행하고, 타겟 성문 특징을 획득하는 단계; 및
상기 사용자 ID와 상기 타겟 성문 특징을 상기 성문 특징 데이터베이스에 저장하는 단계를 더 포함하는 것을 특징으로 하는
컴퓨터 판독가능 저장 매체.
제16항에 있어서,
상기 타겟 성문 특징과 상기 테스트 성문 특징에 따라 동일한 사용자에 대응되는지 여부를 판단하는 단계는,
PLDA 알고리즘을 이용하여 상기 타겟 성문 특징과 상기 테스트 성문 특징에 대한 차원 감소를 진행하여, 타겟 차원 감소값과 테스트 차원 감소값을 획득하는 단계;
코사인 측정 함수를 이용하여, 상기 타겟 차원 감소값과 상기 테스트 차원 감소값에 대한 코사인 측정을 진행하고, 코사인 측정값을 획득하는 단계; 및
상기 코사인 측정값이 유사 역치보다 큰지 여부를 판단하고; 클 경우, 동일한 사용자이고; 아닐 경우, 동일한 사용자가 아니다고 판단하는 단계를 더 포함하는 것을 특징으로 하는
컴퓨터 판독가능 저장 매체.
제 19 항에 있어서,
상기 PLDA 알고리즘은,

와
를 초기화하는 단계;

를 이용하여
를 계산하는 단계;

가 지정 역치보다 작을 때까지,
을 이용하여
를 계산하고, 되돌아가
를 이용하여
를 계산하는 단계를 포함하며,
여기서,
는 평균값 성문 벡터이고;
는 클래스 사이의 거리이며;
는 성문 특징이며;
는 반복 횟수이며,
상기 코사인 측정 함수에는,

이 포함되고,
여기서,
는 타겟 성문 특징이고,
는 테스트 성문 특징이며,
는 시간인 것을 특징으로 하는
성문 식별 방법.