KR960701428A

KR960701428A - 화자 인식을 위한 방법 및 장치(a method and apparatus for speaker recognition)

Info

Publication number: KR960701428A
Application number: KR1019950704080A
Authority: KR
Inventors: 폴로스키 마크; 고든 탕 요셉
Original assignee: 사이먼 크리스토퍼 로버츠; 브리티쉬 텔리커뮤니케이션즈 퍼블릭 리미티드 캄퍼니
Priority date: 1993-03-25
Filing date: 1994-03-25
Publication date: 1996-02-24
Also published as: AU6432994A; KR100312919B1; JPH08508107A; EP0691024B1; SG50487A1; US5583961A; SG50502A1; DE69420400T2; FI954527A0; AU685788B2; DE69420400D1; CA2158847A1; CA2158847C; FI954527A; EP0691024A1

Abstract

본 발명은 화자 인식을 위한 장치에 관한 것으로서, 음성 신호에 응답하여 주파수 대역에 단기간의 스펙트럴 진폭을 지시하는 게수를 각각 포함하는 일련의 계수 세트를 포함하는 기능 데이타를 발생하는 수단, 상기 기능 데이타를 지정된 화자 기준 데이타와 비교하는 수단, 상기 비교에 따라 대응하는 화자의 인식을 지시하는 수단, 상기 계수중 하나 이상의 장기간 평균 스펙트럴 크기를 도출하는 수단 및 상기 장기간 평균에 의해 하나 이상의 계수를 정규화하는 수단을 포함하고, 상기 주파수 대역이 주파수축을 따라 불균등하게 분포되어 있는 것을 특징으로 한다.

Description

화자 인식을 위한 방법 및 장치(A METHOD AND APPARATUS FOR SPEAKER FECOGNITION)

본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음

제1도는 통신 환경에서 본 발명에 따른 인식 처리기의 이용에 대한 개략도; 제2도는 본 발명의 실시예에 따른 인식 처리기의 기능 요소를 개략적으로 보여주는 블럭도; 제3도는 제2도의 일부분인 MFCC 발생기의 발생을 개략적으로 보여주는 흐름도.

Claims

지정 주파수 대역에서 음성 신호 크기와 각각 관련된 복수개의 계수를 포함하는 인식 기능 데이타를 입력 음성 신호로부터 도출하는 단계; 상기 기능 데이타와 지정 화자 기준 데이타를 비교하는 단계; 및 그 비교에 따라 종속적으로 화자의 인식을 지시하는 단게를 포함한 화자 인식 방법에 있어서, 상기 주파수 대역이 주파수 측을 따라 불균등하게 분포되어 있고, 상기 계수를 발생하는 단계가 장기간의 평균 스페트럴 크기를 도출 하는 단계; 및 상기 장기간 크기의 효과가 감소되는 정규화된 계수를 발생하도록 상기 계수중 하나 이상을 처리하는 단계를 포함하는 것을 특징으로 하는 화자 인식 방법.
제1항에 있어서, 상기 주파수 대역이 멜 주파수 범위에 분포된 것을 특징으로 하는 화자 인식 방법.
제1항에 있어서, 상기 주파수 대역이 지정 한계 주파수 이하에서 선형으로 분포되고, 상기 한계 주파수 이상에서는 대수적으로 분포된 것을 특징으로 하는 화자 인식 방법.
제1항 내지 제3항중 어느 한 항에 있어서, 상기 계수를 발생하는 단계가 상기 크기의 대수를 발생하는 단계, 장기간의 대수 평균값을 발생하는 단계 및 대수 크기에서 대수 장기간 평균을 감산하는 단계를 포함하는 것을 특징으로 화자 인식 방법.
제1항 내지 제4항중 어느 한 항에 있어서, 상기 비교가 기능 데이타를 기준 데이타와 시간적으로 정렬하기 위한 것임을 특징으로 하는 화자 인식 방법.
제5항에 있어서, 상기 비교가 DWT 과정을 이용하는 것을 특징으로 하는 화자 인식 방법.
제1항 내지 제6항중 어느 한 항에 있어서, 상기 입력 음성 신호내의 음성 시작점과 음성 끝점을 인식하는 단계 및 상기 시작점과 끝점 사이의 기간에 걸쳐 상기 장기간의 평균을 도출하는 단계를 더 포함하는 화자 인식 방법.
제1항 내지 제7항중 어느 한 항에 있어서, 상기 장기간 평균(avergae)이 장기간 평균치(mean)를 포함하는 것을 특징으로 하는 화자 인식 방법.
제1항 내지 제7항중 어느 한 항에 있어서, 상기 장기간 평균이 주기적으로 갱신되는 이동 평균을 포함하는 것을 특징으로 하는 화자 인식 방법.
제1항 내지 제9항중 어느 한 항에 있어서, 워드를 연속으로 입력하는 단계 및 상기 워드 전부에 대하여 상기 장기간 평균을 구하는 단게를 포함하는 화자 인식 방법.
음성 신호에 응답하여, 복수개의 주파수 대역에서 단기간의 스펙트럴 크기를 지시하는 복수개의 계수를 포함하는 일련의 계수 세트로 구성된 복수개의 기능 데이타를 발생하는 수단; 및 지정 화자 기준 데이타를 지정 화자 기준 데이타와 비교하고, 상기 비교에 따라 대응하는 화자의 인식을 지시하는 수단을 구비한 화자 인식 장치에 있어서, 상기 계수중 하나 이상의 장기간 평균 스펙트럴 크기를 도출하는 수단; 및 산기 장기간 평균에 의해 하나 이상의 계수를 정규화하는 수단을 포함하고, 상기 주파수 대역이 주파수측을 따라 불균등하게 분포되어 있는 것을 특징으로 하는 화자 인식 장치.
제11항에 있어서, 상기 주파수 대역이 멜 주파수 범위에 분포되어 있는 것을 특징으로 하는 화자 인식 장치.
제11항에 있어서, 상기 주파수 대역이 지정 한계 주파수 이하에서 선형으로 분포되어 있고, 상기 한계 주파수 이상에서 대수적으로 분포되어 있는 것을 특징으로 하는 화자 인식 장치.
제11항 내지 제13항중 어느 한 항에 있어서, 상기 계수를 발생하는 수단이 상기 크기의 대수를 발생하고, 대수장기간 평균값을 발생하고, 그리고 대수 계수 크기로부터 대수 장기간 평균을 감산할 수 있도록 구성되는 것을 특징으로 하는 화자 인식 장치.
제11항 내지 제14항중 어느 한 항에 있어서, 상기 비교수단이 기능 데이타를 기준 데이타와 시간적으로 정렬하도록 구성되는 것을 특징으로 하는 화자 인식 장치.
제15항에 있어서, 상기 비교 수단이 DTW 과정을 이용하는 것을 특징으로 하는 화자 인식 장치.
제11항 내지 제16항중 어느 한 항에 있어서, 상기 음성 신호내의 시작점과 끝점을 인식하는 수단을 더 포함하고, 상기 정규화 수단이 구술 내용의 상기 시작점과 끝점 사이의 기간 동안 상기 장기간 평균을 도출하도록 구성되는 것을 특징으로 하는 화자 인식 장치.
제11항 내지 제17항중 어느 한 항에 있어서, 상기 장기간 평균이 장기간 평균치를 포함하는 것을 특징으로 하는 화자 인식 장치.
제11항 내지 제17항중 어느 한 항에 있어서, 상기 장기간 평균이 주기적으로 갱신되는 이동 평균을 포함하는 것을 특징으로 하는 화자 인식 장치.
제11항 내지 제19항중 어느 한 항에 있어서, 연속하는 워드를 입력하기 위해 구성되고, 상기 정규화 수단이 상기 워드 전부에 대해 상기 장기간 평균을 구할 수 있도록 구성되는 것을 특징으로 하는 화자 인식 장치.
제11항 내지 제20항중 어느 한 항에 있어서, 전화 네트워크에 연결되도록 채택된 것을 특징으로 하는 화자 인식 장치.
제21항에 따른 장치를 포함하는 전화 네트워크.
음성 신호의 대응하는 주파수 대역에서, 단기간의 진포에 각각 관련되 신호를 포함하는 인식 데이타를 도출하는 수단; 및 그 인식 데이타에 따라 종속적으로 인식 처리를 실행하는 수단을 포함하는 음성신호 인식 장치에 있어서, 상기 주파수 대역에 이동 장기간 평균 스펙트럴 진폭을 주기적으로 발생하거나 갱신하는 수단; 및 고정된 스펙트럴 엔벨로프 성분에 대한 의존성을 줄이기 위해 상기 장기간 평균을 사용하여 상기 기능 데이타를 처리하는 단게를 포함하는 신호의 신식 처리를 위한 장치.

※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.