KR101178801B1

KR101178801B1 - 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법

Info

Publication number: KR101178801B1
Application number: KR1020080124371A
Authority: KR
Inventors: 조훈영; 박상규; 박준; 김승희; 이일빈; 황규웅; 전형배; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2008-12-09
Filing date: 2008-12-09
Publication date: 2012-08-31
Also published as: KR20100065811A; US20100070274A1

Abstract

본 발명은 음원분리 및 음원식별을 이용한 음성인식 기술에 관한 것으로, 음성인식기 사용자의 음성과 잡음 음원들이 혼재하는 환경에서 다수의 마이크와 독립요소분석 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행하는 것이다. 독립요소분석에 의해 분리된 음원들 가운데 음성인식기 사용자가 음성인식기 구동을 목적으로 발성한 음성을 음성인식기가 자동으로 구분해내기 위해, 본 발명에서는 분리된 음원들의 음성인식 신뢰도 및 방향정보를 계산하고, 잡음 음원의 경우 움직이지 않는다고 가정한다. 이 방식에 의하면 음성인식기 사용자의 주변에 복수 개의 잡음원이 존재하는 경우에도 사용자는 마이크 배열과의 상대적인 위치에 무관하게 자유로운 위치에서 발성할 수 있으며, 높은 음성인식 성능을 얻을 수 있다.

마이크배열, 음성인식, 잡음처리, 음원분리, 음원식별, 독립요소분석(ICA)

Description

음원분리 및 음원식별을 이용한 음성인식 장치 및 방법{APPARATUS AND METHOD FOR SPEECH RECOGNITION BY USING SOURCE SEPARATION AND SOURCE IDENTIFICATION}

본 발명은 마이크배열 기반의 음성인식 시스템에 관한 것으로서, 특히 음성인식을 위한 독립요소분석(Independent Component Analysis, 이하 ICA라 한다) 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행하는데 적합한 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술 개발].

음성인식 기술은 사용자의 음성신호에 포함된 언어정보를 추출하여 이를 문자로 변경하는 기술로서, 비교적 조용한 환경에서는 높은 인식 성능을 보인다. 그러나, 음성인식 시스템은 컴퓨터, 로봇, 이동형 단말기 등에 탑재되어 집 안의 거실, 전시회장, 실험실, 공공장소 등 다양한 환경에서 사용되며, 이러한 환경에는 다양한 형태의 잡음이 존재한다. 잡음은 음성인식기의 성능을 떨어뜨리는 주된 요인 중의 하나이며, 이를 제거하기 위해 잡음 처리 방법들이 개발되어 왔다.

비교적 최근에는 두 개 이상의 마이크로폰을 사용하여 잡음에 대처하는 방법들이 개발되고 있다. 이 방식들에는 특정방향에서 발성되는 사용자의 음성을 강화하는 동시에 그 외의 방향에서 들어오는 잡음들을 감쇠시키는 빔포밍(beamforming) 기술과 혼합된 신호들로부터 통계적 학습 알고리즘에 의해 원음들을 분리해내는 독립요소분석(independent component analysis; 이하 ICA라고 함)이 널리 알려져 있다.

ICA 기법을 사용하면 음성인식기, 유무선 휴대폰 등 음성을 입력받는 장치들에서 주변 화자, TV 또는 오디오에서 발생하는 소리 등의 간섭신호를 효과적으로 제거하거나 감쇠시킬 수 있지만, 잡음의 형태는 분산 잡음이 아닌 점 음원(point source) 형태인 경우로 한정된다. 또한, ICA를 이용하면 입력 음성을 포함하여 N개의 음원이 존재하고, M개의 마이크가 존재한다고 할 때, M과 N의 개수가 동일한 경우(M=N)에 M개의 마이크로부터 입력된 혼합신호(mixed signal)들로부터 원래 N개의 음원 신호를 복원해낼 수 있으나, 분리해 낸 N개의 음원 신호는 각각이 무엇에 해당하는지 식별되지 못한다는 한계가 있다.

상기한 바와 같이 동작하는 종래 기술에 의한 음성인식 기술에 있어서는, ICA 기술의 사용 시, 혼합된 신호들에서 원래의 음원들을 분리해낼 순 있으나, 이 를 음성인식기와 결합하여 사용할 경우에는 분리된 음원들에 대한 음원 식별(source identification)이 어려웠다. 즉, 최소한 분리된 음원들 중에서 사용자의 음성 신호만이라도 정확히 식별해낼 수 있어야 하나 이에 대한 별다른 방도가 없었다.

이에 본 발명은, 음성인식을 위한 독립요소분석(ICA) 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행할 수 있는 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법을 제공한다.

또한 본 발명은, 마이크배열을 통해 입력받은 신호들을 독립요소분석(ICA)에 의해 분리해내고, 분리된 음원들 중에서 사용자의 음성에 해당하는 음원을 자동으로 식별해내어 이에 대한 음성인식결과를 출력할 수 있는 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법을 제공한다.

또한 본 발명은, 독립요소분석(ICA)에 의해 분리된 음원들 가운데 음성인식기 사용자가 발성한 음성을 음성인식기가 자동으로 구분해내기 위해, 잡음 음원의 경우 움직이지 않는다는 가정하에 분리된 음원들의 음성인식 신뢰도 및 방향정보를 계산하여 사용자의 음원을 식별할 수 있으므로, 음성인식기 사용자의 주변에 복수 개의 잡음원이 존재하는 경우에도 사용자는 마이크 배열과의 상대적인 위치에 무관하게 자유로운 위치에서 발성할 수 있으며, 높은 음성인식 성능을 얻을 수 있는 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법을 제공한다.

본 발명의 일 실시예 장치는, 적어도 두개의 마이크를 통해 각각 입력된 혼 합신호들을 독립요소분석(ICA)을 통해 음원 신호들로 분리하고, 상기 분리된 음원 신호들의 방향정보(DOA)를 추출하는 음원분리기와, 상기 음원분리기를 통해 분리된 음원 신호들에 대해 각각의 정규화된 대수 우도 확률 값을 산출하는 음성인식기와, 상기 음원분리기로부터 분리된 각 음원에 대해 추정된 방향정보(DOA)와 상기 음성인식기를 통해 산출된 각 음원의 정규화된 최대 우도 확률값을 이용하여 사용자의 음성 신호에 해당하는 음원을 식별하는 사용자 음성신호 식별기를 포함한다.

본 발명의 일 실시예 방법은, 적어도 두개의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석(ICA)을 통해 음원 신호들로 분리 및 상기 분리된 음원 신호들의 방향정보(DOA)를 추출하는 음원 분리 과정과, 상기 분리된 음원 신호들을 각각의 정규화된 대수 우도 확률 값으로 산출하는 음성인식 과정과, 상기 분리된 음원 신호들의 방향정보와 각 음원의 정규화된 대수 우도 확률 값에 기반한 음성 신호의 신뢰도를 이용하여 사용자의 음성 신호에 해당하는 음원을 식별하는 과정을 포함한다.

본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.

본 발명은, 주거환경, 전시실 등 다수의 점음원(point source) 형태의 잡음이 존재하는 환경에서도 별다른 성능 저하가 없이 음성인식기를 사용할 수 있게 되어 음성인식기의 다양한 응용시스템을 가능하게 할 수 있다.

또한, 사용자가 비교적 정확한 음성 인식을 위해 음성인식기의 정면에서 발 성하거나 특정 방향에서 발성해야 하는 등의 제약 없이 자유롭게 위치를 변경하며 사용할 수 있으므로, 사용자에게 큰 편의성을 제공할 수 있는 효과가 있다.

이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명은 음성인식을 위한 독립요소분석(ICA) 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행하기 위한 것으로서, 마이크배열을 통해 입력받은 신호들을 ICA에 의해 분리해내고, 분리된 음원들 중에서 사용자의 음성에 해당하는 음원을 자동으로 식별해내어 이에 대한 음성인식결과를 출력하는 것이다.

이를 위해 잡음 음원의 경우는 움직이지 않는다는 가정하에 분리된 음원들의 음성인식 신뢰도 및 방향정보를 계산하여 사용자의 음원을 식별할 수 있으므로, 음성인식기 사용자의 주변에 복수 개의 잡음원이 존재하는 경우에도 사용자는 마이크 배열과의 상대적인 위치에 무관하게 자유로운 위치에서 발성할 수 있으며, 높은 음성인식 성능을 얻게 된다.

이와 같이, 음원분리 및 음원식별을 이용한 음성인식 기술은 잡음 환경에 강 한 음성인식 기술에 속한다. 음원분리는 두 개 이상의 마이크와 ICA 기술을 이용하여 잡음 환경에서 음원들을 성공적으로 분리할 수 있으며, 이는 무선헤드셋, 보청기, 휴대폰, 음성인식기, 의료영상분석 등 다양한 분야에 적용할 수 있다.

도 1은 본 발명의 바람직한 실시예에 따른 음원분리 및 사용자 음성식별을 통하여 음성인식을 수행하는 음성인식 장치를 도시한 블록도이다.

도 1을 참조하면, 음성인식 시스템이 사용되는 환경에 N개의 음원이 존재한다고 가정한다. 이 N개의 음원들은 음성인식 장치 사용자의 음성에 해당하는 하나의 음원과 그 외의 N-1개의 잡음원들이다. 이 음원신호들은

(100)으로 나타낼 수 있다.

또한, 음성인식 장치에는 M개의 마이크들이 일정한 간격으로 배치되어 있으며, 각각의 마이크를 통해 입력된 M개의 신호들을

(102)로 나타낼 수 있다. 그리고 음원 n에서 마이크 m까지 음향 전달 경로 상의 임펄스 응답을

이라고 할 때 하기 <수학식 1> 식이 성립한다.

마이크로 입력된 신호들에 대한 음원을 분리하는 음원 분리기로서의 ICA 및 DOA 추정기(104)는 하기 <수학식 2>와 같이

들로부터 분리된 음원신호

를 얻는 과정으로서, ICA 기법은

의 역함수에 해당하는

을 구하는 대표적인 방법 중의 하나이다.

이에 <수학식 1>과 <수학식 2>는 고속 푸리에 변환(FFT)에 의해 주파수 영역으로 변환할 수 있으며, 각각 다음과 같이 나타낼 수 있다.

주파수영역 독립요소분석 기법(frequency-domain independent component analysis)은 시간 영역의 마이크 입력 신호들

을 주파수 영역으로 변환한 뒤, 분리 행렬

를 임의의 초기값으로부터 다음 <수학식 4>와 같은 학습 규칙을 반복 수행함으로써 얻는다.

학습된 분리행렬을 이용하여 <수학식 3>과 같이

를 얻은 뒤, 최종적으로 역 푸리에 변환에 의해 시간영역의 분리신호

를 얻는다.

ICA 기법에 의해 분리된 각각의 음원신호

를 얻을 수 있으나, 이들 각각이 실제로 어떤 음원에 해당하는지는 알 수 없다. 따라서 음성인식 장치는 이들 중에서 어떤 것이 음성인식 장치 사용자의 음성신호인지를 자동으로 식별해낼 수 있어야 한다.

음원들의 방향(Direction Of Arrival, 이하 DOA라 한다)을 계산하기 위해 학습된 분리 행렬

로부터

에 의해 주파수 응답 행렬(또는 혼합 행렬)

를 우선 구한다. 여기에서 독립요소분석의 특성에 의해 분리신호들은 상호간에 순서 뒤바뀜(permutation)과 신호크기가 임의로 변경(scaling problem)될 수 있기 때문에

과 같이 나타낼 수 있다. 여기에서

와

는 각각 원신호로부터의 진폭 감쇠 및 위상 변조(phase modulation)를 표현한다.

한 쌍의 주파수 응답 행렬

과

으로부터 그들 간의 비율을 계 산하면 다음 <수학식 5>와 같다.

상기 <수학식 5>는 동일한 음원 n에 대한 주파수 응답의 비율이므로

이 되고, 따라서 주파수 f에서의 분리신호

에 대한 방향(DOA)

은 다음 <수학식 6>과 같이 구할 수 있다.

상기 <수학식 6>에서 상수 c는 소리의 속도 340m/s를 의미한다.

한편, 도 2는 주파수 영역에서 ICA 분리행렬을 이용한 음원별 DOA 계산 방식을 도시한 그래프로서, O표시(200)는 주파수별로 분리행렬로부터 계산된 음원 1의 각(angle)을 의미하고, x표시(202)는 주파수별로 계산한 음원 2의 각(angle)을 의미한다.

이에　 2개의 음원에 대해 각 주파수 f에서의

및

를 O표시(200) 또는 x 표시(202)로 나타내었다. 이 값들은 각 주파수별로 약간씩 다른 값을 가질 수 있으며, 저주파 대역 또는 고주파 대역에서 정확도가 떨어진다. 따라서 최종적인 분리신호

의 방향

은 <수학식 7>과 같이 전체 주파수 또는 전체 주파수 대역의 일부 신뢰도가 높은 구간 [f1, f2]에 대하여

값의 평균치를 계산하여 얻을 수 있다.

이와 같이 ICA 및 DOA 추정기(104)를 통하여 최종적인 분리신호

의 방향

를 얻을 수 있으며, 음성인식기(108)에서는 분리 신호

의 음성인식 신뢰도를 계산하기 위해서 이들 각각에 대해서 기 설정된 구간(예컨대, 매 10ms 단위마다 20ms 구간)에서 k차의 특징벡터를 계산한다. 여기에서 각 분리신호들마다 추출한 N개의 특징 벡터열들을

이라고 하고, 음성인식을 위한 통계모델인 은닉 마르코프 모델(hidden Markov model, 이하 HMM이라 한다)로 구성된 탐색 네트워크를

라고 하면, 분리 신호

의 정규화된 대수 우도 확률(normalized log likelihood probability) 값

은 <수학식 8>과 같이 구해질 수 있다.

대수 우도 확률은 음성의 길이가 길수록 확률값이 누적되므로, 이를 전체 신호 구간의 프레임 개수 T로 나누어 정규화한다. 분리된 신호

중에서 음성인식기 사용자의 음성 신호가 존재한다고 하면, 이 음성 신호는 HMM으로 구성된 탐색 네트워크 에 의해 가장 높은 확률값을 낼 가능성이 크다. 따라서 앞에서 구한 우도 확률값

중에서 최대치가

라고 할 때, k 번째 분리 신호

를 음성 신호라고 가정할 수 있다.

그러나 실제로는 ICA에 의해 분리된 신호들은 원음 신호만을 완벽히 포함하지는 않으며, 여전히 다른 음원 신호들을 어느 정도 포함하고 있고, 주변 사람의 간섭 음성이 존재할 수도 있으므로, 우도 확률값

를 갖는 k번째 분리신호는 음성인식 장치 사용자의 음성이 아닌 다른 음원일 수도 있다.

따라서 본 실시예에서는 최대치 우도 확률값

를 가지며, 음성신호라고 추정된 분리 음원

에 대한 신뢰도 정보를 추가적으로 활용한다. 획득한 우도값

중에서 최대치와 두 번째 최대치를 각각

,

라고 할 때, 이 값들 간의 거리로서 신뢰도를 정의한다. 즉, 신뢰도는

로 정의된다. 분리 신호

가 성인식 장치 사용자의 음성이라면, 그렇지 않은 경우에 비하여

와

의 값의 차이는 더 클 가능성이 크다.

도 3은 본 발명의 바람직한 실시예에 따른 사용자의 음성식별을 위한 신뢰도 분포 곡선과 임계치 값을 도시한 그래프이다.

따라서 도 3을 참조하면, 분리신호

가 음성 신호일 경우, 신뢰도 c(k) 값은 도 3에서 표시된 두 개의 분포 중에서 오른쪽의 분포(300)와 같이 나타나게 된다. 반면에 분리 신호

가 잡음 신호일 경우에는

가 최대값을 나타냈더라도

와의 차이가 크지 않으며, 따라서 도 3에서 왼쪽의 분포(302)를 갖게 된다. 이때, 참조번호 304는 실험적으로 구한 임계치 θ이다.

상기와 같이 입력신호

(102)에 대해 ICA 및 DOA 추정기(104)를 통해 ICA를 이용하여 구한 분리신호

과 이들에 대한 방향정보로서 구해진

(106)을 산출하고 음성인식기(108)에서 정규화된 대수 우도값

(110)을 도출하여 사용자 음성 신호 식별 기(112)에서는 대수 우도값 중에서 최대치인

에 대한 신뢰도 c(k) 값을 계산하였다.

한편, 본 실시예에서는 사용자의 음성을 제외한 다른 잡음 신호들은 위치가 고정되어 있으며, 움직이지 않는다고 가정하고, 이 가정을 이용하여 사용자 음성 식별의 성능을 더욱 높일 수 있는 방법을 제시한다.

도 4는 본 발명의 바람직한 실시예에 따른 사용자 음성의 식별, 레퍼런스 DOA 갱신 및 음성인식결과의 출력과정을 도시한 흐름도이다.

도 4를 참조하면, 음성인식결과로 얻어진 각 음원별 단어 또는 단어열과, 계산된 방향정보, 정규화된 대수 우도값 및 신뢰도 등의 정보를 이용한 사용자 음성 식별 및 음성인식 결과를 출력하기 위한 것으로서, 400단계에서 최대의 출력확률을 갖는 음원 k에 대한 신뢰도 c(k)를 산출하고, 402단계에서는 신뢰도 c(k)와 실험적으로 구한 임계치 θ(304)와 비교한다. 신뢰도가 임계치 보다 클 경우, 즉, 신뢰도가 매우 클 경우에는 406단계로 진행하여 음원 k의 음성인식결과에 해당하는 단어 또는 단어열

를 사용자 음성으로서 출력한다. 그리고 음원 k를 제외한 나머지 N-1개의 잡음 음원들에 대한 DOA 정보를 이용하여, 레퍼런스 DOA 갱신부(408)에 N-1개의 잡음 음원들에 대한 레퍼런스 DOA 값을 갱신하고 종료한다.

이때, 음원 k를 제외한 나머지 N-1개의 각 잡음 음원의 DOA(i)값에 대해 레퍼런스 DOA 갱신부(408)에 저장된 레퍼런스 DOA와의 값 비교를 통해 자신과 가장 가까운 레퍼런스 DOA를 우선적으로 찾는다. 이후 레퍼런스 DOA 갱신부(408)의 레퍼 런스 DOA값들에 대한 갱신이 다음과 같이 이루어진다. j번째 잡음 음원에 대한 레퍼런스 DOA를 ref_DOA(r)라고 하면, ref_DOA(r) ← (1-ρ)?ref_DOA(r)+ ρ?DOA(j)와 같이 갱신될 수 있으며, 이 때, ρ는 0보다 크거나 같고, 1보다는 작거나 같은 값을 갖는다.

한편, 402단계에서 신뢰도 c(k)가 임계치보다 작을 경우에는, 410단계로 진행하여 최대 출력확률을 갖는 음원 k와 두 번째로 큰 출력확률을 갖는 음원 s에 대해서, 이들의 방향정보, 즉, DOA(k)와 DOA(s)를 이용하여 음성 또는 잡음 여부를 판단한다. 이를 위해 레퍼런스 DOA 갱신부(408)에 저장된 N-1개의 잡음 음원들에 대한 레퍼런스 DOA들과 DOA(k)를 차례로 비교하여 가장 가까운 잡음 음원과의 DOA 값의 차이를 계산한다. 이 값을 DOA_diff(k)라고 하고, DOA(s)에 대해서도 동일하게 수행하여 DOA_diff(s)라고 하면, DOA_diff(k)와 DOA_diff(s) 중에서 더 작은 값을 갖는 k 또는 s를 잡음 음원으로 판단하고, 그 나머지를 사용자의 음성으로 최종 판단한다. 이에 412단계에서는 이에 따라 사용자 음성에 대한 인식결과로서 k가 잡음원일 경우에는

를 사용자 음원으로 출력하고, s가 잡음원일 경우에는

를 사용자 음원으로 출력하게 된다.

이상 설명한 바와 같이, 본 발명은 음성인식을 위한 독립요소분석(ICA) 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행하기 위한 것으로서, 마이크배열을 통해 입력받은 신호들을 ICA에 의해 분리해내고, 분리된 음원들 중에서 사용자의 음성에 해당하는 음원을 자동으로 식별해내어 이에 대한 음성인식결과를 출력한다.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

도 1은 본 발명의 바람직한 실시예에 따른 음원분리 및 사용자 음성식별을 통하여 음성인식을 수행하는 음성인식 장치를 도시한 블록도,

도 2는 본 발명의 바람직한 실시예에 따른 주파수 영역에서 ICA 분리행렬을 이용한 음원별 DOA 계산 방식을 도시한 그래프,

도 3은 본 발명의 바람직한 실시예에 따른 사용자의 음성식별을 위한 신뢰도 분포 곡선과 임계치 값을 도시한 그래프,

도 4는 본 발명의 바람직한 실시예에 따른 사용자 음성의 식별, 레퍼런스 DOA 갱신 및 음성인식결과 출력 절차를 도시한 흐름도.

< 도면의 주요 부분에 대한 부호 설명 >

104 : ICA 및 DOA 추정기

108 : 음성인식기

112 : 사용자 음성 신호 식별기

Claims

적어도 두개의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석(ICA)을 통해 음원 신호들로 분리하고, 상기 분리된 음원 신호들의 방향정보(DOA)를 추출하는 음원분리기와,

상기 음원분리기를 통해 분리된 음원 신호들을 각각의 정규화된 대수 우도 확률 값으로 산출하는 음성인식기와,

상기 음원분리기로부터 분리된 각 음원에 대해 추정된 방향정보와 상기 음성인식기를 통해 산출된 각 음원의 정규화된 대수 우도 확률값에 기반한 음성 신호 식별의 신뢰도를 이용하여 사용자의 음성 신호에 해당하는 음원을 식별하는 사용자 음성신호 식별기

를 포함하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제 1항에 있어서,

상기 사용자 음성 신호 식별기는,

상기 방향 정보와, 각 음원의 정규화된 대수 우도 확률값에 기반한 음성 신호 식별의 신뢰도와, 잡음 음원의 위치를 고정된 위치로 정의하여 상기 잡음 음원의 레퍼런스 방향정보를 추정하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제 1항에 있어서,

상기 사용자 음성 신호 식별기를 통해 출력된 잡음원에 대한 방향 정보 값을 전달받아 기존 잡음 음원의 레퍼런스 방향 정보에 업데이트 시키는 레퍼런스 DOA 갱신부

를 포함하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제1항에 있어서,

상기 음원 분리기는,

음원에서 마이크까지 음향 전달 경로 상의 임펄스 응답 값의 역함수 값에 고속 푸리에 변환(FFT)을 통하여 주파수 영역으로 변환하고,

마이크 입력 신호들을 주파수 영역으로 변환한 뒤 분리행렬을 독립요소분석(ICA) 알고리즘의 기 설정된 규칙에 대한 반복 수행을 통하여 값을 산출하여,

상기 산출된 값에 역푸리에 변환에 의해 시간영역의 분리된 음원 신호를 산출하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
삭제
제1항에 있어서,

상기 음성인식기는,

상기 음원 분리기로부터 출력된 각 음원들에 대해 기설정된 구간 단위마다의 특징벡터를 계산하고,

상기 계산된 특징벡터들과 은닉 마르코프 모델(HMM)로 구성된 탐색 네트워크를 토대로 정규화 대수 우도 값을 산출하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제6항에 있어서,

상기 음성인식기는,

상기 정규화 대수 우도값 중에서 최대 우도 확률값이
인 경우, k 번째 분리 음원을 사용자 음성 신호로 결정하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제6항에 있어서,

상기 사용자 음성신호 식별기는,

상기 정규화 대수 우도값
에 해당하는 음원을 사용자의 음성이라 판단할 수 있는 신뢰도 정보로서, 상기 정규화 대수 우도값 중에서 최대치와 두 번째 최대치 값들 간의 차의 절대값으로서 신뢰도를 산출하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제8항에 있어서,

상기 사용자 음성신호 식별기는,

상기 산출된 신뢰도와 기 설정된 임계치와 비교하여, 상기 신뢰도가 임계치보다 큰 경우, 해당 신뢰도 음원의 음성인식결과에 해당하는 단어 또는 단어열을 사용자 음원으로 출력하고,

상기 신뢰도가 임계치보다 작을 경우에는, 최대 정규화 최대 우도 확률을 갖는 음원과 두 번째로 큰 우도 확률을 갖는 음원에 대해서 각각의 방향정보를 이용하여 음성 또는 잡음 여부를 판단하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제9항에 있어서,

상기 사용자 음성신호 식별기는,

상기 신뢰도가 임계치보다 작은 경우, 각 음원을 상기 잡음 음원들에 대한 레퍼런스 방향정보들과 차례로 비교하여 가장 가까운 잡음 음원 방향정보 값과의 차이를 계산한 후, 더 작은 값을 갖는 음원을 잡음 음원으로 판단하고, 나머지를 사용자의 음성으로 판단하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제9항에 있어서,

상기 사용자 음성신호 식별기는,

상기 신뢰도가 임계치보다 높은 경우, 상기 신뢰도에 해당하는 음원을 제외한 나머지 분리된 잡음 음원들에 대한 방향 정보를 레퍼런스 DOA 갱신부에 전달하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
제 11항에 있어서,

상기 레퍼런스 DOA 갱신부는,

상기 잡음 음원들에 대한 방향 정보와 기 저장된 레퍼런스 방향 정보와의 값을 비교하여 서로 가장 가까운 값들과의 업데이트를 수행하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
적어도 두개의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석(ICA)을 통해 음원 신호들로 분리 및 상기 분리된 음원 신호들의 방향정보(DOA)를 추출하는 음원 분리 과정과,

상기 분리된 음원 신호들을 각각의 정규화된 대수 우도 확률 값으로 산출하는 음성인식 과정과,

상기 분리된 음원 신호들의 방향정보와 각 음원의 정규화된 최대 우도 확률 값에 기반한 음성 신호의 신뢰도를 이용하여 사용자의 음성 신호에 해당하는 음원을 식별하는 과정

을 포함하는 음원분리 및 음원식별을 이용한 음성인식 방법.
제 13항에 있어서,

상기 음원을 식별하는 과정은,

상기 방향 정보와, 각 음원의 정규화된 최대 우도 확률값에 기반한 음성 신호 식별의 신뢰도와, 잡음 음원의 위치를 고정된 위치로 정의하여 상기 잡음 음원의 레퍼런스 방향정보를 추정하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
삭제
제13항에 있어서,

상기 음성 인식 과정은,

상기 분리된 음원 신호들에 대해 기설정된 구간 단위마다의 특징벡터를 계산하는 과정과,

상기 계산된 특징벡터들과 은닉 마르코프 모델(HMM)로 구성된 탐색 네트워크를 토대로 정규화 대수 우도 값을 산출하는 과정

을 포함하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
제16항에 있어서,

상기 음성 인식 과정은,

상기 정규화 대수 우도값 중에서 최대 우도 확률값이
인 경우, k 번째 분리 음원을 사용자 음성 신호로 결정하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
제13항에 있어서,

상기 음원을 식별하는 과정은,

상기 정규화 대수 우도값
에 해당하는 음원을 사용자의 음성이라 판단할 수 있는 신뢰도 정보로서, 상기 정규화 대수 우도값 중에서 최대치와 두 번째 최대치 값들 간의 차의 절대값을 통하여 신뢰도를 산출하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
제18항에 있어서,

상기 음원을 식별하는 과정은,

상기 산출된 신뢰도와 기 설정된 임계치와 비교하여, 상기 신뢰도가 임계치보다 큰 경우, 해당 신뢰도 음원의 음성인식결과에 해당하는 단어 또는 단어열을 사용자 음원으로 출력하는 과정과,

상기 신뢰도가 임계치보다 작을 경우에는, 최대 정규화 최대 우도 확률을 갖는 음원과 두 번째로 큰 우도 확률을 갖는 음원에 대해서 각각의 방향정보를 이용하여 음성 또는 잡음 여부를 판단하는 과정

을 더 포함하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
제19항에 있어서,

상기 음원을 식별하는 과정은,

상기 신뢰도가 임계치보다 작은 경우, 각 음원을 상기 잡음 음원들에 대한 레퍼런스 방향정보들과 차례로 비교하여 가장 가까운 잡음 음원 방향정보 값과의 차이를 계산한 후, 더 작은 값을 갖는 음원을 잡음 음원으로 판단하고, 나머지를 사용자의 음성으로 판단하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.