KR101178801B1 - 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 - Google Patents

음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 Download PDF

Info

Publication number
KR101178801B1
KR101178801B1 KR1020080124371A KR20080124371A KR101178801B1 KR 101178801 B1 KR101178801 B1 KR 101178801B1 KR 1020080124371 A KR1020080124371 A KR 1020080124371A KR 20080124371 A KR20080124371 A KR 20080124371A KR 101178801 B1 KR101178801 B1 KR 101178801B1
Authority
KR
South Korea
Prior art keywords
sound source
voice
value
reliability
separation
Prior art date
Application number
KR1020080124371A
Other languages
English (en)
Other versions
KR20100065811A (ko
Inventor
조훈영
박상규
박준
김승희
이일빈
황규웅
전형배
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080124371A priority Critical patent/KR101178801B1/ko
Priority to US12/498,544 priority patent/US20100070274A1/en
Publication of KR20100065811A publication Critical patent/KR20100065811A/ko
Application granted granted Critical
Publication of KR101178801B1 publication Critical patent/KR101178801B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음원분리 및 음원식별을 이용한 음성인식 기술에 관한 것으로, 음성인식기 사용자의 음성과 잡음 음원들이 혼재하는 환경에서 다수의 마이크와 독립요소분석 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행하는 것이다. 독립요소분석에 의해 분리된 음원들 가운데 음성인식기 사용자가 음성인식기 구동을 목적으로 발성한 음성을 음성인식기가 자동으로 구분해내기 위해, 본 발명에서는 분리된 음원들의 음성인식 신뢰도 및 방향정보를 계산하고, 잡음 음원의 경우 움직이지 않는다고 가정한다. 이 방식에 의하면 음성인식기 사용자의 주변에 복수 개의 잡음원이 존재하는 경우에도 사용자는 마이크 배열과의 상대적인 위치에 무관하게 자유로운 위치에서 발성할 수 있으며, 높은 음성인식 성능을 얻을 수 있다.
마이크배열, 음성인식, 잡음처리, 음원분리, 음원식별, 독립요소분석(ICA)

Description

음원분리 및 음원식별을 이용한 음성인식 장치 및 방법{APPARATUS AND METHOD FOR SPEECH RECOGNITION BY USING SOURCE SEPARATION AND SOURCE IDENTIFICATION}
본 발명은 마이크배열 기반의 음성인식 시스템에 관한 것으로서, 특히 음성인식을 위한 독립요소분석(Independent Component Analysis, 이하 ICA라 한다) 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행하는데 적합한 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술 개발].
음성인식 기술은 사용자의 음성신호에 포함된 언어정보를 추출하여 이를 문자로 변경하는 기술로서, 비교적 조용한 환경에서는 높은 인식 성능을 보인다. 그러나, 음성인식 시스템은 컴퓨터, 로봇, 이동형 단말기 등에 탑재되어 집 안의 거실, 전시회장, 실험실, 공공장소 등 다양한 환경에서 사용되며, 이러한 환경에는 다양한 형태의 잡음이 존재한다. 잡음은 음성인식기의 성능을 떨어뜨리는 주된 요인 중의 하나이며, 이를 제거하기 위해 잡음 처리 방법들이 개발되어 왔다.
비교적 최근에는 두 개 이상의 마이크로폰을 사용하여 잡음에 대처하는 방법들이 개발되고 있다. 이 방식들에는 특정방향에서 발성되는 사용자의 음성을 강화하는 동시에 그 외의 방향에서 들어오는 잡음들을 감쇠시키는 빔포밍(beamforming) 기술과 혼합된 신호들로부터 통계적 학습 알고리즘에 의해 원음들을 분리해내는 독립요소분석(independent component analysis; 이하 ICA라고 함)이 널리 알려져 있다.
ICA 기법을 사용하면 음성인식기, 유무선 휴대폰 등 음성을 입력받는 장치들에서 주변 화자, TV 또는 오디오에서 발생하는 소리 등의 간섭신호를 효과적으로 제거하거나 감쇠시킬 수 있지만, 잡음의 형태는 분산 잡음이 아닌 점 음원(point source) 형태인 경우로 한정된다. 또한, ICA를 이용하면 입력 음성을 포함하여 N개의 음원이 존재하고, M개의 마이크가 존재한다고 할 때, M과 N의 개수가 동일한 경우(M=N)에 M개의 마이크로부터 입력된 혼합신호(mixed signal)들로부터 원래 N개의 음원 신호를 복원해낼 수 있으나, 분리해 낸 N개의 음원 신호는 각각이 무엇에 해당하는지 식별되지 못한다는 한계가 있다.
상기한 바와 같이 동작하는 종래 기술에 의한 음성인식 기술에 있어서는, ICA 기술의 사용 시, 혼합된 신호들에서 원래의 음원들을 분리해낼 순 있으나, 이 를 음성인식기와 결합하여 사용할 경우에는 분리된 음원들에 대한 음원 식별(source identification)이 어려웠다. 즉, 최소한 분리된 음원들 중에서 사용자의 음성 신호만이라도 정확히 식별해낼 수 있어야 하나 이에 대한 별다른 방도가 없었다.
이에 본 발명은, 음성인식을 위한 독립요소분석(ICA) 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행할 수 있는 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법을 제공한다.
또한 본 발명은, 마이크배열을 통해 입력받은 신호들을 독립요소분석(ICA)에 의해 분리해내고, 분리된 음원들 중에서 사용자의 음성에 해당하는 음원을 자동으로 식별해내어 이에 대한 음성인식결과를 출력할 수 있는 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법을 제공한다.
또한 본 발명은, 독립요소분석(ICA)에 의해 분리된 음원들 가운데 음성인식기 사용자가 발성한 음성을 음성인식기가 자동으로 구분해내기 위해, 잡음 음원의 경우 움직이지 않는다는 가정하에 분리된 음원들의 음성인식 신뢰도 및 방향정보를 계산하여 사용자의 음원을 식별할 수 있으므로, 음성인식기 사용자의 주변에 복수 개의 잡음원이 존재하는 경우에도 사용자는 마이크 배열과의 상대적인 위치에 무관하게 자유로운 위치에서 발성할 수 있으며, 높은 음성인식 성능을 얻을 수 있는 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법을 제공한다.
본 발명의 일 실시예 장치는, 적어도 두개의 마이크를 통해 각각 입력된 혼 합신호들을 독립요소분석(ICA)을 통해 음원 신호들로 분리하고, 상기 분리된 음원 신호들의 방향정보(DOA)를 추출하는 음원분리기와, 상기 음원분리기를 통해 분리된 음원 신호들에 대해 각각의 정규화된 대수 우도 확률 값을 산출하는 음성인식기와, 상기 음원분리기로부터 분리된 각 음원에 대해 추정된 방향정보(DOA)와 상기 음성인식기를 통해 산출된 각 음원의 정규화된 최대 우도 확률값을 이용하여 사용자의 음성 신호에 해당하는 음원을 식별하는 사용자 음성신호 식별기를 포함한다.
본 발명의 일 실시예 방법은, 적어도 두개의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석(ICA)을 통해 음원 신호들로 분리 및 상기 분리된 음원 신호들의 방향정보(DOA)를 추출하는 음원 분리 과정과, 상기 분리된 음원 신호들을 각각의 정규화된 대수 우도 확률 값으로 산출하는 음성인식 과정과, 상기 분리된 음원 신호들의 방향정보와 각 음원의 정규화된 대수 우도 확률 값에 기반한 음성 신호의 신뢰도를 이용하여 사용자의 음성 신호에 해당하는 음원을 식별하는 과정을 포함한다.
본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.
본 발명은, 주거환경, 전시실 등 다수의 점음원(point source) 형태의 잡음이 존재하는 환경에서도 별다른 성능 저하가 없이 음성인식기를 사용할 수 있게 되어 음성인식기의 다양한 응용시스템을 가능하게 할 수 있다.
또한, 사용자가 비교적 정확한 음성 인식을 위해 음성인식기의 정면에서 발 성하거나 특정 방향에서 발성해야 하는 등의 제약 없이 자유롭게 위치를 변경하며 사용할 수 있으므로, 사용자에게 큰 편의성을 제공할 수 있는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 음성인식을 위한 독립요소분석(ICA) 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행하기 위한 것으로서, 마이크배열을 통해 입력받은 신호들을 ICA에 의해 분리해내고, 분리된 음원들 중에서 사용자의 음성에 해당하는 음원을 자동으로 식별해내어 이에 대한 음성인식결과를 출력하는 것이다.
이를 위해 잡음 음원의 경우는 움직이지 않는다는 가정하에 분리된 음원들의 음성인식 신뢰도 및 방향정보를 계산하여 사용자의 음원을 식별할 수 있으므로, 음성인식기 사용자의 주변에 복수 개의 잡음원이 존재하는 경우에도 사용자는 마이크 배열과의 상대적인 위치에 무관하게 자유로운 위치에서 발성할 수 있으며, 높은 음성인식 성능을 얻게 된다.
이와 같이, 음원분리 및 음원식별을 이용한 음성인식 기술은 잡음 환경에 강 한 음성인식 기술에 속한다. 음원분리는 두 개 이상의 마이크와 ICA 기술을 이용하여 잡음 환경에서 음원들을 성공적으로 분리할 수 있으며, 이는 무선헤드셋, 보청기, 휴대폰, 음성인식기, 의료영상분석 등 다양한 분야에 적용할 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 음원분리 및 사용자 음성식별을 통하여 음성인식을 수행하는 음성인식 장치를 도시한 블록도이다.
도 1을 참조하면, 음성인식 시스템이 사용되는 환경에 N개의 음원이 존재한다고 가정한다. 이 N개의 음원들은 음성인식 장치 사용자의 음성에 해당하는 하나의 음원과 그 외의 N-1개의 잡음원들이다. 이 음원신호들은
Figure 112008084548539-pat00001
(100)으로 나타낼 수 있다.
또한, 음성인식 장치에는 M개의 마이크들이 일정한 간격으로 배치되어 있으며, 각각의 마이크를 통해 입력된 M개의 신호들을
Figure 112008084548539-pat00002
(102)로 나타낼 수 있다. 그리고 음원 n에서 마이크 m까지 음향 전달 경로 상의 임펄스 응답을
Figure 112008084548539-pat00003
이라고 할 때 하기 <수학식 1> 식이 성립한다.
Figure 112008084548539-pat00004
마이크로 입력된 신호들에 대한 음원을 분리하는 음원 분리기로서의 ICA 및 DOA 추정기(104)는 하기 <수학식 2>와 같이
Figure 112008084548539-pat00005
들로부터 분리된 음원신호
Figure 112008084548539-pat00006
를 얻는 과정으로서, ICA 기법은
Figure 112008084548539-pat00007
의 역함수에 해당하는
Figure 112008084548539-pat00008
을 구하는 대표적인 방법 중의 하나이다.
Figure 112008084548539-pat00009
이에 <수학식 1>과 <수학식 2>는 고속 푸리에 변환(FFT)에 의해 주파수 영역으로 변환할 수 있으며, 각각 다음과 같이 나타낼 수 있다.
Figure 112008084548539-pat00010
주파수영역 독립요소분석 기법(frequency-domain independent component analysis)은 시간 영역의 마이크 입력 신호들
Figure 112008084548539-pat00011
을 주파수 영역으로 변환한 뒤, 분리 행렬
Figure 112008084548539-pat00012
를 임의의 초기값으로부터 다음 <수학식 4>와 같은 학습 규칙을 반복 수행함으로써 얻는다.
Figure 112008084548539-pat00013
학습된 분리행렬을 이용하여 <수학식 3>과 같이
Figure 112008084548539-pat00014
를 얻은 뒤, 최종적으로 역 푸리에 변환에 의해 시간영역의 분리신호
Figure 112008084548539-pat00015
를 얻는다.
ICA 기법에 의해 분리된 각각의 음원신호
Figure 112008084548539-pat00016
를 얻을 수 있으나, 이들 각각이 실제로 어떤 음원에 해당하는지는 알 수 없다. 따라서 음성인식 장치는 이들 중에서 어떤 것이 음성인식 장치 사용자의 음성신호인지를 자동으로 식별해낼 수 있어야 한다.
음원들의 방향(Direction Of Arrival, 이하 DOA라 한다)을 계산하기 위해 학습된 분리 행렬
Figure 112008084548539-pat00017
로부터
Figure 112008084548539-pat00018
에 의해 주파수 응답 행렬(또는 혼합 행렬)
Figure 112008084548539-pat00019
를 우선 구한다. 여기에서 독립요소분석의 특성에 의해 분리신호들은 상호간에 순서 뒤바뀜(permutation)과 신호크기가 임의로 변경(scaling problem)될 수 있기 때문에
Figure 112008084548539-pat00020
과 같이 나타낼 수 있다. 여기에서
Figure 112008084548539-pat00021
Figure 112008084548539-pat00022
는 각각 원신호로부터의 진폭 감쇠 및 위상 변조(phase modulation)를 표현한다.
한 쌍의 주파수 응답 행렬
Figure 112008084548539-pat00023
Figure 112008084548539-pat00024
으로부터 그들 간의 비율을 계 산하면 다음 <수학식 5>와 같다.
Figure 112008084548539-pat00025
상기 <수학식 5>는 동일한 음원 n에 대한 주파수 응답의 비율이므로
Figure 112008084548539-pat00026
이 되고, 따라서 주파수 f에서의 분리신호
Figure 112008084548539-pat00027
에 대한 방향(DOA)
Figure 112008084548539-pat00028
은 다음 <수학식 6>과 같이 구할 수 있다.
Figure 112008084548539-pat00029
상기 <수학식 6>에서 상수 c는 소리의 속도 340m/s를 의미한다.
한편, 도 2는 주파수 영역에서 ICA 분리행렬을 이용한 음원별 DOA 계산 방식을 도시한 그래프로서, O표시(200)는 주파수별로 분리행렬로부터 계산된 음원 1의 각(angle)을 의미하고, x표시(202)는 주파수별로 계산한 음원 2의 각(angle)을 의미한다.
이에  2개의 음원에 대해 각 주파수 f에서의
Figure 112008084548539-pat00030
Figure 112008084548539-pat00031
를 O표시(200) 또는 x 표시(202)로 나타내었다. 이 값들은 각 주파수별로 약간씩 다른 값을 가질 수 있으며, 저주파 대역 또는 고주파 대역에서 정확도가 떨어진다. 따라서 최종적인 분리신호
Figure 112008084548539-pat00032
의 방향
Figure 112008084548539-pat00033
은 <수학식 7>과 같이 전체 주파수 또는 전체 주파수 대역의 일부 신뢰도가 높은 구간 [f1, f2]에 대하여
Figure 112008084548539-pat00034
값의 평균치를 계산하여 얻을 수 있다.
Figure 112008084548539-pat00035
이와 같이 ICA 및 DOA 추정기(104)를 통하여 최종적인 분리신호
Figure 112008084548539-pat00036
의 방향
Figure 112008084548539-pat00037
를 얻을 수 있으며, 음성인식기(108)에서는 분리 신호
Figure 112008084548539-pat00038
의 음성인식 신뢰도를 계산하기 위해서 이들 각각에 대해서 기 설정된 구간(예컨대, 매 10ms 단위마다 20ms 구간)에서 k차의 특징벡터를 계산한다. 여기에서 각 분리신호들마다 추출한 N개의 특징 벡터열들을
Figure 112008084548539-pat00039
이라고 하고, 음성인식을 위한 통계모델인 은닉 마르코프 모델(hidden Markov model, 이하 HMM이라 한다)로 구성된 탐색 네트워크를
Figure 112008084548539-pat00040
라고 하면, 분리 신호
Figure 112008084548539-pat00041
의 정규화된 대수 우도 확률(normalized log likelihood probability) 값
Figure 112008084548539-pat00042
은 <수학식 8>과 같이 구해질 수 있다.
Figure 112008084548539-pat00043
대수 우도 확률은 음성의 길이가 길수록 확률값이 누적되므로, 이를 전체 신호 구간의 프레임 개수 T로 나누어 정규화한다. 분리된 신호
Figure 112008084548539-pat00044
중에서 음성인식기 사용자의 음성 신호가 존재한다고 하면, 이 음성 신호는 HMM으로 구성된 탐색 네트워크 에 의해 가장 높은 확률값을 낼 가능성이 크다. 따라서 앞에서 구한 우도 확률값
Figure 112008084548539-pat00045
중에서 최대치가
Figure 112008084548539-pat00046
라고 할 때, k 번째 분리 신호
Figure 112008084548539-pat00047
를 음성 신호라고 가정할 수 있다.
그러나 실제로는 ICA에 의해 분리된 신호들은 원음 신호만을 완벽히 포함하지는 않으며, 여전히 다른 음원 신호들을 어느 정도 포함하고 있고, 주변 사람의 간섭 음성이 존재할 수도 있으므로, 우도 확률값
Figure 112008084548539-pat00048
를 갖는 k번째 분리신호는 음성인식 장치 사용자의 음성이 아닌 다른 음원일 수도 있다.
따라서 본 실시예에서는 최대치 우도 확률값
Figure 112008084548539-pat00049
를 가지며, 음성신호라고 추정된 분리 음원
Figure 112008084548539-pat00050
에 대한 신뢰도 정보를 추가적으로 활용한다. 획득한 우도값
Figure 112008084548539-pat00051
중에서 최대치와 두 번째 최대치를 각각
Figure 112008084548539-pat00052
,
Figure 112008084548539-pat00053
라고 할 때, 이 값들 간의 거리로서 신뢰도를 정의한다. 즉, 신뢰도는
Figure 112008084548539-pat00054
로 정의된다. 분리 신호
Figure 112008084548539-pat00055
가 성인식 장치 사용자의 음성이라면, 그렇지 않은 경우에 비하여
Figure 112008084548539-pat00056
Figure 112008084548539-pat00057
의 값의 차이는 더 클 가능성이 크다.
도 3은 본 발명의 바람직한 실시예에 따른 사용자의 음성식별을 위한 신뢰도 분포 곡선과 임계치 값을 도시한 그래프이다.
따라서 도 3을 참조하면, 분리신호
Figure 112008084548539-pat00058
가 음성 신호일 경우, 신뢰도 c(k) 값은 도 3에서 표시된 두 개의 분포 중에서 오른쪽의 분포(300)와 같이 나타나게 된다. 반면에 분리 신호
Figure 112008084548539-pat00059
가 잡음 신호일 경우에는
Figure 112008084548539-pat00060
가 최대값을 나타냈더라도
Figure 112008084548539-pat00061
와의 차이가 크지 않으며, 따라서 도 3에서 왼쪽의 분포(302)를 갖게 된다. 이때, 참조번호 304는 실험적으로 구한 임계치 θ이다.
상기와 같이 입력신호
Figure 112008084548539-pat00062
(102)에 대해 ICA 및 DOA 추정기(104)를 통해 ICA를 이용하여 구한 분리신호
Figure 112008084548539-pat00063
과 이들에 대한 방향정보로서 구해진
Figure 112008084548539-pat00064
(106)을 산출하고 음성인식기(108)에서 정규화된 대수 우도값
Figure 112008084548539-pat00065
(110)을 도출하여 사용자 음성 신호 식별 기(112)에서는 대수 우도값 중에서 최대치인
Figure 112008084548539-pat00066
에 대한 신뢰도 c(k) 값을 계산하였다.
한편, 본 실시예에서는 사용자의 음성을 제외한 다른 잡음 신호들은 위치가 고정되어 있으며, 움직이지 않는다고 가정하고, 이 가정을 이용하여 사용자 음성 식별의 성능을 더욱 높일 수 있는 방법을 제시한다.
도 4는 본 발명의 바람직한 실시예에 따른 사용자 음성의 식별, 레퍼런스 DOA 갱신 및 음성인식결과의 출력과정을 도시한 흐름도이다.
도 4를 참조하면, 음성인식결과로 얻어진 각 음원별 단어 또는 단어열과, 계산된 방향정보, 정규화된 대수 우도값 및 신뢰도 등의 정보를 이용한 사용자 음성 식별 및 음성인식 결과를 출력하기 위한 것으로서, 400단계에서 최대의 출력확률을 갖는 음원 k에 대한 신뢰도 c(k)를 산출하고, 402단계에서는 신뢰도 c(k)와 실험적으로 구한 임계치 θ(304)와 비교한다. 신뢰도가 임계치 보다 클 경우, 즉, 신뢰도가 매우 클 경우에는 406단계로 진행하여 음원 k의 음성인식결과에 해당하는 단어 또는 단어열
Figure 112008084548539-pat00067
를 사용자 음성으로서 출력한다. 그리고 음원 k를 제외한 나머지 N-1개의 잡음 음원들에 대한 DOA 정보를 이용하여, 레퍼런스 DOA 갱신부(408)에 N-1개의 잡음 음원들에 대한 레퍼런스 DOA 값을 갱신하고 종료한다.
이때, 음원 k를 제외한 나머지 N-1개의 각 잡음 음원의 DOA(i)값에 대해 레퍼런스 DOA 갱신부(408)에 저장된 레퍼런스 DOA와의 값 비교를 통해 자신과 가장 가까운 레퍼런스 DOA를 우선적으로 찾는다. 이후 레퍼런스 DOA 갱신부(408)의 레퍼 런스 DOA값들에 대한 갱신이 다음과 같이 이루어진다. j번째 잡음 음원에 대한 레퍼런스 DOA를 ref_DOA(r)라고 하면, ref_DOA(r) ← (1-ρ)?ref_DOA(r)+ ρ?DOA(j)와 같이 갱신될 수 있으며, 이 때, ρ는 0보다 크거나 같고, 1보다는 작거나 같은 값을 갖는다.
한편, 402단계에서 신뢰도 c(k)가 임계치보다 작을 경우에는, 410단계로 진행하여 최대 출력확률을 갖는 음원 k와 두 번째로 큰 출력확률을 갖는 음원 s에 대해서, 이들의 방향정보, 즉, DOA(k)와 DOA(s)를 이용하여 음성 또는 잡음 여부를 판단한다. 이를 위해 레퍼런스 DOA 갱신부(408)에 저장된 N-1개의 잡음 음원들에 대한 레퍼런스 DOA들과 DOA(k)를 차례로 비교하여 가장 가까운 잡음 음원과의 DOA 값의 차이를 계산한다. 이 값을 DOA_diff(k)라고 하고, DOA(s)에 대해서도 동일하게 수행하여 DOA_diff(s)라고 하면, DOA_diff(k)와 DOA_diff(s) 중에서 더 작은 값을 갖는 k 또는 s를 잡음 음원으로 판단하고, 그 나머지를 사용자의 음성으로 최종 판단한다. 이에 412단계에서는 이에 따라 사용자 음성에 대한 인식결과로서 k가 잡음원일 경우에는
Figure 112008084548539-pat00068
를 사용자 음원으로 출력하고, s가 잡음원일 경우에는
Figure 112008084548539-pat00069
를 사용자 음원으로 출력하게 된다.
이상 설명한 바와 같이, 본 발명은 음성인식을 위한 독립요소분석(ICA) 기법을 이용하여 각각의 원음을 분리하고, 이를 바탕으로 고성능의 음성인식을 수행하기 위한 것으로서, 마이크배열을 통해 입력받은 신호들을 ICA에 의해 분리해내고, 분리된 음원들 중에서 사용자의 음성에 해당하는 음원을 자동으로 식별해내어 이에 대한 음성인식결과를 출력한다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 바람직한 실시예에 따른 음원분리 및 사용자 음성식별을 통하여 음성인식을 수행하는 음성인식 장치를 도시한 블록도,
도 2는 본 발명의 바람직한 실시예에 따른 주파수 영역에서 ICA 분리행렬을 이용한 음원별 DOA 계산 방식을 도시한 그래프,
도 3은 본 발명의 바람직한 실시예에 따른 사용자의 음성식별을 위한 신뢰도 분포 곡선과 임계치 값을 도시한 그래프,
도 4는 본 발명의 바람직한 실시예에 따른 사용자 음성의 식별, 레퍼런스 DOA 갱신 및 음성인식결과 출력 절차를 도시한 흐름도.
< 도면의 주요 부분에 대한 부호 설명 >
104 : ICA 및 DOA 추정기
108 : 음성인식기
112 : 사용자 음성 신호 식별기

Claims (20)

  1. 적어도 두개의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석(ICA)을 통해 음원 신호들로 분리하고, 상기 분리된 음원 신호들의 방향정보(DOA)를 추출하는 음원분리기와,
    상기 음원분리기를 통해 분리된 음원 신호들을 각각의 정규화된 대수 우도 확률 값으로 산출하는 음성인식기와,
    상기 음원분리기로부터 분리된 각 음원에 대해 추정된 방향정보와 상기 음성인식기를 통해 산출된 각 음원의 정규화된 대수 우도 확률값에 기반한 음성 신호 식별의 신뢰도를 이용하여 사용자의 음성 신호에 해당하는 음원을 식별하는 사용자 음성신호 식별기
    를 포함하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  2. 제 1항에 있어서,
    상기 사용자 음성 신호 식별기는,
    상기 방향 정보와, 각 음원의 정규화된 대수 우도 확률값에 기반한 음성 신호 식별의 신뢰도와, 잡음 음원의 위치를 고정된 위치로 정의하여 상기 잡음 음원의 레퍼런스 방향정보를 추정하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  3. 제 1항에 있어서,
    상기 사용자 음성 신호 식별기를 통해 출력된 잡음원에 대한 방향 정보 값을 전달받아 기존 잡음 음원의 레퍼런스 방향 정보에 업데이트 시키는 레퍼런스 DOA 갱신부
    를 포함하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  4. 제1항에 있어서,
    상기 음원 분리기는,
    음원에서 마이크까지 음향 전달 경로 상의 임펄스 응답 값의 역함수 값에 고속 푸리에 변환(FFT)을 통하여 주파수 영역으로 변환하고,
    마이크 입력 신호들을 주파수 영역으로 변환한 뒤 분리행렬을 독립요소분석(ICA) 알고리즘의 기 설정된 규칙에 대한 반복 수행을 통하여 값을 산출하여,
    상기 산출된 값에 역푸리에 변환에 의해 시간영역의 분리된 음원 신호를 산출하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  5. 삭제
  6. 제1항에 있어서,
    상기 음성인식기는,
    상기 음원 분리기로부터 출력된 각 음원들에 대해 기설정된 구간 단위마다의 특징벡터를 계산하고,
    상기 계산된 특징벡터들과 은닉 마르코프 모델(HMM)로 구성된 탐색 네트워크를 토대로 정규화 대수 우도 값을 산출하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  7. 제6항에 있어서,
    상기 음성인식기는,
    상기 정규화 대수 우도값 중에서 최대 우도 확률값이
    Figure 112008084548539-pat00070
    인 경우, k 번째 분리 음원을 사용자 음성 신호로 결정하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  8. 제6항에 있어서,
    상기 사용자 음성신호 식별기는,
    상기 정규화 대수 우도값
    Figure 112008084548539-pat00071
    에 해당하는 음원을 사용자의 음성이라 판단할 수 있는 신뢰도 정보로서, 상기 정규화 대수 우도값 중에서 최대치와 두 번째 최대치 값들 간의 차의 절대값으로서 신뢰도를 산출하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  9. 제8항에 있어서,
    상기 사용자 음성신호 식별기는,
    상기 산출된 신뢰도와 기 설정된 임계치와 비교하여, 상기 신뢰도가 임계치보다 큰 경우, 해당 신뢰도 음원의 음성인식결과에 해당하는 단어 또는 단어열을 사용자 음원으로 출력하고,
    상기 신뢰도가 임계치보다 작을 경우에는, 최대 정규화 최대 우도 확률을 갖는 음원과 두 번째로 큰 우도 확률을 갖는 음원에 대해서 각각의 방향정보를 이용하여 음성 또는 잡음 여부를 판단하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  10. 제9항에 있어서,
    상기 사용자 음성신호 식별기는,
    상기 신뢰도가 임계치보다 작은 경우, 각 음원을 상기 잡음 음원들에 대한 레퍼런스 방향정보들과 차례로 비교하여 가장 가까운 잡음 음원 방향정보 값과의 차이를 계산한 후, 더 작은 값을 갖는 음원을 잡음 음원으로 판단하고, 나머지를 사용자의 음성으로 판단하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  11. 제9항에 있어서,
    상기 사용자 음성신호 식별기는,
    상기 신뢰도가 임계치보다 높은 경우, 상기 신뢰도에 해당하는 음원을 제외한 나머지 분리된 잡음 음원들에 대한 방향 정보를 레퍼런스 DOA 갱신부에 전달하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  12. 제 11항에 있어서,
    상기 레퍼런스 DOA 갱신부는,
    상기 잡음 음원들에 대한 방향 정보와 기 저장된 레퍼런스 방향 정보와의 값을 비교하여 서로 가장 가까운 값들과의 업데이트를 수행하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 장치.
  13. 적어도 두개의 마이크를 통해 각각 입력된 혼합신호들을 독립요소분석(ICA)을 통해 음원 신호들로 분리 및 상기 분리된 음원 신호들의 방향정보(DOA)를 추출하는 음원 분리 과정과,
    상기 분리된 음원 신호들을 각각의 정규화된 대수 우도 확률 값으로 산출하는 음성인식 과정과,
    상기 분리된 음원 신호들의 방향정보와 각 음원의 정규화된 최대 우도 확률 값에 기반한 음성 신호의 신뢰도를 이용하여 사용자의 음성 신호에 해당하는 음원을 식별하는 과정
    을 포함하는 음원분리 및 음원식별을 이용한 음성인식 방법.
  14. 제 13항에 있어서,
    상기 음원을 식별하는 과정은,
    상기 방향 정보와, 각 음원의 정규화된 최대 우도 확률값에 기반한 음성 신호 식별의 신뢰도와, 잡음 음원의 위치를 고정된 위치로 정의하여 상기 잡음 음원의 레퍼런스 방향정보를 추정하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
  15. 삭제
  16. 제13항에 있어서,
    상기 음성 인식 과정은,
    상기 분리된 음원 신호들에 대해 기설정된 구간 단위마다의 특징벡터를 계산하는 과정과,
    상기 계산된 특징벡터들과 은닉 마르코프 모델(HMM)로 구성된 탐색 네트워크를 토대로 정규화 대수 우도 값을 산출하는 과정
    을 포함하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
  17. 제16항에 있어서,
    상기 음성 인식 과정은,
    상기 정규화 대수 우도값 중에서 최대 우도 확률값이
    Figure 112008084548539-pat00072
    인 경우, k 번째 분리 음원을 사용자 음성 신호로 결정하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
  18. 제13항에 있어서,
    상기 음원을 식별하는 과정은,
    상기 정규화 대수 우도값
    Figure 112008084548539-pat00073
    에 해당하는 음원을 사용자의 음성이라 판단할 수 있는 신뢰도 정보로서, 상기 정규화 대수 우도값 중에서 최대치와 두 번째 최대치 값들 간의 차의 절대값을 통하여 신뢰도를 산출하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
  19. 제18항에 있어서,
    상기 음원을 식별하는 과정은,
    상기 산출된 신뢰도와 기 설정된 임계치와 비교하여, 상기 신뢰도가 임계치보다 큰 경우, 해당 신뢰도 음원의 음성인식결과에 해당하는 단어 또는 단어열을 사용자 음원으로 출력하는 과정과,
    상기 신뢰도가 임계치보다 작을 경우에는, 최대 정규화 최대 우도 확률을 갖는 음원과 두 번째로 큰 우도 확률을 갖는 음원에 대해서 각각의 방향정보를 이용하여 음성 또는 잡음 여부를 판단하는 과정
    을 더 포함하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
  20. 제19항에 있어서,
    상기 음원을 식별하는 과정은,
    상기 신뢰도가 임계치보다 작은 경우, 각 음원을 상기 잡음 음원들에 대한 레퍼런스 방향정보들과 차례로 비교하여 가장 가까운 잡음 음원 방향정보 값과의 차이를 계산한 후, 더 작은 값을 갖는 음원을 잡음 음원으로 판단하고, 나머지를 사용자의 음성으로 판단하는 것을 특징으로 하는 음원분리 및 음원식별을 이용한 음성인식 방법.
KR1020080124371A 2008-09-12 2008-12-09 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법 KR101178801B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080124371A KR101178801B1 (ko) 2008-12-09 2008-12-09 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
US12/498,544 US20100070274A1 (en) 2008-09-12 2009-07-07 Apparatus and method for speech recognition based on sound source separation and sound source identification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080124371A KR101178801B1 (ko) 2008-12-09 2008-12-09 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100065811A KR20100065811A (ko) 2010-06-17
KR101178801B1 true KR101178801B1 (ko) 2012-08-31

Family

ID=42008002

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080124371A KR101178801B1 (ko) 2008-09-12 2008-12-09 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법

Country Status (2)

Country Link
US (1) US20100070274A1 (ko)
KR (1) KR101178801B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11227597B2 (en) 2019-01-21 2022-01-18 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
US11948569B2 (en) 2021-07-05 2024-04-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006027673A1 (de) * 2006-06-14 2007-12-20 Friedrich-Alexander-Universität Erlangen-Nürnberg Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
KR101760345B1 (ko) 2010-12-23 2017-07-21 삼성전자주식회사 동영상 촬영 방법 및 동영상 촬영 장치
GB2491173A (en) * 2011-05-26 2012-11-28 Skype Setting gain applied to an audio signal based on direction of arrival (DOA) information
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
US9961442B2 (en) * 2011-11-21 2018-05-01 Zero Labs, Inc. Engine for human language comprehension of intent and command execution
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US9131295B2 (en) 2012-08-07 2015-09-08 Microsoft Technology Licensing, Llc Multi-microphone audio source separation based on combined statistical angle distributions
US9269146B2 (en) 2012-08-23 2016-02-23 Microsoft Technology Licensing, Llc Target object angle determination using multiple cameras
KR101413229B1 (ko) * 2013-05-13 2014-08-06 한국과학기술원 방향 추정 장치 및 방법
JP6221535B2 (ja) * 2013-09-11 2017-11-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
CN106297820A (zh) 2015-05-14 2017-01-04 杜比实验室特许公司 具有基于迭代加权的源方向确定的音频源分离
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
US10325006B2 (en) 2015-09-29 2019-06-18 International Business Machines Corporation Scalable architecture for analog matrix operations with resistive devices
US10387778B2 (en) 2015-09-29 2019-08-20 International Business Machines Corporation Scalable architecture for implementing maximization algorithms with resistive devices
CN110603587A (zh) * 2017-05-08 2019-12-20 索尼公司 信息处理设备
EP3598777B1 (en) * 2018-07-18 2023-10-11 Oticon A/s A hearing device comprising a speech presence probability estimator
US10811032B2 (en) * 2018-12-19 2020-10-20 Cirrus Logic, Inc. Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers
KR20190109341A (ko) * 2019-09-06 2019-09-25 엘지전자 주식회사 노이즈 관리가 가능한 전자기기 및 이의 제어 방법
KR102313387B1 (ko) * 2019-11-07 2021-10-14 연세대학교 산학협력단 기계학습 기반의 화자 분리 방법 및 그를 위한 장치
KR20210063698A (ko) * 2019-11-25 2021-06-02 삼성전자주식회사 전자장치와 그의 제어방법, 및 기록매체
WO2022065891A1 (ko) * 2020-09-25 2022-03-31 주식회사 아모센스 음성 처리 장치 및 이의 작동 방법
CN113345465B (zh) * 2021-06-29 2022-11-04 中国农业银行股份有限公司 语音分离方法、装置、设备及计算机可读存储介质
CN117153186A (zh) * 2022-08-05 2023-12-01 深圳Tcl新技术有限公司 声音信号处理方法、装置、电子设备和存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69817181T2 (de) * 1997-06-18 2004-06-17 Clarity, L.L.C., Ann Arbor Verfahren und gerät zur blindseparierung von signalen
US6898612B1 (en) * 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US6526148B1 (en) * 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6430528B1 (en) * 1999-08-20 2002-08-06 Siemens Corporate Research, Inc. Method and apparatus for demixing of degenerate mixtures
US6622117B2 (en) * 2001-05-14 2003-09-16 International Business Machines Corporation EM algorithm for convolutive independent component analysis (CICA)
JP3950930B2 (ja) * 2002-05-10 2007-08-01 財団法人北九州産業学術推進機構 音源の位置情報を利用した分割スペクトルに基づく目的音声の復元方法
AU2003296976A1 (en) * 2002-12-11 2004-06-30 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
US20040117186A1 (en) * 2002-12-13 2004-06-17 Bhiksha Ramakrishnan Multi-channel transcription-based speaker separation
KR100486736B1 (ko) * 2003-03-31 2005-05-03 삼성전자주식회사 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
US7533017B2 (en) * 2004-08-31 2009-05-12 Kitakyushu Foundation For The Advancement Of Industry, Science And Technology Method for recovering target speech based on speech segment detection under a stationary noise
EP1818909B1 (en) * 2004-12-03 2011-11-02 Honda Motor Co., Ltd. Voice recognition system
US7925504B2 (en) * 2005-01-20 2011-04-12 Nec Corporation System, method, device, and program for removing one or more signals incoming from one or more directions
KR100956877B1 (ko) * 2005-04-01 2010-05-11 콸콤 인코포레이티드 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
JP2006337851A (ja) * 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
US8898056B2 (en) * 2006-03-01 2014-11-25 Qualcomm Incorporated System and method for generating a separated signal by reordering frequency components
US20080228470A1 (en) * 2007-02-21 2008-09-18 Atsuo Hiroe Signal separating device, signal separating method, and computer program
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11227597B2 (en) 2019-01-21 2022-01-18 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
US11948569B2 (en) 2021-07-05 2024-04-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
KR20100065811A (ko) 2010-06-17
US20100070274A1 (en) 2010-03-18

Similar Documents

Publication Publication Date Title
KR101178801B1 (ko) 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
US10373609B2 (en) Voice recognition method and apparatus
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US9668066B1 (en) Blind source separation systems
US9881631B2 (en) Method for enhancing audio signal using phase information
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN109584896A (zh) 一种语音芯片及电子设备
US10460729B1 (en) Binary target acoustic trigger detecton
KR101414233B1 (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
EP1794746A2 (en) Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
CN111344778A (zh) 用于语音增强的方法和系统
US20170092298A1 (en) Speech-processing apparatus and speech-processing method
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN109243429A (zh) 一种语音建模方法及装置
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
CN110875053A (zh) 语音处理的方法、装置、系统、设备和介质
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
Imoto et al. Spatial-feature-based acoustic scene analysis using distributed microphone array
CN111429937B (zh) 语音分离方法、模型训练方法及电子设备
KR101184394B1 (ko) 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150825

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160822

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee