KR101160071B1 - 다중인식 음성 인터페이스장치 및 그 방법 - Google Patents

다중인식 음성 인터페이스장치 및 그 방법 Download PDF

Info

Publication number
KR101160071B1
KR101160071B1 KR1020090117866A KR20090117866A KR101160071B1 KR 101160071 B1 KR101160071 B1 KR 101160071B1 KR 1020090117866 A KR1020090117866 A KR 1020090117866A KR 20090117866 A KR20090117866 A KR 20090117866A KR 101160071 B1 KR101160071 B1 KR 101160071B1
Authority
KR
South Korea
Prior art keywords
recognition
sound source
module
signal
voice
Prior art date
Application number
KR1020090117866A
Other languages
English (en)
Other versions
KR20110061267A (ko
Inventor
이상운
김경선
Original Assignee
(주)에이치씨아이랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에이치씨아이랩 filed Critical (주)에이치씨아이랩
Priority to KR1020090117866A priority Critical patent/KR101160071B1/ko
Publication of KR20110061267A publication Critical patent/KR20110061267A/ko
Application granted granted Critical
Publication of KR101160071B1 publication Critical patent/KR101160071B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

본 발명은 다중인식 음성 인터페이스장치 및 그 방법에 관한 것으로, ICA를 기반으로 하는 BSS 기술이 적용되게 구성된 환경하에서 음원분리를 위한 2개의 채널과, 음원분리를 통해 손실된 데이터를 보상하기 위해 음원을 우회시키는 2개의 채널을 각각 연동시켜 구축함으로써 다중 인식처리(음성인식/화자인식/음원인식)가 가능하도록 음성데이터를 인터페이스시키며, 음성데이터 수집시 호출어와 명령어를 동시에 입력하도록 함으로써 다중인식을 수행하기 위한 연산량을 최소화시키고 인식률을 향상시킬 수 있게 한 다중인식 음성 인터페이스장치 및 그 방법을 제공함에 그 목적이 있다.
본 발명을 적용하면, 동기화된 4채널의 입력신호에서 음원분리를 위한 2개 채널신호와, 음원 우회를 위한 2개 채널로 분리하여 블라인드 신호분리기법의 맹점인 데이터 손실을 회피할 수 있다는 장점이 있으며, 다중 인식 처리가 가능하므로 연산량을 최소화시키면서 인식률을 향상시킬 수 있다는 장점이 있다.
Figure R1020090117866
다중인식, 암묵신호분리(BSS), 독립성분분석(ICA), 음성인식, 화자인식, 음원인식, 다채널 녹음장치.

Description

다중인식 음성 인터페이스장치 및 그 방법{VOICE DATA INTERFACE APPARATUS FOR MULTI-COGNITION AND METHOD OF THE SAME}
본 발명은 다중인식 음성 인터페이스장치 및 그 방법에 관한 것으로, 보다 상세하게 ICA를 기반으로 하는 BSS 기술이 적용되게 구성된 환경하에서 음원분리를 위한 2개의 채널과, 음원분리를 통해 손실된 데이터를 보상하기 위해 음원을 우회시키는 2개의 채널을 각각 연동시켜 구축함으로써 다중 인식처리(음성인식/화자인식/음원인식)가 가능하도록 음성데이터를 인터페이스시키며, 음성데이터 수집시 호출어와 명령어를 동시에 입력하도록 함으로써 다중인식을 수행하기 위한 연산량을 최소화시키고 인식률을 향상시킬 수 있게 한 다중인식 음성 인터페이스장치 및 그 방법에 관한 것이다.
주지된 바와 같이, 음성신호처리에 있어 음성신호와 잡음을 분리하는 것은 다양한 응용분야에서 중요한 기초 기술이다.
따라서, 다수 개의 음원 정보가 혼합된 입력신호로부터 잡음을 분리하여 제거하기 위하여 다양한 방법들이 제안되고 있으며, 그 중에서 특히 입력신호의 통계적인 특성 등의 사전 정보를 알지 못하는 상황에서 잡음과 신호를 분리하는 블라인 드 음원분리(BSS, blind source separation)에 대하여 많은 연구를 하고 있다. 즉, 암묵 신호분리는 관측된 혼합 신호만을 이용하여 원 소스 신호(original source signal: 예컨대 특정 음성 신호)를 추정하는 방법이다.
음성간의 통계적 특성이 독립적이라는 가정하에 여러 음원을 분리하는 방법은 잡음제거의 일반적 처리로 해석할 수 있다. 잡음의 분리는 여러 음원의 분리(source separation)의 특별한 상황이다.
상기 BSS는 음성신호처리는 물론이고 배열안테나신호처리, 원격회의에서 화자의 분리, 통신에서 다중경로분리 등의 다양한 분야에 응용될 수 있다.
Jutten과 Herault가 제안한 BSS알고리즘은 간단하게 선형혼합(linear mixture)된 신호에 대하여 신호를 분리할 수 있다고 밝혀진 이후 다양하게 연구되었다. Jutten과 Herault는 BSS를 시간영역에서 잡음과 신호를 분리하는 시간영역 BSS(TDBSS, time-domain BSS)알고리즘을 제안하였다.
그러나, TDBSS는 입력신호로부터 잡음이 제거된 신호를 얻기 위해서는 수천 탭을 처리하기 위한 메모리가 필요하고 따라서 계산량이 많아진다는 문제점이 있다.
그리고, 신호와 잡음 분리하는 과정에 혼합되는 소스 신호(source signals)의 특성과 혼합방법에 따라서 BSS의 성능이 다르게 나타난다.
지연이 있는 신호가 혼합될 때 지연을 추정하여야만 신호의 분리가 용이하다. Bell과 Sejnowski 는 지연혼합된 신호를 분리하기 위하여 지연을 ICA(independent component analysis)를 이용하여 추정하는 방법을 제안하였다.
독립 성분 분석법(ICA: Independent Component Analysis)을 이용한 암묵신호 분리법은 입력 신호들이 선형 혼합(instantaneous mixtures)인 경우에 특히 효과적이다. 그러나, 소스 신호가 음성인 경우에는 음성신호의 주기적인 특성 때문에 지연을 추정하는데 있어 초기값에 따라서 최적해로 수렴하지 못하는 문제가 있으며, 더욱이 잔향(reverberant environment)이 존재하는 경우, 독립 성분 분석법을 사용하면 암묵신호분리 성능이 크게 저하된다는 문제점이 있다.
특히, 암묵신호분리기술(BSS, blind source separation)에 의해 처리된 데이터는 잡음 신호는 제거되지만, 음원의 인식에 필요한 데이터까지도 손실되게 되므로 일반적인 2채널 음성 입출력장치만으로는 다중 음성인식기술을 서비스할 수 없다는 문제점이 있었다. 그러나, 로봇이나 일반 PC의 환경에서는 보통 2개의 입력 음성만을 취득할 수 있으므로 이러한 환경하에서는 다중 음성인식 기술의 서비스는 불가능하다는 문제점이 있었다.
더불어, 로봇 등에 명령을 내리기 위한 음성데이터는 단순히 명령어로만 구성되어져 있으며, 그 명령어가 비교적 짧은 음성데이터이므로 음원인식 과정에서 오인식의 가능성이 매우 높다는 문제점이 있었다.
본 발명은 상기한 종래 기술의 사정을 감안하여 이루어진 것으로, ICA를 기반으로 하는 BSS 기술이 적용되게 구성된 환경하에서 음원분리를 위한 2개의 채널과, 음원분리를 통해 손실된 데이터를 보상하기 위해 음원을 우회시키는 2개의 채 널을 각각 연동시켜 구축함으로써 다중 인식처리(음성인식/화자인식/음원인식)가 가능하도록 음성데이터를 인터페이스시키며, 음성데이터 수집시 호출어와 명령어를 동시에 입력하도록 함으로써 다중인식을 수행하기 위한 연산량을 최소화시키고 인식률을 향상시킬 수 있게 한 다중인식 음성 인터페이스장치 및 그 방법을 제공함에 그 목적이 있다.
상기한 목적을 달성하기 위해, 본 발명의 바람직한 실시예에 따르면 암묵음원분리(BSS, blind source separation)기술하에서 다중인식처리를 위한 인터페이스 장치에 있어서, 4채널 입력을 처리하는 마이크로폰과; 음원분리를 수행하며, 음원분리를 통한 손실을 보상처리하는 다채널 입력모듈과; 상기 다채널 입력모듈의 출력신호를 통해 음성 및 화자, 음원 인식을 처리하는 다중 인식모듈이 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
바람직하게, 상기 마이크로폰은 그 출력신호를 동기화시키기 위한 채널 동기화 모듈이 더 포함되어 동기화 처리되는 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
바람직하게, 상기 다중인식모듈의 결과값을 전송하기 위한 다중인식결과 전송모듈과; 상기 다중인식결과 전송모듈로부터의 인식 결과값을 통해 기설정 시나리오를 수행하는 응용기반 시나리오 수행모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
바람직하게, 상기 다채널 입력모듈은 상기 마이크로폰으로부터 복수 채널의 신호를 수신받아 ICA(independent component analysis)기반으로 암묵음원분리(BSS, blind source separation)를 수행하는 음원 분리모듈과; 상기 마이크로폰으로부터 나머지 복수 채널을 별도로 수신받아 음원분리에서 손실된 원음을 보상하기 위해 음원을 우회시키는 음원 우회모듈로 구성된 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
바람직하게, 상기 음원 분리모듈로부터 분리된 음원신호를 인가받아 스피커를 통해 출력시키기 위해 스피커와 연결된 분리음원신호 출력구동모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
바람직하게, 상기 다중인식모듈을 통해 처리된 인식결과신호나 출력이 요구된 정보를 TTS(Text To Speech) 처리하기 위한 음성합성모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
바람직하게, 상기 다중인식모듈은 상기 음원분리모듈에서 분리된 음원으로 음성인식을 수행하는 다채널 음성인식모듈과; 상기 음원분리모듈에서 분리된 음원을 통해 화자를 인식하는 다채널 화자인식모듈과; 상기 음원우회모듈을 통해 유입된 원신호를 이용하여 음원을 인식하는 음원인식모듈로 구성된 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
바람직하게, 상기 음원분리모듈을 통해 음원 분리된 2개의 채널 데이터와, 상기 음원우회모듈을 통해 우회된 2개 채널의 원신호를 결합하여 4개의 음성데이터를 외부 응용장치로 전송하기 위한 다채널 데이터 USB 출력모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
바람직하게, 상기 음원분리모듈에서 분리된 음원에 따라 음성인식을 수행하여 단어격자 정보를 이용하여 호출어 및 명령어의 존재여부에 따라 인식스코어를 연산처리하며, 인식스코어와 문턱값을 비교함에 의해 음원인식을 수행하게 하는 음원인식을 위한 전처리 처리를 수행하는 음원인식 전처리모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치가 제공된다.
한편, 본 발명은 음성데이터를 인터페이스 하기 위한 방법에 있어서, 4채널 입력을 처리하는 제 1과정과; 복수개의 채널로 유입되는 음원데이터의 음원분리를 수행하는 제 2과정과; 음원분리를 통한 손실을 보상하기 위해 복수개의 채널로 유입되는 원신호를 우회 처리하는 제 3과정과; 음원분리된 신호와 원신호를 통해 음성 및 화자, 음원 인식을 처리하는 제 4과정을 포함하여 이루어진 것을 특징으로 하는 다중인식 음성 인터페이스 방법이 제공된다.
바람직하게, 상기 제 1과정에는 4채널 입력을 동기화 처리하는 과정이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스 방법이 제공된다.
바람직하게, 상기 제 2과정을 통해 분리된 음원신호를 스피커를 통해 출력하는 과정이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스 방법이 제공된다.
바람직하게, 상기 제 4과정은 음원 분리된 신호를 통해 음성 인식을 수행하는 과정과; 음원 분리된 신호를 통해 화자 인식을 수행하는 과정과; 우회된 신호를 통해 음원인식을 수행하는 과정으로 이루어진 것을 특징으로 하는 다중인식 음성 인터페이스 방법이 제공된다.
바람직하게, 상기 화자 인식 과정에서는 분리된 음원신호를 연결어 인식과정상의 단어격자(Word-Lattice)를 통해 각 단어를 분할하는 과정과; 호출어 존재 유무를 판단하는 과정을 통하며; 호출어의 미존재시 재발성을 유도하는 과정이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스 방법이 제공된다.
바람직하게, 상기 음성인식 과정에서는 호출어 존재시, 명령어 존재 유무를 판단하는 과정과; 화자 및 명령어에 대한 인식결과를 스코어로 연산하는 과정과; 인식 스코어가 문턱값보다 큰 지를 판단하는 과정이 선행되고, 음원인식 결과에 따라 응용 시나리오를 수행하는 과정이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스방법이 제공된다.
본 발명에 따른 다중인식 음성 인터페이스장치 및 그 방법은 동기화된 4채널의 입력신호에서 음원분리를 위한 2개 채널신호와, 음원 우회를 위한 2개 채널로 분리하여 암묵신호분리기법의 맹점인 데이터 손실을 회피할 수 있다는 장점이 있으며, 잡음환경하에서 다중인식을 수행하는 데 필요한 모든 데이터를 충족시킬 수 있고, 장치를 통해 얻은 데이터를 바탕으로 "호출어+명령어"방식의 입력데이터를 처리함으로써 다중 인식 처리가 가능하므로 연산량을 최소화시키면서 인식률을 향상시킬 수 있다는 장점이 있다.
이하, 본 발명에 대해 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치의 구성을 도시한 블록구성도이다.
이를 참조하면, 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치(2)는 ICA를 기반으로 하는 BSS 기술이 적용되게 구성된 환경하에서 음원분리를 위한 2개의 채널과, 음원분리를 통해 손실된 데이터를 보상하기 위해 음원을 우회시키는 2개의 채널을 각각 연동시켜 구축함으로써 다중 인식처리(음성인식/화자인식/음원인식)가 가능하도록 음성데이터를 인터페이스시키며, 음성데이터 수집시 호출어와 명령어를 동시에 입력하도록 함으로써 다중인식을 수행하기 위한 연산량을 최소화시키고 인식률을 향상시킬 수 있게 한 장치이다.
보다 상세하게, 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치(2)는 4채널 입력을 처리하는 마이크로폰(4a,4b,4c,4d)과; 음원분리를 수행하며, 음원분리를 통한 손실을 보상처리하는 다채널 입력모듈(8)과; 상기 다채널 입력모듈(8)의 출력신호를 통해 음성 및 화자, 음원 인식을 처리하는 다중 인식모듈(20)이 포함되어 구성된다.
바람직하게, 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치(2)에는 4채널 입력을 처리하는 마이크로폰(4a,4b,4c,4d)이 구비되는 바, 통상의 암묵음원분리(BSS, blind source separation)기술이 잡음 제거성능은 우수하지만 음원인식을 위한 데이터까지도 손실되게 되므로 이를 감안하여, 본 발명에 구비된 마이크로폰(4a,4b,4c,4d)은 4개 채널의 음성데이터를 입력받을 수 있도록 구성되어져 있다.
또한, 상기 마이크로폰(4a,4b,4c,4d)은 그 출력신호를 동기화시키기 위한 채 널 동기화 모듈(6)이 더 포함되어 동기화 처리를 수행하는 바, 음원인식은 동기화된 데이터에 대해 지연시간을 측정하여 기설치된 상기 마이크로폰(4a,4b,4c,4d)의 기하학적 구조를 반영하여 최종 발성방향을 결정하므로, 비동기화된 음성데이터는 지연/선행하는 시간측정에 영향을 주게 되어 음원인식의 성향을 저하시키게 된다. 따라서, 본 발명은 상기 마이크로폰(4a,4b,4c,4d)을 통해 입력된 신호를 채널 동기화 모듈(6)을 이용하여 동기화처리한다.
한편, 본 발명에는 상기 다중인식모듈(26)의 결과값을 전송하기 위한 다중인식결과 전송모듈(34)과; 상기 다중인식결과 전송모듈(34)로부터의 인식 결과값을 통해 기설정 시나리오를 수행하는 응용기반 시나리오 수행모듈(40)이 더 포함된 바, 상기 응용기반 시나리오 수행모듈(40)은 인식 결과를 소스데이터로 하여 미리 저장된 시나리오를 수행하기 위한 모듈로서, 로봇 등의 장치에 적용시 실제로 인식된 결과값에 따른 출력행위를 수행하기 위한 모듈이다.
또한, 상기 다중인식결과 전송모듈(34)은 상기 다중인식모듈(26)을 통해 음성, 화자, 음원에 대한 인식 결과값을 상기 응용기반 시나리오 수행모듈(40)에서 수행할 수 있도록 데이터 인터페이스를 수행하는 수단이다.
한편, 본 발명의 장치에 구성된 상기 다채널 입력모듈은 두 가지 모듈로 대별되는 바, 상기 마이크로폰(4a,4b,4c,4d)으로부터 복수 채널의 신호를 수신받아 ICA(independent component analysis)기반으로 암묵음원분리(BSS, blind source separation)를 수행하는 음원 분리모듈(10)과; 상기 마이크로폰(4a,4b,4c,4d)으로부터 나머지 복수 채널을 별도로 수신받아 음원분리에서 손실된 원음을 보상하기 위해 음원을 우회시키는 음원 우회모듈(12)이 그것이다.
즉, 상기 마이크로폰(4a,4b,4c,4d)을 통해 입력된 신호를 2개 채널씩 분리하여, 어느 한 2개의 채널데이터는 음원 분리를 수행하고, 나머지 2개 채널 데이터는 원신호를 우회시켜 차후 음원인식을 위해 사용하도록 채널 데이터의 경로를 구성한다.
이때, 상기 음원 우회모듈(12)을 통해 우회된 신호는 외부 음성입력장치와 연계되어 다른 응용프로그램에서 사용할 수 있도록 데이터 인터페이스도 가능하다.
또한, 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치(2)는 상기 음원 분리모듈(10)로부터 분리된 음원신호를 인가받아 스피커(30a,30b)를 통해 출력시키기 위해 스피커(30a,30b)와 연결된 분리음원신호 출력구동모듈(28)이 더 포함되어 구성되며, 상기 다중인식모듈(20)을 통해 처리된 인식결과신호나 출력이 요구된 정보를 TTS(Text To Speech) 처리하기 위한 음성합성모듈(36)이 더 포함되어 구성되는 바, 음성합성된 음성데이터 또는 음원분리된 신호가 상기 출력구동모듈(28)을 통해 각각 출력된다. 이는 외부에 접속된 상기 스피커(30a,30b)를 통해서 직접 출력될 수도 있으며, 미도시된 외부의 녹음단자(미도시)를 통해서 USB 단자와 연결되지 않은 상태에서 바로 녹음장치(미도시)를 통해 녹음할 수 있도록 사용하는 것도 충분히 가능하다.
음원 분리된 신호와 원신호를 합성할 경우, 상기 스피커(30a,30b)를 통해 출력되는 음성데이터는 잡음이 거의 제거된 화자의 원음에 가까운 음성데이터가 출력되게 된다.
또한, 본 발명에는 상기 음원분리모듈(10)을 통해 음원 분리된 2개의 채널 데이터와, 상기 음원우회모듈(12)을 통해 우회된 2개 채널의 원신호를 결합하여 4개의 음성데이터를 외부 응용장치로 전송하기 위한 다채널 데이터 USB 출력모듈(32)이 더 포함되는 바, 그 다채널 데이터 USB 출력모듈(32)은 음원 분리된 신호와 원신호를 외부의 응용 장치로 스트리밍시켜 외부 응용장치에서 활용할 수 있게 인터페이스시킨다. 이 데이터는 동기화된 데이터 구조이므로 음원분리모듈(10)에 구현된 알고리즘의 성능을 점검하는 데 유용하게 사용할 수 있다.
한편, 상기 다중인식모듈(20)은 상기 음원분리모듈(10)에서 분리된 음원으로 음성인식을 수행하는 다채널 음성인식모듈(22)과; 상기 음원분리모듈(10)에서 분리된 음원을 통해 화자를 인식하는 다채널 화자인식모듈(24)과; 상기 음원우회모듈(10)을 통해 유입된 원신호를 이용하여 음원을 인식하는 음원인식모듈(26)로 구성된 바, 상기 음원인식모듈(26)은 음원이 분리되지 않은 원신호이므로, 신호의 손실 및 신호 왜곡이 발생되지 않아서 정확한 음원 인식이 가능하며, 상기 다채널 음성인식모듈(22)과, 다채널 화자인식모듈(24), 음원인식모듈(26) 자체 구성은 공지된 기술이므로 상세한 설명은 생략하기로 한다.
또한, 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치(2)에는 상기 음원분리모듈(10)에서 분리된 음원을 이용하여 연결어 인식과정을 수행함으로써 발성 내용을 단어 경계정보로 분할하고, 호출어 및 명령어의 존재여부에 따라 인식스코어를 연산처리하며, 인식스코어와 문턱값을 비교함에 의해 음원인식을 수행하게 하는 음원인식을 위한 전처리 처리를 수행하는 음원인식 전처리모듈(미도시)이 더 포함되어져 있다.
미설명부호 38은 상기 다채널 데이터 USB 출력모듈(32)로부터 스트리밍된 신호를 통해 응용장치에 구비된 다중인식 처리를 수행하는 응용기반 다중인식처리모듈이므로, 본 발명의 인터페이스 장치의 외부에 구성된 모듈이다.
상기한 구성의 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치의 기능과 작용을 첨부된 도면을 참조하여 상세하게 설명한다.
도 2는 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치에 의해 수행되는 인식상태를 간략하게 도시한 도면이며, 도 3은 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치의 실행 과정을 도시한 플로우챠트이다.
먼저, 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치(2)는 상기 마이크로폰(4a,4b,4c,4d)을 통해 4채널의 입력신호를 수신받는 바, 그 마이크로폰(4a,4b,4c,4d)의 입력신호는 상기 채널 동기화 모듈(6)을 통해 동기화 처리된다.
동기화 처리된 입력신호중 어느 한 2개 채널의 입력신호는 음원 분리모듈(10)로 유입되어 음원데이터의 음원분리를 수행하며, 다른 2개 채널의 입력신호는 음원우회모듈(12)로 유입되어 음원분리를 통한 손실을 보상하기 위해 원신호를 우회 처리한다.
이때, 상기 음원분리모듈(10)을 통해 분리된 음원신호는 실시간으로 스피커(30a,30b)를 통해 출력될 수 있다.
또한, 음원분리된 신호와 원신호를 유입받아 상기 다중 인식모듈(20)에서 음성 및 화자, 음원 인식을 처리하게 된다.
이때, 음성 및 화자, 음원 인식처리는 음원 분리된 신호를 통해 음성 인식을 수행하는 과정과; 음원 분리된 신호를 통해 화자 인식을 수행하는 과정과; 우회된 신호를 통해 음원인식을 수행하는 과정으로 세분화되는 바, 상기 화자 인식 과정에서는 분리된 음원신호를 연결어 인식과정을 통해 발성 내용을 단어 경계정보로서 각 단어를 분할하고, 호출어 존재 유무를 판단하여, 호출어의 미존재시 재발성을 유도한다. 또한, 인식과정에서 호출어 인식과정에 사용된 특징벡터를 화자인식용으로 재사용함으로써 연산량을 감소시킬 수 있다(도 2에서 화살표로 표시함).
즉, 본 발명의 실시예에 따른 다중인식 음성 인터페이스장치(2)는 오인식 가능성을 낮추고 인식율을 향상시키기 위해 초기에 입력받은 혼합음으로서, 호출어와 명령어를 연속적으로 입력받도록 하는 바, 음원분리 처리후, 호출어의 유무를 판단하여 호출어 미존재시에는 재발성을 유도하도록 정보를 출력한다.
만약, 도 2에 도시된 바와 같이 호출어가 존재한 경우라면 화자의 인식이 가능하므로, 화자 인식을 수행하고, 명령어의 존재 유무를 판단한다.
마찬가지로, 명령어의 미존재시에는 재발성을 유도하도록 정보를 출력한다.
명령어가 존재하는 경우라면, 정확한 음성인식 및 화자의 인식이 가능하므로, 그 인식 결과를 스코어로 연산하며, 연산된 인식 스코어가 문턱값보다 큰 지를 판단한다.
만약, 연산된 인식 스코어가 문턱값보다 작거나 같은 경우라면 마찬가지로, 재발성을 유도하도록 정보를 출력하고, 연산된 인식 스코어가 문턱값보다 큰 경우라면, 비로소 음원 인식을 수행하고, 이때 음원인식에 사용되는 데이터는 호출어와 명령어 전체의 것을 사용하게 됨으로써 명령어의 것보다 많은 프레임(Frame: 전체 음성에서 조각화하여)을 형성하게 되어 각 프레임별 음원인식결과로써 최종 음원인식 결과를 도출할 수 있어 그 결과치에 대한 신뢰도를 향상시킬 수 있다.
따라서, 음원인식이 수행되면 그 인식결과에 따른 응용 시나리오를 수행하도록 한다.
한편, 본 발명의 실시예에 따른 다중인식 음성 인터페이스장치 및 그 방법은 단지 상기한 실시예에 한정되는 것이 아니라 그 기술적 요지를 이탈하지 않는 범위내에서 다양한 변경이 가능하다.
도 1은 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치의 구성을 도시한 블록구성도,
도 2는 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치에 의해 수행되는 인식상태를 간략하게 도시한 도면,
도 3은 본 발명의 일실시예에 따른 다중인식 음성 인터페이스장치의 실행 과정을 도시한 플로우챠트이다.
*도면의 주요부분에 대한 부호의 설명*
4a,4b,4c,4d:마이크로폰, 6:채널동기화모듈,
8:다채널입력모듈, 10:음원분리모듈,
12:음원우회모듈, 20:다중인식모듈,
28:분리음원신호 출력구동모듈, 30a,30b:스피커,
32:다채널데이터 USB 출력모듈, 36:음성합성모듈,
40:응용기반 시나리오 수행모듈.

Claims (15)

  1. 암묵음원분리(BSS, blind source separation)기술하에서 다중인식처리를 위한 인터페이스 장치에 있어서,
    4채널 입력을 처리하는 마이크로폰과;
    음원분리를 수행하며, 음원분리를 통한 손실을 보상처리하는 다채널 입력모듈과;
    상기 다채널 입력모듈의 출력신호를 통해 음성 및 화자, 음원 인식을 처리하는 다중 인식모듈이 포함되고,
    상기 다채널 입력모듈은,
    상기 마이크로폰으로부터 복수 채널의 신호를 수신받아 ICA(independent component analysis)기반으로 암묵음원분리(BSS, blind source separation)를 수행하는 음원 분리모듈과;
    상기 마이크로폰으로부터 나머지 복수 채널을 별도로 수신받아 음원분리에서 손실된 원음을 보상하기 위해 음원을 우회시키는 음원 우회모듈로 구성된 것을 특징으로 하는 다중인식 음성 인터페이스장치.
  2. 제 1항에 있어서, 상기 마이크로폰은 그 출력신호를 동기화시키기 위한 채널 동기화 모듈이 더 포함되어 동기화 처리되는 것을 특징으로 하는 다중인식 음성 인터페이스장치.
  3. 제 1항에 있어서, 상기 다중인식모듈의 결과값을 전송하기 위한 다중인식결과 전송모듈과;
    상기 다중인식결과 전송모듈로부터의 인식 결과값을 통해 기설정 시나리오를 수행하는 응용기반 시나리오 수행모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치.
  4. 삭제
  5. 제 1항에 있어서, 상기 음원 분리모듈로부터 분리된 음원신호를 인가받아 스피커를 통해 출력시키기 위해 스피커와 연결된 분리음원신호 출력구동모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치.
  6. 제 1항 또는 제 5항에 있어서, 상기 다중인식모듈을 통해 처리된 인식결과신호나 출력이 요구된 정보를 TTS(Text To Speech) 처리하기 위한 음성합성모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치.
  7. 제 1항에 있어서, 상기 다중인식모듈은,
    상기 음원 분리모듈에서 분리된 음원으로 음성인식을 수행하는 다채널 음성인식모듈과;
    상기 음원 분리모듈에서 분리된 음원을 통해 화자를 인식하는 다채널 화자인식모듈과;
    상기 음원 우회모듈을 통해 유입된 원신호를 이용하여 음원을 인식하는 음원인식모듈로 구성된 것을 특징으로 하는 다중인식 음성 인터페이스장치.
  8. 제 1항에 있어서, 상기 음원분리모듈을 통해 음원 분리된 2개의 채널 데이터와, 상기 음원우회모듈을 통해 우회된 2개 채널의 원신호를 결합하여 4개의 음성데이터를 외부 응용장치로 전송하기 위한 다채널 데이터 USB 출력모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치.
  9. 제 1항에 있어서, 상기 음원분리모듈에서 분리된 음원에 따라 음성인식을 수행하여 단어격자 정보를 이용하여 호출어 및 명령어의 존재여부에 따라 인식스코어를 연산처리하며, 인식스코어와 문턱값을 비교함에 의해 음원인식을 수행하게 하는 음원인식을 위한 전처리 처리를 수행하는 음원인식 전처리모듈이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스장치.
  10. 음성데이터를 인터페이스 하기 위한 방법에 있어서,
    4채널 입력을 처리하는 제 1과정과;
    복수개의 채널로 유입되는 음원데이터의 음원분리를 수행하는 제 2과정과;
    음원분리를 통한 손실을 보상하기 위해 복수개의 채널로 유입되는 원신호를 우회 처리하는 제 3과정과;
    음원분리된 신호와 원신호를 통해 음성 및 화자, 음원 인식을 처리하는 제 4과정을 포함하여 이루어지고,
    상기 제 4과정은 음원 분리된 신호를 통해 음성 인식을 수행하는 과정과;
    음원 분리된 신호를 통해 화자 인식을 수행하는 과정과;
    우회된 신호를 통해 음원인식을 수행하는 과정으로 이루어진 것을 특징으로 하는 다중인식 음성 인터페이스 방법.
  11. 제 10항에 있어서, 상기 제 1과정에는 4채널 입력을 동기화 처리하는 과정이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스 방법.
  12. 제 10항에 있어서, 상기 제 2과정을 통해 분리된 음원신호를 스피커를 통해 출력하는 과정이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스 방법.
  13. 삭제
  14. 제 10항에 있어서, 상기 화자 인식 과정에서는 분리된 음원신호를 연결어 인식과정상의 단어격자(Word-Lattice)를 통해 각 단어를 분할하는 과정과;
    호출어 존재 유무를 판단하는 과정을 통하며;
    호출어의 미존재시 재발성을 유도하는 과정이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스 방법.
  15. 제 10항 또는 제 14항에 있어서, 상기 음원인식 과정에서는 호출어 존재시, 명령어 존재 유무를 판단하는 과정과;
    화자 및 명령어에 대한 인식결과를 스코어로 연산하는 과정과;
    인식 스코어가 문턱값보다 큰 지를 판단하는 과정이 선행되고, 음원인식 결과에 따라 응용 시나리오를 수행하는 과정이 더 포함된 것을 특징으로 하는 다중인식 음성 인터페이스 방법.
KR1020090117866A 2009-12-01 2009-12-01 다중인식 음성 인터페이스장치 및 그 방법 KR101160071B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090117866A KR101160071B1 (ko) 2009-12-01 2009-12-01 다중인식 음성 인터페이스장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090117866A KR101160071B1 (ko) 2009-12-01 2009-12-01 다중인식 음성 인터페이스장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20110061267A KR20110061267A (ko) 2011-06-09
KR101160071B1 true KR101160071B1 (ko) 2012-06-26

Family

ID=44395773

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090117866A KR101160071B1 (ko) 2009-12-01 2009-12-01 다중인식 음성 인터페이스장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101160071B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11495222B2 (en) 2017-12-19 2022-11-08 Samsung Electronics Co., Ltd. Method for processing voice signals of multiple speakers, and electronic device according thereto

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US10199035B2 (en) 2013-11-22 2019-02-05 Nuance Communications, Inc. Multi-channel speech recognition
KR102112565B1 (ko) * 2017-05-19 2020-05-19 엘지전자 주식회사 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법
KR102150902B1 (ko) * 2018-10-22 2020-09-02 주식회사 엘지유플러스 음성 응답을 위한 장치 및 방법
KR20200059054A (ko) 2018-11-20 2020-05-28 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090061566A (ko) * 2007-12-11 2009-06-16 한국전자통신연구원 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090061566A (ko) * 2007-12-11 2009-06-16 한국전자통신연구원 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
장길진, 오영환, ‘독립성분 분석을 이용한 강인한 화자식별’, 정보과학회논문지, 소프트웨어 및 응용, 제27권 제5호, 2000년 5월.*
장길진, 오영환, '독립성분 분석을 이용한 강인한 화자식별', 정보과학회논문지, 소프트웨어 및 응용, 제27권 제5호, 2000년 5월. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11495222B2 (en) 2017-12-19 2022-11-08 Samsung Electronics Co., Ltd. Method for processing voice signals of multiple speakers, and electronic device according thereto

Also Published As

Publication number Publication date
KR20110061267A (ko) 2011-06-09

Similar Documents

Publication Publication Date Title
KR101160071B1 (ko) 다중인식 음성 인터페이스장치 및 그 방법
US9672821B2 (en) Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
EP2381439B1 (en) Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US8422694B2 (en) Source sound separator with spectrum analysis through linear combination and method therefor
US9418678B2 (en) Sound processing device, sound processing method, and program
US8359196B2 (en) Stereo sound decoding apparatus, stereo sound encoding apparatus and lost-frame compensating method
KR101414233B1 (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
EP2138999A1 (en) Audio encoding device and audio encoding method
TW201737244A (zh) 音訊信號解碼
CN108520756B (zh) 一种说话人语音分离的方法及装置
CN108140394B (zh) 语音音频信号编码装置及其方法、解码装置及其方法
US9558730B2 (en) Audio signal processing system
US11367457B2 (en) Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof
KR20140052661A (ko) 신호처리를 이용한 차량용 마이크로 폰 시스템
US10504523B2 (en) Voice processing device, voice processing method, and computer program product
US10951978B2 (en) Output control of sounds from sources respectively positioned in priority and nonpriority directions
JP5105336B2 (ja) 音源分離装置、プログラム及び方法
CN113542982A (zh) 一种混音方法及存储介质
JPH0580796A (ja) 話速制御型補聴方法および装置
KR20210145733A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
US11367437B2 (en) Multi-microphone speech dialog system for multiple spatial zones
Okuno et al. Combining independent component analysis and sound stream segregation
JP2020177060A (ja) 音声認識システム、及び、音声認識方法
KR20120133995A (ko) 오디오 신호 처리 방법, 그에 따른 오디오 장치, 및 그에 따른 전자기기
JP5170465B2 (ja) 音源分離装置、方法及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150812

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160613

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170612

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180528

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190604

Year of fee payment: 8