KR101811716B1

KR101811716B1 - 음성 인식 방법 및 그에 따른 음성 인식 장치

Info

Publication number: KR101811716B1
Application number: KR1020110018012A
Authority: KR
Inventors: 조재연
Original assignee: 삼성전자주식회사
Priority date: 2011-02-28
Filing date: 2011-02-28
Publication date: 2017-12-28
Also published as: KR20120098211A

Abstract

음성 신호를 입력받는 음성 입력부, 음성 신호에서 인식 대상인 목적 음성 성분을 추출하여 목적 음성 신호를 출력하는 목표 신호 추출부, 목적 음성 신호의 파워인 제1 파워와 상기 목표 신호 추출부를 통과하지 않은 상기 음성 신호의 파워인 제2 파워를 산출하고, 그 비율에 근거하여 상기 목적 음성 성분이 포함된 구간인 음성 구간을 검출하는 제어부, 및 검출된 음성 신호를 인식하는 음성 인식부를 포함하며, 음성 구간을 빠르고 정확하게 추출할 수 있는 음성 인식 장치가 기술되어 있다.

Description

음성 인식 방법 및 그에 따른 음성 인식 장치{METHOD FOR VOICE RECOGNITION AND APPARATUS FOR VOICE RECOGNITION THEREOF}

본 발명은 음성 인식 방법 및 그에 따른 음성 인식 장치에 관한 것으로, 더욱 상세하게는 음성 인식율을 향상시킬 수 있는 음성 인식 방법 및 그에 따른 음성 인식 장치에 관한 것이다.

음성 인식 기술은 사용자 등이 입력하는 음성 신호를 소정 언어에 대응되는 신호로 인식하는 기술로, 예를 들어, 음성 인식 리모컨과 같이 소정 전자기기의 동작 제어 등을 위하여 이용될 수 있다.

음성 인식을 위해서는, 우선 인식 대상이 되는 음성 신호의 구간을 추출하여야 한다. 여기서, 음성 인식을 위하여 인식 대상이 되는 음성 신호가 포함되어 있는 신호 구간을 추출하는 단계를 음성 인식 전처리 단계라 한다.

또한, 음성 인식의 인식율 향상을 위하여, 입력된 음성 신호에 섞여 있는 잡음을 제거하여 순수한 음성 신호를 추출하는 기술인 음성 향상 기술(speech enhancement)이 음성 인식 전처리 단계에서 이용될 수 있다. 음성 향상 기술은 세부적으로, 정적 잡음을 제거하는 잡음 억제(noise suppression), 잡음과 음성 신호가 섞이는 과정을 역으로 처리하는 신호원 분리(source separation), 잡음의 방향이 원하는 음성 신호의 방향과 다르다고 가정하고 소정 방향에 따라서 신호를 필터링하는 마이크로 폰 배열 처리(microphone array processing) 등을 예로 들 수 있다.

여기서, 음성 신호가 정확히 어느 구간에 존재하는지 알고서 음성 신호 인식을 위한 처리를 수행한다면, 잡음 제거를 더욱 효과적으로 수행할 수 있으며 그에 따라서 음성 인식의 정확성 또한 향상시킬 수 있다.

따라서, 음성 인식율의 향상을 위해서는 음성 인식 전 처리 단계에서 음성 신호가 존재하는 구간인 음성 구간을 정확하게 검출할 필요가 있다.

본 발명의 일 실시예에 따른 음성 인식 방법 및 그에 따른 음성 인식 장치는 잡음이 혼재하는 환경에서도 인식 대상이 되는 음성 구간을 빠르고 정확하게 추출할 수 있는 음성 인식 방법 및 그에 따른 음성 인식 장치의 제공을 목적으로 한다.

또한, 본 발명의 일 실시예에 따른 음성 인식 방법 및 그에 따른 음성 인식 장치는 음성 인식의 정확성을 높여 음성 인식율을 향상시킬 수 있는 음성 인식 방법 및 그에 따른 음성 인식 장치의 제공을 목적으로 한다.

본 발명의 일 실시예에 따른 음성 인식 장치는 적어도 하나의 음성 신호를 입력받는 음성 입력부, 상기 음성 신호에서 인식 대상인 목적 음성 성분을 추출하여 목적 음성 신호를 출력하는 목표 신호 추출부, 상기 목적 음성 신호의 파워인 제1 파워와 상기 목표 신호 추출부를 통과하지 않은 상기 음성 신호의 파워인 제2 파워를 산출하고, 상기 제2 파워와 상기 제1 파워의 비율을 산출하며, 상기 비율에 근거하여 상기 목적 음성 성분이 포함된 구간인 음성 구간을 검출하는 제어부, 및 상기 음성 구간에 존재하는 상기 음성 신호를 인식하는 음성 인식부를 포함한다.

바람직하게, 목표 신호 추출부는 상기 목적 음성 성분을 빔포밍시키고, 상기 빔포밍된 목적 음성 성분을 상기 목적 음성 신호로써 출력할 수 있다.

바람직하게, 제어부는 상기 제2 파워 대비 상기 제1 파워의 비율(제1 파워/ 제2 파워)을 산출하며, 상기 비율이 소정 문턱 값 이상 또는 초과되면, 상기 음성 구간으로 판단할 수 있다.

바람직하게, 제어부는 적어도 하나의 프레임 단위로 상기 제1 파워 및 상기 제2 파워를 산출하며, 상기 적어도 하나의 프레임 단위로 상기 음성 구간인지 여부를 판단할 수 있다.

바람직하게, 제어부는 상기 제2 파워 대비 상기 제1 파워의 비율(제1 파워/ 제2 파워)이 상기 소정 문턱 값 미만 또는 이하이면, 상기 음성 구간의 끝점으로 판단할 수 있다.

바람직하게, 상기 제2 파워 대비 상기 제1 파워의 비율은 로그 스케일로 산출될 수 있다.

바람직하게, 상기 음성 입력부는 적어도 하나의 마이크로폰을 포함하여, 상기 적어도 하나의 마이크로폰을 통해 상기 적어도 하나의 음성 신호를 입력받는 마이크로폰 어레이를 포함할 수 있다.

또한, 본 발명의 일 실시예에 따른 음성 인식 장치는 상기 적어도 하나의 음성 신호들을 동기화시켜 출력하는 시간 축 정렬부, 상기 시간 축 정렬부에서 출력되는 상기 음성 신호에서 상기 목적 음성 성분을 차단하는 목표 신호 차단부, 및 상기 목표 신호 차단부에서 출력되는 신호의 파워가 최소가 되도록 적응 필터의 계수를 갱신시키고, 상기 목표 신호 차단부의 출력 신호에 대해 상기 적응 필터의 계수를 적용하여 적응 필터링을 수행하는 적응 필터부를 더 포함할 수 있다.

바람직하게, 제어부는 상기 음성 구간의 끝점이 검출되면, 상기 음성 구간 이외의 구간에 적용되는 적응 필터 계수가 갱신 되도록 상기 적응 필터부를 제어할 수 있다.

또한, 본 발명의 일 실시예에 따른 음성 인식 장치는 상기 목적 음성 신호 에서 상기 적응 필터부의 출력 신호를 차감시켜 출력하는 신호 차감부를 더 포함할 수 있다.

바람직하게, 제어부는 상기 시간 축 정렬부의 출력 신호, 상기 목표 신호 차단부의 출력 신호, 및 상기 적응 필터부의 출력 신호 중 어느 하나의 신호의 파워를 상기 제2 파워로써 산출할 수 있다.

바람직하게, 제어부는 상기 음성 구간의 검출이 완료되면, 상기 음성 구간 및 상기 음성 구간 이외의 구간에서 차등적으로 잡음 제거를 수행하도록 요청하는 제어 신호를 상기 음성 인식부로 출력할 수 있다.

본 발명의 일 실시예에 따른 음성 인식 방법은 적어도 하나의 음성 신호를 입력받는 단계, 상기 음성 신호에서 인식 대상인 목적 음성 성분을 추출하여 목적 음성 신호를 출력하는 단계, 상기 목적 음성 신호의 파워인 제1 파워와 상기 음성 신호의 파워인 제2 파워를 산출하는 단계, 상기 제2 파워와 상기 제1 파워의 비율을 산출하며, 상기 비율에 근거하여 상기 목적 음성 성분이 포함된 구간인 음성 구간을 검출하는 단계, 및 상기 음성 구간에 존재하는 상기 음성 신호를 인식하는 단계를 포함한다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 블록 다이어그램이다.
도 2는 도 1의 음성 인식 장치를 더욱 상세하게 나타내는 블록 다이어그램이다.
도 3은 본 발명의 일 실시예에 따른 음성 인식 방법을 나타내는 흐름도이다.
도 4는 도 3의 음성 인식 방법을 더욱 상세하게 나타내는 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 음성 인식 방법 및 그에 따른 음성 인식 장치에 대하여 상세히 설명한다.

음성 인식 장치는 마이크로폰(microphone) 등의 음성 입력 장치 등을 통하여 입력되는 음성신호를 입력받는다. 그리고, 입력받은 음성 신호에서 사용자 등이 입력하고자 했던 음성 신호의 구간인 목적 음성 구간을 추출하고, 검출된 목적 음성 구간에 존재하는 잡음 제거 처리 등을 수행하며, 최종적으로 음성 신호에 대응되는 단어 또는 명령을 판별 또는 인식한다. 나아가, 인식된 단어 또는 명령에 대응되는 소정 동작을 수행할 수도 있다.

전술한 바와 같이, 음성 신호에 대응되는 단어 또는 명령의 인식 동작(이하, '음성 인식 동작')에 앞서, 음성 향상 기술들을 적용한 음성 인식 전처리 동작을 수행할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 블록 다이어그램이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 인식 장치(100)는 음성 입력부(110), 음성 인식 전처리부(130), 및 음성 인식부(150)를 포함한다.

음성 입력부(110)는 사용자 등에 의하여 생성된 음성 신호를 입력받는다.

음성 인식 전처리부(130)는 입력받은 음성 신호에서 사용자 등이 입력하고 했던 음성 신호의 구간인 음성 구간을 검출한다.

음성 인식 전처리부(130)는 음성 인식 전처리를 위하여 적응 필터(adaptive filter)를 이용한 적응 모드 제어(adaptive mode control)를 수행할 수 있다. 이하의 도 2에서는, 음성 인식 전처리부(130)에서 적응 필터 부(245)를 구비하여, 적응 모드 제어를 수행하는 경우를 예로 들어 설명한다.

또한, 음성 인식 전처리부(130)는 목표 신호 추출부(135) 및 제어부(140)를 포함한다. 여기서, 목표 신호 추출부(135) 및 제어부(140)는 도 2에서 후술할 목표 신호 추출부(235) 및 제어부(240)와 동일 대응된다.

목표 신호 추출부(135)는 음성 입력부(110)를 통해 입력된 음성 신호를 전송받고, 입력된 음성 신호에서 인식 대상인 목적 음성 성분을 추출하여 목적 음성 신호를 출력한다. 즉, 입력된 음성 신호 중 목적 음성 성분을 추출하여 목적 음성 신호로써 출력하는 것이다.

목표 신호 추출부(135)는 빔포밍(beamforming) 동작을 수행하는 빔포머(beamformer)로 이뤄질 수 있다. 이 경우, 목표 신호 추출부(135)는 입력된 음성 신호를 빔포밍시키며, 빔포밍 된 음성 신호를 목적 음성 신호로써 출력할 수 있다. 구체적으로, 목표 신호 추출부(135)는 고정 빔포밍(beamforming) 동작을 수행하는 고정 빔포머(beamformer)로 이뤄질 수 있다.

제어부(140)는 목적 음성 신호의 파워인 제1 파워와 목표 신호 추출부(135)를 통과하지 않은 음성 신호의 파워인 제2 파워를 산출하고, 제2 파워와 제1 파워의 비율을 산출하며, 산출된 비율에 근거하여 목적 음성 성분이 포함된 구간인 음성 구간을 검출한다.

음성 인식부(150)는 음성 인식 전처리부(130)에서 검출된 음성 구간에 존재하는 단어 또는 명령을 인식한다.

영상 인식 장치(100)의 상세 구성 및 동작은 이하에서 도 2를 참조하여 상세히 설명한다.

도 2는 도 1의 음성 인식 장치를 더욱 상세하게 나타내는 블록 다이어그램이다.

도 2를 참조하면, 음성 입력부(110)는 마이크로폰 어레이(microphone array)(210)를 포함할 수 있다. 마이크로폰 어레이는 2개 이상의 마이크로폰을 포함하여, 각각의 마이크로폰을 통하여 음성 신호를 입력받는다. 따라서, 음성 입력부(110)는 적어도 하나 이상의 음성 신호를 입력받을 수 있다.

음성 인식 전처리부(130)는 목표 신호 추출부(235) 및 제어부(240)를 포함할 수 있다. 그리고, 시간 축 정렬부(231), 적응 필터부(245), 목표 신호 차단부(250), 및 신호 차감부(255)를 더 포함할 수 있다.

음성 입력부(110)가 마이크로폰 어레이(210)로 형성된 경우, 시간 축 정렬부(231)는 입력되는 적어도 하나의 음성 신호들을 동기화(sync: syncronize)시켜 출력한다. 구체적으로, 시간 축 정렬부(231)는 마이크로폰 어레이(210)를 통해 입력되는 다수개의 음성 신호들의 입력 지연을 보상한다. 즉, 시간 축 정렬부(231)는 마이크로폰 어레이(210)를 통해 입력되는 원하는 방향의 음성 신호가 입력될 때, 원하는 방향의 음성 신호가 마이크로폰 어레이(210)에 포함되는 각 마이크로폰에 도달하는 시간을 동기화(sync: synchronize)시킨다.

여기서, 원하는 방향의 음성 신호란, 음성 인식 장치(100)에서 인식 대상이 되는 목적 음성 성분으로, 사용자등이 목적한 단어 또는 명령에 대응되어 사용자가 발성한 음성 신호를 뜻한다. 이하에서는 설명의 편의상, 음성 인식 장치(100)에서 인식 대상이 되며, 음성 입력부(110)가 입력받은 원하는 방향의 음성 신호를 '목적 음성 성분'이라 한다.

목표 신호 추출부(235)는 음성 신호에서 인식 대상인 목적 음성 성분을 추출한다. 구체적으로, 목표 신호 추출부(235)는 음성 신호에서 목적 음성 성분을 빔포밍(beamforming)시킬 수 있다. 즉, 목표 신호 추출부(235)는 음성 입력부(110)로 입력된 음성 신호 중 원하는 방향의 음성 신호인 목적 음성 성분을 강화시켜 출력하는 것이다. 예를 들어, 두 개 이상의 마이크로폰을 이용하여 하나의 음원(음성 신호)이 공간적으로 상이하게 배치되는 경우, 원하는 방향의 음성 신호를 강화시킬 수 있다. 이하에서는, 목표 신호 추출부(235)의 출력 신호를 목적 음성 신호라 한다.

음성 입력부(110)는 사용자로부터 소정 단어 등을 입력 받는데 있어서, 원하지 않는 잡음(noise), 또는 원하지 않는 방향으로부터 입력되는 음성 신호 등을 목적 음성 성분과 함께 입력받을 수 있다. 여기서, 원하지 않는 방향으로부터 입력되는 음성 신호의 예로는 사용자가 아닌 타인에 의하여 생성된 음성 신호 등이 있다. 음성 입력부(110)가 잡음 등이 포함된 음성 신호를 입력받으면, 목표 신호 추출부(235)는 목적 음성 성분을 강화시키고, 목적 음성 성분 이외의 음성 성분인 잡음 등을 감쇄시킬 수 있다.

목표 신호 차단부(250)는 시간 축 정렬부(231)에서 출력되는 음성 신호에서 원하는 방향의 신호인 목표 음성 성분을 차단한다. 따라서, 목표 신호 차단부(250)에서 출력되는 신호는 음성 입력부(110)로 입력된 음성 신호에서 목표 음성 성분이 제거된 신호가 된다.

적응 필터부(245)는 목표 신호 차단부(250)에서 출력되는 신호를 입력받고, 목표 신호 차단부(250)의 출력 신호의 파워가 최소가 되도록 적응 필터의 계수를 갱신(update)시킨다. 여기서, 적응 필터의 계수를 갱신시킬지 여부는 제어부(240)의 제어에 따라서 결정될 수 있다. 그리고, 적응 필터부(245)는 제어부(240)의 제어에 따라서, 목표 신호 차단부(250)의 출력 신호에 대하여 갱신된 적응 필터의 계수를 적용하여 적응 필터링(adaptive filtering)를 수행한다.

신호 차감부(255)는 목표 신호 추출부(235)의 출력 신호와 적응 필터부(245)의 출력 신호를 입력받고, 목표 신호 추출부(235)의 출력 신호에서 적응 필터부(245)의 출력 신호를 차감시켜 출력한다. 따라서, 신호 차감부(255)에서 출력되는 신호는 음성 입력부(110)로 입력된 음성 신호에서 잡음 또는 원하지 않는 방향의 신호 등이 제거되고, 목표 음성 성분이 강조된 신호가 될 수 있다.

제어부(240)는 목적 음성 신호의 파워(power)를 산출한다. 여기서, 목적 음성 신호의 파워를 제1 파워(Py)라 한다.

그리고, 제어부(240)는 목표 신호 추출부(235)를 통과하지 않은 음성 신호의 파워를 산출한다. 즉, 목적 음성 성분을 추출하지 않은 음성 신호의 파워를 산출한다. 여기서, 목적 음성 성분을 추출하지 않은 음성 신호인, 목표 신호 추출부(235)를 통과하지 않은 음성 신호의 파워를 제2 파워(Pt)라 한다. 여기서, 목표 신호 추출부(235)를 통과하지 않은 음성 신호는 시간 축 정렬부(231)의 출력 신호인 도 2에 도시된 제1 지점(N1)에 잡히는 신호가 될 수 있으며, 시간 축 정렬부(231)의 출력 신호의 파워가 제2 파워(Pt)로써 산출될 수 있다.

또한, 목표 신호 차단부(250)의 출력 신호인 도 2에 도시된 제3 지점(N3)에 잡히는 신호의 파워 또는 적응 필터부(245)의 출력 신호인 도 2에 도시된 제2 지점(N2)에 잡히는 신호의 파워가 제2 파워(Pt)로써 산출될 수 있다.

즉, 제1 파워는 목표 음성 성분이 강화된 신호의 파워(Py)이다. 그리고, 제2 파워(Pt)는 목표 신호 향상부(235) 이외의 구성에서 출력되는 신호는 파워로, 목표 음성 성분이 강화되지 않은 신호의 파워가 되며, 전술한 시간 축 정렬부(231)의 출력 신호, 목표 신호 차단부(250)의 출력 신호, 또는 적응 필터부(245)의 출력 신호 중 어느 하나의 파워가 될 수 있다.

또한, 제어부(240)는 제2 파워(Pt)와 제1 파워(Py)의 비율을 산출한다. 구체적으로, 제어부(240)는 제2 파워에 대비한 제1 파워의 비율, 즉, 제1 파워/ 제2 파워 = Py/Pt,을 산출할 수 있다. 구체적으로, 제2 파워에 대비한 제1 파워의 비율은 로그 스케일(log scale)로 산출될 수 있다. 예를 들어, 제1 파워/ 제2 파워의 비율 =log(Py/Pt) = log Py - log Pt 로 산출될 수 있다.

제1 파워(Py), 제2 파워(Pt), 및 파워의 비율(Py/Pt)은 음성 신호의 일 프레임 단위로 산출될 수 있다. 일 프레임의 길이는 음성 인식 전처리 부(130)가 음성 신호를 처리하는 속도인 샘플링 레이트(sampling rate) 또는 음성 인식 장치(100)의 동작 주파수 등에 따라 달라질 수 있으며, 예를 들어, 10-20ms의 크기를 가질 수 있다.

또한, 제1 파워(Py) 및 제2 파워(Pt), 및 파워의 비율(Py/Pt)은 소정개의 프레임들마다 산출될 수도 있다. 예를 들어, 3개의 프레임 단위로 제1 파워(Py) 및 제2 파워(Pt), 및 파워의 비율(Py/Pt)을 산출할 수도 있을 것이다.

그리고, 제어부(240)는 산출된 비율 값에 근거하여, 목표 음성 성분이 포함된 구간인 음성 구간을 검출한다.

예를 들어, 음성 입력부(110)로 입력된 음성 신호에 목표 음성 성분만이 존재하고 잡음 등 전혀 존재하지 않는 경우, 제1 파워(Py) > 0, 제2 파워(Pt) = 0 이 되며, 비율(Py/Pt)은 무한대가 된다.

또한, 음성 입력부(110)로 입력된 음성 신호에 목표 음성 성분은 존재하지 않고, 잡음 또는 원하지 않는 방향의 신호만이 존재하는 경우, 제1 파워(Py) = 0, 제2 파워(Pt) > 0 이 되며, 비율(Py/Pt)은 0 이 된다.

또한, 음성 입력부(110)로 입력된 음성 신호에 목표 음성 성분과 잡음 등의 원하지 않는 방향의 신호 등이 혼재할 경우, 제1 파워(Py) > 0, 제2 파워(Pt) > 0 이 되며, 비율은 (Py/Pt) > 0 이 될 것이다. 또한, 목표 음성 성분과 잡음이 혼재할 경우에도 목표 음성 성분에 비하여 잡음이 많으면 비율(Py/Pt)은 0 에 가까운 값이 되고, 잡음에 비하여 목표 음성 성분이 많으면 비율(Py/Pt)은 큰 값이 된다.

또한, 입력된 음성 신호에 목표 음성 성분이 포함되어 있는지 여부를 판단하는데 있어서, 목표 음성 성분이 포함되어 있으면, 비율(Py/Pt)은 소정값 이상 또는 초과하는 값을 가지게 된다. 여기서, 목표 음성 성분이 포함되어 있을 때 산출된 비율(Py/Pt)의 최소 값을 문턱 값(Rth)으로 설정해 놓을 수 있다. 문턱 값(Rth)은 마이크로폰 배열(microphone array)에서의 마이크로폰 간 간격, 음성 입력부(110)의 제품 사양 또는 설정(setting) 정도, 예를 들어, 마이크로폰의 음향 수신 민감도 등, 또는 잡음 환경 등에 따라서 달라질 수 있는 값이다. 문턱 값(Rth)은 모델 별로 서로 다른 제품 사양 및 설정을 갖는 음성 인식 장치(100)마다 실험적으로 최적화된 값으로 설정될 수 있다.

설정된 문턱 값(Rth)는 음성 인식 장치(100)의 제작 당시에 제어부(240) 내의 소정 저장 공간 또는 음성 인식 전 처리부(130) 내의 소정 저장 공간(미도시) 내에 저장될 수 있으며, 음성 인식 장치(100)의 사용자 또는 제작자에 의하여 업데이트 될 수 있다.

따라서, 제어부(240)는 산출된 비율(Py/Pt) 값에 근거하여 목표 음성 성분이 포함된 구간인 음성 구간을 검출할 수 있다. 전술한 바와 같이, 비율(Py/Pt) 값은 일 프레임 단위로 산출될 수 있으며, 그에 따라서 제어부(240)는 일 프레임 단위로 음성 구간을 검출할 수 있다.

목표 음성 성분이 최소한으로 포함된 음성 신호, 예를 들어, 1음절의 단어에 대응되는 음성 성분이 포함된 음성 신호, 는 짧아도 0.5초 이상 음성이 지속된다. 따라서, 목표 음성 성분이 포함된 음성 신호의 경우 최소한 수 십 프레임 연속으로 비율(Py/Pt) 값이 문턱 값(Rth) 이상 또는 초과하게 될 것이다.

또한, 비율(Py/Pt) 값이 문턱 값(Rth) 미만 또는 이하게 되는 구간을 목표 음성 성분에 대응되는 음성 구간의 끝점으로 판단할 수 있다. 다만, 비율(Py/Pt) 값이 문턱 값(Rth) 미만 또는 이하게 되더라도, 전 후 프레임에서의 음성 구간 검출 결과를 고려하여, 음성 구간의 끝점이 아닌 것으로 판단할 수 있다.

일반적으로 일 프레임은 10-20ms의 크기를 가질 수 있으며, 목표 음성 성분이 최소한으로 포함된 음성 신호 예를 들어, 1음절의 단어에 대응되는 음성 성분이 포함된 음성 신호, 는 짧아도 0.5초의 크기를 가진다. 이러한 경우, 목표 음성 성분이 포함된 음성 신호의 경우 최소한 수십 프레임 연속으로 비율(Py/Pt) 값이 문턱 값(Rth) 이상 또는 초과하게 된다. 그리고, 사용자의 발성과 발성 사이의 목표 음성 성분이 입력되지 않는 기간 또한 짧아도 0.5초 이상의 지속된다. 따라서, 하나의 음성 구간이 끝나게 되면 비율(Py/Pt) 값은 최소 수십 프레임 연속으로 문턱 값(Rth) 미만 또는 이하가 된다. 따라서, 전 후 프레임에서의 비율(Py/Pt) 값이 문턱 값(Rth) 이상이나 해당 프레임에서만 비율(Py/Pt) 값이 문턱 값(Rth) 미만이 되면, 이 경우에는 음성 구간의 끝점으로 판단하지 않는 것이다.

또한, 제어부(240)는 비율(Py/Pt)의 크기에 따라서 해당 프레임에서의 목표 음성 성분이 존재할 가능성에 대한 스코어(score)를 할당할 수 있다. 비율(Py/Pt)에 대응되는 스코어(score)는 매핑 테이블(mapping table) 형태로 제어부(240) 내의 소정 저장 공간 또는 음성 인식 전처리부(130) 내의 소정 저장 공간(미도시) 내에 저장될 수 있으며, 음성 인식 장치(100)의 사용자 또는 제작자에 의하여 업데이트 될 수 있다.

이 경우, 목표 음성 성분이 존재하는 것으로 판단할 수 있는 문턱 스코어 값을 실험적으로 최적화하여 설정해 두고, 해당 프레임에서의 스코어와 문턱 스코어 값을 비교하여 목표 음성 성분이 존재하는 음성 구간인지 여부를 판단할 수 있다. 여기서, 문턱 스코어 값은 전술한 문턱 값(Rth)과 유사하게 실험적으로 최적화되어 설정될 수 있으며, 제어부(240)는 해당 프레임에서의 스코어가 문턱 스코어 값 이상 또는 초과이면, 목표 음성 성분이 존재하는 음성 구간인 것으로 판단할 수 있다.

또는, 제어부(240)는 현재 프레임에서의 스코어 값을 이전 프레임들의 스코어 값들과 비교하여 목표 음성 성분이 존재하는 음성 구간의 끝점을 판별할 수 있다. 구체적으로, 이전 프레임들의 스코어 값들에 비하여 현재 프레임에서의 스코어 값이 갑자기 감소하고, 이후 프레임들에서도 유지되면, 현재 프레임을 음성 구간의 끝점으로 판별할 수 있다.

전술한 바와 같이, 파워 간의 비율(Py/Pt)을 이용하여 음성 구간 여부를 판단하면, 음성 신호 프레임 별로 상관도(correlation)를 구하여 음성 구간 여부를 판단하거나, 음성 신호 간의 간섭도(coherence)를 구하여 음성 구간 여부를 판단하는 경우에 비하여, 연산량을 감소시킬 수 있다. 그에 따라서, 음성 인식 장치(100)는 연산량 감소에 따라 음성 구간 검출 속력을 증가시킬 수 있다.

또한, 상관도(correlation)를 구하여 음성 구간 여부를 판단하게 될 경우, 잡음에 취약한 단점이 있는 것에 비하여, 본원에서는 목표 음성 성분이 강화된 신호의 파워(Py)와, 잡음 등이 포함되어 있는 제2 파워(Pt)를 모두 고려함으로써, 잡음이 없는 깨끗한 환경이든 잡음이 심한 환경이든 상관없이 정확하게 음성 구간을 검출할 수 있다.

즉, 음성 인식 장치(100)는 음성 신호의 파워를 산출하여 음성 구간 여부를 판단함으로써, 음성 구간을 빠르고 정확하게 추출할 수 있다. 또한, 음성 인식 전단계인 음성 인식 전처리 부(130)에서 음성 구간을 정확하게 추출함으로써 후속과정에서의 음성 인식율을 증가시킬 수 있다.

또한, 제어부(240)는 음성 구간의 끝점이 검출되면, 음성 구간의 정보를 음성 인식부(150)로 전송하여, 음성 인식부(150)가 검출된 음성 구간에 포함된 음성 신호를 인식할 수 있도록 한다.

또한, 제어부(240)는 음성 구간의 끝점이 검출되면, 음성 구간과 음성 구간 이외의 구간(즉, 목표 음성 성분이 포함되지 않은 음성 신호의 구간)에 적용되는 적응 필터 계수(adaptive filter coefficient)가 선택적으로 갱신(update) 되도록 적응 필터부(245)를 제어할 수 있다. 구체적으로, 제어부(240)는 음성 구간의 끝점이 검출되면, 음성 구간 이외의 구간에 적용되는 적응 필터 계수만이 갱신되도록 하고, 음성 구간에 적용되는 적응 필터 계수는 갱신되지 않도록 적응 필터부(245)를 제어할 수 있다.

전술한 바와 같이, 본원의 제어부(240)가 적응 필터 계수를 음성 구간에서는 갱신시키지 않음으로써 목적 음성 성분을 포함하는 음성 신호가 왜곡되는 것을 방지할 수 있다. 또한, 음성 구간 이외의 구간에서는 적응 필터 계수를 갱신시킴으로써, 적응 필터링이 더욱 유효하게 수행되어 적응 필터부(245)의 파워가 최소화될 수 있도록 할 수 있다.

또한, 제어부(240)는 음성 구간의 검출을 완료한 후, 음성 구간 및 음성 구간 이외의 구간에서 차등적으로 잡음 제거를 수행하도록 음성 인식부(150)로 제어 신호를 출력할 수 있다. 예를 들어, 음성 구간에 대하여는 잡음 제거를 수행하지 않고, 음성 구간 이외의 구간에 대하여는 잡음 제거를 수행하도록 요청하는 제어 신호를 음성 인식부(150)로 출력할 수 있다.

따라서, 음성 인식 장치(100)는 추출된 음성 구간에 대하여 선택적인 잡음 제거를 수행함으로써, 음성 인식율을 증가시킬 수 있다.

도 3은 본 발명의 일 실시예에 따른 음성 인식 방법을 나타내는 흐름도이다. 이하에서는, 도 2의 음성 인식 장치(100)의 각 구성을 참조하여 본 발명의 일 실시예에 따른 음성 인식 방법을 설명한다.

본 발명의 일 실시예에 따른 음성 인식 방법은 적어도 하나의 음성 신호를 입력받는다(310 단계). 310 단계는 음성 인식 장치(100)의 음성 입력부(110)에서 수행될 수 있다.

입력받은 음성 신호에서 인식 대상인 목적 음성 성분을 추출하여 목적 음성 신호를 출력한다(320 단계). 320 단계는 목표 신호 추출부(235)에서 수행될 수 있다. 또한, 다수개의 마이크로폰을 통하여 음성 신호를 입력받는 마이크로폰 어레이(210)를 통하여 음성 신호를 입력받는 경우, 다수개의 음성 신호들을 동기화시키는 단계(미도시)를 더 포함할 수 있으며, 상기 단계는 시간 축 정렬부(231)에서 수행될 수 있다.

목적 음성 신호의 파워인 제1 파워(Py)와 목적 음성 성분이 추출되지 않은 음성 신호의 파워인 제2 파워(Pt)를 산출한다(330 단계). 330 단계는 제어부(240)에서 수행될 수 있다.

그리고, 제2 파워(Pt)와 상기 제1 파워(Py)의 비율을 산출한다(340 단계). 비율은 제2 파워(Pt) 대비 상기 제1 파워(Py)의 비가 될 수 있으며, Py/Pt 값이 된다.

비율(Py/Pt)에 근거하여 목적 음성 성분이 포함된 구간인 음성 구간을 검출한다(350 단계). 340 단계 및 350 단계는 제어부(240)에서 수행될 수 있다.

음성 구간의 검출이 완료되면, 음성 구간에 존재하는 음성 신호를 인식한다(360 단계). 360 단계는 음성 인식부(150)에서 수행될 수 있다.

도 4는 도 3의 음성 인식 방법을 더욱 상세하게 나타내는 흐름도이다. 도 3에서의 350 단계는 도 4에 도시된 410, 420, 430 및 440 단계를 포함할 수 있다. 또한, 본 발명의 일 실시예에 따른 음성 인식 방법은 460 단계를 더 포함할 수 있다. 이하에서는 도 3의 350 단계에 포함되는 410, 420, 430 및 440 단계 및 460 단계만을 설명하며, 이외의 단계 구성은 도 3에서와 동일하므로, 상세 설명은 생략한다.

도 4를 참조하면, 전술한 340 단계에서 구한 파워의 비율(Py/Pt)이 소정 문턱값(Rth) 이상 또는 초과가 되는지 판단한다(410 단계). 410 단계의 판단은 제어부(240)에서 수행될 수 있다. 또한, 소정 문턱 값(Rth)은 실험적으로 최적화되어 설정된 값이 된다.

비율(Py/Pt)이 소정 문턱값(Rth) 이상 또는 초과가 되는 것으로 판단되면, 목적 음성 성분이 포함된 음성 신호의 구간인 음성 구간인 것으로 판단한다(420 단계).

비율(Py/Pt)이 소정 문턱값(Rth) 이상 또는 초과가 되지 않으면, 음성 구간의 끝점인지 여부를 판단한다(430 단계). 구체적으로, 이전 프레임들에서의 비율(Py/Pt) 및 이후 프레임들에서의 비율(Py/Pt) 값을 고려하여, 비율(Py/Pt)이 소정 문턱값(Rth) 이상 또는 초과가 되지 않는 프레임이 음성 구간의 끝점인지 여부를 판단한다. 전술한 예와 같이, 전 후 프레임들에서의 비율(Py/Pt) 값이 문턱 값(Rth) 이상이나 해당 프레임에서만 비율(Py/Pt) 값이 문턱 값(Rth) 미만이 되면, 이 경우에는 음성 구간의 끝점으로 판단하지 않는 것이다.

음성 구간의 끝점이 검출되어, 전체의 음성 구간 검출을 완료한다(440 단계).

검출된 음성 구간과 음성 구간 이외의 구간에서 적용되는 적응 필터의 계수를 선택적으로 갱신한다(460 단계).

도 3 및 도 4에서 설명한 본 발명의 일 실시예에 따른 음성 인식 방법은 도 1 내지 도 2에서 상술한 본 발명의 일 실시예에 따른 음성 인식 장치와 기술적 사상 및 동작 구성이 동일하므로, 상세한 설명 및 중복되는 설명은 생략하도록 한다.

비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.

100: 음성 인식 장치
110: 음성 입력부
130: 음성 인식 전처리부
150: 음성 인식부
210: 마이크로 폰 어레이
231: 시간 축 정렬부
235: 목표 신호 추출부
240: 제어부
245: 적응 필터부
250: 목표 신호 차단부
255: 신호 차감부

Claims

적어도 하나의 음성 신호를 입력받는 음성 입력부;
상기 음성 신호 중, 소정 방향의 음성 신호인 목적 음성 성분을 강화시켜 목적 음성 신호를 출력하는 목표 신호 추출부;
상기 목적 음성 신호의 파워인 제1 파워와 상기 목표 신호 추출부를 통과하지 않은 상기 음성 신호의 파워인 제2 파워를 산출하고, 상기 제2 파워와 상기 제1 파워의 비율을 산출하며, 상기 비율에 근거하여 상기 목적 음성 성분이 포함된 구간인 음성 구간을 검출하는 제어부; 및
상기 음성 구간에 존재하는 상기 음성 신호를 인식하는 음성 인식부를 포함하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서, 상기 목표 신호 추출부는
상기 목적 음성 성분을 빔포밍시키고, 상기 빔포밍된 목적 음성 성분을 상기 목적 음성 신호로써 출력하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서, 상기 제어부는
상기 제2 파워 대비 상기 제1 파워의 비율(제1 파워/ 제2 파워)을 산출하며, 상기 비율이 소정 문턱 값 이상 또는 초과되면, 상기 음성 구간으로 판단하는 것을 특징으로 하는 음성 인식 장치.
제3항에 있어서, 상기 제어부는
적어도 하나의 프레임 단위로 상기 제1 파워 및 상기 제2 파워를 산출하며, 상기 적어도 하나의 프레임 단위로 상기 음성 구간인지 여부를 판단하는 것을 특징으로 하는 음성 인식 장치.
제3항에 있어서, 상기 제어부는
상기 제2 파워 대비 상기 제1 파워의 비율(제1 파워/ 제2 파워)이 상기 소정 문턱 값 미만 또는 이하이면, 상기 음성 구간의 끝점으로 판단하는 것을 특징으로 하는 음성 인식 장치.
제3항에 있어서, 상기 제2 파워 대비 상기 제1 파워의 비율은 로그 스케일로 산출되는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서, 상기 음성 입력부는
적어도 하나의 마이크로폰을 포함하여, 상기 적어도 하나의 마이크로폰을 통해 상기 적어도 하나의 음성 신호를 입력받는 마이크로폰 어레이를 포함하는 것을 특징으로 하는 음성 인식 장치.
제7항에 있어서,
상기 적어도 하나의 음성 신호들을 동기화시켜 출력하는 시간 축 정렬부;
상기 시간 축 정렬부에서 출력되는 상기 음성 신호에서 상기 목적 음성 성분을 차단하는 목표 신호 차단부; 및
상기 목표 신호 차단부에서 출력되는 신호의 파워가 최소가 되도록 적응 필터의 계수를 갱신시키고, 상기 목표 신호 차단부의 출력 신호에 대해 상기 적응 필터의 계수를 적용하여 적응 필터링을 수행하는 적응 필터부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
제8항에 있어서,
상기 목적 음성 신호 에서 상기 적응 필터부의 출력 신호를 차감시켜 출력하는 신호 차감부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
제8항에 있어서, 상기 제어부는
상기 시간 축 정렬부의 출력 신호, 상기 목표 신호 차단부의 출력 신호, 및 상기 적응 필터부의 출력 신호 중 어느 하나의 신호의 파워를 상기 제2 파워로써 산출하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서, 상기 제어부는
상기 음성 구간의 끝점이 검출되면, 상기 음성 구간 이외의 구간에 적용되는 적응 필터 계수가 갱신 되도록 제어하는 것을 특징으로 하는 음성 인식 장치.
제1항에 있어서, 상기 제어부는
상기 음성 구간의 검출이 완료되면, 상기 음성 구간 및 상기 음성 구간 이외의 구간에서 차등적으로 잡음 제거를 수행하도록 요청하는 제어 신호를 상기 음성 인식부로 출력하는 것을 특징으로 하는 음성 인식 장치.
음성 인식 장치로 입력된 음성 신호를 인식하는 방법에 있어서,
적어도 하나의 음성 신호를 입력받는 단계;
상기 음성 신호 중, 소정 방향의 음성 신호인 목적 음성 성분을 강화시켜 목적 음성 신호를 출력하는 단계;
상기 목적 음성 신호의 파워인 제1 파워와 상기 음성 신호의 파워인 제2 파워를 산출하는 단계;
상기 제2 파워와 상기 제1 파워의 비율을 산출하며, 상기 비율에 근거하여 상기 목적 음성 성분이 포함된 구간인 음성 구간을 검출하는 단계; 및
상기 음성 구간에 존재하는 상기 음성 신호를 인식하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제13항에 있어서, 상기 목적 음성 신호를 출력하는 단계는
상기 목적 음성 성분을 빔포밍시키고, 상기 빔포밍 된 목적 음성 성분을 상기 목적 음성 신호로써 출력하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제13항에 있어서, 상기 음성 구간을 검출하는 단계는
상기 제2 파워 대비 상기 제1 파워의 비율(제1 파워/ 제2 파워)을 산출하는 단계; 및
상기 비율이 소정 문턱 값 이상 또는 초과되면, 상기 음성 구간으로 판단하는 것을 특징으로 하는 음성 인식 방법.
제15항에 있어서, 상기 음성 구간을 검출하는 단계는
적어도 하나의 프레임 단위로 상기 음성 구간인지 여부를 판단하는 단계; 및
상기 제2 파워 대비 상기 제1 파워의 비율(제1 파워/ 제2 파워)이 상기 소정 문턱 값 미만 또는 이하이면, 상기 음성 구간의 끝점으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.