WO2014163231A1

WO2014163231A1 - 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치

Info

Publication number: WO2014163231A1
Application number: PCT/KR2013/004042
Authority: WO
Inventors: 김승영; 조정권
Original assignee: 주식회사 금영; 주식회사 시그테크
Priority date: 2013-04-05
Filing date: 2013-05-08
Publication date: 2014-10-09
Also published as: KR101312451B1

Abstract

본 발명은, 하나의 마이크를 통해 수신되는 제 1 오디오 신호와 이 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 음성 신호가 수신되는 목적 구간인지를 추정하는 단계와 추정 단계에서의 추정이 잡음 구간인 경우에, 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는 단계와 음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는 단계를 포함하고, 필터 계수는, 잡음 구간인 동안에 갱신되는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법에 관한 것이다. 본 발명을 이용함으로써, 경제적으로 높은 음성 인식률을 제공할 수 있도록 한다.

Description

복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치

본 발명은 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치에 관한 것으로서, 구체적으로는 노래방 등과 같은 환경하에서 곡 검색이나 제어 명령에 이용될 음성 입력을 잡음을 고려하여 효율적으로 추출할 수 있도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치에 관한 것이다.

최근에 이르러 음성 인식 기술은 널리 보편화되어 스마트 폰 등에 활용될 수 있는 수준에 이르렀고 보통 개인적인 환경하에서 일정 수준의 음성 인식율을 제공한다. 그러나 스마트 폰 외부에 잡음이 심한 경우에는 이 잡음과 음성 인식을 위한 사용자의 음성을 용이하게 구별하지 못해서 기존의 음성 인식 기술은 만족할만한 음성 인식률을 제공하지 못한다.

한편 사용자가 노래를 선곡하고 노래를 부를 수 있는 노래방 환경은 사용자가 이용하는 마이크를 다수 구비하여 음성 인식 기술이 자연스럽게 적용될 수 있는 환경이다.

도 1에서 알 수 있는 바와 같이, 이 노래방 환경은 선곡된 곡을 재생할 수 있는 노래 반주 장치와 노래 반주 장치에 연결되어 노래 반주 장치로부터 디코딩되어 출력된 오디오 신호를 사용자에게 출력하는 스피커와 노래 반주 장치에 연결되어 사용자에게 가사 이미지 등을 출력하는 디스플레이를 구비하고 있다.

또한 이 노래방 환경은 하나 이상의 마이크를 구비하여, 노래 반주 장치가 이 마이크로부터 수신된 음성 신호를 디코딩된 오디오 신호에 합성하여 스피커로 출력한다.

이 외에도 이 노래방 환경은 노래 반주 장치에 곡을 선곡할 수 있도록 하는 리모콘이나, 노래 반주 장치에 내장되어 있는 곡들을 검색하고 검색된 곡에 대한 선택에 따라 선택된 곡을 노래 반주 장치로 전달하는 곡목 검색기 등이 더 있을 수 있다.

이와 같은 노래방 환경은, 선곡된 곡이 재생됨에 따라 선곡된 곡을 따라 부르기 위해 마이크를 통해 사용자의 음성 신호가 수신되고 나아가 이러한 음성 신호와 선곡된 곡에 대응하는 또는 대기 상태에서 선택된 오디오 파일이나 미디 파일 등이 디코딩되어 스피커로 출력되는 높은 수준의 잡음이 발생하는 환경이다.

이에 따라 상용적인 서비스를 제공하는 노래방 환경은 마이크 등이 구비되어 비록 자연스러운 음성 인식 기술의 적용 환경을 제공하지만 잡음에 따른 음성 인식율의 저하로 적용이 불가능한 문제점이 있다.

이러한 기존의 문제점을 해결하기 위한 방법으로서, "노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 및 그 방법"(공개 번호 : 10-2010-0086457, 2010년 7월 30일, 대한민국특허청)에서는 마이크에서 입력된 사용자의 음성에서 잡음 신호를 추정하여 이 추정된 잡음 신호를 제거하여 곡명 등을 검색할 수 있도록 한다.

하지만 이 발명은, 하나의 마이크 상에서 잡음인지 혹은 음성인지를 추정하고 이에 따라 노래방 환경과 같이 높은 수준의 잡음이 발생하고 음성에 따른 또는 노래 반주 장치에서의 재생에 따라 발생하는 연주음 등에 따른 또는 에코(echo) 현상에 따른 여러 종류의 잡음이 동적으로 발생하는 환경하에서 효율적으로 잡음을 제거할 수 없고 이에 따라 음성 인식률을 효과적으로 올릴 수 없어 노래 반주 장치와 같은 상용 제품에 적용하기에는 문제가 있다.

따라서, 노래방 환경과 같은 잡음의 수준이 높은 상황에서 그리고 여러 종류의 잡음으로 인해 동적으로 잡음이 변화하는 상황에서 잡음을 효과적으로 제거하여 음성 인식이 가능하도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치가 필요하다.

나아가 노래 반주 장치는 제한된 리소스(resources)를 구비하고 있다. 예를 들어 노래 반주 장치는 외부의 마이크 신호를 디지털 신호로 변환하기 위한 2 채널의 ADC(Analog-Digital Converter)를 구비하거나 제한된 수행 성능을 가진 프로세서(processor)를 구비하고 있다.

이에 따라 2 채널의 ADC를 고려하여 동적으로 음성 인식이 가능하도록 하고 나아가 프로세서의 수행 성능에 부하가 되지 않도록 하는 간단한 구조로 된, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치가 필요하다.

본 발명은, 상술한 문제점을 해결하기 위해서 안출한 것으로서, 복수 마이크 사이의 신호 차이를 이용하여 용이하게 잡음 신호를 제거할 수 있도록 하고 잡음의 종류에 상관없이 잡음 신호를 제거할 수 있도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치를 제공하는 데 그 목적이 있다.

또한 본 발명은, 복수 마이크의 신호로부터 용이하게 잡음 구간과 음성 인식을 위한 목적 구간을 추정하여 추정된 잡음 구간에서 잡음 신호 추출을 위해서 이용되는 필터 계수를 지속적으로 갱신하여, 음성 인식에 이용될 음성 신호에 대한 음성 인식률이 개선되도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치를 제공하는 데 또 다른 목적이 있다.

또한 본 발명은, 노래 반주 장치 등과 같은 기존의 다양한 하드웨어 구조에 적용가능하고 수행 성능과 같은 리소스의 사용을 줄일 수 있도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치를 제공하는 데 또 다른 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법은, 하나의 마이크를 통해 수신되는 제 1 오디오 신호와 이 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 음성 신호가 수신되는 목적 구간인지를 추정하는 단계와 추정 단계에서의 추정이 잡음 구간인 경우에, 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는 단계와 음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는 단계를 포함하고, 필터 계수는, 잡음 구간인 동안에 갱신된다.

또한 상기와 같은 목적을 달성하기 위한, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 장치는, 하나의 마이크를 통해 수신되는 제 1 오디오 신호와 이 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 음성 신호가 수신되는 목적 구간인지를 추정하는, 구간 추정부와 구간 추정부에서의 추정이 잡음 구간인 경우에, 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는, 계수 갱신부와 음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는, 잡음 신호 추정부를 포함하고, 필터 계수는, 잡음 구간인 동안에 갱신된다.

상기와 같은 본 발명에 따른 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치는, 복수 마이크 사이의 신호 차이를 이용하여 용이하게 잡음 신호를 제거하고 잡음의 종류에 상관없이 잡음 신호를 제거할 수 있도록 하는 효과가 있다.

또한 상기와 같은 본 발명에 따른 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치는, 복수 마이크의 신호로부터 용이하게 잡음 구간과 음성 인식을 위한 목적 구간을 추정하여 추정된 잡음 구간에서 잡음 신호 추출을 위해서 이용되는 필터 계수를 지속적으로 갱신하여, 음성 인식에 이용될 음성 신호에 대한 음성 인식률이 개선되도록 하는 효과가 있다.

또한 상기와 같은 본 발명에 따른 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치는, 노래 반주 장치 등과 같은 기존의 다양한 하드웨어 구조에 적용가능하고 수행 성능과 같은 리소스의 사용을 줄일 수 있도록 하는 효과가 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은, 다수의 장치를 포함하는 노래방 환경을 도시한 도면이다.

도 2는, 음성 신호 추출 장치의 제 1의 예시적인 하드웨어 블록도를 도시한 도면이다.

도 3은, 음성 신호 추출 장치의 제 2의 예시적인 하드웨어 블록도를 도시한 도면이다.

도 4는, 음성 신호 추출 장치의 제 3의 예시적인 하드웨어 블록도를 도시한 도면이다.

도 5는, 음성 신호 추출 장치의 예시적인 기능 블록도를 도시한 도면이다.

도 6은, 음성 신호 추출 장치에서 이루어지는 음성 인식에 이용될 음성 신호를 추출하기 위한 제어 흐름을 도시한 도면이다.

[부호의 설명]

101 : 입력 인터페이스 103 : 비디오 출력 인터페이스

105 : 메모리 107 : 대용량 저장 매체

109 : 오디오 ADC 111 : 오디오 DAC

113 : 프로세서 115 : 노래용 마이크 단자

117 : 잡음용 마이크 단자 119 : 음성 인식용 마이크 단자

121 : 좌측 스피커 출력 단자 123 : 우측 스피커 출력 단자

125 : 시스템 버스/제어 버스 127 : 무선 인터페이스

201 : 아날로그 합성부 203 : 아날로그-디지털 변환부

205 : 시간-주파수 변환부 207 : 잡음 신호 추정부

209 : 목적 신호 생성부 211 : 음성 신호 생성부

213 : 구간 추정부 215 : 계수 갱신부

217 : 게인 결정부 219 : 음성 인식부

221 : 기능 제어부

상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술 되어 있는 상세한 설명을 통하여 더욱 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.

도 2에 따르면 이 음성 신호 추출 장치는, 입력 인터페이스(101)와 메모리(105)와 오디오 ADC(109)와 프로세서(113)와 무선 인터페이스(127)와 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)를 포함한다. 이러한 음성 신호 추출 장치는, 노래 반주 장치에 연결되어 노래 반주 장치와 무선 통신할 수 있는 리모콘이거나 곡목 검색기 등일 수 있다.

이와 같은 음성 신호 추출 장치는, 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)로부터 수신된 음성 신호들과 같은 오디오 신호들 간의 차이를 이용하여 용이하게 음성 인식을 위한 음성 신호를 추출하고 이후 추출된 음성 신호를 무선으로 노래 반주 장치로 전송하거나 혹은 이 음성 신호로부터 결정된 제어 데이터를 무선으로 전송할 수 있다.

도 2의 각 블록들에 대해서 간단히 살펴보면, 입력 인터페이스(101)는, 음성 신호 추출 장치를 사용하는 사용자로부터 입력을 수신하기 위한 인터페이스로서, 숫자 버튼이나 기능키 버튼 등이나 터치 패널을 포함한다. 이러한 입력 인터페이스(101)는 노래 반주 장치에서 이용될 곡 번호 등이나 기능 키(예를 들어 "예약", "시작", "종료" 등)등을 수신하거나 이 음성 신호 추출 장치상에서 수행되는 기능 키 등을 수신할 수 있도록 한다.

메모리(105)는, 노어 플래쉬(Nor Flash)나 낸드 플래쉬(Nand Flash) 등과 같은 비휘발성 메모리를 포함하고 나아가 디램(DRAM)과 같은 휘발성 메모리를 포함한다.

이러한 메모리(105)는, 프로세서(113)상에서 수행되는 각종 프로그램을 저장하고 나아가 각종 프로그램에서 이용되는 데이터를 임시로 저장할 수 있도록 한다.

잡음용 마이크 단자(117)는, 음성 신호 추출 장치 외부에서 발생한 잡음을 수신하기 위한 단자이다. 이러한 잡음용 마이크 단자(117)는 예를 들어 음성 신호 추출 장치 외부에서 발생한 오디오나 음성을 집음할 수 있도록 한다. 이러한 잡음용 마이크 단자(117)는, 이 음성 신호 추출 장치 외부에 연결된 손잡이형 마이크에 연결되거나 혹은 이 음성 신호 추출 장치의 케이스(case)와 같은 기구물에 내장된 마이크에 연결된다.

음성 인식용 마이크 단자(119)는, 미리 지정된 음성 명령이나 임의의 곡과 같은 콘텐츠를 검색하기 위한 음성 검색 명령 등과 같이 음성 인식에 이용될 음성 신호를 수신하기 위한 단자이다. 이러한 음성 인식용 마이크 단자(119)는, 음성 신호 추출 장치 외부에 연결된 손잡이형 마이크에 연결되거나 혹은 음성 신호 추출 장치의 케이스와 같은 기구물에 내장된 마이크에 연결된다.

여기서 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119) 각각은 바람직하게는 미리 지정되어 있을 수 있다. 그리고 이 두 마이크 단자로부터 수신된 음성이나 잡음의 차이를 활용해서 용이하게 음성 인식에 이용될 음성 신호를 추출 가능하도록 한다.

오디오 ADC(109)는, 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)에 연결되어 지정된 샘플링 주기(sample rate)에 따라 아날로그 신호를 지정된 비트 크기(예를 들어 16 비트 등)의 디지털 신호로 변환한다.

무선 인터페이스(127)는, 리모콘이나 곡목 검색기와 같은 이 음성 신호 추출 장치 외부에 구비된 노래 반주 장치와 같은 장치에 무선으로 연결하기 위한 인터페이스이다.

이러한 무선 인터페이스(127)는, 예를 들어 IRDA(Infrared Data Association) 통신이 가능하도록 하는 발광 다이오드나 블루투스(Bluetooth)나 지그비(Zigbee)나 무선랜(WiFi)과 같은 근거리 무선 통신 네트워크에 연결하기 위한 안테나나 변복조기(modulator/demodulator)를 포함한다.

프로세서(113)는, 음성 신호 추출 장치의 각 하드웨어 블록들을 제어한다. 이러한 프로세서(113)는 예를 들어 DSP(Digital Signal Processor), CPU(Central Processing Unit), MPU(Micro Processor Unit), 전용 로직(dedicated logic) 등이거나 이의 조합일 수 있다.

이러한 프로세서(113)는, 각 프로세서(113)의 타입에 따라 상이하게 동작할 수 있고 바람직하게는 메모리(105) 등에 저장되어 있는 프로그램을 이용하여 각 하드웨어 블록들을 제어할 수 있다.

그리고 이 프로세서(113)는, 입력 인터페이스(101)를 통해 수신된 입력을 무선 인터페이스(127)를 통해 송출하거나 오디오 ADC(109)를 통해 인식된 음성 신호에 따르는 제어 명령이나 이 음성 신호 자체를 무선 인터페이스(127)를 통해 송출할 수 있다.

이 프로세서(113)상에서 또는 도 2의 하드웨어 블록도 상에서 이루어지는, 음성 인식에 이용될 음성 신호의 추출 방법은 도 5와 도 6을 통해 상세히 살펴보도록 한다.

도 3에 따르면 이 음성 신호 추출 장치는, 입력 인터페이스(101)와 비디오 출력 인터페이스(103)와 메모리(105)와 대용량 저장 매체(107)와 오디오 ADC(109)와 오디오 DAC(111)와 프로세서(113)와 노래용 마이크 단자(115)와 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)와 좌측 스피커 출력 단자(121)와 우측 스피커 출력 단자(123)와 시스템 버스/제어 버스(125)와 무선 인터페이스(127)를 포함한다.

이러한 음성 신호 추출 장치는, 선곡된 곡에 대응하는 미디 파일이나 오디오 파일을 디코딩하고 나아가 사용자의 음성을 디코딩된 오디오 신호에 합성하여 스피커로 출력할 수 있도록 하는 노래 반주 장치일 수 있다.

이와 같은 음성 신호 추출 장치는, 오디오 신호들 간의 차이를 이용하여 용이하게 음성 인식을 위한 음성 신호를 추출하고 이후 추출된 음성 신호를 이용하여 곡을 선곡하거나 곡을 검색하거나 지정된 제어 명령에 따라 이 음성 신호 추출 장치를 제어할 수 있다.

도 3의 각 블록들에 대해서 간단히 살펴보면, 입력 인터페이스(101)는, 노래 반주 장치와 같은 음성 신호 추출 장치를 사용하는 사용자로부터 입력을 수신하기 위한 인터페이스로서, 숫자 버튼이나 기능키 버튼 등을 포함한다. 이러한 입력 인터페이스(101)는 곡 번호나 기능 키(예를 들어 "예약", "시작", "종료" 등)등을 수신할 수 있도록 한다.

비디오 출력 인터페이스(103)는, 이 음성 신호 추출 장치에 연결된 디스플레이에 지정된 비디오 포맷으로 비디오 신호를 출력한다. 이러한 비디오 출력 인터페이스(103)는 디지털의 비디오 데이터를 지정된 비디오 포맷으로 인코딩할 수 있는 비디오 인코더(encoder)를 포함할 수 있다.

이러한 메모리(105)는, 이 음성 신호 추출 장치의 부팅시에 필요한 초기화 프로그램을 포함하고 프로세서(113)상에서 수행되는 각종 프로그램에서 이용되는 임시 데이터 등을 저장할 수 있도록 한다.

대용량 저장 매체(107)는, 다수의 오디오 콘텐츠와 다수의 비디오 콘텐츠와 각종 프로그램을 저장할 수 있는 저장 매체로서, 예를 들어 하드 디스크이거나 DVD(Digital Versatile Disc)이거나 블루레이(Blue Ray) 디스크 등일 수 있다.

또한 이 대용량 저장 매체(107)는, 음성 신호 추출 장치에서 선택할 수 있는 콘텐츠인 곡에 대한 선택이나 곡에 대한 검색을 위한 데이터 베이스를 더 구비할 수 있고, 이러한 데이터 베이스는 곡 번호에 대응하는 미디 파일이나 압축된 오디오 파일을 식별할 수 있도록 하고, 나아가 각 곡 번호에 대응하는 가수나 가사나 작곡가나 작사가나 발매일이나 인기도 등과 같은 요약 정보를 더 식별할 수 있도록 한다.

그리고 이 데이터 베이스는 또한 각 곡별로 음성 인식에 이용될 특징 벡터를 포함할 수 있다. 이러한 각 곡별 특징 벡터는 가사나 가수나 작곡가 등과 같은 요약 정보에 대응하거나 곡 번호에 대응할 수 있다.

또한 이 데이터 베이스는, 노래 반주 장치와 같은 이 음성 신호 추출 장치를 제어하기 위한 제어 명령에 대응하는 특징 벡터를 더 포함할 수 있다. 이러한 특징 벡터를 이용하여 용이하게 음성으로 곡에 대한 검색이나 노래 반주 장치의 제어가 이루어질 수 있다.

여기서 이 특징 벡터는, 시간 도메인 상이나 주파수 도메인 상에서 추출된 정보로서 예를 들어 LPCC(Linear Prediction Cepstral Coefficient) 나 MFCC(Mel Frequency Cepstral Coefficient) 등일 수 있다. 이러한 특징 벡터를 이용하여 용이하게 음성으로부터 대응하는 가사 등이나 제어 명령을 알 수 있도록 한다.

노래용 마이크 단자(115)는, 노래 반주 장치와 같은 이 음성 신호 추출 장치를 이용하여 사용자가 노래를 부르기 위해서 이용되는 단자이다. 이러한 노래용 마이크 단자(115)는 사용자가 발성한 음성을 집음할 수 있도록 하고 나아가 소량의 외부 잡음을 또한 집음할 수 있도록 한다. 이러한 노래용 마이크 단자(115)는 예를 들어 손잡이형 마이크에 연결된다.

잡음용 마이크 단자(117)는, 음성 신호 추출 장치 외부에서 발생한 잡음을 수신하기 위한 단자이다. 이러한 잡음용 마이크 단자(117)는, 손잡이형 마이크에 연결되거나 음성 신호 추출 장치의 케이스(case)와 같은 기구물에 내장된 마이크에 연결되도록 구성될 수 있다.

음성 인식용 마이크 단자(119)는, 미리 지정된 음성 명령의 단어나 임의의 곡과 같은 콘텐츠를 검색하기 위해 음성 인식에 이용될 음성 신호를 수신하기 위한 단자이다. 이러한 음성 인식용 마이크 단자(119)는, 음성 신호 추출 장치 외부에 연결된 손잡이형 마이크에 연결되도록 구성될 수 있다.

이와 같은 잡음용 마이크 단자(117)를 통한 음성 신호에는 노래방 환경하에서 발생하는 사용자의 노래를 부르기 위한 음성 목소리나 연주음과 같은 잡음이 포함하고 음성 인식용 마이크 단자(119)를 통해 입력된 낮은 파워 레벨의 음성이 포함할 수 있다. 그리고 음성 인식용 마이크 단자(119)를 통한 음성 신호에는 음성 인식에 이용될 음성 뿐아니라 잡음이 더 포함할 수 있다.

이러한 잡음을 제거하는 것은 음성 인식의 인식률을 높일 수 있고 이에 따라 시끄러운 노래방 환경에서도 음성 인식을 통한 노래 반주 장치의 제어가 가능하도록 한다.

여기서 노래용 마이크 단자(115)나 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119) 각각은 바람직하게는 미리 지정되어 있을 수 있다. 그리고 이 여러 마이크 단자로부터 수신된 음성이나 잡음의 차이를 활용해서 용이하게 음성 인식에 이용될 음성 신호를 추출 가능하도록 한다.

오디오 ADC(109)는, 노래용 마이크 단자(115)와 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)에 연결되어 지정된 샘플링 주기(sample rate)에 따라 아날로그 신호를 지정된 비트 크기(예를 들어 16 비트 등)의 디지털 신호로 변환한다.

여기서 이 오디오 ADC(109)는, 한정된 입력 신호의 개수를 가질 수 있고, 예를 들어 도 3과 같이 2 개의 입력 신호만을 처리할 수 있다. 이에 따라 하나 이상의 노래용 마이크 단자(115)와 잡음용 마이크 단자(117)로부터의 아날로그 신호는 아날로그 레벨에서 먼저 합성되어 하나의 합성된 아날로그 신호가 이 오디오 ADC(109)로 입력되고 나머지 음성 인식용 마이크 단자(119)의 아날로그 신호가 오디오 ADC(109)로 입력되도록 구성될 수 있다.

혹은 이 오디오 ADC(109)는 3개의 입력 신호만을 처리하도록 구성될 수도 있고, 이 때에는 하나의 입력에 하나 이상의 노래용 마이크 단자(115)가 아날로그 레벨에서 합성되어 연결되고 나머지 하나의 입력에 잡음용 마이크 단자(117)가 연결되고 마지막 하나의 입력에 음성 인식용 마이크 단자(119)가 연결되도록 구성될 수 있다.

이와 같이 오디오 ADC(109)를 통해 입력되는 마이크 신호에는 여러 음원 소스가 혼재되어 있고 이에 따라 혼재되어 있는 아날로그 신호로부터 효율적으로 그리고 음성 인식률이 높아지도록 음성 인식에 이용될 음성을 추출할 필요가 있다.

오디오 DAC(111)는, 프로세서(113)의 제어에 따라 생성된 디지털의 오디오 스트림을 아날로그의 오디오 신호로 생성하여 출력한다. 이러한 오디오 DAC(111)는 예를 들어 I2S 포맷 등을 통해 디지털의 오디오 스트림을 수신하여 이를 두 개 채널의 아날로그 레벨의 신호로 출력한다.

여기서 출력되는 아날로그 신호는 예를 들어 미디 파일이나 오디오 파일의 디코딩에 따라 출력되는 연주음이거나 노래용 마이크 단자(115)를 통해 수신된 음성을 포함할 수 있다.

좌측 스피커 출력 단자(121)는, 오디오 DAC(111)로부터 좌측 채널의 아날로그 신호를 스피커로 출력하기 위한 단자이다.

우측 스피커 출력 단자(123)는, 오디오 DAC(111)로부터 우측 채널의 아날로그 신호를 스피커로 출력하기 위한 단자이다.

비록 좌측 스피커 출력 단자(121)와 우측 스피커 출력 단자(123)로 분리하여 설명하고 있으나 이에 국한될 필요는 없고 하나의 출력 단자로 혹은 2를 초과하는 출력 단자를 포함하도록 이 음성 신호 추출 장치가 구성될 수도 있다.

무선 인터페이스(127)는, 리모콘이나 곡목 검색기 등과 데이터 등을 송수신하기 위해 리모콘이나 곡목 검색기 등에 무선으로 연결하기 위한 인터페이스이다.

이러한 무선 인터페이스(127)는, 예를 들어 IRDA(Infrared Data Association) 통신으로부터 데이터를 수신 가능하도록 하는 수광 소자나 근거리 무선 통신 네트워크에 연결하기 위한 안테나나 변복조기(modulator/demodulator)를 포함한다.

시스템 버스/제어 버스(125)는, 도 3의 각 블록들에서 생성되는 데이터나 제어 신호를 다른 블록으로 전송할 수 있도록 한다. 이러한 시스템 버스/제어 버스(125)는 병렬 버스이거나 시리얼(serial) 버스일 수 있다.

그리고 이 프로세서(113)는, 입력 인터페이스(101)나 무선 인터페이스(127)를 통해 수신된 입력이나 데이터에 따라 선택된 곡에 대응하는 미디 파일이나 오디오 파일을 디코딩하여 스피커로 출력하도록 하고 나아가 가사 등을 비디오 출력 인터페이스(103)를 통해 출력할 수 있다.

또한 이 프로세서(113)는, 음성 인식용 마이크 단자(119)를 통해 수신된 음성에서 잡음용 마이크 단자(117) 및/또는 노래용 마이크 단자(115)로부터의 잡음을 제거하여 이로부터 사용자가 요구하는 곡의 검색이나 기능을 데이터 베이스를 이용하여 수행할 수 있다.

또는 이 프로세서(113)는 리모콘이나 곡목 검색기 등으로부터 수신된 디저털의 음성 신호에 따라 데이터 베이스를 이용하여 곡을 검색하거나 대응하는 기능을 수행할 수도 있다.

이 프로세서(113)상에서 또는 도 3의 하드웨어 블록도 상에서 이루어지는, 음성 인식에 이용될 음성 신호의 추출 방법은 도 5와 도 6을 통해 상세히 살펴보도록 한다.

도 4에 따르면 이 음성 신호 추출 장치는, 입력 인터페이스(101)와 비디오 출력 인터페이스(103)와 메모리(105)와 대용량 저장 매체(107)와 오디오 ADC(109)와 오디오 DAC(111)와 프로세서(113)와 노래용 마이크 단자(115)와 음성 인식용 마이크 단자(119)와 좌측 스피커 출력 단자(121)와 우측 스피커 출력 단자(123)와 시스템 버스/제어 버스(125)와 무선 인터페이스(127)를 포함한다.

이러한 음성 신호 추출 장치는, 도 3과 동일하게 노래 반주 장치일 수 있다.

이와 같은 음성 신호 추출 장치는, 노래용 마이크 단자(115)와 음성 인식용 마이크 단자(119) 등으로부터의 오디오 신호들 간의 차이를 이용하여 용이하게 음성 인식을 위한 음성 신호를 추출하고 이후 추출된 음성 신호를 이용하여 곡을 선곡하거나 곡을 검색하거나 지정된 제어 명령에 따라 이 음성 신호 추출 장치를 제어할 수 있다.

이미 도 3을 통해서 유사한 하드웨어 블록도를 상세히 살펴보았으므로 여기서는 도 3과 차별화되는 점만 간단히 살펴보도록 한다.

도 4의 오디오 ADC(109)는 두 개의 입력을 구비하고, 하나의 입력에는 노래용 마이크 단자(115)가 아날로그 레벨에서 합성되어 연결되고 나머지 하나의 입력에는 음성 인식용 마이크 단자(119)가 연결된다.

그리고 프로세서(113)는, 선곡된 곡에 대응하는 미디 파일이나 오디오 파일의 디코딩에 따라 오디오 DAC(111)로 출력되는 디지털의 오디오 스트림을 오디오 ADC(109)의 노래용 마이크 단자(115)로부터 수신된 디지털의 오디오 스트림과 디지털 레벨에서 합성하고, 이 합성된 디지털의 오디오 스트림과 오디오 ADC(109)의 음성 인식용 마이크 단자(119)로부터 수신된 디지털의 오디오 스트림 사이의 차이를 이용하여 음성 인식에 이용될 음성 신호를 추출하도록 할 수 있다.

비록 잡음용 마이크 단자(117)를 구비하지 못한 경우라도, 프로세서(113)에 의해서 이 연주음 등을 디지털적으로 노래용 마이크 단자(115)를 통한 오디오 신호에 합성하여 이후 정확한 음성 신호의 추출이 가능하도록 한다.

이상의 도 3과 도 4에서는 오디오 ADC(109)와 오디오 DAC(111)가 각각 개별적으로 도시하였으나, 이 오디오 ADC(109)와 오디오 DAC(111)는 하나의 하드웨어 블록(예를 들어 오디오 CODEC)으로 통합될 수도 있다.

이 프로세서(113)상에서 또는 도 4의 하드웨어 블록도 상에서 이루어지는, 음성 인식에 이용될 음성 신호의 추출 방법은 도 5와 도 6을 통해 상세히 살펴보도록 한다.

도 5에 따르면 이 음성 신호 추출 장치는, 아날로그 합성부(201)와 복수의 아날로그-디지털 변환부(203)와 복수의 시간-주파수 변환부(205)와 잡음 신호 추정부(207)와 목적 신호 생성부(209)와 음성 신호 생성부(211)와 구간 추정부(213)와 계수 갱신부(215)와 게인 결정부(217)와 음성 인식부(219)와 기능 제어부(221)를 포함한다.

이러한 도 5에 따르는 음성 신호 추출 장치는, 도 2 내지 도 4의 하드웨어 블록도 상에서 구현되고 프로세서(113)의 제어하에, 바람직하게는 프로세서(113)에서 수행되는 프로그램의 제어하에, 구현될 수 있다.

도 5의 각 기능 블록들을 살펴보면, 아날로그 합성부(201)는, 하나 이상의 노래용 마이크 단자(115) 나아가 잡음용 마이크 단자(117)로부터의 아날로그 신호를 아날로그 레벨에서 합성한다. 이러한 아날로그 합성부(201)는 예를 들어 RLC 회로로 구성되거나 복수의 아날로그 신호를 단일의 아날로그 신호로 합성하기 위한 칩셋으로 구성되거나 아날로그 신호들을 합성하기 위한 회로로 구성될 수 있다. 이러한 아날로그 합성부(201)는 그 하드웨어 블록도의 실시 형태(예를 들어 도 2)에 따라 생략될 수도 있다.

아날로그-디지털 변환부(203)는, 입력되는 아날로그 신호를 지정된 샘플링 주기에 따라 지정된 비트 크기의 디지털 신호로 변환하여 디지털의 오디오 스트림으로 출력한다. 이러한 아날로그-디지털 변환부(203)는 예를 들어 오디오 ADC(109) 상에서 구현될 수 있다.

하나의 아날로그-디지털 변환부(203)는 아날로그 합성부(201)에 연결되어 노래용 마이크 단자(115) 나아가 잡음용 마이크 단자(117)의 아날로그 신호를 디지털의 오디오 신호로 변환하고 나머지 하나의 아날로그-디지털 변환부(203)는 음성 인식용 마이크 단자(119)로부터의 아날로그 신호를 디지털의 오디오 신호로 변환한다.

이와 같은 구성을 통해 오디오 ADC(109) 또는 CODEC의 입력 채널이 한정되는 경우에도 한정되는 입력 채널을 고려하여 효과적으로 잡음 신호 등을 추정하고 나아가 음성 인식이 가능하도록 한다.

여기서 아날로그-디지털 변환부(203) 전단 또는 아날로그 합성부(201)의 전단이나 후단에는 아날로그 신호를 아날로그-디지털 변환부(203)에서 요구되는 전원 레벨로 증폭하기 위한 증폭부(도면 미도시)를 더 포함할 수도 있다.

또한 아날로그-디지털 변환부(203)의 출력은 노래 반주 장치 등에 의해서 생성된 연주음의 디지털의 오디오 스트림과 합성되어 시간-주파수 변환부(205)로 디지털의 오디오 스트림을 제공하도록 구성될 수도 있다.

시간-주파수 변환부(205)는, 아날로그-디지털 변환부(203)로부터 수신되는 시간 도메인 상의 일정한 갯수(예를 들어 연속적인 216개나 512개의 샘플)의 디지털 오디오 스트림(이하에서는 '오디오 프레임'이라 지칭한다)을 주파수 도메인 상의 주파수 신호로 변환한다.

이러한 시간-주파수 변환부(205)는 예를 들어 DFT(Discrete Fourier Transform)과 같은 FFT(fast Fourier transform)를 통해 구현될 수 있고 예를 들어 프로세서(113) 상에서 구현될 수 있다.

이와 같은 시간-주파수 변환부(205)에 의해서, 연속적인 오디오 프레임 각각이 주파수 도메인 상의 주파수 신호로 변환될 수 있고, 주파수 신호는, 주파수 신호의 주파수 대역(예를 들어 음성 대역인 300Hz ~ 4000Hz 등)에서의 지정된 주파수(예를 들어 256개 혹은 512 개 등의 지정된 주파수)와 대응하는 계수의 형태로 표현된다.

하나의 시간-주파수 변환부(205)의 오디오 프레임의 주파수 신호(이하 '제 1 오디오 신호'라 한다)는 목적 신호 생성부(209)와 계수 갱신부(215)에 제공되고 나머지 하나의 시간-주파수 변환부(205)의 오디오 프레임의 주파수 신호(이하 '제 2 오디오 신호'라 한다.)는 잡음 신호 추정부(207)와 계수 갱신부(215)에 제공된다.

잡음 신호 추정부(207)는, 현재 수신되어 변환된 주파수 신호인 제 2 오디오 신호에 필터의 계수가 곱해진 신호를 잡음 신호로 추정한다.

이러한 잡음 신호 추정부(207)는, 예를 들어 주파수 도메인 상에서 적용되는 적응형 디지털 필터(Adaptive Digital Filter)일 수 있고, 프로세서(113)상에서 구현될 수 있다.

그리고 이 잡음 신호 추정부(207)에서 출력되는 주파수 도메인 상의 잡음 신호는, 아래의 수학식 1과 같이 제 2 오디오 신호와 필터 계수의 곱으로 표현될 수 있다.

수학식 1

여기서 l 은 l 번째 오디오 프레임의 번호(1 ~ n)이고, R'(l) 은 l 번째 오디오 프레임에 대해 출력되는 잡음 신호이고, W(l) 은 l 번째 오디오 프레임에 대해 적용되는 필터 계수이고, R(l) 은 잡음 신호 추정부(207)에 입력되는 l 번째 오디오 프레임의 제 2 오디오 신호이다,

여기서 필터 계수는, 제 2 오디오 신호에 표현된 각각의 주파수 성분에 대해서 각각 적용되는 계수일 수 있다.

그리고 잡음 신호 추정부(207)는, 필터 계수를 이용하여 노래용 마이크 단자(115)나 잡음용 마이크 단자(117)를 통해 입력되는 제 2 오디오 신호로부터 잡음 신호를 추정하고 이후 제 1 오디오 신호로부터 음성 인식에 이용될 음성 신호를 추출할 수 있도록 한다.

이러한 잡음 신호 추정부(207)는, 제 1 오디오 신호와 제 2 오디오 신호에 공통되는 잡음 신호를 추정하고 나아가 이 잡음 신호를 제 1 오디오 신호에서 차감한 신호의 파워가 최소로 되도록 하는 것이 필요하고 이에 따라 필터 계수를 노래방과 같은 다수의 음원이 출력되는 환경을 고려하여 튜닝할 필요가 있다.

목적 신호 생성부(209)는, 현재 오디오 프레임의 주파수 신호인 제 1 오디오 신호에서 잡음 신호 추정부(207)에서 추정된 주파수 신호인 잡음 신호를 차감하여 음성 인식에 이용될 음성 신호를 추출할 수 있는 목적 신호를 생성하고 바람직하게는 프로세서(113)상에서 구현될 수 있다.

이러한 목적 신호는 일차적으로 노래용 마이크 단자(115) 및/또는 잡음용 마이크 단자(117)로부터의 잡음 신호를 제거할 수 있도록 한다.

음성 신호 생성부(211)는, 일차적으로 잡음이 제거된 목적 신호로부터 음성 인식에 이용될 음성 신호를 생성하고 바람직하게는 프로세서(113)상에서 구현된다. 이러한 음성 신호 생성부(211)는, 일차적으로 잡음이 제거된 목적 신호에 대해서 추가적으로 잡음을 제거하도록 구성될 수 있다. 이를 위해 음성 신호 생성부(211)는 게인 결정부(217)를 통해 수신된 게인(gain)을 수신된 목적 신호에 적용하여(예를 들어 곱하여) 음성 신호를 생성한다.

여기서, 이 게인은 주파수 신호에 표현된 주파수 성분별로 결정된 게인이거나 혹은 모든 주파수 성분에 대해서 평균에 따라 결정된 게인일 수 있고 바람직하게는 주파수 성분별로 결정된 게인일 수 있다. 그리고 이 게인은 예를 들어 0 에서 1 사이의 값을 가질 수 있다.

구간 추정부(213)는, 오디오 프레임의 주파수 신호인 제 1 오디오 신호와 제 2 오디오 신호에 기초하여 수신된 이 오디오 프레임이 잡음 만이 존재하는 잡음 구간인지 혹은 외부 잡음뿐 아니라 음성 인식에 이용될 음성 신호가 수신되고 있는 목적 구간 인지를 추정한다. 그리고 이 구간 추정부(213)는 바람직하게는 프로세서(113)상에서 구현된다.

이를 위해 이 구간 추정부(213)는, 목적 신호 생성부(209)에서 생성되는 목적 신호와 잡음 신호 추정부(207)에서 추정되는 잡음 신호 사이의 상관 관계(co-relation)에 따라 잡음 구간인지 혹은 목적 구간 인지를 추정할 수 있다.

예를 들어 이 구간 추정부(213)는, 아래의 수학식 2와 같이 목적 신호와 추정된 잡음 신호 사이의 상관 계수를 계산할 수 있다.

수학식 2

여기서 Cor 은 상관 계수이고, l 은 l 번째 오디오 프레임의 번호(1 ~ n)이고, T(l) 은 l 번째 오디오 프레임에 대해 생성되는 목적 신호이고, R'(l) 은 l 번째 오디오 프레임에 대해 출력되는 잡음 신호이다.

이러한 상관 계수는 0에서 1/2 사이의 값을 가지고, 이 상관 계수가 0에 가까워 짐에 따라 음성 인식용 마이크 단자(119)를 통해 음성 인식을 위한 음성 신호가 존재하는 것을 알 수 있고, 1/2에 가까워짐에 따라 음성 인식용 마이크 단자(119)와 노래용 마이크 단자(115) 및/또는 잡음용 마이크 단자(117)의 음성 신호가 동일한 유형의 신호를 띠게 되어 잡음 만이 존재하는 것임을 알 수 있다.

이에 따라 구간 추정부(213)는 이 상관 계수가 지정된 임계치 이하(또는 미만)인 경우에는 음성 인식을 위한 음성 신호가 존재하는 목적 구간으로 추정하고 지정된 임계치 이상(또는 초과)인 경우에는 잡음 만이 존재하는 잡음 구간으로 추정할 수 있다.

그리고 이 상관 계수는 바람직하게는 목적 신호와 추정된 잡음 신호의 각 주파수 성분에 대해서 각 주파수별 상관 계수를 구한 후에 평균화된 계수일 수 있고 이 지정된 임계치는 실험 등을 통해 산출된 값일 수 있다.

이러한 상관 계수를 이용하여 목적 구간인지 잡음 구간인지를 추정하여 잡음 구간 내에서 지속적으로 필터 계수가 갱신하도록 하여 이후 음성 신호가 수신된 목적 구간에서 잡음 신호를 제거할 수 있도록 튜닝된 필터 계수를 활용하여 정확히 잡음 신호를 제거하여 음성 신호를 추출할 수 있도록 한다.

혹은 이 상관 계수를 시간-주파수 변환부(205)를 통해 출력된 제 1 오디오 신호와 제 2 오디오 신호 사이의 파워의 비(Ratio of Power)의 상관 관계(도 5에서 연결관계 미도시)를 이용하여 각 오디오 프레임별로 계산할 수도 있다. 이러한 파워 비는 예를 들어 주파수 신호의 주파수 성분들 중 지정된 주파수 대역(예를 들어 1 KHz 이하의 저주파수 대역 및/또는 예를 들어 1 ~ 3 KHz 사이의 중주파수 대역의)의 주파수 신호 성분간의 파워 비에 따라서 산출될 수 있다.

아래 수학식 3은 신호 사이의 파워 비를 이용하여 특정 오디오 프레임(l번째 오디오 프레임)의 주파수 신호에 대한 상관 계수를 계산할 수 있도록 하는 예시적인 수학식이다.

수학식 3

여기서, Rat(l) 은 l 번째 오디오 프레임의 지정된 주파수 대역에 대한 제 1 오디오 신호와 제 2 오디오 신호 사이의 파워 비를 나타내고, M 은 l 번째 오디오 프레임 이전의 지정된 오디오 프레임의 개수를 나타낸다.

그리고 Rat(l) 은, 파워 비(ratio of power)를 나타내고, 제 2 오디오 신호의 주파수 계수의 제곱(파워)에 대한 제 1 오디오 신호의 주파수 계수의 제곱(파워)의 비로 표현될 수 있다. 이 Rat(l) 이 1에 가까워짐에 따라 제 1 오디오 신호와 제 2 오디오 신호에는 잡음 신호만이 존재하게 되고 1을 초과함에 따라 음성 인식용 마이크 단자(119)를 통한 제 1 오디오 신호에 음성 인식을 위한 음성 신호가 존재하게 된다.

그리고 수학식 3의 상관 계수는, 현재 수신된 오디오 프레임의 파워 비가 M 오디오 프레임 동안의 과거 파워 비의 평균보다 얼마나 변화하는 것(분산(variance))인지를 의미한다.

이 상관 계수가 지정된 임계치 이상(또는 초과)인 경우에는 음성 인식을 위한 음성 신호가 존재하는 목적 구간으로 추정하고 지정된 임계치 이하(또는 미만)인 경우에는 잡음 만이 존재하는 잡음 구간으로 추정할 수 있다.

이와 같이 상관 계수는 현재의 오디오 프레임으로부터 이 오디오 프레임이 어떤 구간의 음성 신호인지를 알 수 있도록 하고 이에 따라 필터 계수를 잡음 구간 동안에 지속적으로 갱신하여 효율적으로 잡음 신호를 제거할 수 있도록 한다.

계수 갱신부(215)는, 구간 추정부(213)에서의 추정에 따라 잡음 신호 추정부(207)에서 이용될 필터 계수를 갱신하고 바람직하게는 프로세서(113)상에서 구현될 수 있다. 이 계수 갱신부(215)는 구간 추정부(213)에서의 추정이 잡음 구간인 경우에 다음 오디오 프레임(l+1)에서 적용할 필터 계수를 현재의 필터 계수와 제 1 오디오 신호의 주파수 신호와 목적 신호의 주파수 신호와 제 2 오디오 신호의 주파수 신호의 관계에 따라 결정한다.

아래 수학식 4는 갱신될 필터 계수를 계산하기 위한 예시적인 수학식이다.

수학식 4

여기서 l 과 l+1 은 l 번째와 후속하는 l+1 번째의 오디오 프레임의 번호(1 ~ n)이고, R(l) 은 잡음 신호 추정부(207)에 입력되는 l 번째 오디오 프레임의 제 2 오디오 신호이고, W(l) 과 W(l+1) 은 l 번째와 후속하는 l+1 번째 오디오 프레임에 대해 적용되는 필터 계수이고, L(l) 은 목적 신호 생성부(209)로 입력되는 l 번째 오디오 프레임의 제 1 오디오 신호이고, 첨자 H 는 허미션(hermitian) 표시이고, T(l) 은 l 번째 오디오 프레임에 대해 생성되는 목적 신호이고, μ(l) 은 주파수 신호의 주파수 성분에 곱해지는 수렴 상수이다.

이러한 필터 계수는 각 오디오 프레임별로 갱신될 수 있고 잡음 구간 동안에 반복적으로 갱신될 수 있다. 그리고 이 필터 계수는 주파수 신호의 각 주파수 성분 별로 계산될 수 있다.

이와 같이 추정된 잡음 구간 동안에 제 1 오디오 신호와 제 2 오디오 신호의 주파수 신호의 성분이 일치되도록 지속적으로 필터 계수를 갱신함에 따라, 목적 신호 생성부(209)에서 생성되는 목적 신호는 이후 목적 구간 동안에 주파수 신호가 최소가되록(예를 들어 파워가 최소가 되도록) 하여 잡음 신호를 효과적으로 제거할 수 있도록 한다.

그리고 이 필터 계수는 잡음 구간 동안에 지속적으로 갱신됨에 따라 이후 목적 구간에서는 이 갱신된 최종의 필터 계수를 활용하여 안정적으로 잡음 신호를 제거할 수 있도록 한다.

게인 결정부(217)는, 음성 신호 생성부(211)에서 이용될 게인(gain)을 결정한다. 이러한 게인은 주파수 신호의 각 주파수 성분별로 결정될 수 있다. 그리고 이 게인 결정부(217)는 목적 신호의 주파수 신호와 추정된 잡음 신호의 주파수 신호 사이의 파워 비에 기초하여 이러한 게인을 생성한다.

이를 위해 게인 결정부(217)는, 잡음 구간 동안에 추정된 잡음 신호의 각 주파수 성분에서의 파워를 계산한다. 그리고 이 계산된 파워(바람직하게는 최종적으로 계산된 각 주파수 성분의 파워)와 각 목적 신호의 주파수 신호의 각 주파수 성분 사이의 파워 비를 이후 목적 구간 동안에 적용할 게인으로 결정할 수 있다.

아래 수학식 5는 주파수 신호의 각 주파수별로 게인을 계산하기 위한 예시적인 수학식이다. 이러한 각 주파수 별 게인은 이후 목적 신호의 각 주파수별로 곱해져서 음성 신호로 출력될 수 있다.

수학식 5

여기서, Ps 는 목적 신호의 지정된 주파수 성분의 파워(주파수 계수의 제곱)이고 Pn 은 수학식 2 또는 수학식 3의 상관 계수가 잡음 구간으로 추정시의 해당 오디오 프레임의 잡음 신호에 대응하는 주파수 성분의 파워이다.

이와 같은 게인과 잡음 신호의 잡음 구간 동안의 갱신으로 인해, 안정적으로 잡음 구간 동안에 필터 계수와 게인을 갱신할 수 있고 이후 이를 이용해서 음성 인식에 이용될 음성 신호를 추출할 수 있고 나아가 간단한 구조로 이러한 잡음 신호의 추출이 이루어질 수 있다.

음성 인식부(219)는, 음성 신호 생성부(211)에서 생성된 음성 신호에 음성 인식에 이용될 특징 벡터를 추출하고 이로부터 음성 검색에 이용될 특징 벡터와 비교하며 바람직하게는 프로세서(113)상에서 구현될 수 있다. 이러한 특징 벡터는 시간 도메인 상이나 주파수 도메인 상에서 추출될 수 있다.

이와 같은 음성 인식부(219)는 추출된 특징 벡터를 데이터 베이스 등에 저장된 특징 벡터와의 비교로 음성을 통한 검색 결과를 생성하거나 혹은 음성에 따른 제어 명령을 결정한다.

그리고 이 음성 인식부(219)는, 목적 구간 동안에 또는 잡음 구간 동안에 수행될 수 있으나, 바람직하게는 목적 구간 동안에 수행되는 것이 프로세서의 부하를 줄이도록 구성되고 불필요한 음성 인식을 줄일 수 있도록 한다.

기능 제어부(221)는, 음성 인식부(219)에서 생성된 검색 결과를 비디오 출력 인터페이스(103)를 통해 출력하거나 제어 명령에 따라 기능을 수행하며 바람직하게는 프로세서(113) 상에서 구현될 수 있다.

이와 같은 도 5의 기능 블록도에 의해서 여러 다양한 음원이 산재하는 노래방 환경하에서 음성 검색이나 명령을 위한 음성 신호를 용이하게 그리고 정확하게 추출할 수 있도록 한다.

도 6은, 음성 신호 추출 장치에서 이루어지는 음성 인식에 이용될 음성 신호를 추출하기 위한 제어 흐름을 도시한 도면이다. 이러한 음성 신호 추출 장치는 예를 들어 노래방에서 이용되는 리모콘이거나 곡목 검색기이거나 노래 반주 장치일 수 있다. 그리고 이 제어 흐름은 도 2 내지 도 4의 하드웨어 블록도 상에서 구현되고 바람직하게는 프로세서(113)에 구동되는 프로그램을 이용하여 수행될 수 있다.

이러한 도 6의 제어 흐름은, 음성 신호 추출 장치가 구동됨에 따라 자동으로 혹은 음성 신호 추출 장치의 입력 인터페이스(101)를 통해 음성 인식을 시작하도록 요청하는 기능 키를 수신함으로써 시작한다.

또한 이 제어 흐름은, 음성 신호 추출 장치의 구동이 종료됨에 따라 자동으로 혹은 음성 신호 추출 장치의 입력 인터페이스(101)를 통해 음성 인식의 종료를 요청하는 기능 키를 수신함으로써 종료한다.

제어 흐름에 대응하는 도 5의 기능 블록도 상에서 이미 상세히 살펴보았으므로, 여기서는 간단히 살펴보도록 한다.

먼저 단계 S101에서, 복수의 마이크 단자를 통해 수신된 아날로그 오디오 신호를 오디오 ADC(109)를 이용하여 지정된 개수로 구성된 오디오 프레임으로 각각 변환한다.

이후 단계 S103에서, 이 각각의 오디오 프레임에 대해서 주파수 도메인에서 의 주파수 신호로 변환되는 제 1 오디오 신호와 제 2 오디오 신호를 생성한다. 이러한 주파수 신호는 지정된 주파수 대역 내에서의 복수의 주파수 성분의 주파수 계수 값을 가질 수 있다.

여기서 이 제 2 오디오 신호는, 복수의 노래용 마이크 단자(115) 및/또는 잡음용 마이크 단자(117)의 아날로그 오디오 신호를 아날로그 레벨에서 믹싱한 후에 생성되는 시간 도메인 상의 디지털의 오디오 프레임을 주파수 도메인으로 변환한 주파수 신호일 수 있다.

혹은 이 제 2 오디오 신호는, 복수의 노래용 마이크 단자(115)의 아날로그 오디오 신호를 오디오 프레임으로 변환하고, 이후 노래 반주 장치 등과 같은 음성 신호 추출 장치 내부에서 생성된 연주음과 같은 디지털의 오디오 프레임을 디지털 적으로 합성한 후에 주파수 도메인으로 변환된 신호일 수 있다.

이후 단계 S105에서, 주파수 신호로 변환된 노래용 마이크 단자(115) 및/또는 잡음용 마이크 단자(117)로부터의 제 2 오디오 신호에 앞선 오디오 프레임에 대해서 계산된(잡음 구간인 경우) 또는 이미 계산되어 있는(목적 구간인 경우) 필터 계수를 적용하여 음성 신호의 추출에 이용될 잡음 신호를 추정한다.

이후 단계 S107에서, 주파수 신호로 변환된 음성 인식용 마이크 단자(119)로부터의 제 1 오디오 신호에서 추정된 잡음 신호를 차감하여 목적 신호를 생성한다.

이후 단계 S109에서, 제 1 오디오 신호와 제 2 오디오 신호에 기초하여 현재의 오디오 프레임이 잡음 구간인지 혹은 목적 구간인지를 추정한다.

이러한 추정은, 목적 신호와 추정된 잡음 신호 사이에서 결정되는 상관 계수에 의해서 결정될 수 있고, 만일 이 상관 계수가 지정된 임계치 이하인 경우에는 목적 구간으로 추정하고 지정된 임계치를 초과하는 경우에는 잡음 구간으로 추정할 수 있다.

혹은 이러한 추정은, 단계 S103에서 변환된 제 1 오디오 신호와 제 2 오디오 신호의 파워 비에 따라 목적 구간인지 혹은 잡음 구간인지를 결정할 수 있고, 예를 들어 연속적으로 수신된 복수의 오디오 프레임에 대하여 변환된 주파수 신호 사이의 파워 비에 따라 결정될 수 있다.

이후 단계 S111에서 구간 추정이 잡음 구간으로 추정된 경우에는 단계 S113으로 전이하고 그렇지 않은 경우에는 단계 S117로 전이한다.

잡음 구간으로 추정된 경우에는, 단계 S113에서 제 2 오디오 신호로부터 추정될 잡음 신호에 적용될 필터 계수를 갱신한다. 이러한 필터 계수는 현재 오디오 프레임 이후의 오디오 프레임에 대해서 적용될 수 있다.

그리고 이후 단계 S115에서 잡음 구간에서의 잡음 신호의 각 주파수 성분에 대한 파워를 결정한다. 이러한 파워는 이후 목적 구간(단계 S117 참조)에서 이용될 게인의 계산에 이용된다.

이 단계 S115 이후에, 단계 S101로 전이하여, 이후 오디오 프레임에 대해서 반복하고 이에 따라 단계 S113에서 갱신된 필터 계수는 단계 S105에서 다시 제 2 오디오 신호로부터 잡음 신호를 추정하는 데 이용된다.

만일 음성 인식에 이용될 음성 신호가 존재하는 목적 구간인 경우에는, 단계 S117에서 단계 S107에서 생성된 목적 신호에 적용할 게인을 결정한다. 이러한 게인은 각 주파수 성분별로 결정될 수 있고 잡음 구간에서 수행되는 단계 S115에서 결정된 잡음 신호의 각 주파수 성분의 파워를 이용하여 현재 오디오 프레임에 대해 생성된 목적 신호의 주파수 신호와 잡음 신호의 주파수 신호에 대한 파워 비를 통해 각 주파수 성분 별로 결정될 수 있다.

이후 단계 S119에서 이 결정된 게인을 이용하여 목적 신호로부터 음성 인식에 이용될 음성 신호를 생성하고 이후 단계 S101로 전이한다.

한편 이 단계 S117과 단계 S119는, 목적 구간 내에서만 수행될 필요는 없고 목적 구간이나 잡음 구간에 상관없이 수행되도록 구성할 수도 있다.

이러한 제어 흐름을 통해서, 잡음 구간과 목적 구간의 구분과 잡음 구간에서의 필터 계수의 안정적인 갱신으로 인해 이후 목적 구간에서의 신호 간의 차이가 발생하더라도 안정적으로 음성 신호를 추출할 수 있도록 하고 나아가 간단한 구조로 이러한 추출이 이루어질 수 있도록 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims

복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법으로서,

(a) 하나의 마이크를 통해 수신되는 제 1 오디오 신호와 상기 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 상기 음성 신호가 수신되는 목적 구간인지를 추정하는 단계;

(b) 상기 단계 (a)에서의 추정이 잡음 구간인 경우에, 상기 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는 단계; 및

(c) 음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는 단계;를 포함하며,

상기 필터 계수는, 잡음 구간인 동안에 갱신되는,

음성 신호의 추출 방법.
제1항에 있어서,

(d) 제 1 오디오 신호에서 상기 추정된 잡음 신호를 차감하여 목적 신호를 생성하는 단계;를 더 포함하며,

상기 단계 (a)는, 생성된 목적 신호와 추정된 잡음 신호 사이에 계산되는 상관 계수가, 지정된 임계치 이하인 경우에 목적 구간으로 추정하고, 지정된 임계치를 초과하는 경우에 잡음 구간으로 추정하는,

음성 신호의 추출 방법.
제1항에 있어서,

상기 단계 (a)는, 제 1 오디오 신호와 제 2 오디오 신호의 연속적으로 수신된 복수의 오디오 프레임에 대하여 변환된 주파수 신호 사이의 파워 비(ratio of power)에 따라 목적 구간인지 잡음 구간인지를 추정하는,

음성 신호의 추출 방법.
제2항에 있어서,

목적 신호의 주파수 신호와 상기 잡음 신호의 주파수 신호에 대한 파워(power)의 비에 기초하여, 목적 신호에 적용할 게인(gain)을 결정하는 단계; 및

결정된 게인을 이용하여 목적 신호로부터 음성 인식에 이용될 음성 신호를 생성하는 단계;를 더 포함하며,

상기 잡음 신호의 주파수 신호에 대한 파워는, 상기 잡음 구간인 동안에 결정되는,

음성 신호의 추출 방법.
제1항에 있어서,

상기 음성 신호 추출 방법은, 노래 반주 장치에서 수행되며,

상기 제 2 오디오 신호는, 복수의 마이크로부터 각각 수신된 아날로그 오디오 신호를 믹싱한 후에 생성되는 시간 도메인 상의 디지털의 오디오 프레임을 주파수 도메인으로 변환한 주파수 신호이거나, 상기 하나의 마이크와 상이한 복수의 마이크로부터 수신된 오디오 신호와 상기 노래 반주 장치에서 생성되어 출력되는 재생 음원의 오디오 신호를 합성한 후에 주파수 도메인으로 변환된 신호인,

음성 신호의 추출 방법.
복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 장치로서,

하나의 마이크를 통해 수신되는 제 1 오디오 신호와 상기 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 상기 음성 신호가 수신되는 목적 구간인지를 추정하는, 구간 추정부;

상기 구간 추정부에서의 추정이 잡음 구간인 경우에, 상기 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는, 계수 갱신부; 및

음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는, 잡음 신호 추정부를 포함하며,

상기 필터 계수는, 잡음 구간인 동안에 갱신되는,

음성 신호의 추출 장치.
제6항에 있어서

제 1 오디오 신호에서 상기 추정된 잡음 신호를 차감하여 목적 신호를 생성하는 목적 신호 생성부;를 더 포함하며,

상기 구간 추정부는, 생성된 목적 신호와 추정된 잡음 신호 사이에 계산되는 상관 계수가, 지정된 임계치 이하인 경우에 목적 구간으로 추정하고, 지정된 임계치를 초과하는 경우에 잡음 구간으로 추정하며,

상기 필터 계수는, 목적 신호의 주파수 신호가 최소가 되도록, 제 1 오디오 신호의 주파수 신호와 목적 신호의 주파수 신호와 제 2 오디오 신호의 주파수 신호의 관계에 따라 결정되는,

음성 신호의 추출 장치.
제7항에 있어서,

목적 신호의 주파수 신호와 상기 잡음 신호의 주파수 신호에 대한 파워의 비(ratio of power)에 기초하여, 목적 신호에 적용할 게인(gain)을 결정하는, 게인 결정부; 및

결정된 게인을 이용하여 목적 신호로부터 음성 인식에 이용될 음성 신호를 생성하는, 음성 신호 생성부;를 더 포함하며,

상기 잡음 신호의 주파수 신호에 대한 파워는, 상기 잡음 구간인 동안에 결정되는,

음성 신호의 추출 장치.
제6항에 있어서,

상기 하나의 마이크와 상이한 복수의 마이크로부터 각각 수신된 아날로그 오디오 신호를 합성하는 아날로그 합성부;

합성된 아날로그 오디오 신호로부터 디지털의 오디오 신호로 변환하기 위한 아날로그-디지털 변환부; 및

변환된 디지털의 오디오 신호를 주파수 도메인의 주파수 신호로 변환하여 상기 제 2 오디오 신호를 생성하기 위한 시간-주파수 변환부;를 더 포함하며,

상기 음성 신호의 추출 장치는, 노래 반주 장치인,

음성 신호의 추출 장치.
제6항에 있어서,

상기 구간 추정부는, 제 1 오디오 신호와 제 2 오디오 신호의 연속적으로 수신된 복수의 오디오 프레임에 대하여 변환된 주파수 신호 사이의 파워 비(ratio of power)에 따라 목적 구간인지 잡음 구간인지를 추정하는,

음성 신호의 추출 장치.