KR20120037954A

KR20120037954A - 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법

Info

Publication number: KR20120037954A
Application number: KR1020127001893A
Authority: KR
Inventors: 마크 핀슨
Original assignee: 에스씨티아이 홀딩스, 인크.
Priority date: 2009-07-27
Filing date: 2010-07-27
Publication date: 2012-04-20
Also published as: US9570072B2; US9318120B2; US8954320B2; EP2460157B1; JP2013500508A; EP2460157A1; EP2460157A4; US20160232895A1; KR101344435B1; CN102483926A; US20120191450A1; US20150154978A1; WO2011014512A1; CN102483926B; JP5799013B2

Abstract

본 발명은 낮은 신호 대 잡음 비(들)를 갖는 신호 고조파를 무시하며, 음성과 부합하지 않는 진폭 변조를 무시하는, 잡음 채널 내에서 혹은 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 중점을 둔 주변 잡음과 함께 전해진 음성 신호를 프로세싱하기 위한 시스템 및 발명에 관한 것이다.

Description

음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법{SYSTEM AND METHOD FOR NOISE REDUCTION IN PROCESSING SPEECH SIGNALS BY TARGETING SPEECH AND DISREGARDING NOISE}

관련 특허의 교차 참조

본 출원은 2009년 7월 27일 출원된 미국 임시 특허 출원 제61/228,925의 우선권을 주장하며, 여기에 전체로서 통합된다.

본 발명은 음성 신호(speech signal)의 프로세싱에서의 잡음(noise) 감소에 관한 것이다. 더 구체적으로는, 본 발명은 잡음을 포함하는 음성 신호로부터 음성 정보를 추출하기 위한 적응성 필터의 사용에 관한 것이다.

자동 음성 인식 시스템(automatic speech recognition system, "ASR")은 구어(spoken words)를 포함하는 오디오 신호를 문자로 전환시킨다. 그러한 시스템의 "프론트 엔드(front end)"는 타겟 음성 신호로부터 중요한 식별 음성 "특징"을 추출함으로써 전환 프로세스를 개시한다. 타겟 음성 신호가 잡음에 의해 오류를 일으킬 때 자동 음성 인식 시스템의 특징-추출 실행은 상당히 저하된다. 확실히, 잡음은 많은 다른 실용 애플리케이션에서 자동 음성 인식 시스템의 광범위한 사용을 방해한다. 입력으로서 구어를 사용하며 보청기, 헤드폰, 혹은 무선, 유선 또는 인터넷 기반 보이스(voice) 통신과 같은, 더 명확하게 들리거나 이해시킬 목적으로 그러한 신호를 프로세싱하는 모든 다른 통신 혹은 청각 시스템에서도 마찬가지다.

현재의 잡음-감소 시스템은 그것을 모델링하고 신호로부터 그것을 뺌으로써 잡음을 경감시키려고 시도한다. 이러한 시스템들은 잡음 신호의 정확한 추정을 필요로 한다. 그러나, 잡음 신호는 변화가 많으며 잡음이 모델과 다르거나 혹은 만일 잡음이 시간에 따라 변경되면 이러한 기법들은 실패하거나 혹은 그것들의 유효성을 한정하기 때문에 정확한 추정이 매우 어렵다.

다른 방법들은 잡음에 오류가 생긴 음성을 인식하기 위하여 자동 음식 인식 시스템을 훈련하도록 시도하는 트레이닝 모델에 의존한다. 그러나, 환경 잡음 및 시스템 잡음의 규모는 자주 너무 크거나 동적이어서 필요한 신뢰도를 갖는 훈련 모델을 생산할 수 없다.

끝으로, 음성 인식을 향상시키는 음성의 고조파 본질(harmonic nature)을 사용하기 위하여 다른 방법들이 시도되었다. 그러나, 음성의 고조파 구조를 감지하고 기록하는 선행 시도들은 부적당하였다.

본 발명은 인간 음성 및 음성 정보를 지니지 않은 추출된 자료의 무시 부(disregarding portion)를 포함하는 잡음 신호로부터 음성 정보를 추출하기 위하여 필터를 사용하기 위한 시스템 및 방법에 관한 것이다.

본 발명의 몇몇 실시 예들은 잡음에 최소로 오류를 일으키는 고조파의 서브셋(subset)에 중점을 둔다. 본 발명의 몇몇 실시 예들은 낮은 신호 대 잡음 비를 갖는 신호 고조파의 무시를 포함한다. 몇몇 실시 예들은 음성과 부합하지 않는 진폭 변조의 무시를 포함한다. 본 발명의 바람직한 실시 예는 잡음에 의해 최소로 오류가 일어나는 고조파의 서브셋에 중점을 두며, 낮은 신호 대 잡음 비를 갖는 신호 고조파을 무시하고, 음성과 부합하지 않는 진폭 변조를 무시하는 신호를 프로세싱하는 시스템을 포함한다.

본 발명의 몇몇 실시 예들은 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세서를 갖는 시스템을 포함한다. 바람직한 실시 예들에서, 프로세서는 고조파 주파수 식별자, 적응성 필터 애플리케이터, 변조기(modulator), 전력 비 설치구(power ratio construction), 저전압 고조파 제거기, 및 비음성 고조파 제거기를 포함하는데, 상기 모듈은 잡음에 의해 최소로 오류가 일어나는 고조파의 서브셋에 중점을 두고, 낮은 신호 대 잡음 비를 갖는 신호 고조파을 무시하며, 음성과 부합하지 않는 진폭 변조를 무시하는 것과 같은 방식으로 신호를 프로세싱하도록 설정된다.

도 1a는 본 발명의 몇몇 실시 예들에 따른 피치(pitch) 및 그것의 고조파의 서브셋 내에 저장된 정보를 포함하는 단어를 발음한 인간 사용자의 시간에 따른 주파수를 표시한 그래프이며;
도 1b는 본 발명의 몇몇 실시 예들에 따라 시간에 따른 음성 신호 고조파의 진폭 변조의 값을 표시한 그래프이며;
도 2는 본 발명의 바람직한 실시 예에 따른 자동 음성 추출의 방법을 도시하며;
도 3a는 오리지널 보이스 신호의 스펙트로그램을 도시하며;
도 3b는 추가된 잡음 성분을 갖는 보이스 신호의 스펙트로그램을 도시하며;
도 3c는 본 발명의 몇몇 실시 예들에 따른 보이스 신호의 음성 변환 복원의 스펙트로그램을 도시하며;
도 4a는 본 발명의 몇몇 실시 예에 따른 자동 음성 추출의 시스템을 도시하며;
도 4b는 본 발명의 바람직한 실시 예에 따른 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세싱 엔진을 도시하며; 및
도 5는 기계가 본 발명의 논리 단계를 실행하도록 야기하기 위하여 그 안에 일련의 명령이 프로그램될 수 있는 컴퓨터 시스템의 바람직한 형태에서의 기계의 블록 다이어그램이다.

위에서 설명된 것과 같이, 컴퓨터가 식별할 수 있는 음성을 프로세싱하기 위한 시스템을 생성하기 위한 많은 시도들은 잡음을 모델링하고 제거하는데 중점을 두고 있고, 잡음 상태가 그것들의 모델로부터 변경될 때는 실패한다. 확실히, 이러한 이유 때문에, 그 중에서도, 최신의 자동 음성 인식 시스템은 인간 실행에 가까운 어디에도 존재하지 않는다. 보청기, 헤드폰, 혹은 무선, 유선 또는 인터넷 기반 보이스 통신 시스템과 같은, 보이스 입력을 사용하는 다른 시스템에서도 마찬가지다.

다른 한편으로는, 인간은 적당한 양의 서로 다른 형태의 잡음 내에서 그리고 시간 가변 조건 하에서 음성을 확실히 이해할 수 있다. 인간은 잡음을 제거함으로써가 아니라 그것을 무시하고 음성 정보 신호의 관련 양상에 더 집중적이고 선택적으로 주력함으로써 잡음 음성 신호에서 잡음에 대응한다. 잡음 감소에 대한 우리의 접근 목적은 최신 잡음 감소 기법이 하는 것보다 더 가깝게 인간 실행에 근접하는 것이다.

음성 신호는 기본 주파수, 예를 들면 "피치(pith)", 및 기본 주파수의 정수 배수, 예를 들면, "고조파"로 이루어진 고조파 구조를 포함한다. 유성음(voiced speech)은 피치 및 고조파에서의 에너지 집중(농도)을 갖는 고조파 구조를 나타낸다. 이는 유성음에서의 에너지가 피치 및 그것의 정수 배수 고조파 주파수의 주파수에 집중된다는 것을 의미한다.

본 발명은 이러한 고조파 구조를 감지하고 기록하는 시스템 및 방법인데, 이에 의해 음성 이해에 가장 관련 있는 신호의 양상이 추출된다.

발명자는 피치 및 그것의 고조파가 가장 높은 지역적 신호 대 잡음 비를 갖는다는 것을 관찰하였는데, 그 이유는 관련 에너지의 집중이 고조파에 존재하기 때문이다. 이는 잡음 레벨이 증가함에 따라, 고조파가 잡음 때문에 두드러지게 하기 위한 신호의 마지막 양상이라는 것을 의미한다. 고조파의 진폭 변조는 음성 지각(speech perception)을 위하여 사용되는 정보를 인코딩한다. 정보는 다소 과다하게 인코딩된다. 따라서, 음성 정보는 단지 고조파 서브셋에 의존하여 전달된다.

고조파의 서브셋으로의 집중은 인간이 음성을 이해하는 능력을 더 향상시키는데 그 이유는 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 대한 선택적 주의에 의해 메시지가 수신될 수 있기 때문이다. 본 발명의 바람직한 실시 예들은 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 대하여 선택적으로 집중하는 이러한 능력을 복제한다.

본 발명의 목적을 위하여, 용어 "잡음"은 주변 잡음, 채널 잡음, 및 그것들의 조합을 포함하나, 거기에 한정하지 않는 보이스 신호에서의 모든 원치 않는 사운드로 언급되어야 한다.

덜 오류를 일으킨 고조파에 선택적 집중을 허용하는 많은 방법들이 존재한다. 고조파의 서브셋에 대하여 선택적으로 집중하기 위하여 이러한 방법들은 분리되거나 혹은 조합하여 사용될 수 있다.

도 1a 및 1b는 유성음의 고조파 구조 및 고조파의 서브셋이 어떻게 다수의 음성 정보를 전달하는지를 도시하는 음성 신호의 고조파의 진폭 변조를 도시한다.

도 1a는 시간에 따라 단어 "하나(one)"를 발음한 인간 사용자의 주파수를 표시한(plot) 그래프이다. 도시된 것과 같이, 단어 "하나"는 시간 인덱스 37에서 시작하여 시간 인덱스 102에 달한다. 유성음의 고조파 구조가 분명하게 드러난다.

위에서 설명된 것과 같이, 음성 산호의 진폭 변조는 어떤 고조파가 가장 많은 음성 정보를 지니는가에 관한 정보를 제공한다. 도 1b는 위의 단어 "하나(one)"를 발음한 것의 시간에 따른 음성 신호 고조파의 진폭 변조의 값을 표시한 그래프이다. 도 1b에 도시된 것과 같이, 진폭 변조의 패턴은 음성 사운드를 나타낸다. 예를 들면, 단어의 끝에서 "n 발음" 동안에 가장 낮은 고조파만이 중요한 에너지를 갖는다.

위에서 설명된 것과 같이, 고조파의 서브셋에 대한 집중은 음성을 이해하는 인간의 능력을 더 향상시키는데 그 이유는 잡음에 의해 최소로 오류를 일으키는 고조파에 대한 선택적 주의에 의해 메시지가 수신될 수 있기 때문이다. 마찬가지로, 본 발명의 바람직한 실시 예들은 믿을만한 고조파 서브셋으로부터 음성을 복원하는 시스템 및 방법을 포함한다.

고조파의 변조는 음성이 생산됨에 따라 성도(vocal tract)의 설정의 변경에 의해 기인된다. 발명자는 음성 정보를 인코딩하는 고조파의 진폭 변조가 약 16㎐로 매우 느리다는 것을 관찰하였다.

약 16㎐보다 더 신속하게 고조파 진폭을 변조하는 잡음은 따라서 16㎐ 위의 변조 비율은 음성 소스(source)와 부합하지 않는다는 관찰에 의해 무시될 수 있으며 따라서 걸러낼 수 있다.

본 발명의 바람직한 실시 예는 세 가지의 분리된 메커니즘을 통하여 잡음을 감소시키는 시스템 및 방법을 포함한다. 우선, 모든 비고조파 에너지가 무시된다. 다음으로, 낮은 신호 대 잡음 비를 갖는 신호 고조파가 무시된다. 끝으로, 음성과 부합하지 않는 진폭 변조가 무시된다.

도 2는 본 발명의 바람직한 실시 예들에 따른 자동 음성 추출의 방법(200)을 도시한다. 방법(200)은 자동 음성 인식 시스템(201)에서의 보이스 신호의 전송 및 수용으로 시작한다. 다음으로, 그것의 고조파 주파수(202)와 함께, 보이스 신호의 피치가 식별된다.

보이스 신호의 피치는 신호 자체의 내재 특징을 프로세싱함으로써 식별된다. 유성음 동안에, 강한 고조파 패턴이 나타난다. 고조파는 피치의 정수 배수이다. 스펙트럼을 가로질러 국부적으로 가장 강한 에너지 집중을 추적하기 위하여 일련의 적응성 협대역(narrow band) 필터들이 사용된다. 이러한 필터들은 고조파 및 다른 강한 협대역 신호 상에 잠길 것이다. 고조파 계열과 부합하는 주파수를 선택하기 위하여 잠긴 주파수가 검사된다. 피치는 고조파 계열의 기본으로서 결정된다. 확실히, 피치를 결정하기 위하여 반드시 기본 상에 잠긴 필터를 가질 필요는 없다.

들어오는 음성 신호에서, 고조파는 말한 사람에 의해 변조된 진폭이다. 고조파 및 음성 소스와 부합하는 그것들의 진폭 변조를 분리함으로써, 많은 관련 음성 정보를 캡쳐하며 반면에 많은 관련 잡음을 무시한다. 제거된 많은 잡음을 갖는 신호를 복원하기 위하여, 우리는 음성 소스와 부합하지 않는 변조를 제거하기 위하여 진폭 패턴이 1㎐ 및 16㎐ 사이에서 대역 필터된(band pass filtered) 후에 각각의 선택된 고조파를 그것들 자체의 추출된 진폭 패턴으로 변조할 것이다.

일단 기본 주파수 및 그것들의 고조파가 식별되면, 비고조파 에너지(203)를 무시하기 위하여 하나 혹은 그 이상의 필터들이 신호에 적용된다. 적응성 협대역은 비고조파 에너지를 약화시키는 그것들의 협대역 밴드에 의해 필터링한다. 적응성 필터들은 순간 주파수 및 그것들의 출력으로부터 진폭을 추정하기 위한 프로세스를 사용한다. 순간 주파수 및 이러한 주파수의 출력의 진폭은 더 정밀한 추정을 제공하기 위하여 계산된다. 본 발명의 몇몇 실시 예들에서, 개량 프로세스는 출력이 안정화할 때까지 더 많은 사이클을 위하여 반복될 것이다. 마지막 추정은 고조파 성분을 기록하기 위한 다음 단계에서 광 필터를 위한 중심 주파수로서 사용된다.

다음으로, 고조파 만의 신호가 변조된다(204). 바람직한 실시 예에서, 변조 단계(204)는 진폭 변조를 포함한다.

방법은 진폭 변조된 고조파 신호(205)를 위한 신호 대 잡음 비를 구성하는 단계 및 잡음에 의해 최소로 오류를 일으키는 고조파에 집중하기 위하여 주어진 임계 진폭(206) 아래로 떨어지는 신호 대 잡음 비를 갖는 고조파를 무시하는 단계를 계속한다.

위에서 설명된 것과 같이, 오류를 덜 일으키는 고조파에 선택적 집중을 허용하는 많은 방법들이 존재한다. 이러한 방법들은 고조파의 서브셋에 선택적으로 집중하기 위하여 개별적으로 혹은 조합하여 사용될 수 있다.

본 발명의 몇몇 실시 예들에서, 시스템은 스펙트럼 신호 대 잡음 비가 오류를 일으키지 않는 고조파에 대하여 높다는 사실을 이용하여 잡음을 일으키는 고조파를 무시한다. 이러한 실시 예들은 고조파에 초점을 맞춘 협대역 및 광대역 모두를 정의하는 단계를 포함한다. 몇몇 실시 예들에서, 광대역은 피치로부터 피치와 멀리 떨어진 미리 결정된 거리로 양 방향으로 외부로 확장한다. 몇몇 실시 예들에서, 광대역은 다음의 더 낮은 고조파 및 다음의 더 높은 고조파에 대한 퍼센트 거리에서 확장한다. 바람직하게는, 광대역은 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파의 대체로 중간으로 확장하는데, 상기 대체로 중간은 가장 가까운 고조파의 거리의 40% 및 60% 사이를 포함한다. 다른 몇몇 실시 예들에서, 광대역은 다음의 더 낮은 고조파 주파수의 정확하게 중간 및 다음의 더 높은 고조파 주파수의 정확하게 중간으로 확장한다.

또한 협대역의 대역폭은 바람직하게는 트래킹 필터(tracking filter)에 의해 결정되나; 대역폭은 광대역의 대역폭보다 적을 수 있다. 오류를 일으키지 않는 음성 신호에 있어서, 모든 에너지는 고조파 근처에 집중된다.

따라서, 고조파 인근에서의 신호 대 잡음 비와 관련된 기능은 협대역에서의 에너지 대 광대역에서의 에너지 비로 계산될 수 있다. 따라서, 주어진 임계 진폭 아래로 떨어진 신호 대 잡음 비를 갖는 고조파를 무시하는 단계는 협대역에서의 에너지 대 광대역에서의 에너지 비가 미리 결정된 임계 값보다 높은 고조파를 무시하는 단계를 포함한다.

본 발명의 몇몇 실시 예들에서, 미리 결정된 임계 값은 시스템의 바람직한 실행을 기초로 하여 선택된다.

본 발명의 몇몇 실시 예들에서, 시스템은 각각의 고조파의 추정된 주파수는 고조파의 주파수 근처의 잡음 부품에 의해 영향을 받는다는 관찰을 이용하여 잡음을 일으키는 고조파를 무시한다. 잡음은 고조파 추정을 "끌어당길" 것이다. 고조파 계열의 주파수 관계가 고정되면, 주어진 고조파에 대하여, 남아 있는 고조파에 대한 참조가 고조파의 "기대되는" 주파수를 계산하기 위하여 사용될 수 있다. 그것의 기대 값으로부터의 고조파의 편차는 고조파 근처에서의 오류의 측정이다.

따라서, 본 발명의 몇몇 실시 예들은 피치를 기초로 한 고조파의 주파수를 추정하는 단계, 신호를 분석함으로써 관찰되는 실제 고조파의 주파수를 결정하는 단계, 추정된 주파수 및 관찰된 실제 주파수 사이의 편차 값을 결정하는 단계, 편차를 잡음으로 돌리는 단계, 및 편차 값이 미리 결정된 값을 초과하는 고조파를 무시하는 단계를 포함한다.

끝으로, 본 발명의 바람직한 실시 예들에서, 방법은 협대역에서의 에너지 대 광대역에서의 에너지 비를 사용하고 기대 값으로의 편차를 사용함으로써 잡음을 일으키는 고조파를 무시하며 덜 오류를 일으키는 고조파에 선택적으로 집중하기 위하여 제휴하여 사용된다.

끝으로, 방법(200)은 인간 음성(207)과 부합하지 않는 남은 진폭 변조 신호를 선택적으로 무시한다. 몇몇 실시 예들에서, 인간 음성과 부합하는 진폭 변조들은 추출된 진폭 패턴을 인간 음성의 특징적인 범위를 갖는 대역 통과 필터(band pass filter)로 통과시킴으로써 억압된다. 바람직하게는, 대역 통과 필터는 1㎐ 내지 16㎐의 범위를 갖는다.

음성 신호 인식의 최종 결과는 잡음이 없는 오디오 신호 및 오리지널 신호의 필수 성분에 근접하게 부합하기 위하여 복제되는 비 필수 인식 정보이다.

선행 기술은 음성 인식을 위한 추출을 특징으로 하는데 접근하며 잡음으로부터 음성 정보를 분리하기 위하여 다른 보이스 신호 프로세싱 사용은 개시된 방법(200)의 단계를 사용하지 않는다.

다른 한편으로, 방법(200)은 잡음의 중요한 레벨 하에서의 신뢰할만한 트래킹을 설명한다. 예를 들면, 도 3a 내지 3c는 본 발명의 장점을 나타내는 신호의 스펙트로그램을 도시한다.

도 3a는 오리지널 보이스 신호를 도시한다. 도 3b는 더해진 잡음 성분을 갖는 보이스 신호의 스펙트로그램을 도시한다. 끝으로, 도 3c는 본 발명의 몇몇 실시 예들에 따른 보이스 신호의 음성 변환 복원의 스펙트로그램을 도시한다. 도시된 것과 같이, 복원은 잡음 성분 없이 음성 신호를 정확하게 재생한다.

본 발명의 몇몇 실시 예들에서, 자동 음성 추출의 시스템은 자동 음성 추출을 실행하기 위한 방법(200)을 사용하도록 설정된 신호 프로세서를 포함한다.

도 4a는 발명의 몇몇 실시 예들에 따른 자동 음성 추출의 기본 시스템(400)을 도시한다. 도 4a에 따라, 입력 신호는 메모리(402)와 결합된 프로세서(401)로 보내진다. 본 발명의 바람직한 실시 예에서, 프로세서(401)는 도 2의 방법을 실행하도록 설정된다. 또한 본 발명의 바람직한 실시 예에서, 프로세서(401)는 필요로 하는 다양한 실행 단계를 실행하기 위한 복수의 프로세싱 모듈을 포함한다.

도 4a의 시스템(400)은 보청기, 헤드폰, 혹은 공대공(air-to-air) 및 지대공(ground-to-air) 통신을 포함하는, 무선, 유선 또는 인터넷에 의한 통신을 포함하나, 이에 한정하지 않는, 잡음 오류에 시달리는 입력으로서 구어를 사용하는 다른 모든 시스템 혹은 장치뿐만 아니라, 모든 자동 음성 인식에 통합될 수 있다.

도 4b는 본 발명의 바람직한 실시 예들에 따른 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세싱 엔진(405)을 도시한다. 도 4b에 따라, 프로세싱 엔진(405)은 고조파 주파수 식별기(410), 적응성 필터 애플리케이터(420), 변조기(430), 전력 비 설치구(440), 저전압 고조파 제거기(450), 및 비음성 고조파 제거기(460)를 포함한다. 본 발명의 바람직한 실시 예들에 따라, 프로세싱 엔진(405)은 방법(200)을 실행하도록 설정된다.

도 5는 기계가 본 발명의 논리 단계를 실행하도록 야기하기 위하여 내부에 일련의 명령이 프로그래밍될 수 있는 컴퓨터 시스템(1600)의 바람직한 형태에서의 기계의 블록 다이어그램이다. 대안의 실시 예에서, 기계는 네트워크 라우터(network router), 네트워크 스위치(switch), 네트워크 브리지, 휴대 정보 단말기(PDA), 휴대폰, 웹 어프라이언스(Web appliances) 혹은 기계에 의해 취해지는 행동을 명시하는 명령 순서를 실행할 수 있는 모든 기계를 포함할 수 있다.

컴퓨터 시스템(1600)은 프로세서(1602), 메인 메모리(1604) 및 정적 메모리(static memory, 1606)를 포함하는데, 이는 버스(bus, 1608)를 통하여 서로 통신한다. 컴퓨터 시스템(1600)은 디스플레이 유닛(1610), 예를 들면 액정 디스플레이(LCD), 혹은 음극선관(cathode ray tube, CRT)을 더 포함할 수 있다. 컴퓨터 시스템(1600)은 또한 알파수치적 입력 장치(alphanumeric input device, 1612), 예를 들면, 키보드; 커서 제어 장치(1614), 예를 들면, 마우스; 디스크 드라이브 유닛(1616), 신호 발생 장치(1618), 예를 들면, 스피커, 및 네트워크 인터페이스 장치(1620)를 포함한다.

디스크 드라이브 유닛(1616)은 그 위에 실행가능한 기구 세트, 예를 들면, 여기서 아래에 설명되는 방법론 중 하나 혹은 모두를 구현하는 소프트웨어(1626)가 저장된 기계로 판독가능한 매체(1624)를 포함한다. 소프트웨어(1626)는 또한 메인 메모리(1604) 내에 및/또는 프로세서(1602) 내에 완전히 혹은 적어도 일부분 존재하도록 도시된다. 소프트웨어(1626)가 네트워크 인터페이스 장치(1620)에 의해 네트워크(1628, 1630)를 넘어 전송되거나 혹은 수신될 수 있다.

위에서 논의된 시스템(1600)과는 대조적으로, 서로 다른 실시 예는 프로세싱 실체를 구현하기 위하여 컴퓨터로 실행되는 기구 대신에 논리 회로(logic circuitry)를 사용한다. 속도, 비용, 장비 비용 등의 영역에서의 애플리케이션의 특정 요구사항에 따라, 논리는 수천 개의 작은 집적 트랜지스터를 갖는 주문형 집적 회로(application-specific integrated circuit, ASIC)를 구성함으로써 구현될 수 있다. 그러한 주문형 집적 회로는 씨모스(CMOS), 트랜지스터-트랜지스터 논리(TTL), 초대규모 시스템 집적(very large systems integration, VLSI), 혹은 다른 적합한 구성과 함께 구현될 수 있다.

다른 대안들은 디지털 신호 프로세싱 칩(DSP), 개별 회로(discrete circuitry; 저항기, 커패시터, 다이오드, 인덕터, 및 트랜지스터와 같은), 현장 프로그래머블 게이트 어레이(field programmable gate array, FPGA), 프로그래머블 논리 배열(PLD) 등을 포함한다.

실시 예들은 일부 프로세싱 코어(processing core, 컴퓨터의 중앙 처리 장치와 같은) 형태 상에서 실행되거나 혹은 그렇지 않으면 기계 혹은 컴퓨터로 판독가능한 매체 상에서 혹은 내에서 구현되거나 실현되는 소프트웨어 프로그램 혹은 소프트웨어 모듈을 지원하는 것과 같이 혹은 지원하기 위하여 사용될 수 있다는 것을 이해하여야 한다. 기계-판독가능 매체는 기계, 예를 들면 컴퓨터에 의해 판독가능한 형태로 정보를 저장하거나 전송하기 위한 모든 메커니즘을 포함한다. 예를 들면, 기계로 판독가능한 매체는 판독 전용 메모리(ROM); 임의 액세스 메모리(RAM); 자기 디스크 저장 매체; 광학 저장 매체; 플래시 메모리 장치; 전기적, 광학, 음향 혹은 다른 형태의 전파 신호, 예를 들면, 반송파(carrier waves), 적외선 신호, 디지털 신호 등; 혹은 정보를 저장하거나 전송하기에 적합한 모든 형태의 매체를 포함한다.

본 기술에 익숙한 자들에 의해 이해될 수 있는 것과 같이, 본 발명은 그것들의 정신 혹은 본질적인 특성으로부터 벗어남이 없이 다른 특정 형태로 구현될 수 있다. 마찬가지로, 구성의 특정 명칭과 분할, 특징, 속성, 및 다른 양상들은 의무적이거나 중요하지 않으며, 본 발명 혹은 그것의 특징을 구현하는 메커니즘들은 많은 다른 명칭, 분할 및 포맷을 가질 수 있다. 따라서, 본 발명의 개시는 구체적인 실례로서의 의도이나, 다음의 청구항에서 설명되는 본 발명의 범위를 한정하여서는 안된다.

207 : 인간 음성
401 : 프로세서
405 : 프로세싱 엔진
410 : 고조파 주파수 식별기
420 : 적응성 필터 애플리케이터
430 : 변조기
440 : 전력 비 설치구
450 : 저전압 고조파 제거기
460 : 비음성 고조파 제거기
1602 : 프로세서
1604 : 메인 메모리
1606 : 정적 메모리
1608 : 버스
1610 : 디스플레이 유닛
1612 : 알파수치적 입력 장치
1614 : 커서 제어 장치
1616 : 디스크 드라이브 유닛
1618 : 신호 발생 장치
1620 : 네트워크 인터페이스 장치
1624 : 기계로 판독가능한 매체
1626 : 소프트웨어
1628, 1630 : 네트워크

Claims

자동 음성 추출 시스템 내의 보이스 신호를 수용하는 단계;
상기 보이스 신호의 기본 주파수를 식별하는 단계;
필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용하며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하는 단계;
상기 하나 혹은 그 이상의 고조파만의 신호 상에 진폭 변조를 실행하는 단계;
상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하는 단계;
신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 포함하며, 결과 신호가 출력되는 것을 특징으로 하는, 자동 음성 추출에서 음성을 표적으로 하고 잡음을 무시하는 방법.
제 1항에 있어서, 상기 보이스 신호의 기본 주파수를 식별하는 단계는 디지털 필터를 갖는 상기 보이스 신호를 프로세싱하기 위하여 설정된 프로세서를 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 2항에 있어서, 상기 디지털 필터는 상기 보이스 신호의 전체 스펙트럼을 가로질러 상기 보이스 신호의 지역적으로 가장 강한 에너지 집중을 추적하도록 설정된 하나 혹은 그 이상의 적응성 협대역 필터를 포함하는 것을 특징으로 하는 방법.
제 3항에 있어서, 고조파 계열과 부합하는 지역적으로 가장 강한 에너지 집중을 선택하기 위하여 상기 프로세서를 설정하는 단계 및 기본 주파수로서 상기 지역적으로 가장 강한 에너지 집중과 관련된 주파수를 선택하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 4항에 있어서, 상기 고조파 계열과 부합하는 하나 혹은 그 이상의 추가적인 지역적으로 가장 강한 에너지 집중을 선택하기 위하여 상기 프로세서를 설정하는 단계 및 상기 기본 주파수의 고조파로서 상기 고조파 계열과 부합하는 주파수들을 선택하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 3항에 있어서, 상기 하나 혹은 그 이상의 적응성 협대역 필터를 설정하는 단계는:
추정된 중심 주파수를 발생시키는 단계;
순간 주파수 및 상기 보이스 신호의 진폭을 계산하기 위하여 추정된 중심 주파수를 사용하며, 그것에 의해 더 정확한 중심 주파수를 제공하는 단계; 및
상기 추정된 중심 주파수를 상기 더 정확한 중심 주파수로 대체하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서, 상기 진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는 진폭 변조를 1㎐ 내지 16㎐ 범위를 갖는 대역 통과 필터에 통과시키는 단계를 더 포함하는 것을 특징으로 하는 방법.
실행될 때, 제 1항의 방법을 실행하는, 그 위에 저장된 명령을 갖는 실행가능한 컴퓨터로 판독가능한 매체.
자동 음성 추출 시스템 내의 보이스 신호를 수용하도록 설정된 보이스 신호 입력 장치;
메모리 장치 및 상기 보이스 신호 입력 장치와 작동하여 결합되는 프로세서;를 포함하며,
상기 프로세서는:
상기 보이스 신호의 기본 주파수를 식별하도록 설정된 고조파 주파수 식별기;
필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용시키며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하도록 설정된 필터 애플리케이터;
진폭 변조를 상기 하나 혹은 그 이상의 고조파만의 신호 상에 실행하도록 설정된 변조기;
상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하도록 설정된 전력 비 설치구;
신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 저전압 고조파 제거기;
진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 비음성 고조파 제거기;
및 프로세싱된 신호 출력;을 포함하는 복수의 프로세싱 모듈을 포함하는 것을 특징으로 하는, 자동 음성 추출을 위하여 보이스 신호를 프로세싱하기 위한 장치.
제 12항에 있어서, 상기 필터 애플리케이터는 상기 보이스 신호의 전체 스펙트럼을 가로질러 상기 보이스 신호의 지역적으로 가장 강한 에너지 집중을 추적하도록 설정된 하나 혹은 그 이상의 적응성 협대역 필터로 설정된 것을 특징으로 하는 장치.
제 13항에 있어서, 상기 필터 애플리케이터는 고조파 계열과 부합하는 지역적으로 가장 강한 에너지 집중을 선택하고 기본 주파수로서 상기 지역적으로 가장 강한 에너지 집중과 관련된 주파수를 선택하도록 설정된 것을 특징으로 하는 장치.
제 14항에 있어서, 상기 필터 애플리케이터는 상기 고조파 계열과 부합하는 하나 혹은 그 이상의 추가적인 지역적으로 가장 강한 에너지 집중을 선택하고 상기 기본 주파수의 고조파로서 상기 고조파 계열과 부합하는 주파수들을 선택하도록 설정된 것을 특징으로 하는 방법.
제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수에 중점을 둔 기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하고 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하며, 기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하며, 및 협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하고, 상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하며, 하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하며, 및 편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하고 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하며, 기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하며, 기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하며, 상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하며, 하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하며, 및 편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
제 12항에 있어서, 상기 비음성 고조파 제거기는 진폭 변조를 1㎐ 내지 16㎐ 범위를 갖는 대역 통과 필터에 통과시킴으로써 상기 한 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
자동 음성 추출 시스템 내의 보이스 신호를 수용하는 단계;
상기 보이스 신호의 기본 주파수를 식별하는 단계;
상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계;
필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용하며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하는 단계;
상기 하나 혹은 그 이상의 고조파만의 신호 상에 진폭 변조를 실행하는 단계;
상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하는 단계;
신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계; 및
진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 포함하며, 상기 그에 따른 신호는 출력이며,
상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는, 자동 음성 추출을 위하여 보이스 신호를 프로세싱하기 위한 방법.