KR20120037954A - 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법 - Google Patents
음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법 Download PDFInfo
- Publication number
- KR20120037954A KR20120037954A KR1020127001893A KR20127001893A KR20120037954A KR 20120037954 A KR20120037954 A KR 20120037954A KR 1020127001893 A KR1020127001893 A KR 1020127001893A KR 20127001893 A KR20127001893 A KR 20127001893A KR 20120037954 A KR20120037954 A KR 20120037954A
- Authority
- KR
- South Korea
- Prior art keywords
- harmonic
- frequency
- harmonics
- signals
- signal
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 title claims description 42
- 230000009467 reduction Effects 0.000 title description 4
- 230000008685 targeting Effects 0.000 title 1
- 238000000605 extraction Methods 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010332 selective attention Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000242757 Anthozoa Species 0.000 description 1
- 235000014653 Carica parviflora Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Noise Elimination (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 낮은 신호 대 잡음 비(들)를 갖는 신호 고조파를 무시하며, 음성과 부합하지 않는 진폭 변조를 무시하는, 잡음 채널 내에서 혹은 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 중점을 둔 주변 잡음과 함께 전해진 음성 신호를 프로세싱하기 위한 시스템 및 발명에 관한 것이다.
Description
관련 특허의 교차 참조
본 출원은 2009년 7월 27일 출원된 미국 임시 특허 출원 제61/228,925의 우선권을 주장하며, 여기에 전체로서 통합된다.
본 발명은 음성 신호(speech signal)의 프로세싱에서의 잡음(noise) 감소에 관한 것이다. 더 구체적으로는, 본 발명은 잡음을 포함하는 음성 신호로부터 음성 정보를 추출하기 위한 적응성 필터의 사용에 관한 것이다.
자동 음성 인식 시스템(automatic speech recognition system, "ASR")은 구어(spoken words)를 포함하는 오디오 신호를 문자로 전환시킨다. 그러한 시스템의 "프론트 엔드(front end)"는 타겟 음성 신호로부터 중요한 식별 음성 "특징"을 추출함으로써 전환 프로세스를 개시한다. 타겟 음성 신호가 잡음에 의해 오류를 일으킬 때 자동 음성 인식 시스템의 특징-추출 실행은 상당히 저하된다. 확실히, 잡음은 많은 다른 실용 애플리케이션에서 자동 음성 인식 시스템의 광범위한 사용을 방해한다. 입력으로서 구어를 사용하며 보청기, 헤드폰, 혹은 무선, 유선 또는 인터넷 기반 보이스(voice) 통신과 같은, 더 명확하게 들리거나 이해시킬 목적으로 그러한 신호를 프로세싱하는 모든 다른 통신 혹은 청각 시스템에서도 마찬가지다.
현재의 잡음-감소 시스템은 그것을 모델링하고 신호로부터 그것을 뺌으로써 잡음을 경감시키려고 시도한다. 이러한 시스템들은 잡음 신호의 정확한 추정을 필요로 한다. 그러나, 잡음 신호는 변화가 많으며 잡음이 모델과 다르거나 혹은 만일 잡음이 시간에 따라 변경되면 이러한 기법들은 실패하거나 혹은 그것들의 유효성을 한정하기 때문에 정확한 추정이 매우 어렵다.
다른 방법들은 잡음에 오류가 생긴 음성을 인식하기 위하여 자동 음식 인식 시스템을 훈련하도록 시도하는 트레이닝 모델에 의존한다. 그러나, 환경 잡음 및 시스템 잡음의 규모는 자주 너무 크거나 동적이어서 필요한 신뢰도를 갖는 훈련 모델을 생산할 수 없다.
끝으로, 음성 인식을 향상시키는 음성의 고조파 본질(harmonic nature)을 사용하기 위하여 다른 방법들이 시도되었다. 그러나, 음성의 고조파 구조를 감지하고 기록하는 선행 시도들은 부적당하였다.
본 발명은 인간 음성 및 음성 정보를 지니지 않은 추출된 자료의 무시 부(disregarding portion)를 포함하는 잡음 신호로부터 음성 정보를 추출하기 위하여 필터를 사용하기 위한 시스템 및 방법에 관한 것이다.
본 발명의 몇몇 실시 예들은 잡음에 최소로 오류를 일으키는 고조파의 서브셋(subset)에 중점을 둔다. 본 발명의 몇몇 실시 예들은 낮은 신호 대 잡음 비를 갖는 신호 고조파의 무시를 포함한다. 몇몇 실시 예들은 음성과 부합하지 않는 진폭 변조의 무시를 포함한다. 본 발명의 바람직한 실시 예는 잡음에 의해 최소로 오류가 일어나는 고조파의 서브셋에 중점을 두며, 낮은 신호 대 잡음 비를 갖는 신호 고조파을 무시하고, 음성과 부합하지 않는 진폭 변조를 무시하는 신호를 프로세싱하는 시스템을 포함한다.
본 발명의 몇몇 실시 예들은 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세서를 갖는 시스템을 포함한다. 바람직한 실시 예들에서, 프로세서는 고조파 주파수 식별자, 적응성 필터 애플리케이터, 변조기(modulator), 전력 비 설치구(power ratio construction), 저전압 고조파 제거기, 및 비음성 고조파 제거기를 포함하는데, 상기 모듈은 잡음에 의해 최소로 오류가 일어나는 고조파의 서브셋에 중점을 두고, 낮은 신호 대 잡음 비를 갖는 신호 고조파을 무시하며, 음성과 부합하지 않는 진폭 변조를 무시하는 것과 같은 방식으로 신호를 프로세싱하도록 설정된다.
도 1a는 본 발명의 몇몇 실시 예들에 따른 피치(pitch) 및 그것의 고조파의 서브셋 내에 저장된 정보를 포함하는 단어를 발음한 인간 사용자의 시간에 따른 주파수를 표시한 그래프이며;
도 1b는 본 발명의 몇몇 실시 예들에 따라 시간에 따른 음성 신호 고조파의 진폭 변조의 값을 표시한 그래프이며;
도 2는 본 발명의 바람직한 실시 예에 따른 자동 음성 추출의 방법을 도시하며;
도 3a는 오리지널 보이스 신호의 스펙트로그램을 도시하며;
도 3b는 추가된 잡음 성분을 갖는 보이스 신호의 스펙트로그램을 도시하며;
도 3c는 본 발명의 몇몇 실시 예들에 따른 보이스 신호의 음성 변환 복원의 스펙트로그램을 도시하며;
도 4a는 본 발명의 몇몇 실시 예에 따른 자동 음성 추출의 시스템을 도시하며;
도 4b는 본 발명의 바람직한 실시 예에 따른 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세싱 엔진을 도시하며; 및
도 5는 기계가 본 발명의 논리 단계를 실행하도록 야기하기 위하여 그 안에 일련의 명령이 프로그램될 수 있는 컴퓨터 시스템의 바람직한 형태에서의 기계의 블록 다이어그램이다.
도 1b는 본 발명의 몇몇 실시 예들에 따라 시간에 따른 음성 신호 고조파의 진폭 변조의 값을 표시한 그래프이며;
도 2는 본 발명의 바람직한 실시 예에 따른 자동 음성 추출의 방법을 도시하며;
도 3a는 오리지널 보이스 신호의 스펙트로그램을 도시하며;
도 3b는 추가된 잡음 성분을 갖는 보이스 신호의 스펙트로그램을 도시하며;
도 3c는 본 발명의 몇몇 실시 예들에 따른 보이스 신호의 음성 변환 복원의 스펙트로그램을 도시하며;
도 4a는 본 발명의 몇몇 실시 예에 따른 자동 음성 추출의 시스템을 도시하며;
도 4b는 본 발명의 바람직한 실시 예에 따른 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세싱 엔진을 도시하며; 및
도 5는 기계가 본 발명의 논리 단계를 실행하도록 야기하기 위하여 그 안에 일련의 명령이 프로그램될 수 있는 컴퓨터 시스템의 바람직한 형태에서의 기계의 블록 다이어그램이다.
위에서 설명된 것과 같이, 컴퓨터가 식별할 수 있는 음성을 프로세싱하기 위한 시스템을 생성하기 위한 많은 시도들은 잡음을 모델링하고 제거하는데 중점을 두고 있고, 잡음 상태가 그것들의 모델로부터 변경될 때는 실패한다. 확실히, 이러한 이유 때문에, 그 중에서도, 최신의 자동 음성 인식 시스템은 인간 실행에 가까운 어디에도 존재하지 않는다. 보청기, 헤드폰, 혹은 무선, 유선 또는 인터넷 기반 보이스 통신 시스템과 같은, 보이스 입력을 사용하는 다른 시스템에서도 마찬가지다.
다른 한편으로는, 인간은 적당한 양의 서로 다른 형태의 잡음 내에서 그리고 시간 가변 조건 하에서 음성을 확실히 이해할 수 있다. 인간은 잡음을 제거함으로써가 아니라 그것을 무시하고 음성 정보 신호의 관련 양상에 더 집중적이고 선택적으로 주력함으로써 잡음 음성 신호에서 잡음에 대응한다. 잡음 감소에 대한 우리의 접근 목적은 최신 잡음 감소 기법이 하는 것보다 더 가깝게 인간 실행에 근접하는 것이다.
음성 신호는 기본 주파수, 예를 들면 "피치(pith)", 및 기본 주파수의 정수 배수, 예를 들면, "고조파"로 이루어진 고조파 구조를 포함한다. 유성음(voiced speech)은 피치 및 고조파에서의 에너지 집중(농도)을 갖는 고조파 구조를 나타낸다. 이는 유성음에서의 에너지가 피치 및 그것의 정수 배수 고조파 주파수의 주파수에 집중된다는 것을 의미한다.
본 발명은 이러한 고조파 구조를 감지하고 기록하는 시스템 및 방법인데, 이에 의해 음성 이해에 가장 관련 있는 신호의 양상이 추출된다.
발명자는 피치 및 그것의 고조파가 가장 높은 지역적 신호 대 잡음 비를 갖는다는 것을 관찰하였는데, 그 이유는 관련 에너지의 집중이 고조파에 존재하기 때문이다. 이는 잡음 레벨이 증가함에 따라, 고조파가 잡음 때문에 두드러지게 하기 위한 신호의 마지막 양상이라는 것을 의미한다. 고조파의 진폭 변조는 음성 지각(speech perception)을 위하여 사용되는 정보를 인코딩한다. 정보는 다소 과다하게 인코딩된다. 따라서, 음성 정보는 단지 고조파 서브셋에 의존하여 전달된다.
고조파의 서브셋으로의 집중은 인간이 음성을 이해하는 능력을 더 향상시키는데 그 이유는 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 대한 선택적 주의에 의해 메시지가 수신될 수 있기 때문이다. 본 발명의 바람직한 실시 예들은 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 대하여 선택적으로 집중하는 이러한 능력을 복제한다.
본 발명의 목적을 위하여, 용어 "잡음"은 주변 잡음, 채널 잡음, 및 그것들의 조합을 포함하나, 거기에 한정하지 않는 보이스 신호에서의 모든 원치 않는 사운드로 언급되어야 한다.
덜 오류를 일으킨 고조파에 선택적 집중을 허용하는 많은 방법들이 존재한다. 고조파의 서브셋에 대하여 선택적으로 집중하기 위하여 이러한 방법들은 분리되거나 혹은 조합하여 사용될 수 있다.
도 1a 및 1b는 유성음의 고조파 구조 및 고조파의 서브셋이 어떻게 다수의 음성 정보를 전달하는지를 도시하는 음성 신호의 고조파의 진폭 변조를 도시한다.
도 1a는 시간에 따라 단어 "하나(one)"를 발음한 인간 사용자의 주파수를 표시한(plot) 그래프이다. 도시된 것과 같이, 단어 "하나"는 시간 인덱스 37에서 시작하여 시간 인덱스 102에 달한다. 유성음의 고조파 구조가 분명하게 드러난다.
위에서 설명된 것과 같이, 음성 산호의 진폭 변조는 어떤 고조파가 가장 많은 음성 정보를 지니는가에 관한 정보를 제공한다. 도 1b는 위의 단어 "하나(one)"를 발음한 것의 시간에 따른 음성 신호 고조파의 진폭 변조의 값을 표시한 그래프이다. 도 1b에 도시된 것과 같이, 진폭 변조의 패턴은 음성 사운드를 나타낸다. 예를 들면, 단어의 끝에서 "n 발음" 동안에 가장 낮은 고조파만이 중요한 에너지를 갖는다.
위에서 설명된 것과 같이, 고조파의 서브셋에 대한 집중은 음성을 이해하는 인간의 능력을 더 향상시키는데 그 이유는 잡음에 의해 최소로 오류를 일으키는 고조파에 대한 선택적 주의에 의해 메시지가 수신될 수 있기 때문이다. 마찬가지로, 본 발명의 바람직한 실시 예들은 믿을만한 고조파 서브셋으로부터 음성을 복원하는 시스템 및 방법을 포함한다.
고조파의 변조는 음성이 생산됨에 따라 성도(vocal tract)의 설정의 변경에 의해 기인된다. 발명자는 음성 정보를 인코딩하는 고조파의 진폭 변조가 약 16㎐로 매우 느리다는 것을 관찰하였다.
약 16㎐보다 더 신속하게 고조파 진폭을 변조하는 잡음은 따라서 16㎐ 위의 변조 비율은 음성 소스(source)와 부합하지 않는다는 관찰에 의해 무시될 수 있으며 따라서 걸러낼 수 있다.
본 발명의 바람직한 실시 예는 세 가지의 분리된 메커니즘을 통하여 잡음을 감소시키는 시스템 및 방법을 포함한다. 우선, 모든 비고조파 에너지가 무시된다. 다음으로, 낮은 신호 대 잡음 비를 갖는 신호 고조파가 무시된다. 끝으로, 음성과 부합하지 않는 진폭 변조가 무시된다.
도 2는 본 발명의 바람직한 실시 예들에 따른 자동 음성 추출의 방법(200)을 도시한다. 방법(200)은 자동 음성 인식 시스템(201)에서의 보이스 신호의 전송 및 수용으로 시작한다. 다음으로, 그것의 고조파 주파수(202)와 함께, 보이스 신호의 피치가 식별된다.
보이스 신호의 피치는 신호 자체의 내재 특징을 프로세싱함으로써 식별된다. 유성음 동안에, 강한 고조파 패턴이 나타난다. 고조파는 피치의 정수 배수이다. 스펙트럼을 가로질러 국부적으로 가장 강한 에너지 집중을 추적하기 위하여 일련의 적응성 협대역(narrow band) 필터들이 사용된다. 이러한 필터들은 고조파 및 다른 강한 협대역 신호 상에 잠길 것이다. 고조파 계열과 부합하는 주파수를 선택하기 위하여 잠긴 주파수가 검사된다. 피치는 고조파 계열의 기본으로서 결정된다. 확실히, 피치를 결정하기 위하여 반드시 기본 상에 잠긴 필터를 가질 필요는 없다.
들어오는 음성 신호에서, 고조파는 말한 사람에 의해 변조된 진폭이다. 고조파 및 음성 소스와 부합하는 그것들의 진폭 변조를 분리함으로써, 많은 관련 음성 정보를 캡쳐하며 반면에 많은 관련 잡음을 무시한다. 제거된 많은 잡음을 갖는 신호를 복원하기 위하여, 우리는 음성 소스와 부합하지 않는 변조를 제거하기 위하여 진폭 패턴이 1㎐ 및 16㎐ 사이에서 대역 필터된(band pass filtered) 후에 각각의 선택된 고조파를 그것들 자체의 추출된 진폭 패턴으로 변조할 것이다.
일단 기본 주파수 및 그것들의 고조파가 식별되면, 비고조파 에너지(203)를 무시하기 위하여 하나 혹은 그 이상의 필터들이 신호에 적용된다. 적응성 협대역은 비고조파 에너지를 약화시키는 그것들의 협대역 밴드에 의해 필터링한다. 적응성 필터들은 순간 주파수 및 그것들의 출력으로부터 진폭을 추정하기 위한 프로세스를 사용한다. 순간 주파수 및 이러한 주파수의 출력의 진폭은 더 정밀한 추정을 제공하기 위하여 계산된다. 본 발명의 몇몇 실시 예들에서, 개량 프로세스는 출력이 안정화할 때까지 더 많은 사이클을 위하여 반복될 것이다. 마지막 추정은 고조파 성분을 기록하기 위한 다음 단계에서 광 필터를 위한 중심 주파수로서 사용된다.
다음으로, 고조파 만의 신호가 변조된다(204). 바람직한 실시 예에서, 변조 단계(204)는 진폭 변조를 포함한다.
방법은 진폭 변조된 고조파 신호(205)를 위한 신호 대 잡음 비를 구성하는 단계 및 잡음에 의해 최소로 오류를 일으키는 고조파에 집중하기 위하여 주어진 임계 진폭(206) 아래로 떨어지는 신호 대 잡음 비를 갖는 고조파를 무시하는 단계를 계속한다.
위에서 설명된 것과 같이, 오류를 덜 일으키는 고조파에 선택적 집중을 허용하는 많은 방법들이 존재한다. 이러한 방법들은 고조파의 서브셋에 선택적으로 집중하기 위하여 개별적으로 혹은 조합하여 사용될 수 있다.
본 발명의 몇몇 실시 예들에서, 시스템은 스펙트럼 신호 대 잡음 비가 오류를 일으키지 않는 고조파에 대하여 높다는 사실을 이용하여 잡음을 일으키는 고조파를 무시한다. 이러한 실시 예들은 고조파에 초점을 맞춘 협대역 및 광대역 모두를 정의하는 단계를 포함한다. 몇몇 실시 예들에서, 광대역은 피치로부터 피치와 멀리 떨어진 미리 결정된 거리로 양 방향으로 외부로 확장한다. 몇몇 실시 예들에서, 광대역은 다음의 더 낮은 고조파 및 다음의 더 높은 고조파에 대한 퍼센트 거리에서 확장한다. 바람직하게는, 광대역은 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파의 대체로 중간으로 확장하는데, 상기 대체로 중간은 가장 가까운 고조파의 거리의 40% 및 60% 사이를 포함한다. 다른 몇몇 실시 예들에서, 광대역은 다음의 더 낮은 고조파 주파수의 정확하게 중간 및 다음의 더 높은 고조파 주파수의 정확하게 중간으로 확장한다.
또한 협대역의 대역폭은 바람직하게는 트래킹 필터(tracking filter)에 의해 결정되나; 대역폭은 광대역의 대역폭보다 적을 수 있다. 오류를 일으키지 않는 음성 신호에 있어서, 모든 에너지는 고조파 근처에 집중된다.
따라서, 고조파 인근에서의 신호 대 잡음 비와 관련된 기능은 협대역에서의 에너지 대 광대역에서의 에너지 비로 계산될 수 있다. 따라서, 주어진 임계 진폭 아래로 떨어진 신호 대 잡음 비를 갖는 고조파를 무시하는 단계는 협대역에서의 에너지 대 광대역에서의 에너지 비가 미리 결정된 임계 값보다 높은 고조파를 무시하는 단계를 포함한다.
본 발명의 몇몇 실시 예들에서, 미리 결정된 임계 값은 시스템의 바람직한 실행을 기초로 하여 선택된다.
본 발명의 몇몇 실시 예들에서, 시스템은 각각의 고조파의 추정된 주파수는 고조파의 주파수 근처의 잡음 부품에 의해 영향을 받는다는 관찰을 이용하여 잡음을 일으키는 고조파를 무시한다. 잡음은 고조파 추정을 "끌어당길" 것이다. 고조파 계열의 주파수 관계가 고정되면, 주어진 고조파에 대하여, 남아 있는 고조파에 대한 참조가 고조파의 "기대되는" 주파수를 계산하기 위하여 사용될 수 있다. 그것의 기대 값으로부터의 고조파의 편차는 고조파 근처에서의 오류의 측정이다.
따라서, 본 발명의 몇몇 실시 예들은 피치를 기초로 한 고조파의 주파수를 추정하는 단계, 신호를 분석함으로써 관찰되는 실제 고조파의 주파수를 결정하는 단계, 추정된 주파수 및 관찰된 실제 주파수 사이의 편차 값을 결정하는 단계, 편차를 잡음으로 돌리는 단계, 및 편차 값이 미리 결정된 값을 초과하는 고조파를 무시하는 단계를 포함한다.
끝으로, 본 발명의 바람직한 실시 예들에서, 방법은 협대역에서의 에너지 대 광대역에서의 에너지 비를 사용하고 기대 값으로의 편차를 사용함으로써 잡음을 일으키는 고조파를 무시하며 덜 오류를 일으키는 고조파에 선택적으로 집중하기 위하여 제휴하여 사용된다.
끝으로, 방법(200)은 인간 음성(207)과 부합하지 않는 남은 진폭 변조 신호를 선택적으로 무시한다. 몇몇 실시 예들에서, 인간 음성과 부합하는 진폭 변조들은 추출된 진폭 패턴을 인간 음성의 특징적인 범위를 갖는 대역 통과 필터(band pass filter)로 통과시킴으로써 억압된다. 바람직하게는, 대역 통과 필터는 1㎐ 내지 16㎐의 범위를 갖는다.
음성 신호 인식의 최종 결과는 잡음이 없는 오디오 신호 및 오리지널 신호의 필수 성분에 근접하게 부합하기 위하여 복제되는 비 필수 인식 정보이다.
선행 기술은 음성 인식을 위한 추출을 특징으로 하는데 접근하며 잡음으로부터 음성 정보를 분리하기 위하여 다른 보이스 신호 프로세싱 사용은 개시된 방법(200)의 단계를 사용하지 않는다.
다른 한편으로, 방법(200)은 잡음의 중요한 레벨 하에서의 신뢰할만한 트래킹을 설명한다. 예를 들면, 도 3a 내지 3c는 본 발명의 장점을 나타내는 신호의 스펙트로그램을 도시한다.
도 3a는 오리지널 보이스 신호를 도시한다. 도 3b는 더해진 잡음 성분을 갖는 보이스 신호의 스펙트로그램을 도시한다. 끝으로, 도 3c는 본 발명의 몇몇 실시 예들에 따른 보이스 신호의 음성 변환 복원의 스펙트로그램을 도시한다. 도시된 것과 같이, 복원은 잡음 성분 없이 음성 신호를 정확하게 재생한다.
본 발명의 몇몇 실시 예들에서, 자동 음성 추출의 시스템은 자동 음성 추출을 실행하기 위한 방법(200)을 사용하도록 설정된 신호 프로세서를 포함한다.
도 4a는 발명의 몇몇 실시 예들에 따른 자동 음성 추출의 기본 시스템(400)을 도시한다. 도 4a에 따라, 입력 신호는 메모리(402)와 결합된 프로세서(401)로 보내진다. 본 발명의 바람직한 실시 예에서, 프로세서(401)는 도 2의 방법을 실행하도록 설정된다. 또한 본 발명의 바람직한 실시 예에서, 프로세서(401)는 필요로 하는 다양한 실행 단계를 실행하기 위한 복수의 프로세싱 모듈을 포함한다.
도 4a의 시스템(400)은 보청기, 헤드폰, 혹은 공대공(air-to-air) 및 지대공(ground-to-air) 통신을 포함하는, 무선, 유선 또는 인터넷에 의한 통신을 포함하나, 이에 한정하지 않는, 잡음 오류에 시달리는 입력으로서 구어를 사용하는 다른 모든 시스템 혹은 장치뿐만 아니라, 모든 자동 음성 인식에 통합될 수 있다.
도 4b는 본 발명의 바람직한 실시 예들에 따른 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세싱 엔진(405)을 도시한다. 도 4b에 따라, 프로세싱 엔진(405)은 고조파 주파수 식별기(410), 적응성 필터 애플리케이터(420), 변조기(430), 전력 비 설치구(440), 저전압 고조파 제거기(450), 및 비음성 고조파 제거기(460)를 포함한다. 본 발명의 바람직한 실시 예들에 따라, 프로세싱 엔진(405)은 방법(200)을 실행하도록 설정된다.
도 5는 기계가 본 발명의 논리 단계를 실행하도록 야기하기 위하여 내부에 일련의 명령이 프로그래밍될 수 있는 컴퓨터 시스템(1600)의 바람직한 형태에서의 기계의 블록 다이어그램이다. 대안의 실시 예에서, 기계는 네트워크 라우터(network router), 네트워크 스위치(switch), 네트워크 브리지, 휴대 정보 단말기(PDA), 휴대폰, 웹 어프라이언스(Web appliances) 혹은 기계에 의해 취해지는 행동을 명시하는 명령 순서를 실행할 수 있는 모든 기계를 포함할 수 있다.
컴퓨터 시스템(1600)은 프로세서(1602), 메인 메모리(1604) 및 정적 메모리(static memory, 1606)를 포함하는데, 이는 버스(bus, 1608)를 통하여 서로 통신한다. 컴퓨터 시스템(1600)은 디스플레이 유닛(1610), 예를 들면 액정 디스플레이(LCD), 혹은 음극선관(cathode ray tube, CRT)을 더 포함할 수 있다. 컴퓨터 시스템(1600)은 또한 알파수치적 입력 장치(alphanumeric input device, 1612), 예를 들면, 키보드; 커서 제어 장치(1614), 예를 들면, 마우스; 디스크 드라이브 유닛(1616), 신호 발생 장치(1618), 예를 들면, 스피커, 및 네트워크 인터페이스 장치(1620)를 포함한다.
디스크 드라이브 유닛(1616)은 그 위에 실행가능한 기구 세트, 예를 들면, 여기서 아래에 설명되는 방법론 중 하나 혹은 모두를 구현하는 소프트웨어(1626)가 저장된 기계로 판독가능한 매체(1624)를 포함한다. 소프트웨어(1626)는 또한 메인 메모리(1604) 내에 및/또는 프로세서(1602) 내에 완전히 혹은 적어도 일부분 존재하도록 도시된다. 소프트웨어(1626)가 네트워크 인터페이스 장치(1620)에 의해 네트워크(1628, 1630)를 넘어 전송되거나 혹은 수신될 수 있다.
위에서 논의된 시스템(1600)과는 대조적으로, 서로 다른 실시 예는 프로세싱 실체를 구현하기 위하여 컴퓨터로 실행되는 기구 대신에 논리 회로(logic circuitry)를 사용한다. 속도, 비용, 장비 비용 등의 영역에서의 애플리케이션의 특정 요구사항에 따라, 논리는 수천 개의 작은 집적 트랜지스터를 갖는 주문형 집적 회로(application-specific integrated circuit, ASIC)를 구성함으로써 구현될 수 있다. 그러한 주문형 집적 회로는 씨모스(CMOS), 트랜지스터-트랜지스터 논리(TTL), 초대규모 시스템 집적(very large systems integration, VLSI), 혹은 다른 적합한 구성과 함께 구현될 수 있다.
다른 대안들은 디지털 신호 프로세싱 칩(DSP), 개별 회로(discrete circuitry; 저항기, 커패시터, 다이오드, 인덕터, 및 트랜지스터와 같은), 현장 프로그래머블 게이트 어레이(field programmable gate array, FPGA), 프로그래머블 논리 배열(PLD) 등을 포함한다.
실시 예들은 일부 프로세싱 코어(processing core, 컴퓨터의 중앙 처리 장치와 같은) 형태 상에서 실행되거나 혹은 그렇지 않으면 기계 혹은 컴퓨터로 판독가능한 매체 상에서 혹은 내에서 구현되거나 실현되는 소프트웨어 프로그램 혹은 소프트웨어 모듈을 지원하는 것과 같이 혹은 지원하기 위하여 사용될 수 있다는 것을 이해하여야 한다. 기계-판독가능 매체는 기계, 예를 들면 컴퓨터에 의해 판독가능한 형태로 정보를 저장하거나 전송하기 위한 모든 메커니즘을 포함한다. 예를 들면, 기계로 판독가능한 매체는 판독 전용 메모리(ROM); 임의 액세스 메모리(RAM); 자기 디스크 저장 매체; 광학 저장 매체; 플래시 메모리 장치; 전기적, 광학, 음향 혹은 다른 형태의 전파 신호, 예를 들면, 반송파(carrier waves), 적외선 신호, 디지털 신호 등; 혹은 정보를 저장하거나 전송하기에 적합한 모든 형태의 매체를 포함한다.
본 기술에 익숙한 자들에 의해 이해될 수 있는 것과 같이, 본 발명은 그것들의 정신 혹은 본질적인 특성으로부터 벗어남이 없이 다른 특정 형태로 구현될 수 있다. 마찬가지로, 구성의 특정 명칭과 분할, 특징, 속성, 및 다른 양상들은 의무적이거나 중요하지 않으며, 본 발명 혹은 그것의 특징을 구현하는 메커니즘들은 많은 다른 명칭, 분할 및 포맷을 가질 수 있다. 따라서, 본 발명의 개시는 구체적인 실례로서의 의도이나, 다음의 청구항에서 설명되는 본 발명의 범위를 한정하여서는 안된다.
207 : 인간 음성
401 : 프로세서
405 : 프로세싱 엔진
410 : 고조파 주파수 식별기
420 : 적응성 필터 애플리케이터
430 : 변조기
440 : 전력 비 설치구
450 : 저전압 고조파 제거기
460 : 비음성 고조파 제거기
1602 : 프로세서
1604 : 메인 메모리
1606 : 정적 메모리
1608 : 버스
1610 : 디스플레이 유닛
1612 : 알파수치적 입력 장치
1614 : 커서 제어 장치
1616 : 디스크 드라이브 유닛
1618 : 신호 발생 장치
1620 : 네트워크 인터페이스 장치
1624 : 기계로 판독가능한 매체
1626 : 소프트웨어
1628, 1630 : 네트워크
401 : 프로세서
405 : 프로세싱 엔진
410 : 고조파 주파수 식별기
420 : 적응성 필터 애플리케이터
430 : 변조기
440 : 전력 비 설치구
450 : 저전압 고조파 제거기
460 : 비음성 고조파 제거기
1602 : 프로세서
1604 : 메인 메모리
1606 : 정적 메모리
1608 : 버스
1610 : 디스플레이 유닛
1612 : 알파수치적 입력 장치
1614 : 커서 제어 장치
1616 : 디스크 드라이브 유닛
1618 : 신호 발생 장치
1620 : 네트워크 인터페이스 장치
1624 : 기계로 판독가능한 매체
1626 : 소프트웨어
1628, 1630 : 네트워크
Claims (20)
- 자동 음성 추출 시스템 내의 보이스 신호를 수용하는 단계;
상기 보이스 신호의 기본 주파수를 식별하는 단계;
필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용하며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하는 단계;
상기 하나 혹은 그 이상의 고조파만의 신호 상에 진폭 변조를 실행하는 단계;
상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하는 단계;
신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 포함하며, 결과 신호가 출력되는 것을 특징으로 하는, 자동 음성 추출에서 음성을 표적으로 하고 잡음을 무시하는 방법.
- 제 1항에 있어서, 상기 보이스 신호의 기본 주파수를 식별하는 단계는 디지털 필터를 갖는 상기 보이스 신호를 프로세싱하기 위하여 설정된 프로세서를 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 2항에 있어서, 상기 디지털 필터는 상기 보이스 신호의 전체 스펙트럼을 가로질러 상기 보이스 신호의 지역적으로 가장 강한 에너지 집중을 추적하도록 설정된 하나 혹은 그 이상의 적응성 협대역 필터를 포함하는 것을 특징으로 하는 방법.
- 제 3항에 있어서, 고조파 계열과 부합하는 지역적으로 가장 강한 에너지 집중을 선택하기 위하여 상기 프로세서를 설정하는 단계 및 기본 주파수로서 상기 지역적으로 가장 강한 에너지 집중과 관련된 주파수를 선택하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 4항에 있어서, 상기 고조파 계열과 부합하는 하나 혹은 그 이상의 추가적인 지역적으로 가장 강한 에너지 집중을 선택하기 위하여 상기 프로세서를 설정하는 단계 및 상기 기본 주파수의 고조파로서 상기 고조파 계열과 부합하는 주파수들을 선택하는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 제 3항에 있어서, 상기 하나 혹은 그 이상의 적응성 협대역 필터를 설정하는 단계는:
추정된 중심 주파수를 발생시키는 단계;
순간 주파수 및 상기 보이스 신호의 진폭을 계산하기 위하여 추정된 중심 주파수를 사용하며, 그것에 의해 더 정확한 중심 주파수를 제공하는 단계; 및
상기 추정된 중심 주파수를 상기 더 정확한 중심 주파수로 대체하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
- 제 1항에 있어서, 상기 진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는 진폭 변조를 1㎐ 내지 16㎐ 범위를 갖는 대역 통과 필터에 통과시키는 단계를 더 포함하는 것을 특징으로 하는 방법.
- 실행될 때, 제 1항의 방법을 실행하는, 그 위에 저장된 명령을 갖는 실행가능한 컴퓨터로 판독가능한 매체.
- 자동 음성 추출 시스템 내의 보이스 신호를 수용하도록 설정된 보이스 신호 입력 장치;
메모리 장치 및 상기 보이스 신호 입력 장치와 작동하여 결합되는 프로세서;를 포함하며,
상기 프로세서는:
상기 보이스 신호의 기본 주파수를 식별하도록 설정된 고조파 주파수 식별기;
필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용시키며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하도록 설정된 필터 애플리케이터;
진폭 변조를 상기 하나 혹은 그 이상의 고조파만의 신호 상에 실행하도록 설정된 변조기;
상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하도록 설정된 전력 비 설치구;
신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 저전압 고조파 제거기;
진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 비음성 고조파 제거기;
및 프로세싱된 신호 출력;을 포함하는 복수의 프로세싱 모듈을 포함하는 것을 특징으로 하는, 자동 음성 추출을 위하여 보이스 신호를 프로세싱하기 위한 장치.
- 제 12항에 있어서, 상기 필터 애플리케이터는 상기 보이스 신호의 전체 스펙트럼을 가로질러 상기 보이스 신호의 지역적으로 가장 강한 에너지 집중을 추적하도록 설정된 하나 혹은 그 이상의 적응성 협대역 필터로 설정된 것을 특징으로 하는 장치.
- 제 13항에 있어서, 상기 필터 애플리케이터는 고조파 계열과 부합하는 지역적으로 가장 강한 에너지 집중을 선택하고 기본 주파수로서 상기 지역적으로 가장 강한 에너지 집중과 관련된 주파수를 선택하도록 설정된 것을 특징으로 하는 장치.
- 제 14항에 있어서, 상기 필터 애플리케이터는 상기 고조파 계열과 부합하는 하나 혹은 그 이상의 추가적인 지역적으로 가장 강한 에너지 집중을 선택하고 상기 기본 주파수의 고조파로서 상기 고조파 계열과 부합하는 주파수들을 선택하도록 설정된 것을 특징으로 하는 방법.
- 제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수에 중점을 둔 기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하고 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하며, 기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하며, 및 협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
- 제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하고, 상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하며, 하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하며, 및 편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
- 제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하고 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하며, 기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하며, 기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하며, 상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하며, 하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하며, 및 편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
- 제 12항에 있어서, 상기 비음성 고조파 제거기는 진폭 변조를 1㎐ 내지 16㎐ 범위를 갖는 대역 통과 필터에 통과시킴으로써 상기 한 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
- 자동 음성 추출 시스템 내의 보이스 신호를 수용하는 단계;
상기 보이스 신호의 기본 주파수를 식별하는 단계;
상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계;
필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용하며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하는 단계;
상기 하나 혹은 그 이상의 고조파만의 신호 상에 진폭 변조를 실행하는 단계;
상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하는 단계;
신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계; 및
진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 포함하며, 상기 그에 따른 신호는 출력이며,
상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는, 자동 음성 추출을 위하여 보이스 신호를 프로세싱하기 위한 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22892509P | 2009-07-27 | 2009-07-27 | |
US61/228,925 | 2009-07-27 | ||
PCT/US2010/043400 WO2011014512A1 (en) | 2009-07-27 | 2010-07-27 | System and method for noise reduction in processing speech signals by targeting speech and disregarding noise |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120037954A true KR20120037954A (ko) | 2012-04-20 |
KR101344435B1 KR101344435B1 (ko) | 2013-12-26 |
Family
ID=43529674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127001893A KR101344435B1 (ko) | 2009-07-27 | 2010-07-27 | 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법 |
Country Status (6)
Country | Link |
---|---|
US (3) | US8954320B2 (ko) |
EP (1) | EP2460157B1 (ko) |
JP (1) | JP5799013B2 (ko) |
KR (1) | KR101344435B1 (ko) |
CN (1) | CN102483926B (ko) |
WO (1) | WO2011014512A1 (ko) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483926B (zh) * | 2009-07-27 | 2013-07-24 | Scti控股公司 | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 |
CN102625207B (zh) * | 2012-03-19 | 2015-09-30 | 中国人民解放军总后勤部军需装备研究所 | 一种主动式噪声防护耳塞的声音信号处理方法 |
US9484044B1 (en) | 2013-07-17 | 2016-11-01 | Knuedge Incorporated | Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms |
US9530434B1 (en) * | 2013-07-18 | 2016-12-27 | Knuedge Incorporated | Reducing octave errors during pitch determination for noisy audio signals |
US9208794B1 (en) | 2013-08-07 | 2015-12-08 | The Intellisis Corporation | Providing sound models of an input signal using continuous and/or linear fitting |
EP2876900A1 (en) * | 2013-11-25 | 2015-05-27 | Oticon A/S | Spatial filter bank for hearing system |
CN103594092A (zh) * | 2013-11-25 | 2014-02-19 | 广东欧珀移动通信有限公司 | 一种单麦克风语音降噪方法和装置 |
US9508343B2 (en) | 2014-05-27 | 2016-11-29 | International Business Machines Corporation | Voice focus enabled by predetermined triggers |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
EP3121814A1 (en) * | 2015-07-24 | 2017-01-25 | Sound object techology S.A. in organization | A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use |
KR20170051856A (ko) * | 2015-11-02 | 2017-05-12 | 주식회사 아이티매직 | 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치 |
TWI662545B (zh) * | 2018-06-22 | 2019-06-11 | 塞席爾商元鼎音訊股份有限公司 | 調整語音頻率之方法及其聲音播放裝置 |
CN108922558B (zh) * | 2018-08-20 | 2020-11-27 | 广东小天才科技有限公司 | 一种语音处理方法、语音处理装置及移动终端 |
CN109358317B (zh) * | 2018-09-30 | 2021-06-08 | 科大讯飞股份有限公司 | 一种鸣笛信号检测方法、装置、设备及可读存储介质 |
US11545143B2 (en) | 2021-05-18 | 2023-01-03 | Boris Fridman-Mintz | Recognition or synthesis of human-uttered harmonic sounds |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm, Inc. | Vocoder mit veraendlicher bitrate |
US5214708A (en) * | 1991-12-16 | 1993-05-25 | Mceachern Robert H | Speech information extractor |
TW271524B (ko) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
US6925435B1 (en) * | 2000-11-27 | 2005-08-02 | Mindspeed Technologies, Inc. | Method and apparatus for improved noise reduction in a speech encoder |
JP3586205B2 (ja) * | 2001-02-22 | 2004-11-10 | 日本電信電話株式会社 | 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体 |
EP2254352A3 (en) * | 2003-03-03 | 2012-06-13 | Phonak AG | Method for manufacturing acoustical devices and for reducing wind disturbances |
WO2004084182A1 (en) * | 2003-03-15 | 2004-09-30 | Mindspeed Technologies, Inc. | Decomposition of voiced speech for celp speech coding |
WO2006032760A1 (fr) * | 2004-09-16 | 2006-03-30 | France Telecom | Procede de traitement d'un signal sonore bruite et dispositif pour la mise en œuvre du procede |
US7949520B2 (en) * | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
EP1772855B1 (en) * | 2005-10-07 | 2013-09-18 | Nuance Communications, Inc. | Method for extending the spectral bandwidth of a speech signal |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8606566B2 (en) * | 2007-10-24 | 2013-12-10 | Qnx Software Systems Limited | Speech enhancement through partial speech reconstruction |
CN102483926B (zh) * | 2009-07-27 | 2013-07-24 | Scti控股公司 | 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法 |
-
2010
- 2010-07-27 CN CN2010800330923A patent/CN102483926B/zh not_active Expired - Fee Related
- 2010-07-27 WO PCT/US2010/043400 patent/WO2011014512A1/en active Application Filing
- 2010-07-27 KR KR1020127001893A patent/KR101344435B1/ko active IP Right Grant
- 2010-07-27 JP JP2012522970A patent/JP5799013B2/ja not_active Expired - Fee Related
- 2010-07-27 EP EP10804962.8A patent/EP2460157B1/en active Active
- 2010-07-27 US US13/387,058 patent/US8954320B2/en active Active
-
2015
- 2015-02-09 US US14/617,331 patent/US9318120B2/en active Active
-
2016
- 2016-04-18 US US15/131,234 patent/US9570072B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9570072B2 (en) | 2017-02-14 |
US9318120B2 (en) | 2016-04-19 |
US8954320B2 (en) | 2015-02-10 |
EP2460157B1 (en) | 2020-02-26 |
JP2013500508A (ja) | 2013-01-07 |
EP2460157A1 (en) | 2012-06-06 |
EP2460157A4 (en) | 2017-03-22 |
US20160232895A1 (en) | 2016-08-11 |
KR101344435B1 (ko) | 2013-12-26 |
CN102483926A (zh) | 2012-05-30 |
US20120191450A1 (en) | 2012-07-26 |
US20150154978A1 (en) | 2015-06-04 |
WO2011014512A1 (en) | 2011-02-03 |
CN102483926B (zh) | 2013-07-24 |
JP5799013B2 (ja) | 2015-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101344435B1 (ko) | 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법 | |
KR101465379B1 (ko) | 개선된 오디오 재생 방법 및 보청기 | |
KR101540371B1 (ko) | 신호 분류 방법 및 장치, 및 인코딩/디코딩 방법 및 장치 | |
Ganapathy et al. | Robust feature extraction using modulation filtering of autoregressive models | |
EP2808867A1 (en) | Transient speech signal encoding method and device, decoding method and device, processing system and computer-readable storage medium | |
JP2007293285A (ja) | 音声信号のフォルマントの強調および抽出 | |
JPWO2014112110A1 (ja) | 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム | |
CN112712816B (zh) | 语音处理模型的训练方法和装置以及语音处理方法和装置 | |
US20120271630A1 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program | |
KR102508550B1 (ko) | 음악 구간 검출 장치 및 방법 | |
EP2360686B9 (en) | Signal processing method and apparatus for enhancing speech signals | |
CN105336339B (zh) | 一种语音频信号的处理方法和装置 | |
CN112992170B (zh) | 模型训练方法及装置、存储介质及电子装置 | |
US8064699B2 (en) | Method and device for ascertaining feature vectors from a signal | |
CN109741761B (zh) | 声音处理方法和装置 | |
JP2008197247A (ja) | 音声処理装置 | |
CN111009259A (zh) | 一种音频处理方法和装置 | |
JP6451136B2 (ja) | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム | |
Na et al. | Noise reduction algorithm with the soft thresholding based on the Shannon entropy and bone-conduction speech cross-correlation bands | |
JP2015215528A (ja) | 音声強調装置、音声強調方法及びプログラム | |
CN109273003A (zh) | 用于行车记录仪的语音控制方法及系统 | |
Hoover et al. | The consonant-weighted envelope difference index (cEDI): A proposed technique for quantifying envelope distortion | |
Yuan et al. | A study on echo feature extraction based on the modified relative spectra (rasta) and perception linear prediction (plp) auditory model | |
TW202439297A (zh) | 音訊設備及其操作方法 | |
JP6451143B2 (ja) | 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20161123 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20181115 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20200116 Year of fee payment: 7 |