KR20120037954A - 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법 - Google Patents

음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20120037954A
KR20120037954A KR1020127001893A KR20127001893A KR20120037954A KR 20120037954 A KR20120037954 A KR 20120037954A KR 1020127001893 A KR1020127001893 A KR 1020127001893A KR 20127001893 A KR20127001893 A KR 20127001893A KR 20120037954 A KR20120037954 A KR 20120037954A
Authority
KR
South Korea
Prior art keywords
harmonic
frequency
harmonics
signals
signal
Prior art date
Application number
KR1020127001893A
Other languages
English (en)
Other versions
KR101344435B1 (ko
Inventor
마크 핀슨
Original Assignee
에스씨티아이 홀딩스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스씨티아이 홀딩스, 인크. filed Critical 에스씨티아이 홀딩스, 인크.
Publication of KR20120037954A publication Critical patent/KR20120037954A/ko
Application granted granted Critical
Publication of KR101344435B1 publication Critical patent/KR101344435B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 낮은 신호 대 잡음 비(들)를 갖는 신호 고조파를 무시하며, 음성과 부합하지 않는 진폭 변조를 무시하는, 잡음 채널 내에서 혹은 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 중점을 둔 주변 잡음과 함께 전해진 음성 신호를 프로세싱하기 위한 시스템 및 발명에 관한 것이다.

Description

음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법{SYSTEM AND METHOD FOR NOISE REDUCTION IN PROCESSING SPEECH SIGNALS BY TARGETING SPEECH AND DISREGARDING NOISE}
관련 특허의 교차 참조
본 출원은 2009년 7월 27일 출원된 미국 임시 특허 출원 제61/228,925의 우선권을 주장하며, 여기에 전체로서 통합된다.
본 발명은 음성 신호(speech signal)의 프로세싱에서의 잡음(noise) 감소에 관한 것이다. 더 구체적으로는, 본 발명은 잡음을 포함하는 음성 신호로부터 음성 정보를 추출하기 위한 적응성 필터의 사용에 관한 것이다.
자동 음성 인식 시스템(automatic speech recognition system, "ASR")은 구어(spoken words)를 포함하는 오디오 신호를 문자로 전환시킨다. 그러한 시스템의 "프론트 엔드(front end)"는 타겟 음성 신호로부터 중요한 식별 음성 "특징"을 추출함으로써 전환 프로세스를 개시한다. 타겟 음성 신호가 잡음에 의해 오류를 일으킬 때 자동 음성 인식 시스템의 특징-추출 실행은 상당히 저하된다. 확실히, 잡음은 많은 다른 실용 애플리케이션에서 자동 음성 인식 시스템의 광범위한 사용을 방해한다. 입력으로서 구어를 사용하며 보청기, 헤드폰, 혹은 무선, 유선 또는 인터넷 기반 보이스(voice) 통신과 같은, 더 명확하게 들리거나 이해시킬 목적으로 그러한 신호를 프로세싱하는 모든 다른 통신 혹은 청각 시스템에서도 마찬가지다.
현재의 잡음-감소 시스템은 그것을 모델링하고 신호로부터 그것을 뺌으로써 잡음을 경감시키려고 시도한다. 이러한 시스템들은 잡음 신호의 정확한 추정을 필요로 한다. 그러나, 잡음 신호는 변화가 많으며 잡음이 모델과 다르거나 혹은 만일 잡음이 시간에 따라 변경되면 이러한 기법들은 실패하거나 혹은 그것들의 유효성을 한정하기 때문에 정확한 추정이 매우 어렵다.
다른 방법들은 잡음에 오류가 생긴 음성을 인식하기 위하여 자동 음식 인식 시스템을 훈련하도록 시도하는 트레이닝 모델에 의존한다. 그러나, 환경 잡음 및 시스템 잡음의 규모는 자주 너무 크거나 동적이어서 필요한 신뢰도를 갖는 훈련 모델을 생산할 수 없다.
끝으로, 음성 인식을 향상시키는 음성의 고조파 본질(harmonic nature)을 사용하기 위하여 다른 방법들이 시도되었다. 그러나, 음성의 고조파 구조를 감지하고 기록하는 선행 시도들은 부적당하였다.
본 발명은 인간 음성 및 음성 정보를 지니지 않은 추출된 자료의 무시 부(disregarding portion)를 포함하는 잡음 신호로부터 음성 정보를 추출하기 위하여 필터를 사용하기 위한 시스템 및 방법에 관한 것이다.
본 발명의 몇몇 실시 예들은 잡음에 최소로 오류를 일으키는 고조파의 서브셋(subset)에 중점을 둔다. 본 발명의 몇몇 실시 예들은 낮은 신호 대 잡음 비를 갖는 신호 고조파의 무시를 포함한다. 몇몇 실시 예들은 음성과 부합하지 않는 진폭 변조의 무시를 포함한다. 본 발명의 바람직한 실시 예는 잡음에 의해 최소로 오류가 일어나는 고조파의 서브셋에 중점을 두며, 낮은 신호 대 잡음 비를 갖는 신호 고조파을 무시하고, 음성과 부합하지 않는 진폭 변조를 무시하는 신호를 프로세싱하는 시스템을 포함한다.
본 발명의 몇몇 실시 예들은 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세서를 갖는 시스템을 포함한다. 바람직한 실시 예들에서, 프로세서는 고조파 주파수 식별자, 적응성 필터 애플리케이터, 변조기(modulator), 전력 비 설치구(power ratio construction), 저전압 고조파 제거기, 및 비음성 고조파 제거기를 포함하는데, 상기 모듈은 잡음에 의해 최소로 오류가 일어나는 고조파의 서브셋에 중점을 두고, 낮은 신호 대 잡음 비를 갖는 신호 고조파을 무시하며, 음성과 부합하지 않는 진폭 변조를 무시하는 것과 같은 방식으로 신호를 프로세싱하도록 설정된다.
도 1a는 본 발명의 몇몇 실시 예들에 따른 피치(pitch) 및 그것의 고조파의 서브셋 내에 저장된 정보를 포함하는 단어를 발음한 인간 사용자의 시간에 따른 주파수를 표시한 그래프이며;
도 1b는 본 발명의 몇몇 실시 예들에 따라 시간에 따른 음성 신호 고조파의 진폭 변조의 값을 표시한 그래프이며;
도 2는 본 발명의 바람직한 실시 예에 따른 자동 음성 추출의 방법을 도시하며;
도 3a는 오리지널 보이스 신호의 스펙트로그램을 도시하며;
도 3b는 추가된 잡음 성분을 갖는 보이스 신호의 스펙트로그램을 도시하며;
도 3c는 본 발명의 몇몇 실시 예들에 따른 보이스 신호의 음성 변환 복원의 스펙트로그램을 도시하며;
도 4a는 본 발명의 몇몇 실시 예에 따른 자동 음성 추출의 시스템을 도시하며;
도 4b는 본 발명의 바람직한 실시 예에 따른 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세싱 엔진을 도시하며; 및
도 5는 기계가 본 발명의 논리 단계를 실행하도록 야기하기 위하여 그 안에 일련의 명령이 프로그램될 수 있는 컴퓨터 시스템의 바람직한 형태에서의 기계의 블록 다이어그램이다.
위에서 설명된 것과 같이, 컴퓨터가 식별할 수 있는 음성을 프로세싱하기 위한 시스템을 생성하기 위한 많은 시도들은 잡음을 모델링하고 제거하는데 중점을 두고 있고, 잡음 상태가 그것들의 모델로부터 변경될 때는 실패한다. 확실히, 이러한 이유 때문에, 그 중에서도, 최신의 자동 음성 인식 시스템은 인간 실행에 가까운 어디에도 존재하지 않는다. 보청기, 헤드폰, 혹은 무선, 유선 또는 인터넷 기반 보이스 통신 시스템과 같은, 보이스 입력을 사용하는 다른 시스템에서도 마찬가지다.
다른 한편으로는, 인간은 적당한 양의 서로 다른 형태의 잡음 내에서 그리고 시간 가변 조건 하에서 음성을 확실히 이해할 수 있다. 인간은 잡음을 제거함으로써가 아니라 그것을 무시하고 음성 정보 신호의 관련 양상에 더 집중적이고 선택적으로 주력함으로써 잡음 음성 신호에서 잡음에 대응한다. 잡음 감소에 대한 우리의 접근 목적은 최신 잡음 감소 기법이 하는 것보다 더 가깝게 인간 실행에 근접하는 것이다.
음성 신호는 기본 주파수, 예를 들면 "피치(pith)", 및 기본 주파수의 정수 배수, 예를 들면, "고조파"로 이루어진 고조파 구조를 포함한다. 유성음(voiced speech)은 피치 및 고조파에서의 에너지 집중(농도)을 갖는 고조파 구조를 나타낸다. 이는 유성음에서의 에너지가 피치 및 그것의 정수 배수 고조파 주파수의 주파수에 집중된다는 것을 의미한다.
본 발명은 이러한 고조파 구조를 감지하고 기록하는 시스템 및 방법인데, 이에 의해 음성 이해에 가장 관련 있는 신호의 양상이 추출된다.
발명자는 피치 및 그것의 고조파가 가장 높은 지역적 신호 대 잡음 비를 갖는다는 것을 관찰하였는데, 그 이유는 관련 에너지의 집중이 고조파에 존재하기 때문이다. 이는 잡음 레벨이 증가함에 따라, 고조파가 잡음 때문에 두드러지게 하기 위한 신호의 마지막 양상이라는 것을 의미한다. 고조파의 진폭 변조는 음성 지각(speech perception)을 위하여 사용되는 정보를 인코딩한다. 정보는 다소 과다하게 인코딩된다. 따라서, 음성 정보는 단지 고조파 서브셋에 의존하여 전달된다.
고조파의 서브셋으로의 집중은 인간이 음성을 이해하는 능력을 더 향상시키는데 그 이유는 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 대한 선택적 주의에 의해 메시지가 수신될 수 있기 때문이다. 본 발명의 바람직한 실시 예들은 잡음에 의해 최소로 오류를 일으키는 고조파의 서브셋에 대하여 선택적으로 집중하는 이러한 능력을 복제한다.
본 발명의 목적을 위하여, 용어 "잡음"은 주변 잡음, 채널 잡음, 및 그것들의 조합을 포함하나, 거기에 한정하지 않는 보이스 신호에서의 모든 원치 않는 사운드로 언급되어야 한다.
덜 오류를 일으킨 고조파에 선택적 집중을 허용하는 많은 방법들이 존재한다. 고조파의 서브셋에 대하여 선택적으로 집중하기 위하여 이러한 방법들은 분리되거나 혹은 조합하여 사용될 수 있다.
도 1a 및 1b는 유성음의 고조파 구조 및 고조파의 서브셋이 어떻게 다수의 음성 정보를 전달하는지를 도시하는 음성 신호의 고조파의 진폭 변조를 도시한다.
도 1a는 시간에 따라 단어 "하나(one)"를 발음한 인간 사용자의 주파수를 표시한(plot) 그래프이다. 도시된 것과 같이, 단어 "하나"는 시간 인덱스 37에서 시작하여 시간 인덱스 102에 달한다. 유성음의 고조파 구조가 분명하게 드러난다.
위에서 설명된 것과 같이, 음성 산호의 진폭 변조는 어떤 고조파가 가장 많은 음성 정보를 지니는가에 관한 정보를 제공한다. 도 1b는 위의 단어 "하나(one)"를 발음한 것의 시간에 따른 음성 신호 고조파의 진폭 변조의 값을 표시한 그래프이다. 도 1b에 도시된 것과 같이, 진폭 변조의 패턴은 음성 사운드를 나타낸다. 예를 들면, 단어의 끝에서 "n 발음" 동안에 가장 낮은 고조파만이 중요한 에너지를 갖는다.
위에서 설명된 것과 같이, 고조파의 서브셋에 대한 집중은 음성을 이해하는 인간의 능력을 더 향상시키는데 그 이유는 잡음에 의해 최소로 오류를 일으키는 고조파에 대한 선택적 주의에 의해 메시지가 수신될 수 있기 때문이다. 마찬가지로, 본 발명의 바람직한 실시 예들은 믿을만한 고조파 서브셋으로부터 음성을 복원하는 시스템 및 방법을 포함한다.
고조파의 변조는 음성이 생산됨에 따라 성도(vocal tract)의 설정의 변경에 의해 기인된다. 발명자는 음성 정보를 인코딩하는 고조파의 진폭 변조가 약 16㎐로 매우 느리다는 것을 관찰하였다.
약 16㎐보다 더 신속하게 고조파 진폭을 변조하는 잡음은 따라서 16㎐ 위의 변조 비율은 음성 소스(source)와 부합하지 않는다는 관찰에 의해 무시될 수 있으며 따라서 걸러낼 수 있다.
본 발명의 바람직한 실시 예는 세 가지의 분리된 메커니즘을 통하여 잡음을 감소시키는 시스템 및 방법을 포함한다. 우선, 모든 비고조파 에너지가 무시된다. 다음으로, 낮은 신호 대 잡음 비를 갖는 신호 고조파가 무시된다. 끝으로, 음성과 부합하지 않는 진폭 변조가 무시된다.
도 2는 본 발명의 바람직한 실시 예들에 따른 자동 음성 추출의 방법(200)을 도시한다. 방법(200)은 자동 음성 인식 시스템(201)에서의 보이스 신호의 전송 및 수용으로 시작한다. 다음으로, 그것의 고조파 주파수(202)와 함께, 보이스 신호의 피치가 식별된다.
보이스 신호의 피치는 신호 자체의 내재 특징을 프로세싱함으로써 식별된다. 유성음 동안에, 강한 고조파 패턴이 나타난다. 고조파는 피치의 정수 배수이다. 스펙트럼을 가로질러 국부적으로 가장 강한 에너지 집중을 추적하기 위하여 일련의 적응성 협대역(narrow band) 필터들이 사용된다. 이러한 필터들은 고조파 및 다른 강한 협대역 신호 상에 잠길 것이다. 고조파 계열과 부합하는 주파수를 선택하기 위하여 잠긴 주파수가 검사된다. 피치는 고조파 계열의 기본으로서 결정된다. 확실히, 피치를 결정하기 위하여 반드시 기본 상에 잠긴 필터를 가질 필요는 없다.
들어오는 음성 신호에서, 고조파는 말한 사람에 의해 변조된 진폭이다. 고조파 및 음성 소스와 부합하는 그것들의 진폭 변조를 분리함으로써, 많은 관련 음성 정보를 캡쳐하며 반면에 많은 관련 잡음을 무시한다. 제거된 많은 잡음을 갖는 신호를 복원하기 위하여, 우리는 음성 소스와 부합하지 않는 변조를 제거하기 위하여 진폭 패턴이 1㎐ 및 16㎐ 사이에서 대역 필터된(band pass filtered) 후에 각각의 선택된 고조파를 그것들 자체의 추출된 진폭 패턴으로 변조할 것이다.
일단 기본 주파수 및 그것들의 고조파가 식별되면, 비고조파 에너지(203)를 무시하기 위하여 하나 혹은 그 이상의 필터들이 신호에 적용된다. 적응성 협대역은 비고조파 에너지를 약화시키는 그것들의 협대역 밴드에 의해 필터링한다. 적응성 필터들은 순간 주파수 및 그것들의 출력으로부터 진폭을 추정하기 위한 프로세스를 사용한다. 순간 주파수 및 이러한 주파수의 출력의 진폭은 더 정밀한 추정을 제공하기 위하여 계산된다. 본 발명의 몇몇 실시 예들에서, 개량 프로세스는 출력이 안정화할 때까지 더 많은 사이클을 위하여 반복될 것이다. 마지막 추정은 고조파 성분을 기록하기 위한 다음 단계에서 광 필터를 위한 중심 주파수로서 사용된다.
다음으로, 고조파 만의 신호가 변조된다(204). 바람직한 실시 예에서, 변조 단계(204)는 진폭 변조를 포함한다.
방법은 진폭 변조된 고조파 신호(205)를 위한 신호 대 잡음 비를 구성하는 단계 및 잡음에 의해 최소로 오류를 일으키는 고조파에 집중하기 위하여 주어진 임계 진폭(206) 아래로 떨어지는 신호 대 잡음 비를 갖는 고조파를 무시하는 단계를 계속한다.
위에서 설명된 것과 같이, 오류를 덜 일으키는 고조파에 선택적 집중을 허용하는 많은 방법들이 존재한다. 이러한 방법들은 고조파의 서브셋에 선택적으로 집중하기 위하여 개별적으로 혹은 조합하여 사용될 수 있다.
본 발명의 몇몇 실시 예들에서, 시스템은 스펙트럼 신호 대 잡음 비가 오류를 일으키지 않는 고조파에 대하여 높다는 사실을 이용하여 잡음을 일으키는 고조파를 무시한다. 이러한 실시 예들은 고조파에 초점을 맞춘 협대역 및 광대역 모두를 정의하는 단계를 포함한다. 몇몇 실시 예들에서, 광대역은 피치로부터 피치와 멀리 떨어진 미리 결정된 거리로 양 방향으로 외부로 확장한다. 몇몇 실시 예들에서, 광대역은 다음의 더 낮은 고조파 및 다음의 더 높은 고조파에 대한 퍼센트 거리에서 확장한다. 바람직하게는, 광대역은 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파의 대체로 중간으로 확장하는데, 상기 대체로 중간은 가장 가까운 고조파의 거리의 40% 및 60% 사이를 포함한다. 다른 몇몇 실시 예들에서, 광대역은 다음의 더 낮은 고조파 주파수의 정확하게 중간 및 다음의 더 높은 고조파 주파수의 정확하게 중간으로 확장한다.
또한 협대역의 대역폭은 바람직하게는 트래킹 필터(tracking filter)에 의해 결정되나; 대역폭은 광대역의 대역폭보다 적을 수 있다. 오류를 일으키지 않는 음성 신호에 있어서, 모든 에너지는 고조파 근처에 집중된다.
따라서, 고조파 인근에서의 신호 대 잡음 비와 관련된 기능은 협대역에서의 에너지 대 광대역에서의 에너지 비로 계산될 수 있다. 따라서, 주어진 임계 진폭 아래로 떨어진 신호 대 잡음 비를 갖는 고조파를 무시하는 단계는 협대역에서의 에너지 대 광대역에서의 에너지 비가 미리 결정된 임계 값보다 높은 고조파를 무시하는 단계를 포함한다.
본 발명의 몇몇 실시 예들에서, 미리 결정된 임계 값은 시스템의 바람직한 실행을 기초로 하여 선택된다.
본 발명의 몇몇 실시 예들에서, 시스템은 각각의 고조파의 추정된 주파수는 고조파의 주파수 근처의 잡음 부품에 의해 영향을 받는다는 관찰을 이용하여 잡음을 일으키는 고조파를 무시한다. 잡음은 고조파 추정을 "끌어당길" 것이다. 고조파 계열의 주파수 관계가 고정되면, 주어진 고조파에 대하여, 남아 있는 고조파에 대한 참조가 고조파의 "기대되는" 주파수를 계산하기 위하여 사용될 수 있다. 그것의 기대 값으로부터의 고조파의 편차는 고조파 근처에서의 오류의 측정이다.
따라서, 본 발명의 몇몇 실시 예들은 피치를 기초로 한 고조파의 주파수를 추정하는 단계, 신호를 분석함으로써 관찰되는 실제 고조파의 주파수를 결정하는 단계, 추정된 주파수 및 관찰된 실제 주파수 사이의 편차 값을 결정하는 단계, 편차를 잡음으로 돌리는 단계, 및 편차 값이 미리 결정된 값을 초과하는 고조파를 무시하는 단계를 포함한다.
끝으로, 본 발명의 바람직한 실시 예들에서, 방법은 협대역에서의 에너지 대 광대역에서의 에너지 비를 사용하고 기대 값으로의 편차를 사용함으로써 잡음을 일으키는 고조파를 무시하며 덜 오류를 일으키는 고조파에 선택적으로 집중하기 위하여 제휴하여 사용된다.
끝으로, 방법(200)은 인간 음성(207)과 부합하지 않는 남은 진폭 변조 신호를 선택적으로 무시한다. 몇몇 실시 예들에서, 인간 음성과 부합하는 진폭 변조들은 추출된 진폭 패턴을 인간 음성의 특징적인 범위를 갖는 대역 통과 필터(band pass filter)로 통과시킴으로써 억압된다. 바람직하게는, 대역 통과 필터는 1㎐ 내지 16㎐의 범위를 갖는다.
음성 신호 인식의 최종 결과는 잡음이 없는 오디오 신호 및 오리지널 신호의 필수 성분에 근접하게 부합하기 위하여 복제되는 비 필수 인식 정보이다.
선행 기술은 음성 인식을 위한 추출을 특징으로 하는데 접근하며 잡음으로부터 음성 정보를 분리하기 위하여 다른 보이스 신호 프로세싱 사용은 개시된 방법(200)의 단계를 사용하지 않는다.
다른 한편으로, 방법(200)은 잡음의 중요한 레벨 하에서의 신뢰할만한 트래킹을 설명한다. 예를 들면, 도 3a 내지 3c는 본 발명의 장점을 나타내는 신호의 스펙트로그램을 도시한다.
도 3a는 오리지널 보이스 신호를 도시한다. 도 3b는 더해진 잡음 성분을 갖는 보이스 신호의 스펙트로그램을 도시한다. 끝으로, 도 3c는 본 발명의 몇몇 실시 예들에 따른 보이스 신호의 음성 변환 복원의 스펙트로그램을 도시한다. 도시된 것과 같이, 복원은 잡음 성분 없이 음성 신호를 정확하게 재생한다.
본 발명의 몇몇 실시 예들에서, 자동 음성 추출의 시스템은 자동 음성 추출을 실행하기 위한 방법(200)을 사용하도록 설정된 신호 프로세서를 포함한다.
도 4a는 발명의 몇몇 실시 예들에 따른 자동 음성 추출의 기본 시스템(400)을 도시한다. 도 4a에 따라, 입력 신호는 메모리(402)와 결합된 프로세서(401)로 보내진다. 본 발명의 바람직한 실시 예에서, 프로세서(401)는 도 2의 방법을 실행하도록 설정된다. 또한 본 발명의 바람직한 실시 예에서, 프로세서(401)는 필요로 하는 다양한 실행 단계를 실행하기 위한 복수의 프로세싱 모듈을 포함한다.
도 4a의 시스템(400)은 보청기, 헤드폰, 혹은 공대공(air-to-air) 및 지대공(ground-to-air) 통신을 포함하는, 무선, 유선 또는 인터넷에 의한 통신을 포함하나, 이에 한정하지 않는, 잡음 오류에 시달리는 입력으로서 구어를 사용하는 다른 모든 시스템 혹은 장치뿐만 아니라, 모든 자동 음성 인식에 통합될 수 있다.
도 4b는 본 발명의 바람직한 실시 예들에 따른 자동 음성 추출을 실행하기 위한 복수의 프로세싱 모듈을 포함하는 프로세싱 엔진(405)을 도시한다. 도 4b에 따라, 프로세싱 엔진(405)은 고조파 주파수 식별기(410), 적응성 필터 애플리케이터(420), 변조기(430), 전력 비 설치구(440), 저전압 고조파 제거기(450), 및 비음성 고조파 제거기(460)를 포함한다. 본 발명의 바람직한 실시 예들에 따라, 프로세싱 엔진(405)은 방법(200)을 실행하도록 설정된다.
도 5는 기계가 본 발명의 논리 단계를 실행하도록 야기하기 위하여 내부에 일련의 명령이 프로그래밍될 수 있는 컴퓨터 시스템(1600)의 바람직한 형태에서의 기계의 블록 다이어그램이다. 대안의 실시 예에서, 기계는 네트워크 라우터(network router), 네트워크 스위치(switch), 네트워크 브리지, 휴대 정보 단말기(PDA), 휴대폰, 웹 어프라이언스(Web appliances) 혹은 기계에 의해 취해지는 행동을 명시하는 명령 순서를 실행할 수 있는 모든 기계를 포함할 수 있다.
컴퓨터 시스템(1600)은 프로세서(1602), 메인 메모리(1604) 및 정적 메모리(static memory, 1606)를 포함하는데, 이는 버스(bus, 1608)를 통하여 서로 통신한다. 컴퓨터 시스템(1600)은 디스플레이 유닛(1610), 예를 들면 액정 디스플레이(LCD), 혹은 음극선관(cathode ray tube, CRT)을 더 포함할 수 있다. 컴퓨터 시스템(1600)은 또한 알파수치적 입력 장치(alphanumeric input device, 1612), 예를 들면, 키보드; 커서 제어 장치(1614), 예를 들면, 마우스; 디스크 드라이브 유닛(1616), 신호 발생 장치(1618), 예를 들면, 스피커, 및 네트워크 인터페이스 장치(1620)를 포함한다.
디스크 드라이브 유닛(1616)은 그 위에 실행가능한 기구 세트, 예를 들면, 여기서 아래에 설명되는 방법론 중 하나 혹은 모두를 구현하는 소프트웨어(1626)가 저장된 기계로 판독가능한 매체(1624)를 포함한다. 소프트웨어(1626)는 또한 메인 메모리(1604) 내에 및/또는 프로세서(1602) 내에 완전히 혹은 적어도 일부분 존재하도록 도시된다. 소프트웨어(1626)가 네트워크 인터페이스 장치(1620)에 의해 네트워크(1628, 1630)를 넘어 전송되거나 혹은 수신될 수 있다.
위에서 논의된 시스템(1600)과는 대조적으로, 서로 다른 실시 예는 프로세싱 실체를 구현하기 위하여 컴퓨터로 실행되는 기구 대신에 논리 회로(logic circuitry)를 사용한다. 속도, 비용, 장비 비용 등의 영역에서의 애플리케이션의 특정 요구사항에 따라, 논리는 수천 개의 작은 집적 트랜지스터를 갖는 주문형 집적 회로(application-specific integrated circuit, ASIC)를 구성함으로써 구현될 수 있다. 그러한 주문형 집적 회로는 씨모스(CMOS), 트랜지스터-트랜지스터 논리(TTL), 초대규모 시스템 집적(very large systems integration, VLSI), 혹은 다른 적합한 구성과 함께 구현될 수 있다.
다른 대안들은 디지털 신호 프로세싱 칩(DSP), 개별 회로(discrete circuitry; 저항기, 커패시터, 다이오드, 인덕터, 및 트랜지스터와 같은), 현장 프로그래머블 게이트 어레이(field programmable gate array, FPGA), 프로그래머블 논리 배열(PLD) 등을 포함한다.
실시 예들은 일부 프로세싱 코어(processing core, 컴퓨터의 중앙 처리 장치와 같은) 형태 상에서 실행되거나 혹은 그렇지 않으면 기계 혹은 컴퓨터로 판독가능한 매체 상에서 혹은 내에서 구현되거나 실현되는 소프트웨어 프로그램 혹은 소프트웨어 모듈을 지원하는 것과 같이 혹은 지원하기 위하여 사용될 수 있다는 것을 이해하여야 한다. 기계-판독가능 매체는 기계, 예를 들면 컴퓨터에 의해 판독가능한 형태로 정보를 저장하거나 전송하기 위한 모든 메커니즘을 포함한다. 예를 들면, 기계로 판독가능한 매체는 판독 전용 메모리(ROM); 임의 액세스 메모리(RAM); 자기 디스크 저장 매체; 광학 저장 매체; 플래시 메모리 장치; 전기적, 광학, 음향 혹은 다른 형태의 전파 신호, 예를 들면, 반송파(carrier waves), 적외선 신호, 디지털 신호 등; 혹은 정보를 저장하거나 전송하기에 적합한 모든 형태의 매체를 포함한다.
본 기술에 익숙한 자들에 의해 이해될 수 있는 것과 같이, 본 발명은 그것들의 정신 혹은 본질적인 특성으로부터 벗어남이 없이 다른 특정 형태로 구현될 수 있다. 마찬가지로, 구성의 특정 명칭과 분할, 특징, 속성, 및 다른 양상들은 의무적이거나 중요하지 않으며, 본 발명 혹은 그것의 특징을 구현하는 메커니즘들은 많은 다른 명칭, 분할 및 포맷을 가질 수 있다. 따라서, 본 발명의 개시는 구체적인 실례로서의 의도이나, 다음의 청구항에서 설명되는 본 발명의 범위를 한정하여서는 안된다.
207 : 인간 음성
401 : 프로세서
405 : 프로세싱 엔진
410 : 고조파 주파수 식별기
420 : 적응성 필터 애플리케이터
430 : 변조기
440 : 전력 비 설치구
450 : 저전압 고조파 제거기
460 : 비음성 고조파 제거기
1602 : 프로세서
1604 : 메인 메모리
1606 : 정적 메모리
1608 : 버스
1610 : 디스플레이 유닛
1612 : 알파수치적 입력 장치
1614 : 커서 제어 장치
1616 : 디스크 드라이브 유닛
1618 : 신호 발생 장치
1620 : 네트워크 인터페이스 장치
1624 : 기계로 판독가능한 매체
1626 : 소프트웨어
1628, 1630 : 네트워크

Claims (20)

  1. 자동 음성 추출 시스템 내의 보이스 신호를 수용하는 단계;
    상기 보이스 신호의 기본 주파수를 식별하는 단계;
    필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용하며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하는 단계;
    상기 하나 혹은 그 이상의 고조파만의 신호 상에 진폭 변조를 실행하는 단계;
    상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하는 단계;
    신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
    진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 포함하며, 결과 신호가 출력되는 것을 특징으로 하는, 자동 음성 추출에서 음성을 표적으로 하고 잡음을 무시하는 방법.
  2. 제 1항에 있어서, 상기 보이스 신호의 기본 주파수를 식별하는 단계는 디지털 필터를 갖는 상기 보이스 신호를 프로세싱하기 위하여 설정된 프로세서를 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 제 2항에 있어서, 상기 디지털 필터는 상기 보이스 신호의 전체 스펙트럼을 가로질러 상기 보이스 신호의 지역적으로 가장 강한 에너지 집중을 추적하도록 설정된 하나 혹은 그 이상의 적응성 협대역 필터를 포함하는 것을 특징으로 하는 방법.
  4. 제 3항에 있어서, 고조파 계열과 부합하는 지역적으로 가장 강한 에너지 집중을 선택하기 위하여 상기 프로세서를 설정하는 단계 및 기본 주파수로서 상기 지역적으로 가장 강한 에너지 집중과 관련된 주파수를 선택하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  5. 제 4항에 있어서, 상기 고조파 계열과 부합하는 하나 혹은 그 이상의 추가적인 지역적으로 가장 강한 에너지 집중을 선택하기 위하여 상기 프로세서를 설정하는 단계 및 상기 기본 주파수의 고조파로서 상기 고조파 계열과 부합하는 주파수들을 선택하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  6. 제 3항에 있어서, 상기 하나 혹은 그 이상의 적응성 협대역 필터를 설정하는 단계는:
    추정된 중심 주파수를 발생시키는 단계;
    순간 주파수 및 상기 보이스 신호의 진폭을 계산하기 위하여 추정된 중심 주파수를 사용하며, 그것에 의해 더 정확한 중심 주파수를 제공하는 단계; 및
    상기 추정된 중심 주파수를 상기 더 정확한 중심 주파수로 대체하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  7. 제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
    기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
    기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
    협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
    협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  8. 제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
    기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
    상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
    하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
    편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  9. 제 1항에 있어서, 상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
    기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
    기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
    협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
    협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
    기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
    상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
    하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
    편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
  10. 제 1항에 있어서, 상기 진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는 진폭 변조를 1㎐ 내지 16㎐ 범위를 갖는 대역 통과 필터에 통과시키는 단계를 더 포함하는 것을 특징으로 하는 방법.
  11. 실행될 때, 제 1항의 방법을 실행하는, 그 위에 저장된 명령을 갖는 실행가능한 컴퓨터로 판독가능한 매체.
  12. 자동 음성 추출 시스템 내의 보이스 신호를 수용하도록 설정된 보이스 신호 입력 장치;
    메모리 장치 및 상기 보이스 신호 입력 장치와 작동하여 결합되는 프로세서;를 포함하며,
    상기 프로세서는:
    상기 보이스 신호의 기본 주파수를 식별하도록 설정된 고조파 주파수 식별기;
    필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용시키며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하도록 설정된 필터 애플리케이터;
    진폭 변조를 상기 하나 혹은 그 이상의 고조파만의 신호 상에 실행하도록 설정된 변조기;
    상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하도록 설정된 전력 비 설치구;
    신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 저전압 고조파 제거기;
    진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 비음성 고조파 제거기;
    및 프로세싱된 신호 출력;을 포함하는 복수의 프로세싱 모듈을 포함하는 것을 특징으로 하는, 자동 음성 추출을 위하여 보이스 신호를 프로세싱하기 위한 장치.
  13. 제 12항에 있어서, 상기 필터 애플리케이터는 상기 보이스 신호의 전체 스펙트럼을 가로질러 상기 보이스 신호의 지역적으로 가장 강한 에너지 집중을 추적하도록 설정된 하나 혹은 그 이상의 적응성 협대역 필터로 설정된 것을 특징으로 하는 장치.
  14. 제 13항에 있어서, 상기 필터 애플리케이터는 고조파 계열과 부합하는 지역적으로 가장 강한 에너지 집중을 선택하고 기본 주파수로서 상기 지역적으로 가장 강한 에너지 집중과 관련된 주파수를 선택하도록 설정된 것을 특징으로 하는 장치.
  15. 제 14항에 있어서, 상기 필터 애플리케이터는 상기 고조파 계열과 부합하는 하나 혹은 그 이상의 추가적인 지역적으로 가장 강한 에너지 집중을 선택하고 상기 기본 주파수의 고조파로서 상기 고조파 계열과 부합하는 주파수들을 선택하도록 설정된 것을 특징으로 하는 방법.
  16. 제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수에 중점을 둔 기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하고 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하며, 기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하며, 및 협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
  17. 제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하고, 상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하며, 하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하며, 및 편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
  18. 제 12항에 있어서, 상기 저전압 고조파 제거기는 나아가 기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하고 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하며, 기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하며, 협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하며, 기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하며, 상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하며, 하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하며, 및 편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
  19. 제 12항에 있어서, 상기 비음성 고조파 제거기는 진폭 변조를 1㎐ 내지 16㎐ 범위를 갖는 대역 통과 필터에 통과시킴으로써 상기 한 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하도록 설정된 것을 특징으로 하는 장치.
  20. 자동 음성 추출 시스템 내의 보이스 신호를 수용하는 단계;
    상기 보이스 신호의 기본 주파수를 식별하는 단계;
    상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계;
    필터를 상기 기본 주파수 및 상기 하나 혹은 그 이상의 고조파에 적용하며, 그것에 의해 하나 혹은 그 이상의 고조파만의 신호를 형성하는 단계;
    상기 하나 혹은 그 이상의 고조파만의 신호 상에 진폭 변조를 실행하는 단계;
    상기 하나 혹은 그 이상의 고조파만의 신호를 위하여 하나 혹은 그 이상의 신호 대 잡음 비를 구성하는 단계;
    신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계; 및
    진폭 변조가 인간 음성과 부합하지 않는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 포함하며, 상기 그에 따른 신호는 출력이며,
    상기 신호 대 잡음 비가 임계 진폭 아래로 떨어진 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계는:
    기본 주파수에 중심을 둔 적어도 하나의 광대역을 정의하는 단계 및 다음의 더 낮은 고조파 주파수의 대체로 중간부터 다음의 더 높은 고조파 주파수의 대체로 중간으로 확장하는 단계;
    기본 주파수에 중심을 둔, 대역폭이 광대역의 대역폭보다 적은 적어도 하나의 협대역을 정의하는 단계;
    협대역에서의 에너지 대 광대역에서의 에너지의 비를 계산하는 단계; 및
    협대역에서의 에너지 대 광대역에서의 에너지의 비가 임계값보다 높은 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;
    기본 주파수를 기초로 한 하나 혹은 그 이상의 고조파의 주파수를 추정하는 단계;
    상기 기본 주파수의 하나 혹은 그 이상의 고조파를 식별하는 단계에서 관찰된 하나 혹은 그 이상의 고조파의 실제 주파수를 결정하는 단계;
    하나 혹은 그 이상의 고조파의 추정된 주파수 및 하나 혹은 그 이상의 고조파의 실제 주파수 사이의 편차 값을 결정하는 단계; 및
    편차 값이 미리 결정된 값을 초과하는 상기 하나 혹은 그 이상의 고조파만의 신호 가운데서 하나 혹은 그 이상의 신호를 무시하는 단계;를 더 포함하는 것을 특징으로 하는, 자동 음성 추출을 위하여 보이스 신호를 프로세싱하기 위한 방법.
KR1020127001893A 2009-07-27 2010-07-27 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법 KR101344435B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22892509P 2009-07-27 2009-07-27
US61/228,925 2009-07-27
PCT/US2010/043400 WO2011014512A1 (en) 2009-07-27 2010-07-27 System and method for noise reduction in processing speech signals by targeting speech and disregarding noise

Publications (2)

Publication Number Publication Date
KR20120037954A true KR20120037954A (ko) 2012-04-20
KR101344435B1 KR101344435B1 (ko) 2013-12-26

Family

ID=43529674

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127001893A KR101344435B1 (ko) 2009-07-27 2010-07-27 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법

Country Status (6)

Country Link
US (3) US8954320B2 (ko)
EP (1) EP2460157B1 (ko)
JP (1) JP5799013B2 (ko)
KR (1) KR101344435B1 (ko)
CN (1) CN102483926B (ko)
WO (1) WO2011014512A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102483926B (zh) * 2009-07-27 2013-07-24 Scti控股公司 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法
CN102625207B (zh) * 2012-03-19 2015-09-30 中国人民解放军总后勤部军需装备研究所 一种主动式噪声防护耳塞的声音信号处理方法
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) * 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US9208794B1 (en) 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
EP2876900A1 (en) * 2013-11-25 2015-05-27 Oticon A/S Spatial filter bank for hearing system
CN103594092A (zh) * 2013-11-25 2014-02-19 广东欧珀移动通信有限公司 一种单麦克风语音降噪方法和装置
US9508343B2 (en) 2014-05-27 2016-11-29 International Business Machines Corporation Voice focus enabled by predetermined triggers
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition
EP3121814A1 (en) * 2015-07-24 2017-01-25 Sound object techology S.A. in organization A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
KR20170051856A (ko) * 2015-11-02 2017-05-12 주식회사 아이티매직 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치
TWI662545B (zh) * 2018-06-22 2019-06-11 塞席爾商元鼎音訊股份有限公司 調整語音頻率之方法及其聲音播放裝置
CN108922558B (zh) * 2018-08-20 2020-11-27 广东小天才科技有限公司 一种语音处理方法、语音处理装置及移动终端
CN109358317B (zh) * 2018-09-30 2021-06-08 科大讯飞股份有限公司 一种鸣笛信号检测方法、装置、设备及可读存储介质
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232202T2 (de) * 1991-06-11 2002-07-25 Qualcomm, Inc. Vocoder mit veraendlicher bitrate
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6925435B1 (en) * 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
JP3586205B2 (ja) * 2001-02-22 2004-11-10 日本電信電話株式会社 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体
EP2254352A3 (en) * 2003-03-03 2012-06-13 Phonak AG Method for manufacturing acoustical devices and for reducing wind disturbances
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
WO2006032760A1 (fr) * 2004-09-16 2006-03-30 France Telecom Procede de traitement d'un signal sonore bruite et dispositif pour la mise en œuvre du procede
US7949520B2 (en) * 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
CN102483926B (zh) * 2009-07-27 2013-07-24 Scti控股公司 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法

Also Published As

Publication number Publication date
US9570072B2 (en) 2017-02-14
US9318120B2 (en) 2016-04-19
US8954320B2 (en) 2015-02-10
EP2460157B1 (en) 2020-02-26
JP2013500508A (ja) 2013-01-07
EP2460157A1 (en) 2012-06-06
EP2460157A4 (en) 2017-03-22
US20160232895A1 (en) 2016-08-11
KR101344435B1 (ko) 2013-12-26
CN102483926A (zh) 2012-05-30
US20120191450A1 (en) 2012-07-26
US20150154978A1 (en) 2015-06-04
WO2011014512A1 (en) 2011-02-03
CN102483926B (zh) 2013-07-24
JP5799013B2 (ja) 2015-10-21

Similar Documents

Publication Publication Date Title
KR101344435B1 (ko) 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법
KR101465379B1 (ko) 개선된 오디오 재생 방법 및 보청기
KR101540371B1 (ko) 신호 분류 방법 및 장치, 및 인코딩/디코딩 방법 및 장치
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
EP2808867A1 (en) Transient speech signal encoding method and device, decoding method and device, processing system and computer-readable storage medium
JP2007293285A (ja) 音声信号のフォルマントの強調および抽出
JPWO2014112110A1 (ja) 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム
CN112712816B (zh) 语音处理模型的训练方法和装置以及语音处理方法和装置
US20120271630A1 (en) Speech signal processing system, speech signal processing method and speech signal processing method program
KR102508550B1 (ko) 음악 구간 검출 장치 및 방법
EP2360686B9 (en) Signal processing method and apparatus for enhancing speech signals
CN105336339B (zh) 一种语音频信号的处理方法和装置
CN112992170B (zh) 模型训练方法及装置、存储介质及电子装置
US8064699B2 (en) Method and device for ascertaining feature vectors from a signal
CN109741761B (zh) 声音处理方法和装置
JP2008197247A (ja) 音声処理装置
CN111009259A (zh) 一种音频处理方法和装置
JP6451136B2 (ja) 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム
Na et al. Noise reduction algorithm with the soft thresholding based on the Shannon entropy and bone-conduction speech cross-correlation bands
JP2015215528A (ja) 音声強調装置、音声強調方法及びプログラム
CN109273003A (zh) 用于行车记录仪的语音控制方法及系统
Hoover et al. The consonant-weighted envelope difference index (cEDI): A proposed technique for quantifying envelope distortion
Yuan et al. A study on echo feature extraction based on the modified relative spectra (rasta) and perception linear prediction (plp) auditory model
TW202439297A (zh) 音訊設備及其操作方法
JP6451143B2 (ja) 音声帯域拡張装置及びプログラム、並びに、音声特徴量抽出装置及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161123

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181115

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200116

Year of fee payment: 7