KR20140079369A - 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법 - Google Patents

사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법 Download PDF

Info

Publication number
KR20140079369A
KR20140079369A KR1020147006310A KR20147006310A KR20140079369A KR 20140079369 A KR20140079369 A KR 20140079369A KR 1020147006310 A KR1020147006310 A KR 1020147006310A KR 20147006310 A KR20147006310 A KR 20147006310A KR 20140079369 A KR20140079369 A KR 20140079369A
Authority
KR
South Korea
Prior art keywords
pitch
time sample
sample window
estimated
hood
Prior art date
Application number
KR1020147006310A
Other languages
English (en)
Inventor
데이비드 씨. 브래들리
다니엘 에스. 골딘
로버트 엔. 힐튼
니콜라스 케이. 피셔
로드니 가토
데릭 알. 루스
에릭 위비오라
Original Assignee
더 인텔리시스 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 인텔리시스 코포레이션 filed Critical 더 인텔리시스 코포레이션
Publication of KR20140079369A publication Critical patent/KR20140079369A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

오디오 신호를 프로세싱하기 위한 시스템 및 방법이 구성될 수 있다. 시스템 및 방법은 오디오 신호에 대한 피치, 처프 레이트, 및/또는 하모닉 엔벨로프를 트래킹할 수 있으며, 오디오 신호에 나타나는 사운드를 복원할 수 있으며, 및/또는 오디오 신호를 분할 또는 분류할 수 있다. 오디오 신호를 사운드 파라미터 트래킹, 복원, 및/또는 분류를 향상시키는 주파수 처프 도메인에 배치하도록 오디오 신호에 대한 변환이 수행될 수 있다.

Description

사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법{SYSTEM AND METHOD OF PROCESSING A SOUND SIGNAL INCLUDING TRANSFORMING THE SOUND SIGNAL INTO A FREQUENCY-CHIRP DOMAIN}
관련 출원들의 상호 참조
본 출원은, 2011년 8월 8일에 출원되었으며 그 전체 내용이 본 명세서에 참조로 통합되는 "SYSTEM AND METHOD OF PROCESSING A SOUND SIGNAL INCLUDING TRANSFORMING THE SOUND SIGNAL INTO A FREQUENCY-CHIRP DOMAIN"이라는 제목의 미국 특허 출원 제13/205,535호의 이익을 주장한다.
분야
본 발명은 오디오 신호를, 신호 강도와 연관된 계수를 주파수 및 부분 처프 레이트의 함수로 명시하는 주파수 처프 도메인 내에 두는 변환을 레버리징(leveraging)함으로써 오디오 신호를 프로세싱하는 것에 관한 것이다.
일반적으로, 통상의 사운드 프로세싱은 오디오 신호를 시간 도메인으로부터 개별 시간 윈도우들에 대한 주파수 도메인으로 변환하는 것을 포함한다. 다음으로, 추가적인 프로세싱이 수행되기 전에 신호 내에 나타나는 사운드와 노이즈를 서로 구분하기 위해, 주파수 도메인 내의 신호에 대해 다양한 유형의 신호 프로세싱 기술들과 알고리즘들이 수행될 수 있다. 다음으로, 이렇게 프로세싱된 신호는 피치, 엔벨로프 및/또는 그 외 다른 사운드 파라미터들과 같은 사운드 파라미터들을 결정하기 위해 분석될 수 있다. 신호 내에서 나타나는 사운드는 분류될 수 있다.
하모닉 사운드와 노이즈(신호 내에 나타나는 소닉 노이즈 또는 신호 노이즈)를 구분하기 위한 통상의 시도들은 하모닉 사운드들과 백그라운드 노이즈 사이를 구분하기 위한 신호를 "클린"하기 위한 시도들에 이를 수 있다. 불행히도, 종종, 이 통상의 기술들은 신호 내에 나타나는 하모닉 사운드뿐만 아니라 노이즈에 관한 정보의 손실을 초래한다. 이 정보의 손실은, 예를 들어, 하모닉 사운드의 사운드 파라미터(들)를 결정하고, 하모닉 사운드들을 분류하는 다운스트림 프로세싱 및/또는 그 외 다른 다운스트림 프로세싱의 정확성 및/또는 정밀성에 영향을 줄 수 있다.
본 발명의 일 양태는 오디오 신호를 프로세싱하도록 구성된 시스템 및 방법에 관한 것이다. 이 시스템 및 방법은 오디오 신호에 대한 피치, 처프 레이트 및/또는 하모닉 엔벨로프를 트래킹할 수 있고, 오디오 신호에 나타나는 사운드를 복원(reconstruct)할 수 있으며/있거나, 오디오 신호를 분할 또는 분류할 수 있다. 오디오 신호를, 사운드 파라미터 트래킹, 복원, 및/또는 분류를 향상시키는 주파수 처프 도메인에 두기 위해 오디오 신호에 대하여 변환이 수행될 수 있다.
시스템은 컴퓨터 프로그램 모듈들을 실행하도록 구성된 하나 이상의 프로세서들을 포함할 수 있다. 컴퓨터 프로그램 모듈들은 컴퓨터 프로그램 모듈들의 제1 세트, 제2 세트, 제3 세트, 제4 세트 및/또는 제5 세트 중 하나 이상을 포함할 수 있다.
제1 세트의 컴퓨터 프로그램 모듈들은 오디오 신호의 개별 시간 샘플 윈도우들을 주파수 처프 도메인으로 변환하도록 구성될 수 있다. 주어진 시간 샘플 윈도우의 주파수 처프 도메인 표현은 변환 계수를 신호 부분에 대한 주파수 및 부분 처프 레이트의 함수로서 명시할 수 있다. 제1 세트의 컴퓨터 프로그램 모듈들은 신호 모듈, 시간 샘플 윈도우 모듈, 변환 모듈 및/또는 다른 모듈들 중 하나 이상을 포함할 수 있다.
제2 세트의 컴퓨터 프로그램 모듈들은, 주어진 시간 샘플 윈도우에 대한 변환된 오디오 정보로부터, 시간 샘플 윈도우 내의 오디오 신호에 대한 피치 및 부분 처프 레이트의 함수인 피치 라이클리후드 메트릭을 결정하도록 구성될 수 있다. 제2 세트의 컴퓨터 프로그램 모듈들은, (i) 주어진 시간 샘플 윈도우에 대한 변환된 오디오 정보로부터, 시간 샘플 윈도우 내의 오디오 신호에 대한 주파수의 함수인 톤 라이클리후드 메트릭을 결정하고, (ii) 톤 라이클리후드 메트릭으로부터 주어진 시간 샘플 윈도우 대한 피치 라이클리후드 메트릭을 결정하도록 구성될 수 있다. 제2 세트의 컴퓨터 프로그램 모듈들은 톤 라이클리후드 모듈, 피치 라이클리후드 모듈 및/또는 그외 다른 모듈들 중 하나 이상을 포함할 수 있다.
제3 세트의 컴퓨터 프로그램 모듈들은, 피치 라이클리후드 메트릭에 기초하여, 개별 시간 샘플 윈도우들에 대해 추정된 피치 및 추정된 부분 처프 레이트를 결정하도록 구성될 수 있다. 제3 세트의 컴퓨터 프로그램 모듈들은, (i) 시간 샘플 윈도우들을 프로세싱 시간 윈도우들 내의 그룹들로 분할하고, (ii) 주어진 프로세싱 시간 윈도우들 내의 프라이머리 시간 샘플 윈도우를 식별하며, (iii) 프로세싱 시간 윈도우를 통해 프라이머리 시간 샘플 윈도우로부터 프로세싱 시간 윈도우의 경계들 중 한쪽 또는 양쪽을 향해 반복하고 주어진 시간 샘플 윈도우에 인접한 시간 샘플 윈도우에 대해 결정된 사운드의 파라미터들에 기초하여 가중된 피치 라이클리후드 메트릭의 값들로부터 주어진 시간 샘플 윈도우에 대해 추정된 피치 및 추정된 부분 처프 레이트를 결정함으로써, 주어진 프로세싱 시간 윈도우 내의 시간 샘플 윈도우들에 대한 피치를 결정하도록 구성될 수 있다. 제3 세트의 하나 이상의 컴퓨터 프로그램 모듈들은, 주어진 시간 샘플 윈도우 내의 피치 라이클리후드 메트릭을 가중하는 데에 사용되는 인접 시간 샘플 윈도우 내의 사운드의 파라미터들이 추정된 피치, 추정된 처프 또는 하모닉 엔벨로프 중 하나 이상을 포함하도록 구성될 수 있다. 제3 세트의 컴퓨터 프로그램 모듈들은, 프로세싱 시간 윈도우 모듈, 프라이머리 윈도우 모듈, 피치 추정 모듈, 피치 예측 모듈, 엔벨로프 벡터 모듈, 엔벨로프 상관 모듈, 가중 모듈, 추정된 피치 취합 모듈, 보이싱된 섹션 모듈, 및/또는 다른 모듈들 중 하나 이상을 포함할 수 있다.
제4 세트의 컴퓨터 프로그램 모듈들은, 제1 세트의 컴퓨터 프로그램 모듈들에 의해 생성된 변환된 오디오 정보 및/또는 제3 세트의 컴퓨터 프로그램 모듈들에 의해 결정된 추정된 피치 및 추정된 처프 레이트의 한쪽 또는 양쪽에 기초하여, 오디오 신호에 나타나는 사운드를 복원할 수 있도록 구성될 수 있다. 제4 세트의 컴퓨터 프로그램 모듈들은 재합성 모듈, 노이즈 차감 모듈, 펜스 모델 모듈, 복원 모듈 및/또는 다른 모듈들 중 하나 이상을 포함할 수 있다
제5 세트의 컴퓨터 프로그램 모듈들은, 제1 세트의 컴퓨터 프로그램 모듈들에 의해 생성된 변환 오디오 정보 및/또는 제3 세트의 컴퓨터 프로그램 모듈들에 의해 결정된 추정된 피치 및 추정된 처프 레이트의 한쪽 또는 양쪽에 기초하여, 오디오 신호 내에서 나타나는 하나 이상의 사운드를 보이싱하는 하나 이상의 스피커들을 분류하도록 구성될 수 있다. 제5 세트의 컴퓨터 프로그램 모듈들은 오디오 피쳐 모듈, 정보 감축 모듈, 스펙트럼 슬로프 모듈, 노이즈 추정기 모듈, 취합 스코어 모듈, 트레이닝 모둘 및/또는 다른 모듈들 중 하나 이상을 포함할 수 있다.
본 명세서에 개시된 시스템 및/또는 방법의 전술한 그리고 그외 다른 목적들, 특성들, 특징들뿐만 아니라 구조물의 관련 요소들의 동작 방법들 및 기능과, 부분들의 조합, 제조의 경제성은, 본 명세서의 일부를 형성하는 이하의 기술들과 첨부된 특허청구범위를 동일한 번호가 다양한 형상들에서 대응하는 부분들을 지시하는 도면과 함께 참조하면 보다 더 명확해질 것이다. 그러나, 도면들은 설명 및 해설을 위한 것일 뿐이며 본 발명의 제한들의 정의로서 의도된 것이 아님이 명확히 이해되어야 한다. 본 명세서 및 특허청구범위에 사용된 바와 같이, '부정 관사' 및 '정관사'는 내용상 명백히 나타나 있지 않은 한, 복수의 지시 대상을 포함한다.
도 1은 오디오 신호를 프로세싱하도록 구성된 시스템을 도시한다.
도 2는 사운드 신호의 스펙트로그램을 도시한다.
도 3은 주파수 처프 도메인 내의 변환된 사운드 신호의 플롯을 도시한다.
도 4는 주파수 처프 도메인 내의 변환된 사운드 신호의 플롯을 도시한다.
도 5는 변환된 오디오 정보의 플롯을 도시한다.
도 6은 톤 라이클리후드 메트릭 대 주파수의 플롯을 도시한다.
도 7은 피치 라이클리후드 메트릭 대 피치의 플롯을 도시한다.
도 8은 피치 및 부분 처프 레이트의 함수인 피치 라이클리후드 메트릭의 플롯을 도시한다.
도 9는 정의된 프로세싱 시간 윈도우와 프로세싱 시간 윈도우 내의 샘플 시간 윈도우를 포함하는 신호 기간의 시간라인을 도시한다.
도 10은 복수의 겹치는 프로세싱 시간 윈도우를 포함하는 신호 기간의 시간라인을 도시한다.
도 11은 엔벨로프 벡터들의 세트를 도시한다.
도 12는 오디오 정보를 프로세싱하는 방법을 도시한다.
도 13은 오디오 정보를 분석하는 방법을 도시한다.
도 14는 오디오 정보를 분석하는 방법을 도시한다.
도 15는 변환된 오디오 정보로부터 오디오 신호를 복원하는 방법을 도시한다.
도 16은 변환된 오디오 정보로부터 오디오 신호를 복원하는 방법을 도시한다.
도 17은 변환된 오디오 정보로부터 오디오 신호를 복원하는 방법을 도시한다.
도 18은 하나 이상의 실시예에 따라, 변환된 오디오 정보로부터 오디오 신호를 분할 및/또는 분류하는 방법을 도시한다.
도 19는 하나 이상의 실시예에 따라, 오디오 신호와 연관된 피쳐로서 감소된 변환된 오디오 정보를 취득하는 방법을 도시한다.
도 20은 하나 이상의 실시예에 따라, 오디오 신호와 연관된 피쳐로서 변환된 오디오 정보에 기초하여 스펙트럼 슬로프 정보를 취득하는 방법을 도시한다.
도 21은 하나 이상의 실시예에 따라, 오디오 신호와 연관된 노이즈 및/또는 신호 대 잡음비 추정치를 취득하는 방법을 도시한다.
도 1은 오디오 신호를 프로세싱하도록 구성된 시스템(10)을 도시한다. 시스템(10)에 의해 달성되는 프로세싱은 오디오 신호를 변환하는 것, 오디오 신호에 나타나는 하나 이상의 사운드들을 복원하는 것, 오디오 신호의 부분들을 분할 및/또는 분류하는 것, 및/또는 그 외의 프로세싱 중 하나 이상을 포함할 수 있다. 일부 실시예들에서, 시스템(10)은 하나 이상의 프로세서들(12), 전자 저장소(14), 사용자 인터페이스(16), 및/또는 그외의 컴포넌트들 중 하나 이상을 포함할 수 있다.
프로세서(12)는 하나 이상의 컴퓨터 프로그램 모듈들을 실행하도록 구성될 수 있다. 컴퓨터 프로그램 모듈들은 신호 모듈(18), 시간 샘플 윈도우 모듈(20), 변환 모듈(22), 톤 라이클리후드 모듈(24), 피치 라이클리후드 모듈(26), 프로세싱 윈도우 모듈(28), 피크 라이클리후드 모듈(30), 피치 추정 모듈(32), 피치 예측 모듈(34), 엔벨로프 벡터 모듈(36), 엔벨로프 상관 모듈(38), 가중 모듈(40), 추정된 피치 취합 모듈(42), 보이싱된 섹션 모듈(44), 재합성 모듈(46), 노이즈 감산 모듈(48), 펜스 모델 모듈(50), 복원 모듈(52), 오디오 피쳐 모듈(54), 정보 감축 모듈(56), 스펙트럼 슬로프 모듈(58), 신호 대 노이즈비(SNR) 추정기 모듈(60), 취합 스코어 모듈(62), 트레이닝 모듈(64), 및/또는 그 외의 모듈들 중 하나 이상을 포함한다.
신호 모듈(18)은 프로세싱을 위해 사운드 신호들을 취득하도록 구성된다. 신호 모듈(18)은, 전자 저장소(14), 사용자 인터페이스(16)(예를 들어, 마이크로폰, 변환기, 및/또는 그외 다른 사용자 인터페이스 컴포넌트), 외부 소스, 및/또는 그 외 다른 소스들로부터 사운드 신호를 취득하도록 구성될 수 있다. 사운드 신호들은 소스들 및/또는 노이즈에 의해 생성되는 사운드들을 나타내는 전자 아날로그 및/또는 디지털 신호들을 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, "소스"는 사운드를 생성하기 위해 동작하는 물체 또는 물체들의 세트를 지칭할 수 있다. 예를 들어, 기타와 같은 현악기는, 비록 그것 자체가 사운드를 생성하기 위해 협조하는 복수의 물체들(예를 들어, 복수의 스트링들, 몸체, 및/또는 그외 물체들)을 포함하더라도, 개별 소스로 간주될 수 있다. 유사하게, 신호들의 그룹은 단일, 하모닉 사운드를 생성하기 위해 일제히 사운드를 생성할 수 있다.
신호 모듈(18)은 취득된 사운드 신호들이 신호 강도를 시간의 함수로서 명시하도록 구성될 수 있다. 개별 사운드 신호는 진폭이 나타내지는 샘플링 레이트를 가질 수 있다. 샘플링 레이트는 샘플링 기간에 대응할 수 있다. 사운드 신호의 스펙트럼 밀도는, 예를 들어 스펙트로그램으로 표현될 수 있다. 도면에 있어서 도 2는 시간-주파수 도메인에서의 스펙트로그램(70)을 도시한다. 스펙트로그램(70)에서, 진폭은 3차원일 수 있고, 유색으로 표현될 수 있다(예를 들어, 색이 연할수록 진폭은 더 큼).
사운드 신호에서, 단일 사운드 및/또는 소스에 기인하는 기여(contribution)들은 하모닉(가령, 규칙적으로 이격된) 간격들로 배열될 수 있다. 사운드 신호에 대한 분리되어 이격된 기여들은 "하모닉들" 또는 "오버톤들"로서 지칭될 수 있다. 예를 들어, 스펙트로그램(70)은 제1 사운드 및/또는 소스와 연관된 (도 2에서 오버톤들(72)오 표시된) 오버톤들의 제1 세트와, 제2 사운드 및/또는 소스와 연관된 (도 2에서 오버톤들(74)로 표시된) 오버톤들의 제2 세트를 포함한다. 제1 사운드 및 제2 사운드는 공통 소스 또는 개별 소스에 의해 생성될 수 있다. 어떤 시점에서의 사운드에 대응하는 주어진 세트의 오버톤들 간의 간격은 그 시점에서의 사운드의 "피치"로 지칭될 수 있다.
도 1을 다시 참조하면, 샘플 윈도우 모듈(20)은 사운드 신호를 신호 부분들로 분할하도록 구성될 수 있다. 신호 부분들은 개별 시간 샘플 윈도우들과 연관될 수 있다. 시간 샘플 윈도우들은 시간에 대해 연속적이고, 겹칠 수 있고, 분리 이격될 수 있고/있거나, 시간에 대해 다른 방식으로 배열될 수 있다. 개별 시간 샘플 윈도우는 신호 부분들로 분할된 사운드 신호의 샘플링 기간보다 더 긴 시간의 기간에 대응할 수 있다. 이처럼, 시간 샘플 윈도우와 연관된 신호 부분은 복수의 신호 샘플들을 포함할 수 있다.
시간 샘플 윈도우 모듈(20)에 의해 수행되는 프로세싱의 파라미터들은 피크 윈도우 함수(예를 들어, 가우시안)의 타입, 이러한 함수의 폭(가우시안에 대해, 표준 편차), 윈도우의 총 폭(가우시안에 대해, 일반적으로 총 6의 표준 편차), 시간 샘플 윈도우들의 배치(예를 들어, 연속함, 오버래핑함, 이격됨 및/또는 다른 배치들), 및/또는 다른 파라미터들을 포함할 수 있다. 이러한 파라미터들 중 하나 이상은 사용자 선택, 미리설정된 셋팅들, 프로세싱되고 있는 사운드 신호 및/또는 다른 요인들에 기초하여 설정될 수 있다. 제한적이지 않은 예시로서, 시간 샘플 윈도우들은 약 5밀리초와 약 50밀리초 사이, 약 5밀리초와 약 30밀리초 사이, 약 5밀리초와 약 15밀리초 사이, 및/또는 다른 범위들인 기간에 대응할 수 있다. 시스템(10)에 의해 사운드 신호들에 적용되는 프로세싱은 신호 부분들에서 사운드 신호들의 동적인 성질을 설명하기 때문에, 시간 샘플 윈도우들은 종래의 사운드 프로세싱 시스템들에서 보다 더 많은 양의 시간에 대응할 수 있다. 예를 들어, 시간 샘플 윈도우들은 약 15밀리초보다 많은 양의 시간에 대응할 수 있다. 일부 구현들에서, 시간 샘플 윈도우들은 약 10밀리초에 대응할 수 있다
처프 레이트 변수는 처프 레이트(예를 들어, 또는 주파수에서의 변화의 레이트)로부터 도출되는 메트릭일 수 있다. 예를 들어, 일부 구현들에서, 처프 레이트 변수는 부분 처프 레이트일 수 있다. 부분 처프 레이트는 다음과 같이 표현될 수 있다:
(1)
Figure pct00001
;
여기서
Figure pct00002
는 부분 처프 레이트를 나타내고, X는 처프 레이트를 나타내고, ω는 주파수를 나타낸다.
변환 모듈(22)에 의해 수행되는 프로세싱은 오디오의 다차원 표현을 야기한다. 이러한 표현, 또는 "공간(space)"은 주파수 및 (부분) 처프 레이트에 의해 제공되는 도메인을 가질 수 있다. 그 표현은 변환 계수에 의해 제공되는 공동 도메메인(co-domain)(출력)을 가질 수 있다. 이와 같이, 변환 모듈(22)에 의해 변환을 수행할 때, 변환된 신호 부분은 변환된 신호 부분과 관련된 시간 샘플 윈도우에 대한 주파수 및 부분 처프 레이트의 함수로서 변환 계수를 특정할 수 있다. 특정 주파수 및 부분 처프 레이트 쌍에 대한 변환 계수는, 변환된 신호 부분과 관련된 시간 샘플 윈도우 내의 특정 주파수 및 부분 처프 레이트에 대해, 변환에 의해 직접 생성된 복소수, 이러한 복소수의 절대값(modulus), 또는 이러한 절대값의 제곱을 나타낼 수 있다.
일례로서, 도 3은 변환된 신호 부분에 대한 주파수-처프 도메인에서의 처프 공간(36)을 도시한다. 도 3에서, 변환 계수는 색에 의해 표현되고, 더 큰 크기의 변환 계수들은 더 작은 변환 계수들보다 더 밝게 도시된다. 주파수는 처프 공간(36)의 수평 축을 따라 표현될 수 있고, 부분 처프 레이트는 처프 공간(36)의 수직 축을 따라 표현될 수 있다.
도 1을 다시 참조하면, 변환 모듈(22)은 필터들의 세트를 개별적인 신호 부분들에 적용함으로써 신호 부분들을 변환하도록 구성될 수 있다. 필터들의 세트에서의 개별적인 필터들은 상이한 주파수 및 처프 레이트 변수 쌍들에 대응할 수 있다. 제한적이지 않은 예시로서, 필터들의 적합한 세트(ψ)는 다음과 같이 표현될 수 있다:
(1)
Figure pct00003
;
여기서 i는 허수이고, t는 시간을 나타내고, f는 필터의 중심 주파수를 나타내고, c는 필터의 처프 레이트를 나타내고, σ는 필터의 시간 샘플 윈도우의 표준 편차(예를 들어, 폭)를 나타낸다.
변환 모듈(22)에 의해 적용되는 필터들은 복소 지수들(complex exponentials)일 수 있다. 이것은 실수 및 허수 요소들 양쪽 모두를 포함하는 필터들에 의해 생성되는 변환 계수들을 야기할 수 있다. 여기에서 사용된 것처럼, "변환 계수"는 실수 및 허수 요소들 양쪽 모두를 포함하는 복소수, 복소수의 절대값, 복소수의 절대값의 제곱, 및/또는 복소수의 다른 대표들 및/또는 그들의 요소들을 지칭할 수 있다. 필터들을 신호 부분에 적용하는 것은, 예를 들어, 복소 필터 및 신호 부분의 시간 데이터의 내적(inner product)을 취함으로써 달성될 수 있다. 중심 주파수, 및 처프 레이트와 같은 필터들의 파라미터들은 사용자 선택, 미리 설정된 셋팅들, 프로세싱되고 있는 사운드 신호, 및/또는 다른 요인들에 기초하여 설정될 수 있다.
오디오 신호를 주파수-처프 도메인으로 변환하는 것은 신호 부분들 내에서의 개별적인 사운드들(예를 들어, 하모닉 사운드(harmonic sound)들)의 신호 세기 기여의 식별을 용이하게 할 수 있다. 제공된 사운드가 피치를 변화시키기 때문에, 제공된 사운드의 하모닉의 주파수(또는 처프 레이트)에서의 변화는 하모닉의 현재 주파수 및 피치가 변하고 있는 레이트의 함수로 특징지어질 수 있다. 이것은 n번째 하모닉에 대해 다음과 같이 특징지어질 수 있다:
(1)
Figure pct00004
여기서
Figure pct00005
는 사운드의 피치(
Figure pct00006
) 또는 "피치 속도"에서의 변화의 레이트를 나타내고,
Figure pct00007
은 n번째 하모닉의 처프 레이트를 나타내고,
Figure pct00008
은 n번째 하모닉의 주파수를 나타내고,
Figure pct00009
은 제1 하모닉(예를 들어 기본톤(fundamental tone))의 주파수를 나타낸다. 수학식 (1) 및 (2)를 참조함으로써, 사운드의 n번째 하모닉의 부분 처프 레이트(들) 및 사운드의 피치에서의 변화의 레이트가 밀접하게 관련되어 있음을 알 수 있고, 수학식 (2)는 다음과 같이 다시 기재될 수 있음을 알 수 있다:
(2)
Figure pct00010
피치에서의 변화의 레이트가, 사운드의 아래에 있는 모든 하모닉들과 함께, 전체로서 그 사운드에 대해(하모닉 사운드/소스로 추정함) 유지하는 사운드-폭(sound-wide) 파라미터이기 때문에, 부분 처프 레이트가 사운드의 전체 하모닉들에 대해 동일할 수 있다는 것이 수학식 (3)으로부터 추론될 수 있다. 시스템(10)은 이러한 현상에 영향을 미쳐 변환된 신호 부분들에서 개별적인 사운드들의 기여를 식별하도록 구성될 수 있다.
일례로서, 도 3을 다시 참조하면, 개별적인 하모닉 사운드에 대한 하모닉들에 걸친 공통 부분 처프 레이트는, 사운드의 하모닉 기여들이 개별적인 사운드에 대한 공통 부분 처프 레이트에 대응하는 하나의 수평 로우(row)를 따라 정렬될 수 있음을 의미할 수 있다. 이러한 로우는 "최적의 처프 로우(best chirp row)"로 지칭될 수 있다(예를 들어,도 3에서의 최적의 처프 로우(78) 참조). 신호 부분에 존재하는 노이즈가 (시간에 비상관적으로) 조직화되지 않은 경우, 신호 부분에 존재하는 대부분(실질적으로 전부가 아닌 경우)의 노이즈는 신호 부분에서 나타나는 사운드의 공통 부분 처프 레이트와는 상이한 부분 처프 레이트를 갖는 것으로 추정될 수 있다. 이와 같이, (처프 공간(76)으로 도시된 것과 같은) 변환된 신호 부분에서의 공통 부분 처프 레이트의 식별은 주파수-처프 도메인으로 변환되지 않은 신호 부분보다 노이즈로 인한 왜곡에 덜 민감할 수 있다.
유사하게, 하나의 신호 부분에 존재하는 복수의 사운드들은, 그것들이 아마도 상이한 부분 처프 레이트들을 가질 것이기 때문에, 주파수-처프 도메인에서 구별될 수 있다. 제한적인지 않은 예시로서, 도 4는 주파수-처프 도메인에서의 처프 공간(80)을 도시한다. 처프 공간(80)은 제1 사운드에 대응하는 제1 최적의 처프 로우(82), 및 제2 사운드에 대응하는 제2 최적의 처프 로우(84)를 포함할 수 있다. 도 4에서 알 수 있는 것처럼, 제1 사운드 및 제2 사운드의 각각은 유사한 피치를 가질 수 있다. 그 결과, 종래의 사운드 프로세싱 기술들은 이러한 2개의 별개의 사운드들을 구별하기 어려울 수 있다. 그러나, 부분 처프 레이트를 따라 분리함으로써, 처프 공간(80)은 제1 사운드 및 제2 사운드의 각각을 별도로 나타내고, 2개의 분리된 사운드들의 식별을 용이하게 한다.
변환된 오디오 정보의 2차원 뷰(view)는, 예를 들어, 특정 부분 처프 레이트에 대응하는 주파수-처프 도메인을 통해 슬라이스(slice)를 따라(예를 들어, 도 3 또는 4에서 나타난 부분 처프 레이트 로우들(78, 82 또는 84) 중 하나를 따라) 관찰될 수 있다는 것이 인식될 것이다. 일례로서, 도 5는 변환된 오디오 정보의 플롯(90)을 도시한다. 플롯(90)은 주파수의 함수로서 신호 세기에 관련된 계수의 크기를 나타내는 공간에 있을 수 있다. 플롯(90)에 의해 표현되는 변환된 오디오 정보는 하모닉 사운드를 포함할 수 있고, 그 하모닉 사운드는 그 하모닉 사운드의 하모닉들의 주파수들에서 계소의 크기에서 스파이크(spike)들(92)의 시리즈에 의해 표현된다. 그 사운드가 하모닉이라고 가정하면, 스파이크들(92)은 하모닉 사운드의 피치(
Figure pct00011
)에 대응하는 간격들로 이격될 수 있다. 이와 같이, 개별적인 스파이크들(92)은 하모닉 사운드의 오버톤(overtone)들 중 개별적인 것들에 대응할 수 있다.
다른 스파이크들(예를 들어, 스파이크들(94 및/또는 96)은 변환된 오디오 정보에서 존재할 수 있다. 이러한 스파이크들은 스파이크들(92)에 대응하는 하모닉 사운드와 관련이 없을 수 있다. 스파이크(들)(94 및/또는 96)이 하모닉 사운드의 하모닉 주파수에 없을 수 있기 때문에, 스파이크들(92)과 스파이크(들)(94 및/또는 96) 사이의 차이는 진폭이 아니라 주파수일 수 있다. 이와 같이, 이러한 스파이크들(94 및/또는 96) 및 스파이크들(29) 사이의 진폭의 나머지는 오디오 신호에서의 노이즈의 표시일 수 있다 이러한 예시에서 사용되는 것처럼, "노이즈"는 하나의 청각적 노이즈를 지칭하는 것이 아니라, 스파이크들(92)과 관련된 하모닉 사운드 이외의 사운드를 (이러한 사운드가 하모닉이거나, 분산(diffuse)된 것이거나, 음색이 없거나(white), 또는 일부 다른 유형이든 간에) 지칭할 수 있다.
이전에 언급된 것처럼, 오디오 신호로부터 변환된 오디오 정보를 생성하는 변환은 복소수인 에너지와 관련된 계수를 야기할 수 있다. 이러한 구현들에서, 변환에 의해 생성된 계수에 대한 복소수는 보존될 수 있다. 이러한 구현들에서, 예를 들어, 계수의 실수 부분 및 허수 부분은 적어도 처음에 별도로 분석될 수 있다. 예시로서, 플롯(90)은 계수의 실수 부분을 나타낼 수 있고, 별개의 플롯(도시 안됨)이 주파수의 함수로서 계수의 허수 부분을 나타낼 수 있다. 주파수의 함수로서 계수의 허수 부분을 나타내는 플롯은 스파이크들(92)에 대응하는 하모닉 사운드의 하모닉들에서 스파이크들을 가질 수 있다.
다시 도 1을 참조하면, 톤 라이클리후드 모듈(24)은 시간 샘플 윈도우 내의 오디오 신호에 대한 주파수의 함수로서 톤 라이클리후드 메트릭을 변환된 오디오 정보로부터 결정하도록 구성될 수 있다. 제공된 주파수에 대한 톤 라이클리후드 메트릭은 변환된 오디오 정보에 의해 나타나는 사운드가 시간 샘플 윈도우 동안 제공된 주파수에서의 톤을 가질 라이클리후드(likelihood)를 나타낼 수 있다. 여기에서 사용되는 "톤(tone)"은 하모닉 사운드의 하모닉(또는 오버톤(overtone)), 또는 비하모닉 사운드의 톤을 지칭할 수 있다.
다시 도 5를 참조하면, 변환된 오디오 정보의 플롯(90)에서, 톤은 스파이크들(92, 94, 및/또는 96) 중 어느 하나와 같이, 계수에서 스파이크에 의해 나타날 수 있다. 이와 같이, 제공된 주파수에 대한 톤 라이클리후드 메트릭은 플롯(90)에 대응하는 시간 샘플 윈도우 내의 제공된 주파수에서의 오디오 신호의 톤을 나타내는 제공된 주파수에서 플롯(90)의 스파이크의 라이클리후드를 나타낼 수 있다.
제공된 주파수에 대한 톤 라이클리후드 메트릭의 결정은 제공된 주파수에서 그 중심을 갖는 피크 함수와 제공된 주파수에서의 및/또는 그 근방에서의 변환된 오디오 정보 사이의 상관관계에 기초할 수 있다. 피크 함수는 가우시안 피크 함수, 분포, 및/또는 다른 함수들을 포함할 수 있다. 그 상관관계는 제공된 주파수에서의 및/또는 그 근방에서의 정규화된 변환된 오디오 정보 및 정규화된 피크 함수의 내적(dot product)의 결정을 포함할 수 있다. 내적은 단독으로는 제공된 주파수 상에 중심이 있는 피크가 존재하지 않을 라이클리후드를 나타낼 수 있기 때문에, 내적은 제공된 주파수 상에 중심이 있는 피크의 라이클리후드를 나타내기 위해 -1이 곱해질 수 있다.
일례로서, 도 5는 예시적인 피크 함수(98)를 더 도시한다. 피크 함수(98)는 중심 주파수
Figure pct00013
상에 중심이 있을 수 있다. 피크 함수(98)는 피크 높이(h) 및/또는 폭(w)을 가질 수 있다. 피크 높이 및/또는 폭은 톤 라이클리후드 메트릭의 결정의 파라미터들일 수 있다. 톤 라이클리후드 메트릭을 결정하기 위해, 중심 주파수는 변환된 오디오 정보의 주파수를 따라 소정의 초기 중심 주파수
Figure pct00014
로부터 소정의 최종 중심 주파수
Figure pct00015
로 이동될 수 있다. 피크 함수(98)의 중심 주파수가 초기 중심 주파수와 최종 중심 주파수 사이에서 이동되는 증가는 결정의 파라미터일 수 있다. 피크 높이, 피크 폭, 초기 중심 주파수, 최종 중심 주파수, 중심 주파수의 이동의 증가, 및/또는 결정의 다른 파라미터들 중 하나 이상은 고정되고, 사용자 입력에 기초하여 설정되고, 변환된 오디오 데이터에서의 피크들의 예상되는 폭, 고려되는 톤 주파수들의 범위, 변환된 오디오 데이터에서의 주파수들의 간격에 기초하여 (예를 들어, 자동으로 및/또는 수동으로) 튜닝되고, 그리고/또는 다른 방식들로 설정될 수 있다.
주파수의 함수로서 톤 라이클리후드 메트릭의 결정은 주파수의 함수로서 톤 라이클리후드 메트릭을 표현하는 데이터의 새로운 표현의 생성을 야기할 수 있다. 일례로서, 도 6은 주파수의 함수로서 도 5에서 도시된 변환된 오디오 정보에 대한 톤 라이클리후드 메트릭의 플롯(100)을 도시한다. 도 5에서 알 수 있는 것처럼, 도 6은 도 5의 스파이크들(92)에 대응하는 스파이크들(102)을 포함할 수 있고, 도 6은 도 5의 스파이크들(94 및 96)에 각각 대응하는 스파이크들(104 및 106)을 포함할 수 있다. 일부 구현들에서, 제공된 주파수에 대한 톤 라이클리후드 메트릭의 크기는 변환된 오디오 정보에 의해 특정되는 제공된 주파수에 대한 에너지에 관련된 계수의 진폭에 대응하지 않을 수 있다. 대신, 톤 라이클리후드 메트릭은 피크 함수 및 제공된 주파수에서의 및/또는 그 근방에서의 변환된 오디오 정보 사이의 상관관계에 기초하여 제공된 주파수에서 존재하는 톤의 라이클리후드를 나타낼 수 있다. 다르게 설명하면, 톤 라이클리후드 메트릭은 그 피크의 크기보다 변환된 오디오 데이터에서의 피크의 현저성(salience)에 더 대응할 수 있다.
다시 도 1을 참조하면, 에너지를 나타내는 계수가 복소수이고 계수의 실수 부분 및 허수 부분이 도 5 및 6에 대하여 상술된 것처럼 톤 라이클리후드 모듈(24)에 의해 별도로 프로세싱되는 구현들에서, 톤 라이클리후드 모듈(24)은 계수의 실수 부분에 대해 결정된 실수 톤 라이클리후드 메트릭 및 계수의 허수 부분들에 대해 결정된 허수 톤 라이클리후드 메트릭(실수 및 허수 톤 라이클리후드 메트릭들 양쪽 모두는 실수일 수 있음)을 취합함으로써 톤 라이클리후드 메트릭을 결정할 수 있다. 실수 및 허수 톤 라이클리후드 메트릭들은 톤 라이클리후드 메트릭을 결정하기 위해 취합될 수 있다. 이러한 취합은 개별적인 주파수들에 대한 톤 라이클리후드 메트릭을 결정하기 위해 개별적인 주파수들에 대한 실수 및 허수 톤 라이클리후드 메트릭을 취합하는 것을 포함할 수 있다. 이러한 취합을 수행하기 위해, 톤 라이클리후드 모듈(24)은 로그 서브모듈(도시 안됨), 취합 서브모듈(도시 안됨), 및/또는 다른 서브모듈들 중 하나 이상을 포함할 수 있다.
대수 서브-모듈은 실수 및 허수 톤 라이클리후드 메트릭의 대수(예컨대, 자연 대수)를 취하도록 구성될 수 있다. 이것은 실수 톤 라이클리후드 메트릭 및 허수 톤 라이클리후드 메트릭의 각각의 대수를 주파수의 함수로서 결정하도록 할 수 있다. 취합 서브-모듈은 실수 톤 라이클리후드 메트릭 및 허수 톤 라이클리후드 메트릭을 취합하기 위해 공통 주파수들에 대한 실수 톤 라이클리후드 메트릭 및 허수 톤 라이클리후드 메트릭을 합산(예컨대, 주어진 주파수에 대한 실수 톤 라이클리후드 메트릭 및 허수 톤 라이클리후드 메트릭을 합산함)하도록 구성될 수 있다. 이러한 취합은 톤 라이클리후드 메트릭으로서 구현될 수 있고, 톤 라이클리후드 메트릭으로서의 구현을 위해 취합된 값들에 대해 지수 함수가 취해질 수 있으며, 및/또는 톤 라이클리후드 메트릭으로서의 구현에 앞서 취합된 것에 대해 다른 프로세싱이 수행될 수도 있다.
피치 라이클리후드 모듈(26)은 톤 라이클리후드 모듈(24)에 의한 톤 라이클리후드 메트릭의 결정에 기반하여, 시간 샘플 윈도우 내의 오디오 신호에 대한 피치의 함수로서 피치 라이클리후드 메트릭을 결정하도록 구성될 수 있다. 주어진 피치에 대한 피치 라이클리후드 메트릭은, 오디오 신호에 의해 나타내어진 사운드가 시간 샘플 윈도우 동안에 주어진 피치를 갖는 라이클리후드에 관한 것일 수 있다. 피치 라이클리후드 모듈(26)은 주어진 피치의 하모닉스에 대응하는 톤에 대해 결정된 톤 라이클리후드 메트릭을 취합함으로써, 주어진 피치에 대한 피치 라이클리후드 메트릭을 결정하도록 구성될 수 있다.
예시로서, 도 6을 다시 참조하면, 피치 Øk에 대해, 피치 라이클리후드 메트릭은 Øk의 피치를 갖는 사운드의 하모닉스가 기대되는 주파수들에서 톤 라이클리후드 메트릭을 취합함으로써 결정될 수 있다. 피치의 함수로서 피치 라이클리후드 메트릭을 결정하기 위해, Øk는 초기 피치 Ø0와 최종 피치 Øn사이에서 증가할 수 있다. 이러한 결정의 초기 피치, 최종 피치, 피치들 사이에서의 증가, 및/또는 그 외의 파라미터들은 고정될 수 있고, 사용자 입력에 기반하여 설정될 수 있으며, 피치 추정에 대한 원하는 해상도 및 예상된 피치 값들의 범위에 기반하여 튜닝(예컨대, 자동 및/또는 수동으로)될 수 있고, 및/또는 그 외의 방식들로 설정될 수 있다.
도 1로 돌아가서, 톤 라이클리후드 메트릭을 취합하여, 피치 라이클리후드 메트릭을 결정하기 위해, 피치 라이클리후드 모듈(26)은 하나 이상의 대수 서브-모듈, 취합 서브-모듈, 및/또는 그 외의 서브-모듈들을 포함할 수 있다.
대수 서브-모듈은 톤 라이클리 후드 메트릭들의 대수(예컨대, 자연 대수)를 취하도록 구성될 수 있다. 톤 라이클리후드 모듈(24)이 톤 라이클리후드 메트릭을 대수 형태(예컨대, 전술된 바와 같이)로 생성하는 구현들에서, 피치 라이클리후드 모듈(26)은 대수 서브-모듈 없이도 구현될 수 있다. 취합 서브-모듈은 (예컨대, k=0 에서 n인 Øk에 대한) 각각의 피치에 대하여, (예컨대, 도 6에 나타내어지고 전술된 바와 같이) 피치의 하모닉스가 기대되는 주파수들에 대한 톤 라이클리후드 메트릭의 대수들을 합산하도록 구성될 수 있다. 이어서, 이러한 취합들은 피치들에 대한 피치 라이클리후드 메트릭으로서 구현될 수 있다.
피치 라이클리후드 모듈(26)의 동작은 피치의 함수로서 피치 라이클리후드 메트릭을 표현하는 데이터를 나타낼 수 있다. 예시로서, 도 7은 시간 샘플 윈도우 내의 오디오 신호에 대한 피치의 함수로서 피치 라이클리후드 메트릭의 플롯(110)을 도시한다. 도 7에서 볼 수 있는 바와 같이, 시간 샘플 윈도우 내의 변환된 오디오 정보에 나타난 피치에서, 피치 라이클리후드 메트릭에서의 전체 최대값(global maximum)(112)은 전개될 수 있다. 일반적으로, 피치의 하모닉 성질에 의해, 국소 최대값들은 또한 사운드의 1/2의 피치로(예컨대, 도 7에서의 최대값(114)) 및/또는 사운드의 두 배의 피치로(예컨대, 도 7에서의 최대값(116)) 전개될 수 있다.
전술된 바와 같이, 일부 구현들에서 변환된 오디오 정보는 주파수-처프 도메인으로 변환되었을 수 있다. 이러한 구현들에서, 변환된 오디오 정보는 개별 부분 처프 레이트에 대응하는 변환된 오디오 정보의 복수의 세트들로서 여겨질 수 있다(예컨대, 2차원 주파수-처프 도메인을 통한 개별 1차원 슬라이스들, 각각의 일차원 슬라이스는 상이한 부분 처프 레이트에 대응함). 이러한 변환된 오디오 정보의 세트들은 도 1에 도시된 모듈(24) 및/또는 모듈(26)에 의해 개별적으로 프로세싱될 수 있고, 이어서 피치, 피치 라이클리후드 메트릭, 및 부분 처프 레이트에 의해 파라미터화된 공간으로 재조합된다.
예시로서, 도 8은 피치 라이클리후드 메트릭이 함수 피치 및 부분 처프 레이트로서 정의될 수 있는 공간(120)을 도시한다. 도 8에서, 피치 라이클리후드 메트릭의 크기는 음영으로서 도시될 수 있다(예컨대, 보다 밝음 = 보다 큰 크기). 볼 수 있는 바와 같이, 피치 라이클리후드 메트릭에 대한 최대값들은 피치 및 부분 처프 레이트에 대한 2차원 국소 최대값들일 수 있다. 최대값들은 시간 샘플 윈도우 내의 오디오 신호에 나타난 사운드의 피치에서의 국소 최대값(122), 피치의 2배에서의 국소 최대값(124), 피치의 1/2배에서의 국소 최대값(126), 및/또는 그 외의 국소 최대값들을 포함할 수 있다.
다시 도 1을 참조하면, 프로세싱 윈도우 모듈(28)은 (예컨대, 신호 지속기간 동안의) 복수의 프로세싱 시간 윈도우들을 정의하도록 구성될 수 있다. 프로세싱 시간 윈도우는 복수의 시간 샘플 윈도우들을 포함할 수 있다. 프로세싱 시간 윈도우들은 공통 시간 길이에 대응할 수 있다. 예시로서, 도 9는 시간라인(130)을 나타낸다. 시간라인(130)은 신호 지속기간의 길이 동안에 계속될 수 있다. 프로세싱 시간 윈도우(132)는 신호 지속기간의 부분에 대해 정의될 수 있다. 프로세싱 시간 윈도우(132)는 시간 샘플 윈도우(134) 등의 복수의 시간 샘플 윈도우들을 포함할 수 있다.
다시 도 1을 참조하면, 일부 실시예들에서, 프로세싱 윈도우 모듈(28)은 프로세싱 시간 윈도우들이 복수의 중첩 프로세싱 시간 윈도우들을 포함할 수 있도록 구성될 수 있다. 예를 들어, 일부 또는 모든 신호 지속 기간에 대해, 중첩 프로세싱 시간 윈도우들은 프로세싱 시간 윈도우들의 경계들을 소정의 증가분만큼 증가시킴으로써 정의될 수 있다. 이러한 증가는 시간 샘플 윈도우들의 정수(예컨대, 1,2,3 및 그 외의 정수들)일 수 있다. 예시로서, 도 10은 중첩될 수 있는 제1 프로세싱 시간 윈도우(142), 제2 프로세싱 시간 윈도우(144), 및 제3 프로세싱 시간 윈도우(146)를 도시하는 시간라인(140)을 나타낸다. 프로세싱 시간 윈도우들(142, 144, 146)은 참조번호 148에 도시된 바와 같은 증가양만큼 경계들을 증가시킴으로써 정의될 수 있다. 경계들의 증가는 예컨대, 윈도우들(142,144, 및 146)을 포함하는 중첩 프로세싱 시간 윈도우들의 세트가 신호 지속기간의 전체에 및/또는 그 임의의 부분 동안에 확장하도록 수행될 수 있다.
도 1로 다시 돌아오면, 프라이머리 윈도우 모듈(30)은 프로세싱 시간 윈도우에 대하여, 프로세싱 시간 윈도우 내의 프라이머리 시간 샘플 윈도우를 결정하도록 구성될 수 있다. 일부 구현들에서, 프라이머리 시간 샘플 윈도우는 규칙 또는 파라미터에 의해 피치 라이클리후드의 부분 분석에 기반하여, 사용자 선택에 기반하여, 및/또는 그 외의 조건들에 기반하여 랜덤하게 식별될 수 있다. 일부 실시예들에서, 프라이머리 시간 샘플 윈도우를 식별하는 것은 최대 피치 라이클리후드를 식별하는 것을 포함할 수 있다. 최대 피치 라이클리후드를 갖는 시간 샘플 윈도우는 프라이머리 시간 샘플 윈도우로서 식별될 수 있다. 최대 피치 라이클리후드는 프로세싱 시간 윈도우 내의 시간 샘플 윈도우들 동안의 처프 레이트 및/또는 임의의 피치에 대한 가장 큰 라이클리후드일 수 있다. 이와 같이, 프라이머리 윈도우 모듈은 시간 샘플 윈도우들에 대한 피치 라이클리후드 메트릭을 특정하는 프로세싱 시간 윈도의 내의 시간 샘플 윈도우들에 대한 오디오 정보를 스캐닝하도록 구성될 수 있고, 이러한 모든 프로세싱 시간 윈도우들 내의 피치 라이클리후드에 대한 최대값을 식별할 수 있다.
피치 추정 모듈(32)은 프로세싱 시간 윈도우 내의 개별적인 시간 샘플 윈도우에 대한, 추정된 피치 및 추정된 부분 처프 레이트를 결정하도록 구성될 수 있다. 이것은 프라이머리 시간 샘플 윈도우에 대하여, 피치 라이클리후드 메트릭의 분석을 통하여, 규칙에 의해, 사용자 선택에 의해 및/또는 그 외의 조건들에 기반하여 추정된 피치 및 추정된 부분 처프 레이트를 랜덤하게 결정함으로써 수행될 수 있다. 프로세싱 시간 윈도우에서의 그 외의 시간 샘플 윈도우들에 대하여, 피치 추정 모듈은 프라이머리 시간 샘플 윈도우로부터의 프로세싱 시간 윈도우를 통해 반복함으로써, 및 주어진 시간 샘플 윈도우에 대한 변환된 오디오 정보에 의해 특정된 하나 이상의 피치 라이클리후드 메트릭, 또 다른 시간 샘플 윈도우에 대한 추정된 피치와 추정된 부분 처프 레이트에 기반하여 결정된 주어진 시간 샘플 윈도우에 대한 예측된 피치, 주어진 시간 샘플 윈도우 내의 상이한 피치들에서의 하모닉 엔벨로프 및 주어진 시간 샘플 윈도우에 근접한 시간 샘플 윈도우에 대한 추정된 피치에서의 하모닉 엔벨로프 사이의 상관관계, 및/또는 그 외의 조건들에 기반한 주어진 시간 샘플 윈도우에 대한 추정된 부분 처프 레이트 및/또는 추정된 피치를 결정함으로써 추정된 피치 및 추정된 부분 처프 레이트를 결정하도록 구성될 수 있다.
피치 예측 모듈(34)은 시간 샘플 윈도우들에 대한 예측된 피치를 결정하도록 구성될 수 있다. 이것은 프로세싱 시간 윈도우 내의 제1 시간 샘플 윈도우에 대하여, 제1 시간 샘플 윈도우에 대한 예측된 피치를 결정하는 것을 포함할 수 있다. 피치 예측 모듈은 제2 시간 샘플 윈도우에 대하여 (예컨대, 피치 예측 모듈(34)에 의해) 사전에 결정된 추정된 피치 및 추정된 처프 레이트에 기반하여 제1 시간 샘플 윈도우에 대한 예측된 피치를 결정하도록 구성될 수 있다. 제2 시간 샘플 윈도우는 제1 시간 샘플 윈도우에 근접할 수 있거나, 및/또는 제1 시간 샘플 윈도우 가까이에서 제1 시간 샘플 윈도우와 그 외의 관계를 가질 수 있다. 제2 시간 샘플 윈도우는 프라이머리 시간 샘플 윈도우일 수 있고, 및/또는 프로세싱 시간 윈도우에서의 일부 그 외의 시간 샘플 윈도우일 수 있다. 제2 시간 샘플 윈도우는 오디오 신호의 시간라인에 대한 제1 시간 샘플 전에 또는 후에 올 수 있다.
제1 시간 샘플 윈도우에 대한 예측된 피치를 결정하는 것은, 예컨대 제2 시간 샘플 윈도우에 대해 결정된 예측된 부분 처프 레이트에 대응하는 양 및 제1 시간 샘플 윈도우 및 제2 시간 샘플 윈도우 사이의 시간 차이만큼 제2 시간 샘플 윈도우에 대해 결정된 예측된 피치로부터의 피치를 증가시키는 것을 포함할 수 있다. 예를 들어, 이러한 예측된 피치의 결정은 일부 구현들에 대해 다음과 같이 수학적으로 표현될 수 있다:
(1)
Figure pct00016
여기서, Øt1는 제1 시간 샘플 윈도우에 대한 추정된 피치를 나타내고, Øτ2는 제2 시간 샘플 윈도우에 대한 예측된 피치를 나타내며, Δt는 제1 시간 샘플 윈도우와 제2 시간 샘플 윈도우 사이의 시간 차이를 나타내고,
Figure pct00017
는 (제2 시간 샘플 윈도우에 대한 추정된 부분 처프로부터 결정될 수 있는) 피치 Øτ2의 기본 주파수의 추정된 부분 처프 레이트를 나타낸다.
하모닉 사운드는 본 명세서에서 "하모닉 엔벨로프(harmonic envelope)"로서 지칭되는 특징을 가질 수 있다. 예시로서, 도 5로 다시 돌아가서, 플롯(90)에서 나타난 사운드는 하모닉 엔벨로프(150)를 가질 수 있다. 하모닉 엔벨로프(150)는 사운드의 피치에 대한 하모닉 주파수들에서의 강도 계수(intensity coefficient)의 값들을 통해 스플라인을 생성함으로써 나타내어질 수 있다. 스파이크들(92)에 대응하는 사운드의 피치에서의 플롯(90)에 대응하는 시간 샘플 윈도우에 대한 엔벨로프 벡터의 좌표들(그리고 적용 가능한 경우, 플롯(90)에 대응하는 부분 처프 레이트)은 둘 이상의 하모닉 주파수들에서(예컨대, 스파이크들(92)에서) 강도 계수의 값들로서 지정될 수 있다. 하모닉 주파수들은 n번째 하모닉을 통해 둘 이상의 기본 주파수를 포함할 수 있다.
하모닉 엔벨로프(150)는 적어도 부분적으로, 엔벨로프 벡터에 의해 특징지어질 수 있다. 스파이크들(92)에 대응하는 사운드의 엔벨로프 벡터는 둘 이상의 사운드의 하모닉 주파수들에서의(예컨대, 둘 이상의 스파이크들(92)에서의) 신호 강도에 관한 계수에 대한 값들에 대응하는 좌표들을 갖는 벡터로서 정의될 수 있다.
다시 도 1을 참조하면, 엔벨로프 벡터 모듈(36)은 피치 및/또는 부분 처프 레이트의 함수로서 개별 시간 샘플 윈도우들 내의 엔벨로프 벡터들을 결정하도록 구성될 수 있다. 예를 들어, 제1 시간 샘플 윈도우에 대해, 엔벨로프 벡터 모듈(36)은 피치 및 부분 처프레이트의 함수로서 엔벨로프 벡터들을 결정할 수 있다. 제1 시간 샘플 윈도우에서의 주어진 피치 및 주어진 부분 처프 레이트에 대한 엔벨로프 벡터는 주어진 피치 및 주어진 부분 처프 레이트에서의 제1 시간 샘플 윈도우 동안에 오디오 신호에 나타난 사운드의 하모닉 엔벨로프에 대응할 수 있다.
엔벨로프 상관 모듈(38)은 피치 및 부분 처프 레이트의 함수로서, 시간 샘플 윈도우들에 대한 상관 메트릭의 값들로 설정될 수 있다. 상관 메트릭의 값들은 특정 피치에 대한 시간 샘플 윈도우에서의 엔벨로프 벡터 및 그 외의 시간 샘플 윈도우의 추정된 피치와 추정된 부분 처프 레이트에 대한 또 다른 시간 샘플 윈도우에서의 엔벨로프 벡터에 의한 부분 처프 레이트 사이의 상관관계를 나타낼 수 있다. 그 외의 시간 샘플 윈도우는, 예컨대 시간 샘플 윈도우에 대한 예측된 피치를 결정하기 위해 피치 예측 모듈(34)에 의해 구현되는 추정된 피치 및 추정된 부분 처프 레이트를 갖는 시간 샘플 윈도우일 수 있다.
예를 들어, 엔벨로프 상관 모듈(38)은 제2 시간 샘플 윈도우의 추정된 피치 및 추정된 부분 처프 레이트에 대한 엔벨로프 벡터에 기반하여 피치 및 부분 처프 레이트의 함수로서 제1 시간 샘플 윈도우에 대한 상관 메트릭의 값들을 결정하도록 구성될 수 있다. 제1 시간 샘플 윈도우에서의 주어진 피치 및 주어진 부분 처프 레이트에 대한 상관 메트릭의 값은 제1 시간 샘플 윈도우 내의 주어진 피치 및 주어진 부분 처프 레이트에 대한 엔벨로프 벡터 및 제2 시간 샘플 윈도우 내의 주어진 피치 및 주어진 부분 처프 레이트에 대한 엔벨로프 벡터 사이의 상관 관계의 레벨을 나타낼 수 있다.
예시로서, 도 11은 제2 시간 샘플 윈도우에 대한 추정된 피치 Ø2의 제1 하모닉과 제2 하모닉에서의 강도 계수의 값들을 나타내는 표(160)를 포함한다. 표(160)에 의해 제공된 표현에서, 제1 하모닉에 대한 강도 계수는 413일 수 있고, 제2 하모닉에 대한 강도 계수는 805일 수 있다. 제2 시간 샘플 윈도우에서의 피치 Ø2에 대한 엔벨로프 벡터는 (413, 805)일 수 있다. 도 11은, 또한 제1 하모닉-제2 하모닉 공간에서의 엔벨로프 벡터들의 플롯(162)를 나타낸다. 제1 엔벨로프 벡터(164)는 제2 시간 윈도우에서의 피치 Ø2에 대한 엔벨로프 벡터를 나타낼 수 있다.
도 11은 제1 시간 샘플 윈도우에 대한 수 개의 피치들(Ø1, Ø2, 및 Ø3)의 제1 하모닉 및 제2 하모닉에서의 강도 계수의 값들을 나타낼 수 있는 표(166)를 포함한다. 이들 피치들에 대한 엔벨로프 벡터는 플롯(162)에 제1 엔벨로프 벡터(164)와 함께 나타내어질 수 있다. 이들 엔벨로프 벡터들은 제1 시간 샘플 윈도우의 피치 φ1에 대응하는 제2 엔벨로프 벡터(168), 제1 시간 샘플 윈도우의 피치 φ2에 대응하는 제3 엔벨로프 벡터(170), 및 제1 시간 샘플 윈도우의 피치 φ3에 대응하는 제4 엔벨로프 벡터(172)를 포함할 수 있다.
제1 시간 샘플 윈도우에 대한 상관 메트릭의 값들의 판정은 제1 시간 샘플 윈도우의 개별 피치들에 대한 엔벨로프 벡터들(168, 170, 172)과 제2 시간 샘플 윈도우의 추정된 피치에 대한 엔벨로프 벡터(164)의 사이의 상관을 나타내는 메트릭의 값들을 판정하는 것을 포함할 수 있다. 이러한 상관 메트릭은, 예컨대 거리 메트릭, 내적(dot product), 상관 계수, 및/또는 상관을 나타내는 그 외 메트릭들 중 하나 이상을 포함할 수 있다.
도 11에 제공된 예에서, 제1 시간 샘플 윈도우 동안에 오디오 신호는 2개의 분리된 하모닉 사운드를 나타내는 것일 수 있다. 이 중 하나는 피치 φ1에, 그리고 다른 하나는 피치 φ3에 있다. 이들 피치들의 각각은 제2 시간 샘플 윈도우의 추정된 피치 φ1으로부터 (피치의 관점에서) 동일한 양만큼 오프셋될 수 있다. 그러나, 이러한 하모닉 사운드들 중 하나만이 제2 시간 샘플 윈도우에서 피치 φ1을 가졌던 동일한 사운드일 가능성이 있다. 제1 시간 샘플 윈도우의 2개의 분리된 잠재적 하모닉 사운드와는 별개로 제2 시간 샘플 윈도우의 하모닉 사운드의 엔벨로프 벡터들 간의 상관을 정량화함으로써, (도 1에 도시되고 본 명세서에 기술된) 시스템(10)은 수행중인 피치 트래킹이 제2 시간 샘플 윈도우에서의 사운드들 사이를 점프하고, 또한 이전에 트래킹된 것과는 다른 사운드에 대한 피치의 트래킹을 우연히 개시하게 되는 경우를 감소시킬 수 있다. 이러한 상관에 의해 다른 향상이 제공될 수 있다.
도 11의 엔벨로프 벡터들에 대한 도시는 단지 예시적인 것이며, 제한적인 것을 의도한 것은 아니다. 예를 들어, 사실상, 엔벨로프 벡터들은 (보다 큰 하모닉 주파수에 대응하는) 3개 이상의 디멘젼을 가질 수 있으며, 음의 값을 갖는 좌표를 가질 수 있으며, 연속하는 하모닉 넘버(harmonic number)를 포함하지 않을 수 있으며, 및/또는 그 외 방식으로 변경될 수도 있다. 또 다른 예로서, 엔벨로프 벡터들(및 상관 메트릭)이 결정되는 피치들은 3보다 클 수 있다. 다른 차이들이 고려될 수도 있다. 도 11에 의해 제공되는 예에서, 엔벨로프 벡터들(168, 170, 172)은 제2 시간 샘플 윈도우 동안의 개별적인 부분 처프 레이트에 대한 것일 수 있다. 다른 부분 처프 레이트를 갖는 제1 시간 샘플 윈도우의 피치들 φ1, φ2, φ3에 대해 다른 엔벨로프 벡터들(및 제2 시간 샘플 윈도우의 피치 φ2를 갖는 대응하는 상관 메트릭들)이 결정될 수도 있다.
다시 도 1을 참조하면, 가중 모듈(40)은 개별 시간 샘플 윈도우들에 대한 피치 라이클리후드 메트릭의 결정들을 가중하도록 구성될 수 있다. 이러한 가중은 피치 예측 모듈(34)에 의해 결정된 예측 피치, 엔벨로프 상관 모듈(38)에 의해 결정된 상관 메트릭, 및/또는 그 외 파라미터들 중 하나 이상에 기초하여 수행될 수 있다.
피치 추정 모듈(32)에 의해 결정된 예측 피치에 기초하여 가중하도록 구성된 가중 모듈(40)의 구현에 있어서, 예측 피치 또는 예측 피치 부근의 다음 시간 샘플 윈도우의 피치들에 대해서는 피치 라이클리후드 메트릭에 비교적 큰 가중을 적용하고, 예측 피치로부터 보다 멀리 떨어진 다음 시간 샘플 윈도우의 피치들에 대해서는 피치 라이클리후드 메트릭에 비교적 작은 가중을 적용할 수 있다. 예를 들어, 이러한 가중은 피치의 함수에 따라 변하는 가중 함수로 피치 라이클리후드 메트릭을 곱하는 것을 포함할 수 있으며, 또한 예측 피치의 중심에 존재할 수도 있다. 가중 함수의 폭, 형상, 및/또는 그 외 파라미터들은 사용자 선택(예컨대, 세팅들 및/또는 엔트리 또는 선택)에 기초하여, 고정으로, 오디오 신호에 존재하는 노이즈에 기초하여, 샘플의 부분 처프 레이트들의 범위에 기초하여, 및/또는 그 외 팩터들에 기초하여 결정될 수 있다. 비제한적인 예로서, 가중 함수는 가우시안 함수일 수 있다.
엔벨로프 상관 모듈(38)에 의해 결정되는 상관 메트릭에 기초하여 가중하도록 구성되는 가중 모듈(40)의 구현에 있어서, 다른 시간 샘플 윈도우의 추정된 피치에 대한 엔벨로프 벡터와 비교적 높은 상관을 나타내는 상관 메트릭의 값들을 갖는 피치들에서 피치 라이클리후드 메트릭에 비교적 큰 가중이 적용될 수 있다. 이러한 가중은 다른 시간 샘플 윈도우의 추정된 피치에 대한 엔벨로프 벡터와 비교적 낮은 상관을 나타내는 다음 시간 샘플 윈도우의 상관 메트릭 값들을 갖는 피치들에서 피치 라이클리후드 메트릭에 비교적 작은 가중을 적용할 수 있다.
피치 추정 모듈(32)은 프라이머리 시간 샘플 윈도우가 아닌 시간 샘플 윈도우들 중 적어도 일부에 대해 가중 모듈(40)에 의해 생성된 가중 피치 라이클리후드 메트릭으로부터 추정된 피치 및 추정된 부분 처프 레이트가 결정될 수 있다. 예를 들어, 피치 추정 모듈(32)은 제1 시간 샘플 윈도우에 대한 추정된 피치의 판정이 가중 피치 라이클리후드 메트릭의 최대값을 식별하고 이 최대값에 대응하는 피치 및/또는 부분 처프 레이트를 제1 시간 샘플 윈도우에 대한 추정된 피치 및/또는 추정된 부분 처프 레이트로서 결정하는 것을 포함할 수 있다.
모듈들(28, 30, 32, 34, 36, 38, 40)은 복수의 중첩 프로세싱 시간 윈도우들을 반복적인 방식으로 프로세싱하기 때문에, 2개 이상의 중첩 프로세싱 시간 윈도우들 내에 놓인 개별 시간 샘플 윈도우들에 대해 복수의 추정된 피치들 및/또는 추정된 부분 처프 레이트들이 결정될 수 있다는 것을 알 것이다. 서로 다른 프로세싱 시간 윈도우들을 통과하는 서로 다른 피치 경로들은 불일치를 초래하므로, 추정된 부분 처프 레이트들 및/또는 개별 시간 샘플 윈도우에 대해 결정된 추정된 부분 처프 레이트들은 모두 동일하지는 않을 수 있다. 추정된 피치 취합 모듈(42)은 추정된 피치 및/또는 추정된 부분 처프 레이트의 판정들을 개별 시간 샘플 윈도우들을 통해 취합하도록 구성될 수 있다. 비제한적 예로서, 주어진 시간 샘플 윈도우에 대해 취합된 추정 피치를 결정하는 것은 평균값 추정 피치(mean estimated pitch)를 결정하는 것, 중앙값 추정 피치(median estimated pitch)를 결정하는 것, 주로 시간 샘플 윈도우에 대해 결정된 추정 피치를 선택하는 것, 및/또는 그 외 취합 기법들을 포함할 수 있다. 추정된 피치 취합 모듈(42)은 평균값의 판정, 결정된 추정 피치의 선택, 및/또는 그 외 취합 기법들이 가중될 수 있도록 구성될 수 있다. 예를 들어, 주어진 시간 샘플 윈도우에 대해 개별적으로 결정된 추정 피치들은 대응하는 피치 라이클리후드 메트릭들에 따라 가중될 수 있다. 이들 피치 라이클리후드 메트릭들은 피치 라이클리후드 모듈(26)에 의해 결정된 피치 라이클리후드 메트릭들, 가중 모듈(40)에 의해 주어진 시간 샘플 윈도우에 대해 결정된 가중 피치 라이클리후드 메트릭, 및/또는 주어진 시간 샘플 윈도우에 대한 다른 피치 라이클리후드 메트릭들을 포함할 수 있다.
보이싱된 섹션 모듈(44)은 개별 시간 샘플 윈도우들을 보이싱 카테고리 및 비보이싱(unvoiced) 카테고리로 분할하도록 구성될 수 있다. 보이싱된 시간 샘플 윈도우들은 오디오 신호에 나타난 사운드가 하모닉이거나 또는 "보이싱된"(예컨대, 모음 사운드) 시간 샘플 윈도우들일 수 있다. 비보이싱 시간 샘플 윈도우들은 오디오 신호에 나타난 사운드가 하모닉이거나 또는 "비보이싱된"(예컨대, 자음 사운드) 시간 샘플 윈도우들일 수 있다.
일부 구현에서, 보이싱된 섹션 모듈(44)은 이러한 판정을 하모닉 에너지 비율에 기초하여 행하도록 구성될 수 있다. 주어진 시간 샘플 윈도우에 대한 하모닉 에너지 비율은 주어진 시간 샘플 윈도우에 대한 변환된 오디오 정보에 기반하여 결정될 수 있다. 이 하모닉 에너지 비율은 시간 샘플 윈도우에 대한 스펙트럼에 걸친 하모닉스에서의 에너지에 관련된 계수의 크기들의 합에 대한 시간 샘플 윈도우의 추정된 피치(또는 취합된 추정 피치)의 하모닉스에서의 에너지에 관련된 계수의 크기들의 합의 비율로서 결정될 수 있다. 이러한 판정에서 구현되는 변환된 오디오 정보는 시간 샘플 윈도우(예컨대, 공통 부분 처프 레이트에 따라 주파수-처프 도메인을 통과하는 부분)에 대해 추정된 부분 처프 레이트(또는 취합된 추정 부분 처프 레이트)에 고유할 수 있다. 본 판정에서 구현되는 변환된 오디오 정보는 특정 부분 처프 레이트에 고유한 것이 아닐 수도 있다.
주어진 시간 샘플 윈도우에서 하모닉 에너지 비율이 소정의 임계값보다 높은 경우, 보이싱된 섹션 모듈(44)에 의해 시간 샘플 윈도우 동안의 오디오 신호가 보이싱된 사운드를 나타낸다는 판정이 이루어질 수 있다. 반면, 주어진 시간 샘플 윈도우에서 하모닉 에너지 비율이 임계값보다 낮은 경우, 시간 샘플 윈도우 동안의 오디오 신호가 보이싱되지 않은 사운드를 나타낸다는 판정이 이루어질 수 있다. 임계값은, 예컨대 사용자 선택(예컨대, 세팅들 및/또는 엔트리 또는 선택)에 기초하여, 고정으로, 오디오 신호에 존재하는 노이즈에 기초하여, 하모닉 소스가 활성화될 경향이 있는(예컨대, 음성이 중지된) 시간의 부분에 기초하여, 및/또는 그 외 팩터들에 기초하여 결정될 수 있다.
일부 구현에서, 보이싱된 섹션 모듈(44)은 추정된 피치(또는 취합된 추정 피치)에 대한 피치 라이클리후드 메트릭에 기초하여 개별 시간 샘플 윈도우들을 분할하도록 구성될 수 있다. 예를 들어, 주어진 시간 샘플 윈도우에서 피치 라이클리후드 메트릭이 소정의 임계값보다 높은 경우, 시간 샘플 윈도우 동안의 오디오 신호가 보이싱된 사운드를 나타낸다는 판정이 이루어질 수 있다. 한편, 주어진 시간 샘플 윈도우에 대해, 피치 라이클리후드 메트릭이 임계값 이하라면, 시간 샘플 윈도우 동안의 오디오 신호가 비보이싱된 사운드를 나타낸다는 판정이 이루어질 수 있다. 임계값은, 예컨대 사용자 선택(예컨대, 세팅들 및/또는 엔트리 또는 선택)에 기초하여, 고정으로, 오디오 신호에 존재하는 노이즈에 기초하여, 하모닉 소스가 활성화될 경향이 있는(예컨대, 음성이 중지된) 시간의 부분에 기초하여, 및/또는 그 외 팩터들에 기초하여 결정될 수 있다.
시간 샘플 윈도우 동안의 오디오 신호가 보이싱되지 않은 사운드인 것으로 판정된 것에 응답하여, 보이싱된 섹션 모듈(44)은 시간 샘플 윈도우에 대해 추정된 피치(또는 취합된 추정 피치)를 미리 결정된 소정의 값으로 설정하도록 구성될 수 있다. 예를 들어, 이 값은 0 또는 다른 소정의 값으로 설정될 수 있다. 이것은 시스템(10)에 의해 달성되는 피치의 트래킹이, 하모닉 음성이 시간 샘플 윈도우 내에 존재하지 않거나 또는 현저하지 않을 수 있다는 것을 나타내게 할 수 있다.
재합성 모듈(46)은 개별 하모닉스 및 변환된 오디오 정보로부터 결정된 대응 피치들(예컨대, 피치 추정 모듈(32) 및/또는 추정된 피치 취합 모듈(42)에 의해 결정된 추정된 피치들)에 기초하여 오디오 신호를 재합성하도록 구성될 수 있다. 일부 구현에 따르면, 오디오 신호를 재합성하는 것은 사운드의 하나 이상의 피치들을 트래킹하여 개별 피치 및 대응하는 진폭들을 사운드에 대한 시간의 함수로서 추정하는 것을 포함할 수 있다. 사운드의 개별 하모닉스는 개별 하모닉스에 대응하는 오실레이터를 이용하여 합성될 수 있다. 개별 하모닉스를 합성하는 것은, 주어진 하모닉에 대해 대응하는 피치를 시간에 대해 적분하여 주어진 하모닉의 언래핑 페이즈(unwrapped phase)를 결정하는 것을 포함할 수 있다. 오실레이터들 중 개별 오실레이터는 코사인 함수에 기초할 수 있다. 합성된 하모닉스는 재합성된 오디오 신호를 획득하기 위해 합산될 수 있다.
일부 구현에 따르면, i번째 오실레이터의 시간 t의 함수로서의 결과 y는 아래과 같이, 또는 아래와 유사하게 표현될 수 있다.
Figure pct00018
여기서, φ는 시간의 함수로서 피치(제1 하모닉)이다. 이 식은 고정될 수 있기 때문에, 사운드의 전체 표현은 피치 및 하모닉 진폭 파라미터들에 저장된다. 피치 및 엔벨로프(하모닉 진폭들의 세트)의 시간당 변화가 샘플링 레이트에 비해 느리게 변하기 때문에 시간 경과가 조밀하지 않게 나타날 수 있다. 예를 들어, 20노트를 갖는 큐빅 스플라인(cubic spline)은 사람의 음성에서 1초 동안의 피치 시간 경과에 대한 정확한 맞춤을 제공한다. 마찬가지로, 하모닉 진폭들은 시간으로는 초당 20 그리고 주파수 디멘젼을 따라서는 약 10노트를 갖는 것으로 표현되어, 변하는 엔벨로프를 나타내는 "진폭면(amplitude surface)"(예컨대, 주파수 및 시간, 및/또는 변환된 오디오 정보의 함수로서의 진폭)을 형성할 수 있다. 백색 노이즈 소스를 갖는 자음들을 합성하기 위한 엔벨로프들 및 하모닉 진폭들의 일부 또는 전부는 이러한 진폭면에 의해 형상화될 수 있다.
일부 구현에서, 재합성 모듈(46)은 오디오 신호가 적분을 통해 구축될 수 있으므로 어떠한 페이즈 문제라도 해결하도록 구성될 수 있다 - 페이즈는 오디오 신호의 결과이며, 팩터화될 필요성이 있는 것은 아님 - . 또한, 재합성된 오디오 신호의 압축도는 음성에 대해 초당 kB 단위 아래로 갈 수 있으며, 이는 현재의 mp3 표준보다 향상된 것이다.
재합성된 오디오 신호는 시간의 함수로서 피치 및 하모닉 진폭들을 지정하는 오실레이터들 및 파라미터들(예컨대, 시간에 따라 시간 샘플 윈도우들에 대한 엔벨로프 벡터 모듈(36)에 의해 결정되는 추정 피치에 대한 엔벨로프 벡터들)로부터 구축될 수 있다. 이들 파라미터들 중 하나 이상은 페이즈를 변경하지 않고, 그리고 하모닉스를 갑자기 드롭시키기 않고 다른 것들에 대해 독립적으로 조정될 수 있다.
일부 구현에서, 오실레이터들 중 개별 오실레이터는 단어 형상 및 음성 리듬을 보유하는 보이스의 위스퍼 버전(whispered version)을 시뮬레이팅하기 위한 백색 노이즈 소스를 포함할 수 있다. 파라미터들은 공지된 채널 왜곡들을 조정하기 위해 변경될 수 있다. 예를 들어, 셀 폰들은 자신의 통과 대역을 미묘하게 변경할 수 있지만, 일반적으로는 동일한 근사 고저 롤오프(approximate high and low roll-offs)를 갖는다. 변환된 오디오 정보를 롤오프 전이 함수로 분할함으로써 보정이 행해질 수 있다.
노이즈 감산 모듈(48)은 변환된 오디오 정보로부터 노이즈를 감축하도록 구성될 수 있다. 노이즈의 감축은 변환된 오디오 정보를 통과하는 하모닉 피치 경로들의 피크점들에 대해 보간하는 것을 포함할 수 있다. 피크점들은 변환된 오디오 정보의 하모닉 주파수들을 따라 놓여질 수 있으며, 주어진 하모닉에 대한 주파수 및 시간의 함수로서 결정될 수 있다. 일부 구현들에서, 피크점들에 대한 보간은 다항식 보간(polynomial interpolation), 스플라인들의 사용, 및/또는 보간 기법들을 포함할 수 있다.
노이즈 감산은 변환된 오디오 정보를 통한 하모닉 피치 경로들의 트로프 포인트들에 걸친 보간을 더 포함할 수 있다. 트로프 포인트들은 변환된 오디오 정보에서 인접한 하모닉 주파수들의 피크 포인트들 간의 중간에 위치할 수 있으며, 주파수 및 시간의 함수로서 결정될 수 있다. 일부 구현들에서, 트로프 포인트들에 걸친 보간은 다항식 보간, 스플라인들의 사용, 및/또는 보간 기법들을 포함할 수 있다. 이러한 스플라인들은 선형 스플라인, 2차 스플라인, 큐빅 스플라인, 및/또는 그외 스플라인을 포함할 수 있다. 트로프 포인트의 보간들 중 개별 보간들과 연관된 값들은 피크점 보간들 중 개별 보간들과 연관된 값들로부터 감축되어 노이즈-감소 변환된 오디오 정보를 산출할 수 있다.
펜스 모델 모듈(50)은 변환된 오디오 정보에서의 개별 하모닉스에서 함수들을 중심화함으로써 변환된 오디오 정보에서 사운드의 하모닉스 간의 노이즈를 억제하도록 구성될 수 있다. 함수들은 노이즈 감산된 변환 오디오 정보를 산출하기 위하여 하모닉스 간의 노이즈를 억제하도록 동작할 수 있다. 주어진 함수의 폭은 해당 하모닉의 대역폭에 기초될 수 있다.
일부 구현들에서, 펜스 모델 모듈(50)에 의해 활용된 함수들 중 개별 함수들은 가우시안 함수(Gaussian function)를 포함할 수 있다. 이러한 가우시안 함수는 하모닉스 간의 정보를 억제하도록 구성될 수 있다. 가우시안 함수는 개별 하모닉스와 연관된 정보를 가우시안 (또는 다른) 곡선들로 교체하여 노이즈 감산된 변환 오디오 정보를 제공하도록 구성될 수 있다. 주어진 가우시안 곡선은 해당 하모닉에 맞을 수 있다.
복원 모듈(52)에 관련하여 논의된 바와 같이, 오디오 신호는 노이즈 감산된 변환 오디오 정보로부터 복원될 수 있다. 이러한 복원된 오디오 신호는 심지어 3dB 노이즈 아래의 비왜곡된 본래의 오디오 신호와 밀접하게 유사할 수 있다. 부가적으로, 오직 하모닉 주파수들 및 해당 진폭들은 복원된 오디오 신호를 재합성하기 위해 전송될 필요가 있기 때문에, 복원된 오디오 신호는 본래의 오디오 신호에 비해 더 조밀할 수 있다.
일부 구현들에 따르면, 함수들 중 개별 함수들은 직사각형 펜스를 포함할 수 있다. 이러한 펜스는 하모닉스와 연관된 정보를 보존하면서 하모닉스 간의 정보를 제로(zero)화하도록 구성될 수 있다. 일부 구현들에서, 펜스 모델 모듈(50)에 의해 활용된 하나 이상의 함수들은 변환된 오디오 정보의 실수 컴포넌트들 및 허수 컴포넌트들에 개별적으로 적용될 수 있다.
복원 모듈(52)은 오디오 신호 및/또는 오디오 신호의 부분들(예컨대, 모음 사운드들 및/또는 자음 사운드들)을 복원하도록 구성될 수 있다. 일부 구현들에서, 하나 이상의 역변환들은 변환된 오디오 정보 및/또는 다른 비-시간-도메인 정보 상에서 수행되어 복원된 오디오 신호를 얻을 수 있다. 즉, 일부 구현들에 따라, 복원은 주파수 도메인 표현 및/또는 주파수-처프 도메인 표현을 시간-도메인 표현으로 전환하는 단계를 포함할 수 있다. 복원 모듈(52)은 노이즈 감산 모듈(48), 펜스 모델 모듈(50), 및/또는 노이즈 감산된 변환 오디오 정보의 다른 소스로부터 얻은 노이즈 감산된 변환 오디오 정보를 복원하도록 구성될 수 있다. 복원 모듈(52)에 의해 이용된 역변환은 변환된 오디오 정보를 생성하기 위해 본래의 오디오 신호 상에 수행된 변환의 리버스 및/또는 인버스에 대응할 수 있다.
오디오 피쳐 모듈(54)은 변환된 오디오 정보로부터의 오디오 신호와 연관된 피쳐들을 얻도록 구성될 수 있다. 하나 이상의 개별 피쳐들은, 예를 들면, 정보 감축 모듈(56), 스펙트럼 슬로프 모듈(58)에 관련하여, 및/또는 본문의 다른 곳에서 기술된 방법들 및/또는 기법들과 같은 피쳐들을 얻는 개별 방법들 및/또는 기법들에 대응할 수 있다. 피쳐는 피쳐 공간에서 오디오 신호의 개별 분할들에 대해 벡터를 결정하는 한 세트의 수들을 포함할 수 있다. 피쳐 공간은 각각의 차원이 피쳐 벡터의 하나의 컴포넌트(차원)에 대응하는 다차원 공간일 수 있다. 피쳐들을 얻는 두 개 이상의 방법들 및/또는 기법들에 대응하는 피쳐 벡터들은 취합 피쳐 벡터로서 (예컨대, 벡터 합산에 의해) 결합될 수 있다. 개별 피쳐 벡터들 및/또는 취합 피쳐 벡터는 분할 및/또는 분류를 위한 피쳐 공간에서 사용될 수 있다.
일부 구현들에 따라, 피쳐들은 감축된 변환 오디오 정보, 스펙트럼 슬로프 정보, 멜-주파수 켑스트럴 계수 벡터들(mel-frequency cepstral coefficient vectors), 하모닉 진폭 벡터들, 하모닉 진폭 표면들, 피치 하모닉 진폭 표면들, 하모닉 진폭 표면들의 시간 미분들, 부분 하모닉 미분들(fractional harmonic derivatives)의 가보(Gabor) 변환들, 및/또는 다른 피쳐들을 포함할 수 있다. 일부 구현들에서, 개별 하모닉 진폭 벡터는 개별 시간 윈도우들에 대응할 수 있다. 하모닉 진폭 표면들은 다중 시간 윈도우들(예컨대, 약 200msec 또는 20 시간 윈도우들) 상에서 정의될 수 있다. 피치 하모닉 진폭 표면은 진폭 표면 피쳐 벡터에 부속된 시간 대응 피치 값들을 가질 수 있다. 하모닉 진폭 표면들의 시간 미분들은 하모닉 진폭들(예컨대, 부분 하모닉 미분들)에 대해 평준화될 수 있다. 부분 하모닉 미분들의 가보 변환들은 피쳐들 정보를 압축하도록 동작할 수 있다.
개별 피쳐들은 미리 결정된 스피커 모델에 관련한 피쳐 스코어와 연관될 수 있다. 스피커 모델은 특정 사람, 한 그룹의 사람들, 및/또는 가청 스피치의 다른 소스에 대해 고유한 스피치 특성들의 세트 및/또는 다른 스피치 정보를 포함할 수 있다. 피쳐 스코어는 스피커 모델의 하나 이상의 스피치 특성들에 대한 대응 피쳐 간의 비교를 용이하게 할 수 있다.
정보 감축 모듈(56)은 오디오 신호와 연관된 피쳐로서 감축된 변환 오디오 정보를 얻도록 구성될 수 있다. 예를 들면, 사운드의 하모닉은 시간의 함수로서 정의된 벡터로서 기술될 수 있다. 이러한 벡터는 1차원, 2차원, 또는 3차원일 수 있거나, 또는 다른 차원성을 가질 수 있다. 일부 구현들에 따라, 1차원 벡터는 주파수 대 시간, 진폭 대 시간, 처프 레이트 대 시간, 및/또는 다른 정보를 기술할 수 있다. 2차원 벡터는 주파수 및 진폭 대 시간, 주파수 및 처프 레이트 대 시간, 진폭 및 처프 레이트 대 시간, 및/또는 다른 정보를 기술할 수 있다. 3차원 벡터는 주파수, 처프 레이트 및 진폭 대 시간, 및/또는 다른 정보를 기술할 수 있다. 이러한 정보는 오디오 신호의 일부분의 스팬(span)(예컨대, 하나의 모음의 스팬), 고정된 시간 스팬(예컨대, 200msec), 전체 오디오 신호, 및/또는 다른 지속 시간 상에서 결정될 수 있다.
감축된 변환 오디오 정보를 얻는 단계는 개별 시간 윈도우들에서 개별 하모닉스에 대한 진폭값을 결정하는 단계를 포함할 수 있다. 진폭값은 주어진 시간에 주어진 하모닉의 에너지 진폭에 관련된 계수의 크기에 대응할 수 있다. 감축된 변환 오디오 정보는 개별 시간 윈도우들에 대한 하모닉 위치들에 대응하는 단일점들을 이용하여 구성될 수 있다. 이들 점은 중심 주파수, 처프 레이트, 시간 위치, 진폭(또는 신호 강도에 관련된 일부 다른 계수)값, 및/또는 개별 하모닉스에 대한 다른 정보를 기술할 수 있다. 일부 구현들에서, 진폭값들 사이의 감축된 변환 오디오 정보 내의 값들은 0으로 설정될 수 있다. 필터 뱅크는 감축된 변환 오디오 정보에 적용될 수 있다. 필터 뱅크는 하나 이상의 멜 필터들 및/또는 다른 필터들을 포함할 수 있다.
스펙트럼 슬로프 모듈(58)은 오디오 신호와 연관된 피쳐로서 변환된 오디오 정보에 기초하여 스펙트럼 슬로프 정보를 얻도록 구성될 수 있다. 일부 구현들에서, 스펙트럼 슬로프 정보를 얻는 단계는 주파수의 함수로서 하모닉 엔벨로프(예컨대, 도 5에 도시되고 상술된 하모닉 엔벨로프(150))의 순간 기울기를 결정하는 단계를 포함할 수 있다. 일부 구현들에서, 변환된 오디오 정보의 순간 기울기는 시간의 함수로서 신호 강도에 관련된 계수의 주파수 미분을 포함할 수 있다. 순간 기울기는 변환된 오디오 정보의 에너지 진폭에 관련된 계수의 주파수 상에서 주어진 시간에 미분을 취함으로써 결정될 수 있다. 필터 뱅크는 스펙트럼 슬로프 정보에 적용될 수 있다. 필터 뱅크는 하나 이상의 멜 필터들 및/또는 다른 필터들을 포함할 수 있다.
노이즈 추정기 모듈(60)은 오디오 신호에 연관된(예컨대, 오디오 신호의 개별 시간 샘플 윈도우들에 대한) 시간 변화량으로서 SNR 추정을 얻도록 구성될 수 있다. 일부 구현들에 따르면, SNR 추정을 얻는 단계는 하모닉 에너지 비율을 결정하는 단계를 포함할 수 있다. 일부 구현들에서, 상기 비율은 시간 상에서 평균화될 수 있다. 노이즈 추정기 모듈(60)은 결정된 하모닉 에너지 비율을 임계값에 비교하도록 구성될 수 있다.
임계값을 결정하는 단계에서 몇몇 고려사항들이 있을 수 있다. 예를 들면, 특정 임계값을 설정하는 단계는 하모니 에너지와 총 에너지 사이의 비율이 임계값을 넘을 때(예컨대, 음성이 "온(on)")의 시간 대 상기 비율이 임계값을 넘지 못할 때(예컨대, 음성이 "오프(off)")의 시간의 특정 비율이 될 수 있다. 임계값은 고려되고 있는 스피커의 주어진 분류(예컨대, 국적, 성별, 연령, 및/또는 다른 스피커 분류들)에 대한 평균과 시간의 비율(예컨대, (음성 온)/(음성 오프))이 동일하도록 선택될 수 있다. 다른 예시적 고려사항으로서, 주어진 분류 절차에 대해, 복수의 스피커 모델들에 걸쳐 로그 라이클리후드 비율들의 분산과 동일한 양(VLL)이 유도될 수 있다. 선택된 스피커에 관한 또는 정합이 없는 최종 결정에 상관없이, 무음성(non-voiced) 시간 분할들이 분류에 포함될 때, VLL은 더 커지게 되는 경향이 있을 수 있다. 따라서, 임계값은 VLL을 최소화하도록 조정될 수 있다.
취합 스코어 모듈(62)은 가중 기법에 따라 피쳐 스코어들에 기초하여 취합 분류 스코어를 얻도록 구성될 수 있다. 가중 기법은 노이즈 및/또는 SNR 추정에 연관될 수 있다. 취합 분류 스코어는 오디오 신호에서 사운드의 소스를 식별하기 위한 유사 스피커 모델을 결정하기 위해 사용될 수 있다. 일부 구현들에서, 취합 스코어 모듈(62)은 오디오 피쳐 모듈(54)에 의해 얻은 하나 이상의 피쳐들 중 가중된 피쳐 스코어들을 합산함으로써 취합 분류 스코어를 얻도록 구성될 수 있다. 개별 피쳐 스코어들 상에 수행된 가중은, 주어진 오디오 신호에 대해 더 정확할 것 같은 피쳐 스코어들이 상대적으로 더 큰 가중치로 가중되도록 수행될 수 있다. 정확도의 라이클리후드, 및 이러한 피쳐 스코어 가중은, 예를 들면, 노이즈 레벨, 오디오 신호가 획득된 음향 설정, 발언되고 있는 언어, 및/또는 다른 인자들에 기초하여 결정될 수 있다.
일부 구현들에 따르면, 취합 분류 스코어는 한 세트의 스피커 모델들 중 개별 스피커 모델들에 대해 결정될 수 있다. 오디오 신호 내의 스피커는 세트 내의 스피커 모델들의 취합 스코어들에 기초하여 식별될 수 있다. 예를 들면, 세트의 최대 취합 분류 스코어를 갖는 스피커 모델과 연관된 스피커는 오디오 신호 내의 스피커로서 식별될 수 있다. 일부 구현들에서, 취합 분류 스코어
Figure pct00019
Figure pct00020
로서 표현될 수 있고, 여기서
Figure pct00021
는 j번째 스피커 및/또는 스피커 모델에 관계된 i번째 방법으로부터의 피쳐 스코어이고,
Figure pct00022
는 i번째 방법의 노이즈 추정과 연관된 양의 실수 가중 계수이다. i번째 방법은 도 19 및 도 20과 관련되어 기술된 방법들, 오디오 피쳐 모듈(54) 및/또는 다른 모듈들에 의해 수행된 방법들, 및/또는 오디오 신호와 연관된 피쳐들을 얻기위한 다른 방법들에 대응할 수 있다.
트레이닝 모듈(64)은 취합 스코어 모듈(62)에 의해 활용된 가중 기법을 결정하도록 구성될 수 있다. 일부 구현들에 따르면, 트레이닝 모듈(64)은 오디오 신호 및/또는 오디오 신호에 관련된 다른 정보 상에서 트레이닝 동작들을 수행하여, 다른 가중 기법들에 비해 더 정확한 분류를 야기하는 한 특정 세트의 스코어 가중들을 나타내는 오디오 신호의 특성들 및/또는 오디오 신호의 기록에 관계된 조건들(예컨대, 마이크로폰의 유형, 밀폐된 방 대 야외, 및/또는 다른 조건들)을 결정할 수 있다.
프로세서(12)는 시스템(10)에서 정보 프로세싱 능력들을 제공하도록 구성될 수 있다. 이와 같이, 프로세서(12)는 디지털 프로세서, 아날로그 프로세서, 정보를 프로세싱하도록 설계된 디지털 회로, 정보를 프로세싱하도록 설계된 아날로그 회로, 상태 머신, 및/또는 전자적으로 정보를 프로세싱하기 위한 다른 메커니즘들 중 하나 이상을 포함할 수 있다. 프로세서(12)가 단일 개체로서 도 1에 도시되어 있지만, 이는 예시적인 목적일 뿐이다. 일부 구현들에서, 프로세서(12)는 복수의 프로세싱 유닛들을 포함할 수 있다. 이들 프로세싱 유닛은 동일 디바이스 내에서 물리적으로 배치될 수 있거나, 또는 프로세서(12)는 조직적으로 (예컨대, "클라우드에서", 및/또는 다른 가상화된 프로세싱 해법들) 동작하는 복수의 디바이스들의 프로세싱 기능을 나타낼 수 있다.
모듈들(18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 및 64)은 단일 프로세싱 유닛 내에 함께 배치되어 있는 것처럼 도 1에 예시되어 있지만, 프로세서(12)가 다중 프로세싱 유닛들을 포함하는 구현들에서, 하나 이상의 모듈들(18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 및/또는 64)은 다른 모듈들과 떨어지게 배치될 수 있음을 이해해야 한다. 모듈들(18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 및/또는 64) 중 임의의 모듈은 기술된 것보다 더 많거나 더 적은 기능을 제공할 수 있기 때문에, 이하에 기술된 상이한 모듈들(18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 및/또는 64)에 의해 제공된 기능의 기술은 예시적 목적이고, 국한하려는 의도가 아니다. 예를 들면, 모듈들(18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 및/또는 64) 중 하나 이상의 모듈들이 제거될 수 있고, 그것의 기능의 일부 또는 전부는 모듈들(18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 및/또는 64)의 다른 모듈들에 의해 제공될 수 있다. 다른 예로서, 프로세서(12)는, 모듈들(18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 및/또는 64) 중 하나에 부가된 이하에 기능의 일부 또는 전부를 수행할 수 있는 하나 이상의 부가적 모듈들을 실행하도록 구성될 수 있다.
전자 저장소(14)는 정보를 저장하는 전자 저장소 매체를 포함할 수 있다. 전자 저장소(14)의 전자 저장소 매체는 시스템(10)에 집적되어(즉, 실질적으로 분리 불가능한) 제공되는 시스템 저장소 및/또는 예를 들면, 포트(예컨대, USB 포트, 파이어와이어 포트 등) 또는 드라이브(예컨대, 디스크 드라이브 등)를 통해 시스템(10)에 분리가능하게 접속가능한 분리가능 저장소 중 하나 또는 모두를 포함할 수 있다. 전자 저장소(14)는 광학 판독가능 저장 매체(예컨대, 광학 디스크 등), 자기 판독가능 저장 매체(예컨대, 자기 테이프, 자기 하드 드라이브, 플로피 드라이브 등), 전기 충전 기반 저장 매체(예컨대, EEPROM, RAM 등), 솔리드 스테이트 저장 매체(예커대, 플래시 드라이브 등), 및/또는 다른 전자적 판독가능 저장 매체 중 하나 이상을 포함할 수 있다. 전자 저장소(14)는 클라우드 및/또는 가상 사설 네트워크를 통해 제공된 저장 자원들과 같은 가상 저장 자원들을 포함할 수 있다. 전자 저장소(14)는 소프트웨어 알고리즘, 프로세서(12)에 의해 결정된 정보, 사용자 인터페이스(16)를 통해 수신된 정보, 및/또는 시스템(10)이 적절하게 기능할 수 있게 하는 다른 정보를 저장할 수 있다. 전자 저장소(14)는 시스템(10) 내의 별도의 컴포넌트일 수 있거나, 또는 전자 저장소(14)는 시스템(10)의 하나 이상의 다른 컴포넌트들(예컨대, 프로세서(12))과 집적되어 제공될 수 있다.
사용자 인터페이스(16)는 시스템(10)과 사용자들 사이의 인터페이스를 제공하도록 구성될 수 있다. 이것은 "정보"로서 일괄적으로 지칭되는 데이터, 결과들, 및/또는 명령어들 및 다른 통신가능한 아이템들이 사용자들과 시스템(10) 사이에서 통신되는 것을 가능하게 한다. 사용자 인터페이스(16)에 포함되기에 적절한 인터페이스 디바이스들의 예들은 키패드, 버튼, 스위치, 키보드, 노브, 레버, 디스플레이 스크린, 터치 스크린, 스피커, 마이크로폰, 지시등, 가청 알람, 및 프린터를 포함한다. 유선 또는 무선인 다른 통신 기법들은 또한 사용자 인터페이스(16)로서 본 발명에 의해 고려될 수 있다는 것을 이해해야 한다. 예를 들면, 본 발명은 사용자 인터페이스(16)가 전자 저장소(14)에 의해 제공된 분리가능 저장소 인터페이스에 집적될 수 있다는 것을 고려한다. 이 예에서, 정보는 사용자(들)가 시스템(10)의 구현을 커스터마이징할 수 있게 하는 분리가능 저장소(예컨대, 스마트 카드, 플래시 드라이브, 분리가능 디스크 등)로부터 시스템(10)으로 로딩될 수 있다. 사용자 인터페이스(14)로서 시스템(10)과 사용하기에 적절한 다른 예시적 입력 디바이스들 및 기법들은 RS-232 포트, RF 링크, IR 링크, 모뎀(전화기, 케이블 또는 다른 것)을 포함하지만, 이에 국한되지는 않는다. 요약하면, 시스템(10)과 정보를 통신하기 위한 임의의 기법은 사용자 인터페이스(14)로서 본 발명에 의해 고려된다.
도 12는 사운드 신호의 프로세싱 방법(180)을 예시한다. 동작(182)에서, 사운드 신호가 얻어질 수 있다. 사운드 신호는 전자 저장소로부터, 사용자 인터페이스로부터, 및/또는 다른 소스들로부터 얻어질 수 있다. 사운드 신호는 소스들 및/또는 노이즈에 의해 생성된 사운드들을 표현하는 전자 아날로그 및/또는 디지털 신호를 포함할 수 있다. 사운드 신호는 시간의 함수로서 진폭을 특정할 수 있다. 사운드 신호는 진폭/주파수가 표현되는 샘플링 레이트를 가질 수 있다. 샘플링 레이트는 샘플링 기간에 대응할 수 있다. 일부 구현들에서, 동작(182)은 (도 1에 도시되고 본문에 기술된) 신호 모듈(18)과 동일하거나 또는 유사한 신호 모듈에 의해 수행될 수 있다.
동작(184)에서, 사운드 신호는 한 세트의 신호 부분들로 분리될 수 있다. 신호 부분들은 개별 시간 샘플 윈도우들과 연관될 수 있다. 시간 샘플 윈도우들은 시간에 걸쳐 연속적일 수 있고, 중첩할 수 있고, 간격이 떨어지게 될 수 있고, 및/또는 다른 방식들로 시간 상에 배열될 수 있다. 개별 시간 샘플 윈도우는 신호 부분들로 분리되고 있는 사운드 신호의 샘플링 기간보다 큰 시간의 기간에 대응할 수 있다. 이와 같이, 시간 샘플 윈도우와 연관된 신호 부분은 복수의 신호 샘플들을 포함할 수 있다. 일부 구현들에서, 동작(184)은 (도 1에 도시되고 본문에 기술된) 시간 윈도우 모듈(20)과 동일하거나 또는 유사한 시간 윈도우 모듈에 의해 수행될 수 있다.
동작(186)에서, 신호 부분들은 주파수-처프 도메인으로 변환될 수 있다. 주파수-처프 도메인은 주파수 및 (부분) 처프 레이트에 의해 주어질 수 있다. 주파수-처프 도메인은 변환 계수에 의해 주어진 공동 도메인(출력)을 가질 수 있다. 처프 레이트 변수는 처프 레이트(예컨대, 또는 주파수에서 변화율)로부터 유도된 메트릭일 수 있다. 이와 같이, 동작(186)에서 변환의 성능에 따라, 변환된 신호 부분은 변환된 신호 부분과 연관된 시간 윈도우에 대한 주파수 함수 및 부분 처프 레이트로서 변환 계수를 특정할 수 있다. 일부 구현들에서, 동작(186)은 (도 1에 도시되고 본문에 기술된) 변환 모듈(22)과 동일하거나 또는 유사한 변환 모듈에 의해 수행될 수 있다.
도 13은 오디오 정보를 분석하는 방법(190)을 예시한다. 동작(192)에서, 하나 이상의 사운드들을 표현하는 변환된 오디오 정보가 얻어질 수 있다. 변환된 오디오 정보는 시간 샘플 윈도우 내의 오디오 신호에 대한 주파수 함수로서 신호 강도에 관련된 계수의 크기를 특정할 수 있다. 일부 구현들에서, 동작(192)은 (도 12에 도시되고 상술된) 동작(180)에 관련하여 본문에 기술된 동작들의 일부 또는 전부를 포함할 수 있다.
동작(194)에서, 톤 라이클리후드 메트릭은 얻은 변환된 오디오 정보에 기초하여 결정될 수 있다. 이 결정은 시간 샘플 윈도우 내의 오디오 신호에 대한 주파수 함수로서 톤 라이클리후드 메트릭을 특정할 수 있다. 주어진 주파수에 대한 톤 라이클리후드 메트릭은 오디오 신호에 의해 표현되는 사운드가 시간 샘플 윈도우 동안 주어진 주파수에서 톤을 갖는 라이클리후드를 지시할 수 있다. 일부 구현들에서, 동작(194)은 (도 1에 도시되고 상술된) 톤 라이클리후드 모듈(24)와 동일하거나 또는 유사한 톤 라이클리후드 모듈에 의해 수행될 수 있다.
동작(196)에서, 피치 라이클리후드 메트릭은 톤 라이클리후드 메트릭에 기초하여 결정된다. 피치 라이클리후드 메트릭의 결정은 피치 라이클리후드 메트릭을 시간 샘플 윈도우 내의 오디오 신호에 대한 피치의 함수로서 특정할 수 있다. 주어진 피치에 대한 피치 라이클리후드 메트릭은 오디오 신호에 의해 표현되는 사운드가 주어진 피치를 갖는 라이클리후드에 관련될 수 있다. 몇몇 구현예에서, 동작(196)은 피치 라이클리후드 모듈(26)(도 1에 도시되고 위에서 기술됨)와 동일하거나 또는 유사한 피치 라이클리후드 모듈에 의해 수행될 수 있다.
몇몇 구현예들에서, 변환된 오디오 정보는 복수의 세트의 변환된 오디오 정보를 포함할 수 있다. 변환된 오디오 정보의 세트들의 각각의 정보는 각각의 부분적인 처프 레이트에 대응할 수 있다. 이러한 구현예들에서, 동작들(192, 194, 및 196)은 변환된 오디오 정보의 각각의 세트들에 대해 반복될 수 있다. 동작(198)에서, 변환된 오디오 정보의 추가적인 세트들이 프로세싱되어야할 지 여부에 대한 결정이 이루어질 수 있다. 하나 이상의 추가적인 변환된 오디오 정보의 세트들이 프로세싱되어야 한다는 결정에 응답하여, 방법(190)은 동작(192)으로 복귀할 수 있다. 변환된 오디오 정보의 추가적인 세트가 프로세싱되지 않는다는 결정에 응답하여(또는 변환된 오디오 정보가 부분 처프 레이트에 따라 분할되지 않는 경우), 방법(190)은 종료할 수 있다. 몇몇 구현예에서, 동작(198)은 프로세서(12)(도 1에 도시되고, 위에 기술됨)와 동일하거나 또는 유사한 프로세서에 의해 수행될 수 있다.
도 14는 사운드 신호와 관련된 오디오 정보를 분석하는 방법(200)을 도시한다. 동작(202)에서, 오디오 신호로부터 도출된 오디오 정보가 얻어질 수 있다. 오디오 신호는 하나 이상의 사운드들을 나타낼 수 있다. 오디오 신호는 신호 기간을 가질 수 있다. 오디오 정보는 이산 시간 샘플 윈도우들의 세트 동안의 오디오 신호에 대응하는 오디오 정보를 포함할 수 있다. 시간 샘플 윈도우들은 오디오 신호의 샘플링 주기보다 더 큰 시간의 주기(또는 주기들)에 대응할 수 있다. 결과적으로, 시간 샘플 윈도우에 대한 오디오 정보는 오디오 신호내의 복수의 샘플들로부터 도출되거나 및/또는 오디오 신호내의 복수의 샘플들을 나타낼 수 있다. 몇몇 구현예들에서, 동작(202)은 방법(180)(도 12에 도시되고 위에 기술됨)과 관련하여 여기 개시된 몇몇 또는 모든 동작들을 포함할 수 있다.
동작(204)에서, 복수의 프로세싱 시간 윈도우들은 신호 지속 시간에 걸쳐 정의될 수 있다. 프로세싱 시간 윈도우는 복수의 시간 윈도우 샘플들을 포함할 수 있다. 프로세싱 시간 윈도우들은 통상적인 시간 길이에 대응할 수 있다. 몇몇 구현예들에서, 동작(204)은 프로세싱 윈도우 모듈(28)(도 1에 도시되고, 위에 기술됨)과 동일하거나 또는 유사한 프로세싱 윈도우 모듈에 의해 수행될 수 있다.
동작(206)에서, 동작(204)에서 정의된 프로세싱 시간 윈도우에 대해, 프로세싱 시간 윈도우내의 프라이머리 시간 샘플 윈도우가 식별될 수 있다. 몇몇 구현예들에서, 프라이머리 시간 샘플 윈도우는, 룰 또는 파라미터에 의한 피치 라이클리후드의 몇몇 분석들에 기초하여, 사용자 선택에 기초하여, 및/또는 다른 기준에 기초하여 무작위로 식별될 수 있다. 몇몇 구현예들에서, 프라이머리 시간 샘플 윈도우를 식별하는 것은 최대 피치 라이클리후드를 식별하는 것을 포함할 수 있다. 몇몇 구현예들에서, 동작(206)은 프라이머리 윈도우 모듈(30)(도 1에 도시되고, 위에 기술됨)과 동일하거나 또는 유사한 프라이머리 윈도우 모듈에 의해 수행될 수 있다.
동작(48)에서, 주 시간 샘플 윈도우에 대한 추정된 피치가 결정될 수 있다. 몇몇 구현예들에서, 추정된 피치는, 룰 또는 파라미터에 의한 프라이머리 시간 샘플 윈도우내의 피치 라이클리후드의 몇몇 분석들에 기초하여, 사용자 선택에 기초하여, 및/또는 다른 기준에 기초하여 무작위로 식별될 수 있다. 전술한 바와 같이, 오디오 정보는, 주어진 시간 샘플 윈도우에 대해, 피치의 함수로서 피치 라이클리후드 메트릭을 표시할 수 있다. 이와 같이, 프라이머리 시간 샘플 윈도우에 대한 추정된 피치는, 프라이머리 시간 샘플 윈도우에 대한 피치 라이클리후드 메트릭의 최대값을 나타내는 피치로서 결정될 수 있다.
전술한 바와 같이, 오디오 정보에서 피치 라이클리후드 메트릭은 부분 처프 레이트의 함수로서 더 특정될 수 있다. 이와 같이, 피치 라이클리후드 메트릭은 피치 라이클리후드 메트릭 및 피치의 함수로서 처프 라이클리후드를 나타낼 수 있다. 동작(208)에서, 추정된 피치에 부가하여, 프라이머리 시간 샘플 윈도우에 대한 추정된 부분 처프가 결정될 수 있다. 추정된 부분 처프 레이트는 추정된 피치상의 피치 라이클르후드 메트릭에 대한 최대치에 대응하는 처프 레이트로서 결정될 수 있다.
동작(208)에서, 프라이머리 시간 샘플 윈도우의 추정된 피치에 대한 엔벨로프 벡터가 결정될 수 있다. 여기서 기술된 바와 같이, 프라이머리 시간 샘플 윈도우의 예측된 피치에 대한 엔벨로프 벡터는, 예측된 피치를 갖는 프라이머리 시간 샘플 윈도우에서 오디오 신호내에 표시된 사운드의 하모닉 엔벨로프를 나타낼 수 있다. 몇몇 구현예에서, 동작(48)은 피치 추정 모듈(32) 및/또는 엔벨로프 벡터 모듈(36)(도 1에 도시되고, 위에서 기술됨)과 각각 동일하거나 또는 유사한 피치 추정 모듈 및/또는 엔벨로프 벡터 모듈에 의해 수행될 수 있다.
동작(210)에서, 프로세싱 시간 윈도우내의 다음 시간 샘플 윈도우에 대한 예측된 피치가 결정될 수 있다. 이러한 시간 샘플 윈도우는, 예컨대, 동작(210)에서 결정된 추정된 피치 및 추정된 부분 처프 레이트를 갖는 시간 샘플 윈도우에 인접한 시간 샘플 윈도우를 포함할 수 있다. "다음"으로서 이러한 시간 샘플 윈도우의 기술은 이러한 시간 샘플 윈도우를 인접하거나 또는 연속적인 시간 샘플 윈도우(설사 이러한 경우일지라도)로 제한하도록 의도되는 것은 아니다. 또한, 용어 "다음"의 이용은, 다음 시간 샘플 윈도우가, 추정된 피치 및 추정된 부분 처프 레이트가 결정된 시간 샘플 윈도우 이후에 오디오 신호내에서 일시적으로 도달하게 되는 것을 의미하는 것은 아니다. 예컨대, 다음 시간 샘플 윈도우는, 추정된 피치 및 추정된 부분 처프 레이트가 결정된 시간 샘플 윈도우 이전에 오디오 신호내에서 발생할 수 있다. 몇몇 구현예에서, 동작(201)은 피치 예측 모듈(34))(도 1에 도시되고, 위에 기술됨)과 동일하거나 또는 유사한 피치 예측 모듈에 의해 수행될 수 있다.
동작(212)에서, 엔벨로브 벡터는 다음 시간 샘플 윈도우내의 피치의 함수로서 다음 시간 샘플 윈도우에 대해 결정될 수 있다. 몇몇 구현예에서, 동작(212)은 엔벨로프 벡터 모듈(36)(도 1에 도시되고, 위에서 기술됨)과 동일하거나 유사한 엔벨로프 벡터 모듈에 의해 수행될 수 있다.
동작(214)에서, 다음 시간 샘플 윈도우에 대한 상관 메트릭의 값들은 피치의 함수로서 결정될 수 있다. 몇몇 구현예에서, 동작(214)은 엔벨로프 상관 모듈(38)(도 1에 도시되고, 위에서 기술됨)과 동일하거나 유사한 엔벨로프 상관 모듈에 의해 수행될 수 있다.
동작(216)에서, 다음 시간 샘플 윈도우에 대해, 피치 라이클리후드 메트릭이 가중될 수 있다. 이러한 가중은 동작(210)에서 결정된 예측된 피치, 동작(214)에서 결정된 상관 메트릭, 및/또는 다른 가중 메트릭들 중 하나 이상에 기초하여 수행될 수 있다. 몇몇 구현예들에서, 동작(216)은 가중 모듈(40)(도 1에 도시되고, 위에 기술됨)과 동일하거나 유사한 가중 모듈에 의해 수행될 수 있다.
동작(218)에서, 다음 시간 샘플 윈도우에 대해 추정된 피치는 다음 샘플 윈도우에 대한 가중 피치 라이클리후드 메트릭에 기초하여 결정될 수 있다. 다음 시간 샘플 윈도우에 대한 추정된 피치의 결정은 예컨대, 가중 피치 라이클리후드 메트릭내의 최대치를 식별하고, 다음 시간 샘플 윈도우에 대한 추정된 피치로서 이 최대치에 대응하는 피치를 결정하는 것을 포함할 수 있다.
동작(218)에서, 다음 시간 샘플 윈도우에 대한 추정된 부분 처프 레이트가 결정될 수 있다. 추정된 부분 처프 레이트는, 예컨대, 가중 피치 라이클리후드 메트릭이 시간 샘플 윈도우에 대한 추정된 피치를 따라 최대치를 갖는 부분 처프 레이트를 식별하여 결정될 수 있다. 몇몇 구현예에서, 동작(218)은 피치 추정 모듈(34)(도 1에 도시되고, 위에 기술됨)과 동일하거나 유사한 피치 추정 모듈에 의해 수행될 수 있다.
동작(220)에서, 추정된 피치 및/또는 추정된 부분 처프 레이트가 결정되는 프로세싱 시간 윈도우내에 추가적인 시간 샘플 윈도우들이 존재하는지 여부에 대한 결정이 이루어진다. 추가적인 시간 샘플 윈도우들이 존재한다는 결정에 응답하여, 방법(200)은 동작들(210 및 212)로 복귀할 수 있고, 동작들(210, 212, 214, 216 및/또는 218)은 추가적인 시간 샘플 윈도우에 대해 수행될 수 있다. 동작들(210, 212, 214, 216, 및/또는 218)을 통한 이러한 반복에서, 추가적인 시간 샘플 윈도우는, 동작들(210, 212, 214, 216, 및/또는 218)이 방금 수행되었다는 다음 시간 샘플 윈도우에 인접한 시간 샘플 윈도우가 될 수 있다. 이러한 구현예에서, 동작들(210, 212, 214, 216, 및/또는 218)은 하나 또는 양자 모두의 시간 방향으로 프라이머리 시간 샘플 윈도우로부터 프로세싱 시간 윈도우의 경계들로의 시간 샘플 윈도우을 지나 반복될 수 있다. 프로세싱 시간 윈도우의 경계들을 향한 반복(들) 동안, 동작(210)에서 구현된 추정된 피치 및 추정된 부분 처프 레이트는 동작(208)에서 결정된 추정된 피치 및 추정된 부분 처프 레이트가 되거나, 동작들(210, 212, 214, 216, 및/또는 218)이 반복되는 시간 샘플 윈도우에 인접한 시간 샘플 윈도우에 대한 동작(210)에서 결정된 추정된 피치 및 추정된 부분 처프 레이트가 될 수 있다.
프로세싱 시간 윈도우내에 추가적인 시간 샘플 윈도우들이 존재하지 않는다는 동작(220)에서의 결정에 응답하여, 방법(200)은 동작(222)으로 진행할 수 있다. 동작(222)에서, 프로세싱되어야할 추가적인 프로세싱 시간 윈도우들이 존재하는지 여부에 대한 결정이 수행될 수 있다. 프로세싱되어야할 추가적인 프로세싱 시간 윈도우들이 존재한다는 동작(222)에서의 결정에 응답하여, 방법(200)은 동작(206)으로 복귀할 수 있고, 추가적인 프로세싱 시간 윈도우에 대해 동작들(206, 208, 210, 212, 214, 216, 218 및/또는 220)에 걸쳐 반복할 수 있다. 프로세싱 시간 윈도우들에 걸친 반복은 도 14에 도시되고, 여기서 기술된 방식으로 달성될 수 있고, 이것은 제한적으로 의도되는 것이 아니라는 것을 알 수 있다. 예컨대, 몇몇 구현예에서, 단일 프로세싱 시간 윈도우는 동작(204)에서 정의될 수 있고, 추가적인 프로세싱 시간 윈도우(들)은 동작(222)에 도달하는 방법(200)으로서 개별적으로 정의될 수 있다.
프로세싱되어야할 추가적인 프로세싱 시간 윈도우들이 존재하지 않는다는 동작(222)에서의 결정에 응답하여, 방법(200)은 동작(224)으로 진행할 수 있다. 동작(224)은 프로세싱 시간 윈도우들이 오버랩하는 구현예들에서 수행될 수 있다. 이러한 구현예들에서, 프로세싱 시간 윈도우들에 대한 동작들(206, 208, 210, 212, 214, 216, 218 및/또는 220)의 반복은 시간 샘플 윈도우들의 적어도 몇몇에 대한 추정된 피치의 복수의 결정들을 하는 결과가 된다. 추정된 피치의 복수의 결정들이 수행된 시간 샘플 윈도우들에 대해, 동작(224)은 개별적인 시간 샘플 윈도우들에 대한 취합된 추정된 피치들을 결정하기 위해 개별적인 시간 샘플 윈도우들에 대한 이러한 결정들을 취합하는 것을 포함할 수 있다. 몇몇 구현예들에서, 동작(224)은 추정된 피치 취합 모듈(42)(도 1에 도시되고, 위에 기술됨)과 동일하거나 유사한 추정된 피치 취합 모듈에 의해 수행될 수 있다.
동작(226)에서, 개별적인 시간 샘플 윈도우들은 보이싱된 및 비보이싱된 카테고리들로 분할될 수 있다. 몇몇 구현예들에서, 동작(226)은 보이싱된 섹션 모듈(44)(도 1에 도시되고, 위에 기술됨)과 동일하거나 유사한 보이싱된 섹션 모듈에의해 수행될 수 있다.
시간 샘플 윈도우 동안의 오디오 신호가 비보이싱된 사운드를 나타낸다는 동작(226)에서의 결정에 응답하여, 시간 샘플 윈도우에 대해 추정된 피치(또는 취합된 추정된 피치)는 동작(228)에서 몇몇 미리결정된 값으로 설정될 수 있다. 예컨대, 이 값은 0 또는 다른 몇몇 값으로 설정될 수 있다. 이것은 방법(200)에 의해 달성되는 피치의 트래킹이 하모닉 스피치가 시간 샘플 윈도우내에 존재하거나 현저하기 드러나지 않을 수 있다는 것을 표시하도록 할 수 있다.
시간 샘플 윈도우들에 대한 개별적인 피치를 추정하는 전술한 설명은 제한적인 것으로 의도되는 것이 아님을 알 수 있다. 몇몇 구현예에서, 하나 이상의 시간 샘플 윈도우에 대응하는 오디오 신호의 일부는 2 이상의 하모닉 사운드를 나타낼 수 있다. 이러한 구현예들에서, 개별적인 피치에 관한 전술한 피치 트래킹의 원리는 본 발명의 범주를 벗어나지 않고 동시의 하모닉 사운드들에 대한 복수의 피치들을 트래킹하도록 구현될 수 있다. 예컨대, 오디오 정보가 피치 라이클리후드 메트릭을 피치 및 부분 처프 레이트의 함수로서 특정하면, 상이한 피치들 및 상이한 부분 처프 레이트들의 최대치들은 오디오 신호내의 복수의 하모닉 사운드들의 존재를 나타낼 수 있다. 이러한 피치들은 여기 개시된 기술에 따라 별개로 트래킹될 수 있다.
도 15는 오디오 신호와 관련된 오디오 정보를 분석하는 방법(240)을 도시한다. 동작(242)에서, 사운드를 나타내는 변환된 오디오 정보가 얻어질 수 있다. 변환된 오디오 정보는 오디오 신호 및 시간에 대한 주파수의 함수로서 신호 강도와 관련된 계수의 크기를 특정할 수 있다. 몇몇 구현예들에서, 동작(242)은 방법(180)의 동작들(도 12에 도시되고, 위에서 기술됨)의 하나 이상을 포함할 수 있다.
동작(244)에서, 사운드의 하나 이상의 피치들은 사운드의 개별적인 하모닉스에 대한 시간의 함수로서 개별적인 피치들 및 대응하는 진폭들을 결정하도록 트래킹될 수 있다. 몇몇 구현예들에서, 동작(244)은 방법(200)(도 14에 도시되고, 위에 기술됨)의 몇몇 또는 모든 동작들을 포함할 수 있다.
동작(246)에서, 개별적인 하모닉스는 개별적인 하모닉스에 대응하는 오실레이터들을 이용하여 합성될 수 있다. 몇몇 구현예들에 따라, 오리지널 오디오 신호내의 원하는 사운드(예컨대, 특정 스피커로부터의 스피치)와 연관된 하모닉스만이 합성될 수 있고, 이에 따라 원치 않는 사운드들은 배제된다. 몇몇 구현예들에서, 동작(246)은 재합성 모듈(46)(도 1에 도시되고, 위에 기술됨)과 동일하거나 유사한 재합성 모듈에 의해 수행될 수 있다.
동작(248)에서, 합성된 하모닉스는 재합성된 오디오 신호를 얻도록 합산될 수 있다. 몇몇 구현예들에서, 동작(248)은 재합성 모듈(46)(도 1에 도시되고, 위에 기술됨)과 동일하거나 유사한 재합성 모듈에 의해 수행될 수 있다.
도 16은 변환된 오디오 정보로부터 오디오 신호를 복원하기 위한 방법(250)을 도시한다. 동작(252)에서, 사운드를 나타내는 변환된 오디도 정보가 얻어질 수 있다. 변환된 오디오 정보는 오디오 신호 및 시간에 대한 주파수의 함수로서 신호 강도와 관련된 계수의 크기를 특정할 수 있다. 몇몇 구현예들에서, 동작(252)은 방법(180)(도 12에 도시되고, 위에서 기술됨)의 동작들의 몇몇 또는 전부를 포함할 수 있다.
동작(254)에서, 하모닉 피치 경로들의 피크 포인트들은 변환된 오디오 정보를 통해 보간될 수 있다. 피크 포인트들은 변환된 오디오 정보내에서 하모닉 주파수들을 따라 놓여질 수 있고, 주어진 하모닉에 대한 주파수 및 시간의 함수로서 결정될 수 있다. 몇몇 구현예들에서, 동작(254)은 노이즈 감산 모듈(48)(도 1에 도시되고 위에 기술됨)과 동일하거나 유사한 노이즈 감산 모듈에 의해 수행될 수 있다.
동작(256)에서, 하모닉 피치 경로들의 트로프 포인트들은 변환된 오디오 정보를 통해 보간될 수 있다. 트로프 포인트들은 변환된 오디오 정보내의 인접한 하모닉 주파수들의 피크 포인트들간의 중간에 위치될 수 있고, 주파수 및 시간의 함수로서 결정될 수 있다. 몇몇 구현예들에서, 동작(256)은 노이즈 감산 모듈(48)(도 1에 도시되고 위에 기술됨)과 동일하거나 유사한 노이즈 감산 모듈에 의해 수행될 수 있다.
동작(258)에서, 트로프 포인트 보간들의 각각의 하나와 연관된 값들은 피크 포인트 보간들의 각각의 하나와 연관된 값들로부터 감축되어, 노이즈 감소 변환된 오디오 정보가 산출된다. 몇몇 구현예들에서, 동작(258)은 노이즈 감산 모듈(48)(도 1에 도시되고 위에 기술됨)과 동일하거나 유사한 노이즈 감산 모듈에 의해 수행될 수 있다.
동작(260)에서, 오디오 신호는 노이즈 감소 변환된 오디오 정보의 역 변환에기초하여 복원될 수 있다. 몇몇 구현예들에서, 동작(260)은 복원 모듈(52)(도 1에 도시되고, 위에 기술됨)와 동일하거나 유사한 복원 모듈에 의해 수행될 수 있다.
도 17은 변환된 오디오 정보로부터 오디오 신호를 복원하기 위한 방법(270)을 도시한다. 동작(272)에서, 사운드를 나타내는 변환된 오디오 정보가 얻어질 수 있다. 변환된 오디오 정보는 오디오 신호 및 시간에 대한 주파수의 함수로서 신호 에너지와 관련된 계수의 크기를 특정할 수 있다. 몇몇 구현예들에서, 동작(272)은 방법(120)(도 12에 도시되고, 위에 기술됨)의 몇몇 또는 모든 동작들을 포함할 수 있다.
동작(274)에서, 사운드의 하모닉스간의 노이즈는 변환된 오디오 정보내의 개별적인 하모닉스에 중심이 있는 함수들에 의해 변환된 오디오 정보내에서 억제될 수 있다. 함수들은 하모닉스간의 노이즈를 억제하도록 작용하여 노이즈 감소 변환된 오디오 정보를 산출할 수 있다. 주어진 함수의 폭은 대응하는 하모닉의 대역폭에 기초할 수 있다. 몇몇 구현예들에서, 동작(274)은 펜스 모델 모듈(50)(도 1에 도시되고, 위에 기술됨)와 동일하거나 유사한 펜스 모델 모듈에 의해 수행될 수 있다.
동작(276)에서, 오디오 신호는 노이즈 감소 변환된 오디오 정보의 역 변환에 기초하여 복원될 수 있다. 몇몇 구현예들에서, 동작(276)은 복원 모듈(52)(도 1에 도시되고, 위에 기술됨)와 동일하거나 유사한 복원 모듈에 의해 수행될 수 있다.
도 18은 변환된 오디오 정보로부터 오디오 신호를 분할 및/또는 분류하기 위한 방법(280)을 도시한다. 동작(282)에서, 사운드를 나타내는 변환된 오디오 정보가 얻어질 수 있다. 변환된 오디오 정보는 오디오 신호 및 시간에 대한 주파수의 함수로서 에너지 진폭과 관련된 계수의 크기를 특정할 수 있다. 몇몇 구현예들에서, 동작(282)은 방법(180)(도 12에 도시되고, 위에 기술됨)의 몇몇 또는 모든 동작들을 포함할 수 있다.
동작(284)에서, 오디오 신호와 연관된 피쳐들이 변환된 오디오 정보로부터 얻어질 수 있다. 피쳐들의 각각의 하나가 미리정해진 스피커 모델에 대한 피쳐 스코어와 연관될 수 있다. 몇몇 구현예들에 따라, 피쳐들의 하나 이상이 정보 감축 모듈(58)(도 1에 도시되고, 위에서 기술됨), 스펙트럼 슬로프 모듈(60)(도 1에 도시되고, 위에 기술됨), 다른 모듈들, 및/또는 다른 소스와 동일하거나 유사한 모듈들로부터 얻어질 수 있다. 몇몇 구현예들에서, 동작(284)은 오디오 피쳐 모듈(56)(도 1에 도시되고, 위에 기술됨)와 동일하거나 유사한 오디오 피쳐 모듈에 의해 수행될 수 있다.
동작(286)에서, 가중 스킴에 따른 피쳐 스코어들에 기초하여 취합 스코어가 획득될 수 있다. 가중 스킴은 노이즈 및/또는 SNR 추정과 연관될 수 있다. 취합 스코어는 미리 정해진 스피커와 결합하여 오디오 신호에서 사운드의 소스(예를 들면, 특정 사람)를 식별하는데 사용될 수 있다. 일부 구현예들에서, 동작(286)는 (도 1에 도시되고 전술한) 취합 스코어 모듈(62)과 동일한 또는 그와 유사한 취합 스코어 모듈에 의해 수행될 수 있다.
도 19는 감축된 변환 오디오 정보를 오디오 신호와 연관된 피쳐로서 획득하기 위한 방법(290)을 도시한다. 동작(292)에서, 사운드를 나타내는 변환 오디오 정보가 획득될 수 있다. 변환 오디오 정보는 에너지 진폭과 연관된 계수의 크기를 오디오 신호에 대한 주파수 및 시간의 함수로서 특정할 수 있다. 일부 구현예들에서, 동작(292)은 (도 12에 도시되고 전술한) 방법(180)의 동작 중 일부 또는 전부를 포함할 수 있다.
동작(294)에서, 부분 처프 레이트 및 하모닉 수에 기초하여 사운드의 개별 하모닉들에 대해 하모닉 경로들이 결정될 수 있다. 일부 구현예들에서, 동작(294)은 (도 1에 도시되고 전술한) 정보 감축 모듈(58)과 동일한 또는 그와 유사한 정보 감축 모듈에 의해 수행될 수 있다.
동작(296)에서, 개별 시간 윈도우들에서 개별 하모닉들의 진폭 값이 결정될 수 있다. 일부 구현예들에서, 동작(296)은 (도 1에 도시되고 전술한) 정보 감축 모듈(58)과 동일한 또는 그와 유사한 정보 감축 모듈에 의해 수행될 수 있다.
동작(298)에서, 감축된 변환 오디오 정보는 개별 하모닉들에 대한 진폭 값들을 주파수와 시간의 함수로서 포함하도록 구성될 수 있다. 진폭값들 간의 감축된 변환 오디오 정보 내의 값들은 제로로 설정될 수 있다. 일부 구현예들에서, 동작(298)은 (도 1에 도시되고 전술한) 정보 감축 모듈(58)과 동일한 또는 그와 유사한 정보 감축 모듈에 의해 수행될 수 있다.
동작(300)에서, 감축된 변환 오디오 정보에 필터 뱅크가 적용될 수 있다. 일부 구현예들에서, 동작(300)은 (도 1에 도시되고 전술한) 정보 감축 모듈(58)과 동일한 또는 그와 유사한 정보 감축 모듈에 의해 수행될 수 있다.
도 20은 변환 오디오 정보에 기초하여 스펙트럼 슬로프 정보를 오디오 신호와 연관된 피쳐로서 획득하기 위한 방법(310)을 도시한다. 동작(312)에서, 사운드를 나타내는 변환 오디오 정보가 획득될 수 있다. 변환 오디오 정보는 에너지 진폭과 연관된 계수의 크기를 오디오 신호에 대한 주파수와 시간의 함수로서 특정할 수 있다. 일부 구현예들에서, 동작(312)은 (도 12에 도시되고 전술한) 방법(180)의 동작들 중 일부 또는 전부를 포함할 수 있다.
동작(314)에서, 특정 피치를 갖는 사운드의 하모닉 엔벨로프의 순간 슬로프가 스펙트럼 슬로프 정보로서 주파수의 함수로 획득될 수 있다. 일부 구현예들에 따라, 특정 피치에서 하모닉 엔벨로프의 주파수에 대해 미분함으로써 결정될 수 있다. 일부 구현예들에서, 동작(314)은 (도 1에 도시되고 전술한) 스펙트럼 슬로프 모듈(60)과 동일하거나 또는 그와 유사한 스펙트럼 슬로프 모듈에 의해 수행될 수 있다.
동작(316)에서, 스펙트럼 슬로프 정보에 필터 뱅크가 적용될 수 있다. 일부 구현예들에서, 동작(316)은 (도 1에 도시되고 전술한) 스펙트럼 슬로프 모듈(60)과 동일하거나 또는 그와 유사한 스펙트럼 슬로프 모듈에 의해 수행될 수 있다.
도 21은 오디오 신호와 연관된 노이즈 및/또는 SNR 추정을 위한 방법(320)을 도시한다. 동작(322)에서, 사운드를 나타내는 변환 오디오 정보가 획득될 수 있다. 변환 오디오 정보는 에너지 진폭과 연관된 계수의 크기를 오디오 신호에 대한 주파수와 시간의 함수로서 특정할 수 있다. 일부 구현예들에서, 동작(322)은 (도 12에 도시되고 전술한) 방법(180)의 하나 이상의 동작을 포함할 수 있다.
동작(324)에서, 개별 하모닉들의 하모닉 에너지는 변환 오디오 정보에 기초하여 주파수와 시간의 함수로서 결정될 수 있다. 일부 구현예들에서, 동작(322)은 (도 1에 도시되고 전술한) 노이즈 추정기 모듈(62)과 동일한 또는 그와 유사한 노이즈 추정기 모듈에 의해 수행될 수 있다.
동작(326)에서, 변환 오디오 정보에 기초하여 오디오 신호의 총 에너지가 결정될 수 있다. 일부 구현예들에서, 동작(324)은 (도 1에 도시되고 전술한) 노이즈 추정기 모듈(62)과 동일한 또는 그와 유사한 노이즈 추정기 모듈에 의해 수행될 수 있다.
동작(328)에서, 하모닉 에너지와 총 에너지 간의 비율이 결정될 수 있다. 일부 구현예들에서, 동작(328)은 (도 1에 도시되고 전술한) 노이즈 추정기 모듈(62)과 동일한 또는 그와 유사한 노이즈 추정기 모듈에 의해 수행될 수 있다.
동작(330)에서, 하모닉 에너지와 총 에너지 간의 비율을 시간에 걸쳐 평균화할 수 있다. 일부 구현예들에서, 동작(330)은 (도 1에 도시되고 전술한) 노이즈 추정기 모듈(62)과 동일한 또는 그와 유사한 노이즈 추정기 모듈에 의해 수행될 수 있다.
동작(332)에서, 면환 오디오 정보의 일부로서 노이즈가 추정될 수 있고, 여기서, 비율은 미리 정해진 임계값을 위반한다. 일부 구현예들에서, 동작(332)은 (도 1에 도시되고 전술한) 노이즈 추정기 모듈(62)과 동일한 또는 그와 유사한 노이즈 추정기 모듈에 의해 수행될 수 있다.
여기에서 제시된 방법들(180, 190, 200, 240, 250, 270, 280, 290, 310, 및 320)의 동작들은 예시를 의도한 것이다. 일부 구현예들에서, 하나 이상의 방법들(180, 190, 200, 240, 250, 270, 280, 290, 310, 및/또는 320)은 설명되지 않은 하나 이상의 부가 동작들로, 및/또는 논의된 동작들 중 하나 이상의 동작 없이 달성될 수 있다. 부가적으로, 방법들(180, 190, 200, 240, 250, 270, 280, 290, 310, 및 320)이 도 1에 도시되고 여기서 설명된 순서는 제한을 두고자 하는 것은 아니다.
일 실시예들에서, 방법들(180, 190, 200, 240, 250, 270, 280, 290, 310, 및/또는 320) 중 하나 이상은 하나 이상의 프로세싱 디바이스들(예를 들면, 디지털 프로세서, 아날로그 프로세서, 정보를 프로세싱하도록 설계된 디지털 회로, 정보를 프로세싱하도록 설계된 아날로그 회로, 상태 머신, 및/또는 정보를 전자적으로 프로세싱하기 위한 다른 메커니즘)에서 구현될 수 있다. 하나 이상의 프로세싱 디바이스들은 전자 저장 매체 상에 전자적으로 저장된 명령어에 응답하여 하나 이상의 방법들(180, 190, 200, 240, 250, 270, 280, 290, 310, 및/또는 320)의 동작들 중 일부 또는 전부를 실행하는 하나 이상의 디바이스들을 포함할 수 있다. 하나 이상의 프로세싱 디바이스들은 하나 이상의 방법들(180, 190, 200, 240, 250, 270, 280, 290, 310, 및/또는 320)의 동작들 중 하나 이상의 실행을 위해 특별히 설계되도록 하드웨어, 펌웨어, 및/또는 소프트웨어를 통해 구성된 하나 이상의 디바이스들을 포함할 수 있다.
본 개시의 시스템(들) 및/또는 방법(들)을 현재 가장 실용적이고 바람직한 구현예들로 고려되는 것들에 기초하여 설명의 목적으로 상세히 설명하였지만, 그러한 상세한 설명은 단지 그러한 목적을 위한 것이고 또한 본 개시가 개시된 구현예들로 제한되는 것이 아니라, 반대로, 첨부된 청구범위의 사상 및 범위 내에 있는 수정 및 등가물을 커버하고자 한다는 것을 이해해야 한다. 예를 들면, 본 개시는, 가능한 한, 임의의 구현예의 하나 이상의 특징들이 임의의 다른 구현예의 하나 이상의 특징들과 결합될 수 있다는 것을 상정한다는 것을 이해해야 한다.

Claims (16)

  1. 사운드 신호를 프로세싱하도록 구성된 시스템으로서,
    컴퓨터 프로그램 모듈들을 실행하도록 구성된 하나 이상의 프로세서들
    을 포함하고,
    상기 컴퓨터 프로그램 모듈들은 오디오 신호의 개별 시간 샘플 윈도우들을 주파수-처프 도메인(frequency-chirp domain)으로 변환하도록 구성된 제1 세트의 하나 이상의 모듈들을 포함하고, 주어진 시간 샘플 윈도우의 주파수-처프 도메인 표현은 변환 계수를 신호 부분에 대한 주파수와 부분 처프 레이트(fractional chirp rate)의 함수로서 특정하고, 부분 처프 레이트는 주파수에 의해 분할된 처프 레이트인
    사운드 신호 프로세싱 시스템.
  2. 제1항에 있어서,
    상기 컴퓨터 프로그램 모듈들은, 상기 주어진 시간 샘플 윈도우에 대해 획득된 변환 오디오 정보로부터, 피치 라이클리후드 메트릭(pitch likelihood metric)을 상기 시간 샘플 윈도우 내의 오디오 신호에 대한 피치와 부분 처프 레이트의 함수로서 결정하도록 구성되는 제2 세트의 하나 이상의 컴퓨터 프로그램 모듈들을 더 포함하는 사운드 신호 프로세싱 시스템.
  3. 제2항에 있어서,
    상기 제2 세트의 하나 이상의 컴퓨터 프로그램 모듈들은, (i) 상기 주어진 시간 샘플 윈도우에 대해 획득된 변환 오디오 정보로부터, 톤 라이클리후드 메트릭(tone likelihood metric)을 상기 시간 샘플 윈도우 내의 오디오 신호에 대한 주파수의 함수로서 결정하고, (ii) 상기 톤 라이클리후드 메트릭으로부터 상기 주어진 시간 샘플 윈도우에 대한 상기 피치 라이클리후드 메트릭을 결정하도록 구성되는 사운드 신호 프로세싱 시스템.
  4. 제2항에 있어서,
    상기 피치 라이클리후드 메트릭에 기초하여, 상기 개별 시간 샘플 윈도우들에 대한 추정 피치 및 추정 부분 처프 레이트를 결정하도록 구성된 제3 세트의 하나 이상의 컴퓨터 프로그램 모듈들을 더 포함하는 사운드 신호 프로세싱 시스템.
  5. 제4항에 있어서,
    상기 제3 세트의 하나 이상의 컴퓨터 프로그램 모듈들은 (i) 상기 시간 샘플 윈도우들을 프로세싱 시간 윈도우들 내의 그룹들로 분할하고, (ii) 주어진 프로세싱 시간 윈도우 내에서 프라이머리(primary) 시간 샘플 윈도우를 식별하고, (iii) 상기 프로세싱 시간 윈도우를 통해 상기 프라이머리 시간 샘플 윈도우로부터 상기 프로세싱 시간 윈도우의 경계들 중 하나 또는 양자 모두를 향해 반복하고, 주어진 시간 샘플 윈도우에 인접한 시간 샘플 윈도우에 대해 결정된 사운드의 파라미터들에 기초하여 가중된 피치 라이클리후드 메트릭의 값들로부터 주어진 시간 샘플 윈도우에 대한 추정 피치 및 추정 부분 처프 레이트를 결정함으로써, 상기 주어진 프로세싱 시간 윈도우 내의 시간 샘플 윈도우들에 대한 피치를 결정하도록 구성되는 사운드 신호 프로세싱 시스템.
  6. 제5항에 있어서,
    상기 제3 세트의 하나 이상의 컴퓨터 프로그램 모듈들은, 상기 주어진 시간 샘플 윈도우 내의 피치 라이클리후드 메트릭을 가중하는데 사용되는 인접한 시간 샘플 윈도우 내의 사운드의 파라미터들이 추정 피치, 추정 처프, 또는 하모닉 엔벨로프 중 하나 이상을 포함하도록 구성되는 사운드 신호 프로세싱 시스템.
  7. 제4항에 있어서,
    상기 컴퓨터 프로그램 모듈들은 상기 제1 세트의 하나 이상의 컴퓨터 프로그램 모듈들에 의해 생성되는 변환 오디오 정보 및/또는 상기 제3 세트의 하나 이상의 컴퓨터 프로그램 모듈들에 의해 결정되는 추정 피치 및 추정 처프 레이트 중 하나 또는 양자 모두에 기초하여 상기 오디오 신호에 나타나는 사운드를 복원(reconstruct)하도록 구성되는 제4 세트의 하나 이상의 컴퓨터 모듈들을 더 포함하는 사운드 신호 프로세싱 시스템.
  8. 제4항에 있어서,
    상기 컴퓨터 프로그램 모듈들은 상기 제1 세트의 하나 이상의 컴퓨터 프로그램 모듈들에 의해 생성된 변환 오디오 정보 및/또는 상기 제3 세트의 하나 이상의 컴퓨터 프로그램 모듈들에 의해 결정된 추정 피치 및 추정 처프 레이트 중 하나 또는 양자 모두에 기초하여 상기 오디오 신호에 표현된 하나 이상의 사운드들을 보이싱하는(voiced) 하나 이상의 스피커들을 분류하도록 구성된 제5 세트의 하나 이상의 컴퓨터 프로그램 모듈들을 더 포함하는 사운드 신호 프로세싱 시스템.
  9. 사운드 신호를 프로세싱하는 방법으로서,
    오디오 신호의 개별 시간 샘플 윈도우들을 주파수-처프 도메인으로 변환하는 단계를 포함하고, 주어진 시간 샘플 윈도우의 주파수-처프 도메인 표현은 변환 계수를 신호 부분에 대한 주파수와 부분 처프 레이트의 함수로서 특정하고, 부분 처프 레이트는 주파수에 의해 분할된 처프 레이트인
    사운드 신호 프로세싱 방법.
  10. 제9항에 있어서,
    상기 주어진 시간 샘플 윈도우에 대한 획득된 변환 오디오 정보로부터, 피치 라이클리후드 메트릭을 상기 시간 샘플 윈도우 내의 오디오 신호에 대한 피치와 부분 처프 레이트의 함수로서 결정하는 단계를 더 포함하는 사운드 신호 프로세싱 방법.
  11. 제10항에 있어서,
    상기 주어진 시간 샘플 윈도우에 대한 획득된 변환 오디오 정보로부터, 톤 라이클리후드 메트릭을 상기 시간 샘플 윈도우 내의 오디오 신호에 대한 주파수의 함수로서 결정하는 단계; 및
    상기 톤 라이클리후드 메트릭으로부터 상기 주어진 시간 샘플 윈도우에 대한 상기 피치 라이클리후드 메트릭을 결정하는 단계
    를 더 포함하는 사운드 신호 프로세싱 방법.
  12. 제11항에 있어서,
    상기 피치 라이클리후드 메트릭에 기초하여, 상기 개별 시간 샘플 윈도우들에 대한 추정 피치 및 추정 부분 처프 레이트를 결정하는 단계를 더 포함하는 사운드 신호 프로세싱 방법.
  13. 제12항에 있어서,
    상기 시간 샘플 윈도우들을 프로세싱 시간 윈도우들 내의 그룹들로 분할하는 단계;
    주어진 프로세싱 시간 윈도우 내에서 프라이머리 시간 샘플 윈도우를 식별하는 단계; 및,
    상기 프로세싱 시간 윈도우를 통해 상기 프라이머리 시간 샘플 윈도우로부터 상기 프로세싱 시간 윈도우의 경계들 중 하나 또는 양자 모두를 향해 반복하고, 주어진 시간 샘플 윈도우에 인접한 시간 샘플 윈도우에 대해 결정된 사운드의 파라미터들에 기초하여 가중된 피치 라이클리후드 메트릭의 값들로부터 주어진 시간 샘플 윈도우에 대한 추정 피치 및 추정 부분 처프 레이트를 결정함으로써, 상기 주어진 프로세싱 시간 윈도우 내의 시간 샘플 윈도우들에 대한 피치를 결정하는 단계
    를 더 포함하는 사운드 신호 프로세싱 방법.
  14. 제13항에 있어서,
    상기 주어진 시간 샘플 윈도우 내의 피치 라이클리후드 메트릭을 가중하는데 사용되는 인접한 시간 샘플 윈도우 내의 사운드의 파라미터들은 추정 피치, 추정 처프, 또는 하모닉 엔벨로프 중 하나 이상을 포함하는 사운드 신호 프로세싱 방법.
  15. 제12항에 있어서,
    상기 변환 오디오 정보 및/또는 상기 추정 피치 및 추정 처프 레이트 중 하나 또는 양자 모두에 기초하여 상기 오디오 신호에 나타나는 사운드를 복원하는 단계를 더 포함하는 사운드 신호 프로세싱 방법.
  16. 제12항에 있어서,
    상기 변환 오디오 정보 및/또는 추정 피치 및 추정 처프 레이트 중 하나 또는 양자 모두에 기초하여 상기 오디오 신호에 표현된 하나 이상의 사운드들을 보이싱하는 하나 이상의 스피커들을 분류하는 단계를 더 포함하는 사운드 신호 프로세싱 방법.
KR1020147006310A 2011-08-08 2012-08-08 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법 KR20140079369A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/205,535 US8548803B2 (en) 2011-08-08 2011-08-08 System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US13/205,535 2011-08-08
PCT/US2012/049930 WO2013022930A1 (en) 2011-08-08 2012-08-08 System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain

Publications (1)

Publication Number Publication Date
KR20140079369A true KR20140079369A (ko) 2014-06-26

Family

ID=47668906

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147006310A KR20140079369A (ko) 2011-08-08 2012-08-08 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법

Country Status (7)

Country Link
US (2) US8548803B2 (ko)
EP (1) EP2742435B1 (ko)
KR (1) KR20140079369A (ko)
CN (1) CN103999076B (ko)
CA (1) CA2847689A1 (ko)
HK (2) HK1199122A1 (ko)
WO (1) WO2013022930A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016017859A1 (ko) * 2014-07-31 2016-02-04 현대엠엔소프트 주식회사 전자기기의 조작 방법

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849663B2 (en) * 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
JP2013186228A (ja) * 2012-03-07 2013-09-19 Seiko Epson Corp 音声認識処理装置及び音声認識処理方法
US9592444B2 (en) 2012-09-17 2017-03-14 King.Com Ltd. Method for implementing a computer game
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9959886B2 (en) * 2013-12-06 2018-05-01 Malaspina Labs (Barbados), Inc. Spectral comb voice activity detection
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9548067B2 (en) * 2014-09-30 2017-01-17 Knuedge Incorporated Estimating pitch using symmetry characteristics
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
EP3254282A1 (en) * 2015-02-06 2017-12-13 KnuEdge Incorporated Determining features of harmonic signals
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
WO2016126753A1 (en) * 2015-02-06 2016-08-11 Knuedge Incorporated Determining features of harmonic signals
AU2015261614A1 (en) * 2015-09-04 2017-03-23 Musigma Business Solutions Pvt. Ltd. Analytics system and method
JP6705142B2 (ja) * 2015-09-17 2020-06-03 ヤマハ株式会社 音質判定装置及びプログラム
DE112016006218B4 (de) * 2016-02-15 2022-02-10 Mitsubishi Electric Corporation Schallsignal-Verbesserungsvorrichtung
US20170297483A1 (en) * 2016-04-19 2017-10-19 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Automated display of "in case of emergency" information via infotainment hardware
US10490209B2 (en) * 2016-05-02 2019-11-26 Google Llc Automatic determination of timing windows for speech captions in an audio stream
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
WO2019068915A1 (en) * 2017-10-06 2019-04-11 Sony Europe Limited AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES
WO2019073233A1 (en) * 2017-10-13 2019-04-18 Cirrus Logic International Semiconductor Limited ANALYSIS OF VOICE SIGNALS
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801661D0 (en) 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
CN108399923B (zh) * 2018-02-01 2019-06-28 深圳市鹰硕技术有限公司 多人发言中发言人识别方法以及装置
CN108510991A (zh) * 2018-03-30 2018-09-07 厦门大学 利用泛音列的说话人确认方法
US10529356B2 (en) 2018-05-15 2020-01-07 Cirrus Logic, Inc. Detecting unwanted audio signal components by comparing signals processed with differing linearity
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN111157095B (zh) * 2020-01-17 2022-03-01 上海索辰信息科技股份有限公司 噪声声源的频率自动提取方法
CN113593504A (zh) * 2020-04-30 2021-11-02 小叶子(北京)科技有限公司 一种音高识别模型的建立方法、音高识别方法及装置
CN111579881B (zh) * 2020-05-14 2021-02-26 北京航空航天大学 一种频域多特征融合电磁发射特征向量构建方法
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
SE544738C2 (en) * 2020-12-22 2022-11-01 Algoriffix Ab Method and system for recognising patterns in sound
CN113643689B (zh) * 2021-07-02 2023-08-18 北京华捷艾米科技有限公司 一种数据滤波方法和相关设备
US12094488B2 (en) * 2022-10-22 2024-09-17 SiliconIntervention Inc. Low power voice activity detector

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3617636A (en) 1968-09-24 1971-11-02 Nippon Electric Co Pitch detection apparatus
US3649765A (en) 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4454609A (en) * 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4797923A (en) * 1985-11-29 1989-01-10 Clarke William L Super resolving partial wave analyzer-transceiver
US5054072A (en) 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
JPH01257233A (ja) 1988-04-06 1989-10-13 Fujitsu Ltd 信号検出方法
US5321636A (en) 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
US5216747A (en) 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
GB9026906D0 (en) 1990-12-11 1991-01-30 B & W Loudspeakers Compensating filters
IT1270438B (it) 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5812967A (en) 1996-09-30 1998-09-22 Apple Computer, Inc. Recursive pitch predictor employing an adaptively determined search window
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
TW430778B (en) 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US7003120B1 (en) 1998-10-29 2006-02-21 Paul Reed Smith Guitars, Inc. Method of modifying harmonic content of a complex waveform
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6356868B1 (en) * 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
US6798777B1 (en) 2000-04-17 2004-09-28 Juniper Networks, Inc. Filtering and route lookup in a switching device
US6366862B1 (en) 2000-04-19 2002-04-02 National Instruments Corporation System and method for analyzing signals generated by rotating machines
US6901362B1 (en) 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
FR2813722B1 (fr) 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
AU2001294974A1 (en) 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US7016352B1 (en) 2001-03-23 2006-03-21 Advanced Micro Devices, Inc. Address modification within a switching device in a packet-switched network
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
GB2375028B (en) 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6493668B1 (en) * 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
GB2387008A (en) 2002-03-28 2003-10-01 Qinetiq Ltd Signal Processing System
US6827686B2 (en) 2002-08-21 2004-12-07 Koninklijke Philips Electronics N.V. System and method for improved harmonic imaging
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7577564B2 (en) 2003-03-03 2009-08-18 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for detecting illicit activity by classifying whispered speech and normally phonated speech according to the relative energy content of formants and fricatives
US7389230B1 (en) 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
SG120121A1 (en) 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
US7668711B2 (en) 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
US20070299658A1 (en) 2004-07-13 2007-12-27 Matsushita Electric Industrial Co., Ltd. Pitch Frequency Estimation Device, and Pich Frequency Estimation Method
DE102004046746B4 (de) 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
KR100590561B1 (ko) 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
US20060100866A1 (en) 2004-10-28 2006-05-11 International Business Machines Corporation Influencing automatic speech recognition signal-to-noise levels
US20060122834A1 (en) 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7991167B2 (en) 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
US8073148B2 (en) 2005-07-11 2011-12-06 Samsung Electronics Co., Ltd. Sound processing apparatus and method
EP1960995A4 (en) * 2005-11-04 2017-04-19 Tektronix, Inc. Data compression for producing a spectrum trace
JP2007226935A (ja) 2006-01-24 2007-09-06 Sony Corp 音響再生装置、音響再生方法および音響再生プログラム
US7774202B2 (en) 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US20100332222A1 (en) 2006-09-29 2010-12-30 National Chiao Tung University Intelligent classification method of vocal signal
TWI297486B (en) 2006-09-29 2008-06-01 Univ Nat Chiao Tung Intelligent classification of sound signals with applicaation and method
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
CN101743586B (zh) 2007-06-11 2012-10-17 弗劳恩霍夫应用研究促进协会 音频编码器、编码方法、解码器、解码方法
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8706496B2 (en) 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
US8155326B2 (en) 2007-10-09 2012-04-10 Schweitzer Engineering Laboratories, Inc. System, method, and apparatus for using the sound signature of a device to determine its operability
EP2058797B1 (en) 2007-11-12 2011-05-04 Harman Becker Automotive Systems GmbH Discrimination between foreground speech and background noise
US8856049B2 (en) 2008-03-26 2014-10-07 Nokia Corporation Audio signal classification by shape parameter estimation for a plurality of audio signal samples
DE102008022125A1 (de) 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
WO2010038386A1 (ja) 2008-09-30 2010-04-08 パナソニック株式会社 音判定装置、音検知装置及び音判定方法
EP3975587A1 (en) 2009-02-03 2022-03-30 Cochlear Limited Enhanced envelope encoded tone sound processor and system
JP2010249939A (ja) 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ判定方法
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US8666092B2 (en) 2010-03-30 2014-03-04 Cambridge Silicon Radio Limited Noise estimation
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8849663B2 (en) 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US20130041489A1 (en) 2011-08-08 2013-02-14 The Intellisis Corporation System And Method For Analyzing Audio Information To Determine Pitch And/Or Fractional Chirp Rate

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016017859A1 (ko) * 2014-07-31 2016-02-04 현대엠엔소프트 주식회사 전자기기의 조작 방법

Also Published As

Publication number Publication date
US20140037095A1 (en) 2014-02-06
HK1199506A1 (en) 2015-07-03
US8548803B2 (en) 2013-10-01
EP2742435B1 (en) 2016-09-21
EP2742435A1 (en) 2014-06-18
CN103999076A (zh) 2014-08-20
EP2742435A4 (en) 2015-04-15
US9485597B2 (en) 2016-11-01
HK1199122A1 (en) 2015-06-19
US20130041658A1 (en) 2013-02-14
CN103999076B (zh) 2017-05-24
WO2013022930A1 (en) 2013-02-14
CA2847689A1 (en) 2013-02-14

Similar Documents

Publication Publication Date Title
KR20140079369A (ko) 사운드 신호를 주파수 처프 도메인으로 변환하는 것을 포함하는 사운드 신호 프로세싱 시스템 및 방법
CN106486131B (zh) 一种语音去噪的方法及装置
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
US8849663B2 (en) Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
EP2178082B1 (en) Cyclic signal processing method, cyclic signal conversion method, cyclic signal processing device, and cyclic signal analysis method
US10430154B2 (en) Tonal/transient structural separation for audio effects
CN102054480B (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
US20140376727A1 (en) System and method for processing sound signals implementing a spectral motion transform
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
Permana et al. Implementation of constant-Q transform (CQT) and mel spectrogram to converting bird’s sound
CN108369803A (zh) 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
CN116884438B (zh) 基于声学特征的练琴音准检测方法及系统
CN113593604A (zh) 检测音频质量方法、装置及存储介质
Kumar et al. A new pitch detection scheme based on ACF and AMDF
CN115938346A (zh) 音准评估方法、系统、设备及存储介质
de León et al. A complex wavelet based fundamental frequency estimator in singlechannel polyphonic signals
JP2021015137A (ja) 情報処理装置、プログラム及び情報処理方法
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
Selvaraj et al. A variant of SWEMDH technique based on variational mode decomposition for speech enhancement
Li et al. Robust unsupervised Tursiops aduncus whistle enhancement based on complete ensembled empirical optimal envelope local mean decomposition with adaptive noise
Salhi et al. An adaptative thresholding SOM-wavelet packet model to improve the phonemic recognition rate
Haton Speech analysis for automatic speech recongnition: A review
Talbi et al. Speech enhancement with bionic wavelet transform and recurrent neural network
Żak Creatin patterns for hydroacoustics signals

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid