KR101327895B1 - 오디오 신호 분류를 위한 방법 및 장치 - Google Patents

오디오 신호 분류를 위한 방법 및 장치 Download PDF

Info

Publication number
KR101327895B1
KR101327895B1 KR1020117024685A KR20117024685A KR101327895B1 KR 101327895 B1 KR101327895 B1 KR 101327895B1 KR 1020117024685 A KR1020117024685 A KR 1020117024685A KR 20117024685 A KR20117024685 A KR 20117024685A KR 101327895 B1 KR101327895 B1 KR 101327895B1
Authority
KR
South Korea
Prior art keywords
audio signal
classified
characteristic parameter
subband
spectral tilt
Prior art date
Application number
KR1020117024685A
Other languages
English (en)
Other versions
KR20120000090A (ko
Inventor
리징 수
순메이 우
리웨이 첸
칭 장
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20120000090A publication Critical patent/KR20120000090A/ko
Application granted granted Critical
Publication of KR101327895B1 publication Critical patent/KR101327895B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Auxiliary Devices For Music (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

본 발명은 오디오 신호 분류를 위한 방법 및 장치를 개시하며, 통신 기술 분야에 관한 것으로서, 종래 기술에서의 오디오 신호의 타입을 분류하는 데 복잡한 문제를 해결한다. 본 발명에서, 분류될 오디오 신호를 수신한 후, 적어도 하나의 서브대역 내에 있는, 분류될 오디오 신호의 음조 특성 파라미터를 획득하고, 그 획득된 특성 파라미터에 따라 상기 분류될 오디오 신호의 타입이 판정된다. 본 발명은 오디오 신호 분류 시나리오에 주로 적용되며 상대적으로 간단한 방법을 통해 오디오 신호 분류를 실행한다.

Description

오디오 신호 분류를 위한 방법 및 장치{METHOD AND DEVICE FOR AUDIO SIGNAL CLASSIFICATION}
본 발명은 통신 기술 분야에 관한 것이며, 특히 오디오 신호 분류를 위한 방법 및 장치에 관한 것이다.
본 출원은 중국특허출원 2009년 3월 27일 중국특허청에 출원되고, 발명의 명칭이 "METHOD AND DEVICE FOR AUDIO SIGNAL CLASSIFICATION"인 No. 200910129157.3에 대해 우선권을 주장하는 바이며, 그 내용은 본 출원에 포함된다.
음성 인코더(voice encoder)는 중간 내지 낮은 비트 레이트 하에서 음성 타입(voice-type)의 오디오 신호를 인코딩하는 데는 탁월하지만 음악 타입(music-type) 오디오 신호를 인코딩하는 데는 별 효과가 없다. 오디오 인코더는 높은 비트 레이트 하에서 음성 타입 오디오 신호 및 음악 타입 오디오 신호의 인코딩에는 적용 가능하지만 중간 내지 낮은 비트 레이트 하에서 음성 타입 오디오 신호를 인코딩하는 데는 만족할만한 효과를 내지 않는다. 중간 내지 낮은 비트 레이트 하에서 음성 및 오디오에 의해 혼합된 오디오 신호에 대해 만족할만한 효과를 달성하기 위해, 중간 내지 낮은 비트 레이트 하에서 음성/오디오 인코더에 적용 가능한 인코딩 프로세스는, 먼저 신호 분류 모듈을 사용하여 오디오 신호의 타입을 판정하는 단계, 판정된 상기 오디오 신호의 타입에 따라 대응하는 인코딩 방법을 선택하는 단계, 음성 타입의 오디오 신호에 대한 음성 인코더를 선택하는 단계, 및 음악 타입의 오디오 신호에 대한 오디오 인코더를 선택하는 단계를 포함한다.
종래 기술에서, 오디오 신호의 타입을 판정하기 위한 방법은 이하를 주로 포함한다:
1. 창함수(window function)를 사용하여 입력 신호를 일련의 중첩 프레임(overlapping frame)으로 분할한다.
2. 고속 푸리에 변환(Fast fourier Transform: FFT)을 사용하여 각각의 프레임의 스펙트럼 계수를 계산한다.
3. 각각의 프레임의 스펙트럼 계수에 따라 각각의 세그먼트에 대한 다섯 가지 관점, 즉 화음(harmony), 잡음(noise), 테일(tail), 드랙 아웃(drag out) 및 리듬(rhythm)의 특성 파라미터를 계산한다.
4. 특성 파라미터의 값에 따라, 오디오 신호를 6개의 타입, 즉 음성 타입, 음악 타입, 잡음 타입, 짧은 세그먼트(short segment), 결정될 세그먼트(segment to be determined), 및 결정될 짧은 세그먼트(short segment to be determined)로 분할한다.
오디오 신호의 타입에 대한 판정을 실행하는 동안, 발명자는 종래 기술에는 적어도 다음과 같은 문제가 있다는 것을 알게 되었다: 상기 방법에서는, 분류 프로세스 동안 여러 관점의 특성 파라미터를 계산해야 하는데, 오디오 신호 분류는 복잡하고, 이에 따라 분류가 더 복잡하게 된다.
본 발명의 목적은 오디오 신호 분류를 위한 방법 및 장치를 제공하여, 오디오 신호 분류를 덜 복잡하게 하고 계산량을 감소시킬 수 있도록 하는 것이다.
상기 목적을 달성하기 위해, 본 발명의 실시예는 이하의 기술적 솔루션을 채택한다.
오디오 신호 분류를 위한 방법은,
적어도 하나의 서브대역(sub-band) 내에 있는, 분류될 오디오 신호의 음조 특성 파라미터(tonal characteristic parameter)를 획득하는 단계; 및
획득된 상기 음조 특성 파라미터에 따라, 상기 분류될 오디오 신호의 타입을 판정하는 단계
를 포함한다.
오디오 신호 분류를 위한 장치는,
적어도 하나의 서브대역(sub-band) 내에 있는, 분류될 오디오 신호의 음조 특성 파라미터(tonal characteristic parameter)를 획득하도록 구성된 음조 획득 모듈; 및
획득된 상기 음조 특성 파라미터에 따라, 상기 분류될 오디오 신호의 타입을 판정하도록 구성된 분류 모듈
을 포함한다.
본 발명의 실시예에 제공된 솔루션은 오디오 신호의 음조 특성(tonal characteristic)을 통해 오디오 신호를 분류하는 기술적 방식을 채택하여, 종래 기술에서 오디오 신호를 복잡하게 분류하는 기술적 문제를 극복함으로써, 오디오 신호 분류를 덜 복잡하게 하고 아울러 분류하는 동안 요구되는 계산량을 감소시키는 기술적 효과를 달성한다.
본 발명의 실시예에 따른 기술적 솔루션 및 종래 기술을 더 명료하게 설명하기 위해, 본 발명의 실시예 및 종래 기술을 설명하는데 필요한 첨부된 도면을 이하에 간략하게 설명한다. 분명한 것은, 이하의 상세한 설명에서의 첨부된 도면은 본 발명에 대한 단지 일부의 실시예에 지나지 않으며, 당업자는 어떠한 창조적 노력 없이도 첨부된 도면에 따라 다른 도면을 얻을 수 있다.
도 1은 본 발명의 제1 실시예에 따른, 오디오 신호 분류를 위한 방법에 대한 흐름도이다.
도 2는 본 발명의 제2 실시예에 따른, 오디오 신호 분류를 위한 방법에 대한 흐름도이다.
도 3a 및 도 3b는 본 발명의 제3 실시예에 따른, 오디오 신호 분류를 위한 방법에 대한 흐름도이다.
도 4는 본 발명의 제4 실시예에 따른, 오디오 신호 분류를 위한 장치에 대한 블록도이다.
도 5는 본 발명의 제5 실시예에 따른, 오디오 신호 분류를 위한 장치에 대한 블록도이다.
도 6은 본 발명의 제6 실시예에 따른, 오디오 신호 분류를 위한 장치에 대한 블록도이다.
본 발명의 기술적 솔루션을 본 발명의 실시예의 첨부된 도면을 참조하여 이하에 명료하고 완전하게 설명한다. 명백하게, 이하에 설명될 실시예는 본 발명의 실시예 중 전부가 아닌 일부에 지나지 않는다. 어떠한 창조적 노력 없이 본 발명의 실시예에 기초하여 당업자에 의해 얻어지는 모든 다른 실시예는 본 발명의 보호 범주 내에 있게 된다.
본 발명의 실시예는 오디오 신호 분류를 위한 방법 및 장치를 제공한다. 오디오 신호 분류를 위한 방법의 특정한 실행 프로세스는, 적어도 하나의 서브대역(sub-band) 내에 있는, 분류될 오디오 신호의 음조 특성 파라미터를 획득하는 단계, 및 획득된 상기 음조 특성 파라미터에 따라, 상기 분류될 오디오 신호의 타입을 결정하는 단계를 포함한다.
오디오 신호 분류를 위한 방법은, 음조 획득 모듈(tone obtaining module) 및 분류 모듈을 포함하는 장치를 통해 실행된다. 음조 획득 모듈은, 적어도 하나의 서브대역(sub-band) 내에 있는, 분류될 오디오 신호의 음조 특성 파라미터를 획득하도록 구성되어 있으며, 분류 모듈은 획득된 상기 음조 특성 파라미터에 따라, 상기 분류될 오디오 신호의 타입을 결정하도록 구성되어 있다.
본 발명의 실시예에 따른, 오디오 신호 분류를 위한 방법 및 장치에서, 분류될 오디오 신호의 타입은 음조 특성 파라미터를 획득하는 단계를 통해 판정될 수 있다. 계산되어야 하는 특성 파라미터의 관점은 소수이고, 분류 방법도 간단하며, 따라서 분류 프로세스 동안 계산량은 감소한다.
실시예 1
본 실시예는 오디오 신호 분류를 위한 방법을 제공한다. 도 1에 도시된 바와 같이, 상기 오디오 신호 분류를 위한 방법은 이하의 단계를 포함한다:
단계 501: 현재의 프레임 오디오 신호를 수신하며, 상기 현재의 프레임 오디오 신호는 분류될 오디오 신호이다.
구체적으로, 샘플링 주파수는 48 kHz이고, 프레임 길이는 N = 1024 샘플 포인트이며, 수신된 상기 현재의 프레임 오디오 신호는 k번째 프레임 오디오 신호이다.
상기 현재의 프레임 오디오 신호의 음조 특성 파라미터를 계산하는 프로세스에 대해 후술한다.
단계 502: 상기 현재의 프레임 오디오 신호의 전력 스펙트럼 밀도(power spectral density)를 계산한다.
구체적으로, 해닝 창(Hanning window)을 가산하는 윈도잉 프로세스(windowing processing)를 k번째 프레임 오디오 신호의 시간-도메인 데이터에 대해 수행한다.
이하의 해닝 창 식을 통해 계산을 수행할 수 있다:
(수학식 1)
Figure 112011081866667-pct00001
여기서, N은 프레임 길이를 나타내고, h(l)는 k번째 프레임 오디오 신호의 제1 샘플 포인트의 해닝 창함수 데이터를 나타낸다.
윈도잉 프로세스를 수행한 후, k번째 프레임 오디오 신호의 시간-도메인 데이터에 대해 길이가 N인 FFT를 수행하며(이것은 FFT는 N/2을 중심으로 대칭이므로, 실제로는 길이가 N/2인 FFT가 계산되기 때문이다), k번째 프레임 오디오 신호의 k'번째 전력 스펙트럼 밀도를 FFT 계수를 사용해서 계산한다.
k번째 프레임 오디오 신호의 k'번째 전력 스펙트럼 밀도는 이하의 수학식을 통해 계산될 수 있다:
(수학식 2)
Figure 112011081866667-pct00002
여기서, s(1)은 k번째 프레임 오디오 신호의 본래의 입력 샘플 포인트를 나타내며, X(k')는 k번째 프레임 오디오 신호의 k'번째 전력 스펙트럼 밀도를 나타낸다.
상기 계산된 전력 스펙트럼 밀도 X(k')를 보정하여, 전력 스펙트럼 밀도의 최댓값이 기준 사운드 압력 레벨(96 dB)이 되도록 한다.
단계 503: 상기 전력 스펙트럼 밀도를 사용하여 주파수 영역의 각각의 서브대역에 음조가 존재하는지를 검출하고, 대응하는 서브대역에 존재하는 음조의 수에 관한 통계를 수집하며, 상기 음조의 수를 서브대역 내의 서브대역 음조의 수로서 사용한다.
구체적으로, 주파수 영역을 4개의 주파수 서브대역으로 분할하고, 이 4개의 주파수 서브대역을 sb0, sb1, sb2, sb3으로 표시한다. 전력 스펙트럼 밀도 X(k') 및 특정의 인접 전력 스펙트럼 밀도가, 본 실시예에서 이하의 수학식 3으로 나타낸 조건일 수 있는 특정의 조건을 충족하는 경우, X(k')에 대응하는 서브대역이 음조를 가지는 것으로 간주한다. 음조의 수에 관한 통계를 수집하여 서브대역 내의 서브대역 음조의 수 NTk _i를 획득하는데, 상기 NTk _i는 서브대역 sbi(i는 서브대역의 일련 번호(serial number)이고, i=0,1,2,3이다) 내의 k번째 프레임 오디오 신호의 서브대역 음조의 수를 나타낸다.
(수학식 3)
Figure 112011081866667-pct00003
Figure 112011081866667-pct00004
단, j의 값은 다음과 같이 다음과 같이 정의한다:
Figure 112011081866667-pct00005
본 실시예에서, 전력 스펙트럼 밀도의 계수의 수(즉, 길이)는 N/2인 것으로 알려져 있다. j의 값에 대한 정의에 대응해서, k'의 값 구간의 의미에 대해 상세히 후술한다.
sb0: 구간 2≤k'<63에 대응하고, 대응하는 전력 스펙트럼 밀도 계수는 0번째 내지 (N/16-1)번째이며, 대응하는 주파수 범위는 [0kHz, 3kHz)이다.
sb1: 구간 63≤k'<127에 대응하고, 대응하는 전력 스펙트럼 밀도 계수는 N/16-1번째 내지 (N/8-1)번째이며, 대응하는 주파수 범위는 [3kHz, 6kHz)이다.
sb2: 구간 127≤k'<255에 대응하고, 대응하는 전력 스펙트럼 밀도 계수는 N/8-1번째 내지 (N/4-1)번째이며, 대응하는 주파수 범위는 [6kHz, 12kHz)이다.
sb3: 구간 255≤k'<500에 대응하고, 대응하는 전력 스펙트럼 밀도 계수는 N/4번째 내지 N/2번째이며, 대응하는 주파수 범위는 [12kHz, 24kHz)이다.
sb0 및 sb1는 저주파 서브대역 부분에 대응하고, sb2는 상대적 고주파 서브대역 부분에 대응하며, sb3는 고주파 서브대역 부분에 대응한다.
NTk _i에 관한 통계를 수집하는 특정의 프로세스를 이하와 같이 설명된다.
서브대역 sb0에 있어서, k'의 값은 구간 2≤k'<63으로부터 하나씩 취해진다. k'의 각각의 값에 있어서, 그 값이 수학식 3의 조건을 충족하는지를 판정한다. k'의 전체 값 구간이 통과된 후, 그 조건을 충족하는 k'의 값의 수에 관한 통계를 수집한다. 조건을 충족하는 k'의 값의 수는 서브대역 sb0 내에 존재하는 k번째 프레임 오디오 신호의 서브대역 음조의 수 NTk _i이다.
예를 들어, k'=3, k'=5, 및 k'=10일 때 수학식 3이 올바르면, 서브대역 sb0 은 3개의 서브대역 음조, 즉 NTk _0=3을 가지는 것으로 간주한다.
마찬가지로, 서브대역 sb1에 있어서, k'의 값은 구간 63≤k'<127로부터 하나씩 취해진다. k'의 각각의 값에 있어서, 그 값이 수학식 3의 조건을 충족하는지를 판정한다. k'의 전체 값 구간이 통과된 후, 그 조건을 충족하는 k'의 값의 수에 관한 통계를 수집한다. 조건을 충족하는 k'의 값의 수는 서브대역 sb1 내에 존재하는 k번째 프레임 오디오 신호의 서브대역 음조의 수 NTk _1이다.
마찬가지로, 서브대역 sb2에 있어서, k'의 값은 구간 127≤k'<255로부터 하나씩 취해진다. k'의 각각의 값에 있어서, 그 값이 수학식 3의 조건을 충족하는지를 판정한다. k'의 전체 값 구간이 통과된 후, 그 조건을 충족하는 k'의 값의 수에 관한 통계를 수집한다. 조건을 충족하는 k'의 값의 수는 서브대역 sb2 내에 존재하는 k번째 프레임 오디오 신호의 서브대역 음조의 수 NTk _2이다.
서브대역 sb3 내에 존재하는 k번째 프레임 오디오 신호의 서브대역 음조의 수 NTk _3에 관한 통계도 동일한 방법을 사용하여 수집될 수 있다.
단계 504: 현재의 프레임 오디오 신호의 음조의 총수(total number)를 계산한다.
구체적으로, 4개의 서브대역 sb0, sb1, sb2, sb3에서의 k번째 프레임 오디오 신호의 서브대역 음조의 수의 합은 NTk _i에 따라 계산되며, 이에 관한 통계는 단계 503에서 수집된다.
4개의 서브대역 sb0, sb1, sb2, sb3에서의 k번째 프레임 오디오 신호의 서브대역 음조의 수의 합은 k번째 프레임 오디오 신호의 음조의 수이고, 이것은 이하의 수학식을 통해 계산될 수 있다.
(수학식 4)
Figure 112011081866667-pct00006
여기서 NTk _i는 k번째 프레임 오디오 신호의 음조의 총수를 나타낸다.
단계 505: 규정된 수의 프레임 중 대응하는 서브대역 내에 있는 현재의 프레임 오디오 신호의 서브대역 음조의 수의 평균값을 계산한다.
구체적으로, 규정된 수의 프레임이 M개이고, 이 M개의 프레임은 k번째 프레임 오디오 신호 및 상기 k번째 프레임 오디오 신호 이전의 (M-1)개의 프레임 오디오 신호를 포함하는 것으로 한다. M개의 프레임 오디오 신호의 각각의 서브대역 내에 있는 k번째 프레임 오디오 신호의 서브대역 음조의 수의 값에 대한 평균은 M의 값과 k의 값 간의 관계에 따라 계산된다.
서브대역 음조의 수의 평균값은 이하의 수학식 5에 따라 계산될 수 있다:
(수학식 5)
Figure 112011081866667-pct00007
여기서, NTj -i는 서브대역 i에서 j번째 프레임 오디오 신호의 서브대역 음조의 수를 나타내고, ave_NTi는 서브대역 i 내에 있는 서브대역 음조의 수의 평균값을 나타낸다. 특히, 수학식 5로부터, k의 값과 M의 값 간의 관계에 따른 계산을 위해 적절한 수학식이 선택될 수 있다는 것을 알 수 있다.
특히, 본 실시예에서, 설계 요건에 따르면, 저주파 서브대역 sb0에서의 서브대역 음조의 수의 평균값 ave_NT0 및 상대적 고주파 서브대역 sb2에서의 서브대역 음조의 수의 평균값 ave_NT2가 계산되기만 하면, 각각의 서브대역 내에 있는 서브대역 음조의 수의 평균값을 계산할 필요가 없다.
단계 506: 규정된 수의 프레임 중 현재의 프레임 오디오 신호의 음조의 총수의 평균값을 계산한다.
구체적으로, 규정된 수의 프레임이 M개이고, 이 M개의 프레임은 k번째 프레임 오디오 신호 및 상기 k번째 프레임 오디오 신호 이전의 (M-1)개의 프레임 오디오 신호를 포함하는 것으로 한다. M개의 프레임 오디오 신호 중 각각의 프레임 오디오 신호에서 k번째 프레임 오디오 신호의 음조의 총수의 평균값은 M의 값과 k의 값 간의 관계에 따라 계산된다.
음조의 총수는 이하의 수학식 6에 따라 계산될 수 있다:
(수학식 6)
Figure 112011081866667-pct00008
여기서, NTj _ sum은 j번째 프레임에서 음조의 총수를 나타내고, ave_NTsum은 음조의 총수의 평균값을 나타낸다. 특히, 수학식 6으로부터, k의 값과 M의 값 간의 관계에 따른 계산을 위해 적절한 수학식이 선택될 수 있다는 것을 알 수 있다.
단계 507: 적어도 하나의 서브대역 내에 있는 서브대역 음조의 수의 계산된 평균값과 음조의 총수의 평균값 간의 비율을, 대응하는 서브대역 내에 있는 현재의 프레임 오디오 신호의 음조 특성 파라미터로서 각각 사용한다.
음조 특성 파라미터는 이하의 수학식 7을 통해 계산될 수 있다:
(수학식 7)
Figure 112011081866667-pct00009
여기서, ave_NTi는 서브대역 i 내에 있는 서브대역 음조의 수의 평균값을 나타내고, ave_NTsum은 음조의 총수의 평균값을 나타내며, ave_NT_ratioi는 서브대역 i 내에 있는 k번째 프레임 오디오 신호의 서브대역 음조의 수의 평균값과 음조의 총수의 평균값 간의 비율을 나타낸다.
특히, 본 실시예에서는, 단계 205에서 계산된, 저주파 서브대역 sb0에서의 서브대역 음조의 수의 평균값 ave_NT0 및 상대적 고주파 서브대역 sb2 내에 있는 서브대역 음조의 수의 평균값 ave_NT2를 사용함으로써, 서브대역 sb0 내에 있는 k번째 프레임 오디오 신호의 음조 특성 파라미터 ave_NT_ratio0 및 서브대역 sb2 내에 있는 k번째 프레임 오디오 신호의 음조 특성 파라미터 ave_NT_ratio2가 수학식 7을 통해 계산되고, 이러한 ave_NT_ratio0 및 ave_NT_ratio2는 k번째 프레임 오디오 신호의 음조 특성 파라미터로서 사용된다.
본 실시예에서, 고려해야 할 음조 특성 파라미터는 저주파 서브대역 내에 있는 음조 특성 파라미터와 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터이다. 그렇지만, 본 발명의 설계 솔루션은 본 실시예에서의 이러한 솔루션에 제한되지 않으며, 다른 서브대역 내에 있는 음조 특성 파라미터도 설계 요건에 따라 계산될 수 있다.
단계 508: 전술한 프로세스에서 계산된 음조 특성 파라미터에 따라 현재의 프레임 오디오 신호의 타입을 판정한다.
구체적으로, 단계 507에서 계산된, 서브대역 sb0 내에 있는 음조 특성 파라미터 ave_NT_ratio0 및 서브대역 sb2 내에 있는 음조 특성 파라미터 ave_NT_ratio2가 제1 파라미터 및 제2 파라미터를 가진 특정의 관계를 충족하는지를 판정한다. 본 실시예에서, 상기 특정의 관계는 이하의 관계식(12)일 수 있다.
(관계식 12)
(ave_NT_ratio0 > α) 및 (ave_NT_ratio2 < β)
여기서, ave_NT_ratio0는 저주파 서브대역 내에 있는 k번째 프레임 오디오 신호의 음조 특성 파라미터를 나타내고, ave_NT_ratio2는 상대적 고주파 서브대역 내에 있는 k번째 프레임 오디오 신호의 음조 특성 파라미터를 나타내고, α는 제1 계수를 나타내며, β는 제2 계수를 나타낸다.
관계식(12)이 충족되는 경우에는, k번째 프레임 오디오 신호가 음성 타입 오디오 신호인 것으로 결정되고, 관계식(12)이 충족되지 않는 경우에는, k번째 프레임 오디오 신호가 음악 타입 오디오 신호인 것으로 결정된다.
현재의 프레임 오디오 신호에 대한 평활화 처리(smoothing process)에 대해 이하에 서술한다.
단계 509: 오디오 신호의 타입이 이미 판정된 현재의 프레임 오디오 신호의 경우, 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 다음 프레임 오디오 신호의 타입과 동일한지를 추가로 판정하고, 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 다음 프레임 오디오 신호의 타입과 동일하면, 단계 510으로 진행하고, 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 다음 프레임 오디오 신호의 타입과 다르면, 단계 512로 진행한다.
구체적으로, (k-1)번째 프레임 오디오 신호의 타입이 (k+1)번째 프레임 오디오 신호의 타입과 동일한지를 판정한다. (k-1)번째 프레임 오디오 신호의 타입이 (k+1)번째 프레임 오디오 신호의 타입과 동일한 것으로 판정되면, 단계 510으로 진행하고, (k-1)번째 프레임 오디오 신호의 타입이 (k+1)번째 프레임 오디오 신호의 타입과 다른 것으로 판정되면, 단계 512로 진행한다.
단계 510: 현재의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입과 동일한지를 판정하고, 현재의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입과 다른 것으로 판정되면, 단계 511로 진행하고, 현재의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입과 동일한 것으로 판정되면, 단계 512로 진행한다.
구체적으로, k번째 프레임 오디오 신호의 타입이 (k-1)번째 프레임 오디오 신호의 타입과 동일한지를 판정한다. k번째 프레임 오디오 신호의 타입이 (k-1)번째 프레임 오디오 신호의 타입과 다른 것으로 판정되면, 단계 511로 진행하고, k번째 프레임 오디오 신호의 타입이 (k-1)번째 프레임 오디오 신호의 타입과 동일한 것으로 판정되면, 단계 512로 진행한다.
단계 511: 현재의 프레임 오디오 신호의 타입을 이전의 프레임 오디오 신호의 타입으로 변경한다.
구체적으로, k번째 프레임 오디오 신호의 타입을 (k-1)번째 프레임 오디오 신호의 타입으로 변경한다.
본 실시예에서 현재의 프레임 오디오 신호에 대한 평활화 처리를 수행하는 동안, 구체적으로, 상기 평활화 처리를 현재의 프레임 오디오 신호에 대해 수행해야 하는지를 판정할 때, 이전의 프레임 오디오 신호의 타입 및 다음 프레임 오디오 신호의 타입을 알려주는 기술적 솔루션이 채택된다. 그렇지만, 이러한 방법은 이전의 프레임 및 다음 프레임에 대한 관련 정보를 알려주는 프로세스에 속하지만, 이전의 프레임 및 다음 프레임을 알려주기 위한 방법을 채택하는 것은 본 실시예의 설명에 의해 제한되지 않는다. 프로세스 동안, 적어도 하나의 이전의 프레임 오디오 신호의 타입 및 적어도 하나의 다음 프레임 오디오 신호의 타입을 구체적으로 알려주는 솔루션이 본 발명의 실시예에 적용될 수 있다.
단계 512; 프로세스를 종료한다.
종래 기술에서는, 오디오 신호를 분류하는 동안 5가지 타입의 특성 파라미터를 고려해야 한다. 본 실시예에 제공된 방법에서는, 대부분의 오디오 신호의 타입이 오디오 신호의 음조 특성 파라미터를 계산함으로써 판정될 수 있다. 종래 기술과 비교해 보면, 분류 방법이 간단하고 계산량이 적다.
실시예 2
본 실시예는 오디오 신호 분류를 위한 방법에 대해 개시한다. 도 2에 도시된 바와 같이, 상기 오디오 신호 분류를 위한 방법은 이하의 단계를 포함한다:
단계 101: 현재의 프레임 오디오 신호를 수신하며, 상기 현재의 프레임 오디오 신호는 분류될 오디오 신호이다.
단계 102: 현재의 프레임 오디오 신호의 음조 특성 파라미터를 획득하고, 상기 현재의 프레임 오디오 신호의 음조 특성 파라미터는 적어도 하나의 서브대역 내에 있다.
일반적으로, 주파수 영역은 4개의 주파수 서브대역으로 분할된다. 각각의 서브대역에서, 현재의 프레임 오디오 신호는 대응하는 음조 특성 파라미터를 얻을 수 있다. 의심할 여지 없이, 설계 요건에 따르면, 하나 또는 두 개의 서브대역 내에 있는 현재의 프레임 오디오 신호의 음조 특성 파라미터를 획득할 수 있다.
단계 103: 현재의 프레임의 오디오 신호의 스펙트럼 틸트 특성 파라미터(spectral tilt characteristic parameter)를 획득한다.
본 실시예에서, 단계 102 및 단계 103의 실행 시퀀스는 제한되지 않으며, 단계 102 및 단계 103은 동시에 실행될 수도 있다.
단계 104: 단계 102에서 획득된 적어도 하나의 음조 특성 파라미터 및 단계 103에서 획득된 스펙트럼 틸트 특성 파라미터에 따라 현재의 프레임 오디오 신호의 타입을 판정한다.
본 실시예에 제공된 기술적 솔루션에서는, 오디오 신호의 음조 특성 파라미터 및 오디오 신호의 스펙트럼 틸트 특성 파라미터에 따라 오디오 신호의 타입을 판정하는 기술적 수단을 채택함으로써, 종래 기술에서 오디오 신호의 타입을 분류하기 위해 다섯 가지 타입의 특성 파라미터, 예를 들어 즉 화음(harmony), 잡음(noise), 테일(tail), 드랙 아웃(drag out) 및 리듬(rhythm)의 특성 파라미터를 필요로 하는 복잡한 분류 방법의 기술적 문제를 해결하며, 이에 따라 분류 방법을 덜 복잡하게 하고 아울러 오디오 신호를 분류하는 동안 분류 계산량을 감소시키는 기술적 효과를 달성한다.
실시예 3
본 실시예는 오디오 신호 분류를 위한 방법을 제공한다. 도 3a 및 도 3b에 도시된 바와 같이, 상기 오디오 신호 분류를 위한 방법은 이하의 단계를 포함한다:
단계 201: 현재의 프레임 오디오 신호를 수신하며, 상기 현재의 프레임 오디오 신호는 분류될 오디오 신호이다.
구체적으로, 샘플링 주파수는 48 kHz이고, 프레임 길이는 N = 1024 샘플 포인트이며, 수신된 상기 현재의 프레임 오디오 신호는 k번째 프레임 오디오 신호이다.
상기 현재의 프레임 오디오 신호의 음조 특성 파라미터를 계산하는 프로세스에 대해 후술한다.
단계 202: 상기 현재의 프레임 오디오 신호의 전력 스펙트럼 밀도(power spectral density)를 계산한다.
구체적으로, 해닝 창함수(Hanning window)를 가산하는 윈도잉 프로세스(windowing processing)를 k번째 프레임 오디오 신호의 시간-도메인 데이터에 대해 수행한다.
이하의 해닝 창함수 식을 통해 계산을 수행할 수 있다:
(수학식 1)
Figure 112011081866667-pct00010
여기서, N은 프레임 길이를 나타내고, h(l)는 k번째 프레임 오디오 신호의 제1 샘플 포인트의 해닝 창함수 데이터를 나타낸다.
윈도잉 프로세스를 수행한 후, k번째 프레임 오디오 신호의 시간-도메인 데이터에 대해 길이가 N인 FFT를 수행하며(이것은 FFT는 N/2을 중심으로 대칭이므로, 실제로는 길이가 N/2인 FFT가 계산되기 때문이다), k번째 프레임 오디오 신호의 k'번째 전력 스펙트럼 밀도를 FFT 계수를 사용해서 계산한다.
k번째 프레임 오디오 신호의 k'번째 전력 스펙트럼 밀도는 이하의 수학식을 통해 계산될 수 있다:
(수학식 2)
Figure 112011081866667-pct00011
여기서, s(1)은 k번째 프레임 오디오 신호의 본래의 입력 샘플 포인트를 나타내며, X(k')는 k번째 프레임 오디오 신호의 k'번째 전력 스펙트럼 밀도를 나타낸다.
상기 계산된 전력 스펙트럼 밀도 X(k')를 보정하여, 전력 스펙트럼 밀도의 최댓값이 기준 사운드 압력 레벨(96 dB)이 되도록 한다.
단계 203: 상기 전력 스펙트럼 밀도를 사용하여 주파수 영역의 각각의 서브대역에 음조가 존재하는지를 검출하고, 대응하는 서브대역에 존재하는 음조의 수에 관한 통계를 수집하며, 상기 음조의 수를 서브대역 내에 있는 서브대역 음조의 수로서 사용한다.
구체적으로, 주파수 영역을 4개의 주파수 서브대역으로 분할하고, 이 4개의 주파수 서브대역을 sb0, sb1, sb2, sb3으로 표시한다. 전력 스펙트럼 밀도 X(k') 및 특정의 인접 전력 스펙트럼 밀도가, 본 실시예에서 이하의 수학식 3으로 나타낸 조건일 수 있는 특정의 조건을 충족하는 경우, X(k')에 대응하는 서브대역이 음조를 가지는 것으로 간주한다. 음조의 수에 관한 통계를 수집하여 서브대역 내에 있는 서브대역 음조의 수 NTk _i를 획득하는데, 상기 NTk _i는 서브대역 sbi(i는 서브대역의 일련 번호(serial number)이고, i=0,1,2,3이다) 내의 k번째 프레임 오디오 신호의 서브대역 음조의 수를 나타낸다.
(수학식 3)
Figure 112011081866667-pct00012
Figure 112011081866667-pct00013
단, j의 값은 다음과 같이 정의된다:
Figure 112011081866667-pct00014
본 실시예에서, 전력 스펙트럼 밀도의 계수의 수(즉, 길이)는 N/2인 것으로 알려져 있다. j의 값에 대한 정의에 대응해서, k'의 값 구간의 의미에 대해 상세히 후술한다.
sb0: 구간 2≤k'<63에 대응하고, 대응하는 전력 스펙트럼 밀도 계수는 0번째 내지 (N/16-1)번째이며, 대응하는 주파수 범위는 [0kHz, 3kHz)이다.
sb1: 구간 63≤k'<127에 대응하고, 대응하는 전력 스펙트럼 밀도 계수는 N/16-1번째 내지 (N/8-1)번째이며, 대응하는 주파수 범위는 [3kHz, 6kHz)이다.
sb2: 구간 127≤k'<255에 대응하고, 대응하는 전력 스펙트럼 밀도 계수는 N/8-1번째 내지 (N/4-1)번째이며, 대응하는 주파수 범위는 [6kHz, 12kHz)이다.
sb3: 구간 255≤k'<500에 대응하고, 대응하는 전력 스펙트럼 밀도 계수는 N/4번째 내지 N/2번째이며, 대응하는 주파수 범위는 [12kHz, 24kHz)이다.
sb0 및 sb1는 저주파 서브대역 부분에 대응하고, sb2는 상대적 고주파 서브대역 부분에 대응하며, sb3는 고주파 서브대역 부분에 대응한다.
NTk _i에 관한 통계를 수집하는 특정의 프로세스는 이하와 같다.
서브대역 sb0에 있어서, k'의 값은 구간 2≤k'<63으로부터 하나씩 취해진다. k'의 각각의 값에 있어서, 그 값이 수학식 3의 조건을 충족하는지를 판정한다. k'의 전체 값 구간이 통과된 후, 그 조건을 충족하는 k'의 값의 수에 관한 통계를 수집한다. 조건을 충족하는 k'의 값의 수는 서브대역 sb0 내에 존재하는 k번째 프레임 오디오 신호의 서브대역 음조의 수 NTk _i이다.
예를 들어, k'=3, k'=5, 및 k'=10일 때 수학식 3이 올바르면, 서브대역 sb0 은 3개의 서브대역 음조, 즉 NTk _0=3을 가지는 것으로 간주한다.
마찬가지로, 서브대역 sb1에 있어서, k'의 값은 구간 63≤k'<127로부터 하나씩 취해진다. k'의 각각의 값에 있어서, 그 값이 수학식 3의 조건을 충족하는지를 판정한다. k'의 전체 값 구간이 통과된 후, 그 조건을 충족하는 k'의 값의 수에 관한 통계를 수집한다. 조건을 충족하는 k'의 값의 수는 서브대역 sb1 내에 존재하는 k번째 프레임 오디오 신호의 서브대역 음조의 수 NTk _1이다.
마찬가지로, 서브대역 sb2에 있어서, k'의 값은 구간 127≤k'<255로부터 하나씩 취해진다. k'의 각각의 값에 있어서, 그 값이 수학식 3의 조건을 충족하는지를 판정한다. k'의 전체 값 구간이 통과된 후, 그 조건을 충족하는 k'의 값의 수에 관한 통계를 수집한다. 조건을 충족하는 k'의 값의 수는 서브대역 sb2 내에 존재하는 k번째 프레임 오디오 신호의 서브대역 음조의 수 NTk _2이다.
서브대역 sb3 내에 존재하는 k번째 프레임 오디오 신호의 서브대역 음조의 수 NTk _3에 관한 통계도 동일한 방법을 사용하여 수집될 수 있다.
단계 204: 현재의 프레임 오디오 신호의 음조의 총수(total number)를 계산한다.
구체적으로, 4개의 서브대역 sb0, sb1, sb2, sb3에서의 k번째 프레임 오디오 신호의 서브대역 음조의 수의 합은 NTk _i에 따라 계산되며, 이에 관한 통계는 단계 203에서 수집된다.
4개의 서브대역 sb0, sb1, sb2, sb3 내에 있는 k번째 프레임 오디오 신호의 서브대역 음조의 수의 합은 k번째 프레임 오디오 신호의 음조의 수이고, 이것은 이하의 수학식을 통해 계산될 수 있다.
(수학식 4)
Figure 112011081866667-pct00015
여기서 NTk _i는 k번째 프레임 오디오 신호의 음조의 총수이다.
단계 205: 규정된 수의 프레임 중 대응하는 서브대역 내에 있는 현재의 프레임 오디오 신호의 서브대역 음조의 수의 평균값을 계산한다.
구체적으로, 규정된 수의 프레임이 M개이고, 이 M개의 프레임은 k번째 프레임 오디오 신호 및 상기 k번째 프레임 오디오 신호 이전의 (M-1)개의 프레임 오디오 신호를 포함하는 것으로 한다. M개의 프레임 오디오 신호의 각각의 서브대역 내에 있는 k번째 프레임 오디오 신호의 서브대역 음조의 수의 값에 대한 평균은 M의 값과 k의 값 간의 관계에 따라 계산된다.
서브대역 음조의 수의 평균값은 이하의 수학식 5에 따라 계산될 수 있다:
(수학식 5)
Figure 112011081866667-pct00016
여기서, NTj -i는 서브대역 i에서 j번째 프레임 오디오 신호의 서브대역 음조의 수를 나타내고, ave_NTi는 서브대역 i 내에 있는 서브대역 음조의 수의 평균값을 나타낸다. 특히, 수학식 5로부터, k의 값과 M의 값 간의 관계에 따른 계산을 위해 적절한 수학식이 선택될 수 있다는 것을 알 수 있다.
특히, 본 실시예에서, 설계 요건에 따르면, 저주파 서브대역 sb0에서의 서브대역 음조의 수의 평균값 ave_NT0 및 상대적 고주파 서브대역 sb2에서의 서브대역 음조의 수의 평균값 ave_NT2가 계산되기만 하면, 각각의 서브대역 내에 있는 서브대역 음조의 수의 평균값을 계산할 필요가 없다.
단계 206: 규정된 수의 프레임 중 현재의 프레임 오디오 신호의 음조의 총수의 평균값을 계산한다.
구체적으로, 규정된 수의 프레임이 M개이고, 이 M개의 프레임은 k번째 프레임 오디오 신호 및 상기 k번째 프레임 오디오 신호 이전의 (M-1)개의 프레임 오디오 신호를 포함하는 것으로 한다. M개의 프레임 오디오 신호 중 각각의 프레임 오디오 신호에서 k번째 프레임 오디오 신호의 서브대역 음조의 총수의 평균값은 M의 값과 k의 값 간의 관계에 따라 계산된다.
음조의 총수는 이하의 수학식 6에 따라 구체적으로 계산될 수 있다:
(수학식 6)
Figure 112011081866667-pct00017
여기서, NTj _ sum은 j번째 프레임에서의 음조의 총수를 나타내고, ave_NTsum은 음조의 총수의 평균값을 나타낸다. 특히, 수학식 6으로부터, k의 값과 M의 값 간의 관계에 따른 계산을 위해 적절한 수학식이 선택될 수 있다는 것을 알 수 있다.
단계 207: 적어도 하나의 서브대역 내에 있는 서브대역 음조의 수의 계산된 평균값과 음조의 총수의 평균값 간의 비율을, 대응하는 서브대역 내에 있는 현재의 프레임 오디오 신호의 음조 특성 파라미터로서 각각 사용한다.
음조 특성 파라미터는 이하의 수학식 7을 통해 계산될 수 있다:
(수학식 7)
Figure 112011081866667-pct00018
여기서, ave_NTi는 서브대역 i 내에 있는 서브대역 음조의 수의 평균값을 나타내고, ave_NTsum은 음조의 총수의 평균값을 나타내며, ave_NT_ratioi는 서브대역 i 내에 있는 k번째 프레임 오디오 신호의 서브대역 음조의 수의 평균값과 음조의 총수의 평균값 간의 비율을 나타낸다.
특히, 본 실시예에서는, 단계 205에서 계산된, 저주파 서브대역 sb0 내에 있는 서브대역 음조의 수의 평균값 ave_NT0 및 상대적 고주파 서브대역 sb2 내에 있는 서브대역 음조의 수의 평균값 ave_NT2를 사용함으로써, 서브대역 sb0 내에 있는 k번째 프레임 오디오 신호의 음조 특성 파라미터 ave_NT_ratio0 및 서브대역 sb2 내에 있는 k번째 프레임 오디오 신호의 음조 특성 파라미터 ave_NT_ratio2가 수학식 7을 통해 계산되고, 이러한 ave_NT_ratio0 및 ave_NT_ratio2는 k번째 프레임 오디오 신호의 음조 특성 파라미터로서 사용된다.
본 실시예에서, 고려해야 할 음조 특성 파라미터는 저주파 서브대역 내에 있는 음조 특성 파라미터와 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터이다. 그렇지만, 본 발명의 설계 솔루션은 본 실시예에서의 이러한 솔루션에 제한되지 않으며, 다른 서브대역 내에 있는 음조 특성 파라미터도 설계 요건에 따라 계산될 수 있다.
현재의 프레임 오디오 신호의 스펙트럼 틸트 특성 파라미터를 계산하는 프로세스에 대해 이하에 설명한다.
단계 208: 하나의 프레임 오디오 신호의 스펙트럼 틸트를 계산한다.
구체적으로, k번째 프레임 오디오 신호의 스펙트럼 틸트를 계산한다.
k번째 프레임 오디오 신호의 스펙트럼 틸트는 이하의 수학식 8을 통해 계산될 수 있다.
(수학식 8)
Figure 112011081866667-pct00019
여기서, s(n)은 k번째 프레임 오디오 신호의 n번째 시간-도메인 샘플 포인트를 나타내며, r은 자동상관 파라미터(autocorrelation parameter)를 나타내며, spec_tiltk는 k번째 프레임 오디오 신호의 스펙트럼 틸트를 나타낸다.
단계 209: 위에서 계산된 하나의 프레임의 스펙트럼 틸트에 따라, 규정된 수의 프레임 중 현재의 프레임 오디오 신호의 스펙트럼 틸트 평균값을 계산한다.
구체적으로, 규정된 수의 프레임이 M개이고, 이 M개의 프레임은 k번째 프레임 오디오 신호 및 상기 k번째 프레임 오디오 신호 이전의 (M-1)개의 프레임 오디오 신호를 포함하는 것으로 한다. M개의 프레임 오디오 신호 중 각각의 프레임 오디오 신호의 평균 스펙트럼 틸트는, 즉 M개의 프레임 오디오 신호의 스펙트럼 틸트 평균값은 M의 값과 k의 값 간의 관계에 따라 계산된다.
스펙트럼 틸트 평균값은 이하의 수학식 9를 통해 계산될 수 있다:
(수학식 9)
Figure 112011081866667-pct00020
여기서, k는 현재의 프레임 오디오 신호의 프레임 수를 나타내고, M은 규정된 수의 프레임을 나타내고, spec_tiltj는 j번째 프레임 오디오 신호의 스펙트럼 틸트를 나타내며, ave_spec_tilt는 스펙트럼 틸트 평균값을 나타낸다. 특히, 수학식 9로부터, k의 값과 M의 값 간의 관계에 따른 계산을 위해 적절한 수학식이 선택될 수 있다는 것을 알 수 있다.
단계 210: 적어도 하나의 오디오 신호의 스펙트럼 틸트와 계산된 스펙트럼 틸트 평균값 간의 평균 제곱 오차(mean-square error)를 현재의 프레임 오디오 신호의 스펙트럼 틸트 특성 파라미터로서 사용한다.
구체적으로, 규정된 수의 프레임이 M개이고, 이 M개의 프레임은 k번째 프레임 오디오 신호 및 상기 k번째 프레임 오디오 신호 이전의 (M-1)개의 프레임 오디오 신호를 포함하는 것으로 한다. 적어도 하나의 오디오 신호의 스펙트럼 틸트와 스펙트럼 틸트 평균값 간의 평균 제곱 오차는 M의 값과 k의 값 간의 관계에 따라 계산된다. 상기 평균 제곱 오차는 현재의 프레임 오디오 신호의 스펙트럼 틸트 특성 파라미터이다.
상기 평균 제곱 오차는 이하의 수학식 10을 통해 계산될 수 있다:
(수학식 10)
Figure 112011081866667-pct00021
여기서, k는 현재의 프레임 오디오 신호의 프레임 수를 나타내고, ave_spec_tilt는 스펙트럼 틸트 평균값을 나타내며, dif_spec_tilt는 스펙트럼 틸트 특성 파라미터를 나타낸다. 특히, 수학식 10으로부터, k의 값과 M의 값 간의 관계에 따른 계산을 위해 적절한 수학식이 선택될 수 있다는 것을 알 수 있다.
본 실시예의 위의 상세한 설명에서, 음조 특성 파라미터를 계산하는 프로세스(단계 202 및 단계 207) 및 스펙트럼 틸트 특성 파라미터를 계산하는 프로세스(단계 208 및 단계 210)의 실행 시퀀스는 제한되지 않으며, 이 두 프로세스는 동시에 실행될 수도 있다.
단계 211: 전술한 두 프로세스에서 계산된 음조 특성 파라미터 및 스펙트럼 틸트 특성 파라미터에 따라 현재의 프레임 오디오 신호의 타입을 판정한다.
구체적으로, 단계 507에서 계산된, 서브대역 sb0 내에 있는 음조 특성 파라미터 ave_NT_ratio0와 서브대역 sb2 내에 있는 음조 특성 파라미터 ave_NT_ratio2, 그리고 단계 210에서 계산된 스펙트럼 틸트 특성 파라미터 dif_spec_tilt가 제1 파라미터와 제2 파라미터, 그리고 제3 파라미터를 가진 특정의 관계를 충족하는지를 판정한다. 본 실시예에서, 상기 특정의 관계는 이하의 관계식(11)일 수 있다.
(관계식 11)
(ave_NT_ratio0>α) 및 (ave_NT_ratio2 <β) 및 (dif_spec_tilt>γ)
여기서, ave_NT_ratio0는 저주파 서브대역 내에 있는 k번째 프레임 오디오 신호의 음조 특성 파라미터를 나타내고, ave_NT_ratio2는 상대적 고주파 서브대역 내에 있는 k번째 프레임 오디오 신호의 음조 특성 파라미터를 나타내고, dif_spec_tilt는 k번째 프레임 오디오 신호의 스펙트럼 틸트 특성 파라미터를 나타내며, α는 제1 계수를 나타내고, β는 제2 계수를 나타내며, γ는 제3 계수를 나타낸다.
특정의 관계식, 즉 관계식(11)이 충족되는 경우에는, k번째 프레임 오디오 신호가 음성 타입 오디오 신호인 것으로 결정되고, 관계식(11)이 충족되지 않는 경우에는, k번째 프레임 오디오 신호가 음악 타입 오디오 신호인 것으로 결정된다.
현재의 프레임 오디오 신호에 대한 평활화 처리(smoothing process)에 대해 이하에 서술한다.
단계 212: 오디오 신호의 타입이 이미 판정된 현재의 프레임 오디오 신호의 경우, 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 다음 프레임 오디오 신호의 타입과 동일한지를 추가로 판정하고, 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 다음 프레임 오디오 신호의 타입과 동일하면, 단계 213으로 진행하고, 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 다음 프레임 오디오 신호의 타입과 다르면, 단계 215로 진행한다.
구체적으로, (k-1)번째 프레임 오디오 신호의 타입이 (k+1)번째 프레임 오디오 신호의 타입과 동일한지를 판정한다. 판정 결과가 (k-1)번째 프레임 오디오 신호의 타입이 (k+1)번째 프레임 오디오 신호의 타입과 동일하다는 것이면, 단계 213으로 진행하고, 판정 결과가 (k-1)번째 프레임 오디오 신호의 타입이 (k+1)번째 프레임 오디오 신호의 타입과 다르다는 것이면, 단계 215로 진행한다.
단계 213: 현재의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입과 동일한지를 판정하고, 현재의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입과 다른 것으로 판정되면, 단계 214로 진행하고, 현재의 프레임 오디오 신호의 타입이 현재의 프레임 오디오 신호의 이전의 프레임 오디오 신호의 타입과 동일한 것으로 판정되면, 단계 215로 진행한다.
구체적으로, k번째 프레임 오디오 신호의 타입이 (k-1)번째 프레임 오디오 신호의 타입과 동일한지를 판정한다. 판정 결과가 k번째 프레임 오디오 신호의 타입이 (k-1)번째 프레임 오디오 신호의 타입과 다르다는 것이면, 단계 214로 진행하고, 판정 결과가 k번째 프레임 오디오 신호의 타입이 (k-1)번째 프레임 오디오 신호의 타입과 동일하다는 것이면, 단계 215로 진행한다.
단계 214: 현재의 프레임 오디오 신호의 타입을 이전의 프레임 오디오 신호의 타입으로 변경한다.
구체적으로, k번째 프레임 오디오 신호의 타입이 (k-1)번째 프레임 오디오 신호의 타입으로 변경된다.
본 실시예에서 현재의 프레임 오디오 신호에 대한 평활화 처리를 수행하는 동안, 현재의 프레임 오디오 신호의 타입, 즉 k번째 프레임 오디오 신호의 타입을 단계 212에서 판정할 때, (k+1)번째 프레임 오디오 신호의 타입이 판정될 때까지는 다음 단계 213이 수행될 수 없다. 따라서, 판정될 (k+1)번째 프레임 오디오 신호의 타입을 대기하기 위해서는 이러한 상태에 지연의 프레임이 도입되는 것으로 보인다. 그렇지만, 일반적으로, 인코더 알고리즘은 각각의 프레임 오디오 신호를 인코딩할 때 지연의 프레임을 가지고 있으며, 본 실시예에서는, 이러한 프레임의 지연을 활용하여 활성화 프로세스를 수행하며, 이에 따라 현재의 프레임 오디오 신호를 잘못 판정하지 않을 뿐만 아니라 추가의 지연을 도입하지 않아도 되므로, 오디오 신호를 실시간으로 분류할 수 있는 기술적 효과를 거둔다.
지연에 대한 요건이 제한되지 않는 경우, 본 실시예에서 현재의 프레임 오디오 신호에 대해 평활화 프로세스를 수행하는 동안, 현재의 오디오 프레임의 이전의 3개의 프레임의 타입 및 현재의 오디오 프레임의 다음의 3개의 프레임의 타입, 또는 현재의 오디오 프레임의 이전의 5개의 프레임의 타입 및 현재의 오디오 프레임의 다음의 5개의 프레임의 타입을 판정하여 현재의 오디오 프레임에 대해 평활화 처리를 수행해야 하는지도 판정될 수 있다. 알려져야 하는 특정한 수의 관련된 이전의 프레임 및 다음의 프레임은 본 실시예의 상세한 설명에 의해 제한되지 않는다. 이전의 프레임 및 다음의 프레임에 대한 더 많은 관련 정보가 알려져 있으므로, 평활화 프로세스의 효과는 더 양호하게 될 수 있다.
단계 512; 프로세스를 종료한다.
5가지 타입의 특성 파라미터에 따라 오디오 신호의 타입 분류를 실행하는 종래 기술과 비교해 보면, 본 실시예에 제공된 오디오 신호 분류를 위한 방법에서는, 오디오 신호의 타입 분류가 단지 두 가지 타입의 특성 파라미터에 따라 수행될 수 있다. 분류 알고리즘이 간단하며, 덜 복잡하고, 분류 프로세스를 수행하는 동안의 계산량도 감소한다. 동시에, 본 실시예의 솔루션에서는, 분류된 오디오 신호에 대한 평활화 프로세스를 수행하는 기술적 수단도 채택되어, 오디오 신호의 타입에 대한 인식률을 향상시키는 이로운 효과를 달성할 수 있으며, 후속의 인코딩 프로세스 동안 음성 인코더 및 오디오 인코더의 기능이 최대한 발휘되도록 한다.
실시예 4
실시예 1에 대응해서, 본 실시예는 구체적으로 오디오 신호 분류를 위한 장치를 제공한다. 도 4에 도시된 바와 같이, 장치는 수신 모듈(40), 음조 획득 모듈(41), 분류 모듈(43), 제1 판정 모듈(44), 제2 판정 모듈(45), 평활화 모듈(46) 및 제1 설정 모듈(47)을 포함한다.
수신 모듈(40)은 현재의 프레임 오디오 신호를 수신하도록 구성되어 있으며, 상기 현재의 프레임 오디오 신호는 분류될 오디오 신호이다. 음조 획득 모듈(41)은 상기 분류될 현재의 프레임 오디오 신호의 음조 특성 파라미터를 획득하도록 구성되어 있으며, 상기 현재의 프레임 오디오 신호의 음조 특성 파라미터는 적어도 하나의 서브대역 내에 있다. 분류 모듈(43)은, 음조 획득 모듈(41)에 의해 획득된 음조 특성 파라미터에 따라, 분류될 오디오 신호의 타입을 결정하도록 구성되어 있다. 제1 판정 모듈(44)은, 분류 모듈(43)이 분류될 오디오 신호의 타입을 분류한 후, 상기 분류될 오디오 신호의 적어도 하나의 이전의 프레임 오디오 신호의 타입이 상기 분류될 오디오 신호의 적어도 하나의 대응하는 다음 프레임 오디오 신호의 타입과 동일한지를 판정하도록 구성되어 있다. 제1 판정 모듈(44)이 상기 분류될 오디오 신호의 적어도 하나의 이전의 프레임 오디오 신호의 타입이 상기 분류될 오디오 신호의 적어도 하나의 대응하는 다음 프레임 오디오 신호의 타입과 동일한 것으로 판정하면, 제2 판정 모듈(45)은 상기 분류될 오디오 신호의 타입이 적어도 하나의 이전의 프레임 오디오 신호의 타입과 다른지를 판정하도록 구성되어 있다. 제2 판정 모듈(45)이 상기 분류될 오디오 신호의 타입이 상기 적어도 하나의 이전의 프레임 오디오 신호의 타입과 다른 것으로 판정하면, 평활화 모듈(46)은 상기 분류될 오디오 신호에 대해 평활화 프로세스를 수행하도록 구성되어 있다. 제1 설정 모듈(47)은 계산을 위한 프레임의 규정된 수를 사전설정하도록 구성되어 있다.
본 실시예에서, 음조 획득 모듈(41)에 의해 획득된 적어도 하나의 서브대역의 음조 특성 파라미터가 저주파 서브대역의 음조 특성 파라미터 및 상대적 고주파 서브대역의 음조 특성 파라미터이면, 분류 모듈(43)은 판정 유닛(431) 및 분류 유닛(432)을 포함한다.
판정 유닛(431)은 저주파 대역 내에 있는 음조 특성 파라미터가 제1 계수보다 큰지를 판정하며, 상대적 고주파 서브대역의 음조 특성 파라미터가 제2 계수보다 작은지를 판정한다. 분류 유닛(432)은, 판정 유닛(431)이 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 큰 것으로 판정하고, 아울러 상대적 고주파 대역의 음조 특성 파라미터가 제2 계수보다 작은 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 음성 타입인 것으로 판정하며, 판정 유닛(431)이 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 크지 않은 것으로 판정하거나 또는 상대적 고주파 대역의 음조 특성 파라미터가 제2 계수보다 작지 않은 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 음악 타입인 것으로 판정하도록 구성되어 있다.
음조 획득 모듈(41)은 적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 음조의 수에 따라 음조 특성 파라미터를 계산하며, 아울러 상기 분류될 오디오 신호의 음조의 총수를 계산하도록 구성되어 있다.
또한, 본 실시예에서의 음조 획득 모듈(41)은 제1 계산 유닛(411), 제2 계산 유닛(412), 및 음조 특성 유닛(413)을 포함한다.
제1 계산 유닛(411)은, 적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 서브대역 음조의 수의 평균값을 계산하도록 구성되어 있다. 제2 계산 유닛(412)은 분류될 오디오 신호의 음조의 총수의 평균값을 계산하도록 구성되어 있다. 음조 특성 유닛(413)은 분류될 오디오 신호의 음조 특성 파라미터가 그 대응하는 서브대역 내에 있는 경우, 적어도 하나의 서브대역 내에 있는 서브대역 음조의 수의 평균값과 음조의 총수의 평균값 간의 비율을, 분류될 오디오 신호의 음조 특성 파라미터로서 각각 사용하도록 구성되어 있다.
분류될 오디오 신호의 서브대역 음조의 수의 평균값이 적어도 하나의 서브대역 내에 있는 경우, 제1 계산 유닛(411)이 상기 분류될 오디오 신호의 서브대역 음조의 수의 평균값을 계산하는 공정은, 계산을 위한 프레임의 규정된 수가 제1 설정 모듈(47)에 의해 설정되어 있는 경우, 상기 계산을 위한 프레임의 규정된 수와 분류될 오디오 신호의 프레임 수 간의 관계에 따라, 하나의 서브대역 내에 있는 서브대역 음조의 수의 평균값을 계산하는 공정을 포함한다.
제2 계산 유닛(412)이 분류될 오디오 신호의 음조의 총수의 평균값을 계산하는 공정은, 계산을 위한 프레임의 규정된 수가 제1 설정 모듈에 의해 설정되어 있는 경우, 상기 계산을 위한 프레임의 규정된 수와 분류될 오디오 신호의 프레임 수 간의 관계에 따라 음조의 총수의 평균값을 계산하는 공정을 포함한다.
본 실시예에 제공된 오디오 신호 분류를 위한 장치에 의하면, 오디오 신호의 음조 특성 파라미터를 획득하는 기술적 수단이 채택되어, 대부분의 오디오 신호의 타입을 판정하고, 오디오 신호 분류를 위한 분류 방법을 덜 복잡하게 하는 동시에, 오디오 신호를 분류하는 동안 계산량을 감소시키는 기술적 효과를 달성한다.
실시예 5
실시예 2에서의 오디오 신호 분류를 위한 방법에 대응해서, 본 실시예는 오디오 신호 분류를 위한 장치에 대해 개시한다. 도 5에 도시된 바와 같이, 장치는 수신 모듈(30), 음조 획득 모듈(31), 스펙트럼 틸트 획득 모듈(32) 및 분류 모듈(33)을 포함한다.
수신 모듈(30)은 현재의 프레임 오디오 신호를 수신하도록 구성되어 있다. 음조 획득 모듈(31)은 분류될 오디오 신호의 음조 특성 파라미터를 획득하도록 구성되어 있으며, 상기 분류될 오디오 신호의 음조 특성 파라미터는 적어도 하나의 서브대역 내에 있다. 스펙트럼 틸트 획득 모듈(32)은 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터를 획득하도록 구성되어 있다. 분류 모듈(33)은 음조 획득 모듈(31)에 의해 획득된 음조 특성 파라미터 및 스펙트럼 틸트 획득 모듈(32)에 의해 획득된 스펙트럼 틸트 특성 파라미터에 따라 상기 분류될 오디오 신호의 타입을 판정하도록 구성되어 있다.
종래 기술에서는, 오디오 신호를 분류하는 동안 오디오 신호의 여러 관점의 특성 파라미터를 고려해야만 하고, 이로 인해 분류가 더 복잡하게 되고 계산량이 증가하게 된다. 그렇지만, 본 실시예에 제공된 솔루션에서는, 오디오 신호를 분류하는 동안, 오디오 신호의 타입은 단지 두 개의 특성 파라미터, 즉 오디오 신호의 음조 특성 파라미터 및 오디오 신호의 스펙트럼 틸트 특성 파라미터에 따라 인식될 수 있으므로, 오디오 신호 분류가 용이하게 되고 분류 동안의 계산량도 감소한다.
실시예 6
본 실시예는 구체적으로 오디오 신호 분류를 위한 장치를 제공한다. 도 6에 도시된 바와 같이, 장치는 수신 모듈(40), 음조 획득 모듈(41), 스펙트럼 틸트 획득 모듈(42), 분류 모듈(43), 제1 판정 모듈(44), 제2 판정 모듈(45), 평활화 모듈(46), 제1 설정 모듈(47) 및 제2 설정 모듈(48)을 포함한다.
수신 모듈(40)은 현재의 프레임 오디오 신호를 수신하도록 구성되어 있으며, 상기 현재의 프레임 오디오 신호는 분류될 오디오 신호이다. 음조 획득 모듈(41)은 분류될 오디오 신호의 음조 특성 파라미터를 획득하도록 구성되어 있으며, 상기 분류될 오디오 신호의 음조 특성 파라미터는 적어도 하나의 서브대역 내에 있다. 스펙트럼 틸트 획득 모듈(42)은 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터를 획득하도록 구성되어 있다. 분류 모듈(43)은 음조 획득 모듈(41)에 의해 획득된 음조 특성 파라미터 및 스펙트럼 틸트 획득 모듈(42)에 의해 획득된 스펙트럼 틸트 특성 파라미터에 따라, 분류될 오디오 신호의 타입을 판정하도록 구성되어 있다. 제1 판정 모듈(44)은 분류 모듈(43)이 분류될 오디오 신호의 타입을 분류한 후, 상기 분류될 오디오 신호의 적어도 하나의 이전의 프레임 오디오 신호의 타입이 상기 분류될 오디오 신호의 적어도 하나의 대응하는 다음 프레임 오디오 신호의 타입과 동일한지를 판정하도록 구성되어 있다. 제2 판정 모듈(45)은, 상기 제1 판정 모듈(44)이 분류될 오디오 신호의 적어도 하나의 이전의 프레임 오디오 신호의 타입이 분류될 오디오 신호의 적어도 하나의 대응하는 다음 프레임 오디오 신호의 타입과 동일한 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 상기 적어도 하나의 이전의 프레임 오디오 신호의 타입과 다른지를 판정하도록 구성되어 있다. 평활화 모듈(46)은, 상기 제2 판정 모듈(45)이 분류될 오디오 신호의 타입이 적어도 하나의 이전의 프레임 오디오 신호의 타입과 다르면, 상기 분류될 오디오 신호에 대해 평활화 프로세스를 수행하도록 구성되어 있다. 제1 설정 모듈(47)은 음조 특성 파라미터를 분류하는 동안 계산을 위한 프레임의 규정된 수를 사전설정하도록 구성되어 있다. 제2 설정 모듈(48)은 스펙트럼 틸트 특성 파라미터를 계산하는 동안 계산을 위한 프레임의 규정된 수를 사전설정하도록 구성되어 있다.
음조 획득 모듈(41)은, 적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 음조의 수 및 상기 분류될 오디오 신호의 음조의 총수에 따라 음조 특성 파라미터를 계산하도록 구성되어 있다.
본 실시예에서, 적어도 하나의 서브대역 내에 있는 음조 특성 파라미터가 음조 획득 모듈(41)에 의해 획득되는 경우, 상기 적어도 하나의 서브대역 내에 있는 음조 특성 파라미터가 저주파 서브대역 내에 있는 음조 특성 파라미터 및 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터이면, 분류 모듈(43)은 판정 유닛(431) 및 분류 유닛(432)을 포함한다.
판정 유닛(431)은, 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 크고, 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작으면, 상기 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 큰지를 판정하도록 구성되어 있다. 분류 유닛(432)은, 상기 판정 유닛이 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 큰 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 음성 타입인 것으로 결정하고, 상기 판정 유닛이 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 크지 않은 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 음악 타입인 것으로 결정하도록 구성되어 있다.
또한, 본 실시예에서의 음조 획득 모듈(41)은 제1 계산 유닛(411), 제2 계산 유닛(412) 및 음조 특성 유닛(413)을 포함한다.
제1 계산 유닛(411)은, 적어도 하나의 서브대역 내에 있는, 상기 분류될 오디오 신호의 서브대역 음조의 수의 평균값을 계산하도록 구성되어 있다. 제2 계산 유닛(412)은 분류될 오디오 신호의 음조의 총수의 평균값을 계산하도록 구성되어 있다. 음조 특성 유닛(413)은 분류될 오디오 신호의 음조 특성 파라미터가 그 대응하는 서브대역 내에 있는 경우, 적어도 하나의 서브대역 내에 있는 서브대역 음조의 수의 평균값과 음조의 총수의 평균값 간의 비율을, 분류될 오디오 신호의 음조 특성 파라미터로서 각각 사용하도록 구성되어 있다.
분류될 오디오 신호의 서브대역 음조의 수의 평균값이 적어도 하나의 서브대역 내에 있는 경우, 제1 계산 유닛(411)이 상기 분류될 오디오 신호의 서브대역 음조의 수의 평균값을 계산하는 공정은, 계산을 위한 프레임의 규정된 수가 제1 설정 모듈(47)에 의해 설정되어 있는 경우, 상기 계산을 위한 프레임의 규정된 수와 분류될 오디오 신호의 프레임 수 간의 관계에 따라, 하나의 서브대역 내에 있는 서브대역 음조의 수의 평균값을 계산하는 공정을 포함한다.
제2 계산 유닛(412)이 분류될 오디오 신호의 음조의 총수의 평균값을 계산하는 단계는, 계산을 위한 프레임의 규정된 수가 제1 설정 모듈(47)에 의해 설정되어 있는 경우, 상기 계산을 위한 프레임의 규정된 수와 분류될 오디오 신호의 프레임 수 간의 관계에 따라 음조의 총수의 평균값을 계산하는 공정을 포함한다.
또한, 본 실시예에서, 스펙트럼 틸트 획득 모듈(42)은 제3 계산 유닛(421) 및 스펙트럼 틸트 특성 유닛(422)을 포함한다.
제3 계산 유닛(421)은 분류될 오디오 신호의 스펙트럼 틸트 평균값을 계산하도록 구성되어 있다. 스펙트럼 틸트 특성 유닛(422)은 적어도 하나의 오디오 신호의 스펙트러 틸트와 스펙트럼 틸트 평균값 간의 평균 제곱 오차를, 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터로서 사용하도록 구성되어 있다.
제3 계산 유닛(421)이 분류될 오디오 신호의 스펙트럼 틸트 평균값을 계산하는 공정은, 제2 설정 모듈(48)에 의해 설정되어 있는 상기 계산을 위한 프레임의 규정된 수와 분류될 오디오 신호의 프레임 수 간의 관계에 따라 스펙트럼 틸트 평균값을 계산하는 공정을 포함한다.
스펙트럼 틸트 특성 유닛(422)이 적어도 하나의 오디오 신호의 스펙트럼 틸트와 스펙트럼 틸트 평균값 간의 평균 제곱 오차를 계산하는 단계는, 계산을 위한 프레임의 규정된 수가 제2 설정 모듈(48)에 의해 설정되어 있는 경우, 상기 계산을 위한 프레임의 규정된 수와 분류될 오디오 신호의 프레임 수 간의 관계에 따라 스펙트럼 틸트 특성 파라미터를 계산하는 단계를 포함한다.
본 실시예에서의 제1 설정 모듈(47) 및 제2 설정 모듈(48)은 프로그램 또는 모듈을 통해 실현될 수 있거나, 제1 설정 모듈(47) 및 제2 설정 모듈(48)은 계산을 위한 그 동일하게 규정된 수의 프레임을 설정할 수도 있다.
본 실시예에 제공된 솔루션에는 다음과 같은 이로운 효과를 있다: 분류를 용이하게 하고, 덜 복잡하게 하는 동시에 계산을 감소시키며, 인코더에 과도한 지연을 도입하지 않으며, 중간 내지 낮은 비트 레이트 하에서의 분류 프로세스 동안 음성/오디오 인코더의 실시간 인코딩이 가능하고 덜 복잡하게 할 수 있다.
본 발명의 실시예는 통신 기술 분야에 주로 적용되며, 오디오 신호를 신속하고 정확하게 실시간으로 분류한다. 네트워크 기술의 발전에 따라, 본 발명의 실시예는 당 기술분야의 다른 시나리오에도 적용될 수 있으며, 다른 유사한 기술분야 또는 밀접한 기술분야에서도 사용될 수 있다.
전술한 실시예의 상세한 설명을 통해, 본 발명은 하드웨어로 구현될 수 있지만, 보다 바람직하게는 대부분의 경우, 필요한 범용 하드웨어 플랫폼을 기반으로 소프트웨어로 구현될 수 있다는 것을 당업자는 명확하게 이해할 수 있다. 이와 같은 이해를 토대로, 본 발명의 기술적 솔루션 또는 종래 기술에 기여하는 부분은 실질적으로 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소트트웨어 제품은 예를 들어, 플로피디스크, 하드디스크, 또는 컴퓨터의 광디스크와 같은 판독 가능한 저장 매체에 저장될 수 있으며, 본 발명의 실시예에 따른 방법을 실행하도록 인코더를 명령하는데 사용되는 수 개의 명령어를 포함할 수 있다.
전술한 바는 본 발명의 특정한 구현에 지나지 않으며, 본 발명의 보호범위는 이에 제한되지 않는다. 본 발명에 의해 개시된 기술범위 내에서 당업자가 용이하게 알아낼 수 있는 변경 또는 대체는 본 발명의 보호범위에 포함되어야 한다. 그러므로 본 발명의 보호범위는 청구의 범위의 보호범위 내에 있다.

Claims (22)

  1. 오디오 신호 분류 방법에 있어서,
    분류될 오디오 신호의 저주파 서브대역 내에 있는 음조 특성 파라미터 및 상기 분류될 오디오 신호의 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터를 포함하는, 상기 분류될 오디오 신호의 음조 특성 파라미터(tonal characteristic parameter)를 획득하는 단계; 및
    획득된 상기 음조 특성 파라미터에 따라, 상기 분류될 오디오 신호의 타입을 판정하는 단계
    를 포함하고,
    상기 획득된 상기 음조 특성 파라미터에 따라, 상기 분류될 오디오 신호의 타입을 판정하는 단계는,
    상기 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 큰지를 판정하고, 상기 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작은지를 판정하는 단계; 및
    상기 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 크고, 상기 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작으면, 상기 분류될 오디오 신호의 타입이 음성 타입(voice type)인 것으로 판정하고; 상기 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 크지 않거나, 상기 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작지 않으면, 상기 분류될 오디오 신호의 타입이 음악 타입(music type)인 것으로 판정하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  2. 제1항에 있어서,
    상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터(spectral tilt characteristic parameter)를 획득하는 단계; 및
    획득된 상기 스펙트럼 틸트 특성 파라미터에 따라, 상기 분류될 오디오 신호의 판정된 타입을 확인하는 단계
    를 더 포함하는 오디오 신호 분류 방법.
  3. 제2항에 있어서,
    획득된 상기 스펙트럼 틸트 특성 파라미터에 따라, 상기 분류될 오디오 신호의 판정된 타입을 확인하는 단계는,
    저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 크고, 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작으면, 상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 큰지를 판정하는 단계; 및
    상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 크면, 상기 분류될 오디오 신호의 타입이 음성 타입인 것으로 판정하고, 상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 크지 않으면, 상기 분류될 오디오 신호의 타입이 음악 타입인 것으로 판정하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  4. 제1항에 있어서,
    상기 분류될 오디오 신호의 음조 특성 파라미터를 획득하는 단계는,
    적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 음조의 수 및 분류될 오디오 신호의 음조의 총수(total number)에 따라 상기 음조 특성 파라미터를 계산하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  5. 제1항에 있어서,
    상기 분류될 오디오 신호의 음조 특성 파라미터를 획득하는 단계는,
    적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 서브대역 음조의 수의 평균값을 계산하는 단계;
    상기 분류될 오디오 신호의 음조의 총수의 평균값을 계산하는 단계; 및
    상기 적어도 하나의 서브대역 내에 있는 서브대역 음조의 수의 평균값과 상기 음조의 총수의 평균값 간의 비율을, 대응하는 서브대역 내에 있는 상기 분류될 오디오 신호의 음조 특성 파라미터로서 각각 사용하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  6. 제5항에 있어서,
    계산을 위한 프레임의 규정된 수를 사전설정하는 단계를 포함하며,
    적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 서브대역 음조의 수의 평균값을 계산하는 단계는,
    상기 계산을 위한 프레임의 규정된 수와 상기 분류될 오디오 신호의 프레임 수 간의 관계에 따라 하나의 서브대역 내에 있는 서브대역 음조의 수의 평균값을 계산하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  7. 제5항에 있어서,
    계산을 위한 프레임의 규정된 수를 사전설정하는 단계를 포함하며,
    상기 분류될 오디오 신호의 음조의 총수의 평균값을 계산하는 단계는,
    상기 계산을 위한 프레임의 규정된 수와 상기 분류될 오디오 신호의 프레임 수 간의 관계에 따라 음조의 총수의 평균값을 계산하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  8. 제2항에 있어서,
    상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터를 획득하는 단계는,
    상기 분류될 오디오 신호의 스펙트럼 틸트 평균값을 계산하는 단계; 및
    적어도 하나의 오디오 신호의 스펙트럼 틸트와 상기 스펙트럼 틸트 평균값 간의 평균 제곱 오차(mean-square error)를 상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터로서 사용하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  9. 제8항에 있어서,
    계산을 위한 프레임의 규정된 수를 사전설정하는 단계를 포함하며,
    상기 분류될 오디오 신호의 스펙트럼 틸트 평균값 계산하는 단계는,
    상기 계산을 위한 프레임의 규정된 수와 상기 분류될 오디오 신호의 프레임 수 간의 관계에 따라 상기 스펙트럼 틸트 평균값을 계산하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  10. 제8항에 있어서,
    계산을 위한 프레임의 규정된 수를 사전설정하는 단계를 포함하며,
    적어도 하나의 오디오 신호의 스펙트럼 틸트와 상기 스펙트럼 틸트 평균값 간의 평균 제곱 오차를 상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터로서 사용하는 단계는,
    상기 계산을 위한 프레임의 규정된 수와 상기 분류될 오디오 신호의 프레임 수 간의 관계에 따라 상기 스펙트럼 틸트 특성 파라미터를 계산하는 단계
    를 포함하는, 오디오 신호 분류 방법.
  11. 오디오 신호 분류 장치에 있어서,
    분류될 오디오 신호의 저주파 서브대역 내에 있는 음조 특성 파라미터 및 상기 분류될 오디오 신호의 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터를 포함하는, 분류될 오디오 신호의 음조 특성 파라미터(tonal characteristic parameter)를 획득하도록 구성된 음조 획득 모듈; 및
    획득된 상기 음조 특성 파라미터에 따라, 상기 분류될 오디오 신호의 타입을 판정하도록 구성된 분류 모듈
    을 포함하고,
    상기 분류 모듈은,
    상기 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 큰지를 판정하고, 상기 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작은지를 판정하도록 구성된 판정 유닛; 및
    상기 판정 유닛이, 상기 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 큰 것으로 판정하고, 상기 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작은 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 음성 타입(voice type)인 것으로 판정하고; 상기 판정 유닛이 상기 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 크지 않은 것으로 판정하거나, 상기 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작지 않은 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 음악 타입(music type)인 것으로 판정하는 분류 유닛
    을 포함하는, 오디오 신호 분류 장치.
  12. 제11항에 있어서,
    상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터(spectral tilt characteristic parameter)를 획득하도록 구성된 스펙트럼 틸트 획득 모듈
    을 더 포함하며,
    상기 분류 모듈은 또한, 상기 스펙트럼 틸트 획득 모듈에 의해 획득된 상기 스펙트럼 틸트 특성 파라미터에 따라, 상기 분류될 오디오 신호의 판정된 타입을 확인하도록 구성된, 오디오 신호 분류 장치.
  13. 제11항에 있어서,
    상기 판정 유닛은, 상기 저주파 서브대역 내에 있는 음조 특성 파라미터가 제1 계수보다 크고, 상기 상대적 고주파 서브대역 내에 있는 음조 특성 파라미터가 제2 계수보다 작으면, 상기 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 큰지를 판정하도록 추가로 구성되고,
    상기 분류 유닛은, 상기 판정 유닛이 상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 큰 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 음성 타입인 것으로 판정하고, 상기 판정 유닛이 상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터가 제3 계수보다 크지 않은 것으로 판정하면, 상기 분류될 오디오 신호의 타입이 음악 타입인 것으로 판정하도록 추가로 구성된, 오디오 신호 분류 장치.
  14. 제11항에 있어서,
    상기 음조 획득 모듈은, 적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 음조의 수 및 분류될 오디오 신호의 음조의 총수(total number)에 따라 상기 음조 특성 파라미터를 계산하는, 오디오 신호 분류 장치.
  15. 제11항 또는 제14항에 있어서,
    상기 음조 획득 모듈은,
    적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 서브대역 음조의 수의 평균값을 계산하도록 구성된 제1 계산 유닛;
    상기 분류될 오디오 신호의 음조의 총수의 평균값을 계산하도록 구성된 제2 계산 유닛; 및
    상기 적어도 하나의 서브대역 내에 있는 서브대역 음조의 수의 평균값과 상기 음조의 총수의 평균값 간의 비율을, 대응하는 서브대역 내에 있는 상기 분류될 오디오 신호의 음조 특성 파라미터로서 각각 사용하도록 구성된 음조 특성 모듈
    을 포함하는, 오디오 신호 분류 장치.
  16. 제15항에 있어서,
    계산을 위한 프레임의 규정된 수를 사전설정하도록 구성된 제1 설정 모듈을 더 포함하며,
    상기 제1 계산 유닛이 적어도 하나의 서브대역 내에 있는 상기 분류될 오디오 신호의 서브대역 음조의 수의 평균값을 계산하는 공정은,
    상기 제1 설정 모듈에 의해 설정되어 있는 상기 계산을 위한 프레임의 규정된 수와 상기 분류될 오디오 신호의 프레임 수 간의 관계에 따라 하나의 서브대역 내에 있는 서브대역 음조의 수의 평균값을 계산하는 공정
    을 포함하는, 오디오 신호 분류 장치.
  17. 제15항에 있어서,
    계산을 위한 프레임의 규정된 수를 사전설정하도록 구성된 제1 설정 모듈을 더 포함하며,
    상기 제2 계산 유닛이 상기 분류될 오디오 신호의 음조의 총수의 평균값을 계산하는 공정은,
    상기 제1 설정 모듈에 의해 설정되어 있는 상기 계산을 위한 프레임의 규정된 수와 상기 분류될 오디오 신호의 프레임 수 간의 관계에 따라 음조의 총수의 평균값을 계산하는 공정
    을 포함하는, 오디오 신호 분류 장치.
  18. 제12항에 있어서,
    상기 스펙트럼 틸트 획득 모듈은,
    상기 분류될 오디오 신호의 스펙트럼 틸트 평균값을 계산하도록 구성된 제3 계산 유닛; 및
    적어도 하나의 오디오 신호의 스펙트럼 틸트와 상기 스펙트럼 틸트 평균값 간의 평균 제곱 오차(mean-square error)를 상기 분류될 오디오 신호의 스펙트럼 틸트 특성 파라미터로서 각각 사용하도록 구성된 스펙트럼 틸트 특성 유닛
    을 포함하는, 오디오 신호 분류 장치.
  19. 제18항에 있어서,
    계산을 위한 프레임의 규정된 수를 사전설정하도록 구성된 제2 설정 모듈을 더 포함하며,
    상기 제3 계산 유닛이 상기 분류될 오디오 신호의 스펙트럼 틸트 평균값을 계산하는 공정은,
    상기 제2 설정 모듈에 의해 설정되어 있는 상기 계산을 위한 프레임의 규정된 수와 상기 분류될 오디오 신호의 프레임 수 간의 관계에 따라 상기 스펙트럼 틸트 평균값을 계산하는 공정
    을 포함하는, 오디오 신호 분류 장치.
  20. 제18항에 있어서,
    계산을 위한 프레임의 규정된 수를 사전설정하도록 구성된 제2 설정 모듈을 더 포함하며,
    상기 스펙트럼 틸트 특성 유닛이 적어도 하나의 오디오 신호의 스펙트럼 틸트와 상기 스펙트럼 틸트 평균값 간의 평균 제곱 오차를 계산하는 공정은,
    상기 제2 설정 모듈에 의해 설정되어 있는 상기 계산을 위한 프레임의 규정된 수와 상기 분류될 오디오 신호의 프레임 수 간의 관계에 따라 상기 스펙트럼 틸트 특성 파라미터를 계산하는 공정
    을 포함하는, 오디오 신호 분류 장치.
  21. 삭제
  22. 삭제
KR1020117024685A 2009-03-27 2010-03-27 오디오 신호 분류를 위한 방법 및 장치 KR101327895B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910129157.3 2009-03-27
CN2009101291573A CN101847412B (zh) 2009-03-27 2009-03-27 音频信号的分类方法及装置
PCT/CN2010/071373 WO2010108458A1 (zh) 2009-03-27 2010-03-27 音频信号的分类方法及装置

Publications (2)

Publication Number Publication Date
KR20120000090A KR20120000090A (ko) 2012-01-03
KR101327895B1 true KR101327895B1 (ko) 2013-11-13

Family

ID=42772007

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117024685A KR101327895B1 (ko) 2009-03-27 2010-03-27 오디오 신호 분류를 위한 방법 및 장치

Country Status (9)

Country Link
US (1) US8682664B2 (ko)
EP (1) EP2413313B1 (ko)
JP (1) JP2012522255A (ko)
KR (1) KR101327895B1 (ko)
CN (1) CN101847412B (ko)
AU (1) AU2010227994B2 (ko)
BR (1) BRPI1013585A2 (ko)
SG (1) SG174597A1 (ko)
WO (1) WO2010108458A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
CN101847412B (zh) 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置
TWI591620B (zh) 2012-03-21 2017-07-11 三星電子股份有限公司 產生高頻雜訊的方法
RU2656681C1 (ru) * 2012-11-13 2018-06-06 Самсунг Электроникс Ко., Лтд. Способ и устройство для определения режима кодирования, способ и устройство для кодирования аудиосигналов и способ, и устройство для декодирования аудиосигналов
US11222697B2 (en) 2013-02-28 2022-01-11 Samsung Electronics Co., Ltd. Three-dimensional nonvolatile memory and method of performing read operation in the nonvolatile memory
US9665403B2 (en) * 2013-03-15 2017-05-30 Miosoft Corporation Executing algorithms in parallel
CN104282315B (zh) * 2013-07-02 2017-11-24 华为技术有限公司 音频信号分类处理方法、装置及设备
CN106409313B (zh) * 2013-08-06 2021-04-20 华为技术有限公司 一种音频信号分类方法和装置
JP2015037212A (ja) * 2013-08-12 2015-02-23 オリンパスイメージング株式会社 情報処理装置、撮影機器及び情報処理方法
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
CN104700833A (zh) * 2014-12-29 2015-06-10 芜湖乐锐思信息咨询有限公司 一种大数据语音分类方法
EP3504708B1 (en) * 2016-09-09 2020-07-15 Huawei Technologies Co., Ltd. A device and method for classifying an acoustic environment
CN107492383B (zh) * 2017-08-07 2022-01-11 上海六界信息技术有限公司 直播内容的筛选方法、装置、设备及存储介质
CN111524536B (zh) * 2019-02-01 2023-09-08 富士通株式会社 信号处理方法和信息处理设备
CN111857639B (zh) * 2020-06-28 2023-01-24 浙江大华技术股份有限公司 音频输入信号的检测系统、方法、计算机设备和存储介质
CN111816170B (zh) * 2020-07-29 2024-01-19 杭州网易智企科技有限公司 一种音频分类模型的训练和垃圾音频识别方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060015333A1 (en) * 2004-07-16 2006-01-19 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3102385A1 (de) * 1981-01-24 1982-09-02 Blaupunkt-Werke Gmbh, 3200 Hildesheim Schaltungsanordnung zur selbstaetigen aenderung der einstellung von tonwiedergabegeraeten, insbesondere rundfunkempfaengern
DE19505435C1 (de) * 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
JP3700890B2 (ja) * 1997-07-09 2005-09-28 ソニー株式会社 信号識別装置及び信号識別方法
JPH11202900A (ja) * 1998-01-13 1999-07-30 Nec Corp 音声データ圧縮方法及びそれを適用した音声データ圧縮システム
KR100304092B1 (ko) * 1998-03-11 2001-09-26 마츠시타 덴끼 산교 가부시키가이샤 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
JP2000099069A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
JP2002344852A (ja) * 2001-05-14 2002-11-29 Sony Corp 情報信号処理装置および情報信号処理方法
DE10133333C1 (de) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
US20040024598A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
JP2004240214A (ja) 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
FR2863080B1 (fr) * 2003-11-27 2006-02-24 Advestigo Procede d'indexation et d'identification de documents multimedias
US7026536B2 (en) * 2004-03-25 2006-04-11 Microsoft Corporation Beat analysis of musical signals
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
TWI312982B (en) * 2006-05-22 2009-08-01 Nat Cheng Kung Universit Audio signal segmentation algorithm
US20080034396A1 (en) * 2006-05-30 2008-02-07 Lev Zvi H System and method for video distribution and billing
JP4665836B2 (ja) 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
JP2008015388A (ja) * 2006-07-10 2008-01-24 Dds:Kk 歌唱力評価方法及びカラオケ装置
CN101136199B (zh) * 2006-08-30 2011-09-07 纽昂斯通讯公司 语音数据处理方法和设备
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
US8600740B2 (en) * 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
WO2009148731A1 (en) * 2008-06-02 2009-12-10 Massachusetts Institute Of Technology Fast pattern classification based on a sparse transform
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
PL2301011T3 (pl) * 2008-07-11 2019-03-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób i dyskryminator do klasyfikacji różnych segmentów sygnału audio zawierającego segmenty mowy i muzyki
CN101847412B (zh) 2009-03-27 2012-02-15 华为技术有限公司 音频信号的分类方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060015333A1 (en) * 2004-07-16 2006-01-19 Mindspeed Technologies, Inc. Low-complexity music detection algorithm and system

Also Published As

Publication number Publication date
CN101847412B (zh) 2012-02-15
WO2010108458A1 (zh) 2010-09-30
US8682664B2 (en) 2014-03-25
EP2413313A4 (en) 2012-02-29
AU2010227994B2 (en) 2013-11-14
CN101847412A (zh) 2010-09-29
EP2413313B1 (en) 2013-05-29
US20120016677A1 (en) 2012-01-19
SG174597A1 (en) 2011-10-28
BRPI1013585A2 (pt) 2016-04-12
JP2012522255A (ja) 2012-09-20
EP2413313A1 (en) 2012-02-01
AU2010227994A1 (en) 2011-11-03
KR20120000090A (ko) 2012-01-03

Similar Documents

Publication Publication Date Title
KR101327895B1 (ko) 오디오 신호 분류를 위한 방법 및 장치
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
CN108896878B (zh) 一种基于超声波的局部放电检测方法
CN103026407B (zh) 带宽扩展器
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
JP3277398B2 (ja) 有声音判別方法
RU2441286C2 (ru) Способ и устройство для обнаружения звуковой активности и классификации звуковых сигналов
RU2417456C2 (ru) Системы, способы и устройства для обнаружения изменения сигналов
US8989403B2 (en) Noise suppression device
CN101976566B (zh) 语音增强方法及应用该方法的装置
US8352257B2 (en) Spectro-temporal varying approach for speech enhancement
CN1285945A (zh) 一种用于对声音编码、同时抑制声学背景噪声的系统和方法
US20050108004A1 (en) Voice activity detector based on spectral flatness of input signal
US20110099004A1 (en) Determining an upperband signal from a narrowband signal
US8218780B2 (en) Methods and systems for blind dereverberation
JP2002516420A (ja) 音声コーダ
CN1530929A (zh) 抑制风噪声的系统
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
KR100474826B1 (ko) 음성부호화기에서의주파수이동법을이용한다중밴드의유성화도결정방법및그장치
CN104981870A (zh) 声音增强装置
CN111341331B (zh) 基于局部注意力机制的语音增强方法、装置及介质
CN110379438B (zh) 一种语音信号基频检测与提取方法及系统
CN106463140A (zh) 具有语音信息的改进型帧丢失矫正
Chen et al. Robust voice activity detection algorithm based on the perceptual wavelet packet transform
CN109346106B (zh) 一种基于子带信噪比加权的倒谱域基音周期估计方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161020

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181023

Year of fee payment: 6