KR20100006492A - 부호화 방식 결정 방법 및 장치 - Google Patents
부호화 방식 결정 방법 및 장치 Download PDFInfo
- Publication number
- KR20100006492A KR20100006492A KR1020080066737A KR20080066737A KR20100006492A KR 20100006492 A KR20100006492 A KR 20100006492A KR 1020080066737 A KR1020080066737 A KR 1020080066737A KR 20080066737 A KR20080066737 A KR 20080066737A KR 20100006492 A KR20100006492 A KR 20100006492A
- Authority
- KR
- South Korea
- Prior art keywords
- signal provided
- encoding
- frame
- music
- voice
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
본 발명은 신호를 부호화하는 방식을 결정하는 방법 및 장치에 관한 것으로, 현재 프레임이 묵음에 해당하는지 여부와 음성 또는 음악이 존재할 가능성의 이력을 이용하여 신호를 부호화하는 방식을 결정하거나 변경한다.
Description
본 발명은 오디오 신호와 음성 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것으로, 보다 상세하게는 적은 비트를 이용하여 오디오 신호와 음성 신호 모두에 대해 효율적으로 부호화하고 복호화할 수 있는 방법 및 장치에 관한 것이다.
입력 신호의 특성을 분석함으로써 기 설정된 복수의 신호를 부호화하는 방식들 가운데 소정의 방식을 선택하여 부호화하는 방식이 있다. 예를 들어, AAC(Advanced Audio Codec)와 같은 주파수 도메인에서 부호화하는 방식과 CELP(Code Excited Linear prediction)와 같은 시간 도메인에서 부호화하는 방식 가운데 어느 하나를 선택하여 입력 신호를 해당 방식으로 부호화한다. 만일 입력 신호가 음악으로 구성된 신호의 특성에 가까우면 주파수 도메인에서 부호화하는 방식을 선택하여 부호화하고, 만일 입력 신호가 음성으로 구성된 신호의 특성에 가까우면 시간 도메인에서 부호화하는 방식을 선택하여 부호화한다.
여기서 입력 신호를 부호화하는 방식을 선택함에 있어서, 과거 프레임들에 마련된 신호의 특성들을 저장하고, 현재 프레임에 마련된 신호의 특성뿐만 아니라 과거 프레임들에 마련된 신호의 특성들까지 고려하여 현재 프레임에 마련된 신호를 부호화하는 방식을 선택할 수 있다. 이 경우 신호를 부호화하는 방식을 변경하는 횟수와 신호를 부호화하는 방식을 변경하는데 지연되는 시간을 감소시켜야 할 필요가 있다.
본 발명이 이루고자 하는 기술적 과제는, 복수의 부호화 방식들 가운데 신호를 효율적으로 부호화하기 위한 방식을 결정하는 방법 및 장치를 제공하는 것이다.
상기의 과제를 이루기 위한 본 발명에 의한 부호화 방식 결정 방법은, 적어도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하고 상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 방법에 있어서, 상기 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 단계; 및 상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋(reset)하는 단계를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 부호화 방식 결정 방법은, 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 단계; 상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산하는 단계; 과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계; 및 상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 단계를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 부호화 방식 결정 장치는, 적어 도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하는 저장부; 상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 부호화 방식 결정부; 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 묵음 판단부; 및 상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋하는 리셋부를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 부호화 방식 결정 장치는, 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 부호화 방식 결정부; 상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산하는 신호 분석부; 과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 변경 판단부; 및 상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 방식 변경부를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 기록 매체는, 적어도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하고 상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 방법에 있어서, 상기 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 단계; 및 상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋하는 단계를 포함한 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있다.
상기의 과제를 이루기 위한 본 발명에 의한 기록 매체는, 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 단계; 상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산하는 단계; 과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계; 및 상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 단계를 포함한 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 부호화 방식 결정 방법 및 장치의 실시예에 대해 상세히 설명한다.
도 1은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 현재 프레임에 마련된 신호가 묵음(silence)에 해당하는지 여부를 판단한다(제100단계). 제100단계에서 묵음에 해당하는지 여부는 소정의 프레임에 마련된 신호의 에너지 또는 특성을 기준으로 판단한다. 예를 들어, 제100단계에서는 소정 프레임에 마련된 신호의 에너지가 기 설정된 임계값보다 작으면 묵음에 해당하는 것을 판단할 수 있다.
제100단계에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 저장하고 있던 과거 프레임(들)에 마련된 신호 에 대한 정보(들) 또는 파라미터(들)를 리셋(reset)한다(제110단계).
제110단계에서 리셋하는 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)는 장구간 특성에 대한 정보(들)일 수 있다. 제110단계에서는 장구간 특성 가운데 기 설정된 개수에 해당하는 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값 또는 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 이력을 리셋할 수 있다.
여기서, 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 예를 들어, 장구간 특성에는 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. 그리고 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들) 및 파라미터(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성할 수 있다.
제110단계 후에, 이전의 마지막 프레임에 마련된 신호를 부호화했던 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정한다(제120단계).
제100단계에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 추출하고, 과거 프레임(들)에 마련된 신호에 대한 정 보(들) 또는 파라미터(들)와 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임을 부호화할 방식을 결정한다(제130단계). 제130단계에서 추출하는 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터의 예로 전술한 단구간 특성과 장구간 특성이 있다.
여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.
제120단계 또는 제130단계 후에, 현재 프레임이 마지막 프레임인지 여부를 판단한다(제140단계).
제140단계에서 현재 프레임이 마지막 프레임이 아니라고 판단되면, 다음 프레임을 입력받고(제150단계), 다음 프레임에 대하여 제100단계 내지 제150단계를 반복하여 수행한다.
도 2는 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터(parameter)를 추출한다(제200단계). 제200단계에서 추출하는 정보 또는 파라미터의 예로 단구간 특성과 장구간 특성이 있다. 단구 간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성될 수 있다. 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 예를 들어, 장구간 특성에는 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다.
이 가운데 음성이 존재할 가능성인 SPP(speech presence possibility)는 다음 기재된 수학식 1을 이용하여 구할 수 있다. 이하에서는 SPP를 중심으로 설명하지만 SPP에 한정하여 실시해야 하는 것은 아니다.
여기서, SNR_W는 SNR_SP에 대한 가중치이고, TILT_W는 TILT_SP에 대한 가중치이며, ZC_W는 ZC_SP에 대한 가중치이고, SNR_SP는 LP-LTP 이득에 대한 장구간 특성으로 다음 기재된 수학식 2를 이용하여 구할 수 있으며, TILT_SP는 스펙트럼 틸트에 대한 장구간 특성으로 다음 기재된 수학식 3을 이용하여 구할 수 있고, ZC_SP는 영점 교차율에 대한 장구간 특성으로 다음 기재된 수학식 4를 이용하여 구할 수 있다.
SNR_SP = a * SNR_SP + (1 - a) * SNR_VAR
else
SNR_SP - = D1
여기서, SNR_VAR는 현재 프레임에 선행하는 소정 개수의 프레임에 따른 LT-LTP 이득에 대한 평균값과 현재 프레임의 LP-LTP 이득의 차분값이고, SNR_THR는 기 설정된 임계값이며, SNR_SP의 초기 값은 0이고, 'a'는 0~1의 실수로서 SNR_SP와 SNR_VAR에 대한 가중치이고, 'D1'은 β1 × (SNR_THR / LT-LTP 이득) 이며, 'β1'는 감소 정도를 나타내는 상수이다.
TILT_SP = a2 * TILT_SP + (1 - a2) * TILT_VAR
else
TILT_SP - = D2
여기서, TILT_VAR는 현재 프레임에 선행하는 소정 개수의 프레임에 따른 스펙트럼 틸트에 대한 평균값과 현재 프레임의 스펙트럼 틸트의 차분값이고, TILT_THR는 기 설정된 임계값이며, TILT_SP의 초기 값은 0이고, 'a2'는 0~1의 실수로서 TILT_SP와 TILT_VAR에 대한 가중치이고, D2 는 β2 × (TILT_THR / SPECTRUM TILT) 이며, 'β2'는 감소 정도를 나타내는 상수이다.
ZC_SP = a3 * ZC_SP + (1 - a3) * ZC_VAR
else
ZC_SP - = D3
여기서, ZC_VAR는 현재 프레임에 선행하는 소정 개수의 프레임에 따른 영점 교차율에 대한 평균값과 현재 프레임의 영점 교차율의 차분값이고, ZC_THR는 기 설정된 임계값이며, ZC_SP의 초기 값은 0이고, 'a3'는 0~1의 실수로서 ZC_SP와 ZC_VAR에 대한 가중치이고, D3 는 β3 × (ZC_THR / zero-crossing rate) 이며, 'β3'는 감소 정도를 나타내는 상수이다.
또한, 음성 또는 음악이 존재할 가능성의 이력값은 소정 개수의 프레임들에 마련된 신호에 음성 또는 음악이 존재할 가능성들에 기 설정된 가중치를 적용하여 누적한 값을 말한다. 도 3에서 SPP를 예로 들어 음성 또는 음악이 존재할 가능성의 이력값을 계산하는 실시예를 후술하기로 한다.
제200단계에서 추출된 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정한다(제210단계). 여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.
제210단계 후에, 이전 프레임에 마련된 신호를 부호화했던 방식, 소정 개수의 과거 프레임(들)에 마련된 신호 및 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 가운데 적어도 하나 이상을 이용하여 제210단계에서 결정된 방식을 변경해야 하는지 여부를 판단한다(제220단계). 소정 개수의 과거 프레임(들)에 마련된 신호 또는 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 이용하여 판단하는 예로 전술한 음성 또는 음악이 존재할 가능성의 이력값이 있다. 제220단계를 상세하게 설명하는 실시예는 도 3의 실시예를 설명하면서 후술하기로 한다.
제210단계에서 결정된 방식을 제220단계에서 변경해야 하는 것으로 판단되면, 제210단계에서 결정된 방식을 변경한다(제230단계).
제220단계에서 변경해야 하지 않는 것으로 판단되거나 제230단계 후에, 현재 프레임이 마지막 프레임인지 여부를 판단한다(제240단계).
제240단계에서 현재 프레임이 마지막 프레임이 아니라고 판단되면, 다음 프레임을 입력받고(제250단계), 다음 프레임에 대하여 제200단계 내지 제240단계를 반복하여 수행한다.
도 3은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예에서 SPP(speech presence possibility)로 음성이 존재할 가능성의 이력값을 계산하는 실시예를 흐름도로 도시한 것이다.
제210단계에서 현재 프레임에 마련된 신호를 부호화할 방식으로 결정된 방식이 제0 모드인지 제1 모드인지 판단한다(제300단계). 여기서, 제0 모드는 주파수 도메인에서 부호화하는 방식 또는 음악을 부호화하는 방식이고, 제1 모드는 시간 도메인에서 부호화하는 방식 또는 음성을 부호화하는 방식이다.
만일 제210단계에서 결정된 방식이 제1 모드로 제300단계에서 판단되면, 제0 모드의 이력값을 다음 기재된 수학식 5로 계산한다(제310단계).
여기서, Mode0_Hysteresis는 제0 모드의 이력값이고, 'y' 및 'z'는 기 설정된 값이다.
제310단계 후에, 제1 모드의 이력값을 다음 기재된 수학식 6으로 계산한다(제320단계).
여기서, Mode1_Hysteresis는 제1 모드의 이력값이고, 'x'는 기 설정된 값이다.
만일 제210단계에서 결정된 모드가 제0 모드로 제300단계에서 판단되면, 제0 모드의 이력값을 다음 기재된 수학식 7로 계산한다(제330단계).
여기서, Mode0_Hysteresis는 제0 모드의 이력값이고, 'w'는 기 설정된 값이다.
제330단계 후에, 제1 모드의 이력값을 다음 기재된 수학식 7로 계산한다(제340단계).
여기서, Mode1_Hysteresis는 제1 모드의 이력값이고, 'u' 및 'v'는 기 설정된 값이다.
그러나 음성 또는 음악이 존재할 가능성의 이력값에 대한 최소값과 최대값을 기 설정할 수 있다. 예를 들어, 이력값의 최소값을 '0'으로 설정하고 이력값의 최대값을 '1'로 설정할 수 있다. 만일 최소값과 최대값의 차이를 좁게 설정함으로써 이력값의 변동 범위를 좁히면 신호를 부호화하는 방식이 변경되는 횟수를 증가시키고 신호를 부호화하는 방식을 변경하기 위한 지연을 보다 감소시킬 수 있으며, 만일 최소값과 최대값의 차이를 넓게 설정함으로써 이력값의 변동 범위를 넓히면 신호를 부호화하는 방식이 변경되는 횟수가 감소하고 신호를 부호화하는 방식을 변경하기 위한 지연을 보다 연장시킬 수 있다. 그러므로 신호를 부호화하는 환경 또는 신호의 특성에 따라 이력값에 대한 최대값과 최소값을 조절하여 기 설정할 수 있다.
도 4은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예에서 제230단계의 실시예를 흐름도로 도시한 것이다.
먼저, 제210단계에서 현재 프레임에 마련된 신호를 부호화할 방식으로 결정된 방식이 제0 모드인지 제1 모드인지 판단한다(제400단계). 여기서, 제0 모드는 주파수 도메인에서 부호화하는 방식 또는 음악을 부호화하는 방식이고, 제1 모드는 시간 도메인에서 부호화하는 방식 또는 음성을 부호화하는 방식이다.
만일 제210단계에서 결정된 방식이 제1 모드로 제400단계에서 판단되면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드인지 제1 모드인지 판단한다(제410단계).
만일 제410단계에서 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드로 판단되면, 제0 모드의 이력값이 '0'보다 큰지 여부를 판단한다(제420단계).
만일 제420단계에서 제0 모드의 이력값이 '0'보다 크다고 판단되면, 현재 프레임에 마련된 신호를 부호화할 방식을 제210단계에서 결정된 제1 모드로부터 제0 모드로 변경한다(제230단계).
만일 제410단계에서 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제1 모드로 판단되거나 제420단계에서 제0 모드의 이력값이 '0'이라고 판단되면, 제210단계에서 결정된 현재 프레임에 마련된 신호를 부호화할 방식을 변경하지 않 는다. 여기서, 제0 모드의 이력값이 '0'일 경우는 제0 모드의 이력값이 기 설정된 최소값에 해당하는 경우 또는 이전 마지막 프레임에 마련된 신호가 묵음이어서 리셋된 경우일 수 있다.
만일 제210단계에서 결정된 방식이 제0 모드로 제400단계에서 판단되면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드인지 제1 모드인지 판단한다(제430단계).
만일 제410단계에서 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제1 모드로 판단되면, 제1 모드의 이력값이 '0'보다 큰지 여부를 판단한다(제440단계).
만일 제440단계에서 제1 모드의 이력값이 '0'보다 크다고 판단되면, 현재 프레임에 마련된 신호를 부호화할 방식을 제210단계에서 결정된 제0 모드로부터 제1 모드로 변경한다(제230단계).
만일 제430단계에서 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드로 판단되거나 제440단계에서 제1 모드의 이력값이 '0'이라고 판단되면, 제210단계에서 결정된 현재 프레임에 마련된 신호를 부호화할 방식을 변경하지 않는다. 여기서, 제1 모드의 이력값이 '0'일 경우는 제1 모드의 이력값이 기 설정된 최소값에 해당하는 경우 또는 이전 마지막 프레임에 마련된 신호가 묵음이어서 리셋된 경우일 수 있다.
도 5는 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 현재 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단한다(제500단계). 제500단계에서 묵음에 해당하는지 여부는 소정의 프레임에 마련된 신호의 에너지 또는 특성을 기준으로 판단한다. 예를 들어, 제500단계에서는 소정 프레임에 마련된 신호의 에너지가 기 설정된 임계값 보다 작으면 묵음에 해당하는 것을 판단할 수 있다.
제500단계에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 저장하고 있던 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 리셋(reset)한다(제505단계).
제505단계에서 리셋하는 과거 프레임(들)에 마련된 신호에 대한 정보(들)는 장구간 특성에 대한 정보(들)일 수 있다. 제505단계에서는 장구간 특성 가운데 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값 및 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 이력을 리셋할 수 있다.
또한, 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 여기서, 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성할 수 있다.
예를 들어, 장구간 특성에는 소정 개수의 과거 프레임들에 마련된 신호의 단구간 특성들에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. 이 가운데 음성이 존재할 가능성인 SPP(speech presence possibility)는 전술한 수학식 1을 이용하여 구할 수 있다. 또한, 음성 또는 음악이 존재할 가능성의 이력값은 소정 개수의 프레임들에 마련된 신호에 음성 또는 음악이 존재할 가능성들에 기 설정된 가중치를 적용하여 누적한 값으로 도 3에서 SPP를 예로 들어 음성이 존재할 가능성의 이력값을 계산하는 실시예를 전술하였다.
만일 도 6에 도시된 바와 같이 묵음으로 판단되는 제1 구간(600) 후에 비-묵음으로 판단되는 제2 구간(610)이 마련되면, 묵음에 해당하는 프레임에서 비-묵음에 해당하는 프레임으로 변경될 때 순간적으로 발생할 수 있는 오차를 감소시키기 위해 묵음에서 비-묵음으로 변경되는 최초 프레임부터 소정의 프레임까지 순차적으로 SPP를 이력값에 반영하는 비중을 증가시킬 수 있다. 예를 들어, 정확도가 제일 낮을 수 있는 묵음에서 비-묵음으로 변경되는 최초 프레임에 가장 낮은 비중을 두고 그 다음 프레임부터 비중을 점점 높여가다가 소정 프레임부터 SPP를 이력값에 모두 반영되도록 할 수 있다.
제505단계 후에, 이전 마지막 프레임에 마련된 신호를 부호화한 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정한다(제510단계).
제510단계 후에, 현재 프레임에 해당하는 신호에 대응하는 음성 또는 음악이 존재할 가능성의 이력값으로 기 설정된 값을 할당한다(제515단계). 도 3의 실시예 를 이용하여 설명하면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제1 모드이면 제1 모드의 이력값에 'x'를 할당하고 제0 모드의 이력값에 'y'를 할당하며, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드이면 제1 모드의 이력값에 'v'를 할당하고 제0 모드의 이력값에 'w'를 할당할 수 있다. 여기서, 'x', 'y', 'v' 및 'w'는 기 설정된 값이다.
제500단계에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 추출한다(제520단계). 제520단계에서 추출하는 정보 또는 파라미터의 예로 단구간 특성과 장구간 특성이 있다.
제520단계에서 추출된 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정한다(제525단계). 여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.
제525단계 후에, 이전 프레임에 마련된 신호를 부호화했던 방식, 소정 개수의 과거 프레임(들)에 마련된 신호 및 현재 프레임에 마련된 신호에 음성 또는 음 악이 존재할 가능성 가운데 적어도 하나 이상을 이용하여 제525단계에서 결정된 방식을 변경해야 하는지 여부를 판단한다(제530단계). 소정 개수의 과거 프레임(들)에 마련된 신호 또는 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 예로 전술한 음성 또는 음악이 존재할 가능성의 이력값이 있다. 제530단계를 상세하게 설명하는 실시예는 도 3의 실시예를 설명하면서 전술하였다.
제525단계에서 결정된 방식을 제530단계에서 변경해야 하는 것으로 판단되면, 제525단계에서 결정된 방식을 변경한다(제535단계).
제515단계 또는 제535단계 후에, 현재 프레임이 마지막 프레임인지 여부를 판단한다(제540단계).
제540단계에서 현재 프레임이 마지막 프레임이 아니라고 판단되면, 다음 프레임을 입력받고(제545단계), 다음 프레임에 대하여 제500단계 내지 제540단계를 반복하여 수행한다.
도 7은 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 부호화 방식 결정 장치는 묵음 판단부(700), 저장부(710), 리셋부(720) 및 부호화 방식 결정부(730)를 포함하여 이루어진다.
묵음 판단부(700)는 입력단자 IN을 통해 입력받은 현재 프레임에 마련된 신호가 묵음(slience)에 해당하는지 여부를 판단한다. 묵음 판단부(700)에서 묵음에 해당하는지 여부는 소정의 프레임에 마련된 신호의 에너지 또는 특성을 기준으로 판단한다. 예를 들어, 묵음 판단부(700)에서는 소정 프레임에 마련된 신호의 에너지가 기 설정된 임계값 보다 작으면 묵음에 해당하는 것을 판단할 수 있다.
저장부(710)는 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장한다. 또한, 저장부(710)는 소정 개수의 과거 프레임(들)에 마련된 신호(들)이 부호화된 방식을 저장한다.
리셋부(720)는 묵음 판단부(700)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 저장부(710)에 저장된 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 리셋(reset)한다.
리셋부(720)에서 리셋하는 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)는 장구간 특성에 대한 정보(들)일 수 있다. 리셋부(720)에서는 장구간 특성 가운데 기 설정된 개수에 해당하는 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값 또는 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 이력을 리셋할 수 있다.
여기서, 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 예를 들어, 장구간 특성에는 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. 그리고 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들) 및 파라미터(들)로 이루어진 군으로부터 선 택되는 하나 이상으로 구성할 수 있다.
부호화 방식 결정부(730)는 묵음 판단부(700)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 이전의 마지막 프레임에 마련된 신호를 부호화했던 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정하고, 부호화 방식 결정부(730)에서 결정된 방식을 출력단자 OUT을 통해 출력한다.
반면에, 부호화 방식 결정부(730)는 묵음 판단부(700)에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 추출하고, 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)와 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임을 부호화할 방식을 결정하고, 부호화 방식 결정부(730)에서 결정된 방식을 출력단자 OUT을 통해 출력한다. 부호화 방식 결정부(730)에서 추출하는 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터의 예로 전술한 단구간 특성과 장구간 특성이 있다. 그리고 부호화 방식 결정부(730)는 이러한 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 저장부(710)에 저장한다.
여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.
도 8은 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 부호화 방식 결정 장치는 신호 분석부(800), 저장부(805), 부호화 방식 결정부(810), 변경 판단부(820) 및 방식 변경부(830)를 포함하여 이루어진다.
신호 분석부(800)는 입력단자 IN을 통해 입력된 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터(parameter)를 추출한다. 신호 분석부(800)에서 추출하는 정보 또는 파라미터의 예로 단구간 특성과 장구간 특성이 있다. 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성될 수 있다. 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 예를 들어, 장구간 특성에는 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다.
이 가운데 음성이 존재할 가능성인 SPP(speech presence possibility)는 전술한 수학식 1을 이용하여 구할 수 있다. 이하에서는 SPP를 중심으로 설명하지만 SPP에 한정하여 실시해야 하는 것은 아니다.
또한, 음성 또는 음악이 존재할 가능성의 이력값은 소정 개수의 프레임들에 마련된 신호에 음성 또는 음악이 존재할 가능성들에 기 설정된 가중치를 적용하여 누적한 값을 말한다. 도 3에서 SPP를 예로 들어 음성 또는 음악이 존재할 가능성의 이력값을 계산하는 실시예를 전술하였다.
저장부(805)는 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장한다. 또한, 저장부(805)는 소정 개수의 과거 프레임(들)에 마련된 신호(들)이 부호화된 방식을 저장한다.
부호화 방식 결정부(810)는 신호 분석부(800)에서 추출된 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정한다. 여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.
변경 판단부(820)는 이전 프레임에 마련된 신호를 부호화했던 방식, 소정 개수의 과거 프레임(들)에 마련된 신호 및 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 가운데 적어도 하나 이상을 이용하여 부호화 방식 결정 부(810)에서 결정된 방식을 변경해야 하는지 여부를 판단한다. 소정 개수의 과거 프레임(들)에 마련된 신호 또는 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 이용하여 판단하는 예로 전술한 음성 또는 음악이 존재할 가능성의 이력값이 있다. 변경 판단부(820)에서 상세하게 수행되는 실시예는 도 3의 실시예를 설명하면서 전술하였다.
방식 변경부(830)는 부호화 방식 결정부(810)에서 결정된 방식을 변경 판단부(820)에서 변경해야 하는 것으로 판단되면, 부호화 방식 결정부(810)에서 결정된 방식을 변경하고, 방식 변경부(830)에서 변경된 방식을 출력단자 OUT을 통해 출력한다.
반면에, 부호화 방식 결정부(810)는 부호화 방식 결정부(810)에서 결정된 방식을 변경 판단부(820)에서 변경하지 않아도 되는 것으로 판단되면, 부호화 방식 결정부(810)에서 결정된 방식을 출력단자 OUT을 통해 출력한다.
도 9는 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것으로서 부호화 방식 결정 장치는 묵음 판단부(900), 저장부(905), 리셋부(910), 신호 분석부(915), 부호화 방식 결정부(920), 변경 판단부(925), 방식 변경부(930) 및 스무딩부(935)를 포함하여 이루어진다.
묵음 판단부(900)는 입력단자 IN을 통해 입력받은 현재 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단한다. 묵음 판단부(900)에서 묵음에 해당하는지 여부는 소정의 프레임에 마련된 신호의 에너지 또는 특성을 기준으로 판단한다. 예를 들어, 묵음 판단부(900)에서는 소정 프레임에 마련된 신호의 에너지가 기 설 정된 임계값 보다 작으면 묵음에 해당하는 것을 판단할 수 있다.
저장부(905)는 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장한다. 또한, 저장부(905)는 소정 개수의 과거 프레임(들)에 마련된 신호(들)이 부호화된 방식을 저장한다.
리셋부(910)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 저장부(905)에 저장된 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 리셋(reset)한다.
리셋부(910)에서 리셋하는 과거 프레임(들)에 마련된 신호에 대한 정보(들)는 장구간 특성에 대한 정보(들)일 수 있다. 리셋부(910)에서는 장구간 특성 가운데 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값 및 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 이력을 리셋할 수 있다.
또한, 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 여기서, 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성할 수 있다.
예를 들어, 장구간 특성에는 소정 개수의 과거 프레임들에 마련된 신호의 단 구간 특성들에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. 이 가운데 음성이 존재할 가능성인 SPP(speech presence possibility)는 전술한 수학식 1을 이용하여 구할 수 있다. 또한, 음성 또는 음악이 존재할 가능성의 이력값은 소정 개수의 프레임들에 마련된 신호에 음성 또는 음악이 존재할 가능성들에 기 설정된 가중치를 적용하여 누적한 값으로 도 3에서 SPP를 예로 들어 음성이 존재할 가능성의 이력값을 계산하는 실시예를 전술하였다.
신호 분석부(915)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 추출한다. 신호 분석부(915)에서 추출하는 정보 또는 파라미터의 예로 단구간 특성과 장구간 특성이 있다.
다만, 신호 분석부(915)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 현재 프레임에 해당하는 신호에 대응하는 음성 또는 음악이 존재할 가능성의 이력값으로 기 설정된 값을 할당한다. 도 3의 실시예를 이용하여 설명하면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제1 모드이면 제1 모드의 이력값에 'x'를 할당하고 제0 모드의 이력값에 'y'를 할당하며, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드이면 제1 모드의 이력값에 'v'를 할당하고 제0 모드의 이력값에 'w'를 할당할 수 있다. 여기서, 'x', 'y', 'v' 및 'w'는 기 설정된 값이다.
부호화 방식 결정부(920)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 신호 분석부(915)에서 추출된 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정한다. 여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.
다만, 부호화 방식 결정부(920)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정한다.
변경 판단부(925)는 이전 프레임에 마련된 신호를 부호화했던 방식, 소정 개수의 과거 프레임(들)에 마련된 신호 및 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 가운데 적어도 하나 이상을 이용하여 부호화 방식 결정부(920)에서 결정된 방식을 변경해야 하는지 여부를 판단한다. 소정 개수의 과거 프레임(들)에 마련된 신호 또는 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 예로 전술한 음성 또는 음악이 존재할 가능성의 이력값이 있다. 변경 판단부(925)에서 수행되는 상세한 실시예는 도 3의 실시예를 설명하면서 전술하 였다.
방식 변경부(930)는 부호화 방식 결정부(920)에서 결정된 방식을 변경 판단부(925)에서 변경해야 하는 것으로 판단되면, 부호화 방식 결정부(920)에서 결정된 방식을 변경하고, 방식 변경부(930)에서 변경된 방식을 출력단자 OUT을 통해 출력한다.
그러나 부호화 방식 결정부(920)는 부호화 방식 결정부(920)에서 결정된 방식을 변경 판단부(925)에서 변경하지 않는 것으로 판단되면, 부호화 방식 결정부(920)에서 결정된 방식을 출력단자 OUT을 통해 출력한다.
스무딩부(935, smoothing unit)는 만일 도 6에 도시된 바와 같이 묵음으로 판단되는 제1 구간(600) 후에 비-묵음으로 판단되는 제2 구간(610)이 마련되면, 묵음에 해당하는 프레임에서 비-묵음에 해당하는 프레임으로 변경될 때 순간적으로 발생할 수 있는 오차를 감소시키기 위해 묵음에서 비-묵음으로 변경되는 최초 프레임부터 소정의 프레임까지 순차적으로 SPP를 이력값에 반영하는 비중을 증가시킬 수 있다. 예를 들어, 정확도가 제일 낮을 수 있는 묵음에서 비-묵음으로 변경되는 최초 프레임에 가장 낮은 비중을 두고 그 다음 프레임부터 비중을 점점 높여가다가 소정 프레임부터 SPP를 이력값에 모두 반영되도록 할 수 있다.
이러한 본 발명에 대한 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.
또한, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다.
도 1은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 2는 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 3은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예에서 SPP(speech presence possibility)로 음성이 존재할 가능성의 이력값을 계산하는 실시예를 흐름도로 도시한 것이다.
도 4은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예에서 제230단계의 실시예를 흐름도로 도시한 것이다.
도 5는 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 6은 묵음 구간과 비-묵음 구간으로 이루어진 예를 도시한 것이다.
도 7은 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 8은 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 9는 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것이다.
〈도면의 주요 부호에 대한 간단한 설명〉
900: 묵음 판단부 905: 저장부
910: 리셋부 915: 신호 분석부
920: 부호화 방식 결정부 925: 변경 판단부
930: 방식 변경부 935: 스무딩부
Claims (40)
- 적어도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하고 상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 방법에 있어서,상기 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 단계; 및상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋(reset)하는 단계를 포함하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제1항에 있어서, 상기 판단하는 단계는상기 소정 프레임에 마련된 신호의 에너지 또는 특성을 이용하여 묵음에 해당하는지 여부를 판단하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제1항에 있어서, 상기 저장된 정보 또는 파라미터는장구간 특성에 대한 정보 또는 파라미터인 것을 특징으로 하는 부호화 방식 결정 방법.
- 제1항에 있어서, 상기 저장된 정보 또는 파라미터는과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력인 것을 특징으로 하는 부호화 방식 결정 방법.
- 제1항에 있어서, 상기 저장된 정보 또는 파라미터는상기 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보 또는 파라미터인 것을 특징으로 하는 부호화 방식 결정 방법.
- 제5항에 있어서, 상기 단구간 특성은선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation)로 이루어진 군으로부터 선택되는 하나 이상인 것을 특징으로 하는 부호화 방식 결정 방법.
- 제1항에 있어서,상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 이전의 마지막 프레임에 마련된 신호를 부호화했던 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정하는 단계를 더 포함하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제1항에 있어서, 상기 부호화할 방식은주파수 도메인 및 시간 도메인 가운데 어느 하나의 도메인에서 부호화하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제1항에 있어서, 상기 부호화할 방식은음성을 부호화하는 방식 및 음악을 부호화하는 방식 가운데 어느 하나인 것을 특징으로 하는 부호화 방식 결정 방법.
- 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 단계;상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산하는 단계;과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계; 및상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 단계를 포함하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제10항에 있어서, 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계는과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력에 상기 계산된 가능성을 적용하여 누적하는 단계; 및상기 계산된 가능성이 누적된 이력을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제11항에 있어서, 상기 음성 또는 음악이 존재할 가능성(들)의 이력은각 부호화하려는 방식에 대응하여 별도로 마련하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제11항 또는 제12항에 있어서, 상기 음성 또는 음악이 존재할 가능성(들)의 이력은최소값과 최대값이 기 설정되어 있는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제13항에 있어서, 상기 음성 또는 음악이 존재할 가능성(들)의 이력은상기 최소값과 상기 최대값의 차이가 조절됨으로써 부호화하려는 방식을 변경하는 횟수 또는 부호화하려는 방식의 변경에 대한 지연을 조절하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제11항 또는 제12항에 있어서, 상기 누적된 이력을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계는상기 누적된 이력과 기 설정된 값을 비교하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제10항에 있어서, 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계는과거 프레임(들)에 마련된 신호를 부호화한 방식(들)도 고려하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제10항에 있어서,상기 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 단계; 및상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 저장하고 있던 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 리셋하는 단계를 더 포함하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제17항에 있어서, 상기 리셋하는 단계는상기 음성 또는 음악이 존재할 가능성(들)의 이력을 리셋하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제17항에 있어서,묵음을 포함하는 신호가 마련된 프레임에서 비-묵음에 해당하는 프레임으로 변경될 때 묵음에서 비-묵음으로 변경되는 최초 프레임부터 소정의 프레임까지 순차적으로 음성 또는 음악이 존재할 가능성을 음성 또는 음악이 존재할 가능성의 이력에 반영하는 단계를 더 포함하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 적어도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하는 저장부;상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 부호화 방식 결정부;소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 묵음 판단부; 및상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋하는 리셋부를 포함하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제20항에 있어서, 상기 묵음 판단부는상기 소정 프레임에 마련된 신호의 에너지 또는 특성을 이용하여 묵음에 해당하는지 여부를 판단하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제20항에 있어서, 상기 저장된 정보 또는 파라미터는장구간 특성에 대한 정보 또는 파라미터인 것을 특징으로 하는 부호화 방식 결정 장치.
- 제20항에 있어서, 상기 저장된 정보 또는 파라미터는과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력인 것을 특징으로 하는 부호화 방식 결정 장치.
- 제20항에 있어서, 상기 저장된 정보 또는 파라미터는상기 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보 또는 파라미터인 것을 특징으로 하는 부호화 방식 결정 방법.
- 제24항에 있어서, 상기 단구간 특성은선형/장기 예측 이득, 스펙트럼 틸트 및 영점 교차율 및 스펙트럼 자기 상관도로 이루어진 군으로부터 선택되는 하나 이상인 것을 특징으로 하는 부호화 방식 결정 장치.
- 제20항에 있어서, 상기 부호화 방식 결정부는상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 이전의 마지막 프레임에 마련된 신호를 부호화했던 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제20항에 있어서, 상기 부호화할 방식은주파수 도메인 및 시간 도메인 가운데 어느 하나의 도메인에서 부호화하는 것을 특징으로 하는 부호화 방식 결정 방법.
- 제20항에 있어서, 상기 부호화할 방식은음성을 부호화하는 방식 및 음악을 부호화하는 방식 가운데 어느 하나인 것을 특징으로 하는 부호화 방식 결정 방법.
- 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 부호화 방식 결정부;상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산하는 신호 분석부;과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 변경 판단부; 및상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 방식 변경부를 포함하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제29항에 있어서, 상기 변경 판단부는과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력에 상기 계산된 가능성을 적용하여 누적하고, 상기 계산된 가능성이 누적된 이력을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제30항에 있어서, 상기 음성 또는 음악이 존재할 가능성(들)의 이력은각 부호화하려는 방식에 대응하여 별도로 마련하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제30항 또는 제31항에 있어서, 상기 음성 또는 음악이 존재할 가능성(들)의 이력은최소값과 최대값이 기 설정되어 있는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제32항에 있어서, 상기 음성 또는 음악이 존재할 가능성(들)의 이력은상기 최소값과 상기 최대값의 차이가 조절됨으로써 부호화하려는 방식을 변경하는 횟수 또는 부호화하려는 방식의 변경에 대한 지연을 조절하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제30항 또는 제31항에 있어서, 상기 변경 결정부는상기 누적된 이력과 기 설정된 값을 비교하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제29항에 있어서, 상기 변경 결정부는과거 프레임(들)에 마련된 신호를 부호화한 방식(들)도 고려하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제29항에 있어서,과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하는 저장부;상기 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 묵음 판단부; 및상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋하는 리셋부를 더 포함하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제36항에 있어서, 상기 리셋부는상기 음성 또는 음악이 존재할 가능성(들)의 이력을 리셋하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 제36항에 있어서,묵음을 포함하는 신호가 마련된 프레임에서 비-묵음에 해당하는 프레임으로 변경될 때 묵음에서 비-묵음으로 변경되는 최초 프레임부터 소정의 프레임까지 순차적으로 음성 또는 음악이 존재할 가능성을 음성 또는 음악이 존재할 가능성의 이력에 반영하는 스무딩부를 더 포함하는 것을 특징으로 하는 부호화 방식 결정 장치.
- 적어도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하고 상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 방법에 있어서,상기 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 단계; 및상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋하는 단계를 포함한 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
- 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 단계;상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산 하는 단계;과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계; 및상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 단계를 포함한 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
Priority Applications (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080066737A KR20100006492A (ko) | 2008-07-09 | 2008-07-09 | 부호화 방식 결정 방법 및 장치 |
JP2011517354A JP5844639B2 (ja) | 2008-07-09 | 2009-07-09 | 符号化方式の決定方法及び装置 |
CN201510902784.1A CN105355208B (zh) | 2008-07-09 | 2009-07-09 | 编码方案确定的方法和设备 |
EP09794660A EP2326090A4 (en) | 2008-07-09 | 2009-07-09 | PROCESS AND DEVICE FOR CODING TEMPERING |
CN2009801351407A CN102150200A (zh) | 2008-07-09 | 2009-07-09 | 编码方案确定的方法和设备 |
EP18161810.9A EP3352457A1 (en) | 2008-07-09 | 2009-07-09 | Method and apparatus for coding scheme determination |
PCT/KR2009/003777 WO2010005254A2 (ko) | 2008-07-09 | 2009-07-09 | 부호화 방식 결정 방법 및 장치 |
US12/458,385 US20100017202A1 (en) | 2008-07-09 | 2009-07-09 | Method and apparatus for determining coding mode |
JP2014205254A JP6258835B2 (ja) | 2008-07-09 | 2014-10-03 | 符号化方式の決定方法及び装置 |
US15/629,375 US9847090B2 (en) | 2008-07-09 | 2017-06-21 | Method and apparatus for determining coding mode |
JP2017152050A JP6587659B2 (ja) | 2008-07-09 | 2017-08-04 | 符号化方式の決定方法及び装置 |
US15/822,392 US10360921B2 (en) | 2008-07-09 | 2017-11-27 | Method and apparatus for determining coding mode |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080066737A KR20100006492A (ko) | 2008-07-09 | 2008-07-09 | 부호화 방식 결정 방법 및 장치 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150060729A Division KR20150053891A (ko) | 2015-04-29 | 2015-04-29 | 부호화 방식 결정 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20100006492A true KR20100006492A (ko) | 2010-01-19 |
Family
ID=41507590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080066737A KR20100006492A (ko) | 2008-07-09 | 2008-07-09 | 부호화 방식 결정 방법 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (3) | US20100017202A1 (ko) |
EP (2) | EP2326090A4 (ko) |
JP (3) | JP5844639B2 (ko) |
KR (1) | KR20100006492A (ko) |
CN (2) | CN105355208B (ko) |
WO (1) | WO2010005254A2 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9847090B2 (en) | 2008-07-09 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for determining coding mode |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2198426A4 (en) * | 2007-10-15 | 2012-01-18 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING A SIGNAL |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
CN103035248B (zh) * | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
JP6342828B2 (ja) * | 2015-02-25 | 2018-06-13 | 富士フイルム株式会社 | 投写用光学系および投写型表示装置 |
CN106571150B (zh) * | 2015-10-12 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 一种识别音乐中的人声的方法和系统 |
US10504539B2 (en) * | 2017-12-05 | 2019-12-10 | Synaptics Incorporated | Voice activity detection systems and methods |
CN109273017B (zh) * | 2018-08-14 | 2022-06-21 | Oppo广东移动通信有限公司 | 编码控制方法、装置以及电子设备 |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11317098B2 (en) * | 2018-12-07 | 2022-04-26 | Intel Corporation | System and method for rendered scene change detection with remotely hosted graphics applications |
JP2020115206A (ja) | 2019-01-07 | 2020-07-30 | シナプティクス インコーポレイテッド | システム及び方法 |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US11823707B2 (en) | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
Family Cites Families (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4375083A (en) * | 1980-01-31 | 1983-02-22 | Bell Telephone Laboratories, Incorporated | Signal sequence editing method and apparatus with automatic time fitting of edited segments |
US4388495A (en) * | 1981-05-01 | 1983-06-14 | Interstate Electronics Corporation | Speech recognition microcomputer |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
JPS58140798A (ja) * | 1982-02-15 | 1983-08-20 | 株式会社日立製作所 | 音声ピツチ抽出方法 |
US4561102A (en) * | 1982-09-20 | 1985-12-24 | At&T Bell Laboratories | Pitch detector for speech analysis |
JPS61184599A (ja) * | 1985-02-12 | 1986-08-18 | 日本電信電話株式会社 | コ−デツク制御方式 |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US5007093A (en) * | 1987-04-03 | 1991-04-09 | At&T Bell Laboratories | Adaptive threshold voiced detector |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
JPH0398318A (ja) * | 1989-09-11 | 1991-04-23 | Fujitsu Ltd | 音声符号化方式 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
US5546395A (en) * | 1993-01-08 | 1996-08-13 | Multi-Tech Systems, Inc. | Dynamic selection of compression rate for a voice compression algorithm in a voice over data modem |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
SE503547C2 (sv) * | 1993-06-11 | 1996-07-01 | Ericsson Telefon Ab L M | Anordning och förfarande för döljande av förlorade ramar |
UA41913C2 (uk) * | 1993-11-30 | 2001-10-15 | Ейті Енд Ті Корп. | Спосіб шумозаглушення у системах зв'язку |
JP3484757B2 (ja) * | 1994-05-13 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び雑音区間検出方法 |
EP0723258B1 (en) * | 1995-01-17 | 2000-07-05 | Nec Corporation | Speech encoder with features extracted from current and previous frames |
SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5774849A (en) * | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
US5778335A (en) * | 1996-02-26 | 1998-07-07 | The Regents Of The University Of California | Method and apparatus for efficient multiband celp wideband speech and music coding and decoding |
US5890109A (en) * | 1996-03-28 | 1999-03-30 | Intel Corporation | Re-initializing adaptive parameters for encoding audio signals |
US5937374A (en) * | 1996-05-15 | 1999-08-10 | Advanced Micro Devices, Inc. | System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
JP2856185B2 (ja) * | 1997-01-21 | 1999-02-10 | 日本電気株式会社 | 音声符号化復号化システム |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
FR2762464B1 (fr) * | 1997-04-16 | 1999-06-25 | France Telecom | Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere" |
JP3211762B2 (ja) * | 1997-12-12 | 2001-09-25 | 日本電気株式会社 | 音声及び音楽符号化方式 |
US6337947B1 (en) * | 1998-03-24 | 2002-01-08 | Ati Technologies, Inc. | Method and apparatus for customized editing of video and/or audio signals |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
MY141074A (en) * | 1998-11-24 | 2010-03-15 | Ericsson Telefon Ab L M | Efficient in-band signaling for discontinuous transmission and configuration changes in adaptive multi-rate communications systems |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6631352B1 (en) * | 1999-01-08 | 2003-10-07 | Matushita Electric Industrial Co. Ltd. | Decoding circuit and reproduction apparatus which mutes audio after header parameter changes |
WO2000060579A1 (en) * | 1999-04-05 | 2000-10-12 | Hughes Electronics Corporation | A frequency domain interpolative speech codec system |
JP4464488B2 (ja) * | 1999-06-30 | 2010-05-19 | パナソニック株式会社 | 音声復号化装置及び符号誤り補償方法、音声復号化方法 |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
AU7486200A (en) * | 1999-09-22 | 2001-04-24 | Conexant Systems, Inc. | Multimode speech encoder |
CN1187735C (zh) * | 2000-01-11 | 2005-02-02 | 松下电器产业株式会社 | 多模式话音编码装置和解码装置 |
JP3734696B2 (ja) * | 2000-09-25 | 2006-01-11 | 松下電器産業株式会社 | 無音圧縮音声符号化復号化装置 |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US6614370B2 (en) * | 2001-01-26 | 2003-09-02 | Oded Gottesman | Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation |
KR100916959B1 (ko) * | 2001-05-11 | 2009-09-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 압축된 오디오에서의 신호 전력 추정 |
US6782467B1 (en) * | 2001-06-29 | 2004-08-24 | Cypress Semiconductor Corp. | Method and apparatus for fast limited core area access and cross-port word size multiplication in synchronous multiport memories |
US6836514B2 (en) * | 2001-07-10 | 2004-12-28 | Motorola, Inc. | Method for the detection and recovery of errors in the frame overhead of digital video decoding systems |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
DE10148351B4 (de) * | 2001-09-29 | 2007-06-21 | Grundig Multimedia B.V. | Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US6647366B2 (en) * | 2001-12-28 | 2003-11-11 | Microsoft Corporation | Rate control strategies for speech and music coding |
US7158572B2 (en) * | 2002-02-14 | 2007-01-02 | Tellabs Operations, Inc. | Audio enhancement communication techniques |
GB0321093D0 (en) * | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
US7412376B2 (en) * | 2003-09-10 | 2008-08-12 | Microsoft Corporation | System and method for real-time detection and preservation of speech onset in a signal |
GB0326262D0 (en) * | 2003-11-11 | 2003-12-17 | Nokia Corp | Speech codecs |
FI118835B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
GB0408856D0 (en) | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
KR20070009644A (ko) * | 2004-04-27 | 2007-01-18 | 마츠시타 덴끼 산교 가부시키가이샤 | 스케일러블 부호화 장치, 스케일러블 복호화 장치 및 그방법 |
US8315865B2 (en) * | 2004-05-04 | 2012-11-20 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adaptive conversation detection employing minimal computation |
US7596486B2 (en) | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
KR100800873B1 (ko) * | 2005-10-28 | 2008-02-04 | 삼성전자주식회사 | 음성 신호 검출 시스템 및 방법 |
WO2007105586A1 (ja) * | 2006-03-10 | 2007-09-20 | Matsushita Electric Industrial Co., Ltd. | 符号化装置および符号化方法 |
US20080077410A1 (en) * | 2006-09-26 | 2008-03-27 | Nokia Corporation | System and method for providing redundancy management |
EP2458588A3 (en) * | 2006-10-10 | 2012-07-04 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
US8209187B2 (en) * | 2006-12-05 | 2012-06-26 | Nokia Corporation | Speech coding arrangement for communication networks |
KR101279857B1 (ko) * | 2006-12-12 | 2013-06-28 | 삼성전자주식회사 | 적응적 멀티 레이트 코덱 모드 디코딩 방법 및 장치 |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US8032359B2 (en) * | 2007-02-14 | 2011-10-04 | Mindspeed Technologies, Inc. | Embedded silence and background noise compression |
EP2198426A4 (en) * | 2007-10-15 | 2012-01-18 | Lg Electronics Inc | METHOD AND DEVICE FOR PROCESSING A SIGNAL |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
KR101797033B1 (ko) * | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
US9886963B2 (en) * | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
-
2008
- 2008-07-09 KR KR1020080066737A patent/KR20100006492A/ko active IP Right Grant
-
2009
- 2009-07-09 JP JP2011517354A patent/JP5844639B2/ja active Active
- 2009-07-09 CN CN201510902784.1A patent/CN105355208B/zh active Active
- 2009-07-09 US US12/458,385 patent/US20100017202A1/en not_active Abandoned
- 2009-07-09 EP EP09794660A patent/EP2326090A4/en not_active Ceased
- 2009-07-09 WO PCT/KR2009/003777 patent/WO2010005254A2/ko active Application Filing
- 2009-07-09 CN CN2009801351407A patent/CN102150200A/zh active Pending
- 2009-07-09 EP EP18161810.9A patent/EP3352457A1/en active Pending
-
2014
- 2014-10-03 JP JP2014205254A patent/JP6258835B2/ja active Active
-
2017
- 2017-06-21 US US15/629,375 patent/US9847090B2/en active Active
- 2017-08-04 JP JP2017152050A patent/JP6587659B2/ja active Active
- 2017-11-27 US US15/822,392 patent/US10360921B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9847090B2 (en) | 2008-07-09 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for determining coding mode |
US10360921B2 (en) | 2008-07-09 | 2019-07-23 | Samsung Electronics Co., Ltd. | Method and apparatus for determining coding mode |
Also Published As
Publication number | Publication date |
---|---|
JP2015026083A (ja) | 2015-02-05 |
EP2326090A2 (en) | 2011-05-25 |
US20100017202A1 (en) | 2010-01-21 |
JP6587659B2 (ja) | 2019-10-09 |
JP6258835B2 (ja) | 2018-01-10 |
WO2010005254A3 (ko) | 2010-03-11 |
US20170287497A1 (en) | 2017-10-05 |
US9847090B2 (en) | 2017-12-19 |
US10360921B2 (en) | 2019-07-23 |
CN105355208A (zh) | 2016-02-24 |
CN105355208B (zh) | 2021-01-15 |
JP2011527762A (ja) | 2011-11-04 |
EP2326090A4 (en) | 2011-11-23 |
CN102150200A (zh) | 2011-08-10 |
US20180075857A1 (en) | 2018-03-15 |
JP5844639B2 (ja) | 2016-01-20 |
EP3352457A1 (en) | 2018-07-25 |
JP2017211666A (ja) | 2017-11-30 |
WO2010005254A2 (ko) | 2010-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20100006492A (ko) | 부호화 방식 결정 방법 및 장치 | |
KR100647336B1 (ko) | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 | |
KR100964402B1 (ko) | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 | |
CN101322182B (zh) | 用于检测音调分量的系统、方法和设备 | |
KR101116363B1 (ko) | 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치 | |
TWI533288B (zh) | 音訊編碼器、音訊解碼器、用以提供編碼及解碼音訊資訊之方法、電腦程式及使用信號適應性頻寬擴展之編碼表示技術 | |
US8589173B2 (en) | Method and apparatus for encoding/decoding speech signal using coding mode | |
KR20080103113A (ko) | 신호 인코딩 | |
JP2009545779A (ja) | 信号変化検出のためのシステム、方法、および装置 | |
CN103210443A (zh) | 用于高频带宽扩展的对信号进行编码和解码的设备和方法 | |
WO2001052241A1 (en) | Multi-mode voice encoding device and decoding device | |
KR102446441B1 (ko) | 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치 | |
KR100804888B1 (ko) | 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식선택 패턴을 사용하는 예측 음성 코더 | |
TWI467979B (zh) | 用於信號改變偵測之系統、方法及裝置 | |
EP1159739B1 (en) | Method and apparatus for eighth-rate random number generation for speech coders | |
KR101728047B1 (ko) | 부호화 방식 결정 방법 및 장치 | |
KR20170044623A (ko) | 부호화 방식 결정 방법 및 장치 | |
KR20150053891A (ko) | 부호화 방식 결정 방법 및 장치 | |
KR20100006490A (ko) | 부호화 방식 결정 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
J201 | Request for trial against refusal decision | ||
A107 | Divisional application of patent | ||
AMND | Amendment | ||
B701 | Decision to grant |