KR101728047B1 - Method and apparatus for deciding encoding mode - Google Patents

Method and apparatus for deciding encoding mode Download PDF

Info

Publication number
KR101728047B1
KR101728047B1 KR1020160051807A KR20160051807A KR101728047B1 KR 101728047 B1 KR101728047 B1 KR 101728047B1 KR 1020160051807 A KR1020160051807 A KR 1020160051807A KR 20160051807 A KR20160051807 A KR 20160051807A KR 101728047 B1 KR101728047 B1 KR 101728047B1
Authority
KR
South Korea
Prior art keywords
signal provided
frame
current frame
encoding
determined
Prior art date
Application number
KR1020160051807A
Other languages
Korean (ko)
Other versions
KR20160065054A (en
Inventor
성호상
장지에
주기현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160051807A priority Critical patent/KR101728047B1/en
Publication of KR20160065054A publication Critical patent/KR20160065054A/en
Application granted granted Critical
Publication of KR101728047B1 publication Critical patent/KR101728047B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

신호를 부호화하는 방식을 결정하는 방법은 주파수 도메인 부호화방식과 시간 도메인 부호화방식을 포함하는 복수의 부호화방식 중 하나를 현재 프레임의 부호화방식으로 결정하는 단계, 적어도 상기 현재 프레임을 포함하는 복수의 프레임으로부터 얻어지는 신호특성에 근거하여, 상기 현재 프레임에 대하여 상기 결정된 부호화방식을 변경해야 하는지 여부를 결정하는 단계, 및 상기 현재 프레임에 대하여 상기 결정된 부호화방식을 변경해야 하는 것으로 결정된 경우, 상기 현재 프레임에 대하여 상기 결정된 부호화방식을 다른 부호화방식으로 변경하는 단계를 포함한다.A method for determining a coding method of a signal includes the steps of determining one of a plurality of coding methods including a frequency domain coding method and a time domain coding method as a coding method of a current frame, Determining whether the determined encoding scheme should be changed for the current frame based on the obtained signal characteristics, and if it is determined that the determined encoding scheme should be changed for the current frame, And changing the determined encoding scheme to another encoding scheme.

Figure R1020160051807
Figure R1020160051807

Description

부호화 방식 결정 방법 및 장치{Method and apparatus for deciding encoding mode}[0001] The present invention relates to a method and apparatus for deciding encoding mode,

본 발명은 오디오 신호와 음성 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것으로, 보다 상세하게는 적은 비트를 이용하여 오디오 신호와 음성 신호 모두에 대해 효율적으로 부호화하고 복호화할 수 있는 방법 및 장치에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for encoding and decoding an audio signal and an audio signal, and more particularly, to a method and apparatus for efficiently encoding and decoding both audio and voice signals using a small number of bits. will be.

입력 신호의 특성을 분석함으로써 기 설정된 복수의 신호를 부호화하는 방식들 가운데 소정의 방식을 선택하여 부호화하는 방식이 있다. 예를 들어, AAC(Advanced Audio Codec)와 같은 주파수 도메인에서 부호화하는 방식과 CELP(Code Excited Linear prediction)와 같은 시간 도메인에서 부호화하는 방식 가운데 어느 하나를 선택하여 입력 신호를 해당 방식으로 부호화한다. 만일 입력 신호가 음악으로 구성된 신호의 특성에 가까우면 주파수 도메인에서 부호화하는 방식을 선택하여 부호화하고, 만일 입력 신호가 음성으로 구성된 신호의 특성에 가까우면 시간 도메인에서 부호화하는 방식을 선택하여 부호화한다.There is a method of selecting a predetermined method among the methods of encoding a predetermined plurality of signals by analyzing characteristics of an input signal and encoding the predetermined method. For example, an input signal is coded in a corresponding manner by selecting one of a coding method in a frequency domain such as AAC (Advanced Audio Codec) and a coding method in a time domain such as CELP (Code Excited Linear Prediction). If the input signal is close to the characteristic of a signal composed of music, a method of encoding in the frequency domain is selected and encoded. If the input signal is close to the characteristic of a signal composed of speech, a method of encoding in the time domain is selected and encoded.

여기서 입력 신호를 부호화하는 방식을 선택함에 있어서, 과거 프레임들에 마련된 신호의 특성들을 저장하고, 현재 프레임에 마련된 신호의 특성뿐만 아니라 과거 프레임들에 마련된 신호의 특성들까지 고려하여 현재 프레임에 마련된 신호를 부호화하는 방식을 선택할 수 있다. 이 경우 신호를 부호화하는 방식을 변경하는 횟수와 신호를 부호화하는 방식을 변경하는데 지연되는 시간을 감소시켜야 할 필요가 있다.Here, in selecting the coding method of the input signal, the characteristics of the signals provided in the past frames are stored, and the signals provided in the current frame are considered in consideration of the characteristics of the signals provided in the past frames, Can be selected. In this case, it is necessary to reduce the delay time in changing the number of times of changing the coding method of the signal and the coding method of the signal.

본 발명이 이루고자 하는 기술적 과제는, 복수의 부호화 방식들 가운데 신호를 효율적으로 부호화하기 위한 방식을 결정하는 방법 및 장치를 제공하는 것이다.SUMMARY OF THE INVENTION The present invention provides a method and apparatus for determining a scheme for efficiently encoding a signal among a plurality of coding schemes.

상기의 과제를 이루기 위한 본 발명에 의한 부호화 방식 결정 방법은, 적어도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하고 상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 방법에 있어서, 상기 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 단계; 및 상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋(reset)하는 단계를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method of determining an encoding scheme, comprising: storing information (s) or parameter (s) for a signal provided in at least one past frame (s) A method for determining a method of encoding a signal provided in a frame, the method comprising: determining whether a signal provided in the predetermined frame corresponds to silence; And resetting the stored information (s) or parameter (s) if the signal provided in the predetermined frame corresponds to silence.

상기의 과제를 이루기 위한 본 발명에 의한 부호화 방식 결정 방법은, 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 단계; 상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산하는 단계; 과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계; 및 상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 단계를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a method of determining a coding scheme, including: determining a coding scheme of a signal provided in a predetermined frame; Calculating a possibility that voice or music exists in a signal provided in the predetermined frame; Determining a history of the likelihood (s) that voice or music may be present in the signal provided in the past frame (s) and whether the determined manner should be changed using the calculated probability; And changing the determined method if the determined method needs to be changed.

상기의 과제를 이루기 위한 본 발명에 의한 부호화 방식 결정 장치는, 적어도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하는 저장부; 상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 부호화 방식 결정부; 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 묵음 판단부; 및 상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋하는 리셋부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an encoding method determination apparatus comprising: a storage unit for storing information (s) or parameter (s) for a signal provided in at least one past frame (s); A coding method determination unit for determining a method of coding a signal provided in a predetermined frame using the stored information or parameters; A silence determination unit for determining whether a signal provided in a predetermined frame corresponds to silence; And a reset unit for resetting the stored information (s) or parameter (s) if the signal provided in the predetermined frame corresponds to silence.

상기의 과제를 이루기 위한 본 발명에 의한 부호화 방식 결정 장치는, 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 부호화 방식 결정부; 상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산하는 신호 분석부; 과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 변경 판단부; 및 상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 방식 변경부를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided an apparatus and method for determining a coding scheme, the apparatus including: a coding scheme determination unit for determining a scheme for coding a signal provided in a predetermined frame; A signal analyzer for calculating a possibility that voice or music exists in a signal provided in the predetermined frame; A change determining unit for determining a history of a possibility (s) that voice or music exists in a signal provided in a past frame (s) and whether the determined manner should be changed using the calculated possibility; And a mode changing unit for changing the determined mode if the determined mode needs to be changed.

상기의 과제를 이루기 위한 본 발명에 의한 기록 매체는, 적어도 하나 이상의 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장하고 상기 저장된 정보 또는 파라미터를 이용하여 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 방법에 있어서, 상기 소정 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단하는 단계; 및 상기 소정 프레임에 마련된 신호가 묵음에 해당하면, 상기 저장된 정보(들) 또는 파라미터(들)를 리셋하는 단계를 포함한 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있다.The recording medium according to the present invention for achieving the above object stores information (s) or parameter (s) for a signal provided in at least one past frame (s), and stores the information A method of determining a method of encoding a provided signal, the method comprising: determining whether a signal provided in the predetermined frame corresponds to silence; And resetting the stored information (s) or parameter (s) if the signal provided in the predetermined frame corresponds to silence.

상기의 과제를 이루기 위한 본 발명에 의한 기록 매체는, 소정 프레임에 마련된 신호를 부호화할 방식을 결정하는 단계; 상기 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 계산하는 단계; 과거 프레임(들)에 마련된 신호에 음성 또는 음악이 존재할 가능성(들)의 이력과 상기 계산된 가능성을 이용하여 상기 결정된 방식을 변경해야 하는지 여부를 결정하는 단계; 및 상기 결정된 방식을 변경해야 하면, 상기 결정된 방식을 변경하는 단계를 포함한 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있다.According to an aspect of the present invention, there is provided a recording medium including: a method of coding a signal provided in a predetermined frame; Calculating a possibility that voice or music exists in a signal provided in the predetermined frame; Determining a history of the likelihood (s) that voice or music may be present in the signal provided in the past frame (s) and whether the determined manner should be changed using the calculated probability; And if the determined method is to be changed, changing the determined method may be read by a computer recording a program for causing the computer to execute the invention.

신호를 부호화하는 방식을 변경하는 횟수와 신호를 부호화하는 방식을 변경하는데 지연되는 시간을 감소시킬 수 있다.It is possible to reduce the time delay in changing the number of times of changing the coding method of the signal and the method of coding the signal.

도 1은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 2는 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 3은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예에서 SPP(speech presence possibility)로 음성이 존재할 가능성의 이력값을 계산하는 실시예를 흐름도로 도시한 것이다.
도 4은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예에서 제230단계의 실시예를 흐름도로 도시한 것이다.
도 5는 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 6은 묵음 구간과 비-묵음 구간으로 이루어진 예를 도시한 것이다.
도 7은 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 8은 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 9는 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것이다.
FIG. 1 is a flowchart illustrating an encoding method determination method according to an embodiment of the present invention.
FIG. 2 is a flowchart illustrating an encoding method determination method according to an embodiment of the present invention.
FIG. 3 is a flowchart illustrating an embodiment of calculating a hysteresis value of a possibility of existence of speech in a speech presence possibility (SPP) in an embodiment of a coding scheme determination method according to the present invention.
FIG. 4 is a flowchart illustrating a method of determining a coding scheme according to an embodiment of the present invention. Referring to FIG.
FIG. 5 is a flowchart illustrating an encoding method determination method according to an embodiment of the present invention.
FIG. 6 shows an example of a silent section and a non-silent section.
FIG. 7 is a block diagram of an embodiment of an encoding method determination apparatus according to the present invention.
FIG. 8 is a block diagram of an embodiment of an encoding method determination apparatus according to the present invention.
FIG. 9 is a block diagram of an embodiment of an encoding method determination apparatus according to the present invention.

이하, 첨부된 도면들을 참조하여 본 발명에 따른 부호화 방식 결정 방법 및 장치의 실시예에 대해 상세히 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of a coding method determination method and apparatus according to the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.FIG. 1 is a flowchart illustrating an encoding method determination method according to an embodiment of the present invention.

먼저, 현재 프레임에 마련된 신호가 묵음(silence)에 해당하는지 여부를 판단한다(제100단계). 제100단계에서 묵음에 해당하는지 여부는 소정의 프레임에 마련된 신호의 에너지 또는 특성을 기준으로 판단한다. 예를 들어, 제100단계에서는 소정 프레임에 마련된 신호의 에너지가 기 설정된 임계값보다 작으면 묵음에 해당하는 것을 판단할 수 있다.First, it is determined whether the signal provided in the current frame corresponds to silence (operation 100). In step 100, it is determined based on energy or characteristics of a signal provided in a predetermined frame whether or not it corresponds to silence. For example, in step 100, if the energy of a signal provided in a predetermined frame is smaller than a predetermined threshold value, it can be determined that the signal corresponds to silence.

제100단계에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 저장하고 있던 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 리셋(reset)한다(제110단계). If it is determined in step 100 that the signal provided in the current frame corresponds to mute, among the methods of encoding a plurality of signals, the past frame (s) stored for use in determining a method of encoding a signal provided in the current frame The information (s) or parameter (s) for the provided signal is reset (operation 110).

제110단계에서 리셋하는 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)는 장구간 특성에 대한 정보(들)일 수 있다. 제110단계에서는 장구간 특성 가운데 기 설정된 개수에 해당하는 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값 또는 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 이력을 리셋할 수 있다.The information (s) or parameter (s) for the signal provided in the previous frame (s) reset in step 110 may be information (s) about the long-term feature. In operation 110, the average value of the short-term characteristics of the signals provided in the past frames corresponding to the predetermined number of the long-term features or the history of the possibility that voice or music exists in the signal provided in the predetermined frame may be reset.

여기서, 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 예를 들어, 장구간 특성에는 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. 그리고 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들) 및 파라미터(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성할 수 있다.Here, the long-term characteristic refers to information obtained by analyzing a transition of short-term characteristics of a signal provided in the past frame (s). For example, the long duration characteristic may include a mean value of short duration characteristics of signals provided in past frames corresponding to a predetermined number, a possibility that voice or music exists in a signal provided in a predetermined frame, and a history value . The short-term characteristics are inherent characteristics of each frame, and include linear / long-term prediction gain, spectrum tilt, zero crossing rate, and spectrum auto- correlation (s), and the like) and parameter (s).

제110단계 후에, 이전의 마지막 프레임에 마련된 신호를 부호화했던 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정한다(제120단계).After operation 110, in operation 120, it is determined to encode a signal provided in the current frame in a manner that the signal provided in the previous frame is encoded.

제100단계에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 추출하고, 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)와 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임을 부호화할 방식을 결정한다(제130단계). 제130단계에서 추출하는 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터의 예로 전술한 단구간 특성과 장구간 특성이 있다.If it is determined in step 100 that the signal provided in the current frame does not correspond to the silence, information on a signal provided in the current frame or parameters is extracted by analyzing characteristics of a signal provided in the current frame, In step 130, a method of encoding a current frame among the methods of encoding a plurality of signals using information (or parameters) of the current frame and information or parameters of the signal provided in the current frame. In step 130, there are the short-term feature and the long-term feature described above as examples of information or parameters on the signal provided in the current frame.

여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.As an embodiment of a method of coding a plurality of signals, there is a method of coding in the time domain and a method of coding in the frequency domain. CELP (Code Excited Linear Prediction) is an example of a coding method in the time domain, and examples of a coding method in the frequency domain include Transform Coded Excitation (TCX) and Advanced Audio Codec (AAC). In addition, there may be a method of encoding a voice and a method of encoding music in an embodiment of a method of encoding a plurality of signals.

제120단계 또는 제130단계 후에, 현재 프레임이 마지막 프레임인지 여부를 판단한다(제140단계).After operation 120 or 130, it is determined whether the current frame is the last frame (Operation 140).

제140단계에서 현재 프레임이 마지막 프레임이 아니라고 판단되면, 다음 프레임을 입력받고(제150단계), 다음 프레임에 대하여 제100단계 내지 제150단계를 반복하여 수행한다.If it is determined in step 140 that the current frame is not the last frame, the next frame is received (step 150), and steps 100 through 150 are repeated for the next frame.

도 2는 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.FIG. 2 is a flowchart illustrating an encoding method determination method according to an embodiment of the present invention.

먼저, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터(parameter)를 추출한다(제200단계). 제200단계에서 추출하는 정보 또는 파라미터의 예로 단구간 특성과 장구간 특성이 있다. 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성될 수 있다. 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 예를 들어, 장구간 특성에는 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. First, in operation 200, information on a signal provided in a current frame or a parameter is extracted by analyzing characteristics of a signal provided in the current frame. Examples of information or parameters extracted in operation 200 include short-term characteristics and long-term characteristics. The short-term characteristics are inherent characteristics of each frame, and include linear / long-term prediction gain, spectrum tilt and zero crossing rate, and spectrum auto-correlation ), And the like, as shown in FIG. The long-term characteristic refers to information obtained by analyzing the transition of the short-term characteristic of the signal provided in the past frame (s). For example, the long duration characteristic may include a mean value of short duration characteristics of signals provided in past frames corresponding to a predetermined number, a possibility that voice or music exists in a signal provided in a predetermined frame, and a history value .

이 가운데 음성이 존재할 가능성인 SPP(speech presence possibility)는 다음 기재된 수학식 1을 이용하여 구할 수 있다. 이하에서는 SPP를 중심으로 설명하지만 SPP에 한정하여 실시해야 하는 것은 아니다.The speech presence possibility (SPP), which is the probability that a speech exists, can be obtained by using the following Equation (1). Hereinafter, SPP is mainly described, but it is not limited to SPP.

<수학식 1>&Quot; (1) &quot;

SPP = SNR_W·SNR_SP + TILT_W·TILT_SP + ZC_W·ZC_SPSPP = SNR_W SNR_SP + TILT_W TILT_SP + ZC_W ZC_SP

여기서, SNR_W는 SNR_SP에 대한 가중치이고, TILT_W는 TILT_SP에 대한 가중치이며, ZC_W는 ZC_SP에 대한 가중치이고, SNR_SP는 LP-LTP 이득에 대한 장구간 특성으로 다음 기재된 수학식 2를 이용하여 구할 수 있으며, TILT_SP는 스펙트럼 틸트에 대한 장구간 특성으로 다음 기재된 수학식 3을 이용하여 구할 수 있고, ZC_SP는 영점 교차율에 대한 장구간 특성으로 다음 기재된 수학식 4를 이용하여 구할 수 있다.Here, SNR_W is a weight for SNR_SP, TILT_W is a weight for TILT_SP, ZC_W is a weight for ZC_SP, and SNR_SP is a long-term property for LP-LTP gain using Equation (2) TILT_SP can be obtained by using the following Equation 3 as the long-term characteristic for spectral tilt, and ZC_SP can be obtained by using Equation (4) described below as the long-term characteristic for the zero crossing rate.

<수학식 2>&Quot; (2) &quot;

if (SNR_VAR > SNR_THR)if (SNR_VAR > SNR_THR)

SNR_SP = a * SNR_SP + (1 - a) * SNR_VAR SNR_SP = a * SNR_SP + (1 - a) * SNR_VAR

else else

SNR_SP - = D1 SNR_SP - = D 1

여기서, SNR_VAR는 현재 프레임에 선행하는 소정 개수의 프레임에 따른 LT-LTP 이득에 대한 평균값과 현재 프레임의 LP-LTP 이득의 차분값이고, SNR_THR는 기 설정된 임계값이며, SNR_SP의 초기 값은 0이고, 'a'는 0~1의 실수로서 SNR_SP와 SNR_VAR에 대한 가중치이고, 'D1'은 β1 × (SNR_THR / LT-LTP 이득) 이며, 'β1'는 감소 정도를 나타내는 상수이다.Here, SNR_VAR is a difference value between the average value of the LT-LTP gain and the LP-LTP gain of the current frame according to a predetermined number of frames preceding the current frame, SNR_THR is a predetermined threshold value, the initial value of SNR_SP is 0 , 'a' is a real number from 0 to 1 and is a weight for SNR_SP and SNR_VAR, 'D 1 ' is β 1 × (SNR_THR / LT-LTP gain) and 'β 1 ' is a constant indicating the degree of decrease.

<수학식 3>&Quot; (3) &quot;

if (TILT_VAR > TILT_THR)if (TILT_VAR> TILT_THR)

TILT_SP = a2 * TILT_SP + (1 - a2) * TILT_VAR TILT_SP = a 2 * TILT_SP + (1 - a 2 ) * TILT_VAR

else else

TILT_SP - = D2 TILT_SP - = D 2

여기서, TILT_VAR는 현재 프레임에 선행하는 소정 개수의 프레임에 따른 스펙트럼 틸트에 대한 평균값과 현재 프레임의 스펙트럼 틸트의 차분값이고, TILT_THR는 기 설정된 임계값이며, TILT_SP의 초기 값은 0이고, 'a2'는 0~1의 실수로서 TILT_SP와 TILT_VAR에 대한 가중치이고, D2 는 β2 × (TILT_THR / SPECTRUM TILT) 이며, 'β2'는 감소 정도를 나타내는 상수이다.Here, TILT_VAR is an average value and difference value of the spectral tilt of the current frame about the spectral tilt of the frame of a predetermined number preceding the current frame, TILT_THR to the group and a set threshold, the initial value of the TILT_SP is 0, 'a 2 'Is a weight value of TILT_SP and TILT_VAR as a real number of 0 to 1, and D 2 Is β 2 × (TILT_THR / SPECTRUM TILT), and 'β 2 ' is a constant indicating the degree of reduction.

<수학식 4>&Quot; (4) &quot;

if (ZC_VAR > ZC_THR)if (ZC_VAR> ZC_THR)

ZC_SP = a3 * ZC_SP + (1 - a3) * ZC_VAR ZC_SP = a 3 * ZC_SP + ( 1 - a 3) * ZC_VAR

else else

ZC_SP - = D3 ZC_SP - = D 3

여기서, ZC_VAR는 현재 프레임에 선행하는 소정 개수의 프레임에 따른 영점 교차율에 대한 평균값과 현재 프레임의 영점 교차율의 차분값이고, ZC_THR는 기 설정된 임계값이며, ZC_SP의 초기 값은 0이고, 'a3'는 0~1의 실수로서 ZC_SP와 ZC_VAR에 대한 가중치이고, D3 는 β3 × (ZC_THR / zero-crossing rate) 이며, 'β3'는 감소 정도를 나타내는 상수이다.Here, ZC_VAR is a mean value and a zero difference value between the crossing rate of the current frame about the zero crossing rate of the frame of a predetermined number preceding the current frame, ZC_THR to the group and a set threshold, the initial value of ZC_SP is 0, 'a 3 'Is a weight for ZC_SP and ZC_VAR as a real number from 0 to 1, and D 3 Is the β 3 × (ZC_THR / zero-crossing rate), and β 3 is a constant indicating the degree of reduction.

또한, 음성 또는 음악이 존재할 가능성의 이력값은 소정 개수의 프레임들에 마련된 신호에 음성 또는 음악이 존재할 가능성들에 기 설정된 가중치를 적용하여 누적한 값을 말한다. 도 3에서 SPP를 예로 들어 음성 또는 음악이 존재할 가능성의 이력값을 계산하는 실시예를 후술하기로 한다.In addition, the hysteresis value of the possibility that voice or music exists is a cumulative value obtained by applying predetermined weights to the possibilities that voice or music exist in a signal provided in a predetermined number of frames. An example of calculating a history value of the possibility that voice or music exists using SPP as an example will be described with reference to FIG.

제200단계에서 추출된 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정한다(제210단계). 여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.In operation 210, a method of encoding a signal provided in a current frame is determined among schemes for encoding a plurality of signals using information or parameters of a signal provided in the current frame extracted in operation 200. As an embodiment of a method of coding a plurality of signals, there is a method of coding in the time domain and a method of coding in the frequency domain. CELP (Code Excited Linear Prediction) is an example of a coding method in the time domain, and examples of a coding method in the frequency domain include Transform Coded Excitation (TCX) and Advanced Audio Codec (AAC). In addition, there may be a method of encoding a voice and a method of encoding music in an embodiment of a method of encoding a plurality of signals.

제210단계 후에, 이전 프레임에 마련된 신호를 부호화했던 방식, 소정 개수의 과거 프레임(들)에 마련된 신호 및 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 가운데 적어도 하나 이상을 이용하여 제210단계에서 결정된 방식을 변경해야 하는지 여부를 판단한다(제220단계). 소정 개수의 과거 프레임(들)에 마련된 신호 또는 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 이용하여 판단하는 예로 전술한 음성 또는 음악이 존재할 가능성의 이력값이 있다. 제220단계를 상세하게 설명하는 실시예는 도 3의 실시예를 설명하면서 후술하기로 한다.After operation 210, in operation 210, at least one of a method of encoding a signal provided in a previous frame, a signal provided in a predetermined number of past frame (s), and a possibility that voice or music exists in a signal provided in the current frame, It is determined whether the determined method should be changed (operation 220). There is a hysteresis value in which there is a possibility that the above-mentioned voice or music exists, by using the possibility that voice or music exists in a signal provided in a predetermined number of past frame (s) or in a signal provided in the current frame. The embodiment that detailedly describes operation 220 will be described later while explaining the embodiment of FIG.

제210단계에서 결정된 방식을 제220단계에서 변경해야 하는 것으로 판단되면, 제210단계에서 결정된 방식을 변경한다(제230단계).If it is determined that the method determined in operation 210 is to be changed in operation 220, a mode determined in operation 210 is changed (operation 230).

제220단계에서 변경해야 하지 않는 것으로 판단되거나 제230단계 후에, 현재 프레임이 마지막 프레임인지 여부를 판단한다(제240단계).In operation 240, it is determined whether the current frame is the last frame after the operation 230 is determined not to be changed.

제240단계에서 현재 프레임이 마지막 프레임이 아니라고 판단되면, 다음 프레임을 입력받고(제250단계), 다음 프레임에 대하여 제200단계 내지 제240단계를 반복하여 수행한다.If it is determined in step 240 that the current frame is not the last frame, the next frame is received (operation 250), and operations 200 through 240 are repeatedly performed on the next frame.

도 3은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예에서 SPP(speech presence possibility)로 음성이 존재할 가능성의 이력값을 계산하는 실시예를 흐름도로 도시한 것이다.FIG. 3 is a flowchart illustrating an embodiment of calculating a hysteresis value of a possibility of existence of speech in a speech presence possibility (SPP) in an embodiment of a coding scheme determination method according to the present invention.

제210단계에서 현재 프레임에 마련된 신호를 부호화할 방식으로 결정된 방식이 제0 모드인지 제1 모드인지 판단한다(제300단계). 여기서, 제0 모드는 주파수 도메인에서 부호화하는 방식 또는 음악을 부호화하는 방식이고, 제1 모드는 시간 도메인에서 부호화하는 방식 또는 음성을 부호화하는 방식이다.In operation 210, in operation 300, it is determined whether a mode determined by encoding the signal provided in the current frame is the 0th mode or the 1st mode. Here, the 0th mode is a method of encoding in the frequency domain or a method of encoding music, and the first mode is a method of encoding in the time domain or a method of encoding the speech.

만일 제210단계에서 결정된 방식이 제1 모드로 제300단계에서 판단되면, 제0 모드의 이력값을 다음 기재된 수학식 5로 계산한다(제310단계).If the mode determined in operation 210 is determined to be the first mode in operation 300, the history value of the operation mode 0 is calculated in accordance with Equation (5).

<수학식 5>Equation (5)

Mode0_Hysteresis += (y-(100-SPP)/100.*z)Mode0_Hysteresis + = (y- (100-SPP) /100.*z)

여기서, Mode0_Hysteresis는 제0 모드의 이력값이고, 'y' 및 'z'는 기 설정된 값이다.Here, Mode0_Hysteresis is the history value of the 0th mode, and 'y' and 'z' are preset values.

제310단계 후에, 제1 모드의 이력값을 다음 기재된 수학식 6으로 계산한다(제320단계).After step 310, the history value of the first mode is calculated by the following equation (6) (step 320).

<수학식 6>&Quot; (6) &quot;

Mode1_Hysteresis += (x * (SPP/100))Mode1_Hysteresis + = (x * (SPP / 100))

여기서, Mode1_Hysteresis는 제1 모드의 이력값이고, 'x'는 기 설정된 값이다.Here, Mode1_Hysteresis is a history value of the first mode, and 'x' is a preset value.

만일 제210단계에서 결정된 모드가 제0 모드로 제300단계에서 판단되면, 제0 모드의 이력값을 다음 기재된 수학식 7로 계산한다(제330단계).If the mode determined in operation 210 is determined to be the 0th mode in operation 300, the history value of the 0 &lt; th &gt; mode is calculated according to expression (7) described below (operation 330).

<수학식 7>&Quot; (7) &quot;

Mode0_Hysteresis += (w * ((100-SPP)/100))Mode0_Hysteresis + = (w * ((100-SPP) / 100))

여기서, Mode0_Hysteresis는 제0 모드의 이력값이고, 'w'는 기 설정된 값이다.Here, Mode0_Hysteresis is a history value of the 0th mode, and 'w' is a preset value.

제330단계 후에, 제1 모드의 이력값을 다음 기재된 수학식 7로 계산한다(제340단계).After operation 330, the history value of the first mode is calculated by the following expression (7) (operation 340).

<수학식 8>&Quot; (8) &quot;

Mode1_Hysteresis += (u + ((SPP/100)*v))Mode1_Hysteresis + = (u + ((SPP / 100) * v))

여기서, Mode1_Hysteresis는 제1 모드의 이력값이고, 'u' 및 'v'는 기 설정된 값이다.Here, Mode1_Hysteresis is the history value of the first mode, and 'u' and 'v' are preset values.

그러나 음성 또는 음악이 존재할 가능성의 이력값에 대한 최소값과 최대값을 기 설정할 수 있다. 예를 들어, 이력값의 최소값을 '0'으로 설정하고 이력값의 최대값을 '1'로 설정할 수 있다. 만일 최소값과 최대값의 차이를 좁게 설정함으로써 이력값의 변동 범위를 좁히면 신호를 부호화하는 방식이 변경되는 횟수를 증가시키고 신호를 부호화하는 방식을 변경하기 위한 지연을 보다 감소시킬 수 있으며, 만일 최소값과 최대값의 차이를 넓게 설정함으로써 이력값의 변동 범위를 넓히면 신호를 부호화하는 방식이 변경되는 횟수가 감소하고 신호를 부호화하는 방식을 변경하기 위한 지연을 보다 연장시킬 수 있다. 그러므로 신호를 부호화하는 환경 또는 신호의 특성에 따라 이력값에 대한 최대값과 최소값을 조절하여 기 설정할 수 있다.However, it is possible to set the minimum value and the maximum value for the history value of the possibility that voice or music exists. For example, the minimum value of the history value may be set to '0' and the maximum value of the history value may be set to '1'. If the variation range of the hysteresis value is narrowed by narrowly setting the difference between the minimum value and the maximum value, it is possible to increase the number of times of changing the coding method of the signal and further reduce the delay for changing the coding method of the signal, And the maximum value is widened, the number of times of changing the coding method of the signal is reduced and the delay for changing the coding method of the signal can be further extended by widening the variation range of the hysteresis value. Therefore, the maximum value and the minimum value of the hysteresis value can be adjusted according to the environment for encoding the signal or the characteristics of the signal.

도 4은 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예에서 제230단계의 실시예를 흐름도로 도시한 것이다.FIG. 4 is a flowchart illustrating a method of determining a coding scheme according to an embodiment of the present invention. Referring to FIG.

먼저, 제210단계에서 현재 프레임에 마련된 신호를 부호화할 방식으로 결정된 방식이 제0 모드인지 제1 모드인지 판단한다(제400단계). 여기서, 제0 모드는 주파수 도메인에서 부호화하는 방식 또는 음악을 부호화하는 방식이고, 제1 모드는 시간 도메인에서 부호화하는 방식 또는 음성을 부호화하는 방식이다.First, in operation 210, it is determined whether a mode determined by encoding the signal provided in the current frame is the 0th mode or the 1 &lt; st &gt; mode. Here, the 0th mode is a method of encoding in the frequency domain or a method of encoding music, and the first mode is a method of encoding in the time domain or a method of encoding the speech.

만일 제210단계에서 결정된 방식이 제1 모드로 제400단계에서 판단되면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드인지 제1 모드인지 판단한다(제410단계).If the mode determined in operation 210 is determined to be the first mode in operation 400, it is determined in operation 410 whether the encoding scheme of the signal provided in the previous frame is the 0th mode or the 1 &lt; st &gt;

만일 제410단계에서 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드로 판단되면, 제0 모드의 이력값이 '0'보다 큰지 여부를 판단한다(제420단계).If it is determined in operation 410 that the signal encoded in the previous frame is encoded in the 0 &lt; th &gt; mode, it is determined in operation 420 whether the history value of the 0 &lt; th &gt;

만일 제420단계에서 제0 모드의 이력값이 '0'보다 크다고 판단되면, 현재 프레임에 마련된 신호를 부호화할 방식을 제210단계에서 결정된 제1 모드로부터 제0 모드로 변경한다(제230단계).If it is determined in operation 420 that the history value of the 0th mode is larger than 0, the method of encoding the signal provided in the current frame is changed from the first mode determined in operation 210 to the 0 mode (operation 230) .

만일 제410단계에서 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제1 모드로 판단되거나 제420단계에서 제0 모드의 이력값이 '0'이라고 판단되면, 제210단계에서 결정된 현재 프레임에 마련된 신호를 부호화할 방식을 변경하지 않는다. 여기서, 제0 모드의 이력값이 '0'일 경우는 제0 모드의 이력값이 기 설정된 최소값에 해당하는 경우 또는 이전 마지막 프레임에 마련된 신호가 묵음이어서 리셋된 경우일 수 있다.If it is determined in operation 410 that the signal encoded in the previous frame is encoded in the first mode or if the history value in the 0th mode is '0' in operation 420, Does not change the manner of encoding. Here, when the history value of the 0th mode is '0', it may be a case where the history value of the 0th mode corresponds to a predetermined minimum value, or a case where the signal provided in the previous last frame is reset due to silence.

만일 제210단계에서 결정된 방식이 제0 모드로 제400단계에서 판단되면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드인지 제1 모드인지 판단한다(제430단계).If the mode determined in operation 210 is determined to be the 0th mode in operation 400, it is determined whether a mode in which the signal provided in the previous last frame is encoded is the 0th mode or the 1 &lt; st &gt;

만일 제410단계에서 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제1 모드로 판단되면, 제1 모드의 이력값이 '0'보다 큰지 여부를 판단한다(제440단계).If it is determined in operation 410 that the signal encoded in the previous frame is encoded in the first mode, it is determined in operation 440 whether the history value of the first mode is greater than '0'.

만일 제440단계에서 제1 모드의 이력값이 '0'보다 크다고 판단되면, 현재 프레임에 마련된 신호를 부호화할 방식을 제210단계에서 결정된 제0 모드로부터 제1 모드로 변경한다(제230단계).If it is determined in step 440 that the history value of the first mode is greater than '0', the method of encoding the signal provided in the current frame is changed from the 0th mode determined in operation 210 to the first mode (operation 230) .

만일 제430단계에서 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드로 판단되거나 제440단계에서 제1 모드의 이력값이 '0'이라고 판단되면, 제210단계에서 결정된 현재 프레임에 마련된 신호를 부호화할 방식을 변경하지 않는다. 여기서, 제1 모드의 이력값이 '0'일 경우는 제1 모드의 이력값이 기 설정된 최소값에 해당하는 경우 또는 이전 마지막 프레임에 마련된 신호가 묵음이어서 리셋된 경우일 수 있다.If it is determined in operation 430 that the signal encoded in the previous last frame is encoded in the 0th mode or if the history value in the first mode is '0' in operation 440, Does not change the manner of encoding. Here, when the history value of the first mode is '0', it may be a case where the history value of the first mode corresponds to a predetermined minimum value or a signal provided in the previous last frame is reset after being silent.

도 5는 본 발명에 의한 부호화 방식 결정 방법에 대한 일 실시예를 흐름도로 도시한 것이다.FIG. 5 is a flowchart illustrating an encoding method determination method according to an embodiment of the present invention.

먼저, 현재 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단한다(제500단계). 제500단계에서 묵음에 해당하는지 여부는 소정의 프레임에 마련된 신호의 에너지 또는 특성을 기준으로 판단한다. 예를 들어, 제500단계에서는 소정 프레임에 마련된 신호의 에너지가 기 설정된 임계값 보다 작으면 묵음에 해당하는 것을 판단할 수 있다.First, it is determined whether the signal provided in the current frame corresponds to silence (operation 500). In step 500, it is determined based on energy or characteristics of a signal provided in a predetermined frame whether or not it corresponds to silence. For example, in operation 500, if the energy of a signal provided in a predetermined frame is smaller than a predetermined threshold value, it can be determined that the signal corresponds to silence.

제500단계에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 저장하고 있던 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 리셋(reset)한다(제505단계). If it is determined in operation 500 that the signal included in the current frame corresponds to the silence, among the methods of encoding the plurality of signals, in the past frame (s) stored for use in determining a method of encoding a signal provided in the current frame (S) or parameter (s) for the provided signal (step 505).

제505단계에서 리셋하는 과거 프레임(들)에 마련된 신호에 대한 정보(들)는 장구간 특성에 대한 정보(들)일 수 있다. 제505단계에서는 장구간 특성 가운데 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값 및 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 이력을 리셋할 수 있다.The information (s) for the signal provided in the previous frame (s) to be reset in operation 505 may be information (s) about the long-term feature. In operation 505, the average value of the short-term characteristics of the signals provided in the past frames corresponding to the preset number of the long-term features and the history of the possibility that voice or music exist in the signal provided in the predetermined frame may be reset.

또한, 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 여기서, 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성할 수 있다.The long-term feature refers to information obtained by analyzing a transition of short-term characteristics of a signal provided in the past frame (s). Herein, the short-term characteristic is a characteristic inherent to each frame, and includes a linear / long-term prediction gain, a spectrum tilt, a zero crossing rate, and a spectrum auto- -correlation, and the like, as shown in FIG.

예를 들어, 장구간 특성에는 소정 개수의 과거 프레임들에 마련된 신호의 단구간 특성들에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. 이 가운데 음성이 존재할 가능성인 SPP(speech presence possibility)는 전술한 수학식 1을 이용하여 구할 수 있다. 또한, 음성 또는 음악이 존재할 가능성의 이력값은 소정 개수의 프레임들에 마련된 신호에 음성 또는 음악이 존재할 가능성들에 기 설정된 가중치를 적용하여 누적한 값으로 도 3에서 SPP를 예로 들어 음성이 존재할 가능성의 이력값을 계산하는 실시예를 전술하였다.For example, the long-term characteristics include an average value of short-term characteristics of a signal provided in a predetermined number of past frames, a possibility that voice or music exists in a signal provided in a predetermined frame, and a history value of the possibility that voice or music exists have. The speech presence possibility (SPP), which is the probability that a voice exists, can be obtained by using the above-mentioned Equation (1). In addition, the history value of the possibility of presence of voice or music may be a cumulative value obtained by applying predetermined weights to the possibilities that voice or music exist in a signal provided in a predetermined number of frames, An example of calculating the hysteresis value of the above-described embodiment is described above.

만일 도 6에 도시된 바와 같이 묵음으로 판단되는 제1 구간(600) 후에 비-묵음으로 판단되는 제2 구간(610)이 마련되면, 묵음에 해당하는 프레임에서 비-묵음에 해당하는 프레임으로 변경될 때 순간적으로 발생할 수 있는 오차를 감소시키기 위해 묵음에서 비-묵음으로 변경되는 최초 프레임부터 소정의 프레임까지 순차적으로 SPP를 이력값에 반영하는 비중을 증가시킬 수 있다. 예를 들어, 정확도가 제일 낮을 수 있는 묵음에서 비-묵음으로 변경되는 최초 프레임에 가장 낮은 비중을 두고 그 다음 프레임부터 비중을 점점 높여가다가 소정 프레임부터 SPP를 이력값에 모두 반영되도록 할 수 있다. If the second section 610 is determined to be non-silent after the first section 600, which is determined to be silent, as shown in FIG. 6, the frame corresponding to the silence is changed to the frame corresponding to the non- It is possible to increase the weight of reflecting the SPP to the hysteresis value sequentially from the first frame changed from silence to non-silence to a predetermined frame in order to reduce the instantaneous error. For example, the SPP can be reflected from the predetermined frame to the hysteresis value by gradually increasing the specific gravity from the next frame with the lowest weight to the first frame, which is changed from silence to non-silence, from which the accuracy is lowest.

제505단계 후에, 이전 마지막 프레임에 마련된 신호를 부호화한 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정한다(제510단계).After step S505, it is determined to encode the signal provided in the current frame in a manner that the signal provided in the previous last frame is encoded (operation 510).

제510단계 후에, 현재 프레임에 해당하는 신호에 대응하는 음성 또는 음악이 존재할 가능성의 이력값으로 기 설정된 값을 할당한다(제515단계). 도 3의 실시예를 이용하여 설명하면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제1 모드이면 제1 모드의 이력값에 'x'를 할당하고 제0 모드의 이력값에 'y'를 할당하며, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드이면 제1 모드의 이력값에 'v'를 할당하고 제0 모드의 이력값에 'w'를 할당할 수 있다. 여기서, 'x', 'y', 'v' 및 'w'는 기 설정된 값이다.In operation 515, a preset value is assigned to a history value of the possibility that voice or music corresponding to a signal corresponding to the current frame is present. 3, if 'x' is assigned to the history value of the first mode and 'y' is assigned to the history value of the 0th mode, If the mode in which the signal provided in the previous last frame is encoded is the 0th mode, 'v' may be assigned to the history value of the first mode, and 'w' may be allocated to the history value of the 0th mode. Here, 'x', 'y', 'v' and 'w' are preset values.

제500단계에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 추출한다(제520단계). 제520단계에서 추출하는 정보 또는 파라미터의 예로 단구간 특성과 장구간 특성이 있다.In operation 520, if it is determined that the signal provided in the current frame does not correspond to the silence, information on a signal provided in the current frame is extracted by analyzing characteristics of the signal provided in the current frame in operation 520. Examples of information or parameters extracted in operation 520 include short-term characteristics and long-term characteristics.

제520단계에서 추출된 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정한다(제525단계). 여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.In operation 525, a method of encoding a signal provided in a current frame is determined among schemes for encoding a plurality of signals using information or parameters of a signal provided in the current frame extracted in operation 520. As an embodiment of a method of coding a plurality of signals, there is a method of coding in the time domain and a method of coding in the frequency domain. CELP (Code Excited Linear Prediction) is an example of a coding method in the time domain, and examples of a coding method in the frequency domain include Transform Coded Excitation (TCX) and Advanced Audio Codec (AAC). In addition, there may be a method of encoding a voice and a method of encoding music in an embodiment of a method of encoding a plurality of signals.

제525단계 후에, 이전 프레임에 마련된 신호를 부호화했던 방식, 소정 개수의 과거 프레임(들)에 마련된 신호 및 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 가운데 적어도 하나 이상을 이용하여 제525단계에서 결정된 방식을 변경해야 하는지 여부를 판단한다(제530단계). 소정 개수의 과거 프레임(들)에 마련된 신호 또는 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 예로 전술한 음성 또는 음악이 존재할 가능성의 이력값이 있다. 제530단계를 상세하게 설명하는 실시예는 도 3의 실시예를 설명하면서 전술하였다.In operation 525, at least one of a method of encoding a signal provided in a previous frame, a signal provided in a predetermined number of past frame (s), and a possibility that audio or music exist in a signal provided in a current frame is used It is determined whether the determined method should be changed (operation 530). Examples of the possibility that voice or music exist in a signal provided in a predetermined number of past frame (s) or in a signal provided in the current frame include a history value of the possibility that the aforementioned voice or music exists. The embodiment describing step 530 in detail has been described above with reference to the embodiment of FIG.

제525단계에서 결정된 방식을 제530단계에서 변경해야 하는 것으로 판단되면, 제525단계에서 결정된 방식을 변경한다(제535단계).If it is determined in step 530 that the method determined in step 525 is to be changed, the method determined in step 525 is changed (step 535).

제515단계 또는 제535단계 후에, 현재 프레임이 마지막 프레임인지 여부를 판단한다(제540단계).After step 515 or step 535, it is determined whether the current frame is the last frame (operation 540).

제540단계에서 현재 프레임이 마지막 프레임이 아니라고 판단되면, 다음 프레임을 입력받고(제545단계), 다음 프레임에 대하여 제500단계 내지 제540단계를 반복하여 수행한다.If it is determined in step 540 that the current frame is not the last frame, the next frame is received (step 545), and steps 500 through 540 are repeated for the next frame.

도 7은 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 부호화 방식 결정 장치는 묵음 판단부(700), 저장부(710), 리셋부(720) 및 부호화 방식 결정부(730)를 포함하여 이루어진다.7 is a block diagram of an embodiment of the encoding method determination apparatus according to the present invention. The encoding method determination apparatus includes a silence determination unit 700, a storage unit 710, a reset unit 720, 730 &lt; / RTI &gt;

묵음 판단부(700)는 입력단자 IN을 통해 입력받은 현재 프레임에 마련된 신호가 묵음(slience)에 해당하는지 여부를 판단한다. 묵음 판단부(700)에서 묵음에 해당하는지 여부는 소정의 프레임에 마련된 신호의 에너지 또는 특성을 기준으로 판단한다. 예를 들어, 묵음 판단부(700)에서는 소정 프레임에 마련된 신호의 에너지가 기 설정된 임계값 보다 작으면 묵음에 해당하는 것을 판단할 수 있다.The silence determining unit 700 determines whether or not the signal provided to the current frame input through the input terminal IN corresponds to a silence. Whether or not the silence determination unit 700 corresponds to silence is determined based on energy or characteristics of a signal provided in a predetermined frame. For example, when the energy of a signal provided in a predetermined frame is smaller than a preset threshold value, the silence determining unit 700 can determine that the silence corresponds to the silence.

저장부(710)는 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장한다. 또한, 저장부(710)는 소정 개수의 과거 프레임(들)에 마련된 신호(들)이 부호화된 방식을 저장한다.The storage unit 710 stores information (s) or parameter (s) for a signal provided in the past frame (s) in order to use it in determining a method of encoding a signal provided in the current frame among the methods of encoding a plurality of signals . In addition, the storage unit 710 stores the manner in which the signal (s) provided in the predetermined number of past frame (s) are encoded.

리셋부(720)는 묵음 판단부(700)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 저장부(710)에 저장된 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 리셋(reset)한다. The reset unit 720 receives the information (s) or parameter (s) about the signal provided in the past frame (s) stored in the storage unit 710 when the silence determination unit 700 determines that the signal provided in the current frame corresponds to silence ). &Lt; / RTI &gt;

리셋부(720)에서 리셋하는 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)는 장구간 특성에 대한 정보(들)일 수 있다. 리셋부(720)에서는 장구간 특성 가운데 기 설정된 개수에 해당하는 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값 또는 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 이력을 리셋할 수 있다.The information (s) or parameter (s) for the signal provided in the previous frame (s) resetting in the reset unit 720 may be information (s) about the long-term feature. The reset unit 720 can reset the average value of the short-term characteristics of the signals provided in the past frames corresponding to the preset number of long-term features or the history of the possibility that voice or music exists in the signal provided in the predetermined frame.

여기서, 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 예를 들어, 장구간 특성에는 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. 그리고 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들) 및 파라미터(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성할 수 있다.Here, the long-term characteristic refers to information obtained by analyzing a transition of short-term characteristics of a signal provided in the past frame (s). For example, the long duration characteristic may include a mean value of short duration characteristics of signals provided in past frames corresponding to a predetermined number, a possibility that voice or music exists in a signal provided in a predetermined frame, and a history value . The short-term characteristics are inherent characteristics of each frame, and include linear / long-term prediction gain, spectrum tilt, zero crossing rate, and spectrum auto- correlation (s), and the like) and parameter (s).

부호화 방식 결정부(730)는 묵음 판단부(700)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 이전의 마지막 프레임에 마련된 신호를 부호화했던 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정하고, 부호화 방식 결정부(730)에서 결정된 방식을 출력단자 OUT을 통해 출력한다.When it is determined by the silence determination unit 700 that the signal provided in the current frame corresponds to mute, the encoding scheme determination unit 730 determines that the signal provided in the current frame is encoded in a manner that the signal provided in the last frame is encoded And outputs the mode determined by the encoding mode determination unit 730 through the output terminal OUT.

반면에, 부호화 방식 결정부(730)는 묵음 판단부(700)에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 추출하고, 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)와 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임을 부호화할 방식을 결정하고, 부호화 방식 결정부(730)에서 결정된 방식을 출력단자 OUT을 통해 출력한다. 부호화 방식 결정부(730)에서 추출하는 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터의 예로 전술한 단구간 특성과 장구간 특성이 있다. 그리고 부호화 방식 결정부(730)는 이러한 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 저장부(710)에 저장한다.On the other hand, when it is determined that the signal provided in the current frame does not correspond to the silence in the silence determination unit 730, the encoding scheme determination unit 730 analyzes the characteristics of the signal provided in the current frame, Among the schemes for extracting the parameters and encoding the plurality of signals by using the information (s) or parameter (s) about the signal provided in the past frame (s) and the information or parameter for the signal provided in the current frame, And outputs the method determined by the encoding method determination unit 730 through the output terminal OUT. Examples of the information or parameter of the signal provided in the current frame extracted by the coding method determination unit 730 include the short-term characteristic and the long-term characteristic described above. The coding mode determination unit 730 stores information or parameters of the signal provided in the current frame in the storage unit 710.

여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.As an embodiment of a method of coding a plurality of signals, there is a method of coding in the time domain and a method of coding in the frequency domain. CELP (Code Excited Linear Prediction) is an example of a coding method in the time domain, and examples of a coding method in the frequency domain include Transform Coded Excitation (TCX) and Advanced Audio Codec (AAC). In addition, there may be a method of encoding a voice and a method of encoding music in an embodiment of a method of encoding a plurality of signals.

도 8은 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 부호화 방식 결정 장치는 신호 분석부(800), 저장부(805), 부호화 방식 결정부(810), 변경 판단부(820) 및 방식 변경부(830)를 포함하여 이루어진다.8 is a block diagram of an embodiment of a coding method determination apparatus according to the present invention. The coding method determination apparatus includes a signal analysis unit 800, a storage unit 805, a coding method determination unit 810, A determination unit 820 and a method changing unit 830. [

신호 분석부(800)는 입력단자 IN을 통해 입력된 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터(parameter)를 추출한다. 신호 분석부(800)에서 추출하는 정보 또는 파라미터의 예로 단구간 특성과 장구간 특성이 있다. 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성될 수 있다. 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 예를 들어, 장구간 특성에는 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. The signal analyzer 800 analyzes the characteristics of a signal provided in the current frame input through the input terminal IN and extracts information or parameters about a signal provided in the current frame. Examples of information or parameters extracted by the signal analyzer 800 include short-term characteristics and long-term characteristics. The short-term characteristics are inherent characteristics of each frame, and include linear / long-term prediction gain, spectrum tilt and zero crossing rate, and spectrum auto-correlation ), And the like, as shown in FIG. The long-term characteristic refers to information obtained by analyzing the transition of the short-term characteristic of the signal provided in the past frame (s). For example, the long duration characteristic may include a mean value of short duration characteristics of signals provided in past frames corresponding to a predetermined number, a possibility that voice or music exists in a signal provided in a predetermined frame, and a history value .

이 가운데 음성이 존재할 가능성인 SPP(speech presence possibility)는 전술한 수학식 1을 이용하여 구할 수 있다. 이하에서는 SPP를 중심으로 설명하지만 SPP에 한정하여 실시해야 하는 것은 아니다.The speech presence possibility (SPP), which is the probability that a voice exists, can be obtained by using the above-mentioned Equation (1). Hereinafter, SPP is mainly described, but it is not limited to SPP.

또한, 음성 또는 음악이 존재할 가능성의 이력값은 소정 개수의 프레임들에 마련된 신호에 음성 또는 음악이 존재할 가능성들에 기 설정된 가중치를 적용하여 누적한 값을 말한다. 도 3에서 SPP를 예로 들어 음성 또는 음악이 존재할 가능성의 이력값을 계산하는 실시예를 전술하였다.In addition, the hysteresis value of the possibility that voice or music exists is a cumulative value obtained by applying predetermined weights to the possibilities that voice or music exist in a signal provided in a predetermined number of frames. In FIG. 3, an example of calculating the history value of the possibility that voice or music exists using the SPP as an example has been described.

저장부(805)는 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장한다. 또한, 저장부(805)는 소정 개수의 과거 프레임(들)에 마련된 신호(들)이 부호화된 방식을 저장한다.The storage unit 805 stores information (s) or parameter (s) about the signal provided in the past frame (s) in order to use in determining a method of encoding a signal provided in the current frame among the methods of coding a plurality of signals . In addition, the storage unit 805 stores the manner in which the signal (s) provided in the predetermined number of past frame (s) are encoded.

부호화 방식 결정부(810)는 신호 분석부(800)에서 추출된 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정한다. 여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.The encoding method determination unit 810 determines a method of encoding a signal provided in a current frame among the methods of encoding a plurality of signals using information or parameters of a signal provided in the current frame extracted by the signal analysis unit 800 do. As an embodiment of a method of coding a plurality of signals, there is a method of coding in the time domain and a method of coding in the frequency domain. CELP (Code Excited Linear Prediction) is an example of a coding method in the time domain, and examples of a coding method in the frequency domain include Transform Coded Excitation (TCX) and Advanced Audio Codec (AAC). In addition, there may be a method of encoding a voice and a method of encoding music in an embodiment of a method of encoding a plurality of signals.

변경 판단부(820)는 이전 프레임에 마련된 신호를 부호화했던 방식, 소정 개수의 과거 프레임(들)에 마련된 신호 및 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 가운데 적어도 하나 이상을 이용하여 부호화 방식 결정부(810)에서 결정된 방식을 변경해야 하는지 여부를 판단한다. 소정 개수의 과거 프레임(들)에 마련된 신호 또는 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성을 이용하여 판단하는 예로 전술한 음성 또는 음악이 존재할 가능성의 이력값이 있다. 변경 판단부(820)에서 상세하게 수행되는 실시예는 도 3의 실시예를 설명하면서 전술하였다.The change determining unit 820 determines a change of the current frame by using at least one of a method of encoding a signal provided in a previous frame, a signal provided in a predetermined number of past frame (s) The determination unit 810 determines whether or not to change the determined method. There is a hysteresis value in which there is a possibility that the above-mentioned voice or music exists, by using the possibility that voice or music exists in a signal provided in a predetermined number of past frame (s) or in a signal provided in the current frame. The embodiment performed in detail by the change determination unit 820 has been described above with reference to the embodiment of FIG.

방식 변경부(830)는 부호화 방식 결정부(810)에서 결정된 방식을 변경 판단부(820)에서 변경해야 하는 것으로 판단되면, 부호화 방식 결정부(810)에서 결정된 방식을 변경하고, 방식 변경부(830)에서 변경된 방식을 출력단자 OUT을 통해 출력한다.The mode changing unit 830 changes the mode determined by the coding mode determining unit 810 when the change determining unit 820 determines that the mode determined by the coding mode determining unit 810 should be changed by the change determining unit 820, 830) through the output terminal OUT.

반면에, 부호화 방식 결정부(810)는 부호화 방식 결정부(810)에서 결정된 방식을 변경 판단부(820)에서 변경하지 않아도 되는 것으로 판단되면, 부호화 방식 결정부(810)에서 결정된 방식을 출력단자 OUT을 통해 출력한다.On the other hand, when it is determined that the change determining unit 820 does not need to change the method determined by the encoding method determining unit 810, the encoding method determining unit 810 determines the method determined by the encoding method determining unit 810, OUT.

도 9는 본 발명에 의한 부호화 방식 결정 장치에 대한 일 실시예를 블록도로 도시한 것으로서 부호화 방식 결정 장치는 묵음 판단부(900), 저장부(905), 리셋부(910), 신호 분석부(915), 부호화 방식 결정부(920), 변경 판단부(925), 방식 변경부(930) 및 스무딩부(935)를 포함하여 이루어진다.9 is a block diagram of an embodiment of a coding method determination apparatus according to the present invention. The coding method determination apparatus includes a silence determination unit 900, a storage unit 905, a reset unit 910, a signal analysis unit A coding mode determining unit 920, a change determining unit 925, a mode changing unit 930, and a smoothing unit 935.

묵음 판단부(900)는 입력단자 IN을 통해 입력받은 현재 프레임에 마련된 신호가 묵음에 해당하는지 여부를 판단한다. 묵음 판단부(900)에서 묵음에 해당하는지 여부는 소정의 프레임에 마련된 신호의 에너지 또는 특성을 기준으로 판단한다. 예를 들어, 묵음 판단부(900)에서는 소정 프레임에 마련된 신호의 에너지가 기 설정된 임계값 보다 작으면 묵음에 해당하는 것을 판단할 수 있다.The silence determining unit 900 determines whether or not the signal provided to the current frame input through the input terminal IN corresponds to silence. Whether or not silence corresponds to silence in the silence determination unit 900 is determined based on energy or characteristics of a signal provided in a predetermined frame. For example, when the energy of a signal provided in a predetermined frame is smaller than a preset threshold value, the silence determining unit 900 can determine that the silence corresponds to the silence.

저장부(905)는 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정하는데 이용하기 위하여 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 저장한다. 또한, 저장부(905)는 소정 개수의 과거 프레임(들)에 마련된 신호(들)이 부호화된 방식을 저장한다.The storage unit 905 stores information (s) or parameter (s) for a signal provided in the past frame (s) in order to use in determining a method of encoding a signal provided in the current frame among the methods of encoding a plurality of signals . In addition, the storage unit 905 stores the manner in which the signal (s) provided in the predetermined number of past frame (s) are encoded.

리셋부(910)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 저장부(905)에 저장된 과거 프레임(들)에 마련된 신호에 대한 정보(들) 또는 파라미터(들)를 리셋(reset)한다.The reset unit 910 outputs the information (s) or parameter (s) about the signal provided in the past frame (s) stored in the storage unit 905 when the silence determination unit 900 determines that the signal provided in the current frame corresponds to silence ). &Lt; / RTI &gt;

리셋부(910)에서 리셋하는 과거 프레임(들)에 마련된 신호에 대한 정보(들)는 장구간 특성에 대한 정보(들)일 수 있다. 리셋부(910)에서는 장구간 특성 가운데 기 설정된 개수에 해당한 과거 프레임들에 마련된 신호의 단구간 특성에 대한 평균값 및 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 이력을 리셋할 수 있다.The information (s) for the signal provided in the previous frame (s) to be reset in the reset unit 910 may be information (s) about the long-term feature. The reset unit 910 may reset the average value of the short-term characteristics of the signals provided in the past frames corresponding to the preset number of long-term characteristics and the history of the possibility that voice or music exists in the signal provided in the predetermined frame.

또한, 장구간 특성은 과거 프레임(들)에 마련된 신호의 단구간 특성의 추이를 분석한 정보를 말한다. 여기서, 단구간 특성은 각 프레임이 갖는 고유의 특성으로서 선형/장기 예측 이득(Linear/Long term Prediction Gain), 스펙트럼 틸트(spectrum tilt) 및 영점 교차율(zero crossing rate) 및 스펙트럼 자기 상관도(spectrum auto-correlation) 등과 같은 정보(들)로 이루어진 군으로부터 선택되는 하나 이상으로 구성할 수 있다.The long-term feature refers to information obtained by analyzing a transition of short-term characteristics of a signal provided in the past frame (s). Herein, the short-term characteristic is a characteristic inherent to each frame, and includes a linear / long-term prediction gain, a spectrum tilt, a zero crossing rate, and a spectrum auto- -correlation, and the like, as shown in FIG.

예를 들어, 장구간 특성에는 소정 개수의 과거 프레임들에 마련된 신호의 단구간 특성들에 대한 평균값, 소정 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 및 음성 또는 음악이 존재할 가능성의 이력값 등이 있다. 이 가운데 음성이 존재할 가능성인 SPP(speech presence possibility)는 전술한 수학식 1을 이용하여 구할 수 있다. 또한, 음성 또는 음악이 존재할 가능성의 이력값은 소정 개수의 프레임들에 마련된 신호에 음성 또는 음악이 존재할 가능성들에 기 설정된 가중치를 적용하여 누적한 값으로 도 3에서 SPP를 예로 들어 음성이 존재할 가능성의 이력값을 계산하는 실시예를 전술하였다.For example, the long-term characteristics include an average value of short-term characteristics of a signal provided in a predetermined number of past frames, a possibility that voice or music exists in a signal provided in a predetermined frame, and a history value of the possibility that voice or music exists have. The speech presence possibility (SPP), which is the probability that a voice exists, can be obtained by using the above-mentioned Equation (1). In addition, the history value of the possibility of presence of voice or music may be a cumulative value obtained by applying predetermined weights to the possibilities that voice or music exist in a signal provided in a predetermined number of frames, An example of calculating the hysteresis value of the above-described embodiment is described above.

신호 분석부(915)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 현재 프레임에 마련된 신호의 특성을 분석하여 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 추출한다. 신호 분석부(915)에서 추출하는 정보 또는 파라미터의 예로 단구간 특성과 장구간 특성이 있다.The signal analyzing unit 915 analyzes the characteristics of the signal provided in the current frame and extracts information or parameters of the signal provided in the current frame if it is determined that the signal provided in the current frame does not correspond to silence in the silence determining unit 900 do. Examples of information or parameters extracted by the signal analysis unit 915 include short-term characteristics and long-term characteristics.

다만, 신호 분석부(915)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 현재 프레임에 해당하는 신호에 대응하는 음성 또는 음악이 존재할 가능성의 이력값으로 기 설정된 값을 할당한다. 도 3의 실시예를 이용하여 설명하면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제1 모드이면 제1 모드의 이력값에 'x'를 할당하고 제0 모드의 이력값에 'y'를 할당하며, 이전 마지막 프레임에 마련된 신호를 부호화한 방식이 제0 모드이면 제1 모드의 이력값에 'v'를 할당하고 제0 모드의 이력값에 'w'를 할당할 수 있다. 여기서, 'x', 'y', 'v' 및 'w'는 기 설정된 값이다.However, if it is determined by the silence determination unit 900 that the signal provided in the current frame corresponds to silence, the signal analysis unit 915 determines whether the signal corresponding to the signal corresponding to the current frame exists Assign a value. 3, if 'x' is assigned to the history value of the first mode and 'y' is assigned to the history value of the 0th mode, If the mode in which the signal provided in the previous last frame is encoded is the 0th mode, 'v' may be assigned to the history value of the first mode, and 'w' may be allocated to the history value of the 0th mode. Here, 'x', 'y', 'v' and 'w' are preset values.

부호화 방식 결정부(920)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당하지 않는다고 판단되면, 신호 분석부(915)에서 추출된 현재 프레임에 마련된 신호에 대한 정보 또는 파라미터를 이용하여 복수의 신호를 부호화하는 방식들 가운데 현재 프레임에 마련된 신호를 부호화할 방식을 결정한다. 여기서, 복수의 신호를 부호화하는 방식의 실시예로 시간 도메인에서 부호화하는 방식과 주파수 도메인에서 부호화하는 방식이 있다. 시간 도메인에서 부호화하는 방식의 예로 CELP(Code Excited Linear prediction)가 있으며, 주파수 도메인에서 부호화하는 방식의 예로 TCX(Transform Coded Excitation) 및 AAC(Advanced Audio Codec)가 있다. 또한, 복수의 신호를 부호화하는 방식의 실시예로 음성을 부호화하는 방식과 음악을 부호화하는 방식이 있을 수 있다.The encoding method determination unit 920 determines whether the signal provided in the current frame does not correspond to the silence in the silence determination unit 900. The encoding method determination unit 920 uses the information or parameters of the signal provided in the current frame extracted by the signal analysis unit 915 A method of encoding a signal provided in the current frame among the methods of encoding a plurality of signals is determined. As an embodiment of a method of coding a plurality of signals, there is a method of coding in the time domain and a method of coding in the frequency domain. CELP (Code Excited Linear Prediction) is an example of a coding method in the time domain, and examples of a coding method in the frequency domain include Transform Coded Excitation (TCX) and Advanced Audio Codec (AAC). In addition, there may be a method of encoding a voice and a method of encoding music in an embodiment of a method of encoding a plurality of signals.

다만, 부호화 방식 결정부(920)는 묵음 판단부(900)에서 현재 프레임에 마련된 신호가 묵음에 해당한다고 판단되면, 이전 마지막 프레임에 마련된 신호를 부호화한 방식으로 현재 프레임에 마련된 신호를 부호화하는 것으로 결정한다.However, when the silence determination unit 920 determines that the signal provided in the current frame corresponds to silence, the silence determination unit 920 encodes a signal provided in the current frame in such a manner that the signal provided in the previous last frame is coded .

변경 판단부(925)는 이전 프레임에 마련된 신호를 부호화했던 방식, 소정 개수의 과거 프레임(들)에 마련된 신호 및 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성 가운데 적어도 하나 이상을 이용하여 부호화 방식 결정부(920)에서 결정된 방식을 변경해야 하는지 여부를 판단한다. 소정 개수의 과거 프레임(들)에 마련된 신호 또는 현재 프레임에 마련된 신호에 음성 또는 음악이 존재할 가능성의 예로 전술한 음성 또는 음악이 존재할 가능성의 이력값이 있다. 변경 판단부(925)에서 수행되는 상세한 실시예는 도 3의 실시예를 설명하면서 전술하였다.The change judging unit 925 judges whether or not the encoding method using at least one of a method of encoding a signal provided in a previous frame, a signal provided in a predetermined number of past frame (s) The determination unit 920 determines whether or not to change the determined method. Examples of the possibility that voice or music exist in a signal provided in a predetermined number of past frame (s) or in a signal provided in the current frame include a history value of the possibility that the aforementioned voice or music exists. The detailed embodiment performed by the change determining unit 925 has been described above with reference to the embodiment of FIG.

방식 변경부(930)는 부호화 방식 결정부(920)에서 결정된 방식을 변경 판단부(925)에서 변경해야 하는 것으로 판단되면, 부호화 방식 결정부(920)에서 결정된 방식을 변경하고, 방식 변경부(930)에서 변경된 방식을 출력단자 OUT을 통해 출력한다.The mode changing unit 930 changes the mode determined by the coding mode determining unit 920 when the change determining unit 925 determines that the mode determined by the coding mode determining unit 920 should be changed by the change determining unit 925, 930) through the output terminal OUT.

그러나 부호화 방식 결정부(920)는 부호화 방식 결정부(920)에서 결정된 방식을 변경 판단부(925)에서 변경하지 않는 것으로 판단되면, 부호화 방식 결정부(920)에서 결정된 방식을 출력단자 OUT을 통해 출력한다.However, if it is determined that the mode determined by the encoding mode determination unit 920 is not changed by the change determination unit 925, the encoding mode determination unit 920 determines the mode determined by the encoding mode determination unit 920 through the output terminal OUT Output.

스무딩부(935, smoothing unit)는 만일 도 6에 도시된 바와 같이 묵음으로 판단되는 제1 구간(600) 후에 비-묵음으로 판단되는 제2 구간(610)이 마련되면, 묵음에 해당하는 프레임에서 비-묵음에 해당하는 프레임으로 변경될 때 순간적으로 발생할 수 있는 오차를 감소시키기 위해 묵음에서 비-묵음으로 변경되는 최초 프레임부터 소정의 프레임까지 순차적으로 SPP를 이력값에 반영하는 비중을 증가시킬 수 있다. 예를 들어, 정확도가 제일 낮을 수 있는 묵음에서 비-묵음으로 변경되는 최초 프레임에 가장 낮은 비중을 두고 그 다음 프레임부터 비중을 점점 높여가다가 소정 프레임부터 SPP를 이력값에 모두 반영되도록 할 수 있다.The smoothing unit 935 may be configured such that if the second section 610 is determined to be non-silent after the first section 600, which is determined to be silent, as shown in FIG. 6, In order to reduce an instantaneous error when the frame is changed to the non-silent frame, it is possible to increase the weight of reflecting the SPP to the hysteresis value sequentially from the first frame changed from silence to non-silence to a predetermined frame have. For example, the SPP can be reflected from the predetermined frame to the hysteresis value by gradually increasing the specific gravity from the next frame with the lowest weight to the first frame, which is changed from silence to non-silence, from which the accuracy is lowest.

이러한 본 발명에 대한 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, is intended to cover various modifications and equivalent arrangements included within the spirit and scope of the appended claims. . Accordingly, the true scope of the present invention should be determined by the appended claims.

또한, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다.Furthermore, the present invention can be embodied as a computer-readable code on a computer-readable recording medium (including all devices having an information processing function). A computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored. Examples of computer-readable recording devices include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like.

900: 묵음 판단부 905: 저장부
910: 리셋부 915: 신호 분석부
920: 부호화 방식 결정부 925: 변경 판단부
930: 방식 변경부 935: 스무딩부
900: silence determination unit 905: storage unit
910: Reset section 915: Signal analysis section
920: encoding method determination unit 925:
930: Method changing unit 935: Smoothing unit

Claims (3)

주파수 도메인 부호화방식과 시간 도메인 부호화방식을 포함하는 복수의 부호화방식 중 하나를 현재 프레임의 부호화방식으로 선택하는 단계;
적어도 상기 현재 프레임을 포함하는 복수의 프레임으로부터 얻어지는 신호특성에 근거하여, 상기 현재 프레임에 대하여 상기 선택된 부호화방식을 변경해야 하는지 여부를 결정하는 단계; 및,
상기 현재 프레임에 대하여 상기 선택된 부호화방식을 변경해야 하는 것으로 결정된 경우, 상기 현재 프레임에 대하여 상기 선택된 부호화방식을 다른 부호화방식으로 변경하는 단계를 포함하고,
상기 변경하는 단계는
상기 현재 프레임에 대하여 상기 선택된 부호화방식이 상기 주파수 도메인 부호화방식인 경우 상기 현재 프레임에 대하여 상기 시간 도메인 부호화방식으로 변경하고,
상기 현재 프레임에 대하여 상기 선택된 부호화방식이 상기 시간 도메인 부호화방식인 경우 상기 현재 프레임에 대하여 상기 주파수 도메인 부호화방식으로 변경하는 부호화방식 결정방법.
Selecting one of a plurality of encoding schemes including a frequency domain encoding scheme and a time domain encoding scheme as a current frame encoding scheme;
Determining whether to change the selected encoding scheme for the current frame based on signal characteristics obtained from at least a plurality of frames including the current frame; And
And changing the selected encoding scheme for the current frame to another encoding scheme if it is determined that the selected encoding scheme should be changed for the current frame,
The changing step
If the selected encoding scheme is the frequency domain encoding scheme for the current frame, changing the current frame to the time domain encoding scheme,
And changing the current frame to the frequency domain coding scheme when the selected coding scheme is the time domain coding scheme for the current frame.
제1 항에 있어서, 상기 현재 프레임에 대하여 상기 선택된 부호화방식을 변경해야 하는지 여부를 결정하는 단계는 상기 현재 프레임을 포함하는 복수의 프레임으로부터 얻어지는 신호특성을 누적한 결과와 복수의 이전 프레임의 신호 특성을 누적한 결과 중 적어도 하나에 근거하는 부호화방식 결정방법.2. The method of claim 1, wherein determining whether to change the selected encoding scheme for the current frame comprises: accumulating signal characteristics obtained from a plurality of frames including the current frame; Based on at least one of a result obtained by accumulating a plurality of quantized coefficients. 제2 항에 있어서, 상기 신호특성을 누적한 결과는 복수의 이전 프레임들에 대하여 결정된 시간 도메인 부호화방식과 관련된 이력 혹은 주파수 도메인 부호화방식과 관련된 이력을 포함하는 부호화방식 결정방법.3. The method of claim 2, wherein the result of accumulating the signal characteristics comprises a history related to a time domain coding scheme determined for a plurality of previous frames or a history associated with a frequency domain coding scheme.
KR1020160051807A 2016-04-27 2016-04-27 Method and apparatus for deciding encoding mode KR101728047B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160051807A KR101728047B1 (en) 2016-04-27 2016-04-27 Method and apparatus for deciding encoding mode

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160051807A KR101728047B1 (en) 2016-04-27 2016-04-27 Method and apparatus for deciding encoding mode

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020150060729A Division KR20150053891A (en) 2015-04-29 2015-04-29 Method and apparatus for deciding encoding mode

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020170047593A Division KR20170044623A (en) 2017-04-12 2017-04-12 Method and apparatus for deciding encoding mode

Publications (2)

Publication Number Publication Date
KR20160065054A KR20160065054A (en) 2016-06-08
KR101728047B1 true KR101728047B1 (en) 2017-04-18

Family

ID=56193890

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160051807A KR101728047B1 (en) 2016-04-27 2016-04-27 Method and apparatus for deciding encoding mode

Country Status (1)

Country Link
KR (1) KR101728047B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008045846A1 (en) 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
WO2008072913A1 (en) 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008045846A1 (en) 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
WO2008072913A1 (en) 2006-12-14 2008-06-19 Samsung Electronics Co., Ltd. Method and apparatus to determine encoding mode of audio signal and method and apparatus to encode and/or decode audio signal using the encoding mode determination method and apparatus

Also Published As

Publication number Publication date
KR20160065054A (en) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105355208B (en) Method and apparatus for coding scheme determination
US10535358B2 (en) Method and apparatus for encoding/decoding speech signal using coding mode
KR100883656B1 (en) Method and apparatus for discriminating audio signal, and method and apparatus for encoding/decoding audio signal using it
KR100964402B1 (en) Method and Apparatus for determining encoding mode of audio signal, and method and appartus for encoding/decoding audio signal using it
US7472059B2 (en) Method and apparatus for robust speech classification
CA2833874C (en) Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
CN106463134B (en) method and apparatus for quantizing linear prediction coefficients and method and apparatus for inverse quantization
CN103210443A (en) Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
KR100804888B1 (en) A predictive speech coder using coding scheme selection patterns to reduce sensitivity to frame errors
KR102446441B1 (en) Coding mode determination method and apparatus, audio encoding method and apparatus, and audio decoding method and apparatus
KR20070019863A (en) Method and apparatus for classifying speech signal, and method and apparatus using the same
CN107077857B (en) Method and apparatus for quantizing linear prediction coefficients and method and apparatus for dequantizing linear prediction coefficients
TWI467979B (en) Systems, methods, and apparatus for signal change detection
EP1159739B1 (en) Method and apparatus for eighth-rate random number generation for speech coders
EP3252758B1 (en) Encoding apparatus, decoding apparatus, and methods, programs and recording media for encoding apparatus and decoding apparatus
KR20070085788A (en) Efficient audio coding using signal properties
KR101728047B1 (en) Method and apparatus for deciding encoding mode
KR20170044623A (en) Method and apparatus for deciding encoding mode
KR20150053891A (en) Method and apparatus for deciding encoding mode

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant