KR101333162B1 - Tone and speed contorol system and method of audio signal using imdct input - Google Patents

Tone and speed contorol system and method of audio signal using imdct input Download PDF

Info

Publication number
KR101333162B1
KR101333162B1 KR1020120110337A KR20120110337A KR101333162B1 KR 101333162 B1 KR101333162 B1 KR 101333162B1 KR 1020120110337 A KR1020120110337 A KR 1020120110337A KR 20120110337 A KR20120110337 A KR 20120110337A KR 101333162 B1 KR101333162 B1 KR 101333162B1
Authority
KR
South Korea
Prior art keywords
frequency
imdct
pitch
speed
input data
Prior art date
Application number
KR1020120110337A
Other languages
Korean (ko)
Inventor
박주성
이동훈
허경철
정승표
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020120110337A priority Critical patent/KR101333162B1/en
Priority to PCT/KR2013/008905 priority patent/WO2014054918A1/en
Application granted granted Critical
Publication of KR101333162B1 publication Critical patent/KR101333162B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

The present invention relates to a device and a method of controlling the tone and speed of the audio signals using inverse modified discrete cosine transform (IMDCT) input signals. The device and the method of controlling the tone and speed of the audio signals using IMDCT input signals reduces the computational complexity and memory usage by processing input data X(k) before the input data is converted into a signal in a time domain through IMDCT when the tone and speed of the audio signals are controlled and the tone and the speed changed. The device and the method of controlling the tone and speed of the audio signals using IMDCT input signals comprise a step of determining the size of a window which determines the number of samples for extracting a frequency; a step of extracting, in the size of the selected window, a frequency (k) phase and amplitude of the input data X(k) required for an IMDCT process; a step of converting the extracted frequency, and reconstructing IMDCT input data using the converted frequency and the extracted phase and amplitude; and a step of performing IMDCT interpolation and outputting coded audio signals. [Reference numerals] (41) Window unit;(42) Frequency extracting unit;(43) Phase extracting unit;(44) Amplitude extracting unit;(45) Frequency converting unit;(46) Input data re-setting unit;(48) Synthesis filter bank;(AA) Input IMDCT X(k);(BB) Tune variation rate (R_final)

Description

IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법{Tone and Speed Contorol System and Method of Audio Signal Using IMDCT Input}Tone and Speed Contorol System and Method of Audio Signal Using IMDCT Input

본 발명은 오디오 신호의 음정 및 속도가변에 관한 것으로, 구체적으로 IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 시간영역의 신호로 변환하기 전에 IMDCT 입력 데이터 X(k)를 가공하여 음정을 변화시킬 수 있도록 하여 계산량 및 메모리의 사용을 줄일 수 있도록 한 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법에 관한 것이다.The present invention relates to the pitch and speed of an audio signal, and specifically, to transform the pitch by processing the IMDCT input data X (k) before converting the signal into a time domain through an inverse modified discrete cosine transform (IMDCT). The present invention relates to an apparatus and method for varying the pitch and speed of an audio signal using an IMDCT input signal to reduce the amount of computation and memory.

일반적으로 많은 양의 오디오 데이터를 CD, 하드디스크, 이동저장매체에 저장하거나 유무선 방식으로 전송하기 위해서 오디오 데이터를 압축한다. 오디오 데이터 압축방법에는 시간영역에서 압축하는 방식과 주파수 영역에서 압축하는 방식이 있다.In general, audio data is compressed to store a large amount of audio data on a CD, a hard disk, a mobile storage medium, or to be transmitted in a wired or wireless manner. Audio data compression methods include compression in the time domain and compression in the frequency domain.

주파수 영역에서 압축하는 방식은 압축율이 높을 뿐만 아니라 음질도 좋으므로 시간영역의 오디오 신호를 주파수영역으로 변환하여 심리음향모델과 기타의 방식을 이용하여 압축한다.The compression method in the frequency domain not only has a high compression ratio but also a good sound quality, so that the audio signal in the time domain is converted into the frequency domain and compressed using a psychoacoustic model and other methods.

MP3(MPEG 3)나 AAC(Advanced Audio Coding) 방식은 오디오 신호를 주파수 영역에서 압축하는 방식을 사용하고 있다. 사람이 오디오 신호를 청취하기 위해서는 압축된 데이터를 풀어서 압축되기 전 주파수영역의 신호로 복원하고 다시 시간영역의 신호로 변환해야 한다. MP3 (MPEG 3) and AAC (Advanced Audio Coding) methods use a method of compressing an audio signal in a frequency domain. In order for a human to listen to an audio signal, the compressed data must be decompressed, restored to a signal in the frequency domain before being compressed, and then converted into a signal in the time domain.

시간영역으로 변환된 오디오 신호를 정상속도보다 빨리 재생하면 음정(tone)이 높아지고, 느리게 재생하면 음정이 낮아진다. 따라서 음정변화 없이 정상속도보다 빠르거나 느리게 재생하기 위하여 SOLA(Synchronous Overlap and Add)와 같은 방법을 이용하여 음정을 변화시킨다. 음정이 변환된 신호를 정상속도로 재생하면 변환된 음정이 그대로 재생된다. 음정이 변환된 오디오 신호를 재생속도에 따라 음정변화 없이 재생 시키거나, 음정과 재생속도를 동시에 가변시킬 수 있다.When the audio signal converted to the time domain is played back faster than the normal speed, the tone increases, and when played slowly, the pitch decreases. Therefore, in order to reproduce faster or slower than normal speed without changing the pitch, the pitch is changed by using a method such as Synchronous Overlap and Add (SOLA). When the pitch converted signal is played back at normal speed, the converted pitch is reproduced as it is. The pitch-converted audio signal can be played without changing the pitch according to the playback speed, or the pitch and playback speed can be changed simultaneously.

종래 기술의 경우 주파수영역에서 압축된 오디오 신호의 음정이나 속도를 가변시키고자 하는 경우에는 도 1에서와 같이, 시간영역의 신호로 일단 변환시킨 후 음정이나 속도를 가변 시킨다. 이러한 과정에서 시간영역에서 음정이나 속도를 가변 시키기 때문에 추가적인 계산이 요구되고 계산과정의 데이터를 저장하기 위하여 많은 메모리가 필요하게 된다. In the prior art, when the pitch or speed of an audio signal compressed in the frequency domain is to be changed, as shown in FIG. In this process, since the pitch or velocity is changed in the time domain, additional calculation is required and a lot of memory is required to store data of the calculation process.

MP3와 AAC방식에서 시간영역의 오디오 신호를 주파수영역의 신호로 압축하는 과정은 도 2에서와 같다.In the MP3 and AAC methods, the process of compressing the audio signal in the time domain into the signal in the frequency domain is the same as in FIG.

이 방식들에서 오디오 신호는 필터 뱅크(filter bank)(21)를 통하여 여러 대역의 주파수 성분으로 분해되고, 필터 뱅크(21)에서 분해된 성분은 MDCT 블록(22)에서 MDCT(Modified Discrete Cosine Transform)을 통하여 시간영역에서 주파수영역으로 변환된다.In these schemes, the audio signal is decomposed into frequency components of various bands through a filter bank 21, and the components decomposed in the filter bank 21 are modified discrete cosine transform (MDCT) in the MDCT block 22. Through the conversion from the time domain to the frequency domain.

주파수영역으로 변환된 신호는 양자화부(23)에서 양자화(quantization)되고 코딩부(24)에서 코딩(coding)을 통하여 노이즈가 적고 손실이 적은 형태로 압축된다. 압축된 데이터는 비트스트림 엔코딩부(25)에서 사이드 정보(side information)와 함께 비트스트림(bitstream)으로 만들어져 저장되거나 전송된다.The signal converted into the frequency domain is quantized in the quantization unit 23 and compressed in a form of low noise and low loss through coding in the coding unit 24. The compressed data is bitstreamed along with side information in the bitstream encoding unit 25 and stored or transmitted.

주파수영역으로 압축된 신호를 시간영역으로 변환하는 일반적인 과정은 도 3에서와 같다.The general process of converting the signal compressed in the frequency domain to the time domain is the same as in FIG.

비트스트림 디코딩부(31)에서 부호화된 비트스트림으로부터 사이드 정보와 압축된 데이터를 분리한다.The sidestream information and the compressed data are separated from the bitstream encoded by the bitstream decoding unit 31.

사이드 정보는 복호화 방법에 대한 정보를 포함하고 있으므로 주파수 영역으로 압축된 데이터를 IMDCT 블록(32)에서 IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 시간 영역으로 변환할 수 있다.Since the side information includes information on a decoding method, the data compressed in the frequency domain may be transformed in the IMDCT block 32 into the time domain through an inverse modified discrete cosine transform (IMDCT).

MP3나 AAC 방식으로 압축된 오디오 데이터는 여러 주파수 대역으로 나누어 압축하고 복원하므로 복원된 데이터를 합성 필터 뱅크(33)를 통하여 재구성하여 시간영역의 오디오 신호로 변환된다. 종래 기술의 경우에는 도 3에서와 같은 과정을 통하여 시간영역의 신호로 완전하게 변환시킨 후 오디오 신호의 음정 변화와 속도를 변화시키는 단계를 거치게 된다.Since the audio data compressed by the MP3 or AAC method is divided into several frequency bands and compressed and decompressed, the restored data is reconstructed through the synthesis filter bank 33 to be converted into an audio signal in the time domain. In the prior art, through the process as shown in FIG. 3, the audio signal is completely converted into a signal in the time domain, and then the pitch change and speed of the audio signal are changed.

시간영역의 오디오 신호 x(n)를 MDCT과정을 거쳐 주파수 정보 X(k)로 변환시켜는 과정은 수학식 1과 같다. 수학식 1에서 w(n)은 윈도우 함수(window function)이고 수학식 2과 같이 표시되며, 수학식 1, 2에서 N은 분석하는 윈도우 크기를 의미한다. (이하 모든 수학식에서 N은 분석 윈도우의 크기를 의미한다.) 분석 윈도우 내에 있는 시간영역의 신호 x(n)에 MDCT을 하면 수학식 1과 같은 주파수 영역의 데이터 X(k)를 얻을 수 있다.The process of converting the audio signal x (n) in the time domain into the frequency information X (k) through the MDCT process is shown in Equation 1. In Equation 1, w (n) is a window function and is expressed as Equation 2, and N in Equations 1 and 2 means a window size to be analyzed. (In the following equations, N denotes the size of the analysis window.) MDCT is performed on the signal x (n) of the time domain within the analysis window to obtain the data X (k) of the frequency domain as shown in Equation (1).

주파수 영역으로 변환된 정보 X(k)를 시간 영역의 오디오 신호로 변환하는 IMDCT 과정은 수학식 3과 같다. 이러한 과정에서 주파수 정보 X(k)를 가공하여 오디오 신호의 주파수를 변화시켜 음정을 변화시키는 효과를 얻을 수 있다.An IMDCT process for converting the information X (k) transformed into the frequency domain into an audio signal in the time domain is shown in Equation 3. In this process, the frequency information X (k) may be processed to change the frequency of the audio signal, thereby obtaining an effect of changing the pitch.

Figure 112012080588972-pat00001
Figure 112012080588972-pat00001

Figure 112012080588972-pat00002
Figure 112012080588972-pat00002

Figure 112012080588972-pat00003
Figure 112012080588972-pat00003

종래기술에서는 주파수영역의 오디오 신호를 시간영역의 신호로 변환시킨 후 음정이나 속도를 변화시키기 때문에 많은 계산량이 요구되고 계산과정의 데이터를 저장하기 위하여 많은 메모리가 필요하게 된다. In the prior art, since the audio signal in the frequency domain is converted into a signal in the time domain and then the pitch or speed is changed, a large amount of calculation is required and a lot of memory is required to store data of the calculation process.

본 발명은 종래의 기술에서 주파수 영역으로 변환된 오디오 신호의 음정과 음정 변화없이 재생속도를 가변시키는 과정에서 많은 계산량과 메모리가 요구되는 문제점을 해결하기 위한 것으로, IMDCT 과정에서 오디오 신호의 음정을 용이하게 변화시키기 위해서 IMDCT 입력 데이터 X(k)에서 다양한 주파수성분, 각 주파수의 진폭과 위상을 추출하여 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 그 목적이 있다. The present invention is to solve the problem that a large amount of computation and memory is required in the process of varying the playback speed without changing the pitch and pitch of the audio signal converted to the frequency domain in the prior art, it is easy to pitch the audio signal in the IMDCT process The purpose of the present invention is to provide an apparatus and method for varying the pitch and speed of an audio signal using an IMDCT input signal by extracting various frequency components, amplitude and phase of each frequency from the IMDCT input data X (k) .

본 발명은 주파수 영역의 신호를 시간영역의 신호를 변환하는 단계인 IMDCT(Inverse Modified Discrete Cosine Transform) 과정의 입력 데이터 X(k)를 가공하여 음정을 변화시킬 수 있도록 한 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 그 목적이 있다.The present invention processes an input signal X (k) of an inverse modified discrete cosine transform (IMDCT) process that transforms a signal in a frequency domain into a signal in a time domain. Its purpose is to provide a pitch and speed variable device and method.

본 발명은 주파수 영역으로 변환된 오디오 신호의 음정 및 속도가변 방법에 있어, IMDCT 과정에서 주파수 변환이 가능하게 IMDCT 입력신호를 적절하게 변환시키는 전처리 장치 및 방법, IMCDT를 통하여 시간영역의 신호로 변환된 오디오의 재생속도를 IMDCT 입력신호 전처리 단계와 연동시켜 음정과 음정변화 없이 재생속도를 변화시킬 수 있게 보간(Interpolation)하여 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 목적이 있다.The present invention relates to a pitch and speed variable method of an audio signal converted into a frequency domain, and a preprocessing apparatus and method for appropriately converting an IMDCT input signal to enable frequency conversion in an IMDCT process, which is converted into a signal in a time domain through an IMCDT. The purpose of the present invention is to provide an apparatus and method for varying the pitch and speed of an audio signal using the IMDCT input signal by interpolating the playback speed of the audio with the IMDCT input signal preprocessing step so that the playback speed can be changed without changing the pitch. have.

본 발명은 MDCT를 통하여 주파수영역으로 변환된 오디오 신호의 주파수 영역 데이터를 IMDCT를 통하여 시간영역의 신호로 변환하기 전에 다양한 주파수 성분을 추출하고 각 주파수 성분의 진폭과 위상을 이용하여 주파수 변환이 가능하게 IMDCT 입력 데이터를 재생성하여 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 그 목적이 있다.The present invention extracts various frequency components before converting the frequency domain data of the audio signal converted into the frequency domain through the MDCT into the signal in the time domain through the IMDCT, and enables frequency conversion using the amplitude and phase of each frequency component. It is an object of the present invention to provide an apparatus and method for varying the pitch and speed of an audio signal using an IMDCT input signal by regenerating IMDCT input data.

본 발명은 오디오 신호의 압축율을 높이기 위하여 주파수영역으로 변환된 신호의 주파수 정보를 활용하여 음정과 속도를 변화시키는 방법으로 시간영역에서 음정 변환시키는 과정을 생략할 수 있도록 한 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법을 제공하는데 그 목적이 있다. The present invention provides an audio signal using an IMDCT input signal which can omit the process of pitch conversion in the time domain by changing the pitch and the speed by using the frequency information of the signal converted into the frequency domain in order to increase the compression ratio of the audio signal. Its purpose is to provide a pitch and speed variable device and method.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.

이와 같은 목적을 달성하기 위한 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 장치는 처리할 샘플의 윈도우 크기를 결정하는 윈도우부;상기 윈도우부에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부 및 위상 추출부, 진폭을 추출하는 진폭 추출부;상기 추출된 주파수를 변환하는 주파수 변환부;상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부;IMDCT를 통하여 상기 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록; 상기 IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크;를 포함하는 것을 특징으로 한다.In accordance with an aspect of the present invention, a device for changing a pitch of an audio signal using an IMDCT input signal may include: a window unit configured to determine a window size of a sample to be processed; the IMDCT input data X (k) at a window size determined by the window unit; A frequency extractor and a phase extractor to extract a frequency and a phase of the amplifier; an amplitude extractor to extract an amplitude; a frequency converter to convert the extracted frequency; IMDCT input data using the converted frequency and the extracted phase and amplitude An input data reconstruction unit configured to reconstruct an IMDCT block for converting the reconstructed input data into a time domain through IMDCT; And a synthesis filter bank for synthesizing the various subband components transformed into the time domain through the IMDCT.

여기서, 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성하는 데 필요한 윈도우를 결정하기 위하여, 분석 대상이 되는 주파수 영역의 윈도우 크기를 다른 영역에 비하여 상대적으로 작게 하는 것을 특징으로 한다.In this case, in order to determine a window required for analyzing and reconstructing X (k), which is the IMDCT input data, the window unit has a relatively small window size in comparison with other regions.

그리고 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하기 위하여, 서버밴드와 서버밴드, 프레임과 프레임 경계에서 분석윈도우를 중첩시켜 설정하고, 분석윈도우 내에서 스펙트럼을 계산을 통하여 정수주파수(kin)를 찾아 그 주파수를 중심으로 분석 윈도우를 구성하는 것을 특징으로 한다.In order to determine a window necessary for analyzing and reconstructing X (k), which is the IMDCT input data, the window unit overlaps and sets an analysis window at a server band, a server band, a frame and a frame boundary, and sets a spectrum within the analysis window. Finding the integer frequency (k in ) through the calculation is characterized by configuring the analysis window around the frequency.

다른 목적을 달성하기 위한 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법은 IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 IMDCT에 입력되는 데이터(X(k))를 처리하여 음정을 변화시키기 위하여, 주파수 추출을 위한 샘플의 수를 결정하는 윈도우 크기 결정 단계;선택된 윈도우 크기로 IMDCT 과정에 필요한 입력 데이터 X(k)의 주파수(k), 위상, 진폭을 추출하는 단계;추출된 주파수를 변환하고, 변환된 주파수와 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 단계;주파수 영역의 데이터를 시간영역으로 변환하는 IMDCT 단계;IMDCT 과정에서 만들어진 다양한 주파수의 시간영역 신호를 합성하는 합성필터뱅크 단계;를 포함하는 것을 특징으로 한다.In accordance with another aspect of the present invention, a method of varying a pitch of an audio signal using an IMDCT input signal is performed by processing data X (k) input to the IMDCT before converting the signal into a signal in a time domain through the IMDCT. Determining a number of samples for frequency extraction; extracting the frequency (k), phase, and amplitude of the input data X (k) required for the IMDCT process with the selected window size; Reconstructing the IMDCT input data using the converted frequency and the extracted phase and amplitude; an IMDCT step of converting the data in the frequency domain into the time domain; synthesizing the time domain signals of various frequencies generated in the IMDCT process Synthesis filter bank step; characterized in that it comprises a.

여기서, 상기 IMDCT 입력 데이터 X(k)의 주파수 추출 단계에서,IMDCT 입력 데이터 X(k)의 주파수를 정수부(kin)와 소수부(ε)로 나누어 f = kin+ε로 표시하고, 이웃하는 세 개의 주파수 성분 X(kin-1), X(kin), X(kin+1)을 이용하여 분석하는 윈도우 내에 존재하는 모든 스펙트럼 값을 구하여 그 중 가장 큰 스펙트럼 값(Sk)을 만드는 kin를 정수부 주파수 성분(kin)으로 하는 것을 특징으로 한다.Here, in the frequency extraction step of the IMDCT input data X (k), the frequency of the IMDCT input data X (k) is divided into an integer part k in and a fractional part ε and displayed as f = k in + ε, Use the three frequency components X (k in -1), X (k in ), and X (k in +1) to find all the spectral values present in the window to analyze, and determine the largest spectral value (S k ) among them. It is characterized by making k in to be the integer frequency component (k in ).

그리고 상기 주파수 성분의 소수부분 ε을,And the fractional part ε of the frequency component,

Figure 112012080588972-pat00004
라고 두면,
Figure 112012080588972-pat00004
If you say,

Figure 112012080588972-pat00005
인 경우에 대해서
Figure 112012080588972-pat00006
Figure 112012080588972-pat00005
About
Figure 112012080588972-pat00006

Figure 112012080588972-pat00007
라고 두면,
Figure 112012080588972-pat00007
If you say,

Figure 112012080588972-pat00008
인 경우에 대해서
Figure 112012080588972-pat00009
Figure 112012080588972-pat00008
About
Figure 112012080588972-pat00009

2 종류를 구하고, αβ 중에서 어느 것을 사용한 것인지의 결정은, 윈도우 내의 가장 큰 주파수 성분 X(kin)의 절대값과 kin의 스펙트럼 값(Sk)의 비율을

Figure 112012080588972-pat00010
로 정의하고, 그 비율이 특정 문턱값(threshold) λ0 과 비교하여 작으면 α, 그 외의 경우엔 β를 선택하여 주파수 성분의 소수부분인(ε)을 얻는 것을 특징으로 한다.Determining which of the two and using α and β is used to determine the ratio of the absolute value of the largest frequency component X (k in ) in the window and the spectral value S k of k in .
Figure 112012080588972-pat00010
If the ratio is small compared to a specific threshold λ 0 , α is selected, otherwise β is obtained, thereby obtaining (ε), which is a fractional part of the frequency component.

그리고 IMDCT 데이터 X(k)의 위상

Figure 112012080588972-pat00011
를 추출하기 위해서 추출한 IMDCT 정수부 주파수 성분(kin)을 이용하여 계산하는 것을 특징으로 한다.And the phase of the IMDCT data X (k)
Figure 112012080588972-pat00011
It is characterized by calculating using the extracted IMDCT integer frequency component (k in ) to extract.

그리고 상기 진폭을 추출하는 단계에서, 정수부 주파수 성분(Kin)과 소수부(ε) 주파수 성분을 이용하여 IMDCT 입력 데이터의 진폭 Ak를 구하는 것을 특징으로 한다.In the extracting of the amplitude, the amplitude A k of the IMDCT input data is obtained by using the integer frequency component Kin and the fractional frequency component ε.

그리고 상기 IMDCT 입력 데이터를 재구성하는 단계에서, 상기 윈도우 선택과정, 주파수 추출과정, 위상 추출과정, 주파수 변환 과정으로부터 얻은 윈도우 크기(N), 주파수(f = kin+ε), 위상(

Figure 112012080588972-pat00012
), 변환된 주파수 fshift = f(1+Rf)을 이용하여 IMDCT 입력 X'(k)를 재구성하는 것을 특징으로 한다.In the step of reconstructing the IMDCT input data, the window size (N), frequency (f = k in + ε), phase (from the window selection process, frequency extraction process, phase extraction process, and frequency conversion process)
Figure 112012080588972-pat00012
), And reconstruct the IMDCT input X '(k) using the converted frequency f shift = f (1 + R f ).

또 다른 목적을 달성하기 위한 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치는 처리할 샘플의 윈도우 크기를 결정하는 윈도우부;상기 윈도우부에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부 및 위상 추출부, 진폭을 추출하는 진폭 추출부;상기 추출된 주파수를 변환하는 주파수 변환부;상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부;IMDCT를 통하여 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록;IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크;상기 합성 필터뱅크에서 출력되는 오디오 신호의 샘플링 간격을 조절하여 재생속도와 음정을 변화시키는 보간부(Interpolator);를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a device for varying the pitch and speed of an audio signal using an IMDCT input signal, including: a window unit configured to determine a window size of a sample to be processed; the IMDCT input data X ( k) a frequency extractor for extracting the frequency and phase and a phase extractor, an amplitude extractor for extracting the amplitude; a frequency converter for converting the extracted frequency; IMDCT using the converted frequency, the extracted phase and amplitude An input data reconstruction unit configured to reconstruct input data; an IMDCT block for converting input data reconstructed through IMDCT into a time domain; a synthesis filter bank for synthesizing various subband components transformed into time domain through IMDCT; in the synthesis filter bank An interpolator for adjusting a sampling interval of an output audio signal to change a reproduction speed and a pitch; And a control unit.

여기서, 상기 IMDCT 블록에서 오디오 신호의 음정을 변화시키기 위하여 IMDCT 입력 데이터 X(k)로 부터 정현파 성분으로 분해하여 추출한 후, 원하는 만큼 주파수를 변환하여 IMDCT 입력을 재구성하는 것을 특징으로 한다.In this case, in order to change the pitch of the audio signal in the IMDCT block, the signal is decomposed and extracted from the IMDCT input data X (k) into sine wave components, and the frequency is changed as much as desired to reconstruct the IMDCT input.

그리고 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하기 위하여, 분석 대상이 되는 주파수 영역의 윈도우 크기를 다른 영역에 비하여 상대적으로 작게 하는 것을 특징으로 한다.In addition, in order to determine a window required for analyzing and reconstructing X (k), which is IMDCT input data, the window unit may reduce the window size of the frequency domain to be analyzed relatively smaller than other regions.

그리고 상기 윈도우부에서의 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하는 데 있어 서버밴드와 서버밴드, 프레임과 프레임 경계에서 분석윈도우를 중첩시켜 설정하고, 분석윈도우 내에서 스펙트럼을 계산을 통하여 정수주파수(kin)를 찾아 그 주파수를 중심으로 분석 윈도우를 구성하는 것을 특징으로 한다.In order to determine the window required for analyzing and reconstructing X (k), which is the IMDCT input data in the window part, the analysis window is superimposed on the server band, server band, frame, and frame boundary, and the spectrum within the analysis window. It is characterized by finding the integer frequency (k in ) through the calculation to configure the analysis window around the frequency.

또 다른 목적을 달성하기 위한 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법은 IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 IMDCT에 입력되는 데이터(X(k))를 처리하여 음정을 변화시키기 위하여, 주파수 추출을 위한 샘플의 수를 결정하는 윈도우 크기 결정 단계;선택된 윈도우 크기로 IMDCT 과정에 필요한 입력 데이터 X(k)의 주파수(k), 위상, 진폭을 추출하는 단계;추출된 주파수를 변환하고, 변환된 주파수와 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 단계;IMDCT 처리 및 보간을 하여 코딩된 오디오 신호를 출력하는 단계;를 포함하는 것을 특징으로 한다.In accordance with another aspect of the present invention, a method of varying the pitch and speed of an audio signal using an IMDCT input signal processes data X (k) input to IMDCT before converting it into a signal in a time domain through IMDCT. Determining a number of samples for frequency extraction to change the pitch; extracting frequency k, phase, and amplitude of input data X (k) required for the IMDCT process with the selected window size; Converting the extracted frequency and reconstructing the IMDCT input data using the converted frequency and the extracted phase and amplitude; outputting a coded audio signal by performing IMDCT processing and interpolation.

여기서, 상기 IMDCT 처리 과정에서 원하는 만큼 주파수를 변화시키기 위해서 IMDCT 입력 데이터 X(k)의 주파수, 위상, 진폭을 분리하여 방정식 형태로 표시하거나 그 방정식을 look-up 테이블 형태로 저장해두고 사용하는 과정을 포함하는 것을 특징으로 한다.Here, the process of separating the frequency, phase, amplitude of the IMDCT input data X (k) in the form of an equation or storing the equation in the form of a look-up table in order to change the frequency as desired in the IMDCT process. It is characterized by including.

그리고 IMDCT 입력 데이터 X(k)의 주파수 추출 단계에서, IMDCT 입력 데이터 X(k)의 주파수를 정수부(kin)와 소수부(ε)로 나누어 f = kin+ε로 표시하고, 이웃하는 세 개의 주파수 성분 X(kin-1), X(kin), X(kin+1)을 이용하여 분석하는 윈도우 내 존재하는 모든 스펙트럼 값을 구하여 그 중 가장 큰 스펙트럼 값(Sk)을 만드는 kin를 정수부 주파수 성분(kin)으로 하는 것을 특징으로 한다.In the frequency extraction step of the IMDCT input data X (k), the frequency of the IMDCT input data X (k) is divided into the integer part k in and the fractional part ε and expressed as f = k in + ε, Using the frequency components X (k in -1), X (k in ), and X (k in +1), k obtains all the spectral values present in the window to be analyzed and produces the largest spectral value (S k ) among them. in is an integer frequency component k in .

그리고 상기 주파수 성분의 소수부분 ε을,And the fractional part ε of the frequency component,

Figure 112012080588972-pat00013
라고 두면,
Figure 112012080588972-pat00013
If you say,

Figure 112012080588972-pat00014
인 경우에 대해서
Figure 112012080588972-pat00015
Figure 112012080588972-pat00014
About
Figure 112012080588972-pat00015

Figure 112012080588972-pat00016
라고 두면,
Figure 112012080588972-pat00016
If you say,

Figure 112012080588972-pat00017
인 경우에 대해서
Figure 112012080588972-pat00018
Figure 112012080588972-pat00017
About
Figure 112012080588972-pat00018

2 종류를 구하고, αβ 중에서 어느 것을 사용한 것인지의 결정은, 윈도우 내의 가장 큰 주파수 성분 X(kin)의 절대값과 kin의 스펙트럼 값(Sk)의 비율을

Figure 112012080588972-pat00019
로 정의하고, 그 비율이 특정 문턱값(threshold) λ0 과 비교하여 작으면 α, 그 외의 경우엔 β를 선택하여 주파수 성분의 소수부분인(ε)을 얻는 것을 특징으로 한다.Determining which of the two and using α and β is used to determine the ratio of the absolute value of the largest frequency component X (k in ) in the window and the spectral value S k of k in .
Figure 112012080588972-pat00019
If the ratio is small compared to a specific threshold λ 0 , α is selected, otherwise β is obtained, thereby obtaining (ε), which is a fractional part of the frequency component.

그리고 IMDCT 데이터 X(k)의 cosine 함수의 위상

Figure 112012080588972-pat00020
를 추출하기 위해서 추출한 IMDCT 정수부 주파수 성분(kin)을 이용하여 계산하는 것을 특징으로 한다.And phase of cosine function of IMDCT data X (k)
Figure 112012080588972-pat00020
It is characterized by calculating using the extracted IMDCT integer frequency component (k in ) to extract.

그리고 상기 진폭을 추출하는 단계에서,정수부 주파수 성분(Kin)과 소수부(ε) 주파수 성분을 이용하여 IMDCT 입력 데이터의 진폭 Ak를 구하는 것을 특징으로 한다.In the extracting of the amplitude, an amplitude A k of the IMDCT input data may be obtained by using the integer frequency component Kin and the fractional frequency component ε.

그리고 음정변화 없이 재생속도를 변화시키기 위하여, 상기 IMDCT 처리 및 보간을 하여 코딩된 오디오 신호를 출력하는 단계와 연계하여 원래 속도를 1로 할 때 가변속도, 원신호의 샘플링 간격(ts), 새롭게 만들 신호의 샘플링 간격(t's), (원래속도/가변속도) = ts/t's = Rt 관계를 이용하여 Rt를 구한 후 (Rf x Rt) = 1 되게 Rf를 결정한 다음, 상기 추출한 IMDCT 입력 데이터 X(k)의 주파수 성분(k)을 fshift = f(1+Rf) 변화시키는 것을 특징으로 한다.In order to change the reproduction speed without changing the pitch, the variable speed, the sampling interval of the original signal (t s ), and the new signal are newly generated when the original speed is 1 in conjunction with the IMDCT processing and interpolation. Sampling interval (t ' s ) of the signal to be created, (original / variable speed) = t s / t' s = R t Find R t using the relationship (R f x R t ) = 1 and then determine R f, and then change the frequency component k of the extracted IMDCT input data X (k) by f shift = f (1 + R f ).

그리고 음정과 재생속도를 동시에 변화시키려는 경우에는 재생속도로부터 (원래속도/가변속도) = Rt로부터 Rt를 구하고, 변화시키고 싶은 반음의 수 n에 따라 주파수 변화비율 Rfinal = (1±0.06n)을 결정하고, Rfinal = Rf x Rt 관계로부터 IMCDT 전처리 단계의 주파수 변화율 Rf를 결정하여 fshift = f(1+Rf)을 이용하여 주파수를 변화시키는 것을 특징으로 한다.And pitch and, if you wish to change the playback speed at the same time from the reproduction speed (normal speed / variable speed) = R t R t to obtain a frequency change rate according to the number n of half tones is desired to change from the final R = (1 ± 0.06 n ) and R final = R f x R t The frequency change rate R f of the IMCDT preprocessing step is determined from the relationship, and the frequency is changed by using f shift = f (1 + R f ).

그리고 상기 IMDCT 입력 데이터를 재구성하는 단계에서, 상기 윈도우 선택과정, 주파수 추출과정, 위상 추출과정, 주파수 변환 과정으로부터 얻은 윈도우 크기(N), 주파수(f = kin+ε), 위상(

Figure 112012080588972-pat00021
), 변환된 주파수 fshift = f(1+Rf), 을 이용하여 IMDCT 입력 X'(k)를 구하는 것을 특징으로 한다.In the step of reconstructing the IMDCT input data, the window size (N), frequency (f = k in + ε), phase (from the window selection process, frequency extraction process, phase extraction process, and frequency conversion process)
Figure 112012080588972-pat00021
, IMDCT input X '(k) by using the transformed frequency f shift = f (1 + R f ), characterized in that.

그리고 가변속도에 따라 주파수 변환부의 주파수 변화량을 조절하고, 주파수 변화량에 따라 보간 단계의 샘플링 간격을 조절하는 것을 특징으로 한다.And it is characterized in that for adjusting the frequency change amount of the frequency converter according to the variable speed, the sampling interval of the interpolation step according to the frequency change amount.

그리고 상기 샘플링 간격의 조절은, 원래속도/가변속도, 원 신호의 샘플링 간격(ts), 보간에 의해 재생성되는 오디오 신호의 샘플링 간격(t's) 사이에 Rt=(원래속도/가변속도)= ts/t's 관계식이 성립하고, IMDCT 전 단계의 주파수 변환부의 주파수 변화량이 Rf 이라면 최종 음정이 가변속도와 (Rf x f)x Rt 로 결정되는 것을 특징으로 한다.And the adjustment of the sampling interval, the original speed / variable speed, the sampling interval of the original signal (t s), R t = between sampling interval of the audio signal (t 's) are regenerated by an interpolation (the original speed / variable speed ) = t s / t ' s is established, and if the frequency variation of the frequency converter in the previous stage of IMDCT is R f, the final pitch is variable speed and (R f xf) x R t .

이와 같은 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법은 다음과 같은 효과를 갖는다.The apparatus and method for changing the pitch and speed of an audio signal using the IMDCT input signal according to the present invention have the following effects.

첫째, 주파수 영역에서 압축된 오디오 신호를 IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 주파수 IMDCT 입력 데이터 X(k)를 가공하여 음정을 변화시킬 수 있다.First, the frequency IMDCT input data X (k) may be processed to change the pitch before converting the audio signal compressed in the frequency domain into a signal in the time domain through IMDCT.

둘째, 시간영역의 신호로 변환하기 전에 IMDCT 입력 데이터 X(k)를 가공하여 음정을 변화시킴으로써 계산량을 줄이게 되어 시스템의 CPU 부담을 줄여줄 수 있을 뿐만 아니라 소비전력을 줄일 수 있다. Second, by changing the pitch by processing the IMDCT input data X (k) before converting it to a signal in the time domain, the computational amount is reduced, which not only reduces the CPU burden of the system but also reduces power consumption.

셋째, 시간영역의 음정변환 과정이 불필요하게 됨에 따라 데이터를 저장하는 메모리를 줄일 수 있어 하드웨어 시스템을 값싸게 구성할 수 있다.Third, as the pitch conversion process of the time domain becomes unnecessary, the memory for storing data can be reduced, thereby making the hardware system cheap.

넷째, 입력 데이터 X(k)의 주파수 성분 및 위상과 진폭을 분리하여 방정식 형태로 표시하여 IMDCT 과정에서 주파수 변환이 용이하여 계산량을 줄일 수 있다.Fourth, the frequency component and phase and amplitude of the input data X (k) are separated and displayed in the form of an equation, so that the frequency can be easily converted in the IMDCT process, thereby reducing the amount of calculation.

다섯째, 시간영역의 신호를 주파수 영역의 신호로 변환하는 과정에서 주파수 영역의 신호에 포함되는 정보를 활용하여 음정을 변화시키는 방법으로 시간영역에서 음정 변환하는 과정을 생략할 수 있다.Fifth, in the process of converting the signal in the time domain to the signal in the frequency domain by changing the pitch using information included in the signal in the frequency domain, the process of converting the pitch in the time domain may be omitted.

여섯째, 주파수 추출 윈도우 크기를 변화시킴으로써 다양한 주파수를 세밀하게 추출할 수 있어 음정변환 음질을 높일 수 있다.Sixth, by varying the size of the frequency extraction window, it is possible to extract various frequencies in detail, thereby improving the pitch conversion sound quality.

일곱째, 스펙트럼성분이 큰 주파수를 중심으로 윈도우를 구성함으로써 불필요한 윈도우를 제거할 수 있어 계산량을 줄일 수 있다.Seventh, by forming a window centered on a frequency having a large spectral component, unnecessary windows can be eliminated, thereby reducing the amount of calculation.

여덟째, 서버밴드나 프레임 가장자리에서 윈도우를 중첩시킴으로써 그들 가장자리에 있는 주파수를 추출할 수 있어 음질을 개선할 수 있다.Eighth, by overlapping the windows at the server band or frame edge, you can extract the frequencies at those edges to improve sound quality.

아홉째, IMDCT 앞 단계에서의 주파수 변환비율과 보간부의 샘플링 간격을 연동함으로써 오디오신호의 음정변화, 속도변화, 음정과 속도를 동시에 변화시킬 수 있다.
Ninth, it is possible to simultaneously change the pitch change, the speed change, the pitch and the speed of the audio signal by interlocking the frequency conversion rate in the preceding step of the IMDCT with the sampling interval of the interpolator.

도 1은 종래 기술의 주파수영역에서 압축된 오디오 신호의 음정이나 속도를 가변 시키기 위한 구성도
도 2는 종래 기술의 시간영역의 오디오 신호를 주파수 영역의 신호로 변환하기 위한 구성도
도 3은 종래 기술의 주파수 영역으로 변환된 신호를 시간영역으로 변환하는 과정을 나타낸 구성도
도 4a는 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 가변 장치의 구성도
도 4b는 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변 장치의 구성도
도 5는 IMDCT 입력 데이터 X(k)의 한 프레임 내에서 주파수 대역에 따른 윈도우 구성 개념도
도 6은 본 발명에 따른 윈도우에서 주파수 성분, 위상, 진폭 추출과정을 나타내는 플로우 차트
도 7a, 7b, 7c은 보간(interpolation) 주파수에 따른 원신호의 음정변환 개념도
1 is a configuration diagram for varying the pitch or speed of an audio signal compressed in the frequency domain of the prior art
2 is a configuration diagram for converting an audio signal in a time domain into a signal in a frequency domain in the prior art;
3 is a block diagram illustrating a process of converting a signal converted into a frequency domain of the prior art into a time domain
4A is a block diagram of a pitch variable device of an audio signal using IMDCT according to the present invention;
4b is a block diagram of a pitch and speed variable apparatus of an audio signal using IMDCT according to the present invention
5 is a conceptual diagram of a window configuration according to a frequency band within one frame of IMDCT input data X (k).
6 is a flowchart illustrating a frequency component, phase and amplitude extraction process in a window according to the present invention.
7A, 7B, and 7C are conceptual diagrams of pitch conversion of an original signal according to interpolation frequency

이하, 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.Hereinafter, a preferred embodiment of an apparatus and method for changing the pitch and speed of an audio signal using an IMDCT input signal according to the present invention will be described in detail.

본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.Features and advantages of the device and method for the variable pitch and speed of the audio signal using the IMDCT input signal according to the present invention will be apparent from the detailed description of each embodiment below.

도 4a는 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 가변 장치의 구성도이고, 도 4b는 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변 장치의 구성도이다.4A is a block diagram of a pitch variable device for an audio signal using IMDCT according to the present invention, and FIG. 4B is a block diagram of a pitch and speed variable device for an audio signal using IMDCT according to the present invention.

본 발명은 IMDCT 단계에서 사용될 입력 신호를 가공하는 전처리 단계를 두어 음정과 속도를 가변시키는 것으로, 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 가변 장치는 도 4a에서와 같이, 처리할 샘플의 윈도우 크기(처리할 샘플의 개수)를 결정하는 윈도우부(41)와, 상기 윈도우부(41)에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부(42) 및 위상 추출부(43), 진폭을 추출하는 진폭 추출부(44)와, 상기 추출된 주파수를 변환하는 주파수 변환부(45)와, 상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부(46)와, IMDCT를 통하여 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록(47)와, IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크(48)를 포함한다.The present invention provides a preprocessing step for processing an input signal to be used in the IMDCT step to vary the pitch and speed. The apparatus for varying the pitch of an audio signal using the IMDCT according to the present invention, as shown in FIG. A window section 41 for determining the number of samples to be processed, a frequency extracting section 42 for extracting the frequency and phase of the IMDCT input data X (k) at the window size determined by the window section 41, and a phase. IMDCT input data using the extractor 43, the amplitude extractor 44 for extracting the amplitude, the frequency converter 45 for converting the extracted frequency, and the converted frequency, the extracted phase and amplitude. An input data reconstruction unit 46 for reconstructing, an IMDCT block 47 for converting input data reconstructed through IMDCT into a time domain, and a plurality of subband components converted into time domain through IMDCT Synthesis filter bank 48 is included.

그리고 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변 장치는 도 4b에서와 같이, 처리할 샘플의 윈도우 크기(처리할 샘플의 개수)를 결정하는 윈도우부(41)와, 상기 윈도우부(41)에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부(42) 및 위상 추출부(43), 진폭을 추출하는 진폭 추출부(44)와, 상기 추출된 주파수를 변환하는 주파수 변환부(45)와, 상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부(46)와, IMDCT를 통하여 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록(47)와, IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크(48)와, 오디오 신호의 샘플링 간격을 조절하여 재생속도를 변화시키는 보간부(Interpolator)(49)를 포함한다.In addition, the apparatus for varying the pitch and speed of an audio signal using IMDCT according to the present invention includes a window unit 41 for determining a window size (number of samples to be processed) of a sample to be processed, and the window unit (as shown in FIG. 4B). A frequency extractor 42 and a phase extractor 43 for extracting a frequency and a phase of the IMDCT input data X (k) at a window size determined by 41), an amplitude extractor 44 for extracting an amplitude, and the extracted A frequency converter 45 for converting a frequency, an input data reconstruction unit 46 for reconstructing IMDCT input data using the converted frequency, an extracted phase, and an amplitude, and a time domain for the input data reconstructed through IMDCT An IMDCT block 47 for converting the data, a synthesis filter bank 48 for synthesizing various subband components transformed in the time domain through IMDCT, and an interpolation unit for changing the playback speed by adjusting the sampling interval of the audio signal (In terpolator 49).

이와 같은 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법은 IMDCT 단계에서 사용될 입력 신호를 가공하는 전처리 단계를 두어 음정을 가변시키기 위하여, 주파수 성분을 세밀하게 추출하기 위하여 분석 윈도우의 크기를 조절하는 단계와, IMDCT 입력 데이터 X(k)의 주파수를 추출하는 단계와 위상을 추출하는 단계, 진폭을 추출하는 단계와, 음정변화 비율에 따라 추출된 주파수를 변환하는 단계와, 추출된 주파수, 위상, 진폭을 이용하여 IMDCT 입력을 재생성하는 단계와, 주파수 영역의 데이터를 시간영역으로 변환하는 IMDCT 단계와, IMDCT 과정에서 만들어진 다양한 주파수의 시간영역 신호를 합성하는 합성필터뱅크 단계를 포함한다.The pitch variable method of the audio signal using the IMDCT input signal according to the present invention has a pre-processing step of processing the input signal to be used in the IMDCT step to change the pitch, to extract the size of the frequency component to finely extract the frequency component Adjusting, extracting a frequency of the IMDCT input data X (k), extracting a phase, extracting an amplitude, converting the extracted frequency according to a pitch change ratio, extracting frequency, Reconstructing the IMDCT input using phase and amplitude, an IMDCT step of converting data in the frequency domain into the time domain, and a synthesis filter bank step of synthesizing time domain signals of various frequencies generated in the IMDCT process.

그리고 본 발명에 따른 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변 방법은 IMDCT 단계에서 사용될 입력 신호를 가공하는 전처리 단계를 두어 음정과 속도를 가변시키기 위하여, 주파수 성분을 세밀하게 추출하기 위하여 분석 윈도우의 크기(처리할 샘플의 개수)를 조절하는 단계와, IMDCT 입력 데이터 X(k)의 주파수를 추출하는 단계와 위상을 추출하는 단계, 진폭을 추출하는 단계와, 음정변화 비율에 따라 추출된 주파수를 변환하는 단계와, 추출된 주파수, 위상, 진폭을 이용하여 IMDCT 입력을 재구성하는 단계와, 주파수 영역의 데이터를 시간영역으로 변환하는 IMDCT 단계와, IMDCT 과정에서 만들어진 다양한 주파수의 시간영역 신호를 합성하는 합성필터뱅크 단계와, 재생속도 변화비율에 따라 샘플링 간격을 조절하여 재생속도를 변화시키는 단계를 포함한다.In addition, the method of varying the pitch and speed of an audio signal using the IMDCT according to the present invention includes a preprocessing step of processing an input signal to be used in the IMDCT step, so as to vary the pitch and the speed, and to extract frequency components in detail. Adjusting the number of samples to be processed; extracting the frequency of the IMDCT input data X (k); extracting the phase; extracting the amplitude; and converting the extracted frequency according to the pitch change ratio. Reconstructing the IMDCT input using the extracted frequency, phase, and amplitude, the IMDCT step of converting the data in the frequency domain to the time domain, and synthesizing the time domain signals of various frequencies generated in the IMDCT process. The filter bank step and the step of varying the playback speed by adjusting the sampling interval in accordance with the rate of change of the playback speed do.

여기서, IMDCT 과정에서 원하는 만큼 주파수를 변화시키는데 있어, 계산량을 줄이고 주파수 변화량에 비례하게 IMDCT 전 단계에서 입력 데이터 X(k)의 주파수, 위상, 진폭을 분리하여 방정식 형태로 표시하거나 룩업(look-up) 테이블 형태로 저장하는 과정을 포함한다. Here, in changing the frequency as desired in the IMDCT process, the calculation amount is reduced and the frequency, phase, and amplitude of the input data X (k) are separated and displayed in the form of an equation or look-up in the previous stage of the IMDCT in proportion to the frequency change amount. ) It includes the process of saving in the form of a table.

그리고 IMDCT를 이용하여 압축된 데이터를 음정 변환 없이 단순히 복호화하는 경우에는 본 발명에서 제안하는 윈도우 과정, 주파수 추출, 진폭 추출, 입력 데이터 재구성, 주파수 변환 과정을 거치지 않고 부호화된 주파수 영역의 데이터 X(k)를 IMDCT 과정과 합성필터뱅크를 거쳐 복호화하면 된다. In the case of simply decoding the compressed data using IMDCT without pitch conversion, the data X (k) of the encoded frequency domain without undergoing the window process, frequency extraction, amplitude extraction, input data reconstruction, and frequency conversion process proposed by the present invention ) Can be decoded through IMDCT and synthesis filter bank.

윈도우부(41)의 윈도우잉(windowing) 과정은 다음과 같다.The windowing process of the window portion 41 is as follows.

입력신호의 음정을 변화시키기 위해서는 주파수 영역의 IMDCT 입력 데이터 X(k)의 주파수 성분을 가능한 세밀하게 추출하여 주파수 성분의 손실을 줄여야 한다. 추출의 정확도는 몇(N) 개의 X(k) 샘플을 모아서 추출할 것인가를 결정하는 윈도우의 크기(N)에 의하여 결정된다.In order to change the pitch of the input signal, the frequency component of the IMDCT input data X (k) in the frequency domain should be extracted as closely as possible to reduce the loss of the frequency component. The accuracy of the extraction is determined by the size (N) of the window, which determines how many (N) X (k) samples are collected and extracted.

주파수 성분을 추출하는 방식은 N개의 샘플 윈도우 내에서 가장 큰 주파수 성분을 추출하는 방식이다. 추출하는 주파수가 중복되지 않은 범위 내에서 가능한 윈도우를 크게 잡는 것이 계산량을 줄이는 측면에서 좋다. 윈도우 크기를 작게 하면 주파수 성분을 세밀하게 추출할 수 있으나 계산량이 많아지는 문제점이 있다. The method of extracting frequency components is to extract the largest frequency component within N sample windows. It is good to reduce the amount of computation to make the window as large as possible within the range of overlapping frequencies. If the window size is reduced, the frequency components can be extracted finely, but there is a problem that the amount of calculation increases.

오디오 신호의 주파수 대역은 20 KHz로 알려져 있으나, 오디오 신호의 주파수 특성을 분석해보면 저주파 영역의 주파수 성분이 고주파 영역의 주파수 성분보다 많다. 계산량도 줄이고 세밀하게 주파수 성분을 추출하기 위하여 도 5과 같이 IMDCT 입력 데이터 X(k)에서 주파수 추출할 때 저주파 영역의 윈도우 크기를 작게 하고 고주파 영역의 윈도우를 크게 한다.Although the frequency band of the audio signal is known as 20 KHz, when analyzing the frequency characteristics of the audio signal, the frequency component of the low frequency region is higher than the frequency component of the high frequency region. In order to reduce the amount of calculation and extract the frequency components in detail, as shown in FIG. 5, when extracting the frequency from the IMDCT input data X (k), the window size of the low frequency region is reduced and the window of the high frequency region is increased.

상기 IMDCT 단계에서 사용되는 입력 데이터 X(k)는 수학식 1과 같이 복잡한 형태이지만, 본 발명은

Figure 112012080588972-pat00022
을 사용하며, 여기서, f와
Figure 112012080588972-pat00023
는 IMDCT 입력 데이터로부터 추출한 특정 주파수와 위상을 의미하며, k는 MDCT에서 주파수 인덱스, Ak는 주파수 인덱스의 진폭(amplitude)이다.The input data X (k) used in the IMDCT step is a complex form as shown in Equation 1, but the present invention
Figure 112012080588972-pat00022
, Where f and
Figure 112012080588972-pat00023
Is the specific frequency and phase extracted from the IMDCT input data, k is the frequency index in the MDCT, A k is the amplitude (frequency) of the frequency index.

그리고 상기 IMDCT 처리 과정에서 원하는 만큼 주파수를 변화시키기 위해서 IMDCT 입력 데이터 X(k)의 주파수 성분과 그 주파수의 진폭과 위상을 분리하여 간단한 방정식 형태로 표시하는 과정을 포함한다.And separating the frequency component of the IMDCT input data X (k), and the amplitude and phase of the frequency in a simple equation form to change the frequency as desired in the IMDCT process.

그리고 상기 주파수 추출단계에서, IMDCT 입력 데이터의 주파수 성분을 f = kin+ε 으로 하여 주파수 f를 정수부(kin)와 소수부(ε)로 나누고, 윈도우 내에서 이웃하는 세 개의 주파수 성분 X(k-1), X(k), X(k+1)을 이용하여 스펙트럼 값을 수학식 4를 이용하여 구하여 윈도우 내에서 가장 큰 스펙트럼 값을 가지는 X(k)의 k를 정수 주파수 성분 kin으로 한다.In the frequency extraction step, the frequency component of the IMDCT input data is f = k in + ε, and the frequency f is divided into the integer part k in and the fractional part ε, and three frequency components X (k) neighboring in the window are obtained. -1), X (k), X (k + 1) is used to calculate the spectral value using Equation 4, and k of X (k) having the largest spectral value in the window is an integer frequency component k in . do.

Figure 112012080588972-pat00024
Figure 112012080588972-pat00024

보다 정확한 주파수 성분의 값을 알기 위해 소수부 주파수 성분을 정수부 주파수(kin) 성분의 절대값과 스펙트럼 값의 비를 문턱 값(λ0)과 비교하여 X(kin±1) 이나 X(kin±2) 를 사용하여 소수부를 계산한다.To know the value of the frequency component more accurately, the fractional frequency component is compared with the ratio of the absolute value of the integer frequency (k in ) to the spectral value with the threshold value (λ 0 ) and X (k in ± 1) or X (k in Calculate the fractional part using ± 2).

그리고 상기에서 추출한 주파수의 위상을 정수부 주파수(kin)와 정수부 주파수 성분 X(kin)과 이웃하는 주파수 성분 X(kin-1)을 이용하여 구하고, 상기 단계에서 추출한 주파수(f = kin+ε), X(kin), X(kin-1), 소수부 주파수 (ε), 윈도우 크기(N)을 이용하여 추출한 주파수의 진폭을 구한다.The phase of the extracted frequency is obtained by using the constant frequency (k in ), the constant frequency component X (k in ), and the neighboring frequency component X (k in -1), and the frequency (f = k in extracted in the step). The amplitude of the extracted frequency is obtained using + ε), X (k in ), X (k in -1), fractional frequency (ε), and window size (N).

그리고 상기와 같이 추출한 IMDCT 입력 데이터를 구성하는 각 주파수와 그 주파수의 위상과 진폭을 사용하여 음정을 가변하기 위해서 음정변화에 대응되게 주파수 f를 변화시켜 변환주파수(fshift)를 fshift = f(1+Rf) 으로 표시하고, 여기서 Rf은 주파수 변환비율이며 양의 값은 음정을 높이고 음의 값은 음정을 낮추는 경우이다.And extracted IMDCT to convert the frequency (f shift) in association with changes in the frequency f causes the pitch change in order to vary the pitch by using the phase and amplitude of each frequency and the frequency which forms the input data f shift = f as described above ( 1 + R f ) where R f is the frequency conversion ratio, where positive values raise the pitch and negative values decrease the pitch.

본 발명은 IMDCT 앞 단계에서의 주파수 변환을 통한 음정 변화와 보간부의 샘플링 간격을 연동시켜 속도가변, 음정가변, 음정과 재생속도 동시가변을 수행할 수 있다.According to the present invention, the speed change, the pitch change, the pitch and the play speed can be simultaneously changed by interlocking the pitch change through the frequency conversion in the step of IMDCT and the sampling interval of the interpolator.

그리고 윈도우를 구성함에 있어 서버밴드와 서버밴드, 프레임과 프레임 경계에 존재하는 정수주파수 성분을 추출하기 위해서 서버밴드와 프레임을 중첩시켜 윈도우를 설정한다.In configuring the window, the window is set by overlapping the server band and the frame in order to extract the integer frequency components present in the server band and server band, and the frame and frame boundary.

서버밴드나 프레임에서 수학식 4를 이용하여 스펙트럼을 계산하여 정수주파수 성분을 찾아 그 값이 큰 몇 개의 정수주파수(kin)를 중심으로 일정수의 샘플로 구성된 분석 윈도우를 구성한다.The spectrum is calculated using Equation 4 in the server band or frame, and the integer frequency component is found and an analysis window composed of a certain number of samples centered on several integer frequencies (k in ) having a large value.

그리고 하나의 프레임이나 서브밴드에서 몇 개의 정수주파수 성분을 선택할 것인가 하는 문제는 프레임이나 서브밴드를 구성하는 샘플의 수에 따라 다르다. The problem of how many integer frequency components are selected in one frame or subband depends on the number of samples constituting the frame or subband.

MP3 방식과 같은 경우에는 하나의 서브밴드 내에서 5개 이내의 정수주파수 kin 로 윈도우를 결정한다. In the case of the MP3 scheme, the window is determined by the integer frequency k in within 5 subbands within one subband.

시간영역의 오디오 신호를 MDCT를 통하여 주파수 영역의 신호로 변환하면 IMDCT 입력으로 사용될 X(k)는 수학식 1과 같이 윈도우 크기(N) 만큼의 항들의 합으로 표현된다. MP3나 AAC와 같은 방식과 같이 윈도우가 클 경우 수학식 5와 같은 단일 주파수(f)의 정현파를 MDCT 하면 수학식 6과 같이 X(k)는 하나의 항으로 근사화 할 수 있다.When the audio signal in the time domain is converted into the signal in the frequency domain through MDCT, X (k) to be used as an IMDCT input is expressed as the sum of terms equal to the window size (N) as shown in Equation 1. If the window is large, such as MP3 or AAC, MDCT sine wave of a single frequency (f) as shown in Equation 5, X (k) can be approximated to one term as shown in Equation 6.

수학식 6를 분석해보면 IMDCT 입력은 MDCT 주파수 인덱스(k)와 그 주파수 인덱스의 위상(

Figure 112012080588972-pat00025
)과 진폭(Ak), MDCT의 입력으로 사용된 신호의 단일 주파수(f)로 표현됨을 알 수 있다. 시간영역의 복잡한 모양의 오디오 신호도 결국 여러 주파수의 정현파 합으로 생각할 수 있으므로 IMDCT 입력으로 사용될 X(k)의 각 주파수 성분 즉 인덱스(k)에 대한 정보(진폭, 주파수, 위상)를 추출하여 추출된 주파수를 변화 시켜 IMDCT 단계를 거치면 음정을 변화시킬 수 있다.Analyzing Equation 6, the IMDCT input is the MDCT frequency index (k) and the phase of the frequency index (
Figure 112012080588972-pat00025
), Amplitude (A k ), and the single frequency (f) of the signal used as the input of the MDCT. Since even a complex audio signal in the time domain can be thought of as a sine wave sum of several frequencies, it extracts and extracts information (amplitude, frequency, and phase) of each frequency component of X (k), that is, index (k), to be used as an IMDCT input. The pitch can be changed by changing the frequency to the IMDCT stage.

Figure 112012080588972-pat00026
Figure 112012080588972-pat00026

Figure 112012080588972-pat00027
Figure 112012080588972-pat00027

그리고 주파수 추출부(42) 및 위상 추출부(43), 진폭 추출부(44) 에서의 주파수, 위상, 진폭 추출과정은 도 6과 같다.The frequency, phase, and amplitude extraction processes of the frequency extractor 42, the phase extractor 43, and the amplitude extractor 44 are the same as those of FIG. 6.

IMDCT 입력 데이터 X(k)의 주파수를 정수부(kin)와 소수부(ε)로 나누어 f = kin+ε 으로 표시할 수 있다. 이웃하는 세 개의 주파수 성분 X(kin-1), X(kin), X(kin+1)을 이용하여 분석할 윈도우 내 존재하는 모든 스펙트럼 값(61)을 구하여 그 중 가장 큰 스펙트럼 값(Sk)을 만드는 주파수 인덱스 k를 정수부 주파수 성분 kin으로 한다.(62)The frequency of the IMDCT input data X (k) can be divided into an integer portion k in and a fractional portion ε and expressed as f = k in + ε. Using the three neighboring frequency components X (k in -1), X (k in ), and X (k in +1), all the spectral values 61 existing in the window to be analyzed are obtained and the largest spectral value is obtained. The frequency index k to make (S k ) is defined as the integer frequency component k in . (62)

소수부 주파수 성분을 정수부 주파수 성분 X(kin)의 바로 이웃하는 성분 X(kin±1)을 이용하여 구할 것인가, 아니면 그 다음 성분 X(kin±2)를 이용하여 구할 것인 가를 정하기 위하여 정수부 주파수 인덱스 kin과 kin을 중심으로 한 스펙트럼 값의 비

Figure 112012080588972-pat00028
를 구한다.(63) To determine whether the fractional frequency component is to be obtained using the immediately neighboring component X (k in ± 1) of the integer frequency component X (k in ) or the next component X (k in ± 2). Ratio of spectral values centered on the integer frequency index k in and k in
Figure 112012080588972-pat00028
Find (63)

정수부 주파수 성분과 바로 인접한 성분 X(kin±1)을 이용하여 수학식 7을 이용하여 소수부 주파수성분(ε1)을 계산한다.(64, 65) 정수부 주파수 성분 X(kin)에서 2만큼 떨어진 주파수 성분 X(kin±2)를 이용하여 수학식 8을 이용하여 또 다른 소수부 주파수 성분(ε2)를 구한다. (66, 67)Calculate the fractional frequency component ε 1 using Equation 7 by using the component X (k in ± 1) immediately adjacent to the integer frequency component. (64, 65) By 2 at the integer frequency component X (k in ) Another fractional frequency component ε 2 is obtained by using Equation 8 using the separated frequency component X (k in ± 2). (66, 67)

Figure 112012080588972-pat00029
Figure 112012080588972-pat00029

Figure 112012080588972-pat00030
인 경우에 대해서
Figure 112012080588972-pat00031
Figure 112012080588972-pat00030
About
Figure 112012080588972-pat00031

Figure 112012080588972-pat00032
Figure 112012080588972-pat00032

Figure 112012080588972-pat00033
인 경우에 대해서
Figure 112012080588972-pat00034
Figure 112012080588972-pat00033
About
Figure 112012080588972-pat00034

정수부 주파수 kin과 kin을 중심으로 한 스펙트럼 값의 비

Figure 112012080588972-pat00035
가 특정 문턱 값보다 작으면 수학식 7을 이용하여 구한 소수부 주파수성분(ε1)을 선택하고, 클 경우는 수학식 8을 이용하여 구한 소수부(ε2)를 선택한다. (68, 69)Ratio of spectral values centered on the integer frequency k in and k in
Figure 112012080588972-pat00035
If is less than a specific threshold value, the fractional frequency component ε 1 obtained using Equation 7 is selected, and if it is large, the fractional portion ε 2 obtained using Equation 8 is selected. (68, 69)

IMDCT 입력 데이터 X(k)의 추출된 정수부 주파수(kin)와 소수부 주파수(ε)을 이용하여 주파수(f)를 f = kin +ε 와 같이 구한다. (71)Using the extracted integer frequency (k in ) and fractional frequency (ε) of the IMDCT input data X (k), the frequency f is converted into f = k in Obtained as + ε. (71)

정수부 IMDCT 입력 데이터 X(k)의 cosine 함수의 위상(

Figure 112012080588972-pat00036
)은 정수부 주파수 성분 X(kin)과 바로 인접한 성분 X(kin±1)과 소수부 주파수 성분(ε)을 이용하여 수학식 9를 이용하여 구한다. (70)Phase of cosine function of integer part IMDCT input data X (k)
Figure 112012080588972-pat00036
) Is obtained using Equation 9 using the component X (k in ± 1) and the fractional frequency component ε immediately adjacent to the integer frequency component X (k in ). (70)

Figure 112012080588972-pat00037
Figure 112012080588972-pat00037

그리고 본 발명에 따른 진폭 추출부에서의 진폭 추출 과정은 다음과 같다. (72) 수학식 6의 X(k)에 kin과 kin-1을 각 각 대입하여 수학식 10, 수학식 11을 얻는다. 수학식 10과 수학식 11을 이용하여 간단한 조작을 통하여 수학식 12와 같은 진폭(Ak)를 얻을 수 있다. 수학식 10, 11에서 f는 추출된 주파수 정보 (kin+ε)를 사용한다.And the amplitude extraction process in the amplitude extraction unit according to the present invention is as follows. (72) Substituting k in and k in -1 into X (k) of Equation 6, respectively, Equations 10 and 11 are obtained. Using the equations (10) and (11), an amplitude A k as shown in equation (12) can be obtained through simple manipulation. In Equations 10 and 11, f uses extracted frequency information (k in + ε).

Figure 112012080588972-pat00038
Figure 112012080588972-pat00038

Figure 112012080588972-pat00039
Figure 112012080588972-pat00039

Figure 112012080588972-pat00040
Figure 112012080588972-pat00040

이상의 과정은 하나의 윈도우에서 그 윈도우를 대표하는 주파수, 위상, 진폭을 구하였다. MDCT 방식을 이용하는 MP3, AAC, AC-3 방식에 따라 하나의 프레임에는 위와 같은 분석이 필요한 윈도우가 여러 개 있다. 본 발명의 개념을 활용하여 방식에 따라 분석 윈도우의 크기를 적절하게 조절하여 하나의 프레임을 구성하는 다양한 주파수(f), 위상(

Figure 112012080588972-pat00041
), 진폭(Ak)을 분석할 수 있다.In the above process, the frequency, phase, and amplitude representing the window in one window were obtained. According to the MP3, AAC, and AC-3 methods using the MDCT method, there are several windows that require the above analysis in one frame. By utilizing the concept of the present invention, various frequency (f), phase (
Figure 112012080588972-pat00041
), The amplitude (A k ) can be analyzed.

하나의 프레임에 대한 주파수 성분의 추출이 완료되면, 재생속도 변화 없이 음정을 변화시키는 경우 즉 원래 오디오 신호의 샘플링 간격과 보간부의 샘플링 간격이 동일한 경우에는 추출된 주파수를 fshift = f(1+Rf)와 같이 변화시킨다. 여기서 Rf는 주파수 변화율이다. 일반적으로 반음을 올리거나 내릴 경우 원래 주파수의 6% 만큼 주파수의 변화가 있으므로 n-반음정을 올리거나 내리기 위해서는 fshift = f{1±(0.06)n}와 같이 주파수를 변화시키면 된다. When the extraction of the frequency components for one frame is completed, if the pitch is changed without changing the playback speed, i.e., if the sampling interval of the original audio signal and the sampling interval of the interpolator are the same, the extracted frequency is shifted by f shift = f (1+ R f ) Where R f is the rate of change of frequency. In general, if you raise or lower the semitone, the frequency changes by 6% of the original frequency. To increase or decrease the n-half pitch, change the frequency as f shift = f {1 ± (0.06) n }.

음정과 재생속도를 동시에 가변 시켜는 경우는 재생속도로부터 (원래속도/가변속도) = Rt 로 부터 Rt를 구하고, 변화시키고 싶은 반음의 수 n에 따라 주파수 변화비율 Rfinal = (1±0.06n)을 결정하고, Rfinal = Rf x Rt로 부터 주파수 변화율 Rf = (1±0.06n)/ Rt 결정하여 최종적으로 fshift = f(1+Rf)을 구한다.If the pitch and playback speed are to be changed at the same time, find R t from the playback speed (original speed / variable speed) = R t , and change the frequency ratio according to the number of semitones n to be changed. R final = (1 ± 0.06 n ) and R final = R f x Rate of change from R t R f = (1 ± 0.06 n ) / R t Finally, f shift = f (1 + R f ) is obtained.

그리고 입력 데이터 재구성부(46)의 입력 데이터 재구성(regenerating IMDCT input data) 과정은 다음과 같다.The process of regenerating IMDCT input data of the input data reconstruction unit 46 is as follows.

상기 과정을 거쳐 추출한 주파수 성분(f = kin+ε), 음정변화에 따른 주파수 변화율(Rf), 위상(

Figure 112012080588972-pat00042
), 정수 주파수 성분(kin), 진폭 정보(Ak)를 이용하여 수학식 13과 같이 IMDCT 입력 데이터 X'(k)를 다시 생성한다. 수학식 13에서 k는 IMDCT 영역의 주파수 성분이다.Frequency component (f = k in + ε) extracted through the above process, frequency change rate (R f ) according to pitch change, phase (
Figure 112012080588972-pat00042
), The IMDCT input data X '(k) is regenerated using the integer frequency component k in and the amplitude information A k as shown in Equation (13). In Equation 13, k is a frequency component of the IMDCT region.

Figure 112012080588972-pat00043
Figure 112012080588972-pat00043

여기서

Figure 112012080588972-pat00044
here
Figure 112012080588972-pat00044

상기 수학식 13을 이용하여 여러 윈도우로 구성된 프레임을 각 각의 윈도우에 대하여 IMDCT 과정을 거치면 그 프레임에 대하여 음정이 변화된 시간영역의 오디오신호를 얻을 수 있다. 이러한 개념을 사용하여 시간영역의 오디오신호를 필요에 따라 적절하게 보간을 하면 음정가변, 속도 가변, 음정 및 속도 동시가변 효과를 얻을 수 있다.When the frame consisting of several windows is subjected to an IMDCT process for each window using Equation 13, an audio signal of a time domain in which the pitch is changed for the frame can be obtained. Using this concept, if the audio signal in the time domain is properly interpolated as needed, the effect of pitch variation, speed variation, pitch and velocity can be obtained.

보간 단계에서 속도 및 음정변화 변화 개념을 도 7을 이용하여 상세히 설명하면 다음과 같다.The concept of change in speed and pitch change in the interpolation step will be described in detail with reference to FIG. 7.

도 7a를 음정 변화가 안된 원래의 신호라고 가정한다.Assume FIG. 7A as an original signal with no change in pitch.

도 7b는 상기 IMDCT 과정을 통하여 주파수변환 즉 음정변환이 된 신호이다.FIG. 7B shows a frequency transformed signal, ie, a pitch transformed signal, through the IMDCT process.

도 7a와 도 7b에서 T0/Tsh를 주파수 변환비율 Rf라고 한다. Rf가 1보다 크게 되면 원래 오디오 신호보다 주파수가 올라가 음정이 높아진다.In FIGS. 7A and 7B, T 0 / T sh is referred to as a frequency conversion ratio R f . If R f is greater than 1, the frequency will be higher than the original audio signal, resulting in higher pitch.

도 7b와 도 7c에서 신호를 샘플링 하는 간격 ts와, t's의 비 ts/ t's를 샘플링 간격의 비 Rt라고 정의한다. 샘플링 간격의 비 Rt는 재생속도의 비 (원래속도/가변속도)와 같이 생각해도 된다.The interval t and s, t 's ratio t s / t of a' s for sampling the signal in Figure 7b and Figure 7c are defined as R t ratio of the sampling interval. The ratio R t of the sampling interval may be thought of as the ratio of the reproduction speed (original speed / variable speed).

여기서 재생속도가 느린 경우는 (원래속도/가변속도)가 1보다 큰 경우이다. The slower playback speed is when (original speed / variable speed) is greater than 1.

샘플링 간격을 짧게 하면 주어진 시간에 많은 샘플 데이터를 얻을 수 있어, 음정을 변화시키지 않은 신호에 대하여 샘플링 간격의 비 Rt 1보다 크게하면 느리게 재생되고 음정이 낮아진다. 이러한 개념을 사용하면 샘플링 간격의 비를 조절함으로써 재생속도와 음정을 바꿀 수 있다.If a shorter sampling interval, it is possible to obtain a number of samples of data at a given time, the ratio R t of sampling interval with respect to the signals that are not to change the pitch Greater than 1 Slow playback and low pitch. Using this concept, you can change the playback speed and pitch by adjusting the sampling interval ratio.

원래의 주파수(f)가 상기 IMDCT 전처리과정과 IMDCT를 통하여 Rf 비율로 주파수 변환이 일어났다면 보간단계 전의 주파수는 (Rf x f)가 된다. 변환된 신호의 샘플링 간격과 보간 단계의 샘플링 간격의 비가 Rt 이라면 보간 단계를 거친 최종 신호의 주파수는 (Rf x f) x Rt가 된다.If the original frequency f is converted into the R f ratio through the IMDCT preprocessing and IMDCT, the frequency before the interpolation step becomes (R f xf). If the ratio between the sampling interval of the converted signal and the sampling interval of the interpolation step is R t, the frequency of the final signal that has undergone the interpolation step is (R f xf) x R t .

상기 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변장치에서 음정변화 없이 재생속도를 변화시켜려면 (원래속도/가변속도) = ts/t's= Rt로 부터 Rt를 구한 후 (Rf x Rt) = 1 되게 IMDCT 전처리 단계의 주파수 변화율 Rf를 정하면 된다. 그리고 원신호의 샘플링 간격 ts는 이미 알고 있는 값이므로 음정변화 없이 재생속도를 변화시킬 수 있는 t's를 구할 수 있다. After obtaining the R t from the pitch and speed To by changing the reproduction speed without a pitch change in the adjustment device (original speed / variable speed) = t s / t 's = R t of the audio signal using the IMDCT (R f x R t ) = 1 to determine the frequency change rate R f of the IMDCT preprocessing step. Since the sampling interval t s of the original signal is a known value, t ' s can be obtained which can change the playback speed without changing the pitch.

상기 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변장치에서 음정을 변화시키고자 하는 경우에는 음정변화비율 Rf를 IMDCT 전처리 단계의 주파수 변화율 Rf로 정하고 샘플링 간격 비율은 변화시키지 않고 재생하면 된다. In the case of changing the pitch of the audio signal using the IMDCT, the pitch change rate R f is set to the frequency change rate R f of the IMDCT preprocessing step, and the sampling interval rate is not changed.

Rf가 1보다 크면 음정이 높아지고 1보다 작으면 음정이 낮아진다. 일반적으로 반음은 주파수 측면에서 ±6% 변화를 가져오므로 변화시키려는 반음의 수(n)에 따라 주파수 변환율을 Rf = (1±0.06n) 형태로 결정하여 수학식 13을 이용하여 IMDCT 입력 X'(k)을 재생성한다.If R f is greater than 1, the pitch is higher; if it is less than 1, the pitch is lower. Typically, the half-step is the frequency conversion factor in accordance with the half-step count (n) of a wish to change to is imported to ± 6% change in the frequency side R f = (1 ± 0.06 n ) and regenerate the IMDCT input X '(k) using Equation 13.

상기 IMDCT를 이용한 오디오 신호의 음정 및 속도 가변장치에서 음정과 재생속도를 동시에 변화시키려는 경우에는 재생속도로부터 (원래속도/가변속도) = Rt 로부터 Rt를 구하고, 변화시키고 싶은 반음의 수 n에 따라 주파수 변화비율 Rfinal = (1±0.06n)을 결정하고 Rfinal = Rf x Rt로부터 IMCDT 전처리 단계의 주파수 변화율 Rf를 결정하여 수학식 13을 이용하여 IMDCT 입력 X'(k)을 재생성하고 재생성할 신호의 샘플링 간격(t's)은 (원래속도/가변속도) = ts/t's = Rt 을 이용하여 구한다. In the case in pitch and speed change device of the audio signal using the IMDCT you change the pitch and playback rate at the same time, the number of halftone wants to obtain the R t (Fig original speed / variable speed) = R t from the reproduction speed, changing n According to frequency change rate R final = (1 ± 0.06 n ) and R final = R f The frequency change rate R f of the IMCDT preprocessing step is determined from x R t to regenerate the IMDCT input X '(k) using Equation 13, and the sampling interval t' s of the signal to be regenerated is (original speed / variable speed). = t s / t ' s = R t Obtain it using

이와 같은 본 발명에 따른 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법은 IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 시간의 영역의 신호로 변환하기 전에 입력되는 주파수 데이터 X(k)를 가공하여 음정을 변화시킬 수 있도록 한 것으로, IMDCT 과정에서 원하는 만큼 주파수를 용이하게 변화시키기 위해서는 입력 데이터 X(k)의 주파수 성분과 진폭을 분리하여 방정식 형태로 표시하는 과정을 포함하고, IMDCT 과정을 거쳐 시간영역으로 변화된 오디오 신호의 샘플링 간격을 조절하여 음정, 재생속도, 음정 및 재생속도 동시 가변이 가능하게 하는 보간 과정을 포함하여, 계산량 및 메모리의 사용을 줄일 수 있도록 한 것이다.The apparatus and method for varying the pitch and speed of an audio signal using the IMDCT input signal according to the present invention are to convert the frequency data X (k) input before converting the signal into a time domain through an Inverse Modified Discrete Cosine Transform (IMDCT). In order to easily change the frequency in the IMDCT process, the frequency component and amplitude of the input data X (k) are separated and displayed in the form of an equation. It includes an interpolation process that enables the simultaneous adjustment of the pitch, playback speed, pitch and playback speed by adjusting the sampling interval of the audio signal changed into the time domain.

상기 개념을 이용하면 음정변화뿐만 아니라 임의의 주파수와 임의의 재생속도를 얻을 수 있다.Using the above concept, not only the pitch change but also the arbitrary frequency and the arbitrary playback speed can be obtained.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.As described above, it will be understood that the present invention is implemented in a modified form without departing from the essential characteristics of the present invention.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.It is therefore to be understood that the specified embodiments are to be considered in an illustrative rather than a restrictive sense and that the scope of the invention is indicated by the appended claims rather than by the foregoing description and that all such differences falling within the scope of equivalents thereof are intended to be embraced therein It should be interpreted.

41. 윈도우부 42. 주파수 추출부
43. 위상 추출부 44. 진폭 추출부
45. 주파수 변환부 46. 입력 데이터 재구성부
47. IMDCT 블록 48. 합성필터뱅크
49. 보간부
41. Window section 42. Frequency extraction section
43. Phase Extraction Section 44. Amplitude Extraction Section
45. Frequency converter 46. Input data reconstruction unit
47. IMDCT Block 48. Synthetic Filter Bank
49. Interpolator

Claims (24)

처리할 샘플의 개수를 결정하는 윈도우부;
상기 윈도우부에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부 및 위상 추출부, 진폭을 추출하는 진폭 추출부;
상기 추출된 주파수를 변환하는 주파수 변환부;
상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부;
IMDCT(Inverse Modified Discrete Cosine Transform)를 통하여 상기 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록;
상기 IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크;를 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 장치.
A window unit for determining the number of samples to be processed;
A frequency extractor, a phase extractor, and an amplitude extractor to extract a frequency and a phase of the IMDCT input data X (k) at a window size determined by the window unit;
A frequency converter for converting the extracted frequency;
An input data reconstruction unit configured to reconstruct IMDCT input data using the converted frequency, the extracted phase and amplitude;
An IMDCT block for transforming the reconstructed input data into a time domain through an inverse modified discrete cosine transform (IMDCT);
Synthesis filter bank for synthesizing the various subband components transformed into the time domain through the IMDCT; Pitch variable device of an audio signal using an IMDCT input signal comprising a.
제 1 항에 있어서, 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성하는 데 필요한 윈도우를 결정하기 위하여,
분석 대상이 되는 주파수 영역의 윈도우 크기를 다른 영역에 비하여 상대적으로 작게 하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 장치.
The method of claim 1, wherein in order to determine a window necessary for analyzing and reconstructing X (k) which is IMDCT input data in the window unit,
A pitch variable device for an audio signal using an IMDCT input signal, wherein a window size of a frequency domain to be analyzed is relatively smaller than other regions.
제 1 항에 있어서, 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하기 위하여,
서버밴드와 서버밴드, 프레임과 프레임 경계에서 분석윈도우를 중첩시켜 설정하고,
분석윈도우 내에서 스펙트럼을 계산을 통하여 정수주파수(kin)를 찾아 그 주파수를 중심으로 분석 윈도우를 구성하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 장치.
The method of claim 1, wherein in order to determine a window necessary for analyzing and reconstructing X (k) which is IMDCT input data in the window unit,
Set up the analysis window by overlapping the server band, server band, frame and frame boundary.
A device for changing the pitch of an audio signal using an IMDCT input signal, characterized by finding an integer frequency (k in ) by calculating a spectrum in an analysis window and configuring an analysis window around the frequency.
IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 IMDCT에 입력되는 데이터(X(k))를 처리하여 음정을 변화시키기 위하여,
주파수 추출을 위한 샘플의 수를 결정하는 윈도우 크기 결정 단계;
선택된 윈도우 크기로 IMDCT 과정에 필요한 입력 데이터 X(k)의 주파수(k), 위상, 진폭을 추출하는 단계;
추출된 주파수를 변환하고, 변환된 주파수와 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 단계;
주파수 영역의 데이터를 시간영역으로 변환하는 IMDCT 단계;
IMDCT 과정에서 만들어진 다양한 주파수의 시간영역 신호를 합성하는 합성필터뱅크 단계;를 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.
In order to change the pitch by processing the data (X (k)) input to the IMDCT before converting it into a signal in the time domain through the IMDCT,
Determining a window size to determine the number of samples for frequency extraction;
Extracting frequency (k), phase, and amplitude of input data X (k) necessary for the IMDCT process with the selected window size;
Converting the extracted frequency and reconstructing the IMDCT input data using the converted frequency and the extracted phase and amplitude;
An IMDCT step of converting data in the frequency domain into the time domain;
Synthesis filter bank step of synthesizing the time-domain signal of the various frequencies produced in the IMDCT process; pitch control method of the audio signal using the IMDCT input signal comprising a.
제 4 항에 있어서, 상기 IMDCT 입력 데이터 X(k)의 주파수 추출 단계에서,
IMDCT 입력 데이터 X(k)의 주파수를 정수부(kin)와 소수부(ε)로 나누어 f = kin+ε로 표시하고, 이웃하는 세 개의 주파수 성분 X(kin-1), X(kin), X(kin+1)을 이용하여 분석하는 윈도우 내 존재하는 모든 스펙트럼 값을 구하여 그 중 가장 큰 스펙트럼 값(Sk)을 만드는 kin를 정수부 주파수 성분(kin)으로 하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.
The method of claim 4, wherein in the frequency extraction of the IMDCT input data X (k),
The frequency of the IMDCT input data X (k) is divided by the integer part (k in ) and the fractional part (ε) and expressed as f = k in + ε, and the three neighboring frequency components X (k in -1) and X (k in ), Where k in is the integer frequency component (k in ) that obtains all the spectral values existing in the window analyzed using X (k in +1) and makes the largest spectral value (S k ). A pitch variable method of an audio signal using an IMDCT input signal.
제 5 항에 있어서, 상기 주파수 성분의 소수부분 ε을,
Figure 112012080588972-pat00045
라고 두면,
Figure 112012080588972-pat00046
인 경우에 대해서
Figure 112012080588972-pat00047

Figure 112012080588972-pat00048
라고 두면,
Figure 112012080588972-pat00049
인 경우에 대해서
Figure 112012080588972-pat00050

2 종류를 구하고, αβ 중에서 어느 것을 사용한 것인지의 결정은, 윈도우 내의 가장 큰 주파수 성분 X(kin)의 절대값과 kin의 스펙트럼 값(Sk)의 비율을
Figure 112012080588972-pat00051
로 정의하고, 그 비율이 특정 문턱값(threshold) λ0 과 비교하여 작으면 α, 그 외의 경우엔 β를 선택하여 주파수 성분의 소수부분인(ε)을 얻는 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.
6. The fractional portion ε of the frequency component according to claim 5,
Figure 112012080588972-pat00045
If you say,
Figure 112012080588972-pat00046
About
Figure 112012080588972-pat00047

Figure 112012080588972-pat00048
If you say,
Figure 112012080588972-pat00049
About
Figure 112012080588972-pat00050

Determining which of the two and using α and β is used to determine the ratio of the absolute value of the largest frequency component X (k in ) in the window and the spectral value S k of k in .
Figure 112012080588972-pat00051
If the ratio is small compared to the specific threshold λ 0 , audio is selected using α , otherwise β is obtained to obtain the fractional part of the frequency component (ε). Pitch variable method of signal.
제 4 항에 있어서, IMDCT 데이터 X(k)의 위상
Figure 112012080588972-pat00052
를 추출하기 위해서 추출한 IMDCT 정수부 주파수 성분(kin)을 이용하여 계산하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.
5. The phase of claim 4 wherein the phase of IMDCT data X (k).
Figure 112012080588972-pat00052
A method of varying the pitch of an audio signal using an IMDCT input signal, characterized in that it is calculated using the extracted IMDCT integer frequency component (k in ).
제 4 항에 있어서, 상기 진폭을 추출하는 단계에서,
정수부 주파수 성분(Kin)과 소수부(ε) 주파수 성분을 이용하여 IMDCT 입력 데이터의 진폭 Ak를 구하는 것을 특징으로 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.
The method of claim 4, wherein in the extracting of the amplitude,
A method for varying the pitch of an audio signal using an IMDCT input signal, characterized by obtaining the amplitude A k of the IMDCT input data using the integer frequency component (Kin) and the fractional frequency (ε) frequency component.
제 4 항에 있어서, 상기 IMDCT 입력 데이터를 재구성하는 단계에서,
상기 윈도우 선택과정, 주파수 추출과정, 위상 추출과정, 주파수 변환 과정으로부터 얻은 윈도우 크기(N), 주파수(f = kin+ε), 위상(
Figure 112012080588972-pat00053
), 변환된 주파수 fshift = f(1+Rf), 을 이용하여 IMDCT 입력 X'(k)를 구하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 가변 방법.
The method of claim 4, wherein in the step of reconstructing the IMDCT input data,
Window size (N), frequency (f = k in + ε), phase (from the window selection process, frequency extraction process, phase extraction process, frequency conversion process)
Figure 112012080588972-pat00053
), IMDCT input X '(k) by using the converted frequency f shift = f (1 + R f ), characterized in that the pitch of the audio signal using the IMDCT input signal.
처리할 샘플의 윈도우 크기를 결정하는 윈도우부;
상기 윈도우부에서 결정된 윈도우 크기로 IMDCT 입력 데이터 X(k)의 주파수와 위상을 추출하는 주파수 추출부 및 위상 추출부, 진폭을 추출하는 진폭 추출부;
상기 추출된 주파수를 변환하는 주파수 변환부;
상기 변환된 주파수, 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 입력 데이터 재구성부;
IMDCT를 통하여 재구성된 입력 데이터를 시간 영역으로 변환하는 IMDCT 블록;
IMDCT를 통하여 시간영역으로 변환된 여러 서브밴드 성분을 합성하는 합성 필터뱅크;
상기 합성 필터뱅크에서 출력되는 오디오 신호의 샘플링 간격을 조절하여 재생속도를 변화시키는 보간부(Interpolator);를 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치.
A window unit for determining a window size of a sample to be processed;
A frequency extractor, a phase extractor, and an amplitude extractor to extract a frequency and a phase of the IMDCT input data X (k) at a window size determined by the window unit;
A frequency converter for converting the extracted frequency;
An input data reconstruction unit configured to reconstruct IMDCT input data using the converted frequency, the extracted phase and amplitude;
An IMDCT block for converting input data reconstructed through IMDCT into a time domain;
A synthesis filter bank for synthesizing various subband components transformed into time domain through IMDCT;
And an interpolator configured to change a playback speed by adjusting a sampling interval of an audio signal output from the synthesis filter bank, and an audio signal and a speed varying device using an IMDCT input signal.
제 10 항에 있어서, 상기 IMDCT 블록에서 오디오 신호의 음정을 변화시키기 위하여 IMDCT 입력 데이터 X(k)로 부터 정현파 성분으로 분해하여 추출한 후, 원하는 만큼 주파수를 변환하여 IMDCT 입력을 재구성하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치.11. The method of claim 10, wherein in order to change the pitch of the audio signal in the IMDCT block to extract the sine wave component from the IMDCT input data X (k), and to convert the frequency as desired by reconfiguring the IMDCT input, characterized in that Pitch and speed variable device of audio signal using IMDCT input signal. 제 10 항에 있어서, 상기 윈도우부에서 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하기 위하여,
분석 대상이 되는 주파수 영역의 윈도우 크기를 다른 영역에 비하여 상대적으로 작게 하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치.
The method of claim 10, wherein in order to determine a window necessary for analyzing and reconstructing X (k) which is IMDCT input data in the window unit,
An apparatus for changing the pitch and speed of an audio signal using an IMDCT input signal, wherein a window size of a frequency domain to be analyzed is relatively smaller than that of other regions.
제 10 항에 있어서, 상기 윈도우부에서의 IMDCT 입력 데이터인 X(k)를 분석하고 재구성 하는데 필요한 윈도우를 결정하는 데 있어 서버밴드와 서버밴드, 프레임과 프레임 경계에서 분석윈도우를 중첩시켜 설정하고,
분석윈도우 내에서 스펙트럼을 계산을 통하여 정수주파수(kin)를 찾아 그 주파수를 중심으로 분석 윈도우를 구성하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치.
The method of claim 10, wherein the analysis window is superimposed on the server band, server band, frame and frame boundary to determine a window required for analyzing and reconstructing X (k), which is IMDCT input data in the window unit,
An apparatus for varying the pitch and speed of an audio signal using an IMDCT input signal, characterized by finding an integer frequency (k in ) by calculating a spectrum in an analysis window and configuring an analysis window around the frequency.
IMDCT를 통하여 시간의 영역의 신호로 변환하기 전에 IMDCT에 입력되는 데이터(X(k))를 처리하여 음정을 변화시키기 위하여,
주파수 추출을 위한 샘플의 수를 결정하는 윈도우 크기 결정 단계;
선택된 윈도우 크기로 IMDCT 과정에 필요한 입력 데이터 X(k)의 주파수(k), 위상, 진폭을 추출하는 단계;
추출된 주파수를 변환하고, 변환된 주파수와 추출된 위상과 진폭을 이용하여 IMDCT 입력 데이터를 재구성하는 단계;
IMDCT 처리 및 보간을 하여 코딩된 오디오 신호를 출력하는 단계;를 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
In order to change the pitch by processing the data (X (k)) input to the IMDCT before converting it into a signal in the time domain through the IMDCT,
Determining a window size to determine the number of samples for frequency extraction;
Extracting frequency (k), phase, and amplitude of input data X (k) necessary for the IMDCT process with the selected window size;
Converting the extracted frequency and reconstructing the IMDCT input data using the converted frequency and the extracted phase and amplitude;
Outputting a coded audio signal by performing IMDCT processing and interpolation; and a method of varying the pitch and speed of the audio signal using the IMDCT input signal.
제 14 항에 있어서, 상기 IMDCT 처리 과정에서 원하는 만큼 주파수를 변화시키기 위해서 IMDCT 입력 데이터 X(k)의 주파수, 위상, 진폭을 분리하여 방정식 형태로 표시하거나 그 방정식을 look-up 테이블 형태로 저장해두고 사용하는 과정을 포함하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.15. The method of claim 14, wherein the frequency, phase, and amplitude of the IMDCT input data X (k) are separated and displayed in the form of an equation or stored in the form of a look-up table in order to change the frequency as desired in the IMDCT process. Method of varying the pitch and speed of an audio signal using an IMDCT input signal, characterized in that it comprises a process of using. 제 14 항에 있어서, IMDCT 입력 데이터 X(k)의 주파수 추출 단계에서,
IMDCT 입력 데이터 X(k)의 주파수를 정수부(kin)와 소수부(ε)로 나누어 f = kin+ε로 표시하고, 이웃하는 세 개의 주파수 성분 X(kin-1), X(kin), X(kin+1)을 이용하여 분석하는 윈도우 내 존재하는 모든 스펙트럼 값을 구하여 그 중 가장 큰 스펙트럼 값(Sk)을 만드는 kin를 정수부 주파수 성분(kin)으로 하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
15. The method of claim 14, wherein in the step of extracting the frequency of the IMDCT input data X (k),
The frequency of the IMDCT input data X (k) is divided by the integer part (k in ) and the fractional part (ε) and expressed as f = k in + ε, and the three neighboring frequency components X (k in -1) and X (k in ), Where k in is the integer frequency component (k in ) that obtains all the spectral values existing in the window analyzed using X (k in +1) and makes the largest spectral value (S k ). A pitch and speed variable method of an audio signal using an IMDCT input signal.
제 16 항에 있어서, 상기 주파수 성분의 소수부분 ε을,
Figure 112012080588972-pat00054
라고 두면,
Figure 112012080588972-pat00055
인 경우에 대해서
Figure 112012080588972-pat00056

Figure 112012080588972-pat00057
라고 두면,
Figure 112012080588972-pat00058
인 경우에 대해서
Figure 112012080588972-pat00059

2 종류를 구하고, αβ 중에서 어느 것을 사용한 것인지의 결정은, 윈도우 내의 가장 큰 주파수 성분 X(kin)의 절대값과 kin의 스펙트럼 값의 비율을
Figure 112012080588972-pat00060
로 정의하고, 그 비율이 특정 문턱값(threshold) λ0 과 비교하여 작으면 α, 그 외의 경우엔 β를 선택하여 주파수 성분의 소수부분인(ε)을 얻는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
17. The method of claim 16, wherein the fractional part epsilon of the frequency component is
Figure 112012080588972-pat00054
If you say,
Figure 112012080588972-pat00055
About
Figure 112012080588972-pat00056

Figure 112012080588972-pat00057
If you say,
Figure 112012080588972-pat00058
About
Figure 112012080588972-pat00059

Determining which of the two types is used and determining which of α and β uses the ratio of the absolute value of the largest frequency component X (k in ) in the window to the spectral value of k in .
Figure 112012080588972-pat00060
If the ratio is small compared to a specific threshold λ 0 , then α is selected, otherwise β is obtained to obtain a fraction (ε) of the frequency component. How to change the pitch and speed of the audio signal.
제 14 항에 있어서, IMDCT 데이터 X(k)의 위상
Figure 112012080588972-pat00061
를 추출하기 위해서 추출한 IMDCT 정수부 주파수 성분(kin)을 이용하여 계산하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
15. The phase of claim 14, wherein the phase of the IMDCT data X (k).
Figure 112012080588972-pat00061
A method of varying the pitch and speed of an audio signal using an IMDCT input signal, characterized in that it is calculated using the extracted IMDCT integer frequency component (k in ).
제 14 항에 있어서, 상기 진폭을 추출하는 단계에서,
정수부 주파수 성분(Kin)과 소수부(ε) 주파수 성분을 이용하여 IMDCT 입력 데이터의 진폭 Ak를 구하는 것을 특징으로 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
The method of claim 14, wherein in the step of extracting the amplitude,
A method for varying the pitch and speed of an audio signal using an IMDCT input signal, characterized by obtaining the amplitude A k of the IMDCT input data using the integer frequency component (Kin) and the fractional frequency (ε) frequency component.
제 14 항에 있어서,
가변속도와 주파수 변화량에 따라 주파수 변환부와 보간부를 연동하여, 주파수 변화량과 샘플링 간격을 조절하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
15. The method of claim 14,
A method of varying the pitch and speed of an audio signal using an IMDCT input signal, wherein the frequency converter and the interpolation unit are interlocked according to a variable speed and a frequency change amount to adjust a frequency change amount and a sampling interval.
제 20 항에 있어서, 음정변화 없이 재생속도를 변화시키기 위하여,
상기 IMDCT 처리 및 보간을 하여 코딩된 오디오 신호를 출력하는 단계와 연계하여 원래 속도를 1로 할 때 가변속도, 원신호의 샘플링 간격(ts), 새롭게 만들 신호의 샘플링 간격(t's), (원래속도/가변속도) = ts/t's = Rt 관계를 이용하여 Rt를 구한 후 (Rf x Rt) = 1 되게 Rf를 결정한 다음,
상기 추출한 IMDCT 입력 데이터 X(k)의 주파수 성분(k)을 fshift = f(1+Rf) 변화시키는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
The method of claim 20, wherein in order to change the reproduction speed without changing the pitch,
The sampling interval of the variable speed, the original signal when the in the IMDCT processing and interpolation in connection with the step of outputting a coded audio signal to the original rate by 1 (t s), the sampling interval of the newly created signal (t 's), (Original speed / variable speed) = t s / t ' s = R t Find R t using the relationship (R f Determine R f so that x R t ) = 1
A method of varying the pitch and speed of an audio signal using an IMDCT input signal, wherein the frequency component k of the extracted IMDCT input data X (k) is changed by f shift = f (1 + R f ).
제 20 항에 있어서, 음정과 재생속도를 동시에 변화시키려는 경우에는 재생속도로부터 (원래속도/가변속도) = Rt로부터 Rt를 구하고, 변화시키고 싶은 반음의 수 n에 따라 주파수 변화비율 Rfinal = (1±0.06n)을 결정하고, Rfinal = Rf x Rt 관계로부터 IMCDT 전처리 단계의 주파수 변화율 Rf를 결정하여 fshift = f(1+Rf)을 이용하여 주파수를 변화시키는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법. The frequency change ratio R final = according to claim 20, wherein when the pitch and the playback speed are to be changed simultaneously, R t is obtained from the playback speed (original speed / variable speed) = R t and the number of semitones to be changed n is final. Determine (1 ± 0.06 n ), determine the frequency change rate R f of the IMCDT preprocessing step from the relationship R final = R f x R t and change the frequency using f shift = f (1 + R f ) Pitch and speed variable method of the audio signal using the IMDCT input signal. 제 20 항에 있어서, 상기 IMDCT 입력 데이터를 재구성하는 단계에서,
상기 윈도우 선택과정, 주파수 추출과정, 위상 추출과정, 주파수 변환 과정으로부터 얻은 윈도우 크기(N), 주파수(f = kin+ε), 위상(
Figure 112012080588972-pat00062
), 변환된 주파수 fshift = f(1+Rf), 을 이용하여 IMDCT 입력 X'(k)를 구하는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
21. The method of claim 20, wherein in reconstructing the IMDCT input data:
Window size (N), frequency (f = k in + ε), phase (from the window selection process, frequency extraction process, phase extraction process, frequency conversion process)
Figure 112012080588972-pat00062
And an IMDCT input X '(k) using the converted frequency f shift = f (1 + R f ),.
제 20 항에 있어서, 상기 샘플링 간격의 조절은,
원래속도/가변속도, 원 신호의 샘플링 간격(ts), 보간에 의해 재생성되는 오디오 신호의 샘플링 간격(t's) 사이에 Rt=(원래속도/가변속도)= ts/t's 관계식이 성립하고, IMDCT 전 단계의 주파수 변환부의 주파수 변화량이 Rf 이라면 최종 음정이 가변속도와 (Rf x f)x Rt 로 결정되는 것을 특징으로 하는 IMDCT 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 방법.
The method of claim 20, wherein the adjustment of the sampling interval,
Between the original speed / variable speed, the sampling interval of the original signal (t s ), and the sampling interval of the audio signal regenerated by interpolation (t ' s ), R t = (original speed / variable speed) = t s / t' s If the relation is established and the frequency variation of the frequency converter in the previous stage of IMDCT is R f, the final pitch is the variable speed and (R f xf) x R t is a pitch and speed variable method of an audio signal using the IMDCT input signal characterized in that it is determined.
KR1020120110337A 2012-10-04 2012-10-04 Tone and speed contorol system and method of audio signal using imdct input KR101333162B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120110337A KR101333162B1 (en) 2012-10-04 2012-10-04 Tone and speed contorol system and method of audio signal using imdct input
PCT/KR2013/008905 WO2014054918A1 (en) 2012-10-04 2013-10-04 Apparatus and method for varying tone and acceleration of audio signal by using imdct input signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120110337A KR101333162B1 (en) 2012-10-04 2012-10-04 Tone and speed contorol system and method of audio signal using imdct input

Publications (1)

Publication Number Publication Date
KR101333162B1 true KR101333162B1 (en) 2013-11-27

Family

ID=49858505

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120110337A KR101333162B1 (en) 2012-10-04 2012-10-04 Tone and speed contorol system and method of audio signal using imdct input

Country Status (2)

Country Link
KR (1) KR101333162B1 (en)
WO (1) WO2014054918A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739544A (en) * 2019-03-25 2020-10-02 Oppo广东移动通信有限公司 Voice processing method and device, electronic equipment and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970050862A (en) * 1995-12-28 1997-07-29 슈즈이 다케오 Sonic pitch converter
JP2001102932A (en) 1999-09-28 2001-04-13 Sanyo Electric Co Ltd Device and method for reproducing audio signal
JP2009501353A (en) 2005-07-14 2009-01-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Audio signal synthesis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970050862A (en) * 1995-12-28 1997-07-29 슈즈이 다케오 Sonic pitch converter
JP2001102932A (en) 1999-09-28 2001-04-13 Sanyo Electric Co Ltd Device and method for reproducing audio signal
JP2009501353A (en) 2005-07-14 2009-01-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Audio signal synthesis

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739544A (en) * 2019-03-25 2020-10-02 Oppo广东移动通信有限公司 Voice processing method and device, electronic equipment and storage medium
CN111739544B (en) * 2019-03-25 2023-10-20 Oppo广东移动通信有限公司 Voice processing method, device, electronic equipment and storage medium

Also Published As

Publication number Publication date
WO2014054918A1 (en) 2014-04-10

Similar Documents

Publication Publication Date Title
CA2867069C (en) Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal
CN101971252B (en) Device and method for manipulating an audio signal having a transient event
JP6026678B2 (en) Compression and decompression apparatus and method for reducing quantization noise using advanced spectrum expansion
CA2721402C (en) Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
CN101149926B (en) Audio signal interpolation method and device
MX2012010416A (en) Apparatus and method for processing an audio signal using patch border alignment.
JP2003108197A (en) Audio signal decoding device and audio signal encoding device
KR101333162B1 (en) Tone and speed contorol system and method of audio signal using imdct input
AU2023202547B2 (en) Improved Subband Block Based Harmonic Transposition
AU2019240701B2 (en) Improved Subband Block Based Harmonic Transposition
JP5392057B2 (en) Audio processing apparatus, audio processing method, and audio processing program

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161121

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171108

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee