KR100388488B1 - A fast pitch analysis method for the voiced region - Google Patents

A fast pitch analysis method for the voiced region Download PDF

Info

Publication number
KR100388488B1
KR100388488B1 KR10-2000-0083271A KR20000083271A KR100388488B1 KR 100388488 B1 KR100388488 B1 KR 100388488B1 KR 20000083271 A KR20000083271 A KR 20000083271A KR 100388488 B1 KR100388488 B1 KR 100388488B1
Authority
KR
South Korea
Prior art keywords
pitch
voiced sound
pitch search
frame
search
Prior art date
Application number
KR10-2000-0083271A
Other languages
Korean (ko)
Other versions
KR20020054237A (en
Inventor
성호상
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2000-0083271A priority Critical patent/KR100388488B1/en
Publication of KR20020054237A publication Critical patent/KR20020054237A/en
Application granted granted Critical
Publication of KR100388488B1 publication Critical patent/KR100388488B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야1. TECHNICAL FIELD OF THE INVENTION

본 발명은 유성음 구간에서의 고속 피치 탐색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.The present invention relates to a fast pitch search method in voiced sound intervals and a computer readable recording medium having recorded thereon a program for realizing the method.

2. 발명이 해결하고자 하는 기술적 과제2. Technical problem to be solved by the invention

본 발명은, CELP 계열의 음성 부호화기에서 유성음으로 판단이 된 프레임이 연속되면 이전 프레임의 피치 주위에서만 탐색하여 피치의 변화량을 통해 계산량을 줄임으로써, 유성음 구간의 피치 탐색시간을 줄이기 위한 유성음 구간에서의 고속 피치 탐색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.According to the present invention, when a frame determined to be voiced by a CELP-based speech coder is continuous, the present invention searches only around the pitch of the previous frame and reduces the amount of calculation through the change amount of the pitch, thereby reducing the pitch search time of the voiced sound section. A high speed pitch search method and a computer readable recording medium having recorded thereon a program for realizing the method.

3. 발명의 해결방법의 요지3. Summary of Solution to Invention

본 발명은, 유성음 구간에서의 고속 피치 탐색장치에 적용되는 고속 피치 탐색 방법에 있어서, 프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 단계; 상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 단계; 및 상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 단계를 포함함.The present invention relates to a fast pitch search method applied to a fast pitch search apparatus in a voiced sound interval, the method comprising: measuring the activity of a voice signal input in units of frames and collecting the measured current voice activity and the pitch of a previous frame; Stage 1; A second step of determining a pitch search mode with reference to whether the voiced sound frame is sustained and a change amount of the pitch according to the collected current voice activity and pitch information of a previous frame; And a third step of searching for the pitch of the current frame around the pitch of the previous frame in the voiced sound interval by performing a low complexity pitch search on successive frames determined to be voiced sound with a small amount of pitch change according to the determined pitch search mode. Included.

4. 발명의 중요한 용도4. Important uses of the invention

본 발명은 음성 부호화의 기술 등에 이용됨.The present invention is used in the description of speech coding.

Description

유성음 구간에서의 고속 피치 탐색 방법{A fast pitch analysis method for the voiced region}A fast pitch analysis method for voiced region

본 발명은 유성음 구간에서의 고속 피치 탐색 방법에 관한 것으로, 보다 상세하게는 유성음 프레임의 지속 여부에 따라 피치의 변화량을 줄여 계산량을 줄이기 위한 유성음 구간에서의 고속 피치 탐색 방법 및 상기 방법을 실현시키기 위한프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.The present invention relates to a fast pitch search method in a voiced sound interval, and more particularly, to a fast pitch search method in a voiced sound interval and a method for realizing the method by reducing the amount of pitch change depending on whether the voiced sound frame is continuous. A computer readable recording medium having recorded a program.

일반적으로, 음성신호의 처리는 음성신호를 샘플링 및 양자화를 통해 추출된 데이터를 부호화기에 입력하는 것으로, 이와 같은 음성신호를 대상으로 하는 음성코딩 기술은 기술들은 ITU-T의 표준안 중에서 G.711 ~ G.712의 PCM(Pulse Code Modulation) 방식과 G.720 ~ G.729 시리즈 같은 PCM 이외의 방법으로 압축하는 방식이 있다.In general, the processing of a voice signal is to input data extracted through sampling and quantization of a voice signal into an encoder, and voice coding techniques for such voice signals are described in G.711 to ITU-T. There are two methods of compressing by PCM (Pulse Code Modulation) method of G.712 and method other than PCM such as G.720 ~ G.729 series.

또한, 음성을 유성음, 무성음, 묵음 및 주변소음 분별하는 기술은 많은 방식이 있으나, 음성활성도 측정(VAD : Voice Activity Detection) 알고리즘이 대표적이다. 특히, 디지털 음성신호에 대한 음성/비음성 분별 기술은 계산량 문제로 인해서 이 기술이 사용되는 음성 부호화기와 밀접한 관계를 갖는다.In addition, there are many techniques for discriminating voiced voiced voices, unvoiced voices, silences, and ambient noises, but voice activity detection (VAD) algorithms are typical. In particular, speech / non-voice discrimination techniques for digital speech signals are closely related to speech coders in which they are used due to computational issues.

음성 부호화기에서의 성능판단 기준으로는 음질, 복잡도, 전송율, 지연 등이 있다. 여기서, 복잡도는 음성 부호화기의 실시간 구현시 가장 문제가 되는 부분이며, 상기 복잡도가 낮으면 같은 프로세서에 더 많은 부호화기를 구현할 수도 있으며 하나의 부호화기를 구현할 때에는 더 낮은 성능의 프로세서에 구현할 수 있다. 이는 좀더 저렴한 프로세서의 선택을 가능하게 하며 경제성을 높이는 계기가 된다. 일반적으로 CELP(Code Excited Linear Prediction) 방식의 음성 부호화기는 LPC(Linear Predictive Coding) 계수와 피치 및 여기 신호가 가장 중요한 정보이다. 여기서, 여기 신호를 위한 코드북 탐색이 보통 가장 많은 계산량을 가지며, 다음으로 많은 계산량을 가지는 부분이 피치 정보를 탐색 부분이다. 여기서, 피치 정보는 화자의 식별이나 발성 문장의 분석에서 중요한 단서가 되므로 음성 처리를 위해 음성신호를 분석에서 중요한 역할을 한다.Performance judgment criteria in the speech encoder include sound quality, complexity, transmission rate, and delay. Here, the complexity is the most problematic part in real-time implementation of the speech coder. If the complexity is low, more encoders may be implemented in the same processor, and when implementing one encoder, it may be implemented in a lower performance processor. This makes it possible to select a less expensive processor and increases the economics. In general, a code excited linear prediction (CELP) type speech coder has linear predictive coding (LPC) coefficients, pitches, and excitation signals. Here, the codebook search for the excitation signal usually has the largest amount of computation, and the next portion with the highest amount of computation is the search for pitch information. Here, the pitch information plays an important role in analyzing the speech signal for speech processing because it is an important clue in speaker identification or analysis of speech sentences.

그러나, 피치 정보의 탐색은 피치 지연 20부터 143의 범위에 대해 상관도를 구하는 개루프 피치 탐색 과정과 구해진 피치 주변에서 실제 합성을 할 때 가장 좋은 결과를 가져오는 최적의 피치를 구하는 폐루프 피치 탐색 과정을 수행함에 따라 상기 개루프 피치 탐색에 따른 상관도를 구하는데 많은 계산량이 필요로 하여 그로 인한 실시간의 음성 부호화가 어려운 문제점이 있었다.However, the search for the pitch information is performed by the open loop pitch search process for obtaining a correlation between the pitch delays 20 to 143 and the closed loop pitch search for an optimal pitch that is best obtained when the actual synthesis is performed around the obtained pitch. As the process is performed, a large amount of computation is required to obtain a correlation according to the open-loop pitch search, which makes it difficult to perform real-time speech coding.

본 발명은, 상기와 같은 문제점을 해결하기 위해 제안된 것으로, CELP 계열의 음성 부호화기에서 유성음으로 판단이 된 프레임이 연속되면 이전 프레임의 피치 주위에서만 탐색하여 피치의 변화량을 통해 계산량을 줄임으로써, 유성음 구간의 피치 탐색시간을 줄이기 위한 유성음 구간에서의 고속 피치 탐색 방법 및 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.The present invention has been proposed to solve the above problems, and when the frames determined to be voiced sound in the CELP-based speech coder are continuous, the search is performed only around the pitch of the previous frame to reduce the amount of calculation through the amount of change in the pitch of the voiced sound. SUMMARY OF THE INVENTION An object of the present invention is to provide a fast pitch search method in a voiced sound section for reducing the pitch search time of a section and a computer-readable recording medium recording a program for realizing the method.

도 1 은 본 발명에 따른 유성음 구간에서의 고속 피치 탐색 방법으로 구현한 음성 부호화기의 일실시예 구성도.1 is a diagram illustrating an embodiment of a speech encoder implemented by a fast pitch search method in a voiced sound interval according to the present invention.

도 2 는 본 발명에 따른 유성음 구간에서의 고속 피치 탐색 방법에 대한 일실시예 흐름도.2 is a flowchart illustrating a fast pitch search method in a voiced sound interval according to the present invention;

도 3 은 본 발명에 따른 상기 도 2의 피치 탐색 모드 결정 과정에 대한 일실시예 상세 흐름도.3 is a detailed flowchart of an embodiment of the pitch search mode determination process of FIG. 2 according to the present invention;

도 4 는 본 발명에 따른 프레임의 순서를 보여주는 구조도.4 is a structural diagram showing a sequence of frames according to the present invention;

상기와 같은 목적을 달성하기 위한 본 발명은, 유성음 구간에서의 고속 피치 탐색장치에 적용되는 고속 피치 탐색 방법에 있어서, 프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 단계; 상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 단계; 및 상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.The present invention for achieving the above object, in the high-speed pitch search method applied to the high-speed pitch search apparatus in the voiced sound interval, measuring the activity of the voice signal input in the frame unit, and measured the current voice activity Collecting a pitch of a previous frame; A second step of determining a pitch search mode with reference to whether the voiced sound frame is sustained and a change amount of the pitch according to the collected current voice activity and pitch information of a previous frame; And a third step of searching for the pitch of the current frame around the pitch of the previous frame in the voiced sound interval by performing a low complexity pitch search on successive frames determined to be voiced sound with a small amount of pitch change according to the determined pitch search mode. Characterized in that the made up.

한편, 본 발명은 유성음 구간에서의 고속 피치 탐색을 수행하기 위해, 프로세서를 구비한 음성부호화 시스템에, 프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 기능; 상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 기능; 및 상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.본 발명은 VAD 알고리즘을 사용하는 CELP 방식의 음성 부호화기에 사용할 수 있는 유성음 구간에서의 고속 피치 탐색 방법에 관한 것으로서, 유성음에서 피치 변화가 적다는 음성의 특징을 이용하여 피치 탐색 범위를 제한해 고속으로 피치를 탐색한다.여기에서는 유성음 구간이 시작되는 부분을 사람이 발화를 시작하는 과정으로 보고 이런 경우에는 비슷한 피치가 계속되는 현상을 이용해서 탐색범위를 제한하여 상관도 계산량을 줄인다.Meanwhile, the present invention measures the activity of a voice signal input in units of frames in a voice encoding system having a processor to perform a fast pitch search in a voiced sound interval, and measures the measured current voice activity and the pitch of a previous frame. A first function of collecting; A second function of determining a pitch search mode with reference to whether the voiced sound frame is continuous and a change amount of the pitch according to the collected current voice activity and pitch information of a previous frame; And a third function of searching for the pitch of the current frame around the pitch of the previous frame in the voiced sound interval by performing a low complexity pitch search on successive frames determined by the voiced sound with a small amount of pitch change according to the determined pitch search mode. A computer readable recording medium recording a program for realization is provided. The present invention relates to a fast pitch search method in a voiced sound section that can be used in a CELP speech coder using a VAD algorithm. The pitch feature is used to search the pitch at a high speed by limiting the pitch search range using the feature of low voice.In this case, the beginning of the voiced sound section is regarded as a process in which a person starts speaking. Limit the search range to reduce the amount of correlation calculation.

상술된 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.The above objects, features and advantages will become more apparent from the following detailed description taken in conjunction with the accompanying drawings. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명에 따른 유성음 구간에서의 고속 피치 탐색 방법으로 구현한 음성 부호화기의 일실시예 구성도이다.1 is a diagram illustrating an embodiment of a speech encoder implemented by a fast pitch search method in a voiced sound interval according to the present invention.

도 1에 도시된 바와 같이, 유성음 구간에서의 고속 피치 탐색 장치는 전 처리부(101), 음성 활성도 측정 및 모드선택부(102), 선형예측(LP : Linear Prediction) 분석 양자화 보간부(103), 합성필터(104), 적응 가중 필터(105), 피치 분석부(106), 고정코드북 탐색부(107), 고정코드북(108), 고정 이득기(109), 적응 코드북(110), 적응이득기(111), 이득 양자화기(112) 및 파라미터 인코더(113)를 포함한다.As shown in FIG. 1, the fast pitch search apparatus in the voiced sound section includes a preprocessing unit 101, a voice activity measurement and mode selection unit 102, a linear prediction analysis quantization interpolation unit 103, Synthesis filter 104, adaptive weighting filter 105, pitch analysis unit 106, fixed codebook search unit 107, fixed codebook 108, fixed gain 109, adaptive codebook 110, adaptive gainer 111 ), A gain quantizer 112 and a parameter encoder 113.

전 처리부(101)는 입력되는 음성신호를 고대역 필터링 및 그 신호크기를 줄이고, 이 신호 정보를 음성 활성도 측정 및 모드 선택부(102)로 제공한다.음성 활성도 측정 및 모드 선택부(102)는 전 처리부(101)로부터 입력된 음성 신호를 해당 알고리즘에 의해 음성 활성화를 측정하고 피치 탐색 모드를 선택하여 선형예측 분석 양자화 보간부(103)로 제공한다.The preprocessing unit 101 high-band filtering the input voice signal and reducing its signal size, and provides the signal information to the voice activity measurement and mode selection unit 102. The voice activity measurement and mode selection unit 102 The speech signal input from the preprocessor 101 is measured by the corresponding algorithm, and the pitch search mode is selected and provided to the linear predictive analysis quantization interpolator 103.

선형예측 분석 양자화 보간부(103)는 음성 활성도 측정 및 모드 선택부(102)로부터 제공되는 음선신호를 토대로 선형예측 분석, 양자화 그리고 보간을 수행하여 구해진 선혀예측계수(LPC)를 합성필터(104)에 제공하고, 적응 가중 필터(105)의 적응 가중필터를 이용하여 목표치(target)인 음성신호를 구한다. 이 목표치(target) 음성신호를 이용하여 피치 분석부(106)는 음성 활성도 측정 및 모드 선택부(102)에서 선택된 피치 탐색모드에 따라 피치 분석을 수행하여 최적의 피치 지연을 구하고, 고정 코드북 탐색부(107)에서는 고정 코드북의 탐색을 통해 고정 코드북 인덱스를 구한다.The linear predictive analysis quantization interpolator 103 synthesizes the linear tongue prediction coefficient (LPC) obtained by performing linear predictive analysis, quantization, and interpolation based on the sound activity signal provided from the voice activity measurement and mode selector 102. And a speech signal that is a target value is obtained by using the adaptive weighting filter of the adaptive weighting filter 105. Using this target voice signal, the pitch analyzer 106 performs a pitch analysis according to the pitch search mode selected by the voice activity measurement and mode selector 102 to obtain an optimal pitch delay, and then uses a fixed codebook search unit. In 107, a fixed codebook index is obtained by searching for a fixed codebook.

이후, 각각의 최적 벡터들을 구하기 위해 고정코드북(108)에서 제공되는 고정 코드북의 벡터들은 고정 이득기(109)를 통해 이득값이 출력되고, 적응 코드북(110)에서 제공되는 적응 코드북의 벡터들은 적응 이득기(111)를 통해 이득값이 출력된다.Subsequently, the vectors of the fixed codebook provided in the fixed codebook 108 are output through the fixed gains 109 to obtain respective optimal vectors, and the vectors of the adaptive codebook provided in the adaptive codebook 110 are adaptive gainers. The gain value is output through 111.

이때, 고정 이득기(109) 및 적응 이득기(111)의 각각의 이득값은 곱셈기를 의해 곱해져 합성 필터(104)를 거친 값을 구한 후, 이 값과 목표치(target) 음성 신호와의 차이를 최소화시키는 벡터를 구한다. 따라서, 최종적으로 전송되어지는 신호는 이득 양자화기(112)를 통해 양자화되고, 파라메터 인코더(113)는 입력된 이득 신호와 최적의 고정 코드북 벡터와 최적의 적응 코드북 벡터에 대한 지연 및 양자화된 선형 예측 계수를 파라메터화하여 전송한다.At this time, the gain values of the fixed gain 109 and the adaptive gain 111 are multiplied by a multiplier to obtain a value passed through the synthesis filter 104, and then the difference between this value and the target speech signal is minimized. Find a vector to let Accordingly, the signal to be finally transmitted is quantized through the gain quantizer 112, and the parameter encoder 113 is delayed and quantized linear prediction for the input gain signal and the optimal fixed codebook vector and the optimal adaptive codebook vector. Transmit the parameterized parameter.

이하, 본 발명에 따른 유성음 구간에서의 고속 피치 탐색 동작을 도 2 내지 도 4를 토대로 자세히 설명하기로 한다.Hereinafter, the fast pitch search operation in the voiced sound section according to the present invention will be described in detail with reference to FIGS.

도 2 는 본 발명에 따른 유성음 구간에서의 고속피치 탐색 방법에 대한 일실시예 흐름도이다.2 is a flowchart illustrating a fast pitch search method in a voiced sound interval according to the present invention.

도 2에 도시된 바와 같이, 유성음 구간에서의 고속피치 탐색을 위해, 먼저 음성 부호화기의 음성코덱을 초기화한다(201). 이후에, 한 프레임의 음성신호가 입력되면(202), 프레임 단위의 음성 활성도를 측정한다(203).As shown in FIG. 2, in order to search for a high pitch in the voiced sound interval, the voice codec of the voice coder is first initialized (201). Thereafter, when a voice signal of one frame is input (202), the voice activity of each frame is measured (203).

여기서, 한 프레임의 음성신호 입력은 음성 부호화기에 따라 상이한데, 예를 들면 G.729인 경우에는 80샘플이 되며, GSM-EFR은 160 샘플이며, G.723.1은 240 샘플이 된다. 상기 음성 활성도의 측정은 해당 프레임이 유성음인지 무성음인지 묵음 또는 주변소음인지 구분하는 것으로, 음성 활성도의 측정이 완료되면, 현재 입력되는 프레임의 활성도 정보와 이전 프레임의 피치 정보를 이용하여 피치 탐색 모드를 결정한다(204,205).Here, the input of a voice signal of one frame varies depending on the voice coder. For example, in the case of G.729, the sample is 80 samples, the GSM-EFR is 160 samples, and the G.723.1 is 240 samples. The measurement of the voice activity is to distinguish whether the frame is voiced, unvoiced, silent or ambient noise. When the measurement of voice activity is completed, the pitch search mode is determined using the activity information of the currently input frame and the pitch information of the previous frame. Determine (204, 205).

상기 피치 탐색모드 결정은 세 가지의 조건이 맞으면 저 복잡도 피치 탐색을 하며, 세가지 조건 중에 한가지라도 조건을 만족하지 않으면, 즉시 정상적인 피치 탐색을 한다. 따라서, 이 과정은 매 프레임마다 반복하며 음성 활성도 측정이 끝나고 피치 탐색을 하기 전에 실시함이 바람직하다.The pitch search mode determination is a low complexity pitch search if three conditions are met, and if one of the three conditions is not satisfied, the normal pitch search is immediately performed. Therefore, this process is repeated every frame and is preferably performed before the pitch search after the voice activity measurement.

한편, 피치 탐색 모드가 결정되면(205), 결정된 피치 탐색 모드를 이용하여 음성신호를 코딩하고(206), 이 코딩된 정보에 의해 현재 프레임의 음성 활성도 및 피치 데이터를 저장한다(207).On the other hand, when the pitch search mode is determined (205), the voice signal is coded using the determined pitch search mode (206), and the voice activity and pitch data of the current frame are stored (207) by the coded information.

이후, 음성신호가 입력되는지를 판단하는데(208), 상기 과정(208)에서 판단한 결과, 현재의 음성신호가 끝이 아닐 경우, 즉 계속적으로 음성신호가 입력될 경우에는 상기 과정(202)으로 복귀하여 한 프레임의 음성신호를 입력하여 계속적으로 고속 피치 탐색을 수행한다.Then, it is determined whether a voice signal is input (208), and as a result of the determination in step 208, if the current voice signal is not the end, that is, if the voice signal is continuously inputted, the process returns to the step 202. By inputting the audio signal of one frame to perform a fast pitch search continuously.

도 3 은 본 발명에 따른 상기 도 2의 피치 탐색 모드 결정 과정에 대한 일실시예 상세 흐름도이다.3 is a detailed flowchart illustrating an example of a process of determining a pitch search mode of FIG. 2 according to the present invention.

도 3에 도시된 바와 같이, 피치 탐색모드를 결정하기 위해, 먼저 음성 활성도를 측정하고(301), 측정된 음성신호가 유성음인지를 판단한다(302).As shown in FIG. 3, in order to determine the pitch search mode, first, voice activity is measured (301), and it is determined whether the measured voice signal is a voiced sound (302).

여기서, i 프레임 동안 연속적으로 유성음인지를 판단하는 이유는, 음성 활성도 측정 알고리즘의 오류나 순간적인 데이터의 성질로 한 프레임이 유성음으로 결정될 수 있는 것을 방지하기 위함이다. 상기 i는 프레임의 개수로서, 2이상이며 최대값은 성능에 영향을 미치므로 20ms에서 100ms 사이의 적절한 값을 선택하고, 프레임의 크기가 10ms인 G.729인 경우를 예를 들면 20ms인 경우 i는 2가 되며 100ms인 경우는 i가 10이 된다.The reason for determining whether the voice is a continuous voice during i frames is to prevent a frame from being determined as voiced sound due to an error of a voice activity measurement algorithm or a property of instantaneous data. I is the number of frames, which is 2 or more and the maximum value affects performance. Therefore, an appropriate value is selected between 20ms and 100ms, and the frame size is 10ms, for example, G.729 i. Is 2 and i is 10 for 100ms.

상기 판단 결과(302), 유성음이 아닐 경우에는 정상적인 피치 탐색을 수행한 후(306), 현재의 음성 활성도를 저장하고(307), 유성음일 경우에는 i 프레임 동안 유성음이 지속되는지를 판단한다(303).As a result of the determination (302), if it is not the voiced sound, after normal pitch search is performed (306), the current voice activity is stored (307), and if it is voiced sound, it is determined whether the voiced sound lasts for i frames (303). ).

상기 판단 결과(303), i 프레임 동안 유성음이 지속되지 않을 경우에는 정상적인 피치 탐색을 수행한 후(306), 상기 과정(307)으로 진행하여 현재 음성 활성도를 저장하며, i 프레임 동안 유성음이 지속될 경우에는 j 프레임 동안 피치 변화량이 임계치(k) 이하인지를 판단한다(304).As a result of the determination 303, if the voiced sound does not continue during i frame, after performing normal pitch search (306), the process proceeds to step 307 to store the current voice activity, and if the voiced sound continues for i frame. Next, it is determined whether the pitch change amount is equal to or less than the threshold k during j frames (304).

여기서, 상기 과정(304)은 순간적인 성대의 비정상적인 떨림이나 수치적인 계산상의 결과로 피치의 값이 바뀔 경우를 방지하기 위함으로, 피치의 변화가 많이 발생하면 정상적인 상태로 볼 수 없는 것이다.Here, the process 304 is to prevent the case where the pitch value changes as a result of abnormal tremor of the vocal cords or a numerical calculation result, and when the pitch changes a lot, it cannot be seen as a normal state.

따라서, 상기 과정(304)에서 판단한 결과, j 프레임 동안 피치 변화량이 임계치(k) 이하가 아닐 경우, 즉 피치의 변화가 많이 발생할 경우에는 모드를 정상적인 피치 탐색한 후(306), 현재의 음성 활성도를 저장하는 과정(307)으로 진행하고, j 프레임동안 피치 변화량이 임계치(k)이하일 경우에는 저 복잡도의 피치 탐색을 수행하는 과정(305)으로 진행한다.Therefore, as a result of the determination in step 304, when the pitch change amount is not less than the threshold value k during j frames, that is, when a large change of pitch occurs, the mode is searched for a normal pitch (306). If the pitch change amount is less than or equal to the threshold value k during the j frame, the process proceeds to step 305 of performing a low complexity pitch search.

여기서, 피치 변화량의 임계치(k)는 다음과 같은 범위를 갖는다.Here, the threshold k of the pitch change amount has the following range.

| L-T | ≤ k| L-T | ≤ k

여기서, L은 도 4에 도시된 바와 같이, j개의 유성음으로 선택된 과거 프레임에서 구해진 피치의 평균 값이며, T는 바로 이전 프레임인 m-1 프레임에서 구해진 피치 값이다. 상기 L은 항상 연속적으로 유성음이 선택된 경우에 구해지며, 중간에 유성음이 아닌 프레임이 포함되면 그 이후의 j개의 프레임 이후부터 다시 계산하는데, 그 이유는 유성음 사이에 소음구간이나 무성음 구간이라면 피치의 값을 예측할 수 없으므로 판단기준으로 삼을 수가 없기 때문이다.Here, L is an average value of pitches obtained from a past frame selected from j voiced sounds, and T is a pitch value obtained from an m-1 frame, which is the previous frame, as shown in FIG. 4. The L is always obtained when the voiced sound is continuously selected, and when the non-voiced sound is included in the middle, L is recalculated after the j frames thereafter, because the noise value is the interval between the voiced sound and the unvoiced sound. Because it cannot be predicted, it cannot be used as a criterion.

그리고, 상기 j는 1이상이며 10이하의 값으로, k는 2이상이며 10이하로 설정한다. 여기서, i값이나 j값이 커지거나 k값이 적어지면 계산량 감소 효과가 적어지지만 음질 감쇄를 거의 없앨 수 있으며, 이와 반대의 값으로 설정하면 계산량 감소 효과는 뛰어나지만 음질 성능이 떨어질 가능성이 있어 적절한 값으로 조정함이 바람직하다.J is greater than or equal to 1 and less than or equal to 10, and k is greater than or equal to 2 and less than or equal to 10. In this case, if the i value or j value is increased or the k value is decreased, the effect of reducing the amount of calculation decreases but the sound quality attenuation can be almost eliminated.If the value is set to the opposite value, the value of the calculated value is excellent, but the sound quality may deteriorate. It is preferable to adjust the value.

한편, 상기 과정(305)의 저 복잡도 피치 탐색 과정은 현재 프레임을 m이라고 할 때 바로 이전 프레임인 m-1 프레임의 피치의 주위에서 탐색을 수행하는 것으로, 여기서 이전 프레임의 피치가 T라고 할 때 현재 프레임의 피치 탐색 범위는 T±n으로 설정하며 다음과 같은 범위를 갖는다.On the other hand, the low complexity pitch search process of step 305 is to perform the search around the pitch of the frame m-1, which is the previous frame when the current frame is m, where the pitch of the previous frame is T The pitch search range of the current frame is set to T ± n and has the following range.

20≤ (T±n) ≤143, (n>k)20≤ (T ± n) ≤143, (n> k)

여기서, n값은 피치 탐색 범위를 의미하며 앞에서 언급한 k보다 커야 한다. 그렇지 않으면, n이 k보다 적은 값이 되는 경우에는 언제든지 세 번째 조건을 만족하게 되므로 판단의 의미가 없어진다. 그러므로, n의 범위는 k<n<30으로 설정한다.Here, n value means pitch search range and should be larger than k mentioned above. Otherwise, if n is less than k, the third condition is satisfied at any time, and thus the meaning of judgment is lost. Therefore, the range of n is set to k <n <30.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.The method of the present invention as described above may be implemented as a program and stored in a computer-readable recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.).

이상에서 설명한 본 발명은 진술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진자에게 있어 명백할 것이다.The present invention described above is not limited to the stated embodiments and the accompanying drawings, and it is common in the art that various substitutions, modifications, and changes can be made without departing from the technical spirit of the present invention. It will be evident to those who have knowledge of.

상기와 같은 본 발명은, 유성음으로 판단이 된 프레임이 연속되면 이전 프레임의 피치 주위에서만 탐색하여 피치의 변화량을 줄여 계산량을 줄임으로써, 고속으로 피치를 탐색할 수 있으며, 이에 따라 음성 부호화기의 성능을 향상시킬 수 있고, 특히 피치 검색을 실시하는 CELP 계열의 모든 음성 부호화기에서 유성음 구간의 피치 탐색시간을 줄일 수 있는 효과가 있다.As described above, when the frames determined to be voiced sound are continuous, the present invention searches only around the pitch of the previous frame and reduces the amount of change in the pitch, thereby reducing the amount of calculation, thereby improving the performance of the speech coder. The pitch search time of the voiced sound section can be reduced, particularly in all the CELP-based speech coders that perform pitch search.

Claims (6)

유성음 구간에서의 고속 피치 탐색장치에 적용되는 고속 피치 탐색 방법에 있어서,In the fast pitch search method applied to the fast pitch search apparatus in the voiced sound interval, 프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 단계;A first step of measuring the activity of the input voice signal in units of frames and collecting the measured current voice activity and the pitch of the previous frame; 상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 단계; 및A second step of determining a pitch search mode with reference to whether the voiced sound frame is sustained and a change amount of the pitch according to the collected current voice activity and pitch information of a previous frame; And 상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 단계A third step of searching for the pitch of the current frame around the pitch of the previous frame in the voiced sound interval by performing a low complexity pitch search on successive frames determined to be voiced sound according to the determined pitch search mode 를 포함하는 유성음 구간에서의 고속 피치 탐색 방법.Fast pitch search method in the voiced sound interval comprising a. 제 1 항에 있어서,The method of claim 1, 상기 제 2 단계는,The second step, 음성 활성도를 측정하여 적어도 두 개 이상의 프레임 동안 연속으로 유성음이 입력되는지를 판단하는 제 4 단계;Measuring a voice activity to determine whether voiced sound is continuously input for at least two frames; 상기 제 4 단계의 판단 결과, 연속으로 유성음이 입력될 경우 적어도 하나 이상의 프레임 동안에 피치 변화량을 측정하는 제 5 단계;A fifth step of measuring a change amount of pitch during at least one frame when voiced sound is continuously input as a result of the determination of the fourth step; 상기 측정된 피치 변화량이 임계치 이상이면, 정상적인 피치 탐색을 하도록 결정하는 제 6 단계; 및A sixth step of determining to perform a normal pitch search if the measured pitch change amount is greater than or equal to a threshold; And 상기 측정된 피치 변화량이 임계치 이하이면, 저 복잡도 피치 탐색을 하도록 결정하는 제 7 단계A seventh step of determining to perform a low complexity pitch search if the measured pitch variation is below a threshold 를 포함하는 유성음 구간에서의 고속 피치 탐색 방법.Fast pitch search method in the voiced sound interval comprising a. 제 2 항에 있어서,The method of claim 2, 상기 임계치는,The threshold is 적어도 하나 이상의 유성음 프레임들에서 구해진 피치의 평균값과 바로 이전 프레임에서 구해진 피치값의 절대치보다 큰 변화량인 것을 특징으로 하는 유성음 구간에서의 고속 피치 탐색 방법.A fast pitch search method in a voiced sound interval, characterized in that the change amount larger than the absolute value of the average value of the pitch obtained in at least one voiced frame and the pitch value obtained in the previous frame. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,The method according to any one of claims 1 to 3, 상기 제 2 단계의 피치 탐색 모드를 결정하는 과정은,Determining the pitch search mode of the second step, 음성 활성도 측정 수행 후 및 피치 탐색의 수행 전에 입력되는 매 프레임마다 반복 수행하는 것을 특징으로 하는 유성음 구간에서의 고속 피치 탐색 방법.A fast pitch search method in a voiced sound section, characterized in that it is repeated every frame input after the voice activity measurement and before the pitch search. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,The method according to any one of claims 1 to 3, 상기 제 3 단계의 저 복잡도 피치 탐색 과정은,The low complexity pitch search process of the third step, 하기의 조건에 의한 탐색 범위를 갖는 것을 특징으로 하는 유성음 구간에서의 고속 피치 탐색 방법.A fast pitch search method in a voiced sound section characterized by having a search range under the following conditions. 20≤ (T±n) ≤143, (n>k)20≤ (T ± n) ≤143, (n> k) (여기서, T는 이전 프레임의 피치, k는 피치 변화량의 임계치, n은 피치 탐색 범위임)Where T is the pitch of the previous frame, k is the threshold of pitch variation, and n is the pitch search range. 유성음 구간에서의 고속 피치 탐색을 수행하기 위해, 프로세서를 구비한 음성부호화 시스템에,In order to perform a fast pitch search in the voiced sound interval, a speech coding system having a processor, 프레임 단위로 입력된 음성신호의 활성도를 측정하고, 측정된 현재의 음성 활성도와 이전 프레임의 피치를 수집하는 제 1 기능;A first function of measuring the activity of the voice signal input in units of frames and collecting the measured current voice activity and the pitch of the previous frame; 상기 수집된 현재의 음성 활성도 및 이전 프레임의 피치정보에 따라, 유성음 프레임의 지속 여부와 피치의 변화량을 참조하여 피치 탐색 모드를 결정하는 제 2 기능; 및A second function of determining a pitch search mode with reference to whether the voiced sound frame is continuous and a change amount of the pitch according to the collected current voice activity and pitch information of a previous frame; And 상기 결정된 피치 탐색모드에 따라, 피치 변화량이 적고 유성음으로 판단된 연속된 프레임에 대해 저 복잡도 피치 탐색을 실시하여, 유성음 구간에서 이전 프레임의 피치 주위에서 현재 프레임의 피치를 탐색하는 제 3 기능A third function of searching for the pitch of the current frame around the pitch of the previous frame in the voiced sound section by performing a low complexity pitch search for successive frames determined by the voiced sound with a small amount of pitch change according to the determined pitch search mode 을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for realizing this.
KR10-2000-0083271A 2000-12-27 2000-12-27 A fast pitch analysis method for the voiced region KR100388488B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0083271A KR100388488B1 (en) 2000-12-27 2000-12-27 A fast pitch analysis method for the voiced region

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0083271A KR100388488B1 (en) 2000-12-27 2000-12-27 A fast pitch analysis method for the voiced region

Publications (2)

Publication Number Publication Date
KR20020054237A KR20020054237A (en) 2002-07-06
KR100388488B1 true KR100388488B1 (en) 2003-06-25

Family

ID=27686976

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0083271A KR100388488B1 (en) 2000-12-27 2000-12-27 A fast pitch analysis method for the voiced region

Country Status (1)

Country Link
KR (1) KR100388488B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100724736B1 (en) * 2006-01-26 2007-06-04 삼성전자주식회사 Method and apparatus for detecting pitch with spectral auto-correlation
CN113782050A (en) * 2021-09-08 2021-12-10 浙江大华技术股份有限公司 Sound tone changing method, electronic device and storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05136697A (en) * 1991-11-14 1993-06-01 Kokusai Electric Co Ltd Voice coding system
JPH0728499A (en) * 1993-06-10 1995-01-31 Sip Soc It Per Esercizio Delle Telecommun Pa Method and device for estimating and classifying pitch period of audio signal in digital audio coder
JPH0895589A (en) * 1994-09-21 1996-04-12 Ibm Japan Ltd Speech synthesizing method and system therefor
KR19980079119A (en) * 1997-04-30 1998-11-25 윤종용 Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same
KR19990068409A (en) * 1999-05-17 1999-09-06 이봉훈 Ou The Waveform Using Pitch Alteration of Speech Signal
KR19990068410A (en) * 1999-05-17 1999-09-06 이봉훈 On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05136697A (en) * 1991-11-14 1993-06-01 Kokusai Electric Co Ltd Voice coding system
JPH0728499A (en) * 1993-06-10 1995-01-31 Sip Soc It Per Esercizio Delle Telecommun Pa Method and device for estimating and classifying pitch period of audio signal in digital audio coder
JPH0895589A (en) * 1994-09-21 1996-04-12 Ibm Japan Ltd Speech synthesizing method and system therefor
KR19980079119A (en) * 1997-04-30 1998-11-25 윤종용 Speech Synthesis Database, How to Create It, and Speech Synthesis Method Using the Same
KR19990068409A (en) * 1999-05-17 1999-09-06 이봉훈 Ou The Waveform Using Pitch Alteration of Speech Signal
KR19990068410A (en) * 1999-05-17 1999-09-06 이봉훈 On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF

Also Published As

Publication number Publication date
KR20020054237A (en) 2002-07-06

Similar Documents

Publication Publication Date Title
KR101281661B1 (en) Method and Discriminator for Classifying Different Segments of a Signal
EP0532225B1 (en) Method and apparatus for speech coding and decoding
US5751903A (en) Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US6687668B2 (en) Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
KR950000842B1 (en) Pitch detector
US20080162121A1 (en) Method, medium, and apparatus to classify for audio signal, and method, medium and apparatus to encode and/or decode for audio signal using the same
CA2061830C (en) Speech coding system
JPH0869299A (en) Voice coding method, voice decoding method and voice coding/decoding method
CA2162407C (en) A robust pitch estimation method and device for telephone speech
KR100463417B1 (en) The pitch estimation algorithm by using the ratio of the maximum peak to candidates for the maximum of the autocorrelation function
US6564182B1 (en) Look-ahead pitch determination
Kleijn et al. A 5.85 kbits CELP algorithm for cellular applications
KR100388488B1 (en) A fast pitch analysis method for the voiced region
JPH07199997A (en) Processing method of sound signal in processing system of sound signal and shortening method of processing time in itsprocessing
KR100550003B1 (en) Open-loop pitch estimation method in transcoder and apparatus thereof
Oh et al. Output Recursively Adaptive (ORA) Tree Coding of Speech with VAD/CNG
JP2892462B2 (en) Code-excited linear predictive encoder
JPH08211895A (en) System and method for evaluation of pitch lag as well as apparatus and method for coding of sound
KR960011132B1 (en) Pitch detection method of celp vocoder
JPH02266400A (en) Sound/silence decision circuit
JPH09134196A (en) Voice coding device
KR0138878B1 (en) Method for reducing the pitch detection time of vocoder
Al-Naimi et al. Improved line spectral frequency estimation through anti-aliasing filtering
JPH02160300A (en) Voice encoding system
KR100318335B1 (en) pitch postfilter performance upgrade method of voice signal processing decoder by normalizing energy level of residual signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110531

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee