KR19990068410A - On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF - Google Patents

On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF Download PDF

Info

Publication number
KR19990068410A
KR19990068410A KR1019990017697A KR19990017697A KR19990068410A KR 19990068410 A KR19990068410 A KR 19990068410A KR 1019990017697 A KR1019990017697 A KR 1019990017697A KR 19990017697 A KR19990017697 A KR 19990017697A KR 19990068410 A KR19990068410 A KR 19990068410A
Authority
KR
South Korea
Prior art keywords
pitch
initial
mean amplitude
fundamental frequency
pitch search
Prior art date
Application number
KR1019990017697A
Other languages
Korean (ko)
Inventor
박영호
양재찬
민소연
배명진
Original Assignee
이봉훈
서울이동통신 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이봉훈, 서울이동통신 주식회사 filed Critical 이봉훈
Priority to KR1019990017697A priority Critical patent/KR19990068410A/en
Publication of KR19990068410A publication Critical patent/KR19990068410A/en

Links

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01RELECTRICALLY-CONDUCTIVE CONNECTIONS; STRUCTURAL ASSOCIATIONS OF A PLURALITY OF MUTUALLY-INSULATED ELECTRICAL CONNECTING ELEMENTS; COUPLING DEVICES; CURRENT COLLECTORS
    • H01R13/00Details of coupling devices of the kinds covered by groups H01R12/70 or H01R24/00 - H01R33/00
    • H01R13/62Means for facilitating engagement or disengagement of coupling parts or for holding them in engagement
    • H01R13/629Additional means for facilitating engagement or disengagement of coupling parts, e.g. aligning or guiding means, levers, gas pressure electrical locking indicators, manufacturing tolerances
    • H01R13/633Additional means for facilitating engagement or disengagement of coupling parts, e.g. aligning or guiding means, levers, gas pressure electrical locking indicators, manufacturing tolerances for disengagement only
    • H01R13/635Additional means for facilitating engagement or disengagement of coupling parts, e.g. aligning or guiding means, levers, gas pressure electrical locking indicators, manufacturing tolerances for disengagement only by mechanical pressure, e.g. spring force
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01RELECTRICALLY-CONDUCTIVE CONNECTIONS; STRUCTURAL ASSOCIATIONS OF A PLURALITY OF MUTUALLY-INSULATED ELECTRICAL CONNECTING ELEMENTS; COUPLING DEVICES; CURRENT COLLECTORS
    • H01R13/00Details of coupling devices of the kinds covered by groups H01R12/70 or H01R24/00 - H01R33/00
    • H01R13/66Structural association with built-in electrical component
    • H01R13/70Structural association with built-in electrical component with built-in switch
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01RELECTRICALLY-CONDUCTIVE CONNECTIONS; STRUCTURAL ASSOCIATIONS OF A PLURALITY OF MUTUALLY-INSULATED ELECTRICAL CONNECTING ELEMENTS; COUPLING DEVICES; CURRENT COLLECTORS
    • H01R24/00Two-part coupling devices, or either of their cooperating parts, characterised by their overall structure
    • H01R24/20Coupling parts carrying sockets, clips or analogous contacts and secured only to wire or cable
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01RELECTRICALLY-CONDUCTIVE CONNECTIONS; STRUCTURAL ASSOCIATIONS OF A PLURALITY OF MUTUALLY-INSULATED ELECTRICAL CONNECTING ELEMENTS; COUPLING DEVICES; CURRENT COLLECTORS
    • H01R2103/00Two poles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S439/00Electrical connectors
    • Y10S439/923Separation or disconnection aid

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

음성신호를 메모리에 저장 또는 전송할 경우 초기 피치 검색을 위해 소요되는 시간을 줄일 수 있도록 하는 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법에 대해 개시한다. 이러한 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법은, 신호를 주파수 대역으로 변환한 후 대역 분할하는 IMBE 음성부호화기를 이용하여, 주파수 영역으로 변환하기 위한 소정의 값을 갖는 샘플의 윈도우를 취하는 단계와; 주파수 영역에서 초기 피치를 검출하기 위한 스펙트럼 평균 진폭함수를 산출하는 단계와; 초기 피치 값을 피치 재확인 과정의 인수로 전달하는 단계를 포함한다. 따라서, 음성신호를 메모리에 저장 또는 전송할 경우 초기 피치 검색을 위해 소요되는 시간을 줄일 수 있게 된다.An improved method of shortening the pitch search time of a multi-band excitation vocoder using a spectral mean amplitude difference function that reduces the time required for initial pitch search when storing or transmitting a voice signal in a memory. The improved method for shortening the pitch search time of the multi-band excitation vocoder using the spectral mean amplitude difference function uses an IMBE speech coder that converts a signal into a frequency band and then band-divides a predetermined value for converting a predetermined value to the frequency domain. Taking a window of samples having; Calculating a spectral mean amplitude function for detecting the initial pitch in the frequency domain; Passing the initial pitch value as an argument of the pitch rechecking process. Therefore, when the voice signal is stored or transmitted to the memory, it is possible to reduce the time required for the initial pitch search.

Description

스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법.{On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF}On-Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF}

본 발명은 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법에 관한 것으로, 음성신호를 메모리에 저장 또는 전송할 경우 초기 피치 검색을 위해 소요되는 시간을 줄일 수 있도록 하는 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법에 관한 것이다.The present invention relates to a method for shortening the pitch search time of an improved multi-band excitation vocoder using the spectral mean amplitude difference function, and to reduce the time required for initial pitch search when storing or transmitting a voice signal in a memory. An improved method of shortening the pitch search time of an improved multiband excitation vocoder using an amplitude difference function.

음성신호를 메모리에 저장하거나 전송하기 위한 음성부호화법에는 크게 파형부호화법, 신호원 부호화법, 혼성부호화법이 있다.Voice coding methods for storing or transmitting voice signals in a memory include waveform coding, signal source coding, and hybrid coding.

이들 중에서 혼성부호화법은 신호원 부호화법의 메모리 효율성과 고음질의 파형부호화법을 결합시킨 것이다.Among them, the hybrid encoding method combines the memory efficiency of the signal source encoding method and the waveform encoding method of high quality sound.

혼성 부호화법에서 포만트 정보는 선형 예측 부호화법으로 부호화하게 되고,그 나머지 잔여신호를 어떻게 부호화 하느냐에 따라 RELP법, VELP법, MPLPC법, CELP법 등이 제안되어져 있다.Formant information in the hybrid coding method is encoded by the linear prediction coding method, and the RELP method, the VELP method, the MPLPC method, the CELP method, etc., have been proposed depending on how the remaining residual signals are encoded.

혼성 부호화법들 중에서 주파수 영역에서 음성을 다루고 있는 IMBE (Improved Multi-Band Excitation) 법 또한 최근 이동 및 휴대통신용 부호화법으로 채택되어 사용되고 있다.Among the hybrid coding methods, IMBE (Improved Multi-Band Excitation) method, which deals with speech in the frequency domain, is also recently adopted and used as a coding method for mobile and mobile communication.

도1은 종래의 IMBE형 보코더의 한 블록도를 나타낸다.1 shows a block diagram of a conventional IMBE vocoder.

IMBE 음성부호화기는 MBE 음성 모델에 기반한 음성 부호화기로 주파수 영역에서 피치 예측을 하여 기존의 CELP 계열 음성 부호화기에 비해 상당히 자연스러운 음성의 합성이 가능하다.The IMBE speech coder is a speech coder based on the MBE speech model, which makes it possible to synthesize speech more naturally than the conventional CELP speech coder by pitch prediction in the frequency domain.

기존의 음성 부호화기는 각각의 프레임을 유성음이나 무성음으로 판별하여 유/무성음이 섞여 있는 혼합영역의 특성을 살려주지 못하는데 반하여, IMBE 음성부호화기는 신호를 주파수 대역으로 변환한 후 대역 분할하여 보다 고음질의 음성합성이 가능하므로 자연스러운 음성합성을 할 수 있다.Existing speech coder cannot distinguish each frame as voiced or unvoiced sound, but it can't make use of mixed region mixed with voiced / unvoiced sound, whereas IMBE voice coder converts the signal into frequency band and then divides the band into high-quality voice. Synthesis is possible, so natural speech synthesis can be performed.

그러나, 이를 위해서는 보다 정교한 피치검색이 요구되어 복잡한 피치 탐색과정을 필요로 하므로 음성 처리시 많은 시간이 소요되는 문제점이 있다.However, since this requires a more sophisticated pitch search and requires a complicated pitch search process, it takes a lot of time to process the voice.

즉, 시간영역의 초기피치검색과정에서 음성의 피치가 천천히 변하는 성질을 이용하여 자연성을 줄 수 있으며, 이를 위하여 현재 프레임의 앞, 뒤에서 피치추정과정을 수행하여 초기피치를 찾게 된다.That is, natural pitch can be given by using the property that the pitch of voice is slowly changed in the initial pitch search process in the time domain. For this purpose, the initial pitch is found by performing the pitch estimation process before and after the current frame.

이렇게 찾아진 초기피치에 대하여 주파수영역에서 피치개선(pitch refinement)과정을 수행하기 때문에 피치 검색시 많은 시간이 소요되는 문제점이 있다.Since the pitch refinement process is performed in the frequency domain with respect to the found initial pitch, a large amount of time is required when searching for pitch.

기존의 IMBE에서 초기 피치검색은 시간영역에서 전방피치추정과 후방피치추정 알고리즘을 이용하여 21부터 122 사이에서 초기피치값을 선택한다.In the existing IMBE, the initial pitch search selects an initial pitch value between 21 and 122 using the forward and backward pitch estimation algorithms in the time domain.

이 방법은 피치의 갑작스런 변화를 방지하기 위한 것이다.This method is to prevent sudden changes in pitch.

이렇게 찾아진 초기치에 대하여 다시 주파수영역에서 피치 개선 과정을 수행하기 때문에 피치 검색시 많은 시간이 소요된다.Since the pitch improvement process is performed again in the frequency domain with respect to the found initial value, a lot of time is required for the pitch search.

IMBE는 피치검색시 피치 파라미터 값의 평균 자승 오차가 최소가 될 때 그값을 피치로 한다.IMBE sets the pitch when the average square error of the pitch parameter value is minimum during pitch search.

피치검색은 우선 시간 영역에서 초기 피치를 구한 후 초기피치를 근거로 하여 정밀한 피치검색을 수행한다.For pitch search, first find the initial pitch in the time domain and then perform precise pitch search based on the initial pitch.

초기피치검색과정은 첫째로, 이전의 프레임과 피치의 연속성을 유지하는 후방측정,, 둘째로 미래의 음성 프레임과 피치의 연속성을 유지하는 전방측정,,가 그것이다.The initial pitch retrieval process involves firstly a backward measurement that maintains the continuity of the previous frame and pitch, Second, forward measurements to maintain continuity of future speech frames and pitches, , Is that.

후방 피치 측정은 후방피치추정 알고리즘에 의해 계산되고, 전방 피치 측정은 전방피치추정 알고리즘에 의해 계산된다.The rear pitch measurement is calculated by the rear pitch estimation algorithm, and the front pitch measurement is calculated by the front pitch estimation algorithm.

피치 측정의 목적은 현재의 음성 프레임 Sw(n)과 관계되는 피치 P0를 검출하는 것이다.The purpose of the pitch measurement is to detect the pitch P 0 associated with the current speech frame S w (n).

P0는 식 (1)에 의해 기본 주파수와 연관된다.P 0 is the fundamental frequency by equation (1) Associated with

여기서는 라디안 값이다.here Is the radian value.

(1) (One)

즉, 피치추정 알고리즘은 현재 프레임의 피치가 결정되었을 때 이전 프레임과 앞 프레임의 피치까지 고려하게 된다.That is, the pitch estimation algorithm considers the pitch of the previous frame and the previous frame when the pitch of the current frame is determined.

두 개의 앞선 음성 프레임과 관련되어있는 피치들은 P1과 P2로 나타낸다.The pitches associated with the two preceding voice frames are represented by P 1 and P 2 .

비슷하게 두 개의 이전 음성 프레임의 피치는 P-1과 P-2로 나타낸다.Similarly, the pitch of the two previous voice frames is represented by P- 1 and P- 2 .

초기의 피치 측정은 집합 {21, 21.5, ......, 121.5, 122} 중의 한 값으로 제한된다.Initial pitch measurements are limited to one of the sets {21, 21.5, ..., 121.5, 122}.

초기피치 값은 4분의 1 샘플 정확성을 갖는 기본주파수를 측정한 후에 원하는 피치를 얻을 수 있다.Initial pitch value is the fundamental frequency with quarter sample accuracy After the measurement, the desired pitch can be obtained.

두 부분으로 이루어진 과정은 피치검출의 정확성을 향상시키기 위한 것이다.The two part process is to improve the accuracy of the pitch detection.

피치검출 알고리즘에서 한가지 중요한 것은 초기의 피치검출 알고리즘이 피치개선 알고리즘과는 다른 윈도우를 사용한다는 것이다.One important aspect of the pitch detection algorithm is that the initial pitch detection algorithm uses a different window than the pitch improvement algorithm.

초기의 피치검출을 위해서 사용되는 윈도우(n)은 301샘플의 길이를 갖는다.Window used for initial pitch detection (n) has a length of 301 samples.

피치개선을 위해 사용되는 윈도우(n)은 221샘플의 길이를 갖는다.Window used for pitch improvement (n) has a length of 221 samples.

여기서 두 윈도우의 중심점은 일치해야만 한다.Here the center points of the two windows must match.

(n)이 사용될 때는 61샘플 오버랩되고,(n)가 사용될 때는 141샘플이 오버랩된다. When (n) is used, 61 samples overlap, When (n) is used, 141 samples overlap.

피치 추정은 E(P)의 결과값을 비교하여 수행되고, 21부터 122범위 내에서 가장 알맞은 후보값을 골라로 명명한다.Pitch estimation is performed by comparing the result of E (P), and selecting the most suitable candidate within the range of 21 to 122. Named as

이 과정은 도2를 참조한다.This process is referred to FIG. 2.

E(P)함수는 다음과 같이 정의된다.The E (P) function is defined as

(2) (2)

여기서(n)은 초기 피치 검색 윈도우이고, r(n)과 sLPF(n)식은 다음과 같다.here (n) is the initial pitch search window, and r (n) and s LPF (n) equations are as follows.

초기피치값는 E()값을 가장 작게 하는 값을 선택한다.Initial pitch value Is E ( Select the value that makes the smallest value.

하지만 동일 한 프레임에 대해 독립된 피치값을 구할 경우 측정값이 갑자기변화할지도 모른다.However, if you find independent pitch values for the same frame, the measurements may change suddenly.

피치 값의 갑작스런 변화는 합성음의 질을 떨어뜨리게 되는 결과를 초래할 수 있다.Sudden changes in pitch values can result in degraded synthesized sound.

그러므로 피치가 천천히 변한다는 성질을 이용하여 이웃하는 프레임으로부터 얻어지는 피치측정값을 사용하여 현재 프레임의 피치측정에 이용한다.Therefore, by using the property that the pitch changes slowly, the pitch measurement value obtained from neighboring frames is used to measure the pitch of the current frame.

후방 피치 추정 과정은 다음과 같다.The rear pitch estimation process is as follows.

E(P)의 값을 최소화시키고 식 3을 만족시키는 P값을 B로 정의한다.Minimize the value of E (P) and obtain a P value that satisfies Equation 3. It is defined as B.

(3) (3)

그리고, 전방 피치 추정 과정은 다음과 같다.The forward pitch estimation process is as follows.

전방 피치추정은 미래의 음성 프레임 사이에서 피치의 연속성을 보존하기 위한 시도로 이루어진다.Forward pitch estimation is made in an attempt to preserve the continuity of the pitch between future speech frames.

CEF(P0)의 값을 최소로 하는 집합내의 P0값을값으로 정의한다.The value of the F CE (P 0) to P 0 value in the set to a minimum Defined by value.

전방누적오차와 후방누적오차가 계산되어진 후 각각의 대표값을 비교하여 결정논리에 의하여 F또는 B중의 하나의 값이 초기 피치 측정 I로 선택된다.After the front cumulative error and the back cumulative error have been calculated, compare each representative value. F or One of the values of B measures the initial pitch Is selected by I.

피치 개선 알고리즘은 정확도를 2분의 1 샘플에서 4분의 1 샘플까지 피치 측정의 결과를 향상시켜준다.The pitch improvement algorithm improves the accuracy of pitch measurements from one half sample to one quarter samples.

열 개의 후보 피치들은 초기 피치 측정으로부터 만들어낸다.Ten candidate pitches are generated from the initial pitch measurement.

이것들은 각각 수식적으로 다음과 같다.These are each formally as follows.

(4) (4)

후보피치들은 기본주파수로 바뀌어진다.Candidate pitches are shifted to the fundamental frequency.

식 5에 정의된 에러함수 ER()는 후보 기본 주파수를 대입하여 계산된다.Error function E R (defined in equation 5) ) Is the candidate base frequency Calculated by substituting

ER()를 최소로 하는 값으로부터 얻어진 후보 기본 주파수는 수정된 기본 주파수로 선택되어진다.E R ( The candidate fundamental frequency obtained from the value of) is the modified fundamental frequency. Is selected.

(5) (5)

상술한 바와 같은 IMBE의 복잡한 피치검색방법은 음질의 향상을 가져오지만피치검색시간이 많이 소요되는 단점을 갖고 있다.As described above, the IMBE's complex pitch search method has an improvement in sound quality, but has a disadvantage in that a pitch search time is required.

처리시간이 많이 소요되면 저가형 정수처리 DSP칩으로 실시간 처리가 어려워 비용이 높아지게 되고 또한 보코더의 처리과정이 복잡하면 이에 비례적으로 전력소모가 증가하기 때문에 휴대전화기 등에서 건전지 사용시간이 감소하게 된다.If the processing time is long, the low cost water treatment DSP chip makes it difficult to process in real time, which increases the cost. Also, if the processing of the vocoder is complicated, the power consumption increases proportionally, which reduces the battery usage time in mobile phones.

본 발명의 목적은 음성신호를 메모리에 저장 또는 전송할 경우 스펙트럼 면적 비교법 (SAMDF : Spectrum Average Magnitude Difference Function)를 적용하여초기 피치 검색을 위해 소요되는 시간을 줄일 수 있도록 하는 스펙트럼 평균 진폭차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법을제공하는데 있다.An object of the present invention is an improvement using a spectral mean amplitude difference function to reduce the time required for initial pitch search by applying a Spectrum Average Magnitude Difference Function (SAMDF) when storing or transmitting a voice signal in a memory. To reduce the pitch search time of the multi-band excitation vocoder is provided.

도1은 종래의 IMBE 음성 부호화기의 구성도,1 is a block diagram of a conventional IMBE speech coder,

도2는 종래의 초기피치검색 구성도,2 is a conventional initial pitch search configuration diagram;

도3은 본 발명에 따른 구성도,3 is a block diagram according to the present invention;

도4는 본 발명에 따른 유성음에 대한 결과 그래프,4 is a result graph for voiced sounds according to the present invention;

도5는 본 발명에 따른 원 음성과 합성음성에 대한 비교 그래프,5 is a comparison graph for the original voice and the synthesized voice according to the present invention;

도6은 본 발명에 따른 처리시간 결과 비교 표,6 is a comparison table of the results of processing time according to the present invention;

도7은 본 발명에 따른 MOS결과에 대한 표이다.7 is a table of MOS results according to the present invention.

상기의 목적을 달성하기 위한 본 발명 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법은, 신호를 주파수 대역으로 변환한 후 대역 분할하는 IMBE 음성부호화기를 이용하여, 주파수 영역으로 변환하기 위한 소정의 값을 갖는 샘플의 윈도우를 취하는 단계와; 주파수 영역에서 초기 피치를 검출하기 위한 스펙트럼 평균 진폭 함수를 산출하는 단계와; 초기 피치 값을 피치 재확인 과정의 인수로 전달하는 단계를 포함하여 된 것을 특징으로 한다.An improved multi-band excitation vocoder's pitch search time reduction method using the spectral mean amplitude difference function of the present invention provides a frequency domain using an IMBE speech coder that converts a signal into a frequency band and then bands it. Taking a window of a sample having a predetermined value to convert to; Calculating a spectral mean amplitude function for detecting an initial pitch in the frequency domain; And passing the initial pitch value as an argument of the pitch reconfirmation process.

피치의 홀수 프레임에 대해서는 기본 주파수가 존재하는 전 범위에 대해서 검색하는 단계와; 피치의 짝수 프레임에서는 이전 프레임의 기본주파수의 소정 범위 내에서만 검색을 수행하는 단계를 포함한다.Searching for the full range in which the fundamental frequency exists for odd frames of pitch; In even frames of the pitch, performing a search only within a predetermined range of the fundamental frequency of the previous frame.

소정의 값을 갖는 샘플의 윈도우는 221샘플의 길이를 갖게 된다.A window of a sample having a predetermined value has a length of 221 samples.

또한, 짝수 프레임의 기본 주파수가 이전 프레임의 기본 주파수의 소정 범위를 벗어날 경우 이전 프레임의 기본 주파수로 대체하는 단계를 더 포함한다.The method may further include replacing the base frequency of the even frame with the base frequency of the previous frame when the base frequency of the even frame is out of a predetermined range of the base frequency of the previous frame.

상술된 본 발명의 특징에 의하면, 본 발명에 따른 스펙트럼 평균 진폭 차이함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법은, 음성신호를 메모리에 저장 또는 전송할 경우 스펙트럼 면적 비교법 (SAMDF : Spectrum Average Magnitude Difference Function)를 적용하여 초기 피치 검색을 위해 소요되는 시간을 줄일 수 있게 된다.According to the characteristics of the present invention described above, the improved pitch search time reduction method of the multi-band excitation vocoder using the spectral mean amplitude difference function according to the present invention is a method for comparing the spectral area when storing or transmitting a voice signal in a memory (SAMDF) By applying the Average Magnitude Difference Function, the time required for initial pitch search can be reduced.

이하, 첨부된 도면을 참조하여 본 발명의 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법을 상세히 설명하고자 한다.Hereinafter, a method of shortening the pitch search time of an improved multi-band excitation vocoder using the spectral mean amplitude difference function of the present invention will be described in detail.

먼저, IMBE보코더의 처리시간 중 50% 정도를 차지하는 피치검색과정에 대해음질의 열화를 최소화하면서 피치 검색시간을 줄일 수 있는 피치검색법을 설명한다.First, the pitch search method that can reduce the pitch search time while minimizing the deterioration of sound quality for the pitch search process that takes about 50% of the IMBE vocoder's processing time will be described.

도3은, 본 발명의 제어 과정을 도시한 블록도이다.3 is a block diagram showing a control process of the present invention.

시간영역에서 처리하는 초기피치 검색법을 생략하고 바로 주파수 영역으로 변환한 다음 SAMDF를 이용하여 기본 주파수를 찾은 다음 피치 개선 과정을 수행하였다.After skipping the initial pitch search method in the time domain, we converted directly to the frequency domain, found the fundamental frequency using SAMDF, and then improved the pitch.

그러나, 이렇게 할 경우 피치의 갑작스런 변화를 방지할 수 없으므로 홀수 프레임에 대해서는 기본주파수가 존재하는 전 범위에 대해서 검색하고 짝수 프레임에서는 이전 프레임의 기본주파수의 ±20%내의 범위 내에서만 검색을 하였다.However, in this case, the sudden change of the pitch cannot be prevented. Therefore, the odd frame is searched for the entire range where the fundamental frequency exists and the even frame is searched only within the range of ± 20% of the fundamental frequency of the previous frame.

만일 짝수 프레임의 기본주파수가 이전 프레임의 기본주파수의 ±20% 범위를벗어날 경우에는 이전 프레임의 기본주파수로 대체하였다.If the fundamental frequency of an even frame is out of ± 20% of the fundamental frequency of the previous frame, it is replaced by the fundamental frequency of the previous frame.

SAMDF식은 식 6과 같다.The SAMDF equation is as shown in equation 6.

이 SAMDF법은 유성음의 경우 스펙트럼상에서 제1포만트의 에너지가 다른 포만트들보다 약 10dB정도 크다는 점에 착안하여 최대 에너지 위치인까지만 처리한다.This SAMDF method focuses on the fact that the energy of the first formant is about 10 dB greater than that of other formants in the case of voiced sound. Only process until

(6) (6)

여기서 N은 한 프레임의 길이이고, Sw(·)는 음성신호의 진폭스펙트럼이다.Where N is the length of one frame and S w (·) is the amplitude spectrum of the audio signal.

도4는 유성음에 대한 결과 그래프에 관한 것으로서, 도4(a)는 원 음성 파형이고, 도4(b)는 원 음성에 대한 진폭스펙트럼이고, 도4(c)는 SAMDF를 통과한 진폭스펙트럼이다.Fig. 4 is a result graph for voiced sounds, Fig. 4 (a) is an original speech waveform, Fig. 4 (b) is an amplitude spectrum of original speech, and Fig. 4 (c) is an amplitude spectrum passing through SAMDF. .

도5는 원 음성과 합성음성에 관한 것으로서, 도5(a)는 원음성 파형, 도5(b)는 기존의 IMBE의 합성음성 파형, 도5(c)는 제안한 IMBE의 합성음성 파형에 관한 것이다.Fig. 5 relates to the original voice and the synthesized voice, Fig. 5 (a) shows the original voice waveform, Fig. 5 (b) shows the conventional voice waveform of IMBE, and Fig. 5 (c) shows the synthesized voice waveform of the proposed IMBE. will be.

컴퓨터 시뮬레이션에 이용한 장비는 IBM-PC/586(200) 시스템이며 여기에 음성신호를 입출력하기 위한 상용화된 16비트 AD/DA변환기를 인터페이스하여 8kHz의 표본율로 데이터를 입력하였다.The equipment used for computer simulation is IBM-PC / 586 (200) system, which inputs data with sample rate of 8kHz by interfacing to commercialized 16-bit AD / DA converter.

각 시료에 대해 한 프레임의 길이를 IMBE 보코더에서 사용하는 160표본으로하여 처리하였다.For each sample, the length of one frame was treated with 160 specimens used by the IMBE vocoder.

처리결과의 성능을 측정하기 위해 다음의 대표적인 문장을 연령층이 다양한 남녀 5명의 화자가 다음과 같이 5번씩 발성하여 시료로 사용하였다.In order to measure the performance of the treatment results, the following representative sentences were used as a sample by five speakers of various genders as follows.

발성1: /인수네 꼬마는 천재소년을 좋아한다./Voice 1: Insu's little boy likes a genius boy.

발성2: /예수님께서 천지창조의 교훈을 말씀하셨다./Voice 2: / Jesus gave the lesson of creation.

발성3: /숭실대 정보통신공학과 음성통신연구팀이다./Voice3: / Songsil University, Information and Communication Engineering, Voice Communication Research Team./

발성4: /감사합니다./Voice 4: Thank you.

피치 검색은 IMBE 보코더의 피치 검색 과정을 C-언어로 구현하여 수행하였다.Pitch search was performed by implementing the pitch search process of IMBE vocoder in C-language.

성능비교를 위해서 기존의 IMBE 보코더 피치검색과 제안한 방법을 시뮬레이션 하여 그 결과를 비교하였다.For performance comparison, we compare the results of the proposed IMBE vocoder pitch search with the proposed method.

기존의 IMBE 보코더(vocoder)는 기본 주파수 검출을 위해 시간 영역의 초기피치검색과 주파수 영역의 피치 개선 과정을 모두 수행하여 기본 주파수를 검출한데 반하여, 본 발명의 알고리즘은 사간 영역에서의 초기피치 검색과정은 수행하지 않고 바로 주파수 영역에서 SAMDF법을 이용하여 초기 기본주파수를 구한 후 피치 개선과정을 수행하였다.The conventional IMBE vocoder detects the fundamental frequency by performing both the initial pitch search in the time domain and the pitch improvement process in the frequency domain to detect the fundamental frequency, whereas the algorithm of the present invention uses the initial pitch search process in the interstitial domain. The pitch improvement process was performed after obtaining the initial fundamental frequency using the SAMDF method in the frequency domain.

도6에서는 기존의 IMBE의 처리시간과 제안한 IMBE의 처리시간을 비교하여 나타내었다.6 shows a comparison between the processing time of the conventional IMBE and the processing time of the proposed IMBE.

도7에서는 MOS 테스트 결과를 나타내었다.7 shows the MOS test results.

본 발명 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법은 다음과 같은 효과를 가진다.An improved multi-band excitation vocoder's pitch search time reduction method using the spectral mean amplitude difference function has the following effects.

첫째, IMBE 보코더에서 피치 검색시간은 저가형 정수처리 DSP를 사용할 때 총 부호화 처리시간의 약 50%정도를 차지하는 문제점을 해결하기 위하여, SAMDF법을 이용하여 IMBE 보코더의 피치 검색시간을 개선하는 검색법을 새로이 제안하였다.First, in order to solve the problem that the pitch search time in the IMBE vocoder is about 50% of the total coding processing time when using low-cost integer processing DSP, we use the SAMDF method to improve the pitch search time of the IMBE vocoder. Newly proposed.

둘째, 실제 음성에 대해 제안한 피치검색을 사용하여 IMBE 부호화를 수행하였을 때, 기존의 IMBE 피치검색법에 비해 처리시간이 평균 52.02%로 감소하였고 MOS 테스트결과 음질의 열하는 거의 없었다.Secondly, when IMBE coding was performed using the proposed pitch search for real speech, the processing time was reduced to 52.02% on average compared to the conventional IMBE pitch searching method, and there was almost no deterioration in sound quality as a result of MOS test.

셋째, 기존 개선된 다중 대역 여기 보코더의 부호화단에서는 초기 피치 검출을 위한 전방 피치 추정 블록, 후방 피치 추정 블록, 그리고 이 두 블록의 출력값을 비교하기 위한 블록을 사용하는데 반하여,Third, while the encoding stage of the conventional improved multi-band excitation vocoder uses a front pitch estimation block for initial pitch detection, a rear pitch estimation block, and a block for comparing the output values of the two blocks,

주파수 영역으로 변환하기 위한 221 샘플의 윈도우를 취한 후 주파수 영역에서 초기 피치를 검출하기 위한 스펙트럼 평균 진폭 함수 블록을 구비하고 여기서 얻어진 초기 피치 값을 피치 재확인 과정의 인수로 넘김으로 해서 초기 피치 검색을 위해 소요되는 시간을 줄일 수 있게 된다.After taking a window of 221 samples for converting to the frequency domain, it has a spectral mean amplitude function block for detecting the initial pitch in the frequency domain, and passes the initial pitch value obtained as an argument of the pitch reconfirmation process for initial pitch search. This can reduce the time required.

Claims (4)

신호를 주파수 대역으로 변환한 후 대역 분할하는 IMBE 음성부호화기를 이용하여, 주파수 영역으로 변환하기 위한 소정의 값을 갖는 샘플의 윈도우를 취하는 단계와,Taking a window of a sample having a predetermined value for conversion into a frequency domain using an IMBE speech coder that converts the signal into a frequency band and then band-divides; 상기 주파수 영역에서 초기 피치를 검출하기 위한 스펙트럼 평균 진폭 차이함수를 산출하는 단계와,Calculating a spectral mean amplitude difference function for detecting an initial pitch in the frequency domain; 상기 초기 피치 값을 피치 재확인 과정의 인수로 전달하는 단계를 포함하여된 것을 특징으로 하는 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역여기 보코더의 피치 검색 시간 단축 방법.And passing said initial pitch value as a factor of a pitch reconfirmation process. The improved method of shortening the pitch retrieval time of a multiband excitation vocoder using a spectral mean amplitude difference function. 제1항에 있어서, 상기 소정의 값을 갖는 샘플의 윈도우는 221샘플의 길이를 갖는 것을 특징으로 하는 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법.4. The method of claim 1, wherein the window of samples having a predetermined value has a length of 221 samples. 제1항 또는 제2항에 있어서, 상기 피치의 홀수 프레임에 대해서는 기본 주파수가 존재하는 전 범위에 대해서 검색하는 단계와,The method according to claim 1 or 2, further comprising: searching for the entire range in which the fundamental frequency exists for odd frames of the pitch; 상기 피치의 짝수 프레임에서는 이전 프레임의 기본주파수의 소정 범위 내에서만 검색을 수행하는 단계를 포함하여 된 것을 특징으로 하는 스펙트럼 평균 진폭차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법.And performing a search only within a predetermined range of the fundamental frequency of the previous frame in the even frames of the pitch. 10. A method of shortening the pitch search time of an improved multi-band excitation vocoder using a spectral mean amplitude difference function. 제3항에 있어서, 상기 짝수 프레임의 기본 주파수가 이전 프레임의 기본 주파수의 소정 범위를 벗어날 경우 이전 프레임의 기본 주파수로 대체하는 단계를 더포함하여 된 것을 특징으로 하는 스펙트럼 평균 진폭 차이 함수를 이용한 개선된 다중 대역 여기 보코더의 피치 검색 시간 단축 방법.The improvement using the spectral mean amplitude difference function of claim 3, further comprising: substituting the fundamental frequency of the previous frame when the fundamental frequency of the even frame is out of a predetermined range of the fundamental frequency of the previous frame. A shorter pitch search time for a multiband excitation vocoder.
KR1019990017697A 1999-05-17 1999-05-17 On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF KR19990068410A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990017697A KR19990068410A (en) 1999-05-17 1999-05-17 On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990017697A KR19990068410A (en) 1999-05-17 1999-05-17 On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF

Publications (1)

Publication Number Publication Date
KR19990068410A true KR19990068410A (en) 1999-09-06

Family

ID=54776266

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990017697A KR19990068410A (en) 1999-05-17 1999-05-17 On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF

Country Status (1)

Country Link
KR (1) KR19990068410A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100388488B1 (en) * 2000-12-27 2003-06-25 한국전자통신연구원 A fast pitch analysis method for the voiced region

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100388488B1 (en) * 2000-12-27 2003-06-25 한국전자통신연구원 A fast pitch analysis method for the voiced region

Similar Documents

Publication Publication Date Title
US9653088B2 (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP1141947B1 (en) Variable rate speech coding
JP4064236B2 (en) Indexing method of pulse position and code in algebraic codebook for wideband signal coding
JP5037772B2 (en) Method and apparatus for predictive quantization of speech utterances
RU2262748C2 (en) Multi-mode encoding device
JP2002534720A (en) Adaptive Window for Analytical CELP Speech Coding by Synthesis
KR19990088582A (en) Method and apparatus for estimating the fundamental frequency of a signal
Chamberlain A 600 bps MELP vocoder for use on HF channels
US20050021325A1 (en) Apparatus and method for detecting a pitch for a voice signal in a voice codec
JP4550176B2 (en) Speech coding method
Yang Low bit rate speech coding
Xydeas et al. Split matrix quantization of LPC parameters
EP1163662B1 (en) Method of determining the voicing probability of speech signals
Budagavi et al. Speech coding in mobile radio communications
JP3404350B2 (en) Speech coding parameter acquisition method, speech decoding method and apparatus
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
JPWO2010098130A1 (en) Tone determination device and tone determination method
KR19990068410A (en) On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Spectral AMDF
Yeldener et al. Multiband linear predictive speech coding at very low bit rates
KR19990068411A (en) On a Reduction of Pitch Search Time for IMBE Vocoder by Using the Quantization Error
Wu et al. An improved MELP speech coder
Laurent et al. A robust 2400 bps subband LPC vocoder
Yang et al. Pitch synchronous multi-band (PSMB) speech coding
Xydeas et al. Segmental prototype interpolation coding
Lin et al. An 8.0-/8.4-kbps wideband speech coder based on mixed excitation linear prediction

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee