KR20110132339A - 톤 판정 장치 및 톤 판정 방법 - Google Patents

톤 판정 장치 및 톤 판정 방법 Download PDF

Info

Publication number
KR20110132339A
KR20110132339A KR1020117019747A KR20117019747A KR20110132339A KR 20110132339 A KR20110132339 A KR 20110132339A KR 1020117019747 A KR1020117019747 A KR 1020117019747A KR 20117019747 A KR20117019747 A KR 20117019747A KR 20110132339 A KR20110132339 A KR 20110132339A
Authority
KR
South Korea
Prior art keywords
encoding
input signal
tone
correlation
shortening
Prior art date
Application number
KR1020117019747A
Other languages
English (en)
Inventor
가오루 사토
도시유키 모리
히로유키 에하라
Original Assignee
파나소닉 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 파나소닉 주식회사 filed Critical 파나소닉 주식회사
Publication of KR20110132339A publication Critical patent/KR20110132339A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/18Electrical details
    • H04Q1/30Signalling arrangements; Manipulation of signalling currents
    • H04Q1/44Signalling arrangements; Manipulation of signalling currents using alternate current
    • H04Q1/444Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
    • H04Q1/46Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)

Abstract

현재 프레임의 주파수 성분과 전 프레임의 주파수 성분의 상관에 따라 입력 신호의 톤성을 판정하는 톤 판정 장치에 있어서, 계산량을 저감시킬 수 있는 톤 판정 장치이다.
이 장치에 있어서, 벡터 결합부(104)는, 전 프레임의 SDFT 계수의 일부와, 전 프레임의 다운 샘플링 후의 SDFT 계수의 일부를 결합하여 새로운 SDFT 계수를 생성함과 함께, 현재 프레임의 SDFT 계수의 일부와, 현재 프레임의 다운 샘플링 후의 SDFT 계수의 일부를 결합하여 새로운 SDFT 계수를 생성하고, 상관 분석부(105)는, SDFT 계수의 프레임 간에서의 상관을 구함과 함께, 현재 프레임의 파워를 일정한 대역마다 구하며, 대역 결정부(106)는, 파워가 최대가 되는 대역을 결정하고, 결정한 대역의 위치 정보를 시프트 정보로서 출력하며, 톤 판정부(107)는, 상관 분석부(105)로부터 입력되는 상관의 값에 따라 입력 신호의 톤성을 판정한다.

Description

톤 판정 장치 및 톤 판정 방법{TONE DETERMINATION DEVICE AND TONE DETERMINATION METHOD}
본 발명은, 톤 판정 장치 및 톤 판정 방법에 관한 것이다.
디지털 무선 통신이나, 인터넷 통신으로 대표되는 패킷 통신, 또는, 음성 축적 등의 분야에 있어서는, 전파 등의 전송로의 용량이나 기억 매체의 유효 이용을 도모하기 위해, 음성 신호의 부호화/복호화 기술이 불가결하며, 지금까지 많은 음성 부호화/복호화 방식이 개발되어 왔다. 그 중에서, CELP(Code Excited Linear Prediction) 방식의 음성 부호화/복호화 방식이 주류의 방식으로서 실용화되고 있다.
CELP 방식의 음성 부호화 장치는, 미리 기억된 음성 모델에 기초하여 입력 음성을 코드화한다. 구체적으로는, CELP 방식의 음성 부호화 장치는, 디지털화된 음성 신호를 10~20ms 정도의 프레임으로 구획하여, 프레임마다 음성 신호의 선형 예측 분석을 행하고, 선형 예측 계수와 선형 예측 잔차(殘差) 벡터를 구하여, 선형 예측 계수와 선형 예측 잔차 벡터를 각각 개별적으로 부호화한다.
또, 입력 신호에 따라 비트 레이트를 변경하는 가변 레이트 부호화 장치도 실현되고 있다. 가변 레이트 부호화 장치에서는, 입력 신호가 주로 음성 정보를 많이 포함하는 경우에는 높은 비트 레이트로 입력 신호를 부호화하고, 입력 신호가 주로 잡음 정보를 많이 포함하는 경우에는 낮은 비트 레이트로 입력 신호를 부호화하는 것이 가능하다. 즉, 중요한 정보를 많이 포함하는 경우에는 고품질의 부호화에 의해, 복호화 장치측에서 재생되는 출력 신호의 고품질화를 도모하는 한편, 중요성이 낮은 경우에는 저품질의 부호화에 그치게 함으로써, 전력, 전송 대역 등을 절약할 수 있다. 이와 같이, 입력 신호의 특징(예를 들면, 유성성, 무성성, 톤성 등)을 검출하여, 검출 결과에 따라 부호화 방법을 변경함으로써, 입력 신호의 특징에 적합한 부호화를 행할 수 있어, 부호화 성능을 향상시킬 수 있다.
입력 신호가 음성 정보인지, 잡음 정보인지를 분류하는 방법으로서 VAD(Voice Active Detector)가 있다. 구체적으로는, (1) 입력 신호를 양자화하여 클래스 분류를 행하고, 클래스 정보로부터 음성 정보/잡음 정보를 분류하는 방법, (2) 입력 신호의 기본 주기를 구하여, 기본 주기의 길이만큼 거슬러 올라간 신호와 현재 신호의 상관의 높이에 따라 음성 정보/잡음 정보를 분류하는 방법, (3) 입력 신호의 주파수 성분의 시간 변동을 조사하여, 변동 정보에 따라 음성 정보/잡음 정보를 분류하는 방법 등이 있다.
또, SDFT(Shifted Discrete Fourier Transform)에 의해 입력 신호의 주파수 성분을 구하여, 현재 프레임의 주파수 성분과 전 프레임의 주파수 성분의 상관의 높이에 따라 입력 신호의 톤성을 분류하는 기술이 있다(예를 들면, 특허 문헌 1). 상기 특허 문헌 1에 개시된 기술에서는, 톤성에 따라 주파수 대역 확장의 방법을 전환함으로써, 부호화 성능의 향상을 도모하고 있다.
국제 공개 제2007/052088호
그러나 상기 특허 문헌 1에 개시된 바와 같은 톤 판정 장치, 즉, SDFT에 의해 입력 신호의 주파수 성분을 구하여, 현재 프레임의 주파수 성분과 전 프레임의 주파수 성분의 상관에 따라 입력 신호의 톤성을 검출하는 톤 판정 장치에 있어서는, 모든 주파수 대역을 고려하여 상관을 구하고 있기 때문에, 계산량이 커져 버린다는 과제가 있었다.
본 발명의 목적은, 입력 신호의 주파수 성분을 구하여, 현재 프레임의 주파수 성분과 전 프레임의 주파수 성분의 상관에 따라 입력 신호의 톤성을 판정하는 톤 판정 장치 및 톤 판정 방법에 있어서, 계산량을 저감시키는 것이다.
본 발명의 톤 판정 장치는, 주파수 변환된 입력 신호의 벡터 계열 길이를 단축하는 단축 처리를 행하는 단축 수단과, 벡터 계열 길이 단축 후의 벡터 계열을 이용하여 상관을 구하는 상관 수단과, 상기 상관을 이용하여 상기 입력 신호의 톤성을 판정하는 판정 수단을 구비하는 구성을 채용한다.
본 발명에 의하면, 톤 판정에 필요로 하는 계산량을 저감시킬 수 있다.
도 1은 본 발명의 실시의 형태 1에 관련된 톤 판정 장치의 주요한 구성을 나타낸 블럭도이다.
도 2는 본 발명의 실시의 형태 1에 관련된 SDFT 계수의 결합 처리의 모습을 나타낸 도면이다.
도 3은 본 발명의 실시의 형태 1에 관련된 상관 분석부의 내부 구성을 나타낸 블럭도이다.
도 4는 본 발명의 실시의 형태 1에 관련된 대역 결정부의 내부 구성을 나타낸 블럭도이다.
도 5는 본 발명의 실시의 형태 2에 관련된 톤 판정 장치의 주요한 구성을 나타낸 블럭도이다.
도 6은 본 발명의 실시의 형태 2에 관련된 SDFT 계수의 분할 처리 및 다운 샘플링 처리의 모습을 나타낸 도면이다.
도 7은 본 발명의 실시의 형태 3에 관련된 부호화 장치의 주요한 구성을 나타낸 블럭도이다.
도 8은 본 발명의 실시의 형태 4에 관련된 톤 판정 장치의 주요한 구성을 나타낸 블럭도이다.
도 9는 본 발명의 실시의 형태 4에 관련된 SDFT 계수의 결합 처리의 모습을 나타낸 도면이다.
도 10은 본 발명의 실시의 형태 5에 관련된 부호화 장치의 주요한 구성을 나타낸 블럭도이다.
이하, 본 발명의 실시의 형태에 대해서, 첨부 도면을 참조하여 상세하게 설명한다.
(실시의 형태 1)
도 1은, 본 실시의 형태에 관련된 톤 판정 장치(100)의 주요한 구성을 나타낸 블럭도이다. 여기에서는, 톤 판정 장치(100)가, 입력 신호의 톤성을 판정하고, 판정 결과를 출력하는 경우를 예를 들어 설명한다. 입력 신호는, 음성 신호여도 악음(樂音) 신호여도 된다.
도 1에 있어서, 주파수 변환부(101)는, SDFT를 이용하여 입력 신호의 주파수 변환을 행하고, 주파수 변환에 의해 구해지는 주파수 성분인 SDFT 계수를 다운 샘플링부(102)와 버퍼(103)에 출력한다.
다운 샘플링부(102)는, 주파수 변환부(101)로부터 입력되는 SDFT 계수에 대해 다운 샘플링 처리를 행하여, SDFT 계수의 계열 길이를 단축한다. 그 다음에, 다운 샘플링부(102)는, 다운 샘플링 후의 SDFT 계수를 버퍼(103)에 출력한다.
버퍼(103)는, 전 프레임의 SDFT 계수와, 전 프레임의 다운 샘플링 후의 SDFT 계수를 내부에 저장하고 있으며, 이들 2개의 SDFT 계수를 벡터 결합부(104)에 출력한다. 그 다음에, 버퍼(103)는, 주파수 변환부(101)로부터 현재 프레임의 SDFT 계수가 입력됨과 함께, 다운 샘플링부(102)로부터 현재 프레임의 다운 샘플링 후의 SDFT 계수가 입력되고, 이들 2개의 SDFT 계수를 벡터 결합부(104)에 출력한다. 그 다음에, 버퍼(103)는, 내부에 저장되어 있는 전 프레임의 상기 2개의 SDFT 계수(전 프레임의 SDFT 계수와, 전 프레임의 다운 샘플링 후의 SDFT 계수)와, 현재 프레임의 상기 2개의 SDFT 계수(현재 프레임의 SDFT 계수와, 현재 프레임의 다운 샘플링 후의 SDFT 계수)를 각각 교체함으로써, SDFT 계수를 갱신한다.
벡터 결합부(104)는, 버퍼(103)로부터 전 프레임의 SDFT 계수와, 전 프레임의 다운 샘플링 후의 SDFT 계수와, 현재 프레임의 SDFT 계수와, 현재 프레임의 다운 샘플링 후의 SDFT 계수가 입력됨과 함께, 대역 결정부(106)로부터 시프트 정보가 입력된다. 그 다음에, 벡터 결합부(104)는, 전 프레임의 SDFT 계수의 일부와, 전 프레임의 다운 샘플링 후의 SDFT 계수의 일부를 결합하여 새로운 SDFT 계수(전 프레임 결합 SDFT 계수)를 생성하고, 이 새로운 SDFT 계수를 상관 분석부(105)에 출력한다. 또, 벡터 결합부(104)는, 현재 프레임의 SDFT 계수의 일부와, 현재 프레임의 다운 샘플링 후의 SDFT 계수의 일부를 결합하여 새로운 SDFT 계수(현재 프레임 결합 SDFT 계수)를 생성하고, 이 새로운 SDFT 계수를 상관 분석부(105)에 출력한다. 이때, 어떻게 결합하는지는, 상기 시프트 정보에 따라 결정된다.
상관 분석부(105)는, 벡터 결합부(104)로부터 전 프레임 결합 SDFT 계수와, 현재 프레임 결합 SDFT 계수가 입력되어, SDFT 계수의 프레임 간에서의 상관을 구하고, 구한 상관을 톤 판정부(107)에 출력한다. 또, 상관 분석부(105)는, 현재 프레임의 파워를 일정한 대역마다 구하여, 현재 프레임의 대역마다의 파워를 파워 정보로서 대역 결정부(106)에 출력한다. 상기 파워는, 상관을 구하는 과정에서 얻어지는 부수적인 2차 생성물이기 때문에, 파워를 구하기 위한 계산을 별도로 행할 필요는 없다.
대역 결정부(106)는, 파워가 최대가 되는 대역은 입력 신호의 톤성의 판정에서 중요한 대역이기 때문에, 상관 분석부(105)로부터 입력되는 파워 정보를 이용하여 파워가 최대가 되는 대역을 결정하고, 결정한 대역의 위치 정보를 시프트 정보로서 벡터 결합부(104)에 출력한다.
톤 판정부(107)는, 상관 분석부(105)로부터 입력되는 상관의 값에 따라 입력 신호의 톤성을 판정한다. 그 다음에, 톤 판정부(107)는, 톤 판정 장치(100)의 출력으로서 톤 정보를 출력한다.
다음에, 톤 판정 대상이 되는 입력 신호의 차수가 2N차(N은 1 이상의 정수)인 경우를 예를 들어, 톤 판정 장치(100)의 동작에 대해서 설명한다. 또한, 이하의 설명에서는, 입력 신호를 x(i)(i=0, 1, …, 2N-1)로 기술한다.
주파수 변환부(101)는, 입력 신호 x(i)(i=0, 1, …, 2N-1)가 입력되고, 하기의 식 (1)에 따라 주파수 변환을 행하여, 얻어진 SDFT 계수 Y(k)(k=0, 1, …, N)를 다운 샘플링부(102)와 버퍼(103)에 출력한다.
Figure pct00001
여기서, h(n)은 윈도우 함수이며, MDCT 윈도우 함수 등이 사용된다. 또, u는 시간 시프트의 계수, v는 주파수 시프트의 계수이며, 예를 들면, u=(N+1)/2, v=1/2와 같이 설정된다.
다운 샘플링부(102)는, 주파수 변환부(101)로부터 SDFT 계수 Y(k)(k=0, 1, …, N)가 입력되어, 하기의 식 (2)에 따라 다운 샘플링 처리를 행한다.
Figure pct00002
여기서, n=m×2가 성립되고, m은 1에서 N/2-1까지의 값을 취한다. m=0의 경우는, 다운 샘플링을 행하지 않고 Y_re(0)=Y(0)으로 해도 된다. 여기서, 필터 계수 [j0, j1, j2, j3]에는 에일리어싱 왜곡이 발생하지 않도록 설계된 저역 통과 필터 계수를 설정한다. 예를 들면, 입력 신호의 샘플링 주파수가 32000Hz일 때에, j0=0.195, j1=0.3, j2=0.3, j3=0.195로 설정하면 양호한 결과가 얻어지는 것을 알수 있다.
그 다음에, 다운 샘플링부(102)는, 다운 샘플링 후의 SDFT 계수 Y_re(k)(k=0, 1, …, N/2-1)를 버퍼(103)에 출력한다.
버퍼(103)는, 주파수 변환부(101)로부터 SDFT 계수 Y(k)(k=0, 1, …, N)가 입력됨과 함께, 다운 샘플링부(102)로부터 다운 샘플링 후의 SDFT 계수 Y_re(k)(k=0, 1, …, N/2-1)가 입력된다. 그 다음에, 버퍼(103)는, 내부에 저장되어 있는 전 프레임의 SDFT 계수 Y_pre(k)(k=0, 1, …, N)와, 전 프레임의 다운 샘플링 후의 SDFT 계수 Y_re_pre(k)(k=0, 1, …, N/2-1)를 벡터 결합부(104)에 출력한다. 그 다음에, 버퍼(103)는, 현재 프레임의 SDFT 계수 Y(k)(k=0, 1, …, N)와, 현재 프레임의 다운 샘플링 후의 SDFT 계수 Y_re(k)(k=0, 1, …, N/2-1)를 벡터 결합부(104)에 출력한다. 그 다음에, 버퍼(103)는, 현재 프레임의 SDFT 계수 Y(k)(k=0, 1, …, N)를 Y_pre(k)(k=0, 1, …, N)로서 내부에 저장하고, 현재 프레임의 다운 샘플링 후의 SDFT 계수 Y_re(k)(k=0, 1, …, N/2-1)를 Y_re_pre(k)(k=0, 1, …, N/2-1)로서 내부에 저장한다. 즉, 현재 프레임의 SDFT 계수와 전 프레임의 SDFT 계수를 교체함으로써, 버퍼의 갱신을 행한다.
벡터 결합부(104)는, 버퍼(103)로부터 현재 프레임의 SDFT 계수 Y(k)(k=0, 1, …, N)와, 현재 프레임의 다운 샘플링 후의 SDFT 계수 Y_re(k)(k=0, 1, …, N/2-1)와, 전 프레임의 SDFT 계수 Y_pre(k)(k=0, 1, …, N)와, 전 프레임의 다운 샘플링 후의 SDFT 계수 Y_re_pre(k)(k=0, 1, …, N/2-1)가 입력됨과 함께, 대역 결정부(106)로부터 시프트 정보 SH가 입력된다. 그 다음에, 벡터 결합부(104)는, 하기의 식 (3)에 따라 현재 프레임의 SDFT 계수의 결합을 행한다.
Figure pct00003
마찬가지로, 벡터 결합부(104)는, 하기의 식 (4)에 따라 전 프레임의 SDFT 계수의 결합을 행한다.
Figure pct00004
여기서, LH는, 결합에 이용하는 SDFT 계수 Y(k)(k=0, 1, …, N)의 길이, 또는, 결합에 이용하는 Y_pre(k)(k=0, 1, …, N)의 길이이다.
벡터 결합부(104)에서의 상기의 결합 처리의 모습을 나타내면 도 2에 나타내는 바와 같이 된다.
도 2에 나타내는 바와 같이, 결합 후의 SDFT 계수에는 기본적으로 다운 샘플링 후의 SDFT 계수((1)과 (3))가 이용되고, 시프트 정보 SH를 선두로 하여 길이 LH의 범위에 상당하는 SDFT 계수((2))가, (1)과 (2)의 사이에 삽입되어 결합이 행해진다. 도 2의 파선은, 다운 샘플링 전후에서, 동일한 주파수 대역에 상당하는 범위끼리를 나타내고 있다. 즉, 도 2에 나타내는 바와 같이, 시프트 정보 SH란, SDFT 계수 Y(k)(k=0, 1, …, N) 또는 SDFT 계수 Y_pre(k)(k=0, 1, …, N)를, 어느 주파수 대역으로부터 뽑아내는지를 지시하는 값이다. 여기서, 뽑아내는 범위의 길이인 LH는, 정수로서 적합한 값을 미리 설정해 둔다. LH를 길게 하면 결합 후의 SDFT 계수가 길어지기 때문에, 후의 상관을 구하는 처리에서 계산량이 커지는 한편, 구하는 상관이 보다 정확해진다. 따라서, 계산량과 상관의 정확함의 트레이드 오프를 고려하여, LH를 결정하면 된다. 또, LH를 적응적으로 변화시키는 것도 가능하다.
그 다음에, 벡터 결합부(104)는, 현재 프레임의 결합 후의 SDFT 계수 Y_co(k)(k=0, 1, …, K)와, 전 프레임의 결합 후의 SDFT 계수 Y_co_pre(k)(k=0, 1, …, K)를 상관 분석부(105)에 출력한다. 여기서, K=(N+LH)/2-1이다.
도 3은, 본 실시의 형태에 관련된 상관 분석부(105)의 내부 구성을 나타낸 블럭도이다.
도 3에 있어서, 오차 파워 계산부(201)는, 벡터 결합부(104)로부터 현재 프레임의 결합 후의 SDFT 계수 Y_co(k)(k=0, 1, …, K)와 전 프레임의 결합 후의 SDFT 계수 Y_co_pre(k)(k=0, 1, …, K)가 입력되어, 하기의 식 (5)에 따라 오차 파워 SS를 구한다.
Figure pct00005
그 다음에, 오차 파워 계산부(201)는, 구한 오차 파워 SS를 제산부(204)에 출력한다.
파워 계산부(202)는, 벡터 결합부(104)로부터 현재 프레임의 결합 후의 SDFT 계수 Y_co(k)(k=0, 1, …, K)가 입력되어, 하기의 식 (6)에 따라, 각 k에 있어서의 파워 SA(k)를 구한다.
Figure pct00006
그 다음에, 파워 계산부(202)는, 구한 파워 SA(k)를 파워 정보로서 가산부(203)와 대역 결정부(106)(도 1)에 출력한다.
가산부(203)는, 파워 계산부로부터 파워 SA(k)가 입력되어, 하기의 식 (7)에 따라, 파워 SA(k)의 총 합인 파워 SA를 구한다.
Figure pct00007
그 다음에, 가산부(203)는, 구한 파워 SA를 제산부(204)에 출력한다.
제산부(204)는, 오차 파워 계산부(201)로부터 오차 파워 SS가 입력됨과 함께, 가산부(203)로부터 파워 SA가 입력된다. 그 다음에, 제산부(204)는, 하기의 식 (8)에 따라, 상관 S를 구하고, 구한 상관 S를 상관 정보로서 톤 판정부(107)(도 1)에 출력한다.
Figure pct00008
도 4는, 본 실시의 형태에 관련된 대역 결정부(106)의 내부 구성을 나타낸 블럭도이다.
도 4에 있어서, 가중치 계수 저장부(301)는, 상관 분석부(105)(도 1)가 파워 정보로서 출력하는 파워 SA(k)에 승산하는 가중치 계수 W(k)(k=0, 1, …, N)를 저장하고 있으며, 이 가중치 계수를 길이 K로 단축하여 Wa(k)(k=0, 1, …, K)로서 승산부(302)에 출력한다. 단축의 방법은, k<SH 또는 SH+LH-1<k에 상당하는 범위에 있어서, W(k)를 1개 간격으로 솎아내면 된다. 여기서, 가중치 계수 W(k)(k=0, 1, …, N)를, 저역의 범위에서는 1.0으로 설정하고, 고역의 범위에서는 0.9로 설정하는 등 하여, 저역의 범위를 더욱 중요시하는 것이 가능하다.
승산부(302)는, 상관 분석부(105)(도 1)로부터 파워 정보로서 파워 SA(k)가 입력됨과 함께, 가중치 계수 저장부(301)로부터 가중치 계수 Wa(k)(k=0, 1, …, K)가 입력된다. 그 다음에, 승산부(302)는, 하기의 식 (9)에 따라, 가중치 계수를 곱한 가중 파워 SW(k)(k=0, 1, …, K)를 구하고, 이 가중 파워를 최대 파워 탐색부(303)에 출력한다.
Figure pct00009
또, 가중치 계수 저장부(301) 및 승산부(302)에 의한 가중 처리를 생략하는 것도 가능하다. 가중 처리를 생략함으로써, 식 (9)에 필요한 승산을 없앨 수 있어, 한층 더 계산량 삭감이 가능해진다.
최대 파워 탐색부(303)는, 승산부(302)로부터 가중 파워 SW(k)(k=0, 1, …, K)가 입력되어, 모든 k 중에서 가중 파워 SW(k)가 최대가 되는 k를 찾아내고, 찾아낸 k를 시프트수 결정부(304)에 출력한다.
시프트수 결정부(304)는, 최대 파워 탐색부(303)로부터 가중 파워 SW(k)가 최대가 되는 k가 입력되어, 이 k에 상당하는 주파수와 일치하는 SH의 값을 구하고, 이 SH의 값을 시프트 정보로서 벡터 결합부(104)(도 1)에 출력한다.
도 1에 나타낸 톤 판정부(107)는, 상관 분석부(105)로부터 상관 S가 입력되어, 상관 S의 값에 따라 톤성을 결정하고, 결정한 톤성을 톤 정보로서 출력한다. 구체적으로는, 톤 판정부(107)는, 임계값 T와 상관 S를 비교하여, T>S가 성립되는 경우는 현재 프레임을 「톤」으로 판정하고, 성립되지 않는 경우는 현재 프레임을 「비(非)톤」으로 판정하면 된다. 임계값 T의 값은, 학습에 의해 통계적으로 적절한 값을 구해 두면 된다. 또, 상기 특허 문헌 1에 개시되어 있는 방법으로 톤성을 판정해도 된다. 또, 복수의 임계값을 설정하고, 단계적으로 톤의 정도를 판정해도 된다.
이와 같이, 본 실시의 형태에 의하면, 상관을 구하기 전에 다운 샘플링을 행하여 처리 프레임(벡터 계열)을 단축하기 때문에, 상관의 계산에 이용하는 처리 프레임(벡터 계열)의 길이가 종래에 비해 짧아진다. 따라서, 본 실시의 형태에 의하면, 입력 신호의 톤성의 판정에 필요로 하는 계산량을 저감할 수 있다.
또, 본 실시의 형태에 의하면, 입력 신호의 톤성을 판정하기 위해 중요한 구간(즉, 입력 신호의 톤성을 판정하기 위해 중요한 주파수 대역)에서는 다운 샘플링을 행하지 않고, 처리 프레임(벡터 계열)을 단축하지 않고 그대로 이용하여 톤 판정을 행하기 때문에, 톤 판정의 성능 열화를 억제할 수 있다.
또한, 톤 판정에 의한 톤성의 분류는 통상 2~3종류 정도(예를 들면, 상기 설명에서는 「톤」과 「비톤」의 2종류)로 적으며, 세밀한 정밀도의 판정 결과가 요구되는 것은 아니다. 따라서, 처리 프레임(벡터 계열)을 단축해도, 최종적으로, 처리 프레임(벡터 계열)을 단축하지 않을 때와 동일한 분류 결과에 수속할 가능성이 높다.
또, 입력 신호의 톤성을 판정하기 위해 중요한 주파수 대역은, 대표적으로는, 주파수 성분의 파워가 큰 주파수 대역으로 생각된다. 따라서, 본 실시의 형태에서는, 주파수 성분의 파워가 가장 커지는 주파수를 탐색하여, 다음의 프레임의 톤 판정 처리에 있어서, 다운 샘플링을 행하지 않는 범위를 파워가 가장 큰 주파수 부근으로 했다. 이것에 의해, 톤 판정의 성능 열화를 더 억제할 수 있다. 또한, 본 실시의 형태에서는, 입력 신호의 톤성의 판정에서, 파워가 최대가 되는 대역을 중요한 주파수 대역으로 결정했지만, 파워가 미리 설정된 조건에 해당하는 주파수 대역을 중요한 주파수 대역으로 결정하면 된다.
(실시의 형태 2)
도 5는, 본 실시의 형태에 관련된 톤 판정 장치(500)의 주요한 구성을 나타낸 블럭도이다. 여기에서는, 톤 판정 장치(500)가, 입력 신호의 톤성을 판정하고, 판정 결과를 출력하는 경우를 예를 들어 설명한다. 또한, 도 5에 있어서, 도 1(실시의 형태 1)과 동일한 구성부에는 동일 부호를 붙인다.
도 5에 있어서, 주파수 변환부(101)는, SDFT를 이용하여 입력 신호의 주파수 변환을 행하고, 주파수 변환에 의해 구해진 SDFT 계수를 바크 척도 분할부(501)에 출력한다.
바크 척도 분할부(501)는, 주파수 변환부(101)로부터 입력되는 SDFT 계수를, 바크 척도에 기초하여 미리 설정되어 있는 분할 비율에 따라 분할하고, 분할된 SDFT 계수를 다운 샘플링부(502)에 출력한다. 여기서, 바크 척도란, E. 츠비커(Zwicker, E.)에 의해 제안된 음향 심리학적 척도이며, 인간의 청각의 임계 대역(critical band)을 구한 것이다. 바크 척도 분할부(501)에 있어서의 분할은, 서로 인접하는 2개의 임계 대역의 경계에 상당하는 주파수의 값을 이용하여 행할 수 있다.
다운 샘플링부(502)는, 바크 척도 분할부(501)로부터 입력되는 분할된 SDFT 계수에 대해 다운 샘플링 처리를 행하여, SDFT 계수의 계열 길이를 단축한다. 이 때, 다운 샘플링부(502)는, 분할된 SDFT 계수마다 상이한 다운 샘플링 처리를 행한다. 그 다음에, 다운 샘플링부(502)는, 다운 샘플링 후의 SDFT 계수를 버퍼(503)에 출력한다.
버퍼(503)는, 전 프레임의 다운 샘플링 후의 SDFT 계수를 내부에 저장하고 있으며, 이것을 상관 분석부(504)에 출력한다. 또, 버퍼(503)는, 다운 샘플링부(502)로부터 입력되는, 현재 프레임의 다운 샘플링 후의 SDFT 계수를 상관 분석부(504)에 출력한다. 그리고 버퍼(503)는, 내부에 저장되어 있는 전 프레임의 다운 샘플링 후의 SDFT 계수와, 새롭게 입력된 현재 프레임의 다운 샘플링 후의 SDFT 계수를 교체함으로써, SDFT 계수를 갱신한다.
상관 분석부(504)는, 버퍼(503)로부터 전 프레임의 SDFT 계수와, 현재 프레임의 SDFT 계수가 입력되어, SDFT 계수의 프레임 간에서의 상관을 구하고, 구한 상관을 톤 판정부(107)에 출력한다.
톤 판정부(107)는, 상관 분석부(504)로부터 입력되는 상관의 값에 따라 입력 신호의 톤성을 판정한다. 그 다음에, 톤 판정부(107)는, 톤 판정 장치(500)의 출력으로서 톤 정보를 출력한다.
다음에, 톤 판정 대상이 되는 입력 신호의 차수가 2N차인 경우를 예를 들어, 도 6을 이용하여, 톤 판정 장치(500)의 동작에 대해서 설명한다.
바크 척도 분할부(501)는, 주파수 변환부(101)로부터 SDFT 계수 Y(k)(k=0, 1, …, N)가 입력되고, 바크 척도에 기초한 분할 비율로 SDFT 계수 Y(k)(k=0, 1, …, N)를 분할한다. 예를 들면, 입력 신호의 샘플링 주파수가 32000Hz일 때에, 바크 척도 분할부(501)는, 하기의 식 (10)에 나타내는 바와 같이, SDFT 계수 Y(k)(k=0, 1, …, N)를, 바크 척도에 기초하는 비율(ba: bb: bc)로, Y_b_a(k), Y_b_b(k), Y_b_c(k)의 3개의 구간으로 3분할할 수 있다(도 6).
Figure pct00010
여기서, ba=INT(0.0575×N), bb=INT(0.1969×N)-ba, bc=N-bb-ba이다. 또, INT는, 괄호 내의 계산 결과의 정수 부분을 취하는 것을 의미한다. 또, 분할 비율은, 서로 인접하는 2개의 임계 대역의 경계에 상당하는 주파수에 기초하여, 0~920Hz, 920~3150Hz, 3150~16000Hz의 3대역으로 분할하는 경우를 일례로서 들고 있다. 이 3대역의 비율은, (0.0575: 0.1394: 0.8031)이 된다. 또한, 분할수 및 분할 비율은, 이들 값에 한정되지 않고, 적절히 변경해도 된다.
그 다음에, 바크 척도 분할부(501)는, 분할된 SDFT 계열 Y_b_a(k)(k=0, 1, …, ba-1), Y_b_b(k)(k=0, 1, …, bb-1), Y_b_c(k)(k=0, 1, …, bc)을 다운 샘플링부(502)에 출력한다.
다운 샘플링부(502)는, 바크 척도 분할부(501)로부터 입력되는 분할된 SDFT 계수 Y_b_a(k)(k=0, 1, …, ba-1), Y_b_b(k)(k=0, 1, …, bb-1), Y_b_c(k)(k=0, 1, …, bc)에 대해, 하기의 식 (11)에 따라 다운 샘플링 처리를 행한다.
Figure pct00011
여기에서는, n=m×2가 성립되고, m은 1에서 bb/2-1까지의 값을 취한다. m=0의 경우는, 다운 샘플링을 행하지 않고 Y_b_b_re(0)=Y_b_b(0)으로 해도 된다. 여기서, 필터 계수 [j0, j1, j2, j3]에는, 에일리어싱 왜곡이 발생하지 않도록 설계된 저역 통과 필터 계수를 설정한다.
또, 여기에서는, s=r×3이 성립되며, s는 1에서 bc/3-1까지의 값을 취한다. r=0의 경우는, 다운 샘플링을 행하지 않고 Y_b_c_re(0)=Y_b_c(0)으로 해도 된다. 여기서, 필터 계수 [i0, i1, i2, i3]에는, 에일리어싱 왜곡이 발생하지 않도록 설계된 저역 통과 필터 계수를 설정한다.
즉, ba구간의 SDFT 계수 Y_b_a(k)(k=0, 1, …, ba-1)에 대해서는 다운 샘플링을 행하지 않고 그대로의 값을 남기고, bb구간의 SDFT 계수 Y_b_b(k)(k=0, 1, …, bb-1)에 대해서는 SDFT 계수의 길이가 2분의 1이 되도록 다운 샘플링을 행하고, bc구간의 SDFT 계수 Y_b_c(k)(k=0, 1, …, bc)에 대해서는 SDFT 계수의 길이가 3분의 1이 되도록 다운 샘플링을 행한다(도 6). 또한, 도 6의 파선은, 다운 샘플링 전후에서, 동일한 주파수 대역에 상당하는 범위를 나타내고 있다.
이와 같이, 바크 척도에 따라 SDFT 계수를 저역, 중역, 고역의 3구간으로 분할하여, 저역의 구간에서는 SDFT 계수를 그대로 남기고, 중역의 구간에서는 2분의 1로 다운 샘플링된 SDFT 계수를 구하며, 고역의 구간에서는 3분의 1로 다운 샘플링된 SDFT 계수를 구한다. 이것에 의해, 음향 심리적 특성에 기초한 척도로 SDFT 계수의 샘플수를 감소시킬 수 있다.
또한, 바크 척도에 기초한 분할 개수는 3개에 한정되지 않고, 2개 또는 4개 이상의 분할수여도 된다.
또, 다운 샘플링의 방법도 상기의 방법에 한정되지 않고, 본 발명이 적용되는 형태에 따라 적합한 다운 샘플링 방법을 이용해도 된다.
그 다음에, 다운 샘플링부(502)는, SDFT 계수 Y_b_a(k)(k=0, 1, …, ba-1)와, 다운 샘플링 후의 SDFT 계수 Y_b_b_re(k)(k=0, 1, …, bb/2-1), Y_b_c_re(k)(k=0, 1, …, bc/3-1)를 버퍼(503)에 출력한다.
버퍼(503)는, 다운 샘플링부(502)로부터 SDFT 계수 Y_b_a(k)(k=0, 1, …, ba-1)와, 다운 샘플링 후의 SDFT 계수 Y_b_b_re(k)(k=0, 1, …, bb/2-1), Y_b_c_re(k)(k=0, 1, …, bc/3-1)가 입력된다.
그 다음에, 버퍼(503)는, 내부에 저장되어 있는 전 프레임의 SDFT 계수 Y_b_a_pre(k)(k=0, 1, …, ba-1)와, 전 프레임의 다운 샘플링 후의 SDFT 계수 Y_b_b_re_pre(k)(k=0, 1, …, bb/2-1), Y_b_c_re_pre(k)(k=0, 1, …, bc/3-1)를 상관 분석부(504)에 출력한다.
그 다음에, 버퍼(503)는, 현재 프레임의 SDFT 계수 Y_b_a(k)(k=0, 1, …, ba-1)와, 현재 프레임의 다운 샘플링 후의 SDFT 계수 Y_b_b_re(k)(k=0, 1, …, bb/2-1), Y_b_c_re(k)(k=0, 1, …, bc/3-1)를 상관 분석부(504)에 출력한다.
그 다음에, 버퍼(503)는, 현재 프레임의 SDFT 계수 Y_b_a(k)(k=0, 1, …, ba-1)를 Y_b_a_pre(k)(k=0, 1, …, ba-1)로서 내부에 저장하고, 현재 프레임의 다운 샘플링 후의 SDFT 계수 Y_b_b_re(k)(k=0, 1, …, bb/2-1), Y_b_c_re(k)(k=0, 1, …, bc/3-1)를 Y_b_b_re_pre(k)(k=0, 1, …, bb/2-1), Y_b_c_re_pre(k)(k=0, 1, …, bc/3-1)로서 내부에 저장한다. 즉, 버퍼(503)는, 현재 프레임의 SDFT 계수와 전 프레임의 SDFT 계수를 교체함으로써, SDFT 계수를 갱신한다.
상관 분석부(504)는, 버퍼(503)로부터 현재 프레임의 SDFT 계수 Y_b_a(k)(k=0, 1, …, ba-1)와, 현재 프레임의 다운 샘플링 후의 SDFT 계수 Y_b_b_re(k)(k=0, 1, …, bb/2-1), Y_b_c_re(k)(k=0, 1, …, bc/3-1)와, 전 프레임의 SDFT 계수 Y_b_a_pre(k)(k=0, 1, …, ba-1)와, 전 프레임의 다운 샘플링 후의 SDFT 계수 Y_b_b_re_pre(k)(k=0, 1, …, bb/2-1), Y_b_c_re_pre(k)(k=0, 1, …, bc/3-1)가 입력된다.
그 다음에, 상관 분석부(504)는, 하기의 식 (12)~(14)에 따라 상관 S를 구하고, 구한 상관 S를 상관 정보로서 톤 판정부(107)에 출력한다.
Figure pct00012
Figure pct00013
Figure pct00014
여기서, 식 (12) 및 식 (13)의 제2항에 있어서, 총 합에 대해 2를 승산하고 있는 것은 샘플수가 2분의 1로 감소되어 있기 때문이며, 또, 식 (12) 및 식 (13)의 제3항에 있어서, 총 합에 대해 3을 승산하고 있는 것은 샘플수가 3분의 1로 감소되어 있기 때문이다. 이와 같이, 다운 샘플링에 의해 샘플수가 감소되어 있는 경우, 그에 따른 정수를 곱함으로써, 상관의 계산에 대한 각 항의 기여를 일률적으로 할 수 있다.
이와 같이, 본 실시의 형태에 의하면, 상관을 구하기 전에 다운 샘플링을 행하여 처리 프레임(벡터 계열)을 단축하기 때문에, 상관의 계산에 이용하는 처리 프레임(벡터 계열)의 길이가 종래에 비해 짧아진다. 따라서, 본 실시의 형태에 의하면, 입력 신호의 톤성의 판정에 필요로 하는 계산량을 저감할 수 있다.
또, 본 실시의 형태에 의하면, 인간의 음향 심리적 특성에 기초한 척도를 이용하여 설정되는 비율로 주파수 성분을 분할함으로써, 다운 샘플링에 의한 샘플수의 감소의 정도를 단계적으로 강화시켜 나갈 수 있다. 이것에 의해, 인간의 음향 심리적으로 중요도가 낮은 구간에서는 특히 샘플수를 감소시키는 것이 가능해져, 한층 더 계산량의 저감이 가능해진다.
또한, 본 실시의 형태에서는, SDFT 계수를 분할할 때에 이용하는 척도로서 바크 척도를 이용했지만, 인간의 음향 심리적 특성에 기초한 척도로 적절한 것이면, 다른 척도를 이용해도 된다.
(실시의 형태 3)
도 7은, 본 실시의 형태에 관련된 부호화 장치(400)의 주요한 구성을 나타낸 블럭도이다. 여기에서는, 부호화 장치(400)가, 입력 신호의 톤성을 판정하고, 판정 결과에 따라 부호화 방법을 전환하는 경우를 예를 들어 설명한다.
도 7에 나타낸 부호화 장치(400)는, 상기 실시의 형태 1에 관련된 톤 판정 장치(100)(도 1) 또는 상기 실시의 형태 2에 관련된 톤 판정 장치(500)(도 5)를 구비한다.
도 7에 있어서, 톤 판정 장치(100, 500)는, 상기 실시의 형태 1 또는 상기 실시의 형태 2에서 설명한 바와 같이, 입력 신호로부터 톤 정보를 얻는다. 그 다음에, 톤 판정 장치(100, 500)는, 톤 정보를 선택부(401)에 출력한다. 또, 이 톤 정보는, 필요에 따라 부호화 장치(400)의 외부에 출력해도 된다. 예를 들면 이 톤 정보는, 도시하지 않은 복호화 장치에 있어서, 복호화 방법을 전환하기 위한 정보로서 이용된다. 도시하지 않은 복호화 장치에서는, 후술하는 선택부(401)가 선택하는 부호화 방법에 의해 생성되는 부호를 복호화하기 위해서, 선택된 부호화 방법에 대응하는 복호화 방법이 선택된다.
선택부(401)는, 톤 판정 장치(100, 500)로부터 톤 정보가 입력되고, 톤 정보에 따라 입력 신호의 출력처를 선택한다. 예를 들면, 선택부(401)는, 입력 신호가 「톤」인 경우에는 입력 신호의 출력처로서 부호화부(402)를 선택하고, 입력 신호가 「비톤」인 경우에는 입력 신호의 출력처로서 부호화부(403)를 선택한다. 부호화부(402)와 부호화부(403)는, 서로 상이한 부호화 방법에 의해 입력 신호를 부호화하는 것이다. 따라서, 이러한 선택에 의해, 입력 신호의 톤성에 따라, 입력 신호의 부호화에 이용하는 부호화 방법을 전환할 수 있다.
부호화부(402)는, 입력 신호를 부호화하고, 부호화에 의해 생성되는 부호를 출력한다. 부호화부(402)에 입력되는 입력 신호는 「톤」이기 때문에, 부호화부(402)는, 악음의 부호화에 적합한 주파수 변환 부호화에 의해 입력 신호를 부호화한다.
부호화부(403)는, 입력 신호를 부호화하고, 부호화에 의해 생성되는 부호를 출력한다. 부호화부(403)에 입력되는 입력 신호는 「비톤」이기 때문에, 부호화부(403)는, 음성의 부호화에 적합한 CELP 부호화에 의해 입력 신호를 부호화한다.
또한, 부호화부(402, 403)가 부호화에 이용하는 부호화 방법은 상기의 것에 한정되지 않고, 종래의 부호화 방법 중에서 가장 적합한 것을 적절히 이용해도 된다.
또, 본 실시의 형태에서는 부호화부가 2개인 경우를 일례로서 설명했지만, 서로 상이한 부호화 방법에 의해 부호화를 행하는 부호화부가 3개 이상 있어도 된다. 이 경우, 단계적으로 판정되는 톤의 정도에 따라, 3개 이상의 부호화부 중 어느 하나의 부호화부를 선택하면 된다.
또, 본 실시의 형태에서는 입력 신호가 음성 신호 및/또는 악음 신호인 것으로서 설명했지만, 본 발명은 그 외의 신호에 대해서도 상기와 동일하게 하여 실시하는 것이 가능하다.
이와 같이 하여, 본 실시의 형태에 의하면, 입력 신호의 톤성에 따른 최적의 부호화 방법에 의해 입력 신호를 부호화할 수 있다.
(실시의 형태 4)
도 8은, 본 실시의 형태에 관련된 톤 판정 장치(600)의 주요한 구성을 나타낸 블럭도이다. 여기에서는, 톤 판정 장치(600)가, 입력 신호의 톤성을 판정하고, 판정 결과를 출력하는 경우를 예를 들어 설명한다. 또한, 도 8에 있어서, 도 1(실시의 형태 1)과 동일한 구성부에는 동일 부호를 붙이고, 그 설명을 생략한다.
도 8에 있어서, 배음 성분 산출부(601)는, 후술하는 도 10에 나타낸 CELP 부호화기(702)로부터 입력되는 피치 래그를 이용하여 배음 성분을 산출하고, 산출한 배음 성분을 나타낸 정보(배음 성분 정보)를 벡터 결합부(602)에 출력한다.
벡터 결합부(602)는, 버퍼(103)로부터 전 프레임의 SDFT 계수와, 전 프레임의 다운 샘플링 후의 SDFT 계수와, 현재 프레임의 SDFT 계수와, 현재 프레임의 다운 샘플링 후의 SDFT 계수가 입력된다. 또, 벡터 결합부(602)는, 배음 성분 산출부(601)로부터 배음 성분 정보가 입력된다. 그 다음에, 벡터 결합부(602)는, 전 프레임의 SDFT 계수의 일부와, 전 프레임의 다운 샘플링 후의 SDFT 계수의 일부를 결합하여 새로운 SDFT 계수를 생성하고, 생성한 SDFT 계수를 상관 분석부(603)에 출력한다. 또, 벡터 결합부(602)는, 현재 프레임의 SDFT 계수의 일부와, 현재 프레임의 다운 샘플링 후의 SDFT 계수의 일부를 결합하여 새로운 SDFT 계수를 생성하고, 생성한 SDFT 계수를 상관 분석부(603)에 출력한다. 이 때, 벡터 결합부(602)가 어떠한 결합을 행하는지는, 배음 성분 정보에 따라 결정된다.
상관 분석부(603)는, 벡터 결합부(602)로부터 전 프레임의 결합 후의 SDFT 계수와, 현재 프레임의 결합 후의 SDFT 계수가 입력되어, SDFT 계수의 프레임 간에서의 상관을 구하고, 구한 상관을 톤 판정부(107)에 출력한다.
톤 판정부(107)는, 상관 분석부(603)로부터 상관이 입력되고, 이 상관의 값에 따라 입력 신호의 톤성을 판정한다. 그 다음에, 톤 판정부(107)는, 톤 판정 장치(600)의 출력으로서 톤 정보를 출력한다.
다음에, 톤 판정 대상이 되는 입력 신호의 차수가 2N차인 경우를 예를 들어, 도 9를 이용하여, 톤 판정 장치(600)의 동작에 대해서 설명한다.
배음 성분 산출부(601)는, 후술하는 도 10에 나타낸 CELP 부호화기(702)로부터 피치 래그가 입력된다. 여기서, 피치 래그란, 입력 신호의 기본이 되는 주기(주파수) 성분이며, 시간 영역에서는, 피치 주기, 기본 주기 등으로 불리고, 주파수 영역에서는, 피치 주파수, 기본 주파수 등으로 불리는 경우도 있다. 일반적으로, CELP 부호화기에서는, 적응 음원 벡터를 생성할 때에 피치 래그가 구해진다. 적응 음원 벡터는, 과거에 생성된 음원 계열(적응 음원 부호 길이) 중에서, 입력 신호의 주기적인 성분으로서 가장 적절한 부분을 프레임(서브 프레임)의 길이만큼 잘라낸 것이다. 피치 래그란, 현 시각으로부터 몇 샘플 거슬러 올라가 적응 음원 벡터를 잘라내는지를 지시하는 값이라고도 할 수 있다. 후술하는 도 10에 나타내는 바와 같이, 부호화 장치가, CELP 부호화를 행한 후에 더 고역의 성분을 부호화하는 구성을 채용하는 경우, CELP 부호화기(702) 내에서 구해지는 피치 래그를 그대로 배음 성분 산출부(601)에 입력하면 되며, 피치 래그를 구하기 위한 새로운 처리를 추가할 필요는 없다.
다음에, 배음 성분 산출부(601)는, 입력된 피치 래그를 이용하여 기본 주파수를 구한다. 예를 들면, 입력이 16000Hz인 CELP 부호화기로 피치 래그를 구하고 있는 경우, 하기의 식 (15)에 의해 기본 주파수 P를 구할 수 있다.
Figure pct00015
여기서, pl는 피치 래그이며, 적응 음원 부호 길이로부터 적응 음원 벡터를 잘라낼 때의, 잘라내는 부분의 선두 위치에 상당한다. 예를 들면, 현 시각으로부터 40샘플만 거슬러 올라간 위치로부터 적응 음원 벡터가 잘라내진 경우(pl=40), 식 (15)에 의해, 그 기본 주파수 P는 400Hz인 것을 알 수 있다.
다음에, 배음 성분 산출부(601)는, 기본 주파수 P의 정수배(2×P, 3×P, 4×P, …)의 배음 성분을 구하여, 기본 주파수 P와 배음 성분 정보를 벡터 결합부(602)에 출력한다. 이 때, 배음 성분 산출부(601)는, 톤 판정에 이용하는 SDFT 계수의 주파수 대역에 상당하는 배음 성분 정보만을 출력하면 된다. 예를 들면, 톤 판정에 이용하는 SDFT 계수의 주파수 대역이 8000~12000Hz이며, 기본 주파수 P가 400Hz인 경우, 배음 성분 산출부(601)는, 주파수 대역 8000~12000Hz에 포함되는 배음 성분(8000, 8400, 8800, …, 12000)만을 출력하면 된다. 또, 모든 배음 성분 정보를 출력하는 것이 아니라, 주파수가 낮은 쪽으로부터 몇 개(예를 들면, 8000, 8400, 8800의 3개만)만으로 한정하여 출력해도 된다. 또, 짝수 번째의 배음 성분 정보(예를 들면, 8000, 8800, 9600, …) 만, 또는, 홀수 번째의 배음 성분 정보(예를 들면, 8400, 9200, 10000, …)만을 출력한다는 것도 가능하다.
또, 배음 성분 산출부(601)가 출력하는 배음 성분 정보는 피치 래그 pl의 값에 따라 일의로 정해진다. 그래서, 미리 모든 피치 래그 pl에 대해서 배음 성분 정보를 구해 두어 메모리에 저장해 두면, 배음 성분 정보를 구하는 상기와 같은 처리를 행하지 않아도, 메모리를 참조하면 출력해야 할 배음 성분 정보를 알 수 있으므로, 배음 성분 정보를 구하기 위한 계산량의 증가를 회피할 수 있다.
벡터 결합부(602)는, 버퍼(103)로부터, 현재 프레임의 SDFT 계수 Y(k)(k=0, 1, …, N)와, 현재 프레임의 다운 샘플링 후의 SDFT 계수 Y_re(k)(k=0, 1, …, N/2-1)와, 전 프레임의 SDFT 계수 Y_pre(k)(k=0, 1, …, N)와, 전 프레임의 다운 샘플링 후의 SDFT 계수 Y_re_pre(k)(k=0, 1, …, N/2-1)가 입력됨과 함께, 배음 성분 산출부(601)로부터 배음 성분 정보(P, 2×P, 3×P, …)가 입력된다.
그 다음에, 벡터 결합부(602)는, 배음 성분 정보를 이용하여 현재 프레임의 SDFT 계수의 결합을 행한다. 구체적으로는, 벡터 결합부(602)는, 배음 성분에 상당하는 주파수 대역의 근방에서는 다운 샘플링하고 있지 않은 SDFT 계수를 선택하고, 배음 성분에 상당하지 않는 주파수 대역에서는 다운 샘플링 후의 SDFT 계수를 선택하여, 이들 SDFT 계수를 결합시킨다. 예를 들면, 배음 성분 정보로서 2×P 만이 입력되고, 2×P의 주파수에 상당하는 SDFT 계수가 Y(PH)이며, Y(PH)의 근방의 범위(길이 LH)에서는 다운 샘플링하고 있지 않은 SDFT 계수가 선택되는 경우, 벡터 결합부(602)는, 하기의 식 (16)에 따라 SDFT 계수의 결합을 행한다.
Figure pct00016
마찬가지로, 벡터 결합부(602)는, 하기의 식 (17)에 따라 전 프레임의 SDFT 계수의 결합을 행한다.
Figure pct00017
벡터 결합부(602)에서의 상기의 결합 처리의 모습을 나타내면 도 9에 나타내는 바와 같이 된다.
도 9에 나타내는 바와 같이, 결합 후의 SDFT 계수에는 기본적으로 다운 샘플링 후의 SDFT 계수((1)과 (3))가 이용되어, 배음 성분의 주파수 PH를 중심으로 하여 길이 LH의 범위에 상당하는 SDFT 계수((2))가 (1)과 (3)의 사이에 삽입되어 결합이 행해진다. 도 9의 파선은, 다운 샘플링 전후에서, 동일한 주파수 대역에 상당하는 범위끼리를 나타내고 있다. 즉, 도 9에 나타내는 바와 같이, 배음 성분의 주파수 PH의 근방은 중요한 것으로 생각하여, 배음 성분의 주파수 PH의 근방에는, 다운 샘플링하고 있지 않은 SDFT 계수를 그대로 사용하는 것으로 하고 있다. 여기서, 뽑아내는 범위의 길이인 LH는, 정수로서 적합한 값을 미리 설정해 둔다. LH를 길게 하면 결합 후의 SDFT 계수가 길어지기 때문에, 후의 상관을 구하는 처리에서 계산량이 커지지만, 한편, 구하는 상관이 보다 정확해진다. 따라서, 계산량과 상관의 정확함의 트레이드 오프를 고려하여, LH를 결정하면 된다. 또, LH를 적응적으로 변화시키는 것도 가능하다.
또, 배음 성분 정보로서 복수의 배음 성분이 벡터 결합부(602)에 입력된 경우, 복수의 배음 성분의 주파수의 근방에 있어서, 도 9의 (2)에 나타내는 바와 같이, 다운 샘플링하고 있지 않은 SDFT 계수를 복수 뽑아내어 결합에 이용하면 된다.
그 다음에, 벡터 결합부(602)는, 현재 프레임의 결합 후의 SDFT 계수 Y_co(k)(k=0, 1, …, K)와, 전 프레임의 결합 후의 SDFT 계수 Y_co_pre(k)(k=0, 1, …, K)를 상관 분석부(603)에 출력한다. 여기서, K=(N+LH)/2-1이다.
상관 분석부(603)는, 벡터 결합부(602)로부터 현재 프레임의 결합 후의 SDFT 계수 Y_co(k)(k=0, 1, …, K)와 전 프레임의 결합 후의 SDFT 계수 Y_co_pre(k)(k=0, 1, …, K)가 입력되어, 식 (5)~(8)에 따라 상관 S를 구하고, 구한 상관 S를 상관 정보로서 톤 판정부(107)에 출력한다.
이와 같이, 본 실시의 형태에 의하면, 배음 성분에 상당하는 주파수 근방 이외의 주파수 대역에서는, 다운 샘플링에 의한 벡터 계열 길이의 단축을 행하기 때문에, 입력 신호의 톤성의 판정에 필요로 하는 계산량을 저감할 수 있다. 또, 음악, 특히 악기의 현이나 악기 관내의 공기의 진동에는, 통상, 기본적인 주파수 성분 외에 주파수가 2배, 3배 등의 정수 배의 배음 성분이 함께 포함되어 있다(조파 구조). 이러한 경우에도, 본 실시의 형태에 의하면, 배음 성분에 상당하는 주파수 근방의 범위에서는 벡터 계열 길이의 단축을 하지 않고 그대로 톤성의 판정에 이용한다. 그 때문에, 톤성의 판정에서 중요해지는 조파 구조가 고려되어, 다운 샘플링에 의한 정보량 결락(缺落)에 의한 톤성 판정 성능의 열화를 막을 수 있다.
(실시의 형태 5)
도 10은, 본 실시의 형태에 관련된 부호화 장치(700)의 주요한 구성을 나타낸 블럭도이다. 여기에서는, 부호화 장치(700)가, 입력 신호의 톤성을 판정하고, 판정 결과에 따라 부호화 방법을 전환하는 경우를 예를 들어 설명한다. 또한, 도 10에 있어서, 도 7(실시의 형태 3)과 동일한 구성부에는 동일 부호를 붙이고, 그 설명을 생략한다.
도 10에 나타낸 부호화 장치(700)는, 상기 실시의 형태 4에 관련된 톤 판정 장치(600)(도 8)를 구비한다.
도 10에 있어서, 다운 샘플링부(701)는, 입력 신호의 다운 샘플링을 행하고, 다운 샘플링 후의 입력 신호를 CELP 부호화기(702)에 출력한다. 예를 들면, 다운 샘플링부(701)에 대한 입력 신호가 32000Hz인 경우, 그 입력 신호가 CELP 부호화기(702)에 대한 입력 신호로서 최적의 주파수 대역이 되도록, 16000Hz로 다운 샘플링되는 경우가 많다.
CELP 부호화기(702)는, 다운 샘플링부(701)로부터 입력된 다운 샘플링 후의 입력 신호를 CELP 부호화한다. CELP 부호화기(702)는, CELP 부호화의 결과 얻어지는 부호를 CELP 복호화기(703)에 출력함과 함께, 부호화 장치(700)의 부호화 결과의 일부로서 부호화 장치(700)의 외부에 출력한다. 또, CELP 부호화기(702)는, CELP 부호화의 과정에서 얻어지는 피치 래그를 톤 판정 장치(600)에 출력한다.
톤 판정 장치(600)는, 상기 실시의 형태 4에서 설명한 바와 같이, 입력 신호와 피치 래그로부터 톤 정보를 얻는다. 그 다음에, 톤 판정 장치(600)는, 톤 정보를 선택부(401)에 출력한다. 또한, 실시의 형태 3과 마찬가지로, 이 톤 정보는, 필요에 따라 부호화 장치(700)의 외부에 출력해도 된다.
CELP 복호화기(703)는, CELP 부호화기(702)로부터 입력되는 부호를 CELP 복호화한다. CELP 복호화기(703)는, CELP 복호화의 결과 얻어지는 복호화 신호를 업 샘플링부(704)에 출력한다.
업 샘플링부(704)는, CELP 복호화기(703)로부터 입력되는 복호화 신호를 업 샘플링하여 가산기(705)에 출력한다. 예를 들면, 다운 샘플링부(701)에 대한 입력 신호가 32000Hz인 경우, 업 샘플링부(704)는, 업 샘플링에 의해 32000Hz의 복호화 신호를 얻는다.
가산기(705)는, 입력 신호로부터 업 샘플링 후의 복호화 신호를 감산하고, 감산 후의 잔차 신호를 선택부(401)에 출력한다. 이와 같이, CELP 부호화기(702)에 의해 부호화된 신호 성분을 입력 신호로부터 차감함으로써, CELP 부호화기(702)에서 부호화하지 않았던 고주파수 대역측의 신호 성분을, 다음의 부호화 과정의 부호화 대상으로 할 수 있다.
부호화부(402)는, 잔차 신호를 부호화하고, 부호화에 의해 생성되는 부호를 출력한다. 부호화부(402)에 입력되는 입력 신호는 「톤」이기 때문에, 부호화부(402)는, 악음의 부호화에 적합한 부호화 방법에 의해 잔차 신호를 부호화한다.
부호화부(403)는, 잔차 신호를 부호화하고, 부호화에 의해 생성되는 부호를 출력한다. 부호화부(403)에 입력되는 입력 신호는 「비톤」이기 때문에, 부호화부(403)는, 음성의 부호화에 적합한 부호화 방법에 의해 잔차 신호를 부호화한다.
또한, 본 실시의 형태에서는 부호화부가 2개인 경우를 일례로서 설명했지만, 서로 상이한 부호화 방법에 의해 부호화를 행하는 부호화부가 3개 이상 있어도 된다. 이 경우, 단계적으로 판정되는 톤의 정도에 따라, 3개 이상의 부호화부 중 어느 하나의 부호화부를 선택하면 된다.
또, 본 실시의 형태에서는 입력 신호가 음성 신호 및/또는 악음 신호인 것으로서 설명했지만, 본 발명은 그 외의 신호에 대해서도 상기와 동일하게 하여 실시하는 것이 가능하다.
이와 같이 하여, 본 실시의 형태에 의하면, 입력 신호의 톤성에 따른 최적의 부호화 방법에 의해 입력 신호를 부호화할 수 있다.
또, 피치 래그의 정보를 얻을 수 있는 구성이면, 본 실시의 형태에서 설명한 구성에 한정되지 않고, 다양하게 형태를 변경해도 상기와 동일한 효과를 얻을 수 있다.
이상, 본 발명의 실시의 형태에 대해서 설명했다.
또한, 입력 신호의 주파수 변환은, SDFT 이외의 주파수 변환, 예를 들면, DFT(이산 푸리에 변환), FFT(고속 푸리에 변환), DCT(이산 코사인 변환), MDCT(수정 이산 코사인 변환) 등에 의해 행해도 된다.
또, 상기 실시의 형태에 관련된 톤 판정 장치 및 부호화 장치는, 음성이나 악음 등의 전송이 행해지는 이동체 통신 시스템에 있어서의 통신 단말 장치 및 기지국 장치에 탑재하는 것이 가능하고, 이것에 의해 상기와 동일한 작용 효과를 가지는 통신 단말 장치 및 기지국 장치를 제공할 수 있다.
또, 상기 실시의 형태에서는, 본 발명을 하드웨어로 구성하는 경우를 예를 들어 설명했지만, 본 발명을 소프트웨어로 실현하는 것도 가능하다. 예를 들면, 본 발명에 관련된 톤 판정 방법의 알고리즘을 프로그램 언어에 의해 기술하고, 이 프로그램을 메모리에 기억해 두어 정보 처리 수단에 의해 실행시킴으로써, 본 발명에 관련된 톤 판정 장치와 동일한 기능을 실현할 수 있다.
또, 상기 실시의 형태의 설명에 이용한 각 기능 블록은, 전형적으로는 집적 회로인 LSI로서 실현된다. 이들은 개별적으로 1칩화되어도 되고, 일부 또는 모든 것을 포함하도록 1칩화되어도 된다.
또, 여기에서는 LSI로 했지만, 집적도의 차이에 따라, IC, 시스템 LSI, 슈퍼 LSI, 울트라 LSI 등으로 호칭되는 경우도 있다.
또, 집적 회로화의 수법은 LSI에 한정되는 것은 아니며, 전용 회로 또는 범용 프로세서로 실현되어도 된다. LSI 제조 후에, 프로그램화하는 것이 가능한 FPGA(Field Programmable Gate Array)나, LSI 내부의 회로 셀의 접속 혹은 설정을 재구성 가능한 리컨피규러블·프로세서를 이용해도 된다.
또한, 반도체 기술의 진보 또는 파생하는 별도의 기술에 의해, LSI에 치환되는 집적 회로화의 기술이 등장하면, 당연, 그 기술을 이용하여 기능 블록의 집적화를 행해도 된다. 바이오 기술의 적용 등이 가능성 있을 수 있다.
2009년 2월 27일 출원의 일본국 특허 출원 2009-046517, 2009년 5월 18일 출원의 일본국 특허 출원 2009-120112 및 2009년 10월 13일 출원의 일본국 특허 출원 2009-236451의 일본 출원에 포함되는 명세서, 도면 및 요약서의 개시 내용은, 모두 본원에 원용된다.
<산업상의 이용 가능성>
본 발명은, 음성 부호화 및 음성 복호화 등의 용도에 적용할 수 있다.

Claims (14)

  1. 주파수 변환된 입력 신호의 벡터 계열 길이를 단축하는 단축 처리를 행하는 단축 수단과,
    벡터 계열 길이 단축 후의 벡터 계열을 이용하여 상관을 구하는 상관 수단과,
    상기 상관을 이용하여 상기 입력 신호의 톤성을 판정하는 판정 수단을 구비하는 톤 판정 장치.
  2. 청구항 1에 있어서,
    상기 주파수 변환된 입력 신호의 벡터 계열과 상기 벡터 계열 길이 단축 후의 벡터 계열을 결합하여 결합 벡터 계열을 생성하는 결합 수단을 더 구비하고,
    상기 상관 수단은, 상기 결합 벡터 계열을 이용하여 상관을 구하는, 톤 판정 장치.
  3. 청구항 1에 있어서,
    상기 단축 수단은, 상기 단축 처리를 다운 샘플링 처리에 의해 행하는, 톤 판정 장치.
  4. 청구항 1에 있어서,
    상기 입력 신호의 일정한 주파수 대역마다의 파워를 이용하여, 상기 톤성의 판정에서 미리 설정된 조건에 해당하는 주파수 대역을 결정하는 결정 수단을 더 구비하고,
    상기 단축 수단은, 상기 미리 설정된 조건에 해당하는 주파수 대역 이외의 주파수 대역에서 상기 단축 처리를 행하는, 톤 판정 장치.
  5. 청구항 4에 있어서,
    상기 결정 수단은, 상기 상관 수단이 상기 상관을 구하는 과정에서 얻어지는 상기 일정한 주파수 대역마다의 파워를 이용하여 상기 미리 설정된 조건에 해당하는 주파수 대역을 결정하는, 톤 판정 장치.
  6. 청구항 1에 있어서,
    상기 주파수 변환 후의 신호의 벡터 계열을, 인간의 음향 심리적 특성에 기초한 척도를 이용하여 설정되는 비율로 분할하는 분할 수단을 더 구비하고,
    상기 단축 수단은, 분할 후의 벡터 계열의 벡터 계열 길이를 단축하는 상기 단축 처리를 행하는, 톤 판정 장치.
  7. 청구항 6에 있어서,
    상기 분할 수단은, 상기 척도로서 바크 척도를 이용하는, 톤 판정 장치.
  8. 청구항 2에 있어서,
    CELP(Code Excited Linear Prediction) 부호화에서 구해지는 피치 래그를 이용하여 배음 성분을 산출하는 배음 성분 산출 수단을 더 구비하고,
    상기 결합 수단은, 상기 배음 성분을 이용하여 상기 주파수 변환된 입력 신호의 벡터 계열과 상기 벡터 계열 길이 단축 후의 벡터 계열을 결합하는, 톤 판정 장치.
  9. 청구항 8에 있어서,
    상기 결합 수단은, 상기 배음 성분에 상당하지 않는 주파수 대역에 있는 상기 벡터 계열 길이 단축 후의 벡터 계열을 상기 주파수 변환된 입력 신호의 벡터 계열에 결합하는, 톤 판정 장치.
  10. 청구항 1에 기재된 톤 판정 장치와,
    상기 입력 신호를 서로 상이한 부호화 방법을 이용하여 부호화하는 복수의 부호화 수단과,
    상기 판정 수단에서의 판정 결과에 따라, 상기 입력 신호의 부호화를 행하는 부호화 수단을 상기 복수의 부호화 수단 중에서 선택하는 선택 수단을 구비하는 부호화 장치.
  11. 청구항 8에 기재된 톤 판정 장치와,
    상기 입력 신호를 CELP 부호화하고, 피치 래그를 구함과 함께 CELP 복호화 신호를 생성하여, 상기 입력 신호와 상기 CELP 복호화 신호의 잔차(殘差) 신호를 생성하는 CELP 부호화 수단과,
    상기 잔차 신호를 서로 상이한 부호화 방법을 이용하여 부호화하는 복수의 부호화 수단과,
    상기 판정 수단에서의 판정 결과에 따라, 상기 잔차 신호의 부호화를 행하는 부호화 수단을 상기 복수의 부호화 수단 중에서 선택하는 선택 수단을 구비하는 부호화 장치.
  12. 청구항 1에 기재된 톤 판정 장치를 구비하는 통신 단말 장치.
  13. 청구항 1에 기재된 톤 판정 장치를 구비하는 기지국 장치.
  14. 주파수 변환된 입력 신호의 벡터 계열 길이를 단축하는 단축 처리를 행하는 단축 공정과,
    벡터 계열 길이 단축 후의 벡터 계열을 이용하여 상관을 구하는 상관 공정과,
    상기 상관을 이용하여 상기 입력 신호의 톤성을 판정하는 판정 공정을 구비하는 톤 판정 방법.
KR1020117019747A 2009-02-27 2010-02-26 톤 판정 장치 및 톤 판정 방법 KR20110132339A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2009046517 2009-02-27
JPJP-P-2009-046517 2009-02-27
JPJP-P-2009-120112 2009-05-18
JP2009120112 2009-05-18
JP2009236451 2009-10-13
JPJP-P-2009-236451 2009-10-13

Publications (1)

Publication Number Publication Date
KR20110132339A true KR20110132339A (ko) 2011-12-07

Family

ID=42665343

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117019747A KR20110132339A (ko) 2009-02-27 2010-02-26 톤 판정 장치 및 톤 판정 방법

Country Status (9)

Country Link
US (1) US20110301946A1 (ko)
EP (1) EP2402938A1 (ko)
JP (1) JPWO2010098130A1 (ko)
KR (1) KR20110132339A (ko)
CN (1) CN102334156A (ko)
BR (1) BRPI1008915A2 (ko)
MX (1) MX2011008605A (ko)
RU (1) RU2011135735A (ko)
WO (1) WO2010098130A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5511839B2 (ja) 2009-10-26 2014-06-04 パナソニック株式会社 トーン判定装置およびトーン判定方法
CN102783034B (zh) * 2011-02-01 2014-12-17 华为技术有限公司 用于提供信号处理系数的方法和设备
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
JP6907859B2 (ja) 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1155942C (zh) * 1995-05-10 2004-06-30 皇家菲利浦电子有限公司 具有改进的音调检测的编码语音传输系统和方法
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US6718217B1 (en) * 1997-12-02 2004-04-06 Jsr Corporation Digital audio tone evaluating system
US6161088A (en) * 1998-06-26 2000-12-12 Texas Instruments Incorporated Method and system for encoding a digital audio signal
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
JP3888097B2 (ja) * 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
CN100403828C (zh) * 2002-10-18 2008-07-16 中国科学院声学研究所 一种便携式数字移动通讯设备及其语音控制方法和系统
US7363218B2 (en) * 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
KR101102410B1 (ko) * 2003-03-31 2012-01-05 칼라한 셀룰러 엘.엘.씨. 샘플링 레이트 컨버터, 변환 방법 및 컴퓨터 판독 가능한 기록 매체치
CN1272948C (zh) * 2003-08-21 2006-08-30 北京交通大学 一种同步码分多址用户信号二维波达方向估计方法和装置
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
JP4736632B2 (ja) * 2005-08-31 2011-07-27 株式会社国際電気通信基礎技術研究所 ボーカル・フライ検出装置及びコンピュータプログラム
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US8473298B2 (en) * 2005-11-01 2013-06-25 Apple Inc. Pre-resampling to achieve continuously variable analysis time/frequency resolution
JP4986028B2 (ja) * 2007-01-19 2012-07-25 Kddi株式会社 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
JP2009120112A (ja) 2007-11-16 2009-06-04 Toyota Motor Corp 車両の制御装置
JP5006827B2 (ja) 2008-03-28 2012-08-22 日本スピンドル製造株式会社 温調装置
JP2009046517A (ja) 2008-11-05 2009-03-05 Pias Arise Kk 睫毛用化粧料
US9008811B2 (en) * 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding

Also Published As

Publication number Publication date
US20110301946A1 (en) 2011-12-08
RU2011135735A (ru) 2013-05-10
CN102334156A (zh) 2012-01-25
MX2011008605A (es) 2011-09-09
WO2010098130A1 (ja) 2010-09-02
EP2402938A1 (en) 2012-01-04
BRPI1008915A2 (pt) 2018-01-16
JPWO2010098130A1 (ja) 2012-08-30

Similar Documents

Publication Publication Date Title
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
RU2471252C2 (ru) Устройство кодирования и способ кодирования
EP2492911B1 (en) Audio encoding apparatus, decoding apparatus, method, circuit and program
JP4546464B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
AU2007305960B2 (en) Pitch lag estimation
KR101244310B1 (ko) 광대역 부호화 및 복호화 방법 및 장치
MXPA06011957A (es) Codificacion de senales.
RU2756042C2 (ru) Передискретизация звукового сигнала для кодирования/декодирования с малой задержкой
JP2010244078A (ja) スペクトル包絡情報量子化装置、スペクトル包絡情報復号装置、スペクトル包絡情報量子化方法及びスペクトル包絡情報復号方法
KR20070070174A (ko) 스케일러블 부호화 장치, 스케일러블 복호 장치 및스케일러블 부호화 방법
KR20070085982A (ko) 광대역 부호화 장치, 광대역 lsp 예측 장치, 대역스케일러블 부호화 장치 및 광대역 부호화 방법
US20110004466A1 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
US8892428B2 (en) Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude
CN103069483B (zh) 编码装置以及编码方法
KR101390051B1 (ko) 벡터 양자화 장치, 벡터 역양자화 장치, 및 이러한 방법
JPH04270398A (ja) 音声符号化方式
EP2626856B1 (en) Encoding device, decoding device, encoding method, and decoding method
KR20110132339A (ko) 톤 판정 장치 및 톤 판정 방법
JPWO2009125588A1 (ja) 符号化装置および符号化方法
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JPH05273998A (ja) 音声符号化装置
JP5511839B2 (ja) トーン判定装置およびトーン判定方法
JP3230380B2 (ja) 音声符号化装置
KR100263252B1 (ko) 양자화 오차 추림에 의한 피치검색방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid