KR101341188B1 - Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법 - Google Patents

Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법 Download PDF

Info

Publication number
KR101341188B1
KR101341188B1 KR1020120007372A KR20120007372A KR101341188B1 KR 101341188 B1 KR101341188 B1 KR 101341188B1 KR 1020120007372 A KR1020120007372 A KR 1020120007372A KR 20120007372 A KR20120007372 A KR 20120007372A KR 101341188 B1 KR101341188 B1 KR 101341188B1
Authority
KR
South Korea
Prior art keywords
frame
prediction
nmf
denotes
matrix
Prior art date
Application number
KR1020120007372A
Other languages
English (en)
Other versions
KR20130086486A (ko
Inventor
김무영
정원진
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020120007372A priority Critical patent/KR101341188B1/ko
Publication of KR20130086486A publication Critical patent/KR20130086486A/ko
Application granted granted Critical
Publication of KR101341188B1 publication Critical patent/KR101341188B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성 신호 코딩 장치 및 그 방법에 관한 것으로, 본 발명의 일 실싱P입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부와, 기 입력된 음성 신호의 이전 프레임에 대하여 NMF 예측 알고리즘을 이용하여 현재 프레임의 예측 프레임을 생성하는 NMF 예측부와, 현재 프레임에서 상기 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 예측 프레임을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함한다.
이에 따라, 음성 신호를 압축시 이전 프레임에 각 차원을 이용하여 예측된 프레임과 현재 프레임과의 중복을 제거함으로써 상관 관계 중복의 엔트로피를 더욱 낮출 수 있다.

Description

NMF 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법{APPARATUS AND METHOD FOR CODING OF VOICE SIGNAL USING NON NEGATIVE FACTORIZATION ALGORITHM}
본 발명은 음성 신호 코딩 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 NMF 알고리즘을 이용한 음성 신호를 코딩하는 기술이 개시된다.
일반적으로 음선 신호의 코딩으로는 선형 예측 코딩(linear predictive Coding; LPC)이 사용된다. 이러한 LPC계수는 CELP방법인 G.729, G.723, G.722.2 (AMR-WB) 등의 음성 코더에 이용된다.
특히, G.723 코더는 LPC값이 전송될 때 이전 프레임의 상관관계를 사용한다. 그러나 이 방법은 재구성된 이전 프레임을 사용하기 때문에 채널 에러에 약한 문제가 있다. 즉, 채널 내에서 에러가 발생하는 경우 이 에러로 인해 변형된 프레임 다음에 오는 모든 프레임이 왜곡될 수 있게 된다. 왜냐하면, 상관관계를 제거하기 위해 사용된 이전 프레임은 에러에 의해 재구성된 프레임이기 때문이다. 따라서 채널에 민감한 리얼 타임 시스템에서는 사용하기 어렵다. 그러나 채널에 영향을 주지 않는 시스템에 이용되는 경우에서는 이러한 알고리즘은 문제가 생기지 않는다. 예를 들어 TTS(Text to Speech), 전화 응답 장치(TAD; Telephone Answering Device), 음성 녹음기, 응급 콜백 시스템 등은 채널에 영향을 주지 않는 알고리즘이다. 그러므로 과거 프레임으로 현재 프레임에 대해 상관관계를 제거하여 성능을 더욱 높일 수 있다.
이러한 코더들에서 이용되는 LPC계수를 양자화하는데 필요한 비트 레이트(bit rate)는 전체 비트 레이트에서 매우 높은 비율을 차지한다. 예를 들어 G.729 코더에서 전체 비트 레이트 중 LPC 계수의 비트 레이트 비율은 22.5%로 상대적으로 높은 비율을 가지기 때문에 이 LPC 파라미터는 코더에 중요한 값임을 알 수 있다.
LPC 필터의 계수를 직접 양자화할 경우, 필터의 특성이 계수의 양자화 오차에 매우 민감하고 계수 양자화 후의 LPC 필터의 안정성이 보장되지 않는 문제점이 있다. 따라서 LPC 계수를 양자화 성질이 좋은 다른 파라미터로 변환하여 양자화하여야 하며, 주로 반사 계수(reflection coefficient) 또는 LSF로 변환하여 양자화한다. 특히, LSF 값은 음성의 주파수 특성과 밀접하게 연관되는 성질이 있어 최근에 개발된 표준 음성 압축기들은 대부분 LSF 양자화 방법을 사용한다.
LSF 의 효율적인 양자화를 위하여 LSF 계수의 프레임간 상관관계를 이용한다. 즉, 현재 프레임의 LSF를 직접 양자화하지 않고 과거 프레임의 LSF 값 정보로부터 현재 프레임의 LSF를 예측하고 예측 오차를 양자화하면 현재 프레임과 과거 프레임간의 LSF 데이터의 높은 상관관계 때문에 양자화 효율이 높아 지게 된다.
한편 VQ는 차원이 높아질수록 성능은 증가하지만, 계산량이 복잡해 지고 메모리 요구량이 증가한다는 문제점이 있다. LSF의 차원은 일반적으로 10차원 이상을 사용하기 때문에
이러한 문제점을 해결하기 위한 SVQ(Split Vector Quantization)이 제안되었다. 이 방법을 사용하면 계산량은 감소하지만, 차원간의 상관관계가 부분적으로 이용되지 않는 스플릿 손실(split loss)이 발생하게 된다. 그러므로 일반적으로 SVQ는 VQ보다 성능이 떨어진다. SVQ에서 성능을 올리기 위한 방법 중에서 DPCM(Differential Pulse Code Modulation)방법을 사용하는 Predictive SVQ (PSVQ)가 있다. PSVQ는 현재 프레임에 대하여 이전 프레임과의 차이를 압축하는 방법이다. 이 방법을 사용하면 인터-프레임(Inter-frame) 상관관계를 고려하기 때문에 SVQ보다 성능이 좋다. 하지만 전송되는 과정에서 특정 채널 에러가 발생하여 그 다음 프레임부터는 데이터가 디코딩될 수 없기 때문에 실시간 어플리케이션에서는 사용하기 어렵다. 그러므로 앞서 설명한 채널에 영향을 받지 않는 어플리케이션(TTS, TAD, 음성녹음기, 응급 콜백 시스템)에서는 인트라-프레임(Intra-frame) 상관관계만을 이용하는 SVQ보다는 인터-프레임(Inter-frame) 상관관계를 이용하는 PSVQ를 사용하는 것이 바람직하다.
이 PSVQ 방법은 과거 프레임과 현재 프레임의 차이를 이용하여 구할 수 있는 중복 부분을 압축하는 방식으로 이전 프레임의 같은 차원 상관관계만을 고려하게 된다. 이 방법을 사용하게 되면 상관관계가 높은 LSF 데이터를 사용할 경우에 성능이 향상되지만, 미리 복원된 과거 프레임의 이전 차원을 제외한 다른Intra프레임의 값에서의 상관관계는 고려되지 않는 문제점이 있다.
본 발명의 배경이되는 기술은 대한민국 등록특허공보 제10-0992675호(2010. 11. 01)에 기재되어 있다.
본 발명이 이루고자 하는 기술적인 과제는, 음성 신호의 코딩에 있어서 이전 프레임과 현재 프레임의 상관관계를 고려할 때, 이전 프레임의 같은 차원의 LSF 데이터의 상관관계뿐만 아니라 주변 프레임의 Intra 상관관계 역시 이용하는 경우, 성능이 높은 인터 프레임 예측 변수 추정 방법 및 LSF 양자화 방법을 제안하는 것이다.
본 발명의 일 실시예에 따른 NMF 알고리즘을 이용한 음성 신호 코딩 장치는, 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부와, 기 입력된 음성 신호의 이전 프레임에 대하여 NMF 예측 알고리즘을 이용하여 현재 프레임의 예측 프레임을 생성하는 NMF 예측부와, 현재 프레임에서 상기 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 예측 프레임을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함한다.
또한, 상기 벡터 양자화부는, 상기 현재 프레임에서 상기 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화부와, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 예측 프레임 데이터를 추가하여 상기 현재 프레임을 복원하는 복호화부를 포함할 수 있다.
또한, 상기 NMF 예측부는, 상기 선형 스펙트럼 주파수의 차원이 P 인 경우, P×P의 가중치 매트릭스를 이용하여 상기 이전 프레임에서 예측 프레임을 생성할 수 있다.
또한, 상기 NMF 예측부는, 상기 예측 프레임을 생성하기 위해 다음의 수학식을 이용할 수 있다:
Figure 112012006141706-pat00001
여기서,
Figure 112012006141706-pat00002
는 i-1 번째 이전 프레임을,
Figure 112012006141706-pat00003
는 i번째 예측 프레임을, α는 P×P의 풀 가중치 매트릭스를 나타낸다.
또한, 상기 NMF 예측부는, 상기 이전 프레임의 모든 차원에 가중치를 부여하기 위해 다음의 수학식을 이용할 수 있다:
Figure 112012006141706-pat00004
여기서, w는 현재 프레임을, w'는 이전 프레임을, α는 P×P의 풀 가중치 매트릭스를 나타낸다.
또한, 상기 NMF 예측부는, 상기 이전 프레임에 반영되는 가중치를 구하기 위해 다음의 수학식 1을 이용하여 계산하고, 상기 현재 프레임과 상기 예측 프레임의 오차를 최소화하기 위해 다음의 수학식 2를 이용할 수 있다:
[수학식 1]
Figure 112012006141706-pat00005
[수학식 2]
Figure 112012006141706-pat00006
여기서, V는 현재 프레임 매트릭스(N × M), W는 이전 프레임 매트릭스(N×K), H는 가중치 매트릭스(K×M)을 나타낸다.
또한, 상기 NMF 예측부는, 상기 수학식 2의 가중치 매트릭스 H를 업데이트하기 위해 다음의 수학식을 반복 연산할 수 있다:
Figure 112012006141706-pat00007
여기서, V는 현재 프레임 매트릭스(N × M), W는 이전 프레임 매트릭스(N×K), H는 가중치 매트릭스(K×M)을 나타낸다.
본 발명의 또 다른 실시예에 따른 NMF 예측 알고리즘을 이용한 음성 신호 코딩 장치의 음성 신호 코딩 방법은, 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 단계와, 기 입력된 음성 신호의 이전 프레임에 대하여 NMF 예측 알고리즘을 이용하여 현재 프레임의 예측 프레임을 생성하는 단계와, 현재 프레임에서 상기 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 예측 프레임을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화 단계를 포함한다.
본 발명에 따른 NMF 기반의 인터 프레임 예측 추정 방법을 사용하여 추정된 현재 프레임의 샘플인 기존에 사용되는 이전 프레임에 각 차원으로 예측된 방법과 비교하여 이전 프레임 전체를 이용하는 방법을 사용하기 때문에 상관 관계 중복의 엔트로피가 더욱 줄어드는 효과가 발생한다. 또한, 본 발명에 따른 방법은 LSF 데이터가 높은 상관 관계를 가짐으로써 성능이 좋으며, 이 상관 관계는 이전 프레임의 동일한 차원뿐만 아니라 이전의 다른 전체 차원들에 의해서도 고려가 됨에 따라 예측률이 각 차원만을 이용했을 경우보다 LSD 성능이 뛰어난 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 NMF 알고리즘을 이용한 음성 신호 코딩 장치의 구성도,
도 2는 도 1에 따른 음성 신호 코딩 장치에 의해 구현되는 음성 신호 코딩 방법의 흐름도,
도 3은 도 2에 따른 음성 신호 코딩 방법에 따른 NMF의 가중치 매트릭스 α를 얻기 위한 반복에 따라 나타나는 LSD 성능의 변화를 설명하기 위한 예시도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 NMF 알고리즘을 이용한 음성 신호 코딩 장치의 구성도이고, 도 2는 도 1에 따른 음성 신호 코딩 장치에 의해 구현되는 음성 신호 코딩 방법의 흐름도이다.
도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 NMF 알고리즘을 이용한 음성 신호 코딩 장치(100)는, 주파수 변환부(110), 프레임 재구성부, NMF 예측부(120), 벡터 양자화부(130)를 포함한다. 주파수 변환부(110)는 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수(Line Spectral Frequency, LSF)로 변환한다(S210). 효율적인 음성 코딩을 위해 사람의 음성 트랙 필터를 선형 예측 코딩(Linear Predictive Coding, LPC)계수에 의해 모델링 한다. 보다 나은 LPC계수의 코딩을 위해 선형 스펙트럼 주파수가 제안되었다. 음성의 각 프레임은 올-폴(all-pole) 필터, H(z)=1/A(z)로써 일반화될 수 있다. 여기서 A(z)는 LPC로 구성된 인버스 필터이고, 그 값은 Z-변환(Z-transform)을 이용하여 다음의 수학식 1로 나타낼 수 있다.
Figure 112012006141706-pat00008
수학식 1에서, P는 LPC 차수이고, a는 LPC 계수이다. LSF를 정의하기 위해 인버스 필터는 다음의 수학식 2와 같은 다항식으로 나타낼 수 있다.
Figure 112012006141706-pat00009
수학식 2에서, P(z)는 인버스 필터의 짝수 항이고, Q(z)는 홀수 항을 나타낸다. 코딩을 위해 이용되는 LSF 계수는 이러한 P(z), Q(z)의 근을 의미한다. 수학식 2에서 구한 LSF는 오름차순으로 정렬되며, 그 성질은 효율적인 LSF 계산을 도와주기 때문에 압축 효율을 높일 수 있다.
다음으로, NMF 예측부(120)는 기 입력된 음성 신호의 이전 프레임에 대하여 NMF(Non Negative Factorization) 예측 알고리즘을 이용하여 현재 프레임의 예측 프레임을 생성한다(S220). 예측 프레임은 과거의 이전 프레임으로부터 현재 프레임을 예측한 프레임을 의미한다.
또한, NMF 예측부(120)는 선형 스펙트럼 주파수의 차원이 P 인 경우, P×P의 가중치 매트릭스를 이용하여 이전 프레임에서 예측 프레임을 생성할 수 있다. 가중치 매트릭스는 이전 프레임을 학습하여 생성된 것으로, 예를 들어 NMF를 10,000번 이상 반복하여 예측된 값을 의미한다. 그리고, 가중치 매트릭스가 한 번 생성되면, 이후의 음성 코딩 과정에서 가중치 매트릭스의 값을 고정하여 이용하게 된다.
NMF 예측부(120)는 예측 프레임을 생성하기 위해 다음의 수학식 3을 이용할 수 있다.
Figure 112012006141706-pat00010
수학식 3에서,
Figure 112012006141706-pat00011
는 i-1 번째 이전 프레임을,
Figure 112012006141706-pat00012
는 i번째 예측 프레임을, α는 P×P의 풀 가중치 매트릭스를 나타낸다. 또한, NMF 예측부(120)는 이전 프레임의 모든 차원에 가중치를 부여하기 위해 다음의 수학식 4를 이용할 수 있다.
Figure 112012006141706-pat00013
수학식 4에서, w는 현재 프레임을, w'는 이전 프레임을, α는 P×P의 풀 가중치 매트릭스를 나타낸다. 이에 따라, 이전 프레임의 모든 차원으로부터 각각의 현재 프레임의 차원을 예측할 수 있다. 현재 프레임 w의 각 차원은 α가 P×P의 풀 매트릭스 형태이기 때문에 이전 프레임 w'의 모든 차원에 영향을 주게 된다. 그리고 α가 재구성된 이전 프레임에 적용되어 현재 프레임을 예측하게 되며, 이는 수학식 3과 같이 표현될 수 있다.
즉, 예측 프레임(P×1)은 이전 프레임(P×1)에 가중치 α를 반영한 결과로 생성될 수 있다. α가 풀 매트릭스이기 때문에 이전 프레임의 전체 차원의 상관 관계(correlation)가 이용된다. 이러한 가중치 α를 얻기 위해 NMF 알고리즘이 이용된다. NMF 알고리즘은 다음의 수학식 5와 같이 대상 매트릭스(V)를 기초 매트릭스(W)와 가중치 매트릭스(H)로 비음수 매트릭스로 분해하여 최적화할 수 있다.
Figure 112012006141706-pat00014
수학식 5에서, 대상 매트릭스(V)는 현재 프레임 매트릭스(N × N), 기초 매트릭스(W)는 이전 프레임 매트릭스(N×K), H는 가중치 매트릭스(K×M)를 나타낸다. NMF 알고리즘은 현재 프레임과 예측 프레임과의 오차를 추정함으로써 V와 WH 사이의 최소값을 찾는다. 이 오차는 일반적으로 다음 수학식 6의 Kull-back-Leibler 오차가 된다.
Figure 112012006141706-pat00015
또한, NMF 예측부(120)는, 수학식 6의 가중치 매트릭스 H를 업데이트하기 위해 다음의 수학식 7을 반복 연산한다. 즉, 현재 프레임 매트릭스 V와 이전프레임 매트릭스 W는 고정하고 가중치 매트릭스 H만 업데이트하게 된다.
Figure 112012006141706-pat00016
여기서, V는 현재 프레임 매트릭스(N × M), W는 이전 프레임 매트릭스(N×K), H는 가중치 매트릭스(K×M)을 나타낸다. 본 발명의 실시예에서는 이전 프레임 매트릭스 W와 현재 프레임 매트릭스 V는 고정되고, 가중치 매트릭스 H만 업데이트한다. 가중치 매트릭스 α는 LSF 데이터의 학습(trainig)을 통해 계산되며, 이는 코딩 알고리즘을 고정(fix)하여 이용한다. 가중치 매트릭스 α를 얻는 과정은 다음의 수학식 8과 같다.
Figure 112012006141706-pat00017
수학식 8에서 w는 학습되는 LSF 데이터이며, P는 LSF 데이터의 차원이고, α는 가중치 매트릭스이다. 한 프레임에서 지연되는 P차원의 LSF 데이터는 수학식 5에서 V 매트릭스가 된다. 수학식 5에서 매트릭스 W는 자신을 유지시키는 학습 LSF 데이터이며, NMF 알고리즘을 반복하게 한다. 그 결과, 매트릭스 H를 얻게 되며, 이는 P×P의 가중치 매트릭스 α이다.
다음으로, 벡터 양자화부(130)는 현재 프레임에서 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 벡터 양자화된 제거 프레임의 차원을 재결합하고 예측 프레임을 추가하여 현재 프레임을 복원한다(S230). 여기서, 제거 프레임은 현재 프레임과 예측 프레임 사이의 오차를 의미한다. 보다 구체적으로, 벡터 양자화부(130)는 부호화부(131)와 복호화부(132)를 포함한다. 부호화부(131)는 현재 프레임에서 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화한다. 이 경우, 벡터 양자화 방법으로는 여러 차원을 나누어서 벡터 양자화하는 스플릿 벡터 양자화(Split Vector Quantization, SVQ) 방법을 사용할 수 있다.
복호화부(132)는 부호화부(131)에서 벡터 양자화된 제거 프레임의 차원을 재결합하고 예측 프레임 데이터를 추가하여 현재 프레임을 복원한다. 또한, 부호화부(131)와 복호화부(132)는 NMF 예측부(120)에서 예측된 하나의 가중치 매트릭스를 고정적으로 이용하며, 가중치 매트릭스는 NMF를 10,000번 이상 반복하여 예측된 값이다.
각 차원의 상관 관계를 고려하는 본 발명에 따른 방법은 P 차원의 LSF 데이터가 높은 상관 관계를 갖고 있어 성능이 좋으며, 이 상관 관계는 이전 프레임의 동일한 차원뿐만 아니라 이전의 다른 전체 차원들에 의해서도 고려가 된다. 이에 따라 예측률이 각 차원만을 이용했을 경우보다 뛰어나게 된다.
도 3은 도 2에 따른 음성 신호 코딩 방법에 따른 NMF의 가중치 매트릭스 α를 얻기 위한 반복에 따라 나타나는 LSD 성능의 변화를 설명하기 위한 예시도이다.
NMF 알고리즘의 중요한 조건은 반복을 수행해야 한다는 점이고, NMF 알고리즘이 실시간으로 사용된다면 복잡성은 반복을 할 때마다 증가하게 된다. 하지만 본 발명에서는 학습데이터에서 미리 계산된 NMF 가중치 매트릭스는 고정시켜 사용한다. 따라서 이러한 복잡성은 무시될 수 있다. 본 발명에 따른 NMF 기반 예측 방법의 실험 결과, 8kHz로 샘플링한 음성 신호는 일반적으로 LPC의 차원이 10인 값을 갖는데, 이 경우 LSF 데이터의 차원도 10이 된다. 코드북 트레이팅이 1,200,000 개의 TIMIT 데이터를 이용하고 테스트를 위해 다른 600,000 TIMIT 데이터를 이용하여 10 차원 LSF 데이터를 생성하고, 예측 스펙트럼 왜곡 성능을 비교하였다.
NMF의 반복은 LSD 성능 및 왜곡 측정에 영향을 준다. 도3은 500 내지 10000번 반복을 위한 LSD 성능을 측정했고, 반복의 변화에 따라 LSD 성능(Kull-back-Leiber divergence 및 Euclidean distance)의 측정 결과를 보여 준다. 오차 왜곡을 사용했지만, LSD 곡선은 특정 값으로 수렴함을 볼 수 있다. 그러므로 실험에 쓰이는 NMF의 반복은 10000이며, Kull-back-Leibler와 Euclidean은 LSD 차이가 없으므로 Euclidean으로 선택하여 사용된다.
LSF 데이터는 각 차원에 큰 상관관계를 갖는다. 본 발명에 의해 제안된 방법은 이전 프레임을 이용하여 예측하는 데에 인트라 상관 관계의 영향을 받지 않는다. 각 차원 사이의 인트라 상관관계를 고려하면 LSD 성능이 향상됨을 알 수 있다. 본 알고리즘은 TTS, TAD, 음성 녹음, 응급 콜 백 시스템 등 비-채널 시스템에 적용될 수 있다. 또한 본 알고리즘은 2 번째 이상의 이전 프레임으로 확장될 수도 있다. 본 발명의 확장된 알고리즘을 이용하면 LSD 성능이 향상될 것이다.
이와 같이, 본 발명에 따른 NMF 기반의 인터 프레임 예측 추정 방법을 사용하여 추정된 현재 프레임의 샘플인 기존에 사용되는 이전 프레임에 각 차원으로 예측된 방법과 비교하여 이전 프레임 전체를 이용하는 방법을 사용하기 때문에 상관 관계 중복의 엔트로피가 더욱 줄어드는 효과가 발생한다. 또한, 본 발명에 따른 방법은 LSF 데이터가 높은 상관 관계를 가짐으로써 성능이 좋으며, 이 상관 관계는 이전 프레임의 동일한 차원뿐만 아니라 이전의 다른 전체 차원들에 의해서도 고려가 됨에 따라 예측률이 각 차원만을 이용했을 경우보다 LSD 성능이 뛰어난 효과가 있다.
한편, 본 발명의 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.
100 : 음성 신호 코딩 장치
110 : 주파수 변환부
120 : NMF 예측부
130 : 벡터 양자화부
131 : 부호화부
132 : 복호화부

Claims (14)

  1. 입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 주파수 변환부;
    기 입력된 음성 신호의 이전 프레임에 대하여 NMF 예측 알고리즘을 이용하여 현재 프레임의 예측 프레임을 생성하는 NMF 예측부; 및
    현재 프레임에서 상기 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 예측 프레임을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화부를 포함하며,
    상기 벡터 양자화부는,
    상기 현재 프레임에서 상기 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화부; 및
    상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 예측 프레임 데이터를 추가하여 상기 현재 프레임을 복원하는 복호화부를 포함하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 NMF 예측부는,
    상기 선형 스펙트럼 주파수의 차원이 P 인 경우, P×P의 가중치 매트릭스를 이용하여 상기 이전 프레임에서 예측 프레임을 생성하는 것을 특징으로 하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 장치.
  4. 제3항에 있어서,
    상기 NMF 예측부는,
    상기 예측 프레임을 생성하기 위해 다음의 수학식을 이용하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 장치:
    Figure 112012006141706-pat00018

    여기서,
    Figure 112012006141706-pat00019
    는 i-1 번째 이전 프레임을,
    Figure 112012006141706-pat00020
    는 i번째 예측 프레임을, α는 P×P의 풀 가중치 매트릭스를 나타낸다.
  5. 제4항에 있어서,
    상기 NMF 예측부는,
    상기 이전 프레임의 모든 차원에 가중치를 부여하기 위해 다음의 수학식을 이용하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 장치:
    Figure 112012006141706-pat00021

    여기서, w는 현재 프레임을, w'는 이전 프레임을, α는 P×P의 풀 가중치 매트릭스를 나타낸다.
  6. 제4항에 있어서,
    상기 NMF 예측부는,
    상기 이전 프레임에 반영되는 가중치를 구하기 위해 다음의 수학식 1을 이용하여 계산하고, 상기 현재 프레임과 상기 예측 프레임의 오차를 최소화하기 위해 다음의 수학식 2를 이용하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 장치:
    [수학식 1]
    Figure 112012006141706-pat00022

    [수학식 2]
    Figure 112012006141706-pat00023

    여기서, V는 현재 프레임 매트릭스(N × M), W는 이전 프레임 매트릭스(N×K), H는 가중치 매트릭스(K×M)을 나타낸다.
  7. 제6항에 있어서,
    상기 NMF 예측부는,
    상기 수학식 2의 가중치 매트릭스 H를 업데이트하기 위해 다음의 수학식을 반복 연산하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 장치:
    Figure 112012006141706-pat00024

    여기서, V는 현재 프레임 매트릭스(N × M), W는 이전 프레임 매트릭스(N×K), H는 가중치 매트릭스(K×M)을 나타낸다.
  8. NMF 예측 알고리즘을 이용한 음성 신호 코딩 장치의 음성 신호 코딩 방법에 있어서,
    입력된 음성 신호의 각 프레임을 선형 스펙트럼 주파수로 변환하는 단계;
    기 입력된 음성 신호의 이전 프레임에 대하여 NMF 예측 알고리즘을 이용하여 현재 프레임의 예측 프레임을 생성하는 단계; 및
    현재 프레임에서 상기 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화를 한 후, 상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 예측 프레임을 추가하여 상기 현재 프레임을 복원하는 벡터 양자화 단계를 포함하며,
    상기 벡터 양자화 단계는,
    상기 현재 프레임에서 상기 예측 프레임을 제거한 제거 프레임을 복수의 차원으로 나누어서 벡터 양자화하는 부호화 단계; 및
    상기 벡터 양자화된 제거 프레임의 차원을 재결합하고 상기 예측 프레임 데이터를 추가하여 상기 현재 프레임을 복원하는 복호화 단계를 포함하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 방법.
  9. 삭제
  10. 제8항에 있어서,
    상기 예측 프레임을 생성하는 단계는,
    상기 선형 스펙트럼 주파수의 차원이 P 인 경우, P×P의 가중치 매트릭스를 이용하여 상기 이전 프레임에서 예측 프레임을 생성하는 것을 특징으로 하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 방법.
  11. 제10항에 있어서,
    상기 예측 프레임을 생성하는 단계는,
    상기 예측 프레임을 생성하기 위해 다음의 수학식을 이용하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 방법:
    Figure 112012006141706-pat00025

    여기서,
    Figure 112012006141706-pat00026
    는 i-1 번째 이전 프레임을,
    Figure 112012006141706-pat00027
    는 i번째 예측 프레임을, α는 P×P의 풀 가중치 매트릭스를 나타낸다.
  12. 제11항에 있어서,
    상기 예측 프레임을 생성하는 단계는,
    상기 이전 프레임의 모든 차원에 가중치를 부여하기 위해 다음의 수학식을 이용하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 방법:
    Figure 112012006141706-pat00028

    여기서, w는 현재 프레임을, w'는 이전 프레임을, α는 P×P의 풀 가중치 매트릭스를 나타낸다.
  13. 제11항에 있어서,
    상기 예측 프레임을 생성하는 단계는,
    상기 이전 프레임에 반영되는 가중치를 구하기 위해 다음의 수학식 1을 이용하여 계산하고, 상기 현재 프레임과 상기 예측 프레임의 오차를 최소화하기 위해 다음의 수학식 2를 이용하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 방법:
    [수학식 1]
    Figure 112012006141706-pat00029

    [수학식 2]
    Figure 112012006141706-pat00030

    여기서, V는 현재 프레임 매트릭스(N × M), W는 이전 프레임 매트릭스(N×K), H는 가중치 매트릭스(K×M)을 나타낸다.
  14. 제13항에 있어서,
    상기 예측 프레임을 생성하는 단계는,
    상기 수학식 2의 가중치 매트릭스 H를 업데이트하기 위해 다음의 수학식을 반복 연산하는 NMF 예측 알고리즘을 이용한 음성 신호 코딩 방법:
    Figure 112012006141706-pat00031

    여기서, V는 현재 프레임 매트릭스(N × M), W는 이전 프레임 매트릭스(N×K), H는 가중치 매트릭스(K×M)을 나타낸다.
KR1020120007372A 2012-01-25 2012-01-25 Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법 KR101341188B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120007372A KR101341188B1 (ko) 2012-01-25 2012-01-25 Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120007372A KR101341188B1 (ko) 2012-01-25 2012-01-25 Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20130086486A KR20130086486A (ko) 2013-08-02
KR101341188B1 true KR101341188B1 (ko) 2013-12-12

Family

ID=49213721

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120007372A KR101341188B1 (ko) 2012-01-25 2012-01-25 Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101341188B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101641645B1 (ko) * 2014-06-11 2016-07-22 전자부품연구원 오디오 소스 분리 방법 및 이를 적용한 오디오 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100992675B1 (ko) * 2007-12-21 2010-11-05 한국전자통신연구원 오디오 부호화 및 복호화 방법과 그 장치
KR101006049B1 (ko) * 2008-10-16 2011-01-06 강정환 감정 인식 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100992675B1 (ko) * 2007-12-21 2010-11-05 한국전자통신연구원 오디오 부호화 및 복호화 방법과 그 장치
KR101006049B1 (ko) * 2008-10-16 2011-01-06 강정환 감정 인식 장치 및 방법

Also Published As

Publication number Publication date
KR20130086486A (ko) 2013-08-02

Similar Documents

Publication Publication Date Title
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
EP2450883B1 (en) Frame error concealment method and apparatus using regression analysis
JP6704037B2 (ja) 音声符号化装置および方法
JP2006510947A (ja) 可変ビットレート通話符号化における線形予測パラメータの強力な予測ベクトル量子化方法と装置
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
KR102222838B1 (ko) 다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더
KR20120125513A (ko) 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더
KR101350285B1 (ko) 신호를 부호화 및 복호화하는 방법, 장치 및 시스템
US9269364B2 (en) Audio encoding/decoding based on an efficient representation of auto-regressive coefficients
US8380495B2 (en) Transcoding method, transcoding device and communication apparatus used between discontinuous transmission
KR101341188B1 (ko) Nmf 알고리즘을 이용한 음성 신호 코딩 장치 및 그 방법
RU2660633C2 (ru) Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем разделения огибающей аудиосигнала с использованием квантования и кодирования распределения
KR101276049B1 (ko) 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법
KR20130080271A (ko) Klt 기반 도메인 스위치 스플릿 벡터 양자화 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161125

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171124

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee