KR100461900B1 - 저지연 포만트 fec방법 - Google Patents

저지연 포만트 fec방법 Download PDF

Info

Publication number
KR100461900B1
KR100461900B1 KR10-2002-0072668A KR20020072668A KR100461900B1 KR 100461900 B1 KR100461900 B1 KR 100461900B1 KR 20020072668 A KR20020072668 A KR 20020072668A KR 100461900 B1 KR100461900 B1 KR 100461900B1
Authority
KR
South Korea
Prior art keywords
delay
formant
voice
voice packet
frame
Prior art date
Application number
KR10-2002-0072668A
Other languages
English (en)
Other versions
KR20040044601A (ko
Inventor
양해용
이경훈
황인호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0072668A priority Critical patent/KR100461900B1/ko
Publication of KR20040044601A publication Critical patent/KR20040044601A/ko
Application granted granted Critical
Publication of KR100461900B1 publication Critical patent/KR100461900B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 저지연 포만트 FEC 방법에 관한 것으로, VoIP 환경에서 음성을 압축한 음성 패킷을 전송하는 송신측 및 상기 음성 패킷을 수신하여 음성을 복원하는 수신측에서 이루어지는 저지연 포만트 FEC 방법에 있어서, 송신측에서 n 번째 음성 프레임에 n+1 번째 포만트 성분을 포함하여 생성한 n 번째 음성 패킷을 압축 지연 후에 전송하는 단계와, n 번째 음성 패킷이 네트워크를 통하여 전송 지연 후에 수신측에 수신되는 단계 및 수신측에서 복원 처리 지연 후에 n 번째 음성 패킷을 이용하여 n 번째 음성 프레임을 복원하고, n+1 번째 음성 패킷이 손실된 경우 이미 수신된 상기 n 번째 음성 패킷 중 n+1 번째 포만트 성분을 이용하여 n+1 번째 음성 프레임을 복원하는 단계를 포함한다. 따라서, 기존의 매체 종속 FEC 방법에 비해 6.5ms~27ms 이상의 지연 감소 효과가 있고, 5% 정도의 현실적인 손실 환경에서 MOS 0.1 이상의 음질 개선 효과가 있다.

Description

저지연 포만트 FEC 방법{Low delay formant FEC technique}
본 발명은 VoIP(Voice over Internet Protocol) 환경에서 음성 데이터의 전송에 관한 것으로서, 특히 음성 패킷 손실 복원에 사용되는 잉여 정보로 미래 프레임의 포만트 성분을 사용하여 전송 지연을 줄이고 통화 품질을 개선할 수 있는 저지연 포만트 FEC 방법에 관한 것이다.
인터넷 서비스가 대중화되고, 인터넷 트래픽이 급격히 증가함에 따라 인터넷 전화의 사용이 증가하고 있다. 인터넷 전화는 통화 요금을 절감하고 네트워크의 통합을 이룰 수 있기 때문에 전 세계적으로 인터넷 사업자들에게는 주요 관심사가 되고 있다.
인터넷 전화 기술의 기본이 되는 VoIP(Voice over Internet Protocol) 기술은 실시간 음성 신호 전송을 지원하기 위해서, 데이터 손실 시 복구 메커니즘을 내장한 TCP(Transmission Control Protocol) 대신에 손실 가능성을 내포한 UDP(User Datagram Protocol) 프로토콜을 사용한다. 이는 음성 신호의 전송에서 손실 보다 지연이 통화 품질에 더 치명적인 영향을 주기 때문이다. 이러한 특성으로 인해 손실을 감수하더라도 저지연 실시간 전송을 실현하기 위해서 UDP(User Datagram Protocol) 프로토콜을 사용한다. 따라서 VoIP 기술에서 음성 데이터의 손실은 데이터 네트워크에서의 음성 전송에 수반되는 피할 수 없는 현상이라 할 수 있지만, 음성 데이터의 손실은 통화 품질에 많은 문제점을 야기한다. 그리고 음성 데이터의 손실은 현재 VoIP 기술의 대중화에 있어서 가장 큰 문제점이 되고 있다. 이에 따라 실시간 전달 특성을 갖는 멀티미디어 서비스 시스템에서의 전송 손실에 따른 통화 품질의 보장 방안이 VoIP 기술의 관련 분야에서 당면한 과제가 되고 있다.
현재 VoIP 기술에서 통화 품질의 보장 방안으로 제시되고 있는 것으로는 차등화 서비스(differentiated service; DiffServ), 자원 예약 프로토콜(Resource Reservation Protocol, RSVP) 등의 네트워크 프로토콜을 이용한 네트워크 측면의 접근법과, 단말 측에서 음성 패킷을 조작하는 단말 측면의 접근법이 있다. 이중 네트워크 측면의 접근법은 통화 품질 보장을 위한 궁극적인 대책이기는 하지만, 전체 네트워크에 적용하기는 어렵기 때문에 주로 단말 측면에서의 통화 품질 보장 기법이 주로 사용된다.
단말 측면에서의 통화 품질 보장 대책으로는 송신 단말 기반(sender-based)과 수신 단말 기반(receiver-based)의 방식으로 구분할 수 있다. 그 중 FEC(Forward Error Correction) 기법은 송신 단말 기반 중 하나로써, 전송 데이터 이외의 잉여 정보를 추가로 전송함으로써 손실이 발생했을 경우 추가한 잉여 정보를 이용해서 복원하는 기법이다. 이러한 FEC(Forward Error Correction) 기법은 매체의 성질과 무관한 매체 독립(media-independent) 기법과, 매체의 성질에 종속되는 매체 종속(media-specific) 기법으로 분류된다. 이 중 매체 종속 FEC는 오류 복구에 사용되는 잉여 정보를 전송할 매체(음성, 영상, 데이터 등)의 종류에 따라 설정하는 방법이다. 따라서 매체의 특성과 관련이 있기 때문에 매체 독립 기법에 비하여 적은 잉여 정보를 사용하고도 우수한 복원 음성 품질을 나타낸다.
VoIP 기술에서 전송하는 음성 매체에 대해서 제시되고 있는 잉여 정보 추출 알고리즘으로는 단구간(short-term) 에너지와 영교차율(zero crossing ratio)을 사용한 방법, 이중 코덱(dual codec)을 사용한 방법이 있다. 현재 발표된 논문에서는 주코덱(primary codec)으로는 전 전송률(full rate) GSM(global system for mobile) 코덱(13.2kbps)을 사용하고, 잉여 정보를 만드는 부코덱(secondary codec)으로는 LPC(linear predictive coding) 코덱(2.4~5.6kbps)을 사용해서 매체 종속 FEC를 구현한 예가 있다. 이와 같은 매체 종속 FEC는 손실 환경에서 복원률이 높아서 우수한 통화 품질을 제공하지만, 한 프레임의 추가 지연이 발생하는 단점이 있다.
이하에서는 매체 종속 FEC 기법의 지연 분석을 도 1을 참조하여 설명한다.
도 1은 종래 기술에 의한 VoIP 음성 패킷의 매체 종속 FEC 방식을 설명하기 위한 도면이다. 도 1은 송신 단말 압축부(100), 음성 패킷 전송부(102) 및 수신 단말 복원부(104)로 이루어진다. 이때, 송신 단말 압축부(100)는 송신 단말에서의 타이밍 다이어그램(timing diagram)을 나타내는데, 음성 프레임의 코덱 압축, 잉여정보 추출 및 패킷 전송에 대한 타이밍 다이어그램을 보여준다. 음성 패킷 전송부(102)는 네트워트에서 음성 패킷의 전송을 나타낸다. 수신 단말 복원부(104)는 수신 단말에서의 타이밍 다이어그램을 나타내는데, 수신된 음성 패킷의 코덱 복원과 복원된 음성 프레임에 대한 타이밍 다이어그램을 보여준다. 도 1에서 화살표는 데이터 압축의 경우 화살표의 시작점인 시간에서 시작하고, 화살표의 끝점인 시간에서 종료하는 데이터의 생성 동작을 의미한다. 또한 데이터 복원의 경우에는 화살표의 시작점인 시간에서 시작하고, 화살표의 끝점인 시간에서 종료하는 데이터의 복원 동작을 의미한다. 그리고, 각 n, n+1, n+2 의 데이터는 연속적으로 생성 또는 복원되는 n, n+1, n+2 번째 데이터를 나타낸다.
우선 참조번호 110은 n 번째 입력 음성 프레임이 프레임 지연(DF)과 룩어헤드(lookahead) 지연(DL) 후에 압축이 시작되고, 압축 처리 지연(DEP) 후에 음성 패킷 P(n)이 생성되는 것을 보여준다. 이때 코덱에 의한 알고리즘 지연(DA)은 수학식 1과같이 프레임 지연(DF)과 룩어헤드 지연(DL)의 합으로 나타낼 수 있다.
DA=DF+DL
이어서, 참조번호 112는 n 번째 음성 프레임 손실에 대비한 잉여 정보 R(n)의 추출을 나타낸다. 잉여 정보는 코덱 압축에 비해서 상대적으로 작은 복잡도 및 데이터량을 갖는 것이 일반적이다.
이어서, 참조번호 114는 압축 지연(DE_MFEC) 후에 n 번째 패킷을 전송하는 것을 보여준다. 이때 압축 처리 지연이 적으면 전체 지연이 감소하지만, 하드웨어 및 소프트웨어 비용이 급격히 증가할 수 있다. 또한 입력 음성 신호의 종류에 따른 수신 패킷 지터(jitter)의 발생 원인이 될 수 있다. 따라서 한 프레임 시간 내에 압축을 수행함으로써 실시간 압축 특성을 보장하면서 다음 프레임의 시작 부분에서 전송하는 방법이 사용된다. n 번째 프레임에 대한 전송 데이터는 [R(n-1)│P(n)]로 나타낼 수 있는데, n-1 번째의 잉여 데이터와 n 번째의 음성 데이터로 이루어진다. 이때 압축 지연(DE_MFEC)은 수학식 2와 같이 나타난다.
DE_MFEC= DA+ DEP
참조번호 116은 전송 지연(DT)을 나타내는데, 송신 단말에서 패킷이 전송되면 전송 지연(DT) 후에 수신 단말에 도착한다. 이때 전송 지연(DT)은 네트워크에서의 지연과 수신 단말의 지터 버퍼 지연을 포함한다.
이어서, 참조번호 118은 수신 단말의 코덱에 입력된 수신 패킷 중에서 n+1 번째 프레임의 내용인 [R(n)│P(n+1)] 패킷이 손실된 경우를 나타낸다.
이어서, 참조번호 120은 n+1 번째 프레임 [R(n)│P(n+1)] 패킷이 손실되었을 때, n+2 번째 프레임 [R(n+1)│P(n+2)] 패킷 중에서 R(n+1) 인 잉여 정보를 이용하여 복원하는 것을 보여준다. 즉, n+1 번째 프레임을 복원하기 위해서 n+2 번째 프레임 패킷의 내용을 사용하기 때문에, n+2 번째 패킷이 수신된 이후에 n+1 번째 패킷 복원을 시작하여야 한다. 따라서 매체 종속 FEC 기법의 사용으로 인해 한 프레임의 추가 지연이 발생한다. 이때 복원 지연(DD_MFEC)은 수학식 3과 같이 FEC 지연(DFEC)과 복원 처리 지연(DDP)의 합으로 나타낼 수 있다.
DD_MFEC= DFEC+ DDP
그리고, 송신 단말과 수신 단말 간의 전체 지연(DTOTAL_MFEC)은 수학식 4와 같이 압축 지연(DE_MFEC), 전송 지연(DT) 및 복원 지연(DD_MFEC)의 합으로 나타낼 수 있다.
DTOTAL_MFEC= DE_MFEC+ DT+ DD_MFEC
VoIP 에서 많이 사용되는 ITU-T(International Telecommunications Union - Telecommunication Standardization Sector) G.723.1 과 G.729 코덱에 대한 매체종속 FEC 기법의 지연 요소는 표 1과 같다. 표 1을 참조하면, 매체 종속 FEC 기법은 잉여 정보를 이용한 손실 패킷 복원을 통해 음성 품질의 개선 효과는 있지만, 부수적으로 발생하는 추가 FEC 지연(DFEC)으로 인하여 전체적인 통화 품질은 저하되는 것을 알 수 있다.
본 발명이 이루고자 하는 기술적 과제는, 종래의 매체 종속 FEC 기법에서 발생하던 한 프레임에 해당하는 추가지연을 줄이고, 통화 품질을 개선할 수 있는 저지연 포만트 FEC 방법을 제공하는데 있다.
도 1은 종래 기술에 의한 VoIP 음성 패킷의 매체 종속 FEC 방식을 설명하기 위한 도면이다.
도 2는 하이브리드 코딩 기법을 설명하기 위한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 의한 저지연 포만트 FEC 방법을 설명하기 위한 도면이다.
도 4는 본 발명에 의한 저지연 포만트 FEC 방법이 적용된 경우와 적용되지 않은 경우에 대한 손실 복구를 설명하기 위한 스펙트로 그램이다.
도 5는 G.723.1, G.729 코덱에서의 PESQ 추정 MOS를 시뮬레이션 한 결과를 설명하기 위한 그래프이다.
상기 과제를 이루기 위해, 본 발명에 의한 저지연 포만트 FEC 방법은, VoIP 환경에서 음성을 압축한 음성 패킷을 전송하는 송신측 및 상기 음성 패킷을 수신하여 음성을 복원하는 수신측에서 이루어지는 저지연 포만트 FEC 방법에 있어서, 송신측에서 n 번째 음성 프레임에 n+1 번째 포만트 성분을 포함하여 생성한 n 번째 음성 패킷을 압축 지연 후에 전송하는 단계와, n 번째 음성 패킷이 네트워크를 통하여 전송 지연 후에 수신측에 수신되는 단계 및 수신측에서 복원 처리 지연 후에n 번째 음성 패킷을 이용하여 n 번째 음성 프레임을 복원하고, n+1 번째 음성 패킷이 손실된 경우 이미 수신된 상기 n 번째 음성 패킷 중 n+1 번째 포만트 성분을 이용하여 n+1 번째 음성 프레임을 복원하는 단계를 포함하는 것이 바람직하다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세하게 설명하기로 한다. 그러나, 이하의 실시예는 이 기술 분야에서 통상적인 지식을 가진 자에게 본 발명이 충분히 이해되도록 제공되는 것으로서 여러 가지 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 기술되는 실시예에 한정되는 것은 아니다.
도 2는 하이브리드 코딩 기법을 설명하기 위한 블록도이다.
음성 신호를 압축 및 복원하는 코덱은 웨이브 폼(waveform) 코딩 방식, 보코더(vocoder) 방식 및 이 둘을 합한 하이브리드(hybrid) 코딩 방식이 있다. 하이브리드 코딩 방식은 저전송률(4kbps~8kbps) 대역에서는 가장 우수한 복원 음성 품질을 나타내는 것으로 알려져 있다. VoIP 표준으로 선정된 ITU-T G.723.1 과 G.729 코덱도 CELP(Code Excited Linear Prediction) 계열의 하이브리드 코딩 기법을 사용하고 있다.
도 2를 참조하면, 하이브리드 코딩 기법을 수행하기 위한 장치는 전처리부(200), LPC(linear predictive coding) 추출부(202), 피치 추출부(204), 잉여(residual) 코드북 추출부(206) 및 패킷화부(208)로 이루어진다. 우선 음성 신호는 전처리부(200)를 지나 LPC 추출부(202), 피치 추출부(204) 및 잉여 코드북 추출부(206)에서 각각 계수가 추출된다. 패킷화부(208)는 각 추출된 계수를 패킷으로 만들어 전송한다. 이중 LPC 추출부(202)는 사람의 발성 모델을 기본으로 한보코더(vocoder) 방식의 기본적인 예이다. LPC 계수는 포만트(formant) 라고도 하는데, 사람의 성대에 의한 음성 스펙트럼 특유의 포락선을 모델링하는 부분으로, 입력신호의 의미 전달에 가장 큰 부분을 차지한다. 그 이후의 피치 추출부(204), 잉여 코드북 추출부(206)는 추출된 LPC 를 기반으로 웨이브폼 방식인 인지적 분석-합성 방법(perceptual analysis-by-synthesis)을 사용해서 후보 파라미터를 모두 적용하고, 그 중에서 최적의 파라미터를 검색하는 과정을 수행하며 동일 동작의 반복에 따른 많은 계산량이 소요된다. 따라서 포만트를 모델링 하는 LPC 계수가 압축 과정의 가장 처음에서 수행되고, 계산량이 나머지 부분의 동작에 비해 적기 때문에 압축 과정의 초기 부분에 추출된다. 몇몇 논문에 의한 신호처리 프로세서를 이용한 실제적인 전처리와 LPC 해석 및 LSF(Linear Spectral Frequency) 변환에 소요되는 시간 비율은 표 2와 같다.
표 2를 참조하면, 전처리와 LPC 해석에 소요되는 시간 비율은 G.723.1 은 10% 이내이고, G.729 는 25% 이내이고, G.729 의 계산량을 줄인 버전인 G.729A 는 약 35% 의 시간이 소요됨을 알 수 있다. 따라서 VoIP 에서는 전체 압축 계산 과정 중에서 적어도 35% 이전에는 포만트 성분의 추출이 완료됨을 알 수 있다.
따라서 VoIP 에서 사용하는 코덱의 압축 초기에 음성 신호의 의미 전달에 가장 중요한 역할을 하는 포만트 성분이 추출되므로, 이하에서는 이를 이용한 저지연 포만트 FEC 방법을 도 3을 참조하여 설명한다.
도 3은 본 발명의 바람직한 실시예에 의한 저지연 포만트 FEC 방법을 설명하기 위한 도면이다. 도 3은 송신 단말 압축부(300), 음성 패킷 전송부(302) 및 수신 단말 복원부(304)로 이루어진다. 이때, 송신 단말 압축부(300)는 송신 단말에서의 타이밍 다이어그램(timing diagram)을 나타내는데, 음성 프레임의 코덱 압축, 포만트 추출 및 패킷 전송에 대한 타이밍 다이어그램을 보여준다. 음성 패킷 전송부(302)는 네트워트에서 음성 패킷의 전송을 나타낸다. 수신 단말 복원부(304)는 수신 단말에서의 타이밍 다이어그램을 나타내는데, 수신된 음성 패킷의 코덱 복원과 복원된 음성 프레임에 대한 타이밍 다이어그램을 보여준다.
우선 참조번호 310은 n 번째 입력 음성 프레임이 프레임 지연(DF)과 룩어헤드(lookahead) 지연(DL) 후에 압축이 시작되고, 압축 처리 지연(DEP) 후에 음성 패킷 P(n)이 생성되는 것을 보여준다. 이때 코덱에 의한 알고리즘 지연(DA)은 프레임 지연(DF)과 룩어헤드 지연(DL)의 합이 된다.
이어서, 참조번호 312는 n 번째 음성 프레임 손실에 대비한 포만트 R(n)의 추출을 나타낸다.
이어서, 참조번호 314는 압축 지연(DE_FFEC) 후에 n 번째 패킷을 전송하는 것을 보여준다. 압축 지연(DE_FFEC)에는 포만트 지연(DFORMANT)이 추가 되는데, 포만트 지연(DFORMANT)은 현재 프레임의 압축을 시작해서 LPC 해석이 종료되는 시간을 의미한다. 이때 n 번째 프레임에 대한 전송 데이터는 [P(n)│R(n+1)]이 된다. 이중 R(n+1) 데이터는 n+1 번째 프레임에서 추출한 포만트 정보를 나타낸다. 포만트 지연(DFORMANT)이 추가된 압축 지연(DE_FFEC)은 수학식 5와 같이 나타낼 수 있다.
DE_FFEC= DA+ DEP+ DFORMANT
참조번호 316은 전송 지연(DT)을 나타내는데, 송신 단말에서 패킷이 전송되면 전송 지연(DT) 후에 수신 단말에 도착한다.
이어서, 참조번호 318은 수신 단말의 코덱에 입력된 수신 패킷 중에서 n+1 번째 프레임의 내용인 [P(n+1)│R(n+2)] 패킷이 손실된 경우를 나타낸다.
이어서, 참조번호 320은 n+1 번째 프레임 패킷인 [P(n+1)│R(n+2)] 패킷이 손실되었을 때, n 번째 프레임 [P(n)│R(n+1)] 패킷 중에서 R(n+1) 인 잉여 정보를 이용하여 복원하는 것을 보여준다. 즉, n+1 번째 프레임을 복원하기 위해서 n 번째 프레임 패킷의 내용을 사용하기 때문에 추가적인 지연은 발생하지 않는다. 이때의 복원 지연(DD_FFEC)은 수학식 6과 같이 복원 처리 지연(DDP)과 같게 된다.
DD_FFEC= DDP
그리고, 송신 단말과 수신 단말 간의 전체 지연(DTOTAL_FFEC)은 수학식 7와 같이 압축 지연(DE_FFEC), 전송 지연(DT) 및 복원 지연(DD_FFEC)의 합으로 나타낼 수 있다.
DTOTAL_FFEC= DE_FFEC+ DT+ DD_FFEC
이때 본 발명에 의한 저지연 포만트 FEC 방법의 지연 요소는 표 3과 같이 나타낼 수 있다.
종래 기술에 의한 매체 종속 FEC 방법과 본 발명에 의한 저지연 포만트 FEC 방법의 지연 요소를 비교한 결과는 표 4와 같다. 저지연 포만트 FEC 방법을 사용할 경우 매체 종속 FEC 방법을 사용할 때에 비해 G.723.1 코덱은 최소 27ms 이상, G.729 코덱은 6.5ms 이상의 지연을 단축시키는 효과가 있음을 알 수 있다.
그리고, 종래 기술에 의한 매체 종속 FEC 방법은 잉여 정보를 생성하기 위해서 코덱과는 별도의 파라미터 추출로 인한 추가 계산량이 요구되지만, 저지연 포만트 FEC 방법은 코덱에서 생성하는 포만트 정보를 사용하기 때문에 계산량의 증가가 거의 없다는 장점도 있다.
이하, 본 발명에 의한 저지연 포만트 FEC 방법이 적용된 경우와 적용되지 않은 경우에 대한 음질 평가를 도 4를 참조하여 설명한다.
도 4는 음성 데이터가 64 개의 음성신호이고, 코덱은 6.3kbps G.723.1, 8kbps G.729 이며, 손실 모델은 길버트(Gilbert) 모델이고, 음질 평가는 PESQ(Perceptual Evaluation of Speech Quality)이며, 반복은 10회 이상인 환경에서 본 발명에 의한 저지연 포만트 FEC 방법이 적용된 경우와 적용되지 않은 경우에 대한 손실 복구를 설명하기 위한 스펙트로 그램이다. 도 4(a)는 무손실 환경에서 G.729 압축 및 복원 후의 신호이고, 도 4(b)는 10% 손실 환경에서 G.729 코덱 자체의 오류 은닉 메커니즘 만이 적용된 신호이며, 도 4(c)는 본 발명에 의한 저지연 포만트 FEC 방법이 사용된 경우의 신호이다. 도 4(a)와 도 4(b)를 비교하면, 도 4(b)는 포만트 성분이 복원되지 못해 음질이 저하된 것을 볼 수 있다. 반면에 도 4(a)와 도 4(c)를 비교하면, 도 4(c)는 단순 오류 은닉 알고리듬에서 복원하지 못한 포만트 성분이 제안된 기법에서는 많은 부분 복원해 낸 것을 알 수 있다.
도 5는 G.723.1, G.729 코덱에서의 PESQ 추정 MOS를 시뮬레이션 한 결과를 설명하기 위한 그래프이다. 도 5를 참조하면, 두 코덱 모두 손실률이 증가하면 MOS(Mean Opinion Score)가 감소하는 특성을 갖고 있으며, 손실률이 10% 가 되면0.8 가까이 감소한다. 그러나, 저지연 포만트 FEC 방법이 사용된 경우에는 전체적인 음질 개선 효과를 가지며, 최대 10% 손실의 경우에는 MOS 0.2 이상의 음질 개선 효과가 있다. G.723.1 의 경우에는 10% 손실 시에 저지연 포만트 FEC 방법을 적용하지 않은 G.729와 거의 동일한 음질을 보이는 것으로 나타났다.
표 5는 본 발명에 의한 저지연 포만트 FEC 와 포만트 FEC 가 적용되지 않은 환경에서의 현실적인 손실율인 5%를 가정하고 전체적인 성능 비교를 나타낸 것이다. G.723.1, G.729 코덱 모두 최대 3.5ms 의 추가 지연으로 계산량의 증가 없이 MOS 0.1 의 통화 품질 개선 효과가 있음을 알 수 있다.
이상에서 설명한 바와 같이, 본 발명에 의한 저지연 포만트 FEC 방법은, 음성 패킷의 손실 복원에 사용되는 잉여 정보로써 미래 프레임의 포만트 성분을 사용하므로, 기존의 매체 종속 FEC 방법에 비해 6.5ms~27ms 이상의 지연 감소 효과가 있고, 5% 정도의 현실적인 손실 환경에서 MOS 0.1 이상의 음질 개선 효과가 있다.또한 종래의 FEC 기법 들은 G.723.1, G.729 보코더의 프레임 크기의 특이성(10, 30ms)으로 인해 VoIP 시스템에 적용하기 상당히 어려웠으나, 본 발명에 의한 저지연 포만트 FEC 방법은 별도의 계산량의 추가 없이 어떠한 프레임 크기에서도 적용이 가능하기 때문에 활용도를 크게 높일 수 있는 효과가 있다.
이상, 본 발명의 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되는 것은 아니며, 본 발명의 기술적 사상의 범위내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형이 가능하다.

Claims (4)

  1. VoIP 환경에서 음성을 압축한 음성 패킷을 전송하는 송신측 및 상기 음성 패킷을 수신하여 음성을 복원하는 수신측에서 이루어지는 저지연 포만트 FEC 방법에 있어서,
    (a) 상기 송신측에서 n 번째 음성 프레임에 n+1 번째 포만트 성분을 포함하여 생성한 n 번째 음성 패킷을 압축 지연 후에 전송하는 단계;
    (b) 상기 n 번째 음성 패킷이 네트워크를 통하여 전송 지연 후에 상기 수신측에 수신되는 단계; 및
    (c) 상기 수신측에서 복원 처리 지연 후에 상기 n 번째 음성 패킷을 이용하여 상기 n 번째 음성 프레임을 복원하고, n+1 번째 음성 패킷이 손실된 경우 이미 수신된 상기 n 번째 음성 패킷 중 n+1 번째 포만트 성분을 이용하여 n+1 번째 음성 프레임을 복원하는 단계를 포함하는 것을 특징으로 하는 저지연 포만트 FEC 방법.
  2. 제1 항에 있어서, 상기 (a) 단계는
    상기 송신측에서 알고리즘 지연 후에 상기 n 번째 음성 프레임의 생성을 시작하는 단계;
    압축 처리 지연 후에, 상기 n 번째 음성 프레임의 생성이 완료되고, 상기 n+1 번째 포만트 성분의 생성을 시작하는 단계; 및
    상기 n+1 번째 포만트 성분이 포만트 지연 후에 생성이 완료되면, 상기 n 번째 음성 프레임 및 n+1 번째 포만트 성분을 이용하여 상기 n 번째 음성 패킷을 생성하고 전송하는 단계를 포함하는 것을 특징으로 하는 저지연 포만트 FEC 방법.
  3. 제2 항에 있어서, 상기 알고리즘 지연은,
    프레임 지연 및 룩어헤드 지연의 합인 것을 특징으로 하는 저지연 포만트 FEC 방법.
  4. 제1 항 또는 제2 항에 있어서, 상기 포만트 성분은,
    음성 패킷이 손실될 경우, 음성 패킷을 복원하기 위한 잉여 정보인 것을 특징으로 하는 저지연 포만트 FEC 방법.
KR10-2002-0072668A 2002-11-21 2002-11-21 저지연 포만트 fec방법 KR100461900B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0072668A KR100461900B1 (ko) 2002-11-21 2002-11-21 저지연 포만트 fec방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0072668A KR100461900B1 (ko) 2002-11-21 2002-11-21 저지연 포만트 fec방법

Publications (2)

Publication Number Publication Date
KR20040044601A KR20040044601A (ko) 2004-05-31
KR100461900B1 true KR100461900B1 (ko) 2004-12-17

Family

ID=37340627

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0072668A KR100461900B1 (ko) 2002-11-21 2002-11-21 저지연 포만트 fec방법

Country Status (1)

Country Link
KR (1) KR100461900B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100622133B1 (ko) * 2005-09-09 2006-09-11 한국전자통신연구원 VoIP 환경에서의 프레임 손실 복원 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940012945A (ko) * 1992-11-26 1994-06-24 윤종용 에러신호 발생방법 및 장치
WO1999031895A1 (en) * 1997-12-15 1999-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Data transmission over a coded voice channel
KR20000044325A (ko) * 1998-12-30 2000-07-15 윤종용 주문형 비디오 서비스를 위한 데이터의 손실 패킷 복원 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940012945A (ko) * 1992-11-26 1994-06-24 윤종용 에러신호 발생방법 및 장치
WO1999031895A1 (en) * 1997-12-15 1999-06-24 Telefonaktiebolaget Lm Ericsson (Publ) Data transmission over a coded voice channel
KR20000044325A (ko) * 1998-12-30 2000-07-15 윤종용 주문형 비디오 서비스를 위한 데이터의 손실 패킷 복원 방법

Also Published As

Publication number Publication date
KR20040044601A (ko) 2004-05-31

Similar Documents

Publication Publication Date Title
RU2419891C2 (ru) Способ и устройство эффективной маскировки стирания кадров в речевых кодеках
EP2026330B1 (en) Device and method for lost frame concealment
US20070282601A1 (en) Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder
Sun et al. Guide to voice and video over IP: for fixed and mobile networks
CA2483791A1 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
CN110838894A (zh) 语音处理方法、装置、计算机可读存储介质和计算机设备
JP2003501675A (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
Rosenberg G. 729 error recovery for internet telephony
US7302385B2 (en) Speech restoration system and method for concealing packet losses
Wah et al. LSP-based multiple-description coding for real-time low bit-rate voice over IP
CA2387595A1 (en) Speech recognition
Wang et al. Parameter interpolation to enhance the frame erasure robustness of CELP coders in packet networks
Sinder et al. Recent speech coding technologies and standards
KR100461900B1 (ko) 저지연 포만트 fec방법
Gueham et al. An enhanced insertion packet loss concealment method for voice over IP network services
Montminy et al. Improving the performance of ITU-T G. 729A for VoIP
KR100594599B1 (ko) 수신단 기반의 패킷 손실 복구 장치 및 그 방법
Pearce Robustness to transmission channel-the DSR approach
Li et al. Comparison and optimization of packet loss recovery methods based on AMR-WB for VoIP
KR100591544B1 (ko) VoIP 시스템을 위한 프레임 손실 은닉 방법 및 장치
Salami et al. The adaptive multi-rate wideband codec: History and performance
EP1961000A1 (en) Packet loss recovery method and device for voice over internet protocol
Xydeas et al. Model-based packet loss concealment for AMR coders
Uzun et al. Performance improvement in distributed Turkish continuous speech recognition system using packet loss concealment techniques
Shetty et al. Improving the robustness of the G. 722 wideband speech codec to packet losses for voice over WLANs

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080911

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee