KR20200050940A - 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치 - Google Patents

멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치 Download PDF

Info

Publication number
KR20200050940A
KR20200050940A KR1020200053476A KR20200053476A KR20200050940A KR 20200050940 A KR20200050940 A KR 20200050940A KR 1020200053476 A KR1020200053476 A KR 1020200053476A KR 20200053476 A KR20200053476 A KR 20200053476A KR 20200050940 A KR20200050940 A KR 20200050940A
Authority
KR
South Korea
Prior art keywords
frame
bits
codec
fec
mode
Prior art date
Application number
KR1020200053476A
Other languages
English (en)
Inventor
성호상
스티븐 크레이그 그리어
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20200050940A publication Critical patent/KR20200050940A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

오디오 코딩 단말기 및 오디오 코딩 방법이 개시된다. 단말기는 입력 오디오 데이터의 코덱을 이용하여 코딩하기 위해, 복수의 동작 모드로부터 동작 모드를 설정하는 코딩 모드 설정부; 및 상기 동작 모드가 High FER (High FER: Frame Erasure Rate) 동작 모드일 때 복수의 프레임 손실 은닉(FEC: Frame Erasure Concealment) 모드 중 어느 하나에 따라 입력 오디오 데이터의 현재 프레임을 코딩함으로써 상기 입력 오디오 데이터를 코딩하는 코덱를 포함할 수 있다.
상기 동작 모드를 High FER 동작 모드로 설정하자마자, 상기 코딩 모드 설정부는, High FER 동작 모드에 대한 미리 설정된 FEC 모드로부터 어느 하나의 FEC 모드를 선택하고, 입력 오디오 데이터의 코딩에 포함된 리던던시(redundancy)의 결합 또는 설정된 하나의 FEC 모드에 대응하여 코딩된 입력 오디오 데이터로부터 분리된 분리 리던던시 정보에 기초하여 입력 오디오 데이터를 코딩하도록 코덱을 제어할 수 있다.

Description

멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치{METHOD AND APPARATUS FOR FRAME ERASURE CONCEALMENT FOR A MULTI-RATE SPEECH AND AUDIO CODEC}
오디오 인코딩과 디코딩을 위한 기술, 기법과 관련된 하나 이상의 실시예에 관한 것으로, 보다 구체적으로는 멀티 레이트 스피치와 오디오 코덱을 이용하여 향상된 프레임 에러 손실 기법으로 오디오를 인코딩과 디코딩하는 방법 및 장치에 관련된 것이다.
인코딩된 스피치 또는 오디오의 프레임들이 전송되는 동안 때때로 손실될 것으로 예상되는 환경에서 수행되는 스피치 및 오디오 코딩 기술은 코딩된 스피치와 오디오를 위한 전송 시스템 또는 디코딩 시스템은 프레임 손실을 대략 몇 퍼센트로 제한하기 위해 고안되었다.
이러한 프레임 손실을 제한하기 위해, 또는 프레임 손실을 보상하기 위해서, 프레임 손실 은닉(FRAME ERASURE CONCEALMENT, FEC) 알고리즘은 디코딩 시스템에서 스피치나 오디오를 인코딩하거나 디코딩할 때 사용되는 스피치 코덱과 독립적으로 구현될 수 있다. 많은 코덱들은 프레임 손실에 의한 열화(DEGRADATION)를 감소시키기 위해 디코더 시스템에서 전용적으로 사용되는 전용 알고리즘을 사용한다.
이러한 프레임 손실 은닉 알고리즘은 최근 특정 표준(standard)이나 규격(specification)에 따라 작동하는 셀룰러 통신 네트워크 또는 환경에서 활용되었다. 여기서, 표준 또는 규격은 연결 및 통신을 위해 사용되어야 하는 통신 프로토콜 및/또는 파라미터들을 정의할 수 있다. 예를 들어, 상기 표준 또는 규격은 통신 프로토콜 및 모바일 통신을 위한 GSM(Global System for Mobile Communications), GSM/Enhanced Data rates for GSM Evolution, AMPS(American Mobile Phone System), WCDMA(Wideband Code Division Multiple Access), 3G UMTS(Universal Mobile Telecommunications System), IMT2000(International Mobile Telecommunications 2000) 등을 포함할 수 있다.
여기서, 스피치 코딩은 이전에 가변 레이트(variable rate) 또는 고정 레이트 (fixed rate) 중 어느 하나로 수행되었다. 가변 레이트로 인코딩할 때, 소스는 스피치를 다른 비율로 분류하는 알고리즘을 사용하고, 분류된 스피치를 미리 설정된 비트 레이트들 각각에 대응하여 인코딩할 수 있다. 대체적으로, 탐지된 보이스 스피치 오디오가 고정된 비트레이트에 따라 코딩되어야 하는 경우, 스피치 코딩은 고정된 비트레이트를 이용하여 수행되었다.
예를 들어, 이러한 고정 레이트로 코딩하는 코덱들은 AMR(adaptive multi-rate) 및 AMR-WB(adaptive multi-rate wideband)와 같은 GSM/EDGE와 WCDMA 통신 네트워크들을 위해 3GPP에 의해 개발된 멀티 레이트 스피치 코덱을 포함할 수 있다. 이러한 코덱들은 탐지된 보이스 정보에 따라 스피치를 코딩하고, 더 나아가 무선 인터페이스의 네트워크 용량(network capacity) 및 무선 채널 조건(radio channel condition)과 같은 팩터에 기초하여 스피치를 코딩할 수 있다. 여기서, 멀티 레이트는 코덱의 동작 모드에 의존하여 사용될 수 있는 고정 레이트를 의미한다.
예를 들면, AMR 코덱은 스피치를 위해 4.7kbit/s 에서 12.2kbit/s까지 8개의 사용가능한 비트 레이트들을 포함한다. 반면에, AMR-WB는 스피치를 위해 6.6kbit/s 에서 23.85kbit/s까지 9개의 사용가능한 비트레이트를 포함한다. AMR 및 AMR-WB 코덱의 규격은 각각 3GPP 무선 시스템의 3세대에 대한 기술 규격인 3GPP TS 26.090과 3GPP TS 26.190 에서 사용가능하다. 그리고, AMR-WB 코덱의 스피치 감지 부분은 3GPP 무선 시스템의 3세대에 대한 기술 규격인 3GPP TS 26.194 기술 규격에서 찾을 수 있다.
예를 들어, 이와 같은 셀룰러 환경에서, 손실(losses)들은 셀룰러 무선 링크 안에서의 간섭 또는 IP 네트워크 안에서 라우터 오버플로에 의해 발생할 수 있다. LTE(Long Term Evolution)이라 불리는 EPS(Enhanced Packet Services)를 위한 주요 무선 인터페이스에서 EPS라고 알려진 3GPP 무선 시스템의 4세대 기술은 현재 개발 중에 있다. 예를 들어, 도면 1은 스피치 미디어 컴포넌트(12)를 가진 EPS(10)을 도시하고 있다. 여기서, 보이스 데이터는 AMR-WB(wideband)와 AMR-NB(Narrowband)에 따라 코딩될 수 있다.
예를 들어, 3GPP 릴리스 8, 9 에서 EPS(10)은 UMTS와 LTE 보이스 코덱을 따른다. 3GPP 릴리스 8, 9 에서 LTE 스피치 코덱을 포함하는 UMTS는 EPS에 따라 IMS(IP Multimedia Core Network Subsystem)를 위한 멀티미디어 텔레포니 서비스라고 불린다. UMTS는 4세대 3GPP 무선 시스템을 위해 첫번째로 릴리즈되었다. IMS는 IP 멀티미디어 서비스들을 위한 구조적인 프레임워크이다.
비록 LTE가 잠재적인 전송 간섭의 관점에서 개발되었고 셀룰러 또는 무선 네트워크에 실패하였다 하더라도, 3GPP 셀룰러 네트워크에서 전송되는 스피치 프레임들은 전송되는 동안 일부 프레임 및/또는 패킷이 제거(erasure)되기 쉬울 것이다. 제거(erasure)는 디코더 측면에서 패킷의 정보가 손실되거나 사용될 수 있다는 것을 가정하기 위한 분류(classification)이다. 예를 들어 EPS 네트워크의 경우, 프레임 제거가 예상될 수 있다. 제거된 프레임들을 처리(address)하기 위해서, 디코더들은 손실된 프레임들에 대응하는 충격을 완화하기 위한 프레임 손실 은닉(FEC) 알고리즘을 수행할 수 있다.
몇몇 FEC 알고리즘은 단지 손실된 프레임과 같이 제거된 프레임의 은닉을 디코더에서 처리하기 위해 사용될 수 있다. 예를 들어, 디코더는 프레임 제거가 발생했다는 것을 인지하거나 인식할 수 있으며, 제거된 프레임의 바로 이전 또는 바로 이후에 디코더에 도착하는 좋은 상태의 프레임들로부터 제거된 프레임의 컨텐츠를 추정할 수 있다.
몇몇 3GPP 셀룰러 네트워크들의 프레임 제거가 발생된 수신단(receving station)을 식별하고 통지할 수 있는 능력을 가지고 있다. 따라서, 스피치 디코더는 수신된 스피치 프레임이 좋은 상태의 프레임인지 또는 제거된 프레임으로 고려될 것인지 여부를 알 수 있다. 이와 같은 스피치 및 오디오의 본질적 특성 때문에, 적절한 프레임 손실의 완화 또는 은닉 기법이 수행된다면 적은 비율의 프레임 손실은 용인될 수 있다. 몇몇 FEC 알고리즘은 프레임 손실이 덜 부각될(noticeable) 수 있도록 손실된 패킷, 사일런스, 몇몇 타입의 페이딩 아웃/페이딩 인 또는 몇몇 타입의 보간(interpolation)을 노이즈로 대체할 수 있다.
대체적인 FEC 알고리즘의 접근 방식은 리던던트 방식(redundant fashion)으로 규격 정보를 전송하는 인코더를 포함한다. 예를 들면, 참조에 의해 포함된 ITU-T G.718 표준은 향상 레이어(enhancement layer)에서 코어 인코더 출력과 관련된 리던던트 정보를 전송하는 것을 추천한다. 향상 레이어는 코어 레이어와 다른 패킷을 전송할 수 있다.
본 발명의 일실시예에 따른 단말기는 코덱을 이용하여 입력 오디오 데이터를 코딩하기 위해, 복수의 동작 모드로부터 하나의 동작 모드를 설정하는 코딩 모드 설정부; 및 상기 동작 모드가 하이 프레임 제거 레이트 모드(High FER: Frame Erasure Rate)일 때 복수의 프레임 손실 은닉(FEC: Frame Erasure Concealment) 모드 중 어느 하나에 따라 입력 오디오 데이터의 현재 프레임을 코딩함으로써 상기 입력 오디오 데이터를 코딩하는 코덱을 포함하고, 상기 동작 모드를 High FER 동작 모드로 설정하자마자, 상기 코딩 모드 설정부는, High FER 동작 모드에 대한 미리 설정된 FEC 모드로부터 어느 하나의 FEC 모드를 선택하고, 입력 오디오 데이터를 코딩할 때 리던던시(redundancy)를 도입하거나, 설정된 하나의 FEC 모드에 따라 코딩된 입력 오디오 데이터로에서 분류된 리던던시 정보에 기초하여 입력 오디오 데이터를 코딩하도록 코덱을 제어할 수 있다.
상기 단말기의 상기 코딩 모드 설정부는, 상기 입력 오디오 데이터를 구성하는 복수의 프레임들 각각을 위해, 복수의 FEC 모드로부터 하나의 FEC 모드를 선택할 수 있다.
상기 High FER 동작 모드는, 3GPP 표준의 EVS(Enhanced Voice Services) 코덱을 위한 동작 모드이고, 상기 코덱은, EVS 코덱이며, 상기 EVS 코덱이 현재 프레임의 오디오를 인코딩할 때, 상기 EVS 코덱은 적어도 하나의 이웃 프레임들에서 인코딩된 오디오를 결합된 EVS 소스 비트로서 현재 프레임을 위한 패킷에서 현재 프레임의 인코딩 결과에 추가하고, 상기 이웃 프레임들은, 하나 이상의 이전 프레임들 및/또는 하나 이상의 이후 프레임들 각각의 인코딩된 오디오를 포함하고, 상기 결합된 EVS 소스 비트는, 현재 패킷에서 RTP 페이로드 부분과 구분되어 표현되며, 상기 EVS 코덱은 인코딩된 오디오인 적어도 하나의 이웃 프레임들 각각으로부터 개별적으로 오디오를 인코딩하고, 현재 패킷으로부터 분리된 패킷들에 적어도 하나의 이웃 프레임들 각각으로부터 인코딩된 오디오를 추가시킬 수 있다.
상기 복수의 FEC 모드들 중 하나 이상은, 선택적으로 다른 고정 비트 레이트 및/또는 다른 패킷 사이즈에 따라 현재 프레임과 이웃 프레임들을 코딩하도록 코덱을 제어할 수 있다.
상기 복수의 FEC 모드들 중 하나 이상은, 동일한 고정 비트 레이트에 따라 현재 프레임과 이웃 프레임들을 코딩하도록 코덱을 제어할 수 있다.
상기 복수의 FEC 모드들 중 하나 이상은, 동일한 패킷 사이즈에 따라 현재 프레임과 이웃 프레임들을 인코딩하도록 제어할 수 있다.
상기 복수의 FEC 모드들 중 하나 이상은, 현재 프레임을 서브 프레임들로 분할하고, 동일한 고정 비트 레이트보다 작은 비트 레이트로 코딩된 서브 프레임 각각의 코드북 비트의 수를 계산하고, 서브 프레임의 비트들에 대한 코드워드들을 정의하기 위해 사용되는 각각의 코드북 비트의 수와 동일한 고정 비트 레이트를 이용하여 서브 프레임을 인코딩하도록 코덱을 제어할 수 있다.
상기 EVS 코덱은, 현재 프레임의 비트들을 적어도 첫번째 서브 프레임과 두번째 서브 프레임을 포함하는 서브 프레임들로 분류한 것에 기초하여 현재 프레임의 비트들을 위한 차등적인 리던던시(unequal redundancy)를 제공하고, 첫번째 서브 프레임으로 분류된 현재 프레임의 인코딩 비트를 이웃 패킷에서는 두 번째 서브 프레임으로 분류하여 더하는 것처럼 각각의 하나 또는 그 이상의 이웃 패킷에 다른 방식으로 추가할 수 있다.
상기 EVS 코덱은, 현재 프레임의 비트들을 적어도 첫번째 서브 프레임과 두번째 서브 프레임을 포함하는 서브 프레임들로 분류한 것에 기초하여 선형 예측 파라미터를 위한 차등적인 리던던시(unequal redundancy)를 제공하고, 첫번째 서브 프레임으로 분류된 현재 프레임의 선형 예측 파라미터의 인코딩 비트를 이웃 패킷에서는 두 번째 서브 프레임으로 분류하여 더하는 것처럼 각각의 하나 또는 그 이상의 이웃 패킷에 다른 방식으로 추가할 수 있다.
상기 현재 프레임을 위한 패킷은, 이전 프레임 및/또는 이후 프레임으로부터 리던던시 정보에 포함된 FEC 비트와 직접적으로 연결된 구분된 부분을 포함하지 않을 수 있다.
상기 코덱은, 현재 프레임에 대한 설정된 동작 모드를 High FER 동작 모드로서 식별하기 위해, 현재 프레임을 위한 패킷에 High FER 동작 모드 플래그를 추가할 수 있다.
상기 High FER 동작 모드 플래그는, 현재 패킷의 RTP 페이로드 부분에서 하나의 비트로서 현재 패킷에 표현될 수 있다.
상기 코덱은, 현재 프레임에 대해 선택된 복수의 FEC 모드들을 식별하는 FEC 모드 플래그를 현재 프레임을 위한 패킷에 추가할 수 있다.
상기 FEC 모드 플래그는, 미리 설정된 개수의 비트로 현재 패킷에서 표현될 수 있다. 대체적인 일실시예로, 미리 설정된 개수는 2개일 수 있다.
상기 코덱은 현재 프레임에 대한 FEC 모드 플래그를 다른 프레임들의 패킷에서 리던던시로 인코딩할 수 있다.
상기 High FER 동작 모드는, 3GPP 표준의 EVS(Enhanced Voice Services) 코덱을 위한 동작 모드이고, 상기 코덱은, EVS 코덱이며, 상기 EVS 코덱은, High FER 동작 모드의 플래그를 탐지하자마자, High FER 동작 모드로서 현재 프레임에 대한 동작 모드를 식별하기 위해 적어도 하나의 현재 패킷에서 High FER 동작 모드 플래그를 디코딩하고, 현재 패킷으로부터 현재 프레임을 위해 선택된 복수의 FEC 모드들을 식별하는 현재 프레임을 위한 FEC 모드 플래그를 디코딩하며, 상기 입력 오디오 데이터의 코딩은, 선택된 FEC 모드에 따라 입력 오디오 데이터를 디코딩하고, 상기 EVS 코덱이 입력 오디오 데이터를 디코딩할 때, 현재 패킷에서 적어도 하나의 이웃 프레임으로부터 인코딩된 리던던트 오디오(redundant audio)를 파싱하고, 하나 이상의 이전 프레임들 및/또는 하나 이상의 이후 프레임들 각각의 인코딩된 오디오를 현재 프레임에 포함시키며, 현재 패킷에서 파싱된 인코딩된 리던던트 오디오 각각에 기초하여 하나 이상의 이전 프레임들 및/또는 하나 이상이 이후 프레임들 각각에서 손실 프레임(lost frame)을 디코딩할 수 있다.
상기 EVS 코덱은, 입력 오디오 데이터 내부에서 현재 프레임을 위한 비트들 또는 파라미터들에 대한 차등적인 리던던시(unequal redundancy)에 기초하여 현재 프레임을 디코딩하고, 상기 차등적인 리던던시는, 현재 프레임의 비트들 또는 파라미터들을 제1 카테고리들 및 제2 카테고리들로 이전에 분류한 것에 기초하고, 제1 카테고리로 분류된 현재 프레임의 비트들 또는 파라미터들의 인코딩 비트를 이웃 패킷에서는 제2 카테고리로 분류하여 각각의 리던던트 정보에 더하는 것처럼 각각의 하나 또는 그 이상의 이웃 패킷에 다른 방식으로 추가하는 것에 기초하며, 상기 현재 프레임의 코딩은, 현재 프레임이 손실되었을 때, 하나 이상의 이웃 패킷으로부터 디코딩된 현재 프레임의 오디오에 기초하여 현재 프레임의 디코딩하는 것을 포함할 수 있다.
상기 High FER 동작 모드는, 3GPP 표준의 EVS(Enhanced Voice Services) 코덱을 위한 동작 모드이고, 상기 코덱은, EVS 코덱이며, 상기 EVS 코덱은, High FER 동작 모드로서 현재 프레임에 대한 동작 모드를 식별하기 위해 적어도 하나의 현재 패킷에서 High FER 동작 모드의 플래그를 디코딩하고, High FER 동작 모드의 플래그를 탐지하자마자, 현재 패킷으로부터 현재 프레임을 위해 선택된 복수의 FEC 모드들을 식별하는 현재 프레임을 위한 FEC 모드 플래그를 디코딩하며, 상기 입력 오디오 데이터의 코딩은, 선택된 FEC 모드에 따라 입력 오디오 데이터를 디코딩하고, 상기 EVS 코덱은, 입력 오디오 데이터 내부에서 현재 프레임을 위한 비트들 또는 파라미터들에 대한 차등적인 리던던시(unequal redundancy)에 기초하여 현재 프레임을 디코딩하고, 상기 차등적인 리던던시는, 현재 프레임의 비트들 또는 파라미터들을 제1 카테고리들 및 제2 카테고리들로 이전에 분류한 것에 기초하고, 제1 카테고리로 분류된 현재 프레임의 비트들 또는 파라미터들의 인코딩 비트를 이웃 패킷에서는 제2 카테고리로 분류하여 각각의 리던던트 정보에 더하는 것처럼 각각의 하나 또는 그 이상의 이웃 패킷에 다른 방식으로 추가하고, 상기 현재 프레임의 코딩은, 현재 프레임이 손실되었을 때, 하나 이상의 이웃 패킷으로부터 디코딩된 현재 프레임의 오디오에 기초하여 현재 프레임의 디코딩할 수 있다.
상기 EVS 코덱은, 현재 프레임의 비트들을 제1 카테고리들과 제2 카테고리들로 분류함으로써 현재 프레임의 비트에 대한 차등적인 리던던시(unequal redundancy)를 제공하고, 제1 카테고리로 분류된 현재 프레임의 비트들의 인코딩 비트를 이웃 패킷에서는 제2 카테고리로 분류하여 더하는 것처럼 각각의 하나 또는 그 이상의 이웃 패킷에 다른 방식으로 추가할 수 있다..
상기 EVS 코덱은, 현재 프레임의 비트들을 적어도 제1 카테고리들 및 제2 카테고리들로 분류함으로써 현재 프레임의 선형 예측 파라미터를 위한 차등적인 리던던시(unequal redundancy)를 제공하고, 제1 카테고리로 분류된 현재 프레임의 비트들의 선형 예측 파라미터의 인코딩 비트를 이웃 패킷에서는 제2 카테고리로 분류하여 더하는 것처럼 각각의 하나 또는 그 이상의 이웃 패킷에 다른 방식으로 추가할 수 있다.
상기 EVS 코덱이 현재 프레임의 오디오를 인코딩할 때, 상기 EVS 코덱은 적어도 하나의 이웃 프레임들에서 인코딩된 오디오를 현재 프레임의 인코딩 결과를 포함하는 인코딩된 소스 비트 부분과 구별되는 현재 프레임을 위한 패킷의 FEC 부분에 추가하고, 상기 이웃 프레임들은, 하나 이상의 이전 프레임들 및/또는 하나 이상의 이후 프레임들 각각의 인코딩된 오디오를 포함하고, 상기 현재 패킷의 인코딩된 소스 비트 부분과 현재 패킷의 FEC 부분은 현재 패킷에서 RTP 페이로드 부분과 구분되어 표현되며, 상기 EVS 코덱은, 적어도 하나의 이웃 프레임들 각각에 대해 개별적으로 오디오를 인코딩하고, 적어도 하나의 이웃 프레임들 각각에 대해 인코딩된 오디오를 현재 패킷으로부터 분리된 패킷들에 추가시킬 수 있다.
상기 코덱은, 적어도 하나의 이웃 프레임의 비트들의 인코딩 결과를 현재 패킷의 분리된 FEC부분에 추가함으로써 적어도 하나의 이웃 프레임의 비트들에 대한 리던던시를 제공할 수 있다. 상기 분리된 패킷들(separate packers)은 인접하지(conntiguous) 않을 수 있다,
상기 복수의 FEC 모드들 중 하나 이상은, 선택적으로 다른 고정 비트 레이트 및/또는 다른 패킷 사이즈에 따라 현재 프레임과 이웃 프레임을 코딩하도록 코덱을 제어할 수 있다.
상기 복수의 FEC 모드들 중 하나 이상은, 선택적으로 동일한 고정 비트 레이트에 따라 현재 프레임과 이웃 프레임을 코딩하도록 코덱을 제어할 수 있다.
상기 복수의 FEC 모드들 중 하나 이상은, 동일한 패킷 사이즈에 따라 현재 프레임과 이웃 프레임을 코딩하도록 제어할 수 있다.
상기 복수의 FEC 모드들 중 하나 이상은, 현재 프레임을 서브 프레임들로 분할하고, 동일한 고정 비트 레이트보다 작은 비트 레이트로 코딩된 서브 프레임 각각의 코드북 비트의 수를 계산하고, 서브 프레임의 비트들에 대한 코드워드들을 정의하기 위해 사용되는 각각의 코드북 비트의 수와 동일한 고정 비트 레이트를 이용하여 서브 프레임을 인코딩하도록 코덱을 제어할 수 있다..
상기 EVS 코덱은, 현재 프레임의 비트들을 적어도 첫번째 서브 프레임과 두번째 서브 프레임을 포함하는 서브 프레임들로 분류한 것에 기초하여 현재 프레임의 비트들을 위한 차등적인 리던던시(unequal redundancy)를 제공하고, 첫번째 서브 프레임으로 분류된 현재 프레임의 인코딩 비트를 이웃 패킷에서는 두 번째 서브 프레임으로 분류하여 더하는 것처럼 각각의 하나 또는 그 이상의 이웃 패킷에 다른 방식으로 추가할 수 있다.
상기 EVS 코덱은, 현재 프레임의 비트들을 적어도 첫번째 서브 프레임과 두번째 서브 프레임을 포함하는 서브 프레임들로 분류한 것에 기초하여 선형 예측 파라미터를 위한 차등적인 리던던시(unequal redundancy)를 제공하고, 첫번째 서브 프레임으로 분류된 현재 프레임의 선형 예측 파라미터의 인코딩 비트를 이웃 패킷에서는 두 번째 서브 프레임으로 분류하여 더하는 것처럼 각각의 하나 또는 그 이상의 이웃 패킷에 다른 방식으로 추가할 수 있다.
상기 코딩 모드 설정부는, 단말기 외부의 전송 품질들 중 하나 이상 및/또는 전송 과정에서 프레임 손실에 좀더 민감하거나 또는 입력 오디오 데이터의 다른 프레임보다 더 중요성이 높은 입력 오디오 데이터의 현재 프레임의 결정에 기초하여 단말기에서 활용 가능한 피드백 정보의 분석에 기초하여 일반 동작 모드를 위한 복수의 동작 모드들 중 남아 있는 모드들을 비교한 다른(different), 증가된(increased), 및/또는 다양한(varied) 리던던시로 동작 모드를 High FER 동작 모드로 설정할 수 있다.
상기 피드백 정보는, 물리적 계층에 전송된 하이브리드 자동 반복 요청(Hybrid Automatic Repeat Request: HARQ) 피드백인 패스트 피드백(Fast Feedback: FFB) 정보; 물리적 계층보다 더 높은 계층에 전송된 네트워크 시그널링으로부터 피드백된 슬로우 피드백(Slow Feedback: SFB) 정보; 종단(Far End)에서 코덱으로부터 인밴드 시그널링된 피드백(In-band Feedback: ISB) 정보; 및 리던던트 방식(redundant fashion)에 전송될 특정 크리티컬 프레임(specific critical frame)의 코덱에 의한 선택인 하이 센스티비티 프레임(High Sensitivity Frame: HSF) 정보 중 적어도 하나를 포함할 수 있다.
상기 단말기는, FFB 정보, HARQ 피드백, SFB 정보, ISB 정보 중 적어도 하나를 수신하고, 단말 외부에서의 전송과 관련된 하나 이상의 품질을 결정하기 위해 수신된 피드백 정보를 분석할 수 있다.
상기 단말기는, 패킷에 수신된 플래그에 기초하여 이전에 수행되는 FFB 정보, HARQ 피드백, SFB 정보, ISB 정보 중 적어도 하나의 분석 결과를 나타내는 정보를 수신하고, 상기 플래그는, High FER 동작 모드에 따라 인코딩된 현재 패킷의 현재 프레임 또는 High FER 동작 모드에서 코덱에 의해 수행되어야 하는 현재 패킷의 코딩을 나타낼 수 있다.
상기 코딩 모드 설정부는, 복수의 사용 가능한 코딩 타입들에서 현재 프레임 및/또는 이웃 프레임들의 결정된 코딩 타입들 또는 복수의 사용 가능한 프레임 분류에서 현재 프레임 및/또는 이웃 프레임들의 결정된 프레임 분류 중 하나에 기초하여 복수의 FEC 모드 중 하나로 동작 모드를 설정할 수 있다.
상기 복수의 사용 가능한 코딩 타입들은, 언보이스된 스피치 프레임(unvoiced speech frames)를 위한 언보이스된 와이드밴드 타입(unvoiced wideband type), 보이스된 스피치 프레임(voiced speech frames)를 위한 보이스된 와이드밴드 타입(voiced wideband type), 넌 스태이셔너리 스피치 프레임(non-stationary speech frame)을 위한 일반 와이드밴드 타입(generic wideband type) 및 향상된 프레임 제거 퍼포먼스(enhanced frame erasure performance)을 위해 사용된 트랜지션 와이드밴드 타입(transition wideband type)을 포함할 수 있다.
상기 복수의 사용 가능한 프레임 분류들은, 언보이스, 사일런스, 노이즈, 보이스된 옵셋(voiced offset)을 위한 언보이스된 프레임 분류(unvoiced frame classification), 언보이스된 컴포넌트에서 보이스된 컴포넌트로의 트랜지션를 위한 언보이스된 트랜지션 분류(unvoiced transition classification), 보이스된 컴포넌트에서 언보이스된 컴포넌트로의 트랜지션을 위한 보이스된 트랜지션 분류(voiced transition classification), 보이스된 프레임과 이미 보이스되거나 또는 온셋 프레임(onset frame)으로 분류된 이전 프레임을 위한 보이스된 분류(voiced classification), 및 디코딩이기에 의해 보이스 은닉(voice concealment)를 따르도록 충분히 잘 설계된 보이스된 온셋을 위한 온셋 분류를 포함할 수 있다.
본 발명의 일실시예에 따른 코딩 방법은, 코덱을 이용하여 입력 오디오 데이터를 코딩하기 위해,, 복수의 동작 모드로부터 하나의 동작 모드를 설정하는 단계; 및 상기 동작 모드가 하이 프레임 제거 레이트 모드(High FER: Frame Erasure Rate)일 때, 복수의 프레임 손실 은닉(FEC: Frame Erasure Concealment) 모드 중 어느 하나에 따라 입력 오디오 데이터의 현재 프레임을 코딩함으로써 상기 입력 오디오 데이터를 코딩하는 단계를 포함하고, 상기 동작 모드를 High FER 동작 모드로 설정하자마자, 상기 입력 오디오 데이터를 코딩하는 단계는, High FER 동작 모드에 대한 미리 설정된 FEC 모드로부터 어느 하나의 FEC 모드를 선택하고, 입력 오디오 데이터를 코딩할 때 리던던시(redundancy)를 도입하거나, 설정된 하나의 FEC 모드에 따라 코딩된 입력 오디오 데이터로 분류된 리던던시 정보에 기초하여 입력 오디오 데이터를 코딩할 수 있다.
본 발명의 일실시예에 따르면, 프레임 전송 과정에서 제거된 프레임에 대해 효율적으로 프레임 손실 은닉을 수행하거나 또는 복원할 수 있다.
도 1은 본 발명의 일실시예에 다라 EVS(Enhanced Voice Service)를 포함하는 EPS(Evolved Packet System)을 도시한 도면이다.
도 2A는 본 발명의 일실시예에 따라, 인코딩 단말(100), 하나 이상의 네트워크(140) 및 디코딩 단말(150)을 도시한 도면이다.
도 2B는 본 발명의 일실시예에 따라 EVS 코덱을 포함하는 단말(200)을 도시한 도면이다.
도 3은 본 발명의 일실시예에 따라 대체 패킷에 제공되는 하나의 프레임에 대한 리던던트 비트(redundant bit)의 예시를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따라 2개의 대체 패킷에 제공되는 하나의 프레임에 대한 리던던트 비트의 예시를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따라 프레임의 패킷 전후에 위치한 대체 패킷에 제공되는 하나의 프레임에 대한 리던던트 비트의 예시를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따라 소스 비트의 다른 분류에 기초하여 대체 패킷에서 소스 비트의 차등적인 리던던시(unequal redundancy)를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따라 차등적인 리던던시를 가지는 FEC 동작 모드의 일례를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따라 같은 전송 블록 사이즈를 가지는 High FER 동작 모드에 대한 다른 FEC 동작 모드를 도시한 도면이다.
도 9는 본 발명의 일실시에에 따라 C 클래스 비트의 개수와 같은 A 클래스 비트의 개수에 기초하여 차등적인 리던던시 전송을 위해 사용가능한 패킷의 4가지 서브 타입을 도시한 도면이다.
도 10은 본 발명의 일실시예에 따라 온셋 프레임에 향상된 프로텍션(enhanced protection)을 제공하는 다양한 패킷 서브타입들을 도시한 도면이다.
도 11은 본 발명의 일실시예에 따라 High FER 동작 모드에서 다른 FEC 동작 모드를 이용하여 오디오 데이터를 코딩하는 방법을 도시한 도면이다.
도 12는 본 발명의 일실시예에 따라 모든 FEC 동작 모드에 대해 같은 비트 레이트 또는 패킷 사이즈가 유지되는 지 여부에 기초한 FEC 프레임워크를 도시한 도면이다.
도 13은 본 발명의 일실시에에 따라 3개의 FEC 동작 모드의 예시를 도시한 도면이다.
도 14는 본 발명의 일실시예에 따라 High FER 동작 모드에서 다른 FEC 동작 모드를 이용하여 오디오 데이터를 디코딩하는 방법을 도시한 도면이다.
이제 도시된 도면에 따라 본 발명의 일실시예에 대해 구체적으로 설명하기로 한다. 그리고, 같은 참조 도면은 같은 구성 요소를 나타낸다. 본 발명의 일실시예들은 다른 형태로 구성될 수 있으며, 특정한 구성 요소로 한정해석 되지 않고 시스템의 다양한 변경, 수정, 동일성 범위까지 포괄하여야 한다. 그리고, 설명되는 장치 및/또는 방법들은 종래 기술에 기초하여 이해될 수 있다. 따라서 본 발명의 일실시예들은 도면에 따라 이하에서 구체적으로 설명하기로 한다.
본 발명의 일실시예들은 스피치 및 오디오 코딩의 기술 영역과 관련된 것으로 인코딩된 스피치 또는 오디오의 프레임은 전송 과정에서 때때로 손실될 수 있다. 셀룰러 무선 링크(Cellular Radio Link)에서의 방해(Interference) 또는 IP 네트워크에서의 라우터 오버플로(Router Overflow) 등과 같은 이유로 스피치 또는 오디오 프레임의 손실이 발생할 수 있다.
본 발명의 일실시예들은 3GPP 무선 시스템 구조의 4세대 방식에 채택될 EVS(Enhanced Voice Service) 코덱과 관련되는 것이나, 본 발명의 일실시예들은 EVS에 반드시 제한되지 않는다.
3GPP는 미래의 무선 휴대폰 또는 무선 시스템을 위한 새로운 스피치 및 오디오 코덱을 표준화하는 과정이다. EVS(Enhanced Voice Services) 코덱으로 잘 알려진 이 코덱은 EPS(Enhanced Packet Services)로 잘 알려진 3GPP의 4세대 네트워크를 위한 인코딩된 비트레이트의 넓은 범위에서 스피치 및 오디오를 효율적으로 압축할 수 있도록 설계되었다. EPS의 특징 중 하나는 Long Term Evolution (LTE)로 알려진 EPS 무선 인터페이스(air interface)를 통해 스피치 및 오디오의 압축 결과를 포함하는 모든 서비스를 위해 패킷 기반의 전송에서 사용되는 것이다. EVS 코덱은 패킷 기반 환경에서 효율적으로 동작하도록 설계된다.
EVS 코덱은 협대역(narrowband)에서 전대역(Full-band)에 이르기까지의 대역폭에서 오디오를 압축할 수 있으며, 스테레오 능력도 있어서, 존재하는 3GPP 코덱을 위한 궁극적인 대체로 보여진다. 3GPP에서 새로운 코덱의 동기(motivation)는 좀더 높은 오디오 대역폭과 스테레오를 요구하는 새로운 어플리케이션을 제외한 스피치 및 오디오 코딩 알고리즘의 발전(advancement), 서킷 스위치된 환경에서 패킷 스위치된 환경으로 스피치 및 오디오의 마이그레이션(migration)을 포함한다.
이전의 3GPP 기반 네트워크의 경우와 같이 EVS 코덱이 동작할 환경의 주된 양상(aspect)은 송신기(sender)에서 수신기(receiver)로의 스피치/오디오 프레임이 전송될 때의 손실이다. 이것은 셀룰러 네트워크에서 전송시 예상되는 결과이고, 그러한 환경에서 동작하도록 설계된 스피치 및 오디오 설계 과정에서 고려된다. EVS 코덱은 스피치의 프레임 손실과 프레임 제거의 충격을 최소화하기 위한 알고리즘을 포함할 수 있다. EPS 뿐만 아니라 레거시 3GPP 셀룰러 네트워크도 일반적인 조건동안 대부분의 사용자에 대한 합리적인 프레임 제거 비율을 유지하도록 설계될 수 있다.
도 1의 EVS 코덱(26)은 패킷이 손실되는 환경인 3GPP 어플리케이션 뿐만 아니라 이후 3GPP에서도 사용될 수 있다. 추가적으로, 몇몇의 사용자는 원하는 EVS보다 프레임 제거의 일반적인 비율보다 더 높은 비율을 경험할 수 있다. 이러한 관점에서, 본 발명은 EVS 코덱을 위한 High Frame Erasure Rate (High FER) 동작 모드를 제안한다. High FER 동작 모드는 특정 환경에서 추가적인 프레임 손실 경감(mitigation)을 제공하기 위해 추가적인 리소스(추가적인 비트 레이트 및/또는 딜레이)를 사용할 수 있다.
예를 들어, High FER 동작 모드는 LTE에서 극한적인 동작 환경에서의 프레임 제거 비율을 의미한다. High FER 동작 모드에서, 10% 또는 그 이상의 정도에서 프레임 제거 비율에서 좀더 나은 성능을 발휘하기 위해서는 추가적인 리소스(비트 레이트, 딜레이)가 요구되는 트레이드-오프(Trade Off)가 존재한다.
본 발명의 일실시예에 따르면, EVS 코덱(26)의 High FER 동작 모드를 위해 FEC(Frame Erasure Concealment)와 직접적으로 연결된다. 본 발명의 일실시예에들은, 특정 파라미터의 중요성에 기초하여 스피치 프레임의 다양한 인코딩된 파라미터가 다양한 리던던시(redundancy)와 함께 전송되는 리던던시 방식을 제안한다. 추가적으로, 인코딩된 스피치 부분이 아닌 인코더에서 생성되는 FEC 비트는 우선화(prioritized)되어, 다양한 리던던시와 함께 전송된다. 리던던시는 다중 패킷에서 같은 비트 또는 모든 비트의 반복을 통해 도출되고, 프레임들간 또는 프레임 내부에서 차등적인(unequal) 방식으로 수행될 수 있다.
도 1은 스피치 미디어 컴포넌트(22)의 내부에서 4세대 3GPP 방식을 위해 Enhanced Voice Service (EVS) 코덱(26) 및 보이스 서비스 코덱(24)를 포함하는 Evolved Packet System (EPS) (20)을 도시한다. EVS 코덱(26)은 LTE 무선 인터페이스를 통해 효율적으로 동작한다. 이러한 효율적인 설계로 인해, 다양한 코덱 프레임 사이즈와 RTP 페이로드는 LTE에서 이미 정의된 전송 블록 사이즈와 매칭된다. EVS 코덱(26)은 무선 인터페이스 및 VOIP 네트워크에서 프레임 손실이 발생하거나 발생할 수 있는 환경에서 동작하는 멀티 레이트 및 멀티 대역폭 코덱이다. 따라서, 본 발명의 일실시예에 따르면, EVS 코덱(26)은 프레임 손실의 충격을 감소시키기 위한 Frame Erasure Concealment(FEC) 알고리즘을 포함한다.
오디오 코딩에서 FEC를 이용하는 것은 스피치 또는 오디오를 인코딩하거나 또는 인코딩하기 위해 사용된 스피치 코덱과 독립적인 디코딩 시스템에 의해 수행된바 있다. 그러나, 잠재적으로 보다 효과적인 이용하기 위해, EVS 코덱(26)의 디코더 측면의 개발 단계에서 EVS 코덱(26)에서 FEC 알고리즘을 설계하는 것이다.
인코더 측면에서, 인코더들은 오디오 데이터의 스피치를 인코딩하기 위해 수행되는 코덱들과 독립적으로 데이터에 제공된 리던던시들을 가질 수 있다. 그래서, 비록 이전 코덱들은 프레임 손실에 의한 품질 악화(degradation)을 줄이기 위해 오직 디코더와 관련된 알고리즘을 이용하였으나, 본 발명의 일실시예에 따르면, 비록 시스템 대역폭의 추가 비용이나 잠재적인 딜레이가 필요하더라도 EVS 코덱(26)의 디코더 측면의 개발 단계에서 EVS 코덱(26)의 인코더에 FEC 알고리즘을 채택할 수 있다.
본 발명의 일실시예에 따르면, 인코더에 적용되는 FEC 알고리즘 뿐만 아니라 에러 또는 패킷의 손실을 은닉(conceal)하기 위해 디코더에도 적절한 FEC 알고리즘을 적용할 수 있다. 그리고, 추가적인 프레임 에러 은닉 알고리즘의 조합이 사용될 수 있다. 또한, 디코더는 디코딩된 오디오 데이터의 적절한 타이밍을 유지하기 위해 에러가 발생한 비트들 또는 손실된 패킷들을 재구성할 수 있다. 따라서, EVS 코덱(26)은 이전에 설명한 프레임 손실 은닉 뿐만 아니라 FEC 프레임과 관련된 사항을 수행할 수 있다.
따라서, 본 발명의 일실시예에 따르면, 4세대 3GPP 무선 시스템 방식과 같이 인코더 기반의 FEC 알고리즘을 채택할 수 있다. 그리고, 다른 실시예에 의하면, 본 발명은 인코딩 동작과 디코딩 동작을 각각 수행할 수 있는 인코더와 디코더를 포함할 수 있다.
도 2A에 의하면, 인코딩 단말(100), 하나 이상의 네트워크(140) 및 디코딩 단말(150)이 도시된다. 본 발명의 일실시예에 따르면, 하나 이상의 네트워크들(140)은 EVS 코덱(26)을 포함하고, 인코딩, 디코딩 또는 변형(transformation)을 수행할 수 있는 하나 이상의 중간 단말들(intermediary terminals)을 포함할 수 있다. 인코딩 단말(100)은 인코더 측 코덱(120), 사용자 인터페이스(130)를 포함할 수 있고, 디코딩 단말(150)은 유사하게 디코더 측 코덱(160) 및 사용자 인터페이스(130)를 포함할 수 있다.
도 2B는 본 발명의 일실시예에 따라 도 2A의 인코딩 단말(100) 및 디코딩 단말(150)을 하나 또는 둘 모두 뿐만 아니라 하나 이상의 네트워크들(140) 내부의 중간 단말들을 대표하는 단말(200)을 도시한다. 단말(200)은 마이크(260)와 같은 오디오 입력 장치와 연결된 인코딩부(205), 스피커(270)와 같이 오디오 출력 장치와 연결된 디코딩부(250) 및 잠재적인 디스플레이(230) 및 입출력 인터페이스(235), 중앙 처리 장치(CPU) (210)와 같은 프로세서를 포함할 수 있다.
CPU(210)는 인코딩부(205)와 디코딩부(250)와 연결될 수 있다. CPU(210)는 인코딩부(205)와 디코딩부(250)의 동작을 제어할 수 있을 뿐만 아니라, 단말(200)의 다른 구성 요소들을 인코딩부(205)와 디코딩부(250) 간의 상호 작용을 제어할 수 있다. 본 발명의 일실시예에 따르면, 단말(200)은 모바일 폰, 스마트 폰, 테블릿 PC, 또는 PDA(personal digital assistant)와 같은 모바일 장치일 수 있다. 그리고, CPU(210)는 단말의 다른 특징을 이용할 수 있고, 모바일 폰, 스마트 폰, 테블릿 PC, 또는 PDA에서의 일반적인 기능을 위해 단말의 능력(capability)을 이용할 수 있다.
예를 들어, 본 발명의 일실시예에 따르면, 인코딩부(205)는 FEC 알고리즘 또는 프레임워크에 기초하여 디지털적으로 입력 오디오를 인코딩할 수 있다. 저장된 코드북은 적용된 FEC 알고리즘에 기초하여 선택적으로 사용될 수 있다. 코드북은 인코딩부(205) 및 디코딩부(250)의 메모리에 저장될 수 있다. 인코딩된 디지털 오디오는 캐리어 신호로 변조된 패킷을 통해 전송될 수 있고, 안테나(240)에 의해 전송될 수 있다. 또한, 인코딩 오디오 데이터는 차후 재생을 위해 비휘발성 메모리 또는 휘발성 메모리와 같은 메모리(215)에 저장될 수 있다.
다른 일례로, 본 발명의 일실시예에 따르면, 디코딩부(250)는 FEC 알고리즘에 기초하여 입력 오디오를 디코딩할 수 있다. 디코딩부(250)에 의해 디코딩된 오디오는 안테나(240)로부터 제공되거나 또는 이전에 인코딩된 오디오가 저장된 메모리(215)로부터 획득될 수 있다. 추가적으로, 저장된 코드북은 인코딩부(205), 디코딩부(250) 또는 메모리(215)에 저장될 수 있고, FEC 알고리즘에 기초하여 선택적으로 사용될 수 있다.
앞서 설명하였듯이, 본 발명의 일실시예에 따르면, 인코딩부(205) 및 디코딩부(250)는 각각 적절한 코드북들 및 적절한 코덱 알고리즘 또는 FEC 알고리즘을 저장하기 위한 메모리를 포함할 수 있다. 인코딩부(205) 및 디코딩부(250)는 오디오 데이터를 인코딩하거나 또는 디코딩하기 위해 사용되는 코덱과 같이 프로세싱 장치에 포함되어 동일하게 사용될 수 있는 단일 유닛(single unit)일 수 있다. 본 발명의 일실시예에 따르면, 프로세싱 장치는 입력 오디오 또는 다른 오디오 스트림의 다른 부분을 위해 병렬적으로 인코딩 프로세싱 및/또는 디코딩 프로세싱을 수행할 수 있다.
단말(200)은 인코딩부(205) 및/또는 디코딩부(250)에서 수행될 수 있는 복수의 동작 모드들을 선택하는 코덱 모드 설정부(255)들을 포함할 수 있다. 각각의 코덱 모드 설정부(255)들 각각은 인코딩부(205) 및 디코딩부(250) 모두를 위한 하나의 코덱 모드 설정부(255)일 수 있다. RVS 코덱은 동일한 동작 모드로 스피치와 넌 스피치 오디오인 음악(music)을 인코딩할 수 있다. 만약 입력 오디오가 넌-스피치 오디오인 경우 인코딩부(205) 또는 디코딩부(250)는 음악 또는 좀더 품질 좋은 오디오를 위해 설계된 코덱과 같이 광대역 코덱(Wideband codec)에 따라 넌-스피치 오디오를 각각 인코딩하거나 또는 디코딩할 수 있다.
만약, 입력 오디오가 스피치 오디오로 결정되면, 코덱 모드 설정부(255)는 인코딩부(205) 또는 디코딩부(250) 각각이 오디오 데이터를 인코딩 또는 디코딩할 수 있도록 복수의 동작 모드를 결정할 수 있다.
만약 코덱 모드 설정부(255)가 High FER 동작 모드가 결정되었음을 감지한 경우, 코덱 모드 설정부(255)는 High FER 동작 모드에서 동작하기 위해 FEC 모드들 중 하나를 선택할 수 있다. 비록 동작 모드가 High FER 동작 모드로 설정되었기 때문에 스피치 코딩을 위해 활용가능한 다른 동작 모드가 이용되지 않더라도, FEC 모드들은 FEC 프레임워크에서 다른 스피치 코딩 모드들과 함게 사용될 수 있다.
코덱 모드 설정부(255)는 인코딩된 입력 패킷을 파싱하여 수신된 인코딩된 오디오가 스피치인지 여부를 식별하는 정보, High FER 동작 모드가 설정되었는 지 여부를 나타내는 넌-스피치 오디오를 위한 동작 모드, FER 모드를 위해 어떠한 잠재적인 FEC 동작 모드 등을 추출할 수 있다. 또한, 코덱 모드 설정부(255)는 파싱된 정보들을 인코딩된 출력 패킷에 추가할 수 있다. 그리고, 이러한 정보들은 궁극적인(ultimate) 인코딩이 수행될 수 있도록 인코딩부(205)에 의해 추가될 수 있다.
본 발명의 일실시예에 따르면, EVS 코덱(26)은 스피치 오디오를 위한 복수의 동작 모드들을 포함할 수 있다. 동작 모드들 각각은 연관된 인코딩된 비트 레이트를 가질 수 있다. 특정 모드에서의 비트 레이트에 종속하여, 동작 모드들은 오디오 대역폭의 선택을 전송하거나 또는 레거시 AMR-WB 코덱으로 인코딩된 스피치를 전송하기 위해 다양하게 사용될 수 있다. 스피치 오디오에 대한 동작 모드들의 예시는 이하의 표 1에서 도시된다.
LTE 무선 인터페이스는 다양한 사이즈를 가지는 전송 패킷에서 사용할 수 있는 고정된 개수의 전송 블록 사이즈로 설계될 수 있다. 3GPP 무선 시스템에서는 존재하는 3GPP 코덱을 위해 전송 블록 사이즈보다 더 작게 설계될 수 있다. 그리고, 전송 블록 사이즈는 코덱이 동작할 비트 레이트의 엄격한 선택을 통해 EVS 코덱(26)에 이해 재사용될 수 있다. 본 발명의 일실시예에 있어서, EVS 코덱(26)은 엔드 투 엔드 딜레이(end-to-end delay)를 최소화하기 위해 스피치를 20ms 프레임들로 인코딩할 수 있으며, 하나의 프레임은 패킷마다 전송될 수 있다. 하지만, 본 발명은 이러한 실시예에 한정되지 않는다.
이하에서 도시된 표 1은 비트레이트 범위의 낮은 부분에서의 스피치 EVS 코덱 비트 레이트의 예시와 비트레이트 모드와 결합하여 사용되는 전송 블록 사이즈를 도시한다. 표 1에서 예시된 RTP 페이로드의 사이즈는 AMR-WB 코덱에서 존재하는 RTP 페이로드 사이즈에 기초한다. 하지만, 본 발명의 일실시예들은 표 1의 RTP 페이로드 사이즈에 한정되지 않는다.
[표 1]
Figure pat00001
상기 설명은 고정 레이트 코덱이거나 또는 고정 레이트에서 스피치 프레임을 인코딩하는 코덱에 관한 것이다. 패킷 스위치된 환경에서 동작할 수 있도록 스피치 발화(utterances)들 간의 사일런스 또는 중지(pause)가 인코딩될 수 있고, 불연속적인 방식으로 매우 낮은 레이트로 전송될 수 있다.
위에서 언급한 바와 같이 네트워크들과 3GPP 셀룰러 네트워크들에서 전송된 스피치 프레임은 전송 과정에서 전송된 데이터의 작은 비율만큼 제거될 수 있다.
프레임 손실 은닉(FEC) 알고리즘은 일반적으로 2개의 카테고리로 분류될 수 있다. 하나는 코덱 독립적 FEC 알고리즘과 코덱 종속적 FEC 알고리즘이다. 코덱 독립적 FEC 알고리즘은 특정 코딩 알고리즘의 지식없이도 충분히 적용될 수 있으며, 코덱 종속적 FEC 알고리즘만큼 그 결과가 효율적이다. 코덱 종속적 FEC 알고리즘은 개발 과정에서 코덱과 결합되도록 설계될 수 있으며, 일반적으로 좀더 효과적이다. 본 발명의 일실시예에 따르면, 적어도 하나의 코덱 종속적 FEC 알고리즘을 포함할 수 있으며, 코덱 종속적 FEC 알고리즘과 코덱 독립적 FEC 알고리즘들을 포함할 수 있다.
프레임 손실 은닉(FEC) 알고리즘은 2개의 셋트로 분류될 수 있다. 프레임 손실 은닉(FEC) 알고리즘은 수신기 기반의 FEC 알고리즘 및 송신기 기반의 FEC 알고리즘으로 분류될 수 있다. 수신기 기반의 FEC 알고리즘은 스피치 디코더 및/또는 디코딩부(250)의 지터 버퍼에 단독으로 위치할 수 있다. 그리고, 수신기 기반의 FEC 알고리즘은 디코더를 위해 수신기에서 생성된 프레임 제거 플래그에 의해 촉발(triggered)된다. 디코딩부(250)의 에러 은닉(Error Concealment)은 사일런스 이용, 화이트 노이즈, 파형 대체(waveform substitution), 샘플 보간(sample interpolation), 피치 파형 대체(pitch waveform replacement), 타임 스케일 수정(time scale modification), 지식 또는 이웃 오디오 특징에 기초한 재생성(regeneration) 및/또는 모델로의 에러 또는 손실 중 어느 하나의 스피치 특징에 매칭된 복구(recover)에 기초한 모델을 포함하는 데이터 은닉을 포함할 수 있다.
사용자가 패킷 손실을 인지하는 것을 최소화할 수 있도록 간단한 알고리즘은 제거된 프레임들 또는 이전 좋은 프레임의 반복을 위해서 복원된 오디오(restored audio)에 사일런스 또는 노이즈 대체(noise substitution)를 포함할 수 있다. 프레임 제거의 연속된 스트링(continuing string)을 위해 디코더는 디코딩된 스피치 볼륨을 음소거(mute)할 수 있다. 좀더 향상된 알고리즘은 이전에 수신된 상태가 좋은 스피치 프레임의 특징을 고려하여, 이전에 수신된 상태가 좋은 파라미터들을 보간할 수 있다. 만약 지터 버퍼가 채택되면, 보간 목적을 위해 제거된 프레임의 양측면에서 상태가 좋은 스피치 프레임을 사용할 기회가 있다.
송신기 기반의 FEC 알고리즘은 좀더 리소스를 소비하지만, 수신기 기반의 FEC 알고리즘보다 좀더 강력하다. 송신기 기반의 FEC 알고리즘은 일반적으로 프레임 제거가 발생한 경우에 손실된 프레임의 재구성을 위해 사용하기 위한 리던던트 정보를 사이드 채널을 통해 전송할 수 있다. 송신기 기반의 FEC 알고리즘의 성능은 프라이머리 채널로부터 부가 정보의 전송하는 것과 상관 관계가 없다. 셀룰러 네트워크에서 실시간 스피치 코딩 어플리케이션을 위해 부분적으로 상관 관계를 제거하는 것은 하나 이상의 프레임들에 리던던트 정보를 전송하는 것을 딜레이함으로써 수행될 수 있다. 이것은 전형적으로 딜레이가 제한된 시스템의 전송 경로에서 딜레이를 초래하며, 딜레이는 수신기에 지터 버퍼에 의해 부분적으로 경감될 수 있다. 지터 버퍼는 디코딩부(250)에 포함될 수 있다.
본 발명의 일실시예에 따르면, 수신기에 제공될 부가(side) 또는 리던던시 정보는 원래 스피치 프레임(전체 리던던시)의 완벽한 복사본(copy) 또는 프레임의 임계적(critical) 서브셋(부분 리던던시)을 포함할 수 있다. 선택적인 리던던시는 스피치 프레임들의 선택된 서브셋이 부가 정보와 함께 전송되는 기술을 의미한다. 전체 스피치 프레임 또는 프레임의 서브셋은 선택적인 방식으로 전송될 수 있다.
다른 접근 방식은, 스피치를 두 개의 다른 코덱으로 인코딩하는 것이다. 하나는 일반적인 코딩을 위해 원하는 코덱으로 인코딩하는 것이고, 다른 하나는 낮은 레이트, 낮은 정확도의 코덱으로 인코딩하는 것이다. 본 발명의 일실시예에 따르면 다양한 렌더링이 적용될 수 있다. 부가 채널이 고려된 낮은 레이트 버전으로 인코딩된 스피치가 디코더에 전송될 수 있다.
추가적으로, 본 발명의 일실시예에 의하면, 차등적인 에러 보호(unequal error protection)가 수행될 수 있다. 프레임의 부호화된 비트들은 클래스들로 분류될 수 있다. 클래스 A, B, C는 제거될 비트들 또는 파라미터들의 민감도에 기초하여 결정될 수 있다. 클래스 A에 속하는 비트들 또는 파라미터들의 제거(erasure)는 클래스 C에 속하는 비트들 또는 파라미터들이 손실될 때보다 보이스 품질에 좀더 큰 영향을 끼친다. 부호화된 비트들 또는 파라미터들을 클래스로 분류하는 것은 프레임을 서브 프레임들로 분할하는 것에 참조될 수 있다. 서브 프레임이라는 용어의 사용은 분류된 인코딩된 비트들이 서브 프레임들 각각이 연속적으로 되는 것을 요구하지 않는 것을 의미한다.
송신기 기반의 FEC 시스템에서 수신기는 프레임 제거를 인식하고, 제거된 프레임을 위한 리던던트 부가 정보가 수신되었는 지 여부를 판단할 수 있다. 만약, 부가 정보도 손실된 상황은 수신기 기반의 FEC 시스템에서 부가 정보가 손실되는 것과 동일하다. 그러면, 수신기 기반의 FEC 알고리즘이 적용될 수 있다. 만약, 리던던트 부가 정보가 존재하는 경우, 부가 정보는 수신기가 은닉 목적으로 사용할 수 있는 다른 관련 정보와 손실된 프레임을 은닉하기 위해 사용될 수 있다.
위에서 소개한 바와 같이 EVS 코덱(26)은 다른 동작 모드와 구분되는 High FER 동작 모드를 포함할 수 있다. EVS 코덱(26)의 High FER 동작 모드는 프라이머리 동작 모드가 아니라 사용자가 프레임 손실이 발생하는 일반적인 상황보다 더 자주 경험하는 경우에 선택된다.
이 매커니즘의 성공과 실패는 프레임이 무선 인터페이스를 통해 성공적으로 전송되었는지와 같이 빠른 피드백을 제공하는 것이다. 전체 전송 경로를 수반하는 링크 품질의 피드백은 일반적으로 늦다. 그리고, 피드백은 좀더 높은 계층 통신 또는 모바일과 모바일 간 통화와 같은 경우에서 EVS 코덱(26)들 간에 전념하는 밴드 신호 중 어느 하나를 수반할 수 있다.
본 발명의 일실시예에 따르면, EVS 코덱(26)의 High FER 동작 모드를 위해 FEC 프레임워크가 제공된다. 이 프레임워크는 EVS 코덱(26)의 고정 레이트 모드 및 대역폭에 유효하다. 일실시예에서, 이 FEC 프레임워크는 EVS 코덱(26)의 전체 고정 레이트 모드 및 대역폭에 유효하다. 따라서, 본 발명의 일실시예에 따르면, 프레임워크는 고정 레이트로 인코딩된 프레임들의 부분적 또는 전체적인 리던던시의 전송 방법을 포함할 수 있다.
본 발명의 일실시예에 의하면, 부분적 및 전체적인 리던던시는 High FER 동작 모드 동안 고정된 사이즈의 전송 블록들을 전송할 수 있다. 일반적인 동작 모드에서 High FER 동작 모드로의 전이는 전송 블록 사이즈의 변화를 야기시킨다. 본 발명의 일실시예에 따르면, (1) 고정된 또는 다양한 비트 레이트와 고정된 사이즈의 전송 블록과 함게 부분적(partial), 차등적인(unequal) 또는 전체(full) 리던던시를 사용하거나 또는 (2) 고정된 또는 다양한 비트 레이트와 다양한 사이즈의 전송 블록과 함께 부분적(partial), 차등적인(unequal) 또는 전체(full) 리던던시를 사용할 수 있다.
본 발명의 일실시예에 따르면, 도 1에서 EVS 코덱(26)의 High FER 동작 모드는 선택적인 리던던시의 예시를 나타낸다.
아래에서 설명하듯이, EPS 환경에서 EVS 코덱(26)과 상호 작용하는 2가지 예시가 있다. 여기서 상호 작용이라는 것은 인코딩부(100)가 High FER 동작 모드로 결정할 지 여부를 판단하기 위해 디코딩부(150)에서 인코딩부(100)으로의 피드백을 의미한다. 그리고, 디코딩부(150)는 프레임 제거 레이트를 모니터링함으로써, High FER 동작 모드로 진입할 지 여부를 결정할 수 있다.
만약, 디코딩부(150)가 High FER 동작 모드로 진입하는 것으로 결정하는 경우, 이러한 결정은 오디오 또는 스피치의 다음 프레임을 High FER 동작 모드로 인코딩할 수 있도록 인코딩부(100)로 전송될 수 있다. 유사하게 도 2B에서 볼 수 있듯이, 만약 인코딩부(100) 및 디코딩부(150) 중 어느 하나가 수신된 정보에 기초하여 High FER 동작 모드로 진입할 것으로 결정되면, 단말(200)은 컨퍼런스 콜 또는 VOIP 세션에서 오디오 또는 스피치 데이터를 인코딩하거나 또는 디코딩할 수 있다. 그리고, 단말(200)은 High FER 동작 모드로 다음 프레임을 인코딩할 수 있고, 종단에 위치한 단말(200)이 High FER 모드로 동작할 수 있도록 종단에 위치한 단말(200)에 통지할 수 있다. 또한, 디코더는 프레임과 연관된 시그널링으로부터 프레임이 High FER 모드에 있는 지 여부를 알 수 있다.
EVS 코덱(26)은 4가지의 소스들 중 하나 이상으로 처리된 정보에 기초하여 High FER 동작 모드로 진입할 수 있다. 여기서, 4가지 소스들은 다음과 같다. (1) 물리적 계층에 전송된 하이브리드 자동 반복 요청(Hybrid Automatic Repeat Request: HARQ) 피드백인 패스트 피드백(Fast Feedback: FFB) 정보; (2) 물리적 계층보다 더 높은 계층에 전송된 네트워크 시그널링으로부터 피드백된 슬로우 피드백(Slow Feedback: SFB) 정보; (3) 종단(Far End)에서 EVS 코덱(26)으로부터 인밴드 시그널링된 피드백(In-band Feedback: ISB) 정보; 및 (4) 리던던트 방식(redundant fashion)에 전송될 특정 크리티컬 프레임(specific critical frame)의 EVS 코덱(26)에 의한 선택인 하이 센스티비티 프레임(High Sensitivity Frame: HSF) 정보. 소스 (1) 및 (2)는 EVS 코덱(26)에 독립적인 반면에, 소스 (3) 및 (4)는 EVS 코덱(26)에 의존적이며, EVS 코덱(26)을 위한 특정 알고리즘들을 요구한다.
High FER 동작 모드로 진입할 지 여부를 결정하는 것은, High FER 동작 모드 알고리즘에 기초한다. 본 발명의 일실시에에 따르면, 도 2B의 코딩 모드 설정부(255)는 아래 알고리즘 1에서 도시된 바에 따라, High FER 동작 모드 알고리즘을 수행할 수 있다.
<알고리즘 1>
Figure pat00002
위에서 언급한 바와 같이, 본 발명의 일실시예에 따르면, 도 2B의 코딩 모드 설정부(255)는 4개의 소스들 중 하나 이상으로 처리된 분석 정보에 기초하여 EVS 코덱(26)에 High FER 모드로 진입할 것을 지시할 수 있다. 여기서, 소스들은 다음과 같다. (1) SFB 정보를 이용하여 Ns 프레임들의 계산된 평균 에러 레이트로부터 도출된 SFBavg, (2) FFB 정보를 이용하여 Nf 프레임 평균의 계산된 평균 에러 레이트로부터 도출된 FFBavg, (3) ISB 정보와 각각의 임계값인 Ts, Tf 및 Ti를 이용하여 Ni 프레임들의 계산된 평균 에러 레이트로로부터 도출된 ISBavg.
각각의 임계치를 비교한 결과에 기초하여, 도 2B의 코딩 모드 설정부(255)는 High FER 동작 모드로 진입할 것인지 여부와 선택할 FEC 모드를 결정할 수 있다. 선택된 FEC 모드는 표 6 및 표 7에서 설명된 코딩 타입 및 프레임 분류 결정에 기초한다.
본 발명의 일실시예에 따르면, High FER 동작 모드로 진입하기로 결정하는 것에 종속하여 오디오 또는 스피치 정보를 인코딩하기 위해 추가적으로 High FER 동작 모드에 포함된 복수의 서브 모드들이 존재한다. 여기서, High FER 동작 모드는 복수의 서브 모드들에서 동작하고, 작은 수의 비트들은 선택된 각각의 서브 모드들에 대한 시그널링을 위해 사용된다. 여기서 작은 수의 비트들은 오버헤드 부분이 될 수 있으며, 잠재적으로 현재 또는 미래의 4세대 3GPP 무선 네트워크 방식에서 보유 비트(reserved bit)가 될 수 있다.
본 발명의 일실시예에 따르면, RTP 페이로드에서의 하나의 비트는 High FER 동작 모드를 시그널링하기 위해 요구된다. 이 하나의 비트는 High FER 모드 플래그로 고려된다. 예를 들어, 기존의 AMR-WB에서 RTP 페이로드는 4개의 여분 비트(extra bit)를 가지며, 이러한 비트들은 할당되지 않고 보유된다. 추가적으로 High FER 동작 모드에서 서브 모드들을 시그널링하기 위해 몇몇의 비트들만 보유되는 것이 요구될 수 있다. 이러한 비트들은 FEC 모드 플래그로 고려된다. 이들 비트들은 표 3의 클래스 A에 속하는 비트들을 위한 리던던시와 유사한 방식으로 리던던시로 보호될 수 있다.
송신기 기반의 FEC 알고리즘은 일반적으로 리던던트 정보를 전송하기 위해 부가 채널(side channel)을 사용할 수 있다. 본 발명의 일실시예에 따르면, EVS 코덱(26)의 컨텍스트 및 EPS에서 컨텍스트의 사용 측면에서 비록 예상되는 EVS 코덱이 부가 채널을 제공하지 않더라도 LTE 무선 인터페이스에서 정의된 전송 블록을 효율적으로 사용할 수 있다. 동작 모드들 각각에 대해 아래 표 2는 첫번째 다음으로 큰(next higher) 또는 두번째 다음으로 큰 (second next) 전송 블록 사이즈가 활용 가능한 추가 비트의 개수를 나타낸다. 본 발명의 일실시예에 따르면, 효율적인 동작을 위해 모든 추가 비트들이 사용될 수 있다.
<표 2>
Figure pat00003
프레임 n과 무관한 패킷에 프레임 n과 관련된 리던던트 비트들 또는 파라미터들을 전송함으로써 프레임 손실의 강인성(Robustness)이 수행될 수 있다. 예를 들어, 프레임 n과 관련된 인코딩된 비트들은 패킷 N에서 전송되는 반면, 프레임 n과 관련된 리던던트 비트들은 패킷 N+1에서 전송된다. 이것은 타임 다이버시티(time diversity)로 알려져 있다. 만약, 패킷 N이 제거되고 패킷 N+1이 유효하게 전송되었다면, 리던던트 비트들은 프레임 n을 은닉하거나 또는 재구성하기 위해 사용될 수 있다.
도 3은 본 발명의 일실시예에 따라 대체 패킷(alternate packet)에 제공되는 하나의 프레임을 위한 리던던트 비트들의 예시를 나타낸다. 도 3에서, 제1 패킷은 EVS 코덱(26)에서 High FER 동작 모드가 아닌 일반 동작 모드를 나타낸다. 그리고, AMR-WB 코덱의 RTP 페이로드의 헤더 사이즈와 동일하게 도 3의 RTP 페이로드의 헤더 사이즈는 74 비트이다.
중간 패킷은 High FER 동작 모드에서의 전송 매커니즘을 나타낸다. 그리고, 118개의 FEC 비트들은 이전 프레임 n-1을 위해 패킷에 포함된다. 리던던트 정보가 포함된 중간 패킷은 전송 블록의 사이즈가 472이다. 세번째 패킷은 High FER 동작 모드로 동작하는 패킷의 다음 번에 위치한다. 세번째 패킷은 다시 High FER 동작 모드에서의 전송 매커니즘을 나타내며, 118개의 FEC 비트들이 이전 프레임 n을 위해 패킷에 포함된다. 따라서, 본 발명의 일실시예에 따르면, High FER 동작 모드에서 적어도 하나의 대체 패킷에서의 데이터는 리던던트 정보를 전송하기 위해 사용된다.
도 4는 본 발명의 일실시예에 따라 프레임 n을 위한 리던던시 비트들이 2개의 대체 패킷에 제공되는 것을 도시한다.
도 4에 도시된 바와 같이, 각각의 패킷은 각각의 프레임을 위한 EVS 인코딩된 소스 비트들과 2개의 이전 프레임을 위한 FEC 비트들을 포함할 수 있다. 예를 들어, 패킷 N+2는 EVS 인코딩된 소스 비트들, 프레임 n+1을 위한 FEC 비트들 및 프레임 n을 위한 FEC 비트들을 포함할 수 있다. 다른 방식으로, 프레임 n을 위한 리던던시 비트들은 2개의 이후 N+1 패킷과 N+2 패킷을 통해 전송될 수 있다.
도 5는 본 바명의 일실시예에 따라 프레임 n의 패킷의 이전 또는 이후에 위치한 대체 패킷에 제공되는 프레임 n에 대한 리던던트 비트의 예시를 도시한 도면이다.
도 5를 참고하면, 패킷의 이전 또는 이후 위치에 존재하는 패킷에 리던던시 비트들이 위치하도록 인코더는 딜레이를 위한 여분 프레임을 삽입할 수 있다. 여기서, 리던던시 비트들(redundancy bits)은 타겟 프레임에 대한 EVS 인코딩된 소스 비트들을 포함할 수 있다. 도 5에서와 같이, 디코더에서 인코더로의 추가적인 딜레이가 쉬프트된다. 추가적으로, 도 5와 같이, 시퀀스에서 가장 먼저 제거된 리던던시 비트들보다는 전송이 성공한 시퀀스 내부에서 중간에 제거된 리던던시 비트들의 3개의 제거 결과(triple erasure results)와 같은 제거 패턴이 쉬프트된다. 대체 패킷은 이웃 패킷으로 고려될 수 있으며, 추가 패킷은 중간 패킷의 이전 또는 이후에 위치하는 비-연속적인(non- consecutive) 패킷을 포함할 수 있다. 추가 패킷은 이웃 패킷들로 참조될 수도 있다.
추가적으로 다른 이웃 패킷들에서 리던던시 비트들이 위치하며, 리던던시 비트들은 지각적인 중요도에 기초하여 과부족(more or less) 리던던시가 선택적으로 포함될 수 있다.
따라서, 본 발명의 일실시예에 따르면, 고정 비트 레이트에 대한 High FER 모드는 지각적인 중요도에 따라 좀더 많은, 동일한, 또는 좀더 적은 리던던시로 인코딩된 스피치 비트들을 우선화하고 보호할 수 있는 차등적인 리던던시 보호 개념(unequal redundancy protection concept)을 사용할 수 있다. 예를 들어, 본 발명은 3GPP 코덱인 AMR 및 AMR-WB를 사용하여 인코딩된 비트들을 클래스들로 분류할 수 있다. 예를 들어, 클래스 A, B, C에서 클래스 A에 속하는 비트들은 제거될 때 가장 민감한 비트들을 의미하고, 클래스 C에 속하는 비트들은 제거될 때 가장 덜 민감한 비트들을 의미한다. 어플리케이션이 서킷 스위치된 전송(circuit-switched transport) 또는 패킷 스위치된 전송(packet-switched transport)을 사용하는 지 여부에 의존하여, 이들 비트들을 보호하기 위한 다른 매커니즘이 존재한다.
본 발명의 일실시예에 따르면, 차등적인 리던던시 보호 개념은 인코딩된 소스 비트 뿐만 아니라 추가적인 FEC 부가 정보로 확장될 수 있다. 다른 클래스들에 속하는 비트들은 타임 다이버시티를 이용하여 리던던트 방식으로 전송될 수 있다. 그리고, 비트의 클래스에 따라 리던던시의 양은 변경될 수 있다.
도 6은 본 발명의 일실시예에 따라 소스 비트가 속하는 다른 분류에 기초하여 대체 패킷에 포함된 소스 비트의 차등적인 리던던시를 도시한다. 도 6은 도 3 내지 도 5에 도시된 방법과 다른 방법을 의미한다.
도 6에 도시된 바와 같이, 소스 비트에 대한 3개의 카테고리들이 정의된다. 클래스 A에 속하는 소스 비트들은 3개의 연속적인 패킷을 통해 3번 리던던트하게(redundantly) 전송된다. 그리고, 클래스 B에 속하는 소스 비트들은 2개의 연속적인 패킷을 통해 2번 리던던트하게 전송된다. 또한, 클래스 C에 속하는 소스 비트들은 1번 리던던트하게 전송된다. 도 6에서 N은 패킷 번호를 나타내며, n은 프레임 번호를 나타낸다. 도 6의 예시에서 같은 사이즈를 가진 패킷들 각각은 RTP 페이로드에 추가된 3*A+2*B+C 비트를 포함할 수 있다.
디코딩부(250)과 같이 디코더의 지터 버퍼 깊이(jitter buffer depth)가 충분한 경우, 디코더는 클래스 A에 속하는 소스 비트들 또는 파라미터들을 3번 디코딩할 기회를 가지고, 클래스 B에 속하는 소스 비트들 또는 파라미터들을 2번 디코딩할 기회를 가지며, 클래스 C에 속하는 소스 비트들 또는 파라미터들을 1번 디코딩할 기회를 가진다.
예를 들어, 선택적인 실시예로서, 인코딩된 소스 비트들은 클래스 (A, B) 또는 (A, B, C, D)와 같이 좀더 적거나 좀더 많은 클래스로 분류될 수 있다. 전체 리던던시는 부분 리던던시보다 클래스 C에 속하는 비트들을 추가적으로 전송함으로써 수행될 수 있다. 그리고, 좀더 높은 동작 효율을 위해 클래스 C에 속하는 비트들은 전송되지 않을 수 있다. 그리고, 효율적인 목표를 위해 클래스 A에 속하는 비트들만 전송될 수도 있다.
따라서, 본 발명의 일실시예에 따르면, 현재 프레임의 이전 프레임 또는 이후 프레임인 이웃 프레임에 현재 프레임을 위한 FEC 비트가 추가적으로 포함될 수 있다. 소스 프레임의 비트들은 그것들의 지각적인 중요도와 같은 우선도에 기초하여 카테고리화될 수 있다. 가장 큰 지각적 중요도를 가지거나 또는 손실되었을 때 인간의 귀에 좀더 민감하거나 인지될 수 있는 소스 프레임의 비트들 또는 파라미터들은 좀더 낮은 지각도를 가진 같은 소스 프레임의 비트들 또는 파라미터들보다 좀더 많은 이웃 패킷들을 통해 리던던트하게 전송될 수 있다.
인코더로부터 도출된 부가 정보는 인코딩 알고리즘의 일부가 될 수 있다. 아래에서 구체적으로 설명되는 바와 같이, 부가 정보는 다른 비트들 또는 파라미터들과 같이 리던던트하게 전송될 수 있다.
은닉(concealment) 목적을 위해, 본 발명의 일실시예에 따른 디코더는 도 3 내지 도 6과 같이 인코딩된 소스 비트들의 리던던트 복사본에 대한 이익 뿐만 아니라, 디코더 FEC 알고리즘을 위해 특별히 설계된 FEC 파라미터에 대한 이익을 받을 수 있다. 한가지 예로, ITU-T 스피치 코덱 표준 G.718에서 16개의 FEC 비트들은 코덱의 3개 계층에서 부가 정보로 전송되며, 은닉 목적으로 1개의 계층이 사용된다.
한 가지 예로, 아래 표 3에서는 G.718 코덱과 관련하여 EVS 코덱(26) 및 부가 정보의 6.6Kbps 모드를 사용할 수 있다. EVS 코덱(26)의 6.6K 모드는 132개의 소스 비트들을 포함할 수 있다. 추가적으로, G.718 코덱과 유사하게, FEC 비트를 시그널링하기 위한 2개의 비트와 FEC 부가 정보를 위한 16개의 비트를 추가로 정의할 수 있다. 아래 표는 본 발명의 일실시예에 따라, 우선도에 기초하여 EVS 소스 비트와 FEC 비트를 할당하는 예를 나타낸다.
<표 3>
Figure pat00004
상기 표 3에서 볼 수 있듯이, 전체 45+57+48 비트가 전송될 수 있다. 앞서 설명한 리던던시 방법을 이용하면 각 패킷은 전체 3A+2B+C= 297 비트들과 74 RTP 페이로드 비트들로 구성된 총 371 비트를 포함할 수 있다. 전송 블록의 전체 사이즈 376에서 5비트가 남는다. 그리고, 다른 클래스 A, B, C로 분류된 소스 비트들은 동작 모드에 기초하여 코덱이 CELP(code-excited linear prediction) 코덱으로 동작할 때, 선형 예측 파라미터와 같이 다르게 분류된 스피치의 파라미터를 나타낸다.
따라서, 본 발명의 일실시예에 따라, 한번 High FER 모드로 진입하는 경우, 사용 가능한 대역폭(용량: capacity) 및 FEC 보호(강인성)의 정도에 의존하여 사용 가능한 여러 서브 모드들이 존재한다. 이들 파라미터들은 요구하는 고유한 스피치 품질의 양과 트레이드 오프 관계에 있다. 예를 들어, 대역폭, 품질, 에러 강인성의 서로 다른 우선 순위에 기초하여 6개의 서브 모드들이 존재한다. 아래 표 4는 다양한 서브 모드들의 속성을 나타낸다.
아래 예시와 같이, 클래스 A, B 및 C로 표현되는 소스 비트의 리던던시 전송을 가정하고, 헌신적인(dedicated) FEC 비트들은 없다고 가정한다. 좀더 용이하게, RTP 페이로드의 사이즈는 모든 예에서 74로 가정한다.
<표 4>
Figure pat00005
도 7은 본 발명의 일실시예에 따라 차등적인 리던던시가 적용된 FEC 동작 모드의 예시를 도시한다. 예를 들어, 많은 서브 모드들은 High FER 동작 모드가 아닌 스피치 모드로 수행하는 것과 같이 동일한 EVS 코딩 모드를 사용한다. 이 예에서, 가장 낮은 모드는 효율성 목적을 위해 선택되고, High FER 동작 모드일 때 강인성 및 용량의 우선 순위가 가장 높다. 추가적으로, 같은 EVS 코딩 모드를 사용하는 것은 디코더가 하나의 FEC 코딩 모드를 사용하는 것과 같이 FEC 알고리즘을 단순화 할 수 있다. 선택적으로, 아래에서 설명한 바와 같이 본 발명의 다른 실시예들은 추가적인 코딩 모드를 사용할 수 있다.
도 7에서 볼 수 있듯이, 증가된 리던던시들을 수용할 수 있도록 사이즈가 좀더 큰 패킷을 위해 서브 모드 1에서 서브 모드 6으로 서브 모드 과정이 증가한다.
도 11은 본 발명의 일실시예에 따라 High FER 동작 모드의 다른 FEC 모드를 이용하여 오디오 데이터를 코딩하는 방법을 도시한다.
도 11에 도시된 바와 같이, 단계(1105)에서 입력 오디오는 분석될 수 있으며, 입력 오디오는 스피치 오디오(speech audio)인지 또는 넌 스피치 오디오(non-speech audio)인지 여부가 결정될 수 있다. 만약 입력 오디오가 넌 스피치 오디오인 경우, 단계(1110)에서 입력 오디오는 넌 스피치 코덱으로 인코딩되거나 또는 넌 스피치 모드의 EVS 코덱(26)으로 인코딩될 수 있다. 만약, 입력 오디오가 스피치 오디오인 경우, 단계(111)에서 High FER 동작 모드로 진입할 것인지 여부를 판단할 수 있다. High FER 동작 모드로 진입할 것인지 여부를 판단하는 것은 앞서 설명한 알고리즘 1과 관련된다.
만약, 단계(1115)에서 High FER 동작 모드로 진입하는 것으로 결정되지 않는다면, 단계(1120)에서 앞서 설명한 표 1의 동작 모드들 중 하나가 EVS 코덱(26)을 위해 선택될 수 있다. 단계(1120)에서, 한번 스피치 인코딩을 위한 동작 모드가 선택되면, 단계(1130)에서 스피치 인코딩을 위해 선택된 동작 모드에 따라 입력 오디오가 인코딩딜 수 있다. 만약, 단계(1115)에서 High FER 동작 모드로 진입하는 것으로 결정되면, 단계(1125)에서 다양한 FEC 동작 모드들 중에서 하나의 FEC 동작 모드가 선택될 수 있다. 그래서, 단계(1135)에서, 입력 오디오는 선택된 FEC 동작 모드로 EVS 코덱(26)을 이용하여 인코딩될 수 있다.
유사하게, 도 14는 본 발명의 일실시예에 따라, High FER 동작 모드에서 다른 FEC 모드들을 사용하여 오디오 데이터를 디코딩하는 과정을 도시한다. 단계(1405)에서, 수신된 패킷 내부에 존재하는 인코딩된 프레임이 스피치 오디오 또는 넌 스피치 오디오에 기초하여 인코딩되었는 지 여부를 판단할 수 있다. 만약, 인코딩된 프레임이 넌 스피치 오디오인 경우, 단계(1410)에서, EVS 코덱(26)이 적절한 동작 모드를 이용하여 넌 스피치 오디오를 디코딩할 수 있다.
만약, 수신된 패킷에 인코딩된 스피치 데이터가 포함된 경우, 단계(1415)에서, 패킷은 스피치 디코딩을 위한 동작 모드를 결정하기 위해 파싱될 수 있다. 여기서, 동작 모드는 프레임이 High FER 동작 모드로 인코딩되었는 지 여부를 결정할 수 있다. 예를 들어, High FER 모드 플래그가 수신된 패킷에 설정되어 있지 않아서 프레임이 High FER 동작 모드로 인코딩되지 않은 경우, 단계(1420)에서, 스피치 디코딩을 위한 적절한 동작 모드가 선택되고, EVS 코덱(26)은 선택된 동작 모드로 스피치 디코딩을 수행할 수 있다. 만약, 프레임이 High FER 동작 모드로 인코딩되었다면, 단계(1425)에서, 프레임을 인코딩할 때 어떤 FEC 동작 모드가 사용되었는 지 여부를 판단하기 위해 패킷이 파싱될 수 있다. EVS 코덱(26)은 판단된 FEC 동작 모드에 기초하여 프레임을 디코딩할 수 있다.
여기, 본 발명의 일실시예에 따르면, 도 14의 방법은 단계(1405)와 단계(1405)가 동작하기 이전 도는 동작하는 동안 판단하는 단계를 더 포함할 수 있다. 구체적으로, 패킷이 손실되었는 지 여부를 판단하는 단계가 더 포함될 수 있다. 이와 같은 판단은, 본 발명의 일실시예에 따라, 이웃 패킷들에 포함된 리던던트 정보에 기초하여 손실된 패킷을 재구성(reconstruct)하거나 또는 손실된 패킷을 은닉(conceal)하기 위해 FEC 프레임워크에 기초하여 이전 패킷들 또는 이후 패킷들에서 리던던트 정보를 사용하도록 EVS 코덱(26)으로의 명령을 포함할 수 있다.
도 7와 다른 전송 블록 사이즈를 대체하기 위해, 일반적인(regular) 전송 모드로 사용되는 거과 같은 복수의 동작 모드를 위해 같은 전송 블록 사이즈가 유지될 수 있다. 이러한 경우, EPS 시스템이 패킷 사이즈의 변경을 시그널링할 필요가 없는 것이 아니라, High FER 모드에서 여러 EVS 코덱(26)의 동작 모드들을 이용할 단점이 없다는 것을 의미한다. 좀더 많은 코덱 모드들을 사용할수록 은닉 알고리즘은 좀더 복잡해진다.
도 8은 본 발명의 일실시예에 따라 같은 전송 블록 사이즈를 가진 High FER 동작 모드에서 다른 FEC 동작 모드를 도시한 도면이다. 여기서, 다른 FEC 동작 모드들은 High FER 동작 모드의 서브 모드들로 고려될 수 있다. 이 예에서, EVS 코덱(26)의 12.65Kbps는 일반적인 non High FER 동작 모드의 일례로 사용될 수 있다. High FER 동작 모드의 서브 모드 1-4 각각은 같은 전송 블록 사이즈 328을 유지한다. 낮은 소스 코딩 비율에 의해 리던던시의 증가가 수반(accompany)될 수 있다.
서킷 스위치된 전송에서, 멀티 모드 AMR 및 AMR-WB 코덱과 같이 다른 3GPP 코덱들에 의해 사용되는 이전의 방법과 달리 채널 조건에 기초하여 좀더 낮거나 증가된 비트 레이트로 모드가 스위치될 수 있다. 도 8은 추가적인 리던던시 또는 FEC 비트들이 포함되거나 또는 프레임 패킷 사이즈가 유지될 수 있도록 다른 서브 모드들에서 비트레이트가 감소되는 것을 도시하고 있다.
도 12는 본 발명의 일실시예에 따라 모든 FEC 동작 모드를 위해 같은 비트레이트 또는 패킷 사이즈들로 유지할 지 여부에 기초한 FEC 프레임워크를 도시한 도면이다.
도 12에 도시된 바와 같이, 단계(1125)에서 FEC 동작 모드가 선택되고, 단계(1125)에서 EVS 코덱(260)은 선택된 FEC 동작 모드에 따라 수행할 수 있다. 도시된 바와 같이, 단계(1125)에서, 단계(1220) 또는 단계(1230)에 의해 표현된 FEC 동작 모드들 중 하나를 직접적으로 선택하거나 또는 단계(1210)에서 같은 비트 레이트 또는 같은 패킷 사이즈가 결정되면, 단계(1220)가 수행되고, 다른 비트 레이트 또는 다른 패킷 사이즈가 결정되면, 단계(1230)가 수행된다.
도 7와 유사하게 단계(1230)가 고려될 수 있다. 여기서, 패킷 사이즈들은 다양하게 변경가능하다. 그리고, 단계(1220)에서, 이웃 프레임들로부터 추출된 인코딩된 EVS 소스 비트들은 현재 패킷의 인코딩된 EVS 소스 비트들의 감소된 레이트 모드에 추가될 수 있다. 구체적으로, 단계(1220)에서, EVS 비트레이트는 낮은 비트레이트 모드로 변경될 수 있다. 이 경우, 이웃 프레임으로부터 추출한 소스 비트는 원래의 동작 모드와 패킷 사이즈를 동일하게 유지하기 위해서 추가될 수 있다. 단계(1220)에서, EVS 비트레이트는 원래 동작 모드와 동일하게 유지될 수 있다. 이 경우, 이웃 프레임으로부터 추출한 소스 비트는 패킷 사이즈와 무관하게 추가될 수 있다.
단계(1240)에서, High FER 동작 모드에 진입하고 FEC 동작 모드가 선택되면 FEC 부가 정보는 인코딩된 프레임의 패킷에서 플래그로 반영된다. High FER 동작 모드는 패킷 내부에서 하나의 비트를 이용하여 설정되고, 선택된 FEC 동작 모드는 2~3개의 비트를 이용하여 설정될 수 있다.
이웃 프레임으로부터 도출된 모든 정보는 리던던시 정보이다. 리던던시 정보는 현재 패킷에서 전송된다. 현재 프레임과 연관된 리던던시 정보는 인접한 이웃 패킷을 통해 전송된다. 만약, 같은 비트 레이트를 유지하기 위해서는 리던던시 비트를 수용할 수 있도록 패킷 사이즈가 증가할 수 있다. 그리고, 같은 패킷 사이즈를 유지하기 위해 소스 비트의 개수가 감소하도록 코딩 모드가 변경될 수 있다.
본 발명의 일실시예에 따르면, High FER 동작 모드로 진입한 후에 코드북 "robbing"을 수반하여 같은 전송 블록 사이즈를 유지할 수 있다. 그리고, 코드북은 표 4 및 도 8의 서브 모드 1과 유사하게 리던던시의 작은 양을 제공할 때 유용하다. EVS 코덱(26)은 서브 프레임들로 분할될 수 있으며, 각 서브 프레임에 대해 복수의 코드북 비트들이 파라미터로 계산될 수 있다. 아래 표 5에 도시된 바와 같이 코드북 비트의 개수는 인코딩 모드에 따라 다르게 결정될 수 있다.
<표 5>
Figure pat00006
본 발명의 일실시예에 있어서, 만약 EVS 코덱(26)의 일반적인 동작 모드가 12.65Kbps이라면, High FER 동작 모드로 진입하는 것과 같이 일반적인 동작 모드는 유지된다. 인코더가 4개의 서브 프레임들중 하나에 대해 High FER 동작 모드로 동작하면, 동작 모드가 실제로 12.65Kbps이더라도 동작 모드가 8.85Kbps로 동작하는 것과 같이 코드북 비트를 계산할 수 있다. 서브 프레임들은 프레임의 오디오를 표현하는 프레임의 비트들 또는 파라미터들에 의해 표현될 수 있다. 파라미터들은 코덱이 CELP 코덱으로 동작할 때 코덱에 의해 생성되는 CELP(code-excited linear prediction) 코딩의 선형 예측 파라미터를 포함할 수 있다.
위에서 언급한 표 5와 같이, 12.65Kbps 동작 모드에 따라 코드북 비트가 계산된다면, 요구되는 36비트 대신에 1번째 내지 3번째 서브 프레임들의 비트에 대해 코드북을 정의하기 위해 20비트가 사용될 수 있다. FEC 목적을 위해 코드북 "robbing"을 이용함으로써 16비트가 절약될 수 있다. FEC 비트의 전송은 같은 개수의 비트가 존재하기 때문에 원래 동작 모드와 같이 같은 패킷 사이즈에서 수행될 수 있다. 대부분의 High FER 동작 모드의 서브 모드와 같이 이러한 접근과 연관된 약간의 품질 열화가 존재한다.
표 4 및 도 8의 접근과 다르게, High FER 동작 모드의 서브 모드들 각각에 대해 소스 코딩을 수행하는 코덱을 위해서 비트 레이트는 순차적으로 감소할 수 있다. 표 5에 의하면, 비트 레이트가 감소된 비트레이트인 경우, 비트 레이트들은 감소시킬 뿐만 아니라 코드워드를 계산할 필요가 없다. 도 8에 도시된 FEC 정보는 도 1 내지 도 6에서 설명되는 것과 유사한 리던던시를 포함할 수 있다. 상기 리던던시는 상기 표 3에서 설명된 차등적인 리던던시를 포함할 수 있다. 여기서, 분할된 서브 프레임들은 각각 표 3에서 A, B, 또는 C 각각을 위해 사용될 수 있다. 여기서, 좀더 중요한 서브 프레임들 또는 파라미터들은 다른 서브 프레임들 또는 파라미터들보다 좀더 많은 리던던시를 갖는다.
도 13은 본 발명의 일실시예에 따라 FEC 동작 모드의 3가지 예시를 도시한다. 표 3 및 도 6에서 고려한 바와 같이, 프레임의 비트들 또는 파라미터들은 지각적 중요도에 따라 클래스들로 분류될 수 있다. 따라서, 단계(1310)에서 비트들을 다른 클래스들 또는 서브 프레임들로 분류하기 위해 프레임들은 분할되거나 또는 분리될 수 있다. 그리고, 단계(1315)에서, 각 클래스 또는 서브 프레임에 대한 리던던트 정보는 도 6 및 도 7과 같이 이웃 프레임에 차등적으로(unequally) 제공될 수 있다.
단계(1320)에서 분할되거나 또는 분리된 비트들 또는 파라미터들 각각에 대해 코드북 비트들의 개수가 계산될 수 있다. 프레임의 동작 모드에 대한 비트 레이트보다 작은 비트 레이트로 인코딩되기 위해서, 비트들 또는 파라미터들은 클래스와 서브 프레임들로 분류될 수 있다. 따라서, 단계(1330)에서, 계산된 코드북 비트의 개수에 기초하여 정의된 코드워드들은 인코딩될 수 있다.
추가적으로 단계(1340)에서, 정의된 코드워드들을 고려할 때 도 6 및 도 7과 유사하게 인코딩된 클래스들 또는 서브 프레임들의 리던던트 정보는 이웃 패킷에 차등적으로 제공될 수 있다.
앞서 설명한 도 3 내지 도 8 및 표 3 내지 5의 High FER 동작 모드는 스피치 프레임이 비트들의 클래스 또는 파라미터들의 클래스로 분류하기 위해 이용될 수 있다. 비트들의 클래스 또는 파라미터들의 클래스는 제거될 수 있는 비트들 또는 파라미터들의 지각적 중요도에 따라 구분될 수 있다.
그러나, G.718 코덱 및 예상된 EVS 후보 코덱을 포함하는 몇몇의 스피치 코덱에서, 입력 스피치 프레임은 스피치 타입에 의존하여 다양한 코딩 타입으로 코딩될 수 있다. G.718 코덱 및 예상된 EVS 후보 코덱 모두에서, 인코딩된 스피치 프레임들은 FEC 목적을 위해 추가적으로 분류될 수 있다. 이들 프레임들의 분류는 스피치 프레임의 시퀀스에서 코딩 타입 및 스피치 프레임의 위치에 기초한다.
예를 들어, 광대역 스피치를 위해 아래 표 6에 도시된 바와 같이 G.718 코덱 및 예상된 EVS 후보 코덱에서 4개의 코딩 타입이 사용될 수 있다.
<표 6>
Figure pat00007
G.718 코덱에 따르면, 코딩 타입 정보는 부가 채널을 통해 전송될 수 있다. 부가 채널은 예상된 EVS 후보 코덱에서 현재 사용가능하지 않다. 부가 채널의 부족을 극복하기 위해, G.718 코덱의 접근과 유사한 부가 정보는 앞서 설명한 컨셉과 표 3에서 설명한 컨셉을 이용하여 FEC 비트로 전송될 수 있다. 특정 프레임의 분류 타입이 인접한 프레임의 분류 타입에 종속하면, 5개의 코딩 타입들은 미리 설정된 개수의 비트들로 시그널링될 수 있다. 본 발명의 일실시예에 따르면, 표 7에 도시된 코딩 타입들이 도시된다.
<표 7>
Figure pat00008
위에서 언급하 바와 같이, 도 6에 도시된 다양한 패킷 구조들은 지각적인 중요도를 고려하여 다양한 양의 리던던시를 가진 스피치 프레임을 전송하기 위해 사용될 수 있다. 프레임의 지각적 중요도는 표 6에 도시된 코딩 타입, 표 7에 도시된 프레임 분류 또는 인접한 프레임들에서 보여지는 어떤 알고리즘 중 어느 하나로부터 결정된다. 그리고, 프레임의 지각적 중요도는 인접한(adjacent) 프레임들 간에 리던던시 비트들에 대한 최적의 트레이드-오프를 결정할 수 있다.
본 발명의 일실시예에 따르면, 도 6의 접근 방식, 표 6의 코딩 타입 및 표 7의 프레임 분류를 고려하여, 코딩 타입 또는 프레임 분류에 기초하여 사용될 수 있는 다양한 양의 리던던시를 가진 스피치 프레임을 전송할 수 있도록, 도 6의 패킷 구조가 제한될 수 있다. 본 발명의 일실시예에 따르면, 상기 제한은 클래스 A의 개수는 클래스 C의 개수와 동일한 것일 수 있다.
이러한 접근에 따라 리던던시를 전송할 때 사용되는 4가지 서브 타입들이 도 9에 도시된다.
도 9는 본 발명의 일실시예에 따라 클래스 A의 개수와 클래스 C의 개수가 동일하다는 제약에 기초하여 리던던시를 전송할 때 사용될 수 있는 패킷의 4가지 서브 타입들을 도시한다.
예를 들어, 도 9의 패킷 타입 1은 도 6의 리던던시의 전송에서 사용되는 것과 같이 같은 패킷 배열이다. 예를 들어, 도 6의 패킷 N에 대하여 인코딩된 소스 비트 An, Bn, Cn, An-1, Bn-1, 및 An-2가 사용될 수 있다.
도 10은 본 발명의 일실시예에 따라, 온셋 프레임에 향상된 보호를 제공하는 다양한 패킷 서브 타입들을 도시한다.
도 9에 도시된 4가지 패킷 서브타입으로부터 데이터 패킷 서브 타입을 선택함으로써, 인코딩된 스피치 프레임들은 각각의 프레임에 대한 지각적 중요도에 의존하여 좀더 높은 또는 좀더 낮은 리던던시 보호를 위해 선택될 수 있다. 도 10은 온셋 프레임(인접한 프레임의 비용에서)의 향상된 보호(enhanced protection)를 제공하기 위해 다양한 패킷 서브 타입들이 사용될 수 있다.
도 10의 예시에서, 패킷 N-1은 온셋 프레임을 포함한다. 온셋 프레임은 지각적인 관점에서 제거될 때 가장 민감도가 높은 것으로 알려진 프레임을 의미한다. 프레임 n-1의 리던던시 보호를 위해 패킷 N 및 패킷 N+1이 사용된다. 따라서, 패킷 N은 서브 타입 0이 선택되고, 패킷 N+1은 서브 타입 3이 선택된다. 프레임 n-1의 향상된 리더던시 보호의 결과가 도시된다.
도 10에서 도시된 바와 같이, 프레임 n-1은 패킷 N-1, 패킷 N 및 패킷 N+1을 통해 전체적으로 3차례 연속적으로 전송될 수 있다. 증가된 보호는 프레임 n-1 및 프레임 n의 보호에 대한 비용으로 나타난다. 일반적으로 프레임 n-1이 온셋이면, 프레임 n-2는 상대적으로 낮은 보호가 필요한 언보이스된 프레임이다. 본 발명의 일실시예에 따르면, 2개의 시그널링 비트를 전송하기 위해 4개의 패킷 서브 타입이 사용될 수 있다. 예를 들어, 표 3에 도시된 바와 같이 이들 시그널링 비트들은 클래스 A에 속하는 FEC 비트들과 같이 전송될 수 있다.
위에서 본 바와 같이, 도 2A와 도 2B는 FEC 알고리즘을 통해 오디오 데이터를 인코딩 또는 디코딩할 수 있는 하나 이상의 단말(200)을 포함할 수 있다. 단말(200)은 도 1과 같이 EPS 및/또는 EVS 코덱(26)에서 수행될 수 있다. 대체적인 환경(alternative environment)과 코덱들은 동등하게 사용될 수 있다.
추가적으로 본 발명의 일실시예에 따른 도 2B의 단말(200)은 소스 단말, 수신기 단말, 또는 인코딩과 디코딩 동작을 수행할 수 있는 중간 인코딩/디코딩 단말, 디코딩 단말(150) 또는 네트워크(140)에 의해 제공된 2개의 단말들간 네트워크 경로를 포함할 수 있다. 하나 이상의 실시예에 따르면, 단말(200)은 다른 프로토콜로 다른 네트워크 타입을 통해 오디오 데이터를 수신하거나 전송할 수 있다. 여기서, 다른 네트워크 타입들은 유선 전화 통신 시스템, 셀룰러 전화 또는 데이터 통신 네트워크, 또는 무선 휴대폰 또는 데이터 통신 네트워크를 포함할 수 있다. 본 발명의 일실시예에 따르면, 단말(200)은 VoIP 어플리케이션 및 시스템을 포함할 뿐만 아닐 실시간 브로드캐스팅, 멀티캐스트 브로드캐스팅 및 시간 지연, 저장 또는 스트리밍된 오디오 어플리케이션 및 시스템을 통한 원격 컨퍼런스 어플리케이션 및 시스템을 포함할 수 있다. 인코딩된 오디오 데이터는 이후 재생을 위해 기록될 수 있고, 스트리밍된 브로드캐스트 또는 저장된 오디오 데이터로부터 디코딩될 수 있다.
본 발명의 일실시예에 따르면, 하나 이상의 단말(200)은 유선 휴대폰, 모바일 폰, PDA, 스마트폰, 테블릿 컴퓨터, 셋탑 박스, 네트워크 단말, 랩탑 컴퓨터, 데스크탑 컴퓨터, 서버, 라우더 또는 게이트웨이를 포함할 수 있다. 단말(200)은 DSP(digital signal processor)와 MCU(Main Control Unit) 또는 CPU와 같은 프로세싱 장치들 중 적어도 하나를 포함할 수 있다.
본 발명의 일실시예에 따르면, 무선 네트워크는 블루투스(bluetooth) 또는 적외선 통신과 같은 WPAN(Wireless Personal Area Network), 무선 랜(IEEE 802.11과 같음), 무선 대도시 네트워크(Wireless Metropolitan Area Network), 802.16e와 같은 WiMax 네트워크, 802.16e와 같은 WiBro 네트워크, 네트워크, Global System for Mobile Communications (GSM), Personal Communications Service (PCS) 및 어떠한 3GPP 네트워크를 포함할 수 있다.
유선 네트워크는 지상 또는 위상 기반의 전화 네트워크, 케이블 TV, 인터넷 접속, 광섬유 통신, 도파로, 이더넷 통신 네트워크, ISDN(Integrated Services Digital Network), DSL(Digital Subscriber Line) 네트워크, HDSL(High bit rate Digital Subscriber Line) 네트워크, Symmetric Digital Subscriber Line (SDSL) 네트워크, Asymmetric Digital Subscriber Line (ADSL) 네트워크, local exchange carriers (ILECs)와 관련된 Rate-Adaptive Digital Subscriber Line (RADSL) 네트워크, VDSL 네트워크, 및 스위치된 디지털 서비스(Non-P 및 POTS 시스템을 포함할 수 있다.
네트워크(140)과 통신할 수 있는 소스 단말은 네트워크(140)와 통신할 수 있는 수신 단말과 다르다. 그리고, 오디오 데이터는 오디오 소스와 오디오 수신기(140) 간의 경로를 통해 특정 포인트에서 단말과 2개 이상의 다른 네트워크를 통해 통신할 수 있다. 본 발명의 일실시예에 따르면, 오디오 데이터의 인코딩, 전송, 저장 및/또는 디코딩은 FEC 정보를 가질 수 있다. 그리고, 오디오 데이터는 전송 프로토콜에 적합한 패킷으로 감싸질 수 있다.
전송 프로토콜은 RTP 패킷, 또는 HTTP 패킷을 지원할 수 있다. RTP 패킷 또는 HTTP 패킷 각각은 적어도 하나의 헤더, 컨텐츠 테이블 및 페이로드 데이터를 각각 가질 수 있다. 예를 들어, RTP 패킷 또는 HTTP 패킷은 각각 TCP protocol, UDP protocol, Cyclic UDP protocol, DCCP protocol, Fiber Channel Protocol, NetBIOS protocol, Reliable Datagram Protocol, RDP, SCTP protocol, Sequenced Packet Exchange (SPX), Structured Stream Transport (SST), VSP protocol, Asynchronous Transfer Mode (ATM), Multipurpose Transaction Protocol (MTP/IP), Micro Transport Protocol (μTP), 및/또는 LTE일 수 있다.
본 발명의 일실시예에 따르면, 디코딩 단말(150)과 인코딩 단말(100) 간의 QoS 통신을 포함할 수 있다. QoS는 RTCP 또는 오디오 데이터 전송 경로에서 벗어난 경로를 포함하는 어떠한 경로 또는 프로토콜을 통해 전송될 수 있다. QoS는 데이터 패킷에 포함된 에러 체크 코드에 기초하여 결정될 수 있다. 본 발명의 일실시예에 따르면, QoS에 기초하여 FEC 모드를 변경할 수 있다. 그리고, FEC 모드를 적용함으로써 코딩 비트 레이트와 코딩 모드를 변경할 수 있다.
본 발명의 일실시예에 따르면, FEC 방식을 적용할 지 여부 및/또는 어떠한 FEC 모드를 적용할 것인지를 결정하기 위해 QoS를 비교하기 위한 하나 이상의 임계치를 사용할 수 있다. 각각의 비교를 위한 하나 이상의 임계치가 존재한다. 그리고, QoS가 특정 임계치(Th1)보다 작거나 또는 작거나 같으면, 임계치들은 FEC 모드가 보다 신뢰성이 있는지, 감소되어야 하는지, 또는 증가되어야 하는지를 조절할 필요가 있는 지를 나타낸다. 그리고, QoS가 특정 임계치(Th2)보다 크거나 또는 크거나 같다면, 임계치는 비트 레이트와 FEC 모드가 신뢰성이 부족한지, 감소되어야 하는지 또는 증가되어야 하는지를 조절할 필요가 있는지를 나타낸다. 여기서, 임계치 Th1과 Th2는 동일할 수 있다.
본 발명의 일실시예에 따르면, 인코딩 단말(100)과 디코딩 단말(150)은 FEC 접근을 이용하여 오디오 데이터를 코딩하기 위해 사용되는 오디오 코덱을 포함할 수 있다. 오디오 코딩은 LPC (LAR, LSP), WLPC, CELP, ACELP, A-law, μ-law, ADPCM, DPCM, MDCT, Bit rate control (CBR, ABR, VBR), 및/또는 Sub-band 코딩을 이용한 하나 이상의 알고리즘을 사용할 수 있다. 그리고, FEC 접근을 이용하는 오디오 코덱은 AMR, AMR-WB (G.722.2), AMR-WB+, GSM-HR, GSM-FR, GSM-EFR, G.718, 및 EVS 코덱을 포함하는 어떠한 3GPP 코덱을 포함할 수 있다. 본 발명의 일실시예에서, 사용되는 코덱은 이전 버전의 코덱과 역으로 상호호환성을 가질 수 있다.
인코딩 단말(100)에 의해 생성된 인코딩된 오디오 데이터 패킷은 인코더 측의 하나 이상의 코덱(120)에 의해 인코딩된 오디오 데이터를 포함할 수 있다. 인코딩된 오디오 데이터 패킷은 인코더에 의해 다운믹스된 모노 신호인 super wideband audio (SWB), 인코더에 의해 다운믹스된 binaural stereo audio data, 풀 밴드(FB) 오디오 및/또는 멀티 채널 오디오를 포함할 수 있다. 본 발명의 일실시예에 따르면, 인코딩 과정은 같거나 또는 다른 비트 레이트로 다른 타입의 오디오 데이터를 인코딩할 수 있다. 본 발명의 일실시예에 따르면, 디코딩 단말(150)은 인코딩된 오디오 데이터 패킷과 같이 유사하게 파싱될 수 있다.
따라서, 본 발명의 일실시예에 따르면, 단말(200)은 통신 경로에서 제한된, 멀티 레이트 및 다양한 인코딩 또는 번역(translation)을 수행하는 코덱을 포함할 수 있다. 그리고, 단말(200)은 같은 샘플링 레이트 또는 다른 샘플링 레이트를 가지는 다중 레이어 또는 향상된 레이어에서 스케일러블 코딩을 수행할 수 있다. 그리고, 디코더는 지터 버퍼를 포함할 수 있다. 인코더 측면의 코덱(120)은 공간 파라미터 추정 및 모노 또는 바이노럴 다운믹싱을 포함할 수 있다. 상기 리스팅된 오디오 코덱들 중 하나 이상은 하나 이상의 다른 오디오 데이터를 생성할 수 있다. 그리고, 디코더 측면의 코덱(150)은 추정된 파라미터의 디코딩에 기초하여 대응하는 코덱, 모노 또는 바이노럴 업믹싱 및 공간 렌더링을 포함할 수 있다.
본 발명의 일실시예에 따르면, 어떤 장치, 시스템 및 유닛의 설명은 하나 이상의 하드웨어 장치 또는 하드웨어 프로세싱 요소를 포함할 수 있다. 예를 들어, 본 발명의 일실시예에서, 설명된 장치, 시스템 및 유닛은 추가적으로 메모리들, 하드웨어 입출력 전송 장치를 포함할 수 있다. 그리고, 장치는 물리적인 시스템의 구성 요소와 동의 관계에 있다는 것으로 고려될 수 있다. 하지만, 장치는 하나의 디바이스로 제한되거나 한정 해석되지 않는다. 그리고, 모든 설명된 구성 요소는 하나의 각각의 보호범위 내에 포함될 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 단말
120: 인코더/디코더
130: 사용자 인터페이스
140: 네트워크
160: 디코더/인코더
170: 사용자 인터페이스

Claims (4)

  1. 코덱의 동작 모드를 설정하는 동작 모드 설정부; 및
    상기 동작 모드가 High FER(Frame Erasure Rate) 모드일 때, 복수의 FEC(frame erasure concealment) 모드 중 적어도 하나의 FEC 모드에 따라 현재 프레임의 부분적인 리던던트 데이터(partial redundant data)를 생성하는 코덱을 포함하고,
    상기 현재 프레임의 부분적인 리던던트 데이터는 인접 프레임의 코딩된 데이터와 함께 패킷을 통해 전송되며,
    상기 부분적인 리던던트 데이터의 비트 수는 입력 신호의 특성에 따라 가변적이고,
    상기 인접 프레임의 코딩된 데이터의 비트 수는 가변적이고, 상기 부분적인 리던던트 데이터의 비트 수와 상기 인접 프레임의 코딩된 데이터의 비트 수의 합은 미리 결정된 값과 동일하며,
    상기 현재 프레임의 부분적인 리던던트 데이터와 상기 인접 프레임의 코딩된 데이터를 포함하는 패킷의 크기는, 인접 패킷의 크기와 동일하며,
    상기 High FER 모드는, 프레임 제거 비율이 기 설정된 값보다 클 때 설정되는 것을 특징으로 하는 단말기.
  2. 제1항에 있어서,
    상기 High FER 모드는, 3GPP 표준의 EVS(Enhanced Voice Services) 코덱을 위한 동작 모드인 것을 특징으로 하는 단말기.
  3. 단말에 의한 오디오 신호의 부호화 방법에 있어서,
    코덱의 동작 모드를 설정하는 단계; 및
    상기 동작 모드가 High FER(Frame Erasure Rate) 모드일 때, 복수의 FEC(frame erasure concealment) 모드 중 적어도 하나의 FEC 모드에 따라 현재 프레임의 부분적인 리던던트 데이터(partial redundant data)를 생성하는 단계를 포함하고,
    상기 현재 프레임의 부분적인 리던던트 데이터는 인접 프레임의 코딩된 데이터와 함께 패킷을 통해 전송되며,
    상기 부분적인 리던던트 데이터의 비트 수는 입력 신호의 특성에 따라 가변적이고,
    상기 인접 프레임의 코딩된 데이터의 비트 수는 가변적이고, 상기 부분적인 리던던트 데이터의 비트 수와 상기 인접 프레임의 코딩된 데이터의 비트 수의 합은 미리 결정된 값과 동일하며,
    상기 현재 프레임의 부분적인 리던던트 데이터와 상기 인접 프레임의 코딩된 데이터를 포함하는 패킷의 크기는, 인접 패킷의 크기와 동일하며,
    상기 High FER 모드는, 프레임 제거 비율이 기 설정된 값보다 클 때 설정되는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  4. 하드웨어와 결합하여 제3항의 부호화 방법을 실행하기 위한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
KR1020200053476A 2011-04-11 2020-05-04 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치 KR20200050940A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201161474140P 2011-04-11 2011-04-11
US61/474,140 2011-04-11
US13/443,204 US9026434B2 (en) 2011-04-11 2012-04-10 Frame erasure concealment for a multi rate speech and audio codec
US13/443,204 2012-04-10

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190073157A Division KR20190076933A (ko) 2011-04-11 2019-06-19 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20200050940A true KR20200050940A (ko) 2020-05-12

Family

ID=47007092

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020120037625A KR20120115961A (ko) 2011-04-11 2012-04-11 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치
KR1020190073157A KR20190076933A (ko) 2011-04-11 2019-06-19 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치
KR1020200053476A KR20200050940A (ko) 2011-04-11 2020-05-04 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020120037625A KR20120115961A (ko) 2011-04-11 2012-04-11 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치
KR1020190073157A KR20190076933A (ko) 2011-04-11 2019-06-19 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치

Country Status (6)

Country Link
US (5) US9026434B2 (ko)
EP (2) EP2684189A4 (ko)
JP (2) JP6386376B2 (ko)
KR (3) KR20120115961A (ko)
CN (3) CN105161115B (ko)
WO (1) WO2012141486A2 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107197488B (zh) * 2011-06-09 2020-05-22 松下电器(美国)知识产权公司 通信终端装置、通信方法以及集成电路
US8914713B2 (en) * 2011-09-23 2014-12-16 California Institute Of Technology Erasure coding scheme for deadlines
US9275644B2 (en) * 2012-01-20 2016-03-01 Qualcomm Incorporated Devices for redundant frame coding and decoding
US9236053B2 (en) * 2012-07-05 2016-01-12 Panasonic Intellectual Property Management Co., Ltd. Encoding and decoding system, decoding apparatus, encoding apparatus, encoding and decoding method
CN103812824A (zh) * 2012-11-07 2014-05-21 中兴通讯股份有限公司 音频多编码传输方法及相应装置
WO2014077254A1 (ja) * 2012-11-15 2014-05-22 株式会社Nttドコモ 音声符号化装置、音声符号化方法、音声符号化プログラム、音声復号装置、音声復号方法及び音声復号プログラム
WO2014108738A1 (en) * 2013-01-08 2014-07-17 Nokia Corporation Audio signal multi-channel parameter encoder
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US10199044B2 (en) * 2013-03-20 2019-02-05 Nokia Technologies Oy Audio signal encoder comprising a multi-channel parameter selector
US9313250B2 (en) * 2013-06-04 2016-04-12 Tencent Technology (Shenzhen) Company Limited Audio playback method, apparatus and system
CN104282309A (zh) 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理系统
GB201316575D0 (en) 2013-09-18 2013-10-30 Hellosoft Inc Voice data transmission with adaptive redundancy
US10614816B2 (en) * 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
JP6235725B2 (ja) 2014-01-13 2017-11-22 ノキア テクノロジーズ オサケユイチア マルチ・チャンネル・オーディオ信号分類器
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
CN107369455B (zh) * 2014-03-21 2020-12-15 华为技术有限公司 语音频码流的解码方法及装置
US9401150B1 (en) * 2014-04-21 2016-07-26 Anritsu Company Systems and methods to detect lost audio frames from a continuous audio signal
CN113259059B (zh) * 2014-04-21 2024-02-09 三星电子株式会社 用于在无线通信系统中发射和接收语音数据的装置和方法
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
WO2017055091A1 (en) * 2015-10-01 2017-04-06 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for removing jitter in audio data transmission
US10504525B2 (en) * 2015-10-10 2019-12-10 Dolby Laboratories Licensing Corporation Adaptive forward error correction redundant payload generation
US10142049B2 (en) 2015-10-10 2018-11-27 Dolby Laboratories Licensing Corporation Near optimal forward error correction system and method
US10057393B2 (en) 2016-04-05 2018-08-21 T-Mobile Usa, Inc. Codec-specific radio link adaptation
US10447430B2 (en) 2016-08-01 2019-10-15 Sony Interactive Entertainment LLC Forward error correction for streaming data
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
US10043523B1 (en) 2017-06-16 2018-08-07 Cypress Semiconductor Corporation Advanced packet-based sample audio concealment
US10594756B2 (en) * 2017-08-22 2020-03-17 T-Mobile Usa, Inc. Network configuration using dynamic voice codec and feature offering
US10778729B2 (en) * 2017-11-07 2020-09-15 Verizon Patent And Licensing, Inc. Codec parameter adjustment based on call endpoint RF conditions in a wireless network
US10652121B2 (en) * 2018-02-26 2020-05-12 Genband Us Llc Toggling enhanced mode for a codec
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
US10475456B1 (en) * 2018-06-04 2019-11-12 Qualcomm Incorporated Smart coding mode switching in audio rate adaptation
CN112166569B (zh) * 2018-06-07 2022-05-13 华为技术有限公司 数据传输的方法和装置
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
KR20200101012A (ko) 2019-02-19 2020-08-27 삼성전자주식회사 오디오 데이터 처리 방법 및 이를 위한 전자 장치
CN110838894B (zh) * 2019-11-27 2023-09-26 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机可读存储介质和计算机设备
CN114070458B (zh) * 2020-08-04 2023-07-11 成都鼎桥通信技术有限公司 数据传输方法、装置、设备及存储介质
CN112270928B (zh) * 2020-10-28 2024-06-11 北京百瑞互联技术股份有限公司 一种降低音频编码器码率的方法、装置及存储介质
CN112953934B (zh) * 2021-02-08 2022-07-08 重庆邮电大学 Dab低延迟实时语音广播的方法及系统
CN116073946A (zh) * 2021-11-01 2023-05-05 中兴通讯股份有限公司 抗丢包方法、装置、电子设备及存储介质
WO2024072034A1 (ko) * 2022-09-30 2024-04-04 현대자동차주식회사 비지상 네트워크에서 음성 패킷의 코딩 방법 및 장치

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH069346B2 (ja) * 1983-10-19 1994-02-02 富士通株式会社 同期伝送のための周波数変換方法
US4545052A (en) * 1984-01-26 1985-10-01 Northern Telecom Limited Data format converter
US4769833A (en) * 1986-03-31 1988-09-06 American Telephone And Telegraph Company Wideband switching system
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
CA2142391C (en) * 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
US5835486A (en) * 1996-07-11 1998-11-10 Dsc/Celcore, Inc. Multi-channel transcoder rate adapter having low delay and integral echo cancellation
FI104138B1 (fi) * 1996-10-02 1999-11-15 Nokia Mobile Phones Ltd Järjestelmä puhelun välittämiseksi sekä matkaviestin
US6157830A (en) * 1997-05-22 2000-12-05 Telefonaktiebolaget Lm Ericsson Speech quality measurement in mobile telecommunication networks based on radio link parameters
US6347217B1 (en) * 1997-05-22 2002-02-12 Telefonaktiebolaget Lm Ericsson (Publ) Link quality reporting using frame erasure rates
US5949822A (en) * 1997-05-30 1999-09-07 Scientific-Atlanta, Inc. Encoding/decoding scheme for communication of low latency data for the subcarrier traffic information channel
US6167060A (en) * 1997-08-08 2000-12-26 Clarent Corporation Dynamic forward error correction algorithm for internet telephone
CA2263280C (en) * 1998-03-04 2008-10-07 International Mobile Satellite Organization Method and apparatus for mobile satellite communication
FI107979B (fi) * 1998-03-18 2001-10-31 Nokia Mobile Phones Ltd Järjestelmä ja laite matkaviestinverkon palvelujen hyödyntämiseksi
FI981508A (fi) * 1998-06-30 1999-12-31 Nokia Mobile Phones Ltd Menetelmä, laite ja järjestelmä käyttäjän tilan arvioimiseksi
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
GB9923069D0 (en) * 1999-09-29 1999-12-01 Nokia Telecommunications Oy Estimating an indicator for a communication path
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US7110947B2 (en) * 1999-12-10 2006-09-19 At&T Corp. Frame erasure concealment technique for a bitstream-based feature extractor
US7574351B2 (en) 1999-12-14 2009-08-11 Texas Instruments Incorporated Arranging CELP information of one frame in a second packet
US20010041981A1 (en) * 2000-02-22 2001-11-15 Erik Ekudden Partial redundancy encoding of speech
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
US6757860B2 (en) * 2000-08-25 2004-06-29 Agere Systems Inc. Channel error protection implementable across network layers in a communication system
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
EP1195745B1 (en) 2000-09-14 2003-03-19 Lucent Technologies Inc. Method and apparatus for diversity control in multiple description voice communication
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
US7212511B2 (en) * 2001-04-06 2007-05-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems and methods for VoIP wireless terminals
US20030172189A1 (en) * 2001-07-02 2003-09-11 Globespanvirata Incorporated Communications system using rings architecture
US7415045B2 (en) * 2001-08-27 2008-08-19 Nokia Corporation Method and a system for transferring AMR signaling frames on halfrate channels
US7602866B2 (en) * 2002-02-28 2009-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Signal receiver devices and methods
CA2388439A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
KR100487183B1 (ko) * 2002-07-19 2005-05-03 삼성전자주식회사 터보 부호의 복호 장치 및 방법
US7133521B2 (en) * 2002-10-25 2006-11-07 Dilithium Networks Pty Ltd. Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain
CN1910844A (zh) * 2003-01-14 2007-02-07 美商内数位科技公司 使用已感知信号对噪声及干扰指示器网络管理的方法及装置
US20040141572A1 (en) * 2003-01-21 2004-07-22 Johnson Phillip Marc Multi-pass inband bit and channel decoding for a multi-rate receiver
US7299402B2 (en) * 2003-02-14 2007-11-20 Telefonaktiebolaget Lm Ericsson (Publ) Power control for reverse packet data channel in CDMA systems
US7123590B2 (en) * 2003-03-18 2006-10-17 Qualcomm Incorporated Method and apparatus for testing a wireless link using configurable channels and rates
US7224994B2 (en) 2003-06-18 2007-05-29 Motorola, Inc. Power control method for handling frame erasure of data in mobile links in a mobile telecommunication system
US20050049853A1 (en) 2003-09-01 2005-03-03 Mi-Suk Lee Frame loss concealment method and device for VoIP system
JP4365653B2 (ja) 2003-09-17 2009-11-18 パナソニック株式会社 音声信号送信装置、音声信号伝送システム及び音声信号送信方法
US7076265B2 (en) * 2003-09-26 2006-07-11 Motorola, Inc. Power reduction method for a mobile communication system
US20050091047A1 (en) * 2003-10-27 2005-04-28 Gibbs Jonathan A. Method and apparatus for network communication
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
JP4445328B2 (ja) 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
SE0402372D0 (sv) * 2004-09-30 2004-09-30 Ericsson Telefon Ab L M Signal coding
ATE545997T1 (de) * 2004-12-17 2012-03-15 Tekelec Us Verfahren, systeme und computerprogrammprodukte zur unterstützung des datenbankzugriffs in einer netzwerkumgebung des internet-protokoll- multimedia-subsystems (ims)
US7440399B2 (en) * 2004-12-22 2008-10-21 Qualcomm Incorporated Apparatus and method for efficient transmission of acknowledgments
US7519535B2 (en) 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
EP1915878B1 (en) * 2005-08-16 2013-08-07 Telefonaktiebolaget LM Ericsson (publ) Individual Codec Pathway Impairment Indicator for use in a communication system
US20070124494A1 (en) * 2005-11-28 2007-05-31 Harris John M Method and apparatus to facilitate improving a perceived quality of experience with respect to delivery of a file transfer
EP1990800B1 (en) 2006-03-17 2016-11-16 Panasonic Intellectual Property Management Co., Ltd. Scalable encoding device and scalable encoding method
WO2008007698A1 (fr) * 2006-07-12 2008-01-17 Panasonic Corporation Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio
US20080077410A1 (en) * 2006-09-26 2008-03-27 Nokia Corporation System and method for providing redundancy management
ATE504984T1 (de) * 2007-02-07 2011-04-15 Sony Deutschland Gmbh Verfahren zum senden eines signals in einem drahtlosen kommunikationssystem und kommunikationssystem
JP5618826B2 (ja) 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US8352252B2 (en) 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame

Also Published As

Publication number Publication date
WO2012141486A3 (en) 2013-03-14
US20170148448A1 (en) 2017-05-25
US9026434B2 (en) 2015-05-05
CN105161114A (zh) 2015-12-16
US9728193B2 (en) 2017-08-08
CN105161115A (zh) 2015-12-16
KR20190076933A (ko) 2019-07-02
EP2684189A2 (en) 2014-01-15
EP2684189A4 (en) 2014-08-20
JP2017097353A (ja) 2017-06-01
KR20120115961A (ko) 2012-10-19
WO2012141486A2 (en) 2012-10-18
US9564137B2 (en) 2017-02-07
US10424306B2 (en) 2019-09-24
CN105161115B (zh) 2020-06-30
JP6386376B2 (ja) 2018-09-05
CN105161114B (zh) 2021-09-14
US20170337925A1 (en) 2017-11-23
JP2014512575A (ja) 2014-05-22
JP6546897B2 (ja) 2019-07-17
US20160196827A1 (en) 2016-07-07
EP3553778A1 (en) 2019-10-16
CN103597544A (zh) 2014-02-19
CN103597544B (zh) 2015-10-21
US20150228291A1 (en) 2015-08-13
US20120265523A1 (en) 2012-10-18
US9286905B2 (en) 2016-03-15

Similar Documents

Publication Publication Date Title
KR20200050940A (ko) 멀티 레이트 스피치와 오디오 코덱을 위한 프레임 손실 은닉 방법 및 장치
JP6151405B2 (ja) クリティカリティ閾値制御のためのシステム、方法、装置、およびコンピュータ可読媒体
EP3186806B1 (en) Encoder, decoder and method for encoding and decoding audio content using parameters for enhancing a concealment

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination