KR101139007B1

KR101139007B1 - Ａｍｒ-ｗｂｄｔｘ 동기화를 제공하는 시스템 및 방법

Info

Publication number: KR101139007B1
Application number: KR1020107006843A
Authority: KR
Inventors: 파시 오얄라; 아리 라카니에미
Original assignee: 노키아 코포레이션
Priority date: 2007-08-31
Filing date: 2008-08-28
Publication date: 2012-04-25
Also published as: CN101790754B; WO2009027936A3; ATE532172T1; EP2201565B1; WO2009027936A2; US20090063165A1; TW200917764A; US8090588B2; CA2695654A1; EP2201565A2; CN101790754A; JP2010538515A; RU2427043C1; TWI435583B; KR20100063097A; CA2695654C; JP4944250B2

Abstract

향상된 적응적 멀티-레이트 광대역 (adaptive multi-rate wideband (AMR-WB)) 불연속 전송 (discontinuous transmission (DTX)) 동기화를 제공하기 위한 시스템 및 방법이 개시된다. 다양한 실시예들에 따르면, DTX 구간이 시작하기 전에 즉, SID_FIRST 프레임이 수신되기 전에 미리 정해진 개수의 프레임들 내에서, 비활성 음성 구간의 시작에 관한 표시가 음성 활성 감지 (voice activity detection (VAD)) 플래그를 경유하여 디코더로 시그날링된다. VAD 플래그가 활성 음성을 표시할 때에 또는 VAD 플래그가 이전의 미리 정해진 개수의 프레임들보다 더 작게 영으로 설정되었을 때에, 상기 수신된 NO_DATA 프레임은 활성 음성으로서 높은 정도의 신뢰성을 구비한 것으로서 분류될 수 있고, 즉 전송기, 네트워크 또는 단말-개시 시그날링으로서 간주될 수 있으며, 그래서 SPEECH_LOST 프레임에 의해 대체될 수 있다. VAD 플래그가 8개 프레임 이전에 또는 더 빠르게 영으로 설정되면, NO_DATA 프레임은 DTX로서 분류된다.

Description

ＡＭＲ-ＷＢＤＴＸ 동기화를 제공하는 시스템 및 방법 {System and method for providing AMR-WB DTX synchronization}

본 발명은 일반적으로 음성 부호화 (speech coding)에 관한 것이다. 더 상세하게는, 본 발명은 음성 부호화, 오류 탄력성 (resiliency) 및 TFO (Tandem free operation) 네트워크, TrFO (Transcoder free operation) 네트워크와 같은 회선 교환 네트워크와 VoIP (Voice over IP)와 같은 패킷 교환 네트워크를 통한 음성 전송에 관한 것이다.

이 섹션은 특허 청구범위 내에서 인용되는 발명의 배경이나 맥락을 제공하도록 의도된 것이다. 여기에서의 설명은 수행될 수 있는 개념들을 포함할 수 있을 것이지만, 그 설명은 반드시 이전에 고안되었거나 수행되었던 것일 필요는 없다. 그러므로, 여기에서 다르게 표시되지 않는 한, 이 섹션에서 설명된 것이 본 발명의 설명이나 청구범위에 대한 종래 기술인 것은 아니며, 이 섹션에 포함되었다고 해서 종래 기술인 것으로 인정되는 것도 아니다.

VoIP 서비스들과 같은 서비스들에서의 수신기 로직은 물론이며, 3GPP (3rd Generation Partnership Project)에서의 TFO 그리고 TrFO는 전송 코드 RX_NO_DATA를 구비한 음성 코더 (coder)로 전달된 빈 프레임들이나 패킷들을 적응적 멀티-레이트 광대역 (adaptive multi-rate wideband (AMR-WB)) 비트 스트림으로 삽입한다. 다른 말로 하면, 활성의 (active) 음성 비트스트림은 때때로 빈 프레임들이나 패킷들을 포함할 수 있다는 것이다. 이런 빈 프레임들이나 패킷들은 보통은 다른 목적들을 위해서 사용된다. 예를 들면, 그런 프레임들이나 패킷들은 TFO/TrFO 시그날링이나 다른 시스템-레벨 시그날링과 같은 긴급한 시그날링 데이터로 종종 대체된다. 디코더가 그와 같은 "음성이 아닌 (non-speech)" 데이터 프레임들/패킷들을 음성 프레임들/패킷들로서 가지는 것을 피하기 위해, 그 프레임들/패킷들은 RX_NO_DATA로 분류된다. RX_NO_DATA 프레임을 수신하는 다른 예에서, 전송 경로를 따라 유실되거나 오염된 프레임은, 예를 들면, 몇몇의 중개 엔티티 (entity)에 의해 RX_NO_DATA와 교체될 수 있을 것이다.

불연속 전송 (discontinuous transmission (DTX)) 동작이 가능하게 될 때에 AMR-WB 디코더가 활성 음성의 한 세그먼트 내에서 RX_NO_DATA를 수신하면, TS 26.173 v7.0.0 (고정 포인트 구현) 그리고 TS 26.204 v7.0.0 (부동 포인트 구현)에 따른 AMR-WB 디코더 구현은 때로는 100 ms 까지의 구간 동안에 음성 합성의 출력을 음이 나오지 않게 (mute) 하거나 또는 감쇠시킬 (attenuate) 수 있을 것이다. 출력을 음이 나오지 않게 하거나 감쇠시키는 것은 중대한 음성 품질 저하에 관련된 문제를 일으키게 한다.

TS 26.193 v7.0.0, "Source controlled rate operation"에 따른 의도된 AMR-WR 디코더 기능은 그 디코더가 음성 (SPEECH) 모드에 있을 때에 수신된 NO_DATA 프레임들은 DTX 처리기 (handler) 관점에서는 SPEECH_LOST 프레임으로서 취급되어야만 한다는 것에 주목한다. 특히, TS 26.193 v7.0.0 은 "RX DTX 처리기가 모드 SPEECH에 있으면, SPEECH_DEGRADED, SPEECH_BAD, SPEECH_LOST 또는 NO_DATA로서 분류된 프레임들은 3GPP TS 26.191에서 정의된 것과 같이 교체되거나 음이 나오지 않아야 할 것이다. NO_DATA로서 분류된 프레임들은 유효 음성 정보를 구비하지 않은 SPEECH_LOST와 같이 처리될 것이다.

AMR-WB 디코더가 강건하게 만들어져서 네트워크에 의해 생성되거나 또는 단말들/게이트웨이들에서의 구현들에 의해 생성되는 임의의 프레임 유형 입력 조합도 처리할 수 있도록 하는 것이 필요할 수 있을 것이다. 그러나, DTX 동기화의 경우에 특정 문제가 일어난다. AMR-WB 인코더는 인터액티브한 (interactive) 음성을 감지하는 음성 활성 감지 (voice activity detection (VAD)) 기능을 구비하며, 그에 따라, AMR-WB 인코더는 비활성 음성을 포함하는 프레임을 표시하기 위해 VAD 플래그를 영 (0)으로 설정한다. 비연속적인 전송 (discontinuous transmission (DTX)) 기능은, 8개 프레임들의 DTX 행오버 (hangover) 구간 이후에 불러내지며, 그 DTX 행오버 구간 동안에 평안한 잡음 (comfort noise) 파라미터가 결정된다. 디코더는 이 DTX 행오버에 관련하여 인코더와 동기되어야 할 필요가 있다. 만일 상기 디코더가 그렇게 동기되지 않으면, 그 디코더 내에서의 편안한 잡음 계산은 그 인코더와는 어긋날 것이다.

전통적으로, 수신된 NO_DATA 프레임은 DTX 구간에 속한 프레임으로서, 즉, 어떤 전송도 존재하지 않는다는 것을 나타내는 프레임으로서 단순하게 분류된다. 그러나, 전송기 또는 네트워크가 시그날링 프레임들을 전송하고 있다고 해도, DTX 동기화 로직이 어긋날 수 있기 때문에, 이런 상황에서 문제가 발생한다. 상기 평안한 잡음 파라미터들을 포함하는 첫 번째 정적 서술자 (Silence Descriptor (SID))가 수신된 후에 상기 동기화가 복원된다. 반면에, NO_DATA 프레임이 활성의 음성 비트 스트림의 일부로서 분류되고 그리고 (상기 디코더 내의 오류 은폐 동작에 의해) SPEECH_LOST 프레임 유형으로 대체되면, DTX 처리에 관련하여 문제가 발생할 수 있다. 예를 들면, 상기 수신기가 SIF_FIRST 프레임 (DTX 구간의 첫 번째 프레임)을 잃게 되면, 상기 NO_DATA 프레임은 유실된 음성 프레임으로서 틀리게 분류될 것이다. 다시, 다음의 SID_UPDATE 가 수신된 후에 동기화가 복구된다.

고정-포인트 AMR-WB 레퍼런스 구현 (3GPP TS 26.173)에서, 이런 DTX 동기화를 처리하는 것은 아래의 예 1에서 보이는 것과 같이 C-코드로 구현된다 ("dtx.c" 소소 파일 내에서 함수 "rx_dtx_handler").

예 1

1 if ((sub(frame_type, RX_SID_FIRST) == 0) ||

2 (sub(frame_type, RX_SID_UPDATE) == 0) ||

3 (sub(frame_type, RX_SID_BAD) == 0) ||

4 (sub(frame_type, RX_NO_DATA) == 0))

5 {

6 encState = DTX; move16();

7 } else

8 {

9 encState = SPEECH; move16();

10 }

상기의 1-3 줄에서, 상기 알고리즘은 상기 프레임이 SID_FIRST 프레임인가, SID_UPDATE 프레임인가 또는 훼손된 SID 프레임인가의 여부를 검사한다. 4번째 줄에서, 상기 알고리즘은 이 프레임이 NO_DATA 프레임인가의 여부를 판별한다. 이런 상태들 중의 하나 또는 그 이상이 참이면, 그러면 상기 디코더는 DTX 상태로 전환한다 (또는 DTX 상태를 유지한다). 이런 소스 코드의 이런 부분를 기반으로 하면, 활성의 음성의 세그먼트의 중간에 시그날링 데이터를 위한 공간을 만들어주기 위해 누락되는 음성 프레임 대신에 NO_DATA 프레임이 삽입되면, 상기 디코더는 올바른 동작이 음성 상태에서 유지될 것인 경우에도 상기 디코더가 DTX 모드로 틀리게 전환할 것이라는 것이 명확하다.

상기의 상황을 처리하기 위한 종래의 한가지 제안은 아래에서의 예 2에서 설명된다.

예 2

1 if ((sub(frame_type, RX_SID_FIRST) == 0) ||

2 (sub(frame_type, RX_SID_UPDATE) == 0) ||

3 (sub(frame_type, RX_SID_BAD) == 0) ||

4 ((sub(frame_type, RX_NO_DATA) == 0) &&

4b (sub(st->dtxGlobalState, SPEECH) != 0)))

5 {

6 encState = DTX; move16();

7 } else

8 {

9 encState = SPEECH; move16();

10 }

비록 상기 4b 줄에서의 텍스트가 활성의 음성의 세그먼트 중간에 삽입될 수도 있을 NO_DATA가 DTX 상태로 틀리게 전환하는 것을 초래하지는 않는다는 것을 보장하지만, 이는 삽입된 NO_DATA 프레임의 부정확한 처리 문제를 아직 완전하게 해결하지는 못한다.

본 발명은 상기에서 설명된 것과 같은 문제를 해결하려고 한다.

본 발명의 다양한 실시예들은 개선된 AMR-WB DTX 동기화를 제공하는 시스템 및 방법을 제공한다. 본 발명의 다양한 실시예에 따르면, 문제의 AMR-WB 비트스트림은 전송된 각 프레임에 대한 VAD 플래그 정보를 포함한다. 다른 말로 하면, 비활성의 음성 구간의 시작에 관한 표시는 DTX 구간이 시작되기 전에, 즉, SID_FIRST 프레임이 수신되기 전에 디코더 8개 프레임들로 시그날링된다. 그러므로, VAD 플래그가 활성의 음성을 나타낼 때에 또는 상기 플래그가 이전의 8개 프레임보다 더 작게 영으로 설정되면, 수신된 NO_DATA 프레임은 활성 음성으로서 높은 수준의 신뢰성을 구비한 것으로 분류될 수 있으며, 즉, 전송기, 네트워크 또는 단말에서 개시된 시그날링 (terminal-initiated signalling)으로서 간주될 수 있으며, 그래서 SPEECH_LOST에 의해 대체될 수 있다. 상기 VAD 플래그가 8개 프레임들 이전에 또는 더 이전에 0으로 설정되었을 때에, 상기 NO_DATA 프레임은 DTX로서 분류된다. 본 발명의 이런 다양한 실시예들과 함께, 상기 AMR-WB 수신기는 NO_DATA 프레임 처리에 대해 더욱 강건하다. 본 발명의 다양한 실시예들은 AMR-WB 디코더들에서 있어서 적용 가능하며, 특히 DTX 편안한 잡음 생성 및 동기화에 있어서 적용 가능하다.

본 발명의 이런 그리고 다른 이점 및 특징들은 본 발명의 동작의 방식 및 조직과 함께, 첨부된 도면들과 관련하여 취해진 다음의 상세한 설명으로부터 명백할 것이며, 이 경우 아래에서 설명되는 여러 도면들을 통해서 유사한 엘리먼트들은 유사한 참조번호를 구비한다.

도 1은 본 발명의 다양한 실시예들이 구현될 수 있는 시스템의 개략적인 도면이다.
도 2는 본 발명의 다양한 실시예들이 구현될 수 있는 프로세스를 보여주는 흐름도이다.
도 3은 본 발명의 다양한 실시예들과 관련하여 사용될 수 있는 전자 기기의 투시도이다.
도 4는 도 3의 전기 기기에 포함될 수 있는 나타냈다는의 개략적인 표현을 도시한 것이다.

본 발명의 다양한 실시예들은 개선된 AMR-WB DTX 동기화를 제공하는 시스템 및 방법을 제공한다. 본 발명의 다양한 실시예에 따르면, 문제의 AMR-WB 비트스트림은 전송된 각 프레임에 대한 VAD 플래그 정보를 포함한다. 다른 말로 하면, 비활성의 음성 구간의 시작에 관한 표시는 DTX 구간이 시작되기 전에, 즉, SID_FIRST 프레임이 수신되기 전에 디코더 8개 프레임들로 시그날링된다. 그러므로, VAD 플래그가 활성의 음성을 나타낼 때에 또는 상기 플래그가 이전의 8개 프레임보다 더 작게 영으로 설정되면, 수신된 NO_DATA 프레임은 활성 음성으로서 높은 수준의 신뢰성을 구비한 것으로 분류될 수 있으며, 즉, 전송기, 네트워크 또는 단말에서 개시된 시그날링 (terminal-initiated signalling)으로서 간주될 수 있으며, 그래서 SPEECH_LOST에 의해 대체될 수 있다. 상기 VAD 플래그가 8개 프레임들 이전에 또는 더 이전에 0으로 설정되었을 때에, 상기 NO_DATA 프레임은 DTX로서 분류된다.

도 1은 그 내부에서 본 발명의 다양한 실시예들이 구현될 수 있을 일반적인 멀티미디어 통신 시스템의 그래픽적인 표현이다. 도 1에서 도시된 것과 같이, 데이터 소스 (100)는 아날로그 포맷, 압축되지 않은 디지털 포맷 또는 압축된 디지털 포맷 또는 그런 포맷들의 임의의 조합의 포맷인 신호를 공급한다. 인코더 (110)는 상기 소스 신호를 부호화된 (coded) 미디어 비트스트림으로 인코드한다. 디코드될 비트스트림은 실질적으로 임의 유형의 네트워크 내에 위치한 원격 기기로부터 직접적으로 또는 간접적으로 수신될 수 있다는 것에 유의해야 한다. 또한, 상기 비트스트림은 로컬 하드웨어나 소프트웨어로부터 수신될 수 있다. 상기 임코더 (110)는 하나이상의 미디어 유형을 인코딩할 수 있을 것이며, 하나 이상의 인코더 (110)는 상기 소스 신호의 서로 다른 미디어 유형들을 부호화하기 위해 필요할 수 있을 것이다. 상기 인코더 (110)는 그래픽이나 텍스트와 같은 종합적으로 생성된 입력을 취할 수도 있을 것이며, 또는 그 인코더는 종합 미디어의 부호화된 비트스트림들을 생성할 수 있을 것이다. 다음에서, 설명을 단순화하기 위해 하나의 미디어 유형의 하나의 부호화된 미디어 비트스트림의 프로세싱만이 고려된다. 그러나, 실시간 브로드캐스트 서비스들은 여러 개의 스트림들 (전형적으로 적어도 하나의 오디오, 비디오 및 텍스트 자막 스트림)을 포함하는 것이 일반적이라는 것에 유의해야만 한다. 또한 상기 시스템은 여러 인코더들을 포함할 수 있을 것이지만, 일반성을 잃지 않으면서 설명을 간략하게 하기 위해 도 1에서는 단지 하나의 인코더 (110)만이 제시된다는 것 역시 유의해야만 한다. 비록 여기에서 포함된 텍스트와 예들이 하나의 인코딩 프로세스를 특히 설명할 수 있을 것이지만, 본 발명이 속한 기술분야의 통상의 지식을 가진 자는 동일한 개념과 원칙들이 대응하는 디코딩 프로세스에도 또한 적용될 수 있으며 그 역으로도 적용될 수 있다는 것을 이해할 수 있을 것이라 것 역시 이해해야만 한다.

부호화된 미디어 비트스트림은 저장부 (120)로 전달된다. 상기 저장부 (120)는 상기 부호화된 미디어 비트스트림을 저장하기 위한 임의 유형의 대용량 메모리를 포함할 수 있을 것이다. 상기 저장부 (120) 내의 부호화된 미디어 비트스트림의 포맷은 기본적인 자기-보유적인 (self-contained) 비트스트림 포맷일 수 있으며 또는 하나 또는 그 이상의 부호화된 미디어 스트림들은 컨테이너 파일 (container file)로 캡슐화될 수 있을 것이다. 일부 시스템들은 "라이브 (live)"로 동작한다. 즉, 저장부를 생략하고 부호화된 미디어 비트스트림을 상기 인코더 (110)로부터 송신기 (130)로 직접 전달한다. 그러면 상기 부호화된 미디어 비트스트림은 송신기 (130)로 전달되며, 상기 송신기는 필요한 경우에는 서버라고 언급될 수 있다. 상기 전달에서 사용되는 포맷은 기본적인 자기-보유적인 (self-contained) 비트스트림 포맷, 패킷 스트림 포맷일 수 있으며, 또는 하나 또는 그 이상의 부호화된 미디어 스트림들은 컨테이너 파일 (container file)로 캡슐화될 수 있을 것이다. 상기 인코더 (110), 저장부 (120) 및 송신기 (130)는 물리적으로 동일한 기기 내에 위치할 수 있을 것이며 또는 그것들은 별개의 기기들 내에 포함될 수 있을 것이다. 상기 인코더 (110)와 송신기 (130)는 라이브 실시간 콘텐트를 구비하여 동작할 수 있을 것이며, 그런 경우 상기 부호화된 미디어 비트스트림은 일반적으로는 영구적으로 저장되지 않으며, 오히려 지연, 전송 지연 및 부호화된 미디어 비트레이트 프로세싱에 있어서의 변화들을 매끄럽게 하기 위해 작은 시간 구간동안 상기 콘텐트 인코더 (110) 내에서 그리고/또는 송신기 (130) 내에서 버퍼링된다.

상기 송신기 (130)는 상기 부호화된 미디어 비트스트림을 통신 프로토콜 스택을 이용하여 송신한다. 비록 3GPP 회선 교환 전화통신이 본 발명의 다양한 실시예들의 맥락에서 또한 사용될 수 있을 것이라는 것에 또한 유의할 것이지만, 상기 스택은 실시간 전송 프로토콜 (Real-Time Transport Protocol (RTP)), 사용자 데이터그램 프로토콜 (User Datagram Protocol (UDP)) 및 인터넷 프로토콜 (Internet Protocol (IP))을 포함할 수 있을 것이며, 그것들로 제한되지는 않을 것이다. 상기 통신 프로토콜이 패킷 지향이면, 상기 송신기 (130)는 상기 부호화된 미디어 비트스트림을 패킷들로 캡슐화한다. 예를 들면, RTP가 사용될 때에, 상기 송신기 (130)는 상기 송신기 (130)는 상기 부호화된 미디어 비트스트림을 RTP 페이로드 포맷에 따라 RTP 패킷들로 캡슐화한다. 전형적으로, 각 미디어 유형은 전용의 RTP 페이로드 포맷을 구비한다. 한 시스템이 하나보다 더 많은 송신기 (130)를 포함할 수 있을 것이지만, 간략함을 위해서, 다음의 설명은 단 하나의 송신기 (130)만을 고려한다는 것에 다시 유의해야만 한다.

상기 송신기 (130)는 통신 네트워크를 통해 게이트웨이 (140)에 연결될 수도 있고 또는 연결되지 않을 수도 있을 것이다. 상기 게이트웨이 (140)는 한 통신 프로토콜 스택에 따른 패킷 스트림을 다른 통신 프로토콜 스택으로 변환하고, 데이터 스트림들을 합치고 분기하며 그리고 포워딩되는 스트림의 비트 레이트를 우세한 다운링크 네트워크 상태들에 따라 제어하는 것과 같이 다운링크 및/또는 수신기 기능들에 따라 데이터 스트림을 조작하는 것과 같은 서로 다른 유형의 기능들을 수행할 수 있을 것이다. 게이트웨이들 (140)의 예들은 MCU들, 회선 교환 및 패킷 교환 비디오 전화 통신, 셀룰러를 통한 푸시-투-토크 (Push-to-talk over Cellular (PoC)) 서버들, 디지털 비디오 브로드캐스팅-핸드헬드 (digital video broadcasting-handheld (DVB-H)) 시스템들에서의 IP 캡슐화기들 또는 브로드캐스트 전송들을 홈 무선 네트워크로 국부적으로 포워딩하는 셋탑 박스들을 포함한다. RTP가 사용되면, 상기 게이트웨이 (140)는 RTP 믹서 또는 RTP 변환기로 불리며, RPT 접속의 종료점으로서 동작하는 것이 전형적이다.

상기 시스템은 하나 또는 그 이상의 수신기들 (150)을 포함하며, 전송된 신호를 수신하여, 복조하며 그리고 캡슐화 해제하여 부호화된 미디어 비트스트림으로 생성한다. 그 부호화된 미디어 비트스트림은 기록 저장부 (155)로 전달된다. 상기 기록 저장부 (155)는 상기 부호화된 미디어 비트스트림을 저장하기 위한 임의 유형의 대용량 메모리를 포함할 수 있을 것이다. 상기 기록 저장부 (155)는 랜덤 액세스 메모리와 같은 계산 메모리를 대안으로 또는 추가로 포함할 수 있을 것이다. 상기 기록 저장부 (155) 내의 상기 부호화된 미디어 비트스트림의 포맷은 기본적인 자기-보유적인 (self-contained) 비트스트림 포맷일 수 있으며 또는 하나 또는 그 이상의 부호화된 미디어 스트림들은 컨테이너 파일 (container file)로 캡슐화될 수 있을 것이다. 많은 부호화된 미디어 비트스트림들이 존재하며, 그 부호화된 미디어 비트스트림들 서로가 연관되어 있으면, 컨테이너 파일이 전형적으로 사용되어 상기 수신기 (150)는 입력 스트림들로부터 컨테이너 파일을 생성하는 컨테이너 파일 생성기를 포함하거나 그 컨테이너 파일 생성기에 부속된다. 일부 시스템들은 "라이브"로 동작, 즉, 상기 기록 저장부 (155)를 생략하고, 부호화된 미디어 비트스트림을 상기 수신기 (150)로부터 디코더 (160)로 직접 전달한다. 일부 시스템들에서, 기록된 스트림의 가장 최근의 부분만이, 예를 들면, 기록된 스트림의 가장 최근의 10분을 발췌한 부분이 상기 기록 저장부 (155)에서 유지되며, 더 이전에 기록된 데이터는 상기 기록 저장부 (155)로부터 폐기된다.

상기 부호화된 미디어 비트스트림은 상기 기록 저장부 (155)로부터 상기 디코더 (160)로 전달된다. 만일 많은 부호화된 미디어 비트스트림들이 존재하며, 그 부호화된 미디어 비트스트림들 서로가 연관되어 있고, 하나의 컨테이너 파일로 캡슐화되면, 그 컨테이너 파일로부터 각각의 부호화된 미디어 비트스트림을 캡슐화 해제하기 위해 파일 분석기 (도면에는 도시되지 않음)가 사용된다. 상기 기록 저장부 (155) 또는 디코더 (160)는 그런 파일 분석기를 포함할 수 있을 것이며, 또는 상기 파일 분석기는 상기 기록 저장부 (155)나 디코더 (160)의 어느 하나에 부속된다.

상기 부호화된 미디어 비트스트림은 디코더 (160)에 의해 추가로 프로세싱되는 것이 전형적이며, 상기 디코더 (160)의 출력은 하나 또는 그 이상의 압축되지 않은 미디어 스트림들이다. 결국, 렌더러 (170)는, 예를 들면 스피커를 이용하여 상기 압축되지 않은 미디어 스트림들을 재생한다. 상기 수신기 (150), 기록 저장부 (155), 디코더 (160) 및 렌더러 (170)는 물리적으로 동일한 기기 내에 위치할 수 있을 것이며 또는 그것들은 별개의 기기들 내에 포함될 수 있을 것이다.

본 발명의 다양한 실시예들에 따라, AMR-WB 디코더가 NO_DATA 프레임/패킷을 수신할 때에, 상기 디코더는 VAD 플래그의 상태 및 대응하는 DTX 행오버 상태를 검사한다. AMR-WB는 8개 프레임들의 DTX 행오버를 구비한다. 그러므로, 상기 디코더는 상기 VAD 플래그가 영으로 설정된 후에 SID_FIRST를 8개의 프레임들로서 수신할 것을 기대한다. 상기 디코더가 이미 VAD 플래그의 이력, 즉, 비활성의 음성을 가진 연속적인 프레임들의 개수라는 이력을 보유하고 있기 때문에, 상기 디코더는 SID_FIRST 및 NO_DATA 프레임을 포함해야만 하는 프레임을 추산할 수 있다. 이런 프로세스의 표현은 다음과 같다:

vad_hist 가 8보다 작으면

NO_DATA 프레임은 SPEECH_LOST로서 간주되며

시그날링이 비트 스트림 내에 포함되며

DTX 행오버 정보 업데이트는 필요하지 않다

그렇지 않으면

NO_DATA 프레임은 DTX로서 간주되며

DTX 행오버 정보는 업데이트될 필요가 있다.

상기의 기능을 고정 포인트 3GPP AMR-WB 레퍼런스 구현 (3GPP TS 26.173)에 포함시키기 위해, 이전에 설명된 예 2의 소스 코드의 일부에 추가의 수정이 이루어질 수 있으며, 다음와 같이 예 3에서 표현된다.

예 3

1 if ((sub(frame_type, RX_SID_FIRST) == 0) ||

2 (sub(frame_type, RX_SID_UPDATE) == 0) ||

3 (sub(frame_type, RX_SID_BAD) == 0) ||

4 ((sub(frame_type, RX_NO_DATA) == 0) &&

4b ((sub(st->dtxGlobalState, SPEECH) != 0) ||

4c (sub(vad_hist, DTX_HANG_CONST) >= 0))))

5 {

6 encState = DTX; move16();

7 } else

8 {

9 encState = SPEECH; move16();

10 }

상기 AMR-WB 비트스트림에서 수신된 상기 VAD 플래그들이 상기 행오버 구간이 끝났다는 것을 알리는 경우에만, 즉, 현재의 프레임이 상기 수신된 VAD 표시가 활성의 음성에서 비활성의 음성으로 변경된 이후의 8번째 프레임이라면, 상기 NO_DATA 프레임이 음성 상태로부터 DTX 상태로의 전환을 촉발시킨다는 것을 보장하기 위해 4b 및 4c의 줄의 소스 코드가 사용된다. 더 나아가, 변수 vad_hist는 VAD 플래그를 영으로 설정하면서 수신된 (연속적인) 음성 프레임들의 개수를 나타낸다. 이 값은, 예를 들면, (파일 "dec_main.c" 내의) 함수 "decoder"에서 계산되어 부가적인 파라미터로서 함수 "rx_dtx_handler"로 전달되거나 또는 함수 "rx_dtx_handler" 내에서 계산되어 (이 값의 계산을 위해서 필요한 정보가 이용 가능하게 된다는 것을 가정한다), 예 3의 4c 줄의 "if" 선언문을 평가하는 것을 가능하게 한다.

도 2는 본 발명의 다양한 실시예들이 구현될 수 있는 프로세스들을 보여주는 흐름도이다. 도 2의 단계 200에서, 오디오 콘텐트의 개별 프레임들은 하나의 비트스트림으로 인코딩된다. 이런 복수의 프레임들의 각각은 각각의 개별 프레임이, 예를 들면, VAD 플래그를 이용하여 활성의 음성이나 다른 오디오를 나타내는가의 여부에 관한 표시를 포함한다. 단계 210에서, 복수의 프레임들이 디코더에 의해 수신된다. 단계 220에서, 하나의 프레임이 어떤 데이터도 내부에 포함하고 있지 않다, 즉, NO_DATA 프레임이다라는 표시를 구비하여 수신된다. 미리 정해진 이전의 개수(도 2에는 X로 표현됨)의 프레임들 중의 적어도 하나가 각 프레임이 활성 오디오나 음성을 제공했다는 표시를 포함하는가의 여부가 단계 230에서 결정된다. 이전에 설명된 것과 같이, 이렇게 판별된 프레임들의 개수는 본 발명의 일 실시예에서 8개의 프레임들을 포함한다. 미리 정해진 이전의 개수의 프레임들의 중의 적어도 하나가 개별 프레임이 활성 오디오를 표현했다는 표시를 구비하면, 240 단계에서, 부가 프레임이 활성의 오디오를 나타내는 것으로서 분류된다. 그와 같은 경우, 상기 NO_DATA 프레임은 단계 250에서 SPEECH_LOST 프레임에 의해 대체될 수 있을 것이다. 반면에, 미리 정해진 이전 개수의 프레임들 중의 어느 것도 개별 프레임이 활성 오디오를 나타낸다는 표시를 포함하지 않으면, 단계 260에서 NO_DATA 프레임은 DTX로서 분류되어, 불연속 전송을 나타낸다.

도 3 및 도 4는 본 발명이 그 내부에서 구현될 수 있는 대표적인 모바일 기기 (12)를 보여준다. 그러나, 본 발명은 하나의 특정 유형의 전자 기기로 한정된다는 의도가 아는 것임을 이해하여야 한다. 도 3 및 도 4의 상기 모바일 기기 (12)는 하우징 (30), 액정 디스플레이의 형상인 디스플레이 (32), 키패드 (34), 마이크로폰 (36), 이어-피스 (38), 배터리 (40), 적외선 포트 (42), 안테나 (44), 본 발명의 일 실시예에 따른 UICC 형상의 스마트 카드 (46), 카드 리더기 (48), 무선 인터페이스 회로 (52), 코덱 회로 (54), 제어기 (56) 및 메모리 (58)를 포함한다. 개별적인 회로들 및 엘리먼트들은 당 업계, 예를 들면, 모바일 전화기들에서의 노키아 범위에서 잘 알려진 유형 모두이다.

여기에서 설명된 본 발명의 다양한 실시예들은 방법 단계들이나 프로세스들의 일반적인 맥락에서 설명되며, 상기 방법 단계들이나 프로세스들은 네트워크 환경에서의 컴퓨터들에 의해 수행되는 프로그램 코드와 같은 컴퓨터로 수행 가능한 명령어들을 포함하는 컴퓨터로 읽을 수 있는 매체 내에서 구체화된 컴퓨터 프로그램 제품에 의해 일 실시예에서 구현될 수 있을 것이다. 일반적으로, 프로그램 모듈들은, 특정한 태스크들을 수행하거나 특정의 추상 데이터 유형들을 구현하는, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조 등을 포함할 수 있을 것이다. 데이터 구조들과 연관하여 컴퓨터로 실행 가능한 명령어들 및 프로그램 모듈들은 여기에서 개시된 방법의 단계들을 실행시키기 위한 프로그램 코드의 예들을 나타낸다. 그런 실행 가능한 명령어들의 특정 시퀀스나 연관된 데이터 구조들은 그런 단계들이나 프로세스들에서 설명된 기능들을 구현하기 위한 대응하는 동작들의 예들을 나타낸다.

본 발명의 다양한 실시예들의 웹 구현과 소프트웨어는 다양한 데이터베이스 검색 단계들이나 프로세스들, 상관 단계들이나 프로세스들, 비교 단계들이나 프로세스들 또는 결정 단계들이나 프로세스들을 달성하기 위한 규칙 기반의 로직과 다른 로직을 구비한 표준의 프로그래밍 기술들을 이용해서 달성될 수 있다. 여기에서 그리고 이어지는 청구범위에서 사용되는 것과 같은 컴포넌트 및 모듈이라는 단어들은 하나 또는 그 이상 라인의 소프트웨어 코드 및/또는 하드웨어 구현 및/또는 수동 입력을 수신하기 위한 장비를 이용한 구현들을 망라하는 것이라는 것에 유의해야 한다.

본 발명의 실시예들에 대한 전술한 설명은 예시 및 설명의 목적으로 제공되었다. 전술한 설명은 본 발명의 실시예들을 총망라해서 설명했거나 또는 본 발명의 실시예들을 개시된 세부적인 모습으로 한정하려고 의도된 것이 아니며, 수정과 변형들은 상기에서의 교시들에 비추어 가능하며 또는 본 발명의 다양한 실시예들을 수행하여 획득할 수 있을 것이다. 여기에서 설명된 실시예들은 본 발명의 다양한 실시예들의 원칙들과 속성 그리고 그것의 실제적인 적용을 설명하여 본 발명이 속한 기술분야에서의 통상의 지식을 가진 자가 본 발명을, 심사숙고된 특정 사용에 적합한 다양한 실시예에서 그리고 다양한 변형들에서 활용하는 것을 가능하게 하기 위해 선택되고 설명되었다.

Claims

오디오 디코더에서 오디오 콘텐트를 디코딩하는 방법으로서,
비트스트림으로부터 오디오 콘텐트의 복수의 프레임들을 수신하며 [상기 복수의 프레임들 각각은 각 프레임이 활성 오디오를 나타내는가의 여부에 대한 표시를 포함한다];
오디오 콘텐트의 부가 프레임을 수신하며 [상기 부가 프레임은 그 내부에 어떤 데이터도 포함하고 있지 않다는 표시를 포함한다];
상기 부가 프레임 이전의 상기 오디오 콘텐트의 복수의 프레임들 중 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 어떤 것도 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하지 않는가를 상기 오디오 디코더에서 판별하며; 그리고
상기 오디오 디코더에서 상기 부가 프레임을 불연속 전송인 것으로 분류하는 것을 포함하는, 오디오 콘텐트 디코딩 방법.
제1항에 있어서, 상기 방법은,
상기 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 적어도 하나가 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하면, 상기 부가 프레임을 활성 오디오를 나타내는 것으로 분류하는 것을 더 포함하는, 오디오 콘텐트 디코딩 방법.
제1항에 있어서, 상기 방법은,
상기 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 적어도 하나가 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하면, 상기 부가 프레임을 오디오가 유실되었다고 규정하는 프레임으로 교체하는 것을 더 포함하는, 오디오 콘텐트 디코딩 방법.
제1항에 있어서,
상기 오디오 콘텐트는 음성 콘텐트를 포함하는, 오디오 콘텐트 디코딩 방법.
제1항에 있어서,
상기 미리 결정된 개수의 프레임들은 7개의 프레임들을 포함하는, 오디오 콘텐트 디코딩 방법.
제1항에 있어서,
상기 비트스트림은 적응적인 멀티-레이트 광대역 비트스트림을 포함하는, 오디오 콘텐트 디코딩 방법.
오디오 콘텐트 디코딩을 위한 컴퓨터 프로그램을 포함하는, 컴퓨터로 읽을 수 있는 저장 매체로서,
상기 컴퓨터 프로그램은 실행되면,
비트스트림으로부터 오디오 콘텐트의 복수의 프레임들을 수신하며 [상기 복수의 프레임들 각각은 각 프레임이 활성 오디오를 나타내는가의 여부에 대한 표시를 포함한다];
오디오 콘텐트의 부가 프레임을 수신하며 [상기 부가 프레임은 그 내부에 어떤 데이터도 포함하고 있지 않다는 표시를 포함한다];
상기 부가 프레임 이전의 상기 오디오 콘텐트의 복수의 프레임들 중 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 어떤 것도 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하지 않는가를 상기 오디오 디코더에서 판별하며; 그리고
상기 오디오 디코더에서 상기 부가 프레임을 불연속 전송인 것으로 분류하는 것을 수행하는, 컴퓨터로 읽을 수 있는 저장 매체.
프로세서; 및
상기 프로세서에 통신 가능하게 연결된 메모리 유닛을 포함하는 오디오 콘텐트 디코딩 장치로서,
상기 메모리 유닛은,
비트스트림으로부터 오디오 콘텐트의 복수의 프레임들을 수신 [상기 복수의 프레임들 각각은 각 프레임이 활성 오디오를 나타내는가의 여부에 대한 표시를 포함한다]하기 위한 컴퓨터 코드;
오디오 콘텐트의 부가 프레임을 수신 [상기 부가 프레임은 그 내부에 어떤 데이터도 포함하고 있지 않다는 표시를 포함한다]하기 위한 컴퓨터 코드;
상기 부가 프레임 이전의 상기 오디오 콘텐트의 복수의 프레임들 중 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 어떤 것도 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하지 않는가를 상기 오디오 디코더에서 판별하기 위한 컴퓨터 코드; 그리고
상기 오디오 디코더에서 상기 부가 프레임을 불연속 전송인 것으로 분류하기 위한 컴퓨터 코드를 포함하는, 오디오 콘텐트 디코딩 장치.
제8항에 있어서, 상기 메모리 유닛은,
상기 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 적어도 하나가 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하면, 상기 부가 프레임을 활성 오디오를 나타내는 것으로 분류하기 위한 컴퓨터 코드를 더 포함하는, 오디오 콘텐트 디코딩 장치.
제8항에 있어서, 상기 메모리 유닛은,
상기 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 적어도 하나가 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하면, 상기 부가 프레임을 오디오가 유실되었다고 규정하는 프레임으로 교체하기 위한 프로그램 코드를 더 포함하는, 오디오 콘텐트 디코딩 장치.
제8항에 있어서,
상기 오디오 콘텐트는 음성 콘텐트를 포함하는, 오디오 콘텐트 디코딩 장치.
제8항에 있어서,
상기 미리 결정된 개수의 프레임들은 7개의 프레임들을 포함하는, 오디오 콘텐트 디코딩 장치.
제8항에 있어서,
상기 비트스트림은 적응적인 멀티-레이트 광대역 비트스트림을 포함하는, 오디오 콘텐트 디코딩 장치.
비트스트림으로부터 오디오 콘텐트의 복수의 프레임들을 수신하는 수단으로, 상기 복수의 프레임들 각각은 각 프레임이 활성 오디오를 나타내는가의 여부에 대한 표시를 포함하는, 수신 수단;
오디오 콘텐트의 부가 프레임을 수신하는 수단으로, 상기 부가 프레임은 그 내부에 어떤 데이터도 포함하고 있지 않다는 표시를 포함하는, 수신 수단;
상기 부가 프레임 이전의 상기 오디오 콘텐트의 복수의 프레임들 중 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 어떤 것도 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하지 않는가를 상기 오디오 디코더에서 판별하는 수단; 그리고
상기 오디오 디코더에서 상기 부가 프레임을 불연속 전송인 것으로 분류하는 수단을 포함하는 오디오 콘텐트 디코딩 장치.
제14항에 있어서, 상기 오디오 콘텐트 디코딩 장치는,
상기 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 적어도 하나가 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하면, 상기 부가 프레임을 활성 오디오를 나타내는 것으로 분류하는 수단을 더 포함하는, 오디오 콘텐트 디코딩 장치.
제14항에 있어서, 상기 오디오 콘텐트 디코딩 장치는,
상기 미리 결정된 개수의 프레임들 내에 있는 복수의 프레임들 중의 적어도 하나가 각 프레임이 활성 오디오를 나타낸다는 표시를 포함하면, 상기 부가 프레임을 오디오가 유실되었다고 규정하는 프레임으로 교체하는 수단을 더 포함하는, 오디오 콘텐트 디코딩 장치.