KR101997058B1

KR101997058B1 - 오디오 스플라이싱 개념

Info

Publication number: KR101997058B1
Application number: KR1020177009600A
Authority: KR
Inventors: 허벌트 토마; 로버트 블레이드; 스테판 크레겔로; 맥스 누엔도르프; 아킴 쿤즈; 안드레아스 니더마이어; 미카엘 크래슈
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2014-09-09
Filing date: 2015-09-08
Publication date: 2019-07-08
Also published as: ES2969748T3; RU2017111578A3; TW201626803A; EP3192195B1; US10511865B2; US11882323B2; US20170230693A1; AR101783A1; BR112017003288A2; AU2015314286A1; EP3192195C0; JP6605025B2; US20240129560A1; US11025968B2; SG11201701516TA; JP2017534898A; EP3192195A1; MX2017002815A; TWI625963B; CN113038172A

Abstract

오디오 스플라이싱은 미리 결정된 액세스 유닛에 대해, 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부를 재생시 폐기될 것으로 오디오 디코더에 표시하도록 오디오 데이터 스트림에 삽입된 하나 이상의 절단 유닛 패킷들의 사용에 의해 보다 효과적이게 된다.

Description

오디오 스플라이싱 개념{AUDIO SPLICING CONCEPT}

본 출원은 오디오 스플라이싱에 관한 것이다.

코딩된 오디오는 대개 샘플들의 청크들, 흔히 청크당 1024개, 2048개 또는 4096개의 샘플들에서 나온다. 이러한 청크들은 다음에 프레임들이라 한다. AAC 또는 MPEG-H 3D 오디오와 같은 MPEG 오디오 코덱들과 관련하여, 이러한 청크들/프레임들은 그래뉼(granule)들이라 하며, 인코딩된 청크들/프레임들은 액세스 유닛(AU: access unit)들이라 하고, 디코딩된 청크들은 조성 유닛(CU: composition unit)들이라 한다. 전송 시스템에서 오디오 신호는 이러한 코딩된 청크들(액세스 유닛들)의 세분성(granularity)으로만 액세스 가능하고 어드레싱 가능하다. 그러나 특히, 예를 들어 비디오 스트림과 같은 다른 스트림에 동기화되고 정렬된 코딩된 오디오 데이터의 구성 변경들 또는 스트림 스플라이싱과 같은 목적들을 위해, 어떤 최종 세분성으로 오디오 데이터를 어드레싱할 수 있는 것이 바람직할 것이다.

지금까지 알려진 것은 코딩 유닛의 일부 샘플들을 폐기하는 것이다. 예를 들어, MPEG-4 파일 포맷은 코딩된 오디오 파일/비트 스트림의 시작과 끝에서 오디오 샘플들을 폐기하기 위해 사용할 수 있는 소위 편집 리스트들을 갖고 있다[3]. 불리하게도, 이 편집 리스트 방법은 MPEG-4 파일 포맷에서만 작동하는데, 즉 파일 포맷 특정이며 MPEG-2 전송 스트림들과 같은 스트림 포맷들에서는 작동하지 않는다. 그 외에도, 편집 리스트들은 MPEG-4 파일 포맷에 깊이 삽입되어 있으며, 이에 따라 스트림 스플라이싱 디바이스들에 의해 즉시 쉽게 수정될 수 없다. AAC [1]에서는, 절단(truncation) 정보가 extension_payload 형태로 데이터 스트림에 삽입 될 수 있다. 그러나 코딩된 AAC 액세스 유닛에서의 이러한 extension_payload는 절단 정보가 AAC AU에 깊이 삽입되어 스트림 스플라이스 디바이스들에 의해 즉시 쉽게 수정될 수 없다는 점에서 불리하다.

이에 따라, 본 발명의 목적은 예를 들어, 스트림 스플라이서들 및/또는 오디오 디코더들에서 스플라이싱 프로세스의 절차상 복잡성의 측면에서 보다 효율적인 오디오 스플라이싱에 대한 개념을 제공하는 것이다.

이러한 과제는 여기 첨부된 독립 청구항들의 요지에 의해 달성된다.

본 출원의 발명은 오디오 스플라이싱이 미리 결정된 액세스 유닛에 대해, 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부를 재생시 폐기될 것으로 오디오 디코더에 표시하도록 오디오 데이터 스트림에 삽입된 하나 이상의 절단 유닛 패킷들의 사용에 의해 보다 효과적이게 될 수 있다는 아이디어에 의해 영감을 받는다.

본 출원의 양상에 따르면, 오디오 데이터 스트림에는 이와 같이 제공된 오디오 데이터 스트림을 오디오 프레임 길이보다 더 미세한 시간 세분성으로 미리 결정된 액세스 유닛에서 보다 쉽게 스플라이싱 가능하게 만들기 위해 이러한 절단 유닛 패킷이 초기에 제공된다. 따라서 하나 이상의 절단 유닛 패킷들은 오디오 디코더 및 스트림 스플라이서로 각각 어드레싱된다. 실시예들에 따르면, 스트림 스플라이서는 가능한 스플라이스 포인트를 로케이팅하기 위해 이러한 절단 유닛 패킷을 간단히 탐색한다. 스트림 스플라이서는 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 그에 따라 절단 유닛 패킷을 설정하고, 미리 결정된 액세스 유닛에서 제 1 오디오 데이터 스트림을 절단하며, 미리 결정된 액세스 유닛에서 서로 인접하도록 오디오 데이터 스트림을 다른 오디오 데이터 스트림과 스플라이싱한다. 절단 유닛 패킷이 이미 스플라이싱 가능 오디오 데이터 스트림 내에 제공되므로, 스플라이싱 프로세스에 의해 어떠한 추가 데이터도 삽입되지 않을 것이며, 이에 따라 비트 레이트 소비는 그 사이에 변하지 않는다.

대안으로, 절단 유닛 패킷은 스플라이싱 시점에 삽입될 수도 있다. 오디오 데이터 스트림에 초기에 절단 유닛 패킷을 제공하거나 스플라이싱 시점에 오디오 데이터스트림에 절단 유닛 패킷을 제공하는 것과는 무관하게, 스플라이싱된 오디오 데이터 스트림은 그 내부에 삽입된 이러한 절단 유닛 패킷을 갖는데, 말단부는 미리 결정된 액세스 유닛이 스플라이스 포인트를 이끄는 오디오 데이터 스트림의 일부인 경우에는 트레일링 단부 부분이고 미리 결정된 액세스 유닛이 스플라이스 포인트에 후속하는 오디오 데이터 스트림의 일부인 경우에는 리딩 단부 부분이다.

본 출원의 구현들의 유리한 양상들이 종속 청구항들의 대상이다. 특히, 본 출원의 선호되는 실시예들은 다음 중의 도면들에 관해 아래에 설명된다.
도 1은 위에서부터 아래까지 오디오 신호, 오디오 신호의 오디오 프레임들의 단위로 오디오 신호를 인코딩한 오디오 데이터 스트림, 프레임들의 시퀀스 및 다른 오디오 데이터 스트림으로 구성된 비디오, 그리고 잠재적으로 어떤 비디오 프레임으로부터 앞으로 초기 오디오 신호를 대체할, 인코딩된 오디오 신호를 개략적으로 도시한다.
도 2는 본 출원의 실시예에 따른 스플라이싱 가능 오디오 데이터 스트림, 즉 스플라이싱 동작들을 완화하기 위해 TU 패킷들이 제공되는 오디오 데이터 스트림의 개략도를 도시한다.
도 3은 실시예에 따른 TU 패킷을 예시하는 개략도를 도시한다.
도 4는 TU 패킷이 각각 리딩 단부 부분 및 트레일링 단부 부분을 시그널링할 수 있는 다른 실시예에 따른 TU 패킷을 개략적으로 도시한다.
도 5는 실시예에 따른 오디오 인코더의 블록도를 도시한다.
도 6은 실시예에 따른 스플라이스-인 및 스플라이스-아웃 시간 인스턴트들에 대한 트리거 소스를 예시하는 개략도를 도시하며, 이는 비디오 프레임 래스터에 의존한다.
도 7은 실시예에 따른 스트림 스플라이서의 개략적인 블록도를 도시하며, 이 도면은 도 2의 오디오 데이터 스트림을 수신하고 그것에 기초하여 스플라이싱된 오디오 데이터 스트림을 출력하는 것으로서 스트림 스플라이서를 추가로 도시한다.
도 8은 실시예에 따라 하위 오디오 데이터 스트림을 상위 오디오 데이터 스트림에 스플라이싱할때 도 7의 스트림 스플라이서의 동작 모드의 흐름도를 도시한다.
도 9는 실시예에 따라 하위 오디오 데이터 스트림으로부터 다시 상위 오디오 데이터 스트림으로 스플라이싱할 때 스트림 스플라이서의 동작 모드의 흐름도를 도시한다.
도 10은 도 7에 도시된 스플라이싱된 오디오 데이터 스트림을 수신하는 오디오 디코더를 추가로 예시하는 실시예에 따른 오디오 디코더의 블록도를 도시한다.
도 11은 액세스 유닛들이 IPF 액세스 유닛들 및/또는 TU 패킷들을 포함하는 액세스 유닛들인 것에 따라 액세스 유닛들의 서로 다른 처리들을 예시하기 위해 도 10의 오디오 디코더의 동작 모드의 흐름도를 도시한다.
도 12는 TU 패킷의 신택스의 일례를 보여준다.
도 13a ? 도 13c는 하나의 오디오 데이터 스트림으로부터 다른 오디오 데이터 스트림으로 스플라이싱하기 위한 방법의 서로 다른 예들을 도시하며, 스플라이싱 시간 인스턴트는 비디오, 여기서는 초당 50개의 프레임들의 비디오 그리고 하나의 비디오 프레임 듀레이션은 1800개의 시간축 틱들과 같고, 하나의 오디오 프레임 또는 오디오 그래뉼은 1920개의 시간축 틱들과 같도록 90 ㎑인 타임스탬프 시간축에서 그리고 1024개의 샘플 폭 그래뉼들 또는 오디오 프레임들로 48㎑로 오디오 데이터 스트림들로 코딩된 오디오 신호에 의해 결정된다.
도 14는 도 13a - 도 13c의 예시적인 프레임 및 샘플 레이트들을 사용하여 오디오 프레임 래스터에 의해 결정된 스플라이싱 시간 인스턴트에 2개의 오디오 데이터 스트림들을 스플라이싱하는 다른 예시적인 경우를 예시하는 개략도를 도시한다.
도 15는 실시예에 따라 상이한 코딩 구성들의 2개의 오디오 데이터 스트림들을 스플라이싱할 때의 인코더 동작을 예시하는 개략도를 도시한다.
도 16은 실시예에 따라 스플라이싱을 사용하는 상이한 경우들을 도시한다.
도 17은 실시예에 따라 서로 다른 코딩 구성들을 지원하는 오디오 인코더의 블록도를 도시한다.

도 1은 각각의 오디오 데이터 스트림을 다른 오디오 데이터 스트림과 스플라이싱하려고 할 때 발생하는 문제점들을 예시하기 위해 오디오 데이터 스트림의 예시적인 부분을 도시한다. 그와 같이, 도 1의 오디오 데이터 스트림은 후속하는 도면들에 도시된 오디오 데이터 스트림들의 일종의 기반을 형성한다. 이에 따라서, 도 1의 오디오 데이터 스트림에 대한 설명은 또한 이하에서 더 설명되는 오디오 데이터 스트림에 대해서도 유효하다.

도 1의 오디오 데이터 스트림은 일반적으로 참조 부호 10을 사용하여 표시된다. 오디오 데이터 스트림은 오디오 신호(12)를 인코딩한다. 특히, 오디오 신호(12)는 오디오 프레임들(14)의 단위로, 즉 도 1에 예시된 바와 같이, 중첩하지 않고 서로 시간상 접하거나, 또는 대안으로 서로 중첩할 수 있는 오디오 신호(12)의 시간 부분들로 오디오 데이터 스트림으로 인코딩된다. 오디오 신호(12)가 오디오 프레임들(14)의 단위로 오디오 데이터 스트림(10)으로 인코딩되는 방법은 서로 다르게 선택될 수 있는데: 오디오 신호를 오디오 프레임들(14)의 단위로 데이터 스트림(10)으로 인코딩하기 위해 변환 코딩이 사용될 수 있다. 그 경우, 오디오 프레임(14)의 오디오 신호에 하나 또는 여러 개의 스펙트럼 분해 변환들이 적용될 수 있는데, 하나 이상의 스펙트럼 분해 변환들은 오디오 프레임(14)을 시간적으로 커버하고 그것의 리딩 및 트레일링 단부를 넘어 연장한다. 스펙트럼 분해 변환 계수들은 데이터 스트림 내에 포함되어, 디코더가 역변환에 의해 각각의 프레임을 재구성할 수 있게 한다. 오디오 신호가 스펙트럼으로 분해되는 유닛들에서 상호 간에 그리고 심지어는 오디오 프레임 경계들을 넘어서 중첩하는 변환 부분들은 인코더 및/또는 디코더 측에서 소위 윈도우 함수들로 윈도우화되어, 역변환되어 시그널링된 스펙트럼 조성 변환들이 서로 중첩되어 가산되게 하는 디코더 측에서의 소위 중첩 가산 프로세스가 오디오 신호(12)의 재구성을 드러낸다.

대안으로, 예를 들어 오디오 데이터 스트림(10)은 선형 예측을 사용하여 오디오 프레임들(14)의 단위로 오디오 신호(12)를 인코딩하는데, 선형 예측에 따라 오디오 프레임들이 선형 예측 계수들 그리고 결국, LTP 이득 및 LTP 래그와 같은 장기 예측(LTP: Long Term Prediction) 계수들, 코드북 인덱스들 및/또는 여기(잔여 신호)의 변환 코딩을 이용한 예측 잔차의 코딩된 표현을 사용하여 코딩된다. 여기에서도, 디코딩 측에서 오디오 프레임(14)의 재구성은 선행하는 프레임의 코딩 또는 예를 들어, 하나의 오디오 프레임에서 다른 오디오 프레임으로의 시간 예측 또는 여기 신호 등을 변환 코딩하기 위한 변환 윈도우들의 중첩에 의존할 수 있다. 이 상황은 다음 설명에서 역할을 하기 때문에 여기서 이 상황이 언급된다.

송신 및 네트워크 처리 목적들로, 오디오 데이터 스트림(10)은 페이로드 패킷들(16)의 시퀀스로 구성된다. 페이로드 패킷들(16) 각각은 오디오 데이터 스트림(10)이 스트림 순서(20)를 따라 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속한다. 액세스 유닛들(18) 각각은 도 1의 양방향 화살표들(22)로 지시된 바와 같이 오디오 프레임들(14) 중 각각의 오디오 프레임과 연관된다. 도 1에 예시된 바와 같이, 오디오 프레임들(14)의 시간 순서는 데이터 스트림(10)에서 연관된 오디오 프레임들(18)의 순서와 일치할 수 있는데: 데이터 스트림(10)에서 다른 오디오 프레임의 액세스 유닛 직후의 데이터 스트림(10) 내의 액세스 유닛과 다른 프레임 직후의 오디오 프레임(14)이 연관될 수 있다.

즉, 도 1에 도시된 바와 같이, 각각의 액세스 유닛(18)은 하나 이상의 페이로드 패킷들(16)을 가질 수 있다. 특정 액세스 유닛(18)의 하나 이상의 페이로드 패킷들(16)은 연관된 프레임(14)을 기술하는 앞서 언급한 코딩 파라미터들, 이를테면 스펙트럼 분해 변환 계수들, LPC들, 및/또는 여기 신호의 코딩을 인코딩했다.

오디오 데이터 스트림(10)은 또한 데이터 스트림(10)의 각각의 액세스 유닛(18)에 대해, 각각의 액세스 유닛(18)(AU_i)이 연관되는 오디오 프레임(i)이 재생되는 이 타임스탬프(t_i)를 표시하는 타임스탬프 정보(24)를 포함할 수 있다. 도 1에 예시된 바와 같이, 타임스탬프 정보(24)는 연관된 오디오 프레임의 타임스탬프를 표시하기 위해 각각의 액세스 유닛(18)의 하나 이상의 패킷들(16) 중 하나에 삽입될 수 있지만, 연관된 액세스 유닛(AU_i)의 하나 이상의 패킷들 각각으로 오디오 프레임(i)의 타임스탬프 정보(t_i)를 삽입하는 것과 같은 다른 해결책들이 역시 실시 가능하다.

패킷화, 액세스 유닛 분할 및 타임스탬프 정보(24)로 인해, 오디오 데이터 스트림(10)은 특히 인코더와 디코더 사이에서 스트리밍되는데 적합하다. 즉, 도 1의 오디오 데이터 스트림(10)은 스트림 포맷의 오디오 데이터 스트림이다. 도 1의 오디오 데이터 스트림은 예컨대, MPEG-H 3D 오디오 또는 MHAS [2]에 따른 오디오 데이터 스트림일 수 있다.

전송/네트워크 처리를 용이하게 하기 위해, 패킷들(16)은 바이트 정렬 크기들을 가질 수 있고 서로 다른 타입들의 패킷들(16)이 구별될 수 있다. 예를 들어, 일부 패킷들(16)은 제 1 오디오 채널 또는 제 1 세트의 오디오 채널들에 관련될 수 있고, 이와 연관된 제 1 패킷 타입을 갖는 한편, 이와 연관된 다른 패킷 타입을 갖는 패킷들은 인코딩된 오디오 신호(12)의 다른 오디오 채널 또는 다른 세트의 오디오 채널들을 갖는다. 추가 패킷들이라도 구성 데이터, 유효한 또는 액세스 유닛의 시퀀스에 의해 사용되는 코딩 파라미터들과 같이 거의 변하지 않는 데이터를 전달하는 패킷 타입일 수 있다. 다른 패킷들(16)이라도 이들이 속하는 액세스 유닛에 대해 유효한 코딩 파라미터들을 전달하는 패킷 타입일 수 있는 한편, 다른 페이로드 패킷들은 샘플들 값들, 변환 계수들, LPC 계수들 등의 코딩들을 전달한다. 이에 따라, 각각의 패킷(16)은 중간 네트워크 엔티티들 및 디코더에 의해 각각 쉽게 액세스 가능한 패킷 타입 표시자를 가질 수 있다. 이하 설명되는 TU 패킷들은 패킷 타입에 의해 페이로드 패킷들과 구별 가능할 수 있다.

오디오 데이터 스트림(10)이 그대로 송신되는 한, 문제는 발생하지 않는다. 그러나 오디오 신호(12)가 도 1에서 τ로 예시적으로 표시된 어떤 시점까지 디코딩 측에서 재생되어야 한다고 가정한다. 도 1은 예를 들어, 이 시점(τ)이 비디오 프레임 클록과 같은 일부 외부 클록에 의해 결정될 수 있음을 예시한다. 예컨대, 도 1은 26에서 오디오 신호(12)에 대해 겹쳐서 시간 정렬 방식으로 프레임들(28)의 시퀀스로 구성된 비디오를 예시한다. 예를 들어, 타임스탬프(T_frame)는 새로운 장면, 새로운 프로그램 등의 첫 번째 화면의 타임스탬프 일 수 있으며, 이에 따라 오디오 신호(12)는 그 시간(τ = T_frame)에 절단되고 그 시점에서부터 앞으로 예컨대, 새로운 장면 또는 프로그램의 톤 신호를 나타내는 다른 오디오 신호(12)로 대체되는 것이 바람직할 수 있다. 예컨대, 도 1은 오디오 데이터 스트림(10)과 동일한 방식으로, 즉 제 1 오디오 프레임(14)이 타임스탬프(T_frame)과 일치하는 리딩 단부를 갖는 식으로, 즉 오디오 신호(32)가 프레임(14)의 리딩 단부에서 재생되어야 하는 식으로 오디오 프레임(14) 내의 타임스탬프(T_frame)에서 시작하는 프레임들(28)의 화면들의 시퀀스를 동반하거나 기술하는 오디오 신호(32)가 타임스탬프(T_frame)의 재생에 등록한 하나 이상의 페이로드 패킷들(16)로 구성된 액세스 유닛들(18)을 사용하여 구성된 이미 존재하는 오디오 데이터 스트림(30)을 예시한다.

그러나 불리하게, 오디오 데이터 스트림(10)의 프레임들(14)의 프레임 레이트는 비디오(26)의 프레임 레이트와는 완전히 독립적이다. 이에 따라, 오디오 신호(12)의 특정 프레임 (14) 내에서 τ = T_frame이 속하는 것은 완전히 랜덤하다. 즉, 어떠한 추가 조치도 없이, τ가 있는 오디오 프레임(14, j)과 연관된 액세스 유닛(AU_j)을 완전히 제외시키고, 오디오 데이터 스트림(10)의 선행 액세스 유닛(AU_j-1)에 오디오 데이터 스트림(30)의 액세스 유닛들(18)의 시퀀스를 첨부하는 것만이 가능할 것이지만, 이로써 오디오 신호(12)의 오디오 프레임(j)의 리딩 단부 부분(34)에 뮤트를 야기한다.

이하 설명되는 다양한 실시예들은 위에서 개괄한 결점을 극복하고 그러한 스플라이싱 문제들의 처리를 가능하게 한다.

도 2는 본 출원의 실시예에 따른 오디오 데이터 스트림을 도시한다. 도 2의 오디오 데이터 스트림은 일반적으로 참조 부호 40을 사용하여 표시된다. 주로, 오디오 신호(40)의 구성은 오디오 데이터 스트림(10)에 대해 위에서 설명된 것과 일치하는데, 즉 오디오 데이터 스트림(40)은 페이로드 패킷들의 시퀀스, 즉 데이터 스트림(40)이 분할되는 각각의 액세스 유닛(18)에 대한 하나 이상의 페이로드 패킷들을 포함한다. 각각의 액세스 유닛(18)은 오디오 프레임들(14)의 단위로 데이터 스트림(40)으로 인코딩된 오디오 신호의 오디오 프레임 중 특정 오디오 프레임과 연관된다. 그러나 이것 외에도, 오디오 데이터 스트림(40)은 임의의 미리 결정된 액세스 유닛이 연관되는 오디오 프레임 내에서 스플라이싱될 “준비”가 되었다. 여기서, 이것은 예시적으로 액세스 유닛(AU_i) 및 액세스 유닛(AU_j)이다. 먼저 액세스 유닛(AU_i)를 참조한다. 특히, 오디오 데이터 스트림(40)은 이에 절단 유닛 패킷(42)을 삽입함으로써 "스플라이싱 가능"해지는데, 절단 유닛 패킷(42)은 액세스 유닛(AU_i)에 대해 연관된 오디오 프레임(i)의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능하다. 절단 유닛 패킷(42)의 이점들 및 효과들은 이후에 논의될 것이다. 그러나 절단 유닛 패킷(42)의 포지셔닝 및 그 내용에 관해서는 일부 예비적 주지들이 이루어져야한다. 예를 들어, 도 2는 절단 유닛 패킷(42)이 액세스 유닛(AU_i), 즉 절단 유닛 패킷(42)이 표시하는 말단부 내에 위치하는 것으로 도시하지만, 절단 유닛 패킷(42)은 대안으로 액세스 유닛(AU_i)에 선행하는 임의의 액세스 유닛에 포지셔닝될 수 있다. 마찬가지로, 절단 유닛 패킷(42)이 액세스 유닛(AUi) 내에 있더라도, 액세스 유닛(42)은 도 2에 예시적으로 예시된 바와 같이 각각의 액세스 유닛(AU_i)에서 첫 번째 패킷일 필요는 없다.

도 3에 예시된 실시예에 따르면, 절단 유닛 패킷(42)에 의해 표시되는 말단부는 트레일링 단부 부분(44), 즉 오디오 프레임(14) 내의 어떤 시간 인스턴트(t_inner)로부터 프레임(14)의 트레일링 단부까지 연장하는 프레임(14)의 일부이다. 즉, 도 3의 실시예에 따르면, 절단 유닛 패킷(42)에 의해 표시된 말단부가 리딩 단부 부분일지 아니면 트레일링 단부 부분일지를 시그널링하는 신택스 엘리먼트가 존재하지 않는다. 그러나 도 3의 절단 유닛 패킷(42)은 패킷(42)이 절단 유닛 패킷임을 나타내는 패킷 타입 인덱스(46), 그리고 절단 길이, 즉 트레일링 단부 부분(44)의 시간 길이(Δt)를 나타내는 절단 길이 엘리먼트(48)를 포함한다. 절단 길이(48)는 개개의 오디오 샘플들의 단위로, 또는 n이 1보다 크고 예를 들어, N개의 샘플들보다 더 적은 연속적인 오디오 샘플들의 n-튜플로 부분(44)의 길이를 측정할 수 있으며, N은 프레임(14)에서 샘플들의 수이다.

절단 유닛 패킷(42)은 선택적으로 하나 이상의 플래그들(50, 52)을 포함할 수 있다고 나중에 설명될 것이다. 예를 들어, 플래그(50)는 절단 유닛 패킷(42)이 말단부(44)를 표시하는 액세스 유닛(AU_i)이 스플라이스-아웃(splice-out) 포인트로서 사용될 준비가 됨을 표시하는 스플라이스-아웃 플래그일 수 있다. 플래그(52)는 현재 액세스 유닛(AU_i)이 실제로 스플라이스-아웃 포인트로서 사용되었는지 여부를 표시하기 위해 디코더에 전용되는 플래그일 수 있다. 그러나 플래그(50, 52)는 단지 개요를 설명한 바와 같이, 단지 선택적일 뿐이다. 예를 들어, TU 패킷(42) 자체의 존재는 절단 유닛(42)이 속하는 액세스 유닛이 스플라이스-아웃에 적합한 그러한 액세스 유닛이라는 스트림 스플라이서들 및 디코더들에 대한 신호일 수 있고, 절단 길이(48)를 0으로 설정하는 것은 어떠한 절단도 수행되지 않고 이에 따라 어떠한 스플라이스-아웃도 없다는 디코더에 대한 표시일 수 있다.

TU 패킷(42)에 관한 위의 주지들은 TU 패킷(58)과 같은 임의의 TU 패킷에 대해 유효하다.

아래 추가 설명되는 바와 같이, 액세스 유닛의 리딩 단부 부분의 표시가 또한 필요할 수 있다. 이 경우, TU 패킷(58)과 같은 절단 유닛 패킷은 도 3에 도시된 것과 같은 트레일링 단부 부분을 표시하도록 설정 가능할 수 있다. 이러한 TU 패킷(58)은 절단 유닛 패킷의 타입 인덱스(46)에 의해 42와 같은 리딩 단부 부분 절단 유닛 패킷들과 구별될 수 있다. 즉, 서로 다른 패킷 타입들은 트레일링 단부 부분들을 나타내는 TU 패킷들(42) 및 리딩 단부 부분들을 나타내는 TU 패킷들과 각각 연관될 수 있다.

완전성을 위해, 도 4는 확률을 예시하는데, 이에 따라 절단 유닛 패킷(42)이 도 3에 도시된 신택스 엘리먼트들뿐만 아니라, 오디오 프레임(i)의 리딩 단부 또는 트레일링 단부로부터 오디오 프레임(i)의 내측을 향하여 절단 길이(48)가 측정되었는지, 즉 절단 길이(48)로 길이가 표시되는 말단부가 트레일링 단부 부분(44)인지 아니면 리딩 단부 부분(56)인지를 표시하는 리딩/트레일링 표시자(54)를 포함한다. 그렇다면 TU 패킷들의 패킷 타입은 동일할 것이다.

아래에서 보다 상세하게 개요가 설명되는 바와 같이, 절단 유닛 패킷(42)은 액세스 유닛(AU_i)을 스플라이스-아웃에 적합하게 만드는데, 이는 아래 추가 설명되는 스트림 스플라이서가 외부에서 정의된 스플라이스-아웃 시간()(도 1 비교)으로부터 오디오 프레임(i)의 재생이 중지되도록 트레일링 단부 부분(44)을 설정하는 것이 실현 가능하기 때문이다. 그때 이후로, 스플라이스-인 된(spliced-in) 오디오 데이터 스트림의 오디오 프레임들이 재생될 수 있다.

그러나 도 2는 또한 오디오 데이터 스트림(40)에 삽입되는 추가 절단 유닛 패킷(58)을 예시하는데, 이 추가 절단 유닛 패킷(58)은 j> i인 액세스 유닛(AU_j)에 대해 그 말단부가 재생시 폐기될 것임을 표시하도록 설정 가능하다. 그러나 이때, 액세스 유닛(AU_j), 즉 액세스 유닛(AU_j+1)은 직전 액세스 유닛(AU_j-1)과는 독립적인 방식으로, 즉 어떠한 예측 기준들 또는 내부 디코더 레지스터들도 선행 액세스 유닛(AU_j-1)에 의존하여 설정되지 않을 것이라는 점에서, 또는 어떠한 중첩 가산 프로세스도 액세스 유닛(AU_j-1)의 재구성을 액세스 유닛(AU_j)을 정확히 재구성하고 재생하기 위한 요건으로 만들지 않는다는 점에서, 그 연관된 오디오 프레임(j)을 인코딩한다. 즉시 재생 액세스 유닛인 액세스 유닛(AU_j)을, 위에서 개요를 설명한 액세스 유닛 상호 의존성들을 일으키는 다른 액세스 유닛, 이를테면 그 중에서도 특히 AU_i와 구별하기 위해, 액세스 유닛(AU_j)는 해칭을 사용하여 강조 표시된다.

도 2는 연관된 액세스 유닛을 기초로 한 각각의 오디오 프레임의 정확한 재구성 및 재생이 단지, 선행 액세스 유닛으로부터 각각의 액세스 유닛을 가리키는 작은 화살표들(60)로 예시된 바와 같이, 직전 액세스 유닛에 액세스하는 경우에만 실행 가능하다는 점에서 그 재구성이 직전 액세스 유닛에 의존하는 식으로, 도 2에 도시된 다른 액세스 유닛들이 이들의 연관된 오디오 프레임을 인코딩되게 한다는 사실을 예시한다. 액세스 유닛(AU_j)의 경우, 액세스 유닛(AU_j)의 즉시 재생 능력을 나타내기 위해, 직전 액세스 유닛, 즉 AU_j-1로부터 액세스 유닛(AU_j)을 가리키는 화살표가 교차된다. 예를 들어, 이 즉시 재생 능력을 제공하기 위해, 액세스 유닛(AU_j)은 디코더의 내부 레지스터들을 초기화하기 위한 초기화 정보, 직전 액세스 유닛의 역변환들의 시간상 중첩되는 부분에 의해 일반적으로 제공되는 에일리어싱 제거 정보의 추정을 가능하게 하는 데이터 등과 같은 추가 정보를 그 안에 인코딩되게 한다.

액세스 유닛들(AU_i, AU_j)의 성능들은 서로 다른데: 액세스 유닛(AU_i)은 아래에 개요가 설명되는 바와 같이, 절단 유닛 패킷(42)의 존재로 인해 스플라이스-아웃 포인트로서 적합하다. 즉, 스트림 스플라이서는 다른 오디오 데이터 스트림, 즉 스플라이스-인 된 오디오 데이터 스트림으로부터의 액세스 유닛들을 부가하도록 액세스 유닛(AU_i)에서 오디오 데이터 스트림(40)을 절단할 수 있다.

TU 패킷(58)이 트레일링 단부 부분(44)을 표시할 수 있다면, 이는 액세스 유닛(AU_j)에서도 역시 실현 가능하다. 추가로 또는 대안으로, 절단 유닛 패킷(58)은 리딩 단부 부분을 표시하도록 설정 가능하고, 이 경우에 액세스 유닛(AU_j)은 때때로 스플라이스-(백-)인으로서의 역할을 하기에 적합하다. 즉, 절단 유닛 패킷(58)은 오디오 프레임(j)의 리딩 단부 부분을 재생되지 않는 것으로 표시할 수 있으며, 그 시점까지, 즉 이 트레일링 단부 부분의 트레일링 단부까지, (예비적으로) 스플라이스-인 된 오디오 데이터 스트림이 재생될 수 있다.

예를 들어, 절단 유닛 패킷(42)은 스플라이스-아웃 플래그(50)를 0으로 설정할 수 있는 한편, 절단 유닛 패킷(58)의 스플라이스-아웃 플래그(50)는 0으로 설정될 수도 있고 또는 1로 설정될 수도 있다. 일부 명시적인 예들이 이를테면, 도 16에 관해 이하에서 더 설명될 것이다.

스플라이스-인 가능 액세스 유닛(AU_j)의 존재에 대한 필요성은 없다는 점이 주목되어야 한다. 예를 들어, 스플라이스-인 될 오디오 데이터 스트림은 시간 인스턴트() 이후부터 오디오 데이터 스트림(40)의 재생을 완전히 대체하도록 의도될 수 있는데, 즉 오디오 데이터 스트림(40)에 대해 스플라이스-(백-)인이 일어나지 않는다. 그러나 스플라이스-인 될 오디오 데이터 스트림이 단지 예비적으로 오디오 데이터 스트림(40)의 오디오 신호를 대체하는 것이라면, 오디오 데이터 스트림(40)으로 다시 스플라이스-인이 필요하고, 그 경우 임의의 스플라이스-아웃 TU 패킷(42)에 대해 데이터 스트림 순서(20)로 뒤따르는 스플라이스-인 TU 패킷(58)이 있어야 한다.

도 5는 도 2의 오디오 데이터 스트림(40)을 생성하기 위한 오디오 인코더(70)를 도시한다. 오디오 인코더(70)는 오디오 인코딩 코어(72) 및 절단 패킷 삽입기(74)를 포함한다. 오디오 인코딩 코어(72)는 예를 들어, 도 1에 관해 앞서 설명된 방식으로, 오디오 신호의 오디오 프레임들의 단위로 오디오 인코딩 코어(72)에 입력되는 오디오 신호(12)를 오디오 데이터 스트림(40)의 페이로드 패킷으로 인코딩하도록 구성된다. 즉, 오디오 인코딩 코어(72)는 예를 들어, MDCT와 같은 랩핑된(lapped) 변환을 사용하여 오디오 신호(12)를 인코딩한 다음, 변환 계수들을 코딩하는 변환 코더일 수 있으며, 여기서 랩핑된 변환의 윈도우들은 앞서 설명한 바와 같이 연속적인 오디오 프레임들 사이의 프레임 경계들을 가로 지를 수 있으며, 이로써 바로 연속하는 오디오 프레임들과 이들의 연관된 액세스 유닛들의 상호 의존성으로 이어진 수 있다. 대안으로, 오디오 인코더 코어(72)는 오디오 신호(12)를 데이터 스트림(40)으로 인코딩하기 위해 선형 예측 기반 코딩을 사용할 수 있다. 예를 들어, 오디오 인코딩 코어(72)는 오디오 신호(12)의 스펙트럼 포락선 또는 이것의 어떤 사전 필터링된 버전을 기술하는 선형 예측 계수들을 적어도 프레임 단위로 인코딩하는데, 여기 신호를 추가로 코딩한다. 여기 신호 코딩에 관한 예측 코딩 또는 랩핑된 변환 문제들의 지속적인 업데이트들은 바로 연속하는 오디오 프레임들과 이들의 연관된 액세스 유닛들 간의 상호 의존성들로 이어질 수 있다. 그러나 다른 코딩 원칙들도 가정할 수 있다.

절단 유닛 패킷 삽입기(74)는 도 2의 42 및 58과 같은 절단 유닛 패킷들을 오디오 데이터 스트림(40)에 삽입한다. 도 5에 도시된 바와 같이, TU 패킷 삽입기(74)는 이를 위해 스플라이스 위치 트리거(76)에 응답할 수 있다. 예를 들어, 스플라이스 위치 트리거(76)는 장면 또는 프로그램 변화들 또는 비디오에서, 즉 프레임들의 시퀀스 내에서의 다른 변화들을 통보 받을 수 있고, 이에 따라 절단 유닛 패킷 삽입기(74)에 그러한 새로운 장면 또는 프로그램의 임의의 첫 번째 프레임을 시그널링할 수 있다. 오디오 신호(12)는 예를 들면, 비디오의 개별 장면들이나 프로그램들 중 어느 것도 다른 프레임 시퀀스들 등으로 대체되지 않는 경우에 대한 비디오의 오디오 동반을 연속적으로 나타낸다. 예를 들어, 비디오가 라이브 축구 게임을 나타내고 오디오 신호(12)가 그에 관련된 톤 신호라고 가정한다. 그러면, 스플라이스 위치 트리거(76)는 광고들, 즉 광고 비디오들에 의한 잠재적인 대체 대상이 되는 축구 게임 비디오의 시간 부분들을 식별하도록 수동으로 또는 자동으로 작동될 수 있고, 이에 따라 트리거(76)는 그러한 부분들의 시작들을 TU 패킷 삽입기(74)에 시그널링하여, TU 패킷 삽입기(74)는 이에 대한 응답으로, 그러한 위치에, 즉 비디오의 잠재적으로 대체될 부분의 첫 번째 비디오 프레임이 있는 오디오 프레임과 연관된 액세스 유닛과 관련된 위치에 TU 패킷(42)을 삽입할 수 있다. 또한, 트리거(76)는 그러한 부분의 끝이 떨어지는 오디오 프레임과 연관된 각각의 액세스 유닛에 TU 패킷(58)을 삽입하기 위해 이러한 잠재적으로 대체될 부분들의 트레일링 단부에 대해 TU 패킷 삽입기(74)에 통지한다. 이러한 TU 패킷들(58)에 관한 한, 오디오 인코딩 코어(72)는 트리거(76)에 또한 응답하여, 각각의 오디오 프레임을 앞서 설명한 바와 같이 즉시 재생을 가능하게 하는 방식으로 그러한 액세스 유닛(AU_j)(도 2 비교)으로 상이하게 또는 예외적으로 인코딩한다. 사이에서, 즉 비디오의 그러한 잠재적으로 대체될 부분들 내에서, 트리거(76)는 스플라이스-인 포인트 또는 스플라이스-아웃 포인트로서의 역할을 하기 위해 TU 패킷들(58)을 간헐적으로 삽입할 수 있다. 구체적인 예에 따르면, 트리거(76)는 잠재적으로 대체될 그러한 부분의 첫 번째 또는 시작 프레임의 타임스탬프들, 그리고 그러한 부분의 마지막 또는 최종 프레임의 타임스탬프를 오디오 인코더(70)에 알리고, 인코더(70)는 트리거(76)로부터 수신된 타임스탬프들이 속하는 오디오 프레임들을 식별함으로써, TU 패킷 삽입 및 잠재적인 즉시 재생 인코딩이 일어날 오디오 프레임들 및 연관된 액세스 유닛들을 식별한다.

이것을 예시하기 위해, 오디오 인코딩 코어(72)가 작동하는, 즉 80에서의 고정 프레임 래스터를 오디오 신호(12)가 속하는 비디오의 고정 프레임 래스터(82)와 함께 보여주는 도 6을 참조한다. 비디오(86) 중 부분(84)은 중괄호를 사용하여 표시된다. 이 부분(84)은 예를 들어, 조작자에 의해 수동으로 또는 장면 검출에 의해 완전히 또는 부분적으로 자동으로 결정된다. 첫 번째 프레임과 최종 프레임(88, 90)은 프레임 래스터(80)의 오디오 프레임들(i, j) 내에 있는 타임스탬프들(T_b, T_e)과 연관된다. 이에 따라, 이들 오디오 프레임들(14), 즉 i 및 j에는 TU 패킷 삽입기(74)에 의해 TU 패킷들이 제공되고, 여기서 오디오 인코딩 코어(72)는 오디오 프레임(j)에 대응하는 액세스 유닛을 생성하기 위해 즉시 재생 모드를 사용한다.

TU 패킷 삽입기(74)는 디폴트 값들로 TU 패킷들(42, 58)을 삽입하도록 구성될 수 있다는 점이 주목되어야 한다. 예를 들어, 절단 길이 신택스 엘리먼트(48)는 0으로 설정될 수 있다. 선택적인 스플라이스-인 플래그(50)에 관한 한, 스플라이스-인 플래그(50)는 도 2 내지 도 4에 관해 앞서 개요를 설명한 방식으로 TU 패킷 삽입기(74)에 의해 설정되는데, 즉 이는 TU 패킷들(42)에 대한 그리고 비디오(86)의 최종 프레임 또는 이미지에 등록된 것들 외에 모든 TU 패킷들(58)에 대한 스플라이스-아웃 가능성을 나타낸다. 스플라이스-액티브 플래그(52)는 지금까지 스플라이스가 적용되지 않았기 때문에 0으로 설정될 것이다.

도 6의 오디오 인코더에 관해, TU 패킷들의 삽입을 제어하는 방식, 즉 도 5 및 도 6에 관해 설명된 바와 같이, 삽입이 수행되는 액세스 유닛들을 선택하는 방식은 단지 예시일 뿐이며, 삽입이 수행되는 그러한 액세스 유닛들을 결정하는 다른 방식들도 역시 실현 가능하다는 점이 주목된다. 예를 들어, 모든 각각의 N번째(N>2) 액세스 유닛 또는 각각의 IPF 액세스 유닛인 각각의 액세스 유닛에는 대안으로 대응하는 TU 패킷이 제공될 수 있다.

위에서 명시적으로 언급되진 않았지만, 바람직하게는 TU 패킷이 압축되지 않은 형태로 코딩되어 각각의 TU 패킷의 비트 소비(코딩 비트 레이트)가 TU 패킷의 실제 설정과 독립적이 되게 한다. 이를 말하면, 인코더는 코딩된 오디오 버퍼의 채움 레벨을 로그하여, 데이터 스트림(40)이 수신되는 디코더 측의 코딩된 오디오 버퍼가 언더플로우함으로써 스톨(stall)을 초래하지도, 아니면 오버플로우함으로써 패킷들(12)의 손실을 초래하지도 않음을 보장하도록 구성된 (도 5에 도시되지 않은) 레이트 제어부를 선택적으로 포함할 수 있음을 주목하는 것이 더 가치가 있다. 인코더는 예를 들어, 어떤 레이트/왜곡 측정을 최적화하여 채움 레벨 제약에 순응하도록 양자화 스텝 크기를 제어/변화시킬 수 있다. 특히, 레이트 제어부는 일정한 또는 유사 일정할 수 있으며 예를 들어, 송신 네트워크와 같은 외부 엔티티에 의해 미리 설정될 수 있는 미리 결정된 송신 용량/비트 레이트를 가정하여, 디코더의 코딩된 오디오 버퍼의 채움 레벨을 추정할 수 있다. 데이터 스트림(40)의 TU 패킷들의 코딩 레이트는 레이트 제어부에 의해 고려된다. 따라서 도 2에 도시된 형태로, 즉 인코더(70)에 의해 생성된 버전에서, 데이터 스트림(40)은 오디오 신호(12)가 그 레이트/왜곡비 측면에서 디코더의 코딩된 오디오 채움 레벨을 오버로드(오버플로우로 이어짐)하지도 이를 낮추지도(언더플로우로 이어짐) 않는다면 가변 코딩 복잡도를 보상하기 위해, 미리 설정된 비트 레이트를 변하도록, 그러나 그 주위에서 변하도록 유지한다. 그러나 앞서 이미 간략히 개요가 설명된 바와 같이, 그리고 이하에서 보다 상세히 설명되는 바와 같이, 모든 각각의 스플라이스-아웃 액세스 유닛(AUi)은 바람직한 실시예들에 따라, 단지 오디오 프레임(i)의 시간 길이보다 더 짧은 시간 듀레이션 동안에만 디코더 측에서의 재생에 기여하는 것으로 가정된다. 아래에 제기된 설명으로부터 명확해지는 바와 같이, 스플라이스-인터페이스로서의 AU_i와 같은 각각의 스플라이스-아웃 AU에서 데이터 스트림(40)으로 스플라이싱된 스플라이스-인 된 오디오 데이터 스트림의 (리딩) 액세스 유닛이 각각의 스플라이스-아웃 AU의 후속 AU들을 대체할 것이다. 따라서 그 이후부터, 인코더(70) 내에서 수행되는 비트 레이트 제어는 더는 쓸모가 없다. 그 이상으로, 상기 리딩 AU는 바람직하게는 독립된 방식으로 코딩되어 즉시 재생을 가능하게 함으로써, 비-IPF AU들에 비해 코딩된 비트 레이트를 더 소비한다. 따라서 실시예에 따르면, 인코더(70)는 예를 들어, 각각의 스플라이스-아웃 AU의 끝에서, 즉 직후 AU에 대한 경계에서의 로깅된 채움 레벨이 예를 들어, 최대 채움 레벨의 ¾ 내지 1/8의 값 또는 ¼과 같은 미리 결정된 값을 가정하도록 레이트 제어를 계획하거나 스케줄링한다. 이 측정에 의해, 데이터 스트림(40)의 스플라이스-아웃 AU들에서 데이터 스트림(40)으로 스플라이싱될 것으로 가정된 오디오 데이터 스트림을 준비하는 다른 인코더들은, (다음에서는 간혹 아포스트로피로 원래의 것들과 구별되는) 이들 자체의 AU들의 수신 시작시 디코더의 코딩된 오디오 버퍼 채움 레벨이 미리 결정된 값이어서 이들 다른 인코더들이 이에 따라 레이트 제어를 더 발전시킬 수 있다는 사실에 의존할 수 있다. 지금까지 제기된 설명은 데이터 스트림(40)의 스플라이스-아웃 AU들에 집중했지만, 미리 결정된 추정/로깅된 채움 레벨의 준수는 또한 스플라이스-인 및 스플라이스-아웃 포인트로서의 이중 역할을 수행하지 않더라도, AU_j와 같은 스플라이스-(백-)인 AU들에 대한 레이트 제어에 의해 달성될 수 있다. 따라서 상기 다른 인코더들은 마찬가지로, 추정되거나 로깅된 채움 레벨이 데이터 스트림의 AU 시퀀스의 트레일링 AU에서 미리 결정된 채움 레벨을 가정하는 식으로 이들의 레이트 제어부를 제어할 수 있다. 이는 스플라이스-아웃 AU들에 대해 인코더(70)에 대해 언급된 것과 동일할 수 있다. 이러한 트레일링 AU들은 AU_j와 같은 데이터 스트림(40)의 스플라이스-인 AU들과의 스플라이스 포인트로부터 추정된 스플라이스-백(splice-back) AU들로부터 추정될 수 있다. 따라서 인코더(70)의 레이트 제어가 추정/로깅된 채움 레벨이 AU_j에서(또는 이후에 보다 양호하게) 미리 결정된 채움 레벨을 가정하도록 코딩된 비트 레이트를 계획/스케줄링한다면, 이 비트 레이트 제어는 데이터 스트림(40)을 인코딩 및 출력한 후에 스플라이싱이 수행되는 경우에도 그대로 유효하다. 앞서 언급한 미리 결정된 채움 레벨은 디폴트로 인코더들에 알려질 수 있는데, 즉 이들 사이에서 합의될 수 있다. 대안으로, 각각의 AU에는 각각의 스플라이스-인 또는 스플라이스-아웃 AU 바로 다음에 추정된 추정/로깅된 채움 레벨의 명시적인 시그널링이 제공될 수 있다. 예를 들어, 값은 각각의 스플라이스-인 또는 스플라이스-아웃 AU의 TU 패킷에서 송신될 수 있다. 이것은 추가적인 부가 정보 오버 헤드를 필요로 하지만, 인코더의 레이트 제어에는 스플라이스-인 또는 스플라이스-아웃 AU에서의 추정/로깅된 채움 레벨의 개발시 보다 자유가 제공될 수 있는데: 예를 들어, 추정/로깅된 채움 레벨은 각각의 스플라이스-인 또는 스플라이스-아웃 AU가 최대 채움 레벨, 즉 디코더의 코딩 된 오디오 버퍼의 최대 보장 용량의 ¾과 같은 어떤 임계치 이하인 것이 충분할 수 있다.

데이터 스트림(40)에 관해, 이것은 데이터 스트림(40)이 미리 결정된 평균 비트 레이트 주위에서 변화하도록 레이트 제어된다는 것, 즉 평균 비트 레이트를 갖는다는 것을 의미한다. 스플라이싱 가능 오디오 데이터 스트림의 실제 비트 레이트는 패킷들의 시퀀스에 걸쳐, 즉 시간상 변화한다. 미리 결정된 평균 비트 레이트로부터의 (현재) 편차는 시간상 통합될 수 있다. 이러한 통합된 편차는 스플라이스-인 및 스플라이스-아웃 액세스 유닛들에서, 통합된 비트 레이트 편차의 범위(최대-최소)보다 ½ 폭 미만일 수 있는 미리 결정된 간격 내의 값을 가정하거나, 고정된 값, 예를 들어 모든 스플라이스-인 및 스플라이스-아웃 AU들에 대해 동일한 값을 가정할 수 있는데, 그 값은 통합된 비트 레이트 편차의 최대치의 ¾보다 더 작을 수 있다. 앞서 설명한 바와 같이, 이 값은 디폴트로 미리 설정될 수 있다. 대안으로, 이 값은 고정된 것이 아니라 그리고 모든 스플라이스-인 및 스플라이스-아웃 AU들에 대해 동일한 것이 아니라 데이터 스트림에서 시그널링될 수 있다.

도 7은 실시예에 따라 오디오 데이터 스트림들을 스플라이싱하기 위한 스트림 스플라이서를 도시한다. 스트림 스플라이서는 참조 번호 100을 사용하여 표시되며, 제 1 오디오 입력 인터페이스(102), 제 2 오디오 입력 인터페이스(104), 스플라이스 포인트 설정기(106) 및 스플라이스 멀티플렉서(108)를 포함한다.

인터페이스(102)에서, 스트림 스플라이서는 "스플라이싱 가능"오디오 데이터 스트림, 즉 하나 이상의 TU 패킷들이 제공되는 오디오 데이터 스트림을 수신할 것을 예상한다. 도 7에는, 도 2의 오디오 데이터 스트림(40)이 인터페이스(102)에서 스트림 스플라이서(100)에 입력되는 것이 예시적으로 예시되어 있다.

다른 오디오 데이터 스트림(110)이 인터페이스(104)에서 수신될 것으로 예상된다. 스트림 스플라이서(100)의 구현에 따라, 인터페이스(104)에서 입력되는 오디오 데이터 스트림(110)은 도 1에 관해 설명되고 기술된 것과 같은 "준비되지 않은" 오디오 데이터 스트림 또는 아래 예시적으로 제시되는 바와 같이 준비된 오디오 데이터 스트림일 수 있다.

스플라이스 포인트 설정기(106)는 인터페이스(102)에서 입력되는 데이터 스트림에 포함된 절단 유닛 패킷, 즉 도 7의 경우에는 데이터 스트림(40)의 TU 패킷들(42, 58) 그리고 존재한다면 인터페이스(104)에서 입력되는 다른 데이터 스트림(110)의 절단 유닛 패킷들을 설정하도록 구성되며, 여기서 이러한 2개의 TU 패킷들, 즉 오디오 데이터 스트림(110)의 리딩 또는 첫 번째 액세스 유닛(AU'₁) 내의 TU 패킷(112) 및 오디오 데이터 스트림(110)의 마지막 또는 트레일링 액세스 유닛(AU'_K) 내의 TU 패킷(114)이 도 7에 예시적으로 도시된다. 특히, 오디오 데이터 스트림(40)의 액세스 유닛들로부터 오디오 데이터 스트림(110)의 액세스 유닛들을 구별하기 위해 도 7에서 아포스트로피가 사용된다. 또한, 도 7에 관해 개요가 설명된 예에서, 오디오 데이터 스트림(110)은 미리 인코딩되며, 데이터 스트림(40)으로 인코딩된 오디오 신호가 교체될 시간 간격을 함께 시간상 커버하는 K개의 오디오 프레임들에 대응하는 고정된 길이, 즉 여기서는 K개의 액세스 유닛인 것으로 가정된다. 도 7에서, 교체될 이러한 시간 간격은 액세스 유닛(AU_i)에 대응하는 오디오 프레임으로부터 액세스 유닛(AU_j)에 대응하는 오디오 프레임으로 확장된다고 예시적으로 가정한다.

특히, 스플라이스 포인트 설정기(106)는 아래에서 보다 상세히 설명되는 방식으로, 절단이 실제로 일어나는 것이 분명해지게 절단 유닛 패킷들을 설정하도록 구성된다. 예를 들어, 인터페이스들(102, 104)에 입력되는 데이터 스트림들의 절단 유닛들 내의 절단 길이(48)는 0으로 설정될 수 있는 한편, 스플라이스 포인트 설정기(106)는 TU 패킷들의 변환 길이(48)의 설정을 0이 아닌 값으로 변경할 수 있다. 값이 결정되는 방법은 아래에서 제기된 설명의 주제이다.

스플라이스 멀티플렉서(108)는 이 오디오 데이터 스트림(40)의 페이로드 패킷들의 서브시퀀스, 즉 여기서는 도 7에서 예시적으로 액세스 유닛(AU_i)에 선행하며 이를 포함하는 액세스 유닛들에 대응하는 페이로드 패킷들의 서브시퀀스를 획득하기 위해 TU 패킷(42)을 갖는 액세스 유닛(AU_i)과 같은 TU 패킷을 갖는 액세스 유닛에서 인터페이스(102)에 입력되는 오디오 데이터 스트림(40)을 절단한 다음, 인터페이스(104)에 입력되는 다른 오디오 데이터 스트림(110)의 페이로드 패킷의 시퀀스와 이 서브시퀀스가 서로에 대해 바로 연속하며 미리 결정된 액세스 유닛에서 서로 인접하도록 이들을 스플라이싱하도록 구성된다. 예를 들어, 스플라이스 멀티플렉서(108)는 액세스 유닛(AU')에서 오디오 데이터 스트림(40)을 절단하여, 액세스 유닛들(AU_i, AU'₁)이 서로 인접하도록, 그 액세스 유닛(AU_i)에 속하는 페이로드 패킷을 포함시킨 다음, 액세스 유닛(AU'₁)으로 시작하는 오디오 데이터 스트림(110)의 액세스 유닛들(AU')을 부가한다. 도 7에 도시된 바와 같이, 스플라이스 멀티플렉서(108)는 TU 패킷(58)을 포함하는 액세스 유닛(AU_j)의 경우에 유사하게 동작하는데: 이때 스플라이스 멀티플렉서(108)는 액세스 유닛(AU_j)에 속하는 페이로드 패킷들로 시작하는 데이터 스트림(40)을, 액세스 유닛(AU'_K)이 액세스 유닛(AU_j)과 접하도록 오디오 데이터 스트림(110)의 끝에 부가한다.

이에 따라, 오디오 데이터 스트림(40)의 오디오 신호가 그 이후부터 오디오 데이터 스트림(110)으로 인코딩된 오디오 신호로 예비적으로 대체될 것이기 때문에, 스플라이스 포인트 설정기(106)는 재생시 폐기될 말단부가 트레일링 단부 부분임을 표시하도록 액세스 유닛(AU_i)의 TU 패킷(42)을 설정한다. 절단 유닛(58)의 경우, 상황은 다른데: 여기서 스플라이스 포인트 설정기(106)는 재생시 폐기될 말단부가 액세스 유닛(AU_j)이 연관되는 오디오 프레임의 리딩 단부 부분임을 표시하도록 TU 패킷(58)을 설정한다. 그러나 TU 패킷(42)은 트레일링 단부 부분에 속하는 한편, TU 패킷(58)은 리딩 단부 부분에 관련된다는 사실은 예를 들어, 한편으로는 TU 패킷(42)에 그리고 다른 한편으로는 TU 패킷(58)에 대해 서로 다른 TU 식별자들(46)을 사용하는 것에 의해 인바운드 오디오 데이터 스트림(40)으로부터 이미 유도 가능하다는 것이 상기되어야 한다.

스트림 스플라이서(100)는 이와 같이 얻어진 스플라이싱된 오디오 데이터 스트림을 출력 인터페이스(116)로 출력하고, 여기서 스플라이싱된 오디오 데이터 스트림은 참조 부호 120을 사용하여 표시된다.

스플라이스 멀티플렉서(108) 및 스플라이스 포인트 설정기(106)가 액세스 유닛들에 대해 작동하는 순서는 도 7에 도시된 바와 같을 필요는 없다는 점이 주목되어야 한다. 즉, 도 7은 스플라이스 멀티플렉서(108)가 그 입력을 인터페이스들(102, 104)에 각각 접속되게 하고, 그 출력은 스플라이스 포인트 설정기(106)를 통해 출력 인터페이스(116)에 접속되어 있는 것을 제시하지만, 스플라이스 멀티플렉서(108)와 스플라이스 포인트 설정기(106) 사이의 순서는 스위칭될 수 있다.

동작시, 스트림 스플라이서(100)는 오디오 데이터 스트림(40) 내의 절단 유닛 패킷들(52, 58)에 의해 구성된 스플라이스-인 신택스 엘리먼트(50)를 검사하여, 스플라이스-인 신택스 엘리먼트가 각각의 절단 유닛 패킷을 스플라이스-인 액세스 유닛과 관련된 것으로 나타내는지 여부를 조건으로 절단 및 스플라이싱 동작을 수행하도록 구성될 수 있다. 이는 다음을 의미하는데: 지금까지 예시되고 아래에서 보다 상세하게 개요가 설명되는 스플라이스 프로세스는 TU 패킷(42)에 의해 트리거되었을 수 있고, 스플라이스-인 플래그(50)는 도 2에 관해 설명한 바와 같이 1로 설정된다. 이에 따라, 이 플래그를 1로 설정하는 것은 스트림 스플라이서(100)에 의해 검출되고, 아래에서 보다 상세히 설명되는, 그러나 이미 앞서 개요가 설명된 스플라이스-인 동작이 수행된다.

앞서 개요가 설명된 바와 같이, 스플라이스 포인트 설정기(106)는 TU 패킷(42)과 같은 스플라이스-인 TU 패킷들 그리고 TU 패킷들(58)과 같은 스플라이스-아웃 TU 패킷들 사이의 구별에 관한 한, 절단 유닛 패킷들 내의 임의의 설정들을 변경할 필요가 없을 수 있다. 그러나 스플라이스 포인트 설정기(106)는 재생시 폐기될 각각의 말단부의 시간 길이를 설정한다. 이를 위해, 스플라이스 포인트 설정기(106)는 외부 클록에 따라 TU 패킷들(42, 58, 112, 114)이 참조하는 말단부의 시간 길이를 설정하도록 구성될 수 있다. 이 외부 클록(122)은 예를 들면, 비디오 프레임 클록으로부터 유래한다. 예를 들어, 오디오 데이터 스트림(40)으로 인코딩된 오디오 신호가 비디오를 수반하는 톤 신호를 나타내고, 이 비디오가 도 6의 비디오(86)라고 가정한다. 프레임(88), 즉 광고가 삽입될 시간 부분(84)에서 시작하는 프레임에 접하게 된다고 추가로 가정한다. 스플라이스 포인트 설정기(106)는 대응하는 액세스 유닛(AU_i)이 TU 패킷(42)을 포함한다는 것을 이미 검출했을 수 있지만, 외부 클록(122)이 이 비디오의 원래의 톤 신호가 종결되고 데이터 스트림(110)으로 인코딩된 오디오 신호로 대체될 정확한 시간(T_b)에 대해 스플라이스 포인트 설정기(106)에 통보한다. 예를 들어, 이 스플라이스 포인트 시간 인스턴트는, 결국 데이터 스트림(110)으로 인코딩된 톤 신호에 수반되는 광고 비디오로 대체될 첫 번째 화면 또는 프레임에 대응하는 시간 인스턴트일 수 있다.

도 7의 스트림 스플라이서(100)의 동작 모드를 보다 상세하게 예시하기 위해, 스트림 스플라이서(100)에 의해 수행되는 단계들의 시퀀스를 보여주는 도 8을 참조한다. 프로세스는 가중 루프(130)로 시작된다. 즉, 스플라이스 멀티플렉서(108) 및/또는 스플라이스 포인트 설정기(106)와 같은 스트림 스플라이서(100)는 스플라이스-인 포인트에 대한, 즉 절단 유닛 패킷(42)이 속하는 액세스 유닛에 대한 오디오 데이터 스트림(40)을 체크한다. 도 7의 경우에, 액세스 유닛(i)은 체크(132)가 그 자체로 루프백할 때까지, 예로 체크(132)를 통과하는 첫 번째 액세스 유닛이다. 스플라이스-인 포인트 액세스 유닛(AU_i)이 검출되자마자, 스플라이스-인 포인트 액세스 유닛의 트레일링 단부 부분(그 리딩 단부)을 외부 클록(122)으로부터 획득된 시간 인스턴트에 등록하도록 TU 패킷, 즉 42가 설정된다. 스플라이스 포인트 설정기(106)에 의한 이 설정(134) 후에, 스플라이스 멀티플렉서(108)는 다른 데이터 스트림, 즉 오디오 데이터 스트림(110)으로 스위칭하여, 현재의 스플라이스-인 액세스 유닛(AU_i) 이후, 데이터 스트림(110)의 액세스 유닛들이 오디오 데이터 스트림(40)의 후속 액세스 유닛보다는 출력 인터페이스(116)에 놓인다. 스플라이스-인 시간 인스턴트에서부터 앞으로 오디오 데이터 스트림(40)의 오디오 신호를 대체하려는 오디오 신호는, 이 오디오 신호가 제 1 액세스 유닛(AU'₁)과 연관된 제 1 오디오 프레임의 시작에 등록되는, 즉 바로 시작되는 방식으로 오디오 데이터 스트림(110)으로 코딩된다고 가정하면, 스트림 스플라이서(100)는 단지 오디오 데이터 스트림(110)에 의해 구성된 타임스탬프 정보를, 예를 들어 제 1 액세스 유닛(AU'₁)과 연관된 리딩 프레임의 타임스탬프가 스플라이스-인 시간 인스턴트, 즉 단계(134)에서 설정된 바와 같이 (AU_i의 시간 인스턴트) + (AU_i와 연관된 오디오 프레임의 시간 길이) - (트레일링 단부 부분의 시간 길이)와 일치하도록 적응시킨다. 즉, 멀티플렉서 스위칭(136) 후에, 적응(138)은 데이터 스트림(110)의 액세스 유닛(AU')에 대해 연속적으로 수행되는 작업이다. 그러나 이 시간 동안 다음에 설명되는 스플라이스-아웃 루틴도 역시 수행된다.

특히, 스트림 스플라이서(100)에 의해 수행된 스플라이스-아웃 루틴은 대기 루프들로 시작하는데, 이에 따라 오디오 데이터 스트림(110)의 액세스 유닛들이 이들에 TU 패킷(114)이 제공되는지 또는 오디오 데이터 스트림(110)의 마지막 액세스 유닛인지에 대해 연속적으로 체크된다. 이 체크(142)는 액세스 유닛들(AU')의 시퀀스에 대해 연속적으로 수행된다. 스플라이스-아웃 액세스 유닛, 즉 도 7의 경우에는 AU'_K에 접하게 되자마자, 다음에 스플라이스 포인트 설정기(106)는 비디오 프레임의 타임스탬프, 즉 오디오 데이터 스트림(110)으로 코딩된 톤 신호가 속하는 광고 이후의 첫 번째 타임스탬프와 같은 외부 클록으로부터 획득된 시간 인스턴트에 이 액세스 유닛(AU_K)에 대응하는 오디오 프레임인 재생시 폐기될 트레일링 단부 부분을 등록하도록 이 스플라이스-아웃 액세스 유닛의 TU 패킷(114)을 설정한다. 이 설정(144) 후에, 스플라이스 멀티플렉서(108)는 데이터 스트림(110)이 인바운드인 입력으로부터 다른 입력으로 스위칭한다. 특히, 스위칭(146)은 스플라이싱된 오디오 데이터 스트림(120)에서 액세스 유닛(AU_j)이 액세스 유닛(AU'_K)에 바로 뒤따르게 하는 방식으로 수행된다. 특히, 액세스 유닛(AU_j)은 데이터 스트림(40)의 액세스 유닛인데, 이것의 오디오 프레임은 데이터 스트림(110)으로 인코딩된 오디오 신호의 시간 길이에 대응하거나 그로부터 오디오 데이터 스트림(40)의 액세스 유닛들의 오디오 프레임들의 길이 또는 그 절반 길이와 같은 미리 결정된 양보다 적게 벗어난 시간량만큼, 스플라이스-인 액세스 유닛(AU_i)과 연관된 오디오 프레임으로부터 시간상 이격된다.

이후, 스플라이스 포인트 설정기(106)는 단계(144)에서 액세스 유닛(AU'_K)의 오디오 프레임의 트레일링 단부 부분이 등록된 시가나 인스턴트에, 재생시 폐기될 리딩 단부 부분을 등록하도록 단계(148)에서 액세스 유닛(AU_j)의 TU 패킷(58)을 설정한다. 이 측정에 의해, 액세스 유닛(AU_j)의 오디오 프레임의 타임스탬프는 (액세스 유닛(AU'_K)의 오디오 프레임의 타임스탬프) + (액세스 유닛(AU'_K)의 오디오 프레임의 시간 길이) - (액세스 유닛(AU'_K)의 오디오 프레임의 트레일링 단부 부분과 액세스 유닛(AU_j)의 오디오 프레임의 리딩 단부 부분의 합)과 같다. 이 사실은 아래에 추가 제공되는 예들을 보다 명확하게 보여줄 것이다.

이 스플라이스-인 루틴은 또한 스위칭(146) 이후에 시작된다. 핑퐁과 유사하게, 스트림 스플라이서(100)는 미리 결정된 부분들을 대체하기 위해 한편으로는 연속한 오디오 데이터 스트림(40) 및 미리 결정된 길이의 오디오 데이터 스트림 사이에서, 즉 한편으로는 TU 패킷들을 갖는 액세스 유닛들과 다른 한편으로는 TU 패킷들(58) 사이에서, 그리고 다시 또 오디오 스트림(40)으로 스위칭한다.

인터페이스(102)로부터 인터페이스(104)로의 스위칭은 스플라이스-인 루틴에 의해 수행되는 한편, 스플라이스-아웃 루틴은 인터페이스(104)로부터 인터페이스(102)로 이어진다.

그러나 다시 도 7에 관해 제공된 예는 단지 예시를 위해 선택되었음이 다시 한번 강조된다. 즉, 도 7의 스트림 스플라이서(100)는 오디오 신호의 시작에 등록되어, 대체될 시간 부분에 삽입될 제 1 오디오 프레임을 인코딩되게 한 제 1 액세스 유닛을 갖는, 적절한 길이의 오디오 신호들을 인코딩되게 한 오디오 데이터 스트림들(110)로 하나의 오디오 데이터 스트림(40)으로부터 대체될 “브리지” 부분들로 제한되지 않는다. 오히려, 스트림 스플라이서는 예를 들어, 1회 스플라이스 프로세스만을 수행하기 위한 것일 수 있다. 더욱이, 오디오 데이터 스트림(110)은 스플라이스-인 될 오디오 신호의 시작에 등록된 제 1 오디오 프레임을 갖도록 제한되지 않는다. 오히려, 오디오 데이터 스트림(110) 자체는 오디오 데이터 스트림(40)의 기반인 오디오 프레임 클록과 독립적으로 진행하는 그 자제 오디오 프레임 클록을 갖는 어떤 소스로부터 유래할 수 있다. 이 경우, 오디오 데이터 스트림(40)으로부터 오디오 데이터 스트림(110)으로의 스위칭은 도 8에 도시된 단계들 외에도, 단계(148)에 대응하는 설정 단계: 오디오 데이터 스트림(110)의 TU 패킷의 설정을 또한 포함할 것이다.

스트림 스플라이서의 동작에 대한 상기 설명은 TU 패킷이 재생시 폐기될 리딩 단부 부분을 표시하는 스플라이싱된 오디오 데이터 스트림(120)의 AU들의 타임스탬프에 대해 변경될 수 있다는 점이 주목되어야 한다. 스트림 멀티플렉서(108)는 AU의 원래 타임스탬프를 남기지 않고, 원래의 타임스탬프에 리딩 단부 부분의 시간 길이를 더함으로써 원래의 타임스탬프를 수정하여, 이로써 리딩 단부 부분의 트레일링 단부를 가리키고 이에 따라 AU의 오디오 프레임 단편이 실제로 재생되는 시간을 가리키도록 구성될 수 있다. 이 대안은 나중에 논의되는 도 16의 타임스탬프 예들로 예시된다.

도 10은 본 출원의 실시예에 따른 오디오 디코더(160)를 도시한다. 예시적으로, 오디오 디코더(160)는 스트림 스플라이서(100)에 의해 생성된 스플라이싱된 오디오 데이터 스트림(120)을 수신하는 것으로 도시된다. 그러나 스트림 스플라이서에 관해 이루어진 진술과 유사하게, 도 10의 오디오 디코더(160)는 도 7 내지 도 9에 관해 설명한 종류의 스플라이싱된 오디오 데이터 스트림들(120)을 수신하는 것으로 제한되지 않는데, 여기서는 하나의 기본 오디오 데이터 스트림이 대응하는 오디오 신호 길이가 인코딩된 다른 오디오 데이터 스트림들에 의해 예비적으로 대체된다.

오디오 디코더(160)는 스플라이싱된 오디오 데이터 스트림을 수신하는 오디오 디코더 코어(162) 및 오디오 절단기(164)를 포함한다. 오디오 디코딩 코어(162)는 인바운드 오디오 데이터 스트림(120)의 페이로드 패킷들의 시퀀스로부터 오디오 신호의 오디오 프레임들의 단위로의 오디오 신호의 재구성을 수행하며, 앞서 설명한 바와 같이, 페이로드 패킷들은 스플라이싱된 오디오 데이터 스트림(120)이 분할되는 액세스 유닛들의 시퀀스 중 각각의 액세스 유닛과 개별적으로 연관된다. 각각의 액세스 유닛(120)이 오디오 프레임들 중 각각의 오디오 프레임과 연관되기 때문에, 오디오 디코딩 코어(162)는 오디오 프레임마다 재구성된 오디오 샘플들 및 연관된 액세스 유닛을 각각 출력한다. 앞서 설명한 바와 같이, 디코딩은 스펙트럼 역변환을 수반할 수 있고, 중첩/가산 프로세스 또는 선택적으로 예측 코딩 개념들로 인해, 오디오 디코딩 코어(162)는 선행 액세스 유닛을 추가로 사용하면서, 즉 선행 액세스 유닛에 따라 각각의 액세스 유닛으로부터 오디오 프레임을 재구성할 수 있다. 그러나 액세스 유닛(AU_j)과 같은 즉시 재생 액세스 유닛이 도달할 때마다, 오디오 디코딩 코어(162)는 이전 액세스 유닛으로부터 어떠한 데이터도 필요로 하거나 예상하지 않고 즉각적인 재생을 가능하게 하기 위해 추가 데이터를 사용할 수 있다. 또한, 앞서 설명한 바와 같이, 오디오 디코딩 코어(162)는 선형 예측 디코딩을 사용하여 동작할 수 있다. 즉, 오디오 디코딩 코어(162)는 합성 필터를 형성하기 위해 각각의 액세스 유닛에 포함된 선형 예측 계수들을 사용할 수 있고, 액세스 유닛으로부터의 여기 신호를 디코딩할 수 있는데, 이는 예컨대 변환 디코딩, 즉 역변환, 각각의 액세스 유닛에 포함된 인덱스들을 사용한 테이블 룩업들 및/또는 예측 코딩 또는 내부 상태 업데이트들을 수반하며, 그 다음 이와 같이 얻어진 여기 신호를 합성 필터에 가하거나, 대안으로는 합성 필터의 전달 함수에 대응하도록 형성된 전달 함수를 사용하여 스펙트럼 도메인에서 여기 신호를 성형하는 것을 수반한다. 오디오 절단기(164)는 오디오 데이터 스트림(120)에 삽입된 절단 유닛 패킷들에 응답하고, 이러한 TU 패킷들을 갖는 특정 액세스 유닛과 연관된 오디오 프레임을 TU 패킷의 재생시 폐기되도록 표시된 그 말단부를 폐기하도록 절단한다.

도 11은 도 10의 오디오 디코더(160)의 동작 모드를 도시한다. 새로운 액세스 유닛을 검출하면(170), 오디오 디코더는 이 액세스 유닛이 즉시 재생 모드를 사용하여 코딩된 유닛인지 여부를 체크한다. 현재 액세스 유닛이 즉시 재생 프레임 액세스 유닛이라면, 오디오 디코딩 코어(162)는 이 액세스 유닛을 이 현재 액세스 유닛과 연관된 오디오 프레임을 재구성하기 위한 정보의 독립된 소스로서 취급한다. 즉, 앞서 설명한 바와 같이, 오디오 디코딩 코어(162)는 이 액세스 유닛으로 코딩된 데이터에 기초하여 현재 액세스 유닛과 연관된 오디오 프레임을 재구성하기 위해 내부 레지스터를 미리 채울 수 있다. 추가로 또는 대안으로, 오디오 디코딩 코어(162)는 비-IPF 모드에서와 같이 임의의 선행 액세스 유닛으로부터의 예측을 사용하는 것을 억제한다. 추가로 또는 대안으로, 오디오 디코딩 코어(162)는 현재 액세스 유닛의 오디오 프레임의 시간적 리딩 단부에서의 에일리어싱 제거를 위해 임의의 선행 액세스 유닛 또는 연관된 선행 오디오 프레임으로 어떠한 중첩 가산 프로세스를 수행하지 않는다. 오히려, 예를 들어, 오디오 디코딩 코어(162)는 현재 액세스 유닛 자체로부터 시간적 앨리어싱 제거 정보를 유도한다. 따라서 체크(172)가 현재 액세스 유닛이 IPF 액세스 유닛임을 나타낸다면, IPF 디코딩 모드(174)가 오디오 디코딩 코어(162)에 의해 수행되고, 그에 따라 현재 오디오 프레임의 재구성을 얻는다. 대안으로, 체크(172)가 현재 액세스 유닛이 IPF 액세스 유닛이 아님을 나타낸다면, 오디오 디코딩 코드(162)가 종전과 같이 비-IPF 디코딩 모드를 현재 액세스 유닛에 적용한다. 즉, 이전 액세스 유닛을 처리한 후에 오디오 디코딩 코어(162)의 내부 레지스터들이 그대로 채택될 수 있다. 대안으로 또는 추가로, 중첩 가산 프로세스는 현재 액세스 유닛의 오디오 프레임의 시간상 트레일링 단부의 재구성을 보조하도록 사용될 수 있다. 대안으로 또는 추가로, 선행 액세스 유닛으로부터의 예측이 사용될 수 있다. 비-IPF 디코딩(176)은 또한 현재 액세스 유닛의 오디오 프레임의 재구성에서 끝난다. 다음 체크(178)는 임의의 절단이 수행될지 여부를 체크한다. 체크(178)는 오디오 절단기(164)에 의해 수행된다. 특히, 오디오 절단기(164)는 현재 액세스 유닛이 TU 패킷을 갖는지 여부 그리고 TU 패킷이 재생시 폐기될 말단부를 표시하는지 여부를 체크한다. 예를 들어, 오디오 절단기(164)는 TU 패킷이 현재 액세스 유닛에 대한 데이터 스트림에 포함되는지 여부 그리고 스플라이스-액티브 플래그(52)가 설정되는지 여부 및/또는 절단 길이(48)가 0과 같지 않은지 여부를 체크한다. 절단이 발생하지 않는다면, 단계들(174 또는 176) 중 임의의 단계로부터 재구성된 것과 같은 재구성된 오디오 프레임이 단계(180)에서 완전히 재생된다. 그러나 절단이 수행되어야 한다면, 오디오 절단기(164)가 절단을 수행하고, 단계(182)에서 단지 나머지 부분만이 재생된다. TU 패킷으로 표시된 단부 부분이 트레일링 단부 부분인 경우, 재구성된 오디오 프레임의 나머지가 그 오디오 프레임과 연관된 타임스탬프에서 시작하여 재생된다. TU 패킷으로 재생시 폐기될 것으로 표시된 단부 부분이 리딩 단부 부분인 경우, 오디오 프레임의 나머지 부분은 (이 오디오 프레임의 타임스탬프) + (리딩 단부 부분의 시간 길이)에서 재생된다. 즉, 현재 오디오 프레임의 나머지의 재생은 리딩 단부 부분의 시간 길이에 의해 연기된다. 그 다음, 프로세스는 다음 액세스 유닛으로 추가 실행된다.

도 10의 예를 참조하면, 오디오 디코딩 코어(162)는 액세스 유닛들(AU_i-1, AU_i)에 대해 통상의 비-IPF 디코딩(176)을 수행한다. 그러나 후자는 TU 패킷(42)을 갖는다. 이 TU 패킷(42)은 재생시 폐기될 트레일링 단부 부분을 표시하며, 이에 따라 오디오 절단기(164)는 액세스 유닛(AUi)과 연관된 오디오 프레임(14)의 트레일링 말단(184)가 재생되는 것, 즉 출력 오디오 신호(186)를 형성하는데 관여하는 것을 막는다. 이하, 액세스 유닛(AU'₁)이 도달한다. 이는 즉시 재생 프레임 액세스 유닛이며, 이에 따라 단계(174)에서 오디오 디코딩 코어(162)에 의해 처리된다. 예컨대, 오디오 디코딩 코어(162)는 그 자체의 하나 이상의 인스턴스화를 열 수 있는 능력을 포함할 수 있다는 점이 주목되어야 한다. 즉, IPF 디코딩이 수행될 때마다, 이는 오디오 디코딩 코어(162)의 추가 인스턴스화의 개시를 수반한다. 어떤 경우든, 액세스 유닛(AU'₁)이 IPF 액세스 유닛이기 때문에, 그 오디오 신호가 그 선행자들(AU_i-1, AU_i)에 비해 완전히 새로운 오디오 장면과 실제로 관련된다는 것은 전혀 문제가 되지 않는다. 오디오 디코딩 코어(162)는 그것에 상관하지 않는다. 오히려, 이는 액세스 유닛(AU'₁)을 독립된 액세스 유닛으로서 취하고 그로부터 오디오 프레임을 재구성한다. 선행 액세스 유닛(AU_i)의 오디오 프레임의 트레일링 단부 부분의 길이가 아마도 스트림 스플라이서(100)에 의해 설정되었기 때문에, 액세스 유닛(AU'₁)의 오디오 프레임의 시작이 액세스 유닛(AU_i)의 오디오 프레임의 나머지의 트레일링 단부에 바로 접한다. 즉, 이들은 액세스 유닛(AU_i)의 오디오 프레임의 중간의 어딘가의 천이 시간(T₁)에 접한다. 액세스 유닛(AU'_K)에 접하게 되면, 오디오 디코딩 코어(162)는 단계(176)에서 이 액세스 유닛을 디코딩하여 이 오디오 프레임을 드러내거나 재구성하며, 이 오디오 프레임은 그 TU 패킷(114)에 의한 트레일링 단부 부분의 표시로 인해 그 트레일링 단부에서 잘린다. 따라서 트레일링 단부 부분까지의 액세스 유닛(AU'_K)의 오디오 프레임의 나머지만이 재생된다. 그러면 액세스 유닛(AU_j)은 IPF 디코딩(174)에서 오디오 디코딩 코어(162)에 의해, 즉 독립된 방식으로 액세스 유닛(AU'_K)과 독립적으로 디코딩되며, 그로부터 얻어진 오디오 프레임은 그것의 절단 유닛 패킷(58)이 리딩 단부 부분을 표시하므로 그 리딩 단부에서 절단된다. 액세스 유닛(AU'_K, AU_j)의 오디오 프레임들의 나머지들은 천이 시간 인스턴트(T₂)에서 서로 접한다.

앞서 설명한 실시예들은 기본적으로, 연관된 액세스 유닛을 디코딩한 후에 특정 오디오 프레임의 오디오 샘플들이 폐기되어야 하는지 그리고 얼마나 많이 폐기되어야 하는지를 기술하는 시그널링을 사용한다. 앞서 설명한 실시예들은 예컨대, MPEG-H 3D 오디오와 같은 오디오 코덱을 확장하도록 적용될 수 있다. MEPG-H 3D 오디오 표준은 MHAS [2]라 하는 MPEG-H 3D 오디오 데이터를 변환하도록 독립된 스트림 포맷을 정의한다. 앞서 설명한 실시예들에 따르면, 앞서 설명한 절단 유닛 패킷들의 절단 데이터는 MHAS 레벨에서 시그널링될 수 있다. 여기서, 이는 용이하게 검출될 수 있고 도 7의 스트림 스플라이서(100)와 같은 스트림 스플라이싱 디바이스에 의해 즉각적으로 용이하게 수정될 수 있다. 이러한 새로운 MHAS 패킷 타입은 예를 들어, PACTYP_CUTRUNCATION으로 태그될 수 있다. 이 패킷 타입의 페이로드는 도 12에 도시된 신택스를 가질 수 있다. 도 12의 특정 신택스 예와 도 3 및 도 4에 관해 앞서 제기된 설명 간의 일치를 용이하게 하기 위해, 도 3 및 도 4의 참조 부호들이 도 12에서 상응하는 신택스 엘리먼트들을 식별하도록 재사용되었다. 의미들은 다음과 같을 수 있다:

isActive: 1이라면 절단 메시지가 액티브이고, 0이라면 디코더가 메시지를 무시해야 한다.

canSplice: 스플라이스가 여기에서 시작하거나 계속할 수 있다고 스플라이싱 디바이스에 알려준다. (주: 이는 기본적으로 광고 시작 플래그이지만, 스플라이싱 디바이스는 디코더에 대한 어떠한 정보도 전달하지 않으므로 0으로 이를 재설정할 수 있다.)

truncRight: 0이라면 AU의 끝에서 샘플을 자르고, 1이라면 AU의 시작에서 샘플을 자른다.

nTruncSamples: 절단할 샘플들의 수이다.

MHAS 스트림은 절단 정보가 즉시 용이하게 액세스 가능하고, 예를 들어 스트림 스플라이싱 디바이스에 의해 쉽게 삽입, 제거 또는 수정될 수 있도록 MHAS 패킷 페이로드가 항상 바이트-정렬됨을 보장한다는 점에 유의한다. MPEG-H 3D 오디오 스트림은 모든 각각의 AU에 대해 또는 isActive가 0으로 설정된 AU들의 적절한 서브세트에 대해 pactype PACTYP_CUTRUNCATION을 갖는 MHAS 패킷 타입을 포함할 수 있다. 그러면 스트림 스플라이싱 디바이스는 필요에 따라 이 MHAS 패킷을 수정할 수 있다. 그렇지 않으면, 스트림 스플라이싱 디바이스는 뒤에 설명되는 바와 같이 상당한 비트 레이트 오버헤드를 추가하지 않고 이러한 MHAS 패킷을 용이하게 삽입할 수 있다. MPEG-H 3D 오디오의 가장 큰 그래뉼 크기는 4096개의 샘플이므로, nTruncSamples에 대한 13 비트가 모든 의미 있는 절단 값들을 시그널링하기에 충분하다. nTruncSamples 및 3개의 1 비트 플래그들은 함께 16 비트 또는 2 바이트를 점유하므로 더 이상의 바이트 정렬이 필요하지 않다.

도 13a - 도 13c는 샘플 정밀 스트림 스플라이싱을 구현하기 위해 CU 절단 방법이 어떻게 사용될 수 있는지를 예시한다.

도 13a는 비디오 스트림 및 오디오 스트림을 보여준다. 비디오 프레임 번호 5에서, 프로그램이 다른 소스로 스위칭된다. 새로운 소스에서 비디오와 오디오의 정렬은 이전 소스에서와는 다르다. 디코딩된 오디오 PCM의 샘플 정밀 스위칭을 가능하게 하기 위해, 이전 스트림의 마지막 CU의 끝에서 그리고 새로운 스트림의 시작에서 샘플들이 제거되어야 한다. 디코딩된 PCM 도메인에서의 짧은 기간의 크로스 페이딩이 출력 PCM 신호에서 글리치(glitch)들을 피하기 위해 필요할 수 있다. 도 13a는 구체적인 값들을 갖는 예를 보여준다. 어떤 이유에서 AU들/CU들의 중첩이 바람직하지 않다면, 도 13b) 및 도 13c)에 도시된 2개의 가능한 해결책들이 존재한다. 새로운 스트림의 첫 번째 AU는 새로운 스트림에 대한 구성 데이터 그리고 새로운 구성으로 디코더를 초기화하는 데 필요한 모든 프리-롤을 전달해야 한다. 이것은 MPEG-H 3D 오디오 표준에 정의된 즉시 재생 프레임(IPF: Immediate Playout Frame)에 의해 이루어질 수 있다.

CU 절단 방법의 다른 애플리케이션은 MPEG-H 3D 오디오 스트림의 구성을 변경하는 것이다. 서로 다른 MPEG-H 3D 오디오 스트림들은 매우 다른 구성들을 가질 수 있다. 예를 들어, 스테레오 프로그램에는 11.1 채널들 및 추가 오디오 객체들이 있는 프로그램이 뒤따를 수 있다. 이 구성은 대개 오디오 스트림의 그래뉼들과 정렬되지 않는 비디오 프레임 경계에서 변경될 것이다. CU 절단 방법은 도 14에 예시된 바와 같이 샘플 정밀 오디오 구성 변경을 구현하는 데 사용할 수 있다.

도 14는 비디오 스트림 및 오디오 스트림을 보여준다. 비디오 프레임 번호 5에서, 프로그램이 다른 구성으로 스위칭된다. 새로운 오디오 구성을 갖는 첫 번째 CU는 구성 변경이 발생한 비디오 프레임과 정렬된다. 샘플 정밀 구성 변경을 가능하게 하기 위해, 이전 구성을 갖는 마지막 CU의 끝에서 오디오 PCM 샘플들이 제거되어야 한다. 새로운 구성을 갖는 첫 번째 AU는 새로운 구성 데이터 그리고 새로운 구성으로 디코더를 초기화하는 데 필요한 모든 프리-롤을 전달해야 한다. 이것은 MPEG-H 3D 오디오 표준에 정의된 즉시 재생 프레임(IPF)에 의해 이루어질 수 있다. 인코더는 이전 구성으로부터의 PCM 오디오 샘플들을 사용하여 두 구성들 모두에 존재하는 채널들에 대한 새로운 구성을 위한 프리-롤을 인코딩할 수 있다. 예: 구성 변경이 스테레오에서 11.1이라면, 새로운 11.1 구성의 왼쪽 및 오른쪽 채널들은 이전 스테레오 구성의 왼쪽 및 오른쪽 프리-롤 데이터 형태를 사용할 수 있다. 새로운 11.1 구성의 다른 채널들은 프리-롤을 위해 0들을 사용한다. 도 15는 이 예에 대한 인코더 동작 및 비트스트림 생성을 예시한다.

도 16은 스플라이싱 가능 또는 스플라이싱된 오디오 데이터 스트림들에 대한 추가 예들을 도시한다. 예를 들어, 도 16a를 참조한다. 도 16a는 예시적으로 7개의 연속적인 액세스 유닛(AU₁ 내지 AU₇)을 포함하는 스플라이싱 가능 오디오 데이터 스트림 중 일부를 도시한다. 제 2 액세스 유닛 및 제 6 액세스 유닛에는 각각 TU 패킷이 제공된다. 플래그(52)를 0으로 설정함으로써 둘 다 사용되지 않는데, 즉 비-액티브이다. 액세스 유닛(AU₆)의 TU 패킷은 IPF 타입의 액세스 유닛에 의해 구성되는데, 즉 이는 다시 데이터 스트림으로의 스플라이스를 가능하게 한다. B에서, 도 16은 광고 삽입 후의 A의 오디오 데이터 스트림을 도시한다. 광고는 액세스 유닛들(AU'₁ 내지 AU'₄)의 데이터 스트림으로 코딩된다. C 및 D에서, 도 16은 A 및 B에 비해 수정된 경우를 도시한다. 특히, 여기에서 액세스 유닛들(AU₁…)의 오디오 데이터 스트림의 오디오 인코더는 액세스 유닛(AU₆)의 오디오 프레임 내의 어딘가에서 코딩 설정들을 변경하기로 결정했다. 이에 따라, C의 원래의 오디오 데이터 스트림은 이미 타임스탬프(6.0)의 2개의 액세스 유닛들, 즉 AU₆ 및 AU'₁을 포함하며, 각각의 트레일링 단부 부분 및 리딩 단부 부분은 각각 재생시 폐기되는 것으로 표시된다. 여기서, 절단 활성화는 이미 오디오 디코더에 의해 미리 설정되어 있다. 그럼에도, AU'₁ 액세스 유닛은 스플라이스-백-인(splice-back-in) 액세스 유닛으로서 여전히 사용 가능하며, 이 가능성은 D에서 예시된다.

스플라이스-아웃 포인트에서 코딩 설정들을 변경하는 예가 E 및 F에서 예시된다. 마지막으로, G 및 H에서, 도 16의 A 및 B의 예는 액세스 유닛(AU₅)에 제공된 다른 TU 패킷에 의해 확장되는데, 이는 스플라이스-인 또는 연속 포인트로서의 역할을 할 수 있다.

앞서 언급한 바와 같이, TU 패킷들을 갖는 오디오 데이터 스트림의 액세스 유닛의 사전 규정은 액세스 유닛 생성의 매우 초기 단계에서 이러한 TU 패킷들의 비트 레이트 소비를 고려하는 능력의 관점에서 바람직할 수 있지만, 이것은 의무 사항은 아니다. 예를 들어, 도 7 내지 도 9에 관해 위에서 설명한 스트림 스플라이서는 스트림 스플라이서가 제1인터페이스(102)에서 인바운드 오디오 데이터 스트림 내의 TU 패킷의 발생 이외의 수단에 의해 스플라이스-인 또는 스플라이스-아웃 포인트들을 식별한다는 점에서 수정될 수 있다. 예를 들어, 스트림 스플라이서는 스플라이스-인 및 스플라이스-아웃 포인트들의 검출에 관해서도 또한 외부 클록(122)에 반응할 수 있다. 이 대안에 따르면, 스플라이스 포인트 설정기(106)는 TU 패킷을 설정할 뿐만 아니라 또한 이들을 데이터 스트림에 삽입할 것이다. 그러나 오디오 인코더는 어떠한 준비 작업에서도 제외되지 않는데: 오디오 인코더는 스플라이스-백-인 포인트들로서의 역할을 할 액세스 유닛들에 대해 여전히 IPF 코딩 모드를 선택해야 할 것이라는 점에 주목한다.

끝으로, 도 17은 유리한 스플라이스 기술이 서로 다른 코딩 구성들 간에 변경될 수 있는 오디오 인코더 내에서 또한 사용될 수 있음을 보여준다. 도 17의 오디오 인코더(70)는 도 5와 동일한 방식으로 구성되지만, 이때 오디오 인코더(70)는 구성 변경 트리거(200)에 응답한다. 즉, 예를 들어, 도 16의 경우 C를 참조하면: 오디오 인코딩 코어(72)는 오디오 신호(12)를 액세스 유닛들(AU₁ 내지 AU₆)로 연속적으로 인코딩한다. 액세스 유닛(AU₆)의 오디오 프레임 내의 임의의 위치에서, 구성 변경 시간 인스턴트가 트리거(200)에 의해 표시된다. 이에 따라, 동일한 오디오 프레임 래스터를 사용하는 오디오 인코딩 코어(72)는 보다 많은 코딩된 오디오 채널들 등을 수반하는 오디오 코딩 모드와 같은 새로운 구성을 사용하여 액세스 유닛(AU6)의 현재 오디오 프레임을 인코딩한다. 오디오 인코딩 코어(72)는 IPF 코딩 모드를 추가로 사용하면서 새로운 구성을 사용하여 다른 시간에 오디오 프레임을 인코딩한다. 이것은 액세스 유닛(AU'₁)으로 끝나며, 이는 액세스 유닛 순서를 바로 따른다. 두 액세스 유닛들, 즉 액세스 유닛(AU₆) 및 액세스 유닛(AU'₁)에는 TU 패킷 삽입기(74)에 의해 TU 패킷들이 제공되는데, 액세스 유닛(AU₆)은 재생시 폐기되도록 표시된 트레일링 단부 부분을 갖고 액세스 유닛(AU'₁)은 재생시 폐기되도록 표시된 리딩 단부 부분을 갖는다. 액세스 유닛(AU'₁)은 IPF 액세스 유닛이므로, 이는 또한 스플라이스-백-인 포인트로서의 역할을 할 수 있다.

앞서 설명한 모든 실시예들의 경우, 한편으로는 스플라이싱된 오디오 데이터 스트림의 AU들의 서브시퀀스로부터 (AU_i와 같은) 스플라이스-아웃 AU까지 재구성된 오디오 신호― 이 오디오 신호는 실제로 이 스플라이스-아웃 AU의 오디오 프레임의 트레일링 단부 부분의 리딩 단부에서 종결되는 것으로 가정됨 ―와 스플라이싱된 오디오 데이터 스트림의 AU들의 서브시퀀스로부터 (AU'₁과 같은) 스플라이스-아웃 AU 직후의 AU까지 재구성된 오디오 신호― 이 오디오 신호는 후속 AU의 오디오 프레임의 리딩 단부로부터 곧바로 또는 이 후속 AU의 오디오 프레임의 리딩 단부 부분의 트레일링 단부 부분에서 시작되는 것으로 가정됨 ― 사이에서 가능하게는 크로스 페이딩이 수행된다는 점이 주목되어야 한다: 즉, 재생될 바로 연속하는 AU들의 부분들이 서로 인접하는 시간 인스턴트를 둘러싸고 가로지르는 시간 간격 내에서, 디코더에 의해 스플라이싱된 오디오 데이터 스트림으로부터 재생되는 것과 같은 실제 재생된 오디오 신호는 이 시간 간격 내에서 시간적으로 증가하는 후속 AU의 오디오 프레임의 조합 기여도 및 시간 간격에서 시간적으로 감소하는 스플라이스-아웃 AU의 오디오 프레임의 조합 기여도를 갖는 바로 접하는 두 AU들 모두의 오디오 프레임들의 조합에 의해 형성될 수 있다. 유사하게, AUj와 같은 스플라이스-인 AU들과 (AU'K와 같은) 그 직전 AU들 사이에서, 즉 스플라이스-인 AU의 오디오 프레임의 리딩 단부 부분과 선행하는 AU의 오디오 프레임의 트레일링 단부 부분이 서로 인접하는 시간 인스턴트를 둘러싸고 가로지르는 시간 간격 내에서 스플라이스-인 AU의 오디오 프레임과 선행 AU의 오디오 프레임의 조합에 의해 실제로 재생되는 오디오 신호를 형성함으로써 크로스 페이딩이 수행될 수 있다.

다른 표현을 사용하면, 상기 실시예들은 그 중에서도 특히, 전송 스트림에 의해 이용 가능한 대역폭을 이용할 가능성과 이용 가능한 디코더 ㎒를 드러냈는데: 일종의 오디오 스플라이스 포인트 메시지가 이것이 대체할 오디오 프레임과 함께 전송된다. 스플라이스 포인트 주변의 착신 오디오 및 발신 오디오가 모두 디코딩되고 이들 사이의 크로스 페이드가 수행될 수 있다. 오디오 스플라이스 포인트 메시지는 단지 크로스 페이드를 수행할 위치를 디코더들에 알려줄 뿐이다. 이것은 스플라이스가 PCM 도메인에 정확히 등록되어 있기 때문에 본질적으로 "완벽한" 스플라이스이다.

따라서 위의 설명은 그 중에서도 특히, 다음 양상들을 드러냈다:

A1. 스플라이싱 가능 오디오 데이터 스트림(40)은,

페이로드 패킷들(16)의 시퀀스 ― 페이로드 패킷들 각각은 스플라이싱 가능 오디오 데이터 스트림이 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속하고, 각각의 액세스 유닛은 오디오 프레임들의 단위로 스플라이싱 가능 오디오 데이터 스트림으로 인코딩되는 오디오 신호(12)의 오디오 프레임들(14) 중 각각의 오디오 프레임과 연관됨 ―; 및

스플라이싱 가능 오디오 데이터 스트림에 삽입되며 미리 결정된 액세스 유닛에 대해, 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 설정 가능한 절단 유닛 패킷(42; 58)을 포함한다.

A2. 양상 A1에 따른 스플라이싱 가능 오디오 데이터 스트림에서, 오디오 프레임의 말단부는 트레일링 단부 부분(44)이다.

A3. 양상 A1 또는 A2에 따른 스플라이싱 가능 오디오 데이터 스트림에서, 스플라이싱 가능 오디오 데이터 스트림은,

스플라이싱 가능 오디오 데이터 스트림에 삽입되며 추가적인 미리 결정된 액세스 유닛에 대해, 추가적인 미리 결정된 액세스 유닛이 연관되는 추가 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 설정 가능한 추가 절단 유닛 패킷(58)을 더 포함한다.

A4. 양상 A3에 따른 스플라이싱 가능 오디오 데이터 스트림에서, 추가 오디오 프레임의 말단부는 리딩 단부 부분(56)이다.

A5. 양상 A3 또는 A4에 따른 스플라이싱 가능 오디오 데이터 스트림에서, 절단 유닛 패킷(42) 및 추가 절단 유닛 패킷(58)은 절단 유닛 패킷 또는 추가 절단 유닛 패킷 중 각각의 절단 유닛 패킷이 스플라이스-아웃 액세스 유닛과 관련되는지 여부를 나타내는 스플라이스-아웃 신택스 엘리먼트(50)를 각각 포함한다.

A6. 양상들 A3 내지 A5 중 임의의 한 양상에 따른 스플라이싱 가능 오디오 데이터 스트림에서, AU_i와 같은 미리 결정된 액세스 유닛은 디코딩 측에서의 재구성이 미리 결정된 액세스 유닛 직전의 액세스 유닛에 의존하는 방식으로 각각의 연관된 오디오 프레임을 인코딩하고, 액세스 유닛들의 대부분은 디코딩 측에서의 재구성이 각각의 직전 액세스 유닛에 의존하는 방식으로 각각의 연관된 오디오 프레임을 인코딩하고, 추가적인 미리 결정된 액세스 유닛(AU_j)은 디코딩 측에서의 재구성이 추가적인 미리 결정된 액세스 유닛 직전의 액세스 유닛과 독립적임으로써, 즉각적인 재생을 가능하게 하는 방식으로 각각의 연관된 오디오 프레임을 인코딩한다.

A7. 양상 A6에 따른 스플라이싱 가능 오디오 데이터 스트림에서, 절단 유닛 패킷(42) 및 추가 절단 유닛 패킷(58)은 절단 유닛 패킷 또는 추가 절단 유닛 패킷 중 각각의 절단 유닛 패킷이 스플라이스-아웃 액세스 유닛과 관련되는지 여부를 나타내는 스플라이스-아웃 신택스 엘리먼트(50)를 각각 포함하며, 절단 유닛 패킷에 의해 구성된 스플라이스-아웃 신택스 엘리먼트(50)는 절단 유닛 패킷이 스플라이스-아웃 액세스 유닛과 관련됨을 나타내고, 추가 절단 유닛 패킷에 의해 구성된 신택스 엘리먼트는 추가 절단 유닛 패킷이 스플라이스-아웃 액세스 유닛과 관련이 없음을 나타낸다.

A8. 양상 A6에 따른 스플라이싱 가능 오디오 데이터 스트림에서, 절단 유닛 패킷(42) 및 추가 절단 유닛 패킷(58)은 절단 유닛 패킷 또는 추가 절단 유닛 패킷 중 각각의 절단 유닛 패킷이 스플라이스-아웃 액세스 유닛과 관련되는지 여부를 나타내는 스플라이스-아웃 신택스 엘리먼트를 각각 포함하며, 절단 유닛 패킷에 의해 구성된 신택스 엘리먼트(50)는 절단 유닛 패킷이 스플라이스-아웃 액세스 유닛과 관련됨을 나타내고, 추가 절단 유닛 패킷에 의해 구성된 스플라이스-아웃 신택스 엘리먼트는 추가 절단 유닛 패킷이 스플라이스-아웃 액세스 유닛과 역시 관련됨을 나타내며, 추가 절단 유닛 패킷은 리딩/트레일링 단부 절단 신택스 엘리먼트(54) 및 절단 길이 엘리먼트(48)를 포함하고, 리딩/트레일링 단부 절단 신택스 엘리먼트는 추가 오디오 프레임의 말단부가 트레일링 단부 부분(44)인지 아니면 리딩 단부 부분(56)인지를 표시하기 위한 것이며, 절단 길이 엘리먼트는 추가 오디오 프레임의 말단부의 길이(Δt)를 표시하기 위한 것이다.

A9. 양상들 A1 내지 A8 중 임의의 한 양상에 따른 스플라이싱 가능 오디오 데이터 스트림은, 미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 미리 결정된 액세스 유닛에서, 완전한 스플라이싱 가능 오디오 데이터 스트림에 걸쳐 변화하는 통합된 비트 레이트 편차의 범위보다 ½ 폭 미만인 미리 결정된 간격 내의 값을 가정하도록, 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르도록 레이트 제어된다.

A10. 양상들 A1 내지 A8 중 임의의 한 양상에 따른 스플라이싱 가능 오디오 데이터 스트림은, 미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 미리 결정된 액세스 유닛에서, 완전한 스플라이싱 가능 오디오 데이터 스트림에 걸쳐 변화하는 통합된 비트 레이트 편차의 최대치의 ¾보다 더 작은 고정된 값을 가정하도록, 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르도록 레이트 제어된다.

A11. 양상들 A1 내지 A8 중 임의의 한 양상에 따른 스플라이싱 가능 오디오 데이터 스트림은, 미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 미리 결정된 액세스 유닛뿐만 아니라 스플라이싱 가능 오디오 데이터 스트림에 절단 유닛 패킷들이 존재하는 다른 액세스 유닛들에서도, 미리 결정된 값을 가정하도록, 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르도록 레이트 제어된다.

B1. 스플라이싱된 오디오 데이터 스트림은,

페이로드 패킷들(16)의 시퀀스 ― 페이로드 패킷들 각각은 스플라이싱된 오디오 데이터 스트림이 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속하고, 각각의 액세스 유닛은 오디오 프레임들(14) 중 각각의 오디오 프레임과 연관됨 ―;

스플라이싱된 오디오 데이터 스트림에 삽입되며 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하는 절단 유닛 패킷(42; 58; 114)을 포함하며,

페이로드 패킷들의 시퀀스 중 페이로드 패킷들의 제 1 서브시퀀스에서, 각각의 페이로드 패킷은 제 1 오디오 신호의 오디오 프레임들의 단위로 제 1 오디오 신호를 인코딩한 제 1 오디오 데이터 스트림의 액세스 유닛(AU_#)에 속하고, 제 1 오디오 데이터 스트림의 액세스 유닛들은 미리 결정된 액세스 유닛을 포함하며, 페이로드 패킷들의 시퀀스 중 페이로드 패킷들의 제 2 서브시퀀스에서, 각각의 페이로드 패킷은 제 2 오디오 데이터 스트림의 오디오 프레임들의 단위로 제 2 오디오 신호를 인코딩한 제 2 오디오 데이터 스트림의 액세스 유닛들(AU'_#)에 속하고,

페이로드 패킷들의 제 1 서브시퀀스 및 제 2 서브시퀀스는 서로에 대해 바로 연속하며 미리 결정된 액세스 유닛에서 서로 인접하고, 말단부는 제 1 서브시퀀스가 제 2 서브시퀀스에 선행하는 경우에는 트레일링 단부 부분(44)이고 제 2 서브시퀀스가 제 1 서브시퀀스에 선행하는 경우에는 리딩 단부 부분(56)이다.

B2. 양상 B1에 따른 스플라이싱된 오디오 데이터 스트림에서, 제 1 서브시퀀스는 제 2 서브시퀀스 및 트레일링 단부 부분(44)인 말단부에 선행한다.

B3. 양상 B1 또는 B2에 따른 스플라이싱된 오디오 데이터 스트림에서, 스플라이싱된 오디오 데이터 스트림은 스플라이싱된 오디오 데이터 스트림에 삽입되며 추가적인 미리 결정된 액세스 유닛(AU_j)이 연관되는 추가 오디오 프레임의 리딩 단부 부분(58)을 재생시 폐기될 것으로 표시하는 추가 절단 유닛 패킷(58)을 더 포함하고, 페이로드 패킷들의 시퀀스 중 페이로드 패킷들의 제 3 서브시퀀스에서, 각각의 페이로드 패킷은 제 3 오디오 신호를 인코딩한 제 3 오디오 데이터 스트림의 액세스 유닛들(AU"_#)에, 또는 제 1 서브시퀀스의 페이로드 패킷들이 속하는 제 1 오디오 데이터 스트림의 액세스 유닛들에 후속하는, 제 1 오디오 데이터 스트림의 액세스 유닛들(AU_#)에

속하고, 제 2 오디오 데이터 스트림의 액세스 유닛들은 추가적인 미리 결정된 액세스 유닛을 포함한다.

B4. 양상 B3에 따른 스플라이싱된 오디오 데이터 스트림에서, 미리 결정된 액세스 유닛을 포함하는 스플라이싱된 오디오 데이터 스트림의 액세스 유닛들의 대부분은 디코딩 측에서의 재구성이 각각의 직전 액세스 유닛에 의존하는 방식으로 각각의 연관된 오디오 프레임을 인코딩하고, 미리 결정된 액세스 유닛에 바로 후속하며 제 2 오디오 데이터 스트림의 액세스 유닛들의 온셋을 형성하는 AU_i+1과 같은 액세스 유닛은 재구성이 AU_i와 같은 미리 결정된 액세스 유닛과 독립적임으로써, 즉각적인 재생을 가능하게 하는 방식으로 각각의 연관된 오디오 프레임을 인코딩하고, 추가적인 미리 결정된 액세스 유닛(AU_j)은 재구성이 추가적인 미리 결정된 액세스 유닛 직전의 액세스 유닛과 독립적임으로써, 각각 즉각적인 재생을 가능하게 하는 방식으로 추가 오디오 프레임을 인코딩한다.

B5. 양상 B3 또는 B4에 따른 스플라이싱된 오디오 데이터 스트림에서, 스플라이싱된 오디오 데이터 스트림은 스플라이싱된 오디오 데이터 스트림에 삽입되며 AU_j와 같은 추가적인 미리 결정된 액세스 유닛 직전의 AU'_K와 같은 액세스 유닛이 연관되는 더 추가 오디오 프레임의 트레일링 단부 부분(44)을 재생시 폐기될 것으로 표시하는 더 추가 절단 유닛 패킷(114)을 포함하고, 스플라이싱된 오디오 데이터 스트림은 스플라이싱된 오디오 데이터 스트림의 각각의 액세스 유닛에 대해, 각각의 액세스 유닛이 연관되는 오디오 프레임이 재생될 각각의 타임스탬프를 표시하는 타임스탬프 정보(24)를 포함하며, 추가적인 미리 결정된 액세스 유닛의 타임스탬프는, (추가적인 미리 결정된 액세스 유닛 직전의 타임스탬프) + (추가적인 미리 결정된 액세스 유닛 직전의 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (추가 오디오 프레임의 리딩 단부 부분과 더 추가 오디오 프레임의 트레일링 단부 부분의 시간 길이의 합)과 같거나, 또는 (추가적인 미리 결정된 액세스 유닛 직전의 타임스탬프) + (추가적인 미리 결정된 액세스 유닛 직전의 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (더 추가 오디오 프레임의 트레일링 단부 부분의 시간 길이)와 같다.

B6. 양상 B2에 따른 스플라이싱된 오디오 데이터 스트림에서, 스플라이싱된 오디오 데이터 스트림은 스플라이싱된 오디오 데이터 스트림에 삽입되며 AU'_K와 같은 미리 결정된 액세스 유닛 직후의 AU_j와 같은 액세스 유닛이 연관되는 더 추가 오디오 프레임의 리딩 단부 부분(56)을 재생시 폐기될 것으로 표시하는 더 추가 절단 유닛 패킷(58)을 더 포함하고, 스플라이싱된 오디오 데이터 스트림은 스플라이싱된 오디오 데이터 스트림의 각각의 액세스 유닛에 대해, 각각의 액세스 유닛이 연관되는 오디오 프레임이 재생될 각각의 타임스탬프를 표시하는 타임스탬프 정보(24)를 포함하며, 미리 결정된 액세스 유닛에 바로 후속하는 액세스 유닛의 타임스탬프는 (미리 결정된 액세스 유닛의 타임스탬프) + (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 트레일링 단부 부분과 더 추가 액세스 유닛의 리딩 단부 부분의 시간 길이의 합)과 같거나, 또는 (미리 결정된 액세스 유닛의 타임스탬프) + (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 트레일링 단부 부분의 시간 길이)와 같다.

B7. 양상 B6에 따른 스플라이싱된 오디오 데이터 스트림에서, 스플라이싱된 오디오 데이터 스트림의 액세스 유닛들의 대부분은 디코딩 측에서의 재구성이 각각의 직전 액세스 유닛에 의존하는 방식으로 각각의 연관된 오디오 프레임을 인코딩하고, 미리 결정된 액세스 유닛에 바로 후속하며 제 2 오디오 데이터 스트림의 액세스 유닛들의 온셋을 형성하는 액세스 유닛은 디코딩 측에서의 재구성이 미리 결정된 액세스 유닛과 독립적임으로써, 즉각적인 재생을 가능하게 하는 방식으로 각각의 연관된 오디오 프레임을 인코딩한다.

B8. 양상 B7에 따른 스플라이싱된 오디오 데이터 스트림에서, 제 1 오디오 데이터 스트림 및 제 2 오디오 데이터 스트림은 서로 다른 코딩 구성들을 사용하여 인코딩되고, 미리 결정된 액세스 유닛에 바로 후속하며 제 2 오디오 데이터 스트림의 액세스 유닛들의 온셋을 형성하는 액세스 유닛은 디코더를 새로 구성하기 위한 구성 데이터(cfg)를 인코딩한다.

B9. 양상 B4에 따른 스플라이싱된 오디오 데이터 스트림에서, 스플라이싱된 오디오 데이터 스트림은 스플라이싱된 오디오 데이터 스트림에 삽입되며 미리 결정된 액세스 유닛 직후의 액세스 유닛이 연관되는 더 추가 오디오 프레임의 리딩 단부 부분을 재생시 폐기될 것으로 표시하는 더 추가 절단 유닛 패킷(112)을 더 포함하고, 스플라이싱된 오디오 데이터 스트림은 각각의 액세스 유닛에 대해, 각각의 액세스 유닛이 연관되는 오디오 프레임이 재생될 각각의 타임스탬프를 표시하는 타임스탬프 정보(24)를 포함하며, 미리 결정된 액세스 유닛에 바로 후속하는 액세스 유닛의 타임스탬프는 (미리 결정된 액세스 유닛의 타임스탬프) + (미리 결정된 액세스 유닛과 연관된 오디오 프레임의 시간 길이) - (더 추가 오디오 프레임의 리딩 단부 부분의 시간 길이와 미리 결정된 액세스 유닛과 연관된 오디오 프레임의 트레일링 단부 부분의 시간 길이의 합)과 같거나, 또는 (미리 결정된 액세스 유닛의 타임스탬프) + (미리 결정된 액세스 유닛과 연관된 오디오 프레임의 시간 길이) - (미리 결정된 액세스 유닛과 연관된 오디오 프레임의 트레일링 단부 부분의 시간 길이)와 같다.

B10. 양상 B4, B5 또는 B9에 따른 스플라이싱된 오디오 데이터 스트림에서, 상기 미리 결정된 액세스 유닛에 바로 후속하는 액세스 유닛의 시간적 타임스탬프는 (상기 미리 결정된 액세스 유닛의 타임스탬프) + (상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 트레일링 단부 부분의 시간 길이)와 같은, 스플라이싱된 오디오 데이터 스트림.

C1. 오디오 데이터 스트림들을 스플라이싱하기 위한 스트림 스플라이서는,

페이로드 패킷들(16)의 시퀀스를 포함하는 제 1 오디오 데이터 스트림(40)을 수신하기 위한 제 1 오디오 입력 인터페이스(102) ― 페이로드 패킷들 각각은 제 1 오디오 데이터 스트림이 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속하고, 제 1 오디오 데이터 스트림의 각각의 액세스 유닛은 제 1 오디오 신호(12)의 오디오 프레임들(14)의 단위로 제 1 오디오 데이터 스트림으로 인코딩되는 제 1 오디오 신호의 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―;

페이로드 패킷들의 시퀀스를 포함하는 제 2 오디오 데이터 스트림(110)을 수신하기 위한 제 2 오디오 입력 인터페이스(104) ― 페이로드 패킷들 각각은 제 2 오디오 데이터 스트림이 분할되는 액세스 유닛들의 시퀀스 중 각각의 액세스 유닛에 속하고, 제 2 오디오 데이터 스트림의 각각의 액세스 유닛은 제 2 오디오 신호의 오디오 프레임들의 단위로 제 2 오디오 데이터 스트림으로 인코딩되는 제 2 오디오 신호의 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―;

스플라이스 포인트 설정기; 및

스플라이스 멀티플렉서를 포함하며,

제 1 오디오 데이터 스트림은 제 1 오디오 데이터 스트림에 삽입되며 미리 결정된 액세스 유닛에 대해, 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 설정 가능한 절단 유닛 패킷(42; 58)을 더 포함하고, 스플라이스 포인트 설정기(106)는 절단 유닛 패킷(42; 58)이 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하게 절단 유닛 패킷을 설정하도록 구성되거나, 또는 스플라이스 포인트 설정기(106)는 제 1 오디오 데이터 스트림에 절단 유닛 패킷(42; 58)을 삽입하도록 구성되고 미리 결정된 액세스 유닛에 대해, 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 절단 유닛 패킷(42; 58)을 설정하고, 절단 유닛 패킷(42; 58)이 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하게 절단 유닛 패킷을 설정하며;

스플라이스 멀티플렉서(108)는 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스― 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스 내의 각각의 페이로드 패킷은 미리 결정된 액세스 유닛을 포함하는 제 1 오디오 데이터 스트림의 연속한 액세스 유닛들 중 각각의 액세스 유닛에 속함 ―를 얻기 위해 미리 결정된 액세스 유닛에서 제 1 오디오 데이터 스트림(40)을 절단하고, 제 1 오디오 데이터 스트림의 페이로드 패킷들의 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스와 제 2 오디오 데이터 스트림의 페이로드 패킷들의 시퀀스가 서로에 대해 바로 연속하며 미리 결정된 액세스 유닛에서 서로 인접하도록 서브시퀀스와 제 2 오디오 데이터 스트림의 페이로드 패킷들의 시퀀스를 스플라이싱하도록 구성되고, 미리 결정된 액세스 유닛이 관련되는 오디오 프레임의 말단부는, 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스가 제 2 오디오 데이터 스트림의 페이로드 패킷들에 선행하는 경우에는 트레일링 단부 부분(44)이고 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스가 제 2 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스에 후속하는 경우에는 리딩 단부 부분(56)이다.

C2. 양상 C1에 따른 스트림 스플라이서에서, 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스는 제 2 오디오 데이터 스트림의 페이로드 패킷들의 시퀀스의 제 2 서브시퀀스에 선행하고, 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부는 트레일링 단부 부분(44)이다.

C3. 양상 C2에 따른 스트림 스플라이서에서, 스트림 스플라이서는 절단 유닛 패킷에 의해 구성된 스플라이스-아웃 신택스 엘리먼트(50)를 검사하고, 스플라이스-아웃 신택스 엘리먼트(50)가 절단 유닛을 스플라이스-아웃 액세스 유닛에 관련된 것으로 표시하는지 여부를 조건으로 절단 및 스플라이싱을 수행하도록 구성된다.

C4. 양상 C1 내지 C3 중 어느 한 양상에 따른 스트림 스플라이서에서, 스플라이스 포인트 설정기는 말단부의 시간 길이를 외부 클록과 일치하게 설정하도록 구성된다.

C5. 양상 C4에 따른 스트림 스플라이서에서, 외부 클록은 비디오 프레임 클록이다.

C6. 양상 C2에 따른 스트림 스플라이서에서, 제 2 오디오 데이터 스트림(110)에 삽입되며 제 2 오디오 데이터 스트림(110)의 AU'_K와 같은 종결 액세스 유닛이 연관되는 추가 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한 추가 절단 유닛 패킷(114)을 제 2 오디오 데이터 스트림이 갖거나 스플라이스 포인트 설정기(106)가 삽입에 의해 발생시키고, 제 1 오디오 데이터 스트림은 제 1 오디오 데이터 스트림(40)에 삽입되며 AU_j와 같은 더 추가적인 미리 결정된 액세스 유닛이 연관되는 더 추가 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한 더 추가 절단 유닛 패킷(58)을 더 포함하고, AU_i와 같은 미리 결정된 액세스 유닛의 오디오 프레임과 AU_j와 같은 더 추가적인 미리 결정된 액세스 유닛의 더 추가 오디오 프레임 사이의 시간 거리는 스플라이싱 이후에 AU_i와 같은 미리 결정된 액세스 유닛에 후속하는 AU'₁과 같은 리딩 액세스 유닛과 AU'_K와 같은 트레일링 액세스 유닛 사이의 제 2 오디오 신호의 시간 길이와 일치하며, 스플라이스 포인트 설정기(106)는 추가 절단 유닛 패킷(114)이 추가 오디오 프레임의 트레일링 단부 부분(44)을 재생시 폐기될 것으로 표시하게 추가 절단 유닛 패킷(114)을 설정하고, 더 추가 절단 유닛 패킷(58)이 더 추가 오디오 프레임의 리딩 단부 부분(44)을 재생시 폐기될 것으로 표시하게 더 추가 절단 유닛 패킷(58)을 설정하도록 구성되며, 스플라이스 멀티플렉서(108)는, 제 2 오디오 데이터 스트림(110)에 의해 구성되며 각각의 액세스 유닛에 대해, 각각의 액세스 유닛이 연관되는 오디오 프레임이 재생될 각각의 타임스탬프를 표시하는 타임스탬프 정보(24)를, 제 2 오디오 데이터 스트림(110)의 리딩 액세스 유닛이 연관되는 리딩 오디오 프레임의 타임스탬프가 (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 타임스탬프) + (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 트레일링 단부 부분의 시간 길이)와 일치하게 적응시키도록 구성되고, 스플라이스 포인트 설정기(106)는 더 추가 오디오 프레임의 타임스탬프가 (추가 오디오 프레임의 타임스탬프) + (추가 오디오 프레임의 시간 길이) - (추가 오디오 프레임의 트레일링 단부 부분과 더 추가 오디오 프레임의 리딩 단부 부분의 시간 길이의 합)과 같게 추가 절단 유닛 패킷(114) 및 더 추가 절단 유닛 패킷(58)을 설정하도록 구성된다.

C7. 양상 C2에 따른 스트림 스플라이서에서, 제 2 오디오 데이터 스트림(110)에 삽입되며 제 2 오디오 데이터 스트림의 AU'₁과 같은 리딩 액세스 유닛이 연관되는 추가 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한 추가 절단 유닛 패킷(112)을 제 2 오디오 데이터 스트림이 갖거나 스플라이스 포인트 설정기(106)가 삽입에 의해 발생시키고, 스플라이스 포인트 설정기(106)는 추가 절단 유닛 패킷(112)이 추가 오디오 프레임의 리딩 단부 부분을 재생시 폐기될 것으로 표시하도록 추가 절단 유닛 패킷(112)을 설정하도록 구성되고, 제 1 오디오 데이터 스트림 및 제 2 오디오 데이터 스트림에 의해 구성되며 각각의 액세스 유닛에 대해, 제 1 오디오 데이터 스트림 및 제 2 오디오 데이터 스트림의 각각의 액세스 유닛이 연관되는 오디오 프레임이 재생될 각각의 타임스탬프를 표시하는 타임스탬프 정보(24)가 시간상 정렬되며, 스플라이스 포인트 설정기(106)는 (추가 오디오 프레임의 타임스탬프) - (AU_i와 같은 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) + (리딩 단부 부분의 시간 길이)가 (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 타임스탬프) + (미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (트레일링 단부 부분의 시간 길이)와 동일하게 추가 절단 유닛 패킷(112)을 설정하도록 구성된다.

D1. 오디오 디코더는,

오디오 데이터 스트림(120)의 페이로드 패킷들(16)의 시퀀스로부터의 오디오 신호(12)를 오디오 신호의 오디오 프레임들(14)의 단위로 재구성하도록 구성된 오디오 디코딩 코어(162) ― 페이로드 패킷들 각각은 오디오 데이터 스트림이 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속하고, 각각의 액세스 유닛은 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―; 및

오디오 데이터 스트림에 삽입된 절단 유닛 패킷(42; 58; 114)에 응답하여, 오디오 신호의 재생시, 재생 중에 절단 유닛 패킷에 의해 폐기되도록 표시된 오디오 신호의 말단부를 폐기하기 위해, 미리 결정된 액세스 유닛과 연관된 오디오 프레임을 절단하도록 구성된 오디오 절단기(164)를 포함한다.

D2. 양상 D1에 따른 오디오 디코더에서, 말단부는 트레일링 단부 부분(44) 또는 리딩 단부 부분(56)이다.

D3. 양상 D1 또는 D2에 따른 오디오 디코더에서, 오디오 데이터 스트림의 액세스 유닛들의 대부분은 재구성이 각각의 직전 액세스 유닛에 의존하는 방식으로 각각의 연관된 오디오 프레임을 인코딩하고, 오디오 디코딩 코어(162)는 액세스 유닛들의 대부분 각각이 연관되는 오디오 프레임을 각각의 직전 액세스 유닛에 따라 재구성하도록 구성된다.

D4. 양상 D3에 따른 오디오 디코더에서, 미리 결정된 액세스 유닛은 재구성이 미리 결정된 액세스 유닛 직전의 액세스 유닛과는 독립적인 방식으로 각각의 연관된 오디오 프레임을 인코딩하고, 오디오 디코딩 유닛(162)은 미리 결정된 액세스 유닛이 연관되는 오디오 프레임을 미리 결정된 액세스 유닛 직전의 액세스 유닛과는 독립적으로 재구성하도록 구성된다.

D5. 양상 D3 또는 D4에 따른 오디오 디코더에서, 미리 결정된 액세스 유닛은 구성 데이터를 인코딩하고, 오디오 디코딩 유닛(162)은 구성 데이터에 따라 디코딩 옵션들을 구성하기 위해 구성 데이터를 사용하고 미리 결정된 액세스 유닛 및 미리 결정된 액세스 유닛 직후의 연속한 액세스 유닛들이 연관되는 오디오 프레임들을 재구성하기 위한 디코딩 옵션들을 적용하도록 구성된다.

D6. 양상들 D1 내지 D5 중 임의의 한 양상에 따른 오디오 디코더에서, 오디오 데이터 스트림은 오디오 데이터 스트림의 각각의 액세스 유닛에 대해, 각각의 액세스 유닛이 연관되는 오디오 프레임이 재생될 각각의 타임스탬프를 표시하는 타임스탬프 정보(24)를 포함하며, 타임스탬프 정보에 따라 오디오 프레임들의 리딩 단부들을 시간상 정렬하고 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부를 배제하여 오디오 프레임들을 재생하도록 구성된다.

D7. 양상들 D1 내지 D6 중 임의의 한 양상에 따른 오디오 디코더는 오디오 프레임의 말단부와 나머지 부분의 교차점에서 크로스-페이드를 수행하도록 구성된다.

E1. 오디오 인코더는,

오디오 데이터 스트림(40)이 분할되는 액세스 유닛들(18) 중 각각의 액세스 유닛에 각각의 페이로드 패킷이 속하게 오디오 신호(12)를 오디오 신호의 오디오 프레임들(14)의 단위로 오디오 데이터 스트림의 페이로드 패킷들(16)로 인코딩하도록 구성된 오디오 인코딩 코어(72) ― 각각의 액세스 유닛은 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―, 및

미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한 절단 유닛 패킷(44; 58)을 오디오 데이터 스트림에 삽입하도록 구성된 절단 패킷 삽입기(74)를 포함한다.

E2. 양상 E1에 따른 오디오 인코더에서, 오디오 인코더는 양상들 A1 내지 A9 중 어느 한 양상에 따른 스플라이싱 가능 오디오 데이터 스트림을 생성하도록 구성된다.

E3. 양상들 E1 또는 E2에 따른 오디오 인코더에서, 오디오 인코더는 외부 클록에 따라 액세스 유닛들 중에서 미리 결정된 액세스 유닛을 선택하도록 구성된다.

E4. 양상 E3에 따른 오디오 인코더에서, 외부 클록은 비디오 프레임 클록이다.

E5. 양상들 E1 내지 E5 중 임의의 한 양상에 따른 오디오 인코더는, 미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 미리 결정된 액세스 유닛에서, 완전한 스플라이싱 가능 오디오 데이터 스트림에 걸쳐 변화하는 통합된 비트 레이트 편차의 범위보다 ½ 폭 미만인 미리 결정된 간격 내의 값을 가정하도록, 오디오 데이터 스트림의 비트 레이트가 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르게 레이트 제어를 수행하도록 구성된다.

E6. 양상들 E1 내지 E5 중 임의의 한 양상에 따른 오디오 인코더는, 미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 미리 결정된 액세스 유닛에서, 완전한 스플라이싱 가능 오디오 데이터 스트림에 걸쳐 변화하는 통합된 비트 레이트 편차의 최대치의 ¾보다 더 작은 고정된 값을 가정하도록, 오디오 데이터 스트림의 비트 레이트가 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르게 레이트 제어를 수행하도록 구성된다.

E7. 양상들 E1 내지 E5 중 임의의 한 양상에 따른 오디오 인코더는, 미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 미리 결정된 액세스 유닛뿐만 아니라 오디오 데이터 스트림에 절단 유닛 패킷들이 삽입되는 다른 액세스 유닛들에서도, 미리 결정된 값을 가정하도록, 오디오 데이터 스트림의 비트 레이트가 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르게 레이트 제어를 수행하도록 구성된다.

E8. 양상들 E1 내지 E7 중 어느 한 양상에 따른 오디오 인코더는, 로깅된 채움 상태가 미리 결정된 액세스 유닛에서 미리 결정된 값을 가정하도록 코딩된 오디오 디코더 버퍼 채움 상태를 로깅함으로써 레이트 제어를 수행하도록 구성된다.

E9. 양상 E8에 따른 오디오 인코더에서, 미리 결정된 값은 절단 유닛 패킷들이 오디오 데이터 스트림에 삽입되는 액세스 유닛들 사이에서 공통적이다.

E10. 양상 E8에 따른 오디오 인코더는, 오디오 데이터 스트림 내의 미리 결정된 값을 시그널링하도록 구성된다.

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 이상의 단계들이 이러한 장치에 의해 실행될 수도 있다.

본 발명의 스플라이싱된 또는 스플라이싱 가능한 오디오 데이터 스트림들은 디지털 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.

본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.

다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.

추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.

일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

본 명세서에서 설명한 장치는 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 구현될 수도 있다.

본 명세서에서 설명한 방법들은 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 수행될 수도 있다.

앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

참조들

[1] METHOD AND ENCODER AND DECODER FOR SAMPLE-ACCURATE REPRESENTATION OF AN AUDIO SIGNAL, IIS1b-10 F51302 WO-ID, FH110401PID

[2] ISO/IEC 23008-3, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

[3] ISO/IEC DTR 14496-24: Information technology - Coding of audio-visual objects - Part 24: Audio and systems interaction

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
오디오 데이터 스트림들을 스플라이싱하기 위한 스트림 스플라이서로서,
페이로드 패킷들(16)의 시퀀스를 포함하는 제 1 오디오 데이터 스트림(40)을 수신하기 위한 제 1 오디오 입력 인터페이스(102) ― 상기 페이로드 패킷들 각각은 상기 제 1 오디오 데이터 스트림이 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속하고, 상기 제 1 오디오 데이터 스트림의 각각의 액세스 유닛은 제 1 오디오 신호(12)의 오디오 프레임들(14)의 단위로 상기 제 1 오디오 데이터 스트림으로 인코딩되는 상기 제 1 오디오 신호의 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―;
페이로드 패킷들의 시퀀스를 포함하는 제 2 오디오 데이터 스트림(110)을 수신하기 위한 제 2 오디오 입력 인터페이스(104) ― 상기 페이로드 패킷들 각각은 상기 제 2 오디오 데이터 스트림이 분할되는 액세스 유닛들의 시퀀스 중 각각의 액세스 유닛에 속하고, 상기 제 2 오디오 데이터 스트림의 각각의 액세스 유닛은 제 2 오디오 신호의 오디오 프레임들의 단위로 상기 제 2 오디오 데이터 스트림으로 인코딩되는 상기 제 2 오디오 신호의 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―;
스플라이스 포인트 설정기; 및
스플라이스 멀티플렉서를 포함하며,
상기 제 1 오디오 데이터 스트림은 상기 제 1 오디오 데이터 스트림에 삽입되며 선행 액세스 유닛과 후속 액세스 유닛을 포함하는 상기 제 1 오디오 데이터 스트림의 액세스 유닛들(18)의 시퀀스의 미리 결정된 액세스 유닛에 대해, 상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 설정 가능한 절단 유닛 패킷(42; 58)을 더 포함하고,
스플라이스 포인트 설정기(106)는 상기 절단 유닛 패킷(42; 58)이 상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하게 상기 절단 유닛 패킷을 설정하도록 구성되거나, 또는 상기 스플라이스 포인트 설정기(106)는 상기 제 1 오디오 데이터 스트림에 절단 유닛 패킷(42; 58)을 삽입하도록 구성되고 미리 결정된 액세스 유닛에 대해, 상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 상기 절단 유닛 패킷(42; 58)을 설정하며;
스플라이스 멀티플렉서(108)는 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스― 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스 내의 각각의 페이로드 패킷은 상기 미리 결정된 액세스 유닛을 포함하는 상기 제 1 오디오 데이터 스트림의 연속한 액세스 유닛들 중 각각의 액세스 유닛에 속함 ―를 얻기 위해 상기 미리 결정된 액세스 유닛에서 상기 제 1 오디오 데이터 스트림(40)을 절단하고, 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스와 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들의 시퀀스가 서로에 대해 바로 연속하며 상기 미리 결정된 액세스 유닛에서 서로 인접하도록 서브시퀀스와 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들의 시퀀스를 스플라이싱하도록 구성되고,
상기 미리 결정된 액세스 유닛이 관련되는 오디오 프레임의 말단부는, 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스가 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들에 선행하는 경우에는 트레일링 단부 부분(44)이고 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스가 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스에 후속하는 경우에는 리딩 단부 부분(56)인,
오디오 데이터 스트림들을 스플라이싱하기 위한 스트림 스플라이서.
제 13 항에 있어서,
상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스는 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들의 시퀀스에 선행하고, 상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부는 트레일링 단부 부분(44)인,
오디오 데이터 스트림들을 스플라이싱하기 위한 스트림 스플라이서.
제 13 항에 있어서,
상기 스플라이스 포인트 설정기는 상기 말단부의 시간 길이를 외부 클록과 일치하게 설정하도록 구성되며,
상기 외부 클록은 비디오 프레임 클록인,
오디오 데이터 스트림들을 스플라이싱하기 위한 스트림 스플라이서.
제 14 항에 있어서,
상기 제 2 오디오 데이터 스트림(110)에 삽입되며 상기 제 2 오디오 데이터 스트림(110)의 종결 액세스 유닛이 연관되는 추가 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한 추가 절단 유닛 패킷(114)을 상기 제 2 오디오 데이터 스트림이 갖거나 상기 스플라이스 포인트 설정기(106)가 삽입에 의해 발생시키고,
상기 제 1 오디오 데이터 스트림은 상기 제 1 오디오 데이터 스트림(40)에 삽입되며 더 추가적인 미리 결정된 액세스 유닛이 연관되는 더 추가 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한 더 추가 절단 유닛 패킷(58)을 더 포함하고,
상기 미리 결정된 액세스 유닛의 오디오 프레임과 상기 더 추가적인 미리 결정된 액세스 유닛의 더 추가 오디오 프레임 사이의 시간 거리는 스플라이싱 이후에 상기 미리 결정된 액세스 유닛에 후속하는 리딩 액세스 유닛과 상기 종결 액세스 유닛 사이의 상기 제 2 오디오 신호의 시간 길이와 일치하며,
상기 스플라이스 포인트 설정기(106)는 상기 추가 절단 유닛 패킷(114)이 상기 추가 오디오 프레임의 트레일링 단부 부분(44)을 재생시 폐기될 것으로 표시하게 상기 추가 절단 유닛 패킷(114)을 설정하고, 상기 더 추가 절단 유닛 패킷(58)이 상기 더 추가 오디오 프레임의 리딩 단부 부분(44)을 재생시 폐기될 것으로 표시하게 상기 더 추가 절단 유닛 패킷(58)을 설정하도록 구성되며,
상기 스플라이스 멀티플렉서(108)는, 상기 제 2 오디오 데이터 스트림(110)에 의해 구성되며 각각의 액세스 유닛에 대해, 상기 각각의 액세스 유닛이 연관되는 오디오 프레임이 재생될 각각의 타임스탬프를 표시하는 타임스탬프 정보(24)를, 상기 제 2 오디오 데이터 스트림(110)의 리딩 액세스 유닛이 연관되는 리딩 오디오 프레임의 타임스탬프가 (상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 타임스탬프) + (상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 트레일링 단부 부분의 시간 길이)와 일치하게 적응시키도록 구성되고, 상기 스플라이스 포인트 설정기(106)는 상기 더 추가 오디오 프레임의 타임스탬프가 (상기 추가 오디오 프레임의 타임스탬프) + (상기 추가 오디오 프레임의 시간 길이) - (상기 추가 오디오 프레임의 트레일링 단부 부분과 상기 더 추가 오디오 프레임의 리딩 단부 부분의 시간 길이의 합)과 같게 상기 추가 절단 유닛 패킷(114) 및 상기 더 추가 절단 유닛 패킷(58)을 설정하도록 구성되는,
오디오 데이터 스트림들을 스플라이싱하기 위한 스트림 스플라이서.
제 14 항에 있어서,
상기 제 2 오디오 데이터 스트림의 리딩 액세스 유닛이 연관되는 추가 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한, 상기 제 2 오디오 데이터 스트림(110)에 삽입된 추가 절단 유닛 패킷(112)을 상기 제 2 오디오 데이터 스트림이 갖거나 상기 스플라이스 포인트 설정기(106)가 삽입에 의해 발생시키고,
상기 스플라이스 포인트 설정기(106)는 상기 추가 절단 유닛 패킷(112)이 상기 추가 오디오 프레임의 리딩 단부 부분을 재생시 폐기될 것으로 표시하도록 상기 추가 절단 유닛 패킷(112)을 설정하도록 구성되고,
상기 제 1 오디오 데이터 스트림 및 상기 제 2 오디오 데이터 스트림에 의해 구성되며 각각의 액세스 유닛에 대해, 상기 제 1 오디오 데이터 스트림 및 상기 제 2 오디오 데이터 스트림의 각각의 액세스 유닛이 연관되는 오디오 프레임이 재생될 각각의 타임스탬프를 표시하는 타임스탬프 정보(24)가 시간상 정렬되며, 상기 스플라이스 포인트 설정기(106)는 (상기 추가 오디오 프레임의 타임스탬프) - (상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) + (상기 리딩 단부 부분의 시간 길이)가 (상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 타임스탬프) + (상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 시간 길이) - (상기 트레일링 단부 부분의 시간 길이)와 동일하게 상기 추가 절단 유닛 패킷을 설정하도록 구성되는,
오디오 데이터 스트림들을 스플라이싱하기 위한 스트림 스플라이서.
오디오 디코더로서,
오디오 데이터 스트림(120)의 페이로드 패킷들(16)의 시퀀스로부터의 오디오 신호(12)를 상기 오디오 신호의 오디오 프레임들(14)의 단위로 재구성하도록 구성된 오디오 디코딩 코어(162) ― 상기 페이로드 패킷들 각각은 상기 오디오 데이터 스트림이 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속하고, 각각의 액세스 유닛은 상기 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―; 및
상기 오디오 데이터 스트림에 삽입된 절단 유닛 패킷(42; 58; 114)에 응답하여, 상기 오디오 신호의 재생시, 재생 중에 상기 절단 유닛 패킷에 의해 폐기되도록 표시된 상기 오디오 신호의 말단부를 폐기하기 위해, 선행 액세스 유닛과 후속 액세스 유닛을 포함하는 액세스 유닛들(18)의 시퀀스의 미리 결정된 액세스 유닛과 연관된 오디오 프레임을 절단하도록 구성된 오디오 절단기(164)를 포함하는,
오디오 디코더.
제 18 항에 있어서,
상기 절단 유닛 패킷은 리딩/트레일링 단부 절단 신택스 엘리먼트(54) 및 절단 길이 엘리먼트(48)를 포함하고,
상기 디코더는 상기 말단부가 트레일링 단부 부분(44)인지 아니면 리딩 단부 부분(56)인지의 표시로서 상기 리딩/트레일링 단부 절단 신택스 엘리먼트를 그리고 상기 오디오 프레임의 말단부의 길이(Δt)의 표시로서 상기 절단 길이 엘리먼트를 사용하는,
오디오 디코더.
오디오 인코더로서,
오디오 데이터 스트림(40)이 분할되는 액세스 유닛들(18) 중 각각의 액세스 유닛에 각각의 페이로드 패킷이 속하게 오디오 신호(12)를 상기 오디오 신호의 오디오 프레임들(14)의 단위로 상기 오디오 데이터 스트림의 페이로드 패킷들(16)로 인코딩하도록 구성된 오디오 인코딩 코어(72) ― 각각의 액세스 유닛은 상기 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―, 및
선행 액세스 유닛과 후속 액세스 유닛을 포함하는 액세스 유닛들(18)의 시퀀스의 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한 절단 유닛 패킷(44; 58)을 상기 오디오 데이터 스트림에 삽입하도록 구성된 절단 패킷 삽입기(74)를 포함하는,
오디오 인코더.
제 20 항에 있어서,
미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 상기 미리 결정된 액세스 유닛에서, 완전한 스플라이싱 가능 오디오 데이터 스트림에 걸쳐 변화하는 상기 통합된 비트 레이트 편차의 범위보다 ½ 폭 미만인 미리 결정된 간격 내의 값을 가정하도록, 상기 오디오 데이터 스트림의 비트 레이트가 상기 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르게 레이트 제어를 수행하도록 구성되는,
오디오 인코더.
제 20 항에 있어서,
미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 상기 미리 결정된 액세스 유닛에서, 완전한 스플라이싱 가능 오디오 데이터 스트림에 걸쳐 변화하는 상기 통합된 비트 레이트 편차의 최대치의 ¾보다 더 작은 고정된 값을 가정하도록, 상기 오디오 데이터 스트림의 비트 레이트가 상기 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르게 레이트 제어를 수행하도록 구성되는,
오디오 인코더.
제 20 항에 있어서,
미리 결정된 평균 비트 레이트로부터의 통합된 비트 레이트 편차가 상기 미리 결정된 액세스 유닛뿐만 아니라 상기 오디오 데이터 스트림에 절단 유닛 패킷들이 삽입되는 다른 액세스 유닛들에서도, 미리 결정된 값을 가정하도록, 상기 오디오 데이터 스트림의 비트 레이트가 상기 미리 결정된 평균 비트 레이트 주위에서 변화하고 그에 따르게 레이트 제어를 수행하도록 구성되는,
오디오 인코더.
제 20 항에 있어서,
로깅된 채움 상태가 상기 미리 결정된 액세스 유닛에서 미리 결정된 값을 가정하도록 코딩된 오디오 디코더 버퍼 채움 상태를 로깅함으로써 레이트 제어를 수행하도록 구성되는,
오디오 인코더.
제 24 항에 있어서,
상기 미리 결정된 값은 절단 유닛 패킷들이 상기 오디오 데이터 스트림에 삽입되는 액세스 유닛들 사이에서 공통적인,
오디오 인코더.
제 24 항에 있어서,
상기 오디오 데이터 스트림 내의 미리 결정된 값을 시그널링하도록 구성되는,
오디오 인코더.
오디오 데이터 스트림들을 스플라이싱하기 위한 방법으로서,
상기 오디오 데이터 스트림들은, 페이로드 패킷들(16)의 시퀀스를 포함하는 제 1 오디오 데이터 스트림(40) ― 상기 페이로드 패킷들 각각은 상기 제 1 오디오 데이터 스트림이 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속하고, 상기 제 1 오디오 데이터 스트림의 각각의 액세스 유닛은 제 1 오디오 신호(12)의 오디오 프레임들(14)의 단위로 상기 제 1 오디오 데이터 스트림으로 인코딩되는 상기 제 1 오디오 신호의 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―; 및 페이로드 패킷들의 시퀀스를 포함하는 제 2 오디오 데이터 스트림(110) ― 상기 페이로드 패킷들 각각은 상기 제 2 오디오 데이터 스트림이 분할되는 액세스 유닛들의 시퀀스 중 각각의 액세스 유닛에 속하고, 상기 제 2 오디오 데이터 스트림의 각각의 액세스 유닛은 제 2 오디오 신호의 오디오 프레임들의 단위로 상기 제 2 오디오 데이터 스트림으로 인코딩되는 상기 제 2 오디오 신호의 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ― 을 포함하고,
상기 제 1 오디오 데이터 스트림은 상기 제 1 오디오 데이터 스트림에 삽입되며 선행 액세스 유닛과 후속 액세스 유닛을 포함하는 상기 제 1 오디오 데이터 스트림의 액세스 유닛들(18)의 시퀀스의 미리 결정된 액세스 유닛에 대해, 상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 설정 가능한 절단 유닛 패킷(42; 58)을 더 포함하고,
상기 방법은 상기 절단 유닛 패킷(42; 58)이 상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 상기 절단 유닛 패킷을 설정하는 단계를 포함하거나, 또는
상기 방법은 상기 제 1 오디오 데이터 스트림에 절단 유닛 패킷(42; 58)을 삽입하고 미리 결정된 액세스 유닛에 대해, 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 상기 절단 유닛 패킷(42; 58)을 설정하고, 상기 절단 유닛 패킷(42; 58)이 상기 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부(44; 56)를 재생시 폐기될 것으로 표시하도록 상기 절단 유닛 패킷을 설정하는 단계를 포함하며;
상기 방법은 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스― 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스 내의 각각의 페이로드 패킷은 상기 미리 결정된 액세스 유닛을 포함하는 상기 제 1 오디오 데이터 스트림의 연속한 액세스 유닛들 중 각각의 액세스 유닛에 속함 ―를 얻기 위해 상기 미리 결정된 액세스 유닛에서 상기 제 1 오디오 데이터 스트림(40)을 절단하고, 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스와 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들의 시퀀스가 서로에 대해 바로 연속하며 상기 미리 결정된 액세스 유닛에서 서로 인접하도록 서브시퀀스와 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들의 시퀀스를 스플라이싱하는 단계를 더 포함하고,
상기 미리 결정된 액세스 유닛이 관련되는 오디오 프레임의 말단부는, 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스가 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들에 선행하는 경우에는 트레일링 단부 부분(44)이고 상기 제 1 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스가 상기 제 2 오디오 데이터 스트림의 페이로드 패킷들의 서브시퀀스에 후속하는 경우에는 리딩 단부 부분(56)인,
오디오 데이터 스트림들을 스플라이싱하기 위한 방법.
오디오 디코딩 방법으로서,
오디오 데이터 스트림(120)의 페이로드 패킷들(16)의 시퀀스로부터의 오디오 신호(12)를 상기 오디오 신호의 오디오 프레임들(14)의 단위로 재구성하는 단계 ― 상기 페이로드 패킷들 각각은 상기 오디오 데이터 스트림이 분할되는 액세스 유닛들(18)의 시퀀스 중 각각의 액세스 유닛에 속하고, 각각의 액세스 유닛은 상기 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―; 및
상기 오디오 데이터 스트림에 삽입된 절단 유닛 패킷(42; 58; 114)에 응답하여, 상기 오디오 신호의 재생시, 재생 중에 상기 절단 유닛 패킷에 의해 폐기되도록 표시된 상기 오디오 신호의 말단부를 폐기하도록, 선행 액세스 유닛과 후속 액세스 유닛을 포함하는 액세스 유닛들(18)의 미리 결정된 액세스 유닛과 연관된 오디오 프레임을 절단하는 단계를 포함하는,
오디오 디코딩 방법.
오디오 인코딩 방법으로서,
오디오 데이터 스트림(40)이 분할되는 액세스 유닛들(18) 중 각각의 액세스 유닛에 각각의 페이로드 패킷이 속하게 오디오 신호(12)를 상기 오디오 신호의 오디오 프레임들(14)의 단위로 상기 오디오 데이터 스트림의 페이로드 패킷들(16)로 인코딩하는 단계 ― 각각의 액세스 유닛은 상기 오디오 프레임들 중 각각의 오디오 프레임과 연관됨 ―, 및
선행 액세스 유닛과 후속 액세스 유닛을 포함하는 액세스 유닛들(18)의 시퀀스의 미리 결정된 액세스 유닛이 연관되는 오디오 프레임의 말단부를 재생시 폐기될 것으로 표시하도록 설정 가능한 절단 유닛 패킷(44; 58)을 상기 오디오 데이터 스트림에 삽입하는 단계를 포함하는,
오디오 인코딩 방법.
컴퓨터 상에서 실행될 때, 제 27 항 내지 제 29 항 중 임의의 한 항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이 저장된,
컴퓨터 판독 가능 디지털 저장 매체.