KR100933469B1 - 오디오 코딩 - Google Patents
오디오 코딩 Download PDFInfo
- Publication number
- KR100933469B1 KR100933469B1 KR1020047011131A KR20047011131A KR100933469B1 KR 100933469 B1 KR100933469 B1 KR 100933469B1 KR 1020047011131 A KR1020047011131 A KR 1020047011131A KR 20047011131 A KR20047011131 A KR 20047011131A KR 100933469 B1 KR100933469 B1 KR 100933469B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- frames
- video
- frame
- length
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 6
- 230000015556 catabolic process Effects 0.000 claims description 5
- 238000006731 degradation reaction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000000593 degrading effect Effects 0.000 claims 2
- 238000013459 approach Methods 0.000 description 29
- 238000009826 distribution Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000016507 interphase Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Cereal-Derived Products (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
오디오 및 비디오 데이터를 인코딩하는 오디오 인코딩 방식 또는 스트림이 개시되어 있다. 이 방식은 디지털 텔레비전 방송에서 메자닌 레벨 코딩에서의 특정 용도를 갖는다. 이 방식은 인코딩시에 길이 = F(j)인 규정된 시퀀스에서 길이(F) 내에서 가변적인 오디오 프레임들을 제공함으로써, 정수(M)의 비디오 프레임들 상으로 비디오 프레임 길이(1/fv)와 동일한 평균 유효 오디오 프레임 길이()를 갖는다. 이 오디오 프레임들의 길이는 M 개의 프레임들의 시퀀스 후 반복되는 알고리즘에 따라 인접한 프레임들 사이의 오버랩의 길이를 변경시킴으로써 변화될 수 있다. 그러한 방식을 위한 인코더 및 디코더 역시 개시되어 있다.
프레임, 인코더, 비디오 데이터, 오버랩, 디코더, 평균 유효 오디오 프레임 길이
Description
본 발명은 특정 데이터 스트림이 다른 데이터 스트림으로 동기화되는 지점들에서 편집될 수 있도록 데이터 스트림 내로 오디오 신호들을 코딩하는 것에 관한 것이다. 특히, 본 발명은 연관된 비디오 프레임 경계들에서 압축된 도메인 내의 오디오의 비파괴적 스플라이싱을 요하는 디지털 텔레비전 전송 방식에 적용되지만, 이에 한정되는 것은 아니다.
디지털 텔레비전(DTV) 시스템들은 제한된 대역폭의 채널 상에서 여러 프로그램들이 방송될 수 있게 한다. 이들 프로그램들은 각각의 비디오 및 오디오 콘텐트를 갖는다. 이들 프로그램들 중의 일부는 양질의 다중 채널 오디오(예를 들면, 홈 시네마 시스템들에 의해 재생될 수 있는 5 채널들)를 포함할 수 있다. DTV 생성 사이트들, 네트워크들 및 가입자들은 전형적으로 모든 오디오 콘텐트를 전달하기 위한 전송 회선들 및 비디오 테잎 레코더들을 이용한다. 이들 인프라 구조들 다수는 단지 2개의 미압축 오디오 채널들에 대한 커패시티를 갖고, 따라서 다중 채널들은 통상적으로 레코딩 또는 전송 전에 가볍게 압축되고 포맷화된다. 송출(즉, 최종 이용자에게 방송) 전에, 프로그램 스트림들은 강력하게 압축된다.
DTV 생산의 기여 및 분배 단계들에서, 원시 스트림들은 프로그램 편집 또는 프로그램 스위칭을 위해 (예, 라이브 네트워크 피드로의 지역 콘텐트의 삽입을 위 해) 스플라이싱되어야 한다. 그러한 스플라이싱은 콘텐트 스트림 내의 비디오 프레임 경계들에서 수행된다.
방송 스트림의 오디오 콘텐트는 여러 요건들에 부합해야 한다. DTV 시청자들은 수신된 프로그램들이 고도로 민감한 오디오 품질을 갖기를 기대할 수 있고, 특히 프로그램들이 홈 시네마 시스템에서와 같은 양질의 재생 장비를 이용하여 재생되어야 할 때 그러하다. 예를 들면, 다중 인코딩 및 디코딩 스테이지들의 캐스케이딩으로 인한 어떠한 가청 아티팩트들도 없어야 하고, 프로그램 스위칭 동안에 사운드에 있어서 어떠한 감지 가능한 방해도 없어야 한다. 보다 중요하게는, 재생된 프로그램들은 립 싱크되어야 하고, 바꾸어 말하면, 오디오 스트림은 대응하는 비디오 스트림과 동기되어야 한다. 합리적인 비용으로, 즉, 현존하는 (2-채널) 인프라 구조를 이용하여 이들 목표들을 달성하기 위해, 압축된 도메인 내에서 오디오 프로그램들을 스플라이싱하여야 한다.
기존의 메자닌 인코딩 방식(mezzanine encoding scheme)은 AES-3 쌍을 통해 인코딩된 오디오 및 멀티플렉스된 메타데이터의 8개의 채널들에 이르기까지 분포시키기 위한 돌비 러버러토리스사의 버전 2 1998, 돌비 디지털 방송 구현 가이드라인 파트 제 91549호에 규정된 돌비 E(r.t.m)를 포함한다. 곧 도입되어야 할 (NAB 1999) DP571 돌비 E 인코더 및 DP572 돌비 E 디코더는 최소한의 뮤트들 또는 글리치들에 따라 인코딩된 오디오의 편집 및 스위칭을 허용해야 한다. 더욱이, 이들은 가청 저하 없는 캐스케이딩을 허용한다. 돌비 E는 20-비트 샘플 크기를 이용하고 2:1과 5:1 비트율 사이의 감소를 제공한다.
영국 방송 협회 등은 ACTS ATLANTIC 프로젝트를 통해 MPEG-2 비디오 비트스트림들의 스위칭 및 편집을 위한 융통성있는 방법을 제안하고 있다. 이와 같이 이음매 없는 연속 접근법은 캐스케이딩 저하를 피하기 위해 측면 정보와 함께 디코딩 및 재-인코딩을 이용한다. 그러나, 이러한 방식은 MPEG-2 레이어 II 및 AES/EBU 인터위상를 갖는 용도로 제한된다. 더욱이, 오디오 데이터는 타임 오프셋을 도입하는 편집 지점들에 관하여 슬라이딩되도록 허용된다. 따라서, 성공적인 편집들은 오디오와 비디오 정보 사이에 큰 타임 오프셋을 초래할 수 있다.
방송 체인(broadcasting chain) 전반에서, 비디오 및 오디오 스트림들은 립 싱크로 유지되어야 한다. 다시 말하면, 오디오는 대응하는 비디오에 동기되게 유지되어야 한다. 송출에 앞서, 분포 사이트들은 오디오 및 비디오 스트림들(예, 지역 콘텐트를 포함하도록)을 스플라이싱(예, 스위치, 편집 또는 혼합)할 수 있다. 스플라이싱 후, 비디오 및 오디오 프레임 경계들이 일치하지 않는 경우, 이는 대부분의 오디오 코딩 방식들에 대한 경우이고, 비디오에 관한 오디오의 슬립으로 인해 립 싱크를 자동으로 보증하는 것이 가능하지 않다. 극단적인 경우들에서, 어떠한 특수한 측정들도 취해지지 않을 때, 이는 뮤트들 또는 글리치들 등의 오디오 아티팩트들을 유도할 수 있었다. 글리치들은 뮤트들이 이들 글리치들을 피하기 위해 인가될 수 있는 한편, 순종적이지 않은 오디오 스트림을 디코딩하려는 시도의 결과일 수 있다. 본 발명의 목적은 뮤트들, 글리치들 또는 슬립들 등의 오디오 아티팩 트들을 도입함이 없이 스플라이싱될 수 있는 오디오 스트림을 위한 인코딩 방식을 제공하는 것이다.
본 발명의 다른 목적은 품질이 최소한도로 손실되는 캐스케이딩 압축 및 압축 해제에 적용될 수 있는 인코딩 방식을 제공하는 것이다.
제 1 양상에서, 본 발명은 오디오 및 비디오 데이터를 인코딩하는 스트림을 위한 오디오 인코딩 방식을 제공하고, 상기 방식은 인코딩시에 규정된 시퀀스 F(j)에서 길이 F가 유사 비디오-매치적인 오디오 프레임들을 제공함으로써, 정수인 M 개의 비디오 프레임들에 대해 비디오 프레임의 길이 1/fv와 동일한 평균 유효 오디오 프레임 길이 를 갖는다.
이 방식은 스트림이 오디오 정보에 대한 저하(degradation) 없이 적어도 각각의 비디오 프레임에서 편집될 수 있음을 보장한다. 바람직하게는, 프레임 길이 F는 연속적인 오디오 프레임들 간의 오버랩 O을 변화시킴으로써 조정될 수 있다.
본 발명을 구현하는 방식들에서, 값(F(j))은 j에 대해 주기적으로 반복되고, F(j)의 주기성은 프레임들의 시퀀스를 규정한다. 전형적으로 시퀀스당 M 개의 비디오 프레임들 및 N 개의 오디오 프레임들이 존재하고, 각각의 오디오 프레임은 k 개의 블록들로 구성된 것이다. 시퀀스 내의 프레임들 간의 전체 오버랩 OT은 예를 들면 OT = p ×O + q ×(O + 1)과 동일하고, 여기서, O는 블록들내의 오버랩 길이이다.
본 발명의 범위 내의 한 방식에서, 특정 비디오 프레임에 대응하는 오디오 프레임들만이 오버랩된다. 그러한 방식에서, p 및 q의 값들은 다음 방정식들에 부합될 수 있다: p = (N - M) ×(O + 1) - OT 및 q = (N - M) - p.
대안의 방식에서, 특정 비디오 시퀀스에 대응하는 오디오 프레임들만이 오버랩된다. 그러한 방식에서, p 및 q는 다음 방정식들에 부합될 수 있다: p = (N - 1) ×(O + 1) - OT 및 q = (N - 1) - p.
다른 대안의 방식에서, 임의의 인접한 오디오 프레임들이 오버랩된다. 그와 같이 바람직한 방식에서, p 및 q는 다음 방정식들에 부합될 수 있다: p = N ×(O + 1) - OT 및 q = N - p. 이러한 후자의 방식은 ∃n ∈ + : n ×t = M × 이 되도록 비디오 프레임들의 시퀀스 M에 대한 오버랩의 최적 값들을 제공할 수 있다.
비디오 시퀀스는 초당 비디오 프레임들의 fv 레이트로 (가능한 한 유한한) 정수 개의(즉, M 개의) 비디오 프레임들로 규정되고, 각각의 비디오 프레임은 동일한 정수 N 개의 (압축된) 오디오 프레임들을 포함하고, 각각의 오디오 프레임은 정수 k 개의 블록들을 포함하고, 각각의 블록은 초당 fA 샘플들의 샘플링 레이트로 정수 t개의 오디오 샘플들을 나타낸다. 오디오와 비디오 주파수들 간의 몫의 수배인 비디오 프레임들의 수와 (압축된) 오디오의 블록당 오디오 샘플들의 수 간의 나눗셈의 나머지를 0과 동일하게 만듦으로써, M은 정수인 것이 보장된다. 따라서, N 역시 정수이다. 결과적으로, 오버랩되는 블록들의 전체 수 역시 정수이고, 따라서 각각 단일 오버랩된다. 오버랩되는 블록들의 수가 정수라는 것은 대부분의 경우에 필요 요건이다. 샘플들의 블록들은 밑에 놓인 코덱에 의해 다루어진 정보의 최소 단위들이다.
제 2 양상으로부터, 본 발명은 N 개의 유사 비디오-매치된 프레임들의 방식 오디오 샘플들이 반-유사 비디오-매치 오버랩과 프레임들 내에서 인코딩됨으로써 오디오 프레임들의 유효 길이는 M 개의 비디오 프레임들의 시퀀스의 길이와 일치하고, 여기서 M 및 N은 양의 정수들인 인코딩된 오디오 및 비디오 데이터를 전달하는 스트림을 위한 오디오 인코딩 방식을 제공한다.
본 발명은 선행하는 본 발명의 양상에 따른 방식에 의해 인코딩된 데이터 스트림을 제공한다. 그러한 스트림은 오디오 프레임들을 포함할 수 있고, 이들 각각은 오디오 프레임의 크기를 나타내도록 태그된다. 블록들은 그 블록이 중복 블록인지 여부를 나타내도록 유사하게 태그된다.
다른 양상으로부터, 본 발명은 본 발명의 제 1 양상에 따라 오디오 스트림을 인코딩하기 위한 오디오 인코더(예를 들면 소프트웨어 성분 또는 하드웨어 회로로서 구현될 수 있음)를 제공하고; 또한 본 발명의 제 1 양상에 따라 오디오 스트림을 디코딩하기 위한 오디오 디코더를 제공한다.
본 발명의 이러한 양상에 따른 오디오 디코더는 하나 또는 그 이상의 블록 오퍼레이터들의 세트를 각각의 블록에 적용함으로써 데이터 스트림내의 블록들의 중복 상태를 변화시킴으로써 작동된다. 이는 블록의 상태를 변화시키지 않는 오퍼레이터인 NOP; 헤드 오버랩으로부터 중복 블록으로 제 1의 비중복 블록을 변화시키는 오퍼레이터인 DROP; 테일 오버랩으로부터 비중복 블록으로 제 1의 중복 블록을 변화시키는 오퍼레이터인 APPEND; 및 DROP 및 APPEND 오퍼레이터들 모두의 조합인 오퍼레이터인 SHIFT 중의 1개 이상을 포함하는 오퍼레이터들의 세트에 의해 달성될 수 있다.
특히, 본 발명은 인코딩시에 규정된 시퀀스 F(j)에서 길이 F에서 유효값을 갖도록 유사 비디오-매치성 오버랩의 오디오 프레임들을 제공함으로써, 평균 유효 오디오 프레임 길이 가 정수인 M 개의 비디오 프레임들에 대해 비디오 프레임 길이 1/fv와 동일하도록 가변적 길이의 오디오 프레임들을 생성하는, 오디오 및 비디오 데이터를 인코딩하는 스트림을 위한 오디오를 코딩하는 오디오 인코더를 제공한다.
그러한 오디오 인코더는 시퀀스에서 길이 O의 짧은 오버랩 및 전체 q 개의 긴 오버랩들을 갖는 스트림을 코딩하기 위한 것으로, 이 인코더는 N 개의 오디오 프레임들 후에 반복되는 알고리즘을 이용하여 헤드 오버랩을 계산하는 것이다.
추가적인 양상으로부터, 본 발명은 가능하게는 환상 이동되는 시퀀스 F(j) 중의 인입되는 프레임 F의 기대된 프레임 길이를 계산하고, 이를 기대된 프레임 길이와 동일하게 하기 위해 인입되는 프레임의 실제 길이를 조정하고, 수신된 프레임 내의 임의의 블록이 중복 블록 또는 비중복 블록인지 여부를 결정하고, 비중복 블록들을 서브밴드 샘플들 상으로 매핑하는, 인코딩된 오디오 및 비디오 데이터를 전달하는 스트림을 디코딩하기 위한 오디오 디코더(예를 들면, 소프트웨어 성분 또는 하드웨어 회로로서 구현될 수 있음)를 제공한다.
본 발명을 구현하는 시스템들에서, 전형적으로, 레이트 변환 등의 오디오의 별도의 조작이 없다. 더욱이, 수신된 스트림을 정확히 디코딩하는데 필요한 모든 정보는 가장 전형적으로 인코더에 부가되고, 편집하는 동안 이러한 정보를 변경시킬 필요가 없다. 따라서, 편집은 어떠한 변경도 없이 현존하는 인프라구조를 이용하여 행해질 수 있다. 더욱이, 디코딩을 가능하게 하기 위해 스트림에 아주 적은 별도의 정보도 부가될 필요가 없다. 중요한 말이 하나 남았는데, 송출 포맷으로서 MPEG을 이용할 때, 전송을 위해 MPEG-류의 포맷을 이용하는 것도 편리할 수 있다.
본 발명의 실시예는 이하 수반된 도면들을 참조하여, 단지 예로써 상세히 기재될 것이다.
도 1은 DTV 방송에 연루된 전형적인 체인의 도면.
도 2는 전형적인 DTV 생성 사이트의 주요 성분들을 보여주는 도면.
도 3은 전형적인 DTV 네트워크 사이트의 주요 성분들을 보여주는 도면.
도 4는 본 발명의 일 실시예에서 제 1 접근법에 따라 인코딩된 스트림 내의 오디오 및 비디오 프레임들의 구성을 보여주는 도면.
도 5는 본 발명의 일 실시예에서 제 2 접근법에 따라 인코딩된 스트림 내의 오디오 및 비디오 프레임들의 구성을 보여주는 도면.
도 6은 본 발명의 일 실시예에서 제 3 접근법에 따라 인코딩된 스트림 내의 오디오 및 비디오 프레임들의 구성을 보여주는 도면.
도 7은 IEC61937에서 NTSC 및 48kHz 오디오에 대해 MPEG-2 레이어 II에 기초하여, 본 발명을 구현하는 스트림의 비트 할당을 보여주는 도면.
도 8은 본 발명의 일 실시예에 의해 인코딩된 스트림 내의 블록들의 구성의 도면.
다음 설명에서, 다음 심볼들이 전반적으로 이용된다:
fA, fV 오디오 샘플링 주파수, 비디오 프레임 레이트
tA, tV
오디오, 비디오 프레임 기간 길이
s 오디오 프레임당 샘플들
k 오디오 프레임당 샘플들의 블록들
t 블록당 샘플들
M, N 시퀀스당 비디오, 오디오 프레임들의 양
p 시퀀스당 짧은 오버랩들의 양
q 시퀀스당 긴 오버랩들의 양
j 프레임 인덱스
F(j), G(j) 프레임의 유효 길이
H(j), T(j) 프레임의 헤드, 테일 오버랩
b 짧은 프레임의 길이
B 비디오 시퀀스에서 블록들의 전체수
φ 위상
Q 널 패딩
A(j) 첨부 오퍼레이션 토글
OP(j) 오퍼레이터
s(j) 동기화 에러
δ 전체 동기화 에러
u, v 보조 변수들
먼저 도 1을 참조하면, 전형적인 DTV 방송 시스템은 기여 단계(10), 분배 단계(12) 및 송출 단계(14)를 포함하는 체인이다.
기여 단계에서, 콘텐트는 1개 이상의 생성 사이트들(20)에서 기원되고, 분배 네트워크(22)에 의해 방송 네트워크 사이트(24)로 전송된다. 방송 네트워크(24)는 콘텐트를 포함하는 프로그램 스트림을 생산하고, 프로그램 스트림을 분배 네트워크(30) 상으로 직접 위성 수신 방송업자(32), 지상 방송업자(34) 또는 케이블 텔레비전 제공자(36) 등의 제휴자들에게 분배한다. 이어서, 가입자(40)는 제휴자들 중의 하나의 출력으로부터 프로그램 스트림을 수신할 수 있다.
생성 사이트 내에서, 여러 타입들의 콘텐트가 생산될 수 있고 상이한 매체 상에 저장될 수 있다. 예를 들면, 제 1 스튜디오(50)는 라이브 콘텐트를 생산할 수 있고, 라이브 스튜디오(52)는 녹화된 콘텐트(예, 상업 광고들)를 생산할 수 있다. 각각의 경우에, 콘텐트는 비디오 및 오디오 성분을 포함한다. 각각의 스튜디오(50)로부터의 출력은 오디오 및 비디오 콘텐트를 인코딩하는 기본 스트림을 발생시키기 위해서 각각의 인코더(54)에 의해 유사하게 처리된다. 이어서, 라이브로 방송될 제 1 스튜디오(50)로부터 콘텐트는 무선 링크(적절한 프로세싱 후)에 의해 분배 네트워크(22)로 전송된다. 제 2 스튜디오의 콘텐트에 대해 시간은 중요치 않으므로, 이는 테잎(56) 상에 기록되고, 적절한 방식으로 분배 네트워크(22)로 전송된다. 인코더(54) 및 그것이 생산하는 기본 스트림은 본 발명의 양상들의 실시예들이다.
도 3에 나타낸 바의 네트워크 사이트(24) 내에서, 여러 소스들로부터의 콘텐트는 스플라이서(60)에 의해 출력된 프로그램을 구축하기 위해 스플라이싱된다. 스플라이서(60)로의 입력은 생산 유닛(20)으로부터 무선 링크를 통해 테잎(56) 또는 로컬 스튜디오(64) 등의 여러 소스들로부터 유도될 수 있다. 스플라이서(60)의 출력은 마찬가지로 임의의 주어진 시점에 입력된 스트림들 중의 선택된 것인 기본 스트림이다. 스플라이서(60)는 출력 스트림의 오디오 및 비디오 성분들이 이음매 없이 재생될 수 있도록 보장하는 방식으로 입력 스트림들 사이에서 스위치되도록 오퍼레이션될 수 있다. 이어서, 스플라이서(60)의 출력은 수송 스트림을 형성하기 위해 패킷타이저(62)에 의해 처리된다. 이어서, 수송 스트림은 가입자들에게 분배하기 위해 제휴자들에게 무선 링크에 의해 전송되도록 변조된다.
본 발명을 구현하는 기본 스트림 내에 인코딩된 비디오 콘텐트는 전형적으로 스캐닝된 비디오 프레임들의 시퀀스를 포함한다. 그러한 프레임들은 진보적인 스캐닝 비디오 프레임들일 수 있고, 그러한 경우에, 각각의 프레임은 완전한 정지 화상이다. 그러한 경우들에서, 비디오 프레임들은 프레임 레이트 fV를 갖고, tV=1/fv의 기간을 갖는다. 대안으로, 프레임들은 인터레이스된 스캐닝 프레임들일 수 있고, 여기서 각각의 프레임은 2개의 연속적인 인터레이스된 필드들로부터 구축되고, 필드 주파수는 상기 도입된 표기에서 2fV이다. 프레임 레이트 및 스캐닝 타입은 그 스트림이 의도되는 텔레비전 시스템에 의해 규정된다. 기본 TV 표준들 PAL 및 NTSC는 그 표준들이 이용된 국가들의 주요 주파수로부터 프레임 레이트들을 유도하였다. 컬러의 도입에 따라, NTSC는 인자 1000/1001에 의해 개질되었다. 추가로, 필름은 24Hz를 이용하고, 이는 동일한 인자에 의해 개질될 수 있다. 더욱이, 컴퓨터 모니터들은 96Hz에 이르는 여러 프레임 레이트들에서 운행될 수 있다. fv의 전형적인 값들은 아래 표 1에 주어진다.
_________________________________________________________
비디오 프레임 레이트[Hz] tV[ms] 적용
_________________________________________________________
23.976 41.71 3-2 풀-다운 NTSC
24 41.67 필름
25 40 PAL, SECAM
29.97 33.37 NTSC, PAL-M, SECAM-M
30 33.33 드롭-프레임 NTSC
50 20 이중-레이트 PAL
59.94 16.68 이중-레이트 NTSC
60 16.67 이중-레이트, 드롭-프레임 NTSC
______________________________________________________________________
표 1
오디오 신호는 주파수 fA, 예를 들면 48kHz에서 샘플링된 시간-연속적 펄스-코드 변조된(PCM) 신호이다. fA의 전형적인 값들은 아래 표 2에 주어진다.
_______________________________________________________________________
오디오 샘플링 주파수[kHz] 적용
-----------------------------------------------------------------------
24 DAB
32 DAT, DBS
44.1 CD, DA-88, DAT
48 전문 오디오, DA-88
DVD
96 DVD
-----------------------------------------------------------------------
표 2
이들 주파수 외에, 풀-업 및 풀-다운 필름-대-NTSC 변환들에서 오디오를 형성하기 위해 인자 1000/1001에 의해 개질된 44.1 및 48kHz(예, 44.056, 44.144, 47.952 및 48.048kHz)를 발견할 수도 있다. 추가로, 필름-대-PAL 변환을 위해, 24/25 인자가 적용될 수 있다(예, 42.336, 45.937, 46.08 및 50kHz). 더욱이, DAB는 24 및 48kHz를 이용할 수 있고; DVD-오디오는 44.1, 88.2, 176.4, 48, 96 및 192kHz를 이용할 수 있고; DVD-비디오는 48 및 96kHz를 이용할 수 있다. DAT는 32, 44.1 및 48kHz에 대해 특정되고, 특정 버전들은 96kHz도 이용할 수 있다. 마지막으로, 매우 낮은 비트율들에서 압축된 오디오는 보다 낮은 샘플링 주파수들(예, 16, 22.05 및 24kHz)을 필요로 할 수 있다.
샘플 폭은 전형적으로 16, 20 또는 24비트이다.
압축 전에, 오디오 스트림은 기간 tA=s/fA의 오디오 프레임들 내에서 분할되고, 여기서 s는 오디오 프레임당 샘플들의 수이다(예, MPEG-2 레이어 II에서 s = 1,152 샘플들; AC-3에서 s = 1,536 샘플들). 여러 가지 코딩 방식들에 이용된 프레임 레이트들의 예들은 아래 표 3에 나타낸다.
_______________________________________________________________________
코딩 방식 이용 프레임 길이 tA[ms]@
[샘플들] 48kHz
-----------------------------------------------------------------------
MPEG-1 레이어 I DCC 384 8
MPEG-1 레이어 II DAB, DVB, DVD-V 1,152 24
MPEG-1 레이어 III ISDN, MP3 1,152 24
MPEG-2 레이어 II DVB, DVD 1,152 24
MPEG-2 AAC 1,024 21.33
돌비 AC-3 DVD 1,536 32
소니 ATRAC MiniDisc 512 n.a.
_______________________________________________________________________
표 3
오디오 인코더 내부의 오디오 프레임들은 t 개의 샘플들의 k 개의 블록들로 추가로 분할된다(예, MPEG-2 레이어 II에서, 32 샘플들의 36개의 블록들이 존재함). 이 블록들은 처리될 오디오의 최소 단위이다. 이는 s = k × t로 표현될 수 있다. 아래 표 4는 여러 코딩 방식들에 이용된 프레임 서브디비젼들의 예들을 나타낸다.
_________________________________________________
코딩 방식 k × t [블록들 × 샘플들]
_________________________________________________
MPEG 레이어 I 12 × 32
MPEG 레이어 II 36 × 32
MPEG 레이어 III 2 × 576
돌비 AC-3 6 × 256
________________________________________________
표 4
방송 체인 전반에서, 비디오 및 오디오 스트림들은 립 싱크로 유지되어야 한다. 즉, 오디오는 대응하는 비디오에 대해 동기화되어야 한다. 송출 전에, 분배 사이트들은 오디오 및 비디오 스트림들(예, 지역적 콘텐트를 포함하도록)을 스플라이싱(예, 스위치, 편집 또는 혼합)할 수 있다.
스플라이싱 후, 비디오 및 오디오 프레임 경계들이 일치하지 않는 경우, 이는 대부분의 오디오 코딩 방식들의 경우이고, 립 싱크를 자동으로 보증하는 것이 불가능하다. 대부분의 경우들에서, 특별한 측정들이 취해지지 않을 때, 이는 뮤트들 또는 슬립들 등의 오디오 아티팩트들을 유도할 수 있다.
본 발명의 여러 실시예들이 현존하는 표준들(MPEG-1 및 MPEG-2 등)과 관련된 인코딩을 수행할 수 있더라도, 이 실시예들이 이들 현존하는 표준들과 반드시 역행하여 호환될 필요는 없다.
본 발명의 코딩 방식에서, 반-가변적 오버랩에 의해 N 개의 유사 비디오-매치된 프레임들에서 오디오 샘플들은 M 개의 비디오 프레임들의 시퀀스와 일치한다. 본 발명의 일 실시예에 따른 인코딩에 따라, 각각의 비디오 프레임은 오디오 프레임들의 동일한 정수를 포함한다. 따라서, 편집은 비디오 프레임 경계들에서 행해질 수 있다. 디코딩에 따라, 중복 샘플들은 폐기될 수 있다.
오디오 프레임이 t 개의 샘플들의 k 개의 블록들에서 분할된다고 가정하면, 블록들 중의 전체 오버랩(OT)은 다음 식에 의해 계산될 수 있다:
여기서, M, N, k 및 t는 양의 정수들이고, fA 및 fV는 Hz 단위의 주파수들을 나타내고, fA/fV는 유리수이다.
검출기 재구축 필터들 내의 편집된 오디오 스트림들 사이에 크로스-페이드를 제공하기 위해, 전체 오버랩 OT은 다음 식으로 주어진 바와 같이 블록들의 정수와 일치하도록 선택된다.
여기서, p, q 및 O는 음의 정수를 제외한 정수들이다.
본 발명의 여러 실시예들 내에서, 오디오 프레임들을 통해 전체 오버랩을 스프레딩하기 위해 여러 가지 접근법들이 채택될 수 있다. 즉, 상이한 제한들을 부과함으로서 이들 실시예들에 대한 상이한 구현들을 제공할 수 있다. 3가지 그러한 접근법들은 다음과 같이 언급된다:
접근법 1 - 비디오 프레임 내에서 오버랩되고;
접근법 2 - 비디오 프레임들의 시퀀스 내에서 오버랩되며;
접근법 3 - 비디오 스트림 전반에서 오버랩한다.
접근법 3은 종종 시퀀스당 가장 적은 수의 비디오 프레임들을 갖는, 2개의 인접한 오디오 프레임들 사이에 가장 작은 가능한 오버랩을 항상 제공하는 것으로 보여질 수 있다. 따라서, 많은 용도들에 대해, 이러한 접근법이 다른 것들보다 바람직할 것이다. 그러나, 특정 용도에 따라, 이는 항상 그 경우일 수는 없다.
접근법 1
이는 다음과 같이 구현될 수 있고
길이 O 블록들과 오버랩하고
길이 (O + 1) 블록들과 오버랩한다.
접근법 2
이는 다음과 같이 구현될 수 있고
길이 O 블록들과 오버랩하고
길이 (O + 1) 블록들과 오버랩한다.
접근법 3
이는 다음과 같이 구현될 수 있고
길이 O 블록들과 오버랩하고
길이 (O + 1) 블록들과 오버랩한다.
오버랩 길이 O는 다음과 같이 표현될 수 있고,
이는 최종 접근법에 대해, 다음과 같이 기입될 수 있다:
M은 다음을 만족시키도록 선택되고;
비디오 프레임 N/M당 오디오 프레임들의 비율은 다음과 같이 기입될 수 있다.
크로스-페이드
ISO/IEC 11172 "약 1.5 Mbit/s에 이르기까지 디지털 저장 매체에 대한 동화상들 및 관련된 오디오의 코딩(Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s)" 파트 3: 오디오(1993-08)에 규정된 바의 MPEG-1에서 재구축 필터는 오버랩되는 필터 뱅크이다. 스플라이싱이 서브밴드 도메인, 즉 블록들에서 행해지는 경우, 디코딩에 따라 약 512개의 오디오 샘플들의 크로스-페이드를 초래한다.
공통 코딩 표준들에 기초한 실시예들의 구현
여러 가지 인코딩 방식들이 본 발명의 실시예들에 대한 근간으로서 고려되어 왔다. 특히, MPEG-1 및 MPEG-2, 레이어 I 및 II가 고려되어 왔지만, 이는 가능한 방식들의 배타적 리스트는 결코 아니다. 여기서, 본 발명을 구현하는 방식들은 현존하는 표준들과 유사한 코딩 방식들을 이용하지만, 오버랩으로 인해, 이들은 이들 표준들에서 벗어나는 것임이 자명하다.
당업자들에게 친숙한 바와 같이, MPEG-2는 MPEG-1와 역으로 호환될 수 있는 다중 채널 오디오를 인코딩하기 위한 표준 방식이다. 다른 한편, MPEG-1 표준의 다중 채널로의 비역행적 호환성 확장은 구현의 단순성을 제공할 수 있다. 더욱이, 레이어 II는 레이어 I보다 효율적이다. 다른 한편, 레이어 I은 그것이 보다 적은 수의 블록들을 가짐으로 인해 보다 적은 인코딩 중복을 제공한다. MPEG-1 레이어 I에 기초한 방식은 본 발명의 실시예들에서 낮은 중복 및 구현 단순성의 최상의 조합을 제공할 수 있다.
MPEG-2 레이어 II
인코딩 방식을 위한 근간으로서 MPEG-2 레이어 II를 이용할 때, k=36 및 t=32.
표 5는 이 실시예가 상기한 바와 같이 접근법 1에 기초할 때 오디오 샘플 주파수들과 비디오 프레임 레이트들의 여러 가지 조합들에 대한 오버랩 시퀀스들의 일부 예들을 나타낸다.
표 5 MPEG-2 레이어 II 및 접근법 1
표 6은 이 실시예가 상기한 바와 같이 접근법 2에 기초할 때 오디오 샘플 주파수들과 비디오 프레임 레이트들의 다양한 조합들에 대한 오버랩 시퀀스들의 일부 예들을 나타낸다.
표 6 MPEG-2 레이어 II 및 접근법 2
표 7은 이 실시예가 상기한 바와 같이 접근법 3에 기초할 때 오디오 샘플 주파수들과 비디오 프레임 레이트들의 여러 가지 조합들에 대한 오버랩 시퀀스들의 일부 예들을 나타낸다.
표 7 MPEG-2 레이어 II 및 접근법 3
MPEG-2 레이어 I
인코딩 방식으로서 MPEG-2 레이어 I을 이용할 때, k=12 및 t=32. 접근법 3을 이용함으로써, 표 8에 나타낸 시퀀스들을 얻는다.
표 8 MPEG-2 레이어 I 및 접근법 3
평균 중복(average redundancy)은 레이어 II를 이용하는 경우에서보다 훨씬 더 적은 것에 주의해야 한다.
MPEG-1
실시예들에 적용될 수 있는 다른 단순화는 인코딩 방식을 위한 근간으로서 MPEG-1의 이용이다. 이러한 경우에, MPEG-1의 2개의 채널들(예, 스테레오)의 상한선은 n 채널들로 확장될 수 있다. 따라서, 각각의 채널은 전체 비트 유효성 및 채널당 오디오 콘텐트에 의존하는 비트 할당을 가질 수 있다.
알고리즘들
다음 단락에서, 접근법 3에 따른 오버랩들을 계산하는데 적용할 수 있는 알고리즘들이 기재될 것이다.
인코딩
실시예 스트림을 생성하기 위한 인코더는 소정의 구조의 프레임들의 시퀀스를 생성한다. 각각의 프레임(j)은 아래 표 9에 나타낸 구조를 갖고, 여기서 k는 블록들의 전체 수이고, H(j)는 헤드 오버랩에서 블록들의 수이고 T(j)는 테일 오버랩에서 블록들의 수이다.
표 9
T(j)=H(j+1)임에 주의하자.
N, O 및 q의 값을 알면, 인코더는 다음 알고리즘을 이용하여 정확한 헤드 오버랩을 계산할 수 있다.
while(new frame) {
if(counter>=N ∥ counter = 0) {
overlap = O + 1;
counter = counter% N;
}
else overlap = O;
return(overlap);
counter = counter + q;
}
MPEG-2 레이어 II의 경우에, fV= 24Hz이고, fA= 48kHz이고, 표 7로부터 N=4, O=4 및 q=3을 갖는다. 이는 헤드 오버랩들의 다음 시퀀스: 5, 4, 5 및 5 또는 이들의 임의의 환형 시프트를 발생시킨다.
모든 오디오 프레임은 그의 크기를 지시하도록 태그되어야 한다. 상기 방식에서, 헤드 오버랩은 단지 O 또는 O+1 길이일 수 있다. 따라서, 짧은 프레임들과 긴 프레임들을 차별화시키기 위해 1-비트 태그를 이용하는 것이 가능하다.
비디오 시퀀스 내의 프레임 j의 유용한 크기 F(j)는 다음과 같이 주어진다:
모든 블록은 그의 중복을 지시하도록 태그되어야 한다. 상기 방식에서, 블록은 단지 중복될 수 있거나 또는 중복될 수 없다. 따라서, 중복 및 비중복 블록들을 차별화시키기 위해 1-비트 태그를 이용하는 것이 가능하다.
기록 및 전송
중복 정보가 인코딩되어야 하더라도, 그것이 모두 전송될 필요는 없다. 이는 전송된 스트림에서 비트율을 절감시킨다. 비디오 시퀀스 내에서 기록되거나 또는 전송될 블록들의 최소 전체수(Bmin)는 다음과 같이 주어진다:
오디오 프레임당 중복 블록은 인코딩된 스트림의 편집을 허용할 필요가 있다. 이러한 경우에, 비디오 시퀀스 내에서 기록되거나 또는 전송될 최대 전체수(BMAX)는 다음과 같이 주어진다:
위상 φ는 비디오 시퀀스 내의 제 1 비디오 프레임에 관하여 인코딩된 스트림 중에서 상대적 출발을 블록들로 지시하도록 규정될 수 있다. φ에 대한 적절한 선택은 다음과 같다:
더욱이, 인코더는 IEC61937에 따라 스트림을 완성하기 위해 널 패딩 Q(null padding Q)을 발생시킨다. 패딩의 길이는 인코딩된 스트림으로 도입되는 축적 에러를 피하기 위해 페이로드 길이에만 의존하지 않고 비디오 경계들도 고려해야 한다.
편집
실시예에 따라 인코딩된 스트림의 편집은 프레임들을 부가하거나, 제거하거나 또는 첨부함으로써 비디오 프레임 경계들에서 수행될 수 있다. 디코더는 디코더 내에서 유효한 정보(fA 및 fV 값들 등) 또는 인코더에 의해 발생된 정보(크기 태그 등)를 이용하여 편집함으로써 발생될 수 있는 에러들을 정정한다. 어떠한 추가의 정보도 편집의 결과로서 기록되거나 또는 전송될 필요가 없다. 더욱이, 편집 시점에서 크로스-페이드는 디코더 내의 재인식 필터 뱅크에 의해 제공될 수 있다.
디코딩
스트림을 디코딩하기 위한 디코더는 현재 프레임 j에 대해 기대된 유용한 크기 F(j)를 계산한다. 더욱이, 이는 실제 유용한 크기 G(j)를 결정하기 위해 인입되는 프레임으로부터 크기 태그를 판독한다.
오디오 프레임 내의 블록들은 2가지 상태들: 즉, 중복 또는 비중복 상태 중의 하나를 가질 수 있다. 비중복 블록들은 서브밴드 샘플들 내로 기록되고, 전송되고 디코딩된다. 중복 블록들(테일 오버랩 내의 제 1 중복 블록 등)은 디코딩 과정을 용이하게 하기 위해 기록되고 전송될 수 있다. 그러나, 중복 블록들은 서브밴드 샘플들 내로 전혀 디코딩되지 않는다.
오버랩 블록의 상태를 변경시키기 위해, 4개의 오퍼레이터들: 즉, NOP, DROP, APPEND 및 SHIFT가 규정된다.
NOP: NOP 오퍼레이터는 블록들의 상태를 변화시키지 않는다.
DROP: DROP 오퍼레이터는 제 1 비중복 블록을 헤드 오버랩에서 중복 블록 내로 변화시킨다.
APPEND: APPEND 오퍼레이터는 제 1 비중복 블록을 테일 오버랩에서 비중복 블록 내로 변화시킨다.
SHIFT: 시프트 오퍼레이터는 DROP 및 APPEND 오퍼레이터들 모두의 조합이다.
본 발명을 구현하는 스트림 내의 프레임들의 서버-밴드 샘플들 내로의 디코딩은 매핑으로서 칭한다. 비중복 블록들만이 서브밴드 샘플들로 매핑된다. 인입되는 프레임이 기대보다 작을 경우, 오퍼레이터 APPEND가 적용된다. 실제 크기가 기대 크기와 동일할 때, 디코더는 이전 프레임을 조사한다. 이전 프레임이 첨부되거나 또는 시프트된 경우, 오퍼레이터 SHIFT가 적용되고, 그렇지 않으면, 인입되는 프레임은 변경 없이 매핑된다.
동기화 에러
본 발명을 구현하는 스트림은 인코딩시에 규정된 시퀀스(F(j))에서 긴(즉 태그된) 프레임들 및 짧은 프레임들을 교대시킴으로써 비디오 프레임 길이(1/fv)와 동일한 평균 유효 오디오 프레임 길이()의 창출에 기초한다. 디코딩시에 긴 프레임들 및 짧은 프레임들의 이전에 규정된 시퀀스 F(j)를 재생하기 위해 필요한 중복은 편집 후 인입되는 프레임들의 실제 길이 G(j)에도 불구하고, 편집 시점에서 오버랩하는 프레임들에 의해 얻어진다. 편집시에, 프레임들을 스와핑함으로 인해 블록들 중의 동기화 에러 ε(j)는 다음과 같이 표현될 수 있다:
임의의 시점에, 누구나 다음과 같이 기입할 수 있고,
단, u ∈ {0, 1, 2, ..., N-1} 및 v ∈ {0, 1, 2, ..., p}. 치환에 의해 이는 다음과 같다.
여기서 0 ≤εMAX <1- 1/N. 디코딩에 따라, 이들 중복은 상기한 바의 오퍼레이터들 NOP, DROP, APPEND 및 SHIFT를 이용함으로써 적절히 폐기된다. 더욱이, 인입되는 프레임 G(j)는 DROP 및 SHIFT 오퍼레이션으로 인해 하나의 블록에 의해 지연될 수 있다. 따라서, 공정에 의해 도입된 전체 동기화 에러(δ)는 다음과 같이 바운드되는 것을 알 수 있다:
단 그 한계는 다음과 같다:
캐스케이딩
손실된 인코딩 및 디코딩의 여러 캐스케이딩 레벨들은 신호를 저하시킬 수 있다. 그러나, 기여 및 분배시에 낮은 압축율의 이용, 압축된 신호들 및 특수 기술들에 관련된 메타 데이터의 이용은 이러한 저하를 최종 이용자가 감지할 수 없을 정도로 유지하기 위해 이용될 수 있다. MPEG 인코딩에 적용될 수 있는 방법들은 당업자들에게 공지되어 있으며(예를 들면, "Maintaining Audio Quality in Cascaded Psychoacoustic Coding", Warner R. Th, ten Kate 101st AES Convention 1996 November 8-11), DTV 방송 체인 전반에서 오디오 신호의 품질을 유지하기 위해 본 발명의 실시예들에 따라 이용될 수 있다.
본 발명의 예들
블록 구성
MPEG-2 레이어 II 및 접근법 3에 기초한 필름 및 전문 오디오에 대해 본 발명의 일 실시예에 따라 인코딩된 오디오 프레임 시퀀스는 표 10에 나타낸다. 본 발명의 다른 실시예에 따라 스트림을 디코딩한 후 블록들의 가능한 모든 구성은 도 8에 나타낸다. 파라미터들은 다음과 같다(상기 기호들의 리스트 참조):
비디오 프레임 레이트 fV = 24Hz, 비디오 프레임 길이 tV = 41.67ms;
오디오 샘플링 주파수 fA = 48kHz, 오디오 프레임 길이 tA = 24ms;
k = 36 블록들, t = 32 샘플들;
M = 2 비디오 프레임들, N = 4 오디오 프레임들;
p = 1 짧은 오버랩, q = 3 긴 오버랩들;
b = 31 블록들, b + 1 = 32 블록들;
Bmin = 125, BMAX = 129, Φ= 2 블록들;
표 10
IEC61937 표준에 이 시스템의 적용
본 발명을 구현하는 스트림을 전송하기에 적절한 표준은 IEC61937 표준('IEC60958을 적용하는 비-선형 PCM 인코딩된 오디오 비트스트림들에 대한 인터위상')이다. 선행된 실시예에 대해 도 7에 나타낸 스트림 할당에서:
ㆍ IEC1937 프레임은 (16/32)×3.072Mbit/s/fV의 길이를 갖는다. fV=24Hz에 대해, 이는 64,000 비트들에 대응한다.
ㆍ 프리앰블: Pa = F872h, syncword 1: Pb = 4E1Fh, syncword 2: Pc = 버스트 정보; Pd = 비트들의 수 < 65,536, 길이 코드.(Pa = F872h, syncword 1: Pb = 4E1Fh, syncword 2: Pc = burst information; Pd = number of bits < 65,536, length code)
ㆍ 데이터-버스트의 반복 주기는 IEC60958 프레임들의 수이다.
ㆍ 스위처 시스템들 갭에 의해 도입된 지연 및 VTR 편집 후에 오디오와 비디오 간의 상대적 타이밍 정확도는 2개의 프레임들 간에 필요한 최소 갭을 결정한다. 이러한 이른바 스플라이싱 갭은 널-프레임 스터핑(null-frame stuffing) 에 의해 얻어질 수 있다. 이는 다음과 같이 요약될 수 있다:
ㆍ 스터핑 = 스플라이싱 갭 + 버스트 스페이싱; 스플라이싱 갭 = 테잎 + 스위치 정확도; 버스트 스페이싱 = 4 × IEC60958"0" 서브프레임들, 각각 4096 × IEC60958 프레임들.(Stuffing = splicing gap + burst splicing; splicing gap = tape + switch inaccuracy; burst splicing = 4 × IEC60958"0" sub-frames, each 4096 × IEC60958 frames)
ㆍ 버스트-페이로드: 시스템 프레임 = (N/M) × [시스템 서브프레임 - 헤드 오버랩]; N = 4; M = 2; N/M = 2.(Burst payload : System frmae = (N/M) × [System sub-frame - head overlap]; N = 4; M = 2; N/M = 2.)
본 발명을 구현하는 스트림이 384kbit/s로 5.1 채널들에 대해 MPEG-2 레이어 II에 기초하는 경우, 시스템은 기껏 45,504 비트들 (2 × [(1,152 - 4×32) × 384/ 48 + (2,047 - 4 × 32/1,152 × 2,047) × 8] + 0)을 필요로 한다.
대신에, 본 발명을 구현하는 스트림이 6 채널들에 대해 채널당 192kbit/s로 MPEG-1 레이어 II의 6-채널 버전에 기초하는 경우, 이는 기껏 49,152 비트들 (2 × (1,152 - 4 × 32) × 6 × 192/48 + 0)을 필요로 한다. LFE 채널이 프레임당 단지 12 샘플들을 필요로 하는 것을 고려하면, 유효 비트율은 채널당 대략 230 kbit/s이다.
Claims (21)
- 오디오 및 비디오 데이터를 전달하는 스트림을 제공하는 오디오 인코딩 방법에 있어서:오디오 및 비디오 데이터 입력을 수신하는 단계;상기 오디오 데이터의 양의 정수인 N 개의 오디오 프레임들에 대해, 상기 비디오 데이터의 양의 정수인 M 개의 비디오 프레임들에 걸쳐, 비디오 프레임 길이(1/fV)와 동일한 평균 유효 오디오 프레임 길이()를 갖는 상기 오디오 데이터를 인코딩하는 단계로서, 여기서 fV는 상기 비디오 데이터의 비디오 프레임 레이트이고, 상기 인코딩 단계는 유효 오디오 프레임 길이(F(j))의 규정된 시퀀스에서 각각의 오디오 프레임 인덱스(j)당 상기 오디오 프레임의 유효 오디오 프레임 길이(F)를 변화시키는 단계를 포함하는, 상기 인코딩 단계; 및인코딩된 오디오 및 비디오 데이터를 전달하는 스트림을 출력하는 단계로서,상기 출력 스트림은 대응하는 오디오 프레임들의 상기 오디오 데이터의 오디오 정보의 열화(degradation) 없이 각 비디오 프레임에 스플라이싱 될 수 있는, 상기 출력 단계를 포함하는, 오디오 인코딩 방법.
- 제 1 항에 있어서, 연속적인 오디오 프레임들 간의 오버랩(O)을 변화시킴으로써 상기 유효 오디오 프레임 길이(F)를 조정하는 단계를 더 포함하는, 오디오 인코딩 방법.
- 제 1 항 또는 제 2 항에 있어서, 상기 유효 오디오 프레임 길이(F(j))는 상기 오디오 프레임 인덱스(j)에 대해 주기적으로 반복되고, F(j)의 주기성은 비디오 프레임들의 시퀀스 내에 오디오 프레임들의 시퀀스를 규정하는, 오디오 인코딩 방법.
- 제 3 항에 있어서, 시퀀스당 M 개의 비디오 및 N 개의 오디오 프레임들을 갖고, 각각의 오디오 프레임은 각각 t 개의 샘플들의 k 개의 블록들로 구성되는, 오디오 인코딩 방법.
- 제 5 항에 있어서, 특정 비디오 프레임에 대응하는 오디오 프레임들만이 오버랩되는, 오디오 인코딩 방법.
- 제 6 항에 있어서, p = (N - M) ×(O + 1) - OT 및 q = (N - M) - p인, 오디오 인코딩 방법.
- 제 5 항에 있어서, 특정 비디오 시퀀스에 대응하는 오디오 프레임들만이 오버랩되는, 오디오 인코딩 방법.
- 제 8 항에 있어서, p = (N - 1) ×(O + 1) - OT 및 q = (N - 1) - p인, 오디오 인코딩 방법.
- 제 5 항에 있어서, 임의의 인접한 오디오 프레임들이 오버랩되는, 오디오 인코딩 방법.
- 제 10 항에 있어서, p = N ×(O + 1) - OT 및 q = N - p인, 오디오 인코딩 방법.
- 인코딩된 오디오 및 비디오 데이터를 포함하는 스트림을 제공하는 오디오 인코딩 방법에 있어서:오디오 및 비디오 데이터의 프레임들을 수신하는 단계;양의 정수인 N 개의 유사 비디오-매칭되는(quasi video-matched) 오디오 프레임들의 오디오 샘플들을 오버랩 길이들의 규정된 시퀀스를 가진 프레임으로 인코딩하는 단계로서, 상기 인코딩된 오디오 샘플들은 상기 비디오 데이터의 양의 정수인 M개의 비디오 프레임들에 걸쳐 비디오 프레임의 길이(1/fV)와 동일한 평균 유효 오디오 프레임 길이()를 갖고, 여기서 fV는 상기 비디오 데이터의 프레임 레이트이고, 상기 인코딩된 오디오 프레임들의 오버랩 길이들의 상기 규정된 시퀀스의 유효 길이는 M개의 비디오 프레임들의 시퀀스의 길이와 일치하는, 상기 인코딩 단계; 및인코딩된 오디오 및 비디오 데이터를 전달하는 스트림을 출력하는 단계로서,상기 출력 스트림은 대응하는 오디오 프레임들의 상기 오디오 데이터의 오디오 정보의 열화 없이 각 비디오 프레임에 스플라이싱 될 수 있는, 상기 출력 단계를 포함하는, 오디오 인코딩 방법.
- 삭제
- 제 13 항에 있어서, 상기 오디오 프레임들 각각을 상기 오디오 프레임의 크기를 나타내도록 태그하는 단계(tagging)를 더 포함하는, 오디오 인코딩 방법.
- 제 13 항에 있어서, 각각의 오디오 프레임들의 각각의 블록을 상기 블록이 중복 블록인지 여부를 나타내도록 태그하는 단계를 더 포함하는, 오디오 인코딩 방법.
- 오디오 및 비디오 데이터를 전달하는 스트림에 대한 오디오를 코딩하는 오디오 인코더에 있어서:오디오 및 비디오 데이터를 수신하는 입력;N 개의 오디오 프레임들의 평균 유효 오디오 프레임 길이()가 양의 정수인 M 개의 비디오 프레임들에 걸쳐 비디오 프레임의 길이(1/fV)와 동일하도록, 양의 정수인 N 개의 오디오 프레임들에 대한 상기 오디오 데이터를 가변적인 유효 오디오 프레임 길이의 오디오 프레임들로 인코딩하는 수단으로서, 여기서 fV는 상기 비디오 데이터의 비디오 프레임 레이트이고, 오디오 프레임 인덱스(j) 각각의 상기 오디오 프레임은 인코딩 시에 각각 유효 오디오 프레임 길이들(F(j))의 규정된 시퀀스에서 유효 오디오 프레임 길이(F)를 제공하는 가변적인 오버랩을 갖는, 상기 인코딩 수단; 및상기 인코딩된 오디오 및 비디오 데이터를 전달하는 스트림을 출력하는 출력 수단으로서, 상기 출력 스트림은 대응하는 오디오 프레임들의 상기 오디오 데이터의 오디오 정보의 열화 없이 각 비디오 프레임에 스플라이싱 될 수 있는, 상기 출력 수단을 포함하는, 오디오 인코더.
- 제 17 항에 있어서, 상기 가변적인 오버랩들은 오버랩 시퀀스에서의 길이 O의 전체 p 개의 짧은 오버랩 및 길이 O+1의 전체 q 개의 긴 오버랩들을 갖고, 상기 인코더 수단은 N 개의 프레임들 후에 반복되는 알고리즘을 이용하여 오버랩 시퀀스를 계산하도록 구성되고, 여기서 p 및 q는 음의 정수를 제외한 정수들인, 오디오 인코더.
- 오디오 및 비디오 데이터를 인코딩하는 스트림을 디코딩하기 위한 오디오 디코더에 있어서:인코딩된 오디오 및 비디오 데이터의 스트림을 수신하는 입력 수단으로서, 상기 인코딩된 오디오 데이터는 양의 정수인 N 개의 오디오 프레임들의 평균 유효 오디오 프레임 길이()가 양의 정수인 M 개의 비디오 프레임들에 걸쳐 비디오 프레임의 길이(1/fV)와 동일하도록 상기 N 개의 오디오 프레임들에 대해 가변적인 유효 오디오 프레임 길이의 오디오 프레임들로 인코딩된 오디오 데이터를 포함하고, 여기서 fV는 상기 비디오 데이터의 비디오 프레임 레이트이고, 오디오 프레임 인덱스(j) 각각의 상기 오디오 프레임은 인코딩 시에 각각 유효 오디오 프레임 길이(F(j))의 규정된 시퀀스에서 유효 오디오 프레임 길이(F)를 제공하는 가변적인 오버랩을 갖는, 상기 입력 수단;(a) 수신되는 인코딩된 오디오 프레임의 기대된 유효 오디오 프레임 길이를 유효 오디오 프레임 길이들의 규정된 시퀀스에 기초하여 계산하고, (b) 상기 기대된 유효 오디오 프레임 길이와 동일하게 하기 위해 상기 수신되는 인코딩된 오디오 프레임의 실제 길이를 조정하고, (c) 수신되는 인코딩된 오디오 프레임 내의 임의의 블록이 중복 블록 또는 비중복 블록인지 여부를 결정하고 상기 비중복 블록들을 서브밴드 샘플들 상으로 매핑하는 수단; 및상기 계산, 조정, 및 결정 수단에 의한 각각의 처리에 응답하여 얻어진 디코딩된 오디오 및 비디오 데이터를 출력하는 출력 수단을 포함하는, 오디오 디코더.
- 제 19 항에 있어서, 상기 수단은 (d) 각각의 블록에 하나 또는 그 이상의 블록 오퍼레이터들의 세트를 적용시킴으로써 데이터 스트림에서의 블록들의 오버랩 상태를 변경시키도록 구성되는, 오디오 디코더.
- 제 20 항에 있어서, 상기 오퍼레이터들의 세트는 블록들의 상태를 변화시키지 않는 오퍼레이터인 NOP; 제 1 비중복 블록을 헤드 오버랩에서 중복 블록으로 변화시키는 오퍼레이터인 DROP; 제 1 중복 블록을 테일 오버랩에서 비중복 블록으로 변화시키는 오퍼레이터인 APPEND; 및 DROP 및 APPEND 오퍼레이터들 모두의 조합 오퍼레이터인 SHIFT 중 : 하나 이상을 포함하는, 오디오 디코더.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02075215.0 | 2002-01-18 | ||
EP02075215 | 2002-01-18 | ||
PCT/IB2002/005417 WO2003061299A1 (en) | 2002-01-18 | 2002-12-12 | Audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040075090A KR20040075090A (ko) | 2004-08-26 |
KR100933469B1 true KR100933469B1 (ko) | 2009-12-23 |
Family
ID=8185547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020047011131A KR100933469B1 (ko) | 2002-01-18 | 2002-12-12 | 오디오 코딩 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7840412B2 (ko) |
EP (1) | EP1472889B1 (ko) |
JP (1) | JP4467984B2 (ko) |
KR (1) | KR100933469B1 (ko) |
CN (1) | CN100579236C (ko) |
AT (1) | ATE396588T1 (ko) |
AU (1) | AU2002353343A1 (ko) |
DE (1) | DE60226777D1 (ko) |
WO (1) | WO2003061299A1 (ko) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7764713B2 (en) * | 2005-09-28 | 2010-07-27 | Avaya Inc. | Synchronization watermarking in multimedia streams |
US8102878B2 (en) * | 2005-09-29 | 2012-01-24 | Qualcomm Incorporated | Video packet shaping for video telephony |
US8842555B2 (en) * | 2005-10-21 | 2014-09-23 | Qualcomm Incorporated | Methods and systems for adaptive encoding of real-time information in packet-switched wireless communication systems |
US8406309B2 (en) * | 2005-10-21 | 2013-03-26 | Qualcomm Incorporated | Video rate adaptation to reverse link conditions |
US8514711B2 (en) * | 2005-10-21 | 2013-08-20 | Qualcomm Incorporated | Reverse link lower layer assisted video error control |
US8548048B2 (en) * | 2005-10-27 | 2013-10-01 | Qualcomm Incorporated | Video source rate control for video telephony |
US8599841B1 (en) | 2006-03-28 | 2013-12-03 | Nvidia Corporation | Multi-format bitstream decoding engine |
US8593469B2 (en) * | 2006-03-29 | 2013-11-26 | Nvidia Corporation | Method and circuit for efficient caching of reference video data |
US7884742B2 (en) * | 2006-06-08 | 2011-02-08 | Nvidia Corporation | System and method for efficient compression of digital data |
US8700387B2 (en) * | 2006-09-14 | 2014-04-15 | Nvidia Corporation | Method and system for efficient transcoding of audio data |
JP4775208B2 (ja) * | 2006-09-21 | 2011-09-21 | ソニー株式会社 | 再生方法、再生プログラムおよび再生装置 |
CN101578842B (zh) * | 2007-01-10 | 2014-03-05 | 高通股份有限公司 | 用于多媒体电话的依赖于内容和链路的编码自适应 |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
US8797850B2 (en) | 2008-01-10 | 2014-08-05 | Qualcomm Incorporated | System and method to adapt to network congestion |
US8295379B2 (en) * | 2009-12-08 | 2012-10-23 | Futurewei Technologies, Inc. | System and method for non-uniform bit allocation in the quantization of channel state vectors |
US20110158310A1 (en) * | 2009-12-30 | 2011-06-30 | Nvidia Corporation | Decoding data using lookup tables |
WO2013122387A1 (en) | 2012-02-15 | 2013-08-22 | Samsung Electronics Co., Ltd. | Data transmitting apparatus, data receiving apparatus, data transceiving system, data transmitting method, and data receiving method |
WO2013122385A1 (en) * | 2012-02-15 | 2013-08-22 | Samsung Electronics Co., Ltd. | Data transmitting apparatus, data receiving apparatus, data transreceiving system, data transmitting method, data receiving method and data transreceiving method |
WO2013122386A1 (en) | 2012-02-15 | 2013-08-22 | Samsung Electronics Co., Ltd. | Data transmitting apparatus, data receiving apparatus, data transreceiving system, data transmitting method, data receiving method and data transreceiving method |
TWI557727B (zh) | 2013-04-05 | 2016-11-11 | 杜比國際公司 | 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品 |
CN110751942B (zh) * | 2018-07-20 | 2024-10-18 | 京东科技控股股份有限公司 | 一种识别特征声音的方法和装置 |
CN110210230B (zh) * | 2019-05-14 | 2021-10-22 | 深圳市腾讯网域计算机网络有限公司 | 提高系统安全性的方法、装置、电子设备及存储介质 |
CN114339397B (zh) * | 2021-12-23 | 2023-08-11 | 北京百度网讯科技有限公司 | 一种多媒体编辑信息确定方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US622660A (en) * | 1899-04-11 | Bowling-alley |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996038843A1 (fr) * | 1995-05-31 | 1996-12-05 | Sony Corporation | Procedes et dispositifs de codage/decodage de signaux audio |
AU6077196A (en) * | 1996-02-01 | 1997-08-07 | Mitsubishi Denki Kabushiki Kaisha | Multimedia information processing system |
US6181383B1 (en) * | 1996-05-29 | 2001-01-30 | Sarnoff Corporation | Method and apparatus for preserving synchronization of audio and video presentation when splicing transport streams |
US6262777B1 (en) * | 1996-11-15 | 2001-07-17 | Futuretel, Inc. | Method and apparatus for synchronizing edited audiovisual files |
WO1998032281A1 (en) * | 1997-01-21 | 1998-07-23 | Sarnoff Corporation | Information stream syntax for indicating the presence of a splice point |
US6124895A (en) * | 1997-10-17 | 2000-09-26 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with video/audio data synchronization by dynamic audio frame alignment |
US5913190A (en) * | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with video/audio data synchronization by audio sample rate conversion |
US6188987B1 (en) * | 1998-11-17 | 2001-02-13 | Dolby Laboratories Licensing Corporation | Providing auxiliary information with frame-based encoded audio information |
US6226608B1 (en) * | 1999-01-28 | 2001-05-01 | Dolby Laboratories Licensing Corporation | Data framing for adaptive-block-length coding system |
EP1215663A1 (en) | 2000-12-15 | 2002-06-19 | BRITISH TELECOMMUNICATIONS public limited company | Encoding audio signals |
-
2002
- 2002-12-12 US US10/501,426 patent/US7840412B2/en not_active Expired - Fee Related
- 2002-12-12 AU AU2002353343A patent/AU2002353343A1/en not_active Abandoned
- 2002-12-12 DE DE60226777T patent/DE60226777D1/de not_active Expired - Lifetime
- 2002-12-12 AT AT02788364T patent/ATE396588T1/de not_active IP Right Cessation
- 2002-12-12 KR KR1020047011131A patent/KR100933469B1/ko not_active IP Right Cessation
- 2002-12-12 CN CN02827225A patent/CN100579236C/zh not_active Expired - Fee Related
- 2002-12-12 WO PCT/IB2002/005417 patent/WO2003061299A1/en active IP Right Grant
- 2002-12-12 JP JP2003561255A patent/JP4467984B2/ja not_active Expired - Fee Related
- 2002-12-12 EP EP02788364A patent/EP1472889B1/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US622660A (en) * | 1899-04-11 | Bowling-alley |
Also Published As
Publication number | Publication date |
---|---|
KR20040075090A (ko) | 2004-08-26 |
EP1472889B1 (en) | 2008-05-21 |
CN1615659A (zh) | 2005-05-11 |
WO2003061299A1 (en) | 2003-07-24 |
DE60226777D1 (de) | 2008-07-03 |
US7840412B2 (en) | 2010-11-23 |
JP4467984B2 (ja) | 2010-05-26 |
US20050117056A1 (en) | 2005-06-02 |
CN100579236C (zh) | 2010-01-06 |
JP2005515511A (ja) | 2005-05-26 |
AU2002353343A1 (en) | 2003-07-30 |
EP1472889A1 (en) | 2004-11-03 |
ATE396588T1 (de) | 2008-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100933469B1 (ko) | 오디오 코딩 | |
US11218740B2 (en) | Decoder for decoding a media signal and encoder for encoding secondary media data comprising metadata or control data for primary media data | |
JP6728154B2 (ja) | オーディオ信号のエンコードおよびデコード | |
KR100675562B1 (ko) | 오디오 스위칭을 용이하게 하기 위한 비디오/오디오 애플리케이션에서 인코딩된 오디오의 시간 정렬된 블록들을 사용하는 오디오 정보를 처리하기 위한 방법 및 장치 | |
EP1271819A2 (en) | Transmission and reception of a first and a second main signal components | |
US5635930A (en) | Information encoding method and apparatus, information decoding method and apparatus and recording medium | |
Fielder et al. | Professional audio coder optimized for use with video | |
KR100287868B1 (ko) | 디지털 저장 매체의 신호 기록재생장치 | |
JP3491533B2 (ja) | ディジタルオーディオデータの再生方法及び装置 | |
US5818943A (en) | Transmission and reception of a first and a second main signal component | |
Vernony et al. | Carrying multichannel audio in a stereo production and distribution infrastructure | |
Mailhot | Accomodating Pre-Compressed Digital Audio in the Modern Television Plant | |
Stoll et al. | ISO/IEC MPEG-2 AUDIO: Bit-rate-reduced coding for two-channel and multichannel sound | |
JPH08256309A (ja) | オーディオ・ビデオデータ供給装置およびオーディオ・ビデオデータ再生装置 | |
Fedele | 5.1 Audio–The Final Frontier of DTV | |
Smith | This paper is concerned with the application of ATLANTIC switching techniques to edit-conforming during post-production, and to presentation within the broadcast chain. In this respect a number of important issues have been addressed within the ATLANTIC project; those discussed in this paper include |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121214 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20131216 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20141209 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20151208 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20161209 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |