UA123399C2

UA123399C2 - Багаторівневе кодування стиснених представлень звуку або звукового поля

Info

Publication number: UA123399C2
Application number: UAA201804907A
Authority: UA
Inventors: Свен КОРДОН; Александр Крюґер; Александр КРЮГЕР
Original assignee: Долбі Інтернешнл Аб; Долби Интернешнл Аб
Priority date: 2015-10-08
Filing date: 2016-10-07
Publication date: 2021-03-31
Also published as: CO2018004866A2; IL281195A; PH12021551044A1; HK1249800A1; IL281195B; TW202123219A; SG10202002011QA; JP2021036341A; ZA201802533B; TWI829956B; JP7122359B2

Description

декодування стисненого представлення звуку або звукового поля, причому стиснене представлення звуку закодоване в множині ієрархічних рівнів, які включають в себе базовий рівень і один або більше ієрархічних поліпшуючих рівнів, а також кодера і декодера для багаторівневого кодування стисненого представлення звуку.

Оз вве --- шо 0 ЗІОМ ї і нн вив нн : ше на ян ї | : ух вий Ї Ве І Е дих яю : | зе, хе З : пакет Е Ж

Появу В безовото рен

ЕЕ : Я ОБ : ї Я длюєм ють ; 1: й Е о: 0: ВБЩУ НН З Е ї Я песововотетевоввоооіін М ха оч

ЕН І рон ДАК

Плюет вавного | С ВА Мін 0 і зі щисненого КО: ра Е предетавелення ауюю т р кн ва Ап длюодіют нау її: СЕ дпа ке ї і Е : ви Н х ПЛИНИ ТКО і 7 Тр нннекентеняямі 5.00 ЕНН ї СЕ в, і ШОК ни ЗЕ ВОНн рак ше ще !

Бр: ще ВВЕ

Ше Гай ! дк тькояї ше ен а

Сояююру у 00 пащуючого

Ї 10 жеююнюмімнокююю: В: ДІВНЯ ВМ

ДІ ВТ не ши не ! однин ДА и ВА ЩЮ

Фіг. 2

ПЕРЕХРЕСНЕ ПОСИЛАННЯ НА СПОРІДНЕНІ ЗАЯВКИ

За даною заявкою запитується пріоритет відповідно до європейської патентної заявки Мо 15306590.9, поданої 8 жовтня 2015 року, і патентної заявки США Мо 62/361,809, зміст яких повністю включений в дану заявку за допомогою посилання.

ГАЛУЗЬ ТЕХНІКИ, ДО ЯКОЇ НАЛЕЖИТЬ ВИНАХІД

Даний документ стосується способів і пристроїв для багаторівневого аудіокодування.

Зокрема, даний документ стосується способів і пристроїв для багаторівневого аудіокодування стиснених представлень звуку (або звукового поля), наприклад представлення звуку (або звукового поля) системи Амбісонік вищого порядку (Нідпег-Огаег Атрбрізопіс5, НОА).

РІВЕНЬ ТЕХНІКИ

Для потокового представлення звуку (або звукового поля) по каналу передачі зі змінними за часом умовами багаторівневе кодування є засобом, щоб адаптувати якість прийнятого представлення звуку до умов передачі і, зокрема, уникнути небажаних зникнень сигналу.

Для багаторівневого кодування представлення звуку (або звукового поля) звичайно підрозділяється на високопріоритетний базовий рівень відносно невеликого розміру і додаткові поліпшуючі рівні зі спадними пріоритетами і довільними розмірами. Кожен поліпшуючий рівень, як звичайно передбачається, містить наростаючу інформацію, щоб доповнити всі з більш низьких рівнів для поліпшення якості представлення звуку (або звукового поля). Величиною захисту від помилок для передачі окремих рівнів керують на основі їх пріоритету. Зокрема, базовому рівню надається високий захист від помилок, який є розумним і прийнятним внаслідок його малого розміру.

Однак існує потреба в багаторівневих схемах кодування для (розширеної версії) спеціальних типів стиснених представлень звуку або звукових полів, таких як, наприклад, стиснені представлення НОА звуку або звукового поля.

Даний документ вирішує згадані вище проблеми. Зокрема, описані способи і кодери/декодери для багаторівневого кодування стиснених представлень звуку або звукового поля.

СУТЬ ВИНАХОДУ

Відповідно до аспекту описаний спосіб багаторівневого кодування стисненого

Зо представлення звуку або звукового поля. Стиснене представлення звуку може включати в себе базове стиснене представлення звуку, що включає в себе множину компонентів. Множина компонентів може бути взаємодоповнюючими компонентами. Стиснене представлення звуку може додатково включати в себе базову допоміжну інформацію для декодування базового стисненого представлення звуку в базове відтворене представлення звуку або звукового поля.

Стиснене представлення звуку може, крім того, включати в себе поліпшуючу допоміжну інформацію, що включає в себе параметри для поліпшення (наприклад, розширення) базового відтвореного представлення звуку. Спосіб може включати в себе підрозділяння (наприклад, угруповання) множини компонентів на множину груп компонентів. Спосіб може додатково включати в себе присвоєння (наприклад, додавання) кожної з множини груп відповідному одному 3 множини ієрархічних рівнів. Присвоєння може вказувати відповідність між відповідними групами і рівнями. Можна сказати, що компоненти, присвоєні відповідному рівню, включені в цей рівень. Кількість груп може відповідати (наприклад, дорівнювати) кількості рівнів.

Множина рівнів може включати в себе базовий рівень і один або більше ієрархічних поліпшуючих рівнів. Множина ієрархічних рівнів може бути впорядкована від базового рівня, через перший поліпшуючий рівень, другий поліпшуючий рівень і т. д., аж до загального найбільш високого поліпшуючого рівня (загального найбільш високого рівня). Спосіб може додатково включати в себе додавання базової допоміжної інформації до базового рівня (наприклад, включення базової допоміжної інформації в базовий рівень або розподіл базової допоміжної інформації базовому рівню, наприклад, з метою передачі або зберігання). Спосіб може додатково включати в себе визначення множини частин поліпшуючої допоміжної інформації на основі поліпшуючої допоміжної інформації. Спосіб може, крім того, включати в себе присвоєння (наприклад, додавання) кожної з множини частин поліпшуючої допоміжної інформації відповідному одному з множини рівнів. Кожна частина поліпшуючої допоміжної інформації може включати в себе параметри для поліпшення відтвореного (наприклад, відновленого) представлення звуку, доступні з даних, включених (наприклад, присвоєних або доданих) у відповідний рівень і будь-які рівні нижче відповідного рівня. Багаторівневе кодування може бути виконане з метою передачі по каналу передачі або з метою збереження на придатному запам'ятовувальному носії, такому як, наприклад, СО, ЮСМО або Віи-гау Оівс м,

Сконфігурований, як згадано вище, запропонований спосіб дозволяє ефективно 60 застосовувати багаторівневе кодування до стиснених представлень звуку, що містять множину компонентів, а також першу і поліпшуючу допоміжну інформацію (наприклад, незалежну базову допоміжну інформацію і поліпшуючу допоміжну інформацію), що мають викладені вище властивості. Зокрема, запропонований спосіб гарантує, що кожен рівень включає в себе придатну допоміжну інформацію для відновлення відтвореного представлення звуку з компонентів, включених у будь-які рівні аж до рівня, що розглядається. При цьому передбачається, що рівні аж до розглянутого рівня включають в себе, наприклад, базовий рівень, перший поліпшуючий рівень, другий поліпшуючий рівень і т. д., аж до рівня, що розглядається. Таким чином, незалежно від фактичного найбільш високого застосовного рівня (наприклад, рівня нижче найбільш низького шару, який не був коректно прийнятий, і, таким чином, всі рівні нижче найбільш високого застосовного рівня і сам найбільш високий застосовний рівень прийняті коректно), декодеру дозволяється поліпшити або розширити відтворене представлення звуку, навіть якщо відтворене представлення звуку може відрізнятися від повного представлення звуку. Зокрема, незалежно від фактичного найбільш високого застосовного рівня, для декодера достатньо декодувати корисне навантаження поліпшуючої допоміжної інформації тільки для єдиного шару (тобто для найбільш високого застосовного рівня), щоб поліпшити або розширити відтворене представлення звуку, яке доступне на основі всіх компонентів, включених у рівні аж до фактичного найбільш високого застосовного рівня. Таким чином, для кожного часового інтервалу (наприклад, кадру) повинно бути декодоване тільки єдине корисне навантаження поліпшуючої допоміжної інформації. З іншого боку, запропонований спосіб дозволяє повністю використовувати перевагу скорочення необхідної ширини смуги, що може бути досягнуто при застосуванні багаторівневого кодування.

У варіантах здійснення компоненти базового стисненого представлення звуку можуть відповідати монауральним сигналам (наприклад, транспортним сигналам або монауральним транспортним сигналам). Монауральні сигнали можуть представляти або переважні звукові сигнали, або послідовності коефіцієнтів представлення НОА. Монауральні сигнали можуть бути квантовані.

У варіантах здійснення базова допоміжна інформація може включати в себе інформацію, яка визначає декодування (наприклад, відновлення) одного або більше з множини компонентів індивідуально, незалежно від інших компонентів. Наприклад, базова допоміжна інформація

Зо може представляти допоміжну інформацію, яка стосується індивідуальних монауральних сигналів, незалежно від інших монауральних сигналів. Таким чином, базова допоміжна інформація може згадуватися як незалежна базова допоміжна інформація.

У варіантах здійснення поліпшуюча допоміжна інформація може представляти поліпшуючу допоміжну інформацію. Поліпшуюча допоміжна інформація може включати в себе параметри прогнозування для базового стисненого представлення звуку для поліпшення (наприклад, розширення) базового відтвореного представлення звуку, які доступні з базового стисненого представлення звуку і базової допоміжної інформації.

У варіантах здійснення спосіб може додатково включати в себе формування транспортного потоку для передачі даних множини рівнів (наприклад, даних, присвоєних або доданих до відповідних рівнів або іншим чином включених у відповідні рівні). Базовий рівень може мати найбільш високий пріоритет передачі, і ієрархічні поліпшуючі рівні можуть мати спадні пріоритети передачі. Таким чином, пріоритет передачі може зменшуватися від базового рівня до першого поліпшуючого рівня, від першого поліпшуючого рівня до другого поліпшуючого рівня і т. д. Величиною захисту від помилок для передачі даних множини рівнів можна керувати відповідно до відповідних пріоритетів передачі. Тим самим може бути забезпечено, що щонайменше деяка кількість більш низьких рівнів передається достовірно, з іншого боку, скорочуючи повну необхідну ширину смуги без застосування надмірного захисту від помилок до більш високих рівнів.

У варіантах здійснення спосіб може додатково включати в себе для кожного з множини рівнів формування пакета транспортного рівня, що включає в себе дані відповідного рівня.

Наприклад, для кожного часового інтервалу (наприклад, кадру) відповідний пакет транспортного рівня може бути сформований для кожного з множини рівнів.

У варіантах здійснення стиснене представлення звуку може додатково включати в себе додаткову базову допоміжну інформацію для декодування базового стисненого представлення звуку в базове відтворене представлення звуку. Додаткова базова допоміжна інформація може включати в себе інформацію, яка визначає декодування одного або більше з множини компонентів залежно від відповідних інших компонентів. Спосіб може додатково включати в себе виконання декомпозиції додаткової базової допоміжної інформації на множину частин додаткової базової допоміжної інформації. Спосіб може, крім того, включати в себе додавання 60 частин додаткової базової допоміжної інформації до базового рівня (наприклад, включення частини додаткової базової допоміжної інформації в базовий рівень або розподіл частин додаткової базової допоміжної інформації базовому рівню, наприклад, з метою передачі або зберігання). Кожна частина додаткової базової допоміжної інформації може бути пов'язана з відповідним рівнем і може включати в себе інформацію, яка визначає декодування одного або більше компонентів, присвоєних відповідному рівню, залежно (тільки) від відповідних інших компонентів, присвоєних відповідному рівню і будь-яким рівням нижче відповідного рівня. Таким чином, кожна частина додаткової базової допоміжної інформації визначає компоненти на відповідному рівні, якому відповідає ця частина додаткової базової допоміжної інформації, незалежно від будь-яких інших компонентів, присвоєних більш високим рівням, ніж відповідний рівень.

Сконфігурований таким чином запропонований спосіб уникає фрагментації додаткової базової допоміжної інформації за допомогою додавання всіх частин до базового рівня. Інакше кажучи, всі частини додаткової базової допоміжної інформації включені в базовий рівень.

Декомпозиція додаткової базової допоміжної інформації гарантує, що для кожного рівня доступна частина додаткової базової допоміжної інформації, що не вимагає знання компонентів на більш високих рівнях. Таким чином, незалежно від фактичного найбільш високого застосовного рівня, для декодера достатньо декодувати додаткову базову допоміжну інформацію, включену в рівні аж до найбільш високого застосовного рівня.

У варіантах здійснення додаткова базова допоміжна інформація може включати в себе інформацію, яка визначає декодування (наприклад, відновлення) одного або більше з множини компонентів залежно від інших компонентів. Наприклад, додаткова базова допоміжна інформація може представляти допоміжну інформацію, яка стосується індивідуальних монауральних сигналів, залежно від інших монауральних сигналів. Таким чином, додаткова базова допоміжна інформація може згадуватися як залежна базова допоміжна інформація.

У варіантах здійснення стиснене представлення звуку може бути оброблене для послідовних часових інтервалів, наприклад часових інтервалів однакового розміру. Послідовні часові інтервали можуть бути кадрами. Таким чином, спосіб може працювати на основі кадрів, тобто стиснене представлення звуку може бути закодоване покадрово. Стиснене представлення звуку може бути доступне для кожного послідовного часового інтервалу

Зо (наприклад, для кожного кадру). Таким чином, операція стиснення, за допомогою якої було одержане стиснене представлення звуку, може працювати на основі кадрів.

У варіантах здійснення спосіб може додатково включати в себе формування інформації конфігурації, яка вказує для кожного рівня компоненти базового стисненого представлення звуку, які присвоєні цьому рівню. Таким чином, декодер може без складностей здійснити доступ до інформації, необхідної для декодування, без непотрібного аналізу прийнятих корисних навантажень даних.

Відповідно до іншого аспекту описаний спосіб багаторівневого кодування стисненого представлення звуку або звукового поля. Стиснене представлення звуку може включати в себе базове стиснене представлення звуку, що включає в себе множину компонентів. Множина компонентів може бути взаємодоповнюючими компонентами. Стиснене представлення звуку може додатково включати в себе базову допоміжну інформацію (наприклад, незалежну базову допоміжну інформацію) і третю інформацію (наприклад, залежну базову допоміжну інформацію) для декодування базового стисненого представлення звуку в базове відтворене представлення звуку або звукового поля. Базова допоміжна інформація може включати в себе інформацію, яка визначає декодування одного або більше з множини компонентів індивідуально, незалежно від інших компонентів. Додаткова базова допоміжна інформація може включати в себе інформацію, яка визначає декодування одного або більше з множини компонентів залежно від відповідних інших компонентів. Спосіб може включати в себе підрозділяння (наприклад, угруповання) множини компонентів на множину груп компонентів. Спосіб може додатково включати в себе присвоєння (наприклад, додавання) кожної з множини груп відповідному одному з множини ієрархічних рівнів. Присвоєння може вказувати відповідність між відповідними групами і рівнями.

Можна сказати, що компоненти, присвоєні відповідному рівню, включені в цей рівень. Кількість груп може відповідати (наприклад, дорівнювати) кількості рівнів. Множина рівнів може включати в себе базовий рівень і один або більше ієрархічних поліпшуючих рівнів. Спосіб може додатково включати в себе додавання базової допоміжної інформації до базового рівня (наприклад, включення базової допоміжної інформації в базовий рівень або розподіл базової допоміжної інформації базовому рівню, наприклад, з метою передачі або зберігання). Спосіб може додатково включати в себе виконання декомпозиції додаткової базової допоміжної інформації на множину частин додаткової базової допоміжної інформації і додавання частин додаткової 60 базової допоміжної інформації до базового рівня (наприклад, включення частин додаткової базової допоміжної інформації в базовий рівень або розподіл частин додаткової базової допоміжної інформації базовому рівню, наприклад, з метою передачі або зберігання). Кожна частина додаткової базової допоміжної інформації може бути пов'язана з відповідним рівнем і включати в себе інформацію, яка визначає декодування одного або більше компонентів, присвоєних відповідному рівню, залежно від відповідних інших компонентів, присвоєних відповідному рівню і будь-яким рівням нижче відповідного рівня.

Сконфігурований таким чином запропонований спосіб гарантує, що для кожного рівня доступна придатна додаткова базова допоміжна інформація для декодування компонентів, включених у будь-який рівень аж до відповідного рівня, не вимагаючи коректного прийому або декодування (або, у цілому, знання) будь-яких більш високих рівнів. У випадку стисненого представлення НОА запропонований спосіб гарантує, що в режимі векторного кодування придатний М-вектор доступний для всього компонента, що належить рівням аж до найбільш високого застосовного рівня. Зокрема, запропонований спосіб виключає випадок, у якому елементи У-вектора, що відповідає компонентам на більш високих рівнях, явно не повідомлені.

Відповідно до цього інформація, включена в рівні аж до найбільш високого застосовного рівня, є достатньою для декодування (наприклад, відновлення) будь-яких компонентів, що належать рівням аж до найбільш високого застосовного рівня. Тим самим забезпечується придатне відновлення відповідних відтворених представлень НОА для більш низьких рівнів, навіть якщо більш високі рівні не могли бути коректно прийняті декодером. З іншого боку, запропонований спосіб дозволяє повністю використовувати переваги скорочення необхідної ширини смуги, що може бути досягнуто при застосуванні багаторівневого кодування.

Варіанти здійснення цього аспекту можуть належати до варіантів здійснення попереднього аспекту.

Відповідно до іншого аспекту описаний спосіб декодування стисненого представлення звуку або звукового поля. Стиснене представлення звуку може бути закодоване у множині ієрархічних рівнів. Множина ієрархічних рівнів може включати в себе базовий рівень і один або декілька ієрархічних зростаючих рівнів. Множина рівнів може мати присвоєні їм компоненти базового стисненого представлення звуку або звукового поля. Інакше кажучи, множина рівнів може включати в себе компоненти базової стисненої допоміжної інформації. Компоненти можуть бути

Зо присвоєні відповідним рівням у відповідних групах компонентів. Множина компонентів може бути взаємодоповнюючими компонентами. Базовий рівень може включати в себе базову допоміжну інформацію для декодування базового стисненого представлення звуку. Кожен рівень може включати в себе частину поліпшуючої допоміжної інформації, що включає в себе параметри для поліпшення базового відтвореного представлення звуку, доступні з даних, включених у відповідний рівень і будь-які рівні нижче відповідного рівня. Спосіб може включати в себе прийом корисних навантажень даних, відповідно пов'язаних з множиною ієрархічних рівнів. Спосіб може додатково включати в себе визначення першого індексу рівня, що вказує найбільш високий застосовний рівень з множини рівнів для використання для декодування базового стисненого представлення звуку в базове відтворене представлення звуку або звукового поля. Спосіб може додатково включати в себе одержання базового відтвореного представлення звуку з компонентів, присвоєних найбільш високому застосовному рівню і будь- яким рівням нижче найбільш високого застосовного рівня, з використанням базової допоміжної інформації. Спосіб може додатково включати в себе визначення другого індексу рівня, що вказує, яка частина поліпшуючої допоміжної інформації повинна використовуватися для поліпшення (наприклад, розширення) базового відтвореного представлення звуку. Спосіб, крім того, може включати в себе одержання відтвореного представлення звуку або звукового поля з базового відтвореного представлення звуку з посиланням на другий індекс рівня.

Сконфігурований таким чином запропонований спосіб гарантує, що відтворене представлення звуку має оптимальну якість з використанням доступної (наприклад, коректно прийнятої) інформації в найкращому можливому ступені.

У варіантах здійснення компоненти базового стисненого представлення звуку можуть відповідати монауральним сигналам (наприклад, монауральним транспортним сигналам).

Монауральні сигнали можуть представляти або переважні звукові сигнали, або послідовності коефіцієнтів представлення НОА. Монауральні сигнали можуть бути квантовані.

У варіантах здійснення базова допоміжна інформація може включати в себе інформацію, яка визначає декодування (наприклад, відновлення) одного або більше з множини компонентів індивідуально, незалежно від інших компонентів. Наприклад, базова допоміжна інформація може представляти допоміжну інформацію, яка стосується індивідуальних монауральних сигналів, незалежно від інших монауральних сигналів. Таким чином, базова допоміжна бо інформація може згадуватися як незалежна базова допоміжна інформація.

У варіантах здійснення спосіб може додатково включати в себе визначення для кожного рівня, чи був відповідний рівень прийнятий коректно. Спосіб може додатково включати в себе визначення першого індексу рівня як індексу того рівня, який знаходиться безпосередньо нижче найбільш низького рівня, що не був прийнятий коректно.

У варіантах здійснення визначення другого індексу рівня може включати в себе або визначення другого індексу рівня як такого, що дорівнює першому індексу рівня, або визначення значення індексу як другого індексу рівня, яке вказує, що не слід використовувати яку-небудь поліпшуючу допоміжну інформацію при одержанні відтвореного представлення звуку. В останньому випадку відтворене представлення звуку може бути еквівалентне базовому відтвореному представленню звуку.

У варіантах здійснення корисні навантаження даних можуть бути прийняті і оброблені для послідовних часових інтервалів, наприклад часових інтервалів однакового розміру. Послідовні часові інтервали можуть бути кадрами. Таким чином, спосіб може працювати на основі кадрів.

Спосіб може додатково включати в себе визначення другого індексу рівня як такого, що дорівнює першому індексу рівня, якщо стиснені представлення звуку для послідовних часових інтервалів можуть бути декодовані незалежно одне від одного.

Спосіб може додатково включати в себе для даного часового інтервалу з послідовних часових інтервалів визначення для кожного рівня, чи був відповідний рівень прийнятий коректно, якщо стиснені представлення звуку для послідовних часових інтервалів не можуть бути декодовані незалежно одне від одного. Спосіб може додатково включати в себе визначення першого індексу рівня для даного часового інтервалу як меншого індексу з першого індексу рівня

Зо часового інтервалу, що передує даному часовому інтервалу, і індексу рівня, який знаходиться безпосередньо нижче найбільш низького рівня, що не був прийнятий коректно.

У варіантах здійснення спосіб може додатково включати в себе для даного часового інтервалу визначення, чи дорівнює перший індекс рівня для даного часового інтервалу першому індексу рівня для попереднього часового інтервалу, якщо стиснені представлення звуку для послідовних часових інтервалів не можуть бути декодовані незалежно одне від одного. Спосіб може додатково включати в себе визначення, що другий індекс рівня для даного часового інтервалу дорівнює першому індексу рівня для даного часового інтервалу, якщо перший індекс рівня для даного часового інтервалу дорівнює першому індексу рівня для попереднього часового інтервалу. Спосіб може додатково включати в себе визначення значення індексу як другого індексу рівня, який вказує, що не слід використовувати яку-небудь поліпшуючу допоміжну інформацію при одержанні відтвореного представлення звуку, якщо перший індекс рівня для даного часового інтервалу не дорівнює першому індексу рівня для попереднього часового інтервалу.

У варіантах здійснення базовий рівень може включати в себе щонайменше одну частину додаткової базової допоміжної інформації, яка пов'язана з відповідним рівнем і включає в себе інформацію, що визначає декодування одного або більше компонентів з компонентів, присвоєних відповідному рівню, залежно від інших компонентів, присвоєних відповідному рівню і будь-яким рівням нижче відповідного рівня. Спосіб може додатково включати в себе для кожної частини додаткової базової допоміжної інформації декодування частини додаткової базової допоміжної інформації за допомогою посилання на компоненти, присвоєні її відповідному рівню і будь-яким рівням нижче відповідного рівня. Спосіб може додатково включати в себе корекцію частини додаткової базової допоміжної інформації за допомогою посилання на компоненти, присвоєні найбільш високому застосовному рівню і будь-яким рівням між найбільш високим застосовним рівнем і відповідним рівнем. Базове відтворене представлення звуку може бути одержане з компонентів, присвоєних найбільш високому застосовному рівню і будь-яким рівням нижче найбільш високого застосовного рівня, з використанням базової допоміжної інформації і скоректованої частини додаткової базової допоміжної інформації, одержаної із частин додаткової базової допоміжної інформації, що відповідають рівням аж до найбільш високого застосовного рівня.

Відповідно до іншого аспекту описаний спосіб декодування стисненого представлення звуку або звукового поля. Стиснене представлення звуку може бути закодоване в множині ієрархічних рівнів. Множина ієрархічних рівнів може включати в себе базовий рівень і один або декілька ієрархічних зростаючих рівнів. Множина рівнів може мати присвоєні їм компоненти базового стисненого представлення звуку або звукового поля. Інакше кажучи, множина рівнів може включати в себе компоненти базової стисненої допоміжної інформації. Компоненти можуть бути присвоєні відповідним рівням у відповідних групах компонентів. Множина компонентів може бути взаємодоповнюючими компонентами. Базовий рівень може включати в себе базову допоміжну інформацію для декодування базового стисненого представлення звуку. Базовий рівень може додатково включати в себе щонайменше одну частину додаткової базової допоміжної інформації, яка пов'язана з відповідним рівнем і включає в себе інформацію, що визначає декодування одного або більше компонентів з компонентів, присвоєних відповідному рівню, залежно від інших компонентів, присвоєних відповідному рівню і будь-яким рівням нижче відповідного рівня. Спосіб може включати в себе прийом корисних навантажень даних, відповідно пов'язаних з множиною ієрархічних рівнів. Спосіб може додатково включати в себе визначення першого індексу рівня, що вказує найбільш високий застосовний рівень з множини рівнів для використання для декодування базового стисненого представлення звуку в базове відтворене представлення звуку або звукового поля. Спосіб може додатково включати в себе для кожної частини додаткової базової допоміжної інформації декодування частини додаткової базової допоміжної інформації за допомогою посилання на компоненти, присвоєні її відповідному рівню і будь-яким рівням нижче відповідного рівня. Спосіб може додатково включати в себе для кожної частини додаткової базової допоміжної інформації корекцію частини додаткової базової допоміжної інформації за допомогою посилання на компоненти,

Зо присвоєні найбільш високому застосовному рівню і будь-яким рівням між найбільш високим застосовним рівнем і відповідним рівнем. Базове відтворене представлення звуку може бути одержане з компонентів, присвоєних найбільш високому застосовному рівню і будь-яким рівням нижче найбільш високого застосовного рівня, з використанням базової допоміжної інформації і скоректованої частини додаткової базової допоміжної інформації, одержаної із частин додаткової базової допоміжної інформації, що відповідають рівням аж до найбільш високого застосовного рівня. Спосіб може додатково включати визначення другого індексу рівня, який або дорівнює першому індексу рівня, або вказує опущення поліпшуючої допоміжної інформації під час декодування.

Сконфігурований таким чином запропонований спосіб гарантує, що додаткова базова допоміжна інформація, яка в остаточному підсумку використовується для декодування базового стисненого представлення звуку, не включає в себе надлишкові елементи, тим самим реалізуючи більш ефективне фактичне декодування базового стисненого представлення звуку.

Відповідно до іншого аспекту описаний кодер для багаторівневого кодування стисненого представлення звуку або звукового поля. Стиснене представлення звуку може включати в себе базове стиснене представлення звуку, що включає в себе множину компонентів. Множина компонентів може бути взаємодоповнюючими компонентами. Стиснене представлення звуку може додатково включати в себе базову допоміжну інформацію для декодування базового стисненого представлення звуку в базове відтворене представлення звуку або звукового поля.

Стиснене представлення звуку може, крім того, включати в себе поліпшуючу допоміжну інформацію, яка включає в себе параметри для поліпшення (наприклад, розширення) базового відтвореного представлення звуку. Кодер може включати в себе процесор, виконаний з можливістю виконувати деякі або всі етапи способів відповідно до першого згаданого вище аспекту і другого згаданого вище аспекту.

Відповідно до іншого аспекту описаний декодер для декодування стисненого представлення звуку або звукового поля. Стиснене представлення звуку може бути закодоване в множині ієрархічних рівнів. Множина ієрархічних рівнів може включати в себе базовий рівень і один або декілька ієрархічних зростаючих рівнів. Множина рівнів може мати присвоєні їм компоненти 60 базового стисненого представлення звуку або звукового поля. Інакше кажучи, множина рівнів може включати в себе компоненти базової стисненої допоміжної інформації. Компоненти можуть бути присвоєні відповідним рівням у відповідних групах компонентів. Множина компонентів може бути взаємодоповнюючими компонентами. Базовий рівень може включати в себе базову допоміжну інформацію для декодування базового стисненого представлення звуку.

Кожен рівень може включати в себе частину поліпшуючої допоміжної інформації, яка включає в себе параметри для поліпшення (наприклад, розширення) базового відтвореного представлення звуку, доступні з даних, включених у відповідний рівень і будь-які рівні нижче відповідного рівня. Декодер може включати в себе процесор, виконаний з можливістю виконувати деякі або всі етапи способів відповідно до третього згаданого вище аспекту і четвертого згаданого вище аспекту.

Відповідно до інших аспектів способи, пристрої і системи спрямовані на декодування стисненого представлення Нідпег-Огаег АтБізопіс5 (НОА) звуку або звукового поля (просторового звуку або звукового поля вищого порядку). Пристрій може мати приймач, виконаний з можливістю приймати, або спосіб може приймати бітовий потік, який містить стиснене представлення НОА, що відповідає множині ієрархічних рівнів, які включають в себе базовий рівень і один або більше ієрархічних поліпшуючих рівнів. Множина рівнів має присвоєні їм компоненти базового стисненого представлення звуку або звукового поля, компоненти присвоєні відповідним рівням у відповідних групах компонентів. Пристрій може мати декодер, виконаний з можливістю декодувати, або спосіб може декодувати стиснене представлення НОА на основі базової допоміжної інформації, яка пов'язана з базовим рівнем, і на основі поліпшуючої допоміжної інформації, яка пов'язана з одним або більше ієрархічними поліпшуючими рівнями. Базова допоміжна інформація може включати в себе базову незалежну допоміжну інформацію, яка стосується перших індивідуальних монауральних сигналів, які будуть декодуватися незалежно від інших монауральних сигналів. Кожний з одного або більше ієрархічних поліпшуючих рівнів може включати в себе частину поліпшуючої допоміжної інформації яка включає в себе параметри для поліпшення базового відтвореного представлення звуку, доступні з даних, включених у відповідні рівні і будь-які рівні нижче відповідного рівня.

Базова незалежна допоміжна інформація може вказувати, що перші індивідуальні

Зо монауральні сигнали представляють спрямований сигнал з напрямком падіння. Базова допоміжна інформація може додатково включати в себе базову залежну допоміжну інформацію, яка стосується других індивідуальних монауральних сигналів, які будуть декодуватися залежно від інших монауральних сигналів. Базова залежна допоміжна інформація може включати в себе основані на векторах сигнали, які розподілені по напрямках у звуковому полі, причому розподіл по напрямках визначений за допомогою вектора. Компоненти вектора встановлені такими, що дорівнюють нулю, і не є частиною стисненого векторного представлення.

Компоненти базового стисненого представлення звуку можуть відповідати монауральним сигналам, які представляють або переважні звукові сигнали, або послідовності коефіцієнтів представлення НОА. Бітовий потік включає в себе корисні навантаження даних, відповідно пов'язані з множиною ієрархічних рівнів. Поліпшуюча допоміжна інформація може включати в себе параметри, що стосуються щонайменше одного з перерахованого: просторове прогнозування, синтез спрямованих підсмугових сигналів і параметричне дублювання звукового оточення. Поліпшуюча допоміжна інформація може включати в себе інформацію, яка робить можливим прогнозування частин звуку або звукового поля, яких не вистачає, на основі спрямованих сигналів. Може бути додатково визначено для кожного рівня, чи був відповідний рівень прийнятий коректно, і індекс рівня, що знаходиться безпосередньо нижче найбільш низького рівня, який не був прийнятий коректно.

Відповідно до іншого аспекту описана програма. Програма може бути адаптована для виконання на процесорі і для виконання деяких або всіх етапів способу, викладених у даному документі, при її виконанні на обчислювальному пристрої.

Відповідно до ще одного аспекту описаний запам'ятовуючий носій. Запам'ятовуючий носій може містити програму, адаптовану для виконання на процесорі і для виконання деяких або всіх етапів способу, викладених у даному документі, при її виконанні на обчислювальному пристрої.

Твердження, зроблені відносно будь-якого зі згаданих вище аспектів або їх варіантів здійснення, також стосуються відповідних інших аспектів або їх варіантів здійснення, як зрозуміє фахівець в галузі техніки. Повторення цих тверджень для кожного аспекту або варіанта здійснення було опущене для стислості.

Способи і пристрої, що включають у себе переважні варіанти здійснення, викладені в даному документі, можуть використовуватися автономно або в сполученні з іншими способами і бо системами, розкритими в цьому документі. Крім того, всі аспекти способів і пристроїв, викладені в даному документі, можуть бути довільним чином об'єднані. Зокрема, ознаки пунктів формули винаходу можуть бути об'єднані одна з одною довільним чином.

Етапи способів і ознаки пристроїв можуть бути взаємозамінними різним чином. Зокрема, подробиці розкритого способу можуть бути реалізовані як пристрій, виконаний з можливістю виконувати деякі або всі етапи способу, і навпаки, як зрозуміє фахівець в галузі техніки.

КОРОТКИЙ ОПИС КРЕСЛЕНЬ

Винахід роз'яснений нижче ілюстративно з посиланням на прикладені креслення.

Фіг 1 - блок-схема послідовності етапів, що ілюструє приклад способу багаторівневого кодування відповідно до варіантів здійснення розкриття.

Фіг. 2 - блок-схема, що схематично ілюструє приклад стадії кодера відповідно до варіантів здійснення розкриття.

Фіг. З - блок-схема послідовності етапів, що ілюструє приклад способу декодування стисненого представлення звуку або звукового поля, що було закодоване у множині ієрархічних рівнів, відповідно до варіантів здійснення розкриття.

Фіг. 4А і 48 - блок-схеми, що схематично ілюструють приклади стадії декодера, відповідно до варіантів здійснення розкриття.

Фіг. 5 - блок-схема, що схематично ілюструє приклад апаратної реалізації кодера відповідно до варіантів здійснення розкриття.

Фіг. б - блок-схема, що схематично ілюструє приклад апаратної реалізації декодера відповідно до варіантів здійснення розкриття.

ЗДІЙСНЕННЯ ВИНАХОДУ

Спочатку буде описане стиснене представлення звуку (або звукового поля) (далі для стислості називане стисненим представленням звуку), до якого застосовні способи і кодери/декодери відповідно до даного розкриття. У цілому повне стиснене представлення звуку (або звукового поля) (далі для стислості називане повним стисненим представленням звуку) може містити три наступні компоненти (наприклад, складатися з них): базове стиснене представлення звуку (або звукового поля) (далі для стислості називане базовим стисненим представленням звуку), базову допоміжну інформацію і поліпшуючу допоміжну інформацію.

Саме базове стиснене представлення звуку містить декілька компонентів (наприклад, складається з них) (наприклад, взаємодоповнюючих компонентів). Базове стиснене представлення звуку може брати до уваги визначено найбільший відсоток повного стисненого представлення звуку. Базове стиснене представлення звуку може складатися з монауральних транспортних сигналів, що представляють або переважні звукові сигнали, або послідовності коефіцієнтів початкового представлення НОА.

Базова допоміжна інформація потрібна для декодування базового стисненого представлення звуку і, як передбачається, має набагато менший розмір у порівнянні з базовим стисненим представленням звуку. Це може бути зроблено аж до її найбільшої частини незв'язних частин, кожна з яких визначає відновлення тільки одного конкретного компонента базового стисненого представлення звуку. Базова допоміжна інформація може містити першу частину, що може бути відома як незалежна базова допоміжна інформація, і другу частину, що може бути відома як додаткова базова допоміжна інформація.

Ї перша, і друга частини, незалежна базова допоміжна інформація і додаткова базова допоміжна інформація можуть визначати відновлення конкретних компонентів базового стисненого представлення звуку. Друга частина є факультативною і може бути опущена. У цьому випадку можна сказати, що стиснене представлення звуку містить першу частину (наприклад, базову допоміжну інформацію).

Перша частина (наприклад, базова допоміжна інформація) може містити допоміжну інформацію, яка описує індивідуальні (взаємодоповнюючі) компоненти базового стисненого представлення звуку, незалежно від інших (взаємодоповнюючих) компонентів. Зокрема, перша частина (наприклад, базова допоміжна інформація) може визначати декодування одного або більше з множини компонентів індивідуально, незалежно від інших компонентів. Таким чином, перша частина може згадуватися як незалежна базова допоміжна інформація.

Друга (факультативна) частина може містити допоміжну інформацію, також відому як додаткова базова допоміжна інформація, може описувати індивідуальні (взаємодоповнюючі) компоненти базового стисненого представлення звуку залежно від інших (взаємодоповнюючих) компонентів. Ця друга частина може також згадуватися як залежна базова допоміжна інформація. Зокрема, залежність може мати наступні властивості: - залежна базова допоміжна інформація для кожного індивідуального (взаємодоповнюючого) компонента базового стисненого представлення звуку може досягати свого найбільшого ступеня, коли інші визначені (взаємодоповнюючі) компоненти не містяться в базовому стисненому представленні звуку; - у випадку, якщо додаткові визначені (взаємодоповнюючі) компоненти додані до базового стисненого представлення звуку, залежна базова допоміжна інформація для індивідуального (взаємодоповнюючого) компонента, що розглядається, може стати підмножиною початкової залежної базової допоміжної інформації, тим самим скорочуючи її розмір.

Поліпшуюча допоміжна інформація також є факультативною. Вона може використовуватися для поліпшення або розширення (наприклад, параметричного поліпшення або розширення) базового стисненого представлення звуку. Її розмір, як може також передбачатися, набагато менше, ніж у базового стисненого представлення звуку.

Таким чином, у варіантах здійснення стиснене представлення звуку може містити базове стиснене представлення звуку, що містить множину компонентів, базову допоміжну інформацію для декодування (наприклад, відновлення) базового стисненого представлення звуку до базового відтвореного представлення звуку або звукового поля і поліпшуючу допоміжну інформацію, яка включає в себе параметри для поліпшення або розширення (наприклад, параметричного поліпшення або розширення) базового відтвореного представлення звуку.

Стиснене представлення звуку може також містити додаткову базову допоміжну інформацію для декодування (наприклад, відновлення) базового стисненого представлення звуку до базового відтвореного представлення звуку, що може включати в себе інформацію, яка визначає декодування одного або більше з множини компонентів залежно від відповідних інших компонентів.

Один приклад такого типу повного стисненого представлення звуку заданий за допомогою стисненого представлення Нідпетг-Огаег Атрізопіс5 (НОА) звукового поля (просторового звукового поля вищого порядку), як визначено за допомогою попередньої версії аудіостандарту

МРЕС-Н 30 (посилання 1), глава 12 і додаток С.5. Таким чином, стиснене представлення звуку може відповідати стисненому представленню НОА звуку (або звукового поля).

Для цього прикладу базове стиснене представлення звукового поля (базове стиснене представлення звуку) може містити декілька компонентів (наприклад, може бути ідентифіковане за допомогою них). Компоненти можуть являти собою монауральні сигнали (наприклад,

Зо відповідати їм). Монауральні сигнали можуть являти собою квантовані монауральні сигнали.

Монауральні сигнали можуть представляти або переважні звукові сигнали, або послідовності коефіцієнтів оточуючого компонента НОА звукового поля.

Базова допоміжна інформація може описувати, серед іншого, для кожного із цих монауральних сигналів, яким чином він додає просторовий внесок у звукове поле. Наприклад, базова допоміжна інформація може визначати переважний звуковий сигнал як чисто спрямований сигнал, що означає загальну плоску хвилю з деяким напрямком падіння. Як альтернатива базова допоміжна інформація може визначати монауральний сигнал як послідовність коефіцієнтів початкового представлення НОА, що має деякий індекс. Базова допоміжна інформація також може бути розділена на першу частину і другу частину, як зазначено вище.

Перша частина є допоміжною інформацією (наприклад, незалежною базовою допоміжною інформацією), яка стосується конкретних індивідуальних монауральних сигналів. Ця незалежна базова допоміжна інформація незалежна від існування інших монауральних сигналів. Така допоміжна інформація може, наприклад, визначати монауральний сигнал для представлення спрямованого сигналу (що, наприклад, означає загальну плоску хвилю) з деяким напрямком падіння. Як альтернатива монауральний сигнал може бути визначений як послідовність коефіцієнтів початкового представлення НОА, що має деякий індекс. Перша частина може згадуватися як незалежна базова допоміжна інформація. У цілому перша частина (наприклад, базова допоміжна інформація) може визначати декодування одного або більше з множини монауральних сигналів індивідуально, незалежно від інших монауральних сигналів.

Друга частина є допоміжною інформацією (наприклад, додатковою базовою допоміжною інформацією), яка стосується конкретних індивідуальних монауральних сигналів. Ця допоміжна інформація залежить від існування інших монауральних сигналів. Така допоміжна інформація може бути використана, наприклад, якщо монауральні сигнали визначені як основані на векторах сигнали (див., наприклад, посилання 1, розділ 12.4.2.4.4). Ці сигнали розподілені по напрямках у звуковому полі, причому розподіл по напрямках може бути визначений за допомогою вектора. У деякому режимі (див., наприклад, СодеаммМмесі епдій-1) окремі компоненти цього вектора неявно встановлені такими, що дорівнюють нулю, і не є частиною стисненого векторного представлення. Цими компонентами є компоненти з індексами, що 60 дорівнюють індексам послідовностей коефіцієнтів початкового представлення НОА і частини базового стисненого представлення звуку. Це означає, що, якщо індивідуальні компоненти вектора закодовані, їх загальна кількість може залежати від базового стисненого представлення звуку. Зокрема, загальна кількість може залежати від того, які послідовності коефіцієнтів містить початкове представлення НОА.

Якщо послідовності коефіцієнтів початкового представлення НОА не містяться в базовому стисненому представленні звуку, залежна базова допоміжна інформація для кожного основаного на векторі сигналу складається із всіх векторних компонентів і має свій найбільший розмір. У випадку, якщо послідовності коефіцієнтів початкового представлення НОА з деякими індексами додаються до базового стисненого представлення звуку, векторні компоненти із цими індексами видаляються з допоміжної інформації для кожного основаного на векторі сигналу, тим самим скорочуючи розмір залежної базової допоміжної інформації для основаних на векторах сигналів.

Поліпшуюча допоміжна інформація (наприклад, поліпшуюча допоміжна інформація) може містити параметри, що стосуються (широкосмугового) просторового прогнозування (див. посилання 1, розділ 12.4.2.4.3), (або параметри, що стосуються синтезу спрямованих підсмугових сигналів і параметричного дублювання звукового оточення.

Параметри, що стосуються (широкосмугового) просторового прогнозування, можуть використовуватися для (лінійного) прогнозування частин звукового поля, яких не вистачає, зі спрямованих сигналів.

Синтез спрямованих підсмугових сигналів і параметричне дублювання звукового оточення є інструментами стиснення, які були нещодавно введені в аудіостандарт МРЕС-Н 30 за допомогою поправки (див. посилання 2, розділ 1). Ці два інструменти дозволяють залежному від частоти параметричному прогнозуванню додаткових монауральних сигналів бути просторово розподіленим, щоб доповнювати просторово неповне або неповністю стиснене представлення

НОА. Прогнозування може бути основане на послідовностях коефіцієнтів базового стисненого представлення звуку.

Важливо відзначити, що згаданий вище взаємодоповнюючий внесок у звукове поле представлений у стисненому представленні НОА не за допомогою додаткових квантованих сигналів, а за допомогою додаткової допоміжної інформації порівняно набагато меншого

Зо розміру. Отже, два згаданих інструменти кодування особливо придатні для стиснення представлень НОА на низьких швидкостях передачі даних.

Другий приклад стисненого представлення одного або більше монауральних сигналів зі згаданою вище структурою може містити закодовану спектральну інформацію для незв'язних частотних смуг аж до деякої верхньої частоти, що може розглядатися як базове стиснене представлення; базову допоміжну інформацію, яка визначає закодовану спектральну інформацію (наприклад, за допомогою кількості і ширини закодованих частотних смуг); і поліпшуючу допоміжну інформацію, яка містить параметри копіювання спектральної смуги (ЗВЕ) (наприклад, складається з них), які описують, як параметрично відтворити з базового стисненого представлення спектральну інформацію для смуг більш високої частоти, які не розглядаються в базовому стисненому представленні.

Дане розкриття пропонує спосіб багаторівневого кодування повного стисненого представлення звуку (або звукового поля), що має згадану вище структуру.

Стиснення може бути основане на кадрах у тому розумінні, що воно забезпечує стиснені представлення (у формі пакетів даних або еквівалентно корисного навантаження кадрів) для послідовних часових інтервалів. Часові інтервали можуть мати однакові або різні розміри. Ці пакети даних, як може передбачатися, містять прапор коректності, значення, що вказує їх розмір, а також фактичні дані стисненого представлення. Далі без навмисного обмеження буде передбачатися, що стиснення є основаним на кадрах. Крім того, якщо не зазначено інакше і без навмисного обмеження, буде зроблений фокус на обробці одного кадру, і тому індекс кадру буде опущений.

Кожне корисне навантаження кадру повного стисненого ппедставлення звуку (або звукового поля), що розглядається, як передбачається, містить / пакетів даних (або корисних навантажень кадру; кожний для одного компонента базового стисненого представлення звуку, які позначені як В5КО, ее 1у./ Крім того, передбачається, що пакет містить незалежну . . . . . . БІ, базову допоміжну інфопмацію (базову допоміжну інформацію), позначену як ; яка визначає окремі компоненти ВККС; базового стисненого представлення звуку, незалежно від інших компонентів. Факультативно може додатково передбачатися, що пакет містить залеж азову допоміжну інформацію (додаткову базову допоміжну інформацію), позначену як З 0 яка

. ВОАС, . визначає окремі компоненти 7 базового стисненого представлення звуку залежно від інших компонентів.

Інфо . . В5І. В5І5 б рмація, яка міститься у двох пакетах даних і з може бути факультативно згрупована в єдиний пакет даних В5Ї базової допоміжної інформації. Можна сказати, що єдиний пакет ланих ВІ містить, серед іншого, / частин, кожна з яких визначає один окремий компонент ВЗА; базового стисненого представлення звуку. Можна сказати, що кожна із цих частин, у свою чергу, містить частину незалежної допоміжної інформації і факультативно частину залежної допоміжної інформації.

В остаточному підсумку, вона може включати в себе корисне навантаження поліпшуючої допоміжної інформації (поліпшуючої допоміжної інформації), позначене як Е5І з описом того, як поліпшити або розширити відтворений звук (або звукове поле) на основі повного базового стисненого представлення звуку.

Пропоноване рішення для багаторівневого кодування спрямоване на етапи, які вимагаються для забезпечення можливості як для частини стиснення, що включає в себе упакування пакетів даних для передачі, так і для частини прийому і відновлення. Кожна частина буде докладно описана далі.

Спочатку будуть описані стиснення і упакування (наприклад, для передачі). Зокрема, будуть описані компоненти і елементи повного стисненого представлення звуку (або звукового поля) у випадку багаторівневого кодування.

Фіг. 1 схематично ілюструє блок-схему послідовності етапів прикладу способу стиснення і упакування (наприклад, способу кодування або способу багаторівневого кодування стисненого представлення звуку або звукового поля). Присвоєння (наприклад, розподіл) індивідуальних корисних навантажень базовому рівню і (М-1) поліпшуючим рівням може бути досягнуте за допомогою пакувальника транспортних рівнів. Фіг. 2 схематично ілюструє блок-схему прикладу присвоєння/розподілу індивідуальних корисних навантажень.

Як зазначено вище, повне стиснене представлення 2100 звуку може стосуватися, наприклад, стисненого представлення НОА, що містить базове стиснене представлення звуку.

Повне стиснене представлення 2100 звуку може містити множину компонентів (наприклад, монауральні сигнали) 2110-1,..., 2110-7, незалежну базову допоміжну інформацію (базову

Зо допоміжну інформацію) 2120, факультативну поліпшуючу допоміжну інформацію (поліпшуючу допоміжну інформацію) 2140 і факультативну залежну базову допоміжну інформацію (додаткову базову допоміжну інформацію) 2130. Базова допоміжна інформація 2120 може бути інформацією для декодування базового стисненого представлення звуку в базове відтворене представлення звуку або звукового поля. Базова допоміжна інформація 2120 може включати в себе інформацію, яка визначає декодування одного або більше компонентів (наприклад, монауральних сигналів) індивідуально, незалежно від інших компонентів. Поліпшуюча допоміжна інформація 2140 може включати в себе параметри для поліпшення (наприклад, розширення) базового відтвореного представлення звуку. Додаткова базова допоміжна інформація 2130 може бути (додатковою) інформацією для декодування базового стисненого представлення звуку в базове відтворене представлення звуку і може включати в себе інформацію, яка визначає декодування одного або більше з множини компонентів залежно від відповідних інших компонентів.

Фіг. 2 ілюструє основне допущення, у якому існує множина ієрархічних рівнів, що включає у себе один базовий рівень (основний рівень) і один або більше (ієрархічних) поліпшуючих рівнів.

Наприклад, може бути всього М рівнів, тобто один базовий рівень і М-1 поліпшуючих рівнів.

Множина ієрархічних рівнів має послідовно збільшуваний індекс рівня. Найнижче значення індексу рівня (наприклад, індекс 1 рівня) відповідає базовому рівню. Далі мається на увазі, що рівні впорядковані від базового рівня, через поліпшуючі рівні, аж до повного найбільш високого поліпшуючого рівня (тобто повного найбільш високого рівня).

Запропонований спосіб може бути виконаний на основі кадру (тобто покадрово). Зокрема, стиснене представлення 2100 звуку може бути стиснене для послідовних часових інтервалів, наприклад часових інтервалів однакового розміру. Кожен часовий інтервал може відповідати кадру. Описані нижче етапи можуть бути виконані для кожного послідовного часового інтервалу (наприклад, кадру).

На етапі 51010 на фіг. 1 множина компонентів 2110 підрозділяється на множину груп компонентів. Кожна з множини груп потім присвоюється (наприклад, додається або розподіляється) відповідному одному з множини ієрархічних рівнів. При цьому кількість груп відповідає кількості рівнів. Наприклад, кількість груп може дорівнювати кількості рівнів, щоб була одна група компонентів для кожного рівня. Як зазначено вище, множина рівнів може включати в себе базовий рівень і один або більше (наприклад, М-1) ієрархічних поліпшуючих рівнів.

Інакше кажучи, базове стиснене представлення звуку підрозділене на частини, які будуть присвоєні окремим рівням. Без втрати спільності мгоуповання може бути описане за допомогою

МА чисел т, т 0,.ОМ де ан 1, Їм КЕ у результаті чого компоненти В5КС; присвоюються т-ому рівню для п -15/ «Ли,

На етапі 51020 групи компонентів присвоюються своїм відповідним рівням. На етапі 51030 базова допоміжна інформація 2120 додається (наприклад, розподіляється) до базового рівня (тобто до найбільш низького з множини ієрархічних рівнів).

Таким чином, внаслідок її невеликого розміру запропоновано включати повну базову допоміжну інформацію (базову допоміжну інформацію і факультативну додаткову базову допоміжну інформацію) у базовий рівень, щоб уникнути її непотрібної фрагментації.

Якщо стиснене представлення звуку, що розглядається, містить залежну базову допоміжну інформацію (додаткову базову допоміжну інформацію), спосіб додатково може включати (не показано на фіг. 1) декомпозицію додаткової базової допоміжної інформації на множину частин 2130-1,..., 2130-М додаткової базової допоміжної інформації. Частини додаткової базової допоміжної інформації потім можуть бути додані (наприклад, розподілені) до базового рівня.

Інакше кажучи, частини додаткової базової допоміжної інформації можуть бути включені в базовий рівень. Кожна частина додаткової базової допоміжної інформації може бути пов'язана з відповідним рівнем і може включати в себе інформацію, яка визначає декодування одного або більше компонентів, присвоєних відповідному рівню, залежно від інших компонентів, присвоєних відповідному рівню і будь-яким рівням нижче відповідного рівня.

Таким чином, у той час як незалежна базова допоміжна інформація ВІ; (базова допоміжна інформація) 2120 залишається без змін для присвоєння, залежна базова допоміжна інформація повинна бути оброблена спеціально для багаторівневого кодування, щоб дозволити правильне декодування на стороні приймача, з одного боку, і скоротити розмір залежної базової допоміжної інформації для передачі, з іншої боку. Запропоновано виконати декомпозицію залежної базової допоміжної інформації на М частин, позначених як Вот, те .ОМ де т- та частина містить залежну базову допоміжну інформацію для кожного з компонентів ВК,

Зо Лт-1 5 «Ли базового стисненого представлення звуку, присвоєного т-ому рівню, у припущенні, що факультативна залежна базова допоміжна інформація існує для стисненого представлення звуку, що розглядається. У випадку, якщо відповілна залежна допоміжна інформація не існує, для стисненого представлення звуку частин Во може передбачатися порожньою. Кожна частина залежної базової допоміжної інформації Вот може залежати від всіх компонентів В5ВС, 15/« Ли, що містяться на всіх рівнях аж до т-го (тобто містяться на всіх рівнях / 22 З, 25,

Якщо пакет В, незалежної базової допоміжної інформації має нехтувано малий розмір, розумно утримувати його як ціле і додавати (присвоювати) його до базового рівня.

Факультативно подібна декомпозиція, як для залежної базової допоміжної інформації, також може бути виконана для незалежної базової допоміжної інформації, забезпечуючи пакети

В т, те 10оМ, Це корисно для скорочення розміру базового рівня за допомогою додавання (присвоєння) частин незалежної базової допоміжної інформації до рівнів з відповідними компонентами базового стисненого представлення звуку.

На етапі 51040 може бути визначена множина частин 2140-1,..., 2140-М поліпшуючої допоміжної інформації. Кожна частина поліпшуючої допоміжної інформації може включати в себе параметри для поліпшення (наприклад, розширення) відтвореного представлення звуку, доступні з даних, включених у відповідний рівень і будь-які рівні нижче відповідного рівня.

Причина виконання цього етапу полягає в тому, що у випадку багаторівневого кодування важливо реалізувати, щоб поліпшуюча допоміжна інформація обчислювалася для кожного додаткового рівня, оскільки передбачається поліпшити попередній відновлений звук (або звукове поле), що, однак, залежить від доступних рівнів для відновлення. Зокрема, попередній відновлений звук (або звукове поле) для даного найбільш високого декодованого рівня (найбільш високого застосовного рівня) залежить від компонентів, включених у найбільш високий декодований рівень і будь-які рівні нижче найбільш високого декодованого рівня. Отже, стиснення повинно забезпечити М індивідуальних пакетів даних поліпимючої допоміжної інформації (частин поліпшуючої допоміжної інформації), позначених як Б, пох ТОМ де

. . . . . Е5І,. . поліпшуюча допоміжна інформація в т-ому пакеті даних т обчислюється, щоб поліпшити представлення звуку (або звукового поля), одержане із всіх даних, що містяться на базовому рівні і поліпшуючих рівнях з індексами нижче т (наприклад, всіх даних, що містяться на т-ому рівні і будь-яких рівнях нижче т-го рівня).

На етапі 51050 множина частин 2140-1,..., 2140-М поліпшуючої допоміжної інформації присвоюється (наприклад, додана або розподіляється) множині рівнів. Кожна з множини частин поліпшуючої допоміжної інформації присвоюється відповідному одному з множини рівнів.

Наприклад, кожний з множини рівнів включає в себе відповідну частину поліпшуючої допоміжної інформації.

Присвоєння базової і/або поліпшуючої допоміжної інформації відповідним рівням може бути зазначене в інформації конфігурації, яка формується за допомогою способу кодування. Інакше кажучи, відповідність між базовою і/або поліпшуючою допоміжною інформацією і відповідними рівнями може бути зазначена в інформації конфігурації. Крім того, інформація конфігурації може вказувати для кожного рівня компоненти базового стисненого представлення звуку, які присвоєні (наприклад, включені) цьому рівню. Частини додаткової базової допоміжної інформації, включені в базовий рівень, все ж таки можуть відповідати рівням, що відрізняються від базового рівня.

Пілбиваючи підсумок, на стадії стиснення забезпечується пакет даних кадру, позначений як

ЕКАМЕ пп»; плат пасетмитишлій сипал:"

ЕВАМЕ - ІВ5АС, - В5КС, ВІ В5Ірі 36 В5Зірм БЕБІ о... Емі (3)

Крім того, пакети ВІ, і Вот для Лі - 1... М могли б бути об'єднані в єдиний пакет ВУ у Цьом ріпа ли/х патгат пашним гапипм ппазчпачаний а Е КАМЕ дупе мати паступний склад:

ЕВАМЕ -- ІВ5КС, В5КС» о... В5КС, В5ІОБ5І, 515 .. Е5і мі (2)

Порядок проходження індивідуальних корисних навантажень з пакетом даних кадру в загальному випадку може бути довільним.

Індивідуальні пакети даних потім можуть бути згруповані в корисних навантаженнях, які визначені як спеціальні пакети даних, які містять прапор коректності, значення, що вказує їх розмір, а також фактичні стиснені дані представлення. Використання корисних навантажень дозволяє просте демультиплексування на стороні приймача, пропонуючи перевагу можливості відкидати неактуальні корисні навантаження без необхідності їх аналізу. Одне можливе угруповання задане як | верес. ШИ - присвоєння (наприклад, розподіл) кожного )/ пакета / пн/ індивідуальному корисному навантаженню, позначеному як ВЕ, 7 присвоєння (наприклад, позполіл) т-го пакета даних поліпшуючої допоміжної інформації

Б і т-го пакета даних В рт залежної допоміжної інформації одному поліпшуючому корисному навантаженню, позначеному як Ед те ЗМ. й - присвоєння пакета незалежної базової допоміжної інформації ВІ, окремому корисному навантаженню допоміжної інформації, позначеному як ВІР.

Факультативно, якто позмір незалежної базової допоміжної інформації великий, кожен т-ий з її компонентів, В ла п 1 може бути присвоєний (наприклад, розподілений) поліпшуючому корисному навантаженню ЕР У цьому випадку корисне навантаження В5ІР допоміжної інформації є порожнім і може бути проігнороване.

Інша факультативна можливість полягає в тому, щоб присвоїти всі залежні пакети даних

В дл базової допоміжної інформації корисному навантаженню В5ІР допоміжної інформації, що є розумним, якщо розмір залежної базової допоміжної інформації є невеликим. й .

В остаточному підсумку може бути забезпечений пакет даних кадру, позначений як КВАМЕ що маг частит плія пита лі НИ

ЕКАМЕ -- ІВР, па ВР. В5ІРЕР.... ЕРм| (3

Спосіб може додатково включати (не показано на фіг. 1) формування для кожного з множини рівнів пакета транспортного рівня (наприклад, пакета 2200 базового рівня і М-1 пакетів 2300-1,..., 2300-(М-1)) поліпшуючого рівня, що включають у себе дані відповідного рівня (наприклад, компоненти, базову допоміжну інформацію і поліпшуючу допоміжну інформацію для базового рівня або компоненти і поліпшуючу допоміжну інформацію для одного або більше поліпшуючих рівнів).

Пакети транспортного рівня для різних рівнів можуть мати різні пріоритети передачі. Таким чином, спосіб може додатково включати (не показано на фіг. 1) формування транспортного потоку для передачі даних множини рівнів, причому базовий рівень має найбільш високий пріоритет передачі, і ієрархічні поліпшуючі рівні мають спадні пріоритети передачі. При цьому більш високий пріоритет передачі може відповідати більшому ступеню захисту від помилок, і навпаки.

Якщо етапи не вимагають деяких інших етапів як попередні умови, згадані вище етапи можуть виконуватися в будь-якому порядку, і передбачається, що ілюстративний порядок, показаний на фіг. 1, не має обмежувального характеру.

Фіг. З ілюструє спосіб декодування стисненого представлення звуку або звукового поля для декодування або відновлення. Приклади відповідної стадії прийому і відновлення схематично проілюстровані на блок-схемах на фіг. 4А і 48.

Як випливає з попереднього опису, стиснене представлення звуку може бути закодоване в множині ієрархічних рівнів. Множина рівнів може мати присвоєні їм (наприклад, може включати в себе) компоненти базового стисненого представлення звуку, компоненти присвоюються відповідним рівням у відповідних групах компонентів. Базовий рівень може включати в себе базову допоміжну інформацію для декодування базового стисненого представлення звуку.

Кожен рівень може включати в себе одну зі згаданих вище частин поліпшуючої допоміжної інформації яка включає в себе параметри для поліпшення базового відтвореного представлення звуку, доступних з даних, включених у відповідний рівень і будь-які рівні нижче відповідного рівня.

Запропонований спосіб може бути виконаний на основі кадрів (тобто покадрово). Зокрема, відновлене представлення звуку або звукового поля може бути сформоване для послідовних часових інтервалів, наприклад часових інтервалів однакового розміру. Часові інтервали можуть бути, наприклад, кадрами. Описані нижче етапи можуть бути виконані для кожних послідовних часових інтервалів (наприклад, кадрів).

На етапі 53010 приймаються корисні навантаження даних (наприклад, пакети транспортного

Зо рівня), що відповідають множині рівнів. Корисні навантаження даних можуть бути прийняті як частина бітового потоку, що містить стиснене представлення НОА звуку або звукового поля, представлення відповідає множині ієрархічних рівнів. Ієрархічні рівні включають в себе базовий рівень і один або більше ієрархічних поліпшуючих рівнів. Множина рівнів має присвоєні їм компоненти базового стисненого представлення звуку або звукового поля. Компоненти присвоєні відповідним рівням у відповідних групах компонентів.

Пакети індивідуальних рівнів можуть бути мультиплексовані для забезпечення прийнятого пакета кадру повного стисненого представлення звуку. Прийнятий пакет кадру може бути позі 5 В5Іра -- ВБІУм 5, В5КС, .. Вс а Ми ВОК. ш. ВБКо і « (4)

В альтернативному випадку пакети В, і В ут для 1..М об'єднані в єдиний пакет

ВУ пакети індивідуальних рівнів можуть бути мультиплексовані для забезпечення прийнятого пактв5і Б5І,. В5КС, .. ВККС, у ЕМ В5КС, ше В5КС, л Км-1) (в) з ЕКАМЕ - (ВР... ВР, ВР ЕР, Щ ЕР" пакет кадру може бути заданий як і 27.6)

Прийнятий пакет кадру потім може бути переданий на декомпресор або декодер 4100. Якщо передача індивідуального рівня була безпомилковою, прапор коректності щонайменше частини вміщеного корисного навантаження ЕР поліпшуючої допоміжної інформації (наприклад, відповідної частини поліпшуючої допоміжної інформації) установлений таким, що дорівнює "істинному". У випадку помилки внаслідок передачі індивідуального рівня прапор коректності щонайменше в корисному навантаженні поліпшуючої допоміжної інформації на цьому рівні встановлений таким, що дорівнює "хибному". Отже, коректність пакета рівня може бути визначена на основі коректності вміщеного корисного навантаження поліпшуючої допоміжної інформації (наприклад, на основі його прапора коректності).

У декомпресорі 4100 прийнятий пакет кадру може бути демультиплексований. Із цією метою може використовуватися інформація розміру кожного корисного навантаження, щоб уникнути непотрібного аналізу даних індивідуальних корисних навантажень.

На етапі 53020 перший індекс рівня, що вказує найбільш високий рівень (наприклад, найбільш високий застосовний рівень або найбільш високий декодований рівень), визначається з множини рівнів для використання для декодування базового стисненого представлення звуку в базове відтворене представлення звуку або звукового поля. ге

Крім того, на етапі 53020 може бути вибране значення (наприклад, індекс рівня) У найбільш високого рівня (найбільш високого застосовного рівня), що буде використовуватися для відновлення базового представлення звуку. Найбільш високий поліпшуючий рівень, що дуле фактично використовуватися для відновлення базового представлення звуку, заданий як

В Оскільки кожен рівень містить точно одне корисне навантаження поліпшуючої допоміжної інформації (частину поліпшуючої допоміжної інформації), можна визначити на основі корисного навантаження поліпшуючої допоміжної інформації, чи є коректним вміщуючий рівень (наприклад, був коректно прийнятий). Отже, вибір може бути посягнутий з використанням всіх корисних навантажень поліпшуючої допоміжної інформації т, Ех 1.5М (або, відповідно,

ЕР в Т- 1,25М),

На етапі 53030 одержується базове відтворене представлення звуку. Базове відтворене представлення звуку може бути одержане з компонентів, присвоєних найбільш високому застосовному рівню, зазначеному першим індексом рівня, і будь-яким рівням нижче цього найбільш високого застосовного рівня з використанням базової допоміжної інформації (або в цілому з використанням базової допоміжної інфепмації,.

Корисні навантаження компонентів пи» 7 базового стисненого представлення звуку можуть бути забезпечені попяя З ек лий корисними навантаженнями разової допоміжної . її ет . Вик - і; . т інформації (наприклад, 957 або НО бот то М...) значенням Я процесору 4200 відновлення базового представлення. Процесор 4200 відновлення базового представлення (проілюстрований на фіг. 4А і 4В) відтворює базове представлення звуку (або звукового поля) з використанням тільки тих компонентів базового стисненого представнення звуку, які містяться на найбільш низьких У рівнях, які являють собою базовий рівеньі Я 7 поліпшуючих рівнів

Зо (тобто рівні аж до рівня, зазначеного першим індексом рівня). Як альтернатива процесору 4200 відновлення базового представлення можуть бути забезпечені тільки корисні навантаження компонентів базового стисненого представлення звуку, що містяться на найбільш низьких 8 рівнях разом з відповідними корисними навантаженнями базової допоміжної інформації.

Необхідна інформація про те, які компоненти базового стисненого представлення звуку (або звукового поля) містяться на індивідуальних рівнях, передбачається відомою декомпресору 4100 з пакета даних з інформацією конфігурації, яка передбачається відправленою і прийнятою перед пакетами даних кадру.

БУ; тп - 1...Мв - . - -

Щоб, забезпечити пакети даних т залежної допоміжної інформації і пакет даних Е поліпшуючої допоміжної інформації, всі поліпшуючі корисні навантаження можуть введені в частковий аналізатор 4400 (див. фіг. 4В) декомпресора 4100 разом зі значенням. "і значенням 8. Аналізатор може відкинути всі корисні навантаження | лакети даних, які не - ЇМ - будуть використовуватися для фактичного відновлення. Якщо значення Є дорівнює нулю, то може передбачатися, що всі пакети даних поліпшуючої допоміжної інформації є порожніми.

Якщо базовий рівень включає в себе щонайменше одне залежне корисне навантаження базової допоміжної інформації (частину додаткової базової допоміжної інформації), що відповідає відповідному рівню, декодування кожного іривілувльного курисного навантаження . . сш, щі до 1. . залежної базової допоміжної інформації (наприклад, Вт, "7 В (частина додаткової базової допоміжної інформації)) може включати в себе (ї) декодування частини додаткової базової допоміжної інформації за допомогою посилання на компоненти, присвоєні її відповідному рівню і будь-яким рівням нижче відповідного рівня (попереднє декодування), і (ії) корекцію частини додаткової базової допоміжної інформації за допомогою посилання на компоненти, присвоєні найбільш високому застосовному рівню і будь-яким рівням між найбільш високим застосовним рівнем і відповідним рівнем (корекція). При цьому додаткова базова допоміжна інформація, що відповідає відповідному рівню, включає в себе інформацію, яка визначає декодування одного або більше компонентів з компонентів, присвоєних відповідному рівню, залежно від інших компонентів, присвоєних відповідному рівню і будь-яким рівням нижче відповідного рівня.

Потім базове відтворене представлення звуку може бути одержане (наприклад, сформоване) з компонентів, присвоєних найбільш високому застосовному рівню і будь-яким рівням нижче найбільш високого застосовного рівня, з використанням базової допоміжної інформації і скоректованих частин додаткової базової допоміжної інформації, одержаних із частин додаткової базової допоміжної інформації, що відповідає рівням аж до найбільш високого застосовного рівня. й

Зок Вірт Тс 1,..Мр рема, попереднє декодування кожного корисного навантаження . ; може включати в себе використання його залежності від перших Лат компонентів

В5КС,...В5АС, 3-1 шо базового стисненого представлення звуку, які містяться на перших т рівнях, що передбачалося на стадії кодування. .

Послідовна корекція кожного корисного навантаження Вот, те Ком може включа у- в себе прийняття ло мваги. шо базовий компонент звуку нарешті відтворений з перших Хв

В5КС ОВК, 3-1 компонентів В базового стисненого представлення звуку, які містяться на перших Кв "т рівнях, що є більшою кількістю компонентів, ніж передбачалося для попереднього декодування. Отже, корекція може бути досягнута за допомогою відкидання неадекватної інформації, що можливе внаслідок початково прийнятої властивості залежної базової допоміжної інформації, що полягає в тому, що, якщо деякі взаємодоповнюючі компоненти додаються до базового стисненого представлення звуку, залежна базова допоміжна інформація для кожного індивідуального (взаємодоповнюючого) компонента стає підмножиною початкової.

На етапі 53040 може бути визначений другий індекс рівня. Другий індекс рівня може вказувати частину (частини) поліпшуючої допоміжної інформації, яка повинна використовуватися для поліпшення (наприклад, розширення) базового відтвореного представлення звуку. М

На доповнення до першого індексу рівня може бути визначений індекс Є (другий індекс рівня) корисного навантаження поліпшуючої допоміжної інформації застини другої поліпшуючої інформації) для використання для відновлення. Другий індекс У рівня може завжди або

Зо дорівнювати першому індексу Кв рівня, або дорівнювати нулю. Поліпшення може бути досягнуте або завжди відповідно до базового представлення звуку, одержаного з найбільш високого застосовного рівня, або ніколи.

На етапі 53050 відтворене представлення звуку або звукового поля одержується (наприклад, формується) з базового відтвореного представлення звуку з посиланням на другий індекс рівня.

Таким чином, відтворене представлення звуку одержується за допомогою (параметричного) поліпшення або розширення базового відтвореного представлення звуку, наприклад за допомогою використання поліпшуючої допоміжної інформації (частини поліпшуючої допоміжної інформації), зазначеної другим індексом рівня. Як зазначено далі, другий індекс рівня може вказувати на те, щоб взагалі не використовувати яку-небудь поліпшуючу допоміжну інформацію на даній стадії. Тоді відтворене представлення звуку буде відповідати базовому відтвореному представленню звуку.

Із цією метою вілтвопене базове представлення звуку разом з усіма корисними навантаженнями 5, о Бім поліпшуючої допоміжної інформації, корисними навантаженнями базової допоміжної інформації (наприклад, 927 або ВУ, В5 ол, то 1,..ОМ) | значенням Ме забезпечуються процесору 4300 відновлення розширеного представлення (проілюстрованому на фіг. 4А і 48), який обчислює остаточне розширене представтення 2100! звуку (або звукового

М 7 поля) з використанням тільки корисного навантаження Ме поліпшуючої допоміжної інформації, і відкидаючи всі інші корисні навантаження поліпшуючої допоміжної інформації. Як альтернатива процесору 4300 відновлегя поліпшуючого представлення може бути забезпечене тільки корисне навантаження МЕ поліпшуючої допоміжної інформації замість всіх корисних навантажень поліпшуючої допоміжної інформації. Якщо значення Ме дорівнює нулю, всі корисні навантаження поліпшуючої допоміжної інформації відкидаються (або як альтернатива корисне навантаження поліпшуючої допоміжної інформації не забезпечується), і відтворене фінальне розширене представленнест 7 звуку дорівнює відтвореному основному

АХ, Т. представленню звуку. Корисне навантаження МЕ поліпшуючої допоміжної інформації може бути одержане за допомогою часткового аналізатора 4400.

Фіг. З також у цілому ілюструє декодування стисненого представлення НОА на основі базової допоміжної інформації, що пов'язана з базовим рівнем, і на основі поліпшуючої допоміжної інформації, що пов'язана з одним або більше ієрархічними поліпшуючими рівнями.

Якщо етапи не вимагають деяких інших етапів як попередні умови, згадані вище етапи можуть виконуватися в будь-якому порядку, і передбачається, що ілюстративний порядок, показаний на фіг. 3, не має обмежувального характеру.

Далі будуть описані подробиці вибору рівнів для відновлення (вибір першого і другого індексів рівнів) на етапах 53020 і 53040.

Визначення першого індексу рівня може включати в себе визначення для кожного рівня, чи був відповідний рівень прийнятий коректно. Визначення першого індексу рівня може додатково включати в себе визначення першого індексу рівня як індексу того рівня, який знаходиться безпосередньо нижче найбільш низького рівня, що не був коректно прийнятий. Чи був рівень прийнятий коректно, може бути визначено за допомогою оцінки, чи було коректно прийняте корисне навантаження поліпшуючої допоміжної інформації цього рівня. Це, у свою чергу, може бути виконане за допомогою оцінки прапорів коректності в корисних навантаженнях поліпшуючої допоміжної інформації.

Визначення другого індексу рівня в загальному випадку може включати в себе або визначення другого індексу рівня як такого, що дорівнює першому індексу рівня, або визначення значення індексу як другого індексу рівня (наприклад, значення 0 індексу), яке вказує, що не слід використовувати яку-небудь поліпшуючу допоміжну інформацію при одержанні відтвореного представлення звуку.

У вимедку, якщо всі пакети даних кадру можуть бути відновлені незалежно один від одного, і номер Я найбільш високого рівня (найбільш високого застосовного рівня) для фактичного використання для відновлення базового представлення звуку, і індекс Ме корисного навантаження поліпшуючої допоміжної інформації для використання для відновлення можуть

Зо бути встановлені такими, що дорівнюють найбільшому номеру І! коректного корисного навантаження поліпшуючої допоміжної інформації, який сам може бути визначений за допомогою оцінки прапорів коректності в корисних навантаженнях поліпшуючої допоміжної інформації. Використовуючи знання розміру кожного корисного навантаження поліпшуючої допоміжної інформації можна уникнути складного аналізу фактичних даних корисних навантажень для визначення їх коректності.

Таким чином, другий індекс рівня може бути визначений як такий, що дорівнює першому індексу рівня, якщо стиснені представлення звуку для послідовних часових інтервалів можуть бути декодовані незалежно. У цьому випадку відтворене базове представлення звуку може бути розширене на основі корисного навантаження поліпшуючої допоміжної інформації найбільш високого застосовного рівня.

У випадку, якщо використається це диференціальне відновлення з міжкадровими залежностями, на доповнення потрібно розглядати рішення від попереднього кадру. Слід зазначити, що з диференціальним відновленням звичайно незалежні пакети даних кадру передаються з регулярними часовими інтервалами, доб дозволити починати відновлення з тих моментів часу, коли визначення значень 8 і Е стають незалежними від кадрів, і це виконується, як описано вище.

Для докладного роз'яснення запропонованого залежного від кадрів рішення, найбільший номер (наприклад, індекс рівня) коректного корисного навантаження поліпшуючої допоміжної інформації для К-го кадру позначений як ку номер найбільш високого рівня (наприклад, індекс рівня) пи скибору і використання для відновлення базового представлення звуку позначений як в. Я і номер (наприклад, індекс рівня) корисного навантаження поліпшуючої допоміжної інформації для використання для відновлення позначений як Кк)

Використовуючи ці позначення, номер (найбільш високого рівня для використання для віднте брчю кину шк звуку Мі є) може бути обчислений відповідно до після У Яни (7

За допомогою вибору МвОю) не більше, ніж Мвік -1) і Щк) забезпечується, що вся інформація, необхідна для диференціального відновлення базового представлення звуку, є доступною.

Таким чином, якщо стиснені представлення звуку для послідовних часових інтервалів (наприклад, кадрів) не можуть бути декодовані незалежно одне від одного, визначення першого індексу рівня може включати визначення для кожного рівня, чи був відповідний рівень прийнятий коректно, і визначення першого індексу рівня для даного часового інтервалу як меншого індексу з першого індексу рівня часового інтервалу, що передує даному часовому інтервалу, і індексу рівня, що знаходиться безпосередньо нижче найбільш низького рівня, що не був коректно прийнятий.

Номер Мк корисного навантаження поліпшуючої допоміжної інформації для вико... ЇАНСК) ЕАВСК) як М вк - 1)зизначений відповідно до

Мк) | й ; еіхе - (8) п . АРК) . ри цьому вибір 0 для вказує, що відтворене базове представлення звуку не повинно поліпшуватися або розширюватися з використанням поліпшуючої допоміжної інформації. !

Це означає, зокрема, що, за умови, що номер МОЮ найбільш високого рівня для використання для відновлення базового представлення звуку не змінюється, пприрається той же самий відповідний номер поліпшуючого рівня. Однак у випадку зміни ВУ поліпшення забороняється за допомогою установлення МЕ) таким, що дорівнює нулю. Внаслідок передбачуваного ту реренціального відновлення поліпшуючої допоміжної інформації її зміна відповідно до Кві 7 неможлива, оскільки це вимагало б відновлення відповідного рівня поліпшуючої допоміжної інформації в попередньому кадрі, що, як передбачається, не було виконано.

Таким чином, якщо стиснені представлення звуку для послідовних часових інтервалів (наприклад, кадрів) не можуть бути декодовані незалежно одне від одного, визначення другого індексу рівня може включати визначення, чи дорівнює перший індекс рівня для даного часового інтервалу першому індексу рівня для попереднього часового інтервалу. Якщо перший індекс рівня для даного часового інтервалу дорівнює першому індексу рівня для попереднього

Зо часового інтервалу, другий індекс рівня для даного часового інтервалу може бути визначений (наприклад, вибраний) як такий, що дорівнює першому індексу рівня для даного часового інтервалу. З іншого боку, якщо перший індекс рівня для даного часового інтервалу не дорівнює першому індексу рівня для попереднього часового інтервалу, значення індексу може бути визначене (наприклад, вибране) як другий індекс рівня, який вказує, що не слід використовувати яку-небудь поліпшуючу допоміжну інформацію при одержанні відтвореного представлення звуку.

Як альтернатива, якщо па Дітновленні всі корисні навантаження поліпшуючої допоміжної інформації з номером аж до БМК; відновлені паралельно, правило вибору в рівнянні (4) може бути ооміпанеа. й я МЕНЮ - Ма в)

Нарешті, слід зазначити, що для диференціального відновлення номер найбільш високого використовуваного рівня Кв може тільки збільшуватися в незалежних пакетах даних кадру, тоді як зменшення можливе в кожному кадрі.

Мається на увазі, що запропонований спосіб багаторівневого кодування стисненого представлення звуку може бути реалізований кодером для багаторівневого кодування стисненого представлення звуку. Такий кодер може містити відповідні блоки, виконані з можливістю виконувати відповідні описані вище етапи. Приклад такого кодера 5000 схематично проілюстрований на фіг. 5. Наприклад, такий кодер 5000 може містити блок 5010 підрозділяння компонентів, виконаний з можливістю виконувати згаданий вище етап 51010, блок 5020 присвоєння компонентів, виконаний з можливістю виконувати згаданий вище етап 51020, блок 5030 присвоєння базової допоміжної інформації, виконаний з можливістю виконувати згаданий вище етап 51030, блок 5040 розбивки поліпшуючої допоміжної інформації, виконаний з можливістю виконувати згаданий вище етап 51040, і блок 5050 присвоєння поліпшуючої допоміжної інформації, виконаний з можливістю виконувати згаданий вище етап 51050. Далі мається на увазі, що відповідні блоки такого кодера можуть бути реалізовані за допомогою процесора 5100 обчислювального пристрою, який виконаний з можливістю виконувати обробку, виконувану кожним зі згаданих відповідних блоків, тобто він виконаний з можливістю виконувати деякі або всі згадані вище етапи, а також будь-які додаткові етапи запропонованого методу кодування. Кодер або обчислювальний пристрій може додатково містити пам'ять 5200, до якої процесор 5100 може здійснювати доступ.

Далі мається на увазі, що запропонований спосіб декодування стисненого представлення звуку, яке закодоване в множині ієрархічних рівнів, може бути реалізований декодером для декодування стисненого представлення звуку, яке закодоване в множині ієрархічних рівнів.

Такий декодер може містити відповідні блоки, виконані з можливістю виконувати відповідні описані вище етапи. Приклад такого декодера 6000 схематично проілюстрований на фіг. 6.

Наприклад, такий декодер 6000 може містити блок 6010 прийому, виконаний з можливістю виконувати згаданий вище етап 53010, блок 6020 визначення першого індексу рівня, виконаний з можливістю виконувати згаданий вище етап 53020, блок 6030 базового відтворення, виконаний з можливістю виконувати згаданий вище етап 53030, блок 6040 визначення другого індексу рівня, виконаний з можливістю виконувати згаданий вище етап 53040, і блок 6050, виконаний з можливістю виконувати згаданий вище етап 53050. Далі мається на увазі, що відповідні блоки такого кодера можуть бути реалізовані за допомогою процесора 6100 обчислювального пристрою, який виконаний з можливістю виконувати обробку, виконувану кожним зі згаданих відповідних блоків, тобто він виконаний з можливістю виконувати деякі або всі згадані вище етапи, а також будь-які додаткові етапи запропонованого методу кодування.

Кодер або обчислювальний пристрій може додатково містити пам'ять 6200, до якої процесор 6100 може здійснювати доступ.

Слід зазначити, що опис і креслення лише ілюструють принципи запропонованих способів і пристроїв. Таким чином, буде очевидно, що фахівці в галузі техніки зможуть створювати різні структури, які, хоча явно не описані і не показані в даному документі, реалізовують принципи винаходу і включені в межі його суті і обсягу. Крім того, всі приклади, наведені в даному документі, переважно явно призначені лише для навчання, щоб допомоїти читачеві в розумінні принципів запропонованих способів і пристроїв, і концепцій, внесених винахідниками в розвиток галузі техніки, і повинні бути витлумачені як такі, що не є обмеженнями для таких спеціальним чином наведених прикладів і умов. Крім того, передбачається, що всі твердження в даному документі, що викладають принципи, аспекти і варіанти здійснення винаходу, а також їх конкретні приклади, охоплюють його еквіваленти.

Способи і пристрій, описані в даному документі, можуть бути реалізовані як програмне забезпечення, програмно-апаратне забезпечення і/або апаратні засоби. Деякі компоненти, наприклад, можуть бути реалізовані як програмне забезпечення, що працює на процесорі цифрової обробки сигналів або мікропроцесорі. Інші компоненти, наприклад, можуть бути реалізовані як апаратні засоби і/або як спеціалізовані інтегральні схеми. Сигнали, що зустрічаються в описаних способах і пристрої, можуть бути збережені на носіях, таких як оперативний запам'ятовуючий пристрій або оптичні запам'ятовуючі носії. Вони можуть бути перенесені через мережі, такі як радіомережі, супутникові мережі, безпровідні мережі або провідні мережі, наприклад Інтернет.

Джерела інформації: 1. ІОЛЕС 20Т7С1/52029/Л/Л/511 23008-3:2015(Е). Іптоппайоп їесппоіоду-Нідп ейісіепсу содіпд апа теаіа адеїїмегу іп петегодепеои5 епмігоптепів-Рагі 3: 30 ацаіо, Ребгиагу 2015. 2. ІЗОЛЕС 0ОТС1/5029//1/0511 23008-3:2015/РОАМ3. Іптогтацоп (есппоіоду-Нідп ейісіепсу содіпд апа теадіа адеїїмегу іп петегодепеои5 епмігоптепів-Рагі 3: ЗО ацдіо, АМЕМОМЕМТ 3: МРЕБ-

Н 30 Айцаіо Ріазе 2, шу 2015.

Claims

ФОРМУЛА ВИНАХОДУ

1. Спосіб декодування стисненого представлення звуку або звукового поля системи Амбісонік вищого порядку (НОА), що кодується в множині ієрархічних рівнів, використовуючи рівневе кодування, причому спосіб включає етапи, на яких: приймають (Ззото) бітовий потік, що містить стиснене представлення НОА, що відповідає множині ієрархічних рівнів, які включають в себе базовий рівень (2200) і щонайменше два ієрархічні поліпшуючі рівні (2300), причому множина рівнів мають присвоєні їм компоненти базового стисненого представлення звуку або звукового поля, причому компоненти відповідають множині монауральних сигналів і присвоюються відповідним рівням у відповідних групах компонентів, і декодують стиснене представлення НОА на основі базової допоміжної інформації (2120), яка пов'язана з базовим рівнем (2200), і на основі поліпшуючої допоміжної інформації (2140), яка пов'язана зі щонайменше двома ієрархічними поліпшуючими рівнями (2300), при цьому базова допоміжна інформація (2120) включає в себе базову незалежну допоміжну інформацію (2120), що стосується перших індивідуальних монауральних сигналів множини монауральних сигналів, які будуть декодовані незалежно від інших монауральних сигналів множини монауральних сигналів.

2. Спосіб за п. 1, в якому базова незалежна допоміжна інформація (2120) вказує, що перші індивідуальні монауральні сигнали представляють направлений сигнал з напрямком падіння.

3. Спосіб за будь-яким із пп. 1-2, в якому базова допоміжна інформація (2120) додатково включає в себе базову залежну допоміжну інформацію (2130), що стосується других індивідуальних монауральних сигналів множини монауральних сигналів, які будуть декодовані залежно від інших монауральних сигналів множини монауральних сигналів.

4. Спосіб за п. 3, в якому базова залежна допоміжна інформація (2130) включає в себе основані на векторах сигнали, які розподілені у напрямках в звуковому полі, причому розподіл у напрямках визначений за допомогою вектора.

5. Спосіб за п. 4, в якому компоненти вектора встановлені такими, що дорівнюють нулю і не є частиною стисненого векторного представлення.

6. Спосіб за будь-яким із пп. 1-5, в якому монауральні сигнали представляють або переважні звукові сигнали, або послідовності коефіцієнтів представлення НОА.

7. Спосіб за будь-яким із пп. 1-6, в якому бітовий потік включає в себе корисні навантаження даних, відповідно пов'язані з множиною ієрархічних рівнів.

8. Спосіб за будь-яким із пп. 1-7, в якому поліпшуюча допоміжна інформація (2140) включає в себе параметри, що стосуються щонайменше одного з перерахованого: просторове прогнозування, синтез направлених підсмугових сигналів і параметричне дублювання звукового оточення.

9. Спосіб за будь-яким із пп. 1-8, в якому поліпшуюча допоміжна інформація (2140) включає в себе інформацію, яка забезпечує можливість прогнозування частин звуку, яких не вистачає, або звукового поля з направлених сигналів.

10. Спосіб за будь-яким із пп. 1-9, який додатково містить етапи, на яких: визначають для кожного рівня, чи був відповідний рівень прийнятий коректно; і визначають індекс рівня, що знаходиться безпосередньо нижче найбільш низького рівня, який не був прийнятий коректно.

11. Пристрій (6000) для декодування стисненого представлення звуку або звукового поля системи Амбісонік вищого порядку (НОА), який кодується в множині ієрархічних рівнів, використовуючи рівневе кодування, причому пристрій (6000) містить: приймач (6010) для прийому бітового потоку, що містить стиснене представлення НОА, що відповідає множині ієрархічних рівнів, які включають в себе базовий рівень (2200) і щонайменше два ієрархічні поліпшуючі рівні (2300), причому множина рівнів мають присвоєні їм компоненти базового стисненого представлення звуку або звукового поля, причому компоненти відповідають множині монауральних сигналів і присвоюються відповідним рівням у відповідних групах компонентів, декодер для декодування стисненого представлення НОА на основі базової допоміжної інформації (2120), яка пов'язана з базовим рівнем (2200), і на основі поліпшуючої допоміжної інформації (2140), яка пов'язана зі щонайменше двома ієрархічними поліпшуючими рівнями (2300), при цьому базова допоміжна інформація (2120) включає в себе базову незалежну допоміжну інформацію (2120), що стосується перших індивідуальних монауральних сигналів множини монауральних сигналів, які будуть декодовані незалежно від інших монауральних сигналів множини монауральних сигналів.

12. Пристрій (6000) за п. 11, в якому базова незалежна допоміжна інформація (2120) включає в себе визначення щонайменше монаурального сигналу для представлення направленого сигналу з напрямком падіння.

13. Пристрій (6000) за будь-яким із пп. 11-12, в якому базова допоміжна інформація (2120) додатково включає в себе базову залежну допоміжну інформацію (2130), що стосується других індивідуальних монауральних сигналів множини монауральних сигналів, які будуть декодовані залежно від інших монауральних сигналів множини монауральних сигналів.

14. Пристрій (6000) за п. 13, в якому базова залежна допоміжна інформація (2130) включає в себе основані на векторах сигнали, які розподілені у напрямках в звуковому полі, причому бо розподіл у напрямках визначений за допомогою вектора.

15. Пристрій (6000) за п. 14, в якому компоненти вектора встановлені такими, що дорівнюють нулю і не є частиною стисненого векторного представлення. «еу : ; вімо я Виконати підрозділянная множини п компонентів ЗІЙ2О Б Присвони групи компонентів відповідним рівням ВО « м Присвати базову допоміжну Інфермацію базовому рівню зіва у Кч Визначити множину частин т полілшуючаї допоміжної інформації ящоБо пе Присавоіти множину частин п- поліпиРеюЧчаЯ Допоміжне інформації відповідним рівням

Фіг. 1

: Пакет транспортних півнів : ис вве і І : ; : Н ші кон МАК ї : овен 1: Н де ЗК ше ох УМННИ рот ЖЕЮ Ї : мама х дк х лин ш Я Пакет : Й ШЕ ншеооиб В базового рівня ї : ная з кН шої ЕЕ р ННЯ ЗЕ я, І : Пон в, ше важ : ЗЕ пн ДАІ; Макетповногю 000000 77 ЖАЛО, 1 ЗМ стисненого р яИе ! представлення вує 1000 дня зі40я Забосзвуковото поляє 1 У ве. Ша є - 2300 ; шт ОВ уудлшта жеюкій ШЬ ЛЯакет Н т НА дляеоднего надр Її Кк в. я понад: З пом МОІПОоВлшуючЧОгО: у ї я МНК що Що й Н і ї : : їв ово ПИ шівна ЩІ Нед й ЕВ Ї ИН ех затії замі я ! оо кежнннрн МЗЛОК, н ЗАНИИ а3дО ШЕ : ш -- ЩАОМ ЗЕ Ей : КО Сей СИН Н 0 ВИ дЯЯ 00000. ААКММ кю те: ШИЯ заоч н1 : ВНС є і пелнецнного ї : Пнння о: Н 1 ТЕ : ої ВСЯ ше : ї Н птнннниннннььнснЯоої Е :Ї - кю ШЕ й Женя ШІ рення 315241

Фіг. 2 о ші Прийняти корисні навантаження даних, о що відповідають множині рівнів -ЗМ23 сві : ; цк Визначити перший ндексненя, ще - вказує найбільш високий рівень для чивористання для декодування ЗЗОЗО к Й М Одержати дпазове шднОовАене чих предствалення звуку вголух щ : ЗО Визначити другий віденс півня, що вказує, чи яку частину другої допоміжної інформаці використовувати дав поліпшення базового відтвореного предстанлення звуку здзаща с. пдержати відтворене представлення звухж о на основі базового відтворенаго се х 7; представлення звуку з посиланням на другий індеке півня

Фіг. З - ЕМ ня КИ а и : Декамроесой і З І 7 : : Й 1 нене, ще і : доб сн ВКМ я ЗОМ -- вк. : ЗОН и : І : не Я : зе а оВідновалєник: Н рівне: : й ех Ї РИ : З Кк Я ХЕ ХУ М жену ня ТАЖОВОИ З ооо звававвавввнноні : : І й й Й : :

Є с. й Я : 1 ; у ПДЕДСТАЖЛЕНн: З ї прийентме лама о : ою НЕ вк З ср хо В : о порча о ИН ук 1 ва повного ктмоненого Її : Ту - диня я І Ї ї ва є : те нредстаєлення ніки: пи НН Годин ВОДО Пакет їпйо авуковото пояш в КЕ дей Н ддаплнаака ОВ. : ! : поліннуючото 0 бля ана КА ї Еш Ха . : і АННИ ж : ех дежетех й У Манн их ГУ Я йо виг; с Н «ННЯ 5 питне пн ЕК Випір Відновлене задоде З віза амнккмнникиньки Я званні. ще. Є : У і х Ж Я р яна жк представлення звучу! зва оя - ши тр - ЗО дО Й о Я воза питдниттутння Тк Га ни : ке Я ЗК і нки З ях ї Кк Ка не В і : Кидати в пінцпдвонвя ОБ НЕ Пакет . БЕЛЛ етан ЕНН овмдеюне й : у уж ж ую в ко ААЖЖХ МАЛА А М ХР ЖЖ плідних ЩО й : поліпшуючого : ! ГЕ: са поліпшено Те лредстявлянна рівня Ві : ке БО п ж обжаєломх -йї«- предетаввен ЗЗУКУ З Й дент ней : щу ї ня теепевеквнев но енаннноннх Ї я щи й ЕЕ грріовв я Я НД ве неон Кк Ж МЮ ск гли Не Я - : и КК з ВО у КАЛОМ

Фіг. 4А ії 0 дакамерегов і : ! в ОН ; щі ВЕ ? е з ; ' 1 ї Її ї Х ляже Е 1 ї » ї х Е Я ! КУТЯ : І й ' Пахетбазавата і вини пу Відновлення: і дит ЕН ї такт ї чи е Ех ! рівня | РОВНО суслхвекхктеюї ЗазоВогО | ! ЕМ : й ї Н ї к - і | і Н ке представлен А Пряйнятии пакет ЗЕ: «Я ою дя Н і М Кк ї : х Н ї ні ї '. повного стиененома ї рої окт : і В У дитя КЕ 3 ї и Я : представлення | | її ів «В тт | Е звис ід; 1 онов осв нн нн І ' Пакет звуку їабо; : аа вибір! ЩІ КІ Ж Відновяене базове : звукового поля) дяа ії | Но 1 ! й : палілизуючого ВЕ вукввого поля) дяВї | 200 вівнівої жк З їх предстанавення звуку : пиві у однаго каву Ва ВЖК з М? Е . Н З ж Ся 1 КЕ с МІ різця т : т | 5 | : --х І : т нн кН зп Н ш-ой З КІ 7; мот Кк опонент З і бою бен итоюют і і ВЕ ЇЇ д Ї Її ї Ж р хо сх хутрі Н Н В ОР: Не --й - | Б. ві - ВО і хв і, : 7 щі ко ЩЕ ї м а : РВідновлення) Зідновлене З кока м х. но х -. сумі нег ї дкшт ШЕ ЕК. з сій Частко В ЇХ блолюнвеного! пелщшене Пакет Е : 7 чі у Тх Мне, фа повлдетавленНнЯЇ . . їх з ВИЩ. Ж ів приставлсц Ссдютавлення полійшуючого ПЕ ЯН і в кредетввден засну Н і вевд-її ! шо 000 ІЯНаЛя: зд звуму щдівня ЩІМ-М КК, ВК ж ой м НИ ня ; ! І аор І іх ї ї х дом тих и сив ї їх Її й р; ень ду а х й - ад

Фіг. 48