UA122560C2

UA122560C2 - Аудіокодер і аудіодекодер з метаданими гучності та границі програми

Info

Publication number: UA122560C2
Application number: UAA201606019A
Authority: UA
Inventors: Майкл ГРАНТ; Скотт Грегорі Норкросс; Скотт Грегори НОРКРОСС; Джеффрі Рідміллер; Джэффри Ридмиллер; Майкл ВАРД
Original assignee: Долбі Лабораторіс Лайсензін Корпорейшн
Priority date: 2013-01-21
Filing date: 2014-01-15
Publication date: 2020-12-10
Also published as: HK1245490A1; TW202422536A; CA2888350A1; CA2888350C; RU2020100805A; EP2901449B1; JP2016197250A; BR122020020608B1; US9911426B2; ES2843744T3; MX343571B; IL256016A; TWI666628B; IL293618A; RU2016119393A; HK1248913A1; CN104737228A; WO2014113465A1; IL259412B; IL280583B

Abstract

Пристрій і способи формування кодованого бітового аудіопотоку включає в тому числі метадані гучності програми та аудіодані в бітовому потоці, а в деяких випадках також метадані границі програми щонайменше в одному сегменті (наприклад, фреймі) бітового потоку. Іншими аспектами є пристрій і способи для декодування такого бітового потоку, наприклад, у тому числі шляхом виконання адаптивної обробки гучності аудіоданих аудіопрограми, що вказана бітовим потоком, або шляхом перевірки дійсності та/або перевірки правильності метаданих і/або аудіоданих такої аудіопрограми. Іншим аспектом є блок обробки звукового сигналу (наприклад, кодер, декодер або постпроцесор), виконаний (наприклад, запрограмований) з можливістю виконання будь-якого варіанта здійснення способу або що включає буферний запам'ятовувальний пристрій, що зберігає щонайменше один фрейм бітового аудіопотоку, сформованого відповідно до будь-якого з варіантів здійснення способу.

Description

Дана заявка заявляє пріоритет попередньої заявки на патент США Мо 61/754882, поданої 21 січня 2013 року, та попередньої заявки на патент США Мо 61/824010, поданої 16 травня 2013 року, кожна з яких включена в даний опис за допомогою посилання у всій повноті.

Винахід належить до обробки звукових сигналів, а більш конкретно, до кодування та декодування бітових потоків аудіоданих з метаданими, що є індикатором стану обробки гучності аудіоконтенту та розташування границь аудіопрограм, що вказані бітовим потоком. Деякі варіанти здійснення даного винаходу формують або декодують аудіодані в один з форматів, відомих як АС-3, Еппапсеєд АС-3 або Е-АС-3, або РоїБру Е.

Боібу, Боїбу Оідна!, бобу Рідна! Ріи5 і ЮоїБбу Е є товарними знаками Роїбу І арогайгі5

Іісепвіпу Согрогаїоп. ЮоІру ІГарогаюгеб5 забезпечує запатентовані втілення АС-3 і Е-АС-3, відомі як обу Ріда! і обу Ріда! Рів, відповідно.

Блоки обробки аудіоданих зазвичай працюють "наосліп" і не звертають увагу на характер протікання процесів з аудіоданими, які відбувалися до одержання даних. Це може працювати за умов обробки аудіоданих, коли один об'єкт повністю виконує обробку й кодування аудіоданих для різних цільових відтворюючих медіа-пристроїв, при тому, що цільовий відтворюючий медіа- пристрій повністю виконує декодування й відтворення кодованих аудіоданих. Проте, така "сліпа" обробка є неефективною (або взагалі непрацездатною) у ситуаціях, коли множина блоків обробки звукового сигналу рознесена по неоднорідній мережі або встановлена послідовно (тобто, у вигляді ланцюга) і, як очікується, повинна оптимально виконувати відповідні типи обробки звукових сигналів. Наприклад, деякі аудіодані можуть бути закодовані для медіасистем високої продуктивності й, можливо, їх доведеться перетворити в спрощену форму, що підходить для мобільного пристрою, що перебуває в тракті обробки медіаінформації.

Відповідно, блоку обробки звукового сигналу немає необхідності здійснювати виконаний раніше вид обробки аудіоданих. Наприклад, блок авторегулювання гучності може виконувати обробку вхідного аудіокліпу, незалежно від того, чи було таке ж або аналогічне авторегулювання гучності для цього вхідного аудіокліпу виконане раніше. У результаті блок авторегулювання гучності може виконувати авторегулювання, навіть коли це не потрібно. Така зайва обробка також може бути причиною погіршення та/або видалення характерних особливостей при відтворенні контенту аудіоданих.

Типовий потік аудіоданих містить як аудіоконтент (наприклад, один або більше каналів аудіоконтенту), так і метадані, що вказують щонайменше одну характеристику аудіоконтенту.

Наприклад, у бітовому потоці АС-3 є кілька параметрів метаданих звукового сигналу, які спеціально призначені для використання при зміні звуку програми, переданої в середовище прослуховування. Одним з параметрів метаданих є параметр ОІАЇМОВМ, що призначений для вказівки середнього рівня діалогу, що зустрічається в аудіопрограмі, і використовується для визначення рівня відтворення звукового сигналу.

Під час відтворення бітового потоку, що містить послідовність різних сегментів аудіопрограми (кожний з яких має різний параметр ОІАІМОВМ), АС-3 декодер використовує параметр ВІАГМОВМ кожного сегмента, щоб виконати тип обробки гучності, при якому він змінює рівень відтворення або гучність так, що сприймана гучність діалогу послідовності сегментів підтримується на постійному рівні. Кожний кодований аудіосегмент (елемент) у послідовності кодованих аудіоелементів буде (у загальному) мати різні параметри ОІАІ МОВМ, і декодер буде масштабувати рівень кожного з елементів таким чином, щоб рівень відтворення або гучність діалогу кожного елемента була однаковою або дуже схожою, навіть якщо буде потрібно застосування коефіцієнтів підсилення різної величини для різних елементів під час відтворення. рІАГМОВМ зазвичай задається користувачем, і не формується автоматично, хоча існує значення СІАЇ МОВМ за замовчуванням, якщо значення не задане користувачем. Наприклад, творець контенту може виконувати виміри гучності із зовнішнього пристрою відносно АС-3 кодера, а потім передати результат (що показує гучність розмовного діалогу аудіопрограми) кодеру, щоб установити значення ІА МОВМ. Таким чином, правильність установки параметра

РІАЇМОВМ залежить від творця контенту.

Існує кілька різних причин, через які параметр ОІАЇ МОВМ у бітовому потоці АС-3 може бути невірним. По-перше, кожний АС-3 кодер має значення БІАЇМОВНМ за замовчуванням, що використовується при формуванні бітового потоку, якщо значення БІАЇМОВМ не задане творцем контенту. Це значення за замовчуванням може істотно відрізнятися від фактичної гучності діалогу аудіоконтенту. По-друге, навіть якщо творець контенту вимірює гучність і задає значення ОІАЇ МОВМ відповідним чином, алгоритм виміру гучності або вимірювальний прилад можуть не відповідати рекомендованому методу виміру гучності для АС-3, у результаті буде 60 отримане невірне значення ВІАЇ МОВМ. По-третє, навіть якщо бітовий потік АС-3 був створений із правильно виміряним і заданим творцем контенту значенням ІА МОМ, він може бути змінений на невірне значення при передачі та/або зберіганні бітового потоку. Наприклад, у додатках телевізійного мовлення для бітових потоків АС-3, що підлягають декодуванню, модифікації а потім перекодуванню, нерідким є використання інформації метаданих з неправильним ОІАЇМОВМ. Таким чином, значення ОІАЇ МОВМ, включене в бітовий потік АС-3, може бути неправильним або неточним й, отже, може негативно впливати на якість звучання.

Крім цього, параметр ОСІАІЇ МОВМ не показує стан обробки гучності відповідних аудіоданих (наприклад, які тип(и) обробки гучності були виконані з аудіоданими). До даного винаходу, звуковий бітовий потік ніколи не включав метадані, що вказують стан обробки гучності (наприклад, застосовуваний(і) тип(и) обробки гучності) аудіоконтенту бітового аудіопотоку або стан обробки гучності й гучність аудіоконтенту бітового потоку у форматі типу, що описаний у даному винаході. Метадані стану обробки гучності в такому форматі є корисними для забезпечення, зокрема, ефективної адаптивної обробки гучності бітового аудіопотоку та/або перевірки вірогідності стану обробки гучності та гучності аудіоконтенту.

Хоча даний винахід не обмежується використанням бітового потоку АС-3, бітового потоку Е-

АС-3 або бітового потоку РоіІрБу Е, для зручності він буде описаний у варіантах здійснення, у яких він генерує, декодує або іншим способом обробляє такі бітові потоки, які включають метадані стану обробки гучності.

Кодований бітовий потік АС-3 містить метадані та від одного до шести каналів аудіоконтенту. Аудіоконтент - це аудіодані, які були стиснуті з використанням перцепційного аудіокодування. Метадані містять кілька параметрів метаданих аудіоконтенту, які призначені для використання при зміні звучання програм, що передаються у середовище прослуховування.

Докладний опис АС-3 кодування (також відомого як ЮоЇру Оідна)) добре відомий та викладений в багатьох опублікованих джерелах, у тому числі в наступних:

АТС 5іапдаті АБ2/А: Рідцйа! Айца Сотргевззіоп біапдагі (АС-3), Вемізіоп А, Адмапсей

Теїємівіоп Зузіет5 Соттійеє, 20 А!цд. 2001; і патенти США Мо 5583962; 5632005; 5633981; 5727119; ії 6021386, кожний з яких включений у даний опис за допомогою посилання у всій своїй повноті.

Докладний опис кодування Роїбу Оідйа! Ріиб (Е-АС-3) викладений в "Іпігодисіп їо РоІру

Бідна! Рів, ап Епнапсетепі юю Ше Ооїбу Оідйа! Содіпд Зузіет", АЕБ Сопмепіоп Рарег 6196, 1171н АЕ5 Сопмепійоп, Осіобег 28, 2004.

Докладний опис кодування Бору Е викладений в "ЕНісієпі Вії АПосаїйоп, Оцапіігайоп, апа

Содіпа іп ап Ацайо рРізтіршіоп бЗузівт", АЕ5 Ргергіпі 5068, 1071 АЕ5 Сопіегепсе, Ацдиві 1999 апа "Ргоїезвіопа! Ацайо Содег Оріїтігейд їог Ове м/ййп Мідео", АЕ5 Ргергіпі 5033, 107 АЕ5 Сопіегепсе Айдиві 1999.

Кожний фрейм кодованого бітового аудіопотоку АС-3 містить аудіоконтент і метадані для 1536 семплів цифрового звукозапису. Що представляє 32 мілісекунди цифрового звукозапису або швидкість звукозапису 31,25 фреймів у секунду для частоти дискретизації 48 кГц.

Кожний фрейм кодованого бітового аудіопотоку Е-АС-3 містить аудіоконтент і метадані для 256, 512, 768 або 1536 семплів цифрового звукозапису залежно від того, чи містить фрейм один, два, три або шість блоків аудіоданих відповідно. Для частоти дискретизації 48 кГц це представляє 5,333, 10,667, 16 або 32 мілісекунди цифрового аудіозапису відповідно або швидкість аудіозапису 189,9, 93,75, 62,5 або 31,25 фреймів у секунду відповідно.

Як показано на фіг. 4, кожний фрейм АС-3 ділиться на розділи (сегменти): розділ синхронізуючої інформації (51), що містить (як показано на фіг. 5) синхрослово (ЗМУ) і перше із двох слів корекції помилок (СВС1); інформаційний розділ бітового потоку (В5І), що містить більшу частину метаданих; шість аудіоблоків (АВО-АВ5), які містять дані стиснутого аудіоконтенту (а також можуть включати метадані); сегменти зайвих бітів (МУ), які містять всі невикористовувані біти, що залишилися після стиснення аудіоконтенту; допоміжний інформаційний розділ (АХ), який може містити додаткові метадані й друге із двох слів корекції помилок (СВО).

Сегмент зайвих бітів (М/) також може згадуватися як "поле ігнорованих даних".

Як показано на фіг. 7, кожний фрейм Е-АС-3 ділиться на розділи (сегменти): розділ синхронізуючої інформації (5І), що містить (як показано на фіг. 5) синхрослово (ЗМУ); інформаційний розділ бітового потоку (В5І), що містить більшу частину метаданих; від одного до шести аудіоблоків (АВО - АВ5), які містять дані стиснутого аудіоконтенту (а також можуть містити метадані); сегмент зайвих бітів (МУ), що містить всі невикористовувані біти, що залишилися після стиснення аудіоконтенту (хоча показано тільки один сегмент зайвих бітів, як правило, за кожним аудіоблоком йдуть слідом інші сегменти зайвих бітів); допоміжний інформаційний розділ (АОХ), що може містити додаткові метадані та слово корекції помилок (СВО). Сегмент зайвих бітів (МУ) також може згадуватися як "поле ігнорованих даних".

У бітовому потоці АС-3 (або Е-АС-3) є кілька параметрів метаданих звукозапису, які спеціально призначені для використання при зміні звучання програми, що передається в середовище прослуховування. Одним з параметрів метаданих є параметр ПІАГМОВМ, що входить у сегмент В5І.

Як показано на фіг. б, сегмент Вб! фрейму АС-3 містить п'ятибітовий параметр ("БІАГМОВМ"), що вказус значення ОІАЇМОВМ для програми. П'ятибітовий параметр ("БІАГМОВМ2"), що вказує передане в тому ж фреймі АС-3 значення СІАЇ МОВМ для другої аудіопрограми, міститься в бітовому потоці, якщо режим аудіокодування ("астоа") фрейму АС-3 дорівнює "0", вказуючи використання конфігурації каналу "дуальне моно" або "1-1",

Сегмент В5І також містить прапор ("адабзіє), що вказує наявність (або відсутність) додаткової інформації бітового потоку після біта "адарвіє", параметр ("адарзії"), що вказує довжину будь-якої додаткової інформації бітового потоку, що йде слідом за значенням "адарвії", а також до 64 біт додаткової інформації потоку ("адарві"), що йде слідом за значенням "адабвії".

Сегмент В5І містить інші значення метаданих, зокрема, не показаних на фіг. 6.

В одному класі варіантів здійснення даний винахід являє собою блок обробки звукового сигналу, що включає буферний запам'ятовувальний пристрій, аудіодекодер і синтаксичний аналізатор. Буферний запам'ятовувальний пристрій зберігає щонайменше один фрейм кодованого бітового аудіопотоку. Кодований бітовий аудіопотік включає аудіодані та контейнер метаданих. Контейнер метаданих містить заголовок, одне або кілька інформаційних наповнень метаданих і захисні дані. Заголовок включає синхрослово, що ідентифікує початок контейнера.

Одне або кілька інформаційних наповнень метаданих описують аудіопрограму, пов'язану з аудіоданими. Захисні дані розташовуються після одного або декількох інформаційних наповнень метаданих. Захисні дані також можуть бути використані для перевірки цілісності контейнера метаданих і одного або декількох інформаційних наповнень у контейнері метаданих. Аудіодекодер підключений до буферного запам'ятовувального пристрою та здатний декодувати аудіодані. Синтаксичний аналізатор підключений до або інтегрований в аудіодекодер і здатний виконувати синтаксичний аналіз контейнера метаданих.

У типових варіантах здійснення винаходу спосіб включає прийом кодованого бітового аудіопотоку, причому кодований бітовий аудіопотік сегментований на один або кілька фреймів.

Аудіодані, поряд з контейнером метаданих, добувають із кодованого бітового аудіопотоку.

Контейнер метаданих містить заголовок з наступним одним або декількома інформаційними наповненнями метаданих, за якими ідуть захисні дані. І, нарешті, цілісність контейнера й одного або декількох інформаційних наповнень метаданих перевіряється за допомогою використання захисних даних. Одне або кілька інформаційних наповнень метаданих можуть включати інформаційне наповнення гучності програми, що містить дані, що вказують виміряну гучність аудіопрограми, пов'язаної з аудіоданими.

Інформаційне наповнення метаданих гучності програми називають метаданими стану обробки гучності (І РОМ"), вбудованими в бітовий аудіопотік, для яких, відповідно до типових варіантів здійснення винаходу, можу бути встановлена автентичність і підтверджена вірогідність, наприклад, для того, щоб об'єкти, що регулюють гучність, могли переконатися в тому, що гучність конкретної програми перебуває в межах встановленого діапазону, і що відповідні аудіодані не змінилися (забезпечуючи тим самим дотримання діючих регулюючих вимог). Для підтвердження цього замість повторного обчислення гучності може бути зчитане значення гучності, що міститься в блоці даних, який містить метадані стану обробки гучності.

Завдяки І РОМ, регулювальний орган без необхідності обчислення гучності аудіоконтенту може визначити, що відповідний аудіоконтент перебуває у відповідності (як вказано І РОЗМ) із законодавчо встановленим рівнем гучності тал"або з нормативними вимогами (наприклад, постановами, прийнятими відповідно до Закону про зменшення гучності комерційної реклами, також відомим як Закон "САЇ М").

Вимірювання гучності, які необхідні для дотримання законодавчо встановленого рівня гучності та/або деяких нормативних вимог (наприклад, постанов, прийнятих відповідно до

Закону про зменшення гучності комерційної реклами), грунтуються на інтегральній гучності програми. Інтегральна гучність програми вимагає, щоб вимірювання гучності або рівня гучності діалогу, або рівня гучності змішаного звукозапису проводилися протягом всієї аудіопрограми.

Таким чином, дуже важливо знати, які аудіодані (і метадані) визначають всю аудіопрограму, щоб виконати вимірювання гучності програми (наприклад, на різних етапах у відальному ланцюзі) для перевірки відповідності дійсним вимогам законодавства, а це, як правило, вимагає знання місця розташування початку й кінця програми (наприклад, під час обробки бітового потоку, що вказує послідовність аудіопрограм).

Відповідно до типових варіантів здійснення даного винаходу кодований бітовий аудіопотік вказує щонайменше одну аудіопрограму (наприклад, послідовність аудіопрограм), а метадані границі програми та ГРОМ, включені в бітовий потік, дозволяють скинути виміри гучності програми наприкінці програми й, тим самим, забезпечити автоматизований спосіб вимірювання інтегральної гучності програми. Типові варіанти здійснення даного винаходу включають ефективні метадані границі програми в кодованому бітовому аудіопотоці, що дозволяють виконати точне й надійне визначення щонайменше однієї границі між послідовними аудіопрограмами, вказаними бітовим потоком. Типові варіанти здійснення забезпечують точне й надійне визначення границі програми в тому розумінні, що вони дозволяють точно визначити границю програми, навіть у тих випадках, коли бітові потоки, що вказують різні програми, змонтовані один з одним (для формування бітового потоку відповідно до винаходу) таким чином, що обрізаний один або обидва змонтовані бітові потоки (і, таким чином, добуті метадані границі програми, які входили щонайменше в один з бітових потоків до монтажу).

У типових варіантах здійснення, метадані границі програми у фреймі бітового потоку; відповідно до винаходу, являють собою прапор границі програми, що вказує число фреймів. Як правило, прапор вказує кількість фреймів між поточним фреймом (фреймом, що містить прапор) і границею програми (початком або кінцем поточної аудіопрограми). У деяких переважних варіантах здійснення винаходу прапори програми розставляють симетрично, ефективним способом на початку й наприкінці кожного сегмента бітового потоку, що вказує одну програму (тобто у фреймах, що зустрічаються протягом деякого заданого числа фреймів після початку сегмента, і у фреймах, що зустрічаються протягом деякого заданого числа фреймів до кінця сегмента), таким чином, коли два таких сегменти бітового потоку з'єднуються (тобто буде присутня ознака послідовності двох програм), метадані границі програми можуть бути присутні (наприклад, симетрично) на обох сторонах границі між двома програмами.

Щоб обмежити збільшення швидкості передачі даних, що є результатом включення метаданих границі програми в кодований бітовий аудіопотік (який може містити ознаки однієї аудіопрограми або послідовності аудіопрограм), у типових варіантах здійснення винаходу

Зо прапори границь програми вставляють тільки в підмножині фреймів бітового потоку. Як правило, коефіцієнт розміщення прапора границі є не зростаючою функцією залежно від збільшення інтервалу між кожним із фреймів бітового потоку (в якому прапор установлений) і границею програми, що ближче до зазначеного фрейму, де "коефіцієнт розміщення прапора границі" є середнім значенням відношення кількості фреймів (що вказують програму), які містять прапори границь програми до числа фреймів (що вказують програму), які не містять прапор границі програми, де середнє значення є ковзним середнім кількості (наприклад, відносно невеликого числа) послідовних фреймів кодованого бітового аудіопотоку. У класі варіантів здійснення винаходу коефіцієнт розміщення прапора границі логарифмічно зменшується в міру збільшення інтервалу (від кожного місця вставки прапора) до найближчої границі програми, а для кожного фрейму, що містить прапор, що містить у собі один із прапорів, розмір прапора в зазначеному фреймі, що містить прапор, дорівнює або більше, ніж розмір кожного прапора у фреймі, розташованому ближче до найближчої границі програми, ніж зазначений фрейм, що містить прапор (тобто, розмір прапора границі програми в кожному фреймі, що містить прапор, є неспадною функцією від збільшення інтервалу від зазначеного фрейму, що містить прапор, до найближчої границі програми).

Інший аспект даного винаходу являє собою блок обробки звукового сигналу (АРІ), сконфігурований з можливістю виконання будь-якого варіанта здійснення способу відповідно до винаходу. В іншому класі варіантів здійснення винахід являє собою АРІ, що включає буферний запам'ятовувальний пристрій (буфер), що зберігає (наприклад, незмінним способом) щонайменше один фрейм кодованого бітового аудіопотоку, сформований будь-яким варіантом здійснення способу відповідно до винаходу. Приклади АРО включають, але не обмежуються ними: кодери (наприклад, транскодери), декодери, кодеки, системи попередньої обробки (препроцесори), системи пост-обробки (постпроцесори), системи обробки бітового аудіопотоку та комбінації таких елементів.

В іншому класі варіантів здійснення винахід являє собою блок обробки звукового сигналу (АРІ), виконаний з можливістю генерації кодованого бітового аудіопотоку, що включає сегменти аудіоданих і сегменти метаданих, де сегменти аудіоданих є індикаторами аудіоданих, а кожний з щонайменше деяких сегментів метаданих включає метадані стану обробки гучності (ГРОМ) і, можливо, також метадані границі програми. Як правило, щонайменше один такий сегмент бо метаданих у фреймі бітового потоку включає щонайменше один сегмент І РОМ, з ознакою, чи був виконаний перший тип обробки гучності з аудіоданими фрейму (тобто, аудіоданими щонайменше в одному сегменті аудіоданих фрейму), і щонайменше один інший сегмент І РОМ, що вказує гучність щонайменше деяких аудіоданих фрейму (наприклад, гучність діалогу щонайменше деяких з аудіоданих у фреймі, що має ознаки діалогу). В одному з варіантів здійснення винаходу в цьому класі, АРО являє собою кодер, виконаний з можливістю кодування вхідного аудіосигналу для формування кодованого аудіосигналу, а сегменти аудіоданих містять у собі кодований аудіосигнал. У типових варіантах здійснення винаходу в цьому класі кожний із сегментів метаданих має переважний формат, що буде описаний далі.

У деяких варіантах здійснення винаходу кожний із сегментів метаданих кодованого бітового потоку (бітового потоку АС-3 або бітового потоку Е-АС-3 у деяких варіантах здійснення винаходу), що включає І РОМ (наприклад, І РОМ і метадані границі програми), входить у сегмент зайвих бітів поля ігнорованих даних фрейму бітового потоку (наприклад, сегмент зайвих бітів У типу, показаного на фіг. 4 або фіг. 7). В інших варіантах здійснення винаходу кожний із сегментів метаданих кодованого бітового потоку (бітового потоку АС-3 або бітового потоку Е-АС-3 у деяких варіантах здійснення винаходу), що включає ЕРЗМ (наприклад, ЕРЗМ і метадані границі програми), входить як додаткова інформація бітового потоку в поле "адарвзі" інформаційного сегмента бітового потоку ("В5І") фрейму бітового потоку або в поле допоміжних даних (наприклад, сегмент АХ типу, показаного на фіг. 4 або фіг. 7) наприкінці фрейму бітового потоку. Кожний сегмент метаданих, що включає ЕРБМ, може мати формат, визначений у даному описі з посиланням на таблицю 1 і таблицю 2, наведені нижче (тобто, він містить у собі основні елементи, зазначені в таблиці 1, або варіанти, після чого ідентифікатор інформаційного наповнення (ідентифікуючий метадані, такі як РОМ) і значення розміру інформаційного наповнення, а потім інформаційне наповнення (І РОМ дані, які мають формат, показаний у таблиці 2, або формат, показаний у варіанті таблиці 2, наведений у даному описі). У деяких варіантах здійснення винаходу фрейм може включати один або два сегменти метаданих, кожний з яких включає І РОМ, а якщо фрейм включає два сегменти метаданих, один може бути присутнім в полі фрейму адарбві. а інший - в полі фрейму АХ.

У класі варіантів здійснення винаходу даний винахід являє собою спосіб, що включає в себе етапи кодування аудіоданих для формування АС-3 або Е-АС-3 кодованого бітового аудіопотоку,

Зо у тому числі за рахунок включення в сегмент метаданих (щонайменше одного фрейму бітового потоку) ГРОМ і метаданих границі програми й, можливо, також і інших метаданих для аудіопрограми, до якої належить цей фрейм. У деяких варіантах здійснення винаходу кожний такий сегмент метаданих включений у поле фрейму адарзі або поле допоміжних даних фрейму.

В інших варіантах здійснення винаходу кожний такий сегмент метаданих включений у сегмент зайвих бітів фрейму. У деяких варіантах здійснення винаходу кожний сегмент, що містить метадані І РОМ їі метадані границі програми, містить заголовок фрейму (і в деяких випадках також додаткові основні елементи), і після заголовка фрейму (або заголовка фрейму й інших основних елементів) сегмент інформаційного наповнення РОМ (або контейнера), що має наступний формат: заголовок, як правило, що включає щонайменше одне ідентифікаційне значення (наприклад, версію формату ГРОМ, довжину, період, число і асоціативні значення вкладеного потоку даних, як зазначено в таблиці 2, наведеній в даному описі), і після заголовка - ІРБМ ї метадані границі програми. Метадані границі програми можуть містити в собі число фреймів до границі програми та значення коду (наприклад, значення "оїїзеї ехіві"), що вказує, чи містить кадр тільки число фреймів до границі програми або число фреймів до границі програми й значення зсуву, і (у деяких випадках) значення зсуву. | РОМ може включати: - щонайменше одне значення, що вказує діалог, яке вказує одне із двох - відповідні аудіодані мають ознаку діалогу або не мають ознаки діалогу (наприклад, які канали відповідних аудіоданих мають ознаку діалогу). Значення, що вказує діалог, може вказати, чи є присутнім діалог у будь-якій комбінації каналів або у всіх каналах відповідних аудіоданих; - щонайменше одне значення дотримання нормативних вимог по гучності, що вказує, чи відповідають відповідні аудіодані зазначеному пакету нормативних вимог щодо гучності; - щонайменше одне значення обробки гучності, що вказує щонайменше один тип обробки гучності, що був виконаний з відповідними аудіоданими; і - щонайменше одне значення гучності, що вказує щонайменше одну характеристику гучності (наприклад, пікове або середнє значення гучності) відповідних аудіоданих.

В інших варіантах здійснення винаходу кодований бітовий потік являє собою бітовий потік, що не є бітовим потоком АС-3 або бітовим потоком Е-АС-3, а кожний із сегментів метаданих, що включає І РОМ (і в деяких випадках також метадані границі програми), входить у сегмент (або поле, або слот) бітового потоку, зарезервований для зберігання додаткових даних. Кожний 60 сегмент метаданих, що включає І РОМ, може мати формат аналогічний або ідентичний зазначеному в даному описі з посиланням на таблицю 1 і таблицю 2, які наведені нижче, (тобто, він містить у собі основні елементи, аналогічні або ідентичні тим, які зазначені в таблиці 1, за якими йде ІО (ідентифікатор) інформаційного наповнення (ідентифікаційні метадані як І РОМ) і значення обсягу інформаційного наповнення, а потім інформаційне наповнення (І РОМ дані, які мають формат, аналогічний або ідентичний формату, зазначеному в таблиці 2, або у варіанті таблиці 2, наведеній в даному описі).

У деяких варіантах здійснення винаходу кодований бітовий потік містить послідовність фреймів, кожний із фреймів включає інформаційний сегмент бітового потоку ("В5І"), що включає поле "адарві" (яке іноді називають сегмент або слот) і поле або слот допоміжних даних (наприклад, кодований бітовий потік є бітовим потоком АС-3 або бітовим потоком Е-АС-3), і включає сегменти аудіоданих (наприклад, сегменти фрейму АВО - АВ», показані на фіг. 4) і сегменти метаданих, де сегменти аудіоданих є ознакою аудіоданих, причому кожний з щонайменше деяких сегментів метаданих включає метадані стану обробки гучності (І РОМ) і у деяких випадках також метадані границі програми. РОМ присутні в бітовому потоці в наступному форматі. Кожний із сегментів метаданих, що включає І РОМ, включений у поле "адарві" сегмента В5ОЇ фрейму бітового потоку або в поле допоміжних даних бітового потоку, або в сегмент зайвих бітів фрейму бітового потоку. Кожний сегмент метаданих, що включає І РОМ, містить сегмент інформаційного наповнення (або контейнера) І РОМ, що має наступний формат: заголовок (зазвичай включає щонайменше одне ідентифікуюче значення, наприклад версію формату ГРОМ, довжину, період, число й асоціативні значення вкладеного потоку даних, зазначені нижче в таблиці 2); і після заголовка, | РОМ і в деяких випадках також метадані границі програми. Метадані границі програми можуть містити в собі число фреймів до границі програми та значення коду (наприклад значення "оїбеїехіві"), що вказує, чи містить фрейм тільки число фреймів до границі програми або й число фреймів до границі програми, і значення зсуву), і (у деяких випадках) значення зсуву. І РОМ може містити: - щонайменше одне значення, що вказує діалог (наприклад, параметр "Каналу(ів) діалогу" з таблиці 2), що вказує, що відповідні аудіодані вказують або не вказують діалог (наприклад, які канали відповідних аудіоданих вказують діалог). Значення, що вказує діалог, може вказати, чи є присутнім діалог у будь-якій комбінації каналів або у всіх каналах відповідних аудіоданих;

Зо - щонайменше одне значення дотримання нормативних вимог по гучності (наприклад, параметр "Тип регулювання гучності" з таблиці 2), що вказує, чи відповідають відповідні аудіодані зазначеному пакету нормативних вимог щодо гучності; - щонайменше одне значення обробки гучності (наприклад, один або кілька параметрів "Прапор корекції стробованої гучності діалогу", "Тип корекції гучності" з таблиці 2), що вказує щонайменше один тип обробки гучності, що був виконаний з відповідними аудіоданими; і - щонайменше одне значення гучності (наприклад, один або декілька з параметрів: "Відносна стробована гучність за рекомендацією МСЕ (Міжнародний союз електрозв'язку) ", "Стробована гучність мови за рекомендацією МСЕ", "Короткострокова гучність (3-секундний часовий інтервал) за рекомендацією МСЕ (ЕВО 3341) ". і "Дійсне пікове значення", наведені в таблиці 2), що вказує щонайменше одну характеристику гучності (наприклад, пікову або середню гучність) відповідних аудіоданих.

У будь-якому з варіантів здійснення винаходу, що припускає, використовує або формує щонайменше одне значення гучності, що вказує відповідні аудіодані, значення гучності може вказувати на щонайменше одну вимірювальну характеристику рівня гучності, використовувану для обробки рівня гучності та/або динамічний діапазон аудіоданих.

У деяких втіленнях винаходу кожний із сегментів метаданих у полі "адарві", або в полі допоміжних даних, або сегмента зайвих бітів фрейму бітового потоку має наступний формат: заголовок фрейму (зазвичай включає синхрослово, що ідентифікує початок сегмента метаданих, а потім ідентифікаційні значення, наприклад, версію основного елемента, довжину й період, число розширених елементів, і асоціативні значення вкладеного потоку даних, зазначені в таблиці 1 нижче); і після заголовка фрейму щонайменше одне захисне значення (наприклад, НМАС дайджест і значення цифрового відбитка, де НМАС дайджест може бути 256-бітним НМАС дайджестом (при використанні алгоритму 5НА-2), що обчислюється за аудіоданими, основним елементом і всіма розширеними елементами, із усього фрейму, як зазначено в таблиці 1), що підходить щонайменше для одного з: декодування, аутентифікації, або перевірки достовірності щонайменше одного з метаданих стану обробки рівня гучності або відповідних аудіоданих); і також після заголовка фрейму, якщо сегмент метаданих включає І РОМ, ідентифікатор ("10") інформаційного наповнення І РОМ і значення обсягу (розмір) інформаційного наповнення І РОМ, бо що ідентифікують наступні метадані як інформаційне наповнення І РОМ, і вказує розмір інформаційного наповнення І РОМ. Сегмент інформаційного наповнення І РОМ (переважно, що має формат, зазначений вище) йде за ІЮ інформаційного наповнення РОМ і числовим значенням розміру інформаційного наповнення І РОМ.

У деяких варіантах здійснення типу, описаного в попередньому абзаці, кожний сегмент метаданих у полі допоміжних даних (або в полі "адарві", або в сегменті зайвих бітів) фрейму має три рівні структури: структура високого рівня, що містить прапор, що вказує чи включає поле допоміжних даних (або поле адабзі) метадані, щонайменше одне значення ІО, що вказує, який тип(и) метаданих є присутнім, і, як правило, також значення, що вказує, скільки біт метаданих (наприклад, кожного типу) є присутнім (якщо метадані присутні). Один тип метаданих, які можуть бути присутнім в

І РМ, інший тип метаданих, які можуть бути присутні у метаданих границі програми, та інший тип метаданих, які можуть бути присутні у метаданих медіадосліджень; структура середнього рівня, що містить основний елемент для кожного ідентифікованого типу метаданих (наприклад, заголовок фрейму, захисні значення, ІО інформаційного наповнення й числове значення розміру інформаційного наповнення, наприклад, зі згаданого вище типу, для кожного ідентифікованого типу метаданих); і структура низького рівня, що включає кожне інформаційне наповнення для одного з основних елементів (наприклад, інформаційне наповнення І РОМ, якщо воно ідентифікується основним елементом як присутнє, і/або інформаційне наповнення метаданих іншого типу, якщо воно ідентифікується основним елементом як присутнє).

Значення даних в такій трирівневій структурі можуть бути вкладеними. Наприклад, захисні значення для інформаційного наповнення РОМ і/або іншого інформаційного наповнення метаданих, визначеного основним елементом, можуть бути включені після кожного інформаційного наповнення, визначеного основним елементом (і, таким чином, після заголовка фрейму основного елемента). В одному прикладі, заголовок фрейму може ідентифікувати інформаційне наповнення ІРОМ та інше інформаційне наповнення метаданих, Ір інформаційного наповнення та значення розміру інформаційного наповнення для першого інформаційного наповнення (наприклад, інформаційного наповнення І РОМ) може йти за заголовком фрейму, саме перше інформаційне наповнення може йти за ІЮО і значеннями

Зо розміру, значення розміру інформаційного наповнення й ІЮ інформаційного наповнення для другого інформаційного наповнення можуть йти за першим інформаційним наповненням, саме друге інформаційне наповнення може йти за цими І і значеннями розміру, а захисне значення для одного або обох інформаційних наповнень (або для значень основного елемента одного або обох інформаційних наповнень) може йти за останнім інформаційним наповненням.

У деяких варіантах здійснення винаходу основний елемент сегмента метаданих у полі допоміжних даних (або в полі "адарві" або в сегменті зайвих бітів) фрейму містить заголовок фрейму (як правило, що включає ідентифікаційні значення, наприклад, версію основного елемента), і після заголовка фрейму: значення, що вказують, чи входять дані цифрового відбитка в метадані сегмента метаданих, значення, що вказують чи існують зовнішні дані (пов'язані з аудіоданими, що відповідають метаданим сегмента метаданих), ІЮО корисного наповнення й значення розміру корисного наповнення для кожного типу метаданих (наприклад,

РОМ, і/або метадані типу, відмінного від І РОМ), ідентифікованого основним елементом, і захисні значення щонайменше одного типу метаданих ідентифікованого основним елементом.

Інформаційне наповнення(я) метаданих сегмента метаданих йде за заголовком фрейму, і (у деяких випадках) вкладено в значення основного елемента.

В іншому переважному форматі кодований бітовий потік є бітовим потоком ОоїБу Е, а кожний із сегментів метаданих, що включає |! РОМ (а в деяких випадках метадані границі програми) входить в оточення перших М семплів захисного частотного інтервалу Юоїру Е.

В іншому класі варіантів здійснення винахід являє собою АРІ (наприклад, декодер), підключений і виконаний з можливістю прийому кодованого бітового аудіопотоку, що містить сегменти аудіоданих і сегменти метаданих, де сегменти аудіоданих вказують аудіодані, а кожний з, щонайменше, деяких сегментів метаданих включає метадані стану обробки гучності (І РОМ) і, у деяких випадках, також метадані границі програми, для добування І РОЗМ з бітового потоку, щоб сформувати декодовані аудіодані у відповідь на аудіодані й виконати щонайменше одну операцію адаптивної обробки гучності аудіоданих з використанням І РОМ. Деякі варіанти здійснення винаходу в цьому класі також включають постпроцесор, підключений до АРИ, причому постпроцесор підключений і настроєний для виконання щонайменше однієї адаптивної операції обробки гучності аудіоданих за допомогою І РОМ.

В іншому класі варіантів здійснення винахід являє собою блок обробки звукового сигналу 60 (АРІ), що включає буферний запам'ятовувальний пристрій (буфер) і підсистему обробки,

з'єднану з буфером, причому АРІ підключений для одержання кодованого бітового аудіопотоку, що містить сегменти аудіоданих і сегменти метаданих, де сегменти аудіоданих є ознакою аудіоданих, а кожний з, щонайменше, деяких сегментів метаданих містить у собі метадані стану обробки гучності (ГРОМ) і, факультативно, також метадані границі програми, буфер зберігає (наприклад, незмінним способом) щонайменше один фрейм кодованого бітового аудіопотоку, і підсистема обробки настроєна з можливістю добування І РОМ з бітового потоку, і виконання щонайменше однієї адаптивної операції обробки гучності аудіоданих з використанням І РОМ. У типових варіантах здійснення винаходу в цьому класі, АРО є одним з кодера, декодера і постпроцесора.

У деяких втіленнях способу, що є предметом запропонованого винаходу, сформований бітовий аудіопотік являє собою або кодований бітовий потік АС-3, або бітовий потік Е-АС-3, або бітовий потік СоІру Е, що включають метадані стану обробки гучності, а також інші метадані (наприклад, параметр метаданих СІАІ МОВМ, параметри метаданих регулювання динамічного діапазону і інші параметри метаданих). У деяких інших варіантах здійснення зазначеного способу, сформований бітовий аудіопотік являє собою кодований бітовий потік іншого типу.

Аспекти даного винаходу містять у собі систему або пристрій, настроєний (наприклад, запрограмований) для виконання якого-небудь варіанта здійснення способу відповідно до винаходу, і машинопрочитуваний носій (наприклад, диск), що зберігає код (наприклад, незмінним способом) для втілення кожного з варіантів здійснення способу відповідно до винаходу або їхніх етапів. Наприклад, система відповідно до винаходу може являти собою або включати програмований процесор загального призначення, цифровий сигнальний процесор або мікропроцесор, запрограмований за допомогою програмних засобів або апаратно- програмних засобів і/або іншим способом настроєний для виконання будь-якої з множини операцій з даними, включаючи варіант здійснення способу відповідно до винаходу або його етапів. Такий процесор загального призначення може являти собою або включати комп'ютерну систему, що містить пристрої уведення, запам'ятовувальний пристрій і запрограмовану (і/або іншим способом настроєну) схему обробки для виконання варіанта здійснення способу (або його етапів) відповідно до винаходу у відповідь на затверджені дані.

На фіг. 1 представлена структурна схема варіанта здійснення системи, що може бути сконфігурована для виконання варіанта здійснення способу відповідно до винаходу.

На фіг. 2 представлена структурна схема кодера, що є варіантом здійснення блока обробки звукового сигналу відповідно до винаходу.

На фіг. З представлена структурна схема декодера, що є варіантом здійснення блока обробки звукового сигналу відповідно до винаходу й підключеного до нього постпроцесора, що є ще одним варіантом здійснення блока обробки звукового сигналу відповідно до винаходу.

На фіг. 4 представлена діаграма АС-3 фрейму, розділеного на сегменти.

На фіг. 5 представлена діаграма сегмента синхронізуючої інформації (5І) АС-3 фрейму, що включає сегменти, на які він розділений.

На фіг. 6 представлена діаграма інформаційного сегмента бітового потоку (В5І) АС-

З фрейму, що включає сегменти, на які він розділений.

На фіг. 7 представлена діаграма розділеного на сегменти Е-АС-3 фрейму.

На фіг. 8 показана діаграма фреймів кодованого бітового аудіопотоку, що містить метадані границі програми у форматі, що відповідає варіанту здійснення даного винаходу.

На фіг. 9 показана діаграма інших фреймів кодованого бітового аудіопотоку на фіг. 9. Деякі із цих фреймів містять метадані границі програми у форматі, що відповідає варіанту здійснення даного винаходу.

На фіг. 10 представлена діаграма двох кодованих бітових аудіопотоків: бітового потоку (ЕВ), у якому границя програми (позначена як "границя") збігається з переходом між двома фреймами бітового потоку, та іншого бітового потоку (ТВ), у якому границя програми (позначена як "дійсна границя") зсунута на 512 семплів від переходу між двома фреймами бітового потоку.

На фіг. 11 представлений набір діаграм, що показують чотири кодованих бітових аудіопотоки. Бітовий потік у верхній частині фіг. 11 (позначений як "Сценарій 1") вказує на першу аудіопрограму (Р!), що містить метадані границі програми, за якими йде друга аудіопрограма (Р2), що також містить метадані границі програми; другий бітовий потік (позначений як "Сценарій 2") вказує на першу аудіопрограму (РІ), що містить метадані границі програми, за якими йде друга аудіопрограма (Рг), що не містить метаданих границі програми; третій бітовий потік (позначений як "Сценарій 3") вказує на обрізану першу аудіопрограму (РІ), що містить метадані границі програми, і яка була змонтована із цілою другою аудіопрограмою (Р2), що містить метадані границі програми; а також четвертий бітовий потік (позначений як бо "Сценарій 4"), що вказує на обрізану першу аудіопрограму (РІ), що містить метадані границі програми, і на обрізану другу аудіопрограму (Рг), що містить метадані границі програми і яка була змонтована із частиною першої аудіопрограми.

Позначення й термінологія

У даному описі, включаючи формулу винаходу, вираз виконання операції "з" сигналом або даними (наприклад, фільтрація, масштабування. перетворення або застосування посилення для сигналу або даних) використовується в широкому сенсі для позначення виконання дії безпосередньо із сигналом або даними або з обробленим варіантом сигналу або даних (наприклад, з варіантом сигналу, що зазнав попередньої фільтрації або попередньої обробки до виконання дії з ним).

У даному описі, включаючи формулу винаходу, вираз "система" використовується в широкому сенсі для позначення пристрою, системи або підсистеми. Наприклад, підсистема, що реалізує декодер, може згадуватися як декодувальна система, а система, що включає таку підсистему (наприклад, система, що формує Х вихідних сигналів у відповідь на множину вхідних сигналів, де підсистема формує М вхідних сигналів, а інші Х-М вхідних сигналів одержують від зовнішнього джерела), також може згадуватися як декодувальна система.

У даному описі, включаючи формулу винаходу, термін "процесор" використовується в широкому сенсі для позначення системи або пристрою, що програмується або іншим чином налаштовується (наприклад, за допомогою програмного забезпечення або програмно- апаратних засобів) для виконання операцій з даними (наприклад, аудіо, або відео, або іншими даними зображень). Приклади процесорів включають програмовану користувачем вентильну матрицю (або іншу інтегральну схему з конфігурацією, що переналаштовується, або чипсет), цифровий сигнальний процесор, запрограмований і/або іншим способом сконфігурований для виконання конвеєрної обробки аудіоданих або інших звукових даних, програмований процесор загального призначення або комп'ютер, а також програмовану мікропроцесорну велику інтегральну схему або чипсет.

У даному описі, включаючи формулу винаходу, вираз "аудіопроцесор" і "блок обробки звукового сигналу" використовуються взаємозамінним чином та для позначення системи в широкому сенсі, виконаної з можливістю обробки аудіоданих. Приклади блоків обробки звукового сигналу включають кодери (наприклад, транскодери), декодери, кодеки, системи

Зо попередньої обробки, системи постобробки та системи обробки бітового потоку (які іноді називають інструментами обробки бітового потоку), але не обмежуються ними.

У даному описі, включаючи формулу винаходу, вираз "метадані стану обробки" (наприклад, вираз "метадані стану обробки гучності") належить до окремих даних і даних, що відрізняються від відповідних аудіоданих (аудіоконтенту потоку аудіоданих, що також включає метадані стану обробки). Метадані стану обробки, пов'язані з аудіоданими, вказують стан обробки гучності відповідних аудіоданих (наприклад, те, який тип(и) обробки вже був виконаний з аудіоданими) і, як правило, також вказують щонайменше один параметр або характеристику аудіоданих.

Зв'язок метаданих стану обробки з аудіоданими синхронізований за часом. Таким чином, дійсні (зовсім недавно отримані або оновлені) метадані стану обробки вказують, що відповідні аудіодані одночасно включають результати зазначеного типу(ів) обробки аудіоданих. У деяких випадках метадані стану обробки можуть включати послідовність подій обробки й/або деякі або всі параметри, які використовуються та/або виходять при зазначених видах обробки. Крім цього, метадані стану обробки можуть включати щонайменше одну ознаку або характеристику відповідних аудіоданих, які були обчислені або добуті з аудіоданих. Метадані стану обробки можуть також включати інші метадані, які не пов'язані з або не отримані при якій-небудь обробці відповідних аудіоданих. Наприклад, дані сторонніх виробників, дані супроводу, ідентифікатори, службова або стандартна інформація, дані приміток користувача, дані установок користувача та ін. можуть бути додані окремим блоком обробки звукового сигналу для передачі іншому блоку обробки звукового сигналу.

У даному описі, включаючи формулу винаходу, вираз "метадані стану обробки гучності" (або "РБОМ") означає метадані стану обробки, що вказують стан обробки гучності відповідних аудіоданих (наприклад, тип(и) обробки гучності, виконаний з аудіоданими) і, як правило, також щонайменше один параметр або характеристику (наприклад, гучність) відповідних аудіоданих.

Метадані стану обробки гучності можуть включати дані (наприклад, інші метадані), які не є (тобто, коли вони вважаються окремими) метаданими стану обробки гучності.

У даному описі, включаючи формулу винаходу, вираз "канал" (або "аудіоканал") позначає монофонічний звуковий сигнал.

У даному описі, включаючи формулу винаходу, вираз "аудіопрограма" означає набір з одного або декількох аудіоканалів і в деяких випадках також зв'язаних метаданих (наприклад,

метаданих, які описують бажане просторове звукове представлення, і/або І РОМ, і/або метадані границі програми).

У даному описі, включаючи формулу винаходу, вираз "метадані границі програми" позначає метадані кодованого бітового аудіопотоку, де кодований бітовий аудіопотік є ознакою щонайменше однієї аудіопрограми (наприклад, двох або більше аудіопрограм). а метадані границі програми вказують місце розташування щонайменше однієї границі (початку та/або кінця) щонайменше однієї зазначеної аудіопрограми в бітовому потоці. Наприклад, метадані границі програми (кодованого бітового аудіопотоку, що вказує аудіопрограму) можуть включати метадані, що вказують місце розташування (наприклад, початок "М"-го фрейму бітового потоку або місце розташування "М"-го семпла в "ТМ"-ому фреймі бітового потоку) початку програми, а також додаткові метадані, що вказують місце розташування (наприклад, початок "У"-го фрейму бітового потоку або місце розташування "К"-го семпла в "У"-ому фреймі бітового потоку) кінця програми.

У даному описі, включаючи формулу винаходу, термін "з'єднувати" або "з'єднаний" використовується для позначення або прямого, або непрямого підключення. Таким чином, якщо перший пристрій з'єднаний із другим пристроєм, то підключення може бути прямим підключенням або непрямим підключенням через інші пристрої й підключення.

Відповідно до типових варіантів здійснення винаходу, інформаційне наповнення метаданих гучності програми називають метаданими стану обробки гучності ("| РОМ"), і в деяких випадках також метадані границі програми убудовані в одне або декілька резервних полів (або слотів) сегментів метаданих бітового аудіопотоку, що також містить у собі аудіодані в інших сегментах (сегментах аудіоданих). Як правило, щонайменше один сегмент кожного фрейму бітового потоку включає І РОМ, і щонайменше один сегмент фрейму включає відповідні аудіодані (тобто аудіодані, стан обробки гучності яких зазначено за допомогою І! РОМ). У деяких варіантах здійснення винаходу обсяг даних в Ї РОМ може бути досить малим, і метадані передаються без впливу на швидкість передачі даних, відведеної для передачі аудіоданих.

Взаємодія метаданих стану обробки гучності в тракті обробки аудіоданих є особливо зручною, коли два або кілька блоків обробки звукового сигналу повинні працювати спільно один з одним у тракті обробки даних (або протягом життєвого циклу контенту). Без включення

Зо метаданих стану обробки гучності в бітовий аудіопотік можуть відбуватися серйозні проблеми медійної обробки, такі як зниження якості, рівня й просторового звучання, наприклад, коли два або декілька аудіокодеків використовуються послідовно й застосовується асиметричне авторегулювання гучності більш, ніж один раз протягом переміщення бітового потоку до сприймаючих медіа-пристроїв (або до точки відтворення аудіоконтенту бітового потоку).

На фіг. 1 представлена структурна схема зразкового тракту обробки аудіоданих (системи обробки аудіоданих), на якій один або декілька елементів системи можуть бути виконані відповідно до варіанта здійснення даного винаходу. Система включає наступні елементи, з'єднані, як показано на схемі: блок попередньої обробки, кодер, блок аналізу сигналів і корекції метаданих, транскодер, декодер і блок попередньої обробки. У варіантах показаної системи один або декілька елементів опущені або включені додаткові блоки обробки аудіоданих.

У деяких втіленнях блок попередньої обробки, наведений на фіг. 1, виконаний з можливістю приймати як вхідні дані ІКМ (імпульсно-кодова модуляція) семпли (часової області), що містять аудіоконтент, і виводити оброблені ІКМ семпли. Кодер може бути виконаний з можливістю прийому ІКМ семплів як вхідних даних й виведення кодованого (наприклад, стиснутого) бітового аудіопотоку, що вказує аудіоконтент. Дані бітового потоку, що вказують аудіоконтент, іноді згадуються в даному описі як "аудіодані" Якщо кодер виконаний відповідно до типового варіанта здійснення дійсного винаходу, вихідні дані бітового потоку кодера включають метадані стану обробки гучності (і зазвичай також інші метадані, у деяких випадках метадані границі програми), а також аудіодані.

Блок аналізу сигналів і корекції метаданих, наведений на фіг. 1, може приймати один або декілька кодованих бітових аудіопотоков як вхідні дані і визначати (наприклад, перевіряти правильність) чи є метадані стану обробки вірними в кожному кодованому бітовому аудіопотоці, виконуючи аналіз сигналу (наприклад, використовуючи метадані границі програми в кодованому бітовому аудіопотоці). Як правило, блок аналізу сигналів і корекції метаданих заміняє невірне (невірні) значення на вірне (вірні) значення, отримане шляхом аналізу сигналу, якщо виявляє, що включені метадані є недійсними. Таким чином, всі вихідні дані кодованого бітового аудіопотоку блока аналізу сигналів і корекції метаданих можуть включати скоректовані (або нескоректовані) метадані стану обробки, а також кодовані аудіодані.

Транскодер, наведений на фіг. 1, може приймати кодовані бітові потоки як вхідні сигнали і 60 виводити у відповідь модифіковані (наприклад, кодовані іншим способом) бітові аудіопотоки

(наприклад, шляхом декодування вхідного потоку й перекодування декодованого потоку в інший формат кодування). Якщо транскодер виконаний відповідно до типового варіанта здійснення даного винаходу, вихідні дані бітового аудіопотоку транскодера містять метадані стану обробки гучності (і, як правило, також інші метадані), а також кодовані аудіодані. Метадані можуть бути включені в бітовий потік.

Декодер, наведений на фіг. 1, може приймати кодовані (наприклад, стиснуті) бітові аудіопотоки як вхідні дані і виводити (у відповідь) потоки декодованих ІКМ аудіосемплів. Якщо декодер виконаний відповідно до типового варіанта здійснення даного винаходу, вихідний сигнал декодера в номінальному режимі роботи являє собою або містить: потік аудіосемплів і відповідний потік метаданих стану обробки гучності (і, як правило, також інших метаданих), добутий із вхідного кодованого бітового потоку; або потік аудіосемплів і відповідний потік керуючих бітів, визначених за метаданими стану обробки гучності (і, як правило, також за іншими метаданим), добутий із вхідного кодованого бітового потоку; або потік аудіосемплів без відповідного потоку метаданих стану обробки або керуючих бітів, визначених за метаданими стану обробки. В останньому випадку декодер може добувати метадані стану обробки гучності (і/або інші метадані) із вхідного кодованого бітового потоку й виконувати щонайменше одну операцію з добутими метаданими (наприклад, перевірку правильності), навіть якщо він не виводить добуті метадані або керуючі біти, визначені з них.

Блок постобробки, наведений на фіг. 1, виконаний відповідно до типового варіанта здійснення даного винаходу, блок постобробки виконаний з можливістю приймати потік декодованих КМ аудіосемплів, а також виконувати його постобробку (наприклад, авторегулювання гучності аудіоконтенту) за допомогою метаданих стану обробки гучності (і, як правило, також інших метаданих), отриманих із семплами, або керуючих бітів (визначених декодером за метаданими обробки стану гучності та, як правило, також за іншими метаданими), отриманих з семплами. Блок постобробки. як правило, також виконаний з можливістю відтворювати постоброблений аудіоконтент для програвання за допомогою однієї або декількох акустичних колонок.

Типові варіанти здійснення даного винаходу забезпечують поліпшений тракт обробки аудіоданих, у якому блоки обробки звукового сигналу (наприклад, кодери, декодери, транскодери, і блоки попередньої обробки й постобробки) погоджують свою відповідну обробку для застосування до аудіоданих відповідно до поточного стану медіаданих, що вказані метаданими стану обробки гучності, отриманих відповідно блоками обробки звукового сигналу.

Вхідні аудіодані будь-якого блока обробки звукового сигналу системи, наведеної на фіг. 1 (наприклад, кодера або транскодера, наведені на фіг. 1), можуть включати метадані стану обробки гучності (і в деяких випадках також інші метадані), а також аудіодані (наприклад, кодовані аудіодані). Ці метадані можуть бути включені у вхідні аудіодані іншим елементом системи, наведеної на фіг. 1 (або іншим джерелом, не показаним на фіг. 1), відповідно до варіанта здійснення даного винаходу. Блок обробки, що отримує вхідні аудіодані (з метаданими), може бути виконаний з можливістю здійснення щонайменше однієї операції з метаданими (наприклад, перевірки правильності) або у відповідь на метадані (наприклад, адаптивної обробки вхідних аудіоданих) і, як правило, також з можливістю включення метаданих у вихідні аудіодані, оброблений варіант метаданих або керуючі біти, визначені з метаданих.

Типовий варіант здійснення винаходу блока обробки звукового сигналу (або аудіопроцесор) виконаний з можливістю здійснення адаптивної обробки аудіоданих на основі стану аудіоданих, зазначеному метаданими стану обробки гучності, що відповідають аудіоданим. У деяких варіантах здійснення винаходу адаптивна обробка є (або включає) обробкою гучності (якщо метадані вказують, що обробка гучності або подібна їй обробка ще не була виконана з аудіоданими, але не є (і не включає) обробкою гучності (якщо метадані вказують, що така обробка гучності або подібна їй обробка вже була виконана з аудіоданими). У деяких варіантах здійснення винаходу адаптивна обробка є або включає перевірку правильності метаданих (наприклад, виконувану в підблоці перевірки правильності метаданих) для забезпечення виконання блоком обробки звукового сигналу іншої адаптивної обробки аудіоданих на основі стану аудіоданих, зазначеному метаданими стану обробки гучності. У деяких варіантах здійснення винаходу перевірка правильності визначає достовірність метаданих стану обробки гучності, пов'язаних з аудіоданими (наприклад, включеними в бітовий потік). Наприклад, якщо підтверджено достовірність метаданих, то результати раніше виконаної обробки аудіоданих можуть бути повторно використані, а виконання нової обробки аудіоданих такого ж типу можна бо уникнути. З іншого боку, якщо встановлено, що метадані були змінені (або з інших причин є недостовірними), то передбачуваний раніше виконаний тип медійної обробки (як зазначено недостовірними метаданими) може бути повторений блоком обробки звукового сигналу та/або інша обробка метаданих та/або аудіоданих може бути виконана за допомогою блока обробки звукового сигналу. Блок обробки звукового сигналу може також бути виконаний з можливістю повідомляти іншим блокам обробки звукового сигналу, розташованим далі в удосконаленому тракті медійної обробки, що метадані обробки стану гучності (наприклад, присутні в бітовому потоці медіаданих) є дійсними, якщо блок визначає, що метадані стану обробки дійсні (наприклад, на підставі збігу добутого значення й контрольного значення при криптографічній перевірці).

На фіг. 2 наведена блок-схема кодера (100), що є варіантом здійснення блока обробки звукового сигналу відповідно до винаходу. Будь-який з компонентів або елементів кодера 100 може бути втілений у вигляді одного або декількох процесів та/або однієї або декількох схем (наприклад, спеціалізованих інтегральних схем, ПКВМ (програмована користувачем вентильна матриця) або інших інтегральних схем), апаратних засобів, програмного забезпечення або комбінації апаратних засобів і програмного забезпечення. Кодер 100 містить буфер ПО фрейму, синтаксичний аналізатор 111, декодер 101, валідатор 102 стану аудіоданих, ланку 103 обробки гучності, ланку 104 вибору аудіопотоку, кодер 105, ланку 107 формувача швидкості передачі даних/пристрою форматування, ланку 106 формування метаданих. підсистему 108 вимірювання гучності діалогу та буфер 109 фрейму, з'єднані, як показано на схемі. Також, як правило, кодер 100 містить інші елементи обробки (не показані).

Кодер 100 (який є транскодером) виконаний з можливістю перетворення вхідного бітового аудіопотоку (який, наприклад, може бути бітовим потоком формату АС-3, або бітовим потоком формату Е-АС-3, або бітовим потоком формату ЮоІру Е) у кодований вихідний бітовий аудіопотік (який, наприклад, може бути іншим бітовим потоком формату АС-3, або бітовим потоком формату Е-АС-3, або бітовим потоком формату ЮОору Е) у тому числі шляхом виконання адаптивної і автоматизованої обробки гучності з використанням метаданих стану обробки гучності, включених у вхідний бітовий потік. Наприклад, кодер 100 може бути виконаний з можливістю перетворення вхідного бітового потоку у форматі Юоіру Е (формат, як правило, використовується у виробничій і віщальній апаратурі, але не в побутових пристроях, які

Зо одержують аудіопрограми, передані їм) у кодований вихідний бітовий аудіопотік (що підходить для трансляції побутовими пристроями) у форматі АС-3 або Е-АС-3.

Система, наведена на фіг. 2, також включає підсистему 150 передачі кодованих аудіоданих (яка зберігає та/або передає кодовані бітові потоки, що виходять із кодера 100) і декодер 152.

Кодований бітовий аудіопотік, що виходить із кодера 100, може бути збережений підсистемою 150 (наприклад, на ЮМО або Віи-НКау диску) або переданий підсистемою 150 (яка може здійснити канал передачі або мережу), або може бути і збережений, і переданий підсистемою 150. Декодер 152 виконаний з можливістю декодувати кодований бітовий аудіопотік (сформований кодером 100), який він одержує за допомогою підсистеми 150, у тому числі шляхом добування метаданих стану обробки гучності (І РОМ) з кожного фрейму бітового потоку (і факультативно також шляхом добування метаданих границі програми з бітового потоку) і формування декодованих аудіоданих. Як правило, декодер 152 виконаний з можливістю здійснення адаптивної обробки гучності декодованих аудіоданих з використанням ІРБ5БМ (їі в деяких випадках також метаданих границі програми) і/або передачі декодованих аудіоданих і

ІЇРОМ у постпроцесор, виконаний з можливістю здійснення адаптивної обробки гучності декодованих аудіоданих з використанням І! РОМ (і, у деяких випадках, метаданих границі програми). Як правило, декодер 152 включає буфер, що зберігає (наприклад, незмінним способом) кодований бітовий аудіопоток, отриманий від підсистеми 150.

Різні втілення кодера 100 і декодера 152 виконані з можливістю виконання різних варіантів здійснення способу відповідно до винаходу.

Буфер 110 фрейму є буферним запам'ятовувальним пристроєм, підключеним для одержання кодованого вхідного бітового аудіопотоку. У процесі роботи буфер 110 зберігає (наприклад, незмінним способом) щонайменше один фрейм кодованого бітового аудіопотоку й послідовність фреймів кодованого бітового аудіопотоку передається з буфера 110 у синтаксичний аналізатор 111.

Синтаксичний аналізатор 111 з'єднаний і виконаний з можливістю добування метаданих стану обробки гучності (І РОМ) і, факультативно, метаданих границі програми (і/або інших метаданих) з кожного фрейму кодованих вхідних аудіоданих, у які включені такі метадані, для передачі, щонайменше, І РОМ (і в деяких випадках також метаданих границі програми й/або інших метаданих) у валідатор 102 стану аудіоданих, ланку 103 обробки гучності, ланку 106 і 60 підсистему 108, добування аудіоданих з кодованих вхідних аудіоданих і передачі аудіоданих у декодер 101. Декодер 101 кодера 100 виконаний з можливістю декодування аудіоданих для формування декодованих аудіоданих і передачі декодованих аудіоданих у ланку 103 обробки гучності, ланку 104 вибору аудіопотоку, підсистему 108, а також, як правило, валідатор 102 стану.

Валідатор 102 стану виконаний з можливістю перевірки дійсності й перевірки правильності

РОМ (їі в деяких випадках інших метаданих), переданих йому. У деяких варіантах здійснення винаходу І РОМ є (або включений в) блок даних, включений у вхідний бітовий потік (наприклад, відповідно до варіанта здійснення даного винаходу). Блок може містити криптографічний хеш (алгоритм перевірки дійсності за допомогою криптографічних хеш-функцій, об'єднаних із шифруванням із закритим ключем, або "НМАС") для обробки І РОМ (і в деяких випадках також і інших метаданих) і/або основних аудіоданих (наданих декодером 101 валідатору 102). Блок даних може мати цифровий підпис у цих варіантах здійснення винаходу, таким чином, наступний в тракті блок обробки звукового сигналу може відносно легко перевірити дійсність і підтвердити правильність метаданих стану обробки.

Наприклад, НМАС використовується для формування дайджесту, а захисне (захисні) значення, включене в бітовий потік відповідно до винаходу, може включати дайджест. Дайджест може бути отриманий для АС-3 фрейму в такий спосіб: 1. Після того як АС-3 дані й І РОМ кодовані, байти даних фрейму (зв'язані послідовно їате. даїа Я і їате даїа й2) і байти даних І РОМ використовуються в якості вхідних даних для хеш-функції НМАС. Інші дані, які можуть бути присутні усередині поля допоміжних даних, не будуть прийняті до уваги при здійсненні розрахунку дайджесту. Такі інші дані можуть бути байтами, що не належать ні до даних АС-3, ні до даних І 5РБМ. Біти захисту, включені в І РОМ, не можуть бути враховані при здійсненні розрахунку НМАС дайджесту. 2. Після здійснення розрахунку дайджесту його записують у бітовий потік у зарезервоване для бітів захисту поле. 3. Останнім кроком формування повного АС-3 фрейму є розрахунок контрольної суми САС.

Вона записується в самому кінці фрейму, і враховуються всі дані, що належать цьому фрейму, включаючи біти І РОМ.

Інші криптографічні методи, включаючи який-небудь один або декілька не НМАС

Зо криптографічних методів, але не обмежуючись ними, можуть бути використані для перевірки правильності | РОМ (наприклад, у валідаторі 102) з метою забезпечення безпечної передачі й прийому ІРОМ та/або основних аудіоданих. Наприклад, перевірка правильності (з використанням такого криптографічного методу) може бути виконана в кожному блоці обробки звукового сигналу, що приймає варіант здійснення бітового аудіопотоку відповідно до винаходу, щоб визначити, чи включені метадані стани обробки гучності й відповідні аудіодані в бітовий потік, що пройшов (і/або виник у результаті) спеціальну обробку гучності (як зазначено в метаданих) і не був модифікований після виконання такої спеціальної обробки гучності.

Валідатор 102 стану передає керуючі дані ланці 104 вибору аудіопотоку, формувачу 106 метаданих і підсистемі 108 вимірювання гучності діалогу, щоб указати результати операції перевірки правильності. Під впливом керуючих даних ланка 104 може вибрати (і передати на кодер 105) або адаптивно оброблені вихідні дані ланки 103 обробки гучності (наприклад, коли

І РОМ указують, що вихідні дані декодера 101 не проходили спеціальний тип обробки гучності, а керуючі біти сигналу валідатора 102 указують, що І РОМ дійсні); або вихідні аудіодані декодера 101 (наприклад, коли І РОМ указують, що вихідні аудіодані декодера 101 уже пройшли певний тип обробки гучності, виконаний ланкою 103, а керуючі біти сигналу валідатора 102 показують, що І РЗМ дійсні).

Ланка 103 кодера 100 виконана з можливістю здійснення адаптивної обробки гучності вихідних декодованих аудіоданих декодера 101 на основі однієї або декількох характеристик аудіоданих, вказаних за допомогою І РОМ, добутих декодером 101. Ланка 103 може бути керуючим процесором з адаптивною областю перетворення гучності й динамічного діапазону в режимі реального часу. Ланка 103 може приймати вхідні дані користувача (наприклад, цільову гучність користувача/значення динамічного діапазону або значення аїіаіпопт) або інші вхідні метадані (наприклад, один або кілька типів даних сторонніх виробників, дані спостереження, ідентифікатори, службову або стандартну інформацію, дані приміток користувача, дані установок користувача та ін.) і/або інші вхідні дані (наприклад, дані цифрового відбитка), і використати такі вхідні дані для обробки вихідних декодованих аудіоданих декодера 101. Ланка 103 може виконувати адаптивну обробку гучності декодованих аудіоданих (переданих від декодера 101), що вказують одну аудіопрограму (як зазначено метаданими границі програми, добутими синтаксичним аналізатором 111), а може скинути обробку гучності в результаті бо прийому декодованих аудіоданих (переданих від декодера 101), що вказують іншу аудіопрограму, як зазначено метаданими границі програми, добутими синтаксичним аналізатором 111.

Підсистема 108 вимірювання гучності діалогу може функціонувати з метою визначення гучності сегментів декодованих аудіоданих (від декодера 101), які вказують діалог (або іншу мову), наприклад, за допомогою І РОМ (і/або інших метаданих), добутих за допомогою декодера 101, коли керуючі біти валідатора 102 показують, що РОМ є недійсними. Функціонування підсистеми 108 вимірювання гучності діалогу може бути зупинено, коли І РОМ указують раніше визначену гучність сегментів діалогу (або іншої мови) декодованих аудіоданих (від декодера 101), якщо керуючі біти валідатора 102 показують, що І РОМ є дійсними. Підсистема 108 може виконувати вимірювання гучності декодованих аудіоданих, що вказують одну аудіопрограму (що вказується метаданими границі програми, добутими синтаксичним аналізатором 111), і може скидати вимірювання у відповідь на прийом декодованих аудіоданих, що вказують іншу аудіопрограму, що вказується метаданими границі цієї програми.

Для зручного й легкого вимірювання рівня діалогу в аудіоконтенті існують корисні інструменти (наприклад, вимірювач гучності ЮоІру І М100). Деякі варіанти здійснення АР), відповідно до винаходу (наприклад, ланка 108 кодера 100), виконані з можливістю включення (або виконання функцій) такого інструмента для вимірювання середньої гучності діалогу аудіоконтенту бітового аудіопотоку (наприклад, декодованого бітового потоку формату АС- 3, переданого ланці 108 від декодера 101 кодера 100).

Якщо ланка 108 виконана з можливістю вимірювання дійсного середнього значення гучності діалогу аудіоданих, то вимірювання може включати етап виділення сегментів аудіоконтенту, переважно таких, що містять мову. Потім аудіосегменти, які в основному є мовою, обробляються відповідно до алгоритму вимірювання гучності. Для декодованих аудіоданих бітового потоку формату АС-3 таким алгоритмом може бути стандартне вимірювання гучності, зваженої за К (відповідно до міжнародного стандарту ІТО-А В5.1770). Як альтернатива можуть бути використані інші показники гучності (наприклад, ті, які засновані на психоакустичних моделях гучності).

Виділення мовних сегментів не є істотним для вимірювання середньої гучності діалогу аудіоданих. Проте, воно поліпшує точність вимірювання та зазвичай забезпечує більшою мірою

Зо задовольняючим вимогам результати з погляду слухача. Так як не весь аудіоконтент містить діалог (мову), показник гучності всього аудіоконтенту може забезпечити досить точне наближення рівня діалогу звукозапису, як якби була присутня тільки мова.

Формувач метаданих 106 формує (і/або передає ланці 107) метадані, які будуть включені ланкою 107 у кодований бітовий потік і виведені кодером 100. Формувач 106 метаданих може передавати ланці 107 | РОМ (і в деяких випадках також метадані границі програми й/або інші метадані), добуті кодером 101 та/або синтаксичним аналізатором 111 (наприклад, коли керуючі біти валідатора 102 показують, що І РОМ та/або інші метадані дійсні), або формувати нові І РОМ (і в деяких випадках також метадані границі програми та/або інші метадані) і передавати нові метадані ланці 107 (наприклад, коли керуючі біти валідатора 102 показують, що І РОМ і/або інші метадані, добуті декодером 101, є недійсними, або він може передавати ланці 107 комбінацію метаданих, добутих декодером 101 і/або синтаксичним аналізатором 111, і знову сформованих метаданих. Формувач 106 метаданих може включати дані гучності, сформовані підсистемою 108, а також щонайменше одне значення, що вказують тип обробки гучності, виконаною підсистемою 108, в І РОМ і передавати ланці 107 для включення в кодований бітовий потік, що виводиться кодером 100.

Формувач 106 метаданих може формувати захисні біти (які можуть складатися з або містити код перевірки дійсності за допомогою криптографічних хеш-функций, об'єднаних (із шифруванням із закритим ключем, або "НМАС"), застосовні щонайменше для однієї з наступних операцій: декодування, перевірки дійсності або перевірки достовірності РОМ (і в деяких випадках також інших метаданих) із включенням їх у кодований бітовий потік і/або включення основних аудіоданих у кодований бітовий потік. Формувач 106 метаданих може надати такі захисні біти ланці 107 для включення в кодований бітовий потік.

У номінальному режимі роботи підсистема 108 вимірювання гучності діалогу обробляє аудіодані, що виводяться з декодера 101, для формування в результаті значень гучності (наприклад, значень стробованої та нестробованої гучності діалогу) і значень динамічного діапазону. Завдяки цим значенням формувач 106 метаданих може формувати метадані стану обробки гучності (РОМ) для включення (за допомогою формувача швидкості передачі даних/пристрою форматування 107) у кодований бітовий потік, що виводиться кодером 100.

Крім цього, у деяких випадках або як альтернатива підсистеми 106 і/або 108 кодера 100 бо можуть виконувати додатковий аналіз аудіоданих для формування метаданих, що вказують щонайменше одну характеристику аудіоданих для включення в кодований бітовий потік, що виводиться ланкою 107.

Кодер 105 кодує (наприклад, шляхом виконання стиснення) вихідні аудіодані ланки 104 вибору й передає кодовані аудіодані ланці 107 для включення в кодований бітовий потік, що виводиться ланкою 107.

Ланка 107 виконує мультиплексування кодованих аудіоданих з кодера 105 і метаданих (включаючи ГРОМ) з формувача 106 для формування кодованого бітового потоку, що виводиться ланкою 107, переважно, щоб кодований бітовий потік мав формат, зазначений у переважному варіанті здійснення даного винаходу.

Буфер 109 фрейму являє собою буферний запам'ятовувальний пристрій, що зберігає (наприклад, незмінним способом) щонайменше один фрейм кодованого бітового аудіопотоку, виведеного ланкою 107, а послідовність фреймів кодованого бітового аудіопотоку потім передається з буфера 109, що є виходом кодера 100, у систему 150 передачі.

ІГРБМ, сформовані формувачем 106 метаданих і включені в кодований бітовий потік ланкою 107, показують стан обробки гучності відповідних аудіоданих (наприклад, який тип(и) обробки гучності був виконаний з аудіоданими) і гучність (наприклад, виміряну гучність діалогу, стробовану та/або нестробовану гучність і/або динамічний діапазон) відповідних аудіоданих.

У даному описі "стробування" гучності та/або вимірювання рівня сигналу, виконане з аудіоданими, відноситься до спеціального рівня або порога гучності, причому обчислене (обчислені) значення, що перевищує граничне значення, включають у кінцеве вимірювання (наприклад, зневажають значеннями короткочасної гучності нижче -60 аВЕб5 у кінцевих виміряних значеннях). Стробування за абсолютною величиною приведе до фіксованого рівня або гучності, враховуючи це, стробування за відносним значенням приводить до значення, що залежить від поточного "нестробованого" виміряного значення.

У деяких втіленнях кодера 100 кодований бітовий потік, що накопичується в запам'ятовувальному пристрої 109 (і виводиться в систему 150 передачі), є бітовим потоком формату АС-3 або бітовим потоком формату Е-АС-3 і включає сегменти аудіоданих (наприклад, сегменти фрейму АВО-АВ5, показані на фіг. 4) і сегменти метаданих, причому сегменти аудіоданих відображають аудіодані, а кожний із щонайменше деяких сегментів метаданих

Зо включає метадані стану обробки гучності (РОМ). Ланка 107 вставляє РОМ (і в деяких випадках також метадані границі програми) у бітовий потік у наступному форматі. Кожний із сегментів метаданих, що включає І РОЗМ (і в деяких випадках також метадані границі програми), входить у сегмент зайвих бітів бітового потоку (наприклад, сегмент "Му" зайвих бітів, як показано на фіг. 4 або фіг. 7), або в поле "адабвзі" інформаційного сегмента бітового потоку ("В5І1") фрейму бітового потоку, або в поле допоміжних даних (наприклад, сегмент АОХ, показаний на фіг. 4 або фіг. 7) наприкінці фрейму бітового потоку. Фрейм бітового потоку може включати один або два сегменти метаданих, кожний з яких включає І РОМ. і якщо фрейм включає два сегменти метаданих, то один може бути присутнім у полі фрейму адарбзі, а інший - в полі фрейму АХ. У деяких варіантах здійснення винаходу кожний сегмент метаданих, що містить І РОМ, включає сегмент інформаційного наповнення (або контейнера) І РОМ, що має наступний формат: заголовок (як правило, що включає синхрослово, що ідентифікує початок інформаційного наповнення І РОМ, за яким йде щонайменше одне ідентифікуюче значення, наприклад, версія формату І РОМ, довжина, період, число, асоціативні значення вкладеного потоку даних, зазначені нижче в таблиці 2); і після заголовка щонайменше одне значення, що вказує діалог (наприклад, параметр "Канали(и) діалогу", наведений у таблиці 2), що вказує, чи мають відповідні аудіодані ознаку діалогу або не мають ознаки діалогу (наприклад, які канали відповідних аудіоданих мають ознаку діалогу); щонайменше одне значення нормативних вимог щодо гучності (наприклад, параметр "Тип регулювання гучності", наведений у таблиці 2), що вказує, чи відповідають відповідні аудіодані зазначеному пакету нормативних вимог щодо гучності; щонайменше одне значення обробки гучності (наприклад, один або кілька параметрів: "Прапор корекції стробованої гучності діалогу", "Тип корекції гучності", наведені в таблиці 2), що вказує щонайменше один тип обробки гучності, що був виконаний з відповідними аудіоданими; і щонайменше одне значення гучності (наприклад, один або кілька параметрів: "Відносна стробована гучність ІТИ", "Стробована гучність мови ІТИ", "Короткочасна гучність (3-секундний часовий інтервал) ІТО (ЕВО 3341)" і "Дійсне пікове значення", наведені в таблиці 2), що вказує щонайменше одну характеристику гучності відповідних аудіоданих (наприклад, пікову або середню гучність).

У деяких варіантах здійснення винаходу кожний сегмент метаданих, що містить ІРБ5М і бо метадані границі програми, містить заголовок фрейму (і в деяких випадках також додаткові основні елементи), а після заголовка фрейму (або заголовка фрейму та інших основних елементів) сегмент інформаційного наповнення (або контейнера) | РОМ, що має наступний формат: заголовок, як правило, що включає щонайменше одне ідентифікуюче значення (наприклад, версію формату І РОМ, довжину, період, число, асоціативні значення вкладеного потоку даних, зазначені в таблиці 2. наведеної в даному описі), і після заголовка - Ї РОМ їі метадані границі програми. Метадані границі програми можуть включати число фреймів до границі програми, значення коду (наприклад, значення "оїЕзеїехіві"), що вказує, чи містить фрейм тільки число фреймів до границі програми або й число фреймів до границі програми, і значення зсуву) і (у деяких випадках) значення зсуву.

У деяких втіленнях кожний сегмент метаданих, внесений ланкою 107 у сегмент зайвих бітів, або поле "адарві", або поле допоміжних даних фрейму бітового потоку, має наступний формат: заголовок фрейму (як правило, що включає синхрослово, що вказує початок сегмента метаданих, за яким йде ідентифікаційне значення, наприклад, версія основного елемента, довжина й період, число розширених елементів й асоціативні значення вкладеного потоку даних, зазначені нижче в таблиці 1); і після заголовка фрейму щонайменше одне захисне значення (наприклад, НМАС дайджест і значення цифрового відбитка аудіоданих, наведені в таблиці 1), що підходить щонайменше для однієї з операцій: декодування, перевірки дійсності або перевірки правильності щонайменше одного 3: метаданих стану обробки гучності або відповідних аудіоданих); і також після заголовка фрейму, якщо сегмент метаданих включає І РОЗМ, ідентифікатор інформаційного наповнення І РОМ і значення розміру інформаційного наповнення І РОМ, які ідентифікують наступні за ними метадані як інформаційне наповнення І РОМ і вказують розмір інформаційного наповнення І РОМ.

Сегмент інформаційного наповнення (або контейнера) І РОМ (переважно, що має формат, зазначений вище) йде за ідентифікатором інформаційного наповнення І РОМ і значеннями розміру інформаційного наповнення І РЗМ.

У деяких варіантах здійснення винаходу кожний сегмент метаданих у полі допоміжних даних (або в полі "адарві") фрейму має три рівні структури:

Зо структура високого рівня, що включає прапор, що вказує, чи включає поле допоміжних даних (або поле адабрзі) метадані, щонайменше одне ідентифікуюче значення, що вказує який типи) метаданих є присутніми, і, як правило, також значення, що вказує, скільки біт метаданих (наприклад, кожного типу) присутні (якщо метадані присутні). Одним типом метаданих, які можуть бути присутніми, є Г5РМ, іншим типом метаданих, які можуть бути присутніми, є метадані границі програми, ще одним типом метаданих, які можуть бути присутніми, є метадані медіадосліджень (наприклад, метадані Мієїзеп Медіа Незеагсй); структура середнього рівня, що включає основний елемент для кожного ідентифікованого типу метаданих (наприклад, заголовок фрейму, захисні значення, ідентифікатор інформаційного наповнення І РОМ і значення розміру інформаційного наповнення І РОМ, як згадувалося вище, для кожного ідентифікованого типу метаданих); і структура низького рівня, що включає будь-яке інформаційне наповнення для одного основного елемента (наприклад, інформаційне наповнення І РОМ, якщо основним елементом визначено його присутність і/або інформаційне наповнення метаданих іншого типу, якщо основним елементом визначена його присутність).

Значення даних у такій трирівневій структурі можуть бути вкладеними. Наприклад, захисне (захисні) значення для інформаційного наповнення ГРОМ і/або іншого інформаційного наповнення метаданих, ідентифікованого основним елементом, може бути включене після кожного інформаційного наповнення, ідентифікованого основним елементом (і, таким чином, після заголовка фрейму основного елемента). В одному прикладі заголовок фрейму може ідентифікувати інформаційне наповнення І РБЗМ і інше інформаційне наповнення метаданих, ідентифікатор інформаційного наповнення та значення розміру інформаційного наповнення для першого інформаційного наповнення (наприклад, інформаційного наповнення І РОМ) може йти за заголовком фрейму, саме перше інформаційне наповнення може йти за ідентифікатором і значенням розміру, ідентифікатор інформаційного наповнення й значення розміру інформаційного наповнення для другого інформаційного наповнення може йти за першим інформаційним наповненням, саме друге інформаційне наповнення може йти за цими ідентифікатором і значенням розміру, а захисні біти для обох інформаційних наповнень (або для значень основного елемента й обох інформаційних наповнень) можуть йти за останнім інформаційним наповненням.

У деяких варіантах здійснення винаходу, якщо декодер 101 одержує бітовий аудіопотік, сформований відповідно до варіанта здійснення винаходу із криптографічним хешем, то декодер виконується з можливістю синтаксичного аналізу й добування криптографічного хеша із блока даних, визначеного бітовим потоком, зазначений блок містить метадані стану обробки гучності (РОМ) і в деяких випадках також метадані границі програми. Валідатор 102 може використовувати криптографічний хеш для перевірки отриманого бітового потоку та/або пов'язаних з ними метаданих. Наприклад, якщо валідатор 102 встановлює дійсність РОМ на основі збігу еталонного криптографічного хеша та криптографічного хеша, добутого із блока даних, то він може відключити обробку процесором 103 відповідних аудіоданих та ініціювати передачу (без змін) аудіоданих ланкою 104 вибору. Крім цього в деяких випадках або як альтернатива замість методу, заснованого на криптографічному хеші, можуть бути використані інші типи криптографічних методів.

Кодер 100, наведений на фіг. 2, може визначити (завдяки І РОМ їі в деяких випадках також метаданим границі програми, добутим за допомогою декодера 101), що блок постобробки/попередньої обробки виконав тип обробки гучності аудіоданих, які будуть закодовані (елементами 105, 106, і 107) і, отже, можна створювати (у формувачі 106) метадані стану обробки гучності, які включають спеціальні параметри, використовувані в і/або отримані від проведеної раніше обробки гучності. У деяких втіленнях кодер 100 може створити (їі включати у вихідний кодований бітовий потік) метадані стану обробки, що вказують послідовність подій обробки аудіоконтенту, поки кодер розпізнає типи обробки, які були проведені з аудіоконтентом.

На фіг. З наведена структурна схема декодера (200), який є варіантом здійснення блока обробки звукового сигналу відповідно до винаходу, і постпроцесора (300), з'єднаного з ним.

Постпроцесор (300) також є варіантом здійснення блока обробки звукового сигналу відповідно до винаходу. Будь-який з компонентів або елементів декодера 200 і постпроцесора 300 може бути втілений як один або кілька процесів і/або одна або кілька схем (наприклад, спеціалізовані інтегральні схеми, програмовані користувачем вентильні матриці або інші інтегральні схеми) в апаратних засобах, програмному забезпеченні або комбінації апаратних засобів і програмного забезпечення. Декодер 200 містить буфер 201 фрейму, синтаксичний аналізатор 205,

Зо аудіодекодер 202, ланку 203 перевірки стану аудіоданих (валідатор) і ланку 204 формування керуючих бітів, з'єднані, як показано на схемі. Також зазвичай декодер 200 включає інші елементи обробки (не показані).

Буфер 201 фрейму (буферний запам'ятовувальний пристрій) зберігає (наприклад, незмінним способом) щонайменше один фрейм кодованого бітового аудіопотоку, отриманого декодером 200. Послідовність фреймів кодованого бітового аудіопотоку передається з буфера 201 у синтаксичний аналізатор 205.

Синтаксичний аналізатор 205 з'єднаний і виконаний з можливістю добування метаданих стану обробки гучності (РОМ), у деяких випадках також метаданих границі програми та інших метаданих з кожного фрейму кодованого вхідного аудіосигналу, з можливістю передачі щонайменше І РОМ (і метаданих границі програми, якщо вони добуті) валідатору 203 стану аудіоданих і ланці 204, з можливістю передачі І РОМ (і в деяких випадках також метаданих границі програми) як вихідних даних (наприклад, постпроцесору 300), з можливістю добування аудіоданих з кодованого вхідного аудіосигналу й передачі добутих аудіоданих у декодер 202.

Кодований бітовий аудіопотік, що входить у декодер 200, може бути або бітовим потоком формату АС-3, або бітовим потоком формату Е-АС-3, або бітовим потоком формату роїіру Е.

Система, наведена на фіг. З також включає постпроцесор 300. Постпроцесор 300 містить буфер 301 фрейму та інші елементи обробки (не показані), що включають щонайменше один елемент обробки, з'єднаний з буфером 301. Буфер 301 фрейму зберігає (наприклад, незмінним способом) щонайменше один фрейм декодованого бітового аудіопотоку, отриманого постпроцесором 300 від декодера 200. Елементи обробки постпроцесора 300 з'єднані й виконані з можливістю прийому й адаптивної обробки послідовності фреймів вихідного декодованого бітового аудіопотоку буфера 301 за рахунок використання метаданих (у тому числі значень ГРОМ), що виводяться з декодера 202, і/або керуючих бітів, що виводяться з ланки 204 декодера 200. Як правило, постпроцесор 300 виконаний з можливістю здійснення адаптивної обробки гучності аудіоданих, що декодуються, за рахунок використання значень

ІЇРО5М і в деяких випадках також метаданих границі програми (наприклад, на основі стану обробки гучності й/або однієї або декількох характеристик аудіоданих, зазначених І РОМ для аудіоданих, що вказують одну аудіопрограму).

Різні втілення декодера 200 і постпроцесора 300 виконані з можливістю виконання різних 60 варіантів здійснення способу відповідно до винаходу.

Аудіодекодер 202 декодера 200 виконаний з можливістю декодування аудіоданих, добутих за допомогою синтаксичного аналізатора 205 для формування декодованих аудіоданих. і передачі декодованих аудіоданих як вихідних даних (наприклад, постпроцесора 300).

Валідатор 203 стану виконаний з можливістю перевірки дійсності й перевірки правильності | РОМ (їі в деяких випадках інших метаданих), переданих йому. У деяких варіантах здійснення винаходу І РОМ є (або включені в) блоком даних, що був включений у вхідний бітовий потік (наприклад, відповідно до варіанта здійснення даного винаходу). Блок може містити криптографічний хеш (код перевірки дійсності за допомогою криптографічних хеш-функцій, об'єднаних із шифруванням із закритим ключем, або "НМАС") для обробки І РОМ (і в деяких випадках також і інших метаданих) і/або основних аудіоданих (наданих синтаксичним аналізатором 205 і/або декодером 202 валідатору 203). У цих варіантах здійснення винаходу блок даних може мати цифровий підпис, таким чином, наступний в тракті блок обробки звукового сигналу може відносно легко визначити достовірність і підтвердити правильність метаданих стану обробки.

Інші криптографічні методи, включаючи, але не обмежуючись яким-небудь одним або декількома криптографічними методами без НМАС, можуть бути використані для перевірки правильності | РОМ (наприклад, у валідаторі 203) при забезпеченні безпечної передачі й прийому І РОМ і/або основних аудіоданих. Наприклад, перевірка правильності (з використанням такого криптографічного методу) може бути виконана в кожному блоці обробки звукового сигналу, що приймає варіант здійснення бітового аудіопотоку відповідно до винаходу для визначення, чи проходили метадані стану обробки гучності й відповідні аудіодані, включені в бітовий потік, (і/або виникли внаслідок) спеціальну обробку гучності (як зазначено метаданими) і чи не були модифіковані після виконання такої спеціальної обробки гучності.

Валідатор 203 стану передає дані керування формувачу 204 керуючих бітів і/або передає дані керування як вихідні (наприклад, у постпроцесор 300) з метою вказівки результатів операції перевірки правильності. У відповідь на дані керування (і в деяких випадках також інші метадані, добуті із вхідного бітового потоку) ланка 204 може формувати (і передавати в постпроцесор 300) або: керуючі біти, що вказують, що декодовані аудіодані, виведені з декодера 202, пройшли

Зо спеціальний тип обробки гучності (коли | РОМ показують, що аудіодані, виведені з декодера 202, пройшли спеціальний тип обробки гучності, а керуючі біти валідатора 203 указують, що

І РОМ дійсні); або керуючі біти, що вказують, що декодовані аудіодані з декодера 202 повинні пройти спеціальний тип обробки гучності (наприклад, коли І РОМ указують, що аудіодані, що виводяться з декодера 202, не проходили спеціального типу обробки гучності, або коли І РОМ указують, що аудіодані, що виводяться з декодера 202, пройшли спеціальний тип обробки гучності, але керуючі біти валідатора 203 показують, що І РОМ недійсні).

Як альтернатива декодер 200 передає метадані, добуті декодером 202, із вхідного бітового потоку й І РОМ (і в деяких випадках також метадані границі програми), добуті синтаксичним аналізатором 205 із вхідного бітового потоку, постпроцесору 300, а постпроцесор 300 виконує обробку гучності декодованих аудіоданих за рахунок використання І РЗМ (і в деяких випадках також метаданих границі програми) або виконує перевірку правильності І РОМ, а потім виконує обробку гучності декодованих аудіоданих за рахунок використання І РЗМ (і в деяких випадках також метаданих границі програми), якщо перевірка правильності показує, що І РБЗМ є дійсними.

У деяких варіантах здійснення винаходу, якщо декодер 200 отримує бітовий аудіопотік, сформований відповідно до одного з варіантів здійснення винаходу із криптографічним хешем, то декодер виконується з можливістю аналізувати й добувати криптографічний хеш із блоку даних, визначених з бітового потоку, причому зазначений блок містить метадані стану обробки гучності (І РОМ).

Валідатор 203 може використовувати криптографічний хеш для перевірки правильності прийнятого бітового потоку та/або пов'язаних з ними метаданих. Наприклад, якщо валідатор 203 виявляє на підставі збігу еталонного криптографічного хеша й криптографічного хеша, добутого із блока даних, що РОМ можуть вважатися дійсними, те це може сигналізувати наступному у тракті блока обробки звукового сигналу (наприклад, постпроцесора 300, що може бути включати блок авторегулювання гучності) передавати (не змінені) аудіодані бітового потоку. Крім цього, у деяких випадках або як альтернатива інші типи криптографічних методів можуть бути використані замість методу, заснованого на криптографічному хеші.

У деяких втіленнях декодера 200 кодований бітовий потік, отриманий (і накопичений у запам'ятовувальному пристрої 201), є бітовим потоком формату АС-3 або бітовим потоком бо формату Е-АС-3 і включає сегменти аудіоданих (наприклад, сегменти АВО-АВ5 фрейму,

показані на фіг. 4) і сегменти метаданих, причому сегменти аудіоданих є ознакою аудіоданих, а кожний із щонайменше деяких сегментів метаданих включає метадані стану обробки гучності (ІРБМ) і в деяких випадках також метадані границі програми. Ланка 202 декодера (і/або синтаксичного аналізатора 205) виконана з можливістю добування з бітового потоку І РОЗМ (Її в деяких випадках також метаданих границі програми), що мають наступний формат. Кожний із сегментів метаданих, що включає І РОЗМ (і в деяких випадках також метадані границі програми), входить у сегмент зайвих бітів фрейму бітового потоку, або в поле "адарвзі" інформаційного сегмента бітового потоку ("В5І" фрейму бітового потоку, або в поле допоміжних даних (наприклад, у сегмент АХ, показаний на фіг. 4) наприкінці фрейму бітового потоку. Фрейм бітового потоку може включати один або два сегменти метаданих, кожний з яких може включати

ІЇРБМ, якщо фрейм включає два сегменти метаданих, то один може бути присутнім у полі адарві фрейму, а інший - в полі А0ЮХ фрейму. У деяких варіантах здійснення винаходу кожний сегмент метаданих, що включає РОМ, включає сегмент інформаційного наповнення (або контейнера) І РОМ, що має наступний формат: заголовок (як правило, що включає синхрослово, що визначає початок інформаційного наповнення І РОМ, а потім ідентифікаційні значення, наприклад, версію формату ІРБМ, довжину, період, число, асоціативні значення вкладеного потоку даних, зазначені нижче в таблиці 2); і після заголовка щонайменше одне значення, що вказує діалог (наприклад, параметр "Каналі(и) діалогу", наведений у таблиці 2), що вказує, мають або не мають ознаку діалогу відповідні аудіодані (наприклад, які канали відповідних аудіоданих мають ознаку діалогу); щонайменше одне значення дотримання нормативних вимог щодо гучності (наприклад, параметр "Тип регулювання гучності" наведений у таблиці 2), що вказує чи відповідають відповідні аудіодані зазначеному пакету нормативних вимог щодо гучності; щонайменше одне значення обробки гучності (наприклад, один або кілька параметрів "Прапор корекції стробованої гучності діалогу", "Тип корекції гучності", наведені в таблиці 2), що вказує щонайменше один тип обробки гучності, що був виконаний з відповідними аудіоданими; і щонайменше одне значення гучності (наприклад, один або кілька параметрів "Відносна стробована гучність ІТИ", "Стробована гучність мови ІТИ", "Короткочасна гучність (3-секундний

Зо часовий інтервал) ІТО (ЕВО 3341)" і "Дійсне пікове значення", наведені в таблиці 2), що вказує щонайменше одну характеристику гучності (наприклад, пікову або середню гучність) відповідних аудіоданих.

У деяких варіантах здійснення винаходу кожний сегмент, що містить метадані І РОМ і метадані границі програми, містить заголовок фрейму (і в деяких випадках також додаткові основні елементи), а після заголовка фрейму (або заголовка фрейму та інших основних елементів) сегмент інформаційного наповнення (або контейнера) | РОМ, що має наступний формат: заголовка, як правило, що включає щонайменше одне ідентифікаційне значення (наприклад, версію формату І РОМ, довжину, період, число, асоціативні значення вкладеного потоку даних, зазначені нижче в таблиці 2), і після заголовка - І РОМ і метадані границі програми. Метадані границі програми можуть включати число фреймів до границі програми та значення коду (наприклад, значення "оїїзеїехібі"), що вказує, чи містить фрейм тільки число фреймів до границі програми або й число фреймів до границі програми, і значення зсуву), і (у деяких випадках) значення зсуву.

У деяких втіленнях аналізатор 205 (або ланка 202 декодера) виконаний з можливістю добування із сегмента зайвих бітів або поля "адарзі", або поля допоміжних даних фрейму бітового потоку, причому кожний сегмент метаданих має наступний формат: заголовок фрейму (як правило, що включає синхрослово, що вказує початок сегмента метаданих, за яким йде щонайменше одне ідентифікаційне значення, наприклад, версія основного елемента, довжина й період, число розширених елементів й асоціативні значення вкладеного потоку даних, зазначені нижче в таблиці 1); і після заголовка фрейму щонайменше одне захисне значення (наприклад, НМАС дайджест і значення цифрового відбитка аудіоданих, наведені в таблиці 1), що підходить щонайменше для однієї з операцій: декодування, перевірки дійсності або перевірки правильності щонайменше одного 3: метаданих стану обробки гучності або відповідних аудіоданих); і також після заголовка фрейму, якщо сегмент метаданих включає І РОЗМ, ідентифікатор інформаційного наповнення І РОМ і значення розміру інформаційного наповнення І РОМ, які ідентифікують наступні за ними метадані як інформаційне наповнення І РОМ і вказують розмір інформаційного наповнення І РОМ.

У цілому кодований бітовий аудіопотік, сформований переважним варіантами здійснення винаходу, має структуру, що забезпечує механізм позначення елементів метаданих і підлеглих елементів як основних (обов'язкових) або розширених (необов'язкових елементів). Це дозволяє масштабувати в численних додатках швидкість передачі даних бітового потоку (що включає метадані). Основні (обов'язкові) елементи переважного синтаксису бітового потоку також повинні бути здатні подати сигнал про те, що розширені (додаткові) елементи, пов'язані з аудіоконтентом, присутні ("усередині смуги) і/або перебувають у віддаленому місці (за межами смуги).

Основний елемент(и) повинен бути присутнім у кожному фреймі бітового потоку. Деякі підлеглі елементи основних елементів є необов'язковими й можуть бути представлені в будь- якій комбінації. Розширені елементи не повинні бути присутніми у кожному фреймі (щоб обмежити бітрейт-навантаження). Таким чином, розширені елементи в деяких фреймах можуть бути присутніми, а в інших - ні. Деякі підлеглі елементи розширеного елемента є необов'язковими та можуть бути представлені в будь-якій комбінації, при цьому деякі підлеглі елементи розширеного елемента можуть бути обов'язковими (тобто, якщо розширений елемент присутній у фреймі бітового потоку).

У класі варіантів здійснення винаходу формується (наприклад, за допомогою блока обробки звукового сигналу, що втілює винахід) кодований бітовий аудіопотік, що містить послідовність сегментів аудіоданих і сегментів метаданих. Сегменти аудіоданих є ознакою аудіоданих, кожний із щонайменше деяких сегментів метаданих включає метадані стану обробки гучності (ГРОМ) і в деяких випадках також метадані границі програми, а сегменти аудіоданих мультиплексуються із сегментами метаданих з часовим розділенням. У переважних варіантах цього класу кожний із сегментів метаданих має переважний формат, описуваний у даному описі.

В одному переважному форматі кодований бітовий потік є бітовим потоком формату АС-3 або бітовим потоком формату Е-АС-3, а кожний із сегментів метаданих, що включає І РОМ, входить (наприклад, за допомогою ланки 107 переважного втілення кодера 100) в якості

Зо додаткової інформації бітового потоку в полі "адарві" (показаного на фіг. 6) інформаційного сегмента бітового потоку ("В5І") фрейму бітового потоку, або в полі допоміжних даних фрейму бітового потоку, або в сегменті зайвих бітів фрейму бітового потоку.

У переважному форматі кожний із фреймів у полі адарзі (або сегменті зайвих бітів) фрейму включає основний елемент, що має формат, наведений нижче в таблиці 1:

Таблиця 1 тенет (ее (ВШ

Параметр Опис й -

Необов'язковий нини установленим значенням 0х5838 бен зн елемента «Який ПИ СІВ елемента ен шт нн ти елемента (ххх)

Показує кількість розширених елементів метаданих, пов'язаних з основним елементом.

Число розширених й ' - елементів Це значення може збільшуватися/зменшуватися Обов'язковий в міру проходження бітового потоку від виробітку до розподілу й кінцевого поширення. потоку даних даних пов'язаний основний елемент. 256-бітний НМАС дайджест (з використанням

Підпис (НМАС дайджест) алгоритму ЗНА-2), обчислений за аудіоданими, Обов'язковий основним елементом та всіма розширеними елементами усього фрейму.

порядку до границі голові або хвості файлу/ потоку аудіопрограми. програми Таким чином, зміна версії основного елемента може бути використана для сигналізації про включення цього параметра.

Цифровий відбиток аудіоданих береться по

Цифровий відбиток деякій кількості ІКМ аудіосемплів, Необов'язковий аудіоданих представлених полем періоду основного елемента.

Цифровий відбиток відеоданих береться по

Цифровий відбито деякій кількості стиснутих відеосемплів (якщо Необов'язковий відеоданих такі є), представлених полем періоду основного елемента.

Дане поле визначене для змісту ОВІ. і/або ОШІО (може бути надлишковим при цифровому

ОА ЛОШІЮ відбитку), що посилається на зовнішнє| Необов'язковий розміщення додаткового змісту програми (суті) і/або метаданих, пов'язаних з бітовим потоком.

У переважному форматі кожне з полів адарзі (або полів допоміжних даних) або сегментів зайвих бітів, які містять РОМ, що містять заголовок фрейму (і в деяких випадках також додаткові основні елементи), а після заголовка фрейму (або заголовка фрейму та інших основних елементів) - наступні значення І РОМ (параметри): ідентифікатор інформаційного наповнення (що визначає метадані як РОМ), що йде за значеннями основного елемента (наприклад, як зазначено в таблиці 1); розмір інформаційного наповнення (що вказує розмір інформаційного наповнення І РБМ), що йде за ідентифікатором інформаційного наповнення; і дані Ї РОМ (що йдуть за ідентифікатором інформаційного наповнення й значенням розміру інформаційного наповнення), що мають формат, показаний у наступній таблиці (таблиці 2):

Таблиця 2

Коефіцієнт

Параметр ІРБЗМ Кількість Обов'язковий/ розміщення

Інтелектуальна опис унікальних | Необов'язковий (період гучність) станів оновлення параметра)

Версбія!РЗМ 17777711 |Обов'яязковвий/З/ та | ожееня 1 період (ХХХ ХХХ полів

ЧислоїРЗМ 17777771 Обов'язковий | -

Зв'язаність вкладеного потоку Обов'язковий

ІЇРБМ

Указує, яка комбінації І, С

В аудіоканалів містить мову протягом попередніх 0,5

Канал(и) діалогу секунд Коли мова не Обов'язковий 70,5 секунди присутня в будь-якій І, С (типовий) або В комбінації, то цей параметр вказує "немає діалогу"

Указує, що відповідний аудіопотік даних відповідно

Тип регулювання де визначеного набор) Обов'язковий Фрейм гучності правил (наприклад АТС

А/85 або ЕВІ 2128

Необов'язковий («((Є -і Вказує, чи був присутнім тільки

Прапор корекції . ' в тоді, ЯКЩО тип стробованої скоректований зв'язаний 2 регулювання Фрейм учності діалогу аудіопотік на основі гучності вказує, що стробування діалогу / пиши відповідний звук без виправлення)

Указує, чи був скоректований аудіопотік за Необов'язковий (є допомогою нескінченного присутні тільки тоді, ш прогнозування (на основі якщо тип

Тип корекції 7. - гучності файлів) або за допомогою 2 регулювання Фрейм контролера гучності й гучності вказує що динамічного діапазону, що відповідні аудіодані працює в режимі реального не скоректовані) часу.

Указує інтегральну гучність за ІТО-8 В5. 1770-3

Відносна зв'язаного аудіопотоку без стробована застосування метаданих! 128 Необов'язковий 1с гучність ІТИ (ІМЕ)| (наприклад, 7 біт: -58. --5 -5,5 ІКЕБ5 із кроком 0,5

ЇКЕЗ

Указує 1/3 інтегрально гучності мови/ діалогу за

Стробована ІТО-8 В5. 1770-3 зв'язаного гучність мови ІГЦ| аудіопотоку без 128 Необов'язковий 1с (ІМЕ) застосування метаданих! (наприклад 7 біт: -58 -- 5,5

І КЕ5 із кроком 0,5 І КЕ5

Указує нестробовану гучність протягом З секунд за ІТ (ІТО-85.1771-1)

Короткочасна (3- | зв'язаного аудіопотоку без секундний часовий | застосування метаданих 256 Необов'язковий 0 с інтервал) гучність (ковзне вікно) (Ф - за ІТИ (ЕВОЗЗ41) |оновлення вимірювання 10

Гц (наприклад, 8 біт 116 - - 11,51 КЕ5 із кроком 0,5

ЇКЕЗ

Указує значення ТииеРеак (дБ ТР) за ІТО-А 85. 1770-

З Додаток 2, зв'язаного аудіопотоку без

Дійсне пікове, застосування метаданих Й (тобто, найбільше 256 Необов'язковий 05с значення - значення за період фрейму, оповідомлене в поле періоду елемента) 116-- 11,5 ІКЕ5 із кроком 0,51 КЕ5

Зсув Указує зсув нин мікшування мікшування гучності

Указує у фреймах, коли зустрінеться або зустрілася границя програми.

Границя програми Коли границя програми не

Є границею фрейму, додатковий зсув семплів вкаже, як далеко у фреймі перебуває границя поточної програми.

В іншому переважному форматі кодованого бітового потоку, згенерованого відповідно до винаходу, бітовий потік являє собою бітовий потік формату АС-3 або бітовий потік формату Е-

АС-3, і кожний із сегментів метаданих, що включає І РОМ (і факультативно також метадані границі програми), включається (наприклад, ланкою 107 переважного варіанта здійснення кодера 100) у кожне з: сегмента зайвих бітів фрейму бітового потоку; або поля "адарві" (зображено на фіг. 6) інформаційного сегмента бітового потоку ("В5І") фрейму бітового потоку; або поля допоміжних даних (наприклад, сегмента АХ, зображеного на фіг. 4) наприкінці фрейму бітового потоку. Фрейм може включати один або два сегменти метаданих, кожний з яких включає ЕРЗМ, а якщо фрейм включає два сегменти метаданих, один може бути присутнім у полі фрейму адарбзі, а інший - в полі фрейму АОХ. Кожний сегмент метаданих, що включає

ЕРБМ, має формат, визначений вище з посиланням на таблиці 1 і 2, наведені вище (тобто він включає основні елементи, зазначені в таблиці 1, з наступним ІО інформаційного наповнення (ідентифікуючим метадані як ЕРЗМ) і значення розміру інформаційного наповнення, визначені вище, за яким іде інформаційне наповнення (дані ЕРОМ, які мають формат, зазначений у таблиці 2).

В іншому переважному форматі кодований бітовий потік є бітовим потоком формату Воіру

Е, а кожний із сегментів метаданих, що включає ЕРОМ (а в деяких випадках метадані границі програми), входить в оточення перших М семплів захисного частотного інтервалу ЮРоїру Е.

Бітовий потік формату ЮоІру Е, що включає такий сегмент метаданих, що включає ЕРБМ, переважно включає значення, що вказує довжину інформаційного наповнення ЕРЗМ, що повідомляється в слові Ра преамбули згідно з «МРТЕ 33 7М (частота повторення слова Ра згідно з «ФМРТЕ 337М переважно залишається ідентичною зв'язаній частоті зміни відеокадрів).

У переважному форматі, у якому кодований бітовий потік являє собою бітовий потік формату Е-АС-3. кожний із сегментів метаданих, що містить ЕРЗМ (і факультативно також метадані границі програми), включається (наприклад, ланкою 107 переважного варіанта реалізації кодера 100) як додаткова інформація бітового потоку в сегмент зайвих бітів, у поле "адаьві" інформаційного сегмента бітового потоку ("Вб5/) фрейму бітового потоку. Далі описуються додаткові аспекти кодування бітового потоку формату Е-АС-3 з І РОМ у цьому переважному форматі: 1. під час створення бітового потоку формату Е-АС-3, у той час як кодер Е-АС-3 (який вставляє значення І РОМ у бітовий потік) "активний", для кожного створеного фрейму (синхрофрейму), бітовий потік повинен містити блок метаданих (що включає ІРБМ), розташований у полі адабзі (або сегменті зайвих бітів) фрейму. Біти, які повинні нести блок метаданих, не повинні збільшувати бітрейт кодера (довжину фрейму); 2. Кожний блок метаданих (що містить І РОМ) повинен містити наступну інформацію: прапор типу корекції гучності: де "1" означає, що гучність відповідних аудіоданих була скоректована до кодера, а "0" означає, що гучність була скоректована коректором гучності, вбудованим у кодер (наприклад, процесором 103 корекції гучності кодера 100, зображеному на фіг. 2); мовний канал: відображає, який вихідний канал(и) містить мова (за попередні 0,5 с). Якщо мова не виявлена, то це повинне бути зазначене як таке; гучність мови: позначає інтегральну гучність мови кожного відповідного аудіоканалу, що містить мову (за попередні 0,5 с); гучність ІТО: позначає інтегровану гучність згідно ТО В5. 1770-3 кожного відповідного аудіоканалу; і посилення: складене (складені) посилення гучності для зворотної дії в декодері (для демонстрації здатності до зворотної дії); 3. У той час, коли кодер формату Е-АС-3 (який вставляє значення І РОМ у бітовий потік) "активний" і приймає фрейм формату АС-3 із прапором "надійності", контролер гучності в кодері (наприклад, процесор 103 корекції гучності кодера 100, зображеного на фіг. 2) повинен бути обійдений. Значення адіайпопт і ОВС "надійного" джерела повинні бути пропущені через (наприклад, генератором 106 кодера 100) у компонент кодера Е-АС-3 (наприклад, ланку 107 кодер 100). Генерування блоків І РОМ триває, і прапор типу корекції гучності встановлюється в

Зо "1". Послідовність обходу контролера гучності повинна бути синхронізована з початком декодованого фрейму формату АС-3. де з'являється прапор "надійності". Послідовність обходу контролера гучності повинна здійснюватися в такий спосіб: регулятор ступеня підтримувача гучності зменшується зі значення 9 до значення 0 протягом 10 періодів аудіоблоків (тобто 53,3 мс), регулятор кінцевого вимірювача підтримувача гучності розміщується в обхідний режим (ця операція повинна привести до плавного переходу). Термін "надійний" обхід регулятора рівня означає, що значення аїаіІпогт бітового потоку джерела також повторно використовується на виході кодера (наприклад, якщо "надійний" бітовий потік джерела має значення аїйаІпопт, рівне - 30, то вихід кодера повинний використовуватися -30 для вихідного значення аіаІпогт); 4. У той час, коли кодер формату Е-АС-3 (який вставляє значення І РОМ у бітовий потік) "активний" і приймає фрейм формату АС-3 без прапора "надійності", контролер гучності в кодері (наприклад, процесор 103 корекції гучності кодера 100, зображеного на фіг. 2) повинен бути активний. Генерування блоків І РОМ триває, і прапор типу корекції гучності встановлюється в "0". Активаційна послідовність контролера гучності повинна бути синхронізована з початком декодованого фрейму формату АС-3, де зникає прапор "надійності". Активаційна послідовність контролера гучності повинна здійснюватися в такий спосіб: регулятор ступеня підтримувача гучності збільшується від значення 0 до значення 9 протягом 1 періоду аудіоблоків. (тобто 5,3 мс) і регулятор кінцевого вимірювача підтримувача гучності приводиться в "активний" режим (ця операція повинна привести до плавного переходу й включати інтегральне скидання кінцевого вимірювача); і 5. під час кодування, графічний інтерфейс користувача (27) повинен відображати користувачеві наступні параметри: "Вхідна аудіопрограма:

ІНадійна/Ненадійна)" - стан цього параметра заснований на наявності прапора "надійності" у вхідному сигналі; і "Корекція гучності в реальному часі: |ВкКлючена/Виключена)" - стан цього параметра заснований на тому, чи активний цей контролер гучності, вбудований у кодер. При декодуванні бітового потоку формату АС-3 або Е-АС-3, що має І РОМ (у переважному форматі), включений у сегмент зайвих бітів, або поле "адарві" інформаційного сегмента бітового потоку ("В5г), кожного фрейму бітового потоку, декодер повинен піддавати синтаксичному аналізу дані блоку І РОЗМ (у сегменті зайвих бітів або полі адабві) і проводити всі з добутих значень І РОМ у графічний інтерфейс користувача (СШІ). Набір добутих значень | РОМ оновлюється кожного бо фрейму.

В іншому переважному форматі кодованого бітового потоку, згенерованому відповідно до винаходу, кодований бітовий потік являє собою бітовий потік формату АС-3 або бітовий потік формату Е-АС-3, і кожний із сегментів метаданих, що включає І РОМ, включається (наприклад, ланкою 107 переважної реалізації кодера 100) у сегмент зайвих бітів, або в сегмент А!йх, або як додаткова інформація бітового потоку в поле "адарві" (показаному на фіг. 6) інформаційного сегмента бітів потік ("ВІ") фрейму бітового потоку. У цьому форматі (який є різновидом формату, описаного вище з посиланнями на таблиці 1 і 2), кожне з полів адарві (або Ах, або зайвих бітів), що містить І РОЗМ, містить наступні значення І РОМ: основні елементи, наведені в таблиці 1, за якими йде ІО інформаційного наповнення (що ідентифікує метадані як І РОМ), ії значення розміру інформаційного наповнення, за якими йде інформаційне наповнення (І РОМ дані), що має наступний формат (подібний до обов'язкових елементів, наведених у таблиці 2 вище): версія інформаційного наповнення ІРБМ: 2-бітне поле, що відображає версію інформаційного наповнення І РОМ; діаіїснап: З-бітне поле, що відображає чи містить розмовний діалог Лівий, Правий і/або

Центральний канали відповідних аудіоданих. Розподіл бітів поля діаїснап може бути наступним: біт 0, що відображає наявність діалогу в лівому каналі, зберігається в найстаршому біті поля аіаІснап; і біт 2, що відображає наявність діалогу в центральному каналі, зберігається в наймолодшому біті поля діаіснап.

Кожний біт поля діаі(снап установлюється в "1", якщо відповідний канал містить розмовний діалог під час попередніх 0,5 с програми;

Іоцагедіур: 4-бітне поле, що відображає те, якому стандарту нормативних вимог щодо гучності задовольняє гучність програми. Установка поля "Ююцагедіур" в "000" указує на те, що

ІЇРБМ не відображає відповідність нормативним вимогам щодо гучності. Наприклад, одне значення цього поля (наприклад, 0000) може означати, що відповідність стандарту нормативних вимог по гучності не зазначена, інше значення цього поля (наприклад, 0001) може вказувати на те, що аудіодані програми відповідають стандарту АТС А/85, і інше значення цього поля (наприклад, 0010) указувати на те, що аудіодані програми відповідають стандарту ЕВИО Н128. У зазначеному прикладі, якщо поле встановлене в будь-яке інше значення, відмінне від "0000", поля Іоцасо!таїаїдаї і Іоцасоптур повинні йти слідом в інформаційному наповненні;

Іоцасогтаїаідаї: однобітне поле, що вказує, якщо була застосована корекція стробованої гучності діалогу. Якщо гучність програми була скоректована з використанням стробування діалогу, значення поля ІоцасогтаїаІдаї установлюється в "1". Інакше воно встановлюється в "0";

Іоцасогтур: однобітне поле, що вказує тип корекції гучності, застосовуваної до програми.

Якщо гучність програми була скоректована за допомогою операції нескінченної прогнозної (файлової) корекції гучності, значення поля Іошдсогур установлюється в "0". Якщо гучність програми була скоректована з використанням комбінації вимірювання гучності в реальному часі й керування динамічним діапазоном, значення цього поля встановлюється в "1";

ІоцагеЇдаїе: однобітне поле, що вказує чи існують дані відносної стробованої гучності (ГО).

Якщо поле ІоцагеіЇдаїє установлюється в "1", 7-бітне поле йшоцагєЇдаї повинне йти слідом в інформаційному наповненні;

Іоцагеїдаї: 7-бітне поле, що вказує відносну стробовану гучність програми (ІТ). Це поле вказує інтегральну гучність аудіопрограми, виміряну відповідно до ІТО-В В5. 1770-3 без яких- небудь регулювань посилення внаслідок застосування аіаіпогпт і стиснення динамічного діапазону. Значення від 0 до 127 інтерпретуються як від -58 ЇКЕ5 до 5,5 І КЕ5, із кроком 0,5

ЇКЕ5;

ІоцазрсНнаоаїе: однобітне поле, що вказує чи існують дані стробованої гучності мови (ІТ0).

Якщо поле ІоцдезрсНдаїе установлюється в "1", 7-бітне поле Іюцазресндаї повинне йти слідом в інформаційному наповненні;

Іоцавзренадаї: 7-бітне поле, що вказує стробовану гучність мови програми. Це поле вказує інтегральну гучність всієї відповідної аудіопрограми, виміряну відповідно до формули (2) згідно з ІТО-8 85.1770-3 і без яких-небудь регулювань посилення внаслідок застосування діаІпогт і стиснення динамічного діапазону. Значення від 0 до 127 інтерпретуються як від - 58 до 5,5

КЕ, із кроком 0,5 ОКЕ5;

ІоцдвзіппЗзе: однобітне поле, що вказує чи існують дані короткострокової (З с) гучності. Якщо поле встановлене в "1", 7-бітне поле Іоц(біптЗ5 повинне йти слідом в інформаційному наповненні;

ІойдізінттЗв5: 7-бітне поле, що вказує нестробовану гучність за попередні З секунди 60 відповідної аудіопрограми, виміряну відповідно до ІТО-В В5. 1771-1 їі без яких-небудь регулювань посилення внаслідок застосування аіаіпогт і стиснення динамічного діапазону.

Значення від 0 до 256 інтерпретуються як від -116 ОКЕ5 до «ж 11.5 ОКЕ5, із кроком 0,5 ОКЕ5; їг'шерКке: однобітне поле, що вказує чи існують дані гучності за дійсними піками. Якщо поле їг'перКке установлене в "1", 8-бітне поле їшеркК повинне йти слідом в інформаційному наповненні; і їшерк: 8-бітне поле, що вказує вибіркове значення дійсного піка програми, виміряне відповідно до Аппех 2 згідно з ІТО-А В5. 1770-3 і без яких-небудь регулювань посилення внаслідок застосування адіаіпопт і стиснення динамічного діапазону. Значення від 0 до 256 інтерпретуються як від -116 Ї КЕ5 до 11,5 І КЕ5, із кроком 0,5 І КЕ5.

У деяких варіантах здійснення основний елемент сегмента метаданих у сегменті зайвих бітів або в полі айхааїа (або "адарзі") фрейму бітового потоку формату АС-3 або бітового потоку формату Е-АС-3 містить заголовок фрейму (зазвичай включає ідентифікаційні значення, наприклад, версію основного елемента), і після заголовка фрейму: значення, що вказують чи включаються дані цифрового відбитка (або інші захисні значення) у метадані сегмента метаданих, значення, що вказують чи існують зовнішні дані (пов'язані з аудіоданими, що відповідають метаданим сегмента метаданих), ІЮ інформаційного наповнення й значення розміру інформаційного наповнення для кожного типу метаданих (наприклад, РОМ і/або метадані типу, відмінного від І РОМ), ідентифікованих основним елементом, і захисні значення для щонайменше одного типу метаданих, ідентифікованих основним елементом. Інформаційне (інформаційні) наповнення метаданих сегмента метаданих йдуть за заголовком фрейму, і (у деяких випадках) вкладене в значення основного елемента.

Типові варіанти здійснення даного винаходу включають ефективні метадані границі програми в кодованому бітовому аудіопотоці, що дозволяють виконати точне й надійне визначення щонайменше однієї границі між послідовними аудіопрограмами, вказаними бітовим потоком. Типові варіанти здійснення забезпечують точне й надійне визначення границі програми в тому сенсі, що вони дозволяють точно визначити границю програми, навіть у тих випадках, коли бітові потоки, що вказують різні програми, змонтовані один з одним (для формування бітового потоку відповідно до винаходу) таким чином, що обрізаний один або обидва змонтованих бітових потоки (і, таким чином, добуті метадані границі програми, які входили щонайменше в один з бітових потоків до монтажу).

У типових варіантах здійснення метадані границі програми у фреймі бітового потоку, відповідно до винаходу, являють собою прапор границі програми, що вказує число фреймів. Як правило, прапор вказує кількість фреймів між поточним фреймом (фреймом, що містить у собі прапор) і границею програми (початком або кінцем поточної аудіопрограми). У деяких переважних варіантах здійснення винаходу прапори границі програми розставляють симетрично, ефективним способом на початку й наприкінці кожного сегмента бітового потоку, що вказує одну програму (тобто у фреймах, що зустрічаються протягом деякого заданого числа фреймів після початку сегмента, і у фреймах, що зустрічаються протягом деякого заданого числа фреймів до кінця сегмента), таким чином, коли два таких сегменти бітового потоку з'єднуються (тобто буде присутня ознака послідовності двох програм), метадані границі програми можуть бути присутніми (наприклад, симетрично) на обох сторонах границі між двома програмами.

Максимальна надійність може бути досягнута за рахунок вставки прапора границі програми в кожний фрейм бітового потоку, що вказує програму, але це зазвичай неможна застосувати на практиці внаслідок відповідного збільшення швидкості даних.

У типових варіантах здійснення прапори границі програми вставляються тільки у вкладений набір фреймів кодованого бітового аудіопотоку (який може вказувати одну аудіопрограму або послідовність аудіопрограм), і коефіцієнт розміщення прапора границі є незростаючою функцією в залежності від збільшення інтервалу між кожним із фреймів бітового потоку (у якому прапор установлений) і границею програми, що ближче до зазначеного фрейму, де "коефіцієнт розміщення прапора границі" є середнім значенням відношення кількості фреймів (що вказують програму), які містять у собі прапори границь програми до числа фреймів (що вказують програму), які не містять у собі прапор границі програми, де середнє значення є ковзним середнім кількості (наприклад, відносно невеликого числа) послідовних фреймів кодованого бітового аудіопотоку.

Збільшення коефіцієнта розміщення прапора (наприклад, у місцях у бітовому потоці ближче до границі програми) збільшує швидкість даних, необхідну для доставки бітового потоку. Щоб компенсувати це, розмір (кількість біт) кожного вставленого прапора переважно зменшується при збільшенні коефіцієнта розміщення прапора (наприклад, так, що розмір прапора границі бо програми в "М'"'-ому фреймі бітового потоку, де М - ціле число, являє собою не зростаючу функцію відстані (кількості фреймів) між "М"-т фреймом і найближчою границею програми). У класі варіантів здійснення винаходу коефіцієнт розміщення прапора границі логарифмічно спадає по мірі збільшення інтервалу (від кожного місця вставки прапора) до найближчої границі програми, а для кожного фрейму, що містить прапор, що містить у собі один із прапорів, розмір прапора в зазначеному фреймі, що містить прапор, дорівнює або більше, ніж розмір кожного прапора у фреймі, розташованому ближче до найближчої границі програми, ніж зазначений фрейм, що містить прапор. Як правило, розмір кожного прапора визначається зростаючою функцією кількості фреймів від місця вставки прапора до найближчої границі програми.

Наприклад, розглянемо варіант здійснення на фіг. 8 і 9, у якому кожна колонка, позначена номером фрейму (у верхньому ряді), відображає фрейм кодованого бітового аудіопотоку.

Бітовий потік відображає аудіопрограму, що має першу границю програми (що вказує початок програми), що йде відразу ліворуч від колонки, позначеної номером фрейму "17" з лівої сторони на фіг. 9, і другу границю програми (що вказує кінець програми), що йде відразу праворуч від колонки, позначеної номером фрейму "1" із правої сторони на фіг. 8. Прапори границі програми, включені у фрейми, зображені на фіг. 8, відраховують у зворотному порядку кількість фреймів між поточним фреймом і другою границею програми. Прапори границі програми, включені у фрейми, зображені на фіг. 9, відраховують у прямому порядку кількість фреймів між поточним фреймом і першою границею програми.

У варіанті здійснення згідно з фіг. 8 ії 9 прапор границі програми вставляється тільки в кожний з "2М"-х фреймів перших Х фреймів кодованого бітового потоку після початку аудіопрограми, що відображається бітовим потоком, і в кожний з "2"-х фреймів (з останніх Х фреймів бітового потоку), які є найближчими до кінця програми, що відображається бітовим потоком, де програма містить У фреймів, Х - ціле, що менше або дорівнює У/2, і М - позитивне ціле в діапазоні від 1 до І0д2г(Х). У такий спосіб (як показано на фіг. 8 і 9), прапор границі програми вставляється в другий фрейм (М-1) бітового потоку (найближчий до початку програми фрейм, що містить прапор), у четвертий фрейм (М-2), у восьмий фрейм (М-3), і так далі, і у восьмий фрейм від кінця бітового потоку, у четвертий фрейм від кінця бітового потоку, і в другий фрейм від кінця бітового потоку (найближчий до кінця програми фрейм, що містить прапор). У цьому прикладі прапор границі програми в "2""-ому фреймі від початку (або кінця) програми

Зо містить Іодг(2":2) двійкових розрядів, як відображено на фіг. 8 і 9. Таким чином, прапор границі програми в другому фреймі (М-1) від початку (або кінця) програми містить Іод2г(27:2) - Іодг(23) -

З двійкових розрядів, і прапор у четвертому фреймі (М-2) від початку (або кінця) програми містить Іодг(2"ч2) - Іод2(24) - 4 двійкових розрядів, і так далі.

У прикладі на фіг. 8 ії У формат кожного прапора границі програми є наступним. Кожний прапор границі програми складається з початкового "Г"-ного біта, послідовності "0"- вих. бітів (або без "0"-го біта або з одним або декількома послідовними "0"-ми бітами) після початкового біта й двобітного кінцевого коду. Як показано на фіг. 8, кінцевий код становить "11" для прапорів в останніх Х фреймах бітового потоку (фреймах, найближчих до кінця програми). Як показано на фіг. 9, кінцевий код становить "10" для прапорів у перших Х фреймах бітового потоку (фреймах, найближчих до початку програми). Таким чином, для зчитування (декодування) кожного прапора враховується кількість нулів між початковим "1"-им бітом і кінцевим кодом.

Якщо кінцевий код визначений як "11", прапор вказує, що між поточним фреймом (фреймом, що містить прапор) і кінцем програми присутні (22--і-1) фреймів, де 7 - кількість нулів між початковим "1"-м бітом і кінцевим кодом прапора. Декодер може бути ефективно реалізований для ігнорування першого й останнього біта кожного такого прапора, для визначення інверсії послідовності інших (проміжних) бітів прапора (наприклад, якщо послідовність проміжних бітів являє собою "0001" з "1"-м бітом, що є останнім бітом у послідовності, інвертована послідовність проміжних бітів являє собою "1000" з "Г"-м бітом, що є першим бітом в інвертованій послідовності), і для визначення двійкового значення інвертованої послідовності проміжних бітів як індекс поточного фрейму (фрейму, у який включений зазначений прапор) відносно кінця програми. Наприклад, якщо інвертована послідовність проміжних бітів являє собою "1000", ця інвертована послідовність має двійкове значення 27-16, і фрейм визначається як 16-й фрейм перед кінцем програми (як показано в колонці на фіг. 8, що описує фрейм "0").

Якщо кінцевий код визначений як "10", прапор вказує, що між початком програми і поточним фреймом (фреймом, що містить прапор) присутні (22и-1) фреймів, де 7 - кількість нулів між початковим "1"-им бітом і кінцевим кодом прапора. Декодер може бути ефективно реалізований для ігнорування першого й останнього біта кожного такого прапора, для визначення інверсії послідовності проміжних бітів прапора (наприклад, якщо послідовність проміжних бітів являє собою "0001" з "1"-м бітом, що є останнім бітом у послідовності, інвертована послідовність 60 проміжних бітів являє собою "1000" з "1-м бітом, що є першим бітом в інвертованій послідовності), і для визначення двійкового значення інвертованої послідовності проміжних бітів в якості індексу поточного фрейму (фрейму, у який включений зазначений прапор) відносно початку програми. Наприклад, якщо інвертована послідовність проміжних бітів являє собою "1000", ця інвертована послідовність має двійкове значення 27-16, і фрейм визначається як 16-й фрейм після початку програми (як показано в колонці на фіг. 9, що описує фрейм "32").

У прикладі на фіг. 8 і 9, прапор границі програми присутній тільки в кожному з "2""-х фреймів перших Х фреймів кодованого бітового потоку після початку аудіопрограми, що відображується бітовим потоком, і в кожному з "2М"-х фреймів (з останніх Х фреймів бітового потоку), найближчих до кінця програми, що відображається бітовим потоком, де програма містить М фреймів, Х - ціле, що менше або дорівнює У/2, ії М - позитивне ціле в діапазоні від 1 до І0д2(Х). Включення прапорів границі програми додає тільки середнє значення бітрейта, рівне 1,875 біт/фрейм, до бітрейта, необхідному для передачі бітового потоку без прапорів.

У типовій реалізації варіанта здійснення з фіг. 8 і 9, у якій бітовий потік являє собою кодований бітовий аудіопотік формату АС-3, кожний фрейм містить аудіоконтент і метадані для 1536 семплів цифрового звукозапису. Це представляє 32 мілісекунди цифрового звукозапису або швидкість звукозапису 31,25 фреймів в секунду для частоти дискретизації 48 кГц. Таким чином, у такому варіанті здійснення прапор границі програми у фреймі, відділеному деякою кількістю фреймів ("Х" фреймів) від границі програми, указує, що границя виникає через 32Х мілісекунди після кінця фрейму, що містить прапор (або за 32Х мілісекунди перед початком фрейму, що містить прапор).

У типовій реалізації варіанта здійснення з фіг. 8 і 9, у якій бітовий потік являє собою кодований бітовий аудіопотік формату Е-АС-3, кожний фрейм бітового потоку містить аудіоконтент і метадані для 256, 512, 768 або 1536 семплів цифрового звукозапису, залежно від того, чи містить фрейм один, два, три або шість блоків аудіоданих відповідно. Для частоти дискретизації 48 кГц це представляє 5,333, 10,667, 16 або 32 мілісекунди цифрового аудіозапису відповідно або швидкість аудіозапису 189,9, 93,75, 62,5 або 31,25 фреймів у секунду відповідно. Таким чином, у такому варіанті здійснення (за умови, що кожний фрейм представляє 32 мілісекунди цифрового звукозапису) прапор границі програми у фреймі,

Зо відділеному деякою кількістю фреймів ("Х" фреймів) від границі програми, указує, що границя перебуває за 32Х мілісекунди після кінця фрейму, що містить прапор (або за 32Х мілісекунди перед початком фрейму, що містить прапор).

У деяких варіантах здійснення, в яких границя програми може перебувати усередині фрейму бітового аудіопотоку (тобто, не збігається з початком або кінцем фрейму), метадані границі програми, включені у фрейм бітового потоку, містять число фреймів до границі програми (тобто метадані, що вказують кількість повних фреймів між початком або кінцем фрейму, що містить число фреймів, і границею програми) і деяке значення зсуву. Значення зсуву вказує зсув (зазвичай число семплів) між початком або кінцем фрейму, що містить границю програми, і дійсним положенням границі програми усередині фрейму, що містить границю програми.

Кодований бітовий аудіопотік може відображати послідовність програм (звукових доріжок) відповідної послідовності відеопрограм, і границі таких аудіопрограм, як правило, перебувають на границях відеофреймів, а не на границях аудіофреймів. Також деякі аудіокодеки (наприклад, кодеки формату Е-АС-3) використовують розміри аудіофреймів, які не збігаються з відеофреймами. Також у деяких випадках спочатку кодований бітовий аудіопотік піддається перекодуванню для створення перекодованого бітового потоку, і спочатку кодований бітовий потік має розмір фрейму, що відрізняється від розміру фрейму перекодованого бітового потоку, так що границя програми (визначена за спочатку кодованим бітовим потоком) не обов'язково буде перебувати на границі фрейму перекодованого бітового потоку. Наприклад, якщо спочатку кодований бітовий потік (наприклад, бітовий потік "ГЕВ" на фіг. 10) має розмір фрейму, рівний 1536 семплам на фрейм, і перекодований бітовий потік (наприклад, бітовий потік "ТВ" на фіг. 10) має розмір фрейму, рівний 1024 семплам на фрейм, процес перекодування може привести до того, що дійсна границя програми буде перебувати не на границі фрейму перекодованого бітового потоку, а десь у його фреймі (наприклад, 512 семпл у фреймі перекодованого бітового потоку, як показано на фіг. 10), внаслідок відмінності розмірів фреймів різних кодеків. Варіанти здійснення даного винаходу, у яких метадані границі програми включені у фрейм кодованого бітового аудіопотоку, містять значення зсуву, а також число фреймів до границі програми, корисні в трьох випадках, відзначених у цьому розділі (а також в інших випадках).

Варіант здійснення, описаний вище з посиланням на фіг. 8 і 9, не містить значення зсуву (наприклад, поле зсуву) у якому-небудь із фреймів кодованого бітового потоку. У різновидах бо цього варіанта здійснення значення зсуву включається в кожний фрейм кодованого бітового аудіопотоку, що включає прапор границі програми (наприклад, у фреймах, що відповідають фреймам під номерами 0, 8, 12 і 14 на фіг. 8, і фреймах під номерами 18, 20, 24 і 32 на фіг. 9).

У класі варіантів здійснення структура даних (у кожному фреймі кодованого бітового потоку, що містить метадані границі програми відповідно до винаходу) містить значення коду, що вказує, чи містить фрейм тільки число фреймів до границі програми або як число фреймів до границі програми, так і значення зсуву. Наприклад, значення коду може являти собою значення однобітного поля (поле, що згадується тут як "оїЕвеїехіві"), значення "ойвеї ехівї" - 0 може вказувати на те, що у фрейм не включене значення зсуву, а значення "ойбеїехібі" - 1 може вказувати на те, що у фрейм включене як число фреймів до границі програми, так і значення зсуву.

У деяких варіантах здійснення щонайменше один фрейм кодованого бітового аудіопотоку формату АС-3 або Е-АС-3 містить сегмент метаданих, що містить РОМ і метадані границі програми (і факультативно також інші метадані) для аудіопрограми, утвореної бітовим потоком.

Кожний такий сегмент метаданих (який може бути включений у поле адарзі, або поле допоміжних даних, або сегмент зайвих бітів бітового потоку) містить заголовок фрейму (їі в деяких випадках також додаткові основні елементи), і після заголовка фрейму (або заголовка фрейму й інших основних елементів) сегмент інформаційного наповнення І РОМ (або контейнер), що має наступний формат: заголовок, як правило, що включає щонайменше одне ідентифікаційне значення (наприклад, версію формату І РОЗМ, довжину, період, число і асоціативні значення вкладеного потоку даних), і після заголовка, метадані границі програми (які можуть включати число фреймів до границі програми, значення коду (наприклад, значення "ої5еїехіві!"), що вказує, чи містить фрейм тільки число фреймів до границі програми або як число фреймів до границі програми, так і значення зсуву, і в деяких випадках значення зсуву) і І РОМ. І РОМ може включати: щонайменше одне значення, що вказує діалог, що вказує одне із двох - відповідні аудіодані мають ознаку діалогу або не мають ознаки діалогу (наприклад, які канали відповідних аудіоданих мають ознаку діалогу). Значення, що вказує діалог, може вказати, чи є присутнім діалог у будь-якій комбінації каналів або у всіх каналах відповідних аудіоданих;

Зо щонайменше одне значення дотримання нормативних вимог щодо гучності, що вказує чи відповідають відповідні аудіодані зазначеному пакету нормативних вимог щодо гучності: щонайменше одне значення обробки гучності, що вказує щонайменше один тип обробки гучності, що був виконаний з відповідними аудіоданими; і щонайменше одне значення гучності, що вказує щонайменше одну характеристику гучності (наприклад, пікове або середнє значення гучності) відповідних аудіоданих.

У деяких варіантах здійснення сегмент інформаційного наповнення І РОМ містить значення коду (значення "оїївзеїехіві"), що вказує, чи містить фрейм тільки число фреймів до границі програми або як число фреймів до границі програми, так і значення зсуву. Наприклад, в одному такому варіанті здійснення, коли таке значення коду вказує (наприклад, коли оїїзеї ехіві-1), що фрейм містить число фреймів до границі програми й значення зсуву, сегмент інформаційного наповнення ГРОМ може містити значення зсуву, що представляє 11 - бітне беззнакове ціле (тобто значення, що має, від 0 до 2048) і яке вказує кількість додаткових аудіосемплів між сигнальною границею фрейму (границею фрейму, що містить границю програми) і дійсною границею програми. Якщо число фреймів до границі програми вказує кількість фреймів (при поточній частоті фреймів) до фрейму, що містить границю програми, точне положення (в одиницях кількості семплів) границі програми (відносно початку або кінця фрейму, що включає сегмент інформаційного наповнення І РОМ) буде розраховуватися як:

З - (лічильник фреймів" розмір фрейму) «т зсув, де 5 - кількість семплів до границі програми (від початку або кінця фрейму, що включає сегмент інформаційного наповнення І РМ), "лічильник фреймів" - число фреймів, що вказується числом фреймів до границі програми, "розмір фрейму" - кількість семплів на фрейм, і "зсув" - кількість семплів, що вказується значенням зсуву.

Деякі варіанти здійснення, у яких коефіцієнт розміщення прапорів границі програми збільшується біля дійсної границі програми, реалізують правило, що полягає в тому, що значення зсуву ніколи не включається у фрейм, якщо фрейм відстоїть від фрейму, що включає границю програми, на число фреймів, яке менше або дорівнює деякому числу ("У"). Як правило,

Уу32. Для кодера формату Е-АС-3, що реалізує це правило (з У-32), кодер ніколи не вставляє значення зсуву в кінцеву секунду аудіопрограми. У цьому випадку приймаючий пристрій відповідає за організацію таймера й, таким чином, виконання свого власного обчислення (у бо відповідь на метадані границі програми, включаючи значення зсуву, у фреймі кодованого бітового потоку, що відстоїть від фрейму, що містить границю програми, на більш, ніж У фреймів).

Для програм, чиї аудіопрограми відомі як "співпадаючі за фреймами" з відеофреймами відповідних відеопрограм (наприклад, звичайної передачі у вигляді кодованого звукозапису у форматі Рроїру Е), буде зайвим включати значення зсуву в кодовані бітові потоки, що вказують аудіопрограми. Таким чином, значення зсуву, як правило, не будуть включатися в такі кодовані бітові потоки.

З посиланням до фіг. 11, далі розглянемо випадки, у яких кодовані бітові аудіопотоки монтуються разом, щоб створювати варіант здійснення бітового аудіопотоку відповідно до винаходу.

Бітовий потік угорі фіг. 11 (підписаний як "Сценарій 1") вказує всю першу аудіопрограму (РІ), що включає метадані границі програми (прапори границі програми, Е), за якою йде вся друга аудіопрограма (Рг), що також включає метадані границі програми (прапори границі програми,

Е). Прапори границі програми в кінцевій частині першої програми (деякі з яких показані на фіг. 11) такі ж або схожі на ті, які описані з посиланням на фіг. 8, і визначають положення границі між двома програмами (тобто границі на початку другої програми). Прапори границі програми в початковій частині другої програми (деякі з яких показані на фіг. 11) такі ж або схожі на ті, які описані з посиланням на фіг. 9, і вони також визначають положення границі. У типових варіантах здійснення кодер або декодер реалізує таймер (калібрований прапорами в першій програмі), що відраховує у зворотному порядку до границі програми, і той же таймер (калібрований прапорами в другій програмі) відраховує в прямому порядку від тієї ж границі програми. Як показано на графіку таймера границі в сценарії 1 на фіг. 11, такий відлік таймера у зворотному порядку (калібрований прапорами в першій програмі) досягає нуля на границі, і відлік таймера в прямому порядку (калібрований прапорами в другій програмі) відображає те ж положення границі.

Другий зверху бітовий потік фіг. 11 (підписаний як "Сценарій 2") вказує всю першу аудіопрограму (РІ), що включає метадані границі програми (прапори границі програми, Б), за якою йде вся друга аудіопрограма (Рг), що не включає метадані границі програми. Прапори границі програми в кінцевій частині першої програми (деякі з яких показані на фіг. 11) такі ж або схожі на ті, які описані з посиланням на фіг. 8, і визначають положення границі між двома програмами (тобто границі на початку другої програми), так само, як у сценарії 1. У типових варіантах здійснення кодер або декодер реалізує таймер (калібрований прапорами в першій програмі), що відраховує у зворотному порядку до границі програми, і той же таймер (далі без калібрування) продовжує відлік у прямому напрямку від границі програми (як показано на графіку таймера границі в сценарії 2 на фіг. 11).

Третій зверху бітовий потік фіг. 11 (підписаний як "Сценарій 3") вказує обрізану першу аудіопрограму (РІ), що включає метадані границі програми (прапори границі програми, Р), і яка змонтована з усією другою аудіопрограмою (Рг), що також включає метадані границі програми (прапори границі програми, Е). Монтаж видалив останні "М" фреймів першої програми. Прапори границі програми в початковій частині другої програми (деякі з яких показані на фіг. 11) такі ж або схожі на ті, які описані з посиланням на фіг. 9, і вони визначають положення границі (монтажу) між обрізаною першою програмою й всією другою програмою. У типових варіантах здійснення кодер або декодер реалізує таймер (калібрований прапорами в першій програмі), що відраховує у зворотному порядку до кінця необрізаної програми, і той же таймер (калібрований прапорами в другій програмі) відраховує в прямому порядку від початку другої програми. У сценарії З початок другої програми є границею програми. Як показано на графіку таймера границі в сценарії З на фіг. 11, такий відлік таймера у зворотному порядку (калібрований метаданими границі програми в першій програмі) скидається (у відповідь на метадані границі програми в другій програмі) перед тим, як він досягне нуля (у відповідь на метадані границі програми в першій програмі). Таким чином, хоча обрізання першої програми (за рахунок монтажу) перешкоджає визначенню таймером границі програми між обрізаною першою програмою й початком другої програми у відповідь на (тобто при калібруванні ними) метадані границі програми тільки в першій програмі, метадані програми в другій програмі скидають таймер, так що таймер зі скиданням коректно вказує (в якості положення, що відповідає "нульовому" відліку таймера зі скиданням) положення границі програми між обрізаною першою програмою й початком другої програми.

Четвертий бітовий потік (підписаний як "Сценарій 4") відображає обрізану першу аудіопрограму (Р1). що включає метадані границі програми (прапори границі програми, Б), і обрізану другу аудіопрограму (Р2), що включає метадані границі програми (прапори границі бо програми, Е) і яка була змонтована із частиною (необрізаною частиною) першої аудіопрограми.

Зо

Прапори границі програми в початковій частині всієї (попереднє обрізання) другої програми (деякі з яких показані на фіг. 11) такі ж або схожі на ті, які описані з посиланням на фіг. 9, і прапори границі програми в кінцевій частині всієї (попереднє обрізання) першої програми (деякі з яких показані на фіг. 11) такі ж або схожі на ті, які описані з посиланням на фіг. 8. Монтаж видалив останні "М" фреймів першої програми (і, таким чином, деякі із прапорів границі програми, які перебували там перед монтажем) і перші "М" фреймів другої програми (і, таким чином, деякі із прапорів границі програми, які перебували в них перед монтажем). У типових варіантах здійснення кодер або декодер реалізує таймер (калібрований прапорами в обрізаній першій програмі), що відраховує у зворотному порядку до кінця необрізаної програми, і той же таймер (калібрований прапорами в обрізаній другій програмі) відраховує в прямому порядку від початку необрізаної другої програми. Як показано на графіку таймера границі в сценарії 4 на фіг. 11, такий відлік таймера у зворотному порядку (калібрований метаданими границі програми в першій програмі) скидається (у відповідь на метадані границі програми в другій програмі) перед тим, як він досягне нуля (у відповідь на метадані границі програми в першій програмі).

Обрізання першої програми (за рахунок монтажу) запобігає визначенню таймером границі програми між обрізаною першою програмою й початком обрізаної другої програми у відповідь на (тобто при калібрування ними) метадані границі програми тільки в першій програмі. Однак таймер зі скиданням коректно не вказує положення границі програми між кінцем обрізаної першої програми й початком обрізаної другої програми. Таким чином, обрізання обох змонтованих бітових потоків може перешкоджати точному визначенню границі між ними.

Варіанти здійснення даного винаходу можуть бути реалізовані на апаратних, програмних, програмно-апаратному рівнях або їхніх комбінаціях (наприклад, у вигляді програмованої логічної матриці). Якщо не зазначено інше, алгоритми або процеси, включені як частина винаходу, по своїй суті, не пов'язані з будь-яким конкретним комп'ютером або іншим пристроєм.

Зокрема, різні машини загального застосування можуть бути використані із програмами, написаними відповідно до описаних в даному документі ідей, або більше зручним може бути створення більш спеціалізованого пристрою (наприклад, інтегральних схем) для здійснення необхідних етапів способу. Таким чином, винахід може бути реалізований в одній або декількох комп'ютерних програмах, виконуваних на одній або декількох програмованих комп'ютерних

Зо системах (наприклад, реалізації кожного з елементів, зображених на фіг. 1, або кодера 100, зображеного на фіг. 2, (або його елементи), або декодера 200, зображеного на фіг. 3, (або його елементу), або постпроцесора 300, зображеного на фіг. 3, (або його елемента), кожна з яких містить щонайменше один процесор, щонайменше одну систему зберігання даних (що містить постійний запам'ятовувальний й тимчасовий запам'ятовувальний пристрій і/або запам'ятовувальні елементи), щонайменше один пристрій введення й щонайменше один пристрій виведення або порт. Програмний код застосовується до вхідних даних для здійснення функцій, описаних у даному документі й генерування вихідної інформації. Вихідна інформація застосовується до одного або декількох вихідним пристроїв відомим способом.

Кожна така програма може бути реалізована на будь-якій бажаній мові програмування (включаючи машинну мову, мову асемблера або високорівневу процедурну мову, мову логіки або об'єктно-орієнтовану мову програмування) для взаємодії з комп'ютерною системою. У будь- якому разі мова може являти собою трансльовану або інтерпретовану мову.

Наприклад, при реалізації за допомогою послідовностей інструкцій комп'ютерного програмного забезпечення, різні функції й етапи варіантів здійснення винаходу можуть бути реалізовані за допомогою багатопотокових послідовностей інструкцій програмного забезпечення, виконуваних на придатному апаратному забезпеченні для цифрової обробки сигналів, на випадок чого різні пристрої, етапи й функції варіантів здійснення можуть відповідати частинам програмних інструкцій.

Кожна така комп'ютерна програма переважно зберігається або завантажується в носій або пристрій зберігання даних (наприклад, твердотільну пам'ять або носій, або магнітний, або оптичний носій), що читається програмованим комп'ютером загального або спеціального призначення, для конфігурування й керування комп'ютером, коли носій або пристрій зберігання даних зчитується комп'ютерною системою для здійснення процедур, описаних у даному документі. Система відповідно до винаходу також може бути реалізована як машинопрочитуваний носій даних, сконфігурований (тобто що зберігає) комп'ютерною програмою, де носій даних, сконфігурований таким чином, змушує комп'ютерну систему працювати певним і попередньо заданим чином, щоб здійснювати функції, описані в даному документі.

Була описана деякий кількість варіантів здійснення винаходу. Проте, варто розуміти, що без бо відступу від суті й обсягу даного винаходу можуть бути виконані різні модифікації. У світлі вищевикладених ідей можливі численні модифікації й варіанти даного винаходу.

Варто розуміти, що в межах обсягу прикладеної формули винаходу, винахід може бути здійснений інакше, ніж конкретно описано тут.

Claims

ФОРМУЛА ВИНАХОДУ

1. Блок обробки звукового сигналу, який містить: буферний запам'ятовувальний пристрій, призначений для зберігання щонайменше одного фрейму кодованого бітового аудіопотоку, при цьому кодований бітовий аудіопотік містить аудіодані та контейнер метаданих, причому контейнер метаданих включає заголовок й одне або декілька інформаційних наповнень метаданих після заголовку, причому одне або декілька інформаційних наповнень метаданих містять метадані, що вказують стан обробки гучності аудіоданих, і причому метадані, що вказують стан обробки гучності аудіоданих, являють собою або містять метадані, що вказують щонайменше один тип обробки гучності, яка виконується над аудіоданими; синтаксичний аналізатор, з'єднаний з буферним запам'ятовувальним пристроєм та призначений для виконання синтаксичного аналізу кодованого бітового аудіопотоку; та підсистему, з'єднану з синтаксичним аналізатором та призначену для адаптивної обробки гучності з використанням щонайменше деяких метаданих, що вказують стан обробки гучності аудіоданих.

2. Блок обробки звукового сигналу за п. 1, який відрізняється тим, що метадані, що вказують стан обробки гучності аудіоданих, містять метадані, що вказують щонайменше одну характеристику гучності або динамічного діапазону аудіоданих.

3. Блок обробки звукового сигналу за п. 1, який відрізняється тим, що адаптивна обробка гучності являє собою або включає виконання керування динамічним діапазоном.

4. Блок обробки звукового сигналу за п. 1, який відрізняється тим, що також містить: аудіодекодер, підключений та призначений для декодування аудіоданих, внаслідок чого генеруються декодовані аудіодані.

5. Блок обробки звукового сигналу за п. 4, який відрізняється тим, що з'єднана з синтаксичним аналізатором підсистема також з'єднана з аудіодекодером, причому зазначена підсистема призначена для виконання адаптивної обробки гучності над щонайменше деякими декодованими аудіоданими з використанням щонайменше деяких метаданих, що вказують стан обробки гучності аудіоданих.

6. Блок обробки звукового сигналу за п. 5, який відрізняється тим, що адаптивна обробка гучності являє собою або включає виконання керування динамічним діапазоном.

7. Блок обробки звукового сигналу за п. 4, який відрізняється тим, що одне або декілька інформаційних наповнень метаданих містять інформаційне наповнення гучності програми, що містить дані, які вказують виміряну гучність аудіопрограми, пов'язаної з аудіоданими, причому підсистема, з'єднана з синтаксичним аналізатором, також з'єднана з аудіодекодером, і зазначена підсистема призначена для виконання адаптивної обробки гучності над щонайменше деякими аудіоданими з використанням інформаційного наповнення гучності програми.

8. Блок обробки звукового сигналу за п. 1 який відрізняється тим, що одне або декілька інформаційних наповнень метаданих містять інформаційне наповнення гучності програми, що містить дані, які вказують виміряну гучність аудіопрограми, пов'язаної з аудіоданими.

9. Блок обробки звукового сигналу за п. 8, який відрізняється тим, що інформаційне наповнення гучності програми містить поле, що вказує спосіб вимірювання гучності, який був використаний для формування даних про гучність, включених в інформаційне наповнення гучності програми.

10. Спосіб обробки звукового сигналу, який включає етапи: отримання кодованого бітового аудіопотоку, при цьому кодований бітовий аудіопотік сегментований на один або декілька фреймів; добування аудіоданих та контейнера метаданих із кодованого бітового аудіопотоку, причому контейнер метаданих містить заголовок і одне або декілька інформаційних наповнень метаданих після заголовка, причому одне або декілька інформаційних наповнень метаданих містять метадані, що вказують стан обробки гучності аудіоданих, і причому метадані, що вказують стан обробки гучності аудіоданих, являють собою або містять метадані, що вказують щонайменше один тип обробки гучності, яка виконується над аудіоданими; та виконання адаптивної обробки гучності з використанням щонайменше деяких метаданих, що вказують стан обробки гучності аудіоданих.

11. Спосіб за п. 10, який відрізняється тим, що метадані, що вказують стан обробки гучності аудіоданих, містять метадані, що вказують щонайменше одну характеристику гучності або динамічного діапазону аудіоданих.

12. Спосіб за п. 10, який відрізняється тим, що аудіодані являють собою кодовані аудіодані, а також включає етап: декодування кодованих аудіоданих для генерування декодованих аудіоданих.

13. Спосіб за п. 12, який відрізняється тим, що етап виконання адаптивної обробки гучності включає виконання адаптивної обробки гучності над щонайменше деякими декодованими аудіоданими з використанням зазначених щонайменше деяких метаданих, що вказують стан обробки гучності аудіоданих.

14. Спосіб за п. 13, який відрізняється тим, що адаптивна обробка гучності являє собою або включає виконання керування динамічним діапазоном.

15. Спосіб за п. 10, який відрізняється тим, що одне або декілька інформаційних наповнень метаданих містять інформаційне наповнення гучності програми, яке містить дані, що вказують виміряну гучність аудіопрограми, яка пов'язана з аудіоданими, і при цьому етап виконання адаптивної обробки гучності включає виконання адаптивної обробки гучності над щонайменше деякими аудіоданими, добутими із кодованого бітового аудіопотоку, із використанням інформаційного наповнення гучності програми.

16. Спосіб за п. 10, який відрізняється тим, що адаптивна обробка гучності являє собою або включає виконання керування динамічним діапазоном.

17. Спосіб за п. 10, який відрізняється тим, що одне або декілька інформаційних наповнень метаданих містять інформаційне наповнення гучності програми, яке містить дані, що вказують виміряну гучність аудіопрограми, яка пов'язана з аудіоданими, і при цьому інформаційне наповнення гучності програми містить поле, що вказує спосіб вимірювання гучності, який був використаний для формування даних про гучність, включених в інформаційне наповнення гучності програми.

18. Носій даних, на якому зберігається щонайменше один сегмент бітового аудіопотоку, що містить аудіодані та контейнер метаданих, причому контейнер метаданих містить заголовок, і одне або декілька інформаційних наповнень метаданих після заголовка, причому одне або Зо декілька інформаційних наповнень метаданих містять метадані, що вказують стан обробки гучності аудіоданих, і метадані, що вказують стан обробки гучності аудіоданих, являють собою або містять метадані, що вказують щонайменше один тип обробки гучності, яка виконується над аудіоданими.

19. Носій даних за п. 18, який відрізняється тим, що метадані, що вказують стан обробки гучності аудіоданих, містять метадані, що вказують щонайменше одну характеристику гучності або динамічного діапазону аудіоданих.

20. Носій даних за п. 18, який відрізняється тим, що зазначений носій даних являє собою машинозчитуваний носій даних. нн Не НК СН Й ан нан НН но зляляляюює ОЗ ЗІИМЕЕКВСОЮИ фея Кисяв І- воренків ін ї рануюаев Доннннюні ВЕРН фенякї ЗМК ЕН оннняе нн В хек ЕщВНх ви пи па Ви Вп

ЯН. 1 ях же ж Фу ЖеЮ Є Рос Же ТЕ ЄЮ Ж Є Же Ж У Р ХУ Юм Ж Ж У Ж УЖ РУ А УЖ ХУ УЖ УЖ У УЖ АЖ хто УЖ, мя хх ххх му : тд х ких и : ІА КАЧМ : Н ях пекан нн А и т КК А КА А КК КК КК КК и Зх, ІЧ з З 1 : ТМ ї Я зр І: З : У ї 1 ТК ІЗ и о ШУ м Н Н й : : : 7 Ка ї гАжПЕХМИщКИ 3 ж Е х

: х. сої В Н мак но І: з : Ж петеисм | тю ції : Я : В уШшлеєтер | | ІЗ йо в. ЕК: що х А з : х пи и и ОЛЯ х З ек ! й й : Я уккннкцнякнно : ї І ЕК дєечеетя РОВУ ККУ деогегесессс З Зохаремнк

Н . Ех її зл І ї о Я о души хе вимі очей «34 ІЗ ОЗ Зи І кур і КИ ЇХ рами у зпхілича ОК На і КО х ї ТД ее МУКОЮ Жені мужа в БУНКЕ фену Дхізвий Н т, Пн ЗУ Ї реста ЩЕ Я Ж о фкцехлехтвеюм З з іппожнИ

В. ГО 1 рУувмелеимМНМ: Е ї вка І ї МОЛКАХКНУНХи Й Захлухихдх діжі Ж шик. То мін 1 Н ! ШЕ ІЗ ї я фея КМ песен ЗМиберореею СВБЕИЧМНК ОЇ ї Хлукжмх: 0000 джу ІЧ І й 7 і Н ії Бршмклі Ж З с, ня І її точку : 3 ї її Бе» х 5 жан Тк ІЗ Н ї ГЕЗБ ОН ЧИ пееетесеой Н ТЕ МЕ Ка ж ТИХ ІЗ З Ж ї її чу пллАлАААИ хе й В х і ІЗ Н на ИН Х ї 4 ї й 5 и Мінін : ПИШУ ІЧ т ї ІЗ кою г ІЗ І й фімоз: АХ я І КУ сід т : ІЗ і Е: . умутЕниту фесссесеююютехи К Кеоеосот окт фр Поні т, химієнумх ех ще ї : Ї елміємамо Її «и ТЕ Б х Її ї ї : ре

: Х. ї Я ї - ще ях Її з Н Що дилилртитиляля Мтттятнн ї ве фентннтнюяеннхя у : ЗЕ раці ІЗ ї ї гм ак У готрукуньний і ет ктну : ПМетлую ема тж у ї ї ї Не и Я о БКихевихеханя и ГТ юрястачаї У ек Х ї т т ї тт, но нн Я Можу 00 ун ї : ЕЕ Я рудник дув і : : КОпхдМлиних і Ї Е ї КОВО Щит АНІ і кання нин Н мит : Е І око ен зник внки Ем : г ї ї Її ІЗ ОВО У їЕ "І як |З : гл - ї ї її, ї ї і й Е СІНО чи ї с І ї ї : тузфижі х ї З ті Н ї З ахримухї Н ТУЮ Ж ї 5 З о, ї ; САКЕ не в Зк ї ІЗ х ФК я Від іме Ма Зифлю м «м То Вила зиунаєть сухі гу Зжжіх мрукаи Ми люциклмах лУвиЦЦ Кави ума лнка сзутух пені в нн и В и п п п в п Ж У й Й о І ї ї Ми НЕ ЗТ Н ї в вна і її Е Кзсвиний ї СЕ. ЕЕ. Гран кн п ВА СО ВИМОВІ От и - я ІК т і Н І: ІУ хан щи ЕА ї З з . ННЯ 1 І ї У т Ц ; дееюккєєкєкосокк, фе ккєтєєне ТУЖЛДюИЕ Я : ХО дднячнчянчяняя ЕЗ мими И ї Н А Ж ї ї ї І х ї І ЕЗ сахепіецрожотую слжнядккханяяжюі 0 ОК злії ОКО В о олофуажятхляллалннї ВТ дала ладлАх алла іої ЗМК ПО дж ПУЛЕЦІЮЄІЮЕ тету ТК ж ря х нн, зни ху - УА ПОСКУК ОВ З ї Н х 1 ї 1 Н І Н ї ї т У ; ї ї Ж ГУ х х Я КК Н Ужхжххюкккнхлккккк» Н і й п: ! х і :

; І. дукегиоттий і і х Н Я Н Я є Я 3 7 5 пе п а НН НН ІУ У ї З І і 5 т у : її: ї ї хом ста Н ІЗ : Е Я хх Н ї бути сім Н і ; « Н ї її Н ї вопуха Н Н І ІЧ 3 Кі ї ї : ї НЕД : Н І й 3 : 5: ока ї що щ КЕ тд і : ї Н : тьузчу ІЗ їх Коли ї КОТИ юу ї : 8 3 Я СКК Я х І м КЗ рот м ЧИЯ Н х РОКІ тм, Н х Н У : НЕ ; : я Її Н хх Н х ЕЗ Ї Її руш цім ша нн НІ НН НИ Н пани З біз примшеуор Ії З пи «іч ї Жоерютя 2 Н і 0 Н пад ми клеї ; КО сВормуюхє З : 1 РЕ офоайхо ці : Н Я ТІ ІН Вже НинМ дея Її пщавкаццих Познань їх кін цх МІЙ Ен ЯН ппиюмащІЮ : : і ї Ірен, Н НН ї ІЯ (з 3 Ї Водідшннннннттнтннннннняй я В З Н ; БУ 4 : і Е ї и ї : : З ї х З сю жк стю от я ЖЖ ЖЖ КУ ЖК ЖЖ сю ж ЖЖ я сю яю. ж ж стю ж ож Ж сжж жк жа сю ЖЖ я уж ся аж ск ких х роду ВА АД В АЖАЖЖААЖЖВЖЖІ ев ши «я Кион еВАКрННИ : збі : Ддйуєкюєєюююєєкскююкюкк кт ОО соєю ї сеееокхуєуюс є єююєє єси юю кю юкєкюкикюсюнкккккєтькккаюктюююєєсюс их Ї : син а и м о и ЕН й и: ту і ї ї ІЗ й ї т ї ї КУ ЕД І 1 З з ї ї : ІЗ ї ї ї ї і Е Мо ші: ВАШ БАН див ті ща ЗАЙВО АФ БІАХ КІ ід дено яки Аг фузшвИу БАТОН В ЮР УЖі ж ЗМР ЗА РУХ: М ЗМІ ВІ БР АСК БУК АВК КК НУ З Н 1 ї ї ї ї 3 їх ІЗ ї Кк 1 : Ек М С ПО Ви В п С о п МИ ПН ТЕ М дих що в о Меч Кай я меню земна Ан ї ї З, Бум ВЖК Ку я и ї ІЗ Ме дккекмкумх тод ОБ: ден кжжнхкюм ско, нн жмут о вн нн ння КИ М в В в свв вв не нан У гумі: Мч Ки ки Іі КАК іт шиті євіио й схежевін и Ж сек фу ї-З МАНТУ КАТ Б и ПИ ККАК КАТКИ Кит КММОМЕМИО ХІМ МИ; п ШОЮ ММ г - ки и КМ -- я ЗЕ МІЛА КО ЯКУРОКІЛІВК ої ОшЖОКХ ЇЖУ ще ЖИ Кишеив В і а о о о о кю

Фіг. В іг. нн і ї і т З Ї Фе аа Б 0. Й пи ни нн НН я НН ИНА їх іі З у ЕІ КК Зірки і цех І Де щі З да ад дж ІІ ІЕМ Б МОМ ОфалаакникнахляіогЕм ЗМО ЖЕ ВЕ. КАШ Я, КК. СУК р ЖАВ Ко х й ї 5 1 І ї ї І чи іуюа и Н її шк п о и о и У В М п м м ЗНУ ї г м ЗИ нь п м п пи З М п п и З Н сеИБуєт Н Я п и В В І п НН С НН Я м І У ме З С М МЕ Є рот Ї нн нн в и в З урежійцо сктм з: ТЕ НИ ЕНН о А НН ВН В ИН її ї хх ї 1 тої 5 ї її БУ : ее о Н В «ер хе зр: ее ро офози рф а фе ро хе З шої НЕ по на п п п п о о о З У кн м нан кв п нн нн п п и п п нн м а и п п а п і туди інки о у ми ми и м ЕЕ В НЯ и р М а м а В У и и М а м З Н Зно прециру Нр МИ М с І С МН М М с а Є М В с о в ПЕ п п о п М п о В м п п о о пе З НУ 3 7 ' ї ї ї 1 ї 3 ї ї Н 3 1 ї ї ї Я і ЗХ битим плини, Н х ї І Н ї Н ї ї Н 1 Н ї Е : Н Х крисціцй прегікиді Н х Н Н ї 1 ї Н і Н ї ї Н Н ЗоТвче вруекоу Н ї : 1 і ї : ї ї Н і : ї : Н ЗУ Н 1 | : ї ї : ї ї ї : і Н Я : : Н на п а кн и п п п п п и п М а ї 7 ї ї ї ї Е: У ї : у ї : ха 3 У Н ї ї ї М й 3 ї ї : 3 1 ї ї : НІ Н і Н : Н 3 Н ї 3 ї ї ї 1 Н 1 ї Н р нн п и п п и нн п ин нн : : : х пи нн и МЕ ї М ни у Не НІ ЧЕ А ТЕ 3 фіхеячтт ї п и І и п и п в Є У 1 ни ли нн ИЬ ЖЕ 1 ЕО11Е 13 І їх і С і АЦА- ц 3 Б АА3..--4 йо А5....12---43.--.2----4 1 А нн п п м п и и п в м в нн п п у ЇХ нірки пПахоасльх МІЖ МОМИ ї 1 В Н ї І ТМлі ск: ї і феї З ло ШОУ фо лезо Цаженяех ре Не Н Її Н З Н У РІ М їх Н рт зни її їЕ І нн нн нн о нон мн мн пон нн пон пн нн нн нн п п І шодени іх х Ї І ї ї З Ї т ї т т у : ї МУ РІДИЗК: З Обл даш мозуемцтхх ої т Н ї 1 і Н ї ї ї ї ї 1 Н І ї ії І4 Її ш 3 - т и Н ї І ї Н х і ї й ї Е Н Н ї 1 : Ко пеки У іт Н г Н 3 Н ї : ї х Н 1 ї ї 3 цеха тих Н Н ї Н 1 Н т 1 : ї їх Н Н ї ї : ї І З економі мила лихі Н ї 1 1 Н ї З 1 ї їх І Н т Її І р : ікрі ох пп лк | Н ї Я ї : ї 3 : їх : ц Н 1 ї ї : ІЗ ДИКУ У УМ УМ УК УМ УМ МУКУ баднтуМрие цпІКимЦце прицхие пренцуют, ці млошжамопУєіеим ов ше межу пррелах ле гркнит мил мМ а о я Ї ев м и мм не и п ве п М п и нн В В м а м о В В і М В В М М М їх ї ЕІ ТЕМ ої ние ме Зм п и з М 7 г М м о и З В М ОМ В ВИ мо нн питне нн: Ми поні нн зн пон зн ме Мк ни мо Ме Зак зон панк Тароуваса гі правінв МЕ ОТ 1 п ЗЕ ЗЕ ЗЕ З У п п В А В З В С М ОВ В В ВЕ МЕ БО т ів нов зв Мн Звае чн Пон зири рн ін ном пн ЗКУ и во нок пінки нон аа ин нн Зіни : пану миня ЩЕ Ох Й Ох В НЕ ПД ен НУ Б ПЕ С В І С М В М М НИ З І мл цит, ЕВ Оп порашинт; ої Роб ФК: по 01 кої 00. оо УДУтУ І Е Ех їх їх ї ї У ї і ї ! 1 : Н ї і : Н Н х х ї ї 1 ї Н ї Н Н ! Н ї З : ! ВО ЕН прекрме ої ї 1 Н Е 1 ї : ї Н Н : І ї і Н : : ї ї ІЗ х ї ІЗ у ї ІН 1 У Н ї і ІЧ : Б Н ШУ ї | І х 1 ІЗ Н 1 Я ї ї 3 І Н ГУ : ЕОМ ї І ї ІЗ 1 ІЗ Я 3 ї І ІЗ 3 ї Н ї п м нн п в вв в о в У Ерохемнів ЩЕ й її рн МИ Ен ПИ п зн ПИ УНИН ї ун мк М ни и З и З ПН У Н Трах ХЕ п: І и М п и пи НЕ ЕН нн з З п У і оннннннннн н нн зано ее нн ан ин мк у на нн ин кн нн о зон Зоо ож :. «ие пи. МЕ Тіні йти ї 1 пр 1 Я І ї Н Н КолжЕтт. ід Р оімилемци рудних Мої : Е їх НЕ ї Н ВИМІ Мі | : І ї Н : фол ее ши пн ни нн и ик нн ни и п п п І ВОНО т 7 ос т мк т Н ТУ ї ї т ї т Її о Кірникапикчхчилт ОЇ НК опо ї Н Еопої Н Н : В ! Н : й Е А мм пИнеччит КІ Комо ох 1 А От Н | : : Її ! : : В Е З їх ї : ї ї Н Н Н Н ї Е І спухумі хх ї ї Н : їх І 1 ' ї Н Н Н ІЗ ї ї : : І ему тя ї ї х ІЗ ї Н З Н ї Н Н Н ІЗ ї Н : І Тотавіттмихмх пер щих ї ї у Н : 1 З Н ї : Й : : ї Н : : рн а п нн хоампіІДднИИПУ чу Брамеим печами зе схоцруєчалину іх пИшММАЦь мІЧеМЛВУ ЛИХ ОеВицму ПЕК МУХНІ

Три юих І иу Кухууцу фаннм: БА : нн т В В М В Й Ї І Ї ї ї ї В Її Її НИ пи и В МИ ни зи п о з ЗВ: Н | 3 ї ї ї : І : ГОДИН ЧАК КИ НААН КИКАННЕ ПИКА ПИСАНОК НН АНН нин ин нн нн кн п и и м м я он о нн нн нн нн нн М нен Й Ї І | | Н | ЕЕ М М М М ОО У В ік вв АТК : Н ; ї ЩІ Я Н ИН І хо ЩЕ Ор КЕ іх сіжжканаллЯЛАМ ств ж жітті ж кто п КИ А и ТУ розмив бах ПЕ ЕЕ Безе Ффрон МК Е ї ї Ї дин тій ЗР7 кому у их ери пане Зо усім: У аж мі У МИНЕ ВО М МАВ ИМЯ Н Янв Ой КЕ тив З ЕК р ! Мрогтрама ЕІ Біне рамні Е нен чн А А Ж НН КН А КК КН М КИ КН НК ма іа кон у ій - х ї ЕК еНе Еш ї їш х В У ої мох Н Н т пару тні пе ЕН УЮТМ ХО МЧМКИІТА с доки шия МОБ о уми уж ми жк ду нотні чн МО ХМ кдиум тА мо ум доля шк ДО доля ин хх «КЕ дили Же БО КК Ех КПІЖ ТІ М асо Се ЕНН ЧНІ пива щ ІПМ жУМЕ З паси с дзен т см ки Ж ками крики ї. Ппекарю я ТРЛЬМ Я мак енд нн он нон : ЕЖідодхиі | КК Язик ух Та прах | гени : ЕЖИЄКІКЕАМА М РКО ИНУ МИ АК ї нн мк и и и ВРАНЦІ СП жд Там р я ДІА ул ДН Я «ОКХ Швея Не ОН сота ЕВОКЛХСЕККН ІН КУ сли сняя зняти тн зл нене Є МЕ р т Кт тя те же же яння ін нію ня Урич МІК : по хцнпммчини. КЕ ех кни мо М дих ЇВ уч уми МОНЕ ВОНИ КА ХУ І ТЕ, нн нн Ї Се ІТК Хе Я Й прітатит ХК ТКА ОК елек и ДК їх ! Пеегрзма ФБР ХК рою рами м іх і о КК п НК их її й ви г ш с Пд фу тк пеня і АИЩЕН КН птн плн КМ У ЩЕ Мн ян здюоюнх тях ж ве. ішях жди труні мен ж єн сжею же и «у сі жі єн сти от тях жд жи сжяя еі РОК ЕСЕ ВМ ННКИ Ду ян я ТЕ п Й межах ПОН КИМНЕ Хі теж стилі ниі Вк й роя, ШЕ саги ЕМ вах Є щшиНарімє мае іо печує гу ЗК п в Н ТЗ В 855 рози ма рі і ГПрегиама (БІТ ума е РО КАК АК КК КК кАКА КК КК КК ю юю щ г ш Ех Е па ОДН З айва ху хи пн АН ТНК оо НИ нано ех - ОО ВЧ Е ТЯЯ й ПЕДА ПТУ КИинореАко хі Пух я Ж ії пон ін Кон