RU2016106975A

RU2016106975A - Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием

Info

Publication number: RU2016106975A
Application number: RU2016106975A
Authority: RU
Inventors: Йерун КОППЕНС; Ханнес МУЕШ
Original assignee: Долби Лабораторис Лайсэнзин Корпорейшн; Долби Интернешнл Аб
Priority date: 2013-08-28
Filing date: 2014-08-27
Publication date: 2017-08-29
Also published as: BR112016004299B1; KR101790641B1; CN110890101A; EP3503095A1; EP3039675B1; JP6001814B1; BR122020017207B1; US20190057713A1; RU2639952C2; CN105493182B; JP2016534377A; US20160225387A1; CN110890101B; KR20160037219A; US10607629B2; EP3039675A1; HK1222470A1; ES2700246T3; US10141004B2; WO2015031505A1

Claims

1. Способ, включающий:

прием микшированного звукового содержимого в исходном представлении звуковых каналов, которое распределено по множеству звуковых каналов исходного представления звуковых каналов, при этом микшированное звуковое содержимое содержит микширование речевого содержимого и неречевого звукового содержимого;

преобразование одной или более частей микшированного звукового содержимого, которые распределены по двум или более каналам, отличным от средних/побочных (отличным от M/S), во множестве звуковых каналов исходного представления звуковых каналов, в одну или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов, которые распределены по одному или более каналам представления M/S звуковых каналов, при этом представление M/S звуковых каналов содержит по меньшей мере средний канал и побочный канал, при этом средний канал представляет собой взвешенную или невзвешенную сумму двух каналов исходного представления звуковых каналов, и при этом побочный канал представляет взвешенную или невзвешенную разность двух каналов исходного представления звуковых каналов;

определение метаданных для усиления речи одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов; и генерирование звукового сигнала, который содержит микшированное звуковое содержимое и метаданные для усиления речи одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов; при этом способ выполняют посредством одного или более вычислительных устройств.

2. Способ по п. 1, отличающийся тем, что микшированное звуковое содержимое находится в представлении звуковых каналов, отличных от M/S.

3. Способ по любому из предыдущих пунктов, отличающийся тем, что дополнительно включает:

генерирование версии речевого содержимого в представлении M/S звуковых каналов, отделенной от микшированного звукового содержимого; и вывод звукового сигнала, кодированного с использованием версии речевого содержимого в представлении M/S звуковых каналов.

4. Способ по п. 3, отличающийся тем, что дополнительно включает:

генерирование данных, указывающих на смешивание, указывающих на конкретное количественное сочетание первого и второго типов усиления речи, подлежащего генерированию принимающим аудиодекодером, при этом первый тип усиления речи представляет собой усиление речи на основе версии речевого содержимого в представлении M/S звуковых каналов, и при этом второй тип усиления речи представляет собой усиление речи с параметрическим кодированием на основе восстановленной версии речевого содержимого в представлении M/S звуковых каналов; и вывод звукового сигнала, кодированного с использованием данных, указывающих на смешивание.

5. Способ по п. 4, отличающийся тем, что по меньшей мере часть метаданных для усиления речи позволяет принимающему аудиодекодеру восстанавливать восстановленную версию речевого содержимого в M/S представлении из микшированного звукового содержимого в исходном представлении звуковых каналов.

6. Способ по п. 4, отличающийся тем, что данные, указывающие на смешивание, генерируются на основе по меньшей мере частично одного или более значений SNR для одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов, при этом одно или более значений SNR представляют одно или более отношений мощности речевого содержимого и неречевого звукового содержимого одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов или отношений мощности речевого содержимого и общего звукового содержимого одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов.

7. Способ по п. 4, отличающийся тем, что конкретное количественное сочетание первого и второго типов усиления речи определяется моделью слухового маскирования, в которой первый тип усиления речи представляет наибольшую относительную величину усиления речи во множестве сочетаний усилений речи во множестве сочетаний первого и второго типов усиления речи, которая гарантирует, что шум кодирования не будет нежелательно слышимым в выходной звуковой программе с усиленной речью.

8. Способ по п. 1, отличающийся тем, что по меньшей мере часть метаданных для усиления речи позволяет принимающему аудиодекодеру восстанавливать версию речевого содержимого в M/S представлении из микшированного звукового содержимого в исходном представлении звуковых каналов.

9. Способ по п. 1, отличающийся тем, что метаданные для усиления речи содержат метаданные, относящиеся к одной или более операциям усиления речи в представлении M/S звуковых каналов на основе версии речевого содержимого или операциям усиления речи с параметрическим кодированием в представлении M/S звуковых каналов.

10. Способ по п. 1, отличающийся тем, что исходное представление звуковых каналов содержит звуковые каналы, относящиеся к динамикам объемного звучания.

11. Способ по п. 1, отличающийся тем, что два или более каналов, отличных от M/S, исходного представления звуковых каналов содержат два или более центральных каналов, левых каналов или правых каналов; и при этом один или более M/S каналов представления M/S звуковых каналов содержат один или более средних каналов или побочных каналов.

12. Способ по п. 1, отличающийся тем, что метаданные для усиления речи содержат один набор метаданных усиления речи, относящихся к среднему каналу представления M/S звуковых каналов.

13. Способ по п. 1, отличающийся тем, что дополнительно включает предотвращение кодирования одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов в качестве части звукового сигнала.

14. Способ по п. 1, отличающийся тем, что метаданные для усиления речи представляют собой часть всех аудиометаданных, кодированных в звуковом сигнале.

15. Способ по п. 1, отличающийся тем, что аудиометаданные, кодированные в звуковом сигнале, содержат поле данных для указания наличия метаданных для усиления речи.

16. Способ по п. 1, отличающийся тем, что звуковой сигнал является частью аудиовизуального сигнала.

17. Способ, включающий:

прием звукового сигнала, который содержит микшированное звуковое содержимое в исходном представлении звуковых каналов и метаданные для усиления речи, при этом микшированное звуковое содержимое имеет микширование речевого содержимого и неречевого звукового содержимого; преобразование одной или более частей микшированного звукового содержимого, которые распределены по двум или более каналам, отличным от M/S, во множестве звуковых каналов исходного представления звуковых каналов, в одну или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов, которые распределены по одному или более M/S каналам представления M/S звуковых каналов, при этом представление M/S звуковых каналов содержит по меньшей мере средний канал и побочный канал, при этом средний канал представляет собой взвешенную или невзвешенную сумму двух каналов исходного представления звуковых каналов, и при этом побочный канал представляет собой взвешенную или невзвешенную разность двух каналов исходного представления звуковых каналов; выполнение одной или более операций усиления речи на основе метаданных усиления речи в отношении одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов для генерирования одной или более частей усиленного речевого содержимого в M/S представлении; объединение одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов с одной или более частями улучшенного речевого содержимого в M/S представлении для генерирования одной или более частей микшированного звукового содержимого с усиленной речью в M/S представлении;

при этом способ выполняют посредством одного или более вычислительных устройств.

18. Способ по п. 17, отличающийся тем, что этапы преобразования, выполнения и объединения реализуют в одной операции, которую выполняют в отношении одной или более частей микшированного звукового содержимого, которые распределяются по двум или более каналам, отличным от M/S, во множестве звуковых каналов исходного представления звуковых каналов.

19. Способ по любому из пп. 17-18, отличающийся тем, что дополнительно включает обратное преобразование одной или более частей микшированного звукового содержимого с усиленной речью в M/S представлении в одну или более частей микшированного звукового содержимого с усиленной речью в исходном представлении звуковых каналов.

20. Способ по п. 17, отличающийся тем, что дополнительно включает:

извлечение версии речевого содержимого в представлении M/S звуковых каналов, отделенной от микшированного звукового содержимого из звукового сигнала; и выполнение одной или более операций усиления речи на основе по меньшей мере части метаданных для усиления речи в отношении одной или более частей версии речевого содержимого в представлении M/S звуковых каналов для генерирования одной или более вторых частей усиленного речевого содержимого в представлении M/S звуковых каналов.

21. Способ по п. 20, отличающийся тем, что дополнительно включает: определение данных, указывающих на смешивание, для усиления речи;

генерирование на основе данных, указывающих на смешивание, для усиления речи конкретного количественного сочетания двух типов усиления речи, при этом первый тип усиления речи основан на версии речевого содержимого в представлении M/S звуковых каналов, и второй тип усиления речи представляет собой усиление речи с параметрическим кодированием на основе восстановленной версии речевого содержимого в представлении M/S звуковых каналов.

22. Способ по п. 21, отличающийся тем, что данные, указывающие на смешивание, генерируются одним из следующего: расположенным выше по потоку аудиокодером, который генерирует звуковой сигнал, или принимающим аудиодекодером, который принимает звуковой сигнал, на основе по меньшей мере частично одного или более значений SNR для одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов, при этом одно или более значений SNR представляют одно или более отношений мощности речевого содержимого и неречевого звукового содержимого одной или более частей преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов или отношений мощности речевого содержимого и общего звукового содержимого одной или более частей одного из следующего: преобразованного микшированного звукового содержимого в представлении M/S звуковых каналов или микшированного звукового содержимого в исходном представлении звуковых каналов.

23. Способ по любому из пп. 21-22, отличающийся тем, что конкретное количественное сочетание двух типов усиления речи определяется моделью слухового маскирования, как произведено одним из следующего: расположенным выше по потоку аудиокодером, который генерирует звуковой сигнал, или принимающим аудиодекодером, который принимает звуковой сигнал, в котором первый тип усиления речи представляет наибольшую относительную величину усиления речи во множестве сочетаний усилений речи во множестве сочетаний первого и второго типов усиления речи, которая гарантирует, что шум кодирования не будет нежелательно слышимым в выходной звуковой программе с усиленной речью.

24. Способ по п. 17, отличающийся тем, что по меньшей мере часть метаданных для усиления речи позволяет принимающему аудиодекодеру восстанавливать версию речевого содержимого в M/S представлении из микшированного звукового содержимого в исходном представлении звуковых каналов.

25. Способ по п. 17, отличающийся тем, что метаданные для усиления речи содержат метаданные, относящиеся к одной или более операциям усиления речи в представлении M/S звуковых каналов на основе версии речевого содержимого или операциям усиления речи с параметрическим кодированием в представлении M/S звуковых каналов.

26. Способ по п. 17, отличающийся тем, что исходное представление звуковых каналов содержит звуковые каналы, относящиеся к динамикам объемного звучания.

27. Способ по п. 17, отличающийся тем, что два или более каналов, отличных от M/S, исходного представления звуковых каналов содержат один или более центральных каналов, левых каналов или правых каналов; и, при этом один или более M/S каналов представления M/S звуковых каналов содержат один или более средних каналов или побочных каналов.

28. Способ по п. 17, отличающийся тем, что метаданные для усиления речи содержат один набор метаданных усиления речи, относящихся к среднему каналу представления M/S звуковых каналов.

29. Способ по п. 17, отличающийся тем, что метаданные для усиления речи представляют собой часть всех аудиометаданных, кодированных в звуковом сигнале.

30. Способ по п. 17, отличающийся тем, что аудиометаданные, кодированные в звуковом сигнале, содержат поле данных для указания наличия метаданных для усиления речи.

31. Способ по п. 17, отличающийся тем, что звуковой сигнал является частью аудиовизуального сигнала.

32. Система обработки медиаданных, выполненная с возможностью выполнения любого из способов по пп. 1-31.

33. Устройство, содержащее процессор и выполненное с возможностью выполнения любого из способов по пп. 1-31.

34. Постоянный машиночитаемый носитель данных, содержащий программные команды, которые при исполнении одним или более процессорами приводят к выполнению любого из способов по пп. 1-31.