RU2639658C2 - Кодер, декодер и способы для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов - Google Patents
Кодер, декодер и способы для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов Download PDFInfo
- Publication number
- RU2639658C2 RU2639658C2 RU2015116287A RU2015116287A RU2639658C2 RU 2639658 C2 RU2639658 C2 RU 2639658C2 RU 2015116287 A RU2015116287 A RU 2015116287A RU 2015116287 A RU2015116287 A RU 2015116287A RU 2639658 C2 RU2639658 C2 RU 2639658C2
- Authority
- RU
- Russia
- Prior art keywords
- analysis
- window
- signal
- samples
- windows
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 55
- 230000006978 adaptation Effects 0.000 title description 8
- 238000013475 authorization Methods 0.000 title 1
- 238000004458 analytical method Methods 0.000 claims abstract description 448
- 230000005236 sound signal Effects 0.000 claims abstract description 34
- 238000002156 mixing Methods 0.000 claims abstract description 15
- 230000002123 temporal effect Effects 0.000 claims abstract description 9
- 230000007704 transition Effects 0.000 claims description 117
- 238000006243 chemical reaction Methods 0.000 claims description 36
- 230000008859 change Effects 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 239000004071 soot Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 239000000126 substance Substances 0.000 abstract 1
- 230000004913 activation Effects 0.000 description 71
- 239000000203 mixture Substances 0.000 description 55
- 239000011159 matrix material Substances 0.000 description 28
- 230000003595 spectral effect Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 21
- 238000001228 spectrum Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 15
- 239000012634 fragment Substances 0.000 description 12
- 238000000926 separation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 238000011084 recovery Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000002592 echocardiography Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000002955 isolation Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 101100180304 Arabidopsis thaliana ISS1 gene Proteins 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 2
- 101100519257 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDR17 gene Proteins 0.000 description 2
- 101100042407 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFB2 gene Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 125000001475 halogen functional group Chemical group 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ZYPDJSJJXZWZJJ-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]-3-piperidin-4-yloxypyrazol-1-yl]-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C=1C(=NN(C=1)CC(=O)N1CC2=C(CC1)NN=N2)OC1CCNCC1 ZYPDJSJJXZWZJJ-UHFFFAOYSA-N 0.000 description 1
- -1 ISS2 Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 101100356268 Schizosaccharomyces pombe (strain 972 / ATCC 24843) red1 gene Proteins 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
Изобретение относится к декодированию аудиосигнала. Технический результат изобретения заключается в расширении возможностей многоканального воспроизведения индивидуального аудиоконтента с целью улучшения слухового ощущения. Декодер для формирования выходного аудиосигнала содержит один или более каналов вывода аудио, сигнал понижающего микширования, содержащий множество выборок понижающего микширования временной области, генератор последовательности окон для определения множества окон анализа, при этом каждое из окон анализа содержит множество выборок понижающего микширования временной области сигнала понижающего микширования. Декодер содержит модуль t/f-анализа для преобразования упомянутого множества выборок понижающего микширования временной области каждого окна анализа упомянутого множества окон анализа из временной области в частотно-временную область в зависимости от длины окна упомянутого окна анализа, чтобы получить преобразованное понижающее микширование. Кроме того, декодер содержит блок повышающего микширования. 9 н. и 8 з.п. ф-лы, 22 ил.
Description
Настоящее изобретение относится к кодированию аудиосигнала, декодированию аудиосигнала и обработке аудиосигнала, и в частности, к кодеру, декодеру и способам для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов (SAOC).
В современных системах цифрового аудио главным направлением является создание возможности связанных с аудиообъектом модификаций переданного контента на стороне приемника. Эти модификации включают в себя модификации усиления выбранных частей аудиосигнала и/или пространственную перестановку выделенных аудиообъектов в случае многоканального воспроизведения посредством рассредоточенных в пространстве динамиков. Это может достигаться путем индивидуальной доставки разных частей аудиоконтента в разные динамики.
Другими словами, в области обработки аудио, передачи аудио и хранения аудио существует растущая потребность в разрешении взаимодействия с пользователем касательно объектно-ориентированного воспроизведения аудиоконтента, а также необходимость использовать расширенные возможности многоканального воспроизведения для индивидуального воспроизведения аудиоконтента или его частей, чтобы улучшить слуховое ощущение. К тому же использование многоканального аудиоконтента приносит пользователю значительные улучшения. Например, можно получить трехмерное слуховое ощущение, которое способствует большей удовлетворенности пользователя в развлекательных приложениях. Однако многоканальный аудиоконтент также полезен в профессиональных средах, например, в приложениях телефонной конференц-связи, поскольку можно улучшить разборчивость речи говорящего с использованием многоканального воспроизведения аудио. Другим возможным применением является предложение слушателю музыкального произведения индивидуально регулировать уровень воспроизведения и/или пространственное положение разных частей (также называемых "аудиообъектами") либо дорожек, например вокальную часть или разные инструменты. Пользователь может выполнять такую регулировку исходя из личного вкуса, для более простой расшифровки одной или более частей музыкального произведения, для образовательных целей, караоке, репетиции и т.п.
Прямая дискретная передача всего цифрового многоканального или многообъектного аудиоконтента, например, в виде данных импульсно-кодовой модуляции (PCM) или даже форматов сжатого аудио, требует очень высоких скоростей передачи разрядов. Однако также желательно передавать и хранить аудиоданные эффективным по скорости передачи разрядов способом. Поэтому есть желание принять разумный компромисс между качеством аудио и требованиями к скорости передачи разрядов, чтобы избежать чрезмерной загрузки ресурсов, вызванной многоканальными/многообъектными приложениями.
В последнее время в области кодирования аудио Экспертной группой по движущимся изображениям (MPEG) и другими предложены параметрические методики для эффективной по скорости передачи/хранения многоканальных/многообъектных аудиосигналов. Одним примером является MPEG Surround (MPS) в качестве канально-ориентированного подхода [MPS, BCC], или Пространственное кодирование аудиообъектов MPEG (SAOC) в качестве объектно-ориентированного подхода [JSC, SAOC, SAOC1, SAOC2]. Другой объектно-ориентированный подход называется "информированным разделением источников" [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]. Эти методики направлены на восстановление нужной выходной аудиосцены или нужного объекта источника аудио на основе понижающего микширования каналов/объектов и дополнительной информации, описывающей переданную/сохраненную аудиосцену и/или объекты источников аудио в аудиосцене.
В таких системах оценка и применение связанной с каналом/объектом дополнительной информации выполняется избирательным по времени-частоте способом. Поэтому такие системы применяют частотно-временные преобразования, например дискретное преобразование Фурье (DFT), оконное преобразование Фурье (STFT) или гребенки фильтров типа гребенок квадратурного зеркального фильтра (QMF), и т.п. Основной принцип таких систем изображается на фиг. 3 с использованием примера SAOC MPEG.
В случае STFT временная размерность представляется номером временного блока, а спектральная размерность охватывается номером спектрального коэффициента ("элемента разрешения"). В случае QMF временная размерность представляется номером временного интервала, а спектральная размерность охватывается номером поддиапазона. Если спектральное разрешение QMF повышается путем последующего применения второго каскада фильтра, то вся гребенка фильтров называется гибридным QMF, а поддиапазоны высокого разрешения называются гибридными поддиапазонами.
Как уже упоминалось выше, в SAOC общая обработка осуществляется избирательным по времени-частоте способом и может описываться в каждом диапазоне частот следующим образом, как изображено на фиг. 3:
- N сигналов s1 … sN входных аудиообъектов подвергаются понижающему микшированию в P каналов x1 … xP как часть обработки кодера с использованием матрицы понижающего микширования, состоящей из элементов d1,1 … dN,P. К тому же кодер извлекает дополнительную информацию, описывающую характеристики входных аудиообъектов (модуль оценки дополнительной информации (SIE)). Для SAOC MPEG зависимости мощностей объектов друг от друга являются основным видом такой дополнительной информации.
- Сигнал понижающего микширования (сигналы) и дополнительная информация передаются/сохраняются. С этой целью аудиосигнал (сигналы) понижающего микширования можно сжимать, например, с использованием общеизвестных кодеров воспринимаемого аудио, таких как Уровень II или III MPEG-1/2 (также известный как .mp3), Усовершенствованное аудиокодирование (AAC) MPEG-2/4 и т.п.
- На принимающей стороне декодер концептуально пытается восстановить исходные сигналы объектов ("разделение объектов") из (декодированных) сигналов понижающего микширования, используя переданную дополнительную информацию. Эти приблизительные сигналы ŝ1 … ŝN объектов затем подвергаются микшированию в целевую сцену, представленную M каналами ŷ1 … ŷM вывода аудио, используя матрицу воспроизведения, описанную коэффициентами r1,1 … rN,M на фиг. 3. Нужная целевая сцена в предельном случае может быть воспроизведением лишь одного сигнала источника из смеси (сценарий разделения источников), но также любой другой произвольной акустической сценой, состоящей из переданных объектов. Например, результатом может быть одноканальная, 2-канальная (стерео) или многоканальная (5.1) целевая сцена.
Частотно-временные системы могут использовать частотно-временное (t/f) преобразование со статическим разрешением по времени и частоте. Выбор определенной сетки фиксированного t/f-разрешения обычно включает в себя компромисс между разрешением по времени и частоте.
Эффект фиксированного t/f-разрешения можно продемонстрировать на примере типичных сигналов объектов в смеси аудиосигналов. Например, спектры тональных звуков показывают гармонически связанную структуру с основной частотой и несколькими обертонами. Энергия таких сигналов сосредоточена в определенных областях частот. Для таких сигналов высокое разрешение по частоте у используемого t/f-представления выгодно для выделения узкополосных тональных спектральных областей из смеси сигналов. Наоборот, сигналы перехода типа звуков ударных часто имеют четкую временную структуру: существенная энергия присутствует только в коротких периодах времени и распространяется на широкий диапазон частот. Для этих сигналов высокое разрешение по времени у используемого t/f-представления выгодно для выделения части с сигналами перехода из смеси сигналов.
Имеющиеся схемы кодирования аудиообъектов предлагают лишь ограниченную изменчивость в избирательности по времени-частоте в обработке SAOC. Например, SAOC MPEG [SAOC][SAOC1][SAOC2] ограничивается разрешением по времени-частоте, которое можно получить с использованием так называемой гребенки гибридного квадратурного зеркального фильтра (Гибридный QMF), и его последующего группирования в параметрические диапазоны. Поэтому восстановление объекта при стандартном SAOC (SAOC MPEG, которое стандартизовано в [SAOC]) часто страдает от низкого разрешения по частоте у Гибридного QMF, приводящего к слышимым модулированным перекрестным помехам от других аудиообъектов (например, артефактам неразборчивости в речи или артефактам резкости для слуха в музыке).
Схемы кодирования аудиообъектов, например бинауральное кодирование с метками [BCC] и параметрическое совместное кодирование источников аудио [JSC], также ограничены использованием одной гребенки фильтров с фиксированным разрешением. Фактический выбор гребенки фильтров с фиксированным разрешением или преобразования всегда включает в себя предопределенный компромисс в части оптимальности между временными и спектральными свойствами схемы кодирования.
В области информированного разделения источников (ISS) предложено динамически адаптировать длину частотно-временного преобразования к свойствам сигнала [ISS7], что известно из схем кодирования воспринимаемого аудио, например, усовершенствованного аудиокодирования (AAC)[AAC].
Цель настоящего изобретения - предоставить усовершенствованные идеи для кодирования аудиообъектов. Цель настоящего изобретения достигается с помощью декодера по п. 1, декодера по п. 5, кодера по п. 6, кодера по п. 12, способа декодирования по п. 13, способа кодирования по п. 14, способа декодирования по п. 15, способа кодирования по п. 16 и компьютерной программы по п. 17.
В отличие от современного SAOC варианты осуществления предоставляются для динамической адаптации разрешения по времени-частоте к сигналу обратно совместимым способом, так что
- потоки двоичных сигналов параметров SAOC, исходящие из кодера стандартного SAOC (SAOC MPEG, которое стандартизовано в [SAOC]), по-прежнему можно декодировать с помощью улучшенного декодера с воспринимаемым качеством, сопоставимым с получаемым от стандартного декодера,
- потоки двоичных сигналов параметров улучшенного SAOC можно декодировать с оптимальным качеством с помощью улучшенного декодера, и
- потоки двоичных сигналов параметров стандартного и улучшенного SAOC можно смешивать, например, в сценарии многоточечного блока управления (MCU), в один общий поток двоичных сигналов, который можно декодировать с помощью стандартного или улучшенного декодера.
Для вышеупомянутых свойств полезно предусмотреть общее представление гребенки фильтров/преобразования, которое можно динамически адаптировать в части разрешения по времени-частоте к поддержке декодирования данных нового улучшенного SAOC и, одновременно, обратно совместимого отображения данных традиционного, стандартного SAOC. Объединение данных улучшенного SAOC и данных стандартного SAOC возможно при условии такого общего представления.
Воспринимаемое качество улучшенного SAOC можно получить путем динамической адаптации разрешения по времени-частоте у гребенки фильтров или преобразования, которое применяется для оценки или используется для синтеза меток аудиообъекта, к характерным свойствам входного аудиообъекта. Например, если аудиообъект является квазистационарным в течение некоторого промежутка времени, то оценку параметров и синтез выгодно выполнять при низком разрешении по времени и высоком разрешении по частоте. Если аудиообъект содержит переходы или нестабильности в течение некоторого промежутка времени, то оценку параметров и синтез предпочтительно выполнять с использованием высокого разрешения по времени и низкого разрешения по частоте. В силу этого динамическая адаптация гребенки фильтров или преобразования допускает
- высокую избирательность по частоте при спектральном разделении квазистационарных сигналов, чтобы избежать перекрестных помех между объектами, и
- высокую временную точность для наслоений объектов или событий переходов, чтобы минимизировать опережающие и запаздывающие эхо.
Одновременно можно получить качество традиционного SAOC путем отображения данных стандартного SAOC на частотно-временную сетку, предоставленную обладающим признаками изобретения, обратно совместимым адаптивным к сигналу преобразованием, которое зависит от дополнительной информации, описывающей характеристики сигналов объектов.
Возможность декодировать данные стандартного и улучшенного SAOC с использованием одного общего преобразования дает возможность прямой и обратной совместимости для приложений, которые выполняют смешивание данных стандартного и нового улучшенного SAOC.
Предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.
Декодер содержит генератор последовательности окон, определяющий множество окон анализа, где каждое из окон анализа содержит множество выборок понижающего микширования временной области сигнала понижающего микширования. Каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа. Генератор последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
Кроме того, декодер содержит модуль t/f-анализа для преобразования множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.
Кроме того, декодер содержит блок повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
В соответствии с вариантом осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
В варианте осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
В соответствии с вариантом осуществления генератор последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования.
В варианте осуществления модуль t/f-анализа может быть сконфигурирован для преобразования выборок понижающего микширования временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа (135) сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Кроме того, предоставляется кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Кодер содержит блок последовательности окон для определения множества окон анализа. Каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области упомянутого окна анализа. Блок последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
Кроме того, кодер содержит блок t/f-анализа для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала. Блок t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Кроме того, кодер содержит блок оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
В варианте осуществления кодер может дополнительно содержать блок обнаружения перехода, конфигурируемый для определения множества разностей уровней объектов у двух или более сигналов входных аудиообъектов и конфигурируемый для определения, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, чтобы для каждого из окон анализа определить, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
В соответствии с вариантом осуществления блок обнаружения перехода может быть сконфигурирован для применения функции d(n) обнаружения, чтобы определить, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, где функция d(n) обнаружения задается в виде:
где n указывает индекс, i указывает первый объект, j указывает второй объект, а b указывает параметрический диапазон. OLD может указывать, например, разность уровней объектов.
В варианте осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
В соответствии с вариантом осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1 =t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1 =t+la, где la и lb являются числами.
В варианте осуществления блок последовательности окон может быть сконфигурирован для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
В соответствии с вариантом осуществления блок t/f-анализа может быть сконфигурирован для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Кроме того, предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Декодер содержит первый подмодуль анализа для преобразования множества выборок понижающего микширования временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов. Кроме того, декодер содержит генератор последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где генератор последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Кроме того, декодер содержит второй модуль анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование. Кроме того, декодер содержит блок повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Кодер содержит первый подмодуль анализа для преобразования множества выборок сигнала временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов. Кроме того, кодер содержит блок последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где блок последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Кроме того, кодер содержит второй модуль анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала. Кроме того, кодер содержит блок оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
Кроме того, предоставляется декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования. Сигнал понижающего микширования кодирует один или более сигналов аудиообъектов. Декодер содержит блок управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов. Кроме того, декодер содержит первый модуль анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона. Кроме того, декодер содержит второй модуль анализа для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Кроме того, декодер содержит блок повышающего микширования, где блок повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется кодер для кодирования сигнала входного аудиообъекта. Кодер содержит блок управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта. Кроме того, кодер содержит первый модуль анализа для преобразования сигнала входного аудиообъекта, чтобы получить первый преобразованный сигнал аудиообъекта, где первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона. Кроме того, кодер содержит второй модуль анализа для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второй преобразованный сигнал аудиообъекта содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. Кроме того, кодер содержит блок оценки PSI, где блок оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, и определения параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта, когда указание активизации не установлено в состояние активизации.
Кроме того, предоставляется способ декодирования для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:
- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок понижающего микширования временной области сигнала понижающего микширования, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
- Преобразование множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование, и
- Повышающее микширование преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Способ содержит:
- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области упомянутого окна анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
- Преобразование выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала, где преобразование множества выборок сигнала временной области в каждом из окон анализа зависит от длины окна у упомянутого окна анализа. И:
- Определение параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
Кроме того, предоставляется способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:
- Преобразование множества выборок понижающего микширования временной области для получения множества поддиапазонов, содержащего множество выборок поддиапазонов.
- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
- Преобразование множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование. И:
- Повышающее микширование преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов, где каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области. Способ содержит:
- Преобразование множества выборок сигнала временной области для получения множества поддиапазонов, содержащего множество выборок поддиапазонов.
- Определение множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где определение множества окон анализа проводится так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
- Преобразование множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала. И
- Определение параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
Кроме того, предоставляется способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Способ содержит:
- Установку указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
- Преобразование сигнала понижающего микширования для получения первого преобразованного понижающего микширования, содержащего множество каналов первого поддиапазона.
- Формирование второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона. И:
- Повышающее микширование второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающее микширование первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Кроме того, предоставляется способ кодирования двух или более сигналов входных аудиообъектов. Способ содержит:
- Установку указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
- Преобразование каждого из сигналов входных аудиообъектов для получения первого преобразованного сигнала аудиообъекта в упомянутом сигнале входного аудиообъекта, где упомянутый первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона.
- Формирование для каждого из сигналов входных аудиообъектов второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона первого преобразованного сигнала аудиообъекта упомянутого сигнала входного аудиообъекта, чтобы получить множество каналов второго поддиапазона, где упомянутое второе преобразованное понижающее микширование содержит упомянутые каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и упомянутые каналы второго поддиапазона. И:
- Определение параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта каждого из сигналов входных аудиообъектов, когда указание активизации установлено в состояние активизации, и определение параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта каждого из сигналов входных аудиообъектов, когда указание активизации не установлено в состояние активизации.
Кроме того, предоставляется компьютерная программа для реализации одного из вышеописанных способов, когда она исполняется на компьютере или процессоре сигналов.
Предпочтительные варианты осуществления будут предоставлены в зависимых пунктах формулы изобретения.
Ниже подробнее описываются варианты осуществления настоящего изобретения со ссылкой на фигуры, на которых:
Фиг. 1a иллюстрирует декодер в соответствии с вариантом осуществления,
Фиг. 1b иллюстрирует декодер в соответствии с другим вариантом осуществления,
Фиг. 1c иллюстрирует декодер в соответствии с дополнительным вариантом осуществления,
Фиг. 2a иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с вариантом осуществления,
Фиг. 2b иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с другим вариантом осуществления,
Фиг. 2c иллюстрирует кодер для кодирования сигналов входных аудиообъектов в соответствии с дополнительным вариантом осуществления,
Фиг. 3 показывает блок-схему концептуального представления системы SAOC,
Фиг. 4 показывает схематическую и пояснительную схему спектрально-временного представления одноканального аудиосигнала,
Фиг. 5 показывает блок-схему избирательного по времени-частоте вычисления дополнительной информации в кодере SAOC,
Фиг. 6 изображает блок-схему декодера улучшенного SAOC в соответствии с вариантом осуществления, иллюстрирующую декодирование потоков двоичных сигналов стандартного SAOC,
Фиг. 7 изображает блок-схему декодера в соответствии с вариантом осуществления,
Фиг. 8 иллюстрирует блок-схему кодера в соответствии с конкретным вариантом осуществления, реализующим параметрический тракт кодера,
Фиг. 9 иллюстрирует адаптацию обычной последовательности организации окон для размещения точки пересечения окон на переходе,
Фиг. 10 иллюстрирует схему переключения блоков с изоляцией перехода в соответствии с вариантом осуществления,
Фиг. 11 иллюстрирует сигнал с переходом и результирующую AAC-подобную последовательность организации окон в соответствии с вариантом осуществления,
Фиг. 12 иллюстрирует расширенную гибридную фильтрацию QMF,
Фиг. 13 иллюстрирует пример, где для преобразования используются короткие окна,
Фиг. 14 иллюстрирует пример, где для преобразования используются более длинные окна, чем в примере из фиг. 13.
Фиг. 15 иллюстрирует пример, где реализуется высокое разрешение по частоте и низкое разрешение по времени,
Фиг. 16 иллюстрирует пример, где реализуется высокое разрешение по времени и низкое разрешение по частоте,
Фиг. 17 иллюстрирует первый пример, где реализуется промежуточное разрешение по времени и промежуточное разрешение по частоте, и
Фиг. 18 иллюстрирует первый пример, где реализуется промежуточное разрешение по времени и промежуточное разрешение по частоте.
Перед описанием вариантов осуществления настоящего изобретения предоставляется больше данных о системах современного SAOC.
Фиг. 3 показывает общую компоновку кодера 10 SAOC и декодера 12 SAOC. Кодер 10 SAOC в качестве ввода принимает N объектов, то есть аудиосигналы с s1 по sN. В частности, кодер 10 содержит средство 16 понижающего микширования, которое принимает аудиосигналы s1-sN и осуществляет их понижающее микширование в сигнал понижающего микширования 18. В качестве альтернативы понижающее микширование может предоставляться извне ("художественной понижающее микширование"), и система оценивает дополнительную информацию, чтобы привести предоставленное понижающее микширование к вычисленному понижающему микшированию. На фиг. 3 сигнал понижающего микширования показан как P-канальный сигнал. Таким образом, возможна любая монофоническая (P=1), стереофоническая (P=2) или многоканальная (P>2) конфигурация сигнала понижающего микширования.
В случае стереофонического понижающего микширования каналы сигнала понижающего микширования 18 обозначаются L0 и R0, в случае монофонического понижающего микширования это просто обозначается L0. Чтобы дать декодеру 12 SAOC возможность восстановить отдельные объекты s1-sN, модуль 17 оценки дополнительной информации предоставляет декодеру 12 SAOC дополнительную информацию, включающую в себя параметры SAOC. Например, в случае стереофонического понижающего микширования параметры SAOC содержат разности уровней объектов (OLD), корреляции между объектами (IOC) (параметры взаимной корреляции между объектами), значения усиления понижающего микширования (DMG) и разности уровней каналов понижающего микширования (DCLD). Дополнительная информация 20, включающая в себя параметры SAOC, вместе с сигналом понижающего микширования 18 образует выходной поток данных SAOC, принимаемый декодером 12 SAOC.
Декодер 12 SAOC содержит разделитель, который принимает сигнал понижающего микширования 18, а также дополнительную информацию 20, чтобы восстановить и воспроизвести аудиосигналы ŝ1 и ŝN на любом выбранном пользователем наборе каналов ŷ1-ŷM, причем воспроизведение предписывается информацией 26 воспроизведения, введенной в декодер 12 SAOC.
Аудиосигналы s1-sN можно вводить в кодер 10 в любой области кодирования, например, во временной или спектральной области. Если аудиосигналы s1-sN подаются в кодер 10 во временной области, например кодированными с PCM, то кодер 10 может использовать гребенку фильтров, например гребенку гибридного QMF, чтобы перевести сигналы в спектральную область, в которой аудиосигналы представляются в нескольких поддиапазонах, ассоциированных с разными спектральными частями, при определенном разрешении гребенки фильтров. Если аудиосигналы s1-sN уже находятся в представлении, предполагаемом кодером 10, то ему не приходится выполнять спектральное разложение.
Фиг. 4 показывает аудиосигнал в только что упомянутой спектральной области. Как видно, аудиосигнал представляется в виде множества сигналов поддиапазонов. Каждый сигнал 301-30K поддиапазона состоит из временной последовательности значений поддиапазонов, указанных небольшими прямоугольниками 32. Как видно, значения 32 поддиапазонов у сигналов 301-30K поддиапазонов синхронизированы друг с другом во времени, чтобы для каждого из последовательных временных интервалов 34 гребенки фильтров каждый поддиапазон 301-30K содержал строго одно значение 32 поддиапазона. Как проиллюстрировано осью 36 частот, сигналы 301-30K поддиапазонов ассоциируются с разными областями частот, а как проиллюстрировано осью 38 времени, временные интервалы 34 гребенки фильтров последовательно упорядочены во времени.
Как указано выше, устройство 17 извлечения дополнительной информации из фиг. 3 вычисляет параметры SAOC из входных аудиосигналов s1-sN. В соответствии с реализованным в настоящее время стандартом SAOC кодер 10 выполняет это вычисление в разрешении по времени/частоте, которое можно уменьшить относительно исходного разрешения по времени/частоте, которое определено временными интервалами 34 гребенки фильтров и разложением поддиапазонов, на некоторую величину, причем эта некоторая величина сигнализируется стороне декодера в дополнительной информации 20. Группы последовательных временных интервалов 34 гребенки фильтров могут образовывать кадр 41 SAOC. Также в дополнительной информации 20 сообщается количество диапазонов параметров в кадре 41 SAOC. Поэтому временная/частотная область разделяется на фрагменты времени/частоты, показанные на фиг. 4 пунктирными линиями 42. На фиг. 4 диапазоны параметров распределяются одинаковым образом в различных изображенных кадрах 41 SAOC, чтобы получилось регулярное расположение фрагментов времени/частоты. Однако диапазоны параметров в общем могут меняться от одного кадра 41 SAOC к последующему в зависимости от разных потребностей в спектральном разрешении в соответствующих кадрах 41 SAOC. Кроме того, с тем же успехом может меняться длина кадров 41 SAOC. В результате расположение фрагментов времени/частоты может быть нерегулярным. Тем не менее, фрагменты времени/частоты в конкретном кадре 41 SAOC обычно имеют одинаковую длительность и выровнены в направлении времени, то есть все фрагменты t/f в упомянутом кадре 41 SAOC начинаются с начала данного кадра 41 SAOC и заканчиваются в конце упомянутого кадра 41 SAOC.
Устройство 17 извлечения дополнительной информации, изображенное на фиг. 3, вычисляет параметры SAOC в соответствии со следующими формулами. В частности, устройство 17 извлечения дополнительной информации вычисляет разности уровней объектов для каждого объекта i в виде
где суммы и индексы n и k соответственно проходят по всем временным индексам 34 и всем спектральным индексам 30, которые принадлежат некоторому фрагменту 42 времени/частоты, на который ссылаются индексы l для кадра SAOC (или временного интервала обработки) и m для диапазона параметров. В силу этого энергии всех значений xi поддиапазонов аудиосигнала или объекта i суммируются и нормируются к наибольшему значению энергии того фрагмента среди всех объектов или аудиосигналов. обозначает комплексно сопряженную величину
Кроме того, устройство 17 извлечения дополнительной информации SAOC способно вычислить степень сходства у соответствующих фрагментов времени/частоты в парах разных входных объектов s1-sN. Хотя устройство 17 извлечения дополнительной информации SAOC может вычислять степень сходства между всеми парами входных объектов s1-sN, устройство 17 извлечения дополнительной информации также может запретить сигнализацию степеней сходства или ограничить вычисление степеней сходства аудиообъектами s1-sN, которые образуют левый или правый каналы общего стереофонического канала. В любом случае степень сходства называется параметром взаимной корреляции между объектами . Вычисление выглядит следующим образом
причем индексы n и k опять проходят по всем значениям поддиапазонов, принадлежащим некоторому фрагменту 42 времени/частоты, i и j обозначают некоторую пару аудиообъектов s1-sN, и Re{} обозначает операцию отбрасывания мнимой части у комплексного аргумента.
Средство 16 понижающего микширования из фиг. 3 осуществляет понижающее микширование объектов s1-sN путем использования коэффициентов усиления, применяемых к каждому объекту s1-sN. То есть коэффициент di усиления применяется к объекту i, а затем все взвешенные таким образом объекты s1-sN суммируются для получения монофонического сигнала понижающего микширования, который иллюстрируется на фиг. 3, если P=1. В другом примерном случае двухканального сигнала понижающего микширования, изображенного на фиг. 3, если P=2, коэффициент d1,i усиления применяется к объекту i, а затем все такие усиленные объекты суммируются, чтобы получить левый канал L0 понижающего микширования, и коэффициенты d2,i усиления применяются к объекту i, а затем усиленные таким образом объекты суммируются, чтобы получить правый канал R0 понижающего микширования. Обработку, которая аналогична вышеизложенной, нужно применять в случае многоканального понижающего микширования (P>2).
Это предписание понижающего микширования сигнализируется стороне декодера посредством усилений DMGi понижающего микширования, а в случае стереофонического сигнала понижающего микширования - разностей DCLDi уровней каналов понижающего микширования.
Усиления понижающего микширования вычисляются в соответствии с:
где ε - малое число, например 10-9.
Для DCLD применяется следующая формула:
В обычном режиме средство 16 понижающего микширования формирует сигнал понижающего микширования в соответствии с:
для монофонического понижающего микширования или
для стереофонического понижающего микширования соответственно.
Таким образом, в вышеупомянутых формулах параметры OLD и IOC являются функцией аудиосигналов, а параметры DMG и DCLD являются функцией d. К слову, отметим, что d может меняться во времени и по частоте.
Таким образом, в обычном режиме средство 16 понижающего микширования осуществляет микширование всех объектов s1-sN без каких-либо предпочтений, то есть обращаясь со всеми объектами s1-sN одинаково.
На стороне декодера разделитель выполняет инверсию процедуры понижающего микширования и реализацию "информации 26 воспроизведения", представленной матрицей R (в литературе также иногда называемой A) на одном этапе вычисления, а именно, в случае двухканального понижающего микширования
где матрица E является функцией параметров OLD и IOC, а матрица D содержит коэффициенты понижающего микширования в виде
Матрица E является предполагаемой ковариационной матрицей аудиообъектов s1-sN. В текущих реализациях SAOC вычисление предполагаемой ковариационной матрицы E обычно выполняется в спектральном/временном разрешении параметров SAOC, то есть для каждого (l,m), чтобы предполагаемую ковариационную матрицу можно было записать в виде E l,m. Предполагаемая ковариационная матрица E l,m имеет размер N x N с коэффициентами, заданными в виде
Таким образом, матрица E l,m при
по своей диагонали содержит разности уровней объектов, то есть для i=j, поскольку и для i=j. Вне ее диагонали предполагаемая ковариационная матрица E содержит коэффициенты матрицы, представляющие среднее геометрическое разностей уровней объектов у объектов i и j соответственно, взвешенных по мере взаимной корреляции между объектами.
Фиг. 5 отображает один возможный принцип реализации на примере модуля оценки дополнительной информации (SIE) как части кодера 10 SAOC. Кодер 10 SAOC содержит средство 16 понижающего микширования и модуль 17 оценки дополнительной информации (SIE). SIE концептуально состоит из двух модулей: Один модуль 45 для вычисления кратковременного t/f-представления (например, STFT или QMF) каждого сигнала. Вычисленное кратковременное t/f-представление подается во второй модуль 46, модуль избирательной по t/f оценки дополнительной информации (t/f-SIE). Модуль 46 t/f-SIE вычисляет дополнительную информацию для каждого фрагмента t/f. В текущих реализациях SAOC частотно-временное преобразование неизменно и идентично для всех аудиообъектов s1-sN. Кроме того, параметры SAOC определяются по кадрам SAOC, которые одинаковы для всех аудиообъектов и имеют одинаковое разрешение по времени/частоте для всех аудиообъектов s1-sN, соответственно пренебрегая характерными для объекта потребностями в высоком разрешении по времени в некоторых случаях или высоком спектральном разрешении в остальных случаях.
Ниже описываются варианты осуществления настоящего изобретения.
Фиг. 1a в соответствии с вариантом осуществления иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.
Декодер содержит генератор 134 последовательности окон для определения множества окон анализа (например, на основе параметрической дополнительной информации, например, разностей уровней объектов), где каждое из окон анализа содержит множество выборок понижающего микширования временной области сигнала понижающего микширования. Каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области в упомянутом окне анализа. Генератор 134 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Например, длина окна может зависеть от того, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов аудиообъектов, кодируемых сигналом понижающего микширования.
Для определения множества окон анализа генератор 134 последовательности окон может, например, проанализировать параметрическую дополнительную информацию, например, переданные разности уровней объектов, относящиеся к двум или более сигналам аудиообъектов, чтобы определить длину окна у окон анализа так, что длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Либо, например, генератор 134 последовательности окон для определения множества окон анализа может проанализировать формы окон или сами окна анализа, где формы окон или окна анализа могут, например, передаваться в потоке двоичных сигналов от кодера к декодеру, и где длина окна у каждого из окон анализа зависит от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
Кроме того, декодер содержит модуль 135 t/f-анализа для преобразования множества выборок понижающего микширования временной области в каждом окне анализа в множестве окон анализа из временной области в частотно-временную область в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.
Кроме того, декодер содержит блок 136 повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Следующие варианты осуществления используют особый механизм построения последовательности окон. Прототипная оконная функция f (n, Nw) задается для индекса 0≤n≤ Nw-1 для длины Nw окна. Планируя одно окно, нужны три контрольные точки, а именно центры предыдущего, текущего и следующего окна, , и.
Используя их, оконная функция задается в виде
Фактическим местоположением окна тогда является при (обозначает операцию округления аргумента в большую сторону до следующего целого числа, а соответственно обозначает операцию округления аргумента в меньшую сторону до следующего целого числа). Прототипная оконная функция, используемая на иллюстрациях, является синусоидальным окном, заданным в виде
но также могут использоваться другие виды. Местоположение t перехода задает центры для трех окон, и, где числа и задают нужный диапазон окна до и после перехода.
Как объясняется позже по отношению к фиг. 9, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
Как объясняется позже по отношению к фиг. 10, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
Как объясняется позже по отношению к фиг. 11, генератор 134 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход.
В варианте осуществления модуль 135 t/f-анализа сконфигурирован для преобразования выборок понижающего микширования временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок t/f-анализа (135) сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Фиг. 2a иллюстрирует кодер для кодирования двух или более сигналов входных аудиообъектов. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области.
Кодер содержит блок 102 последовательности окон для определения множества окон анализа. Каждое из окон анализа содержит множество выборок сигнала временной области в одном из сигналов входных аудиообъектов, где каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области упомянутого окна анализа. Блок 102 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Например, длина окна может зависеть от того, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
Кроме того, кодер содержит блок 103 t/f-анализа для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала. Блок 103 t/f-анализа может быть сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Кроме того, кодер содержит блок 104 оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
В варианте осуществления кодер может, например, дополнительно содержать блок 101 обнаружения перехода, конфигурируемый для определения множества разностей уровней объектов у двух или более сигналов входных аудиообъектов и конфигурируемый для определения, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, чтобы для каждого из окон анализа определить, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
В соответствии с вариантом осуществления блок 101 обнаружения перехода конфигурируется для применения функции d(n) обнаружения, чтобы определить, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, где функция d(n) обнаружения задается в виде:
где n указывает временной индекс, i указывает первый объект, j указывает второй объект, а b указывает параметрический диапазон. OLD может указывать, например, разность уровней объектов.
Как объясняется позже по отношению к фиг. 9, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа и вторым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
Как объясняется позже по отношению к фиг. 10, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из множества окон анализа, где центр ck первого окна анализа задается местоположением t перехода в соответствии с ck = t, где центр ck-1 второго окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb, и где центр ck+1 третьего окна анализа из множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, где la и lb являются числами.
Как объясняется позже по отношению к фиг. 11, блок 102 последовательности окон может, например, конфигурироваться для определения множества окон анализа, чтобы каждое из множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, где второе количество выборок сигнала временной области больше первого количества выборок сигнала временной области, и где каждое из окон анализа в множестве окон анализа содержит первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов.
В соответствии с вариантом осуществления блок 103 t/f-анализа сконфигурирован для преобразования выборок сигнала временной области в каждом из окон анализа из временной области в частотно-временную область путем применения гребенки фильтров QMF и гребенки фильтров Найквиста, где блок 103 t/f-анализа сконфигурирован для преобразования множества выборок сигнала временной области в каждом из окон анализа в зависимости от длины окна у упомянутого окна анализа.
Ниже описывается улучшенное SAOC с использованием обратно совместимых адаптивных гребенок фильтров в соответствии с вариантами осуществления.
Сначала объясняется декодирование потоков двоичных сигналов стандартного SAOC с помощью декодера улучшенного SAOC.
Декодер улучшенного SAOC проектируется так, чтобы иметь возможность декодирования потоков двоичных сигналов от кодеров стандартного SAOC с хорошим качеством. Декодирование ограничивается только параметрическим восстановлением, и возможные остаточные потоки игнорируются.
Фиг. 6 изображает блок-схему декодера улучшенного SAOC в соответствии с вариантом осуществления, иллюстрирующую декодирование потоков двоичных сигналов стандартного SAOC. Полужирные черные функциональные блоки (132, 133, 134, 135) указывают обладающую признаками изобретения обработку. Параметрическая дополнительная информация (PSI) состоит из наборов разностей уровней объектов (OLD), корреляций между объектами (IOC) и матрицы понижающего микширования D, используемой для создания сигнала понижающего микширования (аудио DMX) из отдельных объектов в декодере. Каждый набор параметров ассоциируется с границей параметров, которая задает временную область, с которой ассоциируются параметры. При стандартном SAOC элементы разрешения по частоте у лежащего в основе частотно-временного представления группируются в параметрические диапазоны. Интервал диапазонов имеет сходство с интервалом критических диапазонов в системе слуха человека. Кроме того, несколько кадров t/f-представления можно сгруппировать в кадр параметров. Обе эти операции обеспечивают сокращение объема необходимой дополнительной информации за счет погрешностей моделирования.
Как описано в стандарте SAOC, OLD и IOC используются для вычисления матрицы повышающего микширования, где элементами E являются приближенные значения матрицы взаимной корреляции объектов, i и j являются индексами объектов, и D T является транспозицией D. Вычислитель 131 матрицы повышающего микширования может, соответственно, конфигурироваться для вычисления матрицы повышающего микширования.
Матрица повышающего микширования затем линейно интерполируется временным интерполятором 132 из матрицы повышающего микширования предыдущего кадра по кадру параметров вплоть до границы параметров, на которой достигаются предполагаемые значения, согласно стандартному SAOC. Это приводит к матрицам повышающего микширования для каждого частотно-временного окна анализа и параметрического диапазона.
Разрешение по частоте параметрического диапазона у матриц повышающего микширования расширяется до разрешения частотно-временного представления в том окне анализа с помощью блока 133 адаптации разрешения по частоте у окна. Когда интерполированная матрица повышающего микширования для параметрического диапазона b в некотором периоде задается в виде G(b), одинаковые коэффициенты повышающего микширования используются для всех элементов разрешения по частоте внутри того параметрического диапазона.
Генератор 134 последовательности окон конфигурируется для использования информации о диапазоне набора параметров из PSI, чтобы определить подходящую последовательность организации окон для анализа входного аудиосигнала понижающего микширования. Основным требованием является то, что когда в PSI имеется граница набора параметров, точка пересечения между последовательными окнами анализа должна с ней совпадать. Организация окон определяет также разрешение по частоте у данных в каждом окне (используемое при развертывании данных повышающего микширования, как описано раньше).
Разделенные на окна данные затем преобразуются модулем 135 t/f-анализа в представление в частотной области, используя подходящее частотно-временное преобразование, например, дискретное преобразование Фурье (DFT), комплексифицированное модифицированное дискретное косинусное преобразование (CMDCT) или нечетное дискретное преобразование Фурье (ODFT).
В конечном счете блок 136 повышающего микширования применяет матрицы повышающего микширования на каждый кадр на каждый элемент разрешения по частоте к спектральному представлению сигнала понижающего микширования X, чтобы получить параметрические восстановления Y. Канал вывода j является линейной комбинацией каналов понижающего микширования.
Качество, которое можно получить с помощью этого процесса, для большинства целей неотличимо по восприятию от результата, полученного с помощью декодера стандартного SAOC.
Следует отметить, что вышеприведенный текст описывает восстановление отдельных объектов, но при стандартном SAOC воспроизведение включается в матрицу повышающего микширования, то есть включается в параметрическую интерполяцию. Учитывая линейную операцию, порядок операций не имеет значения, но следует отметить различие.
Ниже описывается декодирование потоков двоичных сигналов улучшенного SAOC с помощью декодера улучшенного SAOC.
Основные функциональные возможности декодера улучшенного SAOC уже описаны раньше при декодировании потоков двоичных сигналов стандартного SAOC. Данный раздел подробно опишет, как можно использовать улучшения предложенного улучшенного SAOC в PSI для получения лучшего воспринимаемого качества.
Фиг. 7 изображает основные функциональные блоки декодера в соответствии с вариантом осуществления, иллюстрирующие декодирование повышений разрешения по частоте. Полужирные черные функциональные блоки (132, 133, 134, 135) указывают обладающую признаками изобретения обработку.
Сначала блок 141 расширения значения по диапазону адаптирует значения OLD и IOC для каждого параметрического диапазона к разрешению по частоте, используемому в улучшениях, например, к 1024 элементам разрешения. Это выполняется путем повторения значений на элементах разрешения по частоте, которые соответствуют параметрическому диапазону. Это приводит к новым OLD и IOC. является матрицей ядра, задающей распределение элементов f разрешения по частоте по параметрическим диапазонам b с помощью
Параллельно с этим блок 142 восстановления дельта-функции инвертирует параметризацию поправочных коэффициентов для получения дельта-функции того же размера, что и расширенные OLD и IOC.
Затем блок 143 применения дельты применяет дельту к расширенным значениям OLD, и полученные значения OLD высокого разрешения получаются с помощью.
В конкретном варианте осуществления вычисление матриц повышающего микширования, может, например, выполняться с помощью вычислителя 131 матрицы повышающего микширования, как и в случае декодирования потока двоичных сигналов стандартного SAOC: , причем и. При желании матрицу воспроизведения можно умножить на матрицу G(f) повышающего микширования. Временная интерполяция с помощью временного интерполятора 132 придерживается стандартного SAOC.
Так как разрешение по частоте в каждом окне может отличаться (как правило, оно ниже) от номинального высокого разрешения по частоте, блоку 133 адаптации разрешения по частоте у окна нужно адаптировать матрицы повышающего микширования для совпадения с разрешением спектральных данных аудио, чтобы сделать возможным их применение. Это можно выполнить, например, путем передискретизации коэффициентов по оси частот к правильному разрешению. Либо, если разрешения являются целыми кратными числами, просто усредняя от данных высокого разрешения индексы, которые соответствуют одному элементу разрешения по частоте в более низком разрешении.
Информация о последовательности организации окон из потока двоичных сигналов может использоваться для получения частотно-временного анализа, полностью комплементарного анализу, используемому в кодере, либо последовательность организации окон можно построить на основе границ параметров, как выполняется при декодировании потока двоичных сигналов стандартного SAOC. Для этого может применяться генератор 134 последовательности окон.
Затем проводится частотно-временной анализ аудио понижающего микширования с помощью модуля 135 t/f-анализа, используя заданные окна.
В конечном счете интерполированные во времени и (по возможности) спектрально адаптированные матрицы повышающего микширования применяются блоком 136 повышающего микширования к частотно-временному представлению входного аудио, и канал вывода j можно получить в виде линейной комбинации каналов ввода .
Ниже описывается обратно совместимое кодирование улучшенного SAOC.
Теперь описывается кодер улучшенного SAOC, который создает поток двоичных сигналов, содержащий обратно совместимую часть с дополнительной информацией и дополнительные улучшения. Существующие декодеры стандартного SAOC могут декодировать обратно совместимую часть PSI и создавать восстановления объектов. Добавленная информация, используемая декодером улучшенного SAOC, в большинстве случаев повышает воспринимаемое качество восстановлений. Более того, если декодер улучшенного SAOC работает с ограниченными ресурсами, то улучшения можно игнорировать, и тем не менее получается восстановление базового качества. Следует отметить, что восстановления от декодеров стандартного SAOC и улучшенного SAOC с использованием только PSI, совместимой со стандартным SAOC, отличаются, но считаются очень похожими по восприятию (различие имеет аналогичный характер, как при декодировании потоков двоичных сигналов стандартного SAOC с помощью декодера улучшенного SAOC).
Фиг. 8 иллюстрирует блок-схему кодера в соответствии с конкретным вариантом осуществления, реализующим параметрический тракт описанного выше кодера. Полужирные черные функциональные блоки (102, 103) указывают обладающую признаками изобретения обработку. В частности, фиг. 8 иллюстрирует блок-схему двухэтапного кодирования, создающего обратно совместимый поток двоичных сигналов с улучшениями для более функциональных декодеров.
Сначала сигнал подразделяется на кадры анализа, которые затем преобразуются в частотную область. Несколько кадров анализа группируются в кадр параметров фиксированной длины с использованием, например, длин из 16 и 32 кадров анализа в SAOC MPEG. Предполагается, что свойства сигнала остаются квазистационарными в течение кадра параметров и, соответственно, могут описываться только одним набором параметров. Если характеристики сигнала меняются в пределах кадра параметров, то получается ошибка моделирования, и было бы полезно подразделение более длинного кадра параметров на части, в которых опять выполняется предположение квазистационарности. С этой целью необходимо обнаружение перехода.
Переходы можно обнаруживать с помощью блока 101 обнаружения перехода из всех входных объектов в отдельности, и когда имеется событие перехода всего лишь в одном из объектов, это местоположение объявляется местоположением глобального перехода. Информация о местоположениях переходов используется для построения подходящей последовательности организации окон. Построение может основываться, например, на следующей логике:
- Установить длину окна по умолчанию, то есть длину блока преобразования сигнала по умолчанию, например, в 2048 выборок.
- Установить длину кадра параметров, например, в 4096 выборок, соответствующую 4 окнам по умолчанию с 50%-ным перекрытием. Кадры параметров группируют несколько окон, и один набор дескрипторов сигнала используется для всего блока вместо дескрипторов для каждого окна в отдельности. Это делает возможным сокращение объема PSI.
- Если переход не обнаружен, использовать окна по умолчанию и полную длину кадра параметров.
- Если обнаруживается переход, адаптировать организацию окон для обеспечения лучшего разрешения по времени в местоположении перехода.
Наряду с построением последовательности организации окон отвечающий за это блок 102 последовательности окон также создает субкадры параметров из одного или более окон анализа. Каждое подмножество анализируется в качестве объекта, и для каждого субблока передается только один набор параметров PSI. Чтобы предоставить PSI, совместимую со стандартным SAOC, заданная длина блока параметров используется в качестве основной длины блока параметров, а возможные обнаруженные переходы в том блоке задают подмножества параметров.
Построенная последовательность окон выводится для частотно-временного анализа входных аудиосигналов, проводимого блоком 103 t/f-анализа, и передается в части улучшения улучшенного SAOC в PSI.
Спектральные данные каждого окна анализа используются блоком 104 оценки PSI для оценивания PSI для обратно совместимой части SAOC (например, MPEG). Это выполняется путем группирования спектральных элементов разрешения в параметрические диапазоны SAOC MPEG и оценивания IOC, OLD и энергий абсолютных объектов (NRG) в диапазонах. Следуя в общих чертах нотации SAOC MPEG, нормализованное произведение двух спектров и объектов в фрагменте параметризации задается в виде
где матрица задает отображение из Fn элементов разрешения t/f-представления в кадре n (из N кадров в этом кадре параметров) в B параметрических диапазонов с помощью
S * является комплексно сопряженной величиной от S. Спектральное разрешение может меняться между кадрами в одном параметрическом блоке, поэтому матрица отображения преобразует данные в общее основание разрешения. Максимальная энергия объекта в этом фрагменте параметризации задается как максимальная энергия объекта. При наличии этого значения OLD затем задаются как нормализованные энергии объектов
И в конечном счете можно получить IOC из взаимных мощностей в виде
Это завершает оценку совместимых со стандартным SAOC частей потока двоичных сигналов.
Блок 105 грубого восстановления спектра мощности конфигурируется для использования OLD и NRG для восстановления грубой оценки огибающей спектра в блоке анализа параметров. Огибающая строится с наибольшим разрешением по частоте, используемым в том блоке.
Исходный спектр каждого окна анализа используется блоком 106 оценки спектра мощности для вычисления спектра мощности в том окне.
Полученные спектры мощности преобразуются в общее представление с высоким разрешением по частоте с помощью блока 107 адаптации разрешения по частоте. Это может выполняться, например, путем интерполяции спектральных значений мощности. Затем спектральный профиль средней мощности вычисляется путем усреднения спектров в блоке параметров. Это приблизительно соответствует оценке OLD за исключением агрегирования параметрических диапазонов. Полученный спектральный профиль рассматривается как OLD высокого разрешения.
Блок 108 оценки дельты конфигурируется для оценки поправочного коэффициента, "дельты", например, путем деления OLD высокого разрешения на грубое восстановление спектра мощности. В результате это предоставляет (мультипликативный) поправочный коэффициент для каждого элемента разрешения по частоте, который [коэффициент] может использоваться для приближенного вычисления OLD высокого разрешения с учетом грубых спектров.
В конечном счете блок 109 моделирования дельты конфигурируется для моделирования предполагаемого поправочного коэффициента эффективным для передачи способом.
В сущности, модификации улучшенного SAOC в потоке двоичных сигналов состоят из информации о последовательности организации окон и параметров для передачи "дельты".
Ниже описывается обнаружение перехода.
Когда характеристики сигнала остаются квазистационарными, эффективности кодирования (по отношению к объему дополнительной информации) можно достичь путем объединения нескольких временных кадров в блоки параметров. Например, при стандартном SAOC часто используемыми значениями являются 16 и 32 QMF-кадров на один блок параметров. Они соответствуют 1024 и 2048 выборкам соответственно. Длину блока параметров можно заранее установить в фиксированное значение. Это имеет один прямой эффект, которым является задержка кодека (у кодера должен быть полный кадр, чтобы иметь возможность его кодировать). При использовании длинных параметрических блоков было бы выгодно обнаруживать значительные изменения в характеристиках сигнала, в основном когда нарушается предположение квазистационарности. После нахождения местоположения значительного изменения сигнал временной области можно разделить, и части снова могут лучше выполнять предположение квазистационарности.
Здесь описывается новый способ обнаружения перехода, который будет использоваться в сочетании с SAOC. Видно, что он не стремится к обнаружению переходов, а вместо этого - изменений в параметризациях сигнала, которые также могут инициироваться, например, смещением звука.
Входной сигнал разделяется на короткие, перекрывающиеся кадры, и кадры преобразуются в частотную область, например, с помощью дискретного преобразования Фурье (DFT). Сложный спектр преобразуется в спектр мощности путем умножения значений на их комплексно сопряженные величины (то есть возведения в квадрат их абсолютных значений). Затем используется группирование параметрических диапазонов, аналогичное используемому при стандартном SAOC, и вычисляется энергия каждого параметрического диапазона в каждом периоде в каждом объекте. Операции вкратце выглядят как
где является сложным спектром объекта i в периоде n. Суммирование проходит по элементам f разрешения по частоте в диапазоне b. Чтобы удалить некоторый шумовой эффект из данных, значения фильтруются по нижним частотам с помощью IIR-фильтра первого порядка:
Основной параметризацией в SAOC являются разности уровней объектов (OLD). Предложенный способ обнаружения пытается обнаружить, когда изменились бы OLD. Таким образом, все пары объектов проверяются с помощью. Изменения во всех уникальных парах объектов суммируются в функцию обнаружения с помощью
Полученные значения сравниваются с пороговой величиной T, чтобы отфильтровать небольшие отклонения уровня, и принудительно применяется минимальное расстояние L между последовательными обнаружениями. Таким образом, функцией обнаружения является
Ниже описывается разрешение по частоте улучшенного SAOC.
Разрешение по частоте, полученное из анализа стандартного SAOC, ограничивается количеством параметрических диапазонов, в стандартном SAOC имеющим максимальное значение 28. Они получаются из гребенки гибридных фильтров, состоящей из 64-полосного QMF-анализа с последующим каскадом гибридной фильтрации на самых нижних диапазонах, дополнительно делящим их не более чем на 4 комплексных поддиапазона. Полученные диапазоны частот группируются в параметрические диапазоны, имитирующие разрешение критических диапазонов у системы слуха человека. Группирование позволяет уменьшить скорость передачи необходимой дополнительной информации.
Существующая система выдает разумное качество разделения, учитывая достаточно низкую скорость передачи данных. Основной проблемой является недостаточное разрешение по частоте для четкого разделения тональных звуков. Это проявляется в виде "ореола" от других объектов, окружающей тональные компоненты объекта. По восприятию это наблюдается в виде резкости или вокодероподобного артефакта. Негативное воздействие этого ореола можно уменьшить путем увеличения параметрического разрешения по частоте. Отмечалось, что разрешение, больше либо равное 512 диапазонам (на частоте дискретизации 44,1 кГц), создает хорошее для восприятия разделение на тестовых сигналах. Это разрешение можно было бы получить путем расширения каскада гибридной фильтрации у существующей системы, но потребовались бы гибридные фильтры довольно высокого порядка для достаточного разделения, что приводит к высоким вычислительным затратам.
Простым способом получения необходимого разрешения по частоте является использование частотно-временного преобразования на основе DFT. Это можно эффективно реализовать посредством алгоритма быстрого преобразования Фурье (FFT). Вместо обычного DFT в качестве альтернатив рассматриваются CMDCT или ODFT. Отличие состоит в том, что последние два являются нечетными, и полученный спектр содержит чистые положительные и отрицательные частоты. По сравнению с DFT элементы разрешения по частоте сдвигаются на ширину в 0,5 элемента разрешения. При DFT один из элементов разрешения центрируется на 0 Гц, а другой на частоте Найквиста. Различие между ODFT и CMDCT состоит в том, что CMDCT содержит дополнительную операцию после модуляции, оказывающую влияние на фазовый спектр. Выгода этого в том, что результирующий сложный спектр состоит из модифицированного дискретного косинусного преобразования (MDCT) и модифицированного дискретного синусного преобразования (MDST).
Преобразование на основе DFT с длиной N создает сложный спектр с N значениями. Когда преобразованная последовательность является вещественной, нужны только N/2 из этих значений для идеального восстановления; остальные N/2 значений можно получить из данных значений с помощью простых манипуляций. Анализ обычно состоит из получения кадра из N выборок временной области из сигнала, применения оконной функции к значениям, а затем вычисления фактического преобразования над разделенными на окна данными. Последовательные блоки перекрываются на 50% во времени, и оконные функции проектируются так, что квадраты последовательных окон дадут в сумме единицу. Это гарантирует, что когда оконная функция дважды применяется к данным (один раз при анализе сигнала временной области, а второй раз после синтезирующего преобразования перед перекрытием с суммированием), цепочка "анализ плюс синтез" без модификаций сигнала не имеет потерь.
При условии 50%-ного перекрытия между последовательными кадрами и длины кадра в 2048 выборок эффективное разрешение по времени равно 1024 выборкам (соответствующим 23,2 мс на частоте дискретизации 44,1 кГц). Этого не достаточно мало по двум причинам: во-первых, было бы желательно иметь возможность декодировать потоки двоичных сигналов, созданные кодером стандартного SAOC, а во-вторых, анализ сигналов в кодере улучшенного SAOC с более высоким разрешением по времени, если необходимо.
В SAOC можно группировать несколько блоков в кадры параметров. Предполагается, что свойства сигнала остаются довольно похожими на протяжении кадра параметров для их описания с помощью одного набора параметров. Длины кадров параметров, обычно встречающиеся в стандартном SAOC, составляют 16 или 32 QMF-кадра (стандартом разрешены длины вплоть до 72). Аналогичное группирование может выполняться при использовании гребенки фильтров с высоким разрешением по частоте. Когда свойства сигнала не изменяются в течение кадра параметров, группирование обеспечивает эффективность кодирования без ухудшений качества. Однако, когда свойства сигнала изменяются в пределах кадра параметров, группирование вносит ошибки. Стандартное SAOC позволяет задание длины группирования по умолчанию, которая используется с квазистационарными сигналами, а также задание субблоков параметров. Субблоки задают группирования короче длины по умолчанию, и параметризация выполняется над каждым субблоком в отдельности. Вследствие разрешения по времени у лежащей в основе гребенки QMF результирующее разрешение по времени равно 64 выборкам временной области, что гораздо выше разрешения, доступного с использованием фиксированной гребенки фильтров с высоким разрешением по частоте. Это требование влияет на декодер улучшенного SAOC.
Использование гребенки фильтров с большой длиной преобразования обеспечивает хорошее разрешение по частоте, но одновременно ухудшается разрешение по времени (так называемый принцип неопределенности). Если свойства сигнала изменяются в рамках одного кадра анализа, то низкое разрешение по времени может вызвать смазывание на выходе синтеза. Поэтому было бы полезно получить разрешение по времени субкадра в местоположениях значительных переключений сигнала. Разрешение по времени субкадра приводит, как и следовало ожидать, к более низкому разрешению по частоте, но предполагается, что во время переключения сигнала разрешение по времени является более важным для точного захвата. Это требование к разрешению по времени субкадра преимущественно влияет на кодер улучшенного SAOC (а следовательно, также и на декодер).
Один и тот же принцип решения может использоваться в обоих случаях: использовать длинные кадры анализа, когда сигнал квазистационарный (переходы не обнаружены) и когда нет границ параметров. Когда не выполняется любое из двух условий, применять схему переключения длины блоков. Исключение из этого условия можно сделать для границ параметров, которые находятся между неразделенными группами кадров и совпадают с точкой пересечения между двумя длинными окнами (декодируя при этом поток двоичных сигналов стандартного SAOC). Предполагается, что в таком случае свойства сигнала остаются довольно стационарными для гребенки фильтров с высоким разрешением. Когда сигнализируется граница параметров (из потока двоичных сигналов или детектора переходов), кадрирование регулируется для использования меньшей длины кадра, соответственно локально повышая разрешение по времени.
Первые два варианта осуществления используют один и тот же лежащий в основе механизм построения последовательности окон. Прототипная оконная функция задается для индекса для длины окна N. Планируя одно окно, нужны три контрольные точки, а именно центры предыдущего, текущего и следующего окна, , и.
Используя их, оконная функция задается в виде
Фактическим местоположением окна тогда является при. Прототипная оконная функция, используемая на иллюстрациях, является синусоидальным окном, заданным в виде
но также могут использоваться другие виды.
Ниже описывается пересечение на переходе в соответствии с вариантом осуществления.
Фиг. 9 является иллюстрацией принципа схемы переключения блоков с "пересечением на переходе". В частности, фиг. 9 иллюстрирует адаптацию обычной последовательности организации окон для размещения точки пересечения окон на переходе. Линия 111 представляет выборки сигнала временной области, вертикальная линия 112 - местоположение t обнаруженного перехода (или границы параметров из потока двоичных сигналов), а линии 113 иллюстрируют оконные функции и их временные диапазоны. Эта схема требует принятия решения о величине перекрытия между двумя окнами и около перехода, задающей крутизну окон. Когда длина перекрытия устанавливается в небольшое значение, окна имеют свои максимальные точки рядом с переходом, и пересекающие переход участки быстро убывают. Длины перекрытий также могут отличаться до и после перехода. При этом подходе два окна или кадра, окружающие переход, будут отрегулированы по длине. Местоположение перехода задает центры окружающих окон равными и, в которых и являются соответственно длиной перекрытия до и после перехода. Задав их, можно использовать уравнение выше.
Ниже описывается изоляция перехода в соответствии с вариантом осуществления.
Фиг. 10 иллюстрирует принцип схемы переключения блоков с изоляцией перехода в соответствии с вариантом осуществления. Короткое окно центрируется на переходе, а два соседних окна и регулируются для дополнения короткого окна. В сущности, соседние окна ограничиваются местоположением перехода, поэтому предыдущее окно содержит только сигнал до перехода, а следующее окно содержит только сигнал после перехода. При этом подходе переход задает центры для трех окон, и, где и задают нужный диапазон окна до и после перехода. Задав их, можно использовать уравнение выше.
Ниже описывается AAC-подобное кадрирование в соответствии с вариантом осуществления.
Степени свободы у двух предшествующих схем организации окон не всегда могут быть нужны. Отличающаяся обработка перехода также применяется в области кодирования воспринимаемого аудио. Цель - уменьшить временной разброс у перехода, который вызывал бы так называемые опережающие эхо. В MPEG-2/4 AAC [AAC] используются две базовые длины окон: LONG (с длиной в 2048 выборок) и SHORT (с длиной в 256 выборок). В дополнение к этим двум длинам также задаются два переходных окна, чтобы сделать возможным переход от LONG к SHORT и наоборот. В качестве дополнительного ограничения SHORT-окнам необходимо находиться в группах из 8 окон. Таким образом, шаг между окнами и группами окон остается в постоянном значении 1024 выборок.
Если бы система SAOC применяла основанный на AAC кодек для сигналов объектов, понижающего микширования или остатков объектов, то было бы полезно иметь схему кадрирования, которую можно легко синхронизировать с кодеком. По этой причине описывается схема переключения блоков на основе AAC-окон.
Фиг. 11 изображает AAC-подобный пример переключения блоков. В частности, фиг. 11 иллюстрирует один и тот же сигнал с переходом и результирующей AAC-подобной последовательностью организации окон. Видно, что местоположение перехода во времени охватывается 8 SHORT-окнами, которые окружены переходными окнами от и до LONG-окон. Из иллюстрации видно, что сам переход ни центрирован в одном окне, ни в точке пересечения между двумя окнами. Причина в том, что местоположения окон привязаны к сетке, но вместе с тем эта сетка гарантирует постоянный шаг. Результирующая временная ошибка округления предполагается довольно мелкой, чтобы не иметь значения для восприятия по сравнению с ошибками, вызванными использованием только LONG-окон.
Окна задаются в виде:
- Переходное окно от LONG к SHORT
Ниже описываются варианты реализации в соответствии с вариантами осуществления.
Независимо от схемы переключения блоков другим проектным решением является длина фактического t/f-преобразования. Если основной целью является сохранить следующие операции в частотной области простыми по всем кадрам анализа, то можно использовать постоянную длину преобразования. Длина устанавливается в подходящее большое значение, например, соответствующее длине наибольшего разрешенного кадра. Если кадр временной области короче этого значения, то он дополняется нулями до полной длины. Следует отметить, что даже если после дополнения нулями спектр имеет большее количество элементов разрешения, то объем фактической информации не увеличивается по сравнению с более коротким преобразованием. В этом случае матрицы ядер имеют одинаковые размеры для всех значений n.
Другой альтернативой является преобразование разделенного на окна кадра без дополнения нулями. Это имеет меньшую вычислительную сложность, чем при постоянной длине преобразования. Однако нужно принимать во внимание отличающиеся разрешения по частоте между последовательными кадрами при матрицах ядер.
Ниже описывается расширенная гибридная фильтрация в соответствии с вариантом осуществления.
Другой возможностью для получения более высокого разрешения по частоте было бы изменение гребенки гибридных фильтров, используемой при стандартном SAOC, для более высокого разрешения. При стандартном SAOC только нижние три из 64 QMF-диапазонов пропускаются через гребенку фильтров Найквиста, дополнительно подразделяющую содержимое диапазона.
Фиг. 12 иллюстрирует расширенную гибридную фильтрацию QMF. Фильтры Найквиста повторяются для каждого QMF-диапазона в отдельности, и результаты объединяются для одного спектра высокого разрешения. В частности, фиг. 12 иллюстрирует, как получить разрешение по частоте, сопоставимое с подходом на основе DFT, который потребовал бы подразделения каждого QMF-диапазона, например, на 16 поддиапазонов (требующих комплексной фильтрации в 32 поддиапазона). Недостатком этого подхода является то, что необходимые прототипы фильтров являются длинными из-за узости диапазонов. Это вызывает некоторую задержку обработки и увеличивает вычислительную сложность.
Альтернативным способом является реализации расширенной гибридной фильтрации путем замены наборов фильтров Найквиста эффективными гребенками фильтров/преобразованиями (например, "масштабное" DFT, дискретное косинусное преобразование и т.п.). Кроме того, наложение спектров, содержащееся в результирующих спектральных коэффициентах высокого разрешения, которое вызвано эффектами утечки у первого каскада фильтра (здесь - QMF), можно существенно уменьшить путем постобработки с компенсацией наложения спектров для спектральных коэффициентов высокого разрешения, аналогичной общеизвестной гребенке гибридных фильтров в Уровне 3 MPEG-1/2 [FB] [MPEG-1].
Фиг. 1b в соответствии с соответствующим вариантом осуществления иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области. Сигнал понижающего микширования кодирует два или более сигналов аудиообъектов.
Декодер содержит первый подмодуль 161 анализа для преобразования множества выборок понижающего микширования временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов.
Кроме того, декодер содержит генератор 162 последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое окно анализа из множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа. Генератор 162 последовательности окон сконфигурирован для определения множества окон анализа, например, на основе параметрической дополнительной информации, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов.
Кроме того, декодер содержит второй модуль 163 анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованное понижающее микширование.
Кроме того, декодер содержит блок 164 повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Другими словами: преобразование проводится в два этапа. На первом этапе преобразования создается множество поддиапазонов, содержащих множество выборок поддиапазонов. Затем на втором этапе проводится дополнительное преобразование. Между прочим, окна анализа, используемые для второго этапа, определяют разрешение по времени и разрешение по частоте у результирующего преобразованного понижающего микширования.
Фиг. 13 иллюстрирует пример, где для преобразования используются короткие окна. Использование коротких окон приводит к низкому разрешению по частоте, но высокому разрешению по времени. Применение коротких окон может быть уместным, например, когда в кодированных сигналах аудиообъектов присутствует переход (ui,j указывают выборки поддиапазонов, а vs,r указывают выборки преобразованного понижающего микширования в частотно-временной области).
Фиг. 14 иллюстрирует пример, где для преобразования используются более длинные окна, чем в примере из фиг. 13. Использование длинных окон приводит к высокому разрешению по частоте, но низкому разрешению по времени. Применение длинных окон может быть уместным, например, когда в кодированных сигналах аудиообъектов отсутствует переход. (Опять ui,j указывают выборки поддиапазонов, а vs,r указывают выборки преобразованного понижающего микширования в частотно-временной области).
Фиг. 2b иллюстрирует соответствующий кодер для кодирования двух или более сигналов входных аудиообъектов в соответствии с вариантом осуществления. Каждый из двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области.
Кодер содержит первый подмодуль 171 анализа для преобразования множества выборок сигнала временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов.
Кроме того, кодер содержит блок 172 последовательности окон для определения множества окон анализа, где каждое из окон анализа содержит множество выборок поддиапазонов в одном из множества поддиапазонов, где каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов в упомянутом окне анализа, где блок 172 последовательности окон сконфигурирован для определения множества окон анализа, чтобы длина окна у каждого из окон анализа зависела от свойства сигнала у по меньшей мере одного из двух или более сигналов входных аудиообъектов. Например, (необязательный) блок 175 обнаружения перехода может предоставлять блоку 172 последовательности окон информацию о том, присутствует ли переход в одном из сигналов входных аудиообъектов.
Кроме того, кодер содержит второй модуль 173 анализа для преобразования множества выборок поддиапазонов в каждом окне анализа в множестве окон анализа в зависимости от длины окна у упомянутого окна анализа, чтобы получить преобразованные выборки сигнала.
Кроме того, кодер содержит блок 174 оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
В соответствии с другими вариантами осуществления могут присутствовать два модуля анализа для проведения анализа в два этапа, но второй модуль может включаться и выключаться в зависимости от свойства сигнала.
Например, если необходимо высокое разрешение по частоте и приемлемо низкое разрешение по времени, то второй модуль анализа включается.
В отличие от этого, если необходимо высокое разрешение по времени и приемлемо низкое разрешение по частоте, то второй модуль анализа выключается.
Фиг. 1c иллюстрирует декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования в соответствии с таким вариантом осуществления. Сигнал понижающего микширования кодирует один или более сигналов аудиообъектов.
Декодер содержит блок 181 управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов.
Кроме того, декодер содержит первый модуль 182 анализа для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее множество каналов первого поддиапазона.
Кроме того, декодер содержит второй модуль 183 анализа для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второе преобразованное понижающее микширование содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона.
Кроме того, декодер содержит блок 184 повышающего микширования, где блок 184 повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Фиг. 15 иллюстрирует пример, где необходимо высокое разрешение по частоте и приемлемо низкое разрешение по времени. Следовательно, блок 181 управления включает второй модуль анализа путем установки указания активизации в состояние активизации (например, путем установки логической переменной "activation_indication" в "activation_indication=true"). Сигнал понижающего микширования преобразуется первым модулем 182 анализа (не показан на фиг. 15) для получения первого преобразованного понижающего микширования. В примере из фиг. 15 преобразованное понижающее микширование имеет три поддиапазона. В более реалистичных сценариях применения преобразованное понижающее микширование может иметь, например, 32 или 64 поддиапазона. Затем первое преобразованное понижающее микширование преобразуется вторым модулем 183 анализа (не показан на фиг. 15) для получения второго преобразованного понижающего микширования. В примере из фиг. 15 преобразованное понижающее микширование имеет девять поддиапазонов. В более реалистичных сценариях применения преобразованное понижающее микширование может иметь, например, 512, 1024 или 2048 поддиапазонов. Блок 184 повышающего микширования затем осуществляет повышающее микширование второго преобразованного понижающего микширования для получения выходного аудиосигнала.
Например, блок 184 повышающего микширования может принять указание активизации от блока 181 управления. Либо, например, всякий раз, когда блок 184 повышающего микширования принимает второе преобразованное понижающее микширование от второго модуля 183 анализа, блок 184 повышающего микширования делает вывод, что нужно осуществить повышающее микширование второго преобразованного понижающего микширования; всякий раз, когда блок 184 повышающего микширования не принимает второе преобразованное понижающее микширование от второго модуля 183 анализа, блок 184 повышающего микширования делает вывод, что нужно осуществить повышающее микширование первого преобразованного понижающего микширования.
Фиг. 16 иллюстрирует пример, где необходимо высокое разрешение по времени и приемлемо низкое разрешение по частоте. Следовательно, блок 181 управления выключает второй модуль анализа путем установки указания активизации в состояние, отличное от состояния активизации (например, путем установки логической переменной "activation_indication" в "activation_indication=false"). Сигнал понижающего микширования преобразуется первым модулем 182 анализа (не показан на фиг. 16) для получения первого преобразованного понижающего микширования. Затем, в отличие от фиг. 15, первое преобразованное понижающее микширование не преобразуется еще раз вторым модулем 183 анализа. Вместо этого блок 184 повышающего микширования осуществляет повышающее микширование первого преобразованного понижающего микширования для получения выходного аудиосигнала.
В соответствии с вариантом осуществления блок 181 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от того, содержит ли по меньшей мере один из упомянутого одного или более сигналов аудиообъектов переход, указывающий изменение сигнала у упомянутого по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов.
В другом варианте осуществления указание преобразования поддиапазона назначается каждому из каналов первого поддиапазона. Блок 181 управления сконфигурирован для установки указания преобразования поддиапазона каждого из каналов первого поддиапазона в состояние преобразования поддиапазона в зависимости от свойства сигнала у по меньшей мере одного из упомянутого одного или более сигналов аудиообъектов. Кроме того, второй модуль 183 анализа сконфигурирован для преобразования каждого из каналов первого поддиапазона, у которого указание преобразования поддиапазона установлено в состояние преобразования поддиапазона, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого из каналов второго поддиапазона, у которого указание преобразования поддиапазона не установлено в состояние преобразования поддиапазона.
Фиг. 17 иллюстрирует пример, где блок 181 управления (не показан на фиг. 17) установил указание преобразования поддиапазона у второго поддиапазона в состояние преобразования поддиапазона (например, путем установки логической переменной "subband_transform_indication_2" в "subband_transform_indication_2=true"). Таким образом, второй модуль 183 анализа (не показан на фиг. 17) преобразует второй поддиапазон для получения трех новых поддиапазонов "высокого разрешения". В примере из фиг. 17 блок 181 управления не установил указание преобразования поддиапазона у первого и третьего поддиапазона в состояние преобразования поддиапазона (например, это может быть указано блоком 181 управления путем установки логических переменных "subband_transform_indication_1" и "subband_transform_indication_3" в "subband_transform_indication_1=false" и "subband_transform_indication_3=false"). Таким образом, второй модуль 183 анализа не преобразует первый и третий поддиапазон. Вместо этого первый поддиапазон и третий поддиапазон сами используются в качестве поддиапазонов второго преобразованного понижающего микширования.
Фиг. 18 иллюстрирует пример, где блок 181 управления (не показан на фиг. 18) установил указание преобразования поддиапазона у первого и второго поддиапазона в состояние преобразования поддиапазона (например, путем установки логической переменной "subband_transform_indication_1" в "subband_transform_indication_1=true" и, например, путем установки логической переменной "subband_transform_indication_2" в "subband_transform_indication_2=true"). Таким образом, второй модуль 183 анализа (не показан на фиг. 18) преобразует первый и второй поддиапазон для получения шести новых поддиапазонов "высокого разрешения". В примере из фиг. 18 блок 181 управления не установил указание преобразования поддиапазона у третьего поддиапазона в состояние преобразования поддиапазона (например, это может быть указано блоком 181 управления путем установки логической переменной "subband_transform_indication_3" в "subband_transform_indication_3=false"). Таким образом, второй модуль 183 анализа не преобразует третий поддиапазон. Вместо этого третий поддиапазон сам используется в качестве поддиапазона второго преобразованного понижающего микширования.
В соответствии с вариантом осуществления первый модуль 182 анализа сконфигурирован для преобразования сигнала понижающего микширования, чтобы получить первое преобразованное понижающее микширование, содержащее упомянутое множество каналов первого поддиапазона, путем применения квадратурного зеркального фильтра (QMF).
В варианте осуществления первый модуль 182 анализа сконфигурирован для преобразования сигнала понижающего микширования в зависимости от длины первого окна анализа, где длина первого окна анализа зависит от упомянутого свойства сигнала, и/или второй модуль 183 анализа сконфигурирован для формирования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, путем преобразования упомянутого по меньшей мере одного из каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала. Такой вариант осуществления реализует включение и выключение второго модуля 183 анализа и установку длины окна анализа.
В варианте осуществления декодер сконфигурирован для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, где сигнал понижающего микширования кодирует два или более сигналов аудиообъектов. Блок 181 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от свойства сигнала у по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов. Кроме того, блок 184 повышающего микширования сконфигурирован для повышающего микширования второго преобразованного понижающего микширования, когда указание активизации установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутом одном или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал, и повышающего микширования первого преобразованного понижающего микширования, когда указание активизации не установлено в состояние активизации, на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
Фиг. 2c иллюстрирует кодер для кодирования сигнала входного аудиообъекта в соответствии с вариантом осуществления.
Кодер содержит блок 191 управления для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта.
Кроме того, кодер содержит первый модуль 192 анализа для преобразования сигнала входного аудиообъекта, чтобы получить первый преобразованный сигнал аудиообъекта, где первый преобразованный сигнал аудиообъекта содержит множество каналов первого поддиапазона.
Кроме того, кодер содержит второй модуль 193 анализа для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона, чтобы получить множество каналов второго поддиапазона, где второй преобразованный сигнал аудиообъекта содержит каналы первого поддиапазона, которые не были преобразованы вторым модулем анализа, и каналы второго поддиапазона.
Кроме того, кодер содержит блок 194 оценки PSI, где блок 194 оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, и определения параметрической дополнительной информации на основе первого преобразованного сигнала аудиообъекта, когда указание активизации не установлено в состояние активизации.
В соответствии с вариантом осуществления блок 191 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от того, содержит ли сигнал входного аудиообъекта переход, указывающий изменение сигнала у сигнала входного аудиообъекта.
В другом варианте осуществления указание преобразования поддиапазона назначается каждому из каналов первого поддиапазона. Блок 191 управления сконфигурирован для установки указания преобразования поддиапазона каждого из каналов первого поддиапазона в состояние преобразования поддиапазона в зависимости от свойства сигнала у сигнала входного аудиообъекта. Второй модуль 193 анализа сконфигурирован для преобразования каждого из каналов первого поддиапазона, у которого указание преобразования поддиапазона установлено в состояние преобразования поддиапазона, получения упомянутого множества каналов второго поддиапазона и отказа от преобразования каждого из каналов второго поддиапазона, у которого указание преобразования поддиапазона не установлено в состояние преобразования поддиапазона.
В соответствии с вариантом осуществления первый модуль 192 анализа сконфигурирован для преобразования каждого из сигналов входных аудиообъектов путем применения квадратурного зеркального фильтра.
В другом варианте осуществления первый модуль 192 анализа сконфигурирован для преобразования сигнала входного аудиообъекта в зависимости от длины первого окна анализа, где длина первого окна анализа зависит от упомянутого свойства сигнала, и/или второй модуль 193 анализа сконфигурирован для формирования второго преобразованного сигнала аудиообъекта, когда указание активизации установлено в состояние активизации, путем преобразования по меньшей мере одного из упомянутого множества каналов первого поддиапазона в зависимости от длины второго окна анализа, при этом длина второго окна анализа зависит от упомянутого свойства сигнала.
В соответствии с другим вариантом осуществления кодер сконфигурирован для кодирования сигнала входного аудиообъекта и по меньшей мере одного дополнительного сигнала входного аудиообъекта. Блок 191 управления сконфигурирован для установки указания активизации в состояние активизации в зависимости от свойства сигнала у сигнала входного аудиообъекта и в зависимости от свойства сигнала у упомянутого по меньшей мере одного дополнительного сигнала входного аудиообъекта. Первый модуль 192 анализа сконфигурирован для преобразования по меньшей мере одного дополнительного сигнала входного аудиообъекта, чтобы получить по меньшей мере один дополнительный первый преобразованный сигнал аудиообъекта, где каждый из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта содержит множество каналов первого поддиапазона. Второй модуль 193 анализа сконфигурирован для преобразования, когда указание активизации установлено в состояние активизации, по меньшей мере одного из упомянутого множества каналов первого поддиапазона у по меньшей мере одного из упомянутого по меньшей мере одного дополнительного первого преобразованного сигнала аудиообъекта, чтобы получить множество дополнительных каналов второго поддиапазона. Кроме того, блок 194 оценки PSI сконфигурирован для определения параметрической дополнительной информации на основе множества дополнительных каналов второго поддиапазона, когда указание активизации установлено в состояние активизации.
Обладающий признаками изобретения способ и устройство устраняют вышеупомянутые недостатки современной обработки SAOC, использующей фиксированную гребенку фильтров или частотно-временное преобразование. Субъективно лучшее качество аудио можно получить путем динамической адаптации разрешения по времени/частоте у преобразований или гребенок фильтров, применяемых для анализа и синтеза аудиообъектов в SAOC. Вместе с тем в рамках той же системы SAOC можно минимизировать артефакты типа опережающих и запаздывающих эхо, вызванные недостатком временной точности, и артефакты типа резкости для слуха и неразборчивости, вызванные недостаточной спектральной точностью. Самое главное, что система улучшенного SAOC, оборудованная обладающим признаками изобретения адаптивным преобразованием, сохраняет обратную совместимость со стандартным SAOC, обеспечивая при этом хорошее воспринимаемое качество, сопоставимое с качеством стандартного SAOC.
Варианты осуществления предоставляют аудиокодер или способ аудиокодирования либо связанную компьютерную программу, как описано выше. Кроме того, варианты осуществления предоставляют аудиокодер или способ аудиодекодирования либо связанную компьютерную программу, как описано выше. Кроме того, варианты осуществления предоставляют кодированный аудиосигнал или носитель информации, имеющий сохраненный кодированный аудиосигнал, как описано выше.
Хотя некоторые особенности описаны применительно к устройству, понято, что эти особенности также представляют собой описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. По аналогии особенности, описанные применительно к этапу способа, также представляют собой описание соответствующего блока или элемента либо признака соответствующего устройства.
Обладающий признаками изобретения разложенный сигнал может храниться на цифровом носителе информации или может передаваться по передающей среде, например беспроводной передающей среде или проводной передающей среде, такой как Интернет.
В зависимости от некоторых требований к реализации, варианты осуществления изобретения можно реализовать в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя информации, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные на нем электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой так, что выполняется соответствующий способ.
Некоторые варианты осуществления в соответствии с изобретением содержат долговременный носитель информации, имеющий электронно считываемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой так, что выполняется один из способов, описанных в этом документе.
Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код действует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может храниться, например, на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в этом документе способов, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления обладающего признаками изобретения способа поэтому является компьютерной программой, имеющей программный код для выполнения одного из описанных в этом документе способов, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления обладающих признаками изобретения способов поэтому является носителем информации (или цифровым носителем информации, или считываемым компьютером носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.
Дополнительный вариант осуществления обладающего признаками изобретения способа поэтому является потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в этом документе. Поток данных или последовательность сигналов могут конфигурироваться, например, для передачи по соединению передачи данных, например по Интернету.
Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, сконфигурированное или приспособленное для выполнения одного из способов, описанных в этом документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в этом документе.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в этом документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнить один из способов, описанных в этом документе. Как правило, способы предпочтительно выполняются любым аппаратным устройством.
Вышеописанные варианты осуществления являются всего лишь пояснительными для принципов настоящего изобретения. Подразумевается, что модификации и изменения компоновок и подробностей, описанных в этом документе, будут очевидны другим специалистам в данной области техники. Поэтому есть намерение ограничиться только объемом предстоящей формулы изобретения, а не определенными подробностями, представленными посредством описания и объяснения вариантов осуществления в этом документе.
Библиографический список
[BCC] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and applications,” IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[JSC] C. Faller, “Parametric Joint-Coding of Audio Sources”, 120th AES Convention, Paris, 2006.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April, 2007.
[SAOC2] J. Engdegård, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hölzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC)- The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008.
[SAOC] ISO/IEC, “MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),” ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.
[AAC] Bosi, Marina; Brandenburg, Karlheinz; Quackenbush, Schuyler; Fielder, Louis; Akagiri, Kenzo; Fuchs, Hendrik; Dietz, Martin, “ISO/IEC MPEG-2 Advanced Audio Coding”, J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.
[ISS1] M. Parvaix and L. Girin: “Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding”, IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: “A watermarking-based method for informed source separation of audio signals with a single sensor”, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: “Informed source separation through spectrogram coding and data embedding”, Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: “Informed source separation: source coding meets source separation”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] Shuhua Zhang and Laurent Girin: “An Informed Source Separation System for Speech Signals”, INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: “Informed Audio Source Separation from Compressed Linear Stereo Mixtures”, AES 42nd International Conference: Semantic Audio, 2011.
[ISS7] Andrew Nesbit, Emmanuel Vincent, and Mark D. Plumbley: “Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation”, IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.
[FB] B. Edler, "Aliasing reduction in subbands of cascaded filterbanks with decimation", Electronic Letters, vol. 28, No. 12, pp. 1104-1106, June 1992.
[MPEG-1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO/IEC 11172, Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s,1993.
Claims (52)
1. Декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области, при этом сигнал понижающего микширования кодирует два или более сигналов аудиообъектов, при этом декодер содержит:
генератор (134) последовательности окон для определения множества окон анализа, при этом каждое из окон анализа содержит множество выборок понижающего микширования временной области сигнала понижающего микширования, при этом каждое окно анализа из упомянутого множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области упомянутого окна анализа, при этом генератор (134) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы длина окна каждого из окон анализа зависела от свойства сигнала по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов,
модуль (135) t/f-анализа для преобразования упомянутого множества выборок понижающего микширования временной области каждого окна анализа упомянутого множества окон анализа из временной области в частотно-временную область в зависимости от длины окна упомянутого окна анализа, чтобы получить преобразованное понижающее микширование, и
блок (136) повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
2. Декодер по п.1, в котором генератор (134) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы переход, указывающий изменение сигнала по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов, кодируемых посредством сигнала понижающего микширования, был составлен первым окном анализа из упомянутого множества окон анализа и вторым окном анализа из упомянутого множества окон анализа, при этом центр ck упомянутого первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 упомянутого первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, при этом la и lb являются числами.
3. Декодер по п. 1, в котором генератор (134) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы переход, указывающий изменение сигнала по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов, кодируемых посредством сигнала понижающего микширования, был составлен первым окном анализа из упомянутого множества окон анализа, при этом центр ck упомянутого первого окна анализа задается местоположением t перехода в соответствии с сk=t, при этом центр ck-1 второго окна анализа из упомянутого множества окон анализа задается местоположением t перехода в соответствии с сk-1=t-lb и при этом центр сk+1 третьего окна анализа из упомянутого множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, при этом la и lb являются числами.
4. Декодер по п. 1, в котором генератор (134) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы каждое из упомянутого множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, при этом упомянутое второе количество выборок сигнала временной области больше упомянутого первого количества выборок сигнала временной области и при этом каждое из окон анализа упомянутого множества окон анализа содержит упомянутое первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий переключение сигнала по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов, кодируемых посредством сигнала понижающего микширования.
5. Декодер для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области, при этом сигнал понижающего микширования кодирует два или более сигналов аудиообъектов, при этом декодер содержит:
первый подмодуль (161) анализа для преобразования упомянутого множества выборок понижающего микширования временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов,
генератор (162) последовательности окон для определения множества окон анализа, при этом каждое из окон анализа содержит множество выборок поддиапазонов одного из упомянутого множества поддиапазонов, при этом каждое окно анализа упомянутого множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов упомянутого окна анализа, при этом генератор (162) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы длина окна каждого из окон анализа зависела от свойства сигнала по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов,
второй модуль (163) анализа для преобразования упомянутого множества выборок поддиапазонов каждого окна анализа упомянутого множества окон анализа в зависимости от длины окна упомянутого окна анализа, чтобы получить преобразованное понижающее микширование, и
блок(164) повышающего микширования для повышающего микширования преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
6. Кодер для кодирования двух или более сигналов входных аудиообъектов, при этом каждый из упомянутых двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области, при этом кодер содержит:
блок (102) последовательности окон для определения множества окон анализа, при этом каждое из окон анализа содержит множество выборок сигнала временной области одного из сигналов входных аудиообъектов, при этом каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области упомянутого окна анализа, при этом блок (102) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы длина окна каждого из окон анализа зависела от свойства сигнала по меньшей мере одного из упомянутых двух или более сигналов входных аудиообъектов,
блок (103) t/f-анализа для преобразования выборок сигнала временной области каждого из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала, при этом блок (103) t/f-анализа сконфигурирован для преобразования упомянутого множества выборок сигнала временной области каждого из окон анализа в зависимости от длины окна упомянутого окна анализа, и
блок (104) оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
7. Кодер по п. 6, при этом кодер дополнительно содержит блок (101) обнаружения перехода, сконфигурированный для определения множества разностей уровней объектов упомянутых двух или более сигналов входных аудиообъектов и сконфигурированный для определения, больше ли порогового значения разница между первой из разностей уровней объектов и второй из разностей уровней объектов, чтобы для каждого из окон анализа определить, содержит ли упомянутое окно анализа переход, указывающий изменение сигнала по меньшей мере одного из упомянутых двух или более сигналов входных аудиообъектов.
8. Кодер по п. 7,
в котором блок (101) обнаружения перехода сконфигурирован для применения функции d(n) обнаружения, чтобы определить, больше ли упомянутого порогового значения разница между упомянутой первой из разностей уровней объектов и упомянутой второй из разностей уровней объектов,
при этом функция d(n) обнаружения задается в виде:
где n указывает индекс,
где i указывает первый объект,
где j указывает второй объект и
где b указывает параметрический диапазон.
9. Кодер по п. 6, в котором блок (102) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы переход, указывающий изменение сигнала по меньшей мере одного из упомянутых двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из упомянутого множества окон анализа и вторым окном анализа из упомянутого множества окон анализа, при этом центр ck упомянутого первого окна анализа задается местоположением t перехода в соответствии с ck=t-lb, а центр ck+1 упомянутого первого окна анализа задается местоположением t перехода в соответствии с ck+1=t+la, при этом la и lb являются числами.
10. Кодер по п. 6, в котором блок (102) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы переход, указывающий изменение сигнала по меньшей мере одного из упомянутых двух или более сигналов входных аудиообъектов, был составлен первым окном анализа из упомянутого множества окон анализа, при этом центр сk упомянутого первого окна анализа задается местоположением t перехода в соответствии с сk=t, при этом центр ck-1 второго окна анализа из упомянутого множества окон анализа задается местоположением t перехода в соответствии с ck-1=t-lb и при этом центр сk+1 третьего окна анализа из упомянутого множества окон анализа задается местоположением t перехода в соответствии с ck+1=t+la, при этом la и lb являются числами.
11. Кодер по п. 6, в котором блок (102) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы каждое из упомянутого множества окон анализа содержало либо первое количество выборок сигнала временной области, либо второе количество выборок сигнала временной области, при этом упомянутое второе количество выборок сигнала временной области больше упомянутого первого количества выборок сигнала временной области и при этом каждое из окон анализа упомянутого множества окон анализа содержит упомянутое первое количество выборок сигнала временной области, когда упомянутое окно анализа содержит переход, указывающий изменение сигнала по меньшей мере одного из упомянутых двух или более сигналов входных аудиообъектов.
12. Кодер для кодирования двух или более сигналов входных аудиообъектов, при этом каждый из упомянутых двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области, при этом кодер содержит:
первый подмодуль (171) анализа для преобразования упомянутого множества выборок сигнала временной области, чтобы получить множество поддиапазонов, содержащее множество выборок поддиапазонов,
блок (172) последовательности окон для определения множества окон анализа, при этом каждое из окон анализа содержит множество выборок поддиапазонов одного из упомянутого множества поддиапазонов, при этом каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов упомянутого окна анализа, при этом блок (172) последовательности окон сконфигурирован для определения упомянутого множества окон анализа, чтобы длина окна каждого из окон анализа зависела от свойства сигнала по меньшей мере одного из упомянутых двух или более сигналов входных аудиообъектов,
второй модуль (173) анализа для преобразования упомянутого множества выборок поддиапазонов каждого окна анализа упомянутого множества окон анализа в зависимости от длины окна упомянутого окна анализа, чтобы получить преобразованные выборки сигнала, и
блок (174) оценки PSI для определения параметрической дополнительной информации в зависимости от преобразованных выборок сигнала.
13. Способ декодирования для формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области, при этом сигнал понижающего микширования кодирует два или более сигналов аудиообъектов, при этом способ содержит этапы, на которых:
определяют множество окон анализа, при этом каждое из окон анализа содержит множество выборок понижающего микширования временной области сигнала понижающего микширования, при этом каждое окно анализа из упомянутого множества окон анализа имеет длину окна, указывающую количество выборок понижающего микширования временной области упомянутого окна анализа, при этом определение упомянутого множества окон анализа проводится так, что длина окна каждого из окон анализа зависит от свойства сигнала по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов,
преобразуют упомянутое множество выборок понижающего микширования временной области каждого окна анализа упомянутого множества окон анализа из временной области в частотно-временную область в зависимости от длины окна упомянутого окна анализа, чтобы получить преобразованное понижающее микширование, и
осуществляют повышающее микширование преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
14. Способ кодирования двух или более сигналов входных аудиообъектов, при этом каждый из упомянутых двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области, при этом способ содержит этапы, на которых:
определяют множество окон анализа, при этом каждое из окон анализа содержит множество выборок сигнала временной области одного из сигналов входных аудиообъектов, при этом каждое из окон анализа имеет длину окна, указывающую количество выборок сигнала временной области упомянутого окна анализа, при этом определение упомянутого множества окон анализа проводится так, что длина окна каждого из окон анализа зависит от свойства сигнала по меньшей мере одного из упомянутых двух или более сигналов входных аудиообъектов,
преобразуют выборки сигнала временной области каждого из окон анализа из временной области в частотно-временную область, чтобы получить преобразованные выборки сигнала, при этом преобразование упомянутого множества выборок сигнала временной области каждого из окон анализа зависит от длины окна упомянутого окна анализа,
определяют параметрическую дополнительную информацию в зависимости от преобразованных выборок сигнала.
15. Способ декодирования путем формирования выходного аудиосигнала, содержащего один или более каналов вывода аудио, из сигнала понижающего микширования, содержащего множество выборок понижающего микширования временной области, при этом сигнал понижающего микширования кодирует два или более сигналов аудиообъектов, при этом способ содержит этапы, на которых:
преобразуют упомянутое множество выборок понижающего микширования временной области для получения множества поддиапазонов, содержащего множество выборок поддиапазонов,
определяют множество окон анализа, при этом каждое из окон анализа содержит множество выборок поддиапазонов одного из упомянутого множества поддиапазонов, при этом каждое окно анализа из упомянутого множества окон анализа имеет длину окна, указывающую количество выборок поддиапазонов упомянутого окна анализа, при этом определение упомянутого множества окон анализа проводится так, что длина окна каждого из окон анализа зависит от свойства сигнала по меньшей мере одного из упомянутых двух или более сигналов аудиообъектов,
преобразуют упомянутое множество выборок поддиапазонов каждого окна анализа упомянутого множества окон анализа в зависимости от длины окна упомянутого окна анализа, чтобы получить преобразованное понижающее микширование, и
осуществляют повышающее микширование преобразованного понижающего микширования на основе параметрической дополнительной информации об упомянутых двух или более сигналах аудиообъектов, чтобы получить выходной аудиосигнал.
16. Способ кодирования двух или более сигналов входных аудиообъектов, при этом каждый из упомянутых двух или более сигналов входных аудиообъектов содержит множество выборок сигнала временной области, при этом способ содержит этапы, на которых:
преобразуют упомянутое множество выборок сигнала временной области для получения множества поддиапазонов, содержащего множество выборок поддиапазонов,
определяют множество окон анализа, при этом каждое из окон анализа содержит множество выборок поддиапазонов одного из упомянутого множества поддиапазонов, при этом каждое из окон анализа имеет длину окна, указывающую количество выборок поддиапазонов упомянутого окна анализа, при этом определение упомянутого множества окон анализа проводится так, что длина окна каждого из окон анализа зависит от свойства сигнала по меньшей мере одного из упомянутых двух или более сигналов входных аудиообъектов,
преобразуют упомянутое множество выборок поддиапазонов каждого окна анализа упомянутого множества окон анализа в зависимости от длины окна упомянутого окна анализа, чтобы получить преобразованные выборки сигнала, и
определяют параметрическую дополнительную информацию в зависимости от преобразованных выборок сигнала.
17. Машиночитаемый носитель, содержащий компьютерную программу для реализации одного из способов по пп.13-16 при исполнении на компьютере или процессоре сигналов.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261710133P | 2012-10-05 | 2012-10-05 | |
US61/710,133 | 2012-10-05 | ||
EP13167481.4 | 2013-05-13 | ||
EP13167481.4A EP2717265A1 (en) | 2012-10-05 | 2013-05-13 | Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding |
PCT/EP2013/070551 WO2014053548A1 (en) | 2012-10-05 | 2013-10-02 | Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2015116287A RU2015116287A (ru) | 2016-11-27 |
RU2639658C2 true RU2639658C2 (ru) | 2017-12-21 |
Family
ID=48325509
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2015116287A RU2639658C2 (ru) | 2012-10-05 | 2013-10-02 | Кодер, декодер и способы для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов |
RU2015116645A RU2625939C2 (ru) | 2012-10-05 | 2013-10-02 | Кодер, декодер и способы для зависимого от сигнала преобразования масштаба при пространственном кодировании аудиообъектов |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2015116645A RU2625939C2 (ru) | 2012-10-05 | 2013-10-02 | Кодер, декодер и способы для зависимого от сигнала преобразования масштаба при пространственном кодировании аудиообъектов |
Country Status (17)
Country | Link |
---|---|
US (2) | US10152978B2 (ru) |
EP (4) | EP2717262A1 (ru) |
JP (2) | JP6268180B2 (ru) |
KR (2) | KR101685860B1 (ru) |
CN (2) | CN105190747B (ru) |
AR (2) | AR092929A1 (ru) |
AU (1) | AU2013326526B2 (ru) |
BR (2) | BR112015007649B1 (ru) |
CA (2) | CA2887028C (ru) |
ES (2) | ES2880883T3 (ru) |
HK (1) | HK1213361A1 (ru) |
MX (2) | MX351359B (ru) |
MY (1) | MY178697A (ru) |
RU (2) | RU2639658C2 (ru) |
SG (1) | SG11201502611TA (ru) |
TW (2) | TWI541795B (ru) |
WO (2) | WO2014053548A1 (ru) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2717262A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
EP2804176A1 (en) * | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
EP3005353B1 (en) * | 2013-05-24 | 2017-08-16 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
KR102243395B1 (ko) * | 2013-09-05 | 2021-04-22 | 한국전자통신연구원 | 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치 |
US20150100324A1 (en) * | 2013-10-04 | 2015-04-09 | Nvidia Corporation | Audio encoder performance for miracast |
CN106409303B (zh) | 2014-04-29 | 2019-09-20 | 华为技术有限公司 | 处理信号的方法及设备 |
CN105336335B (zh) | 2014-07-25 | 2020-12-08 | 杜比实验室特许公司 | 利用子带对象概率估计的音频对象提取 |
SG11201706101RA (en) * | 2015-02-02 | 2017-08-30 | Fraunhofer Ges Forschung | Apparatus and method for processing an encoded audio signal |
EP3067885A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
WO2017064264A1 (en) * | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | Method and appratus for sinusoidal encoding and decoding |
GB2544083B (en) * | 2015-11-05 | 2020-05-20 | Advanced Risc Mach Ltd | Data stream assembly control |
US9711121B1 (en) * | 2015-12-28 | 2017-07-18 | Berggram Development Oy | Latency enhanced note recognition method in gaming |
US9640157B1 (en) * | 2015-12-28 | 2017-05-02 | Berggram Development Oy | Latency enhanced note recognition method |
US10269360B2 (en) * | 2016-02-03 | 2019-04-23 | Dolby International Ab | Efficient format conversion in audio coding |
US10210874B2 (en) * | 2017-02-03 | 2019-02-19 | Qualcomm Incorporated | Multi channel coding |
CN113242508B (zh) | 2017-03-06 | 2022-12-06 | 杜比国际公司 | 基于音频数据流渲染音频输出的方法、解码器系统和介质 |
CN108694955B (zh) * | 2017-04-12 | 2020-11-17 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
WO2018201112A1 (en) | 2017-04-28 | 2018-11-01 | Goodwin Michael M | Audio coder window sizes and time-frequency transformations |
CN109427337B (zh) * | 2017-08-23 | 2021-03-30 | 华为技术有限公司 | 立体声信号编码时重建信号的方法和装置 |
US10856755B2 (en) * | 2018-03-06 | 2020-12-08 | Ricoh Company, Ltd. | Intelligent parameterization of time-frequency analysis of encephalography signals |
TWI658458B (zh) * | 2018-05-17 | 2019-05-01 | 張智星 | 歌聲分離效能提升之方法、非暫態電腦可讀取媒體及電腦程式產品 |
GB2577885A (en) | 2018-10-08 | 2020-04-15 | Nokia Technologies Oy | Spatial audio augmentation and reproduction |
BR112021025265A2 (pt) * | 2019-06-14 | 2022-03-15 | Fraunhofer Ges Forschung | Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória |
EP4229631A2 (en) * | 2020-10-13 | 2023-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects |
CN113453114B (zh) * | 2021-06-30 | 2023-04-07 | Oppo广东移动通信有限公司 | 编码控制方法、装置、无线耳机及存储介质 |
CN114127844A (zh) * | 2021-10-21 | 2022-03-01 | 北京小米移动软件有限公司 | 一种信号编解码方法、装置、编码设备、解码设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2387023C2 (ru) * | 2004-03-25 | 2010-04-20 | ДиТиЭс, ИНК. | Многоканальный аудиокодер без потерь |
WO2010128136A1 (en) * | 2009-05-08 | 2010-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
EP2278582A2 (en) * | 2007-06-08 | 2011-01-26 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
WO2011101708A1 (en) * | 2010-02-17 | 2011-08-25 | Nokia Corporation | Processing of multi-device audio capture |
RU2430430C2 (ru) * | 2006-10-16 | 2011-09-27 | Долби Свиден АБ | Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3175446B2 (ja) * | 1993-11-29 | 2001-06-11 | ソニー株式会社 | 情報圧縮方法及び装置、圧縮情報伸張方法及び装置、圧縮情報記録/伝送装置、圧縮情報再生装置、圧縮情報受信装置、並びに記録媒体 |
DE60326782D1 (de) * | 2002-04-22 | 2009-04-30 | Koninkl Philips Electronics Nv | Dekodiervorrichtung mit Dekorreliereinheit |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
CN101312041B (zh) * | 2004-09-17 | 2011-05-11 | 广州广晟数码技术有限公司 | 多声道数字音频编码设备及其方法 |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
US8081764B2 (en) * | 2005-07-15 | 2011-12-20 | Panasonic Corporation | Audio decoder |
US7917358B2 (en) | 2005-09-30 | 2011-03-29 | Apple Inc. | Transient detection by power weighted average |
TWI329462B (en) * | 2006-01-19 | 2010-08-21 | Lg Electronics Inc | Method and apparatus for processing a media signal |
EP1999747B1 (en) * | 2006-03-29 | 2016-10-12 | Koninklijke Philips N.V. | Audio decoding |
EP3288027B1 (en) | 2006-10-25 | 2021-04-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating complex-valued audio subband values |
KR101100213B1 (ko) * | 2007-03-16 | 2011-12-28 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
EP3712888B1 (en) * | 2007-03-30 | 2024-05-08 | Electronics and Telecommunications Research Institute | Apparatus and method for coding and decoding multi object audio signal with multi channel |
EP2144229A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Efficient use of phase information in audio encoding and decoding |
WO2010105695A1 (en) * | 2009-03-20 | 2010-09-23 | Nokia Corporation | Multi channel audio coding |
KR101387808B1 (ko) * | 2009-04-15 | 2014-04-21 | 한국전자통신연구원 | 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치 |
JP5678048B2 (ja) * | 2009-06-24 | 2015-02-25 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム |
ES2793958T3 (es) * | 2009-08-14 | 2020-11-17 | Dts Llc | Sistema para trasmitir adaptativamente objetos de audio |
KR20110018107A (ko) * | 2009-08-17 | 2011-02-23 | 삼성전자주식회사 | 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치 |
PL2491551T3 (pl) * | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami |
AU2010321013B2 (en) * | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
EP2717262A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
-
2013
- 2013-05-13 EP EP13167487.1A patent/EP2717262A1/en not_active Withdrawn
- 2013-05-13 EP EP13167481.4A patent/EP2717265A1/en not_active Withdrawn
- 2013-10-02 CA CA2887028A patent/CA2887028C/en active Active
- 2013-10-02 AU AU2013326526A patent/AU2013326526B2/en active Active
- 2013-10-02 CA CA2886999A patent/CA2886999C/en active Active
- 2013-10-02 MX MX2015004019A patent/MX351359B/es active IP Right Grant
- 2013-10-02 KR KR1020157011739A patent/KR101685860B1/ko active IP Right Grant
- 2013-10-02 BR BR112015007649-1A patent/BR112015007649B1/pt active IP Right Grant
- 2013-10-02 SG SG11201502611TA patent/SG11201502611TA/en unknown
- 2013-10-02 RU RU2015116287A patent/RU2639658C2/ru active
- 2013-10-02 WO PCT/EP2013/070551 patent/WO2014053548A1/en active Application Filing
- 2013-10-02 RU RU2015116645A patent/RU2625939C2/ru active
- 2013-10-02 JP JP2015535006A patent/JP6268180B2/ja active Active
- 2013-10-02 ES ES13774118T patent/ES2880883T3/es active Active
- 2013-10-02 CN CN201380052368.6A patent/CN105190747B/zh active Active
- 2013-10-02 BR BR112015007650-5A patent/BR112015007650B1/pt active IP Right Grant
- 2013-10-02 JP JP2015535005A patent/JP6185592B2/ja active Active
- 2013-10-02 WO PCT/EP2013/070550 patent/WO2014053547A1/en active Application Filing
- 2013-10-02 MY MYPI2015000807A patent/MY178697A/en unknown
- 2013-10-02 EP EP13774118.7A patent/EP2904611B1/en active Active
- 2013-10-02 KR KR1020157011782A patent/KR101689489B1/ko active IP Right Grant
- 2013-10-02 ES ES13776987T patent/ES2873977T3/es active Active
- 2013-10-02 CN CN201380052362.9A patent/CN104798131B/zh active Active
- 2013-10-02 MX MX2015004018A patent/MX350691B/es active IP Right Grant
- 2013-10-02 EP EP13776987.3A patent/EP2904610B1/en active Active
- 2013-10-04 TW TW102136014A patent/TWI541795B/zh active
- 2013-10-04 TW TW102136012A patent/TWI539444B/zh active
- 2013-10-07 AR ARP130103631A patent/AR092929A1/es active IP Right Grant
- 2013-10-07 AR ARP130103630A patent/AR092928A1/es active IP Right Grant
-
2015
- 2015-03-27 US US14/671,928 patent/US10152978B2/en active Active
- 2015-04-03 US US14/678,667 patent/US9734833B2/en active Active
-
2016
- 2016-02-05 HK HK16101374.6A patent/HK1213361A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2387023C2 (ru) * | 2004-03-25 | 2010-04-20 | ДиТиЭс, ИНК. | Многоканальный аудиокодер без потерь |
RU2430430C2 (ru) * | 2006-10-16 | 2011-09-27 | Долби Свиден АБ | Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования |
EP2278582A2 (en) * | 2007-06-08 | 2011-01-26 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
WO2010128136A1 (en) * | 2009-05-08 | 2010-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
WO2011101708A1 (en) * | 2010-02-17 | 2011-08-25 | Nokia Corporation | Processing of multi-device audio capture |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2639658C2 (ru) | Кодер, декодер и способы для обратно совместимой динамической адаптации разрешения по времени/частоте при пространственном кодировании аудиообъектов | |
RU2669079C2 (ru) | Кодер, декодер и способы для обратно совместимого пространственного кодирования аудиообъектов с переменным разрешением | |
RU2646375C2 (ru) | Выделение аудиообъекта из сигнала микширования с использованием характерных для объекта временно-частотных разрешений |