RU2480941C2 - Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности - Google Patents

Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности Download PDF

Info

Publication number
RU2480941C2
RU2480941C2 RU2011102033/07A RU2011102033A RU2480941C2 RU 2480941 C2 RU2480941 C2 RU 2480941C2 RU 2011102033/07 A RU2011102033/07 A RU 2011102033/07A RU 2011102033 A RU2011102033 A RU 2011102033A RU 2480941 C2 RU2480941 C2 RU 2480941C2
Authority
RU
Russia
Prior art keywords
block
encoded
prediction
frame
virtual
Prior art date
Application number
RU2011102033/07A
Other languages
English (en)
Other versions
RU2011102033A (ru
Inventor
Алексей Михайлович Фартуков
Игорь Миронович Ковлига
Михаил Наумович Мишуровский
Original Assignee
Корпорация "Самсунг Электроникс Ко., Лтд"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Корпорация "Самсунг Электроникс Ко., Лтд" filed Critical Корпорация "Самсунг Электроникс Ко., Лтд"
Priority to RU2011102033/07A priority Critical patent/RU2480941C2/ru
Priority to US13/978,842 priority patent/US9538182B2/en
Priority to KR1020127015121A priority patent/KR20140021952A/ko
Priority to PCT/KR2012/000553 priority patent/WO2012099438A2/en
Publication of RU2011102033A publication Critical patent/RU2011102033A/ru
Application granted granted Critical
Publication of RU2480941C2 publication Critical patent/RU2480941C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Abstract

Изобретение относится к области обработки цифровых сигналов, и в частности, к цифровому сжатию многоракурсного видео, сопровождаемого дополнительными данными о глубине сцены. Техническим результатом является обеспечение разностного кодирования кадра, используя малый объем служебной информации за счет учета известных пространственных связей между соседними ракурсами в каждый момент времени, а также информацию, доступную как при кодировании, так и при декодировании. Предложен способ кодирования, заключающийся в том, что каждый вновь кодируемый кадр многоракурсной видеопоследовательности, определяемый в соответствии с заранее заданным порядком кодирования, представляют как совокупность неперекрывающихся блоков, определяют, по меньшей мере, один уже закодированный кадр, соответствующий данному ракурсу и обозначаемый как опорный, формируют синтезированные кадры для кодируемого и опорных кадров, при этом для каждого неперекрывающегося блока пикселей кодируемого кадра, обозначаемого как кодируемый блок, определяют пространственно-совмещенный блок внутри синтезированного кадра, соответствующего кодируемому кадру, обозначаемый как виртуальный блок, для которого определяют пространственную позицию блока пикселей в синтезируемом кадре, соответствующем опорному кадру, такую, что определенный таким образом опорный виртуальный блок является наиболее точным численным приближением виртуального блока; для определенного таким образом опорного виртуального блока определяют пространственно совмещенный блок, принадлежащий опорному кадру, обозначаемый как опорный блок, и вычисляют ошибку между виртуальным блоком и опорным виртуальным блоком, а также вычисляют ошибку между опорным виртуальным блоком и опорным блоком, затем выбирают минимальную из них и на основе этого определяют, по меньшей мере, один режим разностного кодирования, задающий, какие из найденных на предыдущих шагах блоков необходимо использовать для формирования предсказания при последующем разностном кодировании кодируемого блока, и осуществляют разностное кодирование кодируемого блока в соответствии с выбранным режимом разностного кодирования. 4 з.п. ф-лы, 15 ил., 3 табл.

Description

Заявляемое изобретение относится к области обработки цифровых сигналов, а более конкретно - изобретение касается процесса цифрового сжатия многоракурсного видео (далее МРВ), сопровождаемого дополнительными данными о глубине сцены.
Отличительной чертой такого процесса является то, что каждый ракурс или вид, соответствующий определенной пространственной позиции снимающей камеры, представляет собой видеопоток, который дополнен информацией о глубине сцены, которая соответствует определенному ракурсу. При этом информация о глубине сцены представляется в виде последовательности кадров, каждый из которых хранит информацию о глубине в соответствующий момент времени для определенной пространственной позиции. Информация о глубине в кадре обычно представляется аналогично информации об яркостной составляющей пикселей, т.е. с использованием градаций серого цвета, что задает определенную точность хранения и обозначается также термином «карта глубины».
Из уровня техники известно, что в настоящее время для сжатия МРВ применяется, в основном, гибридный подход, который означает, что кадр, принадлежащий определенному виду или глубине, в заданный момент времени представляется разностным дополнением (остатком) к уже закодированному кадру, с последующим применением пространственного преобразования, этапа квантования и статистического кодирования. При этом при сжатии формируется, кодируется и передается для последующего декодирования служебная информация (поле векторов движения, правила блочного разбиения и др.). В случае если МРВ сопровождается информацией о глубине сцены, представляется возможным ее использование совместно с процедурой синтеза видов для формирования дополнительного предсказания, применяемого в гибридных схемах кодирования, для повышения степени сжатия за счет уменьшения разностного дополнения.
Однако зачастую качество синтезированных кадров оказывается недостаточным, а использование специальных методов явного выбора предсказания путем формирования списков опорных кадров требует кодирования дополнительных данных. Указанные причины не позволяют добиться существенного повышения степени сжатия.
Известно расширение распространенного стандарта кодирования видео H.264/MPEG-4 AVC (стандарт сжатия видео, предназначенный для достижения высокой степени сжатия видеопотока при сохранении высокого качества; является модификацией существующего ранее Н.263, см., например, Iain E. Richardson «The H.264 Advanced Video Compression Standard», 2nd Edition, April 2010 [1]), предназначенного для кодирования многоракурсного видео, которое устраняет межкадровую избыточность по времени и между видами путем адаптивного выбора опорных кадров с явным кодированием и передачей служебной информации для последующего декодирования. Недостатком этого метода является явная передача служебной информации, такой как вектора движения, данные об относительном смещении друг относительно друга проекций 3-мерной сцены в соседних видах, необходимость передачи информации о режиме предсказания, а также недостаточная эффективность использования корреляционных связей между видами. Это приводит к малому увеличению степени сжатия в сравнении с независимым кодированием видов. Для того чтобы преодолеть часть из указанных недостатков, были предложены различные методы эффективного предсказания кадра, а также кодирования информации о движении. В частности, в работах S.Kamp, М.Evertz и M.Wien, "Decoder side motion vector derivation for inter frame video coding", in Proc. ICIP2008, October 2008, p.1120-1123 [2] и S.Klomp, M.Munderloh, Y.Vatis и J.Ostermann, "Decoder-Side Block Motion Estimation for H.264 / MPEG-4 AVC Based Video Coding", IEEE International Symposium on Circuits and Systems, Taipei, Taiwan, May 2009, p.1641-1644 [3] описаны методы предсказания кадра, частично устраняющие указанные недостатки, характерные также и для гибридных схем кодирования обычного видеопотока.
Близкая по смыслу концепция предложена для кодирования МРВ, сопровождаемого информацией о глубине сцены, которая описана в работе S.Shimizu и H.Kimata, "Improved view synthesis prediction using decoder-side motion derivation for multi-view video coding", 3DTV Conference, June 2010 [4].
Описанный в [4] метод включает следующие основные шаги:
- Генерация синтезированных кадров, соответствующих кодируемому кадру, и соседнему с ним по времени, рассматриваемому как опорный кадр.
- Применение процедуры оценки движения для синтезированных кадров и формирование информации о движении;
- Применение процедуры компенсации движения для формирования предсказания кодируемого кадра, используя выявленную ранее информацию о движении и опорный кадр.
- Кодирование кадра путем разбиения его на блоки фиксированного размера и последующего кодирования каждого блока либо с использованием стандартных средств кодирования в соответствии со стандартом H.264/MPEG-4 AVC, либо его попиксельная аппроксимация блоком, принадлежащим ранее сформированному предсказанию кодируемого кадра, расположенному в той же пространственной позиции, что и кодируемый блок.
Несмотря на то, что предсказание кодируемого кадра осуществляется достаточно точно, достигаемое улучшение степени сжатия незначительно и составляет порядка 2,5%. Кроме того, метод формирования предсказания кадра не включает в себя дополнительных способов повышения точности предсказания в случае, если предсказание из опорного кадра, соседнего по времени, оказывается неэффективным. Помимо этого, для увеличения эффективности сжатия МРВ последовательностей известны способы, такие как: способ, основанный на формировании кадров, пространственно-совмещенных кодируемому кадру, определенному заданию порядка и способа предсказания (см. выложенную заявку на патент США №2007/0109409) [5]. Для снижения битовых затрат на кодирование информации о движении предложен ряд методов косвенного перерасчета векторов движения на основе ранее определенных векторов движения или векторов движения, общих как для карт глубин, так и для видов, например, международная заявка WO 2010/043 773 [6], а также метод явного использования вектора движения из уже закодированного ракурса (см. международную заявку WO 2009/020542) [7]. Для повышения эффективности предсказания кодируемого кадра в МРВ последовательности предложен метод коррекции опорного кадра, полученного из одного из соседних видов, при этом обеспечивается частичная компенсация различий между данными в кодируемом и опорном кадрах (см. международную заявку WO 2010/095471) [8]. В целом, однако, указанные методы не позволяют комплексно устранять информационную избыточность, присущую МРВ видеопоследовательностям, т.к. не позволяют в должной степени обеспечить эффективное кодирование служебной информации и одновременно формирование малых ошибок предсказания.
Таким образом, задачей, на решение которой направлено заявляемое изобретение, является разработка усовершенствованного способа, включающего в себя адаптивное формирование предсказания для кодируемого кадра, дополнительные средства для улучшения точности предсказания и эффективный механизм сжатия, который не должен требовать существенных битовых затрат на передачу служебной информации.
Технический результат достигается за счет применения способа кодирования многоракурсной видеопоследовательности, к которой прилагается многоракурсная последовательность карт глубин, заключающегося в том, что каждый вновь кодируемый кадр многоракурсной видеопоследовательности, определяемый в соответствии с заранее заданным порядком кодирования, представляют как совокупность неперекрывающихся блоков, определяют, по меньшей мере, один уже закодированный кадр, соответствующий данному ракурсу и обозначаемый как опорный, формируют синтезированные кадры для кодируемого и опорных кадров, при этом для каждого неперекрывающегося блока пикселей кодируемого кадра, обозначаемого как кодируемый блок, определяют пространственно-совмещенный блок внутри синтезированного кадра, соответствующего кодируемому кадру, обозначаемый как виртуальный блок, для которого определяют пространственную позицию блока пикселей в синтезируемом кадре, соответствующем опорному кадру, такую, что определенный таким образом опорный виртуальный блок является наиболее точным численным приближением виртуального блока; для определенного таким образом опорного виртуального блока определяют пространственно совмещенный блок, принадлежащий опорному кадру, обозначаемый как опорный блок, и вычисляют ошибку между виртуальным блоком и опорным виртуальным блоком, а также вычисляют ошибку между опорным виртуальным блоком и опорным блоком, затем выбирают минимальную из них и на основе этого определяют, по меньшей мере, один режим разностного кодирования, задающий, какие из найденных на предыдущих шагах блоков необходимо использовать для формирования предсказания при последующем разностном кодировании кодируемого блока, и осуществляют разностное кодирование кодируемого блока в соответствии с выбранным режимом разностного кодирования.
Как известно, избыточность МРВ существенно выше, чем избыточность обычного одноракурсного видео. Обычно системы кодирования МРВ, в частности, реализованные в соответствии с расширенной версией стандарта кодирования Н.264 и обозначаемого в литературе как MVC (Multi-View Coding), используют один или несколько дополнительных опорных кадров, которые применяются далее для разностного кодирования. Дополнительные кадры формируются на основе уже закодированных ракурсов, обеспечивая синхронность кодера и декодера, и позволяют улучшить точность предсказания для кодируемого кадра. Формирование предсказания обычно осуществляется путем синтеза вида, пространственно совмещенного с кодируемым видом, при этом точность пространственного совмещения отдельных деталей синтезированного вида определяется используемым алгоритмом синтеза, а также точностью входных данных. Также могут быть использованы и более простые методы, основанные на блочной оценке наилучшего предсказания из уже закодированного ракурса без применения процедуры синтеза. Эти методы основаны на классической процедуре временной компенсации движения (motion compensation - МС). Обычно подобные методы обозначаются в литературе как методы компенсации диспарантности (disparity compensation - DC). Также известно, что использование дополнительных опорных кадров иногда требует передачи дополнительной служебной информации, необходимой для кодирования режима предсказания, что может приводить в ряде случаев к снижению эффективности сжатия. Стоит отметить, что в ряде случаев дополнительные опорные кадры не приводят к существенному увеличению степени сжатия ввиду недостаточной схожести с кодируемым кадром в сравнении с кадрами, которые выбраны в качестве предсказания и принадлежат кодируемому виду, т.е. представляющими собой уже декодированные кадры кодируемого вида.
В отличие от известных подходов к решению вышеуказанных проблем заявляемое изобретение позволяет определить режимы предсказания и информацию о движении в кадре, а также осуществить разностное кодирование кадра, используя малый объем служебной информации за счет учета известных пространственных связей между соседними ракурсами в каждый момент времени, а также информацию, доступную как при кодировании, так и при декодировании.
Важное отличие предлагаемого подхода состоит в том, что обеспечивается компактное представление текущего кодируемого кадра за счет адаптивного выбора режима кодирования и эффективной локальной декорреляции текстуры, при этом обеспечивается существенное сокращение необходимой служебной информации за счет ее определения на основе данных, доступных одновременно при кодировании и декодировании. Повышение эффективности сжатия по сравнению со стандартными системами кодирования достигается за счет снижения количества передаваемой служебной информации и повышения точности кодирования данных за счет большего количества режимов кодирования. При этом предлагаемый подход совместим с традиционными схемами гибридного кодирования, применяемого для кодирования МРВ.
В заявляемом изобретении раскрывается усовершенствованный способ кодирования МРВ за счет формирования оценки наилучшего предсказания кодируемого кадра. Предположим, что МРВ состоит из N смежных видов и N соответствующих видеопотоков, представляющих информацию о физической глубине сцены (ВПГ) для каждого из ракурсов. Рассмотрим также гипотетическую систему кодирования МРВ и такое ее состояние, при котором в настоящий момент времени кодируется ракурс с номером К, и, по меньшей мере, один предыдущий ракурс, а также соответствующий ему ВПГ, например К-1 уже закодирован. Рассмотрим М-й кадр, который принадлежит К-му виду, предполагая, что, по меньшей мере, один из предыдущих кадров, например М-1 и возможно один или более следующих по времени кадров, например М+1, также уже закодированы. Исходя из этого, обозначим кадр, принадлежащий К-му виду в момент времени М, как F (K,М). Подразумевается, что рассматриваемый способ, включая все выражения и равенства, единообразно применим ко всем цветовым компонентам кодируемого кадра с учетом реальных геометрических размеров обрабатываемых компонент. Исходя из этого, приводимые ниже рассуждения и расчеты приведены для одного цветового канала, в частности канала яркости, и могут быть аналогично применены к другим компонентам.
Один из отличительных признаков заявляемого изобретения заключается в том, что предлагаемый способ подразумевает блочную обработку кодируемого кадра F (K,М). Обычно блок имеет фиксированные геометрические размеры, например 16 на 16 пикселей, при этом разделение кадра F (K,M) на блоки выполняется равномерно без перекрытий или неучтенных областей. В начале, для получения оценки предсказания некоторого блока В(К,М), который принадлежит кадру F (K,M), формируется синтезированный блок, который пространственно совмещен (коллоцирован) с обрабатываемым блоком В( К,М). Этот синтезированный блок, обозначаемый как VB (К,М), принадлежит синтезированному (виртуальному) виду VF(K,M), который может быть описан как:
VF(K,М)=VS[F(K-1,M), F(K+1,M), D(K-1,M), D(K+1,M)],
где VS обозначает некоторую процедуру синтеза вида,
D(K-1,M), D(K+1,M) представляют собой информацию о глубине в текущий момент времени М из вида К-1 и К+1 соответственно.
При этом специально не предъявляется никаких дополнительных требований к особенностям или специфике процедуры синтеза VS; в частности, процедура синтеза может использовать только один вид для синтеза, при этом такая процедура будет являться несимметричной, «односторонней».
Затем формируется виртуальный кадр, предшествующий по времени данному и обозначаемый здесь как VF(K, M-1). Для синтезированного блока VB(K,M) определяется опорный виртуальный блок, обозначаемый как VB(K,M-1), при этом для определения используется алгоритм оценки движения. Опорный виртуальный блок VB(K,M-1) принадлежит виртуальному кадру в предыдущий момент времени M-1 и является наилучшим приближением блока VB(K,M) в некотором заранее заданном математическом смысле, например в смысле минимума критерия SAD (Sum of Absolute Differences - сумма модулей разностей) или MSE (Mean Square Error - среднеквадратичная ошибка). Блок VB(K,M) связан с VB(K,M-1) так называемым вектором движения (dx, dy), который описывает пространственное смещение по горизонтали и вертикали опорного блока относительно кодируемого и является параметром простейшей, но не единственной, модели движения, применяемой на практике. Затем определяется блок, являющийся опорным для В(К,М), который принадлежит кадру F(K,M-1) и который пространственно совмещен с VB(K,M-1). Таким образом, определяются три блока, связанных друг с другом описанными выше связями: VB(K,M), VB(K,M-1), B(K,M-1). При этом только VB(K,M) пространственно выровнен в соответствии с ранее заданной сеткой блоков. Необходимо отметить, что каждый описанный блок помимо номера вида, к которому он принадлежит, а также временной метки М или M-1 также задается координатами верхнего левого угла, однако в целях упрощения дальнейшего изложения они не используются, если только это не приводит к некорректному толкованию описания изобретения.
Другой отличительный признак заявляемого изобретения заключается в том, что определяют, по меньшей мере, два режима предсказания для текущего кодируемого блока В(К,М), условно обозначаемых как временной (Temporal) и параллаксный (Parallax) режимы предсказания. Для того чтобы оценить режим предсказания блока В(К,М), оценивают оптимальный режим предсказания для VB(K, M-1):
- Временной режим предсказания, в котором VB(K,M-1) предсказывается из VB(K, M)
- Параллаксный режим предсказания, в котором VB(K,M-1) предсказывается из В(К,М-1).
Оптимальный режим предсказания блока VB(K,M-1) основан на вычислении и анализе ошибки предсказания из VB(K,M) или В(К,М-1). В том случае, если ошибка предсказания с использованием VB(K,M) минимальна, задается временной режим предсказания. В противном случае, задается параллаксный режим предсказания. Исходя из этого, определяется оптимальный предсказатель для блока В(К,М) в соответствии с правилом:
- в качестве оптимального предсказателя используется VB(K,M), если задан параллаксный режим;
- в качестве оптимального предсказателя используется В(К,М-1), если задан временной режим.
Данный выбор основан на предположении, что во многих случаях режим предсказания блока VB(K,M) может быть достаточно точно определен, исходя из режима предсказания блока VB(K,M-1). В этом случае не требуется передачи дополнительных бит для явного задания режима предсказания; существенное увеличение эффективности сжатия достигается за счет определения параметров движения, а также режима предсказания для кодируемого блока без явной передачи служебной информации, а также повышения точности предсказания кодируемого блока.
Следующий отличительный признак заявляемого изобретения заключается в том, что режим кодирования блока В(К,М) определяется явно, при этом вычисляется мера ошибки предсказания во временном и параллаксном режиме, и выбирается тот режим, который обеспечивает минимальную ошибку. Предсказатели при этом выбираются согласно определенному режиму и описанным выше правилам. Для того чтобы сократить объем дополнительных бит, необходимых для явного кодирования и передачи режима предсказания, используют режим предсказания блока VB(K,M-1). Один из способов заключается в том, что режим предсказания блока VB(K,M-1) используется как дополнительная контекстная информация для статистического кодирования явно определенного режима предсказания. Другой способ заключается в принудительном изменении явно определенного режима предсказания на режим, определенный для блока VB(K,M-1), если при этом мера ошибки предсказания изменится на величину, меньшую, чем заранее заданное пороговое значение.
Еще один отличительный признак заявляемого изобретения заключается в том, что предложен дополнительный режим кодирования, который основан на предсказании различий между кодируемым блоком В(К,М) и пространственно-совмещенным с ним блоком VB(K,M). При этом формирование предсказания основано на предположении, что:
VB(K,M-1)-RB(K,M-1)≅VB(K,M)-В(К,М).
Следовательно, предсказатель РВ(К,М) блока В(К,М) может быть рассчитан следующим образом:
PB(K,M)=VB(K,M)-VB(K,M-1)+В(К,М-1).
Указанный дополнительный режим предсказания обеспечивает более точное предсказание блоков в тех случаях, когда рассмотренные ранее режимы предсказания оказываются малоэффективными.
Для использования дополнительного режима предсказания необходимо явно передавать служебную информацию о выбранном режиме. Однако результаты экспериментов указывают на то, что избыточность и объем дополнительной служебной информации несущественен. В целом, способ кодирования, основанный на предложенном методе адаптивного предсказания кадра, обеспечивает эффективную декорреляцию кодируемого кадра с незначительными дополнительными битовыми затратами, что подтверждается увеличением степени сжатия МРВ. Заявляемый способ технологически совместим с традиционными системами кодирования МРВ и может быть интегрирован в стандартную цепочку кодирования.
Фиг.1. - Структурная схема системы кодирования и декодирования МРВ последовательности, которая формирует MVC-совместимый битовый поток.
Фиг.2, вид 2.1 - Пример расположения кадров в пространстве, задаваемом временной осью и номером вида.
Фиг.2, вид 2.2 - Пример пространственно-совмещенных блоков в двух кадрах.
Фиг.3, вид 3.1 - Схема кодирования и декодирования МРВ последовательности с независимым кодированием видов и информации глубинах с использованием MVC кодера и декодера.
Фиг.3, вид 3.2 - Гибридная схема кодирования и декодирования МРВ последовательности, которая основана на MVC кодере и декодере и использует дополнительные кадры, частично формируемые процедурой синтеза кадра.
Фиг.4, вид 4.1 - Схема одностороннего синтеза кадра.
Фиг.4, вид 4.2 - Схема двухстороннего (симметричного) синтеза кадра.
Фиг.5. Классификация кадров и карт глубин в соответствии с порядком их кодирования.
Фиг.6. Обобщенная схема формирования адаптивного предсказания кадра и определения необходимой служебной информации.
Фиг.7. Обобщенная схема формирования адаптивного предсказания и определения необходимой служебной информации для определенного кодируемого блока.
Фиг.8, вид 8.1 - Пример кадров из двух соседних видов тестовой МРВ последовательности.
Фиг.8, вид 8.2 - Визуализированная карта режимов предсказания в моменты времени Т-1, Т, Т+1 и Т+2 для кодируемого вида.
Фиг.9. Блок-схема способа определения модифицированного режима предсказания.
Фиг.10. Визуализированные карты режимов для режимов Dir и MDir.
Фиг.11. Визуализированные карты режимов для режимов Dir, MDir и MDir+ΔΔ.
Фиг.12, вид 12.1 - Структура типового кодера МРВ последовательности, основанного на MVC кодере и учитывающего информацию о уже закодированной и декодированной информации о глубине сцены.
Фиг.12, вид 12.2 - Структура кодера МРВ последовательности, который основан на предлагаемом способе адаптивного предсказания кадра.
Из вышесказанного понятно, что заявляемое изобретение касается вопросов кодирования и декодирования МРВ, а именно устранения корреляционных связей, существующих между кадрами с помощью адаптивного предсказания. Как следует из Фиг.1, множество соседних видов (видеопоследовательностей), полученных с помощью многокамерной системы, а также соответствующие этим видам последовательности карт глубин подаются на вход кодирующей системы 100. В общем случае кодирующая система включает в себя подсистему 101 кодирования последовательностей карт глубин и подсистему кодирования видеопоследовательностей (видов), которую образуют блоки 102 и 103, при этом блок 102 обеспечивает кодирование видеопоследовательностей в соответствии со стандартом H.264/MPEG-4 AVC (совместимых видов), а блок 103 обеспечивает кодирование дополнительных видеопоследовательностей (дополнительных видов). Заявляемое изобретение может применяться при реализации подсистемы кодирования дополнительных видов.
Кадры всех кодируемых видеопоследовательностей могут быть классифицированы в соответствии с относительным временем их получения (Фиг.2, вид 2.1). Для упрощения дальнейшего описания введем несколько определений. Принцип пространственного совмещения (коллокации) (Фиг.2, вид 2.2), применяемый в настоящем изобретении, заключается в следующем. Если некоторый блок 201, принадлежащий КАДРУ 1 (200), имеет координаты (y,x) по отношению к верхнему левому углу КАДРА 1, то пространственно совмещенный блок 203 КАДРА 2 (202) будет иметь те же координаты (y,x) по отношению к верхнему левому углу КАДРА 2 (202).
На Фиг.3 изображена схема независимого кодирования видеопоследовательностей и последовательностей карт глубин. При проведении их кодирования общими параметрами являются начальные значения коэффициентов квантования QpD и QpV (304), выбор которых влияет на достигаемое качество и степень сжатия. При этом параметр QpV обозначает коэффициент квантования, используемый кодером МРВ в соответствии со стандартом ITU-T H264, annex H для кодирования видов. Параметр QpD обозначает коэффициент квантования, используемый кодером МРВ в соответствии со стандартом ITU-T H264, annex H для кодирования карт глубин.
Более сложная схема кодирования включает построение дополнительных опорных кадров путем применения процедуры синтеза кадров (309, 310). Дополнительные опорные кадры включаются в списки опорных кадров. Порядок выбора опорных кадров из списка задается при кодировании и в случае его изменения явным образом передается вместе с кодированными данными для последующего декодирования. Процедура синтеза кадров используется для повышения эффективности кодирования путем построения опорного кадра. В общем случае различают процедуру одностороннего (Фиг.4, вид 4.1) и двустороннего (симметричного) синтеза кадра (Фиг.4, вид 4.2). В случае одностороннего синтеза используется кадр 400 и соответствующая ему карта 401 глубины, которые принадлежат одной видеопоследовательности. Это соответствует использованию каузальных данных (т.е. данных, которые уже были закодированы и декодированы) при проведении синтеза. При двустороннем синтезе используют информацию из кадров 400 и 404, а также карт 401 и 405 глубины, принадлежащих двум соседним видам по отношению к кодируемому виду. Классификация кадров и карт глубин в соответствии с порядком их кодирования представлена на Фиг.5.
Необходимо отметить, что вопросы, связанные со способом выполнения процедуры синтеза, а также точностью ее результатов, выходят за рамки заявляемого изобретения. Тем не менее, структуру входных видеопоследовательностей и последовательностей карт глубин, а также качество синтезированных кадров необходимо принимать во внимание при реализации настоящего изобретения.
Для более детального анализа настоящего изобретения рассмотрим гипотетическую систему кодирования кадров (Фиг.6). Допустим, что к определенному моменту Т времени имеется уже закодированный кадр 600. Текущий кодируемый кадр 608 обозначим F(Center, Т). Закодированный кадр, относящийся к моменту Т-1 времени, обозначим как F(Center, T-1). Допустим, что кадры 602 и 604 в моменты T-1 и Т времени, которые принадлежат левой (соседней по отношению к текущей) видеопоследовательности, также уже закодированы. Тогда строятся синтезированные кадры 601 и 607 для моментов Т и Т-1 времени, принадлежащие текущей (центральной) видеопоследовательности. Обозначим синтезированные кадры 601 и 607 как VF(Center, Т-1) и VF(Center, Т) соответственно. Необходимо отметить, что синтезированные кадры и кадры F(Center, Т-1) и F(Center, Т) пространственно совмещены. В то же время, синтезированные кадры содержат окклюзии, а также ошибки, связанные с процедурой синтеза, различием в освещенности сцены с различных ракурсов и т.д. Тем не менее, из анализа эффективности процедуры синтеза кадров [4] следует, что синтезированные кадры могут содержать геометрические детали, присущие отображаемой сцене с достаточной точностью.
Представим текущий кодируемый кадр как множество блоков фиксированного размера bl_h, bl_w:
Figure 00000001
.
Синтезированный кадр VF(Center, Т) также можно представить 15 как множество блоков, каждый из которых пространственно совмещен с блоком из кадра F(Center, Т):
Figure 00000002
.
Для каждого блока, принадлежащего синтезированному кадру для момента Т времени, строится (формируется) предсказание по синтезированному кадру 601 для момента Т-1 времени с помощью того или иного метода оценки движения. Необходимо отметить, что не имеет значения, какой из методов оценки движения используется для поиска предсказания. Важным является установление связи между блоком в кадре 607 и некоторым опорным блоком в кадре 601. Кадры 601 и 607 доступны при декодировании, что позволяет избежать кодирования дополнительной информации для синхронизации процессов кодирования и декодирования. Опорный блок, который определяется в процессе оценки движения, принадлежит синтезированному кадру VF(Center, T-1) и имеет пространственно совмещенный блок в кадре F(Center, T-1). Таким образом, имеется три блока, которые могут быть построены как в процессе кодирования, так и в процессе декодирования.
На Фиг.7 изображен текущий кодируемый блок 703, который обозначим B(Center, Т, y, x). Обозначим пространственно совмещенный блок 702, принадлежащий кадру VF(Center, Т), как VB(Center, Т, у, х). Результатом применения метода оценки движения является блок 701, который принадлежит синтезированному кадру для момента T-1 времени и который обозначен как VB(Center, T-1, y+dy, x+dx). Здесь (dy, dx) определяет, так называемый, виртуальный вектор движения. В общем случае, при проведении указанных операций применима любая из моделей движения, например, аффинная модель. Для простоты изложения будем рассматривать трансляционную модель. Опорный блок 701 имеет пространственно совмещенный блок 700 в кадре F(Center, Т-1). Этот блок является обычным предсказателем и обозначается как B(Center, T-1, y+dy, x+dx).
Первый шаг заявляемого способа заключается в определении наилучшего режима предсказания для блока 703. В традиционном подходе имеется две возможности выбора предсказателя: по временной оси или по оси видов.
В случае предсказания по временной оси производится кодирование разностей (остатков):
Figure 00000003
В ходе проведенных исследований было установлено, что режим предсказания, который обеспечивает минимум метрики разностей (остатков), может быть выбран на основе анализа «дополнительных» разностей (остатков).
Произведем расчет виртуальных разностей по оси времени и оси видов в соответствии со следующими выражениями:
Figure 00000004
Затем проведем расчет мер полученных виртуальных разностей (остатков). В качестве численной меры может быть выбрана любая подходящая. В описываемой реализации настоящего изобретения используется сумма абсолютных разностей, которая обеспечивает необходимый баланс между эффективностью получаемой оценки и сложностью ее вычисления.
Figure 00000005
Figure 00000006
Для того чтобы определить режим предсказания для блока B(Center, Т, y, x), получим оценку для виртуального режима предсказания для блока VB(Center, T-1, y+dy, x+dx). Для этого сравним значения SAD _ VТ (y, x) и SAD _VP(y, x):
Figure 00000007
.
Здесь режим предсказания, обозначенный как «Temporal», означает, что блок VB(Center, T-1, y+dy, x+dx) предсказывается с помощью блока VB(Center, Т, y, х). В результате блок B(Center, Т, y, х) должен предсказываться с помощью опорного блока B(Center, T-1, у+dy, х+dx). Режим предсказания, обозначенный как «Parallax», означает, что блок VB(Center, T-1, y+dy, x+dx) предсказывается с помощью блока VB(Center, Т, y, x), а блок B(Center, Т, y, x) должен предсказываться с помощью опорного блока VB (Center, Т, y, x). «VDir» обозначает режим предсказания, определяемый по синтезированным кадрам и уже закодированным кадрам видеопоследовательности. Необходимо отметить, что (dy, dx) представляет собой вектор движения, который определяется с использованием синтезированных кадров.
Из этого факта следует, что:
- для оценки движения не требуется явной передачи дополнительной информации для последующего декодирования;
- точность получаемой оценки движения оказывается в общем случае ниже, чем в случае традиционного применения методов оценки движения;
- при декодировании необходимо проводить оценку движения, что требует применения специализированных методов, способных уменьшить вычислительную сложность процесса декодирования.
Полученная разность (остаток) определяется как:
Figure 00000008
Как следует из приведенного выше описания, отсутствует необходимость явной передачи дополнительных данных для определения режима предсказания, поскольку выбор режима производиться на основе кадров, доступных как при кодировании, так и при декодировании.
В общем случае размеры блоков, используемых для оценки движения с использованием синтезированных кадров, и размеры блоков, используемых для адаптивного предсказания, могут не совпадать между собой. Например, оценка движения может быть проведена для блоков 16×16 пикселей, в то время как адаптивное предсказание может выполняться для блоков 8×8. На Фиг.8, вид 8.1, представлены кадры для двух видеопоследовательностей, которые входят в состав МРВ «BookArrival». МРВ «BookArrival» входит в состав набора тестовых МРВ, рекомендованных MPEG (см. "Description of Exploration Experiments in 3D Video Coding", MPEG2010 / N11630 Guangzhou, China October 2010) [9]. Примеры карт режимов предсказания изображены на Фиг.8, вид 8.2. Для наглядности выбранные режимы предсказания (по оси времени или оси видов) изображены как блоки соответствующего оттенка серого цвета.
С целью дальнейшего повышения эффективности предсказания в заявляемом способе предлагается использовать явный выбор наилучшего режима предсказания, который уточняется с использованием определенного выше режима предсказания VDir для более компактного дальнейшего кодирования. При этом выполняются следующие шаги: вычисление метрики для разностей (остатков), полученных путем явного предсказания по оси времени ΔT и оси видов ΔР:
Figure 00000009
Figure 00000010
На основании полученных оценок явно определялся режим предсказания на основе значения VDir. Метод оценки эффективности выбора предсказания заключается в принудительном выборе режима VDir вместо определенного явным образом режима Dir в случае, если ошибка предсказания находится в заданном диапазоне, определяемом некоторой пороговой величиной. Режим предсказания в случае его явного определения задается выражением:
Figure 00000011
Тогда модифицированное правило выбора режима предсказания MDir можно определить как:
Figure 00000012
Здесь VDir - режим предсказания, выбранный с использованием синтезированных кадров, как описано выше; ТН - заданное значение пороговой величины, определяющее условия изменения режима кодирования Dir. Метод изменения режима предсказания, определенного явным образом, с помощью значения VDir представлен на Фиг.9. Примеры карт режимов предсказания, полученных в соответствии с приведенными выше выражениями для VDir(y, x) и MDir(y, x, VDir), изображены на Фиг.10. В описываемом случае пороговая величина ТН задавалась как (bl_h×bl_w)×2, где (bl_h×bl_w) - количество пикселей в блоке.
Описанный выше способ предоставляет механизм построения адаптивного предсказания для отдельного блока на основании зависимостей, характерных для МРВ. Предполагается, что предсказание формируется путем выбора одной из двух возможных альтернатив: предсказание по оси времени или предсказание по оси видов.
Помимо указанных выше двух альтернатив предсказания, заявляемое изобретение предлагает дополнительный способ представления значений пикселей, принадлежащих кодируемому блоку. Этот способ основан на предсказании значений разностей (остатков) ΔР, определенных для оси видов, по уже вычисленным значениям ΔVP. В простейшем случае предполагается, что
Figure 00000013
где ΔΔ обозначает так называемую разность (остаток) второго порядка. Если изменения по оси времени примерно похожи для кодируемых и синтезированных кадров и процедура синтеза кадров квазистационарна, можно предположить, что ΔΔ может достаточно компактно представлять некоторые блоки. Таким образом, такое представление кадра для некоторых блоков оказывается более эффективным с точки зрения достигаемой степени сжатия. Величина
Figure 00000014
может быть представлена как:
Figure 00000015
,
следовательно:
PΔΔ(Center,T,y,x)=VB(Center,T,y,x)+B(Center,T-1,y+dy,x+dx)-VB(Center,T-1,y+dy,x+dx).
Заявляемый способ предсказания также может быть использован для дополнительной декорреляции кодируемого кадра. В этом случае для каждого блока должна кодироваться и передаваться дополнительная информация о выбранном режиме предсказания. Тем не менее, результаты экспериментов показывают, что в этом случае выбранные режимы предсказания оказываются коррелированными и могут быть эффективно закодированы энтропийным кодером при использовании соответствующих контекстных моделей. Примеры карт режимов предсказания в случае использования трех режимов предсказания изображены на Фиг.11.
Чтобы получить численную оценку эффективности заявляемого способа адаптивной декорреляции кадра, были получены оценки качества для декодированных кадров. Для оценки качества использовалась мера отношения сигнала к шуму ПОСШ (peak-to-peak signal-to-noise ratio - PSNR). В частности, пиксели кадра, за исключением окклюзии, были закодированы и декодированы предлагаемым способом, а затем определено их качество в дБ. Кроме того, были получены оценки качества для случаев использования предсказания по оси времени, предсказания только для синтезированных кадров и прямой комбинации предсказания по оси времени и оси видов. Необходимо подчеркнуть, что качество кадров и карт глубин, принадлежащих левой (по отношению к текущей) видеопоследовательности, напрямую влияет на качество предсказания, что также необходимо принимать во внимание при анализе. Оценка движения выполнялась с помощью традиционного метода В.Furht, J.Greenberg, R.Westwater «Motion Estimation Algorithms for Video Compression», Massachusetts: Kluwer Academic Publishers, 1997, p. 64-65 [10] полного перебора (размер зоны поиска [-16; 16] пикселей, размер блока 16×16 пикселей). Предсказание осуществлялось поблочно, размер блока составлял 8х8 пикселей. Результаты проведенного анализа приведены в таблицах T1, T2 и Т3. Здесь графа «режим предсказания» указывает на способ построения предсказания.
«Временное предсказание: Виртуальное МЕ/МС» указывает на использование способа получения виртуальных векторов движения по синтезированным кадрам. Виртуальные векторы движения затем применяются для кодирования обычных кадров.
«Временное предсказание: МЕ/МС по кодируемым кадрам» указывает на использование способа получения векторов движения по обычным кадрам. Полученные векторы движения затем применяются для кодирования обычных кадров.
Явный выбор между предсказанием по оси времени и оси видов предполагает построение предсказания, который дает наилучшую точность приближения кодируемого кадра.
Таблицы 1, 2, 3: Эффективность межкадрового предсказания для различных степеней сжатия для базовой последовательности кадров и карт глубин.
Таблица 1
Левый вид и глубины не сжаты.
- Количество пикселей, которые являются окклюзиями: 8.5%
- Количество обработанных кадров: 19 (МРВ: «Book arrival»)
- Тип процедуры синтеза: односторонний 1-D синтез, целочисленный буфер глубины для определения окклюзии, точность расчета значения диспарантности: ¼ - пикселя.
Режим предсказания ПОСШ, дБ предсказателя кодируемого относительно кадра
Предсказание на основе VDir 38.05
Предсказание на основе MDir 38.29
Предсказание на основе MDir+ΔΔ 38.52
Временное предсказание: Виртуальное МЕ/МС 36.41
Временное предсказание: МЕ/МС по кодируемым кадрам 37.03
Предсказание из виртуальных кадров 34.21
Явный выбор преимущественного режима предсказания: предсказание из виртуальных кадров или временное предсказание по кодируемым кадрам 38.75
Таблица 2
Левый вид и глубины сжаты MVC: QpV=26, QpD=28.
- Количество пикселей, которые являются окклюзиями: 9%
- Количество обработанных кадров: 19 (МРВ: «Book arrival»)
- Тип процедуры синтеза: односторонний 1-D синтез, целочисленный буфер глубины для определения окклюзии,точность расчета значения диспарантности: ¼ - пикселя.
Режим предсказания ПОСШ, дБ предсказателя относительно кодируемого кадра
Предсказание на основе VDir 37.48
Предсказание на основе MDir 37.75
Предсказание на основе MDir+ΔΔ 37.97
Временное предсказание: Виртуальное МЕ/МС 36.20
Временное предсказание: МЕ/МС по кодируемым кадрам 36.98
Предсказание из виртуальных кадров 34.04
Явный выбор преимущественного режима предсказания: предсказание из виртуальных кадров или временное предсказание по кодируемым кадрам 38.27
Таблица 3
Левый вид и глубины сжаты MVC: QpV=40, QpD=42.
- Количество пикселей, которые являются окклюзиями: 9%
- Количество обработанных кадров: 19 (МРВ: «Book arrival»)
- Тип процедуры синтеза: односторонний 1-D синтез, целочисленный буфер глубины для определения окклюзии, точность расчета значения диспарантности: ¼ - пикселя.
Режим предсказания ПОСШ, дБ предсказателя относительно кодируемого кадра
Предсказание на основе VDir 32.24
Предсказание на основе MDir 32.46
Предсказание на основе MDir+ΔΔ 32.56
Временное предсказание: Виртуальное МЕ/МС 32.05
Временное предсказание: МЕ/МС по кодируемым кадрам 33.23
Предсказание из виртуальных кадров 30.81
Явный выбор преимущественного режима предсказания: предсказание из виртуальных кадров или временное предсказание по кодируемым кадрам 33.213
В соответствии с полученными экспериментальными результатами заявляемый способ обеспечивает существенное улучшение качества по сравнению с известными способами межкадровой декорреляции, которые основаны на оценке и последующей компенсации движения.
Отличительной чертой заявляемого способа является использование 3-мерных особенностей МРВ. Синтезированные кадры, соответствующие кодируемому кадру и его непосредственным соседям, формируют уникальный каузальный контекст, который недоступен при кодировании обычной видеопоследовательности или независимого кодирования видеопоследовательностей МРВ. Этот контекст доступен как при кодировании, так и при декодировании и используется для выбора режима предсказания каждого последующего блока кодируемого кадра. Это позволяет проводить эффективную декорреляцию данных и уменьшить размер дополнительной информации, необходимой для последующего декодирования. Таким образом, заявляемый способ позволяет повысить эффективность кодирования.
Структурные схемы устройств кодирования МРВ, основанные на способе гибридного кодирования, представлены на Фиг.12, вид 12.1 и вид 12.2. Устройство кодирования, реализующее подходы, предложенные в стандарте H.264/MPEG-4 AVC для кодирования МРВ, изображено на Фиг.12, вид 12.1. Наряду со стандартными для устройств кодирования обычных видеопоследовательностей блоками (внутрикадровое преобразование 1205, так называемое, «интра», пространственное преобразование 1211, устройство 1202 управления и т.д.), присутствуют специфичные для кодирования МРВ блоки:
- блок 1210 построения предсказания (расширение стандартных средств оценки движения для кадров разных видеопоследовательностей одной МРВ),
- блок 1207 синтеза кадров, выполненный с возможностью формирования синтезированных кадров, которые затем могут выступать в качестве опорных при проведении предсказания.
Субоптимальный выбор предсказания выполняется с использованием списков кадров-предсказаний. Такой выбор назван субоптимальным, поскольку в общем случае порядок выбора предсказания является фиксированным. Изменение этого порядка при кодировании делает необходимым явное кодирование и передачу дополнительной информации, чтобы повысить эффективность кодирования.
Модифицированная схема устройства кодирования, реализующая предложенный способ адаптивного предсказания, изображена на Фиг.12, вид 12.2. Выбор предсказания с помощью списков кадров-предсказателей заменен адаптивным предсказанием, которое реализуется блоком 1215 адаптивного предсказания. Этот блок функционирует в соответствии с приведенным выше описанием и не генерирует дополнительной информации о движении в кадрах.
Заявляемый способ обеспечивает гибкий механизм уменьшения объема дополнительной информации и адаптивной декорреляции кадра в случае кодирования 3D МРВ. Благодаря использованию информации, доступной кодеру и декодеру, а также инкрементальному порядку кодирования заявляемый способ может быть органично включен в состав существующих и будущих систем кодирования, например в состав системы кодирования на основе стандарта H.264/MPEG-4 AVC. Заявляемый способ поддерживает режим совместимости со стандартом H.264/MPEG-4 AVC для различных структур построения предсказания, поскольку использует каузальный контекст кодирования кадров. Возникающая дополнительная вычислительная нагрузка при декодировании устраняется, в частности, путем использования специализированных методов оценки движения, которые обладают небольшими вычислительными затратами. Необходимо также отметить, что заявляемый способ, включая всевозможные варианты его реализации, может быть совмещен с другими способами для дальнейшего улучшения достигаемых результатов при кодировании МРВ.

Claims (5)

1. Способ кодирования многоракурсной видеопоследовательности, к которой прилагается многоракурсная последовательность карт глубин, заключающийся в том, что каждый вновь кодируемый кадр многоракурсной видеопоследовательности, определяемый в соответствии с заранее заданным порядком кодирования, представляют как совокупность неперекрывающихся блоков, определяют, по меньшей мере, один уже закодированный кадр, соответствующий данному ракурсу и обозначаемый как опорный, формируют синтезированные кадры для кодируемого и опорных кадров, отличающийся тем, что для каждого неперекрывающегося блока пикселей кодируемого кадра, обозначаемого как кодируемый блок, определяют пространственно-совмещенный блок внутри синтезированного кадра, соответствующего кодируемому кадру, обозначаемый как виртуальный блок, для которого определяют пространственную позицию блока пикселей в синтезируемом кадре, соответствующем опорному кадру, такую, что определенный таким образом опорный виртуальный блок является наиболее точным численным приближением виртуального блока; для определенного таким образом опорного виртуального блока определяют пространственно совмещенный блок, принадлежащий опорному кадру, обозначаемый как опорный блок, и вычисляют ошибку между виртуальным блоком и опорным виртуальным блоком, а также вычисляют ошибку между опорным виртуальным блоком и опорным блоком, затем выбирают минимальную из них и, на основе этого, определяют, по меньшей мере, один режим разностного кодирования, задающий, какие из найденных на предыдущих шагах блоков необходимо использовать для формирования предсказания при последующем разностном кодировании кодируемого блока, и осуществляют разностное кодирование кодируемого блока в соответствии с выбранным режимом разностного кодирования, который определяют при декодировании аналогичным образом без использования дополнительных битовых затрат.
2. Способ по п.1, отличающийся тем, что в случае, если ошибка между виртуальным блоком и опорным виртуальным блоком оказалась меньше, чем ошибка между опорным виртуальным блоком и опорным блоком, то выбирают режим разностного кодирования, при котором в качестве предсказания используют опорный блок; в противном случае выбирают режим разностного кодирования, при котором в качестве предсказания используют виртуальный блок.
3. Способ по п.2, отличающийся тем, что вычисляют ошибку между виртуальным блоком и кодируемым блоком, а также вычисляют ошибку между ссылочным блоком и кодируемым блоком, причем в случае, если ошибка между виртуальным блоком и кодируемым блоком оказалась меньше, чем ошибка между опорным блоком и кодируемым блоком, то в качестве предсказания выбирают виртуальный блок; в противном случае выбирают опорный блок; на основании выбранного режима разностного кодирования и выбранного блока производят кодирование информации о выбранном блоке, а также осуществляют разностное кодирование кодируемого блока.
4. Способ по п.3, отличающийся тем, что в случае, если ошибка относится к выбранному режиму разностного кодирования, при котором в качестве предсказания выбирается опорный блок, а минимальная найденная ошибка - это ошибка между виртуальным блоком и кодируемым блоком, и найденная абсолютная разность между этими ошибками не превышает предварительно заданного порогового значения, то в качестве предсказания выбирают опорный блок; в случае, если ошибка относится к выбранному режиму разностного кодирования, при котором в качестве предсказания выбирают виртуальный блок, а минимальная найденная ошибка - это ошибка между опорным блоком и кодируемым блоком, и найденная абсолютная разность между этими ошибками не превышает предварительно заданного порогового значения, то в качестве предсказания выбирают виртуальный блок; в иных случаях в качестве предсказания выбирают блок в соответствии с определенным режимом кодирования; производят кодирование информации о выбранном блоке, а также осуществляют разностное кодирование кодируемого блока.
5. Способ по п.4, отличающийся тем, что опорный виртуальный блок и опорный блок используют для вычисления разностного блока, при этом разностный блок вычисляют как попиксельную разность между виртуальным блоком и попиксельной разностью между опорным виртуальным блоком и опорным блоком; вычисляют ошибку между найденным разностным блоком и кодируемым блоком; в случае, если найденная ошибка оказывается меньше, чем ошибка между выбранным на предыдущих шагах в качестве предсказателя блоком и кодируемым блоком, то в качестве предсказателя используют найденный разностный блок; производят кодирование информации о выбранном блоке, а также осуществляют разностное кодирование кодируемого блока.
RU2011102033/07A 2011-01-20 2011-01-20 Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности RU2480941C2 (ru)

Priority Applications (4)

Application Number Priority Date Filing Date Title
RU2011102033/07A RU2480941C2 (ru) 2011-01-20 2011-01-20 Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности
US13/978,842 US9538182B2 (en) 2011-01-20 2012-01-20 Apparatus and method for adaptive frame prediction for multiview video sequence coding
KR1020127015121A KR20140021952A (ko) 2011-01-20 2012-01-20 멀티뷰 비디오 시퀀스 코딩을 위한 적응형 프레임 예측 방법
PCT/KR2012/000553 WO2012099438A2 (en) 2011-01-20 2012-01-20 Method of adaptive frame prediction for multiview video sequence coding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2011102033/07A RU2480941C2 (ru) 2011-01-20 2011-01-20 Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности

Publications (2)

Publication Number Publication Date
RU2011102033A RU2011102033A (ru) 2012-07-27
RU2480941C2 true RU2480941C2 (ru) 2013-04-27

Family

ID=46516269

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011102033/07A RU2480941C2 (ru) 2011-01-20 2011-01-20 Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности

Country Status (4)

Country Link
US (1) US9538182B2 (ru)
KR (1) KR20140021952A (ru)
RU (1) RU2480941C2 (ru)
WO (1) WO2012099438A2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2696551C1 (ru) * 2016-03-15 2019-08-02 МедиаТек Инк. Способ и устройство для кодирования видео с компенсацией аффинного движения

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
CN102790895B (zh) * 2012-07-30 2015-03-25 武汉大学 一种基于最小二乘的多视点视频编码视点合成预测方法
EP2949121B1 (en) * 2013-02-06 2020-07-15 Koninklijke Philips N.V. Method of encoding a video data signal for use with a multi-view stereoscopic display device
WO2014139069A1 (zh) 2013-03-11 2014-09-18 华为技术有限公司 视频文件修复方法及装置
CN104768019B (zh) * 2015-04-01 2017-08-11 北京工业大学 一种面向多纹理多深度视频的相邻视差矢量获取方法
JP6866299B2 (ja) 2015-04-23 2021-04-28 オステンド・テクノロジーズ・インコーポレーテッド 全方向視差ライトフィールド表示システム用の方法および装置
US11609427B2 (en) 2015-10-16 2023-03-21 Ostendo Technologies, Inc. Dual-mode augmented/virtual reality (AR/VR) near-eye wearable displays
US11106273B2 (en) 2015-10-30 2021-08-31 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays
US10448030B2 (en) 2015-11-16 2019-10-15 Ostendo Technologies, Inc. Content adaptive light field compression
US10345594B2 (en) 2015-12-18 2019-07-09 Ostendo Technologies, Inc. Systems and methods for augmented near-eye wearable displays
US10578882B2 (en) 2015-12-28 2020-03-03 Ostendo Technologies, Inc. Non-telecentric emissive micro-pixel array light modulators and methods of fabrication thereof
US10353203B2 (en) 2016-04-05 2019-07-16 Ostendo Technologies, Inc. Augmented/virtual reality near-eye displays with edge imaging lens comprising a plurality of display devices
US10453431B2 (en) 2016-04-28 2019-10-22 Ostendo Technologies, Inc. Integrated near-far light field display systems
US10522106B2 (en) 2016-05-05 2019-12-31 Ostendo Technologies, Inc. Methods and apparatus for active transparency modulation
US10560712B2 (en) 2016-05-16 2020-02-11 Qualcomm Incorporated Affine motion prediction for video coding
US10448010B2 (en) * 2016-10-05 2019-10-15 Qualcomm Incorporated Motion vector prediction for affine motion models in video coding
US10491917B2 (en) * 2017-03-22 2019-11-26 Qualcomm Incorporated Decoder-side motion vector derivation
US11051039B2 (en) 2017-06-02 2021-06-29 Ostendo Technologies, Inc. Methods for full parallax light field compression
US11877001B2 (en) 2017-10-10 2024-01-16 Qualcomm Incorporated Affine prediction in video coding
US10931956B2 (en) 2018-04-12 2021-02-23 Ostendo Technologies, Inc. Methods for MR-DIBR disparity map merging and disparity threshold determination
US11172222B2 (en) 2018-06-26 2021-11-09 Ostendo Technologies, Inc. Random access in encoded full parallax light field images
CN110719496B (zh) * 2018-07-11 2023-02-07 杭州海康威视数字技术股份有限公司 一种多路码流封装、播放方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005018217A2 (en) * 2003-08-07 2005-02-24 Sony Electronics, Inc. Semantics-based motion estimation for multi-view video coding
WO2006073116A1 (ja) * 2005-01-07 2006-07-13 Nippon Telegraph And Telephone Corporation 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体
RU2296379C2 (ru) * 2002-10-15 2007-03-27 Самсунг Электроникс Ко., Лтд. Носитель для хранения информации со структурой данных для многоракурсного показа и устройство для этого носителя
WO2009020542A1 (en) * 2007-08-06 2009-02-12 Thomson Licensing Methods and apparatus for motion skip mode with multiple inter-view reference pictures
WO2009023091A2 (en) * 2007-08-15 2009-02-19 Thomson Licensing Methods and apparatus for motion skip mode in multi-view coded video using regional disparity vectors

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10191393A (ja) 1996-12-24 1998-07-21 Sharp Corp 多視点画像符号化装置
US6807231B1 (en) * 1997-09-12 2004-10-19 8×8, Inc. Multi-hypothesis motion-compensated video image predictor
WO2005041585A1 (en) * 2003-10-27 2005-05-06 Koninklijke Philips Electronics N.V. Power optimized collocated motion estimation method
US7671894B2 (en) 2004-12-17 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using skip and direct modes
US8823821B2 (en) * 2004-12-17 2014-09-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for processing multiview videos for view synthesis using motion vector predictor list
US7728877B2 (en) * 2004-12-17 2010-06-01 Mitsubishi Electric Research Laboratories, Inc. Method and system for synthesizing multiview videos
KR100716992B1 (ko) * 2005-02-04 2007-05-10 삼성전자주식회사 스테레오 영상 부호화 및 복호화 방법과 그 장치
US7903737B2 (en) * 2005-11-30 2011-03-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for randomly accessing multiview videos with known prediction dependency
KR100949979B1 (ko) 2006-03-30 2010-03-29 엘지전자 주식회사 비디오 신호를 디코딩/인코딩하기 위한 방법 및 장치
KR20080015713A (ko) 2006-08-16 2008-02-20 엘지전자 주식회사 비디오 신호의 디코딩/인코딩 방법 및 장치
BRPI0716814A2 (pt) 2006-09-20 2013-11-05 Nippon Telegraph & Telephone Método de codificação de imagem, e método de decodificação, aparelhos para isso, aparelho de decodificação de imagem, programas para isso, e mídias de armazenamento para armazenar os programas
EP2066133A4 (en) * 2006-09-20 2015-11-18 Nippon Telegraph & Telephone BILDCODE PROCEDURE, DECODING METHOD, DEVICE FOR IT, IMAGE DECODING DEVICE, PROGRAM THEREFOR AND THE PROGRAM CONTAINING STORAGE MEDIUM
EP2512139B1 (en) 2006-10-30 2013-09-11 Nippon Telegraph And Telephone Corporation Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media which store the programs
KR100893930B1 (ko) 2006-12-04 2009-04-21 한국전자통신연구원 다시점 비디오 부호화를 위한 시간 직접예측 방법
CN101939991A (zh) * 2007-01-23 2011-01-05 欧几里得发现有限责任公司 用于处理图像数据的计算机方法和装置
KR100801968B1 (ko) * 2007-02-06 2008-02-12 광주과학기술원 변위를 측정하는 방법, 중간화면 합성방법과 이를 이용한다시점 비디오 인코딩 방법, 디코딩 방법, 및 인코더와디코더
KR101301181B1 (ko) 2007-04-11 2013-08-29 삼성전자주식회사 다시점 영상의 부호화, 복호화 방법 및 장치
TW200910975A (en) 2007-06-25 2009-03-01 Nippon Telegraph & Telephone Video encoding method and decoding method, apparatuses therefor, programs therefor, and storage media for storing the programs
US8804839B2 (en) 2007-06-27 2014-08-12 Korea Electronics Technology Institute Method for image prediction of multi-view video codec and computer-readable recording medium thereof
CN101690230A (zh) 2007-06-28 2010-03-31 汤姆森特许公司 多视图编码视频的单环解码
EP2061005A3 (en) * 2007-11-16 2010-02-17 Gwangju Institute of Science and Technology Device and method for estimating depth map, and method for generating intermediate image and method for encoding multi-view video using the same
KR101653724B1 (ko) 2008-03-04 2016-09-02 톰슨 라이센싱 가상 레퍼런스 뷰
EP2269378A2 (en) 2008-04-25 2011-01-05 Thomson Licensing Multi-view video coding with disparity estimation based on depth information
WO2010043773A1 (en) 2008-10-17 2010-04-22 Nokia Corporation Sharing of motion vector in 3d video coding
US8548228B2 (en) 2009-02-23 2013-10-01 Nippon Telegraph And Telephone Corporation Multi-view image coding method, multi-view image decoding method, multi-view image coding device, multi-view image decoding device, multi-view image coding program, and multi-view image decoding program
US9648346B2 (en) 2009-06-25 2017-05-09 Microsoft Technology Licensing, Llc Multi-view video compression and streaming based on viewpoints of remote viewer
US8537200B2 (en) * 2009-10-23 2013-09-17 Qualcomm Incorporated Depth map generation techniques for conversion of 2D video data to 3D video data
CN103181171B (zh) * 2010-11-04 2016-08-03 皇家飞利浦电子股份有限公司 深度指示图的产生
US20120114036A1 (en) * 2010-11-10 2012-05-10 Hong Kong Applied Science and Technology Research Institute Company Limited Method and Apparatus for Multiview Video Coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2296379C2 (ru) * 2002-10-15 2007-03-27 Самсунг Электроникс Ко., Лтд. Носитель для хранения информации со структурой данных для многоракурсного показа и устройство для этого носителя
WO2005018217A2 (en) * 2003-08-07 2005-02-24 Sony Electronics, Inc. Semantics-based motion estimation for multi-view video coding
WO2006073116A1 (ja) * 2005-01-07 2006-07-13 Nippon Telegraph And Telephone Corporation 映像符号化方法及び装置、映像復号方法及び装置、それらのプログラムおよびそれらプログラムを記録した記録媒体
WO2009020542A1 (en) * 2007-08-06 2009-02-12 Thomson Licensing Methods and apparatus for motion skip mode with multiple inter-view reference pictures
WO2009023091A2 (en) * 2007-08-15 2009-02-19 Thomson Licensing Methods and apparatus for motion skip mode in multi-view coded video using regional disparity vectors

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Е.MARTINIAN et al. View Synthesis for Multiview Video Compression., Proc. PCS 2006, Picture Coding Symposium, Beijing, China, April 2006. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2696551C1 (ru) * 2016-03-15 2019-08-02 МедиаТек Инк. Способ и устройство для кодирования видео с компенсацией аффинного движения

Also Published As

Publication number Publication date
KR20140021952A (ko) 2014-02-21
WO2012099438A3 (en) 2012-12-06
RU2011102033A (ru) 2012-07-27
WO2012099438A2 (en) 2012-07-26
US9538182B2 (en) 2017-01-03
US20130294504A1 (en) 2013-11-07

Similar Documents

Publication Publication Date Title
RU2480941C2 (ru) Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности
JP2022123085A (ja) 部分的コスト計算
JP5970609B2 (ja) 3dビデオ符号化における統一された視差ベクトル導出の方法と装置
US9118929B2 (en) Method for performing hybrid multihypothesis prediction during video coding of a coding unit, and associated apparatus
US8559515B2 (en) Apparatus and method for encoding and decoding multi-view video
CN110741640B (zh) 用于视频代码化中的运动补偿预测的光流估计
KR101227601B1 (ko) 시차 벡터 예측 방법, 그 방법을 이용하여 다시점 동영상을부호화 및 복호화하는 방법 및 장치
CN111385569A (zh) 一种编解码方法及其设备
US8817871B2 (en) Adaptive search range method for motion estimation and disparity estimation
EP1927249B1 (en) Apparatus and method for encoding and decoding multi-view video
US20120320986A1 (en) Motion vector estimation method, multiview video encoding method, multiview video decoding method, motion vector estimation apparatus, multiview video encoding apparatus, multiview video decoding apparatus, motion vector estimation program, multiview video encoding program, and multiview video decoding program
WO2010093430A1 (en) System and method for frame interpolation for a compressed video bitstream
US20150172714A1 (en) METHOD AND APPARATUS of INTER-VIEW SUB-PARTITION PREDICTION in 3D VIDEO CODING
US20120114036A1 (en) Method and Apparatus for Multiview Video Coding
JP2011114572A (ja) 画像符号化装置、画像復号化装置、画像符号化方法、及び画像復号化方法
US20130329800A1 (en) Method of performing prediction for multiview video processing
JP6039178B2 (ja) 画像符号化装置、画像復号装置、並びにそれらの方法及びプログラム
CN102801995A (zh) 一种基于模板匹配的多视点视频运动和视差矢量预测方法
US20110280491A1 (en) Apparatus and method of encoding 3d image
US8897585B2 (en) Prediction of pixels in image coding
US20130170565A1 (en) Motion Estimation Complexity Reduction
Tzovaras et al. Optimization of quadtree segmentation and hybrid two-dimensional and three-dimensional motion estimation in a rate-distortion framework
RU2506712C1 (ru) Способ межкадрового прогнозирования для кодирования многоракурсной видеопоследовательности
TWI833795B (zh) 交織預測的快速編碼方法
JP6232117B2 (ja) 画像符号化方法、画像復号方法、及び記録媒体