PT2594077E

PT2594077E - Codificação de vídeo híbrida para suporte a síntese de visualização intermédia

Info

Publication number: PT2594077E
Application number: PT107349706T
Authority: PT
Inventors: Wiegand Thomas; Müller Karsten; Merkle Philipp
Original assignee: Ge Video Compression Llc
Priority date: 2010-07-15
Filing date: 2010-07-15
Publication date: 2016-03-01
Also published as: US9854271B2; EP3661199A1; US20160381392A1; US9860563B2; US11917200B2; EP2594077A1; US20200252649A1; EP2594077B1; ES2561078T3; DK2594077T3; US10382787B2; US20190261019A1; EP2991347A1; HUE026534T2; PL2594077T3; US10771814B2; US9462276B2; US11115681B2; US20140028793A1; US20180098091A1

Description

DESCRIÇÃO

CODIFICAÇÃO DE VÍDEO HÍBRIDA PARA SUPORTE A SÍNTESE DE VISUALIZAÇÃO INTERMÉDIA A presente invenção refere-se a codificação de vídeo híbrida que suporta a síntese de visualização intermédia.

As aplicações de vídeo 3D, tal como exibições estéreo e multi-visualização, aplicações de vídeo de ponto de visualização livres, etc. representam atualmente os mercados em expansão. Para conteúdos de vídeo estéreo e de multi-visualização, a norma MVC foi especificada. É feita referência à ISO / IEC JTC1 / SC29 / WG11, "Text of ISO/IEC 14496-10:200X/FDAM 1 Multiview Video Coding", Doc. N9978, Hannover, Alemanha, julho de 2008, à ITU-T e ISO/IEC JTC1, "Advanced video coding for generic audiovisual

Services", Recomendação ITU-T H.264 e ISO/IEC 14496-10 (MPEG-4 AVC) , Versão 1: maio de 2003, Versão 2: Maio de 2004, Versão 3: março de 2005 (incluindo a extensão FRExt), Versão 4: setembro de 2005, Versão 5 e Versão 6: junho de 2006, Versão 7: abril 2007, Versão 8: julho 2007 (incluindo a extensão SVC), Versão 9: julho de 2009 (incluindo a extensão MVC).

Esta norma comprime sequências de vídeo a partir de um número de câmaras adjacentes. O processo de descodificação MVC apenas reproduz essas visualizações de câmara nas suas posições originais de câmara. Para diferentes exibições multi- visualização, no entanto, são necessários diferentes números de perspetivas com diferentes posições espaciais, de tal forma que perspetivas adicionais, por exemplo, entre as posições originais da câmara, são necessárias. Assim, a fim de ser apropriado para todas as exibições multi-visualização diferentes, o conteúdo de vídeo multi-visualização de acordo com a Norma MVC teria que disponibilizar uma grande quantidade de perspetivas da câmara que, necessariamente, reduziriam a taxa de compressão em relação à menor taxa de compressão possível para exibições multi- visualização explorando meramente um subconjunto adequado das perspetivas da câmara transmitidas. Outras técnicas para a transmissão de dados multi-visualização fornecem cada amostra dos quadros das perspetivas de câmara não só com o valor da cor correspondente, mas também um valor de profundidade ou disparidade correspondente com base no qual um sintetizador de visualização intermediário na etapa de descodificação pode fornecer as visualizações intermédias por projeção e fusão de visualizações de câmara adjacentes na visualização intermédia em questão. Obviamente, a capacidade para sintetizar visualizações intermédias vistas na etapa de descodificação reduz o número de visualizações da câmara a ser transmitidas através dos dados multi-visualização. Como desvantagem, no entanto, a disposição de cada amostra com um valor de profundidade ou disparidade associado aumenta a quantidade de dados a serem transmitidos por visualização da câmara. Além disso, os dados de profundidade ou disparidade adicionados aos dados de cor, ou terão de ser tratados como um quarto componente de cor, de modo a ser capaz de utilizar um codec de video apropriado para a compressão dos dados, ou uma técnica de compressão apropriada terá de ser utilizada, a fim de comprimir os dados de cor mais profundidade/disparidade. A primeira alternativa não atinge a taxa de compressão máxima possível uma vez que as diferentes estatísticas dos valores de cor e de profundidade não são consideradas corretamente, e a última alternativa é incómoda uma vez que uma solução de propriedade tem de ser concebida, e o grau de carga computacional no lado da sintetização é relativamente alta.

De um modo geral, seria favorável se, por um lado, a quantidade de dados multi-visualização pudesse ser mantida relativamente baixa, enquanto que, por outro lado, o número de visualizações disponíveis no lado da descodificação seria de uma razoavelmente alta qualidade. 0 documento US 2008/0247462 AI divulga a compensação de movimento para compressão de vídeo utilizando um "flowfield" que compreende um campo per-pixel de vetores de movimento e valores de confiança. Os Flowfields podem ser codificados por transformada quantificada para compensação de movimento de compressão. Os flowfields somente de codificação fazem-se corresponder com um ou mais quadros anteriores e posteriores para determinar tanto a modulação para as camadas de reforço de resolução, bem como filtragem acentuada/suave para uma imagem original, uma camada de base, e para as camadas de reforço de resolução. Os flowfields somente de codificação podem ser usados com vários tipos de codecs, usando o comprimento do vetor de movimento do flowfield e confiança para orientar os filtros acentuado/suave para melhorar a eficiência por meio de redução de ruído no local. Os pixels podem ser deslocados usando flowfields somente de codificação para quadros nas proximidades, e ser ponderados para redução de ruído eficiente. Os flowfields somente de codificação são descartados após a sua utilização na codificação, e, portanto, não necessitam de bits codificados. Os flowfields somente de codificação podem ser aplicados a todos os tipos de quadros, incluindo quadros "F" intra, previstos, previstos por flowfields reencaminhados e tipos de quadros "M" previstos por multiplicação, e melhorar a eficiência de codificação intra.

No seu artigo "Multi-View Image Compression and Intermediate View Synthesis for Stereoscopic Applications", ISCAS 2000, Simpósio Internacional IEEE sobre Circuitos e Sistemas, maio 28-31, Genebra, Suíça, Gan-Chieh Chang e Wen-Nung Lie descrevem um sistema de compressão de imagem multi-visualização que é capaz de fornecer informações disparidade suficientes e fiáveis para a síntese de visualização intermédia para aplicações de realidade virtual em 3-D. A primeira parte do artigo apresenta um codec que dispõe de acesso aleatório a qualquer visualização codificada e tem um desempenho comparável ao da norma MPEG. Na segunda parte, as disparidades são interpoladas, e as imagens descodificadas apropriadas para a síntese de quaisquer visualizações intermédias são referidas. A conceção do referido documento fornece informações suficientes para que cada síntese possa ser alcançada dentro de 0,04 seg para uma imagem de 320x240 (excluindo o tempo de descodificação) . Um visualizador de olho de vidro com sincronização de infravermelhos também é adotado para ver os resultados estéreo.

No seu artigo "Intermediate View Synthesis From Binocular Images for Stereoscopic Applications", Departamento de Engenharia Elétrica, da Universidade Nacional Chung Cheng, Taiwan, 2001, Wen-Nung Lie e Bo-Er Wei propõem um novo método para a síntese de visualizações intermédias a partir de imagens de binoculares capturadas por câmaras paralelas. As principais técnicas incluem: (1) procedimento preditivo e de vários estágios de correspondência de blocos para a estimativa da disparidade, (2) interpolação da disparidade para as regiões de má correspondência e de oclusão, e (3) síntese de imagem por transmissão de imagem por blocos por hipótese e teste. O método inclui uma estimativa rápida (3 vezes) e precisa do mapa de disparidade, assim como um compromisso entre a qualidade de síntese (disparidades à base de pixels) e a velocidade de síntese (transmissão com base no bloco 4x4) . No documento "A Layered Method of Visibility Resolving in Depth Image-based Rendering", Yu Huang e Chao Zhang, Thomson Corporate Research, Princeton, NJ 08540, EUA, State Key Lab of Machine Perception, Universidade de Pequim, Pequim 100871, China, 2008, apresentam um método em camadas para resolver o problema de visibilidade na transmissão com base em imagens de profundidade. Uma nova representação em três camadas para cada visualização de referência, ou seja, a camada principal, a camada de fundo e a camada limite, é proposta. Um método espacial-temporal é projetado para gerar a camada limite para transmissão com base em pixel (splatting). Enquanto isso, um modelo de fundo temporal é construído para cada quadro, pesquisando para trás e para frente para obter informações de fundo descobertas com base na variação de profundidade no vídeo de referência.

Em "OverView of Multi-view Video Coding", Yo-Sung Ho e Kwan-Jung Oh, Instituto de Ciências e Tecnologia de Gwangju (GIST), Gwangju, Coreia, 2007, propõem um sistema de vídeo multi-visualização que pode fornecer um realismo aumentado através da experiência de visualização seletiva. O vídeo multi-visualização é uma coleção de vários vídeos que capturam a mesma cena 3D em diferentes pontos de vista. Uma vez que o tamanho dos dados do vídeo multi-visualização aumenta proporcionalmente ao número de câmaras, é necessário para comprimir dados de vídeo multi-visualização para o armazenamento e transmissão eficientes. Este documento fornece uma visão geral de codificação de vídeo multi-visualização (MVC) e descreve as suas aplicações, requisitos, e o modelo de software de referência para a MVC.

Assim, é um objeto da presente invenção proporcionar um esquema para transmissão e receção de multi-visualização, que, por um lado, permita a transmissão de um elevado número de visualizações disponíveis e, por outro lado, apenas represente uma razoável demanda de taxa de transmissão e sobrecarga de transmissão.

Este objetivo é atingido por um descodificador de vídeo híbrido de acordo com a reivindicação 1, um método de acordo com a reivindicação 7, e um programa de computador de acordo com a reivindicação 8. A presente invenção tem, entre outros aspetos, base na constatação de que os codecs de vídeo híbridos de acordo com os quais os vídeos de várias visualizações são codificados de modo preditivo num sinal de dados multi-visualização com quadros de um vídeo de uma certa visualização que estão espacialmente subdivididos em sub-regiões e o sinal de dados multi-visualização possuindo um modo de predição a partir de um conjunto de possíveis modos de predição, associado com cada uma das sub-regiões, o conjunto de possíveis modos de predição compreendendo, pelo menos, um modo de predição inter-visualização e um modo de predição intra-visualização, já transmitindo informação suficiente para permitir uma síntese de visualização intermédia no lado de Descodificação de vídeo híbrida. Ou seja, não é necessário qualquer formato de dados de multi-visualização proprietário de acordo com o qual os dados de cor são acompanhados por dados de profundidade adicional per-pixel e/ou dados disparidade. Por outras palavras, os inventores do presente pedido descobriram que, mesmo quando o codificador de vídeo híbrido tem a liberdade de escolher livremente o modo de predição preferido a partir dos possíveis modos de predição para cada sub-região - de acordo com um esquema de otimização para a otimização de uma medição de taxa/distorção, ou semelhantes -, os vetores de disparidade realmente transmitidos dentro do sinal de dados multi-visualização resultante para as sub-regiões para as quais o modo de predição inter-visualização foi escolhida, são suficientes para permitir uma síntese de visualização intermédia na etapa de Descodificação de vídeo híbrida. Ou seja, enquanto um reconstrutor preditivo reconstrói sub-regiões de quadros de um vídeo de uma determinada visualização do sinal de dados multi-visualização, com o qual o modo de predição inter-visualização está associado, através da geração de uma predição a partir de uma versão reconstruída de uma porção de quadros de um vídeo de outra visualização do sinal de dados multi-visualizados utilizando os vetores de disparidade extraídos a partir do sinal de dados multi-visualização para as respetivas sub-regiões, e uma predição residual para as respetivas sub-regiões também extraídas a partir do sinal de dados multi-visualização, um sintetizador de visualização intermédia pode reconstruir porções de um vídeo de visualização intermédia utilizando a versão reconstruída das porções dos quadros do vídeo de certa visualização, e os vetores de disparidade extraídos do sinal de dados multi-visualização. As porções restantes do vídeo de visualização intermédia, que não são reconstruídas utilizando os vetores de disparidade extraídos a partir do sinal de dados multi-visualização - uma vez que o codificador de vídeo híbrido decidiu utilizar o códiqo de predição intra-visualização para outras sub-regiões - podem ser subsequentemente preenchidas por meio de intra/extrapolação no tempo e/ou espacialmente, ou por meio da estimativa de vetores de disparidade adicionais por interpolação de vetores de disparidade extraídos do sinal de dados multi-visualização, temporal e/ou espacialmente.

As formas de realização preferidas do presente pedido de patente são descritas a seguir com respeito às figuras. Em particular: Fig. 1 mostra um diagrama esquemático que ilustra a coexistência de vetores de movimento e de disparidade num esquema de codificação multi-visualização sobre um exemplo que inclui duas visualizações e dois casos de tempo, subjacentes ao esquema de codificação e descodificação híbrida descrito em relação às Figs. 5 a 8;

Fig. 2 mostra um diagrama esquemático que ilustra as correspondências de ponto definidas por um vetor de disparidade entre visualizações adjacentes, de acordo com uma forma de realização da presente invenção;

Fig. 3 mostra um diagrama esquemático que ilustra uma síntese de visualização intermédia por projeção de conteúdo da cena a partir de duas visualizações adjacentes usando vetores escalados de disparidade de acordo com uma forma de realização da presente invenção;

Fig. 4 mostra um diagrama de blocos de um codificador de vídeo híbrido de acordo com uma forma de realização da presente invenção;

Fig. 5 mostra um diagrama de blocos de um descodif icador de vídeo híbrido de acordo com uma forma de realização da presente invenção;

Fig. 6 mostra um diagrama esquemático que ilustra o modo de funcionamento do descodificador de vídeo híbrido da Fig. 5 com respeito à síntese de visualização intermédia, de acordo com uma forma de realização da presente invenção;

Fig. 7 mostra um diagrama esquemático que ilustra um esquema de descodificação de N-visualização de fluxo de bits de 2 visualizações para uma exibição de 9 visualizações em que o descodificador de vídeo híbrido da Fig. 5 poderia ser empregue.

Antes de descrever várias formas de realização de um descodificador de vídeo híbrido ou um método de Descodificação de vídeo híbrida, bem como um correspondente codificador de vídeo híbrido ou um método de codificação de vídeo híbrido, estas formas de realização são motivadas pela explicação em primeiro lugar da utilização de vetores de disparidade na codificação preditiva de dados de múltipla visualização.

Se o conteúdo da cena é capturado com várias câmaras, uma perceção 3D deste conteúdo pode ser apresentada a um espectador. Para este fim, os trajetos estéreo têm que ser fornecidos com uma direção de visualização ligeiramente diferente para o olho esquerdo e direito. 0 deslocamento do mesmo conteúdo em ambas as visualizações para casos de tempo iguais é representado pela chamada paralaxe. Por outras palavras, a paralaxe descreve uma mudança de amostras dentro de uma visualização em relação às posições correspondentes numa outra visualização. Uma vez que ambas as visualizações mostram o mesmo conteúdo da cena, ambas as visualizações são muito semelhantes no interior das porções relacionadas entre si por meio da paralaxe. De modo semelhante, os quadros consecutivos de um vídeo correspondente a uma visualização individual compreendem semelhanças entre si. Por exemplo, no caso de uma câmara que não esteja em movimento, as amostras correspondentes a um fundo estático devem aparecer constantemente dentro de quadros consecutivos do vídeo em posições co-localizadas espacialmente. Objetos móveis no conteúdo da cena mudam as suas posições dentro de quadros consecutivos de vídeo. Em técnicas de compressão de vídeo híbrida, as semelhanças entre os quadros temporais consecutivos é explorada por meio de predição com compensação de movimento de acordo com a qual os vetores de movimento são utilizados, a fim de obter previsões para certas sub-regiões de um quadro baseado em porções previamente codificadas e reconstituídas, de outros quadros, principalmente por mapeamento de porções dos mesmos na sub-região em questão.

Do mesmo modo, a fim de comprimir dados multi-visualização, a semelhança entre os quadros do mesmo instante de tempo de direções de visualização espacialmente distintas, mas semelhantes, podem ser explorada, a fim de comprimir preditivamente o conteúdo de vídeo dessas visualizações. A mudança do mesmo conteúdo em ambas as visualizações para momentos de tempo iguais pode ser representada por vetores de disparidade. Esta mudança é comparável à mudança de conteúdo dentro de uma sequência de quadros entre diferentes momentos de tempo representados pelos vetores de movimento acima referidos. A Fig. 1 ilustra a co-utilização de vetores de disparidade e vetores de movimento, a fim de reduzir a redundância de dados multi-visualização para um caso ilustrativo de duas visualizações em dois momentos de tempo.

Em particular, a Fig. 1 mostra um quadro 10 de uma primeira visualização que corresponde a um momento de tempo t e um segundo quadro 12 da mesma visualização 1 correspondente ao momento de tempo t-1, e, ainda, um quadro 14 de uma segunda visualização que corresponde ao momento de tempo t e ainda um quadro 16 da visualização 2 no momento de tempo t-1 é mostrado. Um vetor de movimento 18 ilustra o deslocamento espacial do conteúdo da cena semelhante dentro dos quadros consecutivos 10 e 12 da primeira visualização, com um vetor de movimento 20 que ilustra de forma semelhante o deslocamento espacial de conteúdo de cena mutuamente correspondente nos quadros consecutivos 14 e 16 da segunda visualização. Como explicado acima, o movimento de conteúdo de cena mutuamente correspondente dentro de quadros consecutivos dentro de uma visualização individual varia espacialmente, dependendo do conteúdo da cena, e, portanto, na codificação de video híbrido com que as seguintes formas de realização se relacionam, os vetores de movimento são atribuídos individualmente a diferentes sub-regiões dos quadros 10 a 16, a fim de indicar, para a respetiva sub-região, como o quadro de referência ao qual se refere o respetivo vetor de movimento 18 e 20 pontos deve ser deslocado, a fim de servir como predição na respetiva sub-região do quadro atual. Nessa medida, na Fig. 1, os quadros 12 e 16 representam os quadros de referência para as porções de predição dos quadros 10 e 14, respetivamente, utilizando vetores de movimento 18 e 20, respetivamente. Um codificador de vídeo híbrido pode ser configurado para definir os vetores de movimento 18 e 20 de tal forma que uma determinada medida de taxa/distorção é minimizada considerando que a representação dos vetores de movimento 18 e 20 a uma resolução final aumenta a taxa de bits necessária para transmitir a informação de movimento, enquanto, por outro lado, aumenta a qualidade de predição e, por conseguinte, a redução do erro de predição e a taxa de bits necessária para a codificação do erro de predição. A fim de determinar o vetor de movimento para uma determinada sub-região, o codificador de vídeo híbrido pode, por exemplo, determinar a similaridade de porções do quadro de referência 12 e 16, respetivamente, deslocadas em relação à sub-região em questão no âmbito do atual quadro 10 e 14, respetivamente, por diferentes possíveis vetores de movimento com a escolha, como vetores de movimento candidatos, dos vetores de movimento que conduzem a um erro de predição local baixo ou mínimo, tal como medido pelo erro quadrático médio.

Num sentido similar, os vetores de disparidade 22 e 24, respetivamente, mostram um deslocamento espacial de conteúdos de cena mutuamente correspondentes dentro de quadros 12, 16 e 10, 14, no mesmo momento de tempo das visualizações diferentes 1 e 2, e o vídeo híbrido e o codificador podem definir estes vetores de disparidade 22 de uma forma correspondente para a determinação dos vetores de movimento 18 e 20 descritos acima com, por exemplo, os quadros 10 e 12 da visualização 1, representando os quadros de referência para os vetores de disparidade 22 e 24, que por sua vez, ajudam os quadros de referência 12 e 10 a ser espacialmente deslocados de modo a servir como uma predição para sub-regiões de quadros 14 e 16 aos quais os vetores de disparidade 22 e 24 correspondem. Portanto, a estimativa de movimento conforme realizada por um codificador de vídeo híbrido, é aplicável não só à direção temporais, mas também numa direção inter-visualização. Por outras palavras, se vários pontos de visualização forem codificados em conjunto, as direções temporais e inter-visualização podem ser tratadas da mesma forma, de tal forma que a estimativa de movimento é realizada na direção temporal, bem como inter-visualização durante a codificação. Os vetores de movimento estimados na direção inter-visualização são os vetores de disparidade 22 e 24. Como os vetores de disparidade correspondem ao deslocamento especial de conteúdo de cena mutuamente correspondente dentro de diferentes visualizações, tais codificadores de vídeo híbrido também realizam a estimativa de disparidade implicitamente e os vetores de disparidade 22 e 24, tal como incluídos no fluxo de bits codificado, podem ser explorados para a síntese inter-visualização como será descrito em mais detalhe abaixo. Estes vetores 22 e 24 podem ser utilizados para a síntese de visualização intermédia adicional no descodificador. A fim de ilustrar esta questão mais detalhadamente, é feita referência à Fig. 2. Considere-se um pixel pi(xiyi) na visualização 1 na posição (xi, yi) e um pixel P2 (X2, y2), na visualização 2 na posição (x2, y2), que têm valores de luminância idênticos ou, por outras palavras, representam amostras de cena mutuamente correspondentes. Em seguida, considere-se um pixel pi(xiyi) na visualização 1 na posição (xi, yi) e um pixel P2 (X2, y2), na visualização 2 na posição (x2, y2) , que têm valores de luminância idênticos. Então, pi ()^71)^2(¾}¾).

As suas posições (xi, yi) e (x2, Y2) , estão ligadas pelo vetor de disparidade 2D 26, por exemplo, da visualização 2 para a visualização 1, que é d2i (X2, y2) com componentes dx, 21 (^2/ y2) e dy,2i (X2r y2) · Assim, a seguinte equação fica: (Χΐ,Υΐ)==(Χ2+4,2ΐ{Χ2,Υ2),5Τ2+^ΐ(Χ2,Υ2)). combinando (1) e (2),

Pl(X2+dx,2 i (X2»y2),y2+dy,21 (Χ2,Υ2)>::Ρ2(Χ2,Υ2).

Como mostrado na Figura 2, na parte inferior direita, dois pontos com conteúdo idêntico podem ser ligados a um vetor de disparidade 26: Adicionando este vetor às coordenadas de P2, dá a posição de pi em coordenadas de imagem. Se o vetor de disparidade d2i (x2, y 2) for agora graduado por um fator k= [0 ... 1], qualquer posição intermédia entre (xi, yi) e (x2, Y2) pode ser abordada. Portanto, as visualizações intermédias podem ser geradas através da transferência do conteúdo da visualização 1 e/ou visualização 2 por vetores de disparidade graduados. Um exemplo é mostrado na Figura 3 para uma posição intermédia.

Portanto, as novas visualizações intermédias podem ser geradas com qualquer posição entre a visualização 1 e a visualização 2.

Além disso, também a extrapolação da visualização pode ser conseguida através de fatores de graduação <0 e > 1 para as disparidades.

Estes métodos de graduação também podem ser aplicados na direção temporal, de tal modo que novos quadros podem ser extraídos por graduação dos vetores de movimento, o que conduz à geração de sequências de vídeo com maior taxa de quadros.

Depois de se ter ilustrado a possibilidade de utilizar os vetores de disparidade tal como gerados e transmitidos por um codificador híbrido multi-visualização na síntese de visualização intermédia, ou pelo menos os seus princípios subjacentes, formas de realização de um esquema de codificação de vídeo híbrida que suporta a síntese de visualização intermédia, são descritas a seguir. Em particular, a Fig. 4 mostra um codificador de vídeo híbrido que é adequado para gerar um sinal de dados de multi-visualização com base no qual a Descodificação de vídeo híbrida é ativada, suportando a síntese de visualização intermédia, tal como descrito com respeito às seguintes Figs. 5 e 6. O codificador de vídeo híbrido de acordo com a Fig. 4 é geralmente indicado com o sinal de referência 30. O codificador de vídeo híbrido 30 da Fig. 4 é um codificador preditivo que suporta um ou mais modos de predição inter-visualização, e um ou mais modos de predição intra-visualização. Além disso, o codificador de vídeo híbrido 30 da Fig. 4 está configurado para selecionar e definir o modo de predição numa granularidade de sub-quadros, ou seja, em unidades de sub-regiões dos quadros das visualizações a serem codificadas.

Em particular, o codificador de vídeo híbrido da Fig. 4 compreende uma entrada 32 para um vídeo de primeira visualização 34, e uma entrada 34 para um vídeo de segunda visualização 36. 0 vídeo de primeira visualização 34 é considerado como sendo o resultado de uma captura de uma cena a partir de uma primeira direção de visualização, enquanto que se espera que o vídeo de segunda visualização 36 represente uma captura da mesma cena a partir de uma segunda visualização diferente da primeira visualização. As primeira e segunda visualizações diferem, por exemplo, na posição de visualização, ou seja, a posição de captura / câmara, e / ou o ângulo de visão, ou seja, a direção do eixo da visualização. As primeira e segunda visualizações podem diferir apenas na posição de visualização com a direção do eixo de visualização sendo a mesma. Em geral, as primeira e segunda visualizações podem ser posicionadas relativamente uma à outra de tal modo que as mesmas localizações de objeto da cena, posicionado a uma distância média dos objetos da cena capturada pelas primeira e segunda visualizações, são deslocadas dentro das imagens de ambas as visualizações por menos de 5 pixels, ou, de modo ainda mais preferido, em menos do que 2 pixels.

Além disso, o codificador de vídeo híbrido 30 da Fig. 4 compreende uma saída 38 para emitir o sinal de dados multi-visualização. No meio, o codificador de vídeo híbrido 30 compreende dois circuitos de estimativa de predição 40 e 42, respetivamente, o primeiro dos quais está conectado entre a primeira entrada 32 e a saída 38, e o segundo dos quais está conectado entre a segunda entrada 34 e a saída 38. Em particular, o primeiro circuito de estimativa de predição 40 compreende um subtrator 44 e uma etapa de quantificação / graduação / transformada 46 ligada, na ordem mencionada, entre a entrada 32 e uma primeira entrada de um gerador de sinais de dados 48, cuja saída está ligada à saída 38. Além disso, o primeiro circuito de predição 40 compreende um bloco de regraduação/transformada inversa 15, um filtro de desbloqueio 52, e um reconstrutor de predição 54, que estão ligados na ordem mencionada entre uma saída da etapa de quantificação / graduação/ transformada 46 e uma entrada inversora do subtrator 44. Da mesma forma, o segundo circuito da estimativa de predição é formado por ligação em série de um subtrator 56, uma etapa de quantificação / graduação / transformada 58, um bloco de regraduação /transformada inversa 60, um filtro de desbloqueio 62 e o reconstrutor preditivo 54. Para ser mais preciso, o construtor preditivo 54 está ligada em ambos os circuitos de estimativa de predição 40 e 42, respetivamente, e compreende um primeiro par de entrada e de saida ligado no primeiro circuito de estimativa de predição 40 e um segundo par de entrada e de saida ligado ao segundo circuito de estimativa de predição 42. Além disso, o subtrator 56 e a etapa de quantificação / graduação/ transformada estágio 58 estão ligados na ordem mencionada entre a entrada 34 de uma outra entrada do gerador de sinais de dados 48, enquanto que o bloco de regraduação/ transformada inversa 60 e do filtro de desbloqueio 62 estão ligados em série pela ordem mencionada entre a saida da etapa de quantificação / graduação/ transformada 58 e a entrada correspondente do reconstrutor preditivo 54. Finalmente, uma outra saida do reconstrutor preditivo 54 está ligada a outra entrada do gerador de sinais de dados 48. Finalmente, a saida do reconstrutor preditivo 54 ligada no primeiro circuito de estimativa de predição 40 está também ligada a uma segunda entrada de um adicionador 64 ligado, através da sua primeira entrada, entre o bloco de regraduação/ transformada inversa 50 e o filtro de desbloqueio 52, e de forma semelhante, a outra saida do reconstrutor preditivo 54 está também ligada a uma segunda entrada de um adicionador 66, através da sua primeira entrada, conectada entre o bloco de regraduação/transformada inversa 60 e o filtro de desbloqueio 62. Depois de se ter descrito a estrutura geral do codificador de vídeo híbrido 30 da Fig. 4, o seu modo de funcionamento será descrito a seguir.

Cada vídeo 34 e 36 consiste de uma sequência de quadros 68 e 70, respetivamente, com cada quadro 68 e 70 sendo um conjunto de amostras que representam um valor de cor da cena captada por ambos os vídeos 34 e 36. Cada quadro 68 e 7 0 é subdividido em sub-regiões 72, ou seja, grupos de amostras imediatamente adjacentes das molduras 68 e 70, respetivamente. A subdivisão dos quadros pode ser constante no tempo para cada vídeo 34 e 36, e podem espacialmente corresponder entre si quando em comparação com o vídeo 34 e 36. Por exemplo, a subdivisão espacial dos quadros em sub-regiões pode ser tal, que as sub-regiões a partir de um conjunto regular de blocos são dispostas em colunas e linhas, como mostrado exemplarmente em relação ao quadro 68. Alternativamente, a subdivisão espacial do quadro 68 e 70 em sub-regiões pode variar no tempo, tal como numa base quadro-a-quadro. O reconstrutor preditivo 54 pode ser responsável pela definição da subdivisão espacial com o objetivo de otimizar alguma medida de taxa/distorção, conforme descrito em mais detalhe abaixo. Para este fim, as sub-regiões 72 podem ser blocos folha de uma multi-árvore, tal como uma quad-árvore, subdivisão do quadro 68 e 70 como exemplarmente ilustrado com relação ao vídeo 36. Neste caso, o reconstrutor preditivo 54 pode sinalizar a subdivisão selecionada para o sinal de dados ao gerador de sinais de dados 48 para ser inserida no sinal de dados de multi-visualização 38. A subdivisão pode ser concebida de tal modo que um limite inferior da dimensão das sub-regiões é 4x4 nas posições de amostras de cores, ou tal que, uma média do conjunto de dimensões possíveis das sub-regiões entre as quais o reconstrutor preditivo pode escolher durante a subdivisão, é maior do que amostras de 4x4.

De um modo geral, a subdivisão espacial dos quadros 68 e 70 em sub-regiões constitui a granularidade na qual o reconstrutor preditivo 54 atribui diferentes modos de predição a diferentes regiões espaciais dos quadros 68 e 70. Como descrito acima, o reconstrutor preditivo 54 suporta, pelo menos, um ou mais modos de predição de inter-visualização, e um ou mais modos de predição intra-visualização. O modo de predição inter- visualização pode ser realizado como descrito acima em relação às Figs. 1 e 2 e um exemplo de um modo de predição intra-visualização é o modo de predição com compensação de movimento, também ilustrado acima em relação às Figs. 1 e 2. Outros exemplos de modos de predição intra-visualização abrangem um modo intra-predição segundo o qual valores de amostras já codificados e reconstruídos das sub-regiões vizinhas do quadro atual dentro do mesmo vídeo ou visualização são usados para prever - por inter- ou extrapolação, os valores de amostras de uma sub-região atual 72. Um outro modo de predição intra-visualização pode suprimir qualquer predição para que os valores de amostra dentro desta sub-região sejam codificados no sinal de dados multi-visualização de uma forma não previsível.

Dependendo do modo de predição, o reconstrutor de predição 54 atribui diferentes informações de predição a uma sub-região atual a ser codificada e sinaliza as mesmas para o gerador de sinais de dados 48 para serem introduzidas no sinal de dados multi-visualização na saída 38. Geralmente, esta informação de predição permite que o descodificador de vídeo híbrido recupere o mesmo resultado de predição que o reconstrutor de predição 54 a partir de quadros codificados/descodifiçados anteriores.

No subtrator 44, a predição da sub-região atualmente a ser codificada é subtraída dos valores de amostra da sub-região atualmente a ser codificada, após o que o erro de predição assim obtido é quantificado e codificado por transformada no bloco 46. Em particular, o bloco 46 pode aplicar uma decomposição espetral de transformada no erro de predição com uma quantificação subsequente dos coeficientes de transformada. Os dados residuais de predição assim obtidos são passados para o gerador de sinais de dados 48, para uma incorporação no sinal de dados de multi-visualização na saída 38, assim como o bloco 50 para reconstruir o erro de predição que entra no bloco 46 e se desviar do mesmo apenas devido à quantificação realizada no bloco 46. O bloco 50 aplica uma desquantificação seguida de uma transformada inversa nos níveis de coeficientes de transformada e emite o residual de predição reconstruído para a primeira entrada do somador 64, onde um somatório é realizado com uma predição anteriormente utilizada, a fim de obter o respetivo residual de predição. Assim, na saída do somador 64, uma reconstrução da sub-região atual é emitida e o filtro de desbloqueio 52, que é opcional, recebe a reconstrução desta sub-região, juntamente com a reconstrução das outras sub-regiões do quadro atual quadro para a emissão de uma reconstrução do quadro antigo, isto é, então, anteriormente codificado/descodifiçado, de modo a ser repassado para o reconstrutor preditivo 54. A descrição aqui apresentada relacionava-se com a codificação de sub-regiões de quadros da primeira visualização de vídeo 34, mas esta descrição pode ser facilmente transferível para a funcionalidade do circuito de estimativa de predição 42 no que se refere à codificação de sub-regiões de quadros 70 do vídeo da segunda visualização 36.

Como já foi mencionado acima, o reconstrutor preditivo 54 tem que realizar muitas decisões durante a codificação / compressão dos valores da amostra dos quadros 68 e 70 dos vídeos 34 e 36, em que as decisões são relativas, opcionalmente, a subdivisões espaciais dos quadros nas sub-regiões 72 e, para cada sub-região, a seleção de um modo de predição a ser utilizado para codificar a respetiva sub-região, juntamente com os respetivos pormenores de predição relativos ao modo de predição selecionado. Por exemplo, para uma sub-região com um modo de predição inter-visualização a ela associado, o reconstrutor preditivo 54 também determina o vetor de disparidade acima mencionado. Em particular, o reconstrutor preditivo 54 pode ser configurado para determinar exatamente um vetor de disparidade por sub-região, enquanto que a granularidade na qual o modo de predição é espacialmente variado ao longo dos quadros, pode ser mais grossa, tal como em unidades de grupos de uma ou mais sub-regiões adjacentes.

Com base no vetor de disparidade, a predição para a respetiva sub-região é determinada pelas posições de mapeamento das amostras da respetiva sub-região de acordo com o vetor de disparidade para obter posições amostradas mapeados, e adota a versão reconstruída do quadro temporal correspondente do outro dos vídeos 34 e 36 nas posições de amostra mapeada como a predição. 0 mapeamento pode ser um mapeamento linear, tal como, por exemplo, um deslocamento de translação por uma quantidade e direção determinadas pelo vetor de disparidade. A fim de otimizar as configurações de predição, o reconstrutor preditivo 54 pode experimentar diferentes vetores de disparidade dentro de uma determinada área de busca ao redor do vetor zero, e determinar o erro de predição resultante, bem como a taxa de bits resultante necessária para representar o erro de predição por coeficientes quantificados para estes vetores de disparidade diferentes. A área de busca, por exemplo, restringe os possíveis vetores de disparidade a uma determinada sub-região para um determinado comprimento máximo dos vetores de disparidade. A direção de possíveis vetores de disparidade está sujeita aos respetivos ensaios na determinação do vetor de disparidade ideal, no entanto, pode ser tanto livre ou restrita às direções horizontais tendo em mente que as disparidades entre as diferentes visualizações geralmente se estendem ao longo da direção horizontal ao invés de na vertical. A área de busca pode inclusivamente estender-se apenas numa direção horizontal em relação ao vetor zero explorando que essas disparidades normalmente apontam numa certa direção lateral do lado esquerdo e direito. 0 reconstrutor preditivo 54 pode ser configurado para determinar, para cada sub-região para a qual o modo de predição inter-visualização é escolhido, um vetor de disparidade. No entanto, reconstrutor preditivo 54 também pode analisar o resultado da busca acima mencionada dos outros ensaios de possíveis vetores de disparidade dentro da área de busca acima mencionada. Por exemplo, o reconstrutor preditivo 54 pode ser configurado para atribuir uma fiabilidade ao vetor de disparidade finalmente selecionado. Como já foi descrito acima, os vetores de disparidade selecionados não são necessariamente o que conduz a um menor erro de predição, embora seja muito provável que o erro de predição a partir do vetor resultante de disparidade selecionado é relativamente baixo. De acordo com uma forma de realização, o reconstrutor preditivo 54 determina a fiabilidade atribuída ao vetor de disparidade selecionado finalmente transmitida ao gerador de sinais de dados 48 em função do resultado dos ensaios dos possíveis vetores de disparidade dentro da área de busca acima mencionada de tal modo que a fiabilidade é determinada em dependência de uma função que: 1. aumenta monotonicamente aumenta com a diminuição de erros de predição, e/ou 2. aumenta monotonicamente com o valor decrescente de uma medida de dispersão da distribuição do erro de predição resultante nos vetores de disparidade ensaiados quando comparados com a distância do respetivo vetor de disparidade ensaiado a partir do vetor efetivamente escolhido.

Com efeito, a fiabilidade é uma medida que indica uma probabilidade de o vetor de disparidade inserido no sinal de dados multi-visualização, na verdade, coincidir com a verdadeira disparidade, ou quanto ao facto de o vetor de disparidade apenas corresponder em uma dada semelhança artificial às porções dos quadros com sincronização de tempo das diferentes visualizações. Deve notar-se que a medida de dispersão mantém a sua dependência do erro de predição, mesmo quando se utilizam os quadros reconstruídos, e, assim, deriváveis do fluxo de bits, como referência. 0 reconstrutor de predição 54 pode então ser configurado para passar este valor de confiança juntamente com o vetor de disparidade associado para o gerador de sinais de dados 48 para ser inserido no sinal de dados multi-visualização.

Em princípio, o reconstrutor de predição 54 pode atuar do mesmo modo como descrito acima com respeito ao modo de predição inter-visualização em relação às sub-regiões para as quais um modo de predição com compensação de movimento foi escolhido pelo reconstrutor previsto 54. Isto é, o reconstrutor preditivo 54 pode determinar um vetor de movimento para as sub-regiões, juntamente com, opcionalmente, uma fiabilidade associada, com a passagem dessa informação de predição para o gerador de sinais de dados 48 para introdução no sinal de dados multi-visualização .

Antes de descrever formas de realização de um descodificador de vídeo híbrido adequado para descodificar o sinal de dados multi-visualização emitido na saída 38, deve notar-se que várias características descritas acima em relação à Fig. 4 são opcionais. Por exemplo, o erro de predição nos subtratores 44 e 56 não precisa necessariamente de ser codificado por transformada. Além disso, no caso de uma codificação sem perdas, a quantificação nos blocos 46 e 58 pode ser deixada de lado. Além disso, o codificador de vídeo híbrido na Fig. 4 codifica preditivamente ambos os vídeos 34 e 36. No entanto, os blocos 56, 58, 60, 62, e 66 podem ser substituídos por um outro motor de codificação de forma a, de outro modo codificar um vídeo de segunda visualização 36. Como já foi mencionado acima, o filtro de desbloqueio 52 e 62 é opcional, ou pode ser substituído por um outro filtro, tal como um filtro de melhoramento adaptativo. Embora não explicitamente mencionado acima, o gerador de sinais de dados 48 pode ser configurado para codificar os dados recebidos a partir dos blocos 46, 54, e 58 no sinal de dados multi-visualização por codificação por entropia tal como uma codificação de Huffman ou codificação aritmética, a fim de comprimir ainda mais os dados. Por fim, note-se que mais de duas visualizações, ou mais de dois vídeos 34 e 36 podem estar presentes e ser codificados pelo codificador de vídeo híbrido da Fig. 4. A extensão da forma de realização da Fig. 4 em mais de dois vídeos que correspondem às diferentes visualizações de um mesmo cenário deve se tornar suficientemente clara a partir da descrição acima.

No que se segue, uma forma de realização de um descodificador de vídeo híbrido é descrita com referência à Fig. 5. 0 descodificador de vídeo híbrido da Fig. 5 suporta a síntese de visualização intermédia de um vídeo de visualização intermédia a partir do vídeo de primeira e segunda visualizações codificado de modo preditivo no sinal de dados multi-visualização na saída 38 do codificador de vídeo híbrido da Fig. 4. É brevemente lembrado que o codificador de vídeo híbrido ou, porque responsável por tal, o reconstrutor preditivo 54 não associa necessariamente cada sub-região ao modo de predição inter-visualização. Em vez disso, a associação é realizada com o objetivo de otimizar alguma medida de taxa/distorção e na medida em que, o modo de predição inter-visualização compete com predição de compensação de movimento e outros modos de predição intra-visualização, disponível como opção. No entanto, os inventores da presente invenção descobriram que a percentagem de sub-regiões - seja medidas em número ou em área de quadro - é suficiente, a fim de explorar os vetores de disparidade associados a essas sub-regiões para sintetizar um seu vídeo de visualização intermédia, ou seja um vídeo que mostre a mesma cena que os vídeos de primeira e a segunda visualização, mas a partir de outra visualização, a saber, uma visualização diferente dos vídeos de primeira e segunda visualizações, que pode ser posicionada localmente entre as primeira e segunda visualizações, mas pode ainda ser posicionada ainda mais longe de uma das primeira e segunda visualizações, do que da outra das duas. 0 descodificador de vídeo híbrido da Fig. 5 é geralmente indicado com o sinal de referência 80. Ele compreende uma etapa de extração 82, uma etapa de reconstrução de predição 84, e uma etapa de síntese 86. A etapa de extração 82 atua como um extrator configurado para extrair, a partir do sinal de dados multi-visualização aplicado a uma entrada 88 do descodificador de vídeo híbrido 80, para sub-regiões dos quadros, às quais o modo de predição inter-visualização está associado, um vetor de disparidade e um residual de predição. A etapa de reconstrução preditiva 84, por sua vez, é configurada para reconstruir as sub-regiões dos quadros às quais o modo de predição inter-visualização está associado, através da geração de uma predição a partir da versão reconstruída de uma porção de quadros do vídeo de visualização de referência utilizando os vetores de disparidade extraídos a partir do sinal de dados multi-visualização para as respetivas sub-regiões, e o residual de predição para as respetivas sub-regiões. Por fim, a etapa de síntese 86 atua como um sintetizador de visualização intermédia configurado para reconstruir primeiras porções do vídeo de visualização intermédia utilizando a versão reconstruída das porções dos quadros do vídeo de visualização de referência, e os vetores de disparidade extraídos a partir do sinal de dados multi-visualização. O vídeo de visualização intermédia assim obtido é emitido num saída 90 do descodificador de vídeo híbrido 80, isoladamente ou juntamente com os vídeos de primeira e segunda visualizações representados no sinal de dados multi-visualização que entra na entrada 88.

Para ser mais preciso, a etapa de extração 82 compreende um extrator de sinal de dados 92, um bloco de regraduação/transformação inversa 94 e um bloco de regraduação/transformação inversa 96. A etapa de reconstrução preditiva 84 compreende somadores 98 e 100, filtros de desbloqueio 102 e 104, e um reconstrutor preditivo 106. A etapa de síntese 86 compreende um construtor de visualização intermédia 108.

Com efeito, o descodificador de vídeo híbrido 80 compreende uma primeira parte responsável por reconstruir o vídeo de primeira visualização, envolvendo os blocos 92, 94, 98, 102 e 106, e uma segunda parte responsável pela reconstrução do vídeo de segunda visualização, envolvendo os blocos 92, 96, 100, 104, e 106. Ou seja, o extrator do sinal de dados 92 e o reconstrutor preditivo 106 participam na reconstrução de ambos os vídeos, os vídeos de primeira e de segunda visualizações. Com efeito, os componentes 94, 96, 98, 100, 102, 104, e 106 cooperam de uma forma, de modo a emular o modo de funcionamento dos componentes 50, 60, 64, 66, 52, 62 e 54 do codificador de vídeo híbrido da Fig. 4. Para ser mais preciso, o extrator de sinal de dados 92 é configurado para extrair o sinal de dados multi-visualização na entrada 88, os níveis de coeficiente de transformada quantificada das sub-regiões dos quadros dos vídeos de primeira e segunda visualizações e passar essa informação para os blocos de regraduação/transformação inversa 94 e 96, respetivamente, que por sua vez atuam para reconstruir o respetivo residual de predição das sub-regiões dos quadros do respetivo vídeo de primeira e segunda visualizações. Além disso, o extrator de sinal de dados 92 extrai a partir do sinal de dados multi-visualização na entrada 88 as informações de predição associadas a cada sub-região. Isto é, o extrator de sinal de dados 92 recupera a partir do sinal de dados de multi-visualização o modo de predição associado a cada sub-região. Para sub-regiões com um modo de predição inter-visualização a elas associado, o extrator de sinal de dados 92 extrai um respetivo vetor de disparidade e, opcionalmente, dados de confiança. Da mesma forma, o extrator de sinal de dados 92 extrai a partir do sinal de dados de multi-visualização um vetor de movimento e, opcionalmente, dados de confiança para cada sub-região com o modo de predição com compensação de movimento associado. Do mesmo modo, para as sub-regiões com um modo de intra-predição a elas associado, o extrator de sinal de dados 92 pode recuperar a informação intra-predição a partir do sinal de dados multi-visualização, tal como, por exemplo, uma direção de extensão do conteúdo de extremidade principal. Os extratores de sinal de dados 92 passam esta informação para o reconstrutor preditivo 106 e para o construtor de visualização intermédia 108.

Os componentes 94 a 106 acima mencionados são interligados um ao outro da maneira descrita acima com respeito aos elementos 46, 50 a 54, e 58 a 66 da Fig. 4. A funcionalidade desses elementos é basicamente a mesma. Ou seja, o reconstrutor preditivo 106 está configurado para gerar uma predição para as sub-regiões dos quadros de ambos os vídeos a partir de versões anteriormente descodificadas e reconstruídas de porções dos quadros do vídeo usando as informações de predição associadas às respetivas sub-regiões. Por exemplo, as sub-regiões do modo de predição inter-visualização são processadas através do mapeamento das posições de amostra das mesmas como prescrito pelos respetivos vetores de disparidade e amostragem, isto é, derivação dos valores de amostra, nas posições de amostra mapeadas - a partir do quadro do outro vídeo no mesmo momento de tempo nas posições de amostra assim obtidas através do mapeamento. A amostragem pode envolver uma interpolação nas posições subamostra, dependendo da resolução do vetor de disparidade. O mapeamento pode, conforme indicado acima, envolver ou ser um deslocamento de translação numa direção, e por uma quantidade, prescrito pelo vetor de disparidade. O mesmo se aplica a sub-regiões do modo de predição com compensação de movimento, exceto para o quadro de referência, em que a amostragem ou interpolação ocorre, sendo um quadro descodificado reconstruído anteriormente do mesmo vídeo de visualização. A predição assim obtida é adicionada à saída do residual de predição reconstruída pelos blocos 94 e 96, com o resultado de o somatório representar uma reconstrução da respetiva sub-região que pode, conforme indicado acima, ser opcionalmente reforçada pelo filtro de desbloqueio 102 e 104.

Até agora, a descrição tem-se centrado sobre o modo de funcionamento do descodificador de vídeo híbrido da Fig. 5, no que respeita à construção das visualizações principais com as quais os vídeos, que foram codificados no sinal de dados multi-visualização, realmente se relacionam. No entanto, como indicado acima, o descodificador de vídeo híbrido da Fig. 5 é particularmente adequado para a síntese de um vídeo de visualização intermédia a partir do vídeo de primeira e segunda visualizações explicitamente transmitido por meio do sinal de dados multi-visualização. Esta sintetização é realizada pelo construtor de visualização intermédia 108, que recebe na sua entrada os quadros reconstruídos de ambos os vídeos explicitamente transmitidos, bem como as informações de predição, de, pelo menos, um subconjunto apropriado das sub-regiões, isto é, pelo menos, a informação de predição das sub-regiões que têm o modo de predição de visualização a elas associado. Como será descrito em mais detalhe abaixo, o construtor de visualização intermédia 108 pode, no entanto, também explorar outras informações de predição de outros modos de predição e, opcionalmente, dados de confiança.

De um modo geral, o construtor de visualização intermédia 108 está configurado para reconstruir porções do vídeo de visualização intermédia usando a versão reconstruída de porções dos quadros de qualquer um dos vídeos de visualização primária explicitamente transmitidos dentro do sinal de dados multi-visualização, e os vetores de disparidade extraídos do sinal de dados multi-visualização. 0 leitor é lembrado sobre a declaração apresentada acima, segundo a qual, muito provavelmente, apenas um subconjunto apropriado das sub-regiões dos quadros do vídeo de primeira e segunda visualizações são do modo de predição inter-visualização. As outras sub-regiões não têm vetores de disparidade associados. No entanto, os inventores da presente invenção descobriram que, devido à semelhança entre os quadros de visualizações vizinhas, a percentagem de sub-regiões do modo de predição inter-visualização é suficiente, a fim de sintetizar um vídeo de visualização intermédia a partir dos vídeos de primeira e segunda visualizações, evitando assim a necessidade de fornecer o sinal de dados multi-visualização com dados proprietários de profundidade/disparidade por pixel.

Referindo-se à Figura 6, diferentes possibilidades estão descritas em como o construtor de visualização intermédia sintetiza os quadros do vídeo de visualização intermédia. A Fig. 6 mostra quatro quadros 120i a I2O4 do vídeo de primeira visualização imediatamente uns a seguir aos outros no tempo no lado esquerdo, quatro quadros consecutivos 1221 a 1224 do vídeo de segunda visualização dos mesmos momento no tempo que os quadros 120i a I2O4, no lado direito, e quatro quadros a serem sintetizados 124i-1244 no centro entre os quadros do primeira vídeo e os quadros do segundo vídeo também dos mesmos momentos no tempo.

Para efeitos de uma melhor compreensão, os quadros 120i a 12O4 e 122i a 1224 são, cada um, mostrados para serem subdivididos numa matriz regular de sub-regiões 3x3. A fim de manter o número de sinais de referência a um nível razoável, apenas uma sub-região é explicitamente indicada por vídeo, ou seja, a sub-região 130in, a sub-região 132232 e a sub-região 134433 . Entre os índices, o primeiro dígito denota o número do quadro, o segundo dígito indica o número da coluna da respetiva sub-região (da esquerda para a direita), e o terceiro digito indica o número de linha da respetiva sub-região (de cima para baixo), em que o último digito do número de referência em si mesmo, corresponde ao respetivo último digito dos sinais de referência que indicam os quadros dos respetivos vídeos, ou seja, "0" para o vídeo de primeira visualização, "2" para o vídeo de segunda visualização, e "4", para a o vídeo de visualização intermédia. A seguir, a Fig. 6 mostra vetores de movimento e de disparidade. Os vetores de movimento são mostrados como apontando a partir do meio da sub-região associada para um quadro do mesmo vídeo. Isto é, em geral, os vetores de movimento prolongam-se verticalmente. Os vetores de disparidade apontam a partir do meio de uma determinada sub-região para um quadro do outro dos vídeos de primeira e segunda visualizações. Isto é, os vetores de disparidade geralmente estendem-se na horizontal na Fig. 6. Deve notar-se que na Fig. 6, os vetores de movimento são exibidos como geralmente apontando para o quadro anterior imediato do mesmo vídeo. No entanto, como é evidente para um perito na arte, que não é necessário que o quadro de referência, para o qual os vetores de movimento apontam, seja restrito ao quadro imediatamente anterior. Em vez disso, o quadro de referência ao qual o vetor de movimento se refere, pode ser separado do quadro atual por outros quadros no tempo. Além disso, o quadro de referência pode ainda ser um quadro subsequente ao quadro atual no tempo de retrocesso, mas precedente em tempo de descodificação, tal como em quadros B. Além disso, a predição de várias hipóteses pode ser utilizada. Isto é, mais do que um vetor de movimento pode ser associado a uma sub-região, com a predição de movimento resultante a partir de previsões parciais individuais compensados por movimento, sendo, por exemplo, uma soma ponderada das previsões parciais. O mesmo se aplica aos vetores de disparidade. Por exemplo, os vetores de disparidade da Fig. 6 são mostrados como apontando a partir de sub-regiões do vídeo de segunda visualização para os quadros 120i a 12O4 do vídeo de primeira visualização apenas. Embora fosse possível restringir os modos de predição inter-visualização a uma determinada ou determinadas visualizações explicitamente transmitidas no âmbito do sinal de dados multi-visualização, também é possível que as sub-regiões do modo de predição inter-visualização estejam presentes em ambos os vídeos, o vídeo de primeira visualização e o vídeo de segunda visualização. Isto é ilustrado pela linha a tracejado que aponta a partir dos quadros 1202 a 1222. Além disso, como também foi indicado anteriormente, mais do que uma visualização principal explicitamente transmitida pode estar presente no sinal de dados multi-visualização, e, consequentemente, a predição de múltiplas hipóteses também pode ser utilizada com respeito a sub-regiões do modo de predição inter-visualização em que mais do que um vetor de disparidade está associado a uma certa sub-região com os quadros de referência destes vetores de disparidade sendo posicionados no mesmo momento de tempo, mas em diferentes vídeos de visualização principal. Por fim, note-se que por meio de múltiplas hipóteses, os modos de predição de movimento e os modos de predição inter-visualização poderiam ser misturados de modo a que pelo menos um vetor de disparidade e, pelo menos, um vetor de movimento estivessem associados a uma e à mesma sub-região. Neste caso, o respetivo modo associado a essa sub-região deve ser incluído no âmbito do termo "modo de predição inter-visualização" visto a sub-região ter um vetor de disparidade a ela associado.

Depois de ter descrito os elementos da Fig. 6, a funcionalidade do construtor de visualizações intermédias da Fig. 5 com respeito a várias formas de realização é descrita a seguir com referência à Fig. 6. Como já foi dito acima, a o construtor de visualização intermédia 108 utiliza os vetores de disparidade de sub-regiões do modo de predição inter-visualização, a fim de reconstruir primeiras porções do vídeo de visualização intermédia. Diferentes possibilidades estão disponíveis para o construtor de visualização intermédia, a fim de reconstruir essas primeiras porções que estão indicadas como áreas em branco nos quadros 124i a 1244 na Fig. 6. Por exemplo, o construtor de visualização intermédia 108 pode reconstruir as primeiras porções do vídeo de visualização intermédia de uma maneira muito semelhante ao processamento de sub-regiões do modo de predição inter-visualização pelo reconstrutor preditivo 106. Ou seja, o construtor de visualização intermédia 108 pode mapear as posições de amostra da sub-região de um modo de predição inter-visualização como prescrito pelo vetor de disparidade associado e determinar os valores de amostras nestas posições mapeadas dentro do quadro do mesmo momento no tempo da visualização vizinha. Em vez de usar o vetor de disparidade tal como está, no entanto, o construtor de visualização intermédia 108 gradua o vetor de acordo com a localização espacial do parâmetro de posição de visualização intermédia correspondente ao vídeo de visualização intermédia em relação à posição de visualização dos vídeos de primeira e de segunda visualização. Por exemplo, de acordo com a Fig. 6, a sub-região 132m, isto é, a sub-região superior esquerda do quadro 122i, é uma sub-região do modo de predição inter-visualização. Por conseguinte, o construtor de visualização intermédia 108 mapeia as posições de amostra da sub-região de acordo com um vetor de disparidade graduado, ou seja, o vetor de disparidade associado a essa sub-região graduada com um valor de graduação determinada da forma descrita, por exemplo, no que diz respeito à Fig. 3. Nas posições de amostra assim obtidas, o construtor de visualização intermédia 108 amostra a versão reconstruída do quadro 120i, a fim de conseguir uma reconstrução 136 de uma primeira porção do quadro 124i do vídeo de visualização intermédia.

Em alternativa e/ou adicionalmente, o construtor de visualização intermédia pode tentar aplicar o vetor de disparidade no sentido inverso. Ou seja, o construtor de visualização intermédia 108 pode mapear as posições de amostra da sub-região atual 132m numa direção prescrita pelo vetor de disparidade mas apontando na direção oposta e sendo graduada por 1-. Em seguida, o construtor de visualização intermédia 108 pode amostrar (ou interpolar) os valores de amostra reconstruídos do quadro atual, isto é, o quadro 122i, a fim de obter uma reconstrução da primeira porção 136 do vídeo de visualização intermédia. Neste último caso, o construtor de visualização intermédia 108 pode restringir a reconstrução para uma área onde as posições da amostra mapeadas e a sub-região atual 132m se sobrepõem. Como já foi notado acima, o construtor de visualização intermédia 108 pode combinar-se as duas possibilidades, a fim de aumentar a área da porção 136 obtida pela exploração do vetor de disparidade da sub-região atual 132m.

Ao tratar todas as sub-regiões do modo de predição inter-visualização como explicado, de forma representativa com relação à sub-região 132m, o construtor de visualização intermédia 108 obtém as áreas não sombreadas no quadro 124i a 1244 do vídeo de visualização intermédia. Obviamente, há porções restantes 138 ainda por preencher. A fim de preencher essas porções restantes 138, o construtor de visualização intermédio 108 pode ser configurado para terminar uma reconstrução do vídeo de visualização intermédia num modo grupo-de-imagens (GOP) , ao invés de num modo por quadro, em que o grupo pode ser qualquer grupo de imagens temporalmente consecutivas, independentemente de se os grupos são descodificáveis de modo independente uns dos outros, isto é, nenhuma imagem de um grupo é imagem de referência para uma sub-região de uma imagem/quadro de um outro grupo, embora este último caso possa ser vantajoso. Ou seja, o construtor de visualização intermédio 108 pode tamponar as primeiras porções 136 de um grupo de um certo número de quadros consecutivos do vídeo de visualização intermédia com, após ter reconstruído o número máximo de porções reconstituíveis por utilização de vetores de disparidade dentro do sinal de dados multi-visualização, usando essas primeiras porções 136 como pontos de suporte na extra- e/ou interpolação das porções restantes 138 do vídeo de visualização intermédia, a extra- e/ou interpolação sendo possível numa direção temporal e/ou espacial. No entanto, o construtor de visualização intermédia 108 pode, adicionalmente, antes de ou em vez da extra- e/ou interpolação, explorar mais informação transmitida dentro do sinal de dados multi-visualização, a fim de preencher outras porções da porção restante 138.

Por exemplo, o construtor de visualização intermédia pode ser configurado para identificar porções espaciais da cena em que os vetores de disparidade disponíveis podem ser interpolados temporal e/ou espacialmente - nomeadamente entre visualizações. Por exemplo, as sub-regiões 132222 e 132422 têm ambas vetores de disparidade que lhes estão associados. O construtor de visualização intermédio 108 pode decidir interpolar temporalmente entre os vetores de disparidade associados com estas sub-regiões, de modo a obter um vetor de disparidade interpolado temporalmente 140 para reconstruir a porção restante 142 de entre as porções restantes 138 do vídeo de visualização intermédia. O construtor de visualização intermédio 108 pode aplicar este vetor de disparidade interpolado temporalmente 140 da mesma maneira que as porções de quadros reconstruídos de 12O3 e 1223 dos vídeos de primeira e segunda visualizações como descrito acima em relação aos vetores de disparidade originais explicitamente transmitidos dentro do sinal de dados multi-visualização .

Do mesmo modo, o construtor de visualização intermédia 108 pode espacialmente interpolar entre os vetores de disparidade associados às sub-regiões 1322n e 13223i, a fim de se obter um vetor de disparidade interpolado espacialmente para a porção 144 entre as porções restantes 138 do vídeo de visualização intermédia e aplica este vetor de disparidade interpolado espacialmente da mesma maneira como descrito acima em relação aos outros vetores de disparidade.

Como já foi indicado anteriormente, o sinal de dados de multi-visualização pode conter dados de confiança para cada vetor de disparidade e/ou vetor de movimento, a fim de indicar ao descodificador de vídeo híbrido a probabilidade de o vetor de disparidade transmitido dentro do sinal de dados multi-visualização realmente corresponder à disparidade atual entre as visualizações, em vez de representar apenas uma semelhança acidental entre porções de visualizações vizinhas transmitidas dentro do sinal de dados multi-visualização. Neste sentido, o construtor de visualização intermédio 108 pode ser configurado para excluir vetores de disparidade extraídos a partir do sinal de dados multi-visualização para as sub-regiões a partir da reconstrução de porções do vídeo de visualização intermédia, para o qual os dados de confiança extraídos do sinal de dados multi-visualização não cumprem um requisito mínimo predeterminado, ou seja, a sua fiabilidade é muito baixa.

Os dados de confiança adicionais podem ser escondidos no sinal de dados multi-visualização dentro de porções do mesmo, que são ignoradas pelos descodificadores de vídeo híbridos que não são capazes de executar a síntese de visualização intermédia agora descrita. Por último, refira-se que, por exemplo, escondidos na porção agora mencionada do sinal de dados multi-visualização ficando transparentes para descodificadores de vídeo híbridos convencionais, os sinais residuais para um conjunto predeterminado de visualizações intermédias predeterminadas poderia ser contido. Neste caso, o construtor de visualização intermédia 108 poderia ser configurado para, ao sintetizar um vídeo de visualização intermédia a uma visualização intermédia predeterminada tal posicionada entre os vídeos de primeira e segunda visualizações, em primeiro lugar, realizar a reconstrução dos quadros do vídeo de visualização intermédia, tal como acabado de descrever acima, com, em seguida, aplicando o sinal residual tal como obtido a partir do sinal de dados multi-visualização através do extrator de sinal de dados 92, para os quadros reconstruídos do vídeo de visualização intermédia. Embora os dados a ser transferidos através do sinal de dados multi-visualização seriam aumentados, a qualidade da síntese de visualização intermédia também iria aumentar. Por outro lado, uma transmissão de dados adicionais de disparidade para essas visualizações intermédias predeterminadas seria evitada. Apenas o sinal residual para os quadros desses vídeos de visualização intermédia nas visualizações intermédias predeterminadas teria de ser transmitido dentro do sinal de dados multi-visualização, eventualmente, juntamente com os dados de fiabilidade acima mencionados.

Por último, é de referir que o construtor de visualização intermédia poderia ser adicionalmente configurado para criar quadros em momentos de tempo intermédios de uma maneira semelhante à descrita acima, com utilização dos vetores de movimento em vez dos vetores de disparidade, no entanto. Por exemplo, as posições de uma sub-região do modo de predição com compensação de movimento são mapeadas de acordo com um vetor de movimento graduado de acordo com a localização do quadro intermédio em relação aos quadros imediatamente vizinhos no tempo, a fim de obter uma porção destes quadros de tempo intermédios dos vídeos de primeira e segunda visualizações. Os quadros do vídeo de visualização intermédia nas posições de tempo intermédias poderiam ser obtidos por meio de, por exemplo, extra-/interpolação no tempo da direção de visualização, ou por determinação de vetores de movimento do vídeo de visualização intermédia por interpolação de inter-visualização dos vetores de movimento do vídeo de primeira e segunda visualizações, só para mencionar algumas possibilidades.

Por outras palavras, as formas de realização descritas acima em relação às Figs. 4 a 6 permitem a extração de nova visualizações usando vetores de disparidade graduados no processo de descodificação. Todas as visualizações necessárias, por exemplo, para um ecrã de N visualizações, podem ser extraídas em paralelo usando vetores de disparidade com graduações diferentes e informações possivelmente de confiança. A estrutura de um descodificador possível para o qual uma forma de realização foi mostrada na Fig. 5, pode ser descrita, por outras palavras, como se segue. Em particular, a mesma pode ser baseada em estruturas de descodificação de vídeo "clássicas", com a incorporação contudo de elementos de tecnologia adicionais. 0 descodificador pode receber um fluxo de bits comprimido que contém uma representação codificada de duas ou mais sequências de vídeo. Uma descodificação por entropia pode ser aplicada ao fluxo de bits para extrair os coeficientes de transformada quantificados, dados de movimento/disparidade, dados de confiança e outros dados de controlo. Na forma de realização da Fig. 5, esta descodificação por entropia pode ser realizada dentro do extrator de sinais de dados 92.

Os coeficientes de transformada quantificados, podem então ser graduados e uma transformada inversa pode ser aplicada para obter a diferença do sinal de residual de predição. Isto pode ser realizado dentro dos blocos acima mencionados 94 e 96. Para este residual de predição, os dados anteriormente descodificados de visualizações temporais ou vizinhas são adicionados. 0 tipo de informação a ser adicionada pode ser controlado por dados de controlo especiais: no caso de dados de vídeo intra-codifiçados, nenhuma informação anterior ou vizinha está disponível, de tal modo que a reconstrução intra-quadros é aplicada. Para os dados de vídeo inter-codifiçados, os dados previamente descodificados a partir de todas as visualizações temporariamente precedentes vizinhas estão disponíveis. Os dados anteriormente descodificados são deslocados pelos vetores de movimento associados e procedimento de compensação de movimento e adicionados aos diferentes sinais. Os dados anteriormente descodificados pertencem a uma visualização vizinha; os dados de movimento representam os dados de disparidade.

Por os efeitos da síntese de visualização intermédia, os mesmos dados de disparidade podem ser usados a fim de sintetizar uma, ou várias visualizações intermédias em paralelo. Por exemplo, os vetores de disparidade podem ser graduados por um ou mais fatores de graduação kn, n = 1. . . N. Com esta medida n, uma versão diferentemente graduada dos vetores de disparidade pode ser obtida e utilizada para deslocar os dados anteriormente descodificados de acordo com as respetivas porções de reconstrução 136 de uma ou mais visualizações intermédias.

No caso de os dados residuais serem transmitidos para as visualizações intermédias, as versões N-deslocadas podem ser adicionadas a estes dados diferentes adicionalmente transmitidos, para gerar um número de quadros reconstruídos adicionais de visualizações em paralelo. Como apenas alguns blocos de uma imagem podem ter sido previstos a partir de visualizações vizinhas e, assim, ter vetores de disparidade, enquanto a maioria pode ter sido prevista a partir de quadros anteriores, a reconstrução inicial pode ser bastante escassa. Além disso, os vetores de disparidade podem ser pouco fiáveis e diferentes dos valores reais, uma vez que os vetores de disparidade foram inicialmente estimados no codificador com base na minimização da taxa global. Portanto, os dados de confiança podem ser incorporados dentro do fluxo de bits ou no sinal de dados multi-visualização, respetivamente. Estes dados podem ser utilizados no melhoramento da visualização ou na etapa de dados de síntese para avaliar a fiabilidade dos vetores de disparidade disponíveis e, possivelmente, omitir ou refinar os dados menos confiáveis. Estes quadros iniciais ou visualizações podem ser ainda processados por filtros de desbloqueio ou, eventualmente, métodos de melhoramento tais como preenchimento de falhas, alisamento de extremidades, etc, para melhorar a qualidade visual. Isto pode ser realizado nos filtros de desbloqueio 102 e 104 acima mencionadas, por exemplo. Além disso, os dados escassos podem ser preenchidos, tal como descrito acima, tal como por dados temporariamente precedentes ou métodos avançados, tais como a estimativa da disparidade ou profundidade para se obterem os vetores de disparidade em falta e preencher visualizações intermédias inicialmente escassas. Uma vez que os blocos N ou visualizações estão disponíveis de uma só vez, estes métodos de melhoramento podem utilizar a informação disponível a partir de todas elas. Um exemplo é a síntese de visualização: se uma nova visualização tiver de ser sintetizada entre duasd visualizações originais 1 e 2, como mostrado na Fig. 3, os dados da visualização 1 podem ser deslocados para a nova posição, em primeiro lugar. A mudança de disparidade no entanto, é diferente para os objetos de primeiro plano e de fundo, uma vez que a mudança é inversamente proporcional à profundidade de cena original (distância frontal a partir da câmara). Portanto, novas áreas de fundo tornam-se visíveis na visualização sintetizada, as quais não eram visíveis na visualização 1. Aqui, a visualização 2 pode ser usada para preencher esta informação. Além disso, podem ser utilizados dados vizinhos espaciais, por exemplo, informação de base adjacente. Após esta etapa de melhoramento, os dados reconstruídos podem ser transferidos para uma memória intermédia de saída. Uma tal memória intermédia de saída pode ser posicionada na saída 90. Esta memória intermédia pode ordenar os dados descodificados e emitir as imagens descodificadas na ordem temporal correta com um número correto de visualizações sintetizadas para cada momento no tempo. Para este último caso, o número requerido visualizações pode ser sinalizado por meio de um controlo de extração de visualização intermédia. Além disso, os dados de partida também podem ser usado para o próximo ciclo de processamento para servir como uma entrada para a compensação de disparidade escalável. 0 descodificador de vídeo híbrido da Fig. 5 pode, assim, ser utilizado como um descodificador de N visualizações como mostrado na Fig. 7. Aqui, o fluxo de bits que contém duas visualizações vBS1 e vBS2, é para ser descodificado pelo descodificador de visualização N para uma exibição de 9 visualizações com as visualizações vo1, vD2, . . . , vD9, o descodificador de 9 visualizações sendo implementado como por exemplo descrito acima com respeito à Fig. 5. 0 ecrã indica o número de posições espaciais ou visualizações através do controlo de extração de visualização intermédia. Aqui, nove visualizações são necessárias com uma distância espacial de 0,25, quando medido em unidades da distância inter-visualização entre as visualizações vBSi e vBS2, de tal forma que visualizações de exibição vizinhas, como vD2 e vD3, estão 4x mais próximas em termos de posição espacial e perceção estereoscópica do que as visualizações no fluxo de bits. Portanto, o construtor de visualização intermédia pode utilizar um conjunto de fatores de extração de visualização {k2, k2, ..., k9} definido como {-0,5, - 0,25, 0, 0,25, 0,5, 0,75, 1, 1,25, 1,5}. A fim de graduar os vetores de disparidade e reconstruir os quadros de vídeos de visualização intermédia a partir daí. Como mostrado, as visualizações do fluxo de bits vBSi e vBS2 coincidem na sua posição espacial com as visualizações no ecrã VD3 e vD7 como k3 = 0 e k7 = 1. Além disso, os fatores vD3, vD4 e vD5 são interpolados entre des1 e vBS2. Finalmente, vD2 e vD2 bem como vD8 e vD9 são extrapolados em cada lado do par do fluxo de bits v^1, vbs2 . Com o conjunto de fatores de extração de visualização, os vetores de disparidade entre vbs1 e vBs2 são graduados de acordo para obter 9 versões diferentemente alteradas de dados anteriormente descodificados. Juntamente com os novos dados de diferença do bloco de graduação/transformação inversa no descodificador, 9 novas visualizações são fornecidas para o bloco de desbloqueio/pós-processamento. As últimas 9 visualizações são então fornecidas ao ecrã através da memória intermédia de imagem de saída.

Assim, as formas de realização acima descrevem um método para a extração de visualização de dados de vídeo de domínio comprimido, em que as visualizações extraídas podem ser diferentes das visualizações contidas na representação comprimida ou fluxo de bits, em termos de número e posição espacial da visualização. Em contraste com os métodos atuais do estado da técnica, nenhuma extração de geometria, como a estimativa de profundidade, foi exigida antecipadamente. Em vez disso, a informação contida na representação comprimida foi usada para extração de visualização, tal como os vetores de movimento e de disparidade. Além disso, o fluxo de bits também pode conter informações sobre a confiabilidade dos vetores de movimento/disparidade, a fim de avaliar a adequação desses vetores a uma correta síntese de visualização adicional. Estes vetores são incorporados no fluxo de bits comprimido em abordagens clássicas de codificação de vídeo, tais como a codificação de vídeo multi-visualização.

Assim, as formas de realização acima podem ser usadas para gerar diretamente diferentes visualizações na posição intermédia necessária de uma forma eficiente. Assim, diferentes ecrãs de multi-visualização podem usar a mesma representação comprimida e não é necessário qualquer processamento externo adicional.

Embora alguns aspetos tenham sido descritos no contexto de um aparelho, é claro que também estes aspetos representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa ou característica de uma etapa do método. Analogamente, os aspetos descritos no contexto de uma etapa do método também representam uma descrição de um bloco correspondente ou item ou característica de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou com) um aparelho de hardware, como por exemplo, um microprocessador, um computador programável ou um circuito eletrónico. Em algumas formas de realização, algumas ou mais das etapas mais importantes do método podem ser executadas por um tal aparelho. 0 sinal de vídeo codificado da invenção pode ser armazenado num meio de armazenamento digital, ou pode ser transmitido através de um meio de transmissão, tal como um meio de transmissão sem fios ou um meio de transmissão por fios, tais como a Internet.

De acordo com certos requisitos de implementação, as formas de realização da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo uma disquete, um DVD, um Blue-Ray, um CD, uma ROM, uma PROM, uma EPROM, uma EEPROM ou uma memória flash, com sinais de controlo legíveis eletronicamente armazenados nos mesmos, os quais cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo a que o respetivo método seja realizado. Portanto, o meio de armazenamento digital pode ser legível por computador.

Algumas formas de realização de acordo com a invenção compreendem um suporte de dados com sinais de controlo legíveis eletronicamente, os quais são capazes de cooperar com um sistema de computador programável, de tal modo que um dos métodos aqui descritos seja realizado.

Geralmente, as formas de realização da presente invenção podem ser implementadas como um produto de programa de computador com um código de programa, o código de programa sendo operacional para realizar um dos métodos em que o produto de programa de computador é executado num computador. 0 código de programa pode, por exemplo, ser armazenado num suporte legível em máquina.

Outras formas de realização compreendem o programa de computador para a execução de um dos métodos aqui descritos, armazenados num suporte legível em máquina.

Por outras palavras, uma forma de realização do método da invenção é, portanto, um programa de computador com um código de programa para realizar um dos métodos aqui descritos, quando o programa de computador é executado num computador.

Uma outra forma de realização dos métodos da invenção é, portanto, um suporte de dados (ou um meio de armazenamento digital, ou um meio legível por computador) que compreende, nele gravado, o programa de computador para a execução de um dos métodos aqui descritos. 0 suporte de dados, o meio de armazenamento digital ou o meio gravado são normalmente tangíveis e/ou não transitórios.

Uma outra forma de realização do método da invenção é, por conseguinte, um fluxo de dados ou uma sequência de sinais, que representam o programa de computador para a execução de um dos métodos aqui descritos. 0 fluxo de dados ou a sequência de sinais podem, por exemplo, ser configurados para serem transferidos através de uma ligação de comunicação de dados, por exemplo através da Internet.

Uma outra forma de realização compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para executar um dos métodos aqui descritos.

Uma outra forma de realização compreende um computador tendo nele instalado o programa de computador para a execução de um dos métodos aqui descritos.

Em algumas formas de realização, um dispositivo lógico programável (por exemplo, uma rede de portas programáveis) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos aqui descritos. Em algumas formas de realização, uma rede de portas programáveis pode cooperar com um microprocessador para executar um dos métodos aqui descritos. Geralmente, os métodos são de preferência realizados por qualquer aparelho de hardware.

As formas de realização acima descritas são meramente ilustrativas dos princípios da presente invenção. Entende-se que modificações e variações dos arranjos e detalhes aqui descritos serão evidentes para outros peritos na técnica. É intenção, portanto, estar limitado apenas pelo âmbito das reivindicações da patente iminentes e não pelos detalhes específicos apresentados a título de descrição e explicação das formas de realização aqui descritas.

Claims

REIVINDICAÇÕES 1. Descodificador de vídeo híbrido que suporta a síntese de visualização intermédia de vídeo de um vídeo de visualização intermédia a partir de um vídeo de primeira e segunda visualizações, que são codificados de modo preditivo num sinal de dados multi-visualização com quadros (122! - 1224) do vídeo de segunda visualização a ser subdividido espacialmente em sub-regiões (132232) e o sinal de dados de multi-visualização tendo um modo de predição a partir de um conjunto de possíveis modos de predição, associado a cada uma das sub-regiões, em que o conjunto de possíveis modos de predição compreende pelo menos um modo de predição inter-visualização e um modo de predição intra-visualização, o descodificador de vídeo híbrido compreendendo: um extrator (82) configurado para extrair respetivamente, a partir do sinal de dados multi-visualização, para as sub-regiões (132232) dos quadros do vídeo de segunda visualização às quais o modo de predição inter-visualização está associado, um vetor de disparidade e um residual de predição; um reconstrutor de predição (84) configurado para reconstruir as sub-regiões (132232) dos quadros do segunda vídeo de visualização às quais o modo de predição inter-visualização está associado, através da geração de uma predição a partir de uma versão reconstruída de uma porção de quadros (120i - 1204) do primeiro vídeo de visualização utilizando os vetores de disparidade extraídos dos sinais de dados multi-visualização para as respetivas sub-regiões, e o residual de predição para as respetivas sub-regiões; e um sintetizador de visualização intermédia (86) configurado para reconstruir primeiras porções (136) do vídeo de visualização intermédia utilizando a versão reconstruída das porções dos quadros (1204 - 1204) do primeiro vídeo de visualização, caracterizado por o sintetizador de visualização intermédia (86) ser configurado para reconstruir as primeiras porções (136) do vídeo de visualização intermédia utilizando os vetores de disparidade extraídos a partir do sinal multi-visualização, e configurado para reconstruir quartas porções (142) do vídeo de visualização intermédia para além das primeiras porções de por interpolação temporal e/ou espacial de vetores de disparidade extraídos do sinal de dados multi-visualização para as sub-regiões dos quadros do vídeo de segunda visualização com o qual o modo de predição inter-visualização está associado, para a obtenção de vetores de disparidade para sub-regiões às quais o modo de predição intra-visualização está associado.
2. Descodificador de vídeo híbrido de acordo com a reivindicação 1, em que o sintetizador de visualização intermédia (86) está configurado para utilizar a reconstrução das primeiras porções do vídeo de visualização intermédia como pontos de apoio na extra- e/ou interpolação de terceiras porções do vídeo de visualização intermédia.
3. Descodificador de vídeo híbrido de acordo com qualquer uma das reivindicações anteriores, em que o sintetizador de visualização intermédia (86) é configurado para terminar uma reconstrução do vídeo de visualização intermédia num modo grupo-de-imagens.
4. Descodificador de vídeo híbrido de acordo com qualquer uma das reivindicações anteriores, em que o reconstrutor preditivo (84) e o sintetizador de visualização intermédia (86) estão configurados para mapear de forma linear, em função dos vetores de disparidade, as posições da amostra de sub-regiões dos quadros (122i - 1224) do vídeo de segunda visualização às quais o modo de predição inter-visualização está associado no primeiro vídeo de visualização, e amostrar a versão reconstruída das porções dos quadros (120i - 120,}) do vídeo de primeira visualização nas posições de amostra assim obtidas para se obter a predição para as sub-regiões dos quadros (122i - 1224) do vídeo de segunda visualização às quais o modo de predição inter-visualização está associado, e a reconstrução das primeiras porções (136) do vídeo de visualização intermédia, respetivamente, com uma redução na quantidade do mapeamento linear do sintetizador de visualização intermédia (86) em relação ao reconstrutor preditivo (84), que depende de uma localização espacial de uma visualização intermédia correspondente ao vídeo de visualização intermédia, em relação a uma primeira visualização que corresponde ao vídeo de primeira visualização, e uma segunda visualização que corresponde ao vídeo de segunda visualização.
5. Descodificador de vídeo híbrido de acordo com qualquer uma das reivindicações anteriores, em que o reconstrutor preditivo (84) está configurado para mapear de forma linear, em função dos vetores de disparidade, as posições da amostra de sub-regiões dos quadros (122i - 12 2 4) do vídeo de segunda visualização às quais o modo de predição inter-vídeo está associado no primeiro vídeo de visualização, e amostrar a versão reconstruída das porções dos quadros (120i - 120,}) do vídeo de primeira visualização nas posições de amostra assim obtidas para se obter a predição para as sub-regiões dos quadros (122i - 1224) do vídeo de segunda visualização às quais o modo de predição inter-visualização está associado, e o sintetizador de visualização intermédia (86) está configurado para mapear de forma linear, em função do vetor de disparidade, as posições da amostra das sub-regiões dos quadros (122i - 12 2 4) do vídeo de segunda visualização às quais o modo de predição inter-visualização está associado, numa direção oposta aos vetores de disparidade, e amostrar a reconstrução das sub-regiões dos quadros (122i - 1224) do vídeo de segunda visualização nas posições de amostra assim obtidas, com uma redução na quantidade do mapeamento linear do sintetizador de visualização intermédia (86) em relação ao reconstrutor preditivo (84), que depende de uma localização espacial de uma visualização intermédia correspondente ao vídeo de visualização intermédia, em relação a uma primeira visualização que corresponde ao vídeo de primeira visualização, e uma segunda visualização que corresponde ao vídeo de segunda visualização, respetivamente.
6. Descodificador de vídeo híbrido de acordo com qualquer uma das reivindicações anteriores, em que o extrator (82) é configurado para extrair, a partir do sinal de dados multi-visualização, para as sub-regiões de quadros (12 21 - 1224) do vídeo de segunda visualização, igualmente dados de confiança, em que o sintetizador de visualização intermédia (86) é configurado para excluir os vetores de disparidade extraídos a partir do sinal de dados multi-visualização para sub-regiões de quadros (122i - 12 2 4) do vídeo de segunda visualização para o qual os dados de confiança extraídos do sinal de dados multi-visualização não cumprem um requisito mínimo predeterminado, de ser usado na reconstrução das primeiras porções do vídeo de visualização intermédia.
7. Método de descodificação de vídeo híbrida que suporta uma síntese de visualização intermédia de um vídeo de visualização intermédia a partir de um vídeo de primeira e de segunda visualização, que são codificados de modo preditivo num sinal de dados multi-visualização com quadros (122i - 12 2 4) do vídeo de segunda visualização sendo a ser subdividido espacialmente em sub-regiões (132232) e o sinal de dados de multi-visualização tendo um modo de predição a partir de um conjunto de possíveis modos de predição, associados com cada uma das sub-regiões, em que o conjunto de possíveis modos de predição compreende pelo menos um modo de predição inter-visualização e um modo de predição intra-visualização, o método de descodificação de vídeo híbrida compreendendo: respetivamente, extrair, a partir do sinal de dados multi- visualização, para as sub-regiões (132232) dos quadros do vídeo de segunda visualização às quais o modo de predição inter- visualização está associado, um vetor de disparidade e um residual de predição; reconstruir preditivamente as sub-regiões (132232) dos quadros do vídeo de segunda visualização às quais o modo de predição inter-visualização está associado, através da geração de uma predição a partir de uma versão reconstruída de uma porção de quadros (1201 - 1204) do vídeo de primeira visualização usando os vetores de disparidade extraídos dos sinais de dados multi-visualização para as respetivas sub-regiões, e o residual de predição para as respetivas sub-regiões; e reconstruir primeiras porções (136) do vídeo de visualização intermédia utilizando a versão reconstruída das porções dos quadros (1201 - 1204) do vídeo de primeira visualização, caracterizado por o passo de reconstrução das primeiras porções (136) do vídeo de visualização intermédia utilizar os vetores de disparidade extraídos a partir do sinal de dados multi-visualização e por o método compreender ainda a reconstrução de quartas porções (142) do vídeo de visualização intermédia para além das primeiras porções por interpolação temporal e/ou espacial de vetores de disparidade extraídos do sinal de dados multi-visualização para as sub-regiões dos quadros do vídeo de segunda visualização às quais o modo de predição inter-visualização está associado, para se obterem vetores de disparidade para as sub-regiões às quais o modo de predição intra-visualização está associado.
8. Programa de computador com um código de programa para executar, quando reproduzido num computador, um método de acordo com a reivindicação 7.