KR20230145920A

KR20230145920A - 듀얼 이미지 모델을 사용하는 이미지 코딩을 위한 시스템 및 방법

Info

Publication number: KR20230145920A
Application number: KR1020230043979A
Authority: KR
Inventors: 케시캉가스 악셀; 에드팜 빅토르
Original assignee: 엑시스 에이비
Priority date: 2022-04-11
Filing date: 2023-04-04
Publication date: 2023-10-18
Also published as: TW202344056A; JP2023155898A; EP4262209A1; CN116896637A; US20230328260A1

Abstract

본 개시내용의 이미지를 인코딩하는 방법은, 하나 이상의 미리 정의된 객체 유형을 구성하거나, 하나 이상의 미리 정의된 이벤트 유형을 수행하는 객체가 이미지에서 가시적인지 여부를 확립하는 단계; 객체가 가시적이라는 것을 확립하는 단계에 응답하여, 비생성 이미지 모델(non-generative image model)을 사용하여 이미지의 적어도 하나의 관심 영역(region-of-interest)을 인코딩함으로써, 제1 이미지 데이터를 획득하는 단계; 및 생성 이미지 모델(generative image model)을 사용하여 이미지의 임의의 나머지(remainder)를 인코딩함으로써, 제2 이미지 데이터를 획득하는 단계를 포함하되, 비생성 이미지 모델의 사용은 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하지 않으면서 제1 이미지 데이터의 디코딩을 가능하게 하거나, 또는 이미지가 비디오 시퀀스(video sequence)의 프레임인 경우, 비디오 시퀀스의 외부의 이미지로부터 도출된 정보에 의존하지 않으면서 제1 이미지 데이터의 디코딩을 가능하게 한다.

Description

듀얼 이미지 모델을 사용하는 이미지 코딩을 위한 시스템 및 방법{SYSTEM AND METHOD FOR IMAGE CODING USING DUAL IMAGE MODELS}

본 개시내용은, 비디오 코딩을 포함하여, 이미지 코딩의 분야에 관한 것이다. 이것은, 서로 다른 이미지 영역들이 이미지에서 인식되는 객체 또는 이벤트(event)에 따라 서로 다른 이미지 모델들을 사용하여 코딩되는 인코딩 방법을 제안한다.

학습된 신경망(trained neural network)이 중요한 인코딩 및 디코딩 단계를 수행하는 인공 지능(artificial intelligence, AI) 기반 이미지 코덱(codec)은, 믿기 어려운 낮은 비트 전송 속도에서 고품질 비디오를 약속하는 많은 응용 분야에서 발전되고 있다. 이 기술을 사용하면, 넓은 의미에서, 원본 이미지의 평문 표현(plaintext representation)이, 이미지의 가장 중요한 시각적 특징부들의 리스트로서 생각될 수 있는 이진 파일인 피쳐 벡터(feature vector)를 출력하는 인코더 네트워크에 주어진다. 수신자 측에서 이미지를 복원하기 위해, 피쳐 벡터는, 원본 이미지와 실현 가능한 최대로 유사할 복원된 이미지를 생성하도록 학습된 디코더 네트워크에 공급된다. 일반적인 실시는, 인코더 네트워크와 디코더 네트워크를 함께(in tandem), 그리고, 의도된 사용 사례에서 직면될 것으로 예상되는 이미지를 나타내는 학습 데이터를 기반으로 학습시키는 것이다. 두 개의 신경망이 체계적으로, 그리고 적절한 데이터에 대해 학습된 경우, AI 기반 이미지 코덱이 원본 이미지와 우수한 유사성을 달성할 수 있다는 것이 반복적으로 입증되었다.

피쳐 벡터가 기존 이미지 코딩에서와같이 투명하게 원본 이미지의 픽셀로 다시 추적될 수 없기 때문에, AI-인코딩된 이미지가 증거 가치(evidentiary value)가 낮다는 점이 때때로 지적된다. 특정 AI 기반 코덱이 사람 관찰자에 가시적인 결함 없이 이미지를 성공적으로 복원했다는 방대한 증거에도 불구하고, 회의론자들은, 복원된 이미지의 고품질이 학습 데이터의 요소로 또는 확률 분포에서 샘플링된 무작위 정보로 오염될 수 있으므로 기만적이라고 주장한다. 이러한 특성에 대한 우려는, 보다 안정적인 것으로 인식되는 손실이 많은 기존 이미지 코덱에 대해서 거의 표명되지 않는다. 여기에서, 이미지를 압축하는 데 필요한 인코딩 측 상에서 정보를 의도적으로 폐기하는 것이 재구성된 이미지의 상응하는 시각적 저하를 생성하거나 아티팩트(artefact)를 도입할 것이지만, 이러한 결함은 결함으로서 정확하게 인식될 수 있고, 따라서 관찰자를 오도(mislead)할 가능성이 작다. AI 기반 이미지 코덱에 대한 회의론이 커뮤니티에 널리 받아들여지는 경우, 감시 및 모니터링 비디오 시스템과 같은 법 집행 목적을 위한 이미지의 수집에서 이러한 코덱의 유용성을 제한할 수 있다.

높은 압축률 등 AI 기반 이미지 코덱의 장점을 살리면서, 반론의 여지가 없는 증거 가치의 이미지 데이터를 확보하는 것이 바람직할 것이다.

본 개시내용의 목적 중 하나는, 서로 다른 이미지 영역들을 구별하고, 서로 다른 이미지 모델들을 사용하여 이 영역들을 인코딩하는 이미지 인코딩 방법을 사용 가능하게 하는 것이며, 이 이미지 모델들로부터의 하나의 이미지 모델은 인코딩 및 디코딩의 검증 가능한 체인(verifiable chain)을 가능하게 한다. 특히, 이 하나의 이미지 모델은, 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하지 않으면서(또는, 이미지가 비디오 시퀀스의 프레임인 경우, 비디오 시퀀스의 외부로부터의 정보에 의존하지 않으면서) 디코딩을 가능하게 할 수 있다. 대안적으로, 상기 하나의 이미지 모델은 인코딩된 이미지 이외의(또는 자체 비디오 시퀀스의 외부의) 이미지로부터 도출된 정보를 삽입하지 않으면서 디코딩을 가능하게 해야 한다. 대안적으로, 상기 하나의 이미지 모델은 인코딩된 이미지 이외의(또는 자체 비디오 시퀀스의 외부의) 이미지로부터 도출된 정보에 의존하는 함수에 의해서, 코딩된 이미지 데이터를 프로세싱하지 않으면서 디코딩을 가능하게 해야 한다. 대안적으로, 상기 하나의 모델은 비확률적(non-stochastic) 디코딩을 가능하게 할 수 있다. 증가된 법의학적(forensic) 관련성을 가진 객체가 가시적일 수 있는 이미지 영역의 코딩을 위해 상기 하나의 이미지 모델을 사용하는 것이 다른 목적이다. 다른 목적은 적합한 하드웨어뿐만 아니라 찾고자 하는 이미지 인코딩 방법과 함께 사용되기 위한 이미지 디코딩 방법을 사용 가능하게 만드는 것이다.

이러한 목적들 중 적어도 일부는 독립 청구항에 의해 정의된 본 발명에 의해서 달성된다. 종속 청구항은 본 발명의 유리한 실시형태에 관한 것이다.

본 발명의 제1 양태에서, 이미지를 인코딩하는 방법이 제공된다. 방법은 하나 이상의 미리 정의된 객체 유형을 구성하거나, 하나 이상의 미리 정의된 이벤트 유형을 수행하는 객체가 상기 이미지에서 가시적인지 여부를 확립하는 단계를 포함하며, 이러한 객체가 가시적이라는 것이 확립되는 경우에, 비생성 이미지 모델(non-generative image model)을 사용하여 상기 이미지의 적어도 하나의 관심 영역(region-of-interest, ROI)을 인코딩하고, 상기 ROI를 나타내는 제1 이미지 데이터가 획득된다. 다음으로, 이미지의 나머지(즉, ROI의 보충물)는 생성 이미지 모델을 사용하여 인코딩되고, 이 나머지를 나타내는 제2 이미지 데이터가 획득된다. 비생성 이미지 모델의 사용은, 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하지 않으면서, 제1 이미지 데이터의 디코딩을 가능하게 한다. 대안적으로, 이미지가 비디오 시퀀스의 프레임인 경우, 비생성 이미지 모델의 사용은, 비디오 시퀀스의 외부의 이미지로부터 도출된 정보에 의존하지 않으면서, 제1 이미지 데이터의 디코딩을 가능하게 한다.

본 개시내용에서, "이미지 모델"은 인코더의 기능적 정의(예컨대, 기능적 사양, 수도 코드(pseudocode), 수학식) 및 디코더의 기능적 정의를 포함하며, 이들은 이미지를 일반적인 이미지 데이터 형식으로 또는 이로부터 변환하도록 배열된다. 이미지 데이터는 디지털일 수 있고, 이것은 픽셀 값, 변환 계수, 피쳐 벡터, 또는 유사한 정보 유형과 관련될 수 있다. 적어도 하나의 생성 구성요소(예컨대, 생성 디코더)를 포함하는 이미지 모델은 생성 이미지 모델이라고 지칭될 것이고, 그렇지 않으면 비생성적인 것으로 분류된다. 인코더는 완전한 이미지 모델로 구성되지 않으면서 특정 이미지 모델을 사용할 수 있으며, 예를 들어, 구현자는, 디코더가 필요하지 않기 때문에, 특정 이미지 모델과 일치하는 인코더를 인코딩 디바이스에만 갖추는 것을 선택할 수 있다.

생성 이미지 모델의 예는 다음 중 하나 이상을 포함하는 것이다: 머신-러닝 기반(또는 AI 기반) 인코더, 인공 신경망 인코더, 오토인코더, 가변 오토인코더, 생성적 대립 신경망(Generative Adversarial Network, GAN) 인코더, 콘볼루션 신경망(Convolutional Neural Network, CNN) 인코더, 순환 신경망(Recurrent Neural Network, RNN) 인코더, 자기 회귀(autoregressive) 모델, 흐름 모델. 비생성 이미지 모델의 예는 다음 중 하나 이상에 따른 인코딩을 포함하는 것이다: 변환 코딩, 예측 코딩(예컨대, 인터프레임 시간-예측 코딩)과 변환 코딩의 조합(소위 하이브리드 코딩), ITU H.26x, 특히 H.264, H.265 및 H.266, AOMedia 비디오 1(AV1), JPEG2000과 같은 JPEG의 버전. 적어도 H.26x 및 AV1은 하이브리드 코딩을 사용하는 이미지 모델로서 설명될 수 있다.

비생성 이미지 모델에 따른 코덱의 구현예에서도, 함수 근사자(function approximator)(또는 예측자, 또는 회귀자)로서 신경망이 광범위하게 사용될 수 있다. 예를 들어, 이러한 함수 근사자의 사용이 종래의 엔트로피 코딩 및 인트라-프레임 예측 코딩을 구현하도록 CN110493596 및 US20060251330에 개시된다. 그러나 이러한 구현예에서, 함수 근사자는, 더 높은 컴퓨팅 비용에도 불구하고, 기존 프로세싱 회로에 등가적으로 위임될 수 있는, 그리고/또는 비생성 인코딩 또는 디코딩 알고리즘에서 분리된 단계를 구성하는 컴퓨팅 작업을 수행한다. 함수 근사자는 일반적으로 피쳐 벡터 또는 기타 잠재 공간(latent-space) 표현의 형태의 입력 또는 출력을 위해 구성되지 않는다. 더 나아가, 함수 근사자로서 사용될 신경망은 일반적으로 이미지로부터 도출된 정보에 대해 학습되지 않고, 함수 값에 대해 학습된다. 따라서, 본 개시내용의 목적을 위해, 비생성 이미지 모델이 함수 근사자로서 작용하는 하나 이상의 신경망에 의해 구현되거나 구현될 수 있다는 사실은 이미지 모델의 카테고리를 비생성으로 변경하지 않는다.

또한, 미리 정의된 객체 유형을 구성하거나 미리 정의된 이벤트 유형을 수행하는 "객체"는 물질적 객체, 사람, 동물, 비물질적 객체(예컨대, 광학 현상) 또는 미리 정의된 이벤트(예를 들어, 움직이는 객체의 유형과 무관한 미리 정의된 움직임 패턴)를 실현하는 객체를 지칭할 수 있다는 것이 이해된다.

제1 양태에 따른 방법은, 객체가 검출된 ROI를 인코딩하기 위해 비생성 이미지 모델을 사용하기 때문에, 결과적인 제1 이미지 데이터는 외부로부터 오는 이미지 데이터로 오염될 위험 없이 디코딩될 것이다. 외부로부터 오는 이미지 데이터는 인코딩된 이미지 이외의 이미지, 또는, 이미지가 비디오 시퀀스의 프레임인 경우, 비디오 시퀀스의 외부의 이미지를 가리킨다. 원치 않는 오염은 학습의 간접적인 영향일 수 있다. 예를 들어, 만약 디코더 네트워크가 학습 데이터로부터 그래픽 정보를 흡수하고, 사용자는 이 정보가 경감(moderation) 없이 복원된 이미지로 바뀌는 것을 디코더 네트워크가 허용한다고 믿는 경우, 디코더 네트워크는 법 집행 목적을 위한 증거를 제공하는 데 부적합한 것으로 인식될 수 있다. 대조적으로, 제1 양태에 따른 인코딩 방법은 인코딩 및 디코딩의 검증 가능한 체인의 맥락에서 ROI를 핸들링한다. 이미지의 나머지는 생성 이미지 모델을 사용하여 인코딩되기 때문에 - 어떤 객체도 가시적이지 않은 경우, 나머지는 전체 이미지임 -, 이미지는, 저장 및 전송 용량을 절약하는 유리한 전체 압축 비율로 인코딩될 수 있다.

일부 실시형태에서, 비생성 이미지 모델의 사용은 외부로부터 오는 이미지 데이터로부터 도출된 정보를 삽입하지 않으면서, 제1 이미지 데이터의 디코딩을 가능하게 한다. 대조적으로, 생성 이미지 모델이 사용되는 경우, 디코딩 프로세스는 과거 그래픽 데이터에서 구축된 코드북(codebook)을 사용할 수 있으며, 개념적으로, 코딩된 이미지 데이터는 코드북의 요소를 복원된 이미지 안으로 결합하는 명령어의 역할을 한다.

일부 실시형태에서, 비생성 이미지 모델의 사용은 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하는 함수에 의해서 제1 이미지 데이터를 프로세싱하지 않으면서 제1 이미지 데이터의 디코딩을 가능하게 한다. 대조적으로, 생성 이미지 모델이 사용되는 경우, 디코딩 프로세스는, 과거 이미지 데이터, 예를 들어, 원시(raw) 이미지, 또는 신경망을 학습시키기 위한 목적을 위해 미리 프로세스된 이미지를 사용하여 학습된 디코딩 신경망(추상적으로 함수를 구성하는 것으로 이해될 수 있음)을 활용할 수 있다. 오프라인 종속성으로서 자격이 부여될 수 있는 이러한 유형의 종속성 외에도, 다른 생성 이미지 모델은, 디코딩 네트워크의 상업적 작동이 시작된 후에도 더 새로운 이미지 데이터(재학습)에 기초하여 계속적인 업데이트 또는 개선을 거치는 디코딩 네트워크를 활용할 수 있다.

일부 실시형태에서, 비생성 이미지 모델은 비확률 디코딩을 가능하게 한다. 이것에 대조적으로, 일부 사용 가능한 생성 이미지 모델의 디코더는 확률 분포로부터의 확률 샘플링에 의해 재구성된 이미지를 생성한다. 예를 들어, Glow^TM 모델(https://openai.com/blog/glow/)은 이러한 특성을 가진 이미지 모델을 정의하기 위해서 사용될 수 있다. 심지어 확률 분포 자체도 인코딩될 이미지 이외의 정보에 기초하여 정의되었을 수 있고, 이러한 정보의 간접적인 영향은 디코딩 프로세스에서 추가적인 레벨의 불확실성을 도입하는 것으로 간주될 수 있다. 이러한 실시형태에서, 비확률적 디코더 덕분에 비생성적인 이미지 모델이 사용되기 때문에, 복원된 이미지가 무작위성(randomness) 및/또는 학습 데이터로 오염되게 할 위험이 감소되거나 제거된다.

일부 실시형태에서, 생성 이미지 모델은 학습 가능한 가중치를 가진 인공 신경망을 포함하며, 학습 가능한 가중치의 스냅샷은, 미리 정의된 객체 유형 중 하나 이상을 구성하거나 미리 정의된 이벤트 유형 중 하나 이상을 수행하는 객체가 이미지 내에서 가시적이라는 것이 확립된 때, 저장된다. 신경망 가중치의 스냅샷에 액세스하면, 검증 목적을 위해 원하는 만큼 자주 인코딩 작업을 반복할 수 있다. ROI가 비생성 이미지 모델을 사용하여 인코딩되고 나머지가 반복 가능한 인코딩 프로세스에 의해 인코딩되는 이러한 실시형태는, 따라서 인코딩된 이미지의 완전한 검증을 가능하게 한다. 이미지가 더 큰 자료의 일부인 경우(예컨대, 이것이 비디오 시퀀스의 프레임임), 상기 객체가 가시적인 모든 새로운 이미지에 대해 스냅샷을 저장하는 것은 필수가 아니고, 오히려, 하나의 스냅샷이 이미 저장되어 있고 그 이후로 신경망 가중치가 업데이트되지 않은 것이 확실한 경우, 저장이 생략될 수 있다. 이러한 조건은, 벤더(vendor)가 주기적으로 또는 이벤트 트리거 기반으로 업그레이드를 배포하는 상용 소프트웨어 제품에 의해 인코딩이 수행되는 경우, 충족될 수 있다. 방법의 추가 전개에서, 학습 가능한 가중치들의 스냅샷, 제1 이미지 데이터, 및 제2 이미지 데이터를 포함하는 데이터세트에 대한 디지털 서명을 생성하는 추가 단계를 추가함으로써 추가적인 데이터 무결성이 보장된다.

일부 실시형태에서, ROI는 이미지의 적절한 하위 세트(subset)이고, 나머지는 비어 있지 않다. 다른 실시형태에서, ROI는 전체 이미지이고, 나머지는 비어 있다. 다시 말해서, 미리 정의된 객체 유형들 중 하나 이상을 구성하거나 미리 정의된 이벤트 유형들 중 하나 이상을 수행하는 객체가 이미지 내의 어딘가에서 가시적이 되는 즉시, 비생성 이미지 모델을 사용하여 전체 이미지를 인코딩하기로 결정되고, 그렇지 않으면 생성 이미지 모델이 전체에 걸쳐 사용된다.

다양한 실시형태에서, 미리 정의된 객체 유형들 중 하나 이상을 구성하거나 미리 정의된 이벤트 유형들 중 하나 이상을 수행하는 적어도 하나의 객체가 가시적인지 여부를 확립하기 위한 다양한 방식이 있다. 이 목적을 위해, 시각적 객체 인식 또는 이벤트 인식 프로세스가 실행될 수 있고, 특히 자동화된 또는 컴퓨터 구현된 프로세스가 사용될 수 있다. 인식 프로세스는 인코딩될 이미지에 기초 되는 의미에서 시각적이다. 대안적으로 또는 추가적으로, 미리 정의된 객체 유형들 중 하나 이상을 구성하거나 미리 정의된 이벤트 유형들 중 하나 이상을 수행하는 객체의 존재는 이미지의 장면을 모니터링하도록 구성된 검출기로부터의 데이터에 기초하여 확립될 수 있으며, 이 장면은 이미지 또는 장면의 근접부를 기록하는 카메라의 시야에 대응될 수 있다. 검출기는, 관련 객체의 검출을 용이하게 하는 장면의 대체 표현을 캡처하는(예컨대, 적외선으로) 것을 포함하여, 음향, 진동, 화학적, 기계적, 또는 전자기 여기를 캡처하도록 구성될 수 있다. 작업자 입력은 이미지 내에서 관련 객체가 가시적인지 여부를 확립하는 추가 방법을 구성하며, 이 입력은, 조작자가 객체가 가시적이라는 것을 주목했다는 것 또는 조작자가 객체를 보는 표시된 이미지 영역을 나타내는 불린(Boolean) 신호일 수 있다.

방금 논의된 실시형태 내에서, 객체 가시성 확립 단계가 인식된 객체의 위치를 산출할 때(예컨대, 객체 검출 또는 이벤트 검출 프로세스가 사용될 때), 이 위치에 기반하여 ROI가 정의되는 것이 구상된다 객체의 위치가 이미지 좌표로 표현되거나, 이미지 좌표로 변환될 수 있다는 것이 이해된다. ROI는 0이 아닌 마진(δ)으로 정의될 수 있으며, ROI가 인식된 객체 외부에서 최소 δ 유닛만큼 확장될 수 있다는 것을 의미한다. 마진(δ)은 등방성으로 또는 일부 방향, 예를 들어, 순간적인 움직임 방향으로만 적용될 수 있다. 인식된 객체의 한계는 바운딩 박스 또는 대략적인 윤곽(마스크)일 수 있다. 마진(δ)의 사이즈는, 인코더에 의해서 사용될 최대 모션 벡터 사이즈, 또는 인식된 객체의 위치 및/또는 바운딩 박스의 정확도를 고려함으로써 결정될 수 있다. 비생성 이미지 모델을 사용하여 인코딩될 ROI가 0이 아닌 마진(δ)만큼 확장되는 경우, ROI의 콘텐츠가 더 큰 정도로 예측적으로 인코딩될(또한 아래 참조) 수 있는 확률이 증가된다. 이는 코딩 비트 전송 속도를 제어하는 것을 돕는다. 특히, 모션 비디오 코딩 기술에 의존하는 것이 가능해질 수 있다. 반대로, 단지 인식된 객체만을 ROI가 커버하는 실시형태에서, 비생성 이미지 모델이 사용될 것이어서, I-블록/P-블록 비율(또는 I-프레임/P-프레임 비율)이 다소 높아질 수 있는 동안, 시각적 객체가 ROI 안팎으로 움직일 수 있는 가능성이 있다.

일부 실시형태에서, 객체 또는 이벤트 인식 프로세스는 미리 정의된 이미지 영역에 제한될 수 있으며, 이에 따라 이 영역 외부의 객체는 생성 이미지 모델과 비생성 이미지 모델 사이의 선택에 영향을 미치지 않는다. 일부 실시형태에서, 객체 또는 이벤트 인식 프로세스는 증가된 법의학적 관련성을 갖는 객체를 인식하도록 구성된다.

일부 실시형태에서, 제1 이미지 데이터 및/또는 제2 이미지 데이터는 ROI의 위치를 나타낸다. 이 표시는 디코딩 측에서, 보다 정확하게는, 생성 이미지 모델을 사용하여 복원된 해당 이미지 영역과 비생성 이미지 모델을 사용하여 복원된 해당 이미지 영역을 결합하는 단계에서 의존될 수 있다. 위치는 암시적으로 또는 명시적으로 표시될 수 있다.

일부 실시형태에서, 생성 이미지 모델을 사용하여 인코딩되는 것은 나머지(즉, ROI의 보충물)일 뿐만 아니라, ROI의 일 부분이 생성 이미지 모델을 사용하여 인코딩된다. 이 부분의 인코딩으로부터 귀결되는 데이터는 제3 이미지 데이터로서 지칭될 수 있다. 상기 일 부분은 ROI의 경계 구역일 수 있으며, 이에 의해서 ROI와 나머지 사이의 연속성이 검증될 수 있다. 특히, 생성 이미지 모델을 사용하여 전체 이미지를 인코딩하는 것은, 비생성 이미지 모델을 사용하여 ROI를 인코딩하는 것에 병행하여 계속될 수 있다. 이러한 방식으로, ROI의 두 개의 코딩된 사본이 사용 가능하며, 이는 생성 코딩 모델의 신뢰성을 확인하는 것으로서 사용될 수 있다. 또한, 특히 비디오 시퀀스의 코딩에서, 생성 이미지 모델을 사용하는 인코딩은, 이것이 일정한 사이즈와 위치의 이미지 영역을 지속되게 공급받는 경우, 더 양호하게 또는 더 경제적으로 작동될 수 있다. 예를 들어, 연속 비디오 프레임들의 이미지 특징을 증분 또는 블록 움직임으로서, 예측적으로 표현할 수 있는 더 빈번하고 더 즉각적인 기회가 있을 수 있다.

일부 실시형태에서, 이미지는 비디오 시퀀스의 프레임이고, ROI의 인코딩 또는 나머지의 인코딩, 또는 둘 모두는 인터-프레임(inter-frame) 예측 방법을 적용한다. 인터-프레임 예측은, 예를 들어, 프레임들이 동일한 장면을 묘사하기 때문에, 연속적인 프레임들 사이에 가정된 시간적 상관관계에 기초하여 프레임들의 출현을 예측 및/또는 보간하는 것을 포함할 수 있다. 이것은, 예를 들어, ITU H.264 코딩(비생성 모델)에서의 경우이고, 생성 이미지 모델에 따른 코딩에서, 전처리 또는 후처리 프로세싱 단계로서, 유사하게 적용될 수 있다. 이 실시형태에서, 추가적으로, 연속적인 프레임들 사이의 가정된 시간적 상관관계에 기초하여 객체의 존재 및/또는 객체의 위치에 대해 예측 및/또는 보간을 적용함으로써 객체가 가시적인지 여부가 확립될 수 있다. 예를 들어, 객체 또는 이벤트 인식 프로세스는 객체 위치들을 획득하기 위해 매 n번째 프레임(여기서 n≥2 이고 정수)마다 실행될 수 있으며, 이 객체 위치들은 다음으로 각각 n-1 프레임의 중간 하위 시퀀스에서 객체 위치들을 제공하기 위해 보간 작동에 의해서 프로세스된다. 이러한 맥락에서, 특정 인식된 객체가 n 개의 프레임 후에 다시 출현하는 경우, 보간을 적용하는 것이 적절할 수 있다. 이러한 실시형태에서, 동일한 비디오 시퀀스의 후속 프레임들을 통해 특정 인식된 객체를 추적하기 위해 시각적 모션 추적 및/또는 카메라 배향 매개변수 및/또는 카메라 시야 매개변수(비디오 시퀀스를 리코딩하는 또는 리코딩한 카메라의)를 사용하는 추가 옵션이 있다.

이미지가 오디오와 연관되는 본 발명의 제1 양태의 일부 실시형태에서, 또한 오디오는 비생성 오디오 모델을 사용하여 선택적으로 인코딩된다. 예를 들어, 상기 객체가 내부에서 가시적이라고 확립된 임의의 프레임을 갖는 비디오 시퀀스가 고려되는 경우, 프레임과 연관된 오디오(예를 들어, 프레임과 동시에 리코딩된 오디오 세그먼트)는 비생성 오디오 모델을 사용하여 인코딩되고, 상기 객체가 가시적이라고 확립되지 않은 이러한 다른 프레임에서는, 연관된 오디오가 임의의 오디오 모델을 사용하여 인코딩된다. 비생성 오디오 모델의 사용은 연관된 오디오 이외의 오디오 데이터로부터 도출된 정보에 의존하지 않으면서 오디오의 디코딩을 가능하게 한다. 임의의 오디오 모델은 유리한 데이터 압축을 제공할 수 있는 생성 오디오 모델일 수 있다.

일 실시형태에서, 비디오 시퀀스의 프레임인 이미지를 인코딩하는 방법이 제공된다. 방법은 하나 이상의 미리 정의된 객체 유형을 구성하거나, 하나 이상의 미리 정의된 이벤트 유형을 수행하는 객체가 상기 이미지에서 가시적인지 여부를 확립하는 단계; 이러한 객체가 가시적이라는 것이 확립되는 경우에, 비생성 이미지 모델(non-generative image model)을 사용하여 상기 이미지의 적어도 하나의 관심 영역(region-of-interest, ROI)을 인코딩하고, 상기 ROI를 나타내는 제1 이미지 데이터가 획득된다. 다음으로, 이미지의 나머지(즉, ROI의 보충물)는 생성 이미지 모델을 사용하여 인코딩되고, 이 나머지를 나타내는 제2 이미지 데이터가 획득된다. 비생성 이미지 모델의 사용은, 비디오 시퀀스 내의 프레임이 아닌 이미지로부터 도출된 정보에 의존하지 않으면서, 제1 이미지 데이터의 디코딩을 가능하게 한다.

본 발명의 제2 양태에서, 이미지를 나타내는 이미지 데이터를 디코딩하는 방법이 제공되며, 이미지 데이터는 비생성 이미지 모델을 사용하여 인코딩함으로써 얻어진 제1 이미지 데이터 및 생성 이미지 모델을 사용하여 인코딩함으로써 얻어진 제2 이미지 데이터를 포함하고, 상기 방법은, 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하지 않으면서, 또는 이미지가 비디오 시퀀스의 프레임인 경우, 비디오 시퀀스의 외부의 이미지로부터 도출된 정보에 의존하지 않으면서, 비생성 이미지 모델을 사용하여 제1 이미지 데이터를 디코딩함으로써, 이미지의 제1 영역을 획득하는 단계; 생성 이미지 모델을 사용하여 제2 이미지 데이터를 디코딩함으로써, 이미지의 제2 영역을 획득하는 단계; 및 이미지의 제1 영역과 제2 영역을 결합하는 단계를 포함한다.

여기서, 제1 이미지 데이터는 비생성 이미지 모델을 사용하여 디코딩함으로써 획득되었기 때문에, 제1 이미지 데이터는 외부로부터 오는 이미지 데이터로 오염될 위험 없이 디코딩된다. 이것은 복원된 제1 이미지 영역의 증거 가치를 확인한다. 이 디코딩 방법은 인코딩 및 디코딩의 검증 가능한 체인의 일부이다. 제2 이미지 데이터는 생성 이미지 모델을 사용하여 인코딩함으로써 획득되었기 때문에, 제1 이미지 데이터와 제2 이미지 데이터의 총 사이즈가 유리하게 제한될 수 있다.

제2 양태의 일부 실시형태에서, 위에서 언급된 바와 같이, 결합은 이미지의 제1 영역의 위치의 표시(예컨대, 제2 영역에 상대적임)에 의해 보조될 수 있으며, 이 표시는 제1 또는 제2 이미지 데이터로부터 도출될 수 있다.

본 발명의 추가 양태에서, 인코딩 디바이스 및 디코딩 디바이스가 제공되며, 이들은 각각 제1 양태의 방법 및 제2 양태의 방법을 수행하도록 구성된다. 인코딩 디바이스는 비생성 이미지 모델 및 생성 이미지 모델에 따라 선택적으로 작동 가능한 프로세싱 회로를 포함하며, 비생성 이미지 모델의 사용은 인코딩된 이미지를 나타내는 이미지 데이터가 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하지 않으면서 디코딩되게 할 수 있거나, 또는, 인코딩된 이미지가 비디오 시퀀스의 프레임인 경우, 이미지 데이터가 비디오 시퀀스의 외부의 이미지로부터 도출된 정보에 의존하지 않으면서 디코딩되게 할 수 있다. 디코딩 디바이스에는 이러한 듀얼 기능을 구비하는 프로세싱 회로가 장착된다. 프로세싱 회로는 생성 이미지 모델 및 비생성 이미지 모델에 대응되는 소프트웨어 코드를 교대로 실행하는 단일 프로세서(또는 단일 프로세서 네트워크)일 수 있거나, 또는 프로세싱 회로는 이러한 각각의 기능을 갖는 다수의 하드웨어 부분으로 분할될 수 있다.

본 발명은 또한, 컴퓨터, 특히 인코딩 디바이스 또는 디코딩 디바이스가 위 방법들을 수행하게 하기 위한 명령어를 포함하는 컴퓨터 프로그램에 관한 것이다. 컴퓨터 프로그램은 데이터 캐리어 상에 저장되거나 분산될 수 있다. 본원에서 사용되는 바와 같이, "데이터 캐리어"는, 변조된 전자기파 또는 광파와 같은 일시적인 데이터 캐리어, 또는 비일시적 데이터 캐리어일 수 있다. 비일시적 데이터 캐리어는 휘발성 메모리 및 비휘발성 메모리, 예컨대, 자기, 광학 또는 솔리드 스테이트 유형의 영구 및 비영구 저장 매체를 포함한다. 여전히 "데이터 캐리어"의 범위 내에서, 이러한 메모리는 고정식으로 장착될 수 있거나 휴대 가능할 수 있다.

일반적으로, 청구범위에서 사용되는 모든 용어들은, 본원에서 명시적으로 달리 정의되지 않는 한, 기술 분야에서의 이들의 통상적인 의미에 따라 해석될 것이다. "요소, 장치, 구성요소, 수단, 단계 등"에 대한 모든 언급은, 달리 명시적으로 언급되지 않는 한, 요소, 장치, 구성요소, 수단, 단계 등의 적어도 하나의 사례를 참조하는 것으로서 개방형으로 해석될 것이다. 본원에 개시된 임의의 방법의 단계들은, 명시적으로 언급되지 않는 한, 설명된 정확한 순서로 수행될 필요는 없다.

양태 및 실시형태는 이제, 수반된 다음 도면을 참조하여, 예로서 설명된다.
도 1은 본원의 실시형태에 따른 인코딩 디바이스 및 디코딩 디바이스를 도시한다.
도 2는 본원의 실시형태에 따른 인코딩 방법의 흐름도이다.
도 3은 이미지에서 인식되고 국부화된 객체에 기초하여 ROI를 정의하는 단계를 예시한다.
도 4는 비생성 이미지 모델을 사용하는 인코딩을 유발하는 공간적으로 제한된 이벤트 기반 트리거 조건을 예시한다.
도 5는 생성 이미지 모델 및 비생성 이미지 모델을 사용하여 인코딩되는 이미지 영역들이 오버랩(overlap)되는 경우를 예시한다.

본 개시내용의 양태는 이제, 본 발명의 특정 실시형태가 도시되는 수반된 도면을 참조하여, 이하에서 더욱 충분히 설명될 것이다. 이러한 양태는, 그러나, 많은 상이한 형태로 구현될 수 있고, 한정하는 것으로 해석되지 않아야 하며, 오히려, 이러한 실시형태는, 이 개시내용이 철저하고 완전하도록, 그리고 본 기술분야에서 숙련된 자들에게 본 발명의 모든 양태의 범위를 충분하게 전달하도록, 예로서 제공된다. 같은 번호는 설명 전체에 걸쳐서 같은 요소를 지칭한다.

도 1의 상측 부분은, 비디오 프레임들을 구성하는 복수의 이미지(110)를 포함하는 비디오 시퀀스(130)를 예시한다. 비디오 프레임들 중 현재 프레임에서, 객체(119)는 ROI(111) 내부에서 가시적이다. 본 발명의 일부 실시형태에 따르면, ROI(111)는 비생성 이미지 모델(non-generative image model)을 사용하여 인코딩될 것이지만, 비디오 프레임의 나머지(112)는 생성 이미지 모델(generative image model)을 사용하여 인코딩될 것이다.

도 1의 비디오 시퀀스(130) 바로 아래에, 인코딩 디바이스(150)가 도시되며, 이는 평문 표현의 이미지(110), 예컨대, 평문의 또는 무손실 코딩(예컨대, 허프만 코딩(Huffman coding))에 의해서 표현된 픽셀 강도 값들의 세트를 수신한다. 인코딩 디바이스(150)에서, 판별기(151)는 이미지(110)를 ROI(111)와 나머지(112)로 분리하고, 이들을 각각 인코더(160) 및 인코더(170)에 공급하며, 여기서 인코더(160)는 비생성 이미지 모델을 사용하도록 구성되고, 인코더(170)는 생성 이미지 모델을 사용하도록 구성된다. 생성 이미지 모델에 대한 인코더(170)는, 인코딩될 이미지(110) 이외의 이미지에 따라 학습된(trained) 가중치를 갖는 신경망(neural network)(인코더 네트워크)(171)을 활용할 수 있다. (특히, 인코더(170)는 비디오 시퀀스(130) 외부의 이미지에 따라 학습된 가중치를 갖는 신경망(171)을 활용할 수 있다.) 객체가 존재한다는 것 및 이것이 어디에 위치되는지를 확립한다는 공통의 목적으로, 판별기(151)는 자동화된 또는 오퍼레이터-어시스트 방식(operator-assisted)의 객체 인식 또는 이벤트 인식 프로세스, 및/또는 센서 신호들(예컨대, 이미지(110)의 장면 또는 이 장면의 근접부를 모니터링하는 검출기들로부터의 신호들)을 수신하고 분석하기 위한 인터페이스를 포함할 수 있으며, 이 신호들은 이미지(110)의 시각적 데이터를 보충한다. 비생성 이미지 모델에 대한 인코더(160)는 제1 이미지 데이터(121)를 출력하고, 생성 이미지 모델에 대한 인코더(170)는 제2 이미지 데이터(122)(및, 일부 실시형태에서, ROI(111)와 나머지(112) 사이의 오버랩을 인코딩하는 제3 이미지 데이터)를 출력한다. 암호화 키 쌍의 개인 키가 보관된 선택적 서명 함수(signing function)(152)는 디지털 서명(123)을 생성할 수 있으며, 수신자는 이 디지털 서명에 의해서 제1 및 제2 이미지 데이터(121, 122)의 진본성을 검증할 수 있다. 보다 정확하게는, 알려진 처리 방법 그 자체에 따르면, 서명 함수(152)는 제1 및 제2 이미지 데이터(121, 122)의 해시를 계산할 수 있고, 이 해시에 기초하여 디지털 서명(123)을 생성할 수 있다.

도 1의 하측 부분은 디코딩 디바이스(180)를 도시한다. 이미지 코딩의 목적들 중 하나는 이미지의 전달 및 저장을 가능하게 하는 것이므로, 인코딩 디바이스 및 디코딩 디바이스(150, 180)는 공존하거나, 동일한 엔티티에 의해 제어될 필요는 없다. 유사하게, 이미지 데이터는 메모리로부터 검색되어 훨씬 나중에 원본 이미지를 복원하기 위해서 사용될 수 있다. 디코딩 디바이스(180)에서, 위에서 언급된 비생성 이미지 모델을 사용하는 디코더(160')와 위에서 언급된 생성 이미지 모델을 사용하는 디코더(170')가 구현된다. 디코더(170')는, 외부로부터 오는 이미지 데이터에 대한 학습에 의해서, 그리고 바람직하게는 인코더 네트워크(171)와 관련하여 얻어진 가중치를 갖는 신경망(디코더 네트워크)(171')을 포함할 수 있다. 또한, 디코더(170')는 확률 분포로부터 확률 샘플링(stochastic sampling)을 수행하도록 구성될 수 있다. 두 개의 디코더(160', 170')는 이미지(110)의 ROI 및 나머지를 각각 복원하는 것을 담당하며, 다음으로 이들은 결합되어 출력된다. 디코딩 디바이스(180)는 선택적 서명 검증 함수(182)을 포함하며, 여기에, 위에서 언급된 암호 키 쌍의 공개 키가 보관되어 있고, 이 공개 키는 제1 및 제2 이미지 데이터(121, 122)가 진짜인지 여부를 평가하기 위해 디지털 서명(123)을 사용하도록 구성된다.

도 1이 인코딩 디바이스 및 디코딩 디바이스(150, 180)의 내측 작업의 순전히 기능적인 예시이며, 이것이 구현되는 프로세싱 하드웨어의 구조를 반드시 반영하지는 않는다는 것이 이해된다. 실제로, 하나의 기능적 블록(박스)은, 프로세서 또는 프로세서 네트워크, 전용 구성요소(예컨대, ASIC, FPGA) 또는 이들의 조합에서 실행되는 컴퓨터 실행 가능 코드의 일 섹션에 대응될 수 있다. 인코딩 디바이스 및 디코딩 디바이스(150, 180)의 기능이 네트워크에 접속된 프로세싱 리소스에 의해서 실행되는 클라우드 구현예가 또한 구상되고, 본 개시내용의 범위에 완전히 포함된다.

인코더 네트워크 및 디코더 네트워크(합성 네트워크)의 학습에 대한 일반적인 설명을 위해서, US20210049468의 개시내용이 참조되며, 이 개시내용에서, 이러한 네트워크들은 GAN 목적 함수(objective function)에 따라 학습되어 이미지에 대한 피쳐 벡터(feature vector)(어피어런스 벡터(appearance vector))를 생성하고 이미지를 복원한다. 문단 0199, 0201, 0202 및 0206과 대응되는 도 7A 및 7B는 주요한 관련성을 갖는다.

도 2의 인코딩 방법(200)을 참조하여, 일부 실시형태에 따른 인코딩 디바이스(150)의 기능에 대한 보다 상세한 설명이 이제 제공될 것이다. 그러나 인코딩 방법(200)은 인코딩 디바이스(150)의 예시된 구조에 그 자체로 링크되지 않기 때문에, 일반적인 프로그램 가능한 컴퓨터 상에서 또한 구현될 수 있다.

방법(200)의 제1 단계(210)에서, 하나 이상의 미리 정의된 객체 유형 중 하나의 객체 유형을 구성하거나 하나 이상의 미리 정의된 이벤트 유형 중 하나의 이벤트 유형을 수행하는 객체들이 이미지에서 가시적인지 여부가 확립된다. 위에서 언급된 바와 같이, "객체"라는 용어는 또한, 미리 정의된 이벤트 유형을 실현하는 객체들(임의의 유형)로 확장된다. 단계 210은 시각적 객체 인식 프로세스를 실행하는 단계, 시각적 이벤트 인식 프로세스를 실행하는 단계, 이미지의 장면을 모니터링하도록 구성된 검출기로부터 데이터 획득하는 단계, 또는 조작자 입력을 획득하는 단계를 포함할 수 있다. 대안적으로 또는 추가적으로, 단계(210)는, 이미지(110)의 시각 데이터를 보충하는 센서 신호들, 예컨대, 이미지(110)의 장면 상에 또는 이의 근접부 상에 지향되는 카메라 또는 모션 검출기로부터의 신호, 또는 객체가 이미지(110)에 나타날 가능성이 높다고 추론될 수 있는 또 하나의 검출기 신호를 수신하고 분석하는 단계를 포함할 수 있다. 예를 들어, 이미지(110)에서 가시적인 공간 안으로 이어지는 문이나 게이트의 개방을 나타내는 검출기로부터의 센서 신호는, 사람이나 객체가 이 공간에 들어가려고 하고 이미지(110)에서 가시적으로 될 것이라는 것을 시사할 수 있다. 이러한 센서 신호들은, 미리 정의된 객체 유형들 또는 이벤트 유형들에 일치하는 객체가 이미지(110) 내에서 가시적이라는 것을 확립하는 단계(210)를 위한 근거로서 사용될 수 있다.

시각적 인식 프로세스가 활용되는 실시형태에서, 조작자는 미리 원하는 객체 유형들 및/또는 이벤트 유형들로 이 프로세스를 설정하였을 수 있다. 다시 말해, 조작자가 런타임 시 이러한 세팅을 재설정거나 조정할 수 있는 권한을 부여받을 수 있지만, 객체 유형들 및 이벤트 유형들은 방법(200)을 실행하는 엔티티의 관점에서 "미리 정의"된다. 조작자는, 법의학적(forensic) 관련성이 높은 객체들이 인식될 수 있도록 객체 유형들 및/또는 이벤트 유형들을 설정하였을 수 있다. 따라서, 객체 유형은 차량과 사람을 포함할 수 있으며, 특히 강도 도구, 자물쇠공 도구, 스프레이 페인트 캔, 칼, 화기(firearm), 폭발물, 은폐 의류, 유니폼, 문신이 있는 신체 부위, 긴급 차량, 상품, 패키징, 및 카메라를 포함할 수 있고, 이벤트 유형은, 절단 또는 톱질 행동, 분무 행동, 화염, 폭발, 무단 침입, 기어오름(climbing), 비정상적으로 긴 거주, 신체적 학대, 및 특정 차량 조작과 같은 패턴을 포함할 수 있다.

객체 유형 및 이벤트 유형과 함께, 조작자는 문제의 객체가 미리 정의된 이미지 영역에서 가시적으로 되어야 하는 조건(트리거 조건)을 설정하는 옵션을 가질 수 있다. 이것은 도 4에 예시되며, 여기서 건물의 입구 둘레의 미리 정의된 영역(113) 내부에서 가시적인 객체만이 단계 210의 긍정적인 결과로 이어질 수 있다. 대조적으로, 미리 정의된 영역(113) 외부에서 객체(사람)(119)의 존재는 단계 210의 긍정적인 결과를 생성하기에 불충분하다.

일부 실시형태에서, 이미지(110)가 비디오 시퀀스(130)의 프레임인 경우, 단계 210은 객체의 존재 및 위치, 또는 둘 모두에 예측 및/또는 보간을 적용할 수 있다. 이러한 예측 및 보간은, 예를 들어, 연속적인 프레임들이 같은 장면에 지향된 카메라에 의해 캡쳐되었기 때문에, 이들이 시간적으로 연관된다는 가정을 반영한다. 같은 맥락에서, 인식된 객체는, 시각적 모션 추적 및/또는 카메라 배향 매개변수 및/또는 카메라 시야 매개변수에 기초하여 연속적인 프레임들 사이에서 추적될 수 있다. 특히, 장면에 대해 정지해 있는 인식된 객체를 최신의 이미지 좌표로 유지하기 위해, 카메라의 팬-틸트-줌(pan-tilt-zoom, PTZ) 세팅의 변경 사항을 검출하고 이를 대략적으로 거꾸로하는 것이 타당하다.

제1 단계 210의 결과가 부정적인 경우, 실행 흐름은 단계 220으로 계속된다. 미리 정의된 객체 또는 이벤트 유형(들)에 일치하는 객체가 가시적인 긍정적인 결과의 경우, 흐름도의 조건부 오른쪽 분지가 그 다음이다.

오른쪽 분지는 ROI(111)를 정의하는 선택적 단계 212로 시작된다. ROI(111)(또는 다수의 ROI)는 제1 단계 210에서 인식된 객체(119)의 위치에 기초하여 정의될 수 있다. ROI는 인식된 객체(119)의 검출된 크기에 기초하여, 그리고 선택적으로 주변에 마진(margin)이 있는 상태로, 추가로 정의될 수 있다. 이러한 마진의 추가는 도 3에 예시되며, 여기서 ROI(111)는 인식된 객체의 바운딩 박스(bounding box)(119) 외부로 δ 유닛만큼 확장된다. 마진(δ)의 사이즈는, 인코더에 의해서 사용될 최대 모션 벡터 사이즈, 또는 인식된 객체(119)의 위치 및/또는 바운딩 박스의 정확도를 고려함으로써 결정될 수 있다. 이러한 교시의 추가 개선예에서, 마진(δ)의 사이즈는, 최근 개의 프레임들에서 사용된 최대 모션 벡터 사이즈에 기초하여 결정될 수 있으며, 여기서 은 설정 가능한 정수이다. 대안적으로 또는 추가적으로, 마진(δ)의 사이즈는 인터프레임 예측 코딩 프로세스에서 사용되는 이미지 블록들(매크로 블록들, I 블록들, P 블록들)의 사이즈에 기초하여 결정될 수 있다.

언급된 바와 같이, 단계 212는 선택적이다. 예를 들어, 이것은, 공간적으로 제한된 조건이 제1 단계 210에서 평가되는 것과 같은 방법(200)의 실시형태에서는 생략될 수 있다. 이 경우에, ROI(111)는 미리 정의된 영역(113)과 동일하게 설정된다(도 4 참조). 다른 실시형태에서, ROI(111)의 크기는 조작자의 입력에 따라 정의될 수 있다. 또 다른 실시형태에서, ROI(111)의 크기는 미리 정의될 수 있고, 이미지 좌표의 관점에서 일정할 수 있다.

다음 단계(214)에서, ROI(111)는 비생성 이미지 모델(160)을 사용하여 인코딩된다. 인코딩의 출력은 제1 이미지 데이터이며, 이로부터 ROI(111)는 복원될 수 있다. 언급된 바와 같이, 비생성 이미지 모델(160)은, 몇 가지 예를 들어, 변환 코딩(transform coding), 하이브리드 코딩(예측 코딩(predictive coding) 및 변환 코딩의 조합), ITU H.26x, AV1. 또는 JPEG에 따른 인코딩을 포함할 수 있다. ROI(111)가 변환 코딩에 의해 인코딩되는 경우, 제1 이미지 데이터는 ROI(111)를 설명하는 변환 계수들을 나타낸다. ROI(111)는 기저 함수(basis function)(예를 들어, 이산 코사인 변환(Discrete Cosine Transform)의 경우에 코사인)에 변환 계수들을 적용함으로써 복원될 수 있다. 본 개시내용의 이전 섹션들에서 전개된 바와 같이, 비생성 이미지 모델의 상술된 특성에 따라, 기저 함수의 사용은 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 전혀 의존하지 않으면서 제1 이미지 데이터의 ROI(111)로의 디코딩을 달성한다. 이미지(110)가 비디오 시퀀스(130)의 프레임인 일부 실시형태에서, 단계 214는 인터-프레임 예측을 활용하는 인코딩 방법의 적용을 포함한다. 이 경우, 디코딩은 비디오 시퀀스(130)에서 이전에 디코딩된 프레임을 사용하지만, 비디오 시퀀스(130) 외부의 이미지로부터 도출된 정보에 의존하지 않는다.

미리 정의된 객체 유형들 중 임의의 것을 구성하거나 미리 정의된 이벤트 유형들 중 임의의 것을 수행하는 객체가 이미지(110)에서 가시적이라는 것이 확립(210)된 경우에만 실행되는 도 2의 흐름도의 조건부 분지는 두 개의 선택적인 단계를 추가로 포함한다.

제1 선택적 단계 216a는 이미지(110)와 연관된 임의의 오디오 콘텐츠를 대상으로 한다. 비디오 시퀀스(130)의 프레임인 이미지(110)는 종종 연관된 오디오 콘텐츠를 전달하지만, 정지 이미지도 오디오 콘텐츠를 가질 수 있다. 선택적 단계 216a가 흐름도의 조건부 분지의 일부를 형성하는 실시형태에서, 인코더(150)는, 비생성 오디오 모델 및 추가 오디오 모델을 사용할 수 있는 오디오 인코더 부분(미도시)을 포함한다. 비생성 오디오 모델의 사용은 상기 연관된 오디오 이외의 오디오 데이터로부터 도출된 정보에 의존하지 않으면서 오디오 콘텐츠의 디코딩을 가능하게 하고, 추가 오디오 모델은, 유리한 데이터 압축 성능을 갖지만 인지된 증거 가치(perceived evidentiary value)가 낮을 수 있는 생성 오디오 모델(generative audio model)일 수 있다. 이러한 실시형태에서, 오디오는, 비생성 오디오 모델(단계 216a)을 사용하거나 또는 추가 오디오 모델(단계 216b, 흐름도의 필수 분지)을 사용하여 인코딩된다. 오디오 콘텐츠가, 이미지(110)와 달리, 각각의 프레임 내에서 균일하게, 즉 이미지(110)의 ROI(111)와 나머지 부분(112)과 유사한 부분들로 분할되지 않고, 프로세싱된다는 것이 중요하다.

제2 선택적 단계 218에서, 생성 이미지 모델을 사용하여 이미지(110)의 나머지(112)를 인코딩하기 위해 사용될 신경망의 가중치들의 스냅샷(snapshot)이 저장된다. 이 저장은, 신경망 가중치들의 스냅샷들에 대한 액세스가, 필요한 경우, 검증 목적을 위해 인코딩 작업을 반복하는 것을 가능하게 하므로, 나머지(112)(제2 이미지 데이터)의 코딩된 버전의 증거 가치를 강화할 수 있다.

조건부 분지의 모든 단계가 수행된 후(다른 실시형태에서, 1, 2, 3 또는 4개의 단계), 실행 흐름은, 이것이 방법(200)의 필수 분지에 합류하는 단계 220으로 계속된다.

단계(220)에서, 이미지(110)의 나머지(112)는 생성 이미지 모델(170)을 사용하여 인코딩된다. 생성 이미지 모델(170)은 다음 중 하나 이상을 포함할 수 있다: 머신-러닝 기반 인코더, 인공 신경망 인코더, 오토인코더, 가변 오토인코더, 생성적 대립 신경망(Generative Adversarial Network, GAN) 인코더, 콘볼루션 신경망(Convolutional Neural Network, CNN) 인코더, 순환 신경망(Recurrent Neural Network, RNN) 인코더, 자기 회귀(autoregressive) 모델, 흐름 모델. 이미지(110)가 비디오 시퀀스(130)의 프레임인 일부 실시형태에서, 단계 220은 인터-프레임 예측을 활용하는 인코딩 방법을 포함한다.

선택적 단계(222)의 존재는, 일부 실시형태에서, 나머지(112)만이 생성 이미지 모델을 사용하여 인코딩되는 것이 아니다라는 가능성을 나타낸다. 여기에서, 도 5에 도시된 바와 같이, ROI(111)의 일 부분(111.1)("오버랩")이 또한 생성 이미지 모델을 사용하여 인코딩된다. 이것은 제3 이미지 데이터를 생성하며, 이로부터 오버랩(111.1)은 생성 이미지 모델을 사용하여 복원될 수 있다. 오버랩(111.1)은, 예를 들어, ROI(111)의 경계 구역(주변부(fringe), 가장자리)일 수 있다. ROI(111)에서 오버랩(111.1)의 보충물(complement)(111.2)은 비생성 이미지 모델만을 사용하여 인코딩된다. 단계 220 및 단계 222가 통합될 수 있다는 것, 즉 나머지(112) 및 오버랩(111.1)이 공통 프로세스에서 인코딩될 수 있다는 것이 주의된다. 유사하게, 예를 들어, 오버랩(111.1)을 복원하지 않으면서 ROI(111)를 복원할 수 있거나 이와 반대로 할 수 있는 장면에 있어서, 제1 및 제3 이미지 데이터가 분리 가능할 필요는 없다.

여전히 단계 222를 참조하면, 하나의 특정 실시형태에서, 생성 이미지 모델을 사용하는 전체 이미지(110)의 인코딩은 비-생성 이미지 모델을 사용하는 ROI(111)의 조건부 인코딩(단계 214)과 병렬로 계속된다. 이 특정 실시형태는, 보충물(111.2)이 비어 있지 않은 도 5에 도시된 구성과 다르다.

오디오 관련 단계 216b는 이미 설명되었다. 이것은, 조건 분지에서, 단계 216a가 실행되지 않은 경우에만, 실행된다.

방법(200)은, 일부 실시형태에서, 디지털 서명(123)을 생성하는 최종 단계로 마무리되며, 이 디지털 서명에 의해서 제1 이미지 데이터 및/또는 제2 이미지 데이터의 진본성이 검증될 수 있다. 선택적으로, 디지털 서명(123)은 또한 단계 218에서 저장된 신경망 가중치를 포함하는 더 큰 데이터세트에 대해 생성된다.

디코딩 디바이스(180)는, 비생성 이미지 모델을 사용하여 인코딩함으로써 얻어진 제1 이미지 데이터 및 생성 이미지 모델을 사용하여 인코딩함으로써 얻어진 제2 이미지 데이터를 포함하는 이미지 데이터를 입력으로서 갖는 디코딩 방법을 수행하도록 구성될 수 있다. 방법은 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하지 않으면서, 또는 이미지가 비디오 시퀀스의 프레임인 경우, 비디오 시퀀스의 외부의 이미지로부터 도출된 정보에 의존하지 않으면서, 비생성 이미지 모델을 사용하여 제1 이미지 데이터를 디코딩함으로써, 이미지의 제1 영역(111)을 획득하는 단계; 생성 이미지 모델을 사용하여 제2 이미지 데이터를 디코딩함으로써, 이미지의 제2 영역(112)을 획득하는 단계; 및 이미지의 제1 영역과 제2 영역을 결합하는 단계를 포함한다. 결합은 이미지의 제1 영역의 위치의 표시(예컨대, 제2 영역에 상대적임)에 의해 보조될 수 있으며, 이 표시는 제1 또는 제2 이미지 데이터로부터 도출될 수 있다.

본 개시내용의 양태는 몇몇 실시형태를 참조하여 위에서 주로 설명되었다. 그러나 당업자에 의해 용이하게 이해되는 바와 같이, 위에 개시된 것 이외의 다른 실시형태가 첨부된 특허 청구범위에 의해 정의되는 본 발명의 범위 내에서 균등하게 가능하다.

Claims

이미지를 인코딩하는 방법으로서,
하나 이상의 미리 정의된 객체 유형을 구성하거나, 하나 이상의 미리 정의된 이벤트 유형을 수행하는 객체가 상기 이미지에서 가시적인지 여부를 확립하는 단계;
상기 객체가 가시적이라는 것을 확립하는 것에 응답하여, 비생성 이미지 모델(non-generative image model)을 사용하여 상기 이미지의 적어도 하나의 관심 영역(region-of-interest)을 인코딩함으로써, 제1 이미지 데이터를 획득하는 단계; 및
생성 이미지 모델(generative image model)을 사용하여 상기 이미지의 임의의 나머지(remainder)를 인코딩함으로써, 제2 이미지 데이터를 획득하는 단계를 포함하되,
상기 비생성 이미지 모델의 사용은 상기 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하지 않으면서 상기 제1 이미지 데이터의 디코딩을 가능하게 하거나, 또는 상기 이미지가 비디오 시퀀스(video sequence)의 프레임인 경우, 상기 비디오 시퀀스의 외부의 이미지로부터 도출된 정보에 의존하지 않으면서 상기 제1 이미지 데이터의 디코딩을 가능하게 하는, 방법.
제1항에 있어서,
상기 비생성 이미지 모델의 사용은,
상기 인코딩된 이미지 이외의 이미지로부터 도출된 정보를 삽입하지 않으면서, 또는
상기 이미지가 비디오 시퀀스의 프레임인 경우, 상기 비디오 시퀀스의 외부의 이미지로부터 도출된 정보를 삽입하지 않으면서, 또는
상기 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하는 함수에 의해 상기 제1 이미지 데이터를 프로세싱하지 않으면서, 또는
상기 이미지가 비디오 시퀀스의 프레임인 경우, 상기 비디오 시퀀스의 외부의 이미지로부터 도출된 정보에 의존하는 함수에 의해 상기 제1 이미지 데이터를 프로세싱하지 않으면서,
상기 제1 이미지 데이터의 디코딩을 가능하게 하는, 방법,
제1항에 있어서,
상기 비생성 이미지 모델의 사용은 상기 제1 이미지 데이터의 비확률적(non-stochastic) 디코딩을 가능하게 하는, 방법.
제1항에 있어서,
상기 생성 이미지 모델은, 상기 인코딩된 이미지 이외의 이미지로부터 도출된 정보를 사용하여 학습된(trained) 인공 신경망(artificial neural network)에 의해서 디코딩하도록, 또는 상기 이미지가 비디오 시퀀스의 프레임인 경우, 상기 비디오 시퀀스의 외부의 이미지로부터 도출된 정보를 사용하여 디코딩하도록 적응된, 방법.
제1항에 있어서,
상기 생성 이미지 모델은 확률 분포(probability distribution)로부터의 확률 샘플링(stochastic sampling)에 의해 디코딩하도록 적응된, 방법.
제1항에 있어서,
상기 생성 이미지 모델은 학습 가능한(trainable) 가중치들을 갖는 인공 신경망을 포함하며,
상기 방법은 상기 객체가 가시적이라는 것을 확립하는 것에 응답하여, 상기 학습 가능한 가중치들의 스냅샷(snapshot)을 저장하는 단계를 더 포함하는, 방법.
제6항에 있어서,
상기 학습 가능한 가중치들의 상기 스냅샷, 상기 제1 이미지 데이터, 및 상기 제2 이미지 데이터를 포함하는 데이터세트에 대한 디지털 서명을 생성하는 단계를 더 포함하는 방법.
제1항에 있어서,
상기 객체가 상기 이미지에서 가시적인지 여부를 확립하는 단계는,
시각적 객체 인식 프로세스를 실행하는 단계;
시각적 이벤트 인식 프로세스를 실행하는 단계;
상기 이미지의 장면 또는 상기 장면의 근접부를 모니터링하도록 구성된 검출기로부터 데이터를 획득하는 단계; 및
조작자 입력을 획득하는 단계;
중 하나 이상을 포함하는, 방법.
제8항에 있어서,
상기 객체가 상기 이미지에서 가시적인지 여부를 확립하는 단계는 인식된 객체의 위치를 제공하고,
상기 방법은 상기 인식된 객체의 상기 위치에 기초하여 상기 적어도 하나의 관심 영역을 정의하는 단계를 더 포함하는, 방법.
제9항에 있어서,
상기 정의된 적어도 하나의 관심 영역은 0이 아닌 마진(margin)만큼 상기 인식된 객체의 외부로 확장되는, 방법.
제8항에 있어서,
상기 시각적 객체 인식 프로세스 또는 상기 시각적 이벤트 인식 프로세스는, 상기 미리 정의된 객체 유형들 중 하나 이상을 구성하거나 상기 미리 정의된 이벤트 유형들 중 하나 이상을 수행하는 객체가 미리 정의된 이미지 영역에서 가시적일 것이라는 조건을 평가하도록 구성된, 방법.
제1항에 있어서,
상기 이미지는 비디오 시퀀스의 프레임이고,
상기 적어도 하나의 관심 영역을 인코딩하는 단계 및 상기 나머지를 인코딩하는 단계 중 하나 이상의 단계는 인터-프레임(inter-frame) 예측 방법을 적용하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 방법은,
상기 객체가 가시적이라는 것이 확립된 임의의 프레임에서, 상기 비디오 시퀀스와 연관된 오디오를 비생성 오디오 모델(non-generative audio model)을 사용하여 인코딩하는 단계; 및
상기 객체가 가시적이라는 것이 확립되지 않은 적어도 일부 프레임에서, 상기 연관된 오디오를 임의의 오디오 모델을 사용하여 인코딩하는 단계를 더 포함하되,
상기 비생성 오디오 모델의 사용은 상기 연관된 오디오 이외의 오디오 데이터로부터 도출된 정보에 의존하지 않으면서 상기 오디오의 디코딩을 가능하게 하는, 방법.
비생성 이미지 모델 및 생성 이미지 모델에 따라 선택적으로 작동 가능한 프로세싱 회로를 포함하는 디바이스로서,
상기 비생성 이미지 모델의 사용은 인코딩된 이미지를 나타내는 이미지 데이터가 상기 인코딩된 이미지 이외의 이미지로부터 도출된 정보에 의존하지 않으면서 디코딩되게 할 수 있거나, 또는, 상기 인코딩된 이미지가 비디오 시퀀스의 프레임인 경우, 상기 이미지 데이터가 상기 비디오 시퀀스의 외부의 이미지로부터 도출된 정보에 의존하지 않으면서 디코딩되게 할 수 있고,
상기 디바이스는 제1항에 따른 방법을 수행하도록 구성된, 디바이스.
프로세싱 능력을 갖는 디바이스 상에서 실행될 때, 제1항에 따른 방법을 구현하기 위한 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체.