KR20220119706A

KR20220119706A - 기계를 위한 비디오 코딩의 방법 및 장치

Info

Publication number: KR20220119706A
Application number: KR1020227025742A
Authority: KR
Inventors: 샨 리우; 웬 가오; 샤오종 수
Original assignee: 텐센트 아메리카 엘엘씨
Priority date: 2020-10-09
Filing date: 2021-07-01
Publication date: 2022-08-30
Also published as: US11451790B2; JP7405989B2; US20220116627A1; EP4046382A1; JP2023507968A; WO2022076051A1; EP4046382A4; CN114641998A

Abstract

본 개시의 측면들은 기계를 위한 비디오 코딩에 사용하기 위한 방법들 및 장치들을 제공한다. 일부 예들에서, 기계를 위한 비디오 코딩 장치는 처리 회로를 포함한다. 처리 회로는 기계를 위한 비디오 코딩(VCM)의 제1 코딩 방식에 대한 제1 픽처 품질 대 코딩 효율 특징 및 VCM의 제2 코딩 방식에 대한 제2 픽처 품질 대 코딩 효율 특징을 결정한다. 그 다음, 처리 회로는 제1 픽처 품질 대 코딩 효율 특징 및 제2 픽처 품질 대 코딩 효율 특징에 기초하여, 제1 코딩 방식과 제2 코딩 방식의 비교를 위한 BD(Bjøntegaard delta) 메트릭을 결정한다.

Description

기계를 위한 비디오 코딩의 방법 및 장치

본 출원은 "METHOD AND APPARATUS IN VIDEO CODING FOR MACHINES"라는 명칭으로 2021년 6월 28일자 출원된 미국 특허출원 제17/360,838호에 대한 우선권의 이익을 주장하며, 이 특허출원은 "WEIGHTED PERFORMANCE METRIC FOR VIDEO CODING FOR MACHINE"이라는 명칭으로 2020년 10월 12일자 출원된 미국 가출원 제63/090,555호, 및 "PERFORMANCE METRIC FOR VIDEO CODING FOR MACHINE"이라는 명칭으로 2020년 10월 9일자 출원된 미국 가출원 제63/089,858호에 대한 우선권의 이익을 주장한다. 선행 출원들의 전체 개시 내용들은 이로써 그 전체가 인용에 의해 포함된다.

본 개시는 일반적으로 기계를 위한 비디오 코딩과 관련된 실시예들을 설명한다.

본 명세서에서 제공되는 배경 설명은 일반적으로 본 개시의 맥락을 제시하는 것을 목적으로 한다.　 현재 지명된 발명자들의 작업은, 이 작업이 이 배경 섹션뿐만 아니라, 출원 시에 종래 기술로서 달리 한정할 수 없는 설명의 측면들에서 설명되는 한도까지, 명확하게도 묵시적으로도 본 개시에 대한 종래 기술로서 인정되지 않는다.

종래에, 비디오 또는 이미지들은 인간에 의해 엔터테인먼트, 교육 등과 같은 다양한 용도들을 위해 소비된다. 따라서 비디오 코딩 또는 이미지 코딩은 흔히, 양호한 주관적 품질을 유지하면서 더 양호한 압축 효율을 위해 인간 시각 시스템의 특징들을 이용한다.

최근에, 풍부한 센서들과 함께 기계 학습 애플리케이션들의 부상으로, 많은 플랫폼들이 객체 검출, 세그먼트화 또는 추적 등과 같은 기계 시각(machine vision) 작업들을 위해 비디오를 이용한다. 기계 작업들에 의한 소비에 대한 비디오 또는 이미지 코딩은 흥미롭고 난해한 분야가 된다.

본 개시의 측면들은 기계를 위한 비디오 코딩에 사용하기 위한 방법들 및 장치들을 제공한다. 일부 예들에서, 기계를 위한 비디오 코딩 장치는 처리 회로를 포함한다. 처리 회로는 기계를 위한 비디오 코딩(VCM: video coding for machine)의 제1 코딩 방식에 대한 제1 픽처 품질 대 코딩 효율 특징 및 VCM의 제2 코딩 방식에 대한 제2 픽처 품질 대 코딩 효율 특징을 결정한다. 그 다음, 처리 회로는 제1 픽처 품질 대 코딩 효율 특징 및 제2 픽처 품질 대 코딩 효율 특징에 기초하여, 제1 코딩 방식과 제2 코딩 방식의 비교를 위한 BD(Bjødelta) 메트릭을 결정한다.

일부 실시예들에서, 처리 회로는 mAP(mean average precision), BPP(bits per pixel), MOTA(multiple object tracking accuracy), 50%의 합집합 대비 교집합(intersection over union) 임계치에서의 평균 정확도(AP50), 75%의 합집합 대비 교집합 임계치에서의 평균 정확도(AP75) 및 평균 정밀도 중 적어도 하나로 BD 메트릭을 계산한다.

일부 예들에서, 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제1 곡선을 포함하고, 제2 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제2 곡선을 포함한다. 일례로, 처리 회로는 제1 곡선과 제2 곡선 사이의 평균 갭으로서 BD 메트릭을 계산한다.

일부 예들에서, 제1 픽처 품질 대 코딩 효율 특징은 제1 축 상의 픽처 품질 및 제2 축 상의 코딩 효율에 대한 2차원 평면에서 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하고, 제2 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들을 포함한다. 처리 회로는 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들의 제1 파레토 프론트(pareto front) 곡선을 컴퓨팅하고, 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들의 제2 파레토 프론트 곡선을 컴퓨팅한다. 이어서, 처리 회로는 제1 파레토 프론트 곡선 및 제2 파레토 프론트 곡선에 기초하여 BD 메트릭을 계산한다.

일례로, 제2 픽처 품질 대 코딩 효율 특징 곡선들은 각각 제1 픽처 품질 대 코딩 효율 특징 곡선들에 대응한다. 이어서, 처리 회로는 제1 픽처 품질 대 코딩 효율 특징 곡선들 및 대응하는 제2 픽처 품질 대 코딩 효율 특징 곡선들에 기초하여 각각 BD 메트릭 값들을 계산한다. 그 다음, 처리 회로는 제1 코딩 방식과 제2 코딩 방식의 비교를 위한 전체 BD 메트릭으로서, BD 메트릭 값들의 가중 합을 계산한다.

일부 예들에서, 제1 코딩 방식 및 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용된다. 처리 회로는 기계 시각에 대한 BPP(Bits per pixel)의 제1 BD 레이트, 인간 시각에 대한 제2 BD 레이트를 계산하고, 제1 코딩 방식과 제2 코딩 방식의 비교를 위한 전체 BD 메트릭으로서, 제1 BD 레이트와 제2 BD 레이트의 가중 합을 계산한다.

일부 예들에서, 제1 코딩 방식 및 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용된다. 처리 회로는 제1 코딩 방식에 의해 기계 시각과 인간 시각에 대한 왜곡들의 가중 합에 기초하여 제1 전체 왜곡을 계산하고, 제1 코딩 방식의 제1 레이트 정보 및 제1 전체 왜곡에 기초하여 제1 비용 메트릭 값을 계산한다. 이어서, 처리 회로는 제2 코딩 방식에 의해 기계 시각과 인간 시각의 왜곡들의 가중 합에 기초하여 제2 전체 왜곡을 계산하고, 제2 코딩 방식의 제2 레이트 정보 및 제2 전체 왜곡에 기초하여 제2 비용 메트릭 값을 계산한다. 처리 회로는 제1 비용 메트릭 값 및 제2 비용 메트릭 값에 기초하여 제1 코딩 방식과 제2 코딩 방식을 비교한다.

일부 예들에서, 제1 코딩 방식 및 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용된다. 처리 회로는 제1 코딩 방식에 의해 기계 시각과 인간 시각에 대한 왜곡들의 가중 합에 기초하여 제1 픽처 품질을 결정하고, 제2 코딩 방식에 의해 기계 시각과 인간 시각에 대한 왜곡들의 가중 합에 기초하여 제2 픽처 품질을 결정한다.

일부 예들에서, 제1 코딩 방식 및 제2 코딩 방식은 다수의 시각 작업들에 대한 비디오 코딩에 사용된다. 처리 회로는 제1 코딩 방식에 의해 다수의 시각 작업들에 대한 왜곡들의 가중 합에 기초하여 제1 픽처 품질을 결정하고, 제2 코딩 방식에 의해 다수의 시각 작업들에 대한 왜곡들의 가중 합에 기초하여 제2 픽처 품질을 결정한다.

본 개시의 측면들은 또한, 기계를 위한 비디오 코딩에 사용하기 위해 컴퓨터에 의해 실행될 때, 컴퓨터로 하여금 비디오 코딩 방법을 수행하게 하는 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 매체를 제공한다.

개시된 청구 대상의 추가 특징들, 성질 및 다양한 이점들은 다음의 상세한 설명 및 첨부 도면들로부터 보다 명백해질 것이다.
도 1은 본 개시의 일 실시예에 따른 기계를 위한 비디오 코딩(VCM) 시스템의 블록도를 도시한다.
도 2는 본 개시의 일부 실시예들에 따른, 기계를 위한 비디오 코딩에 대한 BD(Bjødelta) 메트릭의 계산을 예시하기 위한 플롯을 도시한다.
도 3은 본 개시의 일부 실시예들에 따른, 기계를 위한 비디오 코딩에 대한 BD(Bjødelta) 메트릭의 계산을 예시하기 위한 다른 플롯을 도시한다.
도 4 내지 도 7은 본 개시의 일부 실시예들에 따른 의사 코드들의 예들을 도시한다.
도 8은 본 개시의 일 실시예에 따른 프로세스 예의 개요를 서술하는 흐름도를 도시한다.
도 9는 일 실시예에 따른 컴퓨터 시스템의 개략적인 예시이다.

본 개시의 측면들은 기계를 위한 비디오 코딩(VCM)에 대한 성능 메트릭 기법들을 제공한다. 성능 메트릭 기법들은 의미 있는 비교를 위해 다른 코딩 툴에 대한 코딩 툴의 성능을 평가하는 데 사용될 수 있다.

도 1은 본 개시의 일 실시예에 따른 VCM 시스템(100)의 블록도를 도시한다. VCM 시스템(100)은 증강 현실(AR: augmented reality) 애플리케이션, 자율 주행 애플리케이션, 비디오 게임 고글 애플리케이션, 스포츠 게임 애니메이션 애플리케이션, 감시 애플리케이션 등과 같은 다양한 사용 애플리케이션들에 사용될 수 있다.

VCM 시스템(100)은 네트워크(105)에 의해 접속되는 VCM 인코딩 서브시스템(101) 및 VCM 디코딩 서브시스템(102)을 포함한다. 일례로, VCM 인코딩 서브시스템(101)은 기계를 위한 비디오 코딩 기능들을 갖는 하나 이상의 디바이스들을 포함할 수 있다. 일례로, VCM 인코딩 서브시스템(101)은 데스크톱 컴퓨터, 랩톱 컴퓨터, 서버 컴퓨터, 태블릿 컴퓨터 등과 같은 단일 컴퓨팅 디바이스를 포함한다. 다른 예에서, VCM 인코딩 서브시스템(101)은 데이터 센터(들), 서버 팜(server farm)(들) 등을 포함한다. VCM 인코딩 서브시스템(101)은 센서 디바이스로부터 출력되는 비디오 프레임들의 시퀀스와 같은 비디오 콘텐츠를 수신하고, 기계 시각에 대한 비디오 코딩 및/또는 인간 시각에 대한 비디오 코딩에 따라 비디오 콘텐츠를 코딩된 비트스트림으로 압축할 수 있다. 코딩된 비트스트림은 네트워크(105)를 통해 VCM 디코딩 서브시스템(102)에 전달될 수 있다.

VCM 디코딩 서브시스템(102)은 기계를 위한 비디오 코딩 기능들을 갖는 하나 이상의 디바이스들을 포함한다. 일례로, VCM 디코딩 서브시스템(102)은 데스크톱 컴퓨터, 랩톱 컴퓨터, 서버 컴퓨터, 태블릿 컴퓨터, 웨어러블 컴퓨팅 디바이스, 머리 장착 디스플레이(HMD: head mounted display) 디바이스 등과 같은 컴퓨팅 디바이스를 포함한다. VCM 디코딩 서브시스템(102)은 기계 시각에 대한 비디오 코딩 및/또는 인간 시각에 대한 비디오 코딩에 따라 코딩된 비트스트림을 디코딩할 수 있다. 디코딩된 비디오 콘텐츠는 기계 시각 및/또는 인간 시각을 위해 사용될 수 있다.

VCM 인코딩 서브시스템(101)은 임의의 적절한 기술을 사용하여 구현될 수 있다. 도 1의 예에서, VCM 인코딩 서브시스템(101)은 서로 결합된 처리 회로(120), 인터페이스 회로(111) 및 멀티플렉서(112)를 포함한다.

처리 회로(120)는 임의의 적절한 처리 회로, 이를테면 하나 이상의 중앙 처리 유닛(CPU: central processing unit)들, 하나 이상의 그래픽 처리 유닛(GPU: graphics processing unit)들, 주문형 집적 회로 등을 포함할 수 있다. 도 1의 예에서, 처리 회로(120)는 2개의 인코더들, 이를테면 인간 시각에 대한 비디오 인코더(130) 및 기계 시각에 대한 특징 인코더(140)를 포함하도록 구성될 수 있다. 일례로, 하나 이상의 CPU들 및/또는 GPU들은 비디오 인코더(130)로서 기능하도록 소프트웨어를 실행할 수 있고, 하나 이상의 CPU들 및/또는 GPU들은 특징 인코더(140)로서 기능하도록 소프트웨어를 실행할 수 있다. 다른 예에서, 비디오 인코더(130) 및/또는 특징 인코더(140)는 주문형 집적 회로들을 사용하여 구현될 수 있다.

일부 예들에서, 비디오 인코더(130)는 비디오 프레임들의 시퀀스에 대해 인간 시각에 대한 비디오 인코딩을 수행하고 제1 비트스트림을 생성할 수 있고, 특징 인코더(140)는 비디오 프레임들의 시퀀스에 대해 기계 시각에 대한 특징 인코딩을 수행하고 제2 비트스트림을 생성할 수 있다. 멀티플렉서(112)는 제1 비트스트림을 제2 비트스트림과 조합하여, 코딩된 비트스트림을 생성할 수 있다.

일부 예들에서, 특징 인코더(140)는 특징 추출 모듈(141), 특징 변환 모듈(142) 및 특징 인코딩 모듈(143)을 포함한다. 특징 추출 모듈(141)은 비디오 프레임들의 시퀀스로부터 특징들을 검출 및 추출할 수 있다. 특징 변환 모듈(142)은 추출된 특징들을 특징 맵들, 특징 벡터들 등과 같은 적합한 특징 표현들로 변환할 수 있다. 특징 인코딩 모듈(143)은 특징 표현들을 제2 비트스트림으로 인코딩할 수 있다. 일부 실시예들에서, 특징 추출은 인공 신경망에 의해 수행될 수 있다.

인터페이스 회로(111)는 VCM 인코딩 서브시스템(101)을 네트워크(105)와 인터페이스 결합할 수 있다. 인터페이스 회로(111)는 네트워크(105)로부터 신호들을 수신하는 수신 부분 및 네트워크(105)에 신호들을 전송하는 전송 부분을 포함할 수 있다. 예를 들어, 인터페이스 회로(111)는 네트워크(105)를 통해 VCM 디코딩 서브시스템(102)과 같은 다른 디바이스들에 코딩된 비트스트림을 전달하는 신호들을 전송할 수 있다.

네트워크(105)는 이더넷 접속들, 광섬유 접속들, WiFi 접속들, 셀룰러 네트워크 접속들 등과 같은 유선 및/또는 무선 접속들을 통해 VCM 인코딩 서브시스템(101) 및 VCM 디코딩 서브시스템(102)과 적절하게 결합된다. 네트워크(105)는 네트워크 서버 디바이스들, 저장 디바이스들, 네트워크 디바이스들 등을 포함할 수 있다. 네트워크(105)의 컴포넌트들은 유선 및/또는 무선 접속들을 통해 적절하게 서로 결합된다.

VCM 디코딩 서브시스템(102)은 기계 시각 및/또는 인간 시각에 대해 코딩된 비트스트림을 디코딩하도록 구성된다. 일례로, VCM 디코딩 서브시스템(102)은 인간 시각을 위해 디스플레이될 수 있는 비디오 프레임들의 시퀀스를 재구성하기 위해 비디오 디코딩을 수행할 수 있다. 다른 예에서, VCM 디코딩 서브시스템(102)은 기계 시각에 대해 사용될 수 있는 특징 표현들을 재구성하기 위해 특징 디코딩을 수행할 수 있다.

VCM 디코딩 서브시스템(102)은 임의의 적절한 기술을 사용하여 구현될 수 있다. 도 1의 예에서, VCM 디코딩 서브시스템(102)은 도 1에 도시된 바와 같이 서로 결합된 인터페이스 회로(161), 디멀티플렉서(162) 및 처리 회로(170)를 포함한다.

인터페이스 회로(161)는 VCM 디코딩 서브시스템(102)을 네트워크(105)와 인터페이스 결합할 수 있다. 인터페이스 회로(161)는 네트워크(105)로부터 신호들을 수신하는 수신 부분 및 네트워크(105)에 신호들을 전송하는 전송 부분을 포함할 수 있다. 예를 들어, 인터페이스 회로(161)는 데이터를 전달하는 신호들, 이를테면 네트워크(105)로부터 코딩된 비트스트림을 전달하는 신호들을 수신할 수 있다.

디멀티플렉서(162)는 수신된 코딩된 비트스트림을 코딩된 비디오의 제1 비트스트림과 코딩된 특징들의 제2 비트스트림으로 분리할 수 있다.

처리 회로(170)는 CPU, GPU, 주문형 집적 회로들 등과 같은 적절한 처리 회로를 포함할 수 있다. 처리 회로(170)는 비디오 디코더, 특징 디코더 등과 같은 다양한 디코더들을 포함하도록 구성될 수 있다. 예를 들어, 처리 회로(170)는 비디오 디코더(180) 및 특징 디코더(190)를 포함하도록 구성된다.

일례로, GPU는 비디오 디코더(180)로서 구성된다. 다른 예에서, CPU는 비디오 디코더(180)로서 기능하도록 소프트웨어 명령들을 실행할 수 있다. 다른 예에서, GPU는 특징 디코더(190)로서 구성된다. 다른 예에서, CPU는 특징 디코더(190)로서 기능하도록 소프트웨어 명령들을 실행할 수 있다.

비디오 디코더(180)는 코딩된 비디오의 제1 비트스트림 내의 정보를 디코딩하고, 디코딩된 비디오(예컨대, 픽처 프레임들의 시퀀스)를 재구성할 수 있다. 디코딩된 비디오는 인간 시각을 위해 디스플레이될 수 있다. 일부 예들에서, 디코딩된 비디오는 기계 시각을 위해 제공될 수 있다.

특징 디코더(190)는 코딩된 특징들의 제2 비트스트림 내의 정보를 디코딩하고, 적절한 형태의 표현들로 특징들을 재구성할 수 있다. 디코딩된 특징들은 기계 시각을 위해 제공될 수 있다. 일부 예들에서, 디코딩된 특징들은 인간 시각을 위해 제공될 수 있다.

기계를 위한 비디오 코딩은 VCM 시스템(100)에서 다양한 코딩 툴들에 의해 또는 코딩 툴의 다양한 구성들에 따라 수행될 수 있다. 본 개시의 측면들은, 코딩 툴의 다양한 구성들 및/또는 다양한 코딩 툴들의 성능을 평가하기 위한 성능 메트릭 기법들을 제공한 다음, 성능 메트릭 기법들에 기초하여 코딩 툴 및 적절한 구성의 선택을 보조할 수 있다.

도 1의 예에서, VCM 인코딩 서브시스템(101)은 비디오 인코더(130) 및 특징 인코더(140)에 결합된 제어기(150)를 포함한다. 제어기(150)는 성능 메트릭 기법들을 사용하여 성능 평가를 수행할 수 있고, 성능 평가에 따라 비디오 인코더(130) 및 특징 인코더(140)에 사용하기 위한 코딩 툴들 및/또는 구성들을 선택할 수 있다. 제어기(150)는 다양한 기법들에 의해 구현될 수 있다. 일례로, 제어기(150)는 코딩 툴들 및 구성들의 성능 평가 및 선택을 위해 소프트웨어 명령들을 실행하는 프로세서로서 구현된다. 다른 예에서, 제어기(150)는 주문형 집적 회로들을 사용하여 구현된다.

본 개시의 일부 측면들에 따르면, 인간 시각 및 기계 시각에 대한 비디오/이미지 코딩 품질들을 평가하기 위해 상이한 픽처 품질 메트릭들 및 코딩 효율 메트릭들이 사용된다.

인간 시각에 대한 비디오/이미지 코딩 품질들을 평가하기 위한 일부 예들에서는, 성능 메트릭들, 이를테면 MSE(mean squared error)/PSNR(peak signal-to-noise ratio), SSIM(structure similarity index measure)/MS-SSIM(multiscale SSIM), VMAF(video multimethod assessment fusion) 등이 사용될 수 있다. 일례로, MSE는 원본 이미지와 원본 이미지의 재구성된 이미지 사이의 평균 제곱 오차를 계산하는 데 사용될 수 있고, 재구성된 이미지는 코딩 툴 하에서의 또는 코딩 툴의 구성 하에서의 연산 결과이다. PSNR은 신호의 최대 가능 전력과 그 표현의 충실도에 영향을 미치는 잡음을 손상시키는 전력 간의 비로서 계산될 수 있다. PSNR은 MSE에 기초하여 정의될 수 있다. MSE 또는 PSNR은 절대 오차들에 기초하여 계산된다.

다른 예에서, SSIM은 원본 이미지와 원본 이미지의 재구성된 이미지의 유사성을 측정하는 데 사용될 수 있다. SSIM은 픽셀들이 특히 공간적으로 가까울 때 강한 상호 종속성들을 갖는다는 구조적 정보를 사용한다. 종속성들은 시각적 장면에서 객체들의 구조에 관한 중요한 정보를 전달한다. MS-SSIM은 서브-샘플링의 다수의 스테이지들의 프로세스를 통해 다수의 스케일들에 걸쳐 수행될 수 있다.

기계 시각에 대한 비디오/이미지 코딩 품질들을 평가하기 위한 일부 예들에서는, 성능 메트릭들, 이를테면 mAP(mean average precision), MOTA(multiple object tracking accuracy) 등이 객체 검출, 세그먼트화 또는 추적 등과 같은 기계 시각 작업들의 성능을 측정하는 데 사용될 수 있다. 추가로, BPP(bits per pixel)가 VCM에 대해 생성된 비트스트림의 저장 또는 전송을 위한 비용을 측정하는 데 사용될 수 있다.

구체적으로, 일부 예들에서, mAP는 정확도-재현율(precision-recall) 곡선(PR 곡선) 아래의 면적으로서 계산되며, 여기서 x 축은 재현율이고 y 축은 정확도이다. 일부 예들에서, BPP는 이미지 해상도, 예를 들어 원본 이미지 해상도에 대해 계산된다.

일부 예들에서는, 픽처 품질 대 코딩 효율 특징이 VCM에 대한 코딩 툴에 대해 결정될 수 있고, 픽처 품질 대 코딩 효율 특징에 기초하여 코딩 툴의 성능 평가가 결정될 수 있다. 코딩 툴에 대한 픽처 품질 대 코딩 효율 특징은 비디오를 코딩하기 위해 코딩 툴을 사용함으로써 픽처 품질과 코딩 효율의 관계를 나타낸다. 일부 예들에서, 코딩 툴의 픽처 품질 대 코딩 효율 특징은 제1 축 상에 픽처 품질을 그리고 제2 축 상에 코딩 효율을 갖는 2차원 평면에서 곡선으로서 표현될 수 있다. 일부 예들에서, 코딩 툴의 픽처 품질 대 코딩 효율 특징은 픽처 품질에 기초하여 코딩 효율을 계산하는 식으로 표현될 수 있다. 일부 예들에서, 코딩 툴의 픽처 품질 대 코딩 효율 특징은 픽처 품질을 코딩 효율과 연관시키는 룩업 테이블을 사용하여 표현될 수 있다.

일례로, 픽처 품질은 mAP(또는 MOTA)에 기초하여 측정되고, 코딩 효율은 BPP에 기초하여 측정된다. mAP(또는 MOTA) 대 BPP 간의 관계는 픽처 품질 대 코딩 효율 특징을 지시하는 곡선으로서 도출될 수 있고, 기계 시각에 대한 (코딩 툴로도 또한 지칭되는) 코딩 방식의 성능을 표현하는 데 사용될 수 있다. 추가로, 비디오/이미지 코딩 및 크롭 전에 패딩 또는 스케일링을 통해 비디오/이미지들이 전처리되어, 원본 콘텐츠의 상이한 해상도들, 이를테면 원본 해상도의 100%, 75%, 50% 및 25%를 달성할 수 있다. 디코딩된 비디오/이미지들은 기계 시각 작업들에 대한 디코딩 후에 원래의 해상도로 다시 스케일링될 수 있다. 일부 실시예들에서, 기계 시각에 대한 코딩 방식에 대해 여러 mAP(또는 MOTA) 대 BPP 곡선들이 도출될 수 있다.

본 개시의 일부 측면들은 예를 들어, mAP(또는 MOTA)와 BPP 간의 관계 곡선 또는 다수의 관계 곡선들로부터 단일 성능 값(성능 메트릭)을 계산하기 위한 기법들을 제공하며, 이에 따라 기계 시각에 대한 다수의 코딩 방식들의 비교는 다수의 코딩 방식들의 성능 값들에 기초할 수 있다. 예를 들어, 제어기(150)는 다수의 코딩 방식들에 대한 성능 메트릭 값들을 각각 계산할 수 있고, 성능 메트릭 값들에 기초하여 다수의 코딩 방식들 중에서 코딩 방식을 선택할 수 있다.

다음의 설명에서, mAP 대 BPP의 관계 곡선들이 본 개시의 일부 측면들에 따른 성능 메트릭 기법들을 예시하는 데 사용된다는 점이 주목된다. 성능 메트릭 기법들은 다른 관계 곡선들에 대해 사용될 수 있다. 예를 들어, mAP는 성능에 대한 다른 적절한 측정들, 이를테면 MOTA, 50%의 합집합 대비 교집합 임계치에서의 평균 정확도(AP50), 75%의 합집합 대비 교집합 임계치에서의 평균 정확도, 평균 정밀도 등으로 변경될 수 있다. 다른 예에서, 입력이 비디오일 때 BPP는 비트레이트로 변경될 수 있다.

본 개시의 일부 측면들에 따르면, BD(Bjødelta) 메트릭, 이를테면 BD-mAP(BD mean average precision), BD 픽셀당 비트들(BD 레이트)이 기계를 위한 비디오 코딩에 대한 성능 평가에 사용될 수 있다.

도 2는 본 개시의 일부 실시예들에 따른, 기계를 위한 비디오 코딩에 대한 BD 메트릭의 계산을 예시하기 위한 플롯(200)을 도시한다. 이 플롯(200)은 제1 VCM 방식에 대한 mAP 대 BPP의 제1 곡선(210) 및 제2 VCM 방식에 대한 mAP 대 BPP의 제2 곡선(220)을 포함한다. 일부 예들에서, mAP 및 BPP 값들은 양자화 파라미터(QP: quantization parameter)의 상이한 값들, 이를테면 모든 I 슬라이스들에 대한 QP(QPISlice)에 따라 결정될 수 있다.

예를 들어, 제1 VCM 방식을 사용하여 비디오를 코딩하기 위해, 제어기(150)는 QPISlice 값을 설정하고, 비디오 인코더(130) 및 특징 인코더(140)는 QPISlice 값을 기초로 제1 VCM 방식을 사용하여 비디오를 인코딩하고, 제1 코딩된 비트스트림을 생성할 수 있다. 제1 코딩된 비트스트림에 기초하여, QPISlice 값과 연관된 mAP 및 BPP 값들이 예를 들어, 제어기(150)에 의해 결정될 수 있다. 제어기(150)는 제1 VCM 방식을 사용하기 위한 상이한 QPISlice 값들을 설정하고, 개개의 QPISlice 값들과 연관된 mAP 및 BPP 값들을 결정할 수 있다. 그 다음, mAP 및 BPP 값들은 제1 곡선(210)을 형성하는 데 사용된다. 예를 들어, QPISlice 값에 대해, QPISlice 값과 연관된 mAP 값 및 BPP 값이 제1 곡선(210) 상에 점을 형성하는 데 사용된다.

유사하게, 제2 VCM 방식을 사용하여 비디오를 코딩하기 위해, 제어기(150)는 QPISlice 값을 설정하고, 비디오 인코더(130) 및 특징 인코더(140)는 QPISlice 값을 기초로 제2 VCM 방식을 사용하여 비디오를 인코딩하고, 제2 코딩된 비트스트림을 생성할 수 있다. 제2 코딩된 비트스트림에 기초하여, QPISlice 값과 연관된 mAP 및 BPP 값들이 예를 들어, 제어기(150)에 의해 결정될 수 있다. 제어기(150)는 제2 VCM 방식을 사용하기 위한 상이한 QPISlice 값들을 설정하고, 개개의 QPISlice 값들과 연관된 mAP 및 BPP 값들을 결정할 수 있다. 그 다음, mAP 및 BPP 값들은 제2 곡선(220)을 형성하는 데 사용된다. 예를 들어, QPISlice 값에 대해, QPISlice 값과 연관된 mAP 값 및 BPP 값이 제2 곡선(220) 상에 점을 형성하는 데 사용된다.

본 개시의 일 측면에 따르면, BD-mAP는 제1 곡선(210)과 제2 곡선(220) 사이의 평균 갭으로서 결정될 수 있고, 평균 갭은 제1 곡선(210)과 제2 곡선(220) 사이의 (회색 음영으로 도시된) 면적(230)에 관해 계산될 수 있다. 일부 예들에서, 제어기(150)는 2개의 곡선들, 이를테면 제1 곡선(210)과 제2 곡선(220) 사이의 갭의 면적을 계산하기 위한 알고리즘에 대응하는 소프트웨어 명령들을 실행하고, 예를 들어, 면적에 기초하여 BD-mAP 값을 결정할 수 있다.

일부 예들에서, 제1 VCM 방식은 (앵커로도 또한 지칭되는) 기준 방식일 수 있고, 제2 VCM 방식은 평가 중인(또는 테스트 중인) 방식이다. 일례로, 기준 방식은 스케일링되지 않은(또는 스케일이 100%인) 비디오에 적용되고, 평가 중인 방식은 비디오의 75% 스케일링된 비디오에 적용될 수 있다. 기준 방식을 참조한 제2 VCM 방식의 BD 메트릭은 제2 VCM 방식의 성능을 (제1 VCM 방식 및 제2 VCM 방식 이외의) 다른 VCM 방식과 비교하는 데 사용될 수 있다.

일부 실시예들에서, BD 레이트는 유사하게 결정될 수 있다.

도 3은 본 개시의 일부 실시예들에 따른, 기계를 위한 비디오 코딩에 대한 BD 메트릭의 계산을 예시하기 위한 플롯(300)을 도시한다. 이 플롯(300)은 제1 VCM 방식에 대한 BPP 대 mAP의 제1 곡선(310) 및 제2 VCM 방식에 대한 BPP 대 mAP의 제2 곡선(320)을 포함한다. 일부 예들에서, mAP 및 BPP 값들은 도 2를 참조하여 설명된 것과 동일한 방식으로 QPISlice의 상이한 값들에 따라 결정될 수 있다.

본 개시의 일 측면에 따르면, BD 레이트는 제1 곡선(310)과 제2 곡선(320) 사이의 평균 갭으로서 결정될 수 있고, 평균 갭은 제1 곡선(310)과 제2 곡선(320) 사이의 면적(330)에 관해 계산될 수 있다. 일부 예들에서, 제어기(150)는 2개의 곡선들, 이를테면 제1 곡선(310)과 제2 곡선(320) 사이의 갭의 면적을 계산하기 위한 알고리즘에 대응하는 소프트웨어 명령들을 실행하고, 예를 들어, 면적에 기초하여 BD 레이트 값을 결정할 수 있다.

일부 예들에서, 제1 VCM 방식은 기준 방식일 수 있고, 제2 VCM 방식은 평가 중인 방식이다. 일례로, 기준 방식은 스케일링되지 않은(또는 스케일이 100%인) 비디오에 적용되고, 평가 중인 방식은 비디오의 75% 스케일링된 비디오에 적용될 수 있다. 일례로, 제1 곡선(310)과 제2 곡선(320) 사이의 평균 갭은 등가 품질이 달성될 때 제2 VCM 방식을 사용하여 전송 또는 저장할 비트들이 14.75% 더 적음을 지시한다. 기준 방식을 참조한 제2 VCM 방식의 BD 메트릭은 제2 VCM 방식의 성능을 (제1 VCM 방식 및 제2 VCM 방식 이외의) 다른 VCM 방식과 비교하는 데 사용될 수 있다. 예를 들어, 제3 VCM 방식의 BD 레이트가 전송 또는 저장할 비트들이 10% 더 적음을 지시하면, 제2 VCM 방식은 제3 VCM 방식보다 더 양호한 VCM 성능을 갖는 것으로 결정된다.

본 개시의 일 측면에 따르면, 2개의 VCM 방식들을 비교할 때, 각각의 방식에 대해 다수의 BPP 대 mAP(또는 mAP 대 BPP) 곡선들이 생성될 수 있고, 일부 기법들은 성능 비교를 위한 성능 차이 값의 전체 요약을 지시하는 단일 성능 메트릭, 이를테면 BD 메트릭을 결정하는 데 사용된다.

일 실시예에서, 제1 VCM 방식에 대한 다수의 BPP 대 mAP(또는 mAP 대 BPP) 곡선들에 기초하여 제1 파레토 프론트 곡선이 형성될 수 있고, 제2 VCM 방식에 대한 다수의 mAP 대 BPP 곡선들에 기초하여 제2 파레토 프론트 곡선이 형성될 수 있다. 예를 들어, 제1 VCM 방식의 경우, 특정 BPP 대 mAP 곡선이 다른 BPP 대 mAP 곡선들보다 항상 더 양호할 때, 특정 BPP 대 mAP 곡선이 제1 파레토 프론트 곡선으로서 사용될 수 있다. 그러나 다수의 BPP 대 mAP 곡선들이 교차할 수 있는 경우, 다수의 BPP 대 mAP 곡선들의 최적의 섹션들이 제1 파레토 프론트 곡선을 형성하도록 선택될 수 있다. 제2 파레토 프론트 곡선은 제2 VCM 방식에 대해 유사하게 형성될 수 있다. 이어서, 제1 방식의 제1 파레토 프론트 곡선 및 제2 방식의 제2 파레토 프론트 곡선을 사용하여 BD 메트릭이 계산될 수 있다.

다른 실시예에서, VCM 방식의 다수의 BPP 대 mAP 곡선들에 대해 각각 BD 메트릭이 계산될 수 있고, 성능 비교를 위해 BD 메트릭의 값들의 평균(예컨대, 가중 평균)이 사용될 수 있다.

일부 예들에서, 원본 콘텐츠의 상이한 해상도들을 달성하도록 비디오가 전처리될 수 있고, 이어서, 전처리된 비디오들이 제1 VCM 방식 및 제2 VCM 방식을 사용하여 각각 코딩될 수 있으며, 상이한 해상도들에 대해 각각 BD 레이트들이 계산될 수 있다. 일례로, 상이한 해상도의 4개의 비디오들, 이를테면 100% 해상도의 제1 비디오, 75% 해상도의 제2 비디오, 50% 해상도의 제3 비디오 및 25% 해상도의 제4 비디오를 달성하도록 비디오가 전처리된다. 일례로, 제1 비디오에 제1 VCM 방식 및 제2 VCM 방식이 적용되어 제1 BD 레이트를 계산할 수 있고; 제2 비디오에 제1 VCM 방식 및 제2 VCM 방식이 적용되어 제2 BD 레이트를 계산될 수 있고; 제3 비디오에 제1 VCM 방식 및 제2 VCM 방식이 적용되어 제3 BD 레이트를 계산할 수 있고; 제4 비디오에 제1 VCM 방식 및 제2 VCM 방식이 적용되어 제4 BD 레이트를 계산할 수 있다. 그런 다음, 제1 VCM 방식과 제2 VCM 방식의 성능 비교를 위한 전체 BD 레이트로서, 제1 BD 레이트, 제2 BD 레이트, 제3 BD 레이트 및 제4 BD 레이트의 평균이 계산될 수 있다.

일부 예들에서, BD 레이트들은 동일하게 또는 상이하게 가중되어 전체 BD 레이트를 계산할 수 있다. 일례로, 특정 스케일은 다른 스케일들보다 더 중요하며, 특정 스케일에 더 높은 가중치가 할당될 수 있다. 일부 예들에서, 모든 가중치들의 합은 1과 같다. 다양한 해상도 스케일들에 대한 BPP 대 mAP 곡선들은, 각각이 다수의 곡선들을 갖는 2개의 VCM 방식들의 비교를 예시하기 위한 일례로서 사용된다는 점이 주목된다. 다수의 곡선들을 취급하기 위한 기법들은 다양한 해상도 스케일들을 갖는 기법들로 제한되지 않는다.

본 개시의 일부 측면들에 따르면, 특정 애플리케이션에서, 디코딩된 비디오는 기계 시각과 인간 시각 둘 다에 의해 소비될 수 있고, 성능 메트릭은 한 번에 두 사용 사례들(기계 시각과 인간 시각 둘 다에 의한 소비) 모두를 고려하여 2개의 코딩 방식들을 비교하는 데 사용될 수 있다. 일 실시예에서, 기계 시각에 대한 제1 BD 레이트 및 인간 시각에 대한 제2 BD 레이트가 각각 계산된 다음, 적절하게 조합되어 2개의 코딩 방식들의 성능 비교를 위한 성능 메트릭을 형성할 수 있다.

일부 예들에서, 2개의 코딩 방식들을 비교할 때, BPP 대 mAP 곡선들과 같은 기계 시각 메트릭을 사용하여 기계 시각에 대한 제1 BD 레이트(BD_m으로 표기됨)가 계산될 수 있다. 그런 다음, 인간 시각 메트릭, 이를테면 비트레이트 곡선 대 PSNR, 비트레이트 곡선 대 MS-SSIM, 비트레이트 곡선 대 SSIM 등을 사용하여 인간 시각에 대한 제2 BD 레이트(BD_h로 표기됨)가 계산될 수 있다. PSNR, MS-SSIM 또는 SSIM 이외의 유사한 인간 시각 관련 성능 메트릭이 인간 시각에 대한 코딩 성능을 측정하는 데 사용될 수 있다는 점이 주목된다.

일부 예들에서, 기계 시각에 대한 제1 BD 레이트와 인간 시각에 대한 제2 BD 레이트가 조합되어, BD_overall로 표기되는 최종 성능 비교 결과를 계산할 수 있다. 예를 들어, 식(1)이 기계 시각에 대한 제1 BD 레이트(BD_m) 및 인간 시각에 대한 제2 BD 레이트(BD_h)를 조합하는 데 사용될 수 있으며:

식(1)

여기서 w는 [0, 1]의 범위의 가중치를 나타내고, 전체 코딩 성능에 대한 인간 시각의 상대적 중요도를 지시한다.

일부 실시예들에서, 코딩 방식들의 비교를 위한 성능 메트릭으로서 비용 메트릭이 계산될 수 있다. (C로 표기된) 비용 메트릭은 왜곡에 대한 제1 부분 및 (RT로 표기된) 레이트 정보에 대한 제2 부분을 포함할 수 있다. 왜곡은 (D_h로 표기되는) 인간 시각에 대한 왜곡과 (D_m으로 표기되는) 기계 시각에 대한 왜곡의 조합으로서 생성되는 (D로 표기되는) 전체 왜곡일 수 있다. 일례로, (RT로서 표기되는) 레이트 정보는 코딩된 비디오를 표현하는 데 사용되는 비트스트림 길이일 수 있다. 일례로, 전체 왜곡(D) 및 비용 메트릭(C)은 식(2) 및 식(3)을 사용하여 계산될 수 있으며:

식(2)

식(3)

여기서 w1은 [0, 1]의 범위의 가중치이고, 인간 시각과 기계 시각의 조합의 전체 적용에서 인간 시각의 상대적 중요도를 지시하는 데 사용된다. 파라미터(λ)는 왜곡 및 레이트의 상대적 중요도를 지시하는 데 사용되는 음이 아닌 스칼라이다.

일부 예들에서, 인간 시각에 대한 왜곡(Dh)은 이를테면, 식(4)을 사용하여, 정규화된 평균 오차(NME: normalized mean error)로서 계산될 수 있으며:

식(4)

여기서 N은 이미지 또는 비디오의 총 픽셀들의 수를 나타내고; p는 흔히 1 또는 2이고; ∥P∥는 대응하는 p-정규 연산을 나타내고; ∥P∥ _max 는 원본 이미지 또는 비디오의 픽셀들에 대한 최대 p-정규값(normal)을 나타내고; P(i)는 원본 이미지 또는 비디오의 i번째 픽셀을 나타내는 한편; P'(i)는 디코딩된 이미지 또는 비디오에서 i번째 픽셀을 표현하였다. NME가 [0, 1]의 범위에 있다는 점이 주목된다.

일부 예들에서, 예를 들어, 이미지 또는 비디오가 단일 컬러 채널만을 갖는 단색일 때, p-정규 연산 ∥P∥는 절대값 연산으로 변경될 수 있다. 일례로, 컬러 이미지들 또는 비디오가 사용될 때, 픽셀은 (R, G, B)와 같은 3-값 튜플(tuple)로 표현될 수 있으며, 여기서 R, G 및 B는 RGB의 색 공간의 3개의 컬러 채널 값들을 나타낸다. 다른 예에서, 컬러 이미지들 또는 비디오가 사용될 때, 픽셀은 (Y, Cb, Cr)과 같은 3-값 튜플로 표현될 수 있으며, 여기서 Y, Cb 및 Cr은 YCbCr 색 공간의 3개의 채널 값들을 나타낸다. RGB 색 공간의 예를 사용하면, p-정규 연산은 예를 들어, 식(5)을 사용하여 계산될 수 있으며:

식(5)

여기서

는 각각의 컬러 채널에 대한 가중치들을 나타내며, 가중치들은 동일할 수 있거나 또는 동일하지 않을 수 있다. 일부 예들에서, 3개의 채널들이 상이한 해상도들을 갖는다면, 그러한 차이를 반영하도록 더 낮은 해상도들을 갖는 채널들에 더 작은 가중치들이 적용될 수 있다.

일부 예들에서, 각각의 채널에 대한 정규화된 평균 오차(NME)가 이를테면, 식(6) - 식(8)을 사용하여 먼저 계산될 수 있으며:

식(6)

식(7)

식(8)

여기서 N_R, N_G 및 N_B는 각각 R, G, B 채널들의 픽셀들의 수를 나타내고; R_max, G_max 및 B_max는 R, G 및 B 채널들에서의 최대 값들을 나타내며, 일부 예들에서는 흔히 동일한 값으로 설정된다.

는 원본 이미지 또는 비디오의 i번째 픽셀을 나타내고,

는 디코딩된 이미지 또는 비디오의 i번째 픽셀을 나타낸다. 또한, 일례로, p는 흔히 1 또는 2로 설정된다. 전체 정규화된 평균 오차(NME)는 이를테면, 식(9)을 사용하여

의 가중 평균으로서 계산될 수 있으며:

식(9)

여기서

는 3개의 컬러 채널들의 상대적 중요도를 나타내는 음이 아닌 가중치들이고

이다.

(6) - (8)에서의 상기 채널 기반 NME 계산은 4:2:0 서브샘플링 또는 4:4:4 서브샘플링을 갖는 Y'CbCr(YUV)과 같은 다른 컬러 포맷들로 적절하게 변경될 수 있다는 점이 주목된다. 일례로, 가중치 1은 Y 컴포넌트에만 할당될 수 있는 한편, 가중치 0은 다른 2개의 컴포넌트들(Cb, Cr)에 할당된다. 다른 예에서, 가중치들은 각각의 채널의 샘플 해상도들에 기초하여 결정된다. 예를 들어, 4:2:0에서, Y가 UV보다 더 높은 해상도를 갖기 때문에, UV 컴포넌트들의 가중치들은 Y 컴포넌트의 가중치보다 작아야 한다.

본 개시의 일 측면에 따르면, 기계 시각에 대한 왜곡은 기계 작업들에 따라 (1 - mAP) 또는 (1 - MOTA)로서 표현될 수 있다. mAP 및 MOTA가 [0, 1]의 범위에 있다는 점이 주목된다. 기계 시각에 대한 다른 유사한 성능 메트릭, 이를테면 평균 정밀도가 또한, 기계 시각의 왜곡의 컴퓨팅에서 mAP 또는 MOTA를 대체하는 데 사용될 수 있다는 점이 또한 주목된다.

일부 예들에서, 인간 시각에 대한 왜곡이 인간 시각에 대한 (Thresh_h로 표기되는) 임계치보다 더 클 때, 디코딩된 이미지는 인간 시각과 기계 시각의 조합의 목적에 유용하지 않을 수 있다. 유사하게, 기계 시각에 대한 왜곡이 기계 시각에 대한 (Thresh_m으로 표기되는) 임계치보다 클 때, 디코딩된 이미지는 인간 시각과 기계 시각의 조합의 목적에 대해 쓸모없게 된다. 어느 경우든, 전체 왜곡(D)은 그 최대 값(예컨대, 1)과 같은 미리 정의된 값으로 설정된다.

도 4는 기계 시각 및 인간 시각 둘 다가 고려되는 예에서 전체 왜곡(D) 및 전체 비용 메트릭(C)을 계산하기 위한 의사 코드들(400)의 일례를 도시한다. 도 4의 예에서, w1은 [0, 1]의 범위의 가중치이고, 인간 시각과 기계 시각의 조합의 전체 적용에서 인간 시각의 상대적 중요도를 지시하는 데 사용된다. 파라미터(D_h)는 인간 시각에 대한 왜곡이고, 파라미터(D_m)는 기계 시각에 대한 왜곡이다. 파라미터(λ)는 왜곡 및 레이트의 상대적 중요도를 지시하는 데 사용되는 음이 아닌 스칼라이다. 파라미터(Thresh_h)는 인간 시각에 대한 왜곡 임계치이고, 파라미터(Thresh_m)는 기계 시각에 대한 왜곡 임계치이다.

일부 예들에서, 기계 시각 작업들의 왜곡은 인간 시각 작업들보다 더 중요한 것으로 간주될 수 있는 한편, 인간 시각 관점의 품질은 가장 낮은 허용 가능 레벨로 유지되어야 한다.

도 5는 기계 시각 작업들의 왜곡이 인간 시각 작업들보다 더 중요한 것으로 간주되는 예에서 전체 왜곡(D) 및 전체 비용 메트릭(C)을 계산하기 위한 의사 코드들(500)의 일례를 도시한다. 인간 시각 관점의 품질은 가장 낮은 허용 가능 레벨로 유지될 수 있다. 도 5의 예에서, w1은 [0, 1]의 범위의 가중치이고, 인간 시각과 기계 시각의 조합의 전체 적용에서 인간 시각의 상대적 중요도를 지시하는 데 사용된다. 파라미터(D_m)는 기계 시각에 대한 왜곡이다. 파라미터(λ)는 왜곡 및 레이트의 상대적 중요도를 지시하는 데 사용되는 음이 아닌 스칼라이다. 파라미터(Thresh_h)는 인간 시각에 대한 왜곡 임계치이다.

일부 예들에서, 인간 시각의 왜곡이 가장 낮은 허용 가능 레벨 아래로 떨어질 때, 인간 시각의 왜곡이 고려될 수 있다.

도 6은 기계 시각 작업들의 왜곡이 인간 시각 작업들보다 더 중요한 것으로 간주되는 예에서 전체 왜곡(D) 및 전체 비용 메트릭(C)을 계산하기 위한 의사 코드들(600)의 일례를 도시한다. 인간 시각의 왜곡이 가장 낮은 허용 가능 레벨 아래로 떨어질 때 인간 시각의 왜곡이 고려될 수 있다. 도 6의 예에서, w1은 [0, 1]의 범위의 가중치이고, 인간 시각과 기계 시각의 조합의 전체 적용에서 인간 시각의 상대적 중요도를 지시하는 데 사용된다. 파라미터(D_h)는 인간 시각에 대한 왜곡이고, 파라미터(D_m)는 기계 시각에 대한 왜곡이다. 파라미터(λ)는 왜곡 및 레이트의 상대적 중요도를 지시하는 데 사용되는 음이 아닌 스칼라이다. 파라미터(Thresh_h)는 인간 시각에 대한 왜곡 임계치이다.

일부 예들에서, 인간 시각 및 기계 시각에 대한 코딩 성능을 조합하는 것 외에도, 2개보다 많은 작업들과 같은 다수의 작업들에 대한 코딩 성능이 조합될 수 있다. 다수의 작업들은 객체 검출 작업, 객체 세그먼트화 작업, 객체 추적 작업 등을 포함할 수 있다. M개의 작업들(M은 2보다 큰 정수임)의 일례로, 전체 BD 레이트는 이를테면, 식(10)을 사용하는 개별 작업들에 대한 BD 레이트들의 가중된 조합일 수 있으며:

식(10)

여기서 w(i)(i = 0, 1,…, M-1)는 음이 아닌 가중치 팩터이고 w(0) + w(1) + … + w(M-1) = 1이다. BD_i(i = 0,…, M-1)은 M개의 작업들에 대한 개개의 BD 레이트들이다.

M개의 작업들(M은 2보다 큰 정수임)의 일례로, 전체 왜곡은 이를테면, 식(11)을 사용하는 개별 작업들에 대한 왜곡들의 가중된 조합일 수 있으며, 그 다음, 예를 들어, 식(12)을 사용하여 비용 메트릭(C)이 계산될 수 있고:

식(11)

식(12)

여기서 w(i)(i = 0, 1,…, M-1)는 음이 아닌 가중치 팩터이고 w(0) + w(1) + … + w(M-1) = 1이다. D_i(i = 0,…, M-1)는 M개의 작업들에 대한 개개의 왜곡이다.

일부 예들에서, 작업에 대한 왜곡이 작업에 대한 임계치보다 더 클 때, 디코딩된 이미지는 다수의 작업들의 조합의 목적에 유용하지 않을 수 있다.

도 7은 임계치들이 각각의 작업에 대해 각각 사용되는 경우의 예에서 전체 왜곡(D) 및 전체 비용 메트릭(C)을 계산하기 위한 의사 코드들(700)의 일례를 도시한다. 작업에 대한 왜곡이 작업에 대한 임계치보다 더 클 때, 디코딩된 이미지는 다수의 작업들의 조합의 목적에 유용하지 않을 수 있다. 도 7의 예에서, w(i)(i = 0, 1,…, M-1)는 음이 아닌 가중치 팩터이고 w(0) + w(1) + … + w(M-1) = 1이다. D_i(i = 0,…, M-1)는 M개의 작업들에 대한 개개의 왜곡들이다. Thresh_i(i = 0,…, M-1)는 M개의 작업들에 대한 개개의 임계치들이다.

일부 예들에서, 컴퓨팅된 전체 왜곡에 기초하여, wmAP로 표기된 전체 가중 정확도는 예를 들어, 식(13)을 사용하여 계산될 수 있다:

식(13)

추가로, wmAP 대 BPP 곡선이 형성될 수 있다. 이어서, 2개의 wmAP 대 BPP 곡선들의 비교를 위한 대응하는 BD 레이트가 컴퓨팅될 수 있다.

2개의 코딩 방식들, 이를테면 앵커 코딩 방식과 테스트 코딩 방식을 비교하기 위한 일 실시예에서, 전체 BD 레이트가 컴퓨팅될 수 있다. 전체 BD 레이트가 음수라면, 테스트 코딩 방식은 앵커 코딩 방식보다 더 양호한 성능을 갖는다.

2개의 코딩 방식, 이를테면 앵커 코딩 방식과 테스트 코딩 방식을 비교하기 위한 일 실시예에서, 개개의 비용 메트릭 값들이 컴퓨팅될 수 있다. 더 작은 총 비용 메트릭 값을 갖는 코딩 방식은 더 양호한 성능을 갖는 것으로 간주된다.

위에서 설명된 기법들이 적절하게 수정될 수 있다는 점이 주목된다. 일부 예들에서, 변환 함수들이 사용될 수 있다. 일례로, 기계 시각 품질 메트릭들, 이를테면 mAP 또는 MOTA가 변환 함수의 입력으로서 사용될 수 있다. 그런 다음, 변환 함수의 출력은 BD 레이트 계산에 사용될 수 있다. 변환 함수는 선형 스케일링, 제곱근 연산, 로그 도메인 변환 등을 포함할 수 있다.

도 8은 본 개시의 일 실시예에 따른 프로세스(800)의 개요를 서술하는 흐름도를 도시한다. 프로세스(800)는 이를테면, VCM 시스템(100) 등에서 사용되는 코딩 방식 비교를 위해 사용될 수 있다. 다양한 실시예들에서, 프로세스(800)는 처리 회로, 이를테면 처리 회로(120) 등에 의해 실행된다. 일부 실시예들에서, 프로세스(800)는 소프트웨어 명령들로 구현되며, 따라서 처리 회로가 소프트웨어 명령들을 실행할 때, 처리 회로는 프로세스(800)를 수행한다. 프로세스는 (S801)에서 시작하며 (S810)으로 진행한다.

(S810)에서, VCM의 제1 코딩 방식에 대한 제1 픽처 품질 대 코딩 효율 특징이 결정된다.

(S820)에서, VCM의 제2 코딩 방식에 대한 제2 픽처 품질 대 코딩 효율 특징이 결정된다.

일부 예들에서, 픽처 품질은 임의의 적절한 기계 시각 품질 메트릭들, 이를테면 mAP(mean average precision), MOTA(multiple object tracking accuracy), 50%의 합집합 대비 교집합 임계치에서의 평균 정확도(AP50), 75%의 합집합 대비 교집합 임계치에서의 평균 정확도(AP75), 평균 정밀도 등에 의해 측정될 수 있다. 코딩 효율은 VCM에 대한 임의의 적절한 메트릭, 이를테면, BPP(bits per pixel) 등에 의해 측정될 수 있다.

(S830)에서, 제1 픽처 품질 대 코딩 효율 특징 및 제2 픽처 품질 대 코딩 효율 특징에 기초하여, 제1 코딩 방식과 제2 코딩 방식의 비교를 위한 BD(Bjødelta) 메트릭이 결정될 수 있다.

일부 예들에서, 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제1 곡선을 포함하고, 제2 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제2 곡선을 포함한다. 그런 다음, BD 메트릭은 제1 곡선과 제2 곡선 사이의 평균 갭으로서 계산될 수 있다. 평균 갭은 제1 곡선과 제2 곡선 사이의 면적에 관해 계산될 수 있다.

일례로, BD 메트릭은 이를테면, BD-mAP로 표기되는 mAP(mean average precision)에 관해 계산된다. 다른 예에서, BD 메트릭은 이를테면, BD-BPP 또는 BD 레이트로 표기되는 BPP(bits per pixel)에 관해 계산된다. 일례로, BD 메트릭은 이를테면, BD-MOTA로 표기되는 MOTA(multiple object tracking accuracy)에 관해 계산된다. 일례로, BD 메트릭은 이를테면, BD-AP50으로 표기되는 50%의 합집합 대비 교집합 임계치에서의 평균 정확도(AP50)에 관해 계산된다. 일례로, BD 메트릭은 이를테면, BD-AP75으로 표기되는 75%의 합집합 대비 교집합 임계치에서의 평균 정확도(AP75)에 관해 계산된다. 일례로, BD 메트릭은 평균 정밀도에 관해 계산된다.

일부 예들에서, 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하고, 제2 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들을 포함한다. 일례로, 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들에 기초하여 제1 파레토 프론트 곡선이 컴퓨팅되고, 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들에 기초하여 제2 파레토 프론트 곡선이 컴퓨팅된다. 이어서, 제1 파레토 프론트 곡선 및 제2 파레토 프론트 곡선에 기초하여 BD 메트릭이 컴퓨팅된다.

다른 예에서, 제2 픽처 품질 대 코딩 효율 특징 곡선들은 각각 제1 픽처 품질 대 코딩 효율 특징 곡선들에 대응한다. 그 다음, 제1 픽처 품질 대 코딩 효율 특징 곡선들 및 대응하는 제2 픽처 품질 대 코딩 효율 특징 곡선들에 기초하여 각각 BD 메트릭 값들이 계산된다. 그런 다음, 제1 코딩 방식과 제2 코딩 방식의 비교를 위한 전체 BD 메트릭으로서 BD 메트릭 값들의 가중 합이 계산될 수 있다.

일부 예들에서, 제1 코딩 방식 및 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용된다. 일례로, 기계 시각에 대한 BPP(Bits per pixel)의 제1 BD 레이트가 계산되고, 인간 시각에 대한 제2 BD 레이트가 계산된다. 그런 다음, 제1 코딩 방식과 제2 코딩 방식의 비교를 위한 전체 BD 메트릭으로서 제1 BD 레이트와 제2 BD 레이트의 가중 합이 계산된다.

다른 예에서, 제1 코딩 방식에 의해 기계 시각과 인간 시각에 대한 왜곡들의 가중 합에 기초하여 제1 전체 왜곡이 계산된다. 그런 다음, 제1 코딩 방식의 제1 레이트 정보 및 제1 전체 왜곡에 기초하여 제1 비용 메트릭 값이 계산된다. 또한, 제2 코딩 방식에 의해 기계 시각과 인간 시각의 왜곡들의 가중 합에 기초하여 제2 전체 왜곡이 계산되고, 제2 코딩 방식의 제2 레이트 정보 및 제2 전체 왜곡에 기초하여 제2 비용 메트릭 값이 계산된다. 제1 코딩 방식 및 제2 코딩 방식은 제1 비용 메트릭 값 및 제2 비용 메트릭 값에 기초하여 비교될 수 있다.

다른 예에서, 제1 픽처 품질은 제1 코딩 방식에 의해 기계 시각과 인간 시각에 대한 왜곡들의 가중 합에 기초하여 결정된다. 제2 픽처 품질은 제2 코딩 방식에 의해 기계 시각과 인간 시각에 대한 왜곡들의 가중 합에 기초하여 결정된다. 그런 다음, BD 메트릭이 계산되고 제1 코딩 방식과 제2 코딩 방식의 비교를 위해 사용될 수 있다.

일부 예들에서, 제1 코딩 방식 및 제2 코딩 방식은 다수의 시각 작업들에 대한 비디오 코딩에 사용된다. 이어서, 제1 코딩 방식에 의해 다수의 시각 작업들에 대한 왜곡들의 가중 합에 기초하여 제1 픽처 품질이 결정될 수 있다. 제2 픽처 품질은 제2 코딩 방식에 의해 다수의 시각 작업들에 대한 왜곡들의 가중 합에 기초하여 결정될 수 있다. 그런 다음, BD 메트릭이 계산되고 제1 코딩 방식과 제2 코딩 방식의 비교를 위해 사용될 수 있다.

그 다음, 프로세스는 (S899)로 진행하여 종료된다.

위에서 설명된 기법들은 컴퓨터 판독 가능 명령들을 사용하여 컴퓨터 소프트웨어로서 구현될 수 있고 하나 이상의 컴퓨터 판독 가능 매체들에 물리적으로 저장될 수 있다. 예를 들어, 도 9는 개시된 청구 대상의 특정 실시예들을 구현하기에 적합한 컴퓨터 시스템(900)을 도시한다.

컴퓨터 소프트웨어는 하나 이상의 컴퓨터 중앙 처리 유닛(CPU)들, 그래픽 처리 유닛(GPU)들 등에 의해, 직접적으로 또는 해석, 마이크로코드 실행 등을 통해 실행될 수 있는 명령들을 포함하는 코드를 생성하기 위해 어셈블리, 컴파일, 링크 또는 유사한 메커니즘들을 거칠 수 있는 임의의 적절한 기계 코드 또는 컴퓨터 언어를 사용하여 코딩될 수 있다.

명령들은 예를 들어 개인용 컴퓨터들, 태블릿 컴퓨터들, 서버들, 스마트폰들, 게임 디바이스들, 사물 인터넷 디바이스들 등을 포함하는 다양한 타입들의 컴퓨터들 또는 이들의 컴포넌트들 상에서 실행될 수 있다.

컴퓨터 시스템(900)에 대해 도 9에 도시된 컴포넌트들은 본질적으로 예시이며, 본 개시의 실시예들을 구현하는 컴퓨터 소프트웨어의 사용 또는 기능의 범위에 대해 어떠한 제한도 제안하도록 의도되지 않는다. 컴포넌트들의 구성이 컴퓨터 시스템(900)의 예시적인 실시예에 예시된 컴포넌트들 중 임의의 컴포넌트 또는 그러한 컴포넌트들의 조합과 관련된 어떠한 의존성이나 요건도 갖는 것으로 해석되지 않아야 한다.

컴퓨터 시스템(900)은 특정 인간 인터페이스 입력 디바이스들을 포함할 수 있다. 그러한 인간 인터페이스 입력 디바이스는 예를 들어, 촉각 입력(이를테면: 키 스트로크(keystroke)들, 스와이프(swipe)들, 데이터 글러브(glove) 움직임들), 오디오 입력(이를테면: 음성, 박수), 시각적 입력(이를테면: 제스처들), 후각적 입력(도시되지 않음)을 통해 하나 이상의 인간 사용자들에 의한 입력에 응답할 수 있다. 인간 인터페이스 디바이스들은 또한, 오디오(이를테면: 스피치, 음악, 주변 사운드), 이미지들(이를테면: 스캔된 이미지들, 정지 이미지 카메라로부터 획득된 사진 이미지들), 비디오(이를테면, 2차원 비디오, 입체 비디오를 포함하는 3차원 비디오)와 같은, 인간에 의한 의식적 입력과 반드시 직접적으로 관련되는 것은 아닌 특정 미디어를 캡처하는 데 사용될 수 있다.

입력 인간 인터페이스 디바이스들은: 키보드(901), 마우스(902), 트랙 패드(903), 터치 스크린(910), (도시되지 않은) 데이터 글러브, 조이스틱(905), 마이크로폰(906), 스캐너(907), 카메라(908) 중 하나 이상(각각 도시된 것 중 단 하나)을 포함할 수 있다.

컴퓨터 시스템(900)은 또한 특정 인간 인터페이스 출력 디바이스들을 포함할 수 있다. 그러한 인간 인터페이스 출력 디바이스들은 예를 들어, 촉각 출력, 사운드, 광 및 후각/미각을 통해 하나 이상의 인간 사용자들의 감각들을 자극할 수 있다. 그러한 인간 인터페이스 출력 디바이스들은 촉각 출력 디바이스들(예를 들어, 터치 스크린(910), (도시되지 않은) 데이터 글러브 또는 조이스틱(905)에 의한 촉각 피드백, 그러나 입력 디바이스들로서 기능하지 않는 촉각 피드백 디바이스들이 또한 존재할 수 있음), 오디오 출력 디바이스들(이를테면: 스피커들(909), (도시되지 않은) 헤드폰들), 시각적 출력 디바이스들(이를테면, 각각 터치 스크린 입력 능력을 갖거나 갖지 않고, 각각 촉각적 피드백 능력을 갖거나 갖지 않는 CRT 스크린들, LCD 스크린들, 플라즈마 스크린들, OLED 스크린들을 포함하는 스크린들(910) ― 이들 중 일부는 스테레오그래픽 출력과 같은 수단을 통해 2차원 시각적 출력 또는 3차원 이상의 출력을 출력하는 것이 가능할 수 있음 ―; (도시되지 않은) 가상 현실 안경, (도시되지 않은) 홀로그래픽 디스플레이들 및 연기 탱크들), 및 (도시되지 않은) 프린터들을 포함할 수 있다.

컴퓨터 시스템(900)은 또한, 인간 액세스 가능 저장 디바이스들 및 이들의 연관된 매체들, 이를테면 CD/DVD 또는 유사한 매체들(921)을 갖는 CD/DVD ROM/RW(920), 썸 드라이브(thumb-drive)(922), 착탈식 하드 드라이브 또는 솔리드 스테이트 드라이브(923), 레거시 자기 매체, 이를테면 (도시되지 않은) 테이프 및 플로피 디스크, 특수 ROM/ASIC/PLD 기반 디바이스들, 이를테면 (도시되지 않은) 보안 동글(security dongle)들 등을 포함하는 광학 매체들을 포함할 수 있다.

당해 기술분야에서 통상의 지식을 가진 자들은 또한, 현재 개시된 청구 대상과 관련하여 사용되는 바와 같은 "컴퓨터 판독 가능 매체들"이라는 용어가 전송 매체들, 반송파들, 또는 다른 일시적인 신호들을 포괄하지 않는다고 이해해야 한다.

컴퓨터 시스템(900)은 또한 하나 이상의 통신 네트워크들(955)에 대한 인터페이스(954)를 포함할 수 있다. 네트워크들은 예를 들어 무선, 유선, 광일 수 있다. 네트워크들은 추가로, 근거리, 광역, 대도시, 차량 및 산업, 실시간, 지연 용인(delay-tolerant) 등일 수 있다. 네트워크들의 예들은 근거리 네트워크들, 이를테면 이더넷, 무선 LAN들, GSM, 3G, 4G, 5G, LTE 등을 포함하는 셀룰러 네트워크들, 케이블 TV, 위성 TV 및 지상 브로드캐스트 TV를 포함하는 TV 유선 또는 무선 광역 디지털 네트워크들, CANBus를 포함하는 차량 및 산업용 등을 포함한다. 특정 네트워크들은 일반적으로, (예를 들어, 컴퓨터 시스템(900)의 USB 포트들과 같은) 특정 범용 데이터 포트들 또는 주변 버스들(949)에 부착된 외부 네트워크 인터페이스 어댑터들을 필요로 하며; 다른 것들은 일반적으로, 아래에서 설명되는 바와 같은 시스템 버스에 대한 부착(예를 들어, PC 컴퓨터 시스템으로의 이더넷 인터페이스 또는 스마트폰 컴퓨터 시스템으로의 셀룰러 네트워크 인터페이스)에 의해 컴퓨터 시스템((900)의 코어에 통합된다. 이러한 네트워크들 중 임의의 네트워크를 사용하여, 컴퓨터 시스템(900)은 다른 엔티티들과 통신할 수 있다. 그러한 통신은 예를 들어, 근거리 또는 광역 디지털 네트워크들을 사용하는 다른 컴퓨터 시스템들에 대해 단방향, 수신 전용(예를 들어, 브로드캐스트 TV), 단방향 송신 전용(예를 들어, 특정 CANbus 디바이스들에 대한 CANbus), 또는 양방향일 수 있다. 위에서 설명된 바와 같이, 특정 프로토콜들 및 프로토콜 스택들이 그러한 네트워크들 및 네트워크 인터페이스들 각각에 사용될 수 있다.

앞서 언급한 인간 인터페이스 디바이스들, 인간 액세스 가능 저장 디바이스들 및 네트워크 인터페이스들은 컴퓨터 시스템(900)의 코어(940)에 부착될 수 있다.

코어(940)는 하나 이상의 중앙 처리 유닛(CPU)(941), 그래픽 처리 유닛(GPU)(942), 필드 프로그래밍 가능 게이트 영역(FPGA: Field Programmable Gate Area)들(943) 형태의 특수 프로그래밍 가능 처리 유닛들, 특정 작업들을 위한 하드웨어 가속기들(944), 그래픽 어댑터들(950) 등을 포함할 수 있다. 이러한 디바이스들은 판독 전용 메모리(ROM: Read-only memory)(945), 랜덤 액세스 메모리(946), 내부 비-사용자 액세스 가능 하드 드라이브들, SSD들 등과 같은 내부 대용량 저장소(947)와 함께, 시스템 버스(948)를 통해 접속될 수 있다. 일부 컴퓨터 시스템들에서, 시스템 버스(948)는 추가 CPU들, GPU 등에 의한 확장들을 가능하게 하도록 하나 이상의 물리적 플러그들의 형태로 액세스 가능할 수 있다. 주변 디바이스들은 코어의 시스템 버스(948)에 직접적으로 또는 주변 버스(949)를 통해 부착될 수 있다. 일례로, 스크린(910)은 그래픽 어댑터(950)에 접속될 수 있다. 주변 버스를 위한 아키텍처들은 PCI, USB 등을 포함한다.

CPU들(941), GPU들(942), FPGA들(943) 및 가속기들(944)은 조합하여, 앞서 언급된 컴퓨터 코드를 구성할 수 있는 특정 명령들을 실행할 수 있다. 그 컴퓨터 코드는 ROM(945) 또는 RAM(946)에 저장될 수 있다. 전이(transitional) 데이터가 또한 RAM(946)에 저장될 수 있는 반면, 영구 데이터는 예를 들어, 내부 대용량 저장소(947)에 저장될 수 있다. 메모리 디바이스들 중 임의의 디바이스에 대한 고속 저장 및 리트리브는 하나 이상의 CPU(941), GPU(942), 대용량 저장소(947), ROM(945) 및 RAM(946) 등과 밀접하게 연관될 수 있는 캐시 메모리의 사용을 통해 가능해질 수 있다.

컴퓨터 판독 가능 매체들은 다양한 컴퓨터 구현 동작들을 수행하기 위한 컴퓨터 코드를 가질 수 있다. 매체 및 컴퓨터 코드는 본 개시의 목적들로 특별히 설계 및 구성된 것들일 수 있거나, 이들은 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자들에게 잘 알려져 있고 이용 가능한 종류일 수 있다.

제한이 아닌 예로서, 아키텍처(900)를 갖는 컴퓨터 시스템, 그리고 구체적으로 코어(940)는 (CPU들, GPU들, FPGA, 가속기들 등을 포함하는) 프로세서(들)가 하나 이상의 유형(tangible) 컴퓨터 판독 가능 매체들에 구현된 소프트웨어를 실행하는 결과로서 기능을 제공할 수 있다. 그러한 컴퓨터 판독 가능 매체들은 위에서 소개된 바와 같은 사용자 액세스 가능 대용량 저장소뿐만 아니라, 비-일시적 성질의 코어(940)의 특정 저장소, 이를테면 코어 내부 대용량 저장소(947) 또는 ROM(945)과 연관된 매체들일 수 있다. 본 개시의 다양한 실시예들을 구현하는 소프트웨어는 그러한 디바이스들에 저장되고 코어(940)에 의해 실행될 수 있다. 컴퓨터 판독 가능 매체는 특정 요구들에 따라 하나 이상의 메모리 디바이스들 또는 칩들을 포함할 수 있다. 소프트웨어는 코어(940) 및 구체적으로는 코어(940) 내의 (CPU, GPU, FPGA 등을 포함하는) 프로세서들로 하여금, RAM(946)에 저장된 데이터 구조들을 정의하는 것과 소프트웨어에 의해 정의된 프로세스들에 따라 그러한 데이터 구조들을 수정하는 것을 포함하여, 본 명세서에서 설명된 특정 프로세스들 또는 특정 프로세스들의 특정 부분들을 실행하게 할 수 있다. 추가로 또는 대안으로서, 컴퓨터 시스템은 본 명세서에서 설명되는 특정 프로세스들 또는 특정 프로세스들의 특정 부분들을 실행하도록 소프트웨어 대신 또는 소프트웨어와 함께 동작할 수 있는 회로(예를 들어: 가속기(944))에 하드와이어링되거나 달리 구현된 로직의 결과로서 기능을 제공할 수 있다. 적절한 경우, 소프트웨어에 대한 참조는 로직을 포함할 수 있고, 그 반대도 가능하다. 컴퓨터 판독 가능 매체에 대한 참조는 적절한 경우, 실행을 위한 소프트웨어를 저장하는 회로(이를테면, 집적 회로(IC: integrated circuit)), 실행을 위한 로직을 구현하는 회로, 또는 이 둘 모두를 포괄할 수 있다. 본 개시는 하드웨어와 소프트웨어의 임의의 적절한 조합을 포괄한다.

본 개시는 여러 예시적인 실시예들을 설명했지만, 본 개시의 범위 내에 속하는 변경들, 치환들 및 다양한 대체 등가물들이 있다. 따라서 당해 기술분야에서 통상의 지식을 가진 자들은, 본 명세서에서 명시적으로 도시되거나 설명되지는 않지만, 본 개시의 원리들을 구현하고 따라서 본 개시의 사상 및 범위 내에 있는 다수의 시스템들 및 방법들을 안출할 수 있을 것이라고 인식될 것이다.

Claims

비디오 코딩을 위한 방법으로서,
처리 회로에 의해, 기계를 위한 비디오 코딩(VCM: video coding for machines)의 제1 코딩 방식에 대한 제1 픽처 품질 대 코딩 효율 특징을 결정하는 단계;
상기 처리 회로에 의해, VCM의 제2 코딩 방식에 대한 제2 픽처 품질 대 코딩 효율 특징을 결정하는 단계; 및
상기 처리 회로에 의해, 상기 제1 픽처 품질 대 코딩 효율 특징 및 상기 제2 픽처 품질 대 코딩 효율 특징에 기초하여, 상기 제1 코딩 방식과 상기 제2 코딩 방식의 비교를 위한 BD(Bjøntegaard delta) 메트릭을 결정하는 단계
를 포함하는 비디오 코딩을 위한 방법.
제1항에 있어서,
mAP(mean average precision), BPP(bits per pixel), MOTA(multiple object tracking accuracy), 50%의 합집합 대비 교집합(intersection over union) 임계치에서의 평균 정확도(AP50), 75%의 합집합 대비 교집합 임계치에서의 평균 정확도(AP75) 및 평균 정밀도 중 적어도 하나로 상기 BD 메트릭을 계산하는 단계를 더 포함하는 비디오 코딩을 위한 방법.
제1항에 있어서,
상기 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제1 곡선을 포함하고,
상기 제2 픽처 품질 대 코딩 효율 특징은 상기 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제2 곡선을 포함하는,
비디오 코딩을 위한 방법.
제3항에 있어서,
상기 제1 곡선과 상기 제2 곡선 사이의 평균 갭으로서 상기 BD 메트릭을 계산하는 단계를 더 포함하는 비디오 코딩을 위한 방법.
제1항에 있어서,
상기 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 상기 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하고,
상기 제2 픽처 품질 대 코딩 효율 특징은 상기 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 상기 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하며,
상기 비디오 코딩을 위한 방법은:
상기 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들의 제1 파레토 프론트(pareto front) 곡선을 컴퓨팅하는 단계;
상기 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들의 제2 파레토 프론트 곡선을 컴퓨팅하는 단계; 및
상기 제1 파레토 프론트 곡선 및 상기 제2 파레토 프론트 곡선에 기초하여 상기 BD 메트릭을 계산하는 단계
를 더 포함하는,
비디오 코딩을 위한 방법.
제1항에 있어서,
상기 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 상기 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하고,
상기 제2 픽처 품질 대 코딩 효율 특징은 상기 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 상기 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하며,
상기 제2 픽처 품질 대 코딩 효율 특징 곡선들은 각각 상기 제1 픽처 품질 대 코딩 효율 특징 곡선들에 대응하고,
상기 비디오 코딩을 위한 방법은:
상기 제1 픽처 품질 대 코딩 효율 특징 곡선들 및 대응하는 상기 제2 픽처 품질 대 코딩 효율 특징 곡선들에 기초하여 각각 BD 메트릭 값들을 계산하는 단계; 및
상기 제1 코딩 방식과 상기 제2 코딩 방식의 비교를 위한 전체 BD 메트릭으로서, 상기 BD 메트릭 값들의 가중 합을 계산하는 단계
를 더 포함하는,
비디오 코딩을 위한 방법.
제1항에 있어서,
상기 제1 코딩 방식 및 상기 제2 코딩 방식은 기계 시각(vision)과 인간 시각 둘 다에 대한 비디오 코딩에 사용되며,
상기 비디오 코딩을 위한 방법은:
기계 시각에 대한 BPP(Bits per pixel)의 제1 BD 레이트를 계산하는 단계;
인간 시각에 대한 제2 BD 레이트를 계산하는 단계; 및
상기 제1 코딩 방식과 상기 제2 코딩 방식의 비교를 위한 전체 BD 메트릭으로서 상기 제1 BD 레이트와 상기 제2 BD 레이트의 가중 합을 계산하는 단계
를 포함하는,
비디오 코딩을 위한 방법.
제1항에 있어서,
상기 제1 코딩 방식 및 상기 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용되며,
상기 비디오 코딩을 위한 방법은:
상기 제1 코딩 방식에 의해 상기 기계 시각과 상기 인간 시각에 대한 왜곡들의 가중 합에 기초하여 제1 전체 왜곡을 계산하는 단계;
상기 제1 코딩 방식의 제1 레이트 정보 및 상기 제1 전체 왜곡에 기초하여 제1 비용 메트릭 값을 계산하는 단계;
상기 제2 코딩 방식에 의해 상기 기계 시각과 상기 인간 시각의 왜곡들의 가중 합에 기초하여 제2 전체 왜곡을 계산하는 단계;
상기 제2 코딩 방식의 제2 레이트 정보 및 상기 제2 전체 왜곡에 기초하여 제2 비용 메트릭 값을 계산하는 단계; 및
상기 제1 비용 메트릭 값 및 상기 제2 비용 메트릭 값에 기초하여 상기 제1 코딩 방식과 상기 제2 코딩 방식을 비교하는 단계
를 포함하는,
비디오 코딩을 위한 방법.
제1항에 있어서,
상기 제1 코딩 방식 및 상기 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용되며,
상기 비디오 코딩을 위한 방법은:
상기 제1 코딩 방식에 의해 상기 기계 시각과 상기 인간 시각에 대한 왜곡들의 가중 합에 기초하여 상기 제1 픽처 품질을 결정하는 단계; 및
상기 제2 코딩 방식에 의해 상기 기계 시각과 상기 인간 시각에 대한 왜곡들의 가중 합에 기초하여 상기 제2 픽처 품질을 결정하는 단계
를 포함하는,
비디오 코딩을 위한 방법.
제1항에 있어서,
상기 제1 코딩 방식 및 상기 제2 코딩 방식은 다수의 시각 작업들에 대한 비디오 코딩에 사용되며,
상기 비디오 코딩을 위한 방법은:
상기 제1 코딩 방식에 의해 상기 다수의 시각 작업들에 대한 왜곡들의 가중 합에 기초하여 상기 제1 픽처 품질을 결정하는 단계; 및
상기 제2 코딩 방식에 의해 상기 다수의 시각 작업들에 대한 왜곡들의 가중 합에 기초하여 상기 제2 픽처 품질을 결정하는 단계
를 포함하는,
비디오 코딩을 위한 방법.
비디오 코딩을 위한 장치로서,
처리 회로를 포함하며,
상기 처리 회로는:
기계를 위한 비디오 코딩(VCM)의 제1 코딩 방식에 대한 제1 픽처 품질 대 코딩 효율 특징을 결정하고;
VCM의 제2 코딩 방식에 대한 제2 픽처 품질 대 코딩 효율 특징을 결정하고; 그리고
상기 제1 픽처 품질 대 코딩 효율 특징 및 상기 제2 픽처 품질 대 코딩 효율 특징에 기초하여, 상기 제1 코딩 방식과 상기 제2 코딩 방식의 비교를 위한 BD(Bjøntegaard delta) 메트릭을 결정하도록 구성되는,
비디오 코딩을 위한 장치.
제11항에 있어서,
상기 처리 회로는:
mAP(mean average precision), BPP(bits per pixel), MOTA(multiple object tracking accuracy), 50%의 합집합 대비 교집합(intersection over union) 임계치에서의 평균 정확도(AP50), 75%의 합집합 대비 교집합 임계치에서의 평균 정확도(AP75) 및 평균 정밀도 중 적어도 하나로 상기 BD 메트릭을 계산하도록 구성되는,
비디오 코딩을 위한 장치.
제11항에 있어서,
상기 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제1 곡선을 포함하고,
상기 제2 픽처 품질 대 코딩 효율 특징은 상기 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 제2 곡선을 포함하는,
비디오 코딩을 위한 장치.
제13항에 있어서,
상기 처리 회로는:
상기 제1 곡선과 상기 제2 곡선 사이의 평균 갭으로서 상기 BD 메트릭을 계산하도록 구성되는,
비디오 코딩을 위한 장치.
제11항에 있어서,
상기 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 상기 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하고,
상기 제2 픽처 품질 대 코딩 효율 특징은 상기 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 상기 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하며,
상기 처리 회로는:
상기 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들의 제1 파레토 프론트 곡선을 컴퓨팅하고;
상기 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들의 제2 파레토 프론트 곡선을 컴퓨팅하고; 그리고
상기 제1 파레토 프론트 곡선 및 상기 제2 파레토 프론트 곡선에 기초하여 상기 BD 메트릭을 계산하도록 구성되는,
비디오 코딩을 위한 장치.
제11항에 있어서,
상기 제1 픽처 품질 대 코딩 효율 특징은 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 상기 제1 코딩 방식에 대한 제1 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하고,
상기 제2 픽처 품질 대 코딩 효율 특징은 상기 픽처 품질 및 코딩 효율에 대한 2차원 평면에서 상기 제2 코딩 방식에 대한 제2 다수의 픽처 품질 대 코딩 효율 곡선들을 포함하며,
상기 제2 픽처 품질 대 코딩 효율 특징 곡선들은 각각 상기 제1 픽처 품질 대 코딩 효율 특징 곡선들에 대응하고,
상기 처리 회로는:
상기 제1 픽처 품질 대 코딩 효율 특징 곡선들 및 대응하는 상기 제2 픽처 품질 대 코딩 효율 특징 곡선들에 기초하여 각각 BD 메트릭 값들을 계산하고; 그리고
상기 제1 코딩 방식과 상기 제2 코딩 방식의 비교를 위한 전체 BD 메트릭으로서, 상기 BD 메트릭 값들의 가중 합을 계산하도록 구성되는,
비디오 코딩을 위한 장치.
제11항에 있어서,
상기 제1 코딩 방식 및 상기 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용되며,
상기 처리 회로는:
기계 시각에 대한 BPP(Bits per pixel)의 제1 BD 레이트를 계산하고;
인간 시각에 대한 제2 BD 레이트를 계산하고; 그리고
상기 제1 코딩 방식과 상기 제2 코딩 방식의 비교를 위한 전체 BD 메트릭으로서 상기 제1 BD 레이트와 상기 제2 BD 레이트의 가중 합을 계산하도록 구성되는,
비디오 코딩을 위한 장치.
제11항에 있어서,
상기 제1 코딩 방식 및 상기 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용되며,
상기 처리 회로는:
상기 제1 코딩 방식에 의해 상기 기계 시각과 상기 인간 시각에 대한 왜곡들의 가중 합에 기초하여 제1 전체 왜곡을 계산하고;
상기 제1 코딩 방식의 제1 레이트 정보 및 상기 제1 전체 왜곡에 기초하여 제1 비용 메트릭 값을 계산하고;
상기 제2 코딩 방식에 의해 상기 기계 시각과 상기 인간 시각의 왜곡들의 가중 합에 기초하여 제2 전체 왜곡을 계산하고;
상기 제2 코딩 방식의 제2 레이트 정보 및 상기 제2 전체 왜곡에 기초하여 제2 비용 메트릭 값을 계산하고; 그리고
상기 제1 비용 메트릭 값 및 상기 제2 비용 메트릭 값에 기초하여 상기 제1 코딩 방식과 상기 제2 코딩 방식을 비교하도록 구성되는,
비디오 코딩을 위한 장치.
제11항에 있어서,
상기 제1 코딩 방식 및 상기 제2 코딩 방식은 기계 시각과 인간 시각 둘 다에 대한 비디오 코딩에 사용되며,
상기 처리 회로는:
상기 제1 코딩 방식에 의해 상기 기계 시각과 상기 인간 시각에 대한 왜곡들의 가중 합에 기초하여 상기 제1 픽처 품질을 결정하고; 그리고
상기 제2 코딩 방식에 의해 상기 기계 시각과 상기 인간 시각에 대한 왜곡들의 가중 합에 기초하여 상기 제2 픽처 품질을 결정하도록 구성되는,
비디오 코딩을 위한 장치.
제11항에 있어서,
상기 제1 코딩 방식 및 상기 제2 코딩 방식은 다수의 시각 작업들에 대한 비디오 코딩에 사용되며,
상기 처리 회로는:
상기 제1 코딩 방식에 의해 상기 다수의 시각 작업들에 대한 왜곡들의 가중 합에 기초하여 상기 제1 픽처 품질을 결정하고; 그리고
상기 제2 코딩 방식에 의해 상기 다수의 시각 작업들에 대한 왜곡들의 가중 합에 기초하여 상기 제2 픽처 품질을 결정하도록 구성되는,
비디오 코딩을 위한 장치.