KR20180003609A - 지각 비디오 품질을 예측하기 위한 기술 - Google Patents

지각 비디오 품질을 예측하기 위한 기술 Download PDF

Info

Publication number
KR20180003609A
KR20180003609A KR1020177035231A KR20177035231A KR20180003609A KR 20180003609 A KR20180003609 A KR 20180003609A KR 1020177035231 A KR1020177035231 A KR 1020177035231A KR 20177035231 A KR20177035231 A KR 20177035231A KR 20180003609 A KR20180003609 A KR 20180003609A
Authority
KR
South Korea
Prior art keywords
video
perceptual
training
values
value
Prior art date
Application number
KR1020177035231A
Other languages
English (en)
Other versions
KR102110022B1 (ko
Inventor
앤 아론
대 김
유-치에 린
데이비드 론카
앤디 슐러
쿠옌 차오
치-하오 우
Original Assignee
넷플릭스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 넷플릭스, 인크. filed Critical 넷플릭스, 인크.
Publication of KR20180003609A publication Critical patent/KR20180003609A/ko
Application granted granted Critical
Publication of KR102110022B1 publication Critical patent/KR102110022B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명의 일 실시예에서, 품질 트레이너 및 품질 계산기는 머신 학습을 통해 일관된 지각 품질 메트릭을 확립하기 위해 협력한다. 트레이닝 단계에서, 품질 트레이너는 머신 지능형 기술을 활용하여, 트레이닝 비디오들의 시청들 동안 할당된 주관적 메트릭을 최적으로 추적하기 위해 객관적 메트릭들을 결합하는 지각 품질 모델을 생성한다. 이어서, 품질 계산기는 타겟 비디오에 대한 객관적 메트릭에 대한 값들에 지각 품질 모델을 적용함으로써, 타겟 비디오에 대한 지각 품질 스코어를 생성한다. 이러한 방식으로, 지각 품질 모델은 트레이닝 단계 동안 처리된 시각적 피드백에 기초하여 타겟 비디오에 대한 객관적 메트릭들을 현명하게 융합한다. 각각의 객관적 메트릭의 지각 품질 스코어에 대한 기여가 경험적 데이터를 기반으로 결정되므로, 지각 품질 스코어는 기존 객관적 메트릭보다 관찰된 비디오 품질의 더 정확한 평가이다.

Description

지각 비디오 품질을 예측하기 위한 기술
관련 출원들에 대한 상호 참조
본 출원은 2015년 5월 11일자로 출원된 미국 특허 출원 제14/709,230호의 이익을 주장하며, 이는 본 명세서에 참고로 포함된다.
발명의 분야
본 발명의 실시예는 일반적으로 컴퓨터 과학에 관한 것으로, 보다 구체적으로는 지각 비디오 품질을 예측하기 위한 기술에 관한 것이다.
관련 기술의 설명
소스 비디오를 효율적이고 정확하게 인코딩하는 것은 비디오 콘텐츠의 실시간 전달을 위하여 필수적이다. 인코딩된 비디오 콘텐츠가 수신된 후, 소스 비디오는 디코딩되고 시청되거나, 그렇지 않으면 동작된다. 일부 인코딩 프로세스는 소스의 정확한 복제를 가능하게 하기 위하여, 호프만 코딩(Huffman coding)과 같은 무손실 압축 알고리즘을 채용한다. 대조적으로, 압축 레이트를 증가시키고/거나 인코딩된 비디오 콘텐츠의 크기를 감소시키기 위하여, 다른 인코딩 프로세스는 선택된 정보를 제거하여, 전형적으로 소스의 대략적인 재구성만을 가능하게 하는 손실성 데이터 압축 기술을 활용한다. 비디오가 디스플레이 디바이스의 치수와 일치하도록 더 큰 해상도로 스케일-업되는 리사이징 동작 중에 추가 왜곡이 도입될 수 있다.
전달된 비디오의 품질을 수동으로 검증하는 것은 엄청나게 많은 시간이 걸린다. 결과적으로, 수용 가능한 비디오 시청 경험을 보장하기 위해, 전달된 비디오의 품질을 효율적이고 정확하게 예측하는 것이 바람직한다. 따라서, 자동화된 비디오 품질 평가는 종종 인프라구조를 인코딩하고 스트리밍 하는데 필수적인 부분이다 - 비디오 품질을 유지하기 위해 인코더를 평가하고 스트리밍 비트레이트를 미세 튜닝하는 것과 같은 다양한 프로세스에서 이용됨 - .
인코딩된 비디오의 품질을 평가하는 하나의 접근법에서, 피크 신호 대 잡음 비(PSNR)와 같은 전체 참조 품질 메트릭은 소스 비디오와 인코딩된 비디오를 비교하기 위해 사용된다. 그러나 이러한 메트릭은 신호 충실도(즉, 소스 비디오에 대한 인코딩된 비디오의 충실)를 정확하게 반영하지만, 이러한 메트릭은 사람의 품질 인식을 안정적으로 예측하지 못한다. 예를 들어, 충실도 측정은 전형적으로, 스틸 장면의 시각적 아티팩트가 빠른 모션 장면의 시각적 아티팩트 보다 시청 경험을 현저하게 저하할 수 있다는 것을 반영하지 않는다. 또한, 이러한 지각 효과로 인해, 이러한 충실도 메트릭은 콘텐츠 종속적이며, 따라서 상이한 타입의 비디오 데이터에서 일관성이 없다. 예를 들어, 빠른 모션 장면으로 주로 구성된 액션 영화의 충실도 저하는 느리게 진행되는 다큐멘터리의 충실도 저하보다 덜 눈에 띈다.
전술한 바와 같이, 본 기술 분야에서 필요한 것은 비디오의 인지된 품질을 예측하기 위한 보다 효과적인 기술이다.
본 발명의 일 실시예는 지각 비디오 품질을 추정하기 위한 컴퓨터에 의해 구현되는 방법을 개시한다. 이 방법은 복수의 결정론적 비디오 특성을 나타내는 객관적 메트릭들의 세트를 선택하는 단계; 트레이닝 비디오들의 세트에 포함되는 각각의 트레이닝 비디오에 대해, 트레이닝 비디오를 기술하는 데이터 세트를 수신하는 단계 - 데이터 세트는 지각 비디오 품질 메트릭에 대한 주관적 값 및 객관적 메트릭들의 세트에 대한 객관적 값들의 세트를 포함함 - ; 데이터 세트들로부터, 객관적 메트릭들의 세트에 대한 값들의 세트에 기초하여 지각 비디오 품질 메트릭에 대한 값을 결정하는 복합 관계(composite relationship)를 도출하는 단계; 타겟 비디오에 대해, 객관적 메트릭들의 세트에 대한 제1 세트의 값들을 계산하는 단계; 및 지각 비디오 품질 메트릭에 대한 출력 값을 생성하기 위해 복합 관계를 제1 세트의 값들에 적용하는 단계를 포함한다.
지각 비디오 품질을 추정하기 위한 개시된 기술의 한 가지 장점은 지각 비디오 품질 메트릭을 정의하는 복합 관계가 직접적인 인간 관찰에 기초한 객관적 메트릭들을 융합한다는 것이다. 보다 구체적으로, 트레이닝 비디오들의 세트에 대한 인간 피드백이 객관적 메트릭들 각각의 기여를 안내하기 때문에, 타겟 비디오에 복합 관계를 적용하는 것은 인간 피드백을 일반화한다. 결과적으로, 지각 비디오 품질 메트릭은 인지된 비디오 품질을 신뢰성 있게 예측한다. 대조적으로, 종래의 품질 메트릭은 전형적으로 신호 충실도 - 인간 시각 시스템에 의해 인지되는 비디오 품질을 반드시 추적하지 않는 특성 - 를 측정한다.
위에서 언급된 본 발명의 특징들이 상세하게 이해될 수 있는 방식으로, 위에 간략하게 요약된 본 발명의 보다 구체적인 설명은 실시예들을 참조할 수 있으며, 그들 중 일부는 첨부 도면들에 도시되어 있다. 그러나 본 발명은 동등한 효과의 다른 실시예들을 허용할 수 있으므로, 첨부 도면들은 본 발명의 전형적인 실시예들만을 도시하며, 따라서 그것의 범위를 제한하는 것으로 간주되어서는 안된다는 점에 유의하여야 한다.
도 1은 본 발명의 하나 이상의 양태를 구현하도록 구성된 시스템의 개념도이다.
도 2는 본 발명의 일 실시예에 따른, 도 1의 객관적 메트릭 생성 서브시스템 및 지각 품질 트레이너를 도시하는 블록도이다.
도 3은 본 발명의 일 실시예에 따른, 도 1의 객관적 메트릭 생성 서브시스템 및 지각 품질 계산기를 도시하는 블록도이다.
도 4는 본 발명의 일 실시예에 따른, 지각 시각적 품질을 예측하기 위한 방법 단계들의 흐름도이다.
도 5는 본 발명의 일 실시예에 따른, 경험적으로 트레이닝된 모델에 기초하여 지각 시각적 품질 스코어에 대한 값들을 계산하기 위한 방법 단계들의 흐름도이다.
이하의 설명에서는, 본 발명의 더 충분한 이해를 제공하기 위해 다수의 특정 상세가 제시된다. 그러나 본 기술분야의 통상의 기술자에게는 본 발명이 이들 하나 이상의 특정 상세 없이도 실시될 수 있음이 명백할 것이다.
시스템 개요
도 1은 본 발명의 하나 이상의 양태를 구현하도록 구성된 시스템(100)의 개념도이다. 도시된 바와 같이, 시스템(100)은 입력 데이터를 송신하고/하거나 비디오를 표시할 수 있는 다양한 디바이스에 접속된 가상 사설 클라우드(즉, 캡슐화된 공유 자원, 소프트웨어, 데이터 등)(102)를 포함한다. 그러한 디바이스들은 데스크톱 컴퓨터(102), 스마트폰(104) 및 랩톱(106)을 포함하지만 이에 한정되지 않는다. 대안적 실시예들에서, 시스템(100)은 임의의 수 및/또는 타입의 입력, 출력, 및/또는 입출력 디바이스들을 임의의 조합으로 포함할 수 있다.
가상 사설 클라우드(virtual private cloud)(VPC)(100)는 임의의 수 및 타입의 컴퓨트 인스턴스들(compute instances)(110)을 제한 없이 포함한다. VPC(100)는 입력 디바이스(예를 들어, 랩톱(106))로부터 입력 사용자 정보를 수신하고, 하나 이상의 컴퓨터 인스턴스(110)는 사용자 정보에 대해 동작하고, VPC(100)는 처리된 정보를 사용자에게 송신한다. VPC(100)는 종래의 음극선관, 액정 디스플레이, 발광 다이오드 등과 같은 임의의 수의 디바이스들의 디스플레이 능력을 통해 출력 정보를 사용자에게 전달한다.
대안적 실시예들에서, VPC(100)는 공공 또는 하이브리드 클라우드와 같은 임의의 타입의 클라우드 컴퓨팅 환경으로 대체될 수도 있다. 다른 실시예들에서, 시스템(100)은 VPC(100) 대신에, 임의의 분산된 컴퓨터 시스템을 포함할 수 있다. 또 다른 실시예들에서, 시스템(100)은 VPC(100)를 포함하지 않고, 그 대신에 시스템(100)은 다수의 처리 유닛들(예컨대, 임의의 조합으로 된 중앙 처리 유닛들 및/또는 그래픽 처리 유닛들)을 구현하는 단일 컴퓨팅 유닛을 포함한다.
컴퓨트 인스턴스(1100)에 대해 도시된 바와 같이, 각각의 컴퓨트 인스턴스(110)는 중앙 처리 유닛(CPU)(112), 그래픽 처리 유닛(GPU)(114) 및 메모리(116)를 포함한다. 동작시, CPU(112)는 컴퓨트 인스턴스(110)에 포함된 다른 컴포넌트들의 동작들을 제어하고 조정하는 컴퓨트 인스턴스(110)의 마스터 프로세서이다. 특히, CPU(112)는 GPU(114)의 동작을 제어하는 커맨드들을 발행한다. GPU(114)는, 예를 들어 비디오 출력 회로를 포함하여 그래픽 및 비디오 처리에 최적화된 회로를 포함한다. 다양한 실시예에서, GPU(114)는 컴퓨트 인스턴스(110)의 다른 요소들 중 하나 이상과 통합될 수 있다. 메모리(116)는 컴퓨트 인스턴스(110)의 CPU(112) 및 GPU(114)에 의한 사용을 위해 소프트웨어 애플리케이션 및 데이터와 같은 콘텐츠를 저장한다.
일반적으로, VPC(100) 내에 포함된 컴퓨트 인스턴스들(110)은 하나 이상의 애플리케이션을 구현하도록 구성된다. 도시된 바와 같이, 컴퓨트 인스턴스들(1101-110N)은 인코더(120)로서 구성된다. 인코더(120)는 본 기술분야에 공지된 임의의 타입의 데이터 압축 기술을 임의의 기술적으로 실현 가능한 방식으로 구현한다. 일부 실시예에서, 인코더(140)는 소스 데이터를 다수의 청크로 분할한 다음 청크 상에서 동시에 데이터 압축 기술을 수행하는 병렬 청크 인코더이다.
인코딩된 데이터 크기 제한 및 이용 가능한 스트리밍 대역폭과 같은 리소스 제약을 따르기 위해, 인코더(120)는 선택된 정보를 제거하는 손실성 데이터 압축 기술을 구현한다. 정보를 제거함으로써, 인코더(120)는 소스 데이터가 재구성될 때 왜곡을 도입하는 "압축" 아티팩트를 생성한다. 재구성된 소스 데이터의 시각적 품질은 트랜스코딩 파이프라인에 포함된 다른 요소(즉, 한 포맷의 소스 데이터를 다른 포맷의 재구성된 데이터로 변환하는 애플리케이션)에 의해 종종 추가로 손상될 수 있다. 예를 들어, 소스 데이터를 다운 스케일링 및 인코딩한 다음 디코딩된 데이터를 디스플레이 디바이스에서 소스 해상도로 업 스케일링하는 프로세스 동안 "스케일링" 아티팩트가 도입될 수 있다.
허용 가능한 시청 경험을 보장하기 위해, 재구성된 데이터의 품질과, 간접적으로 트랜스코딩 파이프 라인에 포함된 요소의 캘리버(caliber)는 전형적으로 품질 메트릭을 사용하여 설계 및 전달 프로세스의 다양한 시점에서 평가된다. 품질 메트릭에 대한 값은 그 후 애플리케이션(예를 들어, 인코더)의 개발, 및 품질을 인식하는 스트림 스위칭 알고리즘과 같은 콘텐츠 전달의 실시간 최적화를 안내하는 데 사용된다.
광범위하게 적용되는 품질 메트릭(예를 들어, 평균 제곱 에러(mean-squared-error)(MSE) 및 피크 신호 대 잡음 비(peak signal-to-noise ratio)(PSRN))는 충실도 - 소스 데이터에 대한 재구성된 데이터의 충실 - 을 측정한다. 그러나 충실도 측정은, 예를 들어 자연 이미지에서의 마스킹, 대비 감도(contrast sensitivity) 또는 고도로 구조화된 콘텐츠와 같은 인간 시각 시스템(HVS)에 영향을 미치는 정신-시각 현상을 반영하지 않는다. 또한, 이러한 불완전하게 반영된 지각 효과로 인해, 이러한 충실도 메트릭은 콘텐츠 종속적이다 - 이 값들은 상이한 타입의 비디오 데이터에서 비교할 수 없다. 예를 들어, 그레인 잡음이 있는 비디오는, 인간 시청자에 의해 검출할 수 있는 시각적 영향이 상대적으로 낮을지라도 PSNR에서는 상대적으로 크게 불리하게 된다. 일반적으로, 종래의 품질 메트릭은 인간에 의해 인지되는 시각적 품질에 대한 신뢰할 수 있는 표시가 아니며, 따라서 시청 경험의 수용성이 아니다.
이러한 이유로, VPC(102) 내의 컴퓨트 인스턴스들(110) 중 하나 이상은 머신 학습 기술을 구현하여 일관된 지각 품질 메트릭을 개시한다. 특히, 지각 품질 스코어(perceptual quality score)(165)(즉, 지각 품질 메트릭에 대한 값)는 비디오 콘텐츠의 타입에 관계없이 보편적인 방식으로 주관적인 인간 시각 경험에 상관된다. 일관된 지각 품질 메트릭을 구현하기 위해 본 기술분야에 공지된 임의의 타입의 학습 알고리즘이 활용될 수 있다. 일부 실시예들에서, 지원 벡터 머신(support vector machine)(SVM)은 일관된 지각 품질 메트릭을 위한 프레임워크를 제공한다. 다른 실시예에서, 신경망은 일관된 지각 품질 메트릭을 확립하기 위한 알고리즘을 구현한다.
도 1에 점선으로 도시된 트레이닝 단계에서, 지각 품질 트레이너(150)는 지각 품질 모델(155)을 생성한다. 지각 품질 모델(155)은 트레이닝 데이터의 시청 동안 할당된 주관적 메트릭(135)에 대한 값을 최적으로 추적하기 위해 객관적 메트릭(145)을 결합하는 감독 학습 모델이다. 객관적 메트릭 서브시스템(140)은 트레이닝 데이터와 대응하는 인코딩된 트레이닝 데이터 간의 비교 동작에 기초하여 객관적 메트릭(145)을 생성한다. 이러한 객관적 메트릭(145)은 완전-참조 품질 지수로 지칭되며, 임의의 기술적으로 실현 가능한 방식으로 생성될 수 있다. 디코더(125)가 인코딩된 트레이닝 데이터로부터 재구성된 트레이닝 데이터를 생성한 후에, 시청자들(110)은 랩톱(106)의 스크린과 같은 디스플레이 디바이스 상에서 재구성된 데이터를 시청하고, 시각적 품질을 개인별로 레이트(rate)한다 - 주관적 메트릭(135)에 값들을 할당한다.
지각 품질 트레이너(150)는 객관적 메트릭(145)에 대한 계산된 값 및 주관적 메트릭(135)에 대한 사람-할당된 값을 수신한다. 지각 품질 트레이너(150)는 그 후 이들 메트릭에 기초하여 지각 품질 모델(155)을 트레이닝시킨다. 보다 구체적으로, 지각 품질 트레이너(150)는 객관적 메트릭(145)과 주관적 메트릭(135) 사이의 패턴을 인식하는 학습 알고리즘을 실행한다. 이어서, 지각 품질 트레이너(150)는 주관적 메트릭(135)에 대한 값을 반영하는 지각 품질 스코어(165)로 객관적 메트릭(145)에 대한 값들을 융합시키기 위해 지각 품질 모델(155)을 구성하며, 결과적으로는 시청자(110)의 경험을 구성한다.
도 1에서 실선으로 도시된 스코어링 단계에서, 지각 품질 계산기(160)는 지각 품질 모델(155), 및 타겟 데이터에 대한 객관적 메트릭(145)에 대한 값을 수신한다. 지각 품질 계산기(160)는 지각 품질 모델(155)을 객관적 메트릭(145)에 대한 값에 적용하고 타겟 데이터에 대한 지각 품질 스코어(165)를 생성한다. 객관적 메트릭(145)에 대한 값은 임의의 기술적으로 실현 가능한 방식으로 생성될 수 있다. 예를 들어, 객관적 메트릭 서브시스템(140)은 임의의 기준 데이터(예를 들어, 소스 데이터)를 임의의 도출된 타겟 데이터(예를 들어, 인코딩된 소스 데이터)와 비교하여 객관적 메트릭(145)에 대한 값을 계산할 수 있다.
트레이닝 단계
도 2는 본 발명의 일 실시예에 따른, 도 1의 객관적 메트릭 생성 서브시스템(140) 및 지각 품질 트레이너(150)를 도시하는 블록도이다. 객관적 메트릭 생성 서브시스템(140)은 임의의 기술적으로 실현 가능한 방식으로 구현될 수 있으며, 객관적 메트릭(145)에 대한 임의의 수의 값을 각각 생성하는 임의의 수의 개별 애플리케이션을 포함할 수 있다. 지각 품질 트레이너(150)는 지원 벡터 머신(SVM) 모델 생성기(240) 및 시간 조정 식별자(250)를 포함하지만 이에 제한되지 않는다.
트레이닝 비디오들의 세트에 대한 인코딩된 트레이닝 데이터(295) 및 트레이닝 데이터(205)를 수신할 때, 객관적 메트릭 생성 서브시스템(140)은 객관적 메트릭(145)에 대한 값을 계산한다. 트레이닝 비디오는 지각 품질 스코어(165)에 의해 표현될 비디오 타입의 범위를 표현하는 임의의 수 및 길이의 비디오 클립을 포함할 수 있다. 예를 들어, 일 실시예에서, 트레이닝 세트 내의 비디오 클립은 다양한 범위의 하이 레벨 피처들(예를 들어, 애니메이션, 스포츠, 실내, 카메라 모션, 얼굴 클로즈업, 사람, 물, 명백한 돌출부, 객체 번호) 및 로우 레벨 특성들(예를 들어, 필름 그레인 잡음, 밝기, 콘트라스트, 텍스처, 모션, 색상 차이, 색상 풍부함, 선명도)에 걸쳐있다.
일부 실시예에서, 트레이닝 비디오들의 세트는 서던 캘리포니아 대학에서 공개적으로 입수 가능한 비디오 클립의 MCL-V 비디오 데이터베이스이다. 다른 실시예에서, 비디오 클립의 ML-V 비디오 데이터베이스는 선택된 높은 필름 그레인 클립 및 애니메이션 타이틀로 보충되어 트레이닝 비디오들의 세트의 다양성 및 견고성을 증가시킨다. 트레이닝 데이터(205)는 트레이닝 비디오를 포함하고, 인코딩된 트레이닝 데이터(295)는 트레이닝 데이터(205)로부터 도출된다. 보다 구체적으로, 트레이닝 데이터(205)에 포함된 클립들 각각에 대해, 인코더(150)는 다양한 상이한 해상도 및/또는 품질 레벨(즉, 비트레이트)에서 클립을 반복적으로 인코딩하도록 구성된다. 이러한 방식으로, 미리 결정된 수의 인코딩된 클립이 트레이닝 세트 내의 각각의 비디오 클립으로부터 생성되고, 이들 인코딩된 클립은 인코딩된 트레이닝 데이터(295)를 형성한다.
일반적으로, 각각의 비디오 품질 메트릭은 강점과 약점을 모두 나타낸다. 강점을 이용하고 약점을 완화하기 위해, 객관적 메트릭 생성 서브시스템(140)은, 인코딩된 트레이닝 데이터(295)의 범위에 걸쳐 시각적 품질에 귀중한 통찰력을 함께 제공하는 객관적 메트릭(145)의 세트를 계산하도록 구성된다. 객관적 메트릭(145)의 선택은 임의의 수의 예상된 아티팩트를 처리하기 위해 임의의 기술적으로 실현 가능한 방식으로 이루어질 수 있다. 예를 들어, 일부 실시예에서, 객관적 메트릭(145)은 압축(즉, 블로키니스(blockiness)) 및 스케일링(즉, 블러리니스(blurriness))에 의해 야기되는 열화를 평가하기 위해 경험적으로 선택된다.
도시된 바와 같이, 객관적 메트릭(145)은 상세 손실 측정(detail loss measure)(DLM)(242), 시각 정보 충실도(visual information fidelity)(VIF)(244) 및 안티-잡음 신호-대-잡음 비(anti-noise signal-to-noise ratio)(ANSNR)(246)를 포함한다. DLM(242)은 신호의 블러리니스 컴포넌트를 식별하기 위해 웨이블릿 분해(wavelet decomposition)를 적용하는 것에 기초한다. DLM(242)은 중간 품질 범위에서의 블러리니스를 검출할 때에는 상대적으로 양호하지만, 보다 높은 품질 범위에서의 품질을 판별할 때에는 상대적으로 열악하다. VIF(244)는 주파수 도메인에서 신호를 분석하기 위해 웨이브렛 변환을 적용하는 것에 기초한다. VIF(244)는 약간의 블루잉 아티팩트(bluing artifact)를 검출할 때에는 상대적으로 양호하지만, 블로킹 아티팩트를 검출할 때에는 상대적으로 열악하다.
ANSNR(246)은 영화 콘텐츠에 대한 SNR의 일부 단점을 완화하도록 설계된다. SNR 계산을 수행하기 전에, 객관적 메트릭 생성 서브시스템(140)은 트레이닝 데이터(205)에 약한 저역 통과 필터를 적용하고 인코딩된 트레이닝 데이터(295)에 강한 저역 통과 필터를 적용한다. ANSNR(246)은 상대적으로 계산이 빠르며 압축 아티팩트 및 강한 스케일링 아티팩트를 검출하는데 양호하다. 그러나 ANSNR(246)은 약간의 블러링 아티팩트를 무시하고, 결과적으로 고품질 범위에서의 사소한 품질 변화에는 민감하지 않다.
추가의 최적화로서, 인간 시각 시스템이 높은 모션의 기간 동안 열화에 덜 민감하기 때문에, 객관적 메트릭 생성 서브시스템(140)은 모션 값(248)을 계산한다. 각각의 프레임에 대해, 객관적 메트릭 생성 서브시스템(140)은 이전 프레임에 대한 프레임의 평균 동일 위치 픽셀 차이(mean co-located pixel difference)로서 모션 값(248)을 계산한다. 특히, 잡음이 모션으로 잘못 해석될 가능성을 줄이기 위해, 객관적 메트릭 생성 서브시스템(140)은 차이 계산을 수행하기 전에 저역 통과 필터를 적용한다.
주관적 메트릭(135)에 대한 값은 임의의 수 및 타입의 디스플레이 디바이스 상에서, 본 명세서에서 재구성된 트레이닝 데이터로 지칭되는, 인코딩된 트레이닝 데이터(295)의 디코딩된 버전 및 트레이닝 데이터(205)를 시청한 후에 시청자(110)에 의해 할당된다. 일 실시예에서, 시청자(110) 각각은 재구성된 트레이닝 클립들 각각과 나란한 각각의 트레이닝 클립을 시청하고 주관적 메트릭(135)에 값을 할당한다. 주관적 메트릭(135)에 대한 값은 인지된 시각적 품질을 나타내는 절대 값이다. 예를 들어, 일 실시예에서, 주관적 메트릭(135)에 대한 값은 0에서 100까지 변할 수 있다. 100의 스코어는, 재구성된 트레이닝 클립이 트레이닝 클립과 동일하게 보이는 것을 나타낸다. 20 아래의 스코어는, 재구성된 트레이닝 클립이 중요한 장면 구조를 잃어 버리고 트레이닝 클립에 비해 상당한 블러링을 보이는 것을 나타낸다.
이어서, SVM 모델 생성기(240)는 모션 값(248), 객관적 메트릭(145)에 대한 값, 및 인코딩된 트레이닝 데이터(295)에 대한 주관적 메트릭(135)에 대한 값을 수신한다. SVM 모델 생성기(240)는 그 후 학습 알고리즘을 적용하여 지각 품질 모델(150)을 트레이닝시킨다. 인코딩된 트레이닝 데이터(295)에 대해, SMV 모델 생성기(240)는 주관적 메트릭(135)에 대한 관찰된 값과 객관적 메트릭(145)에 대한 계산된 값뿐만 아니라 모션 값(248) 사이의 상관을 식별한다. SVM 모델 생성기(240)는 지각 품질 모델(155) - 주관적 메트릭(135)을 추정하는 모션 값(248)과 객관적 메트릭(135)의 융합 - 을 생성한다. 본 기술분야의 통상의 기술자가 인식할 수 있는 바와 같이, SVM 모델 생성기(240)는 임의의 타입의 모델을 생성하기 위해 다수의 학습 알고리즘 중 임의의 것을 구현할 수 있다. 대안적 실시예에서, SVM 모델 생성기(240)는 신경망과 같은 임의의 타입의 학습 알고리즘을 구현하는 임의의 처리 유닛으로 대체될 수 있다.
시간 조정 식별자(250)는 코너 경우들(corner cases)에 대한 지각 품질 모델(155)을 튜닝하도록 구성된다. 특히, 매우 높은 모션 장면(즉, 높은 모션 값(248))에 대해, 지각 품질 모델(155)은 시간 마스킹 효과를 적절하게 나타내지 못할 수 있다. 결과적으로, 시간 조정 식별자(250)는 그러한 장면에 대한 지각 품질 모델(155)에 적용되는 시간 조정(255)을 생성한다. 일부 실시예에서, 시간 조정(255)은 임계 값 및 백분율을 포함한다. 시간 조정(255)은 지각 품질 모델(155)과 함께 적용되어, 지각 품질 모델(155)을 통해 계산된 지각 품질 스코어(165)를 그 백분율만큼 증가시킨다.
스코어링 단계
도 3은 본 발명의 일 실시예에 따른, 도 1의 객관적 메트릭 생성 서브시스템(140) 및 지각 품질 계산기(160)를 도시하는 블록도이다. 도시된 바와 같이, 지각 품질 계산기(150)는 지원 벡터 머신(SVM) 매퍼(360) 및 시간 조정기(370)를 포함하지만 이에 제한되지 않는다. 지각 품질 계산기(150)는 스코어링 단계 동안 동작한다 - "트레이닝된" 지각 품질 모델(155) 및 시간 조정(255)에 기초하여 소스 데이터(105)로부터 도출되는 인코딩된 데이터(195)에 대한 지각 품질 스코어(165)를 계산한다.
SVM 매퍼(360)는 임의의 수의 트레이닝 데이터(105)에 대응하는 임의의 수의 지각 품질 모델(155) 및 시간 조정(255)으로 구성될 수 있다. 일부 실시예에서, 모델 선택 모듈(도시되지 않음)은 유사한 콘텐츠의 트레이닝 데이터(105)를 그룹으로 분류한 다음, 평가될 인코딩된 데이터(195)의 콘텐츠에 기초하여 지각 품질 모델(155)을 할당한다. 예를 들어, 한 세트의 트레이닝 데이터(105)는 비교적 높은 품질의 비디오를 포함할 수 있고, 따라서 대응하는 지각 품질 모델(155)은 고품질 인코딩된 데이터(195)에 대한 지각 품질 스코어(165)를 결정하도록 최적화된다. 대조적으로, 다른 세트의 트레이닝 데이터(105)는 비교적 낮은 품질의 비디오를 포함할 수 있고, 따라서 대응하는 지각 품질 모델(155)은 저품질 인코딩된 데이터(195)에 대한 지각 품질 스코어(165)를 결정하도록 최적화된다.
소스 데이터(105), 및 소스 데이터(105)로부터 도출된 인코딩된 데이터(195)의 수신시, 객관적 메트릭 생성 서브시스템(140)은 객관적 메트릭(145) 및 모션 값(248)에 대한 값을 계산한다. 일반적으로, 객관적 메트릭(145) 및 모션 값(248)에 대한 값은 임의의 기술적으로 실현 가능한 방식으로 결정될 수 있다. 예를 들어, 일부 실시예는 다수의 객관적 메트릭 계산기를 포함하고, 각각의 객관적 메트릭 계산기는 상이한 객관적 메트릭을 구성한다.
SVM 매퍼(360)는 지각 품질 스코어(165)를 생성하기 위해 객관적 메트릭(145) 및 모션 값(248)에 지각 품질 모델(155)을 적용한다. 이어서, 시간 조정기(370)는 시각 조정(255)을 지각 품질 스코어(165)에 선택적으로 적용하여 코너 경우들을 미세 튜닝한다. 일 실시예에서, 시간 조정기(370)는 동작 값(240)을 시간 조정(255)에 포함된 임계 값과 비교한다. 모션 값(240)이 임계 값을 초과하면, 시간 조정기(370)는 높은 모션 장면에 대한 지각 품질 모델(155)의 고유한 비관론(inherent pessimism)을 반영하기 위해 시간 조정(255)에 포함된 백분율만큼 지각 품질 스코어(165)를 증가시킨다. 지각 품질 모델(155) 및 시간 조정(255)은 시청자(110)에 의해 관찰된 품질을 추적하기 때문에, 지각 품질 스코어(165)는 사람에 의해 시청될 때 인코딩된 데이터(185)의 품질을 반영한다.
여기에 기술된 기술들은 제한적인 것이라기보다는 예시적인 것이며, 본 발명의 더 넓은 사상 및 범위를 벗어나지 않고 변경될 수 있음에 유의한다. 특히, 지각 품질 트레이너(150)는 실험적으로 관찰된 시각 품질을 추적하기 위해 다수의 객관적으로 계산된 값을 융합하는 모델을 생성하기 위해 임의의 수의 머신 학습 프로세스를 구현하는 임의의 모듈로 대체될 수 있다. 이에 대응하여, 지각 품질 계산기(160)는 일관된 방식으로 모델을 적용하는 임의의 모듈로 대체될 수 있다. 또한, 지각 품질 트레이너(150)는 생성된 모델을 미세 튜닝하도록 설계된 임의의 수의 조정 식별 모듈을 포함할 수 있고, 지각 품질 계산기(160)는 식별된 조정을 적용하는 임의의 수의 조정 계산기를 포함할 수 있다.
트레이닝 데이터(105), 객관적 메트릭(145), 주관적 메트릭(135) 및 모션 값(245)의 세분성(granularity)(예를 들어, 프레임별, 장면별, 샷별, 6분 클립별 등)은 구현 내에서 구현 간에 다를 수 있다. 본 기술분야의 통상의 기술자가 인식할 수 있는 바와 같이, 종래의 수학적 기술(예를 들어, 평균화, 외삽, 보간, 최대화 등)은 임의의 조합으로 객관적 메트릭(145), 주관적 메트릭(135) 및/또는 모션 값(245)에 적용되어 측정 단위 일관성을 보장할 수 있다. 또한, 지각 품질 트레이너(150) 및 지각 품질 계산기(160)는 지각 품질 모델(155), 시간 조정(255) 및/또는 지각 품질 스코어(160)를 임의의 세분성으로 결정하도록 구성될 수 있다.
인간-인지 품질의 예측
도 4는 본 발명의 일 실시예에 따른, 지각 시각적 품질을 예측하기 위한 방법 단계들의 흐름도이다. 방법 단계들이 도 1 내지 도 3의 시스템들과 관련하여 설명되었지만, 통상의 기술자라면, 임의의 순서로 방법 단계들을 수행하도록 구성된 임의의 시스템은 본 발명의 범위 내에 있다는 것을 이해할 것이다.
도시된 바와 같이, 방법(400)은 지각 품질 트레이너(150)가 트레이닝 데이터(205)를 수신하는 단계 404에서 시작한다. 트레이닝 데이터(205)는 임의의 수 및 길이의 비디오 클립을 포함할 수 있다. 예를 들어, 일 실시예에서 트레이닝 데이터(205)는 16개의 6분 클립을 포함한다. 단계 406에서, 인코더(120)는 임의의 수의 해상도 및 비트레이트의 조합에 대한 인코딩된 테스트 데이터(295)를 트레이닝 데이터(205)로부터 도출한다. 일반적으로, 해상도 및 비트레이트는 디바이스 및/또는 스트리밍 대역폭에 대한 타겟 지원 범위를 반영하도록 선택된다.
단계 406에서, 지각 품질 트레이너(150)는 인코딩된 트레이닝 데이터(295)로부터 도출된 재구성된 비디오 클립(즉, 디코딩된, 스케일된 등)에 대한 주관적 메트릭(135)에 대한 값들을 수신한다. 지각 품질 트레이너(150)는 임의의 형태로 주관적 메트릭(135)에 대한 값을 획득할 수 있고, 임의의 수의 후처리 동작(예를 들어, 평균화, 원격 데이터 포인트(outlying data point)의 제거 등)을 수행할 수 있다. 대안적 실시예에서, 지각 품질 트레이너(150)는 임의의 수의 주관적 메트릭(135)에 대응하는 데이터를 임의의 기술적으로 실현 가능한 방식으로 수신하고 처리할 수 있다.
예를 들어, 일부 실시예에서, 지각 품질 트레이너(150)는 트레이닝 데이터(205)와 인코딩된 트레이닝 데이터(295)로부터 도출된 재구성된 비디오 클립(즉, 디코딩된, 스케일된 등)의 일련의 나란한, 사람 비교(side-by-side, human comparison)(예를 들어, 시청자(100)에 의한) 중에 생성된 피드백을 수신한다. 재구성된 비디오 클립들 각각에 대해, 피드백은 대응하는 인코딩된 테스트 데이터(295)에 대한 주관적 메트릭(135)에 대한 값을 포함한다. 주관적 메트릭(135)의 값은 절대적, 미리 결정된 품질 스케일(예를 들어, 0-100, 여기서 100은 눈에 띄는 아티팩트가 없는 것을 나타냄)에 기초하여 평균 관찰된 시각적 품질을 반영한다.
단계 410에서, 객관적 메트릭 생성 서브시스템(140)은 인코딩된 테스트 데이터(295) 및 트레이닝 데이터(205) 모두에 기초하여 인코딩된 테스트 데이터(295)에 대한 객관적 메트릭(145)에 대한 값을 계산한다. 객관적 메트릭 생성 서브시스템(140)은 임의의 기술적으로 실현 가능한 방식으로 객관적 메트릭(145)을 선택하고 그 후 객관적 메트릭(145)에 대한 값을 계산할 수 있다. 예를 들어, 일부 실시예에서, 객관적 메트릭 생성 서브시스템(140)은 상세 손실 측정(DLM)(242), 시각 정보 충실도(VIF)(244) 및 안티-잡음 신호-대-잡음 비(ANSNR)(246)에 대한 값들을 계산하도록 구성된다.
단계 410의 일부로서, 객관적 메트릭 생성 서브시스템(140)은 또한 인코딩된 테스트 데이터(295)와 연관된 임의의 다른 타입의 공간 또는 시간 데이터를 계산할 수 있다. 특히, 객관적 메트릭 생성 서브시스템(140)은 인코딩된 테스트 데이터(295)에 포함된 각각의 프레임에 대한 모션 값(248) - 시간적 시각 차이 - 를 계산한다.
단계 412에서, 지원 벡터 머신(SVM) 모델 생성기(240)는 머신 학습 동작을 수행한다 - 객관적 메트릭(145)에 대한 값 및 모션 값(248)의 융합에 기초하여 주관적 메트릭(135)에 대한 값을 추적하기 위해 지각 품질 모델(155)을 트레이닝시킨다. 단계 414에서, 지각 품질 트레이너(150)는 높은 모션의 기간 동안 지각 품질 모델(155)이 주관적 메트릭(135)에 대한 값을 정확하게 추적하는지를 결정하고, 단계 414에서, 지각 품질 트레이너(150)가 지각 품질 모델(155)의 정확도가 수용 가능하다고 결정하면, 이 방법은 단계 418로 직접 진행한다.
단계 414에서, 지각 품질 트레이너(150)가 지각 품질 모델(155)의 정확도가 수용 가능하지 않다고 결정하면, 이 방법은 단계 416으로 진행한다. 단계 416에서, 시간 조정 식별자(250)는 지각 품질 모델(155)에 기초하여 계산된 지각 품질 스코어(165)가 수용할 수 없을 만큼 비관적인 임계 값을 결정한다. 시간 조정 식별자(250)는 또한 지각 품질 모델(155)에 기초하여 계산된 지각 품질 스코어(165)에 적용될 때, 지각 품질 스코어(165)의 정확도를 향상시키는 백분율 증가를 결정한다. 함께, 임계 값과 백분율 증가는 시간 조정(255)을 형성한다.
단계 418에서, 지각 품질 계산기(160)는 지각 품질 모델(165), 및 존재하는 경우 시간 조정(255)에 기초하여 인코딩된 데이터(195)에 대한 지각 품질 스코어(165)를 계산한다. 일반적으로, 지각 품질 계산기(160)는 임의의 기술적으로 실현 가능한 방식으로, 지각 품질 모델(155)을 객관적 메트릭(155)에 대한 값 및 인코딩된 데이터(195)에 대한 모션 값(248)에 적용함으로써 지각 품질 스코어(165)를 계산한다.
예를 들어, 일부 실시예에서, 지각 품질 계산기(150)는 도 5와 함께 이하에 설명된 방법 단계들을 수행한다 - 지각 품질 스코어(165)(즉, 주관적 메트릭(135)의 값)를 획득하기 위해 트레이닝된 지각 품질 모델(155)을 활용한다. 특히, 트레이닝 단계 동안, 지각 품질 모델(165)은 트레이닝 데이터(205)에 대한 인간 피드백을 직접 통합한다. 이어서, 스코어링 단계 동안 트레이닝된 지각 품질 모델(165)은 임의의 수 및 타입의 소스 데이터(105)에 대한 이러한 인간 피드백의 일반화를 가능하게 한다.
도 5는 본 발명의 일 실시예에 따른, 경험적으로 트레이닝된 모델에 기초하여 지각 시각적 품질 스코어에 대한 값을 계산하기 위한 방법 단계들의 흐름도이다. 방법 단계들이 도 1 내지 도 3의 시스템들과 관련하여 설명되었지만, 통상의 기술자라면, 임의의 순서로 방법 단계들을 수행하도록 구성된 임의의 시스템은 본 발명의 범위 내에 있다는 것을 이해할 것이다.
도시된 바와 같이, 방법(500)은 단계 516에서 시작하며, 여기서 지각 품질 계산기(160)는 지각 품질 모델(155) 및 시간 조정(255)을 수신한다. 대안적 실시예에서, 시간 조정(255)은 생략될 수 있다. 다른 실시예에서, 시간 조정(255)은 지각 품질 스코어(165)를 미세 튜닝하도록 설계된 임의의 수의 다른 조정으로 대체된다. 지각 품질 모델(155)은 임의의 기술적으로 실행 가능한 방식으로 생성될 수 있다. 예를 들어, 일부 실시예에서, 지각 품질 트레이너(140)는 도 4에 개략적으로 도시된 방법 단계들(406-416)을 수행한다.
단계 518에서, 지각 품질 계산기(160)는 소스 데이터(105)를 수신한다. 단계 520에서, 인코더(120)는 타겟 해상도 및/또는 비트레이트에 대한 인코딩된 데이터(195)를 소스 데이터(205)로부터 도출한다. 단계 522에서, 객관적 메트릭 생성 서브시스템(140)은 인코딩된 데이터(195), 및 선택적으로 소스 데이터(105)에 기초하여 인코딩된 데이터(195)에 대한 객관적 메트릭(145)에 대한 값을 계산한다. 객관적 메트릭 생성 서브시스템(140)은 또한, 인코딩된 데이터(195)의 각각의 프레임에 대한 모션 값(248)을 계산한다. 일반적으로, 지각 품질 계산기(160)는 지각 품질 모델(155) 내의 독립 변수들에 대한 값을 계산하도록 구성된다.
단계 524에서, 지원 벡터 머신(SVM) 매퍼(360)는 지각 품질 스코어(165)를 생성하기 위해 지각 품질 모델(155)을 객관적 메트릭(145)에 대한 값 및 인코딩된 데이터(195)에 대한 모션 값(248)에 적용한다. 단계 526에서, 시간 조정기(370)는 하나 이상의 프레임의 모션 값(248)이 시간 조정(255)에서 특정된 임계 값을 초과하는지를 결정한다. 단계 526에서, 시간 조정기(370)가 모션 값(248) 중 어느 것도 임계 값을 초과하지 않는다고 결정하면, 지각 품질 계산기(160)는 지각 품질 스코어(165)를 고려하여 예상 시청 경험을 정확하게 예측하고 방법(500)을 종료한다.
단계 526에서, 시간 조정기(370)가 모션 값(248) 중 임의의 것이 임계 값을 초과한다고 결정하면, 시간 조정기(370)는 프레임들을 고려하여 높은 모션의 기간을 반영하고, 방법(500)은 단계 526으로 진행한다. 단계 526에서, 시간 조정기(370)는 높은 모션의 기간 동안 지각 품질 모델(155)의 비관론을 보상하기 위해 (시간 조정(255)에서 특정된) 임계 백분율만큼 지각 품질 스코어(165)를 증가시키고, 방법(500)은 종료한다.
요약하면, 개시된 기술들은 지각 비디오 품질을 효율적이고 신뢰성 있게 예측하는데 사용될 수 있다. 지각 품질 트레이너는 지각 품질 모델을 생성하기 위해 지원 벡터 머신(SVM)을 구현한다. 특히, 비디오들의 트레이닝 세트의 경우, SVM은 객관적 메트릭 및 시간 모션에 대한 값을 지각 품질 스코어 - 사람 비디오 시청 피드백에 기초하는 주관적 시각 품질 스코어 - 로 융합하도록 구성된다. 이어서, 지각 품질 계산기는 지각 품질 메트릭(즉, 시각적 품질 스코어)에 대한 대응하는 값을 생성하기 위해 지각 품질 모델을 타겟 비디오에 대한 시간 모션 및 객관적 메트릭에 대한 값에 적용한다.
바람직하게, 인간 시각 시스템에 의해 이루어진 직접 관찰을 사용하여 지각 품질 모델을 트레이닝시키는 것은, 지각 품질 계산기가 인지된 비디오 품질을 절대적 방식으로 신뢰성 있게 예측하는 품질 스코어를 효율적으로 계산할 수 있게 한다. 대조적으로, 종래의 품질 메트릭은 전형적으로 신호 충실도 - 실제 세계 시청 감상의 콘텐츠-의존적인, 일관되지 않고, 신뢰할 수 없는 표시 - 를 측정한다. 또한, 초기 경험적 기반 트레이닝 단계를 후속 비디오별 결정론적 계산 단계와 분리함으로써, 개시된 기술은 신속하고 확장 가능하다. 결과적으로, 지각 품질 모델은 인코더를 개발하고 정확하게 평가하는 데 필요한 시간을 줄이고 실시간 품질 인식 스트림 스위칭과 같은 시간-민감 인코딩 애플리케이션을 가능하게 한다.
다양한 실시예들에 대한 설명은 예시의 목적으로 제시되었지만, 포괄적이거나 개시된 실시예들로 한정되는 것을 의도하지 않는다. 상기 설명된 실시 형태들의 사상 및 범위로부터 벗어나지 않고 많은 수정 및 변형이 본 기술분야의 통상의 기술자들에게 명백할 것이다.
본 실시예들의 양태들은 시스템, 방법 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 본 개시내용의 양태들은 완전한 하드웨어 실시예, 완전한 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로 코드 등을 포함함) 또는 “회로”, “모듈” 또는 “시스템”으로 여기에서 모두 일반적으로 칭해질 수 있는 소프트웨어 및 하드웨어 양태들을 결합하는 실시예의 형태를 취할 수 있다. 또한, 본 개시내용의 양태들은 컴퓨터 판독 가능 프로그램 코드가 구현된 하나 이상의 컴퓨터 판독 가능 매체(들)에 구현된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
하나 이상의 컴퓨터 판독가능 매체(들)의 임의의 조합이 활용될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 신호 매체 또는 컴퓨터 판독가능 저장 매체일 수 있다. 컴퓨터 판독가능 저장 매체는, 예를 들어 전자적, 자기적, 광학적, 전자기적, 적외선, 또는 반도체 시스템, 장치 또는 디바이스, 또는 전술한 것들의 임의의 적합한 조합을 포함할 수 있지만, 이것들에만 한정되는 것은 아니다. 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예들(비포괄적 리스트)은, 하나 이상의 와이어를 갖는 전기 접속, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 이들의 임의의 적절한 조합을 포함할 것이다. 이 문서의 맥락에서, 컴퓨터 판독 가능 저장 매체는 명령어 실행 시스템, 장치 또는 디바이스에 의해, 또는 이와 함께 사용할 프로그램을 포함하거나 저장할 수 있는 임의의 유형(tangible)의 매체일 수 있다.
본 개시내용의 양태들은 본 개시내용의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 위에서 설명되었다. 흐름도 및/또는 블록도의 각각의 블록, 및 흐름도 및/또는 블록도 내의 블록들의 조합들은 컴퓨터 프로그램 명령어에 의해 구현될 수 있다는 것이 이해될 것이다. 이들 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그래밍 가능 데이터 처리 장치의 프로세서에 제공되어 머신을 생성할 수 있으며, 따라서 컴퓨터 또는 다른 프로그래밍 가능 데이터 처리 장치의 프로세서를 통해 실행되는 명령어들은 흐름도 및/또는 블록도 블록 또는 블록들에서 지정된 기능들/동작들의 구현을 가능하게 한다. 그러한 프로세서들은 범용 프로세서, 특수 목적 프로세서, 주문형 프로세서 또는 필드 프로그래머블 프로세서일 수 있지만 이에 한정되지 않는다.
도면들 내의 흐름도 및 블록도들은 본 개시내용의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능, 및 동작을 예시한다. 이와 관련하여, 흐름도 또는 블록도 내의 각각의 블록은 모듈, 세그먼트, 또는 코드 부분을 나타낼 수 있고, 이들은 지정된 논리적 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 명령어를 포함한다. 또한 일부 대안적인 실시예들에서, 블록에 언급된 기능들은 도면들에 언급된 순서에서 벗어나서 발생할 수 있음에 유의해야 한다. 예를 들어 연속한 2개의 블록은 실제로는 거의 동시에 실행될 수 있고, 블록들은 때로는 관련 기능에 따라서는 역순으로 실행될 수 있다. 블록도 및/또는 흐름도의 각각의 블록, 및 블록도 및/또는 흐름도 내의 블록들의 조합은 지정된 기능들 또는 동작들을 수행하는 특수 목적 하드웨어 기반 시스템들, 또는 특수 목적 하드웨어와 컴퓨터 명령어들의 조합들에 의해 구현될 수 있다는 점에도 유의할 것이다.
전술한 내용은 본 개시내용의 실시예들에 관한 것이지만, 본 개시내용의 다른 실시예들 및 추가 실시예들은 본 발명의 기본 범위를 벗어나지 않고 고안될 수 있으며, 그 범위는 다음의 청구범위에 의해 결정된다.

Claims (21)

  1. 지각 비디오 품질을 추정하기 위한 컴퓨터에 의해 구현되는 방법으로서,
    복수의 결정론적 비디오 특성을 나타내는 객관적 메트릭들의 세트를 선택하는 단계;
    트레이닝 비디오들의 세트에 포함되는 각각의 트레이닝 비디오에 대해, 상기 트레이닝 비디오를 기술하는 데이터 세트를 수신하는 단계 - 상기 데이터 세트는 지각 비디오 품질 메트릭에 대한 주관적 값 및 상기 객관적 메트릭들의 세트에 대한 객관적 값들의 세트를 포함함 - ;
    상기 데이터 세트로부터, 상기 객관적 메트릭들의 세트에 대한 값들의 세트에 기초하여 상기 지각 비디오 품질 메트릭에 대한 값을 결정하는 복합 관계(composite relationship)를 도출하는 단계;
    타겟 비디오에 대해, 상기 객관적 메트릭들의 세트에 대한 제1 세트의 값들을 계산하는 단계; 및
    상기 복합 관계를 상기 제1 세트의 값들에 적용하여 상기 지각 비디오 품질 메트릭에 대한 출력 값을 생성하는 단계
    를 포함하는 컴퓨터에 의해 구현되는 방법.
  2. 제1항에 있어서, 상기 복합 관계를 도출하는 단계는 상기 데이터 세트에 대해 하나 이상의 트레이닝 동작을 수행하는 단계를 포함하는 컴퓨터에 의해 구현되는 방법.
  3. 제2항에 있어서, 주어진 데이터 세트에 대해 하나 이상의 트레이닝 동작을 수행하는 단계는 지원 벡터 머신 알고리즘 또는 인공 신경망 알고리즘을 상기 데이터 세트에 포함된 상기 객관적 값들의 세트에 적용하는 단계를 포함하는 컴퓨터에 의해 구현되는 방법.
  4. 제1항에 있어서,
    상기 제1 세트의 값들에 포함된 값이 미리 결정된 임계 값을 초과한다고 결정하는 단계; 및
    조정 인자에 기초하여 상기 지각 품질 메트릭에 대한 상기 출력 값을 수정하는 단계
    를 더 포함하는 컴퓨터에 의해 구현되는 방법.
  5. 제1항에 있어서,
    상기 타겟 비디오의 2개의 연속 프레임 간의 픽셀 차이에 기초하여 모션 값을 계산하는 단계;
    상기 모션 값이 미리 결정된 임계 값을 초과한다고 결정하는 단계; 및
    상기 지각 품질 메트릭에 대한 상기 출력 값을 미리 결정된 양만큼 증가시키는 단계
    를 더 포함하는 컴퓨터에 의해 구현되는 방법.
  6. 제1항에 있어서, 상기 객관적 메트릭들의 세트는 상세 손실 측정 및 시각 정보 충실도 중 적어도 하나를 포함하는 컴퓨터에 의해 구현되는 방법.
  7. 제1항에 있어서, 상기 객관적 메트릭들의 세트는 안티-잡음 신호-대-잡음 비를 포함하고, 상기 타겟 비디오는 소스 비디오로부터 도출되며, 상기 안티-잡음 신호-대-잡음 비에 대한 제1 값을 계산하는 단계는,
    상기 소스 비디오에 제1 저역 통과 필터를 적용하는 단계;
    상기 제1 저역 통과 필터보다 강한 제2 저역 통과 필터를 상기 타겟 비디오에 적용하는 단계; 및
    필터링된 소스 비디오 및 필터링된 타겟 비디오에 기초하여 하나 이상의 신호-대-잡음 비 계산을 수행하는 단계
    를 포함하는 컴퓨터에 의해 구현되는 방법.
  8. 제1항에 있어서, 상기 트레이닝 비디오들의 세트에 포함된 제1 트레이닝 비디오는 압축된 데이터 및 스케일링된 데이터 중 적어도 하나를 포함하는 컴퓨터에 의해 구현되는 방법.
  9. 제1항에 있어서, 상기 지각 비디오 품질 메트릭에 대한 제1 주관적 값은 상기 제1 트레이닝 비디오로부터 도출되는 재구성된 비디오의 시각적 품질에 대한 사람 관찰된 스코어인, 컴퓨터에 의해 구현되는 방법.
  10. 명령어들을 포함하는 컴퓨터 판독 가능 저장 매체로서, 상기 명령어들은 처리 유닛에 의해 실행될 때, 상기 처리 유닛으로 하여금,
    복수의 결정론적 비디오 특성을 나타내는 객관적 메트릭들의 세트를 선택하는 단계;
    트레이닝 비디오들의 세트에 포함되는 각각의 트레이닝 비디오에 대해, 상기 트레이닝 비디오를 기술하는 데이터 세트를 수신하는 단계 - 상기 데이터 세트는 지각 비디오 품질 메트릭에 대한 주관적 값 및 객관적 메트릭들의 세트에 대한 객관적 값들의 세트를 포함함 - ;
    상기 데이터 세트로부터, 상기 객관적 메트릭들의 세트에 대한 값들의 세트에 기초하여 상기 지각 비디오 품질 메트릭에 대한 값을 결정하는 복합 관계를 도출하는 단계;
    타겟 비디오에 대해, 상기 객관적 메트릭들의 세트에 대한 제1 세트의 값들을 계산하는 단계; 및
    상기 복합 관계를 상기 제1 세트의 값들에 적용하여 상기 지각 비디오 품질 메트릭에 대한 출력 값을 생성하는 단계
    를 수행함으로써 지각 비디오 품질을 추정하게 하는, 컴퓨터 판독 가능 저장 매체.
  11. 제10항에 있어서, 상기 복합 관계를 도출하는 단계는 상기 데이터 세트에 대해 하나 이상의 트레이닝 동작을 수행하는 단계를 포함하는 컴퓨터 판독 가능 저장 매체.
  12. 제10항에 있어서,
    상기 타겟 비디오의 2개의 연속 프레임 간의 픽셀 차이에 기초하여 모션 값을 계산하는 단계;
    상기 모션 값이 미리 결정된 임계 값을 초과한다고 결정하는 단계; 및
    상기 지각 품질 메트릭에 대한 상기 출력 값을 미리 결정된 양만큼 증가시키는 단계
    를 더 포함하는 컴퓨터 판독 가능 저장 매체.
  13. 제10항에 있어서, 상기 트레이닝 비디오들의 세트에 포함된 제1 트레이닝 비디오는 제1 원본 비디오로부터 도출된 압축된 데이터를 포함하는 컴퓨터 판독 가능 저장 매체.
  14. 제13항에 있어서, 상기 지각 비디오 품질 메트릭에 대한 제1 주관적 값은 상기 제1 원본 비디오의 시각적 품질과, 하나 이상의 압축해제 동작에 기초하여 상기 제1 트레이닝 비디오로부터 도출되는 재구성된 트레이닝 비디오의 시각적 품질 사이의 변동을 나타내는, 컴퓨터 판독 가능 저장 매체.
  15. 제13항에 있어서, 상기 지각 비디오 품질 메트릭에 대한 제1 주관적 값은 하나 이상의 압축해제 동작에 기초하여 상기 제1 트레이닝 비디오로부터 도출되는 비디오의 상기 시각적 품질에 대한 인간 관찰된 스코어인, 컴퓨터에 의해 구현되는 방법.
  16. 제1항에 있어서, 상기 객관적 메트릭들의 세트는 안티-잡음 신호-대-잡음 비를 포함하고, 상기 타겟 비디오는 소스 비디오로부터 도출되며, 상기 안티-잡음 신호-대-잡음 비에 대한 제1 값을 계산하는 단계는,
    상기 소스 비디오에 제1 저역 통과 필터를 적용하는 단계;
    상기 제1 저역 통과 필터보다 강한 제2 저역 통과 필터를 상기 타겟 비디오에 적용하는 단계; 및
    필터링된 소스 비디오 및 필터링된 타겟 비디오에 기초하여 하나 이상의 신호-대-잡음 비 계산을 수행하는 단계
    를 포함하는 컴퓨터에 의해 구현되는 방법.
  17. 제10항에 있어서, 상기 복합 관계는 방정식인, 컴퓨터 판독 가능 저장 매체.
  18. 제17항에 있어서, 상기 복합 관계를 상기 제1 세트의 값에 적용하는 단계는 상기 제1 세트의 값들에 포함된 값들에 대한 상기 방정식을 푸는 단계를 포함하는 컴퓨터 판독 가능 저장 매체.
  19. 복수의 결정론적 비디오 특성을 나타내는 객관적 메트릭들의 세트에 기초하여 지각 비디오 품질을 추정하도록 구성된 시스템으로서,
    복수의 원본 비디오로부터 트레이닝 비디오들의 세트를 생성하도록 구성된 인코더;
    지각 품질 트레이너 - 상기 지각 품질 트레이너는,
    상기 트레이닝 비디오들의 세트에 포함된 각각의 트레이닝 비디오에 대해, 상기 트레이닝 비디오를 기술하는 데이터 세트를 수신하고 - 상기 데이터 세트는 지각 비디오 품질 메트릭에 대한 주관적 값 및 상기 객관적 메트릭들의 세트에 대한 객관적 값들의 세트를 포함함 - ;
    상기 데이터 세트들로부터, 상기 객관적 메트릭들의 세트에 대한 값들의 세트에 기초하여 상기 지각 비디오 품질 메트릭에 대한 값을 결정하는 복합 관계를 도출하도록 구성됨 - ; 및
    지각 품질 계산기 - 상기 지각 품질 계산기는,
    타겟 비디오에 대해, 상기 객관적 메트릭들의 세트에 대한 제1 세트의 값들을 계산하고;
    상기 복합 관계를 상기 제1 세트의 값들에 적용하여 상기 지각 비디오 품질 메트릭에 대한 출력 값을 생성하도록 구성됨 -
    을 포함하는 시스템.
  20. 제19항에 있어서, 상기 복합 관계를 도출하는 것은 상기 데이터 세트에 대해 하나 이상의 트레이닝 동작을 수행하는 것을 포함하는 시스템.
  21. 지각 비디오 품질을 추정하기 위한 컴퓨터에 의해 구현되는 방법으로서,
    트레이닝 비디오들의 세트에 포함되는 각각의 트레이닝 비디오에 대해, 상기 트레이닝 비디오를 기술하는 데이터 세트를 수신하는 단계 - 상기 데이터 세트는 지각 비디오 품질 메트릭에 대한 주관적 값, 모션에 대한 객관적 값들의 세트, 안티-잡음 신호 대 잡음 비, 상세 손실 측정 및 시각 정보 충실도 측정을 포함하는 객관적 메트릭들의 세트에 대한 객관적 값들의 세트를 포함함 - ;
    상기 데이터 세트로부터, 상기 모션에 대한 값들의 세트 및 상기 객관적 메트릭들의 세트에 대한 값들의 세트에 기초하여 상기 지각 비디오 품질 메트릭에 대한 값을 결정하는 복합 관계를 도출하는 단계;
    타겟 비디오에 대해, 상기 모션에 대한 제1 세트의 값들 및 상기 객관적 메트릭들의 세트에 대한 제1 세트의 값들을 계산하는 단계;
    상기 지각 비디오 품질 메트릭에 대한 출력 값을 생성하기 위해, 상기 모션에 대한 상기 제1 세트의 값들 및 상기 객관적 메트릭들의 세트에 대한 상기 제1 세트의 값들에 상기 복합 관계를 적용하는 단계;
    상기 모션에 대한 상기 제1 세트의 값들에 포함된 제1 모션 값이 미리 결정된 임계 값을 초과한다고 결정하는 단계; 및
    상기 모션과 연관된 조정 인자에 기초하여 상기 지각 품질 메트릭에 대한 상기 출력 값을 변경하는 단계
    를 포함하는 컴퓨터에 의해 구현되는 방법.
KR1020177035231A 2015-05-11 2016-05-09 지각 비디오 품질을 예측하기 위한 기술 KR102110022B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/709,230 2015-05-11
US14/709,230 US10007977B2 (en) 2015-05-11 2015-05-11 Techniques for predicting perceptual video quality
PCT/US2016/031477 WO2016183011A1 (en) 2015-05-11 2016-05-09 Techniques for predicting perceptual video quality

Publications (2)

Publication Number Publication Date
KR20180003609A true KR20180003609A (ko) 2018-01-09
KR102110022B1 KR102110022B1 (ko) 2020-05-12

Family

ID=56072434

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177035231A KR102110022B1 (ko) 2015-05-11 2016-05-09 지각 비디오 품질을 예측하기 위한 기술

Country Status (9)

Country Link
US (2) US10007977B2 (ko)
EP (1) EP3295669A1 (ko)
JP (1) JP6707563B2 (ko)
KR (1) KR102110022B1 (ko)
CN (1) CN107852496B (ko)
AU (2) AU2016259613B2 (ko)
CA (1) CA2985771C (ko)
MX (1) MX370014B (ko)
WO (1) WO2016183011A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019209006A1 (ko) * 2018-04-24 2019-10-31 주식회사 지디에프랩 스트리밍 파일의 해상도 개선 방법
KR20200073078A (ko) * 2018-12-13 2020-06-23 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법
KR20200073079A (ko) * 2018-12-13 2020-06-23 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법
KR20200131319A (ko) * 2018-03-20 2020-11-23 넷플릭스, 인크. 부트스트래핑을 통한 지각 품질 모델 불확실성의 정량화
KR20210061943A (ko) 2019-11-20 2021-05-28 한국전자통신연구원 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법 및 이를 위한 장치

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9532080B2 (en) 2012-05-31 2016-12-27 Sonic Ip, Inc. Systems and methods for the reuse of encoding information in encoding alternative streams of video data
US9357210B2 (en) 2013-02-28 2016-05-31 Sonic Ip, Inc. Systems and methods of encoding multiple video streams for adaptive bitrate streaming
US9922411B2 (en) * 2015-11-30 2018-03-20 Disney Enterprises, Inc. Saliency-weighted video quality assessment
US10834406B2 (en) 2016-12-12 2020-11-10 Netflix, Inc. Device-consistent techniques for predicting absolute perceptual video quality
WO2019009449A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
US10587669B2 (en) * 2017-12-20 2020-03-10 Facebook, Inc. Visual quality metrics
US10721477B2 (en) * 2018-02-07 2020-07-21 Netflix, Inc. Techniques for predicting perceptual video quality based on complementary perceptual quality models
US10887602B2 (en) * 2018-02-07 2021-01-05 Netflix, Inc. Techniques for modeling temporal distortions when predicting perceptual video quality
CN108401150B (zh) * 2018-03-22 2019-08-27 浙江科技学院 一种模拟视觉主观感知的压缩感知重建算法质量统计评价方法
US11200591B2 (en) * 2018-05-30 2021-12-14 Paypal, Inc. Electronic content based on neural networks
US20200021815A1 (en) 2018-07-10 2020-01-16 Fastvdo Llc Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa)
US11861461B2 (en) * 2018-08-09 2024-01-02 Autodesk, Inc. Techniques for generating designs that reflect stylistic preferences
EP3808086A1 (en) * 2018-08-14 2021-04-21 Huawei Technologies Co., Ltd. Machine-learning-based adaptation of coding parameters for video encoding using motion and object detection
US11302288B2 (en) 2018-09-28 2022-04-12 Apple Inc. Ambient saturation adaptation
US11024260B2 (en) 2018-09-28 2021-06-01 Apple Inc. Adaptive transfer functions
US10672363B2 (en) 2018-09-28 2020-06-02 Apple Inc. Color rendering for images in extended dynamic range mode
WO2020158095A1 (ja) * 2019-02-01 2020-08-06 株式会社Nttドコモ 評価装置
JP7033097B2 (ja) * 2019-03-18 2022-03-09 Kddi株式会社 ネットワーク監視システムおよび方法
CN110121110B (zh) * 2019-05-07 2021-05-25 北京奇艺世纪科技有限公司 视频质量评估方法、设备、视频处理设备及介质
CN110248189B (zh) * 2019-06-14 2021-07-27 北京字节跳动网络技术有限公司 一种视频质量预测方法、装置、介质和电子设备
CN110139169B (zh) * 2019-06-21 2020-11-24 上海摩象网络科技有限公司 视频流的质量评估方法及其装置、视频拍摄系统
EP3800882A1 (en) 2019-10-02 2021-04-07 Deutsche Telekom AG Information-adaptive mixed deterministic/machine-learning-based bit stream video-quality model
EP3826311A1 (en) * 2019-11-22 2021-05-26 MK Systems USA Inc. Systems and methods for measuring visual quality degradation in digital content
WO2021137856A1 (en) * 2019-12-31 2021-07-08 Google Llc Optimal format selection for video players based on predicted visual quality using machine learning
SG10202100747RA (en) * 2020-01-23 2021-08-30 Modaviti Emarketing Pvt Ltd Artificial intelligence based perceptual video quality assessment system
US20210233259A1 (en) * 2020-01-28 2021-07-29 Ssimwave Inc. No-reference visual media assessment combining deep neural networks and models of human visual system and video content/distortion analysis
US11527019B2 (en) * 2020-05-15 2022-12-13 Amazon Technologies, Inc. Iterative media object compression algorithm optimization using decoupled calibration of perceptual quality algorithms
KR20220043764A (ko) * 2020-09-29 2022-04-05 삼성전자주식회사 비디오 품질 평가 방법 및 장치
US11451847B2 (en) 2020-11-06 2022-09-20 Samsung Electronics Co., Ltd. Methods and systems for generating personalized data-streaming for a multimedia playback device
CN112529048B (zh) * 2020-11-23 2022-12-06 浙江大学 一种基于感知体验的产品展示视频辅助设计方法和装置
CN113011315B (zh) * 2021-03-16 2022-12-16 华南理工大学 一种基于超快速结构感知深度网络的地铁轨道识别方法
US11716531B2 (en) 2021-03-22 2023-08-01 International Business Machines Corporation Quality of multimedia
US11483472B2 (en) 2021-03-22 2022-10-25 International Business Machines Corporation Enhancing quality of multimedia
US11533427B2 (en) * 2021-03-22 2022-12-20 International Business Machines Corporation Multimedia quality evaluation
KR20220135724A (ko) * 2021-03-31 2022-10-07 서울대학교산학협력단 통계적 분포를 따르는 데이터의 처리 방법 및 장치
CN113315995B (zh) * 2021-05-06 2023-04-14 北京智通东方软件科技有限公司 提高视频质量的方法、装置、可读存储介质及电子设备
CN113891069A (zh) * 2021-10-21 2022-01-04 咪咕文化科技有限公司 一种视频质量的评估方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020084172A (ko) * 2001-01-10 2002-11-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 자동 비디오 품질 평가를 위한 스케일링 가능한 객관적매트릭
US20060268980A1 (en) * 2005-03-25 2006-11-30 Le Dinh Chon T Apparatus and method for objective assessment of DCT-coded video quality with or without an original video sequence
US20070257988A1 (en) * 2003-12-02 2007-11-08 Ong Ee P Method and System for Video Quality Measurements
US20130027568A1 (en) * 2011-07-29 2013-01-31 Dekun Zou Support vector regression based video quality prediction

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11341526A (ja) * 1998-05-22 1999-12-10 Matsushita Electric Ind Co Ltd 画質測定装置
CN1157059C (zh) * 2002-01-29 2004-07-07 北京工业大学 一种结合运动特征的视频质量评价方法
US7916173B2 (en) * 2004-06-22 2011-03-29 Canon Kabushiki Kaisha Method for detecting and selecting good quality image frames from video
CN100469153C (zh) * 2005-09-29 2009-03-11 深圳清华大学研究院 视频场景切换检测方法
KR101316699B1 (ko) * 2009-11-24 2013-10-10 연세대학교 산학협력단 동영상 화질평가 시스템, 동영상 송신장치, 동영상 수신장치 및 그의 방법
US8494283B2 (en) * 2010-12-21 2013-07-23 Microsoft Corporation Image quality assessment
US8787454B1 (en) * 2011-07-13 2014-07-22 Google Inc. Method and apparatus for data compression using content-based features
US9251439B2 (en) * 2011-08-18 2016-02-02 Nikon Corporation Image sharpness classification system
JP2014130427A (ja) * 2012-12-28 2014-07-10 Samsung R&D Institute Japan Co Ltd 画質推定装置、画質推定方法および画質推定プログラム
JP6506957B2 (ja) * 2014-12-04 2019-04-24 日本放送協会 客観画質評価装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020084172A (ko) * 2001-01-10 2002-11-04 코닌클리케 필립스 일렉트로닉스 엔.브이. 자동 비디오 품질 평가를 위한 스케일링 가능한 객관적매트릭
US20070257988A1 (en) * 2003-12-02 2007-11-08 Ong Ee P Method and System for Video Quality Measurements
US20060268980A1 (en) * 2005-03-25 2006-11-30 Le Dinh Chon T Apparatus and method for objective assessment of DCT-coded video quality with or without an original video sequence
US20130027568A1 (en) * 2011-07-29 2013-01-31 Dekun Zou Support vector regression based video quality prediction

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200131319A (ko) * 2018-03-20 2020-11-23 넷플릭스, 인크. 부트스트래핑을 통한 지각 품질 모델 불확실성의 정량화
WO2019209006A1 (ko) * 2018-04-24 2019-10-31 주식회사 지디에프랩 스트리밍 파일의 해상도 개선 방법
KR20200073078A (ko) * 2018-12-13 2020-06-23 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법
KR20200073079A (ko) * 2018-12-13 2020-06-23 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법
KR20210061943A (ko) 2019-11-20 2021-05-28 한국전자통신연구원 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법 및 이를 위한 장치

Also Published As

Publication number Publication date
KR102110022B1 (ko) 2020-05-12
MX2017014482A (es) 2018-09-06
AU2016259613B2 (en) 2019-07-18
US20180300869A1 (en) 2018-10-18
JP6707563B2 (ja) 2020-06-10
US10475172B2 (en) 2019-11-12
CN107852496B (zh) 2021-06-15
US20160335754A1 (en) 2016-11-17
CA2985771C (en) 2020-05-26
WO2016183011A1 (en) 2016-11-17
AU2019250226A1 (en) 2019-11-07
CA2985771A1 (en) 2016-11-17
EP3295669A1 (en) 2018-03-21
CN107852496A (zh) 2018-03-27
AU2016259613A1 (en) 2017-11-30
MX370014B (es) 2019-11-28
US10007977B2 (en) 2018-06-26
JP2018522448A (ja) 2018-08-09

Similar Documents

Publication Publication Date Title
US10475172B2 (en) Techniques for predicting perceptual video quality
AU2020203139B2 (en) Techniques for robustly predicting perceptual video quality
KR102523149B1 (ko) 부트스트래핑을 통한 지각 품질 모델 불확실성의 정량화
KR102455509B1 (ko) 상보적 지각 품질 모델들에 기반하여 지각 비디오 품질을 예측하기 위한 기술들
US11700383B2 (en) Techniques for modeling temporal distortions when predicting perceptual video quality
AU2021212054A1 (en) Techniques for improving the quality of subjective data
US20220051382A1 (en) Techniques for training a perceptual quality model to account for brightness and color distortions in reconstructed videos
US11532077B2 (en) Techniques for computing perceptual video quality based on brightness and color components

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant