KR20200074845A

KR20200074845A - 비디오를 처리하기 위한 방법 및 장치

Info

Publication number: KR20200074845A
Application number: KR1020190112159A
Authority: KR
Inventors: 후아이페이 싱; 지아리앙 왕; 후이펭 센; 페이페이 카오
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2018-12-14
Filing date: 2019-09-10
Publication date: 2020-06-25
Also published as: CN109286825B; JP2020096342A; CN109286825A; KR102235590B1; US10897620B2; US20200195934A1; JP6928041B2

Abstract

본 출원의 실시형태는 비디오를 처리하기 위한 방법 및 장치를 개시한다. 상기 방법의 하나의 구체적인 실시형태는 처리 대상 비디오를 취득하고, 상기 비디오를 장면에 따라 적어도 하나의 비디오 세그먼트로 분할하는 단계와, 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대해, 상기 비디오 세그먼트의 특징들을 추출하는 단계와, 특징 및 목표 비디오 품질을 사전에 훈련된 인코딩 파라미터 예측 모델에 입력하고, 상기 비디오 세그먼트의 인코딩 파라미터를 얻는 단계에 있어서, 인코딩 파라미터 예측 모델은 비디오 세그먼트의 특징들과 목표 비디오 품질하에서의 인코딩 파라미터와의 대응관계를 특정하는데 사용되는 단계와, 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대응하는 인코딩 파라미터에 의해 비디오를 인코딩 처리하여, 인코딩 비디오를 생성하는 단계를 포함한다. 상기 실시형태는 장면내용을 기반으로 적응적으로 부호화를 수행하고 압축률을 향상시키고 비디오 품질을 향상시킬 수 있다.

Description

비디오를 처리하기 위한 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING A VIDEO}

본 출원의 실시형태는 컴퓨터 기술분야에 관한 것으로, 특히 비디오를 처리하기 위한 방법 및 장치에 관한 것이다.

비디오 트랜스 코딩（Video transcoding）은 이미 압축코딩된 비디오 코드 스트림을 다른 일종의 비디오 코드 스트림으로 변환하여 부동한 네트워크 대역폭, 부동한 터미널 프로세싱 기능 또는 부동한 사용자 수요에 적응시키는 것을 의미한다.

관련된 내용을 적응적으로 부호화하는 기술은 기본적으로 다중 부호화 방법을 사용하며, 즉, 먼저 CRF(Constant Rate Factor, 특정 품질의 지능형 할당 코드 비율 보장)의 부호화를 사용하여 전체 비디오의 복잡도 인자를 산출한 후, 비디오 전체의 인코딩 파라미터를 조정한다, 즉 콘텐츠 적응화의 기본은 타이틀（title）의 수준이다.

그러나 부동한 길이의 비디오 컨텐츠는 컨텐츠의 내부 장면이 많은 변화가 있을 수 있고, 부동한 장면은 보다 세분화된 세분성의 콘텐츠 적응화 정밀도를 의미한다.

본 출원의 실시형태는 비디오를 처리하기 위한 방법 및 장치를 개시한다.

제1 양태에 있어서, 본 출원의 실시형태에 의한 비디오를 처리하기 위한 방법은, 처리 대상 비디오를 취득하고, 비디오를 장면에 따라 적어도 하나의 비디오 세그먼트로 분할하는 단계와, 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대해, 상기 비디오 세그먼트의 특징들을 추출하는 단계와, 특징 및 목표 비디오 품질을 사전에 훈련된 인코딩 파라미터 예측 모델에 입력하고 상기 비디오 세그먼트의 인코딩 파라미터를 얻는 단계에 있어서, 인코딩 파라미터 예측 모델은 비디오 세그먼트의 특징들과 목표 비디오 품질하에서의 인코딩 파라미터와의 대응관계를 특정하는데 사용되는 단계와, 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대응하는 인코딩 파라미터에 의해 비디오를 인코딩 처리하여, 인코딩된 비디오를 생성하는 단계를 포함한다.

일부 실시형태에 있어서, 상기 방법은 또한, 인코딩된 비디오의 비디오 품질을 확정하는 단계와, 확정된 비디오 품질과 상기 목표 비디오 품질과의 불일치에 응답하여, 소정의 정보를 출력하는 단계를 더 포함한다.

일부 실시형태에 있어서, 상기 비디오 세그먼트의 특징들을 추출하는 단계는, 상기 비디오 세그먼트를 디코딩하여 상기 비디오 세그먼트의 시간영역 특징 및 / 또는 주파수영역 특징을 추출하는 단계를 포함한다.

일부 실시형태에 있어서, 인코딩 파라미터 예측 모델은, 샘플 비디오 세트를 취득하고, 샘플 비디오 세트 중 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링하는 방식과, 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오의 특징을 추출하고, 상기 샘플 비디오의 특징에 의해 상기 샘플 비디오의 복잡도 인자를 결정하는 방식과, 샘플 비디오 세트 중의 샘플 비디오를 복잡도 인자에 의해 적어도 하나의 카테고리로 분할하는 방식과, 적어도 하나의 카테고리 중의 카테고리에 대해, 상기 카테고리에 속하는 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 회귀하여, 인코딩 파라미터 및 비디오 품질의 관계곡선을 얻는 방식에 의해 트레이닝되어 있다.

일부 실시형태에 있어서, 샘플 비디오 세트 중의 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링하는 단계는, 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오를 소정의 일정한 품질값에 의해 인코딩하고, 인코딩 과정에서 인코딩 파라미터 및 비디오 품질을 라벨링하는 단계를 포함한다.

일부 실시형태에 있어서, 복잡도 인자는 인코딩된 샘플 비디오의 픽셀 깊이와 관련된다.

제2 양태에 있어서, 본 출원의 실시형태에 의한 비디오를 처리하기 위한 장치는, 처리 대상 비디오를 취득하고, 비디오를 장면에 의해 적어도 하나의 비디오 세그먼트로 분할하도록 구성되는 분할 유닛과, 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대해, 상기 비디오 세그먼트의 특징들을 추출하도록 구성되는 추출 유닛과, 특징 및 목표 비디오 품질을 사전에 훈련된 인코딩 파라미터 예측 모델에 입력하고 상기 비디오 세그먼트의 인코딩 파라미터를 얻도록 구성되는 입력 유닛에 있어서, 인코딩 파라미터 예측 모델은 비디오 세그먼트의 특징들과 목표 비디오 품질하에서의 인코딩 파라미터와의 대응관계를 특정하는데 사용되며, 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대응하는 인코딩 파라미터에 의해 비디오를 인코딩 처리하여, 인코딩된 비디오를 생성하도록 구성되는 처리 유닛을 포함한다.

일부 실시형태에 있어서, 상기 장치는 또한, 인코딩된 비디오의 비디오 품질을 결정하고, 확정된 비디오 품질과 목표 비디오 품질과의 불일치에 응답하여, 소정의 정보를 출력하도록 구성되는 검증 유닛을 더 포함한다.

일부 실시형태에 있어서, 추출 유닛은 진일보로 상기 비디오 세그먼트를 디코딩하여 상기 비디오 세그먼트의 시간영역 특징 및 / 또는 주파수영역 특징을 추출하도록 구성된다.

일부 실시형태에 있어서, 상기 장치는 또한 트레이닝 유닛을 포함하며, 트레이닝 유닛은, 샘플 비디오 세트를 취득하고, 샘플 비디오 세트 중 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링하고, 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오의 특징을 추출하고, 상기 샘플 비디오의 특징에 의해 상기 샘플 비디오의 복잡도 인자를 결정하고, 샘플 비디오 세트 중의 샘플 비디오를 복잡도 인자에 의해 적어도 하나의 카테고리로 분할하고, 적어도 하나의 카테고리 중의 카테고리에 대해, 상기 카테고리에 속하는 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 회귀하여, 인코딩 파라미터 및 비디오 품질의 관계곡선을 얻도록 구성되어 있다.

일부 실시형태에 있어서, 트레이닝 유닛은 진일보로, 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오를 소정의 일정한 품질값에 의해 인코딩하고, 인코딩 과정에서 인코딩 파라미터 및 비디오 품질을 라벨링하도록 구성되어 있다.

제3 양태에서, 본 출원의 실시형태는 하나이상의 프로세서와, 하나이상의 프로그램이 저장되어 있는 저장장치를 포함하며, 하나이상의 프로그램이 하나이상의 프로세서에 의해 실행될 경우, 하나이상의 프로세서가 제1 양태 중 어느 하나의 방법을 실현하도록 하는 전자기기를 제공한다.

제4 양태에서, 본 출원의 실시형태는 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 매체에 있어서, 프로그램이 프로세서에 의해 실행될 경우, 제1 양태 중 어느 하나의 방법을 실현하는 컴퓨터 판독 가능 매체를 제공한다.

본 출원의 실시형태에 의해 제공되는 비디오를 처리하기 위한 방법 및 장치는, 장면에 기초하여 비디오를 분할하고, 기계학습된 인코딩 파라미터 예측 모델을 통해 목표 비디오 품질하에서의 인코딩 파라미터를 예측한다. 예측된 인코딩 파라미터에 기초하여 비디오에 대해 콘텐츠 적응화 코딩을 진행한다. 따라서 압축률이 제고되고 비디오 품질이 향상된다.

이하, 첨부된 도면을 참조하면서 비한정적인 실시예를 상세하게 설명함으로써, 본원의 다른 특징, 목적 및 이점은 더욱 명확해질 것이다.
도1은 본 출원의 일 실시예에 적용될 수 있는 예시적인 시스템 구조도이다.
도2는 본 출원에 따른 비디오를 처리하기 위한 방법의 일 실시예의 흐름도이다.
도3은 본 출원에 따른 비디오를 처리하기 위한 방법의 하나의 응용 시나리오를 도시한 도면이다.
도4는 본 출원에 따른 비디오를 처리하기 위한 방법의 또 하나의 실시예의 흐름도이다.
도5a 및 도5b는 본 출윈에 따른 비디오를 처리하기 위한 방법의 인코딩 파라미터 및 비디오 품질의 관계곡선이다.
도6은 본 출원에 따른 비디오를 처리하기 위한 장치의 하나의 실시예의 개략적인 구조도이다.
도7은 본 출원의 실시예를 실현하기에 적합한 전자기기의 컴퓨터 시스템의 개략적인 구조도이다.

이하, 첨부 도면 및 실시예를 참조하면서 본 출원을 더 상세하게 설명한다. 본 명세서에 기술된 구체적인 실시예는 본 발명에 대한 한정이 아니라 관련 발명을 분석하기 위한 것임을 이해해야 할것이다. 또한, 설명의 편의상, 관련된 발명과 관련된 부분만이 첨부 도면에 도시되어 있음에 유의해야 한다.

본 출원중의 실시예 및 실시예 중의 특징들은 충돌되지 않는 정황하에서 서로 결합될 수 있음에 유의해야 한다. 이하, 첨부 도면에 실시예를 결합하여 본 출원을 상세하게 설명한다.

도1은 본 출원이 적용될 수 있는 비디오를 처리하기 위한 방법 또는 비디오를 처리하기 위한 장치의 실시예의 예시적인 시스템 아키텍처(100)를 나타낸다.

도1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기기(101, 102, 103)와 서버(105) 사이에 통신 링크를 제공하기 위한 매체로 사용된다. 네트워크(104)는 예를 들어, 유선, 무선 통신 링크 혹은 광섬유 케이블 등과 같은 각종 접속 유형을 포함할 수 있다.

사용자는 단말기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 상호 작용함으로써 정보 등을 수신 또는 송신할 수 있다. 단말기기(101, 102, 103)에는 예를 들어, 웹 브라우저 어플리케이션,비디오 플레이어, 검색형 어플리케이션, 인스턴트 통신 툴, 메일 클라이언트, 소셜 플랫폼 소프트웨어 등의 다양한 통신 클라이언트 어플리케이션이 설치될 수 있다.

단말기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말기기(101, 102, 103)가 하드웨어인 경우, 표시 화면을 구비하고 웹 브라우징 기능을 지원하는 다양한 전자기기일 수 있으며, 스마트 폰, 태블릿, 전자 책 리더기, MP3 플레이어(Moving Picture Experts Group Audio Layer III, 동영상 전문가 압축 표준 오디오 레벨 3), MP4(Moving Picture Experts Group Audio Layer IV, 동영상 전문가 압축 표준 오디오 레벨 4) 플레이어, 노트북 휴대용 컴퓨터 및 데스크톱 컴퓨터 등을 포함하지만 이에 한정되지 않는다. 단말기기(101, 102, 103)가 소프트웨어인 경우, 상기 나열한 전자기기에 설치될 수 있다. 단말 장치는 복수의 소프트웨어 또는 소프트웨어 모듈로서 구현될 수 있으며(예를 들어, 분산형 서비스를 제공하기 위한 것) 혹은 단일 소프트웨어 또는 소프트웨어 모듈로서 구현될 수있다. 여기서는 특별히 한정하지 않는다.

서버(105)는 예를 들어, 단말기기(101, 102, 103) 상에 표시된 비디오를 처리하는 비디오 처리 서버와 같은 다양한 서비스를 제공하는 서버일 수 있다. 비디오 처리 서버는 수신된 트랜스 코딩 대상 비디오 등 데이터에 대해 분석 등 처리를 진행하고, 처리 결과(예를 들어 트랜스 코딩된 비디오 세그먼트)를 단말기기에 피드백할 수 있다.

설명해야 할 것은, 서버는 하드웨어 또는 소프트웨어일 수 있다는 것이다. 서버가 하드웨어인 경우, 복수의 서버로 구성된 분산형 서버 클러스터로 구현할 수 있고, 단일 서버로 구현할 수도 있다. 서버가 소프트웨어인 경우, 복수의 소프트웨어 또는 소프트웨어 모듈로서 구현될 수 있으며 (예를 들어, 분산형 서비스를 제공하기 위한 복수의 소프트웨어 또는 소프트웨어 모듈) 혹은 단일 소프트웨어 또는 소프트웨어 모듈로서 구현될 수도 있다. 여기서는 특별히 한정하지 않는다.

설명해야 할 것은, 본 출원의 실시예에 의해 제공되는 비디오를 처리하기 위한 방법은 일반적으로 서버(105)에 의해 실행되며, 상응하여, 비디오를 처리하기 위한 장치는 일반적으로 서버(105)에 설치된다.

도1의 단말기기, 네트워크 및 서버의 수량은 단지 예시적인 것임을 이해해야 한다. 실현의 수요에 따라 임의의 수량의 단말기기, 네트워크 및 서버를 구비할수 있다.

계속하여 도2를 참조하면, 본 출원에 따른 비디오를 처리하기 위한 방법의 하나의 실시예의 프로세스(200)를 나타낸다. 상기 비디오를 처리하기 위한 방법은 다음의 단계를 포함한다.

단계(201)에서, 처리 대상 비디오를 취득하고, 비디오를 장면에 의해 적어도 하나의 비디오 세그먼트로 분할한다.

본 실시예에서, 비디오를 처리하기 위한 방법이 실행되는 전자기기(예를 들어, 도1에 도시된 서버)는 유선 접속 방식 또는 무선 접속 방식을 통해 처리 대상(즉, 트랜스 코딩 대상) 비디오를 취득하고, 처리 대상 비디오를 장면에 따라 적어도 하나의 비디오 세그먼트로 분할할 수 있다. 장면에 기초한 분할 방법으로 인터 프레임 표준 편차, 평균 제곱 오차 등과 같은 많은 기술이 알려져 있으며, 하나의 표준으로 임계치를 고정하고, 임계치보다 클 경우 장면 분할 경계로 사용할 수 있다. 소위 하나의 장면（scene）은, 하나의 장면에 있어서 이 장면은 전부 연속적으로 변환하는 하나의 장면으로 구성되며, 복잡도 역시 상대적으로 일치한 것으로 간주할 수 있다.

단계(202)에서 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대해, 상기 비디오 세그먼트의 특징들을 추출한다.

본 실시예에 있어서, 분할 트랜스 코딩의 기본 단위로서의 장면에 따라, 이 장면내의 비디오를 디코딩하여, 비디오 시간영역 또는 주파수영역의 특징을 추출하고, 이러한 특징들은 인접한 프레임 간의 motion(모션) 정보, VIF(visual information fidelity, 시각 정보 충실도) 및 DLM(detail loss measure, 세부 손실 측정) 등을 포함할 수 있다.

비디오의 특징에 따라 비디오의 복잡도 인자가 결정되고 나아가 비디오를 분류할 수 있다. 매 하나의 장면의 분할은 주어진 일정한 품질의 값에 따라 CRF의 트랜스 코딩이 진행되고, 트랜스 코딩 후 분할된 모든 프레임의 평균 하나의 픽셀에 의해 점유된 비트 수 BPP(bits per pixel, 픽셀 당 비트, 즉 픽셀 깊이)로 통계되어 제공되며, 그 다음 BPP의 값에 따라 일정한 수학 연산(Log10과 같음)을 인용하고, 상기 값을 일정하게 축소된 범위내에 인용하여, 비디오의 복잡도 계수로 한다. 하나의 비디오에 있어서 모든 비디오 세그먼트의 비디오 복잡도 계수를 통계한 평균을 평균 복잡도 계수로 한 후, 각 비디오 세그먼트의 복잡도 인자를 산출한다.

복잡도 인자 = 복잡도 계수 /(평균 복잡도 계수).

단계(203)에서사전에 트레이닝된 인코딩 파라미터 예측 모델에 특징 및 목표 비디오 품질을 입력하여, 비디오 세그먼트의 인코딩 파라미터를 취득한다.

본 실시예에 있어서, 인코딩 파라미터 예측 모델은 하나의 심층 신경 네트워크 예측기일 수 있다. 인코딩 파라미터 예측 모델은 비디오 세그먼트의 특징들과 목표 비디오 품질하에서의 인코딩 파라미터들 간의 대응관계를 특정한다. 구체적으로, 일예로서, 인코딩 파라미터 예측 모델은 기술자가 대량의 특징 및 부동한 비디오 품질을 특정하기 위한 인코딩 파라미터에 대한 통계에 기초하여 미리 제정된, 복수의 특징과 부동한 비디오 품질을 특정하기 위한 인코딩 파라미터와의 대응관계가 저장된 대응관계 테이블일 수 있으며, 또한, 기술자가 대량의 데이터에 대한 통계에 기초하여 상기 전자기기에 미리 설치하고 저장한, 부동한 비디오 품질하에서의 인코딩 파라미터의 하나이상의 값에 대해 회귀를 수행하여 얻은 회귀 곡선일 수도 있다. 부동한 회귀 곡선은 비디오의 특징에 의해 결정되는 복잡도 인자에 따라 분류, 조회될 수 있고, 각각의 회귀 곡선은 일종의 복잡도 인자의 비디오의 부동한 비디오 품질하에서의 인코딩 파라미터를 특정한다. 인코딩 파라미터는 코드 레이트, 해상도, CRF 등을 포함할 수있다.

비디오의 품질은 PSNR(Peak Signal to Noise Ratio, 피크 신호 대 잡음비), VMAF(Visual Multimethod Assessment Fusion, 비디오 품질 복수 방법 평가 융합) 및 MOS(Mean Opinion Score, 평균주관의견점)을 통해 나타낼 수 있다. 목표 비디오 품질은 사용자가 기대하는 비디오 품질을 가리킨다.

단계(204)에서 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대응하는 인코딩 파라미터에 의해 비디오를 인코딩 처리하여, 인코딩된 비디오를 생성한다.

본 실시예에 있어서, 부동한 비디오 세그먼트에는 부동한 인코딩방식을 채용할 수 있으며, 각 비디오 세그먼트는 상응한 인코딩방식을 채용하여 각각 인코딩된 후 병합되어 완전한 비디오를 형성한다.

본 실시예의 일부 선택적인 실현방식에 있어서, 상기 방법은 인코딩된 비디오의 비디오 품질을 확정하는 단계를 더 포함한다. 확정된 비디오 품질과 목표 비디오 품질과의 불일치에 응답하여, 소정의 정보가 출력된다. 예측된 인코딩 파라미터에 대해 검증을 진행함으로써, 인코딩 파라미터 예측 모델의 불정확성으로 의한 불량 결과를 방지한다. 소정의 정보는 인코딩된 비디오 품질이 목표 비디오 품질에 도달하지 않았음을 제시하는 정보일 수 있다.

계속하여 도3을 참조하면, 도3은 본 실시예에 따른 비디오를 처리하기 위한 방법의 응용 시나리오를 도시한 도면이다. 도3의 응용 시나리오에 있어서, 서버(301)는 먼저 단말기기(302)에 의해 전송된 트랜스 코딩 대상 비디오(303)를 취득하고, 장면에 따라 트랜스 코딩 대상 비디오(303)를 두개의 트랜스 코딩 비디오 세그먼트(3031) 및 (3032)로 분할한다. 그 후, 트랜스 코딩 대상 비디오 세그먼트(3031) 및 트랜스 코딩 대상 비디오 세그먼트(3032)에 대해, 서버(301)는 다음의 단계를 진행할 수 있다. 즉 트랜스 코딩 대상 비디오 세그먼트(3031) 및 트랜스 코딩 대상 비디오 세그먼트(3032)의 특징을 각각 확정한다. 생성된 특징을 미리 훈련된 인코딩 파라미터 예측 모델에 각각 입력함과 동시에, 목표 비디오 품질을 입력하여, 목표 비디오 품질하의 트랜스 코딩 대상 비디오 세그먼트(3031)의 최적화 인코딩 파라미터 및 목표 비디오 품질하의 트랜스 코딩 대상 비디오 세그먼트(3032)의 최적화 인코딩 파라미터를 취득한다. 그 후, 취득된 인코딩 파라미터에 기초하여, 서버(301)는 트랜스 코딩 대상 비디오 세그먼트(3031)의 트랜스 코딩용 코드 레이트(304) 및 트랜스 코딩 대상 비디오 세그먼트(3032)의 트랜스 코딩용 코드 레이트(305)를 확정할 수 있다. 마지막으로, 서버(301)는 확정된 트랜스 코딩용 코드 레이트(304), (305)에 기초하여 트랜스 코딩 대상 비디오 세그먼트(3031) 및 (3032)를 각각 트랜스 코딩하여 트랜스 코딩된 비디오 세그먼트(306) 및 (307)을 생성한다. 그 다음, 비디오 세그먼트(306) 및 (307)는 결합되어 트랜스 코딩된 비디오(308)로 형성되어 단말기기(302)로 다시 되돌아간다.

본 출원의 상기 실시예에 의해 제공되는 방법은 트랜스 코딩 대상 비디오를 장면에 따른 비디오 세그먼트로 분할한 후, 각각 사전 훈련된 인코딩 파라미터 예측 모델에 입력함으로써, 부동한 비디오 세그먼트의 인코딩 파라미터를 얻는다. 각 비디오 세그먼트는 각자 자체의 인코딩 파라미터에 의해 인코딩된 후 결합되어 트랜스 코딩된 비디오를 형성한다. 콘텐츠의 복잡도를 기반으로 인코딩 파라미터를 설정함으로써, 인코딩 압축률을 제고시키고 비디오 품질을 향상시키는 목적을 달성한다.

더 나아가 도4를 참조하면, 비디오를 처리하기 위한 방법의 또 하나의 실시예의 프로세스(400)를 나타낸다. 상기 비디오를 처리하기 위한 방법의 프로세스(400)는 다음의 단계를 포함한다.

단계(401)에서 샘플 비디오 세트를 취득하고, 샘플 비디오 세트 중 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링한다.

본 실시예에 있어서, 비디오를 처리하기 위한 방법이 실행되는 전자기기(예를 들어 도1에 도시된 서버)는 제3자 서버로부터 유선 접속 또는 무선 접속을 통해 샘플 비디오 세트를 얻을 수 있다. 샘플 비디오는 지정된 테스트 시퀀스일 수 있으며 각 테스트 시퀀스에는 부동한 공간 복잡도(SI, Spatial perceptual Information) 및 시간 복잡도(TI, Temporal perceptual Information)가 특정되어 있다. TI, SI의 산출방법은 국제 표준 ITU-T P.910에 권장되어 있다.

샘플 비디오 세트는 공개된 데이터 세트로부터, 실제적인 온라인 비디오 데이터 세트로부터 취득할 수 있으며, 이러한 데이터 세트는 각종 부동한 유형으로부터 제공되거나 각 비디오마다 자체의 고유한 복잡도를 갖고 있을 수 있다. 발명자는 동일한 공간 복잡도 및 시간 복잡도를 갖고 있는 비디오는 비디오 인코딩 알고리즘을 통해 압축된 비디오가 동일한 인코딩 복잡도를 갖고 있음을 인정한다. 샘플 비디오 세트 중의 샘플 비디오의 인코딩 파라미터 및 비디오 품질은 수동 라벨링 또는 자동 라벨링의 방식으로 라벨링할 수 있다.

본 실시예의 일부 선택적인 실현방식에 있어서, 샘플 비디오 세트 중의 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링하는 단계는, 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오를 소정의 일정한 품질값에 의해 인코딩하고, 인코딩 과정에서 인코딩 파라미터 및 비디오 품질을 라벨링하는 단계를 포함한다. 복잡도(시간, 공간)가 동일한 비디오에 대해, 예를 들어, 동일한 CRF(예: CRF = 23)로 인코딩된 비디오가 동일한 코드율을 갖는 것과 같이 동일한 인코딩 특성을 가지며, 동시에 동일한 비디오 품질을 가질 수도 있다.

샘플 비디오 세트 중의 샘플 비디오에 대해 각각 CRF = 8, 10, 12, ... 49 이산 값을 사용하여 인코딩한 다음, 인코딩에 의해 코드율을 생성하는 코드율(bps) 및 비디오 품질에 대해 통계를 진행할 수 있다(예를 들어 PSNR, VMAF 또는 MOS). 이로서 모든 샘플 비디오에 대한 라벨링 작업이 실현된다. SI와 TI로서 라벨링할 수도 있다.

단계(402)에서 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오의 특징을 추출하고, 상기 샘플 비디오의 특징에 의해 상기 샘플 비디오의 복잡도 인자를 결정한다.

본 실시예에 있어서, 샘플 비디오 세트 중의 각 샘플 비디오에 대해 상기 샘플 비디오를 디코딩하여, 비디오 시간영역 또는 주파수영역의 특징을 추출하되, 이러한 특징들은 인접한 프레임 간의 motion(모션) 정보, VIF(visual information fidelity, 시각 정보 충실도) 및 DLM(detail loss measure, 세부 손실 측정) 등을 포함할 수 있다.

비디오의 특징에 따라 비디오의 복잡도 인자를 결정하고 나아가 비디오를 분류할수 있다. 매 하나의 장면에 대한 프래그먼트는, 주어진 일정한 품질의 값에 따라 CRF의 트랜스 코딩을 진행하고, 트랜스 코딩된 후 분할된 모든 프레임의 평균 매 하나의 픽셀에 점용된 비트 수 BPP(bits per pixel, 픽셀 깊이)를 통계하고, 그 다음 BPP의 값에 따라 일정한 수학 연산(Log10과 같음)을 인용하고, 상기 값을 일정하게 축소된 범위내에 인용하여 비디오의 복잡도 계수로 한다. 하나의 비디오에 있어서 모든 비디오 세그먼트의 비디오 복잡도의 평균을 통계하여 평균 복잡도 계수로 한 다음, 매 하나의 비디오 세그먼트의 복잡도 인자를 산출한다.

복잡도 인자 = 복잡도 계수 /(평균 복잡도 계수).

단계(403)에서 샘플 비디오 세트 중의 샘플 비디오를 복잡도 인자에 의해 적어도 하나의 카테고리로 분할한다.

본 실시예에 있어서, 복잡도 인자가 동일한 샘플 비디오는 동일한 카테고리로 분할된다. 그 다음 매개 카테고리의 샘플 비디오의 비디오 품질 및 인코딩 파라미터에 대해 회귀 분석을 진행하여 회귀 곡선을 결정한다.

단계(404)에서 적어도 하나의 카테고리 중의 카테고리에 대해, 상기 카테고리에 속하는 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 회귀하여, 인코딩 파라미터와 비디오 품질과의 관계곡선을 얻는다.

본 실시예에 있어서, 종래의 회귀 방법을 사용하여 커브 피팅을 진행함으로써 인코딩 파라미터과 비디오 품질 간의 관계곡선을 얻을 수 있다. 도5a, 5b와 같이 도시된다. 오른쪽의 것은 부동한 비디오 컨텐츠(BQ-1080, BI-1080 등은 서로 다른 비디오 시퀀스를 나타냄)를 라벨링한 것이고, 부동한 비디오 컨텐츠는 부동한 복잡도 인자를 가지며, 매개 복잡도 인자는 하나의 곡선에 대응된다. 횡좌표는 인코딩 파라미터(CRF 또는 코드율(bit rate）)이고 종좌표는 비디오의 품질 VMAF이다.

도4로부터 알수 있는 바와 같이, 도2에 대응하는 실시예에 비해, 본 실시예에 있어서의 비디오를 처리하기 위한 방법의 프로세스(400)는 인코딩 파라미터 예측 모델을 트레이닝하는 단계를 구현하였다. 따라서, 본 실시예에서 설명된 해결책은 보다 많은 종류의 비디오 복잡도의 비디오 관련 데이터를 도입할 수 있다. 이로써 보다 전면적인 비디오 인코딩 파라미터 예측이 실현된다.

진일보로 도6을 참조하면, 상기 각 도면에 도시된 방법의 구현으로서, 본 출원은 비디오를 처리하기 위한 장치의 하나의 실시예를 제공하며, 상기 장치의 실시예는 도2에 도시된 방법의 실시예에 대응되며, 상기 장치는 구체적으로 다양한 전자기기에 응용될 수 있다.

도6에 도시된 바와 같이, 본 실시예의 비디오를 처리하기 위한 장치(600)는, 분할 유닛(601), 추출 유닛(602), 입력 유닛(603) 및 처리 유닛(604)을 포함한다. 분할 유닛(601)은 처리 대상 비디오를 취득하고, 비디오를 장면에 의해 적어도 하나의 비디오 세그먼트로 분할하도록 구성된다. 추출 유닛(602)은 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대해, 상기 비디오 세그먼트의 특징들을 추출하도록 구성된다. 입력 유닛(603)은 특징 및 목표 비디오 품질을 사전 훈련된 인코딩 파라미터 예측 모델에 입력하고, 상기 비디오 세그먼트의 인코딩 파라미터를 얻도록 구성되며, 인코딩 파라미터 예측 모델은 비디오 세그먼트의 특징들과 목표 비디오 품질하에서의 인코딩 파라미터와의 대응관계를 특정하는데 사용된다. 처리 유닛(604)은 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대응하는 인코딩 파라미터에 의해 비디오를 인코딩 처리하여, 인코딩된 비디오를 생성하도록 구성된다.

본 실시예에 있어서, 비디오를 처리하기 위한 장치(600)의 분할 유닛(601), 추출 유닛(602), 입력 유닛(603) 및 처리 유닛(604)의 구체적인 처리는 도2의 대응 실시예 중의 단계(201), 단계(202), 단계(203) 및 단계(204)를 참조할 수 있다.

본 실시예의 일부 선택적인 실현방식에 있어서, 장치(600)는 인코딩된 비디오의 비디오 품질을 결정하도록 구성되는 검증 유닛(미도시)을 더 포함한다. 확정된 비디오 품질과 목표 비디오 품질과의 불일치에 응답하여, 소정의 정보가 출력된다.

본 실시예의 일부 선택적인 실현방식에 있어서, 추출 유닛(602)은 진일보로 상기 비디오 세그먼트를 디코딩하여 상기 비디오 세그먼트의 시간영역 특징 및 / 또는 주파수영역 특징을 추출하도록 구성된다.

본 실시예의 일부 선택적인 실현방식에 있어서, 장치(600)는 또한 트레이닝 유닛(미도시)을 더 포함하며, 트레이닝 유닛은, 샘플 비디오 세트를 취득하고, 샘플 비디오 세트 중 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링하고, 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오의 특징을 추출하고, 상기 샘플 비디오의 특징에 의해 상기 샘플 비디오의 복잡도 인자를 결정하고, 샘플 비디오 세트 중의 샘플 비디오를 복잡도 인자에 의해 적어도 하나의 카테고리로 분할하고, 적어도 하나의 카테고리 중의 카테고리에 대해, 상기 카테고리에 속하는 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 회귀하여, 인코딩 파라미터 및 비디오 품질의 관계곡선을 얻도록 구성되어 있다.

본 실시예의 일부 선택적인 실현방식에 있어서, 트레이닝 유닛은 진일보로, 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오를 소정의 일정한 품질값에 의해 인코딩하고, 인코딩 과정에서 인코딩 파라미터 및 비디오 품질을 라벨링하도록 구성되어 있다.

본 실시예의 일부 선택적인 실현방식에 있어서, 복잡도 인자는 인코딩된 샘플 비디오의 픽셀 깊이와 관련된다.

다음으로 도7을 참조하면, 본 출원의 실시예의 전자기기(도1에 도시된 바와 같은 서버)를 구현하는데 적합한 컴퓨터 시스템(700)의 구조를 나타낸다. 도7에 표시되는 전자기기는 단지 하나의 예이고, 본 출원의 실시예의 기능과 사용 범위에 대하여 어떠한 제한을 해서는 안된다.

도7에 나타낸 바와 같이, 컴퓨터 시스템(700)은 중앙 처리 유닛(CPU)(701)을 구비하며, CPU(701)는 읽기 전용 메모리(ROM)(702)에 저장되어 있는 프로그램 또는 저장부(708)로부터 랜덤 액세스 메모리(RAM)(703)에 로드된 프로그램에 따라 다양한 적당한 동작 및 처리를 실행할 수 있다. RAM(703)에는 시스템(700)의 동작에 필요한 각종 프로그램 및 데이터가 더 저장되어 있다. CPU(701), ROM(702), 및 RAM(703)는 버스(704)를 통해 서로 연결되어 있다. 입력 / 출력(I / O) 인터페이스(705)도 버스(704)에 연결되어 있다.

I/O 인터페이스(705)에 연결되는 부재로서, 키보드, 마우스 등을 포함하는 입력부(706)와, 예를 들어, 음극선관(CRT), 액정 표시 장치(LCD) 등 및 스피커 등을 포함하는 출력부(707)와, 하드 디스크 등을 포함하는 저장부(708)와, 예를 들어 LAN 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(709)가 포함된다. 통신부(709)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 드라이버(710)는 또한 필요에 따라 I / O 인터페이스(705)에 연결된다. 이동식 미디어(711), 예를 들어, 마그네틱 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 등이, 필요에 따라 드라이버(710)에 장착됨으로서 드라이버(610)에서 판독된 컴퓨터 프로그램이 필요에 따라 저장부(708)에 장착된다.

특히, 본 발명의 실시예에 따르면, 상기 흐름도 참조에서 설명된 과정은 컴퓨터 소프트웨어 프로그램으로 실현될 수 있다. 예를 들어, 본 발명의 실시예는, 컴퓨터 판독 가능 매체에 로드되는 컴퓨터 프로그램을 포함한 컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 프로그램은 흐름도에 표시된 방법을 실행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신부(709)를 통해 네트워크로부터 다운로드되어 설치 및 / 또는 이동식 미디어(711)로부터 장착될 수 있다. 상기 컴퓨터 프로그램은 중앙 처리 유닛(CPU)(701)에 의해 실행시, 본 출원의 방법에 한정된 상기 기능을 실행한다. 설명해야 할것은, 본 출원에 기재되는 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체 또는 상기 양자의 임의적인 조합일 수 있다. 컴퓨터 판독 가능 저장 매체는 예컨대 전기, 자기, 광, 전자기, 적외선 또는 반도체의 시스템, 장치 또는 소자, 혹은 임의적인 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예는, 하나 또는 복수의 전도선을 구비한 전기적 연결, 휴대형 컴퓨터 자기 디스크, 하드디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 삭제 가능 프로그래밍 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대형 콤팩터 자기디스크 읽기 전용 메모리(CD-ROM), 광 메모리 소자, 자기 메모리 소자, 또는 상술한 요소들의 임의적인 적당한 조합을 포함하며 이에 한정되지 않는다. 본 출원에 있어서, 컴퓨터 판독 가능 저장 매체는 프로그램을 포함하거나 저장한 임의의 유형 매체일 수 있으며, 상기 프로그램은 명령 실행 시스템, 장치 또는 소자에 의해 사용되거나 그것들과 결합 사용될 수 있다. 본 출원에서, 컴퓨터 판독 가능 신호 매체는 베이스 밴드에 포함되거나, 캐리어 파동의 일부분으로서 전파되는 데이터 신호에 포함될 수 있는데, 그 중에는 컴퓨터 판독 가능 프로그램 코드가 탑재되어 있다. 이러한 전파되는 데이터 신호는 다양한 형식을 적용할 수 있는 바, 전자기 신호, 광 신호 또는 상술한 신호들의 임의적인 조합을 포함할 수 있지만 이에 한정되지는 않는다. 컴퓨터 판독 가능 신호 매체는 또한 컴퓨터 판독 가능 저장 매체 이외의 임의의 컴퓨터 판독 가능 매체일 수도 있는데, 상기 컴퓨터 판독 가능 매체는 프로그램을 전송, 전파 또는 전송할 수 있는 바, 상기 프로그램은 명령 실행 시스템, 장치 또는 소자 또는 이들의 결합에 의해 사용되는 프로그램이다. 컴퓨터 판독 가능 매체 상에 포함되는 프로그램 코드는 임의의 적절한 매체를 이용하여 전송될 수 있는데, 무선, 전선, 광 케이블, RF 등 또는 상술한 요소들의 임의의 적절한 조합을 포함할 수 있으나 이에 한정되지 않는다.

한가지 또는 여러가지 프로그램 설계 언어 또는 그 조합에 의해 본 출원에 따라 동작하는 컴퓨터 프로그램 코드를 프로그래밍할 수 있고, 상기 프로그램 설계 언어는 객체를 지향한 프로그램 설계 언어, 예컨대 Java, Smalltalk, C++를 포함하고, 상규적 과정식 프로그램 설계 언어, 예컨대 "C" 언어 또는 유사한 프로그램 설계 언어를 더 포함한다. 프로그램 코드는 완전히 사용자 컴퓨터 상에서 실행되거나, 부분적으로 사용자 컴퓨터 상에서 실행되거나, 하나의 독립적인 소프트웨어 패킷으로서 실행되거나, 일부분은 사용자 컴퓨터 상에서 타부분은 원격 컴퓨터 상에서 실행되거나, 완전히 원격 컴퓨터 또는 서버 상에서 실행될 수 있다. 원격 컴퓨터가 섭렵되는 경우, 원격 컴퓨터는 임의의 종류의 네트워크 - 로컬 영역 네트워크(LAN) 또는 광대 영역 네트워크(WAN)를 통해 사용자 컴퓨터에 연결될 수 있다. 또는, 외부 컴퓨터(예를 들면, 인터넷 서비스 제공업체를 이용하여 인터넷을 통해 연결)에 연결될 수 있다.

첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 동작을 도시하였다. 이러한 방면에 있어서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 해당 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령을 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능들은 첨부된 도면에 표기된 순서와 다른 순서로 수행될 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 거의 동시에 실행될 수 있고, 경우에 따라 반대된 순서에 따라 실행될 수도 있으며, 이는 관련된 기능에 따라 결정된다. 블록도 및 / 또는 흐름도 중의 각 블록 및 블록도 및 / 또는 흐름도 중의 블록들의 조합은 규정된 기능 또는 동작을 실행하는 하드웨어 기반의 전용 시스템으로 실시되거나, 전용 하드웨어와 컴퓨터 명령의 조합으로 실시될 수 있음을 유의하여야 한다.

본 출원의 실시예에 설명된 관련 유닛들은 소프트웨어의 방식으로 실시될 수 있거나, 또는 하드웨어의 방식으로 실시될 수도 있다. 설명된 유닛은 또한 프로세서에 설치될 수도 있으며, 예를 들어, 분할 유닛, 추출 유닛, 입력 유닛 및 처리 유닛을 포함하는 프로세서로서 설명될 수 있다. 이러한 유닛의 명칭은 모종 상황하에서 상기 유닛 자체에 대한 제한을 구성하지 않는다. 예를 들어, 분할 유닛은 "처리 대상 비디오를 취득하고 장면에 따라 비디오를 적어도 하나의 비디오 세그먼트로 분할하는 유닛"으로 설명될 수도 있다.

다른 한 방면에 있어서, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 해당 컴퓨터 판독 가능한 매체는 상술한 실시예에 설명된 장치에 포함되는 것일 수 있으며, 또는 해당 장치에 설치되는 것이 아니라 단독으로 존재할 수도 있다. 상기 컴퓨터 판독 가능 매체는 하나이상의 프로그램을 포함하며 상기 하나이상의 프로그램이 상기 장치에 의해 실행될 때, 상기 장치로 하여금, 처리 대상 비디오를 취득하고, 비디오를 장면에 따라 적어도 하나의 비디오 세그먼트로 분할하는 단계와, 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대해, 상기 비디오 세그먼트의 특징들을 추출하는 단계와, 특징 및 목표 비디오 품질을 사전 훈련된 인코딩 파라미터 예측 모델에 입력하고, 상기 비디오 세그먼트의 인코딩 파라미터를 얻는 단계에 있어서, 인코딩 파라미터 예측 모델은 비디오 세그먼트의 특징들과 목표 비디오 품질하에서의 인코딩 파라미터와의 대응관계를 표현하는데 사용되는 단계와, 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대응하는 인코딩 파라미터에 의해 비디오를 코딩 처리하여, 코딩된 비디오를 생성하는 단계를 실행하도록 한다.

이상의 설명은 단지 본 출원의 비교적 바람직한 실시예 및 운용한 기술적 원리에 대한 설명이다. 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라, 본 발명의 주지를 벗어나지 않는한 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들도 포함되어야 함을 해당 기술분야의 당업자는 이해할 것이다. 예를 들어, 상기 특징들과 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징을 서로 대체하여 이루어진 기술적 방안도 포함된다.

Claims

비디오를 처리하기 위한 방법에 있어서,
처리 대상 비디오를 취득하고, 상기 비디오를 장면에 의해 적어도 하나의 비디오 세그먼트로 분할하는 단계와,
상기 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대해, 상기 비디오 세그먼트의 특징들을 추출하는 단계와,
상기 특징 및 목표 비디오 품질을 사전에 훈련된 인코딩 파라미터 예측 모델에 입력하고, 상기 비디오 세그먼트의 인코딩 파라미터를 얻는 단계에 있어서, 상기 인코딩 파라미터 예측 모델은 비디오 세그먼트의 특징들과 목표 비디오 품질하에서의 인코딩 파라미터와의 대응관계를 특정하는데 사용되는 단계와,
상기 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대응하는 인코딩 파라미터에 의해 상기 비디오를 인코딩 처리하여, 인코딩된 비디오를 생성하는 단계를 포함하는 비디오를 처리하기 위한 방법.
제1항에 있어서,
상기 방법은 또한,
인코딩된 비디오의 비디오 품질을 확정하는 단계와,
확정된 비디오 품질과 상기 목표 비디오 품질과의 불일치에 응답하여, 소정의 정보를 출력하는 단계를 포함하는 방법.
제1항에 있어서,
상기 비디오 세그먼트의 특징들을 추출하는 단계는,
상기 비디오 세그먼트를 디코딩하여 상기 비디오 세그먼트의 시간영역 특징 및 / 또는 주파수영역 특징을 추출하는 단계를 포함하는 방법.
제1항 내지 제3항 중 어느 한 항에 기재된 방법에 있어서,
상기 인코딩 파라미터 예측 모델은,
샘플 비디오 세트를 취득하고, 상기 샘플 비디오 세트 중 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링하는 것과,
상기 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오의 특징을 추출하고, 상기 샘플 비디오의 특징에 의해 상기 샘플 비디오의 복잡도 인자를 결정하는 것과,
상기 샘플 비디오 세트 중의 샘플 비디오를 복잡도 인자에 의해 적어도 하나의 카테고리로 분할하는 것과,
상기 적어도 하나의 카테고리 중의 카테고리에 대해, 상기 카테고리에 속하는 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 회귀하여, 인코딩 파라미터 및 비디오 품질의 관계곡선을 얻는 것에 의해 트레이닝되어 있는 방법.
제4항에 있어서,
상기 샘플 비디오 세트 중의 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링하는 단계는,
상기 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오를 소정의 일정한 품질값에 의해 인코딩하고, 인코딩 프로세스에 있어서 인코딩 파라미터 및 비디오 품질을 라벨링하는 단계를 포함하는 방법.
제4항에 있어서,
상기 복잡도 인자는 인코딩된 샘플 비디오의 픽셀 깊이와 관련되는 방법.
비디오를 처리하기 위한 장치에 있어서,
처리 대상 비디오를 취득하고, 상기 비디오를 장면에 의해 적어도 하나의 비디오 세그먼트로 분할하도록 구성되는 분할 유닛과,
상기 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대해, 상기 비디오 세그먼트의 특징들을 추출하도록 구성되는 추출 유닛과,
상기 특징 및 목표 비디오 품질을 사전에 훈련된 인코딩 파라미터 예측 모델에 입력하고, 상기 비디오 세그먼트의 인코딩 파라미터를 얻도록 구성되는 입력 유닛에 있어서, 상기 인코딩 파라미터 예측 모델은 비디오 세그먼트의 특징들과 목표 비디오 품질하에서의 인코딩 파라미터와의 대응관계를 특정하는데 사용되는 입력 유닛과,
상기 적어도 하나의 비디오 세그먼트 중의 비디오 세그먼트에 대응하는 인코딩 파라미터에 의해 상기 비디오를 인코딩 처리하여, 인코딩된 비디오를 생성하도록 구성되는 처리 유닛을 포함하는 비디오를 처리하기 위한 장치.
제7항에 있어서,
상기 장치는 검증 유닛을 더 포함하며, 상기 검증 유닛은,
인코딩된 비디오의 비디오 품질을 확정하고,
확정된 비디오 품질과 상기 목표 비디오 품질과의 불일치에 응답하여, 소정의 정보를 출력하도록 구성되는 장치.
제7항에 있어서,
상기 추출 유닛은 또한,
상기 비디오 세그먼트를 디코딩하여 상기 비디오 세그먼트의 시간영역 특징 및 / 또는 주파수영역 특징을 추출하도록 구성되는 장치.
제7항 내지 제9항 중 어느 한 항에 있어서,
상기 장치는 트레이닝 유닛을 더 포함하며, 상기 트레이닝 유닛은,
샘플 비디오 세트를 취득하고, 상기 샘플 비디오 세트 중 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 라벨링하고,
상기 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오의 특징을 추출하고, 상기 샘플 비디오의 특징에 의해 상기 샘플 비디오의 복잡도 인자를 결정하고,
상기 샘플 비디오 세트 중의 샘플 비디오를 복잡도 인자에 의해 적어도 하나의 카테고리로 분할하고,
상기 적어도 하나의 카테고리 중의 카테고리에 대해, 상기 카테고리에 속하는 샘플 비디오의 인코딩 파라미터 및 비디오 품질을 회귀하여, 인코딩 파라미터 및 비디오 품질의 관계곡선을 얻도록 구성되어 있는 장치.
제10항에 있어서,
상기 트레이닝 유닛은 또한,
상기 샘플 비디오 세트 중의 샘플 비디오에 대해, 상기 샘플 비디오를 소정의 일정한 품질값에 의해 인코딩하고, 인코딩 프로세스에 있어서 인코딩 파라미터 및 비디오 품질을 라벨링하도록 구성되는 장치.
제10항에 있어서,
상기 복잡도 인자는 인코딩된 샘플 비디오의 픽셀 깊이와 관련되는 장치.
전자기기에 있어서,
하나이상의 프로세서, 및
하나이상의 프로그램이 저장되어 있는 저장장치를 포함하며,
상기 하나이상의 프로그램이 상기 하나이상의 프로세서에 의해 실행될 경우, 상기 하나이상의 프로세서가 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 실현하도록 하는 전자기기.
컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 매체에 있어서,
상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제6항 중 어느 한 항에 기재된 방법을 구현하는 컴퓨터 판독 가능 매체.