WO2023017873A1

WO2023017873A1 - 영상 인코딩 품질학습 및 예측 시스템

Info

Publication number: WO2023017873A1
Application number: PCT/KR2021/010736
Authority: WO
Inventors: 김승모
Original assignee: 김승모
Priority date: 2021-08-09
Filing date: 2021-08-12
Publication date: 2023-02-16
Also published as: KR20230022646A

Abstract

본 발명에 따른 영상 인코딩 품질학습 및 예측 시스템은, 영상을 수신받고 상기 수신된 영상을 지정단위로 분할하여 하나 이상의 분할영상을 생성하는 영상분할부; 상기 영상분할부에서 분할된 분할영상들의 분할영상별 데이터를 분석하는 영상분석부; 상기 영상분석부에서 분석된 데이터에 인코딩 옵션을 적용하여 각 분할영상별로 영상품질을 학습하는 품질학습부;및 실시간으로 수신된 영상의 분할영상별 영상품질을 예측하는 품질예측부;를 포함하는 점에 그 특징이 있다. 본 발명에 따르면, 영상을 지정단위로 분할하여 분할영상별 특성을 반영하여 인코딩할 수 있도록 하고 분할영상별로 지정품질로 인코딩될 수 있도록 영상을 분석하고 학습하며, 분할영상의 품질을 예측할 수 있다.

Description

영상 인코딩 품질학습 및 예측 시스템

본 발명은 영상 인코딩 품질학습 및 예측 시스템에 관한 것으로, 특히 영상을 지정단위로 분할하여 분할영상별 특성을 반영하여 인코딩할 수 있도록 하고 분할영상별로 지정품질로 인코딩될 수 있도록 영상을 분석하고 학습하며, 분할영상의 품질을 예측할 수 있는 영상 인코딩 품질학습 및 예측 시스템에 관한 것이다.

스마트 디바이스의 성능 향상, 데이터 집약적 콘텐츠 증가 등으로 인해 네트워크 및 모바일 트래픽 양이 엄청난 속도로 증가하고 있다.

비디오 및 CCTV 트래픽 증가율이 매년 증가하고 있으며, 전체 IP 트래픽에서 스마트폰이 차지하는 비중 또한 증가하고 있고, 향후 PC 트래픽을 넘어설 것으로 예상된다.

모바일 데이터 트래픽은 Full HD 등 고화질 동영상이 주 원인으로 상승세를 보이고 있으며, 폭증하고 있는 데이터 처리를 위해서는 인공지능 기술을 활용한 최적화의 필요성이 제기되고 있는 실정이다.

또한, 포털 중심에서 동영상 플랫폼 중심으로 검색 패러다임이 변화함에 따라 네트워크 및 동영상 콘텐츠 관리 이슈가 증대되고 있다.

트래픽은 비용과 직결되기 때문에 고화질 영상을 무한정 서비스할 수 없으므로 트래픽과 화질을 고려하여 효율적으로 관리해야 한다. 전 세계적으로 영상 트래픽이 폭발적으로 증가하는 추세이기 때문에 트래픽 관리는 더욱더 중요한 문제가 되고 있다.

동영상 트래픽이 증대됨에 따라 영상 압축 기술에 대한 관심이 증가하고 있다.

영상이 업로드 되거나 라이브로 송출되면 가장 우선적으로 하는 일이 비디오 인코딩이다. 목적은 화질을 좋게 하면서 용량은 줄이는 것이다. 여러가지 다양한 요소가 있으나 우선적인 문제는 비트레이트를 얼마나 할당하느냐의 문제이다. 일반적으로 해상도별 적정 비트레이트가 어느정도 정해져있다. 일반적으로는 일관적으로 비트레이트를 정하고 인코딩을 하고 있다. 그러나, 움직임이 없는 영상은 움직임이 많은 영상과 대비하여 적은 비트레이트로 동일한 화질을 나타낼 수 있다. 이에 영상을 일관적인 비트레이트로 하는 것에는 문제가 있다.

또한, 종래에는 영상 압축을 위해 사용중인 기술은 영상 콘텐츠에 대해 시각적으로 식별할 수 없는 한계까지 압축하여 콘텐츠의 파일사이즈 및 비트레이트(bitrate) 등을 현저하게 감소키기나 수작업 의존도가 높다는 문제점이 있다.

본 발명은 영상을 지정단위로 분할하여 분할영상별 특성을 반영하여 인코딩할 수 있도록 하고 분할영상별로 지정품질로 인코딩될 수 있도록 영상을 분석하고 학습하며, 분할영상의 품질을 예측할 수 있는 것을 목적으로 한다.

상기 과제를 달성하기 위한 본 발명에 따른 영상 인코딩 품질학습 및 예측 시스템은, 영상을 수신받고 상기 수신된 영상을 지정단위로 분할하여 하나 이상의 분할영상을 생성하는 영상분할부; 상기 영상분할부에서 분할된 분할영상들의 분할영상별 데이터를 분석하는 영상분석부; 상기 영상분석부에서 분석된 데이터에 인코딩 옵션을 적용하여 각 분할영상별로 영상품질을 학습하는 품질학습부;및 실시간으로 수신된 영상의 분할영상별 영상품질을 예측하는 품질예측부;를 포함하는 점에 그 특징이 있다.

여기서, 특히 상기 영상분석부에서 분석하는 데이터는 분할영상별 움직임, 이미지 복잡도, 파일사이즈, 재생시간인 점에 특징이 있다.

여기서, 특히 상기 영상분석부는, 연속된 분할영상 두개를 순차적으로 비교하여 두 분할영상의 움직임 차이를 점수화하고, 각 분할영상별로 분석하여 이미지 복잡도 정도를 점수화하고, 각 분할영상별로 파일사이즈 및 재생시간을 분석하는 점에 그 특징이 있다.

여기서, 특히 상기 인코딩 옵션은 CRF(Constant Rate Factor)이고, 상기 품질학습부는 분할영상별로 상기 분석된 데이터에 CRF 16~30까지 각각에 해당하는 영상품질을 학습하는 점에 그 특징이 있다.

여기서, 특히 상기 영상품질은, PSNR(Peak Signal-to-noise ratio), SSIM(Structural Similarity Index), 비트레이트(bitrate)를 포함하는 점에 그 특징이 있다.

여기서, 특히 상기 품질학습부는, 상기 영상분석부에서 분석된 각 분할영상별 데이터에 CRF 16~30 각각에 해당하는 영상품질인 PSNR, SSIM, 비트레이트를 학습하고, 각 분할영상별 PSNR, SSIM, 비트레이트에 대한 품질학습데이터를 생성하는 점에 그 특징이 있다.

여깃, 특히 실시간으로 수신된 영상은 영상분할부에서 지정단위로 분할되어 하나 이상의 실시간 분할영상들을 생성하고, 영상분석부는 상기 분할된 실시간 분할영상들의 데이터를 분석하고,

상기 품질예측부는 DB에 저장된 상기 품질학습데이터와 상기 실시간 분할영상들의 데이터를 비교하여 상기 실시간 분할영상별로 인코딩 옵션 별 영상품질을 예측하는 점에 그 특징이 있다.

본 발명에 따르면, 영상을 지정단위로 분할하여 분할영상별 특성을 반영하여 인코딩할 수 있도록 하고 분할영상별로 지정품질로 인코딩될 수 있도록 영상을 분석하고 학습하며, 분할영상의 품질을 예측할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 영상 인코딩 품질학습 및 예측 시스템의 구성을 개략적으로 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명을 설명함에 있어 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

이하, 본 발명의 바람직한 실시 예를 첨부한 도면에 의거하여 상세하게 설명하면 다음과 같다.

도 1을 참조하면, 본 발명에 따른 영상 인코딩 품질학습 및 예측 시스템은, 영상분할부(100), 영상분석부(200), 품질학습부(300) 및 품질예측부(400)를 포함하여 구성된다.

상기 영상분할부(100)는 영상을 수신받고 수신된 영상을 지정단위로 분할하여 하나 이상의 분할영상들을 생성할 수 있다. 상기 지정단위는 프레임일 수 있으며 그 종류에 제한을 두지 않는다.

상기 영상분석부(200)는 분할영상별로 데이터를 분석한다. 상기 데이터는 움직임, 이미지 복잡도, 파일사이즈, 재생시간을 포함한다. 본 발명에서 분할영상의 분석될 데이터는 움직임, 이미지 복잡도, 파일사이즈, 재생시간만 기재되고 있으나, 다른 종류의 데이터를 포함할 수 있으며 그 종류에 제한을 두지 않는다.

상기 영상분석부(200)는 분할영상의 움직임을 점수화 할 수 있다. 상기 영상분석부(200)는 연속된 분할영상 두개를 순차적으로 비교하여 두 분할영상의 움직임 차이를 점수화할 수 있다. 일 실시 예로, 상기 영상분할부(100)에서 분할된 분할영상이 제1분할영상, 제2분할영상, 제3분할영상 ~ 제N분할영상으로 구성되는 경우, 상기 영상분석부(200)는 제1분할영상과 제2분할영상을 비교하여 움직임 차이를 점수화하고, 제2분할영상과 제3분할영상을 비교하여 움직임 차이를 점수화할 수 있다. 즉, 영상분석부(200)에서는 영상분할부(100)에서 분할된 N개의 분할영상의 움직임 분석은 N-1번의 분석이 이루어진다.

상기 영상분석부(200)는 이미지 복잡도 정도를 점수화 할 수 있다. 상기 영상분석부(200)는 각 분할영상별로 분석하여 이미지 복잡도 정도를 점수화 할 수 있다. 일 실시 예로, 상기 영상분석부(200)는 이미지 복잡도를 0~255로 구분하여 복잡도 정도에 따라 점수화를 할 수 있다. 상기 영상분할부(100)에서 분할된 분할영상이 제1분할영상, 제2분할영상, 제3분할영상 ~ 제N분할영상으로 구성되는 경우, 제1분할영상의 이미지 복잡도, 제2분할영상의 이미지 복잡도, 제3분할영상의 이미지 복잡도 ~ 제N분할영상의 이미지 복잡도를 각각 분석하여 점수화 할 수 있다.

상기 영상분석부(200)는 각 분할영상별로 파일사이즈 및 재생시간을 분석할 수 있다. 일 실시 예로, 상기 영상분할부(100)에서 분할된 분할영상이 제1분할영상, 제2분할영상, 제3분할영상 ~ 제N분할영상으로 구성되는 경우, 제1분할영상의 파일사이즈 및 재생시간, 제2분할영상의 파일사이즈 및 재생시간, 제3분할영상의 파일사이즈 및 재생시간 ~ 제N분할영상의 파일사이즈 및 재생시간 각각을 분석할 수 있다.

상기 분석된 데이터는 DB(500)에 저장된다.

상기 품질학습부(300)는 상기 영상분석부(200)에서 분석된 데이터에 인코딩 옵션을 적용하여 각 분할영상별로 영상품질을 학습하여 각 분할영상별 품질학습데이터를 생성할 수 있다.

일 실시 예로, 상기 인코딩 옵션은 CRF(Constant Rate Factor)일 수 있다. 상기 품질학습부(300)는 상기 분석된 데이터에 CRF 16~30까지 각각에 해당하는 영상품질을 학습할 수 있다.

여기서, 상기 영상품질은 PSNR(Peak Signal-to-noise ratio), SSIM(Structural Similarity Index), 비트레이트(bitrate)를 포함할 수 있다.

예를 들면, 상기 품질학습부(300)는 상기 영상분석부(200)에서 분석된 각 분할영상별 데이터(움직임, 이미지 복잡도, 파일사이즈, 재생시간)에 CRF 16~30 각각에 해당하는 영상품질인 PSNR, SSIM, 비트레이트를 학습하고, 각 분할영상별 PSNR, SSIM, 비트레이트에 대한 품질학습데이터를 생성할 수 있다. 즉, 제1분할영상에 대사여 품질학습데이터는 CRF 16~30에 해당하는 PSNR 15개, SSIM 15개, 비트레이트 15개가 생성될 수 있다.

상기 생성된 품질학습데이터는 DB(500)에 저장된다.

보다 구체적으로. 상기 DB(500)에 저장된 하나의 분할영상은 해당 분할영상에 대한 움직임, 이미지 복잡도, 파일사이즈, 재생시간, 인코딩 옵션정보, PSNR, SSIM, 비트레이트를 포함한다.

상기 품질예측부(400)는 실시간으로 수신된 영상의 실시간 분할영상별 영상품질을 예측할 수 있다.

실시간으로 수신된 영상은 영상분할부(100)로 수신되어 지정단위로 분할되어 하나 이상의 실시간 분할영상이 생성되고, 상기 품질예측부(400)는 각 실시간 분할영상별로 영상품질을 예측할 수 있다.

실시간으로 수신된 영상은 영상분할부(100)에서 지정단위로 분할되고, 영상분석부(200)는 상기 실시간 분할영상들의 데이터를 분석한다. 여기서, 데이터는 상기에서 설명한바와 같이, 움직임, 이미지 복잡도, 파일사이즈, 재생시간을 포함한다.

상기 품질예측부(400)는 DB(500)에 저장된 미리 학습된 품질학습데이터와 비교하여 실시간 분할영상별 영상품질을 예측할 수 있다. 일 실시 예로, 영상분할부(100)는 실시간 영상을 수신받아 제1실시간 분할영상, 제2실시간 분할영상, 제3실시간 분할영상 ~ 제N실시간 분할영상으로 분할하고, 상기 영상분석부(200)는 상기 제1실시간 분할영상, 제2실시간 분할영상, 제3실시간 분할영상 ~ 제N실시간 분할영상의 데이터를 분석한다. 여기서, 상기 품질예측부(400)는 상기 제1실시간 분할영상과 DB(500)에 저장된 분할영상의 데이터를 비교하고 상기 제1실시간 분할영상의 인코딩 옵션 별 영상품질(PSNR, SSIM, 비트레이트)을 예측할 수 있다. 예를 들면, 제1실시간 분할영상과 데이터 값이 가장 근접한 분할영상에 대한 영상품질을 제1실시간 분할영상이 영상품질로 예측할 수 있다. 다만, 이 방법에 한정되지 않는다.

상기 영상분석부(200), 품질학습부(300) 및 품질예측부(400)는 인공지능을 이용할 수 있다. 보다 구체적으로, CNN(Convolutional Neural Network) 인공지능 알고리즘을 이용할 수 있다.

본 발명에 따른 영상 인코딩 품질학습 및 예측 시스템은 상기 품질예측부(400)에서 예측한 영상품질을 바탕으로 인코딩 옵션을 결정하는 인코딩옵션결정부(600)를 더 포함할 수 있다.

상기 인코딩옵션결정부(600)는 사용자의 설정에 따라 실시간 분할영상별 영상품질을 지정하고, 실시간 분할영상별로 지정된 영상품질에 대한 인코딩옵션을 결정할 수 있다. 영상압축시, 각 분할영상 특성에 따라 필요한 영상품질이 다르기 때문에 특성을 반영하여 인코딩 옵션을 지정하면 압축시간을 줄이고, 압축 효율을 높일 수 있게 된다.

본 발명의 권리범위는 상술한 실시 예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시 예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다.

본 발명은 분산 인코딩 분야에서 산업상 이용가능성이 있다.

Claims

영상을 수신받고 상기 수신된 영상을 지정단위로 분할하여 하나 이상의 분할영상을 생성하는 영상분할부;

상기 영상분할부에서 분할된 분할영상들의 분할영상별 데이터를 분석하는 영상분석부;

상기 영상분석부에서 분석된 데이터에 인코딩 옵션을 적용하여 각 분할영상별로 영상품질을 학습하는 품질학습부;및

실시간으로 수신된 영상의 분할영상별 영상품질을 예측하는 품질예측부;를 포함하는,

영상 인코딩 품질학습 및 예측 시스템.
제1항에 있어서,

상기 영상분석부에서 분석하는 데이터는 분할영상별 움직임, 이미지 복잡도, 파일사이즈, 재생시간인,

영상 인코딩 품질학습 및 예측 시스템.
제2항에 있어서,

상기 영상분석부는,

연속된 분할영상 두개를 순차적으로 비교하여 두 분할영상의 움직임 차이를 점수화하고,

각 분할영상별로 분석하여 이미지 복잡도 정도를 점수화하고,

각 분할영상별로 파일사이즈 및 재생시간을 분석하는,

영상 인코딩 품질학습 및 예측 시스템.
제3항에 있어서,

상기 인코딩 옵션은 CRF(Constant Rate Factor)이고,

상기 품질학습부는 분할영상별로 상기 분석된 데이터에 CRF 16~30까지 각각에 해당하는 영상품질을 학습하는,

영상 인코딩 품질학습 및 예측 시스템.
제4항에 있어서,

상기 영상품질은,

PSNR(Peak Signal-to-noise ratio), SSIM(Structural Similarity Index), 비트레이트(bitrate)를 포함하는,

영상 인코딩 품질학습 및 예측 시스템.
제5항에 있어서,

상기 품질학습부는,

상기 영상분석부에서 분석된 각 분할영상별 데이터에 CRF 16~30 각각에 해당하는 영상품질인 PSNR, SSIM, 비트레이트를 학습하고, 각 분할영상별 PSNR, SSIM, 비트레이트에 대한 품질학습데이터를 생성하는,

영상 인코딩 품질학습 및 예측 시스템.
제6항에 있어서,

실시간으로 수신된 영상은 영상분할부에서 지정단위로 분할되어 하나 이상의 실시간 분할영상들을 생성하고, 영상분석부는 상기 분할된 실시간 분할영상들의 데이터를 분석하고,

상기 품질예측부는 DB에 저장된 상기 품질학습데이터와 상기 실시간 분할영상들의 데이터를 비교하여 상기 실시간 분할영상별로 인코딩 옵션 별 영상품질을 예측하는,

영상 인코딩 품질학습 및 예측 시스템.