WO2023017873A1 - 영상 인코딩 품질학습 및 예측 시스템 - Google Patents

영상 인코딩 품질학습 및 예측 시스템 Download PDF

Info

Publication number
WO2023017873A1
WO2023017873A1 PCT/KR2021/010736 KR2021010736W WO2023017873A1 WO 2023017873 A1 WO2023017873 A1 WO 2023017873A1 KR 2021010736 W KR2021010736 W KR 2021010736W WO 2023017873 A1 WO2023017873 A1 WO 2023017873A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
quality
divided
learning
segmented
Prior art date
Application number
PCT/KR2021/010736
Other languages
English (en)
French (fr)
Inventor
김승모
Original Assignee
김승모
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김승모 filed Critical 김승모
Publication of WO2023017873A1 publication Critical patent/WO2023017873A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Definitions

  • the present invention relates to a system for learning and predicting video encoding quality, and in particular, divides an image into specified units so that the characteristics of each divided image can be reflected and encoded, and analyzes and learns the image so that each divided image can be encoded with a specified quality ,
  • An image encoding quality learning and prediction system capable of predicting the quality of a segmented image.
  • Mobile data traffic is showing an upward trend mainly due to high-definition video such as Full HD, and the need for optimization using artificial intelligence technology is being raised to process the exploding data.
  • the first thing to do is video encoding.
  • the goal is to improve image quality while reducing capacity.
  • the first problem is how much bitrate to allocate.
  • the appropriate bit rate for each resolution is set to some extent.
  • the bitrate is consistently set and encoding is performed.
  • an image without motion may exhibit the same quality with a small bit rate compared to an image with a lot of motion. Accordingly, there is a problem in making the video a consistent bit rate.
  • the purpose of the present invention is to divide an image into specified units so that characteristics of each divided image can be reflected and encoded, analyze and learn images so that each divided image can be encoded with a specified quality, and predict the quality of the divided image. do.
  • An image encoding quality learning and prediction system for achieving the above object includes an image segmentation unit for receiving an image and dividing the received image into designated units to generate one or more divided images; an image analysis unit that analyzes data for each segmented image of the divided images divided by the image segmentation unit; A quality learning unit that learns the video quality for each segmented image by applying an encoding option to the data analyzed by the video analysis unit; and a quality prediction unit that predicts the video quality of each segmented image of the received video in real time. has its characteristics.
  • the data analyzed by the image analysis unit are characterized in that the motion of each segmented image, image complexity, file size, and playback time.
  • the video analysis unit sequentially compares two consecutive split images to score the motion difference between the two split images, analyzes each split image to score the degree of image complexity, and files size and playback time for each split image. Its characteristic is that it analyzes .
  • the encoding option is CRF (Constant Rate Factor)
  • the quality learning unit is characterized in that it learns the image quality corresponding to CRFs 16 to 30 from the analyzed data for each divided image.
  • the image quality is characterized in that it includes a peak signal-to-noise ratio (PSNR), a structural similarity index (SSIM), and a bitrate.
  • PSNR peak signal-to-noise ratio
  • SSIM structural similarity index
  • bitrate bitrate
  • the quality learning unit learns PSNR, SSIM, and bit rate, which are video qualities corresponding to CRFs 16 to 30, from the data for each split image analyzed by the video analysis unit, and PSNR, SSIM, Its feature is that it generates quality learning data for bit rate.
  • an image received in real time is divided into designated units by an image segmentation unit to generate one or more real-time segmented images, and an image analysis unit analyzes data of the segmented real-time segmented images,
  • the quality prediction unit compares the quality learning data stored in the DB with data of the real-time segmented images to predict image quality for each encoding option for each segmented image in real time.
  • an image can be divided into designated units to be encoded by reflecting the characteristics of each divided image, and the video can be analyzed and learned so that each divided image can be encoded with a specified quality, and the quality of the divided image can be predicted.
  • FIG. 1 is a diagram schematically showing the configuration of a video encoding quality learning and prediction system according to an embodiment of the present invention.
  • one component when one component is referred to as “connected” or “connected” to another component, the one component may be directly connected or directly connected to the other component, but in particular Unless otherwise described, it should be understood that they may be connected or connected via another component in the middle.
  • FIG. 1 is a diagram schematically showing the configuration of a video encoding quality learning and prediction system according to an embodiment of the present invention.
  • the video encoding quality learning and prediction system includes an image segmentation unit 100, an image analysis unit 200, a quality learning unit 300, and a quality prediction unit 400. do.
  • the image division unit 100 may generate one or more divided images by receiving an image and dividing the received image into designated units.
  • the designation unit may be a frame, and there is no limitation in its type.
  • the image analysis unit 200 analyzes data for each segmented image.
  • the data includes motion, image complexity, file size, and playback time.
  • motion, image complexity, file size, and playback time are described as data to be analyzed for a split image, but other types of data may be included and the types are not limited.
  • the image analysis unit 200 may score motions of the divided images.
  • the image analysis unit 200 may sequentially compare two consecutive split images and score a motion difference between the two split images.
  • the image analysis unit 200 may be scored by comparing the first split image with the second split image, and the motion difference may be scored by comparing the second split image with the third split image. That is, in the image analysis unit 200, motion analysis of the N divided images divided by the image segmentation unit 100 is performed N-1 times.
  • the image analysis unit 200 may score the degree of image complexity.
  • the image analysis unit 200 may score the degree of image complexity by analyzing each divided image. As an example, the image analysis unit 200 classifies the image complexity into 0 to 255 and scores it according to the degree of complexity.
  • the split image divided by the image division unit 100 is composed of the first split image, the second split image, the third split image to the Nth split image, the image complexity of the first split image, the second split image
  • the image complexity, the image complexity of the third segmented image to the image complexity of the Nth segmented image may be analyzed and scored.
  • the image analysis unit 200 may analyze the file size and playback time for each divided image.
  • the divided image divided by the image division unit 100 is composed of a first divided image, a second divided image, a third divided image to an Nth divided image
  • the file size and playback of the first divided image Time, the file size and playback time of the second split video, the file size and playback time of the third split video, and the file size and playback time of the Nth split video may be analyzed.
  • the analyzed data is stored in the DB 500.
  • the quality learning unit 300 may apply an encoding option to the data analyzed by the image analysis unit 200 to learn the image quality for each segmented image and generate quality learning data for each segmented image.
  • the encoding option may be a constant rate factor (CRF).
  • the quality learning unit 300 may learn image quality corresponding to CRFs 16 to 30 from the analyzed data.
  • the image quality may include a peak signal-to-noise ratio (PSNR), a structural similarity index (SSIM), and a bitrate.
  • PSNR peak signal-to-noise ratio
  • SSIM structural similarity index
  • bitrate a bitrate
  • the quality learning unit 300 determines the image quality corresponding to each of CRFs 16 to 30 in the data (motion, image complexity, file size, playback time) for each divided image analyzed by the image analysis unit 200.
  • PSNR, SSIM, and bit rate may be learned, and quality learning data for PSNR, SSIM, and bit rate for each divided image may be generated. That is, 15 PSNRs, 15 SSIMs, and 15 bitrates corresponding to CRFs 16 to 30 may be generated as quality learning data for the first split image.
  • the generated quality learning data is stored in the DB (500).
  • One split image stored in the DB 500 includes motion, image complexity, file size, playback time, encoding option information, PSNR, SSIM, and bit rate of the split image.
  • the quality prediction unit 400 may predict the image quality of each segmented image of the received image in real time.
  • the video received in real time is received by the video division unit 100 and divided into designated units to generate one or more real-time segmented images, and the quality prediction unit 400 can predict the video quality for each real-time segmented image.
  • the image received in real time is divided into designated units in the image segmentation unit 100, and the image analysis unit 200 analyzes the data of the divided images in real time.
  • the data includes motion, image complexity, file size, and playback time, as described above.
  • the quality prediction unit 400 can predict the image quality of each segmented image in real time by comparing it with pre-learned quality learning data stored in the DB 500.
  • the image segmentation unit 100 receives the real-time video and divides it into a first real-time segmented image, a second real-time segmented image, and a third real-time segmented image to an Nth real-time segmented image
  • the image analysis unit 200 analyzes data of the first real-time segmented image, the second real-time segmented image, and the third real-time segmented image to the Nth real-time segmented image.
  • the quality predicting unit 400 compares the first real-time segmented image with data of the segmented image stored in the DB 500, and determines the video quality (PSNR, SSIM, bit rate) of the first real-time segmented image for each encoding option.
  • the image quality of the split image having the closest data value to the first real-time split image may be predicted as the image quality of the first real-time split image.
  • it is not limited to this method.
  • the image analysis unit 200, the quality learning unit 300, and the quality prediction unit 400 may use artificial intelligence. More specifically, a convolutional neural network (CNN) artificial intelligence algorithm may be used.
  • CNN convolutional neural network
  • the video encoding quality learning and prediction system may further include an encoding option determining unit 600 that determines an encoding option based on the video quality predicted by the quality predicting unit 400.
  • the encoding option determining unit 600 may designate video quality for each divided video in real time according to a user's setting, and determine an encoding option for the designated video quality for each divided video in real time.
  • the compression time can be reduced and the compression efficiency can be increased.
  • the present invention has industrial applicability in the field of distributed encoding.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에 따른 영상 인코딩 품질학습 및 예측 시스템은, 영상을 수신받고 상기 수신된 영상을 지정단위로 분할하여 하나 이상의 분할영상을 생성하는 영상분할부; 상기 영상분할부에서 분할된 분할영상들의 분할영상별 데이터를 분석하는 영상분석부; 상기 영상분석부에서 분석된 데이터에 인코딩 옵션을 적용하여 각 분할영상별로 영상품질을 학습하는 품질학습부;및 실시간으로 수신된 영상의 분할영상별 영상품질을 예측하는 품질예측부;를 포함하는 점에 그 특징이 있다. 본 발명에 따르면, 영상을 지정단위로 분할하여 분할영상별 특성을 반영하여 인코딩할 수 있도록 하고 분할영상별로 지정품질로 인코딩될 수 있도록 영상을 분석하고 학습하며, 분할영상의 품질을 예측할 수 있다.

Description

영상 인코딩 품질학습 및 예측 시스템
본 발명은 영상 인코딩 품질학습 및 예측 시스템에 관한 것으로, 특히 영상을 지정단위로 분할하여 분할영상별 특성을 반영하여 인코딩할 수 있도록 하고 분할영상별로 지정품질로 인코딩될 수 있도록 영상을 분석하고 학습하며, 분할영상의 품질을 예측할 수 있는 영상 인코딩 품질학습 및 예측 시스템에 관한 것이다.
스마트 디바이스의 성능 향상, 데이터 집약적 콘텐츠 증가 등으로 인해 네트워크 및 모바일 트래픽 양이 엄청난 속도로 증가하고 있다.
비디오 및 CCTV 트래픽 증가율이 매년 증가하고 있으며, 전체 IP 트래픽에서 스마트폰이 차지하는 비중 또한 증가하고 있고, 향후 PC 트래픽을 넘어설 것으로 예상된다.
모바일 데이터 트래픽은 Full HD 등 고화질 동영상이 주 원인으로 상승세를 보이고 있으며, 폭증하고 있는 데이터 처리를 위해서는 인공지능 기술을 활용한 최적화의 필요성이 제기되고 있는 실정이다.
또한, 포털 중심에서 동영상 플랫폼 중심으로 검색 패러다임이 변화함에 따라 네트워크 및 동영상 콘텐츠 관리 이슈가 증대되고 있다.
트래픽은 비용과 직결되기 때문에 고화질 영상을 무한정 서비스할 수 없으므로 트래픽과 화질을 고려하여 효율적으로 관리해야 한다. 전 세계적으로 영상 트래픽이 폭발적으로 증가하는 추세이기 때문에 트래픽 관리는 더욱더 중요한 문제가 되고 있다.
동영상 트래픽이 증대됨에 따라 영상 압축 기술에 대한 관심이 증가하고 있다.
영상이 업로드 되거나 라이브로 송출되면 가장 우선적으로 하는 일이 비디오 인코딩이다. 목적은 화질을 좋게 하면서 용량은 줄이는 것이다. 여러가지 다양한 요소가 있으나 우선적인 문제는 비트레이트를 얼마나 할당하느냐의 문제이다. 일반적으로 해상도별 적정 비트레이트가 어느정도 정해져있다. 일반적으로는 일관적으로 비트레이트를 정하고 인코딩을 하고 있다. 그러나, 움직임이 없는 영상은 움직임이 많은 영상과 대비하여 적은 비트레이트로 동일한 화질을 나타낼 수 있다. 이에 영상을 일관적인 비트레이트로 하는 것에는 문제가 있다.
또한, 종래에는 영상 압축을 위해 사용중인 기술은 영상 콘텐츠에 대해 시각적으로 식별할 수 없는 한계까지 압축하여 콘텐츠의 파일사이즈 및 비트레이트(bitrate) 등을 현저하게 감소키기나 수작업 의존도가 높다는 문제점이 있다.
본 발명은 영상을 지정단위로 분할하여 분할영상별 특성을 반영하여 인코딩할 수 있도록 하고 분할영상별로 지정품질로 인코딩될 수 있도록 영상을 분석하고 학습하며, 분할영상의 품질을 예측할 수 있는 것을 목적으로 한다.
상기 과제를 달성하기 위한 본 발명에 따른 영상 인코딩 품질학습 및 예측 시스템은, 영상을 수신받고 상기 수신된 영상을 지정단위로 분할하여 하나 이상의 분할영상을 생성하는 영상분할부; 상기 영상분할부에서 분할된 분할영상들의 분할영상별 데이터를 분석하는 영상분석부; 상기 영상분석부에서 분석된 데이터에 인코딩 옵션을 적용하여 각 분할영상별로 영상품질을 학습하는 품질학습부;및 실시간으로 수신된 영상의 분할영상별 영상품질을 예측하는 품질예측부;를 포함하는 점에 그 특징이 있다.
여기서, 특히 상기 영상분석부에서 분석하는 데이터는 분할영상별 움직임, 이미지 복잡도, 파일사이즈, 재생시간인 점에 특징이 있다.
여기서, 특히 상기 영상분석부는, 연속된 분할영상 두개를 순차적으로 비교하여 두 분할영상의 움직임 차이를 점수화하고, 각 분할영상별로 분석하여 이미지 복잡도 정도를 점수화하고, 각 분할영상별로 파일사이즈 및 재생시간을 분석하는 점에 그 특징이 있다.
여기서, 특히 상기 인코딩 옵션은 CRF(Constant Rate Factor)이고, 상기 품질학습부는 분할영상별로 상기 분석된 데이터에 CRF 16~30까지 각각에 해당하는 영상품질을 학습하는 점에 그 특징이 있다.
여기서, 특히 상기 영상품질은, PSNR(Peak Signal-to-noise ratio), SSIM(Structural Similarity Index), 비트레이트(bitrate)를 포함하는 점에 그 특징이 있다.
여기서, 특히 상기 품질학습부는, 상기 영상분석부에서 분석된 각 분할영상별 데이터에 CRF 16~30 각각에 해당하는 영상품질인 PSNR, SSIM, 비트레이트를 학습하고, 각 분할영상별 PSNR, SSIM, 비트레이트에 대한 품질학습데이터를 생성하는 점에 그 특징이 있다.
여깃, 특히 실시간으로 수신된 영상은 영상분할부에서 지정단위로 분할되어 하나 이상의 실시간 분할영상들을 생성하고, 영상분석부는 상기 분할된 실시간 분할영상들의 데이터를 분석하고,
상기 품질예측부는 DB에 저장된 상기 품질학습데이터와 상기 실시간 분할영상들의 데이터를 비교하여 상기 실시간 분할영상별로 인코딩 옵션 별 영상품질을 예측하는 점에 그 특징이 있다.
본 발명에 따르면, 영상을 지정단위로 분할하여 분할영상별 특성을 반영하여 인코딩할 수 있도록 하고 분할영상별로 지정품질로 인코딩될 수 있도록 영상을 분석하고 학습하며, 분할영상의 품질을 예측할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 영상 인코딩 품질학습 및 예측 시스템의 구성을 개략적으로 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명을 설명함에 있어 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
이하, 본 발명의 바람직한 실시 예를 첨부한 도면에 의거하여 상세하게 설명하면 다음과 같다.
도 1은 본 발명의 일 실시 예에 따른 영상 인코딩 품질학습 및 예측 시스템의 구성을 개략적으로 도시한 도면이다.
도 1을 참조하면, 본 발명에 따른 영상 인코딩 품질학습 및 예측 시스템은, 영상분할부(100), 영상분석부(200), 품질학습부(300) 및 품질예측부(400)를 포함하여 구성된다.
상기 영상분할부(100)는 영상을 수신받고 수신된 영상을 지정단위로 분할하여 하나 이상의 분할영상들을 생성할 수 있다. 상기 지정단위는 프레임일 수 있으며 그 종류에 제한을 두지 않는다.
상기 영상분석부(200)는 분할영상별로 데이터를 분석한다. 상기 데이터는 움직임, 이미지 복잡도, 파일사이즈, 재생시간을 포함한다. 본 발명에서 분할영상의 분석될 데이터는 움직임, 이미지 복잡도, 파일사이즈, 재생시간만 기재되고 있으나, 다른 종류의 데이터를 포함할 수 있으며 그 종류에 제한을 두지 않는다.
상기 영상분석부(200)는 분할영상의 움직임을 점수화 할 수 있다. 상기 영상분석부(200)는 연속된 분할영상 두개를 순차적으로 비교하여 두 분할영상의 움직임 차이를 점수화할 수 있다. 일 실시 예로, 상기 영상분할부(100)에서 분할된 분할영상이 제1분할영상, 제2분할영상, 제3분할영상 ~ 제N분할영상으로 구성되는 경우, 상기 영상분석부(200)는 제1분할영상과 제2분할영상을 비교하여 움직임 차이를 점수화하고, 제2분할영상과 제3분할영상을 비교하여 움직임 차이를 점수화할 수 있다. 즉, 영상분석부(200)에서는 영상분할부(100)에서 분할된 N개의 분할영상의 움직임 분석은 N-1번의 분석이 이루어진다.
상기 영상분석부(200)는 이미지 복잡도 정도를 점수화 할 수 있다. 상기 영상분석부(200)는 각 분할영상별로 분석하여 이미지 복잡도 정도를 점수화 할 수 있다. 일 실시 예로, 상기 영상분석부(200)는 이미지 복잡도를 0~255로 구분하여 복잡도 정도에 따라 점수화를 할 수 있다. 상기 영상분할부(100)에서 분할된 분할영상이 제1분할영상, 제2분할영상, 제3분할영상 ~ 제N분할영상으로 구성되는 경우, 제1분할영상의 이미지 복잡도, 제2분할영상의 이미지 복잡도, 제3분할영상의 이미지 복잡도 ~ 제N분할영상의 이미지 복잡도를 각각 분석하여 점수화 할 수 있다.
상기 영상분석부(200)는 각 분할영상별로 파일사이즈 및 재생시간을 분석할 수 있다. 일 실시 예로, 상기 영상분할부(100)에서 분할된 분할영상이 제1분할영상, 제2분할영상, 제3분할영상 ~ 제N분할영상으로 구성되는 경우, 제1분할영상의 파일사이즈 및 재생시간, 제2분할영상의 파일사이즈 및 재생시간, 제3분할영상의 파일사이즈 및 재생시간 ~ 제N분할영상의 파일사이즈 및 재생시간 각각을 분석할 수 있다.
상기 분석된 데이터는 DB(500)에 저장된다.
상기 품질학습부(300)는 상기 영상분석부(200)에서 분석된 데이터에 인코딩 옵션을 적용하여 각 분할영상별로 영상품질을 학습하여 각 분할영상별 품질학습데이터를 생성할 수 있다.
일 실시 예로, 상기 인코딩 옵션은 CRF(Constant Rate Factor)일 수 있다. 상기 품질학습부(300)는 상기 분석된 데이터에 CRF 16~30까지 각각에 해당하는 영상품질을 학습할 수 있다.
여기서, 상기 영상품질은 PSNR(Peak Signal-to-noise ratio), SSIM(Structural Similarity Index), 비트레이트(bitrate)를 포함할 수 있다.
예를 들면, 상기 품질학습부(300)는 상기 영상분석부(200)에서 분석된 각 분할영상별 데이터(움직임, 이미지 복잡도, 파일사이즈, 재생시간)에 CRF 16~30 각각에 해당하는 영상품질인 PSNR, SSIM, 비트레이트를 학습하고, 각 분할영상별 PSNR, SSIM, 비트레이트에 대한 품질학습데이터를 생성할 수 있다. 즉, 제1분할영상에 대사여 품질학습데이터는 CRF 16~30에 해당하는 PSNR 15개, SSIM 15개, 비트레이트 15개가 생성될 수 있다.
상기 생성된 품질학습데이터는 DB(500)에 저장된다.
보다 구체적으로. 상기 DB(500)에 저장된 하나의 분할영상은 해당 분할영상에 대한 움직임, 이미지 복잡도, 파일사이즈, 재생시간, 인코딩 옵션정보, PSNR, SSIM, 비트레이트를 포함한다.
상기 품질예측부(400)는 실시간으로 수신된 영상의 실시간 분할영상별 영상품질을 예측할 수 있다.
실시간으로 수신된 영상은 영상분할부(100)로 수신되어 지정단위로 분할되어 하나 이상의 실시간 분할영상이 생성되고, 상기 품질예측부(400)는 각 실시간 분할영상별로 영상품질을 예측할 수 있다.
실시간으로 수신된 영상은 영상분할부(100)에서 지정단위로 분할되고, 영상분석부(200)는 상기 실시간 분할영상들의 데이터를 분석한다. 여기서, 데이터는 상기에서 설명한바와 같이, 움직임, 이미지 복잡도, 파일사이즈, 재생시간을 포함한다.
상기 품질예측부(400)는 DB(500)에 저장된 미리 학습된 품질학습데이터와 비교하여 실시간 분할영상별 영상품질을 예측할 수 있다. 일 실시 예로, 영상분할부(100)는 실시간 영상을 수신받아 제1실시간 분할영상, 제2실시간 분할영상, 제3실시간 분할영상 ~ 제N실시간 분할영상으로 분할하고, 상기 영상분석부(200)는 상기 제1실시간 분할영상, 제2실시간 분할영상, 제3실시간 분할영상 ~ 제N실시간 분할영상의 데이터를 분석한다. 여기서, 상기 품질예측부(400)는 상기 제1실시간 분할영상과 DB(500)에 저장된 분할영상의 데이터를 비교하고 상기 제1실시간 분할영상의 인코딩 옵션 별 영상품질(PSNR, SSIM, 비트레이트)을 예측할 수 있다. 예를 들면, 제1실시간 분할영상과 데이터 값이 가장 근접한 분할영상에 대한 영상품질을 제1실시간 분할영상이 영상품질로 예측할 수 있다. 다만, 이 방법에 한정되지 않는다.
상기 영상분석부(200), 품질학습부(300) 및 품질예측부(400)는 인공지능을 이용할 수 있다. 보다 구체적으로, CNN(Convolutional Neural Network) 인공지능 알고리즘을 이용할 수 있다.
본 발명에 따른 영상 인코딩 품질학습 및 예측 시스템은 상기 품질예측부(400)에서 예측한 영상품질을 바탕으로 인코딩 옵션을 결정하는 인코딩옵션결정부(600)를 더 포함할 수 있다.
상기 인코딩옵션결정부(600)는 사용자의 설정에 따라 실시간 분할영상별 영상품질을 지정하고, 실시간 분할영상별로 지정된 영상품질에 대한 인코딩옵션을 결정할 수 있다. 영상압축시, 각 분할영상 특성에 따라 필요한 영상품질이 다르기 때문에 특성을 반영하여 인코딩 옵션을 지정하면 압축시간을 줄이고, 압축 효율을 높일 수 있게 된다.
본 발명의 권리범위는 상술한 실시 예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시 예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다.
본 발명은 분산 인코딩 분야에서 산업상 이용가능성이 있다.

Claims (7)

  1. 영상을 수신받고 상기 수신된 영상을 지정단위로 분할하여 하나 이상의 분할영상을 생성하는 영상분할부;
    상기 영상분할부에서 분할된 분할영상들의 분할영상별 데이터를 분석하는 영상분석부;
    상기 영상분석부에서 분석된 데이터에 인코딩 옵션을 적용하여 각 분할영상별로 영상품질을 학습하는 품질학습부;및
    실시간으로 수신된 영상의 분할영상별 영상품질을 예측하는 품질예측부;를 포함하는,
    영상 인코딩 품질학습 및 예측 시스템.
  2. 제1항에 있어서,
    상기 영상분석부에서 분석하는 데이터는 분할영상별 움직임, 이미지 복잡도, 파일사이즈, 재생시간인,
    영상 인코딩 품질학습 및 예측 시스템.
  3. 제2항에 있어서,
    상기 영상분석부는,
    연속된 분할영상 두개를 순차적으로 비교하여 두 분할영상의 움직임 차이를 점수화하고,
    각 분할영상별로 분석하여 이미지 복잡도 정도를 점수화하고,
    각 분할영상별로 파일사이즈 및 재생시간을 분석하는,
    영상 인코딩 품질학습 및 예측 시스템.
  4. 제3항에 있어서,
    상기 인코딩 옵션은 CRF(Constant Rate Factor)이고,
    상기 품질학습부는 분할영상별로 상기 분석된 데이터에 CRF 16~30까지 각각에 해당하는 영상품질을 학습하는,
    영상 인코딩 품질학습 및 예측 시스템.
  5. 제4항에 있어서,
    상기 영상품질은,
    PSNR(Peak Signal-to-noise ratio), SSIM(Structural Similarity Index), 비트레이트(bitrate)를 포함하는,
    영상 인코딩 품질학습 및 예측 시스템.
  6. 제5항에 있어서,
    상기 품질학습부는,
    상기 영상분석부에서 분석된 각 분할영상별 데이터에 CRF 16~30 각각에 해당하는 영상품질인 PSNR, SSIM, 비트레이트를 학습하고, 각 분할영상별 PSNR, SSIM, 비트레이트에 대한 품질학습데이터를 생성하는,
    영상 인코딩 품질학습 및 예측 시스템.
  7. 제6항에 있어서,
    실시간으로 수신된 영상은 영상분할부에서 지정단위로 분할되어 하나 이상의 실시간 분할영상들을 생성하고, 영상분석부는 상기 분할된 실시간 분할영상들의 데이터를 분석하고,
    상기 품질예측부는 DB에 저장된 상기 품질학습데이터와 상기 실시간 분할영상들의 데이터를 비교하여 상기 실시간 분할영상별로 인코딩 옵션 별 영상품질을 예측하는,
    영상 인코딩 품질학습 및 예측 시스템.
PCT/KR2021/010736 2021-08-09 2021-08-12 영상 인코딩 품질학습 및 예측 시스템 WO2023017873A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0104658 2021-08-09
KR1020210104658A KR20230022646A (ko) 2021-08-09 2021-08-09 영상 인코딩 품질학습 및 예측 시스템

Publications (1)

Publication Number Publication Date
WO2023017873A1 true WO2023017873A1 (ko) 2023-02-16

Family

ID=85200804

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/010736 WO2023017873A1 (ko) 2021-08-09 2021-08-12 영상 인코딩 품질학습 및 예측 시스템

Country Status (2)

Country Link
KR (1) KR20230022646A (ko)
WO (1) WO2023017873A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060056558A (ko) * 2004-11-22 2006-05-25 주식회사 네빌소프트 영상의 인코딩 및 디코딩 방법
WO2017002283A1 (ja) * 2015-07-01 2017-01-05 パナソニックIpマネジメント株式会社 符号化方法、復号方法、符号化装置、復号装置および符号化復号装置
KR20170079852A (ko) * 2015-12-31 2017-07-10 네이버 주식회사 이미지 압축 품질을 최적화 하기 위한 방법 및 시스템
KR20200026759A (ko) * 2018-09-03 2020-03-11 주식회사 카카오 영상 컨텐츠를 처리하는 장치, 방법, 및 컴퓨터 프로그램
KR102140398B1 (ko) * 2019-05-27 2020-07-31 한국항공대학교산학협력단 영상 처리 장치 및 영상 처리 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103918262B (zh) 2011-06-14 2017-11-10 王舟 基于结构相似度的码率失真优化感知视频编码方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060056558A (ko) * 2004-11-22 2006-05-25 주식회사 네빌소프트 영상의 인코딩 및 디코딩 방법
WO2017002283A1 (ja) * 2015-07-01 2017-01-05 パナソニックIpマネジメント株式会社 符号化方法、復号方法、符号化装置、復号装置および符号化復号装置
KR20170079852A (ko) * 2015-12-31 2017-07-10 네이버 주식회사 이미지 압축 품질을 최적화 하기 위한 방법 및 시스템
KR20200026759A (ko) * 2018-09-03 2020-03-11 주식회사 카카오 영상 컨텐츠를 처리하는 장치, 방법, 및 컴퓨터 프로그램
KR102140398B1 (ko) * 2019-05-27 2020-07-31 한국항공대학교산학협력단 영상 처리 장치 및 영상 처리 방법

Also Published As

Publication number Publication date
KR20230022646A (ko) 2023-02-16

Similar Documents

Publication Publication Date Title
US4796087A (en) Process for coding by transformation for the transmission of picture signals
KR100307618B1 (ko) 영상부호화방법및장치
CN110659333B (zh) 一种多层次视觉特征描述方法和视觉检索系统
JP2002016920A (ja) 送信装置および送信方法、受信装置および受信方法、送受信装置および送受信方法、記録媒体、並びに信号
CN103886623A (zh) 一种图像压缩方法、设备及系统
CN113259451B (zh) 一种面向大规模监控节点智能分析的集群处理架构和方法
CN1258923C (zh) 建立多优先级流的系统和方法
CN111510735B (zh) 弱网环境下多路视频的编码传输方法、装置及无人车辆
KR20150054554A (ko) 영상 처리장치 및 방법
US20210312587A1 (en) Distributed image analysis method and system, and storage medium
US20220067417A1 (en) Bandwidth limited context based adaptive acquisition of video frames and events for user defined tasks
CN117221609B (zh) 一种高速公路收费业务集中监控值机系统
WO2023017873A1 (ko) 영상 인코딩 품질학습 및 예측 시스템
WO2023017928A1 (en) Video recording method and device
CN117395424B (zh) 一种用于视频无线传输监控系统的视频优化方法
WO2024017106A1 (zh) 一种码表更新方法、装置、设备及存储介质
CN116582693B (zh) 一种基于视频资源池的摄像头调用管控方法
CN1151678C (zh) 对于视频信号中的目标轮廓图象进行编码的方法和装置
Huang Modeling and analysis for packet video
CN117499655A (zh) 图像编码方法、装置、设备、存储介质及程序产品
US6226413B1 (en) Method for motion estimation
KR20210120358A (ko) 시각적 저손실 영상 압축 시스템 및 그 방법
CN113438417A (zh) 视频抓拍待识别物的方法、系统、介质及装置
CN113362233A (zh) 图片处理方法、装置、设备、系统及存储介质
Qin et al. Content adaptive downsampling for low bitrate video coding

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21953520

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE