KR20190130480A

KR20190130480A - 변화 매크로블록 추출 기법을 이용한 동영상 화질 개선 시스템

Info

Publication number: KR20190130480A
Application number: KR1020190046957A
Authority: KR
Inventors: 장경익
Original assignee: 주식회사 지디에프랩
Priority date: 2018-04-24
Filing date: 2019-04-22
Publication date: 2019-11-22
Also published as: KR20190130479A; JP7385286B2; US11095925B2; KR102190483B1; JP2021522723A; KR102179436B1; KR20190130478A; EP3787302A1; US20210160556A1; US20210058653A1; EP3787302A4; KR102082815B1; KR20190140825A; KR102082816B1

Abstract

본 발명의 실시 예에 따른 동영상 화질 개선 시스템은 동영상 데이터의 AI 영상 학습을 수행하기 위해 AI 영상 처리 서버로 원본 동영상 데이터를 전송하는 동영상 서비스 서버, 상기 동영상 서비스 서버로부터 수신한 원본 동영상 데이터를 AI 영상 처리하여 상기 원본 동영상 데이터에 대응하는 다운스케일링 파일을 생성하고, 상기 다운스케일링 파일의 해상도를 복원하는 데 요구되는 파일인 신경망 파일을 생성하는 AI 영상 학습 동작을 수행하되, 동영상 데이터에서 변화가 감지되는 이미지 영역과 변화가 감지되지 않는 이미지 영역을 각각 별도로 구분하여 AI 영상 학습을 수행하고, 생성된 상기 다운스케일링 파일 및 상기 신경망 파일을 상기 동영상 서비스 서버로 전송하며, 영상 복원 요청에 대응하여 상기 신경망 파일을 이용한 AI 연산을 통해 상기 다운스케일링 파일의 해상도를 복원하는 AI 영상 처리 서버를 포함할 수 있다.

Description

변화 매크로블록 추출 기법을 이용한 동영상 화질 개선 시스템{Video resolution enhancement system using change macro-block extraction technique}

본 발명은 변화 매크로블록 추출 기법을 이용한 동영상 화질 개선 시스템에 관한 것이다.

4차 산업혁명이 새로운 방송 서비스 시대를 촉발시키면서 미디어 판도를 바꾸고 있다. 인터넷 방송 플랫폼이 등장하면서 누구나 방송이 가능한 환경이 갖추어졌으며, 인터넷 방송 시청자까지 급증하면서 넷플릭스, 유튜브, 훌루, 아마존 TV등의 새로운 미디어 플랫폼이 돌풍을 일으키고 있다.

이러한 추세에 따라 대다수의 사용자들은 TV가 아닌 데이터 통신망을 이용한 동영상 시청 환경에 자연스럽게 노출되었으며, 앞으로 인터넷 기반 동영상 서비스의 이용자 수, 1인당 이용 데이터 용량은 매우 크게 증가할 전망이다.

인터넷 기반 동영상 서비스의 확대가 이루어짐에 따라, 사용자들은 동영상 콘텐츠의 해상도, 동영상 데이터의 용량, 네트워크 속도 등의 요소에 보다 민감하게 반응하게 될 것이다. 이에 따라 인터넷 기반 동영상 서비스 시장에서는 저용량으로 네트워크 트래픽 부하를 낮추면서도 고해상도 동영상 데이터를 제공하기 위한 영상 처리 기술이 요구되고 있다.

본 발명은 일 동영상 데이터를 해상도 및 용량을 감소시킨 다운스케일링 파일의 형태로 변환하여 저장하고, 이러한 다운스케일링 파일을 추후 인공 신경망 기반의 연산을 통해 해상도를 원본 수준의 상태로 복원하도록 하기 위해 고안되었다.

본 발명의 실시 예에 따르면, 동영상 데이터의 용량 및 해상도를 낮춰 다운스케일링 파일 형태로 저장하므로 동일한 저장 공간을 갖는 저장 기기에서 보다 많은 동영상 데이터를 저장할 수 있게 되는 효과가 있다. 이에 따라 저장 공간 확장에 필요한 비용을 절감할 수 있다.

또한 본 발명은 동영상을 실제 재생하는 시점에는 해상도 복원을 수행하므로, 비교적 적은 용량으로 원본 데이터와 같은 동영상 품질을 얻을 수 있다.

또한 본 발명은 변경되는 화면의 이미지 영역만을 별도로 영상 학습 및 영상 복원하므로 영상 학습 및 복원에 요구되는 시간 및 데이터 사용량을 절감할 수 있다.

도 1은 본 발명의 실시 예에 따른 동영상 화질 개선 시스템의 구성을 도시한 도면이다.
도 2는 본 발명의 실시 예에 따른 AI 영상 처리 서버의 구성을 도시한 도면이다.
도 3은 본 발명의 실시 예에 따른 코덱 지원부의 구성을 도시한 도면이다.
도 4는 본 발명의 실시 예에 따른 AI 학습 지원부의 구성을 도시한 도면이다.
도 5는 본 발명의 실시 예에 따른 모션 벡터가 표시된 동영상 프레임 이미지를 도시하고 있다.
도 6은 본 발명의 실시 예에 따른 동영상 화질 개선 시스템에서의 복원 동작이 이루어지는 순서에 대하여 도시한 순서도이다.
도 7은 본 발명의 실시 예에 따른 영상 학습 동작의 과정을 도시한 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

어떤 구성요소가 다른 구성요소에 '연결되어' 있다거나 '접속되어'있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 '직접 연결되어'있다거나 '직접 접속되어'있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

도 1은 본 발명의 실시 예에 따른 동영상 화질 개선 시스템의 구성을 도시한 도면이다.

도 1에서 도시되는 바와 같이, 본 발명의 실시 예에 따른 동영상 화질 개선 시스템 10은 AI 영상 처리 서버 100, 동영상 서비스 서버 200, 사용자 기기 300를 포함하여 구성될 수 있다.

일 실시 예에 따라 상기 동영상 서비스 서버 200는 다수의 사용자 또는 관리자로부터 업로드되는 동영상 데이터를 저장할 수 있으며, 사용자 요청에 대응하여 특정 동영상 데이터를 사용자에게 전송하는 서비스를 제공하는 플랫폼 서버일 수 있다. 다양한 실시 예에 따라 본 발명의 시스템 10을 구성하는 상기 동영상 서비스 서버 200는 동영상 서비스 업체 서버 뿐 아니라, 사용자 개인의 클라우드 서버 등 동영상 콘텐츠를 저장하도록 기능하는 서버를 모두 의미할 수도 있다.

상기 동영상 서비스 서버 200는 본 발명의 실시 예에 따라 영상 처리 서버 100와 기 연동된 상태일 수 있다. 이에 따라 상기 동영상 서비스 서버 200는 AI 영상 처리 서버 100로 기 설정된 조건이 부합하는 시점에 특정 동영상 데이터(영상 학습 이전의 원본 동영상 데이터)를 전송하며, 영상 학습을 요청할 수 있다. 예를 들어, 상기 동영상 서비스 서버 200는 다수의 사용자들로부터 동영상 컨텐츠를 획득하고, 획득된 동영상 데이터를 또 다수의 타 사용자들에게 제공하는 방식의 플랫폼을 구현하는 서버 200일 수 있다. 그리고 이러한 동영상 서비스 서버 200는 임의의 사용자로부터 특정 동영상이 업로드 됨에 따라 즉시 AI 영상 처리 서버 100로 영상 학습을 요청할 수 있다.

상기 AI 영상 처리 서버 100는 동영상 서비스 서버 200로부터 획득된 동영상을 대상으로 영상 학습을 수행할 수 있다. 이 때 상기 영상 학습이란 기 설정된 기준치 이하의 해상도를 갖는 저화질의 파일을 원본 영상 수준으로(예, 원본 영상과 기 설정된 기준치 이상 일치율을 보이는 수준) 복원하는 데 요구되는 신경망 파일을 생성하는 동작을 의미할 수 있다. 구체적으로, 상기 AI 영상 처리 서버 100는 원본 동영상(기준치 이상의 고해상도 데이터)을 영상 학습한 결과로 해상도가 저감된 버전인 다운스케일링 파일과, 영상 복원에 사용되는 메타 데이터를 포함하는 신경망 파일을 생성할 수 있다. 그리고 상기 신경망 파일은 추후 상기 다운스케일링 파일에 적용되어 AI 기반의 영상 복원을 수행하는 데 필요한 메타 정보를 포함할 수 있다. 구체적으로 상기 신경망 파일은 다운스케일링 파일을 원본 파일로 복원할 때 요구되는 인공신경망의 각종 파라미터(Weight, bias 등)과 관련된 정보를 포함할 수 있다.

AI 영상 처리 서버 100는 영상 학습 결과로 산출된 다운스케일링 파일은 동영상 서비스 서버 200에 저장하고 그에 대응하는 신경망 파일은 AI 영상 처리 서버 100에 저장하도록 할 수 있다. 이와 같이 다운스케일링 파일과 신경망 파일을 각각의 서버에 분리하여 저장하는 경우, 상기 AI 영상 처리 서버 100는 추후 동영상 서비스 서버 200로부터 다운스케일링 파일만을 수신하고, 수신된 다운스케일링 파일에 대응하는 신경망 파일을 추출한 후 영상 복원 작업을 수행할 수 있다.

또 다른 실시 예에 따라, 사용자 기기 300에서 동영상 다운로드를 요청할 경우, 상기 동영상 서비스 서버 200는 사용자 기기 300로 다운스케일링 파일을 전달하고, AI 영상 처리 서버 100는 신경망 파일을 사용자 기기 300로 전달할 수 있다.

또는, 상기 AI 영상 처리 서버 100는 영상 학습 결과로 산출된 다운스케일링 파일과 신경망 파일 모두를 동영상 서비스 서버 200에 제공하고, 동영상 서비스 서버 200가 두 종류의 파일 모두를 저장할 수 있다. 이러한 경우, 상기 동영상 서비스 서버 200는 사용자로부터 특정 동영상 콘텐츠에 대한 다운로드 요청이 수신된 경우, 즉시 해당 콘텐츠에 대한 다운스케일링 파일과 신경망 파일을 AI 영상 처리 서버 100에 제공하고 화질 복원을 요청할 수 있다. 이에 따라 AI 영상 처리 서버 100에서 화질 복원된 동영상 콘텐츠는 다시 동영상 서비스 서버 200를 통해 사용자 기기 300로 제공되거나, 사용자 기기 300로 바로 제공될 수 있다. 이 때 상기 사용자 기기 300는 동영상 서비스 서버 200측의 요청에 따라 AI 영상 처리 서버 100로의 접속 및 데이터 송수신을 지원하는 프로그램이 설치된 상태일 수 있다.

또한 다양한 실시 예에 따라 상기 동영상 서비스 서버 200는 사용자 기기 300로 다운스케일링 파일과 신경망 파일을 모두 전송할 수 있다. 이 때 상기 동영상 서비스 서버 200는 사용자 기기 300의 GPU 등의 사양에 기반하여 사용자 기기 300로의 다운스케일링 파일과 신경망 파일의 전송 가능 여부 및 전송 데이터의 형식을 결정할 수 있다.

영상 학습 결과 파일(다운스케일링 파일과 신경망 파일)의 저장 및 장치간 제공 방식은 앞서 기술한 형태로 한정되지 않으며, 보다 다양한 방법이 적용될 수 있다. 예를 들어, 사용자 기기 300의 상태, 기종, 동영상 서비스 서버 200와 AI 영상 처리 서버 100와의 연동 형식 등에 따라 상기 영상 학습 결과 파일의 저장 및 장치간 제공 방식은 변동될 수 있다.

이하에서는, 영상 학습을 수행하는 주체인 AI 영상 처리 서버 100의 구성 및 동작의 특징을 살펴보기 위해, 도면을 참조하여 설명하기로 한다.

도 2는 본 발명의 실시 예에 따른 AI 영상 처리 서버의 구성을 도시한 도면이다.

이하에서, AI 영상 처리 서버 100는 처리 서버 100로 지칭하기로 한다.

상기 처리 서버 100는 통신부 110, 저장부 120 및 제어부 130를 포함하여 구성될 수 있다.

상기 통신부 110는 사용자 디바이스와 서버 간의 데이터 송수신을 위해 네트워크를 이용할 수 있으며 상기 네트워크의 종류는 특별히 제한되지 않는다. 상기 네트워크는 예를 들어, 인터넷 프로토콜(IP)을 통하여 대용량 데이터의 송수신 서비스를 제공하는 아이피(IP: Internet Protocol)망 또는 서로 다른 IP 망을 통합한 올 아이피(All IP) 망 일 수 있다. 또한, 상기 네트워크는 유선망, Wibro(Wireless Broadband)망, WCDMA를 포함하는 이동통신망, HSDPA(High Speed Downlink Packet Access)망 및 LTE(Long Term Evolution) 망을 포함하는 이동통신망, LTE advanced(LTE-A), 5G(Five Generation)를 포함하는 이동통신망, 위성 통신망 및 와이파이(Wi-Fi)망 중 하나 이거나 또는 이들 중 적어도 하나 이상을 결합하여 이루어질 수 있다.

본 발명의 실시 예에 따른 상기 통신부 110는 동영상 서비스 서버 200 및 사용자 기기 300와의 데이터 통신을 수행할 수 있다.

상기 저장부 120는 예를 들면, 내장 메모리 또는 외장 메모리를 포함할 수 있다. 내장메모리는, 예를 들면, 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나를 포함할 수 있다.

외장 메모리는 플래시 드라이브(flash drive), 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), XD(extreme digital), MMC(multi-media card) 또는 메모리 스틱(memory stick) 등을 더 포함할 수 있다. 외장 메모리는 다양한 인터페이스를 통하여 전자 장치와 기능적으로 및/또는 물리적으로 연결될 수 있다.

본 발명의 실시 예에 따른 상기 저장부 120는 영상 학습을 수행한 결과물인 다운스케일링 파일과, 다운 스케일링 파일을 추후 원본 수준으로 복원하기 위해 요구되는 파일인 신경망 파일을 저장할 수 있다.

또한 상기 저장부 120는 상기 다운스케일링 파일과, 신경망 파일을 생성하기 위한 영상 학습 동작, 다운스케일링 파일로부터 해상도 복원을 위한 인공신경망 연산 동작에 요구되는 알고리즘을 저장할 수 있다.

상기 제어부 130는 프로세서(Processor), 컨트롤러(controller), 마이크로 컨트롤러(microcontroller), 마이크로 프로세서(microprocessor), 마이크로 컴퓨터(microcomputer) 등으로도 호칭될 수 있다. 한편, 제어부는 하드웨어(hardware) 또는 펌웨어(firmware), 소프트웨어, 또는 이들의 결합에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리에 저장되어 제어부에 의해 구동될 수 있다. 메모리는 상기 사용자 단말 및 서버 내부 또는 외부에 위치할 수 있으며, 이미 공지된 다양한 수단에 의해 상기 제어부와 데이터를 주고 받을 수 있다.

본 발명의 실시 예에 따른 상기 제어부 130는 코덱 지원부 131, AI 학습 지원부 132, AI 영상 복원부 133를 포함하여 구성될 수 있다.

상기 코덱 지원부 131는 동영상을 압축하거나 해제하는 코덱의 일반적인 기능을 제공할 수 있다. 그리고 상기 코덱 지원부 131는 코덱 기능을 이용하여 영상 학습을 위해 획득된 동영상의 데이터 정보 추출, 키프레임 추출의 동작을 수행할 수 있다. 이렇게 추출된 키프레임은, 영상 학습 시 키프레임을 제외한 프레임인 잔여 프레임과 분리되어 처리될 수 있다.

상기 AI 학습 지원부 132는 AI 기반의 영상 학습을 지원할 수 있다. 구체적으로, 상기 AI 학습 지원부 132는 획득된 동영상 파일로부터 다운스케일링 파일과, 다운스케일링 파일을 추후 원본 수준으로 화질 복원하기 위해 요구되는 파일인 신경망 파일을 생성할 수 있다. 이 과정에서 상기 AI 학습 지원부 132는 본 발명의 실시 예에 따라 상기 코덱 지원부 131에서 추출한 키프레임과, 키프레임을 제외한 잔여 프레임을 구분하여 영상학습을 수행할 수 있다. 구체적으로, 상기 AI 학습 지원부 132는 먼저 키프레임에 대하여 영상 학습할 시, 키프레임에 속한 전체 이미지에 대하여 영상 학습을 수행할 수 있다. 그리고 상기 AI 학습 지원부 132는 키프레임으로 추출되지 않은 잔여 프레임에 대하여 영상학습을 수행할 시, 키 프레임과 동일한 값을 갖는 매크로블록은 제외하고, 키프레임과 상이한 값을 갖는 매크로블록을 대상으로 영상 학습을 부분적으로 수행할 수 있다.

상기 AI 영상 복원부 133는 영상 학습 결과로 생성된 다운스케일링 파일을 신경망 파일에 기반하여 업스케일링할 수 있다. 상기 AI 영상 복원부 133는 업스케일링이 완료되어 화질이 복원된 데이터를 사용자 기기 300 또는 동영상 서비스 서버 200측으로 제공할 수 있다.

본 발명의 실시 예에 따른 상기 AI 영상 복원부 133는 영상 학습 방식과 마찬가지로 키 프레임과 잔여 프레임을 분리하여 영상 복원 동작을 수행할 수 있다. 먼저, 키 프레임을 먼저 영상 복원 동작을 수행하고, 잔여 프레임에 대해서는, 키프레임과 동일한 값의 매크로블록(이하, 정지 매크로블록)은 키프레임용 이미지를 그대로 복사해오고, 키프레임과 상이한 값의 매크로블록(이하, 변화 매크로블록)은 추가의 영상 복원 동작을 수행할 수 있다. 이에 따라 영상 복원 연산에 요구되는 데이터 부하 및 연산 속도를 절감할 수 있다.

이 밖에 상기 AI 영상 복원부 133는 업스케일링 결과, 원본 데이터와의 일치율이 기준치 이상인지 여부를 확인하고, 그에 대한 피드백 정보를 AI 학습 지원부 132에 제공할 수 있다. 또한 다양한 실시 예에 따라 상기 AI 영상 복원부 133는 상기 일치율에 관한 정보를 동영상 서비스 서버 100측에 전송하고, 일치율이 기준치 이하인 경우, 추가의 영상 학습을 위해 자료를 제공하도록 요청할 수 있다.

상기 AI 영상 복원부 133는 영상 복원 시, 동영상의 키프레임과 잔여 프레임을 구분하여 영상 복원을 수행할 수 있다. 먼저, 키프레임의 경우 전체 이미지 영역에 대한 영상 복원을 실시하고, 잔여 프레임의 경우, 일부 이미지 영역(예, 키프레임과 중복되지 않는 변화 이미지 객체 영역)에 대해서만 영상 복원을 수행하고, 나머지 이미지 영역은 키 프레임의 복원 이미지로부터 붙여넣기 할 수 있다. 이는 키 프레임과 중복되는 이미지 영역을 갖는 잔여 프레임의 영상 복원 시, 기 복원된 이미지를 재사용함으로써, 불필요한 복원 동작을 막고 복원 과정에 소요되는 시간소요를 줄일 수 있다.

도 3은 본 발명의 실시 예에 따른 코덱 지원부의 구성을 도시한 도면이다.

도 3에서 도시되는 바와 같이, 상기 코덱 지원부 131는 데이터 판단부 131a 와 프레임 추출부 131b 및 매크로블록 판단부 131c를 포함하여 구성될 수 있다.

먼저, 데이터 판단부 131a는 동영상 서비스 서버 200로부터 영상 학습을 수행할 동영상 데이터가 수신되면, 코덱의 기능에 기반하여 수신된 동영상에 대하여 영상 학습 또는 영상 복원과 관련된 세부 정보를 추출할 수 있다. 상기 세부 정보는 예컨대, 동영상 서비스 서버 200로부터 수신된 동영상 파일이 갖는 기초 해상도, 압축 방식, 재생시간과 같은 기본적인 동영상 재생과 관련된 정보를 포함할 수 있다.

그리고 상기 프레임 추출부 131b는 코덱의 기능에 기반하여 동영상에서 키프레임을 추출할 수 있다. 다시 말하면, 상기 프레임 추출부 131b는 동영상을 구성하는 전체 프레임들 중에서 키 프레임과, 키프레임이 아닌 잔여 프레임을 구분하는 역할을 수행할 수 있다. 이 때 상기 키 프레임은 상기 잔여 프레임과 별도의 영상학습 과정을 수행하기 위해 분리될 수 있다.

상기 프레임 추출부 131b는 추출된 키 프레임 정보를 즉시 영상학습 또는 영상 복원을 위해 AI 학습 지원부 132 또는 AI 영상 복원부 133측에 제공할 수 있다.

예컨대, 프레임 추출부 131b는 코덱에서 제공하는 기본적인 기능에 기반하여, 주요 장면 변화가 이루어지기 시작한 첫번째 프레임을 키프레임으로 선택하고 추출할 수 있다.

상기 매크로블록 판단부 131c는 키프레임을 제외한, 잔여 프레임들을 대상으로 매크로블록을 변화 매크로블록과 정지 매크로블록으로 구분하는 동작을 수행할 수 있다. 변화 매크로블록과 정지 매크로블록에 대한 구분 정보는 상기 매크로블록 판단부 131c에 의해 산출된 후 AI 학습 지원부 또는 AI 영상 복원부에 제공될 수 있다.

상기 매크로블록 판단부 131c에서 수행하는 매크로블록의 구분 동작을 구체적으로 설명하기 위해, 먼저 매크로블록의 구분 동작의 원리에 대하여 간단하게 설명하기로 한다.

상기 매크로블록은 H.261, H.263, MPEG 등 주요 영상 압축 방식에서 움직임 보상 및 움직임 예측을 위해 여러 화소 블록들을 그룹화시킨 단위를 의미할 수 있으며, 휘도 신호와, 색차 신호로 이루어질 수 있다.

기존 코덱의 일반적인 영상 압축 방식을 살펴보면, 기존 코덱(예, H.264)는 영상에서 시간적(motion compensation), 공간적(dct, 양자화)으로 중복된 정보를 제거함으로써 손실 압출을 하게 된다. 시간적으로 중복된 정보를 제거하는 방법은 예를 들면, 움직임 보상(motion compensation)방식이 있다. 움직임 보상 방식은 동영상에서 이전 프레임(key frame)은 영상 전체를 파일에 저장하지만 그 뒤의 현재 프레임(current frame)은 이전 프레임과 비교하여 프레임을 구성하는 작은 영역(macro block)들의 움직임 정보(motion vector)와 차이 영상(residual image)만 파일로 저장하여 파일 크기를 줄이는 방법이다.

예를 들어, 건물을 배경으로 사람이 말하고 있는 동영상의 경우, 사람의 배경인 건물은 움직임이 없고, 사람의 얼굴 부분만 움직일 것이므로, 사람의 얼굴 영역은 소정의 움직임 벡터 값을 갖게 되나, 건물 이미지 영역은 0에 가까운 값을 갖게 될 것이다.

코덱은 이와 같이 0에 가까운 작은 값을 갖는 영역을 이전 프레임과의 중복 영역으로 간주하여 0으로 바꾸는 동작(양자화)을 수행할 수 있고, 이를 통해 손실 압축이 이루어지게 된다.

본 발명의 실시 예에 따른 상기 매크로블록 판단부 131c는 이러한 기본적인 코덱의 압축 원리를 이용하여, 움직임 벡터가 0으로 간주된 매크로블록들과, 움직임 벡터가 유의미한 값을 갖는 매크로블록을 구분하여 산출할 수 있다. 본 명세서에서, 움직임 벡터가 0으로 간주된 매크로블록이 바로 정지 매크로블록이고, 움직임 벡터가 유의미한 값(예, 기준치 이상의 값)을 갖는 매크로블록이 변화 매크로블록을 의미한다.

상기 코덱 지원부 131는 키프레임 추출 동작, 잔여 프레임에서의 변화 매크로블록과 정지 매크로블록의 구분 동작 외에도, 종래의 코덱 기능에 기초한 다양한 동작을 수행할 수 있다.

상기 코덱 지원부 131는 코덱에서 키 프레임을 추출하는 동작과 관련하여, 키 프레임에서 판단되는 이미지의 복잡도를 판단하고, 해당 동영상의 장르를 구분할 수 있다. 예컨대, 상기 코덱 지원부 131는 애니메이션 장르와, 실사 장르를 구분할 수 있다. 장르 구분 동작에 따라 산출된 장르 구분 정보는 효과적인 AI 학습을 위해 AI 학습 지원부 및 AI 영상 복원부 133측에 제공될 수 있다.

도 4는 본 발명의 실시 예에 따른 AI 학습 지원부의 구성을 도시한 도면이다.

도 4에서 도시되는 바와 같이, 본 발명의 실시 예에 따른 AI 학습 지원부 132는 변화 객체 추출부 132a, 주요 객체 추출부 132b, AI 학습 수행부 132c를 포함하여 구성될 수 있다.

상기 변화 객체 추출부 132a는 상기 코덱 지원부 131에서 산출한 잔여 프레임의 변화 매크로블록 정보에 기반하여 변화 객체를 판단하는 동작을 수행할 수 있다. 변화 객체 판단 동작에 대하여 설명하기 위해, 도 5를 참조하기로 한다.

도 5는 본 발명의 실시 예에 따른 모션 벡터가 표시된 동영상 프레임 이미지를 도시하고 있다.

도 5에서 도시되는 바와 같이, 본 발명의 실시 예에 따르면, 동영상 프레임 이미지는 모션 벡터(화살표)가 존재하는 매크로블록으로 구성되는 이미지 영역 510과 모션 벡터가 존재하지 않거나, 기준치 이하로 미미한 수준인 이미지 영역 520으으로 구분될 수 있다.

이와 같이, 본 발명의 실시 예에 따른 변화 객체 추출부 132a는 모션 벡터 값의 유무 또는 그 값의 크기에 기반하여, 변화 매크로블록 및 상기 변화 매크로블록으로 구성되는 변화 이미지 객체를 판단할 수 있다. 동일한 원리로, 상기 변화 객체 추출부 132a는 모션 벡터 값의 유무 또는 그 값의 크기에 기반하여 정지 매크로블록 및 상기 정지 매크로블록으로 구성되는 정지 이미지 객체를 판단할 수 있다.

상기 주요 객체 추출부 132b는 이미지 객체를 움직임 여부 대신 중요도 판단에 기반하여 이미지 객체를 추출하는 동작을 수행할 수 있다. 상기 주요 객체 추출부 132b는 정지 이미지라 하더라도 해당 동영상 데이터에서 중요도가 있는 대상으로 판단되면, 해당 객체를 별도로 추출할 수 있다. 추출된 이미지 객체는 추후 별도로 AI 영상 학습을 수행할 수 있다.

일 실시 예에 따라 상기 주요 객체 추출부 132b는 키 프레임 이미지에서 확인되는 이미지 객체의 사이즈, 이미지 객체의 영상 복잡도(색상의 다양성 및 윤곽의 복잡도 등에 기반), 인물 여부(인물인 경우 중요도 증가), 포커스 여부(포커스가 존재하는 대상인 경우 중요도 증가) 와 같은 다양한 기준에 기반하여 주요 객체 여부를 판단할 수 있다. 예를 들면, 상기 주요 객체 추출부 132b는 프레임의 정 중앙에 표시되는 특정 사물(예, 책)의 이미지가 정지해 있다 하더라도, 상기 책의 이미지가 차지하는 영역의 비율 내지는 책의 이미지 객체의 사이즈가 기준치 이상인 경우, 중요도가 있는 것으로 판단하고, 그에 따라 주요 객체로써 추출할 수 있다. 그리고 이 때 상기 주요 객체 추출부 132b는 이미지 객체의 사이즈를 중요도 기준으로 선택한 경우, 이미지 객체의 사이즈 값이 증가할수록 중요도 수치를 높은 값으로 설정할 수 있다. 이에 따라 산출된 이미지 객체의 중요도가 기준치 이상이면, 해당 이미지 객체는 주요 이미지 객체로 선택될 수 있다.

AI 학습 수행부 132c는 획득된 동영상 데이터를 대상으로 AI 기반의 영상 학습을 통한 압축 기능을 지원할 수 있다. 구체적으로, 상기 AI 학습 수행부 132c는 획득된 동영상 파일로부터 다운스케일링 파일과, 다운스케일링 파일을 추후 원본 수준으로 화질을 복원하기 위해 요구되는 파일인 신경망 파일을 생성할 수 있다. 이 때 상기 다운스케일링 파일은 곧 압축 파일을 의미하며, 본 발명의 실시 예에 따라 상기 AI 학습 수행부 132c는 이러한 영상 학습을 수행하는 방식으로 동영상 파일 압축을 수행할 수 있다. 이러한 AI 영상 학습에 의해 다운스케일되어 압축된 동영상 파일은 추후 AI 영상 복원부 133에서 신경망 파일에 기반하여 수행되는 복원 작업에 의해 해상도가 복원(압축 해제)이 이루어질 수 있다.

상기 AI 학습 수행부 132c는 동영상의 키 프레임과 잔여 프레임에 대하여 별도의 영상 학습을 수행할 수 있다. 상기 AI 학습 수행부 132c는 먼저 키 프레임에 대하여는 전체 이미지 영역에 대한 영상학습을 수행하고, 잔여 프레임에 대하여는 임의의 기준(중복 여부, 중요도)에 따라 적어도 2개의 이미지 영역을 분류하고, 그 중 일 이미지 영역에 대한 영상 학습은 생략하게 된다. 추후 잔여 프레임의 해상도 복원 시, 영상 학습이 수행되지 않은 이미지 영역은 키프레임의 이미지 복원 결과물에서 붙여 넣는 방식으로 수행될 수 있다.

본 발명의 실시 예에 따라 상기 AI 학습 수행부 132c는 상기 변화 객체 추출부 132a에서 추출한 변화 이미지 객체를 대상으로 한 별도의 AI 영상 학습 동작을 수행할 수 있다. 이에 따라, 상기 AI 학습 수행부 132c는 상기 변화 이미지 객체에 대한 별도의 신경망 파일을 생성할 수 있다. 그리고 이에 따라 추후 AI 영상 복원부 133의 영상 복원시, 상기 변화 이미지 객체에 대한 별도의 신경망 파일을 기반으로 변화 이미지 객체에 대한 영상 복원 동작을 수행하고, 나머지, 정지 이미지 객체(예, 배경)에 대하여는 키프레임의 중복 이미지를 복사 및 붙여넣기하여 최종 복원 영상을 생성할 수 있다. 상기 AI 학습 수행부 132c는 이러한 변화 이미지 객체에 대한 별도의 영상 학습 방식을 수행함으로, 복원 영상에 소요되는 시간 소요 및 데이터 용량을 감소시킬 수 있다.

이와 유사하게, 상기 AI 학습 수행부 132c는 상기 주요 객체 추출부 132b에서 추출된 주요 이미지 객체에 대하여 별도의 영상 학습을 수행하고, 그에 대한 결과로 상기 주요 이미지 객체의 해상도를 추후 복원하기 위해 필요한 신경망 파일을 생성할 수 있다. 이에 따라 영상 복원 시, 상기 주요 이미지 객체에 대응하는 신경망 파일을 기반으로 상기 주요 이미지 객체에 대한 영상 복원 동작을 생성할 수 있게 된다.

도 6은 본 발명의 실시 예에 따른 동영상 화질 개선 시스템에서의 복원 동작이 이루어지는 순서에 대하여 도시한 순서도이다.

본 발명의 실시 예에 따른 동영상 화질 개선 시스템은 AI 영상 처리 서버 100, 동영상 서비스 서버 200, 사용자 기기 300를 통해 구현될 수 있다. 다양한 실시 예에 따라 상기 동영상 서비스 서버 200는 AI 영상 처리 서버 100와 동일 장치에서 구현될 수 있다. 그러나 설명의 편의를 위해 상기 AI 영상 처리 서버 100와 동영상 서비스 서버 200는 분리된 객체로 구현되는 경우를 예로 들기로 한다.

상기 동영상 서비스 서버 200는 예컨대, OTT(Over The Top; 인터넷 통신망을 이용해 영상콘텐츠를 제공하는 서비스 형태) 업체측 서버를 의미할 수 있다. 상기 동영상 서비스 서버 200는 자체적으로 확보하였거나 제작한 동영상의 AI 영상 학습 및 그에 따른 저용량의 다운스케일링 파일 생성을 위해 AI 영상 처리 서버 100에 영상 데이터를 제공하고, 상기 AI 영상 처리 서버 100로부터 생성된 결과물을 수신할 수 있다.

이에 대하여 구체적으로 설명하면, 먼저 상기 동영상 서비스 서버 200는 AI 영상 처리 서버 100로 원본 영상 데이터를 제공하는 605동작을 수행할 수 있다. 이후 상기 AI 영상 처리 서버 100는 동영상 서비스 서버 200로부터 영상 데이터를 수신하면, AI 영상 학습을 진행하는 610동작을 수행할 수 있다. 상기 AI 영상 학습에 대한 설명은 이전에 기술하였으므로, 생략하기로 한다.

이후 상기 AI 영상 처리 서버 100는 영상 학습을 수행한 결과 파일(다운스케일링 파일 및 신경망 파일)을 생성하게 되고, 이를 상기 동영상 서비스 서버 200에 제공하는 615동작을 수행하게 된다.

상기 동영상 서비스 서버 200는 이에 따라 영상 학습의 결과물인 다운스케일링 파일 및 신경망 파일을 보유한 상태에서, 사용자 기기 300측으로부터 해당 영상에 대한 다운로드 요청 신호를 수신하는 620동작을 수행할 수 있다. 이에 대응하여 상기 동영상 서비스 서버 200는 사용자 기기 300측으로부터 다운로드 요청받은 동영상 콘텐츠의 명칭 등의 정보를 확인하고, 이에 대응하는 학습 결과 파일(다운스케일링 파일 및 신경망 파일)을 다시 AI 영상 처리 서버 100에 제공하는 625동작을 수행할 수 있다. 상기 AI 영상 처리 서버 100는 동영상 서비스 서버 200로부터 학습 결과 파일이 수신됨에 따라, 이를 영상 복원 요청 신호로 인식할 수 있으며, AI 연산 기반의 영상 복원 동작인 630동작을 수행할 수 있다. 이후 상기 AI 영상 처리 서버 100는 복원된 파일을 동영상 서비스 서버 200측으로 전달하는 635동작을 수행할 수 있고, 이어서, 동영상 서비스 서버 200에서 복원된 파일을 사용자 기기 300측으로 전달하는 640 동작을 수행할 수 있다.

그러나 상기 635동작 및 640동작 대신, 영상 복원을 수행하기 위해서, 사용자 기기 300가 AI 영상 처리 서버 100에 직접 접속하도록 상기 동영상 서비스 서버 200가 중개하며, 이에 따라 복원된 동영상 파일은 사용자 기기 300로 직접 제공될 수 있다. 이에 따라 사용자는 동영상 서비스 서버 200에서 제공하는 웹 또는 앱 상에서 제공되는 특정 동영상의 재생을 요청하는 경우, 복원 동작을 수행하는 AI 영상 처리 서버 100로부터 즉각적으로 복원된 파일을 제공받을 수 있다.

또한 상기 도면에 도시되지 않았지만, 다양한 실시 예에 따라 사용자 기기 300의 사양에 기반하여, 영상 복원 동작을 수행할 주체가 결정될 수 있다. 상기 동영상 서비스 서버 200는 사용자 기기 300측의 요청시 또는 사용자 기기 300의 사양 판단 결과, 영상 복원을 위한 AI 연산에 적합하다고 인정되는 경우, 학습 결과 파일을 사용자 기기 300측에 전달하여, 사용자 기기 300에서 영상 복원 동작이 이루어지도록 할 수 있다.

또는 사용자 기기 300가 동영상 다운로드 요청시, 상기 동영상 서비스 서버 200에서 원본 동영상 데이터 또는 복원된 데이터가 아닌, 영상 학습 결과물인 다운스케일링 파일과 신경망 파일을 전달할 수 있다. 추후 사용자는 사용자 기기 300에서 실제 해당 동영상 데이터를 재생하고자 하는 시점에, AI 영상 처리 서버 100에서 제공하는 플레이어를 통해 플레이하는 등의 방법을 통해, AI 영상 처리 서버 100측으로 학습 결과 파일이 제공할 수 있다. 그리고 AI 영상 처리 서버 100가 사용자 기기 300로부터 수신한 학습 결과 파일을 통해 영상 복원 동작을 수행할 수도 있다.

도 7은 본 발명의 실시 예에 따른 영상 학습 동작의 과정을 도시한 순서도이다.

상기 도 7에서 도시되는 바와 같이, 본원 발명의 실시 예에 따른 영상 처리 서버 100의 제어부 130는 외부로부터 영상 데이터를 획득하고, 영상 데이터가 획득됨을 확인하는 705동작을 수행할 수 있다. 이후 상기 제어부 130는 코덱 기반으로 동영상 데이터의 키프레임을 추출하는 710동작을 수행할 수 있다. 이 때 상기 영상 처리 서버 100는 다양한 확장자의 동영상 데이터의 디코딩을 수행할 수 있는 다양한 코덱 정보를 포함할 수 있으며, 이를 기반으로 획득되는 동영상의 키 프레임을 코덱을 통해 추출할 수 있다.

이후 상기 제어부 130는 추출된 키 프레임에 대한 영상 학습을 수행하는 715동작을 수행할 수 있다.

그리고 상기 제어부 130는 키 프레임 이외의 프레임인 잔여 프레임을 대상으로 영상학습을 수행하되, 키 프레임과 중복된 부분은 제외하고, 키 프레임과 상이한 이미지 영역에 대하여 별도의 영상 학습을 수행할 수 있다. 이를 위해 상기 제어부 130는 잔여 프레임의 변화 매크로블록을 추출하는 720동작을 수행할 수 있다. 상기 변화 매크로블록은 키 프레임과 비교하였을 때, 다음 장면에서 움직임이 발생한 영역을 판단하여 분리해내기 위하여 추출되는 대상이다. 이후 상기 제어부 130는 상기 변화 매크로블록을 별도로 추출하고 이에 대한 영상 학습을 수행하는 725동작을 수행할 수 있다.

다양한 실시 예에 따라 715동작과 720동작은 그 순서가 변경될 수 있다.

상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 요컨대 본 발명이 의도하는 효과를 달성하기 위해 도면에 도시된 모든 기능 블록을 별도로 포함하거나 도면에 도시된 모든 순서를 도시된 순서 그대로 따라야만 하는 것은 아니며, 그렇지 않더라도 얼마든지 청구항에 기재된 본 발명의 기술적 범위에 속할 수 있음에 주의한다.

100 : AI 영상 처리 서버
110 : 통신부
120 : 저장부
130 : 제어부
131 : 코덱 지원부
132 : AI 학습 지원부
133 : AI 영상 복원부
200 : 동영상 서비스 서버
300 : 사용자 기기

Claims

동영상 데이터의 AI 영상 학습을 수행하기 위해 AI 영상 처리 서버로 원본 동영상 데이터를 전송하는 동영상 서비스 서버;
상기 동영상 서비스 서버로부터 수신한 원본 동영상 데이터를 AI 영상 처리하여 상기 원본 동영상 데이터에 대응하는 다운스케일링 파일을 생성하고, 상기 다운스케일링 파일의 해상도를 복원하는 데 요구되는 파일인 신경망 파일을 생성하는 AI 영상 학습 동작을 수행하되, 동영상 데이터에서 변화가 감지되는 이미지 영역과 변화가 감지되지 않는 이미지 영역을 각각 별도로 구분하여 AI 영상 학습을 수행하고, 생성된 상기 다운스케일링 파일 및 상기 신경망 파일을 상기 동영상 서비스 서버로 전송하며,
영상 복원 요청에 대응하여 상기 신경망 파일을 이용한 AI 연산을 통해 상기 다운스케일링 파일의 해상도를 복원하는 AI 영상 처리 서버;를 포함하는 것을 특징으로 하는 동영상 화질 개선 시스템.
제 1항에 있어서,
상기 동영상 서비스 서버에 동영상 다운로드 요청 신호를 전달하는 사용자 기기;를 더 포함하고,
상기 동영상 서비스 서버는
상기 사용자 기기로부터 동영상 데이터의 다운로드 요청 신호를 수신하면 영상 복원을 위해, 다운로드 요청된 동영상 데이터에 대응하는 다운스케일링 파일 및 신경망 파일을 상기 AI 영상 처리 서버로 전송하는 것을 특징으로 하는 동영상 화질 개선 시스템.
제 1항에 있어서,
상기 AI 영상 처리 서버는
상기 동영상 서비스 서버로부터 획득된 동영상 데이터에 대하여 코덱 기능을 수행하여, AI 영상 학습에 요구되는 데이터를 추출 및 분류하는 코덱 지원부;를 포함하고,
상기 코덱 지원부는
동영상 데이터의 키 프레임을 추출하여, 상기 키 프레임과 키 프레임을 제외한 나머지 프레임인 잔여 프레임을 분리하는 프레임 추출부;를 포함하는 것을 특징으로 하는 동영상 화질 개선 시스템.
제 3항에 있어서,
상기 코덱 지원부는
상기 잔여 프레임 중 상기 키 프레임과 동일한 값을 갖는 매크로블록은 정지 매크로블록으로 판단하고, 상기 키 프레임과 상이한 값을 갖는 매크로블록은 변화 매크로블록으로 분류하는 매크로블록 판단부;를 포함하여 구성되는 것을 특징으로 하는 동영상 화질 개선 시스템.
제 1항에 있어서,
상기 AI 영상 처리 서버는
AI 기반의 영상 학습을 수행하는 AI 학습 지원부;를 포함하되,
상기 AI 학습 지원부는
동영상 데이터의 키 프레임과 잔여 프레임에 대하여 각각 별도의 영상 학습을 수행하되, 키 프레임에 대하여는 전체 이미지 영역에 대한 영상학습을 수행하고, 잔여 프레임에 대하여는 이미지 영역을 적어도 2 종류의 영역으로 분류하고 그 중 일 이미지 영역에 대한 영상 학습은 생략하는 AI 학습 수행부;를 포함하는 것을 특징으로 하는 동영상 화질 개선 시스템.
제 5항에 있어서
상기 AI 학습 지원부는
상기 잔여 프레임의 이미지 영역에 대하여, 변화 매크로블록으로 구성되는 변화 이미지 객체 영역과 정지 매크로블록으로 구성되는 정지 이미지 객체 영역으로 분류하며, 상기 변화 이미지 객체 영역에 대하여 영상 학습을 수행할 대상으로 추출하는 변화 객체 추출부; 및
특정 이미지 객체의 중요도가 기준치 이상이면 주요 이미지 객체로 선택하고, 잔여 프레임의 이미지 영역 중 주요 이미지 객체 영역을 영상학습을 수행할 대상으로 추출하되, 주요 객체 추출부;를 포함하고,
상기 이미지 객체의 중요도는 이미지 객체의 사이즈, 영상 복잡도, 인물 여부 중 적어도 하나를 포함하는 기준에 의해 결정되는 것을 특징으로 하는 동영상 화질 개선 시스템.
제 1항에 있어서,
상기 AI 영상 처리 서버는
영상 학습 결과로 생성된 다운스케일링 파일을 신경망 파일에 기반하여 업스케일링하는 방식의 영상 복원 동작을 수행하되,
키 프레임에 대하여 전체 이미지 영역에 대한 영상 복원을 실시하고, 잔여 프레임은 일부 이미지 영역에 대한 영상복원을 수행하고, 나머지 영역은 상기 키프레임의 복원 이미지로부터 붙여 넣는 방식으로 복원 동작을 수행하는 AI 영상 복원부;를 포함하는 것을 특징으로 하는 동영상 화질 개선 시스템.