KR20230114692A

KR20230114692A - 영상 분석 방법 및 장치

Info

Publication number: KR20230114692A
Application number: KR1020220166142A
Authority: KR
Inventors: 이선영
Original assignee: 주식회사 아틴스
Priority date: 2022-01-25
Filing date: 2022-12-01
Publication date: 2023-08-01
Also published as: KR20230114693A

Abstract

본 발명은 영상 분석 방법 및 장치에 관한 것으로, 그 방법은 영상을 구성하는 복수의 픽처들 중에서 신택스를 추출할 대상 픽처를 결정하는 단계; 대상 픽처와 연관된 비트스트림으로부터 신택스를 추출하여 대상 픽처에 대응되는 신택스 플레인을 생성하는 단계; 및 구성된 신택스 플레인을 이용하여 영상 분석을 위한 신택스 맵을 구성하는 단계;를 포함하고, 신택스 플레인은 추출된 신택스로부터 획득되는 대상 픽처 내 블록 정보를 이용하여 구성된다.

Description

영상 분석 방법 및 장치{METHOD AND APPARATUS FOR ANALYZING VIDEO}

본 발명은 CCTV 카메라 영상 등과 같은 영상을 효율적으로 분석하는 방법에 관한 것이다.

최근 들어, CCTV 카메라 분야에서 고해상도 및 고화질 영상에 대한 수요가 지속적으로 증가하고 있다. 이는, 사건 현장의 정확한 확인을 위해 고해상도 영상이 필요하며, 또한 지능형 영상 보안 시장의 폭발적 성장으로 인해 영상의 고해상도화가 진행 중이기 때문이다.

영상의 해상도가 커질수록 한 장의 이미지가 담을 수 있는 정보의 양도 증가하여, 그에 따라 저장 공간이 더욱더 증가할 수밖에 없다. 예를 들어, FHD 대비 4K 영상은 4배 이상의 정보를, 8K 영상은 16배 이상의 정보를 표현하며, 이러한 고해상도 영상에 대한 수요는 앞으로도 꾸준한 증가가 예상된다.

관공서 통합관제센터는 보통 8,000-9,000 대수의 CCTV 카메라를 관리하며, 일반적으로 24시간, 30일치 영상을 스토리지에 저장한다. 예를 들어, FHD (1920x1080) 해상도 영상을 2Mbps(Mega bits per second)로 압축하였을 때, 한 대의 카메라에서 촬영된 24시간, 30일치 영상의 데이터는 633GB(0.62TB)에 이른다.

통합관제센터가 관리하는 카메라 대수가 9,000대라고 가정하면, 해당 통합관제센터는 총 5,562TB의 저장 공간을 필요로 하며, 10TB 용량의 HDD를 대략 550개 가량 서버실에 보유하여야 한다. 한편, 영상이 4Mbps로 압축되었다면, 통합관제센터는 10TB HDD를 대략 1,100개 가량 서버실에 보유하여야 한다.

한편, 영상보안 시스템은 사건/사고 예방 및 안전 확보를 위한 스마트시티 구축을 위해 지능형 보안 시스템으로 발전 중이며, 이를 위해 기존 시스템에 지능형 분석서버가 추가된다.

지능형 분석서버는 시스템으로부터 수신되는 영상 데이터에 대한 분석 과정을 거쳐 이벤트 정보를 출력하여 이벤트 데이터를 시스템으로 전송하는 역할을 하며, 영상 분석 과정은 영상 획득, 영상 분석 및 경고 발생 과정들로 구성될 수 있다.

구체적으로, 지능형 분석서버의 영상분석 과정은, 수신된 비트스트림을 복원하기 위한 디코딩 과정과, 복원된 영상의 분석을 위한 딥러닝 과정으로 구성될 수 있다. 또한, 디코딩 과정은 비트스트림을 파싱(paring)하는 과정과 데이터를 복원하는 압축해제(decompression) 과정으로 나눌 수 있다.

위와 같이 영상분석을 위해 비트스트림으로부터 픽처가 복원되는 경우, 지능형 서버의 연산량이 매우 높게 요구되며, 그에 따라 서버 구축 비용 및 영상분석에 소모되는 전력 비용 등이 크게 증가되는 문제가 있다.

선행기술문헌 1. 한국 등록 특허 제10-1755560호 (2017.07.03 공고)

본 발명은 영상 보안 시스템에서 지능형 영상분석 장치의 영상분석 효율을 향상시킬 수 있는 영상 분석 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명의 일실시예에 따른 영상 분석 방법은 영상의 비트스트림으로부터 추출되는 신택스(syntax) 정보를 이용하여 영상을 분석하는 방법으로, 영상을 구성하는 복수의 픽처들 중에서 신택스를 추출할 대상 픽처(target picture)를 결정하는 단계; 상기 대상 픽처와 연관된 비트스트림으로부터 신택스를 추출하여, 상기 대상 픽처에 대응되는 신택스 플레인(syntax plane)을 생성하는 단계; 및 상기 구성된 신택스 플레인을 이용하여, 영상 분석을 위한 신택스 맵(syntax map)을 구성하는 단계;를 포함하고, 상기 신택스 플레인은 상기 추출된 신택스로부터 획득되는 상기 대상 픽처 내 블록 정보를 이용하여 구성된다.

상기 블록 정보는 블록 크기(block size), 블록 모드(block mode), 모션 벡터(motion vector) 및 레지듀얼(residual) 정보 중 하나 이상을 포함한다.

본 발명의 일실시예에 따른 영상 분석 장치는 상기한 영상 분석 방법을 수행하며, 영상을 구성하는 복수의 픽처들 중에서 신택스를 추출할 대상 픽처를 결정하는 대상픽처결정부; 상기 대상 픽처와 연관된 비트스트림으로부터 신택스를 추출하여, 상기 대상 픽처에 대응되는 신택스 플레인을 생성하는 신택스플레인생성부; 및 상기 생성된 신택스 플레인을 이용하여, 영상 분석을 위한 신택스 맵을 구성하는 신택스맵구성부;를 포함하고, 상기 신택스 플레인은 상기 추출된 신택스로부터 획득되는 상기 대상 픽처 내 블록 정보를 이용하여 구성된다.

한편, 상기 영상 분석 방법은 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있으며, 프로그램 그 자체로 제공될 수 있다.

본 발명의 실시예에 따르면, 영상 보안 시스템에 구비되는 영상분석 장치 또는 서버에서, 영상 복원 과정 없이 영상 압축 데이터 중에서 영상 분석에 사용할 일부 신택스 데이터 만을 파싱한 후 의미있는 정보로 변환하여 딥러닝을 적용하도록 하여, 영상 분석의 복잡도를 크게 감소시킬 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 영상의 GOP 구조 또는 픽처별 압축률에 기초하여 신택스를 추출할 대상 픽처를 결정함으로써, 영상을 구성하는 전체 픽처들 중 일부의 신택스 데이터만을 이용해 효율적인 영상 분석이 가능하도록 할 수 있다.

본 발명의 또 다른 실시예에 따르면, 블록 크기, 블록 모드, 모션 벡터 및 레지듀얼 정보 등과 같은 대상 픽처 내 블록 정보를 이용하여 신택스 플레인을 구성하고, 복수의 신택스 플레인들을 하나의 신택스 맵으로 합성해 딥러닝의 입력값으로 사용함으로써, 영상 분석의 정확도를 향상시키는 동시에 영상 분석의 복잡도를 감소시킬 수 있다.

도 1은 본 발명에 따른 영상 보안 시스템의 구성에 대한 일실시예를 나타내는 블록도이다.
도 2는 본 발명의 일실시예에 따른 영상 분석 장치의 구성을 나타내는 블록도이다.
도 3은 본 발명에 따른 영상 분석 장치에서 수행되는 영상 분석 방법에 대한 일실시예를 나타내는 흐름도이다.
도 4는 영상의 GOP(Group Of Pictures) 구조에 대한 실시예들을 나타내는 도면이다.
도 5는 IPPP 구조의 GOP에 포함되는 픽처들에 대한 예시들을 나타내는 도면이다.
도 6은 GOP 크기에 따른 IBBP 픽처들의 계층 구조에 대한 실시예들을 설명하기 위한 도면이다.
도 7은 IBBP 구조의 GOP에 포함되는 픽처들에 대한 예시들을 나타내는 도면이다.
도 8은 B 픽처들의 레벨 및 참조 관계에 대한 실시예를 설명하기 위한 도면이다.
도 9는 복수의 신택스 플레인들에 대한 제1 실시예를 나타내는 도면이다.
도 10은 합성된 신택스 맵과 복원 영상에 대한 제1 실시예를 나타내는 도면이다.
도 11은 복수의 신택스 플레인들에 대한 제2 실시예를 나타내는 도면이다.
도 12는 합성된 신택스 맵과 복원 영상에 대한 제2 실시예를 나타내는 도면이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시예에 따른 영상 보안 시스템, 영상 분석 서버, 그를 위한 영상 분석 방법 및 장치에 대해 상세히 설명하고자 한다.

하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 발명에서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

또한, 이하 실시되는 본 발명의 바람직한 실시예는 본 발명을 이루는 기술적 구성요소를 효율적으로 설명하기 위해 각각의 시스템 기능구성에 기 구비되어 있거나, 또는 본 발명이 속하는 기술분야에서 통상적으로 구비되는 시스템 기능구성은 가능한 생략하고, 본 발명을 위해 추가적으로 구비되어야 하는 기능구성을 위주로 설명한다.

만약 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 하기에 도시하지 않고 생략된 기능구성 중에서 종래에 기사용되고 있는 구성요소의 기능을 용이하게 이해할 수 있을 것이며, 또한 상기와 같이 생략된 구성요소와 본 발명을 위해 추가된 구성요소 사이의 관계도 명백하게 이해할 수 있을 것이다.

도 1은 본 발명에 따른 영상 보안 시스템의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 영상 보안 시스템(10)은 CCTV 카메라(50), 통합관제센터(70) 및 영상분석장치(100)를 포함하여 구성될 수 있다.

도 1을 참조하면, CCTV 카메라(50)는 설치된 현장을 촬영하여, 촬영된 영상을 압축해 통합관제센터(70)로 전송한다.

통합관제센터(70)는 영상관리장치, 모니터링장치 및 영상저장장치를 포함할 수 있으며, 그 중 영상관리장치는 영상 보안 시스템(10)을 전체를 관리하는 역할을 수행할 수 있다.

예를 들어, 영상관리장치는 CCTV 카메라(50)로부터 촬영된 영상을 수신하여 모니터링장치 및 영상저장장치로 전달하기 위한 마스터 서버를 포함하며, 모니터링장치는 영상관리장치의 마스터 서버로부터 영상을 수신하여 처리하기 위한 영상 처리 서버와 영상을 재생하기 위한 클라이언트 컴퓨터를 포함하고, 영상저장장치는 영상관리장치의 마스터 서버로부터 영상을 수신하여 저장 공간에 저장시키기 위한 저장 분배 서버를 포함할 수 있다.

다른 예로, 영상관리장치, 모니터링장치 및 영상저장장치의 모든 기능이 통합되어 영상저장장치에서 수행될 수도 있다. 소수의 CCTV 카메라 장치를 관리 및 저장하는 경우에는 하나의 통합된 영상저장장치에서 모든 기능을 수행한다. 이런 경우, 영상저장장치는 CCTV 카메라(50)로부터 영상을 직접 수신하여 저장 공간에 저장하면서, 영상 처리 및 재생을 수행할 수 있다.

구체적으로, CCTV 카메라(50)는 촬영된 영상을 저장을 위한 저장용 스트림과 실시간 모니터링을 위한 재생용 스트림으로 각각 구성하여 영상관리장치의 마스터 서버로 전송할 수 있다.

저장용 스트림은 저장 이후 사건 사고 발생 시에 영상을 검색하여 용의자 등에 대한 정보를 획득하기 위해 고화질의 영상 정보가 필요하나, 재생용 스트림의 경우 실시간 모니터링을 위해 동시에 수십 내지 수백 대의 카메라(채널)의 압축 데이터가 복원된 후 재생되어야 하므로 고화질 영상을 사용하는 것은 영상처리서버의 연산 복잡도를 크게 증가시킬 수 있다.

그에 따라, 저장용 스트림은 고화질의 영상, 예를 들어 FHD(1920 x 1080)의 해상도, 30fps의 프레임-레이트(frame-rates), 2Mbps의 비트-레이트(bit-rates)를 가지는 영상으로 구성될 수 있다.

그에 반해, 재생용 스트림은 저화질의 영상, 예를 들어 VGA(640 x 480)의 해상도, 10fps의 프레임-레이트, 300kbps의 비트-레이트를 가지는 영상으로 구성될 수 있다.

한편, 상기한 바와 같은 저장용 및 재생용 스트림은 H.264/AVC 압축 표준, H.265/HEVC 압축 표준 또는 H.266/VVC 압축 표준을 이용하여 압축된 것일 수 있으나, 본 발명은 이에 한정되지는 아니한다.

영상관리장치의 마스터 서버는, CCTV 카메라(50)로부터 수신한 재생용 스트림을 영상의 실시간 모니터링을 위해 모니터링장치의 영상 처리 서버로 전송하며, CCTV 카메라(50)로부터 수신한 저장용 스트림은 영상의 저장을 위해 영상저장장치의 저장 분배 서버로 전송한다.

또한, 영상저장장치의 저장 분배 서버는 저장용 스트림을 저장 공간에 저장하였다가, 이후 마스터 서버로부터 저장된 영상이 요청되는 경우 저장 공간에서 해당 영상을 검색하여 마스터 서버를 통해 모니터링장치의 영상 처리 서버로 전송되도록 할 수 있다.

여기서, 영상 처리 서버는, 보통의 상황에서는 다수 채널의 저화질 재생용 스트림을 복원하여 재생하며, 사건 사고 발생 상황에서는 특정 소수의 채널에 대해 고화질의 저장용 스트림을 복원하여 재생할 수 있다.

도 1에 도시된 바와 같이, 영상 보안 시스템(10)은 영상분석장치(100)를 포함하며, 영상분석장치(100)는 통합관제센터(70)로부터 수신되는 영상 데이터에 대해 영상분석 과정을 거쳐 이벤트 정보를 출력하여 통합관제센터(70)로 이벤트 데이터를 전송하는 역할을 하는 지능형 분석서버로 구현될 수 있다.

예를 들어, 지능형 분석서버에서의 분석 결과 이벤트 데이터 중에서 사건/사고가 감지된 경우, 통합관제센터(70)에서 이에 대한 알람 경고를 발생시킬 수 있다.

상기한 바와 같이 지능형 분석서버는 통합관제센터(70)와 연동하여 영상분석 과정을 수행할 수도 있지만, 별도 시스템으로서 자체적으로 CCTV 카메라(50)와 연결되어 영상을 획득하고, 이를 분석하여 자체 시스템에서 경고를 발생시킬 수도 있다.

본 발명의 일실시예에 따르면, 영상 보안 시스템(10)에 구비되는 영상분석장치(100)에서, 영상 복원 과정 없이 영상 압축 데이터 중에서 영상 분석에 사용할 일부 신택스 데이터 만을 파싱한 후 의미있는 정보로 변환하여 딥러닝을 적용하도록 하여, 영상 분석의 복잡도를 크게 감소시킬 수 있다.

영상 보안 시스템(10)에서, CCTV 카메라(50)는 한 면에 고정되어 있기 때문에 배경 영역이 정해져 있어, CCTV 카메라(50)에서 촬영된 영상 내의 변화는 객체들의 움직임에 따른 것일 수 있다.

영상 압축 기술은 상기한 바와 같은 객체들의 움직임에 민감하게 반응하여 압축 성능을 높이도록 구성되며, 그에 따라 영상 압축 정보를 이용하여 객체들의 움직임을 파악하는 영상 분석이 가능할 수 있다.

한편, 영상의 비트스트림은 계층적 구조를 가지고 있으며, 전체 영상(sequence-level)에 대한 정보를 담고 있는 SPS(Sequence Parameter Set) 패킷(packet), 픽처(picture-level)에 대한 정보를 담고 있는 PPS(Picture Parameter Set) 패킷, 픽처 내 슬라이스(slice-level)에 대한 헤더 정보를 담고 있는 SH(Slice Header)와 슬라이스의 압축 데이터(slice data)를 담고 있는 슬라이스 패킷 등을 포함하여 구성될 수 있다.

여기서, 모든 패킷은 하나의 독립적인 NAL(Network Abstraction Layer) 유닛(unit)으로 표현되며, 한 장의 픽처는 하나 이상의 슬라이스들로 나뉘어 부호화되어, 각 슬라이스에 대한 NALU 패킷으로 나누어질 수 있다.

예를 들어, 한 장의 픽처가 2개의 슬라이스들로 나뉘어 부호화된 경우, 두개의 슬라이스 NALU 패킷들이 한 장의 픽처에 대한 정보를 담고 있으며, 슬라이스 데이터 위치에는 블록 정보, 즉 복수의 블록들에 대한 헤더 정보와 블록의 압축 데이터를 포함할 수 있다.

도 1에서는 영상 보안 시스템(10)에 하나의 CCTV 카메라(50)가 포함되는 것으로 도시하였으나, 수십 내지 수천 대의 CCTV 카메라들이 포함되어 통합관제센터(70)에 의해 관리될 수 있다.

한편, CCTV 카메라(50)에서 촬영된 영상은, 영상분석 과정을 통해, 영상 내에서 이벤트가 발생한 이벤트-인(event-in) 구간과, 영상 내에서 이벤트가 발생하지 않은 이벤트-아웃(event-out) 구간으로 구분될 수 있다.

여기서, 이벤트는 영상 내에 존재하지 않았던 물체 또는 사람이 영상에 나타나거나 또는 영상 내에 존재하던 물체 또는 사람이 움직이는 상황을 의미할 수 있으나, 본 발명은 이에 한정되지 아니하며, 영상 내에서 변화가 발생하는 다양한 경우를 나타낼 수 있다.

도 2는 본 발명의 일실시예에 따른 영상 분석 장치의 구성을 블록도로 도시한 것으로, 도시된 영상분석장치(100)는 대상픽처결정부(110), 신택스플레인생성부(120), 신택스맵구성부(130) 및 영상분석부(140)를 포함하여 구성될 수 있다.

대상픽처결정부(110)는 영상을 구성하는 복수의 픽처들 중에서 신택스를 추출할 대상 픽처(target picture)를 결정하며, 대상 픽처는 영상의 GOP(Group Of Picture) 구조 및 픽처별 압축률 중 적어도 하나를 이용하여 결정될 수 있다.

예를 들어, 대상픽처결정부(110)는 영상의 GOP 구조를 확인하여, GOP 내 픽처들을 I 픽처, P 픽처 및 B 픽처 중 어느 하나로 구분하며, GOP 내 픽처들 각각에 대한 압축률에 기초하여 B 픽처 또는 P 픽처로 구분된 픽처들 중 하나 이상의 픽처들을 대상 픽처로 선정할 수 있다.

구체적으로, 대상픽처결정부(110)는, 영상의 GOP 구조가 IPPP인 경우 하나 이상의 P 픽처들을 대상 픽처로 결정하며, 영상의 GOP 구조가 IBBP인 경우에는 하나 이상의 B 픽처들을 대상 픽처로 결정할 수 있다.

신택스플레인생성부(120)는 대상 픽처에 대응되는 신택스 플레인(syntax plane)을 생성하며, 그를 위해 대상 픽처와 연관된 비트스트림으로부터 신택스를 추출하여 대상 픽처에 대응되는 신택스 플레인을 생성할 수 있다.

여기서, 신택스 플레인은 신택스로부터 획득되는 대상 픽처 내 블록 정보를 이용하여 구성될 수 있다.

예를 들어, 블록 정보는 블록 크기(block size), 블록 모드(block mode), 모션 벡터(motion vector), 양자화 파라미터(quantization parameter) 및 레지듀얼(residual) 정보 중 하나 이상을 포함할 수 있다.

구체적으로, 블록 정보가 블록 크기인 경우, 블록의 면적에 따라 서로 다른 인덱스(index) 값이 설정되며, 블록의 면적이 클수록 작은 인덱스 값이 설정될 수 있다.

한편, 블록 정보가 블록 모드인 경우, 블록 모드는 스킵 모드, 단방향 예측모드, 양방향 예측모드, 인트라 예측모드 중 어느 하나이며, 블록 모드의 복잡도가 높을 수록 큰 인덱스 값이 설정될 수 있다.

블록 정보가 모션 벡터인 경우, 모션 벡터 값은 부호가 생략되며, 모션 벡터 값은 참조 픽처와의 거리 정보를 기초로 스케일링(scaling) 될 수 있다.

블록 정보가 양자화 파라미터인 경우, 블록에 적용된 양자화 파라미터 값을 구간 별 인덱스(index) 값으로 설정하며, 파라미터 값이 클수록 작은 인덱스 값이 설정될 수 있다.

또한, 블록 정보가 레지듀얼 정보인 경우에는, 픽셀 단위의 레지듀얼 값을 이용하여 신택스 플레인이 구성되며, 픽셀 단위의 레지듀얼 값은 부호가 생략될 수 있다.

상기한 바와 같이 획득된 블록 정보는 각각 소정 크기 단위로 배열됨으로써 하나의 신택스 플레인으로 구성될 수 있다.

신택스맵구성부(130)는 신택스플레인생성부(120)에서 생성된 신택스 플레인을 이용하여, 영상 분석을 위한 신택스 맵(syntax map)을 구성할 수 있다.

예를 들어, 신택스맵구성부(130)는 신택스플레인생성부(120)에서 생성된 2 이상의 신택스 플레인들을 픽셀 단위의 연산을 통해 합성하여, 영상 분석을 위한 신택스 맵을 구성할 수 있다.

영상분석부(140)는, 신택스맵구성부(130)에서 구성된 신택스맵을 입력으로 딥러닝(deep learning) 등의 영상 분석 방식을 적용하여, 영상 내 이벤트를 검출하는 등의 영상 분석 과정을 수행할 수 있다.

이하, 도 3 내지 도 12를 참조하여, 본 발명에 따른 영상 분석 방법에 대한 실시예들을 상세히 설명하기로 한다.

도 3은 본 발명에 따른 영상 분석 장치에서 수행되는 영상 분석 방법에 대한 일실시예를 흐름도로 도시한 것으로, 도시된 영상 분석 방법 중 도 1 및 도 2를 참조하여 설명한 것과 동일한 것에 대한 설명은 이하 생략하기로 한다.

도 3을 참조하면, 영상분석장치(100)는 영상을 구성하는 복수의 픽처들 중에서 신택스를 추출할 대상 픽처를 결정한다(S300 단계).

S300 단계에서, 대상 픽처는 영상의 GOP 구조 또는 픽처별 압축률에 기초하여 결정될 수 있으며, 그를 위해 영상의 GOP 구조가 확인되고, GOP 내 픽처들이 I 픽처, P 픽처 및 B 픽처 중 어느 하나로 구분되며, GOP 내 픽처들 각각에 대한 압축률에 기초하여 B 픽처 또는 P 픽처로 구분된 픽처들 중 하나 이상이 대상 픽처로 선정될 수 있다.

영상의 압축 과정 중에는 예측(prediction) 과정이 존재하며, 예측은 예측 방법 및 예측 방향 등에 따라 인트라(intra) 예측, 인터 단방향(inter-uni) 예측, 인터 양방향(inter-bi) 예측으로 구분되며, 그에 따라 픽처의 타입은 I, P, B 픽처들로 구분될 수 있다.

여기서, I 픽처는 픽처 내 모든 블록들이 인트라(intra) 예측만 가능하고, P 픽처는 픽처 내 모든 블록들이 인트라(intra) 예측 또는 인터 단방향(inter-uni) 예측만이 가능하며, B 픽처는 픽처 내 모든 블록들이 인트라(intra) 예측, 인터 단방향(inter-uni) 예측 및 인터 양방향(inter-bi) 예측 중 어느 하나가 가능한 형태이다.

한편, 원본 영상 한 장은 I, P 또는 B 픽처 형태로 부호화되고, I, P, 및 B 픽처는 예측 방법에 따른 참조 관계를 가지고 있으며, 복수의 픽처들은 참조 관계를 기준으로 그룹핑될 수 있다.

상기와 같이 그룹핑된 픽처들을 GOP(Group Of Picture)라 하고, GOP는 도 4의 (a)에 도시된 IPPP 구조 또는 도 4의 (b)에 도시된 IBBP 구조를 가질 수 있다.

여기서, 부호화 대상인 현재 픽처와 현재 픽처의 참조 픽처 리스트 내 참조 픽처들 간의 POC(Picture Of Count) 차이값을 비교하여, GOP가 IPPP 구조인지 IBBP 구조인지를 파악할 수 있다.

예를 들어, 현재 픽처의 POC 값과 참조 픽처들 각각의 POC 값의 차이를 모두 구한 후, POC 차이값들이 모두 음수이거나 양수인 경우 IPPP 구조이고, POC 차이값들에 양수와 음수가 섞어 있는 경우에는 IBBP 구조임을 알 수 있다.

한편, 영상 압축의 특성에 따라, IPPP 구조에서, I 픽처의 압축 데이터 량이 P 픽처의 압축 데이터 량에 비해 크다. 예를 들어, 4,500 장의 영상을 부호화 한 후 I 픽처와 P 픽처의 평균 데이터 량의 비율을 비교한 결과에 따르면, P 픽처의 데이터 량은 I 픽처 데이터 량의 약 1/20 수준일 수 있다.

도 5는 IPPP 구조의 GOP에 포함되는 픽처들에 대한 예시들을 나타낸 것으로, 도 5의 (a)와 (b)는 두개의 I 픽처들 내 블록들의 부호화 모드를 색상 별로 표현한 것이며, 도 5의 (c)와 (d)는 두개의 P 픽처들 내 블록들의 부호화 모드를 색상 별로 표현한 것이다. 여기서, 투명 영역은 스킵(skip) 모드이고, 파란 영역은 인터 단방향(inter-uni) 예측 모드이며, 주황 영역은 인트라(intra) 모드를 나타낸다.

복수의 부호화 모드들 중에서 스킵 모드는 데이터 량이 가장 작은 부호화 모드이고, 인트라 모드가 상대적으로 데이터 량이 가장 많은 부호화 모드이다.

도 5의 (a)와 (b)를 참조하면, I 픽처 내 모든 블록들은 인트라 모드로 부호화되었음을 알 수 있으며, 영상 속 주황색 외 점들은 블록의 사이즈를 별도로 표시한다.

도 5의 (c)는 객체가 없는 영상 씬(scene)이며, 도 5의 (d)는 객체가 있는 영상 씬으로써, 객체가 없는 P 픽처에서는 대부분의 영역들이 스킵 모드로 처리되었고, 객체가 있는 P 픽처에서는 객체 영역은 주로 인터 단방향 예측 모드로 부호화되었고 배경 부분은 스킵 모드로 부호화되었음을 알 수 있다.

즉, P 픽처에서는, 객체가 없는 배경 부분이 압축 데이터 량이 가장 작은 스킵 모드로 부호화되어, 압축 성능이 높아지는 것으로 유추할 수 있다.

본 발명의 일실시예에 따르면, 영상의 GOP 구조가 IPPP인 경우, GOP를 구성하는 복수의 픽처들 중 하나 이상의 P 픽처들이 대상 픽처로 결정될 수 있으며, 보다 상세하게는 복수의 P 픽처들 중에서 압축 데이터량이 가장 적은 하나 이상의 P 픽처가 대상 픽처로 선정될 수 있다.

예를 들어, 비트스트림 중 패킷의 시작을 알리는 4 bytes의 "start code" (0x00 0x00 0x00 0x01)를 이용하여 패킷들을 분류하고, "start code" 다음에 나오는 "NAL header" 중 "NAL type" (nal_unit_type) 정보를 이용하여 I 픽처, P/B 픽처를 구분할 수 있다.

또한, IPPP 구조에서는, 현재 "start code"와 다음 번 "start code"를 이용하여 P 픽처의 압축 데이터 량이 확인될 수 있다.

예를 들어, 초당 30 fps(frames per second)의 영상에서, 1초 간격으로 I 픽처가 존재한다고 가정하면, 1초 영상 내에서 한장의 I 픽처를 제외한 나머지 29장의 P 픽처들 각각의 압축 데이터량이 확인되고, 29장의 P 픽처들 중에서 압축 데이터 량이 가장 적은 소정 개수(또는 하위 n%)의 P 픽처들이 대상 픽처로 결정될 수 있다.

또 다른 실시예에 따르면, 복수의 P 픽처들 중에서 양자화 파라미터(Qp, Quantization parameter) 값이 가장 큰 하나 이상의 P 픽처를 대상 픽처로 선정할 수도 있다.

여기서, P 픽처의 양자화 파라미터(Qp) 값은, P 픽처 내 복수의 블록들에 대한 양자화 파라미터(Qp) 평균값을 이용하여 산출될 수 있다.

예를 들어, P 픽처 내 블록들의 양자화 파라미터(Qp) 평균값을 기준으로, P 픽처들 중에서 양자화 파라미터(Qp) 평균값이 값이 가장 큰 소정 개수(또는 상위 n%)의 P 픽처들이 대상 픽처로 결정될 수 있다.

한편, P 픽처의 양자화 파라미터(Qp) 값은, P 픽처에 대한 슬라이스 단위 초기 양자화 파라미터(Qp) 값을 이용하여 산출될 수도 있으며, 슬라이스 단위의 초기 양자화 파라미터(Qp) 값은 "initial QP (PPS) + QP delta (slice)" 또는 "QP delta (slice)"로 확인될 수 있다. 여기서, P 픽처가 2 이상의 슬라이스들로 구성된 경우에는, 해당 P 픽처를 구성하는 슬라이스들의 "initial QP (PPS) + QP delta (slice)" 또는 "QP delta (slice)"의 평균값으로 계산될 수 있다.

이 경우, 복수의 P 픽처들 중 슬라이스 단위 초기 양자화 파라미터(Qp) 값이 가장 큰 소정 개수(또는 상위 n%)의 P 픽처들이 대상 픽처로 결정될 수 있다.

또 다른 예로서, 상기한 바와 같은 P 픽처 내 블록들의 양자화 파라미터(Qp) 평균값과 해당 P 픽처에 대한 슬라이스 단위 초기 양자화 파라미터(Qp) 값이 함께 고려되어, 복수의 P 픽처들 중에서 양자화 파라미터(Qp)가 가장 큰 하나 이상의 P 픽처가 대상 픽처로 선정될 수도 있다.

한편, IBBP 구조에서는, 도 6에 도시된 바와 같이, GOP 크기에 따라 픽처들이 계층 구조를 가지며, 도시된 계층 구조는 예측 방법, 예측 방향 및 픽처 간 참조 관계를 나타낸다.

영상 압축의 특성에 따라, IBBP 구조에서, I 픽처의 압축 데이터 량이 가장 크며, 그 다음으로 P 픽처, B 픽처 순으로 압축 데이터 량이 감소하여, 가장 하위 레벨의 I₀ 픽처와 P₁ 픽처의 압축 데이터 량에 비해 상위 레벨의 B₂ 내지 B₈ 픽처들의 압축 데이터 량이 적다.

예를 들어, 4,500 장의 영상을 부호화한 후 I 픽처, P 픽처, B 픽처의 평균 데이터 량의 비율을 계산한 결과에 따르면, P 픽처의 압축 데이터 량은 I 픽처 데이터 량의 약 1/10 수준이고, B 픽처의 압축 데이터 량은 P 픽처 데이터 량의 약 1/10 수준일 수 있다.

도 7는 IBBP 구조의 GOP에 포함되는 픽처들에 대한 예시들을 나타낸 것으로, 도 7의 (a)와 (b)는 두개의 P 픽처들 내 블록들의 부호화 모드를 색상 별로 표현한 것이며, 도 7의 (c)와 (d)는 두개의 B 픽처들 내 블록들의 부호화 모드를 색상 별로 표현한 것이다. 여기서, 투명 영역은 스킵(skip) 모드이고, 파란 영역은 인터 단방향(inter-uni) 예측 모드이며, 녹색 영역은 인터 양방향(inter-bi) 예측 모드이고, 주황 영역은 인트라(intra) 모드를 나타낸다.

도 7의 (a)와 (c)는 객체가 없는 영상 씬이며, 도 7의 (b)와 (d)는 객체가 있는 영상 씬으로써, 객체가 없는 B 픽처에서는 대부분의 영역들이 스킵 모드로 처리되었고, 객체가 있는 B 픽처에서는 객체 영역은 주로 인터 단방향 또는 양방향 예측 모드로 부호화되었고 배경 부분은 스킵 모드로 부호화되었음을 알 수 있다.

또한, P 픽처에 비해, B 픽처에서 객체 영역과 배경 영역의 부호화 모드가 보다 분명하게 구분되는 것을 알 수 있으며, 그에 따라 B 픽처에서 배경 영역을 데이터 량이 가장 작은 스킵 모드로 처리하여 압축 성능을 높인 것으로 유추할 수 있다.

본 발명의 일실시예에 따르면, 영상의 GOP 구조가 IBBP인 경우, GOP를 구성하는 복수의 픽처들 중 하나 이상의 B 픽처들이 대상 픽처로 결정될 수 있으며, 보다 상세하게는 복수의 B 픽처들 중에서 레벨이 가장 높은 하나 이상의 B 픽처가 대상 픽처로 선정될 수 있다.

예를 들어, IBBP 구조에서는, "NAL type" 정보로 구분된 P/B 픽처들 중에서, "NAL header" 다음에 나오는 "slice header"의 "slice type" 정보를 통해 B 픽처들이 다시 구분될 수 있다.

아래의 표 1 내지 표 4는, HEVC 압축 표준에서 정의된 "NAL header" 및 "slice header" 신택스 중 일부를 나타낸 것이다.

표 1에 나타난 슬라이스 NALU 헤더 신택스 정보 중 "NAL unit type" (nal_unit_type)을 통해 인트라 픽처(intra picture)와 인터 픽처(inter picture)가 부분될 수 있다.

표 2에 나타난 "NAL unit type" 정보에 따르면, 0번 내지 9번은 인터 예측 (P 또는 B) 픽처를 의미하며, 16번 내지 21번은 인트라 예측 (I) 픽처를 의미한다.

픽처의 "NAL unit type"이 0번 내지 9번인 경우, "slice header" 비트스트림 내용 중 아래 표 3 및 도 4의 "slice type" 정보를 통해 P 슬라이스와 B 슬라이스를 구분할 수 있다.

한편, 도 8에 도시된 바와 같이, HEVC 압축 표준의 경우, "NAL header" 정보 중 "temporal id" (nuh_temporal_id_plus1) 정보가 B 픽처들의 레벨을 나타낼 수 있다.

그에 따라, 복수의 B 픽처들 중 "temporal id" (nuh_temporal_id_plus1) 값이 가장 큰 소정 개수(또는 상위 m%)의 B 픽처들이 대상 픽처로 결정될 수 있으며, 대상 픽처로 결정된 B 픽처들은 상위 레벨의 B 픽처들로서 압축 데이터량이 가장 적은 B 픽처들일 수 있다.

예를 들어, 도 6의 (a)와 같은 GOP 구조에서, 레벨 3의 B₃ 및 B₄ 픽처들을 대상 픽처로 선정하여 해당 픽처들과 관련된 신택스들만 파싱될 수 있다.

또한, 도 6의 (b)와 같은 GOP 구조에서는, 레벨 3 이상의 B₃ 내지 B₈ 픽처들을 대상 픽처로 선정하여 해당 픽처들과 관련된 신택스들만 파싱되거나, 레벨 4의 B₄, B₅, B₇ 및 B₈ 픽처들과 관련된 신택스들만 파싱될 수도 있다.

이는, 계층 구조에서 레벨이 올라갈수록, 압축 성능을 높이기 위해 해당 픽처를 최소한의 데이터로 압축하기 때문이며, 그에 따라 레벨이 올라갈수록 움직이는 객체에 더 집중해서 압축을 수행하고 배경 영역은 스킵(skip) 모드로 처리하게 된다. 이런한 영상 압축 특성은 객체 검출(object detection)을 보다 효율적으로 수행할 수 있도록 하는 기초가 될 수 있다.

상기한 IPPP 구조에서와 같은 방법으로, IBBP 구조에서도, 복수의 B 픽처들 중에서 압축 데이터량이 가장 적은 하나 이상의 B 픽처가 대상 픽처로 결정될 수 있으며, 즉 복수의 B 픽처들 중 압축 데이터량이 가장 적은 소정 개수(또는 하위 m%)의 B 픽처들이 대상 픽처로 선정될 수도 있다.

다른 실시예에 따르면, IBBP 구조에서, 복수의 B 픽처들 중 다른 픽처의 참조 픽처로 사용되지 않는 하나 이상의 B 픽처가 대상 픽처로 선정될 수 있다.

일반적으로, 다른 픽처의 참조 픽처로 사용되지 않는 B 픽처의 경우, 압축률을 높여 해당 픽처를 압축하는 경향이 있으며, 이는 다른 픽처의 참조 픽처로 사용되지 않기 때문에 화질에 대한 영향력이 적어 저화질 압축도 가능하기 때문이다.

예를 들어, HEVC 압축 표준에서는, 참조 픽처로 사용되는지 여부를 해당 픽처의 "NAL type" 정보로 표시하며, 도 8의 (b)에 도시된 바와 같이, "NAL type" 정보 중 "N"이 참조 픽처로 사용되지 않음(non-reference)을 의미하고, "R"이 참조 픽처로 사용됨(reference)을 의미한다.

즉, TRAIL_N, TSA_N, RASL_N 등의 "NAL type" 정보는 참조 픽처로 사용되지 않는(non-reference) 픽처임을 나타내고, TRAIL_R, TSA_R, RASL_R 등의 "NAL type" 정보는 참조 픽처로 사용되는(reference) 픽처임을 나타낼 수 있다.

여기서, 참조 픽처로 사용되는지 여부는 같은 레이어(layer) 내에서의 참조 관계를 의미하므로, 해당 픽처가 "temporal id"가 상이한 서브 레이어(sub-layer)의 다른 픽처에 의해 참조되는지가 아니라, 해당 픽처가 동일한 "temporal id" 값을 가지는 서브 레이어(sub-layer)의 다른 픽처에 의해 참조되는지 여부로 결정될 수 있다.

그에 따라, "temporal id" 값이 가장 큰 최상위 레벨 서브 레이어(sub-layer)의 B 픽처들 중에서, 다른 픽처에 의해 참조되는 않는 하나 또는 2 이상의 B 픽처들이 대상 픽처로 선정될 수 있다.

또 다른 실시예에 따르면, IBBP 구조의 경우, 복수의 B 픽처들 중에서 양자화 파라미터(Qp) 값이 가장 큰 하나 이상의 B 픽처를 대상 픽처로 선정할 수도 있다.

여기서, B 픽처의 양자화 파라미터(Qp) 값은, B 픽처 내 복수의 블록들에 대한 양자화 파라미터(Qp) 평균값을 이용하여 산출될 수 있다.

예를 들어, B 픽처 내 블록들의 양자화 파라미터(Qp) 평균값을 기준으로, B 픽처들 중에서 양자화 파라미터(Qp) 평균값이 값이 가장 큰 소정 개수(또는 상위 m%)의 B 픽처들이 대상 픽처로 결정될 수 있다.

한편, B 픽처의 양자화 파라미터(Qp) 값은, B 픽처에 대한 슬라이스 단위 초기 양자화 파라미터(Qp) 값을 이용하여 산출될 수도 있으며, 슬라이스 단위의 초기 양자화 파라미터(Qp) 값은 "initial QP (PPS) + QP delta (slice)" 또는 "QP delta (slice)"로 확인될 수 있다. 여기서, B 픽처가 2 이상의 슬라이스들로 구성된 경우에는, 해당 B 픽처를 구성하는 슬라이스들의 "initial QP (PPS) + QP delta (slice)" 또는 "QP delta (slice)"의 평균값으로 계산될 수 있다.

이 경우, 복수의 B 픽처들 중 슬라이스 단위 초기 양자화 파라미터(Qp) 값이 가장 큰 소정 개수(또는 상위 m%)의 B 픽처들이 대상 픽처로 결정될 수 있다.

또 다른 예로서, 상기한 바와 같은 B 픽처 내 블록들의 양자화 파라미터(Qp) 평균값과 해당 B 픽처에 대한 슬라이스 단위 초기 양자화 파라미터(Qp) 값이 함께 고려되어, 복수의 B 픽처들 중에서 양자화 파라미터(Qp)가 가장 큰 하나 이상의 B 픽처가 대상 픽처로 선정될 수도 있다.

상기한 바와 같이 S300 단계에서 대상 픽처가 결정되면, 영상분석장치(100)는 대상 픽처에 대응되는 신택스 플레인을 생성한다(S310 단계).

S310 단계에서, 영상분석장치(100)는 대상 픽처와 연관된 비트스트림으로부터 신택스를 추출하여 대상 픽처에 대응되는 신택스 플레인을 생성하며, 신택스 플레인은 신택스로부터 획득되는 대상 픽처 내 블록 정보를 이용하여 구성될 수 있다.

예를 들어, 신택스 플레인을 구성하는 블록 정보는, 블록 크기(block size), 블록 모드(block mode), 모션 벡터(motion vector), 양자화 파라미터(Quantization parameter) 및 레지듀얼(residual) 정보 중 하나 이상을 포함할 수 있으나, 본 발명은 이에 한정되지는 아니한다.

본 발명의 일실시예에 따르면, S310 단계에서, 대상 픽처에 관한 슬라이스 데이터 중에서 특정 신택스들이 추출되어, 대상 픽처 내 블록들에 대한 블록 크기, 블록 모드, 모션 벡터, 양자화 파라미터 및 레지듀얼 정보가 획득될 수 있다.

상기한 바와 같은 블록 정보가 비트스트림에 신택스로 포함되는 형식은 영상 압축 표준에 따라 상이할 수 있으며, 이하에서는 H.264/AVC 압축 표준 및 H.265/HEVC 압축 표준에 따른 신택스들을 기준으로 본 발명의 실시예들을 설명하나, 본 발명은 이에 한정하지 않고 H.266/VVC, EVC, LCEVC, VP9, VP10, AV1 등과 같은 다양한 영상 압축 표준 기술에 대해서 적용될 수 있다.

한편, S310 단계에서는, 비트스트림으로부터 관련 신택스가 추출되고, 추출된 신택스를 해석하여 블록 정보가 획득되며, 획득된 블록 정보를 미리 정해진 규칙에 따라 소정 크기 단위로 배열하여 하나의 플레인으로 구성하는 과정이 수행될 수 있다.

이하에서는 신택스 플레인을 구성하는 방법에 대한 실시예들을 블록 정보에 따라 상세히 설명하기로 한다.

먼저, 블록 정보가 블록 크기인 경우, 블록의 면적에 따라 서로 다른 인덱스(index) 값이 설정되며, 블록의 면적이 클수록 작은 인덱스 값이 설정될 수 있다.

H.264/AVC 압축 표준의 경우, 블록 크기는 "mb_type"과 "sub_mb_type" 값을 통해 16x16, 16x8, 8x16, 8x8, 8x4, 4x8, 4x4 중 어느 하나의 크기 정보로 유도될 수 있다. 아래의 표 5는 P 픽처에 대한 "mb_type" 정보를 나타내며, 표 6은 P 픽처에 대한 "sub_mb_type" 정보를 나타낸다.

한편, 상기와 같이 유도된 블록 크기 정보는 4x4 블록 단위의 인덱스 값으로 변환되어 하나의 플레인으로 생성될 수 있다.

예를 들어, 블록 크기를 나타내는 인덱스는 0, 1, 2, 3, 4 중 어느 한 값으로 설정되며, 블록의 면적이 클수록 작은 인덱스 값이 설정되도록 하여, 블록 크기 16x16은 “0”, 16x8 및 8x16은 “1”, 8x8은 “2”, 8x4 및 4x8은 "3", 4x4는 "4"로 인덱스 값이 설정될 수 있다.

다른 예로서, 블록의 크기가 클수록 작은 인덱스 값이 설정되도록 하여, 블록 크기 16x16, 16x8, 8x16, 8x8, 8x4, 4x8, 4x4에 각각 "0", "1", "2", "3", "4", "5", "6"의 인덱스 값이 설정되도록 할 수도 있다.

그에 따라, 영상의 해상도(resolution)가 1920x1080인 경우, 블록 크기를 나타내는 신택스 플레인은 480x270 크기에 대응되는 인덱스 값들을 포함하여 구성될 수 있다.

H.265/HEVC 압축 표준의 경우에는, "split_cu_flag" 값을 통해 블록 크기 정보가 유도될 수 있으며, "Split_cu_flag" 값은 재귀적으로 반복해 비트스트림에 출현하여 블록 크기를 나타낸다.

예를 들어, 최대 블록의 크기를 32x32로, 최소 블록의 크기를 8x8로 설정하면, 부호화 블록(CB, Coding Block)을 기준으로 블록 크기는 8x8, 16x16, 32x32 중 어느 하나가 될 수 있다.

또한, H.265/HEVC 압축 표준의 경우, 아래의 표 7에 나타난 바와 같은 추가적인 "part_mode" 정보를 통해, H.264/AVC 압축 표준 대비 보다 다양한 블록의 모양 및 크기를 가질 수 있다.

한편, 예측 블록(PB, Prediction Block) 기준으로, 블록 크기는 4x4, 4x8, 8x4, 8x8, 8x16, 16x8, 16x16, 16x32, 32x16, 32x32, 2x8, 8x2, 16x4, 4x16, 32x8, 8x32 등의 다양한 크기들을 가질 수 있다.

2-3) block size 정보는 4x4 단위의 인덱스 값으로 출력하여, plane 생성 가능하다. 영상 resolution이 1920x1080의 경우, block size를 나타내는 480x270 plane 내에 인덱스 값을 저장하여 표시할 수 있다. 예컨대, 32x32는 인덱스 값 “0”으로, 32x16 및 16x32은 인덱스 값 “1”로, 16x16는 인덱스 값 “2”로 표시한다. 즉, 블록의 면적 별로 인덱스 값을 부여할 수 있고, 블록의 면적이 클수록 인덱스 “0”을 설정할 수 있다. 다른 예로, 블록의 사이즈 별로 순차적으로 인덱스 값을 부여할 수도 있다.

상기한 바와 같이, H.265/HEVC 압축 표준의 경우에도, 블록 크기 정보가 4x4 블록 단위의 인덱스 값으로 변환되어 하나의 플레인으로 생성될 수 있으며, 블록의 면적 또는 크기가 클수록 작은 인덱스 값이 설정되도록 할 수 있다.

한편, 블록 정보가 블록 모드인 경우, 블록 모드는 스킵(skip) 모드, 단방향 예측모드, 양방향 예측모드, 인트라 예측모드 중 어느 하나로서, 블록 모드에 따라 서로 다른 인덱스 값이 설정될 수 있으며, 예를 들어 블록 모드의 복잡도가 높을 수록 큰 인덱스 값이 설정되도록 할 수 있다.

H.264/AVC 압축 표준에서, IPPP 구조의 경우, "mb_type" 및 "sub_mb_type" 값을 통해 블록 모드가 유도될 수 있다. 즉, P 픽처에 대한 "mb_type" 및 "sub_mb_type" 정보를 이용하여, 블록 모드가 스킵(skip), 단방향 인터(uni-prediction, uni-L0) 및 인트라(intra) 중 하나로 구분될 수 있다.

한편, H.265/HEVC 압축 표준에서는, IBBP 구조의 경우, "cu_skip_flag", "pred_mode_flag", "part_mode", "merge_flag", "merge_idx"와 함께, 아래의 표 8에 나타난 바와 같은 "inter_pred_idc" 정보를 통해 블록 모드가 유도될 수 있다.

여기서, "Cu_skip_flag"와 "merge_idx"는 스킵(skip) 모드(skip-uni-L0, skip-uni-L1, skip-bi)를 나타내며, "Pred_mode_flag"는 인터(inter) 또는 인트라(intra)를 나타내고, "Part_mode"는 인터(inter)/인트라(intra) 내의 예측 블록 크기(prediction block size)에 대한 상세 정보를 나타내며, "Merge_flag"와 "merge_idx"는 단방향(uni-L0, uni-L1) 또는 양방향(bi) 모드를 나타낼 수 있다.

또한, 아래의 표 8에 나타난 바와 같은 "Inter_pred_idc" 정보를 통해, list0, list1 또는 bi-prediction 모드를 표시할 수도 있다.

그에 따라, H.265/HEVC 압축 표준의 경우, 블록 모드는 스킵(skip), 단방향-L0(uni-L0), 단방향-L1(uni-L1), 양방향(bi), 인트라(intra) 예측 중 어느 하나일 수 있다.

한편, 상기와 같은 블록 모드 정보는 4x4 블록 단위의 인덱스 값으로 변환되어 하나의 플레인으로 생성될 수 있다.

예를 들어, H.265/HEVC 압축 표준의 경우, 블록 모드의 복잡도가 높을 수록 큰 인덱스 값이 설정되도록 하여, 스킵(skip)은 "0", 단방향 예측(uni-L0, uni-L1)은 "1", 양방향(bi) 예측은 "2", 인트라(intra) 예측은 "3"으로 인덱스 값이 설정될 수 있다.

다른 예로서, 블록 모드 각각에 대해 순차적으로 인덱스 값이 설정되도록 하여, 인덱스가 "0" 내지 "4" 중 어느 하나의 값을 가지도록 할 수도 있다.

그에 따라, 영상의 해상도(resolution)가 1920x1080인 경우, 블록 모드를 나타내는 신택스 플레인은 480x270 크기에 대응되는 인덱스 값들을 포함하여 구성될 수 있다.

그리고 블록 정보가 모션 벡터인 경우, 모션 벡터 값은 부호가 생략될 수 있으며, 참조 픽처와의 거리 정보를 기초로 스케일링(scaling)될 수 있다.

H.264/AVC 압축 표준의 경우, "mb_type" 및 "sub_mb_type" 정보를 통해 블록 크기 및 블록 모드가 유도되고, "motion vector" 값을 통해 블록별 움직임 정보가 유도될 수 있다. 좀 더 구제적으로, "Ref_idx_l0", "ref_idx_l1", "mvd_l0", "mvd_l1" 값을 이용하여 블록에 대한 참조 픽처 및 움직임 정보가 유도될 수 있다.

한편, H.265/HEVC 압축 표준의 경우, "merge_idx", "ref_idx_l0", "mvp_l0_flag", "ref_idx_l1", "mvp_l1_flag", "abs_mvd_greater0_flag", "abs_greater1_flag", "abs_mvd_minus2", "mvd_sign_flag" 정보를 통해, 블록에 대한 참조 픽처 및 움직임 정보가 유도될 수 있으며, 블록 모드에 따라 가질 수 있는 모션 벡터의 개수가 정해질 수 있다.

상기와 같은 모션 벡터 정보는 4x4 블록 단위의 움직임 값으로 변환되어 하나의 플레인으로 생성될 수 있다.

예를 들어, 모션 벡터는, 현재 픽처가 복수의 참조 픽처들을 참조하는 경우, 현재 픽처와 시간 상 가장 가까운 참조 픽처를 기준 픽처로 삼을 수 있다, 즉, 기준 픽처와 다른 참조 픽처를 참조하는 움직임 정보를 가진 블록의 경우, 스케일링(scaling) 작업을 통해 기준 픽처에 블록의 움직임 정보를 투영한 값으로 플레인을 생성할 수 있다.

여기서, 가장 가까운 참조 픽처를 대신하여, 0번째 참조 픽처 리스트 내 0번째 참조 픽처를 기준 픽처로 설정할 수도 있다.

또한, 현재 블록이 양방향 인터 예측을 하여 두 개의 움직임 정보가 있는 경우에는, 상기한 바와 같은 기준 픽처와 동일 방향의 움직임 정보를 기준 픽처로 스케일링 작업하여, 기준 픽처에 블록의 움직임 정보를 투영한 값으로 플레인을 생성할 수도 있다.

마지막으로, 블록 정보가 레지듀얼 정보인 경우에는, 픽셀 단위의 레지듀얼 값을 이용하여 신택스 플레인이 구성될 수 있으며, 이 때 픽셀 단위의 레지듀얼 값은 부호가 생략될 수 있다.

H.264/AVC 압축 표준의 경우, CAVLC와 CABAC 엔트로피 코딩(entropy coding) 방식이 사용되며, 어떤 엔트로피 코딩 방식이 사용되었는지에 따라 레지듀얼을 표현하는 비트스트림 정보 값이 달라질 수 있다.

예를 들어, CAVLC의 경우 "coded_block_pattern", "coeff_token", "trailling_ones_sign_flag", "level_prefix", "level_suffix", "total_zero" 및 "run_before"에 따라 레지듀얼이 표현되며, CABAC의 경우에는 "coded_block_pattern", "coded_block_flag", "significant_coeff_flag", "last_significant_flag", "coeff_abs_level_minus1" 및 "coeff_sign_flag"에 따라 레지듀얼에 표현될 수 있다.

한편, H.265/HEVC 압축 표준의 경우, "rqt_root_cbf", "cbf_cb", "cbf_cr", "cbf_luma", "last_sig_coeff_x_prefix", "last_sig_coeff_y_prefix", "last_sig_coeff_x_suffix", "last_sig_coeff_y_suffix", "coded_sub_block_flag", "sig_coeff_flag", "coeff_abs_level_greater1_flag", "coeff_abs_level_greater2_flag", "coeff_sign_flag", "coeff_abs_level_reamining" 정보를 통해 레지듀얼 정보가 획득될 수 있다.

상기한 바와 같은 레지듀얼 정보는, 픽셀 단위의 실제 레지듀얼 값으로 하나의 플레인이 구성될 수 있으며, 부호 값은 생략 가능하다.

다른 실시예에 따르면, 레지듀얼 정보 중 일부만을 이용해, 4x4 크기의 서브 블록(sub block) 단위로 "coded_sub_block_flag" 값을 출력하여, 하나의 플레인을 생성할 수도 있다.

상기한 바와 같이 S310 단계에서 신택스 플레인이 생성되면, 영상분석장치(100)는 생성된 신택스 플레인을 이용하여 영상 분석을 위한 신택스 맵(syntax map)을 구성한다(S320 단계).

본 발명의 일실시예에 따르면, S310 단계에서 대상 픽처와 연관된 비트스트림으로부터 2 이상의 신택스들을 추출하여 대상 픽처에 대응되는 2 이상의 신택스 플레인들이 생성될 수 있으며, 이 경우 S320 단계에서는, 픽셀 단위의 연산을 통해 2 이상의 신택스 플레인들을 합성하여 영상 분석을 위한 하나의 신택스 맵을 구성할 수 있다.

여기서, 2 이상의 신택스 플레인들은, 블록 크기, 블록 모드, 모션 벡터, 양자화 파라미터 및 레지듀얼 정보 중 2 이상을 이용하여 상기한 플레인 구성 방법에 따라 각각 구성될 수 있다.

한편, S320 단계에서는, 신택스 플레인들을 합성하는 과정 이전에, 신택스 프레인들 각각에 대해 하나 이상의 임계값(threshold)를 적용하여 소정 개수의 값들로 간소화하는 과정이 수행될 수 있다.

또한, S320 단계에서는, 신택스 플레인들을 합성하는 과정 이후에, 노이즈를 제거하는 과정이 더 수행될 수 있다.

상기한 바와 같은 합성 전 간소화 작업이나 합성 후 노이즈 제거 작업은, 추출된 신택스 정보 중 불필요한 정보를 삭제하기 위한 것으로, 예를 들어 도 9의 (a)에 표시된 하측 영역(R)에 존재하는 불규칙한 점들과 같은 불필요한 정보가 제거될 수 있다.

예를 들어, 4x4 단위로 저장된 4개(블록 크기, 블록 모드, 모션 벡터 및 레지듀얼)의 신택스 플레인들이 존재한다고 가정하면, 모든 신택스 플레인들은 동일한 크기를 가지며, 플레인 내 각 픽셀값은 인덱스 값 또는 실제 정수 값을 가질 수 있으며, 모션 벡터 또는 레지듀얼 정보는 실제 실수값을 가질 수 있으나 양자화 하여 정수값을 취할 수 있다.

이 경우, 합성 전 플레인 간소화 작업을 통해, 각 플레인 내 픽셀 값들에 임계값을 적용하여, “0” 또는 “1”의 값을 가지는 이진 플레인(binary plane)으로 변환할 수 있다.

또는, 2개 이상의 임계값들을 적용하여, “0”, “1” 또는 "2"의 값을 가지는 플레인으로 변환할 수도 있다.

한편, 상기한 바와 같은 간소화 작업은 생략될 수 있으며, 딥러닝 과정을 통해 자연적으로 대체 처리 가능할 수 있다.

신택스 플레인들을 합성하는 과정에서는, 픽셀 단위의 OR 연산, AND 연산, 가중합(weighed sum) 연산, 평균(average) 연산, 중간값(median) 연산 중 적어도 하나를 수행하여 2 이상의 신택스 플레인들을 하나의 신택스 맵으로 합성할 수 있다.

예를 들어, 픽셀 단위의 OR 연산이 적용되면, 블록 크기가 32x32(인덱스 값은 "0")이고, 블록 모드가 스킵(skip)모드(인덱스 값은 "0")이며, 움직임 값이 (0,0)이고, "coded_sub_block_flag" 값이 “0”이면, 합성된 신택스 맵에서 해당 위치의 픽셀 값은 “0”을 가지게 될 수 있다.

다른 예로서, 픽셀 단위의 AND 연산이 적용되면, 블록 크기가 32x32(인덱스 값은 "0")이거나, 블록 모드가 스킵(skip)모드(인덱스 값은 "0")이거나, 움직임 값이 (0,0)이거나, 또는 "coded_sub_block_flag" 값이 “0”인 조건 중 하나만 만족하여도, 합성된 신택스 맵에서 해당 위치의 픽셀 값은 “0”을 가지게 될 수 있다.

또 다른 실시예에서, 상기한 바와 같은 합성 전 플레인 간소화 작업이 수행된 경우 픽셀 단위의 OR 연산이 합성에 사용되며, 합성 전 플레인 간소화 작업이 수행되지 않는 경우에는 픽셀 단위의 AND 연산이 합성에 사용될 수 있다.

한편, 신택스 플레인들의 특정 픽셀 값들 중에서 논-제로(non-zero) 값이 소정 개수 이상인 경우, 합성된 신택스 맵에서 해당 위치의 픽셀 값이 논-제로 값으로 설정될 수도 있다.

예를 들어, 신택스 플레인들 내 특정 픽셀의 값들 중 n개 이상이 논-제로 값인 경우 신택스 맵에서 해당 위치의 픽셀 값이 논-제로 값으로 설정되고, 논-제로 값이 n개 미만인 경우에는 신택스 맵에서 해당 위치의 픽셀 값이 제로 값으로 설정될 수 있다.

상기한 바와 같은 합성 과정 이후, 다양한 노이즈 제거 알고리즘들(예를 들어, island reduction, small object reduction, dilation erosion algorithm, connected-component labelling, depth first search 등) 중 적어도 하나를 이용한 노이즈 제거 과정이 수행될 수 있다.

한편, 노이즈 제거 과정은 생략되고, 이후 영상 분석을 위한 딥러닝에서 시계열 데이터를 사용하면 자연적으로 노이즈가 제거될 수도 있다.

도 9는 복수의 신택스 플레인들에 대한 제1 실시예를 나타내며, 도 10은 합성된 신택스 맵과 복원 영상에 대한 제1 실시예를 나타내는 것으로, IPPP 구조에서 P 픽처로부터 신택스들을 추출하여 복수의 신택스 플레인들을 생성한 후 하나의 신택스 맵으로 합성한 경우를 나타낸 것이다.

도 9의 (a)는 블록 모드에 대한 신택스 플레인이며, 도 9의 (b)는 블록 크기에 대한 신택스 플레인이고, 도 9의 (c)는 모션 벡터에 대한 신택스 플레인이며, 도 9의 (d)는 레지듀얼 정보에 대한 신택스 플레인으로서, 교차로에 진입하는 자동차와 관련된 정보가 각각의 신택스 플레인에 나타날 수 있다.

한편, 도 10의 (a)는 도 9에 도시된 4개의 신택스 플레인들을 합성하여 구성된 신택스 맵을 나타낸 것으로서, 도 10의 (b)에 도시된 실제 복원 영상의 특징이 그대로 포함되어 있음을 알 수 있다.

도 11은 복수의 신택스 플레인들에 대한 제2 실시예를 나타내며, 도 12는 합성된 신택스 맵과 복원 영상에 대한 제2 실시예를 나타내는 것으로, IBBP 구조에서 B 픽처로부터 신택스들을 추출하여 복수의 신택스 플레인들을 생성한 후 하나의 신택스 맵으로 합성한 경우를 나타낸 것이다.

도 10의 (a)는 블록 모드에 대한 신택스 플레인이며, 도 10의 (b)는 블록 크기에 대한 신택스 플레인이고, 도 10의 (c)는 모션 벡터에 대한 신택스 플레인이며, 도 10의 (d)는 레지듀얼 정보에 대한 신택스 플레인으로서, 주행 중인 자동차들과 관련된 정보가 각각의 신택스 플레인에 나타날 수 있다.

한편, 도 12의 (a)는 도 11에 도시된 4개의 신택스 플레인들을 합성하여 구성된 신택스 맵을 나타낸 것으로서, 도 12의 (b)에 도시된 실제 복원 영상의 특징이 그대로 포함되어 있음을 알 수 있다.

상기한 바와 같이 S320 단계에서 구성된 신택스 맵은, 영상 분석을 위해 딥러닝의 입력값으로 사용될 수 있다.

예를 들어, 영상 분석에 주로 사용되는 CNN(convolutional neural network)-기반 딥러닝 방식의 경우, 입력 레이어(input layer)는 영상의 픽셀 값을 표현하는 R, G, B 값으로, RGB 각각에 대응되는 3개의 플레인들이 딥러닝의 입력 값으로 사용될 수 있다.

본 발명의 실시예에 따르면, 복수의 신택스 플레인들이 합성된 하나의 플레인인 신택스 맵이 딥러닝의 입력 값으로 사용될 수 있으며, 영상 분석을 위한 딥러닝 방식으로서 상기한 바와 같은 CNN 기반의 딥러닝 방식 뿐 아니라 Swin Transformer 등과 같은 다양한 딥러닝 방식에도 적용 가능할 수 있다.

상기한 바와 같은 본 발명의 실시예에 따른 영상 분석 방법의 경우, 합성된 신택스 맵이 영상 및 영상 내 객체의 특징을 충분히 포함하고 있으므로, RGB 픽셀 값을 이용해 딥러닝을 수행하는 경우에 비해, 정확도가 증가될 수 있다.

또한, 딥러닝 과정에서 처리해야 하는 연산의 복잡도를 고려하면, 본 발명의 실시예에 따른 영상 분석 방법의 경우 픽셀당 약 3 내지 4 비트의 정보만을 처리하면 된다.

그리고 영상의 디코딩 과정 중 파싱을 위한 엔트로피 복호화 과정이 차지하는 비중이 약 21%라고 가정하면, 본 발명의 실시예에 따른 영상 분석 방법은 전체 비트스트림 중 일부의 신택스만을 파싱하므로, 실제 연산의 복잡도는 더 감소될 수 있다.

상술한 본 발명의 일실시예에 따른 방법들은 컴퓨터에서 실행되기 위한 프로그램으로 제작될 수 있다. 또한, 상기 프로그램은 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다.

컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안 될 것이다.

Claims

영상의 비트스트림으로부터 추출되는 신택스(syntax) 정보를 이용하여 영상을 분석하는 방법에 있어서,
영상을 구성하는 복수의 픽처들 중에서 신택스를 추출할 대상 픽처(target picture)를 결정하는 단계;
상기 대상 픽처와 연관된 비트스트림으로부터 신택스를 추출하여, 상기 대상 픽처에 대응되는 신택스 플레인(syntax plane)을 생성하는 단계; 및
상기 구성된 신택스 플레인을 이용하여, 영상 분석을 위한 신택스 맵(syntax map)을 구성하는 단계;를 포함하고,
상기 신택스 플레인은 상기 추출된 신택스로부터 획득되는 상기 대상 픽처 내 블록 정보를 이용하여 구성되는 것을 특징으로 하는 영상 분석 방법.
제1항에 있어서, 상기 블록 정보는
블록 크기(block size), 블록 모드(block mode), 모션 벡터(motion vector), 양자화 파라미터(quantization parameter) 및 레지듀얼(residual) 정보 중 하나 이상을 포함하는 것을 특징으로 하는 영상 분석 방법.
제2항에 있어서,
상기 블록 정보가 블록 크기인 경우, 블록의 면적에 따라 서로 다른 인덱스(index) 값이 설정되는 것을 특징으로 하는 영상 분석 방법.
제3항에 있어서,
상기 블록의 면적이 클수록 작은 인덱스 값이 설정되는 것을 특징으로 하는 영상 분석 방법.
제2항에 있어서,
상기 블록 정보가 블록 모드인 경우, 상기 블록 모드는 스킵(skip) 모드, 단방향 예측모드, 양방향 예측모드, 인트라 예측모드 중 어느 하나이며,
상기 블록 모드에 따라 서로 다른 인덱스 값이 설정되는 것을 특징으로 하는 영상 분석 방법.
제5항에 있어서,
상기 블록 모드의 복잡도가 높을 수록 큰 인덱스 값이 설정되는 것을 특징으로 하는 영상 분석 방법.
제2항에 있어서,
상기 블록 정보가 모션 벡터인 경우, 모션 벡터 값은 부호가 생략되는 것을 특징으로 하는 영상 분석 방법.
제2항에 있어서,
상기 블록 정보가 모션 벡터인 경우, 모션 벡터 값은 참조 픽처와의 거리 정보를 기초로 스케일링(scaling)되는 것을 특징으로 하는 영상 분석 방법.
제2항에 있어서,
상기 블록 정보가 레지듀얼 정보인 경우, 픽셀 단위의 레지듀얼 값을 이용하여 상기 신택스 플레인이 구성되는 것을 특징으로 하는 영상 분석 방법.
제9항에 있어서,
상기 픽셀 단위의 레지듀얼 값은 부호가 생략되는 것을 특징으로 하는 영상 분석 방법.
제1항에 있어서, 상기 신택스 플레인은
상기 획득된 블록 정보를 소정 크기 단위로 배열하여 구성되는 것을 특징으로 하는 영상 분석 방법.
영상의 비트스트림으로부터 추출되는 신택스 정보를 이용하여 영상을 분석하는 장치에 있어서,
영상을 구성하는 복수의 픽처들 중에서 신택스를 추출할 대상 픽처를 결정하는 대상픽처결정부;
상기 대상 픽처와 연관된 비트스트림으로부터 신택스를 추출하여, 상기 대상 픽처에 대응되는 신택스 플레인을 생성하는 신택스플레인생성부; 및
상기 생성된 신택스 플레인을 이용하여, 영상 분석을 위한 신택스 맵을 구성하는 신택스맵구성부;를 포함하고,
상기 신택스 플레인은 상기 추출된 신택스로부터 획득되는 상기 대상 픽처 내 블록 정보를 이용하여 구성되는 것을 특징으로 하는 영상 분석 장치.
제12항에 있어서, 상기 블록 정보는
블록 크기, 블록 모드, 모션 벡터, 양자화 파라미터 및 레지듀얼 정보 중 하나 이상을 포함하는 것을 특징으로 하는 영상 분석 장치.
제13항에 있어서,
상기 블록 정보가 블록 크기인 경우, 블록의 면적에 따라 서로 다른 인덱스 값이 설정되며, 상기 블록의 면적이 클수록 작은 인덱스 값이 설정되는 것을 특징으로 하는 영상 분석 장치.
제13항에 있어서,
상기 블록 정보가 블록 모드인 경우, 상기 블록 모드는 스킵 모드, 단방향 예측모드, 양방향 예측모드, 인트라 예측모드 중 어느 하나이며, 상기 블록 모드의 복잡도가 높을 수록 큰 인덱스 값이 설정되는 것을 특징으로 하는 영상 분석 장치.
제13항에 있어서,
상기 블록 정보가 모션 벡터인 경우, 모션 벡터 값은 부호가 생략되며, 모션 벡터 값은 참조 픽처와의 거리 정보를 기초로 스케일링되는 것을 특징으로 하는 영상 분석 장치.
제13항에 있어서,
상기 블록 정보가 레지듀얼 정보인 경우, 픽셀 단위의 레지듀얼 값을 이용하여 상기 신택스 플레인이 구성되며, 상기 픽셀 단위의 레지듀얼 값은 부호가 생략되는 것을 특징으로 하는 영상 분석 장치.