KR102255312B1 - 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법 - Google Patents

순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법 Download PDF

Info

Publication number
KR102255312B1
KR102255312B1 KR1020190067415A KR20190067415A KR102255312B1 KR 102255312 B1 KR102255312 B1 KR 102255312B1 KR 1020190067415 A KR1020190067415 A KR 1020190067415A KR 20190067415 A KR20190067415 A KR 20190067415A KR 102255312 B1 KR102255312 B1 KR 102255312B1
Authority
KR
South Korea
Prior art keywords
codec
neural network
recurrent neural
learning
bitstream
Prior art date
Application number
KR1020190067415A
Other languages
English (en)
Other versions
KR20200140589A (ko
Inventor
정제창
위승우
김소연
Original Assignee
국방과학연구소
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소, 한양대학교 산학협력단 filed Critical 국방과학연구소
Priority to KR1020190067415A priority Critical patent/KR102255312B1/ko
Publication of KR20200140589A publication Critical patent/KR20200140589A/ko
Application granted granted Critical
Publication of KR102255312B1 publication Critical patent/KR102255312B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties

Abstract

본 발명은 순환 신경망을 이용한 코덱 분류 시스템에 관한 것으로, 비트스트림에 포함된 코덱에서 헤더의 특징을 추출하는 특징 추출 모듈, 상기 추출된 특징을 이용하여 순환 신경망 기반의 학습을 수행하는 학습 모듈 및 상기 학습 모듈의 학습된 학습 모델을 기반으로 입력된 코덱을 분류하는 제어 모듈을 포함하는 것을 특징으로 한다.

Description

순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법{CODEC CLASSIFICATION SYSTEM USING RECURRENT NEURAL NETWORK AND METHODS THEREOF}
본 발명은 순환 신경망(Recurrent Neural Network, RNN)을 이용하여 임의의 코덱(Codec)으로 인코딩된 비트스트림(bitstream)의 인코딩에 사용된 코덱을 분류하는 시스템 및 그 분류 방법에 관한 것이다.
인공 신경망(Artificial Neural Network)은 사람 또는 동물 두뇌 신경망에 착안하여 구현된 컴퓨팅 시스템을 총칭하는 표현이다. 특히 심층 신경망(deep learning)은 인공 신경망의 한 종류로 입력층(input layer)과 출력층(output layer) 사이에 다중의 은닉층(hidden layer)을 포함하는 구조로, 입력과 출력 사이에 여러층의 연산으로 이루어질 수 있다. 여기서 각 연산은 비선형 연산으로 복잡한 데이터를 모델링할 수 있다는 이점이 있다. 상술한 심층 신경망은 이미지 분류의 정확도를 크게 향상 시켰다.
또한 인공 신경망의 또 다른 종류는, 순환 신경망(Recurrent Neural Network, RNN)이 있다. 순환 신경망은 유닛간의 연결이 순환적 구조를 갖는 특징을 갖고 있다. 따라서 순환 신경망은 1차원 시계열 데이터(time-series data)와 같이 시간의 흐름에 따라 변화하는 데이터를 학습하기 위한 인공 신경망으로, 주로 음성 인식 및 감정 분석 등에 활발히 연구되고 있다.
한편, 비디오 코덱의 표준을 제정하는 단체는 인코딩한 데이터의 크기를 최소화함과 동시에 디코딩된 영상의 화질을 높게 유지하려는 목적이 있다. 각 코덱은 이와 같은 목적을 바탕으로 고유한 특징을 가지므로, 정확도 높은 코덱 분류의 필요성이 대두된다.
본 발명의 일 목적은, 순환 신경망 학습 모델을 이용하여 코덱의 종류를 보다 정확하게 분류하는 것이다. 또한 본 발명에 따라 코덱을 분류하기 위해서 코덱 헤더가 가지는 시작 코드의 고유한 특징을 이용하여 코덱을 분류할 수 있다.
삭제
삭제
삭제
삭제
삭제
본 발명의 실시 예는, 순환 신경망을 이용한 코덱 분류 시스템이 수행하는 코덱 분류 방법으로서, 학습용 비트스트림에 포함된 코덱의 헤더를 특정 수의 비트 단위씩 실수형 다차원 벡터로 변환하는 단계; 상기 변환에 따른 복수의 실수형 다차원 벡터를 입력 데이터로 하고 상기 코덱의 종류를 레이블 데이터로 하여, 순환 신경망 모델에 대하여 학습을 수행하는 단계; 및 분류용 비트스트림에 포함된 코덱의 헤더를 특정 수의 비트 단위씩 실수형 다차원 벡터로 변환해 상기 학습을 수행한 순환 신경망 모델에 입력하여, 상기 학습을 수행한 순환 신경망 모델의 출력을 통하여 상기 분류용 비트스트림에 포함된 코덱을 분류하는 단계를 포함한다.
삭제
삭제
삭제
삭제
본 발명은 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법에 관한 것으로, 순환 신경망을 이용하여 비트스트림에 포함된 각 코덱의 헤더마다 존재하는 시작 코드들의 특징을 추출, 및 학습하여 코덱을 보다 정확하게 분류할 수 있다.
도 1은 본 발명에 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 비디오 코덱의 계층적인 구조를 도시한 도면이다.
도 3은 일반적인 순환 신경망 구조를 도시한 도면이다.
도 4는 입력된 데이터의 분류 또는 인식에 사용되는 기본적인 순환 신경망의 구조를 도시한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 알고리즘을 도시한 개념도이다.
도 6은 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 알고리즘의 입력 데이터 단위를 도시한 도면이다.
도 7은 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 방법을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명은 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법에 관한 것으로, 이하 도면을 참조하여 설명하도록 한다.
도 1은 본 발명에 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 시스템(10)을 도시한 도면이다. 도 1을 참조하여, 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 시스템(10)의 구성을 살펴보면 다음과 같다.
본 발명의 일 실시 예에 따른 코덱 분류 시스템(10)은, 특징 추출 모듈(110), 학습 모듈(120), 제어 모듈(130) 및 데이터 베이스(140)를 포함 할 수 있다.
먼저 특징 추출 모듈(110)은, 비트스트림에 포함된 코덱에서 헤더의 특징을 추출할 수 있다. 비트스트림에 포함된 각 코덱에서 헤더 마다 존재하는 시작 코드들의 특징을 추출할 수 있다. 각 블록에는 일반 데이터에서 발생할 가능성이 희박한 시작 비트 코드들이 존재한다. 예를 들어, MPEG2에서는 시퀀스 헤더 코드로 000001B3이 사용되며, 이후 이어지는 데이터는 시퀀스에 대한 코드로 구성되어 있음을 의미할 수 있다. 이러한 시작 코드는 일반 데이터에서 발생할 가능성이 지극히 낮은 코드로 구성되므로, 각 코덱의 구조 또는 사용되는 기법에 따라 달라지는 코덱의 고유의 특징이 될 수 있다. 따라서 본 발명은, 코덱 헤더의 시작 코드를 기반으로 코덱의 고유한 특징을 순환 신경망을 통해 학습하여 분류할 수 있다. 여기서, 비트스트림에 포함된 코덱 헤더의 시작 코드를 추출하는 것을 특징 추출 모듈(110)이라 칭한 것은 학습용 비트스트림에서 추출된 코덱 헤더의 시작 코드가 순환 신경망에 학습되면, 학습된 순환 신경망이 분류용 비트스트림에 포함된 코덱을 분류할 때에 코덱 헤더의 시작 코드를 코덱별 특징으로 활용하여 분류하기 때문이다.
한편, 학습 모듈(120)은 순환 신경망(또는 재귀 신경망, Recurrent Neural Network, RNN)을 통해 학습 모델을 생성할 수 있다. 순환 신경망은 1차원 시계열 데이터를 학습할 수 있다. 각 순환 신경망의 층의 출력이 다음 층의 입력에 영향을 미친다. 순환 신경망의 자세한 설명은 후술할 도 5를 참조하도록 한다.
한편, 제어 모듈(130)은, 상기 학습 모듈의 학습된 학습 모델을 기반으로 입력된 코덱을 분류할 수 있다. 또한 제어 모듈(130)은, 본 발명에 따른 순환 신경망을 이용한 코덱 분류 시스템을 구성하는 전반적인 구성요소를 제어할 수 있다.
한편, 데이터 베이스(140)는, 상술한 특징 추출 모듈(110), 학습 모듈(120) 및 제어 모듈(130)과 유선 또는 무선으로 연결되어 데이터를 저장하거나 데이터 베이스(140)에 저장된 데이터를 가져올 수 있다. 예를 들어, 특징 추출 모듈(110)은 데이터 베이스(140)에 저장된 코덱을 이용하여 헤더의 시작 코드를 기반으로 특징을 추출할 수 있다. 또한 특징 추출 모듈(110)에서 추출된 특징 정보는 다시 데이터 베이스(140)에 저장될 수 있다. 이에 따라 데이터 베이스(140)에 저장된 특징 정보를 이용하여 학습 모듈(120)의 학습 데이터로 활용할 수 있다.
한편, 도 2는 본 발명의 일 실시 예에 따른 비디오 코덱의 계층적인 구조를 도시한 도면이다.
구체적으로 도 2는 표준 비디오 코덱인 MPEG2와 H.264/AVC의 구조를 도시한 도면이다.
비디오 코딩의 목적은 높은 비디오 데이터 압축률과 화질을 유지하여 데이터를 전송함에 초점을 두고 있다. 이를 위해 비디오 코덱의 구조는 계층적인 구조로 설계되어 발전하고 있다.
먼저 표준 비디오 코덱인 MPEG-2(엠펙 투)는, MPEG(Moving Picture Expert Group)이 정한 오디오와 비디오 인코딩(부호화)에 관한 일련의 표준을 말하며, ISO 표준 13818(13818-1은 시스템, 13818-2는 비디오 부호화, 13818-3은 오디오)로 공표되었다. MPEG-2는 일반적으로 디지털 위성방송, 디지털 유선방송 등의 디지털 방송을 위한 오디오와 비디오 정보 전송을 위해 쓰이고 있다. 또, MPEG-2의 표준을 약간 변형한 인코딩 포맷은 상업 DVD의 표준으로 돌비 디지털, DTS와 함께 사용되고 있다.
MPEG-2 13818-2 비디오 표준은 MPEG-1과 비슷하지만, 텔레비전 방송에서 사용하는 비월주사 방식의 영상을 지원한다. MPEG-2 비디오(부분 2)는 저속 비트율(1 Mbit/s) 환경에는 부적합하지만, 초당 3 메가비트 이상을 요구하는 MPEG-1보다는 향상된 압축률을 보이고 있다. MPEG-2의 MPEG-1과 구별되는 특징으로는 데이터 유실이 많은 전송 환경에도 적합한 트랜스포트 스트림이 정의되어 있다는 점을 들 수 있으며, 이는 현재 디지털 방송에 사용되고 있다. MPEG-2는 원래 MPEG-3로 개발하려던 HDTV(고선명 텔레비전) 전송의 표준 또한 포함한다. 또한 MPEG-1과도 호환성도 보장되어 표준을 따르는 MPEG-2 디코더는 MPEG-1 스트림도 재생할 수 있다. 이 부분의 표준은 ITU-T의 비디오 코딩 전문가 그룹(Video Coding Experts Group, VCEG)과 ISO/IEC의 동화상 전문가 그룹(Moving Picture Experts Group, MPEG)이 공동으로 표준화를 진행하였으며, 따라서 ITU-T의 H.262와 MPEG의 13818-2는 동일하다.
MPEG-2 13818-3 오디오 표준은 MPEG-1 오디오 표준에서 발전되어 채널의 확장을 하는 MC (다중 채널)과 낮은 표본화 주파수를 제공하는 LSF (낮은 샘플링 주파수: Low Sampling Frequency)(24 kHz, 22.05 kHz, 16 kHz)로 구성되어 있다. 또한 두가지 모두 MPEG-1 오디오를 복호화할 수 있는 하위 호환성의 특성을 가지고 있다. 알고리즘 측면에서는 추가된 내용이 없기 때문에 이론적으로 MPEG-1과 동일한 압축율을 가진다고 봐도 무방하다.
한편, 표준 비디오 코덱인 H.264/AVC는, 국제 표준화기구인 ITU-T와 ISO에서 공동으로 제안한 차세대 동영상 압축기술로 대개 H.264/AVC 혹은 AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264 AVC라고 불린다. MPEG4에 비해 40% 정도, MPEG2에 비해 60% 이상 전송속도가 빠르다. H.264는 MPEG2 등 기존의 동영상 압축 표준에 비해 유연성과 압축 효율이 높지만 인코딩이나 디코딩을 구현할 때 복잡도가 증가한다. MPEG측에서는 MPEG-4 part 10의 명칭인 AVC(Advanced Video Coding, 고급 영상 부호화)라고 부르고 있다.
한편 상술한 바와 같이 도 2를 참조하면, 표준 비디오 코덱인 MPEG2와 H.264/AVC의 구조는 계층적으로 이루어져 있다. 각 블록에는 일반 데이터에서 발생할 가능성이 희박한 시작 비트 코드들이 존재한다. 예를 들어, MPEG2에서는 시퀀스 헤더 코드로 000001B3이 사용되며, 이후 이어지는 데이터는 시퀀스에 대한 코드로 구성되어 있음을 의미할 수 있다.
이와 같이 표준 코덱을 통해 생성된 비트스트림은 각 헤더의 구조가 존재하며 시작 비트 코드들에 따라 고유한 특성을 가지게 된다. 따라서 본 발명은 코덱 헤더의 시작 코드 특징에 따라 순환 신경망을 이용하여 코덱을 분류하는 장치 및 방법을 제안한다. 이하에서는 순환 신경망을 이용하는 방법에 대하여 구체적으로 설명하도록 한다.
도 3은 일반적인 순환 신경망 구조를 도시한 도면이다.
순환 신경망(또는 재귀 신경망, Recurrent Neural Network, RNN)은, 사람 또는 동물 두뇌 신경망에 착안하여 구현된 컴퓨팅 시스템을 총칭하는 인공 신경망(Artificial Neural Network)의 한 종류이다. 순환 신경망은 유닛간의 연결이 순환적 구조를 갖는 특징을 갖고 있다. 따라서 순환 신경망은 1차원 시계열 데이터(time-series data)와 같이 시간의 흐름에 따라 변화하는 데이터를 학습하기 위한 인공 신경망으로, 주로 음성 인식 및 감정 분석 등에 활발히 연구되고 있다.
도 3에서, x(300)는 입력(Input)을 나타내고, h(310)는 출력(Output)을 나타낸다. 즉, 각 순환 신경망의 층의 출력은 다음 층의 입력에 영향을 준다는 것을 보여준다. 한편, 도 4는 입력된 데이터의 분류 또는 인식에 사용되는 기본적인 순환 신경망의 구조를 도시한 도면이다. 따라서 이전의 출력이 다음의 입력에 영향을 미치는 것은 시간적인 순서가 의미 있다고 볼 수 있다. 음성 신호와 같이 인코딩된 비트스트림은 1차원 시계열 데이터로 시간적인 순서에 따라 의미가 부여된다. 이하에서는 1차원 시계열 데이터인 인코딩된 비트스트림의 특징을 추출하는 방법을 설명하도록 한다.
도 5는 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 알고리즘을 도시한 개념도이다. 한편 도 6은 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 알고리즘의 입력 데이터 단위를 도시한 도면이다.
먼저 n바이트 비트스트림(510)은 사전 학습된 임베딩(embedding) 학습 알고리즘을 거쳐 4비트 단위로 100차원 매트릭스(100-dimensional matrix)로 변환될 수 있다. 즉, 4비트 단위를 갖는 입력 데이터와 실수형 100차원 벡터를 레이블 데이터로 준비하고, 준비된 입력 데이터와 레이블 데이터를 임베딩 학습 알고리즘에 학습시킨 후, 비트스트림(510)으로부터 추출된 코덱의 헤더를 4비트 단위로 학습된 임베딩 학습 알고리즘에 입력하여 임베딩 학습 알고리즘의 출력으로서 실수형 100차원 벡터를 획득할 수 있다. 이렇게 변환된 100차원 매트릭스는 본 발명에 따른 코덱 분류 알고리즘에 입력(Input, 520)될 수 있다. 즉 100차원으로 변환된 입력은 순환 신경망 층(RNN Layer, 530)을 거쳐 완전히 연결된 계층(fully connected layer, 540)을 통해 출력(Output, 550)하는 과정을 통해 학습이 진행될 수 있다. 도 5를 참조하면, 순환 신경망 학습을 통해 이전의 출력이 다음 층의 입력에 영향을 미치는 것을 확인할 수 있다.
도 6은 본 발명의 일 실시 예에 따른 입력 비트로, 80비트 단위로 입력을 구성했으며, 인접한 입력 사이에 8비트씩 중복시켜 입력 데이터를 구성하였다. 이는 실수형 100차원 벡터로 변환하기 위한 복수의 변환 대상 데이터를 준비할 때에, 변환 대상 데이터 중 적어도 하나는 다른 변환 대상 데이터와 비교할 때에 80비트 중 일부 비트인 8비트가 중복된다는 것을 의미한다.
이상에서는 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 시스템을 설명하였다. 이하에서는 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 방법을 도 7을 참조하여 설명하도록 한다.
본 발명에 따른 순환 신경망을 이용한 코덱 분류 방법은, 임베딩 과정을 거쳐 100차원 매트릭스(또는 100차원의 실수형 데이터)로 변환된 입력을 시계열 데이터로써 순환 신경망을 통해 학습이 진행되도록 학습 모델을 생성한다.
한편 코덱 헤더의 계층적 구조로 인한 각 블록의 시작 코드들은 일반 데이터에서 발생할 가능성이 희박하므로 각 코덱의 고유한 특징을 추출할 수 있다. 이에 따라 추출된 코덱의 특징을 이용하여 순환 신경망을 통해 학습된 학습 모델을 기반으로 코덱을 분류할 수 있다.
이하에서는 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 방법을 설명하도록 한다.
도 7은 본 발명의 일 실시 예에 따른 순환 신경망을 이용한 코덱 분류 방법을 도시한 도면이다.
먼저 비트스트림에 포함된 코덱 헤더의 특징을 추출(S110)할 수 있다.
일 실시 예에 있어서, 코덱 헤더는, 계층적 구조를 이루고, 상기 코덱 헤더의 시작을 알리는 시작 코드를 포함할 수 있다. 따라서 특징을 추출하는 단계(S110)는, 상기 시작 코드에 따라 달라지는 코덱의 고유한 특징을 추출하는 것을 특징으로 한다. 즉, 학습용 비트스트림에 포함된 코덱의 헤더를 특정 수의 비트 단위씩 실수형 다차원 벡터로 변환하는데, 이는 추후 분류용 비트스트림을 분류할 때에 분류의 기준으로 이용되기 때문에 특징이라고 칭할 수 있다.
한편, 학습 모듈에서 상기 S110단계에서 추출된 특징을 이용하여 순환 신경망 기반의 학습을 수행(S120)할 수 있다. 즉, 학습 모듈은 복수의 실수형 다차원 벡터를 입력 데이터로 하고 코덱의 종류를 레이블 데이터로 하여 학습을 수행할 수 있다.
또한, 학습을 수행하는 단계(S120)는, n개(여기서 n은 0보다 큰 정수)의 바이트가 임베딩 학습 과정을 통해 100차원의 실수형 데이터로 변환하고, 변환된 데이터를 입력 비트로 사용하는 것을 특징한다. 이때 입력 비트를 인접한 8비트씩 중복시켜 입력할 수 있다.
한편, 상기 S120단계에서 학습된 학습 모델을 기반으로 입력된 코덱을 분류(S130)할 수 있다. 즉, 분류용 비트스트림에 포함된 코덱의 헤더를 특정 수의 비트 단위씩 실수형 다차원 벡터로 변환해 단계 S120에서 학습을 수행한 순환 신경망 모델에 입력하여, 학습을 수행한 순환 신경망 모델의 출력을 통하여 분류용 비트스트림에 포함된 코덱을 분류할 수 있다.
본 발명에 따른 순환 신경망을 이용한 코덱 분류를 수행한 실험은 다음과 같다. 먼저 실험은 Intel Core i7-4770K CPU @ 3.50GHz, 16 bit RAM, Windows 10 Pro x64, python 3.6, tensorflow 1.8.0, pytorch 환경에서 수행하였다.
기존의 심층 학습을 이용한 코덱 분류 기법이 존재하지 않기 때문에 입력 데이터를 모델링한 기법과 최종 코덱 분류 정확도에 초점을 두고 실험을 진행했다.
구체적인 실험 환경은 다음과 같다. 실험 모델에 활용된 순환 신경망에서 사용한 은닉층의 크기는 100 이며, 배치의 크기는 256 으로 설정했으며 30 회 반복하여 학습을 진행했다. 입력 비트스트림의 크기는 20 비트이며 각 입력은 4 비트 단위마다 임베딩 알고리듬 을 통해 100 차원의 입력으로 변환되어 학습에 사용 했다. 훈련 집합과 시험 집합은 각각 13374, 6700 개 의 입력으로 구성하여 학습과 시험을 진행했다.
실험 결과를 통해 제안하는 알고리듬은 비디오 표준 코덱인 MPEG2 와 H.264/AVC를 활용하여 인코딩한 비트스트림을 75%의 정확도로 코덱의 종류를 분류함을 확인할 수 있었다.
상술한 바와 같이 본 발명은 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법에 관한 것으로, 순환 신경망을 이용하여 비트스트림에 포함된 각 코덱의 헤더마다 존재하는 시작 코드들의 특징을 추출, 및 학습하여 코덱을 보다 정확하게 분류할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
또한, 상기 컴퓨터는 단말기의 제어 모듈을 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
10: 순환 신경망을 이용한 코덱 분류 시스템
110: 특징 추출 모듈
120: 학습 모듈
130: 제어 모듈
140: 데이터 베이스

Claims (10)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 순환 신경망을 이용한 코덱 분류 시스템이 수행하는 코덱 분류 방법으로서,
    학습용 비트스트림에 포함된 코덱의 헤더를 특정 수의 비트 단위씩 실수형 다차원 벡터로 변환하는 단계;
    상기 변환에 따른 복수의 실수형 다차원 벡터를 입력 데이터로 하고 상기 코덱의 종류를 레이블 데이터로 하여, 순환 신경망 모델에 대하여 학습을 수행하는 단계; 및
    분류용 비트스트림에 포함된 코덱의 헤더를 특정 수의 비트 단위씩 실수형 다차원 벡터로 변환해 상기 학습을 수행한 순환 신경망 모델에 입력하여, 상기 학습을 수행한 순환 신경망 모델의 출력을 통하여 상기 분류용 비트스트림에 포함된 코덱을 분류하는 단계
    를 포함하는 순환 신경망을 이용한 코덱 분류 방법.
  7. 제6항에 있어서,
    상기 코덱의 헤더는,
    계층적 구조를 이루고, 상기 코덱의 헤더의 시작을 알리는 시작 코드를 포함하며,
    상기 학습을 수행하는 단계는,
    상기 시작 코드에 따라 달라지는 코덱의 고유한 특징을 학습하는
    순환 신경망을 이용한 코덱 분류 방법.
  8. 제6항에 있어서,
    상기 실수형 다차원 벡터로 변환하는 단계는,
    상기 특정 수의 비트 단위를 갖는 입력 데이터와 레이블 데이터로서 실수형 다차원 벡터를 사전 학습한 임베딩 학습 알고리즘에 상기 코덱의 헤더를 입력하여 상기 임베딩 학습 알고리즘의 출력으로서 상기 실수형 다차원 벡터를 획득하는
    순환 신경망을 이용한 코덱 분류 방법.
  9. 제6항에 있어서,
    상기 실수형 다차원 벡터로 변환하는 단계는,
    상기 실수형 다차원 벡터로 변환하기 위한 복수의 변환 대상 데이터를 준비할 때에, 상기 변환 대상 데이터 중 적어도 하나는 다른 변환 대상 데이터와 비교할 때에 상기 특정 수의 비트 중 일부 비트가 중복되는
    순환 신경망을 이용한 코덱 분류 방법.
  10. 제6항에 있어서,
    상기 학습용 비트스트림 및 상기 분류용 비트스트림은,
    비디오 표준 코덱인 MPEG2 및 H.264/AVC 중 적어도 하나를 통해 인코딩된
    순환 신경망을 이용한 코덱 분류 방법.
KR1020190067415A 2019-06-07 2019-06-07 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법 KR102255312B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190067415A KR102255312B1 (ko) 2019-06-07 2019-06-07 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190067415A KR102255312B1 (ko) 2019-06-07 2019-06-07 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법

Publications (2)

Publication Number Publication Date
KR20200140589A KR20200140589A (ko) 2020-12-16
KR102255312B1 true KR102255312B1 (ko) 2021-05-25

Family

ID=74042148

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190067415A KR102255312B1 (ko) 2019-06-07 2019-06-07 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법

Country Status (1)

Country Link
KR (1) KR102255312B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019052301A1 (zh) * 2017-09-15 2019-03-21 腾讯科技(深圳)有限公司 视频分类的方法、信息处理的方法以及服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019052301A1 (zh) * 2017-09-15 2019-03-21 腾讯科技(深圳)有限公司 视频分类的方法、信息处理的方法以及服务器

Also Published As

Publication number Publication date
KR20200140589A (ko) 2020-12-16

Similar Documents

Publication Publication Date Title
US11915144B2 (en) Apparatus, a method and a computer program for running a neural network
US9554142B2 (en) Encoding of video stream based on scene type
US8787692B1 (en) Image compression using exemplar dictionary based on hierarchical clustering
JP2014511138A5 (ko)
US9338450B2 (en) Method and apparatus for signal encoding producing encoded signals of high fidelity at minimal sizes
EP3938965A1 (en) An apparatus, a method and a computer program for training a neural network
CN104837031A (zh) 一种高速自适应提取视频关键帧的方法
KR102255312B1 (ko) 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법
CN108886638A (zh) 再现装置和再现方法、以及文件生成装置和文件生成方法
CN113409803A (zh) 语音信号处理方法、装置、存储介质及设备
KR101632689B1 (ko) 멀티미디어 조각파일의 복구방법
RU2654126C2 (ru) Способ и устройство высокоэффективного сжатия мультимедийной информации большого объема по критериям ее ценности для запоминания в системах хранения данных
KR102430177B1 (ko) 대규모 동영상 고속 관리 시스템 및 그 방법
US20220005488A1 (en) Methods of encoding and decoding audio signal using neural network model, and devices for performing the methods
US8351351B2 (en) Method and apparatus for generating multimedia data having decoding level, and method and apparatus for reconstructing multimedia data by using the decoding level
US9661331B2 (en) Method and apparatus for signal encoding realizing optimal fidelity
CN114600463A (zh) 视频编码和视频解码
KR101606121B1 (ko) 동영상 파일 조각화 방법 및 그 장치
KR20200052400A (ko) 개선된 영상 분류 시스템 및 방법
Youssef Detection of Double and Triple Compression in Videos for Digital Forensics Using Machine Learning
CN113965776A (zh) 一种多模式的音视频格式高速转换方法及系统
Bharitkar et al. Hierarchical model for multimedia content classification
CN116886956A (zh) 基于非干预式终端显示信号采集的音视频一体化使用情景监测与分析方法、存储介质及装置
CN106534948B (zh) 音频视频编转码问题速查方法和系统
CN116527916A (zh) 视频处理方法、介质、装置和计算设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant