KR102308416B1

KR102308416B1 - 동영상 코덱 판별 방법 및 장치

Info

Publication number: KR102308416B1
Application number: KR1020200047234A
Authority: KR
Inventors: 정제창; 김상민
Original assignee: 한양대학교 산학협력단
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2021-10-01

Abstract

본 발명은 동영상 코덱 판별 장치에 입력되는 비트스트림에 사용된 동영상의 코덱을 판별하는 방법으로서, 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하는 단계; 일부 비트스트림를 통해 동영상의 코덱을 예측하도록 학습된 제 1 신경망에 상기 비트스트림을 입력하여 출력 벡터를 획득하는 단계; 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하는 단계; 및 상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하는 단계를 포함하는, 동영상 코덱 판별 방법을 개시한다.

Description

동영상 코덱 판별 방법 및 장치{APPARATUS AND METHOD FOR DECIDING VIDEO CODEC}

본 발명은 동영상의 코덱을 판별하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 양방향성 장단기 기억 메모리 신경망 및 어텐션 알고리즘을 활용하여 동영상의 코덱을 판별하는 방법 및 장치에 관한 것이다.

동영상의 코덱은, 영상의 신호를 디지털 신호로 변환하는 코더와 그 반대로 변환시켜 주는 디코더의 기능을 함께 갖춘 기술을 의미하며, 코더와 디코더, 또는 컴프레서와 디컴프레서의 합성어로써 비디오 데이터를 컴퓨터가 처리할 수 있게 디지털로 바꿔 주고, 그 데이터를 컴퓨터 사용자가 알 수 있게 모니터에 본래대로 재생시켜 주기도 하는 소프트웨어이다. 코덱의 종류는 매우 다양하다. 예를 들어, 동영상 코덱으로는　MPEG(MPEG1,　MPEG2,　MPEG4) 및 인텔의　Indeo, DivX, Xvid, H.264, WMV, RM, Cinepak,　MOV,　ASF,　RA,　XDM,　RLE　등이 사용된다.

또한, 동영상의 코덱은 표준화가 이루어지지 않아서 압축 방법이나, 화질, 압축률 등이 서로 다르고 호환성이 없다. 뿐만 아니라, 동영상 코덱의 종류가 다양한 만큼 동영상 코덱 내 비트스트림의 구조 및 비트스트림의 길이 또한 동영상의 코덱에 따라 상이하다. 따라서, 동영상 코덱이 국방 목적으로 암호화되어 변형되었거나 인식이 되지 않는 손상된 파일의 경우 동영상 코덱을 판별하고 기존 동영상 코덱으로 복원하는 것은 쉽지 않다.

종래에는 동영상의 비트스트림을 순환신경망(Recurrent Neural Network; RNN)에 입력하여 동영상의 코덱 판별을 시도하였으나, 비트스트림의 구조나 비트스트림이 한 번에 학습되는 양을 고려하지 않아 동영상의 코덱을 판별하는 정확도가 낮은 문제점이 있었다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 코덱의 특징을 추출하여 동영상의 변형된 비트스트림을 통해 동영상의 코덱을 판별하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 동영상 코덱 판별 방법은, 동영상 코덱 판별 장치에 입력되는 비트스트림에 사용된 동영상의 코덱을 판별하는 방법으로서, 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하는 단계; 일부 비트스트림를 통해 동영상의 코덱을 예측하도록 학습된 제 1 신경망에 상기 비트스트림을 입력하여 출력 벡터를 획득하는 단계; 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하는 단계; 및 상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하는 단계를 포함할 수 있다.

여기서, 상기 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하는 단계는, 상기 입력된 비트스트림을 16진법으로 표현하는 단계를 포함할 수 있다.

또한, 상기 제 1 신경망은, 양방향 장단기 기억 메모리(Bidirectional Long Short Term Memory; BLSTM) 신경망을 포함할 수 있다.

또한, 상기 제 2 신경망은, 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하여 점수를 부여하는 얼라인먼트(alignment) 모델을 포함할 수 있다.

또한, 상기 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하는 단계는, 점수가 부여된 출력 벡터를 소프트맥스(softmax) 함수를 이용하여 동영상 코덱을 판별하는데 필요한 가중치를 나타내는 어텐션 벡터로 변환하는 단계를 포함할 수 있다.

또한, 상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하는 단계는, 상기 출력 벡터의 성분 값을 트랜스포즈(transpose)하여 상기 어텐션 벡터의 성분 값과 곱함으로써 상기 출력 벡터에 가중치가 적용된 새로운 출력 벡터를 획득하는 단계; 및 상기 새로운 출력 벡터를 동영상 코덱 개수만큼 매핑하여 상기 새로운 출력 벡터의 성분 값 중 가장 큰 성분 값을 포함하는 동영상의 코덱을 선정하는 단계를 포함할 수 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 동영상 코덱 판별 장치는, 프로세서; 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고, 상기 적어도 하나의 명령은, 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하도록 하는 명령; 일부 비트스트림를 통해 동영상의 코덱을 예측하도록 학습된 제 1 신경망에 상기 비트스트림을 입력하여 출력 벡터를 획득하도록 하는 명령; 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하도록 하는 명령; 및 상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하도록 하는 명령을 포함할 수 있다.

여기서, 상기 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하도록 하는 명령은, 상기 입력된 비트스트림을 16진법으로 표현하도록 하는 명령을 포함할 수 있다.

또한, 상기 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하도록 하는 명령은, 점수가 부여된 출력 벡터를 소프트맥스(softmax) 함수를 이용하여 동영상 코덱을 판별하는데 필요한 가중치를 나타내는 어텐션 벡터로 변환하도록 하는 명령을 포함할 수 있다.

또한, 상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하도록 하는 명령은, 상기 출력 벡터의 성분 값을 트랜스포즈(transpose)하여 상기 어텐션 벡터의 성분 값과 곱함으로써 상기 출력 벡터에 가중치가 적용된 새로운 출력 벡터를 획득하도록 하는 명령; 및 상기 새로운 출력 벡터를 동영상 코덱 개수만큼 매핑하여 상기 새로운 출력 벡터의 성분 값 중 가장 큰 성분 값을 포함하는 동영상의 코덱을 선정하도록 하는 명령을 포함할 수 있다.

상기와 같은 본 발명의 실시예들에 따르면, 코덱으로 암호화된 동영상을 국방 목적으로 변환할 때, 코덱을 판별하고 변형된 방법을 알아내어 동영상 복원이 가능한 장점이 있다.

상기와 같은 본 발명의 실시예들에 따르면, 인식이 되지 않는 손상된 파일의 확장자 판별이 가능한 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 동영상 코덱 판별 방법의 개념도이다.
도 2는 통상적인 동영상의 코덱의 예시도이다.
도 3은 통상적인 동영상의 비트스트림의 예시도이다.
도 4는 동영상의 비트스트림을 데이터 샘플링하는 예시도이다.
도 5는 본 발명의 일 실시예에 따른 동영상 코덱 판별 방법의 동작 순서도이다.
도 6은 본 발명의 일 실시예에 따른 동영상 코덱 판별 장치의 블록 구성도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 동영상 코덱 판별 방법의 개념도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 동영상 코덱 판별 방법에 따라 동영상 코덱 판별 장치에 입력된 동영상의 비트스트림을 일정한 길이만큼 획득하고, 획득한 비트스트림을 일정한 길이를 갖도록 분할함으로써 동영상의 비트스트림을 여러 단어로 이루어진 문장으로 취급할 수 있음을 알 수 있다. 또한, 본 발명의 동영상 코덱 판별 방법에 따라 동영상의 비트스트림은 16진법으로 처리될 수 있는데, 이는 16진법 이하의 다른 진법으로 처리하는 것보다 16진법으로 처리할 경우 한 글자당 정보를 많이 압축하고 있기 때문이다.

또한, 본 발명의 동영상 코덱 판별 방법은, 분할된 동영상의 비트스트림을 벡터화하고, 벡터화된 동영상의 비트스트림을 통해 양방향 장단기 기억 메모리(Bidirectional Long Short Term Memory; BLSTM) 신경망을 일부 비트스트림을 이용하여 전체 비트스트림을 예측하도록 학습시킬 때, 동영상 비트스트림의 핵심적인 정보가 포함된 동영상 비트스트림의 전반부를 중심으로 학습시킬 수 있다. 이로 인해, 학습된 BLSTM 신경망에 벡터화된 동영상 비트스트림을 입력하여 무작위의 순서로 출력 벡터를 획득하고, 출력 벡터에 점수를 매기는 어텐션 알고리즘에 출력 벡터를 입력하고, 어텐션 알고리즘에 의해 출력 벡터가 어텐션 벡터로 변환되고, 어텐션 벡터를 활용하여 동영상의 코덱을 판별할 수 있다. 여기서, 어텐션 알고리즘은 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 알고리즘을 의미할 수 있고, 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하여 점수를 부여하는 얼라인먼트(alignment) 모델을 포함할 수 있다.

여기서, BLSTM 신경망은 비트스트림의 앞쪽부터 최소 100비트의 비트스트림을 고려하여 동영상의 코덱을 예측하도록 학습될 수 있다. 이는, 후술하는 바와 같이 동영상의 포괄적인 정보가 담긴 부분은 모두 동영상 코덱 내 비트스트림의 전반부에 존재하기 때문이다.

구체적으로 살펴보면, 본 발명은 동영상 코덱 판별 장치에 입력된 동영상의 비트스트림을 벡터화하는 과정 이후에 벡터화된 동영상의 비트스트림을 두개의 LSTM 신경망(순방향 LSTM 및 양방향 LSTM)으로 이루어진 BLSTM 신경망에 입력할 수 있다. 여기서, 동영상의 비트스트림은 먼저 일정한 길이를 갖도록 분할되고 벡터화 될 수 있고, 먼저 벡터화된 후 일정한 길이를 갖도록 분할될 수도 있다. 또한, 동영상의 비트스트림은 하나의 LSTM 셀(Cell)에 입력될 수 있고, 그 결과가 출력 벡터일 수 있다. 이 때, 출력 벡터는 순방향 LSTM과 역방향 LSTM에 입력되어 출력된 벡터를 더한 벡터를 의미할 수 있다. 따라서, 본 발명은 동영상의 비트스트림을 순방향 LSTM 신경망에 입력하고, 역방향 LSTM 신경망에 입력하여 출력 벡터를 획득함으로써 동영상 비트스트림의 전반부 및 후반부를 모두 고려한 출력 벡터를 획득할 수 있다. 이어서, 출력 벡터에 점수를 매기는 얼라인먼트 모델(Alignment model)에 출력 벡터를 입력하여 어텐션 벡터를 획득함으로써 동영상의 코덱을 판별할 수 있다. 마지막으로, 본 발명은 어텐션 벡터를 분석하여 동영상의 코덱을 판별할 수 있다.

즉, 본 발명은 출력 벡터를 얼라인먼트 모델에 입력하여 점수가 부여된 출력 벡터를 획득하고, 점수가 부여된 출려 벡터를 소프트맥스(softmax) 함수를 이용하여 동영상 코덱을 판별하는데 필요한 가중치를 나타내는 어텐션 벡터로 변환하고, 출력 벡터의 성분 값을 트랜스포즈(transpose)하여 어텐션 벡터의 성분 값 곱합으로써 출력 벡터에 가중치가 적용된 새로운 출력 벡터를 획득하고, 새로운 출력 벡터를 동영상 코덱 개수만큼 매핑하여 새로운 출력 벡터의 성분 값 중 가장 큰 성분 값을 포함하는 동영상의 코덱을 선정할 수 있다.

얼라인먼트 모델은 수학식 1과 같이 표현될 수 있다.

여기서, w는 얼라인먼트 모델의 훈련된 파라미터 벡터(Trained Parameter Vector)를 의미할 수 있다.

또한, 본 발명은 얼라인먼트 모델에 출력 벡터를 입력하여 어텐션 벡터를 획득할 때, 점수가 부여된 출력 벡터를 소프트맥스(Softmax) 함수를 이용하여 총합이 1인 벡터로 변환할 수 있다. 여기서, 출력 벡터가 총합이 1인 벡터로 변환되면 이를 어텐션 벡터라고 할 수 있다. 즉, 어텐션 벡터는 수학식 2와 같이 표현될 수 있다,

수학식 2에서, α는 어텐션 벡터를 의미할 수 있다.

또한, 본 발명에 따라 어텐션 벡터를 획득하여 동영상의 코덱을 판별할 때, 출력 벡터의 성분 값에 어텐션 벡터의 성분 값을 곱해준 다음 활성함수tanh을 거치면 동영상 코덱 판별시 사용되는 출력 벡터의 대푯값이 될 수 있다. 수학식 3은 출력 벡터의 대푯값을 소프트맥스 함수를 가진 신경망에서 학습시키면 동영상의 코덱을 판별할 수 있는 벡터를 획득하는 식을 의미할 수 있다. 이 때, 수학식 4에 따라 동영상의 코덱을 판별할 수 있는 벡터에서 가장 높은 성분 값을 가진 코덱이 본 발명에서 판별하고자 하는 동영상의 코덱일 수 있다.

본 발명의 동영상 코덱 판별 방법을 예를 들어 설명하면, 동영상의 비트스트림이 16진법으로 표현되어 'E5BA205C'라는 동영상의 비트스트림이 존재하고, 해당 동영상의 코덱은 사용되는 동영상의 코덱을 전부 나열하여 네 번째에 존재하는 코덱을 사용하는 경우, 즉, 동영상의 코덱을 MPEG-2, H.263, H.264 등을 나열하여 네번 째에 존재하는 코덱을 사용하는 경우, 본 발명은 동영상의 비트스트림을 여러 단어로 이루어진 하나의 문장으로 취급하여 분할 할 수 있다. 즉, 동영상 비트스트림'E5BA205C'은 표 1과 같이 분할될 수 있다.

본 발명은 동영상 비트스트림을 단어로 분할 한 후, 각 단어들을 편의를 위해 표 2와 같이 숫자로 변환할 수 있다. 이 때, 각 단어와 매핑되는 숫자는 코딩 방식에 따라 상이할 수 있다.

또한, 본 발명은 BLSTM 신경망에 분할된 동영상의 비트스트림을 입력하기 위해 분할된 동영상의 비트스트림을 벡터화할 수 있다. 동영상의 비트스트림을 분할한 각 단어는 미리 설정한 임베딩 차원(Embedding dimension)에 맞게 벡터화될 수 있다. 본 예시에서는, 미리 설정한 임베딩 차원은 표 3과 같이 2차원으로 한다.

표 3의 벡터들이 BLSTM 신경망에 입력되면 단어 8개 각각은 RNN은닉층의 개수 2개, 순방향 및 역방향 2개를 곱하여 표 4와 같이 총 4개의 차원에 존재할 수 있다.

표 4를 참조하면, BLSTM 신경망의 은닉층은 RNN 은닉층의 개수 2개, 순방향 및 역방향 2개를 곱하여 총 4개의 4차원에 존재할 수 있다.

본 발명에 따르면 출력 벡터에 점수를 매길 수 있다. 여기서, 출력 벡터의 점수를 매기는 것은 표 5의 얼라인먼트 모델에 의해 훈련된 파라미터(BLSTM 은닉층)와 표 4의 출력 벡터를 곱하는 것을 의미할 수 있다.

표 6은 점수가 부여된 출력 벡터를 의미할 수 있다.

표 7은 동영상 코덱을 판별하는데 필요한 가중치를 나타내는 어텐션 벡터로서, 얼라인먼트 모델에 의해 출력 벡터에 점수가 부여된 후, 출력 벡터를 소프트맥스(softmax) 함수를 이용하여 변환함으로써 획득할 수 있다. 즉, 본 발명은 점수가 부여된 출력 벡터를 소프트맥스 함수에 입력하여 총합이 1이 되도록 변환하여 어텐션 벡터를 획득할 수 있다. 여기서, 점수가 부여된 출력 벡터의 성분 값이 크면 소프트맥스 함수에 입력되어 나온 어텐션 벡터의 성분 값도 크다.

또한, 표 8을 참조하면, 본 발명은 출력 벡터의 성분 값을 트랜스포즈(transpose)하여 어텐션 벡터의 성분 값과 곱함으로써 출력 벡터에 가중치가 적용된 새로운 출력 벡터를 획득할 수 있음을 알 수 있다.

또한, 본 발명은 새로운 출력 벡터를 획득한 후, 표9와 같이 새로운 출력 벡터를 완전 연결 계층(Fully connected layer)을 활용하여 동영상의 코덱 개수만큼 매핑하고, 이 중에 가장 큰 성분 값을 포함하는 동영상의 코덱이 본 발명에서 획득하고자 하는 동영상의 코덱으로 선정할 수 있다. 즉, 표 9에서는 코덱 4가 가장 큰 성분 값을 가지므로 'E5BA205C'라는 동영상의 비트스트림이 본 발명의 동영상 코덱 판별 장치에 입력되면 코덱 4가 사용된 것이라는 것을 판별할 수 있다.

도 2는 통상적인 동영상의 코덱의 예시도이고, 도 3은 통상적인 동영상의 비트스트림의 예시도이다.

도 2를 참조하면, 총 22개의 동영상에 따라 대응되는 동영상의 코덱은 MPEG-2, H.263, H.264 중 적어도 하나의 코덱이 사용되는 것을 알 수 있다. 다만, 본 발명에서 사용되는 동영상은 도 2에 따라 한정되는 것이 아니고, 본 발명에서 사용되는 동영상의 코덱은 도 2에 따라 한정되는 것은 아니다.

도 3을 참조하면, 통상적인 동영상의 코덱은 모두 구조가 상이하지만 동영상의 포괄적인 정보가 담긴 부분은 모두 동영상 코덱 내 비트스트림의 전반부에 존재하는 것을 알 수 있다. 또한, 본 발명에서 MPEG-2, H.263, H.264 중 적어도 하나의 코덱을 이용할 수 있지만, 이에 한정되는 것은 아니다.

도 4는 동영상의 비트스트림을 데이터 샘플링하는 예시도이다.

도 4를 참조하면, 임의의 방법으로 변형된 비트스트림의 동영상 코덱을 판별하는 본 발명의 동영상 코덱 판별 방법의 신경망을 학습시키기 위해 사용된 변형된 비트스트림의 예로서, 동영상의 비트스트림을 쉬프트(Shift)하여 데이터 샘플링하는 것을 알 수 있다.

또한, 본 발명에서는 표 10, 표 11, 표 12 및 표 13과 같이 동영상 하나 당 샘플링하는 문장(동영상의 비트스트림)의 개수, 문장을 샘플링할 시 쉬프트하는 길이, 문장을 샘플링할 시 문장 하나의 길이 및 문장이 앞뒤로 변형된 정도를 변수로 할 수 있다.

표 10에서, D는 문장의 개수를 의미할 수 있다. 즉, 문장(동영상의 비트스트림)의 개수가 200개 일 때, 본 발명의 동영상 코덱을 판별하는 정확도가 가장 높을 수 있다.

표 11에서, S는 문장을 샘플링할 시 쉬프트하는 길이를 의미할 수 있다. 즉, 쉬프트하는 길이가 작을수록 본 발명의 동영상 코덱을 판별하는 정확도가 상승할 수 있다.

표 12에서, N은 문장을 샘플링할 시 문장 하나의 길이를 의미할 수 있다. 즉, 문장의 길이를 늘려 학습하는 데이터의 특징을 늘리는 것은 결과적으로 본 발명의 BLSTM 신경망 또는 얼라인먼트 모델을 용이하게 학습시켜 본 발명의 동영상 코덱을 판별하는 정확도를 상승시킬 수 있다.

표 13을 참조하면, 본 발명의 동영상 코덱 판별 방법은 동영상의 비트스트림(문장)이 변형되었음에도 불구하고 판별 정확도가 높은 것을 알 수 있다.

도 5는 본 발명의 일 실시예에 따른 동영상 코덱 판별 방법의 동작 순서도이다.

본 발명의 일 실시예에 따른 동영상 코덱 판별 방법은, 동영상 코덱 판별 장치에 입력되는 비트스트림에 사용된 동영상의 코덱을 판별하는 방법으로서, 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하는 단계(S110)를 포함할 수 있다.

또한, 본 발명의 동영상 코덱 판별 방법은, 일부 비트스트림를 통해 동영상의 코덱을 예측하도록 학습된 제 1 신경망에 상기 비트스트림을 입력하여 출력 벡터를 획득하는 단계(S120)를 포함할 수 있다.

여기서, 상기 제 1 신경망은, 양방향 장단기 기억 메모리(Bidirectional Long Short Term Memory; BLSTM) 신경망을 포함할 수 있다.

또한, 본 발명의 동영상 코덱 판별 방법은, 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하는 단계(S130)를 포함할 수 있다,

또한, 본 발명의 동영상 코덱 판별 방법은, 상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하는 단계(S140)를 포함할 수 있다.

도 6은 본 발명의 일 실시예에 따른 동영상 코덱 판별 장치의 블록 구성도이다.

도 6을 참조하면, 본 발명의 일 실시예에 따른 동영상 코덱 판별 장치(200)는 프로세서(210) 및 프로세서를 통해 실행되는 적어도 하나의 명령 및 명령 수행의 결과를 저장하는 메모리(220) 및 네트워크와 연결되어 통신을 수행하는 송수신 장치(230)를 포함할 수 있다.

동영상 코덱 판별 장치(200)는 또한, 입력 인터페이스 장치(240), 출력 인터페이스 장치(250), 저장 장치(260) 등을 더 포함할 수 있다. 동영상 코덱 판별 장치(200)에 포함된 각각의 구성 요소들은 버스(Bus)(270)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(210)는 메모리(220) 및 저장 장치(260) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(210)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(220) 및 저장 장치(260) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(220)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.

저장 장치(560)는 또한, 본 발명에서 사용되는 동영상의 코덱 종류를 저장할 수 있고, 본 발명의 제 1신경망 및 제 2 신경망의 학습 결과를 저장할 수 있고, 제 1 신경망 및 제 2 신경망을 통해 출력되는 결과를 저장할 수 있다.

여기서, 적어도 하나의 명령은, 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하도록 하는 명령; 일부 비트스트림를 통해 동영상의 코덱을 예측하도록 학습된 제 1 신경망에 상기 비트스트림을 입력하여 출력 벡터를 획득하도록 하는 명령; 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하도록 하는 명령; 및 상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하도록 하는 명령을 포함할 수 있다.

또한, 상기 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하도록 하는 명령은, 상기 입력된 비트스트림을 16진법으로 표현하도록 하는 명령을 포함할 수 있다.

최근 자연어 처리 분야에서 무수한 음성과 문자로된 시계열 데이터를 RNN에 학습시켜 문장의 다음을 판별하거나, 문장을 의미에 따라 분류하고 번역하는 기능을 부여하는 알고리즘을 생성하였으나, 기존 RNN 구조는 출력으로부터 멀어질수록 역전파가 힘들어지면서 신경망의 학습이 저하되는 현상인 Gradient vanishing problem을 발생시키는 문제가 있다.

또한, 자연어 처리 분야에서는 각각의 단어의 의미를 학습시켜 이를 통해 자연어 처리를 하고자 했다. 따라서 문장 전체에서 가장 중요한 역할을 하는 단어의 위치를 알아내어 결과를 결정하도록 하였다. 이러한 알고리즘을 어텐션 알고리즘이라고 한다.

또한, 종래 자연어 처리 분야에서는 인간이 사용하는 언어를 대상으로 어텐션 알고리즘들을 사용하는 것이 일반적이고, 어텐션 알고리즘들을 활용하여 동영상의 코덱을 판별하려는 시도는 없었다.

본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.

또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.

실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.

이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

동영상 코덱 판별 장치에 입력되는 비트스트림에 사용된 동영상의 코덱을 판별하는 방법으로서,
입력된 비트스트림을 일정한 길이로 분할하여 벡터화하는 단계;
일부 비트스트림를 통해 동영상의 코덱을 예측하도록 학습된 제 1 신경망에 상기 비트스트림을 입력하여 출력 벡터를 획득하는 단계;
일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하는 단계; 및
상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하는 단계를 포함하는, 동영상 코덱 판별 방법.
청구항 1에 있어서,
상기 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하는 단계는,
상기 입력된 비트스트림을 16진법으로 표현하는 단계를 포함하는, 동영상 코덱 판별 방법.
청구항 1에 있어서,
상기 제 1 신경망은,
양방향 장단기 기억 메모리(Bidirectional Long Short Term Memory; BLSTM) 신경망을 포함하는, 동영상 코덱 판별 방법.
청구항 1에 있어서,
상기 제 2 신경망은,
일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하여 점수를 부여하는 얼라인먼트(alignment) 모델을 포함하는, 동영상 코덱 판별 방법.
청구항 4에 있어서,
상기 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하는 단계는,
점수가 부여된 출력 벡터를 소프트맥스(softmax) 함수를 이용하여 동영상 코덱을 판별하는데 필요한 가중치를 나타내는 어텐션 벡터로 변환하는 단계를 포함하는, 동영상 코덱 판별 방법.
청구항 5에 있어서,
상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하는 단계는,
상기 출력 벡터의 성분 값을 트랜스포즈(transpose)하여 상기 어텐션 벡터의 성분 값과 곱함으로써 상기 출력 벡터에 가중치가 적용된 새로운 출력 벡터를 획득하는 단계; 및
상기 새로운 출력 벡터를 동영상 코덱 개수만큼 매핑하여 상기 새로운 출력 벡터의 성분 값 중 가장 큰 성분 값을 포함하는 동영상의 코덱을 선정하는 단계를 포함하는, 동영상 코덱 판별 방법.
프로세서; 및
상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고,
상기 적어도 하나의 명령은,
입력된 비트스트림을 일정한 길이로 분할하여 벡터화하도록 하는 명령;
일부 비트스트림를 통해 동영상의 코덱을 예측하도록 학습된 제 1 신경망에 상기 비트스트림을 입력하여 출력 벡터를 획득하도록 하는 명령;
일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하도록 하는 명령; 및
상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하도록 하는 명령을 포함하는, 동영상 코덱 판별 장치.
청구항 7에 있어서,
상기 입력된 비트스트림을 일정한 길이로 분할하여 벡터화하도록 하는 명령은,
상기 입력된 비트스트림을 16진법으로 표현하도록 하는 명령을 포함하는, 동영상 코덱 판별 장치.
청구항 7에 있어서,
상기 제 1 신경망은,
양방향 장단기 기억 메모리(Bidirectional Long Short Term Memory; BLSTM) 신경망을 포함하는, 동영상 코덱 판별 장치.
청구항 7에 있어서,
상기 제 2 신경망은,
일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하여 점수를 부여하는 얼라인먼트(alignment) 모델을 포함하는, 동영상 코덱 판별 장치.
청구항 10에 있어서,
상기 일부 비트스트림과 동영상 코덱 내 비트스트림의 유사도를 판단하도록 학습된 제 2 신경망에 상기 출력 벡터를 입력하여 어텐션 벡터를 획득하도록 하는 명령은,
점수가 부여된 출력 벡터를 소프트맥스(softmax) 함수를 이용하여 동영상 코덱을 판별하는데 필요한 가중치를 나타내는 어텐션 벡터로 변환하도록 하는 명령을 포함하는, 동영상 코덱 판별 장치.
청구항 11에 있어서,
상기 어텐션 벡터의 성분 값을 활용하여 동영상의 코덱을 판별하도록 하는 명령은,
상기 출력 벡터의 성분 값을 트랜스포즈(transpose)하여 상기 어텐션 벡터의 성분 값과 곱함으로써 상기 출력 벡터에 가중치가 적용된 새로운 출력 벡터를 획득하도록 하는 명령; 및
상기 새로운 출력 벡터를 동영상 코덱 개수만큼 매핑하여 상기 새로운 출력 벡터의 성분 값 중 가장 큰 성분 값을 포함하는 동영상의 코덱을 선정하도록 하는 명령을 포함하는, 동영상 코덱 판별 장치.