KR20220118894A

KR20220118894A - 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치

Info

Publication number: KR20220118894A
Application number: KR1020210155582A
Authority: KR
Inventors: 박남인; 이정환; 이지우; 임성호; 나기현
Original assignee: 대한민국(관리부서: 행정안전부 국립과학수사연구원장)
Priority date: 2021-02-19
Filing date: 2021-11-12
Publication date: 2022-08-26

Abstract

본 발명은 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치에 대한 것이다.
본 발명에 따른 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법은 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함한다.
이와 같이 본 발명에 따르면, PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.

Description

손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치{Method for extracting audio signals from damaged digital video and apparatus thereof}

본 발명은 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치에 관한 것으로서, 더욱 상세하게는 메타데이터에 대한 정보 없이 비정상적으로 기록된 동영상으로부터 영상 및 오디오 신호를 추출 및 복원하는 오디오 신호 추출 방법 및 장치에 관한 것이다.

과학수사에서 디지털 데이터에 대한 증거물 확보가 매우 중요하다. 특히, 교통사고의 경우, 차량 내부에 설치된 블랙박스를 토대로 사고의 경위를 분석하는 경우가 많다. 하지만, 사고 충격으로 인해 사고 시점의 블랙박스 동영상은 정상적으로 종료되지 않아, 손상된 상태로 저장되는 경우가 있다.

현재 이러한 손상된 상태의 디지털 동영상에서 사고 장면을 추출하는 방법은 파일 시스템 기반의 복원 기술 및 영상 데이터 카빙 기반 방법 등과 같이 다양하게 존재한다.

특히, 영상 데이터 카빙 기반의 방법은 동영상 컨테이너의 데이터 영역에 영상 프레임마다 헤더 정보가 기록되기 때문에, 이러한 헤더 정보를 기반으로 카빙이 가능하다. 그러나 동영상에서 압축되지 않은 PCM 형식의 음성/오디오 신호는 음성/오디오 신호의 위치를 확인할 수 있는 특별한 시그니쳐 정보 없이 음성 데이터에 대한 비트스트림이 저장되어 있다.

즉, 정상적으로 기록된 동영상에서 음성/오디오 신호에 대한 추출/복원은 동영상 컨테이너에서 메타 정보 (음성/오디오 신호에 대한 오프셋 위치 정보)를 기반으로 음성/오디오 신호에 대한 추출이 가능하나, 영상 기록 중 사고로 인해 해당 메타정보가 기록되어 있지 않을 경우에는 오디오 신호에 대한 복원이 어려운 문제점이 있었다.

대한민국 등록특허공보 제10-0239495호(2000.01.15. 공고)

본 발명이 이루고자 하는 기술적 과제는 메타데이터에 대한 정보 없이 비정상적으로 기록된 동영상으로부터 영상 및 오디오 신호를 추출 및 복원하는 오디오 신호 추출 방법 및 장치를 제공하기 위한 것이다.

이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따른 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 있어서, 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함한다.

상기 "mdat"영역을 추출하는 단계는, 상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출할 수 있다.

상기 위치 정보를 추정하는 단계는, 상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하는 단계, 상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하는 단계, 그리고 상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 단계를 포함할 수 있다.

상기 주파수 축으로 변환된 오디오 신호(

)를 획득하는 단계는, 하기의 수학식을 이용하여 산출될 수 있다.

여기서,

는

의 n번째 오디오 신호를 나타내고,

는 윈도우 함수를 나타내며, R은 홉사이즈를 나타낸다.

상기 특정 주파수 영역의 에너지 합(

)을 획득하는 단계는, 하기의 수학식을 이용하여 산출될 수 있다.

여기서, L은 윈도우의 크기를 나타낸다.

상기 최종 에너지를 획득하는 단계는, 하기의 수학식을 이용하여 산출될 수 있다.

여기서,

는 스무딩된 에너지값을 나타낸다.

상기 위치 정보를 추정하는 단계는, 상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고, 상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정할 수 있다.

상기 오디오 신호를 복원하는 단계는, 하기의 수학식을 이용하여 오디오 신호를 복원할 수 있다.

여기서,

는 복원된 오디오 신호를 나타내고, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.

또한, 본 발명의 실시예에 따르면, 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 입력부, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 추출부, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 위치 추정부, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 복원부를 포함한다.

이와 같이 본 발명에 따르면, PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.

또한, 본 발명에 따르면, PCM 방식의 오디오 신호로 기록된 디지털 동영상에서 PCM의 채널 수, 비트 수에 따라 동일한 알고리즘으로 확장가능하며, 영상 신호와 오디오 신호가 혼재되어 존재하는 데이터 영역에서 오디오 신호의 시작 위치와 끝 위치에 대한 구분자가 존재하지 않는 경우에도 에너지 함수를 이용하여 오디오가 존재하는 영역을 분리 및 복원 할 수 있다.

도 1은 본 발명의 실시예에 따른 오디오 신호 추출 장치를 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 오디오 신호 추출 장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법을 설명하기 위한 순서도이다.
도 3은 MP4 파일 구조를 설명하기 위한 예시도이다.
도 4는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역의 구조를 설명하기 위한 도면이다.
도 5는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역을 설명하기 위한 예시도이다.
도 6은 MP4 파일을 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
도 7은 도 2에 도시된 S220단계에서 MP4 파일에서 첫 주소의 1바이트를 삭제하고 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.

이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.

또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 측정 대상자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하에서는 도 1을 이용하여 본 발명의 실시예에 따른 오디오 신호 추출장치(100)에 대해 더욱 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 오디오 신호 추출 장치를 설명하기 위한 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)는 입력부(110), 추출부(120), 위치 추정부(130) 및 복원부(140)를 포함한다.

먼저, 입력부(110)는 MP4 파일 형식으로 저장된 동영상을 입력받는다.

이때, 입력되는 동영상은 음성 및 오디오 신호를 압축하지 않은 PCM 형태로 구성된다.

그 다음, 추출부(120)는 입력된 동영상에 포함된 압축 데이터를 분석하여 "mdat"영역을 추출한다. "mdat"영역에는 실제 압축된 영상 및 오디오 비트스트림을 포함한다. 따라서, 본 발명의 실시예에서는 영상 및 오디오 비트스트림의 위치를 추정하기 위하여 "mdat"영역을 추출한다.

위치 추정부(130)는 MP4파일 전체를 오디오 신호로 가정하고 2바이트 단위로 신호를 분석한다. 위치 추정부(130)는 분석 결과에 따라 오디오 비트스트림 영역과 비 오디오 비트스트림 영역으로 분류한다. 이때, 비 오디오 비트스트림 영역에는 영상 비트스트림을 포함한다.

마지막으로 복원부(140)는 오디오 비트스트림으로부터 추정된 위치 정보를 기반으로 오디오 신호를 복원한다.

이하에서는 도 2 내지 도 7을 이용하여 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 대해 더욱 상세하게 설명한다.

도 2는 본 발명의 실시예에 따른 오디오 신호 추출 장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법을 설명하기 위한 순서도이다.

도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)는 MP4 파일 형식으로 저장된 동영상을 입력받는다(S210).

입력되는 동영상은 차량용 블랙박스에서 음성/오디오 신호를 압축되지 않은 PCM형태로 구성된다. 이때, 동영상의 데이터 영역에는 위치 정보가 기록데 메타 데이터를 포함하지 않는다.

따라서, 추출부(120)는 입력된 동영상을 분석하여 "mdat"영역을 추출한다(S220).

도 3은 MP4 파일 구조를 설명하기 위한 예시도이다.

도 3에 도시된 바와 같이, 정상적으로 저장된 MP4 파일에는 실제 압축된 영상 및 오디오 비트스트림이 저장되어 있는 “mdat”영역과, 해당 영상 및 오디오 비트스트림이 “mdat”영역에 어느 위치에 각각 기록되어 있는지에 대한 메타 정보가 기록되어 있는 “moov”영역을 포함한다. 따라서, 정상적인 MP4파일은 demuxer를 통해 영상과 오디오 비트스트림을 분리한 후, moov”영역을 분석하여 영상 및 오디오 비트스트림의 위치로 이동한 다음, 각각 해당 비스트림을 복호화해서 출력한다.

반면에, 블랙박스에서 사고 충격과 같이 비정상적인 종료 인해 불완전하게 기록된 MP4 파일에는 “moov”영역을 포함하지 않는다.

도 4는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역의 구조를 설명하기 위한 도면이고, 도 5는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역을 설명하기 위한 예시도이다.

도 4 및 도 5에 도시된 바와 같이, “mdat”영역은 “mdat”atom에 해당하는 0x6D646174 전의 4바이트가 “mdat”영역의 전체 크기를 나타낸다. 즉,“mdat”의 크기는 0x0026FF4B가 된다.

한편, 오디오 비트스트림은 영상 비트스트림과 달리 PCM형식으로 구성되므로, 비트스트림 자체가 오디오 신호를 의미한다. 일반적인 PCM 형식의 오디오 신호는 2바이트 단위로 구성하므로, 추출부(120)는 MP4 파일 전체를 오디오 신호로 가정한다.

다만, 영상 비트스트림의 단위는 1바이트이기 때문에, 영상 비트스트림이 끝나고 오디오 비트스트림이 시작되는 시점에는 2바이트로 나뉘어지지 않을 수도 있다.

따라서, 추출부(120)는 MP4 파일에서 첫 주소의 1바이트를 삭제하고, 나머지는 오디오 비트스트림 단위인 2바이트로 분석한다.

도 6은 MP4 파일을 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이고, 도 7은 도 2에 도시된 S220단계에서 MP4 파일에서 첫 주소의 1바이트를 삭제하고 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.

오디오 신호가 1바이트씩 시프트되었기 때문에, 도 6에 도시된 A 영역의 정상적인 오디오 신호가 도 7에 도시된 A’와 같이 변형이 발생한다. 반면에, 도 6에 도시된 B와 C영역에서 오디오 신호로 추정되는 구간에 대해서는 도 7에 도시된 B’와 C’에서 보는 바와 같이 정상적인 오디오 신호로 확인된다.

즉, 추출부(120)는 추출하고자 하는 “mdat”영역(

)을 하기의 수학식 1과 같이 정의한다.

여기서,

는 손상된 MP4 파일의 비트스트림을 나타내고,

는 “mdat”에 대한 바이트 단위의 시작 위치를 나타내고,

는 “mdat”에 대한 바이트 단위의 끝 위치를 나타낸다. 또한,

(i:j)는 i번째 바이트부터 j번째 바이트 위치까지의 비트스트림을 나타내고, K는 오디오 신호의 단위를 나타낸다.

S220단계가 완료되면, 위치 추정부(130)는 추출된 “mdat”영역(

)에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득한다(S230).

위치 추정부(130)는 하기의 수학식2을 이용하여 오디오 신호를 획득한다.

여기서,

는

의 n번째 오디오 신호를 나타내고,

는 윈도우 함수를 나타내며, R은 홉사이즈를 나타낸다. 본 발명의 실시예에서의 홉사이즈는 윈도우 크기의 1/2을 나타낸다.

즉, 위치 추정부(130)는 m번째 프레임에서 w번째 주파수를 축으로 변환된 오디오 신호(

)를 획득한다.

그 다음, 위치 추정부(130)는 변환된 오디오 신호를 이용하여 각 프레임에 대해 특정 주파수 영역의 에너지 합을 획득하고, 획득한 에너지 합을 이용하여 최종 에너지를 획득한다(S240).

부연하자면, 위치 추정부(130)는 하기의 수학식 3을 이용하여 에너지 합(

)을 획득한다.

여기서, L은 윈도우의 크기를 나타낸다.

즉, 위치 추정부(130)는 오디오 신호(

)에서 m번째 프레임의 에너지값을 획득한다.

그 다음, 위치 추정부(130)는 메디안 필터를 이용하여 획득한 에너지 값을 스무딩한 다음, 스무딩한 에너지(

)를 기반으로 최종 에너지를 획득한다.

최종 에너지는 하기의 수학식 4를 이용하여 획득한다.

S240단계가 완료되면, 위치 추정부(130)는 오디오 신호의 위치를 추정한다(S250).

이를 다시 설명하면, 위치 추정부(130)는 최종 에너지(

)에 대한 임계값을 설정한다. 그 다음, 위치 추정부(130)는 하기의 수학식 5에 기재된 조건에 따라 오디오 신호에 대한 위치를 추정한다.

여기서, θ는 임계값을 나타낸다. 본 발명에서는 임계값을 "0"으로 설정한다.

따라서, 프레임마다 추출된 최종 에너지 값이 0보다 작으면, 위치 추정부(130)는 비트스트림에서 오디오 신호가 존재하는 것으로 추정한다.

그 다음, 복원부(140)는 위치 정보를 이용하여 오디오 신호를 복원한다(S260).

부연하자면, 복원부(140)는 추정된 위치 정보와 추출된 “mdat”영역(

) 및 스무딩된 에너지값(

)을 이용하여 복원 대상 오디오 신호가 존재하는 구간을 결정한다. 그리고, 복원부(140)는 수학식 3 및 5를 이용하여 오디오 신호를 복원한다.

복원된 오디오 신호(

)는 하기의 수학식 6을 이용하여 나타낸다.

여기서, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.

그 다음, 복원부(140)는 복원된 오디오 신호에 대한 후처리를 수행한다(S270).

부연하자면, 복원된 오디오 신호(

)는 프레임단위로 비트스트림을 가져오기 때문에, 프레임의 시작 샘플과 끝 샘플에 오디오 신호가 아닌 노이즈에 해당하는 비트스트림이 섞여있을 수 있다. 이러한 노이즈성 비트스트림 정보는 복원된 신호에서 pop/click 노이즈로 나타날 수 있다. 따라서, 복원부(140)는 노이즈 제거를 후처리 과정으로 수행시켜 최종 신호를 획득한다.

이와 같이 본 발명에 따른 오디오 신호 추출 장치는 PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.

또한, 본 발명에 따른 오디오 신호 추출 장치는 PCM 방식의 오디오 신호로 기록된 디지털 동영상에서 PCM의 채널 수, 비트 수에 따라 동일한 알고리즘으로 확장가능하며, 영상 신호와 오디오 신호가 혼재되어 존재하는 데이터 영역에서 오디오 신호의 시작 위치와 끝 위치에 대한 구분자가 존재하지 않는 경우에도 에너지 함수를 이용하여 오디오가 존재하는 영역을 분리 및 복원 할 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

100 : 오디오 신호 추출 장치
110 : 입력부
120 : 추출부,
130 : 위치 추정부
140 : 복원부

Claims

오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 있어서,
사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계,
상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계,
상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고
상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함하는 오디오 신호 추출 방법.
제1항에 있어서,
상기 "mdat"영역을 추출하는 단계는,
상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출하는 오디오 신호 추출 방법.
제1항에 있어서,
상기 위치 정보를 추정하는 단계는,
상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하는 단계,
상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하는 단계, 그리고
상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 단계를 포함하는 오디오 신호 추출 방법.
제3항에 있어서,
상기 주파수 축으로 변환된 오디오 신호(
)를 획득하는 단계는,
하기의 수학식을 이용하여 산출되는 오디오 신호 추출 방법:

여기서,
는
의 n번째 오디오 신호를 나타내고,
는 윈도우 함수를 나타내며, R은 홉사이즈를 나타낸다.
제4항에 있어서,
상기 특정 주파수 영역의 에너지 합(
)을 획득하는 단계는,
하기의 수학식을 이용하여 산출되는 오디오 신호 추출 방법:

여기서, L은 윈도우의 크기를 나타낸다.
제5항에 있어서,
상기 최종 에너지를 획득하는 단계는,
하기의 수학식을 이용하여 산출되는 오디오 신호 추출 방법:

여기서,
는 스무딩된 에너지값을 나타낸다.
제1항에 있어서,
상기 위치 정보를 추정하는 단계는,
상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고,
상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정하는 오디오 신호 추출 방법.
제1항에 있어서,
상기 오디오 신호를 복원하는 단계는,
하기의 수학식을 이용하여 오디오 신호를 복원하는 오디오 신호 추출 방법:

여기서,
는 복원된 오디오 신호를 나타내고, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.
사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 입력부,
상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 추출부,
상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 위치 추정부, 그리고
상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 복원부를 포함하는 오디오 신호 추출 장치.
제9항에 있어서,
상기 추출부는,
상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출하는 오디오 신호 추출 장치.
제9항에 있어서,
상기 위치 추정부는,
상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하며,
상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 오디오 신호 추출 장치.
제11항에 있어서,
상기 위치 추정부는,
하기의 수학식을 이용하여 상기 주파수 축으로 변환된 오디오 신호(
)를 산출하는 오디오 신호 추출 장치:

여기서,
는
의
번째 오디오 신호를 나타내고,
는 윈도우 함수를 나타내며, R은 홉사이즈를 나타낸다.
제12항에 있어서,
상기 위치 추정부는,
하기의 수학식을 이용하여 상기 특정 주파수 영역의 에너지 합(
)을 산출하는 오디오 신호 추출 장치:

여기서, L은 윈도우의 크기를 나타낸다.
제13항에 있어서,
상기 위치 추정부는,
하기의 수학식을 이용하여 상기 최종 에너지를 산출하는 오디오 신호 추출 방법:

여기서,
는 스무딩된 에너지값을 나타낸다.
제9항에 있어서,
상기 위치 추정부는,
상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고,
상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정하는 오디오 신호 추출 장치.
제9항에 있어서,
상기 복원부는,
하기의 수학식을 이용하여 오디오 신호를 복원하는 오디오 신호 추출 장치:

여기서,
는 복원된 오디오 신호를 나타내고, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.