KR20220118894A - 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 - Google Patents
손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 Download PDFInfo
- Publication number
- KR20220118894A KR20220118894A KR1020210155582A KR20210155582A KR20220118894A KR 20220118894 A KR20220118894 A KR 20220118894A KR 1020210155582 A KR1020210155582 A KR 1020210155582A KR 20210155582 A KR20210155582 A KR 20210155582A KR 20220118894 A KR20220118894 A KR 20220118894A
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- bitstream
- audio
- video
- energy
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 136
- 238000000034 method Methods 0.000 title claims abstract description 28
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical group C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000012805 post-processing Methods 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011842 forensic investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
본 발명은 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치에 대한 것이다.
본 발명에 따른 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법은 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함한다.
이와 같이 본 발명에 따르면, PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.
본 발명에 따른 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법은 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함한다.
이와 같이 본 발명에 따르면, PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.
Description
본 발명은 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치에 관한 것으로서, 더욱 상세하게는 메타데이터에 대한 정보 없이 비정상적으로 기록된 동영상으로부터 영상 및 오디오 신호를 추출 및 복원하는 오디오 신호 추출 방법 및 장치에 관한 것이다.
과학수사에서 디지털 데이터에 대한 증거물 확보가 매우 중요하다. 특히, 교통사고의 경우, 차량 내부에 설치된 블랙박스를 토대로 사고의 경위를 분석하는 경우가 많다. 하지만, 사고 충격으로 인해 사고 시점의 블랙박스 동영상은 정상적으로 종료되지 않아, 손상된 상태로 저장되는 경우가 있다.
현재 이러한 손상된 상태의 디지털 동영상에서 사고 장면을 추출하는 방법은 파일 시스템 기반의 복원 기술 및 영상 데이터 카빙 기반 방법 등과 같이 다양하게 존재한다.
특히, 영상 데이터 카빙 기반의 방법은 동영상 컨테이너의 데이터 영역에 영상 프레임마다 헤더 정보가 기록되기 때문에, 이러한 헤더 정보를 기반으로 카빙이 가능하다. 그러나 동영상에서 압축되지 않은 PCM 형식의 음성/오디오 신호는 음성/오디오 신호의 위치를 확인할 수 있는 특별한 시그니쳐 정보 없이 음성 데이터에 대한 비트스트림이 저장되어 있다.
즉, 정상적으로 기록된 동영상에서 음성/오디오 신호에 대한 추출/복원은 동영상 컨테이너에서 메타 정보 (음성/오디오 신호에 대한 오프셋 위치 정보)를 기반으로 음성/오디오 신호에 대한 추출이 가능하나, 영상 기록 중 사고로 인해 해당 메타정보가 기록되어 있지 않을 경우에는 오디오 신호에 대한 복원이 어려운 문제점이 있었다.
본 발명이 이루고자 하는 기술적 과제는 메타데이터에 대한 정보 없이 비정상적으로 기록된 동영상으로부터 영상 및 오디오 신호를 추출 및 복원하는 오디오 신호 추출 방법 및 장치를 제공하기 위한 것이다.
이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따른 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 있어서, 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함한다.
상기 "mdat"영역을 추출하는 단계는, 상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출할 수 있다.
상기 위치 정보를 추정하는 단계는, 상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하는 단계, 상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하는 단계, 그리고 상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 단계를 포함할 수 있다.
여기서, L은 윈도우의 크기를 나타낸다.
상기 최종 에너지를 획득하는 단계는, 하기의 수학식을 이용하여 산출될 수 있다.
상기 위치 정보를 추정하는 단계는, 상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고, 상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정할 수 있다.
상기 오디오 신호를 복원하는 단계는, 하기의 수학식을 이용하여 오디오 신호를 복원할 수 있다.
또한, 본 발명의 실시예에 따르면, 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 입력부, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 추출부, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 위치 추정부, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 복원부를 포함한다.
이와 같이 본 발명에 따르면, PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.
또한, 본 발명에 따르면, PCM 방식의 오디오 신호로 기록된 디지털 동영상에서 PCM의 채널 수, 비트 수에 따라 동일한 알고리즘으로 확장가능하며, 영상 신호와 오디오 신호가 혼재되어 존재하는 데이터 영역에서 오디오 신호의 시작 위치와 끝 위치에 대한 구분자가 존재하지 않는 경우에도 에너지 함수를 이용하여 오디오가 존재하는 영역을 분리 및 복원 할 수 있다.
도 1은 본 발명의 실시예에 따른 오디오 신호 추출 장치를 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 오디오 신호 추출 장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법을 설명하기 위한 순서도이다.
도 3은 MP4 파일 구조를 설명하기 위한 예시도이다.
도 4는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역의 구조를 설명하기 위한 도면이다.
도 5는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역을 설명하기 위한 예시도이다.
도 6은 MP4 파일을 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
도 7은 도 2에 도시된 S220단계에서 MP4 파일에서 첫 주소의 1바이트를 삭제하고 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 오디오 신호 추출 장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법을 설명하기 위한 순서도이다.
도 3은 MP4 파일 구조를 설명하기 위한 예시도이다.
도 4는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역의 구조를 설명하기 위한 도면이다.
도 5는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역을 설명하기 위한 예시도이다.
도 6은 MP4 파일을 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
도 7은 도 2에 도시된 S220단계에서 MP4 파일에서 첫 주소의 1바이트를 삭제하고 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 측정 대상자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하에서는 도 1을 이용하여 본 발명의 실시예에 따른 오디오 신호 추출장치(100)에 대해 더욱 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 오디오 신호 추출 장치를 설명하기 위한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)는 입력부(110), 추출부(120), 위치 추정부(130) 및 복원부(140)를 포함한다.
먼저, 입력부(110)는 MP4 파일 형식으로 저장된 동영상을 입력받는다.
이때, 입력되는 동영상은 음성 및 오디오 신호를 압축하지 않은 PCM 형태로 구성된다.
그 다음, 추출부(120)는 입력된 동영상에 포함된 압축 데이터를 분석하여 "mdat"영역을 추출한다. "mdat"영역에는 실제 압축된 영상 및 오디오 비트스트림을 포함한다. 따라서, 본 발명의 실시예에서는 영상 및 오디오 비트스트림의 위치를 추정하기 위하여 "mdat"영역을 추출한다.
위치 추정부(130)는 MP4파일 전체를 오디오 신호로 가정하고 2바이트 단위로 신호를 분석한다. 위치 추정부(130)는 분석 결과에 따라 오디오 비트스트림 영역과 비 오디오 비트스트림 영역으로 분류한다. 이때, 비 오디오 비트스트림 영역에는 영상 비트스트림을 포함한다.
마지막으로 복원부(140)는 오디오 비트스트림으로부터 추정된 위치 정보를 기반으로 오디오 신호를 복원한다.
이하에서는 도 2 내지 도 7을 이용하여 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 대해 더욱 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 오디오 신호 추출 장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법을 설명하기 위한 순서도이다.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)는 MP4 파일 형식으로 저장된 동영상을 입력받는다(S210).
입력되는 동영상은 차량용 블랙박스에서 음성/오디오 신호를 압축되지 않은 PCM형태로 구성된다. 이때, 동영상의 데이터 영역에는 위치 정보가 기록데 메타 데이터를 포함하지 않는다.
따라서, 추출부(120)는 입력된 동영상을 분석하여 "mdat"영역을 추출한다(S220).
도 3은 MP4 파일 구조를 설명하기 위한 예시도이다.
도 3에 도시된 바와 같이, 정상적으로 저장된 MP4 파일에는 실제 압축된 영상 및 오디오 비트스트림이 저장되어 있는 “mdat”영역과, 해당 영상 및 오디오 비트스트림이 “mdat”영역에 어느 위치에 각각 기록되어 있는지에 대한 메타 정보가 기록되어 있는 “moov”영역을 포함한다. 따라서, 정상적인 MP4파일은 demuxer를 통해 영상과 오디오 비트스트림을 분리한 후, moov”영역을 분석하여 영상 및 오디오 비트스트림의 위치로 이동한 다음, 각각 해당 비스트림을 복호화해서 출력한다.
반면에, 블랙박스에서 사고 충격과 같이 비정상적인 종료 인해 불완전하게 기록된 MP4 파일에는 “moov”영역을 포함하지 않는다.
도 4는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역의 구조를 설명하기 위한 도면이고, 도 5는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역을 설명하기 위한 예시도이다.
도 4 및 도 5에 도시된 바와 같이, “mdat”영역은 “mdat”atom에 해당하는 0x6D646174 전의 4바이트가 “mdat”영역의 전체 크기를 나타낸다. 즉,“mdat”의 크기는 0x0026FF4B가 된다.
한편, 오디오 비트스트림은 영상 비트스트림과 달리 PCM형식으로 구성되므로, 비트스트림 자체가 오디오 신호를 의미한다. 일반적인 PCM 형식의 오디오 신호는 2바이트 단위로 구성하므로, 추출부(120)는 MP4 파일 전체를 오디오 신호로 가정한다.
다만, 영상 비트스트림의 단위는 1바이트이기 때문에, 영상 비트스트림이 끝나고 오디오 비트스트림이 시작되는 시점에는 2바이트로 나뉘어지지 않을 수도 있다.
따라서, 추출부(120)는 MP4 파일에서 첫 주소의 1바이트를 삭제하고, 나머지는 오디오 비트스트림 단위인 2바이트로 분석한다.
도 6은 MP4 파일을 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이고, 도 7은 도 2에 도시된 S220단계에서 MP4 파일에서 첫 주소의 1바이트를 삭제하고 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
오디오 신호가 1바이트씩 시프트되었기 때문에, 도 6에 도시된 A 영역의 정상적인 오디오 신호가 도 7에 도시된 A’와 같이 변형이 발생한다. 반면에, 도 6에 도시된 B와 C영역에서 오디오 신호로 추정되는 구간에 대해서는 도 7에 도시된 B’와 C’에서 보는 바와 같이 정상적인 오디오 신호로 확인된다.
여기서, 는 손상된 MP4 파일의 비트스트림을 나타내고, 는 “mdat”에 대한 바이트 단위의 시작 위치를 나타내고, 는 “mdat”에 대한 바이트 단위의 끝 위치를 나타낸다. 또한, (i:j)는 i번째 바이트부터 j번째 바이트 위치까지의 비트스트림을 나타내고, K는 오디오 신호의 단위를 나타낸다.
S220단계가 완료되면, 위치 추정부(130)는 추출된 “mdat”영역()에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득한다(S230).
위치 추정부(130)는 하기의 수학식2을 이용하여 오디오 신호를 획득한다.
그 다음, 위치 추정부(130)는 변환된 오디오 신호를 이용하여 각 프레임에 대해 특정 주파수 영역의 에너지 합을 획득하고, 획득한 에너지 합을 이용하여 최종 에너지를 획득한다(S240).
여기서, L은 윈도우의 크기를 나타낸다.
최종 에너지는 하기의 수학식 4를 이용하여 획득한다.
S240단계가 완료되면, 위치 추정부(130)는 오디오 신호의 위치를 추정한다(S250).
이를 다시 설명하면, 위치 추정부(130)는 최종 에너지()에 대한 임계값을 설정한다. 그 다음, 위치 추정부(130)는 하기의 수학식 5에 기재된 조건에 따라 오디오 신호에 대한 위치를 추정한다.
여기서, θ는 임계값을 나타낸다. 본 발명에서는 임계값을 "0"으로 설정한다.
따라서, 프레임마다 추출된 최종 에너지 값이 0보다 작으면, 위치 추정부(130)는 비트스트림에서 오디오 신호가 존재하는 것으로 추정한다.
그 다음, 복원부(140)는 위치 정보를 이용하여 오디오 신호를 복원한다(S260).
부연하자면, 복원부(140)는 추정된 위치 정보와 추출된 “mdat”영역() 및 스무딩된 에너지값()을 이용하여 복원 대상 오디오 신호가 존재하는 구간을 결정한다. 그리고, 복원부(140)는 수학식 3 및 5를 이용하여 오디오 신호를 복원한다.
여기서, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.
그 다음, 복원부(140)는 복원된 오디오 신호에 대한 후처리를 수행한다(S270).
부연하자면, 복원된 오디오 신호()는 프레임단위로 비트스트림을 가져오기 때문에, 프레임의 시작 샘플과 끝 샘플에 오디오 신호가 아닌 노이즈에 해당하는 비트스트림이 섞여있을 수 있다. 이러한 노이즈성 비트스트림 정보는 복원된 신호에서 pop/click 노이즈로 나타날 수 있다. 따라서, 복원부(140)는 노이즈 제거를 후처리 과정으로 수행시켜 최종 신호를 획득한다.
이와 같이 본 발명에 따른 오디오 신호 추출 장치는 PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.
또한, 본 발명에 따른 오디오 신호 추출 장치는 PCM 방식의 오디오 신호로 기록된 디지털 동영상에서 PCM의 채널 수, 비트 수에 따라 동일한 알고리즘으로 확장가능하며, 영상 신호와 오디오 신호가 혼재되어 존재하는 데이터 영역에서 오디오 신호의 시작 위치와 끝 위치에 대한 구분자가 존재하지 않는 경우에도 에너지 함수를 이용하여 오디오가 존재하는 영역을 분리 및 복원 할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100 : 오디오 신호 추출 장치
110 : 입력부
120 : 추출부,
130 : 위치 추정부
140 : 복원부
110 : 입력부
120 : 추출부,
130 : 위치 추정부
140 : 복원부
Claims (16)
- 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 있어서,
사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계,
상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계,
상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고
상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함하는 오디오 신호 추출 방법. - 제1항에 있어서,
상기 "mdat"영역을 추출하는 단계는,
상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출하는 오디오 신호 추출 방법. - 제1항에 있어서,
상기 위치 정보를 추정하는 단계는,
상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하는 단계,
상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하는 단계, 그리고
상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 단계를 포함하는 오디오 신호 추출 방법. - 제1항에 있어서,
상기 위치 정보를 추정하는 단계는,
상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고,
상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정하는 오디오 신호 추출 방법. - 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 입력부,
상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 추출부,
상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 위치 추정부, 그리고
상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 복원부를 포함하는 오디오 신호 추출 장치. - 제9항에 있어서,
상기 추출부는,
상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출하는 오디오 신호 추출 장치. - 제9항에 있어서,
상기 위치 추정부는,
상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하며,
상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 오디오 신호 추출 장치. - 제9항에 있어서,
상기 위치 추정부는,
상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고,
상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정하는 오디오 신호 추출 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210155582A KR20220118894A (ko) | 2021-02-19 | 2021-11-12 | 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210022749 | 2021-02-19 | ||
KR1020210155582A KR20220118894A (ko) | 2021-02-19 | 2021-11-12 | 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210022749 Division | 2021-02-19 | 2021-02-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220118894A true KR20220118894A (ko) | 2022-08-26 |
Family
ID=83113323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210155582A KR20220118894A (ko) | 2021-02-19 | 2021-11-12 | 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220118894A (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100239495B1 (ko) | 1996-03-20 | 2000-01-15 | 구자홍 | 손상된 비트스트림 데이터의 디코딩방법 |
-
2021
- 2021-11-12 KR KR1020210155582A patent/KR20220118894A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100239495B1 (ko) | 1996-03-20 | 2000-01-15 | 구자홍 | 손상된 비트스트림 데이터의 디코딩방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4495620A (en) | Transmitting data on the phase of speech | |
EP1814105B1 (en) | Audio processing | |
JP4478183B2 (ja) | 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム | |
NL1029619C2 (nl) | Werkwijze en inrichting voor het herstellen van een hoge frequentiecomponent van audiodata. | |
US8630536B2 (en) | Iterative, maximally probable, batch-mode commercial detection for audiovisual content | |
JP4560269B2 (ja) | 無音検出 | |
US20080275697A1 (en) | Audio Processing | |
JPH09146595A (ja) | 左側および右側自己回帰パラメータを使用しての信号の回復 | |
US6889183B1 (en) | Apparatus and method of regenerating a lost audio segment | |
US9131290B2 (en) | Audio coding device, audio coding method, and computer-readable recording medium storing audio coding computer program | |
US9767846B2 (en) | Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources | |
US20130266147A1 (en) | System and method for identification of highly-variable vocalizations | |
US7546467B2 (en) | Time domain watermarking of multimedia signals | |
JP3840928B2 (ja) | 信号処理装置および方法、記録媒体、並びにプログラム | |
KR102251833B1 (ko) | 오디오 신호의 부호화, 복호화 방법 및 장치 | |
US20080273707A1 (en) | Audio Processing | |
KR20220118894A (ko) | 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 | |
EP1695337B1 (en) | Method and apparatus for detecting a watermark in a signal | |
KR101261528B1 (ko) | 복호화된 오디오 신호의 오류 은폐 방법 및 장치 | |
US20040133420A1 (en) | Method of analysing a compressed signal for the presence or absence of information content | |
CN111540377A (zh) | 广播节目智能碎片化的系统 | |
Czyżewski et al. | Online sound restoration for digital library applications | |
KR102150639B1 (ko) | 디지털 데이터의 무결성을 검증할 수 있는 장치 및 디지털 데이터의 무결성을 검증할 수 있는 방법 | |
JP2003530027A (ja) | ビデオ信号分析及び蓄積 | |
JP2007049421A (ja) | 情報処理装置および方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |