KR20220118894A - 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 - Google Patents

손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 Download PDF

Info

Publication number
KR20220118894A
KR20220118894A KR1020210155582A KR20210155582A KR20220118894A KR 20220118894 A KR20220118894 A KR 20220118894A KR 1020210155582 A KR1020210155582 A KR 1020210155582A KR 20210155582 A KR20210155582 A KR 20210155582A KR 20220118894 A KR20220118894 A KR 20220118894A
Authority
KR
South Korea
Prior art keywords
audio signal
bitstream
audio
video
energy
Prior art date
Application number
KR1020210155582A
Other languages
English (en)
Inventor
박남인
이정환
이지우
임성호
나기현
Original Assignee
대한민국(관리부서: 행정안전부 국립과학수사연구원장)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국(관리부서: 행정안전부 국립과학수사연구원장) filed Critical 대한민국(관리부서: 행정안전부 국립과학수사연구원장)
Priority to KR1020210155582A priority Critical patent/KR20220118894A/ko
Publication of KR20220118894A publication Critical patent/KR20220118894A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

본 발명은 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치에 대한 것이다.
본 발명에 따른 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법은 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함한다.
이와 같이 본 발명에 따르면, PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.

Description

손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치{Method for extracting audio signals from damaged digital video and apparatus thereof}
본 발명은 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치에 관한 것으로서, 더욱 상세하게는 메타데이터에 대한 정보 없이 비정상적으로 기록된 동영상으로부터 영상 및 오디오 신호를 추출 및 복원하는 오디오 신호 추출 방법 및 장치에 관한 것이다.
과학수사에서 디지털 데이터에 대한 증거물 확보가 매우 중요하다. 특히, 교통사고의 경우, 차량 내부에 설치된 블랙박스를 토대로 사고의 경위를 분석하는 경우가 많다. 하지만, 사고 충격으로 인해 사고 시점의 블랙박스 동영상은 정상적으로 종료되지 않아, 손상된 상태로 저장되는 경우가 있다.
현재 이러한 손상된 상태의 디지털 동영상에서 사고 장면을 추출하는 방법은 파일 시스템 기반의 복원 기술 및 영상 데이터 카빙 기반 방법 등과 같이 다양하게 존재한다.
특히, 영상 데이터 카빙 기반의 방법은 동영상 컨테이너의 데이터 영역에 영상 프레임마다 헤더 정보가 기록되기 때문에, 이러한 헤더 정보를 기반으로 카빙이 가능하다. 그러나 동영상에서 압축되지 않은 PCM 형식의 음성/오디오 신호는 음성/오디오 신호의 위치를 확인할 수 있는 특별한 시그니쳐 정보 없이 음성 데이터에 대한 비트스트림이 저장되어 있다.
즉, 정상적으로 기록된 동영상에서 음성/오디오 신호에 대한 추출/복원은 동영상 컨테이너에서 메타 정보 (음성/오디오 신호에 대한 오프셋 위치 정보)를 기반으로 음성/오디오 신호에 대한 추출이 가능하나, 영상 기록 중 사고로 인해 해당 메타정보가 기록되어 있지 않을 경우에는 오디오 신호에 대한 복원이 어려운 문제점이 있었다.
대한민국 등록특허공보 제10-0239495호(2000.01.15. 공고)
본 발명이 이루고자 하는 기술적 과제는 메타데이터에 대한 정보 없이 비정상적으로 기록된 동영상으로부터 영상 및 오디오 신호를 추출 및 복원하는 오디오 신호 추출 방법 및 장치를 제공하기 위한 것이다.
이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따른 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 있어서, 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함한다.
상기 "mdat"영역을 추출하는 단계는, 상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출할 수 있다.
상기 위치 정보를 추정하는 단계는, 상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하는 단계, 상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하는 단계, 그리고 상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 단계를 포함할 수 있다.
상기 주파수 축으로 변환된 오디오 신호(
Figure pat00001
)를 획득하는 단계는, 하기의 수학식을 이용하여 산출될 수 있다.
Figure pat00002
여기서,
Figure pat00003
Figure pat00004
의 n번째 오디오 신호를 나타내고,
Figure pat00005
는 윈도우 함수를 나타내며, R은 홉사이즈를 나타낸다.
상기 특정 주파수 영역의 에너지 합(
Figure pat00006
)을 획득하는 단계는, 하기의 수학식을 이용하여 산출될 수 있다.
Figure pat00007
여기서, L은 윈도우의 크기를 나타낸다.
상기 최종 에너지를 획득하는 단계는, 하기의 수학식을 이용하여 산출될 수 있다.
Figure pat00008
여기서,
Figure pat00009
는 스무딩된 에너지값을 나타낸다.
상기 위치 정보를 추정하는 단계는, 상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고, 상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정할 수 있다.
상기 오디오 신호를 복원하는 단계는, 하기의 수학식을 이용하여 오디오 신호를 복원할 수 있다.
Figure pat00010
여기서,
Figure pat00011
는 복원된 오디오 신호를 나타내고, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.
또한, 본 발명의 실시예에 따르면, 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 입력부, 상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 추출부, 상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 위치 추정부, 그리고 상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 복원부를 포함한다.
이와 같이 본 발명에 따르면, PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.
또한, 본 발명에 따르면, PCM 방식의 오디오 신호로 기록된 디지털 동영상에서 PCM의 채널 수, 비트 수에 따라 동일한 알고리즘으로 확장가능하며, 영상 신호와 오디오 신호가 혼재되어 존재하는 데이터 영역에서 오디오 신호의 시작 위치와 끝 위치에 대한 구분자가 존재하지 않는 경우에도 에너지 함수를 이용하여 오디오가 존재하는 영역을 분리 및 복원 할 수 있다.
도 1은 본 발명의 실시예에 따른 오디오 신호 추출 장치를 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 오디오 신호 추출 장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법을 설명하기 위한 순서도이다.
도 3은 MP4 파일 구조를 설명하기 위한 예시도이다.
도 4는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역의 구조를 설명하기 위한 도면이다.
도 5는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역을 설명하기 위한 예시도이다.
도 6은 MP4 파일을 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
도 7은 도 2에 도시된 S220단계에서 MP4 파일에서 첫 주소의 1바이트를 삭제하고 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 측정 대상자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하에서는 도 1을 이용하여 본 발명의 실시예에 따른 오디오 신호 추출장치(100)에 대해 더욱 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 오디오 신호 추출 장치를 설명하기 위한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)는 입력부(110), 추출부(120), 위치 추정부(130) 및 복원부(140)를 포함한다.
먼저, 입력부(110)는 MP4 파일 형식으로 저장된 동영상을 입력받는다.
이때, 입력되는 동영상은 음성 및 오디오 신호를 압축하지 않은 PCM 형태로 구성된다.
그 다음, 추출부(120)는 입력된 동영상에 포함된 압축 데이터를 분석하여 "mdat"영역을 추출한다. "mdat"영역에는 실제 압축된 영상 및 오디오 비트스트림을 포함한다. 따라서, 본 발명의 실시예에서는 영상 및 오디오 비트스트림의 위치를 추정하기 위하여 "mdat"영역을 추출한다.
위치 추정부(130)는 MP4파일 전체를 오디오 신호로 가정하고 2바이트 단위로 신호를 분석한다. 위치 추정부(130)는 분석 결과에 따라 오디오 비트스트림 영역과 비 오디오 비트스트림 영역으로 분류한다. 이때, 비 오디오 비트스트림 영역에는 영상 비트스트림을 포함한다.
마지막으로 복원부(140)는 오디오 비트스트림으로부터 추정된 위치 정보를 기반으로 오디오 신호를 복원한다.
이하에서는 도 2 내지 도 7을 이용하여 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 대해 더욱 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 오디오 신호 추출 장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법을 설명하기 위한 순서도이다.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 오디오 신호 추출 장치(100)는 MP4 파일 형식으로 저장된 동영상을 입력받는다(S210).
입력되는 동영상은 차량용 블랙박스에서 음성/오디오 신호를 압축되지 않은 PCM형태로 구성된다. 이때, 동영상의 데이터 영역에는 위치 정보가 기록데 메타 데이터를 포함하지 않는다.
따라서, 추출부(120)는 입력된 동영상을 분석하여 "mdat"영역을 추출한다(S220).
도 3은 MP4 파일 구조를 설명하기 위한 예시도이다.
도 3에 도시된 바와 같이, 정상적으로 저장된 MP4 파일에는 실제 압축된 영상 및 오디오 비트스트림이 저장되어 있는 “mdat”영역과, 해당 영상 및 오디오 비트스트림이 “mdat”영역에 어느 위치에 각각 기록되어 있는지에 대한 메타 정보가 기록되어 있는 “moov”영역을 포함한다. 따라서, 정상적인 MP4파일은 demuxer를 통해 영상과 오디오 비트스트림을 분리한 후, moov”영역을 분석하여 영상 및 오디오 비트스트림의 위치로 이동한 다음, 각각 해당 비스트림을 복호화해서 출력한다.
반면에, 블랙박스에서 사고 충격과 같이 비정상적인 종료 인해 불완전하게 기록된 MP4 파일에는 “moov”영역을 포함하지 않는다.
도 4는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역의 구조를 설명하기 위한 도면이고, 도 5는 도 2에 도시된 S220 단계에서 추출된 “mdat”영역을 설명하기 위한 예시도이다.
도 4 및 도 5에 도시된 바와 같이, “mdat”영역은 “mdat”atom에 해당하는 0x6D646174 전의 4바이트가 “mdat”영역의 전체 크기를 나타낸다. 즉,“mdat”의 크기는 0x0026FF4B가 된다.
한편, 오디오 비트스트림은 영상 비트스트림과 달리 PCM형식으로 구성되므로, 비트스트림 자체가 오디오 신호를 의미한다. 일반적인 PCM 형식의 오디오 신호는 2바이트 단위로 구성하므로, 추출부(120)는 MP4 파일 전체를 오디오 신호로 가정한다.
다만, 영상 비트스트림의 단위는 1바이트이기 때문에, 영상 비트스트림이 끝나고 오디오 비트스트림이 시작되는 시점에는 2바이트로 나뉘어지지 않을 수도 있다.
따라서, 추출부(120)는 MP4 파일에서 첫 주소의 1바이트를 삭제하고, 나머지는 오디오 비트스트림 단위인 2바이트로 분석한다.
도 6은 MP4 파일을 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이고, 도 7은 도 2에 도시된 S220단계에서 MP4 파일에서 첫 주소의 1바이트를 삭제하고 2바이트씩 읽었을 때의 오디오 파형 및 스펙트로그램을 나타내는 도면이다.
오디오 신호가 1바이트씩 시프트되었기 때문에, 도 6에 도시된 A 영역의 정상적인 오디오 신호가 도 7에 도시된 A’와 같이 변형이 발생한다. 반면에, 도 6에 도시된 B와 C영역에서 오디오 신호로 추정되는 구간에 대해서는 도 7에 도시된 B’와 C’에서 보는 바와 같이 정상적인 오디오 신호로 확인된다.
즉, 추출부(120)는 추출하고자 하는 “mdat”영역(
Figure pat00012
)을 하기의 수학식 1과 같이 정의한다.
Figure pat00013
여기서,
Figure pat00014
는 손상된 MP4 파일의 비트스트림을 나타내고,
Figure pat00015
는 “mdat”에 대한 바이트 단위의 시작 위치를 나타내고,
Figure pat00016
는 “mdat”에 대한 바이트 단위의 끝 위치를 나타낸다. 또한,
Figure pat00017
(i:j)는 i번째 바이트부터 j번째 바이트 위치까지의 비트스트림을 나타내고, K는 오디오 신호의 단위를 나타낸다.
S220단계가 완료되면, 위치 추정부(130)는 추출된 “mdat”영역(
Figure pat00018
)에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득한다(S230).
위치 추정부(130)는 하기의 수학식2을 이용하여 오디오 신호를 획득한다.
Figure pat00019
여기서,
Figure pat00020
Figure pat00021
의 n번째 오디오 신호를 나타내고,
Figure pat00022
는 윈도우 함수를 나타내며, R은 홉사이즈를 나타낸다. 본 발명의 실시예에서의 홉사이즈는 윈도우 크기의 1/2을 나타낸다.
즉, 위치 추정부(130)는 m번째 프레임에서 w번째 주파수를 축으로 변환된 오디오 신호(
Figure pat00023
)를 획득한다.
그 다음, 위치 추정부(130)는 변환된 오디오 신호를 이용하여 각 프레임에 대해 특정 주파수 영역의 에너지 합을 획득하고, 획득한 에너지 합을 이용하여 최종 에너지를 획득한다(S240).
부연하자면, 위치 추정부(130)는 하기의 수학식 3을 이용하여 에너지 합(
Figure pat00024
)을 획득한다.
Figure pat00025
여기서, L은 윈도우의 크기를 나타낸다.
즉, 위치 추정부(130)는 오디오 신호(
Figure pat00026
)에서 m번째 프레임의 에너지값을 획득한다.
그 다음, 위치 추정부(130)는 메디안 필터를 이용하여 획득한 에너지 값을 스무딩한 다음, 스무딩한 에너지(
Figure pat00027
)를 기반으로 최종 에너지를 획득한다.
최종 에너지는 하기의 수학식 4를 이용하여 획득한다.
Figure pat00028
S240단계가 완료되면, 위치 추정부(130)는 오디오 신호의 위치를 추정한다(S250).
이를 다시 설명하면, 위치 추정부(130)는 최종 에너지(
Figure pat00029
)에 대한 임계값을 설정한다. 그 다음, 위치 추정부(130)는 하기의 수학식 5에 기재된 조건에 따라 오디오 신호에 대한 위치를 추정한다.
Figure pat00030
여기서, θ는 임계값을 나타낸다. 본 발명에서는 임계값을 "0"으로 설정한다.
따라서, 프레임마다 추출된 최종 에너지 값이 0보다 작으면, 위치 추정부(130)는 비트스트림에서 오디오 신호가 존재하는 것으로 추정한다.
그 다음, 복원부(140)는 위치 정보를 이용하여 오디오 신호를 복원한다(S260).
부연하자면, 복원부(140)는 추정된 위치 정보와 추출된 “mdat”영역(
Figure pat00031
) 및 스무딩된 에너지값(
Figure pat00032
)을 이용하여 복원 대상 오디오 신호가 존재하는 구간을 결정한다. 그리고, 복원부(140)는 수학식 3 및 5를 이용하여 오디오 신호를 복원한다.
복원된 오디오 신호(
Figure pat00033
)는 하기의 수학식 6을 이용하여 나타낸다.
Figure pat00034
여기서, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.
그 다음, 복원부(140)는 복원된 오디오 신호에 대한 후처리를 수행한다(S270).
부연하자면, 복원된 오디오 신호(
Figure pat00035
)는 프레임단위로 비트스트림을 가져오기 때문에, 프레임의 시작 샘플과 끝 샘플에 오디오 신호가 아닌 노이즈에 해당하는 비트스트림이 섞여있을 수 있다. 이러한 노이즈성 비트스트림 정보는 복원된 신호에서 pop/click 노이즈로 나타날 수 있다. 따라서, 복원부(140)는 노이즈 제거를 후처리 과정으로 수행시켜 최종 신호를 획득한다.
이와 같이 본 발명에 따른 오디오 신호 추출 장치는 PCM 방식의 오디오 신호를 이용하여 복원을 수행하므로 기존에 사용되는 오디오 분석 틀을 이용하여 오디오 신호의 카빙이 가능하고, 구현이 비교적 단순하며 계산 복잡도가 낮은 효과를 도모할 수 있다.
또한, 본 발명에 따른 오디오 신호 추출 장치는 PCM 방식의 오디오 신호로 기록된 디지털 동영상에서 PCM의 채널 수, 비트 수에 따라 동일한 알고리즘으로 확장가능하며, 영상 신호와 오디오 신호가 혼재되어 존재하는 데이터 영역에서 오디오 신호의 시작 위치와 끝 위치에 대한 구분자가 존재하지 않는 경우에도 에너지 함수를 이용하여 오디오가 존재하는 영역을 분리 및 복원 할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100 : 오디오 신호 추출 장치
110 : 입력부
120 : 추출부,
130 : 위치 추정부
140 : 복원부

Claims (16)

  1. 오디오 신호 추출장치를 이용한 손상된 디지털 동영상에서의 오디오 신호 추출 방법에 있어서,
    사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 단계,
    상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 단계,
    상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 단계, 그리고
    상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 단계를 포함하는 오디오 신호 추출 방법.
  2. 제1항에 있어서,
    상기 "mdat"영역을 추출하는 단계는,
    상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출하는 오디오 신호 추출 방법.
  3. 제1항에 있어서,
    상기 위치 정보를 추정하는 단계는,
    상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하는 단계,
    상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하는 단계, 그리고
    상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 단계를 포함하는 오디오 신호 추출 방법.
  4. 제3항에 있어서,
    상기 주파수 축으로 변환된 오디오 신호(
    Figure pat00036
    )를 획득하는 단계는,
    하기의 수학식을 이용하여 산출되는 오디오 신호 추출 방법:
    Figure pat00037

    여기서,
    Figure pat00038
    Figure pat00039
    의 n번째 오디오 신호를 나타내고,
    Figure pat00040
    는 윈도우 함수를 나타내며, R은 홉사이즈를 나타낸다.
  5. 제4항에 있어서,
    상기 특정 주파수 영역의 에너지 합(
    Figure pat00041
    )을 획득하는 단계는,
    하기의 수학식을 이용하여 산출되는 오디오 신호 추출 방법:
    Figure pat00042

    여기서, L은 윈도우의 크기를 나타낸다.
  6. 제5항에 있어서,
    상기 최종 에너지를 획득하는 단계는,
    하기의 수학식을 이용하여 산출되는 오디오 신호 추출 방법:
    Figure pat00043

    여기서,
    Figure pat00044
    는 스무딩된 에너지값을 나타낸다.
  7. 제1항에 있어서,
    상기 위치 정보를 추정하는 단계는,
    상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고,
    상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정하는 오디오 신호 추출 방법.
  8. 제1항에 있어서,
    상기 오디오 신호를 복원하는 단계는,
    하기의 수학식을 이용하여 오디오 신호를 복원하는 오디오 신호 추출 방법:
    Figure pat00045

    여기서,
    Figure pat00046
    는 복원된 오디오 신호를 나타내고, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.
  9. 사용자로부터 MP4 파일 형식으로 저장된 동영상을 입력받는 입력부,
    상기 동영상에 포함된 압축 데이터를 분석하여, 영상 및 오디오 비트스트림(bitstream)이 저장되어 있는 "mdat"영역을 추출하는 추출부,
    상기 "mdat"영역에 포함된 비트스트림에 단시간 푸리에 변환(Short-Time Fourier Transform)을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 획득한 오디오 신호를 이용하여 위치 정보를 추정하는 위치 추정부, 그리고
    상기 위치 정보를 이용하여 복원 대상이 되는 오디오 신호가 존재하는 구간을 결정하고, 결정된 오디오 신호를 복원하는 복원부를 포함하는 오디오 신호 추출 장치.
  10. 제9항에 있어서,
    상기 추출부는,
    상기 MP4 파일의 동영상에서 첫 주소의 1바이트를 삭제하고, 2바이트 단위로 PCM형식의 비트스트림을 분류하여, 오디오 비트스트림 영역을 추출하는 오디오 신호 추출 장치.
  11. 제9항에 있어서,
    상기 위치 추정부는,
    상기 오디오 비트스트림에 단시간 푸리에 변환을 수행하여 주파수 축으로 변환된 오디오 신호를 획득하고, 상기 주파수 축으로 변환된 오디오 신호를 이용하여 각 프레임에 대한 특정 주파수 영역의 에너지 합을 획득하며,
    상기 에너지 합을 스무딩시킨 다음, 스무딩된 에너지를 기반으로 최종 에너지를 획득하는 오디오 신호 추출 장치.
  12. 제11항에 있어서,
    상기 위치 추정부는,
    하기의 수학식을 이용하여 상기 주파수 축으로 변환된 오디오 신호(
    Figure pat00047
    )를 산출하는 오디오 신호 추출 장치:
    Figure pat00048

    여기서,
    Figure pat00049
    Figure pat00050
    Figure pat00051
    번째 오디오 신호를 나타내고,
    Figure pat00052
    는 윈도우 함수를 나타내며, R은 홉사이즈를 나타낸다.
  13. 제12항에 있어서,
    상기 위치 추정부는,
    하기의 수학식을 이용하여 상기 특정 주파수 영역의 에너지 합(
    Figure pat00053
    )을 산출하는 오디오 신호 추출 장치:
    Figure pat00054

    여기서, L은 윈도우의 크기를 나타낸다.
  14. 제13항에 있어서,
    상기 위치 추정부는,
    하기의 수학식을 이용하여 상기 최종 에너지를 산출하는 오디오 신호 추출 방법:
    Figure pat00055

    여기서,
    Figure pat00056
    는 스무딩된 에너지값을 나타낸다.
  15. 제9항에 있어서,
    상기 위치 추정부는,
    상기 에너지의 합이 기 설정된 임계값보다 작으면, 상기 비트스트림에서 오디오 신호가 존재하는 것으로 추정하고,
    상기 에너지의 합이 기 설정된 임계값보다 같거나 크면, 상기 비트스트림에 오디오 신호가 존재하지 않는 것으로 추정하는 오디오 신호 추출 장치.
  16. 제9항에 있어서,
    상기 복원부는,
    하기의 수학식을 이용하여 오디오 신호를 복원하는 오디오 신호 추출 장치:
    Figure pat00057

    여기서,
    Figure pat00058
    는 복원된 오디오 신호를 나타내고, i의 초기값은 0이며, 상기 비트스트림에 오디오 신호가 존재하면 상기 i값을 1씩 증가시킨다.
KR1020210155582A 2021-02-19 2021-11-12 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치 KR20220118894A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210155582A KR20220118894A (ko) 2021-02-19 2021-11-12 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210022749 2021-02-19
KR1020210155582A KR20220118894A (ko) 2021-02-19 2021-11-12 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020210022749 Division 2021-02-19 2021-02-19

Publications (1)

Publication Number Publication Date
KR20220118894A true KR20220118894A (ko) 2022-08-26

Family

ID=83113323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210155582A KR20220118894A (ko) 2021-02-19 2021-11-12 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20220118894A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100239495B1 (ko) 1996-03-20 2000-01-15 구자홍 손상된 비트스트림 데이터의 디코딩방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100239495B1 (ko) 1996-03-20 2000-01-15 구자홍 손상된 비트스트림 데이터의 디코딩방법

Similar Documents

Publication Publication Date Title
US4495620A (en) Transmitting data on the phase of speech
EP1814105B1 (en) Audio processing
JP4478183B2 (ja) 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム
NL1029619C2 (nl) Werkwijze en inrichting voor het herstellen van een hoge frequentiecomponent van audiodata.
JP4560269B2 (ja) 無音検出
US8724967B2 (en) Iterative, maximally probable, batch-mode commercial detection for audiovisual content
WO2007049056A1 (en) Audio processing
JP2013541023A (ja) 試験音声信号の雑音を除去する結果として試験雑音除去音声信号内で減衰したスペクトル成分を復元するための方法
JPH09146595A (ja) 左側および右側自己回帰パラメータを使用しての信号の回復
US6889183B1 (en) Apparatus and method of regenerating a lost audio segment
US9131290B2 (en) Audio coding device, audio coding method, and computer-readable recording medium storing audio coding computer program
US9767846B2 (en) Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources
US20130266147A1 (en) System and method for identification of highly-variable vocalizations
US7546467B2 (en) Time domain watermarking of multimedia signals
JP3840928B2 (ja) 信号処理装置および方法、記録媒体、並びにプログラム
KR102251833B1 (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
US20080273707A1 (en) Audio Processing
KR20220118894A (ko) 손상된 디지털 동영상에서 오디오 신호 추출 방법 및 장치
US20050147248A1 (en) Window shaping functions for watermarking of multimedia signals
EP1695337B1 (en) Method and apparatus for detecting a watermark in a signal
KR101261528B1 (ko) 복호화된 오디오 신호의 오류 은폐 방법 및 장치
US20040133420A1 (en) Method of analysing a compressed signal for the presence or absence of information content
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
CN111540377A (zh) 广播节目智能碎片化的系统
Czyżewski et al. Online sound restoration for digital library applications

Legal Events

Date Code Title Description
E902 Notification of reason for refusal