KR101755238B1 - 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법 - Google Patents

손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법 Download PDF

Info

Publication number
KR101755238B1
KR101755238B1 KR1020160160517A KR20160160517A KR101755238B1 KR 101755238 B1 KR101755238 B1 KR 101755238B1 KR 1020160160517 A KR1020160160517 A KR 1020160160517A KR 20160160517 A KR20160160517 A KR 20160160517A KR 101755238 B1 KR101755238 B1 KR 101755238B1
Authority
KR
South Korea
Prior art keywords
file
voice
damaged
restored
files
Prior art date
Application number
KR1020160160517A
Other languages
English (en)
Inventor
허희수
소병민
양일호
유하진
Original Assignee
대한민국
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국 filed Critical 대한민국
Priority to KR1020160160517A priority Critical patent/KR101755238B1/ko
Application granted granted Critical
Publication of KR101755238B1 publication Critical patent/KR101755238B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법에 관한 것이다. 본 발명에 따르면, 손상된 멀티미디어 파일 내 음성을 복원하는 방법에 있어서, 상기 손상된 멀티미디어 파일에서 음성파일 부분을 추출하는 단계와, 상기 음성파일에 서로 다른 복수의 헤더를 각각 삽입하여 복수의 복원파일을 생성하는 단계와, 상기 복원파일로부터 주파수 특성에 대한 특징정보를 추출하는 단계와, 상기 추출한 특징정보를 기 학습된 신경망에 입력시킨 후에, 상기 복원파일이 음성 신호 및 비음성 신호와 유사한 정도를 나타내는 제1 및 제2 클래스 점수를 각각 획득하는 단계와, 상기 제1 및 제2 클래스 점수를 기초로 상기 복수의 복원파일 중 상기 음성 신호와 유사도 높은 상위 N개의 후보군을 선정하는 단계, 및 상기 선정한 N개의 후보군에 해당하는 복원파일 각각에 대한 스펙트로그램 결과를 시각화하여 제공하는 단계를 포함하는 손상된 멀티미디어 파일의 음성 복원 방법을 제공한다.
본 발명에 의하면, 손상된 멀티미디어 파일 내에 포함된 음성파일을 복원하는 과정에서 사용자가 복원된 음성파일을 전부 청취하지 않고도 정상적으로 복원된 음성파일을 빠르고 용이하게 탐색할 수 있도록 함으로써 손상된 음성파일을 복원하는데 걸리는 시간과 비용을 절감할 수 있는 이점이 있다.

Description

손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법{Apparatus for restoring speech of damaged multimedia file and method thereof}
본 발명은 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 손상된 멀티미디어 파일 내에 포함되어 있는 음성파일을 빠르고 용이하게 복원할 수 있는 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법에 관한 것이다.
컴퓨터 법의학이라 불리는 디지털 포렌식은 삭제되거나 손상된 디지털 파일을 복원하여 증거자료로 활용한다. 사람의 음성이 녹음된 음성파일도 디지털 포렌식의 대상이 되며, 복원된 음성파일은 동일인 여부를 감정하고, 용의자의 신원을 추정하는 등 중요한 수사 및 증거 자료로 활용될 수 있다.
멀티미디어 파일은 두 개 이상의 미디어 정보를 함께 저장하고 있는 파일을 의미한다. 여기서 미디어 정보란 영상(video), 음성(audio), 이미지, 텍스트 등을 의미할 수 있다. 멀티미디어 파일로 대표적인 것은 블랙박스, 스마트폰, 카메라 등을 통하여 획득한 동영상 파일을 들 수 있다.
도 1은 멀티미디어 파일의 포맷 중 하나인 AVI 파일의 구조를 나타낸 도면이다. AVI 파일은 크게 헤더(Header), 바디(Body) 및 인덱스(Index)를 포함한 3가지 컨테이너(Container)로 구성된다. 이러한 도 1은 영상(video)과 음성(audio)을 함께 저장한 멀티미디어 파일 형태를 예시한 것을 알 수 있다.
각각의 컨테이너를 설명하면 다음과 같다. 우선, 헤더는 멀티미디어 파일에 포함된 영상의 크기(가로, 세로), 프레임 레이트(frame rate) 등의 정보가 저장된다. 바디는 각각의 미디어 정보(영상, 음성)들이 부호화(encoding, 압축)된 상태로 저장된다. 인덱스는 각 미디어(영상, 음성)에 접근할 때 필요한 인덱스 정보들이 포함되어 있다.
만일, 이러한 AVI 파일에서 헤더 컨테이너 또는 인덱스 컨테이너가 손상되어 정보가 손실될 경우, 바디 컨테이너 내에 온전한 미디어 정보가 저장되어 있다 하더라도 멀티미디어 파일이 제대로 재생되지 않을 수 있다. 하지만 바디 컨테이너에 포함되어 있는 음성(audio) 데이터 부분을 식별할 수 있는 기술이 있다면 손상된 멀티미디어 파일 내에서 음성 데이터 부분을 복원하는 것이 가능할 수 있을 것이다.
일반적인 음성파일은 크게 실제 음성 신호가 부호화되어 저장된 바디(body) 부분과 부호화된 신호를 복호화(decoding) 할 때 필요한 정보를 저장하고 있는 헤더(header) 부분으로 나누어진다.
음성파일의 헤더에는 양자화 지수, 표본 주파수 혹은 압축 기법과 관련된 정보들이 저장되어 있기 때문에, 음성파일을 정상적으로 재생하기 위해서는 헤더 정보가 반드시 필요하다. 악의적인 목적 혹은 메모리 부족 등의 문제로 파일이 삭제된 뒤에 덮어쓰기가 발생한 경우, 음성파일의 헤더 부분이 손상되어 재생이 불가능해 질 수 있다. 손상된 음성파일(헤더가 손상된 음성파일)은 헤더 정보를 유추해내어 다시 재생 가능하도록 만드는 음성 복원 과정이 필요하다.
음성파일의 헤더가 손상된 경우 해당 음성파일은 재생할 수 없으므로, 재생을 가능하게 하기 위해서는 강제적으로 헤더를 삽입하여 복원파일을 만들어야 한다. 즉 헤더가 손상된 음성파일에 채널 수, 샘플링 레이트, 샘플링 비트 수를 임의로 지정한 헤더를 강제로 삽입하여 음성파일을 복원한다.
강제로 삽입한 헤더가 원본 음성파일의 헤더와 일치할 경우, 복원한 음성파일은 원본과 동일하게 재생될 수 있다. 그러나 손상된 음성파일에 원래 음성 파일의 헤더가 아닌 다른 헤더 정보를 삽입하여 복원할 경우 복원한 음성파일이 제대로 재생되지 않는다.
올바른 헤더가 삽입되어 정상적으로 복원된 음성파일을 검출하기 위해서는 헤더를 경우의 수만큼 여러 개로 생성하고, 손상된 음성파일에 각 경우의 헤더를 삽입하여 복수의 복원파일을 만들어야 한다. 그리고 복수의 복원파일을 각각 재생하여 사용자가 직접 복원파일을 일일이 청취하는 과정을 통하여, 정상적으로 복원된 파일을 사용자의 청각에 의존하여 검출해야 한다.
헤더의 채널 수는 스테레오와 모노로 나뉘고, 샘플링레이트와 비트레이트의 종류도 다양하다. 다양한 경우의 수로 생성한 헤더는 종류도 매우 다양하다.
하지만 상술한 음성파일 복원 기법의 경우 모든 경우의 수에 해당하는 헤더를 삽입하여 복수의 음성파일을 복원한 다음, 복수의 복원된 음성파일을 사람이 모두 직접 청취하면서 판단해야 하므로 정상적으로 복원된 음성파일을 검출해내기까지 많은 시간과 비용이 소요되며, 현실적으로 제한된 시간 안에 복원하는 것이 불가능한 문제점이 있다.
본 발명의 배경이 되는 기술은 한국등록특허 제10-1465061호(2014.11.28 공고)에 개시되어 있다.
본 발명은, 손상된 멀티미디어 파일 내에 포함된 음성파일을 복원하는 과정에서 사용자가 복원된 음성파일을 전부 청취하지 않고도 정상적으로 복원된 음성파일을 용이하게 찾을 수 있도록 함으로써 손상된 음성파일을 복원하는데 걸리는 시간과 비용을 절감할 수 있는 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법을 제공하는데 목적이 있다.
본 발명은, 손상된 멀티미디어 파일 내 음성을 복원하는 방법에 있어서, 상기 손상된 멀티미디어 파일에서 음성파일 부분을 추출하는 단계와, 상기 음성파일에 서로 다른 복수의 헤더를 각각 삽입하여 복수의 복원파일을 생성하는 단계와, 상기 복원파일로부터 주파수 특성에 대한 특징정보를 추출하는 단계와, 상기 추출한 특징정보를 기 학습된 신경망에 입력시킨 후에, 상기 복원파일이 음성 신호 및 비음성 신호와 유사한 정도를 나타내는 제1 및 제2 클래스 점수를 각각 획득하는 단계와, 상기 제1 및 제2 클래스 점수를 기초로 상기 복수의 복원파일 중 상기 음성 신호와 유사도 높은 상위 N개의 후보군을 선정하는 단계, 및 상기 선정한 N개의 후보군에 해당하는 복원파일 각각에 대한 스펙트로그램 결과를 시각화하여 제공하는 단계를 포함하는 손상된 멀티미디어 파일의 음성 복원 방법을 제공한다.
또한, 상기 상위 N개의 후보군을 선정하는 단계는, 상기 제2 클래스 점수에 대비한 상기 제1 클래스 점수의 비율을 연산한 다음, 상기 비율이 높은 순으로 상기 복원파일을 정렬한 후에 상기 상위 N개의 후보군을 선정할 수 있다.
또한, 상기 상위 N개의 후보군을 선정하는 단계는, 상기 제1 클래스 점수로부터 상기 제2 클래스 점수를 차감한 점수를 연산한 다음, 상기 차감한 점수가 높은 순으로 상기 복원파일을 정렬한 후에 상기 상위 N개의 후보군을 선정할 수 있다.
또한, 상기 스펙트로그램 결과를 시각화하여 제공하는 단계는, 상기 N개의 후보군 각각에 대하여, 시간에 따른 음성 신호 크기 변화를 나타낸 파형 이미지와, 시간 및 주파수에 따른 음성 신호 크기 변화를 나타낸 상기 스펙트로그램 결과 이미지를 출력할 수 있다.
또한, 상기 음성 복원 방법은, 상기 시각화하여 제공한 이후에 사용자로부터 상기 N개의 후보군 중 하나를 최종적으로 선택받는 단계를 더 포함할 수 있다.
그리고, 본 발명은, 손상된 멀티미디어 파일 내 음성을 복원하는 장치에 있어서, 상기 손상된 멀티미디어 파일에서 음성파일 부분을 추출하는 음성파일 추출부와, 상기 음성파일에 서로 다른 복수의 헤더를 각각 삽입하여 복수의 복원파일을 생성하는 복원파일 생성부와, 상기 복원파일로부터 주파수 특성에 대한 특징정보를 추출하는 특징 추출부와, 상기 추출한 특징정보를 기 학습된 신경망에 입력시킨 후에, 상기 복원파일이 음성 신호 및 비음성 신호와 유사한 정도를 나타내는 제1 및 제2 클래스 점수를 각각 획득하는 제어부와, 상기 제1 및 제2 클래스 점수를 기초로 상기 복수의 복원파일 중 상기 음성 신호와 유사도 높은 상위 N개의 후보군을 선정하는 후보 선정부, 및 상기 선정한 N개의 후보군에 해당하는 복원파일 각각에 대한 스펙트로그램 결과를 시각화하여 제공하는 이미지 제공부를 포함하는 손상된 멀티미디어 파일의 음성 복원 장치를 제공한다.
또한, 상기 음성 복원 장치는, 상기 시각화 제공 이후에 사용자로부터 상기 N개의 후보군 중 하나를 최종적으로 선택받는 선택부를 더 포함할 수 있다.
본 발명에 따른 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법에 따르면, 손상된 멀티미디어 파일 내에 포함된 음성파일을 복원하는 과정에서 사용자가 복원된 음성파일을 전부 청취하지 않고도 정상적으로 복원된 음성파일을 빠르고 용이하게 탐색할 수 있도록 함으로써 손상된 음성파일을 복원하는데 걸리는 시간과 비용을 절감할 수 있는 이점이 있다.
도 1은 멀티미디어 파일의 포맷 중 하나인 AVI 파일의 구조를 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 손상된 멀티미디어 파일의 음성 복원 장치의 구성을 나타낸 도면이다.
도 3은 도 1에 도시된 음성 복원 장치를 이용한 음성 복원 방법을 나타낸 도면이다.
도 4는 본 발명의 실시예에서 사용되는 신경망 구조를 예시한 도면이다.
도 5 및 도 6은 각각 음성 신호와 비음성 신호를 각각 신호 파형과 스펙트로그램으로 시각화한 결과를 예시한 도면이다.
도 7은 본 발명의 실시예에서 N개의 후보군에 대한 시각화 정보의 리스트를 제공하는 모습을 예시한 도면이다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
본 발명은 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법으로서, 손상된 멀티미디어 파일에서 음성 부분을 자동으로 탐색하며, 탐색한 음성 부분을 헤더 정보 없이 복호화하는 기법을 제안한다.
본 발명의 실시예는 음성 부분을 자동으로 탐색하기 위하여 AVI 등의 멀티미디어 파일 포맷(Format)에서 사용되는 바디 컨테이너(Body Container)의 구조를 분석하여 활용하며, 탐색한 음성 부분을 복호화하기 위하여 기계학습 알고리즘을 활용한다.
도 2는 본 발명의 실시예에 따른 손상된 멀티미디어 파일의 음성 복원 장치의 구성을 나타낸 도면이다.
도 2를 참조하면, 본 발명의 실시예에 따른 손상된 멀티미디어 파일의 음성 복원 장치(100)는 파일 입력부(110), 음성파일 추출부(120), 복원파일 생성부(130), 특징 추출부(140), 제어부(150), 후보 선정부(160), 이미지 제공부(170) 및 선택부(180)를 포함한다.
파일 입력부(110)는 손상된 멀티미디어 파일이 입력된다. 음성파일 추출부(120)는 파일 입력부(110)에 입력된 손상된 멀티미디어 파일 내에서 음성파일 부분을 추출한다.
복원파일 생성부(130)는 음성파일에 서로 다른 복수의 헤더를 각각 삽입하여 복수의 복원파일을 생성한다. 특징 추출부(140)는 복원파일로부터 주파수 특성과 관련한 특징정보를 추출한다.
제어부(150)는 추출한 특징정보를 기 학습된 신경망의 입력층에 입력시킨 후에, 복원파일이 음성 신호 및 비음성 신호와 유사한 정도를 나타내는 제1 및 제2 클래스 점수를 출력층으로부터 획득한다. 일반적으로 신경망은 입력층, 은닉층 및 출력층으로 구성된다. 본 발명의 실시예는 심층 신경망을 이용할 수 있다.
신경망은 입력된 특징 정보를 기초로 복수의 클래스(음성, 비음성) 중 어느 하나의 클래스로 단순 분류하는 형태로 구성될 수도 있지만, 본 실시예의 경우 각각의 클래스마다 해당 클래스로 분류될 확률을 점수화하여 출력하는 형태로 구현된다. 물론 이와 같은 다양한 신경망의 구현 형태는 기 공지된 방법에 해당하므로 상세한 설명은 생략한다.
후보 선정부(160)는 제1 및 제2 클래스 점수를 기초로 복수의 복원파일 중 음성 신호와 유사도 높은 상위 N개의 후보군을 선정한다. 예를 들어, 제2 클래스 점수 대한 제1 클래스 점수의 비율을 연산하고 비율이 높은 순으로 복원파일을 정렬한 후에 상위 N개의 후보 복원파일을 선정할 수 있다.
본 발명의 실시예에서, 가장 가능성 높은 하나의 복원파일을 제시하는 것이 아닌, 가능성이 높은 상위 N개의 복원파일을 후보군으로 제시하는 것은 신경망에 대한 100% 완벽한 성능을 보증하기 어렵고 신경망의 오류 및 정확도를 보완하기 위한 것이다.
이미지 제공부(170)는 선정한 N개의 후보군에 해당하는 복원파일 각각에 대한 스펙트로그램 결과를 시각화하여 제공할 수 있다. 스펙트로그램은 시간과 주파수 변화에 따른 음성 신호 세기 변화를 표현한 것을 의미한다. 물론, 이미지 제공부(170)는 스펙트로그램 변환 전의 raw data인, 시간에 따른 음성 신호 세기 변화 또한 함께 시각화하여 제공할 수 있다.
선택부(180)는 사용자로부터 N개의 후보군 중 하나를 최종적으로 선택받는다. 음성 신호와 비음성 신호는 시각적으로도 확연하게 구분될 수 있는데, 사용자는 N개의 후보군에 대한 시각화 정보를 기초로, N개의 후보군 중에 원본 헤더와 동일 헤더가 삽입된 복원파일을 시각적으로 판별하여 빠르고 용이하게 최종적으로 선택할 수 있다.
다음은 본 발명의 실시예에 따른 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법에 관하여 상세히 설명한다. 멀티미디어 파일은 AVI 파일 포맷 등 다양한 형태가 존재하는데, 이하의 본 발명의 실시예는 AVI 파일을 대표 예시로 하여 설명한다.
도 3은 도 1에 도시된 음성 복원 장치를 이용한 음성 복원 방법을 나타낸 도면이다.
먼저, 파일 입력부(110)는 손상된 멀티미디어 파일이 입력된다(S310). 여기서 손상된 멀티미디어 파일이란 도 1에 도시된 멀티미디어 파일 내 컨테이너 요소(헤더, 바디, 인덱스) 중에서 헤더 컨테이너가 손상되었거나 헤더와 인덱스 컨테이너가 손상된 멀티미디어 파일을 의미할 수 있다.
헤더 부분이 손상되면 바디 부분에 저장된 미디어 파일(영상, 음성 등)의 재생이 곤란하게 되므로, 정상적인 재생이 가능하기 위해서는 별도의 복원 과정이 필요하다. 예를 들어, 가능한 모든 경우의 수의 헤더를 활용하여 손상 전의 원본 헤더 정보를 유추해내는 과정을 수행해야 한다.
손상된 멀티미디어 파일에는 복원 대상이 되는 음성 파일이 포함되어 있다. 본 발명의 실시예는 멀티미디어 파일 내 포함된 미디어 유형 중에 음성파일을 재생 가능한 형태로 복원하는 기술을 제안한다. 최우선적으로는 멀티미디어 파일 내에서 음성파일 부분만을 수집해야 한다.
음성파일 추출부(120)는 손상된 멀티미디어 파일에서 음성파일 부분을 추출한다(S320). 멀티미디어 파일 포맷에서 사용되는 바디 컨테이너의 기본 구조를 활용하면, 바디 컨테이너로부터 음성파일 부분만을 자동으로 탐색하고 수집할 수 있으며, 그 방법은 다음과 같다.
일반적인 AVI 파일에서는 인덱스 컨테이너에 저장된 정보를 기반으로 음성 부분이나 영상 부분을 분리하기 때문에, 인덱스 컨테이너가 손상된 경우에는 음성 부분만을 분리하는 것이 힘들다. 그런데, 도 1에서 바디 컨테이너 부분을 참조하면, 바디 컨테이너 내의 각 오디오 청크(이하, 음성 chunk), 비디오 청크 각각은 고유한 구조를 가지고 있으며 이를 이용하면 음성 정보만을 출할 수 있다.
예를 들어, AVI 파일에서는 각 음성 chunk의 앞 부분에 해당 미디어의 스트림 인덱스(stream index)와 음성임을 나타내는 'WB' 코드로 구성된 chunk tag와 각 chunk의 크기 정보가 포함되어 있다. 따라서 손상된 AVI 파일 전체에서 chunk tag와 크기를 기준으로 음성 chunk 만을 탐색할 수 있다.
이렇게 수집한 음성 부분은 실제로 헤더 정보를 포함하지 않고 있기 때문에 손상된 음성 파일이라고 할 수 있다. 이와 같이 손상된 음성 파일은 헤더 정보가 손상되는 과정에서 파일 포맷에 대한 정보도 함께 손실되었기 때문에, 다양한 종류의 음성 파일 포맷을 가정하여 음성 파일 복원 기법을 적용하여야 한다.
AVI 파일에 저장될 수 있는 음성 포맷은 WAV와 MP4, MP3 등이 있는데 이하에서는 WAV 포맷으로 가정하여 설명한다. WAV 파일의 경우 앞서 설명한 것과 같이, 가능한 모든 경우의 헤더 정보를 이용하여 음성파일을 복호화한 뒤 음성 및 비음성 여부를 판단하는 과정을 통해 정확하게 복원할 수 있다.
이와 같이, 멀티미디어 파일 내에서 음성파일이 수집되면, 복원파일 생성부(130)는 음성파일에 서로 다른 복수의 헤더를 각각 삽입하여 복수의 복원파일을 생성한다(S330).
여기서, 복수의 헤더는 서로 다른 복수의 샘플링 레이트와 샘플링 비트 수의 조합으로 각각 생성되며, 샘플링 레이트와 샘플링 비트 수를 조합하여 생성되는 경우의 수만큼 복원파일이 생성된다. 예를 들어, 샘플링 레이트가 3가지이고 샘플링 비트 수가 4가지인 경우 총 12 가짓 수의 복원파일이 생성된다. 물론 이는 설명의 편의를 위한 예시이며 실제로는 이보다 훨씬 많은 경우의 수가 존재한다.
이후, 특징 추출부(140)는 복원파일로부터 주파수 특성에 대한 특징정보를 추출한다(S340).
특징정보란 음성 신호와 비음성 신호 간 구분되는 신호 특성을 잘 표현할 수 있는 정보로서, 일반적으로 음성 분야에서 이를 특징 벡터로 부른다. 일반적으로 음성 신호는 사람의 음성이 포함되어 있기 때문에 고유한 주파수 특성을 보이며 비음성 신호는 백색 잡음과 유사한 주파수 특성을 보인다.
생성한 복수의 복원파일들 중에서, 원래의 헤더와 동일한 헤더 정보가 삽입된 복원파일의 경우 정상적인 음성 재생이 가능하므로 음성 신호의 형태를 가지며, 원래와 다른 헤더가 삽입된 복원파일의 경우 제대로 재생이 되지 않으며 백색 잡음 등과 같은 비음성 신호의 형태를 가진다.
예를 들어, S320 단계에서 임의로 삽입한 헤더가, 손상 전의 헤더 정보와 차이가 있다면, 해당 헤더를 이용한 복원파일은 잘못 복호화된 신호이며 비음성 신호의 형태를 가진다.
음성 신호와 비음성 신호 간의 주파수 특성(특징)은 기본적으로 상이한데, 이러한 점을 이용하여 본 발명의 실시예는 각각의 복원파일로부터 추출한 주파수 특성에 관한 특징을 기 학습된 신경망에 입력시켜, 원래의 헤더가 삽입되었을 가능성이 높은 상위 N개의 복원파일들을 추려낼 수 있다.
이를 위해, 제어부(150)는 추출한 특징정보를 기 학습된 신경망에 입력시킨 후에, 복원파일이 음성 신호 및 비음성 신호와 유사한 정도를 나타내는 제1 및 제2 클래스 점수를 각각 획득한다(S350).
이러한 S350 단계는 미리 준비한 다수의 음성 및 비음성 신호를 심층 신경망에 각각 입력시켜 음성 및 비음성 모델을 학습시킨 결과를 이용한 것이다. 즉, S350 단계를 위해서는 사전에 음성 및 비음성 모델을 학습하는 과정이 수반되어 져야 한다.
즉, 사람의 명시적인 지시 없이도 요구하는 작업(음성/비음성 분류)를 기계가 수행하기 위해서는 사전에 모델을 학습하는 과정이 필요하다. 여기서 모델은 기계가 특정 작업을 수행할 때 기준이 되는 것으로, 필요한 작업에 맞추어 미리 준비한 데이터를 통해 학습될 수 있다.
모델 학습에 사용할 데이터는 다수의 음성 데이터와 비음성 데이터를 포함한다. 음성 데이터는 일반적은 사람의 음성이 포함되어 있는 모든 데이터가 활용 가능하다. 비음성 데이터는 음성 데이터를 복호화하는 과정에서 잘못된 복호화 정보(잘못된 헤더 정보)를 입력(양자화 지수)하여 생성한 신호를 사용할 수 있다.
이때, 음성 및 비음성 구분의 기준이 될 수 있는 모델이 필요하며, 이를 위해 미리 준비한 학습용 데이터로부터 각각 의미 있는 정보(특징)를 추출하도록 한다. 다만, 학습용 데이터는 시간에 따른 신호 세기 정보(저차원의 정보)만을 포함하고 있기 때문에 주파수 특성을 추출하는 가공 과정이 수행될 수 있다.
또한, 본 발명의 실시예는 음성과 비음성의 주파수 특성이 다른 것을 이용하여 주파수 특성을 나타낼 수 있는 mel-filter bank 계수를 특징으로 사용할 수 있다. 물론 주파수 특성을 추출하는 방법은 공지된 다양한 알고리즘이 사용될 수 있다.
그리고, 특징을 추출한 뒤에 모델 생성을 위해 심층 신경망을 학습하도록 한다. 추출한 특징이 심층 신경망의 입력층에 입력되면 은닉층을 거쳐 출력층의 두 노드가 각각 활성화된다. 이때, 출력층의 두 노드에서 출력되는 활성화 값은 각각 입력된 데이터가 음성 신호와 얼마만큼 유사한지, 혹은 비음성 신호와 얼마만큼 유사한지를 나타낸다. 이와 같이 심층 신경망은 학습 과정을 통해 입력된 특징이 음성 신호에서 추출된 특징인지, 비음성 신호에서 추출된 특징인지 등을 식별할 수 있게 된다.
만일, 학습이 완료된 심층 신경망에, 음성에서 추출한 특징을 입력하면, 출력층의 두 노드 중 음성 신호에 해당하는 노드가 더 큰 활성 값을 보일 것이며, 반대의 경우에는 비음성 신호에 해당하는 노드가 더 큰 활성 값을 보일 것이다.
도 4는 본 발명의 실시예에서 사용되는 신경망 구조를 예시한 도면이다. 신경망은 입력층, 은닉층 및 출력층을 포함한다. 입력층은 특징 벡터의 차원 수에 대응하는 개수의 입력 노드를 가질 수 있다. 은닉층은 도 4와 같은 하나의 층 또는 그 이상의 층으로 구성될 수도 있다.
출력층은 두 개의 노드 즉, 제1 노드 및 제2 노드를 가진다. 제1 노드는 음성 클래스에 대응하고 제2 노드는 비음성 클래스에 대응한다. 이러한 제1 노드와 제2 노드는 음성 신호와 유사한 정도 및 비음성 신호와 유사한 정도(확률)에 대응하는 값을 각각 자신의 클래스의 점수로 출력한다.
이상과 같이, 음성 신호 및 비음성 신호의 주파수 특성 모델을 심층 신경망으로 미리 학습해 둔 다음, 학습된 신경망의 입력층에 복원파일의 특징정보를 입력하게 되면 출력층의 제1 및 제2 노드를 통해서 제1 및 제2 클래스 점수가 각각 출력되게 된다.
여기서, 복원파일이 음성 신호일 확률이 높을수록 제1 클래스 점수는 높게, 제2 클래스 점수는 낮게 나타날 것이고, 반대로 비음성 신호일 확률이 높을수록 제1 클래스 점수는 낮게, 제2 클래스 점수는 높게 나타날 것이다.
이와 같이, 복원파일에서 추출한 주파수 특징에 따라 제1 및 제2 클래스 점수 중 어느 하나가 높게 나타나게 될 것이다. 다만, 특징의 속성이 뚜렷한 경우에는 두 클래스 점수 중 어느 하나가 나머지보다 월등히 높게 나올 수 있고, 그렇지 않은 경우에는 미소한 격차로 나타날 수도 있다.
후보 선정부(160)는 복수의 제1 및 제2 클래스 점수를 기초로 복수의 복원파일 중에서 음성 신호와 유사도 높은 상위 N개의 유의미한 후보군을 선정한다(S360). 이러한 N개의 후보군은 학습된 모델을 기준으로 선택한 신호들이기 때문에, 음성 신호와 유사도가 높은 후보군이라고 할 수 있다.
후보 선정에는 두 가지 방법을 사용할 수 있다. 후보 선정부(160)는 제2 클래스 점수(S2)에 대비한 제1 클래스 점수(S1)의 비율(S1/S2; ratio score)을 연산한 다음, 비율이 높은 순으로 복원파일을 정렬한 후에 상위 N개의 복원파일을 후보군으로 선정할 수 있다. 이와 같이, 본 발명의 실시예는 두 노드의 활성 값(클래스 점수)의 비를, 입력된 특정 음성이 음성 신호와 얼마나 유사한지를 나타내는 스코어(ratio score)로 활용할 수 있다.
그 밖에도, 후보 선정부(160)는 제1 클래스 점수(S1)로부터 제2 클래스 점수(S2)를 차감한 점수(S1-S2)를 연산한 다음, 차감한 점수가 높은 순으로 복원파일을 정렬한 후에 상위 N개의 후보군을 선정할 수 있다. 본 발명의 실시예는 상술한 두 가지 예시 중에서 두 점수 간의 비율을 이용한 첫 번째 방식을 대표적으로 사용할 수 있다.
이후, 이미지 제공부(170)는 선정한 N개의 후보군에 해당하는 복원파일 각각에 대한 스펙트로그램(Spectrogram) 결과를 시각화하여 제공한다(S370). 이때, 복원파일의 각각에 대한 원 신호(raw data) 즉, 시간에 따른 음성 신호 세기(크기)를 나타낸 그래프 이미지를 함께 시각화하여 제공할 수 있다.
본 발명의 실시예에서는 기계학습 알고리즘을 통해 선택된 N개의 후보군에 대한 음성 및 비음성의 판단을 보조하기 위해, 복호화된 신호를 사용자에게 시각화하여 직관적으로 보여준다. 이는 음성 및 비음성 여부에 따라 시각화된 신호 특성이 매우 큰 차이를 보이는 점에 착안한 것이다.
도 5 및 도 6은 각각 음성 신호와 비음성 신호를 각각 신호 파형과 스펙트로그램으로 시각화한 결과를 예시한 도면이다. 여기서, 도 5는 음성 신호에 대한 것이고, 도 6은 비음성 신호에 대한 것이다.
도 5 및 도 6에서 (a)는 스펙트로그램 변환 전의 원 신호로서, 가로축은 시간 값, 세로축은 음성 신호 크기 값을 나타낸다. (b)는 원 신호를 각각 스펙트로그램 변환한 결과로서, 가로축은 시간 값, 세로축은 주파수 값을 나타내며, 각각의 좌표 지점은 해당 시간과 주파수가 만나는 지점과 대응하는 음성 신호 크기를 색상 정보로 표출한 것이다. 예를 들어, 색상이 붉은색에 가까울수록 신호 크기가 큰 것을 의미하고 파란색에 가까울수록 작은 것을 의미할 수 있다.
도 7은 본 발명의 실시예에서 N개의 후보군에 대한 시각화 정보의 리스트를 제공하는 모습을 예시한 도면이다. 여기서 도 7은 스펙트로그램 확인이 용이하도록 실질적으로 칼라로 제공되는 것이 더욱 바람직하다. 도 7의 상단에는 사용자가 입력한 손상된 멀티미디어 파일에 대한 파일명이 제공되며, 그 하단에는 선정된 N개의 후보군 리스트 및 후보군 별 시각화 정보가 제공된다.
이처럼 각각의 후보군에 해당하는 신호를 시각화하여 제공할 경우, 사람이 각 후보군의 복원파일을 직접 일일이 청취하는 과정 없이도, 한 번에 다수의 신호를 직관적으로 판별하는 것이 가능하므로, 음성 파일의 복원이 더욱 빠르고 효과적으로 수행될 수 있다.
선택부(180)는 사용자로부터 N개의 후보군 중 하나를 최종 선택받는다(S380). 이때 마우스, 터치 등의 입력 수단이 활용될 수 있다. 사용자에 의해 최종 선택된 복원파일은 원본 헤더와 동일 헤더가 삽입되어 복원된 음성파일을 의미할 수 있다. 이와 같이 사용자는 N개의 후보군에 대한 시각화 자료를 기초로 정상 복원된 파일을 최종적으로 선택할 수 있다.
이상과 같이, 본 발명의 실시예는 탐색한 음성파일에 서로 다른 여러 경우의 헤더를 각각 삽입하여 다수의 복원파일을 생성하며, 다수의 복원파일 중에서, 멀티미디어 파일이 손상되기 전의 원본 헤더와 동일한 헤더가 삽입되었을 가능성이 높은 복원파일을 자동으로 N개 선정하여 후보군으로 제공할 수 있다. 이러한 후보군의 선정에는 음성 및 비음성 신호 모델이 미리 학습된 신경망 회로를 사용한다.
여기서, 다수의 복원파일들 중에서, 원본 헤더와 동일한 헤더가 삽입되어 있는 복원파일의 경우 사람의 보이스 주파수 특성을 포함한 음성 신호의 형태를 가지며, 그렇지 않은 나머지 복원파일의 경우 백색 잡음 등과 비슷한 비음성 신호의 형태를 가진다.
이러한 음성과 비음성 신호의 특성 차이는 시각적으로도 구분 가능하다. 이러한 점을 이용하여, 본 발명의 실시예는 가능성 높은 N개의 후보군을 선정하여 각 후보군에 대한 신호 특성 즉, 신호 파형과 스펙트로그램을 시각화하여 제시할 수 있다. 이때, 사용자는 N개의 복원파일을 일일이 청취하지 않고 단지 시각적 특성 정보만으로 원본 헤더가 삽입된 복원파일을 직관적으로 판독하여 빠르고 용이하게 선택할 수 있다.
이상과 같이 본 발명의 실시예는 기계학습 알고리즘을 활용함으로써 무수히 많은 가짓수 중 N개의 가능성 높은 후보군을 사용자에게 자동으로 제시하여 줄 수 있다. 이후 N개의 후보군 중에 최종적 하나는 사용자의 시각적 판단이 필요하지만, 대부분의 과정을 이미 자동화함으로써 음성 파일 복원에 소요되는 많은 시간과 비용을 크게 줄일 수 있다.
AVI 파일에 포함된 음성이 WAV 포맷의 음성이었다면 상술한 과정을 통하여 정상적인 음성이 복원되는 것을 확인할 수 있다. WAV 파일이 아닌 경우에는 정상적인 음성이 복원되지 않은데, 이와 같이 음성이 복원되지 않는 경우에는 WAV 포맷이 아닌 다른 포맷을 가정하여 복원 기법을 적용하도록 한다. MP4 파일의 경우는 음성이 프레임 단위로 나뉘어서 고유한 구조로 저장된다.
따라서, 손상된 음성 파일에서 온전한 MP4 프레임들을 모은 뒤에 부호화시켜 생성된 음성 신호를 연결하는 방식으로 음성 파일을 복원하는 것이 가능하다. MP3 파일도 MP4 파일과 마찬가지로 프레임 단위로 음성 신호가 저장되어 있으며 각 프레임이 내부적으로 재생에 필요한 정보까지 한번에 저장하고 있기 때문에, 별도의 복원 과정 없이 음성을 재생할 수 있다.
이상과 같은 본 발명에 따른 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법에 따르면, 손상된 멀티미디어 파일 내에 포함된 음성파일을 복원하는 과정에서 사용자가 복원된 음성파일을 전부 청취하지 않고도 정상적으로 복원된 음성파일을 빠르고 용이하게 탐색할 수 있도록 함으로써 손상된 음성파일을 복원하는데 걸리는 시간과 비용을 절감할 수 있는 이점이 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100: 음성 복원 장치 110: 파일 입력부
120: 음성파일 추출부 130: 복원파일 생성부
140: 특징 추출부 150: 제어부
160: 후보 선정부 170: 이미지 제공부
180: 선택부

Claims (10)

  1. 헤더가 손상된 멀티미디어 파일 내 음성을 복원하는 방법에 있어서,
    상기 헤더가 손상된 멀티미디어 파일에서 음성파일 부분을 추출하는 단계;
    상기 음성파일에 서로 다른 복수의 헤더를 각각 삽입하여 복수의 복원파일을 생성하는 단계;
    상기 복원파일로부터 주파수 특성에 대한 특징정보를 추출하는 단계;
    상기 추출한 특징정보를 기 학습된 신경망에 입력시킨 후에, 상기 복원파일이 음성 신호 및 비음성 신호와 유사한 정도를 나타내는 제1 및 제2 클래스 점수를 각각 획득하는 단계;
    상기 제2 클래스 점수에 대비한 상기 제1 클래스 점수의 비율을 연산한 다음, 상기 비율이 높은 순으로 상기 복수의 복원파일을 정렬하여, 상기 복수의 복원파일 중 상기 음성 신호와 유사도 높은 상위 N개의 후보군을 선정하는 단계;
    상기 선정한 N개의 후보군에 해당하는 복원파일 각각에 대한 스펙트로그램 결과를 시각화하여 제공하는 단계; 및
    사용자로부터 상기 N개의 후보군 중 하나를 최종적으로 선택받는 단계를 포함하는 손상된 멀티미디어 파일의 음성 복원 방법.
  2. 삭제
  3. 삭제
  4. 청구항 1에 있어서,
    상기 스펙트로그램 결과를 시각화하여 제공하는 단계는,
    상기 N개의 후보군 각각에 대하여, 시간에 따른 음성 신호 크기 변화를 나타낸 파형 이미지와, 시간 및 주파수에 따른 음성 신호 크기 변화를 나타낸 상기 스펙트로그램 결과 이미지를 출력하는 손상된 멀티미디어 파일의 음성 복원 방법.
  5. 삭제
  6. 헤더가 손상된 멀티미디어 파일 내 음성을 복원하는 장치에 있어서,
    상기 헤더가 손상된 멀티미디어 파일에서 음성파일 부분을 추출하는 음성파일 추출부;
    상기 음성파일에 서로 다른 복수의 헤더를 각각 삽입하여 복수의 복원파일을 생성하는 복원파일 생성부;
    상기 복원파일로부터 주파수 특성에 대한 특징정보를 추출하는 특징 추출부;
    상기 추출한 특징정보를 기 학습된 신경망에 입력시킨 후에, 상기 복원파일이 음성 신호 및 비음성 신호와 유사한 정도를 나타내는 제1 및 제2 클래스 점수를 각각 획득하는 제어부;
    상기 제2 클래스 점수에 대비한 상기 제1 클래스 점수의 비율을 연산한 다음, 상기 비율이 높은 순으로 상기 복수의 복원파일을 정렬하여, 상기 복수의 복원파일 중 상기 음성 신호와 유사도 높은 상위 N개의 후보군을 선정하는 후보 선정부;
    상기 선정한 N개의 후보군에 해당하는 복원파일 각각에 대한 스펙트로그램 결과를 시각화하여 제공하는 이미지 제공부; 및
    사용자로부터 상기 N개의 후보군 중 하나를 최종적으로 선택받는 선택부를 포함하는 손상된 멀티미디어 파일의 음성 복원 장치.
  7. 삭제
  8. 삭제
  9. 청구항 6에 있어서,
    상기 이미지 제공부는,
    상기 N개의 후보군 각각에 대하여, 시간에 따른 음성 신호 크기 변화를 나타낸 파형 이미지와, 시간 및 주파수에 따른 음성 신호 크기 변화를 나타낸 상기 스펙트로그램 결과 이미지를 출력하는 손상된 멀티미디어 파일의 음성 복원 장치.
  10. 삭제
KR1020160160517A 2016-11-29 2016-11-29 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법 KR101755238B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160160517A KR101755238B1 (ko) 2016-11-29 2016-11-29 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160160517A KR101755238B1 (ko) 2016-11-29 2016-11-29 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR101755238B1 true KR101755238B1 (ko) 2017-07-10

Family

ID=59356179

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160160517A KR101755238B1 (ko) 2016-11-29 2016-11-29 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101755238B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816197A (zh) * 2020-06-15 2020-10-23 北京达佳互联信息技术有限公司 音频编码方法、装置、电子设备和存储介质
CN112751648A (zh) * 2020-04-03 2021-05-04 腾讯科技(深圳)有限公司 一种丢包数据恢复方法和相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101465061B1 (ko) * 2014-08-01 2014-11-28 대한민국 손상음성파일 복원 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101465061B1 (ko) * 2014-08-01 2014-11-28 대한민국 손상음성파일 복원 장치 및 그 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jose PORTELO, , et al. Non-speech audio event detection. IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP 2009), 2009. pp.1973-1976.
Won-Ho Shin, et al. Speech/non-speech classification using multiple features for robust endpoint detection. IEEE International Conference onAcoustics, Speech, and Signal Processing (ICASSP'00), 2000,*

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112751648A (zh) * 2020-04-03 2021-05-04 腾讯科技(深圳)有限公司 一种丢包数据恢复方法和相关装置
CN112751648B (zh) * 2020-04-03 2023-09-19 腾讯科技(深圳)有限公司 丢包数据恢复方法和相关装置、设备及存储介质
CN111816197A (zh) * 2020-06-15 2020-10-23 北京达佳互联信息技术有限公司 音频编码方法、装置、电子设备和存储介质
CN111816197B (zh) * 2020-06-15 2024-02-23 北京达佳互联信息技术有限公司 音频编码方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN106576151B (zh) 视频处理装置和方法
KR102660124B1 (ko) 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치
EP1728195B1 (en) Method and system for semantically segmenting scenes of a video sequence
CN104980790B (zh) 语音字幕的生成方法和装置、播放方法和装置
CN108307250B (zh) 一种生成视频摘要的方法及装置
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
US20140280304A1 (en) Matching versions of a known song to an unknown song
CN108307229A (zh) 一种影音数据的处理方法及设备
JP2004229283A (ja) ニュースビデオにおいてニュース司会者の遷移を識別する方法
KR101755238B1 (ko) 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법
CN112633241A (zh) 一种基于多特征融合和随机森林模型的新闻故事分割方法
KR101373176B1 (ko) 복제 동영상정보 검출방법 및 장치, 저장매체
CN105283916A (zh) 电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序
Altinisik et al. Video source characterization using encoding and encapsulation characteristics
Pandey et al. Cell-phone identification from audio recordings using PSD of speech-free regions
KR102313387B1 (ko) 기계학습 기반의 화자 분리 방법 및 그를 위한 장치
Milani et al. Audio tampering detection using multimodal features
Zhang et al. Video abnormal event detection via context cueing generative adversarial network
CN113660536A (zh) 一种字幕显示方法和装置
CN105912615A (zh) 一种基于人类语音内容索引的音频和视频文件管理方法
JP2012039524A (ja) 動画像処理装置、動画像処理方法およびプログラム
JP5254900B2 (ja) 映像再構成方法、映像再構成装置および映像再構成プログラム
Teng et al. A Smooth Video Summarization Method Based on Frame-Filling
KR102400598B1 (ko) 기계학습 기반의 잡음 제거 방법 및 그를 위한 장치
CN112883890B (zh) 基于ACBlock的深度卷积神经网络信息取证方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant