KR102538008B1 - 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법 - Google Patents

딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법 Download PDF

Info

Publication number
KR102538008B1
KR102538008B1 KR1020200187570A KR20200187570A KR102538008B1 KR 102538008 B1 KR102538008 B1 KR 102538008B1 KR 1020200187570 A KR1020200187570 A KR 1020200187570A KR 20200187570 A KR20200187570 A KR 20200187570A KR 102538008 B1 KR102538008 B1 KR 102538008B1
Authority
KR
South Korea
Prior art keywords
voice data
quality
video content
sound quality
low
Prior art date
Application number
KR1020200187570A
Other languages
English (en)
Other versions
KR20220097622A (ko
Inventor
주종화
문주원
김법종
정지원
선진
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020200187570A priority Critical patent/KR102538008B1/ko
Publication of KR20220097622A publication Critical patent/KR20220097622A/ko
Application granted granted Critical
Publication of KR102538008B1 publication Critical patent/KR102538008B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명은 딥러닝 기반의 동영상 음질 개선 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 학교 또는 학원 등의 교육기관에서, 동영상 콘텐츠를 통해 학습자에게 교육 서비스를 제공하기 위해 교수자의 강의를 녹화한 동영상 등과 같이 음성과 영상이 함께 녹음된 동영상 콘텐츠 원본으로부터, 노이즈 잡음이 크거나 음량의 편차가 심한 저음질의 음성 데이터만을 선별적으로 추출하여 고음질의 음성 데이터로 변환하고, 이를 다시 동영상 콘텐츠 원본에 합성하는 딥러닝 기반의 음질 개선 방법을 제공함으로써, 동영상 콘텐츠의 음질을 보다 효율적으로 개선하고, 음질 개선 속도를 향상하는 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법에 관한 것이다.

Description

딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법{System and method for improving audio quality in video contents based on deep-learning algorithm}
본 발명은 딥러닝 기반의 동영상 음질 개선 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 학교 또는 학원 등의 교육기관에서, 동영상 콘텐츠를 통해 학습자에게 교육 서비스를 제공하기 위해 교수자의 강의를 녹화한 동영상 등과 같이 음성과 영상이 함께 녹음된 동영상 콘텐츠 원본으로부터, 노이즈 잡음이 크거나 음량의 편차가 심한 저음질의 음성 데이터만을 선별적으로 추출하여 고음질의 음성 데이터로 변환하고, 이를 다시 동영상 콘텐츠 원본에 합성하는 딥러닝 기반의 음질 개선 방법을 제공함으로써, 동영상 콘텐츠의 음질을 보다 효율적으로 개선하고, 음질 개선 속도를 향상하는 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법에 관한 것이다.
증강현실, IoT 및 5G 등과 같은 통신 기술의 발달로 인해, 교육 서비스를 원격으로 제공하려는 시도가 존재해왔으며, 최근 COVID-19 바이러스의 확산 등 다양한 환경적 요인으로 인해, 교수자와 학습자가 직접 대면하지 않고도, 학습자에게 교육 서비스를 원격으로 제공하는 원격 화상 강의에 대한 수요가 급증하고 있다.
특히, 바이러스 집단감염의 우려가 큰 초·중·고등학교 및 대학교 등과 같은 교육기관에서는, 집단감염의 영향을 최소화하기 위해 교수자와 학습자 간의 비대면 원격 화상 강의를 제공하고 있으며, 이러한 원격 화상 강의를 제공하기 위해 구글 MEET, ZOOM 등과 같은 원격 화상 회의 플랫폼이 활용된다.
그러나, 이러한 원격 화상 회의 플랫폼은 교수자와 학습자가 동시에 접속하여 실시간으로 강의가 이루어지므로, 교수자 또는 학습자의 주변 환경이나 네트워크 불안정 등의 다양한 요인으로 인해 교수자의 교육 서비스가 학습자에게 제대로 제공되지 못하는 경우가 빈번하게 발생하게 된다.
이러한 문제를 해결하기 위해, 교육 서비스를 제공하는 교수자는 자신의 강의를 녹화하고, 이렇게 생성된 강의 동영상 콘텐츠를 시스템에 업로드하는 방식으로 학습자에게 교육 서비스를 제공하는데, 학습자에게 제공되는 강의 동영상에도 교수자의 건강 상태 및 동영상 녹화 환경 등에 따라, 강의 동영상에 노이즈 잡음이 발생하거나 음량의 편차가 심화되는 등의 현상이 발생하게 된다.
상술한 현상들로 인해, 동영상 콘텐츠를 시청하는 학습자들은 동영상 시청에 불편함을 느끼게 되고, 나아가 학습자의 강의 동영상 시청을 기피하는 현상 등을 유발시키며 학습의 질 저하로까지 이어지게된다.
한편, 딥러닝 기술에 기반하여 음질을 개선하려는 시도는 예전부터 존재해왔으며, 일례로, 한국공개특허 제10-2017-0107683호에서와 같이, 음성의 피치(Pitch)를 동기화함으로써 음성의 상대적 편차를 줄이는 기술 등이 제시되고 있기는 하나, 이들 종래 기술에서는 텍스트를 음성으로 변환하여 합성음의 음질을 향상하는 등의 기법을 통해, 전체 영상을 대상으로 전반적인 음질 개선을 적용하고 있어, 음질 개선 프로세스에 상대적으로 많은 시간이 소요되는 반면에, 최초에 저음질로 녹음된 부분에 대한 개선 효과가 상대적으로 떨어진다는 문제점이 있다.
1. 한국공개특허공보 제10-2017-0107683호(공개일 : 2017.09.26.) "딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법"
본 발명은 상기한 문제를 해결하기 위해 고안된 것으로서, 원본 동영상에서 노이즈 잡음이 크거나 음량의 편차가 심한 저음질의 음성 데이터만을 선별적으로 추출하여, 추출된 부분을 고음질의 음성 데이터로 변환하고, 이를 다시 동영상 콘텐츠 원본에 합성하여 제공함으로써, 동영상 콘텐츠의 전체적인 음질을 보다 효율적으로 개선하면서, 음질 개선 프로세스를 효과적으로 단축할 수 있는 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법을 제공하는 데 그 목적이 있다.
상기의 목적을 달성하기 위해 본 발명에서는, 동영상 콘텐츠의 음질을 개선하기 위한 시스템에 있어서, 딥러닝 기반의 기계학습을 통해 동영상 콘텐츠에 포함된 음성 데이터의 음질을 개선하는 서버; 및 상기 서버에서 수행되는 기계학습 데이터가 저장되는 데이터베이스;를 포함하여 구성되되, 상기 서버는, 상기 데이터베이스에 저장된 데이터를 기반으로 기계학습을 수행하여, 음성 데이터에 포함된 저음질 데이터를 선별하여 추출하고, 추출된 저음질 데이터를 고음질 데이터로 변환하는 음질 개선 알고리즘을 도출하는 딥러닝 학습부; 및 상기 딥러닝 학습부에서 도출된 음질 개선 알고리즘에 따라 입력된 동영상 콘텐츠에 포함된 저음질 데이터를 추출하고, 추출된 저음질 데이터를 고음질 데이터로 변환하여 동영상 콘텐츠에 재합성하여, 개선된 음질을 갖는 동영상 콘텐츠를 생성하는 음질 개선부;를 포함하여 구성되는 것을 특징으로 하는 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법을 제공한다.
본 발명에 따른 딥러닝 기반의 동영상 음질 개선 시스템은, 동영상 콘텐츠에 딥러닝 학습을 통해 구축된 음질 개선 알고리즘을 적용하여 노이즈 잡음이 크거나 음량의 편차가 심한 저음질의 음성 데이터만을 선별적으로 추출하여, 추출된 부분을 고음질의 음성 데이터로 변환하고, 이를 다시 동영상 콘텐츠 원본에 합성함으로써 음질 개선 속도를 향상시켜, 동영상 콘텐츠의 전체적인 음질을 보다 효율적으로 개선하는 동시에, 음질 개선 프로세스를 효과적으로 단축하는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템의 구성을 개략적으로 보여주는 블록도.
도 2 및 도 3은 본 발명의 일실시예에 따른 딥러닝 학습부의 딥러닝 학습에 적용되는 오디오 초해상도(Audio Super-Resolution) 기법의 개략적인 프로세스와 그에 따른 음성 데이터의 변화를 시각화하여 보여주는 도면.
도 4는 본 발명의 일실시예에 따른 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템의 음질 개선부에서 수행되는 음질 개선 프로세스를 보여주는 순서도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
본 출원에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 도면을 참고하여 본 발명의 실시예에 대하여 상세히 설명하지만, 본 발명은 그 요지를 이탈하지 않는 한 이하의 실시예에 한정되지 않는다.
도 1은 본 발명의 일실시예에 따른 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템의 구성을 개략적으로 보여주는 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 딥러닝 기반의 동영상 음질 개선 시스템(1)은, 딥러닝 학습을 통해 동영상 콘텐츠의 음질을 개선하는 음질 개선 알고리즘을 수행하는 서버(100) 및 서버의 동작 수행을 위한 각종 데이터가 저장되는 데이터베이스(200)를 포함하여 구성된다.
서버(100)는, 딥러닝 학습을 통해 동영상 콘텐츠의 음질을 개선하는데, 이를 위해 딥러닝 학습을 수행하여 음질 개선 알고리즘을 도출하는 딥러닝 학습부(10)와 딥러닝 학습부에서 도출된 음질 개선 알고리즘을 적용하여 동영상 콘텐츠로부터 저음질의 음성 데이터를 추출하고 이를 고음질의 음성 데이터로 변환하여 동영상 콘텐츠 원본에 다시 합성하여 새로운 동영상 콘텐츠 파일을 생성하는 등의 기능을 수행하는 음질 개선부(20)를 구비한다.
데이터베이스(200)는 상술한 서버(100)에서 수행되는 딥러닝 학습을 위한 데이터 세트와 동영상 콘텐츠들을 보관 및 관리하기 위한 요소로서, 딥러닝 학습을 위한 데이터 세트는, 다수개의 동영상 콘텐츠들에 대한 저음질 음성 데이터 및 고음질 음성 데이터들이 쌍으로 매칭되어 저장되어 있으며, 이와 함께, 본원 발명인 딥러닝 기반의 음질 개선 시스템이 적용되는 동영상 콘텐츠 원본 및 상기 서버(100)를 통해 고음질 음성 데이터가 합성되며 새롭게 생성된 동영상 콘텐츠가 누적되어 저장된다.
딥러닝 학습부(10)는 나선형 신경망(Convolution Neural Network, CNN)을 이용하여 데이터베이스(200)에 저장된 데이터 세트를 오디오 초해상도(Audio Super-Resolution) 방식으로 딥러닝 학습함으로써, 음질 개선 알고리즘을 도출하도록 구성되는데, 오디오 초해상도에 관해서는 도 2 및 도 3을 통해 보다 상세히 설명하기로 한다.
이때, 딥러닝 학습부의 딥러닝 학습 과정에서는, 데이터베이스(200)에 저장된 데이터 세트로부터, 한 쌍의 저음질 음성 데이터 및 고음질 음성 데이터의 음량, 대역폭 및 신호잡음비(S/N Ratio)등과 같은 음성 인자를 수집하고, 수집된 저음질 음성 데이터와 고음질 음성 데이터간 음성 인자값의 차이를 기반으로, 저음질 음성 데이터만을 선별적으로 추출하며, 추출된 저음질 음성 데이터로부터 상술한 음성 인자 값을 보정하여 고음질 음성 데이터로 변환하기 위한 음질 개선 알고리즘을 도출한다.
한편, 딥러닝 학습부(10)의 음질 개선 알고리즘을 도출하는 구성에서는, 오디오 초해상도 방식 외에도, 데이터 세트로부터 노이즈 잡음을 분리하여 제거하는 구성이 함께 활용되는데, 노이즈 잡음 분리 기술은 종래에 널리 알려져 있으므로 이에 대한 설명은 생략하기로 한다.
또한, 음질 개선부(20)는 딥러닝 학습부(10)에서 도출된 음질 개선 알고리즘을 적용하여, 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템에 제공되는 동영상 콘텐츠 원본으로부터 저음질 음성 데이터만을 선별적으로 추출하고 이를 고음질 음성 데이터로 변환한 후, 동영상 콘텐츠 원본과 합성하여 음질이 개선된 새로운 동영상 파일을 생성하도록 구성된다.
이와 같이, 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템은 딥러닝 기반의 기계학습을 통해 동영상 콘텐츠에 포함된 음성 데이터의 음질을 개선하는 서버 및 서버에서 수행되는 기계학습 데이터가 저장되는 데이터 베이스를 구비하여, 동영상 콘텐츠 원본으로부터 노이즈 잡음이 크거나 음량의 편차가 심한 저음질의 음성 데이터만을 선별적으로 추출하여, 추출된 부분을 고음질의 음성 데이터로 변환하고, 이를 다시 동영상 콘텐츠 원본에 합성하여 제공함으로써, 동영상 콘텐츠의 전체적인 음질을 보다 효율적으로 개선하는 동시에, 음질 개선에 소요되는 시간을 줄여 음질 개선 프로세서를 효과적으로 단축하는 효과가 있다.
도 2 및 도 3은 본 발명의 일실시예에 따른 딥러닝 학습부의 딥러닝 학습에 적용되는 오디오 초해상도(Audio Super-Resolution) 기법의 개략적인 프로세스와 그에 따른 음성 데이터의 변화를 시각화하여 보여주는 도면이다.
딥러닝 학습부는 앞서 설명한 바와 같이, 데이터베이스에 저장되는 데이터 세트를 통해, 한 쌍의 저음질 음성 데이터 및 고음질 음성 데이터의 음량, 대역폭 및 신호잡음비(S/N Ratio)등과 같은 음성 인자를 수집하고, 수집된 저음질 음성 데이터와 고음질 음성 데이터간 음성 인자값의 차이를 기반으로, 저음질 음성 데이터만을 선별적으로 추출하며, 추출된 저음질 음성 데이터로부터 상술한 음성 인자 값을 보정하여 고음질 음성 데이터로 변환하기 위한 음질 개선 알고리즘을 도출하는 딥러닝 학습 과정을 수행하도록 구성된다.
예로써, 딥러닝 학습을 위해 제공된 데이터 세트에서, 고음질 음성 데이터의 음량 범위가 70dB ~ 100dB이고, 저음질 음성 데이터의 음량 범위가 30dB ~ 130dB인 경우, 30dB ~ 130dB의 100dB 정도의 음량 편차를 갖는 저음질 음성 데이터의 음량을 조정하여 고음질 음성 데이터의 음량 범위인 70dB ~ 100dB의 30dB 정도의 음량 편차를 갖도록 음성 데이터의 음량을 조정함으로써, 개선된 음질을 얻을 수 있다.
또한, 딥러닝 학습을 위해 제공된 데이터 세트에서, 고음질 음성 데이터의 대역폭이 190kHz대 이고, 저음질 음성 데이터의 대역폭이 40kHz대로 나타나는 경우, 딥러닝 학습부는 이와 같은 정보를 바탕으로, 전체 음성 구간에서 대역폭이 대략 40kHz대 부근에서 형성되는 구간의 음성 데이터를 저음질 음성 데이터로 판단하여 추출하고, 이렇게 추출되는 저음질 음성 데이터의 대역폭을 고음질 음성 데이터의 대역폭인 190kHz대로 조정하는 등의 방식으로 음질 개선 알고리즘을 도출하게 된다.
이러한 딥러닝 학습 과정에는, 오디오 초해상도(Audio Super-Resolution) 방식이 적용되는데, 도 2를 통해 오디오 초해상도 방식의 개략적인 프로세스에 대해 살펴보면 다음과 같다.
오디오 초해상도 방식의 딥러닝 학습에서는, 먼저 고음질의 음성 데이터를 저음질의 음성 데이터로 변환하는 다운 샘플링(Down-sampling) 과정을 수행하고, 이렇게 변환된 저음질 음성 데이터의 레이어(layer)를 쌓아서 다시 고음질 음성 데이터로 변환하는 업샘플링(Up-sampling)을 수행한다.
이와 같이, 음성 데이터를 다운 샘플링 및 업샘플링하는 과정에서, 음량, 대역폭 및 신호잡음비 등과 같은 다양한 음성 인자값을 보정하도록 구성되는데, 본 실시예에서는 대역폭을 보정하는 오디오 초해상도 방식을 사용하였으며, 그에 따른 음성 데이터의 변화는 도 3을 통해 설명하기로 한다.
도 3은, 상술한 도 2의 오디오 초해상도 방식에 따라 변화되는 음성 데이터의 음성 인자값을 스펙트로그램(Spectrogram)을 통해 시각화하여 나타낸 도면으로, 가로축은 프레임(frame)을 나타내며, 세로축은 주파수(frequency)를 나타낸다.
먼저, 가장 왼쪽의 그림(a)은, 다운 샘플링되기 전의 고음질 음성 데이터로, 전 영역에서 비교적 뚜렷한 파형이 나타남을 알 수 있다.
그러나, 다운 샘플링이 진행된 두번째 그림(c)에서는, 고음질의 음성 데이터에서 대역폭이 줄어드는 다운 샘플링으로 인해, 200Hz 이상의 주파수 영역에서 고주파 손실이 발생하여 음성 파형이 나타나지 않은 것을 확인할 수 있으며, 200Hz 이하의 주파수 영역에서는 (a) 보다 파형이 번져서 뭉개진 것처럼 보이는 것을 확인할 수 있다.
세번째 그림(c)은, 음성 데이터의 베이스라인이 재건되며 대역폭을 확대하는 업샘플링이 이루어지는 과정으로, 상술한 (b)에서 뭉개진 것처럼 나타났던 200Hz 이하의 주파수 영역에서의 파형이 보다 뚜렷해지고, 200Hz 이상의 주파수 영역에서도 파형이 나타나기 시작한 것으로 보여진다.
마지막으로 그림 (d)에서는, 훈련된 신경망을 통해 대역폭을 조정하는 업샘플링이 완료되어 고음질 음성 데이터로 변환이 완료된 음성 데이터가 나타나는데, 그림 (d)를 살펴보면, 약간의 오차는 있지만, 다운 샘플링으로 인해 누락되었던 음성 신호를 복구함으로써, 오디오 초해상도를 위해 제공된 초기의 고음질 음성 데이터인 그림 (a)와 매우 유사한 수준으로 음성 변환이 진행된 것을 확인할 수 있다.
즉, 본 발명에서는 상술한 오디오 초해상도 방식을 통해, 데이터베이스에 저장된 데이터 세트로부터 음성 인자값을 수집하여, 저음질의 음성 데이터만을 추출하고, 추출된 저음질 음성 데이터의 음성 인자값을 보정하여 고음질의 음성 데이터로 변환하는 딥러닝 학습을 수행하여 음질 개선 알고리즘을 제공함으로써, 동영상 콘텐츠의 전체적인 음질을 보다 효율적으로 개선하면서, 음질 개선 프로세스를 효과적으로 단축할 수 있다.
도 4는 본 발명의 일실시예에 따른 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템의 음질 개선부에서 수행되는 음질 개선 프로세스를 보여주는 순서도이다.
본 발명에 따른 음질 개선 방법은 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템의 음질 개선부에서 수행되는 가운데, 도 4를 통해 이를 보다 상세히 살펴보면, 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템이 적용되는 동영상 콘텐츠 원본이 제공 또는 입력되면, 앞서 설명한 바와 같이, 딥러닝 학습부를 통해 도출된 음질 개선 알고리즘을 적용하여 동영상 콘텐츠 원본에서 저음질 음성 데이터만을 추출(S410)한 후, 고음질 음성 데이터로 변환(S420)한다.
이와 같이, 동영상 콘텐츠 원본으로부터, 저음질 음성 데이터만을 선별적으로 추출하여 고음질 음성 데이터로 변환하는 과정이 수행되면, 변환된 고음질 음성 데이터를 동영상 콘텐츠 원본과 다시 합성(S430)하는 과정이 수행되며, 음질이 개선된 동영상 파일이 새롭게 생성되며 딥러닝 기반의 동영상 콘텐츠 음질 개선 방법이 완료되게 된다.
이후, 고음질의 음성 데이터를 입력된 원본 동영상 콘텐츠에 재합성하여 생성되는 재합성 동영상 콘텐츠는, 처음 입력된 원본 동영상 콘텐츠와 쌍으로 매칭되어 데이터베이스에 저장되도록 구성되어, 딥러닝 학습부에 제공되는 학습 데이터로 재활용된다.
이때, 음질 개선 알고리즘이 적용되어 음질이 개선되어 새롭게 생성된 동영상 파일은 데이터베이스 뿐만 아니라 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템이 활용되는 단말 등과 같은 별도의 데이터 저장 수단에 저장될 수 있음은 물론이다.
이와 같이 구성되는 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법은, 데이터베이스에 저장된 데이터를 기반으로 기계학습을 수행하여, 음성 데이터에 포함된 저음질 데이터를 선별하여 추출하고, 추출된 저음질 데이터를 고음질 데이터로 변환하는 음질 개선 알고리즘을 도출하는 딥러닝 학습부 및 상기 딥러닝 학습부에서 도출된 음질 개선 알고리즘에 따라 입력된 동영상 콘텐츠에 포함된 저음질 데이터를 추출하고, 추출된 저음질 데이터를 고음질 데이터로 변환하여 동영상 콘텐츠에 재합성하여, 개선된 음질을 갖는 동영상 콘텐츠를 생성하는 음질 개선부를 구비하는 서버와 상기 서버에서 수행되는 기계학습 데이터가 저장되는 데이터베이스를 포함하도록 구성됨으로써, 동영상 콘텐츠의 전체적인 음질을 보다 효율적으로 개선하면서, 음질 개선 프로세스를 효과적으로 단축할 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러가지 치환, 변형 및 변경이 가능하다는 것은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백하다 할 것이다.
1: 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템
10: 딥러닝 학습부 20: 음질 개선부
100: 서버 200: 데이터베이스

Claims (8)

  1. 동영상 콘텐츠의 음질을 개선하기 위한 시스템에 있어서,
    딥러닝 기반의 기계학습을 통해 동영상 콘텐츠에 포함된 음성 데이터의 음질을 개선하는 서버; 및
    상기 서버에서 수행되는 기계학습 데이터가 저장되는 데이터베이스;를 포함하여 구성되되,
    상기 데이터베이스에는,
    다수개의 동영상 콘텐츠들에 대한 저음질 음성 데이터 및 고음질 음성 데이터들이 쌍으로 매칭되어 저장되고,
    상기 서버는,
    상기 데이터베이스에 저장된 데이터를 바탕으로 오디오 초해상도(Audio Super-Resolution) 방식의 기계학습을 수행하여, 음성 데이터의 음량, 대역폭 및 신호잡음비(S/N Ratio)를 포함하는 음성 인자값을 기반으로, 동영상 콘텐츠에 포함된 음성 데이터 중, 저음질 음성 데이터만을 선별하여 추출하고, 추출된 저음질 음성 데이터의 음성 인자에 대한 보정을 통해, 고음질 음성 데이터로 변환하는 음질 개선 알고리즘을 도출하는 딥러닝 학습부; 및
    상기 딥러닝 학습부에서 도출된 음질 개선 알고리즘에 따라, 입력된 동영상 콘텐츠에 포함된 저음질 음성 데이터만을 선별하여 추출하고, 추출된 저음질 음성 데이터를 고음질 음성 데이터로 변환한 후, 동영상 콘텐츠에 재합성하여, 개선된 음질을 갖는 동영상 콘텐츠를 생성하는 음질 개선부;
    를 포함하여 구성되어,
    동영상 콘텐츠의 음질 개선 속도 향상을 통해 음질 개선 프로세스를 단축시키는 것을 특징으로 하는 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제 1항에 있어서,
    상기 데이터베이스에는,
    상기 시스템에 입력되는 원본 동영상 콘텐츠와, 재합성된 동영상 콘텐츠가 쌍으로 매칭되어 누적, 저장되는 것을 특징으로 하는 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템.
  6. 동영상 콘텐츠의 음질을 개선하는 방법에 있어서,
    입력되는 동영상 콘텐츠에서 저음질의 음성 데이터만을 선별적으로 추출하는 단계;
    추출된 저음질의 음성 데이터를 고음질의 음성 데이터로 변환하는 단계; 및
    상기 고음질의 음성 데이터를 입력된 원본 동영상 콘텐츠에 재합성하는 단계;를 포함하여 구성되되,
    상기 저음질의 음성 데이터만을 선별적으로 추출하는 단계 및 추출된 저음질의 음성 데이터를 고음질의 음성 데이터로 변환하는 단계에서는,
    데이터베이스에 저장된 다수개의 동영상 콘텐츠들에 대한 저음질 음성 데이터 및 고음질 음성 데이터 쌍에 대해, 오디오 초해상도(Audio Super-Resolution) 방식의 반복적인 기계학습을 통해 도출되는 음질 개선 알고리즘을 이용하여, 음성 데이터의 음량, 대역폭 및 신호잡음비(S/N Ratio)를 포함하는 음성 인자값을 기반으로, 동영상 콘텐츠에 포함된 음성 데이터 중, 저음질 음성 데이터만을 선별하여 추출하고, 추출된 저음질 음성 데이터의 음성 인자를 보정하여 고음질 음성 데이터로 변환함으로써, 동영상 콘텐츠의 음질 개선 속도 향상을 통해 음질 개선 프로세스를 단축시키는 것을 특징으로 하는 딥러닝 기반의 동영상 콘텐츠 음질 개선 방법.
  7. 삭제
  8. 제 6항에 있어서,
    상기 고음질의 음성 데이터를 입력된 원본 동영상 콘텐츠에 재합성하여 생성되는 재합성 동영상 콘텐츠를, 처음 입력된 원본 동영상 콘텐츠와 쌍으로 매칭시켜 데이터베이스에 저장하는 단계;를 추가로 포함하는 것을 특징으로 하는 딥러닝 기반의 동영상 콘텐츠 음질 개선 방법.
KR1020200187570A 2020-12-30 2020-12-30 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법 KR102538008B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200187570A KR102538008B1 (ko) 2020-12-30 2020-12-30 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200187570A KR102538008B1 (ko) 2020-12-30 2020-12-30 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20220097622A KR20220097622A (ko) 2022-07-08
KR102538008B1 true KR102538008B1 (ko) 2023-05-31

Family

ID=82407400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200187570A KR102538008B1 (ko) 2020-12-30 2020-12-30 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102538008B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081033A (ja) * 2009-10-02 2011-04-21 Toshiba Corp 信号処理装置、及び携帯端末装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101087194B1 (ko) * 2009-11-10 2011-11-29 주식회사 노매드커넥션 동영상 인코딩 시스템 및 방법
KR20170107683A (ko) 2016-03-16 2017-09-26 한국전자통신연구원 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081033A (ja) * 2009-10-02 2011-04-21 Toshiba Corp 信号処理装置、及び携帯端末装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Volodymyr Kuleshov et al., ‘AUDIO SUPER-RESOLUTION USING NEURAL N’, arXiv:1708.00853v1 [cs.SD] 2 Aug. 2017.*
권순용 외 3명, ‘TTS (Text to Speech) 기술의 Audio 음질 개선 프로젝트’, 2019년 춘계학술발표대회 논문집, 제25권 제1호, 2019년 5월.*

Also Published As

Publication number Publication date
KR20220097622A (ko) 2022-07-08

Similar Documents

Publication Publication Date Title
WO2021073416A1 (zh) 基于神经网络生成虚拟人物视频的方法及相关设备
Romero-Fresco Respeaking: Subtitling through speech recognition
KR20150057591A (ko) 동영상파일에 대한 자막데이터 생성방법 및 장치
WO2021082823A1 (zh) 音频处理方法、装置、计算机设备及存储介质
CN110085244A (zh) 直播互动方法、装置、电子设备及可读存储介质
US10750149B2 (en) Information processing apparatus, information recording medium, information processing method, and program
JP2002374494A (ja) ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
KR102093938B1 (ko) 학습자가 선택한 동영상을 학습 콘텐츠로 활용하는 외국어 학습시스템 및 이의 학습 콘텐츠 생성방법
JP4594908B2 (ja) 解説付加音声生成装置及び解説付加音声生成プログラム
CN101039440A (zh) 用于数字屏幕广告的视频文件创建系统
CN111460094B (zh) 一种基于tts的音频拼接优化的方法及其装置
DE2237255A1 (de) Verfahren und anordnung zur aufzeichnung und wiedergabe von videosignalen
CN110728971B (zh) 一种音视频合成方法
KR102538008B1 (ko) 딥러닝 기반의 동영상 콘텐츠 음질 개선 시스템 및 그 방법
US8553855B2 (en) Conference support apparatus and conference support method
CN112995748A (zh) 基于多模态的自动弹幕生成方法、系统、存储介质及设备
El-Bawab Telecommunication engineering education (TEE): Making the case for a new multidisciplinary undergraduate field of study
CN109525787B (zh) 面向直播场景的实时字幕翻译及系统实现方法
CN114694629B (zh) 用于语音合成的语音数据扩增方法及系统
WO2020157978A1 (ja) 情報処理装置
CN114842858A (zh) 一种音频处理方法、装置、电子设备及存储介质
JP3766534B2 (ja) 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体
CN114155321A (zh) 一种基于自监督和混合密度网络的人脸动画生成方法
US20240274120A1 (en) Speech synthesis method and apparatus, electronic device, and readable storage medium

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant