KR102113542B1 - 심층신경망을 이용하여 음향 신호를 정규화하는 방법 - Google Patents

심층신경망을 이용하여 음향 신호를 정규화하는 방법 Download PDF

Info

Publication number
KR102113542B1
KR102113542B1 KR1020170163636A KR20170163636A KR102113542B1 KR 102113542 B1 KR102113542 B1 KR 102113542B1 KR 1020170163636 A KR1020170163636 A KR 1020170163636A KR 20170163636 A KR20170163636 A KR 20170163636A KR 102113542 B1 KR102113542 B1 KR 102113542B1
Authority
KR
South Korea
Prior art keywords
short
input
devices
signal
term spectrum
Prior art date
Application number
KR1020170163636A
Other languages
English (en)
Other versions
KR20190064235A (ko
Inventor
최승호
윤덕규
최재규
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020170163636A priority Critical patent/KR102113542B1/ko
Publication of KR20190064235A publication Critical patent/KR20190064235A/ko
Application granted granted Critical
Publication of KR102113542B1 publication Critical patent/KR102113542B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명의 일 실시예에 따른 복수의 기기에서 취득한 음향 신호를 정규화하는 방법은, 복수의 기기에서 입력된 음향 신호를 수집하는 단계, 상기 수집한 음향 신호로부터 복수의 단구간 스펙트럼을 생성하는 단계, 상기 복수의 기기 중 기준 기기를 결정하는 단계, 심층신경망(Deep Neural Network)을 이용하여, 상기 복수의 기기의 단구간 스펙트럼에 대한 상기 기준 기기의 단구간 스펙트럼의 비율을 학습하는 단계, 복수의 기기 중 어느 하나의 기기로부터 음향 신호를 입력받는 단계, 상기 학습된 심층신경망을 이용하여, 상기 입력된 음향 신호의 단구간 스펙트럼 대한 상기 비율을 산출하는 단계, 및 상기 입력된 음향 신호의 단구간 스펙트럼에 상기 산출된 비율을 곱하여 정규화된 신호를 생성하는 단계를 포함한다.

Description

심층신경망을 이용하여 음향 신호를 정규화하는 방법{METHOD OF NORMALIZING SOUND SIGNAL USING DEEP NEURAL NETWORK}
본 발명은 심층신경망을 이용하여 음향 신호를 정규화하는 방법에 관한 것이다.
최근 VR(Virtual Reality) 기술이 발달하며 시각적인 효과뿐만 아니라 입체 음향 기술의 발달이 요구되고 있다. 가상현실(Virtual Reality) 기술은 인공적으로 만들어낸 실제와 유사하지만 실제가 아닌 특수한 상황이나 환경을 만들어내는 기술을 말한다. 가상현실 기술은 사용자의 경험을 창출한다는 점에서 일반 시뮬레이션 기술과는 차이가 있으며, 시간적, 공간적으로 유한한 한계를 초월할 수 있다는 점에서 각광 받고 있다. 가상현실 기술은 인간의 오감을 이용해 실제와 같도록 일종의 착각을 유도하는 기술이며, 이때 가장 중요시 되는 것이 시각과 청각이다. 현재 시각 위주의 가상현실 기술은 청각, 촉각, 후각, 미각과 같은 인간의 감각과 합성될 여지가 있으며, 형성된 가상 현실은 군사, 항공, 의학 등 여러 분야에서 활용될 수 있다.
기존의 VR 미디어는 특수한 장비를 이용해 촬영되었으며, 음향 또한 특수한 마이크를 사용하기 때문에 전문가가 아닌 이상 VR 미디어를 제작하기 어렵다는 한계점을 가지고 있었다. 특수한 장비를 사용하지 않은 사용자 제작 콘텐츠(User created contents)를 이용하여 입체 영상 및 입체 음향을 구현하기 위해서는 서로 다른 기기로 촬영된 UCC를 연결할 필요가 있으나, 기기 별로 주파수 응답이 서로 다르기 때문에 서로 다른 기기에서 입력된 음향을 연결 시 부자연스러운 음향이 발생하게 된다.
미국등록특허공보 제7369668호
본 발명은 심층 신경망을 이용하여 다수의 기기로부터 입력된 음향 신호를 프레임 단위로 정규화함으로써, 서로 다른 기기로부터 입력된 음향 신호를 연결하 시 음향의 자연성을 개선하고자 한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예에 따른 복수의 기기에서 취득한 음향 신호를 정규화하는 방법은 복수의 기기에서 입력된 음향 신호를 수집하는 단계, 상기 수집한 음향 신호로부터 복수의 단구간 스펙트럼을 생성하는 단계, 상기 복수의 기기 중 기준 기기를 결정하는 단계, 심층신경망(Deep Neural Network)을 이용하여, 상기 복수의 기기의 단구간 스펙트럼에 대한 상기 기준 기기의 단구간 스펙트럼의 비율을 학습하는 단계, 복수의 기기 중 어느 하나의 기기로부터 음향 신호를 입력 받는 단계, 상기 학습된 심층신경망을 이용하여, 상기 입력된 음향 신호의 단구간 스펙트럼 대한 상기 비율을 산출하는 단계, 및 상기 입력된 음향 신호의 단구간 스펙트럼에 상기 산출된 비율을 곱하여 정규화된 신호를 생성하는 단계를 포함할 수 있다.
상기 정규화 방법은 상기 단구간 스펙트럼을 생성하는 단계에 앞서, 상기 복수의 기기에서 수집한 음향 신호와 상기 기준 기기에서 수집한 음향 신호를 동기화하는 단계를 더 포함할 수 있다.
상기 단구간 스펙트럼을 생성하는 단계는, 상기 복수의 기기에서 수집한 각각의 신호를 기 설정된 시간 간격으로 분할하는 단계 및 FFT(Fast Fourier Transform)을 통해 상기 분할된 신호로부터 단구간 스펙트럼을 생성하는 단계를 포함할 수 있다.
상기 학습하는 단계는, 상기 심층신경망의 입력 레이어에 상기 복수의 기기의 단구간 스펙트럼을 입력하고, 출력 레이어에 상기 복수의 기기의 단구간 스펙트럼에 대한 상기 기준 기기의 단구간 스펙트럼의 비율을 입력한 후, 상기 비율의 산출 과정을 학습할 수 있다.
상기 정규화된 신호를 생성하는 단계는, 상기 입력된 음향 신호의 단구간 스펙트럼에 상기 산출된 비율을 곱하여 정규화된 단구간 스펙트럼을 생성하는 단계, IFFT(Inverse Fast Fourier Transform)을 통해 상기 정규화된 단구간 스펙트럼을 정규화된 단구간 음향 신호로 변환하는 단계, 및 상기 정규화된 단구간 음향 신호를 연결하여 정규화된 음향 신호를 생성하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
본 발명은 심층신경망을 이용하여 프레임단위로 음향 신호를 정규화함으로써 복수의 기기로부터 입력된 음향 신호를 자연스럽게 연결할 수 있는 음향 신호 정규화 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 복수의 기기로부터 음향 신호를 입력받는 예시를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 심층 신경망을 이용하여 스펙트럼의 비율을 학습하는 과정을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 심층 신경망을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 학습된 심층 신경망을 이용하여 음향 신호를 정규화하는 과정을 나타낸 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 심층 신경망을 이용하여 음향 신호를 정규화하는 예시를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 정규화 처리의 효과를 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
도 1은 본 발명의 일 실시예에 따른 복수의 기기로부터 음향 신호를 입력받는 예시를 설명하기 위한 도면이다.
도 1을 참조하면, 콘서트 장에서 제 1 관객은 제 1 스마트폰(100)을 이용하여 동영상을 촬영하고, 제 2 관객은 제 2 스마트폰 (120)을 이용하여 동영상을 촬영할 수 있다. 도시되지 않았지만, 제 3 관객의 제 3 스마트폰 또는 그 이상의 관객의 스마트 폰을 이용하여 동영상을 촬영할 수 있다.
제 1 스마트폰(100)으로부터 촬영된 동영상과 제 2 스마트폰(120)으로 촬영된 동영상은 주파수 응답 등 기기의 특성 등에 따라 서로 다른 음향 신호를 포함할 수 있다.
서로 다른 기기에서 입력된 음향 신호를 결합하고자 하는 경우, 예컨대, 제 1 스마트폰(100)으로부터 촬영된 동영상과 제 2 스마트폰(120)으로 촬영된 동영상을 결합하여 입체 영상과 입체 음향을 포함하는 VR 컨텐츠를 제작하고자 하는 경우, 기기별로 서로 다른 주파수 응답에 기인한 부자연스러운 음향이 발생하게 된다.
본 발명의 일 실시예에 따른 음향 신호의 정규화 방법은 서로 다른 기기에서 입력된 음향 신호를 연결 시, 심층 신경망을 이용하여 프레임 단위로 음향 신호의 정규화 처리를 수행함으로써 음향 신호의 자연성을 개선할 수 있다. 이하에서는 도 2 내지 도 6을 참조하여 본 발명의 음향 신호 정규화 방법에 관하여 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따른 심층 신경망을 이용하여 스펙트럼의 비율을 학습하는 과정을 나타낸 흐름도이다. 도 2에 도시된 일 실시예에 따른 심층 신경망을 이용하여 비율을 학습하는 방법은 신호 처리 서버 등에 의해 수행될 수 있다.
도 2를 참조하면, 단계 S200에서 복수의 기기에서 입력된 음향 신호를 수집한다.
복수의 기기는 영상을 촬영할 수 있는 기기로서 스마트 폰, 카메라, 캠코더, 액션 캠 등을 포함할 수 있다. 복수의 기기는 음향을 녹음할 수 있는 기기로서 녹음기 등을 더 포함할 수 있다.
복수의 기기로부터 입력된 복수의 음향 신호, 예컨대, Galaxy s4에서 녹음된 음향 신호, iPhone 7에서 녹음된 음향 신호, 고프로 히어로 5에서 녹음된 음향 신호 등을 수집할 수 있다.
복수의 기기에서 녹음된 음향 신호는 서로 동기화할 수 있도록 동일하거나 또는 대응되는 음향 신호를 포함할 수 있다. 예컨대, 동일한 노래를 Galaxy s4에서 녹음한 음향 신호와 iPhone 7에서 녹음한 음향 신호를 포함할 수 있다.
단계 S210에서 수집된 음향 신호로부터 복수의 단구간 스펙트럼을 생성한다.
단구간이란, 기기에서 수집한 신호를 기 설정된 시간 간격으로 분할하여 단구간 신호를 생성한 것일 수 있다. 예컨대, 1초 길이의 신호를 20ms의 시간 간격으로 분할하여 20 ms 길이의 단구간 신호 50개를 생성할 수 있다.
스펙트럼이란, 시간축의 음향 신호를 푸리에 변환한 것으로서, 본 발명의 일 실시예에서의 스펙트럼은 푸리에 변환한 값의 크기를 포함할 수 있다.
복수의 기기에서 수집한 각각의 신호를 기 설정된 시간 간격으로 분할한 후, 각각의 분할된 단구간 신호를 FFT(Fast Fourier Transform)을 통해 단구간 스펙트럼으로 변환할 수 있다.
예컨대, 복수의 스마트폰으로부터 음향 신호를 수집할 수 있고, 이 때, 샘플링 주파수는 44.1kHz일 수 있다. 복수의 기기에서 수집된 신호를 프레임의 크기 20ms로 분할한 후, 푸리에 변환을 통해 단구간 스펙트럼을 생성할 수 있다. 이 때, 1024 포인트 FFT를 사용하고, 50%를 중첩하고, Hanning 윈도우를 사용할 수 있다.
FFT Point를 1024로 설정하여 푸리에 변환하는 경우 하나의 단구간(프레임)에서 1024개의 FFT결과값을 얻을 수 있으며, 이 값은 대칭성을 띄기 때문에 절반인 512개만을 취하고 이 때 DC성분을 고려하여 총 513개의 값을 이용하여 이하에서 설명할 심층신경망의 학습을 수행할 수 있다.
단계 S220에서 복수의 기기 중 기준 기기를 결정한다.
예컨대, 복수의 기기 중 iPhone 7을 기준 기기로 결정할 수 있다. 예컨대, 복수의 기기 중 입력된 음향 신호의 노이즈가 적은 기기를 기준 기기로 결정할 수 있다. 기준 기기를 결정하는 방법은 이에 제한되지 않으며, 다양한 요소를 고려하여 기준 기기를 결정할 수 있다.
단계 S230에서 심층 신경망을 이용하여 복수의 기기의 단구간 스펙트럼에 대한 기준 기기의 단구간 스펙트럼의 비율을 학습한다.
본 발명의 일 실시예에 따른 심층 신경망은 입력 레이어와 출력 레이어 사이에 다중의 은닉 레이어를 포함하는 인공 신경망으로서, 다양한 비선형적 관계를 학습할 수 있다.
심층신경망의 입력 레이어에 복수의 기기에서 입력된 음향 신호의 단구간 스펙트럼 Xin(i)을 입력하고, 출력 레이어에 복수의 기기의 단구간 스펙트럼 Xin(i)에 대한 기준 기기의 단구간 스펙트럼 Xref(i)의 비율 r(i)를 입력한 후, 비율 r(i)의 산출 과정을 학습할 수 있다. r(i)를 수식으로 표현하면 다음과 같다.
Figure 112017119984813-pat00001
N은 주파수 영역에서 DC성분을 포함한 half 스펙트럼 대역까지의 주파수 해상도 (frequency bin)로서, 예컨대, 단구간 음향 신호에 대해 FFT Point를 1024로 설정하여 푸리에 변환 시, 1024개의 푸리에 결과가 나오고, 대칭성에 따라 절반인 512를 취한 후 DC성분을 추가하면 513개의 값이 나오므로, N은 513일 수 있다.
도시하지 않았지만, 단계 S210에 앞서, 복수의 기기에서 수집한 음향 신호와 기준 기기에서 수집한 음향 신호를 동기화하는 단계를 더 포함할 수 있다.
예컨대, iPhone 7을 기준 기기로 결정한 경우, 복수의 기기에서 수집한 음향 신호를 iPhone 7에서 수집한 음향 신호에 동기화 처리한 후, 복수의 기기에서 수집한 음향 신호의 단구간 스펙트럼을 생성할 수 있다.
상술한 설명에서, 단계 S200 내지 S230은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 3은 본 발명의 일 실시예에 따른 심층 신경망을 설명하기 위한 도면이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 심층 신경망(300)은 입력 레이어(310), 출력 레이어(320), 및 은닉 레이어(330)를 포함할 수 있다. 도 3에는 은닉 레이어(330)의 개수가 3개로 도시되어 있으나 은닉 레이어의 개수는 이에 제한되지 않는다.
입력 레이어(310)의 N개의 입력 노드에는 복수의 기기에서 입력된 단구간 스펙트럼의 크기(312)를 각각 입력할 수 있다. 예컨대, 기기 1에서 입력된 음향 신호 1을 분할하여 x 개의 단구간 스펙트럼을 생성하고, 기기 2에서 입력된 음향 신호 2를 분할하여 y개의 단구간 스펙트럼을 생성하고, 기기 3에서 수집된 음향 신호 3을 분할하여 z개의 단구간 스펙트럼을 생성하는 경우, x+y+z개의 입력 데이터가 생성될 수 있다. 각각의 입력 데이터는 N개의 스펙트럼 크기 값을 포함하고, N개의 스펙트럼 크기 값은 각각의 입력 노드에 입력될 수 있다.
출력 레이어(320)의 N개의 출력 노드에는 복수의 기기의 단구간 스펙트럼의 크기에 대한 기준 기기의 단구간 스펙트럼의 크기의 비율(322)을 입력할 수 있다. 출력 노드에 입력되는 비율(322)은 입력 노드에 입력된 단구간 스펙트럼의 크기에 대한 기준 수신기의 스펙트럼의 크기일 수 있다. 따라서, 입력 레이어에 입력되는 데이터가 x+y+z개인 경우, 출력 레이어에 입력되는 데이터도 x+y+z개 존재할 수 있다.
출력 레이어(320)에 입력되는 데이터는 복수의 기기에서 수집한 신호와 기준 기기에서 수집한 신호를 동기화한 후 같은 구간에 대하여 계산된 비율일 수 있다.
입력 레이어(310)와 출력 레이어(320)에 각각의 데이터를 입력한 후 입력값으로부터 출력값이 도출되는 과정을 학습할 수 있다. 각각의 입력 노드 및 출력 노드는 심층 신경망의 은닉 레이어의 노드와 연결되며 학습 과정에서 관련성이 적은 노드를 Drop Out 시키며 학습을 진행하게 된다.
입력 노드에 입력된 푸리에 결과값들이 심층신경망을 통과하며 출력 노드에 입력된 비율 값과 같아지도록 심층 신경망이 학습되며, 적용 시에는 이렇게 학습된 심층신경망을 이용하여 단구간 음향 입력 신호에 대한 비율 값을 산출하고, 입력 음향 신호에 산출된 비율값을 곱하여 최종 정규화 처리된 출력을 구할 수 있다. 이하 도 4를 참조하여 적용 과정에 대해 상세히 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 학습된 심층 신경망을 이용하여 음향 신호를 정규화하는 과정을 나타낸 흐름도이다.
도 4를 참조하면, 단계 S400에서 기기로부터 음향 신호를 입력 받는다. 기기는 심층 신경망의 학습에 이용된 복수의 기기 중 어느 하나일 수 있으며, 심층 신경망의 학습에 이용되지 않은 기기일 수도 있다.
단계 S410에서 학습된 심층 신경망을 이용하여 입력된 음향 신호의 단구간 스펙트럼에 대한 비율을 산출한다.
입력된 음향 신호를 기 설정된 시간으로 분할한 후, 푸리에 변환을 통해 단구간 스펙트럼을 생성할 수 있다. 생성된 단구간 스펙트럼의 크기를 학습된 심층 신경망의 입력 레이어에 입력하면, 출력 레이어를 통하여, 입력된 음향 신호의 단구간 스펙트럼에 대한 기준 기기의 단구간 스펙트럼에 대한 비율을 산출할 수 있다.
예컨대, 학습된 심층 신경망의 입력 레이어에 음향 신호의 단구간 스펙트럼의 크기인 |X(1)|, |X(2)|,…, |X(N)|을 입력하면, 심층 신경망의 출력 레이어를 통해, 입력 레이어에 입력된 값에 대한 출력값인 r(1), r(2),…, r(N)을 얻을 수 있다.
단계 S420에서 입력된 음향 신호의 단구간 스펙트럼에 산출된 비율을 곱하여 정규화된 신호를 생성한다.
입력된 신호의 단구간 스펙트럼에 산출된 비율을 곱하면 기준 기기에 대하여 정규화된 단구간 스펙트럼을 산출할 수 있다. 즉, 입력된 신호 Xin(i)에 심층신경망을 통해 산출된 r(i)값을 각각 곱하여 Xref(i)값을 계산할 수 있다.
예컨대, 기기 1의 단구간 스펙트럼의 크기가 기준 기기의 단구간 스펙트럼의 크기보다 작은 경우, 기기 1의 단구간 스펙트럼에 대한 심층 신경망의 출력 r(i)를 곱하여 기기 1의 단구간 스펙트럼의 크기를 키울 수 있다. 이를 통해 서로 다른 기기에서 입력된 음향 신호를 기준 기기에 입력된 음향 신호와 유사해지도록 정규화할 수 있다.
정규화된 단구간 스펙트럼을 IFFT(Inverse Fast Fourier Transform)을 통해 정규화된 단구간 신호로 변환하고, 각각의 변환된 단구간 신호를 연결하여 정규화된 신호를 생성할 수 있다.
상술한 설명에서, 단계 S400 내지 S420은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 5는 본 발명의 일 실시예에 따른 심층 신경망을 이용하여 음향 신호를 정규화하는 예시를 설명하기 위한 도면이다.
도 5를 참조하면, 도 5는 IPhone 7을 기준 기기로 결정하였을 때, Galaxy S4에서 입력된 음향 신호를 IPhone 7에 대해 정규화하는 예시를 나타낸다. 심층 신경망의 입력 레이어(510)에 Galaxy S4에 입력된 음향 신호의 단구간 스펙트럼의 크기를 입력하면, 출력 레이어(520)에는 Galaxy S4에서 입력된 음향 신호의 단구간 스펙트럼의 크기에 대한 IPhone 7의 단구간 스펙트럼의 크기의 비율이 산출된다. 도 5에 도시된 심층 신경망은 복수의 기기에서 입력된 음향 신호에 대하여 비율값을 산출하도록 학습된 것일 수 있다.
도 6은 본 발명의 일 실시예에 따른 정규화 처리의 효과를 설명하기 위한 도면이다.
도 6을 참조하면, 스펙트로그램(620)은 iPhone 7에서 취득한 음향 신호을 나타내고, 스펙트럼(620)은 iPhone 7과 다른 여러 기종의 스마트폰으로 취득한 음향 신호를 1초 간격으로 연결한 것을 나타낸다. 스펙트로그램 (630)은 연결한 음향을 심층신경망을 이용하여 정규화 처리한 음향 신호를 나타낸다. 정규화 처리 전의 스펙트로그램(620)과 정규화 처리 후의 스펙트로그램(630) 을 비교해보면, 기기별 차단주파수 차이 때문에 계단식으로 보이는 구간들과 경계구간에 있는 노이즈 등이 정규화 처리 후에는 많이 보완된 것을 확인할 수 있다. 연결된 신호의 전체 스펙트로그램이 iPhone 7의 스펙트로그램(610)과 비슷해졌으며, 비공식적 청취 테스트 (informal listening test)를 통해 소리가 자연스러워졌음을 확인할 수 있었다.
객관적인 수치로 결과를 비교하기 위하여 LSD(Log Spectral Distance)를 계산해본 결과, 정규화 처리 전의iPhone 7과의 거리는 8.19 dB이었으며, 정규화 처리 후에는 6.33 dB로 감소한 것을 확인할 수 있었다.
종래 기술에서는 정규화를 하고자 할 때, 주파수응답의 비율을 일괄 적용하였다. 이 때 기기의 기종을 모른다고 가정하면 곱해지는 주파수 응답의 비율은 통계적으로 구한 일정한 값이며, 이는 실제 환경에서의 잡음, Room impulse response, 잔향 등을 반영 할 수 없다는 한계가 있었다.
본 발명에서는 심층신경망을 이용하여 프레임단위의 입력에 대한 출력을 구할 수 있으며, 기기의 기종을 모르더라도 심층 신경망의 학습을 통해 비율을 훈련하기 때문에 실제 환경에서의 복잡한 특징들을 더욱 잘 반영 할 수 있다.
도 2 및 도 4에 도시된 심층 신경망을 이용하여 스펙트럼의 비율을 학습하는 방법 및 학습된 심층 신경망을 이용하여 신호를 정규화하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
300: 심층 신경망
310: 입력 레이어
320: 출력 레이어
330: 은닉 레이어

Claims (5)

  1. 복수의 기기에서 취득한 음향 신호를 정규화하는 방법에 있어서,
    복수의 기기에서 입력된 음향 신호를 수집하는 단계;
    상기 수집한 음향 신호로부터 복수의 단구간 스펙트럼을 생성하는 단계;
    상기 복수의 기기 중 기준 기기를 결정하는 단계;
    심층신경망(Deep Neural Network)을 이용하여, 상기 복수의 기기의 단구간 스펙트럼에 대한 상기 기준 기기의 단구간 스펙트럼의 비율을 학습하는 단계;
    복수의 기기 중 어느 하나의 기기로부터 음향 신호를 입력받는 단계;
    상기 학습된 심층신경망을 이용하여, 상기 입력된 음향 신호의 단구간 스펙트럼 대한 상기 비율을 산출하는 단계; 및
    상기 입력된 음향 신호의 단구간 스펙트럼에 상기 산출된 비율을 곱하여 정규화된 신호를 생성하는 단계를 포함하고,
    상기 학습하는 단계는,
    상기 심층신경망의 입력 레이어에 상기 복수의 기기의 단구간 스펙트럼을 입력하고, 출력 레이어에 상기 복수의 기기의 단구간 스펙트럼에 대한 상기 기준 기기의 단구간 스펙트럼의 비율을 입력한 후, 상기 비율의 산출 과정을 학습하는 것이고,
    상기 심층신경망은 N 개의 입력 노드를 포함하는 상기 입력 레이어 및 N 개의 출력 노드를 포함하는 상기 출력 레이어를 포함하고,
    상기 N의 값은 상기 수집한 음향 신호에 대한 주파수 영역에서 직류(DC) 성분을 포함하는 하프(half) 스펙트럼 대역까지의 주파수 해상도(frequency bin)에 기초하여 결정되는 것인, 정규화 방법.
  2. 제 1 항에 있어서
    상기 단구간 스펙트럼을 생성하는 단계에 앞서, 상기 복수의 기기에서 수집한 음향 신호와 상기 기준 기기에서 수집한 음향 신호를 동기화하는 단계
    를 더 포함하는 것인, 정규화 방법.
  3. 제 1 항에 있어서,
    상기 단구간 스펙트럼을 생성하는 단계는,
    상기 복수의 기기에서 수집한 각각의 신호를 기 설정된 시간 간격으로 분할하는 단계, 및
    FFT(Fast Fourier Transform)을 통해 상기 분할된 신호로부터 단구간 스펙트럼을 생성하는 단계
    를 포함하는 것인, 정규화 방법
  4. 삭제
  5. 제 1 항에 있어서,
    상기 정규화된 신호를 생성하는 단계는,
    상기 입력된 음향 신호의 단구간 스펙트럼에 상기 산출된 비율을 곱하여 정규화된 단구간 스펙트럼을 생성하는 단계,
    IFFT(Inverse Fast Fourier Transform)을 통해 상기 정규화된 단구간 스펙트럼을 정규화된 단구간 음향 신호로 변환하는 단계, 및
    상기 정규화된 단구간 음향 신호를 연결하여 정규화된 음향 신호를 생성하는 단계
    를 포함하는 것인, 정규화 방법.
KR1020170163636A 2017-11-30 2017-11-30 심층신경망을 이용하여 음향 신호를 정규화하는 방법 KR102113542B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170163636A KR102113542B1 (ko) 2017-11-30 2017-11-30 심층신경망을 이용하여 음향 신호를 정규화하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170163636A KR102113542B1 (ko) 2017-11-30 2017-11-30 심층신경망을 이용하여 음향 신호를 정규화하는 방법

Publications (2)

Publication Number Publication Date
KR20190064235A KR20190064235A (ko) 2019-06-10
KR102113542B1 true KR102113542B1 (ko) 2020-05-21

Family

ID=66848346

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170163636A KR102113542B1 (ko) 2017-11-30 2017-11-30 심층신경망을 이용하여 음향 신호를 정규화하는 방법

Country Status (1)

Country Link
KR (1) KR102113542B1 (ko)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI116505B (fi) 1998-03-23 2005-11-30 Nokia Corp Menetelmä ja järjestelmä suunnatun äänen käsittelemiseksi akustisessa virtuaaliympäristössä

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
D. P. Kingma, et al. Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2015.*
Hong Lu, et al. SoundSense: scalable sound sensing for people-centric applications on mobile phones. 7th international conference on Mobile systems, applications, and services. ACM, 2009.*
이동석, et al. 히스토그램 매칭을 이용한 다시점 비디오의 휘도와 색차 성분 보상 기법, 한국방송미디어공학회 학술발표대회 논문집, 2009.*
최재규, et al. 가상현실 음향 재구성을 위한 심층신경망 기반 스마트폰의 주파수응답 정규화 방법, 한국방송·미디어공학회 2017 추계학술대회, 2017.11.03.*

Also Published As

Publication number Publication date
KR20190064235A (ko) 2019-06-10

Similar Documents

Publication Publication Date Title
US11456005B2 (en) Audio-visual speech separation
US20210089967A1 (en) Data training in multi-sensor setups
JP2019216408A (ja) 情報を出力するための方法、及び装置
Singh et al. Image2reverb: Cross-modal reverb impulse response synthesis
US20210343305A1 (en) Using a predictive model to automatically enhance audio having various audio quality issues
JP6054142B2 (ja) 信号処理装置、方法およびプログラム
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
JP2014215461A (ja) 音声処理装置および方法、並びにプログラム
Zhao et al. Audio splicing detection and localization using environmental signature
KR101724320B1 (ko) 서라운드 채널 오디오 생성 방법
JP7214798B2 (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
DE102014118075A1 (de) Audio und Video synchronisierendes Wahrnehmungsmodell
US20230395087A1 (en) Machine Learning for Microphone Style Transfer
Hoffmann et al. Bass enhancement settings in portable devices based on music genre recognition
US20200389749A1 (en) Source separation for reverberant environment
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
Kendrick et al. Perceived audio quality of sounds degraded by non-linear distortions and single-ended assessment using HASQI
US12073844B2 (en) Audio-visual hearing aid
US20230260527A1 (en) Audio data processing method and apparatus, device, and medium
KR102113542B1 (ko) 심층신경망을 이용하여 음향 신호를 정규화하는 방법
CN111009259B (zh) 一种音频处理方法和装置
CN115116469B (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN117373468A (zh) 远场语音增强处理方法、装置、计算机设备和存储介质
CN113707163A (zh) 语音处理方法及其装置和模型训练方法及其装置
WO2018044801A1 (en) Source separation for reverberant environment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)