KR102289218B1 - 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 - Google Patents
생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 Download PDFInfo
- Publication number
- KR102289218B1 KR102289218B1 KR1020190100976A KR20190100976A KR102289218B1 KR 102289218 B1 KR102289218 B1 KR 102289218B1 KR 1020190100976 A KR1020190100976 A KR 1020190100976A KR 20190100976 A KR20190100976 A KR 20190100976A KR 102289218 B1 KR102289218 B1 KR 102289218B1
- Authority
- KR
- South Korea
- Prior art keywords
- sound
- generator
- domain
- acoustic
- deformed
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013519 translation Methods 0.000 title claims description 14
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012986 modification Methods 0.000 claims abstract description 28
- 230000004048 modification Effects 0.000 claims abstract description 28
- 230000001131 transforming effect Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 41
- 230000009466 transformation Effects 0.000 claims description 35
- 238000013507 mapping Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 238000002715 modification method Methods 0.000 claims description 4
- 238000011426 transformation method Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 9
- 239000003607 modifier Substances 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000029058 respiratory gaseous exchange Effects 0.000 description 4
- 230000021615 conjugation Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
음향 변형 시스템 및 방법을 개시한다.
본 실시예는, 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형 시, 셀프 어텐션 모듈 및 특성 손실함수에 기반하는 트레이닝을 적용하여, 타겟 음색을 모사하는 변형은 용이하게 하면서도 음정, 장단, 묵음(silence) 및 진동과 같은 요소는 유지함으로써 변형된 음향의 현실성이 증대되는 음향 변형 시스템 및 방법을 제공하는 데 목적이 있다.
본 실시예는, 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형 시, 셀프 어텐션 모듈 및 특성 손실함수에 기반하는 트레이닝을 적용하여, 타겟 음색을 모사하는 변형은 용이하게 하면서도 음정, 장단, 묵음(silence) 및 진동과 같은 요소는 유지함으로써 변형된 음향의 현실성이 증대되는 음향 변형 시스템 및 방법을 제공하는 데 목적이 있다.
Description
본 발명은 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형을 구현하기 위한, 생성적 대립 네트워크를 이용한 음향 변형 시스템 및 방법에 관한 것이다.
이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
특정한 가수의 목소리로 특정한 노래를 듣고 싶으나, 그 상황의 실현이 현실적으로 가능하지 않을 때, 음향 변형(sound translation)이 유용한 방법이다. 그러나 변형 대상 간에 서로 짝이 맞지 않는(mutually unpaired) 경우가 대부분일 뿐만 아니라, 가사(lyrics)나 음고(pitch)에 대한 정보가 부족한 상황에서 음향 변형이 시도되어야 한다. 서로 다른 두 가수로부터 시간 동기된(time-synchronized) 데이터를 얻기가 현실적으로 곤란하다는 점도 음향 변형을 어렵게 한다.
종래의 방법으로서, 예컨대 특허문헌 1 또는 비특허문헌 2에서는, 이종 이미지 도메인 간의 형식(style)이나 형태(shape) 변형이 가능한 학습 모델을 제시했다. 그러나 이종 이미지 간의 변형이 가능하다 해도, 서로 짝이 되는 이미지를 모으는 것은 시간 및 비용을 많이 필요로 한다. 음색 변화(timbre change)가 중요한 음향 변형의 경우는, 전술한 대로 시간 동기된 데이터를 얻기가 현실적으로 불가능하여 시도된 예가 드물었다.
종래의 방법으로서, 예컨대 비특허문헌 3에서는, 짝이 맞지 않는 음성(unpaired voice)을 주파수 영역에서 표현한 후(마치 이미지 형식인 것처럼), 비특허문헌 2에 예시된 학습 모델을 이용하여 이종 음성 간의 변형을 시도하였다. 시도 결과로서, MOS(Mean Opinion Score) 테스트라는 주관적인 검증 방법을 통하여 변형 전후의 음성 간 운율(prosody)의 변화를 확인하였다. 음고를 지닌 음향(pitched sound)의 경우에는, 운율 외에도 풍부한 고조파 구조(harmonic structures)가 분명하게 관찰되므로, 고조파 구조는 음향을 표현하는 음색의 중요한 요소이다. 따라서, 타겟 음색을 모사하는 변형이 용이할 수 있도록 고조파 구조를 더 많이 반영할 수 있는 블록 및 비용함수가 고려된 음향 변형방법을 필요로 한다.
비특허문헌 1: Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. In Advances in Neural Information Processing Systems(NIPS), 2014.
비특허문헌 2: Zhu, J., Park, T., Isola, P., and Efros, A. A. Unpaired image-to-image translation using cycle-consistent adversarial networks. 2017.
비특허문헌 3: Kaneko, T. and Kameoka, H. Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks. In EUSIPCO, pp. 2100-2104, 2018.
본 개시는, 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형 시, 셀프 어텐션 모듈 및 특성 손실함수에 기반하는 트레이닝을 적용하여, 타겟 음색을 모사하는 변형은 용이하게 하면서도 음정, 장단, 묵음(silence) 및 진동과 같은 요소는 유지함으로써, 변형된 음향의 현실성이 증대되는 음향 변형 시스템 및 방법을 제공하는 데 주된 목적이 있다.
본 발명의 실시예에 의하면, 음향(sound) 데이터 간 변형(translation)을 위한 음향 변형 시스템에 있어서, 제1 도메인의 제1 음향을 제1 변형 음향으로 변형하기 위한 제1 생성기(generator); 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하기 위한 제2 생성기; 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 상기 제2 변형 음향을 구별하기 위한 제1 구별기(discriminator); 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향을 구별하기 위한 제2 구별기; 및 상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기를 트레이닝하는 트레이닝부를 포함하며, 상기 트레이닝부는 상기 제1 생성기와 상기 제2 구별기를 서로 대립적으로 트레이닝하며, 상기 제2 생성기와 상기 제1 구별기를 서로 대립적으로 트레이닝하는 것을 특징으로 하는 음향 변형 시스템을 제공한다.
또한 본 발명의 다른 실시예에 의하면, 음향(sound) 데이터 간 변형(translation)을 위한 음향 변형 시스템에 있어서, 제1 도메인의 제1 음향을, 제2 도메인의 타겟 음향을 모사하여 제1 변형(translated) 음향으로 변형하는 제1 생성기(generator); 및 제2 도메인의 제2 음향을, 제1 도메인의 타겟 음향을 모사하여 제2 변형 음향으로 변형하는 위한 제2 생성기를 포함하되, 상기 제 1 생성기 및 제 2 생성기는 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 제2 변형 음향 간의 거리 메트릭 및 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향 간의 거리 메트릭을 기반으로 사전에 트레이닝되는 것을 특징으로 하는 음향 변형 시스템을 제공한다.
또한 본 발명의 다른 실시예에 의하면, 음향(sound) 데이터 간 변형(translation)을 수행하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법에 있어서, 제1 생성기(generator)를 이용하여, 제1 도메인의 제1 음향을 제1 변형(translated) 음향으로 변형하고, 제2 생성기를 이용하여 상기 제1 변형 음향을 제2 재구성(reconstruction) 음향으로 변형하는 과정; 상기 제2 생성기를 이용하여, 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하고, 상기 제1 생성기를 이용하여, 상기 제2 변형 음향을 제1 재구성 음향으로 변형하는 과정; 제1 구별기(discriminator)를 이용하여, 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 상기 제2 변형 음향을 구별하는 과정; 제2 구별기를 이용하여, 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향을 구별하는 과정; 및 상기 제1 음향과 상기 제2 변형 음향 간의 거리 메트릭, 상기 제2 음향과 상기 제1 변형 음향 간의 거리 메트릭, 상기 제1 재구성 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 재구성 음향과 상기 제1 음향 간의 거리 메트릭의 일부 또는 전부를 기반으로 상기 제1 생성기 및 제2 생성기를 트레이닝하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법을 제공한다.
또한 본 발명의 다른 실시예에 의하면, 음향(sound) 데이터 간 변형(translation)을 수행하는, 컴퓨터 상에 구현되는 음향 변형방법에 있어서, 제1 생성기(generator)를 이용하여, 제1 도메인의 제1 음향을 제1 변형(translated) 음향으로 변형하는 과정; 및 제2 생성기를 이용하여, 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하는 과정을 포함하며, 상기 제 1 생성기 및 제 2 생성기는 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 제2 변형 음향 간의 거리 메트릭 및 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향 간의 거리 메트릭을 기반으로 사전에 트레이닝되는 것을 특징으로 하는 음향 변형방법을 제공한다.
또한 본 발명의 다른 실시예에 의하면, 음향 변형 시스템의 학습방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램을 제공한다.
또한 본 발명의 다른 실시예에 의하면, 음향 변형방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형 시, 셀프 어텐션 모듈 및 특성 손실함수에 기반하는 트레이닝을 적용하여, 타겟 음색을 모사하는 변형은 용이하게 하면서도 음정, 장단, 묵음 및 진동과 같은 요소는 유지 가능한 음향 변형 시스템 및 방법을 제공함으로써 변형된 음향의 현실성이 증대되는 효과가 있다. 또한 본 실시예의 기술적 장치 및 방법을 적절히 변형 및 이용한다면, 일대다(one-to-many) 또는 다대다(many-to-many) 형태의 음향 간 변형까지 적용 분야를 확대하는 것이 가능하다.
도 1은 본 발명의 일 실시예에 따른 가창음성 변형을 위한 시스템 구성도이다.
도 2는 본 발명의 일 실시예에 따른 가창음성 변형기용 학습 모델의 구조도이다.
도 3은 본 발명의 일 실시예에 따른 셀프 어텐션 모듈의 위치를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 가창음성 변형기의 생성기를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 가창음성 변형기의 성능을 표현하는 도면이다.
도 6은 발명의 일 실시예에 따른 가창음성 변형기에 의한 음색 변화를 표현하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 가창음성 변형기용 학습 모델의 구조도이다.
도 3은 본 발명의 일 실시예에 따른 셀프 어텐션 모듈의 위치를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 가창음성 변형기의 생성기를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 가창음성 변형기의 성능을 표현하는 도면이다.
도 6은 발명의 일 실시예에 따른 가창음성 변형기에 의한 음색 변화를 표현하는 도면이다.
이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 실시예들의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.
본 발명은, 서로 짝이 맞지 않는(mutually unpaired) 음향이 속한 도메인(domain)에 대하여, 도메인(domain) 간 관계를 학습할 수 있는 새로운 GAN(Generative Adversarial Networks) 기반의 모델을 제안한다.
음향은 음성, 가창음성, 뮤직 및 자연음 등을 포함한다. 본 발명의 일 실시예에서는, 음향 변형의 한 예로서 가창음성 변형(singing voice translation)을 중심으로 설명한다.
본 발명의 일 실시예에 따른 가창음성 변형기는, 학습된 도메인 간 관계를 이용하여, 가창음성을 하나의 도메인에서 다른 도메인으로 변형(translation)할 수 있다.
도 1은 본 발명의 일 실시예에 따른 가창음성 변형을 위한 시스템 구성도이다.
도 1에 예시된 가창음성 변형 시스템(100)은 입력부(110), 변형부(120) 및 출력부(130)의 일부 또는 전부를 포함한다. 이때, 본 실시예에 따른 가창음성 변형 시스템에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 가창음성 변형 시스템 상에 학습 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.
입력부(110)는 가창음성 변형을 수행하는 과정에서 필요한 데이터들을 획득하여 가창음성 변형에 적절한 형태로 변환한다.
예컨대, 본 실시예에 따른 입력부(110)는 소스(source) 도메인에 속한 가창음성(singing voice)을 시간 영역(time domain)에서 받아 들인 후, 주파수 영역(frequency domain)의 데이터로 변환(transformation)한다. 변환 방법으로는 FFT(Fast Fourier Transform) 또는 셉스트럼 변환(cepstrum transform) 등을 사용할 수 있으며, 반드시 이에 한정하는 것은 아니다.
본 실시예에서, 입력부(110)는 스펙트로그램(spectrogram)의 원리를 이용하여 가창음성을 주파수 영역 상의 이차원 데이터로 표현한다. 먼저, 시간 영역 상의 가창음성에 대하여, 수행하는 구간의 일부를 겹쳐가면서(overlapping and sliding) M차 FFT를 진행하여 주파수 영역 상의 M차 FFT 벡터들을 얻는다. 다음 주파수 영역 상의 M차 벡터 N개를 열벡터 형태로 결합하여 이차원 데이터인 MxN 행렬을 생성한다.
본 실시예에서는, 두 도메인에 속한 가창음성에 대하여 '서로 짝이 맞지 않는(mutually unpaired)' 이란 표현을 사용한다. 이 표현은, 두 가창음성이 서로 다른 가수의 것이고, 서로 시간 동기(time-synchronization)가 일치하지 않는다는 의미이다.
변형부(120)는 서로 짝이 맞지 않는 가창음성 간 변형(translation)을 수행한다.
본 실시예에 따른 변형부(120)는, 입력부(110)에 의하여 변환된 주파수 영역의 데이터를 입력으로 받아들여, 타겟 음색을 모사(mimic)한 주파수 영역 상의 데이터로 변형한다. 변형부(120)는 가창음성 변형을 위하여 트레이닝부에 의하여 기 학습된 신경회로망(Neural Network) 기반의 학습 모델을 이용한다. 학습 모델의 구조 및 학습 모델의 트레이닝 과정은 추후에 설명하기로 한다.
출력부(130)는 변형된 가창음성을 청각적 형태로 가창음성 변형 시스템의 사용자에게 제공한다.
본 실시예에 따른 출력부(130)는, 변형부(120)로부터 주파수 영역에서 변형된 데이터를 받아들인 후, 합성(synthesis) 과정을 통하여 시간 영역에서의 변형된 가창음성으로 변환한다. 최종적으로 시간 영역 상의 변형된 데이터를 청각적 형태로 가창음성 변형 시스템 사용자에게 제공한다.
도 2는 본 발명의 일 실시예에 따른 가창음성 변형기용 학습 모델의 구조도이다.
도 2에 표시된 학습 모델은 재구성(reconstruction) 경로를 갖는 GAN(Generative Adversarial Networks)을 기반으로 하는 모델이다. 학습 모델에 사용된 GAN 기반 시스템은, 두 개의 GAN이 결합된(coupling) 구조로서, GAN 및 GAN의 결합구조에 관한 구체적인 사항은 특허문헌 1, 비특허문헌 1, 또는 비특허문헌 2를 참조하기 바란다. 이하에서는 본 실시예에 따른 학습 모델에서 사용하는 개념들을 위주로 설명하기로 한다.
GAN은 기본적으로 생성기(generator)와 구별기(discriminator)를 포함한다. 생성기는 두 도메인 간의 대응(mapping)을 수행한다. 도메인을 구성하는 요소에 따라, 대응은 변환(transformation), 변형(translation), 짝짓기(pairing) 등 다양하게 표현될 수 있으며, 가창음성의 경우는 변형이란 용어를 사용하기로 한다.
이하 본 실시예에 따른 GAN의 구현에 있어서, 생성기는 CNN(Convolutional Neural Network)을 이용하고, 구별기는 CNN의 구성 요소 중에서 디코더 부분만을 이용한다.
생성기의 역할은, 구별기가 구분할 수 없을 정도의 유사 데이터를 생성하여 공역(codomain)에 속한 데이터를 모사한다. 생성기가 생성한 데이터를 오인하여 구별기가 참(true, 확률 1)을 출력하도록, 생성기가 트레이닝된다. 구별기의 역할은 생성기가 생성한 유사 데이터와 공역 도메인에 속한 타겟 데이터를 구별한다. 공역 도메인에 속한 타겟 데이터에 대해서는 참(true, 확률 1)을 출력하고, 유사 데이터에 대해서는 거짓(false, 확률 0)을 출력하도록, 구별기가 트레이닝된다. 따라서, 기본적인 GAN에서는 생성기와 구별기의 역할에 근거하여 생성적 대립(generative adversarial) 손실함수(loss function)을 정의하고, 정의된 손실함수에 근거한 비지도학습(unsupervised learning)을 통하여 생성기와 구별기를 트레이닝시킨다.
두 개의 GAN이 결합된 구조는, 도 2에서 점선 박스로 구분된 부분으로서, 두 도메인 A 및 B 간의 일대일(one-to-one) 대응을 효과적으로 수행하기 위하여 두 개의 생성기와 두 개의 구별기를 포함한다. 이하 두 개의 생성기는 제1 및 제2 생성기로, 두 개의 구별기는 제1 및 제2 구별기로 표현한다. 본 실시예에서, 도메인 A는 가수 A의 가창음성을 포함하고, 도메인 B는 가수 B의 가창음성을 포함한다. 제1 생성기는 도메인 A에서 B로, 제2 생성기는 도메인 B에서 A로의 변형을 수행한다. 그리고, 제2 구별기는 제1 생성기의 출력과 도메인 B의 타겟을 구별하고, 제1 구별기는 제2 생성기의 출력과 도메인 A의 타겟를 구별한다.
이하 본 실시예에 따른 손실함수를 표현하는 데 필요한 용어들을 정의한다. 우선 제1 생성기가 수행하는 도메인 A에서 도메인 B로의 변형은 G AB로 표기하고, 반대로 제2 생성기가 수행하는 도메인 B에서 도메인 A로의 변형은 G BA로 표기한다. 또한 제1 및 제2 분류기의 기능을 각각 D A 및 D B로 표기한다. 도메인 A 및 B에 속한 가창음성을 각각 제1 및 제2 가창음성으로 표현하고, 기호로는 xA 및 xB로 표기한다. 입력과 무관하게 GAB의 출력은 '제1'로 시작하는 것으로 표기하며, 마찬가지로 GBA의 출력은 '제2'로 시작하는 것으로 표기한다. 기본적인 GAN 구조에서 생성기의 출력은 '변형'이란 표현을 사용하여 구분하기로 한다. 도 2에 따르면, 제1 생성기 및 제2 생성기 각각이 복수 개가 사용된 것으로 되어 있지만, 이는 학습 모델에 대한 설명 상 편이를 위함이며 실제 구현 시에는 제1 및 제2 생성기 각각 하나로 구현된다. 제1 및 제2 생성기 각각 하나를 이용하는 학습 모델의 트레이닝 절차는 도 4를 이용하여 추후에 설명하기로 한다.
전술한 표기들을 이용하여 생성기와 구별기의 기능을 다시 설명하자면, 우선 제1 생성기는 도메인 A에 속한 제1 가창음성을 변형하여 제1 변형 가창음성을 생성하고, 제2 생성기는 도메인 B에 속한 제2 가창음성을 변형하여 제2 변형 가창음성을 생성한다. 그리고 제2 구별기는 제1 변형 가창음성과 도메인 B의 제2 가창음성을, 제1 구별기는 제2 변형 가창음성과 도메인 A의 제1 가창음성을 구별한다.
생성기의 주된 역할은, 구별기가 구분할 수 없을 정도로 변형된 유사 데이터를 생성하는 것이므로, 손실함수는 유사 데이터가 분류기를 통과한 후의 확률로 표현하고, 양의 값으로 표현하기 위하여 부의 부호(negative sign)를 사용한다. 제1 및 제2 생성기에 대한 생성 손실함수는 수학식 1로 표현한다.
구별기의 주된 역할은, 생성기에 의하여 생성된 유사 데이터와 공역 도메인에 속한 데이터를 구별하는 것이므로, 손실함수는 '공역 데이터가 분류기를 통과한 후의 확률'과 '유사 데이터가 분류기를 통과한 후의 확률을 전체확률 1에서 차감한 확률'의 합으로 표현한다. 제1 및 제2 구별기에 대한 구별 손실함수는 수학식 2로 표현한다.
수학식 1 및 수학식 2에 표현된 식들이, 두 개의 GAN이 결합된 구조의 손실함수이다. 트레이닝부는 생성기 및 구별기를 트레이닝시키기 위하여 수학식 1 및 수학식 2의 손실함수를 이용한다.
도 2에 나타낸 바와 같이, 재구성 경로를 포함할 경우, 생성기의 트레이닝에는 추가적인 손실을 이용한다. 재구성 경로는 제1 및 제2 생성기를 재사용하여 구성되며, 연속된 두 번의 변형 후에 소스 가창음성이 얼마나 제대로 재구성 됐는지를 확인하기 위한 경로이다. 가창음성의 재구성을 위하여 제2 생성기는 제1 변형 가창음성을 변형하여 제2 재구성 가창음성을 생성하고, 제1 생성기는 제2 변형 가창음성을 변형하여 제1 재구성 가창음성을 생성한다.
재구성 경로 추가에 따른 손실함수는 소스 가창음성과 재구성 가창음성 간의 거리 메트릭(distance metric)으로 정의하며, 제1 및 제2 생성기에 대한 재구성 손실함수는 수학식 3으로 표현된다.
여기서, 는 거리 메트릭이고, 거리 메트릭은 어떠한 형태의 메트릭(L1, L2, 코사인 유사도 등)이 사용되어도 무방하다. 재구성 경로까지 고려한 제1 및 제2 생성기에 대한 손실함수는 수학식 4로 표현한다. 트레이닝부는 제1 및 제2 생성기를 트레이닝시키기 위하여 수학식 4의 손실함수를 사용한다.
수학식 2 및 4가, 특허문헌 1, 또는 비특허문헌 2에서 사용된 손실함수로서 이미지 짝짓기(image pairing)에 적용할 경우 만족할 만한 성능을 보여주었다. 그러나 가창음성 변형의 경우와 같이, 고조파 구조(harmonic structures)로 대표되는 음색 변형은 가능하면서 가사, 음정, 호흡 및 진동과 같은 요소의 유지가 요구될 시에는, 전술한 수학식에 기반한 트레이닝만으로는 부족한 측면이 있다.
따라서, 본 실시예에서는, 변형 과정을 더 개선하기 위하여, 특성(features) 경로 및 항등맵핑(identity-mapping) 경로(path)를 추가하고, 이에 더하여 셀프 어텐션(self-attention) 모듈을 추가할 수 있다. 이하에서는 개선을 위하여 추가된 부분을 위주로 설명하기로 한다.
먼저, 도 2에 나타낸 바와 같이, 본 실시예에 따른 항등맵핑 경로는, 소스 가창음성이 얼마나 제대로 항등맵핑됐는지를 확인하기 위한 경로로서, 제1 및 제2 생성기를 재사용하여 구성된다. 항등맵핑 경로를 추가함으로써 소스 가창음성의 가사, 음정, 호흡 및 진동과 같은 요소를 유지하는 데 도움을 준다. 항등맵핑을 위하여 제2 생성기는 제1 가창음성을 변형하여 제2 항등맵핑 가창음성을 생성하고, 제1 생성기는 제2 가창음성을 변형하여 제1 항등맵핑 가창음성을 생성한다.
항등맵핑 경로 추가에 따른 손실함수는 소스 가창음성과 항등맵핑 가창음성 간의 거리 메트릭으로 정의하며, 제1 및 제2 생성기에 대한 재구성 손실함수는 수학식 5로 표현된다.
다음, 도 2에 나타낸 바와 같이, 본 실시예에 따른 특성 경로는, 제1 및 제2 생성기를 재사용하여 구성되며, 소스 가창음성의 특성이 얼마나 제대로 재구성됐는지를 확인하기 위한 경로이다. 항등맵핑 경로와 마찬가지로, 특성 경로의 추가를 통하여 소스 가창음성의 가사, 음정, 호흡 및 진동과 같은 요소를 유지하는 데 도움을 준다. 특성 추출을 위하여 제1 생성기는, 제2 가창음성으로부터 제1 가창음성 특성을 추출하고, 제2 변형 가창음성으로부터 제1 재구성 가창음성 특성을 추출한다. 그리고, 제2 생성기는, 제1 가창음성으로부터 제2 가창음성 특성을 추출하고, 제1 변형 가창음성으로부터 제2 재구성 가창음성 특성을 추출한다.
특성 경로 추가에 따른 손실함수는 소스 가창음성 특성과 재구성 가창음성 특성 간의 거리 메트릭으로 정의하며, 제1 및 제2 생성기에 대한 특성 손실함수는 수학식 6으로 표현된다.
여기서, F는 특성을 추출하기 위한 매핑(mapping)이다. 특성 추출은, 생성기를 구현하는 CNN의 어느 단(layer)을 이용하여도 되나, 본 실시예에서는 CNN을 구성하는 인코더의 마지막 단을 이용한다. 마지막 단을 이용하는 이유는, 이 단의 출력이 가창음성에 내포된 글로벌 특징을 가장 잘 표현하는 것으로 확인되었기 때문이다.
최종적으로, 수학식 4 내지 수학식 6을 결합하여, 본 실시예에 따른, 제1 및 제2 생성기를 위한 손실함수를 수학식 7로 표현한다.
트레이닝부는 제1 및 제2 생성기를 트레이닝시키기 위하여 수학식 7의 손실함수를 사용한다.
주파수 영역에서 가창음성의 고조파 구조는, 기본 주파수(f0 frequency)의 정수배에 위치한 부분적이고 지엽적인 피크들(partial and local peaks)에 의존한다. 본 실시예에서, 셀프 어텐션 모듈은, 제1 및 제2 변형 가창음성, 제1 및 제2 재구성 가창음성, 그리고 제1 및 제2 항등맵핑 가창음성 각각에 내재된 부분적인 피크들 및 피크들 간(inter or intra partial peaks)의 고조파 구조를 광역적으로(globally) 강화하는 역할을 한다. 셀프 어텐션 모듈이 사용되는 위치는, 도 3에 도시된 대로, 생성기와 구별기의 후단이다. 따라서 셀프 어텐션 모듈의 입력으로는 생성기 또는 구별기의 출력인 이차원 데이터를 이용한다. 전술한 대로, 이차원 데이터는 주파수 영역 상의 정보를 표현하고 있다.
셀프 어텐션 모듈에서는 멀티헤드 어텐션(Multi-head Attention) 방식을 이용할 수 있다. 멀티헤드 어텐션은 수학식 8로 표현된다.
여기서 Q, K 및 V는 각각 문의 행렬(query matrix), 키 행렬(key matrix) 및 값 행렬(value matrix)이고, H는 멀티헤드 어텐션의 출력 행렬이다. 멀티헤드 어텐션에서는, 문의 행렬 및 키 행렬을 이용하여, 값 행렬을 구성하는 행벡터 별 어텐션에 해당하는 가중치를 구한 후, 가중치를 행벡터에 적용한다. 셀프 어텐션에서는, Q, K 및 V용으로 동일한 행렬을 사용한다. 그리고, 멀티헤드 어텐션에서는, 복수 개의 헤드(head)에 의한 병렬 처리가 수행된다.
본 실시예에서는, 입력이 생성기 또는 구별기로부터 전달된 이차원 데이터이므로, 이차원 데이터를 구성하는 주파수 영역 상의 피크들 및 피크들 간의 고조파 구조가, 셀프 어텐션에 의하여 강조되는 효과가 생긴다. 셀프 어텐션 모듈의 출력이 생성기 또는 구별기의 최종 출력이 된다. 또한, 본 실시예에 있어서, 트레이닝부는 수학식 2 및 수학식 7에 표시된 손실함수(loss function)에 근거하여 멀티헤드 어텐션에 사용되는 파라미터를 업데이트한다.
도 4는 본 발명의 일 실시예에 따른 가창음성 변형기의 생성기를 나타낸 도면이다.
도 4를 이용하여, 본 실시예에 따른 가창음성 변형기(translator)용 학습 모델의 학습 절차를 설명한다. 제1 및 제2 분류기의 트레이닝은, 수학식 2에 표현된 손실함수를 줄이는 방향으로 트레이닝부가 각 분류기의 파라미터를 업데이트하는 과정이므로, 이하에서는 제1 및 제2 생성기에 대한 트레이닝 절차만를 설명한다.
이전 트레이닝 에포크(epoch) 동안, 트레이닝부가 제1 및 제2 생성기의 파라미터를 업데이트해 놓은 상태라고 가정한다.
제1 생성기는 도메인 A에 속한 제1 가창음성(xA)을 변형하여 제1 변형 가창음성(G AB(xA))을 생성한다. 또한 제1 생성기는 도메인 B에 속한 제2 가창음성(xB)을 변형하여 제1 항등맵핑 가창음성(G AB(xB)) 및 제1 가창음성 특성(F(xB))을 생성한다.
이어서, 제2 생성기는 도메인 B에 속한 제2 가창음성(xB)을 변형하여 제2 변형 가창음성(G BA(xB))을 생성한다. 또한 제2 생성기는 도메인 A에 속한 제1 가창음성(xA)을 변형하여 제2 항등맵핑 가창음성(G BA(xA)) 및 제1 가창음성 특성(F(xA))을 생성한다.
이어서, 제1 생성기는 제2 변형 가창음성(G BA(xB))을 변형하여 제1 재구성 가창음성(G AB(G BA(xB))) 및 제1 재구성 가창음성 특성(F(G BA(xB)))을 생성한다.
이어서, 제2 생성기는 제1 변형 가창음성(G AB(xA))을 변형하여 제2 재구성 가창음성(G BA(G AB(xA))) 및 제2 재구성 가창음성 특성(F(G AB(xA)))을 생성한다.
이어서, 트레이닝부는 제1 및 제2 생성기의 생성 결과물들과 제1 및 제2 구별기를 이용하여, 수학식 1 및 수학식 3 내지 수학식 6을 기반으로 수학식 7에 표현된 최종 손실함수를 계산한다.
마지막으로, 트레이닝부는 계산된 최종 손실함수를 줄이는 방향으로 제1 및 제2 생성기의 파라미터를 업데이트함으로써, 생성기들의 트레이닝을 위한 한번의 에포크를 마감한다.
전술한 바와 같은 학습 절차는 순차적으로 실행되는 것으로 서술하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 전술된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 전술한 바와 같은 시계열적인 순서로 한정되는 것은 아니다.
다음, 도 4를 이용하여, 본 실시예에 따른 가창음성 변형 과정을 설명한다. 가창음성 변형시에는, 앞에서 설명한 바와 같이, 트레이닝된 제1 및 제2 생성기를 이용하되, 둘 모두를 이용하거나, 한 방향으로의 변형만을 원할 시에는, 하나만을 이용할 수 있다. 제1 생성기는 도메인 A에 속하는 제1 가창음성(xA)을 변형하여 타겟을 모사한 가창음성(G AB(xA))을 생성한다. 또한, 제2 생성기는 도메인 B에 속하는 제2 가창음성(xB)을 변형하여 타겟을 모사한 가창음성(G BA(xB))을 생성한다.
이하 본 실시예에 따른 가창음성 변형기의 성능 평가 결과를 설명한다. 성능 평가에 사용한 데이터베이스(database)는 유명 남녀 가수의 가창음성이다. 편의상 도메인 A에는 여자 가수, 도메인 B에는 남자 가수의 가창음성을 할당하였다. 사용된 가창음성은 대략 150분 분량이고, 학습 및 평가 시에 이 분량을 나누어 사용하였다.
평가 환경은, 먼저 생성기로는 CNN을 이용하고, 분류기로는 CNN의 디코더 부분만을 이용한다. 학습 모델의 트레이닝에는 아담 최적화기(Adam Optimizer)를 이용한다.
본 실시예에서는, MOS(Mean Opinion Score) 테스트와 같은 주관적인 방법 대신, 변형 가창음성의 음색 변형을 효과적으로 측정하기 위해, 비교 대상 간에 같은 음(예컨대, F3, B4)의 고조파 성분에 대한 유사도를 고려한다. 메트릭으로는 주파수 영역 상에서 산정한 코사인 유사도(cosine similarity)를 이용하되, 소스 가창음성, 타겟 가창음성 및 변형 가창음성 간의 각 음(note)별 코사인 유사도를 측정한다.
본 실시예에 따른 평가 결과는 도 5에 나타나 있다. 도 5에서 세로축은 주파수 영역 상에서 산정한 코사인 유사도이다. 도 5에서 가로축의 숫자는 피아노 건반 번호로서, F3 내지 B4 음(175 내지 494 Hz에 해당)에 해당한다. 다른 모든 경우보다 제시된 모델의 제1 변형 가창음성과 제2 가창음성 간의 유사도(도 5에서 [+SA+FEAT]A2B-B)가 큼을 알 수 있다. 비교된 다른 경우는, 제1 가창음성과 제2 가창음성 간의 유사도(A-B)와, 셀프 어텐션 모듈 및 특성 손실함수 Lfeat이 모두 배제된 모델, 셀프 어텐션 모듈만 배제된 모델 및 Lfeat만 배제된 모델 각각에 의한 제1 변형 가창음성과 제2 가창음성 간의 유사도(순서대로 [-SA-FEAT]A2B-B, [+SA-FEAT]A2B-B, [-SA+FEAT]A2B-B) 등이다.
본 실시예에 따른 가창음성 변형의 효과를 설명하는 결과는 도 6에 나타나 있다. 제1 변형 가창음성과 제2 가창음성 각각의 스펙트로그램을 상하단에 표시한 것으로서, 세로축은 주파수이고, 가로축은 시간을 의미한다. 본 실시예에서 의도한 대로, 고조파 구조로 대표되는 음색 변형(실선 박스)을 관찰할 수 있고, 진동(가는 실선 박스) 및 호흡(점선 박스)과 같은 요소는 유지됨을 관찰할 수 있다.
이상에서 설명한 바와 같이, 음향 변형의 한 예로서, 본 실시예에 따른 가창음성 변형기는 가창음성 변형 시 탁월한 성능을 보였다.
따라서, 본 실시예에 따른 음향 변형기는, 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형 시, 셀프 어텐션 모듈 및 특성 손실함수에 기반하는 트레이닝을 적용하여, 타겟 음색을 모사하는 변형은 용이하게 하면서도 음정, 장단, 묵음 및 진동과 같은 요소는 유지 가능한 음향 변형 시스템 및 방법을 제공하는 효과가 있다. 이에 따라 음향 변형 시 변형된 음성의 현실성을 증대시키는 것이 가능하다.
본 실시예는 두 음향 간의 변형 위주로 설명되었으나, 본 실시예의 기술적 장치 및 방법을 적절히 변형 및 이용한다면, 일대다(one-to-many) 또는 다대다(many-to-many) 형태의 음향 간 변형까지 적용 분야를 확대하는 것이 가능하다.
또한 본 실시예에서는 서로 짝이 맞지 않은 데이터로 음향을 다루었으나, 본 실시예의 기술적 장치 및 방법을 적절히 변형 및 이용한다면, 서로 짝이 맞지 않은 데이터의 범주가 이미지 또는 영상을 포함하도록 확대하는 것이 가능하다. 바람직하게는, 음향 데이터에 적용되었 때, 본 실시예에서와 같이 탁월한 성능을 보인다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터-판독가능 매체"에 저장된다.
컴퓨터-판독가능 매체는, 명령어들 및/또는 데이터를 프로그래밍가능 프로세서에게 제공하기 위해 사용되는, 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, CD-ROM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성 또는 비일시적인 기록매체)를 나타낸다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 가창음성 변형 시스템 110: 입력부
120: 변형부 130: 출력부
120: 변형부 130: 출력부
Claims (20)
- 음향(sound) 데이터 간 변형(translation)을 위한 음향 변형 시스템에 있어서,
제1 도메인의 제1 음향을 제1 변형 음향으로 변형하기 위한 제1 생성기(generator);
제2 도메인의 제2 음향을 제2 변형 음향으로 변형하기 위한 제2 생성기;
상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 상기 제2 변형 음향을 구별하기 위한 제1 구별기(discriminator);
상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향을 구별하기 위한 제2 구별기; 및
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기를 트레이닝하는 트레이닝부를 포함하며,
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기 중 적어도 하나는 후단에 셀프 어텐션(self-attention) 모듈을 포함하고;
상기 트레이닝부는 상기 제1 생성기와 상기 제2 구별기를 서로 대립적으로 트레이닝하며, 상기 제2 생성기와 상기 제1 구별기를 서로 대립적으로 트레이닝하는 것을 특징으로 하는 음향 변형 시스템. - 제1항에 있어서,
상기 트레이닝부는,
상기 제1 생성기가 상기 제2 변형 음향을 제1 재구성(reconstructed) 음향으로 변형하도록 하고,
상기 제2 생성기가 상기 제1 변형 음향을 제2 재구성 음향으로 변형하도록 하는 것을 특징으로 하는 음향 변형 시스템. - 제2항에 있어서,
상기 트레이닝부는,
상기 제1 재구성 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 재구성 음향과 상기 제1 음향 간의 거리 메트릭에 기반하여, 상기 제1 생성기 및 제2 생성기를 트레이닝하는 것을 특징으로 하는 음향 변형 시스템. - 제2항에 있어서,
상기 트레이닝부는,
상기 제1 생성기가 실행하는 상기 제2 도메인의 상기 제2 음향에서 제1 항등맵핑(identity-mapping) 음향으로의 변형; 및
상기 제2 생성기가 실행하는 상기 제1 도메인의 상기 제1 음향에서 제2 항등맵핑 음향으로의 변형
중 적어도 하나의 변형을 실시하는 것을 특징으로 하는 음향 변형 시스템. - 제4항에 있어서,
상기 트레이닝부는,
상기 제1 항등맵핑 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 항등맵핑 음향과 상기 제1 음향 간의 거리 메트릭 중 적어도 하나에 기반하여, 상기 제1 생성기 및 제2 생성기 중 적어도 하나를 트레이닝하는 것을 특징으로 하는 음향 변형 시스템. - 제4항에 있어서,
상기 트레이닝부는,
상기 제1 생성기가 실행하는, 상기 제2 도메인의 상기 제2 음향에서 제1 음향 특성(features)으로의 추출과 상기 제2 변형 음향에서 제1 재구성 음향 특성으로의 추출을 포함하는 기능; 및
상기 제2 생성기가 실행하는, 상기 제1 도메인의 상기 제1 음향에서 제2 음향 특성으로의 추출과 상기 제1 변형 음향에서 제2 재구성 음향 특성으로의 추출을 포함하는 기능
중 적어도 하나의 기능을 실시하는 것을 특징으로 하는 음향 변형 시스템. - 제6항에 있어서,
상기 트레이닝부는,
상기 제1 음향 특성과 상기 제1 재구성 음향 특성 간의 거리 메트릭 및 상기 제2 음향 특성과 상기 제2 재구성 음향 특성 간의 거리 메트릭 중 적어도 하나에 기반하여, 상기 제1 생성기 및 제2 생성기 중 적어도 하나를 트레이닝하는 것을 특징으로 하는 음향 변형 시스템. - 삭제
- 제1항에 있어서
상기 셀프 어텐션 모듈은,
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기에 적용하는 손실함수와 동일한 손실함수를 기반으로 상기 셀프 어텐션 모듈에 사용되는 파라미터를 업데이트하는 것을 특징으로 하는 음향 변형 시스템. - 음향(sound) 데이터 간 변형(translation)을 위한 음향 변형 시스템에 있어서,
제1 도메인의 제1 음향을, 제2 도메인의 타겟 음향을 모사하여 제1 변형(translated) 음향으로 변형하는 제1 생성기(generator); 및
제2 도메인의 제2 음향을, 제1 도메인의 타겟 음향을 모사하여 제2 변형 음향으로 변형하는 위한 제2 생성기를 포함하되,
상기 제1 생성기 및 상기 제2 생성기 중 적어도 하나는 후단에 셀프 어텐션(self-attention) 모듈을 포함하고;
상기 제 1 생성기 및 제 2 생성기는 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 제2 변형 음향 간의 거리 메트릭 및 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향 간의 거리 메트릭을 기반으로 사전에 트레이닝되는 것을 특징으로 하는 음향 변형 시스템. - 삭제
- 제10항에 있어서,
주파수 영역 상에서 계산된 메트릭을 이용하여, 상기 제1 변형 음향과 상기 제2 음향 간의 유사도 및 상기 제2 변형 음향과 상기 제1 음향 간의 유사도를 확인하는 것을 특징으로 하는 음향 변형 시스템. - 음향(sound) 데이터 간 변형(translation)을 수행하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법에 있어서,
제1 생성기(generator)를 이용하여, 제1 도메인의 제1 음향을 제1 변형(translated) 음향으로 변형하고, 제2 생성기를 이용하여 상기 제1 변형 음향을 제2 재구성(reconstruction) 음향으로 변형하는 과정;
상기 제2 생성기를 이용하여, 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하고, 상기 제1 생성기를 이용하여, 상기 제2 변형 음향을 제1 재구성 음향으로 변형하는 과정;
제1 구별기(discriminator)를 이용하여, 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 상기 제2 변형 음향을 구별하는 과정;
제2 구별기를 이용하여, 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향을 구별하는 과정; 및
상기 제1 음향과 상기 제2 변형 음향 간의 거리 메트릭, 상기 제2 음향과 상기 제1 변형 음향 간의 거리 메트릭, 상기 제1 재구성 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 재구성 음향과 상기 제1 음향 간의 거리 메트릭의 일부 또는 전부를 기반으로 상기 제1 생성기 및 제2 생성기를 트레이닝하는 과정
을 포함하고,
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기 중 적어도 하나는 후단에 셀프 어텐션(self-attention) 모듈을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법. - 제13항에 있어서,
상기 트레이닝하는 과정은,
상기 제1 생성기를 이용하여, 상기 제2 도메인의 상기 제2 음향을 제1 항등맵핑(identity-mapping) 음향으로 변형하는 과정; 및
상기 제2 생성기를 이용하여, 상기 제1 도메인의 상기 제1 음향을 제2 항등맵핑 음향으로 변형하는 과정
중 적어도 하나의 과정을 포함하여,
상기 제1 항등맵핑 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 항등맵핑 음향과 상기 제1 음향 간의 거리 메트릭 중 적어도 하나를 기반으로 상기 제1 생성기 및 제2 생성기 중 적어도 하나의 파라미터를 업데이트하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법. - 제14항에 있어서,
상기 트레이닝하는 과정은,
상기 제1 생성기를 이용하여, 상기 제2 도메인의 상기 제2 음향으로부터 제1 음향 특성(features)을 추출하고, 상기 제2 변형 음향으로부터 제1 재구성 음향 특성을 추출하는 과정; 및
상기 제2 생성기를 이용하여, 상기 제1 도메인의 상기 제1 음향으로부터 제2 음향 특성을 추출하고, 상기 제1 변형 음향으로부터 제2 재구성 음향 특성을 추출하는 과정
중 적어도 하나의 과정을 포함하여,
상기 제1 음향 특성과 상기 제1 재구성 음향 특성 간의 거리 메트릭 및 상기 제2 음향 특성과 상기 제2 재구성 음향 특성 간의 거리 메트릭 중 적어도 하나를 기반으로 상기 제1 생성기 및 제2 생성기 중 적어도 하나의 파라미터를 업데이트하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법. - 제15항에 있어서,
상기 트레이닝하는 과정은,
상기 셀프 어텐션 모듈을 이용하여, 상기 제1 변형 음향 및 제2 변형 음향, 상기 제1 재구성 음향 및 제2 재구성 음향, 그리고 상기 제1 항등맵핑 음향 및 제2 항등맵핑 음향 각각에 내재된 고조파 구조(harmonic structure)를 강화하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법. - 제16항에 있어서,
상기 트레이닝하는 과정은,
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기에 적용하는 손실함수와 동일한 손실함수를 기반으로, 상기 셀프 어텐션 모듈의 파라미터를 업데이트하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법. - 음향(sound) 데이터 간 변형(translation)을 수행하는, 컴퓨터 상에 구현되는 음향 변형방법에 있어서,
제1 생성기(generator)를 이용하여, 제1 도메인의 제1 음향을 제1 변형(translated) 음향으로 변형하는 과정; 및
제2 생성기를 이용하여, 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하는 과정을 포함하되,
상기 제1 생성기 및 상기 제2 생성기 중 적어도 하나는 후단에 셀프 어텐션(self-attention) 모듈을 포함하고;
상기 제 1 생성기 및 제 2 생성기는 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 제2 변형 음향 간의 거리 메트릭 및 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향 간의 거리 메트릭을 기반으로 사전에 트레이닝되는 것을 특징으로 하는 음향 변형방법. - 제13항 내지 제17항 중 어느 한 항에 따른 음향 변형 시스템의 학습방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램.
- 제18항에 따른 음향 변형방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190100976A KR102289218B1 (ko) | 2019-08-19 | 2019-08-19 | 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 |
KR1020210103286A KR102350048B1 (ko) | 2019-08-19 | 2021-08-05 | 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190100976A KR102289218B1 (ko) | 2019-08-19 | 2019-08-19 | 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210103286A Division KR102350048B1 (ko) | 2019-08-19 | 2021-08-05 | 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210021719A KR20210021719A (ko) | 2021-03-02 |
KR102289218B1 true KR102289218B1 (ko) | 2021-08-11 |
Family
ID=75169395
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190100976A KR102289218B1 (ko) | 2019-08-19 | 2019-08-19 | 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 |
KR1020210103286A KR102350048B1 (ko) | 2019-08-19 | 2021-08-05 | 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210103286A KR102350048B1 (ko) | 2019-08-19 | 2021-08-05 | 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (2) | KR102289218B1 (ko) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102403494B1 (ko) * | 2017-04-27 | 2022-05-27 | 에스케이텔레콤 주식회사 | 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법 |
KR20190046305A (ko) * | 2017-10-26 | 2019-05-07 | 휴먼플러스(주) | 음성데이터 마켓 시스템 및 음성데이터 마켓 시스템으로 음성을 제공하는 방법 |
-
2019
- 2019-08-19 KR KR1020190100976A patent/KR102289218B1/ko active IP Right Grant
-
2021
- 2021-08-05 KR KR1020210103286A patent/KR102350048B1/ko active IP Right Grant
Non-Patent Citations (1)
Title |
---|
Faqian Guan et al., ‘A GAN with self-attention mechanism to generate multi-instruments symbolic music’, IJCNN 2019, 14 July 2019.* |
Also Published As
Publication number | Publication date |
---|---|
KR20210021719A (ko) | 2021-03-02 |
KR102350048B1 (ko) | 2022-01-10 |
KR20210098935A (ko) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854563B2 (en) | System and method for creating timbres | |
CN111785261B (zh) | 基于解纠缠和解释性表征的跨语种语音转换方法及系统 | |
US11222620B2 (en) | Speech recognition using unspoken text and speech synthesis | |
JP7152791B2 (ja) | クロスリンガル音声変換システムおよび方法 | |
US20220013106A1 (en) | Multi-speaker neural text-to-speech synthesis | |
CN112071330B (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
KR102367772B1 (ko) | 딥러닝 기반 음악 생성장치 및 방법 | |
CN108831437A (zh) | 一种歌声生成方法、装置、终端和存储介质 | |
CN110364140A (zh) | 歌声合成模型的训练方法、装置、计算机设备以及存储介质 | |
US20220156552A1 (en) | Data conversion learning device, data conversion device, method, and program | |
Jain et al. | ATT: Attention-based timbre transfer | |
Chen et al. | Speaker-independent emotional voice conversion via disentangled representations | |
JP6452061B1 (ja) | 学習データ生成方法、学習方法、及び評価装置 | |
KR102128153B1 (ko) | 기계 학습을 이용한 음악 소스 검색 장치 및 그 방법 | |
KR102289218B1 (ko) | 생성적 대립 네트워크 기반 음향 변형 시스템 및 방법 | |
Barry et al. | “Style” Transfer for Musical Audio Using Multiple Time-Frequency Representations | |
CN113241054B (zh) | 语音平滑处理模型生成方法、语音平滑处理方法及装置 | |
KR20120041656A (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
KR20200121260A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
CN116863909B (zh) | 基于因子图的语音合成方法、装置及系统 | |
KR20210123028A (ko) | 하이브리드 채보/기보 장치 및 방법 | |
Li | Audio Forensic Analysis and Authentication Using Deep Learning | |
CN116246642A (zh) | 一种语音变声方法、装置、设备和存储介质 | |
CN117219044A (zh) | 一种语音合成方法、系统及存储介质和终端设备 | |
KR20240151961A (ko) | 자기지도 학습기반 통합 음성 합성 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |