KR20210021719A - System and Method for Sound Translation Based on Generative Adversarial Networks - Google Patents

System and Method for Sound Translation Based on Generative Adversarial Networks Download PDF

Info

Publication number
KR20210021719A
KR20210021719A KR1020190100976A KR20190100976A KR20210021719A KR 20210021719 A KR20210021719 A KR 20210021719A KR 1020190100976 A KR1020190100976 A KR 1020190100976A KR 20190100976 A KR20190100976 A KR 20190100976A KR 20210021719 A KR20210021719 A KR 20210021719A
Authority
KR
South Korea
Prior art keywords
sound
generator
domain
modified
acoustic
Prior art date
Application number
KR1020190100976A
Other languages
Korean (ko)
Other versions
KR102289218B1 (en
Inventor
정원진
김창현
조남규
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020190100976A priority Critical patent/KR102289218B1/en
Publication of KR20210021719A publication Critical patent/KR20210021719A/en
Priority to KR1020210103286A priority patent/KR102350048B1/en
Application granted granted Critical
Publication of KR102289218B1 publication Critical patent/KR102289218B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

Disclosed are an acoustic deformation system and method. In an embodiment of the present invention, the acoustic deformation system and method facilitate transformation, which mimics the target tone, by applying training based on self-attention module and characteristic loss function when transforming between mutually unpaired sounds, and increasing the reality of the deformed sound by maintaining elements such as pitch, length, silence, and vibration. The acoustic deformation system comprises: a first generator; a second generator; a first discriminator; a second discriminator; and a training unit.

Description

생성적 대립 네트워크 기반 음향 변형 시스템 및 방법{System and Method for Sound Translation Based on Generative Adversarial Networks}System and Method for Sound Translation Based on Generative Adversarial Networks}

본 발명은 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형을 구현하기 위한, 생성적 대립 네트워크를 이용한 음향 변형 시스템 및 방법에 관한 것이다. The present invention relates to a sound transformation system and method using a generative confrontation network for implementing transformation between sounds that are mutually unpaired.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.The contents described below merely provide background information related to the present invention and do not constitute the prior art.

특정한 가수의 목소리로 특정한 노래를 듣고 싶으나, 그 상황의 실현이 현실적으로 가능하지 않을 때, 음향 변형(sound translation)이 유용한 방법이다. 그러나 변형 대상 간에 서로 짝이 맞지 않는(mutually unpaired) 경우가 대부분일 뿐만 아니라, 가사(lyrics)나 음고(pitch)에 대한 정보가 부족한 상황에서 음향 변형이 시도되어야 한다. 서로 다른 두 가수로부터 시간 동기된(time-synchronized) 데이터를 얻기가 현실적으로 곤란하다는 점도 음향 변형을 어렵게 한다. When you want to hear a specific song with a specific singer's voice, but the realization of the situation is not realistically possible, sound translation is a useful method. However, in most cases, the targets for transformation are mutually unpaired, and sound transformation should be attempted in situations where information on lyrics or pitch is insufficient. The fact that it is practically difficult to obtain time-synchronized data from two different singers also makes acoustic deformation difficult.

종래의 방법으로서, 예컨대 특허문헌 1 또는 비특허문헌 2에서는, 이종 이미지 도메인 간의 형식(style)이나 형태(shape) 변형이 가능한 학습 모델을 제시했다. 그러나 이종 이미지 간의 변형이 가능하다 해도, 서로 짝이 되는 이미지를 모으는 것은 시간 및 비용을 많이 필요로 한다. 음색 변화(timbre change)가 중요한 음향 변형의 경우는, 전술한 대로 시간 동기된 데이터를 얻기가 현실적으로 불가능하여 시도된 예가 드물었다. As a conventional method, for example, in Patent Document 1 or Non-Patent Document 2, a learning model capable of transforming a style or shape between heterogeneous image domains has been proposed. However, even if it is possible to transform heterogeneous images, it takes a lot of time and cost to collect images that match each other. In the case of sound transformation in which timbre change is important, it is practically impossible to obtain time-synchronized data as described above, and thus, there have been few attempts.

종래의 방법으로서, 예컨대 비특허문헌 3에서는, 짝이 맞지 않는 음성(unpaired voice)을 주파수 영역에서 표현한 후(마치 이미지 형식인 것처럼), 비특허문헌 2에 예시된 학습 모델을 이용하여 이종 음성 간의 변형을 시도하였다. 시도 결과로서, MOS(Mean Opinion Score) 테스트라는 주관적인 검증 방법을 통하여 변형 전후의 음성 간 운율(prosody)의 변화를 확인하였다. 음고를 지닌 음향(pitched sound)의 경우에는, 운율 외에도 풍부한 고조파 구조(harmonic structures)가 분명하게 관찰되므로, 고조파 구조는 음향을 표현하는 음색의 중요한 요소이다. 따라서, 타겟 음색을 모사하는 변형이 용이할 수 있도록 고조파 구조를 더 많이 반영할 수 있는 블록 및 비용함수가 고려된 음향 변형방법을 필요로 한다.As a conventional method, for example, in Non-Patent Document 3, after expressing an unpaired voice in the frequency domain (as if in an image format), using the learning model exemplified in Non-Patent Document 2, Attempted transformation. As a result of the trial, the change in prosody between voices before and after transformation was confirmed through a subjective verification method called MOS (Mean Opinion Score) test. In the case of a pitched sound, in addition to prosody, rich harmonic structures are clearly observed, so the harmonic structure is an important element of the tone expressing the sound. Accordingly, there is a need for an acoustic transformation method in which a block capable of reflecting a more harmonic structure and a cost function in consideration of a cost function so that transformation that simulates the target tone can be easily performed.

특허문헌 1: 미국 특허번호 US 10275473 B2(Method for learning cross-domain relations based on generative adversarial networks, 2019.04.30, 등록)Patent Document 1: US Patent No. US 10275473 B2 (Method for learning cross-domain relations based on generative adversarial networks, 2019.04.30, registration)

비특허문헌 1: Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. In Advances in Neural Information Processing Systems(NIPS), 2014.Non-Patent Document 1: Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. In Advances in Neural Information Processing Systems (NIPS), 2014. 비특허문헌 2: Zhu, J., Park, T., Isola, P., and Efros, A. A. Unpaired image-to-image translation using cycle-consistent adversarial networks. 2017.Non-Patent Document 2: Zhu, J., Park, T., Isola, P., and Efros, A. A. Unpaired image-to-image translation using cycle-consistent adversarial networks. 2017. 비특허문헌 3: Kaneko, T. and Kameoka, H. Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks. In EUSIPCO, pp. 2100-2104, 2018.Non-Patent Document 3: Kaneko, T. and Kameoka, H. Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks. In EUSIPCO, pp. 2100-2104, 2018.

본 개시는, 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형 시, 셀프 어텐션 모듈 및 특성 손실함수에 기반하는 트레이닝을 적용하여, 타겟 음색을 모사하는 변형은 용이하게 하면서도 음정, 장단, 묵음(silence) 및 진동과 같은 요소는 유지함으로써, 변형된 음향의 현실성이 증대되는 음향 변형 시스템 및 방법을 제공하는 데 주된 목적이 있다.The present disclosure applies a training based on a self-attention module and a characteristic loss function when transforming between mutually unpaired sounds, thereby facilitating the transformation that simulates the target tone, while making the pitch, length, and silence ) And vibration are maintained, thereby providing an acoustic deformation system and method in which the reality of the deformed sound is increased.

본 발명의 실시예에 의하면, 음향(sound) 데이터 간 변형(translation)을 위한 음향 변형 시스템에 있어서, 제1 도메인의 제1 음향을 제1 변형 음향으로 변형하기 위한 제1 생성기(generator); 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하기 위한 제2 생성기; 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 상기 제2 변형 음향을 구별하기 위한 제1 구별기(discriminator); 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향을 구별하기 위한 제2 구별기; 및 상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기를 트레이닝하는 트레이닝부를 포함하며, 상기 트레이닝부는 상기 제1 생성기와 상기 제2 구별기를 서로 대립적으로 트레이닝하며, 상기 제2 생성기와 상기 제1 구별기를 서로 대립적으로 트레이닝하는 것을 특징으로 하는 음향 변형 시스템을 제공한다. According to an embodiment of the present invention, there is provided a sound transformation system for translating between sound data, comprising: a first generator configured to transform a first sound in a first domain into a first transformed sound; A second generator for transforming the second sound of the second domain into a second modified sound; A first discriminator configured to distinguish between the first sound of the first domain and the second modified sound modified by the second generator; A second discriminator configured to distinguish between the second sound in the second domain and the first modified sound transformed by the first generator; And a training unit for training the first generator, the second generator, the first discriminator, and the second discriminator, wherein the training unit trains the first generator and the second discriminator in opposition to each other, and the first It provides an acoustic transformation system, characterized in that training two generators and the first discriminator in opposition to each other.

또한 본 발명의 다른 실시예에 의하면, 음향(sound) 데이터 간 변형(translation)을 위한 음향 변형 시스템에 있어서, 제1 도메인의 제1 음향을, 제2 도메인의 타겟 음향을 모사하여 제1 변형(translated) 음향으로 변형하는 제1 생성기(generator); 및 제2 도메인의 제2 음향을, 제1 도메인의 타겟 음향을 모사하여 제2 변형 음향으로 변형하는 위한 제2 생성기를 포함하되, 상기 제 1 생성기 및 제 2 생성기는 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 제2 변형 음향 간의 거리 메트릭 및 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향 간의 거리 메트릭을 기반으로 사전에 트레이닝되는 것을 특징으로 하는 음향 변형 시스템을 제공한다. In addition, according to another embodiment of the present invention, in a sound transformation system for translation between sound data, the first sound of the first domain is simulated by the target sound of the second domain, and the first transformation ( translated) a first generator that transforms into sound; And a second generator for transforming the second sound of the second domain into a second modified sound by simulating the target sound of the first domain, wherein the first generator and the second generator Based on a distance metric between 1 sound and a second modified sound modified by the second generator, and a distance metric between the second sound in the second domain and the first modified sound modified by the first generator, in advance Sound characterized by being trained Provides a transformation system.

또한 본 발명의 다른 실시예에 의하면, 음향(sound) 데이터 간 변형(translation)을 수행하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법에 있어서, 제1 생성기(generator)를 이용하여, 제1 도메인의 제1 음향을 제1 변형(translated) 음향으로 변형하고, 제2 생성기를 이용하여 상기 제1 변형 음향을 제2 재구성(reconstruction) 음향으로 변형하는 과정; 상기 제2 생성기를 이용하여, 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하고, 상기 제1 생성기를 이용하여, 상기 제2 변형 음향을 제1 재구성 음향으로 변형하는 과정; 제1 구별기(discriminator)를 이용하여, 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 상기 제2 변형 음향을 구별하는 과정; 제2 구별기를 이용하여, 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향을 구별하는 과정; 및 상기 제1 음향과 상기 제2 변형 음향 간의 거리 메트릭, 상기 제2 음향과 상기 제1 변형 음향 간의 거리 메트릭, 상기 제1 재구성 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 재구성 음향과 상기 제1 음향 간의 거리 메트릭의 일부 또는 전부를 기반으로 상기 제1 생성기 및 제2 생성기를 트레이닝하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법을 제공한다. Further, according to another embodiment of the present invention, in the learning method of the acoustic variant system implemented on, a computer to perform a sound (sound) transformation (translation) between the data, using a first generator (generator), a first Transforming the first sound of the domain into a first translated sound and transforming the first transformed sound into a second reconstruction sound using a second generator; Transforming a second sound of a second domain into a second modified sound using the second generator, and transforming the second modified sound into a first reconstructed sound using the first generator; Discriminating between the first sound of the first domain and the second modified sound transformed by the second generator using a first discriminator; Using a second distinguisher, the second sound of the second domain and the modified by the first generator Discriminating the first modified sound; And a distance metric between the first sound and the second modified sound, a distance metric between the second sound and the first modified sound, a distance metric between the first reconstructed sound and the second sound, and the second reconstructed sound and the It provides a method of learning a computer-implemented acoustic transformation system, comprising the process of training the first generator and the second generator based on part or all of the distance metric between the first sounds.

또한 본 발명의 다른 실시예에 의하면, 음향(sound) 데이터 간 변형(translation)을 수행하는, 컴퓨터 상에 구현되는 음향 변형방법에 있어서, 제1 생성기(generator)를 이용하여, 제1 도메인의 제1 음향을 제1 변형(translated) 음향으로 변형하는 과정; 및 제2 생성기를 이용하여, 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하는 과정을 포함하며, 상기 제 1 생성기 및 제 2 생성기는 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 제2 변형 음향 간의 거리 메트릭 및 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향 간의 거리 메트릭을 기반으로 사전에 트레이닝되는 것을 특징으로 하는 음향 변형방법을 제공한다.Further, according to another embodiment of the present invention, in the acoustic variant method implemented in, a computer to perform a sound (sound) transformation (translation) between the data, using a first generator (generator), the first domain 1 process of transforming the sound into a first translated sound; And transforming the second sound of the second domain into a second modified sound using a second generator, wherein the first generator and the second generator include the first sound and the second sound of the first domain. Characterized in that it is pre-trained based on a distance metric between the second modified sound modified by a generator and a distance metric between the second sound in the second domain and the first modified sound modified by the first generator Provides a sound transformation method.

또한 본 발명의 다른 실시예에 의하면, 제13항 내지 17항 중 어느 한 항에 따른 음향 변형 시스템의 학습방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램을 제공한다.In addition, according to another embodiment of the present invention, in order to execute each step of the learning method of the acoustic transformation system according to any one of claims 13 to 17, it is stored in a computer-readable, nonvolatile or non-transitory recording medium. Provide computer programs.

또한 본 발명의 다른 실시예에 의하면, 제18항에 따른 음향 변형방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램을 제공한다.In addition, according to another embodiment of the present invention, a computer program stored in a nonvolatile or non-transitory recording medium is provided that can be read by a computer in order to execute each step of the sound modification method according to claim 18.

이상에서 설명한 바와 같이 본 실시예에 의하면, 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형 시, 셀프 어텐션 모듈 및 특성 손실함수에 기반하는 트레이닝을 적용하여, 타겟 음색을 모사하는 변형은 용이하게 하면서도 음정, 장단, 묵음 및 진동과 같은 요소는 유지 가능한 음향 변형 시스템 및 방법을 제공함으로써 변형된 음향의 현실성이 증대되는 효과가 있다. 또한 본 실시예의 기술적 장치 및 방법을 적절히 변형 및 이용한다면, 일대다(one-to-many) 또는 다대다(many-to-many) 형태의 음향 간 변형까지 적용 분야를 확대하는 것이 가능하다. As described above, according to the present embodiment, when transforming between mutually unpaired sounds, by applying training based on a self-attention module and a characteristic loss function, the transformation that simulates the target tone is facilitated. Factors such as pitch, rhythm, silence, and vibration have an effect of increasing the reality of the modified sound by providing a sound modification system and method that can be maintained . In addition, if the technical device and method of the present embodiment are appropriately modified and used, it is possible to expand the field of application to a one-to-many or many-to-many type of inter-acoustic transformation.

도 1은 본 발명의 일 실시예에 따른 가창음성 변형을 위한 시스템 구성도이다.
도 2는 본 발명의 일 실시예에 따른 가창음성 변형기용 학습 모델의 구조도이다.
도 3은 본 발명의 일 실시예에 따른 셀프 어텐션 모듈의 위치를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 가창음성 변형기의 생성기를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 가창음성 변형기의 성능을 표현하는 도면이다.
도 6은 발명의 일 실시예에 따른 가창음성 변형기에 의한 음색 변화를 표현하는 도면이다.
1 is a block diagram of a system for transforming a vocal voice according to an embodiment of the present invention.
2 is a structural diagram of a learning model for a singing voice transformer according to an embodiment of the present invention.
3 is a diagram for explaining a location of a self attention module according to an embodiment of the present invention.
4 is a diagram showing a generator of a vocal voice modifier according to an embodiment of the present invention.
5 is a diagram showing the performance of a vocal voice modifier according to an embodiment of the present invention.
6 is a diagram illustrating a tone change by a vocal voice modifier according to an embodiment of the present invention.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, embodiments of the present invention will be described in detail with reference to exemplary drawings. In adding reference numerals to elements of each drawing, it should be noted that the same elements are assigned the same numerals as possible, even if they are indicated on different drawings. In addition, in describing the embodiments, when it is determined that a detailed description of a related known configuration or function may obscure the subject matter of the embodiments, a detailed description thereof will be omitted.

또한, 본 실시예들의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, terms such as first, second, A, B, (a), (b) may be used to describe the constituent elements of the present embodiments. These terms are for distinguishing the constituent element from other constituent elements, and the nature, order, or order of the constituent element is not limited by the term. Throughout the specification, when a part'includes' or'includes' a certain element, it means that other elements may be further included rather than excluding other elements unless otherwise stated. . In addition, the'... Terms such as'sub' and'module' mean a unit that processes at least one function or operation, which may be implemented by hardware or software, or a combination of hardware and software.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.DETAILED DESCRIPTION OF THE INVENTION The detailed description to be disclosed below together with the accompanying drawings is intended to describe exemplary embodiments of the present invention and is not intended to represent the only embodiments in which the present invention may be practiced.

본 발명은, 서로 짝이 맞지 않는(mutually unpaired) 음향이 속한 도메인(domain)에 대하여, 도메인(domain) 간 관계를 학습할 수 있는 새로운 GAN(Generative Adversarial Networks) 기반의 모델을 제안한다. The present invention proposes a new GAN (Generative Adversarial Networks)-based model capable of learning a relationship between domains with respect to domains to which mutually unpaired sounds belong.

음향은 음성, 가창음성, 뮤직 및 자연음 등을 포함한다. 본 발명의 일 실시예에서는, 음향 변형의 한 예로서 가창음성 변형(singing voice translation)을 중심으로 설명한다.Sound includes voice, singing voice, music and natural sound. In an embodiment of the present invention, a description will be given focusing on singing voice translation as an example of sound transformation.

본 발명의 일 실시예에 따른 가창음성 변형기는, 학습된 도메인 간 관계를 이용하여, 가창음성을 하나의 도메인에서 다른 도메인으로 변형(translation)할 수 있다. The singing voice transforming device according to an embodiment of the present invention may transform the singing voice from one domain to another domain by using a relationship between learned domains.

도 1은 본 발명의 일 실시예에 따른 가창음성 변형을 위한 시스템 구성도이다.1 is a block diagram of a system for transforming a vocal voice according to an embodiment of the present invention.

도 1에 예시된 가창음성 변형 시스템(100)은 입력부(110), 변형부(120) 및 출력부(130)의 일부 또는 전부를 포함한다. 이때, 본 실시예에 따른 가창음성 변형 시스템에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 가창음성 변형 시스템 상에 학습 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다. The singing voice transformation system 100 illustrated in FIG. 1 includes some or all of the input unit 110, the transformation unit 120, and the output unit 130. In this case, the components included in the vocal voice transforming system according to the present embodiment are not necessarily limited thereto. For example, a training unit (not shown) for training a learning model may be additionally provided on the singing voice transformation system, or may be implemented in a form that is interlocked with an external training unit.

입력부(110)는 가창음성 변형을 수행하는 과정에서 필요한 데이터들을 획득하여 가창음성 변형에 적절한 형태로 변환한다. The input unit 110 acquires necessary data in the process of performing a vocal-voice transformation and converts it into a form suitable for vocal-voice transformation.

예컨대, 본 실시예에 따른 입력부(110)는 소스(source) 도메인에 속한 가창음성(singing voice)을 시간 영역(time domain)에서 받아 들인 후, 주파수 영역(frequency domain)의 데이터로 변환(transformation)한다. 변환 방법으로는 FFT(Fast Fourier Transform) 또는 셉스트럼 변환(cepstrum transform) 등을 사용할 수 있으며, 반드시 이에 한정하는 것은 아니다.For example, the input unit 110 according to the present embodiment accepts a singing voice belonging to a source domain in a time domain and then transforms it into data in a frequency domain. do. As a transform method, a Fast Fourier Transform (FFT) or a cepstrum transform may be used, but is not limited thereto.

본 실시예에서, 입력부(110)는 스펙트로그램(spectrogram)의 원리를 이용하여 가창음성을 주파수 영역 상의 이차원 데이터로 표현한다. 먼저, 시간 영역 상의 가창음성에 대하여, 수행하는 구간의 일부를 겹쳐가면서(overlapping and sliding) M차 FFT를 진행하여 주파수 영역 상의 M차 FFT 벡터들을 얻는다. 다음 주파수 영역 상의 M차 벡터 N개를 열벡터 형태로 결합하여 이차원 데이터인 MxN 행렬을 생성한다.In this embodiment, the input unit 110 expresses the vocal voice as two-dimensional data in the frequency domain using the principle of a spectrogram. First, M-order FFT is performed while overlapping and sliding part of a section to be performed with respect to the singing voice in the time domain to obtain M-order FFT vectors in the frequency domain. Next, N M-order vectors in the frequency domain are combined in the form of a column vector to generate an MxN matrix, which is two-dimensional data.

본 실시예에서는, 두 도메인에 속한 가창음성에 대하여 '서로 짝이 맞지 않는(mutually unpaired)' 이란 표현을 사용한다. 이 표현은, 두 가창음성이 서로 다른 가수의 것이고, 서로 시간 동기(time-synchronization)가 일치하지 않는다는 의미이다. In the present embodiment, the expression “mutually unpaired” is used for singing voices belonging to two domains. This expression means that the two singing voices belong to different singers, and that the time-synchronization does not coincide with each other.

변형부(120)는 서로 짝이 맞지 않는 가창음성 간 변형(translation)을 수행한다. The transforming unit 120 performs translation between unmatched vocal voices.

본 실시예에 따른 변형부(120)는, 입력부(110)에 의하여 변환된 주파수 영역의 데이터를 입력으로 받아들여, 타겟 음색을 모사(mimic)한 주파수 영역 상의 데이터로 변형한다. 변형부(120)는 가창음성 변형을 위하여 트레이닝부에 의하여 기 학습된 신경회로망(Neural Network) 기반의 학습 모델을 이용한다. 학습 모델의 구조 및 학습 모델의 트레이닝 과정은 추후에 설명하기로 한다.The transforming unit 120 according to the present embodiment receives the data in the frequency domain converted by the input unit 110 as an input, and transforms the target tone into data in the mimic frequency domain. The transforming unit 120 uses a learning model based on a neural network previously learned by the training unit to transform the vocal voice. The structure of the learning model and the training process of the learning model will be described later.

출력부(130)는 변형된 가창음성을 청각적 형태로 가창음성 변형 시스템의 사용자에게 제공한다. The output unit 130 provides the modified vocal voice in an auditory form to a user of the vocal voice transforming system.

본 실시예에 따른 출력부(130)는, 변형부(120)로부터 주파수 영역에서 변형된 데이터를 받아들인 후, 합성(synthesis) 과정을 통하여 시간 영역에서의 변형된 가창음성으로 변환한다. 최종적으로 시간 영역 상의 변형된 데이터를 청각적 형태로 가창음성 변형 시스템 사용자에게 제공한다. The output unit 130 according to the present exemplary embodiment receives the data modified in the frequency domain from the transform unit 120 and converts it into a modified song voice in the time domain through a synthesis process. Finally, the transformed data in the time domain is provided to the user of the vocal voice transforming system in an auditory form.

도 2는 본 발명의 일 실시예에 따른 가창음성 변형기용 학습 모델의 구조도이다.2 is a structural diagram of a learning model for a singing voice transformer according to an embodiment of the present invention.

도 2에 표시된 학습 모델은 재구성(reconstruction) 경로를 갖는 GAN(Generative Adversarial Networks)을 기반으로 하는 모델이다. 학습 모델에 사용된 GAN 기반 시스템은, 두 개의 GAN이 결합된(coupling) 구조로서, GAN 및 GAN의 결합구조에 관한 구체적인 사항은 특허문헌 1, 비특허문헌 1, 또는 비특허문헌 2를 참조하기 바란다. 이하에서는 본 실시예에 따른 학습 모델에서 사용하는 개념들을 위주로 설명하기로 한다.The learning model shown in FIG. 2 is a model based on Generative Adversarial Networks (GAN) having a reconstruction path. The GAN-based system used in the learning model is a structure in which two GANs are coupled (coupling), and for specific details on the combination structure of GAN and GAN, refer to Patent Document 1, Non-Patent Document 1, or Non-Patent Document 2. Hope. Hereinafter, concepts used in the learning model according to the present embodiment will be mainly described.

GAN은 기본적으로 생성기(generator)와 구별기(discriminator)를 포함한다. 생성기는 두 도메인 간의 대응(mapping)을 수행한다. 도메인을 구성하는 요소에 따라, 대응은 변환(transformation), 변형(translation), 짝짓기(pairing) 등 다양하게 표현될 수 있으며, 가창음성의 경우는 변형이란 용어를 사용하기로 한다. GAN basically includes a generator and a discriminator. The generator performs mapping between the two domains. Depending on the elements constituting the domain, correspondence can be expressed in various ways, such as transformation, translation, and pairing, and in the case of vocal speech, the term transformation will be used.

이하 본 실시예에 따른 GAN의 구현에 있어서, 생성기는 CNN(Convolutional Neural Network)을 이용하고, 구별기는 CNN의 구성 요소 중에서 디코더 부분만을 이용한다.Hereinafter, in the implementation of the GAN according to the present embodiment, the generator uses a convolutional neural network (CNN), and the distinguisher uses only the decoder part among the components of the CNN.

생성기의 역할은, 구별기가 구분할 수 없을 정도의 유사 데이터를 생성하여 공역(codomain)에 속한 데이터를 모사한다. 생성기가 생성한 데이터를 오인하여 구별기가 참(true, 확률 1)을 출력하도록, 생성기가 트레이닝된다. 구별기의 역할은 생성기가 생성한 유사 데이터와 공역 도메인에 속한 타겟 데이터를 구별한다. 공역 도메인에 속한 타겟 데이터에 대해서는 참(true, 확률 1)을 출력하고, 유사 데이터에 대해서는 거짓(false, 확률 0)을 출력하도록, 구별기가 트레이닝된다. 따라서, 기본적인 GAN에서는 생성기와 구별기의 역할에 근거하여 생성적 대립(generative adversarial) 손실함수(loss function)을 정의하고, 정의된 손실함수에 근거한 비지도학습(unsupervised learning)을 통하여 생성기와 구별기를 트레이닝시킨다.The role of the generator is to simulate data belonging to the codomain by generating similar data that the discriminator cannot distinguish. The generator is trained so that the data generated by the generator is mistaken and the discriminator outputs true (probability 1). The role of the distinguisher distinguishes between similar data generated by the generator and target data belonging to the conjugate domain. The discriminator is trained to output true (true, probability 1) for target data belonging to the conjugate domain, and to output false (probability 0) for similar data. Therefore, in the basic GAN, a generative adversarial loss function is defined based on the roles of the generator and the distinguisher, and the generator and the distinguisher are identified through unsupervised learning based on the defined loss function. Train.

두 개의 GAN이 결합된 구조는, 도 2에서 점선 박스로 구분된 부분으로서, 두 도메인 A 및 B 간의 일대일(one-to-one) 대응을 효과적으로 수행하기 위하여 두 개의 생성기와 두 개의 구별기를 포함한다. 이하 두 개의 생성기는 제1 및 제2 생성기로, 두 개의 구별기는 제1 및 제2 구별기로 표현한다. 본 실시예에서, 도메인 A는 가수 A의 가창음성을 포함하고, 도메인 B는 가수 B의 가창음성을 포함한다. 제1 생성기는 도메인 A에서 B로, 제2 생성기는 도메인 B에서 A로의 변형을 수행한다. 그리고, 제2 구별기는 제1 생성기의 출력과 도메인 B의 타겟을 구별하고, 제1 구별기는 제2 생성기의 출력과 도메인 A의 타겟를 구별한다.The structure in which the two GANs are combined is a part separated by a dotted box in FIG. 2, and includes two generators and two distinguishers in order to effectively perform a one-to-one correspondence between two domains A and B. . Hereinafter, the two generators are represented by a first and a second generator, and the two distinctions are represented by a first and a second separator. In this example, domain A contains the singing voice of singer A, and domain B contains the singing voice of singer B. The first generator performs domain A to B and the second generator performs domain B to A transformation. In addition, the second discriminator distinguishes the output of the first generator and the target of domain B, and the first discriminator distinguishes the output of the second generator and the target of domain A.

이하 본 실시예에 따른 손실함수를 표현하는 데 필요한 용어들을 정의한다. 우선 제1 생성기가 수행하는 도메인 A에서 도메인 B로의 변형은 G AB로 표기하고, 반대로 제2 생성기가 수행하는 도메인 B에서 도메인 A로의 변형은 G BA로 표기한다. 또한 제1 및 제2 분류기의 기능을 각각 D AD B로 표기한다. 도메인 A 및 B에 속한 가창음성을 각각 제1 및 제2 가창음성으로 표현하고, 기호로는 xA 및 xB로 표기한다. 입력과 무관하게 GAB의 출력은 '제1'로 시작하는 것으로 표기하며, 마찬가지로 GBA의 출력은 '제2'로 시작하는 것으로 표기한다. 기본적인 GAN 구조에서 생성기의 출력은 '변형'이란 표현을 사용하여 구분하기로 한다. 도 2에 따르면, 제1 생성기 및 제2 생성기 각각이 복수 개가 사용된 것으로 되어 있지만, 이는 학습 모델에 대한 설명 상 편이를 위함이며 실제 구현 시에는 제1 및 제2 생성기 각각 하나로 구현된다. 제1 및 제2 생성기 각각 하나를 이용하는 학습 모델의 트레이닝 절차는 도 4를 이용하여 추후에 설명하기로 한다. Hereinafter, terms necessary to express the loss function according to the present embodiment are defined. First, the transformation from domain A to domain B performed by the first generator is denoted by G AB , and on the contrary, the transformation from domain B to domain A performed by the second generator is denoted by G BA. In addition, the functions of the first and second classifiers are denoted as D A and D B, respectively. The singing voices belonging to domains A and B are expressed as first and second singing voices, respectively, and x A and x B are expressed as symbols. Regardless of the input, the output of G AB is marked as starting with'first ', and similarly, the output of G BA is marked as starting with '2'. In the basic GAN structure, the output of the generator is classified using the expression'transformation'. According to FIG. 2, it is assumed that a plurality of first generators and second generators are used, but this is for convenience in describing the learning model, and in actual implementation, each of the first and second generators is implemented as one. The training procedure of the learning model using each of the first and second generators will be described later with reference to FIG. 4.

전술한 표기들을 이용하여 생성기와 구별기의 기능을 다시 설명하자면, 우선 제1 생성기는 도메인 A에 속한 제1 가창음성을 변형하여 제1 변형 가창음성을 생성하고, 제2 생성기는 도메인 B에 속한 제2 가창음성을 변형하여 제2 변형 가창음성을 생성한다. 그리고 제2 구별기는 제1 변형 가창음성과 도메인 B의 제2 가창음성을, 제1 구별기는 제2 변형 가창음성과 도메인 A의 제1 가창음성을 구별한다.To explain the functions of the generator and the distinguisher again using the above notations, first, the first generator generates a first modified song voice by transforming the first song voice belonging to domain A, and the second generator generates a first modified song voice. By transforming the second vocal voice, a second transformed vocal voice is generated. The second distinguisher distinguishes between the first modified vocal voice and the second vocal voice of the domain B, and the first distinguisher distinguishes between the second modified vocal voice and the first vocal voice of the domain A.

생성기의 주된 역할은, 구별기가 구분할 수 없을 정도로 변형된 유사 데이터를 생성하는 것이므로, 손실함수는 유사 데이터가 분류기를 통과한 후의 확률로 표현하고, 양의 값으로 표현하기 위하여 부의 부호(negative sign)를 사용한다. 제1 및 제2 생성기에 대한 생성 손실함수는 수학식 1로 표현한다. Since the main role of the generator is to generate similar data that is deformed so that the distinguisher cannot distinguish it, the loss function is expressed as the probability after the similar data passes through the classifier, and a negative sign is used to express it as a positive value. Use. The generation loss function for the first and second generators is expressed by Equation 1.

Figure pat00001
Figure pat00001

여기서,

Figure pat00002
는 기대(expectation) 함수이다.here,
Figure pat00002
Is an expectation function.

구별기의 주된 역할은, 생성기에 의하여 생성된 유사 데이터와 공역 도메인에 속한 데이터를 구별하는 것이므로, 손실함수는 '공역 데이터가 분류기를 통과한 후의 확률'과 '유사 데이터가 분류기를 통과한 후의 확률을 전체확률 1에서 차감한 확률'의 합으로 표현한다. 제1 및 제2 구별기에 대한 구별 손실함수는 수학식 2로 표현한다.Since the main role of the distinguisher is to distinguish between similar data generated by the generator and data belonging to the conjugate domain, the loss function is'probability after conjugated data passes through the classifier' and'probability after similar data passes through the classifier. Is expressed as the sum of the probability subtracted from the total probability 1. The discrimination loss function for the first and second discriminators is expressed by Equation 2.

Figure pat00003
Figure pat00003

수학식 1 및 수학식 2에 표현된 식들이, 두 개의 GAN이 결합된 구조의 손실함수이다. 트레이닝부는 생성기 및 구별기를 트레이닝시키기 위하여 수학식 1 및 수학식 2의 손실함수를 이용한다. Equations 1 and 2 are loss functions of a structure in which two GANs are combined. The training unit uses the loss function of Equation 1 and Equation 2 to train the generator and the distinguisher.

도 2에 나타낸 바와 같이, 재구성 경로를 포함할 경우, 생성기의 트레이닝에는 추가적인 손실을 이용한다. 재구성 경로는 제1 및 제2 생성기를 재사용하여 구성되며, 연속된 두 번의 변형 후에 소스 가창음성이 얼마나 제대로 재구성 됐는지를 확인하기 위한 경로이다. 가창음성의 재구성을 위하여 제2 생성기는 제1 변형 가창음성을 변형하여 제2 재구성 가창음성을 생성하고, 제1 생성기는 제2 변형 가창음성을 변형하여 제1 재구성 가창음성을 생성한다. As shown in Fig. 2, when the reconstruction path is included, an additional loss is used for training of the generator. The reconstruction path is configured by reusing the first and second generators, and is a path for confirming how well the source vocal voice has been reconstructed after two consecutive transformations. In order to reconstruct the vocal voice, the second generator transforms the first transformed vocal voice to generate a second reconstructed vocal voice, and the first generator transforms the second transformed vocal voice to generate the first reconstructed vocal voice.

재구성 경로 추가에 따른 손실함수는 소스 가창음성과 재구성 가창음성 간의 거리 메트릭(distance metric)으로 정의하며, 제1 및 제2 생성기에 대한 재구성 손실함수는 수학식 3으로 표현된다. The loss function according to the addition of the reconstruction path is defined as a distance metric between the source vocal voice and the reconstructed vocal voice, and the reconstruction loss function for the first and second generators is expressed by Equation 3.

Figure pat00004
Figure pat00004

여기서,

Figure pat00005
는 거리 메트릭이고, 거리 메트릭은 어떠한 형태의 메트릭(L1, L2, 코사인 유사도 등)이 사용되어도 무방하다. 재구성 경로까지 고려한 제1 및 제2 생성기에 대한 손실함수는 수학식 4로 표현한다. 트레이닝부는 제1 및 제2 생성기를 트레이닝시키기 위하여 수학식 4의 손실함수를 사용한다. here,
Figure pat00005
Is a distance metric, and any type of metric (L1, L2, cosine similarity, etc.) may be used as the distance metric. The loss function for the first and second generators considering the reconstruction path is expressed by Equation 4. The training unit uses the loss function of Equation 4 to train the first and second generators.

Figure pat00006
Figure pat00006

수학식 2 및 4가, 특허문헌 1, 또는 비특허문헌 2에서 사용된 손실함수로서 이미지 짝짓기(image pairing)에 적용할 경우 만족할 만한 성능을 보여주었다. 그러나 가창음성 변형의 경우와 같이, 고조파 구조(harmonic structures)로 대표되는 음색 변형은 가능하면서 가사, 음정, 호흡 및 진동과 같은 요소의 유지가 요구될 시에는, 전술한 수학식에 기반한 트레이닝만으로는 부족한 측면이 있다. Equations 2 and 4 show satisfactory performance when applied to image pairing as the loss function used in Patent Document 1 or Non-Patent Document 2. However, as in the case of vocal speech transformation, when the tone transformation represented by harmonic structures is possible and maintenance of elements such as lyrics, pitch, breath, and vibration is required, training based on the above equation is insufficient. There is a side.

따라서, 본 실시예에서는, 변형 과정을 더 개선하기 위하여, 특성(features) 경로 및 항등맵핑(identity-mapping) 경로(path)를 추가하고, 이에 더하여 셀프 어텐션(self-attention) 모듈을 추가할 수 있다. 이하에서는 개선을 위하여 추가된 부분을 위주로 설명하기로 한다.Therefore, in this embodiment, in order to further improve the transformation process, a feature path and an identity-mapping path may be added, and a self-attention module may be added in addition to this. have. Hereinafter, a portion added for improvement will be mainly described.

먼저, 도 2에 나타낸 바와 같이, 본 실시예에 따른 항등맵핑 경로는, 소스 가창음성이 얼마나 제대로 항등맵핑됐는지를 확인하기 위한 경로로서, 제1 및 제2 생성기를 재사용하여 구성된다. 항등맵핑 경로를 추가함으로써 소스 가창음성의 가사, 음정, 호흡 및 진동과 같은 요소를 유지하는 데 도움을 준다. 항등맵핑을 위하여 제2 생성기는 제1 가창음성을 변형하여 제2 항등맵핑 가창음성을 생성하고, 제1 생성기는 제2 가창음성을 변형하여 제1 항등맵핑 가창음성을 생성한다. First, as shown in FIG. 2, the identity mapping path according to the present embodiment is a path for confirming how well the identity mapping of the source vocal voice is properly mapped, and is configured by reusing the first and second generators. By adding an identity mapping path, it helps to maintain elements such as lyrics, pitch, breath, and vibration of the source vocal voice. For identity mapping, the second generator transforms the first vocal voice to generate a second identity mapping vocal voice, and the first generator transforms the second vocal voice to generate the first identity mapping vocal voice.

항등맵핑 경로 추가에 따른 손실함수는 소스 가창음성과 항등맵핑 가창음성 간의 거리 메트릭으로 정의하며, 제1 및 제2 생성기에 대한 재구성 손실함수는 수학식 5로 표현된다. The loss function according to the addition of the identity mapping path is defined as a distance metric between the source song speech and the identity mapping song speech, and the reconstruction loss function for the first and second generators is expressed by Equation 5.

Figure pat00007
Figure pat00007

다음, 도 2에 나타낸 바와 같이, 본 실시예에 따른 특성 경로는, 제1 및 제2 생성기를 재사용하여 구성되며, 소스 가창음성의 특성이 얼마나 제대로 재구성됐는지를 확인하기 위한 경로이다. 항등맵핑 경로와 마찬가지로, 특성 경로의 추가를 통하여 소스 가창음성의 가사, 음정, 호흡 및 진동과 같은 요소를 유지하는 데 도움을 준다. 특성 추출을 위하여 제1 생성기는, 제2 가창음성으로부터 제1 가창음성 특성을 추출하고, 제2 변형 가창음성으로부터 제1 재구성 가창음성 특성을 추출한다. 그리고, 제2 생성기는, 제1 가창음성으로부터 제2 가창음성 특성을 추출하고, 제1 변형 가창음성으로부터 제2 재구성 가창음성 특성을 추출한다. Next, as shown in FIG. 2, the characteristic path according to the present embodiment is configured by reusing the first and second generators, and is a path for confirming how well the characteristic of the source vocal voice has been reconstructed. Like the identity mapping path, the addition of a characteristic path helps to maintain elements such as lyrics, pitch, breath, and vibration of the source vocal voice. For feature extraction, the first generator extracts a first song voice characteristic from the second song voice, and extracts a first reconstructed song voice characteristic from the second modified song voice. Then, the second generator extracts a second song-sound characteristic from the first song-speech, and extracts a second reconstructed song-speech characteristic from the first modified song-speech.

특성 경로 추가에 따른 손실함수는 소스 가창음성 특성과 재구성 가창음성 특성 간의 거리 메트릭으로 정의하며, 제1 및 제2 생성기에 대한 특성 손실함수는 수학식 6으로 표현된다. The loss function according to the addition of the characteristic path is defined as a distance metric between the source song-speech characteristic and the reconstructed song-speech characteristic, and the characteristic loss function for the first and second generators is expressed by Equation 6.

Figure pat00008
Figure pat00008

여기서, F는 특성을 추출하기 위한 매핑(mapping)이다. 특성 추출은, 생성기를 구현하는 CNN의 어느 단(layer)을 이용하여도 되나, 본 실시예에서는 CNN을 구성하는 인코더의 마지막 단을 이용한다. 마지막 단을 이용하는 이유는, 이 단의 출력이 가창음성에 내포된 글로벌 특징을 가장 잘 표현하는 것으로 확인되었기 때문이다.Here, F is a mapping for extracting features. For feature extraction, any layer of the CNN implementing the generator may be used, but in this embodiment, the last stage of the encoder constituting the CNN is used. The reason for using the last stage is that the output of this stage has been confirmed to best express the global features implied in the singing voice.

최종적으로, 수학식 4 내지 수학식 6을 결합하여, 본 실시예에 따른, 제1 및 제2 생성기를 위한 손실함수를 수학식 7로 표현한다. Finally, by combining Equations 4 to 6, the loss function for the first and second generators according to the present embodiment is expressed by Equation 7.

Figure pat00009
Figure pat00009

트레이닝부는 제1 및 제2 생성기를 트레이닝시키기 위하여 수학식 7의 손실함수를 사용한다.The training unit uses the loss function of Equation 7 to train the first and second generators.

주파수 영역에서 가창음성의 고조파 구조는, 기본 주파수(f0 frequency)의 정수배에 위치한 부분적이고 지엽적인 피크들(partial and local peaks)에 의존한다. 본 실시예에서, 셀프 어텐션 모듈은, 제1 및 제2 변형 가창음성, 제1 및 제2 재구성 가창음성, 그리고 제1 및 제2 항등맵핑 가창음성 각각에 내재된 부분적인 피크들 및 피크들 간(inter or intra partial peaks)의 고조파 구조를 광역적으로(globally) 강화하는 역할을 한다. 셀프 어텐션 모듈이 사용되는 위치는, 도 3에 도시된 대로, 생성기와 구별기의 후단이다. 따라서 셀프 어텐션 모듈의 입력으로는 생성기 또는 구별기의 출력인 이차원 데이터를 이용한다. 전술한 대로, 이차원 데이터는 주파수 영역 상의 정보를 표현하고 있다.The harmonic structure of vocal speech in the frequency domain depends on partial and local peaks located at integer multiples of the fundamental frequency (f0 frequency). In this embodiment, the self-attention module includes partial peaks and peaks inherent in each of the first and second modified vocal vocals, the first and second reconstructed vocal vocals, and the first and second identity mapping vocal vocals. It serves to globally reinforce the harmonic structure of (inter or intra partial peaks). The position where the self attention module is used is the rear end of the generator and the distinguisher, as shown in FIG. 3. Therefore, two-dimensional data, which is the output of the generator or the discriminator, is used as the input of the self attention module. As described above, the two-dimensional data represents information in the frequency domain.

셀프 어텐션 모듈에서는 멀티헤드 어텐션(Multi-head Attention) 방식을 이용할 수 있다. 멀티헤드 어텐션은 수학식 8로 표현된다.In the self-attention module, a multi-head attention method may be used. Multihead attention is expressed by Equation 8.

Figure pat00010
Figure pat00010

여기서 Q, K 및 V는 각각 문의 행렬(query matrix), 키 행렬(key matrix) 및 값 행렬(value matrix)이고, H는 멀티헤드 어텐션의 출력 행렬이다. 멀티헤드 어텐션에서는, 문의 행렬 및 키 행렬을 이용하여, 값 행렬을 구성하는 행벡터 별 어텐션에 해당하는 가중치를 구한 후, 가중치를 행벡터에 적용한다. 셀프 어텐션에서는, Q, K 및 V용으로 동일한 행렬을 사용한다. 그리고, 멀티헤드 어텐션에서는, 복수 개의 헤드(head)에 의한 병렬 처리가 수행된다. Here, Q, K, and V are a query matrix, a key matrix, and a value matrix, respectively, and H is an output matrix of the multihead attention. In multihead attention, a weight corresponding to the attention for each row vector constituting a value matrix is obtained using a query matrix and a key matrix, and then the weight is applied to the row vector. In self attention, we use the same matrix for Q, K, and V. And, in multihead attention, parallel processing is performed by a plurality of heads.

본 실시예에서는, 입력이 생성기 또는 구별기로부터 전달된 이차원 데이터이므로, 이차원 데이터를 구성하는 주파수 영역 상의 피크들 및 피크들 간의 고조파 구조가, 셀프 어텐션에 의하여 강조되는 효과가 생긴다. 셀프 어텐션 모듈의 출력이 생성기 또는 구별기의 최종 출력이 된다. 또한, 본 실시예에 있어서, 트레이닝부는 수학식 2 및 수학식 7에 표시된 손실함수(loss function)에 근거하여 멀티헤드 어텐션에 사용되는 파라미터를 업데이트한다.In this embodiment, the input is a two-dimensional Since it is data, there is an effect that the peaks in the frequency domain constituting the two-dimensional data and the harmonic structure between the peaks are emphasized by self-attention. The output of the self attention module becomes the final output of the generator or discriminator. In addition, in the present embodiment, the training unit updates a parameter used for multihead attention based on the loss function indicated in Equations 2 and 7.

도 4는 본 발명의 일 실시예에 따른 가창음성 변형기의 생성기를 나타낸 도면이다.4 is a diagram showing a generator of a vocal voice modifier according to an embodiment of the present invention.

도 4를 이용하여, 본 실시예에 따른 가창음성 변형기(translator)용 학습 모델의 학습 절차를 설명한다. 제1 및 제2 분류기의 트레이닝은, 수학식 2에 표현된 손실함수를 줄이는 방향으로 트레이닝부가 각 분류기의 파라미터를 업데이트하는 과정이므로, 이하에서는 제1 및 제2 생성기에 대한 트레이닝 절차만를 설명한다. With reference to FIG. 4, a learning procedure of a learning model for a singing voice translator according to the present embodiment will be described. Since the training of the first and second classifiers is a process in which the training unit updates the parameters of each classifier in the direction of reducing the loss function expressed in Equation 2, only the training procedure for the first and second generators will be described below.

이전 트레이닝 에포크(epoch) 동안, 트레이닝부가 제1 및 제2 생성기의 파라미터를 업데이트해 놓은 상태라고 가정한다. It is assumed that during the previous training epoch, the training unit has updated the parameters of the first and second generators.

제1 생성기는 도메인 A에 속한 제1 가창음성(xA)을 변형하여 제1 변형 가창음성(G AB(xA))을 생성한다. 또한 제1 생성기는 도메인 B에 속한 제2 가창음성(xB)을 변형하여 제1 항등맵핑 가창음성(G AB(xB)) 및 제1 가창음성 특성(F(xB))을 생성한다.The first generator generates a first modified song voice ( G AB (x A )) by modifying the first song voice (x A ) belonging to the domain A. In addition, the first generator generates a first identity mapping song voice ( G AB (x B )) and a first song voice characteristic ( F (x B )) by transforming the second song voice (x B) belonging to domain B. .

이어서, 제2 생성기는 도메인 B에 속한 제2 가창음성(xB)을 변형하여 제2 변형 가창음성(G BA(xB))을 생성한다. 또한 제2 생성기는 도메인 A에 속한 제1 가창음성(xA)을 변형하여 제2 항등맵핑 가창음성(G BA(xA)) 및 제1 가창음성 특성(F(xA))을 생성한다.Subsequently, the second generator generates a second modified song voice ( G BA (x B )) by transforming the second song voice (x B) belonging to the domain B. In addition, the second generator generates a second identity mapping song voice ( G BA (x A )) and a first song voice characteristic ( F (x A )) by transforming the first song voice (x A) belonging to domain A. .

이어서, 제1 생성기는 제2 변형 가창음성(G BA(xB))을 변형하여 제1 재구성 가창음성(G AB(G BA(xB))) 및 제1 재구성 가창음성 특성(F(G BA(xB)))을 생성한다.Subsequently, the first generator transforms the second transformed vocal voice ( G BA (x B )) to transform the first reconstructed vocal vocal ( G AB ( G BA (x B ))) and the first reconstructed vocal vocal characteristic ( F ( G BA (x B ))).

이어서, 제2 생성기는 제1 변형 가창음성(G AB(xA))을 변형하여 제2 재구성 가창음성(G BA(G AB(xA))) 및 제2 재구성 가창음성 특성(F(G AB(xA)))을 생성한다.Subsequently, the second generator transforms the first transformed vocal voice ( G AB (x A )) to transform the second reconstructed vocal voice ( G BA ( G AB (x A ))) and the second reconstructed vocal voice characteristic ( F ( G AB (x A ))).

이어서, 트레이닝부는 제1 및 제2 생성기의 생성 결과물들과 제1 및 제2 구별기를 이용하여, 수학식 1 및 수학식 3 내지 수학식 6을 기반으로 수학식 7에 표현된 최종 손실함수를 계산한다. Subsequently, the training unit calculates the final loss function expressed in Equation 7 based on Equation 1 and Equation 3 to Equation 6 using the generated products of the first and second generators and the first and second distinguishers. do.

마지막으로, 트레이닝부는 계산된 최종 손실함수를 줄이는 방향으로 제1 및 제2 생성기의 파라미터를 업데이트함으로써, 생성기들의 트레이닝을 위한 한번의 에포크를 마감한다. Finally, the training unit updates the parameters of the first and second generators in a direction to reduce the calculated final loss function, thereby completing one epoch for training the generators.

전술한 바와 같은 학습 절차는 순차적으로 실행되는 것으로 서술하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 전술된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 전술한 바와 같은 시계열적인 순서로 한정되는 것은 아니다.The learning procedure as described above is described as being sequentially executed, but is not limited thereto. In other words, since it may be applicable to change and execute the above-described processes or execute one or more processes in parallel, it is not limited to the above-described time-series order.

다음, 도 4를 이용하여, 본 실시예에 따른 가창음성 변형 과정을 설명한다. 가창음성 변형시에는, 앞에서 설명한 바와 같이, 트레이닝된 제1 및 제2 생성기를 이용하되, 둘 모두를 이용하거나, 한 방향으로의 변형만을 원할 시에는, 하나만을 이용할 수 있다. 제1 생성기는 도메인 A에 속하는 제1 가창음성(xA)을 변형하여 타겟을 모사한 가창음성(G AB(xA))을 생성한다. 또한, 제2 생성기는 도메인 B에 속하는 제2 가창음성(xB)을 변형하여 타겟을 모사한 가창음성(G BA(xB))을 생성한다.Next, referring to FIG. 4, a process of transforming a vocal voice according to the present embodiment will be described. In the case of singing voice transformation, as described above, the trained first and second generators are used, but both may be used, or only one may be used when only one is desired to be transformed in one direction. The first generator generates a song voice (G AB (x A )) that simulates the target by modifying the first song voice (x A) belonging to the domain A. In addition, the second generator generates a song voice (G BA (x B )) that simulates the target by modifying the second song voice (x B) belonging to the domain B.

이하 본 실시예에 따른 가창음성 변형기의 성능 평가 결과를 설명한다. 성능 평가에 사용한 데이터베이스(database)는 유명 남녀 가수의 가창음성이다. 편의상 도메인 A에는 여자 가수, 도메인 B에는 남자 가수의 가창음성을 할당하였다. 사용된 가창음성은 대략 150분 분량이고, 학습 및 평가 시에 이 분량을 나누어 사용하였다.Hereinafter, a performance evaluation result of the vocal voice modifier according to the present embodiment will be described. The database used for performance evaluation is the vocal voices of famous male and female singers. For convenience, a female singer was assigned to domain A and a male singer's vocal voice was assigned to domain B. The amount of singing voice used was approximately 150 minutes, and this amount was divided and used during learning and evaluation.

평가 환경은, 먼저 생성기로는 CNN을 이용하고, 분류기로는 CNN의 디코더 부분만을 이용한다. 학습 모델의 트레이닝에는 아담 최적화기(Adam Optimizer)를 이용한다.In the evaluation environment, first, a CNN is used as a generator, and only the decoder part of the CNN is used as a classifier. The Adam Optimizer is used to train the learning model.

본 실시예에서는, MOS(Mean Opinion Score) 테스트와 같은 주관적인 방법 대신, 변형 가창음성의 음색 변형을 효과적으로 측정하기 위해, 비교 대상 간에 같은 음(예컨대, F3, B4)의 고조파 성분에 대한 유사도를 고려한다. 메트릭으로는 주파수 영역 상에서 산정한 코사인 유사도(cosine similarity)를 이용하되, 소스 가창음성, 타겟 가창음성 및 변형 가창음성 간의 각 음(note)별 코사인 유사도를 측정한다.In this embodiment, instead of a subjective method such as a MOS (Mean Opinion Score) test, in order to effectively measure the tone distortion of the modified vocal voice, the similarity to the harmonic components of the same sound (eg, F3, B4) between comparison targets is considered. do. As a metric, the cosine similarity calculated in the frequency domain is used, and the cosine similarity for each note between the source vocal voice, the target vocal voice, and the modified vocal voice is measured.

본 실시예에 따른 평가 결과는 도 5에 나타나 있다. 도 5에서 세로축은 주파수 영역 상에서 산정한 코사인 유사도이다. 도 5에서 가로축의 숫자는 피아노 건반 번호로서, F3 내지 B4 음(175 내지 494 Hz에 해당)에 해당한다. 다른 모든 경우보다 제시된 모델의 제1 변형 가창음성과 제2 가창음성 간의 유사도(도 5에서 [+SA+FEAT]A2B-B)가 큼을 알 수 있다. 비교된 다른 경우는, 제1 가창음성과 제2 가창음성 간의 유사도(A-B)와, 셀프 어텐션 모듈 및 특성 손실함수 Lfeat이 모두 배제된 모델, 셀프 어텐션 모듈만 배제된 모델 및 Lfeat만 배제된 모델 각각에 의한 제1 변형 가창음성과 제2 가창음성 간의 유사도(순서대로 [-SA-FEAT]A2B-B, [+SA-FEAT]A2B-B, [-SA+FEAT]A2B-B) 등이다. The evaluation results according to this embodiment are shown in FIG. 5. In FIG. 5, the vertical axis is the cosine similarity calculated in the frequency domain. In FIG. 5, the numbers on the horizontal axis are piano key numbers and correspond to F3 to B4 notes (corresponding to 175 to 494 Hz). It can be seen that the similarity ([+SA+FEAT]A2B-B in FIG. 5) between the first modified vocal voice and the second vocal voice of the presented model is greater than in all other cases. In other cases compared, the similarity (AB) between the first and second vocal voices, the self-attention module and the characteristic loss function L feat were all excluded, the self-attention module only was excluded, and only the L feat was excluded. Similarity between the first modified song voice and the second song voice by each model (in order, [-SA-FEAT]A2B-B, [+SA-FEAT]A2B-B, [-SA+FEAT]A2B-B), etc. to be.

본 실시예에 따른 가창음성 변형의 효과를 설명하는 결과는 도 6에 나타나 있다. 제1 변형 가창음성과 제2 가창음성 각각의 스펙트로그램을 상하단에 표시한 것으로서, 세로축은 주파수이고, 가로축은 시간을 의미한다. 본 실시예에서 의도한 대로, 고조파 구조로 대표되는 음색 변형(실선 박스)을 관찰할 수 있고, 진동(가는 실선 박스) 및 호흡(점선 박스)과 같은 요소는 유지됨을 관찰할 수 있다.The results explaining the effect of the vocal speech transformation according to the present embodiment are shown in FIG. 6. Spectrograms of each of the first modified vocal and second vocal vocals are displayed at the top and bottom, with the vertical axis indicating frequency and the horizontal axis indicating time. As intended in this embodiment, it can be observed that the tone deformation (solid box) represented by the harmonic structure is observed, and elements such as vibration (thin solid box) and breath (dotted box) are maintained.

이상에서 설명한 바와 같이, 음향 변형의 한 예로서, 본 실시예에 따른 가창음성 변형기는 가창음성 변형 시 탁월한 성능을 보였다.As described above, as an example of the acoustic transformation, the vocal voice modifier according to the present embodiment exhibited excellent performance during vocal-voice deformation.

따라서, 본 실시예에 따른 음향 변형기는, 서로 짝이 맞지 않는(mutually unpaired) 음향 간 변형 시, 셀프 어텐션 모듈 및 특성 손실함수에 기반하는 트레이닝을 적용하여, 타겟 음색을 모사하는 변형은 용이하게 하면서도 음정, 장단, 묵음 및 진동과 같은 요소는 유지 가능한 음향 변형 시스템 및 방법을 제공하는 효과가 있다. 이에 따라 음향 변형 시 변형된 음성의 현실성을 증대시키는 것이 가능하다. Therefore, the acoustic modifier according to the present embodiment applies a training based on a self attention module and a characteristic loss function when transforming between mutually unpaired sounds, thereby facilitating the transformation that simulates the target tone. Factors such as pitch, rhythm, silence and vibration have the effect of providing a sustainable acoustic transformation system and method. Accordingly, it is possible to increase the reality of the transformed voice when the sound is transformed.

본 실시예는 두 음향 간의 변형 위주로 설명되었으나, 본 실시예의 기술적 장치 및 방법을 적절히 변형 및 이용한다면, 일대다(one-to-many) 또는 다대다(many-to-many) 형태의 음향 간 변형까지 적용 분야를 확대하는 것이 가능하다. This embodiment has been described mainly on the transformation between the two sounds, but if the technical device and method of the present embodiment are appropriately modified and used, the transformation between sounds in a one-to-many or many-to-many form It is possible to expand the field of application up to.

또한 본 실시예에서는 서로 짝이 맞지 않은 데이터로 음향을 다루었으나, 본 실시예의 기술적 장치 및 방법을 적절히 변형 및 이용한다면, 서로 짝이 맞지 않은 데이터의 범주가 이미지 또는 영상을 포함하도록 확대하는 것이 가능하다. 바람직하게는, 음향 데이터에 적용되었 때, 본 실시예에서와 같이 탁월한 성능을 보인다. In addition, in the present embodiment, sound is treated as data that is not matched with each other, but if the technical device and method of this embodiment are appropriately modified and used, it is possible to expand the category of data that is not matched to include images or images. Do. Preferably, when applied to acoustic data, it exhibits excellent performance as in this embodiment.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터-판독가능 매체"에 저장된다. Various implementations of the systems and techniques described herein include digital electronic circuits, integrated circuits, field programmable gate arrays (FPGAs), application specific integrated circuits (ASICs), computer hardware, firmware, software, and/or their It can be realized in combination. Various such implementations may include being implemented as one or more computer programs executable on a programmable system. The programmable system includes at least one programmable processor (which may be a special purpose processor) coupled to receive data and instructions from and transmit data and instructions to and from a storage system, at least one input device, and at least one output device. Or a general purpose processor). Computer programs (which are also known as programs, software, software applications or code) contain instructions for a programmable processor and are stored on a "computer-readable medium".

컴퓨터-판독가능 매체는, 명령어들 및/또는 데이터를 프로그래밍가능 프로세서에게 제공하기 위해 사용되는, 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, CD-ROM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성 또는 비일시적인 기록매체)를 나타낸다. Computer-readable media is any computer program product, apparatus, and/or device (e.g., CD-ROM, ROM, memory card, It represents a nonvolatile or non-transitory recording medium such as a hard disk, magneto-optical disk, and storage device).

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.Various implementations of the systems and techniques described herein may be implemented by a programmable computer. Here, the computer includes a programmable processor, a data storage system (including volatile memory, nonvolatile memory, or other types of storage systems or combinations thereof), and at least one communication interface. For example, the programmable computer may be one of a server, a network device, a set-top box, an embedded device, a computer expansion module, a personal computer, a laptop, a personal data assistant (PDA), a cloud computing system, or a mobile device.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present embodiment, and those of ordinary skill in the technical field to which the present embodiment pertains will be able to make various modifications and variations without departing from the essential characteristics of the present embodiment. Accordingly, the present embodiments are not intended to limit the technical idea of the present embodiment, but to explain the technical idea, and the scope of the technical idea of the present embodiment is not limited by these embodiments. The scope of protection of this embodiment should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present embodiment.

100: 가창음성 변형 시스템 110: 입력부
120: 변형부 130: 출력부
100: singing voice transformation system 110: input unit
120: deformation unit 130: output unit

Claims (20)

음향(sound) 데이터 간 변형(translation)을 위한 음향 변형 시스템에 있어서,
제1 도메인의 제1 음향을 제1 변형 음향으로 변형하기 위한 제1 생성기(generator);
제2 도메인의 제2 음향을 제2 변형 음향으로 변형하기 위한 제2 생성기;
상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 상기 제2 변형 음향을 구별하기 위한 제1 구별기(discriminator);
상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향을 구별하기 위한 제2 구별기; 및
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기를 트레이닝하는 트레이닝부를 포함하며,
상기 트레이닝부는 상기 제1 생성기와 상기 제2 구별기를 서로 대립적으로 트레이닝하며, 상기 제2 생성기와 상기 제1 구별기를 서로 대립적으로 트레이닝하는 것을 특징으로 하는 음향 변형 시스템.
In the sound transformation system for translation between sound data,
A first generator for transforming the first sound of the first domain into a first modified sound;
A second generator for transforming the second sound of the second domain into a second modified sound;
A first discriminator configured to distinguish between the first sound of the first domain and the second modified sound modified by the second generator;
A second discriminator configured to distinguish between the second sound in the second domain and the first modified sound transformed by the first generator; And
And a training unit for training the first generator, the second generator, the first discriminator, and the second discriminator,
And the training unit trains the first generator and the second discriminator in opposition to each other, and trains the second generator and the first discriminator in opposition to each other.
제1항에 있어서,
상기 트레이닝부는,
상기 제1 생성기가 상기 제2 변형 음향을 제1 재구성(reconstructed) 음향으로 변형하도록 하고,
상기 제2 생성기가 상기 제1 변형 음향을 제2 재구성 음향으로 변형하도록 하는 것을 특징으로 하는 음향 변형 시스템.
The method of claim 1,
The training unit,
Cause the first generator to transform the second modified sound into a first reconstructed sound,
Sound modification, characterized in that the second generator transforms the first modified sound into a second reconstructed sound system.
제2항에 있어서,
상기 트레이닝부는,
상기 제1 재구성 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 재구성 음향과 상기 제1 음향 간의 거리 메트릭에 기반하여, 상기 제1 생성기 및 제2 생성기를 트레이닝하는 것을 특징으로 하는 GAN 기반 음향 변형 시스템.
The method of claim 2,
The training unit,
GAN-based sound modification, characterized in that training the first generator and the second generator based on a distance metric between the first reconstructed sound and the second sound and a distance metric between the second reconstructed sound and the first sound system.
제2항에 있어서,
상기 트레이닝부는,
상기 제1 생성기가 실행하는 상기 제2 도메인의 상기 제2 음향에서 제1 항등맵핑(identity-mapping) 음향으로의 변형; 및
상기 제2 생성기가 실행하는 상기 제1 도메인의 상기 제1 음향에서 제2 항등맵핑 음향으로의 변형
중 적어도 하나의 변형을 실시하는 것을 특징으로 하는 음향 변형 시스템.
The method of claim 2,
The training unit,
Transformation from the second sound of the second domain executed by the first generator to a first identity-mapping sound; And
Transformation from the first sound of the first domain to a second identity mapping sound executed by the second generator
Acoustic modification, characterized in that performing at least one of the modifications system.
제4항에 있어서,
상기 트레이닝부는,
상기 제1 항등맵핑 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 항등맵핑 음향과 상기 제1 음향 간의 거리 메트릭 중 적어도 하나에 기반하여, 상기 제1 생성기 및 제2 생성기 중 적어도 하나를 트레이닝하는 것을 특징으로 하는 음향 변형 시스템.
The method of claim 4,
The training unit,
Training at least one of the first generator and the second generator based on at least one of a distance metric between the first identity mapping sound and the second sound and a distance metric between the second identity mapping sound and the first sound Acoustic transformation, characterized in that system.
제4항에 있어서,
상기 트레이닝부는,
상기 제1 생성기가 실행하는, 상기 제2 도메인의 상기 제2 음향에서 제1 음향 특성(features)으로의 추출과 상기 제2 변형 음향에서 제1 재구성 음향 특성으로의 추출을 포함하는 기능; 및
상기 제2 생성기가 실행하는, 상기 제1 도메인의 상기 제1 음향에서 제2 음향 특성으로의 추출과 상기 제1 변형 음향에서 제2 재구성 음향 특성으로의 추출을 포함하는 기능
중 적어도 하나의 기능을 실시하는 것을 특징으로 하는 음향 변형 시스템.
The method of claim 4,
The training unit,
A function performed by the first generator, including extraction from the second sound in the second domain to first acoustic characteristics and extraction from the second modified sound to a first reconstructed sound characteristic; And
A function performed by the second generator, including extraction from the first sound to a second sound characteristic in the first domain and extraction from the first modified sound to a second reconstructed sound characteristic
Acoustic modification, characterized in that performing at least one of the functions system.
제6항에 있어서,
상기 트레이닝부는,
상기 제1 음향 특성과 상기 제1 재구성 음향 특성 간의 거리 메트릭 및 상기 제2 음향 특성과 상기 제2 재구성 음향 특성 간의 거리 메트릭 중 적어도 하나에 기반하여, 상기 제1 생성기 및 제2 생성기 중 적어도 하나를 트레이닝하는 것을 특징으로 하는 음향 변형 시스템.
The method of claim 6,
The training unit,
Based on at least one of a distance metric between the first acoustic characteristic and the first reconstructed acoustic characteristic, and a distance metric between the second acoustic characteristic and the second reconstructed acoustic characteristic, at least one of the first and second generators is Acoustic transformation characterized by training system.
제6항에 있어서,
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기 중 적어도 하나는 셀프 어텐션(self-attention) 모듈을 포함하는 것을 특징으로 하는 음향 변형 시스템.
The method of claim 6,
At least one of the first generator, the second generator, the first discriminator, and the second discriminator comprises a self-attention module. system.
제8항에 있어서
상기 셀프 어텐션 모듈은,
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기에 적용하는 손실함수와 동일한 손실함수를 기반으로 상기 셀프 어텐션 모듈에 사용되는 파라미터를 업데이트하는 것을 특징으로 하는 음향 변형 시스템.
According to claim 8
The self attention module,
Acoustic modification, characterized in that updating a parameter used in the self-attention module based on the same loss function as the loss function applied to the first generator, the second generator, the first discriminator, and the second discriminator system.
음향(sound) 데이터 간 변형(translation)을 위한 음향 변형 시스템에 있어서,
제1 도메인의 제1 음향을, 제2 도메인의 타겟 음향을 모사하여 제1 변형(translated) 음향으로 변형하는 제1 생성기(generator); 및
제2 도메인의 제2 음향을, 제1 도메인의 타겟 음향을 모사하여 제2 변형 음향으로 변형하는 위한 제2 생성기를 포함하되,
상기 제 1 생성기 및 제 2 생성기는 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 제2 변형 음향 간의 거리 메트릭 및 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향 간의 거리 메트릭을 기반으로 사전에 트레이닝되는 것을 특징으로 하는 음향 변형 시스템.
In the sound transformation system for translation between sound data,
A first generator for transforming a first sound in a first domain into a first translated sound by simulating a target sound in a second domain; And
Including a second generator for transforming the second sound of the second domain into a second modified sound by simulating the target sound of the first domain,
The first generator and the second generator are a distance metric between the first sound of the first domain and the second modified sound modified by the second generator, and the second sound of the second domain and the first generator. Sound, characterized in that it is pre-trained based on the distance metric between the first modified sound transformed by Transformation system.
제10항에 있어서,
상기 제1 생성기 및 상기 제2 생성기 중 적어도 하나는 셀프 어텐션(self-attention) 모듈을 포함하거나, 상기 제1 생성기 및 상기 제2 생성기가 사전에 트레이닝될 시에 이용하는 제1 구별기 및 제2 구별기 중 적어도 하나는 셀프 어텐션 모듈을 포함하는 것을 특징으로 하는 음향 변형 시스템.
The method of claim 10,
At least one of the first generator and the second generator includes a self-attention module, or a first and second distinction used when the first generator and the second generator are trained in advance. At least one of the groups is sound modification, characterized in that it comprises a self-attention module system.
제10항에 있어서,
주파수 영역 상에서 계산된 메트릭을 이용하여, 상기 제1 변형 음향과 상기 제2 음향 간의 유사도 및 상기 제2 변형 음향과 상기 제1 음향 간의 유사도를 확인하는 것을 특징으로 하는 음향 변형 시스템.
The method of claim 10,
A sound modification, characterized in that, using a metric calculated on a frequency domain, a similarity between the first modified sound and the second sound and a similarity between the second modified sound and the first sound are checked. system.
음향(sound) 데이터 간 변형(translation)을 수행하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법에 있어서,
제1 생성기(generator)를 이용하여, 제1 도메인의 제1 음향을 제1 변형(translated) 음향으로 변형하고, 제2 생성기를 이용하여 상기 제1 변형 음향을 제2 재구성(reconstruction) 음향으로 변형하는 과정;
상기 제2 생성기를 이용하여, 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하고, 상기 제1 생성기를 이용하여, 상기 제2 변형 음향을 제1 재구성 음향으로 변형하는 과정;
제1 구별기(discriminator)를 이용하여, 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 상기 제2 변형 음향을 구별하는 과정;
제2 구별기를 이용하여, 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향을 구별하는 과정; 및
상기 제1 음향과 상기 제2 변형 음향 간의 거리 메트릭, 상기 제2 음향과 상기 제1 변형 음향 간의 거리 메트릭, 상기 제1 재구성 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 재구성 음향과 상기 제1 음향 간의 거리 메트릭의 일부 또는 전부를 기반으로 상기 제1 생성기 및 제2 생성기를 트레이닝하는 과정
을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법.
In performing the sound (sound) transformation (translation) between the data, the learning method of the acoustic system modification that is implemented on a computer,
Using a first generator, the first sound in the first domain is transformed into a first translated sound, and the first transformed sound is transformed into a second reconstruction sound using a second generator The process of doing;
Transforming a second sound of a second domain into a second modified sound using the second generator, and transforming the second modified sound into a first reconstructed sound using the first generator;
Discriminating between the first sound of the first domain and the second modified sound transformed by the second generator using a first discriminator;
Using a second discriminator, the second sound of the second domain and the transformed by the first generator Discriminating the first modified sound; And
A distance metric between the first sound and the second modified sound, a distance metric between the second sound and the first modified sound, a distance metric between the first reconstructed sound and the second sound, and the second reconstructed sound and the second sound 1 A process of training the first generator and the second generator based on part or all of the distance metric between sounds
Characterized in that it comprises a, learning method of the acoustic transformation system implemented on a computer.
제13항에 있어서,
상기 트레이닝하는 과정은,
상기 제1 생성기를 이용하여, 상기 제2 도메인의 상기 제2 음향을 제1 항등맵핑(identity-mapping) 음향으로 변형하는 과정; 및
상기 제2 생성기를 이용하여, 상기 제1 도메인의 상기 제1 음향을 제2 항등맵핑 음향으로 변형하는 과정
중 적어도 하나의 과정을 포함하여,
상기 제1 항등맵핑 음향과 상기 제2 음향 간의 거리 메트릭 및 상기 제2 항등맵핑 음향과 상기 제1 음향 간의 거리 메트릭 중 적어도 하나를 기반으로 상기 제1 생성기 및 제2 생성기 중 적어도 하나의 파라미터를 업데이트하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법.
The method of claim 13,
The training process,
Transforming the second sound of the second domain into a first identity-mapping sound using the first generator; And
Process of transforming the first sound of the first domain into a second identity mapping sound using the second generator
Including at least one course of,
Update at least one parameter of the first generator and the second generator based on at least one of a distance metric between the first identity mapping sound and the second sound and a distance metric between the second identity mapping sound and the first sound Characterized in that, the learning method of the acoustic transformation system implemented on a computer.
제14항에 있어서,
상기 트레이닝하는 과정은,
상기 제1 생성기를 이용하여, 상기 제2 도메인의 상기 제2 음향으로부터 제1 음향 특성(features)을 추출하고, 상기 제2 변형 음향으로부터 제1 재구성 음향 특성을 추출하는 과정; 및
상기 제2 생성기를 이용하여, 상기 제1 도메인의 상기 제1 음향으로부터 제2 음향 특성을 추출하고, 상기 제1 변형 음향으로부터 제2 재구성 음향 특성을 추출하는 과정
중 적어도 하나의 과정을 포함하여,
상기 제1 음향 특성과 상기 제1 재구성 음향 특성 간의 거리 메트릭 및 상기 제2 음향 특성과 상기 제2 재구성 음향 특성 간의 거리 메트릭 중 적어도 하나를 기반으로 상기 제1 생성기 및 제2 생성기 중 적어도 하나의 파라미터를 업데이트하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법.
The method of claim 14,
The training process,
Extracting first acoustic features from the second sound in the second domain and extracting first reconstructed sound characteristics from the second modified sound using the first generator; And
A process of extracting a second acoustic characteristic from the first sound of the first domain and a second reconstructed sound characteristic from the first modified sound using the second generator
Including at least one course of,
At least one parameter of the first generator and the second generator based on at least one of a distance metric between the first acoustic characteristic and the first reconstructed acoustic characteristic, and a distance metric between the second acoustic characteristic and the second reconstructed acoustic characteristic A learning method of a sound transformation system implemented on a computer, characterized in that to update.
제15항에 있어서,
상기 트레이닝하는 과정은,
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기 중 적어도 하나에 포함되는 셀프 어텐션(self-attention) 모듈을 이용하여, 상기 제1 변형 음향 및 제2 변형 음향, 상기 제1 재구성 음향 및 제2 재구성 음향, 그리고 상기 제1 항등맵핑 음향 및 제2 항등맵핑 음향 각각에 내재된 고조파 구조(harmonic structure)를 강화하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법.
The method of claim 15,
The training process,
Using a self-attention module included in at least one of the first generator, the second generator, the first discriminator, and the second discriminator, the first modified sound and the second modified sound, An acoustic transformation system implemented on a computer, characterized in that the harmonic structure inherent in each of the first and second reconstructed sounds, and the first and second identity mapping sounds, is reinforced. Method of learning.
제16항에 있어서,
상기 트레이닝하는 과정은,
상기 제1 생성기, 상기 제2 생성기, 상기 제1 구별기 및 상기 제2 구별기에 적용하는 손실함수와 동일한 손실함수를 기반으로, 상기 셀프 어텐션 모듈의 파라미터를 업데이트하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 음향 변형 시스템의 학습방법.
The method of claim 16,
The training process,
And updating a parameter of the self-attention module based on the same loss function as the loss function applied to the first generator, the second generator, the first discriminator, and the second discriminator. , A learning method of a sound transformation system implemented on a computer.
음향(sound) 데이터 간 변형(translation)을 수행하는, 컴퓨터 상에 구현되는 음향 변형방법에 있어서,
제1 생성기(generator)를 이용하여, 제1 도메인의 제1 음향을 제1 변형(translated) 음향으로 변형하는 과정; 및
제2 생성기를 이용하여, 제2 도메인의 제2 음향을 제2 변형 음향으로 변형하는 과정을 포함하며,
상기 제 1 생성기 및 제 2 생성기는 상기 제1 도메인의 상기 제1 음향과 상기 제2 생성기에 의하여 변형된 제2 변형 음향 간의 거리 메트릭 및 상기 제2 도메인의 상기 제2 음향과 상기 제1 생성기에 의하여 변형된 상기 제1 변형 음향 간의 거리 메트릭을 기반으로 사전에 트레이닝되는 것을 특징으로 하는 음향 변형방법.
In the modified acoustic method for performing acoustic (sound) transformation (translation) between the data, implemented on a computer,
Transforming a first sound of a first domain into a first translated sound using a first generator; And
Using a second generator, including the process of transforming the second sound of the second domain into a second modified sound,
The first generator and the second generator are a distance metric between the first sound of the first domain and the second modified sound modified by the second generator, and the second sound of the second domain and the first generator. The sound transforming method, characterized in that the training is performed in advance based on the distance metric between the first transformed sounds transformed by the method.
제13항 내지 제17항 중 어느 한 항에 따른 음향 변형 시스템의 학습방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램.A computer program stored in a nonvolatile or non-transitory recording medium that can be read by a computer to execute each step of the learning method of the acoustic transformation system according to any one of claims 13 to 17. 제18항에 따른 음향 변형방법의 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 비휘발성 또는 비일시적인 기록매체에 저장된 컴퓨터프로그램.
A computer program stored in a nonvolatile or non-transitory recording medium that can be read by a computer to execute each step of the sound modification method according to claim 18.
KR1020190100976A 2019-08-19 2019-08-19 System and Method for Sound Translation Based on Generative Adversarial Networks KR102289218B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190100976A KR102289218B1 (en) 2019-08-19 2019-08-19 System and Method for Sound Translation Based on Generative Adversarial Networks
KR1020210103286A KR102350048B1 (en) 2019-08-19 2021-08-05 System and Method for Sound Translation Based on Generative Adversarial Networks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190100976A KR102289218B1 (en) 2019-08-19 2019-08-19 System and Method for Sound Translation Based on Generative Adversarial Networks

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020210103286A Division KR102350048B1 (en) 2019-08-19 2021-08-05 System and Method for Sound Translation Based on Generative Adversarial Networks

Publications (2)

Publication Number Publication Date
KR20210021719A true KR20210021719A (en) 2021-03-02
KR102289218B1 KR102289218B1 (en) 2021-08-11

Family

ID=75169395

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190100976A KR102289218B1 (en) 2019-08-19 2019-08-19 System and Method for Sound Translation Based on Generative Adversarial Networks
KR1020210103286A KR102350048B1 (en) 2019-08-19 2021-08-05 System and Method for Sound Translation Based on Generative Adversarial Networks

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020210103286A KR102350048B1 (en) 2019-08-19 2021-08-05 System and Method for Sound Translation Based on Generative Adversarial Networks

Country Status (1)

Country Link
KR (2) KR102289218B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180120478A (en) * 2017-04-27 2018-11-06 에스케이텔레콤 주식회사 Method for learning Cross-domain Relations based on Generative Adversarial Network
KR20190046305A (en) * 2017-10-26 2019-05-07 휴먼플러스(주) Voice data market system and method to provide voice therewith

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180120478A (en) * 2017-04-27 2018-11-06 에스케이텔레콤 주식회사 Method for learning Cross-domain Relations based on Generative Adversarial Network
KR20190046305A (en) * 2017-10-26 2019-05-07 휴먼플러스(주) Voice data market system and method to provide voice therewith

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Faqian Guan et al., ‘A GAN with self-attention mechanism to generate multi-instruments symbolic music’, IJCNN 2019, 14 July 2019.* *
비특허문헌 1: Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. In Advances in Neural Information Processing Systems(NIPS), 2014.
비특허문헌 2: Zhu, J., Park, T., Isola, P., and Efros, A. A. Unpaired image-to-image translation using cycle-consistent adversarial networks. 2017.
비특허문헌 3: Kaneko, T. and Kameoka, H. Cyclegan-vc: Non-parallel voice conversion using cycle-consistent adversarial networks. In EUSIPCO, pp. 2100-2104, 2018.
특허문헌 1: 미국 특허번호 US 10275473 B2(Method for learning cross-domain relations based on generative adversarial networks, 2019.04.30, 등록)

Also Published As

Publication number Publication date
KR102289218B1 (en) 2021-08-11
KR102350048B1 (en) 2022-01-10
KR20210098935A (en) 2021-08-11

Similar Documents

Publication Publication Date Title
CN111785261B (en) Cross-language voice conversion method and system based on entanglement and explanatory characterization
US20210350786A1 (en) Speech Recognition Using Unspoken Text and Speech Synthesis
US20220013106A1 (en) Multi-speaker neural text-to-speech synthesis
JP7152791B2 (en) Crosslingual speech conversion system and method
CN112071330B (en) Audio data processing method and device and computer readable storage medium
KR102367772B1 (en) Method and Apparatus for Generating Music Based on Deep Learning
KR20070077042A (en) Apparatus and method of processing speech
US10453476B1 (en) Split-model architecture for DNN-based small corpus voice conversion
US20220157329A1 (en) Method of converting voice feature of voice
CN115033734B (en) Audio data processing method and device, computer equipment and storage medium
US20220156552A1 (en) Data conversion learning device, data conversion device, method, and program
Obin et al. On the generalization of Shannon entropy for speech recognition
KR102128153B1 (en) Apparatus and method for searching music source using machine learning
Jain et al. ATT: Attention-based timbre transfer
CN116798405B (en) Speech synthesis method, device, storage medium and electronic equipment
KR102289218B1 (en) System and Method for Sound Translation Based on Generative Adversarial Networks
Chen et al. Speaker-independent emotional voice conversion via disentangled representations
O'Connor et al. Zero-shot singing technique conversion
Fawaz et al. A deep learning framework for efficient high-fidelity speech synthesis: Styletts
Barry et al. “Style” Transfer for Musical Audio Using Multiple Time-Frequency Representations
CN111816148A (en) Virtual human voice and video singing method and system based on generation countermeasure network
Cataldo et al. A novel source-filter stochastic model for voice production
CN115731917A (en) Voice data processing method, model training method, device and storage medium
Lee et al. String engine sound generation method based on wavetable synthesizer
KR20120041656A (en) Method and apparatus for generating singing voice

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant