KR102546555B1 - 노래 번역 시스템 - Google Patents

노래 번역 시스템 Download PDF

Info

Publication number
KR102546555B1
KR102546555B1 KR1020220141006A KR20220141006A KR102546555B1 KR 102546555 B1 KR102546555 B1 KR 102546555B1 KR 1020220141006 A KR1020220141006 A KR 1020220141006A KR 20220141006 A KR20220141006 A KR 20220141006A KR 102546555 B1 KR102546555 B1 KR 102546555B1
Authority
KR
South Korea
Prior art keywords
module
song
voice
translation
sentence
Prior art date
Application number
KR1020220141006A
Other languages
English (en)
Inventor
김남현
홍순성
Original Assignee
주식회사 엘젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘젠 filed Critical 주식회사 엘젠
Priority to KR1020220141006A priority Critical patent/KR102546555B1/ko
Application granted granted Critical
Publication of KR102546555B1 publication Critical patent/KR102546555B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/105Composing aid, e.g. for supporting creation, edition or modification of a piece of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • G10H2220/011Lyrics displays, e.g. for karaoke applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 노래 번역 시스템에 관한 것으로서, 더욱 상세하게는 외국 노래를 원곡 가수의 목소리로 모국어 또는 다른 외국어로 들을 수 있을 뿐만 아니라 음성 합성으로 만들어진 인공 음성으로 노래를 부르더라도 어색함이 없이 자연스럽게 노래할 수 있는 노래 번역 시스템에 관한 것이다.
상기한 목적을 달성하기 위한 본 발명은 노래 파일에서 반주 및 음성 정보를 분리하는 분석 모듈과, 상기 분석 모듈에서 추출된 음성 정보를 통하여 가사를 추출하는 음성 인식 모듈과, 상기 음성 인식 모듈에서 추출된 가사를 설정된 언어로 번역하는 번역 모듈과, 상기 번역 모듈을 통하여 도출된 번역 가사 및 원곡의 멜로디에 따라 번역된 음성 정보를 합성하는 음성 합성 모듈과, 상기 분석 모듈에서 추출한 반주 정보와 번역된 음성 정보를 합치는 믹싱 모듈로 이루어지는 것을 특징으로 한다.

Description

노래 번역 시스템{a translation system for a song}
본 발명은 노래 번역 시스템에 관한 것으로서, 더욱 상세하게는 외국 노래를 원곡 가수의 목소리로 모국어 또는 다른 외국어로 들을 수 있을 뿐만 아니라 음성 합성으로 만들어진 인공 음성으로 노래를 부르더라도 어색함이 없이 자연스럽게 노래할 수 있는 노래 번역 시스템에 관한 것이다.
최근 유튜브, 틱톡 등와 같이 사용자가 직접 생성한 콘텐츠를 취급하는 미디어 서비스가 급격히 확산되고 있다.
이러한 미디어 서비스에 의하여 제공되는 콘텐츠는 동영상이 대부분을 차지하는데, 동영상에 포함된 음성신호를 자막으로 제공하는 기술에 대한 연구와 관심 역시 크게 증가하고 있다.
통상적으로 동영상의 자막은 작업자가 동영상의 음성을 듣고 작성하거나 동영상의 음성신호에 대한 음성인식(STT: Speech To Text) 결과에 기초하여 획득된다. 전자의 경우 매우 많은 시간과 비용 및 노력이 필요하다.
그리고, 양자 모두는 동영상 재생시 획득된 자막을 음성신호와 동기시켜 표시하는 데에는 어려움이 있으며, 미디어 서비스에 따라 획일화된 길이로만 자막을 제공할 수 있는 한계가 있다.
한편, 인터넷의 발달로 인하여 미디어 서비스에 의하여 제공되는 동영상은 제작된 언어가 아닌 다른 언어를 사용하는 글로벌 사용자들에 의해서도 널리 재생되는데, 동영상의 자막에 대한 번역자막에 대한 관심과 요구가 높다.
또한, 노래의 경우에도 외국어로 된 노래에 모국어 자막을 출력함으로써, 가사의 의미를 알 수 있도록 하는 장점은 있지만, 노래를 감상하면서 텍스트를 읽어야 하므로 노래에 대한 몰입도가 깨어지기 때문에 안정적으로 노래를 감상하기 어려우며, 그에 따라 많은 사람들이 모국어로 된 노래를 듣기를 원하는 요구가 많아지고 있다.
그래서, 이러한 요구에 부응하고자 도 1 및 도 2에 도시된 바와 같은 한국공개특허 제10-2021-0015064호에 기재된 기술이 제안되었는데, 그 기술적 특징은 전자장치에 있어서, 제1컨텐츠의 제1언어 가사를 번역한 제2언어 가사의 정보를 획득하고, 상기 제2언어 가사를 발화하는 제1음성신호를 획득하고, 상기 제1언어 가사에 포함된 제1구절에 대응하는 상기 제2언어 가사의 제2구절을 식별하고, 상기 제1컨텐츠에서 상기 제1구절의 구간과, 상기 제1음성신호에서 상기 제2구절의 구간 간의 시간을 매칭시켜, 상기 제1음성신호로부터 변환된 제2음성신호를 획득하고, 상기 제2음성신호에 기초하여 상기 제1컨텐츠의 제1언어 노래를 제2언어 노래로 대체한 제2컨텐츠를 획득하는 프로세서를 포함하는 것을 특징으로 한다.
그런데, 한국공개특허 제10-2021-0015064호에 기재된 기술은 외국어로 된 노래를 동일한 가수가 모국어로 노래하는 것을 들을 수 있도록 하는 장점은 있지만, 번역된 문장의 음절수나 끊어 읽는 부분이 원어 문장과 맞지 않는 경우가 많기 때문에 번역된 문장을 그대로 음성 합성 방식으로 형성한 노래가 어색하게 들리는 문제점이 있다.
한국공개특허 제10-2021-0015064호(2021.02.10.공개)
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 외국 노래를 원곡의 가수의 목소리로 모국어 또는 다른 외국어로 들을 수 있을 뿐만 아니라 번역시 원곡의 가사와 번역 본의 가사의 길이를 최적으로 함으로써, 음성 합성 기법을 사용하여 만들어진 인공 음성으로 노래를 부르도록 하더라도 어색함이 없이 번역된 언어로 노래를 자연스럽게 부를 수 있도록 하는 노래 번역 시스템을 제공하는 것이다.
이러한 문제점을 해결하기 위한 본 발명은;
노래 파일에서 반주 및 음성 정보를 분리하는 분석 모듈과, 상기 분석 모듈에서 추출된 음성 정보를 통하여 가사를 인식하는 음성 인식 모듈과, 상기 음성 인식 모듈에서 추출된 가사를 설정된 언어로 번역하는 번역 모듈과, 상기 번역 모듈을 통하여 도출된 번역 가사 및 원곡의 멜로디에 따라 번역된 음성 정보를 합성하는 음성 합성 모듈과, 상기 분석 모듈에서 추출한 반주 정보와 번역된 음성 정보를 합치는 믹싱 모듈로 이루어지는 것을 특징으로 한다.
여기서, 상기 분석 모듈은 추출된 음성 정보에서 가수의 성문을 추출하고, 상기 음성 합성 모듈은 상기 분석 모듈에서 추출된 가수의 성문을 사용하여 음성을 합성하는 것을 특징으로 한다.
이때, 상기 분석 모듈을 통하여 추출된 음성 정보를 분석하여 악보를 추출하는 채보 모듈이 더 구비되며, 상기 음성 합성 모듈은 상기 채보 모듈에서 추출된 악보의 음정, 박자 및 음의 길이에 따라 음성을 합성하는 것을 특징으로 한다.
그리고, 상기 번역 모듈은 내부 또는 통신으로 연결되는 다수의 번역 엔진을 통하여 번역된 번역 문장과 원어 문장의 음절을 비교하여 음절수의 차이가 20% 이내의 번역 문장을 선택하는 것을 특징으로 한다.
여기서, 번역 문장이 다수일 경우, 상기 분석 모듈은 도출된 음성 정보를 통하여 각 문장별로 끊어 읽기 단위의 음절수를 계산하고, 상기 번역 모듈은 번역된 문장을 어절 단위로 음절수를 계산하여 상기 분석 모듈에서 도출된 끊어 읽기 단위의 음절수와 비교하여 각 음절수의 차이가 가장 적은 번역 문장을 선택하는 것을 특징으로 한다.
이때, 상기 번역 모듈은 문장 별로 서로 대응되는 끊어 읽기 단위와 어절 단위의 음절수 차이의 제곱을 합한 값을 비교값으로 하고, 비교값이 가장 작은 문장을 선택하는 것을 특징으로 한다.
또한, 상기 원어 문장의 끊어 읽기 단위의 수가 번역 문장의 어절 단위의 수보다 클 경우, 번역 문장의 인접한 어절 단위를 순차적으로 병합하여 형성된 다수의 병합 문장 중에서 비교값이 가장 작은 병합 문장을 선택하는 것을 특징으로 한다.
상기한 구성의 본 발명에 따르면, 외국 노래를 원곡의 가수의 목소리로 모국어 또는 다른 외국어로 들을 수 있을 뿐만 아니라 번역시 원곡의 가사와 번역 본의 가사의 길이를 최적으로 함으로써, 음성 합성 기법을 사용하여 만들어진 인공 음성으로 노래를 부르도록 하더라도 어색함이 없이 번역된 언어로 노래를 자연스럽게 부를 수 있도록 하는 효과가 있다.
도 1은 종래의 노래 번역 시스템의 개념도이다.
도 2는 종래의 노래 번역 시스템의 흐름도이다.
도 3은 본 발명에 따른 노래 번역 시스템의 개념도이다.
도 4는 본 발명에 따른 노래 번역 시스템의 블럭도이다.
도 5는 본 발명에 따른 노래 번역 시스템의 흐름도이다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 보다 상세하게 설명한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. 그리고, 본 발명은 다수의 상이한 형태로 구현될 수 있고, 기술된 실시 예에 한정되지 않음을 이해하여야 한다.
도 3은 본 발명에 따른 노래 번역 시스템의 개념도이고, 도 4는 본 발명에 따른 노래 번역 시스템의 블럭도이고, 도 5는 본 발명에 따른 노래 번역 시스템의 흐름도이다.
본 발명은 노래 번역 시스템에 관한 것으로 도 3에 도시된 바와 같이, 서버(100)에 설치하여 통신망을 통하여 사용자가 사용자 단말기(200)를 통하여 접속하여 번역을 원하는 노래를 통신망을 통하여 전송한 후, 노래 번역 서비스를 제공받을 수도 있고, 도면에 도시되지는 않았지만 개인의 PC나 단말기에 노래 번역 시스템을 설치하여 사용자가 PC나 단말기에 노래를 전송한 후, 노래를 번역할 수도 있다.
그리고, 본 발명인 노래 번역 시스템의 구성은 도 4 및 도 5에 도시된 바와 같이, 노래 파일에서 반주 및 음성 정보를 분리하는 분석 모듈(110)과 상기 분석 모듈(110)에서 추출된 음성 정보를 통하여 가사를 인식하는 음성 인식 모듈(130)과 상기 음성 인식 모듈(130)에서 추출된 가사를 설정된 언어로 번역하는 번역 모듈(140)을 포함하여 이루어진다.
여기서, 본 발명인 노래 번역 시스템에는 상기 번역 모듈(140)을 통하여 도출된 번역 가사 및 원곡의 멜로디에 따라 번역된 음성 정보를 합성하는 음성 합성 모듈(150)과 상기 분석 모듈(110)에서 추출한 반주 정보와 번역된 음성 정보를 합치는 믹싱 모듈(160)이 더 구비된다.
그래서, 선택한 노래 파일을 분석하여 가사를 추출하고, 추출된 가사를 원하는 언어로 번역한 후, 번역된 가사와 멜로디에 맞도록 음성을 합성하게 되며, 원곡의 반주에 인공으로 합성된 번역 음성을 합쳐 선택된 언어로 번역된 노래를 감상할 수 있게 된다.
한편, 상기 분석 모듈(110)은 선택된 노래 파일에서 반주 정보와 음성 정보를 분리한 후, 추출된 음성 정보를 분석하여 원곡 가수의 성문을 추출하여 내부 저장부(미도시)에 저장하게 된다.
여기서, 상기 음성 합성 모듈(150)은 상기 분석 모듈(110)을 통하여 추출된 성문을 사용하여 원곡 가수의 음성을 합성하게 되는데, 음성을 합성하는 방법은 이미 공지된 사항이므로 별도의 설명은 생략하도록 한다.
그리고, 본 발명의 노래 번역 시스템에는 채보 보듈(120)이 더 구비되는데, 상기 채보 모듈(120)은 상기 분석 모듈(110)을 통하여 추출된 음성 정보를 분석하여 악보를 추출하게 된다.
여기서, 상기 채보 모듈(120)은 음성 정보를 분석하여 음정, 박자 및 음의 길이를 감지하여 악보를 추출하게 되는데, 구체적인 방법은 이미 공지된 사항이므로 별도의 설명은 생략하도록 한다.
이때, 상기 음성 합성 모듈(150)은 상기 채보 모듈에서 추출된 악보의 음정, 박자 및 음의 길이에 따라 음성을 합성함으로써, 번역된 언어로 원곡의 가수가 노래를 부르는 것처럼 음성을 합성하게 된다.
그래서, 사용자는 외국어로된 원곡을 원곡 가수가 모국어 또는 선택된 언어로된 노래를 부르는 것처럼 함으로써, 자막을 읽지 않아도 되므로 노래의 가사를 음미하면서 감상할 수 있게 한다.
한편, 상기 번역 모듈(140)은 내부에 구비되는 번역 엔진을 사용하거나 외부에 통신으로 연결되는 번역 서버(300)에 설치된 번역 엔진을 사용하여 번역을 수행하게 되는데, 다수의 번역 엔진을 사용하기 때문에 각 번역 엔진에 따라 다양한 형태의 번역문이 도출되게 된다.
여기서, 상기 번역 모듈(140)을 통하여 번역을 수행할 때, 사용자가 설정한 어미의 형태를 고려하여 번역을 수행하게 되는데, 사용자는 어미의 형태를 평서형, 시적 어미, 높임말 등으로 설정할 수 있으며 이렇게 설정된 어미에 따라 각 번역 엔진이 번역을 수행하게 된다.
이때, 상기 번역 모듈(140)은 각 번역 엔진에 의해 번역된 문장의 음절수와 원어 문장의 음절수를 비교하여 음절수의 차이가 20% 이내인 번역 문장을 선택하게 된다.
그래서, 번역된 문장을 사용하여 번역된 언어로 음성을 합성하더라도 길이가 유사하게 유지할 수 있어 어색함을 최소화하게 된다.
그리고, 상기 번역 모듈(140)에서 음절수의 차이가 20% 이내인 번역 문장이 하나일 수도 있고, 다수 개일 수도 있는데, 하나인 경우에는 해당 번역 문장을 선택하여 음성 합성을 진행하게 되지만, 다수 개일 경우에는 최적의 문장을 다시 선택을 해야 한다.
여기서, 원어 문장의 음절수는 문자 그대로의 음절수가 아니라 음성을 인식하는 과정에서 소리나는 대로 인식한 음절수를 의미한다.
즉, 예를 들어 원어 문장이 "The snow glows white on the mountain tonight"일 경우, 원어 문장 그대로는 "더 스노우 글로우즈 화이트 온 더 마운틴 투나잇"으로서 음절수는 19 음절인데, 연음 등이 적용되어 소리나는 대로는 "더스노 글로즈 화이토너 마운투나잇"으로서 음절수가 15 음절이 된다.
이때, 번역된 문장을 예로 들자면 네이버 번역 엔진에서는 "오늘 밤 산에서 눈이 하얗게 빛나"인 13 음절로 번역되고, 구글 번역 엔진에서는 "오늘 밤 산에 눈이 하얗게 빛나"인 12 음절로 번역되므로, 원어 문장의 음절수인 15 음절과 비교할 때, 두가지 번역 모두 20% 이내의 오차를 가지게 된다.
한편, 다수의 번역 엔진을 통하여 번역된 문장 중에서 오차 이내의 번역 문장이 다수일 경우에는 다수의 번역 문장 중에서 최적의 문장을 선택하여야 하는데, 우선, 상기 분석 모듈(110)이 도출된 음성 정보를 통하여 각 문장별로 끊어 읽기 단위의 음절수를 계산하고, 상기 번역 모듈(110)이 번역된 문장을 어절 단위로 음절수를 계산하여, 상기 분석 모듈(110)에서 도출된 끊어 읽기 단위의 음절수와 비교하여 어절 단위의 각 음절수의 차이가 가장 적은 번역 문장을 선택하게 된다.
즉, 예를 들자면, 전술한 원문 문장인 "더스노(3) / 글로즈(3) / 화이토너(4) / 마운투나잇(5)"은 3,3,4,5이고, 네이버 번역 엔진으로 번역된 문장인 "오늘밤(3) / 산에서(3) / 눈이(2) / 하얗게(3) / 빛나(2)"는 3,3,2,3,2이고, 구글 번역 엔진으로 번역된 문장인 "오늘밤(3) / 산에(2) / 눈이(2) / 하얗게(3) / 빛나(2)"는 3,2,2,3,2이다.
여기서, 끊어 읽기 단위의 음절수와 어절 단위의 각 음절수의 차이의 합을 비교값으로 하는데, 네이버 번역 엔진의 번역 문장은 원어 문장과 차이가 0,0,2,2,2 로서 전체 합이 6으로서 비교값이 6이 되고, 구글 번역 엔진의 번역 문장은 원어 문장과의 차이가 0,1,2,2,2로서 전체 합이 7이 되어 비교값이 7이므로 네이버 번역 엔진으로 번역한 번역 문장의 비교값이 작기 때문에 이를 선택하게 된다.
그리고, 상기 원어 문장의 끊어 읽기 단위의 수가 4이고, 번역 문장의 어절 단위의 수는 5이므로 번역 문장의 어절 단위의 수가 원어 문장의 끊어 읽기 단위의 수보다 크게 된다.
이러한 경우에는 음성을 합성시에 끊어 읽기 때문에 해당 문장을 음정 및 임의 길이에 맞도록 음성 합성하더라도 어색해 질 수 있기 때문에 상기 번역 모듈(140)에서는 번역 문장의 인접한 어절 단위를 순차적으로 병합하여 형성된 다수의 병합 문장 중에서 비교값이 가장 작은 병합된 문장을 선택하도록 한다.
예를 들자면, "오늘밤 산에서(6) / 눈이(2) / 하얗게(3) / 빛나(2)"는 6,2,3,2가 되어 원어 문장과 비교한 비교값은 3,1,1,3으로 8이 되고,
"오늘밤(3) / 산에서 눈이(5) / 하얗게(3) / 빛나(2)"는 3,5,3,2가 되어 원어 문장과 비교한 비교값은 0,2,1,3으로 6이 되고,
"오늘밤(3) / 산에서(3) / 눈이 하얗게(5) / 빛나(2)"는 3,3,5,2가 되어 원어 문장과 비교한 비교값은 0,0,1,3으로 4가 되고,
"오늘밤(3) / 산에서(3) / 눈이(2) / 하얗게 빛나(5)"는 3,3,2,5가 되어 원어 문장과 비교한 비교값은 0,0,2,0으로 2가 됨으로써, 마지막의 병합 문장을 선택하게 된다.
이때, 원어 문장의 끊어 읽기 단위 중에서 모든 곳은 번역 문장과 동일하지만 3번째 끊어 읽기 단위에서 번역 문장과 2음절의 차이가 발생하는데, 이를 보완하기 위해서 모음을 늘리는 과정을 더 추가할 수 있다.
즉, 번역 문장에서는 "눈이(2)"인데, 모음을 늘이게 되면 "누운이이(4)"로 늘어나 3번째 끊어 읽기 단위의 음절수인 4와 동일하게 되므로 번역된 문장으로 음성을 합성시에 보다 자연스럽게 음성을 합성할 수 있게 된다.
또한, 전술한 예에서는 나타나지 않았지만, 음절수가 오차 이내인 번역 문장이 다수이고, 이러한 번역 문장 중에서 최소 비교값을 가지는 번역 문장이 복수일 경우도 발생할 수 있다.
이때, 비교값을 도출할 때, 가중치를 부가하도록 하여 계산할 수 있는데, 단순한 음절수의 차이를 합하는 것이 아니라, 상기 번역 모듈(140)이 문장 별로 서로 대응되는 끊어 읽기 단위와 어절 단위의 음절수 차이의 제곱을 합한 값을 비교값으로 할 수 있다.
예를 들면, 0,1,1,1,1인 1번 번역 문장과 0,2,0,1,1인 2번 번역 문장이 있는데, 기존의 비교값은 1,2 번역 문장 모두 4가 되지만, 가중치를 부여한 비교값의 경우에는 1번 번역 문장은 0,1,1,1,1로 4가 되지만, 2번 번역 문장은 0,4,0,1,1로 6이 된다.
즉, 하나의 끊어 읽기 단위에서 큰 차이가 나는 것보다 다수의 끊어 읽기 단위에서 작은 차이가 나는 것이 음성 합성시에 어색함을 줄일 수 있기 때문에 전술한 바와 같이 가중치를 부가한 비교값으로 최적의 번역 문장을 선택할 수 있게 된다.
그리고, 상기 번역 모듈(140)을 통하여 원어 문장을 번역하여 도출된 번역 문장의 전체 음절수가 원어 문장의 소리나는 대로 인식한 음절수와 동일 할 경우에는 전술한 단계를 거처 최종 번역 문장을 확정할 수도 있고, 끊어 읽기 단위 별로 음절수가 동일하도록 병합 또는 분리할 수도 있다.
예를 들면, 원문 문장이 "Not a footprint to be seen"이고 소리나는 대로 인식하게 되면 "낫어(2) / 풋프린(3) / 투비신(3)"이 되며, 이를 한국어로 번역한 문장은 "발자국(3) / 하나(2) / 안보여(3)"로 음절수가 동일하게 된다.
여기서, 각 끊어 읽기 단위에서 차이가 있기 때문에 상기 번역 모듈(140)에서 이를 조절하여 "발자(2) / 국하나(3) / 안보여(3)"로 어절을 변환함으로써, 끊어 읽기 단위 별로 음절수를 동일하게 하여 음성 합성을 수행하도록 할 수도 있다.
추가로 전술한 바와 같이 모든 번역 과정 및 음성 합성 과정을 자동으로 수행할 수도 있지만, 특수한 경우에는 관리자의 개입이 필요한 경우가 발생할 수 있다.
그 예로서, 다수의 번역 엔진을 통하여 도출된 번역 문장의 음절수가 원어 문장의 음절수의 20%를 초과하는 경우에는 별도로 팝업창을 출력하여 관리자가 직접 번역에 개입하여 음절수를 조절하도록 할 수 있다.
추가로, 원어 문장의 끊어 읽기 단위의 수가 번역 문장의 어절 단위의 수보다 클 경우나, 번역된 번역 문장의 음절수가 원어 문장의 음절수 보다 많을 경우에도 팝업창을 출력하여 관리자가 직접 번역에 개입하도록 할 수 있으며 관리자가 개입할 수 있는 별도의 조건을 설정할 수도 있어 보다 정확하게 번역 문장을 생성할 수 있게 된다.
이상에서 본 발명의 바람직한 실시 예를 설명하였으나, 본 발명의 권리범위는 이에 한정되지 않으며, 본 발명의 실시 예와 실질적으로 균등한 범위에 있는 것까지 본 발명의 권리 범위가 미치는 것으로 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것이다.
본 발명은 노래 번역 시스템에 관한 것으로서, 더욱 상세하게는 외국 노래를 원곡 가수의 목소리로 모국어 또는 다른 외국어로 들을 수 있을 뿐만 아니라 음성 합성으로 만들어진 인공 음성으로 노래를 부르더라도 어색함이 없이 자연스럽게 노래할 수 있는 노래 번역 시스템에 관한 것이다.
100 : 서버 110 : 분석 모듈
120 : 채보 모듈 130 : 음성 인식 모듈
140 : 번역 모듈 150 : 음성 합성 모듈
160 : 믹싱 모듈 170 : 통신 모듈
200 : 사용자 단말기 300 : 번역 서버

Claims (7)

  1. 노래 파일에서 반주 및 음성 정보를 분리하는 분석 모듈과,
    상기 분석 모듈에서 추출된 음성 정보를 통하여 가사를 인식하는 음성 인식 모듈과,
    상기 음성 인식 모듈에서 추출된 가사를 설정된 언어로 번역하는 번역 모듈과,
    상기 번역 모듈을 통하여 도출된 번역 가사 및 원곡의 멜로디에 따라 번역된 음성 정보를 합성하는 음성 합성 모듈과,
    상기 분석 모듈에서 추출한 반주 정보와 번역된 음성 정보를 합치는 믹싱 모듈로 이루어지며,
    상기 분석 모듈은 추출된 음성 정보에서 가수의 성문을 추출하고,
    상기 음성 합성 모듈은 상기 분석 모듈에서 추출된 가수의 성문을 사용하여 음성을 합성하는 것을 특징으로 하는 노래 번역 시스템.
  2. 삭제
  3. 제1항에 있어서,
    상기 분석 모듈을 통하여 추출된 음성 정보를 분석하여 악보를 추출하는 채보 모듈이 더 구비되며,
    상기 음성 합성 모듈은 상기 채보 모듈에서 추출된 악보의 음정, 박자 및 음의 길이에 따라 음성을 합성하는 것을 특징으로 하는 노래 번역 시스템.
  4. 제1항에 있어서,
    상기 번역 모듈은 내부 또는 통신으로 연결되는 다수의 번역 엔진을 통하여 번역된 번역 문장과 원어 문장의 음절을 비교하여 음절수의 차이가 20% 이내의 번역 문장을 선택하는 것을 특징으로 하는 노래 번역 시스템.
  5. 제4항에 있어서,
    번역 문장이 다수일 경우,
    상기 분석 모듈은 도출된 음성 정보를 통하여 각 문장별로 끊어 읽기 단위의 음절수를 계산하고,
    상기 번역 모듈은 번역된 문장을 어절 단위로 음절수를 계산하여 상기 분석 모듈에서 도출된 끊어 읽기 단위의 음절수와 비교하여 각 음절수의 차이가 가장 적은 번역 문장을 선택하는 것을 특징으로 하는 노래 번역 시스템.
  6. 제5항에 있어서,
    상기 번역 모듈은 문장 별로 서로 대응되는 끊어 읽기 단위와 어절 단위의 음절수 차이의 제곱을 합한 값을 비교값으로 하고, 비교값이 가장 작은 문장을 선택하는 것을 특징으로 하는 노래 번역 시스템.
  7. 제6항에 있어서,
    상기 원어 문장의 끊어 읽기 단위의 수가 번역 문장의 어절 단위의 수보다 클 경우, 번역 문장의 인접한 어절 단위를 순차적으로 병합하여 형성된 다수의 병합 문장 중에서 비교값이 가장 작은 병합 문장을 선택하는 것을 특징으로 하는 노래 번역 시스템.
KR1020220141006A 2022-10-28 2022-10-28 노래 번역 시스템 KR102546555B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220141006A KR102546555B1 (ko) 2022-10-28 2022-10-28 노래 번역 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220141006A KR102546555B1 (ko) 2022-10-28 2022-10-28 노래 번역 시스템

Publications (1)

Publication Number Publication Date
KR102546555B1 true KR102546555B1 (ko) 2023-06-26

Family

ID=86947311

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220141006A KR102546555B1 (ko) 2022-10-28 2022-10-28 노래 번역 시스템

Country Status (1)

Country Link
KR (1) KR102546555B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210015064A (ko) 2019-07-31 2021-02-10 삼성전자주식회사 전자장치와 그의 제어방법, 및 기록매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210015064A (ko) 2019-07-31 2021-02-10 삼성전자주식회사 전자장치와 그의 제어방법, 및 기록매체

Similar Documents

Publication Publication Date Title
US7117231B2 (en) Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
JP5313466B2 (ja) 音声の再生に同期して音声の内容を表示させる技術
RU2573228C2 (ru) Семантический микшер звуковых дорожек
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
US8106285B2 (en) Speech-driven selection of an audio file
Abushariah et al. Arabic speaker-independent continuous automatic speech recognition based on a phonetically rich and balanced speech corpus.
US8719028B2 (en) Information processing apparatus and text-to-speech method
US20080208597A1 (en) Apparatus, method, and computer program product for processing input speech
JP2002520664A (ja) 言語に依存しない音声認識
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
Fujihara et al. Lyrics-to-audio alignment and its application
Mesaros Singing voice identification and lyrics transcription for music information retrieval invited paper
Gooskens et al. The position of Frisian in the Germanic language area
JP2020012855A (ja) テキスト表示用同期情報生成装置および方法
Vijayan et al. A dual alignment scheme for improved speech-to-singing voice conversion
JP5343293B2 (ja) 音声編集合成装置及び音声編集合成方法
JP5273844B2 (ja) 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
KR102546555B1 (ko) 노래 번역 시스템
Batista et al. Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation
JP2002149180A (ja) 音声合成装置および音声合成方法
Turk Cross-lingual voice conversion
JP2004347732A (ja) 言語自動識別方法及び装置
JP2017215555A (ja) 音声翻訳装置及び音声翻訳システム
JP2005181998A (ja) 音声合成装置および音声合成方法
Malage et al. Low Resource Speech-to-Speech Translation of English videos to Kannada with Lip-Synchronization

Legal Events

Date Code Title Description
GRNT Written decision to grant