KR102418232B1 - 보이스 유사도 평가 방법 및 그 장치 - Google Patents

보이스 유사도 평가 방법 및 그 장치 Download PDF

Info

Publication number
KR102418232B1
KR102418232B1 KR1020200127548A KR20200127548A KR102418232B1 KR 102418232 B1 KR102418232 B1 KR 102418232B1 KR 1020200127548 A KR1020200127548 A KR 1020200127548A KR 20200127548 A KR20200127548 A KR 20200127548A KR 102418232 B1 KR102418232 B1 KR 102418232B1
Authority
KR
South Korea
Prior art keywords
neural network
artificial neural
voice
singer
sound source
Prior art date
Application number
KR1020200127548A
Other languages
English (en)
Other versions
KR20220043769A (ko
Inventor
윤종성
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020200127548A priority Critical patent/KR102418232B1/ko
Publication of KR20220043769A publication Critical patent/KR20220043769A/ko
Application granted granted Critical
Publication of KR102418232B1 publication Critical patent/KR102418232B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

보이스 유사도 평가 방법 및 장치가 개시된다. 본 명세서의 일 실시예에 따르면 제1 오리지널 음원에서 적어도 일부를 추출하여 학습 데이터를 준비하고, 준비된 학습데이터를 이용하여 인공신경망 모델을 학습시킨다. 그런 후, 모창 가수의 보이스가 순차적으로 입력되는 것을 감지하는 경우 모창 가수들의 보이스 특징값을 상기 학습된 인공신경망 모델에 입력하고, 인공신경망 모델에 적용한 결과에 기초하여 모창 가수와 오리지널 가수의 유사도를 판단할 수 있다.

Description

보이스 유사도 평가 방법 및 그 장치{METHOD FOR EVALUATING A VOICE SIMILARITY OF SINGER AND DEVICE THEREOF}
본 명세서는 인공지능 시스템을 활용한 보이스 유사도를 평가하는 방법 및 그 장치에 관한 것이다.
음성 인식은 사람이 말하는 음성 언어를 컴퓨터가 해석하여 그 내용을 문자 데이터로 전환하는 처리를 의미한다. STT(Speeck To Text)라고도 한다. 로봇, 텔레매틱스 등 음성으로 기기를 제어하고, 정보 검색 등이 필요한 경우에 많이 응용될 수 있다. 대표적인 알고리즘은 HMM(Hidden Markov Model)으로서, 다양한 화자들이 발성한 음성들을 통계적으로 모델링하여 음향모델을 구성하며 말뭉치 수집을 통하여 언어모델을 구성한다.
한편, 음성 인식은 미리 기록해둔 음성 패턴과 비교하여 개인 인증 등의 용도로 음성 인식 기술을 활용하여 화자를 인식하는 분야에서도 이용될 수 있다. 화자 인식(speaker Recognition) 소리 지문'이라 할 수 있는 성문(voice print)을 분석하여 화자를 구별한다.
최근 인공지능 기술 등이 발전되면서 음성 인식, 화자 인식의 분야가 다양하게 확대되고 있다.
본 명세서는 복수의 모창 보이스와 오리지널 가수의 오리지널 보이스가 함께 입력되는 경우, 오리지널 가수를 정확하게 구별할 수 있는 보이스 유사도 평가 방법을 제공하는 것을 목적으로 한다.
또한, 본 명세서는 복수의 모창 보이스와 오리지널 보이스가 입력되는 경우, 오리지널 가수에 의해 레코딩된 음원과 유사도를 분석하는 보이스 유사도 평가 방법을 제공하는 것을 목적으로 한다.
또한, 본 명세서는 오리지널 싱어에 의해 레코딩된 시점의 음원과 오리지널 싱어의 현재 보이스가 보이스 특성에 있어서 차이가 존재하는 경우, 오리지널 싱어를 구분하기 위한 인공신경망 모델을 학습하고, 인공 신경망 모델의 업데이트 방법을 제시하는 보이스 유사도 평가 방법을 제공하는 것을 목적으로 한다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 이하의 발명의 상세한 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서의 일 실시예에 따른 보이스 유사도 평가 방법은, 제1 오리지널 음원 중 복수의 싱어(singer)의 보이스와 비교할 음원을 추출하는 단계; 상기 추출된 음원을 인공신경망의 입력값을 정의하여 학습된 제1 인공신경망 모델을 저장하는 단계; 상기 제1 오리지널 음원 중 복수의 구간에 대하여 복수의 싱어의 보이스를 미리 정해진 순서에 따라 순차적으로 입력받는 단계; 상기 순차적으로 입력된 보이스를 상기 제1 인공신경망 모델의 입력값으로 정의하고, 상기 입력값에 대응하는 출력값에 기초하여 상기 복수의 싱어의 보이스와 상기 제1 오리지널 음원을 레코딩한 싱어의 음원과의 유사도를 산출하는 단계; 및 상기 유사도에 따라 상기 복수의 싱어 중 특정 싱어를 선택하는 단계;를 포함한다.
상기 복수의 싱어의 보이스 중 하나의 보이스는 상기 제1 오리지널 음원을 레코딩한 오리지널 싱어에 의한 보이스이다.
상기 제1 인공신경망 모델을 저장하는 단계는, 상기 추출된 음원 구간의 특징값에 대응하는 특징벡터를 추출하는 단계; 상기 특징벡터에 대하여 정규화(Normalization)을 수행하는 단계; 상기 정규화된 특징벡터를 입력값으로 하여 인공신경망을 학습시키는 단계; 및 상기 학습된 인공신경망을 상기 제1 인공 신경망 모델로 메모리에 저장하는 단계;를 포함하고, 상기 인공신경망은 상기 입력값과 출력값이 동일한 값을 가지도록 상기 인공신경망 내부 노드들의 가중치가 학습될 수 있다.
상기 제1 인공신경망 모델은 오토 인코더(Auto Encoder)로 구현될 수 있다.
상기 복수의 싱어의 보이스를 미리 정해진 순서에 따라 순차적으로 입력받는 단계는, 상기 순차적으로 입력된 보이스의 음원을 각각 추출하는 단계; 상기 추출된 음원에서 특징값에 대응하는 특징벡터를 각각 추출하는 단계; 및 상기 각각의 특징벡터에 대하여 정규화를 수행하는 단계; 를 더 포함한다.
상기 유사도에 따라 상기 복수의 싱어 중 특정 싱어를 선택하는 단계는, 상기 유사도가 가장 높은 싱어 및/또는 가장 낮은 싱어를 구별하여 선택할 수 있다.
상기 보이스 유사도 평가 방법은, 제1 라운드에서 상기 제1 인공신경망 모델을 적용하여 상기 특정 싱어을 선택하는 과정이 종료되면, 제2 오리지널 음원을 입력데이터로 하여 학습시킨 제2 인공신경망 모델을 적용하여 상기 특정 싱어를 선택하는 과정을 수행하는 단계;를 더 포함할 수 있다.
상기 보이스 유사도 평가 방법은, 상기 순차적으로 입력받은 상기 복수의 싱어의 보이스 중 상기 오리지널 싱어의 순서를 확인하는 단계; 및 상기 유사도가 가장 높은 싱어가 상기 오리지널 싱어와 일치하지 않는 경우, 상기 제1 라운드가 진행되는 동안의 상기 오리지널 싱어의 보이스로부터 특징벡터를 추출하는 단계;를 더 포함할 수 있다.
상기 보이스 유사도 평가 방법은, 상기 추출된 특징벡터를 미리 학습된 상기 제2 인공신경망 모델의 입력값으로 설정하여 미리 정의된 상기 제2 인공신경망 모델의 가중치를 업데이트하는 단계;를 더 포함할 수 있다.
상기 보이스 유사도 평가 방법은, 상기 추출된 특징벡터를 상기 제1 인공신경망의 출력값이 되도록 상기 제1 인공신경망의 가중치를 업데이트하는 단계; 및 상기 업데이트된 가중치를 상기 제2 인공신경망 모델에 적용하여 상기 제2 인공신경망 모델을 업데이트하는 단계;를 더 포함할 수 있다.
상기 제1 인공신경망을 학습시키는 단계는, 상기 제1 오리지널 음원, 상기 오리지널 싱어에 의해 레코딩된 다른 음원을 각각 입력값으로 하여 학습시킬 수 있다.
상기 제1 인공신경망을 학습시키는 단계는, 현재시점을 기준으로 상기 오리지널 싱어의 보이스에 기초한 특징값을 추가적인 입력값으로 하여 학습시킬 수 있다.
상기 제1 오리지널 음원 중 복수의 구간 중 특정 구간에 적어도 둘 이상의 싱어의 보이스가 동시에 입력되는 구간이 존재하는 경우, 상기 특정 구간 중 상기 마이크를 통해 입력되는 보이스를 싱어의 수만큼 분리하는 단계; 및 분리된 각 보이스 데이터를 상기 제1 인공 신경망의 입력값으로 정의하고, 상기 분리된 각 보이스에 대하여 상기 제1 오리지널 음원을 레코딩한 싱어의 음원과의 유사도를 각각 산출하는 단계;를 더 포함할 수 있다.
상기 보이스 유사도 평가 방법은, 상기 제1 오리지널 음원이 듀엣 이상의 보이스를 포함하는 경우, 상기 제1 오리지널 음원에서 상기 오리지널 싱어의 보이스를 제외한 나머지 보이스를 제거하는 단계; 및 상기 제거된 보이스 신호에서 상기 인공신경망의 학습데이터로 이용할 음원을 추출하는 단계;를 더 포함할 수 있다.
본 명세서의 다른 실시예에 따른 보이스 유사도 평가 장치는, 보이스를 입력받는 마이크; 인공신경망 모델을 저장하는 저장부; 및 상기 마이크 및 저장부와 기능적으로 연결되며, 제1 오리지널 음원 중 복수의 싱어(singer)의 보이스와 비교할 음원을 추출하고, 상기 추출된 음원을 인공신경망의 입력값으로 정의하여 학습된 제1 인공신경망 모델을 상기 저장부에 저장하는 프로세서;를 포함하고, 상기 프로세서는,
상기 제1 오리지널 음원 중 복수의 구간에 대하여 복수의 싱어의 보이스를 미리 정해진 순서에 따라 순차적으로 입력받고, 상기 순차적으로 입력된 보이스를 상기 제1 인공신경망 모델의 입력값으로 정의하고, 상기 입력값에 대응하는 출력값에 기초하여 상기 복수의 싱어의 보이스와 상기 제1 오리지널 음원을 레코딩한 싱어의 음원과의 유사도를 산출하고, 상기 유사도에 따라 상기 복수의 싱어 중 특정 싱어를 선택한다.
본 명세서의 일 실시예에 따른 보이스 유사도 평가 방법은, 복수의 모창 보이스와 오리지널 가수의 오리지널 보이스가 함께 입력되는 경우, 오리지널 가수를 정확하게 구별할 수 다.
또한, 본 명세서의 일 실시에에 따른 보이스 유사도 평가 방법은, 복수의 모창 보이스와 오리지널 보이스가 입력되는 경우, 오리지널 가수에 의해 레코딩된 음원과 유사도를 분석할 수 있다.
또한, 본 명세서의 일 실시예에 따른 보이스 유사도 평가 방법은, 오리지널 싱어에 의해 레코딩된 시점의 음원과 오리지널 싱어의 현재 보이스가 보이스 특성에 있어서 차이가 존재하는 경우, 오리지널 싱어를 구분하기 위한 인공신경망 모델을 학습하고, 인공 신경망 모델의 업데이트 방법을 제공할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.
도 1은 본 명세서의 일 실시에에 따른 보이스 유사도 평가 방법이 구현되는 개념도이다.
도 2는 본 명세서의 일 실시예에 따른 보이스 유사도 평가 장치의 블록도이다.
도 3 내지 도 4는 인공 신경망 모델을 설명하기 위한 도면들이다.
도 5는 5G 통신 시스템에서 단말과 5G 네트워크의 기본 동작의 일 예를 나타낸다.
도 6은 본 명세서의 일 실시예에 따른 보이스 유사도 평가 방법의 흐름도이다.
도 7은 학습된 인공 신경망을 이용하여 보이스 유사도를 평가하기 위한 방법의 흐름도이다.
도 8은 본 명세서의 일 실시예에 따라 인공 신경망을 업데이트 방법의 예시적인 흐름도이다.
도 9 내지 도 10은 본 명세서의 일 실시예에 따라 인공 신경망을 업데이트하는 방법을 예시적으로 설명하기 위한 도면들이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
전술한 본 명세서, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 명세서의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 명세서의 범위에 포함된다.
도 1은 본 명세서의 일 실시에에 따른 보이스 유사도 평가 방법이 구현되는 개념도이다.
본 명세서의 실시예는, 모창가수 중 오리지널 가수와 가장 유사한 보이스를 가진 가수를 선택하는 방송 프로그램의 전체 운영 단계에서 적용될 수 있음을 가정한다. 상기 방송 프로그램은 순차적으로 진행되는 총 4라운드에 걸쳐서 모창가수의 유사도 판단을 통해 최종 가수를 선택한다.
일 예로서, AI 장치(100)는 제1 라운드, 제2 라운드, 제3라운드 유사도가 가장 낮은 한명씩 선택한다. AI 장치(100) 제1 라운드에서 6명 중 유사도값 가장 낮은 한명 선택한다. 선택된 한명은 제2 라운드에 진출하지 못한다. AI 장치(100)는 제2 라운드에서 5명 중 유사도 값 가장 낮은 한명 선택한다. 선택된 한명은 제3 라운드에 진출하지 못한다. AI 장치(100)는 제3 라운드에서 4명 중 유사도 값 가장 낮은 한명 선택하고, 선택된 한 명은 제4 라운드에 진출하지 못한다. AI 장치(100)는 제4 라운드에서 3명 중 유사도 값 가장 높은 한명 만을 선택하고, 유사도가 가장 높은 싱어를 오리지널 싱어로 선택한다.
도 1을 참조하면, 본 명세서의 일 실시예에 따르면 오리지널 가수의 음성을 디텍트하기 위한 AI 시스템(10)은 복수의 모창 가수의 음성과 오리지널 가수의 음성을 입력받는다.
예를 들어, 도 1에서 Singer 1~ Singer 5가 모창가수이며, Singer 6이 원곡 가수라 가정할 때, AI System(10)은 싱어 1~6이 보이스를 순차적으로 입력받거나, 미리 정해진 순서로 특정 싱어의 보이스가 입력될 수 있다. 또한, 상기 싱어 1~6의 보이스는 적어도 둘 이상으로 그룹화되고, 동일 그룹에 포함된 싱어의 보이스가 함께 AI Sysmte(10)에 입력될 수 있다.
한편, 상기 AI System(10)에 입력되는 사운드는 오리지널 싱어에 의해 레코딩된 레코딩 음원을 포함할 수 있다. 다만, 상기 AI System(10)에 입력되는 사운드는 상기 레코딩 음원에서 원곡 가수의 음성이 제거된 상기 레코딩된 음원 원곡의 반주(원곡 MR) 만을 포함할 수 있다. 또한, AI 시스템(10)에 입력되는 사운드는, 상기 원곡 MR에 맞추어서 복수의 구간으로 이루어진 원곡의 음성 부분을, 복수의 싱어(Singer 1~6)에 의해 각각 순차적으로 또는 미리 정해진 순서로 또는 미리 정해진 조합으로 그룹을 지어서 불려지는 노래음성이 함께 입력될 수 있다.
AI System(10)은 소정의 알고리즘을 통해 복수의 싱어(Singer 1~6)의 노래음성과, 기 레코딩된 음원에 포함된 노래음성의 유사도를 산출하여 특정 싱어를 구분할 수 있다.
도 2는 본 명세서의 일 실시예에 다른 보이스 유사도 평가 장치의 블록도이다. 이하에서는 상기 보이스 유사도 평가 장치(100)를 AI 장치(100)로 호칭하기로 한다.
상기 AI 장치(100)는 AI 프로세싱을 수행할 수 있는 AI 모듈을 포함하는 전자 기기 또는 상기 AI 모듈을 포함하는 서버 등을 포함할 수 있다. 상기 AI 프로세싱은, 디바이스의 제어와 관련된 모든 동작들을 포함할 수 있다.
상기 AI 장치(20)는 휴대폰, 스마트폰, 데스크탑 컴퓨터, 노트북, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), DMB 수신기, 로봇과 같은고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다. 위 예시는 사용자 단말의 예시에 불과하면, 상기 유사도 평가 장치(100)는 네트워크와 연결된 서버 장치일 수도 있다.
상기 AI 장치(100)는 트레이닝 데이터(100), 러닝 유닛(120), 신경망 모델(130), 통신부(140), 입력부(150), 출력부(160), 프로세서(170)를 포함할 수 있다.
트레이닝 데이터(110)는 인공신경망을 학습시키기 위한 데이터로서, 경험이나 교육을 통해 획득한 사실, 정보 및 기술(Information about objects, events, concepts or rules, their relationships and properties, organized ofr goal-oriented systematic use) 등을 의미할 수 있다. 상기 트레이닝 데이터(110)는 트레이닝 데이터 획득부(110)의 의미를 포함할 수 있다.
본 명세서의 일 실시예에 의하면 트레이닝 데이터(110)는 오리지널 싱어에 의해 레코딩된 음원을 의미할 수 있다. 원곡 가수가 특정 시점에 레코딩한 음원이 본 명세서에서는 트레이닝 데이터로 활용될 수 있다. 상기 레코딩 음원에는 반주 부분과 노래음성 부분이 포함될 수 있다. 한편, 트레이닝 데이터(100)는 원곡 음원 중 모창이 진행되는 적어도 일부의 음원 데이터일 수 있다.
학습부(120)는 데이터 분류/인식을 판단하기 위하여 어떤 학습 데이터를 이용할지, 학습 데이터를 이용하여 데이터를 어떻게 분류하고 인식할지에 관한 기준을 학습할 수 있다. 학습부(120)는 학습에 이용될 학습 데이터를 획득하고, 획득된 학습데이터를 신경망 모델에 적용함으로써, 신경망 모델을 학습할 수 있다.
학습부(120)는 적어도 하나의 하드웨어 칩 형태로 제작되어 AI 장치(100)에 탑재될 수 있다. 예를 들어, 학습부(120)는 인공지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 AI 장치(100)에 탑재될 수도 있다. 또한, 학습부(120)는 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 애플리케이션에 의해 제공될 수 있다.
본 명세서의 일 실시예에 따른 학습부(Learning unit, 120)는 트레이닝 데이터(110)가 확정되면 트레이닝 데이터(100)에 전처리 과정을 수행하고, 전처리된 데이터를 이용하여 인공신경망을 학습시킨다.
전술한 바와 같이, 트레이닝 데이터(110)가 오리지널 싱어가 레코딩한 음원 데이터인 경우, 학습 데이터가 하나일 수 있다. 이 경우 유사도 러닝과정에서 분류(Classification)와 회귀(Regression)를 사용할 수가 없다. 이와 같은 제한으로 인해 본 명세서의 일 실시예 오토인코더(Auto Encoder)를 적용할 수 있다. 오토인코더는 입력값에 따라 출력값을 재생할 수 있도록 신경망을 학습시키는 기법이다.
학습부(120)는 데이터 획득부(미도시) 및 모델 학습부(미도시)를 더 포함할 수 있다.
데이터 획득부는 데이터를 분류하고 인식하기 위한 신경망 모델에 필요한 학습 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(23)는 학습 데이터로서, 신경망 모델에 입력하기 위한 샘플 데이터를 획득할 수 있다. 본 명세서의 일 실시예에 의하면, 상기 학습을 위한 샘플 데이터는 전술한 오리지널 레코딩 음원에 한정되지 않고, 오리지널 싱어에 의해 레코딩된 적어도 하나의 다른 음원, 상기 레코딩 음원의 레코딩 시점과 시간 차이가 있는 현재 시점에서 오리지널 싱어의 보이스 데이터 등을 포함할 수 있다.
모델 학습부는 상기 획득된 학습 데이터를 이용하여, 신경망 모델이 소정의 데이터를 어떻게 분류할지에 관한 판단 기준을 가지도록 학습할 수 있다. 이 때 모델 학습부는 학습 데이터 중 적어도 일부를 판단 기준으로 이용하는 지도 학습(supervised learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또는 모델 학습부는 지도 없이 학습 데이터를 이용하여 스스로 학습함으로써, 판단 기준을 발견하는 비지도 학습(unsupervised learning)을 통해 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하여 강화 학습(reinforcement learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient decent)을 포함하는 학습 알고리즘을 이용하여 신경망 모델을 학습시킬 수 있다.
신경망 모델이 학습되면, 모델 학습부는 학습된 신경망 모델을 메모리에 저장할 수 있다. 모델 학습부는 학습된 신경망 모델을 AI 장치(100)와 유선 또는 무선 네트워크로 연결된 서버의 메모리에 저장할 수도 있다.
학습부(120)는 인식 모델의 분석 결과를 향상시키거나, 인식 모델의 생성에 필요한 리소스 또는 시간을 절약하기 위해 학습 데이터 전처리부(미도시) 및 학습 데이터 선택부(미도시)를 더 포함할 수도 있다.
학습 데이터 전처리부는 획득된 데이터가 상황 판단을 위한 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 예를 들어, 학습 데이터 전처리부는, 모델 학습부가 오리지널 싱어에 의해 레코딩된 특정 음원의 인식을 위한 학습을 위하여 획득된 학습 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
또한, 학습 데이터 선택부는, 학습 데이터 획득부에서 획득된 학습 데이터 또는 전처리부에서 전처리된 학습 데이터 중 학습에 필요한 데이터를 선택할 수 있다.
선택된 학습 데이터는 모델 학습부에 제공될 수 있다. 예를 들어, 전술한 예에서는 학습 데이터가 하나의 Class(오리지널 싱어에 의해 레코딩된 특정 음원)일 뿐이지만, 다른 예로서, 오리지널 싱어에 의해 레코딩된 다른 음원, 오리지널 싱어의 현재 목소리 톤등의 데이터가 학습데이터로 저장될 수 있다. 이 경우, 프로세서(170)는 복수의 타입을 갖는 학습 데이터 중 특정 학습 데이터만을 선택하여 모델 학습부에 제공할 수 있다.
또한, 학습부(120)는 신경망 모델의 분석 결과를 향상시키기 위하여 모델 평가부(미도시)를 더 포함할 수도 있다.
모델 평가부는, 신경망 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 분석 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(120)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델을 평가하기 위한 기 정의된 데이터일 수 있다. 일 예로, 모델 평가부는 평가 데이터에 대한 학습된 인식 모델의 분석 결과 중, 분석 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정되 임계치를 초과하는 경우, 소정 기준을 만족하지 못한 것으로 평가할 수 있다.
본 명세서의 일 실시예는 원곡 가수의 곡을 반주부분만 출력되는 상황에서 모창가수와 원곡가수가 소정의 순서에 따라 순차적으로 노래를 부르는 과정에서 모창 가수들의 보이스와 원곡 가수의 보이스를 각각 입력받을 수 있다. 따라서, AI 장치(100)는 입력된 복수의 보이스 중에서 전술한 기 학습된 신경망 모델을 이용하여 원곡 가수의 보이스와 가장 유사도가 높은 가수를 선택할 수 있다. 그러나, 신경망 모델의 출력 결과 AI 장치(100)의 선택 결과가 실제 원곡 가수가 아닌 것으로 확인되는 경우, 모델 평가부는 기 학습된 신경망 모델을 재학습하도록 할 수 있다. 신경망 모델의 업데이트에 대해서는 이하 본 명세서의 실시예 설명을 통해 보다 구체적으로 설명하기로 한다.
도 3을 참조하면, 오토 인코더는 입력값과 출력값을 같게 하는 신경망으로서, 가운데 계층의 노드 수가 입력값 보다 적은 것이 특징이다. 이러한 구조로 인해 입력데이터를 압축하는 효과가 있으며, 노이즈 제거에도 효과적이다. 오토인코더는, 입력층으로 들어온 데이터를 인코더를 통해 은닉층으로 출력하고, 은닉층의 데이터를 디코더를 통해 출력층으로 내보낸다. 한편, 최종 생성된 출력값을 입력값과 비슷해지도록 만드는 가중치를 찾아내는 것이 핵심이다.
따라서, 본 명세서의 일 실시예는 오리지널 싱어가 레코딩한 음원 데이터의 전처리 데이터를 오토 인코더의 입력 및 출력에 동일한 값을 제공하여 오토 인코더 내부 노드의 가중치를 학습시킨다.
한편, 본 명세서의 일 실시예는 학습에 이용되는 인공 신경망으로서 오토인코더로 한정하지 않고 다양하게 변경되어 실시될 수 있다. 예를 들어, 도 4를 참조하면, 본 명세서의 일 실시예에서 모창 가수 중 오리지널 가수와의 유사도 판단을 위해 딥러닝 모델이 이용될 수도 있다.
전술한 입력층, 은닉층, 출력층은 다층 퍼셉트론 뿐 아니라 CNN, RNN 등 다양한 인공신경망 구조에서 공동적으로 적용될 수 있다. 은닉층의 개수가 많아질수록 인공신경망이 깊어진 것이며, 충분히 깊어진 인공신경망을 러닝모델로 사용하는 머신러닝 패러다임을 딥러닝(Deep Learning)이라 한다. 또한 딥러닝을 위해 사용하는 인공신경망을 심층 신경망(DNN: Deep neural network)라 한다. 도 4에 도시된 심층 신경망은 은닉층+출력층이 8개로 구성된 다층 퍼셉트론이다. 상기 다층 퍼셉트론 구조를 완전 연결 신경망(fully-connected neural network)이라 표현한다. 완전 연결 신경망은 서로 같은 층에 위치하는 노드 간에는 연결 관계가 존재하지 않으며, 인접한 층에 위치한 노드들 간에만 연결 관계가 존재한다. DNN은 완전 연결 신경망 구조를 가지고 다수의 은닉층과 활성함수들의 조합으로 구성되어 입력과 출력 사이의 상관관계 특성을 파악하는데 유용하게 적용될 수 있다. 여기서 상관관계 특성은 입출력의 결합확률(joint probability)을 의미할 수 있다. 따라서, 입력값과 출력값의 상관관계가 클수록 모창 가수의 유사도값이 크도록 딥러닝 모델이 학습될 수도 있다.
프로세서(170)는 학습부(120)에서 인공신경망 학습이 완료되면 메모리(미도시)에 신경망 모델(NN Model, 130)을 저장할 수 있다.
프로세서(170)는 메모리(미도시)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 특히, 프로세서(170)는 모창이 진행되는 동안 오리지널 가수와의 유사도를 판단하기 위한 신경망을 학습할 수 있다. 여기서, 유사도를 판단하기 위한 신경망 신경망은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 갖는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 모드들은 뉴런이 시냅스(synapse)를 통해 신호를 주고받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고받을 수 있다. 여기서 신경망은 신경망 모델에서 발전한 딥러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 신경망 모델의 예는 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들을 포함하며, 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.
한편, 전술한 바와 같은 기능을 수행하는 프로세서는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.
도 2에 도시되지는 않았으나 메모리는 AI 장치(100)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리는 비 휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SDD) 등으로 구현할 수 있다. 메모리는 프로세서(170)에 의해 액세스되며, 프로세서(170)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리는 본 명세서의 일 실시예에 따른 데이터 분류/인식을 위한 학습 알고리즘을 통해 생성된 신경망 모델(예를 들어, 오토 인코더 또는 딥 러닝 모델)을 저장할 수 있다.
통신부(140)는 프로세서(170)에 의한 AI 프로세싱 결과를 외부 전자 기기로 전송할 수 있다.
여기서 외부 전자 기기는 외부 서버, 사용자 단말 등을 포함할 수 있다. 본 명세서의 일 실시예에 의하면, 상기 AI 프로세싱 결과로 복수의 모창 가수(오리지널 가수 포함) 중 특정 가수가 선택된 경우, 그 결과를 해당 프로그램을 진행하는 아나운서의 단말기기로 전송할 수 있다.
통신부(140)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth?), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.
입력부(140)는 다양한 종류의 데이터를 획득할 수 있다. 입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.
입력부(140)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(140)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(170)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.
출력부(150)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. 출력부(150)에는 시각 정보를 출력하는 디스플레이부, 청각 정보를 출력하는 스피커, 촉각 정보를 출력하는 햅틱 모듈 등이 포함될 수 있다.
한편, 본 명세서의 일 실시예에 따라 학습부(120)는 통해 트레이닝 데이터(110)를 이용하여 신경망 모델(130)를 학습하고, 프로세서(170)는 학습된 신경망 모델을 메모리에 저장한다. 여기서 신경망 모델(130)는 본 명세서에서 가정하는 방송 프로그램에서 매 라운드 별로 진행할 오리지널 싱어의 음원별로 학습되어 메모리에 저장될 수 있다.
도 5는 5G 통신 시스템에서 단말과 5G 네트워크의 기본 동작의 일 예를 나타낸다.
도 5를 참조하면, UE와 5G 네트워크 사이에 AI 프로세싱 데이터를 송수신하는 과정을 도시한다. UE는 본 명세서의 일 실시예에 따라 AI 장치(100) 즉, 보이스 유사도 판단 장치에 해당되될 수 있으며, 보이스 유사도 판단 장치는 복수의 모창 가수의 노래 음성, 오리지널 가수의 노래 음성을 입력받아서 5G 네트워크로 전송할 수 있다(S1). 여기서 5G 네트워크는 상기 복수의 가수의 음성 데이터에 대하여 AI 프로세싱을 수행한다. 상기 AI 프로세싱은 전술한 바와 같이, 신경망 모델을 통해 모창 가수와 원 가수의 유사도 판단 결과에 대응될 수 있다. 그런 후, 5G 네트워크는 상기 AI 프로세싱 결과를 포함하는 응답을 상기 AI 장치(100)로 전송할 수 있다.
로컬 디바이스의 경우 시스템 성능, 프로세싱 속도 등을 고려하여 AI 프로세싱에 필요한 특정 데이터를 클라우드 서버 등에 전달하고, 클라우드 서버에서 상기 특정 데이터에 대하여 AI 프로세싱을 수행하여 로컬 디바이스로 그 결과를 전달할 수도 있다.
도 6은 본 명세서의 일 실시예에 따라 보이스 유사도 평가 방법의 흐름도이다.
도 6의 각 동작은 보이스를 입력받는 마이크, 음성 신호를 처리하는 프로세서를 포함하는 전자 기기를 통해 구현될 수 있다. 보다 구체적으로는 도 2에서 설명한 프로세서에 의해 구현될 수 있다.
도 6을 참조하면, 프로세서(170)는 인공신경망 학습단계를 수행하기 위해 학습데이터를 획득할 수 있다. 상기 학습단계는 전술한 방송 프로그램의 제1 라운드에서 복수의 싱어가 부를 음원이다. 전술한 바와 같이, 매 라운드(예시적으로 총 4라운드)별로 복수의 싱어가 부를 음원이 다르므로 프로세서(170)는 서로 다른 학습 데이터를 획득할 수 있다.
프로세서(170)는 제1 오리지널 음원 중 복수의 싱어(singer)의 보이스와 비교할 음원을 추출할 수 있다(S600).
상기 제1 오리지널 음원은 제1 라운드에서 복수의 싱어들이 부를 음원이다. 프로세서(170)는 제1 오리지널 음원 외에 제2 오리지널 음원, 제3 오리지널 음원 및 제4 오리지널 음원에거 각각 복수의 싱어의 보이스와 비교할 음원을 추출할 수 있다. 여기서, 프로세서(170)는 제1 오리지널 음원 전체 중 복수의 싱어의 보이스와 비교할 특정 구간의 음원만을 추출할 수 있다. 예를 들어, 제1 오리지널 음원은 크게 전주-1절-간주-2절 부분으로 구성될 수 있으며, 전주와 간주 부분에서는 노래음성이 포함되지 않을 수 있으며, 제1 라운드는 1절만으로 진행될 수 있다. 따라서, 프로세서(170)는 제1 오리지널 음원 중 1절의 음원만을 추출할 수 있다.
그리고, 프로세서(170)는
다만, 라운드가 진행됨에 따라 오리지널 음원 중에서 학습 데이터 구간으로 추출될 데이터 구간은 서로 달라질 수 있음은 물론이다. 예를 들어, 4라운드의 경우 유사도가 가장 낮은 싱어를 선택하는 것이 아니라, 유사도가 가장 높은 싱어를 선택하는 단계이므로 제4 오리지널 음원의 경우 1절 및 2절 전체를 추출 구간으로 설정할 수 있다.
S600은 인공신경망 학습을 위한 데이터 전처리 과정으로서, 상기 전처리 과정은 전술한 음원 추출 과정 외에 특징 추출(Feature Extraction), 정규화(Normalization) 과정이 추가적으로 수행될 수 있다.
예를 들어, 프로세서(170)는 상기 추출된 음원 구간의 특징값을 추출할 수 있다. 상기 특징값 추출은 MFCC 기법을 이용하여 추출할 수 있다. MFCC 기법은 음성인식 프로세싱 과정에서 수십 ms 정도의 음성 신호에 대한 주파수 대역별 에너지 값을 의미할 수 있다. 따라서, 상기 특징값은 특징벡터일 수 있다. MFCC 기법을 적용하는 과정에서 싱어의 성별에 따라 주파수 대역을 다르게 필터링하여 정확도를 향상시킬 수 있다.
또한, 예를 들어, 프로세서(170)는 음원의 종류에 따라 음량이 서로 다르기 때문에 정규화가 필요하며, 상기 추출된 특징벡터에 대하여 정규화(Normalization)을 수행할 수 있다. 일 예로, Cepstral Mean Normalize 기법을 적용하며 이는 MFCC 이후 단계에서 정규화가 진행될 수 있다. Cepstral 평균 및 분산 정규화는 강력한 음성 인식을 위한 계산 효율적인 정규화 기술로서, 평균(means)을 뺀 후 분산(variance)으로 나누는 것이다.
프로세서(170)는 상기 정규화된 특징벡터를 입력값으로 하여 인공신경망을 학습시킨다.
프로세서(170)는 입력값과 출력값이 동일한 값을 가지도록 상기 인공신경망 내부 노드들의 가중치를 학습시킨다. 예를 들어, 프로세서(170)는 오토 인코더는 입력값에 따라 출력값을 재생산할 수 있도록 신경망을 학습시키는 기법이다. 프로세서(170)는 오리지널 가수가 레코딩한 음원의 노래소리만을 학습시키고, 입력과 출력에 동일한 값을 제공함으로써, 내부 노드의 가중치를 학습시킬 수 있다.
프로세서(170)는 상기 추출된 음원을 인공신경망의 입력값을 정의하여 학습된 제1 인공신경망 모델을 메모리에 저장할 수 있다(S610).
프로세서(170)는 상기 제1 인공신경망 모델을 포함하여, 매 라운드 별로 적용할 서로 다른 인공신경망 모델을 메모리에 저장할 수 있다.
상기 S600, S610는 인공신경망 학습을 위한 전처리 및 준비 단계일 수 있으며, 인공 신경망 모델이 준비되면, 모창 가수의 음원을 상기 인공신경망 모델을 통해 테스트할 수 있다. 다만, 상기 모창 가수의 음원은 레코딩된 것이 아니며 실제 방송 프로그램을 진행하는 동안(생방송 및/또는 녹화방송 포함) 마이크를 통해 감지되는 싱어의 노래음성 신호이다. 상기 마이크를 통해 감지되는 싱어의 노래 음성에는 모창가수의 노래 음성 외에 실제 오리지널 음원을 레코딩한 오리지널 싱어의 노래 음성 또한 실시간으로 입력된다.
본 명세서의 일 실시예에 의하면, 전술한 방송 프로그램에서 제1 라운드가 시작되면, AI 장치(100, 보이스 유사도 판단 장치)는 입력부(160, 예를 들어, 마이크)를 통해 복수의 싱어들의 보이스를 입력받는다.
프로세서(170)는 상기 복수의 싱어들의 보이스를 미리 정해진 순서에 따라 순차적으로 입력받을 수 있다.
예를 들어, 제1 오리지널 음원의 1절을 6명의 싱어들이 순차적으로 노래를 부를 때, AI 장치(100)는 각 싱어들이 부르는 파트를 구분하여 입력받을 수 있다.
다만, 순차적으로 각 싱어의 보이스가 입력되지만, 적어도 둘 이상의 싱어가 하나의 파트를 동시에 부르는 경우가 있을 수 있다. 예를 들어, 제1 그룹(Singer1, Singer2), 제2 그룹(Singer3, Singer4), 제3 그룹(Singer5, Singer6) 총 3개의 그룹으로 나누어진 상황에서 동일한 그룹에 포함된 복수의 싱어가 동시에 동일한 파트를 부르고 각 그룹이 순차적으로 노래를 부르는 경우, 프로세서(170)는 마이크를 통해 입력되는 보이스의 소스가 복수의 싱어에 의한 것인지 여부를 선행적으로 판단할 수 있다. 프로세서(170)는 마이크를 통해 입력된 보이스가 복수의 싱어에 의한 복수의 소스가 포함된 것으로 판단한 경우, 각각의 음원을 분리할 수 있다.
일 실시에에 의하면, 제1 오리지널 음원의 1절 일부 파트는 개별 싱어의 보이스가 입력되고, 상기 1절의 나머지 일부 파트는 전술한 바와 같이 그룹 보이스가 입력되는 경우를 가정할 수 있다. 프로세서(170)는 마이크를 통해 감지되는 실시간 보이스 특성을 분석하여 기 학습된 제1 인공신경망 모델의 입력데이터를 준비할 수 있다.
이하, 기 학습된 제1 인공신경망 모델에 적용할 입력데이터를 준비하는 과정은 인공신경망 모델 학습과정에서 학습 데이터에 대한 전처리과정과 동일, 유사할 수 있다.
먼저, 프로세서(170)는 상기 순차적으로 입력된 보이스의 음원을 각각 추출할 수 있다(S621).
프로세서(170)는 상기 추출된 음원에서 특징값에 대응하는 특징벡터를 각각 추출할 수 있다(S623).
프로세서(170)는 상기 각각의 특징벡터에 대하여 정규화를 수행할 수 있다(S625).
프로세서(170)는 상기 정규화된 특징 벡터를 기 학습된 제1 인공신경망 모델이 입력값으로 설정한다(S627).
다만, 상기 전처리 과정(음원추출, 특징벡터 추출, 정규화 과정)의 진행은 복수의 싱어 중 한명의 싱어의 노래가 종료되고, 다음 순서의 싱어의 노래가 입력될 때 수행될 수 있다.
또한, 예를 들어, 상기 전처리 과정은 싱어의 노래음성이 마이크를 통해 입력되는 것과 동시에 시작되어, 상기 싱어의 노래음성의 입력이 종료될 때 까지 지속적으로 전처리 과정이 수행될 수도 있다.
또한, 예를 들어, 프로세서(170)는 싱어 1에 의한 노래음성 입력이 종료된 후 싱어 2에 의한 노래음성 입력이 시작되기 전에 일시적으로 반주가 진행되는 구간을 디텍트할 수 있다. 프로세서(170)는 상기 일시적 반주 구간 동안 싱어 1의 노래 음성 데이터에 대하여 전처리 과정을 수행할 수도 있다.
프로세서(170)는 상기 전처리 과정이 종료된 음성 데이터에 대하여 제1 인공 신경망 모델에 입력값으로 설정할 수 있다.
제1 인공신경망 모델의 입력데이터 준비가 완료되면 프로세서(170)는 상기 순차적으로 입력된 보이스를 상기 제1 인공신경망 모델의 입력값으로 정의하고, 상기 입력값에 대응하는 출력값에 기초하여 상기 복수의 싱어의 보이스와 상기 제1 오리지널 음원을 레코딩한 싱어의 음원과의 유사도를 산출할 수 있다(S630).
일 실시예에 따라 상기 제1 인공신경망 모델은 오토인코더로 구현될 수 있으며, 프로세서(170)는 전처리된 데이터를 제1 인공신경망 모델에 입력되도록 제어한다. 상기 제1 인공신경망 모델은 상기 입력값에 대응하는 출력값을 제공한다. 프로세서(170)는 상기 출력값과 상기 입력값의 차이에 기초하여 유사도를 산출할 수 있다. 상기 차이는 MSE(Mean Square Error)를 통해 산출될 수 있다.
프로세서(170)는 상기 차이가 큰 경우 유사도가 낮은 것으로 판단하고, 상기 차이가 작은 경우 유사도가 높은 것으로 판단한다. 프로세서(170)는 방송 프로그램이 진행되는 라운드 별로 유사도에 따라 선택하는 싱어를 달리할 수 있다(S640).
예를 들어, 프로세서(170)는 제1라운드에서는 유사도가 가장 작은 싱어 및 유사도가 가장 큰 싱어를 각각 선택할 수 있다. 유사도가 가장 작은 싱어는 제2 라운드로 진출을 못하고, 유사도가 가장 큰 싱어는 실제 오리지널 가수인지 여부를 판단하고, 그 판단 결과에 따라 인공신경망 모델의 업데이트 여부를 판단하기 위함이다.
도 8을 참조하면, 프로세서(170)는 제1 인공신경망 모델의 출력값에 기초하여 유사도가 가장 큰 싱어가, 실제 오리지널 싱어가 아닌 것으로 판단되는 경우(S810:N), 프로세서(170)는 제2 인공신경망 모델의 업데이트가 진행되도록 제어할 수 있다(S820). 한편, 프로세서(170)는 제1 인공신경망 모델을 적용한 결과 실제 오리지널 싱어의 유사도가 가장 큰것으로 판단된 경우(S810:Y), 기 학습되어 저장된 제2 인공신경망 모델을 제2 라운드에서 그대로 적용할 수 있다. 프로세서(170)는 제2 라운드에서 기 학습된 제2 인공신경망 모델을 적용한 결과 실제 오리지널 싱어의 유사도가 가장큰 것으로 판단되었는지 여부에 따라 제3 인공신경망 모델을 업데이트하거나(S810), 기 학습된 제3 인공신경망 모델을 제3 라운드에서 그대로 적용하도록 제어할 수 있다(S850).
즉, 프로세서(170)는 인공 신경망 모델의 결과값과 실제 결과가 일치하지 않는 경우에만 다음 라운드에 적용될 인공신경망 모델을 업데이트할 수 있다.
다만, 프로세서(170)는 제1 라운드에서 AI 장치(100)의 판단 결과, 오리지널 싱어가 유사도가 가장 큰 싱어로 선택된 경우라 하더라도, 제2 라운드에서 적용할 제2 인공 신경망 모델을 업데이트하도록 제어할 수 있다.
한편, 인공 신경망 모델을 업데이트 하는 방식은 다양하게 변경되어 실시될 수 있다. 예를 들어, 프로세서(170)는 순차적으로 입력받은 상기 복수의 싱어의 보이스 중 상기 오리지널 싱어의 순서를 확인할 수 있다. 프로세서(170)는 상기 유사도가 가장 높은 싱어가 상기 오리지널 싱어와 일치하지 않는 경우, 상기 제1 라운드가 진행되는 동안의 상기 오리지널 싱어의 보이스로부터 특징벡터를 추출하고, 추출된 특징벡터를 미리 학습된 상기 제2 인공신경망 모델의 입력값으로 설정하여 미리 정의된 상기 제2 인공신경망 모델의 가중치를 업데이트할 수 있다.
전술한 바와 같이, 프로세서(170)는 특정 라운드 종료된 이후부터 다음 라운드 시작되기 전에 다음 라운드에 적용할 인공신경망 모델을 업데이트할 수 있다.
한편, 프로세서(170)는 상기 추출된 특징벡터를 미리 학습된 상기 제2 인공신경망 모델의 입력값으로 설정하여 미리 정의된 상기 제2 인공신경망 모델의 가중치를 업데이트할 수도 있다. 원곡 가수의 보이스 특징값을 다음 라운드에 적용함으로써, AI 장치(100)의 원곡 가수 선택의 정확성을 높일 수 있다.
다만, 인공신경망 모델을 업데이트 하는 방식은 다양하게 변형되어 실시될 수 있다.
예를 들어 도 9를 참조하면, 오리지널 싱어가 S2이고, 제1 라운드에서 제1 인공신경망 모델을 적용한 결과 유사도가 가장 낮은 싱어가 S6인 경우, 프로세서(170)는 제1 라운드가 진행되는 동안 S2의 보이스 특성값을 이용하여 제2, 제3, 제4 인공신경망 모델을 업데이트할 수 있다.
보다 구체적으로, 프로세서(170)는 제1 라운드가 진행되는 동안 S2의 보이스로부터 특징벡터를 추출하고, 상기 추출된 특징벡터를 상기 제1 인공신경망의 출력값이 되도록 상기 제1 인공신경망의 가중치를 업데이트한다. 그런 후, 프로세서(170)는 상기 업데이트된 가중치를 상기 제2 인공신경망 모델에 적용하여 상기 제2 인공신경망 모델을 업데이트할 수 있다. 즉, 제1 라운드는 종료되었지만, 제1 라운드에서 획득한 S2의 보이스 특성값을 기초로 제1 인공신경망 모델의 가중치를 업데이트하고, 그 업데이트된 가중치 세트를 나머지 라운드에 적용될 인공신경망 모델에 각각 적용할 수 있다.
도 10을 참조하면, 프로세서(170)는 제1 라운드에서 AI 장치(100)의 판단 결과 싱어 1 내지 싱어 6 중 유사도가 1위인 싱어와 유사도가 2위인 싱어의 유사도 차이가 소정 임계치 미만인 경우, 제2 인공 신경망 모델이 업데이트되도록 제어할 수 있다. 도 10에서 프로세서(170)는 S2의 유사도값과 차상위 유사도값을 갖는 S4의 유사도 차이가 미리 정해진 임계값 미만인 경우, 다음 라운드에 적용될 인공신경망 모델이 업데이트되도록 제어할 수 있다.
또한, 예를 들어, 프로세서(170)는 복수의 싱어들 각각의 유사도와 오리지널 싱어의 유사도값의 차이가 소정 임계치 이상인 경우라 하더라도, 제2 인공 신경망 모델이 업데이트되도록 제어할 수 있다. 제1 라운드와 제2 라운드의 학습 모델에 이용된 음원의 서로 다른 음원이므로, 현재시점을 기준으로 오리지널 싱어의 보이스 특성이 제2 인공신경망 모델에 반영되도록 가중치 업데이트 동작의 실행을 제어할 수 있다.
한편, 프로세서(170)는 마지막 라운드에서는 유사도가 가장 큰 싱어만을 선택할 수 있다.
프로세서(170)가 제1 인공신경망을 학습시키기 위해 이용하는 학습데이터는 전술한 예와 달리 제1 오리지널 음원에 한정될 필요는 없다. 예를 들어, 상기 학습데이터는 상기 제1 오리지널 음원, 상기 오리지널 싱어에 의해 레코딩된 다른 음원을 각각 입력값으로 하여 학습시킬 수도 있다.
다만, 이 경우, 학습 데이터의 종류가 적어도 둘 이상이므로 전술한 바와 같이, 인공 신경망을 오토 인코더 외에 다른 DNN 모델을 적용함이 바람직할 수 있다.
한편, 상기 학습 데이터로 현재시점을 기준으로 상기 오리지널 싱어의 보이스에 기초한 특징값을 추가적인 입력값으로 하여 학습시킬 수도 있다. 실제로 현재 시점을 기준으로 활발하게 레코딩 활동을 하지 않는 가수인 경우, 이미 레코딩된 음원만을 이용하여 학습데이터를 구성할 경우, 실제 인공신경망의 유사도 판단 신뢰도가 낮아질 가능성이 크다.
한편, 본 명세서의 일 실시예에 따르면, 방송 프로그램의 라운드 운영 방식에 따라 적어도 둘 이상의 싱어가 동시에 동일한 파트를 노래하는 것으로 판단된 경우, 프로세서(170)는 상기 제1 오리지널 음원 중 복수의 구간 중 특정 구간에 적어도 둘 이상의 싱어의 보이스가 동시에 입력되는 구간이 존재하는지를 판단할 수 있다. 프로세서(170)는 상기 특정 구간 중 상기 마이크를 통해 입력되는 보이스를 싱어의 수만큼 분리한다. 프로세서(170)는 분리된 각 보이스 데이터를 상기 제1 인공 신경망의 입력값으로 정의하고, 상기 분리된 각 보이스에 대하여 상기 제1 오리지널 음원을 레코딩한 싱어의 음원과의 유사도를 각각 산출할 수 있다.
한편, 본 명세서의 일 실시예에 따르면 학습 데이터로 이용되는 원곡이 듀엣 이상의 보이스를 포함하는 경우, 프로세서(170)는 상기 제1 오리지널 음원에서 상기 오리지널 싱어의 보이스를 제외한 나머지 보이스를 제거하고, 상기 제거된 보이스 신호에서 상기 인공신경망의 학습데이터로 이용할 음원을 추출하여 학습 데이터를 준비할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (15)

  1. 보이스를 입력받는 마이크, 음성 신호를 처리하는 프로세서를 포함하는 전자 기기를 통해 보이스 유사도를 평가하는 방법에 있어서,
    제1 오리지널 음원 중 복수의 싱어(singer)의 보이스와 비교할 음원을 추출하는 단계;
    상기 추출된 음원을 인공신경망의 입력값을 정의하여 학습된 제1 인공신경망 모델을 저장하는 단계;
    상기 제1 오리지널 음원 중 복수의 구간에 대하여 복수의 싱어의 보이스를 미리 정해진 순서에 따라 순차적으로 입력받는 단계;
    상기 순차적으로 입력된 보이스를 상기 제1 인공신경망 모델의 입력값으로 정의하고, 상기 입력값에 대응하는 출력값에 기초하여 상기 복수의 싱어의 보이스와 상기 제1 오리지널 음원을 레코딩한 오리지널 싱어의 음원과의 유사도를 산출하는 단계;
    상기 유사도에 따라 상기 복수의 싱어 중 특정 싱어를 선택하는 단계; 및
    제1 라운드에서 상기 제1 인공신경망 모델을 적용하여 상기 특정 싱어을 선택하는 과정이 종료되면, 제2 오리지널 음원을 입력데이터로 하여 학습시킨 제2 인공신경망 모델을 적용하여 상기 특정 싱어를 선택하는 과정을 수행하는 단계;
    를 포함하는 보이스 유사도 평가 방법.
  2. 제 1 항에 있어서,
    상기 복수의 싱어의 보이스 중 하나의 보이스는 상기 오리지널 싱어에 의한 보이스인 것을 특징으로 하는 보이스 유사도 평가 방법.
  3. 제 1 항에 있어서,
    상기 제1 인공신경망 모델을 저장하는 단계는,
    상기 추출된 음원 구간의 특징값에 대응하는 특징벡터를 추출하는 단계;
    상기 특징벡터에 대하여 정규화(Normalization)을 수행하는 단계;
    상기 정규화된 특징벡터를 입력값으로 하여 인공신경망을 학습시키는 단계; 및
    상기 학습된 인공신경망을 상기 제1 인공 신경망 모델로 메모리에 저장하는 단계; 를 포함하고,
    상기 인공신경망은 상기 입력값과 출력값이 동일한 값을 가지도록 상기 인공신경망 내부 노드들의 가중치가 학습되는 것을 특징으로 하는 보이스 유사도 평가 방법.
  4. 제 1 항에 있어서,
    상기 제1 인공신경망 모델은 오토 인코더(Auto Encoder)인 것을 특징으로 하는 보이스 유사도 평가 방법.
  5. 제 1 항에 있어서,
    상기 복수의 싱어의 보이스를 미리 정해진 순서에 따라 순차적으로 입력받는 단계는,
    상기 순차적으로 입력된 보이스의 음원을 각각 추출하는 단계;
    상기 추출된 음원에서 특징값에 대응하는 특징벡터를 각각 추출하는 단계; 및
    상기 각각의 특징벡터에 대하여 정규화를 수행하는 단계;
    를 더 포함하는 것을 특징으로 하는 보이스 유사도 평가 방법.
  6. 제 1 항에 있어서,
    상기 유사도에 따라 상기 복수의 싱어 중 특정 싱어를 선택하는 단계는,
    상기 유사도가 가장 높은 싱어 및/또는 가장 낮은 싱어를 구별하여 선택하는 것을 특징으로 하는 보이스 유사도 평가 방법.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 순차적으로 입력받은 상기 복수의 싱어의 보이스 중 상기 오리지널 싱어의 순서를 확인하는 단계; 및
    상기 유사도가 가장 높은 싱어가 상기 오리지널 싱어와 일치하지 않는 경우,
    상기 제1 라운드가 진행되는 동안의 상기 오리지널 싱어의 보이스로부터 특징벡터를 추출하는 단계;
    를 더 포함하는 것을 특징으로 하는 보이스 유사도 평가 방법.
  9. 제 8 항에 있어서,
    상기 추출된 특징벡터를 미리 학습된 상기 제2 인공신경망 모델의 입력값으로 설정하여 미리 정의된 상기 제2 인공신경망 모델의 가중치를 업데이트하는 단계;
    를 더 포함하는 것을 특징으로 하는 보이스 유사도 평가 방법.
  10. 제 8 항에 있어서,
    상기 추출된 특징벡터를 상기 제1 인공신경망의 출력값이 되도록 상기 제1 인공신경망의 가중치를 업데이트하는 단계; 및
    상기 업데이트된 가중치를 상기 제2 인공신경망 모델에 적용하여 상기 제2 인공신경망 모델을 업데이트하는 단계;
    를 더 포함하는 것을 특징으로 하는 보이스 유사도 평가 방법.
  11. 제 1 항에 있어서,
    상기 제1 인공신경망을 학습시키는 단계는,
    상기 제1 오리지널 음원, 상기 오리지널 싱어에 의해 레코딩된 다른 음원을 각각 입력값으로 하여 학습시키는 것을 특징으로 하는 보이스 유사도 평가 방법.
  12. 제 1 항에 있어서,
    상기 제1 인공신경망을 학습시키는 단계는,
    현재시점을 기준으로 상기 오리지널 싱어의 보이스에 기초한 특징값을 추가적인 입력값으로 하여 학습시키는 것을 특징으로 하는 보이스 유사도 평가 방법.
  13. 제 1 항에 있어서,
    상기 제1 오리지널 음원 중 복수의 구간 중 특정 구간에 적어도 둘 이상의 싱어의 보이스가 동시에 입력되는 구간이 존재하는 경우,
    상기 특정 구간 중 상기 마이크를 통해 입력되는 보이스를 싱어의 수만큼 분리하는 단계; 및
    분리된 각 보이스 데이터를 상기 제1 인공 신경망의 입력값으로 정의하고, 상기 분리된 각 보이스에 대하여 상기 제1 오리지널 음원을 레코딩한 싱어의 음원과의 유사도를 각각 산출하는 단계;
    를 더 포함하는 것을 특징으로 하는 보이스 유사도 평가 방법.
  14. 제 1 항에 있어서,
    상기 제1 오리지널 음원이 듀엣 이상의 보이스를 포함하는 경우, 상기 제1 오리지널 음원에서 상기 오리지널 싱어의 보이스를 제외한 나머지 보이스를 제거하는 단계; 및
    상기 제거된 보이스 신호에서 상기 인공신경망의 학습데이터로 이용할 음원을 추출하는 단계;
    를 더 포함하는 것을 특징으로 하는 보이스 유사도 평가 방법.
  15. 보이스를 입력받는 마이크;
    인공신경망 모델을 저장하는 저장부; 및
    상기 마이크 및 저장부와 기능적으로 연결되며, 제1 오리지널 음원 중 복수의 싱어(singer)의 보이스와 비교할 음원을 추출하고, 상기 추출된 음원을 인공신경망의 입력값으로 정의하여 학습된 제1 인공신경망 모델을 상기 저장부에 저장하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 제1 오리지널 음원 중 복수의 구간에 대하여 복수의 싱어의 보이스를 미리 정해진 순서에 따라 순차적으로 입력받고,
    상기 순차적으로 입력된 보이스를 상기 제1 인공신경망 모델의 입력값으로 정의하고, 상기 입력값에 대응하는 출력값에 기초하여 상기 복수의 싱어의 보이스와 상기 제1 오리지널 음원을 레코딩한 싱어의 음원과의 유사도를 산출하고,
    상기 유사도에 따라 상기 복수의 싱어 중 특정 싱어를 선택하고, 제1 라운드에서 상기 제1 인공신경망 모델을 적용하여 상기 특정 싱어을 선택하는 과정이 종료되면, 제2 오리지널 음원을 입력데이터로 하여 학습시킨 제2 인공신경망 모델을 적용하여 상기 특정 싱어를 선택하는 과정을 수행하는 것을 특징으로 하는 보이스 유사도 평가 장치.
KR1020200127548A 2020-09-29 2020-09-29 보이스 유사도 평가 방법 및 그 장치 KR102418232B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200127548A KR102418232B1 (ko) 2020-09-29 2020-09-29 보이스 유사도 평가 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200127548A KR102418232B1 (ko) 2020-09-29 2020-09-29 보이스 유사도 평가 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20220043769A KR20220043769A (ko) 2022-04-05
KR102418232B1 true KR102418232B1 (ko) 2022-07-07

Family

ID=81182205

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200127548A KR102418232B1 (ko) 2020-09-29 2020-09-29 보이스 유사도 평가 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102418232B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102584712B1 (ko) 2022-09-20 2023-10-05 주식회사 제주바이오테크 인공지능을 기반으로 한 음원 유사 판단 및 블록체인을 기반으로 한 음원 인덱싱 정보 저장 및 관리 방법, 장치 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101571746B1 (ko) 2014-04-03 2015-11-25 (주) 엠티콤 유사도판별장치 및 그 동작 방법
KR101813704B1 (ko) 2014-11-11 2017-12-29 주식회사 보쿠 사용자 음색 분석 장치 및 음색 분석 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190024148A (ko) * 2017-08-31 2019-03-08 경북대학교 산학협력단 음성 인식 장치 및 음성 인식 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101571746B1 (ko) 2014-04-03 2015-11-25 (주) 엠티콤 유사도판별장치 및 그 동작 방법
KR101813704B1 (ko) 2014-11-11 2017-12-29 주식회사 보쿠 사용자 음색 분석 장치 및 음색 분석 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
채다인 외, ‘딥러닝 기반 모창가수 구분에서 특징 추출 방법-히든싱어 컨테스트’, 춘계학술발표대회 논문집 제23권 제1호, 2016.04.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102584712B1 (ko) 2022-09-20 2023-10-05 주식회사 제주바이오테크 인공지능을 기반으로 한 음원 유사 판단 및 블록체인을 기반으로 한 음원 인덱싱 정보 저장 및 관리 방법, 장치 및 시스템

Also Published As

Publication number Publication date
KR20220043769A (ko) 2022-04-05

Similar Documents

Publication Publication Date Title
Mesaros et al. Sound event detection: A tutorial
US11790919B2 (en) Multiple classifications of audio data
Chatziagapi et al. Data Augmentation Using GANs for Speech Emotion Recognition.
Mannepalli et al. A novel adaptive fractional deep belief networks for speaker emotion recognition
EP1669979B1 (en) Data processing device and data processing device control program
US11282501B2 (en) Speech recognition method and apparatus
US10943604B1 (en) Emotion detection using speaker baseline
CN108364662B (zh) 基于成对鉴别任务的语音情感识别方法与系统
KR20210155401A (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
KR102418232B1 (ko) 보이스 유사도 평가 방법 및 그 장치
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
Al-Talabani Automatic speech emotion recognition-feature space dimensionality and classification challenges
Sophiya et al. Large scale data based audio scene classification
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges
Banjara et al. Nepali speech recognition using cnn and sequence models
Zhan et al. Application of machine learning and image target recognition in English learning task
Jayanthi et al. Sign Language Recognition using Deep CNN with Normalised Keyframe Extraction and Prediction using LSTM
Utomo et al. Spoken word and speaker recognition using MFCC and multiple recurrent neural networks
Deusi et al. An investigation of the accuracy of real time speech emotion recognition
Villalba et al. The jhu-mit system description for nist sre19 av
CN112863476A (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
CN113870901B (zh) 一种基于svm-knn的语音情感识别方法
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant