KR20210123645A - 동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법 - Google Patents

동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법 Download PDF

Info

Publication number
KR20210123645A
KR20210123645A KR1020200041055A KR20200041055A KR20210123645A KR 20210123645 A KR20210123645 A KR 20210123645A KR 1020200041055 A KR1020200041055 A KR 1020200041055A KR 20200041055 A KR20200041055 A KR 20200041055A KR 20210123645 A KR20210123645 A KR 20210123645A
Authority
KR
South Korea
Prior art keywords
tempo
transcription
music
notation
notes
Prior art date
Application number
KR1020200041055A
Other languages
English (en)
Inventor
김동원
윤종길
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020200041055A priority Critical patent/KR20210123645A/ko
Publication of KR20210123645A publication Critical patent/KR20210123645A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • G10G1/02Chord or note indicators, fixed or adjustable, for keyboard of fingerboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

동적 템포를 갖는 음악의 채보/기보 장치 및 방법을 개시한다.
본 실시예는, 동적 템포(dynamic tempo)를 갖는 음악으로부터 딥러닝(deep learning) 기반 추론 모델(inference model)이 채보한 각 악기의 음의 길이를 양자화(quantization)하고, 양자화 오차(quantization error)를 이용하여 템포를 보정함으로써, 가독성(readability)이 우수한 악보를 생성하는 것이 가능한 채보/기보 장치 및 방법을 제공한다.

Description

동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법{Method and Apparatus for Musical Transcription and Notation Having Dynamic Tempo Compensation Function}
본 발명은 동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법에 관한 것이다.
이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
머신(machine)을 이용하여 음악(music)으로부터 자동으로 악보로 변환하는 방법을 채보(musical transcription)라 한다. 한편, 채보를 이용하여 디지털화된 음의 정보를 사람이 읽을 수 있는(readable) 악보로 변환하는 방법을 기보(musical notation)라 한다.
머신을 이용하는 채보에는 사전에 트레이닝된 딥러닝(deep learning) 기반 신경망(neural network), 또는 시간 영역이나 주파수 영역에서의 음악 데이터의 특성에 기초하는 패턴 인식(pattern recognition) 모델이 이용될 수 있다.
도 2에 도시된 바와 같이, 음악은 일반적으로 일정하지 않은 동적 템포(dynamic tempo)를 가질 수 있다. 머신을 이용하여 채보하는 경우, 음(sound)의 길이는 절대시간의 길이로 결정된다. 그러나, 오선(stave) 악보의 음표(note, 예컨대 4분음표, 16분음표 등)는 템포에 따른 상대길이를 나타내므로, 템포 변화에 따라 동일한 음표의 절대시간 길이도 달라질 수 있다. 따라서, 기보 과정에서 음표를 생성할 때, 이러한 템포 변화에 따른 상대성이 반영되어야 한다.
동적 템포를 고려하지 않는 채보 및 기보방법에서는, 음악 자체의 동적 템포 및 연주자 간의 연주 차이 때문에, 채보된 동일 박자를 갖는 음표의 음의 길이가 상이해지거나, 음악의 음을 오선 악보로 표시하는 경우, 오류가 발생할 수 있다. 이러한 경우, 가독성(readability)이 저하되어, 채보 및 기보된 악보를 이용한 연주가 불가능할 수 있다. 도 3의 도시는 피아노 연주를 채보한 MIDI(Musical Instrument Digital Interface) 표현으로서, 동일 박자를 갖는 음표에 대하여 채보된 음의 길이가 상이한 예를 나타낸다. 또한 기존의 방법에서는, 다양한 악기가 한 곡에서 연주되는 경우, 템포 변화로 인하여 일부 악기의 박자가 맞지 않는 문제가 발생할 수 있다.
따라서, 음악의 동적 템포를 보정하여 가독성이 뛰어난 악보를 자동으로 생성하는 것이 가능한 채보/기보 장치 및 방법을 필요로 한다.
본 개시는, 동적 템포(dynamic tempo)를 갖는 음악으로부터 딥러닝(deep learning) 기반 추론 모델(inference model)이 채보한 각 악기의 음의 길이를 양자화(quantization)하고, 양자화 오차(quantization error)를 이용하여 템포를 보정함으로써, 가독성(readability)이 우수한 악보를 생성하는 것이 가능한 채보/기보 장치 및 방법을 제공하는 데 주된 목적이 있다.
본 발명의 실시예에 따르면, 채보 및 기보장치가 이용하는 채보 및 기보방법에 있어서, 적어도 하나의 악기가 수행한 연주를 포함하는 음악을 획득하는 과정; 상기 음악을 사전에 트레이닝된 딥러닝(deep learning) 기반 추론 모델(inference)에 입력하여 추정 악보(inferred score)를 채보하는 과정; 상기 추정 악보에 포함된 음을 기 설정된 음표로 양자화하고, 양자화 오차(quantization error)를 산정하는 과정; 상기 양자화 오차에 기초하는 손실 함수(loss function)를 감소시키는 방향으로, 상기 추정 악보의 템포(tempo)를 보정(compensation)하여 보정 템포를 생성하는 과정; 및 상기 음표 및 상기 보정 템포를 이용하여 보정 악보(compensated score)를 기보하는 과정을 포함하는 것을 특징으로 하는 채보 및 기보방법을 제공한다.
본 발명의 다른 실시예에 따르면, 적어도 하나의 악기가 수행한 연주를 포함하는 음악을 획득하는 입력부; 상기 음악으로부터 추정 악보(inferred score)를 채보하는 딥러닝(deep learning) 기반 추론 모델(inference model); 상기 추정 악보에 포함된 음을 기 설정된 음표로 양자화하고, 양자화 오차(quantization error)를 산정하는 음표생성부; 상기 양자화 오차에 기초하는 손실 함수(loss function)를 감소시키는 방향으로, 상기 추정 악보의 템포(tempo)를 보정하여 보정 템포를 생성하는 템포보정부; 및 상기 음표 및 상기 보정 템포를 이용하여 보정 악보(compensated score)를 기보하는 출력부를 포함하되, 상기 추론 모델은 사전에 트레이닝되는 것을 특징으로 하는 채보 및 기보장치를 제공한다.
본 발명의 다른 실시예에 따르면, 채보 및 기보방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 따르면, 동적 템포(dynamic tempo)를 갖는 음악으로부터 딥러닝(deep learning) 기반 추론 모델(inference model)이 채보한 각 악기의 음의 길이를 양자화(quantization)하고, 양자화 오차(quantization error)를 이용하여 템포를 보정하는 채보/기보 장치 및 방법을 제공함으로써, 가독성(readability)이 우수한 악보를 생성하는 것이 가능해지는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 채보 및 기보장치의 블록도이다.
도 2는 템포가 변동되는 음악의 예시도이다.
도 3은 피아노 연주를 채보한 MIDI 표현의 예시도이다.
도 4는 본 발명의 일 실시예에 따른 채보 및 기보방법의 순서도이다.
이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.
본 실시예는 동적 템포를 갖는 음악의 채보 방법에 대한 내용을 개시한다. 보다 자세하게는, 동적 템포(dynamic tempo)를 갖는 음악으로부터 딥러닝(deep learning) 기반 추론 모델(inference model)이 채보한 각 악기의 음의 길이를 양자화(quantization)하고, 양자화 오차(quantization error)를 이용하여 템포를 보정하는 채보/기보 장치 및 방법을 제공한다.
음악의 템포는 BPM(Beats per Minute)로 나타낸다. 여기서 한 박자(one beat)는 대개 4분음표 하나를 의미한다. 따라서, 도 2에 도시된 바와 같이 악보 상에서 템포, 즉 BPM은 사분음표의 수로 나타낼 수 있다.
이하, 음악은 wav 형태의 음악을 의미한다. 다른 형태의 음악은 적절한 변환 프로그램을 이용하여 wav 형태와 상호 변환이 가능한 것으로 가정한다.
원본 악보는 음악의 연주에 사용된 악보를 의미한다. 추정 악보는 추론 모델이 채보한 악보를 의미한다. 보정 악보(compensated score)는 본 실시예에 따른 채보 및 기보장치가 기보한 악보를 의미한다.
추정 악보는 음악에 대한 디지털 정보로서 MIDI(Musical Instrument Digital Interface)로 표현된다. 여기서, MIDI는 음의 높이(pitch, 이하 '음고'로 표현), 음의 길이 및 음의 세기(velocity, MIDI에서는 음의 세기를 velocity로 표현)를 표현한다. 원보 악보 및 보정 악보는 오선(stave) 상의 음표(note)로 표현되고 템포를 포함할 수 있다. 여기서, 음표는 음고 및 음의 길이를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 채보 및 기보장치의 블록도이다.
본 발명에 따른 실시예에 있어서, 채보 및 기보장치(100)는 동적 템포(dynamic tempo)를 갖는 음악으로부터 딥러닝(deep learning) 기반 추론 모델(inference model)이 채보한 각 악기의 음의 길이를 양자화하고, 양자화 오차를 템포에 반영함으로써 음의 길이와 템포가 보정된 악보를 생성한다. 채보 및 기보장치(100)는 입력부(101), 추론 모델(102), 음표생성부(103), 템포보정부(104) 및 출력부(105)의 전부 또는 일부를 포함한다. 여기서, 본 실시예에 따른 채보 및 기보장치(100)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니다. 예컨대, 채보 및 기보장치(100)는 추론 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.
입력부(101)는 음악을 획득하여 추론 모델(102) 측으로 전달한다. 음악은 원본 악보에 기초하여 연주된 것으로서 동적 템포를 가질 수 있다. 또한 음악은 멀티 트랙(multi-track)을 포함하여 적어도 하나의 악기가 수행하는 연주를 포함할 수 있다.
추론 모델(102)은 음악으로부터 추정 악보를 채보한다. 추론 모델(102)은 딥러닝(deep learning) 기반 모델로서, 특정한 형태로 한정되는 것은 아니며, 트레이닝부에 의하여 사전 학습이 가능한 어느 형태의 신경망이든 이용될 수 있다.
본 발명의 다른 실시예에 있어서, 추론 모델(102)은 학습에 기초하는 신경망 대신, 패턴 인식(pattern recognition) 모델을 이용하여 구현될 수 있다.
음표생성부(103)는 추정 악보에 포함된 음을 양자화한다.
120 BPM의 템포 및 4/4 박자에서 각 음표의 길이는 표 1에 나타낸 바와 같다.
Figure pat00001
음표는 1, 2, 4, 8, 16, 32와 같이 2배수이거나 점음표와 같이 1.5 배인 음표로 구성된다. 또한 겹점음표도 존재하나 거의 사용되지 않으므로, 본 실시예에서는 설명의 편의상 고려되지 않는다. 다만, 이것도 본 실시예의 범주에 포함됨은 통상의 기술자에게는 자명하다.
음악의 동적 템포, 연주자 간 차이 또는 악기 연주 간 차이 등으로 인하여 추정 악보로 채보된 음의 길이는 표 1에 나타낸 바와 다른 값을 가질 수 있다. 또한 꾸밈음(ornament) 또는 연결음(legato) 형태로 연주된 음이 채보된 경우, 추정 악보의 음의 길이는 원보 악보의 음의 길이와 일치하지 않을 수 있다.
채보된 음의 길이를 음표로 기보하기 위해, 음표생성부(103)는 음의 길이를 양자화한다. 음표생성부(103)는 채보된 음을 가장 근접한 길이를 갖는, 기 설정된 음표로 양자화한다. 음표생성부(103)는 채보된 음의 길이와 양자화된 음표의 길이 간의 차이인 양자화 오차(quantization error)을 산정하여 템포보정부(104)로 전달한다.
또한, 음표생성부(103)는 임계(threshold) 음표를 설정하여, 임계 음표보다 짧은 길이의 음표로 양자화된 음표를 잡음(noise) 또는 꾸밈음으로 처리하여 제거한다. 연주자의 연주 스타일 또는 잡음 유입으로 인하여, 아주 짧은 음이 채보될 수 있다. 이러한 음을 제거하여 악보의 가독성을 높일 수 있다. 예컨대, 임계 음표가 32분음표로 설정된 경우, 양자화된 64분음표는 제거된다.
음악이 점점 느려지거나(ritardando 또는 rallentando) 빨라지는(accelerando) 경우, 채보된 음의 길이가 늘어나거나 줄어들 수 있다. 따라서, 템포의 변동을 고려하지 않은 채로 채보된 음을 양자화하면, 표 2에 나타낸 바와 같이 양자화 손실이 점점 증가하다가 결국에는 정확하지 않은 음표로 변환될 수 있다.
Figure pat00002
표 2에 나타낸 오류는, 연주된 2분음표가 아니라, 점4분음표로 채보된 음이 것이다. 그러나 실제로는 음표가 변한 것이 아니라, 연주 시 템포가 점점 빨라져서 발생한 오류이다.
템포보정부(104)는 양자화 오차를 이용하여 템포를 보정한다. 템포보정부(104)는 수학식 1에 나타낸 바와 같이 손실 함수(loss function) L(n)을 생성한다.
Figure pat00003
여기서, T(n)은 스텝 n(n은 자연수)에서의 템포이고, D(n)은 음의 길이이다. Beats는 음표를 나타내는 숫자로 4를 나눈 값으로서, 예를 들어 4분음표의 경우 ‘4/4 = 1’로 Beats가 계산될 수 있다.
템포보정부(104)는 손실 함수를 감소시키는 방향으로 템포를 보정한다. 손실 함수를 감소시키기 위해, 템포보정부(103)는 GD(Gradient Decent), Adadelta 기법 등을 이용할 수 있으나, 반드시 이에 한정하는 것은 아니다. 손실 함수를 감소시키는 것이 가능한 적응적 기법(adaptive scheme)은 어느 것이든 이용될 수 있다. 예컨대, GD 기법을 이용하는 템포 보정은 수학식 2로 나타낼 수 있다.
Figure pat00004
여기서, η는 템포 보정의 민감도(sensitivity)를 결정하는 하이퍼파라미터이다.
양자화 오차에 대한 전처리(pre-processing)를 위하여 템포보정부(103)는 MA(Moving Average), 가중합(weighted sum) 등의 필터링 기법을 이용할 수 있다. 필터링 기법이 적용된 경우, 수학식 1에 표시된 양자화 오차 err(n)은 필터링 결과로 대체될 수 있다.
한편, 음표생성부(103)는 보정된 템포를 기반으로 기 설정된 음표의 절대 길이를 변경하여, 이후 양자화를 위한 기준으로 이용할 수 있다.
복수의 악기가 연주한 멀티트랙(multi-track)를 포함하는 음악인 경우, 추정 악보의 동일 구간에서 산정된, 복수의 악기에 대응되는 음표 각각에 대응하는 양자화 오차의 전부 또는 일부를 이용하여 템포보정부(103)는 템포를 보정할 수 있다.
출력부(105)는 음표와 보정된 템포를 이용하여 보정 악보를 기보한다. 추정 악보에 포함된 음이 양자화된 음표, 및 보정된 템포를 결합하여 출력부(105)는 보정 악보를 기보할 수 있다.
도 1의 도시는 본 실시예에 따른 예시적인 구성이며, 입력의 형태, 추론 모델 구조 및 템포 보정 방법에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다.
이하, 표 3을 이용하여 본 발명의 일 실시예에 따른 템포 보정의 예시를 설명한다. 표 3에 나타낸 예시는, 120 BPM에서 4분음표를 연주하되, accelerando가 적용되어 점점 템포가 빨라지는 경우를 가정한다. 민감도를 결정하는 하이퍼파라미터 η는 1로 설정된다.
Figure pat00005
표 3에 나타낸 바와 같이, 채보 및 기보장치(100)는 음의 길이를 이용하여 음을 양자화하고, 양자화 오차에 수학식 1 및 수학식 2를 적용함으로써 템포를 보정할 수 있다.
템포 보정의 다른 실시예로서, MA 필터링 기법을 이용하여 양자화 오차가 전처리되는 경우를 설명한다. 잡음 등에 의하여 음의 길이가 정확하게 채보되지 않는 경우, 이러한 전처리 단계를 이용하여 채보 및 기보장치(100)는 잡음의 영향을 감소시킬 수 있다.
이하, 표 4를 이용하여 본 발명의 다른 실시예에 따른 템포 보정의 예시를 설명한다. 표 4에 나타낸 예시는, 120 BPM에서 4분음표를 연주하되, accelerando가 적용되어 점점 템포가 빨라지는 경우를 가정한다. 민감도를 결정하는 하이퍼파라미터 η는 1로 설정된다.
Figure pat00006
표 4에 나타낸 바와 같이, 채보 및 기보장치(100)는 음의 길이를 이용하여 음을 양자화하고, 손실을 MA 필터링한 결과에 수학식 1 및 수학식 2를 적용함으로써 템포를 보정할 수 있다.
표 4에 나타낸 예시에서는 MA 윈도우 길이가 4분음표 2 개로 설정되었으나, 반드시 이에 한정하는 것은 아니며, MA 윈도우의 길이는 절대 시간 또는 특정 길이의 음표 구간으로 설정될 수 있다.
표 3 및 표 4에 나타낸 예시들은 하나의 악기가 수행한 연주가 포함된 음악에 대한 실시예이다. 음악이 복수의 악기가 수행한 연주를 포함하는 경우, 추정 악보의 동일 구간에서 산정된, 복수의 악기에 대응되는 음표 각각에 대응하는 양자화 오차의 전부 또는 일부에 대하여 평균을 적용하거나 MA 필터링 기법을 적용함으로써 채보 및 기보장치(100)는 템포를 보정할 수 있다.
이상에서 설명한 바와 같이 본 실시예에 따르면, 동적 템포(dynamic tempo)를 갖는 음악으로부터 딥러닝(deep learning) 기반 추론 모델(inference model)이 채보한 각 악기의 음의 길이를 양자화(quantization)하고, 양자화 오차를 이용하여 템포를 보정하는 채보/기보 장치 및 방법을 제공함으로써, 가독성(readability)이 우수한 악보를 생성하는 것이 가능해지는 효과가 있다.
도 4는 본 발명의 일 실시예에 따른 채보 및 기보방법의 순서도이다.
채보 및 기보장치(100)는 적어도 하나의 악기가 수행한 연주를 포함하는 음악을 획득한다(S400). 음악은 동적 템포를 가질 수 있다.
채보 및 기보장치(100)는 음악을 사전에 트레이닝된 딥러닝(deep learning) 기반 추론 모델(inference)에 입력하여 추정 악보를 채보한다(S402). 추론 모델(102)은 특정한 형태로 한정되는 것은 아니며, 사전 학습이 가능한 어느 형태의 신경망이든 이용될 수 있다.
채보 및 기보장치(100)는 추정 악보에 포함된 음을 기 설정된 음표로 양자화하고, 양자화 오차를 산정한다(S404).
채보 및 기보장치(100)는 채보된 음을 가장 근접한 길이를 갖는, 기 설정된 음표로 양자화한다. 채보 및 기보장치(100)는 채보된 음의 길이와 양자화된 음표의 길이 간의 차이인 양자화 오차(quantization error)을 산정한다. 또한, 채보 및 기보장치(100)는 임계(threshold) 음표를 설정하여, 임계 음표보다 짧은 길이의 음표로 양자화된 음표를 잡음(noise) 또는 꾸밈음으로 처리하여 제거한다.
채보 및 기보장치(100)는 양자화 오차(quantization error)에 기초하는 손실 함수(loss function)를 감소시키는 방향으로, 추정 악보의 템포(tempo)를 보정한다(S406).
채보 및 기보장치(100)는 손실 함수를 감소시키는 것이 가능한 적응적 기법(adaptive scheme)은 어느 것이든 이용할 수 있다. 또한 양자화 오차에 대한 전처리를 위하여 템포보정부(103)는 MA, 가중합 등의 필터링 기법을 이용할 수 있다.
채보 및 기보장치(100)는 보정된 템포를 기반으로 기 설정된 음표의 절대 길이를 변경하여, 이후 양자화를 위한 기준으로 이용할 수 있다.
음악이 복수의 악기가 연주한 멀티트랙를 포함하는 경우, 추정 악보의 동일 구간에서 산정된, 복수의 악기에 대응되는 음표 각각에 대응하는 양자화 오차의 전부 또는 일부를 이용하여 채보 및 기보장치(100)는 템포를 보정할 수 있다.
채보 및 기보장치(100)는 음표 및 보정된 템포를 이용하여 보정 악보를 기보한다(S408). 추정 악보에 포함된 음이 양자화된 음표, 및 보정된 템포를 결합하여 채보 및 기보장치(100)는 보정 악보를 기보할 수 있다.
본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 채보 및 기보장치 101: 입력부
102: 추론 모델 103: 음표생성부
104: 템포보정부

Claims (6)

  1. 채보 및 기보장치가 이용하는 채보 및 기보방법에 있어서,
    적어도 하나의 악기가 수행한 연주를 포함하는 음악을 획득하는 과정;
    상기 음악을 사전에 트레이닝된 딥러닝(deep learning) 기반 추론 모델(inference)에 입력하여 추정 악보(inferred score)를 채보하는 과정;
    상기 추정 악보에 포함된 음을 기 설정된 음표로 양자화하고, 양자화 오차(quantization error)를 산정하는 과정;
    상기 양자화 오차에 기초하는 손실 함수(loss function)를 감소시키는 방향으로, 상기 추정 악보의 템포(tempo)를 보정(compensation)하여 보정 템포를 생성하는 과정; 및
    상기 음표 및 상기 보정 템포를 이용하여 보정 악보(compensated score)를 기보하는 과정
    을 포함하는 것을 특징으로 하는 채보 및 기보방법.
  2. 제1항에 있어서,
    상기 양자화 오차는,
    상기 음의 길이와 상기 기 설정된 음표의 길이 간의 차이인 것을 특징으로 하는 채보 및 기보방법.
  3. 제1항에 있어서,
    상기 보정 템포를 기반으로 상기 기 설정된 음표의 길이를 보정하는 과정을 더 포함하는 것을 특징으로 하는 채보 및 기보방법.
  4. 제1항에 있어서,
    MA(Moving Average) 또는 가중합(weighted sum) 기법을 이용하여 상기 양자화 오차에 대한 필터링을 수행하고, 필터링 결과에 기초하여 상기 손실 함수를 생성하는 것을 특징으로 하는 채보 및 기보방법.
  5. 적어도 하나의 악기가 수행한 연주를 포함하는 음악을 획득하는 입력부;
    상기 음악으로부터 추정 악보(inferred score)를 채보하는 딥러닝(deep learning) 기반 추론 모델(inference model);
    상기 추정 악보에 포함된 음을 기 설정된 음표로 양자화하고, 양자화 오차(quantization error)를 산정하는 음표생성부;
    상기 양자화 오차에 기초하는 손실 함수(loss function)를 감소시키는 방향으로, 상기 추정 악보의 템포(tempo)를 보정하여 보정 템포를 생성하는 템포보정부; 및
    상기 음표 및 상기 보정 템포를 이용하여 보정 악보(compensated score)를 기보하는 출력부
    를 포함하되, 상기 추론 모델은 사전에 트레이닝되는 것을 특징으로 하는 채보 및 기보장치.
  6. 제1항 내지 제4항 중 어느 한 항에 따른 채보 및 기보방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터프로그램.
KR1020200041055A 2020-04-03 2020-04-03 동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법 KR20210123645A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200041055A KR20210123645A (ko) 2020-04-03 2020-04-03 동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200041055A KR20210123645A (ko) 2020-04-03 2020-04-03 동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20210123645A true KR20210123645A (ko) 2021-10-14

Family

ID=78116212

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200041055A KR20210123645A (ko) 2020-04-03 2020-04-03 동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20210123645A (ko)

Similar Documents

Publication Publication Date Title
US8244546B2 (en) Singing synthesis parameter data estimation system
CN110364140B (zh) 歌声合成模型的训练方法、装置、计算机设备以及存储介质
JP2023081946A (ja) 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
JPWO2012063424A1 (ja) 特徴量系列生成装置、特徴量系列生成方法および特徴量系列生成プログラム
US11842720B2 (en) Audio processing method and audio processing system
CN111542875A (zh) 声音合成方法、声音合成装置及程序
JP7359164B2 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
JP6821970B2 (ja) 音声合成装置および音声合成方法
US11875777B2 (en) Information processing method, estimation model construction method, information processing device, and estimation model constructing device
CN105719640A (zh) 声音合成装置及声音合成方法
EP4379708A1 (en) System and method for generation of musical notation from audio signal
US20210350783A1 (en) Sound signal synthesis method, neural network training method, and sound synthesizer
US7275030B2 (en) Method and apparatus to compensate for fundamental frequency changes and artifacts and reduce sensitivity to pitch information in a frame-based speech processing system
JP6925995B2 (ja) 信号処理装置、音声強調装置、信号処理方法およびプログラム
KR20210123645A (ko) 동적 템포 보정 기능을 갖는 채보/기보 장치 및 방법
US20230016425A1 (en) Sound Signal Generation Method, Estimation Model Training Method, and Sound Signal Generation System
JP7343012B2 (ja) 情報処理装置および情報処理方法
JP6011039B2 (ja) 音声合成装置および音声合成方法
CN112992110B (zh) 音频处理方法、装置、计算设备以及介质
JP6578544B1 (ja) 音声処理装置、および音声処理方法
KR20210123033A (ko) 템포 추정 기능을 갖는 채보/기보 장치 및 방법
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP3652753B2 (ja) 発声変形音声認識装置及び音声認識方法
WO2017164216A1 (ja) 音響処理方法および音響処理装置
US20230419929A1 (en) Signal processing system, signal processing method, and program

Legal Events

Date Code Title Description
A201 Request for examination