KR102306765B1

KR102306765B1 - 인공지능 프로세싱을 이용한 악보 인식 방법

Info

Publication number: KR102306765B1
Application number: KR1020210021099A
Authority: KR
Inventors: 손무곤; 서승완
Original assignee: 쿤크리에이터스 주식회사
Priority date: 2021-02-17
Filing date: 2021-02-17
Publication date: 2021-09-30

Abstract

본 발명은, 모바일 디바이스에 의해 촬영 또는 스캐너에 의해 스캔되어 획득된 악보 이미지를 서버로 전송하는 단계, 서버에 설치된 인공지능을 이용하여 악보 이미지의 유효 영역 추출(crop), 밝기 조절(Brightness adjustment), 화질 개선(Image enhancement), 노이즈제거(Noise removal) 및 색상 보정(Hue Adjustment) 중 적어도 하나를 수행하여 수정 악보 이미지를 생성하는 전처리 단계, 서버에서 인공지능을 이용하여 수정 악보 이미지로부터 적어도 하나의 마디 이미지를 추출하며, 적어도 하나의 마디 이미지에 대한 위치정보를 추출하는 마디 이미지 추출 단계, 서버에 설치된 인공지능을 이용하여 적어도 하나의 마디 이미지 각각에 포함된 적어도 하나의 심볼을 추출하는 단계, 인공지능을 이용하여 적어도 하나의 심볼 및 마디 이미지에 대한 위치정보를 기반으로 음악기호 시퀀스를 생성하는 단계, 인공지능을 이용하여 음악기호 시퀀스를 근거로 인코딩 데이터를 생성하는 단계 및 인공지능을 이용하여 인코딩 데이터를 MusicXML 포맷과 매칭하여 악보 데이터 포맷으로 변환된 전자 악보를 생성하는 데이터 포맷 변환 단계를 포함하는 인공지능 프로세싱을 이용한 악보 인식 방법에 관한 것이다.
본 발명에 따른 인공지능(AI)학습기법을 이용하여, 현실세계에 존재하는 종이 악보를 디지털 악보로 변환하여 음악교육 또는 트레이닝을 위한 시스템에 적합한 데이터로 제공할 수 있어 런닝 커브(learning curve)를 최소화 할 수 있어 사용에 대한 진입장벽을 낮출 수 있고, 악보 인식 정확도 및 신뢰도를 향상시킬 수 있는 효과가 있다.

Description

인공지능 프로세싱을 이용한 악보 인식 방법{Sheet Music recognition method using artificial intelligence processing}

본 발명은 인공지능 프로세싱을 이용한 악보 인식 방법에 관한 것이며, 보다 상세하게는 인공지능을 이용하여 악보를 인식하고 전자악보의 형식의 데이터를 생성하는 방법에 관한 것이다.

악보는 소리를 재료로 하는 청각 예술을 시각적인 자료로 기술함으로써 상호간에 협의된 기호로 소리를 낼 수 있도록 하는 수단이다. 악보는 지난 수십세기동안 수많은 음악 악보가 종이를 매채로 기술되어 왔다. 이러한 종이에 기술된 악보를 디지털로 변환하기 위한 방법으로 디지털 악보를 제작할 수 있는 프로그램(시벨리우스, 뮤즈스코어, 피날레뮤직, 도리코 등)이 존재하며, 이를 전문적으로 프로그램을 이용할 수 있는 사용자가 표준화된 디지털 악보로 변환함으로써 프로그램에서 사용할 수 있는 악보로써 활용을 할 수 있다. 이와 관련하여 대한민국 등록특허 제1206351호(2012.11.29. 공고)가 개시되어 있다.

그러나 이러한 변환 방식은 전문적으로 음악 프로그램을 사용할 수 있는 전문가에게 국한되어 있으며, 일반적으로 음악을 교육하거나 배우는 학습자의 입장에서는 사용법을 숙달하기 위한 필요시간이 많이 소요되는 문제점이 있었으며, 이는 결국 신규 사용자에 대한 진입장벽을 높이는 문제를 발생시켰다.

대한민국 등록특허 제1206351호 (2012.11.29. 공고)

본 발명은 종래의 악보 인식 방법에 대한 문제점을 해결하기 위하여 종이로된 악보, 또는 디지털 이미지화 된 악보를 AI 시스템에 인식시켜 자동으로 프로그램에서 인식 할 수 있는 악보 포맷으로 변환할 수 있는 인공지능 프로세싱을 이용한 악보 인식 방법을 제공하는 것에 그 목적이 있다.

상기 과제의 해결 수단으로서, 모바일 디바이스에 의해 촬영 또는 스캐너에 의해 스캔되어 획득된 악보 이미지를 서버로 전송하는 단계, 서버에 설치된 인공지능을 이용하여 악보 이미지의 유효 영역 추출(crop), 밝기 조절(Brightness adjustment), 화질 개선(Image enhancement), 노이즈제거(Noise removal) 및 색상 보정(Hue Adjustment) 중 적어도 하나를 수행하여 수정 악보 이미지를 생성하는 전처리 단계, 서버에서 인공지능을 이용하여 수정 악보 이미지로부터 적어도 하나의 마디 이미지를 추출하며, 적어도 하나의 마디 이미지에 대한 위치정보를 추출하는 마디 이미지 추출 단계, 서버에 설치된 인공지능을 이용하여 적어도 하나의 마디 이미지 각각에 포함된 적어도 하나의 심볼을 추출하는 단계, 인공지능을 이용하여 적어도 하나의 심볼 및 마디 이미지에 대한 위치정보를 기반으로 음악기호 시퀀스를 생성하는 단계, 인공지능을 이용하여 음악기호 시퀀스를 근거로 인코딩 데이터를 생성하는 단계 및 인공지능을 이용하여 인코딩 데이터를 MusicXML 포맷과 매칭하여 악보 데이터 포맷으로 변환된 전자 악보를 생성하는 데이터 포맷 변환 단계를 포함하는 인공지능 프로세싱을 이용한 악보 인식 방법이 제공될 수 있다.

한편, 수정 악보 이미지를 생성하는 단계 및 마디 이미지 추출 단계는 콘볼루션 신경망(CNN; Convolutional Neural Network)을 이용하여 수행될 수 있다.

한편, 마디 이미지 추출 단계는, 수정 악보 이미지로부터 마디를 구분하는 구분선의 좌표를 근거로 마디 이미지의 x 축의 경계를 추출하며, 각 마디의 x축 경계 내에서 이미지 색상 코드값을 근거로 부호 색상을 가진 최대 y 좌표값 및 최소 y 좌표값을 근거로 마디 이미지의 영역을 결정하도록 학습시킨 인공지능을 이용하여 수행될 수 있다.

또한, 심볼을 추출하는 단계 및 음악기호 시퀀스를 생성하는 단계는 LSTM(Long Short-Term Memory)를 이용하여 딥 러닝으로 학습시켜 수행될 수 있다.

한편, 심볼을 추출하는 단계 및 음악기호 시퀀스를 생성하는 단계는 표준 음악기호 심볼, 음악기호 시퀀스의 텍스트 및 MusicXML 데이터 포맷을 훈련 데이터 모델 세트로 입력하여 학습된 인공지능을 이용하여 수행될 수 있다.

한편, 데이터 포맷 변환 단계로 생성된 전자 악보를 모바일 디바이스로 전송하는 단계 및 전자 악보를 근거로 모바일 디바이스에 저장된 악보 전시 그래픽 심볼과 매칭하여 시현하는 시현단계를 더 포함할 수 있다.

한편, 음악기호 시퀀스를 생성하는 단계 이후 마디 이미지별로 오류를 보정하여 음악기호 시퀀스에 추가하는 보정단계를 더 포함할 수 있다.

또한, 보정단계는 수정 악보 이미지에서 인식된 박자를 근거로 마디 이미지 내의 음표의 총길이를 비교하며, 보상을 위한 텍스트를 음악기호 시퀀스에 추가하는 박자 기반 제1 보정단계를 포함할 수 있다.

나아가, 박자 기반 제1 보정단계는 마디 이미지 내의 음표의 총길이가 박자보다 짧은 경우 음표의 총길이와 박자의 차이를 보상하는 쉼표에 대한 텍스트를 음악기호 시퀀스에 추가하도록 구성될 수 있다.

또한, 보정단계는 마디 이미지 내에서 소정 음표에서 샵(#) 또는 플렛(b) 하나가 인식된 경우 소정 음표 이후의 시퀀스에서 동일한 음을 갖는 음표에 샵 또는 플렛을 추가하는 악보 규칙 기반 제2 보정단계를 포함할 수 있다.

본 발명에 따른 인공지능(AI)학습기법을 이용하여, 현실세계에 존재하는 종이 악보를 디지털 악보로 변환하여 음악교육 또는 트레이닝을 위한 시스템에 적합한 데이터로 제공할 수 있어 런닝 커브(learning curve)를 최소화 할 수 있어 사용에 대한 진입장벽을 낮출 수 있고, 악보 인식 정확도 및 신뢰도를 향상시킬 수 있는 효과가 있다.

도 1은 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법을 구현하는 시스템의 개념도이다.
도 2는 본 발명에 따른 일 실시예인 인공지능 프로세싱을 이용한 악보 인식 방법의 순서도이다.
도 3은 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법의 변형예이다.
도 4는 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법에서 처리되는 악보 및 생성되는 데이터의 개념을 도시한 도면이다.
도 5는 모바일 디바이스를 이용하여 촬영하여 획득된 악보 이미지의 일 예를 도시한 도면이다.
도 6은 수정 악보 이미지에서 마디 이미지 영역과 제목 및 설명을 추출하는 영역을 도시한 개념도이다.
도 7은 인공지능에서 수정 악보 이미지를 근거로 음악기호 시퀀스를 출력으로 하는 개념도이다.
도 8은 인공지능에서 추출되는 기호들을 예시한 도면이다.
도 9는 인식의 대상이 되는 악보의 일부를 도시한 도면이다.
도 10은 인공지능을 이용하여 도 9의 도면을 근거로 출력된 인코딩 데이터를 나타낸 도면이다.
도 11은 도 14는 도 10에 도시된 인코딩 데이터를 기반으로 MusicXML 포맷으로 변환된 결과를 도시한 도면이다.
도 15는 제1 보정단계에서 쉼표를 추가하는 개념을 도시한 도면이다.
도 16은 제2 보정단계에서 음악 규칙을 근거로 출력딘 결과를 보정하는 개념을 도시한 도면이다.

이하, 본 발명의 실시 예에 따른 인공지능 프로세싱을 이용한 악보 인식 방법에 대하여, 첨부된 도면을 참조하여 상세히 설명한다. 그리고 이하의 실시예의 설명에서 각각의 구성요소의 명칭은 당업계에서 다른 명칭으로 호칭될 수 있다. 그러나 이들의 기능적 유사성 및 동일성이 있다면 변형된 실시예를 채용하더라도 균등한 구성으로 볼 수 있다. 또한 각각의 구성요소에 부가된 부호는 설명의 편의를 위하여 기재된다. 그러나 이들 부호가 기재된 도면상의 도시 내용이 각각의 구성요소를 도면내의 범위로 한정하지 않는다. 마찬가지로 도면상의 구성을 일부 변형한 실시예가 채용되더라도 기능적 유사성 및 동일성이 있다면 균등한 구성으로 볼 수 있다. 또한 당해 기술 분야의 일반적인 기술자 수준에 비추어 보아, 당연히 포함되어야 할 구성요소로 인정되는 경우, 이에 대하여는 설명을 생략한다.

도 1은 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법을 구현하는 시스템의 개념도이다.

도 1을 참조하면, 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법을 구현하는 시스템은 모바일 디바이스 또는 스캐너로부터 악보 이미지를 생성하고, 서버에 구비된 인공지능을 이용하여 학습한 후 전자 악보를 예측하고 생성한 뒤 시현할 수 있도록 구성될 수 있다.

여기서 모바일 디바이스는 스마트폰, 태블릿 PC 등의 카메라가 구비된 다양한 전자기기 일 수 있으며, 디바이스 또는 서버와 데이터 통신이 가능한 널리 사용되는 기기일 수 있다.

서버에는 인공지능이 구비될 수 있으며, 학습, 예를 들어 딥 러닝이 가능한 인공지능 알고리즘이 탑재될 수 있다.

서버에서 생성된 전자 악보는 PC 또는 전술한 모바일 디바이스로 전송되어 시현될 수 있다. 이때, PC 또는 모바일 디바이스는 시현을 위한 디스플레이부가 적어도 하나 구비될 수 있다.

PC 또는 모바일 디바이스에는 상용화된 악보 프로그램, 어플리케이션 등이 설치될 수 있으며, 전자화된 악보 데이터를 수신하고 악보의 형식에 맞추어 시현할 수 있도록 구성될 수 있다. 또한 전술한 악보 프로그램, 어플리케이션 등은 악보 데이터를 수신하고 이를 소리 신호로 전환하여 재생할 수 있는 기능이 구비될 수 있다. 또한 전술한 악보 프로그램, 어플리케이션 등은 사용자의 입력에 의해 악보를 생성 또는 편집할 수 있는 기능을 포함할 수 있다.

이하에서는 도 2 내지 도 16을 참조하여 본 발명에 따른 일 실시예인 인공지능 프로세싱을 이용한 악보 인식 방법에 대하여 상세히 설명하도록 한다.

도 2는 본 발명에 따른 일 실시예인 인공지능 프로세싱을 이용한 악보 인식 방법의 순서도이다.

도 2를 참조하면, 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법은 악보 이미지를 서버로 전송하는 단계(S100), 전처리 단계(S200), 마디 이미지 추출 단계(S300), 심볼을 추출하는 단계(S400), 음악기호 시퀀스를 생성하는 단계(S500), 인코딩 데이터를 생성하는 단계(S600), 데이터 포맷 변환 단계(S700) 및 전자 악보 시현 단계(S800)를 포함하여 구성될 수 있다.

악보 이미지를 서버로 전송하는 단계(S100)는 실제 악보, 즉 아날로그 악보를 촬영하거나 스캔하여 획득한 데이터화 된 악보 이미지를 서버로 전송하는 단계에 해당한다. 본 단계는 스캐너 또는 모바일 디바이스의 소정 어플리케이션을 이용하여 서버와 통신하여 연계되어 수행될 수 있다.

전처리 단계(S200)는 인공지능이 인식하기 용이한 형태로 악보 이미지를 처리하는 단계에 해당한다. 본 단계에서는 악보 이미지의 화질개선, 회전, 추출영역, 노이즈 제거 등의 인식율을 향상시키기 위한 이미지 처리가 수행된 후 수정 악보 이미지가 생성될 수 있다. 전처리 단계는 구체적으로 악보 이미지에서 유효 영역 추출(crop), 밝기 조절(Brightness adjustment), 화질 개선(Image enhancement), 노이즈제거(Noise removal) 및 색상 보정(Hue Adjustment) 중 적어도 하나의 단계가 수행되도록 구성될 수 있다. 물론 악보 이미지가 인식이 매우 용이한 정도의 양질로 스캔된 경우 전술한 단계가 생략될 수 있다. 그러나 일반적인 악보 이미지의 경우 전술한 전처리 중 적어도 하나가 수행되어 인식률을 높일 수 있게 된다.

전처리 단계(S300) 중 색상 보정의 경우 악보에서 사용되는 색상으로서 RGB 값으로 0, 0, 0(검은색) 과 255, 255, 255(흰색) 으로 화면에 표출되는 색상을 보정처리할 수 있게 된다.

마디 이미지 추출 단계(S400)는 서버에서 인공지능을 이용하여 수정 악보 이미지로부터 적어도 하나의 마디 이미지를 추출하는 단계에 해당한다. 마디 이미지 추출 단계는 오선지 영역이 인식된 영역에서 마디를 구분하는 구분선을 인식하여 x 축 좌표를 결정하고, 해당 x축 좌표 내에서 상하측의 기호 또는 음표를 인식하여 y축 좌표를 결정하게 된다. 구체적으로 악보 상하 영역의 추출시에는 각 마디별로 음표의 높낮이가 다르게 결정될 수 있으므로, 이미지 색상 코드값을 분석하여 부호 색상을 가진 이미지의 가장 높은 y 좌표값과 가장 낮은 y 좌표값을 추출하여 마디 이미지 영역을 결정하게 된다. 본 단계에서는 각각의 마디 이미지와 각각이 마디 이미지의 고유 위치 정보를 함께 저장하게 된다. 각 마디별 위치 정보는 수정 악보 이미지에 배치된 순서대로 후전자 악보를 재구성하기 위해 사용될 수 있다.

심볼을 추출하는 단계(S500)는 인공지능을 이용하여 마디 이미지 각각에 포함된 적어도 하나의 심볼을 추출하는 단계에 해당한다. 본단계에서는 인공지능을 이용하여 딥-러닝 기법으로 학습시킨 이후 음악 기호를 예측하고, 예측된 음악 기호를 출력할 수 있도록 구성될 수 있다.

음악기호 시퀀스를 생성하는 단계(S600)는 마디 데이터로부터 예측된 음악 기호들에 대한 정보를 연주되어야 할 순서대로 배치된 음악기호 시퀀스(sequence)를 생성하는 단계에 해당한다.

인코딩 데이터를 생성하는 단계(S700)는 전술한 음악기호 시퀀스로부터 인코딩된 데이터를 생성하는 단계에 해당한다. 인코딩 데이터는 각각을 정의하는 규칙에 따라 서로 다른 구조로 구성될 수 있으나, 그 목적은 악보에 대한 정보를 일정단위로 인식가능한 데이터로 구조화한 것일 수 있다.

한편, 전술한 심볼을 추출하는 단계(S400), 음악기호 시퀀스를 생성하는 단계(S500) 및 인코딩 데이터를 생성하는 단계(S600)는 미리 준비한 이미지 학습 모델로부터 입력된 데이터로부터 데이터 모델 세트를 생성하고, 이미지 학습 모델을 통해 시퀀스를 학습하기 위해 서버에 구비된 인공지능을 CRNN(Convolution Recurrent Neural Network)를 이용하여 학습시킬 수 있다.

데이터 포맷 변환 단계(S800)는 생성된 인코딩 데이터를 범용 포맷인 MusicXML 의 포맷으로 변환하는 단계에 해당한다. MusicXML 포맷은 다양한 음악 프로그램에서 사용되고 있는 포맷으로서, 변환 플러그인이 다수 개발되고 공개되어 있어 프로그램 확장성 측면에서 바람직하다. 따라서 이러한 인코딩 데이터의 포맷을 변환하여 MusicXML의 포맷으로 변환시킬 수 있다.

전자 악보 시현 단계(S100)는 MusicXML의 포맷으로 변환된 데이터를 음악 프로그램을 이용하여 시현하는 단계에 해당한다. 전술한 바와 같이 MusicXML 포맷은 다양한 프로그램에서 인식이 가능하므로, 프로그램의 종류와 무관하게 악보 데이터를 인식할 수 있게 된다. 전자 악보 변환 단계는 프로그램 또는 어플리케이션을 이용하여 PC 또는 모바일 디바이스에 구비된 디스플레이상에서 시각적으로 인식 가능한 형태로 시현될 수 있다.

도 3은 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법의 변형예이다.

도 3을 참조하면, 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법은 인공지능에 의해 심볼을 추출한 뒤 음악기호 시퀀스를 생성한뒤 보정하는 단계(S550)를 더 포함할 수 있다.

보정단계(S550)는 박자기반 제1 보정단계(S551)를 포함할 수 있으며, 음악 규칙 기반 제2 보정단계(S552)를 포함하여 구성될 수 있다. 한편 이러한 보정단계는 차후 도 15 및 도 16을 참조하여 상세히 설명하도록 한다.

도 4는 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법에서 처리되는 악보 및 생성되는 데이터의 개념을 도시한 도면이다.

도 4를 참조하면, 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법은 아날로그 악보 이미지를 전처리한 후 인공지능으로 인식하여 해당 음악기호들을 예측한 뒤 음악기호 시퀀스를 생성한 뒤 적절한 포맷을 갖는 데이터로 변환하고, 최종적으로 전자악보를 시현할 수 있게 된다. 사용자는 어플리케이션 또는 프로그램을 이용하여 PC 또는 모바일 디바이스를 이용하여 전자 악보를 근거로 음악을 재생하거나, 생성된 전자 악보를 수정할 수 있게 된다.

이하에서는 도 5 내지 도 16을 참조하여 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법의 각 단계의 처리과정을 상세히 설명하도록 한다.

도 5는 모바일 디바이스를 이용하여 촬영하여 획득된 악보 이미지의 일 예를 도시한 도면이다.

도 5를 참조하면 쵤영된 악보 이미지는 악보를 제외한 영역, 예를 들면 테이블 등의 영역과 악보를 포함한 영역이 동시에 나타날 수 있다. 이러한 악보 이미지에서 악보 부분만을 인식(예를 들어 색깔)하고 나머지 부분을 제거하는 전처리가 수행되어 수정 악보 이미지를 생성할 수 있다.

도 6은 수정 악보 이미지에서 마디 이미지 영역과 제목 및 설명을 추출하는 영역을 도시한 개념도이다.

도 6을 참조하면, 수정 악보 이미지에서는 인공지능이 악보에 대한 기본적인 정보, 예를 들어 제목, 작곡가, 가수 등의 정보와 높은음 자리표, 낮은음 자리표, 음계 등의 악보 전반에 걸쳐 적용되는 동일한 내용의 정보를 추출하도록 구성될 수 있다. 이 경우 일반적인 악보에서 배치되는 영역이 일정하게 구분되어 있으므로 위치 기반으로 전술한 정보들이 추출될 수 있다. 또한 이와 동시에 또는 별개로 수정 악보 이미지에서 각각의 마디 이미지를 획득할 수 있다. 마디 이미지는 마디선을 기준으로 x방향의 영역을 먼저 결정한 뒤, 해당 x 영역상에서 포함되어 있는 기호들의 y 방향의 영역을 결정하고 최종적으로 해당 마디 이미지의 크기 및 위치를 결정할 수 있다.

도 7은 인공지능에서 수정 악보 이미지를 근거로 음악기호 시퀀스를 출력으로 하는 개념도이다.

도 7을 참조하면, 본 발명에 따른 인공지능 프로세싱을 이용한 악보 인식 방법 중 악보의 인식에 활용되는 서버에 구비된 인공지능은, 전술한 CRNN(Convolution Recurrent Neural Network), RNN, LSTM 및 CTC loss 알고리즘을 이용하여 학습시키거나 학습에 도움을 줄 수 있다.

구체적으로 CNN(Convolutional Neural Network)을 이용하여 인공지능이 음악기호의 특징을 추출할 수 있다. 이를 통해 마디 이미지로부터 시퀀스 데이터를 생성할 수 있게 된다.

또한 학습시 RNN(Recurrent Neural Network)의 입력 시퀀스의 길이가 길어질수록 성능이 떨어지는 문제를 보완하기 위한 네트워크로서 LSTM(Long Short-Term Memory)을 이용할 수 있게 된다. 따라서 장기 기억 부분과 단기 기억 부분으로 나누어 입력 시퀀스의 길이가 길어지더라도 악보로부터 음악 기호를 잘 예측할 수 있게 된다.

한편, CTC loss 적용 처리시는 학습 데이터에 클래스 라벨만 순서대로 있고, 각 클래스의 위치는 어디 있는지 모르는 unsegmented 시퀀스 데이터 학습을 위해 사용될 수 있다. 따라서 인식된 각각의 음악 기호들에 대하여 일정한 순서를 결정할 수 있게 된다.

도 8은 인공지능에서 추출되는 기호들을 예시한 도면이다.

도 8을 참조하면, 서버에 구비된 인공지능을 이용하여 마디 이미지 내의 각 음악기호들을 예측할 수 있게 된다.

도 9는 인식의 대상이 되는 악보의 일부를 도시한 도면이다.

도 9를 참조하면, 도 9에 나타난 악보의 일부가 촬영된 경우, 전처리를 수행한 이후 음악 기호를 인식하게 된다. 여기서 음악 기호의 인식은 전술한 바와 같이 인공지능을 학습시켜 수행될 수 있다.

도 10은 인공지능을 이용하여 도 9의 도면을 근거로 출력된 인코딩 데이터를 나타낸 도면이다.

도 10을 참조하면, 도 9에 나타난 이미지에 대하여 전처리를 수행한 이후 음악 기호를 추출하고 이를 근거로 인코딩 데이터를 생성할 수 있게 된다. 해당 인코딩 데이터에는 악보에서 나타난 순서에 따라 음악 기호들에 대한 정보를 포함하는 데이터로 출력된다. 일 예로서, 인코딩 데이터 내에서 키, 박자 등의 전체적으로 적용되는 정보가 먼저 생성되어 위치될 수 있으며, 시간 순서에 따라 음표의 길이, 음표의 높낮이, 쉼표의 위치, 쉼표의 길이 등에 대한 정보가 생성되어 위치될 수 있다.

도 11은 도 14는 도 10에 도시된 인코딩 데이터를 기반으로 MusicXML 포맷으로 변환된 결과를 도시한 도면이다.

도 11 내지 도 14를 참조하면, 도 10을 참조하여 설명한 인코딩 데이터를 기반으로 동일한 정보에 대하여 MusicXML 포맷으로 변환된 코드가 도시되어 있다.

도 11을 참조하면, "<measure number="1">" 항목에서 첫 번째 마디에 대한 정보를 나타내고 있으며, 이후 첫 번째 마디 내의 음악기호에 대한 정보를 나타내고 있다.

도 12를 참조하면, "<measure number="2">" 항목에서 두 번째 마디에 대한 정보를 나타내고 있으며, 이후 두 번째 마디 내의 음악기호에 대한 정보를 나타내고 있다.

또한 도 13을 참조하면, 전술한 바와 유사하게 세 번째 마디에 대한 정보가 나타나 있으며, 도 14에는 네 번째 마디에 대한 정보가 나타나 있다.

결국 본 발명에 따라 악보로부터 각각의 마디 이미지 내에서 음악 기호들을 추출한 뒤 이를 범용 포맷인 MusicXML 포맷으로 변환할 수 있어 범용성을 갖는 데이터를 생성하는 것이 가능하다.

이하에서는 도 15 및 도 16을 참조하여 본 발명에서의 보정단계에 해당한다. 본 단계의 보정단계(S550)에서는 인공지능이 악보에서 정확하게 음악 기호를 인식하였으나, 음악 규칙에 따라 수정되어야 하는 데이터를 생성하는 단계에 해당한다. 본 단계에서는 음악기호 시퀀스에 특정 데이터를 추가하거나 수정 또는 삭제하는 방식으로 수행될 수 있다.

도 15는 제1 보정단계(S551)에서 쉼표를 추가하는 개념을 도시한 도면이다. 도 15를 참조하면, 실제 악보에 일부가 소실되어 음악기호의 일부가 인식되지 않거나, 이미지 전처리 상에서 노이즈로 인식되어 제거된 경우와 같이 음표가 손실된 경우가 발있다. 이 경우 제1 보정단계에서는 음악 규칙 중 박자에 대한 규칙을 근거로 부족한 마디 내에서의 음표의 길이에 맞는 쉼표를 마디의 마지막에 추가하도록 보정할 수 있다. 이후 이에 대한 정보를 저장하고 사용자에게 일부의 내용이 원본에 추가되었음을 알릴 수 있다.

도 16은 제2 보정단계(S452)에서 음악 규칙을 근거로 출력딘 결과를 보정하는 개념을 도시한 도면이다. 도 16을 참조하면, 한 마디 내에서 특정 음에 플랫(b) 또는 샵(#)이 추가된 경우 특정한 음악 기호가 없는 이상 해당 음악기호 이후의 동일한 음에 대하여는 높임 또는 낮춤에 대한 정보가 포함되어야 한다. 이러한 악보를 인식하는 경우 인공지능은 두 번째 음표는 G#으로 인식하나 세 번째 음표는 G로 인식하게 된다. 그러나 악보 규칙상 세 번 째 음표는 G#으로 인식되어야 하므로, 본 단계에서는 음악 박자 규칙에 의거하여 음악 기호 시퀀스 상에서 오류가 있는 경우 이를 보정하여 시퀀스를 수정하게 된다.

삭제

1: 아날로그 악보
2: 전자 악보
20: 모바일 디바이스
30: 서버

Claims

모바일 디바이스에 의해 촬영 또는 스캐너에 의해 스캔되어 획득된 악보 이미지를 서버로 전송하는 단계;
상기 서버에서 상기 악보 이미지의 유효 영역 추출(crop), 밝기 조절(Brightness adjustment), 화질 개선(Image enhancement), 노이즈제거(Noise removal) 및 색상 보정(Hue Adjustment) 중 적어도 하나를 수행하여 수정 악보 이미지를 생성하는 전처리 단계;
상기 서버에서 인공지능을 이용하여 상기 수정 악보 이미지로부터 적어도 하나의 마디 이미지를 추출하며, 상기 적어도 하나의 마디 이미지에 대한 위치정보를 추출하는 마디 이미지 추출 단계;
상기 서버에 설치된 인공지능을 이용하여 상기 적어도 하나의 마디 이미지 각각에 포함된 적어도 하나의 심볼을 추출하는 단계;
상기 인공지능을 이용하여 상기 적어도 하나의 심볼 및 상기 마디 이미지에 대한 위치정보를 기반으로 음악기호 시퀀스를 생성하는 단계;
상기 인공지능을 이용하여 상기 음악기호 시퀀스를 근거로 인코딩 데이터를 생성하는 단계; 및
상기 인공지능을 이용하여 상기 인코딩 데이터를 MusicXML 포맷과 매칭하여 악보 데이터 포맷으로 변환된 전자 악보를 생성하는 데이터 포맷 변환 단계를 포함하며,
상기 마디 이미지 추출 단계는,
상기 수정 악보 이미지로부터 마디를 구분하는 구분선의 좌표를 근거로 상기 마디 이미지의 x 축의 경계를 추출하며,
상기 각 마디의 x축 경계 내에서 이미지 색상 코드값을 근거로 부호 색상을 가진 최대 y 좌표값 및 최소 y 좌표값을 근거로 상기 마디 이미지의 영역을 결정하도록 학습시킨 인공지능을 이용하여 수행되는 인공지능 프로세싱을 이용한 악보 인식 방법.
제1 항에 있어서,
상기 수정 악보 이미지를 생성하는 단계 및 상기 마디 이미지 추출 단계는 콘볼루션 신경망(CNN; Convolutional Neural Network)을 이용하여 수행되는 인공지능 프로세싱을 이용한 악보 인식 방법.
삭제
제1 항에 있어서,
상기 심볼을 추출하는 단계 및 상기 음악기호 시퀀스를 생성하는 단계는 LSTM(Long Short-Term Memory)를 이용하여 딥 러닝으로 학습시켜 수행되는 인공지능 프로세싱을 이용한 악보 인식 방법.
제4 항에 있어서,
상기 심볼을 추출하는 단계 및 상기 음악기호 시퀀스를 생성하는 단계는 표준 음악기호 심볼, 상기 음악기호 시퀀스의 텍스트 및 상기 MusicXML 포맷을 훈련 데이터 모델 세트로 입력하여 학습된 인공지능을 이용하여 수행되는 인공지능 프로세싱을 이용한 악보 인식 방법.
제4 항에 있어서,
상기 데이터 포맷 변환 단계로 생성된 상기 전자 악보를 상기 모바일 디바이스로 전송하는 단계; 및
상기 전자 악보를 근거로 상기 모바일 디바이스에 저장된 악보 전시 그래픽 심볼과 매칭하여 시현하는 시현단계를 더 포함하는 인공지능 프로세싱을 이용한 악보 인식 방법.
제5 항에 있어서,
상기 음악기호 시퀀스를 생성하는 단계 이후 상기 마디 이미지별로 오류를 보정하여 상기 음악기호 시퀀스에 추가하는 보정단계를 더 포함하는 인공지능 프로세싱을 이용한 악보 인식 방법.
제7 항에 있어서,
상기 보정단계는,
상기 수정 악보 이미지에서 인식된 박자를 근거로 상기 마디 이미지 내의 음표의 총길이를 비교하며, 보상을 위한 텍스트를 상기 음악기호 시퀀스에 추가하는 박자 기반 제1 보정단계를 포함하는 인공지능 프로세싱을 이용한 악보 인식 방법.
제8 항에 있어서,
상기 박자 기반 제1 보정단계는,
상기 마디 이미지 내의 상기 음표의 총길이가 상기 박자보다 짧은 경우 상기 음표의 총길이와 상기 박자의 차이를 보상하는 쉼표에 대한 텍스트를 상기 음악기호 시퀀스에 추가하는 인공지능 프로세싱을 이용한 악보 인식 방법.
제7 항에 있어서,
상기 보정단계는,
상기 마디 이미지 내에서 소정 음표에서 샵(#) 또는 플렛(b) 하나가 인식된 경우 상기 소정 음표 이후의 시퀀스에서 동일한 음을 갖는 음표에 상기 샵 또는 플렛을 추가하는 악보 규칙 기반 제2 보정단계를 포함하는 인공지능 프로세싱을 이용한 악보 인식 방법.