KR102595763B1 - 인공지능 기반의 전자 악보 변환 방법 및 장치 - Google Patents

인공지능 기반의 전자 악보 변환 방법 및 장치 Download PDF

Info

Publication number
KR102595763B1
KR102595763B1 KR1020230044342A KR20230044342A KR102595763B1 KR 102595763 B1 KR102595763 B1 KR 102595763B1 KR 1020230044342 A KR1020230044342 A KR 1020230044342A KR 20230044342 A KR20230044342 A KR 20230044342A KR 102595763 B1 KR102595763 B1 KR 102595763B1
Authority
KR
South Korea
Prior art keywords
point
score
staff
detection unit
music
Prior art date
Application number
KR1020230044342A
Other languages
English (en)
Other versions
KR20230143581A (ko
Inventor
이신호
Original Assignee
이신호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이신호 filed Critical 이신호
Publication of KR20230143581A publication Critical patent/KR20230143581A/ko
Application granted granted Critical
Publication of KR102595763B1 publication Critical patent/KR102595763B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T5/007
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/30Character recognition based on the type of data
    • G06V30/304Music notations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/145Composing rules, e.g. harmonic or musical rules, for use in automatic composition; Rule generation algorithms therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/005Data structures for use in electrophonic musical devices; Data structures including musical parameters derived from musical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

인공지능 기반의 전자 악보 변환 방법 및 장치가 제공된다. 상기 인공지능 기반의 전자 악보 변환 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 입력되는 악보 이미지 데이터로부터 소정치 이상의 그레이스케일 크기를 갖는 제1 점을 추출하고, 상기 제1 점으로부터 소정 거리 내에 존재하는 제2 점을 추출하고, 상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들의 존재 여부에 따라 직선을 검출하는 오선 검출부; 상기 오선 검출부에 따라 검출된 오선 각각으로부터의 소정 거리 내에 존재하는 점들을 검출하는 음표 검출부; 및 인식된 옥타브표에 기반하여 상기 악보 내의 제1 마디에 연관되는 기준 옥타브를 결정하고, 상기 기준 옥타브에 대한 색상 데이터의 헥스코드를 결정하고, 마디 내에 포함되는 음표들에 대한 색상 데이터를 결정하는 색상 변환부를 포함할 수 있다.

Description

인공지능 기반의 전자 악보 변환 방법 및 장치{METHOD AND APPARTUS FOR CONVERTING TO ELECTRONIC MUSICAL SCORE BASED ON ARTIFICIAL INTELLIGENCE}
이하에서는 인공지능 기반의 전자 악보 변환 방법 및 장치가 개시된다. 더욱 상세하게는 악보를 인식하고 소리를 시각화한 전자 악보를 생성하는 방법 및 장치가 개시된다.
악보는 음악의 곡조를 일정한 기호를 써서 기록한 것으로 소리를 재료로 하는 청각 예술을 시각적인 자료로 기술함으로써 상호간에 협의된 기호로 소리를 낼 수 있도록 하는 수단이다. 통상적으로 악보는 오선지에 자신이 생각하고 있는 음악을 표현할 수 있는 각종 음표나 악보 기호를 기재하는 방식으로 작성된다.
소리를 들을 수 없는 청각 장애인들의 의사소통 증진을 위하여 시각화재 경보기, 소리시각화 안경 등과 같은 다양한 분야에서 기술 개발이 이루어지고 있다. 이러한 움직임의 일환으로 음악을 시각화하는 기술 개발도 이루어지고 있다.
한편, 스마트폰이나 태블릿PC와 같은 개인화된 스마트 기기가 등장하고 발달하면서, 종이로 된 악보를 유통하던 시대를 지나 전자화된 악보를 사용자에게 제공하고, 이를 획득한 사용자가 전자 악보를 이용하여 음악을 연주하거나 학습에 활용하는 시대가 도래하였다. 여전히 많은 악보들은 종이 형태로 존재하며 격식을 갖춘 연주회장에서는 아날로그 방식의 악보를 연주자가 직접 활용하는 경우도 다수 존재하지만, 스마트 기기들을 이용해 악보를 보거나 편집하고자 하는 사용자들이 많아졌다. 이를 위해서는 오선지 UI 상에 그려진 악보 이미지를 분석하여 컴퓨터가 인식할 수 있는 전자 악보로 변환하고 비장애인 및 청각 장애인을 위한 소리를 시각화하는 방법 및 장치가 필요하다.
한국공개특허 제10-2016-0011326호 (2016.02.01)
이하에서 개시되는 적어도 하나의 실시 예는 상기의 종래 기술의 문제를 해결하기 위한 것으로, 인공지능 기반의 전자 악보 변환 방법 및 장치를 제공하는 것을 목적으로 한다.
일 실시예에 따른 악보 변환 장치는 악보 이미지를 이용하여 전자 인식이 가능한 전자 악보로 변환함으로써 편집이 가능하고 보관이 편한 전자 악보를 제공하는 것을 목적으로 한다.
일 실시예에 따른 악보 변환 장치는 소리를 색상 데이터로 시각화하여 청각의 불평등을 겪고 있는 청각 장애인들에게 음악을 심미감을 갖춘 색상의 조합으로 구성된 전자 악보를 통해 그동안 경험할 수 없었던 기회를 제공하고자 한다.
일 실시예에 따른 악보 변환 장치는 전자 악보를 제공하여 개인 전자기기를 활용하여 악보를 보거나 편집할 수 있고 네트워크를 통하여 공유 가능하도록 하는 것을 목적으로 한다.
본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
이하에서 개시되는 적어도 하나의 실시 예는 상기의 종래 기술의 문제를 해결하기 위한 것으로, 인공지능 기반의 전자 악보 변환 방법 및 장치를 제공하는 것을 목적으로 한다.
일 실시예에 따른 악보 편집을 지원하는 컴퓨팅 장치에 있어서, 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 입력되는 악보 이미지 데이터로부터 소정치 이하의 그레이스케일 크기를 갖는 제1 점을 추출하고, 상기 제1 점으로부터 소정 거리 내에 존재하는 제2 점을 추출하고, 상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들의 존재 여부에 따라 직선을 검출하는 오선 검출부; 상기 오선 검출부에 따라 검출된 오선 각각으로부터의 소정 거리 내에 존재하는 점들을 검출하는 음표 검출부; 및 인식된 옥타브표에 기반하여 상기 악보 내 제1 마디에 연관되는 기준 옥타브를 결정하고, 상기 기준 옥타브에 대한 색상 데이터의 헥스코드를 결정하고, 마디 내에 포함되는 음표들에 대한 색상 데이터를 결정하는 색상 변환부를 포함할 수 있다.
다른 일 실시예에 따른 상기 오선 검출부는, 상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들이 존재하지 않으면, 상기 제1 점으로부터 소정 거리 내에 존재하는 제3 점을 다시 추출하고, 상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들이 존재하면, 상기 제1 점과 상기 제2 점을 연결하는 선을 악보에 포함되는 오선 중 하나로 결정하는 것을 특징으로 하는 악보 편집을 지원할 수 있다.
또 다른 일 실시예에 따른 상기 오선 검출부는, 상기 오선 중 하나인 제1 선이 검출된 경우에, 상기 제1 선의 기울기를 기준으로 소정 크기 평행이동하여 그레이스케일 크기의 유사도가 기준치 이상되는 복수의 선들을 오선으로서 검출하는 악보 편집을 지원할 수 있다.
또 다른 일 실시예에 따른 상기 색상 변환부는, 미리 저장된 룩업-테이블을 포함하고, 상기 기준 옥타브에 대응하는 대표음의 주파수를 기준으로 플랫음 또는 샵음에 대한 주파수 차이에 대응하는 비율을 상기 색상 데이터에 적용함으로써 상기 플랫음 또는 상기 샵음에 대한 색상 데이터를 보간하는 악보 편집을 지원할 수 있다.
또 다른 일 실시예에 따른 상기 룩업-테이블은 아래의 표에 대응되는 것을 특징으로 할 수 있다.
본 발명의 일 실시예에 따라 인공지능 기반의 전자 악보 변환 방법 및 장치을 제공할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 실시 예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시 예들 중 단지 일부일 뿐이며, 본 발명의 기술분야에서 통상의 지식을 가진 사람(이하 "통상의 기술자"라 함)에게 있어서는 발명에 이르는 추가 노력 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1a는 인공 신경망(Artificial Neural Network)를 이용한 딥러닝 연산 방법을 설명하기 위한 도면이다.
도 1b는 일 실시예에 따른 인공 신경망(Artificial Neural Network)를 이용한 전자 악보 변환 방법을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 인공지능 기반의 전자 악보 변환 방법이 수행되는 환경을 도시한 개념도이다.
도 3은 일 실시예에 따른 인공지능 기반의 전자 악보 변환 장치를 설명하기 위한 블록도이다.
도 4는 일 실시예에 따른 인공지능 기반의 전자 악보 변환 방법을 예시적으로 설명하기 위한 순서도이다.
도 5는 일 실시예에 따른 오선 검출부에서 오선을 검출하기 위한 방법을 예시적으로 설명하기 위한 도면이다.
도 6a는 일 실시예에 따른 음의 조성을 보간 전 주파수에 대응하는 헥스코드를 예시적으로 설명하기 위한 도면이다.
도 6b는 일 실시예에 따른 음의 조성을 보간 후 주파수에 대응하는 헥스코드를 예시적으로 설명하기 위한 도면이다.
도 7a는 일 실시예에 따른 전자 악보 편집을 제공하기 위한 화면을 예시적으로 나타내기 위한 도면이다.
도 7b는 일 실시예에 따른 전자 악보 목록을 제공하기 위한 화면을 예시적으로 나타내기 위한 도면이다.
도 7c는 일 실시예에 따른 전자 악보를 통해 추출되는 오디오를 믹싱(mixing)하기 위한 화면을 예시적으로 나타내기 위한 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 통상의 기술자가 본 발명을 실시할 수 있도록 상세히 설명된다.
본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 또한, ‘하나’ 또는 ‘한’은 하나 이상의 의미로 쓰인 것이며, ‘또 다른’은 적어도 두 번째 이상으로 한정된다.
또한, 본 발명의 '제1', '제2' 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로서, 순서를 나타내는 것으로 이해되지 않는 한 이들 용어들에 의하여 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 이와 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는 그 다른 구성요소에 직접 연결될 수도 있지만 중간에 다른 구성요소가 개재할 수도 있다고 이해되어야 할 것이다. 반면에 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉, "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
각 단계들에 있어서 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용된 것으로 식별부호는 논리상 필연적으로 귀결되지 않는 한 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며, 반대의 순서로 수행될 수도 있다.
통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다. 따라서, 특정 구조나 기능에 관하여 본 명세서에 개시된 상세 사항들은 한정하는 의미로 해석되어서는 아니되고, 단지 통상의 기술자가 실질적으로 적합한 임의의 상세 구조들로써 본 발명을 다양하게 실시하도록 지침을 제공하는 대표적인 기초 자료로 해석되어야 할 것이다.
더욱이 본 발명은 본 명세서에 표시된 실시 예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시 예에 관련하여 본 발명의 사상 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
본 발명은 인공지능기반의 전자 악보 변환 방법에 관한 것으로, 악보 이미지를 인식하여 전자 인식이 가능한 전자 악보를 제공할 수 있다. 특히 악보 이미지 데이터를 통해 인식된 음표 및 옥타브를 기반으로 색상 데이터로 변환하는 방법론이 개시된다. 본 발명의 일 실시예에 따른 악보 변환 방법은 이미지로 저장된 악보 이미지를 인식이 가능하도록 전자화 하여 색상 데이터로 변환함으로써 전자기기를 이용해 열람이 가능하고 편집이 가능하도록 한다. 이를 통해 사용자는 종이 소비 없이 악보를 열람하고 많은 양의 악보를 저장하고 자유롭게 편집할 수 있다.
도 1a는 인공 신경망(Artificial Neural Network)를 이용한 딥러닝 연산 방법을 설명하기 위한 도면이다.
딥러닝(Deep Learning) 등을 포함하는 인공지능(AI) 알고리즘은 인공 신경망(Artificial Neural Network, ANN)에 입력 데이터(10)를 입력시키고, 컨볼루션 등의 연산을 통해 출력 데이터(30)를 학습하고, 학습된 인공 신경망을 이용하여 특징을 추출할 수 있다. 인공 신경망은 생물학적 뇌를 모델링한 컴퓨터 과학적 아키텍쳐(Computational Architecture)를 의미할 수 있다. 인공 신경망 내에서, 뇌의 뉴런들에 해당되는 노드들은 서로 연결되어 있고, 입력 데이터를 처리하기 위하여 집합적으로 동작한다. 다양한 종류의 뉴럴 네트워크들을 예로 들면, 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN), 회귀 뉴럴 네트워크(Recurrent Neural Network, RNN), 딥 빌리프 네트워크(Deep Belief Network, DBN), 제한된 볼츠만 기계(Restricted Boltzman Machine, RBM) 방식 등이 있으나, 이에 제한되지 않는다. 피드-포워드(feed-forward) 뉴럴 네트워크에서, 뉴럴 네트워크의 뉴런들은 다른 뉴런들과의 연결들(links)을 갖는다. 이와 같은 연결들은 뉴럴 네트워크를 통해, 한 방향으로, 예를 들어 순방향(forward direction)으로 확장될 수 있다.
도 1a는 입력 데이터(10)를 입력 받아 출력 데이터(30)를 출력하는 인공 신경망(예를 들어, 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)(20))의 구조를 도시한다. 인공 신경망은 2개 이상의 레이어(layer)를 보유한 딥 뉴럴 네트워크(deep neural network)일 수 있다. 본 실시예에서 입력 데이터(10)는 악보를 포함하고 있는 이미지 데이터로 정의될 수 있다. 또한, 출력 데이터(30)는 오선 영역, 음 기호 및 음표가 반영된 전자 파일을 나타낼 수 있다.
컨볼루션 뉴럴 네트워크(20)는 입력 데이터(10)로부터 테두리, 선 색 등과 같은 "특징들(features)"을 추출하기 위해 이용될 수 있다. 컨볼루션 뉴럴 네트워크(20)는 복수의 레이어를 포함할 수 있다. 각각의 레이어는 데이터를 수신할 수 있고, 해당 레이어에 입력되는 데이터를 처리하여 해당 레이어에서 출력되는 데이터를 생성할 수 있다. 레이어에서 출력되는 데이터는, 컨볼루션 뉴럴 네트워크(20)에 입력된 이미지 또는 입력된 특징맵(feature map)을 필터(filter) 웨이트(weight) 값과 컨볼루션 연산하여 생성한 특징맵일 수 있다. 컨볼루션 뉴럴 네트워크(20)의 초기 레이어들은 입력으로부터 에지들 또는 그레디언트들과 같은 낮은 레벨의 특징들을 추출하도록 동작될 수 있다. 컨볼루션 뉴럴 네트워크(20)의 다음 레이어들은 이미지 내의 눈, 코 등과 같은 점진적으로 더 복잡한 특징들을 추출할 수 있다.
도 1b는 일 실시예에 따른 인공 신경망(Artificial Neural Network)를 이용한 전자 악보 변환 방법을 설명하기 위한 도면이다.
일 실시 예에 따른 전자 악보 변환 장치는 사용자 단말로부터 악보를 포함하는 이미지 데이터를 수신하고, 해당 이미지 데이터를 이진화(예. 흑과 백)하여 전처리할 수 있다. 또한, 전자 악보 변환 장치는 전처리된 이미지 데이터로부터 오선 영역을 검출하고, 음 기호 및 음표를 추출할 수 있다. 전자 악보 변환 장치는 오선 영역과 음 기호 및 음표의 위치 관계에 따라 악보가 변환된 전자 파일을 생성할 수 있다.
도 1b를 참조하면, 전자 악보 변환을 위한 인공 신경망 학습 장치(100) 및 전자 악보 변환 장치(150)를 포함할 수 있다. 일 실시 예에 따른 전자 악보 변환을 위한 인공 신경망 학습 장치(100)는 뉴럴 네트워크를 생성하거나, 뉴럴 네트워크를 훈련(train)(또는 학습(learn))하거나, 뉴럴 네트워크를 재훈련(retrain)하는 기능들과 같은 다양한 프로세싱 기능들을 갖는 컴퓨팅 디바이스에 해당된다. 예를 들어, 전자 악보 변환 장치(150)는 PC(personal computer), 서버 디바이스, 모바일 디바이스 등의 다양한 종류의 디바이스들로 구현될 수 있다.
전자 악보 변환을 위한 인공 신경망 학습 장치(100)는 주어진 초기 뉴럴 네트워크를 반복적으로 훈련(학습)시킴으로써, 훈련된 뉴럴 네트워크(110)를 생성할 수 있다. 훈련된 뉴럴 네트워크(110)를 생성하는 것은 뉴럴 네트워크 파라미터를 결정하는 것을 의미할 수 있다. 여기서, 파라미터들은 예를 들어 뉴럴 네트워크의 입/출력 액티베이션들, 웨이트들, 바이어스들 등 뉴럴 네트워크에 입/출력되는 다양한 종류의 데이터를 포함할 수 있다. 뉴럴 네트워크의 반복적인 훈련이 진행됨에 따라, 뉴럴 네트워크의 파라미터들은 주어진 입력에 대해 보다 정확한 출력을 연산하기 위해 조정될(tuned) 수 있다.
일 실시 예에 따른 훈련된 뉴럴 네트워크(110)는 복수의 뉴럴 네트워크로 구성될 수도 있다. 구체적으로, 훈련된 뉴럴 네트워크(110)는 제1 뉴럴 네트워크와 제2 뉴럴 네트워크를 포함할 수 있다. 예를 들어, 제1 뉴럴 네트워크는 입력된 악보 이미지 데이터로부터 연속된 다섯 개의 선을 검출함으로써 오선 영역을 결정하도록 학습될 수 있다. 또한, 제2 뉴럴 네트워크는 이진화된 악보 이미지 데이터로부터 미리 정의된 음표 또는 음 기호를 검출하도록 학습될 수 있다. 제1 뉴럴 네트워크와 제2 뉴럴 네트워크는 독립적으로 학습될 수도 있고, 서로 연관되어 학습될 수도 있다.
전자 악보 변환을 위한 인공 신경망 학습 장치(100)는 훈련된 뉴럴 네트워크(110)를 전자 악보 변환 장치(150)에 전달할 수 있다. 전자 악보 변환 장치(150)는 모바일 디바이스, 임베이스(embedded) 디바이스 등에 포함될 수 있다. 전자 악보 변환 장치(150)는 뉴럴 네트워크의 구동을 위한 전용 하드웨어일 수 있다.
전자 악보 변환 장치(150)는 훈련된 뉴럴 네트워크(110)를 그대로 구동하거나, 훈련된 뉴럴 네트워크(110)가 가동(예를 들어, 양자화)된 뉴럴 네트워크(160)를 구동할 수 있다. 가공된 뉴럴 네트워크(160)를 구동하는 전자 악보 변환 장치(150)는, 맞춤형 전자 악보 변환을 위한 인공 신경망 학습 장치 (100)와는 별도로 독립적인 디바이스에서 구현될 수 있다. 하지만, 이에 제한되지 않고, 전자 악보 변환 장치(150)는 전자 악보 변환을 위한 인공 신경망 학습 장치(100)와 동일한 디바이스 내에도 구현될 수 있다.
도 2는 일 실시예에 따른 인공지능 기반의 전자 악보 변환 방법이 수행되는 환경을 도시한 개념도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 인공지능 기반의 전자 악보 변환 방법이 수행되는 환경은 통신망(1000), 전자 악보 변환 장치(200), 사용자 단말(300) 및 외부서버(400)를 포함할 수 있다. 즉, 전자 악보 변환 장치(200), 사용자 단말(300) 및 외부서버(400)가 통신망(1000)을 통해 서로 연결된 상태일 수 있다.
통신망(1000)은 전용선 등을 포함하는 유선 인터넷, 무선 인터넷, 이동통신망, 위성통신망 등을 포함할 수 있다.
통신망(100)은 전자 악보 변환 장치(200), 사용자 단말(300) 및 외부서버(400)를 연결하는 망(Network)으로서 유선 네트워크, 무선 네트워크 등을 포함한다. 네트워크는 LAN(Local Area Network), WAN(Wide Area Network)등의 폐쇄형 네트워크 또는 인터넷(Internet)과 같은 개방형 네트워크일 수 있다. 인터넷은 TCP/IP 프로토콜 및 그 상위계층에 존재하는 여러 서비스, 즉 HTTP(HyperText Transfer Protocol), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol), SNMP(Simple Network Management Protocol), NFS(Network File Service), NIS(Network Information Service)를 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미한다.
전자 악보 변환 장치(200)는 본 발명의 일 실시예에 따른 전자 악보 변환 방법을 주도적으로 수행하는 장치를 의미할 수 있으며, 인공지능을 이용하여 악보 이미지를 전자 악보로 변환하는 장치를 의미할 수 있다.
전자 악보 변환 장치(200)는 통신망(1000)을 통해 사용자 단말(300)이나 외부서버(400)로부터 악보 이미지를 획득할 수 있다.
상기 악보 이미지는 실제 악보, 즉 아날로그 악보를 촬영하거나 스캔하여 획득한 데이터화 된 악보 이미지를 획득할 수 있다. 본 단계는 스캐너 또는 모바일 디바이스의 소정 어플리케이션을 이용하여 서버와 통신하여 연계되어 수행될 수 있다.
일 실시예에 따라, 전자 악보 변환 장치(200)에 의하여 실행되는 프로그램 코드는 메모리 장치에 저장될 수 있다. 전자 악보 변환 장치(200)는 기타 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크, 프린터 등)에 연결되고, 데이터를 교환할 수 있다. 전자 악보 변환 장치(200)는 서버에 탑재될 수 있다.
사용자 단말(300)은 본 발명의 일 실시예에 따른 전자 악보 변환 방법을 통해 변환된 전자 악보를 제공받고자 하는 대상(즉, 사용자 등)의 장치를 의미할 수 있다. 구체적으로, 사용자 단말(300)은 전자 악보를 생성하고자 하는 사용자의 장치를 의미할 수 있다.
사용자 단말(300)은 통신망(100)에 접속 가능한 사용자의 장치일 수 있다. 사용자 단말(300)은 스마트폰, 태블릿 PC, 랩톱, 데스크톱 등을 포함할 수 있으나 이에 제한되는 것은 아니다. 사용자 단말(300)은 사용자 인터페이스를 표시할 수 있다. 사용자 단말(300)은 사용자 인터페이스에 대한 사용자의 인터렉션 정보를 외부서버(400)에게 전송할 수 있다. 사용자 단말(300)은 외부서버(400)로부터 수신한 정보를 사용자 인터페이스를 통해 표시할 수 있다.
다시 말해, 사용자 단말(300)은 전자 악보를 생성하는 서비스를 이용하고자 하는 대상인 사용자의 장치를 의미할 수 있으며, 전자 악보 변환 요청 정보를 전자 악보 변환 장치(200)에 제공할 수 있다.
사용자 단말(300)은 터치 가능한 디스플레이를 포함하는 스마트 패드 또는 스마트 펜을 포함할 수 있으며, 상기 스마트 펜을 통해 입력된 음표를 기반으로 전자 악보가 생성될 수 있다.
상기 스마트 펜은 상기 디스플레이에 입력하거나, 공책 또는 오선을 포함하는 오선지를 포함하는 종이에 음표를 포함하는 악상 기호를 그리는 행동을 사용자 단말(300)에 입력되어 전자 악보를 생성할 수 있다.
외부서버(400)는 통신망(100)을 통해 전자 악보 변환 장치(200)와 연결되어 전자 악보를 생성하기 위해 필요한 정보를 제공할 수 있다. 또한, 사용자 단말(300)은 전자 악보 변환 장치(200)가 제공한 전자 악보를 외부서버(400)에 공유함으로써 전자 악보를 판매하거나 다른 사용자에게 제공할 수 있다.
즉, 외부서버(400)를 통하여 다수와 악보를 그룹화하여 연동하고 공유할 수 있다.
외부서버(400)는 소정의 연산 프로세스 및 통신 프로세스를 수행할 수 있는 서버일 수 있다. 예시적으로, 외부서버(400)는 전형적인 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨팅 장치의 구성요소들을 포함할 수 있는 장치; 라우터, 스위치 등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS; network-attached storage) 및 스토리지 영역 네트워크(SAN; storage area network)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어(즉, 컴퓨팅 장치로 하여금 특정의 방식으로 기능하게 하는 명령어들)의 조합을 이용하여 원하는 시스템 성능을 달성하는 것일 수 있다.
도 3은 일 실시예에 따른 인공지능 기반의 전자 악보 변환 장치를 설명하기 위한 블록도이다.
도 3를 참고하면, 전자 악보 변환 장치(210)는 오선 검출부(220), 음표 검출부(230), 색상 변환부(240)를 포함할 수 있다. 일 실시예에 따라, 오선 검출부(220), 음표 검출부(230), 색상 변환부(240)는 하나의 서버 내의 구성요소를 이루거나, 각각 독립적인 서버로 구성되어 상호 동작을 하도록 구현될 수 있다. 오선 검출부(220), 음표 검출부(230), 색상 변환부(240)는 통신 버스(미도시)를 통해 서로 통신할 수 있다. 다른 일 실시예에 따른 전자 악보 변환 장치(210)는 악보 이미지를 이진화 할 수 있는 전처리부(미도시)를 더 포함할 수 있다. 상기한 바와 같이 상기 전자 악보 변환 장치(210)는 도시된 구성요소보다 많은 구성요소에 의해 구현될 수 있다.
오선 검출부(220)는 사용자 단말(300) 또는 외부서버(400)로부터 제공받은 악보 이미지 데이터를 기반으로 오선만을 검출할 수 있다.
일 실시예에 따른 오선 검출부(220)는 수신한 악보 이미지 데이터 상에 소정치 이하의 그레이스케일(grayscale, 회색조) 크기의 제1 점을 추출하고, 상기 제1 점을 기준으로 소정 거리 내에 존재하는 제2 점을 추출하고, 상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들의 존재 여부에 따라 오선을 구성하는 제1 선으로 검출할 수 있다. 검출된 상기의 제1 선의 기울기를 기준으로 소정 크기 평행 이동하여 그레이스케일 크기의 유사도가 기준치 이상되는 복수의 선들을 오선으로서 검출할 수 있다.
상기 그레이스케일은 각 화소의 값이 빛의 양을 나타내는 하나의 샘플인 이미지로서, 광도의 정보만을 전달하며 회색 음영으로 이루어져 가장 여린 광도의 검정색부터 가장 센 광도의 흰색까지 표현할 수 있다.
다른 일 실시예에 따른 오선 검출부(220)는 획득한 악보 이미지 데이터를 이진화 할 수 있다. 오선 검출부(220)는 오츠(otsu) 알고리즘, 삼각형 알고리즘 및 적응형 이진화 알고리즘 중 적어도 하나를 이용하여 상기 악보 이미지 데이터를 이진화 할 수 있다.
일 실시예에 따른 이진화는 이미지의 각 픽셀을 2개의 부류로 나누는 작업일 수 있다. 즉, 기준(예시적으로 127)에 따라 모든 픽셀을 0 또는 255로 변환할 수 있다.
상기 그레이스케일은 이미지 데이터 각 픽셀의 값을 0~255 사이의 값으로 표현할 수 있으며, 0에 가까워질수록 색상이 검정색에 가까워지며, 255에 가까워질수록 색상이 흰색에 가까워지는 것을 특징으로 한다.
일 실시예에 따른 상기 소정치는 흰 색을 표현하는 255을 제외한 254를 의미할 수 있다. 다른 일 실시예를 따르면 상기 소정치는 127을 의미할 수 있다. 상기 소정치는 이에 한정되는 수치가 아니고, 악보 이미지 데이터의 오선을 검출하기 위한 수치가 적용될 수 있다.
오츠(otsu) 알고리즘은 이미지의 밝기 분포(히스토그램)을 통해서 최적의 기준을 찾아서 적용시키는 알고리즘일 수 있다. 오선 검출부(220)는 수학식 1에 기초하여 0부터 255까지 차례대로 입력함으로써 분산이 최소화되거나 차이가 최대화되는 최적의 기준을 찾고, 모든 기준 범위에 대해서 연산을 진행하여 이진화를 수행할 수 있다.
상기 수학식1에서, 는 악보 이미지 데이터에 속하는 모든 픽셀의 분산을 나타낼 수 있고, 는 기준 이하에 속하는 픽셀의 비율을 나타내고, 는 기준 이상에 속하는 픽셀의 비율을 나타내고, 의 분산을 나타내고, 의 분산을 나타낼 수 있다.
삼각형 알고리즘은 모든 픽셀 중 최댓값과 최솟값을 가지는 두 픽셀 값을 이용하여 최적의 기준을 찾아서 이진화를 적용하는 이진화 알고리즘일 수 있다.
적응형 이진화 알고리즘은 각 픽셀마다 기준이 다르게 할당되는 이진화 알고리즘일 수 있다. 적응형 이진화 알고리즘을 이용하는 경우, 오선 검출부 (220)는 획득한 악보 이미지 데이터에 모든 픽셀에서 소정 크기의 사각형 블록 영역을 설정하고 블록 영역의 내부 픽셀 분포로부터 영역별로 다른 기준을 결정하여 이진화 할 수 있다.
일 실시예에 따른 오선 검출부(220)는 획득한 악보 이미지 데이터가 컬러 이미지일 경우, 그레이스케일로 변환할 수 있다.
음표 검출부(230)는 악보 이미지 데이터로부터 음표를 포함하는 악상 기호를 검출할 수 있다.
상기 음표 검출부(230)는 소정치 이하의 그레이스케일이 상기 오선 검출부(220)로부터 검출된 오선의 소정 거리 내에 존재하는 그레이스케일 크기를 가지는 복수의 점들의 크기, 위치 또는 모양을 통해 음표를 포함하는 악상 기호를 검출할 수 있다.
상기 악상 기호는 음자리표, 음표, 쉼표, 변화표(Accidentals), 조표, 박자표, 이음줄, 셈여림표, 아티큘레이션(Articulation marks), 꾸임음, 옥타브 기호, 도돌이표 및 악기 별 기호 및 한국어, 영어, 독일어, 이탈리아어, 러시아어 등을 포함하는 언어 중 적어도 하나를 포함할 수 있다.
음자리표는 오선상의 특정 위치를 특정한 음으로 정하여 오선의 음높이나 음역 대를 정하는 악상 기호일 수 있다. 음자리표는 높은음자리표, 가온음자리표, 낮은음자리표를 포함할 수 있다.
음표 및 쉼표는 음의 길이를 나타낼 수 있다. 또한, 음표의 위치에 따라 음의 높이가 정해질 수 있다.
변화표(Accidentals)는 마디 내에서 음표의 음높이를 변화시키는 악상 기호일 수 있다. 변화표는 제자리표, 더블 플랫, 더블 샵을 포함할 수 있다.
조표는 악보에서 너무 많은 수의 변화표가 쓰이는 것을 방지하기 위해 옥타브의 상하를 불문하고 음악 내에 모든 음에 효력을 미치는 악상 기호일 수 있다.
박자표는 악보 내에서 한 마디에 들어갈 박자수를 정하는 악상 기호일 수 있다. 박자표를 통해 마디가 구분되고 박자의 기본적인 형태가 음표를 통해 나타날 수 있다. 또한, 마디에서 구분되는 박자에는 규칙적인 강약의 반복이 표시되고 이 강약의 배치에 따라 단순 박자, 복합 박자, 혼합 박자 등의 박자를 분류할 수 있다.
셈여림표는 음악 내에서의 상대적인 크기를 나태는 악상 기호일 수 있다. 셈여림표에는 피아니시시모(엄청 약하게), 피아니시모(매우 약하게), 피아노(약하게), 메조 피아노(조금 약하게), 메조 포르테(조금 강하게), 포르테(강하게), 포르테시모(매우 강하게), 포르티시시모(엄청 강하게), 포르테피아노(강하게 그리고 이어서 약하게), 스포르찬도, 포르찬도, 린포르찬도, 악센트, 크레센도, 데크레셴도, 디미누엔도 중 적어도 하나를 포함할 수 있다.
아티큘레이션(Articulation marks)는 개별적인 음표를 어떻게 연주할 것인지에 대한 표시를 나타내는 악상 기호일 수 있다. 아티큘레이션은 스타카토, 스타카티시모, 악센트, 테누토, 마르카토 등을 포함할 수 있다.
꾸밈음은 음높이의 패턴을 변화시키는 악상 기호일 수 있다. 꾸밈음은 트릴, 모르덴트, 아포지아투라 등을 포함할 수 있다.
악기 별 기호는 각 악기별로 연주에 필요한 악상 기호일 수 있다. 예시적으로, 기타는 오른손 중 어떤 손가락으로 연주를 해야 되는지 나타내는 기호일 수 있다. 다른 예시로는 피아노의 경우 페달 기호일 수 있다.
다른 일 실시예에 따른 오선 검출부(220) 또는 음표 검출부(230)는 CRNN(Convolution Recurrent Neural Network), RNN, LSTM 및 CTC loss 알고리즘을 포함하는 인공지능을 구비할 수 있다.
색상 변환부(240)는 악보 이미지 데이터 내의 제1 마디에 연관되는 기준 옥타브를 결정하고, 상기 기준 옥타브에 대한 색상 데이터의 헥스코드를 결정하고, 마디 내에 포함되는 음표들에 대한 색상 데이터를 결정할 수 있다.
상기 색상 변환부(240)는 미리 저장된 룩업-테이블을 포함하고, 상기 기준 옥타브에 대응하는 대표음의 주파수에서 플랫음 또는 샵음을 적용하여 변화된 주파수가 변화된 비율에 따라 상기 색상 데이터에 적용함으로써 상기 플랫음 또는 상기 샵음에 대한 색상 데이터를 보간할 수 있다.
상기 룩업-테이블은 아래의 [표 1]을 기반으로 색상 데이터를 보간할 수 있다.
C 도 C# 도# D 레 D# 레# E 미 F 파 F# 파# G 솔 G# 솔# A 라 A# 라# B 시
8 #B8B8E6 #C0C0F0 #CCCCFF #CCE9E3 #CCFFCC #FFFFCC #FFF2CC #FFE6CC #FFDCCC #FFCCCC #FFCCE8 #F2DAF2
7 #7A7ACC #8787E0 #9999FF #99CFCC #99FF99 #FFFF99 #FFE699 #FFCC99 #FFB399 #FF9999 #F090C2 #E6B8E6
6 #4747B3 #5454D1 #6666FF #66B5B0 #66FF66 #FFFF66 #FFD966 #FFB366 #FF8C66 #FF6666 #E05A9F #CC7ACC
5 #1F1F99 #2727C2 #3333FF #339C96 #33FF33 #FFFF33 #FFCC33 #FF9933 #FF6333 #FF3232 #D12A80 #B347B3
4 #000080 #0000C2 #0000FF #00827D #00FF00 #FFFF00 #FFC200 #FF7F00 #FF4200 #FF0000 #C20063 #991F99
3 #000066 #00009C #0000CC #006864 #00CC00 #CCCC00 #CC9B00 #CC6600 #CC3500 #CC0000 #A30053 #800080
2 #00004D #000075 #000099 #004E4B #009900 #999900 #997400 #994D00 #992800 #990000 #800041 #660066
1 #000033 #00004D #000066 #003432 #006600 #666600 #664E00 #663300 #661B00 #660000 #59002E #4D004D
0 #000019 #000028 #000033 #001A19 #003300 #333300 #332700 #331900 #330D00 #330000 #33001A #330033
즉, [표 1]은 옥타브 및 음을 기반으로 헥스코드를 대응시킬 수 있다.
다만, 표 1에서의 옥타브 또는 음 또는 헥스코드는 예시적인 것으로 실시예에 따라 또는 사용자의 설정에 따라 변경될 수 있음을 통상의 기술자에게 자명하다.
다른 일 실시예에 따른 색상 변환부(240)는 전자기파 대역에서 소리로 표현되는 16Hz~20000Hz에 해당하는 가청 주파수와 색상으로 표현되는 380THz~770THz에 해당하는 가시광선 주파수를 매치하였을 때 "도, 미, 솔"과 "빨간색, 초록색, 파란색)"의 주파수 비율(1, 5/4, 3/2)을 일치시키고, 해당 주파수 비율에 따라 도출된 소리와 색상의 상관 관계를 소리의 3요소(음정, 음의 세기, 음의 높낮이)와 HSB 색상 시스템의 3요소(색조, 채도, 밝기)에 대응시킴으로써 각 음에 대한 색상을 결정할 수 있다.
예를 들어, HSB 색상 시스템의 색조(Hue)는 [H. 0°~ 360°표기] 음정으로 반영되며, 12음계 기준(세계 표준 음률 기준)으로 매치하였을 때 각 한 음은 아래 표 2와 같이 30도씩 그룹화하여 수치화 될 수 있다.
C C# D D# E F F# G G# A A# B
0 (=360) 30 60 90 120 150 180 210 240 270 300 330
HSB 색상 시스템의 채도(Saturation)는 [S. 0%~100%] 음의 세기로 반영되고, 아래 표 3와 같이 19단계(accent, crescendo 등 다양한 표현 요소를 포괄할 수 있는 기준으로 구분)로 나누어 수치화 할 수 있다.
HSB 색상 시스템의 명도(Brightness)는 [B. 0%~100%] 음의 높낮이로 반영되어, 아래 표 4와 같이 7개의 옥타브로(대부분의 음역대를 표현할 수 있는 피아노 건반(88개) 기준) 분류하여 수치화할 수 있다.
다만, 표 2 내지 표 4에서 수치는 예시적인 것으로 실시예에 따라 변경될 수 있음은 통상의 기술자에게 자명하다.
일 실시예에 따른 상기 전처리부(미도시)는 인공지능이 인식하기 용이한 형태로 악보 이미지 데이터를 처리할 수 있다. 전처리부(미도시)는 악보 이미지 데이터의 화질개선, 회전, 추출영역, 노이즈 제거 등의 인식율을 향상시키기 위한 이미지 처리가 수행된 후 수정 악보 이미지 데이터를 생성할 수 있다. 상기 전처리부(미도시)는 구체적으로 악보 이미지 데이터에서 유효 영역 추출(crop), 밝기 조절(Brightness adjustment), 화질 개선(Image enhancement), 노이즈 제거(Noise removal) 및 색상 보정(Hue Adjustment) 중 적어도 하나의 단계가 수행되도록 구성될 수 있다. 물론 악보 이미지 데이터가 인식이 매우 용이한 정도의 양질로 스캔된 경우 전술한 단계가 생략될 수 있다. 그러나 일반적인 악보 이미지 데이터의 경우 전술한 전처리 중 적어도 하나가 수행되어 인식률을 높일 수 있다.
일 실시예에 따른 상기 전처리부(미도시)의 색상 보정의 경우 악보에서 사용되는 색상으로서 RGB 값으로 0, 0, 0(검은색) 과 255, 255, 255(흰색)으로 화면에 표출되는 색상을 보정 처리할 수 있다.
다른 일 실시예에 따른 상기 전처리부(미도시)는 악보 이미지 데이터 내에 모든 픽셀의 분산이 최소가 되도록 기준을 설정하고, 설정한 기준을 이용하여 악보 이미지 데이터를 이진화할 수 있다.
또 다른 일 실시예에 따른 상기 전처리부(미도시)는 상기 획득한 악보 이미지 데이터가 컬러 이미지일 경우, 그레이 스케일로 변환하고 이진화를 진행할 수 있다.
도 4는 일 실시예에 따른 인공지능 기반의 전자 악보 변환 방법을 예시적으로 설명하기 위한 순서도이다.
도 4를 참조하면, 전자 악보 변환 장치(200)는 입력되는 악보 이미지 데이터로부터 소정치 이하의 그레이스케일 크기를 갖는 제1 점을 추출하고(S410), 제1 점으로부터 소정 거리 내에 존재하는 제2 점을 추출하고(S420), 제1 점과 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들의 존재 여부에 따라 오선을 구성하는 직선을 검출하고(S430), 검출된 오선 각각으로부터의 소정 거리 내에 존재하는 점들을 검출하고(S440), 인식된 옥타브표에 기반하여 악보 내의 제1 마디에 연관되는 기준 옥타브를 결정하고(S450), 기준 옥타브에 대한 색상 데이터의 헥스코드를 결정하고(S460), 마디 내에 포함되는 음표들에 대한 색상 데이터를 결정할 수 있다(S470).
단계(S410)에서, 사용자 단말(300) 또는 외부서버(400)로부터 수신하여 입력된 악보 이미지 데이터로부터 소정치 이하의 그레이스케일 크기를 갖는 제1 점을 추출한다.
다른 일 실시예에 따른 단계(S410)은 사용자 단말 또는 외부서버(400)로부터 수신하여 입력된 악보 이미지 데이터로부터 소정치에 대응하는 그레이스케일 크기를 갖는 제1 점을 추출할 수 있다.
단계(S420)에서, 추출된 상기 제1 점으로부터 소정 거리 내에 존재하는 제2 점을 추출한다.
단계(S430)에서, 상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들의 존재 여부에 따라 직선을 검출한다.
상기 직선 내에 미리 지정된 개수의 점들이 존재하면 오선을 구성하는 제1 선으로 검출하고, 상기 제1 선의 소정 기울기와 소정 크기의 그레이스케일이 평행 이동하여 오선을 구성하는 복수의 직선을 검출할 수 있다.
일 실시예에 따른 단계(S430)는 오선 상의 마디를 검출하는 단계를 더 포함할 수 있다, 상기 마디는 검출된 상기 오선으로부터 직각 방향으로 존재하는 그레이스케일 크기의 복수의 점을 통해 검출할 수 있다.
단계(S440)에서, 오선 검출부(220)에 따라 검출된 오선 각각으로부터의 소정 거리 내에 존재하는 복수의 점을 검출한다.
검출된 상기 복수의 점들로부터 음표를 포함하는 악상기호의 위치 또는 높낮이를 검출할 수 있다. 검출된 상기 악상기호의 위치를 기반으로 상기 복수의 점의 음표나 악상 기호로서 검출할 수 있다.
다른 일 실시예에 따른 단계(S430)에서 CRNN(Convolution Recurrent Neural Network), RNN, LSTM 및 CTC loss 알고리즘을 이용하여 학습시키거나 학습에 도움을 통해 음표를 포함하는 악상 기호를 검출할 수 있다.
구체적으로 CNN(Convolutional Neural Network)을 이용하여 인공지능이 음악기호의 특징을 추출할 수 있다. 이를 통해 마디 이미지로부터 시퀀스 데이터를 생성할 수 있게 된다.
또한 학습 시 RNN(Recurrent Neural Network)의 입력 시퀀스의 길이가 길어질수록 성능이 떨어지는 문제를 보완하기 위한 네트워크로서 LSTM(Long Short-Term Memory)을 이용할 수 있게 된다. 따라서 장기 기억 부분과 단기 기억 부분으로 나누어 입력 시퀀스의 길이가 길어지더라도 악보로부터 음악 기호를 잘 예측할 수 있게 된다.
한편, CTC loss 적용 처리시는 학습 데이터에 클래스 라벨만 순서대로 있고, 각 클래스의 위치는 어디 있는지 모르는 unsegmented 시퀀스 데이터 학습을 위해 사용될 수 있다. 따라서 인식된 각각의 음악 기호들에 대하여 일정한 순서를 결정할 수 있게 된다.
단계(S450)에서, 사용자 단말(300) 또는 외부서버(400)로부터 수신하여 인식된 옥타브표에 기반하여 악보 내의 제1 마디에 연관되는 기준 옥타브를 결정한다.
단계(S460)에서, 상기 기준 옥타브에 대한 색상 데이터의 헥스코드를 결정한다.
상기 헥스코드는 상기 [표 1]을 기초하여 결정할 수 있다.
단계(S470)에서, 음표 검출부(230)로부터 검출된 마디 내에 포함되는 음표들에 대한 색상 데이터를 결정한다.
상기 색상 데이터는 16진수 표기법인 헥스코드로 표기될 수 있으며, 다른 일 실시예에 따라 10진수 표기법인 RGB(Red, Green, Blue) 데이터, RGBA(Red, Green, Blue, Alpha), HSV(Hue: 색, Saturation: 채도, Value: 명도) 표기법 또는 HSL(Hue: 색, Saturation: 채도, Lightness: 명도), HSLA(Hue: 색, Saturation: 채도, Lightness: 명도, Alpha: 투명도), CMYK(Cyan Magenta Yellow Key)를 포함하는 다양한 표기법으로 표기될 수 있다.
도 5는 일 실시예에 따른 오선 검출부에서 오선을 검출하기 위한 방법을 예시적으로 설명하기 위한 도면이다.
도 5를 참조하면, 상기 오선 검출부(220)는 수신한 악보 이미지 데이터로부터 소정 크기 이하의 그레이스케일 크기의 복수의 점(510, 520, 530)을 추출할 수 있다. 추출된 상기 복수의 점을 연결한 직선(540, 550) 내에 점의 유무에 기초하여 오선을 구성하는 선을 검출할 수 있다.
상기 악보 이미지 데이터에서 추출된 그레이스케일 크기를 가지는 복수의 점(510, 520, 530)들 중 제1 점(510)과 소정 거리 내에 존재하는 제2 점(520)을 연결한 제1 선(540) 내에 미리 정해진 그레이스케일 크기를 가진 복수의 점들이 존재하면 오선을 구성하는 제1 선(540)으로 검출한다. 상기 악보 이미지 데이터에서 출력된 제3 점(530)과 제1 점(510)을 연결한 직선(550) 내에 미리 정해진 그레이스케일 크기를 가지는 복수의 점들이 존재하지 않으면 오선을 구성하는 선이 아닌 것으로 검출할 수 있다. 검출된 상기 제1 선(540)의 기울기를 기준으로 소정 크기만큼 평행 이동하여 그레이스케일 크기의 유사도가 기준치 이상되는 제2 선(560)을 오선을 구성하는 복수의 선으로 검출할 수 있다.
도 6a는 일 실시예에 따른 음의 조성을 보간하기 전 주파수에 대응하는 헥스코드를 예시적으로 설명하기 위한 도면이다.
도 6b는 일 실시예에 따른 음의 조성을 보간을 한 후 주파수에 대응하는 헥스코드를 예시적으로 설명하기 위한 도면이다.
도 6a 및 도 6b를 참조하면, 일반적인 옥타브 범위인 0옥타브부터 8옥타브까지의 옥타브 범위에서 4옥타브를 기준 옥타브로 설정하고, 설정된 기준 옥타브의 대표음(도, 레, 미, 파, 솔, 라, 시)들에 대응하는 주파수를 추출하고, 추출된 상기 주파수에 대응되는 상기 대표음 각각의 헥스코드를 설정한다.
상기 대표음을 기반으로 샵음(#), 플랫음(♭)등의 음의 변화 또는 옥타브가 변화하는 소정 비율에 따라 주파수 및 상기 주파수에 대응하는 헥스코드를 보간하는 단계를 통해서 각각의 옥타브에 대응하는 음들과 대응하는 색상 데이터를 결정할 수 있다.
상기 색상 데이터는 옥타브가 높아지면 명도가 높아지는 것을 특징으로 할 수 있다.
도 7a는 일 실시예에 따른 전자 악보 편집을 제공하기 위한 화면을 예시적으로 나타내기 위한 도면이다.
도 7b는 일 실시예에 따른 전자 악보 목록을 제공하기 위한 화면을 예시적으로 나타내기 위한 도면이다.
도 7c는 일 실시예에 따른 전자 악보를 통해 추출되는 오디오를 믹싱(mixing)하기 위한 화면을 예시적으로 나타내기 위한 도면이다.
도 7a 내지 도 7c를 참조하면, 사용자 단말(300)을 통해 전자 악보를 생성 또는 편집할 수 있는 화면을 제공할 수 있다.
전자 악보를 생성하기 위한 화면 상에는 오선(710) 및 미리 저장된 음표를 포함하는 악상기호 리스트(720)를 통해 사용자가 전자 악보를 생성 또는 편집할 수 있다.
다른 일 실시예에 따르면 사용자 단말(300) 또는 외부서버(400)에 저장된 음원 데이터 또는 악보 데이터를 기반으로 전자 악보를 생성할 수 있다.
상기 음원 데이터는 가수, 가사, 악기, 비트, 템포, 리듬, 이펙트, 코러스 중 적어도 하나의 정보를 포함할 수 있다.
다른 일 실시예에 따르면 음정, 음의 세기, 음의 높이, 파장, 음악의 박자, 소리, 마디, 길이, 조, 악기의 종류(피아노, 기타, 드럼, 색소폰, 바이올린, 플루트, 등을 포함하는 현악기, 관악기, 타악기, 건반악기), 악기의 수, 세션 중 적어도 하나를 포함하는 정보를 믹싱부(740)를 통해 사용자가 수정함으로써 전자 악보를 편집할 수 있다.
상기 믹싱부(740)가 수행하는 믹싱이란 곡을 구성하는 각각의 트랙의 주파수, 다이나믹, 공간감 등을 조절하여 조화로운 사운드로 다듬어주는 작업을 말한다. 주체는 믹싱엔지니어이며 믹싱은 엔지니어의 음악적인 소양을 바탕으로 한 음향기술의 역량이 매우 중요한 단계이다. 믹싱엔지니어는 각 트랙별 음원을 여러 가지 이펙터들을 통하여 조화롭게 어우러지도록 만드는데, 각각의 트랙이 조화롭게 어우러진다는 것은 곡을 구성하는 악기들이 서로 충돌되지 않고 골고루 각각의 위치를 지키도록 만들어 주는 것이다. 각 악기는 고음역대와 저음역대, 중음역대 등등 전 주파수에 골고루 분포해야하며 다이나믹과 공간감 등을 이용하여 큰 음량과 작은 음량의 악기가 조화롭게 존재하도록 한다. 스피커의 좌우에 소리들이 균형있게 분배되도록 조절하는 등의 조절을 마치면 트랙은 믹싱엔지니어에 의해 2채널로 정리되어 마스터링스튜디오로 보내어진다.
일 실시예에 따른 상기 믹싱부(740)는 적어도 하나의 악기에서 발생되는 연주신호(E, B)에 디스토션(distortion), 코러스(chorus), 오버드라이브(overdrive), 리벌브(reverb), 딜레이(delay), 플렌져(flanger), 에코(echo)를 포함하는 음향효과를 부가한 연주신호(E_1, B_1)를 상기 믹싱부(750)에 제공하기 위한 것이다.
생성 또는 편집된 상기 전자 악보를 재생 또는 일시정지를 하기 위한 재생부(750)는 재생 또는 일시정지, 빨리 감기, 건너뛰기, 음량 조절, 음소거(mute), 다음 곡 재생, 이전 곡 재생, 자동 페이지 넘김 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 상기 전자 악보는 사용자 단말(300)에서 외부서버(400)로 업로드할 수 있고, 외부서버(400)로 접속하여 상기 외부서버(400)에 저장된 타인이 생성 또는 편집한 전자 악보를 열람, 다운로드(download) 또는 공유(share)할 수 있다.
이상에서 설명된 실시 예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시 예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시 예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시 예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (5)

  1. 악보 편집을 지원하는 컴퓨팅 장치에 있어서,
    적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    입력되는 악보 이미지 데이터로부터 소정치 이하의 그레이스케일 크기를 갖는 제1 점을 추출하고, 상기 제1 점으로부터 소정 거리 내에 존재하는 제2 점을 추출하고, 상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들의 존재 여부에 따라 직선을 검출하는 오선 검출부;
    상기 오선 검출부에 따라 검출된 오선 각각으로부터의 소정 거리 내에 존재하는 점들을 검출하는 음표 검출부; 및
    인식된 옥타브표에 기반하여 상기 악보 내의 제1 마디에 연관되는 기준 옥타브를 결정하고, 상기 기준 옥타브에 대한 색상 데이터의 헥스코드를 결정하고, 마디 내에 포함되는 음표들에 대한 색상 데이터를 결정하는 색상 변환부
    를 포함하는 악보 편집을 지원하는 컴퓨팅 장치.
  2. 제1항에 있어서,
    상기 오선 검출부는,
    상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들이 존재하지 않으면, 상기 제1 점으로부터 소정 거리 내에 존재하는 제3 점을 다시 추출하고,
    상기 제1 점과 상기 제2 점을 연결하는 직선 내에 미리 지정된 개수의 점들이 존재하면, 상기 제1 점과 상기 제2 점을 연결하는 선을 악보에 포함되는 오선 중 하나로 결정하는 것을 특징으로 하는 악보 편집을 지원하는 컴퓨팅 장치.
  3. 제2항에 있어서,
    상기 오선 검출부는,
    상기 오선 중 하나인 제1 선이 검출된 경우에, 상기 제1 선의 기울기를 기준으로 소정 크기 평행이동하여 그레이스케일 크기의 유사도가 기준치 이상되는 복수의 선들을 오선으로서 검출하는 악보 편집을 지원하는 컴퓨팅 장치.
  4. 제1항에 있어서,
    상기 색상 변환부는,
    미리 저장된 룩업-테이블을 포함하고,
    상기 기준 옥타브에 대응하는 대표음의 주파수를 기준으로 플랫음 또는 샵음에 대한 주파수 차이에 대응하는 비율을 상기 색상 데이터에 적용함으로써 상기 플랫음 또는 상기 샵음에 대한 색상 데이터를 보간하는 악보 편집을 지원하는 컴퓨팅 장치.
  5. 제4항에 있어서,
    상기 룩업-테이블은 세로축이 옥타브를 나타내고, 가로축은 음 이름을 나타내는 아래의 표에 대응되는 것을 특징으로 하는,
    [표 1]

    악보 편집을 지원하는 컴퓨팅 장치.
KR1020230044342A 2022-04-04 2023-04-04 인공지능 기반의 전자 악보 변환 방법 및 장치 KR102595763B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220041583 2022-04-04
KR1020220041583 2022-04-04

Publications (2)

Publication Number Publication Date
KR20230143581A KR20230143581A (ko) 2023-10-12
KR102595763B1 true KR102595763B1 (ko) 2023-10-31

Family

ID=88291682

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230044342A KR102595763B1 (ko) 2022-04-04 2023-04-04 인공지능 기반의 전자 악보 변환 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102595763B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102306765B1 (ko) 2021-02-17 2021-09-30 쿤크리에이터스 주식회사 인공지능 프로세싱을 이용한 악보 인식 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160011326A (ko) 2014-07-21 2016-02-01 문태훈 전자 악보 편집 시스템 그 제공방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102306765B1 (ko) 2021-02-17 2021-09-30 쿤크리에이터스 주식회사 인공지능 프로세싱을 이용한 악보 인식 방법

Also Published As

Publication number Publication date
KR20230143581A (ko) 2023-10-12

Similar Documents

Publication Publication Date Title
US7345236B2 (en) Method of automated musical instrument finger finding
Elliott et al. Acoustic structure of the five perceptual dimensions of timbre in orchestral instrument tones
JP2020003537A (ja) オーディオ抽出装置、学習装置、カラオケ装置、オーディオ抽出方法、学習方法及びプログラム
US10600397B2 (en) Musical score generator
US10553188B2 (en) Musical attribution in a two-dimensional digital representation
US20180082606A1 (en) Apparatus to detect, analyze, record, and display audio data, and method thereof
US8912421B2 (en) Chord-playing instruction device, chord-playing instruction method, and recording medium
CN111429940A (zh) 一种基于深度学习的实时音乐转录与曲谱匹配方法
Schubert et al. Voicelikeness of musical instruments: A literature review of acoustical, psychological and expressiveness perspectives
Dinther et al. Perception of acoustic scale and size in musical instrument sounds
US7504572B2 (en) Sound generating method
KR102595763B1 (ko) 인공지능 기반의 전자 악보 변환 방법 및 장치
US10298192B2 (en) Sound processing device and sound processing method
Abeßer et al. Deep learning for jazz walking bass transcription
JP2020021098A (ja) 情報処理装置、電子機器及びプログラム
JPH05173557A (ja) 自動採譜装置
WO2019087331A1 (ja) 基準位置検出装置および基準位置検出方法
JP4611649B2 (ja) Web解析型音楽装置
KR20110121049A (ko) 이미지를 이용한 음원 생성 시스템 및 방법
US11145283B2 (en) Methods and systems for vocalist part mapping
Barthet et al. On the effect of reverberation on musical instrument automatic recognition
KR101007227B1 (ko) 이미지를 이용한 음원 생성 시스템 및 방법
WO2020110724A1 (ja) 音響解析方法、音響解析装置、およびモデル構築方法
CN109658356B (zh) 弦轴箱除尘控制平台
Reymore et al. Identifying the perceptual dimensions of musical instrument timbre

Legal Events

Date Code Title Description
GRNT Written decision to grant