KR102541599B1 - 디지털 악보 관리 시스템 및 방법 - Google Patents

디지털 악보 관리 시스템 및 방법 Download PDF

Info

Publication number
KR102541599B1
KR102541599B1 KR1020210094743A KR20210094743A KR102541599B1 KR 102541599 B1 KR102541599 B1 KR 102541599B1 KR 1020210094743 A KR1020210094743 A KR 1020210094743A KR 20210094743 A KR20210094743 A KR 20210094743A KR 102541599 B1 KR102541599 B1 KR 102541599B1
Authority
KR
South Korea
Prior art keywords
sheet music
digital
score
music
information
Prior art date
Application number
KR1020210094743A
Other languages
English (en)
Other versions
KR20230013815A (ko
Inventor
서미현
Original Assignee
주식회사 휴머닛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 휴머닛 filed Critical 주식회사 휴머닛
Priority to KR1020210094743A priority Critical patent/KR102541599B1/ko
Publication of KR20230013815A publication Critical patent/KR20230013815A/ko
Application granted granted Critical
Publication of KR102541599B1 publication Critical patent/KR102541599B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • G10G1/02Chord or note indicators, fixed or adjustable, for keyboard of fingerboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/375Tempo or beat alterations; Music timing control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/005Data structures for use in electrophonic musical devices; Data structures including musical parameters derived from musical analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 디지털 악보 관리 시스템은 사용자단말기에 실행되는 뮤직관리앱을 통하여 요청된 악보정보에 대해 디지털 악보 변환 및 생성된 디지털 악보를 제공하고, 디지털 악보에 대한 편집, 공유, 뮤직 재생 기능을 제공하는 관리서버를 포함하되, 상기 관리서버는 상기 악보정보의 이미지 학습을 통해 악보정보에 포함된 객체를 인식하여 디지털 악보 변환을 수행하며, 상기 악보정보는 음표, 쉼표, 오선지의 음표 위치, 조성, 코드, 계이름, 가사(텍스트) 중 적어도 어느 하나를 포함할 수 있다.

Description

디지털 악보 관리 시스템 및 방법{Digital sheet music management system and method}
본 발명은 디지털 악보 관리 시스템 및 방법에 관한 것으로, 더욱 상세하게는 뮤직관리앱을 통하여 요청된 악보정보에 대해 디지털 악보 변환 및 생성된 디지털 악보를 제공할 수 있는 디지털 악보 관리 시스템 및 방법에 관한 것이다.
종이악보가 많아질수록 무게는 늘어가고 연주정보에 대한 잦은 메모로 악보 훼손, 악보 편곡 불가능 등의 종이악보의 문제점을 보완할 필요가 있다.
최근 클라우드 기반 스트리밍 서비스로 언제 어디서든 악보를 찾아볼 수 있고, 사용자가 가지고 있는 이미지 악보를 스캔하여 사용할 수 있는 서비스를 제공하고 있다.
그러나, 기존의 서비스에서는 단순히 악보에 대한 정보만으로 출력하여 제공하고, 악보 메모 편집 기능, 편집된 악보의 공유, 공유된 악보를 이용한 시연(동기화 필요) 기능 등 사용자 편의 기능을 다양하게 제공해주지 못해 서비스 만족도나 질이 떨어지는 문제가 있었다.
또한, 디지털 악보 생성시에도 악보의 이미지를 생성하는 과정에서 음표나 쉼표 등이 누락되거나 잘못 오기재되는 경우가 빈번하여 신뢰도가 낮은 문제가 있었다.
따라서, 전술한 문제를 해결하기 위하여 디지털 악보 생성시 신경망 학습에 의해 이루어지고, 다양한 사용자 편의 기능을 제공할 수 있는 디지털 악보 관리 시스템 및 방법에 대한 연구가 필요하게 되었다.
한국등록특허 제10-1168510호(2012년07월18일 등록)
본 발명의 목적은 디지털 악보 생성시 신경망 학습에 의해 이루어지고, 다양한 사용자 편의 기능으로서, 뮤직관리앱을 통하여 요청된 악보정보에 대해 디지털 악보 변환 및 생성된 디지털 악보를 제공하고, 디지털 악보에 대한 편집, 공유, 뮤직 재생 기능을 제공할 수 있는 디지털 악보 관리 시스템 및 방법을 제공하는 것이다.
본 발명의 일 실시예에 따른 디지털 악보 관리 시스템은, 사용자단말기에 실행되는 뮤직관리앱을 통하여 요청된 악보정보에 대해 디지털 악보 변환 및 생성된 디지털 악보를 제공하고, 디지털 악보에 대한 편집, 공유, 뮤직 재생 기능을 제공하는 관리서버를 포함하되, 상기 관리서버는 상기 악보정보의 이미지 학습을 통해 악보정보에 포함된 객체를 인식하여 디지털 악보 변환을 수행하며, 상기 악보정보는 음표, 쉼표, 오선지의 음표 위치, 조성, 코드, 계이름, 가사(텍스트) 중 적어도 어느 하나를 포함한다.
상기 관리서버는 상기 사용자단말기에 실행되는 뮤직관리앱과 연동하기 위해 적어도 하나 이상의 호환되는 응용 프로그램을 제어할 인터페이스인 API를 포함하는 앱연동부; 상기 악보정보를 토대로 악보에 포함된, 음표, 쉼표, 오선지의 음표 위치, 조성, 코드, 계이름, 가사(텍스트)에 따라 인식하고, 디지털 악보의 오선지로 옮겨 디지털 악보로 변환시키는 악보변환부; 디지털 악보로 변환된 악보에 대한 관리 서비스를 제공하며, 뮤직관리앱을 통하여 악보 편집 기능을 제공하고, 편집된 악보의 공유 기능을 통하여 요청된 팀원, 친구나 지인이 소지한 사용자단말기와 해당 악보에 대한 다운로드 권한을 제공하여 공유하는 악보관리부; 수집된 악보정보, 디지털 악보, 개인정보, 결제정보, 이벤트정보에 대해서 개인별로 통계자료를 생성하여 제공하는 통계학습부; 악보정보, 디지털 악보, 개인정보, 결제 정보를 저장하는 데이터베이스를 포함한다.
상기에 있어서, 상기 악보변환부는 이미지 형태의 악보정보로부터 원하는 객체(음표, 쉼표 등)를 인식하기 위해 인공지능 학습 알고리즘인 객체 인식 알고리즘에 의해 학습함으로써, 해당 객체를 정확히 인식하고 추출하며, 각 악보에 포함된 객체 단위로 세분화하여 디지털 악보의 악보정보를 변환하는 작업은 악보정보의 이미지 전처리 과정(객체 인식할 수 있도록 해상도와 밝기 등 이미지 조정 및 이미지 포멧 변환 과정)과, 악보정보 분석 과정, 분석 결과에 대한 후처리(악보 변환) 과정, 결과(변환된 디지털 악보) 출력 과정을 거치는 것을 특징으로 한다.
상기 악보관리부는 해당 디지털 악보에 대한 뮤직 재생 기능을 제공하여 비트(리듬)에 맞춰 악기 시연을 수행할 수 있으며, 각각의 연주자들의 연주시 메트로놈(박자)을 맞추기 위해 통신 지연에 따른 시간 동기화 기능을 제공한다.
본 발명의 일 실시예에 따른 디지털 악보 관리 방법은, 사용자단말기에서 실행되는 뮤직관리앱과 연동하여 디지털 악보 관리 기능을 제공하는 디지털 악보 관리 방법에 있어서, 상기 사용자단말기에서 뮤직관리앱이 실행되는 단계; 실행된 뮤직관리앱은 관리서버에 악보정보를 제공하여 디지털 악보 변환 생성을 요청하는 단계; 상기 관리서버 또는 뮤직관리앱은 사용자 요청된 악보정보를 토대로 디지털 악보 변환을 수행하는 단계; 변환이 모두 완료되면, 변환된 디지털 악보를 사용자단말기 화면에 출력하여 제공하고, 사용자단말기는 제공받은 디지털 악보에 대한 편집 기능을 수행하는 단계를 포함한다.
상기에 있어서, 또한 사용자 요청에 따라 디지털 악보에 대한 공유 서비스를 제공받아 적어도 하나 이상의 사용자단말기에 해당 디지털 악보를 제공하여 공유하는 단계; 또한 공유된 악보에 대해서 악보에 대한 뮤직 재생을 수행할 수 있으며, 악보 공유를 통하여 시연을 진행하는 경우, 박자 동기화를 위해 통신 지연을 고려한 오차 보정을 통하여 메트로놈 동기화 기능을 제공하는 단계를 더 포함한다.
상기 디지털 악보 관리 방법은, 컴퓨터에서 실행 가능한 기록매체에 저장된 어플리케이션에 의해 수행된다.
본 발명에 의하면, 이미지 형태의 악보정보로부터 원하는 객체(음표, 쉼표 등)를 인식하기 위해 인공지능 학습 알고리즘인 객체 인식 알고리즘에 의해 학습함으로써, 해당 객체를 정확히 인식하고 추출할 수 있으며, 학습을 통해 누락, 오기재 등에 대한 오류를 줄이고, 완성도 높은 디지털 악보를 생성할 수 있는 장점이 있다.
또한, 뮤직관리앱을 통하여 요청된 악보정보에 대해 디지털 악보 변환 및 생성된 디지털 악보를 제공하고, 디지털 악보에 대한 편집, 공유, 뮤직 재생 기능을 제공하여 디지털 악보 생성시 신경망 학습에 의해 이루어짐으로써, 다양한 사용자 편의 기능을 제공하여 디지털 악보 관리 및 활용에 도움을 줄 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 디지털 악보 관리 시스템의 구성을 보인 블록도이다.
도 2는 도 1의 디지털 악보 관리 시스템의 세부 구성을 보인 블록도이다.
도 3은 도 2의 악보변환부의 세부 구성을 보인 블록도이다.
도 4는 본 발명의 일 실시예에 따른 디지털 악보 관리 방법의 순서도이다.
도 5는 뮤직관리앱을 통하여 디지털 악보 변환 과정 예시를 보여주는 도면이다.
도 6은 뮤직관리앱을 통하여 메모 편집 기능을 제공하는 예시를 보여주는 도면이다.
도 7은 디지털 악보 생성시 음표 구분 및 판단 과정을 설명한 예시를 보여주는 도면이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.
본 명세서에서 ‘사용자단말기(100)’는 휴대성 및 이동성이 보장된 무선 통신 장치일 수 있으며, 예를 들어 스마트폰, 태블릿 PC 또는 노트북 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치일 수 있다. 또한, ‘사용자단말기(100)’는 통신망(300)을 통해 다른 단말기 또는 서버 등에 접속할 수 있는 PC 등의 유선 통신 장치인 것도 가능하다. 또한, 통신망(300)은 단말기들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷(WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다.
무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
도 1은 본 발명의 일 실시예에 따른 디지털 악보 관리 시스템의 구성을 보인 블록도이며, 도 2는 도 1의 디지털 악보 관리 시스템의 세부 구성을 보인 블록도이며, 도 3은 도 2의 악보변환부의 세부 구성을 보인 블록도이다.
본 발명의 디지털 악보 관리 시스템은 도 1에 도시된 바와 같이, 사용자단말기(100)에서 실행되는 뮤직관리앱(110)과 통신망(300)을 통하여 연동하는 관리서버(200)를 포함한다.
여기서 뮤직관리앱(110)은, 관리서버(200)에서 제공하는 디지털 악보 생성 및 관리에 대한 전반적 서비스를 제공하는 어플리케이션으로서, 상술한 다양한 단말기에서 실행될 수 있는 어플리케이션이며, 관리서버(200)는 제공한 단말기에 따라 다양한 버전이나 형태로 어플리케이션을 제공할 수 있다.
관리서버(200)는 뮤직관리앱(110)을 통하여 요청된 악보정보에 대해 디지털 악보 변환 및 생성된 디지털 악보를 제공하고, 디지털 악보에 대한 편집, 공유, 뮤직 재생 기능 등을 제공한다.
또한 관리서버(200)는 웹기반으로 홈페이지를 통하여 악보정보에 대해 디지털 악보 변환 및 생성된 디지털 악보를 제공하고, 디지털 악보에 대한 편집, 공유, 뮤직 재생 기능 등을 제공할 수도 있다.
또한 관리서버(200)는 상술한 기능을 수행하기 위해 도 2를 참조하면, 앱연동부(210), 악보변환부(220), 악보관리부(230), 통계학습부(240) 및 데이터베이스(250)를 더 포함한다.
앱연동부(210)는 사용자단말기(100)에 실행되는 뮤직관리앱(110)과 연동하기 위해 적어도 하나 이상의 호환되는 응용 프로그램을 제어할 인터페이스인 API를 포함할 수 있다.
여기서 API(Application Programming Interface, 응용 프로그램 프로그래밍 인터페이스)는 응용 프로그램에서 사용할 수 있도록, 운영 체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스를 의미하며, 본 발명에서는 뮤직관리앱(110)과 관리서버(200) 프로그램 간에 연동하여 디지털 악보 생성 요청, 변환, 변환된 악보 출력(표시), 악보 편집, 악보 공유, 뮤직 재생 기능 등을 위한 사용자 인터페이스를 제공할 수 있다.
악보변환부(220)는 이미지 형태로 이루어진 악보정보로부터 디지털 악보로 변환하는 기능을 수행한다.
악보정보는 사용자가 뮤직관리앱(110)을 통하여 제공할 수 있으며, 예컨대 종이 악보의 스캔본이나 수기로 작성된 악보 등이 될 수 있다.
악보변환부(220)는 악보정보를 토대로 악보에 포함된, 음표, 쉼표, 오선지의 음표 위치, 조성, 코드, 계이름, 가사(텍스트) 등에 따라 인식하고, 디지털 악보의 오선지로 옮겨 도 5와 같이 디지털 악보로 변환시킬 수 있다.
이와 같이 이미지 형태의 악보정보로부터 원하는 객체(음표, 쉼표 등)를 인식하기 위해 인공지능 학습 알고리즘인 객체 인식 알고리즘에 의해 학습함으로써, 해당 객체를 정확히 인식하고 추출할 수 있다.
각 악보에 포함된 객체 단위로 세분화하여 디지털 악보의 악보정보를 변환하는 작업은 악보정보의 이미지 전처리 과정(객체 인식할 수 있도록 해상도와 밝기 등 이미지 조정 및 이미지 포멧 변환 과정)과, 악보정보 분석 과정, 분석 결과에 대한 후처리(악보 변환) 과정, 결과(변환된 디지털 악보) 출력 과정 등 여러 단계를 거처 최종 분석 결과를 도출하며, 이를 위해 도 3을 참조하면, 악보변환부(220)는 전처리부(221), 분석부(222), 후처리부(223), 이미지학습부(224), 결과제공부(225)를 더 포함할 수 있다.
특히 악보정보 분석 과정에서는 예를 들어 객체 인식 알고리즘에서 미리 음표이미지를 학습시키고, 도 7과 같은 음표 종류 구분 및 판단 과정을 거쳐 음표를 인식할 수 있으며, 음표 이외에도 정해진 알고리즘에 의해 객체들을 인식할 수 있다.
또한 상술한 악보 변환의 구체적 과정이 1 싸이클(Cycle)로 이루어져 완전한 디지털 악보를 생성하며, 도 5에는 악보 완성 퍼센트로 생성하는데 걸리는 시간을 도시하고 있으며, 악보정보량에 따라 악보당 분석 총 소요시간이 오래 걸릴 수 있다.
그런데 앱이나 웹을 통하여 다중 사용자가 악보 변환 서비스를 사용할 경우 1 싸이클 과정이 완료될 때까지 다른 사용자들은 대기 상태에 있게 되어 업무 효율성이 현저히 떨어지게 되므로, 관리서버(200)는 이를 해결하기 위하여 다공정(Multi-Process) 개념을 도입한다.
즉 각 단계를 독립된 과정으로 분리하여 한 사용자의 1 분석 Cycle이 진행되는 도중에도 시차를 두고 중복되지 않는 다른 단계의 과정을 수행시킴으로써, 분석 소요시간을 줄여 효율을 증가시킬 수 있다.
나아가, 이와 같은 다공정 개념은 다량의 업무 집중시에 각 단계 처리 과정을 각각 다른 서버로 처리하는 다중 서버 처리 시스템으로도 확장하여 관리할 수도 있다.
나아가 악보변환부(220)는 구체적으로 예를 들어 악보정보의 이미지로부터 객체 인식 알고리즘인 CNN 알고리즘을 적용하여 객체를 인식할 수 있다.
CNN 알고리즘은 합성곱 연산을 통하여 객체를 인식시키는 신경망 알고리즘으로, 본 발명에서는 특히 객체 위치를 검출하는데 탁월하도록 딥러닝 회귀 방법을 사용한 R-CNN(Region-based Convolutional Neural Networks) 알고리즘을 이용하여 객체를 인식하는 것이 적합할 수 있다.
여기서 R-CNN 알고리즘은 먼저 후보영역을 생성하고 이를 기반으로 CNN을 학습시켜 영상 내 객체의 위치를 찾아내는 신경망 알고리즘으로, 객체인식과정은 입력된 영상에서 선택적 탐색을 이용하여 후보 영역 생성하는 과정과, 생성된 각 후보 영역들을 동일한 크기로 변환하고, CNN을 통해 특징을 추출하는 과정과, 추출된 특징을 이용하여 후보 영역 내의 객체를 SVM(Support Vector Machine)을 이용하여 분류하는 과정을 포함한다. 후보 영역의 위치는 정확하지 않기 때문에 최종적으로 회귀 학습을 통해 객체 영역 박스 위치를 정확히 보정할 수 있다.
또한 다른 신경망 알고리즘으로 Fast R-CNN, R-FCN, YOLO(You only Look Once), 텐서플로(TensorFlow), SSD(Single Shot MultiBox Detector) 등이 있는데, 상술한 신경망 알고리즘을 추가로 적용하거나 R-CNN을 대체하여 적용할 수 있으며, 상술한 신경망 알고리즘을 적용하여 다중 객체를 동시에 인식시켜 객체 인식 속도를 향상시킬 수도 있다.
나아가, 객체 인식율을 높이기 위해 에이다부스트(AdaBoost), 서포트 벡터 머신(Support Vector Machine: SVM), 선형판별식 해석(Linear Disciminant Analysis: LDA), 주성분 분석(Principal Component Analusis: PCA) 등의 알고리즘이 추가로 이용될 수도 있으며, 이러한 알고리즘 기법들은 모두 외형에 기반하여 인식대상 영역을 식별하는 것으로, 트레이닝에 사용될 악보정보에 대한 이미지들의 집합에 의해 트레이닝된 모델을 이용해서 객체 주위의 영역을 검출하며, 여러 주변의 제약 조건들이 트레이닝을 통해 극복되어지기 때문에 결과적으로 객체 인식 정확도와 신뢰도를 높일 수 있다.
또한 SVM이란 클래시피케이션(classification), 리그레션(regression), 특이점 판별(outliers detection) 등에 주로 사용되는 지도 학습(Supervised Learning) 머신 러닝 방법 중 하나이다. 예를 들어, 두 그룹의 데이터셋을 구분하는 여러 가지 방법 중에 각 그룹의 최대 거리에 있는 중간지점을 정확하게 구분할 수 있는 것이 분류정확도를 높일 수 있는 최적의 방법이라고 할 수 있다.
나아가 악보변환부(220)는 악보정보에 포함된 음표, 쉼표, 오선지의 위치, 조성, 코드, 계이름, 가사(텍스트) 등의 특징 데이터를 이용하며 상술한 SVM 외에 CNN, LSTM RNN(Long Short Term Memory RNN), 어텐션 알고리즘(Attention mechanism)의 조합을 통해 심층학습을 수행하도록 구성된다.
여기서 어텐션 알고리즘은 인코더와 디코더로 이루어져 있으며, 인코더에서는 LSTM의 히든 스테이트를 행렬로 만들고, 디코더에서는 히든 스테이트 중 중요한 스테이트를 강조할 수 있으며, 이러한 방법은 일정 거리 이상의 중요한 출력벡터에 집중할 수 있게 만들어, 불필요한 학습량을 줄이고, neural machine translation(NMT)에서 훌륭한 성능을 보여줄 수 있다.
따라서 악보변환부(220)는 세부 구성인 이미지학습부를 통하여 악보정보에 대한 이미지 학습을 수행하도록 하며, 디지털 악보 생성 결과를 산출하기 위한 악보정보에 대한 이미지 학습 모델로서, CNN, LSTM RNN, 어텐션 알고리즘을 조합한 모델(CLA 모델)을 이용할 수 있다.
여기서 CLA 모델은 국소적인 특징의 파악에 유리한 CNN, 순차적인 데이터 처리에 유리한 LSTM RNN, 중요한 정보에 집중할 수 있게 하는 어텐션 메커니즘의 장점을 이용하여 단순히 SVM이나 CNN을 사용한 모델에 비해 보다 우수한 성능을 유도할 수 있게 된다.
예를 들어 CLA 모델은 악보정보에 포함되는 음표, 쉼표, 오선지의 위치, 조성, 코드, 계이름, 가사(텍스트)의 특징 추출 과정에서 80차원의 mel spectrogram으로 변환하고 3초 단위의 300 프레임셋이 모델에 입력된다.
모델은 CNN 레이어(layer)로 스펙트럼의 공간적(spatial)인 특성을 추출하고, LSTM레이어로 시간적(temporal)인 정보를 추출한 후 Attention 레이어로 지역적인 특성을 집중하여 정보를 수집한다.
CNN 레이어는 Convolution 연산과 max pooling을 두 번씩 반복하는 레이어이다.
예를 들어 CNN 레이어는 입력된 spectrogram를 분석하여 조금 더 악보정보의 이미지 학습에 적합한 특징을 추출하기 위한 작업을 하는데 사용될 수 있다. 이는 convolution 연산과 max pooling을 통해 이루어지며, convolution 연산은 입력된 데이터의 국소적인 부분에서 연산을 통해 필요한 특징을 추출하는 과정이다. 또한 Max pooling 연산은 데이터의 차원을 축소하며 동시에 필요한 특징만을 남겨놓는 과정으로 이후에 진행될 LSTM및 어텐션 레이어의 계산 복잡도를 낮추는 역할을 한다.
LSTM 레이어에서 LSTM은 Recurrent Neural Network(RNN) 아키텍처의 한 종류로, 일반적으로 RNN을 지칭할 경우, LSTM 구조로 이루어져 있을 정도로 많이 사용되는 구조이다.
CLA 모델에서는 CNN 레이어를 통해 얻어진 특징벡터에서 시간적 정보를 얻는데 사용된다. 이는 RNN이 가지는 시퀀스 정보 처리 능력을 사용하여 장거리의 정보를 처리하여야 알 수 있는 악보정보의 미세한 이미지(예컨대 구분하기 힘든 16음표와 8분음표의 구분이나 세븐스코드나 메이너마이너 세븐코드의 구분 등) 학습시 설정된 임계 수준을 초과하는 학습 과정을 위해서이다.
또한 어텐션 레이어는 어텐션 메커니즘을 활용하여 만들어진 레이어로 CNN및 LSTM을 통하여 얻어진 정보 벡터에서 최종적인 판단을 하기 위한 컨텍스트 벡터를 만드는 용도로 사용된다.
어텐션 메커니즘의 입력은 LSTM레이어의 출력 H=h1, h2, h3, …, hT, hi=(p1, p2, …, pC)이며 웨이트 파라메터 q=(q1, q2, q3, …, qC)를 사용하여 원하는 출력(악보정보 이미지 학습 결과값)을 계산할 수 있다. 이와 같은 학습 결과로 악보정보로부터 디지털 악보를 완성하기 위한 음표, 쉼표, 오선지의 위치, 조성, 코드, 계이름, 가사(텍스트) 등을 구분하여 판단하고, 디지털 악보 변환에 활용하는데 이용될 수 있다.
악보관리부(230)는 디지털 악보로 변환된 악보에 대한 관리 서비스를 제공할 수 있으며, 사용자는 디지털 악보를 데이터베이스(250)에 저장하여 클라우드 기반으로 관리할 수 있으며, 필요시 저장된 디지털 악보를 개인 저장 공간으로 다운로드할 수 있으며, 뮤직관리앱(110)을 통하여 악보 편집 기능을 제공받을 수도 있다.
또한 편집된 악보의 공유 기능을 통하여 요청된 팀원, 친구나 지인 등이 소지한 사용자단말기(100)와 해당 악보에 대한 다운로드 권한을 제공하여 공유할 수 있다.
또한 이때, 해당 악보에 대한 뮤직 재생 기능을 제공하여 비트(리듬)에 맞춰 악기 시연을 수행할 수 있으며, 각각의 연주자들의 연주시 중요한 메트로놈(박자)을 맞추기 위해 통신 지연에 따른 시간 동기화 기능을 제공할 수 있다.
구체적으로, Host(팀리더)와 Client(팀원)의 각 사용자단말기(100)는 통신망(300) 통신상황에 따른 동기화 오차가 발생하고, 이는 메트로놈 동기화시 비트(Beat) 불일치의 결과로 이어진다.
이를 해결하기 위하여 Host가 메트로놈 비트(Beat) 정보를 Client에 직접 전달하지 않고, 각 사용자단말기(100)별 표준시를 real-time clock으로 수신한 후 Host의 Beat 수신 시간과의 오차를 연산하고 이를 이용하여 역산으로 비트 시간을 보정하는 방식으로 해결할 수 있다.
이를 위하여 음악 연주전 3초 정도의 Down-Counter 시간을 두고 이때 동기화 오차 보정 작업을 수행함이 바람직하다.
또한, 악보관리부(230)는 도 6을 참조하면, 디지털 악보에 필요한 메모를 기입할 수 있는 디지털 메모 기능을 제공할 수 있으며, 디지털 메모는 뮤직관리앱(110)의 악보 위에 터치 방식 또는 키보드 입력에 의해 이루어질 수 있으며 해당 메모정보에 대해서 객체 인식 알고리즘 등을 활용하여 인식하고, Vector로 변환하여 디지털 악보에 저장하여 관리할 수 있다.
또한 여기서 메모 동기화는 Host(팀리더)의 메모를 실시간으로 Client(팀원)의 사용자단말기(100)에 표시(Display)하는 기술로서, 각 사용자단말기(100)별 화면 해상도(Resolution)의 차이로 동일한 위치에 표시(Display)되지 않는 문제가 발생할 수 있으므로, 이를 해결하기 위하여 각 메모를 단위 그룹으로, 표시 위치를 전체 화면이 아닌 오선지 기준으로, 상대적 위치로 변환하여 저장하고 동기화를 구성할 수도 있다.
이때 Host의 화면 해상도(Resolution)정보도 함께 client와 동기화하여 각 Client의 해상도와 비율을 연산하여 상대적 위치를 보정함으로서 최적의 메모 동기화를 구성함이 바람직하다.
통계학습부(240)는 수집된 악보정보, 디지털 악보, 개인정보, 결제정보(예 : 변환 수수료, 악보 구매), 이벤트정보(데이터 송수신 정보) 등에 대해서 개인별로 통계자료를 생성하여 제공할 수 있으며, 구체적으로 악보 변환 내역, 디지털 악보 내역, 결제 내역, 악보 편집 내역, 악보 공유 내역 등을 제공받을 수 있으며, 인공지능 추천 학습 알고리즘 등을 기반으로 제공받은 악보정보를 토대로 추천할 음악이나 악보, 무료 악보 등에 대한 제안 서비스를 제공할 수도 있다.
데이터베이스(250)는 악보정보, 악보정보를 토대로 변환된 디지털 악보, 편집된 악보, 회원 로그인 인증을 위한 개인정보, 결제 수행시 결제 정보 등을 회원별로 저장하여 관리할 수 있다.
나아가 뮤직관리앱(110)은 사용자단말기(100)에서 상술한 관리서버(200)의 세부 기능을 수행할 수 있도록 이미지 학습 알고리즘 등이 내장된 제어부를 포함한 임베디드 형태로 구현될 수도 있으며, 앱자체가 스탠드 얼론 형태로 상술한 기능이 소프트웨어 형태로 구현될 수도 있다.
도 4는 본 발명의 일 실시예에 따른 디지털 악보 관리 방법의 순서도이다.
먼저 사용자단말기(100)에서 뮤직관리앱(110)을 실행한다(S401).
실행된 뮤직관리앱(110)은 관리서버(200)에 악보정보를 제공하여 디지털 악보 변환 생성을 요청한다(S402).
관리서버(200) 또는 뮤직관리앱(110)은 사용자 요청된 악보정보를 토대로 디지털 악보 변환을 수행한다(S403).
변환이 모두 완료되면, 변환된 디지털 악보를 사용자단말기(100) 화면에 출력하여 제공하고, 사용자단말기(100)는 제공받은 디지털 악보에 대한 편집 기능을 수행할 수 있다(S404).
또한 사용자 요청에 따라 디지털 악보에 대한 공유 서비스를 제공받아 적어도 하나 이상의 사용자단말기(100)에 해당 디지털 악보를 제공하여 공유할 수 있다(S405).
또한 공유된 악보에 대해서 악보에 대한 뮤직 재생을 수행할 수 있으며, 악보 공유를 통하여 시연을 진행하는 경우, 악기 박자 동기화를 위해 통신 지연을 고려한 오차 보정을 통하여 메트로놈 동기화 기능을 제공한다(S406).
나아가 본 발명의 디지털 악보 관리 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현되거나, 이 컴퓨터 프로그램이 동작하는 컴퓨터 하드웨어(사용자단말기(100) 등)에 탑재되는 모듈 형태로 구현될 수 있다.
컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리, SSD(Solid State Drive) 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
100 ; 사용자단말기
110 ; 뮤직관리앱
200 ; 관리서버
210 ; 앱연동부
220 ; 악보변환부
221 ; 전처리부
222 ; 분석부
223 ; 후처리부
224 ; 이미지학습부
225 ; 결과제공부
230 ; 악보관리부
240 ; 통계학습부
250 ; 데이터베이스
300 ; 통신망

Claims (7)

  1. 사용자단말기에 실행되는 뮤직관리앱을 통하여 요청된 악보정보에 대해 디지털 악보 변환 및 생성된 디지털 악보를 제공하고, 디지털 악보에 대한 편집, 공유, 뮤직 재생 기능을 제공하는 관리서버를 포함하되,
    상기 관리서버는 상기 악보정보의 이미지 학습을 통해 악보정보에 포함된 객체를 인식하여 디지털 악보 변환을 수행하며,
    상기 악보정보는 음표, 쉼표, 오선지의 음표 위치, 조성, 코드, 계이름, 가사 중 적어도 어느 하나를 포함하고,
    상기 관리서버는,
    상기 악보정보를 토대로 악보에 포함된, 음표, 쉼표, 오선지의 음표 위치, 조성, 코드, 계이름, 가사(텍스트)에 따라 인식하고, 디지털 악보의 오선지로 옮겨 디지털 악보로 변환시키는 악보변환부;를 포함하되,
    상기 악보변환부는,
    이미지 형태의 악보정보로부터 원하는 객체를 인식하기 위해 인공지능 학습 알고리즘인 객체 인식 알고리즘에 의해 학습함으로써, 해당 객체를 정확히 인식하고 추출하며, 각 악보에 포함된 객체 단위로 세분화하여 디지털 악보의 악보정보를 변환하는 작업은 악보정보의 이미지 전처리 과정과, 악보정보 분석 과정, 분석 결과에 대한 후처리 과정, 변환된 디지털 악보에 대한 결과 출력 과정을 거치게 되고,
    상기 악보정보 분석 과정에서 상기 객체 인식 알고리즘에서 미리 음표이미지를 학습시키고, 음표 종류 구분 및 판단 과정을 거쳐 음표를 인식하며, 악보 변환의 구체적 과정이 1 싸이클(Cycle)로 이루어져 완전한 디지털 악보를 생성하고,
    다중 사용자가 악보 변환 서비스를 사용할 경우 상기 1 싸이클의 과정 중 각 단계를 독립된 과정으로 분리하여 한 사용자의 1 분석 Cycle이 진행되는 도중에도 시차를 두고 중복되지 않는 다른 단계의 과정을 수행시키는
    디지털 악보 관리 시스템.
  2. 제1항에 있어서,
    상기 관리서버는
    상기 사용자단말기에 실행되는 뮤직관리앱과 연동하기 위해 적어도 하나 이상의 호환되는 응용 프로그램을 제어할 인터페이스인 API를 포함하는 앱연동부;
    디지털 악보로 변환된 악보에 대한 관리 서비스를 제공하며, 뮤직관리앱을 통하여 악보 편집 기능을 제공하고, 편집된 악보의 공유 기능을 통하여 요청된 팀원, 친구나 지인이 소지한 사용자단말기와 해당 악보에 대한 다운로드 권한을 제공하여 공유하는 악보관리부;
    수집된 악보정보, 디지털 악보, 개인정보, 결제정보, 이벤트정보에 대해서 개인별로 통계자료를 생성하여 제공하는 통계학습부;
    악보정보, 디지털 악보, 개인정보, 결제 정보를 저장하는 데이터베이스
    를 포함하는 디지털 악보 관리 시스템.
  3. 삭제
  4. 제2항에 있어서,
    상기 악보관리부는
    해당 디지털 악보에 대한 뮤직 재생 기능을 제공하여 비트에 맞춰 악기 시연을 수행할 수 있으며, 각각의 연주자들의 연주시 메트로놈을 맞추기 위해 통신 지연에 따른 시간 동기화 기능을 제공하는 디지털 악보 관리 시스템.
  5. 사용자단말기에서 실행되는 뮤직관리앱과 연동하여 디지털 악보 관리 기능을 제공하는 디지털 악보 관리 방법에 있어서,
    상기 사용자단말기에서 뮤직관리앱이 실행되는 단계;
    실행된 뮤직관리앱은 관리서버에 악보정보를 제공하여 디지털 악보 변환 생성을 요청하는 단계;
    상기 관리서버 또는 뮤직관리앱은 사용자 요청된 악보정보를 토대로 디지털 악보 변환을 수행하는 단계;
    변환이 모두 완료되면, 변환된 디지털 악보를 사용자단말기 화면에 출력하여 제공하고, 사용자단말기는 제공받은 디지털 악보에 대한 편집 기능을 수행하는 단계를 포함하며,
    상기 디지털 악보 변환을 수행하는 단계는,
    상기 관리서버에 구비되는 악보변환부에서 상기 악보정보를 토대로 악보에 포함된, 음표, 쉼표, 오선지의 음표 위치, 조성, 코드, 계이름, 가사(텍스트)에 따라 인식하고, 디지털 악보의 오선지로 옮겨 디지털 악보로 변환시키며,
    상기 악보변환부는,
    이미지 형태의 악보정보로부터 원하는 객체를 인식하기 위해 인공지능 학습 알고리즘인 객체 인식 알고리즘에 의해 학습함으로써, 해당 객체를 정확히 인식하고 추출하며, 각 악보에 포함된 객체 단위로 세분화하여 디지털 악보의 악보정보를 변환하는 작업은 악보정보의 이미지 전처리 과정과, 악보정보 분석 과정, 분석 결과에 대한 후처리 과정, 변환된 디지털 악보에 대한 결과 출력 과정을 거치게 되고,
    상기 악보정보 분석 과정에서 상기 객체 인식 알고리즘에서 미리 음표이미지를 학습시키고, 음표 종류 구분 및 판단 과정을 거쳐 음표를 인식하며, 악보 변환의 구체적 과정이 1 싸이클(Cycle)로 이루어져 완전한 디지털 악보를 생성하고,
    다중 사용자가 악보 변환 서비스를 사용할 경우 상기 1 싸이클의 과정 중 각 단계를 독립된 과정으로 분리하여 한 사용자의 1 분석 Cycle이 진행되는 도중에도 시차를 두고 중복되지 않는 다른 단계의 과정을 수행시키는
    디지털 악보 관리 방법.
  6. 제5항에 있어서,
    또한 사용자 요청에 따라 디지털 악보에 대한 공유 서비스를 제공받아 적어도 하나 이상의 사용자단말기에 해당 디지털 악보를 제공하여 공유하는 단계;
    또한 공유된 악보에 대해서 악보에 대한 뮤직 재생을 수행할 수 있으며, 악보 공유를 통하여 시연을 진행하는 경우, 박자 동기화를 위해 통신 지연을 고려한 오차 보정을 통하여 메트로놈 동기화 기능을 제공하는 단계
    를 더 포함하는 디지털 악보 관리 방법.
  7. 제5항 또는 제6항의 디지털 악보 관리 방법을 수행하는 컴퓨터에서 실행 가능한 기록매체에 저장된 어플리케이션.
KR1020210094743A 2021-07-20 2021-07-20 디지털 악보 관리 시스템 및 방법 KR102541599B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210094743A KR102541599B1 (ko) 2021-07-20 2021-07-20 디지털 악보 관리 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210094743A KR102541599B1 (ko) 2021-07-20 2021-07-20 디지털 악보 관리 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20230013815A KR20230013815A (ko) 2023-01-27
KR102541599B1 true KR102541599B1 (ko) 2023-06-12

Family

ID=85101548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210094743A KR102541599B1 (ko) 2021-07-20 2021-07-20 디지털 악보 관리 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102541599B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200186575A1 (en) * 2017-08-23 2020-06-11 Falmouth University Collaborative session over a network

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6915176B2 (en) 2002-01-31 2005-07-05 Sony Corporation Music marking system
KR102045533B1 (ko) * 2018-01-31 2019-11-18 전남대학교산학협력단 심층 네트워크를 이용한 악보인식 시스템 및 그 방법
KR102304511B1 (ko) * 2019-11-13 2021-09-23 서미현 컴퓨터로 읽을 수 있는 저장 매체에 기록된 뮤직 애플리케이션

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200186575A1 (en) * 2017-08-23 2020-06-11 Falmouth University Collaborative session over a network

Also Published As

Publication number Publication date
KR20230013815A (ko) 2023-01-27

Similar Documents

Publication Publication Date Title
Cheng et al. Fully convolutional networks for continuous sign language recognition
US10789755B2 (en) Artificial intelligence in interactive storytelling
CN112131988B (zh) 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
WO2020186778A1 (zh) 错词纠正方法、装置、计算机装置及存储介质
JP7170920B2 (ja) トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法
JP7232293B2 (ja) 動画生成方法、装置、電子機器およびコンピュータ可読媒体
JP2023504219A (ja) 非同期デコーダでエンド・ツー・エンド音声認識をストリーミングするためのシステムおよび方法
Duarte Cross-modal neural sign language translation
CN105590627A (zh) 图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质
US20240105159A1 (en) Speech processing method and related device
KR20200059993A (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
Ma et al. Unpaired image-to-speech synthesis with multimodal information bottleneck
WO2022222757A1 (zh) 将文本数据转换为声学特征的方法、电子设备和存储介质
JP2022133409A (ja) 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器
CN114882862A (zh) 一种语音处理方法及相关设备
JP2021190101A (ja) アテンション基盤シーケンスツーシーケンスモデルの性能向上方法及び装置
CN117321679A (zh) 使用基于多模态融合的深度神经网络的多媒体视频中的情绪识别
Oghbaie et al. Advances and challenges in deep lip reading
CN116091836A (zh) 一种多模态视觉语言理解与定位方法、装置、终端及介质
CN117219067B (zh) 一种基于语音理解的短视频自动生成字幕的方法及系统
KR102541599B1 (ko) 디지털 악보 관리 시스템 및 방법
JP7225380B2 (ja) 音声パケット記録機能のガイド方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
CN110728971B (zh) 一种音视频合成方法
KR101482148B1 (ko) 개인화된 발음열을 이용한 그룹 매핑 데이터 생성 서버, 음성 인식 서버 및 방법
Qi et al. Video captioning via a symmetric bidirectional decoder

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right