KR102636709B1 - 강화 학습을 이용한 오디오 생성 - Google Patents

강화 학습을 이용한 오디오 생성 Download PDF

Info

Publication number
KR102636709B1
KR102636709B1 KR1020230122373A KR20230122373A KR102636709B1 KR 102636709 B1 KR102636709 B1 KR 102636709B1 KR 1020230122373 A KR1020230122373 A KR 1020230122373A KR 20230122373 A KR20230122373 A KR 20230122373A KR 102636709 B1 KR102636709 B1 KR 102636709B1
Authority
KR
South Korea
Prior art keywords
audio
response
user
data
artificial intelligence
Prior art date
Application number
KR1020230122373A
Other languages
English (en)
Inventor
김태현
윤연호
박관호
Original Assignee
주식회사 포자랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포자랩스 filed Critical 주식회사 포자랩스
Priority to KR1020230122373A priority Critical patent/KR102636709B1/ko
Application granted granted Critical
Publication of KR102636709B1 publication Critical patent/KR102636709B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/016File editing, i.e. modifying musical data files or streams as such
    • G10H2240/021File editing, i.e. modifying musical data files or streams as such for MIDI-like files or data streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

오디오 생성에 대한 다양한 실시예들이 개시된다. 일실시예에 있어서, 오디오 생성 장치는 강화학습 모델을 이용하여 오디오 표현을 생성하는 오디오생성부; 및 상기 오디오 표현에 해당하는 오디오 재생에 대한 사용자의 생체 응답을 획득하는 응답획득부를 포함하고, 상기 강화학습 모델의 보상은 상기 생체 응답을 기초로 생성될 수 있다.

Description

강화 학습을 이용한 오디오 생성 {audio generation using reinforcement learning}
본 개시(disclosure)는 오디오 생성 기술에 관한 것으로, 보다 상세하게는 몇몇 실시예들은 강화 학습을 이용하여 오디오 데이터를 생성하는 기술에 관한 것이다.
오디오 데이터는 음악, 음성, 효과음 등을 생성(또는 합성), 처리, 또는 재생을 위해 사용될 수 있으며, 음악 감상, 배경음악 삽입, 심리 치료 등 다양한 용도로 활용되고 있다. 이러한 니즈를 반영하여 오디오 데이터, 예컨대, 음원을 생성하는 기술이 연구 및 개발되고 있다.
한편, 이러한 오디오 데이터는 사용자 별로 선호도가 달라질 수 있으며, 동일 사용자라 하더라도 사용자의 상태(예컨대, 심리 상태, 신체적 상태 등)에 따라 선호도가 달라질 수 있다.
따라서, 오디오 데이터를 특정 용도, 사용자, 및/또는 사용자의 상태(또는 반응)에 맞게 생성하는 기술이 필요할 수 있다.
따라서, 특정 용도, 사용자, 및/또는 사용자의 상태(또는 반응)에 맞게 오디오를 생성하는 기술이 필요할 수 있다. 일례로, 사용자의 입면 패턴이나 수면 환경 등을 반영할 수 있는 맞춤형 수면 유도 음원을 생성하는 기술이 필요할 수 있다.
본 개시의 일 양태는 강화학습 모델을 이용하여 오디오 표현(audio representation)을 생성하는 오디오생성부; 및 상기 오디오 표현에 해당하는 오디오 재생에 대한 사용자의 생체 응답을 획득하는 응답획득부를 포함하고, 상기 강화학습 모델의 보상은 상기 생체 응답을 기초로 생성되는 오디오 생성 장치를 제공한다.
본 개시의 다른 양태는 강화학습 모델을 이용하여 오디오 표현을 실시간 생성하는 오디오생성부; 및 상기 실시간 생성되는 오디오 표현에 해당하는 오디오 재생을 사용자에게 실시간 제공하고, 상기 실시간 제공되는 오디오 재생에 대한 사용자의 응답을 실시간 획득하는 응답획득부를 포함하고, 상기 강화학습 모델의 보상은 상기 실시간 획득되는 사용자 응답을 기초로 실시간 생성되는 오디오 생성 장치를 제공한다.
본 개시의 또 다른 양태는 강화학습 모델을 이용하여 오디오 표현을 생성하는 단계; 및 상기 오디오 표현에 해당하는 오디오 재생에 대한 사용자의 생체 응답을 획득하는 단계를 포함하고, 상기 강화학습 모델의 보상은 상기 생체 응답을 기초로 생성되는 오디오 생성 방법을 제공한다.
본 개시의 또 다른 양태는 전자 장치의 프로세서로 판독 가능한 인스트럭션들(instructions)을 저장하는 비일시적 기록 매체에 있어서, 상기 인스트럭션들은, 상기 프로세서가 본 개시의 실시예들을 수행하도록 하는 기록 매체를 제공한다.
본 개시의 또 다른 양태는 외부 기기로부터 오디오 재생을 위한 데이터를 수신하는 통신부; 상기 수신된 데이터를 기초로, 상기 오디오 재생을 사용자에게 제공하는 재생부; 및 상기 오디오 재생에 대한 상기 사용자의 응답을 감지하는 감지부를 포함하고, 상기 통신부는 상기 감지된 생체 응답을 상기 외부 기기에 송신하고, 상기 데이터는 강화학습 모델에 따라 생성된 오디오 표현에 기초하고, 상기 강화학습 모델은 상기 사용자의 응답을 기초로 보상을 생성하는 전자 기기를 제공한다.
본 개요는 이하의 상세한 설명에서 더 설명되는 개념들 중 선택된 것들을 단순한 형태로 소개하기 위해 제공된 것이다. 본 개요는 청구되는 발명의 주제의 핵심적인 특징 또는 본질적인 특징을 식별하도록 의도된 것이 아니며, 청구되는 발명의 주제의 범위를 제한하기 위해 사용되도록 의도된 것도 아니다. 또한, 청구되는 발명의 주제는 본 명세서의 임의의 부분에서 언급된 문제점들 중 일부 또는 전부를 해결하는 구현들로만 한정되지 않는다. 전술한 예시적인 양태들, 실시예들 및 특징들에 더하여, 추가적인 양태들, 실시예들, 및 특징들이 이하의 상세한 설명 및 도면을 참조로 명확해질 것이다.
본 개시의 몇몇 실시예들은 다음의 장점들을 포함하는 효과를 가질 수 있다. 다만, 모든 실시예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
몇몇 실시예들에 따르면, 사용자의 반응을 기반으로 사용자의 상황에 맞는 오디오 데이터 또는 음원을 생성할 수 있다.
몇몇 실시예들에 따르면, 사용자의 생체 응답을 기반으로 오디오 데이터 또는 음원을 생성하므로, 학습용 데이터를 수집하는 시간적 또는 비용적 부담을 줄일 수 있다.
몇몇 실시예들에 따르면, 입면 시간이나 수면 분위기 등 외부 환경에 따라 개인의 생체 정보가 달라지는 것을 반영하여 수면 유도 음악을 생성할 수 있으므로, 수면 시 유사한 음원을 지속적으로 사용하는 것에 비해 우수한 모델 설계를 기대할 수 있다.
몇몇 실시예들에 따르면, 수면 유도 음악 생성용 인공지능 모델 학습에 필요한 정답(레이블) 데이터를 별도로 제작하는 것이 아니라, 관측한 생체 정보를 기반으로 구성한 보상함수로 모델을 학습하므로, 수면 유도를 위한 정답(레이블) 음원 데이터를 직접 수집 및 제작하는 것과 비교하여 상대적으로 적은 비용으로 데이터를 확보할 수 있다.
몇몇 실시예들에 따르면, 개인별 음악 선호도를 반영하여 수면 유도 음악을 생성할 수 있기에 개인화된 음원을 생성할 수 있다.
몇몇 실시예들에 따르면, 단순한 입면 유도 뿐만 아니라 사용자별 생체 정보를 활용하여 개인의 수면 리듬에 맞춰 질 높은 수면을 유도할 수 있다.
도 1은 본 개시의 오디오 생성에 대한 몇몇 실시예들을 설명하기 위한 블록도이다.
도 2a 내지 도 2c는 오디오생성부에 대한 몇몇 실시예들을 설명하기 위한 블록도들이다.
도 3a 내지 도 3d는 응답획득부에 대한 몇몇 실시예들을 설명하기 위한 블록도들이다.
도 4는 본 개시의 강화학습을 이용한 오디오 생성에 대한 몇몇 실시예들이 사용하는 궤적을 예시하는 개념도이다.
도 5는 본 개시의 오디오 생성에 대한 몇몇 실시예들을 설명하기 위한 흐름도이다.
도 6은 본 개시의 몇몇 실시예들에 따른 방법을 수행하는 전자 장치를 예시하는 블록도이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 개시에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃 하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
몇몇 실시예들에 있어서, 전자 장치는 강화학습 모델을 이용하여 오디오 표현(audio representation)을 자동 생성할 수 있다.
몇몇 실시예들에 있어서, 상기 생성되는 오디오 표현은 형식(format)에 있어서 다양한 형식을 가질 수 있다. 일례로, 상기 생성되는 오디오 표현은 노트 시퀀스, 미디 데이터와 같은 심볼 형식의(symbolic) 오디오 표현일 수 있으며, 다른 일례로 상기 생성되는 오디오 표현은 WAV file과 같은 파형의 오디오 표현일 수 있으며, 또 다른 몇몇 실시예들에 있어서 상기 생성되는 오디오 표현은 기타 스펙트로그램 등과 같은 오디오 표현일 수 있다.
몇몇 실시예들에 있어서, 상기 생성되는 오디오 표현은 내용(content)에 있어서 다양한 내용을 포함할 수 있다. 일례로, 상기 생성되는 오디오 표현은 음악에 해당하는 오디오 표현일 수 있으며, 다른 일례로, 상기 생성되는 오디오 표현은 음악에 해당하지 않는 오디오 표현(예컨대, 음악 보다는 효과음에 해당하거나, 자연의 소리, 음성을 합성한 오디오 데이터 등)일 수 있다.
몇몇 실시예들에 있어서, 전자 장치는 음악, 효과음, 음성 등 다양한 오디오 컨텐트에 해당하는 오디오 표현을 생성하는 오디오 생성용 인공지능 모델(AI model for audio generation)을 이용할 수 있다. 몇몇 실시예들에 있어서, 전자 장치는 음악에 해당하는 오디오 표현을 생성하는 음악 생성용 인공지능 모델(AI model for music generation)을 이용할 수 있다.
몇몇 실시예들에 있어서, 전자 장치는 상기 오디오 표현에 해당하는 오디오 재생에 대한 사용자의 응답(예컨대, 표정, 제스처, 소리, 생체 응답)을 획득하고, 상기 획득된 사용자 응답을 기초로 상기 강화학습 모델의 보상을 생성할 수 있다. 몇몇 실시예들에 있어서, 상기 사용자의 응답은 사용자의 생체 응답일 수 있다.
몇몇 실시예들에 있어서, 전자 장치는 강화학습 모델을 이용하여 오디오 표현을 실시간 생성하고, 상기 실시간 생성되는 오디오 표현에 해당하는 오디오 재생을 사용자에게 실시간 제공하고, 상기 오디오 재생에 대한 사용자의 응답을 실시간 획득하고, 상기 실시간 획득하는 사용자 응답을 기초로 강화학습 모델의 보상을 실시간 생성할 수 있다.
도 1 및 도 5는 본 개시의 오디오 생성에 대한 몇몇 실시예들을 설명하기 위한 블록도 및 흐름도이다.
도 1을 참조하면, 일실시예에 따른 오디오 생성 장치(100)는 오디오생성부(110) 및 응답획득부(120)를 포함하여 이루어질 수 있다.
도 5를 참조하면, 몇몇 실시예들에 있어서, 오디오생성부(110)는 강화학습 모델을 이용하여 오디오 표현을 생성할 수 있다(S510). 몇몇 실시예들에 있어서, 상기 오디오 데이터(AD)는 오디오 표현을 기초로 생성될 수 있다. 몇몇 실시예들에 있어서, 오디오 데이터(AD)는 일반적인 재생 장치에 의해 재생 가능한 오디오 표현(예컨대, WAV file)일 수 있다.
일반적으로 강화학습 모델에서 환경(environment)은 강화학습을 사용하여 풀고자 하는 대상이나 문제를 지칭한다. 몇몇 실시예들에 있어서, 환경은 특정 목적(예컨대, 사용자의 입면 또는 숙면을 유도함)을 달성하는 오디오 표현(또는 이를 기반으로 생성되는 오디오 데이터)를 생성하는 과제일 수 있다. 일반적으로 강화 학습에서 보상(reward)은 강화학습 모델 학습을 위한 기준으로 에이전트는 환경으로부터 주어지는 보상을 최대화 하는 방향으로 학습한다. 일반적으로 강화학습 모델에서 행동(action)은 에이전트가 환경에서 가하는 행동에 대한 범위를 말한다.
도 2 등에서 후술하는 바와 같이, 몇몇 실시예들에 있어서, 상기 오디오 표현은 상기 강화학습 모델의 환경이 생성하여 출력하는 상태일 수 있으며, 다른 몇몇 실시예들에 있어서, 상기 오디오 표현은 상기 강화학습 모델의 에이전트가 생성하여 출력하는 행동일 수 있다.
몇몇 실시예들에 있어서, 상기 강화학습 모델의 보상은 오디오 데이터(AD)에 대한 사용자의 응답(예컨대, 반응)을 기초로 생성될 수 있다. 몇몇 실시예들에 있어서, 상기 사용자의 응답은 생체 응답(biological response)(BR)을 포함할 수 있다.
몇몇 실시예들에 있어서, 응답획득부(120)는 오디오 데이터(AD)에 대한 사용자의 응답(예컨대, 표정, 제스처, 소리, 생체 응답)을 획득할 수 있다. 몇몇 실시예들에 있어서, 응답획득부(120)는 관련 센서(카메라, 마이크로폰, 생체 데이터 측정 센서 등)를 구비하여 상기 사용자의 응답을 획득할 수 있다. 몇몇 실시예들에 있어서, 응답획득부(120)는 관련 센서를 구비한 외부 장비로부터 상기 사용자의 응답을 수신하여 획득할 수 있다.
도 5를 참조하면, 몇몇 실시예들에 있어서, 응답획득부(120)는 오디오 데이터(AD)에 대한 사용자의 생체 응답(BR)을 획득할 수 있다(S520).
일실시예에 따른 생체 응답(BR)은 뇌파와 관련된 생체 데이터, 즉 뇌파 데이터를 포함할 수 있다. 몇몇 실시예들에 있어서 뇌파 데이터는 뇌파를 구성하는 복수의 주파수 성분들의 분포에 대한 데이터를 포함할 수 있다. 복수의 주파수 성분들의 예로는, 알파파(alpha wave), 베타파(beta wave), 세타파(theta wave), 델타파(delta wave), 및 SMR (Sensorymotor Rhythm)파를 들 수 있다.
다른 일실시예에 따른 생체 응답(BR)은 뇌파 데이터가 아닌 생체 데이터를 포함할 수 있다. 몇몇 실시예들에 있어서, 뇌파 데이터가 아닌 생체 데이터는, 호흡수(respiratory rate), 심박수(heart rate), 혈압(blood pressure), 체온(body temperature), 심전도(electrocardiogram, ECG) 및 근전도(electromyography, EMG)를 포함할 수 있다.
또 다른 일실시예에 따른 생체 응답(BR)은 뇌파 데이터 및 뇌파 데이터가 아닌 생체 데이터를 모두 포함할 수 있다.
몇몇 실시예들에 있어서, 생체 응답(BR)은 오디오생성부(110)에 의해 생성되는 오디오 데이터(AD)를 사용자에게 실시간 재생하는 상황에서 측정되는 상기 사용자의 생체 데이터(biological data)를 포함할 수 있다.
몇몇 실시예들에 있어서, 생체 응답(BR)은 수면 단계, 숙면 정도, 및 수면 품질 중 적어도 하나를 판단하는 데 기초가 되는 생체 데이터를 포함할 수 있다.
몇몇 실시예들에 있어서, 강화학습 모델의 보상은 생체 응답(BR)을 기초로 생성될 수 있다.
몇몇 실시예들에 있어서, 생체 응답(BR)은 뇌파 데이터를 포함하고, 보상은 뇌파를 구성하는 복수의 주파수 성분들의 분포를 기초로 생성될 수 있다. 일실시예에 있어서, 수면 유도 음악을 생성하기 위해 사용되는 보상 R neural 은 아래의 수학식 1에 의해 산출될 수 있다.
Figure 112023101825703-pat00001
수학식 1에서, t α , t θ , t δ 는 각각 알파파, 세타파, 델타파의 관측기간 중 등장한 시간을 나타내며, f α , f θ , f δ 는 각각 알파파, 세타파, 델타파에 대한 가중치를 나타내며, n은 정규화용 값을 나타낸다.
수면 1단계는 알파파가 일정 시간 동안 50% 이상 등장하는 수면 상태를 나타내며, 수면 1단계는 세타파가 관측되는 수면 상태를 나타내며, 수면 3단계는 델타파가 20 내지 50% 관측되는 수면 상태를 나타내며, 수면 4단계는 델타파가 50% 이상 관측되는 수면 상태를 나타내며, 델타파가 등장하는 시점부터 깊은 수면 상태로 간주될 수 있다. 상술한 알파파, 세타파, 델타파와 수면 단계를 고려하여 가중치들 f α , f θ , f δ 이 설정될 수 있다.
한편, 수학식 1에서 복수의 주파수 성분들 중에서 알파파, 세타파, 델타파만 사용되는 이유는, 알파파, 세타파, 델타파가 수면 단계, 숙면 정도, 및/또는 수면 품질과 상대적으로 밀접한 관계가 있기 때문이다. 따라서, 본 개시의 생체 응답(BR)을 이용한 오디오 생성을 다른 용도로 사용하는 경우, 수학식 1과는 다른 주파수 성분들의 조합 또는 수학식 1과는 다른 연산이 사용될 수도 있다.
몇몇 실시예들에 있어서, 생체 응답(BR)은 뇌파 데이터가 아닌 생체 데이터를 포함하고, 보상은 뇌파 데이터가 아닌 생체 데이터를 기초로 생성될 수 있다. 일실시예에 있어서, 수면 유도 음악을 생성하기 위해 사용되는 보상 R vital 은 아래의 수학식 2에 의해 산출될 수 있다.
Figure 112023101825703-pat00002
수학식 2에서, 신체 신호 즉, S ECG , S EMG , S breathe , S BP , 및 S temperature 는 심전도, 근전도, 호흡수, 혈압, 및 체온이 각각 특정 범위(예컨대, 수면 상태에 있을 때 통상적으로 가질 수 있는 값의 범위)에 속할 때 1을 가지며, 그렇지 않은 경우 0으로 설정될 수 있다.
수면 상태에서, 심전도는 평균 심전도 값보다 10% 낮은 파워를 가지며, 근전도는 평균 근전도 값보다 7% 낮은 파워를 가지며, 호흡수는 분당 12 내지 20회의 범위를 가지며, 혈압은 평균 혈압 보다 20% 낮은 값을 가지며, 체온은 평균 체온에서 0.15도 내지 0.31도 낮은 값을 가질 수 있다. 상술한 신체 신호가 수면 상태에서 가지는 값의 범위를 고려하여 수학식 2에서 각 변수가 0인지 1인지를 결정하는 기준이 결정될 수 있다.
한편, 수학식 2에서 여러가지 신체 신호들 중에서 심전도, 근전도, 호흡수, 혈압, 및 체온만 사용되는 이유는 심전도, 근전도, 호흡수, 혈압, 및 체온이 수면 단계, 숙면 정도, 및/또는 수면 품질과 상대적으로 밀접한 관계가 있기 때문이다. 본 개시의 생체 응답(BR)을 이용한 오디오 생성을 다른 용도로 사용하는 경우, 수학식 2와는 다른 신체 신호들의 조합 또는 수학식 2와는 다른 연산이 사용될 수도 있다.
몇몇 실시예들에 있어서, 생체 응답(BR)은 뇌파 데이터인 제1 생체 데이터 및 뇌파 데이터가 아닌 제2 생체 데이터를 모두 포함하고, 보상은 제1 생체 데이터 및 제2 생체 데이터를 기초로 생성될 수 있다. 몇몇 실시예들에 있어서, 보상은 상기 제1 생체 데이터를 기초로 얻어지는 제1 메트릭 및 상기 제2 생체 데이터를 기초로 얻어지는 제2 메트릭의 가중합으로 생성될 수 있다. 일실시예에 있어서, 수면 유도 음악을 생성하기 위해 사용되는 보상 R 은 아래의 수학식 3에 의해 산출될 수 있다.
Figure 112023101825703-pat00003
수학식 3에서, R neural 은 제1 생체 데이터를 기초로 얻어지는 제1 메트릭을 나타내고, R vital 는 제2 생체 데이터를 기초로 얻어지는 제2 메트릭을 나타내며, △α는 두 메트릭을 가중합할 때 사용되는 가중치를 나타낸다.
일실시예에 있어서, R neural R vital 는 각각 수학식 1 및 수학식 2를 이용하여 산출될 수 있다.
제1 생체 데이터가 제2 생체 데이터보다 수면과 상대적으로 밀접한 관계를 가지며, 특히 깊은 수면 단계에서는 제1 생체 데이터가 제2 생체 데이터보다 반응 속도가 빠르고 상대적으로 중요할 수 있다. 이러한 특성을 고려하여 가중치 △α값이 설정될 수 있다. 몇몇 실시예들에 있어서, 모든 수면 상태에서 △α는 (1-△α)보다 큰 값을 가질 수 있다. 몇몇 실시예들에 있어서, 깊은 수면 상태에서의 △α 는 그렇지 않은 상태에서의 △α보다 큰 값을 가지도록 △α가 설정될 수 있다.
도 5를 참조하면, 몇몇 실시예들에 있어서, 오디오생성부(110)는 상태, 보상, 및 행동을 업데이트하고(S530), 오디오 표현 생성 단계(예컨대, 업데이트에 기초하여 다음 오디오 표현을 생성하는 단계)(S510)로 진행할 수 있다.
몇몇 실시예들에 있어서, 상술한 보상 함수(예컨대, 수학식 1 내지 3)는 도 4에 예시한 바와 같이, 매 시퀀스마다 계산될 수 있다. 다른 몇몇 실시예들에 있어서, 상술한 보상 함수는 복수의 시퀀스 단위로 계산될 수 있다. 몇몇 실시예들에 있어서, 에이전트의 학습(예컨대, 신경망의 파라미터 갱신)은 도 5의 S530마다 수행될 수 있다. 다른 몇몇 실시예들에 있어서, 에이전트의 학습은 S530마다 수행되지 않고, S510 내지 S530이 여러 회 반복되었을 때에 해당하는 S530에만 수행될 수 있다.
도 2a 내지 도 2c는 오디오생성부에 대한 몇몇 실시예들을 설명하기 위한 블록도들이다.
도 2a를 참조하면, 일실시예에 따른 오디오생성부(110A)는 에이전트(210A), 오디오 생성용 인공지능 모델(220A), 후처리부(230A), 및 보상 모델(240A)를 포함하여 이루어질 수 있다.
몇몇 실시예들에 있어서, 오디오 생성용 인공지능 모델(220A), 후처리부(230A), 및 보상 모델(240A)는 강화학습 모델의 환경에 포함되고, 에이전트(210A)는 강화학습 모델의 에이전트에 대응할 수 있다.
몇몇 실시예들에 있어서, 오디오 생성용 인공지능 모델(220A)은 음악, 효과음, 음성 등에 해당하는 오디오 표현을 생성할 수 있다. 몇몇 실시예들에 있어서 오디오 생성용 인공지능 모델(220A)은 음악에 해당하는 오디오 표현을 생성하는 음악 생성용 인공지능 모델일 수 있다. 몇몇 실시예들에 있어서, 오디오 생성용 인공지능 모델(220A)은 트랜스포머 계열 인공지능 모델일 수 있다.
몇몇 실시예들에 있어서, 에이전트(210A)는 오디오 생성용 인공지능 모델(220A)을 위한 입력을 강화학습 모델의 행동으로 출력할 수 있다.
몇몇 실시예들에 있어서, 오디오 생성용 인공지능 모델(220A)은 음악 생성 조건을 입력 받아 음악에 해당하는 오디오 표현을 생성할 수 있다. 몇몇 실시예들에 있어서, 에이전트(210A)에 의해 출력되는 행동은 분당 비트(bpm), 오디오 키(audio key), 박자표(time signature), 음 높이 범위(pitch range), 장르(genre), 트랙 카테고리(track category), 리듬(rhythm), 음 속도(velocity) 및 분위기(mood) 중 적어도 하나를 포함할 수 있다.
몇몇 실시예들에 있어서, 오디오 생성용 인공지능 모델(220A)은 음악에 해당하는 오디오 표현을 생성할 수 있다. 몇몇 실시예들에 있어서, 상기 오디오 표현은 MIDI 데이터를 포함할 수 있다.
몇몇 실시예들에 있어서, 후처리부(230A)는 오디오 표현을 기초로 오디오 데이터(AD)를 생성할 수 있다. 일실시예에 있어서, 오디오 생성용 인공지능 모델(220A)에 의해 생성되는 오디오 표현과 오디오 데이터(AD)에 해당하는 오디오 표현이 다른 경우, 후처리부(230A)는 변환 동작을 수행할 수 있다. 일례로, 오디오 표현이 MIDI 데이터인 경우, 후처리부(230A)는 MIDI 데이터를 파형(waveform)의 오디오 데이터로 변환하여 오디오 데이터(AD)를 생성할 수 있다. 다른 일실시예에 있어서, 오디오 생성용 인공지능 모델(220A)에 의해 생성되는 오디오 표현과 오디오 데이터(AD)에 해당하는 오디오 표현이 동일한 경우, 상술한 변환 동작이 생략되거나, 후처리부(230A)가 생략될 수 있다. 일례로, 음악 생성용 인공지능 모델(220A)에 의해 생성되는 오디오 표현이 파형 오디오 표현이고 오디오 데이터(AD)에 해당하는 오디오 표현도 역시 파형 오디오 표현인 경우, 상술한 변환 동작은 생략될 수 있다.
몇몇 실시예들에 있어서, 오디오 생성용 인공지능 모델(220A)와 에이전트(210A)의 사이에 선처리부(미도시)가 포함될 수 있다. 일례로, 음악 생성용 인공지능 모델(220A)에 의해 생성되는 오디오 표현이 파형 오디오 표현인 경우, 선처리부는 파형 오디오 표현을 에이전트(210A)의 입력 형식(예컨대, 신경망의 입력 형식)에 맞게 변환할 수 있다.
몇몇 실시예들에 있어서, 보상 모델(240A)은 생체 응답(BR)을 기초로 보상을 생성하여 에이전트(210A)에 제공할 수 있다. 보상을 생성하는 과정은 수학식 1 내지 3 및 기타 관련 설명에서 상술한 바와 같다.
도 2b를 참조하면, 일실시예에 따른 오디오생성부(110B)는 에이전트(210B), 제1 오디오 생성용 인공지능 모델(220B), 조건생성부(225B), 후처리부(230B), 및 보상 모델(240B)를 포함하여 이루어질 수 있다.
일실시예에 있어서, 제1 오디오 생성용 인공지능 모델(220B)은 음악에 해당하는 오디오 표현을 생성하는 모델일 수 있다. 다른 일실시예에 있어서, 제1 오디오 생성용 인공지능 모델(220B)은 음악에 해당되지 않는 오디오 표현(예컨대, 효과음 등)을 생성하는 모델일 수 있다.
몇몇 실시예들에 있어서, 제1 오디오 생성용 인공지능 모델(220B), 조건생성부(225B), 후처리부(230B), 및 보상 모델(240B)는 강화학습 모델의 환경에 포함되고, 에이전트(210B)는 강화학습 모델의 에이전트에 대응할 수 있다.
몇몇 실시예들에 있어서, 환경은 제1 오디오 생성용 인공지능 모델(220B)의 입력 및 출력을 상기 강화학습 모델의 상태로 출력할 수 있다. 몇몇 실시예들에 있어서, 제1 오디오 생성용 인공지능 모델(220B) 및 제2 오디오 생성용 인공지능 모델(212B)은 음악에 해당하는 오디오 표현을 생성하는 음악 생성용 인공지능 모델을 포함할 수 있다. 몇몇 실시예들에 있어서, 상기 오디오 표현은 MIDI 데이터를 포함할 수 있다.
몇몇 실시예들에 있어서, 에이전트(210B)는 제1 오디오 생성용 인공지능 모델(220B)을 베이스로 하여 미세 조정(fine tuning)이 수행되는 제2 오디오 생성용 인공지능 모델(212B)의 출력을 강화학습 모델의 행동으로 출력할 수 있다. 몇몇 실시예들에 있어서, 제2 오디오 생성용 인공지능 모델(212B)은, 제1 오디오 생성용 인공지능 모델(220B)의 출력과 상기 제2 오디오 생성용 인공지능 모델(212B)의 출력 간의 차이를 최소화하면서 상기 보상이 최대가 되도록, 학습될 수 있다.
몇몇 실시예들에 있어서, 후처리부(230B)는 제2 오디오 생성용 인공지능 모델(212B)의 출력을 기초로 오디오 데이터(AD)를 생성할 수 있다.
후처리부(230B) 및 선처리부(미도시)에 대한 설명(변환, 생략 등)은 도 2a 등에서 상술한 바와 같다.
몇몇 실시예들에 있어서, 보상 모델(240B)은 생체 응답(BR)을 기초로 보상을 생성하여 에이전트(210B)에 제공할 수 있다. 보상을 생성하는 과정은 상술한 바와 같다.
도 2c를 참조하면, 일실시예에 따른 오디오생성부(110C)는 에이전트(210C), 후처리부(230C), 및 보상 모델(240C)를 포함하여 이루어질 수 있다.
몇몇 실시예들에 있어서, 후처리부(230C) 및 보상 모델(240C)은 강화학습 모델의 환경에 포함되고, 에이전트(210C)는 강화학습 모델의 에이전트에 대응할 수 있다.
몇몇 실시예들에 있어서, 에이전트(210C)는 오디오 표현을 생성하여 행동으로 출력하고, 상기 생성되는 오디오 표현을 상기 강화학습 모델의 상태로 입력 받을 수 있다.
몇몇 실시예들에 있어서, 도 2c에 예시된 바와 같아, 오디오 표현은 노트 시퀀스일 수 있다. 몇몇 실시예들에 있어서, 노트 시퀀스는 음 높이(Pitch), 음 지속시간(duration), 음 속도(velocity), 및 음 위치(position) 중 적어도 하나를 포함할 수 있다.
몇몇 실시예들에 있어서, 후처리부(230C)는 에이전트(210C)에 의해 생성되는 오디오 표현을 기초로 오디오 데이터(AD)를 생성할 수 있다. 몇몇 실시예들에 있어서, 후처리부(230C)는 에이전트(210C)에 의해 생성되는 노트 시퀀스를 변환하여 오디오 데이터(AD)를 생성할 수 있다. 후처리부(230C) 및 선처리부(미도시)에 대한 설명(변환, 생략 등)은 도 2a 등에서 상술한 바와 같다.
몇몇 실시예들에 있어서, 보상 모델(240C)은 생체 응답(BR)을 기초로 보상을 생성하여 에이전트(210C)에 제공할 수 있다. 보상을 생성하는 과정은 상술한 바와 같다.
도 3a 내지 도 3d는 응답획득부에 대한 몇몇 실시예들을 설명하기 위한 블록도들이다.
도 3a를 참조하면, 일실시예에 따른 응답획득부(320A)는 감지부(322A) 및 재생부(324A)를 포함하여 이루어질 수 있다.
몇몇 실시예들에 있어서, 재생부(324A)는 오디오생성부(110)로부터 오디오 데이터(AD)를 제공 받아, 사용자에게 재생할 수 있다. 일실시예에 있어서, 재생부(324A)는 스피커를 구비하여 구비된 스피커의 출력을 통해 사용자가 청취할 수 있도록 할 수 있다. 다른 일실시예에 있어서, 재생부(324A)는 헤드폰을 구비하여 헤드폰을 착용한 사용자가 청취할 수 있도록 할 수 있다.
몇몇 실시예들에 있어서, 감지부(322A)는 구비된 센서를 통하여 생체 응답(BR)을 감지하여 생체 응답(BR)을 획득하고, 획득된 생체 응답(BR)을 오디오생성부(110)에 제공할 수 있다. 일실시예에 있어서, 감지부(322A)는 뇌파 데이터인 제1 생체 데이터를 측정하는 적어도 하나의 센서를 구비할 수 있다. 다른 일실시예에 있어서, 감지부(322A)는 뇌파 데이터가 아닌 제2 생체 데이터(예컨대, 호흡수, 심박수, 혈압, 체온, 근전도 등)를 측정하는 적어도 하나의 센서를 구비할 수 있다. 또 다른 일실시예에 있어서, 감지부(322A)는 뇌파 데이터인 제1 생체 데이터 및 제2 생체 데이터를 측정하는 적어도 하나의 센서를 구비할 수 있다.
도 3b를 참조하면, 일실시예에 따른 응답획득부(320B)는 감지부(322B) 및 통신부(326B)를 포함하여 이루어질 수 있다.
몇몇 실시예들에 있어서, 통신부(326B)는 오디오생성부(110)로부터 제공 받은 오디오 데이터(AD)를 외부 기기(350B)에 송신할 수 있다. 몇몇 실시예들에 있어서, 외부 기기(350B)는 응답획득부(320B)의 통신부(326B)로부터 오디오 데이터(AD)를 수신하는 통신부(356B) 및 수신된 오디오 데이터(AD)를 사용자에게 재생하는 재생부(354B)를 포함할 수 있다. 외부 기기(350B)의 재생부(354B)는 상술한 재생부(324A)와 유사한 원리로 구현 및 동작될 수 있다.
몇몇 실시예들에 있어서, 감지부(322B)는 구비된 센서를 통하여 생체 응답(BR)을 감지하여, 생체 응답(BR)을 획득하고, 획득된 생체 응답(BR)을 오디오생성부(110)에 제공할 수 있다.
일실시예에 있어서, 두 통신부들(326B, 356B) 간의 통신 방식은, 유선 통신(일례로, 1대1 연결 통신, 유선 통신망을 통한 통신)일 수 있다. 다른 일실시예에 있어서, 두 통신부들(326B, 356B) 간의 통신 방식은, 무선 통신(일례로, 1대1 무선 통신, 무선 통신망을 통한 통신)일 수 있다.
도 3c를 참조하면, 일실시예에 따른 응답획득부(320C)는 재생부(324C) 및 통신부(326C)를 포함하여 이루어질 수 있다.
몇몇 실시예들 있어서, 재생부(324C)는 오디오생성부(110)로부터 오디오 데이터(AD)를 제공 받아, 사용자에게 재생할 수 있다.
몇몇 실시예들 있어서, 통신부(326C)는 외부 기기(350C)로부터 생체 응답(BR)에 대한 정보를 수신할 수 있다.
몇몇 실시예들에 있어서, 외부 기기(350C)는 구비된 센서를 통하여 생체 응답(BR)을 감지하는 감지부(352C) 및 감지된 생체 응답(BR)을 응답획득부(320C)의 통신부(326C)에 송신하는 통신부(356C)를 포함할 수 있다. 외부 기기(350C)의 감지부(352C)는 상술한 감지부(322A)와 유사한 원리로 구현 및 동작될 수 있다.
두 통신부들(326C, 356C) 간의 통신 방식은 통신부들(326B, 356B) 간의 통신 방식에서 상술한 바와 같다.
도 3d를 참조하면, 일실시예에 따른 응답획득부(320D)는 통신부(326D)를 포함하여 이루어질 수 있다.
몇몇 실시예들에 있어서, 통신부(326D)는 오디오생성부(110)로부터 제공 받은 오디오 데이터(AD)를 제1 외부 기기에 송신하고, 제2 외부 기기로부터 생체 응답(BR)에 대한 정보를 수신할 수 있다.
몇몇 실시예들에 있어서, 제1 외부 기기 및 제2 외부 기기는, 도 3d에 도시된 바와 같이, 물리적으로 하나인 전자 장치일 수 있다.
몇몇 실시예들에 있어서, 외부 기기(350D)는 사용자의 생체 응답(BR)을 측정하고 오디오 데이터(AD)를 재생할 수 있는 기기일 수 있다. 몇몇 실시예들에 있어서, 외부 기기(350D)는 사용자가 휴대하거나 착용할 수 있는 사용자 기기일 수 있으며, 오디오 생성 장치는 사용자 기기에게 오디오 데이터(AD)를 송신하고, 사용자 기기로부터 생체 응답 데이터를 수신하는 서버일 수 있다.
몇몇 실시예들에 따른 외부 기기(350D)는 통신부(356D), 재생부(354D), 및 감지부(352D)를 포함하여 이루어질 수 있다. 몇몇 실시예들에 있어서, 통신부(356D)는 본 개시의 몇몇 실시예들에 따른 오디오 생성 장치로부터 생성되는 오디오 데이터(AD)를 수신할 수 있다. 몇몇 실시예들에 있어서, 재생부(354D)는 수신된 오디오 데이터(AD)를 사용자에게 재생할 수 있다. 몇몇 실시예들에 있어서, 감지부(352D)는 오디오 데이터(AD)에 대한 사용자의 생체 응답(BR)을 감지할 수 있다. 몇몇 실시예들에 있어서, 통신부(356D)는 감지부(352D)로부터 감지된 생체 응답(BR)을 제공 받아 본 개시의 몇몇 실시예들에 따른 오디오 생성 장치에 송신할 수 있다.
외부 기기(350D)의 감지부(352D) 및 재생부(354D)는 상술한 감지부(322A) 및 재생부(324A)와 유사한 원리로 구현 및 동작될 수 있다.
두 통신부들(326D, 356D) 간의 통신 방식은 통신부들(326B, 356B) 간의 통신 방식에서 상술한 바와 같다.
도 4는 본 개시의 강화학습을 이용한 오디오 생성에 대한 몇몇 실시예들이 사용하는 궤적을 예시하는 개념도이다.
강화학습은 순차적인 의사결정을 모델링할 수 있는 알고리즘으로, 에이전트는 순차적인 환경과 지속적으로 상호작용을 하며 보상을 최대화 하는 방향으로 행동을 학습한다. 이러한 과정은 특정 시퀀스(일반적으로 임의의 시간) 단위로 나눠서 진행이 되며, 에이전트는 특정 환경에 특정 액션을 취하게 되고, 환경은 에이전트의 행동에 해당하는 보상과 새로운 상태를 에이전트에게 제공한다. 이러한 과정을 하나의 에피소드라고 하며, 에피소드는 액션과 상태 그리고 보상의 시퀀스가 반복적으로 나타나며, 이것을 궤적(trajectory)라고 한다.
음악 역시 시간에 따라 발생하는 시계열 데이터로 간주할 수 있다. 도 4 및 도 3c의 몇몇 실시예들과 같이, 에이전트가 모델(에이전트)이 생성하는 노트 시퀀스(음의 높이, 음의 길이, 음의 세기)를 행동이라 할 수 있다. 또한, 도 3c의 몇몇 실시예들에 따르면, 현재까지 생성된 노트를 상태라고 할 수 있다.
몇몇 실시예들에 있어서, 미리 설정된 시간 슬롯(예컨대, 도 4를 참조하면, t 1 시간 슬롯, t 2 시간 슬롯)마다 행동(도 4를 참조하면, 노트 시퀀스), 상태, 및 보상이 생성될 수 있다. 몇몇 실시예들에 있어서, 시간 슬롯의 길이는 시간 슬롯 마다 동일 할 수 있다. 다른 몇몇 실시예들에 있어서, 시간 슬롯의 길이는 시간 슬롯 마다 다를 수 있다.
환경은 에이전트의 액션을 보고 음을 발현시켜 현재 상태를 변화시키고, 상태변화에 따른 생체 정보(뇌파 신호, 신체 신호 등)를 일반적인 사람의 수면 상태와 비교하여, 얼마나 수면 상태에 가까워졌나를 산출하여 그에 적합한 보상을 에이전트에게 제공할 수 있다.
몇몇 실시예들에 있어서, 에이전트의 학습은 시간 슬롯(또는 도 4를 참조하면, 노트 시퀀스)마다 수행될 수 있다. 다른 몇몇 실시예들에 있어서, 에이전트의 학습은 여러 시간 슬롯(또는 도 4를 참조하면, 여러 노트 시퀀스) 마다 수행될 수 있다. 일례로, 에이전트의 강화학습은 소정 개수의 마디(예컨대, 24 마디, 48 마디, 96마디 등)마다 또는 소정 시간(예컨대, 1분, 3분, 5분 등)마다 수행될 수 있다.
도 6은 본 개시의 실시예들에 따른 방법을 수행하는 전자 장치를 예시하는 블록도이다. 도 6에서는 전자 장치(600)를 하나의 물리적인 장치처럼 설명하고 있으나, 실시예에 따라 전자 장치(600)는 복수의 장치들이 연동된 형태(예컨대, 분산 컴퓨팅)로 구현될 수도 있다.
몇몇 실시예들에 있어서, 전자 장치(600)는 도6에 도시된 바와 같이 메모리(610) 및 프로세서(620)를 포함할 수 있다. 다른 몇몇 실시예들에 있어서, 통신 모듈(630), 입출력 인터페이스(640), 기타 유닛 중 전부 또는 일부를 더 포함할 수 있다.
메모리(610)는 전자 장치(예컨대, 컴퓨터)에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치 (permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 비소멸성 대용량 기록장치는 메모리(610)와 분리되어 별도의 영구 저장 장치로서 포함될 수도 있다. 또한, 메모리(610)에는 운영체제와 적어도 하나의 프로그램 코드(일례로 본 개시의 실시예들에 따른 방법을 수행하도록 전자 장치(600)가 포함하는 기록매체에 저장되어 전자 장치(600)를 제어하기 위한 컴퓨터 프로그램과 같은 프로그램)가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(610)와는 별도의 전자 장치에서 판독 가능한 기록매체로부터 로딩될 수 있다. 이러한 별도의 전자 장치에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 전자 장치에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성 요소들은 전자 장치에서 판독 가능한 기록매체가 아닌 통신 모듈(630)을 통해 메모리(610)에 로딩될 수도 있다.
프로세서(620)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램과 같은 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(610) 또는 통신 모듈(630)에 의해 프로세서(620)로 제공될 수 있다. 예를 들어 프로세서(620)는 메모리(610)에 로딩된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다. 보다 구체적인 예로, 프로세서(620)는 메모리(610)에 로딩된 컴퓨터 프로그램의 코드에 따른 명령을 순차적으로 실행하여 본 개시의 실시예에 따른 오디오 생성을 수행할 수 있다. 통신 모듈(630)은 컴퓨터 네트워크와 같은 통신 네트워크를 통해 다른 물리적인 기기들과 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 전자 장치(600)의 프로세서(620)가 본 실시예의 프로세스 일부를 수행하고, 통신 네트워크의 다른 물리적인 기기(예컨대, 미도시된 다른 컴퓨터와 같은 전자 기기)가 나머지 프로세스를 수행하면서, 그 처리 결과를 통신 네트워크와 통신 모듈(630)을 통해 교환하는 방식으로 본 개시의 실시예를 수행할 수도 있다.
입출력 인터페이스(640)는 입출력 장치(650)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입출력 장치 (650)에서 입력 장치는 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이나 스피커와 같은 장치를 포함할 수 있다. 도 6에서 입출력 장치(650)는 전자 장치(600)와 별도의 장치로 표현되었으나, 실시예에 따라 입출력 장치(650)가 전자 장치(600)에 포함되도록 전자 장치(600)가 구현될 수도 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령 (instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 전자 장치(600)는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 전자 장치(600)는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 전자 장치(600)는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 전자 장치(600)가 복수 개의 처리 요소 (processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 전자 장치(600)는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서 (parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 전자 장치(600)를 구성하거나 독립적으로 또는 결합적으로 (collectively) 전자 장치(600)를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 전자 장치(600)에 의하여 해석되거나 전자 장치(600)에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트 워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광 기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체 (magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (32)

  1. 강화학습 모델을 이용하여 오디오 표현(audio representation)을 생성하는 오디오생성부; 및
    상기 오디오 표현에 해당하는 오디오 재생에 대한 사용자의 생체 응답을 획득하는 응답획득부를 포함하고,
    상기 강화학습 모델의 보상은 상기 생체 응답을 기초로 생성되고,
    상기 오디오생성부는 제1 오디오 생성용 인공지능 모델; 상기 생체 응답을 기초로 상기 보상을 생성하는 보상 모델; 및 상기 제1 오디오 생성용 인공지능 모델을 베이스로 하여 미세 조정이 수행되는 제2 오디오 생성용 인공지능 모델을 이용하여 상기 오디오 표현을 생성하는 에이전트를 포함하고,
    상기 강화학습 모델의 상태는 상기 제1 오디오 생성용 인공지능 모델의 입력 및 출력을 포함하고,
    상기 강화학습 모델의 행동은 상기 제2 오디오 생성용 인공지능 모델에 의해 생성된 오디오 표현을 포함하는 오디오 생성 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 제2 오디오 생성용 인공지능 모델은, 제1 오디오 생성용 인공지능 모델의 출력과 상기 제2 오디오 생성용 인공지능 모델의 출력 간의 차이를 최소화하면서 상기 보상이 최대가 되도록, 학습되는 오디오 생성 장치.
  7. 제1항에 있어서,
    상기 제1 오디오 생성용 인공지능 모델은 음악에 해당하는 오디오 표현을 생성하는 음악 생성용 인공지능 모델을 포함하고,
    상기 오디오 표현은 MIDI 데이터를 포함하고
    상기 오디오생성부는 상기 MIDI 데이터를 파형 오디오 데이터로 변환하는 후처리부를 더 포함하고,
    상기 오디오 재생은 상기 파형 오디오 데이터를 재생하는 것을 포함하는 오디오 생성 장치.
  8. 삭제
  9. 삭제
  10. 제1항에 있어서, 상기 생체 응답은
    상기 오디오 재생을 상기 사용자에게 실시간 제공하는 상황에서 측정되는 상기 사용자의 생체 데이터를 포함하는 오디오 생성 장치.
  11. 제1항에 있어서, 상기 생체 응답은
    수면 단계, 숙면 정도, 및 수면 품질 중 적어도 하나를 판단하는 데 기초가 되는 생체 데이터를 포함하는 오디오 생성 장치.
  12. 제1항에 있어서,
    상기 생체 응답은 뇌파 데이터를 포함하고,
    상기 보상은 뇌파를 구성하는 복수의 주파수 성분들의 분포를 기초로 생성되는 오디오 생성 장치.
  13. 제1항에 있어서,
    상기 생체 응답은 호흡수, 심박수, 혈압, 체온, 심전도 및 근전도 중 적어도 하나를 포함하는 오디오 생성 장치.
  14. 제1항에 있어서, 상기 생체 응답은
    뇌파 데이터인 제1 생체 데이터 및 뇌파 데이터가 아닌 제2 생체 데이터를 포함하는 오디오 생성 장치.
  15. 제14항에 있어서, 상기 보상은
    상기 제1 생체 데이터를 기초로 얻어지는 제1 메트릭 및 상기 제2 생체 데이터를 기초로 얻어지는 제2 메트릭의 가중합으로 생성되는 오디오 생성 장치.
  16. 제1항에 있어서, 상기 응답획득부는
    상기 오디오 재생을 상기 사용자에게 제공하는 재생부; 및
    구비된 센서를 통하여 상기 생체 응답을 감지하여, 상기 생체 응답을 획득하는 감지부를 포함하는 오디오 생성 장치.
  17. 제1항에 있어서, 상기 응답획득부는
    상기 오디오 재생을 위한 데이터를 외부 기기 - 상기 데이터를 수신하여 상기 오디오 재생을 상기 사용자에게 제공함 - 에 송신하는 통신부; 및
    구비된 센서를 통하여 상기 생체 응답을 감지하여, 상기 생체 응답을 획득하는 감지부를 포함하는 오디오 생성 장치.
  18. 제1항에 있어서, 상기 응답획득부는
    상기 오디오 재생을 상기 사용자에게 제공하는 재생부; 및
    외부 기기 - 센서를 통하여 상기 생체 응답을 감지함 - 로부터 상기 생체 응답에 대한 정보를 수신하는 통신부를 포함하는 오디오 생성 장치.
  19. 제1항에 있어서, 상기 응답획득부는
    상기 오디오 재생을 위한 데이터를 제1 외부 기기 - 상기 데이터를 수신하여 상기 오디오 재생을 상기 사용자에게 제공함 - 에 송신하고, 제2 외부 기기 - 센서를 통하여 상기 생체 응답을 감지함 - 로부터 상기 생체 응답에 대한 정보를 수신하는 통신부를 포함하는 오디오 생성 장치.
  20. 강화학습 모델을 이용하여 오디오 표현을 실시간 생성하는 오디오생성부; 및
    상기 실시간 생성되는 오디오 표현에 해당하는 오디오 재생을 사용자에게 실시간 제공하고, 상기 실시간 제공되는 오디오 재생에 대한 사용자의 응답을 실시간 획득하는 응답획득부를 포함하고,
    상기 강화학습 모델의 보상은 상기 실시간 획득되는 사용자 응답을 기초로 실시간 생성되고,
    상기 오디오생성부는 제1 오디오 생성용 인공지능 모델; 상기 사용자 응답을 기초로 상기 보상을 생성하는 보상 모델; 및 상기 제1 오디오 생성용 인공지능 모델을 베이스로 하여 미세 조정이 수행되는 제2 오디오 생성용 인공지능 모델을 이용하여 상기 오디오 표현을 생성하는 에이전트를 포함하고,
    상기 강화학습 모델의 상태는 상기 제1 오디오 생성용 인공지능 모델의 입력 및 출력을 포함하고,
    상기 강화학습 모델의 행동은 상기 제2 오디오 생성용 인공지능 모델에 의해 생성된 오디오 표현을 포함하는 오디오 생성 장치.
  21. 제20항에 있어서, 상기 사용자의 응답은
    상기 사용자의 생체 응답을 포함하는 오디오 생성 장치.
  22. 강화학습 모델을 이용하여 오디오 표현을 생성하는 단계; 및
    상기 오디오 표현에 해당하는 오디오 재생에 대한 사용자의 생체 응답을 획득하는 단계를 포함하고,
    상기 강화학습 모델의 보상은 상기 생체 응답을 기초로 생성되고,
    상기 생성하는 단계는 제1 오디오 생성용 인공지능 모델을 베이스로 하여 미세 조정이 수행되는 제2 오디오 생성용 인공지능 모델을 이용하여 상기 오디오 표현을 생성하는 단계를 포함하고,
    상기 강화학습 모델의 상태는 상기 제1 오디오 생성용 인공지능 모델의 입력 및 출력을 포함하고,
    상기 강화학습 모델의 행동은 상기 제2 오디오 생성용 인공지능 모델에 의해 생성된 오디오 표현을 포함하는 오디오 생성 방법.
  23. 삭제
  24. 삭제
  25. 삭제
  26. 제22항에 있어서, 상기 획득하는 단계는,
    상기 오디오 재생을 상기 사용자에게 제공하는 단계; 및
    구비된 센서를 통하여 상기 생체 응답을 감지하여, 상기 생체 응답을 획득하는 단계를 포함하는 오디오 생성 방법.
  27. 제22항에 있어서, 상기 획득하는 단계는,
    상기 오디오 재생을 위한 데이터를 외부 기기 - 상기 데이터를 수신하여 상기 오디오 재생을 상기 사용자에게 제공함 - 에 송신하는 단계; 및
    구비된 센서를 통하여 상기 생체 응답을 감지하여, 상기 생체 응답을 획득하는 단계를 포함하는 오디오 생성 방법.
  28. 제22항에 있어서, 상기 획득하는 단계는,
    상기 오디오 재생을 상기 사용자에게 제공하는 단계; 및
    외부 기기 - 센서를 통하여 상기 생체 응답을 감지함 - 로부터 상기 생체 응답에 대한 정보를 수신하는 단계를 포함하는 오디오 생성 방법.
  29. 제22항에 있어서, 상기 획득하는 단계는,
    상기 오디오 재생을 위한 데이터를 제1 외부 기기 - 상기 데이터를 수신하여 상기 오디오 재생을 상기 사용자에게 제공함 - 에 송신하는 단계; 및
    제2 외부 기기 - 센서를 통하여 상기 생체 응답을 감지함 - 로부터 상기 생체 응답에 대한 정보를 수신하는 단계를 포함하는 오디오 생성 방법.
  30. 전자 장치의 프로세서로 판독 가능한 인스트럭션들을 저장하는 비일시적 기록 매체에 있어서,
    상기 인스트럭션들은, 상기 프로세서가 제22항, 제26항 내지 제29항 중 어느 한 항의 방법을 수행하도록 하는 기록 매체.
  31. 외부 기기로부터 오디오 재생을 위한 데이터를 수신하는 통신부;
    상기 수신된 데이터를 기초로, 상기 오디오 재생을 사용자에게 제공하는 재생부; 및
    상기 오디오 재생에 대한 상기 사용자의 응답을 감지하는 감지부를 포함하고,
    상기 통신부는 상기 감지된 상기 사용자의 응답을 상기 외부 기기에 송신하고,
    상기 데이터는 강화학습 모델에 따라 생성된 오디오 표현에 기초하고,
    상기 강화학습 모델은 상기 사용자의 응답을 기초로 보상을 생성하고,
    상기 강화학습 모델은 제1 오디오 생성용 인공지능 모델; 상기 사용자의 응답을 기초로 상기 보상을 생성하는 보상 모델; 및 상기 제1 오디오 생성용 인공지능 모델을 베이스로 하여 미세 조정이 수행되는 제2 오디오 생성용 인공지능 모델을 이용하여 상기 오디오 표현을 생성하는 에이전트를 포함하고,
    상기 강화학습 모델의 상태는 상기 제1 오디오 생성용 인공지능 모델의 입력 및 출력을 포함하고,
    상기 강화학습 모델의 행동은 상기 제2 오디오 생성용 인공지능 모델에 의해 생성된 오디오 표현을 포함하는 전자 기기.
  32. 제31항에 있어서, 상기 사용자의 응답은
    상기 사용자의 생체 응답을 포함하는 전자 기기.
KR1020230122373A 2023-09-14 2023-09-14 강화 학습을 이용한 오디오 생성 KR102636709B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230122373A KR102636709B1 (ko) 2023-09-14 2023-09-14 강화 학습을 이용한 오디오 생성

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230122373A KR102636709B1 (ko) 2023-09-14 2023-09-14 강화 학습을 이용한 오디오 생성

Publications (1)

Publication Number Publication Date
KR102636709B1 true KR102636709B1 (ko) 2024-02-14

Family

ID=89896188

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230122373A KR102636709B1 (ko) 2023-09-14 2023-09-14 강화 학습을 이용한 오디오 생성

Country Status (1)

Country Link
KR (1) KR102636709B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160129752A (ko) * 2015-04-30 2016-11-09 삼성전자주식회사 사운드 출력 기기, 전자 장치 및 그 제어 방법
KR20170088343A (ko) * 2014-11-21 2017-08-01 삼성전자주식회사 능동 제어 출력을 갖는 이어폰
KR20220128672A (ko) * 2020-02-11 2022-09-21 에이미 인코퍼레이티드 음악 콘텐츠 생성

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170088343A (ko) * 2014-11-21 2017-08-01 삼성전자주식회사 능동 제어 출력을 갖는 이어폰
KR20160129752A (ko) * 2015-04-30 2016-11-09 삼성전자주식회사 사운드 출력 기기, 전자 장치 및 그 제어 방법
KR20220128672A (ko) * 2020-02-11 2022-09-21 에이미 인코퍼레이티드 음악 콘텐츠 생성

Similar Documents

Publication Publication Date Title
US20230414159A1 (en) System and method for associating music with brain-state data
US10587967B2 (en) Method and system for analysing sound
van der Zwaag et al. Directing physiology and mood through music: Validation of an affective music player
US20200286505A1 (en) Method and system for categorizing musical sound according to emotions
Janssen et al. Tune in to your emotions: a robust personalized affective music player
US20180368755A1 (en) Sensory stimuli to increase accuracy of sleep staging
JP4396175B2 (ja) コンテンツ再生装置及びコンテンツ再生方法
JP6534934B2 (ja) 徐波睡眠誘導及び感覚状況の再現による知識固定を強化するシステム及び方法
WO2019122056A1 (en) Sleep stage prediction and intervention preparation based thereon
US10537704B2 (en) System and method for increasing the restorative value of a nap
US20130338803A1 (en) Online real time (ort) computer based prediction system
JP7383723B2 (ja) 前頭部脳活動モニタリングセンサからの情報に基づいた深い睡眠の強化
Böck et al. Intraindividual and interindividual multimodal emotion analyses in human-machine-interaction
Williams et al. BCI for music making: then, now, and next
KR102636709B1 (ko) 강화 학습을 이용한 오디오 생성
AU2021101097A4 (en) A system and method for automatic playlist generation by analysing human emotions through physiological signals
Grierson et al. Contemporary approaches to music BCI using P300 event related potentials
US20190197415A1 (en) User state modeling
US11531394B2 (en) Systems and methods for emotional-imaging composer
Tiraboschi et al. Listen to Your Mind’s (He) Art: A System for Affective Music Generation Via Brain-Computer Interface
US20210038857A1 (en) Patient Tailored System and Process For Treating ASD and ADHD Conditions Using Music Therapy & Mindfulness with Indian Classical Music
Tulilaulu et al. Sleep musicalization: Automatic music composition from sleep measurements
US20230281244A1 (en) Audio Content Serving and Creation Based on Modulation Characteristics and Closed Loop Monitoring
Williams Evaluating BCI for musical expression: Historical approaches, challenges and benefits
Kirke et al. Learning to make feelings: Expressive performance as a part of a machine learning tool for sound-based emotion therapy and control

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant