KR20220146528A - 정동 음악 추천 및 작곡을 위한 방법, 시스템 및 매체 - Google Patents
정동 음악 추천 및 작곡을 위한 방법, 시스템 및 매체 Download PDFInfo
- Publication number
- KR20220146528A KR20220146528A KR1020227032538A KR20227032538A KR20220146528A KR 20220146528 A KR20220146528 A KR 20220146528A KR 1020227032538 A KR1020227032538 A KR 1020227032538A KR 20227032538 A KR20227032538 A KR 20227032538A KR 20220146528 A KR20220146528 A KR 20220146528A
- Authority
- KR
- South Korea
- Prior art keywords
- affective
- music
- data
- listener
- audio
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 390
- 238000010801 machine learning Methods 0.000 claims abstract description 106
- 230000004044 response Effects 0.000 claims abstract description 82
- 230000008859 change Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 306
- 239000000203 mixture Substances 0.000 claims description 197
- 238000013528 artificial neural network Methods 0.000 claims description 131
- 238000004519 manufacturing process Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 38
- 230000000875 corresponding effect Effects 0.000 claims description 37
- 230000002787 reinforcement Effects 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 22
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 230000001939 inductive effect Effects 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 2
- 230000035790 physiological processes and functions Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 239000003795 chemical substances by application Substances 0.000 description 58
- 238000010586 diagram Methods 0.000 description 39
- 230000006978 adaptation Effects 0.000 description 35
- 230000006870 function Effects 0.000 description 28
- 230000009471 action Effects 0.000 description 27
- 239000010410 layer Substances 0.000 description 25
- 230000004913 activation Effects 0.000 description 22
- 238000000605 extraction Methods 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 20
- 210000002569 neuron Anatomy 0.000 description 14
- 230000003993 interaction Effects 0.000 description 13
- 230000036651 mood Effects 0.000 description 13
- 235000019640 taste Nutrition 0.000 description 13
- 238000013526 transfer learning Methods 0.000 description 13
- 230000003044 adaptive effect Effects 0.000 description 12
- 230000007774 longterm Effects 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 230000000717 retained effect Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000037007 arousal Effects 0.000 description 5
- 238000013075 data extraction Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 239000000090 biomarker Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 208000019901 Anxiety disease Diseases 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 230000036506 anxiety Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 230000001020 rhythmical effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 238000000051 music therapy Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 238000013019 agitation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001914 calming effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000010437 gem Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000010344 pupil dilation Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- -1 recording Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 231100000430 skin reaction Toxicity 0.000 description 1
- 208000019116 sleep disease Diseases 0.000 description 1
- 208000022925 sleep disturbance Diseases 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000007920 subcutaneous administration Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000036327 taste response Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 125000000391 vinyl group Chemical group [H]C([*])=C([H])[H] 0.000 description 1
- 229920002554 vinyl polymer Polymers 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
- G10H1/0025—Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M21/02—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis for inducing sleep or relaxation, e.g. by direct nerve stimulation, hypnosis, analgesia
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/70—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M21/00—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
- A61M2021/0005—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
- A61M2021/0027—Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the hearing sense
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2205/00—General characteristics of the apparatus
- A61M2205/33—Controlling, regulating or measuring
- A61M2205/3303—Using a biosensor
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61M—DEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
- A61M2205/00—General characteristics of the apparatus
- A61M2205/50—General characteristics of the apparatus with microprocessors or computers
- A61M2205/502—User interfaces, e.g. screens or keyboards
- A61M2205/505—Touch-screens; Virtual keyboard or keypads; Virtual buttons; Soft keys; Mouse touches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/111—Automatic composing, i.e. using predefined musical rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/101—Music Composition or musical creation; Tools or processes therefor
- G10H2210/125—Medley, i.e. linking parts of different musical pieces in one single piece, e.g. sound collage, DJ mix
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/091—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
- G10H2220/101—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
- G10H2220/116—Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/155—User input interfaces for electrophonic musical instruments
- G10H2220/371—Vital parameter control, i.e. musical instrument control based on body signals, e.g. brainwaves, pulsation, temperature or perspiration; Biometric information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/085—Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Anesthesiology (AREA)
- Psychology (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Veterinary Medicine (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Hematology (AREA)
- Pain & Pain Management (AREA)
- Hospice & Palliative Care (AREA)
- Medical Informatics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Developmental Disabilities (AREA)
- Databases & Information Systems (AREA)
- Educational Technology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medicines Containing Plant Substances (AREA)
- User Interface Of Digital Computer (AREA)
- Auxiliary Devices For Music (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
정동 음악 추천 및 작곡을 위한 방법, 시스템 및 매체. 청취자의 현재 정동 상태와 타깃 정동 상태가 식별되고, 음악 재생 목록과 같은 오디오 스트림은, 현재 상태로부터 타깃 상태까지 청취자의 정동 상태의 제어된 궤적에 영향을 줄 의도로 생성된다. 오디오 스트림은, 바람직한 정동 궤적에 영향을 미치는 특정 오디오 세그먼트, 또는 특정 특징을 갖는 오디오 세그먼트의 효과를 나타내는 청취자 및/또는 다른 사용자로부터의 데이터를 사용하여 학습된 머신 러닝 시스템에 의해 생성된다. 오디오 스트림은 청각 자극으로서 사용자에게 제공된다. 머신 러닝 시스템은 청각 자극에 노출된 후 청취자에게 유도된 정동 상태 변화에 기초하여 업데이트될 수 있다. 시간이 지남에 따라, 머신 러닝 시스템은 음악과 인간의 정동 사이의 관계를 확실히 이해할 수 있게 되고, 따라서 머신 러닝 시스템은 또한 청취자에게 특정 정동 반응을 유도하도록 구성된 음악을 작곡, 마스터 및/또는 각색하는데 사용될 수 있다.
Description
적어도 일부 예시적인 실시예는 음악 추천 및 음악 작곡 시스템에 관한 것으로, 특히 청취자의 정동 상태에서 특정 변화를 유도하도록 의도된 음악을 작곡하고 추천하기 위한 시스템에 관한 것이다.
정동(affect)은 심리학에서 감정, 기분 또는 느낌의 경험을 설명하기 위해 사용되는 개념이다. 인간은 상이한 조건 하에서 상이한 정동 상태를 경험한다. 외부 자극은 사람의 기분이나 정동에 영향을 줄 수 있다.
많은 사람들은 다양한 종류의 음악적 자극에 대해 특히 예민한 정동 반응을 보인다. 음악은 청취자의 특정 정동 상태를 유도하는 데 있어 그 효과 때문에 인간 문화에서 큰 역할을 한다. 개별 청취자는 일반적으로, 예를 들어, 활력이 넘치거나, 느긋하거나, 우울하거나, 향수를 불러일으키거나, 행복하거나, 공격적인 타깃 정동 상태를 유지하거나 달성하려는 바람에 기초하여 청취할 음악을 선택한다.
음악 추천 시스템은 청취자가 선호할 수 있는 음악의 추론에 기초하여 청취자에게 음악을 추천하려고 시도한다. 이러한 추론은 통상적으로 청취자로부터 수집된 데이터를 기초로 한다. 데이터는 추천 시점에 청취자와의 상호작용을 통해 또는 전반적인 청취자 선호도를 나타내는 이전 상호작용 동안 수집될 수 있다. 추천 시스템은 청취자에게 테마 세트를 제시할 수 있고, 청취자가 선택한 테마(들)에 기초하여 음악을 추천할 수 있다. 이러한 테마는 장르(클래식, 컨트리, 랩), 계절 또는 배경(크리스마스 음악, 해변 음악) 또는 역사적 시기(1960년대, 1980년대, 현대)를 포함한 다양한 원칙에 따라 구성될 수 있다. 일부 테마는, 청취자의 정동 상태(슬픔, 행복, 이완, 활력)를 유도하거나 이와 일치시키기 위한 음악과 같은 기분 또는 기타 정동 상태 정보를 중심으로 구성될 수 있다. 테마는 또한 특정 정동 상태(요리나 명상을 위한 차분한 음악, 운동을 위한 공격적인 음악, 춤을 위한 경쾌한 리드미컬한 음악)를 타깃으로 하는 활동을 중심으로 구성될 수 있다.
일부 음악 추천 시스템은 또한 청취자와 특정 음악 작곡을 연관시키는 데이터를 통해 청취자 선호도를 추론한다. 상기 시스템은, 예를 들어, 청취자에 의한 이전의 음악 청취 선택 또는 청취자에 의한 이전의 음악 녹음 구매에 대한 데이터를 수집할 수 있다. 이러한 선택 또는 구매는, 예를 들어 청취자가 선호하는 것과 유사한 특징을 갖는 작곡을 식별함으로써, 다른 이용 가능한 음악 작곡과 상호 참조될 수 있다. 일부 시스템은, 청취자에게 유사한 취향, 또는 유사한 선택 또는 구매 이력을 갖는 다른 사용자가 선호하는 작곡을 식별하기 위해 협업 필터링을 사용할 수 있다. 일부 시스템은 시스템의 권장사항과 관련하여 청취자로부터 피드백을 수집하고, 그에 따라 사용자의 선호도 및 추론에 대한 확신을 업데이트할 수 있다.
정동 관련 주제를 포함하는 시스템은 통상적으로 개별 청취자에게 특정하지 않은 작곡의 전체 특징에 기초하여 주어진 테마와 정합하는 음악 작곡을 식별한다. 음악 작곡의 정동 관련 특징은 통상적으로 전체 작곡과 관련하여 식별된다. 음악 분류에 숙련된 전문가는 통상적으로 음악 정보 검색(MIR)이라는 프로세스에 따라 음악 작곡을 듣고 특징짓기 위해 고용된다. MIR은 음악의 특색을 추출하고 표현하는 것을 포함한다. MIR 특색의 표현에 대한 표준은 어쿠스틱스/음악에서의 연구 및 조정 연구소(IRCAM)에 의해 공표되었으며, Matlab용 MIRtoolbox 소프트웨어 패키지와 같은 MIR을 지원하는 소프트웨어가 존재한다. MIR 데이터의 일부 기존 컬렉션에는, 전문가 청취자에 의한 전체 작곡의 정동 관련 특색의 평가에 기초하여, 특정 음악 작곡과 관련된 정동 관련 태그 또는 특색이 포함된다.
음악 작곡은 통상적으로 음악적 요소와 관련하여 인간 정동의 정교한 형식적 모델의 도움을 받지 않는다. 청취자에서 특정 정동 상태 변화를 달성하도록 의도된 음악은 일반적으로 인간 작곡가가 보유한 주관적 기준에 기초하여 작곡가에 의해 작곡된다.
본 개시는 정동 음악 추천 및 작곡을 위한 예시적인 장치, 방법, 시스템, 및 비일시적 매체를 기술한다. 일부 실시예에서, 청취자의 현재 정동 상태와 타깃 정동 상태가 식별되고, 현재 상태로부터 타깃 상태로의 청취자의 정동 상태의 제어된 궤적에 영향을 미칠 의도로 오디오 스트림(예: 음악 재생 목록, 사운드 디자인 또는 알고리즘으로 작곡된 음악 작품)이 생성된다. 오디오 스트림은, 바람직한 정동 궤적에 영향을 미치는 특정 오디오 세그먼트 또는 특정 특색을 갖는 오디오 세그먼트의 효과를 나타내는 청취자 및/또는 다른 사용자로부터의 데이터를 사용하여 학습된 머신 러닝 모델에 의해 생성된다. 일부 실시예에서, 노래는 특정 청취자, 또는 청취자 집단이 특정 음악 요소에 어떻게 정서적으로 반응하는지에 대한 모델에 기초하여 특정 타깃 정동 상태 또는 특정 정동 궤적을 달성하도록 작곡될 수 있다.
예시적인 실시예는 청취자의 정동 상태 변화를 유도하기 위한 오디오 스트림을 생성하기 위한 방법에 관한 것이다. 상기 방법은 청취자의 현재 정동 상태를 식별하는 단계, 청취자의 타깃 정동 상태를 식별하는 단계, 현재 정동 상태에서 타깃 정동 상태로의 정동 궤적을 식별하는 단계, 학습된 세그먼트 식별 머신 러닝 모델을 사용하여, 제1 오디오 세그먼트가 청각 자극으로서 청취자에게 제시될 때, 정동 궤적의 적어도 초기 부분에 대응하는 바람직한 정동 반응을 청취자에게 유도할 가능성이 있는 제1 오디오 세그먼트를 식별하는 단계, 제1 오디오 세그먼트에 적어도 부분적으로 기초하여 오디오 스트림을 생성하는 단계, 및 오디오 스트림에 기초하여 오디오 스트림 데이터를 청취자 장치로 송신하는 단계를 포함한다.
제2 실시예는 청취자의 정동 상태 변화를 유도하기 위한 오디오 스트림을 생성하기 위한 시스템에 관한 것이다. 상기 시스템은 프로세서 시스템, 통신 시스템, 및 메모리 시스템을 포함한다. 메모리 시스템은 실행 가능한 학습된 세그먼트 식별 머신 러닝 모델, 및 실행 가능한 명령어를 저장하였다. 프로세서 시스템에 의해 실행될 때, 실행 가능한 명령어는 시스템으로 하여금 통신 시스템에 의해 수신된 청취자의 상태 데이터에 기초하여 청취자의 현재 정동 상태를 식별하게 하고, 통신 시스템에 의해 수신된 타깃 정동 상태 데이터에 기초하여 청취자의 타깃 정동 상태를 식별하게 하고, 현재 정동 상태에서 타깃 정동 상태로의 정동 궤적을 식별하게 하고, 학습된 세그먼트 식별 머신 러닝 모델을 실행해서, 청취자에게 청각 자극으로서 제시될 때, 청취자의 정동 궤적의 적어도 초기 부분에 대응하는 바람직한 정동 반응을 상기 청취자에게 유도할 가능성이 있는 제1 오디오 세그먼트를 식별하게 하고, 제1 오디오 세그먼트에 적어도 부분적으로 기초하여 오디오 스트림을 생성하게 하고, 통신 시스템을 사용하여 오디오 스트림에 기초한 오디오 스트림 데이터를 청취자 장치로 전송하게 한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 학습된 세그먼트 식별 머신 러닝 모델을 사용하여 제1 오디오 세그먼트를 식별한 후, 현재 정동 상태 및 제1 오디오 세그먼트의 오디오 특색 값 세트에 기초하여 추론된 새로운 정동 상태를 추론하기 위해 정동 추론 프로세스가 사용된다. 추론된 새로운 정동 상태 데이터로부터 타깃 정동 상태로의 업데이트된 정동 궤적이 식별된다. 학습된 세그먼트 식별 머신 러닝 모델은, 후속 오디오 세그먼트가 청각 자극으로서 청취자에게 제시될 때, 업데이트된 정동 궤적의 적어도 초기 부분에 대응하는 후속의 바람직한 정동 반응을 청취자에게 유도할 가능성이 있는 후속 오디오 세그먼트를 식별하는 데 사용된다. 오디오 스트림은 적어도 부분적으로 제1 오디오 세그먼트 및 후속 오디오 세그먼트에 기초하여 생성된다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 학습된 세그먼트 식별 머신 러닝 모델은 정동 추론 프로세스로부터 수신된 보상 데이터를 사용하여 학습되고, 정동 추론 프로세스는 오디오 스트림의 오디오 특색 값 세트에 대한 청취자의 추론된 정동 반응을 추론함으로써 보상 데이터를 생성하고, 추론된 정동 반응과 바람직한 정동 반응의 비교에 기초하여 보상 데이터를 생성한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 정동 추론 프로세스는 학습된 정동 추론 머신 러닝 모델을 포함하고, 학습된 정동 추론 머신 러닝 모델은 복수의 학습 오디오 세그먼트에 대응하는 학습 오디오 특색 데이터를 포함하는 학습 데이터 및 복수의 학습 오디오 세그먼트에 대응하는 복수의 오디오 자극 각각에 대한 각각의 인간 대상체의 노출과 관련하여 하나 이상의 인간 대상체로부터 수집된 정동 상태 데이터를 사용하여 학습된다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 하나 이상의 인간 대상체는 청취자를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 학습된 세그먼트 식별 머신 러닝 모델은 강화 러닝 모델을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 학습된 세그먼트 식별 머신 러닝 모델은 딥 러닝 신경망을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 오디오 스트림 데이터는 오디오 스트림을 추천하는 추천 데이터를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 오디오 스트림 데이터는 오디오 스트림을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 오디오 스트림 데이터를 청취자 장치에 송신한 후, 업데이트된 현재 정동 상태 데이터가 청취자로부터 수신된다. 학습된 정동 추론 머신 러닝 모델은 제1 오디오 세그먼트 및 복수의 후속 오디오 세그먼트의 각각에 대응하는 오디오 특색 데이터, 및 업데이트된 현재 정동 상태 데이터를 포함하는 런타임 학습 데이터를 사용한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 청취자의 타깃 정동 상태를 식별하는 단계는 청취자 장치를 통해 청취자로부터 타깃 정동 상태 데이터를 수신하는 단계, 및 타깃 정동 상태 데이터에 기초하여 청취자의 타깃 정동 상태를 식별하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 청취자의 현재 정동 상태를 식별하는 단계는 청취자 장치를 통해 청취자로부터 정동 자기 평가 데이터를 수신하는 단계, 및 정동 자기 평가 데이터에 기초하여 청취자의 현재 정동 상태를 식별하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 청취자의 현재 정동 상태를 식별하는 단계는 청취자의 더 많은 생리학적 상태와 상관된 생리학적 데이터를 수신하는 단계, 및 생리학적 데이터에 기초하여 청취자의 현재 정동 상태를 식별하는 단계를 포함한다.
추가 실시예는 상기 방법 중 하나 이상을 실행하기 위한 명령어를 포함하는 비일시적 프로세서 판독가능 매체에 관한 것이다.
추가 실시예는 상기 방법 중 하나 이상에 의해 생성된 오디오 스트림을 포함하는 비일시적 저장 매체에 관한 것이다.
추가 실시예는, 음악적 특색에 대한 인간 정동 반응을 예측하기 위해 머신 러닝 모델을 학습하는 방법에 관한 것이며, 음악적 특색 세트를 갖는 음악을 청취자에게 제시하는 단계; 음악의 표현에 대한 청취자의 정동 반응을 나타내는 정동 반응 데이터를 청취자로부터 획득하는 단계; 음악의 음악적 특색을 정동 반응 데이터로 레이블링하여 레이블링된 음악적 특색 데이터를 생성하는 단계; 및 레이블링된 음악적 특색 데이터를 학습 데이터로서 사용하여 머신 러닝 모델을 학습시켜, 음악적 특색 데이터에 기초하여 정동 반응 데이터를 예측하는 단계를 포함한다.
추가 실시예는 음악에 대한 인간 반응을 예측하기 위한 시스템에 관한 것으로, 프로세서 시스템; 및 상술된 방법 중 하나에 따라 학습된 머신 러닝 모델이 저장된 메모리 시스템을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 머신 러닝 모델은: 바람직한 정동 반응을 나타내는 바람직한 정동 반응 데이터를 수신하는 단계; 및 머신 러닝 모델에 의해 예측된 음악적 특색을 갖는 음악을 생성하여 청취자에게 바람직한 정동 반응을 유도하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 음악을 생성하는 단계는: 생성 모델을 사용하여 바람직한 정동 반응 데이터를 처리하여 음악적 특색을 나타내는 음악적 특색 데이터를 생성하는 단계; 및 음악적 특색 데이터에 기초하여 음악을 생성하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 음악적 특색 데이터는 음악 정보 검색(MIR) 데이터이다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, MIR 데이터는 음악을 위한 MIR 청사진이다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 생성 모델은 생성적 대립 네트워크(GAN)이다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, GAN은 생성자 네트워크, 확률 네트워크, 및 제어 네트워크를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, GAN은 조건부 GAN을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 생성자 네트워크는 생성자 신경망을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 확률 네트워크는 구별자 신경망을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 생성자 신경망 및 구별자 신경망은 각각 장단기 메모리(LSTM)를 갖는 순환 신경망(RNN)을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 음악적 특색 데이터에 기초하여 음악을 생성하는 단계는, 음악적 특색 데이터에 기초하여 악보(score)를 생성하는 단계; 및 상기 악보에 기초하여 음악을 생성하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 악보는 악기 디지털 인터페이스(MIDI) 악보이다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 악보를 생성하는 단계는: 작곡 의도 정보를 수신하는 단계; 및 음악적 특색 데이터 및 작곡 의도 정보에 기초하여 악보를 생성하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 작곡 의도 정보는 악보 유형 정보, 기악 편성 정보, 및 악보 길이 정보 중 하나 이상을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 작곡 의도 정보는 사용자로부터 수신된 작곡 의도 사용자 입력에 의해 표시된다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 메모리는 악보 생성 머신 러닝 모델을 추가로 저장하고; 악보를 생성하는 단계는, 악보 생성 머신 러닝 모델을 사용하여 음악적 특색 데이터를 처리하여 악보를 생성하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 악보 생성 머신 러닝 모델은 악보 생성 생성적 대립 네트워크(GAN)이다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 악보 생성 GAN은 생성자 네트워크, 확률 네트워크, 및 제어 네트워크를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 악보 생성 GAN은 조건부 GAN을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 생성자 네트워크는 생성자 신경망을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 확률 네트워크는 구별자 신경망을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 생성자 신경망 및 구별자 신경망은 각각 장단기 메모리(LSTM)를 갖는 순환 신경망(RNN)을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 악보에 기초하여 음악을 생성하는 단계는: 사용자에게 악보를 제시하는 단계; 사용자로부터 러프 믹스 사용자 입력을 수신하는 단계; 러프 믹스 사용자 입력에 기초하여 러프 믹스를 생성하는 단계; 러프 믹스에 기초하여 음악을 생성하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 악보에 기초하여 음악을 생성하는 단계는: 음악적 특색 데이터에 기초하여 작곡 리드 시트를 생성하는 단계; 및 작곡 리드 시트를 사용자에게 제시하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 러프 믹스에 기초하여 음악을 생성하는 단계는, 음악적 특색 데이터 및 러프 믹스에 기초하여 제작 리드 시트를 생성하는 단계; 작곡 리드 시트를 상기 사용자에게 제시하는 단계; 사용자로부터 최종 믹스 사용자 입력을 수신하는 단계; 최종 믹스 사용자 입력에 기초하여 최종 믹스를 생성하는 단계; 최종 믹스에 기초하여 음악을 생성하는 단계를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 메모리는 마스터링 머신 러닝 모델을 추가로 저장하고; 최종 믹스를 생성하는 단계는 마스터링 머신 러닝 모델을 사용하여 음악적 특색 데이터 및 최종 믹스를 처리하여 음악을 생성한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 마스터링 머신 러닝 모델은: 기존의 음악 작품을 수신하고; 음악적 특색 데이터 및 기존 음악 작품을 처리해 음악적 특색을 갖는 음악을 생성하도록 추가로 구성된다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 마스터링 머신 러닝 모델은 복수의 기존 음악 스템(stem)에 기초하여 음악적 특색을 갖는 음악을 생성하도록 추가로 구성된다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 마스터링 머신 러닝 모델은 순환 딥 Q 네트워크(DQN)를 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 마스터링 머신 러닝 모델은 분기 순환 DQN을 포함한다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 마스터링 머신 러닝 모델은 장단기 메모리(LSTM)를 포함한다.
추가 실시예는 상술된 시스템에 의해 생성된 오디오 스트림을 포함하는 비일시적 저장 매체에 관한 것이다.
본원에 개시된 다른 실시예와 조합될 수 있는 추가 양태에 따르면, 머신 러닝 모델은: 복수의 기존 음악 작품을 수신하고; 바람직한 정동 반응 데이터를 수신하고; 청취자에게 바람직한 정동 반응을 유도할 가능성이 높은 복수의 기존 음악 작품 중 하나의 기존 음악 작품을 식별하도록 추가로 구성된다.
이제, 실시예가 첨부 도면을 참조하여 예로서 설명될 것이며, 여기서 유사한 참조 번호는 유사한 특징부를 나타내는 데 사용될 수 있다.
도 1은 본원에 기술된 예시적인 실시예에 따른 정동 음악 추천을 위한 예시적인 시스템의 블록도이다.
도 2a는 본원에 기술된 예시적인 실시예에 따른 스트림 생성 모드에서 작동하는 정동 음악 추천을 위한 예시적인 시스템의 시스템도이다.
도 2b는 본원에 기술된 예시적인 실시예에 따른 학습 모드에서 작동하는 정동 음악 추천을 위한 예시적인 시스템의 시스템도이다.
도 3은 본원에 기술된 예시적인 실시예에 따른 정동 음악 추천을 위한 예시적인 방법의 흐름도이다.
도 4a는 본원에 기술된 예시적인 실시예에 따른 정동 상태 추론을 위한 단순화된 신경망을 보여주는 개략도이다.
도 4b는 본원에 기술된 예시적인 실시예에 따른 정동 상태 추론을 위한 단순화된 순환 신경망을 보여주는 개략도이다.
도 5는 본원에 기술된 예시적인 실시예에 따른 타깃 정동 반응을 달성할 가능성이 높은 오디오 세그먼트를 식별하기 위한 신경망을 보여주는 개략도이다.
도 6은 본원에 기술된 예시적인 실시예에 따른 자극-전 청취자 상호 작용을 보여주는 청취자 장치의 예시적인 사용자 인터페이스 스크린의 시퀀스이다.
도 7은 본원에 기술된 예시적인 실시예에 따른 자극-후 청취자 상호작용을 보여주는 청취자 장치의 예시적인 사용자 인터페이스 스크린의 시퀀스이다.
도 8은 본원에 기술된 예시적인 실시예에 따른 개인화 청취자 상호 작용을 보여주는 청취자 장치의 예시적인 사용자 인터페이스 스크린의 시퀀스이다.
도 9는 여기에서 기술된 예시적인 실시예에 따른 프로필 생성 프로세스의 일부로서 사용자에게 제시된 청취자 장치의 예시적인 사용자 인터페이스 스크린이다.
도 10은 본원에 기술된 예시적인 실시예에 따른 맥락 정보 수집 상호작용을 보여주는 청취자 장치의 예시적인 사용자 인터페이스 스크린이다.
도 11은 본원에 기술된 예시적인 실시예에 따른 정동 음악 추천을 위한 예시적인 다중 모델 시스템의 블록도이다.
도 12는 본원에 기술된 예시적인 실시예에 따른 예시적인 음악 감상 등급 사용자 인터페이스 스크린(1202)이다.
도 13은 본원에 기술된 예시적인 실시예에 따른 예시적인 MIR-특색 예측 시스템이다.
도 14는 본원에 기술된 예시적인 실시예에 따라 청취자를 위한 음악 모델의 데이터베이스를 생성하기 위한 예시적인 프로세스의 단계 및 구성요소를 보여주는 블록도이다.
도 15는 도 14의 개인화 모델 전달 학습 프로세스에 의해 사용되는 개인화 인자를 나타내는 개략도이다.
도 16은 본원에 기술된 예시적인 실시예에 따른 정동 음악 작곡을 위한 예시적인 시스템의 블록도이다.
도 17a는 도 16의 예시적인 정동 음악 작곡 시스템의 제1 부분의 프로세스들 사이의 관계를 보여주는 블록도이다.
도 17b는 도 16의 예시적인 정동 음악 작곡 시스템의 제2 부분의 프로세스들 사이의 관계를 보여주는 블록도이다.
도 17c는 도 16의 예시적인 정동 음악 작곡 시스템의 제3 부분의 프로세스들 사이의 관계를 보여주는 블록도이다.
도 17d는 도 16의 예시적인 정동 음악 작곡 시스템의 제4 부분의 프로세스들 사이의 관계를 보여주는 블록도이다.
도 18은 도 16의 정동 음악 작곡 시스템에 의해 사용되는 정동 상태 추론을 위한 단순화된 순환 신경망을 보여주는 개략도이다.
도 19는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 MIR 생성자 프로세스를 보여주는 블록도이다.
도 20은 도 16의 정동 음악 작곡 시스템에 의해 사용되는 악보 생성자 프로세스를 보여주는 블록도이다.
도 21a는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 마스터링 에이전트의 제1 부분을 보여주는 블록도이다.
도 21b는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 마스터링 에이전트의 제2 부분을 보여주는 블록도이다.
도 22a는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 각색형 음악 에이전트의 제1 부분을 보여주는 블록도이다.
도 22b는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 각색형 음악 에이전트의 제2 부분을 보여주는 블록도이다.
도 22c는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 각색형 음악 에이전트의 제3 부분을 보여주는 블록도이다.
도 23은 도 16의 정동 음악 작곡 시스템에 의해 사용되는 작곡 리드 시트 프로세스를 보여주는 블록도이다.
도 24a는 도 23의 작곡 리드 시트 프로세스에 의해 생성된 작곡 리드 시트의 예시적인 정동 공간 표시자이다.
도 24b는 도 23의 작곡 리드 시트 프로세스에 의해 생성된 예시적인 작곡 리드 시트이다.
도 25는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 제작 리드 시트 프로세스를 보여주는 블록도이다.
도 26은 도 25의 제작 리드 시트 프로세스에 의해 생성된 예시적인 제작 리드 시트이다.
도 27은 본원에 기술된 실시예를 사용하는 예시적인 앨범 리믹싱 사용 사례의 블록도이다.
도 28은 본원에 기술된 실시예를 사용하여 웰니스 재생목록을 타깃으로 하는 예시적인 음악 리믹싱 사용 사례의 블록도이다.
도 29는 본원에 기술된 실시예를 사용하여 별개의 정동 타깃을 갖는 다수의 앨범을 생성하기 위한 예시적인 음악 컬렉션 리믹싱 사용 사례의 블록도이다.
도 30은 본원에 기술된 실시예를 사용하여 기존 스템의 라이브러리를 사용하여 정동 음악을 생성하기 위한 예시적인 음악 각색 사용 사례의 블록도이다.
도 1은 본원에 기술된 예시적인 실시예에 따른 정동 음악 추천을 위한 예시적인 시스템의 블록도이다.
도 2a는 본원에 기술된 예시적인 실시예에 따른 스트림 생성 모드에서 작동하는 정동 음악 추천을 위한 예시적인 시스템의 시스템도이다.
도 2b는 본원에 기술된 예시적인 실시예에 따른 학습 모드에서 작동하는 정동 음악 추천을 위한 예시적인 시스템의 시스템도이다.
도 3은 본원에 기술된 예시적인 실시예에 따른 정동 음악 추천을 위한 예시적인 방법의 흐름도이다.
도 4a는 본원에 기술된 예시적인 실시예에 따른 정동 상태 추론을 위한 단순화된 신경망을 보여주는 개략도이다.
도 4b는 본원에 기술된 예시적인 실시예에 따른 정동 상태 추론을 위한 단순화된 순환 신경망을 보여주는 개략도이다.
도 5는 본원에 기술된 예시적인 실시예에 따른 타깃 정동 반응을 달성할 가능성이 높은 오디오 세그먼트를 식별하기 위한 신경망을 보여주는 개략도이다.
도 6은 본원에 기술된 예시적인 실시예에 따른 자극-전 청취자 상호 작용을 보여주는 청취자 장치의 예시적인 사용자 인터페이스 스크린의 시퀀스이다.
도 7은 본원에 기술된 예시적인 실시예에 따른 자극-후 청취자 상호작용을 보여주는 청취자 장치의 예시적인 사용자 인터페이스 스크린의 시퀀스이다.
도 8은 본원에 기술된 예시적인 실시예에 따른 개인화 청취자 상호 작용을 보여주는 청취자 장치의 예시적인 사용자 인터페이스 스크린의 시퀀스이다.
도 9는 여기에서 기술된 예시적인 실시예에 따른 프로필 생성 프로세스의 일부로서 사용자에게 제시된 청취자 장치의 예시적인 사용자 인터페이스 스크린이다.
도 10은 본원에 기술된 예시적인 실시예에 따른 맥락 정보 수집 상호작용을 보여주는 청취자 장치의 예시적인 사용자 인터페이스 스크린이다.
도 11은 본원에 기술된 예시적인 실시예에 따른 정동 음악 추천을 위한 예시적인 다중 모델 시스템의 블록도이다.
도 12는 본원에 기술된 예시적인 실시예에 따른 예시적인 음악 감상 등급 사용자 인터페이스 스크린(1202)이다.
도 13은 본원에 기술된 예시적인 실시예에 따른 예시적인 MIR-특색 예측 시스템이다.
도 14는 본원에 기술된 예시적인 실시예에 따라 청취자를 위한 음악 모델의 데이터베이스를 생성하기 위한 예시적인 프로세스의 단계 및 구성요소를 보여주는 블록도이다.
도 15는 도 14의 개인화 모델 전달 학습 프로세스에 의해 사용되는 개인화 인자를 나타내는 개략도이다.
도 16은 본원에 기술된 예시적인 실시예에 따른 정동 음악 작곡을 위한 예시적인 시스템의 블록도이다.
도 17a는 도 16의 예시적인 정동 음악 작곡 시스템의 제1 부분의 프로세스들 사이의 관계를 보여주는 블록도이다.
도 17b는 도 16의 예시적인 정동 음악 작곡 시스템의 제2 부분의 프로세스들 사이의 관계를 보여주는 블록도이다.
도 17c는 도 16의 예시적인 정동 음악 작곡 시스템의 제3 부분의 프로세스들 사이의 관계를 보여주는 블록도이다.
도 17d는 도 16의 예시적인 정동 음악 작곡 시스템의 제4 부분의 프로세스들 사이의 관계를 보여주는 블록도이다.
도 18은 도 16의 정동 음악 작곡 시스템에 의해 사용되는 정동 상태 추론을 위한 단순화된 순환 신경망을 보여주는 개략도이다.
도 19는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 MIR 생성자 프로세스를 보여주는 블록도이다.
도 20은 도 16의 정동 음악 작곡 시스템에 의해 사용되는 악보 생성자 프로세스를 보여주는 블록도이다.
도 21a는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 마스터링 에이전트의 제1 부분을 보여주는 블록도이다.
도 21b는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 마스터링 에이전트의 제2 부분을 보여주는 블록도이다.
도 22a는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 각색형 음악 에이전트의 제1 부분을 보여주는 블록도이다.
도 22b는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 각색형 음악 에이전트의 제2 부분을 보여주는 블록도이다.
도 22c는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 각색형 음악 에이전트의 제3 부분을 보여주는 블록도이다.
도 23은 도 16의 정동 음악 작곡 시스템에 의해 사용되는 작곡 리드 시트 프로세스를 보여주는 블록도이다.
도 24a는 도 23의 작곡 리드 시트 프로세스에 의해 생성된 작곡 리드 시트의 예시적인 정동 공간 표시자이다.
도 24b는 도 23의 작곡 리드 시트 프로세스에 의해 생성된 예시적인 작곡 리드 시트이다.
도 25는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 제작 리드 시트 프로세스를 보여주는 블록도이다.
도 26은 도 25의 제작 리드 시트 프로세스에 의해 생성된 예시적인 제작 리드 시트이다.
도 27은 본원에 기술된 실시예를 사용하는 예시적인 앨범 리믹싱 사용 사례의 블록도이다.
도 28은 본원에 기술된 실시예를 사용하여 웰니스 재생목록을 타깃으로 하는 예시적인 음악 리믹싱 사용 사례의 블록도이다.
도 29는 본원에 기술된 실시예를 사용하여 별개의 정동 타깃을 갖는 다수의 앨범을 생성하기 위한 예시적인 음악 컬렉션 리믹싱 사용 사례의 블록도이다.
도 30은 본원에 기술된 실시예를 사용하여 기존 스템의 라이브러리를 사용하여 정동 음악을 생성하기 위한 예시적인 음악 각색 사용 사례의 블록도이다.
이제, 정동 음악 추천 및 작곡을 위한 방법, 시스템, 및 비일시적 매체와 관련하여 예시적인 실시예가 기술될 것이다. 음악 추천 시스템이 도 1 내지 도 15를 참조하여 먼저 설명될 것이며; 그 다음, 이들 음악 추천 시스템의 구성 요소가 도 16 내지 도 30을 참조하여 음악 작곡 시스템을 기술할 때 참조될 것이다.
기술된 음악 추천 시스템 및 방법은 청취자에게 정동 상태 변화를 유도하기 위한 오디오 스트림을 생성한다. 일부 실시예는 2개의 별도의 머신 러닝 모델을 활용하여 청취자에게 바람직한 정동 반응을 유도할 가능성이 높은, 음악 재생 목록과 같은, 오디오 스트림을 생성한다. 하나의 머신 러닝 모델은 음악 세그먼트의 MIR 특색 값과 같은 오디오 세그먼트의 오디오 특색 값 세트에 대한 정동 반응을 추정하는 정동 추론 모델이다. 다른 머신 러닝 시스템은, 딥 Q 네트워크(DQN)라고도 불리는, 딥 러닝 신경망을 갖는 강화 학습 모델로서, 오디오 세그먼트 세트(예: 노래 또는 노래에서 발췌한 에포크(epoch))를 사용하고 오디오 세그먼트의 오디오 특색 값(예: MIR 특색 값)에 기초하여 정동 추론 모델의 피드백을 사용하여 오디오 세그먼트에 대한 정동 반응을 추정하도록 학습된다.
청취자의 정동 상태 변화를 유도하기 위한 오디오 스트림을 생성하기 위한 정동 음악 추천 시스템(100)의 제1 예시적인 실시예가 이제 도 1을 참조하여 설명될 것이다.
도 1은 컴퓨터 프로그램 명령어를 실행하기 위한 프로세서 시스템(102), 실행 가능 명령어 및 데이터를 저장하기 위한 메모리 시스템(104), 및 다른 장치 또는 구성 요소와 데이터를 통신하기 위한 통신 시스템(106)을 포함하는 정동 음악 추천 시스템(100)을 도시한다.
정동 음악 추천 시스템(100)은 하나 이상의 컴퓨터 시스템에서 구현될 수 있다. 이는, 단일 컴퓨터, 다수의 컴퓨터, 가상 머신, 분산 컴퓨팅 또는 클라우드 컴퓨팅 플랫폼, 또는 본원에 기술된 방법 단계를 수행할 수 있는 플랫폼의 임의의 다른 플랫폼에 의해 구현될 수 있다. 일부 실시예에서, 정동 음악 추천 시스템(100)은 청취자에 의해 사용되는 하나 이상의 전자 장치(청취자 장치(190))를 포함할 수 있는 반면, 다른 실시예에서, 정동 음악 추천 시스템(100)은 통신 시스템(106)을 사용하여 직접적 또는 간접적으로 (예: 통신 네트워크(170)를 통해) 이러한 장치와 통신한다.
프로세서 시스템(102)은, 컴퓨터 또는 컴퓨팅 플랫폼(들) 상의 하나 이상의 프로세서와 같은, 컴퓨터 프로그램 명령어를 실행할 수 있는 임의의 처리 리소스로서 구현될 수 있다. 메모리 시스템(104)은, 하나 이상의 컴퓨팅 플랫폼에서 하나 이상의 디스크 드라이브, 랜덤 액세스 메모리, 또는 휘발성 또는 비휘발성 메모리와 같은 임의의 데이터 저장 리소스로서 구현될 수 있다. 통신 시스템(106)은, 이더넷, 와이파이 또는 블루투스 인터페이스와 같은 유선 또는 무선 통신 인터페이스를 포함하는, 하나 이상의 통신 링크 또는 인터페이스로서 구현될 수 있다. 일부 실시예에서, 하나 이상의 청취자 장치(190)는 정동 음악 추천 시스템(100)과 동일한 플랫폼 상에서 구현될 수 있고; 이러한 실시예에서, 통신 시스템(106)은 내부 통신 버스 또는 다른 플랫폼 내 데이터 전송 시스템을 포함할 수 있다.
메모리 시스템(104)은 여러 유형의 컴퓨터 프로그램을 실행 가능 명령어의 형태로 저장했을 수 있다. 본원에 기술된 방법 단계를 수행하기 위한 실행 가능 명령어(110)의 세트가 그 위에 저장될 수 있다. 또한, 여기에서 복수의 딥 Q 네트워크(딥 러닝 신경망이라고도 함)로서 도시된, 청취자에게 특정 정동 반응을 유도하도록 의도된 오디오 세그먼트를 식별하기 위한 하나 이상의 머신 러닝 모델이 있을 수 있다: 제1 딥 Q 네트워크(122), 제2 딥 Q 네트워크(124), 및 제N 딥 Q 네트워크(126)까지 계속된다. 메모리 시스템(104)은 또한, 본원에 정동 추론 신경망(140)으로 도시된, 특정 오디오 특색 값 세트를 갖는 오디오 세그먼트에 대한 청취자의 노출에 의해 유도된 정동 상태를 추론하기 위한 정동 추론 머신 러닝 모델을 그 위에 저장했을 수 있다. 이들 머신 러닝 모델은, 추가로 후술되는 바와 같이, 학습된 후에 정동 음악 추천 시스템(100) 상에 배치될 수 있다.
메모리 시스템(104)은 여러 유형의 데이터(180)를 저장했을 수 있다. 데이터(180)는 정동 추천 시스템(100)에 대한 경험의 이전 기록에 관한 데이터(예: 정동 데이터, 및 세그먼트 선택)를 포함할 수 있다. 데이터(180)는 또한 복수의 오디오 세그먼트(186) 및 복수의 오디오 세그먼트(186)의 각각에 대응하는 오디오 특색 데이터를 포함하는 오디오 라이브러리(184)를 포함할 수 있다. 오디오 세그먼트(186)는 개별 오디오 클립으로서 저장된 디지털 오디오 데이터를 포함할 수 있거나, 가변 지속 시간의 노래로부터 추출된 고정 지속 시간의 에포크와 같이 오디오 라이브러리(184)에 저장된 오디오 클립으로부터 추출될 수 있다. 오디오 특색 데이터는 라이브러리 MIR 데이터(182)로서 본원에 도시되어 있다. 이는 오디오 세그먼트(186)의 MIR 특색을 상응하는 값으로 나타내는 각각의 오디오 세그먼트(186)와 연관된 MIR 메타데이터를 포함할 수 있다. 오디오 특색 데이터는, 일부 실시예에서, 비-MIR 데이터 또는 메타데이터를 포함할 수도 있다.
청취자 장치(190)는, 통신 네트워크(170)를 통해 정동 음악 추천 시스템(100)과 통신하는 컴퓨터 또는 스마트폰과 같은, 정동 음악 추천 시스템(100)의 청취자 또는 최종 사용자에 의해 작동되는 전자 장치일 수 있다. 정동 음악 추천 시스템(100)은 다수의 유형의 청취자 장치(190)를 지원할 수 있다. 일부 청취자 장치(190)는, 시각적 데이터를 표시하고 사용자 입력을 수신하기 위한 터치스크린(194)과 같은 사용자 인터페이스 구성 요소, 및 스피커 및/또는 헤드폰에 대한 유선 또는 무선 인터페이스와 같은 오디오 출력(192)을 포함한다. 정동 음악 추천 시스템(100)과의 통신은 통신 네트워크(170)를 통해 통신할 수 있는 통신 시스템(196)에 의해 영향을 받는다.
도 2a는 정동 음악 추천 시스템(100)의 기능적 시스템도를 도시한다. 메모리 시스템(104)에 저장된 실행 가능 명령어(110)를 실행하기 위해 프로세서 시스템(102)을 사용함으로써 정동 음악 추천 시스템(100)에 의해 다양한 기능적 단계가 수행된다.
정동 음악 추천 시스템(100)은 청취자에게 정동 상태 변화를 유도하기 위한 오디오 스트림(234)을 생성하기 위한 방법을 수행하는 명령어(110)를 실행한다. 상기 방법 단계를 수행하기 위해, 정동 음악 추천 시스템(100)은 명령어(110)의 실행에 의해 구현된 다수의 기능적 블록, 세그먼트 식별 머신 러닝 모델(예: 딥 Q 네트워크(122, 124 내지 126)) 및 정동 추론 머신 러닝 모델(예: 정동 추론 신경망(140))을 사용한다. 정동 음악 추천 시스템(100)은 2개의 별개의 모드로 작동한다: 통상적으로 사용자 세션 중에 발생하는 오디오 스트림 생성 모드, 및 사용자 세션 사이에 발생할 수 있는 학습 모드. 오디오 스트림 생성 모드에서의 정동 음악 추천 시스템(100)의 작동이, 도 2a를 참조하여, 먼저 설명될 것이며, 도 2b를 참조하여 학습 모드에 대한 설명이 뒤따를 것이다.
청취자에 관한 청취자 상태 데이터는 통신 시스템(106)을 통해 수신되고, 현재 상태 식별 프로세스(202)에서 사용되어 청취자의 현재 정동 상태(212)를 식별한다. 다양한 실시예에서, 청취자 상태 데이터는 정동 자기 평가 데이터(206), 생리학적 데이터(208), 및/또는 청취자의 정동 상태를 식별하는 데 잠재적으로 관련될 수 있는 다른 유형의 데이터를 포함할 수 있다. 청취자 상태 데이터는, 청취자 장치(190), 다른 장치, 및/또는 정동 음악 추천 시스템(100) 내부의 소스를 포함하는 하나 이상의 소스로부터 수신될 수 있다. 더 상세히 후술되는 바와 같이, 정동 자기 평가 데이터(206)는 청취자 장치(190)에 의해 생성될 수 있다. 생리학적 데이터(208)는, 추가로 후술되는 바와 같이, 청취자 장치(190) 또는 청취자로부터 생리학적 센서 데이터를 수집하도록 구성된 다른 장치로부터 수신될 수 있다. 청취자의 정동 상태를 결정하는 데 사용되는 다른 청취자 상태 데이터는 청취자의 얼굴 표정 또는 행동을 보여주는 카메라 데이터, 청취자의 억양 또는 음성 내용을 나타내는 음성 데이터, 또는 청취자의 정동 상태를 식별하는 데 도움을 주는데 사용될 수 있는 임의의 다른 데이터를 포함할 수 있다.
정동 연산 분야에서, 생리학적, 자가 보고, 및/또는 다른 데이터 유형을 사용하여 인간 정동 상태를 식별하고, 데이터에서 정동 상태를 나타내기 위한 다수의 공지된 기술이 존재한다. 정동 상태의 표현을 위한 하나의 공통 모델은, 종종 서컴플렉스 모델이라고 불리는, 이차원의 정동 모델이며, 여기서 주어진 정동 상태는 (긍정적 또는 부정적 감정의 정도를 나타내는) 유의성(valence) 값 및 (감정의 각성 또는 에너지의 정도를 나타내는) 각성 또는 활성화 값으로 표현된다. 정동의 2차원 유의성-활성화 모델에서, 예를 들어, 슬픔은 음의 유의성 및 낮은 활성화로 표현될 수 있고, 분노는 음의 유의성 및 높은 활성화로 표현될 수 있고, 열정은 양의 유의성 및 높은 활성화로 표현될 수 있고, 이완은 양의 유의성 및 낮은 활성화로 표현될 수 있다. 본원에 기술된 실시예는 일반적으로 유의성 및 활성화 값을 갖는 정동의 2차원 모델을 참조할 것이다. 그러나, 일부 실시예는, 정동 상태를 특징짓기 위해 2개보다 많거나 적은 차원를 사용하는 모델, 정동 상태를 모델링하기 위해 시변 정동 값을 사용하는 모델, 및 수치 값을 사용하지 않고 이산 정동 상태 목록을 사용하는 모델을 포함하여, 다른 정동 모델을 사용할 수 있다.
현재 상태 식별 프로세스(202)는, 일부 실시예에서, 청취자의 현재 정동 상태를 명시적으로 식별하는 청취자 상태 데이터를 수신할 수 있다. 다른 실시예에서, 현재의 상태 식별 프로세스(202)는, 특정 청취자 또는 일반적으로 인간의 정동 상태를 식별하도록 학습된 추가 머신 러닝 모델과 같은 정동 식별 엔진을 사용하여, 청취자 상태 데이터에 기초하여 청취자의 정동 상태를 식별할 수 있다. 생리학적 데이터로부터 추론된 추가 바이오마커는, 불안 수준, 집중 수준, 초조 수준 등과 같은 2차원 유의성 및 활성화 값을 넘어서도, 현재 상태 식별 프로세스에 대한 입력으로서 사용될 수 있다.
일부 실시예는, 예를 들어 사용자 세션의 시작 시 및 사용자 세션의 종료 시와 같이, 정동 음악 추천 시스템(100)의 작동 동안 특정 시점에 청취자 상태 데이터를 수신할 수 있다. 다른 실시예는 연속적으로 또는 사용자 입력의 타이밍에 의해 결정된 시점에 청취자 상태 데이터를 수신할 수 있다. 예를 들어, 일부 실시예는 생리학적 데이터의 일정한 스트림(208)을 수신할 수 있고, 다른 실시예는 청취자가 지시한 시간에 사용자 개시 정동 자기 평가 데이터(206)를 수신할 수 있다.
타깃 상태 식별 프로세스(204)는, 청취자 장치(190)와 같은 소스로부터 수신된 타깃 정동 상태 데이터(210)에 기초하여 청취자의 타깃 정동 상태(214)를 식별하는 데 사용된다. 일부 실시예에서, 타깃 정동 상태 데이터(210)는 의도된 애플리케이션의 성질에 의해 사전 결정될 수 있다: 예를 들어, 이완 애플리케이션은 항상 저-활성화, 양-유의성 상태를 나타내는 타깃 정동 상태 데이터(210)를 제공할 수 있는 반면, 집중 애플리케이션은 고-활성화, 양 내지 중립 유의성 상태를 나타내는 타깃 정동 상태 데이터(210)를 제공할 수 있다. 다른 실시예는 사용자 세션 이전 또는 도중에 청취자 장치(190)로부터 수신된 청취자 선호도 데이터에 기초하여 청취자의 타깃 정동 상태(214)를 식별할 수 있다.
일부 실시예에서, 현재 정동 상태(212) 및 타깃 정동 상태(214)에 기초하여, 정동 궤적 프로세스(216)는 현재 정동 상태(212)에서 타깃 정동 상태(214)까지 정동 궤적(218)을 식별한다. 2차원 정동 모델을 사용하는 실시예에서, 정동 궤적(218)은 2차원의 곡선(250)으로서 표현될 수 있다. 예시적인 곡선(250)은, 예를 들어, 수평 차원의 유의성(좌측 = 음, 우측 = 양) 및 수직 차원의 활성화(능동 = 위, 수동 = 아래)에 의해 정의된 예시적 정동 공간에 그려진다. 청취자의 현재 정동 상태(212)는 곡선(250)에 대한 시작점(252)으로 표시된다. 타깃 정동 상태(214)는 곡선(250)의 종점(254)으로 표시된다. 정동 궤적(218) 상의 중간 정동 상태를 나타내는, 제1 중간 지점(256) 및 제2 중간 지점(258)과 같은 하나 이상의 중간 지점이 곡선(250)을 따라 표시될 수 있다. 곡선(250)의 초기 부분(260)은 시작점(252) 및 제1 중간 지점(256)에 의해 정의된다. 곡선(250)의 제2 후속 부분(262)은 제1 중간 지점(256) 및 제2 중간 지점(258)에 의해 정의된다. 곡선(250)의 제3 및 최종 후속 부분(264)은 제2 중간 지점(258) 및 종점(254)에 의해 정의된다. 머신 러닝 기술은 또한 시스템을 사용하는 개인에 대한 최상의 궤적을 학습하도록 구현될 수 있으며, 사용자의 타깃 정동 상태를 달성한 이전의 성공에 기초하여 이들 궤적을 동적으로 만들 수 있다. 다른 실시예에서, 이러한 궤적은 그 전체가 생략될 수 있고, 사용자의 현재 정동 상태와 타깃 정동 상태는 세션을 위한 유일한 동인이 될 수 있다. 정동 궤적 프로세스가 사용되는 실시예에서, 의도는 DQN에 대한 이동 타깃을 통해 시간이 지남에 따라 제어된 정동 상태 변화를 강제하는 것이다.
오디오 세그먼트 식별 프로세스(222)는, 청각 자극으로서 청취자에게 제시될 때, 청취자의 정동 상태에서 정동 궤적(218)의 적어도 초기 부분(260)을 유도할 가능성이 있는 오디오 세그먼트를 선택하거나 식별하는 데 사용된다. 오디오 세그먼트(230)는, DQN(120)으로 도시된, 오디오 라이브러리(184)에 저장된 오디오 세그먼트(220)의 서브세트로부터 오디오 세그먼트(230)를 선택하는 학습된 세그먼트 식별 머신 러닝 모델을 사용하여 식별된다. 오디오 세그먼트(230)는 오디오 세그먼트(230)가 오디오 세그먼트(220)의 서브세트 내의 다른 오디오 세그먼트보다 청취자의 정동 궤적(218)의 적어도 초기 부분(260)을 유도할 가능성이 더 높다는 DQN(120)에 의한 평가에 기초하여 선택된다. 즉, 오디오 세그먼트(230)는, 청각 자극으로서 청취자에게 재생될 때, 정동 궤적(218) 상의 제1 중간 지점(256) 또는 하나 이상의 후속 지점(258, 254)에 의해 표시되는 상태에 가까운 청취자에게 정동 상태를 유도할 가능성이 있다.
오디오 세그먼트 식별 프로세스(222)는 또한, 하루 중 시간, 청취자가 사적인 환경에 있는지, 청취자가 시끄러운 환경에 있는지 여부 등과 같이, 청취자 장치(190)로부터 수신된 입력 맥락적 단서(191)로서 사용될 수 있다.
정동 음악 추천 시스템(100)에 의해 사용되는 DQN(120)은, 상이한 상황 하에서, 도 1의 다양한 DQN 중 임의의 것일 수 있다(제1 DQN(122) 내지 제N DQN(126)). 일부 실시예에서, 복수의 DQN(122, 124 내지 126) 각각은 오디오 라이브러리(184)로부터 오디오 세그먼트(220)의 상이한 서브세트로부터 선택하는 데 사용된다. 오디오 세그먼트의 이들 서브세트는 다양한 기준에 따라 생성될 수 있다: 오디오 세그먼트의 예시적인 서브세트는 청취자에 의해 표시된 선호도 데이터에 기초하여, 음악 장르에 기초하여, 또는 다른 그룹화 기준에 기초하여 선택된 노래를 포함할 수 있다. 전체 오디오 라이브러리(184) 대신에 서브세트를 사용하는 하나의 목적은 오디오 세그먼트(220)의 서브세트에 포함된 오디오 세그먼트의 수를 100 또는 120개의 오디오 세그먼트와 같은 최대 세트 크기로 제한함으로써 DQN(120)에 의해 수행되는 연산을 단순화하기 위한 것일 수 있다. 다수의 DQN(예: DQN 122, 124 내지 126)은 상이한 사용자 세션에서 서로에 대한 대안으로 사용되어 맥락에 따라 상이한 오디오 세그먼트 서브세트(220)으로부터 오디오 세그먼트를 선택할 수 있다.
일부 실시예에서, DQN(120)은 그 다음, 청취자에게 청각 자극으로서 제시될 때, 청취자의 정동 궤적(218)의 후속 부분(예: 부분(262 및/또는 264))에 대응하는 하나 이상의 후속의 바람직한 정동 반응을 유도할 가능성이 있는 하나 이상의 후속 오디오 세그먼트(230)를 식별할 수 있다.
오디오 세그먼트(230)를 식별하는 프로세스의 한번의 반복은 하나의 "단계"로서 지칭될 수 있다. 각 단계 후(즉, 제1 오디오 세그먼트를 식별한 후, 및 복수의 후속 오디오 세그먼트 각각을 식별한 후), 학습된 정동 추론 머신 학습 모델(본원에서, 정동 추론 신경망(140)으로 도시됨)을 사용하여, 추론된 새로운 정동 상태 데이터(226)를 생성하고, DQN(120)에 의해 이루어진 결정을 알리기 위해 추론된 새로운 정동 상태 데이터(226)를 DQN(120)에 다시 공급할 수 있다. 이는, 정동 추론 신경망(140)을 사용하여 오디오 세그먼트 식별 프로세스(222)에 의해 식별되는 오디오 세그먼트(230) 및 타깃 정동 데이터(214)를 수신하여 오디오 세그먼트(230)의 오디오 특색(예: 세그먼트 MIR 데이터(183))과 정합하는 오디오 특색을 갖는 오디오 자극에 청취자가 노출됨으로써 초래될 가능성이 있는 청취자의 추론된 새로운 정동 상태(226)를 추론하는, 정동 추론 프로세스(224)의 일부로서 수행된다.
일부 실시예에서, 정동 추론 프로세스(224)는 상이한 머신 러닝 또는 인공 지능 모델, 또는 일련의 사전 결정된 상관관계 또는 규칙과 같은, 추론된 새로운 정동 상태(226)를 생성하기 위해 상이한 기술을 사용할 수 있다.
따라서, 정동 추론 신경망(140)은 DQN(120)에 의해 작동되고 피드백 및 강화를 제공하는 환경을 시뮬레이션한다: 즉, 정동 추론 신경망(140)은, 오디오 특색 데이터(예: 세그먼트 MIR 데이터(183)) 및 청취자의 하나 이상의 현재 정동 상태(212)를 사용하여 정동 추론 신경망(140)의 선행 학습에 의해 결정되는 바와 같이 사용자의 가능한 정동 반응을 추론함으로써 청취자의 정동 반응을 시뮬레이션한다. 예시적인 정동 추론 신경망(140)의 학습은 아래에서 상세히 설명된다.
일부 실시예에서, 정동 추론 프로세스(224)가 실제 사용자로부터의 실시간 정동 데이터 측정 스트림에 의해 완전히 또는 부분적으로 치환되는 것이 또한 가능하다. 이들 실시예에서, 데이터 스트림은 DQN(120)에 의해 이루어진 의사 결정 프로세스의 다음 "단계"를 알리기 위해 필요한 정동 상태 데이터를 제공하기에 충분히 신뢰할 수 있다.
스트림 생성 프로세스(240)는 오디오 세그먼트 식별 프로세스(222)에 의해 식별된 하나 이상의 오디오 세그먼트(230)에 기초하여 오디오 스트림(234)을 생성한다. 오디오 스트림은, 일부 실시예에서, 하나 이상의 오디오 세그먼트(230)에 대응하는 일련의 식별자 및/또는 다른 메타데이터로서 표현될 수 있는, 음악 재생 목록일 수 있다. 스트림 생성 프로세스(240)는 또한 통신 시스템(106)을 통해 청취자 장치(190)로 송신하기 위한 오디오 스트림 데이터(236)를 생성한다. 일부 실시예에서, 오디오 스트림 데이터는 오디오 스트림(234)에 포함된 하나 이상의 오디오 세그먼트(230)에 대응하는 메타데이터를 포함할 수 있다. 이러한 메타데이터는 청취자가 제안된 재생 목록을 검토하고 터치스크린(194)을 통해 입력을 제공하여 재생 목록을 재생하거나 변경할 수 있도록 청취자 장치로 송신될 수 있다. 일부 실시예에서, 오디오 스트림 데이터는 하나 이상의 오디오 세그먼트(230)에 대응하는 오디오 세그먼트 데이터를 포함할 수 있다. 청취자 장치는 오디오 출력(192)을 통해 청각 자극으로서 이 오디오 데이터를 청취자에게 제시하도록 구성될 수 있다. 상이한 시간에서 및 상이한 조건 하에서 상이한 종류의 오디오 스트림 데이터(236)의 송신을 포함하는, 정동 음악 추천 시스템(100)과 청취자 장치(190) 간의 통신은, 다양한 실시예에서, 사용자와 온라인 음악 추천, 큐레이션, 또는 재생목록 서비스 간의 통상적인 상호작용을 포함할 수 있다.
궤적 식별 프로세스(216)에 의해 식별된 정동 궤적(218)의 곡선(250)은 상이한 실시예 및/또는 상이한 환경에서 상이한 특징을 가질 수 있다. 일부 실시예는, 시간에 걸쳐 수집된 정동 피드백 데이터에 기초하여 사용자-의존적 또는 사용자-독립적 형상으로 곡선(250)을 형성하기 위한, 추가 머신 러닝 모델과 같은, 프로세스를 더 포함할 수 있다. 곡선(250)은 제1 상태로부터 제2 상태로의 단순한 선형 궤적(즉, 2차원의 직선 램프)일 수 있거나, 과학 문헌 또는 정동 데이터 분석으로부터 추출된 원리 또는 패턴에 따라 만곡될 수 있다. 수치 값을 사용하는 정동 모델을 사용하지 않는 실시예에서, 정동 궤적(218)은 정동 공간에 표시되지 않을 수 있지만, 대신에 현재 상태로부터 타깃 상태로 전환시 필요한 중간 정동 상태로 식별된 하나 이상의 중간 정동 상태를 통해 진행할 수 있다.
본원에 기술된 실시예는 최종 타깃 정동 상태(214)를 유도하기 전에 정동 궤적(218)을 따라 하나 이상의 중간 정동 상태(예: 중간 지점(256, 258))를 유도하도록 구성된다. 음악적 자극을 이용한 정동 상태 변경에 대한 이러한 접근법은 기분 관리를 위한 음악 치료에서 사용되는 동일시 원칙(iso principle)를 따르며, 이는 음악이 처음에 청취자의 현재 기분과 정합된 다음 시간이 지남에 따라 바람직한 타깃 기분으로 점진적으로 이동되어야 한다고 서술한다. 그러나, 일부 실시예는, 단일 오디오 세그먼트 사용하여 정동 상태 변화를 유도하려고 시도하는 실시예 또는 비선형 정동 궤적 곡선(250)을 사용하는 실시예와 같이, 정동 반응을 유도하는 상이한 접근법을 취할 수 있다.
상기 설명은 오디오 스트림 생성 모드에서의 정동 음악 추천 시스템(100)에 의해 사용되는 다양한 기능 블록 및 데이터의 작동에 대한 개요를 제공한다. 학습 모드에서, 도 2a에 도시된 다양한 기능 블록 및 데이터는 상이한 목적을 위해 사용될 수 있고, 도 2b를 참조하여 후술되는 바와 같이, 추가적인 기능 블록 및 데이터에 의해 보완될 수 있다.
도 2b는 학습 모드에서 작동하는 도 2a의 감성 음악 추천 시스템(100)을 도시한다. 예를 들어, 학습 모드에서, 추론된 새로운 정동 상태(226)는, 이러한 비교에 기초하여 보상 데이터(273)를 생성하는, 추론 학습 프로세스(228)에 의해 타깃 정동 상태(214)와 비교된다. 일부 실시예에서, 보상 데이터(273)는 DQN(120)에, 추론된 새로운 정동 상태(226)가 타깃 정동 상태(214)와 유사한 경우, 양의 보상을 제공하지만, 추론된 새로운 정동 상태(226)가 타깃 정동 상태(214)와 상이한 경우, 음의 보상을 제공한다.
일부 실시예에서, 보상 기능(272)은 추론 학습 프로세스(228)에 의해 사용되어 보상 데이터(273)를 생성할 수 있다. 보상 기능(272)은 다수의 세션의 과정에 걸쳐 변할 수 있다. 직접 학습 프로세스(270)에서, 보상 기능(272)은 세션의 종료 시(또는 사용자가 오디오 스트림(234)을 청취한 후) 청취자 장치(190)로부터 정동 자기 평가 데이터(206) 및/또는 생리학적 데이터(208)를 수신하여, 청취자의 최종 정동 상태를 나타낸다. 보상 기능(272)은 세션의 종료 시 청취자의 현재 정동 상태(212)(즉, 오디오 세그먼트(230)를 청취한 후 청취자의 최종 정동 상태)와 타깃 정동 상태(214) 간의 비교에 기초하여 보상 데이터(273)을 생성하는데, 이는 세션 전체에 걸쳐 DQN(120)의 결정을 보상(즉, 긍정적인 보상) 또는 처벌(즉, 음의 보상)하는 것이다.
일부 실시예에서, 최종 정동 상태 데이터는 세션 전체에 걸쳐 청취자로부터 수집된 모든 정동 상태 데이터 및 세션의 종료 시 또는 세션 후에 청취자로부터 수집된 현재 정동 상태 데이터(212)를 포함한다. 보상 데이터(273)는 DQN(120)을 재학습하여 미래 세션에서 더 나은 결정을 내리고, 모델을 효과적으로 개인화하는 데 사용된다. 다른 실시예에서, 개별 단계에서 취한 행동를 보상하고 전체 시퀀스를 보상하기 위해 중간 정동 상태 타깃 및 장기 정동 상태 타깃이 설정될 수 있다. 일부 실시예는 또한 청취자 장치(190)로부터 수집된 추가 피드백 데이터(미도시)를 사용할 수 있다. 일부 실시예는 또한 반복 선택에 음으로 보상함으로써 동일한 오디오 세그먼트(230)의 반복된 선택을 억제할 수 있거나, 사용자가 오디오 스트림(234)을 청취하면서 특정 오디오 세그먼트를 '건너뛰는' 경우, 해당 특정 오디오 세그먼트의 선택에 음으로 보상할 수 있다.
일부 실시예에서, 세션 전체에 걸쳐 재생되는 오디오 세그먼트의 세그먼트 MIR 데이터(183)과 상관된 최종 정동 상태 데이터(즉, 세션 종료 시 수집된 현재 정동 상태 데이터(212))는 또한 정동 추론 신경망(140)을 재학습하여 미래 세션에서 더 나은 예측을 하는 데 사용될 수 있다.
일부 실시예에서, 정동 궤적(218)의 형상은, 정동 궤적 프로세스(216)을 구현하기 위해 궤적 형성 머신 러닝 모델을 사용함으로써 특정 사용자에게 맞춰질 수 있다. 최종 정동 상태 데이터(즉, 세션 종료 시 수집된 현재 정동 상태 데이터(212)) 및 궤적 보상 기능(262)은 궤적 형성 피드백 프로세스(260)에 의해 사용되어 이전 세션으로부터의 성공적인 결과에 기초하여 정동 궤적(218)을 형성할 수 있다. 특정 사용자를 위한 최상의 정동 궤적을 최적화하기 위해 궤적 형성 머신 러닝 모델이 구현되는 실시예에서, 최종 정동 상태 데이터 및 추가 보상 데이터(263)는 모델을 학습하고 최적화하여 사용자에 기초하여 궤적을 개인화하는데 사용된다.
일부 실시예에서, 정동 궤적(218)은 완전히 생략될 수 있고, 보상 기능(272)은, 사용자의 최종 정동 상태를 타깃 정동 상태(214)와 단순히 비교하고 그에 따라 DQN(120)에 의해 예측된 전체 시퀀스를 보상함으로써 보상 데이터(273)를 생성할 수 있다.
일부 실시예에서, DQN(120)은 (런타임에서) 사용자와의 경험 동안 및 (런타임 외부에서) 시뮬레이션된 환경을 통해 현실 세계에서 시행착오를 통해 학습하는 임의의 머신 러닝 알고리즘으로 대체될 수 있다. 이는 임의의 모델 기반 또는 모델 없는 강화 학습 알고리즘에 의해 달성될 수 있다. 본원에 기술된 DQN(120)의 모든 기능의 경우는, 일부 실시예에서, MBAC(모델 기반 행위자 비평가), 이점을 갖는 A3C(이점을 갖는 모델 없는 행위자 비평가), Q-러닝, 딥 Q 러닝, 및 TDM(시간차 모델)과 같은 접근법을 포함하지만 이에 한정되지 않는, 상이한 모델 없는 또는 모델 기반 강화 학습 에이전트로 대체될 수 있다.
도 3은 청취자에게 정동 상태 변화를 유도하기 위한 오디오 스트림을 생성하기 위한 예시적인 방법(300)에 대한 흐름도를 도시한다. 302 단계에서, 상술된 바와 같이, 청취자의 현재 정동 상태(212)가 식별된다. 304 단계에서, 상술된 바와 같이, 청취자의 타깃 정동 상태(214)가 식별된다. 306 단계에서, 상술된 바와 같이, 정동 궤적(218)이 식별된다. 308 단계에서, 상술된 바와 같이, 제1 오디오 세그먼트가 청각 자극으로서 청취자에게 제시될 때, 학습된 세그먼트 식별 머신 러닝 모델(예: DQN(120))은 청취자에게 정동 궤적(218)의 적어도 초기 부분(예: 초기 부분 256)에 대응하는 바람직한 정동 반응을 유도할 가능성이 있는 제1 오디오 세그먼트(예: 오디오 세그먼트(230))를 식별하는 데 사용된다.
310 단계에서, 정동 추론 프로세스(224)는 학습된 정동 추론 머신 러닝 모델(140)을 사용하여, 308 단계에서 딥 러닝 신경망(120)에 의해 선택된 오디오 세그먼트가 사용자에게 어떻게 영향을 미치는지 예측한다. 이렇게 추론된 새로운 정동 상태 데이터(226)는 310 단계에서 정동 추론 머신 러닝 모델(140)에 의해 생성되고, 312 단계에서 상태 데이터 입력으로서 DQN(120)에 송신된다.
316 단계에서, 정동 음악 추천 시스템(100)은 방법(300)이 복수의 이러한 단계 중 최종 오디오 세그먼트 식별 단계에 도달했는지, 또는 하나 이상의 후속 오디오 세그먼트가 식별되어 오디오 스트림(234)에 추가되도록 남아 있는지 여부를 결정할 수 있다. 일부 실시예에서, 오디오 스트림은 고정된 길이를 가질 수 있고/있거나 고정된 수의 오디오 세그먼트 식별 단계를 요구할 수 있으며: 오디오 스트림(234)은 항상 제1 고정된 지속 시간(예: 240초 지속 시간)일 수 있고, 각각의 오디오 세그먼트는 제2 고정된 지속 시간(예: 노래로부터 발췌된 80초 에포크)일 수 있으며, 이에 따라 오디오 스트림(234)을 생성하기 위해 3개의 오디오 세그먼트 식별 단계를 필요로 한다. 방법(300)이 316 단계에서 최종 단계에 도달하지 않았다고 결정하는 경우, 정동 궤적의 후속 부분을 유도할 가능성이 있는 후속 오디오 세그먼트는 도 2a를 참조하여 상술된 바와 같이 식별된다. 상기 방법은 후속 오디오 세그먼트를 식별하기 위해 308 단계로 돌아가고, 최종 단계가 완료될 때까지 316 단계로 다시 진행한다. 그런 다음, 308 단계에서의 딥 신경망은 310 단계에서의 정동 추론 모델(140)로부터의 추론된 정동 상태 데이터(226)를 다음 오디오 세그먼트 예측을 위한 '현재' 정동 상태(212)로서 사용한다.
최종 단계가 완료되면, 상술된 바와 같이, 318 단계에서 오디오 스트림(234)이 생성된다. 320 단계에서, 오디오 스트림 데이터(236)가 생성되어 상술된 바와 같이 청취자 장치(190)에 송신된다. 이는 오디오 스트림을 생성하고 이를 청각 자극으로서 잠재적 표현을 위해 청취자에게 송신하는 프로세스를 완료한다.
일부 실시예에서, 청취자는, 오디오 스트림(234)의 전부 또는 일부에 대해 청취한 후, 업데이트된 현재 정동 상태 데이터를 제공하는 옵션이 청취자에게 촉구되거나 제시될 수 있다. 이러한 업데이트된 현재 정동 상태 데이터는, 정동 추론 머신 러닝 모델을 학습시키고 오디오 스트림(234)을 구성하는 오디오 세그먼트의 오디오 특색에 대한 청취자의 가능한 정동 반응에 대한 그 추론을 개선하는 데 사용될 수 있다. 이 데이터는 또한 보상 기능(272)을 사용하여 보상 데이터(273)을 생성하여 도 3에 개략된 방법의 308 단계에서 DQN(120)에 의해 이루어진 선택을 강화하는데 사용될 수 있다.
322 단계에서, 업데이트된 현재 정동 상태 데이터가, 예를 들어, 통신 시스템(106)을 통해 청취자 장치(190)로부터 수신된다. 324 단계에서, 정동 추론 머신 러닝 모델(예: 정동 추론 신경망(140))은, 상세히 후술되는 바와 같이, 업데이트된 현재 정동 상태 데이터를 사용하여 학습된다. 이 단계는 통상적으로 사용자 세션을 완료한다.
본원에 기술된 실시예에서, 세그먼트 식별 머신 러닝 모델(예: DQN(120))은 또한 추론 학습 프로세스(224) 및/또는 직접 학습 프로세스(270) 중 하나 또는 둘 모두를 사용하여 학습된다. 이러한 학습은 사용자 세션의 종료 시 또는 청취자가 시스템(100)을 사용하지 않는 유휴 시간 동안 발생할 수 있다. 326 단계에서, 세그먼트 식별 머신 러닝 모델(예: DQN(120))은 추론 학습 프로세스(228)를 사용하여 재학습된다. 보상 데이터(273)는 추론된 새로운 정동 상태(226) 및 타깃 정동 상태(214)에 기초하여 보상 기능(272)에 의해 생성된다. 이러한 학습 단계는, 더 상세히 후술되는 바와 같이, DQN(120)의 초기 학습을 반복할 수 있다. 이러한 학습은 비동기식으로 및/또는 오프라인으로 발생할 수 있다.
328 단계에서, 세그먼트 식별 머신 러닝 모델(예: DQN(120))은 직접 학습 프로세스(270)를 사용하여 재학습된다. 보상 데이터(273)는, 세션의 종료 시 청취자 장치(190)를 통해 청취자로부터 수신된 업데이트된 현재 정동 상태 데이터(212)를 사용하여 보상 기능(272)에 의해 생성된다. 이러한 학습은 또한 비동기식으로 및/또는 오프라인으로 발생할 수 있다.
일부 실시예에서,308 단계 직후에 318 단계 및 320 단계를 수행하여, 308 단계에서 이루어진 제1 예측 후에 오디오 스트림을 생성하는 것이 가능하다. 이들 실시예에서, 신뢰할 수 있는 현재 정동 상태 데이터(212)의 연속 스트림이 사용자로부터 수신되어, 추론된 정동 상태 데이터(226)에 대한 필요성을 회피한다. 이들 실시예에서, 318 단계는 308 단계 이후에 발생하고, 그런 다음 320 단계 및 322 단계가 뒤따르고, 직접 사용자 피드백을 통해 획득된 새로운 정동 상태 데이터(226)를 갖는 308 단계로 복귀한다. 이 프로세스는 바람직한 길이의 오디오 경험이 완료될 때까지 여러 번 반복될 수 있다. 이들 실시예에서, DQN(120)의 학습 프로세스는 단지 직접 사용자 피드백을 사용하여 수행되어, 310, 312, 324 및 326 단계에 대한 필요성을 제거한다.
이제, 각 모델을 학습하기 위한 프로세스를 포함하여, 정동 추론 머신 러닝 모델 및 세그먼트 식별 머신 러닝 모델의 예시적인 구현이, 도 4a, 도 4b 및 도 5를 각각 참조하여, 보다 상세하게 설명된다.
도 4a는 정동 추론 신경망(140)으로서의 정동 추론 머신 러닝 모델의 예시적인 실시예의 개략도를 도시한다. 정동 추론 신경망(140)은 뉴런(408)의 적어도 하나의 입력층(402), 하나 이상의 중간층(404), 및 하나의 출력층(406)을 포함한다. 입력층(402)은 (본원에서 제1 MIR 특색 값(412) 내지 제M MIR 특색 값(414) 및 하나 이상의 비-MIR 데이터 값(416)으로 도시된) 데이터 입력 값을 수신하고, 제1 중간층(404) 내의 뉴런에 출력(410)을 제공하기 위해 공지된 기술을 사용하여 이들 입력을 변환한다. 중간층(404) 각각의 뉴런(408)은 이전 층으로부터 수신된 출력(410)의 각각을 가중하고 가중된 출력 값을 변환하여 다음 층에 대한 출력(410)의 추가 세트를 생성한다. 출력층(406)의 뉴런(408)은 유사하게 그들의 수신된 출력(410)을 가중하고, 가중된 출력을 변환하여 (본원에 유의성(420) 및 활성화(422)로서 도시된) 출력 값을 생성한다. 학습 동안 각 뉴런(408)의 입력에 인가된 가중치를 조정함으로써, 정동 추론 신경망(140)은, MIR 특색 값(412 내지 414)와 같은 오디오 특색 세트에 대한 청취자의 (본원에서 추론된 유의성 값(420) 및 활성화 값(422)로서 정의된) 가능한 정동 반응을 추론하도록 학습될 수 있다. 추가적인 비-MIR 또는 비-오디오 특색 값은 또한 정동 추론 신경망(140)을 학습하고 실행하는 데 사용될 수 있다: 예를 들어, 일부 실시예는, 하루 중 시간 또는 청취자 환경과 같은 변수를 사용하여 정동 추론 신경망(140)이 사용자의 가능한 정동 반응에 대한 추론을 하는 것을 지원할 수 있다.
다른 실시예에서, 상이한 머신 러닝 모델이 도 4a, 도 4b 및 도 5에 도시된 신경망을 대체하여 사용될 수 있다. 정동 추론 신경망(140)은, 음악 및/또는 오디오의 선택에 기초하여 사용자의 정동 상태를 추론하는 데 필요한 동일한 핵심 입력 및 출력을 유지하면서, 다양한 형태의 감독 및 비감독 머신 러닝 시스템으로 대체될 수 있다. 유사하게, DQN(120)은, 청취자에게 바람직한 정동 궤적을 유도하는 데 있어 추론된 효과에 기초하여 오디오 세그먼트를 선택하는 데 필요한 동일한 핵심 입력 및 출력을 유지하면서, 다양한 형태의 감독 및 비감독 머신 러닝 시스템으로 대체될 수 있다.
일부 실시예에서, 순환 신경망이 정동 추론 신경망(140)에 사용될 수 있고, 이에 의해 시계열에 대한 MIR 특색이 일련의 입력으로서 사용될 수 있게 하고, 음악의 전체 세그먼트에 대한 시간 기반 MIR 특색의 평균 표현 대신에 음악 특색의 시퀀스에 기초하여 추론된 상태의 출력을 초래한다. 이는 정동 추론 신경망(140)의 예측이 시계열에 걸쳐 더 세분화되고, 음악적 경험을 보다 현실적인 표현을 제공하게 할 수 있다(인간 인식은 트랙이 아니라 응집력 있는 전체로서 시간이 지남에 따라 음악을 인식하기 때문에).
도 4b는 예시적인 순환 정동 추론 신경망(AINN)(430)을 도시한다. MIR 추출 프로세스(225)는 오디오 세그먼트 식별 프로세스(222)에 의해 선택된 오디오 세그먼트(230)로부터 세그먼트 MIR 특색(183)을 추출하는 데 사용되며, 본원에서 오디오 세그먼트(230)의 글로벌 MIR 특색의 N개 길이 어레이(433)로 지칭되고, 제1 글로벌 MIR 특색(435) 내지 제N 글로벌 MIR 특색(436)으로 도시되어 있다. 글로벌 MIR 특색은 전체 오디오 세그먼트(230)의 음악 특색(예: 템포)을 나타낼 수 있다. 오디오 세그먼트(230)의 일련의 짧은 서브-세그먼트(에포크라고도 함)(예: 30초 서브-세그먼트)는 또한 MIR 추출 프로세스(225)에 의해 MIR 특색에 대해 각각 분석되어 복수의 시계열 MIR 특색 어레이를 생성하고, 각각의 시계열 MIR 특색 어레이(434)는 서브-세그먼트에 대응하고, 현재 서브-세그먼트에 대한 제1 시계열 MIR 특색(438) 내지 제N 시계열 MIR 특색(440)을 포함한다. 시계열 MIR 특색 어레이(434)의 시계열 MIR 특색(438 ... 440) 각각은 오디오 세그먼트(230)의 현재 에포크의 특색, 예를 들어 오디오 세그먼트(230)의 시간에서 특정 에포크에 대한 멜-주파수 켑스트럼(MFC) 스펙트로그램 값을 나타낸다.
각각의 시간 단계에서, 글로벌 MIR 특색 어레이(433)의 각각의 글로벌 MIR 특색 및 현재 에포크(예: 첫번째 30초 서브-세그먼트로 시작함)에 대한 시계열 MIR 특색 어레이(434)의 각각의 MIR 특색은, 현재 정동 상태(212)와 같은 다른 입력 데이터 및 맥락 정보(432)와 같은 다른 데이터와 함께, 순환 정동 추론 신경망(430)에 대한 입력으로 제공된다. 맥락 정보(432)는, 예를 들어, 사용자의 프로필(예: 성격, 나이, 성별 등), 취향 프로필(예: 음악 선호도), 하루 중 시간, 날씨 등을 나타내기 위해 저장된 값을 포함할 수 있다. 각각의 후속 시간 단계에서, 후속 에포크(예: 두번째 30초 서브-세그먼트)에 대한 시계열 MIR 특색 어레이(434)는 다른 입력(212, 432, 435 ... 436)과 함께 입력(438 ... 440)으로 제공되고, 시계열 뉴런의 출력은 피드백 입력의 추가 세트로 제공되어, 시간 기반 순환을 제공한다. 순환 정동 추론 신경망(430)은, 이들 입력에 기초하여, 오디오 세그먼트(230)를 청취함으로써 청취자에게 유도될 추론된 정동 상태(450)(예: 유의성 및 활성화 값)를 예측한다.
정동 음악 추천 시스템(100)의 일부로서 배치되기 전에, 정동 추론 신경망(140)은 먼저 초기 학습 프로세스를 거칠 수 있다. 일부 실시예는 다음 공개에 기술된 것과 유사한 기술 및/또는 데이터세트를 사용하여 초기 학습을 수행할 수 있다: Vempala, Naresh & Russo, Frank. (2012). 신경망을 사용하여 음악 오디오 특색에서 감정을 예측한다. 제9차 컴퓨터 음악 모델링 및 검색에 관한 국제 심포지엄(CMMR)의 의사록(이하 Vempala)은 그 전체가 참조로서 본원에 통합된다. Vempala는 음악 컬렉션 중 선택된 MIR 특색의 서브세트를 사용하여 신경망을 학습시켜 음악을 듣는 인간 대상체의 정동 반응을 예측하는 것을 기술한다. 특히, Vempala는 역학, 리듬, 음색, 음고 및 음조에 관련된 13개의 낮은 수준 및 중간 수준 MIR 특색을 사용한다: rms, 저에너지, 이벤트 밀도, 템포, 맥박 명료도, 제로크로스, 중심, 확산, 롤오프, 밝기, 불규칙, 비조화 및 모드. 음악의 이러한 MIR 특색은, 유의성 및 각성(즉, 활성화) 출력 값을 생성하는, 피드포워드 신경망에 대한 입력으로서 사용된다. 자가 보고되는 정동 유의성 및 각성 정보는 음악을 들은 후 대상체로부터 수집된다. 그런 다음, 역전파는 예측된 유의성/각성 출력을 사용자 자가 보고 데이터와 비교하는 손실 기능을 사용하여 신경망을 학습시키는데 사용된다.
예시적인 실시예는 Vempala에서 사용된 13개의 특색과 상이한 오디오 특색 세트를 사용하여 정동 추론 신경망(140)의 초기 학습을 수행할 수 있다.
Vempala는 관심 있는 다양한 MIR 특색 값을 0 내지 1의 척도로 정규화한다. 유사하게, 예시적인 실시예는 정동 추론 신경망(140)에 의해 사용되는 MIR 데이터 및/또는 다른 오디오 데이터 또는 비-오디오 데이터를 정규화할 수 있다.
일단 초기 학습이 완료되면, 정동 추론 신경망(140)은 오디오 특색에 대한 청취자-독립적 정동 반응을 예측하는 데 효과적인 것으로 간주될 수 있다. 그러나, 정동 추론 신경망(140)을 학습시켜 특정 청취자의 정동 반응을 예측하기 위해, 해당 청취자로부터의 정동 피드백을 사용하여 학습될 수 있다. 배치된 정동 추론 신경망(140)은 또한 더 많은 오디오 특색 및 비-오디오 특색을 입력으로 사용하여 해당 청취자의 정동 반응에 덜 보편적인 인자의 영향을 식별할 수 있다. 310 단계에서 이루어진 정동 추론을 322 단계에서 청취자로부터 수신된 업데이트된 현재 정동 상태 데이터와 비교함으로써, 정동 추론 신경망(140)은 역전파 또는 다른 학습 기술을 사용하여 그의 뉴런(408)에 의해 사용된 가중치를 업데이트하여 오디오 특색 값 세트에 대한 청취자의 정동 반응의 모델링을 개선할 수 있다.
일부 실시예는, 오디오 세그먼트를 청취하고 그 전후에 정동 상태 데이터를 제공함으로써, 청취자가 주문형으로 자신의 개인화된 정동 추론 신경망(140)을 학습할 수 있게 하는 추론 학습 프로세스를 제공할 수 있다. 이러한 데이터는 상술된 바와 같이 정동 추론 신경망(140)을 학습하는 데 사용될 수 있다.
사용 중에 또는 학습 중에, 정동 추론 신경망(140)은 때때로 이상치, 즉 정동 추론 신경망(140)의 예측과 매우 상이한 청취자의 정동 반응을 유도하는 오디오 자극을 직면할 수 있다. 과적합을 피하기 위해, 이들 이상치 자극으로부터의 피드백 데이터는 학습에 사용되는 피드백 데이터와 분리될 수 있다. 이러한 분리된 데이터는 별도의 분석 프로세스에 의해 사용되어, 자극에 대한 청취자의 특이 반응에서 패턴을 식별하는 데 도움을 줄 수 있는 청취자 특정 데이터를 추출할 수 있다. 예를 들어, 청취자는 오디오 세그먼트와 무관한 청취자의 환경의 다른 이벤트로 인해 오디오 세그먼트를 청취하는 동안 극단적인 정동 반응을 하거나, 해당 노래의 오디오 특색과 무관한 특정 노래와 감정적으로 연관될 수 있다. 이러한 비-오디오-특색-관련 연관성은, 정동 추론 신경망(140)을 학습하는 데 사용되지 않을 수 있지만, 대신에, 예를 들어, 미래의 예측의 정확성을 보조하기 위해 정동 추론 신경망(140)에 대한 입력으로서 잠재적으로 사용될 수 있는 비-오디오 데이터를 식별하는 데 사용될 수 있다.
도 5는 딥 러닝 신경망 또는 딥 Q 네트워크(DQN)(120)으로서 오디오 세그먼트 식별 머신 러닝 모델의 예시적인 실시예의 개략도를 도시한다. DQN(120)은 뉴런(508)의 적어도 하나의 입력층(502), 하나 이상의 중간층(504), 및 하나의 출력층(506)을 포함한다. 도 4a의 정동 추론 신경망(140)에서와 같이, 입력층(502)은 데이터 입력 값을 수신하고 알려진 기술을 사용하여 이들 입력을 변환하여 출력(510)을 제1 중간층(504) 내의 뉴런에 제공한다. 중간층(504) 각각의 뉴런(508)은 이전 층으로부터 수신된 출력(510)의 각각을 가중하고 가중된 출력 값을 변환하여 다음 층에 대한 출력(510)의 추가 세트를 생성한다. 출력층(506)의 뉴런(508)은 유사하게 그들의 수신된 출력(510)을 가중하고 가중된 출력을 변환하여 출력 값을 생성한다.
DQN(120)은 표준 딥 러닝 신경망과 실질적으로 동일하며, 이의 주요 차이점은 강화 학습(RL) 환경(531)을 탐색할 때 강화 학습(RL) 에이전트(530)의 핵심 예측 구성 요소로서 사용된다는 것이다. 이러한 유형의 딥 러닝 신경망은 또한 역전파와 같은 학습 기술을 사용하지만, DQN 모델에서는 보상 데이터(273)가 학습 프로세스를 구동하는 데 사용되는데, 정동 추론 신경망(140)에 사용된 표준 딥 러닝 신경망의 학습 프로세스에서 볼 수 있는 상관된 데이터세트와는 대조적이다. Q-러닝 시스템을 모델로 한, 이 시스템은 표준 Q-테이블을 딥 Q 네트워크로 대체하여 RL 에이전트(530)를 기하급수적으로 더 빠르게 학습할 수 있게 한다. 표준 Q-테이블에서, 환경의 현재 상태에 기초한 모든 가능한 행동의 Q-값이 학습 동안의 이전 세션에 기초한 표 형식으로 도시되어 있다. 이는 RL 에이전트(530)가 성능을 최적화할 수 있기 전에 각 상태-행동 관계의 다중 반복을 필요로 한다. 많은 수의 상태와 행동이 있는 경우, 이 교육은 비용이 많이 들고 비효율적이 된다. Q-테이블을 딥 러닝 신경망 또는 DQN(120)으로 대체함으로써, 네트워크의 입력은 모든 가능한 상태 관계를 나타내고, 출력은 모든 가능한 행동의 Q 값을 나타낸다. 이러한 네트워크는 각각의 반복을 통해 모든 행동의 값을 근사화하는 관계형 학습을 허용하여, RL 에이전트의 성능을 최적화하는 데 걸리는 시간을 획기적으로 감소시킨다. 예를 들어, LeCun, Yann & Bentio, Y. & Hinton, Geoffrey. (2015). 딥 러닝. Nature. 521. 436-44. 10.1038/nature14539, 및 Mnih 외, 2013, 딥 강화 러닝으로 아타리(Atari) 플레이하기, Nature. 518. 529-533. 10.1038/Nature14536 참조, 이들 각각은 그 전체가 참조로서 본원에 통합된다.
도 5에 도시된 바와 같이, Q-값(520 ... 522)은, 오디오 세그먼트(530)를 선택하고 오디오 세그먼트(530)를 2개의 대안적인 환경(실제 환경, 즉 사용자의 실제 정동 상태, 또는 시뮬레이션 환경, 즉 정동 추론 프로세스(224)) 중 하나에 공급함으로써 행동(532)을 취하는 강화 학습 에이전트(530)에 공급된다. 전자의 경우, 스트림 생성 프로세스(240)는 오디오 스트림을 생성하고 이를 청취자 장치(190)에 전송하고, 이어서 청취자 장치(190)는 청취자가 오디오 스트림에 노출된 후에 업데이트된 현재 정동 상태 데이터(212)를 제공한다. 후자의 경우, 오디오 세그먼트(234)는, 추론된 새로운 정동 상태(226)를 생성하는 정동 추론 프로세스(224)에 공급된다.
도 5에 도시된 입력(제1 DQN 입력(512), 타깃 상태 값(514), 및 현재 상태 값(516))은 예시적인 실시예에서 사용된 입력의 부분적이고 단순화된 목록이다. 일부 실시예에서, DQN 입력(예컨대, 제1 DQN 입력(512))은 도 2a 및 도 2b를 참조하여 상술된 맥락적 단서(191)를 포함할 수 있다. 예시적인 실시예는 런타임에 다음의 입력 목록을 사용할 수 있다: 모드(타깃 정동 상태, 예컨대 "진정", "집중" 또는 "활력"를 나타냄). 단계 카운트(오디오 스트림(234)에서 시퀀스에 포함될 오디오 세그먼트(230)의 총 수를 나타냄), 현재 단계(오디오 세그먼트(230)의 시퀀스 중 어느 것이 현재 식별되고 있는 지 나타냄), 초기 상태 유의성(세션의 시작 시 식별된 청취자의 현재 정동 상태(212)의 유의성 값), 초기 상태 활성화(세션의 시작 시 식별된 청취자의 현재 정동 상태(212)의 활성화 값), 업데이트된 상태 유의성(추론된 새로운 정동 상태(226) 또는 현재 단계 전에 업데이트된 현재 정동 상태(212)의 유의성 값), 및 업데이트된 상태 활성화(추론된 새로운 정동 상태(226) 또는 현재 단계 전에 업데이트된 현재 정동 상태(212)의 활성화 값).
사용자가 어떻게 느끼는지 및 현재의 음악 취향 선호도가 무엇인지에 따라 사용자는 임의의 주어진 날에 변경되는 음악에 대해 매우 상이한 반응을 보일 수 있다. 따라서, 일부 실시예에서, 시스템(100)은 딥 Q 네트워크(120) 및 정동 추론 신경망(140)에 추가 입력을 제공하여 다른 인자가 예측 프로세스에 영향을 미칠 수 있게 함으로써 추가 개인화 방법을 구현할 수 있다. 일부 실시예에서, 사용자가 해당 순간에 찾고 있는 바람직한 음악적 미학을 식별하고 추가 입력으로 제공할 수 있다. 예를 들어, 사용자가 슬퍼서, 시끄럽고 반항적인 음악(예: 록 음악)을 듣고 싶은 경우, 이들이 슬퍼서 사색적이고 복합적인 음악(예: 클래식 음악)을 듣고 싶은 경우보다 MIR 특색의 조합, 트랙 라이브러리 또는 오디오 세그먼트 선택에 대해 다른 반응을 보일 가능성이 높다. 현재 정동 상태(예: 슬픈 상태)와 현재 바람직한 음악의 감정적 내용(예: 시끄럽고 반항적 대 사색적이고 복합적) 간의 이러한 구별은 데이터 값을 사용하여 표현될 수 있고, 도 4a, 도 4b 및/또는 도 5의 신경망(120 및 140)에 추가 입력으로 제공된다(예: 입력층(402 또는 502)에 대한 "현재의 음악 취향 선호도" 입력).
사용자 프로필 데이터는 또한 도 4a, 도 4b 및 도 5에 표시된 신경망(120 및 140)에 대한 잠재적 입력으로서 활용될 수 있다(예: 입력층(402 또는 502)에 대한 하나 이상의 "사용자 프로필 데이터" 입력). 사용자 프로필 데이터는 사용자 인구 통계, 기준 음악 취향 프로필, 기준 기분 프로필, 및 성격 프로필과 같은 데이터 필드를 포함할 수 있다. 이들 및 다른 사용자 프로필 데이터는, 사용자가 자신의 현재 상태를 고려하여 음악 트랙 또는 MIR 특색에 어떻게 반응할지 예측하는 경우 잠재적으로 모두 값을 가질 수 있다. 이러한 데이터의 일부는 도 8 및 도 9를 참조하여 후술하는 사용자 인터페이스 스크린을 사용하여 사용자로부터 수집될 수 있다. 일부 이러한 데이터는 또한 도 6 및 도 7의 사용자 인터페이스 스크린을 통해 사용자에 의해 제공된 사용자 입력에 기초하여 시스템(100)에 의해 추론될 수 있고; 예를 들어, 사용자의 음악 장르 선호도는 다수의 세션에 걸쳐 도 6의 UI 스크린(608)에서 사용자의 장르 선택으로부터 추론될 수 있다.
하루 중 시간 및 사용자의 주변 환경(예: 이들이 시끄럽거나 조용한 장소에 있는지 여부)과 같은 맥락 정보가 또한 시스템(100)에 의해 관련 데이터의 소스로 사용될 수 있고, 도 4a, 도 4b 및/또는 도 5의 신경망의 입력층(402 및/또는 502)에 대한 하나 이상의 추가 데이터 입력으로 제공될 수 있다. 사용자의 현재 환경 및 맥락은, 음악이 사용자에 의해 인지적으로 수신되는 방식에 큰 영향을 미칠 수 있고, 시스템(100)에 귀중한 입력 데이터를 제공할 수 있다. 맥락 데이터는 시스템(100)에 의해, 예를 들어 도 6의 스크린(604 및 610) 및 도 10의 스크린(1002)에 도시된 사용자 상호 작용에 의해 수집될 수 있다.
사용자의 현재 상태 값(516)은 또한 도 4a의 입력 뉴런(402)에 대한 입력으로 제공될 수 있다. 사용자의 현재 상태 값(516)을 사용하여 정동 추론 신경망(140)의 예측을 알림으로써, 시스템(100)은, 사용자의 정동 결과가 MIR 특색의 조합에 노출될 것을 예측할 때, 사용자의 현재 정동 상태를 고려할 수 있다. 예를 들어, 음악의 세그먼트는 사용자의 시작 감정 상태에 따라 매우 상이한 두 가지 감정을 유발할 수 있다.
추론 학습 모드 동안, 입력층 뉴런(502)은 초기 가중치를 DQN(120)으로 설정하기 위해 정동 추론 신경망(140)으로부터 출력 데이터를 수신할 것이다. 타깃 상태 값(514)뿐만 아니라 다른 모든 가변 파라미터(예: 단계 수)가 랜덤으로 생성되고, 그런 다음 출력된 오디오 세그먼트 Q 값(520 내지 522)이 RL 에이전트(530)에 의해 사용되어 오디오 세그먼트(230)를 선택한다. 이러한 오디오 세그먼트(230)는 MIR 추출 프로세스(225)에 의해 세그먼트 MIR 데이터(183)로 변환되고, RL 환경(531)으로 효과적으로 작용하는 정동 추론 신경망(140)은 RL 에이전트(530)에 의해 취해진 행동에 기초하여 다음 정동 상태가 무엇인지 예측한다. 그런 다음, 이러한 새로운 상태(즉, 추론된 새로운 정동 상태(226))가 예측 시퀀스의 다음 단계에 대한 현재 상태 값(516)으로 사용되고, 이 사이클은 모든 단계가 완료될 때까지 계속된다. 이 전체 시퀀스는 새로운 타깃과 새로운 단계 수가 매번 랜덤으로 생성되는 수천 번의 반복을 거쳐 실행된다. 초기 학습 동안, 이 프로세스는 일반적으로 DQN(120)을 완전히 최적화하기 위해 200,000 내지 500,000번의 반복을 통해 수행된다.
일부 실시예에서, MIR 추출 프로세스(225)는 오디오 세그먼트(230)로부터 세그먼트 MIR 특색(183)을 실시간으로 추출하거나, 이전에 추출된 특색의 표를 참조한다. 오디오 세그먼트로부터의 MIR 특색 추출은 공지된 기술을 사용하여 수행될 수 있다.
학습 중에 각 뉴런(508)의 입력에 인가된 가중치를 조정함으로써, DQN(120)은 다른 오디오 세그먼트 후보에 비해 최적의 Q 값(520 ... 522)을 갖는 오디오 세그먼트(230)를 선택하거나 식별하도록 학습될 수 있으며, 이는 일련의 단계에 걸쳐 또는 정동 궤적(218)을 사용하는 경우 단계당 급성 방식으로 타깃 정동 상태를 유도할 가능성이 높다는 것을 나타낸다. 학습은 초기 학습, 및 유휴 시간 동안 재학습 또는 업데이트의 두 가지 모드로 수행될 수 있다.
DQN(120)의 초기 학습은 각 DQN(120)의 배치 전에 수행된다. 정동 음악 추천 시스템(100)의 각 사용자는, 자신의 개인 계정과 연관된 복수의 DQN(예: DQN(122, 124 내지 126)) 뿐만 아니라, 개인 정동 추론 신경망(140)을 갖는다. 정동 추론 신경망(140)은 상술된 바와 같이 오디오 특색 및 다른 비-오디오 변수의 상이한 조합에 대한 사용자(청취자)의 정동 반응을 모델링하도록 학습된다. 그런 다음, 정동 추론 신경망(140)은 각각의 DQN(120)이 작동하는 환경, 즉, 사용자의 실제 정동 반응을 나타내는 환경을 모델링하는 역할을 한다. 정동 추론 신경망(140)은 모든 추론된 새로운 정동 상태(226) 데이터를 제공하며, DQN(120)을 학습하는 데 사용되는 현재 상태 데이터(516)의 역할을 한다. 초기 학습에서, 보상 기능(272)은 또한 정동 추론 신경망(140)으로부터 새로운 정동 상태(226) 데이터를 공급받아, 사용자가 최종 정동 상태 데이터(즉, 세션의 종료 시 제공된 현재 정동 상태 데이터(212))를 제공할 필요성을 피한다. 초기 학습에서, 각각의 DQN(120)은 상이한 입력 변수 조합을 포함하는 학습 요법을 통해 진행된다. 학습 요법은, 예를 들어, 각 입력 변수에 대한 랜덤 값을 생성하고 사전 결정된 강화 반복 회수에 대한 상이한 랜덤 입력 세트를 반복함으로써, 랜덤으로 생성될 수 있다. 다른 실시예에서, 학습 요법은, 강화의 각 반복 후에 사전 결정된 양만큼 변경되는 초기 및 타깃 정동 상태 입력 둘 다에 대한 유의성 및 활성화 값과 함께, 예를 들어, 전체 정동 공간을 커버하는 상이한 입력 값에 대한 체계적인 조사를 포함할 수 있다. 일부 실시예에서, 학습 중에 사용되는 DQN(120)에 대한 입력은 상술된 바와 같이 런타임 동안 사용되는 것과 상이하다: 예를 들어, 단계 수 및 최종 타깃 정동 상태(214)를 향한 진행 상황을 추적하기 보다는, DQN(120)은 각각의 오디오 세그먼트 선택 단계의 정확도를 개별적으로 단순히 평가할 수 있다.
일부 실시예에서, 유휴 시간 동안 DQN(120)의 재학습 또는 업데이트는 또한 새롭게 업데이트된 정동 추론 신경망(140)을 사용하여 수행될 수 있다. 정동 추론 신경망(140)은, 위에서 언급한 바와 같이, 청취자로부터의 실제 업데이트된 현재 정동 상태 피드백을 사용하여 사용자 세션 후에 업데이트된다. 일단 정동 추론 신경망(140)이 업데이트되면, 각각의 DQN(120)은 사용자가 시스템에 관여하지 않을 때 시스템 유휴 시간을 사용하여 업데이트된 정동 추론 신경망(140)을 사용하여 스스로를 재학습시킬 수 있다. 초기 학습 요법은 각각의 DQN(120)에 다시 적용되어, 환경 시뮬레이션으로 업데이트된 정동 추론 신경망(140)을 사용하여 이를 재학습시킨다.
DQN(120) 대신에 상이한 강화 학습 접근법을 사용하는 실시예에서, 도 5에 도시된 DQN(120)은 잠재적으로 상이한 강화 학습 알고리즘 표현일 수 있고, 입력층 뉴런(502)에 대한 입력(512, ... 514, ... 516)으로 제공되는 모든 데이터(예: 단계 카운트 값 또는 타깃 상태 값)는 선택된 강화 학습 알고리즘에 의해 사용되는 바와 같이 환경의 상태를 나타내는 입력 데이터의 벡터로서 처리될 수 있다. 이러한 입력 벡터는 여전히 DQN(120)을 대체하는 알고리즘의 추론 거동을 가능하게 하는 데이터로서 처리될 것이다. 일부 실시예에서, DQN(120) 및 강화 학습 에이전트(230)의 기능은, 상술된 바와 같이, 오디오 세그먼트(230)를 생성하는, 에이전트의 동작(532)을 예측하기 위해 입력 벡터(512, ... 514, ... 516)을 사용하는 단일 모델 또는 알고리즘에 의해 수행될 수 있다. DQN(120) 및/또는 RL 에이전트(230)를 대체하는 알고리즘은 상이한 DQN, 간단한 Q-테이블, 행위자/비평가 모델, 또는 모델 기반 RL 알고리즘 내의 환경 모델/계획자 구현일 수 있다. 상이한 접근법은 다양한 장점과 단점을 제공할 수 있지만, 이들은 모두 이론적으로 유사한 결과를 제공할 수 있다.
사용자의 현재 정동 상태(212)를 결정하기 위한 생리학적 데이터(208)의 사용은, 웨어러블 센서, 카메라, 및/또는 다른 센서와 같은, 정동 연산 분야에서 공지된 센서 및 기술을 사용할 수 있다. 피부 전기 반응(Galvanic skin response, GSR), 뇌파검사(electroencephaligraphy, EEG) 신호, 호흡 패턴, 심박수, 동공 확장, 피하 혈류, 근긴장도, 및 기타 바이오마커는 인간에서의 다양한 정동 현상과 상관될 수 있다. 이들 바이오마커는 GSR 센서, 호흡 센서, 심전도 또는 뇌파도 전극, 가시 및/또는 비가시 광 스펙트럼을 사용하는 능동 또는 수동 시각 센서, 안구 추적 시스템, 및 근전도 전극과 같은 바이오센서를 사용하여 검출될 수 있다. 하나 이상의 이러한 센서는 생리학적 데이터(208)를 수집하기 위해 시스템(100)과 함께 사용될 수 있으며, 이는 정동 음악 추천 시스템(100)에 의해 또는 시스템(100) 외부의 프로세스에 의해 처리되어 청취자의 정동 상태를 식별할 수 있다. 일부 경우에, 생리학적 데이터(208)는 청취자 장치(190)에 의해 수집되고/되거나 처리된다. 생리학적 데이터(208)의 수집 및/또는 처리는 다음에 기술된 것과 같은 기술을 사용하여 수행될 수 있다: Shu L, Xie J, Yang M 등. 생리학적 신호를 사용한 감정 인식 검토. 센서(Basel). 2018;18(7):2074. 2018년 6월 28일 발행. doi:10.3390/s18072074, 이는 그 전체가 참조로서 본원에 통합된다. 다른 실시예에서, 이러한 생리학적 데이터는 또한, 다른 바이오마커가 이 시스템을 사용하여 바람직한 결과에 연결될 때, 정동 상태 데이터 이외에 별도의 입력으로 사용될 수 있다. 예를 들어, 바람직한 결과가 타깃 정동 상태 뿐만 아니라 타깃 생리학적 결과(즉, 10%의 심박수 감소)를 포함하는 실시예에서, 생리학적 데이터는 또한 사용자의 현재 상태(516) 및 타깃 상태(514)를 나타내는 요소로서 사용될 수 있다.
청취자로부터 수집된 다른 데이터는 또한 정동 상태를 추론하는 데 사용될 수 있다. 카메라 데이터는 정동 상태 또는 정동 반응과 상관된 얼굴 표정 또는 다른 거동 패턴을 분석하기 위해 사용될 수 있다. 음성 녹음 또는 전사는 정동 상태 또는 정동 반응과 상관된 운율, 억양, 또는 음성 내용의 패턴을 드러낼 수 있다. 일부 실시예에서, 청취자 장치(190) 또는 시스템(100) 내부 또는 외부의 다른 프로세스는, 청취자의 현재 정동 상태(212)를 식별하는 것을 돕기 위해 카메라, 음성 또는 다른 사용자 데이터를 수집 및/또는 처리하는 데 사용될 수 있다. 예를 들어, 사용자의 얼굴을 보여주는 카메라 데이터는 다음에 기술된 것과 같은 기술에 따라 정동 상태 정보를 위해 분석될 수 있다: Samara, A., Galway, L., Bond, R. 등. 인간-컴퓨터 상호작용 맥락에서 얼굴 표정 분석을 통한 정동 상태 검출. J Ambient Intel Human Comput 10, 2175-2184 (2019) doi:10.1007/s12652-017-0636-8, 이는 그 전체가 참조로서 본원에 통합된다.
도 6 내지 도 10은 예시적인 사용자 인터페이스(UI) 스크린을 도시한다. 이들 스크린은 청취자 장치(190)의 터치스크린(194) 상에서 사용자에게 표시될 수 있고, 사용자 입력을 수집하고 사용자에게 정보를 제공하는 역할을 할 수 있다. 도 6을 참조하면, 정동 음악 추천 시스템(100)과의 상호작용 세션을 시작하기 위해 사용자에게 제시되는 UI 스크린의 세션 개시 시퀀스(600)가 도시되어 있다. 제1 스크린(602)은 사용자에게 모드 옵션 세트를 제공하며, 각각의 모드는 타깃 정동 상태(214)에 대응한다. 이 스크린(602)에 도시된 모드는 "집중"(예: 높은 활성화에 상응함) 및 "진정"(예: 낮은 활성화에 상응함)이다. "당신의 AI를 학습시킨다" 입력 영역 또한 제시되는데, 선택된 경우, 사용자가 상술된 바와 같이 정동 추론 신경망(140)에 대한 추론 학습 프로세스에 진입할 수 있게 한다.
사용자가 타깃 정동 모드를 선택한 경우, 시스템(100)은 이 입력을 사용하여 사용자 세션 동안 사용될 타깃 정동 상태(214)를 결정할 수 있다. 그런 다음, 제2 스크린(604)이 사용자에게 제시되어, 사용자는 자신의 현재 설정 또는 환경의 성질, 예를 들어, 환경이 조용하고 사적인지, 시끄럽고 사적인지, 조용하고 공개적인지, 시끄러우며 공개적인지, 또는 여행으로 인해 시간에 따라 변하는지 여부를 식별할 수 있다. 제3 스크린(606)은 사용자가 재생 목록 모드와 몰입 모드 사이에서 선택할 수 있게 한다. 이 스크린(606)은, 예를 들어, 사용자에게 (재생 목록 모드에서) 재생 목록을 보여주는 스트림 데이터(236)를 제시하거나 단순히 스트림 데이터(236)가 오디오 스트림(234) 자체를 포함하도록 할 수 있고, 추가 사용자 상호 작용 없이 청각적 표현을 위해 청취자 장치(190)로 직접 전송될 수 있다. 일부 실시예에서, 이러한 모드 선택 스크린(606)은 사용자가 사용자 세션에 사용할 음악 라이브러리(184)로부터의 오디오 세그먼트의 서브세트(220)(및, 따라서, DQN(122, 124 내지 126)로부터 선택할 DQN)를 지정하도록 할 수 있다.
제4 스크린(608)은 사용자가 사용자 세션에 사용할 음악 장르를 선택할 수 있게 한다. 이는 사용자 세션에 사용할 오디오 세그먼트의 가능한 서브세트(220)을 선택하거나 더 좁힐 수 있다. 제5 스크린(610)은 사용자가 오디오 스트림(234)에 대한 지속시간을 선택할 수 있게 한다. 사용자 선택 지속 시간은 오디오 스트림(234)에 포함할 오디오 세그먼트(230)의 수를 결정하는 데 사용될 수 있으며, 이는 결과적으로 얼마나 많은 세그먼트 식별 단계가 DQN(120)에 의해 수행되는지 결정한다. 일부 실시예에서, 사용자는 또한 이 스크린(610)을 사용하여 분위기 트랙을 선택하고 세션의 길이(즉, DQN(120)에 의해 수행될 단계의 수) 또는 오디오 스트림(234)의 다른 오디오 특징을 결정할 수 있다.
제6 스크린(612)은 사용자가 자신의 현재 정동 상태(212)를 식별할 수 있게 한다. 도시된 실시예는, 수직 축으로서 활성화 및 수평 축으로서 유의성을 갖는, 정동 공간의 2차원 표현을 사용한다. 2차원 공간은 명명된 정동 상태에 대응하는 복수의 영역으로 추가로 채워진다: 예를 들어, 공간의 우측 상단 사분면에 있는 녹색 영역은 "활력"이라고 명명되어 있다. 좌측 상단 사분면의 적색 영역은 "긴장"으로 명명되고, 좌측 하단 사분면의 흰색 영역은 "슬픔"으로 명명되고, 우측 하단 사분면의 청색 영역은 "진정"으로 명명되고, 중앙 좌측 영역의 짙은 회색 또는 검은색 영역은 "공포"로 명명되고, 중심 주위의 회색 영역은 "중립"으로 명명된다. 사용자는, 공간 중심 부근에 백색 원으로 여기에 도시된 상태 표시 커서를, 자신의 자기 평가된 현재 정동 상태 또는 기분에 대응하는 공간 내의 위치로 이동시킬 수 있다. 일부 실시예는 또한, 위의 2차원 정동 통계 자가 보고 표시를 보충하기 위한 제3 차원 또는 추가 데이터를 나타내기 위해, 스크린(612)의 하단에 도시된 불안 측정기 슬라이더와 같은 추가 입력을 포함할 수 있다.
제7 스크린(614)은, 사용자가 스크린 6(612)으로부터 자가 보고되는 데이터에 대한 대안으로서 또는 이를 보충하기 위해 얼굴 표정 데이터를 제공할 수 있게 한다. 사용자가 사진을 찍기로 선택하는 경우, 청취자 장치(190)의 카메라 제어 인터페이스를 사용하여 제8 스크린(616)이 표시된다. 일단 사용자가 스크린 8(616)에서 자신의 얼굴의 사진을 찍으면, 제9 스크린(618)은, 예를 들어, 사용자의 얼굴 표정에 기초하여 시스템의 정동 분석으로 주석이 달린 사진을 보여준다.
일부 실시예는, 스크린 6(612)에서와 같이 사용자 입력으로부터 수집된 자가 보고 데이터를 사용하여 사용자 데이터(예: 상술된 바와 같은 생리학적 신호, 음성 데이터 등)와 정동을 상관시키기 위한 안면 정동 분석 프로세스 또는 다른 프로세스를 학습하거나 교정할 수 있다.
일단 사용자의 현재 정동 상태(212)가 스크린 6(612) 및/또는 9(618)로부터의 입력에 기초하여 식별되었으면, 시스템(100)은 오디오 스트림(234)를 생성하고, 상술된 바와 같이 오디오 스트림 데이터(236)를 청취자 장치(190)에 송신한다. 사용자에게는, 음악 재생 제어와 함께, 노래 "Feeling Good"의 제목 및 지속시간으로 여기에 도시된, 스크린(620)의 하단에 있는 음악 제어 디스플레이에서 제1 오디오 세그먼트에 대응하는 메타데이터를 보여주는 제10 스크린(620)이 제시될 수 있다. 스크린(620)의 상단 및 중간에서, 상술된 바와 같이, 사용자가 자신의 현재 정동 상태의 업데이트를 개시하도록 업데이트된 현재 정동 상태 입력 영역이 제공된다.
도 7은 정동 음악 추천 시스템(100)과의 상호작용 세션을 종료하기 위해 사용자에게 제시되는 UI 스크린의 세션 종료 시퀀스(700)를 도시한다. 제1 스크린(702)은 오디오 스트림(234)을 청취한 후, 사용자 세션의 종료 시 사용자의 업데이트된 현재 정동 상태를 보고하기 위한 정동 상태 입력 디스플레이를 제공한다. 이러한 업데이트된 현재 정동 상태 데이터는 상술된 바와 같이 정동 추론 신경망(140)을 업데이트하기 위해 사용된다. 제2 스크린(704)은 제1 스크린(702)으로부터의 자가 보고 데이터를 안면 이미지 데이터로 보충하거나 교체하는 옵션을 제공하며, 이는 세션 전 스크린 7(614) 내지 9(618)와 동일한 프로세스를 따라 이 데이터를 수집하고 분석함으로써 제3 스크린(706)을 생성한다. 그런 다음, 제4 스크린(708)은 스크린(612 및 618)으로부터의 사용자의 초기 보고된 현재 정동 상태(212) 및 스크린(620, 702 및 706)으로부터의 사용자의 후속하여 업데이트된 현재 정동 상태에 기초하여 정동 반응 결과를 사용자에게 보여줄 수 있다. 스크린(708)의 상단에 있는 그래프는 세션에 대한 사용자의 정동 궤적을 보여줄 수 있고, 시간에 따라 하나 이상의 명명된 정동 상태의 식별 및/또는 크기를 포함할 수 있다. 스크린(708)의 하단에 있는 막대 그래프 세트는, 활동 및 유의성 및/또는 자가 보고 및 안면 분석에 의해 사용자의 정동 반응을 분석할 수 있다.
일단 사용자 세션이 종료되면, 시스템(100)은 상술된 바와 같이 DQN(120)을 재학습하기 위해 유휴 시간을 사용할 수 있다.
도 8은 새로운 사용자 또는 시스템에 의해 저장된 자신의 개인 프로필을 업데이트하거나 심화하기로 선택한 사용자에게 제시되는 UI 스크린의 사용자 맞춤화 시퀀스(800)를 도시한다. 제1 스크린(802)은 생년월일 및 성 정체성과 같은 개인 데이터를 제공하도록 사용자를 촉구한다. 제2 스크린(804)은 사용자가 다수의 명명된 정동 상태 각각을 얼마나 자주 자신이 경험하는지 식별하도록 유도한다. 제3 스크린(606)은 명명된 정동 상태의 추가 세트의 빈도에 관해, 그리고 또한 사용자가 얼마나 자주 수면 장애를 겪는지에 관해 사용자를 촉구한다. 제4 스크린(808)은 얼마나 자주 스트레스 또는 불안을 자신이 경험하는지 식별하도록 사용자를 촉구한다. 슬라이더를 통해 제공된 사용자 입력 및 이러한 시퀀스(800)의 다른 사용자 입력 요소에 기초하여, 시스템은 시스템(100)의 다양한 부분의 학습 및/또는 작동을 교정하거나 맞춤화할 수 있다. 예를 들어, 슬픔을 자주 느끼지만 활력을 거의 느끼지 못하는 사용자는, 사용자에게 특정한 정동 상태 값의 기준 또는 평균 세트에 기초하여 이들 상태에 주어진 가중치를 정규화하도록 자신의 정동 추론 신경망(140)을 교정할 수 있다. 시스템은 또한 이러한 사용자 입력 데이터를 사용하여 시스템을 사용하는 방법에 대해 사용자에게 권장하여 정신 건강 또는 기분 관리 목표와 같은 사용자의 목표를 달성할 수 있다. 도 9는 프로필 생성 프로세스의 일부로서 사용자에게 제시된 예시적인 사용자 프로필 데이터 수집 UI 스크린(902)을 도시한다. UI 화면(902)의 상단에 있는 진행 막대는 사용자 프로필 생성 프로세스를 통해 사용자가 얼마나 진행했는지 보여준다. UI 화면(902)의 하단 부분은 사용자가 일반적으로 어느 정도까지 화가 나는지를 나타내는 입력 영역을 보여준다.
도 10은 예시적인 맥락 정보 수집 UI 스크린(1002)을 도시한다. 도 4a, 도 4b 및 도 5의 신경망 또는 강화 학습 알고리즘에 대한 입력으로 사용되는 맥락 정보는 이 스크린(1002)의 맥락 정보 수집 상호 작용을 사용하여 수집될 수 있다. 스크린(1002)의 상단부는 2차원 정동 상태 표시자로서 현재 정동 상태 입력 영역을 보여준다. 스크린(1002)의 하단부는 현재 환경이 조용한지 시끄러운지, 및 사적인지 공적인지를 나타내는 2개의 스위치로서 현재 환경 입력 영역을 도시한다. 맥락 정보는 시스템(100)에 의해 하루 중 시간을 결정하는 데 사용될 수 있는 타임 스탬프와 관련하여 수집될 수 있다.
일부 실시예에서, 다수의 시스템(100), 또는 시스템(100)의 다양한 구성 요소의 다수의 버전(예컨대, DQN(120) 또는 정동 추론 네트워크(140))이 상이한 사용자와 상호 작용하는 데 사용될 수 있다. 다양한 시스템(100) 또는 구성 요소는 사용자에 의해 개별화될 수 있고, 저장 기구는 사용자 식별자에 의해 인덱싱된 상이한 시스템 또는 상이한 모델(예: 120 또는 140)을 저장하는 데 사용될 수 있다.
도 11은 예시적인 다중 모델 시스템(1100)을 도시한다. 이러한 다중 모델 시스템(1100)의 각 사용자는 자신의 모델 또는 모델들을 가질 수 있으며, 이는 개별 사용자가 음악에 반응하는 방식의 독특한 역학을 학습하도록 훈련될 수 있다. 다중 모델 시스템(1100)에서, 청취자의 장치(190)는, 개인화된 DQN(120) 및 개별적으로 학습된 정동 추론 알고리즘(140)과 같은 개인화된 머신 러닝 모델을 저장하는 데이터베이스(1102)에 사용자 식별자(1104)(예: 사용자 ID 번호)를 제공한다. 일부 실시예에서, 이러한 시스템(1100)의 사용자는 오디오 세그먼트(186)의 자체 컬렉션(즉, 서브세트(220))을 생성할 수 있고, 이들은 또한 데이터베이스(1102)에 의해 저장되거나 식별될 수 있다. DQN(122, 124 ... 126)은 해당 사용자에게 고유한 행동(또는 오디오 세그먼트(186)의 서브세트(220))으로 구성되거나 해당 사용자의 음악 라이브러리로부터의 선택일 수 있다.
다중 모델 시스템(1100)의 일부 실시예에서, DQN(120) 및/또는 오디오 세그먼트(186)의 서브세트(220)는 사용자의 기준 음악 취향에 대한 정보를 수집하고(예: 도 8 및 도 9를 참조하여 상술된 사용자 프로필 생성 프로세스의 일부로서), 해당 취향과 맞는 음악을 포함하는 DQN(120) 및/또는 오디오 세그먼트(186)의 서브세트(220)와 사용자를 매치시킴으로써 데이터베이스(1102)로부터 선택될 수 있다. 따라서, 도 11에 도시된 바와 같은 주어진 다중 모델 시스템(1100)은 오디오 라이브러리(184)로부터 선택된 오디오 세그먼트(186)의 특정 사용자 및 특정 서브세트(220)에 특정될 수 있다. 오디오 세그먼트(186)의 서브세트(220)는 사용자의 선택(예: 사용자의 음악 라이브러리)에 기초하여 또는 현재 맥락에서 어떤 세트가 사용자에게 가장 좋을지 결정하는 알고리즘에 의해(예: 사용자의 현재 정동 상태(212), 설정 및/또는 환경에 기초하여) 선택될 수 있다.
일부 실시예에서, 다중 모델 시스템(1100)의 개별 개인화는 여러 단계로 이루어진다. 사용자는 모든 사용자에 기초하여 또는 유사한 프로필의 사용자(예: 그들의 음악 취향, 기준 기분 프로필, 성격 프로필 및/또는 인구통계학적 정보를 공유하는)에 기초하여 학습된 모델로 시작할 수 있다. 게이트 프로세스는 이러한 보다 일반적인 모델로 사용자를 시작하고, 사용자 자신의 개별 모델을 점진적으로 학습하는 데 사용될 수 있다. 이러한 개인화된 모델이 성능 임계값에 도달하면, 런타임 사용을 위해 보다 일반적인 모델을 대체하게 된다.
개인화된 모델이 사용되는 실시예에서, 음악 감상 측정기가 또한 추가되어 DQN 학습 프로세스에서 중요한 입력 데이터를 제공할 수 있다. 사용자가 오디오 세그먼트를 좋아하지 않는 경우, 오디오 세그먼트를 나타내는 트랙에 주석을 달 수 있다. 직접 학습 프로세스(270) 내의 보상 기능(272)은 등급에 따라 보상 또는 페널티를 고려할 수 있다. 이는 사용자가 주어진 오디오 세그먼트를 즐기는지 아닌지 여부를 시스템이 신속하게 알 수 있게 할 것이며, 이는 해당 사용자에게 정동 상태를 유도할 때 오디오 세그먼트의 효과에 큰 영향을 미칠 수 있다.
도 12는 사용자가 재생되는 현재 오디오 세그먼트의 감상에 대한 입력을 제공할 수 있게 하는 예시적인 음악 감상 평가 사용자 인터페이스 스크린(1202)을 도시한다. 스크린(1202)의 상단부는 정동 상태 업데이트 입력 영역을 보여준다. 스크린(1202)의 하단부는 재생 제어를 보여준다. 스크린(1202)의 중간 부분은 사용자가 슬라이더를 움직여 재생 중인 현재 오디오 세그먼트의 즐거움 수준을 표시할 수 있게 하는 음악 감상 입력 영역을 보여준다.
다중 모델 시스템(1100)의 요소는, 맥락적 개인화로 시작하여, 프로필 개인화(각 프로필 그룹의 충분한 사용자가 네트워크에서 활성화되는 경우) 및 심지어 개인주의적 개인화(개별 사용자가 충분한 기록된 세션을 가질 경우)로 발전하여, 시간이 지남에 따라 심층적이고 매우 구체적인 개인화를 허용할 수 있다. 맥락적 개인화는 초기 정동 상태, 현재 음악 선호도, 및 하루 중 시간과 같은 데이터를 포함할 수 있다. 프로필 개인화는 성격, 인구통계학적 정보, 및 기준 음악 취향 프로필과 같은 데이터를 포함할 수 있다.
일부 실시예에서, DQN(120) 및 강화 학습 에이전트(230)의 출력은 오디오 라이브러리(184)로부터 오디오 세그먼트(230)를 선택하는 대신에 라이브러리 MIR 데이터(182)로부터 MIR 특색을 선택하는 것이다.
도 13은 예시적인 MIR-특색 예측 시스템(1300)을 도시한다. 일부 이러한 시스템(1300)에서, DQN(120)의 출력 뉴런(506)은 각 MIR 특색에 대한 수준 또는 값을 결정하는 데 사용되는 MIR 특색당 하나의 뉴런을 포함할 것이다. DQN(120) 출력 세트는, 이어서 MIR 벡터(1302)를 포함하는 쿼리(1304)를 라이브러리(1306)에 송신함으로써 에이전트 행동(532)의 일부로서 오디오 세그먼트(230)(예: 사용자 선택 라이브러리(1306)와 같은 주어진 라이브러리 내의 MIR 특색에 가장 잘 맞는 오디오 세그먼트)와 정합될 수 있는 MIR 벡터(1302)를 나타낼 수 있다. 그런 다음, 이들 MIR 특색(예: MIR 벡터(1302))은 정동 추론 프로세스(224)에 공급될 수 있고/있거나, MIR 특색은 직접 학습 프로세스(270) 중에 사용자에 의해 직접 주석이 달릴 수 있다. 이러한 실시예에서, 한 명의 사용자는 (DQN이 이제 MIR 특색 조합을 결정하기 때문에) 단 하나의 DQN만 가질 수 있지만, 대신에 사용자들은, 그들이 스스로 생성한 사용자의 현재 음악 취향 요건, 기준 프로필, 또는 라이브러리(예컨대, 라이브러리(1306))에 따라 오디오 세그먼트의 하나 이상의 라이브러리(186)를 가질 수 있으며, 이로부터 오디오 세그먼트(230)가 MIR 특색과의 맞춤에 기초하여 선택될 수 있다.
도 14는 주어진 청취자에 특정한 정동 추론 모델(예: AINN(140)) 및/또는 딥 Q 네트워크(122, 124, 126)의 모델 데이터베이스(1402)를 생성하기 위한 예시적인 모델 데이터베이스 생성 프로세스(1400)의 단계 및 구성요소를 도시한다. 모델 데이터베이스(1402)는, 예를 들어, 다중 모델 시스템(1100)의 각 사용자에 대한 모델을 생성하고 학습하기 위해 사용될 수 있다.
모델 데이터베이스 생성 프로세스(1400)는 제너럴리스트 모델 학습 프로세스(1450), 및 개인화된 모델 학습 프로세스(1460)의 2개의 단계를 포함한다. 모델 데이터베이스(1402)는 제너럴리스트 모델(1432) 세트 및 개인화된 모델(1434) 세트로 채워진다. 각 모델(1432, 1434) 세트는, 예를 들어, AINN(140) 및 복수의 DQN(122, 124, 126)을 포함할 수 있다. 일반 모델(1432)은, 개인화된 모델(1434)이 성능 임계값을 달성할 때까지 추론 모드에서 음악을 추천하는 데 사용될 수 있으며, 이 시점에서 시스템(예: 다중 모델 시스템(1100))은 개인화된 모델(1434)을 사용하는 것으로 전환되어 사용자에게 음악을 추천할 수 있다.
일반 모델 학습 프로세스(1450)는 음악 트랙의 MIR 데이터를 사용하여 큐레이션 프로세스(1422)에 기초하여 음악 카탈로그(1420)로부터 음악 트랙의 서브세트를 추출함으로써 시작한다. 음악 카탈로그(1420)는 일부 실시예에서 음악 트랙으로 구성된 오디오 라이브러리(184)일 수 있다. 일부 실시예에서, 음악 트랙은 오디오 세그먼트(230)일 수 있다. 각각의 음악 트랙과 연관된 MIR 데이터는 일부 실시예에서 음악 카탈로그(1420)에 라이브러리 MIR 데이터(182)로서 저장될 수 있고; 다른 실시예에서, 음악 트랙과 연관된 MIR 데이터는, 예를 들어, MIR 추출 프로세스(225)를 사용하여 음악 트랙으로부터 추출될 수 있다.
따라서, 일부 실시예에서, 큐레이션 프로세스(1422)는 각 트랙과 연관된 테마 MIR 메타데이터를 설명하는 레이블링된 데이터세트(즉, 오디오 라이브러리(184))를 필요로 한다. 예를 들어, 음악 카탈로그(1420)는 사랑에 관한 1920년대의 재즈 음악 세트 및/또는 일반적으로 차분한 에너지를 갖는 1960년대의 록 음악 세트를 포함할 수 있다. 큐레이션 프로세스(1422)는 감독 클러스터링 알고리즘과 같은 다수의 공지된 연산 방법 중 임의의 것을 사용하여 알고리즘적으로 수행될 수 있다.
큐레이션 프로세스(1422)에 의해 생성된 음악 트랙의 서브세트는 DQN 프로세스(1424)에 의해 그룹에 의해 사용되어 학습될 각 제너럴리스트 딥 Q 네트워크와 연관된 음악 트랙의 그룹을 생성한다. 특정 MIR 특색을 갖는 오디오 세그먼트(230)와 주어진 DQN 사이의 관계는 도 2a를 참조하여 상술되었다.
또한, 제너럴리스트 모델 학습 프로세스(1450)는, 도 2a 및 도 2b를 참조하여 상술된 바와 같이, 청취 장치(190)로부터 수집된 전체 사용자 모집단으로부터의 기존 사용자 데이터(1426)를 사용한다. 기존 사용자 데이터(1426)는 사용자 프로필 데이터, 사용자의 정동 반응과 상관된 음악을 청취하는 사용자의 기록 등을 포함할 수 있다. 사용자 그룹화 프로세스(1428)는, 사용자 또는 사용자 유형의 그룹을 식별하도록 기존 사용자 데이터(1426)를 묶거나 분할할 수 있다. 사용자 그룹 또는 유형 식별의 예는 Feiyun Zhu, Jun Guo, Zheng Xu, Peng Liao, Junzhou Huang, "개인화된 모바일 헬스(mHealth) 개입을 위한 그룹 주도 강화 학습", 2017, arXiv:1708.04001, https://arxiv.org/abs/1708.04001에 기술되어 있으며, 이는 그 전체가 참조로서 본원에 통합된다.
일반 모델 전달 학습 프로세스(1408)은 제너럴리스트 모델(1432)의 하나 이상의 세트를 학습하는 데 사용된다. 일반 모델 전달 학습 프로세스(1408)는, 제너럴리스트 정동 추론 신경망(AINN)(140)을 학습하기 위한 AINN 제너럴리스트 모델 학습 프로세스(1430) 및 제너럴리스트 딥 Q 네트워크(DQN)(122, 124, 126)의 세트를 학습하기 위한 DQN 제너럴리스트 모델 학습 프로세스(1431)를 포함할 수 있다. 다양한 전달 학습 기술은 머신 러닝 분야에서 공지되어 있다. 예시적인 전달 학습 프로세스는, Kieran Woodward 및 Eiman Kanjo 및 David J. Brown 및 T. M. McGinnity: "콘볼루션 신경망을 사용한 심리적 스트레스 모델링을 개인화하기 위한 기기 내 전달 학습", 2020, arXiv:2004.01603, https://arxiv.org/abs/2004.01603에 기술되어 있으며, 이는 그 전체가 참조로서 본원에 통합된다.
AINN 제너럴리스트 모델 학습 프로세스(1430)은 다양한 사용자 그룹(즉, 사용자 그룹화 프로세스(1428)에 의해 출력된 사용자 그룹)의 사용자를 위해 AINN(140)을 사용하여, 전달 학습을 사용하여 제너럴리스트 모델(1432) 세트의 제너럴리스트 AINN(140)을 학습시킬 수 있다. DQN 제너럴리스트 모델 학습 프로세스(1431)는 제너럴리스트 모델(1432)의 제너럴리스트 AINN(140) 및 DQN 프로세스(1424)에 의한 그룹에 의한 DQN 출력에 의해 그룹화된 음악 트랙을 사용하여, 전사 학습을 사용하여 제너럴리스트 모델(1432) 세트의 DQN(122, 124, 126)을 학습할 수 있다. 예를 들어, 사용자 그룹화 프로세스(1428)에 의해 식별된 특정 사용자 그룹은 특정 제너럴리스트 AINN(140)과 연관될 수 있고, 이들 사용자로부터의 기존 사용자 데이터(1426)는 주어진 제너럴리스트 AINN(140)을 학습하는 데 사용될 수 있는 반면, 사용자 그룹과 조합된 음악 트랙의 특정 서브세트는 특정 제너럴리스트 DQN과 연관될 수 있고, 해당 사용자 그룹에 대한 제너럴리스트 AINN(140)은 주어진 DQNN을 학습하는 데 사용될 수 있다.
개인화된 모델 학습 프로세스(1460)는 새로운 사용자(1404)가 시스템(1100)에 추가되는 것으로 시작한다. 새로운 사용자(1404)는, 예를 들어 도 11을 참조하여 상술된 사용자 프로필 생성 프로세스를 사용하여 사용자 프로필을 초기화하기 위한 기준선 설정 프로세스(1406)를 제공받을 수 있다. 기준선 설정 프로세스(1406)는 또한 새로운 사용자(1404)의 음악적 선호도를 식별하는 것을 돕기 위해 사용자 입력을 유도할 수 있다: 예를 들어, 새로운 사용자(1404)는 기준 프로필을 작성하도록 촉구될 수 있고/있거나, 시스템(1100)은 새로운 사용자(1404)가 음악에 대한 새로운 사용자(1404)의 취향 및/또는 거동 반응을 이해하기 위해 빠르게 연속적으로 음악 클립을 청취하게 할 수 있다.
정합 프로세스(1410)는, 음악 취향, 성격, 사용자 프로필, 및/또는 기준선 설정 프로세스(1406) 동안 수집된 다른 정보에 기초하여 수행된다. 정합 프로세스(1410)는 머신 러닝 기술 또는 다른 순위지정 또는 정합 알고리즘을 사용하여 일부 실시예에서 알고리즘적으로 수행될 수 있다. 제너럴리스트 모델(예: AINN(140) 및 DQN(122, 124, 126)) 세트는, 예를 들어, 기준선 설정 프로세스(1406)의 출력에 기초하여 새로운 사용자(1404)와 잘 정합하는 데이터베이스(1102)로부터 선택된다. 레이블링 프로세스(1436)는 (사용자 그룹화 프로세스(1428)로부터의) 사용자 그룹화 및 (DQN 프로세스(1424)에 의한 그룹화로부터의) 음악 트랙 서브세트에 기초하여 제너럴리스트 모델(1432)을 레이블링함으로써 정합 프로세스를 용이하게 하기 위해 사용된다. 레이블링 프로세스(1436)에 의해 사용되는 레이블 데이터는 임의의 종류의 식별 벡터일 수 있다. 정합 프로세스(1410)는, 기준선 설정 프로세스(1406)에 의해 출력된 데이터(예: 사용자 프로필 데이터)에 기초하여 새로운 사용자(1404)를 특정 사용자 그룹과 정합할 수 있고, 제너럴리스트 모델(1432) 세트는 상기 정합에 기초하여 선택될 수 있고 모델 데이터베이스(1402)를 초기에 채우는 데 사용될 수 있다.
그런 다음, 개인화된 모델(1430) 세트가 새로운 사용자(1404)를 위해 생성된다. 초기에, 개인화된 모델(1430)은 정합 프로세스(1410)에 기초하여 신규 사용자(1404)를 위해 선택된 제너럴리스트 모델(1432)의 사본일 수 있다. 그러나, 개인화된 모델(1430)이 학습되고 이에 따라 새로운 사용자(1404)로부터의 데이터를 사용하여 개인화됨에 따라, 상술된 바와 같이, 이들은 성능 임계값에 도달할 때까지 정확도를 개선할 것이고, 추론을 위해 시스템(110)에 의해 사용된다.
음악 선택 프로세스(1412)에서, 새로운 사용자(1404)는 시스템(1100)이 큐레이션하는 자신이 좋아하는 음악의 서브세트를 수동으로 생성한다. 음악 선택 프로세스(1412)는, 예를 들어, 새로운 사용자(1404)가 로컬 또는 원격 카탈로그 또는 음악 트랙 라이브러리로부터 음악 트랙을 식별할 수 있게 함으로써, 사용자 음악 카탈로그(1414)를 채운다.
개인화된 모델 학습 프로세스(1460)의 DQN 프로세스(1416)에 의한 그룹은 상술된 제너럴리스트 모델 학습 프로세스(1450)의 DQN 프로세스(1424)에 의한 그룹과 유사하게 작동한다. 사용자 음악 카탈로그(1414)로부터의 음악 트랙 서브세트는 식별되고 학습될 개인화된 모델(1430)의 각각의 딥 Q 네트워크와 관련하여 음악 트랙을 그룹화하는데 사용된다.
새로운 사용자(1404)로부터 수집된 데이터는, 상술된 제너럴리스트 모델 전달 학습 프로세스(1408)와 유사하게, 개인화된 모델 전달 학습 프로세스(1418)를 사용한 각각의 사용자 경험 후에, 개인화된 모델(1430), 특히 개인화된 모델(1430)의 AINN(140)을 학습시키기 위해 사용된다. 개인화된 모델 전달 학습 프로세스(1418)는 또한 기준선 설정 프로세스(1406)로부터 수집된 데이터를 사용할 수 있다. 개인화된 모델 전달 학습 프로세스(1418)에 의해 사용되는 인자는 도 15를 참조하여 후술된다.
DQN 개인화된 모델 학습 프로세스(1417)는, 개인화된 모델(1430)의 개인화된 AINN(140)을 사용하여 개인화된 모델(1430)의 DQN(122, 124, 126)을 학습시키도록 상술된 DQN 개인화된 모델 학습 프로세스(1417)와 유사하게 작동한다.
도 15는 도 14의 개인화된 모델 전달 학습 프로세스(1418)에 의해 사용되는 개인화 인자(1500)를 도시한다. 개인화된 모델 전달 학습 프로세스(1418)의 목표는 맥락적 개인화(1504)에 대응하는 피라미드(1502)의 상단층에서, 프로필 개인화(1506)에 대응하는 피라미드(1502)의 중간층을 통해, 각 사용자(예: 새로운 사용자(1404))에 대한 개별 모델(1508)에 대응하는 피라미드(1502)의 하단층에 도달할 때까지 작업하는 것이다.
맥락적 개인화(1504)는 초기 상태(예: 사용자의 정동 상태), 사용자의 현재 표현된 음악 선호도, 또는 다른 환경 변수(예: 하루 중 시간)에 기초하여 모델(예: AINN(140) 및 DQN(122, 124, 126))의 개인화를 포함할 수 있다. 따라서, 맥락적 개인화(1504)는 종래의 음악 추천 시스템에서 고려되는 인자에 대응할 수 있다. 프로필 개인화(1506)는 사용자의 성격, 인구통계학적 멤버십, 기준 음악 취향 프로필, 및 기타 일반 사용자 특성에 기초한 모델의 개인화를 포함할 수 있다. 일부 실시예에서, 프로필 개인화(1506)는 사용자 그룹화 프로세스(1428)에 의해 결정된 사용자 그룹 내의 사용자의 멤버십에 기초할 수 있다. 개별 모델(1508)은, 예를 들어, 도 2a 및 도 2b를 참조하여 상술된 바와 같이, 음악에 대한 특정 사용자의 정동 반응을 정확하게 추론하기 위해 해당 특정 사용자의 정동 반응을 사용하여 학습된 개별 개인화 모델이다.
따라서, 개인화된 모델(1430)의 계층구조는, 맥락적 개인화(1504)를 사용하여 약간 개인화된 것에서 프로필 개인화(1506)를 사용하여 보다 구체적으로 개인화된 것까지, 개별 모델(1508)을 사용하여 보다 구체적으로 개인화된 것까지, 모델 데이터베이스 생성 프로세스(1400)을 사용하여 선택되고 학습될 수 있다.
본원에 기술된 시스템의 개별 요소는 또한 정동 음악 추천 이외의 애플리케이션에 대해 사용될 수 있다. 정동 추론 신경망(140)은 음악 분석, 마케팅 또는 통찰력 분야에서 사용될 수 있으며, 이는 새로운 내용이 그 예측된 정동 영향에 기초하여 평가될 수 있게 한다. 예를 들어, 정동 추론 신경망(140)의 입력 및 출력은 스위칭될 수 있어, 특정 사용자 프로필이 주어지면 타깃 기분 상태를 유도할 가능성이 있는 MIR 특색 시퀀스를 제공할 수 있다. 본원에 기술된 다양한 시스템에 의해 생성된 데이터는, 인간 정신이 음악에 어떻게 반응하는지에 대한 새로운 통찰력을 제공하는 것과 같이, 음악 산업 내에서 다양한 목적에 유용할 수 있으며, 이는 인구통계학적 그룹, 사용자 프로필 그룹, 및 다양한 취향 프로필에 의해 추가로 분류될 수 있다. 충분한 데이터가 있으면, 본원에 기술된 시스템의 정동 추론 능력은 음악 작곡에 대한 새로운 메타데이터를 생성할 수 있어서, 기능적 애플리케이션(예: 필름 동기화, 음악 요법 등)에 대한 확실성을 증가시킬 수 있다.
정동 음악 작곡을 위한 방법, 시스템 및 비일시적 매체의 예는 이제 도 16 내지 도 30을 참조하여 설명될 것이다. 설명된 음악 작곡 시스템은 음악 작곡 프로세스의 하나 이상의 단계에서 사용되어 MIR 청사진, 악보, 작곡 리드 시트, 제작 리드 시트, 믹스, 및/또는 청취자에게 정동 상태 변화를 유도하도록 의도된 노래의 마스터를 생성할 수 있다. 정동 추론 모델(예: AINN) 및 MIR 추출 프로세스과 같은, 정동 음악 추천의 맥락에서 상술된 다양한 구성 요소가 본원에 기술된 음악 작곡 시스템의 다양한 실시예에 사용될 수 있다.
도 16은 예시적인 정동 음악 작곡 시스템(1600)을 도시한다. 정동 음악 작곡 시스템(1600)은 도 1의 정동 음악 추천 시스템(100)과 매우 유사한 하드웨어 및 소프트웨어 구성요소를 포함하는 컴퓨팅 플랫폼 또는 시스템을 사용하여 구현될 수 있다. 본 명세서에 도시된 예는 프로세서 시스템(1640)과 통신하는 메모리 시스템(1638)을 포함하며, 이는 결국 사용자와 상호 작용하기 위해 사용되는 사용자 인터페이스(1642)와 통신한다.
메모리 시스템(1638)은 본원에 기술된 정동 음악 작곡을 위한 방법 및 프로세스를 구현하는 데 사용되는 소프트웨어 및 데이터를 저장한다: 머신 러닝 기술을 사용하는 다양한 모델의 학습 및 작동을 포함하여, 본원에 기술된 기술을 구현하기 위해 프로세서 시스템(1640)에 의해 실행되는 소프트웨어 명령어(1610); 제1 MIR 생성자 GAN(1612) 내지 제N MIR 생성자 GAN(1614)으로 도시된, 상이한 청취자 프로필, 장르 및/또는 스타일에 대한 MIR 데이터를 생성하는 데 사용되는 복수의 MIR 생성자 생성적 대립 네트워크(GAN); 제1 악보 생성자 GAN(1616) 내지 제N 악보 생성자 GAN(1618)으로 도시된, 상이한 장르 및/또는 스타일에 대한 악보를 생성하는 데 사용되는 복수의악보 생성자 GAN; 제1 정동 추론 신경망(1620) 내지 제N 정동 추론 신경망(1622)으로 도시된, 상이한 청취자 프로필에 대한 정동 반응을 예측하는 데 사용되는 복수의 정동 추론 모델; 및 제1 각색형 음악 에이전트 모델(1624) 내지 제N 각색형 음악 에이전트 모델(1626)로 도시된, 상이한 청취자 프로필, 장르 및/또는 스타일에 대한 타깃 정동 상태 또는 궤적을 달성하기 위해 오디오 스템(1628)의 기존 트랙 또는 라이브러리를 각색시키는 데 사용되는 복수의 각색형 음악 에이전트 모델. 각각의 모델 세트가 N개 모델을 포함하는 것으로 도시되어 있지만, N의 값은 각 세트에 대해 상이할 수 있다는 것을 이해할 것이다.
메모리 시스템(1638)은 또한 오디오 스템 라이브러리(1628), 하나 이상의 MIR 생성자 학습 데이터베이스(들)(1630), 악보 생성자 학습 데이터베이스(1632), 마스터링 에이전트 학습 데이터베이스(1634), 및 각색형 음악 에이전트 학습 데이터베이스(1636)를 포함하는 데이터를 저장한다.
다양한 소프트웨어와 정동 음악 작곡 시스템(1600)의 데이터 구성 요소 사이의 관계 및 사용자 인터페이스(1642)를 통한 사용자와의 상호 작용은 도 17a 내지 도 17d를 참조하여 후술된다. 그런 다음, 도 17a 내지 도 17d에 도시된 다양한 서브시스템의 작동이 도 18 내지 도 26을 참조하여 설명된다.
도 17a는 MIR 생성자 프로세스(1900)를 포함하는, 도 16의 예시적인 정동 음악 작곡 시스템(1600)의 제1 부분(1700a)의 프로세스들 사이의 관계를 보여준다. MIR 생성자 프로세스(1900)는 청취자에게 특정 정동 반응을 유도하도록 의도된 오디오 세그먼트(예: 노래)에 대한 MIR 청사진을 생성하는 데 사용된다. MIR 생성자 프로세스(1900)에 의해 생성된 MIR 청사진은 통상적으로 노래 전체의 MIR 특색 뿐만 아니라 바람직한 정동 반응을 유도할 오디오 세그먼트의 다수의 에포크(즉, 시간적 서브-세그먼트) 각각의 MIR 특색을 식별한다. (음악 작곡 또는 제작에 관련된 아티스트, 제작자, 또는 다른 사용자일 수 있는) 사용자(1702)는 사용자 인터페이스(1642)를 통해 시스템(1600)과 상호 작용한다. 사용자(1702)는, 작곡 의도 설정 프로세스(1704)와 상호 작용할 수 있으며, 이는, 작곡 프로세스 동안 생성될 음악 데이터의 바람직한 특징에 관해 후술하는 시스템(1600)의 다양한 서브시스템에 통지한다. 도 17a에 도시된 MIR 생성자 프로세스(1900)는 다음과 같은 정보를 제공함으로써 관리될 수 있다: 사용자(1702)는 전체 오디오 세그먼트(230)(예: 음악 트랙) 또는 단지 스템(예: 노래의 스트링 악기 구성 요소 또는 리드 보컬 구성 요소와 같은 유사한 음원의 그룹)를 만들고자 하는가? 사용자(1702)는 음악 트랙 또는 스템이 얼마나 길기를 원하는가? 작곡 의도 설정 프로세스(1704)는, 특정 키, 템포, 및/또는 노래 구조와 같은, MIR 생성을 선택적으로 한정하는 데 사용되는 선택적인 조건부(1706)를 결정한다. 작곡 의도 설정 프로세스(1704)는 또한 세그먼트 길이(1708)(예: 음악 트랙 또는 스템의 길이)을 결정한다.
사용자(1702)는 또한 정동 의도 설정 프로세스(1710)와 상호 작용할 수 있으며, 이는 작곡 프로세스 동안에 생성될 음악 데이터의 청취자에게 유도될 바람직한 정동 상태 또는 궤적에 관해 후술하는 시스템1600의 다양한 서브시스템에 통지한다. 정동 의도 설정 프로세스(1710)는, 사용자(1702)는 작곡 프로세스 동안 생성된 음악을 들은 후 청취자가 어떻게 느끼기를 원하는지를 나타내는 타깃 정동 상태 데이터(1712)를 생성할 수 있다.
선택적인 조건부(1706), 세그먼트 길이(1708), 및 타깃 정동 상태 데이터(1712)는 MIR 생성 프로세스(1900)에 대한 입력으로서 사용되며, 도 19를 참조하여 더 상세히 후술된다.
MIR 생성자 프로세스(1900)는, 여기에서 제1 MIR 생성자 GAN(1612)로 도시된 MIR 생성자 GAN을 포함한다. 일부 실시예에서, MIR 생성 프로세스(1900)는 제어 네트워크를 갖는 조건부 GAN으로서 구현되고; 선택적 조건부(1706), 세그먼트 길이(1708), 및 타깃 정동 상태 데이터(1712)는 MIR 생성 GAN(1612)에 대한 조건부 입력으로서 사용된다. 보다 상세히 후술되는 바와 같이, 타깃 정동 상태 데이터(1712)는 또한 제어 네트워크에 대한 입력으로서 사용될 수 있다.
MIR 생성자 GAN(1612)는, 정동 상태 데이터 및 선택적으로 다른 조건부 데이터로 레이블링된 MIR 데이터(1716)의 데이터베이스를 학습 데이터로서 사용하여, MIR 생성자 GAN 직접 학습 프로세스(1714)에 의해 학습된다. MIR 데이터(1716)의 데이터베이스는 (도 14를 참조하여 상술된 바와 같이) 사용자 집단의 청취 장치(190)로부터 수집된 기존 사용자 데이터(1426) 및/또는 MIR 데이터를 정동 반응 및/또는 다른 조건부 데이터(예: 키, 템포 및/또는 노래와 같은 선택적인 조건부(1706))와 연관시키는 기존 데이터 기록(1718)과 같은 다양한 데이터 소스를 사용하여 채워지거나 그렇지 않으면 생성될 수 있다. 일부 실시예에서, 기존 사용자 데이터(1426)는 상술된 바와 같이 정동 음악 추천 시스템(100)을 사용하여 수집될 수 있다.
MIR 생성자 GAN(1612)는 또한, 도 18을 참조하여 후술되는 바와 같이, 작곡 AINN(1800)을 사용하여, MIR 생성자 GAN 추론 학습 프로세스(1720)에 의해 학습된다.
MIR 생성자 프로세스(1900)는 MIR 청사진(1730)을 생성하는데, 이는 일부 실시예에서 잠재적으로 다른 MIR 특색와 함께, 멜-주파수 켑스트럼(MFC) 스펙트로그램을 포함할 수 있다. MIR 청사진(1730)은, 음악 데이터(예: 악보, 트랙, 또는 스템)를 생성하는 것을 보조하기 위해 정동 음악 작곡 시스템(1600)의 다른 구성 요소에 의해 사용될 수 있다.
도 18은 정동 음악 작곡 시스템(1600)에 의해 사용되는 작곡 AINN(1800)을 나타내는 단순화된 순환 신경망을 보여준다. 작곡 AINN(1800)은 도 4b를 참조하여 상술된 AINN(140)과 매우 유사하게 작동한다. 그러나, 개별 사용자의 현재 정동 상태(212)를 입력으로서 사용하는 대신에, 작곡 AINN(1800)은 대신에 정동 반응 데이터로 레이블링된 MIR 데이터 뿐만 아니라 MIR 데이터와 연관된 맥락적 정보(432)를 포함하는 MIR 데이터(1716)의 데이터베이스로부터의 학습 데이터를 사용하여 학습된다. 따라서, 작곡 AINN(1800)은, 사용자의 현재 정동 상태에 관계없이, MIR 특색 세트(글로벌 MIR 특색(433) 뿐만 아니라 일련의 에포크-특정 MIR 특색(434)의 시계열 포함)에 대한 일반 사용자의 정동 반응을 예측하기 위해 추론 모드로 작동한다.
도 19는 정동 음악 작곡 시스템(1600)에 의해 사용되는 예시적인 MIR 생성자 프로세스(1900)를 도시한다. MIR 생성자 프로세스(1900)는 제어 네트워크(1906)를 갖는 MIR 생성자 GAN(생성자 네트워크(1902) 및 확률 네트워크(1904)로 구성됨)으로 구성될 수 있고, Cong Jin, Yun Tie, Yong Bai, Xin Lv, Shouxun Liu, "스타일-특정 음악 작곡 신경망", 2020년 6월 9일, Neural Processing Letters (2020) 52:1893-1912, https://doi.org/10.1007/s11063-020-10241-8 (이하 "Jin")에 기술된 바와 같이, 그 전체가 참고로 여기에 통합된다. MIR 생성자 GAN 자체, 및 특히 생성자 네트워크(1902)는 조건부 GAN으로서 구조화될 수 있으며, Yi Yu, Simon Canales, "가사에서 멜로디 생성을 위한 조건부 LSTM-GAN", 2019, arXiv:1908.05551, https://arxiv.org/abs/1908.05551에 기술된 바와 같이, 이는 그 전체가 참조로서 본원에 통합된다. 생성자 네트워크(1902)는 생성자 신경망(1907)을 포함하고, 확률 네트워크(1904)는 구별자 신경망(1908)을 포함하며; 각각의 신경망(1907, 1908)은 장단기 메모리(LSTM)를 갖는 순환 신경망(RNN), 콘볼루션 신경망, 표준 다층 지각 신경망, 또는 일부 다른 유형의 신경망 또는 머신 러닝 모델일 수 있다. MIR 생성 프로세스(1900)의 기능성은 또한 종류 변분 오토인코더(VAE) 또는 단순히 그 자체로 순환 신경망(RNN)과 같이 다른 생성 딥 러닝 양식에 의해 달성될 수 있다. GAN 모델은 필요한 기능을 실행하는 효과적인 수단으로서 평가되었지만, 특히 머신 러닝이 진보함에 따라, 추가적인 유사한 알고리즘도 효과적일 수 있다.
MIR 생성자 프로세스(1900)는 2개의 학습 단계를 갖는 학습 모드에서, 또는 MIR 청사진 생성 모드에서 작동한다. 학습 모드의 제1 학습 단계에서, 확률 네트워크(1904)의 구별자 신경망(1908)은 MIR 데이터(1716)의 데이터베이스(즉, 인간 아티스트가 작곡한 실제 노래에 대응하는 MIR 청사진)로부터 실제 저장된 MIR 청사진(1910)을 사용하여 MIR 청사진을 인식하도록 학습된다.
제2 학습 단계에서, 생성 네트워크(1902)는 MIR 데이터(1716)의 데이터베이스로부터의 입력(즉, 조건부)으로 선택적 조건부(1706), 세그먼트 길이(1708), 및 타깃 정동 상태 데이터(1712)를 수신한다. 생성 네트워크(1902)는 (생성된 MIR 청사진(1912)으로 도시된) MIR 청사진을 생성하도록 구성된 생성 신경망(1907)을 포함한다. 학습 프로세스의 시작 시, 각각의 생성된 MIR 청사진(1912)은 본질적으로 랜덤 데이터이다. 그러나, 확률 네트워크(1904)는, 제어 네트워크(1906)에 의해 매개되는 생성 네트워크(1902)에 피드백을 제공하여, 생성 네트워크(1902)를 학습시켜 점점 더 그럴듯한 MIR 청사진을 생성하는 데 사용된다. 구별자 신경망(1908)은 각각의 생성된 MIR 청사진(1912)를 MIR 데이터(1716)의 데이터베이스로부터 실제 저장된 MIR 청사진(1910)과 비교한다. 이러한 비교의 결과는, 생성된 MIR 청사진(1912)이 실제 노래에 대한 MIR 청사진인지 여부에 대한 구별자 신경망(1908)의 추론 가능성을 나타내는 확률 값(1916)(예: 0 내지 1의 값)이다.
제어 네트워크(1906)는 (작곡 AINN(1800)으로 도시된) 정동 추론 모델 및 (Jin 참조에 기술된) 비평가(1914)를 포함한다. 비평가(1914)는 생성된 MIR 청사진(1912)를 만족스러운 타깃 정동 기준에 한정하도록 작동한다. 따라서, 제2 학습 단계에서, 비평가(1914)는 3개의 입력을 수신한다: 생성된 MIR 청사진(1912)에 기초하여 확률 네트워크(1904)에 의해 생성된 확률 값(1916), 생성된 MIR 청사진(1912)에 기초하여 작곡 AINN(1800)에 의해 생성된 예측된 정동 반응(1920)(즉, MIR 청사진과 정합하는 음악에 대한 청취자의 예측된 정동 반응) 및 MIR 데이터(1716)의 데이터베이스로부터 수신된 타깃 정동 상태 데이터(1712). 비평가(1914)는, 생성된 MIR 청사진(1912)이 얼마나 타당하고 그것이 타깃 정동 상태 데이터(1712)를 얼마나 만족시킬 가능성이 있는지에 기초하여, 확률 값(1916), 예측된 정동(1920), 및 타깃 정동 상태 데이터(1712)에 보상 기능을 적용하여 보상(1918)을 생성한다. 보상(1918)은, 생성자 신경망(1907)을 학습하기 위한 피드백으로서 사용됨으로써, 보상 기능에 의해 지정된 타깃 정동 상태 데이터(1712)를 만족시키는 타당한 생성된 MIR 청사진(1912)을 생성하는 능력을 개선한다. 비평가(1914)의 보상 기능은, 작곡 AINN(1800)과 같은 정동 추론 모델에 의해 구동된다.
따라서, 제어 네트워크(1906)에 의해 보조되는 생성 네트워크(1902) 및 확률 네트워크(1904)는 MIR 생성자 GAN(예컨대, 제1 MIR 생성자 GAN(1612))을 공동으로 구성한다. MIR 청사진 생성 모드에서, 선택적 조건부(1706), 세그먼트 길이(1708), 및 타깃 정동 상태 데이터(1712)는, MIR 데이터(1716)의 데이터베이스에 의해 공급되는 대신에, 작곡 의도 설정 프로세스(1704) 및 정동 의도 설정 프로세스(1710)을 통해 사용자(1702)에 의해 제공된다. 생성자 네트워크(1902)는 타깃 정동 상태 데이터(1712)와 정합하는 생성된 MIR 청사진(1912)(예: 도 17a의 MIR 청사진(1730))을 생성하는데 사용된다.
도 17b는 악보 생성자 프로세스(2000)를 포함하는, 예시적인 정동 음악 작곡 시스템(1600)의 제2 부분(1700b)의 프로세스들 사이의 관계를 보여준다. 음악 작곡은 음악 작품을 작성하는 것을 지칭하며, 작곡의 최종 결과는 악보, 즉 노래 녹음의 오디오 특징을 생성하기 위해 어떤 음표가 어떤 시점에 어떤 악기로, 그리고 어떤 방식으로 재생되어야 하는지를 식별하는 문서의 생성이다. 도 17a와 같이, 사용자(1702)는 다음과 같은 정보를 제공함으로써 악보 생성자 프로세스(2000)을 관리하기 위해, 작곡 의도 설정 프로세스(1704)와 상호 작용할 수 있다: 사용자(1702)는 화성 진행, 멜로디, 리듬, 또는 전체 악보를 원하는가? 사용자(1702)는 어떤 악기(들)를 원하는가? 사용자(1702)는 악보가 얼마나 길기를 원하는가? 따라서, 작곡 의도 설정 프로세스(1704)는 악보 유형(1732), 악기(1734), 및 악보 길이(1736)을 결정한다. 악보 유형(1732)는 리듬, 화성 진행, 및/또는 멜로디를 특정할 수 있다.
악보 생성 프로세스(2000)는 조건부 입력으로서 악보 유형(1732), 악기(1734), 및 악보 길이(1736)을 수신한다. 악보 생성 프로세스(2000)는 또한, 생성될 악보에 대해 요구되는 MIR 데이터(1738) 세트를 수신하는데, 이는 악보 생성 프로세스(2000)의 제어 네트워크에 대한 조건부 입력 및/또는 입력으로서 사용된다. 요구되는 MIR 데이터(1738) 세트는 일부 실시예에서 MIR 생성 프로세스(1900)에 의해 생성된 MIR 청사진(1730)으로부터 추출될 수 있거나, 다른 MIR 청사진 또는 MIR 데이터의 소스로부터 추출될 수 있다. 일부 실시예에서, 악보 생성 프로세스(2000)에 의해 사용되는 요구되는 MIR 데이터(1738) 세트는 MIR 청사진(1730)에 포함된 MIR 데이터의 일부일 수 있고; 다른 실시예에서, 이는 MIR 청사진(1730)에 포함된 모든 MIR 데이터를 포함할 수 있다.
악보 생성 프로세스(2000)은, 제1 악보 생성자 GAN(1616)으로 여기에 나타낸 악보 생성자 GAN을 포함한다. 악보 생성 프로세스(2000)은 그의 입력에 대해 작동하여, 악기 디지털 인터페이스(MIDI) 악보와 같은 악보(1742)를 출력으로 생성한다. 출력을 생성하기 위한 그의 입력에 대한 악보 생성 프로세스(2000)의 작동은 도 20을 참조하여 더욱 상세히 후술된다.
악보 생성 프로세스(2000)는, 레이블링된 악보 데이터(1746)의 데이터베이스에 의해 제공된 레이블링된 악보 데이터를 사용하여, 악보 생성자 학습 프로세스(1744)에 의해 학습 모드에서 학습된다. 레이블링된 악보 데이터는 MIR 청사진으로 레이블링된 인간-작곡 악보 및/또는 악보 생성자 프로세스(200) 및 이의 악보 생성자 신경망(예: 제1 악보 생성자 신경망(1616))을 학습시키는 데 사용될 다른 조건부 입력를 포함할 수 있다.
도 20은 위에서 도 17b를 참조하여 설명된 예시적인 악보 생성자 프로세스(2000)를 도시한다. 악보 생성자 프로세스(2000)는 MIR 생성자 프로세스(1900)와 유사하게 구성될 수 있다: 제어 네트워크(2006)을 갖는, 생성자 네트워크(2002) 및 확률 네트워크(2004)를 포함하는 조건부 GAN. 생성자 네트워크(2002)는 생성자 신경망(2007)을 포함하고, 확률 네트워크(2004)는 구별자 신경망(2008)을 포함하며; 각각의 신경망(2007, 2008)은 장단기 메모리(LSTM)를 갖는 순환 신경망(RNN), 콘볼루션 신경망, 표준 다층 지각 신경망, 또는 일부 다른 유형의 신경망 또는 머신 러닝 모델일 수 있다. 악보 생성 프로세스(2000)의 기능성은 또한 종류 변분 오토인코더(VAE) 또는 단순히 그 자체로 순환 신경망(RNN)과 같이 다른 생성 딥 러닝 양식에 의해 달성될 수 있다. GAN 모델은 필요한 기능을 실행하는 효과적인 수단으로서 평가되었지만, 특히 머신 러닝이 진보함에 따라, 추가적인 유사한 알고리즘도 효과적일 수 있다.
악보 생성자 프로세스(2000)는 2개의 학습 단계를 갖는 학습 모드에서 또는 악보 생성 모드에서 작동한다. 학습 모드의 제1 학습 단계에서, 확률 네트워크(2004)의 구별자 신경망(2008)은 레이블링된 악보 데이터(1746)(즉, 인간 아티스트에 의해 구성된 악보)의 데이터베이스로부터 실제 저장된 악보(2010)를 사용하여 악보를 인식하도록 학습된다.
제2 학습 단계에서, 생성 네트워크(2002)는 레이블링된 악보 데이터(1746)의 데이터베이스로부터 입력(즉, 조건부)으로서 선택적 요구되는 MIR 데이터(1738), 악보 길이(1736), 악기(들)(1734), 및 악보 유형(1732)를 수신한다. 생성 네트워크(2002)는 (생성된 악보(2012)로서 도시된) 악보를 생성하도록 구성된 생성 신경망(2007)을 포함한다. 학습 프로세스의 시작 시, 각각의 생성된 악보(2012)는 본질적으로 랜덤 데이터이다. 그러나, 확률 네트워크(2004)는, 제어 네트워크(2006)에 의해 매개되는 생성 네트워크(2002)에 피드백을 제공하여 생성 네트워크(2002)를 학습시켜 점점 더 그럴듯한 악보를 생성하는 데 사용된다. 구별자 신경망(2008)은 각각의 생성된 악보(2012)를 레이블링된 악보 데이터(1746)의 데이터베이스로부터의 실제 저장된 악보(2010)과 비교한다. 이러한 비교의 결과는, 생성된 악보(2012)가 실제 악보인지 여부에 대한 구별자 신경망(2008)의 추론 가능성을 나타내는 확률 값(2016)(예: 0 내지 1의 값)이다.
제어 네트워크(2006)는 비평가(2014)를 포함한다. 비평가(2014)는 생성된 악보(2012)를, 예를 들어 음악 이론 규칙의 데이터베이스로서 저장될 수 있는, 음악 이론 규칙(2020)의 세트를 만족하는 것으로 제한하도록 작동한다. 따라서, 제2 학습 단계에서, 비평가(2014)는 3개의 입력을 수신한다: 생성된 악보(2012)에 기초하여 확률 네트워크(2004)에 의해 생성된 확률 값(2016), 음악 이론 규칙(2020), 및 레이블링된 악보 데이터(1746)의 데이터베이스에 의해 제공된 요구되는 MIR 데이터(1738). 비평가(2014)는, 생성된 악보(2012)가 얼마나 그럴듯한지, 음악 이론 규칙(2020)을 만족시킬 가능성이 얼마나 높은지, 그리고 생성된 악보(2012)가 MIR 데이터 세트(즉, 레이블링된 악보 데이터(1746)의 데이터베이스에 의해 제공된 요구괴는 MIR 데이터(1738))에 얼마나 정합하는지에 기초하여, 확률 값(2016), 음악 이론 규칙(2020), 및 요구되는 MIR 데이터(1738)에 보상 기능을 적용하여 보상(2018)을 생성한다. 보상(2018)은 피드백으로서 사용되어 생성자 신경망(2007)을 학습시켜, 음악 이론 규칙(2020)을 만족시키고 요구되는 MIR 데이터(1738)와 정합하는, 그럴듯한 생성된 악보(2012)를 생성하는 능력을 개선한다.
따라서, 제어 네트워크(2006)에 의해 보조되는 생성 네트워크(2002) 및 확률 네트워크(2004)는 악보 생성자 GAN(예컨대, 제1 악보 생성자 GAN(1616))을 공동으로 구성한다. 악보 생성 모드에서, 악보 길이(1736), 악기(들)(1734), 및 악보 유형(1732)은 작곡 의도 설정 프로세스(1704)를 통해 사용자(1702)에 의해 제공되고, 선택적 요구되는 MIR 데이터(1738)는, MIR 데이터(1716)의 데이터베이스에 의해 공급되는 대신, 요구되는 MIR 데이터 추출 프로세스(1740)를 통해 MIR 청사진(1730)에 의해 제공된다. 생성자 네트워크(2002)는 MIR 청사진(1730)과 정합하고 음악 이론 규칙(2020)을 준수하는 그럴듯한 생성된 악보(2012)(예: 도 17a의 악보(1742))를 생성하는데 사용된다.
도 17b로 돌아가면, 악보 생성자 프로세스(2000)에 의해 생성된 악보(1742)가 후속 음악 제작 프로세스를 위한 인간 아티스트에 의한 악보로서 사용될 수 있다. 그러나, 악보(1742)는 또한, 음악 제작의 후속 단계 중 하나 이상을 자동화하기 위한 정동 음악 작곡 시스템(1600)의 후속 프로세스에 의해 사용될 수 있다. 일부 실시예에서, 사용자(예: 악보(1742)를 생성하기 위해 시스템(1600)과 상호 작용하는 아티스트 또는 제작자 또는 다른 사용자)는 음악 작곡 프로세스(1748)과 상호 작용하여 악보(1742) 및/또는 작곡 리드 시트(2400)에 기초하여 음악 트랙 또는 스템의 대략적인 믹스(1750)를 생성할 수 있다. 작곡 리드 시트(2400)는 MIR 청사진(1730)에 기초하여 작곡 리드 시트 프로세스(2300)에 의해 생성될 수 있다. 작곡 리드 시트 프로세스(2300)는 도 23을 참조하여 상세히 후술되며, 예시적인 작곡 리드 시트(2400)는 도 24a 및 도 24b를 참조하여 설명된다.
사용자(1702)는 디지털 오디오 워크스테이션(DAW) 또는 다른 오디오 워크스테이션과 같은 사용자 인터페이스(1642)를 통해 음악 작곡 프로세스(1748)와 상호 작용할 수 있다.
도 23은 도 16의 정동 음악 작곡 시스템(1600)에 의해 사용되고 도 17b에 도시된 작곡 리드 시트 프로세스(2300)를 도시한다. 작곡 리드 시트 프로세스(2300)은 MIR 청사진(1730) 상에서 데이터 변환(2302)를 수행하여 작곡 리드 시트(2400)을 생성한다.
도 24a는 도 23의 작곡 리드 시트 프로세스에 의해 생성된 작곡 리드 시트의 예시적인 정동 공간 표시자(2420)이다. 정동 공간 표시자(2420)는 도 6, 도 7, 도 10 및 도 12의 UI 스크린에 의해 사용되는 정동 상태의 2차원 시각 표시자와 유사하다: 이는 제2원 정동 공간 내에 위치하는 (MIR 청사진(1730)에 기초한) 작곡 리드 시트의 정동 상태(2424)를 식별하며, 여기서 수평 축(2430)은 유의성(우측으로 양수)이고 수직 축(2428)은 활성화(상단으로 높음)이다. 다수의 기분이 부드러움(2422) 및 평화로움(2426)과 같은 영역으로서 도시되어 있다. 이 예에서, 작곡 리드 시트의 정동 상태(2424)는 부드러움(2422)과 평화로움(2426) 사이에 위치하여, 매우 긍정적인 유의성 및 약간 낮은 활성화를 나타낸다.
도 24b는 도 23의 작곡 리드 시트 프로세스(2300)에 의해 생성된 예시적인 작곡 리드 시트(2400)를 보여준다. 작곡 리드 시트(2400)는 음악 세그먼트(예: 음악 트랙 또는 스템)를 생성하기 위해 수행될 작곡 프로세스에 관한 다양한 유형의 정보를 나타낸다.
다양한 필드는 음악 세그먼트 전체의 특징을 나타낸다. 믹스 음색 필드(2402)는 텍스트 "기악 편성 선택 및 성능은 강력한 저주파수 존재와 함께 넓은 스펙트럼 범위(EQ)를 제공해야 한다"로 여기에 표시된 믹스 음색과 관련된 정보를 제공한다. 템포 필드(2412)는 텍스트 "111"로 여기에 표시된 음악 세그먼트 길이와 관련된 정보를 제공한다. 측정기 필드(2414)는 텍스트 "간단한"으로 여기에 표시된 음악 세그먼트 길이와 관련된 정보를 제공한다. 구조 필드(2416)는 텍스트 "5 섹션"으로 여기에 표시된 음악 세그먼트 길이와 관련된 정보를 제공한다. 키 필드(2418)는 텍스트 "A 메이저"로 여기에 표시된 음악 세그먼트 길이와 관련된 정보를 제공한다. 키 명료도 필드(2420)는 텍스트 "낮은"으로 여기에 표시된 음악 세그먼트 길이와 관련된 정보를 제공한다. 화성 복잡도 필드(2422)는 텍스트 "높은"으로 여기에 표시된 음악 세그먼트 길이와 관련된 정보를 제공한다. 화성 밸런스 필드(2424)는 텍스트 "마이너 기울기"로 여기에 표시된 음악 세그먼트 길이와 관련된 정보를 제공한다. 음조 불협화음 필드(2426)는 텍스트 "보통"으로 여기에 표시된 음악 세그먼트 길이와 관련된 정보를 제공한다.
음악 세그먼트 데이터의 여러 시계열은 상이한 시간 에포크(2442, 2444, 2446, 2448, 2450, 2452, 2454)에서의 음악 세그먼트 또는 제1 에포크(2442) 내지 제7 에포크(2454)에서의 음악 세그먼트 내의 서브-세그먼트의 다양한 특징을 나타낸다. 리듬 복잡도 시계열(2434)은 복잡(높음)과 단순(낮음) 사이의 각 에포크의 리듬 복잡도를 그래프로 나타낸다. 음고 중심 시계열(2436)은 높음(높음)와 낮음(낮음) 사이의 각 에포크의 음고 중심을 그래프로 표시한다. 강도 시계열(2438)은 높음(높음)과 낮음(낮음) 사이의 각 에포크의 강도를 그래프로 나타낸다. 밀도 시계열(2440)은 두꺼움(높음)과 얇음(낮음) 사이의 각 에포크의 밀도를 그래프로 표시한다.
작곡 리드 시트(2400)은 또한 도 24a를 참조하여 설명된 바와 같이 정동 공간 표시기(2420) 또는 다른 정동 상태 데이터를 포함할 수 있다.
도 17b로 돌아가서, 음악 작곡 프로세스(1748)와 상호 작용하는 사용자(1702)는, 악보(1742)의 도움 유무에 관계없이, 작곡 리드 시트(2400)에 제공된 정보에 의존하여 러프 믹스(1750)의 준비를 안내할 수 있다. 대안적으로, 사용자(1702)는, 러프 믹스(1750)를 준비할 때 그 자체로 악보(1742)에 의존할 수 있다.
도 17c 및 도 17d에 도시된 시스템(1600)의 제3 및 제4 부분(1700c, 1700d)를 참조하여 설명된 바와 같이, 러프 믹스(1750)는 시스템(1600)의 후속 작동에 의해 추가로 정제될 수 있다.
도 17c는, 자동화된 마스터링 프로세스(2100)을 포함하는, 예시적인 정동 음악 작곡 시스템(1600)의 제3 부분(1700c)의 프로세스들 사이의 관계를 보여준다. 마스터링은, 마스터 녹음(마스터라고도 함), 즉, 청중에게 발표할 준비가 된 노래의 최종 공식 녹음을 생성하기 위한 음향 레벨 설정 및 다양한 악기 트랙(즉, 스템)의 기타 음향 이퀄라이제이션 설정을 지칭한다. 마스터는 이후의 모든 노래 복사본이 만들어지는 소스로 사용된다. 사용자(1702)(음악 작곡 프로세스(1748), 작곡 의도 설정 프로세스(1704) 및/또는 정동 의도 설정 프로세스(1710)과 상호 작용하는 사용자(1702)와 동일한 사용자 또는 다른 사용자일 수 있음)는 음악 제작 프로세스(1758)와 상호 작용하여 러프 믹스(1750) 또는 최종 믹스(1760)를 생성한다. 음악 작곡 프로세스(1748)에서와 같이, 사용자(1702)는 디지털 오디오 워크스테이션(DAW) 또는 다른 오디오 워크스테이션과 같은 사용자 인터페이스(1642)를 통해 음악 제작 프로세스(1758)와 상호 작용할 수 있고, 사용자(1702)는 제작 리드 시트(2600)(도 26을 참조하여 후술됨) 및/또는 (음악 작곡 프로세스(1748)에 의해 생성된 러프 믹스(1750)와 같은) 기존의 러프 믹스(1750)에 의해 보조될 수 있다.
제작 리드 시트(2600)는 시스템(1600)의 이전 부분(1700a, 1700b)에서 생성된 MIR 청사진(1730)과 같은 MIR 청사진(1730)에 기초하여 (도 25를 참조하여 후술되는) 제작 리드 시트 프로세스(2500)에 의해 생성될 수 있다.
자동화된 마스터링 프로세스(2100)는 음악 제작의 마스터링 단계를 자동화하는 데 사용될 수 있다. 자동화 마스터링 프로세스(2100)는, 도 21a 및 도 21b를 참조하여 더 상세히 후술되는 바와 같이, 강화 학습 모델을 사용하여 구현될 수 있는 마스터링 에이전트(2102)를 포함한다. 자동화된 마스터링 프로세스(2100)는 음악 제작 프로세스(1758)에 의해 생성된 최종 믹스(1760), (기존 트랙을 리마스터링하기 위한) 스테레오 포맷(1762)의 기존 트랙, 또는 (아래의 도 17d을 참조하여 설명된) 각색된 최종 믹스(1790)에서 자동화된 마스터링을 수행할 수 있다. 자동화된 마스터링 프로세스(2100)는, (후술하는) 1회 이상의 반복에 걸쳐, 그 입력에 기초하여 최종 마스터(1770)를 생성할 수 있으며, 이는 최종 마스터 음악 트랙(즉, 오디오 세그먼트)으로서 오디오 라이브러리(184)에 저장될 수 있다. 일부 예에서, 자동화된 마스터링 프로세스(2100)는 중간 제작에 사용될 수 있다: 즉, 사용자(1702)는 음악 제작 프로세스(1758)와 상호 작용하여 자동화된 마스터링 프로세스(2100)로 하여금 마스터링 단계에 도달한 인간-작곡 노래에서 마스터링 프로세스의 1회 이상의 반복을 수행하게 할 수 있다.
마스터링 에이전트(2102)는, 학습 데이터를 제공하기 위해 마스터링 표준 및/또는 규칙(1752)의 데이터베이스를 사용하는 마스터링 에이전트 학습 프로세스(1754)를 사용하여 학습될 수 있다. 마스터링 에이전트 학습 프로세스(1754) 및 자동화된 마스터링 프로세스(2100)의 작동은 도 21a 및 도 21b를 참조하여 보다 상세하게 후술된다.
시스템(1600)의 제2 부분(1700b)에서와 같이, 요구되는 MIR 데이터 추출 프로세스(1756)는, MIR 청사진(1730)으로부터, 자동화된 마스터링 프로세스(2100)에 의해 필요한 요구되는 MIR 데이터(1757)를 추출하는 데 사용될 수 있고, 이에 요구되는 MIR 데이터(1757)를 제공한다.
도 21a는 도 16의 정동 음악 작곡 시스템에 의해 사용되는 자동화된 마스터링 프로세스(2100)의 제1 부분(2100a)을 도시하는 블록도이다. 자동화된 마스터링 프로세스(2100)는 본원에서 에피소드로도 지칭되는 다수의 반복에 걸쳐 작동한다. 입력으로 수신된 원래의 오디오 세그먼트(2104)(즉, 최종 믹스(1760), 스테레오 포맷(1762)의 기존 트랙, 또는 각색된 최종 믹스(1790))는 에포크 분할 프로세스(2106)에서 n개의 에포크로 세분화된다. 각각의 원래 (사전 마스터링된) 에포크(2108)는 1회 이상 마스터링("패스" 또는 "반복"로 지칭됨)을 위해 에포크 마스터링 프로세스(2152)로 송신된다. 각 패스에서, 에포크 마스터링 프로세스(2152)는, 에포크(2108)가 해당 에포크에 대한 MIR 타깃를 충족할 때까지, (후술하는) 마스터링 행동을 에포크(2108)에 적용한다. 제1 에포크(2108)가 각각의 MIR 타깃를 충족한 후, 에포크(2108)의 마스터링은 완료된 것으로 간주되며, 다음 에포크(2108)는 각각의 MIR 타깃를 충족시킬 때까지 1회 이상 에포크 마스터링 프로세스(2152)를 거친다. 이 사이클은 세그먼트(2104)의 각각의 에포크(2108)이 마스터링될 때까지 계속된다.
MIR 특색은 MIR 추출 프로세스(2110)에 의해 각각의 원래 오디오 에포크(2108)로부터 추출되어, 에포크의 시작(즉, 마스터링 전) MIR 특색에 대한 참조를 제공한다. 추출된 MIR 특색은 현재의 MIR 에포크(2112)로 지칭된다. 현재의 MIR 에포크(2112)는 또한 마스터링된 오디오 에포크에 대해 수행된 MIR 추출, 예측, 또는 참조 프로세스(2124)에 의해 생성된 추가 MIR 정보를 고려할 수 있다(도 21b를 참조하여 더 상세히 후술됨). MIR 추출, 예측 또는 기준 프로세스(2124)는 MIRtoolbox와 같은 도구를 통해 MIR 데이터를 추출하거나, 이전에 추출된 MIR 특색의 표로부터 MIR 데이터를 참조하거나, 원시 오디오를 입력으로서 수신하고 MIR 데이터 예측을 출력하는 모델을 사용하여 MIR 데이터를 예측한다.
자동화된 마스터링 프로세스(2100)에 의해 필요한 MIR 특색은 요구되는 MIR 데이터(1757)로서 수신된다. 요구되는 MIR 데이터(1757)는 MIR 에포크 분할 프로세스(2114)에 의해 마스터링된 오디오 세그먼트의 각 에포크에 필요한 MIR 특색에 대응하는 MIR 데이터의 에포크(즉, 기간)으로 세분된다. MIR 데이터의 이러한 에포크는 타깃 MIR 에포크(2116)로 지칭되며, 주어진 에포크에 대한 마스터링 프로세스를 위한 MIR 특색 타깃을 나타낸다. 마스터링 프로세스 전반에 걸쳐 동일한 타임라인을 유지하기 위해, 에포크 크기는 에포크 분할 프로세스(2106)와 MIR 에포크 분할 프로세스(2114) 사이에서 동기화된다.
단기 보상 네트워크(2120)는 마스터링 에이전트(2102)를 학습시키기 위한 단기 보상(2122)을 생성하는 데 사용된다. 단기 보상(2122)은 마스터링 에이전트(2102)를 학습시키는 강화 학습 프로세스에 사용된다. 단기 보상 네트워크(2120)는 다음 3개의 입력에 보상 기능을 적용하는 비평가(2118)를 포함한다: 현재 에포크에서 바람직한 MIR 특색을 나타내는 타깃 MIR 에포크(2116); 현재 에포크의 사전 마스터링된 MIR 특색을 나타내는, 현재 MIR 에포크(2112); 및 마스터링 표준 및 규칙(1752)의 데이터베이스로부터의 마스터링 표준 및/또는 규칙. 비평가(2118)에 의해 적용된 보상 기능은 마스터링 규칙 및/또는 표준에 의해 제한되는, 그리고 현재의 MIR 에포크(2112)가 타깃 MIR 에포크(2116)의 MIR 특색을 충족시키는지 아닌지 여부에 기초하여, 단기 보상(2122)을 생성한다.
단기 보상(2118)은, 분기 순환 딥 Q 네트워크(DQN)와 같은 강화 학습 에이전트로서 구현될 수 있는 마스터링 에이전트(2102)에 대한 입력으로 제공된다. 분기 순환 DQN은 각 에포크에 수행되는 마스터링 행동의 메모리를 구현하기 위한 LSTM을 포함할 수 있다. 예시적인 분기 Q-러닝 네트워크는, Arash Tavakoli, Fabio Pardo, 및 Petar Kormushev, "딥 강화 학습을 위한 행동 분기 아키텍쳐", 2018년, arXiv:1711.08946, https://arxiv.org/abs/1711.08946에 기술되어 있으며, 이는 그 전체가 참조로서 본원에 통합된다. 예시적인 딥 순환 Q-러닝 네트워크는 Matthew Hausknecht 및 Peter Stone, "부분적으로 관찰할 수 있는 MDP를 위한 딥 순환 Q-러닝", 2017년, arXiv:1507.06527, https://arxiv.org/abs/1507.06527에 기술되어 있으며, 이는 그 전체가 참조로서 본원에 통합된다. 자동화된 마스터링 프로세스(2100)에 사용될 수 있는 추가 강화 학습 알고리즘은 모델 기반 행위자 비평가 알고리즘, A3C 알고리즘 또는 문맥적 다중 슬롯 머신(multi-armed bandit) 알고리즘이다. 딥 순환 q-러닝과 짝을 이룬 분기 딥 q-네트워크는 이 기능성을 위한 효과적인 알고리즘 솔루션을 제공한다.
도 21b는 자동화된 마스터링 프로세스(2100)의 제2 부분(2100b)을 보여주는 블록도이다. 마스터링 에이전트(2102)는 상태-행동 네트워크(2130)에 포함된다. 마스터링 에이전트(2102)는 단기 보상(2122)뿐만 아니라 후술되는 장기 보상(2144)을 사용하여 학습된다. 마스터링 에이전트(2102)는 또한 타깃 MIR 에포크(2116) 및 현재 MIR 에포크(2112)의 형태로 상태 데이터를 수신한다. 타깃 MIR 에포크(2116)를 현재 MIR 에포크(2112)와 비교함으로써, 마스터링 에이전트(2102)는 현재 마스터링 패스에서 현재 원래 오디오 에포크(2108)에 적용하기 위해 복수의 마스터링 도구 각각에 대해 사용할 적절한 파라미터 값에 대한 결정을 내린다. 각각의 마스터링 도구에 대한 파라미터 값에 관한 결정은, 제1 행동 분기(2132), 제2 행동 분기(2134), 제3 행동 분기(2136) 내지 제n 행동 분기(2138)로 표시된, 마스터링 에이전트(2102)의 각각의 행동 분기에 의해 이루어지며, 여기서 n은 임의의 양의 정수일 수 있다. 마스터링 도구에 의해 적용된 마스터링 행동은 제한 및 균등화와 같은 마스터링 행동을 포함할 수 있다.
에포크 마스터링 프로세스(2152)는, 각 행동 분기(2132 ... 2138)로부터의 마스터링 도구 파라미터 값을 마스터링 패스, 즉 오디오 마스터링 패스를 수행하도록 마스터링되는 원래의 오디오 에포크(2108)에 적용한다. 마스터링 패스가 수행된 후, 결과 오디오 에포크에서 마스터링 완료 여부를 확인한다. 오디오 에포크가 이제 완전히 마스터링된 것으로 간주되는 경우, 마스터링된 에포크는 미래 참조를 위해 저장되고, 장기 보상 네트워크(2140)의 비평가(2142)에 대한 입력으로서 사용된다. 마스터링된 에포크는 또한 오디오 연결 프로세스(2162)에 의해 최종 연결을 위해 다른 마스터링된 에포크와의 연결을 위해 저장되어, 최종 마스터(2170), 즉 함께 연결된 모든 마스터링된 에포크로 구성된 최종 마스터링된 노래를 생성한다. 마스터링된 에포크는 또한 상술된 바와 같이 현재 MIR 에포크(2112)를 생성하는 데 사용하기 위해 MIR 추출, 예측 또는 기준 프로세스(2124)에 제공된다.
장기 보상 네트워크(2140)는, 그 비평가(2142)를 사용하여, 하나 이상의 저장된 마스터링된 에포크 및 마스터링 표준 및 규칙(1752)의 데이터베이스로부터의 마스터 표준 및/또는 규칙 데이터에 보상 기능을 적용하여 장기간 보상(2144)을 생성하고, 시간이 지남에 따라 다수의 에포크가 마스터링 표준 및/또는 규칙을 만족시키는 정도를 나타낸다.
일단 최종 마스터(2170)가 생성되면, 이는, 예를 들어, 오디오 라이브러리(184)에 최종 마스터(1770)로서 저장함으로써, 시스템(1600)의 다른 프로세스에 의해 사용될 수 있다.
도 25는 음악 제작 프로세스(1758)에 의해 사용될 제작 리드 시트(2600)을 생성하기 위해 정동 음악 작곡 시스템(1600)에 의해 사용되는 예시적인 제작 리드 시트 프로세스(2500)을 도시한다. MIR 데이터는 MIR 추출 프로세스(2506)에 의해 입력으로서 수신된 현재 믹스(2504)(예: 러프 믹스(1750))로부터 추출되어 현재 믹스 MIR 데이터(2508)을 생성한다. MIR 청사진(1730)은 현재 믹스 MIR 데이터(2508)와 비교되며, 이들 간의 차이는 차이 계산 프로세스(2510)에 의해 계산되어, MIR 청사진(1730)과 정합시키기 위해 현재 믹스 MIR 데이터(2508)의 각 MIR 특색에 필요한 변화 세트(2512)를 생성한다. 데이터 변환 프로세스(2514)는 제작 리드 시트(2600)를 생성하기 위해 필요한 변화 세트(2512)에 대해 수행된다. 제작 리드 시트(2600)는, 예를 들어 음악 제작 프로세스(1758)에 의해 제작자(즉, 사용자(1702))를 제작자의 제작 결정으로 유도하기 위해 사용될 수 있다. MIR 정확도 모듈(2502)에 의해 수행되는 이러한 프로세스(2500)은 자동화된 마스터링 프로세스(2100)의 다중 반복에 대응하는 다중 반복을 통해 순환할 수 있다.
도 26은 제작 리드 시트 프로세스(2500)에 의해 생성된 예시적인 제작 리드 시트(2600)를 도시한다. 제작 리드 시트(2600)는 오디오 세그먼트에 대한 전체 MIR 데이터에서 필요한 변화 세트(2512)를 나타내는 여러 개의 글로벌 필드를 포함하며, 스펙트럼 변이 필드(2602), 스펙트럼 밸런스 필드(2604), 스펙트럼 평탄도 필드(2606), 및 침묵 비율 필드(2608)에서 필요한 백분율 변화로 여기에 도시되어 있다. 또한, 제작 리드 시트(2600)는 또한 오디오 세그먼트의 각 에포크에 대한 에포크당 MIR 데이터에서 필요한 변화 세트(2512)를 나타내는 여러 시계열 그래프를 포함하며, 밝기 시계열 그래프(2612), 밀도 시계열 그래프(2614)(거칠기 표시), 음량 시계열 그래프(2616)(평균 제곱근 음량 차이로서 측정됨), 및 강도 시계열 그래프(2618)(이벤트 밀로 표시)로 여기에 도시되어 있다. 각각의 그래프(2612, 2614, 2616, 2618)는 실선으로 에포크의 현재 MIR 데이터 및 점선으로 (MIR 청사진(1730)으로부터의) MIR 타깃을 도시하며, 에포크는 좌측에서 우측으로 시간순으로 표시된다. 예시된 실시예는 간략화를 위해 각 그래프에 대해 동일한 값을 나타내지만, 실제 제작 리드 시트(2600)는 각 그래프에 대해 상이한 시계열 값을 가질 가능성이 있다는 것을 이해할 것이다.
제작 리드 시트(2600)는 또한 도 24a를 참조하여 설명된 바와 같이 정동 공간 표시자(2420) 또는 다른 정동 상태 데이터를 포함할 수 있다.
도 17d는, 각색 프로세스(2200)를 포함하는, 예시적인 정동 음악 작곡 시스템(1600)의 제4 부분(1700d)의 프로세스들 사이의 관계를 보여준다. 각색은 원래 지정된 것과 상이한 악기 또는 음성으로 공연하기 위해 음악 작곡을 배열하는 과정을 지칭한다. 따라서, 각색은 기존의 믹스, 녹음, 또는 작곡을 입력으로 취할 수 있고, 입력에서 지정된 하나 이상의 요소를 새로운 요소로 대체하는 새로운 믹스를 출력으로서 생성할 수 있다. "리믹스" 예로서 지칭되는 제1 예에서, 입력은 멀티트랙 포맷(1774)의 기존 트랙, 즉 각각의 악기 트랙이 다른 것들과 분리되도록(개별 악기 트랙이 좌측 채널 및 우측 채널로 함께 조합되는 스테레오 포맷의 트랙과는 대조적으로) 포맷된 기존 노래 녹음(예컨대, 최종 마스터(1770))일 수 있다. "새로운 트랙" 예로서 지칭되는 후술되는 제2 예에서, 스템 라이브러리(즉, 악기 트랙 또는 악기 트랙의 시간적 서브-세그먼트)가 기존 악보의 각색을 조합하기 위한 원료로서 사용된다.
리믹스 예에서, 각색 프로세스(2200)는, 기존 트랙(1774)의 노래를 각색하여 입력으로 수신된 MIR 데이터(각색 프로세스에 의해 요구되는 MIR 데이터(1783)로 여기에 도시됨)에 의해 지정된 특정 정동 반응 기준을 충족시키기 위해, 멀티트랙 포맷의 기존 트랙(1774)을 입력으로 수신하고, 기존 트랙(1774)를 그 구성 스템으로 분해하고, 상이한 스템으로 교환한다. 요구되는 MIR 데이터(1783)는 MIR 데이터 추출 프로세스(1782)에 의해 MIR 청사진(1730)에서 추출될 수 있다. 일부 실시예에서, 서로 다른 MIR 데이터 추출 프로세스(1756, 1740)에서와 같이, MIR 데이터 추출 프로세스(1782)는 생략될 수 있고, 요구되는 MIR 데이터(1783)는 단순히 MIR 청사진(1730)의 전체일 수 있다.
도 22a 및 도 22b를 참조하여 더 상세히 후술되는 바와 같이, 상술된 음악 이론 규칙(2020)의 데이터베이스는 각색형 음악 에이전트 학습 프로세스(1772)에 의해 각색 프로세스(2200)의 각색형 음악 에이전트(2202)를 학습시키는 데 사용된다.
각색 프로세스(2200)는 오디오 스템(1776) 라이브러리 및 악기 음색 프로필(1778)의 데이터베이스를 이용하여 교체할 스템을 식별하고 선택하여 기존 트랙(1774)의 원래 스템을 교체한다. 기존 트랙(1774)을 각색시켜 요구되는 MIR 데이터(1783)의 MIR 특색을 충족시키도록 스템이 교체되면, 각색 프로세스(2200)는 새로운 믹스를 각색된 러프 믹스(1780)로서 출력하고/하거나, 바람직한 또는 요구되는 MIR 특색(1783) 자체의 표시를 포함하는 특정 MIR 특색을 달성하기 위해 기존 트랙(1774)을 수동으로 각색하는 방법을 아티스트 또는 제작자에게 지시하는 믹스 템플릿(1786)을 출력한다.
그런 다음, 사용자(1702)는 음악 제작 프로세스(1758)과 상호 작용하여 각색된 최종 믹스(1790)을 생성한다. 음악 작곡 프로세스(1748)에서와 같이, 사용자(1702)는 디지털 오디오 워크스테이션(DAW) 또는 다른 오디오 워크스테이션과 같은 사용자 인터페이스(1642)를 통해 음악 제작 프로세스(1758)와 상호 작용할 수 있다. 사용자(1702)는 믹스 템플릿(1786)에 의해 보조될 수 있고/있거나, 입력으로서 각색된 러프 믹스(1780)과의 상호작용을 시작할 수 있다.
일부 예에서, 각색 프로세스(2200)은 중간 제작에 사용될 수 있다: 즉, 사용자(1702)는 음악 제작 프로세스(1758)와 상호 작용하여 각색 프로세스(2200)로 하여금 각색 단계에 도달한 인간-작곡 노래 상에서 각색 프로세스의 1회 이상의 반복을 수행하게 할 수 있다.
도 22a는 각색 프로세스(2200)의 제1 부분(2200a)를 보여주는 블록도이다. 각색 프로세스(2200)는 음악 트랙("트랙" 예로서 지칭됨) 또는 MIR 템플릿을 생성하여 트랙을 생성함("템플릿" 예로서 지칭됨)에 있어 사용자 또는 다른 시스템을 안내하는데 사용될 수 있다. 이들 예 중 어느 하나에서, 생성되는 트랙 또는 템플릿은 기존 트랙의 리믹스("리믹스" 예라고 함) 또는 완전히 새로운 트랙("새로운 트랙" 예라고 함)일 수 있다. "리믹스" 예에서, 각색 프로세스(2200)은 기존 트랙(1774)이 그 구성 스템(스템 1(2204), 스템 2(2206), 및 스템 3(2208)으로 도시됨)으로 분할되는 것으로 시작한다. 이들 구성 스템(2204, 2206, 2208)은 상술된 MIR 추출 또는 예측 기술을 사용하여 MIR 추출 또는 예측 프로세스(2210)에 의해 추출되거나 예측된 그들의 MIR 데이터를 가지며, 이에 의해 각 스템에 대한 대응하는 MIR 데이터 세트를 생성한다: 스템 1에 대한 MIR(2214), 스템 2에 대한 MIR(2216), 및 스템 3에 대한 MIR(2218). 그런 다음, 기존 트랙의 각 스템에 대한 MIR 데이터는, 제2 부분(2200b)을 참조하여 후술되는 기존의 스템 순위지정 프로세스(2220)에 의해 순위가 지정된다. 기존 트랙(1774)으로부터의 구성 스템은 또한 오디오 스템(1776)(미도시)의 라이브러리에 추가될 수 있다.
도 22b는 각색 프로세스(2200)의 제2 부분(2200b)을 보여주는 블록도이다. 기존의 스템 순위지정 프로세스(2220)는 각각의 스템에 대한 MIR 데이터(2214, 2216, 2218)를 사용하여, 기존 트랙(1774)의 어떤 스템이 요구되는 MIR 데이터(1783)와 잘 정합하는지 식별하고 요구된 MIR 데이터(1783)에 대한 유사성에 따라 스템(2204, 2206, 2208)의 순위를 지정한다. 순위지정 프로세스는, https://medium.com/capital-one-tech/k-nearest-neighbors-knn-algorithm-for-machine-learning-e883219c8f26의 Madison Schott, "머신 러닝을 위한 K-최근접 이웃(KNN) 알고리즘"에 의해 기술된 바와 같이 k-최근접 이웃 벡터 유사성 계산을 사용할 수 있으며, 이는 그 전체가 참조로서 본원에 통합된다. 스템 거절 프로세스(2222)는 기존의 스템 순위지정 프로세스(2220) 및 음악 이론 규칙 세트에 의해 생성된 순위지정에 기초하여 어느 스템을 거절해야 할지 결정한다. 스템 거절 프로세스(2222)는 일부 실시예에서 (예: 음악 이론 규칙(2020)의 데이터베이스(미도시)을 사용함으로써) 알고리즘적으로 수행될 수 있는 반면, 다른 실시예에서는 인간 제작자에 의해 수행될 수 있다. 음악 이론 규칙의 사용은 스템 거절 프로세스(2222)에 중요한데, 스템이 MIR 청사진(1730)(또는 요구되는 MIR 데이터(1783))과 충돌하는 경우에도 노래의 구조에 근본적인 일부 스템을 유지하는 것이 타당할 수 있기 때문이다.
거절되지 않은 기존 트랙(1774)의 스템(스템 2(2206) 및 스템 3(2208)로 여기에 도시됨)은, 보유된 스템(즉, 거절되지 않은 스템)을 스테레오 믹스로 연결시키는 연결 프로세스(2236)에 피드포워드된다. 이들은 또한, 제3 부분(2200c)을 참조하여 후술되는 바와 같이, "트랙" 예에서 최종 리믹스된 트랙의 러프 믹스(1780)으로의 연결을 위해 피드포워드된다. 상술된 바와 같이, 추가의 MIR 추출 또는 예측 프로세스(2238)는 연결 프로세스(2236)에 의해 생성된 스테레오 믹스의 MIR 특색을 추출하거나 예측하는데 사용되어, 트랙 MIR 데이터(2239)를 생성한다. 제3 부분(2200c)을 참조하여 후술되는 바와 같이, 보유된 스템으로부터 추출된 트랙 MIR 데이터(2239)는 "템플릿" 예에서 최종 리믹스된 트랙의 믹스 템플릿(1786)으로의 연결을 위해 피드포워드된다. 에포크 분리 프로세스(2244)는 트랙 MIR 데이터(2239)를 트랙 MIR 에포크(2250)로 분리하는 것을 수행하며, 각 에포크의 지속 시간은 원래 트랙(1774)의 섹션의 지속 시간(음악 이론 규칙과 같은 규칙에 의해 정의됨)에 의해 정의된다.
요구되는 MIR 데이터(1783)는, 기존의 스템 순위지정 프로세스(2220)에 대한 입력을 제공하는 것 이외에, 기존 트랙(1774)의 리믹스 또는 스템 라이브러리를 사용하여 악보를 각색하는 새로운 트랙을 위한 MIR 에포크를 생성하는 데 사용될 수 있다. 리믹스 예에서, 요구되는 MIR 데이터(1783)는 트랙의 섹션이 리믹스되는 것에 기초하여 에포크로 분할된다(즉, 기존 트랙(1774)의 에포크): 요구되는 MIR 데이터(1783)은 리믹스 MIR 분리 프로세스(2246)에 의해 에포크로 분리되고, 각 에포크의 지속 시간은 원래 트랙(1774)의 섹션의 지속 시간에 의해 정의된다. "새로운 트랙" 예에서, 요구되는 MIR 데이터(1783)는, 새로운 트랙 MIR 분리 프로세스(2248)에 의해, (이 예에서는 기존 트랙(1774)가 없기 때문에) 기존 트랙(1774)의 섹션 대신에 MIR 청사진(1730)(또는 요구되는 MIR 데이터(1783))의 섹션에 기초하여 지속 시간을 갖는 에포크로 분할된다.
다음 단계는 한 번에 하나의 에포크를 진행한다. 각각의 트랙 MIR 에포크(2250) 및 각각의 상응하는 타깃 MIR 에포크(2252)가, 제3 부분(2200c)를 참조하여 후술되는, 각색형 음악 에이전트(2202)에 대한 상태 데이터로서, 한번에 하나의 에포크로 제공된다. 도 21a의 단기 보상 네트워크(2120)과 유사한 단기 보상 네트워크(2260)은 비평가(2262)를 사용하여 보상 기능을 다음 3개의 입력에 적용한다: 이전 에포크로부터의 MIR 조합 프로세스(2251)(아래에서 설명됨)의 출력, 이전 에포크로부터의 타깃 MIR 에포크(2252), 및 음악 이론 규칙(2020)의 데이터베이스로부터의 음악 이론 규칙. 비평가(2262)의 보상 기능은 음악 이론 규칙(2020)이 얼마나 밀접하게 준수되는지 및 트랙 MIR 에포크(2250)에 의해 타깃 MIR 에포크(2252)가 정합되는 정도에 기초하여 단기 보상(2264)을 생성한다. 따라서, 에포크 n을 생성함에 있어서 입력으로 생성된 단기 보상(2264)은 MIR 조합 프로세스(2251) 및 에포크 (n-1)의 타깃 MIR 에포크(2252)에 기초한다.
도 22c는 각색 프로세스(2200)의 제3 부분(2200c)을 보여주는 블록도이다. 상태-행동 네트워크(2270)는 입력 데이터의 각 에포크(즉, 각각의 트랙 MIR 에포크(2250), 각각의 상응하는 타깃 MIR 에포크(2252), 및 각각의 상응하는 단기 보상(2264))에 반응하여, 복수의 행동 분기(제1 행동 분기, 제2 행동 분기, 제3 행동 분기 내지 제N 행동 분기로 도시됨, 여기서 N은 임의의 양의 N 정수일 수 있음) 각각에 대한 스템을 선택하도록 구성된 각색형 음악 에이전트(2202)를 포함한다. 각각의 행동 분기는 믹스의 층, 즉 통상적으로 드럼, 베이스, 기타 등과 같은 악기 층에 대응한다. 해당 악기가 기존 트랙(1774)에서 남은 스템에 이미 존재하고 추가 레이어가 필요하지 않은 경우, 분기를 생략할 수 있다. 각 행동 분기에 대한 스템은 오디오 스템(1776)의 라이브러리에 의해 제공되는 이용 가능한 스템에서 선택된다.
일부 실시예에서, 각색형 음악 에이전트(2202)는 지금까지 모든 에포크에 대해 취한 행동(즉, 선택된 스템)의 메모리에 대한 LSTM을 갖는 딥 순환 분기 Q-러닝 네트워크로서 구현될 수 있다. LSTM은, n개의 시간 단계, 즉 n개의 이전 타깃 MIR 에포크(2252) 및 n개의 이전 트랙 MIR 에포크(2250)로 본원에 표시된 하나 이상의 이전 시간 단계(예: 에포크)로부터의 트랙의 MIR 특색을 기록하고, 이들 이전 MIR 특색의 상태 벡터를 각색형 음악 에이전트(2202)의 정책에 제공한다. 각색형 음악 에이전트(2202)의 계획자는 취해진 이전의 각색 행동(즉, 후술된 바와 같이, 각 분기에 대해 선택된 스템)와 함께 이러한 상태 벡터 및 단기 보상(2264)을 수신하고, 계획자는 이에 따라 정책을 업데이트한다. 계획자는 이전 각색 세션으로부터의 데이터를 사용하여 학습된다. 각색형 음악 에이전트(2202)는 강화 학습을 사용하여 학습되며, 여기서 오디오 스템(1776)의 라이브러리는 액션 공간을 정의하고, 단기 보상(2264) 및 (후술되는) 장기 보상(2282)은 보상 피드백을 제공한다. 각색형 음악 에이전트(2202)의 시간 단계는 4개의 음악 막대와 같은 에포크에 대응할 수 있다. MIR 생성자 GAN(1612), 악보 생성자 GAN(1616), 및 마스터링 에이전트(2102)와 같은 각색형 음악 에이전트(2202)는, 기술된 실시예에서 강화 학습 및 딥러닝을 위한 행위자-비평가 거동을 사용한다. 다른 실시예에서, 각색형 음악 에이전트(2202)는 모델 기반 행위자 비평가 모델, A3C 모델, 또는 임의의 다른 적절한 머신 러닝 모델과 같은 다른 모델을 사용하여 구현될 수 있다.
"트랙" 예에서, 스템 연결 프로세스(2272)는 오디오 스템(1776)의 라이브러리에 의해 제공된 선택된 스템을 연결해서, ("리믹스" 예에서) 기존 트랙의 보유된 스템 또는 ("새로운 트랙" 예에서) 노래 전체를 구성하도록 선택된 새로운 스템 위에 계층화되도록 각색형 음악 에이전트(2202)에 의해 선택된 새로운 스템으로 이루어진 생성된 오디오 에포크(2274)(즉, 현재의 에포크에 대한 스템의 믹스)를 생성한다. 대안적으로, "템플릿" 예에서, 스템 연결 프로세스(2272)는, 새로운 트랙 또는 리믹스 템플릿을 생성하기 위한 상이한 악기 선택과 연관된 MIR 데이터를 포함하는 악기 음색 프로필(1778)의 데이터베이스를 사용하여, MIR 프로필을 생성하여 생성된 에포크에 대해 해당 생성된 에포크 템플릿(2276)을 생성한다. 생성된 에포크 템플릿(2276)은 에포크에 대한 MIR 데이터를 포함한다.
생성된 오디오 에포크(2274) 또는 생성된 에포크 템플릿(2276)이 생성되었으면, 생성된 오디오 또는 템플릿의 길이는 2282 단계에서 (기존 트랙(1774) 및/또는 요구되는 MIR 데이터(1783)의 섹션에 기초하여) 트랙 또는 템플릿의 바람직한 총 길이와 비교된다. 바람직한 길이에 도달한 경우, 생성된 에포크 템플릿(2276)은 서로 결합되고 (제2 부분(2200b)에서 트랙 MIR 데이터(2239)로 도시된) 원래 트랙의 보유된 스템의 MIR 데이터와 조합되어 믹스 템플릿(1786)을 생성하거나, 생성된 오디오 에포크(2274)는 서로 결합되고 (제2 부분(2200b)의 스템 2(2206) 및 스템 3(2208)으로 도시된) 원래 트랙의 보유된 스템과 조합되어 각색된 러프 믹스(1780)을 생성한다. 믹스 템플릿(1786) 또는 각색형 러프 믹스(1780)는 또한 장기 보상 네트워크(2280)(아래에서 설명됨)에 제공되어 각색형 음악 에이전트(2202)를 학습시킨다. 각색된 러프 믹스(1780)가 제공되는 경우, 먼저 MIR 추출 프로세스(2284)에 의해 MIR 데이터가 추출, 예측 또는 조회된다. 상술된 바와 같이, MIR 데이터는 이전에 추출된 MIR 특색의 표로부터 참조된(즉, 조회된) MIRtoolbox와 같은 도구를 통해 추출되거나, 원시 오디오를 입력하고 MIR 예측을 출력하는 모델을 사용하여 예측될 수 있다. 그런 다음, 추출된(또는 예측된, 또는 조회된) MIR 데이터가 장기 보상 네트워크(2280)에 제공된다. 그런 다음, 각색 프로세스는 종료된다. 일부 실시예에서, 현재 트랙 또는 템플릿이 생성되고 있는 동안, 지금까지 생성된 전체 트랙 또는 템플릿(원래 및 생성된 스템 둘 다)이 장기 보상 네트워크(2280)에 제공되어 각색 프로세스가 종료되기 전에 각색형 음악 에이전트(2202)를 학습시킬 수 있다.
2282 단계에서, 트랙 또는 템플릿의 바람직한 총 길이에 도달하지 않은 경우, 현재 생성된 오디오 에포크(2274) 또는 생성된 에포크 템플릿(2276)은 MIR 조합 프로세스(2251)에 대한 피드백으로 제공된다. "트랙" 예에서, 현재 생성된 오디오 에포크(2274)는 먼더 MIR 추출 프로세스(2286)를 통해 패스되어, 상술된 바와 같이, 현재 생성된 오디오 에포크(2274)에 대한 MIR 데이터를 추출, 예측 또는 조회하여 현재 생성된 오디오 에포크(2274)에 대응하는 MIR 데이터를 생성한다. "리믹스" 예에서, MIR 조합 프로세스(2251)는, 원래의 트랙의 보유된 스템(즉, 트랙 MIR 데이터(2239))으로부터 추출된 MIR을 (MIR 추출 프로세스(2286) 또는 생성된 에포크 템플릿(2276)으로부터의) 피드백 MIR 데이터와 조합하여, 보유된 스템 및 새로운 스템 모두를 포함하는, 에포크에 대한 조합된 MIR 데이터를 생성한다. 이러한 조합된 MIR 데이터는 비평가(2262)에 제공되어 후속 에포크에 대한 단기 보상(2264)을 생성한다: 따라서, 에포크(n-1)에 대한 조합된 MIR 데이터는, 에포크(n-1)에 대한 타깃 MIR 에포크(2252)와 함께, 비평가(2262)에 제공되어, 에포크(n)에 대한 스템을 선택할 때 각색형 에이전트(2202)에 의해 사용된 단기 보상(2264)을 생성한다. "새로운 트랙" 예에서, 리믹스되는 원래의 트랙이 없기 때문에 보유된 스템이 없다는 것을 이해할 것이다. 따라서, MIR 조합 프로세스(2251)의 출력은 단순히 MIR 추출 프로세스(2286) 또는 생성된 에포크 템플릿(2276)으로부터 수신된 피드백 MIR 데이터이다.
장기 보상 네트워크(2280)는 보상 기능을 다음 3개의 입력에 적용하는 비평가(2278)를 포함한다: 요구되는 MIR 데이터(1783), 음악 이론 규칙(2020)의 데이터베이스로부터의 음악 이론 규칙, 및 MIR 추출 블록(2284)에 의해 각색된 러프 믹스(1780)로부터 추출된 MIR 데이터, 또는 믹스 템플릿(1786). 보상 기능은 음악 이론 규칙 및 전체 각색된 트랙(또는 전체 템플릿)의 MIR 데이터에 적용된 요구되는 MIR 데이터(1783)에 기초하여 장기 보상(2282)을 생성한다.
정동 음악 추천 시스템(100) 및/또는 정동 음악 작곡 시스템(1600), 및/또는 이의 양태 및 구성 요소는, 한 명 이상의 청취자에게 특정 정동 반응을 유도하기 위해 음악의 선택 또는 생성과 관련된 특정 사용 사례를 다루기 위한 다양한 구성으로 재결합될 수 있다. 이러한 사용 사례는 치료, 엔터테인먼트 또는 라이프스타일 애플리케이션을 포함할 수 있다. 본원에 기술된 예시적인 실시예의 몇몇 예시적인 사용 사례가 이제 도 27 내지 도 30을 참조하여 설명될 것이다.
도 27은 본원에 기술된 실시예를 사용하여 예시적 앨범 리믹싱 사용 사례(2700)를 도시한다. 기존 노래 앨범을 가진 아티스트인 클라이언트(2732)는 제작자(2734)와 협력하여 정동 작곡 과정 및 감정적 프레임워크(예: 정동의 GEMS/Russel 서컴플렉스 모델)를 설명하는 온보딩 문서(2738)의 도움으로 앨범의 노래에 대한 웰니스 목표(2736) 세트를 수립한다. 제작자(2734)는 클라이언트(2732)를 형성하는 현재 앨범 믹스(2702)(즉, 앨범의 노래 믹스)를 수신하여 이를 MIR 추출 프로세스(2704)에 제공하여 이를 MIR 데이터로 변환한다. 작곡 AINN(1800)과 같은 학습된 정동 추론 모델은 트랙(2706)의 예측된 정동 역학을 생성하는 데 사용된다. 예측된 정동 역학(2706)은 노래의 감정적 역학의 시각화(2708)로 변환된다. 클라이언트(2732)는 시각화(2708)을 검토하고, 2710 단계에서 선택된 트랙에 의해 유도될 바람직한 정동 궤적과 함께 최적화하기 위한 제1 트랙을 선택함으로써, 트랙(2712) 및 정동 타깃(2714)(예: 바람직한 정동 궤적)을 사용 사례(2700)의 후속 프로세스에 대한 입력으로 제공한다. 트랙(2712)의 트랙 MIR 데이터(2716)는 정동 정확도 모델(2720)(예컨대, MIR 생성 프로세스(1900))에 대한 제1 입력으로 제공된다. 정동 타깃(2714)에 대응하는 MIR 청사진(1730)은 정동 정확도 모델(2720)에 대한 제2 입력으로 사용된다. 정동 정확도 모델(2720)은 제작 리드 시트(예: 정동 음악 작곡 시스템(1600)에 의해 생산된 제작 리드 시트(2600)) 및 변경이 필요한 MIR 특색을 식별하는 MIR 청사진을 생성하는 데 사용되며, 문서(2722)로 공동으로 표시되고, 엔지니어(2724)에 의해 사용되어 (예컨대 정동 음악 작곡 시스템(1600)의 음악 제작 프로세스(1758)을 통해) 믹싱 및 마스터링 프로세스를 수행하여 바람직한 정동 타깃을 달성하도록 구성된 선택된 트랙의 최종 마스터(2730)를 생성한다. 이 예에서, 마스터링 기술은 트랙의 세그먼트에 적용되고(예: 피아노의 음색 수정), 분위기 트랙이 MIR 타깃을 더 잘 충족하도록 믹스에 추가되고, 바이노럴 엔트레인먼트(2 Hz)가 트랙에 추가된다.
도 28은 본원에 기술된 실시예를 사용하여 웰니스 재생목록을 타깃으로 하는 예시적인 음악 작곡 사용 사례(2800)를 도시한다. 사용 사례(2700)에서와 동일한 온보딩 프로세스가 사용되지만, 이 예에서, 타깃 수립 단계(2836)는 클라이언트(2732)의 앨범에 대한 웰니스 목표를 타깃으로 하고 전략화하기 위한 재생 목록(예: 기존 온라인 음악 서비스의 재생 목록)을 선택하고, 트랙의 감정적 궤적이 선택되고, 트랙 길이 및 필요한 트랙 수를 식별하는 것을 포함한다. 예를 들어, 향수를 불러일으키는 트랙과 평화로운 트랙은 "차가운" 재생 목록을 타깃으로 선택되고, 2개의 "집중" 트랙과 하나의 우울한 트랙은 "슬픈 비트" 재생 목록을 타깃으로 선택되며, 이 모든 것은 지속 시간이 3분 +/- 20초이다.
각각의 선택된 트랙의 작곡은, 트랙에 대한 MIR 청사진(1730)을 생성하기 위해 작곡 시스템(1600)의 MIR 생성 프로세스(1900)을 사용하여 시작한다. 악보(예: MIDI 악보(1742)) 및 작곡 리드 시트(2400)가 생성되고(예: 작곡 시스템(1600)을 사용하여), 제작자(2734) 및 클라이언트(2732)는 MIR 청사진(1730)에 따라 다양한 파라미터를 변경함으로써 프로세스의 1회 이상의 추가 반복에 걸쳐 악보(1742) 및 작곡 리드 시트(2400)를 개선할 수 있다. 예를 들어, MIDI 악보(1742)는 목표(2836)에 따라 트랙 수준 코드 진행 및 멜로디를 제공하도록 조정될 수 있다.
제작자(2734)와 클라이언트(2732)는 함께 작용하여 다양한 트랙의 러프 믹스(1750)을 생성한다. 정동 정확도 모델(2720)은 러프 믹스(1750) 및 MIR 청사진(1730)을 사용하여 제작 리드 시트(2600)를 변경 및 생성하는 데 필요한 음악적 특색의 데이터세트를 생성한다. 그런 다음, 제작자(2734)는 (예: 음악 제작 프로세스(1758)를 사용하여) 믹싱 기술을 트랙에 적용하여 제작 리드 시트에 의해 설정된 MIR 타깃을 더 잘 충족시켜 최종 믹스(1760) 세트를 생성한다. 그런 다음, 마스터링 에이전트(2102)를 사용하여 최종 마스터(1770)을 생성하기 위한 최종 믹스(1760)의 자동화된 마스터링을 수행할 수 있다.
도 29는 본원에 기술된 실시예를 사용하여 구별되는 정동 타깃을 갖는 다수의 앨범을 생성하기 위한 예시적인 음악 컬렉션 각색 사용 사례(2900)를 도시한다. 클라이언트(2732)는 기존 노래의 컬렉션을 가진 아티스트이며, 각 앨범마다 특정 정동 타깃 세트가 있는 3개의 앨범으로 노래를 릴리스하기를 원한다. 아티스트(2732)는 제작자(2734)와 협력하여 사용 사례(2800)에서와 같이 목표(2836)를 설정한다. 트랙의 컬렉션(2902)은 클라이언트(2732)로부터 수신되고, 사용 사례(2700)에서와 같이 MIR 추출 프로세스에 제공된다. 사용 사례(2900)는 각 트랙에 대한 사용 사례(2700)로 진행되지만, 클라이언트(1732)는, 일반적으로 바람직한 정동 목표에 가까운 트랙을 선택함으로써, 다수의 트랙(2712)을 선택하여 2910 단계에서 최적화한다.
온보딩(2836) 동안 클라이언트(1732)에 의해 선택된 정동 타깃(2714)은 각 트랙에 대한 MIR 청사진(1730)을 생성하는 데 사용된다. 각각의 트랙(2712)에 대한 트랙 MIR 데이터(2716)는 각 트랙에 대한 MIR 청사진(1730)과 함께 정동 정확도 모델(2720)에 제공되어 변경이 필요한 음악 특색을 식별하는 각 트랙에 대한 제작 리드 시트(2600)을 생성한다. 제작자(2734)는 제작 리드 시트(2600)을 사용하여 믹싱(2912)을 수행하는데, 그 출력(예: 러프 믹싱된(1760))은 마스터링 에이전트(2102)에 제공되며, 그 출력은 최종 마스터(1770)을 생성하기 위해 큐레이션 에이전트(2914)에 의해 큐레이션된다. 큐레이션 에이전트(2914)는 작곡 AINN(1800)으로 학습된 정동 음악 추천 시스템(100)으로부터의 딥 Q 네트워크일 수 있다.
도 30은 본원에서 설명된 실시예를 사용하여 기존의 스템의 라이브러리를 사용하여 정동 음악을 생성하기 위한 예시적인 음악 각색 사용 사례(3000)를 도시한다. 클라이언트(1732)는 앨범에 대한 새로운 곡을 생성하는 데 사용되는 사용되지 않은 스템의 라이브러리(1776)를 제공한다. MIR 생성 프로세스(1900)는 정동 타깃(2714)에 기초하여 MIR 청사진(1730)을 생성하는 데 사용된다. 각색형 음악 에이전트(2202)는 스템의 라이브러리(1776)를 사용하여 MIR 청사진(1730)과 정합하도록 의도된 생성된 트랙(3002)을 생성한다. 이 단계에서, 트랙(3002)은 승인을 위해 클라이언트(2732)와 공유될 수 있고, 추가 요소를 추가할 기회를 제공할 수 있다. 그런 다음, 트랙(3002)는 2704 단계에서 MIR 데이터로 변환되어 트랙 MIR 데이터(2716)를 생성한다. MIR 청사진(1730) 및 트랙 MIR 데이터(2716)는 정동 정확도 모델(2720)에 의해 사용되어 트랙에 대한 제작 리드 시트(2600)를 생성한다. 제작자(2734)는 믹싱(2912)을 수행한 다음, 마스터링 에이전트(2102) 및 큐레이션 에이전트(2914)를 사용하여 최종 마스터(1770)을 생성한다.
일부 실시예에서, 기술된 시스템 및 방법은 상술된 오디오 데이터 및 청각 자극 대신에 또는 이에 추가하여 비-청각 자극 및 비-오디오 데이터를 사용할 수 있다. 촉각 또는 시각 데이터는 일부 실시예에서 상술된 것과 유사한 기술을 사용하여 촉각 또는 시각 자극에 대한 사용자 정동 반응을 수집하고 예측하기 위해 사용될 수 있다.
일부 실시예에서, 오디오 세그먼트는 그 자체로서, 또는 다른 청각 데이터와 통합된, 모노럴 또는 바이노럴 비트 데이터를 포함할 수 있다. 모노럴 및 바이노럴 비트는 일부 조건 하에서 인간에게 특정 정동 반응을 유도하는 능력을 갖는 것으로 나타났다. 예를 들어, Chaieb 등, "청각 비트 자극 및 인지 및 기분 상태에 대한 영향", Frontiers in Psychiatry, Vol. 6, 2015년, https://www.frontiersin.org/article/10.3389/fpsyt.2015.00070의 비교 문헌 연구를 참조하고, 이는 그 전체가 참조로서 본원에 통합된다.
본 개시가 방법 및 장치의 관점에서 적어도 부분적으로 설명될 수 있지만, 당업자는 본 개시가 또한 하드웨어 구성 요소, 소프트웨어 또는 이 둘의 임의의 조합에 의한 설명된 방법의 양태 및 특징 중 적어도 일부를 수행하기 위한 다양한 구성 요소에 관한 것임을 이해할 것이다. 따라서, 본 개시의 기술적 솔루션은 소프트웨어 제품의 형태로 구현될 수 있다. 적절한 소프트웨어 제품은, 예를 들어, DVD, CD-ROM, USB 플래시 디스크, 탈착식 하드 디스크, 또는 다른 저장 매체를 포함하는, 미리 기록된 저장 장치 또는 다른 유사한 비휘발성 또는 비일시적 컴퓨터 또는 프로세서 판독 가능 매체에 저장될 수 있다. 소프트웨어 제품은, 처리 장치(예: 개인용 컴퓨터, 서버, 또는 네트워크 장치)가 본원에 개시된 방법 또는 시스템의 예를 실행할 수 있게 하는, 유형으로 저장된 명령어를 포함한다.
당업자는 또한 상술된 방법 및 장치의 출력, 즉 오디오 세그먼트(230) 자체를 포함하는 오디오 스트림(234)이, DVD, CD-ROM, USB 플래시 디스크, 탈착식 하드 디스크, 또는 다른 저장 매체를 포함하는 비휘발성 또는 비일시적 컴퓨터 또는 프로세서 판독 가능 매체와 같은 저장 매체 상에 (오디오 파일과 같은) 음악 데이터로서 저장될 수 있음을 이해할 것이다. 음악은 또한 오디오 애플리케이션 또는 오디오 재생 또는 방송 장치에 사용하기에 적합한 다른 디지털 또는 아날로그 저장 매체, 예컨대 카세트 테이프, 비닐 레코드, 또는 디지털 또는 아날로그 음악 데이터를 위한 임의의 다른 저장 매체에 저장될 수 있다. 일 실시예에서, 오디오 스트림은 사용자-특정적으로 또는 사용자-독립적으로 특정 정동 궤적을 유도할 가능성이 있는 것으로 식별될 수 있고, 이러한 오디오 스트림은 나중에 사용자가 청취할 수 있도록 저장될 수 있다.
설명된 방법 또는 블록도에서, 박스는 이벤트, 단계, 기능, 프로세스, 모듈, 메시지 및/또는 상태 기반 작동 등을 나타낼 수 있다. 상기 예 중 일부는 특정 순서로 발생하는 것으로 설명되었지만, 임의의 주어진 단계의 변경된 순서의 결과가 후속 단계의 발생을 방해하거나 손상시키지 않을 경우, 일부 단계 또는 프로세스가 상이한 순서로 수행될 수 있다는 것을 당업자는 이해할 것이다. 또한, 상술된 메시지 또는 단계 중 일부는 다른 실시예에서 제거되거나 조합될 수 있고, 상술된 메시지 또는 단계 중 일부는 다른 실시예에서 다수의 하위 메시지 또는 하위 단계로 분리될 수 있다. 또한, 단계 중 일부 또는 전부가 필요에 따라 반복될 수 있다. 방법 또는 단계로서 설명된 요소는 시스템 또는 하위 구성요소에 유사하게 적용되며, 그 반대의 경우도 마찬가지이다. "송신" 또는 "수신"과 같은 이러한 단어에 대한 기준은 특정 장치의 관점에 따라 상호 교환될 수 있다.
상술된 실시예는 예시적인 것으로 간주되고 제한적이지 않다. 방법으로서 기술된 예시적인 실시예는 시스템에 유사하게 적용될 것이고, 그 반대의 경우도 마찬가지이다.
상기 중 임의의 것의 조합 및 하위 조합을 포함할 수 있는 일부 예시적인 실시예에 대한 변형이 이루어질 수 있다. 위에서 제시된 다양한 실시예는 단지 예시일 뿐이며, 본 개시의 범위를 제한하는 것을 의미하지 않는다. 본원에 기술된 혁신의 변형은 당업자에게 명백할 것이며, 이러한 변형은 본 개시의 의도된 범위 내에 있을 것이다. 특히, 상술된 실시예 중 하나 이상으로부터의 특징은 위에서 명시적으로 설명되지 않을 수 있는 특징의 하위 조합으로 이루어진 대안적인 실시예를 생성하도록 선택될 수 있다. 또한, 상술된 실시예 중 하나 이상으로부터의 특징이 선택되고 조합되어 위에서 명시적으로 설명되지 않을 수 있는 특징의 조합으로 이루어진 대안적인 실시예를 생성할 수 있다. 이러한 조합 및 하위 조합에 적합한 특징은 본 개시의 전체 검토 시 당업자에게 쉽게 명백해질 것이다. 본원에 기술된 주제는 기술의 모든 적절한 변경을 포함하고 수용한다.
Claims (54)
- 청취자에게 정동 상태 변화를 유도하기 위한 오디오 스트림을 생성하는 방법으로서,
상기 청취자의 현재 정동 상태를 식별하는 단계;
상기 청취자의 타깃 정동 상태를 식별하는 단계;
상기 현재 정동 상태에서 상기 타깃 정동 상태로의 정동 궤적을 식별하는 단계;
학습된 세그먼트 식별 머신 러닝 모델을 사용하여, 제1 오디오 세그먼트가 청각 자극으로서 상기 청취자에게 제시될 때, 상기 정동 궤적의 적어도 초기 부분에 대응하는 바람직한 정동 반응을 상기 청취자에게 유도할 가능성이 있는 상기 제1 오디오 세그먼트를 식별하는 단계;
상기 제1 오디오 세그먼트에 적어도 부분적으로 기초하여 상기 오디오 스트림을 생성하는 단계; 및
상기 오디오 스트림에 기초하여 오디오 스트림 데이터를 청취자 장치로 송신하는 단계를 포함하는, 방법. - 제1항에 있어서,
상기 학습된 세그먼트 식별 머신 러닝 모델을 사용하여 상기 제1 오디오 세그먼트를 식별하는 단계 이후에:
정동 추론 프로세스를 사용하여, 상기 현재 정동 상태 및 상기 제1 오디오 세그먼트의 오디오 특색 값의 세트에 기초하여 추론된 새로운 정동 상태를 추론하는 단계;
상기 추론된 새로운 정동 상태 데이터로부터 상기 타깃 정동 상태로의 업데이트된 정동 궤적을 식별하는 단계; 및
상기 학습된 세그먼트 식별 머신 러닝 모델을 사용하여, 후속 오디오 세그먼트가 청각 자극으로서 상기 청취자에게 제시될 때, 상기 업데이트된 정동 궤적의 적어도 초기 부분에 대응하는 후속의 바람직한 정동 반응을 상기 청취자에게 유도할 가능성이 있는 상기 후속 오디오 세그먼트를 식별하는 단계를 더 포함하되,
상기 오디오 스트림은 상기 제1 오디오 세그먼트 및 상기 후속 오디오 세그먼트에 적어도 부분적으로 기초하여 생성되는, 방법. - 제2항에 있어서,
상기 학습된 세그먼트 식별 머신 러닝 모델은 상기 정동 추론 프로세스로부터 수신된 보상 데이터를 사용하여 학습되고;
상기 정동 추론 프로세스는:
상기 오디오 스트림의 오디오 특색 값 세트에 대한 상기 청취자의 추론된 정동 반응을 추론하는 단계; 및
상기 추론된 정동 반응과 상기 바람직한 정동 반응의 비교에 기초하여 상기 보상 데이터를 생성하는 단계에 의해 상기 보상 데이터를 생성하는, 방법. - 제3항에 있어서,
상기 정동 추론 프로세스는 학습된 정동 추론 머신 러닝 모델을 포함하고;
상기 학습된 정동 추론 머신 러닝 모델은:
복수의 학습 오디오 세그먼트에 대응하는 학습 오디오 특색 데이터; 및
상기 복수의 학습 오디오 세그먼트에 대응하는 복수의 오디오 자극 각각에 대한 각각의 인간 대상체의 노출과 관련하여 한 명 이상의 인간 대상체로부터 수집된 정동 상태 데이터를 포함하는 학습 데이터를 사용하여 학습되는, 방법. - 제4항에 있어서, 상기 한 명 이상의 인간 대상체는 상기 청취자를 포함하는, 방법.
- 제5항에 있어서, 상기 학습된 세그먼트 식별 머신 러닝 모델은 강화 학습 모델을 포함하는, 방법.
- 제6항에 있어서, 상기 학습된 세그먼트 식별 머신 러닝 모델은 딥 러닝 신경망을 포함하는, 방법.
- 제7항에 있어서, 상기 오디오 스트림 데이터는 상기 오디오 스트림을 추천하는 추천 데이터를 포함하는, 방법.
- 제7항에 있어서, 상기 오디오 스트림 데이터는 상기 오디오 스트림을 포함하는, 방법.
- 제9항에 있어서, 상기 오디오 스트림 데이터를 상기 청취자 장치에 송신하는 단계 이후에:
상기 청취자로부터 업데이트된 현재 정동 상태 데이터를 수신하는 단계; 및
런타임 학습 데이터를 사용하여 상기 학습된 정동 추론 머신 러닝 모델을 학습시키는 단계를 더 포함하고, 상기 런타임 학습 데이터는:
상기 제1 오디오 세그먼트 및 상기 복수의 후속 오디오 세그먼트 각각에 대응하는 오디오 특색 데이터; 및
상기 업데이트된 현재 정동 상태 데이터를 포함하는, 방법. - 제1항에 있어서, 상기 청취자의 타깃 정동 상태를 식별하는 단계는:
상기 청취자 장치를 통해 상기 청취자로부터 타깃 정동 상태 데이터를 수신하는 단계; 및
상기 타깃 정동 상태 데이터에 기초하여 상기 청취자의 타깃 정동 상태를 식별하는 단계를 포함하는, 방법. - 제1항에 있어서, 상기 청취자의 현재 정동 상태를 식별하는 단계는:
상기 청취자 장치를 통해 상기 청취자로부터 정동 자기 평가 데이터를 수신하는 단계; 및
상기 정동 자기 평가 데이터에 기초하여 상기 청취자의 현재 정동 상태를 식별하는 단계를 포함하는, 방법. - 제1항에 있어서, 상기 청취자의 현재 정동 상태를 식별하는 단계는:
상기 청취자의 더 많은 생리학적 상태와 상관된 생리학적 데이터를 수신하는 단계; 및
상기 생리학적 데이터에 기초하여 상기 청취자의 현재 정동 상태를 식별하는 단계를 포함하는, 방법. - 청취자에게 정동 상태 변화를 유도하기 위한 오디오 스트림을 생성하는 시스템으로서:
프로세서 시스템;
통신 시스템; 및
메모리 시스템을 포함하되, 상기 메모리 시스템에는:
실행 가능한 학습된 세그먼트 식별 머신 러닝 모델; 및
실행 가능 명령어가 저장되고, 상기 실행 가능 명령어는, 상기 프로세서 시스템에 의해 실행될 때, 상기 시스템으로 하여금:
상기 통신 시스템에 의해 수신된 청취자 상태 데이터에 기초하여 상기 청취자의 현재 정동 상태를 식별하게 하고;
상기 통신 시스템에 의해 수신된 타깃 정동 상태 데이터에 기초하여 상기 청취자의 타깃 정동 상태를 식별하게 하고;
상기 현재 정동 상태에서 상기 타깃 정동 상태로의 정동 궤적을 식별하게 하고;
상기 학습된 세그먼트 식별 머신 러닝 모델을 실행하여, 상기 청취자에게 청각 자극으로서 제시될 때, 상기 청취자의 상기 정동 궤적의 적어도 초기 부분에 대응하는 바람직한 정동 반응을 상기 청취자에게 유도할 가능성이 있는 제1 오디오 세그먼트를 식별하게 하고;
상기 제1 오디오 세그먼트에 적어도 부분적으로 기초하여 상기 오디오 스트림을 생성하게 하고;
상기 통신 시스템을 사용하여 상기 오디오 스트림에 기초하여 오디오 스트림 데이터를 청취자 장치로 송신하게 하는, 시스템. - 제14항에 있어서,
상기 메모리 시스템에는: 실행 가능한 학습된 정동 추론 머신 러닝 모델; 및
실행 가능한 명령어가 추가로 저장되며, 상기 실행 가능한 명령어는, 상기 프로세서 시스템에 의해 실행될 때, 상기 학습된 세그먼트 식별 머신 러닝 모델을 사용하여 상기 제1 오디오 세그먼트를 식별하는 단계 이후에 상기 시스템으로 하여금 추가로:
상기 정동 추론 머신 러닝 모델을 사용하여, 상기 현재 정동 상태 및 상기 제1 오디오 세그먼트의 오디오 특색 값의 세트에 기초하여 추론된 새로운 정동 상태를 추론하게 하고;
상기 추론된 새로운 정동 상태 데이터로부터 상기 타깃 정동 상태로의 업데이트된 정동 궤적을 식별하게 하고;
상기 학습된 세그먼트 식별 머신 러닝 모델을 사용하여, 후속 오디오 세그먼트가 청각 자극으로서 상기 청취자에게 제시될 때, 상기 업데이트된 정동 궤적의 적어도 초기 부분에 상응하는 바람직한 후속 정동 반응을 상기 청취자에게 유도할 가능성이 있는 상기 후속 오디오 세그먼트를 식별하게 하되;
상기 오디오 스트림은 상기 제1 오디오 세그먼트 및 상기 후속 오디오 세그먼트에 적어도 부분적으로 기초하여 생성되는, 시스템. - 제15항에 있어서,
상기 학습된 세그먼트 식별 머신 러닝 모델은 상기 정동 추론 프로세스로부터 수신된 보상 데이터를 사용하여 학습되고;
상기 정동 추론 프로세스는:
상기 오디오 스트림의 오디오 특색 값 세트에 대한 상기 청취자의 추론된 정동 반응을 추론하는 단계; 및
상기 추론된 정동 반응과 상기 바람직한 정동 반응의 비교에 기초하여 상기 보상 데이터를 생성하는 단계에 의해 상기 보상 데이터를 생성하는, 시스템. - 제16항에 있어서,
상기 학습된 정동 추론 머신 러닝 모델은:
복수의 학습 오디오 세그먼트에 대응하는 학습 오디오 특색 데이터; 및
상기 복수의 학습 오디오 세그먼트에 대응하는 복수의 오디오 자극 각각에 대한 각각의 인간 대상체의 노출과 관련하여 한 명 이상의 인간 대상체로부터 수집된 정동 상태 데이터를 포함하는 학습 데이터를 사용하여 학습되는, 시스템. - 제1항 내지 제14항의 방법 중 하나 이상을 실행하기 위한 명령어를 포함하는 비일시적 프로세서 판독가능 매체.
- 제1항 내지 제14항의 방법 중 하나 이상에 의해 생성된 상기 오디오 스트림을 포함하는 비일시적 저장 매체.
- 음악적 특색에 대한 인간 정동 반응을 예측하기 위해 머신 러닝 모델을 학습시키는 방법으로서,
음악적 특색 세트를 갖는 음악을 청취자에게 제시하는 단계;
상기 음악의 표현에 대한 상기 청취자의 정동 반응을 나타내는 상기 청취자로부터의 정동 반응 데이터를 획득하는 단계;
상기 음악의 음악적 특색을 상기 정동 반응 데이터로 레이블링하여 레이블링된 음악적 특색 데이터를 생성하는 단계; 및
상기 레이블링된 음악적 특색 데이터를 학습 데이터로서 사용하여 상기 머신 러닝 모델을 학습시켜, 상기 음악적 특색 데이터에 기초하여 상기 정동 반응 데이터를 예측하는 단계를 포함하는, 방법. - 음악에 대한 인간 반응을 예측하기 위한 시스템으로서,
프로세서 시스템; 및
메모리 시스템을 포함하되, 상기 메모리 시스템에는:
제20항의 방법에 따라 학습된 머신 러닝 모델이 저장되는, 시스템. - 제21항에 있어서, 상기 머신 러닝 모델은:
바람직한 정동 반응을 나타내는 바람직한 정동 반응 데이터를 수신하는 단계; 및
상기 머신 러닝 모델에 의해 예측된 음악적 특색을 갖는 음악을 생성하여 청취자에게 상기 바람직한 정동 반응을 유도하는 단계에 대한 생성 모델인, 시스템. - 제22항에 있어서, 상기 음악을 생성하는 단계는:
상기 생성 모델을 사용하여 상기 바람직한 정동 반응 데이터를 처리하여 상기 음악적 특색을 나타내는 음악적 특색 데이터를 생성하는 단계; 및
상기 음악적 특색 데이터에 기초하여 상기 음악을 생성하는 단계를 포함하는, 시스템. - 제23항에 있어서, 상기 음악적 특색 데이터는 음악 정보 검색(MIR) 데이터인, 시스템.
- 제24항에 있어서, 상기 MIR 데이터는 상기 음악에 대한 MIR 청사진인, 시스템.
- 제23항에 있어서, 상기 생성 모델은 생성적 대립 네트워크(GAN)인, 시스템.
- 제26항에 있어서, 상기 GAN은 생성자 네트워크, 확률 네트워크, 및 제어 네트워크를 포함하는, 시스템.
- 제27항에 있어서, 상기 GAN은 조건부 GAN을 포함하는, 시스템.
- 제28항에 있어서, 상기 생성자 네트워크는 생성자 신경망을 포함하는, 시스템.
- 제29항에 있어서, 상기 확률 네트워크는 구별자 신경망을 포함하는, 시스템.
- 제30항에 있어서, 상기 생성자 신경망 및 구별자 신경망은 각각 장단기 메모리(LSTM)를 갖는 순환 신경망(RNN)을 포함하는, 시스템.
- 제23항에 있어서, 상기 음악적 특색 데이터에 기초하여 상기 음악을 생성하는 단계는:
상기 음악적 특색 데이터에 기초하여 악보를 생성하는 단계; 및
상기 악보에 기초하여 상기 음악을 생성하는 단계를 포함하는, 시스템. - 제32항에 있어서, 상기 악보는 악기 디지털 인터페이스(MIDI) 악보인, 시스템.
- 제32항에 있어서, 상기 악보를 생성하는 단계는:
작곡 의도 정보를 수신하는 단계; 및
상기 음악적 특색 데이터 및 상기 작곡 의도 정보에 기초하여 상기 악보를 생성하는 단계를 포함하는, 시스템. - 제34항에 있어서, 상기 작곡 의도 정보는 악보 유형 정보, 기악 편성 정보, 및 악보 길이 정보 중 하나 이상을 포함하는, 시스템.
- 제34항에 있어서, 상기 작곡 의도 정보는 사용자로부터 수신된 작곡 의도 사용자 입력에 의해 표시되는, 시스템.
- 제32항에 있어서,
상기 메모리는 악보 생성 머신 러닝 모델을 추가로 저장하고;
상기 악보를 생성하는 단계는 상기 악보 생성 머신 러닝 모델을 사용하여 상기 음악적 특색 데이터를 처리하여 상기 악보를 생성하는 단계를 포함하는, 시스템. - 제37항에 있어서, 상기 악보 생성 머신 러닝 모델은 악보 생성 생성적 대립 네트워크(GAN)인, 시스템.
- 제38항에 있어서, 상기 악보 생성 GAN은 생성자 네트워크, 확률 네트워크, 및 제어 네트워크를 포함하는, 시스템.
- 제39항에 있어서, 상기 악보 생성 GAN은 조건부 GAN을 포함하는, 시스템.
- 제40항에 있어서, 상기 생성자 네트워크는 생성자 신경망을 포함하는, 시스템.
- 제41항에 있어서, 상기 확률 네트워크는 구별자 신경망을 포함하는, 시스템.
- 제42항에 있어서, 상기 생성자 신경망 및 구별자 신경망은 각각 장단기 메모리(LSTM)를 갖는 순환 신경망(RNN)을 포함하는, 시스템.
- 제32항에 있어서, 상기 악보에 기초하여 상기 음악을 생성하는 단계는:
상기 악보를 사용자에게 제시하는 단계;
상기 사용자로부터 러프 믹스 사용자 입력을 수신하는 단계;
상기 러프 믹스 사용자 입력에 기초하여 러프 믹스를 생성하는 단계; 및
상기 러프 믹스에 기초하여 상기 음악을 생성하는 단계를 포함하는, 시스템. - 제23항에 있어서, 상기 음악적 특색 데이터에 기초하여 상기 음악을 생성하는 단계에 기초하여 상기 음악을 생성하는 단계는:
상기 음악적 특색 데이터에 기초하여 작곡 리드 시트를 생성하는 단계;
상기 작곡 리드 시트를 상기 사용자에게 제시하는 단계;
상기 사용자로부터 러프 믹스 사용자 입력을 수신하는 단계;
상기 러프 믹스 사용자 입력에 기초하여 러프 믹스를 생성하는 단계; 및
상기 러프 믹스에 기초하여 상기 음악을 생성하는 단계를 포함하는, 시스템. - 제44항 또는 제45항에 있어서, 상기 러프 믹스에 기초하여 상기 음악을 생성하는 단계는:
상기 음악적 특색 데이터 및 상기 러프 믹스에 기초하여 제작 리드 시트를 생성하는 단계;
상기 작곡 리드 시트를 상기 사용자에게 제시하는 단계;
상기 사용자로부터 최종 믹스 사용자 입력을 수신하는 단계;
상기 최종 믹스 사용자 입력에 기초하여 최종 믹스를 생성하는 단계; 및
상기 최종 믹스에 기초하여 상기 음악을 생성하는 단계를 포함하는, 시스템. - 제46항에 있어서,
상기 메모리는 마스터링 머신 러닝 모델을 추가로 저장하고;
상기 최종 믹스를 생성하는 단계는 상기 마스터링 머신 러닝 모델을 사용하여 상기 음악적 특색 데이터 및 상기 최종 믹스를 처리하여 상기 음악을 생성하는 단계를 포함하는, 시스템. - 제47항에 있어서, 상기 마스터링 머신 러닝 모델은:
기존의 음악 작품을 수신하고;
상기 음악적 특색 데이터 및 상기 기존 음악 작품을 처리하여 상기 음악적 특색을 갖는 상기 음악을 생성하도록 더 구성되는, 시스템. - 제48항에 있어서, 상기 마스터링 머신 러닝 모델은 복수의 기존 음악 스템에 기초하여 상기 음악적 특색을 갖는 상기 음악을 생성하도록 더 구성되는, 시스템.
- 제47항에 있어서, 상기 마스터링 머신 러닝 모델은 순환 딥 Q 네트워크(DQN)를 포함하는, 시스템.
- 제50항에 있어서, 상기 마스터링 머신 러닝 모델은 분기 순환 DQN을 포함하는, 시스템.
- 제51항에 있어서, 상기 마스터링 머신 러닝 모델은 장단기 메모리(LSTM)를 포함하는, 시스템.
- 제20항 내지 제52항 중 어느 한 항의 시스템에 의해 생성된 상기 오디오 스트림을 포함하는 비일시적 저장 매체.
- 제21항에 있어서, 상기 머신 러닝 모델은:
복수의 기존 음악 작품을 수신하고;
상기 바람직한 정동 반응 데이터를 수신하고;
청취자에서 상기 바람직한 정동 반응을 유도할 가능성이 있는 상기 복수의 기존 음악 작품 중 하나의 기존 음악 작품을 식별하도록 더 구성되는, 시스템.
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062980979P | 2020-02-24 | 2020-02-24 | |
US62/980,979 | 2020-02-24 | ||
US202063073252P | 2020-09-01 | 2020-09-01 | |
US63/073,252 | 2020-09-01 | ||
US202063074109P | 2020-09-03 | 2020-09-03 | |
US63/074,109 | 2020-09-03 | ||
US202163144307P | 2021-02-01 | 2021-02-01 | |
US63/144,307 | 2021-02-01 | ||
PCT/CA2021/050220 WO2021168563A1 (en) | 2020-02-24 | 2021-02-24 | Method, system, and medium for affective music recommendation and composition |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220146528A true KR20220146528A (ko) | 2022-11-01 |
Family
ID=77489715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020227032538A KR20220146528A (ko) | 2020-02-24 | 2021-02-24 | 정동 음악 추천 및 작곡을 위한 방법, 시스템 및 매체 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20230113072A1 (ko) |
EP (1) | EP4111448A4 (ko) |
JP (1) | JP2023516135A (ko) |
KR (1) | KR20220146528A (ko) |
CN (1) | CN115428070A (ko) |
AU (1) | AU2021228385A1 (ko) |
CA (1) | CA3169171A1 (ko) |
IL (1) | IL295812A (ko) |
MX (1) | MX2022010358A (ko) |
WO (1) | WO2021168563A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102608935B1 (ko) * | 2023-04-06 | 2023-12-04 | 뉴튠(주) | 사용자 정보에 기초한 실시간 오디오 믹싱 서비스 제공 방법 및 장치 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3803633A1 (en) * | 2018-05-24 | 2021-04-14 | Aimi Inc. | Music generator |
US11593059B2 (en) * | 2020-08-26 | 2023-02-28 | Spotify Ab | Systems and methods for generating recommendations in a digital audio workstation |
JP2024526125A (ja) * | 2021-06-15 | 2024-07-17 | エムアイアイアール・オーディオ・テクノロジーズ・インコーポレイテッド | 自律神経系の生理学的反応を誘発するのに適した特性を有する音楽のセグメントを識別するためのシステムおよび方法 |
US20230394080A1 (en) * | 2022-06-03 | 2023-12-07 | Xandrie SA | Electronic system for digital and physical media |
CN114999611B (zh) * | 2022-07-29 | 2022-12-20 | 支付宝(杭州)信息技术有限公司 | 一种模型训练和信息推荐的方法及装置 |
WO2024044239A1 (en) * | 2022-08-23 | 2024-02-29 | Vital Neuro, Inc. | Distributed feed-forward psychoacoustic control |
CN116030777B (zh) * | 2023-03-13 | 2023-08-18 | 南京邮电大学 | 一种特定情感音乐生成方法及系统 |
CN116545860B (zh) * | 2023-07-07 | 2023-10-03 | Tcl通讯科技(成都)有限公司 | 校准数据读取方法、装置、存储介质及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005113099A2 (en) * | 2003-05-30 | 2005-12-01 | America Online, Inc. | Personalizing content |
WO2010027509A1 (en) * | 2008-09-05 | 2010-03-11 | Sourcetone, Llc | Music classification system and method |
TW201022968A (en) * | 2008-12-10 | 2010-06-16 | Univ Nat Taiwan | A multimedia searching system, a method of building the system and associate searching method thereof |
WO2012019637A1 (en) * | 2010-08-09 | 2012-02-16 | Jadhav, Shubhangi Mahadeo | Visual music playlist creation and visual music track exploration |
CN110795944A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 推荐内容处理方法及装置、情感属性确定方法及装置 |
-
2021
- 2021-02-24 MX MX2022010358A patent/MX2022010358A/es unknown
- 2021-02-24 KR KR1020227032538A patent/KR20220146528A/ko unknown
- 2021-02-24 IL IL295812A patent/IL295812A/en unknown
- 2021-02-24 JP JP2022550664A patent/JP2023516135A/ja active Pending
- 2021-02-24 WO PCT/CA2021/050220 patent/WO2021168563A1/en active Application Filing
- 2021-02-24 EP EP21761481.7A patent/EP4111448A4/en active Pending
- 2021-02-24 CA CA3169171A patent/CA3169171A1/en active Pending
- 2021-02-24 CN CN202180029839.6A patent/CN115428070A/zh active Pending
- 2021-02-24 AU AU2021228385A patent/AU2021228385A1/en active Pending
- 2021-02-24 US US17/801,587 patent/US20230113072A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102608935B1 (ko) * | 2023-04-06 | 2023-12-04 | 뉴튠(주) | 사용자 정보에 기초한 실시간 오디오 믹싱 서비스 제공 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
AU2021228385A1 (en) | 2022-09-08 |
CN115428070A (zh) | 2022-12-02 |
JP2023516135A (ja) | 2023-04-18 |
IL295812A (en) | 2022-10-01 |
US20230113072A1 (en) | 2023-04-13 |
WO2021168563A1 (en) | 2021-09-02 |
CA3169171A1 (en) | 2021-09-02 |
EP4111448A1 (en) | 2023-01-04 |
EP4111448A4 (en) | 2023-12-13 |
MX2022010358A (es) | 2022-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20220146528A (ko) | 정동 음악 추천 및 작곡을 위한 방법, 시스템 및 매체 | |
Williams et al. | Investigating affect in algorithmic composition systems | |
Eerola et al. | A comparison of the discrete and dimensional models of emotion in music | |
US20180314959A1 (en) | Cognitive music selection system and method | |
US20200286505A1 (en) | Method and system for categorizing musical sound according to emotions | |
Vuust et al. | Neural underpinnings of music: the polyrhythmic brain | |
Laurier et al. | Automatic detection of emotion in music: Interaction with emotionally sensitive machines | |
Ntalampiras et al. | A statistical inference framework for understanding music-related brain activity | |
Wieser et al. | Understanding auditory representations of emotional expressions with neural networks | |
Gómez-Vilda et al. | Data-Driven Vs Model-Driven Approaches in Cognitive Speech Processing | |
CN117442843A (zh) | 一种用于驾驶员情绪调节的音乐干预方法及系统 | |
Coorevits et al. | Exploring the effect of tempo changes on violinists’ body movements | |
Noufi et al. | The role of vocal persona in natural and synthesized speech | |
Dalida et al. | Music mood prediction based on spotify’s audio features using logistic regression | |
Scurto | Designing with machine learning for interactive music dispositifs | |
Parlak et al. | Spectro-temporal energy ratio features for single-corpus and cross-corpus experiments in speech emotion recognition | |
Wang et al. | REMAST: Real-time Emotion-based Music Arrangement with Soft Transition | |
KR102623459B1 (ko) | 사용자의 보컬 평가에 기반한 오디션 이벤트 서비스 제공 방법, 장치 및 시스템 | |
US11635934B2 (en) | Systems and methods for identifying segments of music having characteristics suitable for inducing autonomic physiological responses | |
KR102623446B1 (ko) | 사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법 | |
US20230281244A1 (en) | Audio Content Serving and Creation Based on Modulation Characteristics and Closed Loop Monitoring | |
Narain | Interfaces and models for improved understanding of real-world communicative and affective nonverbal vocalizations by minimally speaking individuals | |
Henry | Modelling music selection in everyday life with applications for psychology-informed music recommender systems | |
KR102623419B1 (ko) | 사용자의 단말을 이용한 보컬 데이터 수집 및 이를 이용한 보컬 평가 방법 | |
US20240290308A1 (en) | Granular User Feedback Tracking for Generative Music Systems |