KR102592316B1

KR102592316B1 - 반복적 모션 자극을 제공하는 방법

Info

Publication number: KR102592316B1
Application number: KR1020207003824A
Authority: KR
Inventors: 오웬 매카시; 브라이언 해리스; 알렉스 칼파시스; 데이비드 게르렛
Original assignee: 메드리듬스, 아이엔씨.
Priority date: 2017-07-24
Filing date: 2018-07-24
Publication date: 2023-10-20
Also published as: CN115120835A; JP2023062034A; US20200197657A1; EP3659050A1; KR20200031124A; US10556087B2; EP3659050A4; KR20230150407A; CN110958899A; CN110958899B; US20190022351A1; CN115120835B; US11517707B2; US20230218853A1; WO2019023256A1; JP2020529235A; CA3070120A1; US12064564B2

Abstract

반복적인 모션 자극을 제공하는 방법은, 오디오 콘텐츠에 대한 액세스를 제공하는 것; 환자에게 전달하기 위한 오디오 콘텐츠를 선택하는 것; 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것으로서, 분석은 선택된 오디오 콘텐츠의 오디오 피처를 식별하고, 선택된 오디오 콘텐츠의 리듬 및 구조적 피처를 추출하는, 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것; 선택된 오디오 콘텐츠에 대한 동조 적합성 분석을 수행하는 것; 선택된 오디오 콘텐츠에 대한 동조 지원 큐(entrainment assistance cue)(들)를 생성하는 것으로서, 지원 큐(들)는 오디오 콘텐츠에 추가되는 사운드를 포함하는, 선택된 오디오 콘텐츠에 대한 동조 지원 큐(들)를 생성하는 것; 선택된 오디오 콘텐츠를 플레이하는 것과 동시에 지원 큐를 오디오 콘텐츠에 적용하는 것; 환자에 대한 치료 효과를 평가하는 것을 포함하고, 선택된 오디오 콘텐츠는 치료 임계치가 검출되는 경우 계속 플레이되고, 치료 임계치가 검출되지 않는 경우 환자에게 전달하기 위한 제2 오디오 콘텐츠가 선택된다.

Description

반복적 모션 자극을 제공하는 방법

관련 출원에 대한 교차 참조

본 출원은 2017년 7월 24일자로 출원된 가출원 제62/536,264호의 35 USC 119(e) 하에서의 우선권의 이익을 주장하는데, 상기 가출원의 전체 내용은 본 명세서에 통합된다.

개시된 주제의 분야

음악은 한 번에 광범위한 뇌 영역을 향상시킨다. 생리학적 연구는 청각 리듬이 운동 시스템(motor system)에 중대한 영향을 끼친다는 것을 나타내었다. 증거는 청각 및 운동 시스템이 피질(cortical), 피질하(sub-cortical) 및 척추 레벨에서 강한 연결성을 갖는다는 것을 드러낸다. 실제로, 이 현상은 동조(entrainment)로 칭해진다. 이들 연결의 풍부함을 알면서, 수많은 임상 연구가, 뇌 손상을 앓고 있는 환자를 위한 신경 운동 요법(neurological motor therapy)을 통해 기능적 변화를 일으키는 리듬 및 음악의 효과를 연구하였다.

이 요법의 공식적인 개발 이후, 그 효과를 임상적으로 테스트하기 위해 많은 연구가 수행되어 왔다. 한 연구는, 뇌 혈관 사고 이후의 뇌졸중 환자(stroke patient)의 걸음걸이 패턴에 대한 리듬 청각 자극(Rhythmic Auditory Stimulation: RAS)의 영향을 이해하기 위해, 그들을 대상으로 설계되었다. 6 미터의 기준선 걷기(baseline walk)를 확립한 이후, 후속하는 걷기 시도가 RAS와 매칭되었다. 결과는, 대부분의 환자에 대해 청각-운동 동기화(auditory-motor synchronization)가 발생되었다는 것을 나타내었다. RAS 하에서의 그들의 걸음 대칭성(stride symmetry) 및 보폭(stride length)이 유의미하게 향상되었다(p < 0.05). 또한 환자의 근전도(Electromyogram: EMG) 기록에서, 마비된 쪽(paretic side)에서 향상된 근육 활성화가 있었다.

다른 연구에서, 뇌졸중 환자는 RAS 요법을 받았고 뇌졸중 환자는 걸음걸이 트레이닝을 위해 종래의 물리적 요법을 사용하였다. 결과는, RAS 그룹의 경우 걸음걸이 속도 및 보폭에서 유의미하게 더 큰 향상을 나타내었다. 그들의 걸음걸이 속도는 165%만큼 향상되었고, 한편 대조군(control group)은 107%만큼 향상되었다. 또한, 파킨슨 환자는 음악 요법을 받은 이후 그들의 서동 증상(bradykinesia symptom)에서 뚜렷한 향상을 나타내었다(p < 0.0001). 파킨슨 환자의 조정력(coordination)에 대한 리듬감 있는 음악을 자극시키는 효과가 분석되었으며, 이 리듬 음악 요법의 3주 이후, 환자는 평균 25%의 더 긴 보폭 및 향상된 걸음걸이 속도를 나타내었다.

파킨슨 병을 가진 환자의 걸음걸이 패턴의 리듬 청각 촉진(rhythmic auditory facilitation)에서의 연구는 일관된 걸음걸이 향상을 보여준다. 연구는, 음악의 리듬을 빠르게 하는 것이 걸음걸이 속도, 케이던스(cadence) 및 보폭을 유의미하게 증가시켰다는 것을 드러낸다. 이것은 청각 및 운동 시스템의 리듬 커플링(rhythmic coupling)을 통해 걸음걸이를 향상시키기 위해 청각적 리듬의 유효성을 추가로 확인한다. 대조군 환자에 비해 음악 요법을 받는 그들 환자의 경우 유의미하게 증가된 향상이 있었으며, 그룹 사이의 EEG 비교를 사용하면, 신경 음악 요법(Neurologic Music Therapy: NMT)을 받는 환자에게서 더 많은 피질 연결성 및 운동 피질의 추가적인 활성화를 드러낸다.

또한, 망상 척수 연결(reticulospinal connection)을 통한 오디오-운동 통로(audio-motor pathway)의 존재를 통해 리듬이 뇌 줄기 레벨에서 뇌를 향상시킨다는 것이 밝혀졌다. 소뇌(cerebellum)에서의 청각 돌기(auditory projection)는 다리 뇌핵(pontine nuclei)을 통해 나타났다. 또한, 상승하는 청각 통로 중 하나인 하측 둔덕(inferior colliculi)은 시상(thalamus)을 통해 기저핵(basal ganglia)의 선조체(striatum)로 돌출한다. 기저핵은 보조 운동 피질 및 전운동 피질(pre-motor cortex)을 포함하는 피질 구조체에 대한 주요 투영을 유지한다. 또한, 청각 관련 영역은 기저핵으로 다시 투영되어 타이밍 및 시퀀싱 선택의 기능에 영향을 끼친다. 2017년 무어(More) 등에서, 음악적 큐의 운동 트레이닝(music-cued motor-training)을 제공하는 것에 의해, 운동 계획에서 중요한 역할을 하는, 아치형 근막(arcuate fasciculus)으로 칭해지는 뇌 영역에서 그것이 농화(thickening) 및 변화를 촉진시킨다는 것이 입증되었다(Moore et al, 2017). 이들 프로세스 및 통로는, 운동 출력에 대한 음악 요법의 청각 리듬의 유의미한 효과를 뒷받침하는 증거를 제공한다.

역사를 통틀어, 음악은 문화 전반에 걸쳐 보편적인 언어인 것으로 밝혀졌으며(Blacking, 1976), 언어적 내용에 상관 없이 청취자에게 감정적 요점(emotional saliency)을 전달하는 능력을 가지고 있다. 감정적으로 현저한(salient) 정보는, 심지어 심각한 외상성 뇌 손상에서도, 가장 큰 거동 변화를 유도하는 것으로 밝혀졌다(Boly et al., 2004; Perrin et al., 2006; Machado et al., 2007). 최근의 연구는, 건강한 피검자(subject) 및 식물 인간 상태(Vegetative State)의 피검자 양자에서, 즉흥 음악, 혐오 음악, 백색 노이즈 및 무음(silence)을 포함하는 다른 청각적 입력과 비교하여, 라이브의 선호 음악이 각성 및 인식의 측면에서 최고 레벨의 인지 반응을 산출하였다는 것을 밝혀내었다(O'Kelly, et al., 2013).

본 기술에서 필요로 되는 것은, 신체 활동의 동조를 음악 작품(musical piece)에 유도하는 것에 의해, 걸음걸이, 총 운동 능력, 리듬감 있는 스피치(rhythmic speech), 기민성, 호흡 등과 같은 몇몇 신체 기능성을 향상시키기 위해, 세션에서 음악을 사용하는 기술이다. 사용자의 선호 음악과 같은 오디오 파일을 분석하고, 현저한 음악적 피처(musical feature)를 추출하고, 세션에서의 사용을 위한 그 적합성을 결정하고, 필요로 되는 경우, 세션에서 그것이 사용되는 것을 허용하기 위한 리듬 안정성(rhythmic stability) 및 비트 강도(beat strength)와 같은 동조 적합성 인자를 향상시키는 기술이 제공된다.

"리듬 안정성"은 템포, 타임 시그니처/박자(time signature/meter), 및 리듬 패턴에 걸친 분산(variance)을 고려하는 복합 점수이다. "비트 강도"는 비트(청취자가 음악과 함께 자연스럽게 두드리는 레이트)에서 발생하는 사운드의 인지된 라우드니스(loudness)이며 제곱 평균 제곱근(root-mean-square: RMS)에너지 단위로 측정된다. 비트는, 드럼과 같은 타악기(percussive instrument)에서 종종 전달되지만, 그러나 반드시 그런 것은 아니다. 이들 및 다른 적합성 인자는 섹션 2: 동조 적합성에서 추가로 탐구된다.

녹음된 음악은 통상적으로, 템포 및 타임 시그니처, 약한 또는 존재하지 않는 리듬 펄스를 갖는 섹션, 페이드인/아웃, 싱커페이션(syncopation) 등과 같은 동적인 양태를 포함하며, 처음부터 끝까지 균질하고 정적인 피처를 거의 가지지 않는다. 이들은 표현적인 음악 연주의 본질적인 부분이지만, 그러나 그들은 동조를 위해 사용될 때 다양한 도전 과제를 또한 제시한다. 가장 간단하게는, 효과적인 RAS 자극은 소망되는 템포에서 균일한 비트 간격으로 클릭을 플레이하는 메트로놈이고; 청취자는 효과적이지만 흥미를 끌지 않는 음악적 피처를 선호하는 음악과 관련시킬 수도 있다. 마찬가지로, 반복적 모션 활동을 위한 이상적인 음악 선택은 또한, 마이클 잭슨(Michael Jackson)의 "빌리 진(Billie Jean)" 또는 마크 론손(Mark Ronson)의 "업타운 펑크(Uptown Funk)"와 같은, 정적인 템포 및 강한 비트 강도에서 일정하고 균일한 비트 간격을 갖는다. 불량한 동조 노래(넌제로 길이를 갖는 오디오 콘텐츠의 작품으로서 정의되는 "노래")는 식별 가능한 리듬이 없는 노래(브라이언 에노(Brian Eno)에 의한 "언더 스타즈(Under Stars") 또는 갑작스러운 템포 변조를 포함하는 노래(폴 맥카트니(Paul McCartney) 및 윙즈(Wings)에 의한 "밴드 온 더 런(Band on the Run)")를 포함한다. 추가적으로, 소정의 장르는, 식별될 수 있는 매크로 트랜드(macro-trend)를 포함하는데, 이것은 분류 데이터를 제공할 수 있다(예를 들면, 힙합은 통상적으로 드럼 머신에 기록되는데, 결과적으로 더 적은 템포 분산을 제공한다). 본 명세서에서 설명되는 기술은, 비록 사용자의 선호 음악이 주소 지정 가능한 범위(addressable range) 내에 이들 복잡성을 포함하더라도, 치료 세션에 대한 자신의 적합성을 향상시키기 위해, 사용자의 선호 음악을 조작할 수 있다. 예를 들면, 오디오 신호에 대한 지원 큐(assistive cues) 또는 향상을 통해, 음악의 리듬 안정성은 치료 움직임(therapeutic movement)에서의 사용을 위해 향상된다.

개시된 주제의 목적 및 이점은, 다음의 설명에서 기술될 것이고 그로부터 명백할 것이며, 뿐만 아니라, 개시된 주제의 실시에 의해 학습될 것이다. 개시된 주제의 추가적인 이점은, 본 명세서의 작성된 설명 및 청구범위에서, 뿐만 아니라 첨부의 도면으로부터 특히 지적되는 방법 및 시스템에 의해 실현 및 달성될 것이다.

이들 및 다른 이점을 달성하기 위해 그리고 개시된 주제의 목적에 따라, 구체화되고 광범위하게 설명되는 바와 같이, 개시된 주제는, 오디오 콘텐츠에 대한 액세스를 제공하는 것; 환자에게 전달하기 위한 오디오 콘텐츠를 선택하는 것; 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것으로서, 분석은 선택된 오디오 콘텐츠의 오디오 피처를 식별하고, 선택된 오디오 콘텐츠의 리듬 및 구조적 피처를 추출하는, 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것; 선택된 오디오 콘텐츠에 대한 동조 적합성 분석을 수행하는 것; 선택된 오디오 콘텐츠에 대한 동조 지원 큐(entrainment assistance cue)(들)를 생성하는 것으로서, 지원 큐(들)는 오디오 콘텐츠에 추가되는 사운드를 포함하는, 선택된 오디오 콘텐츠에 대한 동조 지원 큐(들)를 생성하는 것; 선택된 오디오 콘텐츠를 플레이하는 것과 동시에 지원 큐를 오디오 콘텐츠에 적용하는 것; 환자에 대한 치료 효과를 평가하는 것을 포함하되, 선택된 오디오 콘텐츠는 치료 임계치가 검출되는 경우 계속 플레이되고, 치료 임계치가 검출되지 않는 경우 환자에게 전달하기 위한 제2 오디오 콘텐츠가 선택되는, 반복적 모션 자극(repetitive motion stimulus)을 제공하는 방법을 포함한다.

몇몇 실시형태에서, 방법은 평가 단계로부터의 피드백을 통합하기 위해 오디오 콘텐츠의 저장소를 업데이트하는 것을 더 포함한다.

몇몇 실시형태에서, 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것은 비트 추적 알고리즘에 경계를 제공하는 것을 포함한다.

몇몇 실시형태에서, 오디오 콘텐츠는 음악을 포함하고, 경계는 음악 장르의 템포의 평균이다.

몇몇 실시형태에서, 오디오 콘텐츠에 대한 분석을 수행하는 것은, 개시 검출 함수(onset detection function: ODF)을 적용하는 것, 및 각각의 ODF의 결과를 오디오 신호의 비트 시간(beat time)에 상관시키는 것을 포함한다.

몇몇 실시형태에서, 방법은, 선택된 오디오 콘텐츠에 대한 수정(들)을 발생시키는 것을 더 포함하는데, 적어도 하나의 수정은 오디오 콘텐츠의 타이밍에 대한 조정을 포함한다.

몇몇 실시형태에서, 오디오 콘텐츠는 환자에게 스트리밍된다.

몇몇 실시형태에서, 반복적 모션 자극을 제공하는 방법은: 오디오 콘텐츠의 저장소를 제공하는 것; 환자에게 전달하기 위한 오디오 콘텐츠를 선택하는 것; 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것으로서, 분석은 선택된 오디오 콘텐츠의 높은 및 낮은 레벨 피처를 식별하고; 분석은 선택된 오디오 콘텐츠의 템포를 결정하는, 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것; 선택된 오디오 콘텐츠에 대해 동조 분석을 수행하는 것으로서, 동조 분석은 복수의 음악 양태에 적합성 점수를 할당하는, 선택된 오디오 콘텐츠에 대해 동조 적합성 분석을 수행하는 것; 선택된 오디오 콘텐츠에 대한 동조 지원 큐(들)를 생성하는 것으로서, 지원 큐(들)는 선택된 오디오 콘텐츠에 추가되는 사운드를 포함하는, 선택된 오디오 콘텐츠에 대한 동조 지원 큐(들)를 생성하는 것; 선택된 오디오 콘텐츠를 플레이하는 것과 동시에 지원 큐(들)를 오디오 파일에 적용하는 것; 및 환자에 대한 치료 효과를 평가하는 것으로서, 선택된 오디오 콘텐츠는 치료 임계치가 검출되는 경우 계속 플레이되고, 치료 임계치가 검출되지 않는 경우 환자에게 전달하기 위한 제2 오디오 콘텐츠가 선택되는, 환자에 대한 치료 효과를 평가하는 것; 및 평가 단계로부터의 피드백을 통합하기 위해 오디오 콘텐츠의 데이터베이스를 업데이트하는 것을 포함한다.

몇몇 실시형태에서, 동조 분석은 다음의 것 중 적어도 하나에 대한 동조 적합성 점수를 결정한다: 평균 템포, 비트 강도, 비트 시간 신뢰도, 리듬 안정성, 타임 시그니처, 템포 인식 신뢰도, 또는 유효 지속 기간.

몇몇 실시형태에서, 동조 지원 큐(들)를 생성하는 것은, 선택된 오디오 콘텐츠의 각각의 비트 상에서 플레이되는 단일 비트의 음악적 큐(single beat musical cue)를 포함한다.

몇몇 실시형태에서, 음악적 큐는 환자의 단일의 귀로 전달된다.

몇몇 실시형태에서, 음악적 큐는 낮은 리듬 안정성을 나타내는 오디오 콘텐츠의 섹션에 추가된다.

몇몇 실시형태에서, 방법은 선택된 오디오 콘텐츠에 대한 수정(들)을 발생시키는 것을 더 포함하는데, 적어도 하나의 수정은 오디오 콘텐츠의 타이밍에 대한 조정을 포함한다.

몇몇 실시형태에서, 제1 오디오 콘텐츠에 대한 수정(들)을 발생시키는 것은 오디오 콘텐츠에 드럼 보강(drum reinforcement)을 제공하는 것을 포함한다.

몇몇 실시형태에서, 제1 오디오 콘텐츠에 대한 수정(들)을 발생시키는 것은 오디오 콘텐츠에 구조적 수정을 제공하는 것을 포함한다.

몇몇 실시형태에서, 반복적 모션 자극을 제공하는 방법은: 오디오 콘텐츠의 저장소를 제공하는 것; 환자에게 전달하기 위한 오디오 콘텐츠를 선택하는 것; 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것으로서, 분석은 오디오 콘텐츠의 높은 및 낮은 레벨 피처를 식별하고, 선택된 오디오 콘텐츠에 대한 분석을 수행하고; 분석은 오디오 콘텐츠의 템포를 결정하는, 선택된 오디오 콘텐츠에 대한 분석을 수행하는 것; 오디오 콘텐츠에 대한 동조 분석을 수행하는 것으로서, 동조 분석은: 평균 템포; 템포 분산, 템포 인식; 타임 시그니처; 리듬 패턴 분산; 오디오 콘텐츠 전체에 걸친 복수의 섹션에서의 리듬 파트의 검출; 및 오디오 콘텐츠에서의 최초 및 최종 비트의 위치; 중 적어도 하나를 포함하는 양태에 적합성 점수를 할당하는, 오디오 콘텐츠에 대한 동조 분석을 수행하는 것; 오디오 콘텐츠에 대한 동조 지원 큐(들)를 생성하는 것으로서, 지원 큐(들)는 오디오 콘텐츠에 추가되는 사운드를 포함하고, 추가되는 사운드는: 오디오 콘텐츠의 4분음표(quarter note) 상에서 플레이되는 단일의 타악기음 사운드(percussive sound); 오디오 콘텐츠의 비트 및 그 재분(subdivision) 상에서 플레이되는 타악기음 사운드; 오디오 콘텐츠와 동기화되는 드럼 패턴; 및 오디오 콘텐츠의 보이스 카운팅 비트(voice counting beat) 중 적어도 하나를 포함하는, 오디오 콘텐츠에 대한 동조 지원 큐(들)를 생성하는 것을 포함한다.

몇몇 실시형태에서, 반복적 모션은 걷기(walking)를 포함한다.

몇몇 실시형태에서, 방법은, 오디오 콘텐츠의 템포와의 환자의 케이던스의 상관 관계에 기초하여 오디오 콘텐츠에 동조 가능성(entrainability) 점수를 할당하는 것을 더 포함한다.

몇몇 실시형태에서, 동조가능성 점수는 오디오 콘텐츠에 대한 동조 지원 큐(들)의 적용 이전 및 이후에 결정된다.

전술한 일반적인 설명 및 하기의 상세한 설명 둘 모두는 예시적인 것이며 청구되는 개시된 주제의 추가 설명을 제공하도록 의도된다는 것이 이해되어야 한다.

본 명세서에 통합되며 본 명세서의 일부를 구성하는 첨부의 도면은 개시된 주제의 방법 및 시스템의 추가적인 이해를 예시하고 제공하기 위해 포함된다. 설명과 함께, 도면은 개시된 주제의 원리를 설명하는 역할을 한다.

본 명세서에서 설명되는 주제의 다양한 양태, 피처, 및 실시형태의 상세한 설명은, 하기에서 간략하게 설명되는 첨부의 도면을 참조하여 제공된다. 도면은 예시적인 것이며, 반드시 일정한 비율로 묘사되는 것은 아닌데, 몇몇 컴포넌트 및 피처는 명확성을 위해 과장된다. 도면은 본 주제의 다양한 양태 및 피처를 예시하며 본 주제의 하나 이상의 실시형태(들) 또는 예(들)를 전체적으로 또는 부분적으로 예시할 수도 있다.
도 1은 본 개시내용에 따른 컴퓨터 생성 분석의 예시적인 실시형태의 플로우차트이다.
도 2는 본 개시내용에 따른 사용자 검증 분석(user-verified analysis)의 예시적인 실시형태의 플로우차트이다.
도 3은 본 개시내용에 따른 개시 검출 및 비트 추적의 예시적인 실시형태의 플로우차트이다.
도 4는 본 개시내용에 따른 동조 적합성의 예시적인 실시형태의 플로우차트이다.
도 5는 본 개시내용에 따른 비트 강도의 묘사이다.
도 6은 본 개시내용에 따른 높은 리듬 편재성(ubiquity)의 묘사이다.
도 7은 본 개시내용에 따른 낮은 리듬 편재성의 묘사이다.
도 8은 마이클 잭슨에 의한 "빌리 진(Billie Jean)"을 플레이하는 예시적인 실시형태 동안 낮은 템포 드리프트(양호)의 묘사이다.
도 9는 비요크(Bjork)에 의한 "머추얼 코어(Mutual Core)"를 플레이하는 예시적인 실시형태 동안의 높은 템포 드리프트(불량)의 묘사이다.
도 10은 본 개시내용에 따른 예시적인 템포 변조의 묘사이다.
도 11은 본 개시내용에 따른 지원 큐가 없는 상태에서의 예시적인 환자 움직임의 묘사이다.
도 12는 본 개시내용에 따른 지원 큐를 갖는 상태에서의 예시적인 환자 움직임의 묘사이다.
도 13은, 본 개시내용에 따른, 세션 동안 지원 큐가 생성되는 예시적인 실시형태의 묘사이다.
도 14는 본 개시내용에 따른 비트 시간에서 타악기음 큐(percussive cue)의 예시적인 추가의 묘사이다.
도 15는 본 개시내용에 따른 드럼 루프(사전 양자화(pre-quantization))의 예시적인 실시형태의 묘사이다.
도 16은 본 개시내용에 따른 (비트당 양자화를 갖는) 드럼 루프의 예시적인 실시형태의 묘사이다.
도 17은 본 개시내용에 따른 구조적 수정의 예시적인 실시형태의 묘사이다.
도 18 내지 도 23은 본 개시내용에 따른 다양한 치료 움직임의 예시적인 실시형태이다.
도 24는 본 개시내용에 따른 머신 러닝 모델 생성 프로세스의 예시적인 실시형태의 묘사이다.
도 25 내지 도 34는 본 개시내용에 따른 웨이브릿 변환(wavelet transform)의 예시적인 실시형태의 묘사이다.

이제, 개시된 주제의 예시적인 실시형태에 대한 참조가 상세하게 이루어질 것인데, 그 예는 첨부의 도면에서 예시되어 있다. 개시된 주제의 방법 및 대응 단계는 시스템의 상세한 설명과 연계하여 설명될 것이다.

설명되는 프로세스는 도 1 및 도 2에서 도시되는 바와 같은 두 개의 상이한 단계뿐만 아니라, 두 개의 프로세스의 조합을 따를 수 있다. 제1 프로세스는 "컴퓨터 생성 분석"이고 제2 프로세스는 "사용자 중심 분석(user-driven analysis)"이다.

도 1을 참조하면, "컴퓨터 생성 분석"은 다음 단계를 갖는다:

1. 오디오 파일을 분석하여 고레벨 및 저레벨 피처를 획득함(1)

2. 오디오 분석의 결과를 사용하여 노래가 동조에 얼마나 적절한지를 결정함(2)

3. 오디오 분석 및 동조 적합성 분석을 사용하여 오디오에 대한 지원(assistive) 향상 및/또는 수정을 생성함(3)

4. 라이브 동조 세션에 지원 향상을 적용하여, 필요로 되는 경우 실시간으로 추가적인 지원 큐를 획득함(4)

5. 결과로부터 학습함(머신 러닝 백엔드)(5)

도 2를 참조하면, "사용자 검증 분석"은 다음 단계를 갖는다: 오디오 파일을 분석하여 고레벨 및 저레벨 피처를 획득함. 사용자가 선택한 음악을 그 원래의 상태(큐 또는 수정 없음)에서 사용하여 세션을 실행함. 사용자가 그 원래 상태의 음악에 동조할 수 있는 경우, 어떠한 수정도 필요 없고; 그 노래를 계속 사용함. 사용자가 노래에 동조할 수 없는 경우, 동조 향상 단계 3 및 4를 진행하여 적절한 향상(들)을 적용함. 세션으로부터의 데이터를 기록하여 결과를 학습함(5).

(1) 오디오 분석

고레벨 분석

오디오 분석 프로세스는, 장르, 연도, 및 출처와 같은 기록에 관한 고레벨의 컨텍스트 정보를 추출하는 것에 의해 시작된다. 이 정보는, 음악이 인식되는 방식을 고려하는 것에 의해 더욱 정확한 결과를 산출하는 것을 돕기 위해, 하기에서 설명되는 더 낮은 레벨 분석에 적용될 수 있다. 예를 들면, 그것은 다음의 것을 할 수 있다:

장르의 평균 템포에 기초하여, 템포 힌트 또는 허용된 상위 및 하위 템포 경계를 비트 추적 알고리즘에 제공하는 것(하기의 "비트 추적 기술" 참조). 예를 들면, 로커빌리(rockabilly) 장르로부터의 노래는, 종종, 청취자가 더블 타임 필(double-time feel)로서 인식할 수 있는 강조된 8분음표 스네어 드럼 오프비트(accented 8th note snare drum offbeat)를 갖는다. 예를 들면, Johnny Cash(조니 캐쉬)의 "Ring of Fire(링 오브 파이어)"는 105BPM 또는 210BPM으로서 인식될 수 있으며, 장르 컨텍스트를 알면, 비트 트래커가 일반적인 워킹 케이던스의 범위에 있는 더 느린 선택지를 선택하도록 가이드할 수 있다;

예를 들면, 장르가 약한 비트 강도, 불규칙한 타임 시그니처, 낮은 리듬 안정성, (예를 들면, 주변, 클래식, 실험)을 통상적으로 포함하는 경우, 노래를 잠재적으로 문제가 있는 것으로 플래그를 다는 것(flag);

장르 규칙에 기초하여 더욱 정확한 비트 추적 및 다운비트 추정을 행하는 것. 예를 들면, 레게에서, 비트 2 및 4는 통상적으로 비트 1 및 3보다 강조된다. 이러한 맥락에서, 비트 트래커는, 다르게는 무시될 수도 있는 이들 약한 비트를 찾도록 통지받는다. 다른 한편으로, 록 및 팝에서, 백비트는 통상적으로, 비트 1 및 3이 아닌, 비트 2 및 4 상에 있다; 그리고

개시 검출 함수 가중치 및 신호 사전 처리과 같은 다른 음악 분석 규칙을 적용하는 것(하기의 "비트 추적 기술" 참조);

컨텍스트에 적절한 음악적 큐가 생성될 수 있기 때문에, 장르를 아는 것은 또한 (하기의) 증강(augmentation)/향상 단계 동안 유용할 수도 있다.

추가적으로, 분석이 낮은 동조 적합성 점수를 반환하는 경우, 사용자의 선호하는 장르를 아는 것은, 더 높은 동조 적합성 점수를 갖는 유사한 콘텐츠가 대안적인 선택으로 추천되는 것을 허용할 것이다.

고레벨 노래 데이터를 획득하기 위한 방법은 다음의 것을 포함한다:

MFCC(Mel-frequency cepstral coefficient: 멜 주파수 캡스트럼 계수)와 같은 관련이 있는 추출된 피처(들)을 분석하는 트레이닝된 분류 모델(ML)을 사용하는 것;

오디오 핑거프린팅 서비스(그레이스노트(Gracenote), ARCloud, AcoustID 등);

써드파티 음악 API 메타데이터(스포티파이(Spotify), 디저(Deezer) 등); 및

사용자 제공 메타데이터.

저레벨 분석

음악적 피처 추출을 수행하기 위해, 시스템은 음악 정보 검색(Music Information Retrieval: MIR)의 분야로부터의 신호 처리 기술을 활용한다. 이것은, 키(key), 노래 구조, 템포, 박자, 라우드니스, 및 비트 시간을 비롯한 음악적 피처의 자동화된 주석을 위한 솔루션을 제공하는 것을 목표로 하는 활발한 연구 분야이다. 이 시스템은, 리듬, 구조, 및 에너지 피처의 분석과 주로 관련되는데, 이들이 노래가 안정적이고 강력한 RAS 자극으로서 역할을 할 수 있는지의 여부의 가장 중요한 지표이기 때문이다. 분석 스테이지 동안 추출되는 피처는 다음의 것을 포함한다:

리듬 피처:

평균 템포(BPM)

최소 및 최대 템포(BPM)

노래 전체에 걸친 로컬 템포 값(순시 BPM)

비트 시간(신뢰도 값 (0.0 내지 5.3)을 갖는, MM: SS: MS 값의 오름차순 목록);

비트 라우드니스(비트 시간에서의 RMS 에너지)

막대 다운비트 시간(각각의 박자의 비트 값에 대응하는 MM: SS: MS 값의 오름차순 목록);

타임 시그니처(들)(2/4, 3/4, 4/4, 6/8 등, 및 그들의 MM: SS: MS 시간 범위(들));

구조적 피처:

노래 섹션 시간(MM: SS: MS 시간 범위(들));

지속 기간(MM: SS: MS);

제1 강한 비트의 시간(MM: SS: MS);

마지막 강한 비트의 시간(MM: SS: MS);

무음의 검출(MM: SS: MS 시간 범위(들))

페이드인/페이드아웃 섹션의 검출(MM: SS: MS 시간 범위(들))

오디오 신호

스테레오 오디오 파일의 좌측/우측 채널 밸런스(RMSE)(%).

비트 추적 기술

비트 추적은, 인간 청취자가 음악에 맞추어 직관적으로 그들의 발을 탭할(또는 동조할) 순간인, 노래 내에서 비트가 발생하는 시간의 목록을 추출하는 프로세스이다. 음악의 비트와 관련하여 환자가 어떻게 걷고 있는지 측정하는 데 이들 시간의 지식이 필요하기 때문에, 이것은 시스템 분석 파이프라인의 중요한 부분이다(섹션 4: "동조 세션 실행" 참조). 비트 추적 시스템은 통상적으로 다수의 스테이지에서 구현된다: (1) 개시의 검출(여기서는, 음표 또는 드럼이 플레이되는 것과 같은 음악 이벤트가 인지 가능하게 되는 순간으로서 정의됨) 및, 후속하여, (2) 개시 중 어떤 것이 비트 상에서 발생하고 있는지를, 가장 현저한 주기성을 사용하여 그들을 발견하는 것에 의해 결정하는 분석 스테이지.

개시는, 개시 검출 함수(ODF)으로 칭해지는 신규 기능을 사용하여 신호에서 검출될 수 있다. 기술 분야 내에서 활용되는 대부분의 ODF는, 단시간 푸리에 변환(short-time Fourier transform: STFT) 또는 웨이브릿 변환과 같은 윈도우화된 분석 방법을 통해 원래의 신호(시간 도메인)를 시간-주파수 도메인으로 변환하는 것에 의해 달성되는, 주파수 대역에 걸친 에너지(스펙트럼 에너지)에서의 급격한 상승을 식별하는 것에 의해 개시를 검출한다. RMS 에너지(시간 도메인)에서의 변동의 검출을 비롯한, 다른 접근법도 또한 존재한다. ODF는 상이한 타입의 신호 상에서 최적으로 수행되며, 노래마다의 고유한 변주(variation)를 고려하면, 모든 컨텍스트에서 개시를 정확하게 검출하기 위한 단일의 "최상의" 개개의 ODF는 존재하지 않는다; 오디오 신호는 모노포닉(monophonic) 또는 폴리포닉(polyphonic) 연주를 나타낼 수 있으며, 타악기음, 비 타악기음, 음의 높이가 조정된 타악기음(pitched percussive), 또는 음의 높이가 조정된 비 타악기음 중 어느 하나일 수 있다. 예를 들면, RMS 에너지 기반의 접근법은, 명확한 타악기 지남음(transient)을 갖는 모노포닉 신호에 대해 잘 작용할 수도 있지만, 그러나 더욱 복잡한 폴리포닉 신호 및 강한 지남음이 없는 신호에 대해서는 불량하게 수행할 수도 있다. 다른 한편으로, 스펙트럼 에너지 기반의 ODF는 계산적으로 더욱 고가이지만, 그러나 폴리포닉 신호 내에서의 개시, 또는 각각의 음표의 시작에서 어택/지남음이 없는 저에너지 개시를 검출하는 데 효과적이다(즉, 레가토 음악 연주에서의 슬러(slur)). 그들은 이 시스템에 대해 특히 중요한데, 그 이유는, 낮은 비트 강도를 갖는 선호 음악에서 개시가 검출되는 것을 그들이 허용하기 때문이며, 일단 이들 검출로부터 비트 시간이 결정되면, 비트 강도는 향상될 수 있다(섹션 3: 트랙 향상 참조). 예시적인 ODF 접근법에 대한 더 많은 정보에 대해서는, 부록 A: DWT(Discrete Wavelet Transforms: 이산 웨이브릿 변환)를 사용한 비트 검출 예를 참조한다.

이 시스템은, 각각이 자기 자신의 검출의 세트를 병렬 또는 순차적으로 생성하는 ODF의 앙상블을 활용하는 유연한 접근법을 구현한다. 이 적응식 접근법은 단일의 ODF에 대한 의존도를 능가하며, 수동으로 주석이 달린 지상 검증 비트 추정치에 대한 필요 없이 신뢰도 척도(confidence measure)가 계산되는 것을 허용한다. 활용되는 ODF는 다음의 것을 포함한다: 스펙트럼 플럭스, 수퍼플럭스, RMS 에너지, 고주파 콘텐츠, 및 웨이브릿 변환. 각각의 ODF로 신호를 처리하기 이전에, 소정의 주파수를 분리/필터링하는 것, 또는 신호를 별개의 고조파/타악기음 신호로 분해하고, 타악기음 신호로부터 개시를 검출하는 것과 같은, 옵션 사항인 사전 처리 단계가 또한 구현될 수도 있다. 각각의 ODF가 자신의 검출을 행한 이후, 관찰된 현저한 주기성으로부터 비트 시간을 추정하는 비트 추적 알고리즘에 의해 결과의 각각의 세트가 평가된다. 그 다음, 비트 시간의 각각의 세트 사이의 일치의 레벨은 비트의 각각의 쌍 사이의 타이밍 에러의 히스토그램에 기초하여 계산된다.

일치 점수는, 유사한 피처를 갖는 노래의 이전의 분석에서 더 높은 정확도를 산출하는 것으로 관찰된 기술을 우선시화하는 고레벨 컨텍스트 및 분석 규칙의 세트에 기초하여 가중된다. 예를 들면, 초기 R&B, 로커빌리, ska, 아프리카 팝(Afropop) 등과 같이 두드러진(prominent) 오프 비트(off-beat)를 포함할 가능성이 있는 장르로부터의 음악을 분석하는 경우, 타악기음 오프비트("고주파 콘텐츠")를 검출하는 것보다, 피치에서의 변화("복잡한 스펙트럼 차이")를 검출할 수 있는 ODF를 사용하여 더욱 정확한 비트 결과가 관찰되었다. 이 경우, 이들 검출이 비트 시간을 추정하기 위한 기초이기 때문에, 고주파 콘텐츠 ODF는, 실제로 노래 전체에 걸쳐 오프 비트 상에 있는 비트 시간의 세트를 추정할 가능성이 더 높다. 이 지식은 후보로부터 비트 시간의 가장 적합한 세트를 계산할 때, 일련의 가중치로서 적용될 수 있다.

이 접근법은 도 3에서 도시되어 있다.

(2) 동조 적합성 분석

오디오 분석 결과를 입력으로서 취하여, 다음의 양태를 분석하여 노래의 강약을 찾고 동조 적합성(entrainment suitability: ES) 점수(0.0 내지 1.0)을 계산한다: 평균 템포, 비트 강도, 비트 시간 신뢰도, 리듬 안정성, 타임 시그니처(요약 피처), 템포 인식 신뢰도, 및 유효 지속 기간. 이들 결과는, 만약 있다면, 어떤 트랙 향상이 필요할 수도 있는지를 결정하기 위해 사용될 것이다. ES 분석은 원래 오디오 신호에 대해 먼저 수행되지만, 그러나, ES 점수 영향을 체크하기 위해 향상이 적용된 이후 신호를 다시 분석하기 위해 또한 사용될 수도 있다. 이 기술은 또한, 예를 들면, 구조적 수정의 일부로서 사용 불가능한 인트로(intro) 및 아웃트로(outro)를 제거한 이후, 신호의 하위 세그먼트(sub-segment)의 ES를 결정하기 위해 사용될 수 있다.

다음은 동조 적합성에 대한 수학식이고, 반면, 분석으로부터의 값의 범위는 0 내지 1 사이이다. 0.9 내지 1 사이의 값이 우수하고, 0.7 내지 0.9 사이의 값은 사용 가능하고, 0.5 내지 0.7 사이의 값은 사전 향상을 필요로 할 수도 있으며 0.5보다 더 작은 값은 거부된다. 이 수학식 또는 이 수학식의 변형식은 음악의 상이한 작품을 분류하기 위해 사용된다. 타임 시그니처 및 평균 템포 숫자는, 이들 숫자가 정의된 경계 내에 있는지의 여부에 따라 이진수 0 또는 1로서 표현된다. 합산될 때 y1, y2, y3, ..., yX에 의해 표시되는 숫자는 1과 동일하며 다른 컨텍스트 정보에 따라 변할 수 있다. 다른 변수는 0 내지 1 사이의 범위로서 표현되는데, 최상의 가능한 값은 1과 동일하고 최악은 0과 동일하다. 수학식은 다음과 같다:

(타임 시그니처) * (평균 템포) * (y1 * 비트 강도 + y2 * 비트 시간 신뢰도 + y3 * 리듬 안정성 + y4 * 템포 인식 + y5 * 리듬 편재성 + y6 * 유효 지속 기간)

동조 적합도 수학식의 양태는, 동조 적합도를 묘사하는 도 4에서 추가로 정의된다.

평균 템포

노래의 평균 템포는 분당 비트(beats per minute: BPM)의 단위로 측정되었다. 평균 템포는, 중요한 ES 인자일 뿐만 아니라, 또한, RAS 세션에서 사용할 음악을 선택하기 위한 유용한 선택 기준이다. 이 시스템이 음악을 임의적으로 시간 확장할 수 있지만, 음악이 자신의 본래의 템포로부터 더 확장될수록 효과는 더욱 인식 가능하게 되는데, 최상의 결과는 노래의 원래의 템포의 20% 이내에서 관찰된다. 따라서, RAS 세션에서 사용하기 위한 음악을 선택할 때, 본래의 템포는, 이상적으로, 세션 케이던스 범위의 20% 이내에 있다.

60 내지 130(통상적인 동조 범위) 사이의 평균 템포를 갖는 노래는 1.0의 점수를 받는다. 점수는 이들 범위 밖에서 20 BPM까지 대수적으로 감소하는데, 여기서 40 및 150은 0.0의 점수를 할당받는다.

향상 전략: 음악은 일정한 인자에 의해 시간 시프트되어, 평균 BPM을 동조 범위로 또는 사용자의 목표 동조 케이던스로 가져갈 수 있다.

비트 강도

도 5에서 묘사되는 바와 같이, 검출된 비트 시간(노래 중간값)에서의 RMSE는 0.0 내지 1.0으로 선형적으로 스케일링되었다. 더욱 두드러진 인식된 비트 라우드니스가 RAS 자극으로서 더 양호하고, 종종, 타악기음 음악 파트에 의해 비트가 플레이되고 있다는 것을 나타낸다. 1은 가장 큰 강도이고, 0은 가장 약하다.

다음의 예 마이클 잭슨의 "빌리 진"은, 타악기음 스펙트로그램(신호의 타악기음 성분을, 다수의 주파수 빈에 수직으로 걸쳐 있는 에너지를 갖는 순간으로서 디스플레이함) 내의 에너지에 의해 표시되는 바와 같은 높은 비트 강도의 예이다.

향상 전략: 섹션 3에서 상세하게 논의되는 비트 강도 향상 전략. 이들은 비트 시간에 음악적 큐를 추가하는 것을 포함한다.

비트 시간 신뢰도

비트 시간 신뢰도 점수는, ODF 검출의 각각의 세트로부터 유도되는 비트 사이의 일치 레벨에 기초하여, 음악 분석의 비트 추적 스테이지로부터 반환된다. 더 높은 점수가 더 나은 적합성을 나타내는데, 그 이유는, 다수의 접근법이 유사한 두드러진 리듬 펄스를 검출하였기 때문이며, 이것은 노래가 모호하지 않은 리듬 및 타이밍 피처를 갖는다는 것을 종종 나타낸다.

비트 시간 신뢰도 점수는 다음과 같이 ES 점수 값으로 매핑된다: 0.0 내지 1.5는 낮은 신뢰도인 것으로 간주되며 0의 점수를 할당받는다. 1.5 내지 3.5는 양호한 신뢰도를 나타내고, 0.5의 점수를 할당받는다. 3.5 내지 5.3은 우수한 신뢰도를 나타내며, 1.0의 점수를 할당받는다.

향상 전략: 신뢰도 점수는, ODF 가중치 및 사전 처리 단계와 같은, (재)분석 및 비트 추적 향상의 부작용으로서 향상될 수 있을 것이다.

타임 시그니처

노래의 평균 타임 시그니처(요약 피처). 본질적으로 바이너리인 작업의 경우, 이박자(duple meter) 또는 사박자(quadruple meter)가 권장된다(예를 들면, 2/4, 4/4, 6/8). 노래가 허용된 타임 시그니처를 갖는 경우 1의 점수가 주어지고, 그렇지 않으면 0이다.

향상 전략: 해당 없음. 타임 시그니처는 노래 작곡의 필수 부분이며, 문제가 있는 경우, 노래는 사용되지 않아야 한다.

템포 인식 일치

관찰된 사용자 동조 데이터에 의해 결정되는 바와 같은 추정된 템포의 일치 레벨. 템포 검출에서의 공통적인 문제는 그것의 고유한 주관성이며, 알려진 이슈는, 몇몇 청취자가 다른 청취자의 레이트의 절반 또는 두 배로 비트를 검출할 수도 있는 "옥타브 에러(octave error)"이다. 시스템에 의해 추정되는 템포는, 사람 청취자에 의해 인식되는 템포와 매칭되어야 한다.

잠재적인 값은 0 또는 1인데, 템포에 대한 이치는 1이고 절반의 시간 및/또는 두 배의 시간은 0이다. 이것은 아마도 노래의 재분석에서 사용 및 고려될 가능성이 있는데, 그 이유는, 그것이 사용자 관찰 데이터에 크게 기초하기 때문이다.

향상 전략: 이 검출의 정확도는 사용자 관찰 데이터를 사용하여 향상될 것이다.

리듬 편재성

두드러진 리듬 엘리먼트가 존재하는 노래 지속 기간의 백분율. 리듬 파트의 존재는, 이들이 실질적으로 RAS 자극이기 때문에 동조에 대해 더 좋다. 노래에서 낙오되는 리듬 파트는 흐름을 방해할 수 있고 비트 시간을 검출하기 더욱 어렵게 만들 수 있다(더 낮은 비트 시간 신뢰도 점수). 노래 내에서의 편재성을 측정하기 위한 하나의 접근법은, 타악기음 스펙트로그램에서 타악기음 엘리먼트의 존재를 검출하는 것이다(도 6 내지 도 8 참조).

점수는 0.0(0% 리듬 편재성)에서부터 1.0(100% 리듬 편재성)까지의 범위에 이른다.

향상 전략: 공지된 비트 시간이지만 그러나 낮은 비트 강도를 가지고 큐가 섹션에 추가될 수도 있고, 그에 의해, 리듬 파트의 전체적인 편재성을 증가시킬 수도 있다.

실시예:

앞서 언급된 바와 같이, "업타운 펑크(Uptown Funk)"는 처음부터 끝까지 일정한 타악기음 파트를 포함하고, 따라서, 1.0의 높은 리듬 편재성 점수를 갖는다. 타악기음 스펙트로그램에서 큰 규모의 광대역 스파이크가 특히 중요하다. 심지어 스파이크의 크기가 더 낮은 인트로 섹션(0:00 내지 0:16)에서도, 타악기음 파트가 존재하고 식별 가능하다.

도 9에서 도시되는 바와 같이, 낮은 리듬 편재성을 갖는 노래의 예는 비요크에 의한 "머추얼 코어"이다. 이 노래는 리듬 파트를 포함하는 두 개의 별개의 섹션을 가지지만, 그러나, 그들은 306초 중 단지 60초의 노래 지속 기간(20%)만을 포함하며, 0.2의 낮은 리듬 편재성 점수를 산출한다.

유효 지속 기간

부적합하고 주소 지정 가능하지 않은(unaddressable) 섹션이 제거된 이후의, 초 단위의 사용 가능한 시간의 양은 지속 기간이 적어도 60초여야 한다. 이 조건은, 극단적 경우의 짧은 노래(톰 웨이츠(Tom Waits)에 의한 "렛미 다운 업 온 잇(Let Me Down Up On It)", 이것은 지속 기간이 단지 0:53임)가 사용되지 않는 것, 및 구조적 수정이 적용된 경우 충분한 길이가 존재하는 것을 보장한다.

사용 가능한 노래 지속 기간이 60초 최소 임계치보다 더 크거나 또는 같은 경우 1.0의 점수가 주어지고, 그렇지 않으면 0.0이다.

향상 전략: 해당 없음. 오디오 신호가 사용될 만큼 충분히 길지 않으면, 다른 선택이 사용되어야만 한다.

리듬 안정성

리듬 안정성은, 템포 드리프트, 템포 변조, 타임 시그니처 변화, 및 리듬 패턴 분산을 고려하는, 노래 동안의 리듬/메트릭(metric) 양태의 분산의 양을 나타내는 복합 점수(0.0 내지 1.0)이다.

리듬 안정성의 값은 0과 1 사이인데, 1은 최상이고 0은 최악이다. 높은 리듬 안정성은 더 적은 변동을 나타내고, 따라서, RAS 세션에서의 사용에 더 적절한 콘텐츠를 나타낸다. 수학식은, 0과 1 사이의 숫자인 리듬 안정성의 인자(A1, A2, A3, ..., Az) 전체에 의해 승산되는 1로 합산되는 가중치로서 x1, x2, x3, ..., xZ를 포함한다.

리듬 안정성 = x1 * A1 + x2 * A2 + x2 * A3 + x3 * A3 + …+ xZ * AZ

향상 전략:

템포 드리프트는 오디오 양자화를 통해 감소될 수도 있다. 문제가 있는 섹션(들)은 노래의 적절한 섹션(들)만 사용하여, 스킵될 수도 있다.

리듬 안정성 인자

1. 템포 드리프트 - A1

중간값 비트 델타로부터 허용된 인식 가능한 분산 대역 내의 비트 델타 시간의 1.0 -%로서 측정되는데, 100% 분산은 0(1.0 - 1.0)의 점수를 가지며, 0% 분산은 1.0(1.0 내지 0.0)의 점수를 갖는다.

어떤 템포 변동은, 특히 그것이 클릭 트랙 또는 컴퓨터 시퀀스의 반주(예를 들면, 드럼 머신, 디지털 오디오 워크스테이션 등)를 사용하여 녹음되지 않은 경우, 임의의 인간의 음악 연주에서 일반적이다. 큰 변동은, 낮은 템포 안정성 점수에 기여할 것이다. 모비(Moby)에 의한 "싸우전드(Thousand)"는 높은 템포 분산의 극단적인 예인데, 이것은, 1,000 BPM 근처에서 피크를 이루면서 자신의 지속 기간 전체에 걸쳐 일정하게 변하는 템포를 갖는다.

다음은, 도 8 내지 도 9에 묘사되는 바와 같은, 발생할 수도 있는 점진적 템포 변화의 음악적 예이다:

리타르단도(ritardando): 느리게

아첼레란도(accelerando): 빠르게

루바토(rubato): 뮤지션은 플레이할 템포에서 명시적으로 자유를 가짐(템포는 음악 표현법에 따라 변동될 수도 있음)

2. 템포 변조 - A2

노래 템포가 원래의 템포로부터 5%보다 더 많이 갑자기 증가하거나 또는 감소하고, 새로운 템포가 유지되는 경우. 5% 내지 25%의 범위에 이르는 템포 변화는 타이밍 시프팅을 통해 주소 지정 가능한 것으로 간주된다: 0 내지 5%의 변화는 1의 점수를 할당받는다. 5% 변화에서부터 25% 변화까지, 점수는 선형적으로 감소하는데, 여기서 25% 이상은 0의 점수를 할당받는다.

템포 변조의 하나의 타입은 "메트릭 변조(metric modulation)"인데, 여기서 템포 및/또는 박자는, 현재의 비트 또는 비트 재분(beat subdivision)의 그루핑을 다른 펄스 값으로 다시 상황에 맞추는 것에 의해 변한다. 이것의 예는, 아케이드 파이어(Arcade Fire)의 "히어 컬 더 나잇(Here Comes the Night)"에서 들을 수 있는데, 여기서, 템포는 4:36에서 대략 95에서부터 대략 145까지의 BPM으로 갑자기 변하고, 95 BPM에서 3/16 음표 그루핑의 영향은 145(템포가 1.5배 증가함)에서 새로운 4분음표가 된다.

운율 펄스(metrical pulse)에 의해 관련되지 않는, 도 10에서 도시되는 바와 같은 템포 변조의 예는, 폴 맥카트니 및 윙즈의 "밴드 온 더 런"의 다음의 템포그램에서 볼 수 있다. 2:14에서, 템포가, 57% 증가인, 81 BPM에서부터 127 BPM까지 갑자기 변한다. 라인은 로컬 템포 값을 나타낸다. 이 경우, 템포 변경 이전 또는 이후의 시간 영역에서 노래의 일부가 세션에서 사용되는 것을 허용할 구조적 수정이 이루어질 수 있을 것이다(하기의 섹션 3의 "구조적 수정" 참조).

3. 타임 시그니처 변화 - A3

타임 시그니처 변화는, 임의의 지속 기간 동안, 노래가 하나의 타임 시그니처로부터 다른 노래 중간으로 시프트하는 경우이다. 노래가 4/4 박자에서 시작한다는 것을 가정하면, 3/4와 같은 홀수의 비트를 포함하는 단일의 박자(measure)가, 음악의 페이즈(phase)를 사용하여 바이너리 움직임의 좌측/우측 동기성을 반대로 바꿀 것이다(음악적 표현법이 마디 구조(bar structure)를 가지고 정렬된다는 것을 가정함). 노래에서의 이러한 타입의 시프트는 바이너리 실격 이벤트(binary disqualifying event)이며 0의 점수를 할당받는다. 타임 시그니처 변화의 부재는 1의 점수를 할당받는다.

비틀즈(Beatles)에 의한 "해피니스 이즈어 웜건(Happiness is a Warm Gun)"은 문제가 있는 타임 시그니처 변화를 예시하는데, 노래가 4/4 박자에서 시작하지만, 나중에 9/8 및 10/8 박자의 교대하는 박자로 시프트하기 때문이다.

4. 리듬 패턴 분산 - A4

리듬 패턴 분산은 노래에서 인접한 패턴의 유사성의 척도이며, 탈경향 변동 분석(Detrended Fluctuation Analysis: DFA) 또는 개시간 간격(inter-onset interval)의 자기 상관(autocorrelation)과 같은 기술을 사용하여 획득될 수 있다. 높은 리듬 패턴 균질성을 갖는 노래는 더 양호한 리듬 안정성을 위한 것이다.

완전한 균질성(100%)을 갖는 노래는 1의 값이 주어지고, 한편 균질성이 없는(0%) 노래는 0의 값이 주어진다. 랜덤한 균질성이 종종 30%보다 더 크기 때문에, 실제로 0의 값은 실용적이지 않음을 유의한다.

상기 언급된 수학식은, 이들 다양한 파라미터 상에서의 그들의 관점으로 분석된 데이터를 태깅하는 사람에 의해 제공되는 트레이닝 데이터에 의해 통지 및 편집될 수 있는데, 그들의 관점은 ES 분석과 일치하는지 또는 일치하지 않는지를 평가하거나 또는 그들의 관점이 이들 다양한 파라미터 상에서 노래를 어떻게 평가하는지의 세부 사항을 제공한다.

(3) 트랙 향상

동조를 위해 오디오 분석 데이터 및 노래의 강약의 지식을 결합하면, 지원 큐의 생성, 오디오 신호에 대한 수정, 및 노래 구조에 대한 사소한 변화를 통해 노래의 동조 적합성이 향상될 수도 있다. 이들 전략 중 하나 이상은 한 번에 적용될 수도 있다(예를 들면, 음악이 양자화되고 있을 때, 큐가 음악에 오버레이될 수도 있다). 도 1의 단계 3 및 4 및 도 2의 단계 3 및 4를 참조한다.

음악적 큐

광범위하게 정의될 때, "음악적 큐"는, 원래의 노래를 증강하는, 재생 동안 추가되는 사운드이다. 음악적 큐의 타입은 다음의 것을 포함한다:

각각의 비트(4분음표)에서 상에서 플레이되는, 또는 8분음표 또는 16분음표와 같은 재분을 더한 각각의 비트 상에서 플레이되는 단일 비트의 음악적 큐. 재분된 음표(subdivided note)는, 느린 템포에서 비트 사이의 시간 간격을 인식하는 데 도움이 될 수도 있으며, 비트가 강조된 상태로 유지되는 것을 보장하기 위해 비트 상에서 플레이되는 음표보다 더 조용해야 한다(강조 없음). 이 큐는, 표준 메트로놈 우드블록 또는 클라베스와 같은(clave-like) "클릭"으로부터 장르에 적절한 타악기 사운드 또는 저음 베이스 드럼(low frequency bass drum)에 이르기까지의, 임의의 타악기음 사운드일 수 있을 것이다. 두드러진 지남음을 갖는 음의 높이가 조정되지 않은 사운드는 바람직한 음색 및 형상인데, 음의 높이가 조정된 사운드가, 사용자의 음악의 즐거움을 감소시키는 불협화음, 또는 사운드로 하여금 인식 불가능하게 하는 약한 개시로 이어질 수도 있기 때문이다. 음의 높이가 조정된 사운드는 노래 키(song key)의 지식과 함께 사용될 수도 있다.

MIDI 또는 오디오 드럼 루프 중 어느 하나를 통해 트리거되는 개개의 샘플로서 구현되는, 원래의 노래의 재생과 동기화되는 드럼 패턴. 1 비트보다 더 긴 드럼 패턴을 적절하게 동기화시키기 위해, 나머지 마디 비트 시간 외에, 마디 레벨("다운비트")의 시간이 알려져야 한다. 다운비트는, 패턴을 원래 음악과 시간적으로 정렬하는 앵커 포인트로서 역할을 한다. 그들은 또한, 동기화가 상실된 경우, 노래와의 동기화를 재확립하기 위한 기준 지점으로서 역할을 한다.

재생 동안의 보이스 카운팅 비트, 또는 청취자에게 템포를 주입하기 위한 제1 비트까지의 카운팅 다운("프라이밍"). 보이스는, 또한 반복적인 모션 활동을 시작하기 이전에, 시간의 기간 동안 노래를 들을 것을 사용자에게 지시할 수 있을 것이다.

원래의 오디오 신호와 전술한 음악적 큐 사이의 믹스 밸런스는, 얼마나 많은 지원이 필요로 되는지에 따라 변한다. 비 동조(non-entrainment)가 처음에 검출되면, 원래 오디오를 기본 자극으로 남겨두면서, 미묘한 양의 큐가 도입될 수도 있다(50% 미만의 밸런스). 비 동조가 계속되면, 오디오 엔진이 음악과 관련하여 큐의 믹스 비율을 증가시키기 위한 규칙과 같은 다음 향상이 생성된다. 마찬가지로, 성공적인 동조의 기간에 뒤이어, 가능한 규칙은, 더 적은 지원이 필요로 되는 이전 큐 믹스 레벨로 되돌아가는 것일 것이다.

다음의 그래프는 음악에 음악적 큐를 추가하는 영향을 나타낸다.

먼저, 도 11은, 참여하는 사람이 낮은 비트 강도를 갖는 하나의 음악 작품의 비트로 걸어가도록 요청받는 세션의 결과를 도시하며, 그들의 결과(섹션 4 참조)의 차트가 계산된다. 성공적인 동조 경계를 나타내는 수평 중앙 대역 밖의 밝은 회색 점에 의해 표시되는 바와 같이, 정확도는 불량하였다. 이 세션 동안 어떠한 지원 큐도 적용되지 않았다.

다음 그래프인 도 12는, 동일한, 그러나 대신, 컴퓨터 생성 분석(도 1 참조)에 따라 비트 신호를 강화하기 위해 추가적인 음악적 큐가 추가된 노래에 따라 이동하는 동일한 피검자이다. 관찰되는 바와 같이, 그들의 선호되는 음악 작품을 여전히 청취하면서, 보행자(walker)의 정확도는 향상되었다.

다음 그래프인 도 13은, 동조 세션 동안 동조 지원(entrainment assistance)이 적용되는 것을 도시한다(도 2 참조). 이 그래프는 사용자 움직임이 동조되고 있지 않은 경우(섹션 B) 그 동조의 이동 평균(섹션 A)을 도시하는데, 어두운 회색인 경우 양호하고 밝은 회색(비 동조를 나타내는 "NE")인 경우 섹션 C에서 도시되는 바와 같이 수정이 추가되어 기록된다.

큐는 다음과 같은 방식으로 추가될 수 있다:

먼저, 비트 위치에서의 음악적 큐: 비트 신호가 있을 것으로 결정되는 곳에 음악적 큐를 추가함. 이 음악적 큐를 추가하는 것은, 비트 신호의 강도를 향상시켜, 치료 세션에서 사용될 그 능력을 향상시킨다. 이 프로세스는 도 14에서 도시된다. 먼저, 원래의 오디오 신호가 로딩된다. 이 경우, 원래의 신호는, 그것의 낮은 전체 진폭에 의해 표시되는 바와 같이 약하다. 이 경우, 간단한 사전 처리 단계는 정규화를 적용하는 것인데, 이것은 신호 진폭을 일정량만큼 증가시킨다. 비트 시간은 정규화된 신호로부터 추정되며, 마지막으로, 타악기음 큐(percussive cue)가 비트 시간에 추가되어 새로운 복합 신호를 생성한다.

음악적 큐를 추가하기 위한 결정은, 상기의 도 6에서 도시되는 바와 같이 사람이 비트에 동조하는데 어려운 시간을 가질 때 노래 동안 이루어질 수 있다. 이것은 또한, 상기의 도 5에서 설명되는 바와 같이 노래가 낮은 비트 강도 또는 리듬 안정성을 갖는 것으로 결정되는 경우 미리 결정될 수 있다.

둘째로, 스텝과 동일한 쪽 상에서의 음악적 큐: 상기와 유사하지만, 그러나 대신, 센서 입력에 의해 결정되는 바와 같이 다음 움직임을 행하는 쪽에만 음악적 큐를 추가함(예를 들면, 오른쪽 스텝이 예상되면, 메트로놈은 우측 귀의 헤드폰에서 플레이될 것이다). 이것은 사람에 대한 인지 부하를 증가시키고 그 쪽 상에서의 그들의 비트 인식을 향상시킨다.

셋째, 스텝의 반대 쪽 상에서의 음악적 큐: 상기와 유사하지만, 그러나 대신, 스텝의 쪽과 반대측에 있는 귀에 음악적 큐를 추가한다. 이것은 전달을 위한 사운드를 분리하기 위해 헤드폰을 통해 행해지지만, 그러나, 고충실(high fidelity) 서라운드 사운드 시스템을 사용하여 또한 수행될 수 있다. 이것을 위한 자극은, 하기의 부록 B, "운동, 음악 및 뇌"에서 논의된다.

넷째로, 낮은 리듬 안정성을 갖는 음악적 큐: 낮은 리듬 안정성을 갖는 노래의 부분에 음악적 큐 추가함. 예를 들면, 싱커페이션 대신 강한 비트를 강조하기 위해 큐를 추가함, 이것은 몇몇 청취자가 동조 상황에서 산만해지는 것을 발견할 수도 있다.

다섯째, 프라이밍 큐: 세션이 시작되기 이전에 청취자에게 비트를 주입하고, 그들이 그들의 제1 스텝을 효과적으로 예상하는 것을 허용하기 위해 번호 붙임 큐(count-off cue)(음성 또는 메트로놈 중 어느 하나)를 플레이함. 비트에 번호를 붙이기(count off) 위해, 피드백이 비트와 관련됨에 따라 피드백을 제공하기 위해, 그리고 비트의 소정의 세그먼트가 완료될 때까지 대기할 것을 사용자에게 지시하기 위해 수반되는 보이스 큐가 또한 구현될 수 있다.

오디오 신호 수정

음악적 큐가 추가적인 사운드를 오버레이하는 것에 의해 현존하는 노래를 증강시키는 반면, 오디오 신호를 직접 처리하는 것에 의해 적합성이 또한 향상될 수 있다:

먼저, 이퀄라이제이션(고조파 스펙트럼에서 주파수를 부스팅하고(boosting) 및 감쇠시킴(attenuating))을 통해 노래의 드럼 파트를 강조함. 이것은, 비트 시간 신뢰도가 낮지만, 그러나 명확한 드럼 트랙이 여전히 존재하는 경우에 특히 효과적일 수도 있다. 주파수 수정은 오디오 파일 자체에 대해 이루어질 수 있고, 세션의 오디오 엔진을 사용하여 실시간 EQ로서 다시 렌더링되거나, 또는 적용될 수 있다.

둘째로, 드럼 보강 기술을 통해 노래의 드럼 파트를 강조하고, 이것에 의해, 원래의 오디오 신호 또는 분리된 타악기음 소스 내에서의 개개의 드럼 발생(킥, 스네어(snare), 하이햇(high hat) 등)의 타임스탬프는, 스펙트럼 콘텐츠에 기초하여 개개의 드럼 사운드를 식별하도록 트레이닝되는 분류기 모델에 의해 추정된다. 원래의 노래에서 이들 드럼 사운드가 발생하는 시간의 지식을 사용하여, 플레이되는 원래의 드럼 패턴의 비트 강도를 향상시키기 위해 보강 트랙이 생성되어 원래의 노래와 믹스될 수 있다.

셋째, 노래를 리믹스함: 타악기음 및 고조파 소스를 추출하고, 그 다음, 그 소스를 함께 리믹스하여, 인식되는 비트 강도를 증가시키도록 타악기음 소스를 강조하기 위해 밸런스를 변경함.

넷째, 템포에서의 사소한 변동을 감소시키고 비트 타이밍을 더욱 정밀하게 만들기 위해 오디오를 양자화함. 이것은, 기준 비트 위치를 이상적인 일정한 비트 시간의 기저의 그리드와 정렬하는 것에 의해 다양한 운율 기준 레벨(metrical reference level)(비트, 마디 등)에서 신호를 시간 확장하는 것에 의해 달성될 수 있다. 예를 들면, 라이브 드럼 연주에서, 베이스 드럼 히트가 비트 1 상에서 정확하게 발생하고 스네어 드럼이 비트 2 및 4 상에서 정확하게 발생하는 것을 보장하기 위해 오디오는 양자화될 수 있을 것이다. 이것은 도 15 및 도 16에 예시화된다.

순시 BPM(60/비트2 - 비트1)이 드럼 파트에서의 비트 시간 간격의 분산에 의해 어떻게 영향을 받는지를 관찰하고, 먼저, 목표보다 더 느린 레이트에서, 그 다음 더 빨리 플레이한다.

비트당 양자화를 적용하는 프로세스는 이 변동을 제거할 수 있고, 도 16에서 도시되는 바와 같은 "평평한" 템포로 귀결될 수 있다.

이러한 방식으로 프로그램적으로 음악을 변경하는 것은, 음악의 그루브 또는 "느낌"을 제거할 수도 있으며, 적용되는 양자화 양에 따라, 사용자는, 특히 친숙한 음악과의 차이를 인지할 수도 있다는 것을 유의한다. 잠재적인 부정적인 인식된 영향을 인식하면서 이 기술을 수용하기 위해, 양자화는 다양한 정도로 적용될 수도 있다(예를 들면, 일정한 그리드 비트 시간을 향해 25%, 50%, 75%, 100%만큼의 시간 확장).

다섯째, 피크 또는 평균 RMS 라우드니스에 기초하여 신호의 라우드니스를 증가시키기 위해 노래를 정규화함. 이 단계는 조용한 노래를 사전 처리하는 데 유용하며, 그 결과, 세션 재생목록 내에서 연속적으로 플레이되는 노래는 대략 동일한 라우드니스를 갖는다. 신호의 최대 피크에 기초하여 정규화를 적용하는 것은, 노래의 상대적인 다이나믹스가 영향을 받지 않는 것을 보장할 것이다.

여섯째, 스테레오 이미지 폭(좌측/우측 오디오 신호 분포의 인식된 폭)을 감소시키거나 또는 노래가 극도의 스테레오 패닝을 포함하는 경우 좌측 및 우측 채널 둘 모두를 결합하는 모노 믹스를 생성함. 특히, 좌측 또는 우측으로 완전히 믹스되는 드럼은, 드럼 트랙이 좌측 채널에서 거의 완전히 믹스되는 비틀즈에 의한 "노웨어 맨(Nowhere Man)"과 같은 낮은 비트 강도에 기여할 수도 있거나 또는 방해가 될 수도 있다. 이것은 또한 중요한 고려 사항인데, 그 이유는, 모든 청취자가 양쪽 귀에서 동일한 또는 완벽한 청각을 갖는다는 가정이 이루어지지 않아야 하기 때문이다. 이러한 접근성 고려 사항을 해결하기 위해, 시스템은 사용자 단위 기반으로 모노로 믹스 다운되도록 구성될 수도 있다.

구조적 수정

나머지 지속 기간 및 구조가 여전히 적절한 자극으로서 기능하면, 노래의 구조는 노래의 사용 불가능한 영역을 스킵하는 것에 의해 동조 적합성을 향상시키도록 또한 수정될 수도 있다. 통상적으로, 노래를 그 원래의 형태로 가능한 한 많이 보존하기 위해, 제거된 섹션은 노래의 시작 또는 끝에서 발생한다. 사용 불가능한 섹션의 예는 다음의 것을 포함한다: 페이드인/페이드아웃, 무음, 음성 또는 박수와 같은 비 음악, 루바토 템포, 분리된 타임 시그니처 변화, 및 리듬 펄스가 없는 섹션.

도 17에서 묘사되는 다음의 예는, 페이드인 및 페이드아웃 둘 모두를 포함하는 노래(휴이 루이스 앤 더 뉴스에 의한 "Back in Time(백 인 타임)")가 구조적 수정을 사용하여 어떻게 주소 지정될 수 있는지를 도시한다. 먼저, 이들 시간 영역은 음악 분석 동안 RMS 에너지에서의 방향 변화의 연속적인 시퀀스로서 검출된다. 다음의 파형 플롯에서 도시되는 바와 같이, 페이드인은 0:00 내지 0:12에서 발생하고 페이드아웃은 4:03 내지 4:19에서 발생한다.

이 노래는, (1) 이들 두 기준점에 가장 가까운 비트 시간을 찾는 것 및 (2) 그들을 큐 포인트로서 오디오 엔진에게 제공하는 것 또는 이들 시간 영역을 스킵하는 신호의 새로운 버전을 생성하는 것에 의해, 세션에서의 사용을 위해 향상될 수 있을 것이다. 사실상, 노래는, 그 다음, 0:12에서 다운 비트인 제1 강한 비트에서 시작하고, 4:03에서 시작하는 무음으로 신호가 사라지기 이전에 종료될 것이다.

수정이 음악적으로 관련이 있는 타이밍과 정렬되는 것을 보장하기 위해, 비트 동기식 노래 섹션 경계가 검출되어야 한다. 저레벨 분석 동안, 신호는 지각적으로 관련이 있는 노래 섹션으로 분할되는데, 지각적으로 관련이 있는 노래 섹션은 록 및 팝 장르에서 종종 벌스(verse), 코러스, 브리지 등과 같은 별개의 섹션에 대응한다. 이 작업을 위해, MFCC를 사용하는 클러스터링과 같은 균질성 기반의 방법이 사용될 수도 있는데, 이것은 하모니, 음색, 및 기악 편성법(instrumentation)에 기초하여 섹션을 효과적으로 그룹화한다. 이 프로세스는 윈도우화된 분석으로서 수행되며, 따라서, 검출된 세그먼트 경계는 인식된 음악 섹션 경계와 정확하게 정렬되지 않을 가능성이 있을 것이다. 노래의 비트 시간 및 박자 구조의 사전 지식을 통해, 세그먼트 경계는 가장 가까운 비트 또는 다운비트로 조정될 수 있다.

사용 불가능한 섹션(들)을 생략한 이후 결과적으로 나타나는 섹션의 적합성은, 결과적으로 나타나는 섹션에 대한 추가적인 동조 적합성 분석을 수행하는 것에 의해 평가될 수도 있다.

(4) 동조 세션 실행

동조 세션에 활용되는 의사 결정 시스템은, 이것이 적용할 수 있는, 그러나 그것이 이들로 제한되지는 않는 많은 상이한 종류의 반복적 모션 활동을 나타내는 하기의 도 5 내지 10에 기초한다. 도면으로 표시되는 활동은 걷기(도 18), 총 운동 움직임(도 19), 리듬감 있게 말하기(rhythmic speaking)(도 20), 기민성/미세한 운동 움직임(도 21), 구강 운동(도 22), 및 호흡 운동(도 23)이다. 이것은 환자의 반응을 노래의 비트에 비교하는 것을 포함한다.

이들 흐름도는 동조 세션을 완료하기 위해, 센서 컴포넌트 및 시스템, 에지 처리 컴포넌트, 수집기 컴포넌트, 분석 시스템, 및 음악 요법 의사 결정 센터를 필요로 한다는 것을 가정한다. 이들 컴포넌트는 다양한 하드웨어 컴포넌트 상에서 제공될 수도 있다. 한 예로서, 하나의 실시형태에서, 센서 컴포넌트는 환자에게 착용될 수 있을 것이고 다른 실시형태에서 광학 측정 시스템일 수 있을 것이다. 음악 요법 의사 결정 센터는 로컬 또는 원격 서버 상에 위치될 수 있을 것이다. 모든 컴포넌트는 단일의 디바이스 상에 위치될 수 있을 것이다.

동조는, 센서 시스템에 의해 측정되는 바와 같은 스텝의 시간, 및 비트의 시간을 수반하는 측정인, "동조 정밀도"로 칭해지는 변수로서 설명된다. 이것은, 두 스텝 사이의 시간이 두 비트 사이의 시간에 비교되는 비율로 순화될 수 있다. 비율에서의 1의 값은, 녹색점을 1 주위의 범위에 있는 동조된 스텝으로서 도시하는 도 3에 나타낸 바와 같이, 그 숫자 주위에 허용 가능한 대역을 사용하여 동조된다. 이것은, 가장 많이 트레이닝된 뮤지션조차도 컴퓨터 시스템에 의해 계산되는 대로 비트 상에 정확하게 있을 수 없기 때문에 존재한다. 이 대역은, 누군가가 반복적인 모션 활동을 완수하는 것을 보는 것에 의해 인간의 눈이 인식하는 것을 비트 상에 있는 것으로 나타낸다. 비트의 상이한 변화 또는 재분에서 완료되는 세션에 대해 이 동조 비율을 다시 1로 정규화하기 위해 사용되는 수인 비트 인자.

동조 세션 동안, 반복적인 모션 동작 활동을 위해 음악을 사용하는 기술에서 트레이닝된 사람에 의해 다른 데이터 세트가 생성될 수 있으며, 변경이 이루어질 필요가 있다는 것, 동조 정밀도가 범위 밖에 있다는 것, 또는 다른 아이템이 기록되어야 한다는 것을 그들이 믿는 시간에 데이터에 마킹을 행할 수 있다. 이 콘텐츠 또는 유사한 콘텐츠의 미래의 분석 및 동조 지원 큐를 통지하기 위해, 이 데이터는 노래와 함께 저장될 수 있다.

(5) 세션으로부터의 학습

개요

특정한 음악 작품 상의 동조 세션 ns의 샘플로부터 유래하는 데이터를 사용하여, 노래의 동조 가능성(케이던스 및 모션을 음악 작품의 템포와 매칭시키는 사람의 능력)을 측정하기 위해 채점 메커니즘이 사용될 수 있는데, 이것은 임상 또는 연주 향상 설정에서 그러한 음악의 유효성의 하나의 척도이다. 게다가, 그러한 데이터는, 음악의 다른 측정된 속성과 연결될 때, 동조 가능성 및 따라서 테스트되지 않은 음악의 임상적 유효성을 예측할 수 있는 머신 러닝 알고리즘을 생성하기 위해 사용될 수 있다.

세션의 결과

동조 세션(상기의 섹션 4 - 동조 세션 실행 참조)의 하나의 결과는, 사용자가 수행한 각각의 활동에 관한 데이터뿐만 아니라 음악의 각각의 비트 상에서의 데이터이다. 반복적 모션에 대한 계산은 활동의 모든 세그먼트에 대한 순시 케이던스를 결정하기 위해 사용될 수 있고, 비트 데이터는 음악의 모든 세그먼트에 대한 순시 템포를 결정하기 위해 사용될 수 있다. 이들 두 데이터 세트를 연결하는 것은 순시 동조를 산출하는데, 이것은 세션 동안 모든 시점에서 사람의 움직임이 음악의 비트에 얼마나 잘 관련되는지의 점수이다. 이것은 세션을 채점함에 있어서 사용되는 하나의 인자일 수 있다.

동조 득점

이산 메트릭(discrete metric)는 노래의 동조 가능성을 전체적으로 채점하기 위해서 뿐만 아니라, 노래의 개별적으로 정의된 섹션을 채점하기 위해 사용된다. 이들 메트릭은 다음의 것을 포함할 수도 있다:

순시 동조("동조 정밀도")

동조 분산

연속적으로 동조된 움직임의 수

인입 시간 - 사용자가 높은 점수를 받기 이전의 시간 또는 움직임의 양

샘플링 계층

상이한 배경 또는 조건의 사람들은 음악의 상이한 컨텍스트에 대한 동조에 대한 상이한 경향을 가질 것이다. 상이한 그룹의 사람들로부터의 적절히 분류된 데이터를 사용하여, 머신 러닝 알고리즘은 정의된 카테고리에 대한 음악의 동조 가능성을 결정하도록 트레이닝될 수 있다.

음악 증강에 대한 피드백

음악적 향상이 적용되기 이전 및 이후에 특정한 노래의 시간 시퀀스의 동조 가능성 점수가 주어지면, 알고리즘 유효성이 측정될 수 있다. 이 유효성 측정은 증강 시스템에 피드백을 제공할 수 있고, 증강 시스템이 음악을 추가로 증강시켜 더욱 동조 가능한 노래를 생성하기 위해 사용할 수 있는 벡터를 결정한다.

머신 러닝 시스템

머신 러닝 시스템은 피처 추출된 음악을 사용하고, 그것을 반복 모션 데이터, 컨텍스트 관련 데이터, 및 측정된 동조 득점 데이터에 비교한다. 이들 및 다른 데이터의 존재는 컨텍스트 검출 알고리즘에 통지하기 위해 사용된다. 세션 센서 융합 데이터 분석의 경우, 처음에는, 마르코프(Markov) 체인을 활용하여 환자 고유의 베이지안(Bayesian) 추론 모델이 사용될 수 있을 것이다. 체인의 상태는, 세션 및 기준 세션으로부터 캡처되는 특정한 응답 패턴을 나타낸다. 추론은 각각의 샘플 간격에서의 응답의 지식에 기초한다.

예측 루틴인 다층 퍼셉트론 신경망(multi-layer perceptron neural network: MLPNN)은, 후속 노드에 도달하여 사람의 센서 융합 데이터 피처를 획득하기 위한 요건을 예측하는 상위 계층 루트 노드를 갖는 방향성 그래프 노드 기반의 모델(directed graph node-based model)을 사용한다. 센서 융합 데이터 피처 벡터는 시계열 처리된 모션 데이터, 음악 시그니처 데이터, 및 다른 컨텍스트 관련 데이터를 포함한다.

시스템은 학습을 위해 여러 가지 딥 러닝 신경망 또는 다른 머신 러닝 기술을 사용할 수 있다. 하나의 예에서, 비선형 결정 공간은 적응식 방사형 기저 함수(Radio Basis Function: RBF) 모델 생성기를 사용하여 구축된다. 새로운 벡터는 RBF 모델을 사용하여 및/또는 K 개의 최근 이웃 분류기(K-Nearest Neighbor classifier)를 통해 계산될 수 있다.

ML 모델 생성을 위한 하나의 주요한 준비 프로세스는 피처 엔지니어링이다. 이것은, 제로의 평균 및 단위 분산을 포함하는 공통 범위 내에 있도록 데이터를 두는 속성 스케일링을 포함할 것이다. 이것은 미터, 미터/초, 미터/초² 등과 같은 상이한 물리적 단위를 공통 범위의 값으로 가질 수 있는 피처를 허용한다. 표준화는 제로 평균 및 단위 분산에 대한 데이터를 스케일링하기 위해 사용되는 프로세스이다. 이것은, 샘플링된 데이터 값으로부터, 모든 샘플링된 데이터의 평균 값을 감산하고, 그것을, 모든 샘플링된 데이터의 분산으로 제산하는 것에 의해 행해진다.

또한, ML 모델 생성에서 피처 엔지니어링 프로세스는 피처 분해 및 집성이다. 이것은, 데이터가 더 적은 수의 고도로 설명적인 데이터 성분으로 압축되는 경우이다. 집성은 다수의 피처를 단일의 현저한 피처로 그룹화하고, 따라서, 데이터의 차원을 감소시키는 프로세스이다. 모델 생성 프로세스는 도 24에서 묘사되는 예시적인 다이어그램에서 도시된다.

부록 A: DWT(이산 웨이브릿 변환)를 이용한 비트 검출

다음의 분석은, 이산 웨이브릿 변환(DWT)이 비트 강도 및 리듬 안정성을 결정하기 위해 어떻게 사용되는지를 설명한다. 이 기술은 비트 추적을 위해 사용될 수 있는 개시 이벤트를 검출할 수 있다. 이것은 DWT 계수를 사용하는 비트 히스토그램을 사용하는 것에 의해 수행된다. DWT는, 예컨대 템포 비트 상에서 음표의 개시로부터 오디오 신호의 빠른 변주를 검출한다. 본 발명의 경우, 도브쉬(Daubechies) db4 웨이브릿을 사용하는 DWT는 각각의 하위 대역에서 엔벨로프(envelope) 추출을 용이하게 하고, 그 다음, 이들 추출된 엔벨로프의 합에 대해 자기 상관을 수행한다. 도 25는 도브쉬 db4 웨이브릿을 묘사한다.

자기 상관 함수는 10 내지 240 BPM 범위에서 자기 상관의 처음 다섯 개의 피크를 사용하여 최대 피크 선택 및 히스토그램 생성을 허용한다. 하위 대역 x [n]으로부터의 엔벨로프 추출은, 오디오 신호 데이터로부터 절대 값이 생성되는 전파 정류 기술(full wave rectification technique)을 사용하여 행해지는데, 오디오 신호 데이터는, 그 다음, 저역 통과 필터링되고, 다운 샘플링되고, 그 다음 평균이 제거된다. 도 26은, 수직 축이 강도(intensity)이고 수평 축이 BPM인 비트 히스토그램의 예이다.

도 27 내지 도 30은 음악적 큐가 추가되어야 하는 때를 결정하기 위해 분석될 별개의 극단적인 경우의 시나리오의 네 가지 예를 도시한다.

도 27은, X축 불규칙성 및 반복의 결여(비 자기 유사(non-self-similar)) 때문의 낮은 리듬 안정성의 예를 도시한다. DWT 이미지에서, X축은 시간이고, Y축은 비트 주파수이며, Z축은 강도이다.

도 28은 높은 리듬 안정성의 예를 도시한다. 이 DWT 이미지에서, X축을 볼 때, 반복적인(그리고 자기 유사의(self-similar)) 비트 패턴을 관찰할 수 있다. 이 DWT 디스플레이에서, X축은 시간이고 Y축은 비트 주파수이며, Z축은 강도이다:

도 29는 진폭(Y축) 및 시간(X축)에서의 낮은 비트 강도의 예를 도시한다.

도 30은, X축이 시간이고, Y축이 비트 주파수이며, Z축이 강도인 상기의 자기 유사의 낮은 강도 비트의 DWT 디스플레이이다.

도 31은 진폭(Y축) 및 시간(X축)에서의 높은 비트 강도의 예를 도시한다.

도 32는, X축이 시간이고, Y축이 비트 주파수이며, Z축이 강도인 상기의 자기 유사의 높은 강도 비트의 DWT 디스플레이이다.

비트 분석을 위한 주파수 범위는 통상적으로 0.25㎐ 내지 20㎐의 범위에 이를 것이다. 비트 검출 알고리즘은 DWT를 사용하여 신호를 다수의 옥타브 주파수 대역으로 분해하는 것에 기초한다. 그 후, 각각의 주파수의 시간 도메인 진폭 변조 엔벨로프는 개별적으로 추출된다. 이것은, 각각의 주파수를 저역 통과 필터링하고, 전파 정류기 기능을 적용하고, 그 다음, 다운샘플링하는 것에 의해 달성된다. 그 다음, 각각의 주파수의 진폭 변조 엔벨로프는 함께 합산되고 이 데이터에 대해 자기 상관 기능이 적용된다. 자기 상관 함수의 피크는 신호의 엔벨로프의 다양한 주기성에 대응한다.

DWT 비트 검출 및 히스토그램 생성 프로세스는 도 33에서 묘사된다.

개시 검출은 본 발명에 관련이 있는 몇몇 추가적인 수정과 함께 어떤 공지된 방법을 사용할 것이다. 예를 들면, 그것은, 두 개의 연속적인 피크 사이의 거리를 오디오 신호 주기로서 결정하기 위해 하위 대역에서 동시적 및 특이점(singularity) 극대점을 찾으면서 오디오 샘플 데이터를 분석할 것이다. 이것은, 기준 주파수 및 다음의 더 강한 주파수의 검출을 허용한다.

다음의 정보는, DWT가 생체 역학 분석을 위해 사용되고 그 다음 머신 러닝 엔진에서 사용될 수 있는 방법에 관한 것이다. 이 예는, 캡처된 생체 역학 데이터를 통해 그것이 걸음걸이의 분석을 위해 사용되는 방법을 나타내며, DWT는 시간 주파수 분해를 결정하기 위해 사용된다. 생체 역학 데이터는 도브쉬 db4 웨이브릿을 압축 및 확장하는 것에 의해 상이한 스케일에서 그리고 도브쉬 db4 웨이브릿을 지연시키는 것에 의해 상이한 시간에 웨이브릿을 갖는 DWT를 사용하여 분석된다. 스케일은 주파수에 대응하고 위치는 시간에 대응한다. 도브쉬 db4 DWT의 결과는 웨이브릿 계수이다. DWT 계수를 사용하여, 도 34에서 도시되는, 생체 역학 데이터의 시간, 생체 역학 주파수 및 생체 역학적 에너지에서의 분석을 나타내는 삼차원 전력 스펙트럼이 생성된다.

부록 B: 운동, 음악 및 뇌

인간 뇌 해부학적 구조(anatomy)에서, 뇌의 우측 반구는 신체의 좌측을 제어하고 좌측 반구는 신체의 우측을 제어한다는 것이 알려져 있다. 따라서, 좌측 반구에 대한 손상이 발생하면, 종종, 신체의 우측에 대한 결손이 관찰되고 그 반대도 마찬가지이다. 마찬가지로, 머리의 어느 한쪽 상의 외부 청각 큐(auditory cue)는 뇌 반구의 반대편의 일차 청각 피질(primary auditory cortex)을 통해 처리된다. 따라서, 의도적으로 어느 한쪽에 청각 큐를 배치하는 것에 의해 어느 한쪽의 반구를 관련시킬 수 있다. 움직임의 경우, 영향을 받는 쪽의 움직임을 향상시키기 위해, 영향을 받지 않는 쪽을 통해 청각 큐를 제공할 수 있다.

반대로, 외부 청각 큐를 사용하는 것은 또한, 두정엽(parietal lobe) 및 측두엽(temporal lobe)을 비롯한, 주의를 담당하는 뇌 영역을 관련시키는 것으로 나타났다. 따라서, 영향을 받는 쪽의 귀를 통해 청각 큐를 제공하는 것은, 그 효력이 있는 쪽을 향한 감각적 자극 및 주의를 향상시킬 수 있다.

초기 연구는 망상 척수 연결에서 오디오-운동 통로를 나타내었다. 이들 통로를 통한 운동의 프라이밍 및 타이밍은, 움직임 패턴을 구동하기 위해 청각 시스템과 커플링하는 운동 시스템의 능력을 나타내었다(Rossignol and Melville, 1976). 이 커플링은, 추가적인 임상적 확인을 통해, "동조"로 칭해졌다. 임상적으로 적용되는 경우, 리듬 동조는: 뇌졸중, 외상성 뇌 손상, 파킨슨 병, 및 다발성 경화증을 비롯한, 신경계 질환 또는 상해에 따르는 균형, 보폭, 균형, 케이던스, 및 걸음걸이 가변성을 비롯한 걷기의 생체 역학을 향상시키는 것으로 밝혀졌다.

상기의 시스템, 디바이스, 방법, 프로세스 등은, 하드웨어, 소프트웨어, 또는 애플리케이션에 적절한 이들의 임의의 조합으로 실현될 수도 있다. 하드웨어는 범용 컴퓨터 및/또는 전용 컴퓨팅 디바이스를 포함할 수도 있다. 이것은, 내부 및/또는 외부 메모리와 함께, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, 임베디드 마이크로컨트롤러, 프로그래머블 디지털 신호 프로세서 또는 다른 프로그래머블 디바이스 또는 처리 회로부에서의 실현을 포함한다. 이것은 또한, 또는 대신, 하나 이상의 주문형 집적 회로, 프로그래머블 게이트 어레이, 프로그래머블 어레이 로직 컴포넌트, 또는 전자 신호를 처리하도록 구성될 수도 있는 임의의 다른 디바이스 또는 디바이스들을 포함할 수도 있다. 상기에서 설명되는 프로세스 또는 디바이스의 실현은, 상기의 디바이스뿐만 아니라, 프로세서의 이종 조합, 프로세서 아키텍처, 또는 상이한 하드웨어 및 소프트웨어의 조합의 상에서 실행하도록 저장, 컴파일 또는 인터프리트될 수도 있는, C와 같은 구조화된 프로그래밍 언어, C++과 같은 객체 지향 프로그래밍 언어, 또는 임의의 다른 하이 레벨 또는 로우 레벨 프로그래밍 언어(어셈블리 언어, 하드웨어 기술 언어, 및 데이터베이스 프로그래밍 언어 및 기술을 포함함)를 사용하여 생성되는 컴퓨터 실행 가능 코드를 포함할 수도 있다는 것이 추가로 인식될 것이다. 다른 양태에서, 방법은 그 단계를 수행하는 시스템에서 구현될 수도 있고, 여러 가지 방식으로 디바이스에 걸쳐 분산될 수도 있다. 동시에, 처리는 상기에서 설명되는 다양한 시스템과 같은 디바이스에 걸쳐 분산될 수도 있거나, 또는 모든 기능성(functionality)이 전용의 독립형 디바이스 또는 다른 하드웨어로 통합될 수도 있다. 다른 양태에서, 상기에서 설명되는 프로세스와 관련되는 단계를 수행하기 위한 수단은, 상기에서 설명되는 하드웨어 및/또는 소프트웨어 중 임의의 것을 포함할 수도 있다. 모든 그러한 치환 및 조합은, 본 개시내용의 범위 내에 속하는 것으로 의도된다.

본 명세서에서 개시되는 실시형태는, 하나 이상의 컴퓨팅 디바이스 상에서 실행될 때, 그 단계 중 임의의 것 및/또는 전부를 수행하는 컴퓨터 실행 가능 코드 또는 컴퓨터 사용 가능 코드를 포함하는 컴퓨터 프로그램 제품을 포함할 수도 있다. 코드는 컴퓨터 메모리에 비일시적 양식으로 저장될 수도 있는데, 그 메모리는, 프로그램이 실행되는 메모리(예컨대, 프로세서와 관련되는 랜덤 액세스 메모리), 또는 스토리지 디바이스 예컨대 디스크 드라이브, 플래시 메모리 또는 임의의 다른 광학, 전자기, 자기, 적외선 또는 다른 디바이스 또는 디바이스의 조합일 수도 있다. 다른 양태에서, 상기에서 설명되는 시스템 및 방법 중 임의의 것은, 컴퓨터 실행 가능 코드 및/또는 그로부터의 임의의 입력 또는 출력을 반송하는(carrying) 임의의 적절한 송신 또는 전파 매체에서 구현될 수도 있다.

상기에서 설명되는 디바이스, 시스템, 및 방법은 제한이 아닌 예로서 기술된다는 것이 인식될 것이다. 반대로 명시적인 표시가 없으면, 개시된 단계는 본 개시내용의 범위를 벗어나지 않으면서 수정, 보완, 생략 및/또는 재정렬될 수도 있다. 수많은 변형예, 추가예, 생략예 및 다른 수정예가 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이다. 또한, 상기의 설명 및 도면에서의 방법 단계의 순서 또는 제시는, 순서가 명시적으로 요구되지 않는 한 또는 다르게는 문맥으로부터 명백하지 않는 한, 언급된 단계를 수행하는 이 순서를 요구하도록 의도되지는 않는다.

본 명세서에서 설명되는 구현예의 방법 단계는, 상이한 의미가 명시적으로 제공되지 않는 한 또는 다르게는 문맥으로부터 명백하지 않는 한, 다음의 청구범위의 특허성과 부합하는, 그러한 방법 단계로 하여금 수행되게 하는 임의의 적절한 방법을 포함하도록 의도된다. 따라서, 예를 들면, X의 단계를 수행하는 것은, 원격 사용자, 원격 처리 리소스(예를 들면, 서버 또는 클라우드 컴퓨터) 또는 머신과 같은 다른 당사자로 하여금 X의 단계를 수행하게 하기 위한 임의의 적절한 방법을 포함한다. 유사하게, 단계 X, Y 및 Z를 수행하는 것은, 그러한 단계의 이점을 획득하기 위해 단계 X, Y 및 Z를 수행하도록, 그러한 다른 개인 또는 리소스의 임의의 조합에게 지시하거나 또는 제어하는 임의의 방법을 포함할 수도 있다. 따라서, 본 명세서에서 설명되는 구현예의 방법 단계는, 상이한 의미가 명시적으로 제공되지 않는 한 또는 다르게는 문맥으로부터 명확하지 않는 한, 다음의 청구범위의 특허성과 부합하는, 하나 이상의 다른 당사자 또는 엔티티로 하여금 단계를 수행하게 하는 임의의 적절한 방법을 포함하도록 의도된다. 그러한 당사자 또는 엔티티는 임의의 다른 당사자 또는 엔티티의 지시 또는 제어 하에 있을 필요가 없으며, 특정한 관할 구역 내에 위치될 필요가 없다.

상기의 방법은 예로서 제공된다는 것이 추가로 이해되어야 한다. 반대로 명시적인 표시가 없으면, 개시된 단계는 본 개시내용의 범위를 벗어나지 않으면서 수정, 보완, 생략 및/또는 재정렬될 수도 있다.

Claims

반복적 모션 자극을 제공하는 방법으로서, 상기 방법을 수행하기 위해 컴퓨터-실행 가능 코드에 의해 구성된 프로세서를 갖는 컴퓨터 시스템에서 실행되고,
상기 프로세서에서, 하나 이상의 오디오 콘텐츠에 대한 액세스를 제공하는 단계;
상기 프로세서를 사용하여, 환자에게 전달하기 위한 하나의 오디오 콘텐츠를 선택하는 단계;
상기 프로세서가, 상기 선택된 오디오 콘텐츠에 대한 분석을 수행하는 단계로서,
상기 프로세서에 의해 수행되는 상기 분석은 상기 선택된 오디오 콘텐츠의 오디오 피처를 식별하는 단계, 및 상기 분석에 근거하여, 상기 선택된 오디오 콘텐츠의 리듬 및 구조적 피처를 추출하는 단계를 포함하는, 상기 분석을 수행하는 단계;
상기 추출된 리듬 및 구조적 피처를 사용하여 상기 프로세서가, 상기 선택된 오디오 컨텐츠의 리듬 및 구조적 피처 중 운동학적 모션을 트리거하기 위한 큐를 사용하여 증강에 적합한 피처를 식별하기 위해, 상기 선택된 오디오 콘텐츠에 대한 동조 적합성 분석(entrainment suitability analysis)을 수행하는 단계;
상기 동조 적합성 분석에 근거하여 상기 프로세서가, 상기 선택된 오디오 콘텐츠에 대한 동조 지원 큐들을 생성하는 단계로서, 상기 지원 큐들은 상기 선택된 오디오 콘텐츠의 하나 이상의 상기 식별된 피처에 추가되는 사운드를 포함하는, 상기 동조 지원 큐들을 생성하는 단계;
상기 프로세서가, 상기 선택된 오디오 콘텐츠를 플레이하는 것과 동시에 상기 지원 큐들을 상기 선택된 오디오 콘텐츠의 상기 식별된 피처에 적용함으로써, 오디오 출력 디바이스를 사용하여 상기 지원 큐들로 증강된 상기 선택된 오디오 콘텐츠를 플레이하는 단계;
상기 선택된 오디오 콘텐츠와 상기 지원 큐들을 플레이하는 동안 센서를 사용하여 캡처된 환자의 생체 역학 데이터에 근거하여 상기 프로세서가, 상기 환자에 대한 상기 선택된 오디오 콘텐츠와 상기 지원 큐들의 효과를 평가하는 단계를 포함하되,
상기 선택된 오디오 콘텐츠는 상기 효과가 임계치를 충족하는 경우에는 계속 플레이되고, 상기 효과가 상기 임계치를 충족하지 못하는 경우에는 상기 오디오 콘텐츠를 선택하는 단계와 상기 동조 적합성 분석을 수행하는 단계 및 상기 동조 지원 큐들을 생성하는 단계 중 하나 이상을 반복하는, 반복적 모션 자극을 제공하는 방법.
제1항에 있어서, 상기 프로세서를 사용하여, 상기 선택된 오디오 콘텐츠와 관련하여 상기 평가하는 단계로부터의 결과를 통합하기 위해 오디오 콘텐츠의 컴퓨터-판독가능 데이터베이스를 업데이트하는 단계를 더 포함하는, 반복적 모션 자극을 제공하는 방법.
제1항에 있어서, 상기 선택된 오디오 콘텐츠에 대한 분석을 수행하는 단계는 비트 추적 알고리즘에 경계를 제공하는 단계를 포함하는, 반복적 모션 자극을 제공하는 방법.
제3항에 있어서, 상기 선택된 오디오 콘텐츠는 음악을 포함하고, 상기 경계는 음악 장르의 템포의 평균인, 반복적 모션 자극을 제공하는 방법.
제1항에 있어서, 상기 선택된 오디오 콘텐츠에 대한 상기 분석을 수행하는 단계는 개시 검출 함수(onset detection function: ODF)를 적용하는 단계를 포함하는, 반복적 모션 자극을 제공하는 방법.
제5항에 있어서, 상기 ODF는 오디오 신호의 시간 도메인을 시간-주파수 도메인으로 변환하는, 반복적 모션 자극을 제공하는 방법.
제1항에 있어서, 상기 선택된 오디오 콘텐츠에 대한 수정(들)을 발생시키는 단계를 더 포함하되, 적어도 하나의 수정은 상기 선택된 오디오 콘텐츠의 타이밍에 대한 조정을 포함하는, 반복적 모션 자극을 제공하는 방법.
제1항에 있어서, 상기 선택된 오디오 콘텐츠는 상기 환자에게 스트리밍되는, 반복적 모션 자극을 제공하는 방법.
반복적 모션 자극을 제공하는 방법으로서, 상기 방법을 수행하기 위해 컴퓨터-실행 가능 코드에 의해 구성된 프로세서를 갖는 컴퓨터 시스템에서 실행되고,
복수의 오디오 콘텐츠를 포함하는 컴퓨터-액세스가능 데이터베이스에 대한 액세스를 제공하는 단계;
상기 프로세서를 사용하여, 환자에게 전달하기 위한 하나의 오디오 콘텐츠를 선택하는 단계;
상기 선택된 오디오 콘텐츠에 대한 분석을 수행하는 단계로서,
상기 분석은 상기 선택된 오디오 콘텐츠의 오디오 피처를 식별하는 단계, 및 상기 선택된 오디오 콘텐츠의 템포를 결정하는 단계를 포함하는, 상기 분석을 수행하는 단계;
상기 선택된 오디오 콘텐츠가 환자에게 플레이되는 동안 센서를 사용하여 캡처된 상기 환자의 생체 역학 데이터에 근거하여 상기 프로세서가, 상기 환자에 대한 상기 선택된 오디오 콘텐츠의 효과를 평가하는 단계로서,
상기 선택된 오디오 콘텐츠는 상기 효과가 임계치를 충족하는 경우에는 계속 플레이되고, 상기 효과가 상기 임계치를 충족하지 않는 경우에는:
상기 식별된 오디오 피처를 사용하여 상기 프로세서가, 상기 선택된 오디오 콘텐츠에 대해 동조 적합성 분석을 수행하되, 상기 동조 적합성 분석은 운동학적 모션을 트리거하기 위한 큐를 사용하여 증강에 적합한 복수의 음악 양태에 적합성 점수를 할당하고;
상기 복수의 음악 양태 중 하나 이상에 할당된 상기 적합성 점수의 기능으로서 상기 프로세서가, 상기 선택된 오디오 콘텐츠에 대한 동조 지원 큐들을 생성하되, 상기 지원 큐들은 상기 선택된 오디오 콘텐츠에 추가되는 사운드를 포함하고;
상기 프로세서가, 상기 선택된 오디오 콘텐츠를 플레이하는 것과 동시에 상기 지원 큐들을 상기 선택된 오디오 콘텐츠에 적용함으로써, 오디오 출력 디바이스를 사용하여 상기 지원 큐들로 증강된 상기 선택된 오디오 콘텐츠를 플레이하는, 상기 선택된 오디오 콘텐츠의 효과를 평가하는 단계; 및
상기 프로세서가, 상기 평가 단계로부터의 결과를 통합하기 위해 오디오 콘텐츠의 데이터베이스를 업데이트하는 단계를 포함하는, 반복적 모션 자극을 제공하는 방법.
제9항에 있어서, 상기 동조 적합성 분석은 평균 템포, 비트 강도, 비트 시간 신뢰도, 리듬 안정성, 타임 시그니처(time signature), 템포 인식 신뢰도, 또는 유효 지속 기간 중 적어도 하나에 대한 동조 적합성 점수를 결정하는, 반복적 모션 자극을 제공하는 방법.
제9항에 있어서, 동조 지원 큐들을 생성하는 단계는, 상기 선택된 오디오 콘텐츠의 각각의 비트 상에서 플레이되는 단일 비트의 음악적 큐(single beat musical cue)를 포함하는, 반복적 모션 자극을 제공하는 방법.
제9항에 있어서, 음악적 큐들이 상기 환자의 단일의 귀로 전달되는, 반복적 모션 자극을 제공하는 방법.
제9항에 있어서, 음악적 큐들이 낮은 리듬 안정성을 나타내는 상기 선택된 오디오 콘텐츠의 섹션에 추가되는, 반복적 모션 자극을 제공하는 방법.
제9항에 있어서, 상기 선택된 오디오 콘텐츠에 대한 수정(들)을 발생시키는 단계를 더 포함하되, 적어도 하나의 수정은 상기 선택된 오디오 콘텐츠의 타이밍에 대한 조정을 포함하는, 반복적 모션 자극을 제공하는 방법.
제14항에 있어서, 상기 선택된 오디오 콘텐츠에 대한 수정(들)을 발생시키는 단계는 상기 선택된 오디오 콘텐츠에 드럼 보강(drum reinforcement)을 제공하는 단계를 포함하는, 반복적 모션 자극을 제공하는 방법.
제14항에 있어서, 상기 선택된 오디오 콘텐츠에 대한 수정(들)을 발생시키는 단계는 상기 선택된 오디오 콘텐츠에 구조적 수정을 제공하는 단계를 포함하는, 반복적 모션 자극을 제공하는 방법.
제14항에 있어서, 상기 선택된 오디오 콘텐츠에 대한 수정(들)을 발생시키는 단계는 템포를 변경시키도록 상기 선택된 오디오 콘텐츠를 확장하는 단계를 포함하는, 반복적 모션 자극을 제공하는 방법.
반복적 모션 자극을 제공하는 방법으로서, 상기 방법을 수행하기 위해 컴퓨터-실행 가능 코드에 의해 구성된 프로세서를 갖는 컴퓨터 시스템에서 실행되고,
상기 프로세서에서, 하나 이상의 오디오 콘텐츠에 대한 액세스를 제공하는 단계;
상기 프로세서를 사용하여, 환자에게 전달하기 위한 하나의 오디오 콘텐츠를 선택하는 단계;
상기 프로세서가, 상기 선택된 오디오 콘텐츠에 대한 분석을 수행하는 단계로서,
상기 분석은 상기 선택된 오디오 콘텐츠의 오디오 피처를 식별하는 단계, 및 상기 선택된 오디오 콘텐츠의 템포를 결정하는 단계를 포함하는, 상기 분석을 수행하는 단계;
상기 프로세서가, 상기 선택된 오디오 콘텐츠에 대한 동조 적합성 분석을 수행하는 단계로서, 상기 동조 적합성 분석은,
평균 템포,
비트 강도,
템포 분산,
템포 인식,
타임 시그니처,
리듬 패턴 분산,
노래 지속 기간,
상기 선택된 오디오 콘텐츠 전체에 걸친 복수의 섹션에서 리듬 파트의 검출; 및
상기 선택된 오디오 콘텐츠에서 최초 및 최종 비트의 위치;
중 적어도 하나를 포함하는 상기 선택된 오디오 콘텐츠의 양태에 적합성 점수를 할당하는 단계를 포함하는, 상기 동조 적합성 분석을 수행하는 단계;
상기 선택된 오디오 콘텐츠의 상기 양태에 할당된 상기 적합성 점수의 기능으로서 상기 프로세서가, 상기 선택된 오디오 콘텐츠에 대한 동조 지원 큐들을 생성하는 단계로서, 상기 지원 큐들은 운동학적 모션을 트리거하기 위해 상기 선택된 오디오 콘텐츠에 추가되는 사운드를 포함하고, 추가되는 상기 사운드는,
상기 선택된 오디오 콘텐츠의 비트 상에서 플레이되는 단일의 타악기음 사운드(percussive sound);
상기 선택된 오디오 콘텐츠의 비트 및 그 재분(subdivision) 상에서 플레이되는 타악기음 사운드;
상기 선택된 오디오 콘텐츠와 동기화되는 드럼 패턴; 및
상기 선택된 오디오 콘텐츠의 보이스 카운팅 비트(voice counting beat)
중 적어도 하나를 포함하는, 상기 동조 지원 큐들을 생성하는 단계를 포함하는, 반복적 모션 자극을 제공하는 방법.
제18항에 있어서, 상기 선택된 오디오 콘텐츠의 템포와의 상기 환자의 케이던스(cadence)의 상관 관계에 기초하여 상기 선택된 오디오 콘텐츠에 동조 가능성(entrainability) 점수를 할당하는 단계를 더 포함하는, 반복적 모션 자극을 제공하는 방법.
제19항에 있어서, 동조가능성 점수는 상기 선택된 오디오 콘텐츠에 대한 동조 지원 큐들의 적용 이전 및 이후에 결정되는, 반복적 모션 자극을 제공하는 방법.