KR20230080025A - 음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치 - Google Patents

음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치 Download PDF

Info

Publication number
KR20230080025A
KR20230080025A KR1020210167375A KR20210167375A KR20230080025A KR 20230080025 A KR20230080025 A KR 20230080025A KR 1020210167375 A KR1020210167375 A KR 1020210167375A KR 20210167375 A KR20210167375 A KR 20210167375A KR 20230080025 A KR20230080025 A KR 20230080025A
Authority
KR
South Korea
Prior art keywords
reaction
motion
music
signal
vocal
Prior art date
Application number
KR1020210167375A
Other languages
English (en)
Inventor
강승우
이의혁
민철홍
Original Assignee
한국기술교육대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국기술교육대학교 산학협력단 filed Critical 한국기술교육대학교 산학협력단
Priority to KR1020210167375A priority Critical patent/KR20230080025A/ko
Priority to US17/565,894 priority patent/US11943591B2/en
Publication of KR20230080025A publication Critical patent/KR20230080025A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1694Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being a single or a set of motion sensors for pointer control or gesture input obtained by sensing movements of the portable computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1091Details not provided for in groups H04R1/1008 - H04R1/1083
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • H04R25/507Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic

Abstract

음악 청취 반응 자동 감지 시스템은 웨어러블 센서 및 모바일 장치를 포함한다. 상기 웨어러블 센서는 청취자의 귀에 착용한다. 상기 모바일 장치는 상기 웨어러블 센서로부터 상기 청취자의 관성 신호 및 소리 신호를 수신하고, 상기 관성 신호, 상기 소리 신호 및 재생되는 음악의 음악 정보를 기초로 상기 청취자의 보컬 리액션을 판단하고, 상기 관성 신호 및 상기 음악 정보를 기초로 상기 청취자의 모션 리액션을 판단한다.

Description

음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치{SYSTEM AND METHOD FOR AUTOMATIC DETECTION OF MUSIC LISTENING REACTIONS, MOBILE APPARATUS PERFORMING THE METHOD FOR AUTOMATIC DETECTION OF MUSIC LISTENING REACTIONS}
본 발명은 음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치에 관한 것으로, 보다 상세하게는 사용자의 귀에 착용하는 웨어러블 센서를 이용하여 음악을 청취하는 사용자의 노래 따라부르기, 허밍, 휘파람, 고개 끄덕임 등의 반응을 자동으로 감지하는 음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치에 관한 것이다.
음악을 듣는 것은 우리 삶에서 중요한 부분 중 하나이다. 어느 연구에 따르면 2019년 동안 음악 소비자는 하루 2.6시간 이상 음악을 들었으며, 이는 매일 52곡을 듣는 것과 같다.
사람들은 좋아하는 노래나 음악을 들을 때 종종 고개를 끄덕이거나 발을 두드리거나 흥얼거리거나 노래를 따라 부르는 경우가 있다. 이러한 반응들은 청취자들의 자연스러운 반응으로, 음악에 대한 청취자의 몰입도를 보여주는 특징으로 볼 수 있다.
청취자의 음악에 대한 반응을 자동적으로 감지할 수 있다면, 이러한 반응을 이용한 다양한 애플리케이션의 구현이 가능하다. 그러나, 이러한 청취자의 음악 청취 반응을 실제 상황에서 자동으로 감지하는 것은 간단하지 않다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은 사용자의 귀에 착용하는 웨어러블 센서를 이용하여 음악을 청취하는 사용자의 노래 따라부르기, 허밍, 휘파람, 고개 끄덕임 등의 리액션을 자동으로 감지하는 음악 청취 반응 자동 감지 시스템을 제공하는 것이다.
본 발명의 다른 목적은 음악 청취 반응 자동 감지 방법을 제공하는 것이다.
본 발명의 다른 목적은 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치를 제공하는 것이다.
상기한 본 발명의 목적을 달성하기 위한 일 실시예에 따른 음악 청취 반응 자동 감지 시스템은 웨어러블 센서 및 모바일 장치를 포함한다. 상기 웨어러블 센서는 청취자의 귀에 착용한다. 상기 모바일 장치는 상기 웨어러블 센서로부터 상기 청취자의 관성 신호 및 소리 신호를 수신하고, 상기 관성 신호, 상기 소리 신호 및 재생되는 음악의 음악 정보를 기초로 상기 청취자의 보컬 리액션을 판단하며, 상기 관성 신호 및 상기 음악 정보를 기초로 상기 청취자의 모션 리액션을 판단한다.
본 발명의 일 실시예에 있어서, 상기 음악 청취 반응 자동 감지 시스템은 상기 모바일 장치로부터 상기 보컬 리액션 및 상기 모션 리액션을 포함하는 리액션 정보를 수신하고, 상기 모바일 장치에 상기 리액션 정보에 대한 리퀘스트 및 음악 재생 정보를 출력하는 애플리케이션을 더 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 모바일 장치는 상기 관성 신호 및 상기 소리 신호를 기초로 논-리액션 이벤트를 판단하는 필터부 및 상기 논-리액션 이벤트가 아닌 데이터 세그먼트에 대해 딥러닝을 이용하여 상기 보컬 리액션 및 상기 모션 리액션을 분류하는 클래시파이어를 포함할 수 있다. 상기 필터부에 의해 상기 논-리액션 이벤트로 판단된 데이터 세그먼트는 상기 클래시파이어를 통과하지 않을 수 있다.
본 발명의 일 실시예에 있어서, 상기 모바일 장치는 상기 웨어러블 센서와 통신하는 네트워크 인터페이스, 상기 보컬 리액션 및 상기 모션 리액션을 보정하고, 상기 보컬 리액션 및 상기 모션 리액션을 분석하는 후처리부, 상기 음악 정보를 수신하여 상기 클래시파이어로 출력하는 데이터 수신부, 상기 보컬 리액션 및 상기 모션 리액션을 포함하는 리액션 정보를 애플리케이션에 출력하고 상기 리액션 정보에 대한 리퀘스트를 수신하는 애플리케이션 프로그래밍 인터페이스 및 상기 리퀘스트에 기초하여 상기 모바일 장치의 동작을 제어하는 스케줄러를 더 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 필터부는 상기 관성 신호에서 상기 청취자의 움직임 레벨이 제1 움직임 쓰레스홀드보다 작은 데이터 세그먼트를 보컬 논-리액션 이벤트로 판단하고, 상기 관성 신호에서 상기 청취자의 움직임 레벨이 제2 움직임 쓰레스홀드보다 큰 데이터 세그먼트를 상기 보컬 논-리액션 이벤트로 판단하며, 상기 소리 신호에서 소리의 크기가 소리 쓰레스홀드보다 작은 데이터 세그먼트를 상기 보컬 논-리액션 이벤트로 판단할 수 있다. 상기 관성 신호의 필터링은 상기 소리 신호의 필터링보다 먼저 수행될 수 있다.
본 발명의 일 실시예에 있어서, 상기 필터부는 상기 관성 신호에서 상기 청취자의 움직임 레벨이 제3 움직임 쓰레스홀드보다 작은 데이터 세그먼트를 모션 논-리액션 이벤트로 판단하고, 상기 관성 신호에서 상기 청취자의 움직임 레벨이 제4 움직임 쓰레스홀드보다 큰 데이터 세그먼트를 상기 모션 논-리액션 이벤트로 판단할 수 있다.
본 발명의 일 실시예에 있어서, 상기 클래시파이어는 상기 음악 정보의 음의 높낮이와 상기 웨어러블 센서로부터 수신된 상기 소리 신호의 음의 높낮이를 비교하여 상기 보컬 리액션을 판단하는 보컬 리액션 클래시파이어 및 상기 음악 정보의 비트와 상기 웨어러블 센서로부터 수신된 상기 관성 신호를 비교하여 상기 모션 리액션을 판단하는 모션 리액션 클래시파이어를 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 모션 리액션 클래시파이어는 상기 관성 신호의 주기성을 인코딩하는 특징을 이용할 수 있다. 상기 주기성을 인코딩하는 특징은 상기 관성 신호의 데이터 세그먼트의 자기 상관 피크의 수, 상기 데이터 세그먼트의 자기 상관 피크의 최대값, 상기 데이터 세그먼트의 첫 번째 자기 상관 피크와 마지막 자기 상관 피크 사이의 시간 간격, 상기 데이터 세그먼트의 파형의 제로 크로싱 수, 상기 데이터 세그먼트의 자기 상관의 연속 피크 사이의 시간 간격 평균 및 상기 데이터 세그먼트의 자기 상관의 연속 피크 사이의 시간 간격 표준 편차 중 적어도 하나를 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 모션 리액션 클래시파이어는 상기 음악 정보의 비트 관련 특징을 이용할 수 있다. 상기 비트 관련 특징은 윈도우 내의 비트 수에 대한 상기 데이터 세그먼트의 피크 수의 비율, 상기 데이터 세그먼트의 연속 피크 사이의 시간 간격 중간값(median)과 상기 음악 정보의 연속 비트 사이의 시간 간격 중간값(median)의 비율 및 상기 음악 정보의 연속 비트 사이의 시간 간격 평균에 대한 상기 데이터 세그먼트의 연속 피크 사이의 시간 간격의 표준 편차의 비율 중 적어도 하나를 포함할 수 있다.
상기한 본 발명의 다른 목적을 달성하기 위한 일 실시예에 따른 음악 청취 반응 자동 감지 방법은 청취자의 귀에 착용하는 웨어러블 센서를 이용하여 관성 신호 및 소리 신호를 센싱하는 단계, 상기 관성 신호 및 상기 소리 신호를 기초로 논-리액션 이벤트를 판단하는 단계 및 상기 논-리액션 이벤트가 아닌 데이터 세그먼트에 대해 딥러닝을 이용하여 상기 청취자의 보컬 리액션 및 상기 청취자의 모션 리액션을 분류하는 단계를 포함한다. 상기 보컬 리액션은 상기 관성 신호, 상기 소리 신호 및 재생되는 음악의 음악 정보를 기초로 판단될 수 있다. 상기 모션 리액션은 상기 관성 신호 및 상기 음악 정보를 기초로 판단될 수 있다. 상기 논-리액션 이벤트로 판단된 데이터 세그먼트는 상기 보컬 리액션 및 상기 모션 리액션을 분류하는 단계를 통과하지 않을 수 있다.
상기한 본 발명의 다른 목적을 달성하기 위한 일 실시예에 따른 모바일 장치는 필터부 및 클래시파이어를 포함한다. 상기 필터부는 청취자의 귀에 착용하는 웨어러블 센서로부터 상기 청취자의 관성 신호 및 소리 신호를 수신하고, 상기 관성 신호 및 상기 소리 신호를 기초로 논-리액션 이벤트를 판단한다. 상기 클래시파이어는 상기 논-리액션 이벤트가 아닌 데이터 세그먼트에 대해, 상기 관성 신호, 상기 소리 신호 및 재생되는 음악의 음악 정보를 기초로 상기 청취자의 보컬 리액션을 판단하고, 상기 관성 신호 및 상기 음악 정보를 기초로 상기 청취자의 모션 리액션을 판단한다. 상기 필터부에 의해 상기 논-리액션 이벤트로 판단된 데이터 세그먼트는 상기 클래시파이어를 통과하지 않는다.
상기와 같은 본 발명의 실시예에 따른 음악 청취 반응 자동 감지 시스템 및 방법 및 상기 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치에 따르면, 사용자의 귀에 착용하는 웨어러블 센서를 이용하여 음악을 청취하는 사용자의 노래 따라부르기, 허밍, 휘파람, 고개 끄덕임 등의 반응을 자동으로 감지할 수 있다. 상기 음악 청취 반응 자동 감지 시스템은 실시간으로 청취자의 반응을 자동으로 감지할 수 있다.
음의 높낮이 및 비트와 같은 음악적 구조를 활용하므로 청취자의 반응을 정확하게 감지할 수 있다.
또한, 상기 모바일 장치의 필터부에서 논-리액션 이벤트를 초기 필터링 하므로, 불필요한 프로세싱 코스트를 감소시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 음악 청취 반응 자동 감지 시스템을 나타내는 블록도이다.
도 2는 도 1의 모바일 장치를 나타내는 블록도이다.
도 3은 도 2의 필터부를 나타내는 블록도이다.
도 4는 도 2의 클래시파이어를 나타내는 블록도이다.
도 5는 도 2의 후처리부를 나타내는 블록도이다.
도 6은 도 1의 정보 관리부를 나타내는 블록도이다.
도 7은 도 1의 음악 청취 반응 자동 감지 시스템의 보컬 리액션 감지의 센싱 파이프라인을 나타내는 개념도이다.
도 8은 보컬 리액션에 대한 사운드 레벨의 누적 분포 함수를 나타내는 그래프이다.
도 9는 보컬 리액션에 대한 움직임 레벨의 누적 분포 함수를 나타내는 그래프이다.
도 10은 도 7의 2-1 단계에서 사용되는 로그 멜 스펙트로그램 패턴을 나타내는 그래프이다.
도 11은 도 7의 2-1 단계의 레이블을 도 7의 2-2 단계의 레이블로 맵핑하는 과정을 나타내는 표이다.
도 12는 노래 따라부르기 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다.
도 13은 허밍 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다.
도 14는 휘파람 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다.
도 15는 보컬 논-리액션 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다.
도 16은 고개 끄덕임에 대한 센싱 데이터를 나타내는 그래프이다.
도 17은 모션 논-리액션 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다.
도 18은 도 1의 음악 청취 반응 자동 감지 시스템의 모션 리액션 감지의 센싱 파이프라인을 나타내는 개념도이다.
도 19는 모션 리액션에 대한 움직임 레벨의 누적 분포 함수를 나타내는 그래프이다.
도 20은 음악의 장르에 따른 모션 리액션용 윈도우 사이즈를 결정하는 방법을 나타내는 그래프이다.
본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 구성 요소에 대해 사용하였다.
제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성 요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성 요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 음악 청취 반응 자동 감지 시스템을 나타내는 블록도이다.
도 1을 참조하면, 상기 음악 청취 반응 자동 감지 시스템은 웨어러블 센서(100), 모바일 장치(200) 및 정보 관리부(300)를 포함할 수 있다.
예를 들어, 상기 웨어러블 센서(100)는 사용자의 귀에 착용하는 센서일 수 있다. 예를 들어, 상기 웨어러블 센서(100)는 이어폰 형태일 수 있다. 예를 들어, 상기 웨어러블 센서(100)는 무선 이어폰 형태(예컨대, 이어버드, earbud)일 수 있다. 상기 웨어러블 센서(100)는 관성 센서 및 마이크를 포함할 수 있다. 예를 들어, 상기 관성 센서는 3축 가속도계(accelerometer), 3축 자이로스코프(gyroscope) 및 3축 자기력계(magnetometer)를 포함할 수 있다.
상기 웨어러블 센서(100)는 상기 관성 센서의 제1 센싱 데이터(S1) 및 상기 마이크의 제2 센싱 데이터(S2)를 상기 모바일 장치(200)에 출력할 수 있다. 상기 제1 센싱 데이터(S1)는 관성 신호를 포함할 수 있다. 상기 제2 센싱 데이터(S2)는 소리 신호를 포함할 수 있다.
상기 모바일 장치(200)는 상기 웨어러블 센서(100)로부터 상기 제1 센싱 데이터(S1) 및 상기 제2 센싱 데이터(S2)를 수신할 수 있다. 상기 모바일 장치(200)는 상기 정보 관리부(300)로부터 음악 정보(MI)를 수신할 수 있다.
상기 모바일 장치(200)는 상기 제1 센싱 데이터(S1), 상기 제2 센싱 데이터(S2) 및 상기 음악 정보(MI)를 기초로 보컬 리액션을 판단할 수 있다. 상기 모바일 장치(200)는 상기 제1 센싱 데이터(S1) 및 상기 음악 정보(MI)를 기초로 모션 리액션을 판단할 수 있다. 예를 들어, 상기 보컬 리액션은 노래 따라부르기 이벤트, 허밍 이벤트 및 휘파람 이벤트를 포함할 수 있다. 예를 들어, 상기 모션 리액션은 고개 끄덕임 이벤트를 포함할 수 있다.
상기 정보 관리부(300)는 음악(MUSIC)을 분석하여 상기 음악 정보(MI)를 생성할 수 있고, 상기 음악 정보(MI)를 상기 모바일 장치(200)에 출력할 수 있다. 예를 들어, 상기 정보 관리부(300)는 서버에 위치할 수 있다. 이와는 달리, 상기 정보 관리부(300)는 상기 모바일 장치(200)에 포함되는 구성일 수도 있다.
상기 정보 관리부(300)가 상기 음악(MUSIC)을 분석하여 상기 음악 정보(MI)를 생성하는 과정은 실시간이 아닌 오프라인으로 동작할 수 있다. 상기 음악 정보(MI)는 음의 높낮이 및 비트를 포함할 수 있다.
상기 음악 청취 반응 자동 감지 시스템은 애플리케이션(400)을 더 포함할 수 있다. 상기 애플리케이션(400)은 상기 모바일 장치(200)로부터 리액션 정보(RI)를 수신할 수 있다. 상기 리액션 정보(RI)는 상기 보컬 리액션 및 상기 모던 리액션을 포함할 수 있다. 상기 애플리케이션(400)은 상기 모바일 장치(200)에 상기 리액션 정보(RI)에 대한 리퀘스트(RQ)를 출력할 수 있다. 또한, 상기 애플리케이션(400)이 음악 재생 애플리케이션인 경우, 상기 모바일 장치(200)에 음악 재생 정보(PI)를 출력할 수 있다.
예를 들어, 상기 애플리케이션(400)은 자동 음악 평가 애플리케이션일 수 있다. 종래의 뮤직 플레이어는 사용자의 수동 입력과 재생 횟수와 같은 간단한 통계에 의존하여 노래에 대한 사용자의 선호도를 파악할 수 있다. 상기 애플리케이션(400)은 모바일 장치(200)에서 자동 생성된 리액션 정보(RI)를 기초로 음악의 등급을 예측하고 적용할 수 있다.
예를 들어, 상기 애플리케이션(400)은 반응 기반 음악 추천 애플리케이션일 수 있다. 스트리밍 서비스 제공업체는 더 많은 소비자를 유치하고 소비자가 자신의 취향에 맞는 음악을 쉽게 찾을 수 있도록 사용자 별로 정의되고 개인화되는 재생 목록의 생성을 중요시할 수 있다.
상기 애플리케이션(400)은 사용자가 듣고 잇는 음악에 어떻게 참여하는지, 예를 들어 어떤 노래에 자주 반응하는지, 노래의 어느 부분에서 반응을 보이는지, 어떤 반응을 보이는지 등을 이용하여 음악 추천을 수행할 수 있다. 즉, 상기 애플리케이션(400)은 상기 리액션 정보(RI)를 기초로 사용자의 취향이나 선호도를 구체적으로 예측할 수 있으며, 상기 리액션 정보(RI)를 기초로 음악 추천을 수행하고, 플레이 리스트를 생성할 수 있다.
예를 들어, 상기 애플리케이션(400)은 뮤지션의 원격 소통 강화 애플리케이션일 수 있다. 코로나 19로 많은 뮤지션들이 온라인 라이브 콘서트를 진행하고 있다. 팬들은 여전히 온라인 플랫폼을 통해 자신이 좋아하는 뮤지션의 음악을 감상할 수 있다. 그러나, 오프라인 콘서트처럼 뮤지션들에게 반응을 보여주기 어렵다. 오프라인 콘서트에서 팬들은 종종 음악에 맞춰 노래를 부르거나 응원봉과 몸을 함께 움직이며, 뮤지션은 팬들의 그런 모습을 볼 수 있다. 그러나, 이러한 종류의 상호작용은 온라인 콘서트에서 매우 제한적이며, 팬들은 오직 채팅 문자나 이모티콘을 보내 자신의 감정을 표현할 수 있다.
상기 애플리케이션(400)을 이용하여 뮤지션과 원격 팬들 간의 상호작용을 풍부하게 할 수 있다. 상기 애플리케이션(400)은 온라인에서 라이브 공연을 보는 팬들의 반응을 감지하고 수집할 수 있다. 상기 애플리케이션(400)은 수집된 반응을 뮤지션에게 제공할 수 있다. 예를 들어, 상기 애플리케이션(400)은 보컬 리액션 및 모션 리액션을 콘서트 영상에 합성하여 뮤지션에게 전달할 수 있다.
도 2는 도 1의 모바일 장치(200)를 나타내는 블록도이다. 도 3은 도 2의 필터부(220)를 나타내는 블록도이다. 도 4는 도 2의 클래시파이어(230)를 나타내는 블록도이다. 도 5는 도 2의 후처리부(240)를 나타내는 블록도이다. 도 6은 도 1의 정보 관리부(300)를 나타내는 블록도이다.
도 2 내지 도 6을 참조하면, 상기 모바일 장치(200)는 필터부(220), 클래시파이어(230) 및 후처리부(240)를 포함할 수 있다. 상기 모바일 장치(200)는 네트워크 인터페이스(210), 데이터 수신부(250), API(application programming interface, 260) 및 스케줄러(270)를 더 포함할 수 있다.
상기 네트워크 인터페이스(210)는 상기 웨어러블 센서(100)와의 통신을 위한 인터페이스부이다. 상기 네트워크 인터페이스(210)는 상기 웨어러블 센서(100)로부터 상기 제1 센싱 데이터(S1) 및 상기 제2 센싱 데이터(S2)를 수신할 수 있다. 상기 네트워크 인터페이스(210)는 상기 제1 센싱 데이터(S1) 및 상기 제2 센싱 데이터(S2)를 상기 필터부(220)로 출력할 수 있다.
상기 필터부(220)는 상기 제1 센싱 데이터(S1) 및 상기 제2 센싱 데이터(S2)를 기초로 논-리액션 이벤트를 판단할 수 있다. 상기 필터부(220)는 상기 논-리액션 이벤트에 대해 클래시파이어(230)를 바이패스할 수 있다. 상기 필터부(220)는 상기 논-리액션 이벤트가 아닌 이벤트를 상기 클래시파이어(230)에 제공할 수 있다. 상기 논-리액션 이벤트가 아닌 이벤트는 잠재적인 보컬 리액션 이벤트 또는 잠재적인 모션 리액션 이벤트일 수 있다.
상기 필터부(220)는 논-리액션 이벤트를 초기 필터링 하므로, 불필요한 프로세싱 코스트를 감소시킬 수 있다.
상기 필터부(220)는 관성 신호 필터(222) 및 소리 신호 필터(224)를 포함할 수 있다. 상기 관성 신호 필터(222)는 상기 제1 센싱 데이터(S1)의 관성 신호를 필터링할 수 있다. 상기 소리 신호 필터(224)는 상기 제2 센싱 데이터(S2)의 소리 신호를 필터링할 수 있다.
상기 클래시파이어(230)는 상기 필터부(220)를 통해 수신한 잠재적인 보컬 리액션 이벤트 및 잠재적인 모션 리액션 이벤트를 기초로 보컬 리액션 및 모션 리액션을 분류할 수 있다.
상기 클래시파이어(230)는 보컬 리액션 클래시파이어(232), 모션 리액션 클래시파이어(234) 및 음악 정보 캐시(236)를 포함할 수 있다. 상기 보컬 리액션 클래시파이어(232) 및 상기 모션 리액션 클래시파이어(234)는 딥러닝을 이용하여 상기 보컬 리액션 및 상기 모션 리액션을 분류할 수 있다.
상기 보컬 리액션 클래시파이어(232)는 상기 음악 정보 캐시(236)에 저장된 음악의 음의 높낮이와 상기 웨어러블 센서(100)로부터 전달된 제2 센싱 데이터(S2)의 음의 높낮이를 비교하여 상기 보컬 리액션을 판단할 수 있다. 예를 들어, 상기 보컬 리액션은 노래 따라부르기 이벤트, 허밍 이벤트 및 휘파람 이벤트를 포함할 수 있다.
상기 모션 리액션 클래시파이어(234)는 상기 음악 정보 캐시(236)에 저장된 음악의 비트와 상기 웨어러블 센서(100)로부터 전달된 제1 센싱 데이터(S1)의 신호를 비교하여 상기 모션 리액션을 판단할 수 있다. 예를 들어, 상기 모션 리액션은 고개 끄덕임 이벤트를 포함할 수 있다.
상기 후처리부(240)는 상기 보컬 리액션 클래시파이어(232)의 상기 보컬 리액션 및 상기 모션 리액션 클래시파이어(234)의 상기 모션 리액션을 보정할 수 있다.
예를 들어, 오랜 시간 동안 상기 노래 따라부르기 이벤트가 발생한 것으로 판단되다가 잠시 논-리액션 이벤트를 판단하고 다시 오랜 시간 동안 상기 노래 따라부르기 이벤트가 발생한 것으로 판단되면, 상기 후처리부(240)는 스무딩 알고리즘을 이용하여 상기 노래 따라부르기 이벤트가 끊임없이 지속된 것으로 판단할 수 있다.
상기 후처리부(240)는 스무딩부(242) 및 분석부(244)를 포함할 수 있다. 상기 스무딩부(242)는 상기 보컬 리액션 클래시파이어(232)의 상기 보컬 리액션 결과를 스무딩하여 최종 보컬 리액션 결과를 생성할 수 있다. 상기 스무딩부(242)는 상기 모션 리액션 클래시파이어(234)의 상기 모션 리액션 결과를 스무딩하여 최종 모션 리액션 결과를 생성할 수 있다. 상기 스무딩부(242)는 HMM (Hidden Markof Model) 기법을 활용할 수 있다. 이와는 달리, 상기 스무딩부(242)는 다수결(majority voting) 기법을 활용할 수도 있다.
상기 보컬 리액션 정보 및 상기 모션 리액션 정보는 리액션 타입, 시작 시간 및 종료 시간 등을 포함할 수 있다. 상기 분석부(244)는 상기 보컬 리액션 및 상기 모션 리액션에 대한 추가적인 정보를 생성할 수 있다. 예를 들어, 상기 분석부(244)는 사용자가 노래의 어떤 부분을 많이 불렀는지 등의 이벤트를 집계할 수 있다. 예를 들어, 상기 분석부(244)는 사용자의 오디오 신호와 재생된 노래를 비교하여 그 유사도에 따라 보컬 리액션에 점수를 매길 수도 있다.
상기 정보 관리부(300)는 음악 정보 분석부(320) 및 데이터베이스(340)를 포함할 수 있다. 상기 음악 정보 분석부(320)는 음악의 음의 높낮이 정보 및 비트 정보를 분석할 수 있다. 상기 데이터베이스(340)는 상기 음의 높낮이 정보 및 비트 정보를 저장할 수 있다. 상기한 바와 같이, 상기 음악의 음의 높낮이 정보 및 비트 정보를 분석하는 데에는 시간이 많이 소요될 수 있으므로, 음악이 재생되는 동안 실시간으로 수행되지 않으며, 음악이 재생되기 전에 미리 수행될 수 있다. 예를 들어, 사용자의 플레이 리스트 내에 있는 음악들에 대해 상기 음악 정보 분석부(320)는 미리 상기 음의 높낮이 정보 및 비트 정보를 분석하여, 상기 데이터베이스(340)에 저장해 둘 수 있다.
상기 데이터 수신부(250)는 상기 정보 관리부(300)의 상기 데이터베이스(340)로부터 상기 음의 높낮이 정보 및 상기 비트 정보를 포함하는 상기 음악 정보(MI)를 수신할 수 있다. 상기 데이터 수신부(250)는 상기 음악 정보(MI)를 상기 클래시파이어(230)의 상기 음악 정보 캐시(236)에 출력할 수 있다.
상기 API(260)는 상기 모바일 장치(200)가 상기 애플리케이션(400)과 통신하기 위한 애플리케이션일 수 있다. 상기 API(260)는 상기 리액션 정보(RI)를 상기 애플리케이션(400)에 출력할 수 있다.
상기 API(260)는 상기 애플리케이션(400)으로부터 상기 리액션 정보(RI)에 대한 리퀘스트(RQ) 및 음악 재생 정보(PI)를 수신할 수 있다.
상기 스케줄러(270)는 상기 리퀘스트(RQ)에 기초하여 상기 모바일 장치(200)의 전반적인 동작을 제어할 수 있다. 예를 들어, 상기 리퀘스트(RQ)가 보컬 리액션만을 요구하는 경우, 상기 모바일 장치(200)의 상기 모션 리액션과 관련된 동작들을 비활성화할 수 있다. 예를 들어, 상기 리퀘스트(RQ)가 모션 리액션만을 요구하는 경우, 상기 모바일 장치(200)의 상기 보컬 리액션과 관련된 동작들을 비활성화할 수 있다. 예를 들어, 상기 리퀘스트(RQ)가 수신되지 않은 경우에 상기 모바일 장치(200)의 상기 보컬 리액션 및 상기 모션 리액션과 관련된 동작들을 비활성화할 수 있다.
도 7은 도 1의 음악 청취 반응 자동 감지 시스템의 보컬 리액션 감지의 센싱 파이프라인을 나타내는 개념도이다. 도 8은 보컬 리액션에 대한 사운드 레벨의 누적 분포 함수를 나타내는 그래프이다. 도 9는 보컬 리액션에 대한 움직임 레벨의 누적 분포 함수를 나타내는 그래프이다. 도 10은 도 7의 2-1 단계에서 사용되는 로그 멜 스펙트로그램 패턴을 나타내는 그래프이다. 도 11은 도 7의 2-1 단계의 레이블을 도 7의 2-2 단계의 레이블로 맵핑하는 과정을 나타내는 표이다. 도 12는 노래 따라부르기 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다. 도 13은 허밍 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다. 도 14는 휘파람 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다. 도 15는 보컬 논-리액션 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다.
도 1 내지 도 15를 참조하면, 본 시스템은 노래의 음악 정보(MI)를 검색하고 상기 정보 관리부(300)의 상기 데이터베이스(340)에 유지할 수 있다.
사용자가 노래를 듣기 시작하면, 본 시스템은 웨어러블 센서(100)에서 오디오 및 모션 감지를 활성화하고 센싱 데이터(S1, S2)를 상기 모바일 장치(200)로 보낼 수 있다.
본 시스템의 동작은 아래와 같다.
(1) 첫 번째 단계로, 상기 센싱 데이터(S1, S2)의 특성을 분석하여 확실히 논-리액션 이벤트로 분류될 수 있는 데이터 세그먼트를 필터링할 수 있다.
(2) 상기 논-리액션 이벤트가 아닌 불확실한 데이터 세그먼트의 경우, 본 시스템은 클래시파이어(230)를 이용하여 리액션 이벤트를 식별할 수 있다.
(3) 본 시스템은 재생중인 노래에서 검색된 음악 정보(MI)를 활용하여 상기 클래시파이어(230)의 분류 성능을 향상시킬 수 있다. 본 시스템은 상기 센싱 데이터(S1, S2)와 상기 음악 정보(MI)의 유사도를 계산하고 유사도에 따라 상기 분류된 레이블을 수정할 수 있다.
(4) 감지된 리액션 이벤트를 기초로 본 시스템은 후처리 작업을 수행하여 고개 끄덕임의 속도 및 사용자의 노래 따라부르기와 재생된 노래의 멜로디의 유사도를 판단할 수 있다. 또한, 본 시스템은 보컬 리액션의 후처리 작업에서 스무딩을 적용할 수 있다.
상기 보컬 리액션이 만들어질 때, 세션 내에서 끊임없이 계속되지 않고 산발적으로 때로는 다른 리액션과 번갈아 나타날 수 있다. 예를 들어, 청취자는 노래를 따라 부르면서 숨을 쉬기 위해 짧은 시간 동안 노래를 멈추게 된다. 또한, 청취자는 종종 다른 종류의 보컬 리액션을 번갈아 발생시킬 수 있다. 예를 들어, 청취자가 노래를 따라 부르다가 가사를 모르는 경우, 순간적으로 허밍을 하거나 휘파람을 불고, 가사를 아는 부분에서는 다시 노래를 따라 부르는 경우를 많이 볼 수 있다.
이러한 문제를 해결하기 위해 본 시스템은 보컬 리액션을 효율적이고 안정적으로 감지하는 파이프라인을 제시한다.
본 시스템은 코스트를 절감하기 위해 초기 단계 필터링 동작을 적용할 수 있다(도 7의 Step 1). 상기 초기 단계 필터링 동작에서는, 확실하게 논-리액션 이벤트로 분류될 수 있는 데이터 세그먼트를 식별하고, 해당 세그먼트에 대해 상대적으로 부담이 큰 클래시피케이션 동작을 수행하지 않을 수 있다.
식별 논리는 아래 두 가지를 고려하여 개발된다.
첫째로 상기 웨어러블 센서(100)의 마이크와 청취자의 입의 거리가 가깝기 때문에, 청취자의 목소리 리액션은 특정 볼륨 이상의 사운드 이벤트를 생성할 수 있다. 따라서, 소리가 없거나, 배경 소음과 같이 특정 볼륨 미만(소리 쓰레스홀드)의 소리는 보컬 논-리액션 이벤트로 레이블링될 수 있다.
도 8은 리액션 이벤트와 논-리액션 이벤트에 대한 1초 간의 데시벨의 누적 분포 함수를 나타낸다. 도 8에서 보듯이, 논-리액션의 경우 소리의 크기(데시벨)가 상대적으로 작고, 노래 따라부르기, 허밍, 휘파람 이벤트의 경우 소리의 크기(데시벨)가 상대적으로 클 수 있다.
예를 들어, 소리 쓰레스홀드를 30 데시벨로 설정하고, 30 데시벨 미만의 소리 데이터를 논-리액션 이벤트로 처리할 경우, 60% 정도의 논-리액션 이벤트에 대해 클래시파이어(230)를 통과하지 않게 할 수 있고, 95% 이상의 리액션 이벤트에 대해 클래시파이어(230)를 통과하게 할 수 있다.
둘째로, 상기 청취자의 목소리 리액션은 상기 웨어러블 센서(100)에 특정 수준의 움직임도 발생시킬 수 있다. 상기 청취자의 입 움직임이 보컬 리액션을 일으키면, 입과 귀 사이에 위치한 광대뼈 근육을 활성화시켜 상기 웨어러블 센서(100)의 관성 신호에 임펄스 응답이 발생되게 된다.
또한, 상기 웨어러블 센서(100)에서 움직임이 감지되지 않으면, 상기 오디오 신호가 상기 리액션 이벤트에 속할 가능성이 거의 없음을 의미한다.
도 9는 리액션 이벤트와 논-리액션 이벤트에 대한 가속도계 크기의 표준 편차의 누적 분포 함수를 나타낸다. 도 9를 보면, 청취자의 큰 움직임은 논-리액션과 관련이 있음을 알 수 있다. 청취자들은 걷기, 뛰기 등의 움직임이 큰 운동을 하면서, 보컬 리액션을 하는 경우는 매우 드물기 때문이다.
따라서, 청취자의 움직임이 제1 움직임 쓰레스홀드보다 작은 경우(움직임이 거의 없는 경우), 보컬 논-리액션 이벤트로 레이블링될 수 있다. 또한, 청취자의 움직임이 제2 움직임 쓰레스홀드보다 큰 경우(움직임이 큰 운동을 하는 경우), 보컬 논-리액션 이벤트로 레이블링될 수 있다.
결과적으로, 상기 필터부(220)는 상기 웨어러블 센서(100)의 상기 관성 신호를 포함하는 상기 제1 센싱 데이터(S1) 및 상기 소리 신호를 포함하는 상기 제2 센싱 데이터(S2)를 모두 이용하여 상기 보컬 논-리액션 이벤트를 판단할 수 있다.
상기 결과를 바탕으로 2단계 필터링 구성 요소를 설계할 수 있다. 먼저 가속도계 크기의 표준 편차로 정의되는 움직임 레벨이 미리 설정된 구간(예컨대, 제1 움직임 쓰레스홀드 0.006과 제2 움직임 쓰레스홀드 0.1 사이)을 벗어난 세그먼트를 보컬 논-리액션 이벤트로 결정할 수 있다.
그 다음에, 필터링되지 않은 세그먼트의 경우 해당 오디오 신호의 소리의 크기(데시벨)가 소리 쓰레스홀드보다 작은 경우 데이터 세그먼트를 보컬 논-리액션 이벤트로 필터링할 수 있다.
모션 기반 필터링(관성 신호 필터(222))이 사운드 기반 필터링(소리 신호 필터(224))보다 가볍기 때문에 모션 기반 필터링(관성 신호 필터(222))을 사운드 기반 필터링(소리 신호 필터(224))보다 먼저 수행할 수 있다. 상기 필터링된 세그먼트들은 논-리액션으로 레이블링하고 클래시피케이션을 수행하지 않고 상기 후처리부(240)로 전달될 수 있다.
예를 들어, 사운드 이벤트 클래시피케이션에서는, 노래 따라부르기/허밍, 휘파람, 논-리액션의 세가지 유형의 보컬 리액션을 타겟 이벤트로 결정할 수 있다. 여기서, 노래 따라부르기와 허밍은 번갈아 관찰되는 경우가 많고 도 10에서 보듯이 스펙트로그램 패턴도 매우 유사하여 실질적으로 구별이 어렵기 때문에 하나의 클래스로 결합할 수 있다.
사운드 이벤트 분류의 첫 번째 부분(도 7의 Step 2.1)은 특징 추출과 사운드 클래시피케이션의 두 가지 작업을 포함할 수 있다.
특징 추출: 예를 들어, 상기 웨어러블 센서(100)의 오디오 데이터는 16kHz로 리샘플링되고 1초 길이의 세그먼트로 나뉠 수 있다. 그런 다음, 세그먼트는 주기적인 Hann window로 Short Time Fourier Transform을 이용하여 스펙트로그램으로 변환될 수 있다. 윈도우 사이즈와 윈도우 홉(hop)은 각각 25ms와 10ms로 설정될 수 있다. 그런 다음, 스펙트로그램을 125~7,500Hz 범위의 64개 멜 빈(mel bins)에 맵핑하고 로그를 적용하여 로그 멜 스펙트로그램을 계산할 수 있다. 마지막으로, 상기 특징을 96*64의 행렬로 프레임화할 수 있다. 여기서, 96은 10ms를 갖는 96개의 프레임을 의미하고, 64는 각 프레임의 64 멜 밴드(mel bands)를 의미할 수 있다.
클래시피케이션 및 레이블 맵핑: 상기 Step 2.1의 사운드 클래시피케이션의 클래스는 허밍, 음악, 챈트(chant), 노래, 휘파람, 말하기(speech), 새소리, 개소리, 침묵(silence) 등을 가질 수 있다. 상기 Step 2.1의 클래스는 본 시스템의 최종 클래스에 정확히 일치하지 않기 때문에 도 11과 같은 맵핑 표를 통해 레이블을 맵핑할 수 있다. 도 11에서 보듯이, Step 2.1의 사운드 클래시피케이션의 클래스 중 허밍, 음악, 챈트(chant), 노래는 최종 클래스의 노래 따라부르기 및 허밍 이벤트에 맵핑할 수 있고, Step 2.1의 사운드 클래시피케이션의 클래스 중 휘파람은 최종 클래스의 휘파람 이벤트에 맵핑할 수 있다. Step 2.1의 사운드 클래시피케이션의 클래스 중 말하기(speech)는 상기 최종 클래스의 어떤 이벤트에 매칭되는지 애매하기 때문에 추가 조사를 수행할 수 있다. 상기 말하기(speech)는 "ambiguous"로 레이블링될 수 있다. Step 2.1의 사운드 클래시피케이션의 클래스 중 허밍, 음악, 챈트(chant), 노래, 휘파람 및 말하기(speech)를 제외한 클래스들은 최종 클래스의 논-리액션 이벤트에 맵핑할 수 있다. 상기 논-리액션 이벤트들은 상기 클래시파이어(230)의 클래시피케이션 동작 없이 상기 후처리부(240)로 바로 전달될 수 있다.
다음 단계로 재생 중인 노래의 음악 정보(MI)를 활용하여 모호한 레이블을 마무리할 수 있다. 보다 구체적으로, 상기 웨어러블 센서(100)로부터 받은 오디오 신호와 재생 중인 노래 간의 유사도를 기반으로 "ambiguous" 레이블을 노래 따라부르기/허밍 이벤트 또는 논-리액션 이벤트로 수정할 수 있다.
유사도 계산: 보컬 신호와 노래 사이의 유사도를 측정하기 위해 음악 톤의 선형 연속을 의미하는 멜로디를 고려할 수 있다. 본 시스템의 핵심적인 직관은 보컬 리액션은 재생 중인 노래의 음표 순서를 따르지만 논-리액션 음성 신호는 그렇지 않다는 것이다.
도 7의 Step 2.2에는 이에 대한 자세한 절차가 도시되어 있다. 음의 순서를 추출하기 위해 먼저 음의 높낮이 정보를 추출할 수 있다. 예를 들어, 음의 높낮이 정보는 0.1초 간격의 주파수 정보인 피치(pitch) 정보일 수 있다. 상기 피치 정보는 시간 영역 파형 입력에서 직접 동작하는 심층 컨볼루션 신경망을 기반으로 추출될 수 있다.
그리고 나서, 상기 피치 정보(주파수 정보)는 옥타브 번호가 있는 음표 정보로 변환될 수 있다.
청취자가 노래를 따라 부르거나, 허밍을 하거나, 휘파람을 불 때, 재생되는 음악보다 높은 옥타브나 낮은 옥타브로 소리를 내는 경우가 종종 있기 때문에, 상기 옥타브 번호가 있는 음표 정보는 옥타브 번호가 없는 12음 반음계(chromatic scale)로 다시 변환될 수 있다.
재생되는 노래의 오디오 파일의 경우, 음악의 지배적인 멜로디 라인에 초점을 맞추기 위해 음의 높낮이 추출 이전에 보컬 추출을 수행할 수 있다. 보컬 리액션이 악기보다는 보컬(노래하는 목소리)을 주로 따르기 때문이다. 따라서, 재생되는 노래로부터 보컬 소스를 분리할 수 있다.
마지막으로, 두 개의 음표 시퀀스(하나는 사용자의 보컬 신호에서 추출, 다른 하나는 재생되는 노래에서 추출) 사이의 유사도를 계산하고 최종 결정을 내릴 수 있다. 이 때, 12개의 음표(C, C#, D, D#, E, F, F#, G, G#, A, A#, B)를 12개의 정수 값(0~11)에 맵핑할 수 있다. 도 12 내지 도 15는 음표 패턴의 예를 보여준다. 도 12, 도 13 및 도 14의 노래 따라부르기 이벤트, 허밍 이벤트 및 휘파람 이벤트에서는 재생되는 노래의 음표 패턴과 사용자의 보컬 신호의 음표 패턴이 높은 상관관계를 갖지만, 도 15와 같이 논-리액션 이벤트의 경우 재생되는 노래의 음표 패턴과 사용자의 보컬 신호의 음표 패턴이 상관관계를 갖지 않는다. 동적 시간 와핑(dynamic time warping, DTW)은 두 음표 패턴의 속도가 다를 수 있기 때문에 유사도 측정 함수로 고려될 수 있다. 유사도가 임계값보다 작으면 최종적으로 논-리액션으로 레이블을 지정하고 그렇지 않으면 노래 따라부르기/허밍으로 레이블링을 지정한다.
후처리 단계(Step 3)에서는 Hidden Markov Model(HMM)를 이용하여 클래시피케이션 결과를 평활화(smoothing)할 수 있다. 핵심 아이디어는 훈련 데이터 세트의 분류 출력 시퀀스에서 HMM 모델을 훈련하고 출력 평활화를 위해 훈련된 HMM 모델을 사용하는 것이다. 관찰 시퀀스를 분류 출력의 시퀀스로 정의하고 리액션 이벤트의 평활화된 시퀀스에 맵핑될 수 있는 히든 스테이트의 최적 시퀀스를 추정하여 평활화를 수행할 수 있다.
최대 확률을 효율적으로 계산하기 위해 Viterbi 알고리즘을 적용하고 6초 길이의 창을 입력 시퀀스, 즉 최근 6개의 분류 출력 시퀀스로 사용할 수 있다. 상기 애플리케이션(400)이 대화형 서비스에 대한 실시간 출력을 선호하는 경우, 상기 스무딩 동작이 생략될 수 있다.
도 16은 고개 끄덕임에 대한 센싱 데이터를 나타내는 그래프이다. 도 17은 모션 논-리액션 이벤트에 대한 센싱 데이터와 음악 정보 데이터를 나타내는 그래프이다. 도 18은 도 1의 음악 청취 반응 자동 감지 시스템의 모션 리액션 감지의 센싱 파이프라인을 나타내는 개념도이다. 도 19는 모션 리액션에 대한 움직임 레벨의 누적 분포 함수를 나타내는 그래프이다. 도 20은 음악의 장르에 따른 모션 리액션용 윈도우 사이즈를 결정하는 방법을 나타내는 그래프이다.
도 1 내지 도 20을 참조하면, 노래가 재생되는 동안 모션 리액션은 산발적으로 나타나는 경향이 있다. 따라서, 모션 리액션 감지의 센싱 파이프라인을 계속하여 실행하면 불필요한 컴퓨테이션 코스트가 발생하여 사용자 경험을 방해할 수 있다.
또한, 음악에 대한 모션 리액션은 유사한 주기로 반복될 수 있다. 예를 들어, 고개 끄덕임은 일정한 시간 동안 규칙적인 패턴으로 계속되어 도 16에 도시된 바와 같이 일정 수준의 주기성을 갖는 신호 파형을 생성할 수 있다. 반면, 논-리액션은 도 17에 도시된 바와 같이 주기적인 피크 패턴을 나타내지 않을 수 있다.
그러나, 음악에 대한 리액션이 아님에도 반복적인 움직임을 보이는 경우가 발생할 수 있다. 예를 들어, 일부 청취자는 습관적으로 다리를 떨 수 있고, 이러한 움직임은 음악과는 무관하지만 관성 신호의 반복적 변동을 유발할 수 있다. 마찬가지로, 청취자가 음악을 들으면서 걷거나 달리는 경우에도, 이러한 청취자의 움직임은 음악과는 무관하지만 관성 신호의 반복적 변동을 유발할 수 있다.
또한, 모션 리액션은 사람마다 다양한 패턴을 나타낼 수 있다. 모션 리액션의 움직임 행동은 사람마다 매우 다양할 수 있다. 예를 들어, 어떤 사람들은 음악을 들으며 머리를 위아래로 움직일 수 있다. 반면, 어떤 사람들은 음악을 들으며 머리를 좌우로 움직일 수 있다. 또한, 움직임의 크기도 사람마다 다양할 수 있다. 또한, 모션 리액션은 음악의 장르에 따라 다른 패턴을 나타낼 수도 있다. 예를 들어, 고개를 끄덕이는 동작은 빠른 템포의 음악에 대해 보다 규칙적이고 높은 빈도를 갖는 경향이 있다.
이러한 문제를 해결하기 위해 상기 모션 리액션 감지를 위한 파이프라인은 관찰된 모션 리액션의 특성(예컨대, 리액션의 연속성, 주기성, 노래의 비트와의 상관 관계, 음악의 장르에 따른 차이)을 활용할 수 있다.
도 18에서 보듯이, 모션 리액션 감지 파이프라인은 필터링(Step 1)과 클래시피케이션(Step 2)이라는 두 가지 주요한 동작을 수행할 수 있다.
먼저, 클래시피케이션 동작을 위한 불필요한 프로세싱을 피하기 위해, 청취자의 단순 움직임을 필터링할 수 있다. 움직임이 없거나 너무 큰 움직임과 같이 모션 리액션에 해당할 가능성이 높지 않은 입력 데이터의 레이블을 논-리액션으로 초기에 결정할 수 있다.
이어서, 모션 리액션의 특징을 포착하기 위해 feature extraction을 수행할 수 있다. 또한, 상기 파이프라인은 2개의 클래시피케이션 모델을 포함하며, 음악의 장르에 따라 그 중 하나를 선택적으로 사용할 수 있다.
상기 필터링(Step 1)에서는 코스트를 감소시키기 위해, 쓰레스홀드를 기반으로 필터링을 수행할 수 있다. 예를 들어, 가속도계 신호의 1초 세그먼트의 움직임 레벨을 기초로 논-리액션 데이터를 분류할 수 있다. 청취자의 움직임이 없다면 가속도계 신호는 0에 가깝다. 반대로, 음악에 대한 모션 리액션 없이 걷거나 뛰는 움직임이 발생하는 경우, 가속도계 신호는 매우 크게 변동될 수 있다.
따라서, 상기 필터링(Step 1)에서는 상기 움직임 레벨이 낮은 쪽을 걸러내기 위한 제3 움직임 쓰레스홀드와 상기 움직임 레벨이 높은 쪽을 걸러내기 위한 제4 움직임 쓰레스홀드를 이용할 수 있다. 예를 들어, 상기 관성 신호에서 상기 청취자의 움직임 레벨이 상기 제3 움직임 쓰레스홀드보다 작은 경우, 해당 데이터 세그먼트를 모션 논-리액션 이벤트로 판단하고, 상기 관성 신호에서 상기 청취자의 움직임 레벨이 상기 제4 움직임 쓰레스홀드보다 큰 경우, 해당 데이터 세그먼트를 모션 논-리액션 이벤트로 판단할 수 있다.
효과적인 필터링을 위해서는 많은 모션 리액션을 놓치지 않으면서 가능한 많은 논-리액션을 걸러낼 수 있는 쓰레스홀드를 설정하는 것이 중요하다. 도 19는 움직임 레벨의 기준으로 사용하는 1차 가속도계 크기의 표준 편차의 누적 분포 함수를 나타낸다. 도 19에서 낮은 쓰레스홀드인 상기 제3 움직임 쓰레스홀드는 0.008g일 수 있고, 높은 쓰레스홀드인 제4 움직임 쓰레스홀드는 0.075g일 수 있다.
Step 1에서 필터링되지 않은 데이터에 대해 모션 리액션 클래시피케이션(Step 2)이 수행될 수 있다. 상기 모션 리액션 클래시피케이션(Step 2)은 두 단계를 포함할 수 있다. 첫 번째 단계는 상기 정보 관리부(300)에서 오프라인으로 분석되는 음악 정보(MI)를 검색하는 것이다. 비트 관련 특징을 도출하기 위해 음악의 비트를 사용하고 적절한 클래시피케이션 모델을 선택하기 위해 음악의 장르를 이용할 수 있다. 음악의 비트를 추출하기 위해, 오디오 신호 처리 라이브러리를 이용할 수 있다. 상기 오디오 신호 처리 라이브러리는 재생되는 음악에 대한 비트 시간 목록을 출력할 수 있다.
상기 Step 2는 전처리, 특징 추출(feature extraction) 및 클래시피케이션을 포함할 수 있다.
첫째로 슬라이딩 윈도우를 사용하여 70Hz에서 샘플링된 가속도계 및 자이로스코프 데이터를 분할할 수 있다. 이러한 데이터 세그먼트를 사용하여 신호의 주기성을 캡쳐하기 위해 자기 상관(autocorrelation)을 계산할 수 있다. 그런 다음 원시 IMU 신호와 계산된 자기 상관 신호에서 피크(peak)와 밸리(valley)를 감지할 수 있다. 여기서, 상기 피크는 도 16 및 도 17의 그래프에서 신호의 위 방향 꼭지점일 수 있고, 상기 밸리는 도 16 및 도 17의 그래프에서 신호의 아래 방향 꼭지점일 수 있다.
둘째로, 전처리된 데이터를 사용하여 세 그룹의 특징들(features)을 계산할 수 있다. 상기 세 그룹의 특징들(features)은 움직임의 주기성을 인코딩하는 특징, 움직임의 크기를 캡쳐하는 특징 및 비트 관련 특징을 포함할 수 있다.
주기성을 인코딩하는 특징은 아래와 같다.
- 자기 상관 피크의 수: 반복적인 동작은 더 많은 피크를 보일 수 있다.
- 자기 상관 피크의 최대값: 자기 상관 피크 값이 높을수록 더 높은 주기성을 나타낼 수 있다.
- 첫 번째 자기 상관 피크와 마지막 자기 상관 피크 사이의 시간 간격: 주기적인 신호는 상기 시간 간격이 더 길 수 있다.
- 제로 크로싱의 수: 반복적인 동작은 더 많은 제로 크로싱을 나타낼 수 있다. 여기서, 제로 크로싱은 도 16 및 도 17의 그래프 내에서 파형이 0을 통과하는 것을 의미한다.
- 연속 피크 사이의 시간 간격 평균: 주기적인 신호는 평균이 더 작을 수 있다.
- 연속 피크 간 시간 간격의 표준 편차: 주기적인 신호는 상기 표준 편차가 더 작을 수 있다.
움직임의 크기를 캡쳐하는 특징은 크기의 최대값/최소값/실효값/평균값, 피크 값의 평균 및 표준 편차, 최대 피크 값 및 최소 피크 값의 차이를 포함할 수 있다.
비트 관련 특징은 아래와 같다.
- 윈도우 내의 비트 수에 대한 피크 수의 비율: 모션 리액션은 논-리액션에 비해 윈도우 내의 비트 수에 대한 피크 수의 비율이 일정한 경향이 있다.
- 연속 피크 사이의 시간 간격 중간값(median)과 연속 비트 사이의 시간 간격 중간값(median)의 비율: 주기적인 모션 리액션은 비트와 유사한 피크 시간 간격을 가질 가능성이 높다.
- 연속 비트 사이의 시간 간격 평균에 대한 연속 피크 사이의 시간 간격의 표준 편차의 비율: 모션 리액션은 더 일관된 간격을 가질 가능성이 높으므로, 표준 편차가 더 작을 수 있다.
상기 Step 2에서는 신호의 주기성을 충분히 캡쳐하면서 짧은 시간 동안 일부 반응을 놓치지 않기 위한 적절한 윈도우 사이즈가 결정될 수 있다. 윈도우 사이즈가 너무 짧으면 신호의 주기성이 거의 포착되지 않을 수 있다. 반면, 윈도우 사이즈가 너무 길면 데이터의 윈도우가 모션 리액션 데이터와 논-리액션 데이터를 동시에 포함하여 성능이 감소할 수 있다.
느린 템포의 노래에 대한 모션 리액션은 느린 경향이 있는 반면, 빠른 템포의 노래에 대한 모션 리액션은 빠른 경향이 있다. 따라서, 윈도우 사이즈의 크기는 음악의 장르 또는 음악의 템포에 따라 결정될 수 있다.
도 20에서 보듯이, 일반적으로 윈도우 사이즈가 커질수록 F1 점수는 증가할 수 있다. 그러나, 상기 F1 점수는 특정 지점에서 포화 상태에 도달하며, 그 포화 지점이 음악의 템포에 따라 다를 수 있다. 빠른 템포의 노래에서 상기 포화 지점은 5초일 수 있고, 느린 템포의 노래에서 상기 포화 지점은 9초일 수 있다.
따라서, 상기 시스템은 음악의 장르 (또는 템포)에 따라 서로 다른 윈도우 사이즈를 갖는 두 개의 클래시피케이션 모델을 포함할 수 있다.
상기 특징 추출(feature extraction) 후에, 재생되는 음악의 장르에 맞는 클래시피케이션 모델이 실행될 수 있다. 추출된 특징은 최종 클래시피케이션 출력을 얻기 위해 선택된 모델에 공급될 수 있다. 예를 들어, 본 발명의 일 실시예에서, 상기 클래시파이어(230)로는 Random Forest (RF)가 사용될 수 있다. SVM, Logistic Regression 및 lightGBM과 비교하여, RF 모델은 유사하거나 약간 더 나은 성능을 보여줄 수 있다.
상기 시스템은 상기 클래시파이어(230)의 출력과 논-리액션의 필터링 결과를 결합하여 최종 추론 출력을 제공할 수 있다. 여기서, 상기 시스템이 기본적으로 제공하는 리액션 정보(RI)는 모션 리액션 이벤트가 발생했는지 여부이다. 또한, 상기 시스템은 재생되는 음악에 대한 모션 리액션의 수, 청취자가 가장 많이 움직인 부분 및 청취자가 움직임을 자주 나타내는 노래들에 대한 정보를 제공할 수 있다.
본 발명에 따르면, 사용자의 귀에 착용하는 웨어러블 센서(100)를 이용하여 음악을 청취하는 사용자의 노래 따라부르기, 허밍, 휘파람, 고개 끄덕임 등의 리액션을 자동으로 감지할 수 있다. 상기 음악 청취 반응 자동 감지 시스템은 실시간으로 청취자의 반응을 자동으로 감지할 수 있다.
음의 높낮이 및 비트와 같은 음악적 구조를 활용하므로 청취자의 반응을 정확하게 감지할 수 있다.
또한, 상기 모바일 장치(200)의 필터부(220)에서 논-리액션 이벤트를 초기 필터링 하므로, 불필요한 프로세싱 코스트를 감소시킬 수 있다.
본 발명에 따르면, 사용자의 귀에 착용하는 웨어러블 센서를 이용하여 음악을 청취하는 사용자의 노래 따라부르기, 허밍, 휘파람, 고개 끄덕임 등의 리액션을 자동으로 감지할 수 있다.
상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 웨어러블 센서 200: 모바일 장치
210: 네트워크 인터페이스 220: 필터부
222: 관성 신호 필터 224: 소리 신호 필터
230: 클래시파이어 232: 보컬 리액션 클래시파이어
234: 모션 리액션 클래시파이어 236: 음악 정보 캐시
240: 후처리부 242: 스무딩부
244: 분석부 250: 데이터 수신부
260: API 270: 스케줄러
300: 정보 관리부 320: 음악 정보 분석부
340: 데이터 베이스 400: 애플리케이션

Claims (8)

  1. 청취자의 귀에 착용하는 웨어러블 센서; 및
    상기 웨어러블 센서로부터 상기 청취자의 관성 신호 및 소리 신호를 수신하고, 상기 관성 신호, 상기 소리 신호 및 재생되는 음악의 음악 정보를 기초로 상기 청취자의 보컬 리액션을 판단하며, 상기 관성 신호 및 상기 음악 정보를 기초로 상기 청취자의 모션 리액션을 판단하는 모바일 장치를 포함하는 음악 청취 반응 자동 감지 시스템.
  2. 제1항에 있어서, 상기 모바일 장치는
    상기 관성 신호 및 상기 소리 신호를 기초로 논-리액션 이벤트를 판단하는 필터부; 및
    상기 논-리액션 이벤트가 아닌 데이터 세그먼트에 대해 딥러닝을 이용하여 상기 보컬 리액션 및 상기 모션 리액션을 분류하는 클래시파이어를 포함하고,
    상기 필터부에 의해 상기 논-리액션 이벤트로 판단된 데이터 세그먼트는 상기 클래시파이어를 통과하지 않는 것을 특징으로 하는 음악 청취 반응 자동 감지 시스템.
  3. 제2항에 있어서, 상기 모바일 장치는
    상기 웨어러블 센서와 통신하는 네트워크 인터페이스;
    상기 보컬 리액션 및 상기 모션 리액션을 보정하고, 상기 보컬 리액션 및 상기 모션 리액션을 분석하는 후처리부;
    상기 음악 정보를 수신하여 상기 클래시파이어로 출력하는 데이터 수신부;
    상기 보컬 리액션 및 상기 모션 리액션을 포함하는 리액션 정보를 애플리케이션에 출력하고 상기 리액션 정보에 대한 리퀘스트를 수신하는 애플리케이션 프로그래밍 인터페이스; 및
    상기 리퀘스트에 기초하여 상기 모바일 장치의 동작을 제어하는 스케줄러를 더 포함하는 것을 특징으로 하는 음악 청취 반응 자동 감지 시스템.
  4. 제2항에 있어서, 상기 필터부는
    상기 관성 신호에서 상기 청취자의 움직임 레벨이 제1 움직임 쓰레스홀드보다 작은 데이터 세그먼트를 보컬 논-리액션 이벤트로 판단하고,
    상기 관성 신호에서 상기 청취자의 움직임 레벨이 제2 움직임 쓰레스홀드보다 큰 데이터 세그먼트를 상기 보컬 논-리액션 이벤트로 판단하며,
    상기 소리 신호에서 소리의 크기가 소리 쓰레스홀드보다 작은 데이터 세그먼트를 상기 보컬 논-리액션 이벤트로 판단하고,
    상기 관성 신호의 필터링은 상기 소리 신호의 필터링보다 먼저 수행되며,
    상기 관성 신호에서 상기 청취자의 움직임 레벨이 제3 움직임 쓰레스홀드보다 작은 데이터 세그먼트를 모션 논-리액션 이벤트로 판단하고,
    상기 관성 신호에서 상기 청취자의 움직임 레벨이 제4 움직임 쓰레스홀드보다 큰 데이터 세그먼트를 상기 모션 논-리액션 이벤트로 판단하는 것을 특징으로 하는 음악 청취 반응 자동 감지 시스템.
  5. 제2항에 있어서, 상기 클래시파이어는
    상기 음악 정보의 음의 높낮이와 상기 웨어러블 센서로부터 수신된 상기 소리 신호의 음의 높낮이를 비교하여 상기 보컬 리액션을 판단하는 보컬 리액션 클래시파이어; 및
    상기 음악 정보의 비트와 상기 웨어러블 센서로부터 수신된 상기 관성 신호를 비교하여 상기 모션 리액션을 판단하는 모션 리액션 클래시파이어를 포함하는 것을 특징으로 하는 음악 청취 반응 자동 감지 시스템.
  6. 제5항에 있어서, 상기 모션 리액션 클래시파이어는 상기 관성 신호의 주기성을 인코딩하는 특징을 이용하고,
    상기 주기성을 인코딩하는 특징은 상기 관성 신호의 데이터 세그먼트의 자기 상관 피크의 수, 상기 데이터 세그먼트의 자기 상관 피크의 최대값, 상기 데이터 세그먼트의 첫 번째 자기 상관 피크와 마지막 자기 상관 피크 사이의 시간 간격, 상기 데이터 세그먼트의 파형의 제로 크로싱 수, 상기 데이터 세그먼트의 자기 상관의 연속 피크 사이의 시간 간격 평균 및 상기 데이터 세그먼트의 자기 상관의 연속 피크 사이의 시간 간격 표준 편차 중 적어도 하나를 포함하고,
    상기 모션 리액션 클래시파이어는 상기 음악 정보의 비트 관련 특징을 이용하고,
    상기 비트 관련 특징은 윈도우 내의 비트 수에 대한 상기 데이터 세그먼트의 피크 수의 비율, 상기 데이터 세그먼트의 연속 피크 사이의 시간 간격 중간값(median)과 상기 음악 정보의 연속 비트 사이의 시간 간격 중간값(median)의 비율 및 상기 음악 정보의 연속 비트 사이의 시간 간격 평균에 대한 상기 데이터 세그먼트의 연속 피크 사이의 시간 간격의 표준 편차의 비율 중 적어도 하나를 포함하는 것을 특징으로 하는 음악 청취 반응 자동 감지 시스템.
  7. 청취자의 귀에 착용하는 웨어러블 센서를 이용하여 관성 신호 및 소리 신호를 센싱하는 단계;
    상기 관성 신호 및 상기 소리 신호를 기초로 논-리액션 이벤트를 판단하는 단계; 및
    상기 논-리액션 이벤트가 아닌 데이터 세그먼트에 대해 딥러닝을 이용하여 상기 청취자의 보컬 리액션 및 상기 청취자의 모션 리액션을 분류하는 단계를 포함하고,
    상기 보컬 리액션은 상기 관성 신호, 상기 소리 신호 및 재생되는 음악의 음악 정보를 기초로 판단되며,
    상기 모션 리액션은 상기 관성 신호 및 상기 음악 정보를 기초로 판단되고,
    상기 논-리액션 이벤트로 판단된 데이터 세그먼트는 상기 보컬 리액션 및 상기 모션 리액션을 분류하는 단계를 통과하지 않는 것을 특징으로 하는 음악 청취 반응 자동 감지 방법.
  8. 청취자의 귀에 착용하는 웨어러블 센서로부터 상기 청취자의 관성 신호 및 소리 신호를 수신하고, 상기 관성 신호 및 상기 소리 신호를 기초로 논-리액션 이벤트를 판단하는 필터부; 및
    상기 논-리액션 이벤트가 아닌 데이터 세그먼트에 대해, 상기 관성 신호, 상기 소리 신호 및 재생되는 음악의 음악 정보를 기초로 상기 청취자의 보컬 리액션을 판단하고, 상기 관성 신호 및 상기 음악 정보를 기초로 상기 청취자의 모션 리액션을 판단하는 클래시파이어를 포함하고,
    상기 필터부에 의해 상기 논-리액션 이벤트로 판단된 데이터 세그먼트는 상기 클래시파이어를 통과하지 않는 것을 특징으로 하는 모바일 장치.

KR1020210167375A 2021-11-29 2021-11-29 음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치 KR20230080025A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210167375A KR20230080025A (ko) 2021-11-29 2021-11-29 음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치
US17/565,894 US11943591B2 (en) 2021-11-29 2021-12-30 System and method for automatic detection of music listening reactions, and mobile device performing the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210167375A KR20230080025A (ko) 2021-11-29 2021-11-29 음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치

Publications (1)

Publication Number Publication Date
KR20230080025A true KR20230080025A (ko) 2023-06-07

Family

ID=86499645

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210167375A KR20230080025A (ko) 2021-11-29 2021-11-29 음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치

Country Status (2)

Country Link
US (1) US11943591B2 (ko)
KR (1) KR20230080025A (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10798451B2 (en) * 2017-02-24 2020-10-06 Rovi Guides, Inc. Systems and methods for detecting a reaction by a user to a media asset to which the user previously reacted at an earlier time, and recommending a second media asset to the user consumed during a range of times adjacent to the earlier time
WO2019012784A1 (ja) * 2017-07-14 2019-01-17 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2019040524A1 (en) * 2017-08-21 2019-02-28 Muvik Labs, Llc METHOD AND SYSTEM FOR MUSIC COMMUNICATION
US10728676B1 (en) * 2019-02-01 2020-07-28 Sonova Ag Systems and methods for accelerometer-based optimization of processing performed by a hearing device
EP4044624A1 (en) * 2021-02-15 2022-08-17 Sonova AG Tracking happy moments of hearing device users

Also Published As

Publication number Publication date
US20230171541A1 (en) 2023-06-01
US11943591B2 (en) 2024-03-26

Similar Documents

Publication Publication Date Title
US11461389B2 (en) Transitions between media content items
US9031243B2 (en) Automatic labeling and control of audio algorithms by audio recognition
Yamada et al. A rhythm practice support system with annotation-free real-time onset detection
US8138409B2 (en) Interactive music training and entertainment system
Chaudhuri et al. Ava-speech: A densely labeled dataset of speech activity in movies
JP2006517679A (ja) オーディオ再生装置、方法及びコンピュータプログラム
US9892758B2 (en) Audio information processing
JP2008170685A (ja) 音声評価装置及びカラオケ装置
Goebl et al. Quantitative methods: Motion analysis, audio analysis, and continuous response techniques
Chordia Segmentation and Recognition of Tabla Strokes.
Sako et al. Ryry: A real-time score-following automatic accompaniment playback system capable of real performances with errors, repeats and jumps
JP2008216486A (ja) 音楽再生システム
Böhm et al. Seeking the superstar: Automatic assessment of perceived singing quality
KR20230080025A (ko) 음악 청취 반응 자동 감지 시스템 및 방법, 음악 청취 반응 자동 감지 방법을 수행하는 모바일 장치
Zhao et al. Identifying master violinists using note-level audio features
Eronen Signal processing methods for audio classification and music content analysis
JP2023539121A (ja) オーディオコンテンツの識別
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
Pranav et al. Machine Learning based Comparison of Different Emotional Dimensional Models for Tamil Cine Music
Molina-Solana et al. Identifying violin performers by their expressive trends
Cano et al. Music technology and education
Ramires Automatic Transcription of Drums and Vocalised percussion
Uhle et al. Generation of musical scores of percussive un-pitched instruments from automatically detected events
Ramires Automatic transcription of vocalized percussion
JP6836467B2 (ja) カラオケ装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal