KR20190140780A - 음악 장르 분류 장치 및 방법 - Google Patents
음악 장르 분류 장치 및 방법 Download PDFInfo
- Publication number
- KR20190140780A KR20190140780A KR1020180067731A KR20180067731A KR20190140780A KR 20190140780 A KR20190140780 A KR 20190140780A KR 1020180067731 A KR1020180067731 A KR 1020180067731A KR 20180067731 A KR20180067731 A KR 20180067731A KR 20190140780 A KR20190140780 A KR 20190140780A
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- music genre
- music
- classification apparatus
- characteristic parameter
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 281
- 230000004913 activation Effects 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000012805 post-processing Methods 0.000 description 11
- 239000002184 metal Substances 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 240000006829 Ficus sundaica Species 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241001050985 Disco Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 210000002469 basement membrane Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Description
도 2는 본 개시의 일 실시예에 따른 스파이크 코드를 나타내는 도면이다.
도 3은 본 개시의 일 실시예에 따른 음악 장르 별 오디오 신호와 스파이크 코드를 기초로 복원된 복원 신호를 나타내는 도면이다.
도 4는 본 개시의 일 실시예에 따라 스파이크 코드가 포함하는 스파이크의 개수에 따라 복원 정확도가 변화되는 것을 나타내는 도면이다.
도 5 는 본 개시의 일 실시예에 따른 음악 장르 분류 장치가 스파이크 코드로부터 주파수 기반 특성 파라미터를 추출하는 방법을 나타내는 도면이다.
도 6은 본 개시의 일 실시예에 따른 음악 장르 분류 장치가 시간 기반 특성 파라미터를 추출하는 방법을 나타내는 도면이다.
도 7은 본 개시의 일 실시예에 따른 음악 장르 분류 장치가 추출된 특성 파라미터를 기초로 오디오 신호의 음악 장르를 결정하는 방법을 나타내는 흐름도이다.
도 8은 본 개시의 일 실시예에 따른 음악 장르 분류 장치의 동작을 나타내는 흐름도이다.
Claims (14)
- 오디오 신호의 음악 장르를 분류하는 음악 장르 분류 장치에 있어서,
상기 오디오 신호를 획득하는 수신부;
상기 오디오 신호로부터 상기 오디오 신호를 시간 위치 별로 복수의 서로 다른 중심 주파수 성분으로 분할하여 상기 오디오 신호의 특성을 나타내는 스파이크 코드(spike code)를 획득하고, 상기 스파이크 코드로부터 특성 파라미터를 추출하고, 상기 특성 파라미터를 기초로 상기 오디오 신호의 음악 장르를 결정하는 프로세서; 및
상기 결정된 음악 장르를 기초로 출력 정보를 출력하는 출력부를 포함하고,
상기 시간 위치는 상기 오디오 신호를 구성하는 복수의 샘플 중 어느 하나의 시간적 순서를 나타내는 것인, 음악 장르 분류 장치. - 제1 항에 있어서,
상기 프로세서는,
상기 중심 주파수 각각에 대응하는 복수의 필터와 상기 오디오 신호 사이의 상관관계를 기초로 상기 오디오 신호에 대응하는 상기 스파이크 코드를 획득하는, 음악 장르 분류 장치. - 제 2항에 있어서,
상기 프로세서는,
상기 스파이크 코드를 기초로 상기 오디오 신호에 대한 복원 신호(reconstruction signal)를 생성하고,
상기 특성 파라미터는 상기 오디오 신호와 상기 복원 신호 사이의 복원 정확도(reconstruction accuracy)를 포함하는, 음악 장르 분류 장치. - 제 3항에 있어서,
상기 스파이크 코드는 상기 중심 주파수 각각에 대응하는 시간 위치 별 필터 크기를 포함하고,
상기 특성 파라미터는 스파이크 코드가 포함하는 스파이크의 개수 별 복원 정확도를 포함하고,
상기 스파이크의 개수는 상기 필터 크기 중에서 논-제로(non-zero) 필터 크기의 개수를 나타내는, 음악 장르 분류 장치. - 제 3항에 있어서,
상기 프로세서는,
상기 오디오 신호와 상기 복원 신호 사이의 차이 및 상기 오디오 신호 사이의 비율을 기초로 상기 복원 정확도를 결정하는, 음악 장르 분류 장치. - 제 2 항에 있어서,
상기 스파이크 코드는 상기 중심 주파수 각각에 대응하는 시간 위치 별 필터 크기를 포함하고,
상기 특성 파라미터는, 상기 복수의 샘플을 포함하는 프레임에 포함되는 상기 필터 크기의 중심 주파수 별 합을 포함하는, 음악 장르 분류 장치. - 제 6 항에 있어서,
상기 프로세서는,
상기 스파이크 코드를 기초로, 상기 복수의 필터 각각에 대해 상기 프레임 내에서 활성화된 횟수를 나타내는 필터 별 활성화 빈도수를 산출하고,
상기 특성 파라미터는 상기 필터 별 활성화 빈도수를 포함하는, 음악 장르 분류 장치. - 제 2 항에 있어서,
상기 특성 파라미터는, 상기 시간 위치 각각에 대하여, 상기 시간 위치 각각에서 상기 복수의 필터 중에서 적어도 하나의 필터가 활성화 되었는지를 나타내는 시간 기반 파라미터를 포함하는, 음악 장르 분류 장치. - 제 8 항에 있어서,
상기 특성 파라미터는 적어도 하나의 필터가 활성화된 시간 위치 중에서 어느 둘 사이의 간격을 포함하는, 음악 장르 분류 장치. - 제 2 항에 있어서,
상기 오디오 신호는 복수의 프레임으로 구성되고,
상기 프레임은 상기 복수의 샘플을 포함하는 처리 단위를 나타내고,
상기 프로세서는,
상기 복수의 프레임 별로 추출된 특성 파라미터를 기초로 상기 복수의 프레임 각각에 대응하는 음악 장르 별 확률값을 산출하고,
상기 복수의 프레임 각각에 대응하는 음악 장르 별 확률값에 대한, 상기 복수의 프레임을 포함하는 기 설정된 시간 구간에서의 음악 장르 별 평균에 기초하여, 상기 오디오 신호의 음악 장르를 결정하는, 음악 장르 분류 장치. - 제 2 항에 있어서,
상기 복수의 필터는 상기 중심 주파수 별로 필터의 주파수 영역 파형이 서로 다른 것을 특징으로 하는, 음악 장르 분류 장치. - 제 1 항에 있어서,
상기 중심 주파수는 주파수가 높아질수록 넓은 간격으로 설정된 청각 척도에 기초하여 결정되는 것을 특징으로 하는, 음악 장르 분류 장치. - 오디오 신호의 음악 장르를 분류하는 방법에 있어서,
상기 오디오 신호를 획득하는 단계;
상기 오디오 신호로부터 상기 오디오 신호를 시간 위치 별로 복수의 서로 다른 중심 주파수 성분으로 분할하여 상기 오디오 신호의 특성을 나타내는 스파이크 코드를 획득하는 단계;
상기 스파이크 코드로부터 특성 파라미터를 추출하는 단계;
상기 특성 파라미터를 기초로 상기 오디오 신호의 음악 장르를 결정하는 단계; 및
상기 결정된 음악 장르를 기초로 출력 정보를 출력하는 단계를 포함하고,
상기 시간 위치는 상기 오디오 신호를 구성하는 복수의 샘플 중에서 어느 하나의 시간적 순서를 나타내는 것인, 음악 장르 분류 방법. - 제 13항의 방법을 전자 장치에서 실행하기 위한 프로그램을 기록한 전자 장치로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180067731A KR102062454B1 (ko) | 2018-06-12 | 2018-06-12 | 음악 장르 분류 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180067731A KR102062454B1 (ko) | 2018-06-12 | 2018-06-12 | 음악 장르 분류 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190140780A true KR20190140780A (ko) | 2019-12-20 |
KR102062454B1 KR102062454B1 (ko) | 2020-01-03 |
Family
ID=69063044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180067731A KR102062454B1 (ko) | 2018-06-12 | 2018-06-12 | 음악 장르 분류 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102062454B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667845A (zh) * | 2020-12-23 | 2021-04-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲推荐方法、装置、电子设备及可读存储介质 |
CN113793580A (zh) * | 2021-08-31 | 2021-12-14 | 云境商务智能研究院南京有限公司 | 一种基于深度学习的音乐流派分类方法 |
WO2023068443A1 (ko) * | 2021-10-21 | 2023-04-27 | 주식회사 캐스트유 | 음원을 위한 키워드 생성방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050122404A (ko) * | 2004-06-24 | 2005-12-29 | 주식회사 대우일렉트로닉스 | 오디오 재생 장치에서의 오디오 출력 자동 조절 장치 |
-
2018
- 2018-06-12 KR KR1020180067731A patent/KR102062454B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050122404A (ko) * | 2004-06-24 | 2005-12-29 | 주식회사 대우일렉트로닉스 | 오디오 재생 장치에서의 오디오 출력 자동 조절 장치 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112667845A (zh) * | 2020-12-23 | 2021-04-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲推荐方法、装置、电子设备及可读存储介质 |
CN112667845B (zh) * | 2020-12-23 | 2024-11-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种歌曲推荐方法、装置、电子设备及可读存储介质 |
CN113793580A (zh) * | 2021-08-31 | 2021-12-14 | 云境商务智能研究院南京有限公司 | 一种基于深度学习的音乐流派分类方法 |
CN113793580B (zh) * | 2021-08-31 | 2024-05-24 | 云境商务智能研究院南京有限公司 | 一种基于深度学习的音乐流派分类方法 |
WO2023068443A1 (ko) * | 2021-10-21 | 2023-04-27 | 주식회사 캐스트유 | 음원을 위한 키워드 생성방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102062454B1 (ko) | 2020-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11961533B2 (en) | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments | |
CN109147804B (zh) | 一种基于深度学习的音质特性处理方法及系统 | |
US11043210B2 (en) | Sound processing apparatus utilizing an electroencephalography (EEG) signal | |
EP3469584B1 (en) | Neural decoding of attentional selection in multi-speaker environments | |
CN108900725B (zh) | 一种声纹识别方法、装置、终端设备及存储介质 | |
CN110019931B (zh) | 音频分类方法、装置、智能设备和存储介质 | |
US9478232B2 (en) | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals | |
KR102062454B1 (ko) | 음악 장르 분류 장치 및 방법 | |
Monaghan et al. | Auditory inspired machine learning techniques can improve speech intelligibility and quality for hearing-impaired listeners | |
CN105283916B (zh) | 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 | |
CN112242149B (zh) | 音频数据的处理方法、装置、耳机及计算机可读存储介质 | |
Hoffmann et al. | Bass enhancement settings in portable devices based on music genre recognition | |
Zhang et al. | BASEN: Time-domain brain-assisted speech enhancement network with convolutional cross attention in multi-talker conditions | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
Yarga et al. | Efficient spike encoding algorithms for neuromorphic speech recognition | |
CN112259123A (zh) | 一种鼓点检测方法、装置及电子设备 | |
Xu et al. | An end-to-end EEG channel selection method with residual gumbel softmax for brain-assisted speech enhancement | |
Mesgarani et al. | Denoising in the domain of spectrotemporal modulations | |
Zhang et al. | Sparsity-driven EEG channel selection for brain-assisted speech enhancement | |
KR20230059458A (ko) | 신경 신호에 기반하여 사용자 주의 집중 음성을 실시간으로 탐지하기 위한 시스템 및 방법, 이를 이용한 음성 출력 장치 | |
CN116132875B (zh) | 一种辅听耳机的多模式智能控制方法、系统及存储介质 | |
Kothapally et al. | Speech Detection and Enhancement Using Single Microphone for Distant Speech Applications in Reverberant Environments. | |
JP6567479B2 (ja) | 信号処理装置、信号処理方法およびプログラム | |
CN111009259A (zh) | 一种音频处理方法和装置 | |
Jesudhas et al. | A novel approach to build a low complexity smart sound recognition system for domestic environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180612 |
|
PA0201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20191030 |
|
PG1501 | Laying open of application | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20191227 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20191227 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20221006 Start annual number: 4 End annual number: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20230921 Start annual number: 5 End annual number: 5 |