KR101796580B1 - 음악 하이라이트 구간 추출 장치 및 방법 - Google Patents
음악 하이라이트 구간 추출 장치 및 방법 Download PDFInfo
- Publication number
- KR101796580B1 KR101796580B1 KR1020110124950A KR20110124950A KR101796580B1 KR 101796580 B1 KR101796580 B1 KR 101796580B1 KR 1020110124950 A KR1020110124950 A KR 1020110124950A KR 20110124950 A KR20110124950 A KR 20110124950A KR 101796580 B1 KR101796580 B1 KR 101796580B1
- Authority
- KR
- South Korea
- Prior art keywords
- highlight
- frame
- section
- interval
- candidate group
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 20
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/64—Browsing; Visualisation therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
- G10H2240/081—Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/438—Interfacing the downstream path of the transmission network originating from a server, e.g. retrieving encoded video stream packets from an IP network
- H04N21/4383—Accessing a communication channel
- H04N21/4384—Accessing a communication channel involving operations to reduce the access time, e.g. fast-tuning for reducing channel switching latency
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
본 발명은 본 발명은 음악 하이라이트 구간 추출 장치 및 방법에 관한 것이고, 보다 상세하게는 청취자가 원하는 음악을 신속하게 확인할 수 있을 뿐만 아니라 정보가 부족한 음악에 대해서도 자신이 선호하는 취향의 음악인지 여부를 쉽게 확인할 수 있도록 하는 음악 하이라이트 구간 추출 장치 및 방법에 관한 것이다. 이를 위해 본 발명에 따른 음악 하이라이트 구간 추출 장치는, 입력된 오디오 파일을 일정한 샘플 길이를 갖는 복수의 프레임으로 분할하기 위한 프레임 분할부; 복수의 프레임의 각 프레임 별로 각 프레임에 속하는 복수의 샘플에 대한 평균 오디오 에너지의 크기를 나타내는 신호를 산출하기 위한 평균 에너지 신호 산출부; 및 각 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 저주파 신호를 추출하고, 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하기 위한 하이라이트 구간 선택부를 포함한다.
Description
본 발명은 음악 하이라이트 구간 추출 장치 및 방법에 관한 것이고, 보다 상세하게는 청취자가 원하는 음악을 신속하게 확인할 수 있을 뿐만 아니라 정보가 부족한 음악에 대해서도 자신이 선호하는 취향의 음악인지 여부를 쉽게 확인할 수 있도록 하는 음악 하이라이트 구간 추출 장치 및 방법에 관한 것이다.
근래 디지털 음향기기의 비약적 발전에 따라 사람들이 언제 어디서나 음악을 청취할 수 있는 환경이 조성되고 있다. 음악은 민족과 시대에 따라 다양하게 나타나고 있을 뿐만 아니라, 오락, 휴식, 의식 또는 정보전달과 같은 다양한 사회적 목적으로도 활용되고 있어, 현대인들이 접할 수 있는 음악의 양은 셀 수 없을 정도로 많다. 과거와 달리 일반인들도 다양하고 풍부한 음악을 소유할 수 있고, 또한 그에 대한 접근이 용이함에 따라, 자신이 원하는 음악을 검색하거나 음악의 특정 부분을 확인하는 것은 전문적인 능력을 요구하거나 상당한 물리적 시간을 요구한다.
최근 음원 제공 서비스 사업자들은 사용자들이 좀 더 빠르게 음악적 정보를 확인할 수 있도록 다양한 음악의 메타정보들(작곡가, 가수, 장르, 템포, 발매 년도 등)을 제공하고 있고, 한국등록특허 제10-0597969호 등은 온라인에서 스트리밍되는 오디오 파일을 저장하기에 앞서 음악의 시작부터 일정시간 동안 미리 듣기를 제공함으로써 사용자가 원하는 음악만을 골라 저장할 수 있도록 하는 기술을 개시하고 있다.
그러나, 음악의 메타정보들은 청취자들에게 음악이 가진 직접적인 느낌을 전달할 수 없고, 상기 한국등록특허 제10-0597969호 등과 같이 음악 시작부터의 일정시간 미리 듣기 기능을 제공하는 것 역시 음악이 최고조로 진행될 때의 느낌을 전달할 수 없다는 문제가 있다.
또한, 일부 음원 제공 서비스 사업자는 청취자의 입장에서 음악 검색의 편의성을 높일 수 있도록 음악을 대표할 수 있는 하이라이트 구간을 추출해서 사용자에게 제공하고 있지만, 그 제공 속도가 느리거나 하이라이트 구간의 정확성이 떨어지는 단점을 가진다.
따라서 청취자가 빠르게 원하는 음악의 하이라이트 구간을 확인할 수 있으며, 확인된 하이라이트 구간에 대한 높은 만족도를 가질 수 있는 하이라이트 추출 기법의 도입이 필요하다.
본 발명의 목적은, 청취자가 원하는 음악을 빠르게 확인하거나 정보가 부족한 음악에 대한 선호 여부를 용이하게 확인할 수 있도록, 음악의 하이라이트 구간을 청취자에게 제공할 수 있는 음악 하이라이트 구간 추출 기술을 제공하고자 함에 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 입력된 오디오 파일을 분석하여 하이라이트 구간을 재생하도록 하기 위한 음악 하이라이트 구간 추출 장치는, 상기 오디오 파일을 일정한 샘플 길이를 갖는 복수의 프레임으로 분할하기 위한 프레임 분할부; 상기 복수의 프레임의 각 프레임 별로 각 프레임에 속하는 복수의 샘플에 대한 평균 오디오 에너지의 크기를 나타내는 신호를 산출하기 위한 평균 에너지 신호 산출부; 및 각 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 저주파 신호를 추출하고, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 상기 하이라이트 구간을 결정하기 위한 하이라이트 구간 선택부를 포함하는 것을 특징으로 한다.
이 때, 상기 하이라이트 구간 선택부는, 상기 저주파 신호의 극대점을 포함하는 프레임 구간을 1차 하이라이트 구간 후보군으로 선정하는 제1 하이라이트 후보군 선정부를 포함할 수 있다.
이 때, 상기 하이라이트 구간 선택부는, 상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일인지 여부를 판단함에 따라 상기 1차 하이라이트 구간 후보군으로부터 2차 하이라이트 구간 후보군을 선정하는 제2 하이라이트 후보군 선정부를 더 포함할 수 있다.
이 때, 상기 제2 하이라이트 후보군 선정부는, 상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일인 경우에는 1차 하이라이트 구간 후보군에 속하는 모든 프레임 구간을 2차 하이라이트 구간 후보군으로 선정하고, 상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일이 아닌 경우에는 1차 하이라이트 구간 후보군에 속하는 프레임 구간 중 음성 신호가 포함된 프레임 구간을 2차 하이라이트 구간 후보군으로 선정할 수 있다.
이 때, 상기 하이라이트 구간 선택부는, 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에 대하여 프레임 별 평균 오디오 에너지의 크기를 분석하고, 상기 1차 하이라이트 구간 후보군에 속하는 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에서 평균 오디오 에너지의 크기의 변화가 가장 큰 프레임 구간을 3차 하이라이트 구간 후보군으로 선정하는 제3 하이라이트 후보군 선정부를 더 포함할 수 있다.
이 때, 상기 하이라이트 구간 선택부는, 상기 2차 하이라이트 구간 후보군과 상기 3차 하이라이트 구간 후보군을 비교할 때, 상기 2차 하이라이트 구간 후보군이 존재하지 않는 경우에는 상기 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 첫 번째 프레임 구간을 최종 하이라이트 구간으로 결정하는 하이라이트 구간 결정부를 더 포함할 수 있다.
이 때, 상기 하이라이트 구간 결정부는, 상기 2차 하이라이트 구간 후보군과 상기 3차 하이라이트 구간 후보군을 비교하여, 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간을 최종 하이라이트 구간으로 결정할 수 있다.
이 때, 상기 하이라이트 구간 결정부는, 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 작은 순서대로 상기 3차 하이라이트 구간 후보군을 정렬하고, 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 가장 작은 프레임 구간을 최종 하이라이트 구간으로 결정할 수 있다.
이 때, 본 발명에 따른 음악 하이라이트 구간 추출 장치는, 상기 하이라이트 구간 선택부에 의해 결정된 하이라이트 구간의 첫번째 프레임의 위치와 각 프레임이 갖는 샘플 길이를 이용하여 상기 입력된 오디오 파일에서 상기 하이라이트 구간의 시작점을 탐색하는 시작점 탐색부를 더 포함할 수 있다.
또한, 상기한 목적을 달성하기 위한 본 발명에 따른 입력된 오디오 파일을 분석하여 하이라이트 구간을 재생하도록 하기 위한 음악 하이라이트 구간 추출 방법은, 프레임 분할부에 의해 상기 오디오 파일을 일정한 샘플 길이를 갖는 복수의 프레임으로 분할하는 단계; 평균 에너지 신호 산출부에 의해 상기 복수의 프레임의 각 프레임 별로 각 프레임에 속하는 복수의 샘플에 대한 평균 오디오 에너지의 크기를 나타내는 신호를 산출하는 단계; 및 하이라이트 결정부에 의해 각 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 저주파 신호를 추출하고, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 상기 하이라이트 구간을 결정하는 단계를 포함하는 것을 특징으로 한다.
이 때, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는, 상기 저주파 신호의 극대점을 포함하는 프레임 구간을 1차 하이라이트 구간 후보군으로 선정하는 단계를 포함할 수 있다.
이 때, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는, 상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일인지 여부를 판단함에 따라 상기 1차 하이라이트 구간 후보군으로부터 2차 하이라이트 구간 후보군을 선정하는 단계를 더 포함할 수 있다.
이 때, 상기 2차 하이라이트 구간 후보군을 선정하는 단계는, 상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일인 경우에는 1차 하이라이트 구간 후보군에 속하는 모든 프레임 구간을 2차 하이라이트 구간 후보군으로 선정하고, 상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일이 아닌 경우에는 1차 하이라이트 구간 후보군에 속하는 프레임 구간 중 음성 신호가 포함된 프레임 구간을 2차 하이라이트 구간 후보군으로 선정할 수 있다.
이 때, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는, 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에 대하여 프레임 별 평균 오디오 에너지의 크기를 분석하는 단계; 및 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에서 평균 오디오 에너지의 크기의 변화가 가장 큰 프레임 구간을 3차 하이라이트 구간 후보군으로 선정하는 단계를 더 포함할 수 있다.
이 때, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는, 상기 2차 하이라이트 구간 후보군과 상기 3차 하이라이트 구간 후보군을 비교하는 단계; 및 상기 2차 하이라이트 구간 후보군이 존재하지 않는 경우에는 상기 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 첫 번째 프레임 구간을 최종 하이라이트 구간으로 결정하는 단계를 더 포함할 수 있다.
이 때, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는, 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간을 최종 하이라이트 구간으로 결정하는 단계를 더 포함할 수 있다.
이 때, 상기 최종 하이라이트 구간으로 결정하는 단계는, 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 작은 순서대로 상기 3차 하이라이트 구간 후보군을 정렬하는 단계; 및 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 가장 작은 프레임 구간을 최종 하이라이트 구간으로 결정하는 단계를 포함할 수 있다.
이 때, 본 발명에 따른 음악 하이라이트 구간 추출 방법은, 상기 하이라이트 구간의 첫번째 프레임의 위치와 각 프레임이 갖는 샘플 길이를 이용하여 상기 입력된 오디오 파일에서 상기 하이라이트 구간의 시작점을 탐색하는 단계를 더 포함할 수 있다.
본 발명에 따르면, 음악 청취자들이 보유하고 있거나 이용할 수 있는 방대한 분량의 음악 데이터 베이스에서 청취 경험이 있거나 선호하는 취향의 음악을 찾고자 할 때, 음악에 대한 대표적인 하이라이트 구간을 제공함으로써 해당 음악을 용이하게 확인할 수 있도록 하는 효과가 있다.
또한, 본 발명에 따르면 오디오 파일에 대한 간단한 분석으로 음악에 대한 하이라이트 구간을 탐색할 수 있으므로, 실시간으로 하이라이트 구간을 재생하여야 하는 서비스 또는 모바일 단말과 같은 처리능력이 상대적으로 작은 기기에서도 활용될 수 있는 음악 하이라이트 구간 추출 기술을 제공할 수 있다.
도 1은 본 발명에 따른 음악 하이라이트 구간 추출 장치의 구성을 개략적으로 나타내는 블록도이다.
도 2는 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호를 예시적으로 나타내는 도면이다.
도 3은 본 발명에 따른 음악 하이라이트 구간 추출 장치에서 하이라이트 구간 선택부의 구성을 개략적으로 나타내는 블록도이다.
도 4는 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 분리된 저주파 신호를 예시적으로 나타내는 도면이다.
도 5 내지 도 8은 본 발명에 따른 음악 하이라이트 구간 추출 방법을 설명하기 위한 흐름도이다.
도 2는 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호를 예시적으로 나타내는 도면이다.
도 3은 본 발명에 따른 음악 하이라이트 구간 추출 장치에서 하이라이트 구간 선택부의 구성을 개략적으로 나타내는 블록도이다.
도 4는 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 분리된 저주파 신호를 예시적으로 나타내는 도면이다.
도 5 내지 도 8은 본 발명에 따른 음악 하이라이트 구간 추출 방법을 설명하기 위한 흐름도이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하에서는 본 발명에 따른 음악 하이라이트 구간 추출 장치의 구성 및 그 동작에 대하여 설명하도록 한다.
도 1은 본 발명에 따른 음악 하이라이트 구간 추출 장치의 구성을 개략적으로 나타내는 블록도이다.
도 1을 참조하면, 본 발명에 따른 음악 하이라이트 구간 추출 장치(100)는, 외부로부터 오디오 파일을 입력으로 받아, 오디오 파일로부터 하이라이트 구간에 해당하는 프레임 구간을 선택하고, 해당 프레임 구간의 첫번째 프레임의 위치 정보를 탐색하여 출력함으로써, 하이라이트 구간에 대한 재생이 가능하도록 한다.
여기서, 본 발명에 따른 음악 하이라이트 구간 추출 장치(100)는, 프레임 분할부(120), 평균 에너지 신호 산출부(140), 하이라이트 구간 선택부(160) 및 시작점 탐색부(180)를 포함한다.
먼저, 프레임 분할부(120)는 외부로부터 입력된 오디오 파일을 일정한 샘플 길이(샘플의 수)를 갖는 복수의 프레임으로 분할한다. 예를 들어, 재생 시간이 3분(180초) 분량이고, 초당 44.1kHz의 샘플링 레이트(sampling rate)를 갖는 오디오 파일에 대하여 프레임 당 샘플 길이(L)가 1,000인 복수의 프레임으로 분할하는 경우, 상기 오디오 파일은 총 7,938,000개의 샘플들을 포함하게 되므로, 7,938개의 프레임으로 분할될 수 있다. 이렇게 분할된 각 프레임은 대략 0.023초 정도의 재생 시간을 갖는다. 상기 예시한 프레임 당 샘플 길이(L)는 하나의 예시일 뿐 이에 국한되는 것은 아니다. 입력된 오디오 파일을 복수의 프레임으로 분할하기 위한 프레임 당 샘플 길이(L)를 작게 하면, 이후 보다 세밀한 하이라이트 구간의 선택이 가능하지만, 하이라이트 구간을 선택하기 위해 각 프레임들을 처리하는 시간이 길어지게 된다. 따라서, 상기 예시한 프레임 당 샘플 길이(L)는 본 발명에 따른 음악 하이라이트 구간 추출 장치가 적용되는 시스템의 성능에 따라 조정이 가능하다.
평균 에너지 신호 산출부(140)는 상기 프레임 분할부(120)에 의해 분할된 복수의 프레임에 대해, 각 프레임에 속하는 복수의 샘플들에 대한 오디오 에너지 크기의 평균값을 계산함으로써, 각 프레임 별 평균 오디오 에너지 크기의 신호를 산출한다. 이때, 프레임 분할부(120)에 의해 분할된 복수의 프레임은 각각 L개의 샘플을 포함하고 있는데, 각 프레임에 대하여 L개의 샘플 각각에 대한 절대값을 구하고 L개의 샘플에 대한 평균값을 취하여 각 프레임의 평균 오디오 에너지의 크기를 계산할 수 있다. 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호는 예시적으로 도 2에 도시된 바와 같이 나타날 수 있다.
하이라이트 구간 선택부(160)는 상기 평균 에너지 신호 산출부(140)에 의해 산출된 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 저주파 신호를 분리하고, 분리된 저주파 신호에서 극대점을 포함하는 프레임 구간을 선별하는 것에 기초하여 하이라이트 구간을 결정한다.
시작점 탐색부(180)는 상기 하이라이트 구간 선택부(160)에 의해 결정된 하이라이트 구간의 첫번째 프레임의 위치와 각 프레임이 갖는 샘플 길이(L)를 이용하여 오디오 파일에서 하이라이트 구간의 시작점을 탐색함으로써, 하이라이트 구간에 대한 재생이 가능하도록 한다.
도 3은 본 발명에 따른 음악 하이라이트 구간 추출 장치에서 하이라이트 구간 선택부(160)의 구성을 개략적으로 나타내는 블록도이다.
도 3을 참조하면, 하이라이트 구간 선택부(160)는, 제1 하이라이트 후보군 선정부(162), 제2 하이라이트 후보군 선정부(164), 제3 하이라이트 후보군 선정부(166) 및 하이라이트 구간 결정부(168)를 포함한다.
제1 하이라이트 후보군 선정부(162)는 평균 에너지 신호 산출부(140)에 의해 산출된 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 저주파 신호를 분리하고, 분리된 저주파 신호로부터 1차 하이라이트 구간 후보군을 선정한다. 평균 에너지 신호 산출부(140)에 의해 산출된 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호는 예시적으로 도 2에 도시된 바와 같이 나타나지만, 그로부터 하이라이트 구간을 직접적으로 선택하기에는 포함된 정보의 양이 여전히 많이 존재한다. 따라서, 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호에서 하이라이트 구간을 선택하는데 이용될 수 있는 일정한 주파수 신호를 얻기 위해, 전체 신호에서 많은 정보를 담고 있는 저주파 신호를 분리한다. 도 2에 예시적으로 도시된 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 분리된 저주파 신호는 도 4에 도시된 바와 같이 나타날 수 있다. 도 4에서 저주파 신호가 두드러지게 나타나는 극대점을 갖는 프레임이 포함된 구간이 1차 하이라이트 구간 후보군으로 선정된다. 여기서, 1차 하이라이트 구간 후보군으로 선정되는 프레임 구간들은 각각 하나의 프레임으로 구성될 수 있으나, 본 발명에 따른 음악 하이라이트 구간 추출 장치가 적용되는 시스템이 제공하는 하이라이트 총 재생 시간의 길이를 고려한다면 복수의 프레임으로 구성되는 것이 바람직하다. 이때, 1차 하이라이트 구간 후보군으로 선정되는 프레임 구간들이 각각 복수의 프레임으로 구성되는 경우, 저주파 신호에서 극대점을 갖는 프레임을 중심으로 하는 복수의 프레임 그룹을 1차 하이라이트 구간 후보군으로 선정되는 프레임 구간으로 선택할 수 있다.
제2 하이라이트 후보군 선정부(164)는 프레임 분할부(120)로 입력되는 오디오 파일이 연주곡에 대한 오디오 파일인지 여부를 판단함에 따라, 상기 제1 하이라이트 후보군 선정부(162)에 의해 선정된 1차 하이라이트 구간 후보군으로부터 2차 하이라이트 구간 후보군을 선정한다.
음성과 악기의 음들이 공존하는 대중가요와 같은 음악의 경우에는 해당 음악을 대표하는 하이라이트 구간은 음성이 포함된 부분일 경우가 대다수일 것이나, 연주곡 또는 특수한 음악(허밍이 포함된 연주곡과 같은 특수한 형태의 음성과 악기의 음이 공존하는 음악)의 경우에는 악기의 연주 부분이 해당 음악을 대표하는 하이라이트 구간이 될 수 있다. 따라서, 본 발명에서는 입력된 오디오 파일의 음악이 음성과 악기가 공존하는 일반적인 대중가요와 같은 음악인 것인지, 아니면 악기 음 위주의 연주곡(허밍과 악기의 음만으로 구성된 음악 포함)인지 여부를 판단하는 과정이 선행된다. 이때, 상기와 같은 입력된 오디오 파일의 음악에 대한 판단은, 오디오 파일의 태그에 포함된 음악 장르 정보를 추출함에 따라 수행되거나, 또는 외부 데이터베이스로부터 음악 장르 정보를 전송 받음에 따라 수행될 수 있다. 이러한 판단의 결과에 따라, 입력된 오디오 파일의 음악이 음성과 악기가 공존하는 일반적인 대중가요와 같은 일반적인 음악에 해당하는 경우에는 저주파 신호의 분리를 통해 선택된 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 신호가 음성신호인지 악기 음 신호인지를 구분하여, 음성신호일 경우에는 해당 프레임 구간을 2차 하이라이트 구간 후보군으로 선정하고, 악기 음 신호일 경우에는 2차 하이라이트 구간 후보군으로 선정하지 아니한다. 이 때, 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 신호가 모두 악기 음 신호일 경우에는 2차 하이라이트 후보군이 존재하지 않을 수 있다. 반면, 연주곡(허밍과 악기의 음만으로 구성된 음악 포함)일 경우에는 1차 하이라이트 구간 후보군에 속하는 모든 프레임 구간이 음성신호를 포함하지 아니하므로, 1차 하이라이트 구간 후보군을 모두 2차 후보군으로 선정한다.
즉, 제2 하이라이트 후보군 선정부(164)는 입력된 오디오 파일이 연주곡(허밍과 악기의 음만으로 구성된 음악 포함)에 대한 오디오 파일에 해당하는지 아니면 음성이 포함된 가요 형식의 음악에 대한 오디오 파일에 해당하는지 여부를 우선적으로 판단하고, 그에 따라 입력된 오디오 파일이 연주곡에 대한 오디오 파일에 해당하는 경우에는 제1 하이라이트 후보군 선정부(162)에 의해 선정된 1차 하이라이트 구간 후보군에 속하는 모든 프레인 구간을 2차 하이라이트 구간 후보군으로 선정하고, 연주곡에 대한 오디오 파일에 해당하지 않는 경우에는 1차 하이라이트 구간 후보군 중 음성 신호가 포함된 프레임 구간을 2차 하이라이트 구간 후보군으로 선정한다.
제3 하이라이트 후보군 선정부(166)는 상기 제1 하이라이트 후보군 선정부(162)에 의해 선정된 1차 하이라이트 후보군으로 선정된 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간의 프레임 별 평균 오디오 에너지의 크기를 분석하고, 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에서 평균 오디오 에너지의 크기의 변화가 가장 큰 프레임 구간을 3차 하이라이트 구간 후보군으로 선정한다.
음악의 하이라이트 구간은 청취자가 인식할 수 있을 정도의 특정시간 동안 지속되기 때문에, 1차 하이라이트 후보군으로 선정된 프레임 구간의 첫 번째 프레임의 시작점 전후 n초의 구간에 대하여 프레임 별 평균 오디오 에너지의 크기를 분석하여 3차 하이라이트 후보군을 선정한다. 예를 들어, 1차 하이라이트 후보군으로 선정된 프레임 구간의 첫 번째 프레임의 시작점이 5초이고 n=2라고 가정하면, 5초로부터 전후 2초인 3초 내지 7초 구간에 대하여 프레임 별 평균 오디오 에너지의 크기를 분석하여 3차 하이라이트 후보군을 선정한다. 3차 하이라이트 후보군으로 선정되는 프레임 구간은 평균 오디오 에너지의 크기가 가장 크게 변하는 지점이다. n초가 k개의 프레임으로 구성된다고 가정할 때, 평균 오디오 에너지의 크기를 분석할 2n초는 1, 2, 3, … , 2k-2, 2k-1, 2k 프레임으로 표시할 수 있다. 이 때, 1~k, 2~k+1, … , k~2k-1, k+1~2k의 n초 구간들을 대상으로 연속된 두 n초 구간 평균 오디오 에너지 차의 절대값이 가장 큰 지점이 3차 하이라이트 후보군으로 결정된다. 1차 하이라이트 후보군으로 선정된 프레임 구간의 주변 구간의 분석을 위한 상기 n초의 선택은 본 발명에 따른 음악 하이라이트 구간 추출 장치가 적용되는 시스템이 제공하는 하이라이트 총 재생 시간(N초)의 길이에 의해서 결정되며(0 < n < N), 특히 n초는 하이라이트 총 재생 시간의 절반(N/2초)으로 선택되는 것이 바람직하다. 이때, n의 값이 커질수록 청취자가 하이라이트 구간을 청취할 때 보다 유연한 느낌의 하이라이트 구간이 선택될 수 있으나, 3차 하이라이트 후보군의 선정을 위한 주변 구간의 프레임 별 평균 오디오 에너지의 크기에 대한 분석 시간은 길어지게 된다.
1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에서, 평균 오디오 에너지의 크기가 가장 크게 변하는 프레임 구간으로부터 선택된 3차 하이라이트 후보군에 속하는 프레임 구간은, 1차 하이라이트 구간 후보군에 속하는 프레임 구간과 일치하거나, 또는 1차 하이라이트 구간 후보군에 속하는 프레임 구간과 소정의 프레임 간격으로 위치할 수 있다. 여기서, 3차 하이라이트 후보군에 속하는 프레임 구간이 1차 하이라이트 구간 후보군에 속하는 프레임 구간과 소정의 프레임 간격으로 위치하는 경우, 상호 간의 프레임 간격은 평균 오디오 에너지 크기의 변화 상태에 따라 달라질 수 있음은 당연하다.
하이라이트 구간 결정부(168)는 상기 제2 하이라이트 후보군 선정부(164)에 의해 선정된 2차 하이라이트 구간 후보군과 상기 제3 하이라이트 후보군 선정부(166)에 의해 선정된 3차 하이라이트 구간 후보군을 비교하여, 상기 2차 하이라이트 구간 후보군에 대응하는 3차 하이라이트 구간 후보가 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 대응하는 3차 하이라이트 구간 후보를 최종 하이라이트 구간으로 결정하고, 상기 2차 하이라이트 구간 후보군이 존재하지 않는 경우에는 상기 3차 하이라이트 구간 후보군 중 첫 번째로 위치하는 프레임 구간을 최종 하이라이트 구간으로 결정한다.
여기서, 앞서 살펴본 바와 같이 3차 하이라이트 구간 후보군에 속하는 프레임 구간은 1차 하이라이트 구간 후보군에 속하는 프레임 구간과 일치하거나 1차 하이라이트 구간 후보군에 속하는 프레임 구간과 특정한 프레임 간격으로 위치될 수 있는데, 하이라이트 구간 결정부(168)는 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 작은 순서대로 3차 하이라이트 구간 후보군에 속하는 프레임 구간을 정렬한다. 그리고, 2차 하이라이트 구간 후보군에 속하는 프레임 구간과 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는지 여부를 판단하여, 2차 하이라이트 구간 후보군에 속하는 프레임 구간과 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재한다면, 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 가장 작은 3차 하이라이트 구간 후보군에 속하는 프레임 구간을 최종 하이라이트 구간으로 결정한다. 이때, 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 2차 하이라이트 구간 후보군에 속하는 프레임 구간과 대응하는지 여부에 대한 판단은, 3차 하이라이트 후보가 2차 하이라이트 후보에서 전후 n초 구간 사이에 있는지의 여부에 따라 판단될 수 있다. 즉, 3차 하이라이트 구간 후보군에 속하는 프레임 구간을 1차 하이라이트 구간 후보군에 속하는 프레임 구간과의 프레임 간격이 작은 순서대로 2차 하이라이트 구간 후보군에 속하는 프레임 구간과 대조하여 가장 먼저 대응되는 프레임 구간이 나타날 경우, 가장 먼저 대응되는 해당 프레임 구간을 최종 하이라이트 구간으로 결정한다.
상기와 같이 하이라이트 구간 결정부(168)에 의해 최종 하이라이트 구간이 결정되면, 시작점 탐색부(180)는 최종 하이라이트 구간의 첫 번째 프레임의 위치와 프레임 당 샘플 길이(L)를 이용함으로써, 입력된 오디오 파일에 해당하는 음악에서 하이라이트 구간이 시작되는 시간을 결정할 수 있게 된다. 예를 들어, 44.1kHz의 샘플링 레이트를 가진 음악이 있고, 최종 하이라이트 구간으로 결정된 프레임 구간의 첫번째 프레임의 위치가 2454번 프레임이며, 프레임 당 샘플 길이(L)가 1000이라고 할 경우, 해당 음악은 55.6(≒454×1000/44.1k)초부터 하이라이트 구간으로써 재생될 수 있다.
이하에서는 본 발명에 따른 음악 하이라이트 구간 추출 방법에 대하여 설명하도록 한다.
도 5는 본 발명에 따른 음악 하이라이트 구간 추출 방법을 설명하기 위한 흐름도이다.
도 5를 참조하면, 본 발명에 따른 음악 하이라이트 구간 추출 방법은, 먼저 프레임 분할부(120)가 오디오 파일을 입력받고(S100), 입력받은 오디오 파일을 일정한 샘플 길이(L)를 갖는 복수의 프레임으로 분할한다(S110).
그 다음으로, 평균 에너지 신호 산출부(140)는 프레임 분할부(120)에 의해 분할된 복수의 프레임에 대하여 각 프레임 별로 각 프레임에 속하는 복수의 샘플들에 대한 오디오 에너지 크기의 평균값을 계산함으로써 프레임 별 평균 오디오 에너지 크기의 신호를 산출한다(S120).
그리고, 제1 하이라이트 후보군 선정부(162)는 평균 에너지 신호 산출부(140)에 의해 산출된 프레임 별 평균 오디오 에너지 크기의 신호에서 저주파 신호를 추출하고(S130), 추출된 저주파 신호에서 극대점을 갖는 프레임이 포함된 프레임 구간을 1차 하이라이트 구간 후보군으로 선정한다(S140).
그 다음으로, 제2 하이라이트 후보군 선정부(164)는 프레임 분할부(120)에 입력되는 오디오 파일이 연주곡에 대한 오디오 파일인지 여부를 판단함에 따라 제1 하이라이트 후보군 선정부(162)에 의해 선정된 1차 하이라이트 구간 후보군으로부터 2차 하이라이트 구간 후보군을 선정한다(S150).
그리고, 제3 하이라이트 후보군 선정부(166)는 제1 하이라이트 후보군 선정부(162)에 의해 선정된 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에 대하여 프레임 별 평균 오디오 에너지의 크기를 분석함에 따라 3차 하이라이트 구간 후보군을 선정한다(S160).
그 다음으로, 하이라이트 구간 결정부(168)는 제2 하이라이트 후보군 선정부(164)에 의해 선정된 2차 하이라이트 후보군에 속하는 프레임 구간과 제3 하이라이트 후보군 선정부(166)에 의해 선정된 3차 하이라이트 후보군에 속하는 프레임 구간을 비교하여 최종 하이라이트 구간을 결정한다(S170).
그리고, 시작점 탐색부(180)는 하이라이트 구간 결정부(168)에 의해 결정된 최종 하이라이트 구간의 첫 번째 프레임의 위치와 프레임 당 샘플 길이(L)를 이용하여 프레임 분할부(120)로 입력되는 오디오 파일에서 하이라이트 구간의 시작점을 탐색하고(S180), 상기 S180 단계에 의해 오디오 파일에 해당하는 음악에서 하이라이트 구간이 시작되는 시간을 결정함으로써 하이라이트 구간을 재생한다(S190).
도 6은 본 발명에 따른 음악 하이라이트 구간 추출 방법에서 S150 단계를 설명하기 위한 흐름도이다.
도 6을 참조하면, 제2 하이라이트 후보군 선정부(164)는 먼저 프레임 분할부(120)로 입력되는 오디오 파일이 연주곡(허밍과 악기의 음만으로 구성된 음악 포함)에 대한 오디오 파일에 해당하는지 여부를 판단한다(S152).
상기 S152 단계에서의 판단 결과, 프레임 분할부(120)로 입력되는 오디오 파일이 연주곡(허밍과 악기의 음만으로 구성된 음악 포함)이 아닌 음성과 악기가 공존하는 일반적인 대중가요 형식의 음악에 대한 오디오 파일에 해당한다면, 제1 하이라이트 후보군 선정부(162)에 의해 선정된 1차 하이라이트 구간 후보군 중 음성 신호가 포함된 프레임 구간을 2차 하이라이트 구간 후보군으로 선정한다(S154).
반면, 상기 S152 단계에서의 판단 결과, 프레임 분할부(120)로 입력되는 오디오 파일이 연주곡(허밍과 악기의 음만으로 구성된 음악 포함)에 대한 오디오 파일에 해당한다면, 제1 하이라이트 후보군 선정부(162)에 의해 선정된 1차 하이라이트 구간 후보군에 속하는 모든 프레임 구간을 2차 하이라이트 구간 후보군으로 선정한다(S154).
도 7은 본 발명에 따른 음악 하이라이트 구간 추출 방법에서 S160 단계를 설명하기 위한 흐름도이다.
도 7을 참조하면, 제3 하이라이트 후보군 선정부(166)는 먼저 제1 하이라이트 후보군 선정부(162)에 의해 선정된 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 n초 구간에서의 프레임 별 평균 오디오 에너지의 크기를 탐색한다(S162).
그 다음으로, 제3 하이라이트 후보군 선정부(166)는 1차 하이라이트 구간 후보군에 속하는 프레임 구간과 주변 n초 구간에서 평균 오디오 에너지의 크기의 변화가 가장 큰 프레임 구간을 3차 하이라이트 구간 후보군으로 선정한다(S164).
도 8은 본 발명에 따른 음악 하이라이트 구간 추출 방법에서 S170 단계를 설명하기 위한 흐름도이다.
도 8을 참조하면, 하이라이트 구간 결정부(168)는 먼저 1차 하이라이트 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 작은 순서대로 3차 하이라이트 후보군에 속하는 프레임 구간들을 정렬한다(S172).
그 다음으로, 하이라이트 구간 결정부(168)는 2차 하이라이트 후보군에 속하는 프레임 구간과 3차 하이라이트 후보군에 속하는 프레임 구간을 대조하여(S174), 3차 하이라이트 후보군에 속하는 프레임 구간 중 2차 하이라이트 후보군에 속하는 프레임 구간에 대응되는 프레임 구간이 존재하는지 여부를 판단한다(S176).
상기 S176 단계에서의 판단 결과, 2차 하이라이트 후보군에 속하는 프레임 구간에 대응되는 3차 하이라이트 후보군에 속하는 프레임 구간이 존재한다면, 1차 하이라이트 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 가장 작은 3차 하이라이트 후보군에 속하는 프레임 구간을 최종 하이라이트 구간으로 결정한다(S178).
반면, 상기 S176 단계에서의 판단 결과, 2차 하이라이트 후보군이 존재하지 않는다면, 3차 하이라이트 후보군에 속하는 프레임 구간 중 첫 번째 프레임 구간을 최종 하이라이트 구간으로 결정한다(S179).
이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
100: 음악 하이라이트 구간 추출 장치
120: 프레임 분할부
140: 평균 에너지 신호 산출부
160: 하이라이트 구간 선택부
162: 제1 하이라이트 후보군 선정부
164: 제2 하이라이트 후보군 선정부
166: 제3 하이라이트 후보군 선정부
168: 하이라이트 구간 결정부
180: 시작점 탐색부
120: 프레임 분할부
140: 평균 에너지 신호 산출부
160: 하이라이트 구간 선택부
162: 제1 하이라이트 후보군 선정부
164: 제2 하이라이트 후보군 선정부
166: 제3 하이라이트 후보군 선정부
168: 하이라이트 구간 결정부
180: 시작점 탐색부
Claims (18)
- 입력된 오디오 파일을 분석하여 하이라이트 구간을 재생하도록 하기 위한 음악 하이라이트 구간 추출 장치로서,
상기 오디오 파일을 일정한 샘플 길이를 갖는 복수의 프레임으로 분할하기 위한 프레임 분할부;
상기 복수의 프레임의 각 프레임 별로 각 프레임에 속하는 복수의 샘플에 대한 평균 오디오 에너지의 크기를 나타내는 신호를 산출하기 위한 평균 에너지 신호 산출부; 및
각 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 저주파 신호를 추출하고, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 상기 하이라이트 구간을 결정하기 위한 하이라이트 구간 선택부를 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 청구항 1에 있어서,
상기 하이라이트 구간 선택부는,
상기 저주파 신호의 극대점을 포함하는 프레임 구간을 1차 하이라이트 구간 후보군으로 선정하는 제1 하이라이트 후보군 선정부를 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 청구항 2에 있어서,
상기 하이라이트 구간 선택부는,
상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일인지 여부를 판단함에 따라, 상기 1차 하이라이트 구간 후보군으로부터 2차 하이라이트 구간 후보군을 선정하는 제2 하이라이트 후보군 선정부를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 청구항 3에 있어서,
상기 제2 하이라이트 후보군 선정부는,
상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일인 경우에는 1차 하이라이트 구간 후보군에 속하는 모든 프레임 구간을 2차 하이라이트 구간 후보군으로 선정하고, 상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일이 아닌 경우에는 1차 하이라이트 구간 후보군에 속하는 프레임 구간 중 음성 신호가 포함된 프레임 구간을 2차 하이라이트 구간 후보군으로 선정하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 청구항 4에 있어서,
상기 하이라이트 구간 선택부는,
상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에 대하여 프레임 별 평균 오디오 에너지의 크기를 분석하고, 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에서 평균 오디오 에너지의 크기의 변화가 가장 큰 프레임 구간을 3차 하이라이트 구간 후보군으로 선정하는 제3 하이라이트 후보군 선정부를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 청구항 5에 있어서,
상기 하이라이트 구간 선택부는,
상기 2차 하이라이트 구간 후보군과 상기 3차 하이라이트 구간 후보군을 비교할 때, 상기 2차 하이라이트 구간 후보군이 존재하지 않는 경우에는 상기 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 첫 번째 프레임 구간을 최종 하이라이트 구간으로 결정하는 하이라이트 구간 결정부를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 청구항 5에 있어서,
상기 하이라이트 구간 선택부는,
상기 2차 하이라이트 구간 후보군과 상기 3차 하이라이트 구간 후보군을 비교하여, 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간을 최종 하이라이트 구간으로 결정하는 하이라이트 구간 결정부를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 청구항 7에 있어서,
상기 하이라이트 구간 결정부는,
상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 작은 순서대로 상기 3차 하이라이트 구간 후보군을 정렬하고, 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 가장 작은 프레임 구간을 최종 하이라이트 구간으로 결정하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 청구항 1에 있어서,
상기 하이라이트 구간 선택부에 의해 결정된 하이라이트 구간의 첫번째 프레임의 위치와 각 프레임이 갖는 샘플 길이를 이용하여 상기 입력된 오디오 파일에서 상기 하이라이트 구간의 시작점을 탐색하는 시작점 탐색부를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 장치. - 입력된 오디오 파일을 분석하여 하이라이트 구간을 재생하도록 하기 위한 음악 하이라이트 구간 추출 방법으로서,
프레임 분할부에 의해 상기 오디오 파일을 일정한 샘플 길이를 갖는 복수의 프레임으로 분할하는 단계;
평균 에너지 신호 산출부에 의해 상기 복수의 프레임의 각 프레임 별로 각 프레임에 속하는 복수의 샘플에 대한 평균 오디오 에너지의 크기를 나타내는 신호를 산출하는 단계; 및
하이라이트 결정부에 의해 각 프레임 별 평균 오디오 에너지의 크기를 나타내는 신호로부터 저주파 신호를 추출하고, 상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 상기 하이라이트 구간을 결정하는 단계를 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법. - 청구항 10에 있어서,
상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는,
상기 저주파 신호의 극대점을 포함하는 프레임 구간을 1차 하이라이트 구간 후보군으로 선정하는 단계를 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법. - 청구항 11에 있어서,
상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는,
상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일인지 여부를 판단함에 따라 상기 1차 하이라이트 구간 후보군으로부터 2차 하이라이트 구간 후보군을 선정하는 단계를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법. - 청구항 12에 있어서,
상기 2차 하이라이트 구간 후보군을 선정하는 단계는,
상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일인 경우에는 1차 하이라이트 구간 후보군에 속하는 모든 프레임 구간을 2차 하이라이트 구간 후보군으로 선정하고,
상기 입력된 오디오 파일이 연주곡에 대한 오디오 파일이 아닌 경우에는 1차 하이라이트 구간 후보군에 속하는 프레임 구간 중 음성 신호가 포함된 프레임 구간을 2차 하이라이트 구간 후보군으로 선정하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법. - 청구항 13에 있어서,
상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는,
상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에 대하여 프레임 별 평균 오디오 에너지의 크기를 분석하는 단계; 및
상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간의 첫 번째 프레임에 대한 시작점의 주변 프레임 구간에서 평균 오디오 에너지의 크기의 변화가 가장 큰 프레임 구간을 3차 하이라이트 구간 후보군으로 선정하는 단계를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법. - 청구항 14에 있어서,
상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는,
상기 2차 하이라이트 구간 후보군과 상기 3차 하이라이트 구간 후보군을 비교하는 단계; 및
상기 2차 하이라이트 구간 후보군이 존재하지 않는 경우에는 상기 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 첫 번째 프레임 구간을 최종 하이라이트 구간으로 결정하는 단계를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법. - 청구항 14에 있어서,
상기 저주파 신호의 극대점을 포함하는 프레임 구간으로부터 하이라이트 구간을 결정하는 단계는,
상기 2차 하이라이트 구간 후보군과 상기 3차 하이라이트 구간 후보군을 비교하는 단계; 및
상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간을 최종 하이라이트 구간으로 결정하는 단계를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법. - 청구항 16에 있어서,
상기 최종 하이라이트 구간으로 결정하는 단계는,
상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 작은 순서대로 상기 3차 하이라이트 구간 후보군을 정렬하는 단계; 및
상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간이 존재하는 경우에는 상기 2차 하이라이트 구간 후보군에 속하는 프레임 구간에 대응하는 3차 하이라이트 구간 후보군에 속하는 프레임 구간 중 상기 1차 하이라이트 구간 후보군에 속하는 프레임 구간으로부터 프레임 간 거리가 가장 작은 프레임 구간을 최종 하이라이트 구간으로 결정하는 단계를 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법. - 청구항 10에 있어서,
상기 하이라이트 구간의 첫번째 프레임의 위치와 각 프레임이 갖는 샘플 길이를 이용하여 상기 입력된 오디오 파일에서 상기 하이라이트 구간의 시작점을 탐색하는 단계를 더 포함하는 것을 특징으로 하는, 음악 하이라이트 구간 추출 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110124950A KR101796580B1 (ko) | 2011-11-28 | 2011-11-28 | 음악 하이라이트 구간 추출 장치 및 방법 |
US13/685,632 US9262521B2 (en) | 2011-11-28 | 2012-11-26 | Apparatus and method for extracting highlight section of music |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110124950A KR101796580B1 (ko) | 2011-11-28 | 2011-11-28 | 음악 하이라이트 구간 추출 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130058939A KR20130058939A (ko) | 2013-06-05 |
KR101796580B1 true KR101796580B1 (ko) | 2017-11-14 |
Family
ID=48467550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110124950A KR101796580B1 (ko) | 2011-11-28 | 2011-11-28 | 음악 하이라이트 구간 추출 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9262521B2 (ko) |
KR (1) | KR101796580B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020111567A1 (en) * | 2018-11-27 | 2020-06-04 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091591B (zh) * | 2013-10-15 | 2016-01-27 | 腾讯科技(深圳)有限公司 | 一种音频处理方法及装置 |
CN104091595B (zh) * | 2013-10-15 | 2017-02-15 | 广州酷狗计算机科技有限公司 | 一种音频处理方法及装置 |
WO2016032019A1 (ko) * | 2014-08-27 | 2016-03-03 | 삼성전자주식회사 | 음원의 하이라이트 구간을 추출하는 전자 장치 및 방법 |
CN105632503B (zh) * | 2014-10-28 | 2019-09-03 | 南宁富桂精密工业有限公司 | 信息隐藏方法及系统 |
CN104464754A (zh) * | 2014-12-11 | 2015-03-25 | 北京中细软移动互联科技有限公司 | 声音商标检索方法 |
US10349196B2 (en) | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
KR102431737B1 (ko) | 2017-02-28 | 2022-08-11 | 삼성전자주식회사 | 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치 |
KR101891778B1 (ko) * | 2017-04-07 | 2018-08-24 | 네이버 주식회사 | 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램 |
CN110121115B (zh) * | 2018-02-06 | 2023-02-10 | 阿里巴巴(中国)有限公司 | 精彩视频片段的确定方法及装置 |
CN113192531B (zh) * | 2021-05-28 | 2024-04-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 检测音频是否是纯音乐音频方法、终端及存储介质 |
CN113408461B (zh) * | 2021-06-30 | 2022-07-01 | 深圳万兴软件有限公司 | 一种精彩片段提取方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030112265A1 (en) | 2001-12-14 | 2003-06-19 | Tong Zhang | Indexing video by detecting speech and music in audio |
US20050016360A1 (en) | 2003-07-24 | 2005-01-27 | Tong Zhang | System and method for automatic classification of music |
US20080292273A1 (en) | 2007-05-24 | 2008-11-27 | Bei Wang | Uniform Program Indexing Method with Simple and Robust Audio Feature and Related Enhancing Methods |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
KR100597969B1 (ko) | 2003-08-04 | 2006-07-14 | (주)오픈브레인테크 | 주문형 오디오 재생장치 |
KR20070043113A (ko) | 2005-10-20 | 2007-04-25 | 엘지전자 주식회사 | 하이라이트 오디오 구간 선별 재생장치 및 방법 |
KR101265960B1 (ko) | 2007-08-21 | 2013-05-22 | 삼성전자주식회사 | 하이라이트 추출 장치 및 그 방법 |
-
2011
- 2011-11-28 KR KR1020110124950A patent/KR101796580B1/ko active IP Right Grant
-
2012
- 2012-11-26 US US13/685,632 patent/US9262521B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030112265A1 (en) | 2001-12-14 | 2003-06-19 | Tong Zhang | Indexing video by detecting speech and music in audio |
US20050016360A1 (en) | 2003-07-24 | 2005-01-27 | Tong Zhang | System and method for automatic classification of music |
US20080292273A1 (en) | 2007-05-24 | 2008-11-27 | Bei Wang | Uniform Program Indexing Method with Simple and Robust Audio Feature and Related Enhancing Methods |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020111567A1 (en) * | 2018-11-27 | 2020-06-04 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
US11404042B2 (en) | 2018-11-27 | 2022-08-02 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Also Published As
Publication number | Publication date |
---|---|
US20130138232A1 (en) | 2013-05-30 |
KR20130058939A (ko) | 2013-06-05 |
US9262521B2 (en) | 2016-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101796580B1 (ko) | 음악 하이라이트 구간 추출 장치 및 방법 | |
US10776422B2 (en) | Dual sound source audio data processing method and apparatus | |
US8086168B2 (en) | Device and method for monitoring, rating and/or tuning to an audio content channel | |
JP2005322401A (ja) | メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム | |
JP5145939B2 (ja) | 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム | |
US20050254366A1 (en) | Method and apparatus for selecting an audio track based upon audio excerpts | |
KR102255152B1 (ko) | 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램 | |
WO2015161079A1 (en) | Methods, systems, and media for presenting music items relating to media content | |
CN110335625A (zh) | 背景音乐的提示及识别方法、装置、设备以及介质 | |
JP2006195385A (ja) | 音楽再生装置および音楽再生プログラム | |
JP2007534995A (ja) | 音声信号を分類する方法及びシステム | |
CN106055659B (zh) | 一种歌词数据匹配方法及其设备 | |
KR101648931B1 (ko) | 리듬 게임 제작 방법, 장치 및 이를 컴퓨터에서 실행하기 위한 컴퓨터 프로그램 | |
Venkatesh et al. | Artificially synthesising data for audio classification and segmentation to improve speech and music detection in radio broadcast | |
KR20190108027A (ko) | 영상과 어울리는 음악을 생성하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 | |
KR20140028336A (ko) | 음성 변환 장치 및 이의 음성 변환 방법 | |
JP2001147697A (ja) | 音響データ分析方法及びその装置 | |
US7680654B2 (en) | Apparatus and method for segmentation of audio data into meta patterns | |
CN101355673B (zh) | 信息处理装置和信息处理方法 | |
EP3575989B1 (en) | Method and device for processing multimedia data | |
KR100774708B1 (ko) | 실시간 음악 인식을 통한 사용자 선호 멜로디 구간의벨소리 및/또는 컬러링 생성 시스템 및 방법 | |
KR102101410B1 (ko) | 배경음악 정보 제공을 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2006050045A (ja) | 動画像データ編集装置及び動画像データ編集方法 | |
US20230197114A1 (en) | Storage apparatus, playback apparatus, storage method, playback method, and medium | |
KR101002731B1 (ko) | 오디오 데이터의 특징 벡터 추출방법과 그 방법이 기록된컴퓨터 판독 가능한 기록매체 및 이를 이용한 오디오데이터의 매칭 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
GRNT | Written decision to grant |