KR102611105B1 - 콘텐츠 내 음악 식별 장치 및 방법 - Google Patents
콘텐츠 내 음악 식별 장치 및 방법 Download PDFInfo
- Publication number
- KR102611105B1 KR102611105B1 KR1020210157237A KR20210157237A KR102611105B1 KR 102611105 B1 KR102611105 B1 KR 102611105B1 KR 1020210157237 A KR1020210157237 A KR 1020210157237A KR 20210157237 A KR20210157237 A KR 20210157237A KR 102611105 B1 KR102611105 B1 KR 102611105B1
- Authority
- KR
- South Korea
- Prior art keywords
- music
- fingerprint
- audio
- content
- section
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000000926 separation method Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013523 data management Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
- G10H1/0041—Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/00086—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
- G11B20/00094—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which result in a restriction to authorised record carriers
- G11B20/00123—Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which result in a restriction to authorised record carriers the record carrier being identified by recognising some of its unique characteristics, e.g. a unique defect pattern serving as a physical signature of the record carrier
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/046—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/095—Identification code, e.g. ISWC for musical works; Identification dataset
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/135—Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 개시는 콘텐츠 내 음악 식별 장치 및 방법에 대한 것으로서, 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 방법은 원본 오디오의 핑거프린트를 추출하여 오디오 핑거프린트 DB에 저장하는 단계, 콘텐츠에 포함된 제1 오디오의 핑거프린트를 추출하는 단계 및 상기 제1 오디오의 핑거프린트에 대응되는 핑거프린트를 상기 오디오 핑거프린트 DB에서 검색하는 단계를 포함하되, 상기 제1 오디오는 상기 콘텐츠에서 검출된 음악 구간에 포함된 오디오 데이터일 수 있다.
Description
본 개시는 콘텐츠 내 음악 식별 장치 및 방법에 대한 것이다. 보다 상세하게는, 콘텐츠에 사용된 배경음악들을 자동으로 인식하여 사용된 배경음악들의 내역을 자동으로 생성할 수 있는 음악 식별 장치 및 방법에 대한 것이다.
드라마, 뉴스 등을 포함한 TV 프로그램, 영화 등과 같은 영상 콘텐츠, 라디오 방송과 같은 음성 콘텐츠 등을 포함한 다양한 콘텐츠에는 흔히 작품의 특정 분위기를 강조하거나 감정을 고조시키기 위하여 음악이 삽입된다. 이러한 음악을 식별하기 위해, 오디오의 특징 정보를 추출하는 기술이 활용되고 있는데, 대표적으로 스펙트로그램(spectrogram)의 피크(peak)값을 사용하는 방식, 오디오 주파수 부밴드간 에너지 차분을 이용하는 방식, 오디오 스펙트로그램 이미지에 대한 웨이블릿(wavelet) 계산값을 이용하는 방식, 오디오 주파수 부밴드별 에너지 무게중심 값을 사용하는 방식 등이 있다.
한편, 콘텐츠 내 음악은 단독으로 재생되는 경우도 있으나, 콘텐츠에서 보조적인 역할을 하는 경우 콘텐츠에 포함된 대사와 같은 다른 소리와 겹쳐져 전면에 표출되지 않기도 한다. 이 경우, 해당 음악은 배경음악으로서의 역할을 하며, 배경음악은 비교적 짧은 시간동안 재생되며 작은 소리로 합성되기도 한다.
그러나 위에서 언급한 종래의 기술은 다른 오디오 데이터가 배경음악과 중첩되어 재생되는 경우에는 낮은 정확도를 제공한다. 따라서 다양한 주변 소음과 섞여 재생되는 콘텐츠에서 사용되는 배경음악은 음악 순수의 특징을 유지하지 못한다는 점을 감안하여, 콘텐츠 전체구간 중 해당 음악이 사용된 구간을 알아내고, 콘텐츠에 사용된 배경음악들이 어떤 음악인지를 식별할 수 있는 기술이 요구된다.
본 개시의 목적은 콘텐츠 내 다른 오디오 데이터와 함께 삽입된 음악 식별 장치 및 방법을 제공하는 데 있다.
본 개시의 목적은 음악의 손상도를 고려한 음악 전처리를 수행하는 음악 식별 기술을 제공하는 데 있다.
본 개시의 목적은 콘텐츠에 사용된 음악 내역을 자동으로 생성할 수 있는 음악 식별 기술을 제공하는 데 있다.
본 개시의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 개시의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 개시의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 방법은 원본 오디오의 핑거프린트를 추출하여 오디오 핑거프린트 DB에 저장하는 단계 및 콘텐츠에 포함된 제1 오디오의 핑거프린트를 추출하는 단계, 상기 제1 오디오의 핑거프린트에 대응되는 핑거프린트를 상기 오디오 핑거프린트 DB에서 검색하는 단계를 포함하되, 상기 제1 오디오는 상기 콘텐츠에서 검출된 음악 구간에 포함된 오디오 데이터일 수 있다.
한편, 상기 원본 오디오의 핑거프린트를 추출하여 오디오 핑거프린트 DB에 저장하는 단계는, 상기 원본 오디오의 핑거프린트를 추출하는 단계, 상기 원본 오디오의 음악 신호와 비음악 신호를 분리 후 재합성하는 단계 및 상기 재합성된 원본 오디오의 핑거프린트를 추출하는 단계를 포함할 수 있다.
한편, 상기 재합성하는 단계는, 상기 음악 신호를 증폭하고 상기 비음악 신호를 감쇄하여 합성하는 단계를 포함할 수 있다.
한편, 상기 원본 오디오의 핑거프린트는, 상기 오디오 핑거프린트 DB에서 상기 재합성된 원본 오디오의 핑거프린트와 매핑될 수 있다.
한편, 상기 제1 오디오의 핑거프린트는, 상기 원본 오디오의 핑거프린트 및 상기 재합성된 원본 오디오 핑거프린트 모두에 대해 검색될 수 있다.
한편, 상기 제1 오디오의 핑거프린트는, 상기 제1 오디오의 음악 신호와 비음악 신호를 분리 후 재합성된 제1 오디오의 핑거프린트를 포함할 수 있다.
한편, 상기 재합성된 제1 오디오의 핑거프린트는, 상기 음악 신호를 증폭하고 상기 비음악 신호를 감쇄 후 합성하여 생성될 수 있다.
한편, 상기 오디오 핑거프린트 DB는, 상기 원본 오디오의 명칭, 발매일, 가수, 제작사 중 적어도 하나를 포함하는 오디오 메타 데이터를 포함할 수 있다.
한편, 상기 콘텐츠는 모노 채널, 스테레오 채널 혹은 그 이상의 채널을 가질 수 있다.
한편, 상기 검출된 음악 구간은 상기 콘텐츠에서 인공 신경망을 이용하여 검출될 수 있다.
본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 장치는 데이터를 저장하는 메모리, 상기 메모리를 제어하는 프로세서를 포함하되, 상기 프로세서는, 원본 오디오의 핑거프린트를 추출하여 오디오 핑거프린트 DB에 저장하고, 콘텐츠에 포함된 제1 오디오의 핑거프린트를 추출하고, 상기 제1 오디오의 핑거프린트에 대응되는 핑거프린트를 상기 오디오 핑거프린트 DB에서 검색하되, 상기 제1 오디오는 상기 콘텐츠에서 검출된 음악 구간에 포함된 오디오 데이터일 수 있다.
한편, 상기 프로세서는, 상기 원본 오디오의 핑거프린트를 추출하고, 상기 원본 오디오의 음악 신호와 비음악 신호를 분리 후 재합성하고, 상기 재합성된 원본 오디오의 핑거프린트를 추출할 수 있다.
한편, 상기 프로세서는, 상기 재합성 시, 상기 음악 신호를 증폭하고 상기 비음악 신호를 감쇄하여 합성할 수 있다.
한편, 상기 프로세서는, 상기 원본 오디오의 핑거프린트를 상기 재합성된 원본 오디오의 핑거프린트와 매핑할 수 있다.
한편, 상기 프로세서는, 상기 제1 오디오의 핑거프린트를 검색 시, 상기 원본 오디오의 핑거프린트 및 상기 재합성된 원본 오디오 핑거프린트 모두에 대해 검색할 수 있다.
한편, 상기 제1 오디오의 핑거프린트는, 상기 제1 오디오의 음악 신호와 비음악 신호를 분리 후 재합성된 제1 오디오의 핑거프린트를 포함할 수 있다.
한편, 상기 재합성된 제1 오디오의 핑거프린트는, 상기 음악 신호를 증폭하고 상기 비음악 신호를 감쇄 후 합성하여 생성될 수 있다.
한편, 상기 콘텐츠는 모노 채널, 스테레오 채널 혹은 그 이상의 채널을 가질 수 있다.
한편, 상기 검출된 음악 구간은 상기 콘텐츠에서 인공 신경망을 이용하여 검출될 수 있다.
본 개시의 일 실시예에 따른 비 일시적 컴퓨터 판독 가능한 매체에 저장된 컴퓨터 프로그램은, 컴퓨터에서, 원본 오디오의 핑거프린트를 추출하여 오디오 핑거프린트 DB에 저장하는 단계, 콘텐츠에 포함된 제1 오디오의 핑거프린트를 추출하는 단계 및 상기 제1 오디오의 핑거프린트에 대응되는 핑거프린트를 상기 오디오 핑거프린트 DB에서 검색하는 단계를 실행하되, 상기 제1 오디오는 상기 콘텐츠에서 검출된 음악 구간에 포함된 오디오 데이터일 수 있다.
본 개시에 따르면 다른 잡음과 함께 재생되는 음악을 보다 정확하게 식별할 수 있다.
본 개시에 따르면 음악 식별을 통해 저작권료 산정에 활용될 수 있는 음악 사용 내역을 보다 정확하게 생성할 수 있다.
본 개시의 실시 예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 이하의 본 개시의 실시 예들에 대한 기재로부터 본 개시의 기술 구성이 적용되는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 개시에서 서술하는 구성을 실시함에 따른 의도하지 않은 효과들 역시 본 개시의 실시 예들로부터 당해 기술 분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.
도 1은 오디오 핑거프린트 기반의 음악 식별 시스템의 구성도를 도시한 것이다.
도 2는 본 개시의 일 실시예에 따른 원본 오디오 핑거프린트 추출기의 구성도를 도시한 것이다.
도 3은 본 개시의 일 실시예에 따른 콘텐츠 오디오 핑거프린트 추출기의 구성도를 도시한 것이다.
도 4는 본 개시의 일 실시예에 따른 음악 분리 과정을 도시한 것이다.
도 5는 본 개시의 일 실시예에 따른 음악 신호 및 비음악 신호의 오디오 재합성 과정을 도시한 것이다.
도 6은 본 개시의 일 실시예에 따른 오디오 핑거프린트 추출 과정을 도시한 것이다.
도 7은 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 과정을 도시한 것이다.
도 8은 본 개시의 다른 일 실시예에 따른 콘텐츠 내 음악 식별 과정을 도시한 것이다.
도 9는 본 개시의 일 실시예에 따른 오디오 핑거프린트 DB의 구성도를 도시한 것이다.
도 10은 본 개시의 일 실시예에 따른 오디오 핑거프린트 검색 과정을 도시한 것이다.
도 11은 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 방법을 도시한 것이다.
도 12는 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 장치를 도시한 것이다.
도 2는 본 개시의 일 실시예에 따른 원본 오디오 핑거프린트 추출기의 구성도를 도시한 것이다.
도 3은 본 개시의 일 실시예에 따른 콘텐츠 오디오 핑거프린트 추출기의 구성도를 도시한 것이다.
도 4는 본 개시의 일 실시예에 따른 음악 분리 과정을 도시한 것이다.
도 5는 본 개시의 일 실시예에 따른 음악 신호 및 비음악 신호의 오디오 재합성 과정을 도시한 것이다.
도 6은 본 개시의 일 실시예에 따른 오디오 핑거프린트 추출 과정을 도시한 것이다.
도 7은 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 과정을 도시한 것이다.
도 8은 본 개시의 다른 일 실시예에 따른 콘텐츠 내 음악 식별 과정을 도시한 것이다.
도 9는 본 개시의 일 실시예에 따른 오디오 핑거프린트 DB의 구성도를 도시한 것이다.
도 10은 본 개시의 일 실시예에 따른 오디오 핑거프린트 검색 과정을 도시한 것이다.
도 11은 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 방법을 도시한 것이다.
도 12는 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 장치를 도시한 것이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들을 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
이하, 본 개시의 실시예들을 설명함에 있어서 콘텐츠에는 영상 콘텐츠, 음성 콘텐츠 및 음악 콘텐츠 등이 포함된다.
이하, 본 개시의 실시예들을 설명함에 있어서, 오디오 데이터에는 원본 오디오 데이터와 콘텐츠에 포함된 오디오 데이터 등이 포함된다.
이하, 본 개시의 실시예들을 설명함에 있어서, 오디오 핑거프린트(fingerprint)는 오디오 특징점, 오디오 특징 정보, 오디오 DNA 등과 혼용될 수 있다.
이하, 본 개시의 실시예들을 설명함에 있어서, 오디오 DB는 오디오 핑거프린트 DB를 포함한다.
이하, 도면을 참조하여 본 개시에 대해 상세히 설명한다.
도 1은 오디오 핑거프린트 기반의 음악 식별 시스템의 구성도를 도시한 것이다. 보다 상세하게는, 본 개시에 따른 콘텐츠 내 음악 식별 방식을 개략적으로 설명하기 위한 도면이다.
오디오 핑거프린트 기반의 음악 식별 시스템은, 음악 핑거프린트 추출기와 음악 식별기 및 오디오 핑거프린트 DB(database)를 포함할 수 있다.
먼저 음악 핑거프린트 추출기를 이용하여 검색의 대상이 되는 수많은 원본 음악 콘텐츠로부터 오디오 핑거프린트를 추출하여 오디오 핑거프린트 DB에 저장할 수 있다. 이후, 임의의 음악을 식별하기 위해 음악 식별기를 이용하여 임의의 음악에 대한 오디오 핑거프린트를 추출하여 대응되는 오디오 핑거프린트를 오디오 핑거프린트 DB에서 검색함으로써 음악을 식별할 수 있다.
다른 소리가 섞여 있는 콘텐츠 내의 음악의 식별 정확도를 더욱 향상시키기 위해, 본 개시에서 제안하는 오디오 핑거프린트 추출 과정 및 오디오 핑거프린트를 검색하는 세부적인 과정에 대하여 하기에서 다른 도면을 참조하여 더욱 상세하게 설명하도록 한다.
도 2는 본 개시의 일 실시예에 따른 원본 오디오 핑거프린트 추출기의 구성도를 도시한 것이며, 도 3은 본 개시의 일 실시예에 따른 콘텐츠 오디오 핑거프린트 추출기의 구성도를 도시한 것이다.
본 개시에 따른 원본 오디오 핑거프린트 추출기(201)는 오디오 핑거프린트 DB(204)에 저장 관리하기 위한 원본 오디오 핑거프린트를 추출할 수 있고, 콘텐츠 오디오 핑거프린트 추출기(301)는 콘텐츠 내의 오디오로부터 핑거프린트를 추출할 수 있다.
일 예로서, 먼저, 원본 오디오 핑거프린트 추출기(201)는 원본 오디오의 핑거프린트를 추출할 수 있다. 또한, 원본 오디오 핑거프린트 추출기(201)는 원본 오디오에 포함된 음악 신호와 비음악 신호를 분리할 수 있는 음악 분리부, 분리된 음악 신호와 비음악 신호를 재합성할 수 있는 오디오 재합성부, 및 재합성된 원본 오디오 데이터에 대한 핑거프린트를 생성할 수 있는 핑거프린트 생성부 등을 포함할 수 있다. 원본 오디오 핑거프린트 추출기에 의하면, 원본 오디오의 핑거프린트(202)를 그대로 추출하거나, 음악 분리부, 오디오 재합성부, 핑거프린트 생성부에 의해 재합성된 원본 오디오의 핑거프린트(203)를 추출할 수 있으며, 원본 오디오 핑거프린트(202) 및 재합성된 원본 오디오 핑거프린트(203) 중 적어도 하나는 오디오 핑거프린트 DB(204)에 저장될 수 있다. 일 예로서, 두 핑거프린트(202, 203) 모두가 오디오 핑거프린트 DB에 저장되어 관리되는 경우, 동일한 원본 오디오 데이터에 대한 것은 서로 매핑되어 관리될 수 있다.
일 예로서, 도 3의 콘텐츠 오디오 핑거프린트 추출기(301)는 콘텐츠 내 오디오의 핑거프린트를 추출할 수 있다. 일 실시예로서, 콘텐츠 내에서 오디오는 전체 구간에 걸쳐 동일한 음악이 나올 수도 있으나, 콘텐츠 내 여러 구간에서 서로 다른 음악이 나올 수도 있기 때문에 콘텐츠 내 음악을 식별시 먼저 음악이 나오는 구간을 찾는 것이 효율적일 수 있으므로, 콘텐츠 오디오 핑거프린트 추출기(301)는 콘텐츠 내 음악이 재생되는 구간을 검출할 수 있는 음악 구간 검출부를 포함할 수 있다. 일 실시예로서, 콘텐츠 내 음악이 재생되는 구간을 검출하기 위해 인공 신경망이 활용될 수 있으며, 예를 들어, 딥러닝 기술이 활용될 수도 있다.
또한, 검출된 구간에서 음악 신호와 비음악 신호를 분리할 수 있는 음악 분리부, 분리된 음악 신호와 비음악 신호를 재합성할 수 있는 오디오 재합성부, 및 재합성된 콘텐츠 내 오디오 데이터를 기반으로 핑거프린트를 생성할 수 있는 핑거프린트 생성부 등을 포함할 수 있다. 콘텐츠 오디오 핑거프린트 추출기(301)에 의하면, 콘텐츠 오디오 데이터 자체에 대한 핑거프린트(302)를 추출할 수 있으며, 재합성된 콘텐츠 오디오 데이터에 대한 핑거프린트(303)를 추출할 수 있다. 또한, 핑거프린트(302) 및 핑거프린트(303) 중 적어도 하나는 오디오 핑거프린트 DB(304)에서 대응하는 핑거프린트를 검색하는 데 사용될 수 있다. 일 실시예로서, 핑거프린트 검색은 원본 오디오 데이터의 핑거프린트(202) 및/혹은 재합성된 원본 오디오 데이터의 핑거프린트(203)에 대해 이루어질 수 있다. 일 실시예로서, 오디오 핑거프린트 DB(304)는 오디오 핑거프린트 DB(204)와 동일할 수 있다.
일 실시예로서, 도 2의 원본 오디오 핑거프린트 추출기와 도 3의 콘텐츠 오디오 핑거프린트 추출기는 하나의 음악 식별 장치로 표현될 수 있으며, 예를 들어, 도 12에 도시된 콘텐츠 내 음악 식별 장치에 포함될 수도 있다.
한편, 원본 오디오 핑거프린트 추출기(201) 및/혹은 콘텐츠 오디오 핑거프린트 추출기(301)가 수행할 수 있는 음악 분리, 음악 재합성 및 음악 핑거프린트 추출 과정에 대하여는 하기에서 도 4 내지 도 6을 참조하여 더욱 상세하게 설명하도록 한다.
도 4는 본 개시의 일 실시예에 따른 음악 분리 과정을 도시한 것이며, 도 5는 본 개시의 일 실시예에 따른 음악 신호 및 비음악 신호의 오디오 재합성 과정을 도시한 것이고, 도 6은 본 개시의 일 실시예에 따른 오디오 핑거프린트 추출 과정을 도시한 것이다.
일 실시예로서, 도 4의 음악 분리과정은 도 2, 도 3 및 하기의 도면에 개시된 음악 분리부, 콘텐츠 내 음악 식별 장치에 의해 수행될 수 있으며, 콘텐츠 내 음악 식별 방법에 포함될 수 있다. 또한, 도 5의 오디오 재합성 과정은 도 2, 도 3 및 하기 도면에 개시된 음악 재합성부 혹은 콘텐츠 내 음악 식별 장치에 의해 수행될 수 있으며, 콘텐츠 내 음악 식별 방법에 포함될 수 있다. 마찬가지로, 도 6은 도 2, 도 3 및 하기의 도면에 개시된 오디오 핑거프린트 추출부 혹은 콘텐츠 내 음악 식별 장치에 의해 수행될 수 있으며, 콘텐츠 내 음악 식별 방법에 포함될 수 있다.
일 예로서, 먼저 음악 분리 과정의 경우, 음악 분리부(401)에 의해 수행될 수 있다. 일 예로서, 음악 분리부는 음악, 음성 및 그 외 소리(잡음) 중 적어도 하나가 포함된 합성된 오디오를 입력으로 받되, 이를 음악 신호 및 비음악 신호로 분리할 수 있다. 분리된 2개의 오디오 데이터를 합치면 원래 입력한 오디오와 동일하게 될 수 있다. 한편, 입력 오디오인 합성된 오디오는 콘텐츠 내 오디오 및 원본 오디오를 포함할 수 있으며, 해당 채널이 1개인 모노 채널, 2개인 스테레오 채널, 또는 그 이상의 채널로 표현될 수도 있다. 일 예로서, 음악 신호와 비음악 신호를 분리함에 있어서는, 인공 신경망, 딥러닝 등을 이용한 모노 채널 기반의 음악 분리 기술이 적용될 수 있으나, 본 개시가 이에 한정되는 것은 아니다. 일 예로서, 인공 신경망은 컨볼루션 신경망을 포함할 수 있다.
한편, 일 실시예로서, 음악 분리부(401)가 오디오 데이터의 음악/비음악 신호 분리를 수행하더라도, 음악 신호와 비음악 신호를 완벽하게 분리하지 못할 수 있다. 예를 들어, 분리된 음악 신호는 대부분 음악으로 구성되어 있지만 일부 비음악 신호가 포함되어 있을 수 있으며, 포함되어야 하는 음악 신호 중 일부는 제거되어 비음악 신호에 포함될 수도 있다. 분리된 음악 신호는 입력한 오디오 데이터에 포함된 음악 신호와 비교하면 음악 신호에 일부 손상이 가해진 형태가 되게 되어 비교적 음질이 손상되어 있을 수 있다. 마찬가지로 분리된 비음악 신호에도 일부 음악 신호가 포함되며 비음악 신호 중 일부는 음악 신호에 포함될 수도 있다. 일 예로서, 오디오 데이터에 포함된, 특히 분리하고자 하는 목표인 음악 신호가 입력 오디오에서 주된 소리(전경음인 경우)인 경우 분리 결과가 비교적 깔끔하게 나타날 수 있고, 주된 소리가 아닌 경우(배경음인 경우)에 분리 결과는 다소 떨어질 수도 있다. 일 예로서, 입력 오디오가 동영상 콘텐츠의 오디오인 경우, 드라마나 영화와 같은 동영상 콘텐츠는 대사가 중요한 오디오이므로 배경음악은 대사가 잘 들리는 것에 방해되지 않도록 작게 합성될 수 있다. 따라서 동영상 콘텐츠의 배경 음악을 입력 오디오로 하여 음악/비음악 신호의 분리 수행 시 깨끗하게 분리되지 않을 수 있다. 즉, 음악 분리 과정을 통해 얻은 음악 신호는 신호적으로 보면 음악 신호의 왜곡이 발생할 수 있기 때문에 분리된 음악 신호에서 추출한 핑거프린트가 원본 음악 신호의 핑거프린트와 차이점이 발생할 수 있다.
이 때, 도 4의 음악 분리부(401)에 의한 음악 신호 및 비음악 신호를 각각 도 5의 오디오 재합성부(501)의 입력으로 하여 발생한 차이점을 줄일 수 있다. 오디오 재합성부(501)에서는, 음악/비음악 신호의 분리 후 분리된 음악 신호는 증폭하고, 분리된 비음악 신호는 감쇄하여 다시 두 데이터를 합성하여 재합성된 오디오 데이터를 생성할 수 있다. 즉, 원래 음악 신호가 배경음이었던 경우 재합성 시에는 상대적으로 소리가 큰 전경음이 될 수 있으며, 원래 전경음이었던 대사 등의 다른 오디오는 상대적으로 소리가 작은 배경음이 될 수 있다.
일 예로서, 도 4, 5를 비롯한 과정이 원본 오디오 데이터에 적용된다고 가정한다. 즉, 음악 분리부(401)의 입력 오디오가 원본 오디오 데이터이고, 음악 분리부(401)와 오디오 재합성부(501)를 거쳐 재합성된 원본 오디오 데이터가 생성된다고 가정한다. 이 경우, 도 6의 음악 핑거프린트 추출 과정에 의하면, 원본 오디오 데이터 및 재합성된 원본 오디오 데이터를 모두 오디오 핑거프린트 추출부(601)의 입력으로 할 수 있다. 오디오 핑거프린트 추출부(601)는 원본 오디오에 대한 핑거프린트(602)를 추출하고, 재합성된 원본 오디오에 대한 핑거프린트(603)를 각각 추출할 수 있다. 오디오 핑거프린트 추출 시 음악 신호가 상대적으로 큰 소리인 경우 다른 소리와 합성되더라도 강인성을 가질 수 있으므로, 이러한 방법으로 음악 신호에 대한 손실을 작게 하면서 배경으로 삽입된 음악을 전경음으로 만듦으로써 식별율을 크게 향상시킬 수 있다.
도 7은 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 과정을 도시한 것이다. 일 예로서, 설명의 명료함을 위해 동영상 콘텐츠 내의 음악을 식별한다고 가정하나, 본 개시가 이에 한정되는 것은 아니다.
일 실시예로서, 도 7의 콘텐츠 내 음악 식별 과정은 다른 도면을 참조한 설명에 포함될 수 있으며, 콘텐츠 내 음악 식별 장치(예를 들어, 도 12)에 의해 수행될 수도 있고, 콘텐츠 내 음악 식별 방법(예를 들어, 도 11)에 포함될 수 있다. 또한, 도 3의 콘텐츠 오디오 핑거프린트 추출기에 의해 수행될 수도 있다. 다만, 본 개시가 이에 한정되는 것은 아니다.
일 실시예로서, 동영상 콘텐츠, 음악 콘텐츠 등을 포함한 콘텐츠가 입력으로 주어질 수 있다. 예를 들어, 동영상 콘텐츠가 입력되는 경우, 먼저 비디오 스트림과 오디오 스트림으로 분리(701)될 수 있다.
분리된 오디오 스트림은 분석되어, 음악이 나오는 구간(들)이 검출(702)될 수 있다. 일 예로서, 음악이 나오는 오디오 구간들은 오디오 스트림으로부터 인공 신경망에 의해 검출될 수 있으며, 딥러닝(deep learning) 기술 등을 이용할 수 있다
이후, 검출된 각 음악이 나오는 오디오 구간(702) 별로 해당 구간의 콘텐츠 내 오디오에 대하여 핑거프린트가 추출(703)될 수 있다. 추출된 각 오디오 구간별 핑거프린트들을 오디오 핑거프린트 DB에 각각 질의하여 오디오 식별(704)을 수행할 수 있다. 이에 대하여는, 다른 도면을 참조하여 설명한 바와 같이, 오디오 핑거프린트 DB에 저장된 대응되는 핑거프린트에 대한 검색이 수행될 수 있다.
오디오 식별(704)이 수행되면, 음악이 식별되지 않은 오디오 구간이 존재하는 경우, 해당 오디오 구간(즉, 식별 실패한 오디오 구간)을 음악 신호 및 비음악 신호로 분리(705)할 수 있다. 이는, 다른 도면을 참조하여 설명되는 바와 같이 음악 분리부에 의해 수행되거나, 음악 식별 장치에 의해 수행될 수 있다.
해당 오디오 구간이 음악 신호 및 비음악 신호로 분리되면, 음악 신호와 비음악 신호를 이용하여 오디오 데이터를 재합성(706)할 수 있다. 여기서, 재합성은 음악 신호는 증폭하고 비음악 신호는 감쇄함으로써 수행될 수 있다.
재합성된 오디오 데이터의 핑거프린트가 추출(707)되면, 추출된 오디오 핑거프린트를 오디오 핑거프린트 DB에 검색하여 대응되는 핑거프린트를 찾기 위해 검색, 질의하여 음악 식별을 수행(708)될 수 있다.
일 예로서, 오디오 식별(704) 과정에서 획득된, 음악이 식별된 오디오 구간에 대한 정보와 음악 식별(708) 과정에서 획득된, 음악이 식별된 오디오 구간에 대한 정보를 통합하여 전체 음악 식별 결과가 출력(709)될 수 있다.
도 8은 본 개시의 다른 일 실시예에 따른 콘텐츠 내 음악 식별 과정을 도시한 것이다. 일 예로서, 설명의 명료함을 위해 동영상 콘텐츠 내의 음악을 식별한다고 가정하나, 본 개시가 이에 한정되는 것은 아니다.
일 실시예로서, 도 8의 콘텐츠 내 음악 식별 과정은 다른 도면을 참조한 설명에 포함될 수 있으며, 콘텐츠 내 음악 식별 장치(예를 들어, 도 12)에 의해 수행될 수도 있고, 콘텐츠 내 음악 식별 방법(예를 들어, 도 11)에 포함될 수 있다. 또한, 도 3의 콘텐츠 오디오 핑거프린트 추출기에 의해 수행될 수도 있다. 다만, 본 개시가 이에 한정되는 것은 아니다.
일 실시예로서, 입력되는 영상 콘텐츠에 대해, 먼저 비디오 스트림과 오디오 스트림을 분리(701)할 수 있다. 이후, 분리한 오디오 스트림을 분석하여 음악이 나오는 오디오 구간들을 검출(702)할 수 있다. 예를 들어, 인공신경망을 활용하여 딥러닝 방식 등을 기반으로 음악이 나오는 오디오 구간(들)을 검출할 수 있다. 이는, 도 7을 참조하여 설명한 바와 동일할 수 있다.
일 실시예로서, 각 음악이 나오는 오디오 구간을 음악 신호/비음악 신호로 분리(803)할 수 있다. 이는, 다른 도면을 참조하여 설명되는 바와 같이 음악 분리부에 의해 수행되거나, 음악 식별 장치에 의해 수행될 수 있다. 분리된 음악/비음악 신호를 이용하여, 오디오가 재합성(804)될 수 있다. 여기서, 재합성은 음악 신호는 증폭하고 비음악 신호는 감쇄함으로써 수행될 수 있다.
상기에서 검출(702)된, 음악이 나오는 오디오 구간(들)에 대해 입력된 콘텐츠 내 오디오(702)와 재합성된 오디오(804)에서 각각 핑거프린트가 추출(805)될 수 있다. 각각 추출된 두 개의 핑거프린트는 결합된 하나의 데이터 형태로 생성될 수 있다.
이에 따라, 생성한 결합된 형태의 핑거프린트를 이용하여 오디오 핑거프린트 DB에 검색, 질의하여 음악 식별(806)을 수행한다. 여기서, 오디오 핑거프린트 DB는 도 9에서 설명된 오디오 핑거프린트 DB를 포함하며, 오디오 핑거프린트 DB에 포함될 수 있는 핑거프린트 매칭부는 질의된 음악 핑거프린트를 오디오 핑거프린트 DB에 저장된 원본 오디오의 핑거프린트 뿐만 아니라 재합성된 원본 오디오의 핑거프린트와도 비교하여 가장 유사한 핑거프린트를 찾을 수 있다.
음악 식별(806)을 통해, 각 음악이 나오는 오디오 구간의 핑거프린트 질의를 통하여 식별된 음악 정보를 통합하여 전체 음악 식별 결과를 출력(807)할 수 있다.
도 9는 본 개시의 일 실시예에 따른 오디오 핑거프린트 DB의 구성도를 도시한 것이며, 도 10은 본 개시의 일 실시예에 따른 오디오 핑거프린트 검색 과정을 도시한 것이다.
일 실시예로서, 도 10의 오디오 핑거프린트 검색 과정은 도 3의 콘텐츠 오디오 핑거프린트 추출기, 도 12의 콘텐츠 내 음악 식별 장치 및/혹은 도 9의 핑거프린트 매칭부(903) 등에 의해 수행될 수 있다. 하기에서는 도 9의 핑거프린트 매칭부(903)에 의해 수행되는 경우에 대하여 설명하나, 본 개시가 이에 한정되는 것은 아니다.
일 예로서, 오디오 핑거프린트 DB(901)는 핑거프린트 DB일 수 있으며, 핑거프린트 데이터 관리부(901), 음원 메타데이터 관리부(902), 핑거프린트 매칭부(903), 핑거프린트 색인부(904) 등이 포함될 수 있다.
일 실시예로서, 핑거프린트 데이터 관리부(901)에는 원본 오디오에 대한 핑거프린트 데이터(911)와 재합성된 원본 오디오에 대한 핑거프린트 (데이터)(912) 중 적어도 하나가 저장될 수 있다. 일 예로서, 두 핑거프린트 데이터가 모두 저장되는 경우, 두 핑거프린트 데이터는 같은 원본 오디오에 대한 것이므로 매핑되어 관리될 수 있다. 일 예로서, 원본 오디오 핑거프린트 데이터(911) 및 재합성된 원본 오디오에 대한 핑거프린트 (데이터)(912)는 도 2의 원본 음악 핑거프린트 추출기에 의해 추출된 것일 수 있으며, 도 12의 콘텐츠 내 음악 식별 장치에 의해 추출될 수도 있으나, 본 개시가 이에 한정되는 것은 아니다.
일 예로서, 음원 메타데이터 관리부(902)에는 노래명, 가수, 제작사, 및/혹은 발매일 등 각 원본 오디오에 대한 정보가 저장, 관리될 수 있다.
일 예로서, 핑거프린트 매칭부(903)는 오디오 핑거프린트 DB에 검색을 위해 검색, 질의된 콘텐츠 내 오디오의 핑거프린트와 핑거프린트 데이터 관리부(901)에 저장되어 있는 핑거프린트를 비교하여 가장 유사한 핑거프린트를 찾는 기능을 수행할 수 있다. 한편, 이 기능은 오디오 핑거프린트 DB에서 제공될 수도 있으나 외부의 음악 식별 장치 등을 통해서도 제공될 수 있어서, 본 개시가 이에 한정되는 것은 아니다.
한편, 핑거프린트 매칭부(903)는 도 10에 나타난 바와 같이, 원본 오디오에 대한 핑거프린트 데이터(1004)(도 9, 911)와 재합성된 원본 오디오에 대한 핑거프린트 데이터(1005) )(도 9, 912)에 대한 핑거프린트 비교를 수행할 수 있다. 보다 상세하게는, 도 10의 (a)에 나타난 바와 같이 콘텐츠(예를 들어, 동영상 콘텐츠) 내의 오디오에서 추출한 핑거프린트(1001)가 핑거프린트(1004, 1005)와 비교될 수 있으며, 도 10의 (b)에서 나타난 바와 같이, 음악 재합성된 콘텐츠 내 오디오에서 추출한 핑거프린트(1002)가 핑거프린트(1004, 1005)와 비교될 수도 있다. 또한, 도 10의 (c)에서 나타난 바와 같이, (a)의 핑거프린트(1001) 및 (b)의 핑거프린트(1002), 두 개의 핑거프린트가 결합된 형태의 핑거프린트(1003)를 입력받아 두 핑거프린트(1004, 1005)와 비교될 수도 있다. 일 예로서, 핑거프린트 데이터들은 핑거프린트 데이터 관리부 등에 저장될 수 있다.
핑거프린트 색인부(904)는 핑거프린트 매칭부(903)에 의한 신속한 핑거프린트 매칭을 위하여 유사한 핑거프린트들을 참조하는 색인 데이터를 생성하고 관리하는 기능을 수행할 수 있다. 예를 들어, 원본 오디오 데이터와 재합성된 원본 오디오 데이터에 대한 각각의 핑거프린트 데이터가 모두 오디오 핑거프린트 DB에 저장되는 경우, 두 핑거프린트 데이터는 같은 원본 오디오에 대한 것이므로 매핑되어 관리될 수 있는데, 이에 색인 데이터를 부여할 수 있다.
도 11은 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 방법을 도시한 것이다. 보다 상세하게는, 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별을 위하여 콘텐츠 내 핑거프린트를 추출하는 방법을 도시한 것이다.
일 에로서, 도 11의 콘텐츠 내 음악 식별 방법은 도 2의 예를 포함한 원본 오디오 핑거프린트 추출기, 도 3의 예를 포함한 콘텐츠 오디오 핑거프린트 추출기, 및/혹은 도 12의 예를 포함한 콘텐츠 내 음악 식별 장치에 의해 수행될 수 있으며, 이에 한정되는 것은 아니다.
일 실시예로서, 도 11의 예를 설명함에 있어서 오디오 데이터에는 원본 오디오 데이터 및 콘텐츠 오디오 데이터가 포함될 수 있다.
일 예로서, 오디오 데이터가 원본 오디오 데이터이면, 원본 오디오 데이터의 핑거프린트를 추출(S1101)할 수 있다. 여기서, 추출된 핑거프린트는 오디오 핑거프린트 DB에 저장될 수 있다. 원본 오디오 데이터를 음악 신호와 비음악 신호로 분리 후 재합성(S1102)할 수 있다. 또한, 재합성된 원본 오디오의 핑거프린트를 추출(S1103)할 수 있다. 일 예로서, 원본 오디오의 핑거프린트를 추출(S1101)하는 단계는 원본 오디오의 핑거프린트를 추출하는 단계, 및 상기 분리 후 재합성 단계(S1102), 및 핑거프린트 추출(S1103) 단계를 포함하는 것도 가능하다. 일 실시예로서, 재합성(S1102) 단계는, 원본 오디오의 음악 신호를 증폭하고 비음악 신호를 감쇄하여 합성하는 단계를 포함할 수 있다. 일 예로서, 원본 오디오의 핑거프린트는 오디오 핑거프린트 DB에서 재합성된 원본 오디오의 핑거프린트와 매핑되어 관리될 수 있다.
다른 일 예로서, 오디오 (데이터)가 콘텐츠 내 오디오 (데이터)이면, 콘텐츠 내 오디오 (데이터)(예를 들어, 제n 오디오, 여기서 n은 임의의 수)의 핑거프린트를 추출(S1101)할 수 있다. 여기서, 콘텐츠 내 오디오 데이터는 콘텐츠 내에서 음악이 나타나는 구간의 오디일 수 있다. 콘텐츠 내 오디오 데이터를 음악 신호와 비음악 신호로 분리 후 재합성(S1102)할 수 있다. 또한, 재합성된 콘텐츠 내 오디오의 핑거프린트를 추출(S1103)할 수 있다. 일 예로서, 콘텐츠 내 오디오의 핑거프린트를 추출(S1101)하는 단계는 콘텐츠 내 오디오의 핑거프린트를 추출하는 단계, 및 상기 분리 후 재합성 단계(S1102), 및 핑거프린트 추출(S1103) 단계를 포함하는 것도 가능하다. 일 실시예로서, 재합성(S1102) 단계는, 콘텐츠 내 오디오의 음악 신호를 증폭하고 비음악 신호를 감쇄하여 합성하는 단계를 포함할 수 있다. 일 예로서, 콘텐츠 내 오디오 및/혹은 재합성된 콘텐츠 내 오디오의 핑거프린트 각각은, 원본 오디오의 핑거프린트 및/혹은 재합성된 원본 오디오 핑거프린트에 대해 검색될 수 있다. 여기서, 원본 오디오의 핑거프린트 및/혹은 재합성된 원본 오디오 핑거프린트는 상기에서 언급한 바와 같이 오디오 핑거프린트 DB에 저장된 것일 수 있다. 한편, 실시예를 설명함에 있어서 콘텐츠 내 오디오의 핑거프린트는 콘텐츠 내 오디오의 음악 신호와 비음악 신호를 분리 후 재합성된 콘텐츠 내 오디오의 핑거프린트를 포함하는 의미로도 사용될 수 있다.
한편, 오디오 핑거프린트 DB는, 원본 오디오의 명칭, 발매일, 가수, 제작사 중 적어도 하나를 포함하는 오디오 메타 데이터를 포함할 수 있다. 또한, 오디오를 포함하는 입력 콘텐츠는 모노 채널, 스테레오 채널 혹은 그 이상의 채널을 가지는 것일 수 있다. 또한, 검출된 음악 구간은 콘텐츠에서 인공 신경망을 이용하여 검출될 수 있다. 또한, 콘텐츠 내 오디오에는 음악 신호 및 비음악 신호 분리시 인공신경망이 활용될 수 있으며, 딥러닝 기법을 기반으로 할 수 있다. 또한, 음악 신호 및 비음악 신호 분리 시 모노 채널을 입력으로 한 음악/비음악 신호 분리가 가능한 방법이 적용될 수도 있다. 예를 들어, 이러한 방법은 컨볼루션 신경망을 기반으로 할 수 있다. 그러나, 본 개시가 이에 한정되는 것은 아니다.
한편, 도 11에서는 오디오 데이터의 핑거프린트를 먼저 추출하고, 오디오 데이터의 분리 및 재합성을 통해 생성된 재합성된 오디오 데이터의 핑거프린트를 추출하는 것으로 설명되었으나, 본 개시가 이에 한정되는 것은 아니다. 즉, 일부 단계가 추가 혹은 제거되거나 단계별 순서가 변경될 수도 있다. 예를 들어, 오디오 데이터를 먼저 음악 신호 및 비음악 신호로 분리후 재합성된 오디오 데이터와 오디오 데이터의 핑거프린트를 동시에 추출할 수도 있다. 또한, 다른 일 예로서, 다른 도면을 참조하여 설명한 바와 같이, 오디오 데이터에 대한 핑거프린트를 먼저 추출한 뒤 오디오 핑거프린트 DB에 검색 질의 후 식별 실패한 오디오에 대해서만 오디오 데이터의 분리 및 재합성을 수행하는 것도 가능하며, 오디오 핑거프린트와 재합성된 오디오의 핑거프린트를 결합한 형태로 오디오 핑거프린트 DB에 검색 질의를 수행하는 것도 가능하다.
도 12는 본 개시의 일 실시예에 따른 콘텐츠 내 음악 식별 장치를 도시한 것이다. 일 예로서, 콘텐츠 내 음악 식별 장치(1201)는 컴포넌트(1202) 및 다른 컴포넌트(1203)를 포함할 수 있으며, 일 예로서, 컴포넌트(1202)는 데이터를 저장하는 메모리 혹은 데이터를 송수신하는 송수신부 등일 수 있으며, 컴포넌트(1203)는 메모리 혹은 송수신부를 제어하는 프로세서(1203) 등일 수 있다.
일 실시예로서, 콘텐츠 내 음악 식별 장치(1201)에는 상기에서 설명한 오디오 핑거프린트 DB가 포함될 수 있다. 상기에서 언급한 바와 같이, 오디오 핑거프린트 DB에는 핑거프린트 데이터 관리부, 음원 메타데이터 관리부, 핑거프린트 매칭부, 및/혹은 핑거프린트 색인부 등이 포함될 수 있으며, 도 9의 오디오 핑거프린트 DB가 포함될 수도 있다.
또한, 일 예로서, 콘텐츠 내 음악 식별 장치(1201)는 도 7, 8, 10 내지 11의 과정을 수행할 수 있으며, 도 2 및 도 3의 핑거프린트 추출기를 포함할 수 있다. 또한, 도 4 내지 6이 제공하는 기능을 제공할 수 있다.
일 실시예로서, 컴포넌트(1203)가 프로세서인 경우, 상기에서 언급한 음악 핑거프린트 추출기, 음악 식별기, 음악 분리부, 오디오 재합성부, 핑거프린트 생성부, 음악 구간 검출부 등이 제공하는 기능을 제공할 수 있다.
예를 들어, 프로세서는 원본 오디오의 핑거프린트를 추출하여 오디오 핑거프린트 DB에 저장하고, 콘텐츠에 포함된 오디오의 핑거프린트를 추출하고, 콘텐츠에 포함된 오디오의 핑거프린트에 대응되는 핑거프린트를 오디오 핑거프린트 DB에서 검색하되, 제1 오디오는 콘텐츠에서 검출된 음악 구간에 포함된 오디오 데이터일 수 있다. 또한, 프로세서는, 원본 오디오의 핑거프린트를 추출하고, 원본 오디오의 음악 신호와 비음악 신호를 분리 후 재합성하고, 재합성된 원본 오디오의 핑거프린트를 추출할 수 있다. 또한, 프로세서는, 재합성 시, 음악 신호를 증폭하고 비음악 신호를 감쇄하여 합성할 수 있다. 또한, 프로세서는, 원본 오디오의 핑거프린트를 재합성된 원본 오디오의 핑거프린트와 매핑할 수 있다. 또한, 프로세서는, 콘텐츠 내 오디오의 핑거프린트를 검색 시, 원본 오디오의 핑거프린트 및 상기 재합성된 원본 오디오 핑거프린트 모두에 대해 검색할 수 있다. 이러한 검색은 예를 들어 오디오 핑거프린트 DB에서 수행될 수 있다. 또한, 콘텐츠 내 오디오의 핑거프린트는, 재합성 이전의, 즉, 그대로의 콘텐츠 내 오디오의 핑거프린트 뿐 아니라 콘텐츠 내 오디오의 음악 신호와 비음악 신호를 분리 후 재합성된 콘텐츠 내 오디오의 핑거프린트를 포함할 수도 있다. 또한, 재합성된 콘텐츠 내 오디오의 핑거프린트는, 분리된 음악 신호를 증폭하고 분리된 비음악 신호를 감쇄 후 합성하여 생성될 수 있다. 또한, 콘텐츠 내에서 음악이 포함된 것으로 검출된 음악 구간은 콘텐츠에서 인공 신경망을 이용하여 검출될 수 있으며, 딥러닝 기법을 기반으로 할 수 있다.
한편, 도 12에 도시된 컴포넌트(1202, 1203) 외에 다른 컴포넌트가 더 포함될 수 있으며 다른 컴포넌트에 일 컴포넌트가 포함되는 것도 가능하며, 본 개시가 이에 한정되는 것은 아니다.
본 개시에 의하면, 동영상, 특히 드라마, 예능, 뉴스 등의 TV 방송 콘텐츠와 영화와 같은 영상 콘텐츠, 음성 콘텐츠 및 음악 콘텐츠를 포함한 다양한 콘텐츠에 포함된 배경음악을 식별할 수 있다. 더욱 상세하게는 콘텐츠에 음악 외 다른 소음이 포함되어 있더라도, 콘텐츠에 사용된 음악들이 배경음 혹은 전경음이라 하더라도 어떤 음악인지를 식별할 수 있다. 또한, 콘텐츠 전체구간 중 해당 음악이 사용된 구간을 알아냄으로써 콘텐츠에 사용된 음악 내역을 자동으로 생성할 수도 있다. 콘텐츠의 음악 사용 내역은 저작권료 산정에 활용될 수 있다. 예를 들어 방송 콘텐츠에 대한 음악 사용 내역은 방송 사용 음악 저작권료 분배를 위한 자료로 활용이 가능할 것이다. 또한, 소음이 많은 곳에서의 음악 콘텐츠 식별에 있어서도 본 개시의 적용이 가능할 것이다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 또한, 하나의 소프트웨어가 아닌 하나 이상의 소프트웨어의 결합에 의해 구현될 수 있으며, 일 주체가 모든 과정을 수행하지 않을 수 있다. 예를 들어, 고도의 데이터 연산 능력 및 방대한 메모리를 요구하는 딥러닝 과정은 클라우드나 서버에서 이루어지고, 사용자 측은 딥러닝이 완료된 인공 신경망만을 이용하는 방식으로 구현될 수도 있으며, 이에 한정되지 않음은 자명하다.
하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. 예를 들어, 상기 범용 프로세서를 포함한 다양한 형태를 띨 수도 있다. 하나 혹은 그 이상의 결합으로 이루어진 하드웨어로 개시될 수도 있음은 자명하다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행 가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.
일 실시예로서, 본 개시의 일 실시예에 따른 비-일시적 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램은, 컴퓨터에서, 원본 오디오의 핑거프린트를 추출하여 오디오 핑거프린트 DB에 저장하는 단계, 콘텐츠에 포함된 제1 오디오의 핑거프린트를 추출하는 단계 및 상기 제1 오디오의 핑거프린트에 대응되는 핑거프린트를 상기 오디오 핑거프린트 DB에서 검색하는 단계를 실행하되, 상기 제1 오디오는 상기 콘텐츠에서 검출된 음악 구간에 포함된 오디오 데이터일 수 있다.
한편, 각 도면을 참조하여 설명한 내용은 각 도면에만 한정되는 것은 아니며, 상반되는 내용이 없는 한 상호 보완적으로 적용될 수도 있다.
이상에서 설명한 본 개시는, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 개시의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로, 본 개시의 범위는 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
본 연구는 문화체육관광부 및 한국저작권위원회의 2021년도 저작권기술 연구개발 사업으로 수행되었음(과제명 : 딥러닝을 활용한 고속 음악 탐색 기술 개발, 과제번호 : 2021-hs-9500)
Claims (20)
- 콘텐츠에서 비디오와 오디오를 분리하는 단계;
상기 오디오를 분석하여 음악 구간을 검출하는 단계;
검출된 각 음악 구간 별로 음악 핑거프린트를 추출하는 단계;
상기 각 음악 구간 별 음악 핑거프린트를 음악 핑거프린트 DB에 각각 질의하여 제1 음악 식별을 수행하는 단계;
제1 음악 식별 수행 결과, 음악이 식별되지 않은 음악 구간은 해당 음악 구간의 오디오를 음악 분리부에 입력하여 음악과 비음악으로 분리하는 단계;
상기 음악과 비음악을 이용하여 상기 음악 구간의 오디오를 재합성하는 단계;
재합성된 오디오로부터 재합성된 오디오의 핑거프린트를 추출하는 단계;
추출된 재합성된 오디오의 핑거프린트를 상기 음악 핑거프린트 DB에 질의하여 제2 음악 식별을 수행하는 단계; 및
상기 제1 음악 식별의 결과 및 제2 음악 식별의 결과를 통합하여 전체 음악 식별 결과를 출력하는 단계를 포함하고,
상기 재합성된 오디오의 핑거프린트는,
상기 음악 신호를 증폭하고 상기 비음악 신호를 감쇄 후 재합성하여 생성되는, 콘텐츠 내 음악 식별 방법.
- 제1 항에 있어서,
상기 제1 음악 식별을 수행하는 단계는,
상기 음악 핑거프린트 DB에서 상기 각 음악 구간 별 음악 핑거프린트와 가장 유사한 것을 찾는 단계를 포함하는, 콘텐츠 내 음악 식별 방법.
- 제1 항에 있어서,
제1 항에 있어서, 상기 제2 음악 식별을 수행하는 단계는,
상기 음악 핑거프린트 DB에서 상기 추출된 재합성된 오디오의 핑거프린트와 가장 유사한 것을 찾는 단계를 포함하는, 콘텐츠 내 음악 식별 방법.
- 삭제
- 삭제
- 삭제
- 삭제
- 제1 항에 있어서,
상기 오디오 핑거프린트 DB는,
원본 오디오의 명칭, 발매일, 가수, 제작사 중 적어도 하나를 포함하는 오디오 메타 데이터를 포함하는, 콘텐츠 내 음악 식별 방법.
- 제1 항에 있어서,
상기 콘텐츠는 모노 채널, 스테레오 채널 혹은 그 이상의 채널을 갖는, 콘텐츠 내 음악 식별 방법.
- 제1 항에 있어서,
상기 검출된 음악 구간은
상기 콘텐츠에서 딥러닝 기법을 이용하여 검출되는, 콘텐츠 내 음악 식별 방법.
- 데이터를 저장하는 메모리;
상기 메모리를 제어하는 프로세서;를 포함하는 콘텐츠 내 음악 식별 장치에 있어서,
상기 프로세서는,
콘텐츠에서 비디오와 오디오를 분리하고,
상기 오디오를 분석하여 음악 구간을 검출하고,
검출된 각 음악 구간 별로 음악 핑거프린트를 추출하고,
상기 각 음악 구간 별 음악 핑거프린트를 음악 핑거프린트 DB에 각각 질의하여 제1 음악 식별을 수행하고,
제1 음악 식별 수행 결과, 음악이 식별되지 않은 음악 구간은 해당 음악 구간의 오디오를 음악 분리부에 입력하여 음악과 비음악으로 분리하고,
상기 음악과 비음악을 이용하여 상기 음악 구간의 오디오를 재합성하고,
재합성된 오디오로부터 재합성된 오디오의 핑거프린트를 추출하고,
추출된 재합성된 오디오의 핑거프린트를 상기 음악 핑거프린트 DB에 질의하여 제2 음악 식별을 수행하고, 및
상기 제1 음악 식별의 결과 및 제2 음악 식별의 결과를 통합하여 전체 음악 식별 결과를 출력하고,
상기 재합성된 오디오의 핑거프린트는,
상기 음악 신호를 증폭하고 상기 비음악 신호를 감쇄 후 재합성하여 생성되는, 콘텐츠 내 음악 식별 장치.
- 제11 항에 있어서,
상기 프로세서는,
상기 제1 음악 식별을 수행할 때, 상기 음악 핑거프린트 DB에서 상기 각 음악 구간 별 음악 핑거프린트와 가장 유사한 것을 찾도록 구성되는, 콘텐츠 내 음악 식별 장치.
- 제12 항에 있어서,
상기 프로세서는,
상기 제2 음악 식별을 수행할 때, 상기 음악 핑거프린트 DB에서 상기 추출된 재합성된 오디오의 핑거프린트와 가장 유사한 것을 찾도록 구성되는, 콘텐츠 내 음악 식별 장치.
- 삭제
- 삭제
- 삭제
- 삭제
- 제11 항에 있어서,
상기 콘텐츠는 모노 채널, 스테레오 채널 혹은 그 이상의 채널을 갖는, 콘텐츠 내 음악 식별 장치.
- 제11 항에 있어서,
상기 검출된 음악 구간은
상기 콘텐츠에서 딥러닝 기법을 이용하여 검출되는, 콘텐츠 내 음악 식별 장치.
- 비 일시적 컴퓨터 판독 가능한 매체에 저장된 컴퓨터 프로그램에 있어서,
컴퓨터에서,
콘텐츠에서 비디오와 오디오를 분리하는 단계;
상기 오디오를 분석하여 음악 구간을 검출하는 단계;
검출된 각 음악 구간 별로 음악 핑거프린트를 추출하는 단계;
상기 각 음악 구간 별 음악 핑거프린트를 음악 핑거프린트 DB에 각각 질의하여 제1 음악 식별을 수행하는 단계;
제1 음악 식별 수행 결과, 음악이 식별되지 않은 음악 구간은 해당 음악 구간의 오디오를 음악 분리부에 입력하여 음악과 비음악으로 분리하는 단계;
상기 음악과 비음악을 이용하여 상기 음악 구간의 오디오를 재합성하는 단계;
재합성된 오디오로부터 재합성된 오디오의 핑거프린트를 추출하는 단계;
추출된 재합성된 오디오의 핑거프린트를 상기 음악 핑거프린트 DB에 질의하여 제2 음악 식별을 수행하는 단계; 및
상기 제1 음악 식별의 결과 및 제2 음악 식별의 결과를 통합하여 전체 음악 식별 결과를 출력하는 단계를 실행하고,
상기 재합성된 오디오의 핑거프린트는,
상기 음악 신호를 증폭하고 상기 비음악 신호를 감쇄 후 재합성하여 생성되는, 매체에 저장된 컴퓨터 프로그램.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210157237A KR102611105B1 (ko) | 2021-11-16 | 2021-11-16 | 콘텐츠 내 음악 식별 장치 및 방법 |
US17/681,416 US20230153351A1 (en) | 2021-11-16 | 2022-02-25 | Method and apparatus for identifying music in content |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210157237A KR102611105B1 (ko) | 2021-11-16 | 2021-11-16 | 콘텐츠 내 음악 식별 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230071253A KR20230071253A (ko) | 2023-05-23 |
KR102611105B1 true KR102611105B1 (ko) | 2023-12-07 |
Family
ID=86323601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210157237A KR102611105B1 (ko) | 2021-11-16 | 2021-11-16 | 콘텐츠 내 음악 식별 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230153351A1 (ko) |
KR (1) | KR102611105B1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101315970B1 (ko) * | 2012-05-23 | 2013-10-08 | (주)엔써즈 | 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102037220B1 (ko) * | 2017-11-06 | 2019-10-29 | 주식회사 아이티밥 | 오디오 핑거프린트 매칭 시스템 |
-
2021
- 2021-11-16 KR KR1020210157237A patent/KR102611105B1/ko active IP Right Grant
-
2022
- 2022-02-25 US US17/681,416 patent/US20230153351A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101315970B1 (ko) * | 2012-05-23 | 2013-10-08 | (주)엔써즈 | 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법 |
Non-Patent Citations (1)
Title |
---|
김혜미, 허운행, 김정현, 박지현, 컨볼루션 신경망 기반 모노 채널 음악-대사 음원 분리 기술을 이용한 방송물 배경 음악 식별, 한국통신학회논문지,45(5), May. 2020 |
Also Published As
Publication number | Publication date |
---|---|
US20230153351A1 (en) | 2023-05-18 |
KR20230071253A (ko) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106973305B (zh) | 一种视频中不良内容的检测方法及装置 | |
US20180144194A1 (en) | Method and apparatus for classifying videos based on audio signals | |
US10540993B2 (en) | Audio fingerprinting based on audio energy characteristics | |
US20140161263A1 (en) | Facilitating recognition of real-time content | |
US10853433B2 (en) | Method and device for generating briefing | |
CN108307250B (zh) | 一种生成视频摘要的方法及装置 | |
KR101956373B1 (ko) | 요약 정보 생성 방법, 장치 및 서버 | |
EP3440564B1 (en) | Audio fingerprinting based on audio energy characteristics | |
KR102255152B1 (ko) | 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램 | |
KR20060020114A (ko) | 음악 검색 서비스 제공 시스템 및 방법 | |
CN110047497B (zh) | 背景音频信号滤除方法、装置及存储介质 | |
CN106550268B (zh) | 视频处理方法和视频处理装置 | |
CN111859011A (zh) | 音频处理方法、装置、存储介质及电子设备 | |
US20050027522A1 (en) | Speech recognition method and apparatus therefor | |
KR102611105B1 (ko) | 콘텐츠 내 음악 식별 장치 및 방법 | |
KR100916310B1 (ko) | 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법 | |
Kim et al. | Quick audio retrieval using multiple feature vectors | |
US9047916B2 (en) | Recording medium, category creating apparatus, and category creating method | |
JP2017518715A (ja) | 情報信号の指紋を生成するための方法及び装置 | |
US10958366B2 (en) | Method of recording a forthcoming telebroadcast program | |
JP6344849B2 (ja) | 映像識別器学習装置、及びプログラム | |
KR101303256B1 (ko) | 모르스 신호의 실시간 탐지 해독 장치 및 방법 | |
Kotsakis et al. | Feature-based language discrimination in radio productions via artificial neural training | |
KR102447554B1 (ko) | 오디오 핑거프린트 매칭을 기반으로하는 음원 인식 방법 및 장치 | |
US9953032B2 (en) | System and method for characterization of multimedia content signals using cores of a natural liquid architecture system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |