WO2018160007A1 - 멀티미디어 데이터를 처리하는 방법 및 장치 - Google Patents

멀티미디어 데이터를 처리하는 방법 및 장치 Download PDF

Info

Publication number
WO2018160007A1
WO2018160007A1 PCT/KR2018/002476 KR2018002476W WO2018160007A1 WO 2018160007 A1 WO2018160007 A1 WO 2018160007A1 KR 2018002476 W KR2018002476 W KR 2018002476W WO 2018160007 A1 WO2018160007 A1 WO 2018160007A1
Authority
WO
WIPO (PCT)
Prior art keywords
multimedia data
frame
multimedia
acquiring
information
Prior art date
Application number
PCT/KR2018/002476
Other languages
English (en)
French (fr)
Inventor
쉬츄르올렉산드르
김선경
야키쉰예브겐
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US16/489,626 priority Critical patent/US10819884B2/en
Priority to EP18760912.8A priority patent/EP3575989B1/en
Publication of WO2018160007A1 publication Critical patent/WO2018160007A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream

Definitions

  • Various embodiments of the present disclosure relate to a method and an apparatus for processing multimedia.
  • a user reproduces multimedia data using a storage medium such as a cassette tape or a compact disc (CD). Therefore, the multimedia data that the user can see or hear was limited.
  • a storage medium such as a cassette tape or a compact disc (CD). Therefore, the multimedia data that the user can see or hear was limited.
  • electronic devices such as mobile phones and MP3 players
  • users can store and play a plurality of multimedia data in electronic devices or play them in real time through the Internet. Therefore, the user can select and play multimedia data in more various ways than before.
  • the music provider provides metadata such as a producer, a composer, a singer, a genre, and the like so that the information of the music file can be confirmed by the users.
  • sound source providers provide users with a pre-listening service for the sound source.
  • metadata or preview service may not help users find the music they want.
  • 1 is a diagram illustrating a playback section for each sound source track for a general pre-listening service.
  • sound source tracks 1 to 4 each include a playback section for a pre-listening service.
  • the playback section included in each of the sound source tracks 1 to 4 is defined by the playback start points 110, 120, 130, and 140 and the playback end points 111, 121, 131, and 141 respectively corresponding thereto.
  • the playback start points 110, 120, 130, and 140 may be located at 0 seconds or may be fixedly positioned at a specific time point other than 0 seconds.
  • the playback start point is fixed so that the highlight section of the sound source track and the playback section for the pre-listening service cannot be exactly corresponded.
  • the section of the sound source track played for a preset time from the playback start point may not be a highlight section.
  • a method of performing music data analysis may be used.
  • the highlight interval can be provided most accurately.
  • the multimedia file is stored in a compressed form on the user device, the compressed data must be decompressed in order to obtain audio data where the preview / highlight / preview portion can be found. Since the mobile device requires additional time for decompression, such a method is not suitable for use in a mobile device. For example, 15 seconds is required to decompress a sound source track having a 5-minute playing time on a mobile device.
  • SNS social network services
  • cloud streaming music services
  • streaming music services and the like.
  • a method and apparatus for processing multimedia data may be provided.
  • a method and apparatus for acquiring feature information related to multimedia data may be provided.
  • a method and apparatus for quickly finding a highlight portion in multimedia data may be provided.
  • a method and apparatus for acquiring a tempo characteristic of multimedia data may be provided.
  • a method and apparatus for acquiring multimedia fingerprinting related to multimedia data may be provided.
  • a method and an apparatus for acquiring at least one of a thumbnail corresponding to a highlight portion of multimedia data, a video source synchronized to an audio source of the multimedia data, and summary information of the multimedia data may be provided.
  • a method of processing multimedia data comprising: parsing the multimedia data into at least one frame, partially decompressing the at least one frame, and at least one partially decompressed frame And extracting at least one metadata parameter from the at least one metadata parameter, and obtaining feature information related to the multimedia data using the at least one metadata parameter.
  • An apparatus for processing multimedia data comprising: a parser for parsing the multimedia data into at least one frame, and partially decompressing the at least one frame, from at least one partially decompressed frame And a controller configured to extract at least one metadata parameter and to obtain feature information related to the multimedia data using the at least one metadata parameter.
  • various feature information related to multimedia data may be obtained.
  • the highlight portion of the multimedia data may be found simply and quickly.
  • a portion of the sound source frame is decompressed without decompressing the entire sound source frame, thereby speeding up the search for the highlight portion.
  • memory consumption can be reduced.
  • the highlight portion since the highlight portion is not designated by the user, the highlight portion may be found in all the sound source files regardless of popularity / rareness, and there is no problem of invading privacy.
  • 1 is a diagram illustrating a playback section for each sound source track for a general pre-listening service.
  • FIG. 2 is a graph showing a group of curves generally used in connection with sound pressure level measurement.
  • FIG. 3 is a flowchart illustrating a method for finding a highlight section in a multimedia file according to an embodiment of the present disclosure.
  • 4A is a diagram illustrating a general process of decompressing an entire frame.
  • 4B is a diagram illustrating a process of partially decompressing at least one frame according to an embodiment of the present disclosure.
  • 5A is a structural diagram showing a general structure of an MP3 frame.
  • 5B is a diagram illustrating an example of a header field of an MP3 frame.
  • 5C is a diagram illustrating metadata parameters according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram illustrating a 3D graph representing values extracted in partial decompression according to an embodiment of the present disclosure.
  • 7A is a waveform diagram used to find a highlight section based on total decompression.
  • FIG. 7B illustrates a process of determining a highlight section using partial decompression of a multimedia file according to an embodiment of the present disclosure.
  • 8A and 8B are exemplary views of applying a method for finding a highlight section in a multimedia file according to an embodiment of the present disclosure to a mobile device.
  • 8C is a diagram illustrating an example of a pre-listening service to which a method for finding a highlight section according to an embodiment of the present disclosure is applied.
  • FIG. 9 is a diagram illustrating another method of obtaining feature information from multimedia data according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating another method of obtaining feature information from multimedia data according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram illustrating an internal configuration of a device according to an exemplary embodiment.
  • Various embodiments of the present disclosure provide a method and apparatus for processing multimedia data.
  • multimedia data included in a sound source file eg, an mp3 (Motion Picture Expert Group) -1 Audio Layer III (MPEG) file
  • the multimedia data may be multimedia data included in a sound source file and other multimedia files (eg, a video file such as an avi file).
  • the device is not limited to a mobile device, and may be a television (TV), a smart phone, a wearable, an Internet of Things (IoT), a headphone, or the like. Any one of these may be referred to as a terminal or a device.
  • TV television
  • smart phone smart phone
  • wearable an Internet of Things
  • IoT Internet of Things
  • headphone or the like. Any one of these may be referred to as a terminal or a device.
  • feature information related to multimedia data may be obtained.
  • the highlight portion of the multimedia data can be obtained.
  • the highlight section indicates a specific portion of the corresponding multimedia data provided by the preview or preview service of the multimedia data, and allows the buyer to intuitively know the contents of the multimedia data.
  • the highlight section may mean, for example, a section in which a sound is loudest in a specific section of multimedia data or a section in which a sum of metadata associated with a sound is largest.
  • coda and culmination can be defined as the most representative part. This is usually done by an orchestra tutti (a term that refers to the entire orchestra, not the soloist). This is the loudest part of music.
  • the composition of the music may be formed by a combination of A and B (eg, AABAABABA). Normally, B (chorus) is louder than A (clause).
  • the vertices can be the loudest / quickest part. In the case of an environmental track sound without change, any part may be representative.
  • the loudest sections can be considered as highlight sections, the most representative sections of music.
  • FIG. 2 is a graph showing a group of curves generally used in connection with sound pressure level measurement.
  • weights can be applied to the sound levels measured by the device to calculate the relative volume perceived as the human ear. For example, four weights shown in FIG. 2, that is, A weights among A weights, B weights, C weights, and D weights may be applied.
  • values listed as octave or third octave bands are applied arithmetically to the sound pressure level measured in dB.
  • the horizontal axis has a log scale unit
  • the vertical axis of the graph has a dB unit.
  • FIG. 3 is a flowchart illustrating a method of processing multimedia data according to an embodiment of the present disclosure.
  • a method of processing multimedia data may include: 310 parsing, by a device, encoded multimedia data (or a multimedia file) into at least one frame; Partially decompressing a frame of (320), extracting at least one metadata parameter from the at least one partially decompressed frame (330), and at least one metadata A process 340 of acquiring characteristic information of the multimedia data based on the parameter is included.
  • the acquiring of the feature information may include finding a highlight portion in the multimedia data, acquiring a tempo characteristic of the multimedia data, acquiring multimedia fingerprinting related to the multimedia data, and the like.
  • the acquiring of the feature information may include acquiring at least one of a thumbnail corresponding to a highlight portion of the multimedia data, a video source synchronized to an audio source of the multimedia data, and summary information of the multimedia data. have.
  • the multimedia data encoded as described above is parsed into at least one frame, the multimedia data consisting of a stream which is only a sign may be divided into meaningful frame units. Meanwhile, as will be described below, the method according to an embodiment of the present disclosure may target encoded multimedia data.
  • 4A is a diagram illustrating a general process of decompressing an entire frame.
  • multimedia data delivered to the bitstream is synchronized, and whether multimedia data delivered to the bitstream is checked for errors.
  • Multimedia data transmitted in the bitstream may be classified into Huffman code bits, Huffman information, and scale factor.
  • Huffman code bits, Huffman information, and scale factor are respectively decoded through the Huffman decoding process 402, the Huffman information decoding process 403, and the scale factor decoding process 404.
  • requantization process 405 the frequency lines of the decoded data are reconstructed.
  • the frequency line is reassembled according to the output order of the encoder in the case of including the short window of the subband.
  • the left and right audio signals are recovered from the encoded audio signal based on the reassembled frequency line in the realignment process 406. The audio signal is thus split into left and right channels.
  • Each of the audio signals divided into left and right channels includes an alias reduction process (408, 409), an inverse modified discrete cosine transform (IMDCT) process (410, 411), and a frequency. At least one entire frame is decompressed through a frequency inversion process 412 and 413 and a combination polyphase filterbank process 414 and 415.
  • IMDCT inverse modified discrete cosine transform
  • the process of decompressing the whole frame takes a long time because it goes through various processes as described above. For example, it takes 15 seconds to decompress an MP3 file. In the pre-listening service provided by the music provider, the 15 seconds required to decompress each MP3 file is a very long time. Therefore, it is necessary to reduce the time required for decompression in order to eliminate the waiting time for users to receive the pre-listening service.
  • 4B is a diagram illustrating a process of partially decompressing at least one frame according to an embodiment of the present disclosure.
  • the Huffman information decoding 423 is performed on the multimedia data transmitted in the bitstream.
  • specific information may be extracted from a multimedia file transmitted as a bitstream in the synchronization and error check process 421.
  • the specific information may include header information, cyclic redundancy check (CRC) information, side information, and the like.
  • the header information is information specifying at least one of a type of an MP3 file, a bitrate in transmission, and a sampling frequency
  • the CRC information is information for data integrity.
  • the side information includes scale factors and parameters necessary for decoding of data. Detailed description thereof will be described in the process of extracting the metadata parameter.
  • only Huffman information decoding 423 may be performed for partial decompression of a frame.
  • only Huffman information decoding 423 and scale factor decoding may be performed.
  • feature information such as a highlight part of the multimedia data may be obtained.
  • the method of decompressing a multimedia file according to FIG. 4A requires a lot of resources and takes a long time.
  • the time required for total decompression of the multimedia file according to FIG. 4A is 276.30 seconds.
  • the partial decompression method illustrated in FIG. 4B is used for the same multimedia file, only 3.45 seconds are required for partial decompression.
  • the partial decompression process according to an embodiment of the present disclosure improves the decompression speed by about 80 times as compared with the entire decompression process.
  • FIG. 5A is a structural diagram showing a general structure of an MP3 frame
  • FIG. 5B is an exemplary diagram showing an example of a header structure of an MP3 frame
  • 5C is a diagram illustrating metadata parameters according to an embodiment of the present disclosure.
  • one MP3 file includes an MP3 header and MP3 data.
  • the MP3 header and the MP3 data may be included in a plurality of MP3 files.
  • the MP3 file may include 4 bytes of information including location information such as ID3v2 x Metadata as a meta tag.
  • MP3 frame includes one MP3 header field and an MP3 data field.
  • MP3 header fields include MP3 Sync Word, Version, Layer, Error Protection, Bit Rate, Frequency, Pad. Bit, Priv. It may include fields such as Bit, Mode, Mode Extension, Copy, Original, and Emphasis.
  • FIG. 5B is a diagram illustrating an example of an MP3 header field of FIG. 5A.
  • the MP3 header field has information of FFFBA040
  • the Sync Word version is MPEG
  • the layer is Layer3
  • the error protection is No
  • the bit rate is 160
  • the frequency is 44100 Hz
  • the pad bit is Frame is not padded
  • Priv Bit is Unknown
  • Mode Joint Stereo
  • Mode Extension is Intensity Stereo off
  • MS Stereo Off Copy is Not Copy righted
  • Original is Copy of Original Media
  • Emphasis is None.
  • scale factors and side information may be extracted in order to obtain feature information (eg, a highlight part of the multimedia data) of the multimedia data.
  • the frame constituting the MP3 file can be divided into five sections.
  • the five sections may include a header, a cyclical redundancy check (CRC), side information, main data, and optional ancillary data.
  • CRC cyclical redundancy check
  • the main data can be coded audio data and includes a granule0 field and a granule1 field.
  • the granule0 field and granule1 field include a left channel field and a right channel field, respectively.
  • the left channel field and the right channel field include scale factors and Huffman code bits, respectively.
  • scale factors 502 and 503 and additional information 503 may be used to obtain feature information of multimedia data.
  • a metadata sequence may be obtained from scale factors 502 and 503 and additional information 501.
  • the metadata sequence may be expressed by a combination of global gain (glolbal_gain, hereinafter “glolbal_gain”) values and subblock gain (hereinafter, referred to as “subblock_gain”) values.
  • glolbal_gain global gain
  • subblock_gain subblock gain
  • multidimensional arrays of global_gains and subblock_gains are established by left and right channels, first and second granules.
  • the side information contains advanced fields needed to decompress MP3.
  • global_gain and subblock gain are used, but the additional information shown in time series may include more values. That is, the additional information may include a 0-big_values field, a 1-global_gain field, a 2-main_data end field, a 3-part2_3_length field, a 4-scalefac_compress field, and 5-ground verification data (the main theme determined by an expert).
  • a metadata sequence extracted from scale factors and additional information may be used.
  • the metadata sequence extracted from the scale factors and the side information may be used to determine the highlight section of the multimedia data. Summing using a sliding window may be considered to determine the highlight section of the multimedia data.
  • FIG. 7A is a waveform diagram used to find a highlight section based on total decompression
  • FIG. 7B illustrates a process of determining a highlight section using partial decompression of a multimedia file according to an exemplary embodiment of the present disclosure. .
  • the waveform shown in FIG. 7A shows a waveform when the sound source file is fully decompressed and the A-weighted curve is applied to the totally decompressed sound source file.
  • the sliding window may be used to find the position of the window having the largest sum of root mean squares (RMS).
  • RMS root mean squares
  • the waveform may be large in amplitude at certain portions 710.
  • a summation method using a sliding window by calculating the RMS value of the waveform may be used.
  • the size of the sliding window may be previously determined as the length of the audio fragment to be considered as the highlight section.
  • a typical MP3 MPEG Layer III, Version 1
  • the sample rate is usually 44100 Hz.
  • (1152/44100) * 1000 26ms per frame.
  • the sliding window is moved to a position for summing the next RMS values.
  • the sum of the RMS values for each sliding window may be determined based on the above-described method, and the portion where the cumulative sum of the RMS values is the maximum is determined as the highlight section.
  • the sum of the RMS values for the remaining sliding windows is sequentially 221, 223, 226, and 221.
  • the largest value among them is 226, which is the sum of the RMS values of the fourth sliding window, and a part related to the sum of the RMS values of the fourth sliding window is determined as the highlight section.
  • the highlight section may be determined as the sound volume. Therefore, when using only the factors related to the loudness, there is no significant difference in effectiveness from using the fully decompressed multimedia file.
  • the quality of search recognition of the highlight interval is only 2% deteriorated in the music collection with 84 music tracks, but the speed is reduced to the entire frame. It can be 80 times faster than decompression.
  • filtering may be applied when calculating the sum value using the sliding window.
  • some mp3 files have extreme values in the global_gain field in the first 100 mp3 frames.
  • the first frame and / or the last frame can be removed from the calculation.
  • extreme values and the like may be filtered out.
  • FIG. 8A and 8B are exemplary views of applying a method for finding a highlight section in a multimedia file according to an embodiment of the present disclosure to a mobile device.
  • a user may hear a sound source of a highlight section of an MP3 file only by hovering 810.
  • a user may select a next pre-listen button 822 while listening to a highlight section corresponding to a specific sound source.
  • the highlight section of the next sound source may be provided as a pre-listening.
  • the pre-hearing button 821 the highlight section of the previous sound source may be provided as the pre-hearing.
  • the highlight section for each sound source may not be limited to one. If there is one highlight section per MP3 file If the preview next button 822 is selected, the highlight section of the next MP3 file may be played. When there are two or more highlight sections per MP3 file When the pre-listen next button 822 is selected, the next highlight section of the corresponding MP3 file may be played. The user may also determine whether to apply the pre-listening function by using the pre-listening on / off button 820.
  • the playback start points 841, 851, 861, 871 are not fixed in the sound source tracks 1 to 4.
  • the playback end points 842, 852, 862, and 872 may be a point past a predetermined interval from the playback start points 841, 851, 861, and 871.
  • the predetermined section may be preset or determined in various forms.
  • FIG. 9 is a diagram illustrating another method of obtaining feature information from multimedia data according to an embodiment of the present disclosure.
  • a managed machine learning approach may be used.
  • the model 930 is obtained by learning 920 in a training database (music collection marked up by an expert) 910.
  • the partially decompressed 940 multimedia data is processed 950 by a trained machine learning algorithm and as a result feature information (eg, highlight interval, etc.) of the multimedia data can be obtained 960. .
  • Methods for obtaining feature information from metadata parameters extracted by partial decompression algorithms include dynamic time warping, hidden markov models, neural networks (LSTM) short term memory networks), convolution or recurrent such as GRU, deep autoencoders, etc., support vector machines logistic regression, and the like.
  • LSTM neural networks
  • convolution or recurrent such as GRU, deep autoencoders, etc.
  • support vector machines logistic regression and the like.
  • FIG. 10 is a diagram illustrating another method of obtaining feature information from multimedia data according to an embodiment of the present disclosure.
  • Similarity analysis refers to finding similar parts in a file. For example, in the case of a sound source such as pop / dance, the song structure usually has a repeating part (refraction sphere). For this reason, by applying signal processing methods to find self-similarity similarity in the audio signal, there is a possibility that the chorus portion in the sound source file is inferred.
  • MFCC Mel-frequency cepstral coefficients
  • Huffman table numbers depend on the tone characteristics of the individual granules in the MP3 frame.
  • clustering may be applied to the features describing the sound source file. Different sounding sound source fragments may be separated when clustering is applied. For highlight intervals, the most frequent cluster can be used for extraction.
  • VR highlight detection for music video clips is also possible. That is, highlight detection in VR is possible for users viewing music video clips in VR.
  • the possibility of user interaction in VR can be somewhat limited because the user cannot see the hand doing a search on the timeline.
  • the music video file includes both video tracks and audio tracks to be synchronized.
  • the highlight sections of the video image are synchronized with the highlights of the audio.
  • a ringtone may be extracted by automatically detecting a most expressive / representative portion of a song. It can be used when the user can simply extract the ringtone from the loudest selection of the sound source file.
  • NFC near field communication
  • the device may generate a thumbnail from the music video based on the sound source highlight interval extraction. Thumbnails use cases of video shown in NFC beam sharing are a combination of preview music use cases and video thumbnail generation use cases. The user can see the highlights of the video on the other device. This functionality may be made possible due to the very high validity of the disclosed algorithm.
  • the device may determine a tempo characteristic (eg, beats per minute (BPM) information) of a sound source using metadata parameters extracted from a partially decompressed frame. For example, the device may determine the BPM of the sound source track based on the global_gain value for each frame. The device may also determine the BPM by measuring the frequency of vibrations caused by the rhythm characteristics of the sound source based on FFT, autocorrelation, or other scheme for frequency analysis.
  • BPM beats per minute
  • the device may extract the DCT coefficients in the partial decompression step and extract a key constituting the sound source based on the extracted DCT coefficients.
  • the device may continuously reproduce the BPM and the extracted key determined previously.
  • the device may use the metadata parameter extracted from the partially decompressed frame to obtain multimedia fingerprinting associated with the multimedia data.
  • the device may calculate a hash value for data deduplication between frames or multimedia files of the multimedia based on the obtained multimedia fingerprinting.
  • the device may also retrieve information associated with the multimedia data based on the obtained multimedia fingerprinting.
  • the device can extract the multimedia fingerprinting and send it to the server.
  • the server retrieves the name and tag from the database based on multimedia fingerprinting and sends the retrieved name and tag to the device. If the user has the file 1.mp3, the multimedia fingerprinting is extracted from the file 1.mp3 and transmitted to the server, and the tag for the file may be received from the server such as cy-gangnam style.mp3.
  • FIG. 11 is a diagram illustrating an internal configuration of a device according to an exemplary embodiment.
  • the device 1100 or the controller 1100 that performs a method according to an embodiment of the present disclosure may include a parser 1110, a partial decompressor 1120, and a metadata parameter extractor 1130. ), The feature information acquisition unit 1140.
  • the parser 1110 parses the multimedia data of FIG. 3 into at least one frame 310.
  • the partial decompressor 1120 performs a process 320 to partially decompress at least one frame of FIG. 3.
  • the metadata parameter extractor 1130 extracts at least one metadata parameter from at least one partially decompressed frame (330).
  • the feature information acquirer 1140 performs a process 340 of obtaining feature information based on at least one metadata parameter of FIG. 3. Details are as described with reference to FIG. 3.
  • the controller including the parser 1110, the partial decompressor 1120, the metadata parameter extractor 1130, and the feature information acquirer 1140 may be operated by at least one processor.
  • FIGS. 2-11 are not intended to limit the scope of the present disclosure. That is, all of the components or steps of the operations described in FIGS. 2 to 11 are not to be construed as essential components for the implementation of the present disclosure, and a range that does not impair the essence of the present disclosure even if only a few components are included. It can be implemented within.
  • the above-described operations may be executed by the controller of a PC, a mobile device, or the like by reading and executing the program code stored in the memory device by a processor, the controller, or a central processing unit (CPU).
  • a processor the controller, or a central processing unit (CPU).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

본 개시는 멀티미디어 데이터에서 하이라이트 구간을 찾는 방법에 관한 것으로서, 상기 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱하는 과정과, 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정과, 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정과, 적어도 하나의 메타데이터 매개변수를 기반으로 상기 멀티미디어 데이터의 하이라이트 구간을 판단하는 과정을 포함한다.

Description

멀티미디어 데이터를 처리하는 방법 및 장치
본 개시의 다양한 실시 예들은 멀티미디어를 처리하는 방법 및 장치에 관한 것이다.
종래에는 사용자가 카세트 테잎이나 컴팩트 디스트(compact disc: CD) 등의 저장 매체를 이용하여 멀티미디어 데이터를 재생하였다. 따라서 사용자가 보거나 들을 수 있는 멀티미디어 데이터는 한정적일 수 밖에 없었다. 하지만 최근에는 휴대폰, MP3 플레이어 등의 전자 기기의 개발로 인해, 사용자는 다수의 멀티미디어 데이터를 전자기기 내에 파일로 저장하여 재생하거나, 인터넷을 통해 실시간으로 재생할 수 있게 되었다. 따라서 사용자는 기존에 비해 좀 더 다양한 방식으로 멀티미디어 데이터를 선택하여 재생할 수 있게 되었다.
음원 제공 사업자들은 사용자들에 의해 음원 파일의 정보가 확인될 수 있도록 제작자, 작곡가, 가수, 장르 등의 메타데이터를 제공한다. 또한 음원 제공 사업자들은 사용자들에게 음원에 대한 미리 듣기 서비스를 제공한다. 하지만 이러한 메타데이터나 미리 듣기 서비스는 사용자가 원하는 음악을 찾는데 도움이 되지 않을 수도 있다.
따라서 사용자로 하여금 음악 트랙 내 가장 중요한 부분, 즉 하이라이트 부분을 들을 수 있게 하는 것이 미리 듣기 서비스에서 가장 중요하다.
도 1은 일반적인 미리 듣기 서비스를 위한 각 음원 트랙 별 재생 구간을 나타낸 도면이다.
도 1을 참조하면, 음원 트랙 1 내지 4는 각각 미리 듣기 서비스를 위한 재생 구간을 포함한다. 음원 트랙 1 내지 4 각각에 포함되는 재생 구간은 재생 시작점(110, 120, 130, 140)과 이에 각각 대응되는 재생 종료점(111, 121, 131, 141)에 의해 정의된다.
재생 시작점(110, 120, 130, 140)은 0초에 위치하거나, 0초가 아닌 특정 시점에 고정적으로 위치할 수 있다.
도 1에 도시된 방법이 사용될 경우, 재생 시작점이 고정되어 있어 음원 트랙의 하이라이트 구간과 미리 듣기 서비스를 위한 재생 구간이 정확하게 대응될 수 없다는 문제가 있다. 예를 들어 재생 시작점이 음원 트랙이 시작된 후 1분이 경과한 시점으로 고정된 경우, 재생 시작점으로부터 미리 설정된 시간 동안 재생되는 음원 트랙의 구간은 하이라이트 구간이 아닐 수도 있다.
음원 트랙에서 하이라이트 구간을 결정하기 위한 다른 방식으로서 음악 데이터 분석을 수행하는 방법이 사용될 수 있다. 이러한 방법이 사용될 경우 하이라이트 구간이 가장 정확하게 제공될 수 있다. 하지만, 멀티미디어 파일은 사용자 장치에서 압축된 형태로 저장되기 때문에, 미리 듣기/하이라이트/미리 보기 부분을 찾을 수 있는 오디오 데이터를 얻기 위해서는 압축된 데이터를 압축 해제해야 한다. 모바일 기기에서는 압축 해제를 위해 추가적인 시간이 요구되므로 상기와 같은 방법을 모바일 기기에서 사용하기에는 적합하지 않다. 예를 들어, 5분의 재생 시간을 갖는 하나의 음원 트랙을 모바일 기기에서 압축 해제를 하기 위해서는 15초의 시간이 필요하기 때문이다.
음원 트랙에서 하이라이트 구간을 결정하기 위한 또 다른 방식으로서 소셜 네트워크 서비스들(social network services: SNS), 클라우드(cloud), 스트리밍(streaming) 음악 서비스 등을 이용하여 사용자들이 직접 음원 트랙의 하이라이트 구간을 지정하는 방법이 사용될 수 있다. 이 경우 하이라이트 구간이 지정되어 있으므로, 하이라이트 구간을 검색할 필요가 없다는 장점이 존재한다. 다만 이러한 방법은 비인기/희귀 음악에 대해서는 하이라이트 구간이 지정되지 않을 가능성이 높으며, 인터넷 연결이 필요하고, 사생활 침해에 대한 문제도 발생할 수 있다.
본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터를 처리하는 방법 및 장치를 제공할 수 있다.
본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터와 관련된 특징 정보를 획득하는 방법 및 장치를 제공할 수 있다.
본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터에서 하이라이트 부분을 빠르게 찾는 방법 및 장치를 제공할 수 있다.
본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터의 템포(tempo) 특성을 획득하는 방법 및 장치를 제공할 수 있다.
본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터와 관련된 멀티미디어 핑거프린팅(fingerprinting)을 획득하는 방법 및 장치를 제공할 수 있다.
본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터의 하이라이트 부분에 대응되는 썸네일, 상기 멀티미디어 데이터의 오디오 소스에 동기화된 비디오 소스 및 상기 멀티미디어 데이터의 요약 정보 중 적어도 하나를 획득하는 방법 및 장치를 제공할 수 있다.
본 개시의 일 실시 예에 따른 방법은; 멀티미디어 데이터를 처리하는 방법에 있어서, 상기 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱(parsing)하는 과정과, 상기 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정과, 상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정과, 상기 적어도 하나의 메타데이터 매개변수를 사용하여 상기 멀티미디어 데이터와 관련된 특징 정보를 획득하는 과정을 포함한다.
본 개시의 일 실시 예에 따른 장치는; 멀티미디어 데이터를 처리하는 장치에 있어서, 상기 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱(parsing)하는 파싱부와, 상기 적어도 하나의 프레임을 부분적으로 압축 해제하고, 상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하고, 상기 적어도 하나의 메타데이터 매개변수를 사용하여 상기 멀티미디어 데이터와 관련된 특징 정보를 획득하는 제어부를 포함한다.
본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터와 관련된 다양한 특징 정보를 획득할 수 있다.
본 개시의 다양한 실시 예에 따르면, 멀티미디어 데이터의 하이라이트 부분을 기존에 비해 간단하고 빠르게 찾을 수 있다.
본 개시의 다양한 실시 예에 따르면, 음원 프레임의 전체를 압축 해제 하지 않고 음원 프레임의 일부를 압축 해제하므로 하이라이트 부분을 찾는 속도가 빨라진다. 이와 더불어 음원 프레임의 일부를 압축 해제하므로 메모리 소비 용량을 줄일 수 있다.
본 개시의 다양한 실시 예에 따르면, 사용자에 의해 하이라이트 부분이 지정되지 않기 때문에 인기/희귀 정도와 무관하게 모든 음원 파일에서 하이라이트 부분을 찾을 수 있으며, 사생활 침해에 대한 문제도 발생하지 않는다.
도 1은 일반적인 미리 듣기 서비스를 위한 각 음원 트랙 별 재생 구간을 나타낸 도면이다.
도 2는 음압 레벨 측정과 관련하여 일반적으로 사용되는 곡선 그룹을 나타내는 그래프이다.
도 3은 본 개시의 일 실시 예에 따른 멀티미디어 파일에서 하이라이트 구간을 찾는 방법을 나타낸 순서도이다.
도 4a는 프레임 전체를 압축 해제하는 일반적인 과정을 나타낸 도면이다.
도 4b는 본 개시의 일 실시 예에 따른 적어도 하나의 프레임을 부분 압축 해제하는 과정을 나타낸 도면이다.
도 5a는 MP3 프레임의 일반적인 구조를 나타낸 구조도이다.
도 5b는 MP3 프레임의 헤더 필드의 예를 나타낸 도면이다.
도 5c는 본 개시의 일 실시 예에 따른 메타데이터 매개변수를 나타낸 도면이다.
도 6은 본 개시의 일 실시 예에 따른 부분 압축 해제에서 추출된 값들을 표현한 3차원 그래프를 나타낸 도면이다.
도 7a는 전체 압축 해제를 기반으로 하이라이트 구간을 찾기 위해 사용되는 파형도이다.
도 7b는 본 개시의 일 실시 예에 따른 멀티미디어 파일의 부분 압축 해제를 이용하여 하이라이트 구간을 판단하는 과정을 나타낸 도면이다.
도 8a 및 도 8b는 본 개시의 일 실시 예에 따른 멀티미디어 파일에서 하이라이트 구간을 찾는 방법을 모바일 기기에 적용한 예시도이다.
도 8c는 본 개시의 일 실시 예에 따른 하이라이트 구간을 찾는 방법이 적용된 미리 듣기 서비스의 일 예를 나타낸 도면이다.
도 9는 본 개시의 일 실시 예에 따른 멀티미디어 데이터에서 특징 정보를 획득하는 다른 방법을 나타낸 도면이다.
도 10은 본 개시의 일 실시 예에 따른 멀티미디어 데이터에서 특징 정보를 획득하는 또 다른 방법을 나타낸 도면이다.
도 11은 본 개시의 일 실시 예에 따른 디바이스의 내부 구성도이다.
이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 개시의 다양한 실시 예들은 멀티미디어 데이터를 처리하는 방법 및 장치를 제공한다.
이하에서는 음원 파일(예를 들어, mp3(MPEG(Motion Picture Expert Group)-1 Audio Layer III) 파일)에 포함되는 멀티미디어 데이터를 기반으로 본 개시의 다양한 실시 예들을 설명하기로 한다. 하지만, 멀티미디어 데이터는 음원 파일과 다른 멀티미디어 파일(예를 들어, avi 파일과 같은 동영상 파일)에 포함된 멀티미디어 데이터가 될 수도 있다.
또한, 본 개시의 다양한 실시 예들에 따른 장치는 모바일 기기에 한정되지 않으며, 텔레비젼(television: TV), 스마트 폰, 웨어러블, 사물인터넷(Internet of Things: IoT), 헤드폰 등이 될 수도 있고, 상기 기기들 중 어느 하나를 단말 또는 디바이스로 칭할 수도 있다.
본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터와 관련된 특징 정보가 획득될 수 있다. 하나의 예로서, 멀티미디어 데이터의 하이라이트 부분이 획득될 수 있다.
이에 대한 실시 예를 설명하기에 앞서, 하이라이트 구간의 정의와 음원 레벨 측정과 관련된 표준에서 정의된 곡선 그룹(group of curve)에 대해 살펴보기로 한다.
하이라이트 구간은 멀티미디어 데이터의 미리 보기 또는 미리 듣기 서비스에서 제공되는 해당 멀티미디어 데이터의 특정 부분을 나타내는 것으로서, 멀티미디어 데이터의 내용을 구매자가 직관적으로 알 수 있도록 한다. 하이라이트 구간은 일 예로 멀티미디어 데이터의 특정 구간 내에서 소리가 가장 큰 구간, 또는 소리와 관련된 메타데이터들의 합산 값이 가장 큰 구간을 의미할 수 있다.
대중 음악에 있어 절은 일반적으로 AABB 또는 ABAB 운율 체계로 이루어진다. 노래의 두 개 이상의 섹션이 거의 동일한 곡과 상이한 가사를 갖는 경우, 각 섹션은 하나의 절로 간주된다. 하지만 노래의 도입부는 노래의 시작 절 사이의 간주인 사전 절(pre-verse)과 혼동되어서는 안 된다. 그리고 후렴구는 서정적 또는 음악적으로 표현되는 주요 아이디어 또는 큰 그림을 포함한다. 후렴구는 노래 전체에 걸쳐서 반복되고, 멜로디와 가사는 거의 달라지지 않는다.
대부분의 클래식 음악의 경우, 종결부(coda) 및 정점(culmination)이 가장 대표적인 부분으로 정의될 수 있다. 이는 보통 오케스트라 튜티(tutti: 독주자가 아니라 오케스트라 전체를 나타내는 용어)에 의해 수행된다. 이것은 음악에서 가장 소리가 큰 부분이다.
락/팝/일렉트로닉의 경우, 대부분의 음악은 절-후렴구의 간단한 형태를 갖는다. 여기서, A가 절을 나타내고 B가 후렴구를 나타내는 경우, A와 B의 조합으로 곡 구성이 이루어질 수 있다(일 예로, AABAABABA 등). 보통, B(후렴구)는 A(절)보다 소리가 크다.
경험/환경/노이즈/기타(experimental/ambient/noise/etc) 음악 장르의 경우, 정점은 가장 소리가 크고/가장 빠른 부분(the loudest/quickest part)이 될 수 있다. 변화가 없는 환경 트랙 사운드의 경우, 임의의 부분이 대표적인 부분이 될 수 있다.
대부분의 장르에서, 가장 소리가 큰 구간이 음악의 가장 대표적인 구간인 하이라이트 구간으로서 간주될 수 있다.
도 2는 음압 레벨 측정과 관련하여 일반적으로 사용되는 곡선 그룹을 나타낸 그래프이다.
도 2를 참조하면, 음압 레벨 측정과 관련하여 사용될 수 있는 다양한 가중치의 그래프가 곡선 그룹으로서 정의되어 있다. 사람의 귀는 낮은 오디오 주파수에 덜 민감하기 때문에 사람의 귀로 인식되는 상대적 음량을 계산하기 위해 기기로 측정된 사운드 레벨에 가중치가 적용될 수 있다. 예를 들어, 도 2에 도시된 4가지 가중치 즉, A 가중치, B 가중치, C 가중치, D 가중치 중 A 가중치가 적용될 수 있다.
즉, dB단위로 측정된 음압 레벨에 옥타브 또는 제3 옥타브 대역으로 나열된 값들이 산술적으로 추가되어 적용된다. 도 2의 그래프에서 가로축은 로그 스케일(log scale) 단위를 갖고, 그래프의 세로축은 dB 단위를 갖는다.
이하, 본 개시의 다양한 실시 예들을 도면을 참조하여 상세히 설명한다.
도 3은 본 개시의 일 실시 예에 따른 멀티미디어 데이터를 처리하는 방법을 나타낸 순서도이다.
도 3을 참조하면, 본 개시의 일 실시 예에 따른 멀티미디어 데이터를 처리하는 방법은, 디바이스가 인코딩된 멀티미디어 데이터(또는 멀티미디어 파일)을 적어도 하나의 프레임으로 파싱하는 과정(310)과, 상기 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정(320)과, 상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수(parameter)를 추출하는 과정(330)과, 상기 적어도 하나의 메타데이터 매개변수를 기반으로 멀티미디어 데이터의 특징 정보를 획득하는 과정(340)을 포함한다.
상기 특징 정보를 획득하는 과정은 멀티미디어 데이터에서 하이라이트 부분을 찾는 과정, 멀티미디어 데이터의 템포(tempo) 특성을 획득하는 과정 및 멀티미디어 데이터와 관련된 멀티미디어 핑거프린팅(fingerprinting)을 획득하는 과정 등을 포함할 수 있다. 또한, 상기 특징 정보를 획득하는 과정은 멀티미디어 데이터의 하이라이트 부분에 대응되는 썸네일, 상기 멀티미디어 데이터의 오디오 소스에 동기화된 비디오 소스 및 상기 멀티미디어 데이터의 요약 정보 중 적어도 하나를 획득하는 과정 등을 포함할 수 있다.
상기와 같이 인코딩된 멀티미디어 데이터가 적어도 하나의 프레임으로 파싱됨에 따라, 부호에 불과한 스트림으로 이루어진 멀티미디어 데이터는 의미있는 프레임 단위로 구분될 수 있다. 한편, 아래에서 설명하겠지만, 본 개시의 일 실시 예에 따른 방법은 인코딩된 멀티미디어 데이터를 대상으로 할 수 있다.
도 4a는 프레임 전체를 압축 해제하는 일반적인 과정을 나타낸 도면이다.
도 4a를 참조하면, 동기화 및 에러 체크 과정(401)에서 비트스트림으로 전달되는 멀티미디어 데이터가 동기화되고, 비트스트림으로 전달되는 멀티미디어 데이터의 에러 여부가 체크된다. 비트스트림으로 전달되는 멀티미디어 데이터는 허프만 코드 비트들(Huffman code bits), 허프만 정보(Huffman information), 스케일 펙터(scale factor)로 분류될 수 있다.
허프만 코드 비트들, 허프만 정보, 스케일 팩터)는 각각 허프만 디코딩 과정(402), 허프만 정보 디코딩 과정(403), 스케일 펙터 디코딩 과정(404)을 통해 디코딩된다.
재양자화(requantization) 과정(405)에서 디코딩된 데이터의 주파수 라인이 재구성된다. 재정렬(reordering) 과정(406)에서 서브 밴드의 짧은 윈도우를 포함하는 경우에 인코더의 출력 순서에 따라 주파수 라인이 재조립된다. 조인트 스테레오 디코딩 과정(407)에서, 재정렬 과정(406)에서 재조립된 주파수 라인을 기반으로 인코딩된 오디오 신호로부터 좌측 및 우측 오디오 신호를 복원한다. 이에 따라 오디오 신호가 좌측 및 우측 채널들로 분할된다.
좌측 및 우측 채널들로 분할된 오디오 신호 각각은 에일리어스 저감 과정(alias reduction, 408, 409)과, 역변형 이산 코사인 변환(inverse modified discrete cosine transform: IMDCT) 과정(410, 411)과, 주파수 역변환 과정(frequency inversion, 412, 413)과, 조합 다상 필터뱅크 과정(synthesis polyphase filterbank, 414, 415)을 통해 적어도 하나의 프레임 전체가 압축 해제된다.
프레임 전체를 압축 해제하는 과정은 상기와 같은 여러 과정을 거치기 때문에 오랜 시간이 걸린다. 예를 들어, MP3 파일 하나를 압축 해제하는 데에 15초의 시간이 필요하다. 음원 제공 사업자가 제공하는 미리 듣기 서비스에 있어서, MP3 파일 1개당 압축 해제에 필요한 15초는 매우 긴 시간이다. 따라서 이용자들이 미리 듣기 서비스를 제공받는데 기다리는 시간을 없애기 위해 압축 해제에 필요한 시간을 줄일 필요가 있다.
도 4b는 본 개시의 일 실시 예에 따른 적어도 하나의 프레임을 부분 압축 해제하는 과정을 나타낸 도면이다.
도 4b를 참조하면, 비트스트림으로 전달되는 멀티미디어 데이터는 동기화 및 에러 체크 과정(421)에서 동기화 및 에러가 검출된 뒤, 허프만 정보 디코딩(423)이 수행된다.
구체적으로 동기화 및 에러 체크 과정(421)에서 비트스트림으로 전달되는 멀티미디어 파일에서 특정 정보가 추출될 수 있다. 특정 정보는 헤더 정보(header information), CRC(cyclic redundancy check) 정보, 그리고 부가 정보(side information) 등을 포함할 수 있다.
헤더 정보는 MP3 파일의 타입, 전송에 있어서 비트레이트(bitrate), 샘플링 주파수 중 적어도 하나를 특정하는 정보이고, CRC 정보는 데이터의 무결성을 위한 정보이다. 부가 정보는 스케일 펙터 및 데이터의 디코딩에 필요한 파라미터들을 포함한다. 이에 대한 상세한 설명은 메타데이터 매개변수를 추출하는 과정에서 설명하기로 한다.
도 4b에 나타난 바와 같이, 프레임의 부분 압축 해제는 허프만 정보 디코딩(423)만이 수행될 수 있다. 또는 허프만 정보 디코딩(423) 및 스케일 팩터 디코딩만이 수행될 수도 있다.
따라서 도 4a에 나타난 바와 같은 재양자화 과정 이후의 모든 과정이 수행되지 않더라도 멀티미디어 데이터의 하이라이트 부분 등과 같은 특징 정보가 획득될 수 있다.
도 4a에 따른 멀티미디어 파일을 압축 해제하는 방법은 많은 리소스를 필요로 하며, 많은 시간이 소요된다. 예를 들어 도 4a에 따른 멀티미디어 파일의 전체 압축 해제에 필요한 시간은 276.30초이다. 하지만 동일한 멀티미디어 파일에 도 4b에서 도시된 부분 압축 해제 방법이 사용되는 경우 부분 압축 해제에 3.45초만 필요하다. 결과적으로, 본 개시의 일 실시 예에 따른 부분 압축 해제 과정은 전체 압축 해제 과정의 경우보다 압축 해제 속도가 80배 정도 향상된다.
도 5a는 MP3 프레임의 일반적인 구조를 나타내는 구조도이고, 도 5b는 MP3 프레임의 헤더 구조의 예를 나타낸 예시도이다. 그리고 도 5c는 본 개시의 일 실시 예에 따른 메타데이터 매개변수를 나타내는 도면이다.
본 개시의 일 실시 예에 따른 메타데이터 매개변수를 추출하는 과정을 살펴보기에 앞서, 도 5a 및 도 5b를 참조하여 MP3 프레임의 구조를 간략하게 설명하면 다음과 같다.
도 5a에 도시된 바와 같이, 하나의 MP3 파일은 MP3 헤더(MP3 header) 및 MP3 데이터(MP3 data)를 포함한다. MP3 헤더 및 MP3 데이터는 MP3 파일 내에 다수개가 포함될 수 있다. MP3 파일은 ID3v2 x Metadata와 같은 위치 정보를 포함하는 4바이트의 정보를 메타태그로서 포함하고 있을 수 있다.
하나의 MP3 프레임은 하나의 MP3 헤더 필드와 MP3 데이터 필드를 포함한다. MP3 헤더 필드는 MP3 Sync Word, Version, Layer, Error Protection, Bit Rate, Frequency, Pad. Bit, Priv. Bit, Mode, Mode Extension, Copy, Original, Emphasis 등의 필드를 포함할 수 있다.
도 5b는 도 5a의 MP3 헤더 필드의 예를 나타낸 도면이다.
도 5b에 나타난 바와 같이, MP3 헤더 필드가 FFFBA040의 정보를 가질 때의 의미는 Sync Word version은 MPEG, layer는 Layer3, error protection은 No, Bit rate는 160, Frequency는 44100Hz, Pad bit는 Frame is not padded, Priv Bit는 Unknown, Mode는 Joint Stereo, Mode Extension은 Intensity Stereo off, MS Stereo Off, Copy는 Not Copy righted, Original은 Copy of Original Media, Emphasis는 None을 나타낸다.
본 개시의 다양한 실시 예들에 따른 멀티미디어 데이터의 특징 정보를 획득하는 방법에서는 도 5a에 도시된 모든 필드의 정보가 사용되지 않을 수 있다. 본 개시의 다양한 실시 예들에 따른 멀티미디어 데이터의 특징 정보를 획득하는 방법에서 필요한 정보는 도 5c에 도시된 바와 같다.
메타데이터 매개변수를 추출하는 과정에서 멀티미디어 데이터의 특징 정보(예를 들어, 멀티미디어 데이터의 하이라이트 부분 등)을 획득하기 위해 스케일 펙터들과 부가 정보(side information)가 추출될 수 있다.
MP3 파일을 구성하는 프레임은 크게 5가지의 섹션으로 분할될 수 있다. 5가지 섹션은 헤더(Header), CRC(cyclical redundancy check), 부가 정보(Side Information), 메인 데이터(Main data), 선택적인 보조 데이터(Ancillary data)를 포함할 수 있다.
메인 데이터는 코딩된 오디오 데이터가 될 수 있으며 granule0 필드와 granule1 필드를 포함한다. granule0 필드 및 granule1 필드는 각각 왼쪽 채널(left channel) 필드와 오른쪽 채널(right channel) 필드를 포함한다. 또한 왼쪽 채널 필드와 오른쪽 채널 필드는 각각 스케일 펙터들(scale factors)과 허프만 코드 비트들(Huffman code bits)을 포함한다.
본 개시의 다양한 실시 예에서는 멀티미디어 데이터의 특징 정보를 획득하기 위해, 스케일 펙터들(502)(503)과 부가 정보(503)가 이용될 수 있다. 특히 스케일 펙터들(502)(503)과 부가 정보(501)로부터 메타데이터 시퀀스가 획득될 수 있다.
메타데이터 시퀀스는 일 예로 다음 표 1에 나타난 바와 같이 글로벌 이득(glolbal_gain, 이하 ‘glolbal_gain’이라 칭함) 값들과 서브블록 이득(subblock_gain, 이하 ‘subblock_gain’이라 칭함) 값들의 조합으로 표현될 수 있다.
Figure PCTKR2018002476-appb-T000001
여기서, global_gain들 및 subblock_gain들의 다차원 어레이들은 왼쪽 및 오른쪽 채널, 제1 및 제2 그래뉼(granule)에 의해 확립된다.
실제 MP3 파일에 대해, 부분 압축 해제에서 추출된 값들을 3차원 그래픽으로 표현하면 도 6에 도시된 바와 같다.
부가 정보는 MP3를 압축 해제하는 데 필요한 고급 필드들이 포함되어 있다. 상술한 예에서는 global_gain 및 subblock gain이 이용되었지만, 시계 열로 도시된 부가 정보는 더 많은 값들을 포함할 수 있다. 즉, 부가 정보는 0-big_values 필드, 1-global_gain 필드, 2-main_data end 필드, 3-part2_3_length 필드, 4-scalefac_compress 필드, 5-지상 검증 자료(전문가가 결정한 메인 테마)를 포함할 수 있다.
적어도 하나의 메타데이터 매개변수에 기반하여 멀티미디어 데이터의 특징 정보를 획득하는 과정에서는 스케일 펙터들과 부가 정보로부터 추출된 메타데이터 시퀀스가 이용될 수 있다.
예를 들어, 스케일 펙터들과 부가 정보로부터 추출된 메타데이터 시퀀스는 멀티미디어 데이터의 하이라이트 구간을 판단하기 위해 사용될 수 있다. 멀티미디어 데이터의 하이라이트 구간을 판단하기 위해 슬라이딩 윈도우(sliding window)를 이용한 합산이 고려될 수 있다.
한편, 본 개시의 다양한 실시 예들에 따른 멀티미디어 파일의 하이라이트 구간을 판단하는 과정을 살펴보기 앞서, 하이라이트 구간을 판단하는데 일반적으로 이용되는 과정을 먼저 살펴보기로 한다.
도 7a는 전체 압축 해제를 기반으로 하이라이트 구간을 찾기 위해 사용되는 파형도이고, 도 7b는 본 개시의 일 실시 예에 따른 멀티미디어 파일의 부분 압축 해제를 이용하여 하이라이트 구간을 판단하는 과정을 나타낸 도면이다.
도 7a에 도시된 파형은 음원 파일이 전체 압축 해제되고 A-가중 곡선이 전체 압축 해제된 음원 파일에 적용된 경우의 파형을 나타내고 있다. 이러한 파형에서 슬라이딩 윈도우를 이용하여 RMS(root mean square)의 합이 최대인 윈도우의 위치가 발견될 수 있다. 도 7a에 도시된 바와 같이, 파형은 특정 부분(710)에서 진폭이 클 수 있다. 하나의 하이라이트 구간을 찾기 위해, 파형의 RMS 값을 계산해서 슬라이딩 윈도우를 이용한 합산 방법이 사용될 수 있다.
하나의 예로서, 시계열로 구성된 RMS 값이 56, 55, 51, 57, 58, 57, 54, 52인 경우를 설명하면 다음과 같다.
슬라이딩 윈도우의 크기가 4인 경우, 첫 번째 합은 56+55+51+57=219가 된다. 그 다음 두 번째 합은 55+51+57+58=221이 된다. 세 번째 합은 223, 네 번째 합은 226, 다섯 번째 합은 221이 된다. 가장 큰 값은 226이며, 이와 관련된 부분이 하이라이트 구간으로 결정될 수 있다.
도 7b를 참조하여, 본 개시의 일 실시 예에 따른 하이라이트 구간 판단 방법에 대해 알아본다.
각 프레임에서 부가 정보, 또는 부가 정보 및 메인 데이터로부터 추출된 시계열로 나열된 메타데이터 매개변수를 이용한다.
우선 슬라이딩 윈도우를 이용하여 누적합을 계산함에 있어서, 슬라이딩 윈도우의 크기는 하이라이트 구간으로 간주하고자 하는 오디오 단편의 길이로 미리 결정될 수 있다. 예를 들어, 전형적인 MP3(MPEG 계층 III, 버전 1)는 프레임 당 1152 샘플을 가지며, 샘플 속도는 보통 44100 Hz이다. 따라서, 프레임 당 (1152 / 44100) * 1000 = 26ms이다. 10초의 하이라이트 지속 시간을 갖고자 하면, 슬라이딩 윈도우의 길이는 10000/26 = 385 값으로 설정되어야 한다.
따라서, 우선 첫 번째 385 개의 RMS 값의 합이 계산되면 슬라이딩 윈도우는 다음 RMS 값을 합산하기 위한 위치로 이동된다. 이어, 첫 번째 385개의 RMS 값의 합에 다음 RMS 값을 추가하고 최초의 RMS 값을 뺀다.
상기와 같은 방법을 기반으로 슬라이딩 윈도우 별 RMS 값의 합이 결정될 수 있으며, 그 중 RMS 값의 누적합 결과값이 최대가 되는 부분이 하이라이트 구간으로 결정된다.
예를 들어, global_gain과 scale_factors의 조합 데이터가 56, 55, 51, 57, 58, 57, 54, 52이고, 슬라이딩 윈도우 크기가 4인 경우를 설명하면 다음과 같다.
첫 번째 슬라이딩 윈도우에 대한 RMS 값들(56, 55, 51, 57)의 합은 56+55+51+57=219가 된다. 그리고 나머지 슬라이딩 윈도우 별 RMS 값들의 합은 순차적으로 221, 223, 226, 221이 된다. 이 중 가장 큰 값은 226으로 4번째 슬라이딩 윈도우의 RMS 값들의 합산 값이며, 4번째 슬라이딩 윈도우의 RMS 값들의 합산 값에 관련된 부분이 하이라이트 구간으로 결정된다.
앞서 살펴본 바와 같이 하이라이트 구간은 소리 크기로 결정될 수 있다. 따라서, 소리 크기와 관련된 인자들만을 이용하는 경우, 전부 압축 해제된 멀티미디어 파일을 이용하는 것과 효과상 크게 차이가 나지 않는다.
즉, 부분적 압축 해제를 통한 메타데이터 매개변수를 이용하여 하이라이트 구간을 계산하는 경우, 하이라이트 구간의 검색 인식의 품질이 84개의 음악 트랙을 갖는 음악 컬렉션에서 단지 2%만 저하되었으나, 속도는 프레임 전체를 압축 해제하는 방법보다 80배 이상 빨라질 수 있다.
한편, 슬라이딩 윈도우를 이용하여 합산 값을 계산할 때 필터링이 적용될 수 있다. 예를 들어, 일부 mp3 파일은 처음 100개의 mp3 프레임에서 global_gain 필드의 극한 값을 갖는 경우가 있다. 따라서 첫 번째 프레임 및/또는 마지막 프레임은 계산에서 제거될 수 있다. 일부 다른 방법으로서 극한 값 등이 필터링될 수도 있다.
도 8a 및 도 8b는 본 개시의 일 실시 예에 따른 멀티미디어 파일에서 하이라이트 구간을 찾는 방법을 모바일 기기에 적용한 예시도이다. 도 8a를 참조하면, 사용자는 호버링(hovering)(810)만으로 MP3 파일의 하이라이트 구간의 음원을 들을 수 있다.
도 8b를 참조하면, 사용자는 특정 음원에 대응되는 하이라이트 구간을 듣는 중에 미리 듣기 다음 버튼(822)을 선택할 수 있다. 이 경우 다음 음원의 하이라이트 구간이 미리 듣기로서 제공될 수 있다. 또한, 사용자가 미리 듣기 이전 버튼(821)을 선택하는 경우, 이전 음원의 하이라이트 구간이 미리 듣기로서 제공될 수 있다.
하나의 음원 별 즉, MP3 파일 별 하이라이트 구간은 1개로 제한되지 않을 수 있다. 하이라이트 구간이 MP3 파일당 1개인 경우 미리 듣기 다음 버튼(822)이 선택된 경우 다음 MP3 파일의 하이라이트 구간이 재생될 수 있다. 하이라이트 구간이 MP3 파일당 2개 이상인 경우 미리 듣기 다음 버튼(822)이 선택된 경우 해당 MP3 파일의 다음 하이라이트 구간이 재생될 수 있다. 사용자는 미리 듣기 온/오프 버튼(820)을 이용하여 미리 듣기 기능의 적용 여부도 결정할 수 있다.
도 8c는 본 개시의 일 실시 예에 따른 하이라이트 구간을 찾는 방법이 적용된 미리 듣기 서비스의 일 예를 나타낸 도면이다. 음원 트랙1 내지 음원 트랙4에서 재생 시작점(841, 851, 861, 871)은 고정되어 있지 않다. 재생 종료점(842, 852, 862, 872)은 재생 시작점(841, 851, 861, 871)으로부터 일정 구간 지난 지점이 될 수 있다. 일정 구간은 미리 설정되거나 다양한 형태로 결정될 수 있다.
도 9는 본 개시의 일 실시 예에 따른 멀티미디어 데이터에서 특징 정보를 획득하는 다른 방법을 나타낸 도면이다.
도 9에 도시된 바와 같이 관리된 기계 학습 접근 방법이 사용될 수 있다. 학습 단계에서, 모델(930)은 훈련 데이터베이스(전문가에 의해 마크업(markup)된 음악 컬렉션)(910)에서 학습하는 것(920)에 의해 획득된다. 사용 단계에서, 부분적으로 압축 해제된(940) 멀티미디어 데이터는 훈련된 기계 학습 알고리즘에 의해 처리되고(950), 결과로서 멀티미디어 데이터의 특징 정보(일 예로, 하이라이트 구간 등) 획득될 수 있다(960).
부분적 압축 해제 알고리즘에서 추출된 메타데이터 매개변수들로부터 특징 정보를 획득하기 위한 방법들은 동적 시간 워핑(dynamic time warping), 은닉 마코브 모델(hidden markov models), 신경 네트워크(neural networks)(LSTM (long short term memory networks), GRU 등과 같은 회선 또는 반복(convolution or recurrent), 딥 자동인코더(deep autoencoders) 등), 지원 벡터 기계 로지스틱 회귀(support vector machines logistic regression) 등일 수 있지만, 이에 제한되지는 않는다.
도 10은 본 개시의 일 실시 예에 따른 멀티미디어 데이터에서 특징 정보를 획득하는 또 다른 방법을 나타낸 도면이다.
도 10을 참조하면, 본 개시의 일 실시 예에서 멀티미디어 데이터의 특징 정보를 획득하기 위해 산술 계산이 이용되지 않고, 멀티미디어 파일의 유사성 분석이 이용될 수 있다. 유사성 분석이란 하나의 파일에서 유사한 부분들을 발견하는 것을 나타낸다. 예를 들어, 팝/댄스 등의 음원의 경우, 노래 구조는 보통 반복 부분(후렴구)을 갖는다. 이러한 이유로, 오디오 신호에서 자체(self-similarity) 유사성을 발견하기 위한 신호 처리 방법들을 적용함으로써, 음원 파일에서 코러스 부분이 추론될 가능성이 있다.
음원 파일에서의 자체 유사성의 일 예이다. 이것은 가공하지 않은 PCM(pulse code modulation) 파일에서 추출된 MFCC(Mel-frequency cepstral coefficients) 특징들이다. 동일한 파일이 시프트 되면서 유사한 단편들이 도시된다.
부분적으로 압축 해제된 데이터에 대해 예를 들어, 허프만 테이블 번호는 MP3 프레임에서 개별적 그래뉼(granule)의 음색 특징에 의존한다.
이와는 다르게, 음원 파일을 기술하는 피처들에 클러스터링이 적용될 수 있다. 클러스터링이 적용될 경우 상이한 사운딩 음원 단편들이 분리될 수 있다. 하이라이트 구간들에 대해, 가장 빈번한 클러스터가 추출을 위해 사용될 수 있다.
한편, 음악 비디오 클립에 대한 VR 하이라이트 검출도 가능하다. 즉, VR에서 음악 비디오 클립을 보는 사용자들을 위한 VR에서의 하이라이트 검출이 가능하다. VR에서 사용자의 상호 작용 가능성은 사용자가 타임 라인에서 검색 작업을 하고 있는 손을 볼 수 없기 때문에 다소 제한될 수 있다.
당업자에게 음악 비디오 파일이 동기화되는 비디오 트랙과 오디오 트랙 모두를 포함하는 것은 명백하다. 오디오 트랙을 분석하고 개시된 방법을 사용하여 하이라이트 구간을 발견함으로써, 비디오 이미지의 하이라이트 구간들은 오디오의 하이라이트들과 동기화된다.
한편 본 개시의 다양한 실시 예에서는 곡의 가장 표현이 풍부한/대표적인 부분을 자동 검출함으로써 벨소리를 추출할 수 있다. 사용자가 음원 파일의 가장 큰 소리 선택으로부터 벨소리를 간단하게 추출할 수 있을 때에 사용될 수 있다.
또한 하나의 디바이스에서 NFC(near field communication)빔(S-빔)을 사용하여 다른 디바이스로 음원 파일을 전달하여, 다른 디바이스에서 음원 미리 듣기를 수행할 수도 있다.
그리고 디바이스는 음원 하이라이트 구간 추출을 기반으로 하는 음악 비디오로부터의 썸네일을 생성할 수 있다. NFC 빔 공유에서 보여진 비디오의 썸네일(thumbnails) 사용 사례는 미리 듣기 음악 사용 사례 및 비디오 썸네일 생성 사용 사례의 조합이다. 사용자는 다른 장치에서 비디오의 하이라이트를 볼 수 있다. 이러한 기능은 개시된 알고리즘의 매우 높은 유효성으로 인해 가능해질 수 있다.
추가적으로, 디바이스는 부분적으로 압축 해제된 프레임으로부터 추출된 메타데이터 매개변수를 사용하여 음원의 템포(tempo) 특성(일 예로, BPM(beats per minute) 정보)을 판단할 수 있다. 예를 들어, 디바이스는 프레임 별 global_gain 값을 기반으로 음원 트랙의 BPM을 판단할 수 있다. 또한, 디바이스는 FFT, 자기 상관, 또는 빈도 분석을 위한 다른 방식을 기반으로 음원의 리듬 특성으로 야기되는 진동의 빈도를 측정하여 BPM을 판단할 수도 있다. 허프먼 코드 테이블 번호, DCT(discrete cosine transform) 계수(coefficients)와 같은 메타데이터 매개변수가 부분적인 압축 해제된 프레임으로부터 추출될 경우, BPM 판단의 정확도는 더욱 증가될 수 있다.
한편, 디바이스는 부분 압축 해제 단계에서 DCT 계수를 추출하고, 상기 추출된 DCT 계수를 기반으로 음원을 구성하는 키를 추출할 수 있다. 이 경우, 디바이스는 앞서 판단된 BPM과 추출된 키를 믹싱하여 연속으로 재생할 수 있다.
디바이스는 부분적으로 압축 해제된 프레임으로부터 추출된 메타데이터 매개변수를 사용하여 멀티미디어 데이터와 관련된 멀티미디어 핑거프린팅(fingerprinting)을 획득할 수 있다. 디바이스는 획득된 멀티미디어 핑거프린팅을 기반으로 멀티미디어의 프레임들 또는 멀티미디어 파일들 간 데이터 중복제거를 위한 해쉬 값을 계산할 수 있다. 또한, 디바이스는 획득된 멀티미디어 핑거프린팅을 기반으로 멀티미디어 데이터와 연관된 정보를 검색할 수도 있다.
예를 들어, 사용자가 이름 또는 태그가 없는 멀티미디어 파일을 가지고 있을 경우, 디바이스는 멀티미디어 핑거프린팅을 추출하여 서버로 송신할 수 있다. 그러면, 서버는 멀티미디어 핑거프린팅을 기반으로 데이터베이스에서 이름 및 태그를 검색하고, 검색된 이름 및 태그를 디바이스로 송신한다. 만약 사용자가 파일 1.mp3를 가지고 있을 경우, 파일 1.mp3로부터 멀티미디어 핑거프린팅이 추출되어 서버로 송신되며, 상기 서버로부터 싸이-강남스타일.mp3와 같이 파일에 대한 태그가 수신될 수 있다.
도 11은 본 개시의 일 실시 예에 따른 디바이스의 내부 구성도이다.
도 11을 참조하면, 본 개시의 일 실시 예에 따른 방법을 수행하는 디바이스(1100) 또는 제어부(1100)는 파싱부(1110), 부분 압축 해제부(1120), 메타 데이터 매개 변수 추출부(1130), 특징 정보 획득부(1140)을 포함한다.
파싱부(1110)는 도 3의 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱하는 과정(310)을 수행한다. 부분 압축 해제부(1120)는 도 3의 적어도 하나의 프레임을 부분 압축 해제하는 과정(320)을 수행한다. 메타 데이터 매개 변수 추출부(1130)는 부분 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타 데이터 매개변수를 추출하는 과정(330)을 수행한다. 특징 정보 획득부(1140)는 도 3의 적어도 하나의 메타 데이터 매개 변수을 기반으로 특징 정보를 획득하는 과정(340)을 수행한다. 구체적인 내용은 도 3에서 설명한 바와 같다.
파싱부(1110), 부분 압축 해제부(1120), 메타 데이터 매개 변수 추출부(1130), 특징 정보 획득부(1140)를 포함하는 제어부는 적어도 하나의 프로세서에 의해 동작될 수 있다.
상기 도 2 내지 도 11에 예시된 도면들은 본 개시의 권리범위를 한정하기 위한 의도가 없음을 유의하여야 한다. 즉, 상기 도 2 내지 도 11에 기재된 모든 구성부, 또는 동작의 단계가 본 개시의 실시를 위한 필수구성요소인 것으로 해석되어서는 안되며, 일부 구성요소 만을 포함하여도 본 개시의 본질을 해치지 않는 범위 내에서 구현될 수 있다.
앞서 설명한 동작들은 PC, 모바일 기기 등의 제어부는 메모리 장치 내에 저장된 프로그램 코드를 프로세서, 제어부, 혹은 중앙 처리 장치(central processing unit: CPU)에 의해 읽어내어 실행함으로써 앞서 설명한 동작들을 실행할 수 있다.
한편 본 개시의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims (11)

  1. 멀티미디어 데이터를 처리하는 방법에 있어서,
    상기 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱(parsing)하는 과정과,
    상기 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정과,
    상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정과,
    상기 적어도 하나의 메타데이터 매개변수를 사용하여 상기 멀티미디어 데이터와 관련된 특징 정보를 획득하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
  2. 제1항에 있어서,
    상기 특징 정보를 획득하는 과정은 상기 멀티미디어 데이터의 하이라이트 부분을 획득하는 과정을 포함하는 특징으로 하는 멀티미디어 데이터를 처리하는 방법.
  3. 제2항에 있어서,
    상기 멀티미디어 데이터의 하이라이트 부분을 획득하는 과정은,
    미리 결정된 시구간을 갖는 각 슬라이딩 윈도우 내의 적어도 하나의 프레임으로부터 메타데이터 매개변수들을 추출하는 과정과,
    상기 각 슬라이딩 윈도우 내의 적어도 하나의 프레임으로부터 추출된 메타데이터 매개변수들을 합산하여 상기 각 슬라이딩 윈도우 별 합산 값을 생성하는 과정과,
    상기 각 슬라이딩 윈도우 별 합산 값 중 최대 합산 값에 대응하는 슬라이딩 윈도우에 해당되는 부분을 상기 하이라이트 부분으로 판단하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
  4. 제3항에 있어서,
    상기 멀티미디어 데이터가 MP3(Motion Picture Expert Group (MPEG)-1 Audio Layer III) 인코딩 방식을 기반으로 인코딩된 멀티미디어 데이터인 경우, 상기 각 슬라이딩 윈도우 내의 적어도 하나의 프레임으로부터 추출된 메타데이터 매개변수들은 해당 프레임의 부가 정보(side information) 및 메인 데이터로부터 추출된 것임을 특징으로 하는 멀티미디어 데이터를 처리하는 방법.
  5. 제4항에 있어서,
    상기 부가 정보는 글로벌 이득(global_gain) 필드에 포함된 정보이며, 상기 메인 데이터는 스케일 펙터들(scale_factors) 필드에 포함된 정보임을 특징으로 하는 멀티미디어 데이터를 처리하는 방법.
  6. 제1항에 있어서,
    상기 특징 정보를 획득하는 과정은 상기 멀티미디어 데이터의 템포(tempo) 특성을 획득하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
  7. 제1항에 있어서,
    상기 특징 정보를 획득하는 과정은 상기 멀티미디어 데이터와 관련된 멀티미디어 핑거프린팅(fingerprinting)을 획득하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
  8. 제7항에 있어서,
    상기 멀티미디어 핑거프린팅을 기반으로 멀티미디어 데이터 중복 제거를 위한 해쉬 값을 계산하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
  9. 제7항에 있어서,
    상기 멀티미디어 핑거프린팅을 기반으로 상기 멀티미디어 데이터와 연관된 정보를 검색하는 과정을 더 포함하는 멀티미디어 데이터를 처리하는 방법.
  10. 제1항에 있어서,
    상기 특징 정보를 획득하는 과정은 상기 멀티미디어 데이터의 하이라이트 부분에 대응되는 썸네일, 상기 멀티미디어 데이터의 오디오 소스에 동기화된 비디오 소스 및 상기 멀티미디어 데이터의 요약 정보 중 적어도 하나를 획득하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
  11. 멀티미디어 데이터를 처리하는 장치에 있어서, 상기 장치는 제1항 내지 제10항 중 하나를 수행하도록 구성됨을 특징으로 하는 멀티미디어 데이터를 처리하는 장치.
PCT/KR2018/002476 2017-02-28 2018-02-28 멀티미디어 데이터를 처리하는 방법 및 장치 WO2018160007A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/489,626 US10819884B2 (en) 2017-02-28 2018-02-28 Method and device for processing multimedia data
EP18760912.8A EP3575989B1 (en) 2017-02-28 2018-02-28 Method and device for processing multimedia data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0026767 2017-02-28
KR1020170026767A KR102431737B1 (ko) 2017-02-28 2017-02-28 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치

Publications (1)

Publication Number Publication Date
WO2018160007A1 true WO2018160007A1 (ko) 2018-09-07

Family

ID=63371083

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/002476 WO2018160007A1 (ko) 2017-02-28 2018-02-28 멀티미디어 데이터를 처리하는 방법 및 장치

Country Status (4)

Country Link
US (1) US10819884B2 (ko)
EP (1) EP3575989B1 (ko)
KR (1) KR102431737B1 (ko)
WO (1) WO2018160007A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102177854B1 (ko) * 2018-12-10 2020-11-11 서울대학교 산학협력단 개인화된 하이라이트 동영상 생성 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263162A (ja) * 2002-03-07 2003-09-19 Yamaha Corp 音楽データのテンポ推定方法および装置
JP2005331940A (ja) * 2004-05-07 2005-12-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2011059504A (ja) * 2009-09-11 2011-03-24 Victor Co Of Japan Ltd コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
KR20130057868A (ko) * 2011-11-24 2013-06-03 엘지전자 주식회사 휴대 단말기 및 그 동작방법
KR20130058939A (ko) * 2011-11-28 2013-06-05 한국전자통신연구원 음악 하이라이트 구간 추출 장치 및 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1364469A2 (en) * 2001-02-20 2003-11-26 Caron S. Ellis Enhanced radio systems and methods
EP1616275A1 (en) 2003-04-14 2006-01-18 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis
TWI273562B (en) 2004-09-01 2007-02-11 Via Tech Inc Decoding method and apparatus for MP3 decoder
WO2007020544A2 (en) 2005-08-12 2007-02-22 Koninklijke Philips Electronics N.V. Method and apparatus for extracting feature information from a multimedia file
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
KR20130134195A (ko) * 2012-05-30 2013-12-10 삼성전자주식회사 오디오 스트림을 고속 시각화시키는 전자 장치 및 방법
US10108633B2 (en) * 2014-12-27 2018-10-23 Ascava, Inc. Using a distributed prime data sieve for efficient lossless reduction, search, and retrieval of data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263162A (ja) * 2002-03-07 2003-09-19 Yamaha Corp 音楽データのテンポ推定方法および装置
JP2005331940A (ja) * 2004-05-07 2005-12-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2011059504A (ja) * 2009-09-11 2011-03-24 Victor Co Of Japan Ltd コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
KR20130057868A (ko) * 2011-11-24 2013-06-03 엘지전자 주식회사 휴대 단말기 및 그 동작방법
KR20130058939A (ko) * 2011-11-28 2013-06-05 한국전자통신연구원 음악 하이라이트 구간 추출 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3575989A4 *

Also Published As

Publication number Publication date
US20200028993A1 (en) 2020-01-23
US10819884B2 (en) 2020-10-27
EP3575989B1 (en) 2023-07-19
KR20180099375A (ko) 2018-09-05
EP3575989A1 (en) 2019-12-04
KR102431737B1 (ko) 2022-08-11
EP3575989A4 (en) 2020-01-15

Similar Documents

Publication Publication Date Title
US9251796B2 (en) Methods and systems for disambiguation of an identification of a sample of a media stream
US6748360B2 (en) System for selling a product utilizing audio content identification
Cano et al. Robust sound modeling for song detection in broadcast audio
JP2005322401A (ja) メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム
JP4243862B2 (ja) コンテンツ利用装置およびコンテンツ利用方法
JP2006504115A (ja) 楽曲識別システムおよび方法
JPWO2002047066A1 (ja) コンテンツ検索装置及び方法並びに通信システム及び方法
KR20060049375A (ko) 콘텐츠 이용장치, 콘텐츠 이용방법, 분배 서버 장치, 정보분배 방법 및 기록 매체
KR20040026634A (ko) 특징량 추출장치
WO2018160007A1 (ko) 멀티미디어 데이터를 처리하는 방법 및 장치
KR20050003457A (ko) 신호 처리 방법 및 장치
KR20080107143A (ko) 오디오 신호처리 기반의 음악 및 동영상 추천 시스템 및방법
JP2004334160A (ja) 特徴量抽出装置
Chickanbanjar Comparative analysis between audio fingerprinting algorithms
KR20030069569A (ko) 인터넷을 이용한 원격 멀티미디어 재생 및 검색 방법
JP2001265779A (ja) 音響検索方法
JP2023091483A (ja) 格納装置、再生装置、格納方法、再生方法、データ構造、及びプログラム
KR20230091455A (ko) 사운드 이펙트 효과 설정 방법
JP2013162370A (ja) 画像音声処理装置及び画像音声処理プログラム
JP2018136363A (ja) 音楽画像出力装置、音楽画像出力方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18760912

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018760912

Country of ref document: EP

Effective date: 20190828