WO2015032243A1 - 一种音乐节目信息获取方法和设备 - Google Patents

一种音乐节目信息获取方法和设备 Download PDF

Info

Publication number
WO2015032243A1
WO2015032243A1 PCT/CN2014/082516 CN2014082516W WO2015032243A1 WO 2015032243 A1 WO2015032243 A1 WO 2015032243A1 CN 2014082516 W CN2014082516 W CN 2014082516W WO 2015032243 A1 WO2015032243 A1 WO 2015032243A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
information
fingerprint
song
music program
Prior art date
Application number
PCT/CN2014/082516
Other languages
English (en)
French (fr)
Inventor
李鹏
Original Assignee
网易(杭州)网络有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 网易(杭州)网络有限公司 filed Critical 网易(杭州)网络有限公司
Publication of WO2015032243A1 publication Critical patent/WO2015032243A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • Embodiments of the present invention relate to the field of multimedia processing, and more particularly, embodiments of the present invention relate to a music program information acquisition method and apparatus. Background technique
  • Audio terminal products provide audio content to users to provide audio playback services to users.
  • an audio terminal product that provides a music program listening service has appeared.
  • Music programs often contain different forms of audio content, such as music content, language content, and the like.
  • a user listens to a music program he or she usually wants to obtain information about the music program, and in particular, wants to obtain a list of songs played by the music program, so that when the user listens to the favorite song, the collection is repeated, so that the user can repeat the listening or searching.
  • an audio terminal product often cannot provide a song list of a music program, the user cannot know the content of the music program, and cannot obtain the name of the song or the like when listening to the favorite song. For collection and retrieval.
  • embodiments of the present invention are directed to providing a music program information acquisition method and apparatus.
  • a method for acquiring music program information including: acquiring an audio file corresponding to a music program to be processed, performing automatic recognition processing on the audio file, and obtaining a recognition result;
  • the music program information is displayed based on the recognition result, the music program information including at least song list information.
  • a music program information acquiring apparatus including:
  • the identification device is configured to acquire an audio file corresponding to the music program to be processed, perform automatic recognition processing on the audio file, and obtain a recognition result;
  • the display device is configured to display music program information according to the recognition result, the music program information including at least song list information.
  • the music program information acquisition method and device can perform automatic recognition processing on the audio file corresponding to the music program to be processed, and display the music program information including the song list according to the obtained recognition result, and solve the problem.
  • the problem of the music program information cannot be obtained when listening to the music program, so that the user can obtain the music program information while listening to the music program, which brings a better experience to the user.
  • FIG. 1 schematically illustrates a block diagram of an exemplary computing system 100 that is suitable for implementing embodiments of the present invention
  • FIG. 2 schematically illustrates an application scenario in accordance with an embodiment of the present invention
  • FIG. 3 is a schematic view showing an embodiment of a method for acquiring music program information according to the present invention.
  • FIG. 4 is a schematic diagram showing the results of a spectrogram calculated from a song signal
  • FIG. 5 is a schematic diagram showing an audio fingerprint in a piece of audio
  • FIG. 6 is a schematic diagram showing an inverted index form in the form of a ha s h table in a fingerprint library
  • FIG. 7 is a schematic diagram showing a matching of audio data of a music program with a music fingerprint of a single song
  • FIG. 8 is a schematic diagram showing an audio fingerprint matching process according to another embodiment of the present invention.
  • FIG. 9 is a schematic diagram showing matching results between a current audio segment and each song according to an embodiment of the present invention.
  • FIG. 10 is a schematic diagram showing an audio file recognition result according to an embodiment of the present invention.
  • FIG. 11 is a schematic diagram showing a fingerprint adding process according to an embodiment of the present invention.
  • FIG. 12 is a schematic diagram showing the music program information acquiring apparatus of the present invention.
  • FIG. 1 shows a block diagram of an exemplary computing system 100 suitable for implementing embodiments of the present invention.
  • computing system 100 can include: a central processing unit (CPU) 101, a random access memory (RAM) 102, a read only memory (ROM) 103, a system bus 104, a hard disk controller 105, and a keyboard controller 106.
  • a CPU 101 coupled to the system bus 104 are a CPU 101, a RAM 102, a ROM 103, a hard disk controller 105, a keyboard controller 106, a serial controller 107, a parallel controller 108, and a display controller 109.
  • the hard disk 110 is coupled to the hard disk controller 105
  • the keyboard 111 is coupled to the keyboard controller 106
  • the serial external device 112 is coupled to the serial interface controller 107
  • the parallel external device 11 is coupled to the parallel interface controller 108
  • the display 114 is displayed Controller 109 is coupled.
  • embodiments of the present invention can be implemented as a system, method, or computer program product. Accordingly, the present disclosure may be embodied in the form of: complete hardware, complete software (including firmware, resident software, microcode, etc.), or a combination of hardware and software, generally referred to herein as "circuitry," Module “or” system. Moreover, in some embodiments, the invention can also be embodied in the form of a computer program product embodied in one or more computer readable medium(s) including computer readable program code.
  • the computer readable medium can be a computer readable signal medium or a computer readable storage medium.
  • the computer readable storage medium can be, for example, but It is not limited to electrical, magnetic, optical, electromagnetic, infrared, or semiconductor systems, devices, or devices, or any combination of the above.
  • Computer readable storage media may include, for example, electrical connections having one or more wires, a portable computer disk, a hard disk, a random access memory (RAM), a read only memory (ROM) Erasable programmable read only memory (EPR0M or flash memory), optical fiber, portable compact disk read only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the foregoing.
  • a computer readable storage medium can be any tangible medium that can contain or store a program, which can be used by or in connection with an instruction execution system, apparatus, or device.
  • the computer readable signal medium may comprise a data signal that is propagated in the baseband or as part of a carrier, carrying computer readable program code. Such propagated data signals can take a variety of forms including, but not limited to, electromagnetic signals, optical signals, or any suitable combination of the foregoing.
  • the computer readable signal medium can also be any computer readable medium other than a computer readable storage medium, which can transmit, propagate, or transport a program for use by or in connection with an instruction execution system, apparatus, or device. .
  • Program code embodied on a computer readable medium can be transmitted by any suitable medium, including but not limited to wireless, wire, fiber optic cable, RF, etc., or any suitable combination of the foregoing.
  • the computer program code for performing the operations of the present invention may be written in one or more programming languages, or a combination thereof, including an object oriented programming language such as Java, Sma ll lk, C++ also includes a conventional procedural programming language such as the "C" language or a similar programming language.
  • the program code may execute entirely on the user's computer, partly on the user's computer, as a stand-alone software package, partly on the user's computer, partly on the remote computer, or entirely on the remote computer or server.
  • the remote computer can be connected to the user's computer through any kind of network, including a local area network (LAN) or wide area network (WAN), or can be connected to an external computer (eg, using an Internet service provider to access the Internet) connection).
  • LAN local area network
  • WAN wide area network
  • an external computer eg, using an Internet service provider to access the Internet
  • Embodiments of the present invention will be described below with reference to flowchart illustrations of the method of the embodiments of the invention and a block diagram of a device (or system). It will be understood that each block of the flowchart illustrations and/or FIG.
  • the computer program instructions can be provided to a general purpose computer, a special purpose computer, or a processor of other programmable data processing apparatus to produce a machine, the computer program instructions being executed by a computer or other programmable data processing apparatus, resulting in an implementation flow diagram And/or means of function/operation as specified in the boxes in the block diagram.
  • These computer program instructions may also be stored in a computer readable medium that enables a computer or other programmable data processing device to operate in a particular manner, such that instructions stored in the computer readable medium are A product is generated that includes instruction means for implementing the functions/operations specified in the blocks of the flowchart and/or block diagram.
  • Computer program instructions may also be loaded onto a computer, other programmable data processing device, or other device such that a series of operational steps are performed on a computer, other programmable data processing device, or other device to produce a computer-implemented
  • the processes are such that instructions executed on a computer or other programmable device can provide a process for implementing the functions/operations specified in the blocks of the flowcharts and/or block diagrams.
  • the inventors have found that when a user listens to a music program, he or she usually wants to obtain related information of the music program, in particular, it is desirable to obtain a list of songs played by the music program, so that when the user listens to the favorite song, the collection is convenient for repeated listening. Or retrieval, in the prior art, audio terminal products often cannot provide a list of songs of a music program, the user cannot know the content of the music program, and cannot obtain the information such as the name of the song when listening to the favorite song. Collect and retrieve.
  • the invention provides a method and a device for acquiring music program information, which can automatically recognize and process an audio file corresponding to a music program to be processed, according to the obtained problem that the music program information cannot be obtained when the user listens to the music program in the prior art, according to the obtained
  • the recognition result displays the music program information including the song list, and solves the problem that the music program information cannot be obtained when the music program is listened to in the prior art, so that the user can obtain the music program information while listening to the music program, which brings better to the user.
  • a scenario that can be applied to an embodiment of the present invention may be, for example, an audio terminal as shown in FIG. 2 to implement acquisition and display of music program information.
  • FIG. 3 is a flowchart of an implementation manner of a method for acquiring music program information according to the present disclosure
  • the embodiment may specifically include:
  • S301 Acquire an audio file corresponding to the music program to be processed, and perform automatic recognition processing on the audio file to obtain a recognition result.
  • the audio file corresponding to the to-be-processed program is first obtained.
  • the audio file may be pre-processed in advance. For example, it may include, corresponding to the input audio file, decoding it into original audio data. Further, the audio data can be reprocessed at a predetermined sampling rate.
  • step S301 can be implemented by the following steps:
  • the audio file corresponding to the music program to be processed is first divided to obtain a plurality of audio segments.
  • the specific division manner may be various.
  • the audio file/audio data may be divided at preset time intervals (for example, the audio data is divided into multiple audio segments according to an interval of 8 seconds); or, the preset may be The interception parameter divides the audio data into a number of audio segments of unequal length; or, the audio data may be divided into a plurality of segments according to audio features inherent in the audio data, such as a tempo.
  • the specific implementation may be very flexible, and the present invention does not limit this as long as it can ensure that at least one audio segment can be intercepted from each song included in the music program.
  • the intercepted audio segment can be expressed as:
  • a song lasts for at least 1 minute, so appropriate intercept parameters can be set to ensure that at least one audio clip can be truncated from each song included in the music program. For example, you can set the sum length of ⁇ and 30S. Of course, in order to improve the accuracy of the recognition, it is also possible to set the duration of the sum to a shorter time, such as 1 OS.
  • S 301B respectively extracting audio fingerprint information of the plurality of audio segments, where the audio fingerprint information is used to represent signal features of the audio segment.
  • signal analysis processing is performed on each of the obtained plurality of audio segments, and audio fingerprint information for characterizing the signal characteristics of the audio segment is extracted.
  • the performing signal analysis processing on the plurality of audio segments separately includes: performing signal spectrum analysis processing on the plurality of audio segments separately; performing signal energy analysis processing on the plurality of audio segments respectively; The plurality of audio segments are respectively subjected to pitch and beat analysis processing.
  • the means for the above specific analysis may be used singly or in combination, and the present invention is not limited thereto, and any implementation manner in which signal characteristic information of an audio segment can be obtained by signal analysis processing is within the protection scope of the present invention.
  • the extracted signal feature information includes, but is not limited to, feature point information in the signal spectrum, and may include, for example, a maximum value point, a minimum value point, a mutation point, and the like; a pitch, a beat, a melody, and the like of the music.
  • the audio fingerprint information of the audio segment is extracted in a possible implementation manner. It should be understood by those skilled in the art that the following is merely illustrative, and is not considered as a limitation of the present invention. The manners can be very diverse and flexible, and other implementations obtained by those skilled in the art without creative efforts are within the scope of the present invention.
  • the example provided by this embodiment of the present invention may specifically include: calculating a sound spectrum map for the input audio signal.
  • the spectrogram FFT size is set to 1024.
  • the sliding window size is set to 512.
  • Window function selection Hamming window As shown in Figure 4, the results of the spectrogram calculated from a song signal are shown. After obtaining the spectrogram, for each frame in the spectrogram (corresponding to each column in the graph), find the first N frequency components with the largest energy in the frame, and determine whether the energy of these frequency components is greater than the preset. Threshold T. If so, the position of the frequency component in the spectrogram (f rame, f requency) is recorded. After scanning the complete spectrogram, you can select some important feature points as shown in the circle in Figure 4, and each point has corresponding position information.
  • the fingerprint data is generated.
  • the form of the fingerprint can be: Where is the eigenvalue in the form of a vector, and t is the timestamp position at which the fingerprint occurs (which may correspond to a certain time).
  • (frame, frequency) data of each feature point can be directly used as a fingerprint. That is: use the frequency value as the fingerprint; use the frame value as the timestamp t of the fingerprint. Since there are multiple feature points, a set of fingerprint data can be extracted from a piece of audio. The audio fingerprint is stored as a numerical value with time stamp information to record the temporal position of the feature in the audio. Finally, the fingerprint in a piece of audio can be represented as shown in Figure 5.
  • S 301C Match the audio fingerprint information of the extracted audio segment with the audio fingerprint in the preset fingerprint database to obtain a matching result.
  • a fingerprint library is established in advance, and the fingerprint library includes audio fingerprint information and song identification information of each song.
  • the music library is pre-established, the audio fingerprint of each song in the music library is extracted, and then the audio fingerprint of the song is organized in a certain data structure to establish a fingerprint database.
  • the audio fingerprint data can be stored in the inverted index form in the form of a ha sh table. As shown in FIG. 6, an inverted index diagram in the form of a hash table in the fingerprint library is provided.
  • the audio fingerprint of each song may be extracted according to the manner provided in step S 301B, and then the vector value of the fingerprint is used as the key value (key value) of the hash table to establish an inverted index in the form of a hash table, and the hash table is formed. Click to save the song ID and time stamp (f rame ) data for the song.
  • FIG. 7 is a schematic diagram of matching the audio data of the music program with the music fingerprint of the single.
  • the music fingerprint of the t 3-t 7 time period in the music program matches the music fingerprint of the t l-t 5 time period in the single song.
  • the pruning strategy may be adopted, and those are ignored. There are no matching songs to improve the speed of song fingerprint matching search.
  • step S301C can be implemented by the following process:
  • a match count counter may be set for each song in the music library (or fingerprint library), initialized to 0. Assume that a corresponding set of fingerprint data has been extracted from the audio clip. Then, for each fingerprint data, using its vector form feature f as the key, and finding the corresponding bucket in the inverted index (ie, the linked list, composed of multiple nodes), each song in the bucket generates a match with the current segment. , the song counts + 1. After all scans are completed, the total number of matches for each audio segment in the audio segment and the music library corresponding to the current query request can be obtained.
  • S803. Determine whether the total number of matches corresponding to the song is greater than a first preset threshold. If yes, go to step S804.
  • S804. Record identification information of the song.
  • the song whose total matching number of songs is greater than the first preset value is the candidate matching song.
  • the matching method provided by the present invention only performs an accurate search of the candidate matching songs.
  • S806. Determine whether the identification information of the song corresponding to the audio fingerprint in the fingerprint database has been recorded. If yes, go to step S807; if no, skip the song. In this way, when the fingerprint of the fingerprint database is scanned again, the non-candidate matching songs are skipped, and the scanning efficiency is improved, so that the matching can be quickly and accurately found.
  • S807. Calculate time difference information of the audio fingerprint in the fingerprint library and the audio fingerprint of the current audio segment.
  • time difference information is a difference between a time stamp of an audio fingerprint in the fingerprint database and a time stamp of an audio fingerprint of the current audio segment.
  • Fig. 7 a schematic diagram of matching the audio data of a music program with the music fingerprint of a single track. Among them, the music fingerprint of the - ⁇ time period in the music program matches the music fingerprint of the t l-t 5 time period in the single song. There are the following correspondences:
  • the time difference corresponds to the starting position of the audio segment in the song, and the song corresponding to the time difference with the most occurrence is the song matching the audio segment. Based on this, the present invention determines the songs that match the audio segments in the following manner.
  • determining, by using the obtained time difference information, the song that matches the current audio segment may include: establishing a correspondence between the time difference and the song identifier; counting the number of times the obtained time difference occurs; and appearing the obtained time difference Sort the number of times, get the time difference with the most occurrences; judge the time difference Whether the corresponding occurrence number value is greater than the second preset threshold, and if yes, acquiring the song identifier corresponding to the time difference, and using the song corresponding to the song identifier as the song matching the audio segment.
  • a counter can be set for each possible time difference in each song.
  • the time difference is calculated, and then the counter of the time difference is added to the song to increase the speed and efficiency of the calculation.
  • FIG. 9 a schematic diagram of matching the current audio clip with each song is shown. Determining, from the time difference, the time difference that occurs the most times, and determining whether the number of occurrences corresponding to the time difference is greater than a preset second threshold, and if yes, acquiring a song identifier corresponding to the time difference with the most occurrences, and identifying the song The corresponding song is a song that matches the audio segment.
  • the music program information may be further displayed according to the obtained recognition result, the music program information including at least the song list information.
  • a schematic diagram of the results of the audio file is identified.
  • each audio segment obtains a corresponding recognition matching result. If the matching is successful, the matching result is a song. If the matching fails, the audio segment cannot be found in the music library.
  • step 301 ensures that each song included in the music program corresponds to at least one audio segment, the corresponding audio segments can be successfully matched for the songs included in the music program, and for a million-level music library, Guarantee to cover songs in music programs.
  • each song may correspond to multiple audio segments, a situation in which multiple audio segments are matched to the same song is generated.
  • the matching result needs to be processed, and the repeated results are combined.
  • the specific implementation can be implemented as needed. Then, based on the obtained recognition result, the music program information including the song list is displayed. Specifically, it can be as shown in the application scenario of the present invention.
  • the method may further include:
  • paragraph mark information of the audio content in the music program may be analyzed, and the paragraph mark information is used to represent start and/or end time information of the respective audio content.
  • a typical DJ music program it generally contains music content and language content.
  • DJ music program there is a DJ narration, and then a music song is played. After the song is over, the DJ has a corresponding comment.
  • DJ narration ie, language content
  • users listen to music programs they often have the desire to skip or ignore DJ narration (ie, language content) and play music content directly.
  • the prior art does not provide such convenience to the user.
  • it can be fast Quickly analyze the position of the passages of music, language content in music programs, and mark these locations.
  • the user listens to the music program it provides accurate division of the paragraphs in each piece of audio content, which is convenient for the user to quickly locate the audio passage and switch the content progress.
  • the program does not require manual intervention and the entire process can be automated.
  • the present invention may save time information of the audio segment when the audio file is divided, and the time information includes start and/or end time information of the audio segment.
  • the paragraph mark information indicating the audio content of the music program according to the recognition result includes: paragraph mark information indicating the audio content of the music program according to the start and/or end time information of the audio segment and the recognition result.
  • the recognition result indicates that the audio segment does not match the song, determining that the audio segment is language content; then acquiring time information of the audio segment, and using the time information as the language content Paragraph mark information.
  • the recognition result indicates that the audio segment matches the corresponding song, determining that the audio segment is music content; acquiring time information of the audio segment, using the time information as paragraph mark information of the music content .
  • step 301 a plurality of audio segments are intercepted from the music program, and each audio segment may correspond to a song, or may be a DJ narration, or It may be the junction of the two.
  • the audio clip of the corresponding song will match the song, and the audio clip corresponding to the DJ narration will fail to match.
  • the audio clip corresponding to the intersection of the two may match the song, or the match may fail (depending on this)
  • the ratio of the length of the song to the length of the narration in the audio clip can be considered as a DJ narration fragment (ie, language content).
  • the rough position of the DJ narration in the original music program can be obtained.
  • a smaller intercept length can be set, for example, set to 5-8 seconds, so that the positioning accuracy of the DJ narration position can be on the order of several seconds to meet common needs. For example, you can divide the entire DJ program into multiple sub-segments, each of which lasts 8 seconds. Then each fingerprint is fingerprint matched.
  • a clip corresponds to 33-40 seconds in the DJ program and matches to song XXX, then 33-40 seconds in the DJ program is considered to be song XXX.
  • the DJ program is 33 to 40 seconds for the DJ narration. After matching all the segments, the starting and ending positions of the music part and the DJ narration part of the entire DJ program can be obtained. Since each clip lasts only 8 seconds, the positioning accuracy is guaranteed to be around a few seconds.
  • the method provided by the present invention may further include: S304. Jump to the time position corresponding to the paragraph mark in response to clicking the trigger of the paragraph mark; play the corresponding part of the audio file from the time position.
  • the method provided by the present invention can not only display the paragraph mark information of the audio content of the music program, but also realize the automatic jump and switch of the audio file in response to the punishment of the click of the user, so as to satisfy the user.
  • the present invention can pre-establish a fingerprint library.
  • the audio fingerprints of all songs can be extracted, and the songs can be classified according to the heat + language, for example, by Chinese, Japanese, Korean, and European.
  • the corresponding song fingerprints in each class are then merged into a hash table and finally stored as a configuration file.
  • all the hash data is read out from the configuration file and loaded into the memory at one time to improve the data processing speed.
  • a method for injecting a fingerprint is provided, and audio fingerprint information corresponding to a new song may be added to the fingerprint library, so as to specify a ha during the normal working process of the identification process. Add a fingerprint of the song to the sh table (the cartridge is called the dynamic table).
  • FIG. 11 is a schematic diagram of a fingerprint adding process according to another embodiment of the present invention.
  • the dynamic table and the backup table dynamic new real-time addition of the audio fingerprint information is provided when the automatic identification function is provided.
  • the specific implementation is as follows: When the audio fingerprint information corresponding to the new song is added to the fingerprint library, the dynamic table for storing the audio fingerprint information is locked, and the backup table for backing up the audio fingerprint information is activated. At this time, the dynamic table is no longer used to provide the automatic identification function, but as the storage object of the audio fingerprint information; if the automatic identification function needs to be provided at this time, the audio fingerprint in the backup table is used for the corresponding automatic identification processing.
  • the audio fingerprint information corresponding to the new song to be added is saved in the dynamic table; determining whether the dynamic table is full; if yes, releasing the dynamic table Lock, back up the audio fingerprint in the dynamic table to the specified location; create a new dynamic table, and empty the backup table; if not, unlock the dynamic table, lock the backup table; the audio corresponding to the new song to be added.
  • the fingerprint information is saved to the backup table, and the backup table is unlocked, and the process of adding an audio fingerprint is ended.
  • a new audio fingerprint can be dynamically added/injected in real time to facilitate updating the fingerprint database and improve the accuracy of automatic recognition.
  • the method provided by the present invention can realize the automatic identification processing of the audio file corresponding to the music program to be processed. , to display music program information including a music program list according to the obtained recognition result.
  • the method provided by the present invention is based on an audio fingerprinting technology, and inputs audio files into Line signal analysis, extracting the audio fingerprint from it, and then matching and matching the extracted audio fingerprint with the audio fingerprint in the preset fingerprint database to obtain a matching result. After the matching result is processed, the song information and the paragraph position information in the music program are obtained.
  • the invention can automatically obtain the music program list information, and provide the paragraph mark information of the audio content of the music program, and can realize the switching and jumping of the audio content according to the trigger of the user, thereby providing the user with a better experience.
  • the method of the present invention achieves better precision for music programs in which language and music are mixed, and achieves satisfactory results in a range of whole music libraries containing various styles of songs.
  • FIG. 12 it is a schematic diagram of a music program information acquiring device provided by the present invention, where the device may include:
  • the identification device 1201 is configured to acquire an audio file corresponding to the music program to be processed, and perform automatic recognition processing on the audio file to obtain a recognition result.
  • the display device 1202 is configured to display music program information according to the recognition result, and the music program information includes at least song list information.
  • the identifying device includes:
  • a dividing unit configured to divide the audio file to obtain a plurality of audio segment elements.
  • an extracting unit configured to respectively extract audio fingerprint information of the plurality of audio segments, wherein the audio fingerprint information is used to represent a signal feature of the audio segment.
  • the matching unit is configured to match the audio fingerprint information of the extracted audio segment with the audio fingerprint in the preset fingerprint database to obtain a matching result.
  • the extracting unit is specifically configured to:
  • the extracting unit may include any one of the following processing manners when performing signal analysis processing on the plurality of audio segments:
  • the matching unit includes:
  • the first scanning unit is configured to scan an audio fingerprint in the preset fingerprint database, obtain song information corresponding to the audio fingerprint that matches the audio fingerprint of the current audio segment, and a total number of matches corresponding to the song;
  • a recording unit configured to determine whether a total number of matches corresponding to the song is greater than a first preset threshold, and if yes, record identification information of the song;
  • a calculating unit configured to scan an audio fingerprint in the preset fingerprint database again, determine whether the identification information of the song corresponding to the audio fingerprint in the fingerprint database has been recorded, and if yes, calculate the fingerprint database The time difference information between the audio fingerprint and the audio fingerprint of the current audio segment; wherein the time difference information is a difference between a time stamp of the audio fingerprint in the fingerprint library and a time stamp of the audio fingerprint of the current audio segment Value
  • a determining unit configured to traverse the preset fingerprint database, and use the obtained time difference information to determine a song that matches the current audio segment.
  • the determining unit includes:
  • an establishing unit configured to establish a correspondence between a time difference and a song identifier
  • a statistical unit configured to count the number of times the obtained time difference occurs
  • an obtaining unit configured to sort the times when the obtained time difference occurs, and obtain a time difference with the most occurrences; and determine whether the value of the occurrence number corresponding to the time difference is greater than a second preset threshold, and if yes, obtain the time difference
  • Corresponding song identifier the song corresponding to the song identifier is used as a song matching the audio segment.
  • the display device is further configured to:
  • the paragraph mark information of the audio content of the music program is displayed based on the recognition result; wherein the music program includes a plurality of audio contents, and the paragraph mark information is used to characterize start and/or stop time information of the respective audio contents.
  • the device further includes:
  • a jump device configured to jump to the time position corresponding to the paragraph mark in response to triggering the click on the paragraph mark
  • the playback device is configured to play a corresponding portion of the audio file from the time position.
  • the dividing unit is further configured to save time information of the audio segment when the audio file is divided, where the time information includes the audio The start and/or end time information of the segment; Then the display device is specifically used to:
  • the paragraph mark information of the audio content of the music program is displayed based on the start and/or end time information of the audio clip and the recognition result.
  • the display device is specifically configured to:
  • the display device is specifically configured to:
  • the device further includes:
  • the fingerprint library establishing device is configured to pre-establish a fingerprint database, wherein the fingerprint library includes audio fingerprint information and song identification information of each song.
  • the device further includes:
  • a fingerprint adding device configured to add audio fingerprint information corresponding to the new song to the fingerprint library.
  • the fingerprint adding device includes:
  • a pre-processing unit configured to: when adding the audio fingerprint information corresponding to the new song to the fingerprint library, lock the dynamic table for storing the audio fingerprint information, and activate a backup table for backing up the audio fingerprint information;
  • a determining unit configured to determine whether the dynamic table is full
  • an adding unit configured to save audio fingerprint information corresponding to a new song to be added to the new dynamic table
  • the first processing unit is configured to receive a determination result of the determining unit, and when the determining result indicates that the dynamic table is full, unlocking the dynamic table, and backing up the audio fingerprint in the dynamic table to the designated location; Creating a new dynamic table, saving the audio fingerprint information corresponding to the new song to be added to the new dynamic table, and clearing the backup table;
  • a second processing unit configured to receive a determination result of the determining unit, when the determining result indicates that the dynamic table is not full, unlocking the dynamic table, locking the backup table; corresponding to the new song to be added Audio finger
  • the texture information is saved to the backup table, and the backup table is unlocked, and the process of adding an audio fingerprint is ended.

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施方式提供了一种音乐节目信息获取方法。该方法包括:获取待处理音乐节目对应的音频文件,对所述音频文件进行自动识别处理,获得识别结果;根据所述识别结果显示音乐节目信息,所述音乐节目信息至少包括歌曲列表信息。通过对音乐节目对应的音频文件进行自动识别处理,获得了音乐节目包含的歌曲的列表信息,为用户带来了更好的体验。此外,本发明的实施方式提供了一种音乐节目信息获取设备。

Description

一种音乐节目信息获取方法和设备
[0001] 本申请要求于 2013年 9月 3 日提交中国专利局、 申请号为 201310396390. 4、 发 明名称为 "一种音乐节目信息获取方法和设备" 的中国专利申请的优先权, 其全部内容通 过引用结合在本申请中。 技术领域
[0002] 本发明的实施方式涉及多媒体处理领域, 更具体地, 本发明的实施方式涉及 一种音乐节目信息获取方法和设备。 背景技术
[0003] 本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。 此 处的描述可包括可以探究的概念, 但不一定是之前已经想到或者已经探究的概念。 因 此, 除非在此指出, 否则在本部分中描述的内容对于本申请的说明书和权利要求书而 言不是现有技术, 并且并不因为包括在本部分中就承认是现有技术。
[0004] 随着多媒体技术的发展, 音频类终端产品得到了广泛的应用。 音频类终端产 品为用户提供音频内容, 以为用户提供音频播放服务。 在现有技术中, 已经出现提供 音乐节目收听服务的音频终端产品。 音乐节目通常包含不同形式的音频内容, 例如音 乐内容、 语言内容等。 用户在收听音乐节目时, 通常希望获取音乐节目的相关信息, 特别是希望获取音乐节目播放歌曲的列表, 以便于在听到喜欢的歌曲时进行收藏, 方 便重复收听或检索。 发明内容
[0005] 但是, 现有技术中, 音频类终端产品往往不能够提供音乐节目的歌曲列表, 用户无法得知音乐节目的内容, 也无法在收听到喜欢的歌曲时, 获得歌曲的名称等相 关信息以便进行收藏、 检索。
[0006] 因此在现有技术中, 收听音乐节目时无法获得音乐节目信息 是非常令人 烦恼的问题。
[0007] 为此, 非常需要一种改进的音乐节目信息获取方法, 以使用户在收听音乐节 目时能够获取音乐节目信息, 提高用户体验。 [0008] 在本上下文中, 本发明的实施方式期望提供一种音乐节目信息获取方法和设 备。
[0009] 在本发明实施方式的第一方面中, 提供了一种音乐节目信息获取方法, 包括: 获取待处理音乐节目对应的音频文件, 对所述音频文件进行自动识别处理, 获 得识别结果;
根据所述识别结果显示音乐节目信息, 所述音乐节目信息至少包括歌曲列表信 息。
[0010] 在本发明实施方式的第二方面中,提供了一种音乐节目信息获取设备 , 包括:
[0011] 识别装置, 配置用于获取待处理音乐节目对应的音频文件, 对所述音频文件 进行自动识别处理, 获得识别结果;
[0012] 显示装置, 配置用于根据所述识别结果显示音乐节目信息, 所述音乐节目信 息至少包括歌曲列表信息。
[0013] 根据本发明实施方式的音乐节目信息获取方法和设备 , 可以对待处理的音乐 节目对应的音频文件进行自动识别处理, 根据获得的识别结果显示包括歌曲列表在内 的音乐节目信息, 解决了现有技术收听音乐节目时无法获得音乐节目信息的问题 , 使用户在收听音乐节目时能够获取音乐节目信息, 为用户带来了更好的体验。
附图说明
[0014] 通过参考附图阅读下文的详细描述, 本发明示例性实施方式的上述以及其他 目的、 特征和优点将变得易于理解。 在附图中, 以示例性而非限制性的方式示出了本 发明的若干实施方式, 其中:
[0015] 图 1示意性地示出了适于实现本发明实施方式的示例性计算系统 1 00的框图;
[0016] 图 2示意性地示出了根据本发明实施例的应用场景;
[0017] 图 3示意性地示出了根据本发明音乐节目信息获取方法一实施例示意图 ;
[0018] 图 4示意性地示出了一段歌曲信号计算得到的声谱图结果示意图;
[0019] 图 5 示意性地示出了一段音频中的音频指纹示意图;
[0020] 图 6 示意性地示出了指纹库中的 ha s h表形式的倒排索引示意图;
[0021] 图 7示意性地示出了音乐节目的音频数据与单曲的音乐指纹匹配示意图;
[0022] 图 8示意性地示出了本发明又一实施例提供的音频指纹匹配流程示意图;
[0023] 图 9 示意性地示出了本发明一实施例提供的当前音频片段与各歌曲匹配结果 示意图;
[0024] 图 10示意性地示出了本发明一实施例提供的音频文件识别结果示意图;
[0025] 图 11示意性地示出了本发明一实施例提供的的指纹添加流程示意图;
[0026] 图 12示意性地示出了本发明音乐节目信息获取设备示意图。
[0027] 在附图中, 相同或对应的标号表示相同或对应的部分。
具体实施方式
[0028] 下面将参考若干示例性实施方式来描述本发明的原理和精神。 应当理解, 给 出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明, 而并 非以任何方式限制本发明的范围。 相反, 提供这些实施方式是为了使本公开更加透彻 和完整, 并且能够将本公开的范围完整地传达给本领域的技术人员。
[0029] 图 1 示出了适于实现本发明实施方式的示例性计算系统 100的框图。 如图 1 所示, 计算系统 100 可以包括: 中央处理单元 (CPU ) 101、 随机存取存储器 (RAM ) 102、 只读存储器 (ROM ) 103、 系统总线 104、 硬盘控制器 105、 键盘控制器 106、 串 行接口控制器 107、 并行接口控制器 108、 显示控制器 109、 硬盘 110、 键盘 111、 串 行外部设备 112、 并行外部设备 113和显示器 114。 这些设备中, 与系统总线 104耦 合的有 CPU 101、 RAM 102、 ROM 103、 硬盘控制器 105、 键盘控制器 106、 串行控制器 107、 并行控制器 108和显示控制器 109。 硬盘 110与硬盘控制器 105耦合, 键盘 111 与键盘控制器 106耦合, 串行外部设备 112与串行接口控制器 107耦合, 并行外部设 备 11 3与并行接口控制器 108耦合, 以及显示器 114与显示控制器 109耦合。 应当理 解, 图 1所述的结构框图仅仅是为了示例的目的, 而不是对本发明范围的限制。 在某 些情况下, 可以根据具体情况增加或减少某些设备。
[0030] 本领域技术技术人员知道, 本发明的实施方式可以实现为一种系统、 方法或 计算机程序产品。 因此, 本公开可以具体实现为以下形式, 即: 完全的硬件、 完全的 软件 (包括固件、 驻留软件、 微代码等), 或者硬件和软件结合的形式, 本文一般称 为 "电路"、 "模块" 或 "系统"。 此外, 在一些实施例中, 本发明还可以实现为在一 个或多个计算机可读介质中的计算机程序产品的形式, 该计算机可读介质中包含计算 机可读的程序代码。
[0031] 可以采用一个或多个计算机可读的介质的任意组合。 计算机可读介质可以是 计算机可读信号介质或者计算机可读存储介质。 计算机可读存储介质例如可以是, 但 不限于, 电、 磁、 光、 电磁、 红外线、 或半导体的系统、 装置或器件, 或者任意以上 的组合。 计算机可读存储介质的更具体的例子 (非穷举示例) 例如可以包括: 具有一 个或多个导线的电连接、 便携式计算机磁盘、 硬盘、 随机存取存储器 (RAM )、 只读存 储器(ROM)、 可擦式可编程只读存储器(EPR0M或闪存)、 光纤、 便携式紧凑磁盘只读存 储器(CD-ROM)、 光存储器件、 磁存储器件、 或者上述的任意合适的组合。 在本文件中, 计算机可读存储介质可以是任何包含或存储程序的有形介质, 该程序可以被指令执行 系统、 装置或者器件使用或者与其结合使用。
[0032] 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信 号, 其中承载了计算机可读的程序代码。 这种传播的数据信号可以采用多种形式, 包 括但不限于电磁信号、 光信号或上述的任意合适的组合。 计算机可读的信号介质还可 以是计算机可读存储介质以外的任何计算机可读介质, 该计算机可读介质可以发送、 传播或者传输用于由指令执行系统、 装置或者器件使用或者与其结合使用的程序。
[0033] 计算机可读介质上包含的程序代码可以用任何适当的介质传输, 包括但不限 于无线、 电线、 光缆、 RF等等, 或者上述的任意合适的组合。
[0034] 可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算 机程序代码, 所述程序设计语言包括面向对象的程序设计语言一诸如 Java、 Sma l l ta lk , C++ , 还包括常规的过程式程序设计语言一诸如 "C" 语言或类似的程序 设计语言。 程序代码可以完全地在用户计算机上执行、 部分地在用户计算机上执行、 作为一个独立的软件包执行、 部分在用户计算机上部分在远程计算机上执行、 或者完 全在远程计算机或服务器上执行。 在涉及远程计算机的情形中, 远程计算机可以通过 任意种类的网络(包括局域网(LAN)或广域网(WAN) ) 连接到用户计算机, 或者, 可以 连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0035] 下面将参照本发明实施例的方法的流程图和设备(或系统) 的框图描述本发 明的实施方式。 应当理解, 流程图和 /或框图的每个方框以及流程图和 /或框图中各方 框的组合都可以由计算机程序指令实现。 这些计算机程序指令可以提供给通用计算 机、 专用计算机或其它可编程数据处理装置的处理器, 从而生产出一种机器, 这些计 算机程序指令通过计算机或其它可编程数据处理装置执行, 产生了实现流程图和 /或 框图中的方框中规定的功能 /操作的装置。
[0036] 也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装 置以特定方式工作的计算机可读介质中, 这样, 存储在计算机可读介质中的指令就产 生出一个包括实现流程图和 /或框图中的方框中规定的功能 /操作的指令装置的产品。
[0037] 也可以把计算机程序指令加载到计算机、 其它可编程数据处理装置、 或其它 设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤, 以产生计算机实现的过程, 从而使得在计算机或其它可编程装置上执行的指令能够提 供实现流程图和 /或框图中的方框中规定的功能 /操作的过程。
[0038] 根据本发明的实施方式, 提出了一种音乐节目信息获取的方法和设备。
[0039] 在本文中, 需要理解的是, 附图中的任何元素数量均用于示例而非限制, 以 及任何命名都仅用于区分, 而不具有任何限制含义。
[0040] 下面参考本发明的若干代表性实施方式, 详细阐释本发明的原理和精神。 [0041] 发明概述
[0042] 本发明人发现, 用户在收听音乐节目时, 通常希望获取音乐节目的相关信息, 特别是希望获取音乐节目播放歌曲的列表, 以便于在听到喜欢的歌曲时进行收藏, 方 便重复收听或检索, 而现有技术中, 音频类终端产品往往不能够提供音乐节目的歌曲 列表, 用户无法得知音乐节目的内容, 也无法在收听到喜欢的歌曲时, 获得歌曲的名 称等相关信息以便进行收藏、 检索。 针对现有技术中用户收听音乐节目时无法获得音 乐节目信息的问题, 本发明提供了一种音乐节目信息获取方法和设备 , 可以对待处 理的音乐节目对应的音频文件进行自动识别处理, 根据获得的识别结果显示包括歌曲 列表在内的音乐节目信息, 解决了现有技术收听音乐节目时无法获得音乐节目信息的 问题 , 使用户在收听音乐节目时能够获取音乐节目信息, 为用户带来了更好的体验。
[0043] 在介绍了本发明的基本原理之后, 下面具体介绍本发明的各种非限制性实施 方式。
[0044] 应用场景总览
[0045] 首先参考图 2 ,本发明实施方式可以应用的场景例如可以为如图 2所示的音频 终端实现音乐节目信息的获取和显示。
[0046] 示例性方法
[0047] 下面结合图 2 的应用场景, 参考图 3来描述根据本发明示例性实施方式的用 于音乐节目信息获取的方法。 需要注意的是, 上述应用场景仅是为了便于理解本发明 的精神和原理而示出, 本发明的实施方式在此方面不受任何限制。 相反, 本发明的实 施方式可以应用于适用的任何场景。
[0048] 参考图 3所示, 为本发明公开的音乐节目信息获取方法一实施方式的流程图, 本实施方式具体例如可以包括:
[0049] S 301 , 获取待处理音乐节目对应的音频文件, 对所述音频文件进行自动识别 处理, 获得识别结果。
[0050] S 302 , 根据所述识别结果显示音乐节目信息, 所述音乐节目信息至少包括歌 曲列表信息。
[0051] 下面对照图 3对本发明的详细实现进行说明。
[0052] 在本实施方式中, 首先获取待处理节目对应的音频文件, 在一种可能的实现 方式中, 可以预先对所述音频文件进行预处理操作。 例如可以包括, 对应输入的音频 文件, 将其解码为原始的音频数据。 进一步地, 可以按照预定的采样率对音频数据进 行重釆样处理。
[0053] 具体实现时, 步骤 S 301可以通过如下步骤实现:
[0054] S 301A, 对所述音频文件进行划分, 获得多个音频片段。
[0055] 在本实施方式中, 首先对待处理音乐节目对应的音频文件进行划分, 以获得 多个音频片段。 具体划分的方式可以是多样的, 例如可以以预设的时间间隔对音频文 件 /音频数据进行划分(例如按照 8秒为间隔将音频数据划分为多个音频片段);或者, 可以按照预设的截取参数将音频数据划分为不等长的若干音频片段; 或者, 也可以按 照音频数据固有的音频特征 (例如节奏)将音频数据划分为多个片段。 具体实现方式 可以是非常灵活的, 本发明对此不进行限定, 只要能够保证从所述音乐节目包含的每 首歌曲中均能截取出至少一个音频片段即可。
[0056] 下面介绍一种具体的实现方式。 假设将音频文件划分成 M个音频片段, 则截 取的音频片段可以表示为:
S! = {s I t;tart≤ t(s)≤ t } i=l, 2, ..., M ( 1 ) 其中, s为音频采样数据, t (s)为 s的时间信息, tort为预设的第 i个片段的起 始位置, t' 为预设的第 i 个片段的终止位置。 由此可见, t'' 和 决定了截取的音 频片段的位置和持续长度。 具体实现时, 在对音频文件进行划分时, 保存所述音频片 段的时间信息, 所述时间信息包括所述音频片段的开始和 /或终止时间信息, 即 f和 f< 。 通常情况下, 一首歌曲持续时长至少为 l分钟, 因此可以设置合适的截取参数, 保证从音乐节目包含的每首歌曲中都能截取出至少一个音频片段。例如,可以设置 ^ 和 的持续长度为 30S。 当然, 为了提高识别的精度, 也可以设置 和 的持续长 度为更短的时间, 例如 1 OS。
[0057] S 301B, 分别提取所述多个音频片段的音频指纹信息, 所述音频指紋信息用于 表征所述音频片段的信号特征。
[0058] 在本实施方式中, 对获得的多个音频片段分别进行信号分析处理, 提取用于 表征所述音频片段的信号特征的音频指紋信息。 其中, 对所述多个音频片段分别进行 信号分析处理包括以下任意一种方式: 对所述多个音频片段分别进行信号频谱分析处 理; 对所述多个音频片段分别进行信号能量分析处理; 对所述多个音频片段分别进行 基音、 节拍分析处理。 以上具体分析的手段可以单独或组合使用, 本发明对此不进行 限定, 只要能够通过信号分析处理获得音频片段的信号特征信息的实现方式均属于本 发明的保护范围。 在具体实现时, 提取的信号特征信息包括但不限于: 信号频谱中的 特征点信息, 例如可以包括极大值点、 极小值点、 突变点等; 音乐的基音、 节拍、 旋 律等信息。
[0059] 下面以一种可能的实现方式说明如何提取音频片段的音频指纹信息, 本领域 技术人员可以理解的是, 以下仅为示例性地说明, 并不视为对本发明的限制, 具体的 实现方式可以是非常多样和灵活的, 本领域技术人员在不付出创造性劳动下获取的其 他实现方式均属于本发明的保护范围。
[0060] 本发明此实施方式提供的示例具体可以包括: 对于输入的音频信号, 计算其 声谱图。 其中, 声谱图 FFT尺寸设置为 1024。 滑动窗口尺寸设置为 512。 窗函数选择 汉明窗。 如图 4所示, 展示了从一段歌曲信号计算得到的声谱图结果。 在获得声谱图 之后, 对于声谱图中的每一帧(对应图中的每一列), 在该帧中寻找能量最大的前 N个 频率分量, 并判断这些频率分量的能量是否大于预设阈值 T。 如果是, 则记录该频率 分量在声谱图中的位置(f rame, f requency)。 扫描完整个声谱图后, 可选中图 4中圆 圏所示的一些重要特征点, 且每一点都有对应的位置信息。
[0061] 提取完这些重要特征点后, 开始生成指紋数据。 生成指紋数据的方式有很多 种, 例如, 指紋的形式可以为: 其中, 为矢量形式的特征值, t为该指纹发生的时间戳位置 (可以对应某个 时刻) 。
[0062] 在本本实施方式中, 可以直接釆用每个特征点的(frame, frequency)数据作为指 紋。 即: 使用 frequency数值作为指紋的 ; 使用 frame数值作为指纹的时间戳 t。 由于 存在多个特征点, 从一段音频中可提取出一组指紋数据。 音频指纹以数值的形式存储, 并 附有时间戳信息, 以记录该特征在音频中的时间位置。 最终, 一段音频中的指紋可以表示 为如图 5所示的形式。
[0063] S 301C , 将提取的音频片段的音频指纹信息与预设的指纹库中的音频指纹进行 匹配, 获得匹配结果。
[0064] 在本实施方式, 预先建立了指紋库, 所述指紋库包括各歌曲的音频指紋信息、 歌曲标识信息。 预先建立曲库, 提取曲库中每首歌曲的音频指紋, 然后将歌曲的音频 指纹以一定的数据结构組织起来以建立指纹库。 具体实现时, 可以 ha sh表形式的倒 排索引形式存储音频指纹数据。 如图 6所示, 提供了指紋库中的 hash表形式的倒排 索引示意图。 其中, 可以按照步骤 S 301B提供的方式提取每首歌曲的音频指纹, 然后 以指紋中的矢量形式特征值 作为 hash表的键值(key值), 建立 hash表形式的倒排 索引, hash表结点则保存该歌曲的歌曲标识 ID及时间戳(f rame ) 数据。
[0065] 请参见图 7, 为音乐节目的音频数据与单曲的音乐指纹匹配示意图。 其中, 其 中,音乐节目中的 t 3-t 7时间段的音乐指纹与单曲中的 t l-t 5时间段的音乐指紋匹配。
[0066] 在本发明一种可能的实现方式中, 为了避免由曲库数据量、 查询速度等因素 限制造成的查找速度较低的问题, 本发明具体实现时, 可以采取剪枝策略, 忽略那些 没有匹配可能性的歌曲, 以提高歌曲指紋匹配查找的速度。
[0067] 具体实现时, 步骤 S 301C可以通过如下流程实现:
[0068] S801 , 扫描预设的指纹库中的音频指纹。
[0069] S802 , 获得与当前音频片段的音频指紋匹配的音频指纹对应的歌曲信息以及 所述歌曲对应的总匹配次数。
[0070] 在一种具体的实现方式中, 可以为曲库 (或指紋库) 中每首歌曲设置匹配次 数计数器, 初始化为 0。 假设已从音频片段中提取其对应的一组指紋数据。 然后, 对 于每个指纹数据, 使用其矢量形式特征 f作为 key , 找到倒排索引中对应的桶 (即链 表, 由多个节点组成), 则该桶中每首歌曲均和当前片段产生一次匹配, 该歌曲计数 器 + 1。 完成所有扫描后可获得当前查询请求对应的音频片段和曲库中每首歌曲的总匹 配次数。
[0071] S803 , 判断所述歌曲对应的总匹配次数是否大于第一预设阈值.如果是, 进入 步骤 S804。
[0072] S804 , 记录所述歌曲的标识信息。 歌曲对应的总匹配次数大于第一预设阁值 的歌曲即为候选匹配歌曲。 在进行第二次扫描时, 本发明提供的匹配方法则仅对所述 候选匹配歌曲进行精确查找。
[0073] S805 , 再次扫描预设的指纹库中的音频指紋。
[0074] S806 , 判断所述指紋库中的音频指纹对应的歌曲的标识信息是否已被记录。 如果是, 进入步骤 S807 ; 如果否, 跳过所述歌曲。 这样处理, 则在再次扫描指紋库的 音频指紋时, 跳过了非候选匹配歌曲, 提高了扫描效率, 以实现快速、 精确地查找匹 配。
[0075] S 807,计算所述指纹库中的音频指纹与所述当前音频片段的音频指纹的时间 差信息。
[0076] 其中, 所述时间差信息为所述指纹库中的音频指紋的时间戳与所述当前音频 片段的音频指紋的时间戳之间的差值。
[0077] S808 , 遍历所述预设的指纹库, 利用获得的时间差信息确定与所述当前音频 片段匹配的歌曲。
[0078] 发明人在实现本发明的过程中发现, 如果曲库中的歌曲与当前音频片段能够 实现匹配, 那么应当有连续的音频指纹实现对应, 则音频片段的音频指纹的时间戳与 歌曲的音频指紋的时间戳之间的差值应当相同。 例如, 如图 7所示, 为音乐节目的音 频数据与单曲的音乐指纹匹配示意图。 其中, 音乐节目中的 -Π时间段的音乐指纹 与单曲中的 t l-t 5时间段的音乐指纹匹配。 则有如下对应关系:
t 3-t l=t 4-t 2=t 5-t 3=t 6-t 4=t 7-t 5
[0079] 上述时间差对应音频片段在歌曲中的起始位置, 出现次数最多的时间差对应 的歌曲即为与音频片段匹配的歌曲。 基于此, 本发明采用如下方式确定与音频片段匹 配的歌曲。
[0080] 在本实施方式中, 利用获得的时间差信息确定与所述当前音频片段匹配的歌 曲具体可以包括: 建立时间差与歌曲标识的对应关系; 统计获得的时间差出现的次数; 对获得的时间差出现的次数进行排序, 获取出现次数最多的时间差; 判断所述时间差 对应的出现次数值是否大于第二预设阈值, 如果是, 则获取所述时间差对应的歌曲标 识, 将所述歌曲标识对应的歌曲作为与所述音频片段匹配的歌曲。 具体实现时, 可以 为每首歌曲中每个可能的时间差设置一个计数器, 在扫描 ha sh 表的过程中, 计算时 间差, 然后将该歌曲该时间差的计数器加 1, 以提高计算的速度和效率。 如图 9所示, 为当前音频片段与各歌曲匹配结果示意图。 从中确定中出现次数最多的时间差, 并判 断所述时间差对应的出现次数是否大于预设的第二阈值, 如果是, 则获取与所述出现 次数最多的时间差对应的歌曲标识, 将所述歌曲标识对应的歌曲作为与所述音频片段 匹配的歌曲。
[0081] 然后, 对每一个音频片段均进行上述处理, 获得与每个音频片段对应的识别 结果。
[0082] 在本实施方式中, 可以进一步根据获得所述识别结果显示音乐节目信息, 所 述音乐节目信息至少包括歌曲列表信息。 如图 10所示, 为音频文件识别结果示意图。 在完成步骤 S 301 的指纹识别匹配后, 每个音频片段都得到相应的识别匹配结果, 如 果匹配成功, 则匹配结果为一首歌曲, 如果匹配失败, 则说明该音频片段无法在曲库 中查找到。 由于步骤 301保证了音乐节目包含的每首歌曲至少对应一个音频片段, 因 此, 对于包含在音乐节目中的歌曲, 其对应的音频片段都可以成功匹配, 对于百万级 的曲库来说, 能够保证覆盖到音乐节目中的歌曲。 由于每首歌曲可能对应多个音频片 段, 因此会产生多个音频片段匹配到同一首歌的情况, 这时, 需要对匹配结果进行处 理, 将重复结果合并。 具体实现可以根据需要实现。 然后, 根据获得的识别结果, 显 示包括歌曲列表在内的音乐节目信息。 具体可以如图 2本发明的应用场景所示。
[0083] 在本发明一种可能的实现方式中, 还可以进一步包括:
S 303 , 根据所述识别结果显示音乐节目的音频内容的段落标记信息; 其中, 所 述音乐节目包括多个音频内容, 所述段落标记信息用于表征所述各音频内容的开始和 /或终止时间信息。
[0084] 在本发明一具体实现方式中, 可以分析音乐节目中的音频内容的段落标记信 息, 所述段落标记信息用于表征所述各音频内容的开始和 /或终止时间信息。 例如, 对于常见的 DJ音乐节目来说, 其一般包含音乐内容和语言内容。 例如, 在 DJ音乐节 目中, 先有 DJ旁白, 然后播放音乐歌曲, 歌曲结束后, DJ有相应的点评。 用户在收 听音乐节目时, 往往会产生这样的需求, 即希望跳过或忽略 DJ 旁白 (即语言内容) 而直接播放音乐内容。 现有技术并不能够为用户提供这样的便利。 而本发明中, 可快 速分析音乐节目中的音乐、 语言内容的段落位置, 并对这些位置进行标记。 在用户收 听音乐节目时, 提供每段音频内容中段落的准确划分, 方便用户快速定位音频段落, 切换内容进度。 该方案不需人工参与, 整个流程均可做到自动化。
[0085] 具体实现时, 本发明在对音频文件进行划分时, 可以保存所述音频片段的时 间信息, 所述时间信息包括所述音频片段的开始和 /或终止时间信息。 则所述根据所 述识别结果显示音乐节目的音频内容的段落标记信息包括: 根据音频片段的开始和 / 或终止时间信息以及所述识别结果显示音乐节目的音频内容的段落标记信息。 具体 地, 当所述识别结果表明所述音频片段未与歌曲匹配时, 则确定所述音频片段为语言 内容; 然后获取所述音频片段的时间信息, 将所述时间信息作为所述语言内容的段落 标记信息。 当所述识别结果表明所述音频片段与对应的歌曲匹配时, 则确定所述音频 片段为音乐内容; 获取所述音频片段的时间信息, 将所述时间信息作为所述音乐内容 的段落标记信息。
[0086] 下面以 DJ节目的具体实现为例对上述实现过程进行说明, 步骤 301中从音乐 节目中截取了多个音频片段, 每个音频片段可能对应的是歌曲, 也可能是 DJ 旁白, 或者可能是两者的交界处。 在完成指紋识别后, 对应歌曲的音频片段会匹配到歌曲, 对应 DJ 旁白的音频片段则会匹配失败, 对应两者交界处的音频片段可能会匹配到歌 曲, 也可能匹配失败(这取决于这个音频片段中歌曲时长和旁白时长的比例)。 因此, 可以将匹配失败的音频片段认为是 DJ旁白片段(即语言内容)。 由于截取的音频片段 在原音乐节目中的位置已知 (对应音频片段的开始和 /或终止时间信息), 故可得到原 音乐节目中 DJ 旁白的粗略位置。 为了提高位置的精确性, 可设置较小的截取片段长 度, 例如设置为 5-8秒, 这样对 DJ旁白位置的定位精度可达到几秒的数量级, 满足 常见需求。 例如, 可以将整个 DJ 节目平均划分为多个子片段, 每个片段持续时长 8 秒。 然后对每个片段进行指紋匹配。 假设某片段对应 DJ节目中的 33-40秒, 且匹配 到歌曲 XXX , 则认为 DJ节目中 33-40秒为歌曲 XXX。 若该片段未能成功匹配, 则认为 DJ节目中 33-40秒为 DJ旁白。 对所有片段进行匹配处理后, 即可获取整个 DJ节目中 音乐部分和 DJ旁白部分的起止位置划分。 由于每个片段持续时长仅 8秒, 因此可保 证定位精度在数秒左右。
[0087] 由此, 即可以实现对音乐节目段落标记信息的获取, 然后, 可以在音频终端 上显示获得的音乐节目的音频内容的段落标记信息。
[0088] 进一步的, 本发明提供的方法还可以包括: S 304 , 响应于点击所述段落标记的触发,将所述音频文件跳转至与所述段落标 记对应的时间位置; 从所述时间位置开始播放所述音频文件的对应部分。
[0089] 也就是说, 本发明提供的方法, 不仅可以显示音乐节目的音频内容的段落标 记信息, 还可以响应于用户的点击的处罚, 实现音频文件的自动跳转与切换, 以满足 用户对播放进度的切换需求。
[0090] 前面提到, 本发明可以预先建立指纹库。 可以提取所有歌曲的音频指纹, 然 后根据热度 +语种将歌曲分类, 例如按华语、 日韩、 欧美分类。 然后将每一类中相应 的歌曲指纹合并为 hash 表, 最后存储为配置文件。 当自动识别启动时, 一次性将所 有 ha sh表数据从配置文件中读出, 装入内存, 以提高数据处理速度。
[0091] 在本发明一种可能的实现方式中, 提供了一个注入指纹的方法, 可以向所述 指纹库添加新歌曲对应的音频指纹信息, 以便在识别流程正常工作过程中, 向指定的 ha sh表(筒称动态表)中添加一首歌曲的指紋。
[0092] 参见图 11 , 为本发明又一实施例提供的指紋添加流程示意图。
[0093] 为了避免添加新的指紋数据时可能出现的数据冲突, 本发明中, 通过设定动 态表和备份表来实现在提供自动识别功能时, 动态实时添加新的音频指紋信息。 其具 体实现为: 当向指纹库添加新歌曲对应的音频指紋信息时, 锁定用于保存音频指紋信 息的动态表, 激活用于备份音频指紋信息的备份表。 此时, 动态表不再用于提供自动 识别功能, 而是作为音频指纹信息的存储对象; 如果此时需要提供自动识别功能, 使 用备份表中的音频指纹进行相应的自动识别处理。 在进行完动态表的锁定以及备份表 的激活处理后, 将要添加的新歌曲对应的音频指紋信息保存至所述动态表中; 判断所 述动态表是否已满; 如果是, 解除所述动态表的锁定, 将动态表中的音频指纹备份到 指定位置; 创建新动态表, 并清空备份表; 如果否, 解除所述动态表的锁定, 锁定所 述备份表; 将要添加的新歌曲对应的音频指纹信息保存至备份表中, 并解除所述备份 表的锁定, 结束添加音频指紋过程。
[0094] 在这一实现方式中, 可以实现实时动态添加 /注入新的音频指纹, 以方便对指 紋库进行更新, 提高自动识别的准确度。
[0095] 以上对本发明提供的音乐节目信息获取方法的具体实现进行了详细地介绍, 从上述实现方式可以看出, 本发明提供的方法, 可以实现对待处理音乐节目对应的音 频文件的自动识别处理, 以根据获得的识别结果显示包括音乐节目列表在内的音乐节 目信息。 具体实现时, 本发明提供的方法基于音频指纹识别技术、 对输入音频文件进 行信号分析, 从中提取音频指纹, 然后将提取的音频指纹与预设的指纹库中的音频指 紋进行识别匹配, 得到匹配结果。 对匹配结果进行处理后, 获得音乐节目中的歌曲信 息和段落位置信息。 本发明可以自动获取音乐节目列表信息, 并提供音乐节目的音频 内容的段落标记信息, 可以根据用户的触发实现音频内容的切换与跳转, 为用户提供 了更好的体验。 此外, 本发明的方法针对语言与音乐混杂的音乐节目能达到较好的精 度, 在含有各种不同风格歌曲的全曲库范围内取得满意效果。
[0096] 示例性设备
[0097] 在介绍了本发明示例性实施方式的方法之后,接下来, 参考图 12 对本发明示 例性实施方式的、 用于音乐节目信息获取的设备进行介绍。
[0098] 参见图 12 , 为本发明提供的音乐节目信息获取设备示意图, 所述设备可以包 括:
[0099] 识别装置 1201 , 配置用于获取待处理音乐节目对应的音频文件, 对所述音频 文件进行自动识别处理, 获得识别结果。
[0100] 显示装置 1202, 配置用于根据所述识别结果显示音乐节目信息, 所述音乐节 目信息至少包括歌曲列表信息。
[0101] 在本发明一种可能的实现方式中, 其中, 所述识别装置包括:
[0102] 划分单元, 用于对所述音频文件进行划分, 获得多个音频片段元。
[0103] 提取单元, 用于分别提取所述多个音频片段的音频指纹信息其中, 所述音频 指纹信息用于表征所述音频片段的信号特征。
[0104] 匹配单元, 用于将提取的音频片段的音频指纹信息与预设的指紋库中的音频 指纹进行匹配, 获得匹配结果。
[0105] 在本发明一种可能的实现方式中, 其中, 所述提取单元具体用于:
[0106] 对所述多个音频片段分别进行信号分析处理, 提取用于表征所述音频片段的 信号特征的音频指紋信息。
[0107] 在本发明一种可能的实现方式中, 其中, 所述提取单元在对所述多个音频片 段分别进行信号分析处理时可以包括以下任意一种处理方式:
对所述多个音频片段分别进行信号频谱分析处理;
对所述多个音频片段分别进行信号能量分析处理;
对所述多个音频片段分别进行基音、 节拍分析处理。 [0108] 在本发明一种可能的实现方式中, 其中, 所述匹配单元包括:
[0109] 第一扫描单元, 用于扫描预设的指纹库中的音频指纹, 获得与当前音频片段 的音频指纹匹配的音频指紋对应的歌曲信息以及所述歌曲对应的总匹配次数;
[0110] 记录单元, 用于判断所述歌曲对应的总匹配次数是否大于第一预设阈值, 如 果是, 记录所述歌曲的标识信息;
[0111] 计算单元, 用于再次扫描预设的指纹库中的音频指纹, 判断所述指紋库中的 音频指紋对应的歌曲的标识信息是否已被记录, 如果是, 则计算所述指纹库中的音频 指纹与所述当前音频片段的音频指纹的时间差信息; 其中, 所述时间差信息为所述指 紋库中的音频指紋的时间戳与所述当前音频片段的音频指纹的时间戳之间的差值;
[0112] 确定单元, 用于遍历所述预设的指纹库, 利用获得的时间差信息确定与所述 当前音频片段匹配的歌曲。
[0113] 在本发明一种可能的实现方式中, 其中, 所述确定单元包括:
[0114] 建立单元, 用于建立时间差与歌曲标识的对应关系;
[0115] 统计单元, 用于统计获得的时间差出现的次数;
[0116] 获取单元, 用于对获得的时间差出现的次数进行排序, 获取出现次数最多的 时间差; 判断所述时间差对应的出现次数值是否大于第二预设阈值, 如果是, 则获取 所述时间差对应的歌曲标识, 将所述歌曲标识对应的歌曲作为与所述音频片段匹配的 歌曲。
[0117] 在本发明一种可能的实现方式中, 其中, 所述音乐节目信息还包括段落标记 信息, 则所述显示装置还用于:
根据所述识别结果显示音乐节目的音频内容的段落标记信息; 其中, 所述音乐 节目包括多个音频内容, 所述段落标记信息用于表征所述各音频内容的开始和 /或终 止时间信息。
[0118] 在本发明一种可能的实现方式中, 其中, 所述设备还包括:
[0119] 跳转装置, 配置用于响应于点击所述段落标记的触发, 将所述音频文件跳转 至与所述段落标记对应的时间位置;
[0120] 播放装置, 配置用于从所述时间位置开始播放所述音频文件的对应部分。
[0121] 在本发明一种可能的实现方式中, 其中, 所述划分单元还用于在对所述音频 文件进行划分时, 保存所述音频片段的时间信息, 所述时间信息包括所述音频片段的 开始和 /或终止时间信息; 则所述显示装置具体用于:
根据音频片段的开始和 /或终止时间信息以及所述识别结果显示音乐节目的音 频内容的段落标记信息。
[0122] 在本发明一种可能的实现方式中, 其中, 所述显示装置具体用于:
当所述识别结果表明所述音频片段未与歌曲匹配时, 则确定所述音频片段为语 言内容;
获取所述音频片段的时间信息, 将所述时间信息作为所述语言内容的段落标记 信息。
[0123] 在本发明一种可能的实现方式中, 所述显示装置具体用于:
当所述识别结果表明所述音频片段与对应的歌曲匹配时, 则确定所述音频片段 为音乐内容;
获取所述音频片段的时间信息, 将所述时间信息作为所述音乐内容的段落标记 信息。
[0124] 在本发明一种可能的实现方式中, 所述设备还包括:
指纹库建立装置, 用于预先建立指纹库, 其中, 所述指纹库包括各歌曲的音频 指纹信息、 歌曲标识信息。
[0125] 在本发明一种可能的实现方式中, 所述设备还包括:
指纹添加装置, 用于向所述指紋库添加新歌曲对应的音频指纹信息。
[0126] 在本发明一种可能的实现方式中, 其中, 所述指纹添加装置包括:
[0127] 预处理单元, 用于当向指纹库添加新歌曲对应的音频指紋信息时, 锁定用于 保存音频指紋信息的动态表, 激活用于备份音频指紋信息的备份表;
[0128] 判断单元, 用于判断所述动态表是否已满;
[0129] 添加单元, 用于将要添加的新歌曲对应的音频指纹信息保存至所述新动态表 中;
[0130] 第一处理单元, 用于接收判断单元的判断结果, 当所述判断结果表明动态表 已满时, 则解除所述动态表的锁定, 将动态表中的音频指纹备份到指定位置; 创建新 动态表, 将要添加的新歌曲对应的音频指紋信息保存至所述新动态表中, 并清空备份 表;
[0131] 第二处理单元, 用于接收判断单元的判断结果, 当所述判断结果表明动态表 未满时, 解除所述动态表的锁定, 锁定所述备份表; 将要添加的新歌曲对应的音频指 紋信息保存至备份表中, 并解除所述备份表的锁定, 结束添加音频指纹过程。
[0132] 应当注意, 尽管在上文详细描述中提及设备的若干装置或子装置, 但是这种 划分仅仅并非强制性的。 实际上, 根据本发明的实施方式, 上文描述的两个或更多装 置的特征和功能可以在一个装置中具体化。 反之, 上文描述的一个装置的特征和功能 可以进一步划分为由多个装置来具体化。
[0133] 此外, 尽管在附图中以特定顺序描述了本发明方法的操作, 但是, 这并非要 求或者暗示必须按照该特定顺序来执行这些操作, 或是必须执行全部所示的操作才能 实现期望的结果。 相反, 流程图中描绘的步骤可以改变执行顺序。 附加地或备选地, 可以省略某些步骤, 将多个步骤合并为一个步骤执行, 和 /或将一个步骤分解为多个 步骤执行。
[0134] 申请文件中提及的动词 "包括"、 "包含" 及其词形变化的使用不排除除了申 请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词 "一"或 "一 个" 不排除多个这种元素的存在。
[0135] 虽然已经参考若干具体实施方式描述了本发明的精神和原理, 但是应该理解, 本发明并不限于所公开的具体实施方式, 对各方面的划分也不意味着这些方面中的特 征不能组合以进行受益, 这种划分仅是为了表述的方便。 本发明旨在涵盖所附权利要 求的精神和范围内所包括的各种修改和等同布置。 所附权利要求的范围符合最宽泛的 解释, 从而包含所有这样的修改及等同结构和功能。

Claims

权 利 要 求
1、 一种方法, 包括:
获取待处理音乐节目对应的音频文件, 对所述音频文件进行自动识别处理, 获得 识别结果;
根据所述识别结果显示音乐节目信息, 所述音乐节目信息至少包括歌曲列表信 息。
2、 根据权利要求 1所述的方法, 其中, 所述对所述音频文件进行自动识别处理, 获得识别结果包括:
对所述音频文件进行划分, 获得多个音频片段;
分别提取所述多个音频片段的音频指纹信息, 所述音频指紋信息用于表征所述音 频片段的信号特征;
将提取的音频片段的音频指紋信息与预设的指紋库中的音频指纹进行匹配, 获得 匹配结果。
3、 根据权利要求 2 所述的方法, 其中, 所述分别提取所述多个音频片段的音频 指纹信息包括:
对所述多个音频片段分别进行信号分析处理, 提取用于表征所述音频片段的信号 特征的音频指紋信息。
4、 根据权利要求 3 所述的方法, 其中, 所述对所述多个音频片段分别进行信号 分析处理包括以下任意一种方式:
对所述多个音频片段分别进行信号频谱分析处理;
对所述多个音频片段分别进行信号能量分析处理;
对所述多个音频片段分别进行基音、 节拍分析处理。
5、 根据权利要求 2 所述的方法, 其中, 所述将提取的音频片段的音频指纹信息 与预设的指紋库中的音频指紋进行匹配, 获得匹配结果包括:
扫描预设的指紋库中的音频指纹, 获得与当前音频片段的音频指纹匹配的音频指 紋对应的歌曲信息以及所述歌曲对应的总匹配次数;
判断所述歌曲对应的总匹配次数是否大于第一预设阈值, 如果是, 记录所述歌曲 的标识信息;
再次扫描预设的指纹库中的音频指紋, 判断所述指纹库中的音频指纹对应的歌曲 的标识信息是否已被记录, 如果是, 则计算所述指紋库中的音频指纹与所述当前音频 片段的音频指紋的时间差信息; 其中, 所述时间差信息为所述指紋库中的音频指纹的 时间戳与所述当前音频片段的音频指紋的时间戳之间的差值;
遍历所述预设的指纹库, 利用获得的时间差信息确定与所述当前音频片段匹配的 歌曲。
6、 根据权利要求 5 所述的方法, 其中, 所述利用获得的时间差信息确定与所述 当前音频片段匹配的歌曲包括:
建立时间差与歌曲标识的对应关系;
统计获得的时间差出现的次数;
对获得的时间差出现的次数进行排序, 获取出现次数最多的时间差; 判断所述时 间差对应的出现次数值是否大于第二预设阈值, 如果是, 则获取所述时间差对应的歌 曲标识, 将所述歌曲标识对应的歌曲作为与所述音频片段匹配的歌曲。
7、 根据权利要求 1所述的方法, 其中, 所述音乐节目信息还包括段落标记信息, 则所述根据所述识别结果显示音乐节目信息包括:
根据所述识别结果显示音乐节目的音频内容的段落标记信息; 其中, 所述音乐节 目包括多个音频内容, 所述段落标记信息用于表征所述各音频内容的开始和 /或终止 时间信息。
8、 根据权利要求 7所述的方法, 还包括:
响应于点击所述段落标记的触发, 将所述音频文件跳转至与所述段落标记对应的 时间位置;
从所述时间位置开始播放所述音频文件的对应部分。
9、 根据权利要求 2或 7所述的方法, 其中, 在对所述音频文件进行划分时, 保 存所述音频片段的时间信息, 所述时间信息包括所述音频片段的开始和 /或终止时间 信息;
则所述根据所述识别结果显示音乐节目的音频内容的段落标记信息包括: 根据音频片段的开始和 /或终止时间信息以及所述识别结果显示音乐节目的音频 内容的段落标记信息。
10、 根据权利要求 9 所述的方法, 其中, 所述根据音频片段的开始和 /或终止时 间信息以及所述识别结果显示音乐节目的音频内容的段落标记信息包括:
当所述识别结果表明所述音频片段未与歌曲匹配时, 则确定所述音频片段为语言 内容;
获取所述音频片段的时间信息, 将所述时间信息作为所述语言内容的段落标记信 息。
11、 根据权利要求 9 所述的方法, 其中, 所述根据音频片段的开始和 /或终止时 间信息以及所述识别结果显示音乐节目的音频内容的段落标记信息包括:
当所述识别结果表明所述音频片段与对应的歌曲匹配时, 则确定所述音频片段为 音乐内容;
获取所述音频片段的时间信息, 将所述时间信息作为所述音乐内容的段落标记信 息。
12、 根据权利要求 1-11任意一项所述的方法, 还包括:
预先建立指紋库, 所述指紋库包括各歌曲的音频指纹信息、 歌曲标识信息。
1 3、 根据权利要求 12所述的方法, 还包括:
向所述指紋库添加新歌曲对应的音频指紋信息。
14、 根据权利要求 13 所述的方法, 其中, 所述向所述指纹库添加新歌曲对应的 音频指紋信息包括:
当向指纹库添加新歌曲对应的音频指纹信息时, 锁定用于保存音频指纹信息的动 态表, 激活用于备份音频指紋信息的备份表; 将要添加的新歌曲对应的音频指紋信息保存至所述动态表中;
判断所述动态表是否已满;
如果是, 解除所述动态表的锁定, 将动态表中的音频指纹备份到指定位置; 创建 新动态表, 并清空备份表;
如果否, 解除所述动态表的锁定, 锁定所述备份表; 将要添加的新歌曲对应的音 频指紋信息保存至备份表中, 并解除所述备份表的锁定, 结束添加音频指紋过程。
15、 一种设备, 包括:
识别装置, 配置用于获取待处理音乐节目对应的音频文件, 对所述音频文件进行 自动识别处理, 获得识别结果;
显示装置, 配置用于根据所述识别结果显示音乐节目信息, 所述音乐节目信息至 少包括歌曲列表信息。
16、 根据权利要求 15所述的设备, 其中, 所述识别装置包括:
划分单元, 用于对所述音频文件进行划分, 获得多个音频片段元;
提取单元, 用于分别提取所述多个音频片段的音频指紋信息其中, 所述音频指纹 信息用于表征所述音频片段的信号特征;
匹配单元, 用于将提取的音频片段的音频指纹信息与预设的指纹库中的音频指纹 进行匹配, 获得匹配结果。
17、 根据权利要求 16所述的设备, 其中, 所述提取单元具体用于:
对所述多个音频片段分别进行信号分析处理, 提取用于表征所述音频片段的信号 特征的音频指紋信息。
18、 根据权利要求 17 所述的设备, 其中, 所述提取单元在对所述多个音频片段 分别进行信号分析处理时可以包括以下任意一种处理方式:
对所述多个音频片段分别进行信号频谱分析处理;
对所述多个音频片段分别进行信号能量分析处理;
对所述多个音频片段分别进行基音、 节拍分析处理。
19、 根据权利要求 16所述的设备, 其中, 所述匹配单元包括:
第一扫描单元, 用于扫描预设的指纹库中的音频指紋, 获得与当前音频片段的音 频指紋匹配的音频指纹对应的歌曲信息以及所述歌曲对应的总匹配次数;
记录单元,用于判断所述歌曲对应的总匹配次数是否大于第一预设阅值,如果是, 记录所述歌曲的标识信息;
计算单元, 用于再次扫描预设的指纹库中的音频指紋, 判断所述指纹库中的音频 指纹对应的歌曲的标识信息是否已被记录, 如果是, 则计算所述指纹库中的音频指纹 与所述当前音频片段的音频指紋的时间差信息; 其中, 所述时间差信息为所述指纹库 中的音频指紋的时间戳与所述当前音频片段的音频指纹的时间戳之间的差值;
确定单元, 用于遍历所述预设的指纹库, 利用获得的时间差信息确定与所述当前 音频片段匹配的歌曲。
20、 根据权利要求 19所述的设备, 其中, 所述确定单元包括:
建立单元, 用于建立时间差与歌曲标识的对应关系;
统计单元, 用于统计获得的时间差出现的次数;
获取单元, 用于对获得的时间差出现的次数进行排序, 获取出现次数最多的时间 差; 判断所述时间差对应的出现次数值是否大于第二预设阁值, 如果是, 则获取所述 时间差对应的歌曲标识, 将所述歌曲标识对应的歌曲作为与所述音频片段匹配的歌 曲。
21、 根据权利要求 15 所述的设备, 其中, 所述音乐节目信息还包括段落标记信 息, 则所述显示装置还用于:
根据所述识别结果显示音乐节目的音频内容的段落标记信息; 其中, 所述音乐节 目包括多个音频内容, 所述段落标记信息用于表征所述各音频内容的开始和 /或终止 时间信息。
22、 根据权利要求 21所述的设备, 其中, 还包括:
跳转装置, 配置用于响应于点击所述段落标记的触发, 将所述音频文件跳转至与 所述段落标记对应的时间位置;
播放装置, 配置用于从所述时间位置开始播放所述音频文件的对应部分。
23、 根据权利要求 16或 21所述的设备, 其中, 所述划分单元还用于在对所述音 频文件进行划分时, 保存所述音频片段的时间信息, 所述时间信息包括所述音频片段 的开始和 /或终止时间信息;
则所述显示装置具体用于:
根据音频片段的开始和 /或终止时间信息以及所述识别结果显示音乐节目的音频 内容的段落标记信息。
24、 根据权利要求 23所述的设备, 其中, 所述显示装置具体用于:
当所述识别结果表明所述音频片段未与歌曲匹配时, 则确定所述音频片段为语言 内容;
获取所述音频片段的时间信息, 将所述时间信息作为所述语言内容的段落标记信 息。
25、 根据权利要求 23所述的设备, 其中, 所述显示装置具体用于:
当所述识别结果表明所述音频片段与对应的歌曲匹配时, 则确定所述音频片段为 音乐内容;
获取所述音频片段的时间信息, 将所述时间信息作为所述音乐内容的段落标记信 息。
26、 根据权利要求 15-25任意一项所述的设备, 还包括:
指紋库建立装置, 用于预先建立指纹库, 其中, 所述指紋库包括各歌曲的音频指 紋信息、 歌曲标识信息。
27、 根据权利要求 26所述的设备, 还包括:
指紋添加装置, 用于向所述指纹库添加新歌曲对应的音频指紋信息。
28、 根据权利要求 27所述的设备, 其中, 所述指纹添加装置包括:
预处理单元, 用于当向指纹库添加新歌曲对应的音频指紋信息时, 锁定用于保存 音频指紋信息的动态表, 激活用于备份音频指纹信息的备份表; 添加单元, 用于将要添加的新歌曲对应的音频指紋信息保存至所述新动态表中; 判断单元, 用于判断所述动态表是否已满;
第一处理单元, 用于接收判断单元的判断结果, 当所述判断结果表明动态表已满 时, 则解除所述动态表的锁定, 将动态表中的音频指纹备份到指定位置; 创建新动态 表, 将要添加的新歌曲对应的音频指紋信息保存至所述新动态表中, 并清空备份表; 第二处理单元, 用于接收判断单元的判断结果, 当所述判断结果表明动态表未满时, 解除所述动态表的锁定, 锁定所述备份表; 将要添加的新歌曲对应的音频指紋信息保 存至备份表中, 并解除所述备份表的锁定, 结束添加音频指纹过程。
PCT/CN2014/082516 2013-09-03 2014-07-18 一种音乐节目信息获取方法和设备 WO2015032243A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310396390.4 2013-09-03
CN2013103963904A CN103440330A (zh) 2013-09-03 2013-09-03 一种音乐节目信息获取方法和设备

Publications (1)

Publication Number Publication Date
WO2015032243A1 true WO2015032243A1 (zh) 2015-03-12

Family

ID=49694023

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/082516 WO2015032243A1 (zh) 2013-09-03 2014-07-18 一种音乐节目信息获取方法和设备

Country Status (2)

Country Link
CN (1) CN103440330A (zh)
WO (1) WO2015032243A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440330A (zh) * 2013-09-03 2013-12-11 网易(杭州)网络有限公司 一种音乐节目信息获取方法和设备
CN103986768A (zh) * 2014-05-19 2014-08-13 苏州乐聚一堂电子科技有限公司 歌曲自动识别影像特效系统
CN103995890A (zh) * 2014-05-30 2014-08-20 杭州智屏软件有限公司 一种实时音频指纹检索库数据更新和检索方法
CN104053280A (zh) * 2014-06-12 2014-09-17 苏州乐聚一堂电子科技有限公司 歌曲自动识别灯光特效系统
CN104486671B (zh) * 2014-12-11 2019-02-15 北京国承万通信息科技有限公司 数据处理方法、设备及系统和音频采样设备
CN105989183A (zh) * 2015-05-15 2016-10-05 乐卡汽车智能科技(北京)有限公司 车载广播的音乐识别方法和装置
CN105430494A (zh) * 2015-12-02 2016-03-23 百度在线网络技术(北京)有限公司 在播放视频的设备中识别视频中音频的方法和装置
CN107293307B (zh) * 2016-03-31 2021-07-16 阿里巴巴集团控股有限公司 音频检测方法及装置
CN105868397B (zh) 2016-04-19 2020-12-01 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置
WO2018018285A1 (zh) * 2016-07-24 2018-02-01 张鹏华 一种听旋律识别歌名的方法和识别系统
WO2018018284A1 (zh) * 2016-07-24 2018-02-01 张鹏华 根据旋律识别歌曲时的技术信息推送方法和识别系统
CN106162321A (zh) * 2016-08-31 2016-11-23 成都广电视讯文化传播有限公司 一种声纹特征和音频水印相结合的音频信号识别方法
CN106708990B (zh) * 2016-12-15 2020-04-24 腾讯音乐娱乐(深圳)有限公司 一种音乐片段提取方法和设备
CN108429750A (zh) * 2018-03-13 2018-08-21 湖南城市学院 一种基于大数据的音乐播放控制系统及控制方法
CN108509620A (zh) * 2018-04-04 2018-09-07 广州酷狗计算机科技有限公司 歌曲识别方法及装置、存储介质
CN108829845A (zh) * 2018-06-20 2018-11-16 北京奇艺世纪科技有限公司 一种音频文件播放方法、装置及电子设备
CN112102848B (zh) * 2019-06-17 2024-04-26 华为技术有限公司 一种用于识别音乐的方法、芯片和终端
CN110415723B (zh) * 2019-07-30 2021-12-03 广州酷狗计算机科技有限公司 音频分段的方法、装置、服务器及计算机可读存储介质
CN113590076B (zh) * 2021-07-12 2024-03-29 杭州网易云音乐科技有限公司 一种音频处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1726489A (zh) * 2002-10-28 2006-01-25 格雷斯诺特有限公司 个人音频录制系统
CN102833595A (zh) * 2012-09-20 2012-12-19 北京十分科技有限公司 一种信息传送的方法及装置
CN102970578A (zh) * 2012-11-19 2013-03-13 北京十分科技有限公司 一种多媒体信息识别、训练的方法及装置
CN103440330A (zh) * 2013-09-03 2013-12-11 网易(杭州)网络有限公司 一种音乐节目信息获取方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
JP2007219178A (ja) * 2006-02-16 2007-08-30 Sony Corp 楽曲抽出プログラム、楽曲抽出装置及び楽曲抽出方法
CN101681381B (zh) * 2007-06-06 2012-11-07 杜比实验室特许公司 使用多搜索组合改善音频/视频指纹搜索精确度
CN101221760B (zh) * 2008-01-30 2010-12-22 中国科学院计算技术研究所 一种音频匹配方法及系统
CN102314875B (zh) * 2011-08-01 2016-04-27 北京音之邦文化科技有限公司 一种音频文件的识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1726489A (zh) * 2002-10-28 2006-01-25 格雷斯诺特有限公司 个人音频录制系统
CN102833595A (zh) * 2012-09-20 2012-12-19 北京十分科技有限公司 一种信息传送的方法及装置
CN102970578A (zh) * 2012-11-19 2013-03-13 北京十分科技有限公司 一种多媒体信息识别、训练的方法及装置
CN103440330A (zh) * 2013-09-03 2013-12-11 网易(杭州)网络有限公司 一种音乐节目信息获取方法和设备

Also Published As

Publication number Publication date
CN103440330A (zh) 2013-12-11

Similar Documents

Publication Publication Date Title
WO2015032243A1 (zh) 一种音乐节目信息获取方法和设备
CN107591149B (zh) 音频合成方法、装置及存储介质
US9612791B2 (en) Method, system and storage medium for monitoring audio streaming media
CN105677735B (zh) 一种视频搜索方法及装置
US10818320B2 (en) Looping audio-visual file generation based on audio and video analysis
TWI390924B (zh) 用於加速各多重同步資料流之資料庫檢視的系統以及方法
US9812023B2 (en) Audible metadata
TWI447601B (zh) 使用多個搜尋組合改良音訊/視訊指紋搜尋正確性之技術
KR101625944B1 (ko) 오디오 인식 방법 및 기기
US8428955B2 (en) Adjusting recorder timing
JP2004537760A (ja) 録音の多段階識別関連出願の相互参照本出願は、「デジタル音楽の多段階識別の方法およびシステム」と題された米国仮出願第60/308,594号(発明者:デールT.ロバーツ(DaleT.Roberts)ら、出願日:2001年7月31日)に関連し、これを優先権主張するとともに、本願明細書に援用するものである。
CN109947993B (zh) 基于语音识别的情节跳转方法、装置及计算机设备
US20100250585A1 (en) Context based video finder
WO2005098683A3 (en) Techniques for management and generation of web forms
US9224385B1 (en) Unified recognition of speech and music
CN105975568B (zh) 一种音频处理方法及装置
WO2017028704A1 (zh) 伴奏音乐的提供方法和装置
TW200402654A (en) A system and method for providing user control over repeating objects embedded in a stream
CN104813357A (zh) 用于直播媒体内容匹配的系统和方法
US20170163703A1 (en) Player-based play method and device
JP2006155384A (ja) 映像コメント入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN105335414A (zh) 音乐推荐方法、装置及终端
Hsu et al. News video story segmentation using fusion of multi-level multi-modal features in trecvid 2003
US7243062B2 (en) Audio segmentation with energy-weighted bandwidth bias
WO2017107679A1 (zh) 一种历史信息展示方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14842329

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14842329

Country of ref document: EP

Kind code of ref document: A1