WO2013044872A1 - 音频处理方法及系统 - Google Patents

音频处理方法及系统 Download PDF

Info

Publication number
WO2013044872A1
WO2013044872A1 PCT/CN2012/082482 CN2012082482W WO2013044872A1 WO 2013044872 A1 WO2013044872 A1 WO 2013044872A1 CN 2012082482 W CN2012082482 W CN 2012082482W WO 2013044872 A1 WO2013044872 A1 WO 2013044872A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
matching
acquired
library
file
Prior art date
Application number
PCT/CN2012/082482
Other languages
English (en)
French (fr)
Inventor
梁捷
Original Assignee
广州市动景计算机科技有限公司
优视科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广州市动景计算机科技有限公司, 优视科技有限公司 filed Critical 广州市动景计算机科技有限公司
Publication of WO2013044872A1 publication Critical patent/WO2013044872A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Definitions

  • the present invention relates to the field of mobile communications, and more particularly to an audio processing method and system. Background technique
  • lyrics matching and downloading can be implemented on terminal devices (such as MP3, mobile phones, etc.), so that people can see the lyrics of the audio file while hearing the beautiful melody. It has become one of the essential functions of audio playback software and player, and can generally be matched by file name or keyword.
  • the lyric adaptation software or the playback software can be installed with the lyrics download function, but most of the lyric adaptation software or the playback software basically matches according to the name of the song.
  • the terminal device starts playing a song, and then connects to the network, and the web server searches for whether there is a lyric that matches the name of the song, and if the web server searches for a lyric that matches the name, Then the terminal device downloads the lyrics, and then displays the lyrics in synchronization with the played songs.
  • the prior art has the following problems: At present, the prior art can only implement audio synchronization problems such as lyrics and MTV matching on a terminal device that plays audio, but cannot implement lyrics on a device different from the terminal device that plays audio. , MTV matching audio synchronization problem. Summary of the invention
  • the technical problem to be solved by the present invention is to provide an audio processing method and system, which can implement audio synchronization processing of different devices.
  • an audio processing method including: acquiring, by a first device, audio of a second device, where the first device and the second device are devices of the same type or different types; In the device, performing audio matching on the acquired audio of the second device according to a predetermined audio matching requirement to acquire an audio file that matches the audio of the second device; and outputting the acquired audio file on the first device .
  • the audio file includes one or more of song audio, lyrics, MTV related to a song, and song background material.
  • the audio processing method may further include: notifying the acquired audio of the second device according to the notation requirement.
  • performing audio matching on the acquired audio of the second device according to the audio matching requirement in the first device may include: detecting whether a local audio library exists in the first device The local audio library includes at least song audio; and detecting that a local audio library exists in the first device, and audio of the acquired second device audio is performed in a local audio library according to a predetermined audio matching requirement Match to get the matching audio file.
  • the audio processing method may further include: when detecting that the local audio library does not exist in the first device or the audio matching in the local audio library fails, The acquired audio of the second device is uploaded to the server for audio matching in the server; and the audio file obtained after the audio matching is received from the server.
  • the audio file required to indicate the user is also uploaded to the server.
  • outputting the acquired audio file on the first device may include: selecting, from the acquired audio files, a user desired output. An audio file; and outputting the selected audio file on the first device.
  • an audio processing device in a first device, including: an audio acquiring unit, configured to acquire audio of a second device, where the first device and the second device are devices of the same type Or an audio matching unit, configured to perform audio matching on the acquired audio of the second device according to a predetermined audio matching requirement to acquire an audio file that matches audio of the second device; and an audio file output unit, For outputting the acquired audio file on the first device.
  • the audio processing device may further include: a notation unit configured to perform the notation of the acquired audio of the second device according to the notation requirement.
  • the audio matching unit may include: a detecting module, configured to detect whether a local audio library exists in the first device, where the local audio library is The song audio is included; the local audio matching module is configured to: when detecting that the local audio library exists in the first device, perform audio on the acquired audio of the second device according to a predetermined audio matching requirement in the local audio library. Matching to obtain a matching audio file; the uploading module, configured to: when detecting that the local audio library does not exist in the first device or the audio matching in the local audio library fails, the acquired second device Audio is uploaded to the server for audio matching in the server; and a receiving module is configured to receive an audio file obtained from the server after the audio matching.
  • a detecting module configured to detect whether a local audio library exists in the first device, where the local audio library is The song audio is included
  • the local audio matching module is configured to: when detecting that the local audio library exists in the first device, perform audio on the acquired audio of the second device according to a predetermined audio matching requirement in the local audio library. Match
  • the uploading module further uploads to the server to indicate the user when detecting that the local audio library does not exist in the first device or the audio matching in the local audio library fails.
  • the indication information of the required audio file, and the audio matching in the server, only the audio file required by the user is obtained according to the uploaded instruction information.
  • the audio processing device may further include: a selection module, configured to select, from the acquired audio files, a user desired output And the audio file output unit outputs the selected audio file on the first device.
  • an audio processing system including: at least a first device and a second device, where the first device and the second device are devices of the same type or different types;
  • the first device comprises an audio processing device as described above.
  • the audio processing system further includes a server, wherein the server is provided with a network audio library, and the server is configured to: detect that no local audio exists in the first device a library, or after performing audio matching failure on the acquired audio of the second device in the local audio library, receiving audio of the second device uploaded from the first device; receiving the received in the network audio library Audio is audio matched to obtain a matching audio file; and the acquired audio file is sent to the first device.
  • the server is provided with a network audio library
  • the server is configured to: detect that no local audio exists in the first device a library, or after performing audio matching failure on the acquired audio of the second device in the local audio library, receiving audio of the second device uploaded from the first device; receiving the received in the network audio library Audio is audio matched to obtain a matching audio file; and the acquired audio file is sent to the first device.
  • audio of other devices can be obtained, and then the obtained audio is subjected to audio processing according to the set requirement, and the result of the audio processing is obtained, and the processing result can be, for example, obtained.
  • Matching lyrics and songs, etc. thus solving the audio synchronization problem of different devices.
  • the song when the user holds the mobile device and hears the song played on the television, the song can be directly obtained, and after the audio matching is performed, the corresponding lyrics can be directly displayed on the mobile device, thereby greatly improving the user experience and also Mobile device-based entertainment gets better applications.
  • FIG. 1 is a flow chart of an audio processing method according to an embodiment of the present invention.
  • FIG. 2 is a flow chart showing a notation process in an audio processing method according to an embodiment of the present invention
  • FIG. 3 is a flowchart showing a process of an audio matching process performed by a client side in an audio processing method according to an embodiment of the present invention
  • FIG. 4 is a flow chart showing the processing of the audio matching process performed by the server side in the audio processing method of the present invention.
  • FIG. 5 is a schematic structural view of an audio processing system of the present invention.
  • Fig. 6 is a block diagram showing an implementation example of the first device of Fig. 5; and Fig. 7 is a block diagram showing an implementation example of the audio matching module of Fig. 6.
  • the present invention provides an audio processing method capable of realizing audio synchronization processing between different audio devices, and also improving synchronization accuracy.
  • the system according to the present invention can adopt a C/S (Client/Server) structure, so the C/S technology will be briefly introduced before introducing the solution of the present invention.
  • C/S Customer/Server
  • the C/S structure which is currently known as the client (Client) and server (Server) structures, It can take full advantage of the hardware environment at both ends, and distribute the tasks to the client and server to achieve the communication overhead.
  • client Client
  • server Server
  • the traditional CIS architecture uses an open model, which refers only to the openness of the system development level. In a specific application, both the client side and the server side require specific software support.
  • FIG. 1 is a flow chart of an audio processing method in accordance with an embodiment of the present invention.
  • the first device and the second device are both devices having audio processing capabilities, and the first device and the second device may be devices of the same type or devices of different types.
  • the first device acquires audio of the second device.
  • the audio may be the complete audio or an audio segment of the audio file being played on the second device, such as an audio segment of the song being played.
  • the first device can acquire the audio of the second device by recording or reading the audio frequency.
  • the recording method refers to recording the audio of the second device, and then extracting the audio according to the recording.
  • the reading of the audio frequency means reading the audio frequency directly from the second device.
  • the recording method is relatively lagging compared to reading the audio frequency directly, but the frequency reading is more accurate.
  • the first device can also obtain audio of the second device by other means of acquisition as is known in the art.
  • the audio of the acquired second device is audio-matched according to a predetermined audio matching requirement, to obtain an audio file that matches the acquired audio of the second device.
  • the audio file may be one or more of an audio file such as song audio, lyrics, MTV related to the song, and song background material.
  • the predetermined audio matching requirement may be automatically set according to a predetermined rule or manually set by a user.
  • the audio matching requirement can be set to be identical to the acquired audio. In this case, when there is exactly the same audio as the acquired audio of the second device, the match is considered.
  • the audio matching requirement may also be set to be 8 degrees higher than the acquired audio of the second device. In this case, when there is audio which is 8 degrees higher than the audio of the acquired second device, it is considered to be a match.
  • the predetermined audio matching requirement may also be set to other rules.
  • the acquired audio file is output on the first device.
  • the acquired audio file is song audio
  • the song audio is played on the first device.
  • the acquired audio file is the lyrics of the song audio
  • the lyrics are displayed on the first device.
  • the acquired audio file is the MTV of the song
  • the MTV is played on the first device.
  • the acquired audio file is a song background material
  • the song background material is displayed on the first device.
  • the acquired audio file may also be various combinations of the above audio files, in which case the combined output can be performed on the first device.
  • the acquired audio file includes song audio and lyrics
  • the song audio can be played on the first device while displaying the lyrics of the song.
  • the acquired audio file is a combination of the audio files, gp
  • the acquired audio file includes multiple audio files
  • the acquired audio file is output on the first device.
  • the method may further include: selecting an audio file that the user desires to output from the acquired audio files; and outputting the selected audio file on the first device.
  • an audio file that the user desires to output may be selected from the acquired audio files in accordance with the indication information for indicating the audio file that the user desires to output.
  • the indication information for indicating an audio file that the user desires to output may be input by a user.
  • the acquired audio of the second device may be scored according to the notation requirement to obtain the musical score of the audio.
  • 2 shows a flow chart of a notation process in an audio processing method in accordance with an embodiment of the present invention.
  • step S201 the frequency of the audio is recorded, and the corresponding tone is determined based on the frequency of the audio.
  • step S202 based on the interval time between the recorded frequencies, the corresponding rhythm is determined (step S202).
  • step S203 the corresponding melody is obtained (step S203).
  • the first device can acquire audio of other devices (same type or different type), and then perform audio matching processing on the acquired audio in the first device to obtain and The obtained audio file of the second device is matched, and then the acquired audio file is output on the first device (for example, matching lyrics are displayed on the first device, etc.), thereby solving the audio synchronization problem of different devices.
  • Fig. 3 is a flow chart showing the processing of the client side in an exemplary process of the audio processing method according to an embodiment of the present invention.
  • Device A can be a mobile phone or other mobile device with audio processing capability.
  • Device B (second device) is the same type of device as device A, or different.
  • Type of device such as a TV or stereo.
  • the first device acquires audio of the second device as an audio sample.
  • device A can obtain the audio played by device B through software, and the acquired audio.
  • the method for the device A to obtain the audio of the device B can be implemented, for example, mainly by the recording function of the mobile phone or the mobile device, or by directly reading the audio frequency, and the invention is not limited thereto.
  • step 302 it is determined whether a local audio library exists in the first device. At least the song audio is stored in the local audio library.
  • the local audio library may further include corresponding lyrics of the song audio, MTV related to the song, and/or related background information of the song.
  • the lyrics, the background information related to the MTV and/or the song related to the song are stored in the local audio library in association with the song audio. In other words, once you get any of the song audio, lyrics, MTV and/or song related background information, you can find the rest of the audio files in the local audio library (when the rest of the audio is stored in the local audio library) When the file is).
  • step 303 the audio of the acquired second device is audio-matched in the local audio library according to a predetermined audio matching requirement, and it is determined whether the matching is successful, that is, whether the obtained second device exists in the local audio library.
  • the audio samples match the song audio. For example, if a song audio that satisfies the audio matching requirement with the acquired audio sample is found in the local audio library, it is determined that the matching is successful. If the match is successful, then go to step 304. Otherwise, proceed to step 305.
  • the predetermined audio matching requirement may further include indication information for indicating a desired audio file of the user, such as indication information for indicating that the user desires to obtain the lyrics of the song audio.
  • indication information for indicating a desired audio file of the user such as indication information for indicating that the user desires to obtain the lyrics of the song audio.
  • an audio file associated with the matched song audio is obtained from a local audio library. For example, get matching song audio from a local audio library. If there are other audio files associated with the song audio in the local audio library, such as lyrics, MTV, and/or other song background material, etc., matching the audio samples of the acquired device B based on the search in the local audio library.
  • the song audio further obtains lyrics, MTV and/or song background material and the like associated with the searched song audio from the local audio library.
  • the audio matching requirement further includes indication information for indicating a user's desired audio file, only the audio file desired by the user is acquired from the local audio library. For example, when the user only needs the lyrics of the song, only the lyrics are obtained from the local audio library.
  • step S308 the acquired audio file is output on the first device. If obtained The audio file taken is song audio, and the song audio is played on the first device. If the acquired audio file is the lyrics of the song audio, the lyrics are displayed on the first device. If the acquired audio file is an MTV of a song, the MTV is played on the first device. If the acquired audio file is a song background material, the song background material is displayed on the first device.
  • the acquired audio file is various combinations of the above audio files, combined output can be performed on the first device.
  • the acquired audio file includes song audio and lyrics
  • the song audio can be played on the first device while displaying the lyrics of the song.
  • outputting the acquired audio file on the first device may further include: according to the audio file for indicating that the user desires to output The indication information, selecting an audio file that the user desires to output from the acquired audio file; and outputting the selected audio file on the first device.
  • the acquired audio samples are uploaded to the server for matching in the server, thereby obtaining an audio file matching the audio samples in the server.
  • the specific transmission method and the transmission protocol used are not limited.
  • the audio file may be song audio, lyrics, MTV and/or song background material, and the like.
  • the device A when the device A uploads an audio sample, it is also possible to upload indication information indicating the audio file desired by the user, for example, only lyrics are required, or songs and lyrics are required at the same time. In this way, only the audio file corresponding to the audio file desired by the user can be acquired in the server.
  • step 306 the matching audio file acquired by the server is downloaded to the local audio library.
  • device A immediately downloads the corresponding audio file from the server and stores it in the local audio library.
  • device A establishes the association of the lyrics with the audio samples locally based on the downloaded and stored audio files. In this way, when device A searches or opens the same audio next time, it can directly match the local audio library and display the lyrics correspondingly, thereby reducing the response time and improving the user experience.
  • step 307 after downloading or storing the audio file, the audio file downloaded from the server is output on the first device.
  • the audio file output process of this step is the same as described above with reference to step 308 and will not be described here.
  • the first device Preferably, before the matching, the first device also needs to perform fast audio decoding on the acquired audio samples, and then perform matching in the local audio library for the audio decoded audio samples.
  • audio Decoding there are currently two international standardization organizations responsible for video and audio coding.
  • One is VCEG (Video code Expert Group), which is a video coding expert group under the International Telecommunications Union.
  • MPEG Motion Picture Expert Group
  • Motion Picture Experts Group under the Standardization Organization.
  • the present invention does not limit which standard is specifically used for audio decoding, and only needs to satisfy the decoding of the audio samples.
  • the user can listen to the device B playing the song and display the lyrics corresponding to the song at the same time in the own device A, thereby improving the user experience.
  • device A can also play the songs that are searched in the local audio library and match the acquired audio samples, and simultaneously display the lyrics corresponding to the songs in the device screen.
  • Device A can play the MTV associated with the song in the local audio library.
  • device A can present the user with contextual information about the song in the local audio library.
  • the above treatment methods may be used singly or in combination. Through the above processing, the user can enjoy a better user experience.
  • Fig. 4 is a flow chart showing the processing on the server side in an example of the audio processing method of the embodiment of the present invention.
  • the server receives an audio sample uploaded by the client.
  • the specific transmission method used by the client uploading and the transmission protocol used are not limited.
  • the server may also receive indication information from the client indicating the audio file desired by the user.
  • the server After receiving the audio samples, in step 402, the server performs matching processing through the built-in network audio library.
  • the network audio library may further include lyrics corresponding to the audio, MTV related to the song, and background information of the song.
  • the size of the client's software itself can be saved.
  • the audio library of the server is called a network audio library. If the client does not set a local audio library, in the solution of the present invention, the client can directly upload the acquired audio samples to the server.
  • the server performs frequency matching using the following steps, but is not limited thereto.
  • the server will take the obtained audio sample as the audio stream to be tested, from the audio sample in the network audio library Search for the corresponding matching audio segment.
  • the process specifically includes:
  • the energy envelope unit map can be obtained by using various existing techniques, for example, dividing into multiple frames according to time intervals, performing audio short-time energy feature extraction, and forming a short-term energy packet according to the short-term average energy of each frame. Network.
  • the starting point of each energy envelope unit is sequentially selected as the starting point of the matching operation.
  • Each audio sample and the audio stream segment to be tested are respectively represented by a pair of pairs of segmentation points and probability pairs on the energy envelope unit map.
  • step 5 Using the similarity measure function to calculate the matching points obtained in step 4) and the corresponding audio samples, and obtain similar values of the two.
  • step 6) comparing the similarity value obtained in step 5) with a predetermined threshold value, and if the similarity value is greater than the threshold value, the audio segment corresponding to the matching point obtained in step 4) is matched and matched. Match the corresponding audio samples.
  • the server matches according to the frequency of the received audio, so the matching of the song and the lyrics is more accurate, thereby improving the synchronization accuracy.
  • the matched audio files such as song audio, lyrics, MTV and/or other song background information, are obtained from the network audio library.
  • the specific acquisition process is the same as described above with reference to the local audio library.
  • the indication information for indicating the audio file required by the user is also uploaded from the client, after the matched audio is found, according to the indication information, the user's required information is acquired from the network audio library. Audio file.
  • step S404 the acquired audio file is returned to the client.
  • the server side transmits the audio file to the client after matching the corresponding audio from the network audio library through fast matching.
  • the specific processing may be performed as needed, and the processing may be as described in the client processing procedure.
  • the present invention obtains the audio of other devices, and then performs audio matching on the local or server. After the matching is successful, the audio file corresponding to the audio of the other device is output, such as displaying the lyrics of the audio, MTV, etc., playing.
  • the audio displays material information corresponding to the audio, thereby enriching the audio application and improving the user experience.
  • the server performs matching according to the frequency of the received audio, so that matching songs and lyrics are more accurate, thereby improving synchronization accuracy.
  • Device A (such as a TV or stereo, etc.) is playing a song, such as Wang Lee Hom's song "Unique.”
  • Device A (a mobile device that is different from device B, such as a smartphone or tablet) is equipped with audio processing software.
  • Device A opens the software and reads the audio played by device B. After device A reads the audio and does not search for the corresponding audio in its own local audio library, it uploads the audio to the remote server C of the software for matching.
  • the remote server C searches for Wang Lihong's song "unique” and the corresponding lyrics, and returns the corresponding audio file (including the song "unique” audio and lyrics and other materials, etc.) to the device A. After device A downloads the audio file, it displays the corresponding lyrics on the screen. If the user needs it, it can also provide relevant song-related information.
  • the audio processing software of the mobile device can be directly opened, the song is obtained, and after local or network matching, the mobile device can be directly displayed. Corresponding to the lyrics, thus greatly improving the user experience.
  • Device A (such as a TV or stereo, etc.) is playing a song, such as Wang Lee Hom's song "Unique.”
  • Device A (a mobile device that is not the same as Device B, such as a smartphone or tablet) has audio processing software installed.
  • Device A opens the software and reads the audio played by device B. After the device A reads the audio by recording, etc., the frequency of the audio signal is remembered. Further, the device A determines the corresponding tone according to the frequency of the recorded audio signal, that is, determines what tone the note is, such as do or do plus. Also, the corresponding rhythm is determined according to the interval time of the signal. Through the determination of the pitch and rhythm, the melody corresponding to the song is directly recorded, and the function of automatic notation is realized. This kind of audio processing facilitates the needs of more non-professionals, so it also enhances the user experience from another perspective.
  • the above content details the audio processing method of the present invention, and the present invention accordingly provides a tone.
  • the frequency processing system is described in detail below.
  • FIG. 5 is a block diagram showing the structure of an audio processing system 500 of the present invention.
  • the audio processing system 500 includes at least a first device 510 and a second device 520, and the first device 510 and the second device 520 are devices of the same type or different types.
  • the second device 520 is configured to play audio.
  • the first device 510 is configured to acquire audio of the second device 520; perform audio matching processing on the acquired audio of the second device 520 according to a predetermined audio matching requirement, to obtain an audio matching with the acquired second device 520. Audio file; and output the acquired audio file.
  • the first device 510 can be further configured to score the acquired audio of the second device 520 in accordance with the notation requirements.
  • the audio processing system 500 can also include a server 530.
  • the server 530 is provided with a network audio library, and the server 530 is configured to receive the acquired audio of the second device 520 uploaded from the first device 510, and the acquired audio of the second device 520 is only detected.
  • the local audio library does not exist in a device or is uploaded from the first device 510 to the server 530 after the local audio library fails to perform audio matching on the acquired audio.
  • Server 530 is also configured to perform audio matching on the received audio in a network audio library and then transmit the matched audio file to the first device 510.
  • the server 530 is further configured to receive, from the first device 510, indication information for indicating a desired audio file of the user, for example, the indication information indicates whether the audio file desired by the user is song audio, lyrics, MTV, or background material of the song, and the like. . In this case, the matched audio file is only the audio file indicated by the indication information.
  • Fig. 6 is a block diagram showing an implementation example of the first device of Fig. 5.
  • the first device 510 includes an audio acquisition unit 511, an audio matching unit 513, and an audio file output unit 515.
  • the audio acquiring unit 511 is configured to acquire audio of the second device 520.
  • the audio may be the complete audio or an audio segment of the audio file being played on the second device, such as an audio segment of the song being played.
  • the audio acquisition unit 511 can acquire the audio of the second device 520 by recording or reading the frequency.
  • the audio matching unit 513 is configured to perform audio matching on the audio acquired from the second device 520 in the first device 510 according to a predetermined audio matching requirement to obtain an audio file matching the audio.
  • the audio file may include one or more of song audio, lyrics, MTV related to the song, and song background material.
  • the audio file output unit 515 is for outputting the acquired matching audio file on the first device.
  • the first device may further include a selection unit (not shown) for selecting an audio file desired to be output by the user from the acquired audio files.
  • the selection unit may select an audio file that the user desires to output from the acquired audio files according to the indication information for indicating the audio file that the user desires to output.
  • the indication information for indicating an audio file that the user desires to output may be input by the user.
  • FIG. 7 shows a block schematic diagram of one implementation example of the audio matching unit 513.
  • the audio matching unit 513 includes a detecting module 5131, a local audio matching module 5133, an uploading module 5135, and a receiving module 5137.
  • the detecting module 5131 is configured to detect whether a local audio library exists in the first device 510. At least the song audio is stored in the local audio library.
  • the local audio library may further include corresponding lyrics of song audio, MTV and/or song background material related to the song, and the like. And, the lyrics, the MTV and/or the song background material related to the song are stored in the local audio in association with the song audio.
  • the local audio matching module 5133 reads the acquired audio in the local audio library. Audio matching is performed to obtain an audio file that matches the audio of the second device.
  • the audio file includes one or more of song audio, song lyrics, song MTV, song material.
  • the uploading module 5135 is configured to upload the acquired audio of the second device to the server 530 when the detecting module 5131 detects that the matching of the local audio library or the audio matching module 5133 is unsuccessful. In another example of the present invention, the uploading module 5135 also uploads indication information indicating the audio file desired by the user. In this case, only the audio file desired by the user is acquired in the server 530.
  • the receiving module 5137 is configured to receive the matched audio file returned from the server 530.
  • the technical solution of the present invention can obtain audio of other devices (same type or different type), and then perform audio processing on the acquired audio according to the set requirements, and obtain the result of the audio processing, and the processing result may be, for example, matching. Lyrics and songs, etc., thus solving the audio synchronization problem of different devices.
  • the solution of the present invention when the user holds the mobile device and hears the song played on the television, The song can be directly obtained, and after the audio matching, the corresponding lyrics can be directly displayed on the mobile device, thereby greatly improving the user experience and making the mobile device-based entertainment obtain a better application.
  • the method according to the invention can also be implemented as a computer program executed by a CPU.
  • the computer program is executed by the CPU, the above-described functions defined in the method of the present invention are performed.
  • the above method steps and system elements can also be implemented with a controller or processor and a computer readable storage device for storing a computer program that causes the controller or processor to perform the steps or unit functions described above.
  • non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash.
  • ROM read only memory
  • PROM programmable ROM
  • EPROM electrically programmable ROM
  • EEPROM electrically erasable programmable ROM
  • flash flash.
  • Volatile memory can include random access memory (RAM), which can act as external cache memory.
  • RAM can be obtained in a variety of forms, such as synchronous RAM (DRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDR SDRAM), enhanced SDRAM (ESDRAM), Storage devices of the disclosed aspects of synchronous link DRAM (SLDRAM) and direct Rambus RAM (DRRAM) o are intended to include, but are not limited to, these and other suitable types of memory.
  • DRAM synchronous RAM
  • DRAM dynamic RAM
  • SDRAM synchronous DRAM
  • DDR SDRAM double data rate SDRAM
  • ESDRAM enhanced SDRAM
  • SLDRAM synchronous link DRAM
  • DRRAM direct Rambus RAM

Abstract

本发明提供了一种音频处理方法及系统,该音频处理方法包括:第一设备获取第二设备的音频,所述第一设备和第二设备为同类型设备或异类型设备;在所述第一设备内,按照预定的音频匹配需求对所述获取的第二设备的音频进行音频匹配,以获取与第二设备的音频匹配的音频文件;以及在所述第一设备上输出所获取的音频文件。根据该方法,能够实现不同设备之间的音频同步处理,从而大大提高用户的体验,也使得基于移动设备的娱乐获得更好的应用。

Description

音频处理方法及系统
技术领域
本发明涉及移动通信领域, 更为具体地, 涉及一种音频处理方法及系统。 背景技术
随着音频处理技术的不断发展, 目前已经可以在终端设备上(例如 MP3 , 手机等) 实现歌词匹配和下载, 使得人们在听到优美旋律的同时能够看到该 音频文件的歌词, 该功能已经成为了音频播放软件及播放器的必备功能之一, 并且一般可以通过文件名或者关键词等进行匹配。
现有技术中, 对于播放音频的终端设备, 可以安装歌词适配软件或是播 放软件可以自带歌词下载功能, 但是大部分歌词适配软件或是播放软件, 基 本是根据歌曲的名称进行匹配。 例如在一种音频处理方法中, 终端设备开始 播放歌曲, 然后连接到网络, 在网络服务器搜索是否存在与所述歌曲的名称 匹配的歌词, 若在网络服务器搜索到与所述名称匹配的歌词, 则终端设备下 载所述歌词, 然后将所述歌词与播放的歌曲同步显示。
但是, 现有技术存在以下问题: 目前现有技术只能实现在播放音频的终 端设备上实现比如歌词、 MTV匹配的音频同步问题, 而不能在与播放音频的 终端设备不同的设备上实现比如歌词、 MTV匹配的音频同步问题。 发明内容
本发明要解决的技术问题是提供一种音频处理方法及系统, 能实现不同 设备的音频同步处理。
根据本发明的一个方面, 提供了一种音频处理方法, 包括: 第一设备获 取第二设备的音频, 所述第一设备和第二设备为同类型设备或异类型设备; 在所述第一设备内, 按照预定的音频匹配需求对所述获取的第二设备的音频 进行音频匹配, 以获取与第二设备的音频匹配的音频文件; 以及在所述第一 设备上输出所获取的音频文件。 在上述方面的一个或多个示例中, 所述音频文件包括歌曲音频、 歌词、 与歌曲有关的 MTV和歌曲背景资料中的一个或多个。
在上述方面的一个或多个示例中, 所述音频处理方法还可以包括: 按照 记谱需求对所获取的第二设备的音频进行记谱。
在上述方面的一个或多个示例中, 在所述第一设备内按照音频匹配需求 对所获取的第二设备的音频进行音频匹配可以包括: 检测在所述第一设备内 是否存在本地音频库, 所述本地音频库中至少包括歌曲音频; 以及在检测出 所述第一设备内存在本地音频库, 在本地音频库中按照预定的音频匹配需求 对所述获取的第二设备的音频进行音频匹配, 以获取匹配的音频文件。
在上述方面的一个或多个示例中, 所述音频处理方法还可以包括: 在检 测出所述第一设备内不存在本地音频库或者在本地音频库中进行的音频匹配 失败时, 将所述获取的第二设备的音频上传到服务器以便在服务器中进行音 频匹配; 以及从所述服务器接收进行音频匹配后获取的音频文件。
在上述方面的一个或多个示例中, 在检测出所述第一设备内不存在本地 音频库或者在本地音频库中进行的音频匹配失败时, 还向服务器上传用于指 示用户所需音频文件的指示信息, 以及在服务器中进行音频匹配时, 根据上 传的所述指示信息, 仅仅获取用户所需音频文件。
在上述方面的一个或多个示例中, 在所获取的音频文件包括多个音频文 件时, 在第一设备上输出所获取的音频文件可以包括: 从所获取的音频文件 中选择用户期望输出的音频文件; 以及在第一设备上输出所选择的音频文件。
根据本发明的另一方面, 提供了一种位于第一设备中的音频处理装置, 包括: 音频获取单元, 用于获取第二设备的音频, 所述第一设备和第二设备 为同类型设备或异类型设备; 音频匹配单元, 用于按照预定的音频匹配需求 对所述获取的第二设备的音频进行音频匹配, 以获取与第二设备的音频匹配 的音频文件; 以及音频文件输出单元, 用于在所述第一设备上输出所获取的 音频文件。
在上述方面的一个或多个示例中, 所述音频处理装置还可以包括: 记谱 单元, 用于按照记谱需求对所获取的第二设备的音频进行记谱。
在上述方面的一个或多个示例中, 所述音频匹配单元可以包括: 检测模 块, 用于检测在所述第一设备内是否存在本地音频库, 所述本地音频库中至 少包括歌曲音频; 本地音频匹配模块, 用于在检测出所述第一设备内存在本 地音频库时, 在本地音频库中按照预定的音频匹配需求对所述获取的第二设 备的音频进行音频匹配, 以获取匹配的音频文件; 上传模块, 用于在检测出 所述第一设备内不存在本地音频库或者在本地音频库中进行的音频匹配失败 时, 将所述获取的第二设备的音频上传到服务器以便在服务器中进行音频匹 配; 以及接收模块, 用于从所述服务器接收进行音频匹配后获取的音频文件。
在上述方面的一个或多个示例中, 在检测出所述第一设备内不存在本地 音频库或者在本地音频库中进行的音频匹配失败时, 所述上传模块还向服务 器上传用于指示用户所需音频文件的指示信息, 以及在服务器中进行音频匹 配时, 根据上传的所述指示信息, 仅仅获取用户所需音频文件。
在上述方面的一个或多个示例中, 在所获取的音频文件包括多个音频文 件时, 所述音频处理装置还可以包括: 选择模块, 用于从所获取的音频文件 中选择用户期望输出的音频文件; 以及所述音频文件输出单元在第一设备上 输出所选择的音频文件。
根据本发明的另一方面, 提供了一种音频处理系统, 包括: 至少第一设 备和第二设备, 所述第一设备和第二设备为同类型设备或异类型设备; 所述 第二设备用于播放音频; 所述第一设备包括如上所述的音频处理装置。
在上述方面的一个或多个示例中, 所述音频处理系统还包括服务器, 所 述服务器中设有网络音频库, 所述服务器被配置为: 在检测出所述第一设备 内不存在本地音频库, 或者在本地音频库中对所述获取的第二设备的音频进 行音频匹配失败后, 接收从所述第一设备上传的所述第二设备的音频; 在网 络音频库中对所接收的音频进行音频匹配, 以获取匹配的音频文件; 以及将 所获取的音频文件发送给所述第一设备。
根据本发明的音频处理方法及系统, 可以获取其他设备 (同类型或异类 型) 的音频, 然后根据设定需求对获取的音频进行音频处理, 获得音频处理 的结果, 该处理结果例如可以是得到匹配的歌词和歌曲等, 从而解决了不同 设备的音频同步问题。 通过本发明方案, 当用户拿着移动设备, 听到电视播 放歌曲时, 可以直接获取该歌曲, 并进行音频匹配后, 就可以直接在移动设 备显示对应歌词, 从而大大提高用户的体验, 也使得基于移动设备的娱乐获 得更好的应用。 附图说明
根据下述参照附图进行的详细描述, 本发明的上述和其他目的、 特征和 优点将变得更加显而易见。 在附图中:
图 1是根据本发明实施例的音频处理方法流程图;
图 2示出了根据本发明实施例的音频处理方法中的记谱过程的流程图; 图 3 是根据本发明实施例的音频处理方法中的客户端侧进行的音频匹配 过程的处理流程图;
图 4是本发明的音频处理方法中的服务器侧进行的音频匹配过程的处理 流程图;
图 5是本发明的音频处理系统结构示意图;
图 6示出了图 5中的第一设备的一个实现示例的方框示意图; 和 图 7示出了图 6中的音频匹配模块的一个实现示例的方框示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。 具体实施方式
下面描述本公开的各个方面。 应该明白的是, 本文的教导可以以多种多 样形式具体体现, 并且在本文中公开的任何具体结构、 功能或两者仅仅是代 表性的。 基于本文的教导, 本领域技术人员应该明白的是, 本文所公开的一 个方面可以独立于任何其它方面实现, 并且这些方面中的两个或多个方面可 以按照各种方式组合。 例如, 可以使用本文所阐述的任何数目的方面, 实现 装置或实践方法。 另外, 可以使用其它结构、 功能、 或除了本文所阐述的一 个或多个方面之外或不是本文所阐述的一个或多个方面的结构和功能, 实现 这种装置或实践这种方法。 此外, 本文所描述的任何方面可以包括权利要求 的至少一个元素。
本发明提供一种音频处理方法, 该方法能够实现不同音频设备之间的音 频同步处理, 并且还可以提高同步准确性。
根据本发明的系统可以采用 C/S (Client/Server)结构, 因此在介绍本发 明方案前, 先对 C/S技术进行简单介绍。
C/S结构, 即目前熟知的客户端(Client)和服务器(Server) 结构, 通过 它可以充分利用两端硬件环境的优势, 将任务合理分配到 Client端和 Server 端来实现, 从而降低了系统的通讯开销。 目前大多数应用软件系统都是 Client/Server形式的两层结构。 传统的 C I S体系结构采用的是开放模式, 这 只是指系统开发级的开放性。 在特定的应用中, 无论是 Client端还是 Server 端, 都需要特定的软件支持。
下面将参照附图描述本发明的各个实施例。
图 1是根据本发明实施例的音频处理方法流程图。 在图 1 中, 第一设备 和第二设备都是具有音频处理能力的设备, 并且所述第一设备和第二设备可 以为同类型设备或异类型设备。
如图 1所示, 在步骤 S101中, 第一设备获取第二设备的音频。 所述音频 可以是第二设备上正在播放的音频文件的完整音频或者一个音频片段, 比如, 正在播放的歌曲的一个音频片段。 例如, 第一设备可以通过录音或读取音频 频率的方式获取第二设备的音频。 所述录音的方式是指对第二设备的音频进 行录音, 然后根据录音提取音频。 所述读取音频频率是指直接从第二设备读 取音频频率。 与直接读取音频频率相比, 录音方式相对滞后, 但是频率读取 的精确度更高。 此外, 第一设备也可以通过本领域中公知的其它获取方式来 获取第二设备的音频。
接着, 在步骤 102, 在所述第一设备内, 按照预定的音频匹配需求对所述 获取的第二设备的音频进行音频匹配, 以获取与所述获取的第二设备的音频 匹配的音频文件。 所述音频文件可以是比如歌曲音频、 歌词、 与歌曲有关的 MTV和歌曲背景资料等的音频文件中的一个或多个。
所述预定的音频匹配需求可以按照预定的规则自动设置或者由用户手动 设置。 例如, 所述音频匹配需求可以被设置为与所获取的音频完全相同。 在 这种情况下, 当存在与所获取的第二设备的音频完全相同的音频时, 则认为 匹配。 所述音频匹配需求也可以被设置为比所获取的第二设备的音频高 8度。 在这种情况下, 当存在有比所获取的第二设备的音频高 8度的音频时, 则认 为匹配。 此外, 所述预定的音频匹配需求也可以设置为其它规则。
在如上完成音频匹配后, 在步骤 103, 在第一设备上输出所获取的音频文 件。 例如, 在所获取的音频文件是歌曲音频时, 在第一设备上播放该歌曲音 频。 在所获取的音频文件是歌曲音频的歌词时, 在第一设备上显示该歌词。 在所获取的音频文件是歌曲的 MTV时, 在第一设备上播放该 MTV。 在所获 取的音频文件是歌曲背景资料时, 在第一设备上展示该歌曲背景资料。
此外, 所获取的音频文件也可以是上述音频文件的各种组合, 在这种情 况下, 在第一设备上可以进行组合输出。 比如, 在所获取的音频文件包括歌 曲音频和歌词时, 可以在第一设备上播放歌曲音频, 同时显示该歌曲的歌词。 此外, 在本发明的另一示例中, 在所获取的音频文件是上述音频文件的组合 时, gp, 所获取的音频文件包括多个音频文件时, 在第一设备上输出所获取 的音频文件还可以包括: 从所获取的音频文件中选择用户期望输出的音频文 件; 以及在第一设备上输出所选择的音频文件。 例如, 在本发明的一个示例 中, 可以根据用于指示用户期望输出的音频文件的指示信息, 从所获取的音 频文件中选择用户期望输出的音频文件。 所述用于指示用户期望输出的音频 文件的指示信息可以由用户输入。
在本发明的另一示例中, 在步骤 S101中获取第二设备的音频后, 还可以 按照记谱需求对所获取的第二设备的音频进行记谱, 以获取该音频的乐谱。 图 2示出了根据本发明实施例的音频处理方法中的记谱过程的流程图。
如图 2所示, 首先, 在步骤 S201 , 记录音频的频率, 根据音频的频率确 定对应的音调。接着, 根据记录的频率之间的间隔时间, 确定对应的节奏(步 骤 S202)。 然后, 通过音调和节奏的确定, 获得对应的旋律 (步骤 S203 )。
从上可以看出, 根据本发明的技术方案,第一设备可以获取其他设备(同 类型或异类型) 的音频, 然后在第一设备内对所获取的音频进行音频匹配处 理, 以获取与所述获取的第二设备的音频匹配的音频文件, 然后在第一设备 上输出所获取的音频文件 (例如在第一设备上显示匹配的歌词等), 从而解决 了不同设备的音频同步问题。
图 3 示出了根据本发明实施例的音频处理方法的一个示例过程中的客户 端侧的处理流程图。
假设客户端存在两个设备 A和 B, 设备 A (第一设备) 可以是手机或是 其他具有音频处理能力的移动设备, 设备 B (第二设备) 为与设备 A同类型 的设备, 或者不同类型的设备, 例如电视机或音响等。
如图 3所示, 在步骤 301, 第一设备获取第二设备的音频作为音频样本。 例如, 设备 A可以通过软件获取设备 B播放出来的音频, 并将所获取的音频 作为音频样本。 假设所获取的是设备 B播放的一首歌曲。 设备 A获取设备 B 的音频的方法例如可以主要是通过手机或移动设备的录音功能实现, 也可以 通过直接读取音频频率的方式实现, 本发明并不加以限制。
接着, 在步骤 302, 判断在第一设备中是否存在本地音频库。所述本地音 频库中至少存储歌曲音频。 此外, 所述本地音频库中还可以包括歌曲音频的 对应歌词、 与歌曲有关的 MTV和 /或歌曲的相关背景资料等。 并且, 歌词、 与歌曲有关的 MTV和 /或歌曲的相关背景资料与歌曲音频相关联地存储在本 地音频库中。 换言之, 一旦获取歌曲音频、 歌词、 与歌曲有关的 MTV和 /或 歌曲的相关背景资料中的任何一个, 就可以在本地音频库中找到其余的音频 文件 (当本地音频库中存储有其余的音频文件时)。
如果第一设备中存在本地音频库, 则进入步骤 303。 否则, 进入到步骤 305。 在步骤 303, 按照预定的音频匹配需求在本地音频库对所述获取的第二 设备的音频进行音频匹配, 并判断是否匹配成功, 即判断在本地音频库中是 否存在与所获取的第二设备的音频样本匹配的歌曲音频。 例如, 如果在本地 音频库中搜索到与所获取的音频样本满足音频匹配需求的歌曲音频, 则判断 为匹配成功。 如果匹配成功, 则进入到步骤 304。 否则, 进入到步骤 305。
在本发明的另一示例中, 所述预定的音频匹配需求还可以包括用于指示 用户所需音频文件的指示信息, 比如用于指示用户期望得到歌曲音频的歌词 的指示信息。 在这种情况下, 在判断匹配成功时, 还需要判断在本地音频库 中是否存在指示信息所指示的音频文件。 如果存在, 则认为匹配成功。 否则, 认为匹配失败。
在步骤 304, 从本地音频库中获取与匹配的歌曲音频关联的音频文件。例 如, 从本地音频库中获取匹配的歌曲音频。 如果在本地音频库中还存在与该 歌曲音频关联的其它音频文件, 比如歌词、 MTV和 /或其它歌曲背景资料等, 则根据在本地音频库搜索到的与所获取的设备 B 的音频样本匹配的歌曲音 频, 从本地音频库中进一步获取与所搜索出的歌曲音频关联的歌词、 MTV和 /或歌曲背景资料等。 或者, 在所述音频匹配需求还包括用于指示用户所需音 频文件的指示信息的情况下, 从本地音频库中仅仅获取用户所需音频文件。 比如, 在用户仅仅需要歌曲的歌词时, 从本地音频库中仅仅获取歌词。
然后, 在步骤 S308中, 在第一设备上输出所获取的音频文件。 如果所获 取的音频文件是歌曲音频, 则在第一设备上播放该歌曲音频。 如果所获取的 音频文件是歌曲音频的歌词, 则在第一设备上显示该歌词。 如果所获取的音 频文件是歌曲的 MTV, 则在第一设备上播放该 MTV。 如果所获取的音频文 件是歌曲背景资料, 则在第一设备上展示该歌曲背景资料。
此外, 如果所获取的音频文件是上述音频文件的各种组合, 则在第一设 备上可以进行组合输出。 比如, 在所获取的音频文件包括歌曲音频和歌词时, 可以在第一设备上播放歌曲音频, 同时显示该歌曲的歌词。
此外, 在本发明的另一示例中, 在所获取的音频文件是上述音频文件的 组合时, 在第一设备上输出所获取的音频文件还可以包括: 根据用于指示用 户期望输出的音频文件的指示信息, 从所获取的音频文件中选择用户期望输 出的音频文件; 以及在第一设备上输出所选择的音频文件。
在步骤 305, 将所获取的音频样本上传给服务器, 以便在服务器中进行匹 配, 由此在服务器中获取与该音频样本匹配的音频文件。 在该步骤中, 不限 定具体传输方式及所采用的传输协议。 所述音频文件可以是歌曲音频、 歌词、 MTV和 /或歌曲背景资料等。
此外, 在本发明的另一示例中, 在设备 A上传音频样本时, 还可以上传 指示用户所需音频文件的指示信息, 例如只需要歌词, 或者同时需要歌曲和 歌词等。 按照这种方式, 在服务器中可以仅仅获取与用户所需音频文件对应 的音频文件。
接着, 在步骤 306, 将服务器获取的匹配音频文件下载到本地音频库。在 该步骤中, 一旦在服务器匹配到对应的音频文件, 则设备 A立即从服务器下 载对应的音频文件, 并存储到本地音频库。
另外, 设备 A根据下载和存储的音频文件, 在本地建立起歌词与音频样 本的关联。 这样, 设备 A下次搜索或打开同样的音频, 就能直接在本地音频 库中匹配成功, 对应显示歌词, 从而减少响应时间, 提高用户体验。
然后, 在步骤 307, 在下载或存储音频文件后, 在第一设备上输出从服务 器下载的音频文件。 该步骤的音频文件输出过程与上面参照步骤 308 的描述 相同, 在此不再描述。
优选地, 在匹配前, 第一设备还需要对所获取的音频样本进行快速音频 解码, 然后针对音频解码后的音频样本在本地音频库中进行匹配。 关于音频 解码, 目前国际上有两个负责视音频编码的标准化组织,一个是 VCEG (Video code Expert Group), 是国际电信联合会下的视频编码专家组, 一个是 MPEG (Motion Picture Expert Group), 是国际标准化组织下的运动图像专家组。 本 发明并不限定具体采用哪一种标准进行音频解码, 只需要满足对音频样本实 现解码即可。
按照上述方式, 用户可以听着设备 B在播放歌曲, 而在自己的设备 A同 时显示该歌曲对应的歌词, 由此提高了用户体验。 或者, 设备 A也可以将在 本地音频库搜索到的与获取的音频样本匹配的歌曲进行播放, 并在设备屏幕 中同步显示该歌曲关联对应的歌词。 或者, 设备 A可以播放本地音频库中与 该歌曲有关的 MTV。或者, 设备 A可以向用户展示本地音频库中与该歌曲的 相关背景资料。 上述处理方式可以单独使用, 也可以组合使用。 通过上述处 理使得用户可以享受到更好的用户体验。
另外, 在本发明中, 由于根据获取的音频进行匹配, 相对于现有技术根 据文件名例如歌曲名称匹配对应歌词, 显得更加准确, 从而提高同步准确性。
图 4是本发明实施例的音频处理方法的一个示例中的服务器侧的处理流 程图。
如图 4所示, 在步骤 401, 服务器接收客户端上传的音频样本。 这里, 不 限定客户端上传时所采用的具体传输方式及所采用的传输协议。 此外, 在本 发明的另一示例中, 服务器还可以从客户端接收用于指示用户所需音频文件 的指示信息。
在接收到音频样本后, 在步骤 402, 服务器通过内置的网络音频库进行匹 配处理。 与上述本地音频库相同, 在网络音频库中至少包括歌曲音频。 此外, 所述网络音频库中还可以包括与音频对应的歌词、与歌曲有关的 MTV及歌曲 背景资料等。
在本发明中, 通过将音频库设置在服务器, 可以节省客户端的软件本身 的大小。 本发明为了将音频库进行区分, 服务器的音频库称为网络音频库。 如果客户端不设置本地音频库 , 则本发明方案中, 客户端可以直接将所获取 的音频样本上传给服务器。
在本发明中, 服务器采用以下步骤进行频率匹配, 但不局限于此。
服务器将获取的音频样本作为待测音频流, 从网络音频库中的音频样例 中搜索对应匹配的音频片段。 该过程具体包括:
1 ) 获取待测音频流和音频样例的能量包络单元图。
在该步骤中, 可以采用现有的各种技术获取到能量包络单元图, 例如根 据时间间隔分成多帧, 进行音频短时能量特征提取, 根据每帧的短时平均能 量形成短时能量包络。
2)在待测音频流片段的能量包络单元图上, 依次选择每个能量包络单元 的起始点作为匹配操作的起始点。
3 )将每个音频样例以及待测音频流片段分别用所述能量包络单元图上的 切分点和概率对组成的数对形式表示。
4)将待测音频流片段的数对依次与每个音频样例的数对进行比较, 得到 匹配点以及对应的匹配概率。
5 ) 采用相似性度量函数对步骤 4) 所得到的匹配点以及对应的音频样例 进行计算, 得到两者的相似值。
6) 将步骤 5 ) 所得到的相似值与一个预订设定的阈值进行比较, 若所述 的相似值大于该阈值,则认为与步骤 4)所得到的匹配点相对应的音频片段 和 与匹配点相对应的音频样例匹配。
如上所述的服务器侧的音频匹配过程中提及的相关概念可以参考申请号 为 CN200810057161.9的中国专利申请,在此通过引用将该中国专利申请的全 部内容并入本申请中。
按照这种方式, 服务器根据所接收的音频的频率进行匹配, 因此歌曲和 歌词的匹配更加准确, 从而提高同步准确性。 接着, 在步骤 403, 从网络音频 库中获取所匹配的音频文件, 比如歌曲音频、 歌词、 MTV和 /或其它歌曲背景 资料等。 具体获取过程与上述参照本地音频库的描述相同。 在本发明的另一 示例中, 如果从客户端还上传用于指示用户所需音频文件的指示信息, 则在 找到匹配的音频后, 根据该指示信息, 从网络音频库中获取用户所需的音频 文件。
然后, 在步骤 S404, 将所获取的音频文件返回给客户端。
在该过程中, 服务器端通过快速匹配, 从网络音频库中匹配到对应的音 频后, 将音频文件传输给客户端。 这样, 在客户端接收到音频文件后, 可以 根据需要进行具体处理, 处理过程可以如上述客户端处理流程所述。 通过上述方案可以看出, 本发明通过获取其他设备的音频, 然后在本地 或服务器进行音频匹配, 匹配成功后输出与其它设备的音频对应的音频文件, 比如显示该音频的歌词、 MTV等, 播放该音频, 显示与该音频对应的资料信 息等, 从而丰富了音频应用, 提高了用户体验。
此外, 在上述技术方案中, 服务器根据所接收的音频的频率进行匹配, 因此匹配歌曲和歌词更加准确, 从而提高同步准确性。
以下结合具体应用情况进行介绍。
应用例一: 不同设备歌词匹配
假设存在设备 A和设备 B。 设备 B (例如电视或音响等) 正在播放一首 歌曲, 比如王力宏的歌曲 "唯一"。 设备 A (和设备 B不一样的移动设备, 例 如智能手机或者平板电脑等) 安装有音频处理软件。 设备 A打开软件, 读取 设备 B播放的音频。 设备 A读取音频后, 在本身的本地音频库中未搜索到对 应的音频, 则将音频上传给软件的远端服务器 C进行匹配。 远端服务器 C搜 索到王力宏的歌曲"唯一"和对应的歌词, 向设备 A返回对应的音频文件(包 括歌曲 "唯一"的音频和歌词及其他资料等)。 设备 A下载音频文件后, 在屏 幕上显示对应的歌词, 如果用户需要, 还可以提供相关的和歌曲相关的资料。
因此, 利用本发明方案, 当用户拿着移动设备, 听到电视播放歌曲时, 可以直接打开移动设备的音频处理软件, 获取该歌曲, 并进行本地或网络匹 配后, 就可以直接在移动设备显示对应歌词, 从而大大提高用户的体验。
应用二: 不同设备自动记谱
假设存在设备 A和设备 B。 设备 B (例如电视或音响等) 正在播放一首 歌曲, 比如王力宏的歌曲 "唯一"。 设备 A (和设备 B不一样的移动设备, 例 如智能手机或者平板电脑等) 安装了音频处理软件。 设备 A打开软件, 读取 设备 B播放的音频。 设备 A通过录音等方法读取音频后, 记住了音频信号的 频率。 进一步的, 设备 A根据记录的音频信号的频率确定对应的音调, 即判 断这个音符是什么音, 比如是 do, 还是 do加。 还有, 根据信号的间隔时间, 确定对应的节奏。 通过音调和节奏的确定从而直接记录下歌曲对应的旋律, 也就实现自动记谱的功能。 这样的音频处理, 方便了更多非专业人士的扒带 需求, 因此也从另外一个角度提高了用户体验。
上述内容详细介绍了本发明的音频处理方法, 本发明相应还提供一种音 频处理系统, 以下进行详细介绍。
图 5是本发明的音频处理系统 500的结构示意图。
如图 5所示, 音频处理系统 500至少包括第一设备 510和第二设备 520, 所述第一设备 510和第二设备 520为同类型设备或异类型设备。
第二设备 520被配置为播放音频。 第一设备 510被配置为获取第二设备 520的音频;按照预定的音频匹配需求对所述获取的第二设备 520的音频进行 音频匹配处理, 以获取与所获取的第二设备 520 的音频匹配的音频文件; 以 及输出所获取的音频文件。
此外,第一设备 510还可以配置为按照记谱需求对所获取的第二设备 520 的音频进行记谱。
此外, 如图 5所示, 音频处理系统 500还可以包括服务器 530。所述服务 器 530中设有网络音频库, 所述服务器 530被配置为接收从第一设备 510上 传的所获取的第二设备 520的音频, 所获取的第二设备 520的音频仅仅在检 测出第一设备内不存在本地音频库或者在本地音频库对所述获取的音频进行 音频匹配失败后才从第一设备 510上传到服务器 530。
服务器 530还被配置为在网络音频库中对所接收的音频进行音频匹配, 然后将匹配得到的音频文件发送给所述第一设备 510。
此外, 服务器 530还被配置为从第一设备 510接收用于指示用户所需音 频文件的指示信息, 比如, 该指示信息指示用户所需音频文件是歌曲音频、 歌词、 MTV还是歌曲的背景资料等。 在这种情况下, 所匹配得到的音频文件 仅仅是该指示信息所指示的音频文件。
图 6示出了图 5中的第一设备的一个实现示例的方框示意图。 如图 6所 示, 第一设备 510包括音频获取单元 511、音频匹配单元 513以及音频文件输 出单元 515。
所述音频获取单元 511用于获取第二设备 520的音频。 所述音频可以是 第二设备上正在播放的音频文件的完整音频或者一个音频片段, 比如, 正在 播放的歌曲的一个音频片段。 例如, 音频获取单元 511 可以通过录音或读取 频率的方式获取第二设备 520的音频。
所述音频匹配单元 513用于按照预定的音频匹配需求在第一设备 510中 对从第二设备 520获取的音频进行音频匹配, 以获取与该音频匹配的音频文 件。所述音频文件可以包括歌曲音频、 歌词、 与歌曲有关的 MTV和歌曲背景 资料中的一个或多个。
音频文件输出单元 515用于在第一设备上输出所获取的匹配音频文件。 此外, 在所获取的音频文件包括多个音频文件时, 所述第一设备还可以包括 选择单元 (未示出), 用于从所获取的音频文件中选择用户期望输出的音频文 件。 例如, 在本发明的一个示例中, 所述选择单元可以根据用于指示用户期 望输出的音频文件的指示信息, 从所获取的音频文件中选择用户期望输出的 音频文件。 所述用于指示用户期望输出的音频文件的指示信息可以由用户输 入。
图 7示出了音频匹配单元 513的一个实现示例的方框示意图。 如图 7所 示, 音频匹配单元 513包括检测模块 5131、 本地音频匹配模块 5133、 上传模 块 5135以及接收模块 5137。
所述检测模块 5131用于检测第一设备 510中是否存在本地音频库。 所述 本地音频库中至少存储歌曲音频。 此外, 所述本地音频库中还可以包括歌曲 音频的对应歌词、 与歌曲有关的 MTV和 /或歌曲背景资料等。 并且, 歌词、 与歌曲有关的 MTV和 /或歌曲背景资料与歌曲音频相关联地存储在本地音频 在检测出存在本地音频库后, 本地音频匹配模块 5133在本地音频库中对 所述获取的音频进行音频匹配, 以获取与第二设备的音频匹配的音频文件。 所述音频文件包括歌曲音频、 歌曲的歌词、 歌曲的 MTV、 歌曲资料中的一个 或多个。
上传模块 5135用于在检测模块 5131检测出不存在本地音频库或者音频 匹配模块 5133 的匹配不成功时, 将所获取的第二设备的音频上传到服务器 530。 在本发明的另一示例中, 所述上传模块 5135还上传用于指示用户所需 音频文件的指示信息。 在这种情况下, 在服务器 530 中仅仅获取用户所需音 频文件。 接收模块 5137用于接收从服务器 530返回的匹配的音频文件。
综上所述, 本发明技术方案可以获取其他设备 (同类型或异类型) 的音 频, 然后根据设定需求对获取的音频进行音频处理, 获得音频处理的结果, 该处理结果例如可以是得到匹配的歌词和歌曲等, 从而解决了不同设备的音 频同步问题。 通过本发明方案, 当用户拿着移动设备, 听到电视播放歌曲时, 可以直接获取该歌曲, 并进行音频匹配后, 就可以直接在移动设备显示对应 歌词, 从而大大提高用户的体验, 也使得基于移动设备的娱乐获得更好的应 用。
需要说明的是, 上述装置和系统内的各单元之间的信息交互、 执行过程 等内容, 由于与本发明方法实施例基于同一构思, 具体内容可参见本发明方 法实施例中的叙述, 此处不再赘述。
此外, 根据本发明的方法还可以被实现为由 CPU执行的计算机程序。 在 该计算机程序被 CPU执行时, 执行本发明的方法中限定的上述功能。
此外, 上述方法步骤以及系统单元也可以利用控制器或处理器以及用于 存储使得控制器或处理器实现上述步骤或单元功能的计算机程序的计算机可 读存储设备实现。
此外, 应该明白的是, 本文所述的计算机可读存储设备 (例如, 存储器) 可以是易失性存储器或非易失性存储器, 或者可以包括易失性存储器和非易 失性存储器两者。 作为例子而非限制性的, 非易失性存储器可以包括只读存 储器 (ROM)、 可编程 ROM (PROM), 电可编程 ROM (EPROM)、 电可擦 写可编程 ROM (EEPROM)或快闪存储器。 易失性存储器可以包括随机存取 存储器(RAM), 该 RAM可以充当外部高速缓存存储器。 作为例子而非限制 性的, RAM 可以以多种形式获得, 比如同步 RAM (DRAM), 动态 RAM (DRAM), 同步 DRAM (SDRAM), 双数据速率 SDRAM (DDR SDRAM )、 增强 SDRAM (ESDRAM)、 同步链路 DRAM (SLDRAM) 以及直接 Rambus RAM (DRRAM)o 所公开的方面的存储设备意在包括但不限于这些和其它合 适类型的存储器。
虽然如上参照图描述了根据本发明的各个实施例进行了描述, 但是本领 域技术人员应当理解, 对上述本发明所提出的各个实施例, 还可以在不脱离 本发明内容的基础上做出各种改进。 因此, 本发明的保护范围应当由所附的 权利要求书的内容确定。

Claims

权 利 要 求 书
1、 一种音频处理方法, 包括:
第一设备获取第二设备的音频, 所述第一设备和第二设备为同类型设备 或异类型设备;
在所述第一设备内, 按照预定的音频匹配需求对所述获取的第二设备的 音频进行音频匹配, 以获取与第二设备的音频匹配的音频文件; 以及
在所述第一设备上输出所获取的音频文件。
2、 如权利要求 1所述的音频处理方法, 其中, 所述音频文件包括歌曲音 频、 歌词、 与歌曲有关的 MTV和歌曲背景资料中的一个或多个。
3、 如权利要求 1所述的音频处理方法, 还包括:
按照记谱需求对所获取的第二设备的音频进行记谱。
4、 如权利要求 1所述的音频处理方法, 其中, 在所述第一设备内按照音 频匹配需求对所获取的第二设备的音频进行音频匹配包括:
检测在所述第一设备内是否存在本地音频库, 所述本地音频库中至少包 括歌曲音频; 以及
在检测出所述第一设备内存在本地音频库, 在本地音频库中按照预定的 音频匹配需求对所述获取的第二设备的音频进行音频匹配, 以获取匹配的音 频文件。
5、 根据权利要求 4所述的音频处理方法, 还包括:
在检测出所述第一设备内不存在本地音频库或者在本地音频库中进行的 音频匹配失败时, 将所述获取的第二设备的音频上传到服务器以便在服务器 中进行音频匹配; 以及
从所述服务器接收进行音频匹配后获取的音频文件。
6、 如权利要求 5所述的音频处理方法, 其中, 在检测出所述第一设备内 不存在本地音频库或者在本地音频库中进行的音频匹配失败时, 还向服务器 上传用于指示用户所需音频文件的指示信息, 以及
在服务器中进行音频匹配时, 根据上传的所述指示信息, 仅仅获取用户 所需音频文件。
7、 如权利要求 1所述的音频处理方法, 其中, 在所获取的音频文件包括 多个音频文件时, 在第一设备上输出所获取的音频文件包括:
从所获取的音频文件中选择用户期望输出的音频文件; 以及
在第一设备上输出所选择的音频文件。
8、 一种位于第一设备中的音频处理装置, 包括:
音频获取单元, 用于获取第二设备的音频, 所述第一设备和第二设备为 同类型设备或异类型设备;
音频匹配单元, 用于按照预定的音频匹配需求对所述获取的第二设备的 音频进行音频匹配, 以获取与第二设备的音频匹配的音频文件; 以及
音频文件输出单元, 用于在所述第一设备上输出所获取的音频文件。
9、 如权利要求 8所述的音频处理装置, 还包括:
记谱单元, 用于按照记谱需求对所获取的第二设备的音频进行记谱。
10、 如权利要求 8所述的音频处理装置, 其中, 所述音频匹配单元包括: 检测模块, 用于检测在所述第一设备内是否存在本地音频库, 所述本地 音频库中至少包括歌曲音频;
本地音频匹配模块, 用于在检测出所述第一设备内存在本地音频库时, 在本地音频库中按照预定的音频匹配需求对所述获取的第二设备的音频进行 音频匹配, 以获取匹配的音频文件;
上传模块, 用于在检测出所述第一设备内不存在本地音频库或者在本地 音频库中进行的音频匹配失败时, 将所述获取的第二设备的音频上传到服务 器以便在服务器中进行音频匹配; 以及
接收模块, 用于从所述服务器接收进行音频匹配后获取的音频文件。
11、 如权利要求 10所述的音频处理装置, 其中, 在检测出所述第一设备 内不存在本地音频库或者在本地音频库中进行的音频匹配失败时, 所述上传 模块还向服务器上传用于指示用户所需音频文件的指示信息, 以及
在服务器中进行音频匹配时, 根据上传的所述指示信息, 仅仅获取用户 所需音频文件。
12、 如权利要求 8所述的音频处理装置, 其中, 在所获取的音频文件包 括多个音频文件时, 所述音频处理装置还包括:
选择模块, 用于从所获取的音频文件中选择用户期望输出的音频文件; 以及 所述音频文件输出单元在第一设备上输出所选择的音频文件。
13、 一种音频处理系统, 包括:
至少第一设备和第二设备, 所述第一设备和第二设备为同类型设备或异 类型设备;
所述第二设备用于播放音频;
所述第一设备包括如权利要求 8到 12中任何一个所述的音频处理装置。
14、 根据权利要求 13所述的音频处理系统, 还包括服务器, 所述服务器 中设有网络音频库, 所述服务器被配置为:
在检测出所述第一设备内不存在本地音频库, 或者在本地音频库中对所 述获取的第二设备的音频进行音频匹配失败后, 接收从所述第一设备上传的 所述第二设备的音频;
在网络音频库中对所接收的音频进行音频匹配, 以获取匹配的音频文件; 以及
将所获取的音频文件发送给所述第一设备。
PCT/CN2012/082482 2011-09-30 2012-09-29 音频处理方法及系统 WO2013044872A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN 201110292925 CN102419998B (zh) 2011-09-30 2011-09-30 一种音频处理方法及系统
CN201110292925.4 2011-09-30

Publications (1)

Publication Number Publication Date
WO2013044872A1 true WO2013044872A1 (zh) 2013-04-04

Family

ID=45944366

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/082482 WO2013044872A1 (zh) 2011-09-30 2012-09-29 音频处理方法及系统

Country Status (2)

Country Link
CN (1) CN102419998B (zh)
WO (1) WO2013044872A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102419998B (zh) * 2011-09-30 2013-03-20 广州市动景计算机科技有限公司 一种音频处理方法及系统
CN102833595A (zh) * 2012-09-20 2012-12-19 北京十分科技有限公司 一种信息传送的方法及装置
CN103309657A (zh) * 2013-05-17 2013-09-18 北京小米科技有限责任公司 一种更换移动设备响铃音频的方法、装置和设备
CN105989846B (zh) * 2015-06-12 2020-01-17 乐融致新电子科技(天津)有限公司 一种多通道语音信号同步方法及装置
CN105430494A (zh) * 2015-12-02 2016-03-23 百度在线网络技术(北京)有限公司 在播放视频的设备中识别视频中音频的方法和装置
CN105898498A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 视频同步方法及系统
CN107346665A (zh) * 2017-06-29 2017-11-14 广州视源电子科技股份有限公司 音频检测的方法、装置、设备以及存储介质
CN108393906B (zh) * 2018-03-01 2021-04-27 深圳小墨智能科技有限公司 一种控制机器人实现机械律动方法及机器人
CN110399524A (zh) * 2018-04-19 2019-11-01 陈伯豪 根据视频或音频的声音提供语言学习信息的移动设备、服务器及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1356689A (zh) * 2000-11-27 2002-07-03 皇家菲利浦电子有限公司 识别多首乐曲的方法
JP2006106039A (ja) * 2004-09-30 2006-04-20 Toshiba Corp 情報処理装置
US20100017381A1 (en) * 2008-07-09 2010-01-21 Avoca Semiconductor Inc. Triggering of database search in direct and relational modes
CN101741975A (zh) * 2009-12-18 2010-06-16 上海华勤通讯技术有限公司 利用手机处理音乐片段获取歌曲信息的方法及其手机
CN102053998A (zh) * 2009-11-04 2011-05-11 周明全 一种利用声音方式检索歌曲的方法及系统装置
US20110276333A1 (en) * 2010-05-04 2011-11-10 Avery Li-Chun Wang Methods and Systems for Synchronizing Media
CN102419998A (zh) * 2011-09-30 2012-04-18 广州市动景计算机科技有限公司 一种音频处理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645268B (zh) * 2009-08-19 2012-03-14 李宋 一种演唱和演奏的计算机实时分析系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1356689A (zh) * 2000-11-27 2002-07-03 皇家菲利浦电子有限公司 识别多首乐曲的方法
JP2006106039A (ja) * 2004-09-30 2006-04-20 Toshiba Corp 情報処理装置
US20100017381A1 (en) * 2008-07-09 2010-01-21 Avoca Semiconductor Inc. Triggering of database search in direct and relational modes
CN102053998A (zh) * 2009-11-04 2011-05-11 周明全 一种利用声音方式检索歌曲的方法及系统装置
CN101741975A (zh) * 2009-12-18 2010-06-16 上海华勤通讯技术有限公司 利用手机处理音乐片段获取歌曲信息的方法及其手机
US20110276333A1 (en) * 2010-05-04 2011-11-10 Avery Li-Chun Wang Methods and Systems for Synchronizing Media
CN102419998A (zh) * 2011-09-30 2012-04-18 广州市动景计算机科技有限公司 一种音频处理方法及系统

Also Published As

Publication number Publication date
CN102419998B (zh) 2013-03-20
CN102419998A (zh) 2012-04-18

Similar Documents

Publication Publication Date Title
WO2013044872A1 (zh) 音频处理方法及系统
JP6534452B2 (ja) カラオケ処理方法およびシステム
US20170034263A1 (en) Synchronized Playback of Streamed Audio Content by Multiple Internet-Capable Portable Devices
US20160286264A1 (en) Media playback method, client and system
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
US20130047087A1 (en) Related information successively outputting method, related information successively providing method, related information successively outputting apparatus, related information successively providing apparatus, related information successively outputting program and related information successively providing program
CN110390925B (zh) 人声与伴奏同步方法、终端、蓝牙设备及存储介质
CN105390144B (zh) 一种音频处理方法和音频处理装置
WO2014161282A1 (zh) 视频文件播放进度的调整方法及装置
CN106409282B (zh) 一种音频合成系统、方法及其电子设备和云服务器
KR20160106075A (ko) 오디오 스트림에서 음악 작품을 식별하기 위한 방법 및 디바이스
JP2006195385A (ja) 音楽再生装置および音楽再生プログラム
CN105161120A (zh) 原伴唱切换方法及装置
CN103871439B (zh) 一种音频播放的方法、装置及系统
CN110428798B (zh) 人声与伴奏同步方法、蓝牙设备、终端及存储介质
WO2016150274A1 (zh) 一种歌曲拼接算法及装置
US20100180753A1 (en) Electronic audio playing apparatus and method
CN112037739B (zh) 一种数据处理方法、装置、电子设备
CN107146609B (zh) 一种播放资源的切换方法、装置及智能设备
JP5986387B2 (ja) 情報処理プログラム、情報処理装置、歌詞表示方法、及び通信システム
EP3203468B1 (en) Acoustic system, communication device, and program
CN202289477U (zh) 一种通过无线网络进行语音播放的语音玩具终端设备
KR101554662B1 (ko) 디지털 오디오 데이터에 대한 코드 제공 방법 및 이에 의한 사용자 단말
KR101573868B1 (ko) 노래 가사 자동 디스플레이 방법, 노래 가사를 인식하는 서버 및 이 서버를 포함하는 노래 가사 자동 디스플레이 시스템
CN111667803B (zh) 一种音频处理方法及相关产品

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12835177

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12835177

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 01/12/2014)

122 Ep: pct application non-entry in european phase

Ref document number: 12835177

Country of ref document: EP

Kind code of ref document: A1