WO2013084774A1 - 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム - Google Patents

音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム Download PDF

Info

Publication number
WO2013084774A1
WO2013084774A1 PCT/JP2012/080789 JP2012080789W WO2013084774A1 WO 2013084774 A1 WO2013084774 A1 WO 2013084774A1 JP 2012080789 W JP2012080789 W JP 2012080789W WO 2013084774 A1 WO2013084774 A1 WO 2013084774A1
Authority
WO
WIPO (PCT)
Prior art keywords
music
unit
sound
information
feature amount
Prior art date
Application number
PCT/JP2012/080789
Other languages
English (en)
French (fr)
Inventor
衣未留 角尾
井上 晃
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to EP12855482.1A priority Critical patent/EP2790184A1/en
Priority to CN201280058754.1A priority patent/CN103988256A/zh
Priority to US14/353,844 priority patent/US20140318348A1/en
Priority to BR112014013061A priority patent/BR112014013061A2/pt
Priority to CA2853904A priority patent/CA2853904A1/en
Publication of WO2013084774A1 publication Critical patent/WO2013084774A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/125Medley, i.e. linking parts of different musical pieces in one single piece, e.g. sound collage, DJ mix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/005Device type or category
    • G10H2230/021Mobile ringtone, i.e. generation, transmission, conversion or downloading of ringing tones or other sounds for mobile telephony; Special musical data formats or protocols herefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Definitions

  • the present technology relates to an acoustic processing device, an acoustic processing method, a program, a recording medium, a server device, an acoustic reproduction device, and an acoustic processing system, and in particular, to an acoustic processing device that can satisfactorily specify music corresponding to an input acoustic signal. .
  • nasal song search has been proposed as a means for easily searching for the piece (for example, see Patent Document 1).
  • the purpose of this technology is to be able to identify the music corresponding to the input sound signal satisfactorily.
  • the concept of this technology is A conversion unit for converting a continuously input acoustic signal into a predetermined feature amount sequence; As soon as the predetermined feature amount series accumulates a predetermined amount, the feature amount sequence and music information are sequentially collated, and a music specifying unit is provided that specifies music whose collation degree is greater than the first threshold. In the device.
  • the acoustic signal that is continuously input is converted into a predetermined feature amount series by the conversion unit.
  • the acoustic signal that is continuously input can be obtained, for example, by inputting a user's song (including a nose song), environmental sound, and the like from a microphone.
  • the feature amount series is, for example, a pitch series, but may be other series such as a phoneme series.
  • the music specifying unit specifies music whose collation degree is larger than the first threshold. For example, the collation process is performed at each time scheduled in advance, or is performed every time the previous collation process ends.
  • the continuous input acoustic signal is converted into a predetermined feature amount sequence and the matching processing between the feature amount sequence and the music information is performed in parallel. . Therefore, it is possible to perform music identification with excellent real-time characteristics.
  • the music specifying unit excludes music whose collation degree is smaller than the second threshold set below the first threshold in the previous collation processing from the target of collation processing. May be.
  • the target of collation processing can be narrowed down sequentially as time passes, and music can be identified efficiently.
  • the music specifying unit may change the first threshold value and / or the second threshold value so as to increase with time. In this case, it is possible to accurately specify the music without removing the music corresponding to the acoustic signal that is continuously input from the target of the collation process.
  • a music reproducing unit that reproduces the specified music in synchronization with a continuously input sound signal based on information on the music and the singing position may be further provided.
  • the user can continue singing without feeling uncomfortable according to the reproduced music, and can provide an effective application.
  • the music playback unit may be configured to change the pitch and tempo of the music to be played back in accordance with the pitch and tempo of the acoustic signal that is continuously input.
  • a display control unit that controls display of the progress status of the music identification may be further provided based on the information on the matching process and the music identification information.
  • the user can easily know the progress of music identification.
  • the display control unit may be configured to perform control so that the music that is the target of the collation process is displayed in order from the one with the larger collation degree based on the processing result. The user can easily grasp which music is being identified.
  • the apparatus may further include a music playback unit that plays back a music selected from the displayed music in synchronism with an acoustic signal that is continuously input based on information on the music and the singing position.
  • a music playback unit that plays back a music selected from the displayed music in synchronism with an acoustic signal that is continuously input based on information on the music and the singing position.
  • the user can select the music that matches his / her song and immediately reproduce the music synchronously.
  • a music narrowing-down unit that selects a part of music from a plurality of music pieces that have been sorted in a predetermined manner is further provided, and the music specifying unit selects a part of the music selected by the music narrowing-down part.
  • the predetermined sort can be a sort by genre or artist, a sort by listening frequency, a sort by favorite or not, and the like.
  • the target of collation processing can be narrowed down and the accuracy of music identification can be increased.
  • it is not necessary to perform useless collation processing it is possible to shorten the time until music identification.
  • the sound reproducing device is A conversion unit for converting a continuously input acoustic signal into a predetermined feature amount sequence; A transmission unit for transmitting the predetermined feature amount series to the server device; A receiving unit for receiving music specifying information from the server device; A music playback unit that plays back the specified music in synchronization with the continuously input sound signal based on the music specifying information,
  • the server device is A receiving unit that receives the predetermined feature amount sequence from the sound reproducing device; As soon as the predetermined feature amount series has accumulated a predetermined amount, a matching process between the feature amount sequence and the music information is sequentially performed, and a music specifying unit that specifies a music whose matching degree is larger than a threshold value;
  • a sound processing system comprising: a transmitting unit that transmits the music specifying information to the sound reproducing device.
  • This technology is a sound processing system in which a sound reproduction device and a server device are connected via a network.
  • the acoustic signal continuously input by the conversion unit is converted into a predetermined feature amount sequence, and the predetermined feature amount sequence is transmitted to the server device by the transmission unit.
  • the server device as soon as the predetermined feature amount sequence is received from the sound reproduction device by the receiving unit and the predetermined feature amount sequence is accumulated by the music specifying unit, the matching process between the feature amount sequence and the music information is sequentially performed.
  • the music with the matching degree larger than the threshold is specified, and the music specifying information is transmitted to the sound reproducing device by the transmission unit.
  • the music specifying information is received from the server device by the receiving unit, and the specified music is played back in synchronization with the continuously input sound signal based on the music specifying information by the music playing unit.
  • the continuous input acoustic signal is converted into a predetermined feature amount sequence and the matching processing between the feature amount sequence and the music information is performed in parallel. Therefore, it is possible to perform music identification with excellent real-time characteristics.
  • the user of the sound reproducing device can perform the synchronized reproduction of the music that matches the song by performing the song (including the rhinoceros), and feels uncomfortable according to the reproduced music. It is possible to continue singing.
  • the music specifying process involving the matching process is performed on the server device side, and the processing load of the sound reproducing device can be reduced.
  • the music corresponding to the input sound signal can be identified satisfactorily.
  • FIG. 1 shows an example of the configuration of a sound processing apparatus 100 as the first embodiment.
  • the sound processing apparatus 100 is a portable music player or a mobile phone equipped with a microphone.
  • the sound processing apparatus 100 includes an input unit 101, a pitch detection unit 102, a matching processing unit 103, a storage unit 104, a display unit 105, a playback control unit 106, a storage unit 107, and an output unit 108. is doing.
  • the input unit 101 inputs a user's singing voice (including nose singing) and outputs an input acoustic signal (voice signal) corresponding to the singing voice.
  • the input unit 101 is composed of, for example, a microphone.
  • the pitch detection unit 102 analyzes the frequency of the input acoustic signal and estimates the fundamental frequency and detects the pitch at each analysis time.
  • the storage unit 107 stores a predetermined number of pieces of music data and constitutes a music database.
  • the storage unit 104 stores melody data corresponding to the music stored in the storage unit 107 and constitutes a melody database.
  • the melody data does not necessarily correspond one-to-one with the music data, and the melody data at a plurality of locations in the music may be separate data.
  • the melody data of a certain musical piece is stored by being divided into three melody data of A melody, B melody, and chorus.
  • the matching processing unit 103 performs a matching process (matching process) between the pitch sequence detected by the pitch detection unit 102 and the melody data of each piece of music stored in the storage unit 104, and the pitch series and the melody of each piece of music. Calculate the degree of matching with the data. For example, the matching processing unit 103 normalizes the pitch sequence to a pitch sequence, extracts a pitch difference from the previous sequence of sounds, and performs a matching process (matching) using the melody data sequence and dynamic programming. Process).
  • the matching process in the matching processing unit 103 is not limited to this method.
  • the matching processing unit 103 sequentially performs the matching process as soon as a predetermined amount of the pitch series is accumulated. Finally, the matching degree is the maximum and the matching degree is set in advance as a threshold (first threshold) Thh. Identify one song that is larger than In this case, the matching processing unit 103 removes a music piece whose collation degree is smaller than a threshold value (second threshold value) Thl in the previous collation process from the target of the collation process.
  • the threshold value Thl is set below the threshold value Thh, and is set in advance to a value corresponding to a sufficiently small matching degree. In this case, since the target of collation processing is narrowed down sequentially with the passage of time, music identification efficiency can be improved.
  • the matching processing unit 103 repeatedly performs the matching process as described above. For example, the matching processing unit 103 performs the matching process every time the previous matching process is completed. In this case, since collation processing is performed continuously, it is expected to shorten the time required for music identification.
  • FIG. 2 shows a time chart in that case.
  • the pitch detector 102 the pitch detection of the input acoustic signal is continuously performed from the start time.
  • the matching processing unit 103 starts the first matching process.
  • the collation process is performed based on the pitch series accumulated from the start time to time T1.
  • the matching process unit 103 immediately starts the second matching process.
  • the matching process is performed based on the pitch series accumulated from time T1 to time T2.
  • the matching processing unit 103 immediately starts the third matching process.
  • the matching process is performed based on the pitch series accumulated from time T2 to time T3.
  • the matching process is repeated in the same manner. Note that, as described above, in the previous collation process, music whose collation degree is smaller than the threshold value (second threshold value) Thl is excluded from the collation process targets. Each time it is overlapped, the time required for the collation process becomes shorter.
  • the matching processing unit 103 performs the matching process at each scheduled time. In this case, since the matching process is performed with a sufficiently long pitch sequence regardless of the time required for the previous matching process, it is expected that an effective matching process is performed each time.
  • FIG. 3 shows a time chart in that case.
  • the pitch detector 102 the pitch detection of the input acoustic signal is continuously performed from the start time.
  • the matching processing unit 103 starts the first matching process.
  • the verification process is performed based on the pitch sequence accumulated from the start time to time T11.
  • the matching process unit 103 starts the second collation process.
  • the collation process is performed based on the pitch series accumulated from time T11 to time T12.
  • the matching process unit 103 starts the third matching process at time T13 after the second matching process is completed.
  • the matching process is performed based on the pitch series accumulated from time T12 to time T13.
  • the matching process is repeated in the same manner. Note that, as described above, in the previous collation process, music whose collation degree is smaller than the threshold value (second threshold value) Thl is excluded from the collation process targets. Each time it is overlapped, the time required for the collation process becomes shorter.
  • the above-described threshold value Thh and threshold value Thl may be fixed values, but as shown in FIG. 4, either one or both may change so as to increase with time. .
  • the threshold value Thh may be set based on the matching degree with respect to other music, such as a value obtained by adding a predetermined value to the second largest matching degree.
  • the matching processing unit 103 may set all of the music stored in the storage unit 107 as a target of the collation processing.
  • a user operation may be performed from a plurality of music that has been subjected to predetermined sorting (classification). Only a part of music pieces selected in advance may be used as a target for the collation process. In this case, since the target of collation processing can be narrowed down, it becomes possible to improve the accuracy of music identification. In addition, since it is not necessary to perform useless collation processing, it is possible to shorten the time until music identification.
  • sorting according to the user's taste is conceivable. For example, sorting by genre or artist. Furthermore, sorting by frequently listened music, sorting by whether or not it is a favorite music, etc. can be considered.
  • the selection of a part of the music is not limited to the case of the user operation described above. For example, in the case of sorting by the music that is often listened to, the upper predetermined number of music is automatically selected as the target of the collation process. May be.
  • the user may be able to set in advance whether all of the music pieces are to be subjected to collation processing or only some selected music pieces are to be collated.
  • the display unit 105 displays the progress of music identification based on the matching processing information and the music identification information in the matching processing unit 103.
  • the display unit 105 displays, for example, music pieces that are subject to collation processing in order from the one with the largest collation degree. As described above, as the collation process is repeated, the number of collation processes decreases, and the display on the display unit 105 is changed accordingly.
  • information on the one piece of music is displayed on the display unit 105.
  • FIG. 5 shows an example of display transition in the display unit 105.
  • FIG. 5A shows a display example at the start. At this time, since the music to be collated is not narrowed down, many music are displayed.
  • FIG. 5B shows a display example during singing. At this time, the number of music pieces to be displayed is reduced because the music to be checked is narrowed down. In this case, they are displayed in descending order of collation. In the illustrated example, the matching degree of the music “3. CCC” is the highest. At this time, there is still no music with a matching degree exceeding the threshold value Thh.
  • FIG. 5C is a display example at the end when one piece of music is finally specified. In this case, it is indicated that the music is identified as “16.PPP” music.
  • the playback control unit 106 uses the music data stored in the storage unit 107 for the specified music based on the information on the music and the singing position. Plays back in synchronization with the input sound signal. That is, the reproduction control unit 106 reproduces the specified music in accordance with the user's singing position. By such synchronized playback, the user can continue to sing without a sense of incompatibility with the reproduced music.
  • the playback control unit 106 does not just play the specified music piece, but the sound of the music piece to be played in accordance with the pitch and tempo of the input acoustic signal, that is, the pitch and tempo of the user's song. High and tempo may be changed.
  • the output unit 108 is a part related to the output of the playback audio signal of the music obtained by the playback control unit 106.
  • the output unit 108 may output sound like a speaker, or may be a terminal for connecting to a headphone, or a communication unit communicating with an external speaker.
  • the sound processing apparatus 100 starts processing in step ST1, and then proceeds to processing in step ST2.
  • the acoustic processing apparatus 100 causes the pitch detection unit 102 to analyze the frequency of the input acoustic signal from the input unit 101, and starts to detect the pitch by estimating the fundamental frequency at each analysis time. .
  • step ST3 the acoustic processing apparatus 100 performs matching processing at the matching processing unit 103.
  • the acoustic processing apparatus 100 performs a matching process (matching process) between the pitch sequence detected by the pitch detection unit 102 and the melody data of each piece of music stored in the storage unit 104, and the pitch sequence and each The degree of matching with the melody data of the music is calculated.
  • step ST ⁇ b> 4 the sound processing apparatus 100 displays, on the display unit 105, the music pieces that are subject to the matching process in descending order of the matching degree, based on the matching process information of the matching processing unit 103.
  • step ST5 the sound processing apparatus 100 determines whether or not the maximum matching degree is greater than the threshold value Thh. If not, the sound processing apparatus 100 proceeds to the process of step ST6.
  • step ST6 the sound processing apparatus 100 determines whether the end condition is satisfied.
  • the termination condition is, for example, whether a predetermined time has elapsed since the user started singing (including nose singing).
  • the sound processing apparatus 100 proceeds to the process of step ST7.
  • step ST7 the sound processing apparatus 100 excludes music pieces having a collation degree smaller than the threshold value Thl from the next collation process target. Then, the sound processing apparatus 100 immediately returns to the process of step ST3 after the process of step ST7, and repeats the same process as described above.
  • step ST5 when the maximum degree of matching of each piece of music is larger than the threshold value Thh, the sound processing apparatus 100 sets the piece of music having the maximum degree of matching as a piece of music to be specified.
  • step ST ⁇ b> 8 the sound processing apparatus 100 starts the reproduction control unit 106 to reproduce the specified music in synchronization with the input audio signal based on the information on the music and the singing position.
  • the sound processing apparatus 100 ends the process in step ST9 after the process of step ST8.
  • step ST6 the sound processing apparatus 100 displays a notification that the reproduction has failed on the display unit 105 in step ST10 and notifies the user, and then performs the process in step ST9. finish.
  • the sound processing apparatus 100 performs the process of step ST11 prior to the process of step ST3. That is, the sound processing apparatus 100 proceeds to the process of step ST11 after the process of step ST2 and after the process of step ST7.
  • step ST11 the sound processing apparatus 100 determines whether a specified time has elapsed from the start time. This designated time is the time until the first matching process is started before the first matching process is performed, and the same applies to the second and subsequent times. When the designated time has elapsed, the sound processing apparatus 100 proceeds to the process of step ST3. Although detailed description is omitted, other steps in the flowchart of FIG. 7 are the same as those of the flowchart of FIG.
  • the sound processing apparatus 100 shown in FIG. 1 it is possible to convert a continuously input sound signal into a pitch sequence and to perform a matching process between the pitch sequence and melody data corresponding to the music. Done in parallel. Therefore, it is possible to perform music identification with excellent real-time characteristics. That is, while the user continues singing (including nose singing), the music corresponding to the singing can be quickly identified. In this case, the user only needs to sing for the minimum necessary time.
  • the matching process between the pitch sequence and the melody data corresponding to the music is repeatedly performed until the maximum matching degree exceeds the threshold value Thh.
  • Music pieces smaller than the threshold value Thl are excluded from the objects of the collation process. Therefore, it is possible to narrow down the target of the collation process sequentially with time, and the music can be identified efficiently.
  • the specified music is reproduced in synchronization with the sound signal that is continuously input based on the information on the music and the singing position. Therefore, the user can continue singing with a sense of incongruity according to the reproduced music, and an effective application can be provided.
  • the progress of music identification is displayed on the display unit 105 based on the matching processing information and the music identification information in the matching processing unit 103.
  • the music that is the target of the matching process is displayed in order from the larger matching degree based on the processing result. Therefore, the user can easily know the progress of the music identification, and can easily grasp which music is being identified.
  • the music of the collation degree is determined as the music to be specified, and the process proceeds to the music reproduction process. That is, after one piece of music is specified, the process proceeds to music playback processing.
  • the user finds a song that he / she sings among the songs displayed on the display unit 105 in descending order of collation. Therefore, it is possible to allow the user to arbitrarily select a music from the display on the display unit 105, and to immediately proceed to the reproduction process of the selected music.
  • step ST5 shows an example of the operation of the sound processing apparatus 100 in that case.
  • steps corresponding to those in the flowchart of FIG. 6 described above are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate.
  • the sound processing apparatus 100 proceeds to the process of step ST12.
  • step ST12 the sound processing apparatus 100 determines whether any of the music pieces displayed on the display unit 105 has been selected by the user. When the selection is made, the sound processing apparatus 100 proceeds to the process of step ST8, and the reproduction control unit 106 reproduces the selected music in synchronization with the input sound signal based on the information of the music and the singing position. Start to do. On the other hand, when there is no selection in step ST12, the sound processing apparatus 100 proceeds to the process in step ST6. Although detailed description is omitted, other steps in the flowchart of FIG. 8 are the same as those of the flowchart of FIG.
  • FIG. 9 shows a configuration example of a sound processing system 200 as the second embodiment.
  • the sound processing system 200 is configured by connecting a sound reproduction device 210 and a server device 220 via a network 230.
  • the sound reproduction device 210 is a portable music player, a mobile phone, or the like that has a network connection function and includes a microphone. 9, parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and detailed description thereof will be omitted as appropriate.
  • the sound reproduction apparatus 210 includes an input unit 101, a pitch detection unit 202, a compression processing unit 211, a transmission unit 212, a reception unit 213, a display unit 105, a reproduction control unit 106, a storage unit 107, and an output. Part 108.
  • the input unit 101 inputs a user's singing voice (including nose singing) and outputs an input acoustic signal (voice signal) corresponding to the singing voice.
  • the input unit 101 is composed of, for example, a microphone.
  • the pitch detection unit 102 analyzes the frequency of the input acoustic signal and estimates the fundamental frequency and detects the pitch at each analysis time.
  • the compression processing unit 211 performs processing such as data compression in order to transmit the pitch sequence detected by the pitch detection unit 102 to the server device 220.
  • the transmission unit 212 transmits the pitch series that has been subjected to processing such as data compression to the server device 220 via the network 230.
  • the receiving unit 213 receives the collation processing information and the music specifying information transmitted from the server device 220 via the network 230. This music specifying information includes information on music and singing positions.
  • the display unit 105 displays the progress of music identification based on the received collation processing information and music identification information.
  • the display unit 105 displays, for example, music pieces that are subject to collation processing in order from the one with the largest collation degree.
  • the playback control unit 106 uses the music data stored in the storage unit 107 to synchronize the specified music based on the music and singing position information included in the received music specifying information and synchronize with the input sound signal. To play. That is, the reproduction control unit 106 reproduces the specified music in accordance with the user's singing position.
  • the output unit 108 is a part related to the output of the playback audio signal of the music obtained by the playback control unit 106.
  • the output unit 108 may output sound like a speaker, or may be a terminal for connecting to a headphone, or a communication unit communicating with an external speaker.
  • the server apparatus 220 includes a reception unit 221, a matching processing unit 103, a storage unit 104, and a transmission unit 222.
  • the receiving unit 221 receives the compression-processed pitch sequence sent from the sound playback device 210 via the network 230, performs decompression processing, etc., and is obtained by the pitch detection unit 102 of the sound playback device 210. A pitch sequence similar to the above is obtained.
  • the matching processing unit 103 performs a matching process (matching process) between the received pitch sequence and the melody data of each song stored in the storage unit 104, and a matching degree between the pitch sequence and the melody data of each song. Calculate In addition, the matching processing unit 103 sequentially performs this matching process for each predetermined amount of pitch sequences that are intermittently received and accumulated from the sound reproduction device 210, and finally the matching degree is the maximum.
  • a preset threshold value Thh is specified.
  • the transmission unit 222 transmits the collation processing information and the music specifying information in the matching processing unit 103 to the sound reproduction device 210 via the network 230.
  • the music specifying information includes information on music and singing positions.
  • a user's singing voice (including nose singing) is input to the input unit 101, and an input acoustic signal (voice signal) corresponding to the singing voice is obtained from the input unit 101.
  • This input audio signal is supplied to the pitch detection unit 102.
  • the pitch detection unit 102 the frequency of the input acoustic signal is analyzed, and the fundamental frequency is estimated and the pitch is detected at each analysis time.
  • the pitch sequence obtained by the pitch detection unit 102 is supplied to the compression processing unit 211.
  • the compression processing unit 211 as soon as a predetermined amount of pitch series is accumulated, the data is sequentially compressed, and then transmitted to the server device 220 via the network 230 by the transmission unit 212.
  • the receiving unit 221 receives the pitch sequence sent from the sound reproduction device 210. This pitch sequence is supplied to the matching processing unit 103.
  • the matching processing unit 103 performs a matching process (matching process) between the received pitch sequence and the melody data of each song stored in the storage unit 104 to match the pitch sequence with the melody data of each song.
  • the degree is calculated.
  • this matching process is sequentially performed for each predetermined amount of pitch series that is intermittently received from the sound reproduction device 210 and accumulated. Then, in this matching processing unit 103, finally, one piece of music having the highest matching degree and whose matching degree is larger than a preset threshold value Thh is specified.
  • the matching processing information and the music specifying information obtained by the matching processing unit 103 are transmitted to the sound reproduction device 210 by the transmission unit 222 via the network 230.
  • the receiving unit 213 receives the collation processing information and the music specifying information delayed from the server device 220.
  • the display unit 105 displays the progress of music identification based on the received verification processing information and music identification information (see FIG. 5).
  • the playback control unit 106 uses the music data stored in the storage unit 107 as the specified music based on the music and singing position information included in the received music specifying information, and uses the input sound. Played in sync with the signal. That is, in the reproduction control unit 106, the specified music is reproduced according to the user's singing position.
  • the playback audio signal of the music obtained by the playback control unit 106 is supplied to the output unit 108.
  • the time chart of FIG. 10 shows the timing of each process of pitch detection, transmission / reception, and collation in the acoustic processing system 200 of FIG.
  • the pitch detection unit 102 of the sound reproduction device 210 the pitch detection of the input sound signal is continuously performed from the start time.
  • the pitch sequence from the start time to time T21 is data-compressed and transmitted from the transmission unit 212 to the server device 220.
  • the first matching process is started in the matching processing unit 103 at time T22 after the pitch sequence is received from the sound reproducing device 210. This first verification process is performed based on the pitch sequence accumulated from the start time to time T21. After the collation processing is completed, the collation processing information is transmitted from the transmission unit 222 to the sound reproduction device 210 at time T23.
  • the pitch sequence from the time T21 to the time T24 is data-compressed at time T24 after the collation processing information is received from the server device 220, and is transmitted from the transmission unit 212 to the server device 220. Sent.
  • the matching processing unit 103 starts the second matching process at time T25 after the pitch sequence is received from the sound reproducing device 210. This second verification process is performed based on the pitch sequence accumulated from time T21 to time T24. After the collation processing is completed, the collation processing information is transmitted from the transmission unit 222 to the sound reproduction device 210 at time T26.
  • the pitch sequence from the time T24 to the time T27 is data-compressed at time T27 after the collation processing information is received from the server device 220, and the data is compressed from the transmission unit 212 to the server device 220. Sent.
  • the third matching process is started in the matching processing unit 103 at time T28 after the pitch sequence is received from the sound reproducing device 210. Thereafter, each process is repeated in the same manner.
  • the matching processing unit 103 is disposed in the server device 220, but as a whole, has the same configuration as the acoustic processing device 100 illustrated in FIG. 1. . Therefore, the same effect as that of the sound processing apparatus 100 shown in FIG. 1 can be obtained.
  • the matching processing unit 103 is arranged in the server device 220, and the matching processing (matching processing) is performed on the server device 220 side that can increase the processing capability.
  • the processing load on the sound reproduction device 210 side can be reduced, and the verification processing time can be shortened.
  • the pitch detection unit 102 is arranged on the acoustic reproduction device 210 side, but it is also conceivable that the pitch detection unit 102 is arranged on the server device 220 side. In that case, an input sound signal is transmitted from the sound playback device 210 to the server device 220.
  • the reproduction control unit 106 is arranged on the sound reproduction device 210 side, but it is also conceivable to arrange the reproduction control unit 106 and the storage unit 107 on the server device 220 side. It is done. In that case, the playback audio signal of the specified music piece is transmitted from the server apparatus 220 to the acoustic signal playback apparatus 210.
  • the predetermined feature quantity sequence may be another feature quantity sequence such as a phoneme series.
  • this technique can also take the following structures.
  • a conversion unit that converts a continuously input acoustic signal into a predetermined feature amount sequence; As soon as the predetermined feature amount series accumulates a predetermined amount, the feature amount sequence and music information are sequentially collated, and a music specifying unit is provided that specifies music whose collation degree is greater than the first threshold. apparatus.
  • the acoustic processing device further including a music reproducing unit that reproduces the identified music in synchronization with the continuously input sound signal based on information on the music and the singing position.
  • the music specifying unit The acoustic processing device according to (1) or (2), wherein music pieces whose collation degree is smaller than the second threshold value set lower than the first threshold value in the previous collation process are excluded from the collation process targets. .
  • the music specifying unit The sound processing apparatus according to (3), wherein the first threshold value and / or the second threshold value are changed so as to increase with time.
  • the music playback unit The sound processing apparatus according to (2), wherein the pitch and tempo of the music to be reproduced are changed in correspondence with the pitch and tempo of the acoustic signal that is continuously input.
  • the display control unit The acoustic processing device according to (6), wherein the music that is the target of the matching process is controlled to be displayed in order from the larger matching degree based on the processing result.
  • the music playback unit further includes a music playback unit that plays back the music selected from the displayed music in synchronization with the acoustic signal that is continuously input based on the information of the music and the singing position.
  • the music specifying unit The acoustic processing apparatus according to any one of (1) to (8), wherein the matching process is performed at each time scheduled in advance.
  • the music specifying unit The acoustic processing apparatus according to any one of (1) to (8), wherein the matching process is performed every time the previous matching process is completed.
  • the music identification part The acoustic processing apparatus according to any one of (1) to (10), wherein the part of music selected by the music narrowing unit is a target of collation processing.
  • the sound processing apparatus according to (11), wherein the predetermined sort is a sort according to a user's preference.
  • (12) Convert continuously input acoustic signals into a predetermined feature amount sequence, An acoustic processing method for identifying a song having a matching degree larger than a threshold by sequentially performing a matching process between the feature quantity series and the music information as soon as the predetermined feature quantity series is accumulated.
  • a receiving unit that receives a predetermined feature amount sequence obtained by converting an acoustic signal that is continuously input from an external device; As soon as the predetermined feature amount series has accumulated a predetermined amount, a music specifying unit that sequentially performs a matching process between the feature amount sequence and the music information, and specifies a song having a matching degree greater than a threshold;
  • a server apparatus comprising: a transmission unit that transmits the music specifying information to the external device.
  • a conversion unit that converts a continuously input acoustic signal into a predetermined feature amount sequence
  • a transmission unit for transmitting the predetermined feature amount series to an external device; As soon as a predetermined amount of the predetermined feature amount series is accumulated from the external device, the feature amount sequence and the music information are sequentially collated, and a music piece whose collation degree is larger than a threshold value is specified.
  • a receiving unit for receiving the specified music identification information;
  • a sound reproduction device comprising: a music reproduction unit that reproduces the identified music in synchronization with the continuously input sound signal based on the music identification information.
  • a sound processing system in which a sound reproduction device and a server device are connected via a network
  • the sound reproducing device is A conversion unit for converting a continuously input acoustic signal into a predetermined feature amount sequence;
  • a transmission unit for transmitting the predetermined feature amount series to the server device;
  • a receiving unit for receiving music specifying information from the server device;
  • a music playback unit that plays back the specified music in synchronization with the continuously input sound signal based on the music specifying information
  • the server device is A receiving unit that receives the predetermined feature amount sequence from the sound reproduction device;
  • a music specifying unit that sequentially performs a matching process between the feature amount sequence and the music information, and specifies a song having a matching degree greater than a threshold
  • a sound processing system comprising: a transmission unit that transmits the music specifying information to the sound reproduction device.
  • a music processing apparatus comprising: a music reproducing unit that reproduces the identified music in synchronization with the continuously input sound signal based on information on the music and the singing position.
  • DESCRIPTION OF SYMBOLS 100 Acoustic processing apparatus 101 ... Input part 102 ... Pitch detection part 103 ... Matching processing part 104,107 ... Memory

Abstract

 入力音響信号に対応した楽曲の特定を良好に行い得るようにする。 連続入力される音響信号を所定の特徴量系列に変換する。この特徴量系列が所定量蓄積し次第、この特徴量系列と楽曲情報との照合処理を逐次行って、最終的に照合度が閾値よりも大きい楽曲を特定する。この場合、連続入力される音響信号を所定の特徴量系列に変換することと、この特徴量系列と楽曲情報との照合処理を行うこととを並行して行うため、リアルタイム性に優れた楽曲特定を行うことが可能となる。

Description

音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム
 本技術は、音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システムに関し、特に、入力音響信号に対応した楽曲の特定を良好に行い得る音響処理装置等に関する。
 ユーザが大量の楽曲から特定の楽曲を再生する際、それを簡単に探し出す手段として鼻歌検索が提案されている(例えば、特許文献1参照)。
特開2000-356996号公報
 特許文献1に記載され検索システムにおいては、ユーザの歌唱(鼻歌)の後に検索処理が開始されるものである。そのため、リアルタイム性に欠けるものである。
 本技術の目的は、入力音響信号に対応した楽曲の特定を良好に行い得るようにすることにある。
 本技術の概念は、
 連続入力される音響信号を所定の特徴量系列に変換する変換部と、
 上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が第1の閾値よりも大きい楽曲を特定する楽曲特定部とを備える
 音響処理装置にある。
 本技術において、変換部により、連続入力される音響信号が所定の特徴量系列に変換される。連続入力される音響信号は、例えば、マイクロホンからユーザの歌唱(鼻歌も含む)、環境音などを入力することで得られる。特徴量系列は、例えば、ピッチ系列とされるが、音韻系列などのその他の系列であってもよい。
 楽曲特定部により、所定の特徴量系列が所定量蓄積し次第、この特徴量系列と楽曲情報との照合処理が逐次行われる。そして、楽曲特定部により、照合度が第1の閾値よりも大きい楽曲が特定される。例えば、照合処理は、予めスケジューリングされた時刻毎に行われか、あるいは、前回の照合処理が終了する毎に行われる。
 このように本技術においては、連続入力される音響信号を所定の特徴量系列に変換することと、この特徴量系列と楽曲情報との照合処理を行うこととが並行して行われるものである。そのため、リアルタイム性に優れた楽曲特定を行うことができる。
 なお、本技術において、例えば、楽曲特定部は、前回の照合処理で照合度が第1の閾値よりも下側に設定された第2の閾値よりも小さい楽曲を照合処理の対象から除く、ようにされてもよい。この場合、時間経過とともに照合処理の対象を順次絞っていくことができ、楽曲の特定を効率よく行うことができる。
 また、本技術において、例えば、楽曲特定部は、第1の閾値および/または第2の閾値を、時間経過に伴って大きくなるように変化させる、ようにしてもよい。この場合、連続入力される音響信号に対応した楽曲を照合処理の対象から外すことなく、この楽曲を精度よく特定することが可能となる。
 また、本技術において、例えば、特定された楽曲を、楽曲および歌唱位置の情報に基づいて、連続入力される音響信号に同期して再生する楽曲再生部をさらに備える、ようにされてもよい。この場合、例えば、ユーザは、再生された楽曲に合わせて、違和感なく、歌唱を続けることが可能となり、効果的なアプリケーションを提供できる。この場合、例えば、楽曲再生部は、連続入力される音響信号の音高およびテンポに対応させて、再生する楽曲の音高およびテンポを変化させる、ようにされてもよい。
 また、本技術において、例えば、照合処理の情報および楽曲特定の情報に基づいて、楽曲特定の進捗状況の表示を制御する表示制御部をさらに備える、ようにされてもよい。この場合、ユーザは、楽曲特定の進捗状況を容易に知ることができる。例えば、表示制御部は、照合処理の対象となっている楽曲を、処理結果に基づいて、照合度が大きい方から順に表示するように制御する、ようにされてもよい。ユーザは、どの楽曲に特定されようとしているかを容易に把握できる。
 この場合、表示されている楽曲から選択された楽曲を、楽曲および歌唱位置の情報に基づいて、連続入力される音響信号に同期して再生する楽曲再生部をさらに備える、ようにされてよい。この場合、ユーザは、自身の歌唱に合致した楽曲を選択して、直ちにその楽曲の同期再生が可能となる。
 また、本技術において、例えば、所定のソートがされている複数の楽曲から一部の楽曲を選択する楽曲絞り込み部をさらに備え、楽曲特定部は、楽曲絞り込み部で選択された一部の楽曲を照合処理の対象とする、ようにされてもよい。例えば、所定のソートは、ジャンルあるいはアーティストによるソート、さらには、聴く頻度によるソート、お気に入りか否かのソートなどが考えられる。この場合、照合処理の対象を絞ることができ、楽曲特定の精度を高めることが可能となる。また、無駄な照合処理を行わないで済むことから、楽曲特定までの時間短縮を図ることができる。
 また、本技術の他の概念は、
 音響再生装置とサーバ装置とがネットワークを介して接続されてなる音響処理システムであって、
 上記音響再生装置は、
 連続入力される音響信号を所定の特徴量系列に変換する変換部と、
 上記所定の特徴量系列を上記サーバ装置に送信する送信部と、
 上記サーバ装置から楽曲特定情報を受信する受信部と、
 上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備え、
 上記サーバ装置は、
 上記音響再生装置から上記所定の特徴量系列を受信する受信部と、
 所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
 上記楽曲特定情報を上記音響再生装置に送信する送信部とを備える
 音響処理システムにある。
 本技術は、音響再生装置とサーバ装置とがネットワークを介して接続されてなる音響処理システムである。音響再生装置では、変換部により連続入力される音響信号が所定の特徴量系列に変換され、この所定の特徴量系列は、送信部により、サーバ装置に送信される。
 サーバ装置では、受信部により音響再生装置から所定の特徴量系列が受信され、楽曲特定部によりこの所定の特徴量系列が所定量蓄積し次第、この特徴量系列と楽曲情報との照合処理が逐次行われ、照合度が閾値よりも大きい楽曲が特定され、送信部により楽曲特定情報が音響再生装置に送信される。
 そして、音響再生装置では、受信部によりサーバ装置から楽曲特定情報が受信され、楽曲再生部によりこの楽曲特定情報に基づき、特定された楽曲が、連続入力される音響信号に同期して再生される。
 このように本技術においては、連続入力される音響信号を所定の特徴量系列に変換することと、この特徴量系列と楽曲情報との照合処理を行うこととが並行して行われるものであるため、リアルタイム性に優れた楽曲特定を行うことができる。また、本技術においては、音響再生装置のユーザは、歌唱(鼻歌を含む)を行うことで、その歌唱に合致した楽曲の同期再生を行わせることができ、再生された楽曲に合わせて、違和感なく、歌唱を続けることが可能となる。また、本技術においては、照合処理を伴う楽曲特定の処理をサーバ装置側で行うものであり、音響再生装置の処理負荷を軽減できる。
 本技術によれば、入力音響信号に対応した楽曲の特定を良好に行うことができる。
第1の実施の形態としての音響処理装置の構成例を示すブロック図である。 照合処理を前回の照合処理が終了する毎に行う場合における、ピッチ検出処理、照合処理のタイミングを示すタイムチャートである。 照合処理を予めスケジューリングされた時刻毎に行う場合における、ピッチ検出処理、照合処理のタイミングを示すタイムチャートである。 閾値Thh、閾値Thlが時間経過に伴って大きくなるように変化する構成を説明するための図である。 表示部における表示推移の一例を示す図である。 照合処理を前回の照合処理が終了する毎に行う場合における音響処理装置の動作を説明するためのフローチャートである。 照合処理を予めスケジューリングされた時刻毎に行う場合における音響処理装置の動作を説明するためのフローチャートである。 ユーザの楽曲選択機能を備える音響処理装置の動作を説明するためのフローチャートである。 第2の実施の形態としての音響処理システムの構成例を示すブロック図である。 音響処理システムにおけるピッチ検出と、送受信、照合の各処理のタイミングを示すタイムチャートである。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.第1の実施の形態
 2.第2の実施の形態
 3.変形例
 <1.第1の実施の形態>
 [音響処理装置の構成例]
 図1は、第1の実施の形態としての音響処理装置100の構成例を示している。この音響処理装置100は、具体的には、マイクロホンを備えたポータブル音楽プレーヤや携帯電話などである。この音響処理装置100は、入力部101と、ピッチ検出部102と、マッチング処理部103と、記憶部104と、表示部105と、再生コントロール部106と、記憶部107と、出力部108を有している。
 入力部101は、ユーザの歌声(鼻歌を含む)を入力し、その歌声に対応した入力音響信号(音声信号)を出力する。この入力部101は、例えば、マイクロホンなどにより構成される。ピッチ検出部102は、入力音響信号を周波数解析して、解析時刻毎に、基本周波数を推定してピッチを検出する。
 記憶部107は、所定数の楽曲のデータを記憶し、楽曲データベースを構成する。記憶部104は、記憶部107に記憶されている楽曲に対応したメロディデータを記憶し、メロディデータベースを構成する。ここで、メロディデータは、必ずしも楽曲データと一対一に対応していなくてもよく、楽曲中の複数の個所のメロディデータを別々のデータとしていてもよい。例えば、ある楽曲のメロディデータが、Aメロディ、Bメロディ、サビの3つメロディデータに分割して記憶されている等である。
 マッチング処理部103は、ピッチ検出部102で検出されたピッチ系列と、記憶部104に記憶されている各楽曲のメロディデータとの照合処理(マッチング処理)を行って、ピッチ系列と各楽曲のメロディデータとの照合度を計算する。マッチング処理部103は、例えば、ピッチ系列を音高の列に正規化し、前の系列の音との音高差を抽出して、メロディデータの系列と動的計画法を用いて照合処理(マッチング処理)を行う。ただし、このマッチング処理部103における照合処理は、この方法に限定されるものではない。
 マッチング処理部103は、この照合処理を、ピッチ系列が所定量蓄積し次第、逐次行って、最終的に、照合度が最大で、その照合度が予め設定された閾値(第1の閾値)Thhよりも大きくなる1つの楽曲を特定する。この場合、マッチング処理部103は、前回の照合処理で照合度が閾値(第2の閾値)Thlよりも小さい楽曲を照合処理の対象から除くことを行う。ここで、閾値Thlは、閾値Thhの下側に設定されるものであり、十分に小さい照合度に対応した値に予め設定される。この場合、時間経過とともに照合処理の対象が順次絞られていくことから、楽曲特定の効率化が図られる。
 マッチング処理部103は、上述したように、照合処理を繰り返し行う。例えば、マッチング処理部103は、照合処理を、前回の照合処理が終了する毎に行う。この場合、照合処理が連続して行われることとなるので、楽曲特定に要する時間の短縮化が期待される。
 図2は、その場合におけるタイムチャートを示している。ピッチ検出部102では、開始時刻から入力音響信号のピッチ検出が連続して行われている。時刻T1に、マッチング処理部103において1回目の照合処理が開始される。この1回目の照合処理では、開始時刻から時刻T1までに蓄積されたピッチ系列に基づいて照合処理が行われる。
 この1回目の照合処理が終了した時刻T2に、マッチング処理部103において直ちに2回目の照合処理が開始される。この2回目の照合処理では、時刻T1から時刻T2までに蓄積されたピッチ系列に基づいて照合処理が行われる。さらに、この2回目の照合処理が終了した時刻T3に、マッチング処理部103において直ちに3回目の照合処理が開始される。この3回目の照合処理では、時刻T2から時刻T3までに蓄積されたピッチ系列に基づいて照合処理が行われる。
 以下、同様にして、照合処理が繰り返されていく。なお、上述したように、前回の照合処理で照合度が閾値(第2の閾値)Thlよりも小さい楽曲が照合処理の対象から除かれていくことで、図示のように、照合処理の回を重ねていく毎に、照合処理に要する時間は短くなっていく。
 また、例えば、マッチング処理部103は、照合処理を、予めスケジューリングされた時刻毎に行う。この場合、照合処理が、前回の照合処理に要した時間によらず、十分な長さのピッチ系列をもって行われることから、各回において効果的な照合処理が行われることが期待される。
 図3は、その場合におけるタイムチャートを示している。ピッチ検出部102では、開始時刻から入力音響信号のピッチ検出が連続して行われている。時刻T11に、マッチング処理部103において1回目の照合処理が開始される。この1回目の照合処理では、開始時刻から時刻T11までに蓄積されたピッチ系列に基づいて照合処理が行われる。
 この1回目の照合処理が終了した後の時刻T12に、マッチング処理部103において2回目の照合処理が開始される。この2回目の照合処理では、時刻T11から時刻T12までに蓄積されたピッチ系列に基づいて照合処理が行われる。さらに、この2回目の照合処理が終了した後の時刻T13に、マッチング処理部103において3回目の照合処理が開始される。この3回目の照合処理では、時刻T12から時刻T13までに蓄積されたピッチ系列に基づいて照合処理が行われる。
 以下、同様にして、照合処理が繰り返されていく。なお、上述したように、前回の照合処理で照合度が閾値(第2の閾値)Thlよりも小さい楽曲が照合処理の対象から除かれていくことで、図示のように、照合処理の回を重ねていく毎に、照合処理に要する時間は短くなっていく。
 上述の閾値Thhおよび閾値Thlは、固定値であってもよいが、図4に示すように、いずれか一方、あるいは両方が、時間経過に伴って大きくなるように変化する構成であってもよい。このように閾値を変化させることで、入力音響信号に対応した楽曲を照合処理の対象から外すことなく、この楽曲を精度よく特定することが可能となる。また、例えば、閾値Thhに関しては、2番目に大きな照合度に所定値を加えた値にするなど、他の楽曲に対する照合度に基づいて設定されてもよい。
 また、マッチング処理部103は、最初から、記憶部107に記憶されている楽曲の全てを照合処理の対象としてもよいが、所定のソート(分類)がされている複数の楽曲から、例えばユーザ操作などで予め選択された一部の楽曲のみを照合処理の対象としてもよい。この場合、照合処理の対象を絞ることができることから、楽曲特定の精度を高めることが可能となる。また、無駄な照合処理を行わないで済むことから、楽曲特定までの時間短縮を図ることができる。
 ここで、ユーザの趣向に合わせたソートが考えられる。例えば、ジャンルやアーティストによるソートである。さらには、よく聴く楽曲によるソート、お気に入りの楽曲か否かによるソートなども考えられる。なお、一部の楽曲の選択は、上述したユーザ操作による場合だけでなく、例えば、よく聴く楽曲によるソートの場合には、自動的に上位所定数の楽曲を照合処理の対象として選択するようにしてもよい。また、楽曲の全部を照合処理の対象とするか、選択された一部の楽曲のみを照合処理の対象とするかを、ユーザが予め設定可能としてもよい。
 表示部105は、マッチング処理部103における照合処理情報および楽曲特定情報に基づいて、楽曲特定の進捗状況を表示する。この表示部105には、照合処理の対象となっている楽曲が、例えば、照合度が大きい方から順に表示される。上述したように照合処理が繰り返されていくことで、照合処理の対象が減っていくことから、この表示部105の表示もそれに合わせて変更されていく。そして、マッチング処理部103で、1つの楽曲が特定されたとき、この表示部105には、その1つの楽曲の情報が表示される。
 図5は、表示部105における表示推移の一例を示している。図5(a)は、開始時の表示例を示している。この時点では、照合処理対象の楽曲は絞られていないため、多くの楽曲が表示された状態となる。図5(b)は、歌唱中の表示例を示している。この時点では、照合処理対象の楽曲が絞られていることから、表示される楽曲の数は少なくなっている。この場合、照合度が大きい順に表示される。図示の例では、「3.CCC」の楽曲の照合度が最も大きいことになる。なお、この時点では、まだ、閾値Thhを越える照合度の楽曲は存在しないことになる。図5(c)は、最終的に1つの楽曲が特定された終了時の表示例である。この場合、「16.PPP」の楽曲に特定されたことを示している。
 再生コントロール部106は、マッチング処理部103で1つの楽曲が特定されたとき、その楽曲および歌唱位置の情報に基づいて、特定された楽曲を、記憶部107に記憶されている楽曲データを用い、入力音響信号に同期して再生する。つまり、再生コントロール部106は、特定された楽曲を、ユーザの歌唱位置に合わせて再生する。このような同期再生により、ユーザは、再生された楽曲に合わせて、違和感なく、歌唱を続けることが可能となる。
 なお、再生コントロール部106は、特定された楽曲をただ再生するのではなく、入力音響信号の音高およびテンポ、つまりユーザの歌唱の音高やテンポに対応させて、その再生される楽曲の音高およびテンポを変化させるようにしてもよい。
 出力部108は、再生コントロール部106で得られる楽曲の再生音声信号の出力に関係する部分である。この出力部108は、スピーカのようにそれ自体が音を出してもよく、あるいはヘッドホンと接続するための端子、さらには外部のスピーカと通信する通信部であってもよい。
 次に、図1に示す音響処理装置100の動作を説明する。最初に、図6のフローチャートに沿って、照合処理を前回の照合処理が終了する毎に行う場合について、説明する。音響処理装置100は、ステップST1において、処理を開始し、その後に、ステップST2の処理に移る。このステップST2において、音響処理装置100は、ピッチ検出部102で、入力部101からの入力音響信号を周波数解析して、解析時刻毎に、基本周波数を推定してピッチを検出することを開始する。
 次に、音響処理装置100は、ステップST3において、マッチング処理部103で、照合処理を行う。この場合、音響処理装置100は、ピッチ検出部102で検出されたピッチ系列と、記憶部104に記憶されている各楽曲のメロディデータとの照合処理(マッチング処理)を行って、ピッチ系列と各楽曲のメロディデータとの照合度を計算する。
 次に、音響処理装置100は、ステップST4において、マッチング処理部103の照合処理の情報に基づいて、表示部105に、照合処理対象となっている楽曲を、照合度の大きい順に表示する。次に、音響処理装置100は、ステップST5において、最大の照合度が、閾値Thhより大きいか否かを判断する。大きくないとき、音響処理装置100は、ステップST6の処理に移る。
 このステップST6において、音響処理装置100は、終了条件を満たしているか否かを判断する。この終了条件は、例えば、ユーザが歌唱(鼻歌を含む)を開始してから所定の時間が経過したか、などである。終了条件を満たさないとき、音響処理装置100は、ステップST7の処理に移る。
 このステップST7において、音響処理装置100は、閾値Thlより小さい照合度の楽曲を、次回の照合処理の対象から除く。そして、音響処理装置100は、このステップST7の処理の後、直ちにステップST3の処理に戻り、上述したと同様の処理を繰り返す。
 また、音響処理装置100は、ステップST5で各楽曲の照合度のうち最大のものが閾値Thhより大きいとき、その最大の照合度の楽曲を特定すべき楽曲とする。そして、音響処理装置100は、ステップST8において、再生コントロール部106で、その楽曲および歌唱位置の情報に基づいて、特定された楽曲を、入力音響信号に同期して再生することを開始する。音響処理装置100は、このステップST8の処理の後、ステップST9において、処理を終了する。
 また、音響処理装置100は、ステップST6で終了条件を満たしているとき、ステップST10において、表示部105に再生が失敗した旨を表示してユーザに通知し、その後に、ステップST9において、処理を終了する。
 次に、図7のフローチャートに沿って、照合処理を予めスケジューリングされた時刻毎に行う場合について、説明する。音響処理装置100は、ステップST3の処理に先だって、ステップST11の処理を行う。すなわち、音響処理装置100は、ステップST2の処理の後、およびステップST7の処理の後に、ステップST11の処理に移る。
 このステップST11において、音響処理装置100は、開始時間から指定された時間が経過したか否かを判断する。この指定された時間は、1回目の照合処理を行う前は、その1回目の照合処理を開始するまでの時間であり、2回目以降においても同様である。指定された時間が経過したとき、音響処理装置100は、ステップST3の処理に移る。詳細説明は省略するが、この図7のフローチャートにおいて、その他のステップは、図6のフローチャートと同様である。
 上述したように、図1に示す音響処理装置100においては、連続入力される音響信号をピッチ系列に変換することと、このピッチ系列と楽曲に対応したメロディデータとの照合処理を行うこととが並行して行われる。そのため、リアルタイム性に優れた楽曲特定を行うことができる。つまり、ユーザが歌唱(鼻歌を含む)を続けている最中に、その歌唱に対応した楽曲を素早く特定することができる。この場合、ユーザは、必要最小限の時間歌唱するだけ済むことになる。
 また、図1に示す音響処理装置100においては、照合度の最大が閾値Thhを越えるまでピッチ系列と楽曲に対応したメロディデータとの照合処理が繰り返し行われるが、前回の照合処理で照合度が閾値Thlよりも小さい楽曲が照合処理の対象から除かられる。そのため、時間経過とともに照合処理の対象を順次絞っていくことができ、楽曲の特定を効率よく行うことができる。
 また、図1に示す音響処理装置100においては、特定された楽曲が、楽曲および歌唱位置の情報に基づいて、連続入力される音響信号に同期して再生される。そのため、ユーザは、再生された楽曲に合わせて、違和感なく、歌唱を続けることが可能となり、効果的なアプリケーションを提供できる。
 また、図1に示す音響処理装置100においては、表示部105に、マッチング処理部103における照合処理情報および楽曲特定情報に基づいて、楽曲特定の進捗状況が表示される。例えば、照合処理の対象となっている楽曲が、処理結果に基づいて、照合度が大きい方から順に表示される。そのため、ユーザは、楽曲特定の進捗状況を容易に知ることができ、また、どの楽曲に特定されようとしているかを容易に把握できる。
 なお、上述の説明では、照合処理後に、照合度の最大が閾値Thhより大きいとき、その照合度の楽曲を特定すべき楽曲として、その楽曲の再生処理に移るものである。つまり、1つの楽曲が特定されてから楽曲の再生処理に移るものであった。しかし、表示部105に照合度が大きい順に表示される楽曲に、ユーザが、自分が歌唱している楽曲を見いだすことも考えられる。したがって、ユーザが表示部105の表示から任意に楽曲を選択することを可能とし、直ちに選択された楽曲の再生処理に移ることも考えられる。
 図8のフローチャートは、その場合における音響処理装置100の動作の一例を示している。この図8のフローチャートにおいて、上述の図6のフローチャートに対応するステップには同一符号を付して示し、適宜、その詳細説明は省略する。この図8のフローチャートにおいては、ステップST5で照合度の最大が閾値Thhより大きくないとき、音響処理装置100は、ステップST12の処理に移る。
 このステップST12において、音響処理装置100は、ユーザによって、表示部105に表示されている楽曲のうちのいずれかが選択されたか否かを判断する。選択があったとき、音響処理装置100は、ステップST8の処理に移り、再生コントロール部106で、その楽曲および歌唱位置の情報に基づいて、選択された楽曲を、入力音響信号に同期して再生することを開始する。一方、音響処理装置100は、ステップST12で選択がなかったとき、ステップST6の処理に移る。詳細説明は省略するが、この図8のフローチャートにおいて、その他のステップは、図6のフローチャートと同様である。
 <2.第2の実施の形態>
 [音響処理システムの構成例]
 図9は、第2の実施の形態としての音響処理システム200の構成例を示している。この音響処理システム200は、音響再生装置210とサーバ装置220とがネットワーク230を介して接続されてなるものである。音響再生装置210は、具体的には、ネットワーク接続機能を持ち、マイクロホンを備えたポータブル音楽プレーヤや携帯電話などである。この図9において、図1と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。
 音響再生装置210は、入力部101と、ピッチ検出部202と、圧縮処理部211と、送信部212と、受信部213と、表示部105と、再生コントロール部106と、記憶部107と、出力部108を有している。
 入力部101は、ユーザの歌声(鼻歌を含む)を入力し、その歌声に対応した入力音響信号(音声信号)を出力する。この入力部101は、例えば、マイクロホンなどにより構成される。ピッチ検出部102は、入力音響信号を周波数解析して、解析時刻毎に、基本周波数を推定してピッチを検出する。
 圧縮処理部211は、ピッチ検出部102で検出されたピッチ系列をサーバ装置220に送信するために、データ圧縮などの処理を行う。送信部212は、データ圧縮などの処理が行われたピッチ系列を、ネットワーク230を介して、サーバ装置220に送信する。受信部213は、サーバ装置220からネットワーク230を介して送られてくる照合処理情報および楽曲特定情報を受信する。この楽曲特定情報には、楽曲および歌唱位置の情報が含まれる。
 表示部105は、受信された照合処理情報および楽曲特定情報に基づいて、楽曲特定の進捗状況を表示する。この表示部105には、照合処理の対象となっている楽曲が、例えば、照合度が大きい方から順に表示される。再生コントロール部106は、受信された楽曲特定情報に含まれる楽曲および歌唱位置の情報に基づいて、特定された楽曲を、記憶部107に記憶されている楽曲データを用い、入力音響信号に同期して再生する。つまり、再生コントロール部106は、特定された楽曲を、ユーザの歌唱位置に合わせて再生する。
 出力部108は、再生コントロール部106で得られる楽曲の再生音声信号の出力に関係する部分である。この出力部108は、スピーカのようにそれ自体が音を出してもよく、あるいはヘッドホンと接続するための端子、さらには外部のスピーカと通信する通信部であってもよい。
 サーバ装置220は、受信部と221と、マッチング処理部103と、記憶部104と、送信部222を有している。受信部221は、音響再生装置210から送られてくる圧縮処理等されたピッチ系列を、ネットワーク230を介して受信し、伸長処理等を施して、音響再生装置210のピッチ検出部102で得られたと同様のピッチ系列を得る。
 マッチング処理部103は、受信されたピッチ系列と、記憶部104に記憶されている各楽曲のメロディデータとの照合処理(マッチング処理)を行って、ピッチ系列と各楽曲のメロディデータとの照合度を計算する。また、マッチング処理部103は、この照合処理を、音響再生装置210から間欠的に受信されて蓄積される所定量のピッチ系列毎に、逐次行って、最終的に、照合度が最大で、その照合度が予め設定された閾値Thhよりも大きくなる1つの楽曲を特定する。
 送信部222は、マッチング処理部103における照合処理情報および楽曲特定情報を、ネットワーク230を介して音響再生装置210に送信する。なお、楽曲特定情報には、楽曲および歌唱位置の情報が含まれている。
 図9に示す音響処理システム200の動作を説明する。入力部101にユーザの歌声(鼻歌を含む)が入力され、この入力部101からは、その歌声に対応した入力音響信号(音声信号)が得られる。この入力音声信号は、ピッチ検出部102に供給される。このピッチ検出部102では、入力音響信号が周波数解析されて、解析時刻毎に、基本周波数が推定されてピッチが検出される。
 ピッチ検出部102で得られたピッチ系列は、圧縮処理部211に供給される。この圧縮処理部211では、所定量のピッチ系列が蓄積され次第、逐次、データ圧縮された後、送信部212により、ネットワーク230を介してサーバ装置220に送信される。
 サーバ装置220では、受信部221により、音響再生装置210から送られてくるピッチ系列が受信される。このピッチ系列は、マッチング処理部103に供給される。
 マッチング処理部103では、受信されたピッチ系列と、記憶部104に記憶されている各楽曲のメロディデータとの照合処理(マッチング処理)が行われて、ピッチ系列と各楽曲のメロディデータとの照合度が計算される。このマッチング処理部103では、この照合処理が、音響再生装置210から間欠的に受信されて蓄積される所定量のピッチ系列毎に、逐次行われる。そして、このマッチング処理部103では、最終的に、照合度が最大で、その照合度が予め設定された閾値Thhよりも大きくなる1つの楽曲が特定される。
 マッチング処理部103で得られる照合処理情報および楽曲特定情報は、送信部222により、ネットワーク230を介して、音響再生装置210に送信される。音響再生装置210では、受信部213により、サーバ装置220から遅れられてくる照合処理情報および楽曲特定情報が受信される。
 表示部105では、受信された照合処理情報および楽曲特定情報に基づいて、楽曲特定の進捗状況が表示される(図5参照)。また、再生コントロール部106では、受信された楽曲特定情報に含まれる楽曲および歌唱位置の情報に基づいて、特定された楽曲が、記憶部107に記憶されている楽曲データが用いられて、入力音響信号に同期して再生される。つまり、再生コントロール部106では、特定された楽曲が、ユーザの歌唱位置に合わせて再生される。再生コントロール部106で得られる楽曲の再生音声信号は、出力部108に供給される。
 図10のタイムチャートは、図9の音響処理システム200におけるピッチ検出と、送受信、照合の各処理のタイミングを示している。音響再生装置210のピッチ検出部102では、開始時刻から入力音響信号のピッチ検出が連続して行われている。開始時刻から所定時間後の時刻T21に、開始時刻から時刻T21までのピッチ系列が、データ圧縮されて、送信部212から、サーバ装置220に送信される。
 サーバ装置220では、音響再生装置210からピッチ系列が受信された後の時刻T22に、マッチング処理部103において1回目の照合処理が開始される。この1回目の照合処理は、開始時刻から時刻T21までに蓄積されたピッチ系列に基づいて行われる。この照合処理が終了した後、その照合処理情報は、時刻T23に、送信部222から、音響再生装置210に送信される。
 また、音響再生装置210では、サーバ装置220から照合処理情報が受信された後の時刻T24に、時刻T21から時刻T24までのピッチ系列が、データ圧縮されて、送信部212から、サーバ装置220に送信される。
 サーバ装置220では、音響再生装置210からピッチ系列が受信された後の時刻T25に、マッチング処理部103において2回目の照合処理が開始される。この2回目の照合処理は、時刻T21から時刻T24までに蓄積されたピッチ系列に基づいて行われる。この照合処理が終了した後、その照合処理情報は、時刻T26に、送信部222から、音響再生装置210に送信される。
 また、音響再生装置210では、サーバ装置220から照合処理情報が受信された後の時刻T27に、時刻T24から時刻T27までのピッチ系列が、データ圧縮されて、送信部212から、サーバ装置220に送信される。サーバ装置220では、音響再生装置210からピッチ系列が受信された後の時刻T28に、マッチング処理部103において3回目の照合処理が開始される。以下、同様にして、各処理が繰り返されていく。
 上述したように、図9に示す音響処理システム200においては、マッチング処理部103がサーバ装置220に配置されるものの、全体としては図1に示す音響処理装置100と同様の構成を持つものである。したがって、図1に示す音響処理装置100と同様の効果を得ることができる。
 また、図9に示す音響処理システム200においては、マッチング処理部103がサーバ装置220に配置され、照合処理(マッチング処理)が、処理能力を高くできるサーバ装置220側で行われるものである。音響再生装置210側の処理負荷を軽減でき、また、照合処理時間の短縮化を図ることができる。
 なお、図9に示す音響処理システム200においては、ピッチ検出部102を音響再生装置210側に配置したものであるが、このピッチ検出部102もサーバ装置220側に配置することも考えられる。その場合には、音響再生装置210から入力音響信号をサーバ装置220に送信することになる。
 また、図9の音響処理システム200においては、再生コントロール部106を音響再生装置210側に配置したものであるが、この再生コントロール部106および記憶部107をサーバ装置220側に配置することも考えられる。その場合には、特定された楽曲の再生音声信号を、サーバ装置220から音響信号再生装置210に送信することになる。
 <3.変形例>
 なお、上述実施の形態においては、入力部101にユーザの歌声(鼻歌を含む)が入力されるように説明した。しかし、この入力部101に、環境音を入力することも考えられる。ここで言う環境音とは、例えば、街頭で流れている楽曲などのことである。この場合にも、この環境音に対応した楽曲を特定でき、その環境音に同期して、特定された環境音の再生を行うことができる。
 また、上述実施の形態においては、所定の特徴量系列がピッチ系列である例を示したが、本技術はこれに限定されるものではない。この所定の特徴量系列は、音韻系列などその他の特徴量系列であってもよい。
 また、本技術は、以下のような構成をとることもできる。
 (1)連続入力される音響信号を所定の特徴量系列に変換する変換部と、
 上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が第1の閾値よりも大きい楽曲を特定する楽曲特定部とを備える
 音響処理装置。
 (2)上記特定された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部をさらに備える
 前記(1)に記載の音響処理装置。
 (3)上記楽曲特定部は、
 前回の照合処理で照合度が上記第1の閾値よりも下側に設定された第2の閾値よりも小さい楽曲を照合処理の対象から除く
 前記(1)または(2)に記載の音響処理装置。
 (4)上記楽曲特定部は、
 上記第1の閾値および/または上記第2の閾値を、時間経過に伴って大きくなるように変化させる
 前記(3)に記載の音響処理装置。
 (5)上記楽曲再生部は、
 上記連続入力される音響信号の音高およびテンポに対応させて、上記再生する楽曲の音高およびテンポを変化させる
 前記(2)に記載の音響処理装置。
 (6)上記照合処理の情報および上記楽曲特定の情報に基づいて、楽曲特定の進捗状況の表示を制御する表示制御部をさらに備える
 前記(1)から(5)のいずれかに記載の音響処理装置。
 (7)上記表示制御部は、
 上記照合処理の対象となっている楽曲を、処理結果に基づいて、照合度が大きい方から順に表示するように制御する
 前記(6)に記載の音響処理装置。
 (8)上記表示されている楽曲から選択された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部をさらに備える
 前記(7)に記載の音響処理装置。
 (9)上記楽曲特定部は、
 上記照合処理を、予めスケジューリングされた時刻毎に行う
 前記(1)から(8)のいずれかに記載の音響処理装置。
 (10)上記楽曲特定部は、
 上記照合処理を、前回の照合処理が終了する毎に行う
 前記(1)から(8)に記載の音響処理装置。
 (11)所定のソートがされている複数の楽曲から一部の楽曲を選択する楽曲絞り込み部をさらに備え、
 上記楽曲特定部は、
 上記楽曲絞り込み部で選択された上記一部の楽曲を照合処理の対象とする
 前記(1)から(10)のいずれかに記載の音響処理装置。
 (12)上記所定のソートは、ユーザの趣向に応じたソートである
 前記(11)に記載の音響処理装置。
 (13)連続入力される音響信号を所定の特徴量系列に変換し、
 上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
 音響処理方法。
 (14)連続入力される音響信号を所定の特徴量系列に変換し、
 上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
 音響処理方法をコンピュータに実行させるためのプログラム。
 (15)連続入力される音響信号を所定の特徴量系列に変換し、
 上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
 音響処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
 (16) 外部機器から、連続入力される音響信号が変換されて得られた所定の特徴量系列を受信する受信部と、
 上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
 上記楽曲特定情報を、上記外部機器に送信する送信部とを備える
 サーバ装置。
 (17)連続入力される音響信号を所定の特徴量系列に変換する変換部と、
 上記所定の特徴量系列を外部機器に送信する送信部と、
 上記外部機器から、上記所定の特徴量系列が所定量蓄積され次第、該特徴量系列と楽曲情報との照合処理が逐次行われ、照合度が閾値よりも大きい楽曲が特定されることで得られた楽曲特定情報を受信する受信部と、
 上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備える
 音響再生装置。
 (18)音響再生装置とサーバ装置とがネットワークを介して接続されてなる音響処理システムであって、
 上記音響再生装置は、
 連続入力される音響信号を所定の特徴量系列に変換する変換部と、
 上記所定の特徴量系列を上記サーバ装置に送信する送信部と、
 上記サーバ装置から楽曲特定情報を受信する受信部と、
 上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備え、
 上記サーバ装置は、
 上記音響再生装置から、上記所定の特徴量系列を受信する受信部と、
 上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
 上記楽曲特定情報を上記音響再生装置に送信する送信部とを備える
 音響処理システム。
 (19)連続入力される音響信号を所定の特徴量系列に変換する変換部と、
 上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
 上記特定された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部とを備える
 音響処理装置。
 100・・・音響処理装置
 101・・・入力部
 102・・・ピッチ検出部
 103・・・マッチング処理部
 104,107・・・記憶部
 105・・・表示部
 106・・・再生コントロール部
 108・・・出力部
 200・・・音響処理システム
 210・・・音響再生装置
 211・・・圧縮処理部
 212・・・送信部
 213・・・受信部
 220・・・サーバ装置
 221・・・受信部
 222・・・送信部
 230・・・ネットワーク

Claims (19)

  1.  連続入力される音響信号を所定の特徴量系列に変換する変換部と、
     上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が第1の閾値よりも大きい楽曲を特定する楽曲特定部とを備える
     音響処理装置。
  2.  上記特定された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部をさらに備える
     請求項1に記載の音響処理装置。
  3.  上記楽曲特定部は、
     前回の照合処理で照合度が上記第1の閾値よりも下側に設定された第2の閾値よりも小さい楽曲を照合処理の対象から除く
     請求項1に記載の音響処理装置。
  4.  上記楽曲特定部は、
     上記第1の閾値および/または上記第2の閾値を、時間経過に伴って大きくなるように変化させる
     請求項3に記載の音響処理装置。
  5.  上記楽曲再生部は、
     上記連続入力される音響信号の音高およびテンポに対応させて、上記再生する楽曲の音高およびテンポを変化させる
     請求項2に記載の音響処理装置。
  6.  上記照合処理の情報および上記楽曲特定の情報に基づいて、楽曲特定の進捗状況の表示を制御する表示制御部をさらに備える
     請求項1に記載の音響処理装置。
  7.  上記表示制御部は、
     上記照合処理の対象となっている楽曲を、処理結果に基づいて、照合度が大きい方から順に表示するように制御する
     請求項6に記載の音響処理装置。
  8.  上記表示されている楽曲から選択された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部をさらに備える
     請求項7に記載の音響処理装置。
  9.  上記楽曲特定部は、
     上記照合処理を、予めスケジューリングされた時刻毎に行う
     請求項1に記載の音響処理装置。
  10.  上記楽曲特定部は、
     上記照合処理を、前回の照合処理が終了する毎に行う
     請求項1に記載の音響処理装置。
  11.  所定のソートがされている複数の楽曲から一部の楽曲を選択する楽曲絞り込み部をさらに備え、
     上記楽曲特定部は、
     上記楽曲絞り込み部で選択された上記一部の楽曲を照合処理の対象とする
     請求項1に記載の音響処理装置。
  12.  上記所定のソートは、ユーザの趣向に応じたソートである
     請求項11に記載の音響処理装置。
  13.  連続入力される音響信号を所定の特徴量系列に変換し、
     上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
     音響処理方法。
  14.  連続入力される音響信号を所定の特徴量系列に変換し、
     上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
     音響処理方法をコンピュータに実行させるためのプログラム。
  15.  連続入力される音響信号を所定の特徴量系列に変換し、
     上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する
     音響処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  16.  外部機器から、連続入力される音響信号が変換されて得られた所定の特徴量系列を受信する受信部と、
     上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
     上記楽曲特定情報を、上記外部機器に送信する送信部とを備える
     サーバ装置。
  17.  連続入力される音響信号を所定の特徴量系列に変換する変換部と、
     上記所定の特徴量系列を外部機器に送信する送信部と、
     上記外部機器から、上記所定の特徴量系列が所定量蓄積され次第、該特徴量系列と楽曲情報との照合処理が逐次行われ、照合度が閾値よりも大きい楽曲が特定されることで得られた楽曲特定情報を受信する受信部と、
     上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備える
     音響再生装置。
  18.  音響再生装置とサーバ装置とがネットワークを介して接続されてなる音響処理システムであって、
     上記音響再生装置は、
     連続入力される音響信号を所定の特徴量系列に変換する変換部と、
     上記所定の特徴量系列を上記サーバ装置に送信する送信部と、
     上記サーバ装置から楽曲特定情報を受信する受信部と、
     上記楽曲特定情報に基づき、上記特定された楽曲を、上記連続入力される音響信号に同期して再生する楽曲再生部とを備え、
     上記サーバ装置は、
     上記音響再生装置から、上記所定の特徴量系列を受信する受信部と、
     上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
     上記楽曲特定情報を上記音響再生装置に送信する送信部とを備える
     音響処理システム。
  19.  連続入力される音響信号を所定の特徴量系列に変換する変換部と、
     上記所定の特徴量系列が所定量蓄積し次第、該特徴量系列と楽曲情報との照合処理を逐次行い、照合度が閾値よりも大きい楽曲を特定する楽曲特定部と、
     上記特定された楽曲を、楽曲および歌唱位置の情報に基づいて、上記連続入力される音響信号に同期して再生する楽曲再生部とを備える
     音響処理装置。
PCT/JP2012/080789 2011-12-05 2012-11-28 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム WO2013084774A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP12855482.1A EP2790184A1 (en) 2011-12-05 2012-11-28 Sound processing device, sound processing method, program, recording medium, server device, sound replay device, and sound processing system
CN201280058754.1A CN103988256A (zh) 2011-12-05 2012-11-28 声音处理装置、声音处理方法、程序、记录介质、服务器装置、声音再现装置以及声音处理系统
US14/353,844 US20140318348A1 (en) 2011-12-05 2012-11-28 Sound processing device, sound processing method, program, recording medium, server device, sound reproducing device, and sound processing system
BR112014013061A BR112014013061A2 (pt) 2011-12-05 2012-11-28 dispositivo, método e sistema de processamento de som, programa, mídia de gravação, dispositivo servidor, e, dispositivo de reprodução de som
CA2853904A CA2853904A1 (en) 2011-12-05 2012-11-28 Sound processing device, sound processing method, program, recording medium, server device, sound reproducing device, and sound processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-266065 2011-12-05
JP2011266065A JP2013117688A (ja) 2011-12-05 2011-12-05 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム

Publications (1)

Publication Number Publication Date
WO2013084774A1 true WO2013084774A1 (ja) 2013-06-13

Family

ID=48574144

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/080789 WO2013084774A1 (ja) 2011-12-05 2012-11-28 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム

Country Status (7)

Country Link
US (1) US20140318348A1 (ja)
EP (1) EP2790184A1 (ja)
JP (1) JP2013117688A (ja)
CN (1) CN103988256A (ja)
BR (1) BR112014013061A2 (ja)
CA (1) CA2853904A1 (ja)
WO (1) WO2013084774A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091596A (zh) * 2014-01-20 2014-10-08 腾讯科技(深圳)有限公司 一种乐曲识别方法、系统和装置
JP2017509009A (ja) * 2014-01-07 2017-03-30 クアルコム,インコーポレイテッド オーディオストリームの中の音楽の追跡

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5887446B1 (ja) 2014-07-29 2016-03-16 ヤマハ株式会社 情報管理システム、情報管理方法およびプログラム
JP5871088B1 (ja) 2014-07-29 2016-03-01 ヤマハ株式会社 端末装置、情報提供システム、情報提供方法およびプログラム
JP6258981B2 (ja) * 2014-07-29 2018-01-10 ヤマハ株式会社 プログラムおよび情報処理方法
JP6484958B2 (ja) 2014-08-26 2019-03-20 ヤマハ株式会社 音響処理装置、音響処理方法およびプログラム
CN104166727B (zh) * 2014-08-28 2018-01-02 北京京东尚科信息技术有限公司 一种相似性时间序列搜索的方法和装置
WO2017056885A1 (ja) * 2015-09-30 2017-04-06 ヤマハ株式会社 楽曲処理方法および楽曲処理装置
CN105930522B (zh) * 2016-05-25 2019-04-30 北京小米移动软件有限公司 智能推荐音乐的方法、系统和装置
CN106652997B (zh) * 2016-12-29 2020-07-28 腾讯音乐娱乐(深圳)有限公司 一种音频合成的方法及终端
CN107679196A (zh) * 2017-10-10 2018-02-09 中国移动通信集团公司 一种多媒体识别方法、电子设备及存储介质
SE543760C2 (en) * 2017-12-11 2021-07-13 100 Milligrams Holding Ab System and method for creation and recreation of a music mix, computer program product and computer system
KR102240455B1 (ko) 2019-06-11 2021-04-14 네이버 주식회사 동적 노트 매칭을 위한 전자 장치 및 그의 동작 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356996A (ja) 1999-04-12 2000-12-26 Alpine Electronics Inc 音楽検索システム
JP2001075985A (ja) * 1999-09-03 2001-03-23 Sony Corp 音楽検索装置
JP2002063209A (ja) * 2000-08-22 2002-02-28 Sony Corp 情報処理装置および方法、情報システム、並びに記録媒体
JP2002189482A (ja) * 2000-12-19 2002-07-05 Daiichikosho Co Ltd 情報通信ネットワーク上で運営されている楽曲検索サイトを利用するカラオケ装置用の選曲予約システム
JP2003044082A (ja) * 2001-08-03 2003-02-14 Nippon Telegr & Teleph Corp <Ntt> 類似音楽検索装置ならびにその方法、および類似音楽検索プログラムならびにその記録媒体
JP2005516285A (ja) * 2002-01-24 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 検索された曲目をいっしょに演奏する音楽検索システム
JP2005141281A (ja) * 2003-11-04 2005-06-02 Victor Co Of Japan Ltd コンテンツ検索システム
JP2007164878A (ja) * 2005-12-13 2007-06-28 Sony Corp 楽曲コンテンツ再生装置、楽曲コンテンツ再生方法および楽曲コンテンツ配信再生システム
JP2008015002A (ja) * 2006-07-03 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5874686A (en) * 1995-10-31 1999-02-23 Ghias; Asif U. Apparatus and method for searching a melody
US6188010B1 (en) * 1999-10-29 2001-02-13 Sony Corporation Music search by melody input
US6678680B1 (en) * 2000-01-06 2004-01-13 Mark Woo Music search engine
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6967275B2 (en) * 2002-06-25 2005-11-22 Irobot Corporation Song-matching system and method
CA2563370A1 (en) * 2004-04-19 2005-11-03 Landmark Digital Services Llc Method and system for content sampling and identification
JP5225548B2 (ja) * 2005-03-25 2013-07-03 ソニー株式会社 コンテンツ検索方法、コンテンツリスト検索方法、コンテンツ検索装置、コンテンツリスト検索装置および検索サーバ
JP2007219178A (ja) * 2006-02-16 2007-08-30 Sony Corp 楽曲抽出プログラム、楽曲抽出装置及び楽曲抽出方法
EP2122509A1 (en) * 2007-02-14 2009-11-25 Museami, Inc. Web portal for distributed audio file editing
US8344233B2 (en) * 2008-05-07 2013-01-01 Microsoft Corporation Scalable music recommendation by search
KR101582436B1 (ko) * 2010-05-04 2016-01-04 샤잠 엔터테인먼트 리미티드 미디어의 동기화 방법 및 시스템
US9047371B2 (en) * 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000356996A (ja) 1999-04-12 2000-12-26 Alpine Electronics Inc 音楽検索システム
JP2001075985A (ja) * 1999-09-03 2001-03-23 Sony Corp 音楽検索装置
JP2002063209A (ja) * 2000-08-22 2002-02-28 Sony Corp 情報処理装置および方法、情報システム、並びに記録媒体
JP2002189482A (ja) * 2000-12-19 2002-07-05 Daiichikosho Co Ltd 情報通信ネットワーク上で運営されている楽曲検索サイトを利用するカラオケ装置用の選曲予約システム
JP2003044082A (ja) * 2001-08-03 2003-02-14 Nippon Telegr & Teleph Corp <Ntt> 類似音楽検索装置ならびにその方法、および類似音楽検索プログラムならびにその記録媒体
JP2005516285A (ja) * 2002-01-24 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 検索された曲目をいっしょに演奏する音楽検索システム
JP2005141281A (ja) * 2003-11-04 2005-06-02 Victor Co Of Japan Ltd コンテンツ検索システム
JP2007164878A (ja) * 2005-12-13 2007-06-28 Sony Corp 楽曲コンテンツ再生装置、楽曲コンテンツ再生方法および楽曲コンテンツ配信再生システム
JP2008015002A (ja) * 2006-07-03 2008-01-24 Nippon Telegr & Teleph Corp <Ntt> 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017509009A (ja) * 2014-01-07 2017-03-30 クアルコム,インコーポレイテッド オーディオストリームの中の音楽の追跡
CN104091596A (zh) * 2014-01-20 2014-10-08 腾讯科技(深圳)有限公司 一种乐曲识别方法、系统和装置
CN104091596B (zh) * 2014-01-20 2016-05-04 腾讯科技(深圳)有限公司 一种乐曲识别方法、系统和装置

Also Published As

Publication number Publication date
BR112014013061A2 (pt) 2017-06-13
US20140318348A1 (en) 2014-10-30
JP2013117688A (ja) 2013-06-13
CA2853904A1 (en) 2013-06-13
EP2790184A1 (en) 2014-10-15
CN103988256A (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
WO2013084774A1 (ja) 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム
US10097884B2 (en) Media playback method, client and system
KR100472904B1 (ko) 음악 부분을 자동으로 선별해 저장하는 디지털 음악 재생장치 및 그 방법
CN110675886B (zh) 音频信号处理方法、装置、电子设备及存储介质
WO2012075285A1 (en) Systems and methods of rendering a textual animation
CN110211556B (zh) 音乐文件的处理方法、装置、终端及存储介质
JP2006195385A (ja) 音楽再生装置および音楽再生プログラム
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
CN110136729B (zh) 模型生成方法、音频处理方法、装置及计算机可读存储介质
WO2019162703A1 (en) Method of combining audio signals
CN105828254A (zh) 一种音频调节方法及装置
US8612031B2 (en) Audio player and audio fast-forward playback method capable of high-speed fast-forward playback and allowing recognition of music pieces
US10354630B2 (en) Performance information processing device and method
KR20040077784A (ko) 검색된 음악 부분과 결합하기 위한 음악 검색 시스템
JP2012015809A (ja) 楽曲選択装置、楽曲選択方法および楽曲選択プログラム
JP2010237257A (ja) 評価装置
JP6501344B2 (ja) 聴取者評価を考慮したカラオケ採点システム
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
JP4595948B2 (ja) データ再生装置、データ再生方法およびプログラム
CN113781989A (zh) 一种音频的动画播放、节奏卡点识别方法及相关装置
KR20150018194A (ko) 모창 평가 방법 및 시스템
CN110400559A (zh) 一种音频合成的方法、装置及设备
US11943591B2 (en) System and method for automatic detection of music listening reactions, and mobile device performing the method
JP2016071187A (ja) 音声合成装置、及び音声合成システム
US11740862B1 (en) Method and system for accelerated decomposing of audio data using intermediate data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12855482

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14353844

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2853904

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 2012855482

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112014013061

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112014013061

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20140529