WO2021100493A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2021100493A1
WO2021100493A1 PCT/JP2020/041497 JP2020041497W WO2021100493A1 WO 2021100493 A1 WO2021100493 A1 WO 2021100493A1 JP 2020041497 W JP2020041497 W JP 2020041497W WO 2021100493 A1 WO2021100493 A1 WO 2021100493A1
Authority
WO
WIPO (PCT)
Prior art keywords
music
search
utterance
response
information
Prior art date
Application number
PCT/JP2020/041497
Other languages
English (en)
French (fr)
Inventor
進太郎 増井
直樹 澁谷
東山 恵祐
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US17/756,070 priority Critical patent/US12013893B2/en
Publication of WO2021100493A1 publication Critical patent/WO2021100493A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • G06F16/636Filtering based on additional data, e.g. user or group profiles by using biological or physiological data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • G06F16/639Presentation of query results using playlists
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/04Sound-producing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and in particular, an information processing device and information capable of presenting the reason for the search and the characteristics underlying the music searched in response to a user's request. Regarding processing methods and programs.
  • the music corresponding to the emotional and psychological state of the music to be played which is specified by the user, is registered in advance in association with the identifier of the music and the biometric information or the analysis result of the biometric information.
  • a technique has been proposed in which a music piece is searched for based on the analysis result of biological information and presented (recommended) to a user (see Patent Document 1).
  • the user will play the searched or recommended song without fully understanding the reason or grounds for the search or recommendation, and is fully satisfied with the searched or recommended song. In some cases, it was not possible to play the music in this state.
  • This disclosure was made in view of such a situation, and in particular, it is intended to be able to present the reason and grounds for the search for the music searched in response to the user's request.
  • the information processing device and the program of one aspect of the present disclosure express a search unit that searches for music based on a user's search request, and features of the music searched by the search unit according to the search request.
  • the information processing method of one aspect of the present disclosure searches for a song based on the user's search request, and requests the search result for a search result including information expressing the characteristics of the searched song according to the search request. It is an information processing method including a step generated as a response to.
  • a song is searched based on the user's search request, and a search result including information expressing the characteristics of the searched song according to the search request is used as a response to the search request. Will be generated.
  • the content-based filtering process filters songs based on information preferred by the user, such as artist, song name, lyrics, label, release date, genre, tempo, chord progression, musical instrument used, and movie theme song. It is a process to be estimated).
  • the content-based filtering process matches this condition when the information requested by the user, such as "I like music in the 2000s, I like EDM", is obtained. ) The song is searched.
  • the collaborative filtering type filtering process is a process of searching for a song that is often played by user B who is playing the same song as the playback history of user A.
  • the collaborative filtering type filtering process may be performed. Since the music played by user A is included in the music played by user B, users A and B are considered to have similar tastes. Therefore, the music ccc played by user B is considered to be similar to that of user A. Is searched.
  • the music corresponding to the emotional psychological state for the music to be played which is specified by the user, is previously analyzed with the identifier of the music and the biometric information or the biometric information. From the database registered in association with and, the music is searched based on the analysis result of the biological information and presented to the user.
  • the reason and the ground that the music is searched can be easily recognized by the user.
  • the song desired by the user is searched based on the reason for the search and the characteristics underlying the search. It is possible to feed back the request.
  • the searched music is presented as a jacket J1, and balloons F1 to F6 are presented as characteristic elements of the music.
  • circular balloons F1 to F6 are provided around the jacket J1, and each of them expresses the characteristics of the searched music and its size.
  • the balloon F1 is written as "BPM 120", indicating that the BPM (Beats Per Minute) of the searched song is 120.
  • the balloon F2 is written as "EDM" to indicate that the genre of the searched music is included in EDM (Electronic Dance Music).
  • the balloon F3 is written as "Tropical" to indicate that the genre of the searched song is included in tropical (songs with an atmosphere in the tropics).
  • the balloon F4 is written as "Dance" to indicate that the genre of the searched song is included in the dance music.
  • the balloon F5 is written as "CLUB MUSIC" to indicate that the genre of the searched song is included in the club music.
  • Balloon F6 is written as "clap hands", indicating that the genre of the searched song is included in the genre of the song that is clapping and exciting.
  • the balloon F3 is the largest balloon, it is shown that the largest feature (genre) of the searched song is the feature of the tropical song (song having an atmosphere in the tropical region). ing.
  • the balloons F1 and F2 are the second largest after the balloon F3, it is shown that the second feature of the searched music is that the BPM is 120 and the genre is included in the EDM. There is.
  • the searched songs are included in dance music, club music, and genres that include elements that excite with clapping, as the fourth and subsequent features.
  • the user can recognize the reason for the search and the characteristics that are the basis for the search.
  • the searched song is not the song that you intended, the song that you intended will be searched based on the reason why the song was searched, the characteristics of the song that is the basis, and the size of the song. It is possible to think about various feedbacks.
  • the present disclosure by presenting information that can recognize the reason and the characteristic that is the basis of the searched music, when the intended music is searched, the user is satisfied with the searched music. To be able to play with. In addition, when an unintended song is searched, appropriate feedback can be applied so that the song intended by the user can be searched efficiently.
  • the information processing device of the present disclosure is, for example, a smartphone or a tablet.
  • the information processing device 11 of FIG. 2 is composed of a control unit 31, an input unit 32, an output unit 33, a storage unit 34, a communication unit 35, a drive 36, and a removable storage medium 37, and each other via a bus 38. It is connected and can send and receive data and programs.
  • the control unit 31 is composed of a processor and a memory, and controls the entire operation of the information processing device 11.
  • control unit 31 includes a music agent processing unit 51.
  • the music agent processing unit 51 searches for music content stored in a server or the like on a network (not shown) via the storage unit 34 or the communication unit 35 in response to a user request input via the input unit 32. Then, the music that is the search result is output from the output unit 33.
  • the input unit 32 is composed of an input device such as a keyboard for inputting operation commands by the user and a microphone for inputting by voice, and supplies various input signals to the control unit 31.
  • the output unit 33 includes an audio output unit 121 (FIG. 3) composed of a speaker or the like, an image display unit 122 (FIG. 3) composed of an LCD (Liquid Crystal Display), an organic EL (Organic Electro-Luminescence), or the like, and an LED (Light Emitting Diode). ) Etc., and a vibrating unit 124 (FIG. 3) composed of a vibrator, which is controlled by a control unit 31 to display various search results and search music. Play.
  • an audio output unit 121 (FIG. 3) composed of a speaker or the like
  • an image display unit 122 (FIG. 3) composed of an LCD (Liquid Crystal Display), an organic EL (Organic Electro-Luminescence), or the like, and an LED (Light Emitting Diode). ) Etc.
  • a vibrating unit 124 (FIG. 3) composed of a vibrator, which is controlled by a control unit 31 to display various search results and search music. Play.
  • the storage unit 34 is composed of an HDD (Hard Disk Drive), SSD (Solid State Drive), semiconductor memory, etc., and is controlled by the control unit 31 to write or read various data and programs including content data.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • semiconductor memory etc.
  • the communication unit 35 is controlled by the control unit 31, and is connected to and from various devices via a communication network represented by a LAN (Local Area Network) or the like by wire (or wirelessly (not shown)). Send and receive data and programs.
  • a communication network represented by a LAN (Local Area Network) or the like by wire (or wirelessly (not shown)). Send and receive data and programs.
  • the drive 36 includes a magnetic disk (including a flexible disk), an optical disk (including a CD-ROM (Compact Disc-Read Only Memory), a DVD (Digital Versatile Disc)), an optical magnetic disk (including an MD (Mini Disc)), and an optical disk.
  • a magnetic disk including a flexible disk
  • an optical disk including a CD-ROM (Compact Disc-Read Only Memory), a DVD (Digital Versatile Disc)
  • an optical magnetic disk including an MD (Mini Disc)
  • an optical disk including an MD (Mini Disc)
  • data is read / written to / from a removable storage medium 37 such as a semiconductor memory.
  • the music agent processing unit 51 includes a voice recognition processing unit 151, a semantic analysis processing unit 152, a chat utterance extraction unit 153, a search utterance extraction unit 154, a feedback utterance extraction unit 155, a music chat DB (Database) 156, and a music search engine 157. It is composed of a music DB (Database) 158, a response generation unit 159, a voice synthesis unit 160, and a music reproduction unit 161.
  • the voice recognition processing unit 151 performs voice recognition processing based on the voice picked up by the microphone 102 in the input unit 32, converts the user's utterance into text information, and outputs it to the meaning analysis processing unit 152.
  • the semantic analysis processing unit 152 is based on the text information input by operating the keyboard 101 of the input unit 32 and the text information which is the voice recognition processing result related to the utterance supplied from the voice recognition processing unit 151. For example, the meaning of the utterance content is analyzed by morphological analysis or the like.
  • the semantic analysis processing unit 152 outputs the analysis result of the utterance content to the chat utterance extraction unit 153, the search utterance extraction unit 154, and the feedback utterance extraction unit 155.
  • the text information operated by the user and input from the keyboard 101 will be described as the text information that is the result of the voice recognition processing of the utterance uttered by the user as voice.
  • the text information based on the analysis result of the utterance content shall include the text information input by operating the keyboard 101.
  • the chat utterance extraction unit 153 extracts the chat utterance from the utterance contents recognized from the text information supplied from the semantic analysis processing unit 152, supplies it to the response generation unit 159, and stores it in the music chat DB 156.
  • the search utterance extraction unit 154 extracts the utterance for searching the music from the utterance contents recognized from the text information supplied from the semantic analysis processing unit 152, that is, the search utterance and supplies it to the music search engine 157. ..
  • the feedback utterance extraction unit 155 extracts the feedback utterance for the search result from the utterance contents recognized from the text information supplied from the semantic analysis processing unit 152, and supplies the feedback utterance to the music search engine 157.
  • chat utterances chat utterances, search utterances, and feedback utterances will be explained.
  • the search utterance is the utterance content that instructs the search for the music among the utterance contents. More specifically, the search utterance is an utterance that specifies meta information consisting of detailed information of a song, for example, an artist, a song name, lyrics, a label, a release date, a genre, a tempo, a chord progression, and an instrument used. , It is an utterance instructing a search for a song by designating whether or not it is a movie theme song.
  • the search utterance includes a utterance that indicates the characteristics of the searched song such as a bright song, a fun song, a sad song, and an exciting song.
  • Feedback utterance is a utterance for a search result based on a search utterance.
  • the information that is the difference is specified based on the music that is the search result such as a music with a higher tempo or a music that is more exciting, and the search for the music is further instructed. It is an utterance to make.
  • the feedback utterance includes utterances such as a playback instruction and a stop instruction after the playback is started for the music that is the search result.
  • Chat utterances are utterances related to music search and recommendation among the utterance contents, and are utterances excluding search utterances and feedback utterances.
  • the chat utterance is, for example, the user's memories and impressions related to the music. That is, utterances such as "I often listened to the music of title A” and utterances such as "I like the music of Artist B", which are necessary for the information referred to when searching for the music and for estimating the character of the user. Information.
  • the music chat DB156 stores the chat utterance as a music chat. This music chat is used, for example, when a music is searched by a music search engine 157 based on a search utterance or a feedback utterance.
  • a music search engine 157 searches for a music based on a search utterance or a feedback utterance, the genre or artist of the music that appears in the user's memory story registered as a music chat is selected. Used to narrow down songs.
  • the music search engine 157 is based on the extracted search utterance or the feedback utterance.
  • the target music is searched from the music registered in the music DB 158 and output to the response generation unit 159.
  • the music search engine 157 may search for music by, for example, a content-based filtering process based on a search utterance or a feedback utterance.
  • the music search engine 157 also uses the music chat information registered in the music chat DB 156 together with the search utterance or the feedback utterance to target the music registered in the music DB 158. Search for songs that become.
  • the music search engine 157 learns the user's preference based on the search utterance, the feedback utterance, and the music chat registered in the music chat DB 156, searches for the music that reflects the user's intention, and converts the searched music into the searched music.
  • the music data and the metadata consisting of the detailed information of the music are output to the response generation unit 159.
  • the music search engine 157 searches the searched music so as to further narrow down the music of a specific genre Y even when there is a request such as "exciting music”. By such a search, songs that are close to the user's taste can be searched.
  • the meta information of the music is registered in association with the music data which is the sound source data of the music.
  • the meta information is, for example, information such as an artist, a song name, lyrics, a label, a release date, a genre, a tempo, a chord progression, an instrument used, and a movie name adopted. Therefore, the music search engine 157 searches for a music using the meta information of the music in response to the search utterance or the feedback utterance requested by the user.
  • meta information registered in association with the music data registered in the music DB 158 may be other information.
  • the response generation unit 159 is the music data and metadata of the music searched by the music search engine 157 generated in response to each of the chat utterance, the search utterance, and the feedback utterance analyzed by the semantic analysis processing unit 152, or the metadata. , A response is generated based on the chat utterance and output to the voice synthesis unit 160 and the music reproduction unit 161.
  • the response generation unit 159 responds to the search utterance or the feedback utterance when, for example, there is a search utterance such as "play a lively song” or a feedback utterance such as "play a more up-tempo song”. Based on the music data of the music searched for and the meta information of the music, a list of music and an image expressing the characteristics of the music are generated, and are output to the music reproduction unit 161 together with the music data as a response result.
  • a search utterance such as "play a lively song”
  • a feedback utterance such as "play a more up-tempo song”.
  • the response generation unit 159 voice-synthesizes a response consisting of text information for generating a response utterance to the user's search utterance, such as "I will play your favorite exciting Title X”. Output to unit 160.
  • the response generation unit 159 when the response generation unit 159 receives an operation instruction related to playback such as playing, pausing, returning one song, and advancing one song of the searched song, for example, as a feedback utterance, the response generation unit realizes the corresponding operation.
  • response generation unit 159 is provided with a character generation engine 181.
  • the character generation engine 181 analyzes the user's character based on the chat utterance supplied from the chat utterance extraction unit 153, and reflects the analysis result of the user's character in the response to make changes.
  • the character generation engine 181 generates a character by regarding the user's character as a DJ when, for example, the utterance content of the chat utterance has many phrases such as introduction of music or excitement.
  • the response generation unit 159 when the user's character generated by the character generation engine 181 is a DJ, the response generation unit 159 , The response utterance is converted and output to the speech synthesis unit 160 so that a DJ character such as "Let's get excited with Title X! Appears.
  • the music reproduction unit 161 outputs as voice from the voice output unit 121 composed of speakers based on the music data as a response supplied from the response generation unit 159, and also expresses a list of music and the characteristics of the music.
  • the image is displayed on the image display unit 122.
  • the music reproduction unit 161 causes the light emitting unit 123 to emit light or vibrates the vibrating unit 124 in accordance with the sound output from the audio output unit 121 based on the music data.
  • the voice synthesis unit 160 synthesizes and generates the corresponding voice based on the text information for generating the response utterance, and outputs it as a voice from the voice output unit 121.
  • the music search engine 157 searches for the corresponding song based on the "exciting song”, and the music data of the searched music and the meta information of the music are sent to the response generation unit 159. Output.
  • the response generation unit 159 generates a search result image as shown in the image P11 of FIG. 4 based on the music data of the searched music and the meta information of the music supplied from the music search engine 157, and the music reproduction unit. It is output to 161 and displayed on the image display unit 122.
  • a keyword display field K for displaying keywords extracted from the search utterance is provided in the upper left part, and in the case of FIG. 4, it is described as “exciting song”, and the search keyword based on the search utterance is "excited”. It is shown to be a "song”.
  • the music list TL11 which is a list of songs searched by the search keyword, is displayed, and from the left, a playback display column, a title display column, an artist display column, and a theme display column (Theme) are provided. Whether or not each song searched from above is being played, the title of the song, the artist of the song, and the theme of the song are indicated.
  • a triangular mark is displayed in the playback display column, and in the case of FIG. 4, it is shown that the music of the title AAA1 is being played.
  • an icon representing the characteristics of the searched music is displayed on the right side of the image P11.
  • icons PL11 to PL18 are shown for each playlist of the searched songs.
  • the playlist of songs indicates, for example, a list of songs of the same genre or the same album.
  • the icon PL11 in FIG. 4 is described as "EMD Party Mix”, and indicates that the icon PL 11 represents a playlist composed of music groups classified as “EMD Party Mix”.
  • the icon PL12 is described as "Up Hip Hop Dance", indicating that the icon PL 12 represents a playlist consisting of a group of songs classified as “Up Hip Hop Dance”.
  • the icon PL13 is described as "Latin Dance", indicating that the icon PL13 represents a playlist consisting of a group of songs classified as “Latin Dance”.
  • the icon PL14 is described as "Sqing jazz Dance", and the icon PL12 indicates that the icon PL12 represents a playlist composed of music groups classified as “Sqing jazz Dance”.
  • the icon PL15 is described as "J-pop karaoke Best", indicating that the icon PL15 represents a playlist composed of music groups classified as "J-pop karaoke Best”.
  • the icon PL16 is written as "80's All day, all night", indicating that the icon PL16 represents a playlist composed of music groups classified into "80's All day, all night”.
  • the icon PL17 is written as "Groovy 2000 in US", indicating that the icon PL 17 represents a playlist consisting of a group of songs classified as "Groovy 2000 in US”.
  • the icon PL18 is written as "Pop's", indicating that the icon PL18 represents a playlist consisting of a group of songs classified as "Pop's”.
  • the icons PL11 to PL18 can be selected by operating a pointer or the like, and when any of the icons is selected, the display on the right side of the image P11 corresponds to the corresponding playlist. It changes to a playlist selection image.
  • the balloon F11 is described as "BPM 120 to 150", indicating that the BPM, which is one of the characteristics of the searched music, is 120 to 150.
  • the balloon F12 is written as "DANCE", indicating that the genre that is one of the characteristics of the searched music is DANCE.
  • the balloon F13 is written as "CLUB MUSIC", indicating that the genre that is one of the characteristics of the searched music is CLUB MUSIC.
  • each of the balloons F11 to F13 expresses the characteristics by the size of the balloon.
  • the balloon F11 is the largest and the balloons F12 and F13 are smaller than the balloon F11.
  • the most characteristic feature of the searched music group is that the BPM is 120 to 150, and the feature that includes "DANCE” and "CLUB MUSIC" as genres is the second largest.
  • the size of the feature represented by the balloon may be determined, for example, by the ratio of the number of songs including the feature among a plurality of music groups that are search results.
  • the radius of the balloon expressing the first feature when the number of searched songs is 100, 90 songs have the first feature, and 50 songs have the second feature, the radius of the balloon expressing the first feature.
  • the radius of the balloon expressing the second feature may be 5R / 9.
  • the size of the balloon that expresses the characteristics in this way makes it possible to recognize the proportion of the searched songs that have the characteristics, and how many songs are the total number of searched songs? It is possible to visually and intuitively recognize how many features are provided.
  • the feature expressed by the balloon only the balloon having a predetermined radius or more may be used. By doing so, a feature having a size that is insufficient to be recognized as a feature is not displayed, and only a large feature can be easily recognized.
  • the size of the feature may have a shape other than a balloon, for example, a square shape or a star shape, or the same size and color.
  • the size of the feature may be expressed by the density of the color.
  • an operation display column C11 is provided at the lower part of the image P11, and a button operated when returning one song to be played (returning one song upward in the figure in the music list TL11) from the left in the figure.
  • B13 a button B11 operated when instructing playback, and a button B12 operated when advancing one song to be played (advancing one song downward in the figure in the music list TL11) are provided.
  • the button B11 for instructing the reproduction is displayed by switching to the stop button, functions as a stop button while the music is being reproduced, and functions as a playback button again when the reproduction of the music is stopped.
  • buttons B11 to B13 are operated while any of the songs shown in the song list TL11 is selected, one song is returned to the selected song in response to the operated button. , Play (stop), or advance one song.
  • the song that you intended is not searched, you can intuitively recognize what kind of features the searched song group has and what kind of playlist the searched song group is. After that, it becomes possible to recognize the difference from the music group intended by oneself based on the characteristics, and the further request necessary for searching the music intended by oneself, that is, the feedback becomes the difference. By designating the music as having characteristics, it is possible to easily search for the music intended by oneself.
  • the genre X of the music intended by the user can be specified as feedback. You can easily search for the music you intended.
  • the music search engine 157 when the icon PL11 surrounded by the dotted line indicated by "EDM" in FIG. 4 is selected, the music search engine 157 generates meta information corresponding to the music data belonging to the selected playlist in the response generation unit 159. Output to.
  • the response generation unit 159 generates, for example, a playlist selection image as shown in the image P31 of FIG. 5 based on the meta information corresponding to the music data belonging to the selected playlist, and outputs the playlist selection image to the music reproduction unit 161. Then, it is displayed on the image display unit 122.
  • the music list TL11 and the operation display field C11 in the figure are the same as the image P11 of FIG. 4, so the description thereof will be omitted.
  • the display in the upper right part of the image P31 of FIG. 5 is represented by the size of each feature as a balloon in order to represent the features of the music belonging to the selected playlist.
  • balloons F21 to F27 are displayed.
  • the balloon F21 is described as "BPM 120 to 150", indicating that BPM (Beats Per Minute), which is one of the characteristics of the music included in the selected playlist, is 120 to 150. ..
  • the balloon F22 is written as "EDM", indicating that the genre, which is one of the characteristics of the songs included in the selected playlist, is EDM (Electronic Dance Music).
  • the balloon F23 is described as "Tropical", indicating that the genre, which is one of the characteristics of the songs included in the selected playlist, is tropical (songs with an atmosphere in the tropics).
  • the balloon F24 is written as "DANCE", indicating that the genre that is one of the characteristics of the songs included in the selected playlist is dance music.
  • the balloon F25 is written as "CLUB MUSIC", indicating that the genre that is one of the characteristics of the songs included in the selected playlist is club music.
  • the balloon F26 is written as "clap hands", indicating that the genre, which is one of the characteristics of the songs included in the selected playlist, is the clap hands (clapping hands) song. There is.
  • the balloon F27 is described as "Four on the floor", indicating that the genre that is one of the characteristics of the songs included in the selected playlist is Four on the floor.
  • the biggest feature of the songs included in the selected playlist is that the BPM is 120 to 150.
  • the balloon F22 is the second largest after the balloon F21, the second feature of the music included in the selected playlist is that the genre is EDM.
  • the songs included in the selected playlist are shown to include dance music, club music, clap hands (clapping and exciting) songs, and Four on the floor as the third and subsequent features. There is.
  • each element included in the selected playlist that expresses the characteristics of the music is indicated by a balloon, and the size of the balloon is used to express the size of the characteristics. It is possible to recognize the characteristics of the songs included in the playlist.
  • the playlist consisting of the searched music group is a playlist consisting of what kind of music group has what characteristics.
  • the genre X that was intended by oneself is specified as feedback, and the song is intended by oneself. It is possible to make it easier to search for the music that was being used.
  • the music search engine 157 responds with meta information corresponding to the music data instructed to be played. Output to the generation unit 159.
  • the response generation unit 159 generates, for example, a music selection image as shown in the image P51 of FIG. 6 based on the music data belonging to the selected music and the corresponding meta information, and outputs the music selection image to the music reproduction unit 161. It is displayed on the image display unit 122.
  • a triangular mark indicates that the music whose title is "AAA1" is selected from the music list TL11.
  • circular balloons F31 to F36 are provided around the jacket J11, each of which expresses the characteristics of the music instructed to be played and its size.
  • the size of the feature represented by the size of the balloon referred to here may be, for example, a ratio of the length of the reproduction time in a state of having a predetermined feature to the reproduction time.
  • the part of the tropical tune is when the length of the playback time is half of the whole, the radius of the balloon expressing the feature indicating that the music is tropical may be set to the radius R / 2.
  • the balloon F31 is written as "BPM 120", indicating that the BPM (Beats Per Minute), which is one of the characteristics of the music instructed to be played, is 120.
  • the balloon F32 is described as "EDM”, indicating that the genre, which is one of the characteristics of the music for which playback is instructed, is EDM (Electronic Dance Music).
  • the balloon F33 is written as "Tropical", indicating that one of the characteristics of the music instructed to be played is a music having an atmosphere in the tropics.
  • the balloon F34 is written as "Dance", indicating that one of the characteristics of the music instructed to play is dance music.
  • the balloon F35 is written as "CLUB MUSIC", indicating that one of the characteristics of the music instructed to play is club music.
  • the balloon F36 is written as "clap hands", indicating that one of the characteristics of the song for which playback is instructed is a song that is clapping and exciting.
  • the balloon F33 is the largest balloon, it is shown that the most important feature of the music instructed to play is the tropical music (the music with the atmosphere in the tropics).
  • the second feature of the music instructed to play is that the BPM is 120 and the genre is EDM.
  • the characteristics of the fourth and subsequent sizes of the music instructed to be played include dance music, club music, and elements that are clapping and exciting.
  • image P51 by presenting the characteristics of the music instructed to be played and its size, the user can determine the reason and the characteristics on which the music instructed to be played is searched. It becomes possible to recognize.
  • the searched song is not the song intended by oneself, feedback that the song intended by oneself is searched based on the characteristics of the song that is the reason and basis for the search and its size. It becomes possible to think about.
  • the searched music can be played in a convincing state.
  • appropriate feedback can be applied so that the song intended by the user can be searched efficiently.
  • a time-series image LV in which the output level of the music instructed to be played is shown in a bar graph in time series is displayed.
  • the timing currently being played is indicated by an arrow, and as the music is played, it moves to the right in the figure.
  • time-series image LV the information that is the basis of the "exciting song" to be searched is shown.
  • the text information TX31 stating "the beat becomes violent and excites” is displayed.
  • the beat becomes violent and exciting is displayed.
  • the text information TX32 stating "Female vocal raises the key. This is also exciting” is displayed, and the feature period from time t3 to t4 of the song being played is displayed. Is shown to be a period of excitement when female vocals raise the key.
  • the mark M11 indicating the clapping is indicated, and it is shown that the clapping is performed at the time t5 to excite the person.
  • the light emitting unit 123 When the music is played, the light emitting unit 123 is controlled to emit light according to the tempo during the feature period in which the text information TX31 and TX32 are indicated and the feature period in which the marks M11 and M12 are indicated. It may be made to vibrate, or the vibrating part 124 may be controlled to vibrate in accordance with the tempo.
  • the response voice such as "Is the melody here good?" Is output during the feature period during playback. Good.
  • the lyrics may be displayed during the feature period in which the lyrics "Sakura” are sung.
  • the search utterance is "fashionable song play”
  • the text information such as “the chord progression here is fashionable” may be displayed as text information TX31, TX32 in the feature period.
  • the light emitting unit 123 may be lit and the vibrating unit 124 may be vibrated in accordance with the beat during the feature period.
  • the feature period which is the timing at which the features that are the basis and the reason for the search appear, is presented in time series. Therefore, it is possible to make the user easily recognize the reason and grounds for searching the music.
  • the searched song is not the song that you intended, the song that you intended will be searched based on the characteristics of the song that is the reason and basis for the search and the size of the characteristics. It is possible to think about various feedbacks.
  • step S11 the character generation engine 181 of the response generation unit 159 accesses the music chat DB 156 and extracts the chat utterance registered as the music chat for estimating the character of the user.
  • step S12 the character generation engine 181 estimates the character of the user based on the chat utterance as the extracted music chat.
  • the character generation engine 181 analyzes the chat utterance as the extracted music chat, collates it with the technical terms of each occupation based on frequently used phrases and keywords, and determines the corresponding occupation. Estimate as a character.
  • step S13 the character generation engine 181 sets the estimated character as the user's character.
  • step S14 the character generation engine 181 determines whether or not the end of the character generation process is instructed, and if the end is not instructed, the process proceeds to step S15.
  • step S15 the character generation engine 181 accesses the music chat DB 156, determines whether or not a change has occurred due to the registration of a new chat utterance in the music chat DB 156, and if there is no change, the process is performed. Return to step S14.
  • step S15 if a change has occurred due to the registration of a new chat utterance in the music chat DB156, the process returns to step S11.
  • steps S11 to S14 again estimates the user's character and sets the estimated character. To.
  • the estimation and setting of the user's character is repeated every time the user's chat utterance is newly registered in the music chat DB 156.
  • step S14 the process ends.
  • the user's character is estimated from the user's chat utterance registered in the music chat DB156, so that the user's character can be estimated appropriately.
  • step S31 the voice recognition processing unit 151 and the meaning analysis processing unit 152 determine whether or not there is any input (utterance) from the user by operating the keyboard 101 or detecting the voice with the microphone 102.
  • step S31 If it is considered that there is no user input in step S31, the processing of steps S32 to S44 is skipped.
  • step S31 if it is considered that there is an input (utterance) from the user, the process proceeds to step S32.
  • step S32 the voice recognition processing unit 151 determines whether or not there is a voice input, that is, an input by utterance, by detecting the voice from the microphone 102.
  • step S32 If there is a voice input, that is, an utterance in step S32, the process proceeds to step S33.
  • step S33 the voice recognition processing unit 151 executes the voice recognition processing, analyzes the input utterance, and outputs the recognition result composed of the text information to the semantic analysis processing unit 152.
  • step S32 if it is not voice input, it is text information input by operating the keyboard 101, so the process of step S32 is skipped.
  • step S34 the semantic analysis processing unit 152 either makes an utterance consisting of text information input by operating the keyboard 101, or an utterance consisting of text information which is the voice recognition result of the voice recognition processing unit 151. Based on this, the meaning of the utterance is analyzed, and the analysis result is output to the chat utterance extraction unit 153, the search utterance extraction unit 154, and the feedback utterance extraction unit 155.
  • step S35 the search utterance extraction unit 154 determines whether or not the utterance is a search utterance based on the analysis result of the utterance supplied from the semantic analysis processing unit 152.
  • step S35 If the utterance is a search utterance in step S35, the process proceeds to step S36.
  • step S36 the search utterance extraction unit 154 supplies the text information composed of the search utterances to the music search engine 157.
  • the music search engine 157 searches for the music registered in the music DB 158 based on the information of the chat utterance registered in the music chat DB 156 and the supplied search utterance, and the music that becomes the search result.
  • the data and the meta information of the music are supplied to the response generation unit 159, and the process proceeds to step S42.
  • the music to be searched based on the information of the chat utterance registered in the music chat DB 156 and the supplied search utterance. Is searched.
  • step S35 determines whether the utterance is a search utterance. If it is determined in step S35 that the utterance is not a search utterance, the process proceeds to step S37.
  • step S37 the feedback utterance extraction unit 155 determines whether or not the utterance is a feedback utterance based on the analysis result of the utterance supplied from the semantic analysis processing unit 152.
  • step S37 If the feedback utterance is in step S37, the process proceeds to step S38.
  • step S38 the music search engine 157 learns the user's preference based on the feedback utterance.
  • the feedback utterance is an utterance that is made when the search result is not the search result intended by the user, or a utterance that further narrows down the search result, so that the user's preference appears.
  • the music search engine 157 learns the user's preference based on the content of the feedback utterance.
  • the music search engine 157 uses the music that is instructed to be played, the music that is not instructed to be played, the music that is instructed to be played but is instructed to stop immediately, and the like in the instruction to play the music that is the search result. Learn tastes.
  • step S39 the music search engine 157 determines whether or not the content of the feedback utterance is to select a playlist or a music from the search result.
  • step S39 if the content of the feedback utterance does not select a playlist or a song from the search results, the process proceeds to step S40.
  • step S40 the music search engine 157 searches for the music registered in the music DB 158 based on the information of the chat utterance registered in the music chat DB 156 and the feedback utterance, and the music data as the search result. And meta information are supplied to the response generation unit 159, and the process proceeds to step S42.
  • the feedback utterance is an utterance that is made when the search result is not the search result intended by the user, or an utterance that further narrows down the search result. Therefore, the music search engine 157 provides feedback. The music is searched based on the utterance, and the music data and the meta information as the search result are supplied to the response generation unit 159.
  • step S39 if the content of the feedback utterance is to select a playlist or a song from the search results, the process proceeds to step S41.
  • step S41 the music search engine 157 generates the music data and the meta information of the music group belonging to the playlist selected from the search results, or the music data of the selected music and the meta information of the music in the response generation unit 159. Supply to.
  • step S37 if it is determined that the utterance is not feedback utterance, the process proceeds to step S42.
  • step S42 if the utterance is neither a search utterance nor a feedback utterance from the analysis result supplied from the semantic analysis processing unit 152, the chat utterance extraction unit 153 regards the utterance as a chat utterance, and sets the utterance in the music chat DB156. It is registered and output to the response generation unit 159.
  • step S43 the response generation unit 159 executes the response generation process, and each of the search result supplied from the music search engine 157, the selection result of the playlist or the music from the search result, the instruction related to the reproduction, and the chat utterance. Generate a response to.
  • step S44 the response generation unit 159 adds and converts the user character set by the character generation process to the generated response.
  • step S45 the response generation unit 159 outputs the response result to the voice synthesis unit 160 and the music reproduction unit 161 and outputs the response result as voice from the voice output unit 121, as well as the search result image, the playlist image, and the music selection. It is displayed as an image on the image display unit 122.
  • the music reproduction unit 161 controls the light emitting unit 123 at the timing when the characteristics of the music appear when the music is being reproduced, and causes the music to emit light according to the tempo of the music.
  • the vibrating unit 124 may be controlled to vibrate in accordance with the tempo of the music.
  • step S46 the control unit 31 determines whether or not the end of the process is instructed, and if the end is not instructed, the process returns to step S31. That is, the processes of steps S31 to S46 are repeated until the end is instructed.
  • step S46 when the end of the process is instructed, the process ends.
  • the music can be searched and presented by the operation of the keyboard 101 or the search utterance for specifying the music to be searched by the user by voice input from the microphone 102, and the music can be played. It becomes.
  • the music search engine 157 learns the user's preference based on the feedback utterance, so that the learning is repeated every time feedback is received, so that the music search accuracy can be improved. It becomes.
  • the search result when the search result is presented, the user's character is added and presented, so that more feedback from the user can be obtained. Therefore, the music is searched by the feedback from more users. Therefore, it is possible to improve the search accuracy of the music.
  • step S81 the response generation unit 159 determines whether or not the response to be generated corresponds to the search result based on the search utterance or the feedback utterance supplied from the music search engine 157.
  • step S81 if the response to be generated corresponds to the search result based on the search utterance or the feedback utterance supplied from the music search engine 157, the process proceeds to step S82.
  • step S82 the response generation unit 159 generates, for example, the search result image described with reference to FIG. 4 based on the search results based on the search utterance and the feedback utterance supplied by the music search engine 157.
  • step S81 if the response to be generated does not correspond to the search result based on the search utterance or the feedback utterance supplied from the music search engine 157, the process proceeds to step S83.
  • step S83 the response generation unit 159 determines whether or not the response to be generated is a feedback utterance and is for an utterance that selects an iconized playlist in the search result image.
  • step S83 if the response to be generated is a feedback utterance and is for an utterance that selects an iconized playlist in the search result image, the process proceeds to step S84.
  • step S84 the response generation unit 159 generates, for example, the playlist selection image described with reference to FIG. 5 based on the playlist corresponding to the icon selected in the search result image.
  • step S83 if the response to be generated is a feedback utterance and is not for a playlist-selecting utterance, the process proceeds to step S85.
  • step S85 the response generation unit 159 determines whether or not the response to be generated is a feedback utterance and is for an utterance that selects any of the songs in the music list TL11.
  • step S85 If the response to be generated in step S85 is a feedback utterance and is for an utterance that selects any of the songs in the music list TL11, the process proceeds to step S86.
  • step S86 the response generation unit 159 generates, for example, a music selection image described with reference to FIG. 6 based on the information of the music selected in the music list TL11.
  • step S85 if the response to be generated is a feedback utterance and is not for an utterance that selects a song, the process proceeds to step S87.
  • step S87 the response generation unit 159 determines whether or not the response to be generated is an instruction related to the reproduction of the music.
  • step S87 If the response to be generated in step S87 is an instruction related to the reproduction of a musical piece, the process proceeds to step S88.
  • step S88 the response generation unit 159 realizes, for example, an operation corresponding to the buttons B11 to B13 in the operation display column C11 described with reference to FIGS. 4 to 6.
  • step S87 If the response to be generated in step S87 is not an instruction related to the reproduction of the musical piece, the process proceeds to step S89.
  • step S89 the response generation unit 159 regards the utterance as a chat utterance and generates a response according to the meaning of the chat utterance.
  • the response according to the utterance content is generated, and the search result image, the playlist selection image, and the music selection image are displayed, so that the reason for the search and the characteristics of the music that is the basis for the search can be obtained.
  • each playlist, and each song since it is possible to recognize the characteristics of all songs in the search results, each playlist, and each song, the songs intended by the user can be obtained in all songs, playlists, or songs in the search results. It becomes possible to recognize whether or not the search is properly performed.
  • the music selection image by displaying the music selection image, it is possible to recognize at what timing in the music and what characteristics the music has, and for what reason and grounds the music is searched. It becomes possible for the user to recognize whether or not.
  • Example of execution by software By the way, the series of processes described above can be executed by hardware, but can also be executed by software.
  • the programs that make up the software can execute various functions by installing a computer embedded in dedicated hardware or various programs. It is installed from a recording medium on a possible, eg, general purpose computer.
  • FIG. 10 shows a configuration example of a general-purpose computer.
  • This personal computer has a built-in CPU (Central Processing Unit) 1001.
  • the input / output interface 1005 is connected to the CPU 1001 via the bus 1004.
  • a ROM (Read Only Memory) 1002 and a RAM (Random Access Memory) 1003 are connected to the bus 1004.
  • the input / output interface 1005 includes an input unit 1006 composed of input devices such as a keyboard and a mouse for which a user inputs operation commands, an output unit 1007 for outputting a processing operation screen and an image of processing results to a display device, and programs and various data.
  • a storage unit 1008 consisting of a hard disk drive or the like for storing, a LAN (Local Area Network) adapter or the like, and a communication unit 1009 for executing communication processing via a network represented by the Internet are connected.
  • magnetic disks including flexible disks
  • optical disks including CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc)
  • optical magnetic disks including MD (Mini Disc)
  • a drive 1010 that reads and writes data to and from a removable storage medium 1011 such as a memory is connected.
  • the CPU 1001 is read from a program stored in the ROM 1002 or a removable storage medium 1011 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, installed in the storage unit 1008, and loaded from the storage unit 1008 into the RAM 1003. Various processes are executed according to the program.
  • the RAM 1003 also appropriately stores data and the like necessary for the CPU 1001 to execute various processes.
  • the CPU 1001 loads the program stored in the storage unit 1008 into the RAM 1003 via the input / output interface 1005 and the bus 1004 and executes the above-described series. Is processed.
  • the program executed by the computer (CPU1001) can be recorded and provided on the removable storage medium 1011 as a package medium or the like, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 1008 via the input / output interface 1005 by mounting the removable storage medium 1011 in the drive 1010. Further, the program can be received by the communication unit 1009 and installed in the storage unit 1008 via a wired or wireless transmission medium. In addition, the program can be pre-installed in the ROM 1002 or the storage unit 1008.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • the present disclosure can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and jointly processed.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • a search unit that searches for songs based on the user's search request
  • An information processing device including a response generation unit that generates a search result including information expressing a feature corresponding to the search request of the music searched by the search unit as a response to the search request.
  • the search unit searches for the music based on the search utterance which is the utterance related to the search request.
  • the search unit searches for the music based on a feedback utterance which is a utterance related to a search request made to the search result based on the search utterance.
  • the information processing device wherein the search unit learns the user's preference related to the search for the music based on the feedback utterance.
  • the response generation unit A character estimation unit that estimates the character of the user based on the chat utterance, which is an utterance consisting of chat including the search utterance and the feedback utterance, is further included.
  • the information processing apparatus according to ⁇ 3>, which converts the generated response according to the character estimated by the character estimation unit.
  • the search unit outputs the music data of the searched music and the meta information of the music as the search result.
  • the response generation unit requests the search result image, which is an image including the music data included in the search result and information expressing the characteristics of the music to be the search result based on the meta information.
  • the information processing apparatus according to any one of ⁇ 1> to ⁇ 5>, which is generated as a response to.
  • ⁇ 8> The information processing according to ⁇ 7>, wherein the response generation unit generates the search result image expressing the characteristics of the music to be the search result by the size of the corresponding balloon as a response to the search request. apparatus.
  • the response generation unit displays a search result image in which the characteristics of the music to be the search result are expressed by a balloon having a size defined by the ratio of the number of music having the characteristics to the total number of searched music.
  • the information processing apparatus according to ⁇ 8>, which is generated as a response to the search request.
  • the response generation unit generates a playlist selection image representing the characteristics of a song belonging to the playlist corresponding to the selected icon among the icons as a response to the search request according to ⁇ 8>.
  • Information processing device ⁇ 11>
  • the response generation unit generates the playlist selection image, which is an image expressing the characteristics of the music to be the search result by the size of the corresponding balloon, as a response to the search request.
  • the information processing device described. ⁇ 12> The response generation unit Based on the music data and the meta information included in the search result, a music list which is a list of the music to be the search result is further generated. When any of the songs in the music list is selected and playback is instructed, the sound of the music data of the music instructed to be played is played and the playback is performed based on the music data and the meta information.
  • the information processing apparatus according to ⁇ 6>, wherein a music selection image, which is an image expressing the characteristics of the music instructed by, is generated as a response to the search request.
  • the response generation unit Based on the meta information, the response generation unit generates a music selection image expressing the characteristics of the music instructed to be played by the size of the corresponding balloon as a response to the search request.
  • the information processing apparatus serves as a basis for searching the characteristics of the music for which the reproduction is instructed based on the music data and the meta information in chronological order when the music is reproduced.
  • the information processing apparatus which generates the music selection image including a time-series image for displaying information as a response to the search request.
  • the information processing device according to ⁇ 14>, wherein in the time-series image, the information on which the search is based is displayed by text or a mark.
  • the response generation unit expresses the characteristics of the music for which the reproduction is instructed based on the music data and the meta information in chronological order by light emission or vibration when the music is reproduced.
  • the information processing apparatus which is generated as a response to the search request.
  • the meta information is at least one of the artist, song name, lyrics, label, release date, genre, tempo, chord progression, instrument used, and information indicating whether or not the song is a movie theme song.
  • the information processing apparatus according to ⁇ 6>.
  • ⁇ 18> Search for songs based on the user's search request, An information processing method including a step of generating a search result including information expressing a feature corresponding to the search request of the searched music as a response to the search request.
  • a search unit that searches for songs based on the user's search request
  • a program that makes a computer function as a response generation unit that generates a search result including information expressing features corresponding to the search request of the music searched by the search unit as a response to the search request.
  • 11 Information processing device 31 Control unit, 32 Input unit, 33 Output unit, 51 Music agent processing unit, 101 Keyboard, 102 Microphone, 121 Audio output unit, 122 Image display unit, 123 Light emitting unit, 124 Vibration unit, 151 Voice recognition Processing unit, 152 Semantic analysis processing unit, 153 Chat utterance extraction unit, 154 Search utterance extraction unit, 155 Feedback utterance extraction unit, 156 Music chat DB, 157 Music search engine, 158 Music DB, 159 Response generation unit, 160 Speech synthesis unit , 161 Music playback section, 181 Character generation engine

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本開示は、ユーザの要求に応じて検索された楽曲の、検索された理由や根拠となる特徴を提示することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。 ユーザの検索要求に基づいて、楽曲を検索し、検索された楽曲の、検索要求に応じた特徴を、特徴の種別毎のバルーンの大きさで表現する情報を検索要求に対する応答として生成する。楽曲エージェント装置に適用することができる。

Description

情報処理装置および情報処理方法、並びにプログラム
 本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、ユーザの要求に応じて検索された楽曲の、検索された理由や根拠となる特徴を提示できるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
 ストレージの大容量化やネットワークの普及により、スマートフォン等に代表される端末装置を用いた膨大の量の楽曲(コンテンツ)の再生が可能になった。
 ところが、情報過多になったためユーザは、既知の楽曲(コンテンツ)を再生させようとしても、見つけ出すことが難しい状況になっている。
 また、ユーザは、未知の楽曲については、検索さえもできないため、再生可能な楽曲が大量にあっても十分に生かしきることができない。
 そこで、ユーザの要求に応じて、コンテンツベース型フィルタリング処理や、協調フィルタリング型フィルタリング処理により、楽曲を検索し、推薦する技術が提案されている。
 さらに、楽曲の再生に先立ち、ユーザにより指定された、再生したい楽曲に対する感情心理状態に対応する楽曲を、予め楽曲の識別子と生体情報、または、生体情報の解析結果とが対応付けて登録されているデータベースから、生体情報の解析結果に基づいて楽曲を検索してユーザに提示(推薦)する技術が提案されている(特許文献1参照)。
特開2004-246535号公報
 しかしながら、コンテンツベース型フィルタリング処理、協調フィルタリング型フィルタリング処理、および特許文献1に記載の技術を用いた処理では、いずれにおいても楽曲が検索された根拠や理由がユーザに提示されていない。
 このため、ユーザは、検索や推薦がなされた理由や根拠を、よく理解できない状態で、検索や推薦がなされた楽曲を再生することになるため、検索や推薦された楽曲に対して十分に納得した状態で楽曲を再生させることができないことがあった。
 本開示は、このような状況に鑑みてなされたものであり、特に、ユーザの要求に応じて検索された楽曲について、検索された理由や根拠を提示できるようにするものである。
 本開示の一側面の情報処理装置、およびプログラムは、ユーザの検索要求に基づいて、楽曲を検索する検索部と、前記検索部により検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果を、前記検索要求に対する応答として生成する応答生成部とを含む情報処理装置、およびプログラムである。
 本開示の一側面の情報処理方法は、ユーザの検索要求に基づいて、楽曲を検索し、検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果を、前記検索要求に対する応答として生成するステップを含む情報処理方法である。
 本開示の一側面においては、ユーザの検索要求に基づいて、楽曲が検索され、検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果が、前記検索要求に対する応答として生成される。
本開示の概要を説明する図である。 本開示の情報処理装置のハードウェアの構成例を説明する図である。 楽曲エージェント処理部の構成例を説明する図である。 検索結果画像を説明する図である。 プレイリスト選択画像を説明する図である。 楽曲選択画像を説明する図である。 キャラクタ生成処理を説明するフローチャートである。 楽曲エージェント処理を説明するフローチャートである。 応答生成処理を説明するフローチャートである。 汎用のパーソナルコンピュータの構成例を説明する図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.本開示の概要
 2.好適な実施の形態
 3.ソフトウェアにより実行させる例
 <<1.本開示の概要>>
 本開示は、ユーザの要求に応じて検索された楽曲に対する理由や根拠となる特徴を提示できるようにするものである。
 まず、本開示の概要について説明する。
 これまで、楽曲の検索にあたっては、コンテンツベース型フィルタリング処理や、協調フィルタリング型フィルタリング処理により、楽曲が検索されている。
 ここで、コンテンツベース型フィルタリング処理とは、アーティスト、楽曲名、歌詞、レーベル、発売時期、ジャンル、テンポ、コード進行、利用楽器、映画主題歌曲等のユーザが好む情報に基づいて、楽曲をフィルタリング(推定)する処理である。
 より具体的には、コンテンツベース型フィルタリング処理では、例えば、「2000年代の楽曲が好き、EDMが好き」といったユーザが好む、ユーザの要求となる情報が得られるとき、この条件にマッチする(適合する)楽曲が検索される。
 また、協調フィルタリング型フィルタリング処理は、ユーザAの再生履歴と同じ楽曲を再生しているユーザBがよく再生している楽曲を検索する処理である。
 より具体的には、例えば、ユーザAが、楽曲aaa、楽曲bbbを再生しており、ユーザBが、楽曲aaa、楽曲bbb、および楽曲cccを再生している場合、協調フィルタリング型フィルタリング処理では、ユーザAが再生する楽曲が、ユーザBが再生する楽曲に包含されているため、ユーザA,Bは、嗜好が近いとみなされるので、ユーザAに対して、ユーザBが再生している楽曲cccが検索される。
 さらに、特許文献1の技術においては、楽曲の再生に先立ち、ユーザにより指定された、再生したい楽曲に対する感情心理状態に対応する楽曲を、予め楽曲の識別子と生体情報、または、生体情報の解析結果とが対応付けて登録されているデータベースから、生体情報の解析結果に基づいて楽曲が検索されてユーザに提示される。
 しかしながら、いずれにおいても検索された楽曲が、どのような理由で検索されたのかがユーザに提示されない。
 このため、例えば、ユーザが再生したいと意図していた楽曲が検索されなかった場合、検索の理由や根拠がよく理解できないので、ユーザが再生したいと意図した楽曲をさらに検索させるために、どのようなフィードバックとなる要求をすればよいのかを認識することができない。
 結果として、ユーザは、自らが再生したいと意図した楽曲を、さらに検索させるためのフィードバックを適切にすることができないので、効率よく自らが再生したいと意図した楽曲を検索させることができない。
 そこで、本開示においては、楽曲が検索された理由や根拠となる特徴を提示することにより、楽曲が検索された理由や根拠をユーザに認識し易くさせる。
 これにより、ユーザは再生したいと意図していた楽曲が検索されなかった場合でも、検索された楽曲の、検索の理由や根拠となる特徴に基づいて、自らが希望する楽曲が検索されるような要求をフィードバックすることが可能となる。
 結果として、ユーザが再生したいと意図した楽曲を効率よく検索させるようにすることが可能となる。
 より具体的には、本開示においては、例えば、ユーザの要求が「盛り上がる曲」である場合、検索される楽曲を、図1で示されるように提示する。
 図1においては、検索された楽曲が、ジャケットJ1として提示されると共に、楽曲の特徴となる要素としてバルーンF1乃至F6が提示されている。
 ジャケットJ1においては、上部に"Title A"と表記されて、検索された楽曲のタイトルが「Title A」であることが表され、下部に"Artist B"と表記されて、検索された楽曲のアーティストが「Artist B」であることが表されている。
 また、ジャケットJ1の周囲には、円形のバルーンF1乃至F6が設けられており、それぞれが、検索された楽曲の特徴と、その大きさを表現している。
 すなわち、バルーンF1には、"BPM 120"と表記されて、検索された楽曲のBPM(Beats Per Minute)が120であることが表されている。
 また、バルーンF2には、"EDM"と表記されて、検索された楽曲のジャンルがEDM(Electronic Dance Music)に含まれることが表されている。
 さらに、バルーンF3には、"Tropical"と表記されて、検索された楽曲のジャンルがトロピカル(熱帯地域における雰囲気を持つ楽曲)に含まれることが表されている。
 また、バルーンF4には、"Dance"と表記されて、検索された楽曲のジャンルがダンスミュージックに含まれることが表されている。
 さらに、バルーンF5には、"CLUB MUSIC"と表記されて、検索された楽曲のジャンルがクラブミュージックに含まれることが表されている。
 バルーンF6には、"clap hands"と表記されて、検索された楽曲のジャンルが手拍子を入れて盛り上がる曲のジャンルに含まれることが表されている。
 このように1つの楽曲でも、複数のジャンルに属することがある。
 しかしながら、1つの楽曲が、複数のジャンルに属する場合でも、特定のジャンルの特徴が多く、他の特定のジャンルの特徴が少ないといったことがあり、複数のジャンルに属していても、それぞれジャンルが持つ特徴を均一に備えていないことが多い。
 そこで、本開示においては、複数のジャンルに属している場合でも、それぞれのジャンルの特徴の多少、または大小をバルーンの大きさで表現することにより、検索された楽曲どのような特徴を備えた楽曲であるのかを提示する。
 すなわち、図1の場合、バルーンF3が最も大きなバルーンであるので、検索された楽曲の最も大きな特徴(ジャンル)が、トロピカルな楽曲(熱帯地域における雰囲気を持つ楽曲)の特徴であることが表されている。
 また、バルーンF1,F2は、バルーンF3に次ぐ大きさであるので、検索された楽曲の2番目の特徴が、BPMが120で、かつ、ジャンルがEDMに含まれることであることが表されている。
 さらに、検索された楽曲は、4番目以降の特徴として、ダンスミュージック、クラブミュージック、および、手拍子を入れて盛り上がる要素を含むジャンルに含まれるという特徴を備えていることが表されている。
 図1で示されるように、検索された楽曲の持つ特徴と、その大きさとが提示されることで、ユーザは、検索された理由や根拠となる特徴を認識することが可能となる。
 これにより、検索された楽曲が、自らが意図した楽曲である場合、楽曲が検索された理由や根拠となる特徴をよく理解して、納得したうえで、検索された楽曲を再生させることが可能となる。
 また、検索された楽曲が、自らが意図した楽曲ではない場合、楽曲が検索された理由や根拠となる楽曲の持つ特徴と、その大きさに基づいて、自らが意図した楽曲が検索されるようなフィードバックを考えることが可能となる。
 すなわち、ユーザの意図した楽曲がトロピカルである特徴(熱帯地域における雰囲気を持つ楽曲の特徴)よりも、ダンスミュージックとしての特徴を持った楽曲を望む場合については、「もっとダンサブルに!」といった要求をフィードバックすることで、自らが意図した楽曲を検索され易くすることが可能となる。
 また、ユーザの意図した楽曲のBPMが120よりも速い楽曲を望む場合については、「もっとアップテンポに!」といった要求をフィードバックすることで、自らが意図した楽曲を検索され易くすることが可能となる。
 結果として、本開示においては、検索された楽曲の理由や根拠となる特徴を認識できる情報を提示することで、意図した楽曲が検索された場合には、ユーザに検索された楽曲を納得した状態で再生できるようにする。また、意図しない楽曲が検索された場合には、適切なフィードバックを掛けられるようにして、ユーザが意図した楽曲が、効率よく検索されるようにすることが可能となる。
 <<2.好適な実施の形態>>
 <本開示の情報処理装置の構成例>
 次に、図2のブロック図を参照して、本開示の情報処理装置のハードウェアの構成例について説明する。
 本開示の情報処理装置は、例えば、スマートフォンやタブレットなどである。
 図2の情報処理装置11は、制御部31、入力部32、出力部33、記憶部34、通信部35、ドライブ36、およびリムーバブル記憶媒体37より構成されており、相互にバス38を介して接続されており、データやプログラムを送受信することができる。
 制御部31は、プロセッサやメモリから構成されており、情報処理装置11の動作の全体を制御する。
 また、制御部31は、楽曲エージェント処理部51を備えている。
 楽曲エージェント処理部51は、入力部32を介して入力される、ユーザの要求に応じて、記憶部34や通信部35を介して図示せぬネットワーク上のサーバ等に格納された楽曲コンテンツを検索し、検索結果となる楽曲を出力部33より出力させる。
 尚、楽曲エージェント処理部51の詳細な構成については、図3を参照して後述する。
 入力部32は、ユーザが操作コマンドを入力するキーボードや音声により入力するマイクロフォンなどの入力デバイスより構成され、入力された各種の信号を制御部31に供給する。
 出力部33は、スピーカ等からなる音声出力部121(図3)、LCD(Liquid Crystal Display)や有機EL(Organic Electro-Luminescence)等からなる画像表示部122(図3)、LED(Light Emitting Diode)等からなる構成される発光部123(図3)、およびバイブレータよりなる振動部124(図3)より構成され、制御部31により制御されて、各種の検索結果の表示や、検索された楽曲の再生を行う。
 記憶部34は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、または、半導体メモリなどからなり、制御部31により制御され、コンテンツデータを含む各種のデータおよびプログラムを書き込む、または、読み出す。
 通信部35は、制御部31により制御され、有線(または無線(図示せず))により、LAN(Local Area Network)などに代表される通信ネットワークを介して、各種の装置との間で各種のデータやプログラムを送受信する。
 ドライブ36は、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体37に対してデータを読み書きする。
 <楽曲エージェント処理部の構成例>
 次に、図3の機能ブロック図を参照して、制御部31により実現される楽曲エージェント処理部51の機能について説明する。
 楽曲エージェント処理部51は、音声認識処理部151、意味解析処理部152、雑談発話抽出部153、検索発話抽出部154、フィードバック発話抽出部155、音楽雑談DB(Database)156、楽曲検索エンジン157、楽曲DB(Database)158、応答生成部159、音声合成部160、および楽曲再生部161より構成される。
 音声認識処理部151は、入力部32におけるマイクロフォン102により収音された音声に基づいて、音声認識処理を行い、ユーザの発話をテキスト情報に変換して意味解析処理部152に出力する。
 意味解析処理部152は、入力部32のキーボード101が操作されることにより入力されるテキスト情報、および、音声認識処理部151より供給される発話に係る音声認識処理結果であるテキスト情報に基づいて、例えば、形態素解析などにより発話内容の意味を解析する。
 そして、意味解析処理部152は、発話内容の解析結果を雑談発話抽出部153、検索発話抽出部154、およびフィードバック発話抽出部155に出力する。
 尚、以降においては、ユーザにより操作されてキーボード101より入力されるテキスト情報は、ユーザが音声として発した発話の音声認識処理結果となるテキスト情報であるものとして説明する。
 したがって、以降においては、発話内容の解析結果に基づいたテキスト情報については、キーボード101が操作されることにより入力されたテキスト情報も含むものとする。
 雑談発話抽出部153は、意味解析処理部152より供給されたテキスト情報から認識される発話内容のうち、雑談発話を抽出し、応答生成部159に供給すると共に、音楽雑談DB156に蓄積させる。
 検索発話抽出部154は、意味解析処理部152より供給されたテキスト情報から認識される発話内容のうち、楽曲を検索させるための発話、すなわち、検索発話を抽出し、楽曲検索エンジン157に供給する。
 フィードバック発話抽出部155は、意味解析処理部152より供給されたテキスト情報から認識される発話内容のうち、検索結果に対するフィードバック発話を抽出し、楽曲検索エンジン157に供給する。
 ここで、雑談発話、検索発話、およびフィードバック発話について説明する。
 検索発話は、発話内容のうち、楽曲の検索を指示する発話内容である。より具体的には、検索発話としては、楽曲の詳細情報などからなるメタ情報を特定する発話であり、例えば、アーティスト、楽曲名、歌詞、レーベル、発売時期、ジャンル、テンポ、コード進行、利用楽器、映画主題歌曲であるか否か等を指定して楽曲の検索を指示する発話である。
 また、検索発話は、明るい楽曲、楽しくなる楽曲、哀しい楽曲、盛り上がる楽曲等の検索される楽曲の特徴を指示する発話も含む。
 フィードバック発話は、検索発話に基づいた検索結果に対する発話である。
 フィードバック発話は、例えば、検索結果となる楽曲に対して、もっとアップテンポの楽曲、もっと盛り上がる楽曲等の検索結果となる楽曲を基準として、差分となる情報を指定して、さらに楽曲の検索を指示する発話である。
 また、フィードバック発話は、検索結果となる楽曲に対して、再生の指示や、再生を開始した後の停止の指示などの発話も含む。
 雑談発話は、発話内容のうち、楽曲の検索や推薦に係る発話であって、検索発話およびフィードバック発話を除く発話である。
 雑談発話は、例えば、楽曲に係るユーザの思い出や感想等である。すなわち、「title Aの楽曲をよく聞いたなぁ」といった発話や、「Artist Bの楽曲はいいね」といった発話であり、楽曲を検索する際に参照される情報や、ユーザのキャラクタの推定に必要な情報である。
 音楽雑談DB156は、雑談発話を音楽雑談として記憶する。この音楽雑談は、例えば、楽曲検索エンジン157において、検索発話やフィードバック発話に基づいて楽曲が検索されるときに使用される。
 すなわち、例えば、楽曲検索エンジン157において、検索発話やフィードバック発話に基づいた楽曲の検索が行われるとき、音楽雑談として登録されているユーザの思い出の話に出てきた楽曲のジャンルやアーティストなどが、楽曲の絞り込みに使用される。
 楽曲検索エンジン157は、検索発話抽出部154から検索発話が抽出される場合、または、フィードバック発話抽出部155よりフィードバック発話が抽出される場合、抽出された検索発話、または、フィードバック発話に基づいて、楽曲DB158に登録されている楽曲の中から、対象となる楽曲を検索して応答生成部159に出力する。楽曲検索エンジン157は、具体的な検索方法としては、例えば、検索発話、または、フィードバック発話に基づいた、コンテンツベース型フィルタリング処理により楽曲を検索するようにしてもよい。
 また、楽曲検索エンジン157は、音楽雑談DB156に登録されている音楽雑談の情報も、検索発話、または、フィードバック発話と併せて利用して、楽曲DB158に登録されている楽曲の中から、対象となる楽曲を検索する。
 楽曲検索エンジン157は、検索発話、フィードバック発話、および音楽雑談DB156に登録された音楽雑談に基づいて、ユーザの嗜好を学習して、ユーザの意図を反映した楽曲を検索し、検索された楽曲に係る楽曲データ、および楽曲の詳細情報からなるメタデータを応答生成部159に出力する。
 例えば、検索発話、フィードバック発話、および音楽雑談DB156に登録された音楽雑談に基づいて、特定のジャンルYの楽曲を検索させる指示が多いことがわかっているような場合(学習されている場合)、楽曲検索エンジン157は、「盛り上がる曲」といった要求があるときでも、検索された楽曲から、さらに特定のジャンルYの楽曲に絞り込みを掛けるように検索する。このような検索により、ユーザの嗜好に近い楽曲が検索されるようになる。
 楽曲DB158には、楽曲の音源データとなる楽曲データに対応付けて、楽曲のメタ情報を登録している。メタ情報は、例えば、アーティスト、楽曲名、歌詞、レーベル、発売時期、ジャンル、テンポ、コード進行、利用楽器、採用された映画名などの情報である。従って、楽曲検索エンジン157は、ユーザの要求である、検索発話、または、フィードバック発話に応じて、楽曲のメタ情報を利用して楽曲を検索する。
 尚、楽曲DB158に登録される楽曲データと対応付けて登録されるメタ情報はこれ以外の情報であってもよい。
 応答生成部159は、意味解析処理部152により解析された雑談発話、検索発話、およびフィードバック発話のそれぞれに応じて生成される楽曲検索エンジン157により検索された楽曲の楽曲データ、およびメタデータ、または、雑談発話に基づいて、応答を生成して、音声合成部160、および楽曲再生部161に出力する。
 より具体的には、応答生成部159は、例えば、「盛り上がる曲かけてよ」といった検索発話や「もっとアップテンポの曲かけてよ」といったフィードバック発話があった場合、検索発話やフィードバック発話に応じて検索された楽曲の楽曲データと楽曲のメタ情報に基づいて、楽曲のリスト、および楽曲の特徴を表現する画像を生成し、楽曲データと共に応答結果として楽曲再生部161に出力する。
 また、このとき、応答生成部159は、検索発話に対して「あなたの好きな盛り上がるTitle Xを再生するよ」といったユーザの検索発話に対する応答発話を生成するためのテキスト情報からなる応答を音声合成部160に出力する。
 さらに、応答生成部159は、検索された楽曲の再生、一時停止、1曲戻る、1曲進むといった再生に係る操作の指示を、例えば、フィードバック発話として受けた場合、対応する操作を実現する。
 さらに、応答生成部159は、キャラクタ生成エンジン181を備えている。
 キャラクタ生成エンジン181は、雑談発話抽出部153より供給される雑談発話に基づいて、ユーザのキャラクタを解析して、解析結果であるユーザのキャラクタを応答に反映させて変化を加える。
 キャラクタ生成エンジン181は、例えば、雑談発話の発話内容が、楽曲の紹介や盛り上げるようなフレーズなどが多いときには、ユーザのキャラクタをDJであるものとみなして、キャラクタを生成する。
 そして、例えば、応答発話として、「あなたの好きな盛り上がるTitle Xを再生するよ」を生成するような場合、キャラクタ生成エンジン181により生成されたユーザのキャラクタがDJであるときには、応答生成部159は、「Title Xで盛り上がろうぜ!」といったDJのキャラクタが現れるように、応答発話を変換させて、音声合成部160に出力する。
 ユーザは、キャラクタ性の強い応答発話に対して、より多くのフィードバック発話を発することが実験的にわかっている。
 このため、このようにキャラクタ性の高い表現で応答発話が生成されることにより、より多くのフィードバック発話をユーザから得ることが可能となる。
 結果として、より多くのフィードバック発話に基づいて、ユーザが求める楽曲を適切に検索して再生することが可能となる。
 楽曲再生部161は、応答生成部159より供給される、応答としての、楽曲データに基づいて、スピーカからなる音声出力部121より音声として出力すると共に、楽曲のリスト、および楽曲の特徴を表現する画像を画像表示部122に表示する。
 このとき、楽曲再生部161は、楽曲データに基づいて、音声出力部121より出力する音声に合わせて、発光部123を発光させたり、振動部124を振動させる。
 音声合成部160は、応答発話を生成するためのテキスト情報に基づいて、対応する音声を合成して生成し、音声出力部121より音声として出力する。
 <検索結果画像>
 次に、楽曲検索エンジン157により検索された楽曲リストと楽曲データに基づいて、応答生成部159により生成される検索結果画像の例について説明する。
 例えば、検索発話が「盛り上がる曲」である場合、楽曲検索エンジン157は「盛り上がる曲」に基づいて、該当する楽曲が検索し、検索した楽曲の楽曲データと楽曲のメタ情報を応答生成部159に出力する。
 応答生成部159は、楽曲検索エンジン157より供給される検索された楽曲の楽曲データと楽曲のメタ情報に基づいて、図4の画像P11で示されるような検索結果画像を生成し、楽曲再生部161に出力して、画像表示部122に表示させる。
 画像P11においては、左上部に検索発話より抽出されるキーワードが表示されるキーワード表示欄Kが設けられ、図4の場合、「盛り上がる曲」と表記され、検索発話に基づいた検索キーワードが「盛り上がる曲」であることが示されている。
 その下には、検索キーワードにより検索された楽曲のリストである楽曲リストTL11が表示されており、左から再生表示欄、タイトル表示欄、アーティスト表示欄、およびテーマ表示欄(Theme)が設けられ、それぞれ上から検索された楽曲毎に再生中であるか否か、楽曲のタイトル、楽曲のアーティスト、および楽曲のテーマが表記されている。
 尚、再生中の楽曲については、再生表示欄に三角形状のマークが表示され、図4の場合、タイトルAAA1の楽曲が再生中であることが示されている。
 画像P11の楽曲リストTL11においては、タイトル表示欄において上から「AAA1」乃至「AAA12」が表記され、アーティスト表示欄において、上から「BBB1」乃至「BBB12」が表記され、テーマ表示欄において、上から「XXX1」乃至「XXX12」が表記されている。
 これによりタイトルAAA1乃至AAA12の楽曲は、それぞれアーティストBBB1乃至BbB12の楽曲であり、それぞれのテーマがXXX1乃至XXX12であることが示されている。
 尚、図4の楽曲リストTL11においては、タイトルAAA1乃至AAA12の12曲分の楽曲が表記されているが、さらに多くの楽曲が検索されているような場合、スクロール表示することで、さらに多くの楽曲が表示されるようにしてもよい。
 また、画像P11の右部には、検索された楽曲の特徴を表すアイコンが表示されている。
 より詳細には、画像P11の右部においては、検索された楽曲のプレイリスト毎にアイコンPL11乃至PL18が示されている。
 ここで、楽曲のプレイリストとは、例えば、同一ジャンルや同一アルバムとなる楽曲群のリストを示す。
 図4のアイコンPL11には、「EMD Party Mix」と表記され、アイコンPL11が「EMD Party Mix」に分類される楽曲群からなるプレイリストを表していることを示している。
 また、アイコンPL12には、「Up Hip Hop Dance」と表記され、アイコンPL12が「Up Hip Hop Dance」に分類される楽曲群からなるプレイリストを表していることを示している。
 さらに、アイコンPL13には、「Latin Dance」と表記され、アイコンPL13が「Latin Dance」に分類される楽曲群からなるプレイリストを表していることを示している。
 また、アイコンPL14には、「Sqing Jazz Dance」と表記され、アイコンPL12が「Sqing Jazz Dance」に分類される楽曲群からなるプレイリストを表していることを示している。
 さらに、アイコンPL15には、「J-popカラオケBest」と表記され、アイコンPL15が「J-popカラオケBest」に分類される楽曲群からなるプレイリストを表していることを示している。
 また、アイコンPL16には、「80's All day, all night」と表記され、アイコンPL16が「80's All day, all night」に分類される楽曲群からなるプレイリストを表していることを示している。
 さらに、アイコンPL17には、「Groovy 2000 in US」と表記され、アイコンPL17が「Groovy 2000 in US」に分類される楽曲群からなるプレイリストを表していることを示している。
 また、アイコンPL18には、「Pop's」と表記され、アイコンPL18が「Pop's」に分類される楽曲群からなるプレイリストを表していることを示している。
 さらに、アイコンPL11乃至PL18は、それぞれポインタの操作等により選択することが可能とされており、いずれかのアイコンが選択されると、画像P11の右部における表示が、対応するプレイリストに応じたプレイリスト選択画像に変化する。
 尚、アイコンPL11乃至PL18のいずれかが選択された場合のプレイリスト選択画像については、図5を参照して、詳細を後述する。
 また、アイコンPL11乃至PL18の中心には、検索結果となる楽曲の特徴を示す情報がバルーンF11乃至F13として表示されている。
 より詳細には、バルーンF11には、「BPM 120~150」と表記され、検索された楽曲の特徴の1つであるBPMが120乃至150であることが表されている。
 また、バルーンF12には、「DANCE」と表記され、検索された楽曲の特徴の1つであるジャンルがDANCEであることが表されている。
 さらに、バルーンF13には、「CLUB MUSIC」と表記され、検索された楽曲の特徴の1つであるジャンルがCLUB MUSICであることが表されている。
 また、バルーンF11乃至F13は、それぞれ特徴をバルーンの大きさで表現しており、例えば、図4においては、バルーンF11が最も大きく、バルーンF12,F13がバルーンF11よりも小さく表記されているので、検索された楽曲群は、BPMが120乃至150であることが最も大きな特徴であり、ジャンルとして「DANCE」や「CLUB MUSIC」を含んでいる特徴が次いで大きいことが表されている。
 バルーンで表現される特徴の大きさは、例えば、検索結果となる複数の楽曲群のうち、その特徴を含む楽曲数の割合などにより決定されるようにしてもよい。
 すなわち、例えば、検索された楽曲数が100であった場合、90曲に第1の特徴があり、50曲に第2の特量があるようなときには、第1の特徴を表現するバルーンの半径がRであるときには、第2の特徴を表現するバルーンについては、半径が5R/9となるようにしてもよい。
 このように特徴を表現するバルーンの大きさにより、検索された楽曲のうち、その特徴を備えた楽曲の割合を認識することが可能となり、検索された楽曲全体として、どのくらいの楽曲数が、どの特徴をどの程度備えているのかを視覚的に、かつ、直感的に認識することが可能となる。
 また、バルーンにより表現される特徴については、所定の半径以上となるバルーンのみとするようにしてもよい。このようにすることで、特徴と認識するに足らない大きさの特徴については表示されない状態となり、大きな特徴だけを認識し易くすることができる。
 また、特徴の大きさが認識できれば、バルーン以外の形状のものであってもよく、例えば、方形状のものや、星形の形状のものであってもよいし、大きさを同一にして色の濃さなどで特徴の大きさを表現するようにしてもよい。
 さらに、画像P11の下部には、操作表示欄C11が設けられており、図中の左から、再生する楽曲を1曲戻す(楽曲リストTL11における図中上方に1曲戻す)とき操作されるボタンB13、再生を指示するとき操作されるボタンB11、および再生する楽曲を1曲進める(楽曲リストTL11における図中下方に1曲進める)とき操作されるボタンB12が設けられている。再生を指示するボタンB11は、再生が開始されると、停止ボタンに切り替えて表示され、楽曲が再生している間、停止ボタンとして機能し、楽曲の再生が停止すると再び再生ボタンとして機能する。
 すなわち、楽曲リストTL11に表記された楽曲のいずれかが選択された状態で、ボタンB11乃至B13が操作されると、選択された楽曲に対して、操作されたボタンに対応して、1曲戻す、再生(停止)する、または1曲進む操作がなされる。
 このように検索された楽曲を、プレイリストを単位としてアイコンとして表示されるようにすることで、検索された楽曲群がどのような種別のプレイリストとして検索されているのかを視覚に認識することが可能となる。
 これにより、検索された楽曲群が、どのような特徴を備えた、どのようなプレイリストとして検索された楽曲群であるのかを直感的に認識することが可能となる。
 また、自らが意図した楽曲が検索されている場合については、検索された楽曲群が、どのような特徴を備えた、どのような種別のプレイリストであるのかを直感的に認識した上で、納得して再生することが可能となる。
 さらに、自らが意図した楽曲が検索されていない場合については、検索された楽曲群が、どのような特徴を備えた、どのようなプレイリストとして検索された楽曲群であるのかを直感的に認識した上で、自らが意図した楽曲群との差異を特徴に基づいて認識することが可能となり、自らが意図した楽曲を検索する上で必要となるさらなる要求、すなわち、フィードバックを、その差異となる特徴を備えた楽曲として指定することで、自らが意図した楽曲が検索され易くすることが可能となる。
 例えば、検索結果となる楽曲群のプレイリストの中に、自ら意図していた楽曲のジャンルXからなるプレイリストが存在しないときには、フィードバックとして、自らが意図した楽曲のジャンルXを指定することで、自らが意図していた楽曲を検索され易くできる。
 結果として、自らが意図した楽曲を効率よく検索させるようにすることが可能となる。
 <プレイリスト選択画像>
 次に、図5を参照して、図4のアイコンPL11乃至PL18のいずれかが選択されたときに表示されるプレイリスト選択画像について説明する。
 例えば、図4における「EDM」と表記された点線で囲まれたアイコンPL11が選択されると、楽曲検索エンジン157は、選択されたプレイリストに属する楽曲データと対応するメタ情報を応答生成部159に出力する。
 応答生成部159は、選択されたプレイリストに属する楽曲データと対応するメタ情報に基づいて、例えば、図5の画像P31で示されるようなプレイリスト選択画像を生成して楽曲再生部161に出力し、画像表示部122に表示させる。
 尚、図5の画像P31において、図中の楽曲リストTL11と操作表示欄C11については、図4の画像P11と同一であるので、その説明は省略する。
 図5のプレイリスト選択画像である画像P31において、図4の画像P11と異なるのは、図中の右上部の表示である。
 図5の画像P31における右上部の表示は、選択されたプレイリストに属する楽曲の特徴を表現するために、それぞれの特徴がバルーンとして、その大きさにより表現されている。
 より詳細には、図5の画像P31においては、バルーンF21乃至F27が表示されている。
 バルーンF21には、"BPM 120~150"と表記されて、選択されたプレイリストに含まれる楽曲の特徴の1つであるBPM(Beats Per Minute)が120乃至150であることが表されている。
 バルーンF22には、"EDM"と表記されて、選択されたプレイリストに含まれる楽曲の特徴の1つであるジャンルがEDM(Electronic Dance Music)であることが表されている。
 バルーンF23には、"Tropical"と表記されて、選択されたプレイリストに含まれる楽曲の特徴の1つであるジャンルがトロピカル(熱帯地域における雰囲気を持つ楽曲)であることが表されている。
 バルーンF24には、"DANCE"と表記されて、選択されたプレイリストに含まれる楽曲の特徴の1つであるジャンルがダンスミュージックであることが表されている。
 バルーンF25には、"CLUB MUSIC"と表記されて、選択されたプレイリストに含まれる楽曲の特徴の1つであるジャンルがクラブミュージックであることが表されている。
 バルーンF26には、"clap hands"と表記されて、選択されたプレイリストに含まれる楽曲の特徴の1つであるジャンルがclap hands(手拍子を入れて盛り上がる)の楽曲であることが表されている。
 バルーンF27には、"Four on the floor"と表記されて、選択されたプレイリストに含まれる楽曲の特徴の1つであるジャンルがFour on the floorであることが表されている。
 そして、バルーンF21が最も大きなバルーンであるので、選択されたプレイリストに含まれる楽曲の最も大きな特徴が、BPMが120乃至150であることが表されている。
 また、バルーンF22は、バルーンF21に次ぐ大きさであるので、選択されたプレイリストに含まれる楽曲の2番目の特徴が、ジャンルがEDMであることが表されている。
 さらに、選択されたプレイリストに含まれる楽曲は、3番目以降の特徴として、ダンスミュージック、クラブミュージック、clap hands(手拍子を入れて盛り上がる)の楽曲、およびFour on the floorを含むことが表されている。
 また、バルーンF21乃至F27の下には、選択されたプレイリストの楽曲に関連するテキストTX11が表記されており、画像P31においては、「Electo」、「Ultra FESTIVAL」、「Up beat」、および「パリピ」が表記されている。
 画像P31で示されるように、選択されたプレイリストに含まれる楽曲の特徴を表現する要素毎にバルーンで示され、かつ、バルーンの大きさで特徴の大きさが表現されることにより、選択されたプレイリストに含まれる楽曲の特徴を認識することが可能となる。
 これにより、選択されたプレイリストに含まれる楽曲の特徴を認識することが可能となる。
 また、自らが意図した楽曲群からなるプレイリストが検索されている場合については、検索されたプレイリストの楽曲群が、どのような特徴を備えた、どのような種別の楽曲群を構成するプレイリストであるのかを直感的に認識した上で、納得して再生することが可能となる。
 さらに、自らが意図した楽曲群からなるプレイリストが検索されていない場合については、検索された楽曲群からなるプレイリストが、どのような特徴を備えた、どのような楽曲群からなるプレイリストであるのかを直感的に認識した上で、自らが意図した楽曲群からなるプレイリストとの差異を特徴に基づいて認識することが可能となり、自らが意図した楽曲群からなるプレイリストを検索する上で必要となるさらなる要求、すなわち、フィードバックを、その差異となる特徴を備えた楽曲群からなるプレイリストとして指定することで、自らが意図した楽曲群からなるプレイリストを検索され易くすることが可能となる。
 例えば、検索結果となるプレイリストを構成する楽曲群の中に、自ら意図していたジャンルXの楽曲が存在しないときには、フィードバックとして、自らが意図したジャンルXを指定することで、自らが意図していた楽曲を検索され易くすることができる。
 結果として、自らが意図した楽曲を効率よく検索させるようにすることが可能となる。
 <楽曲選択画像>
 次に、図6の画像P51を参照して、図4または図5の楽曲リストTL11のうち、いずれかの楽曲が選択された状態で、再生を指示するボタンB11が操作されることにより、選択された楽曲が再生されている状態の楽曲選択画像について説明する。
 例えば、画像P51における楽曲リストTL11のうち、いずれかの楽曲が選択されて、フィードバック応答として再生が指示されると、楽曲検索エンジン157は、再生が指示された楽曲データと対応するメタ情報を応答生成部159に出力する。
 応答生成部159は、選択された楽曲に属する楽曲データと対応するメタ情報に基づいて、例えば、図6の画像P51で示されるような楽曲選択画像を生成して楽曲再生部161に出力し、画像表示部122に表示させる。
 画像P51においては、楽曲リストTL11のうち、タイトルが「AAA1」の楽曲が選択されていることが三角状のマークにより示されている。
 また、画像P51の右部においては、選択され、かつ、再生中の楽曲を示すジャケットJ11と、再生中の楽曲の特徴を説明するためのバルーンF31乃至F36が示されている。
 より具体的には、ジャケットJ11においては、上部に"AAA1"と表記されて、再生が指示されて、現在再生中の楽曲のタイトルが「AAA1」であることが表され、下部に"BBB1"と表記されて、再生中の楽曲のアーティストが「BBB1」であることが表されている。
 また、ジャケットJ11の周囲には、円形のバルーンF31乃至F36が設けられており、それぞれが、再生が指示された楽曲の特徴と、その大きさを表現している。尚、ここでいうバルーンの大きさで表現される特徴の大きさは、例えば、再生時間のうち、所定の特徴を備えた状態の再生時間の長さの割合にしてもよい。
 すなわち、例えば、再生時間の全体において、BPMが120であるという特徴を備えており、BPMが120であるという特徴を表現するバルーンの半径が半径Rとして表現される場合、トロピカルな曲調の部分の再生時間の長さが全体の半分であるときには、トロピカルな曲調であることを示す特徴を表現するバルーンの半径を半径R/2とするようにしてもよい。
 ここで、バルーンF31には、"BPM 120"と表記されて、再生が指示された楽曲の特徴の1つであるBPM(Beats Per Minute)が120であることが表されている。
 また、バルーンF32には、"EDM"と表記されて、再生が指示された楽曲の特徴の1つであるジャンルがEDM(Electronic Dance Music)であることが表されている。
 さらに、バルーンF33には、"Tropical"と表記されて、再生が指示された楽曲の特徴の1つが熱帯地域における雰囲気を持つ楽曲であることが表されている。
 バルーンF34には、"Dance"と表記されて、再生が指示された楽曲の特徴の1つがダンスミュージックであることが表されている。
 バルーンF35には、"CLUB MUSIC"と表記されて、再生が指示された楽曲の特徴の1つがクラブミュージックであることが表されている。
 バルーンF36には、"clap hands"と表記されて、再生が指示された楽曲の特徴の1つが手拍子を入れて盛り上がる曲であることが表されている。
 そして、バルーンF33が最も大きなバルーンであるので、再生が指示された楽曲の最も大きな特徴が、トロピカルな曲調(熱帯地域における雰囲気を持つ曲調)であることが表されている。
 また、バルーンF31,F32は、バルーンF33に次ぐ大きさであるので、再生が指示された楽曲の2番目の特徴が、BPMが120で、かつ、ジャンルがEDMであることが表されている。
 さらに、再生が指示された楽曲の、4番目以降の大きさの特徴が、ダンスミュージック、クラブミュージック、および、手拍子を入れて盛り上がる要素を含むことが表されている。
 画像P51で示されるように、再生が指示された楽曲の持つ特徴と、その大きさとが提示されることで、ユーザは、再生が指示された楽曲が、検索された理由や根拠となる特徴を認識することが可能となる。
 これにより、再生が指示された楽曲が、自らが意図した楽曲である場合、検索された理由や根拠をよく理解して、納得したうえで、検索された楽曲を再生させることが可能となる。
 また、検索された楽曲が、自らが意図した楽曲ではない場合、検索された理由や根拠となる楽曲の持つ特徴と、その大きさに基づいて、自らが意図した楽曲が検索されるようなフィードバックを考えることが可能となる。
 すなわち、ユーザの意図した楽曲が、トロピカルな曲調の楽曲(熱帯地域における雰囲気を持つ楽曲)としての特徴よりも、ダンスミュージックとしての特徴を持った楽曲を望む場合については、「もっとダンサブルに」といった要求をフィードバックすることで、自らが意図した楽曲を検索され易くすることが可能となる。
 また、ユーザの意図した楽曲のBPMが120よりも速い楽曲を望む場合については、「もっとアップテンポに」といった要求をフィードバックすることで、自らが意図した楽曲を検索され易くすることが可能となる。
 結果として、検索された楽曲の理由や根拠となる特徴を認識できる情報を提示することで、ユーザが意図した楽曲が検索された場合には、検索された楽曲を納得した状態で再生することが可能になると共に、意図しない楽曲が検索された場合には、適切なフィードバックを掛けられるようにして、ユーザが意図した楽曲が、効率よく検索されるようにすることが可能となる。
 さらに、操作表示欄C11内には、再生が指示された楽曲の出力レベルが時系列に棒グラフ状に示されている時系列画像LVが表示される。
 時系列画像LV内においては、現在再生中のタイミングが矢印で示されて、楽曲の再生が進行するにしたがって、図中の右方向に移動していく。
 また、時系列画像LV内において、検索対象となる「盛り上がる曲」の根拠となる情報が示される。
 より詳細には、時刻t1乃至t2で示される特徴となる状態が継続する期間(以下、特徴期間とも称する)においては、「ビートが激しくなって盛り上がります」と表記されたテキスト情報TX31が表示されており、再生中の楽曲の時刻t1乃至t2においては、ビートが激しくなって盛り上がる期間であることが示されている。
 また、時刻t3乃至t4の特徴期間においては、「女性ボーカルがキーを上げます ここも盛り上がります」と表記されたテキスト情報TX32が表示されており、再生中の楽曲の時刻t3乃至t4の特徴期間は、女性ボーカルがキーを上げて、盛り上がる期間であることが示されている。
 さらに、時刻t5の特徴期間においては、手拍子を示すマークM11が表記されて、時刻t5において手拍子を入れることで盛り上がることが示されている。
 また、時刻t6乃至t7の特徴期間においては、盛り上がりがあることを示すマークM12が示されている。
 尚、楽曲が再生される際には、テキスト情報TX31,TX32が表記されている特徴期間や、マークM11,M12が表記されている特徴期間において、発光部123を制御してテンポに合わせて発光させるようにしたり、振動部124を制御してテンポに合わせて振動させるようにしてもよい。
 また、例えば、検索発話が「カッコいい曲をかけて」であるような場合、再生中における特徴期間においては、「ここのメロディがいいでしょ?」といった応答の音声が出力されるようにしてもよい。
 さらに、検索発話が「桜の曲を探して」であるような場合、さくらという歌詞が歌われている特徴期間で歌詞を表示するようにしてもよい。
 また、検索発話が「おしゃれな曲かけて」であるような場合、特徴期間において、「ここのコード進行がおしゃれ」といった、テキスト情報TX31,TX32のように表示するようにしてもよい。
 さらに、検索発話が「サビが盛り上がる曲をかけて」であるような場合、特徴期間の直前のタイミングにおいて、「このあとサビですよ~、3、2、1」とサビ直前に提示するようにしてもよい。
 また、検索発話が「ノリノリの曲かけて」であるような場合、特徴期間において、ビートに合わせて、発光部123を光らせ、振動部124を振動させるようにしてもよい。
 すなわち、時系列画像LVの表示により、「盛り上がる曲」として検索された楽曲が再生される際に、検索された根拠や理由となる特徴が表れるタイミングである特徴期間が時系列に提示されることになるので、楽曲が検索された理由や根拠をユーザにわかりやすく認識させることが可能となる。
 これにより、検索された楽曲が、自らが意図した楽曲である場合、検索された理由や根拠となる特徴をよく理解して、納得したうえで、検索された楽曲を再生させることが可能となる。
 また、検索された楽曲が、自らが意図した楽曲ではない場合、検索された理由や根拠となる楽曲の持つ特徴と、その特徴の大きさに基づいて、自らが意図した楽曲が検索されるようなフィードバックを考えることが可能となる。
 すなわち、ユーザの意図した楽曲がトロピカルな曲調の楽曲(熱帯地域における雰囲気を持つ楽曲)としての特徴よりも、ダンスミュージックとしての特徴を持った楽曲を要望する場合、ダンスミュージックとしての特徴を持った楽曲が検索されるようなフィードバックを掛けることで、意図した楽曲を検索され易くさせることができる。
 より具体的には、ダンスミュージックとしての特徴を持った楽曲を望む場合については、「もっとダンサブルに」といった要求をフィードバックすることで、自らが意図した楽曲を検索され易くすることが可能となる。
 また、ユーザの意図した楽曲のBPMが120よりも速い楽曲を望む場合については、「もっとアップテンポに」といった要求をフィードバックすることで、自らが意図した楽曲を検索され易くすることが可能となる。
 結果として、検索された楽曲の理由や根拠となる特徴を認識できる情報を提示することで、意図した楽曲が検索された場合には、検索された楽曲を納得した状態で再生させることが可能になると共に、意図しない楽曲が検索された場合には、適切なフィードバックを掛けることが可能となり、ユーザが意図した楽曲を、効率よく検索されるようにすることが可能となる。
 <キャラクタ生成処理>
 次に、図7のフローチャートを参照して、キャラクタ生成処理について説明する。尚、この処理においては、後述する楽曲エージェント処理により雑談発話抽出部153により雑談発話が抽出されて、音楽雑談DB156に登録されていることが前提となる。
 ステップS11において、応答生成部159のキャラクタ生成エンジン181は、音楽雑談DB156にアクセスし、ユーザのキャラクタを推定するための、音楽雑談として登録されている雑談発話を抽出する。
 ステップS12において、キャラクタ生成エンジン181は、抽出した音楽雑談としての雑談発話に基づいて、ユーザのキャラクタを推定する。
 より詳細には、キャラクタ生成エンジン181は、抽出した音楽雑談としての雑談発話を解析し、例えば、よく使用するフレーズやキーワードに基づいて、各職業の専門用語などと照合し、対応する職業などをキャラクタとして推定する。
 ステップS13において、キャラクタ生成エンジン181は、推定したキャラクタをユーザのキャラクタとして設定する。
 ステップS14において、キャラクタ生成エンジン181は、キャラクタ生成処理の終了が指示されたか否かを判定し、終了が指示されていない場合、処理は、ステップS15に進む。
 ステップS15において、キャラクタ生成エンジン181は、音楽雑談DB156にアクセスし、音楽雑談DB156に新たな雑談発話が登録されることにより変化が生じているか否かを判定し、変化がない場合、処理は、ステップS14に戻る。
 すなわち、終了が指示されず、かつ、音楽雑談DB156に変化がない場合、ステップS14,S15の処理が繰り返される。
 そして、ステップS15において、音楽雑談DB156に新たな雑談発話が登録されることにより変化が生じている場合、処理は、ステップS11に戻る。
 すなわち、音楽雑談DB156に新たな雑談発話が登録されることにより変化が生じている場合、ステップS11乃至S14の処理により、再びユーザのキャラクタが推定されて、推定されたキャラクタに設定する処理がなされる。
 従って、処理の終了が指示されるまで、ユーザの雑談発話が新たに音楽雑談DB156に登録される度に、ユーザのキャラクタの推定と設定が繰り返される。
 これにより、推定されるユーザのキャラクタの精度を向上させることが可能となる。
 そして、ステップS14において、処理の終了が指示された場合、処理は、終了する。
 以上の処理により、音楽雑談DB156に登録されたユーザの雑談発話からユーザのキャラクタを推定するようにしたので、適切にユーザのキャラクタを推定することが可能となる。
 <楽曲エージェント処理>
 次に、図8のフローチャートを参照して、楽曲エージェント処理について説明する。
 ステップS31において、音声認識処理部151および意味解析処理部152は、キーボード101の操作、またはマイクロフォン102で音声が検出されることにより、ユーザから何らかの入力(発話)があったか否かを判定する。
 ステップS31において、ユーザの入力がないとみなされた場合、ステップS32乃至S44の処理がスキップされる。
 また、ステップS31において、ユーザからの入力(発話)があったとみなされた場合、処理は、ステップS32に進む。
 ステップS32において、音声認識処理部151は、マイクロフォン102より音声が検出されることにより、音声入力、すなわち、発話による入力があったか否かを判定する。
 ステップS32において、音声入力、すなわち、発話があった場合、処理は、ステップS33に進む。
 ステップS33において、音声認識処理部151は、音声認識処理を実行し、入力された発話を解析して、テキスト情報からなる認識結果を意味解析処理部152に出力する。
 尚、ステップS32において、音声入力ではない場合、キーボード101が操作されることにより入力されるテキスト情報であるので、ステップS32の処理はスキップされる。
 ステップS34において、意味解析処理部152は、キーボード101が操作されることにより入力されたテキスト情報からなる発話、または、音声認識処理部151の音声認識結果であるテキスト情報からなる発話のいずれかに基づいて、発話の意味を解析し、解析結果を雑談発話抽出部153、検索発話抽出部154、およびフィードバック発話抽出部155に出力する。
 ステップS35において、検索発話抽出部154は、意味解析処理部152より供給される発話の解析結果に基づいて、発話が検索発話であるか否かを判定する。
 ステップS35において、発話が検索発話である場合、処理は、ステップS36に進む。
 ステップS36において、検索発話抽出部154は、検索発話からなるテキスト情報を楽曲検索エンジン157に供給する。
 そして、楽曲検索エンジン157は、音楽雑談DB156に登録されている雑談発話の情報と、供給された検索発話とに基づいて、楽曲DB158に登録されている楽曲を検索して、検索結果となる楽曲データと楽曲のメタ情報とを応答生成部159に供給し、処理は、ステップS42に進む。
 すなわち、検索発話である場合については、楽曲DB158に登録されている楽曲のうち、音楽雑談DB156に登録されている雑談発話の情報と、供給された検索発話とに基づいて、検索対象となる楽曲が検索される。
 一方、ステップS35において、検索発話ではないと判定された場合、処理は、ステップS37に進む。
 ステップS37において、フィードバック発話抽出部155は、意味解析処理部152より供給される発話の解析結果に基づいて、発話がフィードバック発話であるか否かを判定する。
 ステップS37において、フィードバック発話である場合、処理は、ステップS38に進む。
 ステップS38において、楽曲検索エンジン157は、フィードバック発話に基づいて、ユーザの嗜好を学習する。
 すなわち、フィードバック発話は、検索結果において、ユーザが意図した検索結果でなかったときになされる発話や、検索結果に対して、さらに絞り込みを掛けるような発話であるので、ユーザの嗜好が現れるので、楽曲検索エンジン157は、フィードバック発話の内容に基づいてユーザの嗜好を学習する。
 また、楽曲検索エンジン157は、検索結果となる楽曲の再生の指示において、再生が指示された楽曲、再生が指示されない楽曲、および再生が指示されたが直ぐに停止が指示された楽曲等によりユーザの嗜好を学習する。
 ステップS39において、楽曲検索エンジン157は、フィードバック発話の内容が、検索結果からプレイリストや楽曲を選択するものであるか否かを判定する。
 ステップS39において、フィードバック発話の内容が、検索結果からプレイリストや楽曲を選択するものではない場合、処理は、ステップS40に進む。
 ステップS40において、楽曲検索エンジン157は、音楽雑談DB156に登録されている雑談発話の情報と、フィードバック発話とに基づいて、楽曲DB158に登録されている楽曲を検索して、検索結果となる楽曲データとメタ情報とを応答生成部159に供給し、処理は、ステップS42に進む。
 すなわち、フィードバック発話は、検索結果において、ユーザが意図した検索結果でなかったときになされる発話や、検索結果に対して、さらに絞り込みを掛けるような発話であるので、楽曲検索エンジン157は、フィードバック発話に基づいて、楽曲を検索して、検索結果となる楽曲データとメタ情報とを応答生成部159に供給する。
 ステップS39において、フィードバック発話の内容が、検索結果からプレイリストや楽曲を選択するものである場合、処理は、ステップS41に進む。
 ステップS41において、楽曲検索エンジン157は、検索結果から選択されたプレイリストに属する楽曲群の楽曲データおよび楽曲のメタ情報、または、選択された楽曲の楽曲データおよび楽曲のメタ情報を応答生成部159に供給する。
 さらに、ステップS37において、フィードバック発話ではないとみなされた場合、処理は、ステップS42に進む。
 ステップS42において、雑談発話抽出部153は、意味解析処理部152より供給される解析結果から、発話が、検索発話でも、フィードバック発話でもない場合については、雑談発話とみなし、発話を音楽雑談DB156に登録すると共に、応答生成部159に出力する。
 ステップS43において、応答生成部159は、応答生成処理を実行し、楽曲検索エンジン157より供給される検索結果、検索結果からプレイリストや楽曲の選択結果、再生の係る指示、および、雑談発話のそれぞれに対する応答を生成する。
 尚、応答生成処理については、図9のフローチャートを参照して、詳細を後述する。
 ステップS44において、応答生成部159は、生成した応答に対して、キャラクタ生成処理により設定されているユーザのキャラクタを付加して変換する。
 ステップS45において、応答生成部159は、音声合成部160、および楽曲再生部161に応答結果を出力して、音声出力部121より音声として出力させると共に、検索結果画像、プレイリスト画像、および楽曲選択画像として画像表示部122に表示させる。
 この際、必要に応じて、楽曲再生部161は、楽曲を再生させている場合については、楽曲の特徴が表れるタイミングにおいて、発光部123を制御して、楽曲のテンポに合わせて発光させたり、振動部124を制御して、楽曲のテンポに合わせて振動させるようにしてもよい。
 ステップS46において、制御部31は、処理の終了が指示されたか否かを判定し、終了が指示されていない場合、処理は、ステップS31に戻る。すなわち、終了が指示されるまで、ステップS31乃至S46の処理が繰り返される。
 そして、ステップS46において、処理の終了が指示されると、処理が終了する。
 以上の処理により、キーボード101の操作や、マイクロフォン102からの音声入力によるユーザが検索して欲しい楽曲を指定する検索発話により、楽曲が検索されて、提示されると共に、楽曲を再生させることが可能となる。
 また、ユーザが意図した楽曲が検索されないときや、さらなる絞り込みを掛けたいような場合には、フィードバック発話がなされることにより、ユーザの意図した楽曲を検索され易くすることが可能となる。
 さらに、フィードバック発話である場合、楽曲検索エンジン157は、フィードバック発話に基づいて、ユーザの嗜好を学習するので、フィードバックを受け付ける度に学習が繰り返されることにより、楽曲の検索精度を向上させることが可能となる。
 また、検索結果の提示に際して、ユーザのキャラクタが付加されて提示されることにより、ユーザからのフィードバックをより多く取得することが可能となるので、より多くのユーザからのフィードバックにより楽曲を検索することで、楽曲の検索精度を向上させることが可能となる。
 結果として、いずれにおいても、ユーザの意図した楽曲の検索精度を向上させ、より効率よくユーザの意図した楽曲を検索することが可能となる。
 <応答生成処理>
 次に、図9のフローチャートを参照して、応答生成処理について説明する。
 ステップS81において、応答生成部159は、生成すべき応答が、楽曲検索エンジン157より供給される、検索発話やフィードバック発話に基づいた検索結果に対応したものであるか否かを判定する。
 ステップS81において、生成すべき応答が、楽曲検索エンジン157より供給される、検索発話やフィードバック発話に基づいた検索結果に対応したものである場合、処理は、ステップS82に進む。
 ステップS82において、応答生成部159は、楽曲検索エンジン157より供給される、検索発話やフィードバック発話に基づいた検索結果に基づいて、例えば、図4を参照して説明した検索結果画像を生成する。
 ステップS81において、生成すべき応答が、楽曲検索エンジン157より供給される、検索発話やフィードバック発話に基づいた検索結果に対応したものではない場合、処理は、ステップS83に進む。
 ステップS83において、応答生成部159は、生成すべき応答が、フィードバック発話であって、かつ、検索結果画像におけるアイコン化されたプレイリストを選択する発話に対するものであるか否かを判定する。
 ステップS83において、生成すべき応答が、フィードバック発話であって、かつ、検索結果画像におけるアイコン化されたプレイリストを選択する発話に対するものである場合、処理は、ステップS84に進む。
 ステップS84において、応答生成部159は、検索結果画像において選択されたアイコンに対応するプレイリストに基づいて、例えば、図5を参照して説明したプレイリスト選択画像を生成する。
 ステップS83において、生成すべき応答が、フィードバック発話であって、かつ、プレイリストを選択する発話に対するものではない場合、処理は、ステップS85に進む。
 ステップS85において、応答生成部159は、生成すべき応答が、フィードバック発話であって、かつ、楽曲リストTL11におけるいずれかの楽曲を選択する発話に対するものであるか否かを判定する。
 ステップS85において、生成すべき応答が、フィードバック発話であって、かつ、楽曲リストTL11におけるいずれかの楽曲を選択する発話に対するものである場合、処理は、ステップS86に進む。
 ステップS86において、応答生成部159は、楽曲リストTL11において選択された楽曲の情報に基づいて、例えば、図6を参照して説明した楽曲選択画像を生成する。
 ステップS85において、生成すべき応答が、フィードバック発話であって、かつ、楽曲を選択する発話に対するものではない場合、処理は、ステップS87に進む。
 ステップS87において、応答生成部159は、生成すべき応答が、楽曲の再生に係る指示であるか否かを判定する。
 ステップS87において、生成すべき応答が、楽曲の再生に係る指示である場合、処理は、ステップS88に進む。
 ステップS88において、応答生成部159は、例えば、図4乃至図6を参照して説明した操作表示欄C11内のボタンB11乃至B13に対応する操作を実現する。
 ステップS87において、生成すべき応答が、楽曲の再生に係る指示ではない場合、処理は、ステップS89に進む。
 ステップS89において、応答生成部159は、発話を雑談発話であるものとみなし、雑談発話の意味に応じた応答を生成する。
 以上の処理により、発話内容に応じた応答が生成されることにより、検索結果画像、プレイリスト選択画像、および楽曲選択画像が表示されることにより、検索された理由や根拠ともなる楽曲の特徴が提示される。
 これにより、ユーザは、検索された理由や根拠ともなる楽曲の特徴を認識することが可能となり、ユーザ自らが意図した楽曲が検索されているのか否かを認識することが可能となる。
 また、検索結果の全楽曲、プレイリスト毎、および楽曲毎のそれぞれの特徴を認識することが可能となるので、ユーザ自らが意図した楽曲が、検索結果の全楽曲、プレイリスト単位または楽曲単位で適切に検索されているのか否かを認識することが可能となる。
 さらに、楽曲選択画像が表示されることにより、楽曲におけるどのタイミングで、どのような特徴を持った楽曲が検索されたのかを認識することが可能となり、どのような理由や根拠で検索されているのかをユーザが認識することが可能となる。
 これにより、ユーザが意図していない楽曲が検索されているようなときには、ユーザが、自らが意図している楽曲が検索されるように、特徴を絞り込んだり、新たな特徴を指定するようなフィードバックを掛けることが可能となる。
 結果として、楽曲の検索に際して、ユーザの意図が適切に反映された楽曲を効率よく検索させるようにすることが可能となる。
 <<3.ソフトウェアにより実行させる例>>
 ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどに、記録媒体からインストールされる。
 図10は、汎用のコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタフェース1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
 入出力インタフェース1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブル記憶媒体1011に対してデータを読み書きするドライブ1010が接続されている。
 CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブル記憶媒体1011ら読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
 以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記憶媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記憶媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 尚、図10におけるCPU1001が、図2の制御部31の機能を実現させる。
 また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 尚、本開示は、以下のような構成も取ることができる。
<1> ユーザの検索要求に基づいて、楽曲を検索する検索部と、
 前記検索部により検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果を、前記検索要求に対する応答として生成する応答生成部と
 を含む情報処理装置。
<2> 前記検索部は、前記検索要求に係る発話である検索発話に基づいて、前記楽曲を検索する
 <1>に記載の情報処理装置。
<3> 前記検索部は、前記検索発話に基づいた前記検索結果に対してなされる検索要求に係る発話であるフィードバック発話に基づいて、前記楽曲を検索する
 <2>に記載の情報処理装置。
<4> 前記検索部は、前記フィードバック発話に基づいて、前記楽曲の検索に係る前記ユーザの嗜好を学習する
 <3>に記載の情報処理装置。
<5> 前記応答生成部は、
  前記検索発話およびフィードバック発話を含む、雑談からなる発話である雑談発話に基づいて、ユーザのキャラクタを推定するキャラクタ推定部をさらに含み、
  前記キャラクタ推定部により推定された前記キャラクタに応じて、生成した前記応答を変換する
 <3>に記載の情報処理装置。
<6> 前記検索部は、検索された前記楽曲の楽曲データと、前記楽曲のメタ情報とを前記検索結果として出力し、
 前記応答生成部は、前記検索結果に含まれる、前記楽曲データと、前記メタ情報に基づいて、前記検索結果となる楽曲の特徴を表現する情報を含む画像である検索結果画像を、前記検索要求に対する応答として生成する
 <1>乃至<5>のいずれかに記載の情報処理装置。
<7> 前記応答生成部は、前記検索結果となる楽曲の特徴をプレイリスト単位のアイコンで表現する前記検索結果画像を、前記検索要求に対する応答として生成する
 <6>に記載の情報処理装置。
<8> 前記応答生成部は、前記検索結果となる楽曲の特徴を、対応するバルーンの大きさにより表現する前記検索結果画像を、前記検索要求に対する応答として生成する
 <7>に記載の情報処理装置。
<9> 前記応答生成部は、前記検索結果となる楽曲の特徴を、検索された全楽曲数に対する、前記特徴を備える楽曲数の割合で規定される大きさのバルーンにより表現する検索結果画像を、前記検索要求に対する応答として生成する
 <8>に記載の情報処理装置。
<10> 前記応答生成部は、前記アイコンのうち、選択されたアイコンに対応するプレイリストに属する楽曲の特徴を表現するプレイリスト選択画像を、前記検索要求に対する応答として生成する
 <8>に記載の情報処理装置。
<11> 前記応答生成部は、前記検索結果となる楽曲の特徴を、対応するバルーンの大きさにより表現する画像である前記プレイリスト選択画像を、前記検索要求に対する応答として生成する
 <10>に記載の情報処理装置。
<12> 前記応答生成部は、
  前記検索結果に含まれる、前記楽曲データと、前記メタ情報に基づいて、前記検索結果となる楽曲のリストである楽曲リストをさらに生成し、
  前記楽曲リストのいずれかの楽曲が選択されて、再生が指示されるとき、前記楽曲データと、前記メタ情報に基づいて、再生が指示された楽曲の楽曲データの音声を再生させると共に、前記再生が指示された楽曲の特徴を表現する画像である楽曲選択画像を、前記検索要求に対する応答として生成する
 <6>に記載の情報処理装置。
<13> 前記応答生成部は、前記メタ情報に基づいて、前記再生が指示された楽曲の特徴を、対応するバルーンの大きさにより表現する楽曲選択画像を、前記検索要求に対する応答として生成する
 <12>に記載の情報処理装置。
<14> 前記応答生成部は、前記楽曲データと、前記メタ情報に基づいて、前記再生が指示された楽曲の特徴を、前記楽曲が再生されるとき、時系列に、検索された根拠となる情報を表示する時系列画像を含む前記楽曲選択画像を、前記検索要求に対する応答として生成する
 <12>に記載の情報処理装置。
<15> 前記時系列画像においては、検索された根拠となる情報が、テキスト、またはマークにより表示される
 <14>に記載の情報処理装置。
<16> 前記応答生成部は、前記楽曲データと、前記メタ情報に基づいて、前記再生が指示された楽曲の特徴を、前記楽曲が再生されるとき、時系列に、発光や振動により表現することで、前記検索要求に対する応答として生成する
 <12>に記載の情報処理装置。
<17> 前記メタ情報は、前記楽曲のアーティスト、楽曲名、歌詞、レーベル、発売時期、ジャンル、テンポ、コード進行、利用楽器、および映画主題歌曲であるか否かを示す情報のうち、少なくともいずれかを含む
 <6>に記載の情報処理装置。
<18> ユーザの検索要求に基づいて、楽曲を検索し、
 検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果を、前記検索要求に対する応答として生成する
 ステップを含む情報処理方法。
<19> ユーザの検索要求に基づいて、楽曲を検索する検索部と、
 前記検索部により検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果を、前記検索要求に対する応答として生成する応答生成部と
 してコンピュータを機能させるプログラム。
 11 情報処理装置, 31 制御部, 32 入力部, 33 出力部, 51 楽曲エージェント処理部, 101 キーボード, 102 マイクロフォン, 121 音声出力部, 122 画像表示部, 123 発光部, 124 振動部, 151 音声認識処理部, 152 意味解析処理部, 153 雑談発話抽出部, 154 検索発話抽出部, 155 フィードバック発話抽出部, 156 音楽雑談DB, 157 楽曲検索エンジン, 158 楽曲DB, 159 応答生成部, 160 音声合成部, 161 楽曲再生部, 181 キャラクタ生成エンジン

Claims (19)

  1.  ユーザの検索要求に基づいて、楽曲を検索する検索部と、
     前記検索部により検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果を、前記検索要求に対する応答として生成する応答生成部と
     を含む情報処理装置。
  2.  前記検索部は、前記検索要求に係る発話である検索発話に基づいて、前記楽曲を検索する
     請求項1に記載の情報処理装置。
  3.  前記検索部は、前記検索発話に基づいた前記検索結果に対してなされる検索要求に係る発話であるフィードバック発話に基づいて、前記楽曲を検索する
     請求項2に記載の情報処理装置。
  4.  前記検索部は、前記フィードバック発話に基づいて、前記楽曲の検索に係る前記ユーザの嗜好を学習する
     請求項3に記載の情報処理装置。
  5.  前記応答生成部は、
      前記検索発話およびフィードバック発話を含む、雑談からなる発話である雑談発話に基づいて、ユーザのキャラクタを推定するキャラクタ推定部をさらに含み、
      前記キャラクタ推定部により推定された前記キャラクタに応じて、生成した前記応答を変換する
     請求項3に記載の情報処理装置。
  6.  前記検索部は、検索された前記楽曲の楽曲データと、前記楽曲のメタ情報とを前記検索結果として出力し、
     前記応答生成部は、前記検索結果に含まれる、前記楽曲データと、前記メタ情報に基づいて、前記検索結果となる楽曲の特徴を表現する情報を含む画像である検索結果画像を、前記検索要求に対する応答として生成する
     請求項1に記載の情報処理装置。
  7.  前記応答生成部は、前記検索結果となる楽曲の特徴をプレイリスト単位のアイコンで表現する前記検索結果画像を、前記検索要求に対する応答として生成する
     請求項6に記載の情報処理装置。
  8.  前記応答生成部は、前記検索結果となる楽曲の特徴を、対応するバルーンの大きさにより表現する前記検索結果画像を、前記検索要求に対する応答として生成する
     請求項7に記載の情報処理装置。
  9.  前記応答生成部は、前記検索結果となる楽曲の特徴を、検索された全楽曲数に対する、前記特徴を備える楽曲数の割合で規定される大きさのバルーンにより表現する検索結果画像を、前記検索要求に対する応答として生成する
     請求項8に記載の情報処理装置。
  10.  前記応答生成部は、前記アイコンのうち、選択されたアイコンに対応するプレイリストに属する楽曲の特徴を表現するプレイリスト選択画像を、前記検索要求に対する応答として生成する
     請求項8に記載の情報処理装置。
  11.  前記応答生成部は、前記検索結果となる楽曲の特徴を、対応するバルーンの大きさにより表現する画像である前記プレイリスト選択画像を、前記検索要求に対する応答として生成する
     請求項10に記載の情報処理装置。
  12.  前記応答生成部は、
      前記検索結果に含まれる、前記楽曲データと、前記メタ情報に基づいて、前記検索結果となる楽曲のリストである楽曲リストをさらに生成し、
      前記楽曲リストのいずれかの楽曲が選択されて、再生が指示されるとき、前記楽曲データと、前記メタ情報に基づいて、再生が指示された楽曲の楽曲データの音声を再生させると共に、前記再生が指示された楽曲の特徴を表現する画像である楽曲選択画像を、前記検索要求に対する応答として生成する
     請求項6に記載の情報処理装置。
  13.  前記応答生成部は、前記メタ情報に基づいて、前記再生が指示された楽曲の特徴を、対応するバルーンの大きさにより表現する楽曲選択画像を、前記検索要求に対する応答として生成する
     請求項12に記載の情報処理装置。
  14.  前記応答生成部は、前記楽曲データと、前記メタ情報に基づいて、前記再生が指示された楽曲の特徴を、前記楽曲が再生されるとき、時系列に、検索された根拠となる情報を表示する時系列画像を含む前記楽曲選択画像を、前記検索要求に対する応答として生成する
     請求項12に記載の情報処理装置。
  15.  前記時系列画像においては、検索された根拠となる情報が、テキスト、またはマークにより表示される
     請求項14に記載の情報処理装置。
  16.  前記応答生成部は、前記楽曲データと、前記メタ情報に基づいて、前記再生が指示された楽曲の特徴を、前記楽曲が再生されるとき、時系列に、発光や振動により表現することで、前記検索要求に対する応答として生成する
     請求項12に記載の情報処理装置。
  17.  前記メタ情報は、前記楽曲のアーティスト、楽曲名、歌詞、レーベル、発売時期、ジャンル、テンポ、コード進行、利用楽器、および映画主題歌曲であるか否かを示す情報のうち、少なくともいずれかを含む
     請求項6に記載の情報処理装置。
  18.  ユーザの検索要求に基づいて、楽曲を検索し、
     検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果を、前記検索要求に対する応答として生成する
     ステップを含む情報処理方法。
  19.  ユーザの検索要求に基づいて、楽曲を検索する検索部と、
     前記検索部により検索された楽曲の、前記検索要求に応じた特徴を表現する情報を含む検索結果を、前記検索要求に対する応答として生成する応答生成部と
     してコンピュータを機能させるプログラム。
PCT/JP2020/041497 2019-11-22 2020-11-06 情報処理装置および情報処理方法、並びにプログラム WO2021100493A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/756,070 US12013893B2 (en) 2019-11-22 2020-11-06 Information processing apparatus information processing method to search a music piece for reproduction

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019211516 2019-11-22
JP2019-211516 2019-11-22

Publications (1)

Publication Number Publication Date
WO2021100493A1 true WO2021100493A1 (ja) 2021-05-27

Family

ID=75981207

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041497 WO2021100493A1 (ja) 2019-11-22 2020-11-06 情報処理装置および情報処理方法、並びにプログラム

Country Status (2)

Country Link
US (1) US12013893B2 (ja)
WO (1) WO2021100493A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003084783A (ja) * 2001-09-17 2003-03-19 Sharp Corp 音楽データ再生装置、音楽データ再生方法、音楽データ再生プログラム、並びに音楽データ再生プログラムを記録した記録媒体
JP2010049032A (ja) * 2008-08-21 2010-03-04 Yamaha Corp 電子音楽装置及び音楽データ利用プログラム
JP2019091387A (ja) * 2017-11-14 2019-06-13 富士ゼロックス株式会社 情報処理装置及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4277173B2 (ja) 2003-02-13 2009-06-10 ソニー株式会社 再生方法、再生装置およびコンテンツ配信システム
US20190149490A1 (en) 2017-11-14 2019-05-16 Fuji Xerox Co.,Ltd. Information processing apparatus and non-transitory computer readable medium
EP3506255A1 (en) * 2017-12-28 2019-07-03 Spotify AB Voice feedback for user interface of media playback device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003084783A (ja) * 2001-09-17 2003-03-19 Sharp Corp 音楽データ再生装置、音楽データ再生方法、音楽データ再生プログラム、並びに音楽データ再生プログラムを記録した記録媒体
JP2010049032A (ja) * 2008-08-21 2010-03-04 Yamaha Corp 電子音楽装置及び音楽データ利用プログラム
JP2019091387A (ja) * 2017-11-14 2019-06-13 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
US12013893B2 (en) 2024-06-18
US20220391438A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
US9495449B2 (en) Music steering with automatically detected musical attributes
US9830351B2 (en) System and method for generating a playlist from a mood gradient
US20090063971A1 (en) Media discovery interface
US20040128141A1 (en) System and program for reproducing information
US20060224260A1 (en) Scan shuffle for building playlists
US11636835B2 (en) Spoken words analyzer
JP5594532B2 (ja) 情報処理装置および方法、情報処理システム、並びに、プログラム
JP2008217254A (ja) プレイリスト作成装置、およびプレイリスト作成方法
US10799795B1 (en) Real-time audio generation for electronic games based on personalized music preferences
JP2004347943A (ja) データ処理装置、楽曲再生装置、データ処理装置の制御プログラムおよび楽曲再生装置の制御プログラム
JP2007299382A (ja) メタデータを利用したメディアコンテンツの探索装置および方法
US20180197158A1 (en) Methods and Systems for Purposeful Playlist Music Selection or Purposeful Purchase List Music Selection
US20090144253A1 (en) Method of processing a set of content items, and data- processing device
WO2021100493A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US10963509B2 (en) Update method and update apparatus
JP4447540B2 (ja) カラオケ唱歌録音作品の鑑賞システム
US20220406280A1 (en) Information processing apparatus, information processing method, and information processing program
JP2008158048A (ja) カラオケシステム及びデジタル再生装置
JP2007172638A (ja) 表示装置
KR20040094250A (ko) 노래 반주기기의 노래 검색 시스템
JP2008210382A (ja) 楽曲データ処理装置
JP2014093097A (ja) 楽曲再生装置、楽曲再生方法、及び、プログラム
JP2017073190A (ja) 楽曲再生装置及びコンピュータプログラム
JP2013003684A (ja) 情報処理装置、情報処理システム、情報処理方法、および、プログラム
JP2018136363A (ja) 音楽画像出力装置、音楽画像出力方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20889046

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20889046

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP