WO2021251188A1 - 推奨情報提供装置 - Google Patents
推奨情報提供装置 Download PDFInfo
- Publication number
- WO2021251188A1 WO2021251188A1 PCT/JP2021/020516 JP2021020516W WO2021251188A1 WO 2021251188 A1 WO2021251188 A1 WO 2021251188A1 JP 2021020516 W JP2021020516 W JP 2021020516W WO 2021251188 A1 WO2021251188 A1 WO 2021251188A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- user
- pitch
- learning model
- music
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/361—Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/04—Sound-producing devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/091—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for performance evaluation, i.e. judging, grading or scoring the musical qualities or faithfulness of a performance, e.g. with respect to pitch, tempo or other timings of a reference performance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
Definitions
- One aspect of the present invention relates to a recommended information providing device that provides recommended information.
- the pitch setting information of the recommended music is output by using the history of the scoring result corresponding to the setting key information of the music that has already been set by the user. Therefore, it tends to be difficult to obtain recommended information on the pitch setting contents recommended by the user for the music having a small singing history of the user. Therefore, it has been conventionally desired to provide recommended information that matches the user's past singing tendency with respect to a wide variety of songs.
- the recommended information providing device of the present embodiment is a recommended information providing device that provides recommended information, and includes at least one processor, and the at least one processor determines the scoring result of the user's past music singing.
- Pitch information is acquired for each temporal section and is the sound that constitutes the music, and the pitch information indicating the pitch of the sounds arranged in time series in the section is acquired, and the scoring result and the pitch information are used as training data.
- a learning model that predicts the scoring result of the user's song singing, and inputting the pitch information about the target song into the learning model while changing the pitch of the sound indicated by the pitch information to multiple types.
- the scoring result for the singing of the target song of the user is acquired, and the pitch of the sound recommended to the user is based on the scoring result for multiple types of pitch information related to the target song.
- a learning model for predicting the scoring result is constructed by using the scoring result for each section regarding the singing of the past music of the user and the pitch information of the section as training data. Then, the pitch information related to the target music is input to the constructed learning model while the pitch of the sound indicated by the pitch information is changed to a plurality of types, and the user's target music is based on the output. The scoring result for singing is acquired. Further, based on the scoring result for the pitch information changed to a plurality of types, the recommended information regarding the pitch setting content is output. As a result, based on the scoring tendency of the user's past pitch pattern, it is possible to obtain the predicted value of the scoring result when the pitch setting contents are variously changed when singing the target music. .. In addition, by outputting recommended information regarding pitch settings using these predicted values, it is possible to provide recommended information regarding settings suitable for singing for a wide variety of songs.
- FIG. 1 is a system configuration diagram showing the configuration of the karaoke system 1 according to the present embodiment.
- the karaoke system 1 is a device having a known function of playing a music designated by a user and a known function of collecting singing voices by the user according to the playback, evaluating the singing voices, and scoring the singing voices. Is.
- the karaoke system 1 also has a function of providing a user with recommended information regarding a setting key for the pitch (pitch) of a musical piece.
- the karaoke system 1 includes a karaoke device 2, a front server 3, a data management device 4, and a recommended information providing device 5.
- the front server 3, the data management device 4, and the recommended information providing device 5 can send and receive data to and from each other via a communication network such as a LAN (Local Area Network), a WAN (Wide Area Network), and a mobile communication network. It is configured in.
- a communication network such as a LAN (Local Area Network), a WAN (Wide Area Network), and a mobile communication network. It is configured in.
- the karaoke device 2 provides a music reproduction function and a sound collection function of a user's singing voice.
- the front server 3 is electrically connected to the karaoke device 2, has a playback function for providing playback data for playing a song designated by the user to the karaoke device 2, and a music search function according to the user's operation. It also has a scoring function for receiving singing voice data collected by the karaoke device 2 according to the reproduction of a musical piece and calculating the scoring result of the singing voice.
- the front server 3 has a function of providing the reproduction data in which the pitch of the music is uniformly changed according to the setting key set in advance by the user.
- the front server 3 also has a function of storing the scoring result of the singing voice by the user as history information in the data management device 4 each time.
- the front server 3 provides a user interface for accepting user operations and displaying information to the user, and includes a terminal device connected to the front server 3 by wire or wirelessly.
- the data management device 4 is a data storage device (database device) that stores data processed by the front server 3 and the recommended information providing device 5.
- the data management device 4 has a history information storage unit 101 that stores history information that records scoring results related to the user's past song singing, and a music information storage unit that stores pitch information about music that can be played by the karaoke device 2. Includes 102.
- Various information stored in the data management device 4 is updated at any time by the processing of the front server 3 or the data acquired from the outside.
- FIG. 2 shows an example of the data structure of the history information stored in the data management device 4
- FIGS. 3 and 4 show an example of the data structure of the music information stored in the data management device 4. ..
- the history information includes a "user identifier” that identifies a user, a “song identifier” that identifies a song that the user has sung in the past using the karaoke system 1, and the song in the past.
- "Singing time” indicating the time of singing
- “total score” indicating the scoring result for the singing of the entire section of the song by the function of the front server 3
- each section of the song by the function of the front server 3 are stored in association with each other.
- the temporal section of each song is divided into a predetermined number (for example, 24), the scoring result is calculated for each divided section, and the entire song is calculated from the scoring results of all the sections.
- the scoring result "total score" is calculated.
- the scoring result of each section and the scoring result of the whole section calculated by the front server 3 are recorded for the singing of each user's music.
- FIG. 3 shows an example of the data structure of the pitch information in the music information.
- the pitch information includes a "musical piece identifier" that identifies a piece of music that can be played using the karaoke system 1, and a “notebook” that indicates the start time of all the sounds (notes) that make up the piece of music. "Start time (ms)”, “Note end time (ms)” indicating the end time of the whole song, and “Pitch” indicating the standard pitch (pitch) of the sound numerically.
- the “strength” that indicates the strength of the sound numerically is stored in association with it.
- the data management device 4 configures each song that can be played by the front server 3, and stores pitch information about all standard sounds (sounds before change by the setting key) arranged in chronological order in each song. There is.
- FIG. 4 shows an example of the data structure of the section information in the music information.
- the section information includes a "musical piece identifier" that identifies a song that can be played using the karaoke system 1, and a “section start time (ms)” that indicates the start time of the entire section of the song. ] And the "section end time (ms)” indicating the end time in the entire music of the section are stored in association with each other.
- the data management device 4 stores section information regarding all sections constituting each musical piece that can be played by the front server 3.
- the recommended information providing device 5 is a device that provides recommended information regarding setting keys to the user, and has data acquisition unit 201, model construction unit 202, prediction unit 203, and recommended information generation unit 204 as functional components. Includes. The functions of each component will be described below.
- the data acquisition unit 201 acquires history information and music information from the data management device 4 prior to the process of constructing a learning model for predicting the scoring result. In addition, the data acquisition unit 201 also acquires music information prior to the scoring result prediction process. The data acquisition unit 201 passes each acquired information to the model construction unit 202 or the prediction unit 203.
- the data acquisition unit 201 combines the information read from the history information storage unit 101 and the music information storage unit 102 of the data management device 4 at the time of the learning model construction process, and the data acquisition unit 201 combines each section of the music sung by the user in the past. Generate history information of scoring results for each sound.
- FIG. 5 shows an example of the data structure of the history information generated by the data acquisition unit 201.
- the history information includes a "user identifier" that identifies the user, a "music identifier” that identifies the music that the user has sung in the past, and a "section” that identifies the section of the music, and the section thereof.
- the data acquisition unit 201 generates history information about all the sounds constituting each song sung by the user in the past. In the "pitch information" included in the history information, if the setting key has been changed from the standard key during the user's past singing, a numerical value corresponding to the changed pitch is recorded.
- the data acquisition unit 201 acquires music information related to the music to be predicted from the data management device 4 at the time of predicting the scoring result.
- the data acquisition unit 201 delivers the acquired music information to the prediction unit 203.
- the model building unit 202 uses the history information generated by the data acquisition unit 201 as training data, and predicts the scoring result regarding the singing of the target music by the user based on the pitch information of the target music. Build a learning model for machine learning. Prior to the construction of the learning model, the model construction unit 202 executes preprocessing for processing the history information handed over from the data acquisition unit 201. Specifically, the model building unit 202 converts each information of the history information into a one-dimensional vector (sound vector) in which information on the pitch and strength of each sound constituting the music sung by the user in the past is arranged. ..
- the model building unit 202 uses the history information as a one-dimensional vector (score vector) in which the scoring results of the sections corresponding to each sound are arranged, which is a one-dimensional vector corresponding to the sound vector. It is converted into a one-dimensional vector (user identification vector) in which user identification information about the singing user is arranged, which is a one-dimensional vector corresponding to the vector.
- FIG. 6 shows an example of the data structure of the one-dimensional vector generated by the preprocessing of the model construction unit 202.
- the model construction unit 202 converts the history information into the sound vector V1, the score vector V2, and the user identification vector V3.
- the model building unit 202 inputs the sound vector V1 and the user identification vector V3 to the learning model, and optimizes the parameters of the learning model so that the output result of the learning model approaches the score indicated by the score vector V2 ( Train the learning model).
- the model building unit 202 uses a learning model for deep learning as a learning model.
- FIG. 7 shows the configuration of the learning model M used by the model construction unit 202.
- the learning model M is composed of a one-hot encoding unit M1, a GRU unit M2, a coupling unit M3, and a dense unit M4.
- the one-hot encoding unit M1 receives the user identification vector V3 and converts the user identification vector V3 into a two-dimensional vector.
- FIG. 8 shows an example of the data structure of the two-dimensional vector converted by the one-hot encoding unit M1.
- each row corresponds to the sound indicated by each element of the sound vector V1
- each column corresponds to each user indicated by each element of the user identification vector V3.
- the "user identifier" of one element included in the user identification vector V3 is "A1”
- the value of the column corresponding to "user identifier A1" is set to "1" in the row corresponding to that element.
- the value of the column corresponding to the other user identifier is set to "0".
- the one-hot encoding unit M1 generates a two-dimensional vector for each row corresponding to all the elements included in the user identification vector V3.
- the GRU unit M2 is a kind of recurrent neural network (RNN: Recurrent Neural Network), and outputs a state in addition to a normal output.
- the input is a sound vector V1 as a normal input, and immediately before.
- the output state is input again.
- the GRU unit M2 has a function of storing past input information and can process long-term time-series information.
- the coupling unit M3 combines the output of the one-hot encoding unit M1 and the output of the GRU unit M2.
- the dense part M4 is a fully connected layer in deep learning, and is an arbitrary dimension by multiplying a numerical sequence of a certain number of dimensions output from the connecting part M3 by a weight (w) and adding a bias (b). Convert to number output (Y).
- the dense unit M4 converts the scoring results (scores) of each section of the music into a one-dimensional output vector Y in which they are arranged.
- FIG. 9 shows an example of the data structure of the output vector converted by the dense unit M4. As described above, in the output vector (Y), each element shows the predicted value of the scoring result of each section composed of the sounds corresponding to the elements of the input sound vector V1.
- the model building unit 202 inputs the user identification vector V3 and the sound vector V1 to the learning model M using the learning model M having the above configuration, and the output vector (Y) obtained as a result is each section indicated by the score vector V2.
- the learning model M is trained so as to approach the score of. As a result of the training, for example, the parameters of the weight (w) and the bias (b) in the dense portion M4 of the learning model M are optimized.
- the prediction unit 203 uses the learning model M constructed by the model construction unit 202 based on the music information related to the target music, and the scoring result of each section related to the singing of the target music by the user. Get the predicted value of. Specifically, the prediction unit 203 performs the same preprocessing as the model construction unit 202 on the music information, and generates the sound vector V1 and the user identification vector V3 for the target music. Then, the prediction unit 203 predicts the scoring result of each section of the target music based on the output vector (Y) obtained by inputting the generated sound vector V1 and the user identification vector V3 into the learning model M. To get.
- the prediction unit 203 changes the numerical value of the pitch information of each section to a plurality of types in the music information of the target music, and based on the music information in which the pitch information is changed to a plurality of types, a learning model.
- the predicted value of the scoring result of each section is acquired by using M.
- the prediction unit 203 makes the pitch information of the entire section correspond to the numerical value of the setting key set in the front server 3 in the music information of the target music, and uniformly sets a predetermined value from the standard pitch. Increase or decrease by minutes. For example, the value of the pitch information of all sections is increased by +1 corresponding to the setting key "+1", and the value of the pitch information of all sections is increased by +2 corresponding to the setting key "+2". ..
- the recommended information generation unit 204 repeatedly acquires the predicted value of the scoring information of each section related to the music whose pitch information has been changed to a plurality of types from the prediction unit 203, and the entire music whose pitch information has been changed to a plurality of types. Calculate the predicted value of the scoring result. For example, as the predicted value of the entire scoring result, the average value of the predicted values of the scoring results of all the sections is calculated. Then, the recommended information generation unit 204 selects the pitch setting content (setting key) recommended to the user based on the predicted value of the scoring result of the music whose pitch information has been changed to a plurality of types, and presses the selected setting key. The indicated recommended information is output together with the predicted value of the scoring result corresponding to the setting key.
- the recommended information generation unit 204 corresponds to a music having a relatively high predicted value of the scoring result and a music having a predicted value of the scoring result higher than a preset threshold value as setting keys recommended to the user. Etc. are selected.
- the recommended information and the predicted value information output by the recommended information generation unit 204 are output to the terminal device or the like of the front server 3.
- FIG. 10 is a flowchart showing the procedure of the learning model construction process by the recommended information providing device 5
- FIG. 11 is a flowchart showing the procedure of the recommended process regarding the setting key by the recommended information providing device 5.
- the learning model construction process is started at a preset timing (for example, periodic timing), or at a timing when a certain amount of historical information is accumulated in the data management device 4.
- the recommended processing related to the setting key is started at a preset timing, a timing at which an instruction is received from the user on the front server 3, or the like.
- the data acquisition unit 201 acquires history information regarding the scoring result of the user's past music singing from the data management device 4 (step S101). .. Further, the data acquisition unit 201 acquires music information related to the music recorded in the history information from the data management device 4 (step S102).
- preprocessing is executed by the model building unit 202, and the sound vector V1, the score vector V2, and the user identification vector V3 are generated based on the history information and the music information (step S103).
- the learning model M is trained by the model building unit 202 using the sound vector V1, the score vector V2, and the user identification vector V3, so that the parameters of the learning model M are optimized (construction of the learning model, step). S104), the learning model construction process is completed.
- the data acquisition unit 201 acquires music information related to the target music from the data management device 4 (step S201). After that, preprocessing is executed by the prediction unit 203, a sound vector V1 is generated based on the music information whose pitch information is changed to a plurality of types, and a user identification vector V3 that identifies a user to be predicted as a scoring result is generated. Is generated for the elements corresponding to the sound vector V1 (step S202).
- the prediction unit 203 inputs the sound vector V1 and the user identification vector V3 to the learning model M, and based on the output vector of the learning model M, the scoring result for each section of the music whose setting keys are changed to a plurality of types.
- the predicted value of is acquired (step S203).
- the recommended information generation unit 204 calculates the predicted value of the overall scoring result for each song of the plurality of setting keys based on the predicted value of the scoring result for each section of the music of the plurality of setting keys (step S204). ).
- the recommended information generation unit 204 selects a setting key recommended to the user based on the predicted value of the scoring result for each song of the plurality of setting keys, and generates and outputs the recommended information for the user (step S205). ..
- FIG. 12 shows an example of the data structure of the recommended information output by the recommended information providing device 5.
- a plurality of records in which the item of "key setting content” indicating the type of the setting key and the item of "estimated score” indicating the predicted value of the overall scoring result are associated with each other are output.
- the recommended setting key is indicated by the "key setting content” corresponding to the "estimated score” indicating a relatively high numerical value.
- a learning model M for predicting the scoring result is constructed by using the scoring result for each section regarding the singing of the past music of the user and the pitch information of the section as training data. .. Then, the pitch information related to the target music is input to the constructed learning model M while the pitches indicated by the pitch information are changed to a plurality of types, and the target music of the user is based on the output. The scoring result for the singing of is obtained. Further, based on the scoring result for the pitch information changed to a plurality of types, the recommended information regarding the pitch setting content is output.
- a learning model M is used in which time-series pitch information is input and the scoring result for each section of the music corresponding to the pitch information is output, and the output of the learning model M is included in the training data.
- the learning model M is constructed so as to approach each scoring result. By doing so, it is possible to construct a learning model M that grasps the tendency of the scoring result for the pitch pattern of each section of the music, and the prediction accuracy of the scoring result regarding the singing of the target music of the user is surely improved. be able to. As a result, it is possible to provide recommended information suitable for singing the target music of the user.
- the learning model M for further inputting the user's identification information is used.
- the learning model M grasps the tendency of the scoring result for the pitch pattern of each user, and it is possible to surely improve the prediction accuracy of the scoring result for each user.
- the scoring results related to the singing of the target song by the user are obtained by averaging the scoring results for each section of the target song, which is the output of the learning model M. By doing so, it is possible to easily determine the strengths and weaknesses of the user regarding the singing of the target song.
- the pitch of the pitch indicated by the pitch information in all the sections related to the target music is uniformly changed by a predetermined numerical value, and the pitch information is input to the learning model M to obtain the learning model M. Based on the output, the scoring result regarding the singing of the target music of the user is acquired.
- each functional block may be realized using one physically or logically coupled device, or two or more physically or logically separated devices can be directly or indirectly (eg, for example). , Wired, wireless, etc.) and may be realized using these plurality of devices.
- the functional block may be realized by combining the software with the one device or the plurality of devices.
- Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, solution, selection, selection, establishment, comparison, assumption, expectation, and assumption. Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc., but limited to these I can't.
- a functional block (configuration unit) that makes transmission function is called a transmitting unit (transmitting unit) or a transmitter (transmitter).
- the realization method is not particularly limited.
- the data management device 4 and the recommended information providing device 5 in the embodiment of the present disclosure may function as a computer for processing the present disclosure.
- FIG. 13 is a diagram showing an example of the hardware configuration of the data management device 4 and the recommended information providing device 5 according to the embodiment of the present disclosure.
- the above-mentioned data management device 4 and recommended information providing device 5 are physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like. You may.
- the word “device” can be read as a circuit, device, unit, etc.
- the hardware configuration of the data management device 4 and the recommended information providing device 5 may be configured to include one or more of the devices shown in the figure, or may be configured not to include some of the devices. ..
- the processor 1001 For each function in the data management device 4 and the recommended information providing device 5, the processor 1001 performs an operation by loading predetermined software (program) on the hardware such as the processor 1001 and the memory 1002, and the communication device 1004 communicates. It is realized by controlling at least one of reading and writing of data in the memory 1002 and the storage 1003.
- the processor 1001 operates, for example, an operating system to control the entire computer.
- the processor 1001 may be configured by a central processing unit (CPU: Central Processing Unit) including an interface with peripheral devices, a control device, an arithmetic unit, a register, and the like.
- CPU Central Processing Unit
- the above-mentioned data acquisition unit 201, model construction unit 202, prediction unit 203, recommended information generation unit 204, and the like may be realized by the processor 1001.
- the processor 1001 reads a program (program code), a software module, data, etc. from at least one of the storage 1003 and the communication device 1004 into the memory 1002, and executes various processes according to these.
- a program program that causes a computer to execute at least a part of the operations described in the above-described embodiment is used.
- the data acquisition unit 201, the model construction unit 202, the prediction unit 203, and the recommended information generation unit 204 may be stored in the memory 1002 and realized by a control program operating in the processor 1001, and other functional blocks may also be used. It may be realized in the same way.
- Processor 1001 may be mounted by one or more chips.
- the program may be transmitted from the network via a telecommunication line.
- the memory 1002 is a computer-readable recording medium, and is composed of at least one such as a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Erasable Programmable ROM), and a RAM (Random Access Memory). May be done.
- the memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like.
- the memory 1002 can store a program (program code), a software module, or the like that can be executed to carry out the construction process and the recommended process according to the embodiment of the present disclosure.
- the storage 1003 is a computer-readable recording medium, and is, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, an optical magnetic disk (for example, a compact disk, a digital versatile disk, or a Blu-ray). It may consist of at least one (registered trademark) disk), smart card, flash memory (eg, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like.
- the storage 1003 may be referred to as an auxiliary storage device.
- the storage medium described above may be, for example, a database, server or other suitable medium containing at least one of the memory 1002 and the storage 1003.
- the communication device 1004 is hardware (transmission / reception device) for communicating between computers via at least one of a wired network and a wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.
- the communication device 1004 includes, for example, a high frequency switch, a duplexer, a filter, a frequency synthesizer, and the like in order to realize at least one of frequency division duplex (FDD: Frequency Division Duplex) and time division duplex (TDD: Time Division Duplex). It may be composed of.
- FDD Frequency Division Duplex
- TDD Time Division Duplex
- the data acquisition unit 201 may be physically or logically separated from each other in the transmission unit and the reception unit.
- the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that accepts an input from the outside.
- the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that outputs to the outside.
- the above-mentioned recommended information generation unit 204 and the like may be realized by the output device 1006.
- the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
- each device such as the processor 1001 and the memory 1002 is connected by the bus 1007 for communicating information.
- the bus 1007 may be configured by using a single bus, or may be configured by using a different bus for each device.
- the data management device 4 and the recommended information providing device 5 include a microprocessor, a digital signal processor (DSP: Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). It may be configured to include such hardware, and a part or all of each functional block may be realized by the hardware. For example, processor 1001 may be implemented using at least one of these hardware.
- information notification includes physical layer signaling (for example, DCI (Downlink Control Information), UCI (Uplink Control Information)), higher layer signaling (for example, RRC (Radio Resource Control) signaling, MAC (Medium Access Control) signaling, etc. It may be carried out by notification information (MIB (Master Information Block), SIB (System Information Block)), other signals, or a combination thereof.
- RRC signaling may be referred to as an RRC message, and may be, for example, an RRC Connection Setup message, an RRC Connection Reconfiguration message, or the like.
- Each aspect / embodiment described in the present disclosure includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G (4th generation mobile communication system), and 5G (5th generation mobile communication).
- system FRA (Future Radio Access), NR (new Radio), W-CDMA (registered trademark), GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi (registered trademark)) )), LTE 802.16 (WiMAX®), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth®, and other systems that utilize appropriate systems and have been extended based on these. It may be applied to at least one of the next generation systems. Further, a plurality of systems may be applied in combination (for example, a combination of at least one of LTE and LTE-A and 5G).
- Information etc. can be output from the upper layer (or lower layer) to the lower layer (or upper layer). Input / output may be performed via a plurality of network nodes.
- the input / output information and the like may be stored in a specific location (for example, a memory) or may be managed using a management table. Information to be input / output may be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
- the determination may be made by a value represented by 1 bit (0 or 1), by a true / false value (Boolean: true or false), or by comparing numerical values (for example, a predetermined value). It may be done by comparison with the value).
- the notification of predetermined information (for example, the notification of "being X") is not limited to the explicit one, but is performed implicitly (for example, the notification of the predetermined information is not performed). May be good.
- Software whether called software, firmware, middleware, microcode, hardware description language, or other names, is an instruction, instruction set, code, code segment, program code, program, subprogram, software module.
- Applications, software applications, software packages, routines, subroutines, objects, executable files, execution threads, procedures, features, etc. should be broadly interpreted.
- software, instructions, information, etc. may be transmitted and received via a transmission medium.
- the software uses at least one of wired technology (coaxial cable, optical fiber cable, twisted pair, digital subscriber line (DSL: Digital Subscriber Line), etc.) and wireless technology (infrared, microwave, etc.) to create a website.
- wired technology coaxial cable, optical fiber cable, twisted pair, digital subscriber line (DSL: Digital Subscriber Line), etc.
- wireless technology infrared, microwave, etc.
- the information, signals, etc. described in this disclosure may be represented using any of a variety of different techniques.
- data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
- a channel and a symbol may be a signal (signaling).
- the signal may be a message.
- the component carrier CC: Component Carrier
- CC Component Carrier
- system and “network” used in this disclosure are used interchangeably.
- the information, parameters, etc. described in the present disclosure may be expressed using an absolute value, a relative value from a predetermined value, or another corresponding information. It may be represented.
- the radio resource may be one indicated by an index.
- determining and “determining” used in this disclosure may include a wide variety of actions.
- “Judgment” and “decision” are, for example, judgment (judging), calculation (calculating), calculation (computing), processing (processing), derivation (deriving), investigation (investigating), search (looking up, search, inquiry). It may include (eg, searching in a table, database or another data structure), ascertaining as “judgment” or “decision”.
- judgment and “decision” are receiving (for example, receiving information), transmitting (for example, transmitting information), input (input), output (output), and access. It may include (for example, accessing data in memory) to be regarded as “judgment” or “decision”.
- judgment and “decision” are considered to be “judgment” and “decision” when the things such as solving, selecting, choosing, establishing, and comparing are regarded as “judgment” and “decision”. Can include. That is, “judgment” and “decision” may include considering some action as “judgment” and “decision”. Further, “judgment (decision)” may be read as “assuming", “expecting”, “considering” and the like.
- connection means any direct or indirect connection or connection between two or more elements and each other. It can include the presence of one or more intermediate elements between two “connected” or “combined” elements.
- the connection or connection between the elements may be physical, logical, or a combination thereof.
- connection may be read as "access”.
- the two elements use at least one of one or more wires, cables and printed electrical connections, and as some non-limiting and non-comprehensive examples, the radio frequency domain. Can be considered to be “connected” or “coupled” to each other using electromagnetic energy having wavelengths in the microwave and light (both visible and invisible) regions.
- the term "A and B are different” may mean “A and B are different from each other”.
- the term may mean that "A and B are different from C”.
- Terms such as “separate” and “combined” may be interpreted in the same way as “different”.
- One embodiment of the present invention uses a recommended information providing device that provides recommended information, and makes it possible to provide recommended information regarding settings suitable for singing for a wide variety of music.
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することを目的とする。推奨情報提供装置5は、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサが、ユーザの過去の楽曲の歌唱に関する採点結果を、楽曲の時間的な区間毎に取得し、楽曲を構成する音であって、区間において時系列に並ぶ音の高さを示す音程情報を取得し、採点結果及び音程情報を訓練データとして用いて、音程情報から、ユーザの楽曲の歌唱に関する採点結果を予測する学習モデルを構築し、対象の楽曲に関する音程情報を、音程情報の示す音の高さを複数種類に変更しながら学習モデルに入力することにより、学習モデルの出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果を取得し、対象の楽曲に関する複数種類の音程情報を対象とした採点結果を基に、ユーザに推奨する音の高さの設定内容を推奨情報として出力する。
Description
本発明の一側面は、推奨情報を提供する推奨情報提供装置に関する。
従来から、カラオケ装置において、利用者が歌唱する度に、利用者ID、楽曲ID、採点結果、及び利用者の歌唱時にカラオケ装置に設定された設定キー情報を紐づけて管理し、利用者が所望の楽曲を演奏予約した際に、設定キー情報において最も高い採点結果の平均値を有する設定キーに関する情報を表示手段に表示する技術が知られている(下記特許文献1参照。)。
しかしながら、上記の従来の装置によっては、利用者が既に設定したことがある楽曲の設定キー情報に対応した採点結果の履歴を用いて、推奨する楽曲の音の高さの設定情報が出力されているため、ユーザの歌唱履歴の少ない楽曲については、ユーザにとって推奨される音の高さの設定内容に関する推奨情報を得ることは難しい傾向にある。そのため、従来から、幅広い種類の楽曲に関して、ユーザの過去の歌唱傾向にマッチした推奨情報を提供することが望まれている。
そこで、上述の課題を解決するために、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することが可能な推奨情報提供装置を提供することを目的とする。
本実施形態の推奨情報提供装置は、推奨情報を提供する推奨情報提供装置であって、少なくとも1つのプロセッサを備え、少なくとも1つのプロセッサが、ユーザの過去の楽曲の歌唱に関する採点結果を、楽曲の時間的な区間毎に取得し、楽曲を構成する音であって、区間において時系列に並ぶ音の高さを示す音程情報を取得し、採点結果及び音程情報を訓練データとして用いて、音程情報から、ユーザの楽曲の歌唱に関する採点結果を予測する学習モデルを構築し、対象の楽曲に関する音程情報を、音程情報の示す音の高さを複数種類に変更しながら学習モデルに入力することにより、学習モデルの出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果を取得し、対象の楽曲に関する複数種類の音程情報を対象とした採点結果を基に、ユーザに推奨する音の高さの設定内容を推奨情報として出力する。
本実施形態によれば、ユーザの過去の楽曲の歌唱に関する区間毎の採点結果、および、区間の音程情報が訓練データとして用いられて、採点結果を予測する学習モデルが構築される。そして、対象の楽曲に関する音程情報が、音程情報の示す音の高さが複数種類に変更されながら、構築された学習モデルに入力されることにより、その出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果が取得される。さらに、複数種類に変更された音程情報を対象にした採点結果を基に、音の高さの設定内容に関する推奨情報が出力される。これにより、ユーザの過去の音程のパターンに対する採点傾向を基に、対象の楽曲の歌唱の際に音の高さの設定内容を様々に変更した場合の採点結果の予測値を取得することができる。加えて、それらの予測値を用いて音の高さの設定内容に関する推奨情報を出力することにより、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することができる。
本発明の一側面によれば、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することができる。
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
図1は、本実施形態にかかるカラオケシステム1の構成を示すシステム構成図である。カラオケシステム1は、ユーザによって指定された楽曲を再生する公知の機能と、その再生に応じたユーザによる歌唱音声を集音して、その歌唱音声を評価して採点する公知の機能とを有する装置である。このカラオケシステム1は、さらに、ユーザに対して楽曲の音の高さ(音程)の設定キーに関する推奨情報を提供する機能も有する。
図1に示すように、カラオケシステム1は、カラオケ装置2、フロントサーバ3、データ管理装置4、及び推奨情報提供装置5を備えている。フロントサーバ3、データ管理装置4、及び推奨情報提供装置5は、LAN(Local Area Network)、WAN(Wide Area Network)、及び移動体通信ネットワーク等の通信ネットワークを介して互いにデータを送受信可能なように構成されている。
カラオケ装置2は、楽曲の再生機能と、ユーザの歌唱音声の集音機能とを提供する。フロントサーバ3は、カラオケ装置2に電気的に接続され、カラオケ装置2に対してユーザによって指定された楽曲の再生のための再生データを提供する再生機能、ユーザの操作に応じた楽曲の検索機能、楽曲の再生に応じてカラオケ装置2によって集音された歌唱音声のデータを受信して、歌唱音声の採点結果を計算する採点機能、等を有する。フロントサーバ3は、楽曲の再生データを提供する際には、予めユーザによって設置された設定キーに応じて、楽曲の音程が一律に変更された再生データを提供する機能を有する。この設定キーには、例えば、-7から+7までの数値が割り当てられ、設定キーが+1増加すると楽曲の音程が一律で所定の音階分(例えば、半音)上がるように再生データが設定される。また、フロントサーバ3は、ユーザによる歌唱音声の採点結果を、履歴情報としてその都度データ管理装置4に格納する機能も有する。このフロントサーバ3は、ユーザの操作を受け付け、ユーザに対して情報を表示させるためのユーザ・インターフェースを提供し、フロントサーバ3に対して有線あるいは無線によって接続された端末装置を含んでいる。
データ管理装置4は、フロントサーバ3及び推奨情報提供装置5によって処理されるデータを格納するデータ格納装置(データベース装置)である。このデータ管理装置4は、ユーザの過去の楽曲の歌唱に関する採点結果を記録した履歴情報を格納する履歴情報格納部101と、カラオケ装置2で再生可能な楽曲に関する音程情報を格納する楽曲情報格納部102とを含む。データ管理装置4に格納される各種情報は、フロントサーバ3の処理、あるいは、外部から取得されたデータによって随時更新される。
図2には、データ管理装置4に格納された履歴情報のデータ構成の一例を示し、図3及び図4には、データ管理装置4に格納された楽曲情報のデータ構成の一例を示している。
図2に示すように、履歴情報には、ユーザを識別する「ユーザ識別子」と、そのユーザがカラオケシステム1を利用して過去に歌唱した楽曲を識別する「楽曲識別子」と、その楽曲を過去に歌唱した時刻を示す「歌唱時間」と、フロントサーバ3の機能によるその楽曲の全区間の歌唱を対象とした採点結果を示す「総合点」と、フロントサーバ3の機能によるその楽曲の各区間の歌唱を対象とした採点結果を示す「区間1点数」、…、「区間24点数」とが、関連付けられて格納されている。フロントサーバ3の採点機能においては、各楽曲の時間的な区間を所定数(例えば、24)に分割し、分割した区間毎に採点結果を計算し、全ての区間の採点結果から各楽曲の全体の採点結果「総合点」を計算する。履歴情報には、各ユーザの楽曲毎の歌唱を対象にして、フロントサーバ3によって計算された、各区間の採点結果及び全体の採点結果が記録される。
図3には、楽曲情報のうちの音程情報のデータ構成の一例を示している。このように、音程情報には、カラオケシステム1を利用して再生可能な楽曲を識別する「楽曲識別子」と、その楽曲を構成する音(ノート)の全体の楽曲中における開始時刻を示す「ノート開始時刻(ms)」と、その音の全体の楽曲中の終了時刻を示す「ノート終了時刻(ms)」と、その音の標準的な高さ(音程)を数値で示す「音程」と、その音の強さを数値で示す「強さ」とが、関連付けられて格納されている。データ管理装置4には、フロントサーバ3によって再生可能な各楽曲を構成し、各楽曲中において時系列に並ぶ全ての標準的な音(設定キーによる変更前の音)に関する音程情報が格納されている。
図4には、楽曲情報のうちの区間情報のデータ構成の一例を示している。このように、区間情報には、カラオケシステム1を利用して再生可能な楽曲を識別する「楽曲識別子」と、その楽曲の区間の全体の楽曲中における開始時刻を示す「区間開始時刻(ms)」と、その区間の全体の楽曲中の終了時刻を示す「区間終了時刻(ms)」とが、関連付けられて格納されている。データ管理装置4には、フロントサーバ3によって再生可能な各楽曲を構成する全ての区間に関する区間情報が格納されている。
推奨情報提供装置5は、ユーザに対して設定キーに関する推奨情報を提供する装置であり、機能的な構成要素として、データ取得部201、モデル構築部202、予測部203、及び推奨情報生成部204を含んでいる。以下、各構成要素の機能について説明する。
データ取得部201は、採点結果を予測するための学習モデルの構築処理に先立って、データ管理装置4から、履歴情報及び楽曲情報を取得する。また、データ取得部201は、採点結果の予測処理に先立って、楽曲情報を取得することも行う。データ取得部201は、取得した各情報を、モデル構築部202あるいは予測部203に引き渡す。
すなわち、データ取得部201は、学習モデルの構築処理時には、データ管理装置4の履歴情報格納部101及び楽曲情報格納部102から読み出した情報を組み合わせて、ユーザが過去に歌唱した楽曲の各区間の音毎の採点結果の履歴情報を生成する。図5には、データ取得部201が生成する履歴情報のデータ構成の一例を示す。このように、履歴情報には、ユーザを識別する「ユーザ識別子」と、ユーザが過去に歌唱した楽曲を識別する「楽曲識別子」と、その楽曲の区間を識別する「区間」と、その区間中の音の開始時刻を示す「ノート開始時刻(ms)」と、その音の終了時刻を示す「ノート終了時刻(ms)」と、その音の音程を数値で示す「音程」と、その音の強さを数値で示す「強さ」と、その音が含まれる区間の採点結果を示す「点数」とが、関連付けられている。データ取得部201によって、ユーザによって過去に歌唱された各楽曲を構成する全ての音に関する履歴情報が生成される。なお、履歴情報に含まれる「音程情報」には、ユーザの過去の歌唱時に設定キーが標準キーから変更されていた場合には、それに応じて変更された音程に対応する数値が記録される。
また、データ取得部201は、採点結果の予測処理時には、予測対象の楽曲に関する楽曲情報をデータ管理装置4から取得する。データ取得部201は、取得した楽曲情報を予測部203に引き渡す。
図1に戻って、モデル構築部202は、データ取得部201によって生成された履歴情報を訓練データとして用いて、対象の楽曲の音程情報を基にユーザの対象の楽曲の歌唱に関する採点結果を予測する機械学習の学習モデルを構築する。モデル構築部202は、学習モデルの構築に先立って、データ取得部201から引き渡された履歴情報を加工する前処理を実行する。詳細には、モデル構築部202は、履歴情報の各情報を、過去にユーザが歌唱した楽曲を構成する各音に関する音程及び強さの情報が配列された1次元ベクトル(音ベクトル)に変換する。加えて、モデル構築部202は、履歴情報の各情報を、音ベクトルに対応する1次元ベクトルである、各音に対応する区間の採点結果が配列された1次元ベクトル(点数ベクトル)と、音ベクトルに対応する1次元ベクトルである、歌唱したユーザに関するユーザ識別情報が配列された1次元ベクトル(ユーザ識別ベクトル)とに変換する。
図6には、モデル構築部202の前処理によって生成される1次元ベクトルのデータ構成の一例を示している。このように、モデル構築部202は、履歴情報を、音ベクトルV1、点数ベクトルV2、及びユーザ識別ベクトルV3に変換する。
そして、モデル構築部202は、音ベクトルV1及びユーザ識別ベクトルV3を学習モデルに入力し、その学習モデルの出力結果が点数ベクトルV2の示す点数に近づくように、学習モデルのパラメータを最適化する(学習モデルをトレーニングする)。この際、モデル構築部202は、学習モデルとして、深層学習の学習モデルを使用する。
図7には、モデル構築部202が使用する学習モデルMの構成を示している。図7に示すように、学習モデルMは、ワンホットエンコーディング(One-hot encoding)部M1、GRU部M2、結合部M3、及び、デンス(Dense)部M4によって構成される。
ワンホットエンコーディング部M1は、ユーザ識別ベクトルV3が入力されて、ユーザ識別ベクトルV3を2次元ベクトルに変換する。図8には、ワンホットエンコーディング部M1によって変換される2次元ベクトルのデータ構成の一例を示す。このように、2次元ベクトルにおいては、各行が音ベクトルV1の各要素が示す音に対応し、各列がユーザ識別ベクトルV3の各要素の示す各ユーザに対応している。例えば、ユーザ識別ベクトルV3に含まれる1つの要素の「ユーザ識別子」が“A1”の場合には、その要素に対応する行において、「ユーザ識別子 A1」に対応する列の値が“1”に設定され、他のユーザ識別子に対応する列の値は“0”に設定される。ワンホットエンコーディング部M1によって、ユーザ識別ベクトルV3に含まれる全ての要素に対応する行分の2次元ベクトルが生成される。
GRU部M2は、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)の一種であり、通常の出力の他に状態を出力し、入力には、通常の入力としての音ベクトルV1の他に、直前に出力された状態が再度入力される。これにより、GRU部M2は、過去の入力情報を記憶する機能を有し、長期的な時系列情報を処理することができる。
結合部M3は、ワンホットエンコーディング部M1の出力と、GRU部M2の出力とを結合する。デンス部M4は、深層学習における全結合層であり、結合部M3から出力されたある次元数の数値列に対し、重み(w)を乗算してバイアス(b)を加算することで任意の次元数の出力(Y)に変換する。本実施形態では、デンス部M4は、楽曲の各区間の採点結果(点数)が配列された1次元の出力ベクトルYに変換する。図9には、デンス部M4によって変換される出力ベクトルのデータ構成の一例を示す。このように、出力ベクトル(Y)においては、各要素が、入力された音ベクトルV1の要素に対応する音によって構成される各区間の採点結果の予測値を示している。
モデル構築部202は、上記構成の学習モデルMを用いて、ユーザ識別ベクトルV3と音ベクトルV1を学習モデルMに入力し、その結果得られた出力ベクトル(Y)が点数ベクトルV2の示す各区間の点数に近づくように、学習モデルMをトレーニングする。トレーニングの結果、例えば、学習モデルMのデンス部M4における重み(w)及びバイアス(b)のパラメータが最適化される。
再び図1に戻って、予測部203は、対象の楽曲に関する楽曲情報を基に、モデル構築部202によって構築された学習モデルMを用いて、ユーザの対象の楽曲の歌唱に関する各区間の採点結果の予測値を取得する。具体的には、予測部203は、楽曲情報を対象にしてモデル構築部202と同様な前処理を施し、対象の楽曲に関する音ベクトルV1及びユーザ識別ベクトルV3を生成する。そして、予測部203は、生成した音ベクトルV1及びユーザ識別ベクトルV3を学習モデルMに入力することにより得られた出力ベクトル(Y)を基に、対象の楽曲の各区間の採点結果の予測値を取得する。
本実施形態では、予測部203は、対象の楽曲の楽曲情報において、各区間の音程情報の数値を複数種類に変更しながら、複数種類に音程情報が変更された楽曲情報を基に、学習モデルMを用いて各区間の採点結果の予測値を取得する。具体的には、予測部203は、対象の楽曲の楽曲情報において、全区間の音程情報を、フロントサーバ3に設定される設定キーの数値に対応させて、一律に標準的な音程から所定数値分増減させる。例えば、設定キー「+1」に対応して全区間の音程情報の数値が+1増加させて設定され、設定キー「+2」に対応して全区間の音程情報の数値が+2増加させて設定される。
推奨情報生成部204は、予測部203から、複数種類に音程情報が変更された楽曲に関する各区間の採点情報の予測値を繰り返し取得し、複数種類に音程情報が変更された楽曲毎の全体の採点結果の予測値を計算する。例えば、全体の採点結果の予測値としては、全ての区間の採点結果の予測値の平均値が計算される。そして、推奨情報生成部204は、複数種類に音程情報が変更された楽曲の採点結果の予測値を基に、ユーザに推奨する音程の設定内容(設定キー)を選択し、選択した設定キーを示す推奨情報を、設定キーに対応する採点結果の予測値と共に、出力する。
例えば、推奨情報生成部204は、ユーザに推奨する設定キーとして、採点結果の予測値が比較的高い楽曲に対応するもの、採点結果の予測値が予め設定した閾値よりも高い楽曲に対応するもの等を選択する。推奨情報生成部204によって出力された推奨情報及び予測値の情報は、フロントサーバ3の端末装置等に出力される。
次に、このように構成された推奨情報提供装置5の処理について説明する。図10は、推奨情報提供装置5による学習モデルの構築処理の手順を示すフローチャートであり、図11は、推奨情報提供装置5による設定キーに関する推奨処理の手順を示すフローチャートである。学習モデルの構築処理は、予め設定されたタイミング(例えば、定期的なタイミング)、あるいは、データ管理装置4においてある程度の情報量の履歴情報が蓄積されたタイミング等で開始される。設定キーに関する推奨処理は、予め設定されたタイミング、あるいは、フロントサーバ3においてユーザから指示が受け付けられたタイミング等で開始される。
図10を参照して、学習モデルの構築処理が開始されると、データ取得部201によって、データ管理装置4からユーザの過去の楽曲の歌唱の採点結果に関する履歴情報が取得される(ステップS101)。また、データ取得部201によって、データ管理装置4から、履歴情報に記録された楽曲に関する楽曲情報が取得される(ステップS102)。
次に、モデル構築部202によって前処理が実行されて、履歴情報及び楽曲情報を基に、音ベクトルV1、点数ベクトルV2、及びユーザ識別ベクトルV3が生成される(ステップS103)。その後、モデル構築部202によって、音ベクトルV1、点数ベクトルV2、及びユーザ識別ベクトルV3を用いて学習モデルMがトレーニングされることにより、学習モデルMのパラメータが最適化され(学習モデルの構築、ステップS104)、学習モデルの構築処理が終了する。
次に、図11を参照して、設定キーに関する推奨処理が開始されると、データ取得部201によって、データ管理装置4から対象の楽曲に関する楽曲情報が取得される(ステップS201)。その後、予測部203によって前処理が実行されて、音程情報が複数種類に変更された楽曲情報を基に音ベクトルV1が生成されるとともに、採点結果の予測対象のユーザを識別するユーザ識別ベクトルV3が、音ベクトルV1に対応する要素分生成される(ステップS202)。
次に、予測部203により、音ベクトルV1及びユーザ識別ベクトルV3が学習モデルMに入力され、学習モデルMの出力ベクトルを基に、複数種類に設定キーが変更された楽曲の区間毎の採点結果の予測値が取得される(ステップS203)。その後、推奨情報生成部204により、複数の設定キーの楽曲の区間毎の採点結果の予測値を基に、複数の設定キーの楽曲毎の全体の採点結果の予測値が計算される(ステップS204)。最後に、推奨情報生成部204により、複数の設定キーの楽曲毎の採点結果の予測値を基にユーザに推奨する設定キーが選択され、ユーザに対する推奨情報が生成及び出力される(ステップS205)。
図12には、推奨情報提供装置5によって出力される推奨情報のデータ構成の一例を示している。このように、設定キーの種類を示す「キー設定内容」の項目と、全体の採点結果の予測値を示す「推定点数」の項目とが対応付けられたレコードが複数出力される。このような構成の推奨情報においては、比較的高い数値を示す「推定点数」に対応する「キー設定内容」によって、推奨される設定キーが示される。
つぎに、本実施形態の推奨情報提供装置5の作用効果について説明する。この推奨情報提供装置5によれば、ユーザの過去の楽曲の歌唱に関する区間毎の採点結果、および、区間の音程情報が訓練データとして用いられて、採点結果を予測する学習モデルMが構築される。そして、対象の楽曲に関する音程情報が、音程情報の示す音の高さが複数種類に変更されながら、構築された学習モデルMに入力されることにより、その出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果が取得される。さらに、複数種類に変更された音程情報を対象にした採点結果を基に、音の高さの設定内容に関する推奨情報が出力される。これにより、ユーザの過去の音程のパターンに対する採点傾向を基に、対象の楽曲の歌唱の際に音の高さの設定内容を様々に変更した場合の採点結果の予測値を取得することができる。加えて、それらの予測値を用いて音の高さの設定内容に関する推奨情報を出力することにより、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することができる。
また、本実施形態では、時系列の音程情報を入力とし、音程情報に対応する楽曲の区間毎の採点結果を出力する学習モデルMを用い、学習モデルMの出力が、訓練データに含まれる区間毎の採点結果に近づくように、学習モデルMを構築している。このようにすれば、楽曲の区間毎の音程のパターンに対する採点結果の傾向を掴んだ学習モデルMを構築することができ、ユーザの対象の楽曲の歌唱に関する採点結果の予測精度を確実に向上させることができる。その結果、ユーザの対象の楽曲の歌唱に適した推奨情報を提供できる。
また、本実施形態では、ユーザの識別情報をさらに入力する学習モデルMを用いている。こうすれば、ユーザ毎の音程のパターンに対する採点結果の傾向を掴んだ学習モデルMを構築することができ、個々のユーザを対象とした採点結果の予測精度を確実に向上させることができる。その結果、個々のユーザに適した推奨情報を提供できる。
また、本実施形態では、学習モデルMの出力である対象の楽曲の区間毎の採点結果を平均してユーザの対象の楽曲の歌唱に関する採点結果を取得している。このようにすれば、対象の楽曲の歌唱に関するユーザの得手不得手を容易に判断することができる。
また、本実施形態では、対象の楽曲に関する全ての区間における音程情報の示す音の高さを所定の数値分一律に変更し、当該音程情報を学習モデルMに入力することにより、学習モデルMの出力を基に、ユーザの対象の楽曲の歌唱に関する採点結果を取得する。このような構成により、対象の楽曲の歌唱の際に音の高さの設定内容を変更した際の採点結果の予測精度を維持することができ、ユーザにとって歌唱の際に有益な推奨情報を提供することができる。
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)や送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
例えば、本開示の一実施の形態におけるデータ管理装置4及び推奨情報提供装置5は、本開示の処理を行うコンピュータとして機能してもよい。図13は、本開示の一実施の形態に係るデータ管理装置4及び推奨情報提供装置5のハードウェア構成の一例を示す図である。上述のデータ管理装置4及び推奨情報提供装置5は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。データ管理装置4及び推奨情報提供装置5のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
データ管理装置4及び推奨情報提供装置5における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述のデータ取得部201、モデル構築部202、予測部203、及び推奨情報生成部204などは、プロセッサ1001によって実現されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、データ取得部201、モデル構築部202、予測部203、及び推奨情報生成部204は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る構築処理及び推奨処理を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置1004は、例えば周波数分割複信(FDD:Frequency Division Duplex)及び時分割複信(TDD:Time Division Duplex)の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の情報を受信するデータ取得部201などは、通信装置1004によって実現されてもよい。このデータ取得部201は、送信部と受信部とで、物理的に、または論理的に分離された実装がなされてもよい。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。例えば、上述の推奨情報生成部204などは、出力装置1006によって実現されてもよい。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
また、データ管理装置4及び推奨情報提供装置5は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
情報の通知は、本開示において説明した態様/実施形態に限られず、他の方法を用いて行われてもよい。例えば、情報の通知は、物理レイヤシグナリング(例えば、DCI(Downlink Control Information)、UCI(Uplink Control Information))、上位レイヤシグナリング(例えば、RRC(Radio Resource Control)シグナリング、MAC(Medium Access Control)シグナリング、報知情報(MIB(Master Information Block)、SIB(System Information Block)))、その他の信号又はこれらの組み合わせによって実施されてもよい。また、RRCシグナリングは、RRCメッセージと呼ばれてもよく、例えば、RRC接続セットアップ(RRC Connection Setup)メッセージ、RRC接続再構成(RRC Connection Reconfiguration)メッセージなどであってもよい。
本開示において説明した各態様/実施形態は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G(4th generation mobile communication system)、5G(5th generation mobile communication system)、FRA(Future Radio Access)、NR(new Radio)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi(登録商標))、IEEE 802.16(WiMAX(登録商標))、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及びこれらに基づいて拡張された次世代システムの少なくとも一つに適用されてもよい。また、複数のシステムが組み合わされて(例えば、LTE及びLTE-Aの少なくとも一方と5Gとの組み合わせ等)適用されてもよい。
本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
情報等は、上位レイヤ(又は下位レイヤ)から下位レイヤ(又は上位レイヤ)へ出力され得る。複数のネットワークノードを介して入出力されてもよい。
入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。例えば、チャネル及びシンボルの少なくとも一方は信号(シグナリング)であってもよい。また、信号はメッセージであってもよい。また、コンポーネントキャリア(CC:Component Carrier)は、キャリア周波数、セル、周波数キャリアなどと呼ばれてもよい。
本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。
上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々なチャネル(例えば、PUCCH、PDCCHなど)及び情報要素は、あらゆる好適な名称によって識別できるので、これらの様々なチャネル及び情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。
本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
本発明の一形態は、推奨情報を提供する推奨情報提供装置を使用用途とし、幅広い種類の楽曲に関して歌唱に適した設定に関する推奨情報を提供することを可能にするものである。
5…推奨情報提供装置、1001…プロセッサ、201…データ取得部、202…モデル構築部、203…予測部、204…推奨情報生成部、M…学習モデル。
Claims (5)
- 推奨情報を提供する推奨情報提供装置であって、
少なくとも1つのプロセッサを備え、
前記少なくとも1つのプロセッサが、
ユーザの過去の楽曲の歌唱に関する採点結果を、前記楽曲の時間的な区間毎に取得し、
前記楽曲を構成する音であって、前記区間において時系列に並ぶ音の高さを示す音程情報を取得し、
前記採点結果及び前記音程情報を訓練データとして用いて、前記音程情報から、前記ユーザの楽曲の歌唱に関する採点結果を予測する学習モデルを構築し、
対象の楽曲に関する前記音程情報を、前記音程情報の示す音の高さを複数種類に変更しながら前記学習モデルに入力することにより、前記学習モデルの出力を基に、前記ユーザの前記対象の楽曲の歌唱に関する採点結果を取得し、
前記対象の楽曲に関する複数種類の前記音程情報を対象とした前記採点結果を基に、前記ユーザに推奨する前記音の高さの設定内容を前記推奨情報として出力する、
推奨情報提供装置。 - 前記少なくとも1つのプロセッサは、
時系列の前記音程情報を入力とし、前記音程情報に対応する楽曲の区間毎の採点結果を出力する学習モデルを用い、前記学習モデルの出力が、前記訓練データに含まれる前記区間毎の採点結果に近づくように、前記学習モデルを構築する、
請求項1に記載の推奨情報提供装置。 - 前記少なくとも1つのプロセッサは、
前記ユーザの識別情報をさらに入力する前記学習モデルを用いる、
請求項1又は2に記載の推奨情報提供装置。 - 前記少なくとも1つのプロセッサは、
前記学習モデルの出力である前記対象の楽曲の区間毎の採点結果を平均して前記ユーザの前記対象の楽曲の歌唱に関する採点結果を取得する、
請求項2に記載の推奨情報提供装置。 - 前記少なくとも1つのプロセッサは、
前記対象の楽曲に関する全ての区間における音程情報の示す音の高さを所定の数値分一律に変更し、当該音程情報を前記学習モデルに入力することにより、前記学習モデルの出力を基に、前記ユーザの前記対象の楽曲の歌唱に関する採点結果を取得する、
請求項1~4のいずれか1項に記載の推奨情報提供装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US18/000,964 US20230215406A1 (en) | 2020-06-09 | 2021-05-28 | Recommendation information provision device |
JP2022530471A JPWO2021251188A1 (ja) | 2020-06-09 | 2021-05-28 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020100169 | 2020-06-09 | ||
JP2020-100169 | 2020-06-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021251188A1 true WO2021251188A1 (ja) | 2021-12-16 |
Family
ID=78845634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/020516 WO2021251188A1 (ja) | 2020-06-09 | 2021-05-28 | 推奨情報提供装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230215406A1 (ja) |
JP (1) | JPWO2021251188A1 (ja) |
WO (1) | WO2021251188A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007010922A (ja) * | 2005-06-29 | 2007-01-18 | Daiichikosho Co Ltd | 利用者別楽曲別好適キー推奨システム |
JP2011203479A (ja) * | 2010-03-25 | 2011-10-13 | Xing Inc | カラオケシステム、カラオケシステムの制御方法、及びカラオケシステムの制御プログラム並びにその情報記録媒体 |
JP2016029429A (ja) * | 2014-07-25 | 2016-03-03 | 株式会社第一興商 | カラオケ装置 |
JP2018091982A (ja) * | 2016-12-02 | 2018-06-14 | 株式会社第一興商 | カラオケシステム |
JP2019148767A (ja) * | 2018-02-28 | 2019-09-05 | 株式会社第一興商 | サーバ装置、リコメンドシステム |
-
2021
- 2021-05-28 US US18/000,964 patent/US20230215406A1/en active Pending
- 2021-05-28 WO PCT/JP2021/020516 patent/WO2021251188A1/ja active Application Filing
- 2021-05-28 JP JP2022530471A patent/JPWO2021251188A1/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007010922A (ja) * | 2005-06-29 | 2007-01-18 | Daiichikosho Co Ltd | 利用者別楽曲別好適キー推奨システム |
JP2011203479A (ja) * | 2010-03-25 | 2011-10-13 | Xing Inc | カラオケシステム、カラオケシステムの制御方法、及びカラオケシステムの制御プログラム並びにその情報記録媒体 |
JP2016029429A (ja) * | 2014-07-25 | 2016-03-03 | 株式会社第一興商 | カラオケ装置 |
JP2018091982A (ja) * | 2016-12-02 | 2018-06-14 | 株式会社第一興商 | カラオケシステム |
JP2019148767A (ja) * | 2018-02-28 | 2019-09-05 | 株式会社第一興商 | サーバ装置、リコメンドシステム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021251188A1 (ja) | 2021-12-16 |
US20230215406A1 (en) | 2023-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220292533A1 (en) | Demand prediction device | |
US11868734B2 (en) | Dialogue system | |
JP7166350B2 (ja) | 対話装置 | |
WO2021070819A1 (ja) | 採点モデル学習装置、採点モデル及び判定装置 | |
WO2021251187A1 (ja) | 予測装置 | |
US11663420B2 (en) | Dialogue system | |
JP7438191B2 (ja) | 情報処理装置 | |
WO2021251188A1 (ja) | 推奨情報提供装置 | |
KR20210031094A (ko) | 트리 기반 이상치 탐지 장치 및 방법, 컴퓨터 프로그램 | |
WO2019193796A1 (ja) | 対話サーバ | |
CN110226290A (zh) | 编码方法和编码器 | |
WO2021256278A1 (ja) | 推奨情報提供装置 | |
WO2019216054A1 (ja) | 対話サーバ | |
JPWO2020054244A1 (ja) | 対話情報生成装置 | |
WO2019207909A1 (ja) | 対話サーバ | |
JP7016405B2 (ja) | 対話サーバ | |
JP6705038B1 (ja) | 行動支援装置 | |
WO2020213425A1 (ja) | 状況推定装置、状況推定プログラム、推定モデル及び状況推定方法 | |
JP7323370B2 (ja) | 審査装置 | |
JP7548912B2 (ja) | リランキング装置 | |
WO2024089954A1 (ja) | 情報処理装置 | |
JP2021028649A (ja) | 情報処理装置及びプログラム | |
JP2020166703A (ja) | リスク推定装置 | |
JPWO2020070943A1 (ja) | パターン認識装置及び学習済みモデル | |
WO2024202259A1 (ja) | モデル生成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21822983 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022530471 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21822983 Country of ref document: EP Kind code of ref document: A1 |