WO2023218993A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2023218993A1
WO2023218993A1 PCT/JP2023/016700 JP2023016700W WO2023218993A1 WO 2023218993 A1 WO2023218993 A1 WO 2023218993A1 JP 2023016700 W JP2023016700 W JP 2023016700W WO 2023218993 A1 WO2023218993 A1 WO 2023218993A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
sound
source data
quality
information processing
Prior art date
Application number
PCT/JP2023/016700
Other languages
English (en)
French (fr)
Inventor
正行 佐賀野
慶子 洞
次郎 川野
裕也 由田
寛菜 富永
鈴奈 伊藤
丈 松井
崇 藤岡
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023218993A1 publication Critical patent/WO2023218993A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/02Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using mechanical means only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • application software for recording and editing that operate on information processing devices are known.
  • the user can edit sound source data recorded by the information processing device or purchased from an external source with a high degree of freedom.
  • some recording and editing apps support the collaborative production of music content by multiple users by allowing them to edit sound source data recorded by multiple information processing devices via a network. (For example, see Patent Document 1).
  • the present disclosure proposes an information processing device, an information processing method, and a program that can improve the convenience when a user creates music content.
  • an information processing device includes an application execution unit configured to be able to execute an application having a sound source data recording function and an editing function, and a a display control unit that variably displays the high-quality sound menu on a display unit in conjunction with the type of the selected sound source data when the sound source data to be targeted for high-quality sound is selected; Be prepared.
  • FIG. 1 is a schematic explanatory diagram of an information processing method according to an embodiment of the present disclosure.
  • FIG. 1 is a block diagram illustrating a configuration example of a smartphone according to an embodiment of the present disclosure.
  • FIG. 1 is a block diagram illustrating a configuration example of a server device according to an embodiment of the present disclosure. It is a figure which shows the example of UI when adding a track.
  • FIG. 2 is a diagram (part 1) showing an example of a UI when selecting a track.
  • FIG. 3 is a diagram (part 2) showing an example of a UI when selecting a track.
  • FIG. 3 is a diagram (part 3) showing an example of a UI when selecting a track.
  • FIG. 1 is a block diagram illustrating a configuration example of a smartphone according to an embodiment of the present disclosure.
  • FIG. 1 is a block diagram illustrating a configuration example of a server device according to an embodiment of the present disclosure. It is a figure which shows the example of UI when adding
  • FIG. 7 is a diagram illustrating an example of a UI when changing a track type.
  • FIG. 3 is a diagram (part 1) showing an example of a UI when performing high-quality sound processing;
  • FIG. 3 is a diagram showing the contents of high-quality sound processing.
  • FIG. 7 is a diagram (part 2) showing an example of a UI when performing high-quality sound processing;
  • FIG. 3 is a diagram (part 3) showing an example of a UI when performing high-quality sound processing;
  • FIG. 4 is a diagram (part 4) illustrating an example of a UI when performing high-quality sound processing.
  • FIG. 5 is a diagram (part 5) showing an example of a UI when performing high-quality sound processing;
  • FIG. 7 is a diagram showing notification contents of high-quality sound processing.
  • FIG. 3 is a diagram illustrating a state in which high-quality sound processing is being executed.
  • FIG. 6 is a diagram (part 6) showing an example of a UI when performing high-quality sound processing
  • FIG. 7 is a diagram (Part 7) showing an example of a UI when performing high-quality sound processing
  • FIG. 2 is an explanatory diagram (part 1) of the naming rule for track names.
  • FIG. 2 is an explanatory diagram (part 2) of the naming rule for track names.
  • FIG. 8 is a diagram (Part 8) illustrating an example of a UI when performing high-quality sound processing; It is a figure showing an example of UI at the time of non-display/display switching.
  • FIG. 6 is a diagram (part 6) showing an example of a UI when performing high-quality sound processing
  • FIG. 7 is a diagram (Part 7) showing an example of a UI when performing high-quality sound processing
  • FIG. 2 is an explanatory diagram (part 1) of the naming rule
  • FIG. 2 is a diagram (part 1) showing an example of a UI related to a count-in function.
  • FIG. 2 is a diagram (part 2) showing an example of a UI related to a count-in function.
  • FIG. 3 is a diagram (part 3) illustrating an example of a UI related to a count-in function.
  • FIG. 3 is a diagram showing a processing sequence when the information processing system performs high-quality sound processing.
  • FIG. 2 is a hardware configuration diagram showing an example of a computer that implements the functions of a smartphone.
  • the information processing device is a smartphone 10 used by a user.
  • the recording and editing application that operates on the smartphone 10 will be referred to as a "recording and editing application.”
  • sound source data recorded by the smartphone 10 or purchased from an external source and stored in the storage of the smartphone 10 will be referred to as a "track" as appropriate.
  • the function of increasing the sound quality of each track in the recording/editing application according to the embodiment of the present disclosure will be referred to as the high-quality sound function.
  • the high-quality sound function may be illustrated as "Studio tuning” or “STUDIO TUNING” in the drawings shown later.
  • the processing executed by the high-quality sound function is referred to as "high-quality sound processing.”
  • FIG. 1 is a schematic explanatory diagram of an information processing method according to an embodiment of the present disclosure.
  • the information processing method according to the embodiment of the present disclosure is executed by the information processing system 1.
  • the information processing system 1 includes a smartphone 10 and a server device 100.
  • the smartphone 10 is a portable information processing device used by a user.
  • the smartphone 10 has a platform that can execute the recording and editing application according to the embodiment of the present disclosure.
  • the smartphone 10 includes a microphone 11, a speaker 12, and a display section 15.
  • the microphone 11 is provided at one end of the smartphone 10 near the mouthpiece in the longitudinal direction.
  • the speaker 12 is provided at the other end closer to the earpiece with respect to the one end.
  • the display section 15 is realized as a touch screen integrated with the operation section 14 (see FIG. 2), which will be described later, and has a rectangular shape.
  • the touch screen detects a user's touch operation.
  • known methods such as a capacitance method, a resistive film method, a surface acoustic wave method (or an ultrasonic wave method), an infrared method, an electromagnetic induction method, and a load detection method are used.
  • the touch screen displays various user interfaces (UIs) related to the recording and editing application, and detects a user's touch operation on the UI.
  • UIs user interfaces
  • the microphone 11 collects the sound emitted from the sound source (for example, a musical instrument) and records it as sound source data of a track type specified in advance during recording. Furthermore, when an operation to reproduce sound source data is performed in the recording/editing application, the speaker 12 outputs the selected sound source data during reproduction.
  • the sound source for example, a musical instrument
  • “higher sound quality” mentioned here include “sound source separation,” which separates multiple different sound sources included in a track recorded using one microphone 11, and “noise removal,” which removes noise. '', and ⁇ dereverberation,'' which removes unnecessary reverberation.
  • Other examples include ⁇ mic simulation,'' which reproduces the microphone characteristics of a high-performance microphone, and ⁇ studio simulation,'' which adds the unique reverberations of a recording studio.
  • one track may be recorded with a single sound source or may be recorded with multiple sound sources.
  • Tracks containing multiple sound sources can be subjected to the aforementioned "sound source separation" processing, but tracks with a single sound source cannot be processed.
  • the user had to understand the differences depending on the track type and individually specify settings related to high quality sound.
  • the smartphone 10 variably displays a menu for improving sound quality in conjunction with the type of sound source data selected as a target for improving sound quality.
  • the smartphone 10 first executes a recording and editing application (step S1). Then, in the recording and editing application, the smartphone 10 variably displays a menu for improving sound quality in conjunction with the type of sound source data selected as a target for improving sound quality (step S2).
  • the smartphone 10 transmits the sound source data to the server device 100 along with the content specified via the variably displayed menu regarding the enhancement of sound quality (step S3).
  • the server device 100 is a device that is capable of communicating with the smartphone 10 via a network N such as a mobile phone line network or the Internet.
  • the server device 100 is realized, for example, as a cloud server.
  • the server device 100 has a high-quality sound processing model 102a (see FIG. 3), and is configured to be able to execute high-quality sound processing using the high-quality sound processing model 102a.
  • the high-quality sound processing model 102a is, for example, a DNN (Deep Neural Network) model trained using a deep learning algorithm.
  • the server device 100 performs high-quality sound processing on the sound source data acquired from the smartphone 10 by using AI (Artificial Intelligence) processing using the high-quality sound processing model 102a (step S4). Then, the server device 100 transmits the high-quality data to the smartphone 10, and the smartphone 10 receives the data (step S5).
  • AI Artificial Intelligence
  • the server device 100 integrally executes the high-quality sound processing, which requires a high processing load, using a cloud server model, so that the smartphone 10 can operate within a range that does not affect the high-quality sound processing even during the high-quality sound processing. You can continue using the recording and editing app or run other apps.
  • FIG. 2 is a block diagram illustrating a configuration example of the smartphone 10 according to the embodiment of the present disclosure. Note that FIG. 2 and FIG. 3 shown later show only the constituent elements necessary for explaining the features of the embodiment of the present disclosure, and descriptions of general constituent elements are omitted.
  • each component illustrated in FIGS. 2 and 3 is functionally conceptual, and does not necessarily need to be physically configured as illustrated.
  • the specific form of distributing/integrating each block is not limited to what is shown in the diagram, and all or part of the blocks can be functionally or physically distributed/integrated in arbitrary units depending on various loads and usage conditions. It is possible to configure them in an integrated manner.
  • the smartphone 10 includes a microphone 11, a speaker 12, a communication section 13, an operation section 14, a display section 15, a storage section 16, and a control section 17.
  • the microphone 11 and speaker 12 have already been explained, so their explanation will be omitted here.
  • the communication unit 13 is realized by a communication module or the like.
  • the communication unit 13 is wirelessly connected to the network N described above, and realizes communication with the server device 100 via the network N.
  • the operation unit 14 is an operation component mounted on the smartphone 10, and is realized by, for example, a touch panel.
  • the display unit 15 is a display component mounted on the smartphone 10, and is realized by, for example, a display.
  • the operation unit 14 and the display unit 15 are integrated, for example, and constitute the above-mentioned touch screen. Therefore, the operation unit 14 may be a software component displayed on the display unit 15, and may be, for example, a GUI (Graphical User Interface) that is operably displayed on the display unit 15 by a recording and editing application.
  • GUI Graphic User Interface
  • the storage unit 16 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory), a ROM (Read Only Memory), or a flash memory.
  • the storage unit 16 stores application information 16a.
  • the application information 16a is information including the program of the recording and editing application, various parameters used during the operation of the recording and editing application, and the like.
  • the control unit 17 is a controller, and the program according to the embodiment of the present disclosure stored in the storage unit 16 operates on the RAM by, for example, a CPU (Central Processing Unit) or an MPU (Micro Processing Unit). This is achieved by executing it as a region. Further, the control unit 17 can be realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the control unit 17 includes an application execution unit 17a, a display control unit 17b, and a communication control unit 17c, and realizes or executes information processing functions and operations described below.
  • the application execution unit 17a reads the application information 16a stored in the storage unit 16 and executes the recording and editing application.
  • the application execution unit 17a adds a track, for example, according to the operation details input from the operation unit 14 when adding a track in the recording/editing application.
  • the application execution unit 17a selects a track, for example, according to the operation details input from the operation unit 14 when selecting a track in the recording/editing application. Further, the application execution unit 17a changes the track type of the sound source data, for example, in accordance with the operation details input from the operation unit 14 when changing the track type in the recording/editing application.
  • the application execution unit 17a executes the sound quality improvement process, for example, in accordance with the operation details input from the operation unit 14 when performing the sound quality improvement process in the recording/editing application. Further, the application execution unit 17a switches the hiding/displaying of the track according to, for example, the operation content regarding the switching of hiding/displaying the track in the recording/editing application inputted from the operation unit 14. Further, the application execution unit 17a executes the count-in function, for example, in accordance with the operation details regarding the count-in function in the recording and editing application inputted from the operation unit 14.
  • the application execution unit 17a causes the display control unit 17b to control the display of visual information including various UIs according to various operations when executing these recording and editing applications. Specific examples of various UIs will be described later with reference to FIGS. 4 to 25.
  • the display control unit 17b controls the display of visual information on the display unit 15 when executing the recording and editing application based on instructions from the application execution unit 17a.
  • the communication control unit 17c controls communication with the server device 100 when executing the recording/editing application.
  • the communication control unit 17c uploads, for example, sound source data to be subjected to high-quality sound processing to the server device 100 via the communication unit 13. Further, the communication control unit 17c downloads, from the server device 100, the high-quality sound data that has been subjected to high-quality sound processing in the server device 100, for example, via the communication unit 13.
  • FIG. 3 is a block diagram illustrating a configuration example of the server device 100 according to the embodiment of the present disclosure.
  • the server device 100 includes a communication section 101, a storage section 102, and a control section 103.
  • the communication unit 101 is realized by a communication module or the like, similar to the communication unit 13 described above.
  • the communication unit 101 is wired or wirelessly connected to the network N described above, and realizes communication with the smartphone 10 via the network N.
  • the storage unit 102 is realized by, for example, a semiconductor memory element such as a RAM, ROM, or flash memory. Furthermore, the storage unit 102 is realized by a disk device such as a hard disk device or an optical disk device. In the example shown in FIG. 3, the storage unit 102 stores a high-quality sound processing model 102a.
  • the high-quality sound processing model 102a is a DNN model trained using, for example, a deep learning algorithm. Note that the learning algorithm of the high-quality sound processing model 102a is not limited to deep learning.
  • the high-quality sound processing model 102a is read by the high-quality sound processing unit 103b (described later), and when sound source data to be processed is input, the high-quality sound processing model 102a performs high-quality sound processing on the sound source data using specified settings (options). and outputs data that has been processed to improve sound quality.
  • the control unit 103 is a controller like the control unit 17 described above, and for example, various programs (not shown) stored in the storage unit 102 are executed by a CPU, an MPU, etc. using the RAM as a work area. Realized. Further, the control unit 103 can be realized by, for example, an integrated circuit such as an ASIC or an FPGA.
  • the control unit 103 includes an acquisition unit 103a, a high-quality sound processing unit 103b, and a transmission unit 103c, and realizes or executes information processing functions and operations described below.
  • the acquisition unit 103a acquires, via the communication unit 101, the option for high-quality sound processing specified in the smartphone 10 and the sound source data to be processed. Further, the acquisition unit 103a outputs each acquired data to the high quality sound processing unit 103b.
  • the high-quality sound processing unit 103b reads the high-quality sound processing model 102a from the storage unit 102, and inputs each data received from the acquisition unit 103a to the high-quality sound processing model 102a. Furthermore, the high-quality sound processing unit 103b acquires the high-quality data output from the high-quality sound processing model 102a, and outputs it to the transmission unit 103c.
  • the transmitting unit 103c transmits the high-quality sound data received from the high-quality sound processing unit 103b to the smartphone 10 via the communication unit 101.
  • FIG. 4 is a diagram showing an example of the UI when adding a track.
  • the aforementioned display control section 17b displays a recording screen selection button RB and an editing screen selection button EB, as shown in FIG. Then, when the user touches the recording screen selection button RB, the display control unit 17b displays a track addition screen including a track addition button A1, as shown in the left diagram of FIG.
  • the display control section 17b displays a track type selection screen A2, as shown in the center diagram of FIG.
  • the options that can be specified in the high-quality sound processing differ depending on the musical instrument serving as the sound source, so when adding a track, the user is prompted to select the track type on the track type selection screen A2.
  • the track type T3 corresponds to a type of sound source data that includes a plurality of sound sources such as vocals and guitars (see “Vocals & Guitar” in the figure). That is, track type T3 is specified when selecting a recording mode in which multiple musical instruments are recorded simultaneously.
  • the sound source data recorded in this recording mode can be separated into sound source data for each instrument after recording by executing the aforementioned "sound source separation", which is one of the options for high-quality sound processing.
  • the display control unit 17b erases the track type selection screen A2 and displays the icon I3 corresponding to the track type T3, as shown in the right diagram of FIG. Then, as shown in the right diagram of FIG. 4, when the user touches the recording button SB, the application execution unit 17a starts the recording operation, and the display control unit 17b displays the input waveform in real time according to the recording operation. Display etc. will be carried out.
  • 5 to 7 are diagrams (Part 1) to (Part 3) showing examples of the UI when selecting a track.
  • the display control unit 17b displays an edit screen as shown in FIG.
  • a list of sound source data that is candidates for editing is displayed.
  • the corresponding sound source data is selected, and the selected sound source data is highlighted as shown in section M1 in the figure. That is, the display control unit 17b clearly indicates the selected sound source data by such highlighting.
  • each sound source data is given a tag R and displayed.
  • the display control unit 17b can clearly indicate the selected sound source data by changing the display of the tag R. For example, as shown in FIG. 5, assume that sound source data "Track_1" is selected.
  • the display control unit 17b enlarges and displays the tag R1 of "Track_1" so as to extend it toward the row direction of the row in which "Track_1" is displayed, for example.
  • the display control unit 17b can clearly indicate the selected sound source data by enlarging and displaying the tag R1.
  • the display control unit 17b can also perform an enlarged display that widens the entire width of the line in which "Track_1" including the tag R1 of "Track_1" is displayed, for example.
  • the display control unit 17b can also clearly indicate the selected sound source data by enlarging the width of the line. Note that when the selection of sound source data is canceled, the display control unit 17b cancels each enlarged display shown in FIGS. 6 and 7 and returns the display to the state before selection.
  • FIG. 8 is a diagram showing an example of the UI when changing the track type.
  • the display control unit 17b displays a track menu TM that allows predetermined operations on the corresponding sound source data. Display.
  • the display control unit 17b displays a track type change screen CT, as shown in the center diagram of FIG.
  • the track type T1 corresponds to sound source data of vocals (see “Vocals" in the figure), which is a single sound source.
  • the display control unit 17b displays an icon I1 corresponding to the track type T1 regarding the corresponding "Track_1". Note that when changing to the single sound source track type T1, the above-mentioned "sound source separation" cannot be selected as an option for high-quality sound processing. That is, by changing the track type shown in FIG. 8, the user can arbitrarily change the options that can be selected in the sound quality enhancement process.
  • FIG. 9 is a diagram (part 1) showing an example of the UI when performing high-quality sound processing.
  • FIG. 10 is a diagram showing the contents of the high-quality sound processing.
  • FIGS. 11 to 14 are diagrams (Part 2) to (Part 5) showing examples of the UI when performing high-quality sound processing.
  • FIG. 15 is a diagram showing notification contents of high-quality sound processing.
  • FIG. 16 is a diagram showing a state in which high-quality sound processing is being executed.
  • FIGS. 17 and 18 are diagrams (Part 6) and (Part 7) showing examples of the UI when performing high-quality sound processing.
  • FIGS. 19 and 20 are explanatory diagrams (Part 1) and (Part 2) of the naming rules for track names.
  • FIG. 21 is a diagram (No. 8) showing an example of the UI when performing high-quality sound processing.
  • the display control 17b displays a high-quality sound processing execution screen, as shown in the lower part of FIG.
  • the remaining available data capacity is displayed as shown in section D2. Further, on the sound quality improvement processing execution screen, a sound quality improvement menu M3 indicating selectable options in the sound quality improvement processing is displayed.
  • high-quality sound processing is performed on sound source data acquired from the smartphone 10 by AI processing using the high-quality sound processing model 102a. do. This allows you to upconvert the sound source data to professional studio quality sound quality.
  • noise removal by using "sound source separation” technology, for example, all other sounds can be separated and removed as noise from the vocal and guitar sounds included in the sound source data of track type T3. be able to.
  • AI processing can suppress and remove the reverberation (reverberations in a room) in a typical house, and recreate the sound quality like studio recording material.
  • the display control unit 17b variably displays the high-quality sound menu M3 in conjunction with the type of the selected sound source data. For example, when sound source data of track type T3 is selected, the display control unit 17b displays "Audio Separation & De-noise”, “De-reverb”, “Mic Simulation”, “Studio simulation”, as shown in FIG. ” displays a menu M3 from which each can be selected.
  • vocals and guitars are taken as examples of multiple sound sources, but other musical instruments such as pianos and drums can also be separated by being trained by the high-quality sound processing model 102a. It is possible.
  • the server device 100 transmits only the data of the sound indicated by the selected track type to the smartphone 10. Since noise is included in other sounds, noise is also removed by performing "sound source separation.” Therefore, as shown in FIG. 11, the display control unit 17b displays "Audio Separation & De-noise" as a selectable option name in the menu M3.
  • the display control unit 17b displays "De-noise”, “De-reverb", "Mic” as shown in FIG. 12, for example.
  • a menu M3 from which "Simulation” and “Studio simulation” can be selected is displayed.
  • the server device 100 uses the "sound source separation” technique for "noise removal” as described above. However, the server device 100 only transmits the sound data of a single sound source to the smartphone 10, and does not transmit data divided into multiple times. Therefore, the option name is "De-noise” instead of "Audio separation & De-noise”.
  • the display control unit 17b displays a menu M3 in which "De-noise” and "Studio simulation” can be selected, respectively, as shown in FIG. let For example, if the sound source data of the track type "Guitar” is not recorded via the microphone 11, but is sound source data purchased by the user, "De-reverb” and “Mic Simulation” are It can be hidden so that it does not need to be selected.
  • the high-quality sound processing is executed.
  • the display control unit 17b notifies the progress status of the high-quality sound processing, as shown in section M4 in the figure.
  • the display control unit 17b displays "uploading”, “tuning”, “downloading” and an indicator indicating the progress status as the notification content. Further, although not shown in the figure, a completion notification is displayed after completion.
  • the user can record and edit tracks other than the track that is undergoing the high-quality sound processing. Furthermore, only operations related to playback can be performed on a track that is undergoing high-quality sound processing. Operations related to playback include playback, mute, volume adjustment, and the like. Therefore, editing such as trimming or comping cannot be performed on a track that is undergoing high-quality sound processing. This makes it possible to ensure the consistency of the tracks targeted for the high-quality sound processing.
  • each track that has undergone high-quality sound processing is displayed in a list on the editing screen of the recording and editing application, as shown in FIG.
  • the display control unit 17b displays each track that has undergone the sound quality enhancement process at a position above the track that has not been subjected to the sound quality enhancement process.
  • the display control unit 17b also displays an icon DI indicating that the high-quality sound processing has been completed.
  • the display control unit 17b grays out the display of the track before the high-quality sound processing. Further, the track before the high-quality sound processing is muted.
  • the track before high-quality sound processing is basically unnecessary, so it is automatically muted after high-quality sound processing.
  • the user can switch the mute state between a track that has undergone high-quality sound processing and a track that has not been subjected to high-quality sound processing, and compare the sounds. After that, if the user does not like the track that has been processed for high-quality sound, he or she can mute the track that has not been processed for high-quality sound and edit the track that has been processed for high-quality sound, or perform the high-quality sound processing again. can be executed. When performing the high-quality sound processing again, the user can also change the specified options from before.
  • the application execution unit 17a names the track that has undergone the sound quality enhancement process a different track name from the one before the audio quality enhancement process.
  • the basic naming rule is to add (Tuned) to the original track name before high quality sound processing.
  • the track name is named in a format where (Tuned) described above becomes (Tuned_sound source name).
  • (Tuned) the track name of the vocal sound track that has been subjected to the high-quality sound processing becomes "original track name (Tuned_Vo)" as shown in FIG. 20.
  • the track name of the guitar sound track that has been processed to improve the sound quality is "original track name (Tuned_Gt)."
  • the file name can be in the format of track name + extension, Even after a file is output, it is possible to immediately identify whether or not it has been subjected to high-quality sound processing just by the file name.
  • the display control unit 17b superimposes the named track name on the track that has been subjected to the high-quality sound enhancement process, and displays an icon corresponding to the type of the track that has undergone the high-quality sound enhancement process. Display.
  • the icon I3 that was displayed for the track before the high-quality sound processing becomes icons I1 and I2 for each track that has undergone the high-quality sound processing.
  • the display control unit 17b clearly indicates that the high-quality sound processing has been completed, particularly that the sound source separation has been completed, using the icon indicating the track type and the track name.
  • the display control unit 17b displays a pop-up P1 indicating the content of the high-quality sound processing that has been performed. Display. Thereby, the user can instantly grasp the contents of the high-quality sound processing performed on the corresponding track by a simple operation of touching the icon DI.
  • the recording/editing application can display a track hide/display switching screen.
  • FIG. 22 is a diagram showing an example of the UI when switching between non-display and display. As shown in FIG. 22, on the non-display/display switching screen, each track that can be edited by the recording/editing application is displayed in a list.
  • a check box CB is provided in each list.
  • the user selects only the tracks that he wishes to keep displayed using the check boxes CB, and touches the NEXT button NB. Then, the display control unit 17b thereafter displays only the tracks selected by the check box CB, and hides the unselected tracks. A hidden track is automatically muted and is no longer included in the playback target.
  • the recording and editing application has a count-in function.
  • the count-in function is a function that takes a count in time with the start of recording on the recording screen.
  • the recording/editing application realizes this count-in function by displaying a count on the display unit 15 and outputting the count from the speaker 12.
  • FIGS. 23 to 25 are diagrams (Part 1) to (Part 3) showing examples of UI regarding the count-in function.
  • the display control unit 17b displays a setting screen for the count-in function as shown in FIG. 23.
  • This setting screen includes a tempo setting section (see “Tempo” in the figure), a count sound setting section, a time signature setting section TS, and a count-in length setting section CI. .
  • the tempo can be set by specifying an arbitrary value.
  • the count sound can be selected from a metronome (see “Metronome” in the figure), a drumstick count sound, etc.
  • the user can select and set 4/4 time, 3/4 time, 6/8 time, etc. from the setting section TS.
  • the user can set the number of measures indicating the length of the count-in to 1 measure or more, for example, 1 measure, 2 measures, 4 measures, 8 measures. You can select and set from among them.
  • the user has selected 4/4 time as the time signature and 4 bars as the number of bars, as shown in parts M5 and M6 of FIG. 23.
  • the user positions the song position cursor In at the time stamp "25" on the recording screen, and touches the recording button SB with this position as the recording start position.
  • the display control unit 17b automatically skips the song position cursor In to a position corresponding to four bars before the time stamp "25", and starts counting in from that position.
  • the display control unit 17b moves the song position cursor In according to the set tempo and displays a count in the count display area CR.
  • the display control unit 17b displays negative values such as "-2", "-1”, etc. in the count display area CR until the music position cursor In reaches one measure immediately before the recording start position. Displays a count up from .
  • "-2" corresponds to three bars earlier
  • "-1" corresponds to two bars earlier.
  • the display control unit 17b displays a count up from “1" in the count display area CR one bar before the recording start position. If the 4/4 time signature is set as shown in FIG. 23, the display control unit 17b will count from 1 to 4 as “1", “2", “3", and "4" as shown in FIG. The close-up display matches the tempo.
  • the application execution unit 17a outputs a count sound from the speaker 12 in synchronization with the count-up every time the display control unit 17b displays a count-up one bar before. Then, recording starts from the time when the music position cursor In reaches the recording start position.
  • the user can set the count-in function with a high degree of freedom, such as being able to select the length of the count-in, which is two bars or more, depending on his or her own rhythmic style. Further, the user can set the timing to start recording at a timing of his/her preference while using the count-in function according to the settings.
  • FIG. 26 is a diagram showing a processing sequence when the information processing system 1 performs high-quality sound processing.
  • the smartphone 10 first starts the recording and editing application (step S101). Then, the smartphone 10 detects a touch operation on the high-quality sound button TB on the editing screen of the recording editing application (step S102).
  • the smartphone 10 variably displays the high-quality sound menu M3 in conjunction with the type of sound source data selected when the high-quality sound button TB is touched (step S103).
  • the smartphone 10 detects an operation to select an option for high-quality sound processing via the variably displayed menu M3 (step S104). Then, the smartphone 10 transmits the selected option and sound source data to the server device 100 (step S105).
  • the server device 100 acquires the data transmitted from the smartphone 10 in step S105, and executes high-quality sound processing using AI processing based on the data (step S106).
  • the server device 100 transmits the high-quality sound data to the smartphone 10 (step S107).
  • the server device 100 transmits to the smartphone 10 data that has been subjected to the sound quality enhancement processing for the separated sound sources. At this time, data separated as sounds other than the sound source is not transmitted.
  • the smartphone 10 receives the high-quality sound data transmitted from the server device 100 (step S108).
  • the user checks the data that has been subjected to the sound quality enhancement process, and edits the data as necessary.
  • step S102 when the user wants to perform the high-quality sound processing again, if the user selects the sound source data to be processed on the editing screen and touches the high-quality sound button TB, the smartphone 10 repeats the processing from step S102. It happens.
  • the recording and editing application records the sound collected by the microphone 11 provided in the smartphone 10, but the microphone used in this recording function is an external microphone connected to the smartphone 10. There may be.
  • the speaker used by the recording and editing application may be an external speaker connected to the smartphone 10 instead of the speaker 12 included in the smartphone 10.
  • the server device 100 executes the high-quality sound processing using the high-quality sound processing model 102a, but the smartphone 10 may perform such high-quality sound processing.
  • the server device 100 will function as a learning device that learns the high-quality sound processing model 102a.
  • the smartphone 10 also receives the learned high-quality sound processing model 102a from the server device 100, and has the high-quality sound processing model 102a in the smartphone 10.
  • the smartphone 10 executes high-quality sound processing using the high-quality sound processing model 102a that it owns. In such a case, there is an advantage that the response of the high-quality sound processing can be improved. On the other hand, the smartphone 10 needs to have processing ability that can perform high-quality sound processing.
  • microphone simulation may be such that the user selects one microphone from a plurality of high-performance microphones and reproduces the microphone characteristics of the selected microphone.
  • studio simulation may be such that the user selects one studio from among a plurality of famous studios and adds the unique echoes of the selected studio.
  • the user instead of a studio, selects one concert venue from among several famous concert venues, and high-quality sound processing such as "concert simulation” that adds the unique reverberations of the selected concert venue. may be performed.
  • each component of each device shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings.
  • the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads and usage conditions. Can be integrated and configured.
  • FIG. 27 is a hardware configuration diagram showing an example of a computer 1000 that implements the functions of the smartphone 10.
  • Computer 1000 has CPU 1100, RAM 1200, ROM 1300, secondary storage 1400, communication interface 1500, and input/output interface 1600. Each part of computer 1000 is connected by bus 1050.
  • the CPU 1100 operates based on a program stored in the ROM 1300 or the secondary storage device 1400, and controls each part. For example, the CPU 1100 loads programs stored in the ROM 1300 or the secondary storage device 1400 into the RAM 1200, and executes processes corresponding to various programs.
  • the ROM 1300 stores boot programs such as BIOS (Basic Input Output System) that are executed by the CPU 1100 when the computer 1000 is started, programs that depend on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the secondary storage device 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by the programs. Specifically, the secondary storage device 1400 is a recording medium that records a program according to the embodiment of the present disclosure, which corresponds to the application information 16a, which is an example of the program data 1450.
  • Communication interface 1500 is an interface for connecting computer 1000 to external network 1550.
  • CPU 1100 receives data from other devices or transmits data generated by CPU 1100 to other devices via communication interface 1500.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a microphone or a touch panel via the input/output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display or a speaker via an input/output interface 1600.
  • the input/output interface 1600 may function as a media interface that reads programs and the like recorded on a predetermined recording medium.
  • Media includes, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memory, etc. It is.
  • the CPU 1100 of the computer 1000 realizes the functions of the control unit 17 by executing a program loaded onto the RAM 1200.
  • the secondary storage device 1400 stores programs according to the present disclosure and data in the storage unit 16. Note that although the CPU 1100 reads and executes the program data 1450 from the secondary storage device 1400, as another example, these programs may be obtained from another device via the external network 1550.
  • the smartphone 10 (corresponding to an example of an "information processing device") is equipped with a recording editing application (an example of an "application having a sound source data recording function and an editing function"). ), and when the user selects the sound source data to be improved in sound quality through the recording/editing application, the type of the selected sound source data. and a display control section 17b that causes the display section 15 to variably display the above-mentioned high-quality sound menu M3 in conjunction with the above. Thereby, it is possible to improve the convenience when the user creates music content.
  • a recording editing application an example of an "application having a sound source data recording function and an editing function”
  • an application execution unit configured to run an application having a sound source data recording function and an editing function;
  • the menu for improving the sound quality is variably displayed on the display unit in conjunction with the type of the selected sound source data.
  • a display control unit that allows An information processing device comprising: (2)
  • the display control section includes: When the sound source data is selected via the application, the selected sound source data is clearly displayed on the display unit.
  • the display control section includes: The sound source data is displayed as a list on the display unit together with the tag added to the sound source data, and when the sound source data is selected via the application, the tag added to the selected sound source data is displayed.
  • the display control section includes: The sound source data is displayed as a list on the display section, and when the sound source data is selected via the application, the entire width of the row in which the selected sound source data is displayed is expanded. Enlarge the display.
  • the application execution unit includes: It is possible to set a first type indicating that the sound source data includes sounds from a plurality of different sound sources based on a user's selection;
  • the display control section includes: If the first type is set for the sound source data, displaying the sound source data as a list on the display unit along with an icon indicating that the first type is set.
  • the information processing device includes: When the sound source data includes a plurality of different sound sources, including a sound source separation process for separating an arbitrary sound source from the sound source data,
  • the display control section includes: displaying the high-quality sound menu on the display unit so that the sound source separation process can be selected only when the first type is set in the sound source data;
  • the information processing device according to (5) above.
  • the high-quality sound processing includes: a noise removal process that uses the sound source separation process to remove sounds other than the arbitrary sound source as noise;
  • the display control section includes: When the first type is set in the sound source data, displaying the high-quality sound menu on the display unit so that the sound source separation process and the noise removal process can be selected at the same time;
  • the information processing device according to (6) above.
  • the display control section includes: If a type other than the first type is set in the sound source data, displaying the high-quality sound menu on the display unit so that the noise removal process can be independently selected; The information processing device according to (7) above.
  • the display control section includes: When the high-quality sound-enhancing data is obtained, displaying a list of the high-quality sound-enhancing data on the display unit together with an icon indicating that the high-quality sound has been processed; The information processing device according to (7) or (8) above. (10) Executing an application that has a sound source data recording function and editing function, When the user selects the sound source data to be improved in sound quality through the application, the menu for improving the sound quality is variably displayed on the display unit in conjunction with the type of the selected sound source data.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

スマートフォン(「情報処理装置」の一例に相当)は、録音編集アプリ(「音源データの録音機能および編集機能を有するアプリ」の一例に相当)を実行可能に設けられるアプリ実行部と、録音編集アプリを介してユーザにより高音質化の対象とする上記音源データの選択が行われた場合に、選択された上記音源データの種別に連動して上記高音質化のメニューを表示部に可変表示させる表示制御部と、を備える。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 近年、スマートフォンやタブレット端末といった携帯型の情報処理装置の普及が目覚ましい。また、これら携帯型の情報処理装置は、処理能力の高性能化も急速に進んでおり、ユーザは、かかる情報処理装置を用いて、個人で手軽に音楽や映像等の各種メディアコンテンツを制作することが可能になってきている。
 音楽コンテンツの制作に関しては、情報処理装置で動作する録音編集用のアプリケーションソフトウェア(アプリ)が知られている。ユーザは、かかるアプリを用いて、情報処理装置が録音したあるいは外部から購入した音源データの編集作業を自由度高く行うことができる。
 また、録音編集用のアプリには、ネットワークを介し、複数の情報処理装置で録音された音源データを編集可能とすることで、複数のユーザの共同での音楽コンテンツの制作を支援するものもある(例えば、特許文献1参照)。
国際公開第2019/102730号
 しかしながら、上述した従来技術には、ユーザが音楽コンテンツを制作する際の利便性をより向上させるうえで、さらなる改善の余地がある。
 そこで、本開示では、ユーザが音楽コンテンツを制作する際の利便性より向上させることができる情報処理装置、情報処理方法およびプログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、音源データの録音機能および編集機能を有するアプリを実行可能に設けられるアプリ実行部と、前記アプリを介してユーザにより高音質化の対象とする前記音源データの選択が行われた場合に、選択された前記音源データの種別に連動して前記高音質化のメニューを表示部に可変表示させる表示制御部と、を備える。
本開示の実施形態に係る情報処理方法の概要説明図である。 本開示の実施形態に係るスマートフォンの構成例を示すブロック図である。 本開示の実施形態に係るサーバ装置の構成例を示すブロック図である。 トラック追加時のUI例を示す図である。 トラック選択時のUI例を示す図(その1)である。 トラック選択時のUI例を示す図(その2)である。 トラック選択時のUI例を示す図(その3)である。 トラック種別の変更時のUI例を示す図である。 高音質化処理実行時のUI例を示す図(その1)である。 高音質化処理の内容を示す図である。 高音質化処理実行時のUI例を示す図(その2)である。 高音質化処理実行時のUI例を示す図(その3)である。 高音質化処理実行時のUI例を示す図(その4)である。 高音質化処理実行時のUI例を示す図(その5)である。 高音質化処理の通知内容を示す図である。 高音質化処理実行中の状態を示す図である。 高音質化処理実行時のUI例を示す図(その6)である。 高音質化処理実行時のUI例を示す図(その7)である。 トラック名の命名規則の説明図(その1)である。 トラック名の命名規則の説明図(その2)である。 高音質化処理実行時のUI例を示す図(その8)である。 非表示/表示切り替え時のUI例を示す図である。 カウントイン機能に関するUI例を示す図(その1)である。 カウントイン機能に関するUI例を示す図(その2)である。 カウントイン機能に関するUI例を示す図(その3)である。 情報処理システムが高音質化処理を行う場合の処理シーケンスを示す図である。 スマートフォンの機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、以下では、本開示の実施形態に係る情報処理装置が、ユーザの利用するスマートフォン10である場合を主たる例に挙げて説明を行う。また、以下では、スマートフォン10で動作する録音編集用のアプリを「録音編集アプリ」と言う。
 また、以下では、スマートフォン10によって録音される、あるいは外部から購入されてスマートフォン10のストレージに記憶されている音源データのことを適宜「トラック」と言う。
 また、以下では、本開示の実施形態に係る録音編集アプリにおいて各トラックを高音質化させる機能のことを高音質化機能と言う。高音質化機能は、後に示す図面において「Studio tuning」や「STUDIO TUNING」と図示される場合がある。また、高音質化機能によって実行される処理のことを「高音質化処理」と言う。
 また、以下に示す項目順序に従って本開示を説明する。
  1.概要
  2.スマートフォンの構成例
  3.サーバ装置の構成例
  4.録音編集アプリにおけるUI例
   4-1.トラック追加時
   4-2.トラック選択時
   4-3.トラック種別の変更時
   4-4.高音質化処理実行時
   4-5.非表示/表示切り替え時
   4-6.カウントイン機能
  5.処理シーケンス
  6.変形例
  7.ハードウェア構成
  8.むすび
<<1.概要>>
 図1は、本開示の実施形態に係る情報処理方法の概要説明図である。本開示の実施形態に係る情報処理方法は、情報処理システム1が実行する。図1に示すように、情報処理システム1は、スマートフォン10と、サーバ装置100とを含む。
 スマートフォン10は、ユーザが利用する携帯型の情報処理装置である。スマートフォン10は、本開示の実施形態に係る録音編集アプリを実行可能なプラットフォームを有する。
 図1に示すように、スマートフォン10は、マイク11と、スピーカ12と、表示部15とを有する。マイク11は、スマートフォン10の長手方向の送話口寄りの一端部に設けられる。スピーカ12は、上記一端部に対する受話口寄りの他端部に設けられる。
 表示部15は、後述する操作部14(図2参照)と一体化したタッチスクリーンとして実現され、矩形形状を有する。タッチスクリーンは、ユーザのタッチ操作を検出する。タッチスクリーンの検出方式としては、静電容量方式、抵抗膜方式、表面弾性波方式(又は超音波方式)、赤外線方式、電磁誘導方式および荷重検出方式などの公知の方式が用いられる。
 タッチスクリーンは、スマートフォン10で録音編集アプリが実行されている場合、録音編集アプリに関する各種のユーザインターフェイス(User Interface;UI)を表示し、かかるUIに対するユーザのタッチ操作を検出する。
 また、マイク11は、録音編集アプリにおいて録音を開始する操作が行われた場合、音源(例えば楽器)から発せられる音を集音し、録音に際し予め指定されたトラック種別の音源データとして収録させる。また、スピーカ12は、録音編集アプリにおいて音源データを再生する操作が行われた場合、再生に際して選択された音源データを出力する。
 ところで、従来の録音編集アプリは、ユーザが音楽コンテンツを制作する際の利便性をより向上させるうえで、さらなる改善の余地がある。
 既に述べた通り、スマートフォン10をはじめとする携帯型の情報処理装置は近年、処理能力の高性能化が急速に進んでおり、ユーザは、録音編集アプリを用いて、個人で手軽に音楽コンテンツを制作することが可能となっている。また、これに伴って、ユーザが、制作した音楽コンテンツを例えばSNS(Social Network Service)や動画配信サービスなどに公開する機会も増えてきている。
 このため、昨今、ユーザが自身の制作する音楽コンテンツの高音質化を求めるニーズも高まっている。なお、ここに言う「高音質化」の例としては、例えば1つのマイク11を用いて収録されたトラックに含まれる複数の異なる音源を分離する「音源分離」や、ノイズを除去する「ノイズ除去」、不要な残響を除去する「残響除去」などを挙げることができる。この他にも、高性能なマイクのマイク特性を再現する「マイクシミュレート」や、レコーディングスタジオ等が持つ固有の反響を付加する「スタジオシミュレート」などを挙げることができる。
 従来の録音編集アプリは、こうした高音質化機能に関する拡充が十分ではないという実情があった。例えば、1つのトラックは、単一の音源で録音されたり、複数の音源を含んで録音されたりとその種別は様々である。そして、複数の音源を含むトラックは前述の「音源分離」の処理対象となりうるが、単一の音源のトラックはその処理対象とはなりえない。従来の録音編集アプリを用いる場合、ユーザは、こうしたトラック種別に応じた違いを自身が把握し、自身で高音質化に関する設定内容を逐一指定する必要があった。
 そこで、本開示の実施形態に係る情報処理方法では、スマートフォン10は、高音質化の対象として選択された音源データの種別に連動して高音質化のメニューを可変表示させることとした。
 具体的には、図1に示すように、スマートフォン10はまず録音編集アプリを実行する(ステップS1)。そして、スマートフォン10は、録音編集アプリにおいて、高音質化の対象として選択された音源データの種別に連動して高音質化のメニューを可変表示させる(ステップS2)。
 このように、言わば音源データの種別に応じたメニューの自動化を行うことで、ユーザは、トラック種別に応じた違いを自身が把握し、自身で高音質化に関する設定内容を逐一指定する必要がなくなる。また、ユーザが、間違った指定を行ってしまうことを防ぐことができる。すなわち、ユーザが音楽コンテンツを制作する際の利便性をより向上させることができる。なお、ステップS2の場合を含む本開示の実施形態に係る録音編集アプリの各種のUIの具体例については、図4以降を用いた説明で後述する。
 そして、スマートフォン10は、高音質化に関し、可変表示させたメニューを介して指定された内容とともに音源データをサーバ装置100へ送信する(ステップS3)。
 サーバ装置100は、携帯電話回線網やインターネット等であるネットワークNを介し、スマートフォン10と通信可能に設けられた装置である。サーバ装置100は、例えばクラウドサーバとして実現される。
 サーバ装置100は、高音質化処理モデル102a(図3参照)を有しており、かかる高音質化処理モデル102aを用いた高音質化処理を実行可能に設けられる。高音質化処理モデル102aは、例えば深層学習のアルゴリズムを用いて学習されたDNN(Deep Neural Network)モデルである。
 サーバ装置100は、かかる高音質化処理モデル102aを用いたAI(Artificial Intelligence)処理により、スマートフォン10から取得した音源データに対し高音質化処理を実行する(ステップS4)。そして、サーバ装置100は、高音質化後のデータをスマートフォン10へ向けて送信し、スマートフォン10はこれを受信する(ステップS5)。
 なお、サーバ装置100が、処理負荷の高い高音質化処理をクラウドサーバモデルにより統合的に実行することで、スマートフォン10は、高音質化処理の間も、高音質化処理に影響を与えない範囲で録音編集アプリの使用を継続したり、他のアプリを実行したりすることができる。
<<2.スマートフォンの構成例>>
 次に、スマートフォン10の構成例について説明する。図2は、本開示の実施形態に係るスマートフォン10の構成例を示すブロック図である。なお、図2および後に示す図3では、本開示の実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。
 換言すれば、図2および図3に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。
 また、図2および図3を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。
 図2に示すように、スマートフォン10は、マイク11と、スピーカ12と、通信部13と、操作部14と、表示部15と、記憶部16と、制御部17とを有する。
 マイク11およびスピーカ12については説明済みのため、ここでは説明を省略する。通信部13は、通信モジュール等によって実現される。通信部13は、前述のネットワークNに対し無線接続され、ネットワークNを介したサーバ装置100との間の通信を実現する。
 操作部14は、スマートフォン10に搭載された操作部品であり、例えばタッチパネルにより実現される。表示部15は、スマートフォン10に搭載された表示部品であり、例えばディスプレイにより実現される。
 なお、操作部14と表示部15とは例えば一体化され、前述のタッチスクリーンを構成する。したがって、操作部14は、表示部15に表示されるソフトウェア部品であってもよく、例えば録音編集アプリが表示部15上に操作可能に表示させるGUI(Graphical User Interface)であってもよい。
 記憶部16は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子などによって実現される。図2に示す例では、記憶部16は、アプリ情報16aを記憶する。アプリ情報16aは、録音編集アプリのプログラムや、録音編集アプリの動作中に用いられる各種のパラメータ等を含む情報である。
 制御部17は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、記憶部16に記憶されている本開示の実施形態に係るプログラムがRAMを作業領域として実行されることにより実現される。また、制御部17は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現することができる。
 制御部17は、アプリ実行部17aと、表示制御部17bと、通信制御部17cとを有し、以下に説明する情報処理の機能や作用を実現または実行する。
 アプリ実行部17aは、記憶部16に記憶されているアプリ情報16aを読み込んで録音編集アプリを実行する。アプリ実行部17aは、例えば、操作部14から入力される録音編集アプリにおけるトラック追加時の操作内容に応じて、トラックを追加する。
 また、アプリ実行部17aは、例えば、操作部14から入力される録音編集アプリにおけるトラック選択時の操作内容に応じて、トラックを選択する。また、アプリ実行部17aは、例えば、操作部14から入力される録音編集アプリにおけるトラック種別の変更時の操作内容に応じて、音源データのトラック種別を変更する。
 また、アプリ実行部17aは、例えば、操作部14から入力される録音編集アプリにおける高音質化処理実行時の操作内容に応じて、高音質化処理を実行する。また、アプリ実行部17aは、例えば、操作部14から入力される録音編集アプリにおけるトラックの非表示/表示切り替えに関する操作内容に応じて、トラックの非表示/表示を切り替える。また、アプリ実行部17aは、例えば、操作部14から入力される録音編集アプリにおけるカウントイン機能に関する操作内容に応じて、カウントイン機能を実行する。
 また、アプリ実行部17aは、これら録音編集アプリの実行に際しての各種の操作内容に応じ、各種のUIを含む視覚情報の表示制御を表示制御部17bに行わせる。各種のUIの具体例については、図4~図25を用いた説明で後述する。
 表示制御部17bは、アプリ実行部17aの指示に基づいて、録音編集アプリを実行するに際しての表示部15に対する視覚情報の表示制御を行う。通信制御部17cは、録音編集アプリを実行するに際してのサーバ装置100に対する通信制御を行う。
 通信制御部17cは、通信部13を介し、例えば高音質化処理の対象となる音源データをサーバ装置100へ向けてアップロードする。また、通信制御部17cは、通信部13を介し、例えばサーバ装置100において高音質化処理が行われた高音質化処理済みのデータをサーバ装置100からダウンロードする。
<<3.サーバ装置の構成例>>
 次に、サーバ装置100の構成例について説明する。図3は、本開示の実施形態に係るサーバ装置100の構成例を示すブロック図である。
 図3に示すように、サーバ装置100は、通信部101と、記憶部102と、制御部103とを有する。
 通信部101は、上述した通信部13と同様に、通信モジュール等によって実現される。通信部101は、前述のネットワークNに対し有線接続または無線接続され、ネットワークNを介したスマートフォン10との間の通信を実現する。
 記憶部102は、上述した記憶部16と同様に、例えば、RAM、ROM、フラッシュメモリ等の半導体メモリ素子などによって実現される。また、記憶部102は、ハードディスク装置や光ディスク装置などのディスク装置によって実現される。図3に示す例では、記憶部102は、高音質化処理モデル102aを記憶する。
 高音質化処理モデル102aは、既に述べた通り、例えば深層学習のアルゴリズムを用いて学習されたDNNモデルである。なお、高音質化処理モデル102aの学習アルゴリズムは、深層学習に限られない。高音質化処理モデル102aは、後述する高音質化処理部103bによって読み込まれ、処理対象となる音源データが入力された場合に、指定された設定内容(オプション)で当該音源データに対する高音質化処理を施し、高音質化処理済みのデータを出力する。
 制御部103は、上述した制御部17と同様に、コントローラであり、例えば、CPUやMPU等によって、記憶部102に記憶されている図示略の各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部103は、例えば、ASICやFPGA等の集積回路により実現することができる。
 制御部103は、取得部103aと、高音質化処理部103bと、送信部103cとを有し、以下に説明する情報処理の機能や作用を実現または実行する。
 取得部103aは、通信部101を介し、スマートフォン10において指定された高音質化処理のオプション、および、処理対象となる音源データを取得する。また、取得部103aは、取得した各データを高音質化処理部103bへ出力する。
 高音質化処理部103bは、記憶部102から高音質化処理モデル102aへ読み込み、取得部103aから受け取った各データを高音質化処理モデル102aへ入力する。また、高音質化処理部103bは、高音質化処理モデル102aから出力される高音質化処理済みのデータを取得し、送信部103cへ出力する。
 送信部103cは、通信部101を介し、高音質化処理部103bから受け取った高音質化処理済みのデータをスマートフォン10へ向けて送信する。
<<4.録音編集アプリにおけるUI例>>
 次に、本開示の実施形態に係る録音編集アプリにおける各種のUI例について、図4~図25を用いて順次説明する。
<4-1.トラック追加時>
 まず、録音編集アプリの録音画面におけるトラック追加時のUI例から説明する。図4は、トラック追加時のUI例を示す図である。
 録音編集アプリを起動すると、前述の表示制御部17bは、図4に示すように、録音画面選択ボタンRBおよび編集画面選択ボタンEBを表示させる。そして、ユーザが録音画面選択ボタンRBをタッチ操作すると、表示制御部17bは、図4の左図に示すように、トラック追加ボタンA1を含むトラック追加画面を表示させる。
 そして、ユーザがトラック追加ボタンA1をタッチ操作すると、表示制御部17bは、図4の中央図に示すように、トラック種別選択画面A2を表示させる。本開示の実施形態に係る録音編集アプリでは、例えば音源となる楽器ごとに高音質化処理において指定可能なオプション等が異なるため、トラック追加時にトラック種別選択画面A2においてユーザにトラック種別を選択させる。
 ここで、図4の中央図に示すように、ユーザがトラック種別T3を選択したものとする。トラック種別T3は、音源としてボーカルおよびギター(図中の「Vocals & Guitar」参照)の複数音源を含む音源データの種別に該当する。すなわち、トラック種別T3は、複数の楽器を同時に録音する録音モードを選択する場合に指定される。
 かかる録音モードで録音された音源データは、高音質化処理のオプションの一つである前述の「音源分離」を実行することで、録音後に楽器ごとの音の音源データに分離することができる。
 そして、トラック種別T3が選択されると、表示制御部17bは、図4の右図に示すように、トラック種別選択画面A2を消去し、トラック種別T3に対応するアイコンI3を表示させる。そのうえで、図4の右図に示すように、ユーザが録音ボタンSBをタッチ操作すれば、アプリ実行部17aは録音動作を開始させ、表示制御部17bは、かかる録音動作に応じた入力波形のリアルタイム表示等を行うこととなる。
<4-2.トラック選択時>
 次に、録音編集アプリの編集画面におけるトラック選択時のUI例について説明する。図5~図7は、トラック選択時のUI例を示す図(その1)~(その3)である。ユーザが前述の編集画面選択ボタンEBをタッチ操作すると、表示制御部17bは、図5に示すように、編集画面を表示させる。
 編集画面では、図5に示すように、編集対象の候補となる音源データがリスト表示される。ここで、ユーザが編集したい音源データをタッチ操作すると、該当の音源データが選択され、図中のM1部に示すように、選択された音源データがハイライト表示される。すなわち、表示制御部17bは、かかるハイライト表示によって選択された音源データを明示する。
 なお、図5に示すように、各音源データにはタグRが付与され、表示されている。表示制御部17bは、かかるタグRの表示を変更することによって、選択された音源データを明示することができる。例えば、図5に示すように、音源データ「Track_1」が選択されたものとする。
 すると、表示制御部17bは、図6に示すように、例えば当該「Track_1」のタグR1を「Track_1」が表示されている行の行方向に向けて延伸するようにタグR1を拡大表示する。表示制御部17bは、かかるタグR1の拡大表示によって、選択された音源データを明示することができる。
 また、表示制御部17bは、図7に示すように、例えば「Track_1」のタグR1を含む「Track_1」が表示されている行の幅全体を拡げる拡大表示を行うこともできる。表示制御部17bは、かかる行の幅全体を拡げる拡大表示によっても、選択された音源データを明示することができる。なお、音源データの選択が解除された場合、表示制御部17bは、図6および図7に示した各拡大表示を解消して選択前の状態に表示を戻す。
<4-3.トラック種別の変更時>
 次に、編集画面におけるトラック種別の変更時のUI例について説明する。図8は、トラック種別の変更時のUI例を示す図である。編集画面において選択された音源データに対しユーザが所定のタッチ操作を行うと、図8に示すように、表示制御部17bは、該当の音源データに対する所定の操作を行うことができるトラックメニューTMを表示させる。
 トラックメニューTMでは、「トラック種別の変更(Change track type)」、「トラック名の変更(Change track name)」、「複製(Duplicate)」、「削除(Delete)」が可能である。
 図8の例では、ユーザが、アイコンI3に対応するトラック種別T3の音源データ「Track_1」を選択し、図中のM2部に示すように、さらに「トラック種別の変更」を選択したものとする。
 すると、表示制御部17bは、図8の中央図に示すように、トラック種別の変更画面CTを表示させる。ここで、ユーザは同図に示すように、トラック種別T1を選択したものとする。トラック種別T1は、単一音源であるボーカル(図中の「Vocals」参照)の音源データに該当する。
 すると、表示制御部17bは、図8の下図に示すように、該当の「Track_1」に関し、トラック種別T1に対応するアイコンI1を表示させる。なお、単一音源のトラック種別T1への変更を行うと、高音質化処理のオプションとして、前述の「音源分離」は選択できなくなる。すなわち、ユーザは、図8に示したトラック種別の変更を行うことによって、高音質化処理において選択可能となるオプションを任意に変更することができる。
<4-4.高音質化処理実行時>
 次に、編集画面における高音質化処理実行時のUI例について説明する。図9は、高音質化処理実行時のUI例を示す図(その1)である。また、図10は、高音質化処理の内容を示す図である。また、図11~図14は、高音質化処理実行時のUI例を示す図(その2)~(その5)である。また、図15は、高音質化処理の通知内容を示す図である。また、図16は、高音質化処理実行中の状態を示す図である。
 また、図17および図18は、高音質化処理実行時のUI例を示す図(その6)および(その7)である。また、図19および図20は、トラック名の命名規則の説明図(その1)および(その2)である。また、図21は、高音質化処理実行時のUI例を示す図(その8)である。
 図9の上図に示すように、ユーザが音源データのいずれか(ここでは「Track_1」)を選択した状態で、編集画面における高音質化(STUDIO TUNING)ボタンTBをタップ操作すると、表示制御部17bは、図9の下図に示すように、高音質化処理実行画面を表示させる。
 高音質化処理実行画面には、図中のD1部に示すように、選択された音源データのデータ容量のほか、D2部に示すように利用可能な残りのデータ容量が表示される。また、高音質化処理実行画面には、高音質化処理において選択可能なオプションを示す高音質化のメニューM3が表示される。
 図10に示すように、本開示の実施形態では、前述した「音源分離(Audio Separation)」、「ノイズ除去(De-noise)」、「残響除去(De-reverb)」、「マイクシミュレート(Mic simulation)」、「スタジオシミュレート(Studio simulation)」等の高音質化処理を実行可能とする。
 図1を用いて説明したように、本開示の実施形態に係る情報処理方法では、高音質化処理モデル102aを用いたAI処理により、スマートフォン10から取得した音源データに対し高音質化処理を実行する。これにより、音源データをプロのスタジオクオリティの音質にアップコンバートすることができる。
 「音源分離」については、既に述べた点以外を補足すると、スマートフォン10側では分離した音を個別に聴いたり、ユーザの任意の音量バランスでミックスを行ったりすることができる。
 また、「ノイズ除去」について補足すると、「音源分離」の技術を利用することにより、例えばトラック種別T3の音源データに含まれるボーカルやギターの音から、それ以外のあらゆる音をノイズとして分離除去することができる。
 また、「残響除去」について補足すると、AI処理により、一般的な家屋における残響(部屋の反響)を抑制および除去し、スタジオ録音素材のような音質に作り替えることができる。
 また、「マイクシミュレート」について補足すると、高性能な真空管式コンデンサーマイクロホンの周波数特性を再現することができる。
 また、「スタジオシミュレート」については、エフェクトとしてのリバーブを付加することなく、レコーディングスタジオ等が持つ固有の反響を付加することができる。
 そして、表示制御部17bは、選択された音源データの種別に連動して高音質化のメニューM3を可変表示させる。例えば、表示制御部17bは、トラック種別T3の音源データが選択された場合、図11に示すように、「Audio Separation & De-noise」、「De-reverb」、「Mic Simulation」、「Studio simulation」がそれぞれ選択可能なメニューM3を表示させる。
 なお、「音源分離」では、選択されたトラック種別とそれ以外とに分離される。したがって、トラック種別T3の場合、ボーカルの音と、ギターの音と、その他の音とに分離される。本開示の実施形態では、複数音源としてボーカルおよびギターを例に挙げているが、ピアノやドラムといったその他の楽器についても、高音質化処理モデル102aの学習対象とすることで分離対象とすることは可能である。
 そして、サーバ装置100は、分離した音のうち、選択されたトラック種別が示す音のデータのみをスマートフォン10へ送信する。ノイズはその他の音に含まれるため、「音源分離」が行われることでノイズも除去される。よって図11に示すように、表示制御部17bは、メニューM3において選択可能なオプション名として「Audio Separation & De-noise」を表示する。
 同様に、表示制御部17bは、例えば前述のトラック種別T1である「Vocals」の音源データが選択された場合、図12に示すように、「De-noise」、「De-reverb」、「Mic Simulation」、「Studio simulation」がそれぞれ選択可能なメニューM3を表示させる。
 トラック種別が単一音源の場合でも、サーバ装置100は、上述したように「ノイズ除去」に「音源分離」の技術を利用する。ただし、サーバ装置100は、スマートフォン10に対し単一音源の音のデータを送信するのみで、複数回に分けた送信を行うわけではない。このため、オプション名は「Audio separation & De-noise」ではなく、「De-noise」となる。
 同様に、表示制御部17bは、例えばトラック種別「Guitar」の音源データが選択された場合、図13に示すように、「De-noise」、「Studio simulation」がそれぞれ選択可能なメニューM3を表示させる。例えばトラック種別「Guitar」の音源データがマイク11を介して録音されたものではなく、ユーザが購入した音源データ等である場合、図13に示すように「De-reverb」や「Mic Simulation」は選択不要として非表示にすることができる。
 そして、図14に示すように、ユーザが高音質化処理実行画面において選択スイッチSWによってオプションを指定し、実行(EXECUTE)ボタンEXBをタッチ操作すると、高音質化処理が実行される。表示制御部17bは、高音質化処理の実行中、図中のM4部に示すように、高音質化処理の進捗状況を通知する。
 図15に示すように、表示制御部17bは、その通知内容として、「アップロード中」、「チューニング中」、「ダウンロード中」およびその進捗状況を示すインジケータを表示させる。また、図示は略しているが、完了後は完了通知を表示させる。
 「アップロード中」、「チューニング中」、「ダウンロード中」は、図16に示す各工程に対応する。なお、高音質化処理は時間がかかるため、スマートフォン10では、図16に示すように、機能制限ありではあるが、録音編集アプリの継続使用は可となる。また、他アプリの使用は可である。例えばユーザが他アプリを使用して高音質化処理の完了を待つ場合、高音質化処理の進捗状況は、図15および図16に示すように表示部15の通知パネル15aに表示される。
 また、録音編集アプリを継続使用して高音質化処理の完了を待つ場合、ユーザは、高音質化処理中のトラック以外の他のトラックについては、録音および編集が可能である。また、高音質化処理中のトラックは、再生に関する操作のみが可能である。再生に関する操作は、再生、ミュート、音量調整等である。したがって、高音質化処理中のトラックは、トリミングやコンピングといった編集を施すことはできない。これにより、高音質化処理の対象となったトラックの整合性を確保することができる。
 そして、高音質化処理が完了すると、図18に示すように、録音編集アプリの編集画面には、高音質化処理済みの各トラックがリスト表示される。このとき、表示制御部17bは、高音質化処理済みの各トラックを、高音質化処理前のトラックよりも上の位置に表示させる。また、表示制御部17bは、高音質化処理済みであることを示すアイコンDIを併せて表示させる。
 また、表示制御部17bは、高音質化処理前のトラックについては、その表示を例えばグレーアウトさせる。また、かかる高音質化処理前のトラックは、ミュートされた状態となる。
 高音質化処理前のトラックは基本的に不要なので、高音質化処理後は自動的にミュート状態となる。なお、ユーザは、高音質化処理済みのトラックと高音質化処理前のトラックとでミュート状態を切り替えて聴き比べを行うことができる。そのうえでユーザは、高音質化処理済みのトラックが気に入らなかった場合は、高音質化処理前のトラックをミュート状態にしたうえで高音質化処理済みのトラックの編集を行ったり、再度高音質化処理を実行したりすることができる。再度高音質化処理を実行する場合、ユーザは指定するオプションを従前とは変更することもできる。
 また、アプリ実行部17aは、高音質化処理済みのトラックに対し、高音質化処理前とは異なるトラック名を命名する。その基本的な命名規則は、図19に示すように、高音質化処理前のオリジナルトラック名に対し、(Tuned)を付加したものとなる。
 そして、「音源分離」を行った場合、前述の(Tuned)が(Tuned_音源名)の形式となる形でトラック名が命名される。例えば前述のトラック種別T3の音源データが音源分離された場合、図20に示すように、高音質化処理済みのボーカルの音のトラックは、トラック名が「オリジナルトラック名(Tuned_Vo)」となる。また、高音質化処理済みのギターの音のトラックは、トラック名が「オリジナルトラック名(Tuned_Gt)」となる。
 このように、高音質化処理前と高音質化処理済みとでトラック名を変更することにより、例えば各トラックをファイル出力する際に、ファイル名をトラック名+拡張子の形式とすることで、ファイル出力後にもファイル名のみで高音質化処理済みであるか否かを即座に識別することが可能となる。
 また、表示制御部17bは、図18に示したように、高音質化処理済みのトラックに対し、命名されたトラック名を重畳表示するとともに、高音質化処理済みのトラック種別に応じたアイコンを表示させる。
 図20の例の場合、高音質化処理前のトラックに対して表示されていたアイコンI3は、高音質化処理済みの各トラックでは、アイコンI1,I2となる。このように、表示制御部17bは、高音質化処理済み、特に音源分離済みであることを、トラック種別を示すアイコンおよびトラック名によって明示する。
 また、表示制御部17bは、図21に示すように、高音質化処理済みであることを示すアイコンDIがユーザによってタッチ操作された場合、施された高音質化処理の内容を示すポップアップP1を表示させる。これにより、ユーザは、アイコンDIをタッチ操作するという簡単な操作で、該当のトラックに対し施された高音質化処理の内容を即座に把握することができる。
<4-5.非表示/表示切り替え時>
 なお、スマートフォン10のような携帯型の情報処理装置は、表示部15の表示領域が限られるため、ユーザが、削除まではしないが当面不要なトラックを非表示としたい場合もある。かかる場合、録音編集アプリは、トラックの非表示/表示切り替え画面を表示させることができる。
 図22は、非表示/表示切り替え時のUI例を示す図である。図22に示すように、非表示/表示切り替え画面では、録音編集アプリの編集対象となりうる各トラックがリスト表示される。
 そして、各リストにはチェックボックスCBが設けられている。ユーザは、かかる非表示/表示切り替え画面において、表示を残したいトラックについてのみチェックボックスCBで選択し、NEXTボタンNBをタッチ操作する。すると、表示制御部17bは以降、チェックボックスCBで選択されたトラックのみを表示対象とし、選択されなかったトラックは非表示とする。非表示となったトラックは、自動的にミュート状態となり、再生対象からも外れることとなる。
 これにより、ユーザは、表示部15におけるトラックのリスト表示を見やすくまた編集しやすくなるように、任意かつ容易に変更することが可能となる。
<4-6.カウントイン機能>
 また、本開示の実施形態に係る録音編集アプリは、カウントイン機能を有する。カウントイン機能は、録音画面において、録音開始にタイミングを合わせてカウントをとる機能である。録音編集アプリは、かかるカウントイン機能を、表示部15へのカウント表示およびスピーカ12からのカウント出力を行うことによって実現する。
 図23~図25は、カウントイン機能に関するUI例を示す図(その1)~(その3)である。ユーザが、録音編集アプリの録音画面から所定の操作によってカウントイン機能の利用を指定すると、表示制御部17bは、図23に示すようにカウントイン機能の設定画面を表示させる。
 かかる設定画面には、テンポ(図中の「Tempo」参照)の設定部、カウント音の設定部のほか、拍子の設定部TS、および、カウントインの長さの設定部CIが設けられている。テンポは、任意の数値を指定することで設定することができる。カウント音は、メトロノーム(図中の「Metronome」参照)によるカウント音や、ドラムスティックによるカウント音などを選択することができる。
 また、ユーザは、設定部TSから4分の4拍子、4分の3拍子、8分の6拍子などを選択して設定することができる。また、ユーザは、設定部CIをタッチ操作することによって展開される設定部CI1からは、カウントインの長さを示す小節数を1小節以上、例えば1小節、2小節、4小節、8小節の中から選択して設定することができる。
 ここで、ユーザが、図23のM5,M6部に示すように、拍子として4分の4拍子を選択し、小節数として4小節(4 bars)を選択したものとする。そして、図24に示すように、ユーザは、録音画面において、曲位置カーソルInをタイムスタンプ「25」に位置付け、かかる位置を録音開始位置として録音ボタンSBをタッチ操作したものとする。
 すると、表示制御部17bは、図25に示すように、曲位置カーソルInをタイムスタンプ「25」の4小節前に該当する位置へ自動的にスキップさせ、当該位置からのカウントインを開始する。
 すなわち、表示制御部17bは、設定されたテンポに応じて曲位置カーソルInを移動させるとともに、カウント表示エリアCRに対するカウント表示を行う。なお、表示制御部17bは、録音開始位置の直前の1小節に曲位置カーソルInが到達するまでは、カウント表示エリアCRに対し、「-2」、「-1」、…のようにマイナス値からのカウントアップ表示を行う。図25に示すように、「-2」は3小節前に、「-1」は2小節前に、それぞれ相当する。
 また、表示制御部17bは、録音開始位置から1小節前では、カウント表示エリアCRに対し「1」からのカウントアップ表示を行う。図23に示した4分の4拍子の設定であれば、表示制御部17bは、図25に示すように「1」、「2」、「3」、「4」と1~4までのカウントアップ表示をテンポに合わせて行う。
 なお、アプリ実行部17aは、表示制御部17bが行う1小節前でのカウントアップ表示ごとに、カウントアップに同期してカウント音をスピーカ12から出力させる。そして、曲位置カーソルInが録音開始位置へ到達した時点から録音が開始されることとなる。
 このようなカウントイン機能によれば、ユーザは、例えば自身のリズムのとり方等に応じ、2小節以上に渡るカウントインの長さを選べるなど自由度高くカウントイン機能の設定を行うことができる。また、ユーザは、その設定に応じたカウントイン機能を利用しつつ、好みのタイミングで録音開始のタイミングをとることができる。
<<5.処理シーケンス>>
 次に、本開示の実施形態に係る情報処理システム1が高音質化処理を行う場合の処理シーケンスについて、図26を用いて説明する。図26は、情報処理システム1が高音質化処理を行う場合の処理シーケンスを示す図である。
 図26に示すように、スマートフォン10は、まず録音編集アプリを起動する(ステップS101)。そして、スマートフォン10は、録音編集アプリの編集画面における高音質化ボタンTBに対するタッチ操作を検出する(ステップS102)。
 そして、スマートフォン10は、高音質化ボタンTBに対するタッチ操作時に選択された音源データの種別に連動して高音質化のメニューM3を可変表示させる(ステップS103)。
 つづいて、スマートフォン10は、可変表示されたメニューM3を介した高音質化処理のオプションの選択操作を検出する(ステップS104)。そして、スマートフォン10は、選択されたオプションならびに音源データをサーバ装置100へ送信する(ステップS105)。
 サーバ装置100は、ステップS105でスマートフォン10から送信されたデータを取得し、かかるデータに基づいてAI処理による高音質化処理を実行する(ステップS106)。
 そして、サーバ装置100は、高音質化処理が完了すると、高音質化処理済みのデータをスマートフォン10へ送信する(ステップS107)。なお、実行された高音質化処理に音源分離処理が含まれる場合、サーバ装置100は、分離した音源の分だけ高音質化処理済みのデータをスマートフォン10へ送信する。このとき、音源以外のその他の音として分離されたデータは送信されない。
 そして、スマートフォン10は、サーバ装置100から送信された高音質化処理済みのデータを受信する(ステップS108)。ユーザは、かかる高音質化処理済みのデータを確認し、必要に応じて編集等を行う。
 また、再度高音質化処理を行いたい場合に、ユーザが編集画面において処理対象となる音源データを選択し、高音質化ボタンTBをタッチ操作すれば、スマートフォン10は、ステップS102からの処理を繰り返すこととなる。
<<6.変形例>>
 ところで、上述してきた本開示の実施形態には、いくつかの変形例を挙げることができる。
 上述した本開示の実施形態では、録音編集アプリが、スマートフォン10の備えるマイク11が集音した音を収録することとしたが、かかる録音機能において用いられるマイクはスマートフォン10に接続される外部マイクであってもよい。同様に、録音編集アプリが用いるスピーカは、スマートフォン10の備えるスピーカ12でなく、スマートフォン10に接続される外部スピーカであってもよい。
 また、上述した実施形態では、サーバ装置100が高音質化処理モデル102aを用いた高音質化処理を実行することとしたが、スマートフォン10がかかる高音質化処理を実行するようにしてもよい。
 かかる場合、サーバ装置100は、高音質化処理モデル102aを学習する学習装置として機能することとなる。また、スマートフォン10は、サーバ装置100から学習済みの高音質化処理モデル102aの配信を受け、スマートフォン10の中に高音質化処理モデル102aを保有する。
 そして、スマートフォン10は、ユーザによって高音質化処理を実行させる操作が行われた場合には、保有する高音質化処理モデル102aを用いた高音質化処理を実行することとなる。かかる場合、高音質化処理のレスポンスを向上させることができるというメリットがある。一方で、スマートフォン10は、高音質化処理を実行可能な処理能力を有する必要がある。
 また、上述した実施形態では、高音質化処理として「音源分離」、「ノイズ除去」、「残響除去」、「マイクシミュレート」、「スタジオシミュレート」を例に挙げたが、高音質化処理は無論これらに限定されない。
 例えば、「マイクシミュレート」は、複数の高性能マイクの中から一つのマイクをユーザが選択し、選択されたマイクのマイク特性を再現するものであってもよい。同様に、「スタジオシミュレート」は、複数の有名スタジオの中から一つのスタジオをユーザが選択し、選択されたスタジオが有する固有の反響を付加するものであってもよい。また、スタジオではなく、複数の有名なコンサート会場の中から一つのコンサート会場をユーザが選択し、選択されたコンサート会場が有する固有の反響を付加する「コンサートシミュレート」のような高音質化処理が行われてもよい。
 また、上述した本開示の実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
 また、上述した本開示の実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、本実施形態のシーケンス図或いはフローチャートに示された各ステップは、適宜順序を変更することが可能である。
<<7.ハードウェア構成>>
 また、上述してきた本開示の実施形態に係るスマートフォン10およびサーバ装置100は、例えば図27に示すような構成のコンピュータ1000によって実現される。スマートフォン10を例に挙げて説明する。図27は、スマートフォン10の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、二次記憶装置1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又は二次記憶装置1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又は二次記憶装置1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 二次記憶装置1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、二次記憶装置1400は、プログラムデータ1450の一例であるアプリ情報16aに相当する本開示の実施形態に係るプログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、マイクやタッチパネル等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が本開示の実施形態に係るスマートフォン10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部17の機能を実現する。また、二次記憶装置1400には、本開示に係るプログラムや、記憶部16内のデータが格納される。なお、CPU1100は、プログラムデータ1450を二次記憶装置1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
<<8.むすび>>
 以上説明したように、本開示の一実施形態によれば、スマートフォン10(「情報処理装置」の一例に相当)は、録音編集アプリ(「音源データの録音機能および編集機能を有するアプリ」の一例に相当)を実行可能に設けられるアプリ実行部17aと、録音編集アプリを介してユーザにより高音質化の対象とする上記音源データの選択が行われた場合に、選択された上記音源データの種別に連動して上記高音質化のメニューM3を表示部15に可変表示させる表示制御部17bと、を備える。これにより、ユーザが音楽コンテンツを制作する際の利便性より向上させることができる。
 以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。
 また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 音源データの録音機能および編集機能を有するアプリを実行可能に設けられるアプリ実行部と、
 前記アプリを介してユーザにより高音質化の対象とする前記音源データの選択が行われた場合に、選択された前記音源データの種別に連動して前記高音質化のメニューを表示部に可変表示させる表示制御部と、
 を備える、情報処理装置。
(2)
 前記表示制御部は、
 前記アプリを介して前記音源データの選択が行われた場合に、選択された前記音源データを前記表示部に明示する、
 前記(1)に記載の情報処理装置。
(3)
 前記表示制御部は、
 前記音源データに付与したタグとともに前記音源データを前記表示部にリスト表示し、前記アプリを介して前記音源データの選択が行われた場合に、選択された前記音源データに付与された前記タグを前記音源データが表示された行の行方向に向けて伸長するように拡大表示させる、
 前記(2)に記載の情報処理装置。
(4)
 前記表示制御部は、
 前記音源データを前記表示部にリスト表示し、前記アプリを介して前記音源データの選択が行われた場合に、選択された前記音源データが表示された行を当該行の幅全体を拡げるように拡大表示させる、
 前記(2)または(3)に記載の情報処理装置。
(5)
 前記アプリ実行部は、
 ユーザの選択に基づいて前記音源データに対し複数の異なる音源の音が含まれることを示す第1の種別の設定が可能であり、
 前記表示制御部は、
 前記音源データに前記第1の種別が設定されている場合に、当該第1の種別が設定されていることを示すアイコンとともに前記音源データを前記表示部にリスト表示する、
 前記(1)~(4)のいずれか一つに記載の情報処理装置。
(6)
 前記高音質化を行う高音質化処理は、
 前記音源データに複数の異なる音源が含まれる場合に、当該音源データから任意の音源分を分離する音源分離処理を含み、
 前記表示制御部は、
 前記音源データに前記第1の種別が設定されている場合にのみ前記音源分離処理が選択可能となるように、前記高音質化のメニューを前記表示部に表示させる、
 前記(5)に記載の情報処理装置。
(7)
 前記高音質化処理は、
 前記音源分離処理を用いて前記任意の音源分以外をノイズとして除去するノイズ除去処理を含み、
 前記表示制御部は、
 前記音源データに前記第1の種別が設定されている場合に、前記音源分離処理および前記ノイズ除去処理が同時に選択可能となるように前記高音質化のメニューを前記表示部に表示させる、
 前記(6)に記載の情報処理装置。
(8)
 前記表示制御部は、
 前記音源データに前記第1の種別以外の他の種別が設定されている場合、前記ノイズ除去処理を単独に選択可能となるように前記高音質化のメニューを前記表示部に表示させる、
 前記(7)に記載の情報処理装置。
(9)
 前記表示制御部は、
 前記高音質化処理済みのデータを取得した場合に、当該高音質化処理済みであることを示すアイコンとともに前記高音質化処理済みのデータを前記表示部にリスト表示する、
 前記(7)または(8)に記載の情報処理装置。
(10)
 音源データの録音機能および編集機能を有するアプリを実行することと、
 前記アプリを介してユーザにより高音質化の対象とする前記音源データの選択が行われた場合に、選択された前記音源データの種別に連動して前記高音質化のメニューを表示部に可変表示させることと、
 を含む、情報処理方法。
(11)
 音源データの録音機能および編集機能を有するアプリを実行すること、
 前記アプリを介してユーザにより高音質化の対象とする前記音源データの選択が行われた場合に、選択された前記音源データの種別に連動して前記高音質化のメニューを表示部に可変表示させること、
 をコンピュータに実行させる、プログラム。
 1 情報処理システム
 10 スマートフォン
 11 マイク
 12 スピーカ
 13 通信部
 14 操作部
 15 表示部
 15a 通知パネル
 16 記憶部
 16a アプリ情報
 17 制御部
 17a アプリ実行部
 17b 表示制御部
 17c 通信制御部
 100 サーバ装置
 101 通信部
 102 記憶部
 102a 高音質化処理モデル
 103 制御部
 103a 取得部
 103b 高音質化処理部
 103c 送信部

Claims (11)

  1.  音源データの録音機能および編集機能を有するアプリを実行可能に設けられるアプリ実行部と、
     前記アプリを介してユーザにより高音質化の対象とする前記音源データの選択が行われた場合に、選択された前記音源データの種別に連動して前記高音質化のメニューを表示部に可変表示させる表示制御部と、
     を備える、情報処理装置。
  2.  前記表示制御部は、
     前記アプリを介して前記音源データの選択が行われた場合に、選択された前記音源データを前記表示部に明示する、
     請求項1に記載の情報処理装置。
  3.  前記表示制御部は、
     前記音源データに付与したタグとともに前記音源データを前記表示部にリスト表示し、前記アプリを介して前記音源データの選択が行われた場合に、選択された前記音源データに付与された前記タグを前記音源データが表示された行の行方向に向けて伸長するように拡大表示させる、
     請求項2に記載の情報処理装置。
  4.  前記表示制御部は、
     前記音源データを前記表示部にリスト表示し、前記アプリを介して前記音源データの選択が行われた場合に、選択された前記音源データが表示された行を当該行の幅全体を拡げるように拡大表示させる、
     請求項2に記載の情報処理装置。
  5.  前記アプリ実行部は、
     ユーザの選択に基づいて前記音源データに対し複数の異なる音源の音が含まれることを示す第1の種別の設定が可能であり、
     前記表示制御部は、
     前記音源データに前記第1の種別が設定されている場合に、当該第1の種別が設定されていることを示すアイコンとともに前記音源データを前記表示部にリスト表示する、
     請求項1に記載の情報処理装置。
  6.  前記高音質化を行う高音質化処理は、
     前記音源データに複数の異なる音源が含まれる場合に、当該音源データから任意の音源分を分離する音源分離処理を含み、
     前記表示制御部は、
     前記音源データに前記第1の種別が設定されている場合にのみ前記音源分離処理が選択可能となるように、前記高音質化のメニューを前記表示部に表示させる、
     請求項5に記載の情報処理装置。
  7.  前記高音質化処理は、
     前記音源分離処理を用いて前記任意の音源分以外をノイズとして除去するノイズ除去処理を含み、
     前記表示制御部は、
     前記音源データに前記第1の種別が設定されている場合に、前記音源分離処理および前記ノイズ除去処理が同時に選択可能となるように前記高音質化のメニューを前記表示部に表示させる、
     請求項6に記載の情報処理装置。
  8.  前記表示制御部は、
     前記音源データに前記第1の種別以外の他の種別が設定されている場合、前記ノイズ除去処理を単独に選択可能となるように前記高音質化のメニューを前記表示部に表示させる、
     請求項7に記載の情報処理装置。
  9.  前記表示制御部は、
     前記高音質化処理済みのデータを取得した場合に、当該高音質化処理済みであることを示すアイコンとともに前記高音質化処理済みのデータを前記表示部にリスト表示する、
     請求項7に記載の情報処理装置。
  10.  音源データの録音機能および編集機能を有するアプリを実行することと、
     前記アプリを介してユーザにより高音質化の対象とする前記音源データの選択が行われた場合に、選択された前記音源データの種別に連動して前記高音質化のメニューを表示部に可変表示させることと、
     を含む、情報処理方法。
  11.  音源データの録音機能および編集機能を有するアプリを実行すること、
     前記アプリを介してユーザにより高音質化の対象とする前記音源データの選択が行われた場合に、選択された前記音源データの種別に連動して前記高音質化のメニューを表示部に可変表示させること、
     をコンピュータに実行させる、プログラム。
PCT/JP2023/016700 2022-05-10 2023-04-27 情報処理装置、情報処理方法およびプログラム WO2023218993A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-077465 2022-05-10
JP2022077465 2022-05-10

Publications (1)

Publication Number Publication Date
WO2023218993A1 true WO2023218993A1 (ja) 2023-11-16

Family

ID=88730369

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/016700 WO2023218993A1 (ja) 2022-05-10 2023-04-27 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2023218993A1 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Windows 100%", 1 August 2011, SHINYUSHA CO., LTD., JP, article ANONYMOUS: "Thorough explanation of excellent free software This free software is amazing! !", pages: 66 - 69, XP009550550 *
HIROAKI OGUCHI: "The basics of genuine software are perfect!!", MACPEOPLE BASIC, vol. 16, no. 8 (258), 1 August 2010 (2010-08-01), pages 110 - 111, XP009550549 *

Similar Documents

Publication Publication Date Title
US10062367B1 (en) Vocal effects control system
JP6086188B2 (ja) 音響効果調整装置および方法、並びにプログラム
US10469897B2 (en) Context-based user music menu systems and methods
US8604329B2 (en) MIDI learn mode
JP2017504902A (ja) ソフトウェアアプリケーション及びゾーン
De Man et al. Intelligent music production
US20160012853A1 (en) Clip creation and collaboration
JP6201460B2 (ja) ミキシング管理装置
JP7234935B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20120308014A1 (en) Audio playback device and method
CN101017695A (zh) 重放音频文件的设备及使用该设备导航音频文件的方法
WO2023218993A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2008106216A1 (en) Graphical user interface, process, program, storage medium and computer system for arranging music
WO2024101162A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2005150993A (ja) オーディオデータ処理装置、およびオーディオデータ処理方法、並びにコンピュータ・プログラム
JP5511940B2 (ja) 音響調整方法
JP5510207B2 (ja) 楽音編集装置及びプログラム
US20240054158A1 (en) Data processing apparatuses and methods
JP6474292B2 (ja) カラオケ装置
WO2023217002A1 (zh) 音频处理方法、装置、设备及存储介质
US20240194224A1 (en) Audio Editing System and Application
KR101562041B1 (ko) 듀엣 모드의 미디어 콘텐츠 제작 방법 및 이에 사용되는 미디어 콘텐츠 제작 장치
JP5731661B2 (ja) 記録装置、記録方法、及び記録制御用のコンピュータプログラム、並びに再生装置、再生方法、及び再生制御用のコンピュータプログラム
WO2023062865A1 (ja) 情報処理装置および方法、並びにプログラム
Cancino et al. On Stockhausen’s Solo (s): Beyond Interpretation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23803472

Country of ref document: EP

Kind code of ref document: A1