WO2024135221A1 - 情報処理装置およびゲーム動画生成方法 - Google Patents

情報処理装置およびゲーム動画生成方法 Download PDF

Info

Publication number
WO2024135221A1
WO2024135221A1 PCT/JP2023/042127 JP2023042127W WO2024135221A1 WO 2024135221 A1 WO2024135221 A1 WO 2024135221A1 JP 2023042127 W JP2023042127 W JP 2023042127W WO 2024135221 A1 WO2024135221 A1 WO 2024135221A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
game
voice
time
unit
Prior art date
Application number
PCT/JP2023/042127
Other languages
English (en)
French (fr)
Inventor
陽 徳永
利彦 長澤
圭史 松永
雅宏 藤原
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2022203461A external-priority patent/JP2024088345A/ja
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Publication of WO2024135221A1 publication Critical patent/WO2024135221A1/ja

Links

Images

Definitions

  • This disclosure relates to technology for generating game videos, which are user-generated content.
  • Patent Document 1 discloses an information processing device that generates game images based on user operations, displays the generated game images on an output device, and records the game images in a ring buffer in the background. On the editing screen, the user can specify the start and end points for cutting out the recorded game video, and upload the cut-out game video to a content sharing server.
  • the user before uploading the extracted game video to a content sharing server, the user performs editing work to trim out unnecessary user voices contained in the game video and the graphical user interface (GUI) superimposed on the game image. Because such editing work is troublesome for users, it is desirable to realize a mechanism that reduces the effort required for users to edit game videos.
  • GUI graphical user interface
  • the purpose of this disclosure is to realize a mechanism for efficiently generating game videos, which are user-generated content.
  • an information processing device includes one or more processors having hardware, and the one or more processors record game images generated based on user operations in a recording unit, and generate a game video that does not include user voice or user interface from the game images recorded in the recording unit based on an end point of the game video specified by user voice or user operation on a displayed user interface.
  • Another aspect of the game video generation method of the present disclosure records game images generated based on user operations in a recording unit, and generates a game video that does not include user voice or user interface from the game images recorded in the recording unit based on an end point of the game video specified by user voice or user operation on a displayed user interface.
  • An information processing device includes one or more processors having hardware, and the one or more processors record game images generated based on user operations in a first recording unit, acquire user voice, record the user voice in a second recording unit, and generate a game video by synthesizing the game images recorded in the first recording unit and the user voice recorded in the second recording unit.
  • a game video generation method records game images generated based on user operations in a first recording unit, acquires user voice, records the user voice in a second recording unit, and generates a game video by synthesizing the game images recorded in the first recording unit and the user voice recorded in the second recording unit.
  • FIG. 1 is a diagram showing an information processing system according to an embodiment.
  • FIG. 2 is a diagram illustrating a hardware configuration of an information processing device.
  • FIG. 2 is a diagram illustrating functional blocks of the information processing device.
  • FIG. 13 is a diagram showing an example of a game screen.
  • FIG. 13 is a diagram showing a character string superimposed on the game screen.
  • FIG. 13 is a diagram showing the start and end points of content specified by a user.
  • FIG. 2 is a diagram showing the start and end points of content.
  • FIG. 13 is a diagram showing the start and end points of content specified by a user.
  • FIG. 2 is a diagram showing the start and end points of content.
  • FIG. 11 is a diagram illustrating another example of functional blocks of the information processing device.
  • FIG. 11 is a diagram illustrating another example of functional blocks of the information processing device.
  • FIG. 13 is a diagram showing start and end points specified by a user.
  • FIG. 13 is a diagram illustrating a modified example of the functional blocks of the information processing device.
  • FIG. 13 is a diagram showing an example of a GUI superimposed on a game screen.
  • FIG. 13 is a diagram showing an example of a GUI superimposed on a game screen.
  • FIG. 2 is a diagram showing the start and end points of content.
  • the information processing device executes a game program based on user operations, displays game images on an output device, and records the game images together with time information in a buffer (recording unit) such as a ring buffer.
  • a buffer recording unit
  • the information processing device cuts out the game video from the buffer based on the start and end points specified by the user, and records it in a storage device as User Generated Content (UGC).
  • UPC User Generated Content
  • FIG. 1 shows an information processing system 1 according to an embodiment of the present disclosure.
  • the information processing system 1 includes an information processing device 10, which is a user terminal device, an auxiliary storage device 2, and an output device 4.
  • An access point (hereinafter referred to as "AP") 8 has the functions of a wireless access point and a router, and the information processing device 10 connects to the AP 8 wirelessly or via a wired connection to be able to communicate with a content sharing server (not shown) on the network.
  • AP access point
  • the information processing device 10 is connected wirelessly or via a wire to an input device 6 operated by a user A (hereinafter also simply referred to as "user"), and the input device 6 transmits information operated by the user to the information processing device 10.
  • the information processing device 10 receives operation information from the input device 6, it reflects the information in the processing of the system software and game software, and causes the output device 4 to output the processing results.
  • the information processing device 10 is a game device (game console) that executes a game program
  • the input device 6 may be a device such as a game controller that supplies user operation information to the information processing device 10.
  • the input device 6 may also be an input interface such as a keyboard or a mouse.
  • the information processing system 1 may include a cloud game server that executes a game program based on a user's operation.
  • the information processing device 10 transmits the user's game operation information to the game server.
  • the game server generates game images and game sounds based on the user's operation, and streams the game images and game sounds to the information processing device 10.
  • the information processing device 10 does not need to have a function for executing a game program, and may be a terminal device that outputs game images and game sounds from the output device 4.
  • the auxiliary storage device 2 is a large-capacity storage device such as an HDD (hard disk drive) or SSD (solid state drive), and may be an internal storage device or an external storage device connected to the information processing device 10 via a USB (Universal Serial Bus) or the like.
  • the output device 4 may be a television having a display device for outputting images and a speaker for outputting audio.
  • the output device 4 may be connected to the information processing device 10 via a wired cable, or may be connected wirelessly.
  • the microphone 5 is placed near the user and captures the voice produced by the user.
  • the user can comment on the game they are playing and upload the commentary video to a content sharing server by recording the commentary voice in a buffer (recording unit) together with game images and sounds.
  • the microphone 5 may be built into the input device 6 located close to the user.
  • the user may also comment on the game using a headset equipped with the microphone 5 and earphones (headphones).
  • FIG. 2 shows the hardware configuration of the information processing device 10.
  • the information processing device 10 is configured to include a main power button 20, a power ON LED 21, a standby LED 22, a system controller 24, a clock 26, a device controller 30, a media drive 32, a USB module 34, a flash memory 36, a wireless communication module 38, a wired communication module 40, a subsystem 50, and a main system 60.
  • the main system 60 comprises a main CPU (Central Processing Unit), a memory and memory controller serving as the main storage device, a GPU (Graphics Processing Unit), etc.
  • the GPU is primarily used for the calculation and processing of game programs.
  • the main CPU has the function of starting up the system software and executing the game program installed in the auxiliary storage device 2 in the environment provided by the system software.
  • the subsystem 50 comprises a sub-CPU, a memory and memory controller serving as the main storage device, etc., but does not comprise a GPU.
  • the sub-CPU While the main CPU has the function of executing game programs installed in the auxiliary storage device 2 or ROM medium 44, the sub-CPU does not have such a function. However, the sub-CPU does have the function of accessing the auxiliary storage device 2.
  • the sub-CPU is configured with only such limited processing functions, and therefore can operate with less power consumption compared to the main CPU. These functions of the sub-CPU are executed when the main CPU is in standby mode.
  • the main power button 20 is an input unit through which the user inputs operations, is provided on the front of the housing of the information processing device 10, and is operated to turn on or off the power supply to the main system 60 of the information processing device 10.
  • the power ON LED 21 lights up when the main power button 20 is turned on, and the standby LED 22 lights up when the main power button 20 is turned off.
  • the system controller 24 detects when the main power button 20 is pressed by the user.
  • the clock 26 is a real-time clock that generates current date and time information and supplies it to the system controller 24, the subsystem 50, and the main system 60.
  • the device controller 30 is configured as an LSI (Large-Scale Integrated Circuit) that transfers information between devices like a south bridge. As shown in the figure, devices such as the system controller 24, media drive 32, USB module 34, flash memory 36, wireless communication module 38, wired communication module 40, subsystem 50, and main system 60 are connected to the device controller 30.
  • the device controller 30 absorbs differences in the electrical characteristics and data transfer speeds of each device and controls the timing of data transfer.
  • the media drive 32 is a drive device that operates by mounting a ROM medium 44 on which application software such as games and license information are recorded, and reads programs, data, and the like from the ROM medium 44.
  • the ROM medium 44 is a read-only recording medium such as an optical disk, magneto-optical disk, or Blu-ray disk.
  • the USB module 34 is a module that connects to an external device via a USB cable.
  • the USB module 34 may also be connected to the auxiliary storage device 2 and the camera 7 via USB cables.
  • the flash memory 36 is an auxiliary storage device that constitutes the internal storage.
  • the wireless communication module 38 wirelessly communicates with, for example, the input device 6 using a communication protocol such as the Bluetooth (registered trademark) protocol or the IEEE802.11 protocol. If the input device 6 has a built-in microphone 5, the user's voice picked up by the microphone 5 is transmitted to the wireless communication module 38.
  • the wired communication module 40 communicates with an external device via a wired connection, and connects to an external network via, for example, the AP 8.
  • FIG. 3 shows functional blocks of the information processing device 10.
  • the information processing device 10 of the embodiment includes a processing unit 100 and a communication unit 102, and has the function of temporarily recording game images generated based on user operations in the background and generating game videos, which are user-generated content (hereinafter simply referred to as "content"), using the recorded game images.
  • the processing unit 100 includes game software 110, an output processing unit 112, a recording control unit 114, a user voice acquisition unit 120, a voice supply unit 122, a voice recognition unit 124, an instruction unit 126, a recording unit 130, and a video generation unit 132.
  • the information processing device 10 shown in FIG. 3 includes a computer, which executes a program to realize the various functions shown in FIG. 3.
  • the computer includes hardware such as a memory into which the program is loaded, one or more processors that execute the loaded program, an auxiliary storage device, and other LSIs.
  • the processor is composed of multiple electronic circuits including semiconductor integrated circuits and LSIs, and the multiple electronic circuits may be mounted on a single chip or on multiple chips.
  • the functional blocks shown in FIG. 3 are realized by cooperation between hardware and software, and therefore, it will be understood by those skilled in the art that these functional blocks can be realized in various forms by hardware alone, software alone, or a combination thereof.
  • the communication unit 102 combines the functions of the wireless communication module 38 and the wired communication module 40. While the user is playing a game, the communication unit 102 receives information about the user's operation of the input device 6 (game operation information) and provides it to the game software 110.
  • the game software 110 is composed of at least a game program, image data, and audio data.
  • the game program receives game operation information from the user, it performs calculation processing to move the player character in the virtual space.
  • the output processing unit 112 generates game images and game sounds (game images and sounds) based on the results of the calculations by the game software 110, and outputs them from the output device 4.
  • the output processing unit 112 may include a GPU (Graphics Processing Unit) that executes rendering processing, etc.
  • the output processing unit 112 outputs game images and game sounds from the output device 4, and also supplies the game images and game sounds to the recording control unit 114.
  • the information processing device 10 has a function of performing background recording of the game images and game sounds generated by the output processing unit 112, and the recording control unit 114 records the game images and game sounds generated based on the user's operation in the recording unit 130.
  • the game images and game sounds may be simply referred to as "game images" for ease of explanation.
  • the recording unit 130 is a buffer for temporarily storing game images and may be provided in a memory area of the auxiliary storage device 2.
  • the recording unit 130 may be a ring buffer, which may be configured by setting a start address and an end address in a memory area of the auxiliary storage device 2. The start address and end address of the ring buffer area may be set before the information processing device 10 is shipped, or may be freely set by the user.
  • the recording control unit 114 temporarily records the game images in the recording unit 130 together with time information (time stamp).
  • the recording control unit 114 records game images generated based on user operations in real time from the start address in a predetermined address order, and when it has recorded up to the end address, it returns to the start address and overwrites the images, repeating this process.
  • the capacity of the recording unit 130 is set so that it can record a maximum of 60 minutes (1 hour) of game images, and therefore the recording unit 130 records game images played by the user over the last 60 minutes.
  • a user provides commentary on the game while playing it.
  • the user voice acquisition unit 120 acquires the user voice input to the microphone 5, and the voice supply unit 122 supplies the user voice to the recording control unit 114.
  • the recording control unit 114 combines the game image supplied from the output processing unit 112 with the user voice supplied from the voice supply unit 122, and records the result in the recording unit 130. In other words, a game video including the user's commentary voice is recorded in the recording unit 130.
  • a user while playing a game, can extract desired scenes from game images recorded in the recording unit 130 to generate user-generated content and store it in the auxiliary storage device 2. For example, while playing a game, if a user specifies the end point of the content and a timing going back an arbitrary amount of time from the end point, the video generation unit 132 can extract game video from the recording unit 130 and store the extracted game video as user-generated content in the auxiliary storage device 2. Also, while playing a game, if a user specifies the start point of the content in real time and then specifies the end point of the content in real time, the video generation unit 132 can extract game video from the recording unit 130 and store the extracted game video as user-generated content in the auxiliary storage device 2.
  • the user can input content generation instructions to the information processing device 10 by vocalizing a specific command while playing the game.
  • the user uses the input device 6 to operate the game, so being able to input content generation instructions by voice commands without using the input device 6 helps the user to play the game smoothly.
  • the voice recognition unit 124 recognizes the voice acquired by the user voice acquisition unit 120 and converts the voice uttered by the user into a character string. Note that while the voice recognition unit 124 and the voice supply unit 122 are shown as separate functional blocks in FIG. 3, the voice recognition unit 124 and the voice supply unit 122 may be configured as an integrated functional module.
  • voice command 1 An example of voice command 1 is shown below. - "Hey Game Console, Capture the last 5 minutes" By uttering the voice command 1, the user can specify the end point of the content and the start point of the content that is an arbitrary time period before the end point. This voice command 1 is made up of a first voice command and a second voice command following the first voice command.
  • the first voice command is a voice command for starting a content generation function based on a user's voice.
  • the voice recognition unit 124 performs voice recognition processing on the voice input to the microphone 5, converts the user's voice into a character string, and starts the content generation function based on the user's voice if the converted character string contains "Hey Game Console".
  • the instruction unit 126 becomes capable of instructing the video generation unit 132 to generate content based on the character string supplied from the voice recognition unit 124.
  • the recording control unit 114 suspends the process of synthesizing the user voice with the game image and records only the game image in the recording unit 130. At this time, the recording control unit 114 may suspend the synthesis process of the user voice by discarding the user voice supplied from the voice supply unit 122, or the voice supply unit 122 may suspend the supply of the user voice to the recording control unit 114. Therefore, the recording control unit 114 does not record in the recording unit 130 the voice uttered by the user after the user utters "Hey Game Console". Note that the user voice is no longer synthesized with the game image after the voice recognition unit 124 confirms that the character string converted from the user voice contains the first voice command "Hey Game Console", so the user voice "Hey Game Console" is recorded in the recording unit 130.
  • the second voice command is a voice command for specifying a start point and an end point for cutting out the content.
  • the voice recognition unit 124 performs voice recognition processing on the voice input to the microphone 5, and converts the voice uttered by the user following "Hey Game Console" into a character string. In this example, the voice recognition unit 124 converts the user's voice into the character string "Capture the last 5 minutes" and supplies the converted character string to the instruction unit 126.
  • FIG. 5 shows a character string superimposed on the game screen.
  • a character string that is voice recognized after the content generation function is activated by the user's voice may be superimposed on the game screen displayed on the output device 4.
  • the user can confirm that the content generation instruction from the user's voice has been accepted by the information processing device 10.
  • the instruction unit 126 When the instruction unit 126 receives the character string "Capture the last 5 minutes", it recognizes that the user is requesting to extract the last 5 minutes of game video. In order to improve the recognition rate of the voice command, it is preferable that the second voice command is standardized. Specifically, “Capture the last” is a standard phrase, and the second voice command may be established by the user uttering "Capture the last” and then uttering the time to extract the game video. In the embodiment, not only “Capture the last” but also "Save the last” and “Record gameplay for the last” may be prepared as standard phrases, and the user may be able to use various types of second voice commands. Note that the instruction unit 126 may have a natural language understanding function, understand the meaning of the character string, and identify the start and end points of the content specified by the user.
  • the instruction unit 126 When the instruction unit 126 receives the second voice command, it identifies the end point of the content to be generated and the start point of the content five minutes prior to the end point. In FIG. 6 below, a case is described in which the instruction unit 126 identifies the end point of the content as the timing at which the second voice command is received, that is, the timing at which the user finishes uttering the second voice command "Capture the last 5 minutes.”
  • Time t1 indicates the timing when the user starts to speak the first voice command
  • time t2 indicates the timing when the user finishes speaking the first voice command
  • time t3 indicates the timing when the user finishes speaking the second voice command.
  • the timing when the user finishes speaking the second voice command can be considered as the end point of the content specified by the user. Therefore, time t3 is the end point of the content specified by the user, and time t0 , which is five minutes before time t3 , is the start point of the content specified by the user.
  • the recording control unit 114 does not record in the recording unit 130 the voice uttered by the user after the timing (time t2 ) when the utterance of the first voice command "Hey Game Console” ends, but records the utterance of the first voice command in the recording unit 130. Therefore, in the timeline shown in Fig. 6, the user voice "Hey Game Console” is recorded between time t1 and time t2 , and when the game video from time t0 to time t3 specified by the user is cut out, the cut-out game video will include the user voice "Hey Game Console".
  • the information processing device 10 of the embodiment has a function of generating content (game video) that does not include user voice from game images recorded in the recording unit 130 based on the start and end points of the content specified by the user voice. By generating content that does not include user voice, the information processing device 10 supports the user in editing the content.
  • content game video
  • Example 1 7 shows the start and end points of the content set in the first embodiment.
  • Time t1 indicates the timing when the user starts to speak the first voice command
  • time t2 indicates the timing when the user finishes speaking the first voice command
  • time t3 indicates the timing when the user finishes speaking the second voice command.
  • Time t3 is the end point of the content specified by the user.
  • time t0 see FIG. 6
  • time t0 which is the start point specified by the user, is also shown.
  • the voice recognition unit 124 when transmitting the character string obtained by voice recognition to the instruction unit 126, also transmits time information of times t1 , t2 , and t3 . Therefore, the instruction unit 126 recognizes the end point (time t3 ) of the content specified by the user, and acquires the time (time t3 -time t1 ) at which the user spoke voice command 1. Note that since the instruction unit 126 is notified of the characters obtained by voice recognition by the voice recognition unit 124 on a word-by-word basis, the instruction unit 126 may specify the time information of times t1 , t2 , and t3 at the timing when each word is transmitted.
  • Instructing unit 126 generates a content generation instruction that specifies the start and end points for extracting the content, and provides the instruction to video generating unit 132. Based on the content generation instruction, video generating unit 132 extracts from recording unit 130 a game video whose end point is a timing temporally before the end point (time t3 ) of the game video specified by the user voice, and stores the extracted game video in auxiliary storage device 2 as user-generated content.
  • the instruction unit 126 sets the end point to a timing that is at least the speaking time (time t 3 -time t 1 ) back from the end point (time t 3 ) of the game video specified by the user voice, and sets the start point of the content 5 minutes back from the end point.
  • the instruction unit 126 sets the end point to a timing (time t 1 ) that is the speaking time (time t 3 -time t 1 ) back from the end point (time t 3 ) specified by the user, and sets the start point (T 0 ) of the content 5 minutes back from the end point.
  • the instruction unit 126 generates a content generation instruction that specifies the start point (time T 0 ) and end point (time t 1 ), and provides it to the video generation unit 132.
  • the video generation unit 132 cuts out a game video from the recording unit 130 with an end point (time t 3 ) set as the timing (time t 1 ) that is the speaking time (time t 3 - time t 1 ) before the end point specified by the user, and a start point (time T 0 ) that is 5 minutes before the end point, and stores the cut out video in the auxiliary storage device 2 as user-generated content.
  • the video generation unit 132 can generate a game video (content) that does not include the user voice that uttered the voice command by using the game image recorded in the recording unit 130 before voice command 1 was uttered.
  • the instruction unit 126 sets the end point to the timing (time t1 ) when the user starts speaking the first voice command, but in order to ensure that the user's voice is not included in the content, the end point may be set to a predetermined time (e.g., a few seconds) before time t1 .
  • the voice command 2 includes a start command that specifies the start point of the content, and an end command that specifies the end point of the content.
  • start command "Hey Game Console, Start recording”
  • Stop command "Hey Game Console, Stop recording”
  • “Start recording” and “Stop recording” in voice command 2 are not instructions regarding recording to the recording unit 130, but instructions regarding generating content from game images recorded in the recording unit 130.
  • the recording control unit 114 is always recording game images in the recording unit 130, and voice command 2 does not affect the recording of game images in the recording unit 130.
  • the user specifies the start point of the content by uttering a start command, and specifies the end point of the content by uttering an end command. Note that the start command and end command are a set, so even if the user utters the start command, no game video will be extracted from the recording unit 130 unless the end command is uttered.
  • voice command 2 is made up of a first voice command and a second voice command following the first voice command.
  • First voice command “Hey Game Console”
  • the first voice command is a voice command for starting a content generation function based on the user's voice.
  • the instruction unit 126 becomes capable of executing a process related to content generation based on the character string supplied from the voice recognition unit 124, and the recording control unit 114 temporarily suspends the process of synthesizing the user's voice with a game image.
  • Second voice command (b1) Start command: "Start recording” This second voice command is a voice command for specifying the start point for cutting out the content.
  • the voice recognition unit 124 acquires the character string "Start recording” from the voice input to the microphone 5, it supplies the character string "Start recording” to the instruction unit 126 together with time information indicating the acquisition time.
  • the recording control unit 114 resumes the process of synthesizing the user voice with the game image.
  • Stop command “Stop recording” The second voice command is a voice command for specifying an end point for cutting out the content.
  • the voice recognition unit 124 When the voice recognition unit 124 acquires the character string "Stop recording” from the voice input to the microphone 5, the voice recognition unit 124 supplies the character string "Stop recording” to the instruction unit 126 together with time information indicating the time when the character string "Stop recording” was acquired.
  • the instruction unit 126 When the instruction unit 126 receives the character string "Start recording" from the voice recognition unit 124 and then the character string "Stop recording”, it recognizes that the user is requesting to extract the game video between the time “Start recording” is spoken and the time “Stop recording” is spoken. When the instruction unit 126 receives a pair of start and end commands, it identifies the start and end points of the content to be generated. In Figure 8 below, a case is described in which the instruction unit 126 identifies the time when it receives the character string "Start recording” as the start point of the content, and the time when it receives the character string "Stop recording” as the end point of the content.
  • Time t1 indicates the timing when the user starts to speak the first voice command
  • time t2 indicates the timing when the user finishes speaking the first voice command
  • time t3 indicates the timing when the user finishes speaking the second voice command (start command).
  • the timing when the second voice command (start command) finishes can be considered as the start point of the content specified by the user. Therefore, time t3 is the start point of the content specified by the user.
  • Time t4 indicates the timing when the user starts speaking the first voice command
  • time t5 indicates the timing when the user finishes speaking the first voice command
  • time t6 indicates the timing when the user finishes speaking the second voice command (end command).
  • the timing when the user finishes speaking the second voice command (end command) can be considered as the end point of the content specified by the user. Therefore, time t6 is the end point of the content specified by the user.
  • the recording control unit 114 resumes the process of synthesizing the user voice with the game image.
  • the user voice "Hey Game Console” is recorded in the recording unit 130 between time t4 and time t5 , and when the game video from time t3 to time t6 specified by the user is cut out, the cut-out game video includes the user voice "Hey Game Console”.
  • Time t1 indicates the timing when the user starts to speak the first voice command
  • time t2 indicates the timing when the user finishes speaking the first voice command
  • time t3 indicates the timing when the user finishes speaking the second voice command (start command).
  • Time t3 is the start point of the content specified by the user.
  • Time t4 indicates the timing when the user starts to speak the first voice command
  • time t5 indicates the timing when the user finishes speaking the first voice command
  • time t6 indicates the timing when the user finishes speaking the second voice command (end command).
  • Time t6 is the end point of the content specified by the user.
  • the voice recognition unit 124 when the voice recognition unit 124 transmits the character string that has been voice-recognized to the instruction unit 126, it also transmits the time information of time t 1 , time t 2 , time t 3 , time t 4 , time t 5 , and time t 6. Therefore, the instruction unit 126 recognizes the end point (time t 6 ) of the content specified by the user, and acquires the time (time t 6 -time t 4 ) at which the end command "Hey Game Console, Stop recording" is spoken by the user.
  • the instruction unit 126 may specify the time information of time t 1 , time t 2 , time t 3 , time t 4 , time t 5 , and time t 6 at the timing when each word is transmitted.
  • Instructing unit 126 generates a content generation instruction that specifies the start and end points for extracting the content, and provides the instruction to video generating unit 132. Based on the content generation instruction, video generating unit 132 extracts from recording unit 130 a game video whose end point is a timing temporally before the end point (time t6 ) of the game video specified by the user voice, and stores the extracted game video in auxiliary storage device 2 as user-generated content.
  • the instruction unit 126 sets the timing that is earlier than the end point (time t 6 ) of the game video specified by the user voice by at least the time when the end command was spoken (time t 6 -time t 4 ) as the end point.
  • the instruction unit 126 may set the start point (t 3 ) of the game video specified by the user voice as the start point as it is.
  • the instruction unit 126 sets the timing (time t 4 ) that is earlier than the end point (time t 6 ) specified by the user by the time when the end command was spoken (time t 6 -time t 4 ) as the end point.
  • the instruction unit 126 generates a content generation instruction that specifies the start point (time t 3 ) and end point (time t 4 ), and provides it to the video generation unit 132.
  • the video generation unit 132 cuts out a game video from the recording unit 130 with the end point (time t 6 ) set to the timing (time t 4 ) that is the speaking time (time t 6 - time t 4 ) prior to the end point specified by the user (time t 6 ) and the start point set to the timing (time t 3 ) specified by the user, and saves the cut out video in the auxiliary storage device 2 as user-generated content.
  • the video generation unit 132 can generate a game video (content) that does not include the user voice that issued the voice command 2.
  • the video generation unit 132 can generate content that does not include the user voice that issued the voice command by using the game image that was recorded in the recording unit 130 before the end command was uttered.
  • the instruction unit 126 sets the timing (time t4 ) when the user starts speaking the first voice command as the end point, but in order to ensure that the user's voice is not included in the content, the end point may be a predetermined time (e.g., a few seconds) before time t4 . Also, in the example shown in Fig. 9, the instruction unit 126 sets the timing (time t3 ) when the user stops speaking the second voice command (start command) as the start point, but in order to ensure that the user's voice is not included in the content, the start point may be a predetermined time (e.g., a few seconds) after time t3 .
  • Example 2 In the first embodiment, a timing before the end point of the content specified by the user is set as the end point, and the game video is extracted at the set end point from the recording unit 130. In the second embodiment, a game video from the start point to the end point of the content specified by the user voice is extracted from the recording unit 130, and the user voice corresponding to the voice command is removed from the extracted game video.
  • time t0 is the start point of the content designated by the user
  • time t3 is the end point of the content designated by the user.
  • the instruction unit 126 generates a content generation instruction that specifies a start point (time t0 ) and an end point (time t3 ), and provides the content generation instruction to the video generation unit 132.
  • the video generation unit 132 cuts out a game video whose start point is time t0 and whose end point is time t3 from the recording unit 130, and removes the user voice "Hey Game Console" recorded between time t1 and time t2 from the cut-out game video.
  • the voice recognition unit 124 has a function of buffering the user voice, and supplies the user voice "Hey Game Console” uttered by the user between time t1 and time t2 to the instruction unit 126.
  • the voice recognition unit 124 detects that the user voice "Hey Game Console” is included between time t1 and time t2 by the voice recognition process, it reads out the user voice "Hey Game Console” between time t1 and time t2 from the buffer, and supplies the user voice data together with time information uttered by the user (the section from time t1 to time t2 ) to the instruction unit 126.
  • the instruction unit 126 provides the video generation unit 132 with the user voice "Hey Game Console" and the time information in a content generation instruction that specifies a start point (time t0 ) and an end point (time t3 ).
  • the video generating unit 132 extracts a game video having a start point at time t0 and an end point at time t3 from the recording unit 130 based on the content generation instruction, and then removes the user voice "Hey Game Console" recorded between time t1 and time t2 by using the provided user voice data. Specifically, the video generating unit 132 may cancel the user voice included in the game video by superimposing the inverse phase of the provided user voice on the user voice included in the game video, thereby erasing the user voice "Hey Game Console" from the game video. In the embodiment, it is assumed that the user voice "Capture the last 5 minutes" following the user voice "Hey Game Console" is not recorded in the recording unit 130.
  • the instruction unit 126 provides the user voice "Hey Game Console, Capture the last 5 minutes” to the video generation unit 132, and the video generation unit 132 cancels the user voice "Hey Game Console, Capture the last 5 minutes” from the game video.
  • nonlinear processing such as encoding is performed when the user voice is synthesized into the game image and recorded in the recording unit 130
  • the video generation unit 132 take the nonlinear processing into account and erase the user voice included in the game video.
  • the video generation unit 132 cancels the utterance of a voice command for content generation.
  • the information processing device 10 allows voice commands for activating other functions, when the voice recognition unit 124 detects the user uttering a voice command, it provides the user voice of that command to the instruction unit 126, making it possible for the video generation unit 132 to cancel the user voice of various commands from the extracted game video.
  • the video generation unit 132 cancels the user voice included in the game video by using the voice actually uttered by the user, but the voice command included in the game video may be canceled by using, for example, a trained model that has learned how to pronounce voice commands.
  • the trained model may be created by learning voice commands uttered by a large number of users. As described above, if the information processing device 10 allows the acceptance of various voice commands for activating various functions, the trained model may learn how to pronounce various commands, allowing the video generation unit 132 to remove the voice commands from the game video.
  • Example 3 10 shows another example of the functional blocks of the information processing device 10.
  • the information processing device 10 of the third embodiment includes a processing unit 100 and a communication unit 102, and has a function of temporarily recording a game image generated based on a user's operation in the background and generating a game video, which is user-generated content, using the recorded game image.
  • the processing unit 100 includes a game software 110, an output processing unit 112, a user voice acquisition unit 120, a voice supply unit 122, a voice recognition unit 124, an instruction unit 126, a first recording control unit 150, a first recording unit 152, a second recording control unit 154, a second recording unit 156, and a video generation unit 132.
  • the functional blocks denoted with the same reference numerals as the functional blocks shown in FIG. 3 may have the same or similar functions as the functional blocks shown in FIG. 3.
  • the information processing device 10 shown in FIG. 10 includes a computer, which executes a program to realize the various functions shown in FIG. 10.
  • the computer includes hardware such as a memory into which the program is loaded, one or more processors that execute the loaded program, an auxiliary storage device, and other LSIs.
  • the processor is composed of multiple electronic circuits including semiconductor integrated circuits and LSIs, and the multiple electronic circuits may be mounted on a single chip or on multiple chips.
  • the functional blocks shown in FIG. 10 are realized by cooperation between hardware and software, and therefore, it will be understood by those skilled in the art that these functional blocks can be realized in various forms by hardware alone, software alone, or a combination thereof.
  • the game software 110 is composed of at least a game program, image data, and sound data.
  • the game program receives game operation information from the user, it performs calculation processing to move the player character in the virtual space.
  • the output processing unit 112 generates game images and game sounds based on the results of the calculations performed by the game software 110, and outputs them from the output device 4.
  • the output processing unit 112 outputs game images and game sounds from the output device 4, and also supplies the game images and game sounds to the first recording control unit 150.
  • the first recording control unit 150 records the game images and game sounds generated based on the user's operation in the first recording unit 152.
  • the game images and game sounds may be simply referred to as "game images" for ease of explanation.
  • the first recording unit 152 is a buffer for temporarily storing game images and may be provided in a memory area of the auxiliary storage device 2.
  • the first recording unit 152 may be a ring buffer, which may be configured by setting a start address and an end address in a memory area of the auxiliary storage device 2. The start address and end address of the ring buffer area may be set before the information processing device 10 is shipped, or may be freely set by the user.
  • the first recording control unit 150 temporarily records the game image together with time information (time stamp) in the first recording unit 152.
  • the first recording control unit 150 records game images generated based on user operations in real time from a start address in a predetermined address order, and when it has recorded up to the end address, it returns to the start address and overwrites the previous addresses, repeating this process.
  • the capacity of the first recording unit 152 is set so that it can record a maximum of 60 minutes (1 hour) of game images, and therefore the first recording unit 152 records game images played by the user in the last 60 minutes.
  • the user voice acquisition unit 120 acquires the user voice input to the microphone 5, and the voice supply unit 122 supplies the user voice to the second recording control unit 154.
  • the second recording control unit 154 records the user voice supplied from the voice supply unit 122 in the second recording unit 156.
  • Example 3 unlike Examples 1 and 2, the user voice is recorded in the second recording unit 156 without being combined with the game video.
  • the second recording unit 156 is a buffer for temporarily storing user voice, and may be provided in a memory area of the auxiliary storage device 2.
  • the memory area of the second recording unit 156 is provided separately from the memory area of the first recording unit 152.
  • the second recording unit 156 may be a ring buffer, and the ring buffer may be configured by setting a start address and an end address in the memory area of the auxiliary storage device 2.
  • the start address and end address of the ring buffer area may be set before the information processing device 10 is shipped, or may be freely set by the user.
  • the second recording control unit 154 temporarily records the user voice in the second recording unit 156 together with time information (time stamp).
  • the second recording control unit 154 records the user's voice input to the microphone 5 in real time from the start address in a predetermined address order, and when it has recorded up to the end address, it returns to the start address and overwrites it, repeating this process.
  • the capacity of the second recording unit 156 may be set so that it can record a maximum of 60 minutes (1 hour) of user's voice.
  • Example 3 the first recording control unit 150 may always record game images in the first recording unit 152, and the second recording control unit 154 may always record user voice in the second recording unit 156.
  • the user can generate user-generated content by synthesizing the game images recorded in the first recording unit 152 and the user voice recorded in the second recording unit 156, and store the generated content in the auxiliary storage device 2.
  • the video generation unit 132 extracts the game images from the specified start point to the end point from the first recording unit 152, and also extracts the user voice from the specified start point to the end point from the second recording unit 156, synthesizes the game images and the user voice so that the timestamps are aligned, generates a game video, and stores the generated content in the auxiliary storage device 2 as user-generated content.
  • Example 3 the voice recognition unit 124 converts the user's voice into a character string and detects whether the converted character string contains a voice command. If the converted character string contains a voice command, the video generation unit 132 generates a game video that does not include the user's voice corresponding to the voice command.
  • FIG. 11 shows the start and end points specified by the user using voice command 1 in the third embodiment.
  • the voice recognition unit 124 performs voice recognition processing on the voice input to the microphone 5, converts the user's voice into a character string, and if the converted character string contains "Hey Game Console", activates a content generation function based on the user's voice.
  • the instruction unit 126 becomes able to instruct the video generation unit 132 to generate content based on the character string supplied from the voice recognition unit 124.
  • the voice recognition unit 124 performs voice recognition processing on the voice input to the microphone 5, and converts the voice uttered by the user following "Hey Game Console" into a string of characters. In this example, the voice recognition unit 124 converts the user's voice into the string “Capture the last 5 minutes” and supplies the converted string to the instruction unit 126.
  • the instruction unit 126 When the instruction unit 126 receives the string "Capture the last 5 minutes”, it recognizes that the user is requesting to extract the last 5 minutes of game video. When the instruction unit 126 receives the second voice command, it identifies the end point of the content to be generated and the start point of the content 5 minutes prior to the end point. In the timeline shown in Figure 11, the end point of the content is identified as the timing when the instruction unit 126 receives the second voice command, that is, the timing when the user finishes uttering the second voice command "Capture the last 5 minutes”.
  • time t1 indicates the timing when the user starts to speak the first voice command
  • time t2 indicates the timing when the user finishes speaking the first voice command
  • time t3 indicates the timing when the user finishes speaking the second voice command.
  • the timing when the user finishes speaking the second voice command can be considered as the end point of the content designated by the user, and therefore time t3 is the end point of the content designated by the user, and time t0 , which is five minutes before time t3 , is the start point of the content designated by the user.
  • the voice recognition unit 124 when the voice recognition unit 124 transmits the character string recognized by voice to the instruction unit 126, it also transmits time information of time t 1 , time t 2 , and time t 3 . Therefore, the instruction unit 126 recognizes the end point (time t 3 ) and start point (time t 0 ) of the content specified by the user. Since the instruction unit 126 receives the character string recognized by voice from the voice recognition unit 124 on a word-by-word basis, it may specify the time information of time t 1 , time t 2 , and time t 3 at the timing when each word is transmitted.
  • the instruction unit 126 generates a content generation instruction that specifies the start point (time t 0 ) and end point (time t 3 ) for cutting out the content.
  • the instruction unit 126 provides the video generation unit 132 with a content generation instruction including time information (a section from time t 1 to time t 3 ) indicating the time when the user issued a voice command.
  • the video generation unit 132 Based on the content generation instruction, the video generation unit 132 extracts game images from the start point (time t0 ) to the end point (time t3 ) from the first recording unit 152.
  • the video generation unit 132 also extracts user voice from the second recording unit 156 from the start point (time t0 ) to the end point (time t3 ), excluding the section from time t1 to time t3 , which is the command utterance section.
  • the video generation unit 132 synthesizes the game images and the user voice so that the timestamps of the extracted game images and the extracted user voice are aligned, generates a game video, and stores the generated video in the auxiliary storage device 2. In this case, the generated game video does not include the user voice from time t1 to time t3 .
  • Example 3 the game images and the user voice are buffered separately, and in the process of synthesizing the game images and the user voice, the user voice corresponding to the voice command is not synthesized with the game images, making it possible to generate a game video that does not include the utterance of the voice command.
  • the generated game video does not include the vocalization of voice commands, but it is also possible to not include inappropriate vocalizations in the game video, for example.
  • the voice recognition unit 124 converts the user voice into a character string and the converted character string contains a voice command or an inappropriate specified character string
  • the video generation unit 132 does not synthesize the user voice corresponding to the specified character string into the game image, thereby reducing the effort required for the user to trim the user voice.
  • the information processing device 10 generates game videos based on voice commands, but in a modified example, the information processing device 10 generates game videos based on user operations in a graphical user interface (GUI) generated by the system software.
  • GUI graphical user interface
  • FIG. 12 shows a modified example of the functional blocks of the information processing device 10.
  • the modified information processing device 10 includes a processing unit 100 and a communication unit 102, and has the function of temporarily recording game images generated based on user operations in the background and generating game videos, which are user-generated content, using the recorded game images.
  • the processing unit 100 includes game software 110, an output processing unit 112, a recording control unit 160, a recording unit 162, an input receiving unit 170, a GUI generation unit 172, an instruction unit 174, and a video generation unit 180.
  • the functional blocks that are given the same reference numerals as the functional blocks shown in FIG. 3 may have the same or similar functions as the functional blocks shown in FIG. 3.
  • the information processing device 10 shown in FIG. 12 includes a computer, which executes a program to realize the various functions shown in FIG. 12.
  • the computer includes hardware such as a memory into which the program is loaded, one or more processors that execute the loaded program, an auxiliary storage device, and other LSIs.
  • the processor is composed of multiple electronic circuits including semiconductor integrated circuits and LSIs, and the multiple electronic circuits may be mounted on a single chip or on multiple chips.
  • the functional blocks shown in FIG. 12 are realized by cooperation between hardware and software, and therefore, it will be understood by those skilled in the art that these functional blocks can be realized in various forms by hardware alone, software alone, or a combination thereof.
  • the game software 110 is composed of at least a game program, image data, and sound data.
  • the game program receives game operation information from the user, it performs calculation processing to move the player character in the virtual space.
  • the output processing unit 112 generates game images and game sounds (game images and sounds) based on the results of the calculations performed by the game software 110, and outputs them from the output device 4.
  • the output processing unit 112 outputs the game images and game sounds from the output device 4, and also supplies the game images and game sounds to the recording control unit 160.
  • the recording control unit 160 records the game images and game sounds generated based on the user's operations in the recording unit 162.
  • the game images and game sounds may be simply referred to as "game images.”
  • the recording unit 162 is a buffer for temporarily storing game images, and may be a ring buffer provided in the storage area of the auxiliary storage device 2.
  • the recording control unit 160 temporarily records the game images together with time information (time stamp) in the recording unit 162.
  • the recording unit 162 may have a configuration similar to that of the recording unit 130 shown in FIG. 3.
  • GUI graphical user interface
  • FIG. 13 shows an example of a GUI 190 superimposed on the game screen.
  • the GUI 190 includes multiple menu items related to capturing and sharing game images.
  • the user operates the input device 6 to move the selection frame 194 to the position of the desired menu item, thereby selecting a menu item.
  • the selection frame 194 is positioned at the menu item for "save the most recent gameplay.”
  • the GUI generation unit 172 generates a GUI for selecting the capture time, and the output processing unit 112 superimposes the GUI on the game screen.
  • FIG. 14 shows an example of a GUI 192 superimposed on the game screen.
  • the GUI 192 includes multiple menu items related to the duration of the video clip (user-generated content) to be saved.
  • the user operates the input device 6 to move the selection frame 194 to the position of the desired menu item, thereby selecting the capture time of the game video.
  • the selection frame 194 is positioned at the menu item for saving game images of the "last 5 minutes.”
  • the input receiving unit 170 When the input receiving unit 170 receives an operation of a specific button (create button) during gameplay, it provides the instruction unit 174 with time information indicating the time when the GUI display started. In addition, when the input receiving unit 170 receives an operation to select the capture time of the game video in the GUI 192, it provides the instruction unit 174 with time information indicating the selected capture time (in this example, the most recent 5 minutes) and the time when the GUI display ended.
  • Time t1 indicates the timing when the GUI display starts
  • time t2 indicates the timing when the game video capture time is selected and the GUI display ends.
  • the timing when the game video capture time is selected can be considered as the end point of the content specified by the user, and therefore time t2 is the end point of the content specified by the user.
  • the instruction unit 174 sets the end point to a timing that is at least the GUI display time (time t 2 -time t 1 ) back from the end point (time t 2 ) of the game video specified by the user operation on the GUI, and sets the start point of the content that is five minutes back from the end point.
  • the instruction unit 174 sets the end point to a timing (time t 1 ) that is the GUI display time (time t 2 -time t 1 ) back from the end point (time t 2 ) specified by the user, and sets the start point (time T 0 ) of the content that is five minutes back from the end point.
  • the instruction unit 174 generates a content generation instruction that specifies the start point (time T 0 ) and end point (time t 1 ), and provides it to the video generation unit 180.
  • the video generation unit 180 cuts out from the recording unit 162 a game video whose end point is a timing (time t 1 ) that is the GUI display time (time t 2 - time t 1 ) prior to the end point (time t 2 ) specified by the user, and whose start point is a timing (T 0 ) that is 5 minutes prior to the end point, and saves this video in the auxiliary storage device 2 as user-generated content.
  • the video generating unit 180 can generate a game video (content) that does not include the GUI.
  • the video generating unit 180 can generate content that does not include a GUI by using game images that were recorded in the recording unit 162 before the GUI was displayed.
  • the instruction unit 174 sets the end point to the timing (time t1 ) when the display of the GUI begins, but to ensure that the GUI is not included in the content, the end point may be a predetermined time (e.g., a few seconds) before time t1 .
  • the functions of the components in the information processing device may be realized in circuitry or processing circuitry, including general purpose processors, application specific processors, integrated circuits, ASICs (Application Specific Integrated Circuits), CPUs (Central Processing Units), conventional circuits, and/or combinations thereof, configured or programmed to perform the functions described herein.
  • a processor includes transistors and other circuits and is considered to be a circuitry or processing circuitry.
  • a processor may be a programmed processor that executes programs stored in memory.
  • a circuit, unit, or means is hardware that is programmed to realize or executes the described functions.
  • the hardware may be any hardware disclosed in this specification or any hardware known to be programmed to realize or execute the described functions.
  • the hardware is a processor that is considered to be a type of circuitry
  • the circuitry, means, or unit is a combination of the hardware and the software used to configure the hardware and/or the processor.
  • This disclosure can be used in technology for generating game videos.

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

記録制御部114は、ユーザの操作にもとづいて生成されたゲーム画像を記録部130に記録する。動画生成部132は、ユーザ音声により指定されるゲーム動画の終了点にもとづいて、記録部130に記録されたゲーム画像から、ユーザ音声を含まないゲーム動画を生成する。

Description

情報処理装置およびゲーム動画生成方法
 本開示は、ユーザ生成コンテンツであるゲーム動画を生成する技術に関する。
 特許文献1は、ユーザの操作にもとづいてゲーム画像を生成して、生成したゲーム画像を出力装置に表示するとともに、当該ゲーム画像をバックグランドでリングバッファに記録する情報処理装置を開示する。ユーザは編集画面において、記録したゲーム動画を切り出す開始点と終了点を指定し、切り出したゲーム動画をコンテンツ共有サーバにアップロードできる。
特開2020-870号公報
 従来、ユーザは、切り出したゲーム動画をコンテンツ共有サーバにアップロードする前に、ゲーム動画に含まれている余計なユーザ音声や、ゲーム画像に重畳表示されたグラフィカルユーザインタフェース(GUI)などをトリミングする編集作業を行う。このような編集作業はユーザにとって面倒であるため、ユーザがゲーム動画を編集する手間を軽減する仕組みを実現することが望まれている。
 そこで本開示は、ユーザ生成コンテンツであるゲーム動画を効率的に生成する仕組みを実現することを目的とする。
 上記課題を解決するために、本開示のある態様の情報処理装置は、ハードウェアを有する1つ以上のプロセッサを備え、1つ以上のプロセッサは、ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する。
 本開示の別の態様のゲーム動画生成方法は、ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する。
 本開示のさらに別の態様の情報処理装置は、ハードウェアを有する1つ以上のプロセッサを備え、1つ以上のプロセッサは、ユーザの操作にもとづいて生成されたゲーム画像を第1記録部に記録し、ユーザ音声を取得し、ユーザ音声を第2記録部に記録し、第1記録部に記録したゲーム画像と、第2記録部に記録したユーザ音声を合成したゲーム動画を生成する。
 本開示のさらに別の態様のゲーム動画生成方法は、ユーザの操作にもとづいて生成されたゲーム画像を第1記録部に記録し、ユーザ音声を取得し、ユーザ音声を第2記録部に記録し、第1記録部に記録したゲーム画像と、第2記録部に記録したユーザ音声を合成したゲーム動画を生成する。
 なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本開示の態様として有効である。
実施例にかかる情報処理システムを示す図である。 情報処理装置のハードウェア構成を示す図である。 情報処理装置の機能ブロックを示す図である。 ゲーム画面の例を示す図である。 ゲーム画面に重畳表示される文字列を示す図である。 ユーザが指定するコンテンツの開始点および終了点を示す図である。 コンテンツの開始点および終了点を示す図である。 ユーザが指定するコンテンツの開始点および終了点を示す図である。 コンテンツの開始点および終了点を示す図である。 情報処理装置の機能ブロックの別の例を示す図である。 ユーザが指定する開始点と終了点を示す図である。 情報処理装置の機能ブロックの変形例を示す図である。 ゲーム画面に重畳表示されるGUIの例を示す図である。 ゲーム画面に重畳表示されるGUIの例を示す図である。 コンテンツの開始点および終了点を示す図である。
 実施例の情報処理システムでは、情報処理装置がユーザの操作にもとづいてゲームプログラムを実行し、ゲーム画像を出力装置に表示するとともに、ゲーム画像をリングバッファなどのバッファ(記録部)に時間情報とともに記録する。ゲームプレイ中、ユーザが、バッファに記録したゲーム画像を切り出すための開始点および終了点を指定すると、情報処理装置は、ユーザが指定した開始点および終了点にもとづいてバッファからゲーム動画を切り出し、ユーザ生成コンテンツ(UGC:User Generated Content)として、記憶装置に記録する。
 図1は、本開示の実施例にかかる情報処理システム1を示す。情報処理システム1は、ユーザ端末装置である情報処理装置10、補助記憶装置2および出力装置4を備える。アクセスポイント(以下、「AP」とよぶ)8は、無線アクセスポイントおよびルータの機能を有し、情報処理装置10は、無線または有線経由でAP8に接続して、ネットワーク上のコンテンツ共有サーバ(図示せず)と通信可能に接続する。
 情報処理装置10は、ユーザA(以下、単に「ユーザ」とも呼ぶ)が操作する入力装置6と無線または有線で接続し、入力装置6はユーザが操作した情報を情報処理装置10に送信する。情報処理装置10は入力装置6から操作情報を受け付けると、システムソフトウェアやゲームソフトウェアの処理に反映し、出力装置4から処理結果を出力させる。
 実施例において、情報処理装置10はゲームプログラムを実行するゲーム装置(ゲームコンソール)であり、入力装置6はゲームコントローラなど情報処理装置10に対してユーザの操作情報を供給する機器であってよい。なお入力装置6は、キーボードやマウスなどの入力インタフェースであってもよい。
 変形例で情報処理システム1は、ユーザの操作にもとづいてゲームプログラムを実行するクラウドゲームサーバを備えてよい。この変形例において情報処理装置10は、ゲームサーバに対してユーザのゲーム操作情報を送信する。ゲームサーバは、ユーザの操作にもとづいてゲーム画像およびゲーム音を生成し、ゲーム画像およびゲーム音を情報処理装置10にストリーミングする。この変形例で情報処理装置10はゲームプログラムの実行機能を有しなくてよく、ゲーム画像およびゲーム音を出力装置4から出力する端末装置であってよい。
 補助記憶装置2は、HDD(ハードディスクドライブ)やSSD(ソリッドステートドライブ)などの大容量記憶装置であり、内蔵型記憶装置であってよく、またUSB(Universal Serial Bus)などによって情報処理装置10と接続する外部記憶装置であってもよい。出力装置4は画像を出力する表示装置および音声を出力するスピーカを有するテレビであってよい。出力装置4は、情報処理装置10に有線ケーブルで接続されてよく、また無線接続されてもよい。
 撮像装置であるカメラ7は出力装置4の近傍に設けられ、出力装置4周辺の空間を撮像する。図1ではカメラ7が出力装置4の上部に取り付けられている例を示しているが、出力装置4の側部または下部に配置されてもよく、いずれにしても出力装置4の前方に位置するユーザを撮像できる位置に配置される。カメラ7はステレオカメラであってもよい。
 マイク5は、ユーザの近傍に配置され、ユーザが発する音声を取得する。ユーザは、プレイしているゲームを実況し、その実況音声を、ゲーム画像およびゲーム音とともにバッファ(記録部)に記録することで、ゲームの実況動画をコンテンツ共有サーバにアップロードできる。クリアなユーザ音声を取得するために、マイク5は、ユーザに近い距離に位置する入力装置6に内蔵されてもよい。なおユーザは、マイク5およびイヤホン(ヘッドホン)を備えるヘッドセットを使用して、ゲーム実況を行ってもよい。
 図2は、情報処理装置10のハードウェア構成を示す。情報処理装置10は、メイン電源ボタン20、電源ON用LED21、スタンバイ用LED22、システムコントローラ24、クロック26、デバイスコントローラ30、メディアドライブ32、USBモジュール34、フラッシュメモリ36、無線通信モジュール38、有線通信モジュール40、サブシステム50およびメインシステム60を有して構成される。
 メインシステム60は、メインCPU(Central Processing Unit)、主記憶装置であるメモリおよびメモリコントローラ、GPU(Graphics Processing Unit)などを備える。GPUはゲームプログラムの演算処理に主として利用される。メインCPUはシステムソフトウェアを起動し、システムソフトウェアが提供する環境下において、補助記憶装置2にインストールされたゲームプログラムを実行する機能をもつ。サブシステム50は、サブCPU、主記憶装置であるメモリおよびメモリコントローラなどを備え、GPUを備えない。
 メインCPUは補助記憶装置2やROM媒体44にインストールされているゲームプログラムを実行する機能をもつ一方で、サブCPUはそのような機能をもたない。しかしながらサブCPUは補助記憶装置2にアクセスする機能を有している。サブCPUは、このような制限された処理機能のみを有して構成されており、したがってメインCPUと比較して小さい消費電力で動作できる。これらのサブCPUの機能は、メインCPUがスタンバイ状態にある際に実行される。
 メイン電源ボタン20は、ユーザからの操作入力が行われる入力部であって、情報処理装置10の筐体の前面に設けられ、情報処理装置10のメインシステム60への電源供給をオンまたはオフするために操作される。電源ON用LED21は、メイン電源ボタン20がオンされたときに点灯し、スタンバイ用LED22は、メイン電源ボタン20がオフされたときに点灯する。システムコントローラ24は、ユーザによるメイン電源ボタン20の押下を検出する。
 クロック26はリアルタイムクロックであって、現在の日時情報を生成し、システムコントローラ24やサブシステム50およびメインシステム60に供給する。
 デバイスコントローラ30は、サウスブリッジのようにデバイス間の情報の受け渡しを実行するLSI(Large-Scale Integrated Circuit)として構成される。図示のように、デバイスコントローラ30には、システムコントローラ24、メディアドライブ32、USBモジュール34、フラッシュメモリ36、無線通信モジュール38、有線通信モジュール40、サブシステム50およびメインシステム60などのデバイスが接続される。デバイスコントローラ30は、それぞれのデバイスの電気特性の違いやデータ転送速度の差を吸収し、データ転送のタイミングを制御する。
 メディアドライブ32は、ゲームなどのアプリケーションソフトウェア、およびライセンス情報を記録したROM媒体44を装着して駆動し、ROM媒体44からプログラムやデータなどを読み出すドライブ装置である。ROM媒体44は、光ディスクや光磁気ディスク、ブルーレイディスクなどの読出専用の記録メディアである。
 USBモジュール34は、外部機器とUSBケーブルで接続するモジュールである。USBモジュール34は補助記憶装置2およびカメラ7とUSBケーブルで接続してもよい。フラッシュメモリ36は、内部ストレージを構成する補助記憶装置である。無線通信モジュール38は、Bluetooth(登録商標)プロトコルやIEEE802.11プロトコルなどの通信プロトコルで、たとえば入力装置6と無線通信する。入力装置6がマイク5を内蔵している場合、マイク5で取得されたユーザ音声は、無線通信モジュール38に送信される。有線通信モジュール40は、外部機器と有線通信し、たとえばAP8を介して外部のネットワークに接続する。
 図3は、情報処理装置10の機能ブロックを示す。実施例の情報処理装置10は、処理部100および通信部102を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツ(以下、単に「コンテンツ」とも呼ぶ)であるゲーム動画を生成する機能を有する。処理部100は、ゲームソフトウェア110、出力処理部112、記録制御部114、ユーザ音声取得部120、音声供給部122、音声認識部124、指示部126、記録部130および動画生成部132を備える。
 図3に示す情報処理装置10はコンピュータを備え、コンピュータがプログラムを実行することによって、図3に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する1つ以上のプロセッサ、補助記憶装置、その他のLSIなどをハードウェアとして備える。プロセッサは、半導体集積回路やLSIを含む複数の電子回路により構成され、複数の電子回路は、1つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図3に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
 通信部102は、無線通信モジュール38および有線通信モジュール40の機能を併せ持つ。ユーザのゲームプレイ中、通信部102は、ユーザが入力装置6を操作した情報(ゲーム操作情報)を受信して、ゲームソフトウェア110に提供する。
 ゲームソフトウェア110は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部112は、ゲームソフトウェア110による演算結果にもとづいてゲーム画像およびゲーム音(ゲーム画音)を生成し、出力装置4から出力させる。出力処理部112は、レンダリング処理などを実行するGPU(Graphics Processing Unit)を含んでよい。
 図4は、出力装置4に表示されるゲーム画面の例を示す。ユーザは、ゲーム画像を見ながら入力装置6を操作して、ゲームを進行させる。
 情報処理装置10では、出力処理部112が、ゲーム画像およびゲーム音を出力装置4から出力させるとともに、ゲーム画像およびゲーム音を記録制御部114に供給する。情報処理装置10は、出力処理部112が生成したゲーム画像およびゲーム音をバックグランド記録する機能を有し、記録制御部114は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を記録部130に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。
 記録部130は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置2の記憶領域に設けられてよい。記録部130はリングバッファであってよく、リングバッファは、補助記憶装置2の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置10の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。記録制御部114は、ゲーム画像を時間情報(タイムスタンプ)とともに記録部130に一時記録する。
 記録制御部114は、ユーザの操作にもとづいて生成されたゲーム画像を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば記録部130の容量は、最大で60分間(1時間)分のゲーム画像を記録できるように設定され、したがって記録部130には、ユーザが直近の60分間にプレイしたゲーム画像が記録されることになる。
 実施例では、ユーザがゲームをプレイしながら、ゲームの実況を行う。ユーザが発した音声がマイク5に入力されると、ユーザ音声取得部120は、マイク5に入力されたユーザ音声を取得し、音声供給部122は、ユーザ音声を記録制御部114に供給する。記録制御部114は、出力処理部112から供給されるゲーム画像と、音声供給部122から供給されるユーザ音声とを合成して、記録部130に記録する。つまり記録部130には、ユーザの実況音声を含んだゲーム動画が記録される。
 実施例において、ユーザはゲームプレイ中に、記録部130に記録されたゲーム画像から所望のシーンを切り出してユーザ生成コンテンツを生成し、補助記憶装置2に保存できる。たとえばユーザがゲームプレイ中に、コンテンツの終了点と、当該終了点から任意の時間だけ遡ったタイミングを指定すると、動画生成部132は、記録部130からゲーム動画を切り出し、切り出したゲーム動画をユーザ生成コンテンツとして補助記憶装置2に保存できる。またユーザがゲームプレイ中に、コンテンツの開始点をリアルタイムで指定し、その後、コンテンツの終了点をリアルタイムで指定すると、動画生成部132は、記録部130からゲーム動画を切り出し、切り出したゲーム動画をユーザ生成コンテンツとして補助記憶装置2に保存できる。
 実施例においてユーザは、ゲームプレイ中に、所定のコマンドを発声することで、コンテンツの生成指示を情報処理装置10に入力できる。ゲームプレイ中、ユーザは、入力装置6をゲームの操作に使用しているため、コンテンツの生成指示を入力装置6を用いずに、音声コマンドにより入力可能とすることは、ユーザの円滑なゲームプレイを支援する。音声認識部124は、ユーザ音声取得部120が取得した音声を音声認識して、ユーザが発した音声を文字列に変換する。なお図3においては、音声認識部124と音声供給部122とを別個の機能ブロックとして示しているが、音声認識部124と音声供給部122は一体の機能モジュールとして構成されてもよい。
<音声コマンド1>
 以下、音声コマンド1の例を示す。
・「Hey Game Console, Capture the last 5 minutes(ヘイゲームコンソール 直近の5分を保存してください)」
 ユーザは、音声コマンド1を発声することで、コンテンツの終了点と、当該終了点から任意の時間だけ遡ったコンテンツの開始点を指定できる。
 この音声コマンド1は、第1音声コマンドと、第1音声コマンドに続く第2音声コマンドから構成される。
(a)第1音声コマンド  「Hey Game Console(ヘイゲームコンソール)」
 第1音声コマンドは、ユーザ音声によるコンテンツ生成機能を起動するための音声コマンドである。音声認識部124は、マイク5に入力された音声を音声認識処理して、ユーザ音声を文字列に変換し、変換した文字列に「Hey Game Console」が含まれていると、ユーザ音声によるコンテンツ生成機能を起動する。ユーザ音声によるコンテンツ生成機能が起動されると、指示部126が、音声認識部124から供給される文字列にもとづいて、コンテンツの生成を動画生成部132に指示可能な状態となる。
 ユーザ音声によるコンテンツ生成機能が起動されると、記録制御部114は、ユーザ音声をゲーム画像に合成する処理を一時停止し、ゲーム画像のみを記録部130に記録する。このとき記録制御部114は、音声供給部122から供給されるユーザ音声を破棄することで、ユーザ音声の合成処理を一時停止してよいが、音声供給部122が、記録制御部114にユーザ音声を供給することを一時停止してもよい。したがって記録制御部114は、ユーザが「Hey Game Console」と発した後にユーザが発した音声を、記録部130に記録しない。なおユーザ音声がゲーム画像に合成されなくなるのは、ユーザ音声を変換した文字列に第1音声コマンド「Hey Game Console」が含まれていることが音声認識部124により確認された後であるため、ユーザ音声「Hey Game Console」は、記録部130に記録されることになる。
(b)第2音声コマンド  「Capture the last 5 minutes(直近の5分を保存してください)」
 第2音声コマンドは、コンテンツを切り出す開始点および終了点を指定するための音声コマンドである。音声認識部124は、マイク5に入力された音声を音声認識処理して、「Hey Game Console」に続けてユーザが発した音声を文字列に変換する。この例で音声認識部124は、ユーザ音声を文字列「Capture the last 5 minutes」に変換して、変換した文字列を指示部126に供給する。
 図5は、ゲーム画面に重畳表示される文字列を示す。ユーザ音声によるコンテンツ生成機能の起動後に音声認識された文字列は、出力装置4に表示されているゲーム画面に重畳表示されてよい。ユーザは、ゲーム画面に重畳表示される文字列140を見ることで、ユーザ音声によるコンテンツ生成指示が情報処理装置10に受け付けられたことを確認できる。
 指示部126は、文字列「Capture the last 5 minutes」を受け取ると、ユーザが直近の5分のゲーム動画を切り出すことを要求していることを認識する。音声コマンドの認識率を高めるために、第2音声コマンドは定型化されていることが好ましい。具体的には、「Capture the last」が定型文であり、ユーザが「Capture the last」を発声した後に、ゲーム動画の切出時間を発声することで、第2音声コマンドが成立してよい。実施例では「Capture the last」に限らず、「Save the last」や、「Record gameplay for the last」なども定型文として用意されて、ユーザは、様々な種類の第2音声コマンドを利用できてよい。なお指示部126は自然言語理解機能を備え、文字列の意味を理解して、ユーザが指定するコンテンツの開始点および終了点を特定できてもよい。
 指示部126は、第2音声コマンドを受け取ると、生成するコンテンツの終了点と、当該終了点から5分だけ遡ったコンテンツの開始点を特定する。以下の図6においては、指示部126が、第2音声コマンドを受け取ったタイミング、つまりユーザが第2音声コマンド「Capture the last 5 minutes」を発声し終えたタイミングを、コンテンツの終了点として特定した場合について説明する。
 図6は、ユーザが指定するコンテンツの開始点および終了点を示す。時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンドの発声を終了したタイミングを示す。第2音声コマンドの発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができる。したがって時間tは、ユーザが指定したコンテンツの終了点であり、時間tから5分前の時間tは、ユーザが指定したコンテンツの開始点となる。
 上記したように、記録制御部114は、第1音声コマンド「Hey Game Console」の発声が終了したタイミング(時間t)より後にユーザが発した音声を記録部130に記録しないが、第1音声コマンドの発声は記録部130に記録している。そのため図6に示すタイムラインでは、時間tから時間tまでの間にユーザ音声「Hey Game Console」が記録されており、ユーザが指定する時間tから時間tまでのゲーム動画を切り出すと、切り出したゲーム動画に、ユーザ音声「Hey Game Console」が含まれることになる。
 そこで実施例の情報処理装置10は、ユーザ音声により指定されるコンテンツの開始点および終了点にもとづいて、記録部130に記録されたゲーム画像から、ユーザ音声を含まないコンテンツ(ゲーム動画)を生成する機能を備える。情報処理装置10は、ユーザ音声を含まないコンテンツを生成することで、ユーザによるコンテンツの編集作業を支援する。
(実施例1)
 図7は、実施例1において設定するコンテンツの開始点および終了点を示す。時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンドの発声を終了したタイミングを示す。時間tは、ユーザが指定したコンテンツの終了点である。なお参考のために、ユーザが指定した開始点である時間t(図6参照)も示している。
 実施例1において、音声認識部124は、音声認識した文字列を指示部126に伝える際に、あわせて時間t、時間t、時間tの時間情報も伝える。したがって指示部126は、ユーザが指定したコンテンツの終了点(時間t)を認識するとともに、ユーザによる音声コマンド1の発声時間(時間t-時間t)を取得する。なお指示部126は、音声認識部124から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間t、時間t、時間tの時間情報を特定してもよい。
 指示部126は、コンテンツを切り出す開始点および終了点を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、ユーザ音声により指定されるゲーム動画の終了点(時間t)より時間的に前となるタイミングを終了点とするゲーム動画を記録部130から切り出し、ユーザ生成コンテンツとして補助記憶装置2に保存する。
 具体的に、指示部126は、ユーザ音声により指定されるゲーム動画の終了点(時間t)から発声時間(時間t-時間t)以上遡ったタイミングを終了点に設定し、当該終了点から5分だけ遡ったコンテンツの開始点を設定する。図7に示す例では、指示部126は、ユーザが指定した終了点(時間t)から発声時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、当該終了点から5分だけ遡ったコンテンツの開始点(T)を設定している。そこで指示部126は、開始点(時間T)および終了点(時間t)を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点(時間t)から発声時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、当該終了点から5分だけ遡ったタイミング(時間T)を開始点とするゲーム動画を記録部130から切り出して、ユーザ生成コンテンツとして補助記憶装置2に保存する。
 このように実施例1によれば、音声認識部124が変換した文字列に音声コマンド1が含まれている場合に、動画生成部132は、音声コマンド1に対応するユーザ音声を含まないゲーム動画(コンテンツ)を生成できる。つまり動画生成部132は、音声コマンド1が発声される前に記録部130に記録されたゲーム画像を用いることで、音声コマンドを発したユーザ音声を含まないコンテンツを生成することが可能となる。
 なお図7に示す例では、指示部126が、ユーザが第1音声コマンドの発声を開始したタイミング(時間t)を終了点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間tの所定時間(たとえば数秒)前を終了点としてもよい。
<音声コマンド2>
 次に、音声コマンド1とは異なる音声コマンド2の例を示す。
 音声コマンド2は、コンテンツの開始点を指定する開始コマンドと、コンテンツの終了点を指定する終了コマンドを含む。
・開始コマンド
 「Hey Game Console, Start recording(ヘイゲームコンソール 録画を開始してください)」
・終了コマンド
 「Hey Game Console, Stop recording(ヘイゲームコンソール 録画を終了してください)」
 なお、音声コマンド2における“Start recording”、“Stop recording”は、記録部130への録画に関する指示ではなく、記録部130に録画されたゲーム画像からコンテンツを生成することに関する指示であることに留意されたい。記録制御部114は、ゲーム画像を常に記録部130に記録しており、音声コマンド2は、記録部130へのゲーム画像の記録に影響を与えるものではない。
 ユーザは、開始コマンドを発声することで、コンテンツの開始点を指定し、終了コマンドを発声することで、コンテンツの終了点を指定する。なお開始コマンドと終了コマンドはセットであり、ユーザが開始コマンドを発声しても、終了コマンドを発声しなければ、記録部130からゲーム動画の切り出しは行われない。
 音声コマンド1と同様に、音声コマンド2は、第1音声コマンドと、第1音声コマンドに続く第2音声コマンドから構成される。
(a)第1音声コマンド  「Hey Game Console(ヘイゲームコンソール)」
 上記したように第1音声コマンドは、ユーザ音声によるコンテンツ生成機能を起動するための音声コマンドである。ユーザが第1音声コマンドを発声すると、ユーザ音声によるコンテンツ生成機能が起動され、指示部126が、音声認識部124から供給される文字列にもとづいて、コンテンツの生成に関する処理を実行可能な状態となり、記録制御部114は、ユーザ音声をゲーム画像に合成する処理を一時停止する。
(b)第2音声コマンド
(b1) 開始コマンド 「Start recording(録画を開始してください)」
 この第2音声コマンドは、コンテンツを切り出す開始点を指定するための音声コマンドである。音声認識部124は、マイク5に入力された音声から文字列「Start recording」を取得すると、文字列「Start recording」を、取得した時間を示す時間情報とともに指示部126に供給する。なおユーザが第2音声コマンド「Start recording」を発声して、指示部126が文字列「Start recording」を受け取ると、記録制御部114は、ユーザ音声をゲーム画像に合成する処理を再開する。
(b2) 終了コマンド 「Stop recording(録画を終了してください)」
 この第2音声コマンドは、コンテンツを切り出す終了点を指定するための音声コマンドである。音声認識部124は、マイク5に入力された音声から文字列「Stop recording」を取得すると、文字列「Stop recording」を、取得した時間を示す時間情報とともに指示部126に供給する。
 指示部126は、音声認識部124から文字列「Start recording」を受け取った後に、文字列「Stop recording」を受け取ると、ユーザが、「Start recording」を発声したタイミングから、「Stop recording」を発声したタイミングの間のゲーム動画を切り出すことを要求していることを認識する。指示部126は、一対の開始コマンドと終了コマンドを受け取ると、生成するコンテンツの開始点と終了点を特定する。以下の図8においては、指示部126が、文字列「Start recording」を受け取ったタイミングをコンテンツの開始点、文字列「Stop recording」を受け取ったタイミングをコンテンツの終了点として特定した場合について説明する。
 図8は、ユーザが指定するコンテンツの開始点および終了点を示す。時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンド(開始コマンド)の発声を終了したタイミングを示す。第2音声コマンド(開始コマンド)の発声が終了したタイミングは、ユーザが指定するコンテンツの開始点とみなすことができる。したがって時間tは、ユーザが指定したコンテンツの開始点である。
 時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンド(終了コマンド)の発声を終了したタイミングを示す。第2音声コマンド(終了コマンド)の発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができる。したがって時間tは、ユーザが指定したコンテンツの終了点である。
 上記したように、ユーザが「Start recording」を発声したタイミング(時間t)の後、記録制御部114は、ゲーム画像にユーザ音声を合成する処理を再開している。図8に示すタイムラインにおいては、時間tから時間tまでの間にユーザ音声「Hey Game Console」が記録部130に記録されており、ユーザが指定する時間tから時間tまでのゲーム動画を切り出すと、切り出したゲーム動画に、ユーザ音声「Hey Game Console」が含まれることになる。
 図9は、実施例1において設定するコンテンツの開始点および終了点を示す。時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンド(開始コマンド)の発声を終了したタイミングを示す。時間tは、ユーザが指定したコンテンツの開始点である。
 時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンド(終了コマンド)の発声を終了したタイミングを示す。時間tは、ユーザが指定したコンテンツの終了点である。
 実施例1において、音声認識部124は、音声認識した文字列を指示部126に伝える際に、あわせて時間t、時間t、時間t、時間t、時間t、時間tの時間情報も伝える。したがって指示部126は、ユーザが指定したコンテンツの終了点(時間t)を認識するとともに、ユーザによる終了コマンド「Hey Game Console, Stop recording」の発声時間(時間t-時間t)を取得する。なお指示部126は、音声認識部124から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間t、時間t、時間t、時間t、時間t、時間tの時間情報を特定してもよい。
 指示部126は、コンテンツを切り出す開始点および終了点を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、ユーザ音声により指定されるゲーム動画の終了点(時間t)より時間的に前となるタイミングを終了点とするゲーム動画を記録部130から切り出し、ユーザ生成コンテンツとして補助記憶装置2に保存する。
 具体的に、指示部126は、ユーザ音声により指定されるゲーム動画の終了点(時間t)から終了コマンドの発声時間(時間t-時間t)以上遡ったタイミングを終了点として設定する。指示部126は、ユーザ音声により指定されるゲーム動画の開始点(t)を、そのまま開始点として設定してよい。図9に示す例では、指示部126は、ユーザが指定した終了点(時間t)から終了コマンドの発声時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点としている。そこで指示部126は、開始点(時間t)および終了点(時間t)を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点(時間t)から発声時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、ユーザが指定したタイミング(時間t)を開始点とするゲーム動画を記録部130から切り出して、ユーザ生成コンテンツとして補助記憶装置2に保存する。
 このように実施例1によれば、音声認識部124が変換した文字列に音声コマンド2が含まれている場合に、動画生成部132は、音声コマンド2に対応するユーザ音声を含まないゲーム動画(コンテンツ)を生成できる。つまり動画生成部132は、終了コマンドが発声される前に記録部130に記録されたゲーム画像を用いることで、音声コマンドを発したユーザ音声を含まないコンテンツを生成することが可能となる。
 なお図9に示す例では、指示部126が、ユーザが第1音声コマンドの発声を開始したタイミング(時間t)を終了点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間tの所定時間(たとえば数秒)前を終了点としてもよい。また図9に示す例では、指示部126が、ユーザが第2音声コマンド(開始コマンド)の発声を終了したタイミング(時間t)を開始点としているが、ユーザ音声がコンテンツに確実に含まれないようにするために、時間tの所定時間(たとえば数秒)後を開始点としてもよい。
(実施例2)
 実施例1では、ユーザが指定したコンテンツの終了点より前のタイミングを終了点に設定して、設定した終了点でゲーム動画を記録部130から切り出している。実施例2では、ユーザ音声により指定されたコンテンツの開始点から終了点までのゲーム動画を記録部130から切り出し、切り出したゲーム動画から、音声コマンドに対応するユーザ音声を除去する。
 図6を参照すると、時間tが、ユーザが指定したコンテンツの開始点であり、時間tが、ユーザが指定したコンテンツの終了点である。図6に示すタイムラインにおいて、実施例2では、指示部126が、開始点(時間t)および終了点(時間t)を定めたコンテンツ生成指示を生成して、動画生成部132に提供する。動画生成部132は、コンテンツ生成指示にもとづいて、開始点を時間t、終了点を時間tとするゲーム動画を記録部130から切り出し、時間tから時間tまでの間に記録されているユーザ音声「Hey Game Console」を、切り出したゲーム動画から除去する。
 実施例2において、音声認識部124は、ユーザ音声をバッファリングする機能を有し、ユーザが時間tから時間tまでの間に発声したユーザ音声「Hey Game Console」を、指示部126に供給する。音声認識部124は、音声認識処理により時間tから時間tまでの間に「Hey Game Console」のユーザ音声が含まれていることを検出すると、バッファから時間tから時間tまでの間のユーザ音声「Hey Game Console」を読み出して、ユーザが発声した時間情報(時間tから時間tまでの区間)とともに、ユーザ音声データを指示部126に供給する。指示部126は、開始点(時間t)および終了点(時間t)を定めたコンテンツ生成指示に、ユーザ音声「Hey Game Console」および時間情報を含めて、動画生成部132に提供する。
 動画生成部132は、コンテンツ生成指示にもとづいて、開始点を時間t、終了点を時間tとするゲーム動画を記録部130から切り出した後、時間tと時間tの間に記録されているユーザ音声「Hey Game Console」を、提供されたユーザ音声データを用いて除去する。具体的に、動画生成部132は、ゲーム動画に含まれるユーザ音声に、提供されたユーザ音声の逆位相を重ねることで、ゲーム動画に含まれるユーザ音声をキャンセルして、ゲーム動画からユーザ音声「Hey Game Console」を消してよい。なお実施例においては、ユーザ音声「Hey Game Console」の後に続くユーザ音声「Capture the last 5 minutes」は記録部130に記録されない仕様を前提としているが、ユーザ音声「Capture the last 5 minutes」も記録部130に記録される場合には、指示部126が、ユーザ音声「Hey Game Console, Capture the last 5 minutes」を動画生成部132に提供して、動画生成部132が、ゲーム動画からユーザ音声「Hey Game Console, Capture the last 5 minutes」をキャンセルする。
 ユーザ音声がゲーム画像に合成されて記録部130に記録される際に、符号化処理などの非線形処理が施されている場合、動画生成部132は、その非線形処理を加味して、ゲーム動画に含まれるユーザ音声を消すことが好ましい。
 この例では、動画生成部132が、コンテンツ生成のための音声コマンドの発声をキャンセルする例を説明したが、情報処理装置10が、他の機能を起動するための音声コマンドを許容している場合、音声認識部124が、ユーザによる音声コマンドの発声を検出すると、そのコマンドのユーザ音声を指示部126に提供することで、動画生成部132が、切り出したゲーム動画から、各種コマンドのユーザ音声をキャンセルすることが可能となる。
 なお上記例では、動画生成部132が、ユーザが実際に発した音声を用いて、ゲーム動画に含まれるユーザ音声をキャンセルしたが、たとえば音声コマンドの発声を学習した学習済みモデルを用いて、ゲーム動画に含まれる音声コマンドの発声をキャンセルしてもよい。学習済みモデルは、多数のユーザが発声した音声コマンドを学習することで作成されてよい。上記したように、情報処理装置10が、各種機能を起動するための様々な音声コマンドの受け付けを許容している場合、学習済みモデルは、各種コマンドの発声を学習しておくことで、動画生成部132が、ゲーム動画から、様々な音声コマンドの発声を除去することが可能となる。
(実施例3)
 図10は、情報処理装置10の機能ブロックの別の例を示す。実施例3の情報処理装置10は、処理部100および通信部102を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツであるゲーム動画を生成する機能を有する。処理部100は、ゲームソフトウェア110、出力処理部112、ユーザ音声取得部120、音声供給部122、音声認識部124、指示部126、第1記録制御部150、第1記録部152、第2記録制御部154、第2記録部156および動画生成部132を備える。図10に示す機能ブロックで、図3に示す機能ブロックと同じ符号を付した機能ブロックは、図3に示す機能ブロックと同じまたは同様の機能を有してよい。
 図10に示す情報処理装置10はコンピュータを備え、コンピュータがプログラムを実行することによって、図10に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する1つ以上のプロセッサ、補助記憶装置、その他のLSIなどをハードウェアとして備える。プロセッサは、半導体集積回路やLSIを含む複数の電子回路により構成され、複数の電子回路は、1つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図10に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
 ゲームソフトウェア110は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部112は、ゲームソフトウェア110による演算結果にもとづいてゲーム画像およびゲーム音を生成し、出力装置4から出力させる。
 情報処理装置10では、出力処理部112が、ゲーム画像およびゲーム音を出力装置4から出力させるとともに、ゲーム画像およびゲーム音を第1記録制御部150に供給する。第1記録制御部150は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を第1記録部152に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。
 第1記録部152は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置2の記憶領域に設けられてよい。第1記録部152はリングバッファであってよく、リングバッファは、補助記憶装置2の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置10の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。第1記録制御部150は、ゲーム画像を時間情報(タイムスタンプ)とともに第1記録部152に一時記録する。
 第1記録制御部150は、ユーザの操作にもとづいて生成されたゲーム画像を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば第1記録部152の容量は、最大で60分間(1時間)分のゲーム画像を記録できるように設定され、したがって第1記録部152には、ユーザが直近の60分間にプレイしたゲーム画像が記録されることになる。
 ユーザ音声取得部120は、マイク5に入力されたユーザ音声を取得し、音声供給部122は、ユーザ音声を第2記録制御部154に供給する。第2記録制御部154は、音声供給部122から供給されるユーザ音声を、第2記録部156に記録する。実施例3では、実施例1,2と異なり、ユーザ音声がゲーム動画と合成されることなく、第2記録部156に記録される。
 第2記録部156は、ユーザ音声を一時的に保持するためのバッファであり、補助記憶装置2の記憶領域に設けられてよい。第2記録部156の記憶領域は、第1記録部152の記憶領域とは別に設けられる。第2記録部156はリングバッファであってよく、リングバッファは、補助記憶装置2の記憶領域に開始アドレスおよび終了アドレスを設定することで構成されてよい。リングバッファ領域の開始アドレスおよび終了アドレスは、情報処理装置10の出荷前に設定されてよいが、ユーザが自由に設定できてもよい。第2記録制御部154は、ユーザ音声を時間情報(タイムスタンプ)とともに第2記録部156に一時記録する。
 第2記録制御部154は、マイク5に入力されたユーザ音声を、開始アドレスから予め定められたアドレス順にリアルタイムで記録していき、終了アドレスまで記録すると、開始アドレスに戻って上書き記録し、それを繰り返す。たとえば第2記録部156の容量は、最大で60分間(1時間)分のユーザ音声を記録できるように設定されてよい。
 実施例3において、第1記録制御部150は、ゲーム画像を常に第1記録部152に記録し、第2記録制御部154は、ユーザ音声を常に第2記録部156に記録してよい。
 実施例3において、ユーザは、第1記録部152に記録されたゲーム画像と、第2記録部156に記録されたユーザ音声を合成してユーザ生成コンテンツを生成し、補助記憶装置2に保存できる。たとえばユーザがゲームプレイ中に、音声コマンドによりコンテンツの開始点と終了点を指定すると、動画生成部132は、指定された開始点から終了点までのゲーム画像を第1記録部152から切り出し、また指定された開始点から終了点までのユーザ音声を第2記録部156から切り出して、タイムスタンプが揃うようにゲーム画像とユーザ音声を合成してゲーム動画を生成し、ユーザ生成コンテンツとして補助記憶装置2に保存できる。
 以下、ユーザが、ゲームプレイ中に、音声コマンド1である「Hey Game Console, Capture the last 5 minutes」を発声したときの処理について説明する。実施例3において音声認識部124は、ユーザ音声を文字列に変換し、変換した文字列に音声コマンドが含まれているか否かを検出する。変換した文字列に音声コマンドが含まれている場合、動画生成部132は、当該音声コマンドに対応するユーザ音声を含まないゲーム動画を生成する。
 図11は、実施例3において、音声コマンド1によりユーザが指定する開始点と終了点を示す。
 音声認識部124は、マイク5に入力された音声を音声認識処理して、ユーザ音声を文字列に変換し、変換した文字列に「Hey Game Console」が含まれていると、ユーザ音声によるコンテンツ生成機能を起動する。ユーザ音声によるコンテンツ生成機能が起動されると、指示部126が、音声認識部124から供給される文字列にもとづいて、コンテンツの生成を動画生成部132に指示可能な状態となる。
 音声認識部124は、マイク5に入力された音声を音声認識処理して、「Hey Game Console」に続けてユーザが発した音声を文字列に変換する。この例で音声認識部124は、ユーザ音声を文字列「Capture the last 5 minutes」に変換して、変換した文字列を指示部126に供給する。
 指示部126は、文字列「Capture the last 5 minutes」を受け取ると、ユーザが直近の5分のゲーム動画を切り出すことを要求していることを認識する。指示部126は、第2音声コマンドを受け取ると、生成するコンテンツの終了点と、当該終了点から5分だけ遡ったコンテンツの開始点を特定する。図11に示すタイムラインでは、指示部126が第2音声コマンドを受け取ったタイミング、つまりユーザが第2音声コマンド「Capture the last 5 minutes」を発声し終えたタイミングを、コンテンツの終了点として特定している。
 図11において、時間tは、ユーザが第1音声コマンドの発声を開始したタイミング、時間tは、ユーザが第1音声コマンドの発声を終了したタイミング、時間tは、ユーザが第2音声コマンドの発声を終了したタイミングを示す。第2音声コマンドの発声が終了したタイミングは、ユーザが指定するコンテンツの終了点とみなすことができ、したがって時間tは、ユーザが指定したコンテンツの終了点であり、時間tから5分前の時間tは、ユーザが指定したコンテンツの開始点となる。
 実施例3において、音声認識部124は、音声認識した文字列を指示部126に伝える際に、あわせて時間t、時間t、時間tの時間情報も伝える。したがって指示部126は、ユーザが指定したコンテンツの終了点(時間t)と、開始点(時間t)を認識する。なお指示部126は、音声認識部124から音声認識した文字を単語単位で伝えられるため、各単語を伝えられたタイミングで、時間t、時間t、時間tの時間情報を特定してもよい。指示部126は、コンテンツを切り出す開始点(時間t)および終了点(時間t)を定めたコンテンツ生成指示を生成する。実施例3において指示部126は、ユーザが音声コマンドを発した時間を示す時間情報(時間tから時間tまでの区間)を含めたコンテンツ生成指示を、動画生成部132に提供する。
 動画生成部132は、コンテンツ生成指示にもとづいて、開始点(時間t)から終了点(時間t)までのゲーム画像を第1記録部152から抽出する。また動画生成部132は、開始点(時間t)から終了点(時間t)のうち、コマンド発声区間である時間tから時間tまでの区間を除いた、時間tから時間tまでのユーザ音声を第2記録部156から抽出する。動画生成部132は、抽出したゲーム画像のタイムスタンプと、抽出したユーザ音声のタイムスタンプとが揃うようにゲーム画像とユーザ音声を合成して、ゲーム動画を生成し、補助記憶装置2に保存する。この場合、生成されるゲーム動画には、時間tから時間tの間のユーザ音声は含まれない。
 実施例3においては、ゲーム画像とユーザ音声とを別個にバッファリングしておき、ゲーム画像とユーザ音声の合成処理において、音声コマンドに対応するユーザ音声をゲーム画像に合成しないことで、生成するゲーム動画に、音声コマンドの発声を含ませないことが可能となる。
 なお実施例3では、生成するゲーム動画に、音声コマンドの発声を含ませないことを説明したが、たとえば不適切な発声などをゲーム動画に含ませないことも可能である。つまり実施例3では、音声認識部124がユーザ音声を文字列に変換し、変換した文字列に、音声コマンドや適切でない所定の文字列が含まれている場合に、動画生成部132は、当該所定の文字列に対応するユーザ音声をゲーム画像に合成しないことで、ユーザが当該ユーザ音声をトリミングする手間を軽減することが可能となる。
 以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。
 実施例では、情報処理装置10が、音声コマンドにもとづいてゲーム動画を生成するが、変形例では、情報処理装置10が、システムソフトウェアが生成するグラフィカルユーザインタフェース(GUI)におけるユーザ操作にもとづいて、ゲーム動画を生成する。
 図12は、情報処理装置10の機能ブロックの変形例を示す。変形例の情報処理装置10は、処理部100および通信部102を備え、ユーザの操作にもとづいて生成されたゲーム画像をバックグランドで一時的に記録し、記録したゲーム画像を用いて、ユーザ生成コンテンツであるゲーム動画を生成する機能を有する。処理部100は、ゲームソフトウェア110、出力処理部112、記録制御部160、記録部162、入力受付部170、GUI生成部172、指示部174および動画生成部180を備える。図12に示す機能ブロックで、図3に示す機能ブロックと同じ符号を付した機能ブロックは、図3に示す機能ブロックと同じまたは同様の機能を有してよい。
 図12に示す情報処理装置10はコンピュータを備え、コンピュータがプログラムを実行することによって、図12に示す様々な機能が実現される。コンピュータは、プログラムをロードするメモリ、ロードされたプログラムを実行する1つ以上のプロセッサ、補助記憶装置、その他のLSIなどをハードウェアとして備える。プロセッサは、半導体集積回路やLSIを含む複数の電子回路により構成され、複数の電子回路は、1つのチップ上に搭載されてよく、または複数のチップ上に搭載されてもよい。図12に示す機能ブロックは、ハードウェアとソフトウェアとの連携によって実現され、したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
 ゲームソフトウェア110は、少なくともゲームプログラム、画像データおよび音声データを含んで構成される。ゲームプログラムは、ユーザによるゲーム操作情報を受けると、仮想空間においてプレイヤキャラクタを動かす演算処理を行う。出力処理部112は、ゲームソフトウェア110による演算結果にもとづいてゲーム画像およびゲーム音(ゲーム画音)を生成し、出力装置4から出力させる。
 出力処理部112は、ゲーム画像およびゲーム音を出力装置4から出力させるとともに、ゲーム画像およびゲーム音を記録制御部160に供給する。記録制御部160は、ユーザの操作にもとづいて生成されたゲーム画像およびゲーム音を記録部162に記録する。以下、ゲーム画像およびゲーム音を、説明の便宜上、単に「ゲーム画像」と呼ぶこともある。
 記録部162は、ゲーム画像を一時的に保持するためのバッファであり、補助記憶装置2の記憶領域に設けられたリングバッファであってよい。記録制御部160は、ゲーム画像を時間情報(タイムスタンプ)とともに記録部162に一時記録する。記録部162は、図3に示す記録部130と同様の構成を備えてよい。
 変形例では、ユーザがゲームプレイ中に、入力装置6の所定のボタン(たとえばクリエイトボタン)を操作して、ユーザ生成コンテンツ(ビデオクリップ)を生成するためのグラフィカルユーザインタフェース(GUI)を出力装置4に表示させる。入力受付部170が、所定のボタンの操作を受け付けると、GUI生成部172が、GUIを生成して、出力処理部112が、ゲーム画面にGUIを重畳表示する。
 図13は、ゲーム画面に重畳表示されるGUI190の例を示す。GUI190は、ゲーム画像のキャプチャおよび共有に関する複数のメニュー項目を含む。ユーザは入力装置6を操作して、選択枠194を所望のメニュー項目の位置に動かすことで、メニュー項目を選択する。図13に示す例では、選択枠194が「直近のゲームプレイを保存」するためのメニュー項目に配置されている。この状態で、ユーザが入力装置6の決定ボタンを操作すると、GUI生成部172が、キャプチャ時間を選択するためのGUIを生成し、出力処理部112が、ゲーム画面にGUIを重畳表示する。
 図14は、ゲーム画面に重畳表示されるGUI192の例を示す。GUI192は、保存するビデオクリップ(ユーザ生成コンテンツ)の時間に関する複数のメニュー項目を含む。ユーザは入力装置6を操作して、選択枠194を所望のメニュー項目の位置に動かすことで、ゲーム動画のキャプチャ時間を選択する。図14に示す例では、選択枠194が「直近の5分」のゲーム画像を保存するためのメニュー項目に配置されている。この状態で、ユーザが入力装置6の決定ボタンを操作すると、入力受付部170は、「直近の5分」が選択されたことを受け付け、GUI生成部172は、GUIの表示を終了する。
 入力受付部170は、ゲームプレイ中に所定のボタン(クリエイトボタン)の操作を受け付けると、指示部174に、GUIの表示が開始された時間を示す時間情報を提供する。また入力受付部170は、GUI192においてゲーム動画のキャプチャ時間の選択操作を受け付けると、指示部174に、選択されたキャプチャ時間(この例では直近の5分)と、GUIの表示が終了された時間を示す時間情報を提供する。
 図15は、変形例におけるコンテンツの開始点および終了点を示す。時間tは、GUIの表示が開始したタイミング、時間tは、ゲーム動画のキャプチャ時間が選択されて、GUIの表示が終了したタイミングを示す。ゲーム動画のキャプチャ時間が選択されたタイミングは、ユーザが指定するコンテンツの終了点とみなすことができ、したがって時間tは、ユーザが指定したコンテンツの終了点となる。
 変形例において、指示部174は、GUIにおけるユーザ操作により指定されるゲーム動画の終了点(時間t)からGUIの表示時間(時間t-時間t)以上遡ったタイミングを終了点とし、当該終了点から5分だけ遡ったコンテンツの開始点を設定する。図15に示す例では、指示部174は、ユーザが指定した終了点(時間t)からGUI表示時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、当該終了点から5分だけ遡ったコンテンツの開始点(時間T)を設定している。そこで指示部174は、開始点(時間T)および終了点(時間t)を定めたコンテンツ生成指示を生成して、動画生成部180に提供する。動画生成部180は、コンテンツ生成指示にもとづいて、ユーザが指定した終了点(時間t)からGUI表示時間(時間t-時間t)だけ遡ったタイミング(時間t)を終了点とし、当該終了点から5分だけ遡ったタイミング(T)を開始点とするゲーム動画を記録部162から切り出して、ユーザ生成コンテンツとして補助記憶装置2に保存する。
 このように変形例によれば、記録部162に記録したゲーム画像に、システムソフトウェアが生成したGUIが含まれている場合に、動画生成部180は、当該GUIを含まないゲーム動画(コンテンツ)を生成できる。つまり動画生成部180は、GUIが表示される前に記録部162に記録されたゲーム画像を用いることで、GUIを含まないコンテンツを生成することが可能となる。
 なお図15に示す例では、指示部174が、GUIの表示が開始したタイミング(時間t)を終了点としているが、GUIがコンテンツに確実に含まれないようにするために、時間tの所定時間(たとえば数秒)前を終了点としてもよい。
 実施例および変形例において、情報処理装置における構成要素の機能は、本明細書にて記載された機能を実現するように構成され又はプログラムされた、汎用プロセッサ、特定用途プロセッサ、集積回路、ASICs (Application Specific Integrated Circuits)、CPU (a Central Processing Unit)、従来型の回路、および/又はそれらの組合せを含む、回路(circuitry)又は処理回路(processing circuitry)において実現されてもよい。プロセッサは、トランジスタやその他の回路を含み、回路(circuitry)又は処理回路(processing circuitry)とみなされる。プロセッサは、メモリに格納されたプログラムを実行する、プログラムプロセッサ(programmed processor)であってもよい。
 本明細書において、回路(circuitry)、ユニット、手段は、記載された機能を実現するようにプログラムされたハードウェア、又は実行するハードウェアである。当該ハードウェアは、本明細書に開示されているあらゆるハードウェア、又は、当該記載された機能を実現するようにプログラムされた、又は、実行するものとして知られているあらゆるハードウェアであってもよい。
 当該ハードウェアが回路(circuitry)のタイプであるとみなされるプロセッサである場合、当該回路(circuitry)、手段、又はユニットは、ハードウェアと、当該ハードウェア及び又はプロセッサを構成する為に用いられるソフトウェアとの組合せである。
 本開示は、ゲーム動画を生成する技術に利用できる。
1・・・情報処理システム、5・・・マイク、6・・・入力装置、10・・・情報処理装置、100・・・処理部、102・・・通信部、110・・・ゲームソフトウェア、112・・・出力処理部、114・・・記録制御部、120・・・ユーザ音声取得部、122・・・音声供給部、124・・・音声認識部、126・・・指示部、130・・・記録部、132・・・動画生成部、140・・・文字列、150・・・第1記録制御部、152・・・第1記録部、154・・・第2記録制御部、156・・・第2記録部、160・・・記録制御部、162・・・記録部、170・・・入力受付部、172・・・GUI生成部、174・・・指示部、180・・・動画生成部。

Claims (12)

  1.  情報処理装置であって、ハードウェアを有する1つ以上のプロセッサを備え、
     前記1つ以上のプロセッサは、
     ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、
     ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、前記記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する、
     情報処理装置。
  2.  前記1つ以上のプロセッサは、
     ユーザ音声を取得し、
     ゲーム画像とユーザ音声とを合成して前記記録部に記録し、
     ユーザ音声を文字列に変換し、
     変換した文字列に音声コマンドが含まれている場合に、音声コマンドに対応するユーザ音声を含まないゲーム動画を生成する、
     請求項1に記載の情報処理装置。
  3.  前記1つ以上のプロセッサは、
     ユーザ音声により指定されるゲーム動画の終了点より前のタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
     請求項2に記載の情報処理装置。
  4.  前記1つ以上のプロセッサは、
     ユーザによる音声コマンドの発声時間を取得し、
     ユーザ音声により指定されるゲーム動画の終了点から発声時間以上遡ったタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
     請求項3に記載の情報処理装置。
  5.  前記1つ以上のプロセッサは、
     ユーザ音声により指定される終了点までのゲーム動画を、前記記録部から切り出し、
     音声コマンドに対応するユーザ音声を、切り出したゲーム動画から除去する、
     請求項2に記載の情報処理装置。
  6.  前記1つ以上のプロセッサは、
     表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点より前のタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
     請求項1に記載の情報処理装置。
  7.  前記1つ以上のプロセッサは、
     ユーザインタフェースが表示されていた表示時間を取得し、
     ユーザ操作により指定されるゲーム動画の終了点から表示時間以上遡ったタイミングを終了点とするゲーム動画を、前記記録部から切り出す、
     請求項6に記載の情報処理装置。
  8.  ゲーム動画を生成する方法であって、
     ユーザの操作にもとづいて生成されたゲーム画像を記録部に記録し、
     ユーザ音声または表示されたユーザインタフェースにおけるユーザ操作により指定されるゲーム動画の終了点にもとづいて、前記記録部に記録されたゲーム画像から、ユーザ音声またはユーザインタフェースを含まないゲーム動画を生成する、
     ゲーム動画生成方法。
  9.  情報処理装置であって、ハードウェアを有する1つ以上のプロセッサを備え、
     前記1つ以上のプロセッサは、
     ユーザの操作にもとづいて生成されたゲーム画像を第1記録部に記録し、
     ユーザ音声を取得し、
     ユーザ音声を第2記録部に記録し、
     前記第1記録部に記録したゲーム画像と、前記第2記録部に記録したユーザ音声を合成したゲーム動画を生成する、
     情報処理装置。
  10.  前記1つ以上のプロセッサは、
     ユーザ音声を文字列に変換し、
     変換した文字列に所定の文字列が含まれている場合に、所定の文字列に対応するユーザ音声を含まないゲーム動画を生成する、
     請求項9に記載の情報処理装置。
  11.  前記1つ以上のプロセッサは、
     変換した文字列に所定の文字列が含まれている場合に、所定の文字列に対応するユーザ音声を、ゲーム画像に合成しない、
     請求項10に記載の情報処理装置。
  12.  ゲーム動画を生成する方法であって、
     ユーザの操作にもとづいて生成されたゲーム画像を第1記録部に記録し、
     ユーザ音声を取得し、
     ユーザ音声を第2記録部に記録し、
     前記第1記録部に記録したゲーム画像と、前記第2記録部に記録したユーザ音声を合成したゲーム動画を生成する、
     ゲーム動画生成方法。
PCT/JP2023/042127 2022-12-20 2023-11-24 情報処理装置およびゲーム動画生成方法 WO2024135221A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-203461 2022-12-20
JP2022203461A JP2024088345A (ja) 2022-12-20 情報処理装置およびゲーム動画生成方法

Publications (1)

Publication Number Publication Date
WO2024135221A1 true WO2024135221A1 (ja) 2024-06-27

Family

ID=91588191

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/042127 WO2024135221A1 (ja) 2022-12-20 2023-11-24 情報処理装置およびゲーム動画生成方法

Country Status (1)

Country Link
WO (1) WO2024135221A1 (ja)

Similar Documents

Publication Publication Date Title
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2017006766A1 (ja) 音声対話方法および音声対話装置
JP2008259808A (ja) ロボットシステムおよびその制御方法
US7395208B2 (en) Integrating external voices
JP2009163265A (ja) 思考単位と連結質問を用いる言語教育方法
US11580954B2 (en) Systems and methods of handling speech audio stream interruptions
WO2024135221A1 (ja) 情報処理装置およびゲーム動画生成方法
CN110225279B (zh) 一种移动终端的视频制作系统和视频制作方法
JP5929879B2 (ja) 音声出力装置、プログラム、及び音声出力方法
CN109168017A (zh) 一种基于智能眼镜的视频直播互动系统及直播互动方式
JP2024088345A (ja) 情報処理装置およびゲーム動画生成方法
WO2018173295A1 (ja) ユーザインタフェース装置及び方法、並びに音操作システム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CN110266986B (zh) 一种移动终端的媒体系统及录制视频的方法
JP3463804B2 (ja) 音声合成装置並びに方法及び情報記憶媒体
JPH11219278A (ja) 3次元仮想世界システム
JP6185136B1 (ja) 音声生成プログラムおよびゲーム装置
KR102025903B1 (ko) 언어 학습을 위한 장치 및 그 제어방법
JP2000231558A (ja) 通信装置、通信方法及び通信制御プログラムを記録した記録媒体
JP2007047291A (ja) 音声通訳システムおよび音声通訳方法
JP2002507772A (ja) 情報再生用または機能実行用の装置
JP2006198135A (ja) ゲーム装置
JP2004071013A (ja) 映像付帯音声データ記録方法、映像付帯音声データ記録装置および映像付帯音声データ記録プログラム
JP2003140677A (ja) 読み上げシステム