WO2023238650A1 - 変換装置および変換方法 - Google Patents
変換装置および変換方法 Download PDFInfo
- Publication number
- WO2023238650A1 WO2023238650A1 PCT/JP2023/019072 JP2023019072W WO2023238650A1 WO 2023238650 A1 WO2023238650 A1 WO 2023238650A1 JP 2023019072 W JP2023019072 W JP 2023019072W WO 2023238650 A1 WO2023238650 A1 WO 2023238650A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- content
- user
- information
- conversion
- conversion device
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 311
- 238000000034 method Methods 0.000 title claims description 46
- 230000008569 process Effects 0.000 claims description 29
- 238000012986 modification Methods 0.000 claims description 27
- 230000004048 modification Effects 0.000 claims description 27
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 29
- 238000003860 storage Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000005282 brightening Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
Definitions
- the present disclosure relates to a conversion device and a conversion method that convert the reproduction mode of content to suit the user.
- the present disclosure proposes a conversion device and a conversion method that can improve the user's viewing efficiency and viewing experience without requiring the effort of presetting each content.
- a conversion device includes an acquisition unit that acquires content and user information that is information about a user who views the content; an estimating unit that estimates the importance of each section of the content based on the contents of the content and the user information; and a playback speed at which the content is played back based on the importance estimated by the estimating unit.
- a conversion unit that converts each section.
- FIG. 3 is a diagram showing an overview of conversion processing according to the embodiment.
- FIG. 3 is a block diagram showing a procedure of conversion processing according to the embodiment. It is a diagram showing an example of the configuration of a conversion device according to an embodiment. It is a diagram (1) showing an example of a user information storage unit according to an embodiment.
- FIG. 2 is a diagram (2) illustrating an example of a user information storage unit according to the embodiment.
- FIG. 3 is a diagram (3) illustrating an example of a user information storage unit according to the embodiment.
- FIG. 3 is a diagram for explaining estimation processing according to the embodiment.
- FIG. 2 is a diagram (1) for explaining output control processing according to the embodiment.
- FIG. 2 is a diagram (2) for explaining output control processing according to the embodiment.
- FIG. 3 is a diagram (3) for explaining output control processing according to the embodiment.
- FIG. 4 is a diagram (4) for explaining output control processing according to the embodiment.
- FIG. 2 is a diagram (1) illustrating a display example of content according to the embodiment.
- FIG. 3 is a diagram (2) illustrating a display example of content according to the embodiment.
- FIG. 2 is a hardware configuration diagram showing an example of a computer that implements the functions of the conversion device.
- Embodiment 1-1 Outline of conversion processing according to embodiment 1-2.
- Conversion processing procedure according to embodiment 1-3 Configuration of conversion device according to embodiment 1-4. Modifications according to embodiment 1-4-1. Section setting 1-4-2. Example of voice conversion 1-4-3. Other output examples 2.
- Other embodiments Effects of the conversion device according to the present disclosure 4.
- Hardware configuration
- FIG. 1 is a diagram (1) showing an overview of the conversion process according to the embodiment.
- the conversion process according to the embodiment is executed by the conversion device 100 illustrated in FIG.
- the conversion device 100 is, for example, an information processing terminal such as a server device or a personal computer (PC).
- the conversion device 100 provides a listener (hereinafter referred to as a "user") with content such as a video that has been subjected to the conversion process according to the embodiment.
- the conversion device 100 may output the content from its own device, or may output the content to a display device (such as a display or a speaker) used by the user to view the content via wired or wireless communication. good.
- the user 10 shown in FIG. 1 is an example of a user who views content.
- the user 10 uses the user terminal 200 to view content distributed from the conversion device 100.
- the user terminal 200 is an information processing terminal such as a smartphone or a tablet terminal. Note that the user terminal 200 may be a display, a speaker, or the like for viewing the content distributed from the conversion device 100.
- the conversion process according to the present disclosure improves the user's viewing efficiency and the user's viewing satisfaction for media content (hereinafter collectively referred to as "content”) such as music, video, and network distributed videos. It is used for the purpose of
- the background to this technology is that the number of contents and archives that users can access is increasing with the development of video distribution platforms and the use of online lectures and classes. That is, even though the importance of content and the viewpoints for viewing content vary from user to user, if all users view content in the same manner, efficiency may decrease. For example, there are users who watch at double speed in order to watch a lot of content, and users who often use skip operations to watch only the parts that interest them, while there are also users who watch their favorite content as much as possible without editing it. There is. Additionally, some users may desire to view content at a slower speed than the normal setting in order to better understand the content.
- the viewing mode is not uniform, and the user may wish to differentiate the viewing mode depending on the genre, content, characters, etc. to be viewed, for example.
- the number of contents to be viewed increases, it becomes a burden for the user to set the viewing mode for each of the contents one by one.
- the conversion device 100 converts the reproduction mode of the content based on information regarding the user's preference of how the user 10 would like to view the content.
- the conversion device 100 acquires content and user information that is information about the user who views the content, and estimates the importance of each section of the content based on the acquired content and user information. . Then, the conversion device 100 converts the playback speed at which the content is played back for each section based on the estimated importance. More specifically, the conversion device 100 converts metadata obtained from the content (time-series information such as what is shown in the content, the content's script (transcription), and the presence or absence of audio) and user preference information. A preferable conversion is performed on the content for each user based on the viewing history and the like. For example, the conversion device 100 performs filter processing to convert the playback speed and playback location when the content is played back. Thereby, the conversion device 100 increases the viewing efficiency of the content. Furthermore, since the conversion device 100 allows each individual to enjoy content in their own viewing mode, it is possible to improve user satisfaction.
- a conversion device 100 is a server device that provides a video distribution platform to a user 10. That is, the conversion device 100 can acquire user information 60 such as the user's 10 daily viewing history. Note that the conversion device 100 may acquire various setting information from the user 10, such as the genre of content that the user 10 prefers, the genre that the user 10 would like to avoid viewing, and the actor that he/she likes. That is, the user information 60 may include various information regarding the user's content viewing.
- the conversion device 100 holds content 50 to be distributed.
- the conversion device 100 can acquire various information about the content 50.
- the conversion device 100 can acquire the genre and content of the content 50, the names of the actors appearing in the content 50, the scenes and times of their appearance, the script of the content 50 (text data of uttered audio), and the like. These may be stored as metadata (internal data) of the content 50, for example, as tag information linked to the content 50, or may be information provided by an arbitrary business operator or the like.
- the conversion device 100 estimates the importance of each section of the content 50 based on the information on the content 50 and the information on the user information 60 corresponding to the user 10. For example, the conversion device 100 calculates the degree of importance (score) for each section of the content 50 using a predetermined machine learning model. Note that these detailed processes will be described later.
- the conversion device 100 distributes the content 50 whose reproduction style has been converted according to the degree of importance to the user 10.
- the conversion of the playback mode is realized, for example, by applying a filter on the playback application during playback on the user terminal 200. That is, the user 10 can arbitrarily select whether or not to apply the filter. For example, immediately after distribution, or when the user explicitly selects to apply a filter, the content 50 is played back in a manner that has been converted by the conversion device 100.
- FIG. 1 conceptually shows how content 50 is reproduced after conversion.
- the user 10 likes the actor 51 who appears in the content 50.
- the user 10 frequently views other content in which the actor 51 appears, and has a large history of viewing the actor 51. It is also assumed that the user 10 tends to skip scenes in which the actors do not speak to each other.
- the conversion device 100 determines that the scene in which the actor 51 speaks is played back at the normal speed as the reproduction mode of the content 50, and that no particular conversion is performed.
- the conversion device 100 estimates that the scene in which the actor 52 speaks is less important than the scene in which the actor 51 speaks. In this case, the conversion device 100 converts the content so that the section in which the actor 51 speaks is played back at a slightly faster speed (for example, 1.3x speed) in accordance with the importance level.
- a slightly faster speed for example, 1.3x speed
- the conversion device 100 estimates that a scene in which the actors 51, 52, etc. do not speak, that is, a scene in which there is no speech or conversation by the actors, has extremely low importance for the user 10 compared to other scenes. In this case, the conversion device 100 converts the content so as to skip the scene in accordance with the importance level.
- the conversion device 100 estimates the importance for each section of the content 50, and converts the content 50 based on the estimated importance. Specifically, the conversion device 100 converts the playback mode of the content 50 by applying a filter for converting the playback mode to the viewing environment of the user 10 . Thereby, the user 10 can normally view scenes in which the actor 51 that he/she likes appears in. Furthermore, the user 10 can watch scenes in which actors other than actor 51 appear at a slightly faster speed, or can skip scenes without dialogue, thereby improving viewing efficiency.
- the conversion device 100 may convert the voice quality of the actor 52.
- the conversion device 100 may convert the voice of the actor 52 into a higher or lower voice using known voice filter processing.
- the conversion device 100 may convert the voice of the male actor 52 into a female voice. Thereby, the conversion device 100 can provide speech that is easier for the user 10 to hear.
- the conversion device 100 can apply these conversions according to the preferences of the user 10 by using the viewing history of the user 10, the history of filters applied by the user 10 when playing the content, etc. .
- FIG. 2 is a block diagram showing the procedure of conversion processing according to the embodiment.
- the conversion device 100 acquires content 50 and user information 60.
- the conversion device 100 extracts meta information of the acquired content 50 (step S10).
- Meta information is internal data that indicates the contents of the content 50.
- the meta information includes a genre indicating what kind of content the content 50 is as a whole.
- the meta information may include names of people appearing in the content 50, names of people speaking, caption information (script) indicating the contents of the utterances, and the like.
- the conversion device 100 extracts meta information in chronological order using a known technique. For example, the conversion device 100 estimates the genre, such as whether the content 50 corresponds to an "interview video" or a "cooking video.” As an example, the conversion device 100 estimates the genre of the content 50 based on caption information of the content 50, information and voice quality of actors appearing in the content, image recognition of the content 50, and the like. Note that, since meta information such as a genre may be given to network distributed content etc. by a distributor, the conversion device 100 may acquire such information as meta information.
- the conversion device 100 may extract meta information using various recognition modules such as image recognition, voice recognition, and speaker identification, or may separately obtain meta information from an API (Application Programming Interface) on a video or audio platform. You may use information that is available.
- API Application Programming Interface
- the conversion device 100 extracts the name of the person appearing in the content and the time when the utterance was made in chronological order, such as "Appearance and utterance by actor 51; 00:30-0045". Such extraction is realized, for example, by caption information, image recognition, or the like.
- the conversion device 100 converts metadata along with lines (caption information) that are likely to be a trigger for dividing the content 50, such as "actor 51's utterance 'I don't think so'; 00:30 to 00:35". Information may be extracted. Thereby, the conversion device 100 can divide the content 50 into meaningful sections.
- what kind of dialogue can be an element that separates a section can be determined, for example, by the conversion device 100 inputting caption information to a natural language trained model that measures the importance of the language, and checking the output score (importance). degree).
- the conversion device 100 can divide the content 50 into sections of a certain amount of time according to the content. After that, the conversion device 100 estimates the importance of each section of the content 50 (step S12).
- the conversion device 100 estimates the importance for the user 10 of the entire content 50 and each section of the content 50, using the extracted meta information and user information 60 as input.
- the conversion device 100 acquires preference information such as what genre of videos the user 10 likes and which actors and artists the user 10 likes as the user information 60.
- the conversion device 100 also acquires a viewing history of what kind of videos the user 10 has watched in the past, and an operation history of how many times the user 10 has performed operations such as double speed or skip on videos watched in the past. do.
- the conversion device 100 uses the user information 60 to comprehensively estimate the importance of the entire content 50 and the content of each section of the content 50, indicating how much the user 10 desires to view the content.
- the sections that are likely to be highly important include a scene in which a performer that the user 10 likes is speaking, or a section in which the user 10 is estimated to have a high level of interest.
- sections with low importance that are likely to be estimated include scenes in which content that is difficult for the user 10 is uttered, silent sections in which no utterances are made, and the like.
- the above criteria depend on the viewing user, so for example, even if it is important to the user 10, it may not be important to other users.
- the conversion device 100 appropriately estimates the importance of each user by estimating the importance using each user's information. Note that details of the estimation process will be described later.
- the conversion device 100 determines whether to apply a filter when distributing the content 50 to the user 10 (step S14).
- the conversion device 100 receives the result of the importance estimation process and determines that there is no need to convert the content 50, it determines not to apply the filter. As an example, if the conversion device 100 determines that the entire content 50 is highly important to the user 10 and there is no need to increase the speaking speed or delete scenes, the conversion device 100 does not apply the filter.
- the conversion device 100 applies a filter when it is estimated that there is a large difference in importance between sections of the content 50 and that it is more suitable for the user 10 to convert the reproduction mode of the content 50 for each section. Note that if there is a separate setting, such as when the initial setting by the user 10 is not to apply a filter, the conversion device 100 may follow the setting.
- step S16 If the conversion device 100 determines in step S14 that the filter is to be applied, it applies the filter (step S16).
- the conversion device 100 performs video conversion on the content 50 (step S18).
- the conversion device 100 converts the playback speed of the content 50.
- the conversion device 100 converts the content 50 so that the playback speed becomes faster for a section of the content 50 in which the actor 52 appears and is estimated to be of low importance to the user 10. .
- the conversion device 100 may perform a process of deleting a specific section as video conversion. That is, the conversion device 100 converts the content 50 so as to shorten the duration of the video and audio by deleting sections of low importance or by reproducing the content at an extremely high speed. As an example, the conversion device 100 deletes scenes in which a performer that the user 10 likes does not speak, scenes with redundant content, scenes with sensitive content that the user 10 does not like to view, and the like. These deletion decisions are determined based on the user who views the content 50.
- the conversion device 100 may perform audio conversion on the content 50 (step S20).
- the conversion device 100 converts the voice quality of an actor appearing in the content 50.
- the conversion device 100 performs speaker recognition processing to identify the voice of the actor 52 who speaks in an extremely low frequency band among the content 50, and then converts the voice to a female voice. Process.
- the conversion device 100 may recognize the number of speakers from meta information set in the content 50 in advance, or may recognize the number of speakers by analyzing the audio of the content 50. It may be estimated. Further, when the content 50 is a moving image, the conversion device 100 can perform speaker characteristics and estimate the number of speakers by image recognition of the scene where the speaker is speaking.
- the conversion device 100 determines the time series of the speaking scenes for each speaker.
- the conversion device 100 may divide the content 50 into sections for each utterance of the speaker. Then, the conversion device 100 extracts speech speed, voice quality, prosody information, etc. for each speaker. That is, for each section, the conversion device 100 estimates the speaking speed and voice quality of the voice included in that section.
- Speech speed is calculated, for example, by using speech recognition to recognize how many units of speech (phonemes) are included in each section.
- the conversion device 100 may directly construct a classifier and estimate the speech speed.
- the conversion device 100 may determine the voice quality using, for example, a known speaker identification algorithm, or may output it as a feature amount using a pre-trained model.
- the conversion device 100 may extract the pitch (frequency) of the utterance, the pitch of the pronunciation, etc., using, for example, a known speech recognition model.
- step S16 the presence or absence of the filter applied in step S16 and the degree of filter application can be arbitrarily adjusted by the user 10, for example, via a user interface provided by the conversion device 100. Details of this processing will be described later.
- the conversion device 100 After converting the content 50, the conversion device 100 outputs the converted content 50 (step S22). For example, the conversion device 100 distributes the content 50 to the user terminal 200 used by the user 10. The user 10 uses a playback application running on the user terminal 200 to view the converted content 50.
- the conversion device 100 may display the basis for conversion on the playback application (step S24). For example, the conversion device 100 indicates that a certain section is to be deleted in the content 50, and also displays information that serves as the basis for the deletion, such as that the section is a "silent section.” Thereby, the user 10 can easily confirm the reason why the content 50 was converted.
- the user 10 may modify the basis information on the user interface of the playback application (step S26). For example, if a conversion that the user 10 does not desire has been performed, the user 10 can cancel the conversion or modify the information that was the basis for the conversion.
- the conversion device 100 may perform processing such as acquiring the corrections made by the user 10 (that is, feedback by the user 10) and relearning the importance estimation model based on the acquired information. Thereby, the conversion device 100 can advance learning so as to be able to perform conversion processing optimized for the user 10 each time the user 10 views and makes corrections.
- the conversion device 100 uses content and user information to automatically perform conversion tailored to the user. It can improve your experience.
- FIG. 3 is a diagram showing a configuration example of the conversion device 100 according to the embodiment.
- the conversion device 100 includes a communication section 110, a storage section 120, a control section 130, and an output section 140.
- the conversion device 100 may include an input unit (for example, a touch panel) that receives various operations from a user who operates the conversion device 100, and a display unit (for example, a liquid crystal display) that displays various information.
- an input unit for example, a touch panel
- a display unit for example, a liquid crystal display
- the communication unit 110 is realized by, for example, a NIC (Network Interface Card).
- the communication unit 110 is connected to a network N (Internet, NFC (near field communication), Bluetooth, etc.) by wire or wirelessly, and transmits and receives information to and from a playback device and the like via the network N.
- N Internet, NFC (near field communication), Bluetooth, etc.
- the storage unit 120 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in FIG. 3, the storage section 120 includes a user information storage section 121.
- a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory
- a storage device such as a hard disk or an optical disk.
- the storage section 120 includes a user information storage section 121.
- the user information storage unit 121 stores user information of users who use the conversion device 100.
- the user information includes, for example, the user's viewing history, operation history, preference information set by the user in advance, and the like. Hereinafter, each user information will be illustrated using FIGS. 4 to 6.
- FIG. 4 is a diagram showing an example (1) of the user information storage unit 121 according to the embodiment.
- FIG. 4 shows an example of the viewing history table 1211 of the user information.
- the viewing history table 1211 has items such as "viewing content ID”, “viewing date and time”, “genre”, and "meta information”.
- Viewing content ID indicates identification information that identifies content.
- Viewing date and time indicates the date and time when the user viewed the content.
- “Genre” indicates the genre of the content.
- Method information indicates meta information of content. Note that in Figures 4 to 6, item data may be conceptually described as “A01" or "B01,” but in reality, the data for each item contains specific information corresponding to each item. data is stored.
- FIG. 5 is a diagram showing an example (2) of the user information storage unit 121 according to the embodiment.
- FIG. 5 shows an example of the operation history table 1212 of the user information.
- the operation history table 1212 has items such as "operation history ID”, “content information”, “operation”, and "time stamp”.
- “Operation history ID” indicates identification information that identifies the operation history performed by the user.
- Content information indicates various information regarding the content, such as the name and content of the content operated by the user.
- “Operation” indicates the content of a specific operation actually performed by the user.
- the “time stamp” indicates the duration (time information) of the content when the user performs an operation on the content.
- preference information set by the user when using a service that allows the user to view content converted by the conversion device 100, the user can set the genre that the user wants to view, the content that he or she does not want to view, and the like.
- the conversion device 100 may store such setting information in the user information storage unit 121, and use this information to convert content to be distributed to the user.
- FIG. 6 is a diagram showing an example (3) of the user information storage unit 121 according to the embodiment.
- FIG. 6 shows an example of the preference information table 1213 among user information.
- the preference information table 1213 has items such as "setting ID”, “item”, and “setting content”.
- “Setting ID” indicates identification information that identifies preference information set by the user.
- “Item” indicates an item when the user sets his/her own information.
- “Setting content” indicates specific content set by the user in the item.
- the conversion device 100 may estimate the user's preference based on the viewing history and operation history and store the estimated information in the preference information table 1213. .
- the conversion device 100 may store various contents and information in any format as user information as long as it is information related to the user.
- control unit 130 may cause a program (for example, a conversion program according to the present disclosure) stored inside the conversion device 100 to be transferred to a RAM (Random Access Memory) or the like by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like. This is achieved by executing this as a work area.
- control unit 130 is a controller, and may be realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
- control unit 130 includes an acquisition unit 131, an estimation unit 132, a conversion unit 133, an output control unit 134, and a correction unit 135, and includes information processing functions and functions described below. accomplish or carry out an action.
- the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 3, and may be any other configuration as long as it performs information processing to be described later.
- the acquisition unit 131 acquires various information. For example, the acquisition unit 131 acquires content and user information that is information about a user who views the content.
- the acquisition unit 131 acquires, as user information, the user's content viewing history and the user's operation history when viewing the content.
- the acquisition unit 131 acquires the user's preference information based on the user's content viewing history and operation history. For example, the acquisition unit 131 acquires, as the user's preference information, at least one of the speakers appearing in the content, the genre of the content, and the type of scene (such as a sensitive scene) arbitrarily set by the user. Note that the acquisition unit 131 may acquire the user's preference information based on the user's designation (pre-setting by the user).
- the acquisition unit 131 acquires meta information of the content as information regarding the content.
- the acquisition unit 131 acquires audio information for each speaker appearing in the content.
- the voice information includes various information such as speaker information such as which speaker made the utterance, the content of the utterance, the rate of speech, and prosody.
- the estimation unit 132 estimates the importance of each section of the content based on the contents of the content acquired by the acquisition unit 131 and the user information.
- the estimation unit 132 estimates the importance of each section of the content based on the viewing history and operation history of the content by the user. Furthermore, the estimating unit 132 estimates the importance of each section of the content based on the user's preference information.
- the estimating unit 132 estimates the importance of each section of the content using a machine learning model that inputs the content and user information and outputs the importance of each section. This point will be explained using FIG. 7.
- FIG. 7 is a diagram for explaining estimation processing according to the embodiment.
- FIG. 7 shows an example of a machine learning model 76 that receives the contents of the content and user information as input, and outputs the degree of importance of each section of the content.
- the conversion device 100 acquires viewing history 61, operation history 62, and preference information 63 as user information 60. Then, the conversion device 100 converts the acquired user information 60 into a user feature vector 70.
- the user feature vector 70 is expressed in any format.
- the user feature vector 70 takes the genre of the content viewed by the user as one dimension, and uses a numerical value from 0 to 1 calculated based on the user's viewing tendency (number of views, viewing frequency, etc.) for this dimension. May be used as a value.
- the user feature vector 70 is a binary vector in which one dimension is the content that the user likes, and if the user likes it, "1" is input, and if the user does not like it, "0" is input. There may be.
- the conversion device 100 converts the content 72 into video feature amounts 74 for each section, which is in a format that can be input to the machine learning model 76 in time series. For example, the conversion device 100 converts scenes in which actor XXXX appears, silent sections, rough expressions, etc. in the content into feature amounts (vectors, etc.) representing each scene based on known technology.
- the conversion device 100 inputs the user feature amount vector 70 and the video feature amount 74 for each section to the machine learning model 76.
- the machine learning model 76 is a model that has been trained in advance to input these and output the degree of importance for each section, and is, for example, a deep learning model that can handle time series data.
- the machine learning model 76 outputs the importance level 78 for each section.
- the conversion device 100 can determine that, for example, the scene where actor XXXX appears is relatively important, the silent section is relatively low importance, and the section with rough expressions is relatively important. It is possible to obtain numerical values such as extremely low importance.
- the converting unit 133 converts the reproduction mode of the content based on the importance estimated by the estimating unit 132. As an example, the conversion unit 133 converts the playback speed at which the content is played back for each section based on the importance estimated by the estimation unit 132. For example, the conversion unit 133 can improve the user's viewing efficiency by converting the playback speed of sections with low importance to a faster speed.
- the conversion unit 133 may convert the reproduction mode of the audio information for each speaker based on the importance estimated by the estimation unit 132.
- the conversion unit 133 may finely adjust the speaking speed for each speaker, or may convert the speaking speed of all performers' voices at once.
- the conversion unit 133 may convert the voice quality for each speaker. At this time, the conversion unit 133 may analyze the voice quality of each speaker and perform conversion so that the voice quality of the speakers differs as much as possible.
- the conversion unit 133 may convert the prosody information so that the intonation of the speech becomes clear. Further, the conversion unit 133 may convert the audio information according to the content of the utterance. For example, if the content of the utterance is important in the content, it is assumed that the output of the machine learning model 76 will calculate the importance of that section to be high. However, even in this case, if the converting unit 133 determines that a performer who is not the user's favorite is speaking based on the performer information, the conversion unit 133 makes predetermined adjustments such as increasing the speaking speed of the performer. You may do so.
- the conversion unit 133 analyzes the audio information, deletes fillers from the speaker, inserts pauses in places where the intervals between utterances are narrow, deletes some parts where the intervals between utterances are wide, and adjusts the loudness of the voice. Various conversions, such as changing the size, may be performed.
- the converting unit 133 may convert the reproduction mode of the content so as not to reproduce (skip) some sections of the content based on the importance level. Furthermore, the converting unit 133 may convert the playback mode of the content so as not to play back sections that do not include speech.
- a specific example of content conversion is shown below. For example, assume that there are three users (user 11, user 12, and user 13) who have different preferences regarding performers and content. An example of a filter (conversion process) applied by the conversion unit 133 in this case is shown below. It is assumed that the genre of the content is drama.
- the user 11 is a fan of the drama genre and has a viewing style that allows him to enjoy every detail.
- the conversion unit 133 distributes the original video without applying a filter to the drama content based on the viewing history and operation history of the user 11.
- the conversion unit 133 does not convert any scenes in which actor XXXX appears, and reproduces other scenes at an increased reproduction speed, based on the viewing history and operation history of the user 12. Thereby, the converting unit 133 reliably provides scenes in which actor XXXX appears, and enables more efficient viewing so that the user 12 has time to view other content.
- the conversion unit 133 cuts out parts of the drama where there is little movement or little utterance, and also increases the speaking speed of the remaining parts and converts the voice quality in order to improve the distinguishability of the speakers. Provide content. Thereby, the conversion unit 133 can dramatically improve the viewing efficiency of the user 13.
- the conversion unit 133 avoids filtering the content as much as possible based on the viewing history and operation history of the user 11.
- the conversion unit 133 adjusts the voice quality, speech rate, and prosody for sections where the speech is difficult to hear or difficult to understand, slowing down the speech, or performing conversion processing to improve discriminability.
- the conversion unit 133 performs conversion to increase the speaking speed within an audible range based on the viewing history, operation history, and preset information of the user 12. Furthermore, the converting unit 133 may perform conversion based on the caption information of the content so as to cut out content that the instructor deviates from the textbook or syllabus, fillers, coughs, etc. of the instructor.
- the conversion unit 133 cuts out only the parts that the lecturer emphasizes (for example, parts where the lecturer's voice is loud, parts where utterances indicating important parts are extracted, etc.), and Convert to increase the speaking speed as much as possible.
- the output control unit 134 controls to output the content whose reproduction mode has been converted by the conversion unit 133.
- the output control unit 134 distributes the content to the user terminal 200 via the network N and controls the content to be output from the user terminal 200.
- the output control unit 134 controls the content to be output to a display or speaker connected to the conversion device 100.
- the output control unit 134 may output the content in a manner that allows the user to arbitrarily select whether or not to apply the reproduction mode conversion by the conversion unit 133.
- FIG. 8 is a diagram (1) for explaining the output control process according to the embodiment.
- FIG. 8 shows a situation where the content 50 whose reproduction mode has been converted by the conversion device 100 is being output on the user terminal 200.
- a user interface is displayed that allows the user to instruct application of the filter.
- the user interface 80 shown in FIG. 8 is a display indicating that a filter is applied to the content 50.
- the user can change the display to the user interface 81 by pressing the user interface 80 or the like.
- the user interface 81 shown in FIG. 8 is a display indicating that no filter is applied to the content 50. In this manner, when viewing the content 50 whose reproduction mode has been converted by the conversion device 100, the user can arbitrarily select whether or not to apply the conversion.
- the user interface 80 and user interface 81 shown in FIG. 8 are not limited to the bottom right of the screen, but may be displayed anywhere on the screen. Further, the user interface 80 and the user interface 81 do not need to be always displayed, and may be displayed in response to a user's operation or the like.
- FIG. 9 is a diagram (2) for explaining the output control process according to the embodiment.
- the user interface 82 shown in FIG. 9 is an area on the screen of the user terminal 200 that displays detailed information about the filter.
- the output control unit 134 displays time information generated as a digest in the content, that is, information indicating the deleted section of the content. Furthermore, the output control unit 134 shows information about the speaker whose speaking speed has been changed. The output control unit 134 also displays information about the speaker whose voice quality has been converted and information indicating how the voice quality has been converted.
- the output control unit 134 can convey the conversion content to the user by not only applying the filter but also displaying detailed information about the conversion.
- the user can view the content together with the converted content, so that, for example, the user can easily understand which sections of the content have been automatically deleted.
- the converting unit 133 can also add information that is the basis for the conversion. For example, when the conversion unit 133 converts the playback speed at which the content is played back for each section, it provides the content with basis information that is the basis for the conversion. In this case, the output control unit 134 outputs the content together with the basis information given by the conversion unit 133.
- FIG. 10 is a diagram (3) for explaining the output control process according to the embodiment.
- the user interface 84 shown in FIG. 10 is an area on the screen of the user terminal 200 that displays filter detailed information as well as filter basis information.
- the output control unit 134 displays basis information indicating that the digest-generated section is a "silent section” or a section for which the user has set a "dislike scene.”
- the output control unit 134 displays information on the speaker whose speech speed has been changed, as well as information that indicates that the speaker is "not to the user's liking", which is the basis for the speech speed conversion.
- the output control unit 134 displays information on the speaker whose voice quality has been converted, as well as basis information indicating that the conversion has been performed to "improve ease of listening.”
- the output control unit 134 can convey to the user the reason why the conversion was performed by showing the basis information to the user.
- the basis information can be obtained using various known methods.
- the conversion unit 133 may treat information that is an element (input) with the highest degree of contribution to the output value as basis information, or may obtain basis information through rule processing. good.
- corrections may be accepted from the user regarding the basis information displayed by the output control unit 134. That is, the conversion device 100 further includes a modification unit 135 that receives modifications to the basis information output by the output control unit 134 from the user.
- the estimating unit 132 may reflect the modification in the process of estimating the degree of importance.
- the estimation unit 132 can reflect corrections made by the user in the estimation process by using the information received by the correction unit 135 for relearning the machine learning model 76.
- FIG. 11 is a diagram (4) for explaining the output control process according to the embodiment.
- the user interface 86 shown in FIG. 11 is an area on the screen of the user terminal 200 that displays filter detailed information as well as filter basis information. Further, the user interface 88 is a button for receiving feedback from the user.
- the user presses a display indicating that it is correct on the user interface 88.
- the basis information shown as the basis for the conversion process is incorrect, the user presses a display indicating that it is incorrect on the user interface 88.
- the user can provide feedback as to whether the conversion performed by the conversion device 100 is as expected or as expected.
- the feedback may be binary information as shown in FIG. 11, may be selected by the user from a separate category, or may be feedback using natural sentences.
- the user wants to cancel the application of the filter the user can manually cancel the filter separately, and can also send such cancellation to the conversion device 100 as feedback.
- the output control unit 134 outputs a user interface that clearly shows which speaker is speaking and what kind of filter is applied to which speaker. It's okay. That is, the conversion unit 133 may convert the reproduction mode of the audio information for each speaker based on the importance estimated by the estimation unit 132. At this time, the output control unit 134 outputs the audio information for each speaker whose reproduction mode has been converted by the conversion unit 133, and also outputs the reproduction mode set for each speaker in a manner that the user can confirm.
- FIG. 12 is a diagram (1) showing a display example of content 50 according to the embodiment.
- the user interface 90 shown in FIG. 12 displays icons of speakers speaking in the content 50 on the screen of the user terminal 200, and also displays a display 92 showing filters applied to each speaker. .
- the output control unit 134 may output, for each speaker, parameters indicating how the voice quality and speaking speed were converted, a button for canceling the filter, etc. Thereby, the output control unit 134 suppresses the occurrence of a situation in which it is difficult for the user to distinguish between speakers due to the filtering process.
- the output control unit 134 displays the utterance information by displaying each speaker as shown in FIG. can be communicated to the user.
- the speaker information may be displayed based on performer and speaker information for each time series obtained in the extraction of meta information.
- FIG. 13 is a diagram (1) showing a display example of content 50 according to the embodiment.
- FIG. 13 shows an example in which a playback application is running on the smartphone 95.
- the playback application includes an operation panel 96 and a user interface 90 similar to that shown in FIG.
- the user interface 90 displays speakers who are speaking in the content 50 as icons on the screen of the smartphone 95, and also displays a display 92 showing the filters applied to each speaker.
- the output control unit 134 can adjust the display mode as appropriate depending on the output destination to which the content is output.
- Section setting In the embodiment, examples of setting sections of content are shown in which sections are divided for each utterance of a speaker, or sections are divided based on important utterances. However, the section is not limited to this method, and may be set using any method.
- the conversion device 100 may define the time period in which one slide is photographed as one section.
- the conversion device 100 may convert the playback speed, etc., taking into account the speaking speed during the time period in which one slide is photographed, the number of characters in the slide, and the like.
- the conversion device 100 also estimates the time it will take for the user to understand the slide, based on the number of characters and figures on the slide, and converts the playback speed, etc., taking the estimated results into account. It's okay.
- the conversion device 100 can acquire audio in content as caption information, or can acquire utterances as text data through voice recognition processing or the like.
- the conversion device 100 may output content obtained by converting the content of the text. For example, in news or lecture content that frequently includes terms that are difficult for general users to understand, the conversion device 100 may replace the difficult terms with simple words and display them superimposed as captions, or synthesize the simple words into speech. It is also possible to superimpose and play back.
- the conversion device 100 may output content using a method of outputting information that appeals to the sense of touch (haptic signals) such as vibrations for scenes where laughter occurs in the content. Thereby, the conversion device 100 can promote the use of content even when the user is not looking directly at the screen or cannot output audio.
- haptic signals such as vibrations for scenes where laughter occurs in the content.
- the conversion device 100 may also convert video signals, such as brightening pixels in sections with high importance and darkening pixels in scenes with low importance.
- each component of each device shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings.
- the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads and usage conditions. Can be integrated and configured.
- the conversion device (conversion device 100 in the embodiment) according to the present disclosure includes an estimation section (the estimation section 132 in the embodiment) and a conversion section (conversion section 133 in the embodiment).
- the acquisition unit acquires content and user information that is information related to a user who views the content.
- the estimation unit estimates the importance of each section of the content based on the content of the content acquired by the acquisition unit and the user information.
- the conversion unit converts the playback speed at which the content is played back for each section based on the importance estimated by the estimation unit.
- the conversion device automatically converts content for each user using not only content information but also user information, thereby allowing users
- the viewing efficiency and viewing experience can be improved.
- the acquisition unit acquires, as user information, the user's content viewing history and the user's operation history when viewing the content.
- the estimation unit estimates the importance of each section of the content based on the user's viewing history of the content and the user's operation history when viewing the content.
- the conversion device can perform conversion processing optimized for the user by performing conversion based on the user's viewing history and operation history.
- the acquisition unit also acquires the user's preference information based on the user's content viewing history and the user's operation history when viewing the content.
- the estimation unit estimates the importance of each section of the content based on the user's preference information. For example, the acquisition unit acquires, as the user's preference information, at least one of the speakers appearing in the content, the genre of the content, and the type of scene arbitrarily set by the user. Note that the acquisition unit may acquire the user's preference information based on the user's designation.
- the conversion device can provide content in a manner that the user would like to view, thereby improving user satisfaction.
- the estimating unit estimates the importance of each section of the content using a machine learning model that inputs the contents of the content and user information and outputs the importance of each section.
- the conversion device can estimate the degree of importance that is calculated with high accuracy and takes into account user information and content information.
- the acquisition unit acquires audio information for each speaker appearing in the content.
- the conversion unit converts the reproduction mode of the audio information for each speaker based on the importance estimated by the estimation unit.
- the conversion device recognizes the speaker and converts the reproduction mode for each speaker, so it can speed up the speech of a speaker that the user does not like, or increase the speed of speech of a speaker whose voice quality is difficult to hear. It can be used in a variety of ways, such as changing the voice quality of the voice.
- the conversion unit converts the playback mode of the content so that some of the sections are not played back based on the importance level. For example, the conversion unit converts the playback mode of the content so as not to play back sections that do not include speech.
- the conversion device can improve the user's viewing efficiency by performing processing such as skipping scenes without speech.
- the conversion device further includes an output control unit (output control unit 134 in the embodiment) that controls output of the content whose reproduction mode has been converted by the conversion unit.
- an output control unit output control unit 134 in the embodiment
- the conversion device can improve the user's viewing experience by providing the user with content whose reproduction mode has been converted for each user.
- the output control unit outputs the content in a manner that allows the user to arbitrarily select whether or not to apply the conversion of the reproduction mode by the conversion unit.
- the conversion unit may provide the content with basis information that is information that is the basis for the conversion.
- the output control unit outputs the content together with the basis information given by the conversion unit.
- the conversion device can accurately convey to the user why such conversion was performed by displaying information indicating the basis for conversion.
- the conversion device further includes a modification unit (modification unit 135 in the embodiment) that receives modifications to the output basis information from the user.
- modification unit 135 modification unit 135 in the embodiment
- the estimating section reflects the modification in the process of estimating the degree of importance.
- the conversion device can incorporate user feedback, so it can perform conversion processing that is more optimized for the user.
- the acquisition unit acquires audio information for each speaker appearing in the content.
- the conversion unit converts the reproduction mode of the audio information for each speaker based on the importance estimated by the estimation unit.
- the output control unit outputs voice information for each speaker whose playback mode has been converted by the conversion unit, and also outputs the playback mode set for each speaker in a form that allows the user to confirm.
- the conversion device can provide the user with a viewing environment with excellent usability in which the user can easily understand the speaker and the content of the conversion.
- FIG. 14 is a hardware configuration diagram showing an example of a computer 1000 that implements the functions of the conversion device 100.
- Computer 1000 has CPU 1100, RAM 1200, ROM (Read Only Memory) 1300, HDD (Hard Disk Drive) 1400, communication interface 1500, and input/output interface 1600. Each part of computer 1000 is connected by bus 1050.
- the CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400 and controls each part. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200, and executes processes corresponding to various programs.
- the ROM 1300 stores boot programs such as BIOS (Basic Input Output System) that are executed by the CPU 1100 when the computer 1000 is started, programs that depend on the hardware of the computer 1000, and the like.
- BIOS Basic Input Output System
- the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by the programs.
- HDD 1400 is a recording medium that records a conversion program according to the present disclosure, which is an example of program data 1450.
- the communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
- CPU 1100 receives data from other devices or transmits data generated by CPU 1100 to other devices via communication interface 1500.
- the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000.
- the CPU 1100 receives data from an input device such as a keyboard or a mouse via the input/output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, speaker, or printer via an input/output interface 1600.
- the input/output interface 1600 may function as a media interface that reads programs and the like recorded on a predetermined recording medium.
- Media includes, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memory, etc. It is.
- the CPU 1100 of the computer 1000 realizes the functions of the control unit 130 and the like by executing the conversion program loaded onto the RAM 1200. Further, the conversion program according to the present disclosure and data in the storage unit 120 are stored in the HDD 1400. Note that although the CPU 1100 reads and executes the program data 1450 from the HDD 1400, as another example, these programs may be obtained from another device via the external network 1550.
- the present technology can also have the following configuration.
- an acquisition unit that acquires content and user information that is information about the user who views the content; an estimation unit that estimates the importance of each section of the content based on the content of the content acquired by the acquisition unit and the user information; a conversion unit that converts a playback speed at which the content is played for each section based on the importance estimated by the estimation unit;
- a conversion device comprising: (2)
- the acquisition unit includes: As the user information, obtain a content viewing history by the user and an operation history when the user views the content, The estimation unit is estimating the importance of each section of the content based on the viewing history of the content by the user and the operation history when the user views the content;
- the conversion device according to (1) above.
- the acquisition unit includes: acquiring preference information of the user based on the content viewing history by the user and the operation history when the user views the content; The estimation unit is estimating the importance of each section of the content based on the user's preference information; The conversion device according to (2) above.
- the acquisition unit includes: As the user's preference information, at least one of the following information is acquired: the speaker appearing in the content, the genre of the content, and the type of scene arbitrarily set by the user; The conversion device according to (3) above.
- the acquisition unit includes: acquiring preference information of the user based on a specification by the user; The estimation unit is estimating the importance of each section of the content based on the user's preference information; The conversion device according to any one of (1) to (4) above.
- the estimation unit is estimating the importance of each section of the content using a machine learning model that takes the contents of the content and the user information as input and outputs the importance of each section;
- the conversion device according to any one of (1) to (5) above.
- the acquisition unit includes: Obtain audio information for each speaker appearing in the content, The conversion unit is converting the reproduction mode of the audio information for each speaker based on the importance estimated by the estimation unit; The conversion device according to any one of (1) to (6) above.
- the conversion unit is converting the playback mode of the content so that some of the sections are not played based on the importance level; The conversion device according to any one of (1) to (7) above.
- the conversion unit is converting the playback mode of the content so as not to play a section that does not include utterances among the sections;
- the conversion device according to (8) above. an output control unit that controls to output the content whose reproduction mode has been converted by the conversion unit;
- the output control section includes: outputting the content in a manner that allows the user to arbitrarily select whether or not to apply reproduction mode conversion by the conversion unit;
- the conversion unit is When the playback speed at which the content is played back is converted for each section, basis information that is the basis for the conversion is given to the content;
- the output control section includes: outputting the content together with the basis information given by the conversion unit;
- the estimation unit is When a modification is accepted by the modification unit, the modification is reflected in the process of estimating the degree of importance;
- the acquisition unit includes: Obtain audio information for each speaker appearing in the content, The conversion unit is converting the reproduction mode of the audio information for each speaker based on the importance estimated by the estimation unit;
- the output control section includes: outputting audio information for each speaker whose reproduction mode has been converted by the conversion unit, and outputting the reproduction mode set for each speaker in a form that can be confirmed by the user;
- the conversion device according to any one of (10) to (13) above.
- the computer is Obtain content and user information that is information about the user who views the content, Estimating the importance of each section of the content based on the content of the acquired content and the user information, converting a playback speed at which the content is played for each section based on the estimated importance; Conversion method including.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本開示に係る変換装置は、コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、を備える。
Description
本開示は、コンテンツの再生態様をユーザに合わせて変換する変換装置および変換方法に関する。
音声データや映像データの符号化技術の発展、記憶装置の大容量化および小型化、ネットワークを利用した入手経路の多様化等の技術的背景により、映像コンテンツや音楽コンテンツをユーザが利用する機会が増加している。
このような状況下において、ユーザの利便性を向上させるため、話速が途中で変化する音声データに対して、聞き取りやすい話速に変化させることのできる話速変換装置が提案されている(例えば、特許文献1)。
従来技術によれば、例えば複数話者に対応する各々の音声ついて異なる話速を設定することが可能になるので、ユーザの聞き取りやすさを向上することができる。
しかし、音声や映像等のコンテンツに対する聞き取りやすさや好みとする速度は人それぞれであり、一律にどのような速度が適切であるかを決定することは難しい。また、ユーザとしても、視聴するコンテンツのジャンルや内容によっては視聴速度を変化させることを好まない場合もある。また、大量のコンテンツがネット経由で配信されるような状況下では、ユーザ自身が再生態様をコンテンツごとに事前設定することも現実的には困難である。
そこで、本開示では、コンテンツごとの事前設定の手間を要せずに、ユーザの視聴効率や視聴体験を向上させることのできる変換装置および変換方法を提案する。
上記の課題を解決するために、本開示に係る一形態の変換装置は、コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、を備える。
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
以下に示す項目順序に従って本開示を説明する。
1.実施形態
1-1.実施形態に係る変換処理の概要
1-2.実施形態に係る変換処理の手順
1-3.実施形態に係る変換装置の構成
1-4.実施形態に係る変形例
1-4-1.区間の設定
1-4-2.音声変換の例
1-4-3.その他の出力例
2.その他の実施形態
3.本開示に係る変換装置の効果
4.ハードウェア構成
1.実施形態
1-1.実施形態に係る変換処理の概要
1-2.実施形態に係る変換処理の手順
1-3.実施形態に係る変換装置の構成
1-4.実施形態に係る変形例
1-4-1.区間の設定
1-4-2.音声変換の例
1-4-3.その他の出力例
2.その他の実施形態
3.本開示に係る変換装置の効果
4.ハードウェア構成
(1.実施形態)
(1-1.実施形態に係る変換処理の概要)
まず、図1を用いて、実施形態に係る変換処理の概要を説明する。図1は、実施形態に係る変換処理の概要を示す図(1)である。
(1-1.実施形態に係る変換処理の概要)
まず、図1を用いて、実施形態に係る変換処理の概要を説明する。図1は、実施形態に係る変換処理の概要を示す図(1)である。
実施形態に係る変換処理は、図1に図示する変換装置100によって実行される。変換装置100は、例えば、サーバ装置やPC(personal computer)等の情報処理端末である。変換装置100は、実施形態に係る変換処理を施した動画等のコンテンツを聴取者(以下、「ユーザ」と称する)に提供する。なお、変換装置100は、自装置からコンテンツを出力してもよいし、有線又は無線通信を介して、ユーザがコンテンツの視聴に利用する表示機器(ディスプレイやスピーカ等)にコンテンツを出力してもよい。
図1に示すユーザ10は、コンテンツを視聴するユーザの一例である。ユーザ10は、ユーザ端末200を用いて、変換装置100から配信されるコンテンツを視聴する。ユーザ端末200は、スマートフォンやタブレット端末等の情報処理端末である。なお、ユーザ端末200は、変換装置100から配信されたコンテンツを視聴するためのディスプレイやスピーカ等であってもよい。
本開示に係る変換処理は、音楽や映像、ネットワーク配信動画等のメディアコンテンツ(以下、「コンテンツ」と総称する)において、ユーザの視聴効率を向上させたり、ユーザの視聴に係る満足度を向上させたりする目的で利用される。
かかる技術の背景として、動画配信プラットフォームの発展や、オンラインを利用した講演や授業の利用等に伴い、ユーザが触れることのできるコンテンツやアーカイブの数が増加しているということが挙げられる。すなわち、コンテンツの重要度やコンテンツを視聴する観点はユーザによって様々に異なるにも関わらず、すべてのユーザが一様な態様でコンテンツを視聴することは、効率性を低下させる可能性がある。例えば、多くのコンテンツを視聴するために倍速視聴をするユーザや、関心のある箇所だけ視聴するためスキップ操作を多用するユーザがいる一方で、好きなコンテンツをなるべく加工せず熱心に視聴するユーザもいる。また、ユーザによっては、内容をよく理解するために、通常設定よりも遅い速度でコンテンツを視聴することを所望する場合もある。
このため、コンテンツは、ユーザごとに視聴態様が異なることが望ましい。また、視聴態様も一律ではなく、ユーザが、例えば視聴するジャンルや内容、登場人物等によって態様を分けることを望む場合もある。しかし、視聴するコンテンツの数が増加すると、それらのコンテンツに対してユーザが視聴態様を一つ一つ設定することは負担が大きい。
そこで、変換装置100は、ユーザ10がコンテンツを視聴する際に、ユーザ10がそのコンテンツをどのように視聴したいかという好みに関する情報に基づいて、コンテンツの再生態様を変換する。
例えば、変換装置100は、コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得し、取得したコンテンツの内容とユーザ情報とに基づいて、コンテンツの区間ごとの重要度を推定する。そして、変換装置100は、推定した重要度に基づいて、コンテンツを再生する再生速度を区間ごとに変換する。より具体的には、変換装置100は、コンテンツから得られるメタデータ(コンテンツに映っているもの、コンテンツの台本(トランスクリプション)、音声の有無等の時系列情報)と、ユーザの嗜好情報や視聴履歴等に基づいて、コンテンツに対して、ユーザごとに好ましい変換を行う。例えば、変換装置100は、コンテンツが再生される際に再生速度や再生場所が変換されるフィルタ処理を施す。これにより、変換装置100は、コンテンツの視聴効率をあげる。また、変換装置100は、個人ごとの視聴態様でコンテンツを享受させることができるので、ユーザの満足度を向上させることができる。
上記の処理について、図1を用いて概要を説明する。図1において、変換装置100は、動画配信プラットフォームをユーザ10に提供するサーバ装置であるものとする。すなわち、変換装置100は、ユーザ10の日常的な視聴履歴等のユーザ情報60を取得することができる。なお、変換装置100は、ユーザ10から、ユーザ10が好むコンテンツのジャンルや視聴を避けたいジャンル、好みの俳優等の種々の設定情報を取得していてもよい。すなわち、ユーザ情報60とは、ユーザのコンテンツ視聴に関する様々な情報を含みうる。
また、変換装置100は、配信対象とするコンテンツ50を保持する。変換装置100は、コンテンツ50について様々な情報を取得可能である。例えば、変換装置100は、コンテンツ50にジャンルや内容、コンテンツ50に出演している俳優名や登場シーンや登場時間、コンテンツ50の台本(発話される音声のテキストデータ)等を取得可能である。これらは、コンテンツ50のメタデータ(内部データ)として、例えば、コンテンツ50に紐づくタグ情報として記憶されてもよいし、任意の事業者等によって付与された情報であってもよい。
図1において、ユーザ10がユーザ端末200を操作し、コンテンツ50の視聴を所望したとする。この場合、変換装置100は、コンテンツ50の情報、および、ユーザ10に対応するユーザ情報60の情報に基づいて、コンテンツ50の区間ごとの重要度を推定する。例えば、変換装置100は、所定の機械学習モデルを用いて、コンテンツ50の区間ごとの重要度(スコア)を算出する。なお、これらの詳細な処理については後述する。
そして、変換装置100は、重要度に応じて再生態様が変換されたコンテンツ50をユーザ10に配信する。なお、実施形態において、再生態様の変換は、例えば、ユーザ端末200での再生の際に再生アプリケーション上でフィルタを適用することにより実現される。すなわち、ユーザ10は、フィルタを適用するか否かを任意に選択可能である。例えば、配信直後の状態、もしくはユーザがフィルタを適用することを明示的に選択した場合に、変換装置100による変換が施された態様でコンテンツ50が再生される。
図1には、変換後のコンテンツ50の再生態様を概念的に示している。図1に示す例では、ユーザ10は、コンテンツ50に出演する俳優51を好んでいるものとする。例えば、ユーザ10は、俳優51が出演する他のコンテンツを頻繁に視聴しており、俳優51を視聴した履歴を多く有する。また、ユーザ10は、俳優同士の発話等がないシーンはスキップする傾向にあるものとする。
このとき、変換装置100は、コンテンツ50の再生態様として、俳優51が発話する場面については通常通りの速度で再生し、特に変換を行わないことを決定する。
また、変換装置100は、俳優52が発話する場面については、俳優51が発話するシーンと比較して重要度が低いと推定する。この場合、変換装置100は、重要度に即して、俳優51が発話する区間がやや早い速度(例えば1.3倍速)で再生されるよう、コンテンツを変換する。
また、変換装置100は、俳優51や俳優52等が発話しない場面、すなわち俳優による発話や会話がないシーンは、他のシーンと比較して、ユーザ10にとって極めて重要度が低いと推定する。この場合、変換装置100は、重要度に即して、当該シーンをスキップするようコンテンツを変換する。
このように、変換装置100は、ユーザ10がコンテンツ50を視聴する際に、コンテンツ50の区間ごとに重要度を推定し、推定した重要度に基づいて、コンテンツ50を変換する。具体的には、変換装置100は、再生態様を変換するフィルタをユーザ10の視聴環境に適用することで、コンテンツ50の再生態様を変換する。これにより、ユーザ10は、自身が好む俳優51の出演シーンを通常通り視聴することができる。また、ユーザ10は、俳優51以外の俳優の登場シーンをやや速い速度で視聴したり、対話のないシーンをスキップして視聴できるので、視聴効率を向上することができる。
なお、図1では、コンテンツ変換の例として、俳優52が出演する区間の速度(言い換えれば、俳優51の話速)の変換を示した。しかし、変換態様はこれに限られない。例えば、変換装置100は、俳優52の声質を変換してもよい。例えば、変換装置100は、既知の音声フィルタ処理により、俳優52の声を高く、もしくは、低く変換してもよい。一例として、変換装置100は、男性である俳優52の声を女声に変換してもよい。これにより、変換装置100は、ユーザ10にとってより聞き取りやすい発話を提供することができる。なお、これらの変換についても、変換装置100は、ユーザ10の視聴履歴や、ユーザ10がコンテンツの再生時に施したフィルタの履歴等を利用して、ユーザ10の好みに合わせて適用することができる。
(1-2.実施形態に係る変換処理の手順)
次に、図2を用いて、実施形態に係る変換処理の手順の一例を説明する。図2は、実施形態に係る変換処理の手順を示すブロック図である。
次に、図2を用いて、実施形態に係る変換処理の手順の一例を説明する。図2は、実施形態に係る変換処理の手順を示すブロック図である。
図2に示すように、変換装置100は、コンテンツ50およびユーザ情報60を取得する。変換装置100は、取得したコンテンツ50のメタ情報を抽出する(ステップS10)。
メタ情報とは、コンテンツ50の内容を示す内部データである。例えば、メタ情報は、コンテンツ50が全体としてどのようなコンテンツであるかを示すジャンルを含む。また、メタ情報は、コンテンツ50に出演している人物名や、発話している人物名や、発話の内容を示すキャプション情報(スクリプト)等を含んでもよい。
変換装置100は、既知の技術を用いて、時系列に沿ってメタ情報を抽出する。例えば、変換装置100は、コンテンツ50が「インタビュー動画」に該当するか、「料理動画」に該当するか、などのジャンルを推定する。一例として、変換装置100は、コンテンツ50のキャプション情報や、出演俳優の情報や声質、コンテンツ50の画像認識等に基づいて、コンテンツ50のジャンルを推定する。なお、ネットワーク配信コンテンツ等は、配信業者によってジャンル等のメタ情報が与えられている場合があるため、変換装置100は、かかる情報をメタ情報として取得してもよい。
すなわち、変換装置100は、画像認識や音声認識や話者識別等の各種認識モジュールを用いてメタ情報を抽出してもよいし、別途、動画や音声プラットフォーム上のAPI(Application Programming Interface)から取得できる情報を用いてもよい。
その後、変換装置100は、「俳優51の出演および発話;00:30~0045」のように、コンテンツに登場する人物名とその発話が行われた時間を時系列に沿って抽出する。かかる抽出は、例えば、キャプション情報や画像認識等によって実現される。なお、変換装置100は、「俳優51の発話「私はそうは思いません」;00:30~00:35」のように、コンテンツ50を区切るきっかけとなりそうなセリフ(キャプション情報)とともに、メタ情報を抽出してもよい。これにより、変換装置100は、コンテンツ50を意味のある区間に区切ることができる。なお、どのようなセリフが区間を区切る要素となりえるかは、例えば、変換装置100が、言語の重要度を図る自然言語学習済みモデル等にキャプション情報を入力することで、出力されたスコア(重要度)に基づいて決定することができる。
上記処理により、変換装置100は、コンテンツ50を内容に沿って、ある程度の時間ごとの区間に区切ることができる。このあと、変換装置100は、コンテンツ50の区間ごとの重要度を推定する(ステップS12)。
すなわち、変換装置100は、抽出されたメタ情報とユーザ情報60とを入力として、コンテンツ50全体およびコンテンツ50の区間ごとの、ユーザ10にとっての重要度を推定する。
上述のように、変換装置100は、ユーザ情報60として、ユーザ10がどのようなジャンルの動画が好きか、どの俳優やアーティストが好きか、といった嗜好情報を取得する。また、変換装置100は、ユーザ10が過去にどのような内容の動画を見ているかという視聴履歴や、過去に視聴した動画に対して倍速やスキップ等の操作をどのくらい行ったかという操作履歴を取得する。
変換装置100は、これらユーザ情報60を用いて、コンテンツ50全体およびコンテンツ50の区間ごとの内容について、ユーザ10がどれくらい視聴を望んでいるかという重要度を総合的に推定する。
例えば、重要度が高く推定されやすい区間としては、ユーザ10が好きな出演者が発話しているシーンや、ユーザ10が興味関心の高いと推定される区間が該当する。一方、重要度が低く推定されやすい区間としては、ユーザ10にとって苦手な内容が発話されているシーンや、発話が行われない無音区間等が挙げられる。
上記の基準は、視聴するユーザに依拠するため、例えばユーザ10にとって重要であっても、他のユーザにとっては重要ではないということもありうる。変換装置100は、各々のユーザ情報を用いて重要度を推定することで、各々のユーザごとの重要度を適切に推定する。なお、推定処理の詳細は後述する。
続いて、変換装置100は、ユーザ10にコンテンツ50を配信するにあたり、フィルタを適用するか否かを判定する(ステップS14)。
例えば、変換装置100は、重要度推定処理の結果を受けて、特にコンテンツ50を変換する必要がないと判定すると、フィルタを適用しないと判定する。一例として、変換装置100は、コンテンツ50全体がユーザ10にとって重要度が高く、話速を早くしたりシーンを削除したりする必要がないと判定した場合、フィルタを適用しない。
一方で、変換装置100は、コンテンツ50の区間ごとに重要度の差が大きく、コンテンツ50の再生態様を区間ごとに変換したほうがユーザ10にとって好適と推定される場合、フィルタを適用する。なお、変換装置100は、ユーザ10による初期設定がフィルタを適用しないとされている場合等、別途、設定がある場合、かかる設定にしたがってもよい。
変換装置100は、ステップS14においてフィルタ適用有りと判定した場合、フィルタを適用する(ステップS16)。
例えば、変換装置100は、コンテンツ50について動画変換を行う(ステップS18)。一例として、変換装置100は、コンテンツ50の再生速度を変換する。具体的には、変換装置100は、コンテンツ50のうち、俳優52が出演する区間であり、ユーザ10にとって重要度が低いと推定された区間について、再生速度が速くなるよう、コンテンツ50を変換する。
また、変換装置100は、動画変換として、特定の区間を削除する処理を行ってもよい。すなわち、変換装置100は、動画および音声の尺を短くするため、重要度の低い区間を削除したり、きわめて早い速度で再生したりするよう、コンテンツ50を変換する。一例として、変換装置100は、ユーザ10にとって好きな出演者が発話していないシーンや、内容として冗長なシーンや、センシティブな内容でユーザ10が視聴を好まないシーン等を削除する。これらの削除判定は、コンテンツ50を視聴するユーザに依拠して決定される。
また、変換装置100は、コンテンツ50について音声変換を行ってもよい(ステップS20)。一例として、変換装置100は、コンテンツ50に出演する俳優の声質を変換する。具体的には、変換装置100は、コンテンツ50のうち、きわめて低い周波数帯域で発話する俳優52に対して、俳優52の音声を話者認識処理で特定したのち、かかる音声を女声に変換する等の処理を行う。
なお、変換装置100は、話者認識について、事前にコンテンツ50に設定されたメタ情報から話者数を認識しておいてもよいし、コンテンツ50の音声を解析することにより、話者数を推定してもよい。また、変換装置100は、コンテンツ50が動画である場合、発話しているシーンを画像認識することにより、話者特性や話者数推定を行うことができる。
そして、変換装置100は、話者ごとに、発話しているシーンの時系列を決定する。変換装置100は、話者の発話ごとに、コンテンツ50を区間に区切ってもよい。そして、変換装置100は、話者ごとに、その話速や声質、韻律情報等を抽出する。すなわち、変換装置100は、区間ごとに、その区間に含まれる音声の話速や声質を推定する。
話速は、例えば、音声認識を用いて、各区間に発話の単位(音素)がいくつ含まれているかを認識することで算出される。あるいは、変換装置100は、直接分類器を構築し、話速を推定してもよい。
声質について、変換装置100は、例えば、既知の話者識別用アルゴリズムを用いて判定してもよいし、事前学習済みモデルを使って特徴量として出力してもよい。
韻律について、変換装置100は、例えば、既知の音声認識モデル等を用いて、発話のピッチ(周波数)や、発音の音の高低の特徴等を抽出してもよい。
なお、ステップS16で適用されるフィルタの有無や、フィルタのかかり具合は、例えば変換装置100が提供するユーザインターフェイスを介して、ユーザ10が任意に調整可能である。かかる処理の詳細については後述する。
変換装置100は、コンテンツ50を変換すると、変換後のコンテンツ50を出力する(ステップS22)。例えば、変換装置100は、ユーザ10が利用するユーザ端末200にコンテンツ50を配信する。ユーザ10は、ユーザ端末200で動作する再生アプリケーションを利用して、変換されたコンテンツ50を視聴する。
変換装置100は、再生アプリケーション上において、変換の根拠を表示してもよい(ステップS24)。例えば、変換装置100は、コンテンツ50において、ある区間が削除されることを示すとともに、かかる区間が「無音区間」であるといった、削除の根拠となる情報を表示する。これにより、ユーザ10は、コンテンツ50が変換された理由を容易に確認することができる。
なお、ユーザ10は、再生アプリケーションのユーザインターフェイス上において、かかる根拠情報を修正してもよい(ステップS26)。例えば、ユーザ10は、自身が所望しない変換が行われていた場合、かかる変換を取り消したり、変換の根拠となった情報を修正することができる。
この場合、変換装置100は、ユーザ10の修正(すなわち、ユーザ10によるフィードバック)を取得し、取得した情報に基づいて、重要度推定モデルを再学習する等の処理を行ってもよい。これにより、変換装置100は、ユーザ10が視聴および修正を行うたびに、ユーザ10に最適化された変換処理を行うことができるよう学習を進めることができる。
以上のように、変換装置100は、コンテンツおよびユーザ情報を用いて、ユーザに即した変換を自動的に行うので、コンテンツごとの事前設定の手間等を要せずに、ユーザの視聴効率や視聴体験を向上させることができる。
(1-3.実施形態に係る変換装置の構成)
次に、図3を用いて、実施形態に係る変換装置100の構成について説明する。図3は、実施形態に係る変換装置100の構成例を示す図である。
次に、図3を用いて、実施形態に係る変換装置100の構成について説明する。図3は、実施形態に係る変換装置100の構成例を示す図である。
図3に示すように、変換装置100は、通信部110と、記憶部120と、制御部130と、出力部140とを有する。なお、変換装置100は、変換装置100を操作するユーザ等から各種操作を受け付ける入力部(例えばタッチパネル)や、各種情報を表示するための表示部(例えば液晶ディスプレイ)を有してもよい。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークN(インターネット、NFC(Near field communication)、Bluetooth等)と有線又は無線で接続され、ネットワークNを介して、再生機器等との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図3に示すように、記憶部120は、ユーザ情報記憶部121を有する。
ユーザ情報記憶部121は、変換装置100を利用するユーザのユーザ情報を記憶する。ユーザ情報は、例えば、ユーザの視聴履歴や、操作履歴や、予めユーザから設定される嗜好情報等を含む。以下、図4から図6を用いて、各ユーザ情報を例示する。
図4は、実施形態に係るユーザ情報記憶部121の一例(1)を示す図である。図4では、ユーザ情報のうち視聴履歴テーブル1211の一例を示す。
図4に示すように、視聴履歴テーブル1211は、「視聴コンテンツID」、「視聴日時」、「ジャンル」、「メタ情報」といった項目を有する。
「視聴コンテンツID」は、コンテンツを識別する識別情報を示す。「視聴日時」は、ユーザがコンテンツを視聴した日時を示す。「ジャンル」は、コンテンツのジャンルを示す。「メタ情報」は、コンテンツのメタ情報を示す。なお、図4から図6では、項目のデータを「A01」や「B01」のように概念的に記載する場合があるが、実際には、各項目のデータには、各項目に対応した具体的なデータが記憶される。
次に、操作履歴について説明する。図5は、実施形態に係るユーザ情報記憶部121の一例(2)を示す図である。図5では、ユーザ情報のうち操作履歴テーブル1212の一例を示す。
図5に示すように、操作履歴テーブル1212は、「操作履歴ID」、「コンテンツ情報」、「操作」、「タイムスタンプ」といった項目を有する。
「操作履歴ID」は、ユーザが実行した操作履歴を識別する識別情報を示す。「コンテンツ情報」は、ユーザが操作したコンテンツの名称や内容等、コンテンツに関する種々の情報を示す。「操作」は、実際にユーザが操作した具体的な操作の内容を示す。「タイムスタンプ」は、コンテンツにおいてユーザが操作を行った際のコンテンツの尺(時間情報)を示す。
次に、ユーザが設定した嗜好情報について説明する。例えば、ユーザは、変換装置100が変換するコンテンツを視聴することのできるサービスを利用するにあたり、視聴したいジャンルや、視聴したくない内容等を設定することができる。変換装置100は、かかる設定情報をユーザ情報記憶部121に記憶し、かかる情報を利用して、ユーザに配信するコンテンツを変換してもよい。
図6は、実施形態に係るユーザ情報記憶部121の一例(3)を示す図である。図6では、ユーザ情報のうち嗜好情報テーブル1213の一例を示す。
図6に示すように、嗜好情報テーブル1213は、「設定ID」、「項目」、「設定内容」といった項目を有する。
「設定ID」は、ユーザが設定した嗜好情報を識別する識別情報を示す。「項目」は、ユーザが自身の情報を設定する際の項目を示す。「設定内容」は、項目においてユーザが設定した具体的な内容を示す。
なお、嗜好情報は、必ずしもユーザが設定することを要さず、視聴履歴や操作履歴に基づいて変換装置100がユーザの嗜好を推定し、推定した情報を嗜好情報テーブル1213に記憶してもよい。
なお、図4から図6で示した各情報はあくまで一例であり、変換装置100は、ユーザに関する情報であれば、様々な内容やあらゆる形式の情報をユーザ情報として記憶しておいてもよい。
図3に戻り、説明を続ける。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、変換装置100内部に記憶されたプログラム(例えば、本開示に係る変換プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図3に示すように、制御部130は、取得部131と、推定部132と、変換部133と、出力制御部134と、修正部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
取得部131は、各種情報を取得する。例えば、取得部131は、コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する。
例えば、取得部131は、ユーザ情報として、ユーザによるコンテンツの視聴履歴およびユーザがコンテンツを視聴する際の操作履歴を取得する。
また、取得部131は、ユーザによるコンテンツの視聴履歴および操作履歴に基づいて、ユーザの嗜好情報を取得する。例えば、取得部131は、ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、当該ユーザが任意に設定するシーンの種別(センシティブなシーン等)の少なくとも一つの情報を取得する。なお、取得部131は、ユーザによる指定(ユーザによる事前設定)に基づき、ユーザの嗜好情報を取得してもよい。
また、取得部131は、コンテンツに関する情報として、コンテンツのメタ情報を取得する。一例として、取得部131は、コンテンツに出演する話者ごとの音声情報を取得する。音声情報には、どの話者が発話したものであるかといった話者情報や、発話の内容や、発話速度や韻律等、種々の情報を含む。
推定部132は、取得部131によって取得されたコンテンツの内容と、ユーザ情報とに基づいて、コンテンツの区間ごとの重要度を推定する。
例えば、推定部132は、ユーザによるコンテンツの視聴履歴および操作履歴に基づいて、コンテンツの区間ごとの重要度を推定する。また、推定部132は、ユーザの嗜好情報に基づいて、コンテンツの区間ごとの重要度を推定する。
例えば、推定部132は、コンテンツの内容およびユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、コンテンツの区間ごとの重要度を推定する。この点について、図7を用いて説明する。
図7は、実施形態に係る推定処理を説明するための図である。図7には、コンテンツの内容およびユーザ情報を入力とし、コンテンツの区間ごとの重要度を出力とする機械学習モデル76の一例を示す。
変換装置100は、ユーザ情報60として、視聴履歴61や操作履歴62や嗜好情報63を取得する。そして、変換装置100は、取得したユーザ情報60をユーザ特徴量ベクトル70に変換する。
ユーザ特徴量ベクトル70は、任意の形式で表現される。例えば、ユーザ特徴量ベクトル70は、ユーザが視聴したコンテンツのジャンルを一つの次元とし、ユーザの視聴傾向(視聴数や視聴頻度等)に基づいて算出した0から1までの数値を、かかる次元の値としてもよい。あるいは、ユーザ特徴量ベクトル70は、ユーザが好むコンテンツを一つの次元とし、ユーザが好むのであれば「1」を入力し、ユーザが好まないのであれば「0」とするような2値ベクトルであってもよい。
また、変換装置100は、コンテンツの内容72を、時系列に沿って機械学習モデル76に入力可能な形式である、区間ごとの動画特徴量74に変換する。例えば、変換装置100は、コンテンツにおいて俳優XXXXの登場シーンや、無音の区間や、粗暴な表現等を、既知の技術に基づいて、それぞれのシーンを表現する特徴量(ベクトル等)に変換する。
そして、変換装置100は、ユーザ特徴量ベクトル70および区間ごとの動画特徴量74を機械学習モデル76に入力する。なお、機械学習モデル76は、これらを入力とし、その区間ごとの重要度を出力するよう事前学習されたモデルであり、例えば時系列データを扱うことのできる深層学習モデルである。
機械学習モデル76は、区間ごとの重要度78を出力する。これにより、変換装置100は、例えば、ユーザ情報60に対応するユーザにとって、俳優XXXXの登場シーンが比較的重要度が高く、無音の区間は比較的重要度が低く、粗暴な表現がある区間は極めて重要度が低い、といった数値を得ることができる。
図3に戻り、説明を続ける。変換部133は、推定部132によって推定された重要度に基づいて、コンテンツの再生態様を変換する。一例として、変換部133は、推定部132によって推定された重要度に基づいて、コンテンツを再生する再生速度を区間ごとに変換する。例えば、変換部133は、重要度が低い区間の再生速度を早く変換することで、ユーザの視聴効率を向上させることができる。
また、変換部133は、推定部132によって推定された重要度に基づいて、音声情報の再生態様を話者ごとに変換してもよい。
例えば、変換部133は、話者ごとに話速を細かく調節してもよいし、出演者全員の音声について、まとめて話速を変換してもよい。
また、変換部133は、話者ごとの声質を変換してもよい。このとき、変換部133は、各話者の声質を解析し、できるかぎり話者同士の声質が異なるように変換をしてもよい。
さらに、変換部133は、発話の抑揚がはっきりするよう、韻律情報を変換してもよい。また、変換部133は、発話の内容に応じて音声情報を変換してもよい。例えば、発話の内容がコンテンツにおいて重要なものであれば、機械学習モデル76の出力により、その区間の重要度は高く算出されると想定される。しかし、変換部133は、この場合であっても、出演者情報に基づいて、ユーザの好みでない出演者が発話していると判定すると、かかる出演者の話速を速くするなど、所定の調整を行ってもよい。
なお、変換部133は、音声情報を解析し、発話者のフィラーを削除したり、発話の間隔が狭い箇所にポーズをいれたり、発話の間隔が広い箇所を一部削除したり、音声の大きさを変更したりするなど、種々の変換を行ってもよい。
すなわち、変換部133は、重要度に基づいて、コンテンツの区間のうち一部の区間を再生しないよう(スキップするよう)コンテンツの再生態様を変換してもよい。また、変換部133は、区間のうち発話が含まれない区間を再生しないようコンテンツの再生態様を変換してもよい。
以下に、コンテンツの変換の具体例を示す。例えば、出演者やコンテンツに関する嗜好の異なる3人のユーザ(ユーザ11、ユーザ12、ユーザ13とする)がいるとする。この場合に、変換部133が適用するフィルタ(変換処理)の例を以下に示す。なお、コンテンツのジャンルはドラマであるものとする。
例えば、ユーザ11は、ドラマジャンルのファンであり、細部まで楽しむ視聴スタイルを有する。この場合、変換部133は、ユーザ11の視聴履歴や操作履歴に基づいて、ドラマのコンテンツにフィルタを適用せず、オリジナルの映像を配信する。
また、ユーザ12は、特に俳優XXXXのファンであり、ドラマを楽しみつつも、俳優XXXXが出演する他のコンテンツも多く視聴しているものとする。この場合、変換部133は、ユーザ12の視聴履歴や操作履歴に基づいて、俳優XXXXの出演シーンは何も変換をせず、その他のところは再生速度を上げて再生を行う。これにより、変換部133は、俳優XXXXの出演シーンを確実に提供するとともに、他のコンテンツを視聴する時間をユーザ12が設けられるような、効率のより視聴を可能とさせる。
また、ユーザ13は、ドラマの内容のみを追うため、頻繁に速度を上げながら視聴するユーザであるものとする。この場合、変換部133は、ドラマにおいて動きが少ない部分や発話が少ない部分等はカットし、さらに残りの部分も話速をあげたり、話者の弁別性を高めるために声質を変換したりしたコンテンツを提供する。これにより、変換部133は、ユーザ13の視聴効率を飛躍的に向上させることができる。
続いて、コンテンツが授業録画である場合を例に挙げ、実施形態に係る変換処理を説明する。
例えば、ユーザ11は、授業を隅々まで理解する傾向にあり、また、難解な部分も視聴する傾向にあるとする。この場合、変換部133は、ユーザ11の視聴履歴や操作履歴に基づいて、なるべくコンテンツにフィルタをかけないようにする。また、変換部133は、発話が聞き取りにくい区間や難解な区間に関しては声質や話速、韻律を調整して、発話を遅くしたり、弁別性を高める変換処理を行ったりする。
また、ユーザ12は、なるべく短時間で授業を受けたいユーザであるとする。この場合、変換部133は、ユーザ12の視聴履歴や操作履歴、事前設定情報に基づいて、聞き取れる範囲で話速をあげるよう変換する。また、変換部133は、コンテンツのキャプション情報に基づいて、講師が教科書やシラバスから逸れた内容や、講師のフィラーや咳等をカットするよう変換してもよい。
また、ユーザ13は、テストに出る重要な部分のみを視聴したいユーザであるとする。この場合、変換部133は、講師が重点を入れて説明している部分のみ(例えば、講師の声量が大きい箇所や、重要な箇所であることを示す発話が抽出された箇所など)を切り取り、可能な範囲で話速をあげるよう変換する。
出力制御部134は、変換部133によって再生態様が変換されたコンテンツを出力するよう制御する。例えば、出力制御部134は、コンテンツをネットワークNを介して、ユーザ端末200に配信し、ユーザ端末200で出力されるよう制御する。あるいは、出力制御部134は、変換装置100と接続されたディスプレイやスピーカにコンテンツを出力するよう制御する。
このとき、出力制御部134は、変換部133による再生態様の変換を適用するか否かをユーザが任意に選択可能な態様でコンテンツを出力してもよい。
この点について、図8を用いて説明する。図8は、実施形態に係る出力制御処理を説明するための図(1)である。
図8では、変換装置100によって再生態様が変換されたコンテンツ50がユーザ端末200で出力されている状況を示す。このとき、再生アプリケーションにおいて、ユーザがフィルタの適用を指示可能なユーザインターフェイスが表示される。
例えば、図8に示すユーザインターフェイス80は、コンテンツ50にフィルタが適用されていることを示す表示である。ユーザは、ユーザインターフェイス80を押下すること等により、かかる表示をユーザインターフェイス81に変化させることができる。
図8に示すユーザインターフェイス81は、コンテンツ50にフィルタが適用されていないことを示す表示である。このように、ユーザは、変換装置100によって再生態様が変換されたコンテンツ50を視聴する際には、任意にその変換を適用するか否かを選択できる。
なお、図8に示したユーザインターフェイス80やユーザインターフェイス81は、画面の右下に限らず、画面上のどこに表示されてもよい。また、ユーザインターフェイス80やユーザインターフェイス81は、常に表示されておくことを要さず、ユーザの操作等に反応して表示されてもよい。
また、出力制御部134は、適用しているフィルタの情報をユーザに提供してもよい。この点について、図9を用いて説明する。図9は、実施形態に係る出力制御処理を説明するための図(2)である。
図9に示すユーザインターフェイス82は、ユーザ端末200の画面上において、フィルタの詳細情報を表示する領域である。
図9に示すように、出力制御部134は、コンテンツにおいてダイジェスト生成した時間情報、すなわち、コンテンツのうち削除した区間を示した情報を表示する。また、出力制御部134は、話速を変換した話者の情報を示す。また、出力制御部134は、声質を変換した話者の情報や、どのように声質を変換したかを示す情報を表示する。
このように、出力制御部134は、フィルタの適用のみならず、変換の詳細情報を表示することで、ユーザに変換内容を伝達することができる。図9の例では、ユーザは、変換内容とともにコンテンツを視聴できるので、例えば、コンテンツにおいて自動削除された区間を容易に把握できる。
なお、変換部133は、コンテンツの変換の際、変換の根拠となった情報を付与することもできる。例えば、変換部133は、コンテンツを再生する再生速度を区間ごとに変換した場合、変換した根拠となる情報である根拠情報をコンテンツに付与する。この場合、出力制御部134は、変換部133によって付与された根拠情報とともにコンテンツを出力する。
この点について、図10を用いて説明する。図10は、実施形態に係る出力制御処理を説明するための図(3)である。
図10に示すユーザインターフェイス84は、ユーザ端末200の画面上において、フィルタの詳細情報とともに、フィルタの根拠情報を表示する領域である。
図10に示すように、出力制御部134は、ダイジェスト生成した区間が「無音区間」であったり、ユーザから「苦手シーン」の設定があった箇所であることを示す根拠情報を表示する。また、出力制御部134は、話速を変換した話者の情報とともに、かかる話者が「ユーザの好みでない」という、話速変換の根拠とした情報を表示する。また、出力制御部134は、声質を変換した話者の情報とともに、「聞きやすさ向上」のために変換を行ったことを示す根拠情報を表示する。
このように、出力制御部134は、根拠情報をユーザに示すことで、なぜ変換が行われたかという理由をユーザに伝達できる。なお、根拠情報は、既知の種々の手法で求められる。例えば、変換部133は、機械学習モデル76において、出力値に対して最も貢献度の高い要素(入力)であった情報を根拠情報として取り扱ってもよいし、ルール処理で根拠情報を求めてもよい。
また、出力制御部134が表示した根拠情報について、ユーザから修正を受け付けてもよい。すなわち、変換装置100は、出力制御部134によって出力された根拠情報に対する修正をユーザから受け付ける修正部135をさらに備える。この場合、推定部132は、修正部135によって修正が受け付けられた場合、修正を重要度を推定する処理に反映させてもよい。例えば、推定部132は、修正部135が受け付けた情報を機械学習モデル76の再学習に利用することで、ユーザによる修正を推定処理に反映できる。
この点について、図11を用いて説明する。図11は、実施形態に係る出力制御処理を説明するための図(4)である。
図11に示すユーザインターフェイス86は、ユーザ端末200の画面上において、フィルタの詳細情報とともに、フィルタの根拠情報を表示する領域である。また、ユーザインターフェイス88は、ユーザからフィードバックを受け付けるためのボタンである。
例えば、ユーザは、図11に示された画面上において、変換処理の根拠として示された根拠情報が正しい場合には、ユーザインターフェイス88において、正しいことを示す表示を押下する。あるいは、ユーザは、変換処理の根拠として示された根拠情報が誤っている場合には、ユーザインターフェイス88において、誤っていることを示す表示を押下する。
すなわち、ユーザは、変換装置100による変換が、自身の想定や期待どおりであるかをフィードバックすることができる。なお、フィードバックは、図11に示すような2値情報であってもよいし、別途カテゴリからユーザが選択する態様であってもよいし、自然文を用いたフィードバックであってもよい。また、ユーザは、フィルタの適用を解除したい場合、別途手動でフィルタを解除することができ、かかる解除をフィードバックとして変換装置100に送信することも可能である。
なお、出力制御部134は、より発話者を明確にするため、どの話者が発話しているか、また、どの話者にどのようなフィルタが適用されているかを明確に示すユーザインターフェイスを出力してもよい。すなわち、変換部133は、推定部132によって推定された重要度に基づいて、音声情報の再生態様を話者ごとに変換してもよい。このとき、出力制御部134は、変換部133によって再生態様が変換された話者ごとの音声情報を出力するとともに、話者ごとに設定された再生態様をユーザが確認可能な態様で出力する。
この点について、図12および図13を用いて説明する。図12は、実施形態に係るコンテンツ50の表示例を示す図(1)である。
図12に示すユーザインターフェイス90は、ユーザ端末200の画面上において、コンテンツ50で発話している話者をアイコン表示するとともに、話者ごとに適用されているフィルタを示す表示92を示すものである。
このように、出力制御部134は、話者ごとに、声質や話速をどのように変換したかを示すパラメータや、そのフィルタを解除するためのボタン等を出力してもよい。これにより、出力制御部134は、フィルタ処理が行われることによって、ユーザにとって話者を区別しにくい状態が発生することを抑制する。
例えば、声質変換を適用することで話者の弁別性を上げることが見込まれるが、一方で、元の声質から声質が変化するため、発話しているのがどの話者か、ユーザにとってわかりにくくなる可能性がある。このとき、出力制御部134は、図12に示すような、話者ごとの表示を行ったり、再生時点で発話を行っていることを示す表示(吹き出し等)を示したりして、発話情報をユーザに伝達することができる。なお、話者情報は、メタ情報の抽出において得られた時系列ごとの出演者や話者情報を元に表示されてもよい。
なお、ユーザ端末200がスマートフォン等の縦長画面である場合、出力制御部134は、図12とは異なる表示を出力してもよい。この点について、図13を用いて説明する。図13は、実施形態に係るコンテンツ50の表示例を示す図(1)である。
図13では、スマートフォン95において再生アプリケーションが動作している例を示す。例えば、再生アプリケーションは、操作パネル96とともに、図12と同様のユーザインターフェイス90を備える。ユーザインターフェイス90は、スマートフォン95の画面上において、コンテンツ50で発話している話者をアイコン表示するとともに、話者ごとに適用されているフィルタを示す表示92を示すものである。このように、出力制御部134は、コンテンツが出力される出力先に応じて、表示態様を適宜、調整することが可能である。
(1-4.実施形態に係る変形例)
上記で説明した実施形態に係る情報処理は、様々な変形を伴ってもよい。以下に、実施形態の変形例について説明する。
上記で説明した実施形態に係る情報処理は、様々な変形を伴ってもよい。以下に、実施形態の変形例について説明する。
(1-4-1.区間の設定)
実施形態では、コンテンツの区間の設定について、話者の発話ごとに区間を区切ったり、重要な発話を起点として区間を区切ったりする例を示した。しかし、区間は、かかる手法に限らず、任意の手法で設定されてもよい。
実施形態では、コンテンツの区間の設定について、話者の発話ごとに区間を区切ったり、重要な発話を起点として区間を区切ったりする例を示した。しかし、区間は、かかる手法に限らず、任意の手法で設定されてもよい。
例えば、コンテンツが授業動画等の場合、出演している講師によって画像やスライドが提示されることがありうる。この場合、変換装置100は、1枚のスライドが写っている時間帯を1つの区間としてもよい。この場合、変換装置100は、1枚のスライドが写っている時間帯の話速や、スライドの文字数などを勘案して、再生速度等を変換してもよい。また、変換装置100は、写っているスライドの文字数や図の多さなどから、ユーザがかかるスライドを理解するのにかかる時間を推定し、推定した結果を勘案して、再生速度等を変換してもよい。
(1-4-2.音声変換の例)
上記のように、変換装置100は、コンテンツ内の音声をキャプション情報として取得したり、音声認識処理等によって発話をテキストデータとして取得可能である。
上記のように、変換装置100は、コンテンツ内の音声をキャプション情報として取得したり、音声認識処理等によって発話をテキストデータとして取得可能である。
このとき、変換装置100は、テキストの内容を変換したコンテンツを出力してもよい。例えば、一般ユーザにとって難解な用語が頻発するニュースや講義のコンテンツにおいて、変換装置100は、難解な用語を簡易な言葉に置き換えた上でキャプションとして重畳表示したり、その簡易な言葉を音声合成して重畳して再生したりしてもよい。
(1-4-3.その他の出力例)
例えば、変換装置100は、コンテンツにおいて笑いが起きているシーン等について、振動など触覚に訴えるような情報(ハプティクス信号)を出力する方式を併用してコンテンツを出力してもよい。これにより、変換装置100は、ユーザが画面を直接見ていない状態や、音声を出力できない状況においても、コンテンツの利用を促進できる。
例えば、変換装置100は、コンテンツにおいて笑いが起きているシーン等について、振動など触覚に訴えるような情報(ハプティクス信号)を出力する方式を併用してコンテンツを出力してもよい。これにより、変換装置100は、ユーザが画面を直接見ていない状態や、音声を出力できない状況においても、コンテンツの利用を促進できる。
また、変換装置100は、音声の変換のみならず、重要度の高い区間では画素を明るくし、重要度の低いシーンでは画素を暗くするなど、映像信号を変換してもよい。
(2.その他の実施形態)
上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
(3.本開示に係る変換装置の効果)
上述のように、本開示に係る変換装置(実施形態では変換装置100)は、推定部(実施形態では推定部132)と、変換部(実施形態では変換部133)とを備える。取得部は、コンテンツと、コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する。推定部は、取得部によって取得されたコンテンツの内容と、ユーザ情報とに基づいて、コンテンツの区間ごとの重要度を推定する。変換部は、推定部によって推定された重要度に基づいて、コンテンツを再生する再生速度を区間ごとに変換する。
上述のように、本開示に係る変換装置(実施形態では変換装置100)は、推定部(実施形態では推定部132)と、変換部(実施形態では変換部133)とを備える。取得部は、コンテンツと、コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する。推定部は、取得部によって取得されたコンテンツの内容と、ユーザ情報とに基づいて、コンテンツの区間ごとの重要度を推定する。変換部は、推定部によって推定された重要度に基づいて、コンテンツを再生する再生速度を区間ごとに変換する。
このように、本開示に係る変換装置は、コンテンツ情報のみならず、ユーザ情報を用いて、ユーザごとにコンテンツの自動変換を行うことにより、コンテンツごとの事前設定の手間を要せずに、ユーザの視聴効率や視聴体験を向上させることができる。
また、取得部は、ユーザ情報として、ユーザによるコンテンツの視聴履歴およびユーザがコンテンツを視聴する際の操作履歴を取得する。推定部は、ユーザによるコンテンツの視聴履歴およびユーザがコンテンツを視聴する際の操作履歴に基づいて、コンテンツの区間ごとの重要度を推定する。
このように、変換装置は、ユーザの視聴履歴や操作履歴に基いた変換を行うことで、当該ユーザに最適化された変換処理を行うことができる。
また、取得部は、ユーザによるコンテンツの視聴履歴およびユーザがコンテンツを視聴する際の操作履歴に基づいて、ユーザの嗜好情報を取得する。推定部は、ユーザの嗜好情報に基づいて、コンテンツの区間ごとの重要度を推定する。例えば、取得部は、ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、ユーザが任意に設定するシーンの種別の少なくとも一つの情報を取得する。なお、取得部は、ユーザによる指定に基づき、ユーザの嗜好情報を取得してもよい。
このように、変換装置は、ユーザの嗜好情報に基づいた変換を行うことで、ユーザがより視聴したい態様でコンテンツを提供できるので、ユーザの満足度を向上させることができる。
また、推定部は、コンテンツの内容およびユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、コンテンツの区間ごとの重要度を推定する。
このように、変換装置は、機械学習モデルを用いることで、ユーザ情報やコンテンツ情報が考慮された、精度高く算出された重要度を推定することができる。
また、取得部は、コンテンツに出演する話者ごとの音声情報を取得する。変換部は、推定部によって推定された重要度に基づいて、音声情報の再生態様を話者ごとに変換する。
このように、変換装置は、話者を認識したうえで、話者ごとに再生態様を変換するので、ユーザにとって好みでない話者の話速を速めたり、聞き取りにくい声質を有する話者の発話のみを声質変換したりするなど、多様な対応を行うことができる。
また、変換部は、重要度に基づいて、区間のうち一部の区間を再生しないようコンテンツの再生態様を変換する。例えば、変換部は、区間のうち発話が含まれない区間を再生しないようコンテンツの再生態様を変換する。
このように、変換装置は、発話のないシーンをスキップするなどの処理を行うことで、ユーザの視聴効率を向上させることができる。
また、変換装置は、変換部によって再生態様が変換されたコンテンツを出力するよう制御する出力制御部(実施形態では出力制御部134)をさらに備える。
このように、変換装置は、ユーザごとに再生態様が変換されたコンテンツをユーザに提供することで、ユーザの視聴体験を向上させることができる。
また、出力制御部は、変換部による再生態様の変換を適用するか否かをユーザが任意に選択可能な態様でコンテンツを出力する。この場合、変換部は、コンテンツを再生する再生速度を区間ごとに変換した場合、変換した根拠となる情報である根拠情報をコンテンツに付与してもよい。出力制御部は、変換部によって付与された根拠情報とともにコンテンツを出力する。
このように、変換装置は、変換の根拠を示した情報を表示することで、なぜそのような変換が行われたかをユーザに正確に伝達することができる。
また、変換装置は、出力された根拠情報に対する修正をユーザから受け付ける修正部(実施形態では修正部135)をさらに備える。推定部は、修正部によって修正が受け付けられた場合、修正を重要度を推定する処理に反映させる。
このように、変換装置は、ユーザのフィードバックを取り入れることができるので、よりユーザに最適化された変換処理を行うことができる。
また、取得部は、コンテンツに出演する話者ごとの音声情報を取得する。変換部は、推定部によって推定された重要度に基づいて、音声情報の再生態様を話者ごとに変換する。出力制御部は、変換部によって再生態様が変換された話者ごとの音声情報を出力するとともに、話者ごとに設定された再生態様をユーザが確認可能な態様で出力する。
このように、変換装置は、話者ごとに施された変換態様を表示することで、ユーザが話者や変換内容を把握しやすい、ユーザビリティに優れた視聴環境をユーザに提供することができる。
(4.ハードウェア構成)
上述してきた各実施形態に係る変換装置100等の情報機器は、例えば図14に示すような構成のコンピュータ1000によって実現される。以下、実施形態に係る変換装置100を例に挙げて説明する。図14は、変換装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
上述してきた各実施形態に係る変換装置100等の情報機器は、例えば図14に示すような構成のコンピュータ1000によって実現される。以下、実施形態に係る変換装置100を例に挙げて説明する。図14は、変換装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る変換プログラムを記録する記録媒体である。
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る変換装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた変換プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る変換プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、
前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、
前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、
を備える変換装置。
(2)
前記取得部は、
前記ユーザ情報として、前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴を取得し、
前記推定部は、
前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記コンテンツの区間ごとの重要度を推定する、
前記(1)に記載の変換装置。
(3)
前記取得部は、
前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記ユーザの嗜好情報を取得し、
前記推定部は、
前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
前記(2)に記載の変換装置。
(4)
前記取得部は、
前記ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、当該ユーザが任意に設定するシーンの種別の少なくとも一つの情報を取得する、
前記(3)に記載の変換装置。
(5)
前記取得部は、
前記ユーザによる指定に基づき、前記ユーザの嗜好情報を取得し、
前記推定部は、
前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
前記(1)~(4)のいずれか一つに記載の変換装置。
(6)
前記推定部は、
前記コンテンツの内容および前記ユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、当該コンテンツの区間ごとの重要度を推定する、
前記(1)~(5)のいずれか一つに記載の変換装置。
(7)
前記取得部は、
前記コンテンツに出演する話者ごとの音声情報を取得し、
前記変換部は、
前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換する、
前記(1)~(6)のいずれか一つに記載の変換装置。
(8)
前記変換部は、
前記重要度に基づいて、前記区間のうち一部の区間を再生しないよう前記コンテンツの再生態様を変換する、
前記(1)~(7)のいずれか一つに記載の変換装置。
(9)
前記変換部は、
前記区間のうち発話が含まれない区間を再生しないよう前記コンテンツの再生態様を変換する、
前記(8)に記載の変換装置。
(10)
前記変換部によって再生態様が変換されたコンテンツを出力するよう制御する出力制御部、
をさらに備える前記(1)~(9)のいずれか一つに記載の変換装置。
(11)
前記出力制御部は、
前記変換部による再生態様の変換を適用するか否かを前記ユーザが任意に選択可能な態様で前記コンテンツを出力する、
前記(10)に記載の変換装置。
(12)
前記変換部は、
前記コンテンツを再生する再生速度を前記区間ごとに変換した場合、変換した根拠となる情報である根拠情報を当該コンテンツに付与し、
前記出力制御部は、
前記変換部によって付与された前記根拠情報とともに前記コンテンツを出力する、
前記(11)に記載の変換装置。
(13)
前記出力された前記根拠情報に対する修正を前記ユーザから受け付ける修正部をさらに備え、
前記推定部は、
前記修正部によって修正が受け付けられた場合、当該修正を前記重要度を推定する処理に反映させる、
前記(12)に記載の変換装置。
(14)
前記取得部は、
前記コンテンツに出演する話者ごとの音声情報を取得し、
前記変換部は、
前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換し、
前記出力制御部は、
前記変換部によって再生態様が変換された話者ごとの音声情報を出力するとともに、当該話者ごとに設定された再生態様を前記ユーザが確認可能な態様で出力する、
前記(10)~(13)のいずれか一つに記載の変換装置。
(15)
コンピュータが、
コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得し、
前記取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定し、
前記推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する、
ことを含む変換方法。
(1)
コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、
前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、
前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、
を備える変換装置。
(2)
前記取得部は、
前記ユーザ情報として、前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴を取得し、
前記推定部は、
前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記コンテンツの区間ごとの重要度を推定する、
前記(1)に記載の変換装置。
(3)
前記取得部は、
前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記ユーザの嗜好情報を取得し、
前記推定部は、
前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
前記(2)に記載の変換装置。
(4)
前記取得部は、
前記ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、当該ユーザが任意に設定するシーンの種別の少なくとも一つの情報を取得する、
前記(3)に記載の変換装置。
(5)
前記取得部は、
前記ユーザによる指定に基づき、前記ユーザの嗜好情報を取得し、
前記推定部は、
前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
前記(1)~(4)のいずれか一つに記載の変換装置。
(6)
前記推定部は、
前記コンテンツの内容および前記ユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、当該コンテンツの区間ごとの重要度を推定する、
前記(1)~(5)のいずれか一つに記載の変換装置。
(7)
前記取得部は、
前記コンテンツに出演する話者ごとの音声情報を取得し、
前記変換部は、
前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換する、
前記(1)~(6)のいずれか一つに記載の変換装置。
(8)
前記変換部は、
前記重要度に基づいて、前記区間のうち一部の区間を再生しないよう前記コンテンツの再生態様を変換する、
前記(1)~(7)のいずれか一つに記載の変換装置。
(9)
前記変換部は、
前記区間のうち発話が含まれない区間を再生しないよう前記コンテンツの再生態様を変換する、
前記(8)に記載の変換装置。
(10)
前記変換部によって再生態様が変換されたコンテンツを出力するよう制御する出力制御部、
をさらに備える前記(1)~(9)のいずれか一つに記載の変換装置。
(11)
前記出力制御部は、
前記変換部による再生態様の変換を適用するか否かを前記ユーザが任意に選択可能な態様で前記コンテンツを出力する、
前記(10)に記載の変換装置。
(12)
前記変換部は、
前記コンテンツを再生する再生速度を前記区間ごとに変換した場合、変換した根拠となる情報である根拠情報を当該コンテンツに付与し、
前記出力制御部は、
前記変換部によって付与された前記根拠情報とともに前記コンテンツを出力する、
前記(11)に記載の変換装置。
(13)
前記出力された前記根拠情報に対する修正を前記ユーザから受け付ける修正部をさらに備え、
前記推定部は、
前記修正部によって修正が受け付けられた場合、当該修正を前記重要度を推定する処理に反映させる、
前記(12)に記載の変換装置。
(14)
前記取得部は、
前記コンテンツに出演する話者ごとの音声情報を取得し、
前記変換部は、
前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換し、
前記出力制御部は、
前記変換部によって再生態様が変換された話者ごとの音声情報を出力するとともに、当該話者ごとに設定された再生態様を前記ユーザが確認可能な態様で出力する、
前記(10)~(13)のいずれか一つに記載の変換装置。
(15)
コンピュータが、
コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得し、
前記取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定し、
前記推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する、
ことを含む変換方法。
10 ユーザ
50 コンテンツ
100 変換装置
110 通信部
120 記憶部
121 ユーザ情報記憶部
130 制御部
131 取得部
132 推定部
133 変換部
134 出力制御部
135 修正部
50 コンテンツ
100 変換装置
110 通信部
120 記憶部
121 ユーザ情報記憶部
130 制御部
131 取得部
132 推定部
133 変換部
134 出力制御部
135 修正部
Claims (15)
- コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得する取得部と、
前記取得部によって取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定する推定部と、
前記推定部によって推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する変換部と、
を備える変換装置。 - 前記取得部は、
前記ユーザ情報として、前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴を取得し、
前記推定部は、
前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記コンテンツの区間ごとの重要度を推定する、
請求項1に記載の変換装置。 - 前記取得部は、
前記ユーザによるコンテンツの視聴履歴および当該ユーザがコンテンツを視聴する際の操作履歴に基づいて、前記ユーザの嗜好情報を取得し、
前記推定部は、
前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
請求項2に記載の変換装置。 - 前記取得部は、
前記ユーザの嗜好情報として、コンテンツに出演する話者、コンテンツのジャンル、当該ユーザが任意に設定するシーンの種別の少なくとも一つの情報を取得する、
請求項3に記載の変換装置。 - 前記取得部は、
前記ユーザによる指定に基づき、前記ユーザの嗜好情報を取得し、
前記推定部は、
前記ユーザの嗜好情報に基づいて、前記コンテンツの区間ごとの重要度を推定する、
請求項1に記載の変換装置。 - 前記推定部は、
前記コンテンツの内容および前記ユーザ情報とを入力とし、区間ごとの重要度を出力とする機械学習モデルを用いて、当該コンテンツの区間ごとの重要度を推定する、
請求項1に記載の変換装置。 - 前記取得部は、
前記コンテンツに出演する話者ごとの音声情報を取得し、
前記変換部は、
前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換する、
請求項1に記載の変換装置。 - 前記変換部は、
前記重要度に基づいて、前記区間のうち一部の区間を再生しないよう前記コンテンツの再生態様を変換する、
請求項1に記載の変換装置。 - 前記変換部は、
前記区間のうち発話が含まれない区間を再生しないよう前記コンテンツの再生態様を変換する、
請求項8に記載の変換装置。 - 前記変換部によって再生態様が変換されたコンテンツを出力するよう制御する出力制御部、
をさらに備える請求項1に記載の変換装置。 - 前記出力制御部は、
前記変換部による再生態様の変換を適用するか否かを前記ユーザが任意に選択可能な態様で前記コンテンツを出力する、
請求項10に記載の変換装置。 - 前記変換部は、
前記コンテンツを再生する再生速度を前記区間ごとに変換した場合、変換した根拠となる情報である根拠情報を当該コンテンツに付与し、
前記出力制御部は、
前記変換部によって付与された前記根拠情報とともに前記コンテンツを出力する、
請求項11に記載の変換装置。 - 前記出力された前記根拠情報に対する修正を前記ユーザから受け付ける修正部をさらに備え、
前記推定部は、
前記修正部によって修正が受け付けられた場合、当該修正を前記重要度を推定する処理に反映させる、
請求項12に記載の変換装置。 - 前記取得部は、
前記コンテンツに出演する話者ごとの音声情報を取得し、
前記変換部は、
前記推定部によって推定された重要度に基づいて、前記音声情報の再生態様を前記話者ごとに変換し、
前記出力制御部は、
前記変換部によって再生態様が変換された話者ごとの音声情報を出力するとともに、当該話者ごとに設定された再生態様を前記ユーザが確認可能な態様で出力する、
請求項10に記載の変換装置。 - コンピュータが、
コンテンツと、当該コンテンツを視聴するユーザに関する情報であるユーザ情報とを取得し、
前記取得されたコンテンツの内容と、前記ユーザ情報とに基づいて、当該コンテンツの区間ごとの重要度を推定し、
前記推定された重要度に基づいて、前記コンテンツを再生する再生速度を前記区間ごとに変換する、
ことを含む変換方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022-091317 | 2022-06-06 | ||
JP2022091317 | 2022-06-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023238650A1 true WO2023238650A1 (ja) | 2023-12-14 |
Family
ID=89118296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2023/019072 WO2023238650A1 (ja) | 2022-06-06 | 2023-05-23 | 変換装置および変換方法 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023238650A1 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008130215A (ja) * | 2006-11-24 | 2008-06-05 | Sharp Corp | 自動編集装置及び自動編集方法 |
JP2009139592A (ja) * | 2007-12-05 | 2009-06-25 | Sony Corp | 音声処理装置、音声処理システム及び音声処理プログラム |
JP2009206841A (ja) * | 2008-02-28 | 2009-09-10 | Panasonic Corp | コンテンツ再生システムおよびコンテンツ再生プログラム |
JP2012175478A (ja) * | 2011-02-23 | 2012-09-10 | Hitachi Consumer Electronics Co Ltd | デジタルコンテンツ再生装置、および、メタデータ生成方法 |
JP2015027044A (ja) * | 2013-07-29 | 2015-02-05 | ソニー株式会社 | 情報処理装置、情報処理方法、並びにプログラム |
US20170270965A1 (en) * | 2016-03-15 | 2017-09-21 | Samsung Electronics Co., Ltd. | Method and device for accelerated playback, transmission and storage of media files |
US10063911B1 (en) * | 2017-11-09 | 2018-08-28 | Rovi Guides, Inc. | Methods and systems for re-integrating a PIP catch-up window with live video |
-
2023
- 2023-05-23 WO PCT/JP2023/019072 patent/WO2023238650A1/ja unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008130215A (ja) * | 2006-11-24 | 2008-06-05 | Sharp Corp | 自動編集装置及び自動編集方法 |
JP2009139592A (ja) * | 2007-12-05 | 2009-06-25 | Sony Corp | 音声処理装置、音声処理システム及び音声処理プログラム |
JP2009206841A (ja) * | 2008-02-28 | 2009-09-10 | Panasonic Corp | コンテンツ再生システムおよびコンテンツ再生プログラム |
JP2012175478A (ja) * | 2011-02-23 | 2012-09-10 | Hitachi Consumer Electronics Co Ltd | デジタルコンテンツ再生装置、および、メタデータ生成方法 |
JP2015027044A (ja) * | 2013-07-29 | 2015-02-05 | ソニー株式会社 | 情報処理装置、情報処理方法、並びにプログラム |
US20170270965A1 (en) * | 2016-03-15 | 2017-09-21 | Samsung Electronics Co., Ltd. | Method and device for accelerated playback, transmission and storage of media files |
US10063911B1 (en) * | 2017-11-09 | 2018-08-28 | Rovi Guides, Inc. | Methods and systems for re-integrating a PIP catch-up window with live video |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8818803B2 (en) | Character-based automated text summarization | |
US8392183B2 (en) | Character-based automated media summarization | |
US20090204399A1 (en) | Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program | |
US20230262287A1 (en) | Creative intent scalability via physiological monitoring | |
US20080275700A1 (en) | Method of and System for Modifying Messages | |
JP6641045B1 (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
US20200175457A1 (en) | Evaluation of actor auditions | |
US11049490B2 (en) | Audio playback device and audio playback method thereof for adjusting text to speech of a target character using spectral features | |
KR20200045852A (ko) | 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법 | |
US20220044672A1 (en) | Masking systems and methods | |
JP2018078402A (ja) | コンテンツ制作装置、及び音声付コンテンツ制作システム | |
JP4812733B2 (ja) | 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体 | |
JP2021101252A (ja) | 情報処理方法、情報処理装置およびプログラム | |
Raake et al. | Binaural evaluation of sound quality and quality of experience | |
JP4086532B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
KR20190130791A (ko) | 외국어 동영상 컨텐츠를 이용한 대화형 외국어 학습 장치 | |
WO2023238650A1 (ja) | 変換装置および変換方法 | |
JP2009260718A (ja) | 画像再生装置及び画像再生処理プログラム | |
JP6602423B6 (ja) | コンテンツ提供サーバ、コンテンツ提供端末及びコンテンツ提供方法 | |
CN112995530A (zh) | 视频的生成方法、装置及设备 | |
JP2005321706A (ja) | 電子書籍の再生方法及びその装置 | |
JP4455644B2 (ja) | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム | |
US7529464B2 (en) | Method for implementing an adaptive mixing energy ratio in a music-selected video editing environment | |
JP6627315B2 (ja) | 情報処理装置、情報処理方法、および制御プログラム | |
US20150331869A1 (en) | Method and system allowing users to easily contribute to a social composition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23819634 Country of ref document: EP Kind code of ref document: A1 |