WO2018179209A1 - 電子機器、音声制御方法、およびプログラム - Google Patents
電子機器、音声制御方法、およびプログラム Download PDFInfo
- Publication number
- WO2018179209A1 WO2018179209A1 PCT/JP2017/013231 JP2017013231W WO2018179209A1 WO 2018179209 A1 WO2018179209 A1 WO 2018179209A1 JP 2017013231 W JP2017013231 W JP 2017013231W WO 2018179209 A1 WO2018179209 A1 WO 2018179209A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- section
- reading speed
- reading
- speed
- sub
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 48
- 238000004364 calculation method Methods 0.000 claims abstract description 59
- 238000013459 approach Methods 0.000 claims abstract 2
- 238000012545 processing Methods 0.000 claims description 66
- 230000008602 contraction Effects 0.000 description 228
- 230000006870 function Effects 0.000 description 34
- 230000008859 change Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 17
- 238000004904 shortening Methods 0.000 description 16
- 230000006872 improvement Effects 0.000 description 11
- 230000033764 rhythmic process Effects 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 8
- 239000011295 pitch Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
Definitions
- the present invention relates to an electronic device that controls a voice reading speed, a voice control method, and a program.
- the voice reading of the section is completed so that the voice corresponding to the section is completed. If the speed of each is adjusted individually, the speed of the voice to be read may vary greatly depending on the section, and there is a possibility that the voice reading is difficult for the user to hear.
- the present invention has been made in order to solve the above-described problem, and an electronic device and a voice that reduce the difficulty in hearing a voice reading due to a difference in speed while completing the voice reading in a section where the voice reading should be completed.
- a control method and a program are obtained.
- the electronic device of the present invention receives input of information indicating a plurality of voices to be read out in each assigned section, and reads out in the assigned section.
- a calculation unit that calculates a speech reading speed that can be completed in each section, and a lower speed than the first reading speed of the first section in each of the sections based on the calculation result of the calculation unit.
- An adjustment unit that adjusts the second reading speed in the second section to be close to or coincides with the first reading speed; and a reading section that is adjusted by the adjusting unit in the section in which the reading speed is adjusted by the adjusting unit.
- a voice generation unit that generates a voice of a reading speed calculated by the calculation unit in a section of the speed where the reading speed is not adjusted by the adjustment unit;
- the present invention it is possible to reduce the difficulty of hearing the voice reading due to the difference in speed while completing the voice reading in the section where the voice reading should be completed.
- FIG. 3 is a block diagram illustrating an example of a hardware configuration diagram of an electronic device in Embodiment 1.
- FIG. FIG. 2 conceptually shows a content framework, read-out data, and video data in the first embodiment.
- FIG. 6 illustrates an example of a speech reading process in Embodiment 1;
- FIG. 3 is a block diagram illustrating an example of a functional configuration for executing content generation processing in the first embodiment.
- FIG. 6 shows an example of time information for each sub-scene in the first embodiment.
- FIG. 3 is a diagram illustrating an example of read-out voice information in the first embodiment.
- FIG. 5 shows an example of time length information in the first embodiment.
- FIG. 6 is a diagram illustrating an example of expansion / contraction parameter calculation processing according to the first embodiment.
- FIG. 6 is a diagram illustrating an example of an expansion / contraction parameter adjustment process in the first embodiment.
- 4 is a flowchart illustrating an example of a processing flow of content generation executed by the electronic device according to Embodiment 1.
- FIG. 9 is a block diagram illustrating an example of a functional configuration for executing content generation processing according to Embodiment 2.
- FIG. 10 is a diagram illustrating an example of expansion / contraction parameter adjustment processing according to the second embodiment. 10 is a flowchart showing an example of a processing flow of content generation executed by the electronic device in Embodiment 2.
- 9 is a flowchart illustrating an example of a processing flow for adjusting an expansion / contraction parameter executed by the electronic device according to the second embodiment.
- FIG. 9 is a block diagram illustrating an example of a functional configuration for executing content generation processing according to Embodiment 3.
- FIG. 10 shows an example of expansion / contraction parameter adjustment processing in the third embodiment.
- FIG. 10 shows an example of expansion / contraction parameter adjustment processing in the third embodiment.
- 14 is a flowchart illustrating an example of a processing flow of content generation executed by the electronic device in Embodiment 3.
- 10 is a flowchart illustrating an example of a processing flow for adjusting an expansion / contraction parameter executed by the electronic device according to Embodiment 3.
- FIG. 9 is a block diagram illustrating an example of a hardware configuration diagram of an electronic device in Embodiment 4.
- Embodiment 1 FIG. First, a hardware configuration according to the present embodiment will be described.
- FIG. 1 is a block diagram illustrating an example of a hardware configuration of an electronic device according to the present embodiment.
- the electronic device 10 is a device that executes information processing by a built-in processor 110 or the like.
- a specific example of the electronic device 10 may be a PC (Personal Computer), but is not limited thereto.
- information processing such as a server, a tablet, a smartphone, a digital TV (Television), or an optical disc player is executed.
- Various products are possible.
- the electronic device 10 includes a processor 110, a memory 120, a storage 130, a display 140, a speaker 150, a communication unit 160, an input unit 170, a microphone 180, and a bus 190.
- the processor 110 is an arithmetic processing device that controls the entire electronic device 10.
- the processor 110 has a function of generating a reading voice based on the content generation program 131, the voice generation program 132, the language dictionary 133, and the voice dictionary 134 stored in the storage 130, and generating contents including the voice.
- the processor 110 is a central processing unit (Central / Processing / Unit) of the electronic device 10 and has a function of processing information, but can be called by various names such as a control unit (Controller) and a processing unit (Processor). Further, the processor 110 does not need to be configured as one circuit, a control unit, or a processing unit as hardware, but is configured with one or more circuits, a control unit, or a processing unit.
- the memory 120 is a volatile storage device (storage medium) composed of a semiconductor called RAM (Random Access Memory), for example, and an area in which a program is expanded when the processor 110 executes various programs, and various caches. And used as a buffer.
- RAM Random Access Memory
- the storage 130 is a large-capacity nonvolatile storage device (medium) exemplified by an HDD (Hard Disk Drive) or an SSD (Solid State Disk), for example, and executes various programs executed by the processor 110 and each program. Data to be referred to by the processor 110 is stored.
- a content generation program 131 and an audio generation program 132 are stored in the storage 130 as programs.
- the content generation program 131 in which the language dictionary 133 and the speech dictionary 134 are stored in the storage 130 as data referred to by the processor 110 is a program executed by the processor 110 and is software having a function of generating content.
- the content here is video / audio data in which video and audio are synchronized and can be reproduced by, for example, a video reproduction program.
- the voice generation program 132 is a program executed by the processor 110, and is software having a function of generating voice based on the language dictionary 133, the voice dictionary 134, and the like, which are information used to generate voice. .
- the language dictionary 133 is a database including information such as reading of text data and accents.
- the language dictionary 133 is referred to when the electronic device 10 performs conversion from arbitrary text data to text data representing a reading method.
- the speech dictionary 134 is a database that stores speech units or acoustic parameters necessary for generating speech data. If the speech synthesis method is a method of performing speech synthesis by connecting while transforming speech (waveform) in the database, the speech dictionary 134 includes speech segments. A speech segment is speech data (waveform data) composed of sentence units, phrase units, syllable units, phoneme units, and the like necessary for generating a reading speech. If the speech synthesis method is a method for generating a waveform without using human speech, such as the formant synthesis method, the speech dictionary 134 includes acoustic parameters necessary for waveform generation. The acoustic parameter is information indicating the frequency of words included in the language dictionary 133 and the reading speed.
- the display 140 is a display device (display means) such as an LCD (Liquid Crystal Display) or an OELD (Organic Electroluminescence Display) provided to be exposed from the housing of the electronic device 10.
- the display 140 has a function of displaying an image instructed to be displayed from the processor 110.
- the speaker 150 is a device that changes the electrical signal into physical vibration based on a voice output instruction from the processor 110 and outputs a voice.
- the communication unit 160 is a communication device that communicates with other devices by a built-in antenna, for example, by a wireless LAN (Local Area Network).
- a wireless LAN will be described as an example.
- the present invention is naturally not limited to this, and communication with other devices may be performed according to another wireless communication standard, or communication may be performed via a wired LAN.
- the communication unit 160 may be a communication device that performs communication with other devices via a mobile communication network such as 3G (3rd generation) or LTE (long term evolution).
- the input unit 170 is a keyboard that allows the user to input character data.
- the microphone 180 is a sound collecting device (microphone) that converts ambient sound into an electric signal and inputs the electric signal to the electronic device 10.
- the bus 190 is a transmission circuit having a function of connecting the connected components so that they can communicate with each other.
- the electronic device 10 receives, for example, a content framework, reading data, and video data from the communication unit 160, and generates reading voice based on the reading data.
- the electronic device 10 has a function of generating and outputting content obtained by synchronizing audio data of read-out sound generated based on video data and read-out data based on the content framework. Below, these content frameworks, reading data, video data, etc. will be described.
- FIG. 2 is a diagram conceptually showing the content framework, read-out data, and video data in the present embodiment.
- the content framework 301 is data having a content time table used when the electronic device 10 generates content.
- the content time table defines the time frame (separation, sub-scene) of video and audio in the content.
- the read-out data 302 is data indicating the text read out in the content.
- the read-out data 302 is, for example, arbitrary text data, which may include kanji, alphabets, numbers, symbols, or the like.
- the video data 303 is video information used for generating content.
- Various formats are conceivable as the format of the video data 303, but any format may be used as long as the electronic device 10 can generate content.
- the content framework 301, the read-out data 302, and the video data 303 are managed based on a section in which video and audio are synchronized. That is, the read-out data 302 can be referred to as information indicating a plurality of sounds read out in each assigned section. Also, the video data 303 can be called information indicating a plurality of videos displayed in each assigned section.
- a sub-scene is a partial section of content that is divided at a timing at which a user who provides the content can easily understand the content, or a partial section of content that indicates a series of intentions that the content should indicate.
- the data format of the read-out data 302 is a format in which a sub-scene number is associated with audio text data read out in the sub-scene.
- the data format of the video data 303 is a format in which a sub-scene number is associated with video data displayed in the sub-scene.
- FIG. 3 is a diagram showing an example of a speech reading process in the present embodiment.
- the electronic device 10 generates sound based on the reading data 302.
- voice generation is performed based on the reading data 302, the language dictionary 133, and the voice dictionary 134.
- the voice generation process will be described in detail later, but the voice generated based on these has an initial speed value (default). Voice that has not been speed-adjusted is generated and played at an initial speed, and the playback time of the played voice is generally long when the sentence is long and short when the sentence is short.
- the electronic device 10 can generate content by generating read-out sound using three sound-reading methods.
- these three voice reading systems are referred to as voice reading patterns 1 to 3.
- the electronic device 10 can generate a voice by three voice reading methods.
- the configuration may be such that the reading voice can be generated by one or two reading patterns including the voice reading pattern 3 such that only the reading pattern 3 can be executed.
- the voice reading pattern 1 is a method of reading voice at an initial speed. As shown in FIG. 3, when the voice is read out with the initial value, the reading time required for reading basically becomes longer according to the number of characters to be read out. For example, since the sub-scene 3 has a large number of characters, it takes 8 seconds to read out the voice at the initial reading speed. For this reason, the audio reading of the sub-scene 3 does not enter the sub-scene 3 section that ends in 6 seconds, and even after the sub-scene 3 section ends (even after the display of the video of the sub-scene 3 ends) This means that speech is being read aloud. In such a case, voice reading continues even after the corresponding video ends, so it is difficult for the user viewing the content to recognize the correspondence between the video and voice, and the voice reading pattern 1 is confusing to the user. May occur.
- the voice reading pattern 2 when the voice is read at the initial speed, the speed is adjusted so that the reading voice that exceeds the sub-scene falls within the sub-scene section.
- This is a method for executing reading.
- the electronic device 10 since the speech reading is completed in each sub-scene section except for the sub-scene 3, the electronic device 10 does not change the reading speed in the section other than the sub-scene 3.
- the speech reading time exceeds the sub-scene section at the initial speed, so the electronic device 10 changes the speech reading speed so that the speech reading is completed within the sub-scene 3 section.
- the initial value is read out, it takes 8 seconds to read out the sound of the sub-scene 3.
- the electronic device 10 can read the sub-scene so that it can be read out in 6 seconds. Accelerates the voice reading of scene 3. As a result, the speech reading is completed while the corresponding video is displayed for all the sub-scenes, and the user is not confused.
- this reading pattern only the sub-scene 3 has a high voice reading speed, and the voice reading speed greatly changes between the other sub-scenes and the sub-scene 3, so that the user feels uncomfortable or difficult to hear. There is a possibility that it becomes a voice.
- the voice reading pattern 3 is a voice reading method in which the improvement of the voice reading speed after speed adjustment is applied to the voice reading of other sub scenes in the same manner to accelerate the voice reading of other sub scenes.
- the voice reading speed of the sub scene 3 when the voice reading speed of the sub scene 3 is improved so as to fit in the section of the sub scene 3, the sub scenes 1, 2, and 4 originally included in the sub scene section are also similar to the sub scene 3.
- Improve speech reading speed For example, when 33% of speech reading is accelerated in order to keep the sub-scene 3 speech reading within the sub-scene section, the electronic device 10 also reads 33% speech-reading in the sub-scenes 1, 2, and 4 as well. Accelerate. This unifies the speed of speech reading throughout. For this reason, the sound of each sub-scene falls within the time of each sub-scene, and further, the user feels uncomfortable and difficult to hear due to a change in the reading speed.
- the electronic device 10 can appropriately determine a sub-scene group that matches the reading speed as described above.
- the voice reading speed may be unified in all sub-scenes included in the content, or the reading speed may be unified in a predetermined section (for example, only sub-scenes 2 to 4) in the content. .
- FIG. 4 is a block diagram showing an example of a functional configuration for executing content generation processing in the present embodiment.
- the electronic device 10 has a function of generating and outputting content including video and audio based on the content framework 301, the reading data 302, and the video data 303.
- the electronic device 10 generates sound based on the read-out data 302 to generate read-out sound audio data, and generates content synchronized with the generated sound data and the video data 303.
- the content generation program 131 and the audio generation program 132 stored in the storage 130 are executed by the processor 110, and the language dictionary 133 and the audio dictionary 134 are expanded in the memory 120 for processing by the processor 110. Be utilized.
- FIG. 4 the configuration of each function of the content generation program 131 and the audio generation program 132 executed by the processor 110 is shown by blocks.
- the processor 110 acquires the content framework 301, the reading data 302, and the video data 303 received by the communication unit 160.
- the case where the content framework 301, the reading data 302, and the video data 303 are received from the communication unit 160 will be described as an example.
- the present invention is not limited to this.
- a medium such as an optical medium may be read and used.
- the content framework 301 may be stored in advance in the storage 130 and the read-out data 302 and the video data 303 may be acquired via the communication unit 160. Moreover, you may acquire information by the method of combining these methods.
- the sub-scene time setting unit 201 of the content generation program 131 has a function of receiving the content framework 301, the reading data 302, and the video data 303 and acquiring the sub-scene time length information 501 from the content framework 301. Yes.
- the sub-scene time length information 501 is information in which each sub-scene is associated with the time length information of the sub-scene, and the sub-scene time length here is the sub-scene time length. The length of time from the start to the end.
- the sub-scene time setting unit 201 transmits the reading data 302 to the sound generation unit 202 and the sub-scene time length information 501 to the expansion / contraction parameter calculation unit 204.
- the sound generation unit 202 has a function of generating read sound information 601 for each sub scene based on the read data 302 acquired from the sub scene time setting unit 201.
- the read-out sound information 601 for each sub-scene is information indicating a sound waveform generated at an initial value (default) speed, and the sub-scene to be reproduced and the waveform information are associated with each other.
- the speech generation unit 202 performs language analysis by morphological analysis on the reading data 302 that is text data, and then determines a phrase unit to be read from the analysis result.
- the speech generation unit 202 refers to the language dictionary 133 to determine the reading and accent position for each phrase unit. Further, the speech generation unit 202 predicts a pause position in the sentence based on the reading and accent position determined in units of phrases, and thereafter, intonation (pitch period series) and rhythm (phoneme of phonemes) for sentences including a plurality of phrase units. Determine the duration).
- the voice generation unit 202 determines the initial value (default) speed of the reading voice by determining the intonation and rhythm.
- the speech generation unit 202 selects speech segments that match the reading, accent, pose position, intonation, and rhythm determined by the above processing from the speech dictionary 134 and connects the waveforms of these speech segments to the waveform. To generate a speech waveform.
- the techniques shown in Reference Document 1 and Reference Document 2 may be used.
- Reference 1 Japanese Patent Laid-Open No. 2002-333896
- Reference 2 Japanese Patent Laid-Open No. 2003-44073
- PSOLA Pitch-Synchronous Overlap and Add
- determine the arrangement position in consideration of the shape of the edge of the preceding waveform and the shape of the edge of the following waveform (for example, the position where the correlation value in pitch units increases) May be processed so as to overlap (add and average).
- the sound generation unit 202 has a function of generating read-out sound information 601 for each sub-scene shown in FIG. 6 by the above-described method and transmitting it to the time length calculation unit 203.
- the time length calculation unit 203 has a function of calculating the reading time length of each reading sound when the reading sound information 601 for each sub-scene input from the sound generation unit 202 is reproduced.
- the time length calculation unit 203 simulates the time for reading out the read-out sound information 601 for each sub-scene, and shows the read-out time length required when the sound for each sub-scene is reproduced at the initial speed.
- the time length information 701 shown in FIG. 5 is calculated, and the time length information 701 is transmitted to the expansion / contraction parameter calculation unit 204.
- the time length calculation unit 203 may calculate the sound time by analyzing the read data 302 instead of calculating the sound reproduction time by calculating the sound reproduction time. When analyzing the read-out data 302, the time length calculation unit 203 may calculate the time of the sound from the header information or the data length of the read-out data 302.
- the sound generation unit 202 generates the read-out sound information 601, and based on the read-out sound information 601, the time length calculation unit 203 calculates a read-out time length required when the sound for each sub-scene is reproduced.
- the sound generation unit 202 does not generate the sound waveform itself, and the time length calculation unit 203 generates information necessary for calculating the time length required when the sound for each sub-scene is reproduced, It may be transmitted to the length calculation unit 203.
- information necessary for calculating the time length for example, information of a combination of an utterance character, an accent symbol, a pause symbol, a control symbol, and the like representing how to read out speech can be considered.
- the time required to read out the information is determined at the initial speed, and the time length calculation unit 203 adds the time required to read out each utterance character and the like when each voice read out is reproduced. It is possible to calculate the time required for.
- the expansion / contraction parameter calculation unit 204 calculates the expansion / contraction parameter based on the reading time length information 701 for each sub-scene input from the time length calculation unit 203 and the sub-scene time length information 501 input from the sub-scene time setting unit 201. It has a function to do.
- the expansion / contraction parameter is the ratio of the time required for the reading after the speed improvement to the time required for the reading before the speed improvement (at the initial reading speed) when the speed of the voice reading is improved. For example, in the case of voice reading that takes 8.0 seconds to read out at the initial value, when the reading speed is improved so that the reading time becomes 6.0 seconds, the ratio is 0.75, so the expansion / contraction parameter is 0.75.
- the expansion / contraction parameter can also be defined as the reciprocal of the ratio of the reading speed after the speed improvement (speed improvement rate) to the reading speed before the speed improvement. That is, as the expansion / contraction parameter value decreases, the improvement rate of the speech reading speed increases, and as a result, the reading speed after the speed change increases.
- the expansion / contraction parameter calculation unit 204 directly calculates the expansion / contraction parameter, but as described above, the expansion / contraction parameter is the reciprocal of the speed improvement rate from the initial speed to the speed for completing reading in the section. Since the initial value of the reading speed is determined by the voice generation unit 202, when the expansion / contraction parameter is determined, the reading speed after the speed change is also uniquely determined. In other words, the expansion / contraction parameter calculation unit 204 calculates the expansion / contraction parameter, thereby substantially calculating the reading speed after the speed change. In other words, the expansion / contraction parameter calculation unit 204 can also be said to be a calculation unit that calculates the speech reading speed at which reading can be completed within the allocated section in each section.
- the expansion / contraction parameter calculation unit 204 when it is necessary to improve the speed of the speech to read out in the corresponding sub-scene (when the time length of the sub-scene is shorter than the time length of the speech at the initial speed), A value obtained by dividing the time length of the sub-scene by the initial reading time length is calculated as the expansion / contraction parameter.
- the speed of the read-out sound is not required to complete the reading in the corresponding sub-scene (when the time length of the sub-scene is equal to or longer than the read-out time length at the initial speed)
- the sound is set to the initial value. Therefore, the expansion / contraction parameter is calculated as “1” (see FIG. 8).
- the electronic device 10 has a function of changing the reading speed of the voice reading. Then, the voice reading speed changing process is executed based on the expansion / contraction parameter.
- the expansion / contraction parameter calculation unit 204 calculates expansion / contraction parameter information 801 for each sub-scene, and transmits the calculated expansion / contraction parameter information 801 to the expansion / contraction parameter adjustment unit 205.
- the expansion / contraction parameter adjustment unit 205 determines the expansion / contraction rate (in other words, the reading rate change rate) of the audio reading time of each sub-scene based on the expansion / contraction parameter information 801 for each sub-scene input from the expansion / contraction parameter calculation unit 204. It has a function to adjust.
- the expansion / contraction parameter adjustment unit 205 according to the present embodiment applies (matches) the expansion / contraction parameters of the sub-scene with the smallest expansion / contraction parameter (the fastest reading speed) to the expansion / contraction parameters of the other sub-scenes.
- Parameter information 901 is output (see FIG. 9).
- the sub-scene with the smallest expansion / contraction parameter is a sub-scene that is read out at the fastest reading speed
- the expansion / contraction parameter adjustment unit 205 applies this expansion / contraction parameter to the expansion / contraction parameters of other sub-scenes. That is, the expansion / contraction parameter adjustment unit 205 matches the reading speed of the other sub scene with the reading speed of the sub scene having the fastest reading speed.
- the expansion / contraction parameter adjustment unit 205 is also an adjustment unit that adjusts the second reading speed of the second section, which is slower than the first reading speed of the first section, to match the first reading speed. Can be called.
- the expansion / contraction parameter adjustment unit 205 can appropriately set the range of the sub-scene for adjusting the expansion / contraction parameter. For example, when unifying the audio speed for the entire content, the expansion / contraction parameter adjustment unit 205 detects the sub-scene with the fastest reading speed for the entire content, and matches the reading speed of other sub-scenes with this sub-scene. Let Further, when the audio speed is unified in a predetermined plurality of sub-scenes, the expansion / contraction parameter adjustment unit 205 detects the sub-scene having the fastest reading speed for the predetermined plurality of sub-scenes, and reads out the other sub-scenes. Match the speed to this fastest reading speed.
- the expansion / contraction parameter adjustment unit 205 sets the reading speed of the sub-scene 3 that is the sub-scene with the highest reading speed to the sub-scene 2
- the expansion / contraction parameter is adjusted so as to be applied to 4 and 4, and this is not applied to the sub-scene 1.
- the expansion / contraction parameter adjustment unit 205 transmits the adjustment expansion / contraction parameter information 901 to the adjusted sound generation unit 206.
- the post-adjustment voice generation unit 206 has a function of generating a read-out voice that is speed-adjusted using the value of the adjustment expansion / contraction parameter information 901.
- the post-adjustment audio generation unit 206 adjusts the speed of the read-out sound so that the playback time becomes the initial adjustment expansion / contraction parameter times for each sub-scene and generates the read-out sound.
- the post-adjustment sound generation unit 206 generates a read-out sound at a speed at which the improvement rate from the initial value of the read-out speed is an inverse number of the adjustment expansion / contraction parameter.
- the electronic device 10 in the present embodiment changes the speed of the reading voice in the section so that it falls within the sub-scene section. This change (change in the rate of change in the voice reading speed or change in the rate of change in the voice reading time) is also applied to the voice reading of other sub-scenes.
- the adjusted voice generation unit 206 newly generates a reading voice using the language dictionary 133 and the voice dictionary 134 so as to achieve the above speed.
- the adjusted speech generation unit 206 receives information on the text reading, accent, pose position, intonation, and rhythm determined by the speech generation unit 202 from the speech generation unit 202, and changes the intonation and rhythm to increase the reading speed. Change to the speed after the above adjustment, select the speech unit that matches the changed intonation and rhythm and the reading, accent, and pose position of the sentence from the speech dictionary 134, and connect the waveforms of these speech units to the waveform. To generate a read-out voice waveform after changing the speed.
- the post-adjustment voice generation unit 206 may adjust intonation (pitch average value or variance value) according to the change in the speech speed of the read-out voice. For example, when the speech speed is increased, it is possible to suppress changes in perceptual speech speed by lowering the average value of pitches or increasing the variance of pitches.
- a statistical model or mapping table that learns the relationship between changes in speech speed and perceptual intonation may be prepared, and intonation control may be performed in accordance with the amount of change in speech speed.
- the pitch may be controlled to change when the amount of change in speech speed exceeds a preset threshold.
- the post-adjustment audio generation unit 206 transmits the generated read-out audio data to the content generation unit 207.
- the content generation unit 207 has a function of generating content based on the content framework 301 and the video data 303 input from the sub-scene time setting unit 201 and the information of the read-out audio data input from the adjusted audio generation unit 206 have. Based on the content framework 301, the content generation unit 207 generates content by synchronizing audio and video corresponding to each sub-scene. Here, based on the sub-scene number included in the read-out data 302 or the video data 303, the video data 303 corresponding to the sub-scene and the read-out audio data are determined from the time corresponding to the sub-scene number determined by the content framework 301. The synchronization process is executed so that playback starts simultaneously.
- the start time of the video data 303 and the read-out audio data may be determined based on the sub-scene number as described above, and may be synchronized, or the reproduction of the original video data 303 and the read-out data 302 is started.
- the synchronization process may be executed so that the video data 303 and the read-out audio data are started to be reproduced from the time determined by the time stamp.
- the content may be in a format that can be played back by a moving image player or the like conforming to a standard such as MPEG.
- the content generation unit 207 may store the generated content as it is in the storage 130, or reproduce the content generated by itself and output video and audio from the display 140 and the speaker 150, respectively.
- FIG. 10 is a flowchart illustrating an example of a processing flow of content generation executed by the electronic device 10 according to the present embodiment.
- the processor 110 acquires the content framework 301, the read-out data 302, and the video data 303 via the communication unit 160 or the like (step ST1001) and passes them to the sub-scene time setting unit 201.
- the sub-scene time setting unit 201 acquires the sub-scene time length information 501 from the content framework 301 (step ST1002), reads the read-out data 302 to the sound generation unit 202, and the sub-scene time length information 501 to the expansion / contraction parameter. It transmits to the calculation part 204.
- the voice generation unit 202 to which the read-out data 302 is input generates read-out voice information 601 at the initial speed based on the read-out data 302 (step ST1003) and sends it to the time length calculation unit 203.
- the time length calculation unit 203 calculates the sound read-out time length necessary for reproducing the sound at the initial value speed in each sub-scene (step ST 1004), and the calculated time length Information 701 is transmitted to the expansion / contraction parameter calculation unit 204.
- the expansion / contraction parameter calculation unit 204 performs expansion / contraction for each sub-scene based on the time length information 701 input from the time length calculation unit 203 and the sub-scene time length information 501 input from the sub-scene time setting unit 201.
- Parameter information 801 is calculated (step ST1005).
- the expansion / contraction parameter calculation unit 204 transmits the calculated expansion / contraction parameter information 801 to the expansion / contraction parameter adjustment unit 205.
- the expansion / contraction parameter adjustment unit 205 to which the expansion / contraction parameter information 801 is input adjusts the expansion / contraction parameters so that the expansion / contraction parameters of the sub-scene having the smallest expansion / contraction parameter (the fastest reading speed) are applied to the expansion / contraction parameters of other sub-scenes. (Step ST1006), and outputs the adjusted expansion / contraction parameter information 901, which is the adjusted expansion / contraction parameter, to the adjusted sound generation unit 206.
- the adjusted speech generation unit 206 uses the value of the adjustment expansion / contraction parameter information 901, the reading of the text received from the speech generation unit 202, the information on the accent, pose position, intonation, and rhythm, and the read-out speech that has been speed-adjusted. Audio data is generated (step ST1007). Next, the adjusted sound generation unit 206 transmits the generated read-out sound data subjected to the speed adjustment to the content generation unit 207.
- the content generation unit 207 synchronizes the content framework 301 and video data 303 input from the sub-scene time setting unit 201 with the read-out audio data input from the adjusted audio generation unit 206 according to the content framework 301.
- content is generated (step ST1008), and the content is reproduced, and video and audio are output from the display 140 and the speaker 150, respectively (step ST1009).
- step ST1006 If the function of the expansion / contraction parameter adjustment unit 205 is turned off and the expansion / contraction parameter information 801 of each sub-scene is not adjusted (if step ST1006 is skipped), the content that has been read out by the speech pattern 2 can be generated. Further, if the functions of the time length calculation unit 203, the expansion / contraction parameter calculation unit 204, and the adjusted sound generation unit 206 are turned off and the processing from step ST1004 to step ST1007 is skipped, the content that has been read out by the speech of the reading pattern 1 is generated. can do.
- the expansion / contraction parameter calculation unit 204 calculates an expansion / contraction parameter
- the expansion / contraction parameter adjustment unit 205 adjusts the expansion / contraction parameter.
- the expansion / contraction parameter calculated by the expansion / contraction parameter calculation unit 204 is the ratio of expansion / contraction of the voice reading time for the voice reading to be included in the sub-scene section as described above, and the voice reading is performed in the sub-scene section from the initial voice reading speed. Is the reciprocal of the rate of speed change to the voice reading speed for the Since the initial reading speed before the change is determined by the voice generation unit 202, the expansion / contraction parameter calculation unit 204 calculates the voice reading speed for the voice reading to fall within the sub-scene section by calculating the expansion / contraction parameters. It can be said that Further, since the expansion / contraction parameter adjustment unit 205 adjusts the expansion / contraction parameter, it can be said that the speed of reading aloud is adjusted.
- the reading data 302 is exemplified as being input from the communication unit 160.
- the present invention is not limited to this.
- text data may be input from the input device 170 (keyboard) of the electronic device 10 and read out. Good.
- the read-out data 302 is text data and the electronic device 10 generates voice data by referring to the language dictionary 133 and the voice dictionary 134
- the read-out data may be acquired in the form of an ID (Identifier).
- the sound generation unit 202 and the adjusted sound generation unit 206 acquire a database in which the ID and the sound information are stored in association with each other from the storage 130, and generate the sound information based on the ID.
- the read-out data may be text data based on human speech acquired via the microphone 180.
- a known speech recognition technique may be used, and various techniques such as DP matching (Dynamic Programming-Matching), HMM (Hidden-Markov Model) method, and neural network method may be considered.
- DP matching Dynamic Programming-Matching
- HMM Hidden-Markov Model
- the electronic device 10 adjusts the speed of the reading voice by changing the intonation and rhythm, but the present invention is not limited to this.
- the speed of speech reading can be improved by adjusting the length of a non-speech segment that is a segment without speech in the speech to be read.
- the processor 110 estimates a section where the power of the speech signal is equal to or less than a threshold in the sub-scene section as a non-speech section, and the adjusted speech generation unit 206 generates a speech waveform with a shortened time of the non-speech section. By doing so, the time from the start of reading aloud to the completion of reading is shortened.
- the speech rate of the speech segment in the speech in each sub-scene does not change, but the time of the non-speech segment is shortened, The time from the start of speech reading to the completion of reading is shortened.
- the speed of reading out the voice is improved by reducing the time from the start to the end for reading the same sentence amount.
- the non-speech section may be simply shortened, or a part thereof may be omitted to reduce the insertion frequency.
- a known technique such as Reference 4 can be used. When configured in this way, it is possible to reduce a decrease in syllable recognition due to a change in speech speed.
- Reference 4 Japanese Patent Laid-Open No. 2013-160973 It is also possible to execute both speed adjustment of the speech speed and length adjustment of the non-speech section. By configuring in this way, it is possible to improve the speed of speech reading with little deterioration in consideration of the understanding of the meaning and the recognition of syllables in an integrated manner.
- the electronic device 10 of the present embodiment can be applied to the control of reading aloud when synchronizing the robot operation and the voice.
- a series of operation sections of the robot may be set as sections for which reading is to be completed.
- the sub-scene time setting unit 201 acquires time information of a series of motion sections of the robot, and the expansion / contraction parameter calculation unit 204 is based on the motion sections and the reading voice information 601 in the motion section. Adjust the voice expansion and contraction parameters so that reading is complete.
- the adjusted voice generation unit 206 generates a reading voice with a speed based on the adjusted expansion / contraction parameter, and the processor 110 generates a voice for the robot operation so that the robot operation start time and the voice reading start time have the same timing. Synchronous reading is output.
- the speed at which speech reading can be completed in each section is calculated, and the speech reading at a slow reading speed is adjusted to match the fast reading speed based on the calculation result.
- all the target sections are within the section to be completed. In this way, it is possible to reduce difficulty in hearing the voice due to a change in the speed of the voice reading.
- Embodiment 2 FIG. Next, a second embodiment of the present invention will be described.
- the electronic device 10 does not improve the reading speed of each sub-scene uniformly when executing the speed adjustment of the voice reading-out, but instead of improving the speed change between the sub-scenes. Adjust the reading speed individually. This process will be described with reference to the drawings.
- FIG. 11 is a block diagram illustrating an example of a functional configuration for executing content generation processing in the present embodiment.
- the voice generation program 1101 has tolerance information 1103.
- the tolerance information 1103 is information regarding the tolerance of the expansion / contraction parameter allowed between the sub-scenes.
- the tolerance information 1103 includes information on the difference in expansion / contraction parameters of each sub-scene permitted in the entire content and information on the difference in expansion / contraction parameters permitted between adjacent sub-scenes (adjacent sections).
- the expansion / contraction parameter adjustment unit 1102 has a function of adjusting the expansion / contraction parameters so that the difference between the expansion / contraction parameters of each sub-scene is equal to or less than the difference permitted by the tolerance information 1103.
- FIG. 12 is a diagram showing an example of the expansion / contraction parameter adjustment processing in the present embodiment.
- the expansion / contraction parameter adjustment unit 1102 adjusts the expansion / contraction parameters of each sub-scene based on the expansion / contraction parameter information 801 and the tolerance information 1103 input from the expansion / contraction parameter calculation unit 204.
- the tolerance information 1103 of the present embodiment is data indicating that the tolerance of the expansion / contraction parameter for the entire content is 0.2, and the tolerance of the expansion / contraction parameter between adjacent sub-scenes is 0.1.
- the tolerance information 1103 stipulates that the expansion / contraction parameter is adjusted so that the difference between the maximum value and the minimum value of the expansion / contraction parameter for each sub-scene included in the entire content is 0.2 or less.
- the tolerance information 1103 stipulates that the expansion / contraction parameters are adjusted so that the difference in expansion / contraction parameters between adjacent sub-scenes is 0.1 or less.
- the expansion / contraction parameter adjustment unit 1102 adjusts the expansion / contraction parameters of each sub-scene as defined by the tolerance information 1103.
- the expansion / contraction parameter adjusting unit 1102 causes the difference between the expansion / contraction parameters to be 0.2. Adjust the expansion / contraction parameter of sub-scene 4 to 0.9. As a result of this processing, the difference in the expansion / contraction parameters between all the sub-scenes (three or more sections) is 0.2 or less, so the overall adjustment processing is as described above.
- the expansion / contraction parameter adjustment unit 1102 calculates the difference between the expansion / contraction parameters between adjacent sub-scenes, and adjusts the larger value when the expansion / contraction parameter difference between adjacent sub-scenes is greater than 0.1. That is, in FIG. 12, the expansion / contraction parameter adjustment unit 1102 adjusts the expansion / contraction parameter of sub-scene 2 to 0.8 so that the difference from the expansion / contraction parameter of sub-scene 1 is 0.1 or less. Further, the expansion / contraction parameter of sub-scene 4 is adjusted to 0.88 so that the difference from the expansion / contraction parameter of sub-scene 3 is 0.1 or less.
- the expansion / contraction parameter adjustment unit 1102 adjusts the expansion / contraction parameters as described above, and transmits the adjustment expansion / contraction parameter information 1201 to the adjusted sound generation unit 206. Thereafter, the electronic device 10 generates read-out voice data based on the adjustment expansion / contraction parameter information 1201 as in the first embodiment, and generates and outputs content.
- FIG. 13 is a flowchart illustrating an example of a processing flow of content generation executed by the electronic device 10 according to the present embodiment.
- step ST1306 the expansion / contraction parameter adjustment unit 1102 to which the expansion / contraction parameter information 801 has been input, adjusts the expansion / contraction parameters based on the expansion / contraction parameter information 801 and the tolerance information 1103. I do.
- FIG. 14 is a flowchart illustrating an example of a processing flow of adjustment of the expansion / contraction parameter executed by the electronic device 10 according to the present embodiment.
- the expansion / contraction parameter adjustment unit 1102 is based on the expansion / contraction parameter information 801 and the tolerance information 1103 input from the expansion / contraction parameter calculation unit 204, and the expansion / contraction parameter tolerance in the entire tolerance information 1103.
- a sub-scene that does not fit in is detected (step ST1401).
- the expansion / contraction parameter adjustment unit 1102 detects a sub-scene that does not fall within the tolerance of the expansion / contraction parameters in the entire tolerance information 1103 with the minimum expansion / contraction parameter as a reference. That is, a sub-scene in which the difference from the minimum expansion / contraction parameter is equal to or larger than the expansion / contraction parameter tolerance in the entire tolerance information 1103 is detected.
- the expansion / contraction parameter adjustment unit 1102 adjusts the value of the expansion / contraction parameter of the higher one (which is not the minimum value) so that the difference between the expansion / contraction parameters of the detected sub-scene falls within the tolerance of the entire content (step ST1402). ).
- the value of the higher expansion / contraction parameter is adjusted to be the sum of the minimum expansion / contraction parameter value and the entire content tolerance value.
- the expansion / contraction parameter adjustment unit 1102 enters adjustment processing for the expansion / contraction parameters of the adjacent sub-scene, and adjusts the expansion / contraction parameters of the sub-scene adjacent to the sub-scene of the minimum value to a value that falls within the tolerance of the adjacent sub-scene ( Step ST1403).
- the expansion / contraction parameter adjustment unit 1102 detects a sub-scene having the next smallest expansion / contraction parameter value after the sub-scene used as the adjustment reference (step ST1404), and falls within the tolerance of adjacent sub-scenes.
- the expansion / contraction parameter of the sub-scene adjacent to this sub-scene is adjusted (step ST1405) (adjustment is performed so that the expansion / contraction parameter of the adjacent sub-scene is lowered to within a tolerance).
- the expansion / contraction parameter adjustment unit 1102 adjusts the value of the higher expansion / contraction parameter so that the difference in value between adjacent sub-scenes is 0.1.
- step ST1406: No If the expansion / contraction parameter adjustment unit 1102 does not determine that all sub-scenes have been confirmed (step ST1406: No), the process flow returns to step ST1404, and the expansion / contraction parameter adjustment unit 1102 determines that all sub-scenes have been confirmed. If so (step ST1406: Yes), the process flow of the expansion / contraction parameter adjustment process ends.
- the tolerance information 1103 defines the tolerance of the expansion / contraction parameter between the entire content and the adjacent sub-scene.
- the tolerance information 1103 is not limited to this.
- the tolerance information defines a tolerance in a plurality of sub-scenes included in a predetermined period. You may do that.
- the tolerance information 1103 may specify a tolerance between distant sub-scenes.
- the tolerance information 1103 may specify tolerances for different contents.
- the expansion / contraction parameter adjustment unit 1102 performs adjustment of the expansion / contraction parameter.
- this adjustment processing substantially adjusts the reading speed of each sub-scene. It is synonymous with being.
- the change in the speed of the read-out voice is not made uniform, but the change in the read-out speed for each sub-scene can be set to an amount of change that does not disturb human hearing.
- the initial value is set for a sub-scene that does not need to change the reading speed so much (sub-scene that does not affect the difficulty of hearing). Can be read out at a speed close to that, and each read-out voice for each sub-scene is close to the initial speed and may be easily heard by the user.
- the amount of change in the speed of the reading sound of the adjacent sub-scene can be suppressed small while the effect that the reading sound of each sub-scene becomes easy for the user to hear is effective. Can reduce the sense of incongruity and difficulty in hearing.
- Embodiment 3 FIG. Next, a third embodiment of the present invention will be described.
- the electronic device 10 adjusts the expansion / contraction parameter based on the content of the voice to be read out. Specifically, for a sentence that the listener is familiar with, even if the speed of speech reading is increased, the listener can easily understand the content. To do. In addition, the read-out sound including important information is adjusted for expansion / contraction parameters so as not to increase the read-out speed too much. This process will be described below with reference to the drawings.
- FIG. 15 is a block diagram illustrating an example of a functional configuration for executing content generation processing in the present embodiment.
- the voice generation program 1501 has special handling information 1503.
- Special handling information 1503 is information (priority shortening information) for discriminating sub-scenes that are prioritized to improve the reading speed over other sub-scenes, and adjustment of expansion / contraction parameters based on the expansion / contraction parameters of other sub-scenes. Information (non-adjustment information) for discriminating sub-scenes not to be performed.
- the sub-scene time setting unit 1505 of the content generation program 1504 has a function of transmitting read-out data 302 to the expansion / contraction parameter adjustment unit 1502.
- the expansion / contraction parameter adjustment unit 1502 adjusts the expansion / contraction parameters of each sub-scene based on the priority shortening information and the non-adjustment information included in the reading data 302 and the special handling information 1503 transmitted from the sub-scene time setting unit 1505. It has a function to do.
- FIG. 16 is a diagram showing an example of the expansion / contraction parameter adjustment processing in the present embodiment.
- the expansion / contraction parameter adjustment unit 1502 determines the expansion / contraction parameters of each sub scene based on the expansion / contraction parameter information 801 input from the expansion / contraction parameter calculation unit 204, the read-out data 302 transmitted from the sub scene time setting unit 1505, and the special handling information 1503. adjust.
- the special handling information 1503 stores words that are likely to be familiar to the listener as priority shortening information.
- the phrase that the listener is accustomed to listening to is a typical phrase in the content.
- FIG. 16 shows an example in which the electronic device 10 generates the weather forecast content.
- the standard weather forecast sentence is “National weather.” “The above is the national weather. "Please spend it" is registered as priority shortening information.
- the expansion / contraction parameter adjustment unit 1502 is a sub-scene (a third section including the first word) in which a word matching the word (first word) registered as the priority shortening information or a word including the word is read out. For, the reading speed improvement processing is executed with priority over other sub-scenes. That is, for the sub-scenes 1 and 4 in which the text is the same as the priority shortening information, even if the reading speed is improved, there is little influence on the difficulty of listening to the listener's wording.
- sub-scene 4 has a minimum expansion / contraction parameter of 0.8
- sub-scene 4 is a sub-scene in which the wording matches the priority shortening information.
- the sub-scene 3 expansion / contraction parameter 0.9 which has the smallest expansion / contraction parameter, is not applied to the sub-scene (the section in which the read-out sound does not include the first wording). Applies to scene 1 and sub-scene 2. With such a configuration, there is a possibility that the speed change from the initial value becomes small for the voice reading of other sub-scenes that are considered not to be heard by the listener.
- FIG. 17 is a diagram illustrating an example of the expansion / contraction parameter adjustment processing according to the present embodiment.
- the special handling information 1503 stores a word (second word) that is likely to indicate information important to the listener as non-adjustment information.
- the example of FIG. 17 shows an example in which the electronic device 10 generates weather forecast content, and the words “typhoon information” and “snowfall information” are registered as non-adjustment information.
- the expansion / contraction parameter adjustment unit 1502 adjusts other sub-scenes for the sub-scene (the fifth section in which the speech to be read includes the second word) including the word (second word) registered as non-adjustment information. Adjust the expansion / contraction parameter so that the parameter is not applied.
- sub-scene 4 including the word “typhoon information” has a higher importance of information than other sub-scenes, and the reading speed should not be increased too fast in order to improve the listener's recognition. Does not adjust the expansion / contraction parameters (reading speed) based on the expansion / contraction parameters of other sub-scenes.
- the sub-scenes 1 to 3 that do not include the word of the non-adjustment information have the expansion / contraction parameter 0.8 of the sub-scene 3 having the lowest expansion / contraction parameter value.
- the expansion / contraction parameter is adjusted by applying, but for the sub-scene 4 including the word of the non-adjustment information, the expansion / contraction parameter is not adjusted based on the expansion / contraction parameters of the other sub-scenes.
- the expansion / contraction parameter adjustment unit 1502 adjusts the expansion / contraction parameters of each sub-scene based on the expansion / contraction parameter information 801, the reading data 302, and the special handling information 1503, and transmits the adjustment expansion / contraction parameter information 1701 to the adjusted sound generation unit 206.
- FIG. 18 is a flowchart illustrating an example of a processing flow of content generation executed by the electronic device 10 according to the present embodiment.
- step ST1806 the expansion / contraction parameter adjustment unit 1502 to which the expansion / contraction parameter information 801 has been input receives the read-out data 302 from the sub-scene time setting unit 1505, and this read-out data 302, the expansion / contraction parameters of each sub-scene are adjusted based on the expansion / contraction parameter information 801 and the special handling information 1503, and adjusted expansion / contraction parameter information 1701 is output.
- FIG. 19 is a flowchart illustrating an example of a process flow of adjustment of the expansion / contraction parameter executed by the electronic device 10 according to the present embodiment.
- the expansion / contraction parameter adjustment unit 1502 to which the expansion / contraction parameter information 801 and the read-out data 302 are input compares the special handling information 1503 with the read-out data 302 of each sub-scene (step ST1901). It is determined whether or not there is a match between the priority shortening information of the special handling information 1503 and the wording of the non-adjustment information (step ST1902).
- step ST1902 when the reading data 302 includes a word registered as priority shortening information (when there is a sub-scene of a word that matches or includes the word of the priority shortening information), the expansion / contraction parameter adjusting unit 1502 The expansion parameter of the sub-scene that matches or includes the text of the priority shortening information is not applied to other sub-scenes, and the expansion / contraction parameter of each sub-scene is adjusted using the minimum expansion / contraction parameter other than the matching sub-scene. (Step ST1903).
- the expansion / contraction parameter adjustment unit 1502 does not adjust the expansion / contraction parameters of the sub-scene. If the expansion / contraction parameter of the sub-scene is higher than the other expansion / contraction parameters, the expansion / contraction parameter of the other sub-scene is applied to the sub-scene.
- step ST1902 when the read-out data 302 includes a word registered as non-adjustment information (when a sub-scene of a word including the word of non-adjustment information exists), the expansion / contraction parameter adjustment unit 1502 registers as non-adjustment information.
- the parameter adjustment is performed between sub-scenes other than the sub-scene including the worded text (step ST1904), and the expansion / contraction parameter is not adjusted for the sub-scene including the word registered as the non-adjustment information.
- step ST1902 when the read-out data 302 of each sub-scene does not include the wording registered in the special handling information 1503, the parameter for applying the minimum expansion / contraction parameter in each sub-scene to the expansion / contraction parameters of other sub-scenes Adjustment is performed (step ST1905).
- step ST1903 step ST1904, or step ST1905 is completed, the expansion / contraction parameter adjustment processing flow ends.
- the special handling information 1503 has been illustrated and described as having the electronic apparatus 10 in advance, but is not limited thereto, and may be input via the communication unit 160 or updated. There may be.
- the electronic device 10 may have a statistical model in which frequent morphemes and character strings are learned based on similar content, and register morphemes and character strings that appear at a frequency equal to or higher than a threshold as priority shortening information. . Furthermore, even if it is not similar content, it has a statistical model that learns frequently used morphemes and character strings based on content that users often watch, and prioritizes morphemes and character strings that appear more frequently than the threshold. It may be registered as information.
- the priority shortening information may be determined by referring to characters included in the video displayed synchronously in the same sub-scene.
- a character recognition unit (not shown) may perform character recognition or closed caption analysis of characters included in the video displayed in the same sub-scene, and determine the displayed text as priority shortening information.
- the sub-scene may be the target of the non-adjustment information, and the speed of the voice reading of the sub-scene may not be improved.
- the change in the speed of the reading voice is not uniform, but the sentence that is easy for the user to understand even if the reading speed is high, and the adjustment of the reading speed of the sentence that includes important information is adjusted with other reading sentences. Made them different. Adjust the reading speed so that the reading speed of the other sections matches the reading speed of the sections where the reading speed is high in the sections other than the sentences that contain important information and the sentences that are easy for the user to understand. The reading speed is adjusted so that easy-to-read texts and texts containing important information are also read out in the section. With this configuration, while reading out the speech in all the sections, it improves the difficulty of hearing the speech due to changes in the reading speed between sections other than sentences that are easy for the user to understand and sentences that contain important information.
- Embodiment 4 FIG. Next, a fourth embodiment of the present invention will be described.
- the electronic device 10 according to the fourth embodiment has the same device operation as that of the first embodiment.
- the content generation function and the sound generation function are not stored in the storage 130 as programs, but execute calculation processing. It differs from the first embodiment in that it is mounted on a circuit that is hardware.
- FIG. 20 is a block diagram illustrating an example of a hardware configuration diagram of the electronic device 10 according to the present embodiment.
- the circuit 2010 is a semiconductor circuit that executes calculation processing, and a content generation module 2011 and an audio generation module 2012 are mounted on the circuit 2010.
- the content generation module 2011 is an algorithm having the same function as the content generation program 131 of the first embodiment.
- the voice generation module 2012 is an algorithm having the same function as the voice generation program 132 of the first embodiment.
- the circuit 2010 can perform the same operation as that of the first embodiment and exhibit the same function by the processing based on the content generation module 2011 and the audio generation module 2012. Since the configuration, processing content, and processing flow of the functional block overlap with the content described in the first embodiment, description thereof is omitted here.
- the configuration for the electronic device 10 to exert its function can be realized not only by software but also by hardware.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
電子機器は、それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部と、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に近づける又は一致させるように調整する調整部と、前記調整部で読み上げ速度の調整を実施した区間では前記調整部で調整した読み上げ速度の、前記調整部で読み上げ速度の調整を実施していない区間では前記算出部で算出された読み上げ速度の音声を生成する音声生成部と、を備えたので音声読み上げが完了すべき区間内で音声の読み上げを完了させつつ、速度の違いによる音声読み上げの聞き取りづらさを低減することができる。
Description
本発明は、音声の読み上げ速度を制御する電子機器、音声制御方法、およびプログラムに関する。
近年、音声制御技術が進歩しており、映像やロボット動作等と同期した音声の読み上げ制御技術が求められている。
映像と同期して音声の読み上げを行うような場合、同期すべきシーン(区間)が終わって、違うシーンが始まっているのに前のシーンで完了すべき音声の読み上げが続いていると、ユーザに混乱をきたす可能性がある。このため、同期すべきシーン内で音声の読み上げを完了させるための技術も開発されている。
読み上げられる音声を所定の区間(例えば映像区間やロボットの動作の区間)と同期させる場合、区間それぞれの時間長に合わせて、その区間に対応した音声の読み上げが完了するように当該区間の音声読み上げの速度を個別に調整すると、読み上げられる音声の速さが区間によって大きく異なってしまう場合があり、ユーザにとって聞きづらい音声読み上げとなってしまう可能性がある。
本発明は上記課題を解決するためになされたものであり、音声読み上げが完了すべき区間内で音声の読み上げを完了させつつ、速度の違いによる音声読み上げの聞き取りづらさを低減する電子機器、音声制御方法、およびプログラムを得るものである。
上述した課題を解決し、目的を達成するために、本発明の電子機器は、それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部と、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に近づける又は一致させるように調整する調整部と、前記調整部で読み上げ速度の調整を実施した区間では前記調整部で調整した読み上げ速度の、前記調整部で読み上げ速度の調整を実施していない区間では前記算出部で算出された読み上げ速度の音声を生成する音声生成部と、を備えた。
本発明によれば、音声読み上げが完了すべき区間内で音声の読み上げを完了させつつ、速度の違いによる音声読み上げの聞き取りづらさを低減することができる。
以下にて、本発明にかかる電子機器、音声制御方法、およびプログラムの実施の形態について、図面に基づいて詳細に説明する。
実施の形態1.
まず、本実施の形態にかかるハードウェア構成について説明する。
まず、本実施の形態にかかるハードウェア構成について説明する。
図1は、本実施の形態における電子機器のハードウェア構成の一例を示すブロック図である。
電子機器10は内蔵したプロセッサ110等により情報処理を実行する装置である。電子機器10の具体的な例としては、PC(Personal Computer)が考えられるがこれに限定されず、例えばサーバ、タブレット、スマートフォン、デジタルTV(Television)、または光ディスクプレーヤ等の情報処理を実行することのできる種々のプロダクトが考えられる。
電子機器10は、プロセッサ110、メモリ120、ストレージ130、ディスプレイ140、スピーカ150、通信部160、入力部170、マイク180、およびバス190を有している。
プロセッサ110は、電子機器10全体を制御する演算処理装置である。プロセッサ110はストレージ130に格納されたコンテンツ生成プログラム131、音声生成プログラム132、言語辞書133、および音声辞書134に基づいて読み上げ音声を生成し、この音声を含むコンテンツを生成する機能を有している。プロセッサ110は電子機器10の中央処理装置(Central Processing Unit)であり、情報を処理する機能を有するが、制御部(Controller)、処理部(Processor)等の種々の呼称にて呼ぶことができる。また、プロセッサ110はハードウェアとして一つの回路、制御部、または処理部で構成されている必要はなく、一つまたは複数の回路、制御部、または処理部にて構成される。
メモリ120は、例えばRAM(Random Access Memory)と呼ばれる半導体で構成された揮発性の記憶装置(記憶媒体)であり、プロセッサ110が各種プログラムを実行する際にプログラムを展開する領域や、各種のキャッシュやバッファとして用いられる。
ストレージ130は、例えばHDD(Hard Disk Drive)、又はSSD(Solid State Disk)等で例示される大容量の不揮発性記憶装置(媒体)であり、プロセッサ110が実行する各種プログラムや、各プログラムを実行する際にプロセッサ110が参照するデータを格納している。本実施の形態では、プログラムとしてコンテンツ生成プログラム131および音声生成プログラム132がストレージ130に記憶されている。また、プロセッサ110が参照するデータとして言語辞書133および音声辞書134がストレージ130に記憶されている
コンテンツ生成プログラム131はプロセッサ110によって実行されるプログラムであり、コンテンツを生成する機能を有するソフトウェアである。ここでのコンテンツとは、例えば動画再生プログラム等により再生可能な、映像と音声が同期された動画音声データである。
コンテンツ生成プログラム131はプロセッサ110によって実行されるプログラムであり、コンテンツを生成する機能を有するソフトウェアである。ここでのコンテンツとは、例えば動画再生プログラム等により再生可能な、映像と音声が同期された動画音声データである。
音声生成プログラム132はプロセッサ110によって実行されるプログラムであって、音声生成するためのもととなる情報である言語辞書133、音声辞書134等に基づいて、音声を生成する機能を有するソフトウェアである。
言語辞書133はテキストデータの読みやアクセントなどの情報を含むデータベースである。電子機器10が任意のテキストデータから読み上げ方を表すテキストデータへの変換を行う際に、言語辞書133は参照される。
音声辞書134は音声データを生成するために必要な音声素片または音響パラメータを記憶したデータベースである。音声合成の方式がデータベース内の音声(波形)を変形しながら接続を行って音声合成を行う方式であれば、音声辞書134には音声素片が含まれる。音声素片とは読み上げ音声を生成するために必要な、文単位、文節単位、音節単位、および音素単位等で構成された音声データ(波形データ)である。また、音声合成の方式がフォルマント合成方式のような、人間の音声を使用せずに波形を生成する方式であれば、音声辞書134には波形生成に必要な音響パラメータが含まれる。音響パラメータとは、言語辞書133に含まれる単語の周波数や読み上げの速度を示す情報である。
ディスプレイ140は、電子機器10の筐体から露出して設けられる、例えばLCD(Liquid Crystal Display)やOELD(Organic Electroluminescence Display)等の表示装置(表示手段)である。ディスプレイ140はプロセッサ110から表示指示された映像を表示する機能を有している。
スピーカ150は、プロセッサ110からの音声出力指示に基づいて、電気信号を物理振動に変えて、音声を出力する装置である。
通信部160は内蔵されたアンテナによって、例えばワイヤレスLAN(Local Area Network)によって他の機器と通信を行う通信装置である。本実施の形態ではワイヤレスLANを例示して説明するが、当然これに限定されず、他の無線通信規格により他の機器と通信するとしても良いし、有線LANによって通信を実行するとしてもよい。また通信部160は、例えば3G(3rd Generation)やLTE(Long Term Evolution)等の移動体通信網を介して他の機器との通信を実行する通信装置であってもよい。
入力部170は、ユーザが文字データを入力可能なキーボードである。
マイク180は、周囲の音を電気信号に変換して電子機器10に入力する集音装置(マイクロフォン)である。
バス190は、接続される各構成を互いに通信可能に接続する機能を有する伝送回路である。
本実施の形態の電子機器10は、例えば通信部160からコンテンツフレームワーク、読み上げデータ、および映像データを受信し、読み上げデータに基づいて読み上げ音声を生成する。そして電子機器10は、コンテンツフレームワークに基づいて映像データと読み上げデータに基づいて生成された読み上げ音声の音声データを同期させたコンテンツを生成し、出力する機能を有している。以下では、これらのコンテンツフレームワーク、読み上げデータ、および映像データ等について説明を行う。
図2は、本実施の形態におけるコンテンツフレームワーク、読み上げデータ、および映像データを概念的に示した図である。
コンテンツフレームワーク301は、電子機器10がコンテンツを生成する際に使用される、コンテンツのタイムテーブルを有するデータである。コンテンツのタイムテーブルは、コンテンツ内の映像や音声の時間の枠組み(区切り、サブシーン)を定義する。
読み上げデータ302は、コンテンツにて読み上げられる文言を示すデータである。読み上げデータ302は、例えば任意のテキストデータであり、これには漢字やアルファベット、数字、または記号等が含まれていてもよい。
映像データ303は、コンテンツを生成するために用いられる映像の情報である。映像データ303のフォーマットとしては種々の形式が考えられるが、電子機器10がコンテンツを生成できるフォーマットであればどのような形式でもよい。
コンテンツフレームワーク301、読み上げデータ302、および映像データ303はそれぞれ映像と音声とを同期させる区間に基づいて管理されている。つまり、読み上げデータ302は、それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報と呼ぶことができる。また、映像データ303は、それぞれが割り当てられた区間で表示される複数の映像を示す情報と呼ぶことができる。
コンテンツフレームワーク301には、上記区間の時間情報が定義されており、本実施の形態ではこの区間の幾つかをサブシーンと呼ぶ。サブシーンとは、コンテンツを提供されるユーザがコンテンツの内容を理解しやすいタイミングで区切ったコンテンツの一部区間や、コンテンツが示すべき一連の意図が示されるコンテンツの一部区間のことである。
読み上げデータ302のデータ形式は、サブシーンの番号と当該サブシーンで読み上げられる音声のテキストデータとが対応付けられた形式となっている。
映像データ303のデータ形式は、サブシーンの番号と当該サブシーンで表示される映像のデータとが対応付けられた形式となっている。
図2の例では電子機器10によってコンテンツの生成がなされた場合、サブシーン1として0:00から0:03まで区間が継続し、この区間において「全国のお天気です。」という音声が発話され、全国地図の映像が表示される。このようにコンテンツフレームワーク301に示されるサブシーンの区間において、読み上げデータ302が示す音声と、映像データ303が示す映像が出力されるようコンテンツは生成される。
次に、コンテンツフレームワーク301、読み上げデータ302、および映像データ303に基づいてコンテンツを生成するときの音声の読み上げの速度について説明する。
図3は、本実施の形態における音声読み上げ処理の一例を示す図である。
本実施の形態の電子機器10は読み上げデータ302に基づいた音声を生成する。生成の際には読み上げデータ302、言語辞書133、および音声辞書134に基づいて音声生成を行う。音声生成処理は後述にて詳細に説明するが、これらに基づいて生成された音声には速度の初期値(デフォルト)が存在する。速度調整を行っていない音声は初期値の速度にて生成および再生され、再生される音声の再生時間は一般的に、文章が長い場合には長時間、短い場合は短時間となる。
本実施の形態における電子機器10は3つの音声読み上げ方式で読み上げ音声を生成してコンテンツ生成することができる。以下では、これらの3つの音声読み上げ方式を音声読み上げパターン1~3と呼ぶ。尚、ここでは電子機器10は3つの音声読み上げ方式で音声を生成することができるとするが、3つの音声読み上げ方式全てを実行できることは電子機器10の必須の構成ではなく、電子機器10は例えば読み上げパターン3のみを実行できる等のように、音声読み上げパターン3を含む1つ又は2つの読み上げパターンで読み上げ音声を生成できる構成であってもよい。
まず、音声読み上げパターン1は、音声を初期値の速度で読み上げる方式である。図3に示されるように初期値にて音声を読み上げる場合には、基本的に読み上げられる文字数に応じて読み上げに必要となる読み上げ時間が長くなる。例えば、サブシーン3は文字数が多いため、初期値の読み上げ速度では音声の読み上げに8秒要する。このため、サブシーン3の音声読み上げは、6秒で終了するサブシーン3の区間に入りきらず、サブシーン3の区間が終わった後も(サブシーン3の映像の表示が終わった後も)、音声の読み上げが継続していることとなる。このような場合、対応する映像が終わった後にも音声の読み上げが継続してしまうため、コンテンツを視聴しているユーザは映像と音声の対応関係を認識しづらく、音声読み上げパターン1はユーザに混乱を生じさせてしまう可能性がある。
次に、音声読み上げパターン2は、初期値の速度で音声の読み上げを行った場合にはサブシーンを超過してしまう読み上げ音声に対して、サブシーン区間内に収まるように速度調整を行って音声読み上げを実行する方式である。図3の例では、サブシーン3以外は音声の読み上げがそれぞれのサブシーンの区間内で完了するため、電子機器10はサブシーン3以外の区間では読み上げの速度を変化させない。しかし、サブシーン3では初期値の速度のままでは音声読み上げの時間がサブシーン区間を超過するため、電子機器10は音声読み上げがサブシーン3の区間内に完了するように音声読み上げの速度を変化させる。具体的には、初期値で読み上げた場合、サブシーン3の音声の読み上げには8秒がかかるが、サブシーン3は6秒しかないので、電子機器10は読み上げが6秒で収まるようにサブシーン3の音声読み上げを加速させる。これにより、全てのサブシーンについて、対応する映像が表示されている間に音声の読み上げが完了することになり、ユーザに混乱を生じさせることがなくなる。しかし、この読み上げパターンではサブシーン3のみ音声読み上げの速度が速く、他のサブシーンとサブシーン3との間で大きく音声読み上げの速度が変化してしまうので、ユーザに違和感を与えたり、聞き取りづらい音声となってしまったりする可能性がある。
音声読み上げパターン3は、速度調整を行った音声読み上げ速度の向上を他のサブシーンの音声読み上げにも同様に適用して、他のサブシーンの音声読み上げも加速させる音声読み上げ方法である。音声読み上げパターン3では、サブシーン3の区間に収めるためサブシーン3の音声読み上げ速度を向上させるとき、もともとサブシーン区間に収まっているサブシーン1、2、および4にもサブシーン3と同様の音声読み上げの速度向上を施す。例えば、サブシーン3の音声読み上げをサブシーン区間に収めるために、33%の音声読み上げの加速を行った場合、電子機器10はサブシーン1、2、および4にも同様に33%の音声読み上げの加速を施す。これにより、全体を通しての音声読み上げの速度が統一される。このため、各サブシーンの音声はそれぞれサブシーンの時間に収まり、さらに読み上げ速度の変化によるユーザの違和感や聞き取りづらさが防止される。
また、電子機器10は上述のように読み上げ速度を一致させるサブシーン群を適宜決定することができる。例えば、コンテンツに含まれる全てのサブシーンで音声の読み上げ速度を統一するとしても良いし、コンテンツ内の所定の区間(例えばサブシーン2~4のみ等)の中で読み上げ速度を統一するとしても良い。
次に、本実施の形態において電子機器10がコンテンツ生成処理を実行するための構成や処理の詳細について図4から図9の図面を用いて詳細に説明する。
図4は、本実施の形態においてコンテンツ生成処理を実行するための機能構成の一例を示すブロック図である。
本実施の形態の電子機器10は、コンテンツフレームワーク301、読み上げデータ302、および映像データ303に基づいて、映像と音声とが含まれるコンテンツを生成し、出力する機能を有している。電子機器10は、読み上げデータ302に基づいて音声生成を行って読み上げ音声の音声データを生成し、生成した音声データと映像データ303と同期させたコンテンツを生成する。この機能を実行するために、ストレージ130に格納されていたコンテンツ生成プログラム131および音声生成プログラム132がプロセッサ110によって実行され、言語辞書133および音声辞書134はメモリ120に展開されてプロセッサ110の処理に活用される。図4ではプロセッサ110によって実行されるコンテンツ生成プログラム131および音声生成プログラム132の各機能の構成がブロックによって示されている。
プロセッサ110(コンテンツ生成プログラム131)は、通信部160が受信したコンテンツフレームワーク301、読み上げデータ302、および映像データ303を取得する。ここではコンテンツフレームワーク301、読み上げデータ302、および映像データ303を通信部160から受信する場合を例示して説明するがこれに限定されず、例えば光メディア等の媒体を読み込んで利用するとしても良い。また、コンテンツフレームワーク301はストレージ130に予め格納しておき、読み上げデータ302および映像データ303を、通信部160を介して取得するとしても良い。また、これらの方法を組み合わせた方法で情報を取得してもよい。
コンテンツ生成プログラム131のサブシーン時間設定部201は、コンテンツフレームワーク301、読み上げデータ302、および映像データ303を受信し、コンテンツフレームワーク301からサブシーンの時間長情報501を取得する機能を有している。サブシーンの時間長情報501とは図5に示されるように各サブシーンと当該サブシーンの時間長情報とが対応付けられた情報であり、ここでのサブシーンの時間長とはサブシーンの開始から終了までの時間の長さである。サブシーン時間設定部201は、読み上げデータ302を音声生成部202に、サブシーンの時間長情報501を伸縮パラメータ算出部204に送信する。
音声生成部202は、サブシーン時間設定部201から取得する読み上げデータ302に基づいてサブシーン毎の読み上げ音声情報601を生成する機能を有している。ここでサブシーン毎の読み上げ音声情報601とは、初期値(デフォルト)の速度で生成された音声の波形を示す情報であり、再生されるべきサブシーンと波形情報とが対応付けられている。
音声生成部202は、テキストデータである読み上げデータ302に形態素解析による言語解析を行った後、この解析結果より読み上げのフレーズ単位を決める。音声生成部202は読み上げのフレーズ単位を決めると、言語辞書133を参照して、このフレーズ単位での読みとアクセント位置を決定する。さらに、音声生成部202は、フレーズ単位で決定された読みとアクセント位置に基づいて文章におけるポーズ位置を予測し、この後に複数のフレーズ単位を含む文章についてイントネーション(ピッチ周期系列)およびリズム(音素の継続時間長)を決定する。音声生成部202は、このイントネーションおよびリズムを決定することで、読み上げ音声の初期値(デフォルト)の速度を定めている。最後に、音声生成部202は上記処理によって決定した文章の読み、アクセント、ポーズ位置、イントネーション、およびリズムに適合する音声素片を音声辞書134より選択し、これらの音声素片の波形を波形接続して読み上げ音声の波形を生成する。上記の言語解析の詳細処理については、例えば参考文献1や参考文献2に示す技術を利用してもよい。
参考文献1:特開2002-333896号公報
参考文献2:特開2003-44073号公報
また、波形接続処理についても例えば参考文献3で開示されているPSOLA(Pitch-Synchronous Overlap and Add)法を用いて素片の基本周波数および継続時間長を変形させながら、素片を順次配置すればよい。また、波形の連続性を考慮し、先行する波形の端の形状と後続する波形の端の形状を考慮して配置位置を決めて(例えば、ピッチ単位の相関値が高くなる位置)、波形同士を重ねあわせる(加算して平均する)よう処理してもよい。
参考文献2:特開2003-44073号公報
また、波形接続処理についても例えば参考文献3で開示されているPSOLA(Pitch-Synchronous Overlap and Add)法を用いて素片の基本周波数および継続時間長を変形させながら、素片を順次配置すればよい。また、波形の連続性を考慮し、先行する波形の端の形状と後続する波形の端の形状を考慮して配置位置を決めて(例えば、ピッチ単位の相関値が高くなる位置)、波形同士を重ねあわせる(加算して平均する)よう処理してもよい。
参考文献3:F.J.Charpentier and M.G.Stella、ICASSP86、pp2015-2018、Tokyo、1986
音声生成部202は、上述の方法で図6に示すサブシーン毎の読み上げ音声情報601を生成し、時間長算出部203に送信する機能を有している。
音声生成部202は、上述の方法で図6に示すサブシーン毎の読み上げ音声情報601を生成し、時間長算出部203に送信する機能を有している。
時間長算出部203は、音声生成部202から入力されるサブシーン毎の読み上げ音声情報601を再生した場合の各読み上げ音声の読み上げ時間長を算出する機能を有している。時間長算出部203は、サブシーン毎の読み上げ音声情報601を読み上げた時間をシミュレートして、初期値の速度でサブシーン毎の音声が再生された場合に必要となる読み上げ時間長を図7で示す時間長情報701のようにそれぞれ算出し、この時間長情報701を伸縮パラメータ算出部204に送信する。時間長算出部203は、音声の再生時間を算出して読み上げ時間長を算出するのではなく、読み上げデータ302を解析することで、音声の時間を算出するとしても良い。読み上げデータ302を解析する場合には、時間長算出部203は読み上げデータ302のヘッダ情報やデータ長から音声の時間を算出するとしても良い。
上述では、音声生成部202は読み上げ音声情報601を生成し、この読み上げ音声情報601に基づいて時間長算出部203はサブシーン毎の音声が再生された場合に必要となる読み上げ時間長を算出するものとして例示したが、本実施の形態はこれに限定されない。音声生成部202は音声の波形自体を生成せず、時間長算出部203がサブシーン毎の音声が再生された場合に必要となる時間長を算出するのに必要な情報を生成して、時間長算出部203に送信するとしてもよい。この時間長を算出するのに必要な情報としては、例えば、音声の読み上げ方を表す表話文字やアクセント記号、ポーズ記号、制御記号等の組み合わせの情報が考えられる。これらの情報は初期値の速度で読み上げに要する時間が定められており、時間長算出部203は各表話文字等の読み上げに要する時間を加算することで、読み上げられる各音声が再生された場合に必要となる時間を算出することができる。
伸縮パラメータ算出部204は、時間長算出部203より入力されるサブシーン毎の読み上げ時間長情報701とサブシーン時間設定部201から入力されるサブシーンの時間長情報501に基づいて、伸縮パラメータ算出する機能を有している。
伸縮パラメータとは、音声読み上げの速度を向上させた場合の、速度向上前の(初期値の読み上げ速度での)読み上げに要する時間に対する、速度向上後の読み上げで要する時間の比率である。例えば、初期値での読み上げに8.0秒かかる音声読み上げについて、読み上げ時間が6.0秒になるように読み上げ速度の向上を施した場合、上記比率は0.75なので伸縮パラメータは0.75となる。また、伸縮パラメータは速度向上前の読み上げ速度に対する、速度向上後の読み上げ速度の比率(速度向上率)の逆数とも定義できる。つまり、伸縮パラメータの値が小さくなると音声読み上げの速度の向上率は大きくなり、結果として速度変更後の読み上げ速度は速くなる。
伸縮パラメータ算出部204は直接的には伸縮パラメータを算出するが、前述のとおり伸縮パラメータは初期値の速度から区間内で読み上げを完了するための速度への速度向上率の逆数である。読み上げ速度の初期値は音声生成部202にて決まっているため、伸縮パラメータが決まると、速度変更後の読み上げ速度も一義的に定められる。つまり、伸縮パラメータ算出部204は伸縮パラメータを算出することで、実質的に速度変更後の読み上げ速度を算出しているということになる。換言すれば、伸縮パラメータ算出部204は、割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部ともいえる。
伸縮パラメータ算出部204は、対応するサブシーン内で読み上げが完了するために読み上げ音声の速度向上を要する場合(サブシーンの時間長が初期値の速度での読み上げ時間長より短い場合)には、サブシーンの時間長を初期値の読み上げ時間長で割った値を伸縮パラメータとして算出する。また、対応するサブシーン内で読み上げが完了するために読み上げ音声の速度向上を要しない場合(サブシーンの時間長が初期値の速度での読み上げ時間長以上の場合)には、音声は初期値の速度にて読み上げられることが好適なので、伸縮パラメータを「1」として算出する(図8参照)。
図3の説明にて述べたように、電子機器10は音声読み上げの読み上げ速度を変更する機能を有している。そして、音声読み上げの速度変更処理は、この伸縮パラメータに基づいて実行される。
伸縮パラメータ算出部204は、サブシーン毎の伸縮パラメータ情報801を算出し、算出した伸縮パラメータ情報801を伸縮パラメータ調整部205に送信する。
伸縮パラメータ調整部205は、伸縮パラメータ算出部204より入力されるサブシーン毎の伸縮パラメータ情報801に基づいて、各サブシーンの音声の読み上げ時間の伸縮率(換言すれば、読み上げ速度変化率)を調整する機能を有している。本実施の形態における伸縮パラメータ調整部205は、伸縮パラメータが最も小さい(最も読み上げ速度が速い)サブシーンの伸縮パラメータを他のサブシーンの伸縮パラメータにも適用して(一致させて)、調整伸縮パラメータ情報901を出力する(図9参照)。
伸縮パラメータが最も小さいサブシーンとはつまり、読み上げ速度が最も速い読み上げのサブシーンのことであり、伸縮パラメータ調整部205は、この伸縮パラメータを他のサブシーンの伸縮パラメータにも適用する。つまり、伸縮パラメータ調整部205は、読み上げ速度が最も速いサブシーンの読み上げ速度に、他のサブシーンの読み上げ速度を一致させる。言い換えると、伸縮パラメータ調整部205は、第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に一致させるように調整する調整部とも呼ぶことができる。
また、伸縮パラメータ調整部205は、伸縮パラメータを調整するサブシーンの範囲を適宜設定することができる。例えば、コンテンツ全体で音声速度を統一させる場合には、伸縮パラメータ調整部205はコンテンツ全体を対象として、読み上げ速度が最も速いサブシーンを検出し、他のサブシーンの読み上げ速度をこのサブシーンに一致させる。また、所定の複数サブシーンで音声速度を統一させる場合には、伸縮パラメータ調整部205はこの所定の複数サブシーンを対象として、読み上げ速度が最も速いサブシーンを検出し、他のサブシーンの読み上げ速度をこの最も速い読み出し速度に一致させる。例えば、読み上げ速度を一致させる所定の複数サブシーンがサブシーン2~4であった場合には、伸縮パラメータ調整部205は読み上げ速度が最も速いサブシーンであるサブシーン3の読み上げ速度をサブシーン2および4に適用するように伸縮パラメータを調整し、サブシーン1にはこれを適用しない。
伸縮パラメータ調整部205は、調整伸縮パラメータ情報901を調整後音声生成部206に送信する。
調整後音声生成部206は、調整伸縮パラメータ情報901の値を用いて速度調整を行った読み上げ音声を生成する機能を有している。調整後音声生成部206は、各サブシーンについて、再生時間が初期値の調整伸縮パラメータ倍となるように読み上げ音声の速度調整を行って読み上げ音声を生成する。言い換えると、調整後音声生成部206は、読み上げ速度の初期値からの向上率が、調整伸縮パラメータの逆数倍となる速度の読み上げ音声を生成する。
つまり、本実施の形態における電子機器10は初期値の速度ではサブシーン区間内に読み上げ速度が収まらないサブシーンが存在する場合、サブシーン区間に収まるように当該区間の読み上げ音声の速度を変更し、この変更(音声の読み上げ速度変化率の変更又は音声の読み上げ時間の変化率の変更)を他のサブシーンの音声読み上げにも適用する構成となっている。
ここで、調整後音声生成部206は上記の速度となるように言語辞書133および音声辞書134を用いて新たに読み上げ音声を生成する。調整後音声生成部206は音声生成部202より、音声生成部202が決定した文章の読み、アクセント、ポーズ位置、イントネーション、およびリズムの情報を受け取り、イントネーションおよびリズムを変更することで、読み上げ速度を上記の調整後の速度に変更し、変更したイントネーションおよびリズムと、文章の読み、アクセント、ポーズ位置に適合する音声素片を音声辞書134より選択し、これらの音声素片の波形を波形接続して速度変更後の読み上げ音声の波形を生成する。
また、調整後音声生成部206は、読み上げ音声の話速の変化に応じて、イントネーション(音高の平均値や分散値)を調整するとしても良い。例えば、話速を速くする場合に音高の平均値を低くする、あるいは音高の分散値を大きくすることにより、知覚上の話速の変化を抑えることが可能である。この場合、話速の変化と知覚上のイントネーションの関係を学習した統計モデルやマッピングテーブルを用意し、話速の変化量に応じたイントネーションの制御を行えば良い。また、話速の変化量が予め設定した閾値を超える場合に音高を変化させるように制御しても良い。
調整後音声生成部206は生成した読み上げ音声データをコンテンツ生成部207に送信する。
コンテンツ生成部207は、サブシーン時間設定部201から入力されるコンテンツフレームワーク301および映像データ303と、調整後音声生成部206から入力される読み上げ音声データの情報とに基づいてコンテンツを生成する機能を有している。コンテンツ生成部207はコンテンツフレームワーク301に基づいて、各サブシーンに対応する音声と映像とを同期してコンテンツを生成する。ここでは読み上げデータ302や映像データ303に含まれるサブシーン番号に基づいて、コンテンツフレームワーク301で定められたサブシーン番号と対応する時間から、当該サブシーンと対応する映像データ303と読み上げ音声データとが同時に再生開始されるように同期処理を実行する。本同期処理は、上述のようにサブシーン番号に基づいて、映像データ303と読み上げ音声データの開始時間を決定して、同期するとしても良いし、もともとの映像データ303や読み上げデータ302に再生開始時間のタイムスタンプがふられている場合には、タイムスタンプで定められた時間から映像データ303と読み上げ音声データとが再生開始されるように同期処理を実行するとしてもよい。コンテンツは例えばMPEG等の規格に準拠した動画プレーヤ等で再生可能なフォーマットとなっていてもよい。
またコンテンツ生成部207は、生成したコンテンツをそのままストレージ130に格納するとしても良いし、自身が生成したコンテンツを再生して、映像と音声をそれぞれディスプレイ140とスピーカ150から出力することもできる。
次に、本実施の形態の電子機器10が実行するコンテンツ生成の処理フローについて説明する。
図10は、本実施の形態における電子機器10が実行するコンテンツ生成の処理フローの一例を示すフローチャートである。
まず、プロセッサ110は通信部160等を介してコンテンツフレームワーク301、読み上げデータ302、および映像データ303を取得し(ステップST1001)、サブシーン時間設定部201に渡す。
次に、サブシーン時間設定部201はコンテンツフレームワーク301からサブシーンの時間長情報501を取得し(ステップST1002)、読み上げデータ302を音声生成部202に、サブシーンの時間長情報501を伸縮パラメータ算出部204に送信する。
読み上げデータ302が入力された音声生成部202は、読み上げデータ302に基づいて初期値の速度での読み上げ音声情報601を生成し(ステップST1003)、時間長算出部203に送る。
時間長算出部203は、読み上げ音声情報601を取得すると、初期値の速度で音声を再生した場合に必要となる音声読み上げ時間長をそれぞれのサブシーンで算出し(ステップST1004)、算出した時間長情報701を伸縮パラメータ算出部204に送信する。
次に、伸縮パラメータ算出部204は、時間長算出部203より入力される時間長情報701とサブシーン時間設定部201から入力されるサブシーンの時間長情報501に基づいて、サブシーン毎の伸縮パラメータ情報801を算出する(ステップST1005)。伸縮パラメータ算出部204は、算出した伸縮パラメータ情報801を伸縮パラメータ調整部205に送信する。
伸縮パラメータ情報801が入力された伸縮パラメータ調整部205は、伸縮パラメータが最も小さい(最も読み上げ速度が速い)サブシーンの伸縮パラメータを他のサブシーンの伸縮パラメータにも適用するように伸縮パラメータの調整を行い(ステップST1006)、調整した伸縮パラメータである調整伸縮パラメータ情報901を調整後音声生成部206に出力する。
調整後音声生成部206は、調整伸縮パラメータ情報901の値、音声生成部202から受信する文章の読み、アクセント、ポーズ位置、イントネーション、およびリズムの情報を用いて、速度調整を行った読み上げ音声の音声データを生成する(ステップST1007)。次に調整後音声生成部206は生成した速度調整を行った読み上げ音声データをコンテンツ生成部207に送信する。
次に、コンテンツ生成部207は、サブシーン時間設定部201から入力されるコンテンツフレームワーク301および映像データ303と、調整後音声生成部206から入力される読み上げ音声データとをコンテンツフレームワーク301に従って同期させてコンテンツを生成し(ステップST1008)、これを再生して、映像と音声をそれぞれディスプレイ140とスピーカ150から出力する(ステップST1009)。
以上に一連のコンテンツ生成の処理フローは終了となる。
上述の処理フローでは図3を参照して説明した読み上げパターン3の音声読み上げを行ったコンテンツを生成することができる。
伸縮パラメータ調整部205の機能をオフとして各サブシーンの伸縮パラメータ情報801の調整を行わなければ(ステップST1006をスキップすれば)、読み上げパターン2の音声読み上げを行ったコンテンツを生成することができ、さらに時間長算出部203、伸縮パラメータ算出部204、調整後音声生成部206の機能をオフとして、ステップST1004からステップST1007までの処理をスキップすれば、読み上げパターン1の音声読み上げを行ったコンテンツを生成することができる。
本実施の形態では、伸縮パラメータ算出部204は伸縮パラメータを算出し、伸縮パラメータ調整部205は伸縮パラメータを調整する。伸縮パラメータ算出部204が算出する伸縮パラメータは上述のようにサブシーン区間内に音声読み上げが収まるための音声読み上げ時間の伸縮の比率であり、初期値の音声読み上げ速度からサブシーン区間内に音声読み上げが収まるための音声読み上げ速度への速度変化率の逆数である。変化前の初期値の読み上げ速度は音声生成部202で定められるため、伸縮パラメータ算出部204はつまり、伸縮パラメータを算出することでサブシーン区間内に音声読み上げが収まるための音声読み上げ速度を算出しているということができる。また、伸縮パラメータ調整部205はこの伸縮パラメータを調整するので、音声読み上げの速度を調整しているということができる。
本実施の形態では読み上げデータ302は通信部160より入力されるとして例示したが、これに限定されず、例えば電子機器10の入力装置170(キーボード)からテキストデータを入力し、これを読み上げるとしてもよい。
また、本実施の形態では読み上げデータ302がテキストデータであり、電子機器10が言語辞書133、音声辞書134を参照して音声データを生成する場合を例示して説明したが、これに限定されず、読み上げデータをID(Identifier、識別子)の形式で取得するとしても良い。この場合、音声生成部202および調整後音声生成部206はIDと音声情報とが対応付けられて記憶されているデータベースをストレージ130から取得し、IDに基づいて音声情報を生成することとなる。
さらに、読み上げデータはマイク180を介して取得した人間の発話に基づくテキストデータであってもよい。人間の発話に基づいたテキストデータの取得には公知の音声認識技術を用いればよく、DPマッチング(Dynamic Programming Matching)、HMM(Hidden Markov Model)法、ニューラルネットワーク法等の種々の技術が考えられる。
上記の実施の形態では、電子機器10はイントネーションおよびリズムを変更して読み上げ音声の速度調整を行ったが、これに限定されない。例えば、読み上げ音声内の発話のない区間である非発話区間の長さを調整することで、音声読み上げの速度向上を実現することもできる。この方法では、プロセッサ110はサブシーン区間内で音声信号のパワーが閾値以下の区間を非発話区間と推定し、調整後音声生成部206は、この非発話区間の時間を短縮した音声波形を生成することで音声読み上げの読み上げ開始から読み上げ完了までの時間を短くする。つまり、非発話区間の短縮のみでの読み上げ速度の向上方法では、各サブシーン内の音声の中の発話区間の発話速度は変化しないが、非発話区間の時間が短縮されて、サブシーン内の音声の読み上げ開始から読み上げ完了までの時間が短縮される。この場合、同じ文章量を読み上げるための、開始から終了までの時間が短縮されることで、音声の読み上げ速度が向上したと定義することができる。尚、非発話区間は単に短くしてもよいし、一部を省略して挿入頻度を低くしてもよい。本方式では、例えば参考文献4のような公知技術を用いることができる。このように構成した場合、話速の変化による音節の認識の低下を軽減することができる。
参考文献4:特開2013-160973号公報
また、発話速度の速度調整と非発話区間の長さ調整の両方を実行するとしても良い。このように構成することで、文意の理解と音節の認識性を統合的に考慮して劣化の少ない音声読み上げの速度向上が可能となる。
また、発話速度の速度調整と非発話区間の長さ調整の両方を実行するとしても良い。このように構成することで、文意の理解と音節の認識性を統合的に考慮して劣化の少ない音声読み上げの速度向上が可能となる。
さらに本実施の形態では映像と音声を同期させてコンテンツを生成、出力する場合を例示して説明したが、これに限定されない。例えば、ロボットの動作と音声を同期させる際の音声読み上げの制御にも本実施の形態の電子機器10は適用可能である。この場合、読み上げが完了すべき区間として、ロボットの一連の動作区間を設定すればよい。そのように構成する場合、サブシーン時間設定部201はロボットの一連の動作区間の時間情報を取得し、伸縮パラメータ算出部204はこの動作区間と読み上げ音声情報601に基づいて、この動作区間内で読み上げが完了するように音声の伸縮パラメータを調整する。調整後音声生成部206は調整後の伸縮パラメータに基づいた速度の読み上げ音声を生成し、プロセッサ110はロボットの動作開始時間と音声読み上げの開始時間が同じタイミングとなるように、ロボットの動作に音声の読み上げを同期して出力する。
本実施の形態の電子機器10によれば、それぞれの区間で音声の読み上げを完了できる速度を算出し、算出結果に基づいて遅い読み上げ速度の音声読み上げを速い読み上げ速度に一致させるように調整して、調整した区間については調整後の読み上げ速度で、調整していない区間についてはそれぞれの区間で音声の読み上げを完了できる読み上げ速度で音声を読み上げるため、全ての対象区間で、完了すべき区間内での音声の読み上げを完了させつつ、音声読み上げの速度変化による音声の聞き取りづらさを低減することができる。
また本実施の形態では音声読み上げの速度の向上率を複数区間で一律とするため、読み上げ速度の速度変化がなくユーザが聞き取り易い音声読み上げを実現できる。
実施の形態2.
次に、本発明の実施の形態2について説明する。
次に、本発明の実施の形態2について説明する。
実施の形態2の電子機器10は、音声読み上げの速度調整を実行する際、各サブシーンの読み上げ速度を一律で向上させるのではなく、サブシーン間の速度変化が小さくなるように各サブシーンの読み上げ速度を個別に調整する。本処理について図面を用いて説明を行う。
尚、実施の形態1と同一又は相当の機能を有する構成については実施の形態1と同様の名称、符号を付している。異なる機能を有する構成には同じ名称であっても異なる符号を付している。また以下では、実施の形態1と重複する説明は省略し、異なる構成及び処理について重点的に説明を行う。尚、ハードウェア構成については実施の形態1と同様のため、説明を割愛する。
図11は、本実施の形態においてコンテンツ生成処理を実行するための機能構成の一例を示すブロック図である。
音声生成プログラム1101は、許容差情報1103を有している。
許容差情報1103は、各サブシーン間に許容する伸縮パラメータの許容差に関する情報である。許容差情報1103はコンテンツ全体の中で許容する各サブシーンの伸縮パラメータの差の情報と、隣接するサブシーン間(隣り合う区間)で許容する伸縮パラメータの差の情報とを含んでいる。
そして、伸縮パラメータ調整部1102は、各サブシーンの伸縮パラメータの差が許容差情報1103にて許容されている差以下となるように、伸縮パラメータの調整を実行する機能を有している。
次に、伸縮パラメータ調整部1102が許容差情報1103を用いて実行する伸縮パラメータの調整処理の詳細について説明する。
図12は、本実施の形態における伸縮パラメータ調整処理の一例を示す図である。
伸縮パラメータ調整部1102は、伸縮パラメータ算出部204から入力される伸縮パラメータ情報801と許容差情報1103とに基づいて、各サブシーンの伸縮パラメータを調整する。
本実施の形態の許容差情報1103は、コンテンツ全体での伸縮パラメータの許容差が0.2、隣接するサブシーン間の伸縮パラメータの許容差が0.1であることを示したデータである。つまり、許容差情報1103ではコンテンツ全体に含まれる、サブシーン毎の伸縮パラメータの最大値と最小値との差を0.2以下とするように、伸縮パラメータを調整することが規定されている。同様に、許容差情報1103では、隣接するサブシーン間の伸縮パラメータの差を0.1以下とするように、伸縮パラメータを調整することが規定されている。
伸縮パラメータ調整部1102は、この許容差情報1103が規定するように各サブシーンの伸縮パラメータを調整する。
図12に示す例では、伸縮パラメータの最小値がサブシーン1の0.7、最大値がサブシーン4の0.95となっているので、伸縮パラメータ調整部1102はこの伸縮パラメータ同士の差が0.2となるようサブシーン4の伸縮パラメータを0.9に調整する。この処理により全てのサブシーン間(3つ以上の区間)の伸縮パラメータの差が0.2以下となったので、全体の調整処理は以上となる。
次に、伸縮パラメータ調整部1102は隣接するサブシーン間の伸縮パラメータの差を算出し、隣接するサブシーン間の伸縮パラメータの差が0.1より大きい場合は、大きい方の値を調整する。つまり、図12では、伸縮パラメータ調整部1102はサブシーン1の伸縮パラメータとの差が0.1以下となるように、サブシーン2の伸縮パラメータを0.8に調整する。また、サブシーン3の伸縮パラメータとの差が0.1以下となるように、サブシーン4の伸縮パラメータを0.88に調整する。
伸縮パラメータ調整部1102は、上述のように伸縮パラメータの調整を行い、調整伸縮パラメータ情報1201を調整後音声生成部206に送信する。以降、電子機器10は実施の形態1と同様に調整伸縮パラメータ情報1201に基づいて読み上げ音声データを生成し、コンテンツを生成および出力する。
次に本実施の形態の処理フローについて説明する。
図13は、本実施の形態における電子機器10が実行するコンテンツ生成の処理フローの一例を示すフローチャートである。
処理フローは実施の形態1と多くの部分で同様だがステップST1306では、伸縮パラメータ情報801が入力された伸縮パラメータ調整部1102は、伸縮パラメータ情報801と許容差情報1103とに基づいて伸縮パラメータの調整を行う。
この伸縮パラメータの調整処理の処理フローについて詳細に説明を行う。
図14は、本実施の形態における電子機器10が実行する伸縮パラメータの調整の処理フローの一例を示すフローチャートである。
伸縮パラメータの調整処理としてまず、伸縮パラメータ調整部1102は、伸縮パラメータ算出部204から入力される伸縮パラメータ情報801と許容差情報1103に基づいて、許容差情報1103の全体での伸縮パラメータの許容差に収まらないサブシーンを検出する(ステップST1401)。この時、伸縮パラメータ調整部1102は、最小値の伸縮パラメータを基準として、この許容差情報1103の全体での伸縮パラメータの許容差に収まらないサブシーンを検出する。つまり、最小値の伸縮パラメータとの差が、許容差情報1103の全体での伸縮パラメータの許容差以上となるサブシーンを検出する。
次に、伸縮パラメータ調整部1102は、検出したサブシーンの伸縮パラメータの差がコンテンツ全体の許容差に収まるように高い方(最小値でない方)の伸縮パラメータの値を下げるよう調整する(ステップST1402)。この時、高い方の伸縮パラメータの値は、最小値の伸縮パラメータの値とコンテンツ全体の許容差の値の和となるよう調整される。
次に、伸縮パラメータ調整部1102は、隣接するサブシーンの伸縮パラメータの調整処理に入り、最小値のサブシーンに隣接するサブシーンの伸縮パラメータを隣接サブシーンの許容差に収まる値に調整する(ステップST1403)。
ステップST1403の後、伸縮パラメータ調整部1102は、調整の基準となったサブシーンの次に伸縮パラメータの値が小さいサブシーンを検出し(ステップST1404)、隣接サブシーンの許容差に収まるように、このサブシーンに隣接するサブシーンの伸縮パラメータを調整(ステップST1405)する(隣接するサブシーンの伸縮パラメータを許容差内迄下げるように調整する)。図12の例では、伸縮パラメータ調整部1102は、隣接するサブシーン同士の値の差が0.1となるように、高い方の伸縮パラメータの値を調整する。
伸縮パラメータ調整部1102が、全てのサブシーンが確認されたと判断しない場合(ステップST1406:No)には処理フローはステップST1404に戻り、伸縮パラメータ調整部1102が、全てのサブシーンが確認されたと判断した場合(ステップST1406:Yes)には伸縮パラメータの調整処理の処理フローは終了となる。
上記処理フローではコンテンツ全体での許容差に基づいた調整処理を先に実行し、その後に隣接サブシーン間での許容差に基づいた調整処理を実行する例を示したが、これに限定されず、例えばこの処理を逆の順番に実行するとしてもよい。
上述では、許容差情報1103はコンテンツ全体と隣接サブシーン間での伸縮パラメータの許容差を規定していたが、これに限定されず、例えば所定の期間に含まれる複数サブシーンにおける許容差を規定するとしても良い。また、許容差情報1103は離れたサブシーン間での許容差を規定するとしても良い。さらに、許容差情報1103は異なるコンテンツにおける許容差を規定するとしても良い。
本実施の形態において伸縮パラメータ調整部1102は伸縮パラメータの調整を実行しているが、実施の形態1に記載したように、本調整処理は実質的に各サブシーンの読み上げ速度の調整をしていることと同義である。
本実施の形態では、読み上げ音声の速度の変化を一律とするのではなく、サブシーン毎の読み上げ速度の変化を人間の聴覚上気にならない程度の変化量に設定できる構成とした。
この構成により、完了すべき区間内で音声の読み上げを完了させつつ、速度変化による読み上げ音声の聞き取りづらさを改善することができる。さらに、読み上げ音声の速度を高い変化率で一律に調整する場合と比較して、読み上げ速度をあまり変化させる必要のないサブシーン(聞き取りづらさにあまり影響を与えないサブシーン)については、初期値に近い速度での読み上げを行うことができ、サブシーン毎の読み上げ音声のそれぞれは初期値の速度に近く、ユーザに聞き取り易い音声となる可能性がある。
また、サブシーン毎の読み上げ音声のそれぞれがユーザに聞き取り易くなるという効果を奏しつつ、隣接するサブシーンの読み上げ音声の速度の変化量は小さく抑えることができるので、サブシーンが切り替わった際にユーザに与える違和感や聞き取りづらさを低減することができる。
実施の形態3.
次に、本発明の実施の形態3について説明する。
次に、本発明の実施の形態3について説明する。
実施の形態3の電子機器10は、読み上げられる音声の内容に基づいて、伸縮パラメータの調整を行う。具体的には、聞き手が聞きなれている文言については音声読み上げの速度を速くしても聞き手は内容を容易に理解できるため、この文言の読み上げ速度の向上は他のサブシーンより優先して実行する。また、重要な情報を含む読み上げ音声は、読み上げ速度を速くし過ぎないように伸縮パラメータの調整を行う。本処理について以下で図面を用いて説明を行う。
尚、実施の形態1と同一又は相当の機能を有する構成については実施の形態1と同様の名称、符号を付している。異なる機能を有する構成には同様の名称であっても異なる符号を付している。また以下では、実施の形態1と重複する説明は省略し、異なる構成及び処理について重点的に説明を行う。尚、ハードウェア構成については実施の形態1と同様のため、説明を割愛する。
図15は、本実施の形態においてコンテンツ生成処理を実行するための機能構成の一例を示すブロック図である。
音声生成プログラム1501は、特殊扱い情報1503を有している。
特殊扱い情報1503は、読み上げ速度の向上を他のサブシーンより優先して実行するサブシーンを判別するための情報(優先短縮情報)と、他のサブシーンの伸縮パラメータに基づく伸縮パラメータの調整を行わないサブシーンを判別するための情報(非調整情報)とを有している。
コンテンツ生成プログラム1504のサブシーン時間設定部1505は、伸縮パラメータ調整部1502に読み上げデータ302を送信する機能を有している。
伸縮パラメータ調整部1502は、サブシーン時間設定部1505から送信される読み上げデータ302および特殊扱い情報1503に含まれる優先短縮情報と非調整情報とに基づいて、各サブシーンの伸縮パラメータの調整を実行する機能を有している。
まず、優先短縮情報に基づいた各サブシーンの伸縮パラメータの調整処理について説明する。
図16は、本実施の形態における伸縮パラメータ調整処理の一例を示す図である。
伸縮パラメータ調整部1502は、伸縮パラメータ算出部204から入力される伸縮パラメータ情報801、サブシーン時間設定部1505から送信される読み上げデータ302、および特殊扱い情報1503に基づいて各サブシーンの伸縮パラメータを調整する。
特殊扱い情報1503には、優先短縮情報として聞き手が聞き慣れている可能性の高い文言が記憶されている。ここで、聞き手が聞き慣れている文言としてはコンテンツ内の定型的な文言があげられる。図16では電子機器10が天気予報のコンテンツを生成する例を示しており、天気予報の定型文である「全国のお天気です。」、「以上、全国のお天気でした。本日もよい一日をお過ごしください。」という文言が優先短縮情報として登録されている。
伸縮パラメータ調整部1502は、優先短縮情報として登録されている文言(第1の文言)と一致する又はこの文言を含む文言が読み上げられるサブシーン(第1の文言を含んでいる第3の区間)については他のサブシーンより優先して読み上げ速度の向上処理を実行する。つまり、優先短縮情報と文言が一致するサブシーン1、4については読み上げ速度の向上を行っても聞き手の文言の聞き取りづらさへの影響は少ないので、伸縮パラメータ調整部1502は、これらのサブシーンにはより伸縮パラメータの小さい(読み上げ速度の速い)サブシーンの伸縮パラメータを適用するが、これらの以外のサブシーンには対して、これらの伸縮パラメータに基づいた伸縮パラメータの調整(読み上げ速度の調整)は実行しない。図16にて具体的に説明すると、サブシーン4は伸縮パラメータが0.8であり最小の伸縮パラメータだが、サブシーン4は優先短縮情報と文言が一致するサブシーンであるため、この伸縮パラメータを他のサブシーンには適用せず、優先短縮情報と文言が一致しないサブシーン(読み上げられる音声が第1の文言を含んでいない区間)のうち、伸縮パラメータが最も小さいサブシーン3の伸縮パラメータ0.9をサブシーン1およびサブシーン2に適用する。このように構成することで、聞き取り手が聞き取りなれていないと考えられる他のサブシーンの音声読み上げについては、初期値からの速度の変化が小さくなる可能性がある。
次に、非調整情報に基づいた各サブシーンの伸縮パラメータの調整処理について説明する。
図17は、本実施の形態における伸縮パラメータ調整処理の一例を示す図である。
特殊扱い情報1503には、非調整情報として聞き手にとって重要な情報を指す可能性の高い文言(第2の文言)が記憶されている。図17の例では電子機器10が天気予報のコンテンツを生成する例を示しており、「台風情報」「大雪情報」という文言が非調整情報として登録されている。
伸縮パラメータ調整部1502は、非調整情報として登録されている文言(第2の文言)を含むサブシーン(読み上げられる音声が第2の文言を含む第5の区間)については他のサブシーンの調整パラメータを適用しないように伸縮パラメータを調整する。
つまり、「台風情報」という文言を含むサブシーン4は他のサブシーンより情報の重要度が高く、聞き手の認識性を高めるために読み上げの速度を速くし過ぎるべきではないので、サブシーン4については、他のサブシーンの伸縮パラメータに基づいた伸縮パラメータ(読み上げ速度)の調整は実行しない。
図17の例では非調整情報の文言を含まないサブシーン1から3(読み上げられる音声が第2の文言を含んでいない区間)は、最も伸縮パラメータの値が低いサブシーン3の伸縮パラメータ0.8を適用して伸縮パラメータの調整を行うが、非調整情報の文言を含むサブシーン4については他のサブシーンの伸縮パラメータに基づいた伸縮パラメータの調整を実行しない。
このように構成することで、重要な情報の読み上げ速度が他のサブシーンの読み上げ速度に影響を受けて早くなりすぎるような事態を回避することができ、ユーザは重要な情報の読み上げ内容を理解しやすくなる。
伸縮パラメータ調整部1502は、伸縮パラメータ情報801、読み上げデータ302、および特殊扱い情報1503に基づいて各サブシーンの伸縮パラメータを調整し、調整伸縮パラメータ情報1701を調整後音声生成部206に送信する。
次に本実施の形態の処理フローについて説明する。
図18は、本実施の形態における電子機器10が実行するコンテンツ生成の処理フローの一例を示すフローチャートである。
処理フローは実施の形態1と多くの部分で同様だがステップST1806では、伸縮パラメータ情報801が入力された伸縮パラメータ調整部1502は、サブシーン時間設定部1505から読み上げデータ302を受信し、この読み上げデータ302、伸縮パラメータ情報801、および特殊扱い情報1503に基づいて各サブシーンの伸縮パラメータを調整し、調整伸縮パラメータ情報1701を出力する。
この伸縮パラメータの調整処理の処理フローについて詳細に説明を行う。
図19は、本実施の形態における電子機器10が実行する伸縮パラメータの調整の処理フローの一例を示すフローチャートである。
まず、伸縮パラメータ情報801および読み上げデータ302が入力された伸縮パラメータ調整部1502は、特殊扱い情報1503と各サブシーンの読み上げデータ302とを比較し(ステップST1901)、各サブシーンの読み上げデータ302に特殊扱い情報1503の優先短縮情報と非調整情報の文言との一致があるか否かを判別する(ステップST1902)。
ステップST1902において、読み上げデータ302が優先短縮情報として登録されている文言を含む場合(優先短縮情報の文言と一致するまたは文言を含む文言のサブシーンが存在する場合)、伸縮パラメータ調整部1502は、優先短縮情報の文言に一致したまたは文言を含んだサブシーンの伸縮パラメータは他サブシーンに適用せず、一致したサブシーン以外の最小の伸縮パラメータを用いて、各サブシーンの伸縮パラメータを調整する(ステップST1903)。尚、文言が一致した又は文言を含んだサブシーンについては、当該サブシーンの伸縮パラメータが他の伸縮パラメータより低ければ、伸縮パラメータ調整部1502はこのサブシーンの伸縮パラメータに調整は行わず、当該サブシーンの伸縮パラメータが他の伸縮パラメータより高ければ、他のサブシーンの伸縮パラメータを当該サブシーンに適用する。
ステップST1902において、読み上げデータ302が非調整情報として登録されている文言を含む場合(非調整情報の文言を含む文言のサブシーンが存在する場合)、伸縮パラメータ調整部1502は、非調整情報として登録されている文言を含むサブシーン以外のサブシーン間でパラメータ調整を実行し(ステップST1904)、非調整情報として登録されている文言を含むサブシーンには伸縮パラメータの調整を行わない。
ステップST1902おいて、各サブシーンの読み上げデータ302が特殊扱い情報1503に登録されている文言を含まない場合、各サブシーンの中の最小の伸縮パラメータを他のサブシーンの伸縮パラメータに適用するパラメータ調整を行う(ステップST1905)。
ステップST1903、ステップST1904、又はステップST1905が完了すると、伸縮パラメータの調整処理フローは終了となる。
本実施の形態において、特殊扱い情報1503は電子機器10が予め有するものとして例示して説明したが、これに限定されず、通信部160を介して入力されてもよいし、アップデートされるものであってもよい。また、電子機器10は類似するコンテンツに基づいて、頻出する形態素や文字列を学習した統計モデルを持ち、閾値以上の頻度で出現している形態素や文字列を優先短縮情報として登録するとしても良い。さらに、類似するコンテンツではなくても、ユーザがよく視聴するコンテンツに基づいて、頻出する形態素や文字列を学習した統計モデルを持ち、閾値以上の頻度で出現している形態素や文字列を優先短縮情報として登録するとしても良い。
また、同じサブシーンで同期して表示される映像に含まれる文字を参照して優先短縮情報を決定するとしても良い。この場合、図示しない文字認識部で、同サブシーンで表示されている映像に含まれた文字の文字認識やクローズドキャプションの解析を行い、表示されている文言を優先短縮情報として決定してもよい。さらに、表示されている文字が重要であると判断した場合は、このサブシーンを非調整情報の対象として、同サブシーンの音声読み上げの速度を向上させないという構成にしてもよい。
本実施の形態では、読み上げ音声の速度の変化を一律とするのではなく、読み上げ速度が速くてもユーザが理解しやすい文章と、重要情報を含む文章の読み上げ速度の調整を他の読み上げ文章と異ならせた。これらのユーザが理解しやすい文章と、重要情報を含む文章以外の区間では読み上げ速度の速い区間の読み上げ速度に他の区間の読み上げ速度を一致させるように読み上げ速度の調整を行い、ユーザが理解しやすい文章や重要情報を含む文章についても、当該区間にて読み上げが完了するように読み上げ速度の調整を行っている。この構成により、全ての区間内で音声の読み上げを完了させつつ、ユーザが理解しやすい文章や重要情報を含む文章以外の区間の間での読み上げ速度の変化による読み上げ音声の聞き取りづらさを改善することができる。さらに、ユーザが理解しやすい文章はその文章に応じた読み上げ速度で読み上げつつ、他の区間は他の区間同士の間で適切に速度調整を行うので、他の区間の読み上げ速度の向上率が上昇する可能性を低減させ、ユーザの文言理解度の低減を抑えつつ、ユーザが聞き取り易い音声読み上げを実現することができる。また、重要情報を含む文章はその文章に対応する区間に応じた読み上げ速度で読み上げつつ、他の区間は他の区間同士の間で適切に速度調整を行うので、ユーザが傾聴すべき重要な情報の読み上げ速度を速くし過ぎることなく、ユーザが聞き取り易い音声読み上げを実現することができる。
実施の形態4.
次に、本発明の実施の形態4について説明する。
次に、本発明の実施の形態4について説明する。
実施の形態4の電子機器10は、機器動作は実施の形態1と同様であるが、コンテンツ生成機能と音声生成機能とがプログラムとしてストレージ130に保存されているのではなく、計算処理を実行するハードウェアである回路上に実装されている点が実施の形態1と異なる。
図20は、本実施の形態における電子機器10のハードウェア構成図の一例を示すブロック図である。
回路2010は、計算処理を実行する半導体回路であり、回路2010にはコンテンツ生成モジュール2011と音声生成モジュール2012が実装されている。
コンテンツ生成モジュール2011は、実施の形態1のコンテンツ生成プログラム131と同様の機能を有するアルゴリズムである。
音声生成モジュール2012は、実施の形態1の音声生成プログラム132と同様の機能を有するアルゴリズムである。
回路2010は、コンテンツ生成モジュール2011および音声生成モジュール2012に基づいた処理により、実施の形態1と同様の動作を実行し、同様の機能を発揮することができる。機能ブロックの構成や処理内容および処理フローは実施の形態1にて説明された内容と重複するため、ここでは説明を割愛する。
本実施の形態のように、電子機器10が機能を発揮するための構成はソフトウェアのみではなく、ハードウェアによる実現も可能である。
以上、本発明について実施の形態をもとに説明した。これらの実施の形態の各構成要素や各処理プロセスの組み合わせに種々の変形例が可能なことは、言うまでもない。
10 電子機器、110 プロセッサ、120 メモリ、130 ストレージ、131 コンテンツ生成プログラム、132 音声生成プログラム、133 言語辞書、134 音声辞書、140 ディスプレイ、150 スピーカ、160 通信部、170 入力部、180 マイク、190 バス、301 コンテンツフレームワーク、302 読み上げデータ、303 映像データ、201 サブシーン時間設定部、202 音声生成部、203 時間長算出部、204 伸縮パラメータ算出部、205 伸縮パラメータ調整部、206 調整後音声生成部、207 コンテンツ生成部、501 サブシーンの時間長情報、601 読み上げ音声情報、701 時間長情報、801 伸縮パラメータ情報、901 調整伸縮パラメータ情報、1101 音声生成プログラム、1102 伸縮パラメータ調整部、1103 許容差情報、1201 調整伸縮パラメータ情報、1501 音声生成プログラム、1502 伸縮パラメータ調整部、1503 特殊扱い情報、1504 コンテンツ生成プログラム、1505 サブシーン時間設定部、1701 調整伸縮パラメータ情報、2010 回路、2011 コンテンツ生成モジュール、2012 音声生成モジュール
Claims (11)
- それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部と、
前記算出部の算出結果に基づいて、前記それぞれの区間の内の第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に近づける又は一致させるように調整する調整部と、
前記調整部で読み上げ速度の調整を実施した区間では前記調整部で調整した読み上げ速度の、前記調整部で読み上げ速度の調整を実施していない区間では前記算出部で算出された読み上げ速度の音声を生成する音声生成部と、を備えた電子機器。 - 前記調整部は、前記第2の区間の読み上げ速度を前記第1の読み上げ速度に一致させる請求項1記載の電子機器。
- 前記調整部は、読み上げ速度の許容差を規定した許容差情報に基づいて、前記第2の区間の読み上げ速度と前記第1の読み上げ速度との差が前記許容差に収まるように前記第2の区間の読み上げ速度を調整する請求項1記載の電子機器。
- 前記許容差情報には、3つ以上の区間の読み上げ速度の最大値と最小値の許容差が規定されており、
前記調整部は、前記許容差情報に基づいて読み上げ速度の最大値と最小値との差が、前記許容差内に収まるように、読み上げの速度が最小の区間の読み上げ速度を調整する請求項3記載の電子機器。 - 前記許容差情報には、隣り合う区間の読み上げの速度の許容差が規定されており、
前記調整部は、前記許容差情報に基づいて隣り合う区間の読み上げの速度の差が、前記許容差内に収まるように、前記隣り合う区間の内の読み上げ速度の遅い区間の読み上げ速度を調整する、請求項3又は請求項4のいずれか1項に記載の電子機器。 - 前記調整部は、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第3の区間の第3の読み上げ速度が、算出された第4の区間の前記第4の読み上げ速度より速い場合であって、前記第3の区間で読み上げられる音声が第1の文言を含んでいない場合、前記第4の区間の読み上げ速度を前記第3の区間の前記第3の読み上げ速度に近づける又は一致させる調整を実行し、
前記それぞれの区間の内の前記第3の区間の前記第3の読み上げ速度が、算出された前記第4の区間の前記第4の読み上げ速度より速い場合であって、前記第3の区間で読み上げられる音声が前記第1の文言を含んでいる場合、前記第4の区間の読み上げ速度を前記第3の区間の前記第3の読み上げ速度に近づける又は一致させる調整を実行しない請求項1から請求項5のいずれか1項に記載の電子機器。 - 前記調整部は、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第5の区間の第5の読み上げ速度が前記第1の区間の前記第1の読み上げ速度より遅い場合であって、前記第5の区間で読み上げられる音声が第2の文言を含んでいない場合、前記第5の区間の読み上げ速度を、前記第1の区間の前記第1の読み上げ速度に近づける又は一致させる調整を実行し、
前記それぞれの区間の内の前記第5の区間の前記第5の読み上げ速度が前記第1の区間の前記第1の読み上げ速度より遅い場合であって、前記第5の区間で読み上げられる音声が前記第2の文言を含む場合、前記第5の区間の読み上げ速度を、前記第1の区間の読み上げ速度に近づける又は一致させる調整を実行しない請求項1から請求項6のいずれか1項に記載の電子機器。 - それぞれが割り当てられた区間で表示される複数の映像を示す情報の入力を受け付け、それぞれの区間に割り当てられた映像と、それぞれの区間に割り当てられ、前記音声生成部で生成された音声とを同期させたコンテンツを生成するコンテンツ生成部を更に備えた請求項1から請求項7のいずれか1項に記載の電子機器。
- 前記コンテンツ生成部で生成されたコンテンツの映像を表示するディスプレイと、
前記コンテンツ生成部で生成されたコンテンツの音声を出力するスピーカと、を更に備えた請求項8に記載の電子機器。 - それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、
前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出し、
前記算出結果に基づいて、前記それぞれの区間の内の第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に近づける又は一致させるように調整し、
前記読み上げ速度の調整を実施した区間では調整した読み上げ速度の、前記読み上げ速度の調整を実施していない区間では前記算出された読み上げ速度の音声を生成する音声制御方法。 - 処理装置を有する電子機器で実行されるプログラムであって、前記処理装置に、
それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付けさせ、
前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出させ、
前記算出結果に基づいて、前記それぞれの区間の内の第1の区間の第1の読み上げ速度より遅い第2の区間の第2の読み上げ速度を、前記第1の読み上げ速度に近づける又は一致させるように調整させ、
前記読み上げ速度の調整を実施した区間では調整した読み上げ速度の、前記読み上げ速度の調整を実施していない区間では前記算出された読み上げ速度の音声を生成させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018564426A JP6486582B2 (ja) | 2017-03-30 | 2017-03-30 | 電子機器、音声制御方法、およびプログラム |
PCT/JP2017/013231 WO2018179209A1 (ja) | 2017-03-30 | 2017-03-30 | 電子機器、音声制御方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/013231 WO2018179209A1 (ja) | 2017-03-30 | 2017-03-30 | 電子機器、音声制御方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2018179209A1 true WO2018179209A1 (ja) | 2018-10-04 |
Family
ID=63674458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/013231 WO2018179209A1 (ja) | 2017-03-30 | 2017-03-30 | 電子機器、音声制御方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6486582B2 (ja) |
WO (1) | WO2018179209A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200027439A1 (en) * | 2019-08-05 | 2020-01-23 | Lg Electronics Inc. | Intelligent text to speech providing method and intelligent computing device for providing tts |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005476A (ja) * | 1999-06-22 | 2001-01-12 | Matsushita Electric Ind Co Ltd | プレゼンテーション装置 |
JP2012078755A (ja) * | 2010-10-06 | 2012-04-19 | Nippon Hoso Kyokai <Nhk> | 話速調整装置、音声合成システム、およびプログラム |
-
2017
- 2017-03-30 JP JP2018564426A patent/JP6486582B2/ja active Active
- 2017-03-30 WO PCT/JP2017/013231 patent/WO2018179209A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005476A (ja) * | 1999-06-22 | 2001-01-12 | Matsushita Electric Ind Co Ltd | プレゼンテーション装置 |
JP2012078755A (ja) * | 2010-10-06 | 2012-04-19 | Nippon Hoso Kyokai <Nhk> | 話速調整装置、音声合成システム、およびプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200027439A1 (en) * | 2019-08-05 | 2020-01-23 | Lg Electronics Inc. | Intelligent text to speech providing method and intelligent computing device for providing tts |
Also Published As
Publication number | Publication date |
---|---|
JP6486582B2 (ja) | 2019-03-20 |
JPWO2018179209A1 (ja) | 2019-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
JP5482042B2 (ja) | 合成音声テキスト入力装置及びプログラム | |
JP5750380B2 (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
WO2017197809A1 (zh) | 语音合成方法和语音合成装置 | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
CN110867177A (zh) | 音色可选的人声播放系统、其播放方法及可读记录介质 | |
JP5093239B2 (ja) | 文字情報提示装置 | |
JPWO2011004579A1 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
KR100659212B1 (ko) | 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법 | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
KR20200142282A (ko) | 컨텐츠 번역 서비스를 제공하는 전자 장치 및 그 제어 방법 | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP6486582B2 (ja) | 電子機器、音声制御方法、およびプログラム | |
CN115171645A (zh) | 一种配音方法、装置、电子设备以及存储介质 | |
JPH0756494A (ja) | 発音訓練装置 | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
CN113421571B (zh) | 一种语音转换方法、装置、电子设备和存储介质 | |
JP5164041B2 (ja) | 音声合成装置、音声合成方法、及びプログラム | |
JP2015102773A (ja) | 音声発生装置、音声変形装置及び方法 | |
JP2015052748A (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP2006139162A (ja) | 語学学習装置 | |
JP2016186646A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
CN114446304A (zh) | 语音交互方法、数据处理方法、装置和电子设备 | |
JP2015187738A (ja) | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム | |
WO2021255831A1 (ja) | 送信装置、コミュニケーション方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17903198 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2018564426 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17903198 Country of ref document: EP Kind code of ref document: A1 |