WO2016143420A1 - 提示装置、提示装置の制御方法、および制御プログラム - Google Patents

提示装置、提示装置の制御方法、および制御プログラム Download PDF

Info

Publication number
WO2016143420A1
WO2016143420A1 PCT/JP2016/053260 JP2016053260W WO2016143420A1 WO 2016143420 A1 WO2016143420 A1 WO 2016143420A1 JP 2016053260 W JP2016053260 W JP 2016053260W WO 2016143420 A1 WO2016143420 A1 WO 2016143420A1
Authority
WO
WIPO (PCT)
Prior art keywords
accent
word
type
candidate
unit
Prior art date
Application number
PCT/JP2016/053260
Other languages
English (en)
French (fr)
Inventor
康陽 福山
喬弘 大川
伸久 中川
義親 飯田
悟史 江口
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Publication of WO2016143420A1 publication Critical patent/WO2016143420A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present invention relates to an apparatus for setting an accent of a word to be output as a voice.
  • Patent Document 1 discloses a technique for displaying a candidate accent type according to a combination of the number of characters and the number of beats when a word is expressed in Kanji, and allowing a user to select a desired accent type.
  • Patent Document 2 discloses a technique for displaying a candidate accent position of a personal identification name with a mark and allowing the user to select it.
  • Patent Document 3 discloses a technique for displaying a plurality of character strings with accent marks at different positions and allowing the user to select them.
  • Japanese Patent Publication “JP-A-8-320864” (published on December 3, 1996) Japanese Patent Publication “Japanese Patent Laid-Open No. 11-109991” (published on April 23, 1999) Japanese Published Patent Publication “Japanese Patent Laid-Open No. 2006-98552” (published on April 13, 2006)
  • Patent Document 1 it is necessary to specify a combination of the number of kanji characters and the number of beats in order to determine an accent type candidate, and the processing is complicated. Also, it is difficult to apply to words that contain components other than kanji.
  • the techniques of Patent Documents 2 and 3 have a problem that it is difficult for the user to select candidates because the number of candidates increases without limit as the number of characters increases.
  • the present invention has been made in view of the above problems, and an object thereof is to provide a presentation device and the like that can easily select an accent type of a word.
  • a presentation device is a presentation device that presents a user with accent-type candidates to be set in a word to be output as a voice, and includes the number of syllables or reading of the word.
  • a specifying unit that specifies the number of characters, and a candidate presenting unit that presents one or more accent types according to the number of syllables or reading characters specified by the specifying unit among a plurality of accent types as a user selection candidate, It has.
  • a control method for a presentation device is a control method for a presentation device that presents an accent type candidate to be set to a word to be output as a voice to a user in order to solve the above-described problem.
  • a step of specifying the number of syllables or reading characters of the word, and a user selecting one or more accent types according to the number of syllables or reading characters specified in the specifying step among a plurality of accent types A candidate presenting step for presenting as a candidate.
  • FIG. 1 is a block diagram illustrating an example of a main configuration of the terminal device 1.
  • the terminal device 1 has a function of making a voice utterance (voice output) and a function of allowing a user to set an accent type (pattern) of a word to be uttered.
  • the terminal device 1 may be a multi-function terminal such as a smartphone or a tablet terminal, or may be a device such as a dialog robot whose main function is dialog with a user.
  • the terminal device 1 includes a control unit 10, a storage unit 20, a display unit 30, an input unit 40, and an audio output unit 50.
  • the control unit 10 controls the operation of the terminal device 1 in an integrated manner, and the storage unit 20 stores various data used by the terminal device 1.
  • the display unit 30 displays an image according to the control of the control unit 10, and the input unit 40 receives an input operation of the user of the terminal device 1 and transmits it to the control unit 10.
  • the sound output unit 50 outputs sound according to the control of the control unit 10.
  • the voice includes a speech to the user, that is, the terminal device 1 also has a function as a voice speech device.
  • the terminal device 1 may include blocks other than these.
  • a voice input unit that receives a user's voice input, a communication unit for communicating with other devices, and the like may be provided. Also, by providing at least a part of these blocks (excluding the control unit 10) outside the terminal device 1 and connecting to the terminal device 1 by wire or wirelessly, the same function as the terminal device 1 shown in the figure is realized. it can.
  • control unit 10 includes a candidate presentation unit 11, a syllable number identification unit (specification unit) 12, a word registration unit 13, a word division unit 14, and an utterance processing unit 15.
  • the storage unit 20 stores an utterance dictionary 21.
  • the candidate presentation unit 11 presents, as a user selection candidate, an accent type corresponding to the number of syllables specified by the syllable number specification unit 12 among a plurality of predetermined accent types.
  • the candidate presentation unit 11 uses the type of user name.
  • the corresponding accent type is presented as a user selection candidate. The selection candidates to be presented will be described later.
  • the syllable number specifying unit 12 specifies the number of syllables of a word for which an accent type is set.
  • the word is Japanese, and the number of syllables can be simply determined for the purpose of reducing the processing load of the terminal device 1 and enabling a quick response to the user. Good. Therefore, the syllable number specifying unit 12 counts the number of characters in the word and specifies the number of characters as the syllable number.
  • the “number of characters” referred to here is the number of characters (the number of reading characters) when the word is pronounced, and if the word contains kanji, it is replaced with hiragana or katakana and the number of characters is counted.
  • a predetermined type of character sound repellent, prompting sound, long sound
  • the word registration unit 13 performs processing for registering a word to be uttered by the terminal device 1. Specifically, the word registration unit 13 displays a word registration acceptance screen on the display unit 30 in response to a user input operation, and the word input on this screen is used as a word to be uttered by the terminal device 1. get.
  • the word registration acceptance screen is not particularly limited as long as it is a screen that prompts the user to input a word. For example, the screen shown in FIG. 2 may be used.
  • FIG. 2 is a diagram showing an example of a word registration acceptance screen.
  • a character string let's tell the name
  • the word registration unit 13 receives an input of a name (name) when the terminal device 1 (more specifically, a predetermined program that operates on the terminal device 1) calls the user as a word to be uttered by the terminal device 1. .
  • the word registration unit 13 inputs a predetermined type of word called a user's name (name)
  • an area for displaying the received name is displayed after receiving the input of the name.
  • the figure shows an example of a screen when the display unit 30 is configured by a touch panel and the display surface also serves as the input unit 40, and a character string can be input by touching the above area. Is assumed.
  • the name “Naoki” is entered in this area.
  • the upper limit of the number of characters that can be input (16 hiragana characters) is shown below the name, but the limitation on the number of characters and the display of the limited number of characters are not essential.
  • a selection item for starting the accent type setting of the input name is displayed.
  • the word registration unit 13 instructs the candidate presentation unit 11 to present an accent type candidate of the input name.
  • the accent type selected from the candidates is set for the input name, and is registered in the utterance dictionary 21 together with the set accent type.
  • the registered name is uttered with the set accent.
  • the word dividing unit 14 divides the input word received by the word registration unit 13 into individual words when the input word is a compound word composed of a plurality of words. For example, when “Tokyo Tower” is input, the word dividing unit 14 divides this into “Tokyo” and “Tower”. An accent type can be individually set for the words obtained by the division.
  • the utterance processing unit 15 performs various processes related to voice utterances. Specifically, the utterance processing unit 15 determines the utterance content, generates audio data of the determined utterance content, transmits the generated audio data to the audio output unit 50, and outputs the audio data. At this time, the utterance processing unit 15 refers to the utterance dictionary 21 and causes the speech output to be performed in the accent type defined therein.
  • the utterance dictionary 21 is a dictionary that is referred to by the utterance processing unit 15 during voice utterance.
  • various utterance types are used. Is stipulated.
  • FIG. 3 is a diagram illustrating an example of selection candidate presentation in each of the cases where the number of syllables is 2, 3 and 4 or more. This screen is displayed when a selection item (selecting a name name) for starting the accent type setting is selected in the screen example of FIG.
  • the name “Miwa” is entered. Since this name (word) is 2 characters, it is specified as 2 syllables.
  • three selection candidates of recommendation, call 1 and call 2 are presented for the two syllable words.
  • “recommended” is a selection candidate for selecting a default accent type.
  • the default accent type is an accent type used by the speech processing unit 15 when the user has not selected an accent type. Note that what type of accent is set as “recommendation” is arbitrary, and presentation of “recommendation” is not essential.
  • the call method 1 is an accent type with an accent at the head syllable as shown by the waveform showing the strength of the sound in the figure. For this reason, in the following, the accent type 1 is referred to as a head-high type.
  • the calling method 2 is an accent type with an accent at the last syllable as shown in the waveform in FIG. When this accent type is used, the first syllable is pronounced weakly, and the second syllable to the end is flat. Therefore, the accent type 2 will be referred to as a flat type hereinafter.
  • the user selects a desired one from these selection candidates (check the check box), and confirms the selection (touching “Next”), so that the user's name (input word) can be changed.
  • the accent type can be set to the accent type of the selection candidate. It should be noted that by performing a predetermined input operation on this screen, it is possible to make it possible to audition the sound produced by the accent type of each selection candidate.
  • 3 (b) in FIG. 3 is an accent type with an accent at the central syllable (character) as shown by the waveform showing the strength of the sound in the figure.
  • the accent type 2 will be referred to as a medium-high type.
  • 3 (b) is a flat plate type, similar to 2 in FIG. 3 (a).
  • the name “Kotarou” is input. Since this name (word) is 5 characters and 5 syllables, it is specified as 4 syllables or more.
  • this name (word) is 5 characters and 5 syllables, it is specified as 4 syllables or more.
  • recommendation, calling method 1 (head-high type), calling method 2 (medium-high type), and calling method 3 Four (flat type) selection candidates are presented.
  • the word registering unit 13 selects such a plurality when the middle-high type is selected.
  • the accent is set on the syllable located in the center among the syllables in the middle of the. That is, the medium-high type is one selection candidate corresponding to each accent type having an accent in any one of the intermediate syllables excluding the leading and trailing syllables. For example, in the example of “Kotaro”, there are three syllables “U”, “TA”, and “RO”, and an accent is set to “TA” located in the center of these syllables.
  • the word registration unit 13 sets an accent on the front syllable of the two central syllables.
  • the middle-high type is an accent type in which an accent is set in the central syllable if the syllable number is an odd number, and an accent is set in the front syllable of the two central syllables if the number is even.
  • an accent may be set on the rear syllable of the two central syllables.
  • an accent is set for the first character in the head height type, in the middle or front of the middle type, and in the last character in the flat type. If the character at which the accent is set is a predetermined character (sound repellent, prompting sound, long sound), an accent may be set on these characters, or an accent may be set on the character immediately before these characters. Good.
  • an accent type in which an accent is set for the syllable may be presented as a selection candidate. It can be said that this accent type is any of a high head type, a medium high type, and a flat plate type. Further, as described above, presentation of recommended selection items is optional, and in this case, one selection candidate may be presented.
  • the candidate presentation unit 11 of the terminal device 1 responds to the number of syllables of a word among the predetermined four types of accent types of head high type, medium high type, flat plate type, and recommended (default). At least one accent type is presented as a selection candidate. Thereby, the accent type of a word with many characters can be set easily.
  • the tail-high type (accent set at the second syllable from the end) is an infrequent accent type applied when calling people. ) Is excluded from the selection candidates.
  • an accent type head height type, middle high type, flat plate type with an accent set at the beginning, center, or end syllable, and an accent type with an accent set at the second syllable from the end ( It is presented as the selection candidate in preference to the Otaka type).
  • selection candidates may be presented for words inputted as names of animals and characters. That is, selection candidates may be determined and presented based on the same criteria for words classified as nicknames (including nicknames of people and nicknames other than people).
  • the tail-high type with low priority is excluded from the selection candidates, but the tail-high type may be added to the selection candidates.
  • the accent type in which an accent is set to any syllable so that the user can easily select it.
  • the head high type, middle high type, and flat plate type may be displayed on the upper side, and the tail high type may be displayed on the lower side.
  • the head-high type, middle-high type, and flat plate type may be displayed first, and the tail-high type may be displayed when an input operation such as scrolling or switching the display is performed.
  • an appropriate selection candidate in this example, a head-high type, a medium-high type, and a flat plate type
  • a display mode such as a display color and a display size.
  • selection candidates other than the tail-high type are excluded from the selection candidates, or the tail-high type is presented with priority. It is good also as a structure included in a selection candidate.
  • FIG. 4 is a flowchart illustrating an example of processing for setting an accent type.
  • the word registration part 13 acquires the word used as the object which sets an accent type (S1).
  • the word registering unit 13 transmits the acquired word to the syllable number specifying unit 12.
  • a word input by the user may be acquired by displaying a screen like the example of FIG.
  • the word registration unit 13 may divide the word into the word dividing unit 14 and acquire the word generated by the division. Also, the word registration unit 13 checks whether the acquired accent type of the word is registered in the utterance dictionary 21, and when it is confirmed that the word is not registered, transmits the word to the syllable number specifying unit 12. Also good. In other words, if an accent type has already been registered for the acquired word, the accent type is applied, and if it has not been registered, a selection candidate is presented in the processing after S2 described below and selected by the user You may let them.
  • the syllable number specifying unit 12 that has received a word from the word registration unit 13 specifies the number of syllables of the received word (S2, specifying step), and notifies the candidate presenting unit 11 of the specified number of syllables. Then, the candidate presentation unit 11 determines whether the notified syllable number is 1 (S3). When it is determined that the number of syllables notified in S3 is 1 (YES in S3), the candidate presentation unit 11 notifies the word registration unit 13 to that effect, and the word registration unit 13 that has received this notification An accent is set for the one syllable (S4), registered in the utterance dictionary 21, and the process ends. On the other hand, when the notified syllable number is not 1 (NO in S3), the candidate presentation unit 11 determines whether the notified syllable number is 2 (S5).
  • the candidate presentation unit 11 determines that the head height type and the plate type are selection candidates, and displays these selection candidates. It is displayed on the unit 30 and presented to the user (S6, candidate presentation step). In addition to these selection candidates, “recommended” may be presented as a selection candidate for selecting a default accent type. In this case, for example, a screen as shown in FIG. 3A is displayed. .
  • the candidate presentation unit 11 determines whether the head height type, the middle high type, Then, it is determined that the flat plate type is a selection candidate. Then, these selection candidates are displayed on the display unit 30 and presented to the user (S7, candidate presentation step). Also in S7, “recommended” may be included in the selection candidates. In this case, for example, a screen such as (b) or (c) in FIG. 3 is displayed. Then, when any accent type is selected from the presented selection candidates, the word registration unit 13 sets the accent type of the word acquired in S1 to the selected accent type (S8), and the utterance dictionary 21. To complete the process.
  • FIG. 5 is a block diagram illustrating an example of a main configuration of the accent type setting system 300 according to the present embodiment.
  • the accent type setting system 300 includes a terminal device (voice utterance device) 100 and a server (presentation device) 200.
  • Accent type setting system 300 is a system in which server 200 determines an accent type selection candidate for a word acquired by terminal device 100 and causes terminal device 100 to display the determined selection candidate.
  • the terminal device 100 has substantially the same configuration as the terminal device 1 except that the server 200 determines accent type selection candidates. As illustrated, the terminal device 100 includes a communication unit 120, and the control unit 110 includes a word registration unit 111.
  • the communication unit 120 is for the terminal device 100 to communicate with another device (here, the server 200).
  • the word registration unit 111 performs a process of registering a word to be uttered by the terminal device 100.
  • the acquired word is transmitted to the server 200 and the selection candidate notified from the server 200 is displayed on the display unit 30.
  • the server 200 determines an accent type selection candidate of the word acquired from the terminal device 100 and transmits it to the terminal device 100 to present it to the user of the terminal device 100.
  • the server 200 includes a control unit 210 that controls the operation of the server 200 in an integrated manner, and a communication unit 230 for the server 200 to communicate with other devices (here, the terminal device 100).
  • the control unit 210 includes a candidate presentation unit 211, a syllable number identification unit (specification unit) 212, and a word acquisition unit 213.
  • the candidate presenting unit 211 determines an accent type corresponding to the number of syllables specified by the syllable number specifying unit 212 among a plurality of predetermined accent types as a user selection candidate. Then, the determined selection candidate is notified to the user of the terminal device 100 by notifying the terminal device 100 via the communication unit 230.
  • the method for the candidate presentation unit 211 to determine the selection candidate is the same as that of the candidate presentation unit 11 of the above embodiment.
  • the syllable number specifying unit 212 specifies the number of syllables (number of characters) of a word for which an accent type is to be set in the same manner as the syllable number specifying unit 12. Further, the word acquisition unit 213 acquires a word transmitted from the terminal device 100 to the server 200, that is, a word for which an accent type is to be set, and transfers the acquired word to the syllable number specifying unit 212.
  • the word registration unit 111 of the terminal device 100 displays a word registration reception screen as shown in FIG. Then, the word registration unit 111 transmits the input word to the server 200 via the communication unit 120. Similar to the above embodiment, when the acquired word is composed of a plurality of words, the word may be divided by the word dividing unit 14. Further, when it is confirmed that the accent type of the input word is not registered in the utterance dictionary 21, the word may be transmitted to the server 200.
  • the word acquisition unit 213 of the server 200 acquires a word transmitted from the terminal device 100 to the server 200 (S1), and transmits the acquired word to the syllable number specifying unit 212.
  • the syllable number identification unit 212 identifies the number of syllables of the word (S2, identification step), and notifies the candidate presentation unit 211 of the identified number of syllables.
  • the candidate presentation unit 211 notifies the terminal device 100 to that effect. And in the terminal device 100 which received this notification, the word registration part 111 sets an accent to the one syllable (S4), registers in the utterance dictionary 21, and complete
  • the word registration unit 111 of the terminal device 100 determines whether or not there is one syllable of the input word, and when it is confirmed that the number is not one, the word is transmitted to the server 200. May be.
  • the candidate presentation unit 211 determines that the head height type and the flat plate type are selection candidates, and selects these selection candidates as terminals. Notify the device 100. And in the terminal device 100 which received this notification, the word registration part 111 displays the notified selection candidate on the display part 30, and shows it to a user (S6, candidate presentation step).
  • the candidate presentation unit 211 determines to select a head-high type, a medium-high type, and a flat plate type as selection candidates.
  • the word registration part 111 displays the notified selection candidate on the display part 30, and shows it to a user (S7, candidate presentation step).
  • the utterance dictionary is also stored in the server 200, and the candidate presentation unit 211 may include the accent type as a “recommended” selection candidate for a word whose accent type is registered in the utterance dictionary. Good.
  • the candidate presenting unit 211 may notify the selection candidate by transmitting information indicating the determined selection candidate (for example, a code indicating the accent type of each selection candidate) to the terminal device 100.
  • the word registration unit 111 may generate and display the screen as shown in FIG.
  • the candidate presentation unit 211 may transmit a screen (image) as shown in FIG. 3 to the terminal device 100.
  • the word registration unit 111 may display the received screen (image). .
  • the word registration unit 111 of the terminal device 100 sets the acquired accent type of the word to the selected accent type (S8), Registration in the utterance dictionary 21 is completed.
  • the terminal device 100 registers the accent type, but the server 200 may register the accent type.
  • the terminal device 100 notifies the server 200 of the selected accent type, and the server 200 registers the notified accent type.
  • the server 200 may cause the terminal device 100 or another device to utter the registered accent type or voice data in which a word is pronounced with the accent type.
  • a method for acquiring a word for which an accent type is to be set is not particularly limited.
  • a word may be acquired from the text to be read.
  • a word can be acquired by performing morphological analysis on the text to be read out.
  • words whose accent type is not registered in the utterance dictionary 21 may be selectively acquired.
  • a word whose accent type is not registered in the utterance dictionary 21 may be presented to the user, and the word selected by the user may be acquired.
  • a word may be acquired from a text obtained by subjecting voice acquired with a microphone or the like to voice recognition processing.
  • a word output by voice from the terminal device 1 or 100 may be acquired.
  • the word may be acquired when the user makes a predetermined response to the voice output. For example, it has been detected that the user has made an utterance that points out the accent error (for example, “the pronunciation is wrong”) following the voice output of “herbivorous boy” by the terminal device 1 or 100.
  • the word “herbivorous boy” may be acquired.
  • the pronunciation (accent setting) of the terminal device 1 or 100 can be adjusted to suit the user's preference with the feeling of interacting with the terminal device 1 or 100.
  • selection candidates are presented by display on the display unit 30
  • the manner of presentation to the user is not limited to this example.
  • selection candidates may be presented by voice.
  • the process of outputting the target word by applying the accent type of the selection candidate may be sequentially performed for each of the selection candidates.
  • a predetermined type specifically, a name
  • the word of that type is acquired. You may specify 100. Then, selection candidates corresponding to the specified type may be presented. For example, when the acquired word is registered in the utterance dictionary 21, the type of the word may be specified from the grammatical information.
  • the predetermined type may be any type that has a certain tendency (for example, few flat plate types, few tail height types, etc.) in the accent type of the word of the type, and is not limited to the user name or name.
  • the terminal device 1 or 100 functions as a voice utterance device.
  • the voice utterance device that speaks with the accent type set in the terminal device 1 or 100 is the terminal device 1 or 100.
  • a device different from 100 may be used.
  • control blocks (particularly the control units 10 and 110) of the terminal devices 1 and 100 and the control block (particularly the control unit 210) of the server 200 are realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like. Alternatively, it may be realized by software using a CPU (Central Processing Unit).
  • a logic circuit hardware
  • IC chip integrated circuit
  • CPU Central Processing Unit
  • the terminal devices 1 and 100 and the server 200 include a CPU that executes instructions of a program that is software that realizes each function, and a ROM in which the program and various data are recorded so as to be readable by a computer (or CPU).
  • a computer or CPU
  • the recording medium a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program.
  • a transmission medium such as a communication network or a broadcast wave
  • the present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
  • a presentation device (terminal device 1, server 200) according to aspect 1 of the present invention is a presentation device that presents a user with accent-type candidates to be set for a word to be output by voice, and includes the number of syllables or readings of the word.
  • Candidates for selecting one or more accent types according to the number of characters specified by the specifying unit (syllable number specifying units 12, 212) for specifying the number of characters and the number of syllables or reading characters specified by the specifying unit among the plurality of accent types
  • a candidate presentation unit (11, 211) to be presented as a feature.
  • an accent type corresponding to the number of syllables or the number of reading characters is presented as a selection candidate of the user, so an appropriate selection candidate corresponding to the number of syllables of the word or the number of reading characters Can be presented. Further, since the number of selection candidates presented falls within a plurality of accent types, the number of user options does not increase excessively. Therefore, there is an effect that the accent type of the word can be easily selected.
  • the candidate presentation unit only needs to control the selection candidate to be presented to the user, and hardware for presenting the selection candidate to the user may be included in the presentation device. It may exist outside the presentation device. For example, when the presentation device faces the user and includes the hardware, the selection candidate may be presented by the hardware included in the presentation device. In addition, for example, when the presentation device does not face the user or when the hardware is not provided, the selection candidate may be presented to another device provided with such hardware.
  • the specifying unit specifies the number of characters to be read of the word
  • the candidate presentation unit is configured to specify the identification among a plurality of predetermined accent types.
  • One or more accent types according to the number of reading characters specified by the department are presented as user selection candidates.
  • the selection candidate is presented by specifying the number of characters to be read from the word. Therefore, for example, complicated processing and analysis as in Patent Document 1 described in the background art is performed in order to present the selection candidate. There is no need. Therefore, it is possible to reduce the processing load of the presentation device, thereby enabling a quick response to the user.
  • the specifying unit excludes the predetermined type of character. It is characterized by specifying the number of characters.
  • the number of words read by the specifying unit can be made closer to the number of syllables specified by analyzing the word. That is, it is possible to obtain a numerical value close to the case where the number of syllables is specified by an analysis considering factors other than the number of characters by a simple process of specifying the number of characters for reading a word. Therefore, according to the above configuration, it is possible to present an appropriate selection candidate with a simple configuration.
  • the presentation device is the presentation device according to any one of the aspects 1 to 3, wherein the candidate presentation unit includes a leading syllable or character when the number of syllables or characters specified by the specification unit is four or more.
  • a selection candidate (medium / high selection candidate) corresponding to each accent type having an accent in any one of a plurality of syllables or characters excluding the last syllable or character is presented.
  • each accent type having an accent in any one of a plurality of syllables or characters excluding the first and last syllables or characters is aggregated into one or a plurality of selection candidates. Therefore, even for a relatively long word having four or more syllables or characters, the user can select an appropriate accent type without increasing the number of selection candidates.
  • the candidate presentation unit is an accent type in which the central syllable or character has an accent if the number of syllables or characters specified by the specifying unit is an odd number. Is displayed as the selection candidate, and if it is an even number, an accent type (medium-high type) with an accent in one of the two central syllables or characters is presented as the selection candidate.
  • an accent type with accents on the syllables or characters in the center of a word is presented as a selection candidate.
  • the accent often comes near the center. Even if the accent does not come near the center, if the accent is set near the center, the deviation from the correct accent position can be minimized. That is, according to the above configuration, the user can select an appropriate accent type or an accent type with less discomfort.
  • the presentation device is the presentation apparatus according to any one of the aspects 1 to 5, wherein the candidate presentation unit is an accent type (head height type) in which an accent is set at a syllable or character at the beginning, center, or end. , Medium-high type, flat plate type) are presented as selection candidates in preference to the accent type (tail height type) in which the accent is set in the second syllable from the end.
  • This configuration is effective for setting the accent type of a word (for example, a name or the like) that is rarely accented in the second syllable from the end.
  • a control method for a presentation device is a control method for a presentation device that presents an accent type candidate to be set to a word to be output as a voice to a user, and the number of syllables or the number of reading characters of the word
  • a specifying step (S2) for specifying and a candidate presenting step for presenting one or a plurality of accent types according to the number of syllables or the number of reading characters specified in the specifying step among a plurality of accent types as user selection candidates ( S6, S7).
  • the presentation apparatus may be realized by a computer.
  • the presentation apparatus is realized by a computer by operating the computer as each unit (software element) included in the presentation apparatus.
  • a control program for the presentation device and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
  • the present invention can be used for setting the accent type of a word uttered by a voice utterance device.
  • Terminal device presentation device, voice utterance device
  • Candidate Presentation Section Syllable Number Identification Section (Specific Section)
  • Terminal device voice utterance device
  • server presentation device
  • Syllable number identification section identity section

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

 単語のアクセント型を容易に選択させる。端末装置(1)は、音声出力される単語の音節数または読みの文字数を特定する音節数特定部(12)と、複数のアクセント型のうち、上記特定された音節数または読みの文字数に応じた1または複数のアクセント型をユーザの選択候補として提示する候補提示部(11)と、を備えている

Description

提示装置、提示装置の制御方法、および制御プログラム
 本発明は、音声出力させる単語のアクセントを設定する装置等に関する。
 従来から、単語とそのアクセント位置を登録した辞書を用いて、所定の位置にアクセントを付けて単語を発話させる技術が知られている。また、単語の何れの音節にアクセントを付けるかをユーザに設定させる技術も知られている。例えば、下記の特許文献1には、単語を漢字表記したときの文字数と拍数の組み合わせに応じたアクセント型の候補を表示して、ユーザに所望のアクセント型を選択させる技術が開示されている。また、下記の特許文献2には、個人識別名のアクセント位置の候補をマークで表示してユーザに選択させる技術が開示されている。さらに、下記の特許文献3には、それぞれ異なる位置にアクセント記号を付けた文字列を複数表示させてユーザに選択させる技術が開示されている。
日本国公開特許公報「特開平8-320864号」(1996年12月3日公開) 日本国公開特許公報「特開平11-109991号」(1999年4月23日公開) 日本国公開特許公報「特開2006-98552号」(2006年4月13日公開)
 しかしながら、特許文献1の技術では、アクセント型の候補を決めるために漢字の文字数と拍数の組み合わせを特定する必要があり、処理が煩雑である。また、漢字以外を構成要素に含む単語への適用が難しい。そして、特許文献2、3の技術では、文字数の増加につれて候補の数が際限なく増加するので、ユーザが候補を選び難いという問題がある。本発明は、上記の問題点に鑑みてなされたものであり、その目的は、単語のアクセント型を容易に選択させることができる提示装置等を提供することにある。
 上記の課題を解決するために、本発明の一態様に係る提示装置は、音声出力される単語に設定するアクセント型の候補をユーザに提示する提示装置であって、上記単語の音節数または読みの文字数を特定する特定部と、複数のアクセント型のうち、上記特定部が特定した音節数または読みの文字数に応じた1または複数のアクセント型をユーザの選択候補として提示する候補提示部と、を備えている。
 また、本発明の一態様に係る提示装置の制御方法は、上記の課題を解決するために、音声出力される単語に設定するアクセント型の候補をユーザに提示する提示装置の制御方法であって、上記単語の音節数または読みの文字数を特定する特定ステップと、複数のアクセント型のうち、上記特定ステップにて特定した音節数または読みの文字数に応じた1または複数のアクセント型をユーザの選択候補として提示する候補提示ステップと、を含む。
 本発明の上記各態様によれば、単語のアクセント型を容易に選択させることができるという効果を奏する。
本発明の一実施形態に係る端末装置の要部構成の一例を示すブロック図である。 上記端末装置が表示する、単語登録の受け付け画面の一例を示す図である。 音節数が2の場合、3の場合、および4以上の場合のそれぞれにおける選択候補の提示例を示す図である。 アクセント型を設定する処理の一例を示すフローチャートである。 本発明の他の実施形態に係るアクセント型設定システムの要部構成の一例を示すブロック図である。
 〔実施形態1〕
 以下、本発明の実施の形態について、詳細に説明する。まず、本実施形態に係る端末装置(提示装置)1の構成を図1に基づいて説明する。図1は、端末装置1の要部構成の一例を示すブロック図である。端末装置1は、音声発話(音声出力)する機能を備えていると共に、発話する単語のアクセントの型(パターン)をユーザに設定させる機能を備えている。端末装置1は、例えばスマートフォンやタブレット端末のような多機能端末であってもよいし、ユーザとの対話を主機能とする対話ロボットのような装置であってもよい。
 図示のように、端末装置1は、制御部10、記憶部20、表示部30、入力部40、および音声出力部50を備えている。制御部10は端末装置1の動作を統括して制御するものであり、記憶部20は端末装置1が使用する各種データを格納するものである。また、表示部30は制御部10の制御に従って画像を表示するものであり、入力部40は端末装置1のユーザの入力操作を受け付けて制御部10に伝達するものである。そして、音声出力部50は、制御部10の制御に従って音声を出力するものである。この音声には、ユーザに対する発話も含まれており、つまり、端末装置1は音声発話装置としての機能も有している。なお、端末装置1は、これら以外のブロックを含んでいてもよい。例えば、ユーザの音声入力を受け付ける音声入力部や、他の装置と通信するための通信部等を備えていてもよい。また、これらのブロックの少なくとも一部(制御部10を除く)を端末装置1の外部に設け、有線または無線で端末装置1と接続することによっても、図示の端末装置1と同様の機能を実現できる。
 また、図示のように、制御部10には、候補提示部11、音節数特定部(特定部)12、単語登録部13、単語分割部14、および発話処理部15が含まれている。そして、記憶部20には、発話辞書21が格納されている。
 候補提示部11は、予め定められた複数のアクセント型のうち、音節数特定部12が特定した音節数に応じたアクセント型をユーザの選択候補として提示する。また、ここでは、アクセント型を設定する対象となる単語がユーザの呼称(氏名、姓、名、ニックネーム等)であることを想定しているので、候補提示部11は、ユーザの呼称という種別に応じたアクセント型をユーザの選択候補として提示する。なお、提示する選択候補については後述する。
 音節数特定部12は、アクセント型を設定する対象となる単語の音節数を特定する。ここでは、単語が日本語であることを想定しており、端末装置1の処理の負荷を少なく抑えてユーザへの速やかなレスポンスを可能にする目的で、音節数を簡易的に判定してもよい。そのため、音節数特定部12は、単語の文字数をカウントし、その文字数を音節数であると特定する。
 なお、ここで言う「文字数」は、その単語を発音したときの文字数(読みの文字数)であり、単語に漢字が含まれている場合には、ひらがなまたはカタカナに置換して文字数をカウントする。また、例外処理として、所定の種類の文字(撥音、促音、長音)については、1文字(1音節)としてカウントせず、直前の文字と合わせて1文字(1音節)とカウントしてもよい。つまり、上記所定の種類の文字を含む単語については、その所定の種類の文字を除いた文字数を特定する。なお、この例外処理は必須ではなく、撥音、促音、および長音についても、1文字(1音節)としてカウントしてもよい。無論、文字数以外の要素を考慮した解析にて音節を検出することによって音節数を特定してもよい。
 単語登録部13は、端末装置1に発話させる単語を登録する処理を行う。具体的には、単語登録部13は、ユーザの入力操作に応じて、単語登録の受け付け画面を表示部30に表示させ、この画面にて入力された単語を、端末装置1に発話させる単語として取得する。単語登録の受け付け画面は、ユーザに単語の入力を促す画面であればよく、特に限定されないが、例えば図2のような画面であってもよい。図2は、単語登録の受け付け画面の一例を示す図である。
 図示の例では、ユーザの名前の入力を促す文字列(名前を教えよう)が表示されている。つまり、単語登録部13は、端末装置1に発話させる単語として、端末装置1(より詳細には端末装置1で動作する所定のプログラム)が、ユーザに呼びかけるときの名前(呼称)の入力を受け付ける。このように、単語登録部13は、ユーザの名前(呼称)という所定の種別の単語を入力させるので、端末装置1に発話させる単語として、所定の種別の単語を取得していると言える。
 また、図示の例では、名前の入力を受け付けて、受け付けた名前を表示する領域が表示されている。同図は、表示部30がタッチパネルで構成されており、表示面が入力部40を兼ねている場合の画面例を示しており、上記領域にタッチすることによって、文字列を入力することができることを想定している。図示の例では、この領域に「なおき」との名前が入力されている。なお、名前の下には入力可能な文字数の上限値(ひらがな16文字)が示されているが、文字数の制限、および制限文字数の表示は必須ではない。
 さらに、図示の例では、入力された名前のアクセント型の設定を開始するための選択項目(名前の呼びかたを選ぶ)が表示されている。この項目が選択されると、単語登録部13は、候補提示部11に指示して、入力された名前のアクセント型の候補を提示させる。そして、入力された名前に候補から選択されたアクセント型を設定し、設定したアクセント型と共に発話辞書21に登録する。これにより、登録した呼称が設定したアクセントで発話されるようになる。
 単語分割部14は、単語登録部13が入力を受け付けた単語が複数の単語を複合した単語である場合に、それらの個別の単語に分割する。例えば、「東京タワー」が入力された場合、単語分割部14は、これを「東京」と「タワー」に分割する。分割によって得られた単語には、個別にアクセント型を設定することができる。
 発話処理部15は、音声発話に関する各種処理を行う。具体的には、発話処理部15は、発話内容を決定し、決定した発話内容の音声データを生成し、生成した音声データを音声出力部50に送信して音声出力させる。この際、発話処理部15は、発話辞書21を参照して、これに規定されているアクセント型で音声出力を行わせる。
 発話辞書21は、上述のように、発話処理部15が音声発話の際に参照する辞書であり、単語登録部13が登録した単語(ユーザの呼称)の他にも、様々な単語のアクセント型が規定されている。
 〔音節数に応じた選択候補の提示〕
 続いて、音節数に応じた選択候補の提示について、図3に基づいて説明する。図3は、音節数が2の場合、3の場合、および4以上の場合のそれぞれにおける選択候補の提示例を示す図である。なお、この画面は、図2の画面例において、アクセント型の設定を開始するための選択項目(名前の呼びかたを選ぶ)を選択したときに表示される。
 図3の(a)の例では、「みわ」という名前が入力されている。この名前(単語)は、2文字であるから2音節であると特定される。図示の例では、この2音節の単語について、おすすめ、呼びかた1、および呼びかた2の3つの選択候補が提示されている。このうち、「おすすめ」は、デフォルトのアクセント型を選択するための選択候補である。なお、デフォルトのアクセント型は、ユーザがアクセント型を選択していない場合に、発話処理部15が使用するアクセント型である。なお、「おすすめ」としてどのようなアクセント型を設定するかは任意であり、また、「おすすめ」の提示は必須ではない。
 呼びかた1は、同図に音の強弱を示す波形で表されているように、先頭の音節にアクセントがあるアクセント型である。このため、以下では、呼びかた1のアクセント型を頭高型と呼ぶ。また、呼びかた2は、同図に波形で示されているように、末尾の音節にアクセントがあるアクセント型である。このアクセント型で発音した場合、一音節目が弱く発音され、2音節目から末尾までは平板な発音となるため、以下では、呼びかた2のアクセント型を平板型と呼ぶ。
 ユーザは、これらの選択候補の中から所望のものを選択し(チェックボックスにチェックを入れ)、選択を確定させる(「次へ」をタッチする)ことにより、自分の呼称(入力した単語)のアクセント型を、その選択候補のアクセント型に設定することができる。なお、この画面において所定の入力操作を行うことにより、各選択候補のアクセント型で発音した音声を試聴できるようにしてもよい。
 次に、図3の(b)の例では、「なおき」という名前が入力されている。この名前(単語)は、3文字であるから3音節であると特定される。図示の例では、この3音節の単語について、おすすめ、呼びかた1、呼びかた2、および呼びかた3の4つの選択候補が提示されている。おすすめおよび呼びかた1は、同図の(a)の例と同様である。
 図3の(b)の呼びかた2は、同図に音の強弱を示す波形で表されているように、中央の音節(文字)にアクセントがあるアクセント型である。このため、以下では、呼びかた2のアクセント型を中高型と呼ぶ。図3の(b)の呼びかた3は、同図の(a)の呼びかた2と同じく平板型である。
 次に、図3の(c)の例では、「こうたろう」という名前が入力されている。この名前(単語)は、5文字であり、5音節であるから、4音節以上であると特定される。図示の例では、この4音節以上の単語について、同図の(b)の例と同じく、おすすめ、呼びかた1(頭高型)、呼びかた2(中高型)、および呼びかた3(平板型)の4つの選択候補が提示されている。ここで、4音節以上の単語には、先頭の音節および末尾の音節を除いた、中間部の音節が複数存在するので、単語登録部13は、中高型が選択された場合、このような複数の中間部の音節のうち、中央に位置する音節にアクセントを設定する。つまり、中高型は、先頭および末尾の音節を除いた、中間部分の音節のうち何れか1つにアクセントがある各アクセント型に対応する1つの選択候補である。例えば、「こうたろう」の例では、「う」「た」「ろ」の3つの音節が存在するが、これらの中央に位置する「た」にアクセントを設定する。
 なお、この例のように音節数が奇数であれば中央の音節が1つに定まるが、偶数であれば中央の音節が2つとなる。このような場合には、単語登録部13は、その中央の2つの音節のうち前寄りの音節にアクセントを設定する。つまり、中高型は、音節数が奇数であればその中央の音節にアクセントを設定し、偶数であればその中央の2つの音節のうち前寄りの音節にアクセントを設定するアクセント型である。ただし、中高型が選択された場合に、何れの音節(あるいは文字)にアクセントを設定するかは、アクセントの設定対象の単語の種別等に応じて決定すればよく、上記の例に限られない。例えば、中央の2つの音節のうち後寄りの音節にアクセントを設定してもよい。
 また、ここでは、音節数を示す数値として文字数を用いるから、頭高型では先頭の文字に、中高型では中央または中央前寄りの文字に、平板型では末尾の文字に、それぞれアクセントを設定する。そして、アクセントを設定する位置の文字が所定の文字(撥音、促音、長音)の場合、これらの文字にアクセントを設定してもよいし、これらの文字の直前の文字にアクセントを設定してもよい。
 また、図3には示していないが、一音節の名前(単語)が入力された場合、その音節にアクセントが設定されたアクセント型を選択候補として提示してもよい。このアクセント型は、頭高型、中高型、平板型の何れであるとも言える。また、上述のように、おすすめの選択項目の提示は任意であるから、この場合には、選択候補を1つ提示してもよい。
 このように、端末装置1の候補提示部11は、予め定められた、頭高型、中高型、平板型、およびおすすめ(デフォルト)の4種類のアクセント型のうち、単語の音節数に応じた少なくとも1つのアクセント型を選択候補として提示する。これにより、文字数の多い単語のアクセント型を容易に設定させることができる。
 また、本例では、ユーザの名前(称呼)を入力させているので、人を称呼する際に適用される頻度の低いアクセント型である尾高型(末尾から2番目の音節にアクセントを設定した型)を選択候補から外している。言い換えれば、先頭、中央部、および末尾の何れかの音節にアクセントが設定されたアクセント型(頭高型、中高型、平板型)を、末尾から2番目の音節にアクセントを設定したアクセント型(尾高型)に優先して、上記選択候補として提示している。これにより、提示される選択候補が、人の称呼に適したものに絞られるので、ユーザは適切な選択候補を容易に選択することができる。なお、動物やキャラクター等の称呼も、人の称呼と同様であるから、動物やキャラクター等の称呼として入力された単語についても、同様の選択候補を提示すればよい。つまり、称呼(人の称呼と人以外の称呼とを含む)に分類される単語については、同じ基準で選択候補を決定し、提示すればよい。
 また、ここでは、優先度の低い尾高型を選択候補から外す例を説明したが、尾高型も選択候補に加えてもよい。ただし、この場合には、何れかの音節にアクセントが設定されたアクセント型の方をユーザが選択し易いように提示することが好ましい。例えば、頭高型、中高型、平板型を上側に、尾高型を下側に表示してもよい。また、例えば、頭高型、中高型、平板型を最初に表示し、尾高型は表示をスクロールする、あるいは切り替える、等の入力操作が行われたときに表示してもよい。この他、表示色や表示サイズ等の表示態様を変えることによって、適切な選択候補(この例では頭高型、中高型、平板型)を選択し易くしてもよい。また、アクセント型を設定する単語の種別によっては、尾高型以外の選択候補(頭高型、中高型、および平板型の少なくとも何れか)を選択候補から外す、あるいは尾高型を優先的に提示する選択候補に含める構成としてもよい。
 〔処理の流れ〕
 次に、端末装置1が単語のアクセント型を設定する処理(提示装置の制御方法)の流れを図4に基づいて説明する。図4は、アクセント型を設定する処理の一例を示すフローチャートである。まず、単語登録部13は、アクセント型を設定する対象となる単語を取得する(S1)。そして、単語登録部13は、取得した単語を音節数特定部12に送信する。ここでは、例えば、図2の例のような画面を表示させることによってユーザに入力させた単語を取得してもよい。
 なお、取得した単語が複数の単語を複合している場合、単語登録部13は、その単語を単語分割部14に分割させ、分割によって生成された単語を取得してもよい。また、単語登録部13は、取得した単語のアクセント型が発話辞書21に登録されているか確認し、登録されていないことが確認された場合に、その単語を音節数特定部12に送信してもよい。つまり、取得した単語に既にアクセント型が登録されている場合には、そのアクセント型を適用し、登録されていない場合には、以下説明するS2以降の処理で選択候補を提示してユーザに選択させてもよい。
 単語登録部13から単語を受信した音節数特定部12は、受信した単語の音節数を特定して(S2、特定ステップ)、特定した音節数を候補提示部11に通知する。そして、候補提示部11は、通知された音節数が1であるか判定する(S3)。S3において通知された音節数が1であると判定された場合(S3でYES)、候補提示部11は、その旨を単語登録部13に通知し、この通知を受信した単語登録部13は、その1つの音節にアクセントを設定して(S4)、発話辞書21に登録し、処理を終了する。一方、通知された音節数が1ではなかった場合(S3でNO)、候補提示部11は、通知された音節数が2であるか判定する(S5)。
 S5において通知された音節数が2であると判定された場合(S5でYES)、候補提示部11は、頭高型と平板型を選択候補とすることを決定し、これらの選択候補を表示部30に表示させてユーザに提示する(S6、候補提示ステップ)。なお、これらの選択候補に加えて、デフォルトのアクセント型を選択するための選択候補として「おすすめ」を提示してもよく、この場合、例えば図3の(a)のような画面が表示される。
 一方、S5において、通知された音節数が2ではないと判定された場合(S5でNO)、すなわち音節数が3以上である場合には、候補提示部11は、頭高型、中高型、および平板型を選択候補とすることを決定する。そして、これらの選択候補を表示部30に表示させてユーザに提示する(S7、候補提示ステップ)。S7においても、選択候補に「おすすめ」を含めてもよく、この場合、例えば図3の(b)または(c)のような画面が表示される。そして、提示した選択候補から何れかのアクセント型が選択されると、単語登録部13は、S1で取得した単語のアクセント型を、選択されたアクセント型に設定して(S8)、発話辞書21に登録し、処理を終了する。
 〔実施形態2〕
 本発明の他の実施形態について、図5に基づいて説明する。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。上記実施形態では、端末装置1がアクセント型の選択候補を決定する例を説明したが、本実施形態では、サーバがアクセント型の選択候補を決定して、決定した選択候補を端末装置に表示させるシステムの例を説明する。図5は、本実施形態に係るアクセント型設定システム300の要部構成の一例を示すブロック図である。図示のように、アクセント型設定システム300には、端末装置(音声発話装置)100とサーバ(提示装置)200が含まれている。
 アクセント型設定システム300は、端末装置100が取得した単語のアクセント型の選択候補をサーバ200が決定し、決定した選択候補を端末装置100に表示させるシステムである。
 端末装置100は、アクセント型の選択候補をサーバ200に決定させる点を除けば、端末装置1と概ね同様の構成である。図示のように、端末装置100は、通信部120を備え、制御部110には単語登録部111が含まれている。
 通信部120は、端末装置100が他の装置(ここではサーバ200)と通信するためのものである。また、単語登録部111は、単語登録部13と同様に、端末装置100に発話させる単語を登録する処理を行う。ただし、取得した単語をサーバ200に送信する点、およびサーバ200から通知された選択候補を表示部30に表示させる点で単語登録部13と相違している。
 サーバ200は、端末装置100から取得した単語のアクセント型の選択候補を決定し、これを端末装置100に送信することによって、端末装置100のユーザに提示する。図示のように、サーバ200は、サーバ200の動作を統括して制御する制御部210と、サーバ200が他の装置(ここでは端末装置100)と通信するための通信部230とを備えている。また、制御部210には候補提示部211、音節数特定部(特定部)212、および単語取得部213が含まれる。
 候補提示部211は、予め定められた複数のアクセント型のうち、音節数特定部212が特定した音節数に応じたアクセント型をユーザの選択候補として決定する。そして、決定した選択候補を、通信部230を介して端末装置100に通知することにより、端末装置100のユーザに提示する。なお、候補提示部211が選択候補を決定する手法は、上記実施形態の候補提示部11と同様である。
 音節数特定部212は、音節数特定部12と同様にして、アクセント型を設定する対象となる単語の音節数(文字数)を特定する。また、単語取得部213は、端末装置100がサーバ200に送信した単語、すなわち、アクセント型を設定する対象となる単語を取得し、音節数特定部212に転送する。
 〔処理の流れ〕
 以上の構成を備えるアクセント型設定システム300では、まず、端末装置100の単語登録部111が、例えば図2のような単語登録の受け付け画面を表示部30に表示させて単語の入力を受け付ける。そして、単語登録部111は、入力された単語を、通信部120を介してサーバ200に送信する。なお、上記実施形態と同様に、取得した単語が複数の単語を複合している場合にはその単語を単語分割部14に分割させてもよい。また、入力された単語のアクセント型が発話辞書21に登録されていないことが確認された場合に、その単語をサーバ200に送信してもよい。
 なお、単語を受信した後の処理(提示装置の制御方法)は図4の例と概ね同様であるから、以下では図4に基づいて説明する。サーバ200の単語取得部213は、端末装置100がサーバ200に送信した単語を取得し(S1)、取得した単語を音節数特定部212に送信する。次に、音節数特定部212がその単語の音節数を特定し(S2、特定ステップ)、特定した音節数を候補提示部211に通知する。
 ここで、特定された音節数が1であれば(S2でYES)、候補提示部211は、その旨を端末装置100に通知する。そして、この通知を受信した端末装置100では、単語登録部111が、その1つの音節にアクセントを設定して(S4)、発話辞書21に登録し、処理を終了する。このように、入力された単語の音節が1つである場合には、選択候補を決定する必要がない。よって、端末装置100の単語登録部111は、入力された単語の音節が1つであるか否かを判定し、1つではないことが確認された場合に、その単語をサーバ200に送信してもよい。
 一方、特定された音節数が2であれば(S2でNO、S5でYES)、候補提示部211は、頭高型と平板型を選択候補とすることを決定し、これらの選択候補を端末装置100に通知する。そして、この通知を受信した端末装置100では、単語登録部111が、通知された選択候補を表示部30に表示させてユーザに提示する(S6、候補提示ステップ)。
 また、特定された音節数が3以上であれば(S2でNO、S5でNO)、候補提示部211は、頭高型、中高型、および平板型を選択候補とすることを決定し、これらの選択候補を端末装置100に通知する。そして、この通知を受信した端末装置100では、単語登録部111が、通知された選択候補を表示部30に表示させてユーザに提示する(S7、候補提示ステップ)。なお、サーバ200にも発話辞書を格納しておき、候補提示部211は、発話辞書にアクセント型が登録されている単語については、そのアクセント型を、例えば「おすすめ」として選択候補に含めてもよい。
 また、候補提示部211は、決定した選択候補を示す情報(例えば各選択候補のアクセント型を示すコード)を端末装置100に送信することによって選択候補を通知してもよく、この場合には、図3のような画面は単語登録部111が生成して表示させればよい。また、候補提示部211が、図3のような画面(画像)を端末装置100に送信してもよく、この場合には、単語登録部111は受信した画面(画像)を表示させればよい。
 この後、提示した選択候補から何れかのアクセント型が選択されると、端末装置100の単語登録部111は、取得した単語のアクセント型を、選択されたアクセント型に設定して(S8)、発話辞書21に登録し、処理を終了する。
 なお、上記の例では端末装置100がアクセント型の登録を行っているが、サーバ200がアクセント型を登録してもよい。この場合、端末装置100は、選択されたアクセント型をサーバ200に通知し、サーバ200は通知されたアクセント型を登録する。そして、この場合、サーバ200は、登録したアクセント型、あるいは該アクセント型で単語を発音した音声データを、端末装置100または他の装置に通知することによって発話させてもよい。
 〔実施形態3〕
 上記各実施形態では、ユーザに入力させた単語を取得する例を説明したが、アクセント型を設定する対象とする単語の取得方法は特に限定されない。例えば、発話処理部15がテキストの読み上げ機能を備えている場合、読み上げ対象のテキストから単語を取得してもよい。この場合、読み上げ対象のテキストを形態素解析する等により、単語を取得することが可能である。また、この場合、読み上げ対象のテキストに含まれる単語のうち、発話辞書21にアクセント型が登録されていない単語を選択的に取得してもよい。そして、読み上げ対象のテキストに含まれる単語のうち、発話辞書21にアクセント型が登録されていない単語をユーザに提示して、ユーザが選択した単語を取得してもよい。
 さらに、例えば、マイク等で取得した音声を音声認識処理に供して得たテキストから単語を取得してもよい。この他にも、端末装置1または100が音声出力した単語を取得してもよく、この場合、ユーザがその音声出力に対して所定の応答を行ったときに、単語を取得してもよい。例えば、端末装置1または100による「草食男子」との音声出力に続いて、ユーザがそのアクセントの誤りを指摘する発話(例えば、「今の発音はおかしい」等)が行われたことを検出したときに、「草食男子」の単語を取得してもよい。これにより、端末装置1または100と対話する感覚で、端末装置1または100の発音(アクセントの設定)をユーザの好みに合うように調整していくことができる。
 また、上記各実施形態では、表示部30への表示によって選択候補を提示する例を説明したが、ユーザへの提示の態様はこの例に限られない。例えば、音声で選択候補を提示してもよい。この場合、選択候補のアクセント型を適用して対象の単語を音声出力する処理を、各選択候補のそれぞれについて順次行えばよい。
 さらに、上記各実施形態では、ユーザに所定の種別(具体的には称呼)の単語の入力を促すことにより、その種別の単語を取得する例を説明したが、単語の種別は端末装置1または100で特定してもよい。そして、特定した種別に応じた選択候補を提示してもよい。例えば、取得した単語が発話辞書21に登録されている場合、その文法情報からその単語の種別を特定してもよい。なお、所定の種別は、その種別の単語におけるアクセント型に一定の傾向(例えば平板型が少ない、尾高型が少ない等)がある種別であればよく、ユーザの名前や称呼に限られない。
 また、上記各実施形態では、端末装置1または100が音声発話装置として機能する例を説明したが、端末装置1または100にて設定されたアクセント型で発話する音声発話装置は、端末装置1または100と別の装置であってもよい。
 〔ソフトウェアによる実現例〕
 端末装置1、100の制御ブロック(特に制御部10および110)、ならびにサーバ200の制御ブロック(特に制御部210)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
 後者の場合、端末装置1、100、およびサーバ200は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明の態様1に係る提示装置(端末装置1、サーバ200)は、音声出力される単語に設定するアクセント型の候補をユーザに提示する提示装置であって、上記単語の音節数または読みの文字数を特定する特定部(音節数特定部12、212)と、複数のアクセント型のうち、上記特定部が特定した音節数または読みの文字数に応じた1または複数のアクセント型をユーザの選択候補として提示する候補提示部(11、211)と、を備えていることを特徴としている。
 上記の構成によれば、複数のアクセント型のうち、音節数または読みの文字数に応じたアクセント型をユーザの選択候補として提示するので、単語の音節数または読みの文字数に応じた適切な選択候補を提示することが可能になる。また、提示される選択候補の数は、複数のアクセント型の範疇に収まるから、ユーザの選択肢が増えすぎることがない。従って、単語のアクセント型を容易に選択させることができるという効果を奏する。
 なお、上記候補提示部は、上記選択候補がユーザに提示されるように制御するものであればよく、選択候補をユーザに提示するハードウェアは、上記提示装置が備えていてもよいし、上記提示装置の外部に存在するものであってもよい。例えば、提示装置がユーザと対面しており、かつ、上記ハードウェアを備えている場合には、提示装置が備える当該ハードウェアで選択候補を提示してもよい。また、例えば、提示装置がユーザと対面していない場合や、上記ハードウェアを備えていない場合には、そのようなハードウェアを備える他の装置に選択候補を提示させてもよい。
 本発明の態様2に係る提示装置は、上記態様1において、上記特定部は、上記単語の読みの文字数を特定し、上記候補提示部は、予め定められた複数のアクセント型のうち、上記特定部が特定した読みの文字数に応じた1または複数のアクセント型をユーザの選択候補として提示することを特徴としている。
 上記の構成によれば、単語の読みの文字数を特定して選択候補を提示するので、選択候補の提示のために、例えば背景技術に記載した特許文献1のような複雑な処理や解析を行う必要がない。よって、提示装置の処理の負荷を少なく抑えることができ、これにより、ユーザへの速やかなレスポンスも可能になる。
 本発明の態様3に係る提示装置は、上記態様2において、上記特定部は、上記単語に所定の種類(撥音、促音、長音)の文字が含まれる場合、当該所定の種類の文字を除いた文字数を特定することを特徴としている。
 上記の構成によれば、特定部が特定する単語の読みの文字数を、単語を解析して特定した音節数に近付けることができる。つまり、単語の読みの文字数を特定するという簡易な処理で、文字数以外の要素を考慮した解析で音節数を特定する場合と近い数値を得ることができる。よって、上記の構成によれば、簡易な構成で妥当な選択候補を提示することが可能になる。
 本発明の態様4に係る提示装置は、上記態様1から3の何れかにおいて、上記候補提示部は、上記特定部が特定した音節数または文字数が4以上である場合、先頭の音節または文字と、末尾の音節または文字とを除いた、複数の音節または文字のうち何れか1つにアクセントがある各アクセント型に対応する選択候補(中高型の選択候補)を提示することを特徴としている。
 上記の構成によれば、先頭と末尾の音節または文字とを除いた複数の音節または文字のうち何れか1つにアクセントがある各アクセント型が1または複数の選択候補に集約される。よって、音節数または文字数が4以上の比較的長い単語についても、選択候補の数を増やすことなく妥当なアクセント型をユーザに選択させることが可能になる。
 本発明の態様5に係る提示装置は、上記態様4において、上記候補提示部は、上記特定部が特定した音節数または文字数が奇数であれば、その中央の音節または文字にアクセントがあるアクセント型を上記選択候補として提示し、偶数であれば、その中央の2つの音節または文字の何れかにアクセントがあるアクセント型(中高型)を上記選択候補として提示することを特徴としている。
 上記の構成によれば、単語の中央部の音節または文字にアクセントがあるアクセント型を選択候補として提示する。ここで、先頭および末尾の音節または文字を除いた音節にアクセントがある単語については、その中央付近にアクセントが来ることが多い。また、中央付近にアクセントが来ない場合であっても、中央付近にアクセントを設定しておけば、正しいアクセント位置からの乖離を必要最小限に抑えることができる。つまり、上記の構成によれば、適切なアクセント型、あるいは違和感の少ないアクセント型をユーザに選択させることができる。
 本発明の態様6に係る提示装置は、上記態様1から5の何れかにおいて、上記候補提示部は、先頭、中央部、または末尾の音節または文字にアクセントが設定されたアクセント型(頭高型、中高型、平板型)を、末尾から2番目の音節にアクセントが設定されたアクセント型(尾高型)に優先して、上記選択候補として提示することを特徴としている。この構成は、末尾から2番目の音節にアクセントが設定されることが少ない単語(例えば呼称等)のアクセント型の設定に有効である。
 本発明の態様7に係る提示装置の制御方法は、音声出力される単語に設定するアクセント型の候補をユーザに提示する提示装置の制御方法であって、上記単語の音節数または読みの文字数を特定する特定ステップ(S2)と、複数のアクセント型のうち、上記特定ステップにて特定した音節数または読みの文字数に応じた1または複数のアクセント型をユーザの選択候補として提示する候補提示ステップ(S6、S7)と、を含むことを特徴としている。上記の構成によれば、上記提示装置と同様の作用効果を奏する。
 本発明の各態様に係る提示装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記提示装置が備える各部(ソフトウェア要素)として動作させることにより上記提示装置をコンピュータにて実現させる提示装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
 本発明は、音声発話装置が発話する単語のアクセント型の設定に利用可能である。
  1 端末装置(提示装置、音声発話装置)
 11 候補提示部
 12 音節数特定部(特定部)
100 端末装置(音声発話装置)
200 サーバ(提示装置)
211 候補提示部
212 音節数特定部(特定部)

Claims (7)

  1.  音声出力される単語に設定するアクセント型の候補をユーザに提示する提示装置であって、
     上記単語の音節数または読みの文字数を特定する特定部と、
     複数のアクセント型のうち、上記特定部が特定した音節数または読みの文字数に応じた1または複数のアクセント型をユーザの選択候補として提示する候補提示部と、を備えていることを特徴とする提示装置。
  2.  上記特定部は、上記単語に所定の種類の文字が含まれる場合、当該所定の種類の文字を除いた文字数を特定することを特徴とする請求項1に記載の提示装置。
  3.  上記候補提示部は、上記特定部が特定した音節数または文字数が4以上である場合、先頭の音節または文字と、末尾の音節または文字とを除いた、複数の音節または文字のうち何れか1つにアクセントがある各アクセント型に対応する選択候補を提示することを特徴とする請求項1または2に記載の提示装置。
  4.  上記候補提示部は、上記特定部が特定した音節数または文字数が奇数であれば、その中央の音節または文字にアクセントがあるアクセント型を上記選択候補として提示し、偶数であれば、その中央の2つの音節または文字の何れかにアクセントがあるアクセント型を上記選択候補として提示することを特徴とする請求項1から3の何れか1項に記載の提示装置。
  5.  上記候補提示部は、先頭、中央部、または末尾の音節または文字にアクセントが設定されたアクセント型を、末尾から2番目の音節にアクセントが設定されたアクセント型に優先して、上記選択候補として提示することを特徴とする請求項1から4の何れか1項に記載の提示装置。
  6.  音声出力される単語に設定するアクセント型の候補をユーザに提示する提示装置の制御方法であって、
     上記単語の音節数または読みの文字数を特定する特定ステップと、
     複数のアクセント型のうち、上記特定ステップにて特定した音節数または読みの文字数に応じた1または複数のアクセント型をユーザの選択候補として提示する候補提示ステップと、を含むことを特徴とする提示装置の制御方法。
  7.  請求項1から5の何れか1項に記載の提示装置としてコンピュータを機能させるための制御プログラムであって、上記特定部および上記候補提示部としてコンピュータを機能させるための制御プログラム。
PCT/JP2016/053260 2015-03-06 2016-02-03 提示装置、提示装置の制御方法、および制御プログラム WO2016143420A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015045314 2015-03-06
JP2015-045314 2015-03-06

Publications (1)

Publication Number Publication Date
WO2016143420A1 true WO2016143420A1 (ja) 2016-09-15

Family

ID=56879441

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/053260 WO2016143420A1 (ja) 2015-03-06 2016-02-03 提示装置、提示装置の制御方法、および制御プログラム

Country Status (1)

Country Link
WO (1) WO2016143420A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464161A (zh) * 2022-01-29 2022-05-10 上海擎朗智能科技有限公司 语音播报方法、移动设备、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006098552A (ja) * 2004-09-28 2006-04-13 Toshiba Corp 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JP2008083239A (ja) * 2006-09-26 2008-04-10 Toshiba Corp 中間言語編集装置、中間言語編集方法および中間言語編集プログラム
JP2013134396A (ja) * 2011-12-27 2013-07-08 Fujitsu Ltd 合成音声修正装置,方法,及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006098552A (ja) * 2004-09-28 2006-04-13 Toshiba Corp 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
JP2008083239A (ja) * 2006-09-26 2008-04-10 Toshiba Corp 中間言語編集装置、中間言語編集方法および中間言語編集プログラム
JP2013134396A (ja) * 2011-12-27 2013-07-08 Fujitsu Ltd 合成音声修正装置,方法,及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464161A (zh) * 2022-01-29 2022-05-10 上海擎朗智能科技有限公司 语音播报方法、移动设备、装置及存储介质

Similar Documents

Publication Publication Date Title
JP6570651B2 (ja) 音声対話装置および音声対話方法
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
US9196253B2 (en) Information processing apparatus for associating speaker identification information to speech data
US20170337919A1 (en) Information processing apparatus, information processing method, and program
US20190147851A1 (en) Information processing apparatus, information processing system, information processing method, and storage medium which stores information processing program therein
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
JP2008262120A (ja) 発話評価装置及び発話評価プログラム
JP2020027132A (ja) 情報処理装置およびプログラム
WO2016143420A1 (ja) 提示装置、提示装置の制御方法、および制御プログラム
JP2009104047A (ja) 情報処理方法及び情報処理装置
WO2017159207A1 (ja) 処理実行装置、処理実行装置の制御方法、および制御プログラム
US10304460B2 (en) Conference support system, conference support method, and computer program product
JP2016143050A (ja) 音声認識装置および音声認識方法
JP4498906B2 (ja) 音声認識装置
JP3340163B2 (ja) 音声認識装置
EP2755202B1 (en) Voice recognition device
JP2019211966A (ja) 制御装置、対話装置、制御方法、およびプログラム
JP2015172848A (ja) 読唇入力装置、読唇入力方法及び読唇入力プログラム
JP2003323196A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JP7195593B2 (ja) 語学学習用装置および語学学習用プログラム
US11403060B2 (en) Information processing device and non-transitory computer readable medium for executing printing service according to state of utterance
JP6509308B1 (ja) 音声認識装置およびシステム
WO2021157052A1 (ja) 補聴器用合成音声セットの修正方法
KR20230145684A (ko) 음절 분리를 통한 영어 학습 시스템
KR20220118242A (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16761392

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 16761392

Country of ref document: EP

Kind code of ref document: A1