WO2015040751A1 - 音声選択支援装置、音声選択方法、およびプログラム - Google Patents

音声選択支援装置、音声選択方法、およびプログラム Download PDF

Info

Publication number
WO2015040751A1
WO2015040751A1 PCT/JP2013/075581 JP2013075581W WO2015040751A1 WO 2015040751 A1 WO2015040751 A1 WO 2015040751A1 JP 2013075581 W JP2013075581 W JP 2013075581W WO 2015040751 A1 WO2015040751 A1 WO 2015040751A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
voice
unit
dictionary
speech
Prior art date
Application number
PCT/JP2013/075581
Other languages
English (en)
French (fr)
Inventor
鈴木 優
薫 平野
Original Assignee
株式会社東芝
東芝ソリューション株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝, 東芝ソリューション株式会社 filed Critical 株式会社東芝
Priority to PCT/JP2013/075581 priority Critical patent/WO2015040751A1/ja
Priority to JP2015537534A priority patent/JP6320397B2/ja
Priority to CN201380079572.7A priority patent/CN105531757B/zh
Publication of WO2015040751A1 publication Critical patent/WO2015040751A1/ja
Priority to US15/066,007 priority patent/US9812119B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • Embodiments described herein relate generally to a voice selection support device, a voice selection method, and a program.
  • speech dictionary When using speech synthesis, it is difficult to select from a large number of candidates because it is necessary to actually listen to the speech in order to select a speaker (speech dictionary).
  • speech dictionary In the conventional selection of speakers, there are at most about 10 types of speakers as options, but in recent years, more than 800 types of speech dictionaries have been provided. For this reason, as a means for selecting a speaker, a means for searching by specifying an attribute (gender, age, attribute (cool / husky / moe, etc.)) is provided.
  • an attribute gender, age, attribute (cool / husky / moe, etc.)
  • Embodiments of the present invention have been made in view of the above, and an object of the present invention is to provide a voice selection support device that allows a user to easily select a desired speaker.
  • an embodiment of the present invention includes an accepting unit that receives text input, and an analysis knowledge storage that stores text analysis knowledge used for feature analysis of the input text.
  • An analysis unit that analyzes the characteristics of the text with reference to the text analysis knowledge, a speech attribute storage unit that stores speech attributes for each speech dictionary, the speech attributes of the speech dictionary, and the text features And an evaluation unit that evaluates the similarity, and a candidate presenting unit that presents candidates of the speech dictionary suitable for the text based on the similarity.
  • voice selection assistance apparatus of embodiment The figure which shows the example of the audio
  • the flowchart which shows the flow of the text analysis process of embodiment.
  • the flowchart which shows the flow of the process which evaluates the similarity of the speaker of embodiment.
  • the block diagram which shows the function structure of the audio
  • the flowchart of the process which updates a speaker's audio
  • the block diagram which shows the hardware constitutions of the audio
  • FIG. 1 is a block diagram showing a functional configuration of the voice selection support device 1 of the present embodiment.
  • the voice selection support apparatus 1 includes a reception unit 101, an analysis unit 102, an evaluation unit 104, a candidate presentation unit 106, a selection reception unit 109, a result output unit 110, a voice synthesis unit 107, an analysis knowledge storage unit 103, and a voice attribute storage unit 105.
  • the voice dictionary storage unit 108 is provided. These units may be realized by software, or may be realized by hardware such as an electronic circuit.
  • the accepting unit 101 accepts input of a text to be read out by the user in speech synthesis.
  • the analysis unit 102 analyzes the text received by the receiving unit 101 from the user while referring to the text analysis knowledge stored in the analysis knowledge storage unit 103. Details of the text analysis knowledge will be described later.
  • the evaluation unit 104 evaluates the input text by comparing the speech attribute representing the feature of the speech for each speech synthesis speaker stored in the speech attribute storage unit 105 with the analysis result of the analysis unit 102. Select speaker candidates suitable for speech synthesis.
  • the candidate presenting unit 106 presents information on one or more speakers selected by the evaluation unit 104 to the user.
  • the speech synthesizer 107 may be used to switch from the speech dictionary storage unit 108 to a speech dictionary corresponding to each speaker to synthesize all or part of the input text.
  • the selection accepting unit 109 accepts the selection of the speaker that the user has determined to be most appropriate for reading out the text input from the speakers presented by the candidate presenting unit 106.
  • the result output unit 110 presents the result of determination by the user received by the selection receiving unit 109 to the user.
  • FIG. 2 shows an example of voice attributes stored in the voice attribute storage unit 105.
  • the audio attributes are expressed by items of gender, age group, type, style, format, and feature.
  • the style is expressed in terms of reading (more), reading (is), conversation (formal), and conversation (frank).
  • the format is expressed in terms of novels, study books, emails, conversations, and announcements.
  • the features are expressed as a list of words characteristic of sentences suitable for each speaker to read out.
  • the sex for each speaker is M (male) / F (female), the age group is C (child) / Y (young) / M (adult) / H (elderly), and the type is C (cool) / H.
  • Husky) / K (cute) / M (moe) / G (friendly) symbols are used, and the style and format are expressed in numerical values so that each item has a total of 100.
  • 201 in FIG. 2 is a cool voice of a young man, indicating that it is suitable for a relatively formal conversation style and is suitable for a novel or announcement format. Moreover, it is considered that it is relatively suitable for science and technology.
  • 202 in FIG. 2 is the same as 201 in that it is a cool voice of a young man, but the style is suitable for frank conversation, and the format is suitable for mail and conversation. Yes. Also, it is suitable for relatively casual contents such as design and fashion.
  • Such voice attributes may be set by each speaker himself to explain the characteristics of his / her voice, for example, and if each speaker is a narrator, voice actor, etc.
  • the sentence group read out in step 1 may be analyzed by the processing of the analysis unit 102 to be described later, or may be used as a speech attribute by listing characteristic words / phrases based on the frequency of words / phrases included in the sentence group. .
  • viewpoints and the expression methods of the viewpoints in FIG. 2 are examples for specifically explaining the present embodiment, and the contents of the present invention are not limited to these types and expression methods.
  • FIG. 2 only the voice attributes for six speakers are shown for explanation, but in the present embodiment, more voice attributes of more speakers are actually stored in the voice attribute storage unit 105. Shall.
  • each voice attribute and the voice dictionary do not necessarily correspond to a specific person. You can create a voice attribute or voice dictionary of a non-existent person by combining the voices of multiple people or making changes to a voice dictionary of a person. A plurality of voice attributes or a voice dictionary may correspond to the speaker.
  • the text input by the user is received by the receiving unit 101 and subsequently sent to the analyzing unit 102.
  • the analysis unit 102 analyzes the input sentence according to the flow of FIG. 3 while referring to the text analysis knowledge stored in the analysis knowledge storage unit 103.
  • the analysis unit 102 first performs morphological analysis on the input sentence (step S301).
  • the morphological analysis is a process of dividing a sentence into words and assigning parts of speech, and since it can be realized by a known method, it will not be described in detail here. An example of the result of morphological analysis is shown below.
  • FIG. 4 is a diagram illustrating an example of text analysis knowledge.
  • Text analysis knowledge consists of three values: pattern, attribute, and weight.
  • “pattern” is described in the same expression as the result of the morpheme analysis process described above, and is compared with the morpheme analysis result of the input sentence in the subsequent process (step S304).
  • “Attribute” represents a corresponding attribute among audio attributes.
  • “Weight” represents the number of points added to the corresponding attribute in the subsequent process (step S305) when the patterns match.
  • 401 in FIG. 4 adds 1 to the attribute “spoken (sorry)” when a part of the morphological analysis result of the input sentence matches “+ is ⁇ auxiliary verb> +. ⁇ Phrase>”. It means that.
  • the analysis unit 102 compares the extracted “text pattern” of the text analysis knowledge with the morphological analysis result of the input sentence, and determines whether or not they match. (Step S304). If the patterns match as a result of the comparison (step S304: Yes), the analysis unit 102 adds the value of “weight” to “attribute” of the text analysis knowledge (step S305).
  • step S304 If the patterns do not match (step S304: No), or after step S305, the process returns to step S302 again, and the analysis unit 102 retrieves the next text analysis knowledge from the analysis knowledge storage unit 103. As described above, when steps S302 to S305 are repeated to extract all text analysis knowledge and new text analysis knowledge cannot be extracted (step S303: No), the analysis unit 102 proceeds to step S306 and normalizes the added weight. (Step S306).
  • Normalization is performed so that the sum of the added values in the same classification becomes 100 for each classification of the “style” and “form” of the voice attribute shown in FIG. However, normalization is not performed if the value is 0 for any attribute in the same category.
  • step S304 For example, in the case of the above-described example A of the morpheme analysis result, 402 and 403 in FIG. 4 coincide with each other in step S304, and one weight is added to each of the speech attributes “spoken” and “novel”.
  • the values are changed to 100 as a result of normalization in step S306, and in step S307
  • the input text and the morphological analysis result of the input text are output to the evaluation unit 104.
  • the text analysis knowledge is not necessarily in the form as shown in FIG. 4, and for example, the correspondence (weight) between the N-gram (pattern) of the morpheme and the attribute may be expressed stochastically.
  • Such text analysis knowledge associates a specific sentence with an appropriate attribute by means not included in this embodiment, such as manually, and statistically associates an N-gram contained in the sentence with the attribute. It can be created by such processing.
  • FIG. 5 shows a flow of processing in which the evaluation unit 104 receives an input from the analysis unit 102 and evaluates the voice attribute stored in the voice attribute storage unit 105.
  • Smax is a variable indicating the maximum value of the overall similarity.
  • Vmax is a variable indicating the speaker having the maximum overall similarity.
  • the evaluation unit 104 extracts the voice attributes one by one from the voice attribute storage unit 105 (step S502).
  • the evaluation unit 104 determines whether or not the voice attribute has been successfully extracted (step S503).
  • step S503: No that is, when the similarity for all voice attributes has been calculated
  • the evaluation unit 104 outputs Vmax and ends the process (step S510).
  • step S503: Yes when the extraction of the voice attribute is successful (step S503: Yes), the evaluation unit 104 calculates S1 that is the inner product of the result of the analysis unit 102 and the value of the “style” of the voice attribute (step S504).
  • the evaluation unit 104 calculates S2 which is the inner product of the result of the analysis unit 102 and the value of the “format” of the voice attribute (step S505). Then, the evaluation unit 104 calculates S3, which is the number of words included in the morphological analysis result of the input sentence in the word list of “feature” of the speech attribute (step S506).
  • the inner product may be obtained by vectorizing the word list for normalization.
  • ⁇ , ⁇ , and ⁇ are preset parameters that can be adjusted according to the importance of style, format, and features. Then, the evaluation unit 104 determines whether Sim> Smax is satisfied (step S508). If Sim> Smax (step S508: Yes), the evaluation unit 104 updates Smax and stores the speaker name in Vmax (step S509).
  • the evaluation unit 104 may output N speakers in descending order of Sim.
  • the candidate presenting unit 106 presents the speaker evaluated to be suitable for reading the input sentence in response to the processing result of the evaluating unit 104.
  • the speaker name but also the voice attribute of the speaker may be referred to and information such as gender, age group and type may be presented together.
  • the candidate presentation unit 106 sends the input text from the user and the speaker name output by the evaluation unit 104 to the speech synthesis unit 107.
  • the speech synthesizer 107 refers to the speech dictionary of the speaker corresponding to the input speaker name among the speech dictionaries stored in the speech dictionary storage unit 108 and outputs the input sentence as synthesized speech.
  • the text input by the user in the voice dictionary of speaker B is read out. If the input sentence is longer than the preset sentence length, the speech synthesizer 107 may read out only a part of the input sentence.
  • the user who confirmed the outputs of the candidate presenting unit 106 and the speech synthesizing unit 107 inputs through the selection receiving unit 109 whether or not to select the presented speaker.
  • the selection receiving unit 109 notifies the result output unit 110 that the user has selected the speaker.
  • the result output unit 110 outputs information on the selected speaker, and instructs the speech synthesizer 107 to read out the text input by the user in the speaker's speech dictionary. Is output.
  • the selection receiving unit 109 notifies the evaluation unit 104 that the speaker has not been selected.
  • the evaluation unit 104 performs the same evaluation again on the speech attributes of speakers other than the speaker, and outputs the next candidate speaker to the candidate presentation unit 106. This process is repeated until the speaker output by the candidate presentation unit 106 is selected.
  • the candidate presentation unit 106 lists and displays these candidates, and the selection accepting unit 109 selects from the N candidates. It may operate to accept the candidates that have been made.
  • the speech synthesizer 107 does not read out the speech dictionary of N candidates at a time, but sequentially reads out while the candidate presenter 106 controls the display so that the correspondence between the presented candidates and the speech can be understood.
  • the speech synthesizing unit 107 may be controlled so that the candidate presenting unit 106 reads out a voice dictionary of a speaker designated by receiving an instruction from the user.
  • the input text is automatically analyzed in the style and format, and the speaker has a voice attribute close to the evaluation result by the text analysis. Is selected and presented to the user. Therefore, the user does not need to perform a search at his / her own judgment, and a suitable speaker can be easily selected.
  • an example of presenting a speaker suitable for reading out a sentence input by a user by speech synthesis is shown.
  • a speaker not suitable for reading out an input document is shown. It is also conceivable to perform control so that selection becomes difficult. Such a modification will be described based on the example of the voice attribute shown in FIG.
  • the values of the styles other than the read-out (is) are normalized so that the total value becomes 100 only by the style values other than the read-out (is).
  • the evaluation unit 104 When the evaluation unit 104 performs control such as reducing or reducing the value of the feature similarity S3 when the input sentence includes a word with “-” added to the beginning, the word or phrase is changed. It is possible to control the speaker so that it is difficult to select the input sentence included.
  • This modification 1 also allows the speaker himself to control that his / her voice dictionary is not used to read sentences that require age restrictions or violate public order and morals, or sentences that do not fit the image.
  • FIG. 7 is a diagram showing a functional configuration of the voice selection support device 1a in this modification.
  • the voice selection support device 1 a in addition to the configuration of FIG. 1, the voice selection support device 1 a newly includes a selection history storage unit 701 and a voice attribute update unit 702.
  • the selection history storage unit 701 receives and stores the selection result and the input sentence as a selection history from the result output unit 110.
  • the voice attribute update unit 702 updates the voice attribute based on the selection history stored in the selection history storage unit 701.
  • FIG. 8 shows an example of the selection history output from the result output unit 110 and stored in the selection history storage unit 701.
  • the selection history in FIG. 8 includes the speaker name that is the user's selection result received by the selection receiving unit 109, the normalized weight of each attribute of the style and format obtained by the analysis unit 102 from the text input by the user, the user Is composed of keywords obtained by extracting and listing common nouns included in the analysis result obtained by analyzing the morphological analysis of the sentence inputted by the analysis unit 102.
  • reference numeral 801 in FIG. 8 is a selection history corresponding to the specific example described in the first embodiment.
  • the text entered by the user may be a long text group such as an entire novel, for example, instead of all the words and phrases contained in the text entered by the user, a certain number of priorities are assigned according to statistics such as appearance frequency. Only the following words may be included in the selection history as keywords.
  • the voice attribute update unit 702 updates the voice attribute stored in the voice attribute storage unit 105 according to the flowchart of FIG.
  • the voice attribute update unit 702 summarizes the selection history for each selection result (speaker) (step S901). For example, 801 and 802 in FIG. 8 are collected because the selection result is speaker B.
  • the voice attribute update unit 702 obtains an average value of each attribute for each speaker (step S902). For example, for speaker B in FIG. 8, the value of reading (sama) is 80, the value of reading (is) is 5, the value of conversation (formal) is 15, the value of conversation (frank) is 0, The value is 65, the learning book value is 0, the mail value is 5, the conversation value is 10, and the announcement value is 20.
  • the voice attribute update unit 702 updates the voice attribute for each speaker (step S903).
  • the parameter ⁇ need not be a constant, and may be a function such as the number of selection histories, for example.
  • the “keyword” of the selection history added in S902 is added to the “feature” of the voice attribute.
  • the evaluation unit 104 refers to the voice attribute storage unit 105 and executes the evaluation, so that the selection history is reflected in the selection of the speaker candidate.
  • the selection history storage unit 701 manages the selection history individually for each user
  • the voice attribute update unit 702 also updates the voice attribute individually based on the individual selection history for each user
  • the voice attribute storage unit 105 also When the updated voice attributes are individually managed for each user, the tendency (preference) of speaker selection of each user is reflected in the evaluation of the evaluation unit 104.
  • the selection history storage unit 701 collectively manages the selection history of all users, the tendency of speaker selection of the entire user group is reflected in the evaluation of the evaluation unit 104, and the evaluation unit 104 The accuracy of evaluation can be expected to improve.
  • the voice attribute update unit 702 updates the voice attribute stored in the voice attribute storage unit 105.
  • the voice attribute stored in the voice attribute storage unit 105 is not updated.
  • the evaluation unit 104 performs the evaluation, by referring to the selection history stored in the selection history storage unit 701, the evaluation reflecting the selection history is performed. Good.
  • the voice selection device 1 of each of the above embodiments includes a control device such as a CPU 10, a storage device such as a ROM 11 (Read Only Memory) and a RAM 12, and an external storage such as an HDD 13 and a CD drive device.
  • the apparatus includes a display device 14 such as a display device, and an input device 15 such as a keyboard and a mouse, and has a hardware configuration using a normal computer.
  • the program executed by the voice selection device of each of the above embodiments is a file in an installable or executable format, such as a CD-ROM, a flexible disk (FD), a CD-R, a DVD (Digital Versatile Disk), etc.
  • the program is provided by being recorded on a computer-readable recording medium.
  • the program according to each of the above embodiments may be stored on a computer connected to a network such as the Internet and provided by being downloaded via the network. Further, the program executed by the voice selection device of each of the above embodiments may be provided or distributed via a network such as the Internet.
  • program of each of the above embodiments may be provided by being incorporated in advance in a ROM or the like.
  • the program executed by the voice selection device of each of the above embodiments has a module configuration including the above-described units, and as actual hardware, a CPU (processor) reads the program from the storage medium.
  • a CPU processor
  • the above-described units are loaded onto the main storage device and generated on the main storage device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

 テキストの入力を受ける受理部と、入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、音声辞書ごとの音声属性を記憶する音声属性記憶部と、前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、を備える。

Description

音声選択支援装置、音声選択方法、およびプログラム
 本発明の実施形態は、音声選択支援装置、音声選択方法、およびプログラムに関する。
 音声合成を利用する際、話者(音声辞書)を選択するためには実際に音声を聞く必要があるため多数の候補から選ぶことが難しい。従来提供された話者の選択においては、選択肢である話者が多くても10種類程度であったが、近年800種類以上の音声辞書が提供されるようになってきている。そのため、話者を選択する手段として属性(性別、年代、属性(クール/ハスキー/萌え等)を指定して検索する手段が提供されている。また、テキストのメタデータで指定された話者の音声辞書が再生環境に存在しない場合に、メタデータに記述された属性(前述の属性と同様)に基づいて代替の音声を選択し、選択した音声を再生する技術がある。
特開2013―72957号公報
 しかしながら、属性を指定して話者を検索する手法では、入力テキストの読み上げに相応しい話者の属性を利用者が適切に設定することが困難である。また音声辞書が多量にある場合には属性によって検索しても話者の候補がたくさん提示されて絞り込めない恐れがある。
 本発明の実施形態は、上記に鑑みてなされたものであって、容易に利用者が所望の話者を選択することができる音声選択支援装置を提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明の実施形態は、テキストの入力を受ける受理部と、入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、音声辞書ごとの音声属性を記憶する音声属性記憶部と、前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、を備えることを特徴とする。
実施形態の音声選択支援装置の機能構成を示すブロック図。 実施形態の音声属性の例を示す図。 実施形態のテキスト解析処理の流れを示すフロー図。 実施形態のテキスト解析知識の例を示す図。 実施形態の話者の類似度を評価する処理の流れを示すフロー図。 実施形態の変形例の音声属性の例を示す図。 実施形態の変形例の音声選択支援装置の機能構成を示すブロック図。 実施形態の変形例の話者の選択履歴の例を示す図。 実施形態の選択履歴から話者の音声属性を更新する処理のフロー図。 実施形態の音声選択支援装置のハードウェア構成を示すブロック図。
 以下、本発明の実施の形態について図面を参照して説明する。
 (第1実施形態)
 第1の実施形態は、テキスト文書を入力すると、複数の話者の音声辞書の中から合成音声による読み上げに用いる音声辞書の候補を提示することのできる音声選択支援装置を説明するものである。図1は本実施形態の音声選択支援装置1の機能構成を示すブロック図である。音声選択支援装置1は、受理部101、解析部102、評価部104、候補提示部106、選択受理部109、結果出力部110、音声合成部107、解析知識記憶部103、音声属性記憶部105、音声辞書記憶部108を備えている。なお、これらの各部はソフトウェアによって実現してもよいし、電子回路などのハードウェアによって実現するようにしてもよい。
 受理部101は、ユーザによる、音声合成での読み上げの対象となるテキストの入力を受理する。解析部102は、解析知識記憶部103に記憶されたテキスト解析知識を参照しながら、受理部101がユーザから受理したテキストを解析する。テキスト解析知識の詳細については、後述する。
 評価部104は、音声属性記憶部105に記憶された、音声合成の話者毎の音声の特徴を表す音声属性と、解析部102の解析結果とを比較のうえ評価し、入力されたテキストを音声合成で読上げるのに適した話者の候補を選出する。候補提示部106は、評価部104によって選出された一つ乃至は複数の話者の情報をユーザに提示する。その際、音声合成部107を用いて、音声辞書記憶部108から各話者に相当する音声辞書に切り替えて、入力されたテキストの全体、又は一部を音声合成してもよい。
 選択受理部109は、候補提示部106が提示した話者の中から入力されたテキストを読み上げるのにユーザが最も適切と判断した話者の選択を受理する。結果出力部110は、選択受理部109が受理したユーザによる判断の結果をユーザに提示する。
 続いて、音声属性記憶部105に記憶された、音声合成の話者毎の音声の特徴を示す音声属性について図2を用いて説明する。図2に音声属性記憶部105に記憶された音声属性の例を示している。図2に示されるように、音声属性は、性別、年齢層、タイプ、スタイル、形式、特徴、の項目によって表現されている。スタイルについては、読上げ(ですます)、読上げ(である)、会話(フォーマル)、会話(フランク)、の観点で表現される。形式については、小説、学習書、メール、会話、アナウンス、の観点で表現される。また特徴については、各話者が読み上げるのに適した文章に特徴的な単語のリストで表現される。
 また、話者ごとの性別をM(男性)/F(女性)、年齢層をC(子供)/Y(若者)/M(成人)/H(高齢者)、タイプをC(クール)/H(ハスキー)/K(かわいい)/M(萌え)/G(優しい)という記号で表記し、スタイルと形式はそれぞれの項目が合計100になるような数値で表記している。
 例えば図2の201は、若者の男性のクールな声で、比較的フォーマルな会話調のスタイルに向いており、小説やアナウンスの形式に向いていることを示している。また特徴として科学技術系の内容に比較的向いていると考えられる。一方、図2の202は、若者の男性のクールな声である点は201と同様であるが、スタイルはフランクな会話に向いており、形式としてはメールや会話に向いていることを示している。また特徴としてはデザインやファッションといった比較的カジュアルな内容に向いていると考えられる。
 このように性別や年齢層、タイプが同じであっても、スタイルや形式や内容の向き不向きが異なる場合がある。このような音声属性は、例えば自身の声の特徴を説明するためにそれぞれの話者が自分で設定してもよいし、各話者が例えばナレータや声優などであれば、過去に自身の肉声で読上げた文章群を、後述する解析部102の処理によって解析したり、当該文章群に含まれる語句の頻度等から特徴的な語句をリスト化したりするなどして、音声属性として用いてもよい。
 なお、図2での観点の種類や各観点の表現方法については本実施形態を具体的に説明するための例であり、本発明の内容をこれらの種類や表現方法に限定するものではない。また図2では説明のため話者6人分の音声属性のみを記載しているが、本実施形態では、実際にはさらに多くの話者の音声属性が音声属性記憶部105に記憶されているものとする。
 また音声属性のラベルを「話者名」と表記しているが、各音声属性及び音声辞書は必ずしも特定の人物に対応している必要はない。複数の人物の音声を組み合わせたり、ある人物の音声辞書に変更を加えたりすることで実在しない人物の音声属性や音声辞書を作成してもよいし、同じ人物が声音を変えることで、一人の話者に対して複数の音声属性や音声辞書が対応するようにしてもよい。
 続いて、本実施形態の動作を説明する例として、ユーザが「花子は混雑を避け書店の奥で待った。(中略)見覚えのある本である。」という文章を読上げさせる場合について説明する。なお、この文章は小説の一部を模した例である。実際には小説全体が入力されることが想定されるが、ここでは説明のため一部のみを例として考える。
 ユーザが入力した文章は受理部101が受理し、続いて解析部102に送られる。続いて解析部102は図3のフローに従い、解析知識記憶部103に記憶されたテキスト解析知識を参照しながら、入力された文章を解析する。具体的には、図3に示されるように、まず解析部102は、入力された文章を形態素解析する(ステップS301)。形態素解析とは文章を単語に分割し品詞を付与する処理であり、公知の手法によって実現可能なためここでは詳説しない。形態素解析の結果の例を以下に示す。
 「花子<人名(名)>+は<助詞>/混雑<名詞>+を<助詞>/避け<動詞>/書店<名詞>+の<助詞>/奥<名詞>+で<助詞>/待っ<動詞>+た<助動詞>/。<句点>(中略)見覚え<名詞>+の<助詞>/ある<動詞>/本<名詞>+である<助動詞>/。<句点>」
 ここで「<○○>」は品詞、「+」は単語の切れ目、「/」は文節の切れ目を表す。また、品詞の「人名(名)」は人名(固有名詞)の姓名の名を表し、その他は表記通りの品詞を表している。
 次に解析部102は、解析知識記憶部103からテキスト解析知識を一つずつ取り出す(ステップS302)。図4は、テキスト解析知識の例を示す図である。テキスト解析知識はパタン、属性、重みの3つの値で構成される。このうち「パタン」は前述の形態素解析処理の結果と同様の表現で記述されており、後段の処理(ステップS304)において入力文の形態素解析結果と比較される。また「属性」は音声属性のうち対応する属性を表している。「重み」はパタンがマッチした場合に後段の処理(ステップS305)において対応する属性に加算される点数を表す。
 例えば図4の401は、入力された文章の形態素解析結果の一部が「+です<助動詞>+。<句点>」と一致した場合に「読上げ(ですます)」という属性に1を加算する、ということを表している。テキスト解析知識が一つ取り出せた場合(ステップS303:Yes)、解析部102は、取り出したテキスト解析知識の「パタン」と入力文章の形態素解析結果とを比較し、一致するか否かを判定する(ステップS304)。比較の結果パタンが一致した場合には(ステップS304:Yes)、解析部102は、テキスト解析知識の「属性」に対して「重み」の値を加算する(ステップS305)。
 パタンが一致しなかった場合(ステップS304:Noo)、あるいはステップS305の後、再びステップS302に戻り、解析部102は、解析知識記憶部103から次のテキスト解析知識を取り出す。このようにステップS302からS305を繰り返し、すべてのテキスト解析知識を取り出して新たなテキスト解析知識が取り出せなくなると(ステップS303:No)、解析部102は、ステップS306に進み加算された重みを正規化する(ステップS306)。
 正規化は図2に例を示した音声属性の「スタイル」と「形式」のそれぞれの分類について、同一分類内での加算値の合計が100になるように正規化する。ただし同一分類内のいずれの属性についても値が0であった場合は正規化は行われない。
 例えば前述の形態素解析結果の例Aの場合、ステップS304で図4の402と403が一致し、音声属性の「読上げ(ですます)」と「小説」にそれぞれ重みが1ずつ加算される。また「読上げ(ですます)」と「小説」はそれぞれ異なる分類(「スタイル」と「形式」)に属するため、ステップS306での正規化の結果、それぞれの値が100に変更され、ステップS307で入力文章及び入力文章の形態素解析結果と共に評価部104へと出力される。
 なおテキスト解析知識は必ずしも図4のような形式である必要はなく、例えば形態素のNグラム(パタン)と属性との対応(重み)を確率的に表現することも考えられる。このようなテキスト解析知識は、人手によるなど本実施形態には含まれない手段で具体的な文章と適切な属性を対応づけておき、文章に含まれるNグラムと属性とを統計的に関係づけるなどの処理によって作成することができる。
 図5は、評価部104が解析部102からの入力を受け、音声属性記憶部105に記憶された音声属性を評価する処理の流れを示している。まず評価部104は、Smax=0、Vmax=nullと初期化を行う(ステップS501)。Smaxは総合類似度の最大値を示す変数である。Vmaxは、総合類似度が最大の話者を示す変数である。続いて、評価部104は、音声属性記憶部105から音声属性を一つずつ取り出す(ステップS502)。
 評価部104は、音声属性の取出しが成功したか否かを判定する(ステップS503)。音声属性の取出しが失敗した場合(ステップS503:No)、すなわち全ての音声属性についての類似度が算出し終わった場合、評価部104は、Vmaxを出力して処理を終了する(ステップS510)。一方、音声属性の取出しが成功した場合(ステップS503:Yes)、評価部104は、解析部102の結果と音声属性の「スタイル」の値との内積であるS1を計算する(ステップS504)。
 次いで、評価部104は、解析部102の結果と音声属性の「形式」の値との内積であるS2を計算する(ステップS505)。そして、評価部104は、音声属性の「特徴」の単語リストの中で入力文章の形態素解析結果に含まれる単語の数であるS3を計算する(ステップS506)。なお、例えば正規化のため単語リストをベクトル化して内積を求めてもよい。
 最後に、評価部104は、Sim=α・S1+β・S2+γ・S3の式によって総合類似度Simを計算する(ステップS507)。α、β、γは、スタイル、形式、特徴をどう重要視するかによって調整可能な、予め設定されるパラメータである。そして、評価部104は、Sim>Smaxであるかを判定する(ステップS508)。Sim>Smaxであるなら(ステップS508:Yes)、評価部104は、Smaxを更新し、Vmaxに話者名を記憶させる(ステップS509)。
 例えばα=1、β=1、γ=0.1とすると、
話者A:S1=0.2、S2=0.3、S3=0、Sim=0.5
話者B:S1=0.4、S2=0.3、S3=1、Sim=0.8
話者C:S1=0.3、S2=0.0、S3=0、Sim=0.3
話者D:S1=0.1、S2=0.1、S3=0、Sim=0.2
話者E:S1=0.2、S2=0.3、S3=1、Sim=0.6
話者F:S1=0.1、S2=0.1、S3=0、Sim=0.2
となり、Vmax=話者Bが出力される。
 なお図5のフローではSimが最大となる話者が1名だけ出力されるが、例えばSimの降順にN人の話者を候補として評価部104が出力してもよい。
 候補提示部106は、評価部104の処理結果を受け入力文章を読み上げるのに適していると評価された話者をユーザに提示する。この時、話者名だけでなく、当該話者の音声属性を参照して性別、年齢層、タイプなどの情報を併せて提示してもよい。
 さらに候補提示部106はユーザからの入力文章と評価部104が出力した話者名を音声合成部107に送る。音声合成部107は、音声辞書記憶部108に記憶された音声辞書のうち、入力された話者名に該当する話者の音声辞書を参照して、入力された文章を合成音声で出力する。ここでは話者Bの音声辞書でユーザが入力した文章が読上げられることになる。なお入力された文章が予め設定された文章長よりも長い場合には、音声合成部107は入力された文章の一部分だけを読み上げてもよい。
 候補提示部106と音声合成部107の出力を確認したユーザは、提示された話者を選択するか否かを選択受理部109を通じて入力する。ユーザが話者を選択した場合には、選択受理部109はユーザが話者を選択したことを結果出力部110に伝える。結果出力部110は、選択された話者の情報を出力すると共に、音声合成部107に対して当該話者の音声辞書でユーザが入力した文章を読み上げるよう指示し、音声合成部107が合成音声を出力する。
 ユーザが候補提示部106が提示した話者を選択しなかった場合には、選択受理部109が当該話者が選択されなかったことを評価部104に伝える。評価部104は、当該話者以外の話者の音声属性について再び同様の評価を行い、次の候補となる話者を候補提示部106に出力する。候補提示部106が出力した話者が選択されるまでこの処理が繰り返される。
 なお評価部104がSimの降順にN人の候補を出力する場合には、候補提示部106がこれらの候補を列挙して表示し、選択受理部109がN人の候補の中からユーザが選択した候補を受理するように動作してもよい。この場合、音声合成部107はN人の候補の音声辞書で一度に読上げを行うのではなく、提示された候補と音声の対応づけがわかるように候補提示部106が表示を制御しながら順に読上げたり、候補提示部106がユーザからの指示を受けて指定された話者の音声辞書で読上げを行うよう音声合成部107を制御したりしてもよい。
 以上に示した本実施形態の音声選択支援装置1にあっては、スタイル、及び形式において、入力されたテキストの解析が自動で行われ、テキストの解析による評価結果と近い音声属性を有する話者が選択されて利用者に対して提示される。したがって、利用者が自らの判断で、検索を行う必要がなく、容易に適した話者を選択することができるようになる。
 なお、第1の実施形態ではユーザが入力した文章を音声合成で読み上げるのに相応しい話者を提示する例を示したが、その変形例1として、入力した文書を読み上げるのに相応しくない話者が選択されにくくなるように制御することも考えられる。このような変形例について図6で示した音声属性の例に基づいて説明する。
 図6の601は、性別=女性、年齢層=若者、タイプ=萌え、である話者Dがスタイル=読上げ(である)の文章で選択されないようにする例である。具体的には、スタイル=読上げ(である)の値を「-100」に設定し、スタイル=読上げ(である)の文章に対して評価部104の処理においてスタイル類似度S1が負の値になるようにすることで選択されにくくしている。この時、読上げ(である)以外のスタイルの値については、読上げ(である)以外のスタイルの値だけで合計値が100になるよう正規化している。
 また図6の602は、性別=男性、年齢層=若者、タイプ=クール、である話者Fが「俺」という語を含む文章で選択されにくくする例である。「特徴」に列挙される単語リストの中に、「-」を冒頭に付けて「俺」という単語を記載している。
 評価部104が、冒頭に「-」が付加されている語句が入力文章に含まれる場合に特徴類似度S3の値を小さくする、あるいは、負にするなどの制御を行うことで、当該語句が含まれる入力文章に対して当該話者が選択されにくくなるよう制御できる。
 さらには相応しくない話者を選択されにくくするだけでなく、候補として全く提示されないよう評価部104が制御してもよい。
 この変形例1により、例えば年齢制限が求められたり公序良俗に反したりする文章や、イメージに合わない文章の読み上げに自身の音声辞書が使われないよう話者自身が制御することもできる。
 また、第1の実施形態の別の変形例として、ユーザが入力した文章と選択した話者の情報を用いて音声属性記憶部105に記憶された音声情報を更新することができるようにすることもできる。図7は、この変形例における音声選択支援装置1aの機能構成を示す図である。図7に示されるように、図1の構成に加え、音声選択支援装置1aは、選択履歴記憶部701と音声属性更新部702とを新たに備える。選択履歴記憶部701は結果出力部110から選択結果及び入力文章を選択履歴として受け取り記憶する。音声属性更新部702は、選択履歴記憶部701に記憶された選択履歴に基づいて音声属性を更新する。
 図8に、結果出力部110から出力され選択履歴記憶部701に記憶される選択履歴の例を示す。図8の選択履歴は、選択受理部109が受理したユーザの選択結果である話者名、ユーザが入力した文章から解析部102が求めたスタイルと形式の各属性の正規化された重み、ユーザが入力した文章を解析部102が形態素解析した解析結果に含まれる普通名詞を結果出力部110が抽出して列挙したキーワード、から構成される。例えば図8の801は第1の実施形態において説明した具体例に対応する選択履歴である。
 ここで、キーワードとしてユーザが入力した文章を解析部102が形態素解析した解析結果に含まれる普通名詞のみを考えたが、固有名詞や動詞、形容詞など他の品詞の単語を含めてもよい。
 またユーザが入力した文章が例えば小説全体など長い文章群であることも考えられるため、ユーザが入力した文章に含まれる全ての語句ではなく、出現頻度等の統計量によって優先順位を付けて一定個数以下の単語のみをキーワードとして選択履歴に含めるなどしてもよい。
 次に、音声属性更新部702が図9のフローチャートに従って音声属性記憶部105に記憶された音声属性を更新する。まず、音声属性更新部702は、選択履歴を選択結果(話者)毎にまとめる(ステップS901)。例えば図8の801と802は選択結果がいずれも話者Bであるのでまとめられる。次いで、音声属性更新部702は、話者毎に各属性の平均値を求める(ステップS902)。例えば図8の話者Bについては、読上げ(ですます)の値が80、読上げ(である)の値が5、会話(フォーマル)の値が15、会話(フランク)の値が0、小説の値が65、学習書の値が0、メールの値が5、会話の値が10、アナウンスの値が20、となる。
 またキーワードもたし合わせる。例えば図8の話者Bについてはキーワードが「混雑、書店、奥、見覚え、本、本日、来店、案内、…」となる。そして、音声属性更新部702は、話者毎に音声属性を更新する(ステップS903)。音声属性記憶部105からS901でまとめた話者の音声属性を取り出し、各属性の値にS902で求めた平均値にパラメータδを乗じて加算する。例えばパラメータδ=0.1とすると、図2で話者Bに対応する203は、読上げ(ですます)の値が48、読上げ(である)の値が10.5、会話(フォーマル)の値が31.5、会話(フランク)の値が10、小説の値が36.5、学習書の値が0、メールの値が10.5、会話の値が21、アナウンスの値が42、となる。さらに、音声属性の「スタイル」と「形式」のそれぞれの分類について、同一分類内での加算値の合計が100になるように正規化する。
 なお、ここでは説明のためパラメータδの値を仮に設定したが、パラメータδの値は選択履歴をどの程度音声属性に反映するかを調整する値であり、δ=0.1よりさらに小さい値に設定することが考えられる。またパラメータδは定数である必要はなく、例えば選択履歴の数などの関数であってもよい。次に、音声属性の「特徴」にS902で足し合わせた選択履歴の「キーワード」を追加する。
 音声属性の更新後、評価部104が音声属性記憶部105を参照して評価を実行することで、話者の候補の選択に選択履歴が反映されることになる。この時、選択履歴記憶部701が選択履歴をユーザ毎に個別に管理し、音声属性更新部702もユーザ毎の個別の選択履歴に基づいて音声属性を個別に更新し、音声属性記憶部105も更新された音声属性をユーザ毎に個別に管理すると、個々のユーザの話者選択の傾向(好み)が評価部104の評価に反映されることになる。
 一方、選択履歴記憶部701が全てのユーザの選択履歴をまとめて管理する場合には、ユーザ群全体の話者選択の傾向が評価部104の評価に反映されることになり、評価部104による評価の精度が向上することが期待できる。
 また本変形例では音声属性更新部702が音声属性記憶部105に記憶された音声属性を更新する構成としたが、例えば音声属性記憶部105に記憶された音声属性を更新することはせず、評価部104が評価を実行する際に選択履歴記憶部701に記憶された選択履歴を参照することで、選択履歴を反映した評価を行う、という構成によって変形例と同様の動作を実現してもよい。
 以上の各実施形態の音声選択装置1は、図10に示されるように例えばCPU10などの制御装置と、ROM11(Read Only Memory)やRAM12などの記憶装置と、HDD13、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置14と、キーボードやマウスなどの入力装置15を備えており、通常のコンピュータを利用したハードウェア構成となっている。
 以上の各実施形態の音声選択装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
 また、以上の各実施形態のプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、以上の各実施形態の音声選択装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
 また、以上の各実施形態のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
 また、以上の各実施形態の音声選択装置はで実行されるプログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、主記憶装置上に生成されるようになっている。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (6)

  1.  テキストの入力を受ける受理部と、
     入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶する解析知識記憶部と、
     前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、
     音声辞書ごとの音声属性を記憶する属性記憶手段と、
     前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、
     前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する提示手段と、
     を備えることを特徴とする音声選択支援装置。
  2.  前記音声辞書を記憶する辞書記憶手段と、
     利用者からの指示に基づいて、提示された前記音声辞書の候補の前記音声辞書を用いて、入力テキストの全部、又は一部を音声化して利用者に提示する音声合成部と、
     利用者による前記音声辞書の選択指示を受け付ける選択受理部と、
     選択結果を出力する結果出力部と、
     を更に備えることを特徴とする請求項1に記載の音声選択支援装置。
  3.  前記音声属性記憶部は、前記音声辞書の前記音声属性を、当該音声辞書を所定の前記特徴を有する前記テキストに対して、前記類似度が低くなる態様で記憶する
     ことを特徴とする請求項1、又は2に記載の音声選択支援装置。
  4.  前記結果出力部から受け取った前記選択結果、及び前記テキストを選択履歴として記憶する履歴記憶手段と、
     前記履歴記憶手段に記憶された前記選択履歴に基づいて前記音声辞書の音声属性を更新する更新手段と、
     を更に備えることを特徴とする請求項2に記載の音声選択支援装置。
  5.  受理部がテキストの入力を受けるステップと、
     解析部が入力された前記テキストの特徴分析に用いられるテキスト解析知識を参照して前記テキストの特徴を分析するステップと、
     評価部が、音声辞書の音声属性と前記テキストの特徴との類似度を評価するステップと、
     候補提示部が前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示するステップと、
     を含むことを特徴とする音声選択方法。
  6.  コンピュータを
     テキストの入力を受ける受理部と、
     入力された前記テキストの特徴分析に用いられるテキスト解析知識を記憶するテキスト
    解析知識記憶手段と、
     前記テキスト解析知識を参照して前記テキストの特徴を分析する解析部と、
     音声辞書ごとの音声属性を記憶する音声属性記憶部と、
     前記音声辞書の前記音声属性と前記テキストの特徴との類似度を評価する評価部と、
     前記類似度に基づいて前記テキストに適した前記音声辞書の候補を提示する候補提示部と、
     として実行させるためのプログラム。
PCT/JP2013/075581 2013-09-20 2013-09-20 音声選択支援装置、音声選択方法、およびプログラム WO2015040751A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2013/075581 WO2015040751A1 (ja) 2013-09-20 2013-09-20 音声選択支援装置、音声選択方法、およびプログラム
JP2015537534A JP6320397B2 (ja) 2013-09-20 2013-09-20 音声選択支援装置、音声選択方法、およびプログラム
CN201380079572.7A CN105531757B (zh) 2013-09-20 2013-09-20 语音选择辅助装置以及语音选择方法
US15/066,007 US9812119B2 (en) 2013-09-20 2016-03-10 Voice selection supporting device, voice selection method, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/075581 WO2015040751A1 (ja) 2013-09-20 2013-09-20 音声選択支援装置、音声選択方法、およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/066,007 Continuation US9812119B2 (en) 2013-09-20 2016-03-10 Voice selection supporting device, voice selection method, and computer-readable recording medium

Publications (1)

Publication Number Publication Date
WO2015040751A1 true WO2015040751A1 (ja) 2015-03-26

Family

ID=52688432

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/075581 WO2015040751A1 (ja) 2013-09-20 2013-09-20 音声選択支援装置、音声選択方法、およびプログラム

Country Status (4)

Country Link
US (1) US9812119B2 (ja)
JP (1) JP6320397B2 (ja)
CN (1) CN105531757B (ja)
WO (1) WO2015040751A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017122928A (ja) * 2017-03-09 2017-07-13 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム
WO2020031292A1 (ja) * 2018-08-08 2020-02-13 株式会社ウフル 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム
JP2020536265A (ja) * 2017-10-03 2020-12-10 グーグル エルエルシー 作成者が提供したコンテンツに基づいて対話型ダイアログアプリケーションを調整すること
JP2021144221A (ja) * 2020-08-05 2021-09-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417328B2 (en) * 2018-01-05 2019-09-17 Searchmetrics Gmbh Text quality evaluation methods and processes

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02247696A (ja) * 1989-03-20 1990-10-03 Ricoh Co Ltd テキスト音声合成装置
JP2000214874A (ja) * 1999-01-26 2000-08-04 Canon Inc 音声合成装置及びその方法、コンピュ―タ可読メモリ
JP2009217846A (ja) * 2009-06-23 2009-09-24 Seiko Epson Corp 音声データ作成装置および音声データ作成方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6751593B2 (en) * 2000-06-30 2004-06-15 Fujitsu Limited Data processing system with block attribute-based vocalization mechanism
JP2004362419A (ja) * 2003-06-06 2004-12-24 Matsushita Electric Ind Co Ltd 情報処理装置および方法
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
CN100517463C (zh) * 2004-11-01 2009-07-22 英业达股份有限公司 语音合成系统以及方法
CN101000765B (zh) * 2007-01-09 2011-03-30 黑龙江大学 基于韵律特征的语音合成方法
JP2009139390A (ja) * 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
JP5198046B2 (ja) * 2007-12-07 2013-05-15 株式会社東芝 音声処理装置及びそのプログラム
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
JP2012198277A (ja) * 2011-03-18 2012-10-18 Toshiba Corp 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム
JP2013072957A (ja) 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
JP5689774B2 (ja) * 2011-10-04 2015-03-25 日本電信電話株式会社 対話型情報発信装置、対話型情報発信方法、及びプログラム
US9483461B2 (en) * 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02247696A (ja) * 1989-03-20 1990-10-03 Ricoh Co Ltd テキスト音声合成装置
JP2000214874A (ja) * 1999-01-26 2000-08-04 Canon Inc 音声合成装置及びその方法、コンピュ―タ可読メモリ
JP2009217846A (ja) * 2009-06-23 2009-09-24 Seiko Epson Corp 音声データ作成装置および音声データ作成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017122928A (ja) * 2017-03-09 2017-07-13 株式会社東芝 音声選択支援装置、音声選択方法、およびプログラム
JP2020536265A (ja) * 2017-10-03 2020-12-10 グーグル エルエルシー 作成者が提供したコンテンツに基づいて対話型ダイアログアプリケーションを調整すること
JP7204690B2 (ja) 2017-10-03 2023-01-16 グーグル エルエルシー 作成者が提供したコンテンツに基づいて対話型ダイアログアプリケーションを調整すること
WO2020031292A1 (ja) * 2018-08-08 2020-02-13 株式会社ウフル 音声aiモデル切替システム、音声aiモデル切替方法、及びプログラム
JP2021144221A (ja) * 2020-08-05 2021-09-24 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7230085B2 (ja) 2020-08-05 2023-02-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Also Published As

Publication number Publication date
JP6320397B2 (ja) 2018-05-09
JPWO2015040751A1 (ja) 2017-03-02
CN105531757B (zh) 2019-08-06
CN105531757A (zh) 2016-04-27
US20160189704A1 (en) 2016-06-30
US9812119B2 (en) 2017-11-07

Similar Documents

Publication Publication Date Title
US11823678B2 (en) Proactive command framework
US8036894B2 (en) Multi-unit approach to text-to-speech synthesis
JP4263181B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
US9548052B2 (en) Ebook interaction using speech recognition
US20110040790A1 (en) Information processing apparatus, method for processing information, and program
JP6320397B2 (ja) 音声選択支援装置、音声選択方法、およびプログラム
US20130080160A1 (en) Document reading-out support apparatus and method
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP5221768B2 (ja) 翻訳装置、及びプログラム
US20140019137A1 (en) Method, system and server for speech synthesis
US10600419B1 (en) System command processing
JP2010048953A (ja) 対話文生成装置
WO2003085550A1 (en) Conversation control system and conversation control method
JP2015219582A (ja) 対話方法、対話装置、対話プログラム及び記録媒体
US11961507B2 (en) Systems and methods for improving content discovery in response to a voice query using a recognition rate which depends on detected trigger terms
JP6260208B2 (ja) テキスト要約装置
JP6821542B2 (ja) 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
US10540987B2 (en) Summary generating device, summary generating method, and computer program product
JP6644141B2 (ja) 応答装置および応答装置の制御方法、制御プログラム
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2014109998A (ja) 対話装置及びコンピュータ対話方法
JP2017122928A (ja) 音声選択支援装置、音声選択方法、およびプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201380079572.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13894025

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015537534

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13894025

Country of ref document: EP

Kind code of ref document: A1