WO2015159363A1 - 情報提供装置および情報提供方法 - Google Patents

情報提供装置および情報提供方法 Download PDF

Info

Publication number
WO2015159363A1
WO2015159363A1 PCT/JP2014/060710 JP2014060710W WO2015159363A1 WO 2015159363 A1 WO2015159363 A1 WO 2015159363A1 JP 2014060710 W JP2014060710 W JP 2014060710W WO 2015159363 A1 WO2015159363 A1 WO 2015159363A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
text information
word
synonym
information
Prior art date
Application number
PCT/JP2014/060710
Other languages
English (en)
French (fr)
Inventor
政信 大沢
岡登 洋平
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to US15/120,966 priority Critical patent/US9734818B2/en
Priority to PCT/JP2014/060710 priority patent/WO2015159363A1/ja
Priority to DE112014006591.9T priority patent/DE112014006591B4/de
Priority to CN201480078015.8A priority patent/CN106233373B/zh
Priority to JP2016513527A priority patent/JP5976255B2/ja
Publication of WO2015159363A1 publication Critical patent/WO2015159363A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Definitions

  • the present invention relates to an information providing apparatus and an information providing method for providing text information for speech synthesis to a speech synthesizer.
  • Patent Document 2 describes that a word in a text to be subjected to speech synthesis is replaced with another plain expression.
  • Patent Document 1 In order to solve the problem in Patent Document 1, it is conceivable to combine Patent Documents 1 and 2 and replace the word with another expression when there is a phonetically similar word in the text. However, since the relationship between the expression after substitution and other words in the text is not taken into consideration, there is a problem that the synthesized speech may have low intelligibility.
  • This invention has been made to solve the above-described problems, and an object thereof is to replace a word in consideration of the relationship with other words in the text.
  • An information providing apparatus includes an acquisition unit that acquires text information, a detection unit that detects an acoustically similar word from the text information, and a storage unit that stores synonyms associated in advance for each word A selection unit for selecting from the storage unit a synonym corresponding to the word detected by the detection unit and having no acoustically identical or similar word in the text information, and the detection unit detects A replacement unit that replaces the word with the synonym selected by the selection unit; and an output unit that outputs the text information after the replacement unit is replaced as text information for speech synthesis.
  • the acquisition unit acquires the text information
  • the detection unit detects the acoustically similar word from the text information
  • the selection unit A selection step of selecting a synonym corresponding to the word detected in the detection step and having no acoustically identical or similar word in the text information from among the synonyms previously associated with A replacement step in which the replacement unit replaces the word detected in the detection step with the synonym selected in the selection step; and an output step in which the output unit outputs text information after the replacement in the replacement step as text information for speech synthesis; Is provided.
  • the synonym text for generating the synthesized speech with high intelligibility is selected and replaced because the synonym in which the acoustically identical or similar word does not exist in the text information is selected. Information can be generated.
  • FIG. 3 is a flowchart showing an operation of the information providing apparatus according to the first embodiment. It is a block diagram which shows the structure of the information provision apparatus which concerns on Embodiment 2 of this invention. 6 is a flowchart illustrating an operation of the information providing apparatus according to the second embodiment.
  • FIG. 1 is a block diagram illustrating a configuration of an information providing apparatus 1 according to Embodiment 1 and a speech synthesizing apparatus 10 that generates synthesized speech using speech synthesis text information output from the information providing apparatus 1.
  • the information providing device 1 may be applied to a navigation device or a server device, or may be an application program installed in a portable information terminal such as a tablet PC (personal computer) or a mobile phone.
  • the information providing apparatus 1 includes an acquisition unit 2, an analysis unit 3, an analysis dictionary 4, a detection unit 5, a storage unit 6, a selection unit 7, a replacement unit 8, and an output unit 9.
  • the acquisition unit 2 acquires text information to be processed by the information providing apparatus 1 from the outside.
  • the analysis unit 3 refers to the analysis dictionary 4 and performs morphological analysis on the text information acquired by the acquisition unit 2 to decompose the text into morphemes. Since a well-known technique may be used for the morphological analysis method, description thereof is omitted.
  • the detecting unit 5 detects an acoustically similar word from the text information using the analysis result by the analyzing unit 3.
  • the method for determining whether or not they are acoustically similar may be a well-known technique, and thus a detailed description thereof will be omitted.
  • the similarity between phonemes is calculated using Confusion Matrix, There is a method of calculating and judging the similarity between words based on the similarity.
  • the storage unit 6 stores a predefined word and a synonym in association with each other.
  • FIG. 2 shows an example of words and synonyms stored in the storage unit 6.
  • the word “correction” is associated with the synonyms “correction” and “correction”.
  • the selection unit 7 selects a synonym corresponding to the word detected by the detection unit 5 from the storage unit 6. At this time, the selection unit 7 uses the analysis result of the analysis unit 3 to select a synonym that does not include an acoustically identical or similar word in the text information. Note that the selection unit 7 may select one having a small number of phonemes when there are a plurality of synonym candidates that satisfy the above-described conditions. A synonym with a small number of phonemes has a short pronunciation, so when output as a synthesized speech, it is easy to hear even in noise and has good comprehension. Furthermore, the selection unit 7 does not need to select synonyms for all the words detected by the detection unit 5.
  • a synonym for one word may be selected, and a synonym may not be selected for the other word.
  • the synonym having the smaller number of phonemes may be selected, and the synonym having the larger number of phonemes may not be selected.
  • the replacement unit 8 replaces the word detected by the detection unit 5 present in the text information acquired by the acquisition unit 2 with the synonym selected by the selection unit 7.
  • the output unit 9 outputs the text information replaced by the replacement unit 8 to the speech synthesizer 10 as speech synthesis text information.
  • the voice synthesizer 10 includes a voice synthesizer 11 and a voice output unit 12.
  • the speech synthesizer 11 generates synthesized speech from the speech synthesis text information provided by the information providing apparatus 1. Since a known technique may be used for speech synthesis, description thereof is omitted.
  • the voice output unit 12 instructs a speaker (not shown) to output the synthesized voice generated by the voice synthesis unit 11.
  • the operation of the information providing apparatus 1 according to the first embodiment will be described using the flowchart shown in FIG. 3 and a specific example.
  • the text information to be processed by the information providing apparatus 1 is “Search for Heisei and replace with Showa when correcting”, and the storage unit 6 stores the data shown in FIG. Explain that it is.
  • the acquisition unit 2 acquires text information to be processed (step ST1).
  • the above-mentioned text information “Search for Heisei and replace with Showa when correcting” is acquired.
  • the analysis unit 3 refers to the analysis dictionary 4 and performs morphological analysis on the text information acquired by the acquisition unit 2 to decompose the text into morphemes (step ST2).
  • the detection unit 5 detects an acoustically similar word from the text information using the analysis result by the analysis unit 3 (step ST3). Specifically, the detection unit 5 detects the words “correction” and “search” that are acoustically similar.
  • the selection part 7 selects the synonym of the word detected by the detection part 5 from the memory
  • the candidates for synonyms for the word “correction” are “correction” and “hand-up”, but the synonym “correction” and the other word “Heisei” in the text information are sounded.
  • the selection unit 7 selects the synonym “retouch”.
  • the replacement unit 8 replaces the word detected by the detection unit 5 present in the text information with the synonym selected by the selection unit 7 (step ST5), and replaces the speech synthesis text information after the replacement.
  • the data is output to the speech synthesizer 10 via the output unit 9 (step ST6).
  • the replacement unit 8 replaces “correction” in the text information “Search for Heisei when replacing, and replace with Showa” with “rework”, and the text after replacement The information “When repairing, search for Heisei and replace it with Showa.” Is generated.
  • the text information to be processed by the information providing apparatus 1 is one sentence, it may be two or more sentences.
  • synonyms text information for synthesized speech with improved intelligibility and consistency between sentences is generated by judging the acoustic similarity between two or more sentences. be able to.
  • the information providing apparatus 1 includes the acquisition unit 2 that acquires text information, the detection unit 5 that detects acoustically similar words from the text information, and the word for each word in advance.
  • a storage unit 6 that stores the associated synonyms, and a storage unit 6 that is synonyms corresponding to the words detected by the detection unit 5 and does not include any acoustically identical or similar words in the text information.
  • the selection unit 7 selected from the above, the replacement unit 8 for replacing the word detected by the detection unit 5 with the synonym selected by the selection unit 7, and the text information after the replacement by the replacement unit 8 is output as text information for speech synthesis
  • the output unit 9 is configured to be provided. Therefore, it is possible to generate synthesized speech text information for generating a synthesized speech with high intelligibility.
  • the selection unit 7 selects a synonym having a small number of phonemes, and therefore generates a synthesized speech with higher intelligibility. Text information for synthesized speech can be generated.
  • FIG. FIG. 4 is a block diagram illustrating a configuration of the information providing apparatus 1 according to the second embodiment.
  • the information providing apparatus 1 according to Embodiment 2 newly includes a delimiter 20 that delimits the text information acquired by the acquisition unit 2 every predetermined range.
  • the predetermined range is a sentence unit, a paragraph unit, a file unit, or the like
  • the delimiter 20 delimits based on additional information added to the text information acquired by the acquisition unit 2.
  • the additional information is information indicating sentence breaks, paragraph breaks, and the like.
  • the detection unit 5, the selection unit 7, and the replacement unit 8 perform processing for each predetermined range of text information delimited by the delimiter unit 20. Specifically, the detection unit 5 detects an acoustically similar word from a predetermined range of text information using the analysis result by the analysis unit 3. When the selection unit 7 selects a synonym corresponding to the word detected by the detection unit 5 from the storage unit 6, the selection unit 7 selects a synonym that does not have an acoustically identical or similar word in a predetermined range of text information. To do.
  • the replacement unit 8 replaces the word detected by the detection unit 5 existing in the predetermined range of the text information with the synonym selected by the selection unit 7.
  • the output unit 9 outputs a predetermined range of the replaced text information to the speech synthesizer 10 as speech synthesis text information.
  • the acquisition unit 2 acquires text information to be processed (step ST1).
  • the delimiter 20 divides the text information into, for example, groups of two sentences based on the additional information (step ST20).
  • the text information divided into two sentences by the separator 20 is “5 gold stones and 1 silver stone are required. Gold is gold in English and silver is silver in English.”
  • the description will be made assuming that the unit 6 stores the data shown in FIG.
  • the analysis unit 3 refers to the analysis dictionary 4 and performs morpheme analysis on the two sentences of the text information delimited by the delimiter unit 20 to decompose the text into morphemes (step ST2).
  • the detection unit 5 searches for an acoustically similar word from the two sentences of the text information using the analysis result by the analysis unit 3 (step ST3). Specifically, the detection unit 5 detects the acoustically similar words “golden” and “silver”.
  • the selection part 7 selects the synonym of the word detected by the detection part 5 from the memory
  • the candidate for the synonym of the word “golden” is “gold” and “golden”, but since the word “gold” exists in two sentences of the text information, the selection unit 7 uses the synonym “kogane”. Select. Similarly, the selection unit 7 selects “white color” as a synonym for the word “silver”.
  • the replacement unit 8 replaces the word detected by the detection unit 5 present in the two sentences of the text information with the synonym selected by the selection unit 7 (step ST5), and the speech synthesis text after the replacement Information is output to the speech synthesizer 10 via the output unit 9 (step ST6).
  • the replacement unit 8 has two sentences of text information, “5 gold stones and 1 silver stone are required. Gold is gold in English and silver is silver in English.” "Golden” is replaced with “Purple”, “Silver” is replaced with "Shirogane”, and the text information after replacement is "5 stones of stone and 1 stone of stones. "Gold in English and silver color in English is silver.”
  • the information providing apparatus 1 includes the delimiter 20 that divides the text information acquired by the acquisition unit 2 into groups of two or more sentences, and the detection unit 5 is delimited by the delimiter 20.
  • An acoustically similar word is detected from the group, and the selection unit 7 is synonymous with the word detected by the detection unit 5 and is acoustically the same in the group divided by the partition unit 20 or A synonym having no similar word is selected from the storage unit 6. For this reason, it is possible to generate text information for speech synthesis for generating a synthesized speech having high intelligibility and consistency in a group of sentences related to sentence meaning.
  • the text is decomposed into morphemes by the analysis unit 3 and the analysis dictionary 4.
  • the analysis unit 3 and the analysis dictionary 4 can be omitted.
  • Japanese has been described as an example.
  • the present invention is not limited to this, and the present invention may be applied to languages other than Japanese.
  • the present invention can freely combine each embodiment, modify any component of each embodiment, or omit any component of each embodiment. It is.
  • the information providing apparatus Since the information providing apparatus according to the present invention generates text information for generating highly understandable synthesized speech, it is possible to ensure intelligibility even under the influence of ambient noise such as noise during vehicle travel. It is suitable for providing text information to a car navigation speech synthesizer.
  • 1 Information providing device 2 acquisition unit, 3 analysis unit, 4 analysis dictionary, 5 detection unit, 6 storage unit, 7 selection unit, 8 replacement unit, 10 speech synthesis device, 11 speech synthesis unit, 12 speech output unit, 20 Separator.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 検出部5は、テキスト情報の中から音響的に類似する単語を検出し、選択部7は、記憶部6の中から、検出部5が検出した単語に対応する同義語であってテキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択する。置換部8は、検出部5が検出した単語を選択部7が選択した同義語に置換する。

Description

情報提供装置および情報提供方法
 この発明は、音声合成用のテキスト情報を音声合成装置に提供する情報提供装置および情報提供方法に関するものである。
 従来、音声合成装置へ入力されるテキスト中に、音響的に類似する聞き誤りやすい単語がある場合、合成音声の了解性が低くなるという問題があった。
 特許文献1には、音声合成の対象となるテキスト中に発音的に類似した単語が存在する場合に、その単語の合成音声を生成する際に明瞭度の高い音声素片を用いることで了解性を向上させることが記載されている。しかし、この場合、明瞭度が高くなるだけであるため、騒音が大きくなる等した場合、聞き間違えてしまう可能性があった。
 他方、特許文献2には、音声合成の対象となるテキスト中の単語を平易な別の表現に置換することが記載されている。
特開2000-206982号公報 特開平3-35296号公報
 特許文献1における問題を解決するために特許文献1,2を組み合わせて、テキスト中に発音的に類似した単語が存在する場合にその単語を別の表現に置換することが考えられる。しかし、置換後の表現とテキスト中の他の単語との関係を考慮していないため、かえって了解性が低い合成音声となってしまう場合があるという課題があった。
 この発明は、上記のような課題を解決するためになされたもので、テキスト中の他の単語との関係を考慮して単語を置換することを目的とする。
 この発明に係る情報提供装置は、テキスト情報を取得する取得部と、テキスト情報の中から音響的に類似する単語を検出する検出部と、単語毎に予め対応付けた同義語を記憶した記憶部と、検出部が検出した単語に対応する同義語であってテキスト情報の中に音響的に同一または類似する単語が存在しない同義語を、記憶部から選択する選択部と、検出部が検出した単語を選択部が選択した同義語に置換する置換部と、置換部が置換した後のテキスト情報を音声合成用テキスト情報として出力する出力部と備えるものである。
 この発明に係る情報提供方法は、取得部が、テキスト情報を取得する取得ステップと、検出部が、テキスト情報の中から音響的に類似する単語を検出する検出ステップと、選択部が、単語毎に予め対応付けた同義語の中から、検出ステップで検出した単語に対応する同義語であってテキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択する選択ステップと、置換部が、検出ステップで検出した単語を選択ステップで選択した同義語に置換する置換ステップと、出力部が、置換ステップで置換した後のテキスト情報を音声合成用テキスト情報として出力する出力ステップとを備えるものである。
 この発明によれば、テキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択して置換するようにしたので、了解性が高い合成音声を生成するための合成音声用テキスト情報を生成することができる。
この発明の実施の形態1に係る情報提供装置と音声合成装置の構成を示すブロック図である。 実施の形態1の情報提供装置の記憶部が記憶している単語と同義語の例を示す図である。 実施の形態1に係る情報提供装置の動作を示すフローチャートである。 この発明の実施の形態2に係る情報提供装置の構成を示すブロック図である。 実施の形態2に係る情報提供装置の動作を示すフローチャートである。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る情報提供装置1と、当該情報提供装置1から出力された音声合成用テキスト情報を用いて合成音声を生成する音声合成装置10の構成を示すブロック図である。この情報提供装置1は、ナビゲーション装置またはサーバ装置に適用してもよいし、タブレットPC(パーソナルコンピュータ)、携帯電話等の携帯情報端末にインストールされるアプリケーションプログラムであってもよい。
 情報提供装置1は、取得部2、解析部3、解析用辞書4、検出部5、記憶部6、選択部7、置換部8、および出力部9を備えている。
 取得部2は、この情報提供装置1が行う処理の対象となるテキスト情報を外部から取得する。
 解析部3は、解析用辞書4を参照して、取得部2により取得されたテキスト情報に対して形態素解析を行い、テキストを形態素に分解する。形態素解析の方法については周知の技術を用いればよいため説明は省略する。
 検出部5は、解析部3による解析結果を用いて、テキスト情報の中から音響的に類似する単語を検出する。なお、音響的に類似するか否かを判断する方法は、周知の技術を用いればよいため詳細な説明は省略するが、例えば、Confusion Matrixを用いて音素同士の類似度を算出し、それらの類似度に基づいて単語同士の類似度を算出し判断する方法などがある。
 記憶部6は、予め定義された単語と同義語とを対応付けて記憶している。
 図2に、記憶部6が記憶している単語と同義語の例を示す。例えば、単語「添削」と同義語「訂正」および「手直し」とが対応付けられている。
 選択部7は、検出部5により検出された単語に対応する同義語を、記憶部6から選択する。このとき選択部7は、解析部3による解析結果を用いて、テキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択する。
 なお、選択部7は、上述した条件を満たす同義語の候補が複数ある場合に、音素数が少ないものを選択してもよい。音素数が少ない同義語は発音が短いので、合成音声として出力したときに騒音の中でも聞き取りやすく、了解性が良い。
 さらに、選択部7は、検出部5により検出されたすべての単語について同義語を選択する必要はない。例えば、検出部5により類似する二つの単語が検出された場合、一方の単語に対する同義語を選択し、他方の単語については同義語の選択を行わなくてもよい。また例えば、類似する二つの単語に対応する二つの同義語のうち、音素数が少ない方の同義語を選択し、音素数が多い方の同義語は選択しなくてもよい。
 置換部8は、取得部2により取得されたテキスト情報中に存在する、検出部5により検出された単語を、選択部7により選択された同義語に置換する。
 出力部9は、置換部8により置換された後のテキスト情報を音声合成用テキスト情報として音声合成装置10に出力する。
 次に、音声合成装置10について説明する。音声合成装置10は、音声合成部11および音声出力部12を備えている。
 音声合成部11は、情報提供装置1が提供した音声合成用テキスト情報から合成音声を生成する。音声合成については周知の技術を用いればよいため説明を省略する。
 音声出力部12は、音声合成部11により生成された合成音声を出力するよう、不図示のスピーカに対して指示する。
 次に、図3に示すフローチャートと具体例を用いて、実施の形態1の情報提供装置1の動作を説明する。
 ここでは、情報提供装置1による処理対象となるテキスト情報を「添削の際は、平成を検索して、昭和に置換してください。」とし、記憶部6は図2に示したデータを格納しているものとして説明する。
 まず、取得部2は、処理の対象となるテキスト情報を取得する(ステップST1)。ここでは、上述したテキスト情報「添削の際は、平成を検索して、昭和に置換してください。」を取得する。
 そして、解析部3は、解析用辞書4を参照して、取得部2により取得されたテキスト情報に対して形態素解析を行い、テキストを形態素に分解する(ステップST2)。続いて、検出部5は、解析部3による解析結果を用いて、テキスト情報の中から音響的に類似する単語を検出する(ステップST3)。
 具体的には、検出部5は、音響的に類似している単語「添削(てんさく)」と「検索(けんさく)」を検出する。
 その後、選択部7は、検出部5により検出された単語の同義語を記憶部6から選択する(ステップST4)。
 ここでは、単語「添削」の同義語の候補は「訂正」と「手直し」であるが、同義語「訂正(ていせい)」とテキスト情報中の他の単語「平成(へいせい)」が音響的に類似していると判断し、選択部7は同義語「手直し」を選択する。
 最後に、置換部8は、テキスト情報中に存在する検出部5により検出された単語を、選択部7により選択された同義語に置換し(ステップST5)、置換後の音声合成用テキスト情報を出力部9を介して音声合成装置10へ出力する(ステップST6)。
 具体的には、置換部8は、テキスト情報「添削の際は、平成を検索して、昭和に置換してください。」の中の「添削」を「手直し」に置換し、置換後のテキスト情報「手直しの際は、平成を検索して、昭和に置換してください。」を生成する。
 なお、上記説明では、音響的に類似している単語「添削」と「検索」のうち、「添削」のみ同義語を選択したが、これに加えて「検索」の同義語も選択してもよい。
 また、情報提供装置1による処理対象となるテキスト情報が1文であったが、2文以上であってもよい。同義語を選択する際に、2文以上の文章のまとまりの中で音響的な類似度の判断を行うことにより、文章間での了解性と整合性を高めた合成音声用テキスト情報を生成することができる。
 以上より、実施の形態1によれば、情報提供装置1は、テキスト情報を取得する取得部2と、テキスト情報の中から音響的に類似する単語を検出する検出部5と、単語毎に予め対応付けた同義語を記憶した記憶部6と、検出部5が検出した単語に対応する同義語であってテキスト情報の中に音響的に同一または類似する単語が存在しない同義語を記憶部6から選択する選択部7と、検出部5が検出した単語を選択部7が選択した同義語に置換する置換部8と、置換部8が置換した後のテキスト情報を音声合成用テキスト情報として出力する出力部9とを備える構成にした。このため、了解性が高い合成音声を生成するための合成音声用テキスト情報を生成することができる。
 また、実施の形態1によれば、選択部7は、同義語の候補が複数存在する場合、音素数が少ない同義語を選択するようにしたので、より了解性が高い合成音声を生成するための合成音声用テキスト情報を生成することができる。
実施の形態2.
 図4は、実施の形態2に係る情報提供装置1の構成を示すブロック図である。図4において、図1および図2と同一または相当の部分については同一の符号を付し説明を省略する。実施の形態2の情報提供装置1は、新たに、取得部2が取得したテキスト情報を所定範囲毎に区切る区切部20を備えている。ここで、所定範囲とは、文単位、段落単位、ファイル単位などであり、区切部20は、取得部2により取得されたテキスト情報に付加されている付加情報に基づいて区切る。付加情報は、文の区切り、段落の区切りなどを示す情報である。
 検出部5、選択部7および置換部8は、区切部20により区切られたテキスト情報の所定範囲毎に処理を行う。
 具体的には、検出部5は、解析部3による解析結果を用いて、テキスト情報の所定範囲の中から音響的に類似する単語を検出する。選択部7は、検出部5により検出された単語に対応する同義語を記憶部6から選択する際、テキスト情報の所定範囲の中に音響的に同一または類似する単語が存在しない同義語を選択する。置換部8は、テキスト情報の所定範囲に存在する検出部5により検出された単語を、選択部7により選択された同義語に置換する。出力部9は、置換された後のテキスト情報の所定範囲を、音声合成用テキスト情報として音声合成装置10に出力する。
 次に、図5に示すフローチャートと具体例を用いて、実施の形態2の情報提供装置1の動作を説明する。
 まず、取得部2は、処理の対象となるテキスト情報を取得する(ステップST1)。区切部20は、テキスト情報をその付加情報に基づいて、例えば2文ごとのまとまりに区切る(ステップST20)。ここでは、区切部20により2文に区切られたテキスト情報を「金色の石が5個、銀色の石が1個必要です。金色は英語でゴールド、銀色は英語でシルバーです。」とし、記憶部6は図2に示したデータを格納しているものとして説明する。
 そして、解析部3は、解析用辞書4を参照して、区切部20により区切られたテキスト情報の2文に対して形態素解析を行い、テキストを形態素に分解する(ステップST2)。続いて、検出部5は、解析部3による解析結果を用いて、テキスト情報の2文の中から音響的に類似する単語を検索する(ステップST3)。
 具体的には、検出部5は、音響的に類似している単語「金色(きんいろ)」と「銀色(ぎんいろ)」を検出する。
 その後、選択部7は、検出部5により検出された単語の同義語を記憶部6から選択する(ステップST4)。
 ここでは、単語「金色」の同義語の候補は「ゴールド」と「こがね色」であるが、テキスト情報の2文中に単語「ゴールド」が存在するため、選択部7は同義語「こがね色」を選択する。同様にして選択部7は、単語「銀色」の同義語として「しろがね色」を選択する。
 最後に、置換部8は、テキスト情報の2文中に存在する検出部5により検出された単語を、選択部7により選択された同義語に置換し(ステップST5)、置換後の音声合成用テキスト情報を出力部9を介して音声合成装置10へ出力する(ステップST6)。
 具体的には、置換部8は、テキスト情報の2文「金色の石が5個、銀色の石が1個必要です。金色は英語でゴールド、銀色は英語でシルバーです。」の中の「金色」を「こがね色」に置換し、「銀色」を「しろがね色」に置換し、置換後のテキスト情報「こがね色の石が5個、しろがね色の石が1個必要です。こがね色は英語でゴールド、しろがね色は英語でシルバーです。」を生成する。
 以上より、実施の形態2によれば、情報提供装置1は、取得部2が取得したテキスト情報を2文以上のまとまり毎に区切る区切部20を備え、検出部5は、区切部20が区切ったまとまりの中から音響的に類似する単語を検出し、選択部7は、検出部5が検出した単語に対応する同義語であって区切部20が区切ったまとまりの中に音響的に同一または類似する単語が存在しない同義語を記憶部6から選択するように構成した。このため、文意に関連性がある文章のまとまり単位で、了解性が高く、かつ、整合性がある合成音声を生成するための音声合成用テキスト情報を生成することができる。
 なお、上記実施の形態1,2では、解析部3と解析用辞書4とによってテキストを形態素に分解したが、取得部2が取得するテキスト情報に予め形態素分析結果が含まれている場合には解析部3と解析用辞書4を省略可能である。
 また、上記実施の形態1,2では日本語を例に挙げて説明したが、これに限らず、本発明を日本語以外の言語に適用してもよい。
 上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
 この発明に係る情報提供装置は、了解性の高い合成音声を生成するためのテキスト情報を生成することで、車両走行時の騒音などの周囲騒音の影響があっても了解性を確保できるので、カーナビゲーション用音声合成装置などにテキスト情報を提供するのに適している。
 1 情報提供装置、2 取得部、3 解析部、4 解析用辞書、5 検出部、6 記憶部、7 選択部、8 置換部、10 音声合成装置、11 音声合成部、12 音声出力部、20 区切部。

Claims (5)

  1.  音声合成用テキスト情報を音声合成装置に提供する情報提供装置において、
     テキスト情報を取得する取得部と、
     前記テキスト情報の中から音響的に類似する単語を検出する検出部と、
     単語毎に予め対応付けた同義語を記憶した記憶部と、
     前記検出部が検出した単語に対応する同義語であって前記テキスト情報の中に音響的に同一または類似する単語が存在しない同義語を、前記記憶部から選択する選択部と、
     前記検出部が検出した単語を前記選択部が選択した同義語に置換する置換部と、
     前記置換部が置換した後の前記テキスト情報を前記音声合成用テキスト情報として出力する出力部とを備えることを特徴とする情報提供装置。
  2.  前記取得部が取得したテキスト情報を2文以上のまとまり毎に区切る区切部を備え、
     前記検出部は、前記区切部が区切ったまとまりの中から音響的に類似する単語を検出し、
     前記選択部は、前記検出部が検出した単語に対応する同義語であって前記区切部が区切ったまとまりの中に音響的に同一または類似する単語が存在しない同義語を、前記記憶部から選択することを特徴とする請求項1記載の情報提供装置。
  3.  前記区切部は、前記テキスト情報に付加されている付加情報に基づいて区切ることを特徴とする請求項2記載の情報提供装置。
  4.  前記選択部は、同義語の候補が複数存在する場合、音素数が少ない同義語を選択することを特徴とする請求項1記載の情報提供装置。
  5.  情報提供装置が、音声合成用テキスト情報を音声合成装置に提供する情報提供方法において、
     取得部が、テキスト情報を取得する取得ステップと、
     検出部が、前記テキスト情報の中から音響的に類似する単語を検出する検出ステップと、
     選択部が、単語毎に予め対応付けた同義語の中から、前記検出ステップで検出した単語に対応する同義語であって前記テキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択する選択ステップと、
     置換部が、前記検出ステップで検出した単語を前記選択ステップで選択した同義語に置換する置換ステップと、
     出力部が、前記置換ステップで置換した後の前記テキスト情報を前記音声合成用テキスト情報として出力する出力ステップとを備えることを特徴とする情報提供方法。
PCT/JP2014/060710 2014-04-15 2014-04-15 情報提供装置および情報提供方法 WO2015159363A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US15/120,966 US9734818B2 (en) 2014-04-15 2014-04-15 Information providing device and information providing method
PCT/JP2014/060710 WO2015159363A1 (ja) 2014-04-15 2014-04-15 情報提供装置および情報提供方法
DE112014006591.9T DE112014006591B4 (de) 2014-04-15 2014-04-15 Informationsbereitstellungsvorrichtung und Informationsbereitstellungsverfahren
CN201480078015.8A CN106233373B (zh) 2014-04-15 2014-04-15 信息提供装置及信息提供方法
JP2016513527A JP5976255B2 (ja) 2014-04-15 2014-04-15 情報提供装置および情報提供方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/060710 WO2015159363A1 (ja) 2014-04-15 2014-04-15 情報提供装置および情報提供方法

Publications (1)

Publication Number Publication Date
WO2015159363A1 true WO2015159363A1 (ja) 2015-10-22

Family

ID=54323610

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/060710 WO2015159363A1 (ja) 2014-04-15 2014-04-15 情報提供装置および情報提供方法

Country Status (5)

Country Link
US (1) US9734818B2 (ja)
JP (1) JP5976255B2 (ja)
CN (1) CN106233373B (ja)
DE (1) DE112014006591B4 (ja)
WO (1) WO2015159363A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10593135B2 (en) * 2016-04-11 2020-03-17 Olivier Noyelle Methods and systems for collecting and evaluating vehicle status
US10748526B2 (en) * 2018-08-28 2020-08-18 Accenture Global Solutions Limited Automated data cartridge for conversational AI bots

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0335296A (ja) * 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JP2003302993A (ja) * 2002-04-10 2003-10-24 Canon Inc 音声合成装置、音声合成方法、プログラム、記憶媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020120451A1 (en) 2000-05-31 2002-08-29 Yumiko Kato Apparatus and method for providing information by speech
JP2005063257A (ja) * 2003-08-18 2005-03-10 Canon Inc 情報処理方法、情報処理装置
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP5272764B2 (ja) * 2009-02-04 2013-08-28 富士通株式会社 音声合成装置、音声合成方法及びコンピュータプログラム
CN101819469A (zh) 2009-11-06 2010-09-01 无敌科技(西安)有限公司 中文内容拼写校正的方法
CN102201233A (zh) * 2011-05-20 2011-09-28 北京捷通华声语音技术有限公司 一种混搭语音合成方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0335296A (ja) * 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JP2000172289A (ja) * 1998-12-02 2000-06-23 Matsushita Electric Ind Co Ltd 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2000206982A (ja) * 1999-01-12 2000-07-28 Toshiba Corp 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体
JP2003302993A (ja) * 2002-04-10 2003-10-24 Canon Inc 音声合成装置、音声合成方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
JP5976255B2 (ja) 2016-08-23
DE112014006591T5 (de) 2017-03-23
CN106233373B (zh) 2017-07-07
JPWO2015159363A1 (ja) 2017-04-13
DE112014006591B4 (de) 2018-06-14
US20160365086A1 (en) 2016-12-15
US9734818B2 (en) 2017-08-15
CN106233373A (zh) 2016-12-14

Similar Documents

Publication Publication Date Title
US9099091B2 (en) Method and apparatus of adaptive textual prediction of voice data
JP2008083952A (ja) 辞書作成支援システム、方法及びプログラム
CN112818089A (zh) 文本注音方法、电子设备及存储介质
US10403265B2 (en) Voice recognition apparatus and voice recognition method
JP2009258293A (ja) 音声認識語彙辞書作成装置
JP5976255B2 (ja) 情報提供装置および情報提供方法
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
US8438005B1 (en) Generating modified phonetic representations of indic words
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
JP5701348B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP5795985B2 (ja) 形態素解析装置、形態素解析方法および形態素解析プログラム
US11514899B2 (en) Using multiple languages during speech to text input
JP7479249B2 (ja) 未知語検出方法及び未知語検出装置
JP6003127B2 (ja) 言語モデル作成プログラム及び言語モデル作成装置
JP2006133478A (ja) 音声処理システム及び方法並びに音声処理用プログラム
JP2005292346A (ja) 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム
JP2006243104A (ja) 音声合成方法
JP2004139530A (ja) 読み修正プログラム
JP2004301968A (ja) 発話処理装置、発話処理方法及び発話処理用プログラム
JP5252209B2 (ja) 読み生成装置
Begum Mustafa et al. Code-Switching in Automatic Speech Recognition: The Issues and Future Directions
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
JP2020030379A (ja) 認識結果補正装置、認識結果補正方法、およびプログラム
KR20200015100A (ko) 대어휘 연속 음성 인식 방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14889238

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016513527

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15120966

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 112014006591

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14889238

Country of ref document: EP

Kind code of ref document: A1