WO2010109575A1 - 音声情報出力装置 - Google Patents

音声情報出力装置 Download PDF

Info

Publication number
WO2010109575A1
WO2010109575A1 PCT/JP2009/055634 JP2009055634W WO2010109575A1 WO 2010109575 A1 WO2010109575 A1 WO 2010109575A1 JP 2009055634 W JP2009055634 W JP 2009055634W WO 2010109575 A1 WO2010109575 A1 WO 2010109575A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
audio
information
information data
voice
Prior art date
Application number
PCT/JP2009/055634
Other languages
English (en)
French (fr)
Inventor
謙一 大塚
Original Assignee
パイオニア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パイオニア株式会社 filed Critical パイオニア株式会社
Priority to PCT/JP2009/055634 priority Critical patent/WO2010109575A1/ja
Priority to JP2011505687A priority patent/JPWO2010109575A1/ja
Publication of WO2010109575A1 publication Critical patent/WO2010109575A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the present invention relates to a voice information output device that receives a plurality of pieces of information in a character string data format that can be recognized by a user, converts them into a voice data format, and outputs them to the user.
  • the problems to be solved by the present invention include the above-mentioned problems as an example.
  • the invention described in claim 1 is a voice information output device for converting information in a character string data format into information in a voice data format and outputting the information via an information communication network from the outside.
  • Data receiving means for receiving at least one character string information data
  • data converting means for converting the character string information data into voice information data in a voice data format
  • a complementary phrase for complementing the at least one character string information data
  • Storage means for storing speech data
  • data synthesis means for selecting the complementary phrase speech data suitable for the content of the at least one speech information data, combining it with the speech information data, and synthesizing the whole as speech output information data
  • voice output means for outputting the synthesized voice output information data by voice.
  • maintained It is a figure which shows the structural example of the completion word audio
  • flowchart which shows the example of a procedure of an information data output process. It is a figure showing an example of the display output of the output information data of the character string data format on a display.
  • FIG. 1 is a system configuration diagram showing a configuration example of a navigation system including a navigation device that is a voice information output device of the present embodiment and a server outside the vehicle.
  • the navigation system 200 includes a navigation device 100 as a voice information output device of the present embodiment, a network 201, a base station 202, and a server SV.
  • the navigation device 100, the server SV, and the base station 202 are each connected by a network 201, and can perform data communication according to a predetermined protocol.
  • the navigation device 100 attached to the vehicle wirelessly performs data communication with the base station 202 under the control of a receiving unit and a data receiving unit described later, and receives various types of information from the server SV via the network 201. It has the function to do.
  • the base station 202 is connected to the network 201 and has a function of performing data communication with the navigation apparatus 100 by radio.
  • the server SV is a server computer arranged outside the vehicle.
  • the server SV has a function of storing and transmitting various information received via the base station 202 and the network 201.
  • various information transmitted by the server SV As for the types of information transmitted by the server SV, as will be described in detail later, there are news contents of various genres, mails transmitted from others, etc., and those having urgency and those having no urgency. There is a normal one.
  • the information transmitted by the server SV is character string data format, that is, character string information data in a so-called text data format.
  • FIG. 2 is a block diagram showing an example of an electrical hardware configuration of the navigation device 100 of this embodiment mounted on a vehicle.
  • the navigation device 100 includes a CPU 11, a receiving device 12, a storage unit 13, a speaker 14, and a display 15. Note that only the components necessary for the voice information output device are shown in the figure, and other components necessary for route search and guidance guidance specific to the in-vehicle navigation device are not shown and described. .
  • the CPU 11 has a function of controlling the navigation device 100 as a whole by performing various calculations according to the operation of a predetermined program and exchanging data with other units and outputting various control instructions.
  • the receiving device 12 has a function of receiving data via wireless communication with the server SV provided outside the vehicle.
  • the receiving device 12 can always receive the various character string information data transmitted irregularly from the server SV.
  • the storage unit 13 includes a ROM 13a, a RAM 13b, and a storage medium 13c.
  • the ROM 13a is an information storage medium in which various processing programs to be described later and other necessary information are written in advance.
  • the RAM 13b is an information storage medium on which information necessary for executing the various programs is written and read.
  • the storage medium 13c is an information storage medium such as a flash memory or a hard disk. This storage medium 13c corresponds to a storage means, and voice information data obtained by converting various character string information data transmitted from the server SV and received by the receiving device 12 into a voice data format, and complementary phrase voice data described later. Has a function of storing them in different storage areas in a nonvolatile manner (see FIG. 3 described later).
  • the speaker 14 corresponds to a sound output means and has a function of outputting sound under the control of the CPU 11.
  • the display 15 corresponds to a character string output unit, and has a function of displaying a map image and information of various character string data formats under the control of the CPU 11 (see FIG. 9 described later).
  • FIG. 3 is a block diagram illustrating a software configuration example of an information output program that operates in the navigation device 100 illustrated in FIG.
  • the voice information output program includes, as its functions, a data receiving unit 41, a data attribute specifying unit 42, a data converting unit 43, a data synthesizing unit 44, a voice output unit 45, and a control unit 46. To demonstrate.
  • the data receiving unit 41 corresponds to a data receiving unit and receives various character string information data in a character string data format transmitted from the server SV.
  • the data attribute specifying unit 42 corresponds to a data attribute specifying unit, and extracts a word / phrase as a keyword from the character string of the content of the character string information data received by the data receiving unit 41, and the character string information based on the keyword Data is analyzed, and attributes (see FIG. 4 described later) are specified.
  • the data conversion unit 43 corresponds to a data conversion unit, and the character information data in the character string data format received by the data receiving unit 41 is converted into voice information data in a voice data format by a so-called known TTS (Text to Speech) voice conversion technology.
  • the data format is converted into the audio information data ED and stored in a predetermined storage area of the storage medium 13c.
  • the data synthesizing unit 44 corresponds to data synthesizing means, and the audio information data ED in the audio data format stored in the storage medium 13c and the complementary phrase in the audio data format stored in advance in another predetermined storage area of the storage medium 13c.
  • the audio data WD is combined to form a sequence of information data, and the audio output information data in the audio data format to be output to the user is synthesized.
  • the complementary phrase voice data WD stored in the storage medium 13c includes three types of voices of introduction phrase voice data BD, connection phrase voice data CD, and end phrase voice data FD for each arrangement position to be combined in the voice output information data. There is data. Of the various types of audio data, one corresponding to the attribute specified by the data attribute specifying unit 42 is selected and combined with the audio information data ED after the data conversion. (Details will be described later).
  • the audio output unit 45 corresponds to an audio output unit, and causes the speaker 14 to output the content of the audio output information data in the audio data format synthesized by the data synthesis unit 44 from the speaker 14.
  • the control unit 46 transmits / receives data and outputs instruction commands to / from each of the data receiving unit 41, the data attribute specifying unit 42, the data converting unit 43, the data synthesizing unit 44, and the voice output unit 45 described above. Controls the processing of the entire information output program.
  • FIG. 4 shows a process of synthesizing audio output information data from at least one (three in this example) character string information data under the control of the data attribute specifying unit 42, the data converting unit 43, and the data synthesizing unit 44. It is a figure explaining an example.
  • the receiving device 12 and the data receiving unit 41 receive information of three character string data formats, that is, character string information data I, II, III from the server SV. To do.
  • the character string information data received first by the receiving device 12 and the data receiving unit 41 is the character string information data I, the second received character string information data II, the third received character string information data I Information data III.
  • the data attribute specifying unit 42 extracts a word / phrase as a keyword from the character strings of the contents of the character string information data I, II, and III, and the character string information data I, I, Each attribute of II and III is analyzed.
  • the attribute of the character string information data is a classification specified by the type and characteristics of the information content conveyed by the character string information data. In this example, for one character string information data, the type of the information content Are classified into two attributes: “genre” indicating “emergency” and “urgency” indicating the presence or absence of urgency.
  • the character string information data I has keywords “player”, “golf tournament”, and “first win” extracted from the character string of the information content, and the genre attribute is extracted from these keywords. It has been identified as a sport. Since the keyword related to the urgency level is not extracted, it is determined that the information content of the character string information data I is not particularly urgent, and the attribute of the urgency level is normally specified.
  • the character string information data II has keywords “emergency”, “weather” and “typhoon” extracted from the character strings of the information contents, and the genre attribute of the character string information data II is extracted from these keywords. It has been identified as weather.
  • the keyword “urgent” is included in the character string of the information content in particular, it is determined that there is urgency in the transmission to the user, and the attribute of urgency is urgently specified.
  • the keyword “emergency” is extracted as in the case where the information content is “Emergency countermeasure meeting was held at the Metropolitan police Department today”, but the essence of the information content is May not be urgent to communicate to the user.
  • the degree of urgency may be specified in consideration of not only the extracted keyword wording but also other elements such as the arrangement position in the character string of the character string information data (particularly, here) Detailed explanation is omitted).
  • the keyword “emergency” is located at the beginning, since the information is urgently transmitted, the urgency attribute is urgently specified. Yes.
  • the character string information data III is extracted from the character strings of the information content, and the keywords “Governor Election” and “First Winning” are extracted, and the genre attribute of the character string information data III is politics from these keywords. It has been identified. Since keywords related to urgency are not extracted, the attribute of urgency is normally specified.
  • the data conversion unit 43 converts the three character string information data I, II, and III whose attribute analysis has been completed into voice information data I ′, II ′, and III ′ of the voice data method, respectively.
  • the data synthesizing unit 44 arranges the three voice information data I ′, II ′, and III ′ that have undergone the data method conversion in a line in order of their urgency to form a voice information data string.
  • the order of the voice information data in the voice information data string is the order of output to the user, that is, the voice information data is transmitted to the user in order from the highest urgency.
  • emergency voice information data is arranged at the head of the voice information data string, and other normal voice information data is arranged after that. .
  • the data synthesizing unit 44 selects the genre of the first voice information data from the plurality of introductory phrase voice data WD stored in the storage medium 13c before the first voice information data in the voice information data string.
  • the introductory phrase voice data WD corresponding to the attribute and the urgency attribute is selected and combined with the first voice information data.
  • the voice information data II ′ that is first positioned and the genre attribute is weather is displayed in front of the voice information data II ′ corresponding to these two attribute contents.
  • Introductory phrase audio data WD "is combined.
  • the data synthesizing unit 44 selects the two audio information data from the plurality of connected phrase audio data CD stored in the storage medium 13c between two adjacent audio information data in the audio information data string.
  • the connected phrase audio data CD corresponding to at least one of the genre attribute and the urgency attribute is selected and combined. At this time, you may make it consider the context of the genre attribute and urgency attribute of two audio
  • the first voice information data II ′ whose emergency attribute is emergency and the genre attribute is weather
  • the second voice information data whose emergency attribute is normal and whose genre attribute is sport
  • Connected with I ′ is a connection phrase audio data CD “This is a topic of sports following emergency weather information” corresponding to the context of the attribute contents of the two audio information data.
  • the second voice information data I ′ whose urgency attribute is normal and the genre attribute is sport
  • the third voice information data III ′ whose urgency attribute is normal and the genre attribute is politics.
  • the connected phrase audio data CD of “following the topic of sports” is coupled to.
  • the data synthesizing unit 44 after the last voice information data in the voice information data string, from among the plurality of ending phrase voice data FD stored in the storage medium 13c, the genre attribute and the last voice information data
  • the end phrase audio data FD corresponding to the urgency attribute is selected and combined with the last audio information data.
  • the voice information data III ′ whose urgency attribute is normal and the genre attribute is politics, corresponding to the contents of these two attributes, “End of reporting political information”.
  • the end phrase audio data FD are combined.
  • the data attribute specifying unit 42, the data converting unit 43, and the data synthesizing unit 44 arrange a plurality of audio information data in the order of output, and appropriately introduce the phrase audio data BD, the connection phrase audio data CD, and the end phrase audio.
  • Audio output information data is synthesized by selecting and combining the data FD.
  • all the audio information data, the introductory phrase audio data BD, the connected phrase audio data CD, and the end phrase audio data FD are all audio, except that each character string information data is configured in the character string data format.
  • the audio output information data synthesized in the data format is also entirely configured in the audio data format.
  • FIG. 5 is a diagram showing a configuration example of an introductory phrase audio data table in which the introductory phrase audio data BD shown in FIG. 3 is recorded and held.
  • This introductory phrase audio data table is information recorded and held in the storage medium 13c shown in FIG.
  • seven types of politics, society, weather, traffic, entertainment, sports, and mail are set as the types of attribute contents of the genre.
  • the genre of the mail corresponds to the mail received from another person other than the user in the information content of the received character string information data.
  • the introductory phrase audio data BD is stored as the “first genre” representing the genre of the first audio information data according to two urgent and normal urgency levels. Note that the introductory phrase audio data BD corresponding to the urgent urgency level is not stored on the assumption that news contents of the performing arts and sports genres have no urgency.
  • the introductory phrase audio data BD corresponding to the urgent urgency level stores “Now information has entered. It is politics related urgent information”, and corresponds to the normal urgency level.
  • the introductory phrase audio data BD stores “now information entered. First, from the topic of politics”, and has different contents corresponding to the difference in urgency. Note that examples of the introductory phrase audio data BD other than those are omitted in order to avoid the complexity of illustration.
  • FIG. 6 is a diagram showing a configuration example of a connection phrase audio data CD table in which the connection phrase audio data CD shown in FIG. 3 is recorded and held.
  • connection phrase audio data CD table is information recorded and held in the storage medium 13c shown in FIG.
  • seven “previous genres” representing the genre of the sound information data located before the insertion position of the connection word / speech data CD and the sound information data located after the insertion position. It is broadly divided by the combination of seven “post genres” representing genres. Further, in each of these sections, four connected phrase audio data CD are stored by an emergency and normal combination of the audio information data before and after, respectively.
  • the connected phrase audio data CD corresponding to the urgent urgency of the previous audio information data is “ "It is a topic.” (See Fig. 4 above) is stored, and the connected phrase audio data CD corresponding to the normal urgency level of the previous audio information data is "following weather information is a topic of sports.” It is remembered. As with the introductory phrase audio data described above, since the connected phrase audio data CD corresponding to the urgent urgency level is not stored in the sports genre, the connected phrase corresponding to the normal urgency level of the subsequent audio information data Only the audio data CD is shown.
  • the connected phrase audio data CD corresponding to the urgent urgency of the later audio information data is “following the topic of sports, urgently from Mr. *** The following email arrived. "Is stored, and the connection phrase audio data CD corresponding to the normal urgency of the later audio information data is” following the topic of sports, Mr. *** Has been received. " In this way, in the case of mail, since it is necessary to convey the sender name separately from the information content of the main body, “*” is included in the complementary phrase voice data combined at adjacent positions before and after the voice information data of the mail. “**” has a part to add sender name data (detailed explanation is omitted).
  • FIG. 7 is a diagram showing a configuration example of an end phrase audio data FD table in which the end phrase audio data FD shown in FIG. 3 is recorded and held.
  • This end phrase audio data FD table is information recorded and held in the storage medium 13c shown in FIG.
  • the end phrase audio data FD is stored for each of two emergency levels, emergency and normal.
  • the end phrase audio data FD corresponding to the urgent urgency level is stored as “End of conveying political-related urgent information.”
  • Corresponding ending phrase audio data FD stores “End of reporting political-related information”, and has different contents corresponding to differences in urgency.
  • the introductory phrase audio data table, the connected phrase audio data table, and the end phrase audio data table are configured, so that the complementary phrase audio data WD corresponding to the two attribute contents of genre and urgency can be easily obtained. You can search and get it.
  • FIG. 8 is a flowchart showing an example of the procedure of the information data output process.
  • This information data output process includes a procedure realized by the voice information output program operating under the control of the CPU 11.
  • This predetermined operation is, for example, an operation for setting a destination or an operation for starting a route search.
  • processing by the control unit 46 is started under the control of the CPU 11 and operates as follows.
  • step S5 it is determined whether the receiving device 12 and the data receiving unit 41 have received character string information data from the server SV. While the information is not received, the same determination procedure of step S5 is repeated to loop. stand by. On the other hand, if the character string information data is received from the server SV, the determination is satisfied, and the routine goes to the next Step S10.
  • step S10 a keyword is extracted from the information content of the character string information data received in step S5, and analysis is performed so as to identify the genre and urgency attribute content.
  • step S15 the process proceeds to step S15, and the character string information data in the character string data format received in step S5 is converted into voice information data ED in the voice data format by the above-described TTS conversion.
  • step S20 it is determined whether or not there is only one character string information data received in step S5, that is, voice information data ED at this time. If there is only one audio information data ED, the determination is satisfied, and the routine goes to Step S25.
  • step S25 the introductory phrase audio data BD corresponding to the genre and urgency attribute content of the audio information data ED identified by the analysis in step S10 is selected from the introductory phrase audio data table, and the process proceeds to step S60 described later. Move.
  • step S30 the routine goes to step S30.
  • step S30 a plurality of audio information data ED are arranged in descending order of urgency to form an audio information data string.
  • the order in which the audio information data ED having an urgency level is urgent, or the voice information data ED having an urgency level is normal may be the order of reception, or priority may be set by other factors. .
  • step S35 the process proceeds to step S35, and the introductory phrase audio data BD corresponding to the genre and urgency attribute content of the first audio information data ED in the audio information data string formed in step S30 is selected from the introductory phrase audio data table. To do.
  • step S40 the second audio information data ED is set as the current data, and the process proceeds to the next step S45.
  • the current data corresponds to audio information data located after the connection phrase audio data CD in the selection of the connection phrase audio data CD described below.
  • step S45 in the audio information data string formed in step S30, the connection phrase corresponding to the audio information data ED at the position immediately before the current data and the context of the attribute contents of each genre and urgency of the current data.
  • the audio data CD is selected from the connection phrase audio data table.
  • step S50 it is determined whether or not the voice information data ED set as the current data in the voice information data string is the last. If the current data is not the last audio information data ED, that is, if the audio information data ED still remains after the current data, the determination is not satisfied, that is, the connection phrase audio data CD still needs to be selected. It moves to step S55. In step S55, the next audio information data ED is set as the current data, and the process returns to step S45 to repeat the same procedure. On the other hand, if the current data is the last audio information data ED, the determination is satisfied, and the routine goes to the next Step S60.
  • step S60 the voice information data ED corresponding to the character string information data received only in step S5 or the genre and urgency attribute contents of the last voice information data ED set in the current data are supported.
  • the ending phrase audio data FD is selected from the ending phrase audio data table.
  • step S65 the process proceeds to step S65, and the selected introductory phrase audio data BD, connection phrase audio data CD, and end are selected for the only one audio information data ED or the audio information data string formed in step S30.
  • the phrase audio data FD is combined and arranged at each arrangement position, and the whole is synthesized as audio output information data in an audio data format.
  • step S70 it is determined whether or not the navigation device 100 is at an appropriate timing for outputting the audio output information data.
  • the same determination procedure of step S70 is repeated to loop. stand by.
  • the determination is satisfied, and the routine goes to the next Step S75.
  • step S75 sound output information data in a sound data format is generated by the speaker 14 and output. Then, this flow ends.
  • the information received in the character string data format is the voice information data ED, and the introductory phrase voice data BD, the connected phrase voice data CD, and the end phrase voice data ED corresponding to the attribute contents of the genre and the urgency level are used.
  • the sound output information data in the sound data format is output by the speaker 14. At this time, when the sound output information data is sounded by the speaker 14, the sound is sounded with no sound stopped between the BGM songs that have been played until then, or the sound of the BGM is lowered. You may make it produce a sound so that the audio
  • the navigation device 100 in the above embodiment is a navigation device 100 (corresponding to a voice information output device) that converts information in a character string data format into information in a voice data format and outputs the information.
  • a data receiving unit 41 (corresponding to data receiving means) for receiving at least one character string information data via 202 (each corresponding to an information communication network), and the character string information data as voice information data ED in a voice data format;
  • a data conversion unit 43 for conversion (corresponding to data conversion means), a storage medium 13c (corresponding to storage means) for storing complementary phrase audio data WD that complements the at least one character string information data, and the at least one sound
  • the supplemental phrase audio data WD suitable for the contents of the information data ED is selected and the audio information is selected.
  • a data synthesizing unit 44 (corresponding to data synthesizing means) combined with the data ED and synthesized as audio output information data, and an audio output unit 45 (sound output means) for outputting the synthesized audio output information data as audio. Equivalent).
  • the voice information data ED By combining the supplemental phrase audio data WD, it is possible to make the user hear the natural wording considering the information content of the character string information data. Therefore, it is possible to transmit information with a good impression to the user in a transmission mode close to a normal conversation between normal humans, and help the user understand the information content of the audio information data ED.
  • the audio information output device is applied to the vehicle-mounted navigation device 100 as a specific configuration.
  • the present invention is not limited to this, and other information communication networks such as a mobile phone and a personal computer are used. It is also possible to apply to information equipment capable of receiving various types of information via the network.
  • the method of the present embodiment is particularly effective because output by voice is preferable to display by characters for safety reasons.
  • the information content of the audio output information data in the audio data format is converted into the character string output information data in the character string data format as it is, and this is converted to the character string on the display 15. It may be displayed as information. In this case, for example, as shown in FIG. 9, on the screen of the display 15, the map image displayed by the navigation function is scrolled in the horizontal direction in the upper portion 21 so as not to be largely blocked. Good.
  • a keyword is further extracted from the character string information data, and the urgency level and the character string information data on the character string information data based on the keyword are extracted.
  • a data attribute specifying unit 42 (corresponding to a data attribute specifying unit) for specifying the attribute of a genre is included, and the data synthesizing unit 44 corresponds to the attribute of the audio information data ED to be combined, and the complementary phrase audio data WD. Select.
  • the character string information data can be classified in consideration of the information content, and the character string information data can be processed functionally.
  • the urgency is given to the user.
  • the user can be notified of the size of the information, or the genre can be notified to facilitate the selection of information by the user.
  • the storage medium 13c (corresponding to a storage unit) further includes the at least one audio information as the complementary phrase audio data WD.
  • the introductory phrase audio data BD to be added to the beginning of the data ED is stored, and the data synthesis unit 44 is suitable for the content of the audio information data ED before the audio information data ED to be combined.
  • the introductory phrase audio data BD is selected and combined, and the whole is synthesized as the audio output information data.
  • the navigation device 100 automatically outputs the voice output information data without depending on the user's operation, first, the natural wording considering the contents of the first information in the introductory phrase voice data. Since the output of information is declared, the user can smoothly accept the information without receiving a sudden impression.
  • the storage medium 13c is added to the end of the at least one audio information data ED as the complementary phrase audio data WD.
  • the navigation device 100 automatically considers the content of the last information in the end phrase audio data FD when the navigation device 100 automatically starts outputting the audio output information data and ends the output regardless of the user's operation.
  • the user can stop paying attention to receiving the information and concentrate on other things in order to convey that the output of the information is finished with natural language usage.
  • the data reception unit 41 receives a plurality of the character string information data
  • the data conversion unit 43 Connection for converting a plurality of character string information data into a plurality of corresponding speech information data ED, and inserting the storage medium 13c between the plurality of speech information data ED as the complementary phrase speech data WD
  • the phrase audio data CD is stored, and the data synthesizing unit 44 arranges the plurality of audio information data ED in the order of output to form an audio information data string, and two adjacent audio information data ED and ED to be combined. Between the two audio information data ED, the connection phrase audio data CD suitable for at least one of the contents is selected and inserted. Bond is synthesized as a whole the audio output information data.
  • connection phrase audio data CD is inserted between the audio information data EDs. Because it can be connected with natural language using the information content before and after, it helps to understand the information content of each voice information data ED, and the impression of transmission is close to the natural conversation between normal people Good information can be output.
  • each of the introduction phrase audio data BD, the connection phrase audio data CD, and the end phrase audio data FD may have a variation, for example, a light jockey such as a so-called radio program disc jockey. It may be set according to the user's preference, for example, to express it in a simple manner.
  • the data synthesis unit 44 further includes the plurality of audio information data ED according to the specification result of the data attribute specifying unit 42. Are arranged so that they are output in descending order of urgency, to form the audio information data string.
  • the voice information data ED can be heard in the order of urgency to be transmitted to the user, and the user can quickly receive important information.
  • the character string output information in the character string data format corresponding to the audio output information data output from the audio output unit 45 is further provided. It has a display 15 (corresponding to a character string output means) for displaying data.
  • the contents of the voice data stored in the appropriate introduction phrase voice data BD, connection phrase voice data CD, and end phrase voice data FD are not limited to the above examples. Genres other than the above examples may be included, or various variations of tone / speech and tone may be prepared and selected appropriately. In that case, an announcer style, a youth style, a kids style, a fairy tale style, a dramatic style, a DJ style such as a club / disco / live house, a live broadcast style, a game style, etc. may be used depending on the user's preference. These variations may be fixedly prepared in advance, but may be appropriately acquired or updated from sources outside the apparatus such as various broadcasts and servers by network communication or other connections. Furthermore, they may be linked to the navigation function to change the content of the selected source or the selected phrase according to the location where the vehicle is traveling, the traveling state, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

【課題】情報の出力における不自然さをなくす。 【解決手段】データ受信部41が文字列データ形式で受信した文字列情報データに対して、データ属性特定部42がそのジャンルと緊急度の属性を解析して特定する。そしてデータ変換部43が文字列情報データを音声データ形式の音声情報データEDに変換する。データ合成部44は、音声情報データEDの属性に対応する導入語句音声データBD、接続語句音声データCD及び終了語句音声データFDを選択し、それらを音声情報データEDに結合して音声データ形式の音声出力情報データを合成する。ユーザに対する音声出力情報データの出力においては、音声情報データEDの出力前の宣言や、音声情報データED間をつなぐ言葉や、音声情報データEDの出力の終了の伝達を自然な言葉使いで表現する。 

Description

音声情報出力装置
 本発明は、ユーザが認識可能な文字列データ形式の複数の情報を受信し、これらを音声データ形式に変換してユーザに対し出力する音声情報出力装置に関する。
 従来より、パーソナルコンピュータや車載用ナビゲーション装置などの情報機器においては、ネットワーク通信機能の発達によりユーザが特に操作しなくとも自動的に各種の情報を受信して取得することができる。そしてユーザがパーソナルコンピュータで作業を行っていたり、車両の運転をしているなどで手が離せない状態では、操作のための手間をかけることなく取得した情報を自動的に出力できるようになっている。
 そして近年では、ユーザが情報機器を注視せずとも取得した情報の内容を知ることができるよう、文字列データ形式の情報に対しても自動的に音声データ形式に変換してその内容を発音させるいわゆるTTS(Text to Speech)技術が提案されている(例えば、特許文献1参照)。
特開2008-299183号公報
 しかしながら従来の情報機器では、複数の情報を取得してそれらを自動的に出力させる場合には、単に情報の内容だけを取得した順番で続けて出力するものであった。そのため、ユーザにとっては関連のない複数の情報の羅列が唐突に出力されることになり、通常時の人どうしの自然な会話と比較して非常に不自然な伝達形態となっているため、無機質で機械的な印象を与えてしまう弊害があった。従来の情報機器では、そのような情報の出力の不自然さに対処する機能がなかった。
 本発明が解決しようとする課題には、上記した問題が一例として挙げられる。
 上記課題を解決するために、請求項1に記載の発明は、文字列データ形式の情報を音声データ形式の情報に変換して出力する音声情報出力装置であって、外部から情報通信網を介して少なくとも1つの文字列情報データを受信するデータ受信手段と、前記文字列情報データを音声データ形式の音声情報データに変換するデータ変換手段と、前記少なくとも1つの文字列情報データを補完する補完語句音声データを記憶する記憶手段と、前記少なくとも1つの音声情報データの内容に適した前記補完語句音声データを選択して当該音声情報データに結合させ、全体を音声出力情報データとして合成するデータ合成手段と、合成された前記音声出力情報データを音声で出力する音声出力手段と、を有する。
音声情報出力装置であるナビゲーション装置と車外のサーバを含むナビゲーションシステムの構成例を示すシステム構成図である。 ナビゲーション装置の電気的なハードウェア構成例を示すブロック図である。 図2に示すナビゲーション装置において動作する情報出力プログラムのソフトウェア構成例を示すブロック図である。 データ合成部の制御によって3つの文字列情報データから出力情報データを合成する過程の一例を説明する図である。 図3に示す導入語句音声データが記録保持される導入語句音声データテーブルの構成例を示す図である。 図3に示す接続語句音声データが記録保持される接続語句音声データテーブルの構成例を示す図である。 図3に示す終了語句音声データが記録保持される終了語句音声データテーブルの構成例を示す図である。 情報データ出力処理の手順例を示すフローチャートである。 ディスプレイ上における文字列データ形式の出力情報データの表示出力の一例を表した図である。
 以下、本発明の一実施の形態を図面を参照しつつ説明する。
 図1は、本実施形態の音声情報出力装置であるナビゲーション装置と車外のサーバを含むナビゲーションシステムの構成例を示すシステム構成図である。
 ナビゲーションシステム200は、本実施形態の音声情報出力装置としてのナビゲーション装置100、ネットワーク201、基地局202及びサーバSVで構成される。これらナビゲーション装置100、サーバSV及び基地局202は、それぞれネットワーク201によって接続されており、互いに予め定められたプロトコルに従ってデータ通信を行うことができる。
 車両に取り付けられているナビゲーション装置100は、後述する受信部及びデータ受信部の制御により基地局202との間で無線によってデータ通信を行い、ネットワーク201を経由してサーバSVから各種の情報を受信する機能を有する。基地局202は、ネットワーク201に接続されており、ナビゲーション装置100との間で無線によりデータ通信を行う機能を有する。
 サーバSVは、車両の外部に配置されたサーバコンピュータである。サーバSVは、基地局202及びネットワーク201を介して受信した各種の情報を記憶し、送信する機能を有する。なお、サーバSVが送信する情報の種類については、後に詳述するように、多様なジャンルのニュースコンテンツや他者から送信されたメールなどがあり、また緊急性を有するものと緊急性を有しない通常のものとがある。そして本実施形態の例では、サーバSVが送信する情報は文字列データ形式、いわゆるテキストデータ形式の文字列情報データである。
 図2は、車両が搭載する本実施形態のナビゲーション装置100の電気的なハードウェア構成例を示すブロック図である。
 この図2において、ナビゲーション装置100は、CPU11、受信装置12、記憶部13、スピーカ14及びディスプレイ15を有している。なお、図中には音声情報出力装置として必要な構成部分のみを示しており、その他に車載用ナビゲーション装置特有の経路探索や誘導案内のために必要な構成部分については、図示と説明を省略する。
 CPU11は、所定のプログラムの動作によって各種の演算を行うとともに、他の各部との間でデータの交換や各種の制御指示を出力することで、ナビゲーション装置100全体を制御する機能を有する。
 受信装置12は、車両外部に設けられた上記サーバSVとの間で無線通信を介してデータの受信を行う機能を有する。この受信装置12は、サーバSVから不定期に送信されてくる各種の上記文字列情報データを、常に受信できるようになっている。
 記憶部13は、ROM13a、RAM13b及び記憶媒体13cを有する。ROM13aは、後述する各種の処理プログラムやその他必要な情報が予め書き込まれた情報記憶媒体である。RAM13bは、上記各種のプログラムを実行する上で必要な情報の書き込み及び読み出しが行われる情報記憶媒体である。記憶媒体13cは、例えばフラッシュメモリ、ハードディスクなどの情報記憶媒体である。この記憶媒体13cは記憶手段に相当し、上記サーバSVから送信されて受信装置12が受信した各種の上記文字列情報データを音声データ形式に変換した音声情報データと、後述する補完語句音声データとをそれぞれ異なる記憶領域で不揮発的に記憶する機能を有する(後述の図3参照)。
 スピーカ14は音声出力手段に相当し、CPU11の制御によって音声を出力する機能を有する。また、ディスプレイ15は文字列出力手段に相当し、CPU11の制御によって地図画像や各種の文字列データ形式の情報を表示する機能を有する(後述の図9参照)。
 図3は、図2に示すナビゲーション装置100において動作する情報出力プログラムのソフトウェア構成例を示すブロック図である。
 音声情報出力プログラムは、その機能としてデータ受信部41、データ属性特定部42、データ変換部43、データ合成部44、音声出力部45及び制御部46を有し、後述する各機能をナビゲーション装置100において発揮させる。
 データ受信部41はデータ受信手段に相当し、サーバSVから送信されてくる文字列データ形式の各種の文字列情報データを受信する。
 データ属性特定部42はデータ属性特定手段に相当し、データ受信部41が受信した文字列情報データの内容の文字列の中からキーワードとなる語句を抽出し、それらキーワードに基づいて当該文字列情報データを解析し、属性(後述の図4参照)を特定する。
 データ変換部43はデータ変換手段に相当し、データ受信部41が受信した文字列データ形式の文字列情報データを、いわゆる公知のTTS(Text to Speech)音声変換技術により音声データ形式の音声情報データにデータ形式変換して、それを音声情報データEDとして上記記憶媒体13cの所定の記憶領域に記憶する。
 データ合成部44はデータ合成手段に相当し、記憶媒体13cに記憶した音声データ形式の音声情報データEDと、記憶媒体13cの他の所定の記憶領域に予め記憶されている音声データ形式の補完語句音声データWDとを組み合わせて情報データの列を形成し、ユーザに対して出力する音声データ形式の音声出力情報データを合成する。記憶媒体13cが記憶している補完語句音声データWDには、音声出力情報データ内において結合する配置位置別に、導入語句音声データBD、接続語句音声データCD及び終了語句音声データFDの3種の音声データがある。そして、各音声データごとに多数の種類のものが用意されているうちから、上記データ属性特定部42で特定した属性に対応するものが選択され、上記データ変換後の音声情報データEDに結合される(詳細は後述)。
 音声出力部45は音声出力手段に相当し、上記データ合成部44で合成した音声データ形式の音声出力情報データの内容をスピーカ14から音声で出力させる。
 制御部46は、上述したデータ受信部41、データ属性特定部42、データ変換部43、データ合成部44及び音声出力部45の各部との間でデータの送受と指示命令の出力を行い、音声情報出力プログラム全体の処理を制御する。
 図4は、上記データ属性特定部42、上記データ変換部43及び上記データ合成部44の制御によって少なくとも1つ(この例では3つ)の文字列情報データから音声出力情報データを合成する過程の一例を説明する図である。
 この図4に示す例において、まず図中上段に示すように、受信装置12及びデータ受信部41がサーバSVから3つの文字列データ形式の情報、つまり文字列情報データI,II,IIIを受信する。なお、受信装置12及びデータ受信部41が最初に受信した文字列情報データが文字列情報データIであり、2番目に受信したものが文字列情報データII、3番目に受信したものが文字列情報データIIIである。
 これにより、データ属性特定部42は、各文字列情報データI,II,IIIのそれぞれの内容の文字列の中からキーワードとなる語句を抽出し、それらキーワードに基づいて各文字列情報データI,II,IIIのそれぞれの属性を解析する。ここで、文字列情報データの属性とは、当該文字列情報データが伝える情報内容の種類や特性で特定される分類であり、この例で、は一つの文字列情報データについてその情報内容の種類を表す「ジャンル」と、緊急性の有無を示す「緊急度」の2つの属性で分類される。
 図示する例では、文字列情報データIは、その情報内容の文字列の中から「選手」、「ゴルフトーナメント」及び「初優勝」のキーワードが抽出されており、これらのキーワードから、ジャンル属性がスポーツであることが特定されている。なお、緊急度に関係するキーワードは抽出されていないため、文字列情報データIの情報内容は特に緊急性を有するものでないと判定され、緊急度の属性については通常に特定されている。
 また、文字列情報データIIは、その情報内容の文字列の中から「緊急」、「気象」及び「台風」のキーワードが抽出されており、これらのキーワードから文字列情報データIIのジャンル属性が気象であることが特定されている。また「緊急」のキーワードが特に情報内容の文字列に含まれることからユーザへの伝達に緊急性を有するものであると判定され、緊急度の属性については緊急に特定されている。
 なお、この緊急度の特定については、情報内容が例えば「今日、警視庁で緊急対策会議が開かれた。」である場合のように、「緊急」のキーワードは抽出されるが情報内容の本質としてはユーザへの伝達に緊急性を有さない場合がある。このように緊急度の特定には、抽出されたキーワードの文言だけでなく、文字列情報データの文字列中におけるその配置位置などといった他の要素も考慮して特定してもよい(ここでは特に詳細な説明は省略)。上述した文字列情報データIIの例では、一般的に「緊急」のキーワードが冒頭に位置している場合、その情報の伝達に緊急性があることから、緊急度の属性が緊急に特定されている。
 また、文字列情報データIIIは、その情報内容の文字列の中から「知事選挙」及び「初当選」のキーワードが抽出されており、これらのキーワードから文字列情報データIIIのジャンル属性が政治であることが特定されている。なお、緊急度に関係するキーワードは抽出されていないため、緊急度の属性については通常に特定されている。
 次にデータ変換部43が、属性解析が終わった3つの文字列情報データI,II,IIIに対してそれぞれ音声データ方式の音声情報データI′,II′,III′にデータ変換する。
 そしてデータ合成部44が、データ方式変換された3つの音声情報データI′,II′,III′に対して、それぞれの緊急度の高い順で一列に並べて音声情報データ列を形成する。この音声情報データ列における音声情報データの順番はユーザに対して出力する順番となり、つまり緊急度の高いものから順にユーザに伝達されることになる。なお、この例では、緊急度の属性が緊急と通常の2段階しかないため、緊急の音声情報データが音声情報データ列の先頭に並べられ、それ以外の通常の音声情報データがその後に並べられる。
 そしてデータ合成部44は、この音声情報データ列における最初の音声情報データの前に、上記記憶媒体13cに記憶されている複数の導入語句音声データWDの中から、当該最初の音声情報データのジャンル属性及び緊急度属性に対応する導入語句音声データWDを選択し、最初の音声情報データに結合する。図示する例では、ただ一つだけ緊急度属性が緊急であるために最初に位置してジャンル属性が気象である音声情報データII′の前に、それら2つの属性内容に対応する「只今情報が入りました。まずは緊急気象情報です。」の導入語句音声データWDが結合されている。
 また、データ合成部44は、音声情報データ列において隣り合う2つの音声情報データの間に、上記記憶媒体13cに記憶されている複数の接続語句音声データCDの中から当該2つの音声情報データのうち少なくとも一方のジャンル属性及び緊急度属性に対応する接続語句音声データCDを選択し、結合する。このとき、2つの音声情報データそれぞれのジャンル属性及び緊急度属性の前後関係を考慮するようにしてもよい。
 つまり、図示する例において、緊急度属性が緊急であってジャンル属性が気象である最初の音声情報データII′と、緊急度属性が通常であってジャンル属性がスポーツである2番目の音声情報データI′との間には、当該2つの音声情報データのそれぞれの属性内容の前後関係に対応した「緊急気象情報に続いて、スポーツの話題です。」の接続語句音声データCDが結合されている。同様にして、緊急度属性が通常であってジャンル属性がスポーツである2番目の音声情報データI′と、緊急度属性が通常であってジャンル属性が政治である3番目の音声情報データIII′との間には、「スポーツの話題に続いては、」の接続語句音声データCDが結合されている。
 そしてさらにデータ合成部44は、音声情報データ列における最後の音声情報データの後に、上記記憶媒体13cに記憶されている複数の終了語句音声データFDの中から当該最後の音声情報データのジャンル属性及び緊急度属性に対応する終了語句音声データFDを選択し、当該最後の音声情報データに結合する。図示する例では、緊急度属性が通常であってジャンル属性が政治である音声情報データIII′の後に、それら2つの属性内容に対応する「以上、政治関連の情報をお伝えして終わります。」の終了語句音声データFDが結合されている。
 以上のようにして、データ属性特定部42、データ変換部43及びデータ合成部44は、複数の音声情報データを出力順に並べて、適宜の導入語句音声データBD、接続語句音声データCD及び終了語句音声データFDを選択して結合することにより、音声出力情報データを合成する。なお、詳細な説明を省略するが、文字列情報データが1つしか入力されなかった場合は、この文字列情報データを変換した1つの音声情報データに対し、その内容に合致した導入語句音声データBDと、終了語句音声データFDとをそれぞれ選択して結合する(後述の図8のステップS25、及びその後のステップS60参照)。
 なお、この例では、各文字列情報データが文字列データ形式で構成されている以外は、各音声情報データと、導入語句音声データBD、接続語句音声データCD及び終了語句音声データFDが全て音声データ形式で構成されており、合成された音声出力情報データもまた全体が音声データ形式で構成されている。
 図5は、図3に示す導入語句音声データBDが記録保持される導入語句音声データテーブルの構成例を示す図である。
 この導入語句音声データテーブルは、図2に示す記憶媒体13cに記録保持される情報である。図示する例では、ジャンルの属性内容の種類として、政治、社会、気象、交通、芸能、スポーツ及びメールの7つが設定されている。メールのジャンルは、上述したように、受信した文字列情報データの情報内容がユーザ以外の他者から受け取ったメールに対応するものである。
 そして、最初の音声情報データのジャンルを表す「先頭ジャンル」として、緊急と通常の2つの緊急度別に導入語句音声データBDが記憶されている。なお、芸能とスポーツのジャンルのニュースコンテンツは緊急性を持つことがないとして、それらの緊急の緊急度に対応する導入語句音声データBDは記憶されていない。
 図示する例では、政治のジャンルにおいて、緊急の緊急度に対応する導入語句音声データBDは「只今情報が入りました。政治関連の緊急情報です。」が記憶され、通常の緊急度に対応する導入語句音声データBDは「只今情報が入りました。まずは政治の話題から。」が記憶されており、互いに緊急性の違いに対応した異なる内容となっている。なお、それら以外の導入語句音声データBDの例については、図示の煩雑を避けるため省略している。
 図6は、図3に示す接続語句音声データCDが記録保持される接続語句音声データCDテーブルの構成例を示す図である。
 この接続語句音声データCDテーブルは、図2に示す記憶媒体13cに記録保持される情報である。この図6に示す接続語句テーブルにおいては、接続語句音声データCDの挿入位置の前に位置する、音声情報データのジャンルを表す「前ジャンル」7つと、挿入位置の後に位置する、音声情報データのジャンルを表す「後ジャンル」7つとの、組み合わせで大きく区分されている。そして、さらにそれら各区分においては、前と後のそれぞれ音声情報データの緊急と通常の組み合わせにより、4つの接続語句音声データCDが記憶されている。
 図示する例では、前ジャンルが気象で後ジャンルがスポーツである場合の組み合わせにおいて、前の音声情報データの緊急の緊急度に対応する接続語句音声データCDは「緊急気象情報に続いて、スポーツの話題です。」(上述の図4参照)が記憶されており、前の音声情報データの通常の緊急度に対応する接続語句音声データCDは「気象情報に続いて、スポーツの話題です。」が記憶されている。なお、上述した導入語句音声データと同様に、スポーツのジャンルでは緊急の緊急度に対応する接続語句音声データCDが記憶されていないため、後の音声情報データの通常の緊急度に対応する接続語句音声データCDだけが示されている。
 また、前ジャンルがスポーツで後ジャンルがメールである場合の組み合わせにおいて、後の音声情報データの緊急の緊急度に対応する接続語句音声データCDは「スポーツの話題に続き、***さんから緊急で以下のメールが届きました。」が記憶されており、後の音声情報データの通常の緊急度に対応する接続語句音声データCDは「スポーツの話題に続き、***さんから以下のメールが届きました。」が記憶されている。このように、メールの場合はその本体の情報内容と別に差出人名も伝達する必要があるため、メールの音声情報データの前後に隣接する位置で結合される補完語句音声データ中には、「***さん」で差出人名のデータを付加する部分を設けている(詳細な説明は省略)。
 図7は、図3に示す終了語句音声データFDが記録保持される終了語句音声データFDテーブルの構成例を示す図である。
 この終了語句音声データFDテーブルは、図2に示す記憶媒体13cに記録保持される情報である。図示する例では、最後の音声情報データのジャンルを表す「末尾ジャンル」として、緊急と通常の2つの緊急度別に終了語句音声データFDが記憶されている。
 図示する例では、政治のジャンルにおいて、緊急の緊急度に対応する終了語句音声データFDは「以上、政治関連の緊急情報をお伝えして終わります。」が記憶されており、通常の緊急度に対応する終了語句音声データFDは「以上、政治関連の情報をお伝えして終わります。」が記憶されており、互いに緊急性の違いに対応した異なる内容となっている。
 以上のように導入語句音声データテーブル、接続語句音声データテーブル及び終了語句音声データテーブルが構成されていることにより、それぞれジャンルと緊急度の2つの属性内容に対応した補完語句音声データWDを容易に検索して取得することができる。
 図8は、情報データ出力処理の手順例を示すフローチャートである。この情報データ出力処理は、上記音声情報出力プログラムがCPU11の制御によって動作することにより実現される手順を含んでいる。
 まず、例えばユーザがナビゲーション装置100に対して所定の操作を行う。この所定の操作は、例えば、目的地設定のための操作や経路探索を開始させるための操作である。この操作指令を受けると、CPU11の制御によって制御部46による処理が開始され、以下のように動作する。
 まず、ステップS5では、受信装置12及びデータ受信部41がサーバSVから文字列情報データを受信したか否かを判定し、情報を受信していない間は同じステップS5の判定手順を繰り返してループ待機する。一方、サーバSVから文字列情報データを受信した場合は、判定が満たされ、次のステップS10へ移る。
 ステップS10では、上記ステップS5で受信した文字列情報データの情報内容からキーワードを抽出してジャンルと緊急度の属性内容を特定するよう解析する。
 次にステップS15へ移り、上記ステップS5で受信した文字列データ形式の文字列情報データを上述したTTS変換により音声データ形式の音声情報データEDに変換する。
 次にステップS20へ移り、上記ステップS5で受信した文字列情報データ、つまりこの時点の音声情報データEDは一つだけであるか否かを判定する。音声情報データEDが一つだけである場合、判定が満たされ、ステップS25に移る。ステップS25では、上記ステップS10の解析によって特定した当該音声情報データEDのジャンルと緊急度の属性内容に対応する導入語句音声データBDを、上記導入語句音声データテーブルから選択し、後述するステップS60へ移る。一方、音声情報データEDが複数である場合、ステップS20の判定が満たされず、ステップS30へ移る。
 ステップS30では、複数の音声情報データEDを緊急度の高い順に並べて音声情報データ列を形成する。なお、緊急度が緊急である音声情報データEDどうし、又は緊急度が通常である音声情報データEDどうしの並び順は受信した順番でもよいし、又は他の要素で優先順位を設定してもよい。
 次にステップS35へ移り、上記ステップS30で形成した音声情報データ列の最初の音声情報データEDのジャンルと緊急度の属性内容に対応する導入語句音声データBDを、上記導入語句音声データテーブルから選択する。
 次にステップS40へ移り、2番目の音声情報データEDを現データに設定して次のステップS45へ移る。この現データとは、以下に説明する接続語句音声データCDの選択においてその接続語句音声データCDの後に位置する音声情報データに相当するものである。
 ステップS45では、上記ステップS30で形成された音声情報データ列において、現データの直前の位置の音声情報データEDと、現データのそれぞれのジャンル及び緊急度の属性内容の前後関係に対応する接続語句音声データCDを上記接続語句音声データテーブルから選択する。
 次にステップS50へ移り、音声情報データ列において現データに設定されている音声情報データEDが最後であるか否かを判定する。現データが最後の音声情報データEDでない場合、つまり現データより後にまだ音声情報データEDが残っている場合、判定は満たされず、すなわちまだ他にも接続語句音声データCDを選択する必要があるものとみなされ、ステップS55に移る。そしてステップS55で次の音声情報データEDを現データに設定し、ステップS45に戻って同様の手順を繰り返す。一方、現データが最後の音声情報データEDである場合、判定が満たされ、次のステップS60へ移る。
 ステップS60では、上記ステップS5で一つだけ受信した文字列情報データに対応する音声情報データED、又は、現データに設定されている最後の音声情報データEDのジャンルと緊急度の属性内容に対応する、終了語句音声データFDを、上記終了語句音声データテーブルから選択する。
 次にステップS65へ移り、上記一つだけの音声情報データED、又は、上記ステップS30で形成した音声情報データ列に対して、選択された導入語句音声データBD、接続語句音声データCD、及び終了語句音声データFDをそれぞれの配置位置に結合して並べ、全体を音声データ形式の音声出力情報データとして合成する。
 次にステップS70へ移り、ナビゲーション装置100が音声出力情報データを出力するのに適切なタイミングにあるか否かを判定し、適切な出力タイミングにない間は同じステップS70の判定手順を繰り返してループ待機する。一方、適切な出力タイミングとなった場合は、判定が満たされ、次のステップS75へ移る。
 ステップS75では、音声データ形式の音声出力情報データをスピーカ14で発音して出力する。そしてこのフローを終了する。
 本実施形態では、文字列データ形式で受信した情報を音声情報データEDとし、そのジャンルと緊急度の属性内容に対応する導入語句音声データBD、接続語句音声データCD、及び終了語句音声データEDを結合して音声データ形式の音声出力情報データを合成する。そして、この音声データ形式の音声出力情報データをスピーカ14で発音出力する。このとき、音声出力情報データをスピーカ14で発音する場合は、それまでに流れていたBGMの曲間や曲の途中で停止させた無音の状態で発音させたり、またはBGMの音量を下げて音声出力情報データの音声を重ねるように発音させるようにしてもよい。
 上記実施形態におけるナビゲーション装置100においては、文字列データ形式の情報を音声データ形式の情報に変換して出力するナビゲーション装置100(音声情報出力装置に相当)であって、外部からネットワーク201及び基地局202(それぞれ情報通信網に相当)を介して少なくとも1つの文字列情報データを受信するデータ受信部41(データ受信手段に相当)と、前記文字列情報データを音声データ形式の音声情報データEDに変換するデータ変換部43(データ変換手段に相当)と、前記少なくとも1つの文字列情報データを補完する補完語句音声データWDを記憶する記憶媒体13c(記憶手段に相当)と、前記少なくとも1つの音声情報データEDの内容に適した前記補完語句音声データWDを選択して当該音声情報データEDに結合させ、全体を音声出力情報データとして合成するデータ合成部44(データ合成手段に相当)と、合成された前記音声出力情報データを音声で出力する音声出力部45(音声出力手段に相当)と、を有する。
 このようにすると、文字列データ形式(テキスト形式)で入力された文字列情報データをいわゆるTTS(TextToSpeech)の手法により音声情報データEDに変換してユーザに出力する場合、その音声情報データEDに補完語句音声データWDを結合させることで、文字列情報データの情報内容を考慮した自然な言葉使いでユーザに聞かせることができる。したがって、通常の人間どうしの自然な会話に近い伝達形態で印象のよい情報伝達をユーザに対し行うことができ、ユーザによる、音声情報データEDの情報内容の理解を助けることができる。
 なお、本実施形態では音声情報出力装置の具体的構成として車載用ナビゲーション装置100に適用した例を示したが、本発明はこれに限られず、他にも携帯電話やパーソナルコンピュータなど情報通信網を介して各種の情報を受信可能な情報機器に適用することも可能である。しかしながら、ナビゲーション装置100等の車載用機器に適用する場合、安全上の理由により文字による表示よりも音声による出力のほうが好ましいため、本実施形態の手法が特に有効である。
 また、上記のような音声データの出力と共に、音声データ形式である音声出力情報データの情報内容をそのまま文字列データ形式の文字列出力情報データにデータ形式変換し、それをディスプレイ15上で文字列情報として表示させてもよい。この場合は、例えば図9に示すようにディスプレイ15の画面上において、ナビゲーション機能により表示している地図画像を大きく遮らないように、上方の一部分21で横方向にスクロールさせて表示させるようにするとよい。
 上記実施形態における音声情報出力装置としてのナビゲーション装置100においては、上述した構成に加えてさらに、前記文字列情報データからキーワードを抽出し、このキーワードに基づいて当該文字列情報データについての緊急度及びジャンルの属性を特定するデータ属性特定部42(データ属性特定手段に相当)を有し、前記データ合成部44は、結合対象となる音声情報データEDの属性に対応して、補完語句音声データWDを選択する。
 このようにすると、文字列情報データをその情報内容に考慮して分類することができ、当該文字列情報データを機能的に処理することができるようになる。特に、文字列情報データの情報内容を、ユーザに伝達する緊急性やジャンルを用いて分類することにより、補完語句音声データWDにその態様を表す語句を選択することで、ユーザに対しその緊急性の大きさを報知したり、ジャンルを報知してユーザによる情報選択の便宜を図ることができる。
 上記実施形態における音声情報出力装置としてのナビゲーション装置100においては、上述した構成に加えてさらに、前記記憶媒体13c(記憶手段に相当)は、前記補完語句音声データWDとして、前記少なくとも1つの音声情報データEDの冒頭に付加するための導入語句音声データBDを記憶しており、前記データ合成部44は、結合対象となる前記音声情報データEDの前に、当該音声情報データEDの内容に適した前記導入語句音声データBDを選択して結合させ、全体を前記音声出力情報データとして合成する。
 このようにすると、ユーザの操作によらずにナビゲーション装置100が自動的に音声出力情報データを出力する場合でも、まず初めに導入語句音声データで最初の情報の内容を考慮した自然な言葉使いで情報の出力を宣言するため、ユーザは唐突な印象を受けることなく円滑に情報を受け入れることができる。
 上記実施形態における音声情報出力装置としてのナビゲーション装置100においては、上述した構成に加えてさらに、前記記憶媒体13cは、前記補完語句音声データWDとして、前記少なくとも1つの音声情報データEDの末尾に付加するための終了語句音声データFDを記憶しており、前記データ合成部44は、結合対象となる前記音声情報データEDの後に、当該音声情報データEDの内容に適した前記終了語句音声データFDを選択して結合させ、全体を前記音声出力情報データとして合成する。
 このようにすると、ユーザの操作によらずにナビゲーション装置100が自動的に音声出力情報データを出力開始後、その出力を終了する際にも、終了語句音声データFDで最後の情報の内容を考慮した自然な言葉使いで情報の出力を終了する旨を伝えるため、ユーザは情報の受け入れに注意を払うことをやめて他のことに意識を集中できるようになる。
 上記実施形態における音声情報出力装置としてのナビゲーション装置100においては、上述した構成に加えてさらに、前記データ受信部41は、複数の前記文字列情報データを受信し、前記データ変換部43は、前記複数の文字列情報データを、対応する複数の前記音声情報データEDに変換し、前記記憶媒体13cは、前記補完語句音声データWDとして、前記複数の音声情報データEDの間に挿入するための接続語句音声データCDを記憶しており、前記データ合成部44は、前記複数の音声情報データEDを出力順に並べて音声情報データ列を形成し、結合対象となる隣り合う2つの音声情報データED,EDの間に、当該2つの音声情報データEDのうち少なくとも一方の内容に適した前記接続語句音声データCDを選択して挿入結合させ、全体を前記音声出力情報データとして合成する。
 このようにすると、それぞれ情報内容に関連性のない複数の音声情報データEDを自動的に連続してユーザに出力する場合でも、それら音声情報データEDどうしの間に接続語句音声データCDを挿入して前後の情報内容を考慮した自然な言葉使いでつなぐことができるため、それぞれの音声情報データEDの情報内容の理解を助けるとともに、通常時の人どうしの自然な会話に近い伝達形態で印象のよい情報の出力が可能となる。
 なお、上記の導入語句音声データBD、接続語句音声データCD、及び終了語句音声データFDのそれぞれの文言内容についてはバリエーションを持たせるようにしてもよく、例えばいわゆるラジオ番組のディスクジョッキーのような軽快な語り口で表現させるなどユーザの好みに合わせて設定できるようにしてもよい。
 上記実施形態における音声情報出力装置としてのナビゲーション装置100においては、上述した構成に加えてさらに、前記データ合成部44は、前記データ属性特定部42の特定結果に応じ、前記複数の音声情報データEDのそれぞれの緊急度の高い順で出力するよう並べて、前記音声情報データ列を形成する。
 このようにすると、ユーザに伝達する緊急性の高い順で音声情報データEDを聞かせることができ、ユーザは重要な情報をいち早く受け入れることができる。
 上記実施形態における音声情報出力装置としてのナビゲーション装置100においては、上述した構成に加えてさらに、前記音声出力部45から出力される音声出力情報データに対応した、文字列データ形式の文字列出力情報データを表示するディスプレイ15(文字列出力手段に相当)を有する。
 このようにすると、音声のみならず文字によっても情報を得ることができるので、さらに確実にユーザが情報内容を認識することができる。
 なお、適宜の導入語句音声データBD、接続語句音声データCD及び終了語句音声データFDに格納された音声データの内容は、上記の例に限られるものではない。上記の例以外のジャンルを含んだり、語調・口調やいいまわしの異なるバリエーションを種々用意して、適宜に選択できるようにしてもよい。その場合、アナウンサー風、若者風、子供風、メルヘン風、ドラマチック風、クラブ・ディスコ・ライブハウス等のDJ風、実況放送風、ゲーム風、などをユーザの好みによって使い分けるようにしてもよい。また、それらのバリエーションを予め固定的に用意していてもよいが、ネットワーク通信やその他の接続により、各種放送やサーバ等の装置外部のソースより適宜に取得したり更新できるようにしてもよい。さらに、それらをナビゲーション機能と連動させ、走行している場所や走行状態等に応じて、選ばれるソースや選ばれる語句の内容を変化させるようにしてもよい。
 また、以上既に述べた以外にも、上記実施形態や各変形例による手法を適宜組み合わせて利用しても良い。
符号の説明
 11       CPU
 12       受信部
 13       記憶部
 13c      記憶媒体(記憶手段に相当)
 14       スピーカ(音声出力手段に相当)
 15       ディスプレイ(文字列出力手段に相当)
 41       データ受信部(データ受信手段に相当)
 42       データ属性特定部(データ属性特定手段に相当)
 43       データ変換部(データ変換手段に相当)
 44       データ合成部(データ合成手段に相当)
 45       音声出力部(音声出力手段に相当)
 46       制御部
 100      ナビゲーション装置
 200      ナビゲーションシステム
 201      ネットワーク(情報通信網に相当)
 202      基地局(情報通信網に相当)
 SV       サーバ
 ED       音声情報データ
 WD       補完語句音声データ
 BD       導入語句音声データ
 CD       接続語句音声データ
 FD       終了語句音声データ

Claims (7)

  1.  文字列データ形式の情報を音声データ形式の情報に変換して出力する音声情報出力装置であって、
     外部から情報通信網を介して少なくとも1つの文字列情報データを受信するデータ受信手段と、
     前記文字列情報データを音声データ形式の音声情報データに変換するデータ変換手段と、
     前記少なくとも1つの文字列情報データを補完する補完語句音声データを記憶する記憶手段と、
     前記少なくとも1つの音声情報データの内容に適した前記補完語句音声データを選択して当該音声情報データに結合させ、全体を音声出力情報データとして合成するデータ合成手段と、
     合成された前記音声出力情報データを音声で出力する音声出力手段と、
    を有することを特徴とする音声情報出力装置。
  2.  前記文字列情報データからキーワードを抽出し、このキーワードに基づいて当該文字列情報データについての緊急度及びジャンルの属性を特定するデータ属性特定手段を有し、
     前記データ合成手段は、
     結合対象となる音声情報データの属性に対応して、前記補完語句音声データを選択する
    ことを特徴とする請求項1に記載の音声情報出力装置。
  3.  前記記憶手段は、
     前記補完語句音声データとして、
     前記少なくとも1つの音声情報データの冒頭に結合するための導入語句音声データを記憶しており、
     前記データ合成手段は、
     結合対象となる前記音声情報データの前に、当該音声情報データの内容に適した前記導入語句音声データを選択して結合させ、全体を前記音声出力情報データとして合成する
    ことを特徴とする請求項1または2に記載の音声情報出力装置。
  4.  前記記憶手段は、
     前記補完語句音声データとして、
     前記少なくとも1つの音声情報データの末尾に結合するための終了語句音声データを記憶しており、
     前記データ合成手段は、
     結合対象となる前記音声情報データの後に、当該音声情報データの内容に適した前記終了語句音声データを選択して結合させ、全体を前記音声出力情報データとして合成する
    ことを特徴とする請求項1または2に記載の音声情報出力装置。
  5.  前記データ受信手段は、
     複数の前記文字列情報データを受信し、
     前記データ変換手段は、
     前記複数の文字列情報データを、対応する複数の前記音声情報データに変換し、
     前記記憶手段は、
     前記補完語句音声データとして、
     前記複数の音声情報データの間に挿入するための接続語句音声データを記憶しており、
     前記データ合成手段は、
     前記複数の音声情報データを出力順に並べて音声情報データ列を形成し、結合対象となる隣り合う2つの音声情報データの間に、当該2つの音声情報データのうち少なくとも一方の内容に適した前記接続語句音声データを選択して挿入結合させ、全体を前記音声出力情報データとして合成する、
    ことを特徴とする請求項2に記載の音声情報出力装置。
  6.  前記データ合成手段は、
     前記データ属性特定手段の特定結果に応じ、前記複数の音声情報データのそれぞれの緊急度の高い順で出力するよう並べて、前記音声情報データ列を形成する
    ことを特徴とする請求項5に記載の音声情報出力装置。
  7.  前記音声出力手段から出力される音声出力情報データに対応した、文字列データ形式の文字列出力情報データを表示する文字列出力手段を有する
    ことを特徴とする請求項1~6のいずれか1項に記載の音声情報出力装置。
PCT/JP2009/055634 2009-03-23 2009-03-23 音声情報出力装置 WO2010109575A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2009/055634 WO2010109575A1 (ja) 2009-03-23 2009-03-23 音声情報出力装置
JP2011505687A JPWO2010109575A1 (ja) 2009-03-23 2009-03-23 音声情報出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/055634 WO2010109575A1 (ja) 2009-03-23 2009-03-23 音声情報出力装置

Publications (1)

Publication Number Publication Date
WO2010109575A1 true WO2010109575A1 (ja) 2010-09-30

Family

ID=42780284

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/055634 WO2010109575A1 (ja) 2009-03-23 2009-03-23 音声情報出力装置

Country Status (2)

Country Link
JP (1) JPWO2010109575A1 (ja)
WO (1) WO2010109575A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03213075A (ja) * 1990-01-18 1991-09-18 Ricoh Co Ltd 文字放送受信装置
JPH0950296A (ja) * 1995-08-07 1997-02-18 Fujitsu Ten Ltd 音声合成装置
JPH0962286A (ja) * 1995-08-22 1997-03-07 Sony Corp 音声合成装置および音声合成方法
JPH11327580A (ja) * 1998-05-07 1999-11-26 Fujitsu Ten Ltd ナビゲーションシステムの音声合成装置
JP2001014313A (ja) * 1999-07-02 2001-01-19 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP2008299183A (ja) * 2007-06-01 2008-12-11 Mitsubishi Electric Corp 車載無線装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5245737B2 (ja) * 2008-11-12 2013-07-24 富士通株式会社 音声読み上げ文生成装置、音声読み上げ文生成方法および音声読み上げ文生成プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03213075A (ja) * 1990-01-18 1991-09-18 Ricoh Co Ltd 文字放送受信装置
JPH0950296A (ja) * 1995-08-07 1997-02-18 Fujitsu Ten Ltd 音声合成装置
JPH0962286A (ja) * 1995-08-22 1997-03-07 Sony Corp 音声合成装置および音声合成方法
JPH11327580A (ja) * 1998-05-07 1999-11-26 Fujitsu Ten Ltd ナビゲーションシステムの音声合成装置
JP2001014313A (ja) * 1999-07-02 2001-01-19 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP2008299183A (ja) * 2007-06-01 2008-12-11 Mitsubishi Electric Corp 車載無線装置

Also Published As

Publication number Publication date
JPWO2010109575A1 (ja) 2012-09-20

Similar Documents

Publication Publication Date Title
AU2015297648B2 (en) Terminal device, information providing system, information presentation method, and information providing method
US10720145B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
JP6945130B2 (ja) 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
AU2015297647B2 (en) Information management system and information management method
US20060143012A1 (en) Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium
WO2014013604A1 (ja) メッセージ編集装置、メッセージ通信端末及びメッセージ通信システム
JPH0944189A (ja) テキスト情報の合成音声読み上げ装置及び文字放送受信機
WO2022169534A1 (en) Systems and methods of handling speech audio stream interruptions
WO2010109575A1 (ja) 音声情報出力装置
CN101523483B (zh) 在汽车中通过语音再现文本信息的方法
US20220208190A1 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
US11250704B2 (en) Information provision device, terminal device, information provision system, and information provision method
JP7117228B2 (ja) カラオケシステム、カラオケ装置
JP2004301980A (ja) 音声対話装置及び音声対話代行装置並びにそれらのプログラム
JP2005241393A (ja) 言語設定方法および言語設定装置
US20150073810A1 (en) Music playing method and music playing system
KR102267651B1 (ko) 오디오 컨텐츠 제공 방법 및 장치
JP3995930B2 (ja) 情報提示装置
JP2010085481A (ja) カラオケ装置
JP6185136B1 (ja) 音声生成プログラムおよびゲーム装置
JP2006139203A (ja) 施設検索装置
JP2013025112A (ja) 電子機器、再生方法、プログラム、及び、記録媒体
JP2008292762A (ja) 音声発生装置およびその制御方法、ならびに音声発生装置用プログラム
JP2007336085A (ja) 予告生成装置、予告生成方法、予告生成サーバ、予告生成プログラム、および記録媒体
JP2002297501A (ja) 通信端末

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09842189

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011505687

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09842189

Country of ref document: EP

Kind code of ref document: A1