WO2016157352A1 - 音声認識装置、音声認識システム、及び、プログラム - Google Patents

音声認識装置、音声認識システム、及び、プログラム Download PDF

Info

Publication number
WO2016157352A1
WO2016157352A1 PCT/JP2015/059870 JP2015059870W WO2016157352A1 WO 2016157352 A1 WO2016157352 A1 WO 2016157352A1 JP 2015059870 W JP2015059870 W JP 2015059870W WO 2016157352 A1 WO2016157352 A1 WO 2016157352A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
sentence
tone
homonym
user
Prior art date
Application number
PCT/JP2015/059870
Other languages
English (en)
French (fr)
Inventor
大櫃敏郎
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2015/059870 priority Critical patent/WO2016157352A1/ja
Priority to JP2017508878A priority patent/JP6572969B2/ja
Publication of WO2016157352A1 publication Critical patent/WO2016157352A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Definitions

  • the present invention relates to a voice recognition device, a voice recognition system, and a program.
  • a speech recognition device is known as an example of such a device.
  • the voice recognition device is used in place of an input device such as a keyboard in an information terminal device such as a tablet-type mobile terminal, a smartphone, a car navigation system, or a personal computer.
  • voice input by a user is performed by voice recognition in a server device connected via a network to the information terminal device to which voice is input, and depending on the result of voice recognition, music playback, video playback, destination It is used to perform navigation etc.
  • the voice recognition device is a high performance in order to accurately answer a user's voice input or perform a process such as a control command for giving an operation instruction according to the user's voice input. And a large number of memories need to be provided.
  • Patent Document 1 a method of using a voice recognition dictionary when performing voice recognition is known (for example, Patent Document 1).
  • the method proposed in Patent Document 1 additionally registers a vocabulary that is processed so that the user can easily speak a search query that the user normally uses when additionally registering it as a speech recognition vocabulary in a dictionary for speech recognition. To do.
  • homonyms are not considered at all.
  • the application range of the speech recognition technology expands, one sentence input by speech becomes longer and more complex, and the number of scenes in which one sentence including homonyms is required to be recognized is increasing.
  • the user may select a word (synonym) having the meaning intended by the user each time. It is necessary to perform additional processing each time the selection screen is displayed.
  • the homonym is a word having the same “word reading” although the meaning is different.
  • the present invention enables speech recognition that takes into account the user's roundness and user-specific habits and the like, and reduces the processing load, a speech recognition system, and a program It is an issue to provide.
  • the speech recognition apparatus recognizes the tone in the speech data of a word in which a homonym is present, with respect to a word in which a homonym is present among words constituting a sentence specified based on input speech data.
  • Generating means for generating a response sentence for a sentence composed of a word other than the word in which the homonym specified by the external device exists and the specified homonym based on the tone in the voice data of the sentence; It is characterized by providing.
  • the speech recognition system is a speech recognition system including a first speech recognition device and a second speech recognition device, wherein the first speech recognition device is a sentence specified based on input speech data.
  • the first speech recognition device is a sentence specified based on input speech data.
  • the second voice recognition device identifies the word based on the tone in the voice data of the sentence.
  • the second speech recognition apparatus includes a generation unit that generates a response sentence with respect to a sentence composed of a word other than the word in which the homonym is present and the identified homonym, and the second speech recognition apparatus, based on the reading of the word, Same sound Specifying means for synonyms to identify the words other than the word present, is characterized by comprising a notification means for notifying the words specified in the first speech recognizer.
  • the program stores a word having a homonym for a word having a homonym in a word constituting a sentence specified based on input voice data in a computer of the voice recognition device.
  • a homonym is identified from homophones corresponding to a word with a homonym based on the tone in the voice data, and there is a word with a homonym in a word constituting the sentence
  • a process of generating a response sentence for a sentence composed of a word other than the word having the homonym specified by the external device and the specified homonym is executed. It is characterized by letting.
  • FIG. 1 It is a figure which shows the structural example of the speech recognition system in embodiment. It is a functional block diagram which shows the structural example of the information terminal device in embodiment. It is a figure which shows the structural example of the user specific word dictionary in embodiment. It is a figure which shows the structural example of the user specific sentence dictionary in embodiment. It is a figure which shows the example of a display screen. It is a figure which shows another example of a display screen. It is a functional block diagram which shows the structural example of the server apparatus in embodiment. It is a figure which shows the structural example of the common word dictionary in embodiment. It is a figure which shows the structural example of the common sentence dictionary in embodiment. It is a figure which shows the structural example of the specific tone management memory
  • FIG. 1 is a diagram illustrating a configuration example of a voice recognition system 100 according to the present embodiment.
  • the speech recognition system 100 includes one or a plurality of information terminal devices 1 and a server device 2, and the information terminal device 1 and the server device 2 are mutually connected via a network NW. Is communicably connected.
  • FIG. 2 is a functional block diagram showing a configuration example of the information terminal device 1 in the present embodiment.
  • words for example, homonyms
  • the first speech recognition apparatus performs speech recognition of those words.
  • a word that requires speech recognition considering user-specific habits and rounds will be described as a word in which a homonym is present, but is not limited to this, and a word in which a homonym does not exist It may be.
  • the information terminal device 1 in this embodiment is realizable with a smart phone, a tablet-type portable terminal, a car navigation, a personal computer etc., for example, as shown in FIG. 2, the input part 11, the memory
  • the input unit 11 includes, for example, an audio interface and receives a signal including a voice section (hereinafter referred to as voice data) from a connected voice acquisition device (for example, a microphone). Then, the input unit 11 outputs the received audio data to the control unit 16. At this time, the input unit 11 may temporarily store the received audio data in a buffer memory (not shown), and the control unit 16 may sequentially acquire the audio data from the buffer memory in accordance with the processing timing. .
  • voice data a voice section
  • a connected voice acquisition device for example, a microphone
  • the input unit 11 outputs the received audio data to the control unit 16.
  • the input unit 11 may temporarily store the received audio data in a buffer memory (not shown), and the control unit 16 may sequentially acquire the audio data from the buffer memory in accordance with the processing timing. .
  • the storage unit 12 includes, for example, a Random Access Memory (RAM), a Read Only Memory (ROM), a flash memory, and the like.
  • the storage unit 12 includes, for example, a central processing unit (CPU) work area, a program area for storing various programs such as an operation program for controlling the information terminal device 1 as a whole, an estimation result (for details) It functions as a data area for storing various data such as described below.
  • CPU central processing unit
  • the storage unit 12 functions as a user-specific word dictionary 121 and a user-specific sentence dictionary 122 as shown in FIG.
  • FIG. 3 is a diagram illustrating a configuration example of the user-specific word dictionary 121 in the present embodiment.
  • FIG. 4 is a diagram illustrating a configuration example of the user-specific sentence dictionary 122 in the present embodiment.
  • the user-specific word dictionary 121 in this embodiment manages words that are pronounced with user-specific accents (tones) for each word reading.
  • “tone” and “meaning” are associated with each “word reading ID”.
  • the user-specific word dictionary 121 is managed by a registration processing unit 166 (described in detail later), and the word reading ID of a word pronounced with user-specific accent (tone) is stored in the “word reading ID” column.
  • words (meaning words) that are pronounced with user-specific accents (tones) among words having the word reading of the corresponding “word reading ID” (synonyms) are stored.
  • tone information representing the user-specific accent (tone) of the corresponding word (meaning word) is stored.
  • the tone information is, for example, an accent (tone) pattern of each syllable character (a kana character or hiragana character in the case of Japanese) constituting a word reading.
  • the accent (tone) pattern in this embodiment is “ ⁇ ” indicating that the accent of the syllable character is high, “ ⁇ ” indicating that the accent of the syllable character is low, and the height of the accent (tone) relative to the immediately preceding syllable character.
  • the present invention is not limited to this, and an accent (tone) pattern other than those described above may be used.
  • other types of accent (tone) patterns may be used depending on the language that is the target of speech recognition. For example, when the target language for speech recognition is English, it is possible to use a strong and weak accent pattern as an example instead of a high and low accent pattern.
  • the user-specific sentence dictionary 122 in the present embodiment manages sentences that may be pronounced with user-specific intonations (tones).
  • “sentence type”, “tone”, and “flag” are associated with each “sentence ID”.
  • the user-specific sentence dictionary 122 is managed by the registration processing unit 166, and a sentence ID of a sentence that may be pronounced with a user-specific intonation (tone) is stored in the “sentence ID” column.
  • the “sentence type” column stores a sentence type that is assumed in the corresponding sentence and is information indicating the purpose (intention) when the user utters the sentence. As the sentence type, “question”, “confirmation”, “instruction”, “denial”, and the like are assumed.
  • tone information information indicating the intonation (tone) when the user speaks the corresponding sentence with the corresponding “sentence type” (hereinafter referred to as tone information) is stored. Intonation (tone) is assumed to be ascending and descending.
  • the “flag” is a flag indicating whether or not the corresponding sentence is pronounced with a user-specific intonation (tone) when the user speaks with the corresponding “sentence type”.
  • the flag value “0” indicates that the sound is generated with a standard intonation (tone)
  • the flag value “1” indicates that the sound is generated with a user-specific intonation (tone).
  • the display unit 13 includes a display device such as a Liquid Crystal Display (LCD) or an organic Electro-Luminescence (EL).
  • the display unit 13 displays, for example, various screens such as the display screens illustrated in FIGS. 5 and 6 and various function buttons on the display screen.
  • the output unit 14 includes, for example, an audio interface and the like, and a response sentence corresponding to, for example, a voice analysis result (described in detail later) via a connected voice output device (for example, a speaker). Is output as audio.
  • the communication unit 15 includes, for example, a communication module and performs communication with the server device 2 connected via the network NW.
  • the communication unit 15 receives, for example, a voice analysis result transmitted from the server device 2.
  • the control unit 16 includes, for example, a CPU, executes an operation program stored in the program area of the storage unit 12, and, as shown in FIG. 2, a voice input processing unit 161 and a unique word specifying unit 162, the specific sentence type specifying unit 163, the dialogue processing unit 164, the output processing unit 165, and the registration processing unit 166 are realized.
  • the control unit 16 executes an operation program to execute a control process for controlling the entire information terminal device 1 and a process such as a voice recognition process described later in detail.
  • the voice input processing unit 161 controls the display unit 13 to display a voice input screen illustrated in FIG. 5 on the display screen.
  • the voice input screen is a display screen for instructing the user to input voice.
  • the voice input processing unit 161 transmits the input voice data to the server device 2 via the communication unit 15 together with a user ID that can uniquely identify the user (information terminal device 1).
  • the voice input processing unit 161 may output the display content of the voice input screen, for example, “Please speak”, via a voice output device connected to the output unit 14.
  • the voice input instruction may be one of screen display and voice output, or both.
  • the voice input instruction may be performed using other notification means.
  • FIG. 5 is a diagram illustrating an example of a display screen.
  • the specific word specifying unit 162 specifies words having the meaning intended by the user from the homonyms, taking into account the user's unique accent (tone). That is, the specific word specifying unit 162 specifies a word having the meaning intended by the user from the homophones based on the user specific word dictionary 121.
  • the specific sentence type specifying unit 163 specifies or estimates the sentence type intended by the user in consideration of the user specific intonation (tone). That is, the specific sentence type specifying unit 163 specifies or guesses a sentence type intended by the user based on the user specific sentence dictionary 122.
  • the dialogue processing unit 164 is a processing unit that generates a response sentence to the voice input based on the voice analysis result of the voice data.
  • the voice analysis result is a notification for notifying the result of analyzing the voice data.
  • the voice analysis result includes a sentence and a sentence type, which are obtained by analyzing the voice data and are estimated to be input by the user.
  • the output processing unit 165 generates a response screen based on the response sentence and controls the display unit 13 to display the generated response screen on the display screen. For example, the output processing unit 165 displays a response screen illustrated in FIG. 6 on the display screen.
  • the response screen is a screen for displaying a response sentence as shown in FIG.
  • FIG. 6 is a diagram illustrating another example of the display screen.
  • the output processing unit 165 causes the response sentence to be output from the audio output device connected to the output unit 14.
  • the notification of the response content may be either one of screen display or audio output, or both.
  • the registration processing unit 166 is a processing unit that manages the user-specific word dictionary 121 and the user-specific sentence dictionary 122. More specifically, the registration processing unit 166 registers, in the user-specific word dictionary 121, words (synonyms) that are pronounced with accents (tones) different from the standard accents (tones) among the homonyms. To do. Also, the registration processing unit 166 registers a sentence that may be pronounced with a user-specific intonation (tone) in the user-specific sentence dictionary 122.
  • FIG. 7 is a functional block diagram showing a configuration example of the server device 2 in the present embodiment.
  • the server device 2 in the present embodiment is a second speech recognition device that performs speech recognition on a word that does not need to consider user-specific habits and rounds of a sentence that is subject to speech recognition.
  • the server device 2 in the present embodiment includes a communication unit 21, a storage unit 22, and a control unit 23, as shown in FIG.
  • the communication unit 21 includes, for example, a communication module and performs communication with the information terminal device 1 connected via the network NW. For example, the communication unit 21 receives voice data transmitted from the information terminal device 1.
  • the storage unit 22 includes, for example, RAM, ROM, Hard Disk Drive (HDD), and the like.
  • the storage unit 22 is provided in the control unit 23, for example, a CPU work area, a program area for storing various programs such as an operation program for controlling the entire server device 2, and various types of estimation results (details will be described later). Functions as a data area for storing data.
  • the storage unit 22 functions as a common word dictionary 221, a common sentence dictionary 222, a specific tone management storage unit 223, a tone management storage unit 224, and a specific tone management storage unit 225.
  • FIG. 8 is a diagram illustrating a configuration example of the common word dictionary 221 in the present embodiment.
  • the common word dictionary 221 in the present embodiment manages various words and manages standard accents (tones) of each word in which a homonym is present.
  • “word reading”, “tone”, “meaning”, and “flag” are associated with each “word reading ID”. Yes.
  • “word reading”, “tone”, “meaning”, and “flag” are associated with each “word reading ID”.
  • “Word reading ID” is an identifier that can uniquely identify “word reading”, and in this embodiment, the same “word reading ID” is assigned to the same “word reading”. “Word reading” is information indicating a word reading. “Meaning” is information describing a word, that is, word notation. That is, even when a homonym is present, a word can be specified based on “word reading” and “meaning”.
  • “Voice” is the tone information of the standard accent (tone) of the corresponding “meaning”.
  • the tone information is, for example, an accent (tone) pattern of each syllable character (a kana character or hiragana character in the case of Japanese) constituting “word reading”.
  • the accent (tone) pattern in this embodiment is “ ⁇ ” indicating that the accent of the syllable character is high, “ ⁇ ” indicating that the accent of the syllable character is low, and the height of the accent (tone) relative to the immediately preceding syllable character.
  • the present invention is not limited to this, and an accent (tone) pattern other than those described above may be used.
  • other types of accent (tone) patterns may be used depending on the language that is the target of speech recognition. For example, when the target language for speech recognition is English, it is possible to use a strong and weak accent pattern as an example instead of a high and low accent pattern.
  • “Flag” is a flag indicating whether or not there is a user who pronounces the word “word reading” other than the standard accent (tone).
  • the “flag” is managed by a registration processing unit 235 (details will be described later), and in this embodiment, the flag value “0” indicates that there is no user who pronounces other than the standard accent (tone).
  • the flag value “1” indicates that there is a user who produces a sound other than the standard accent (tone).
  • FIG. 9 is a diagram illustrating a configuration example of the common sentence dictionary 222 in the present embodiment.
  • the common sentence dictionary 222 in the present embodiment for each sentence that the user generally utters in the voice interaction method, the user's intention (sentence type) assumed when the sentence is uttered is associated. Registered.
  • the common sentence dictionary 222 in the present embodiment is registered in a state where each sentence is divided into “words”, “connecting particles”, “previous words”, and “follower words” as shown in FIG.
  • the “sentence type” and the “flag” are associated with each sentence. Note that the example of FIG. 9 is an example in which a portion where “word” is “other than” is extracted.
  • each sentence registered in the common sentence dictionary 222 is associated with a sentence ID that is an identifier capable of uniquely identifying each sentence.
  • sentence ID that is an identifier capable of uniquely identifying each sentence.
  • connection particle is a connection particle connected to a corresponding “word”. For example, if the word of interest in the sentence “Lunch other than Chinese” is set to “Other than”, “Connecting particle” is “no”.
  • the “previous word” is a word before the attention word. For example, if the word of interest in the sentence “lunch other than Chinese” is “other than”, the “previous word” is “Chinese”.
  • the number string in the “previous word” column is a code representing a field / category.
  • the “subsequent word” is a word following the “connecting particle”. For example, if the word of interest in the sentence “Lunch other than Chinese” is “Other than”, “Last word” is “Lunch”.
  • “flag” is associated with each “second word” as shown in FIG. This flag indicates whether or not a sentence that is pronounced with an intonation (tone) different from the standard intonation (tone) exists in a sentence including the corresponding “second word”.
  • the “flag” is managed by the registration processing unit 235, and in this embodiment, the flag value “0” does not include a sentence that is pronounced with an intonation (tone) different from the standard intonation (tone).
  • the flag value “1” indicates that there is a sentence that is pronounced with an intonation different from the standard intonation.
  • “Sentence type” is the type of purpose (intention) when the user utters the sentence, which is assumed in the corresponding sentence, and “question”, “confirmation”, “instruction”, “denial”, etc. are assumed Is done.
  • FIG. 10 is a diagram illustrating a configuration example of the specific tone management storage unit 223 in the present embodiment.
  • the special tone management storage unit 223 is a storage unit that manages, for each user, words that are pronounced with user-specific accents (tones).
  • “word reading ID” and “meaning” are associated with each “user ID”.
  • the unique tone management storage unit 223 is managed by the registration processing unit 235, and the word reading ID of a word pronounced with a user-specific accent (tone) is stored in the “word reading ID” column.
  • words (meaning words) that are pronounced with user-specific accents (tones) among words having the word reading of the corresponding “word reading ID” (synonyms) are stored.
  • FIG. 11 is a diagram illustrating a configuration example of the tone management storage unit 224 in the present embodiment.
  • the tone management storage unit 224 is a storage unit that manages standard intonation (tone) for each “sentence type”.
  • “tone” is associated with each “sentence type”.
  • tone information of standard intonation (tone) of the corresponding “sentence type” is stored.
  • FIG. 12 is a diagram illustrating a configuration example of the specific tone management storage unit 225 in the present embodiment.
  • the special tone management storage unit 225 is a storage unit that manages sentences that are pronounced with user-specific intonations (tones) for each user.
  • “sentence ID” is associated with each “user ID”.
  • the special tone management storage unit 225 is managed by the registration processing unit 235, and the “sentence ID” column stores the sentence ID of a sentence that is pronounced with a user-specific intonation (tone).
  • control unit 23 includes, for example, a CPU, executes an operation program stored in the program area of the storage unit 22, and as illustrated in FIG.
  • control unit 23 executes an operation program to execute a control process for controlling the entire server device 2 and a process such as a voice recognition process described later in detail.
  • the voice recognition unit 231 converts the received voice data into a character string using an existing technology, and extracts an accent phrase. For example, an accent phrase is extracted by detecting a small break in speech. In addition, the voice recognition unit 231 extracts a sentence by detecting a large break in the voice, for example.
  • the word specifying unit 232 specifies or estimates a word (meaning) corresponding to each “word reading” included in the sentence to be analyzed based on the common word dictionary 221. At this time, even if homonyms exist in the word corresponding to “word reading”, if the homonyms are not pronounced with user-specific accents (tones), the word identification is performed. The unit 232 specifies or guesses a word having the meaning intended by the user from the homonyms based on the standard accent (tone).
  • the tone / tone detection unit 233 detects an accent (tone) pattern of a word in which a homonym is present when the sentence to be analyzed includes a word in which the homonym is present. Further, the tone / tone detection unit 233 detects intonation (tone) of the sentence to be analyzed.
  • the sentence type specifying unit 234 specifies the sentence type of the sentence to be analyzed based on the common sentence dictionary 222 when the sentence to be analyzed is not pronounced with user-specific intonation (tone), or Infer.
  • the registration processing unit 235 is a processing unit that manages the common word dictionary 221 and the common sentence dictionary 222. More specifically, the registration processing unit 235 detects that there is a homonym in the homonym that may be pronounced with an accent (tone) different from the standard accent (tone). The flag value of the corresponding flag in the common word dictionary 221 is set to “1”. Further, when it is detected that there is a sentence that is pronounced with an intonation (tone) different from the standard intonation (tone), the registration processing unit 235 sets the flag value of the corresponding flag in the common sentence dictionary 222. Set to “1”.
  • the registration processing unit 235 displays the homonym and word reading ID as the user ID. And stored in the specific tone management storage unit 223. Also, when it is detected that the user pronounces a sentence with an intonation (tone) different from the standard intonation (tone), the registration processing unit 236 associates the sentence ID of the sentence with the user ID, Stored in the unique tone management storage unit 225.
  • FIGS. 13 to 15 are a first part, a second part, and a third part of an example of a flowchart for explaining the flow of the speech recognition process executed by the information terminal device 1 in the present embodiment, respectively. is there.
  • the voice recognition process is started, for example, when a voice recognition application is activated.
  • the voice input processing unit 161 controls the display unit 13 to display, for example, a voice input screen as illustrated in FIG. 5 on the display screen (step S001). Then, the voice input processing unit 161 determines whether or not voice input has been performed (step S002). If the voice input processing unit 161 determines that no voice is input (step S002; NO), the process repeats the process of step S002 and waits for a voice input. On the other hand, if it is determined that voice input has been performed (step S002; YES), the voice input processing unit 161 transmits the input voice data to the server apparatus 2 via the communication unit 15 together with the user ID ( Step S003).
  • the dialogue processing unit 164 determines whether or not a voice analysis result has been received (step S004).
  • the dialogue processing unit 164 generates a response sentence to the voice input based on the voice analysis result (step S005).
  • the output processing unit 165 generates a response screen based on the response sentence, and controls the display unit 13 to display the generated response screen on the display screen (step S006).
  • the output processing unit 165 determines whether or not there is an error in the response content (step S007). For example, when the response screen is displayed, the output processing unit 165 determines whether an OK button on the response screen is selected. If it is determined that the OK button has been selected (step S007; YES), the output processing unit 165 transmits a response success notification indicating that there is no error in the response content to the server device 2 (step S008). Note that the response success notification includes the user ID.
  • the registration processing unit 166 determines whether or not estimation information is included in the voice analysis result (step S009). When it is determined that the estimation information is included (step S009; YES), the registration processing unit 166 executes a registration process described later in detail (step S010). And a process returns to the process of step S001 and repeats the above-mentioned process.
  • the inference information is information indicating that the server device 2 has inferred a word and / or sentence type based on the common word dictionary 221 and the common sentence dictionary 222.
  • the registration processing unit 166 further stores the estimation result (selected sentence type) in the data area of the storage unit 12. It is determined whether or not (step S011). If it is determined that the estimation result is stored (step S011; YES), the registration processing unit 166 registers the content of the estimation result in the user-specific sentence dictionary 122 (step S012). In this case, the registration processing unit 166 sets a flag value corresponding to the estimation result (selected sentence type) in the user-specific sentence dictionary 122 to “1” and displays a corresponding “tone” column in the user-specific sentence dictionary 122. And updated with the tone information included in the sentence type analysis request.
  • step S001 a process returns to the process of step S001 and repeats the above-mentioned process.
  • the registration processing unit 166 determines that the estimation result is not stored (step S011; NO)
  • the process returns to the process of step S001, and the above-described process is repeated.
  • the sentence type analysis request is a notification for requesting the information terminal device 1 to analyze the sentence type based on the user-specific sentence dictionary 122.
  • the sentence type analysis request is transmitted from the server device 2 to the information terminal device 1 of the target user.
  • the sentence type analysis request includes a sentence presumed to be input by the user and tone information corresponding to the sentence ID of the sentence.
  • step S004 when the dialogue processing unit 164 determines that the speech analysis result has not been received (step S004; NO), the unique word specifying unit 162 has received the word analysis request. Is determined (step S013).
  • the word analysis request is a notification for requesting the information terminal device 1 to analyze a word based on the user-specific word dictionary 121 (a word having a homonym). This is a case where there is a “word reading” corresponding to a word having a homonym in the sentence to be analyzed, and the user has an accent (tone) other than the standard accent (tone), and those homonyms When one of the words is pronounced, the word analysis request is transmitted from the server device 2 to the information terminal device 1 of the target user.
  • the word analysis request includes “word reading ID” corresponding to “word reading” to be analyzed and tone information corresponding to it.
  • the unique word specifying unit 162 refers to the user unique word dictionary 121 and performs analysis based on the word analysis request.
  • the word corresponding to the “word reading” to be requested is specified (step S014). More specifically, the unique word specifying unit 162 searches the “word reading ID” field of the user specific word dictionary 121 and specifies an entry that matches the “word reading ID” included in the word analysis request. Then, the specific word specifying unit 162 specifies a word (meaning) that matches the tone information included in the word analysis request from the tone information corresponding to the specified entry.
  • the unique word specifying unit 162 determines whether all have been specified (step S015). When it is determined that all have been specified (step S015; YES), the specific word specifying unit 162 transmits a specific word notification to the server device (step S016). And a process returns to the process of step S004 and performs the above-mentioned process.
  • the specific word notification is a notification for notifying the specified word.
  • the specific word notification includes the user ID and the specified word.
  • the specific word specifying unit 162 transmits a word guessing request to the server device 2 (step S017). And a process returns to the process of step S004 and performs the above-mentioned process.
  • the word estimation request is a notification for notifying a specified word and requesting to estimate a word that cannot be specified based on the common word dictionary 221.
  • the word guess request includes the user ID and the identified word.
  • step S013 when the unique word specifying unit 162 determines that the word analysis request has not been received (step S013; NO), the unique sentence type specifying unit 163 receives the sentence type analysis request. Is determined (step S018).
  • the specific sentence type specifying unit 163 refers to the user specific sentence dictionary 122 and based on the sentence type analysis request, the sentence to be analyzed Is identified (step S019). More specifically, the unique sentence type specifying unit 163 searches the “sentence ID” column of the user specific sentence dictionary 122 and specifies an entry that matches the “sentence ID” included in the sentence type analysis request. Then, the unique sentence type specifying unit 163 specifies a sentence type that matches the tone information included in the sentence type analysis request from the tone information corresponding to the specified entry.
  • the special sentence type specifying unit 163 determines whether or not the specific sentence type specifying unit 163 has been specified (step S020). When it is determined that the sentence cannot be identified (step S020; NO), the unique sentence type identifying unit 163 further refers to the user-specific sentence dictionary 122 and, based on the sentence classification analysis request, the sentence of the sentence to be analyzed. The type is estimated (step S021). More specifically, the unique sentence type specifying unit 163 searches the “sentence ID” column of the user specific sentence dictionary 122 and specifies an entry that matches the “sentence ID” included in the sentence type analysis request. Then, the unique sentence type specifying unit 163 selects an unselected sentence type from among the sentence types corresponding to the specified entry.
  • the unique sentence type specifying unit 163 temporarily stores the estimation result (selected sentence type) in the data area of the storage unit 12 (step S022). Then, the specific sentence type specifying unit 163 outputs the voice analysis result including the selected sentence type to the dialogue processing unit 164 (step S023). And a process progresses to the process of step S005 and performs the above-mentioned process. On the other hand, if it is determined in step S020 that it has been specified (step S020; YES), the specific sentence type specifying unit 163 outputs a speech analysis result including the specified sentence type to the dialogue processing unit 164 (step S020). S023). And a process progresses to the process of step S005 and performs the above-mentioned process.
  • step S007 when the output processing unit 165 determines that the NG button has been selected (step S007; NO), the specific sentence type specifying unit 163 deletes the stored estimation result. (Step S024), it is determined whether or not the sentence type analysis has been performed (Step S025). When it is determined that the sentence type analysis is not performed (step S025; NO), the specific sentence type specifying unit 163 transmits a reanalysis request to the server device 2 (step S026). And a process returns to the process of step S004 and performs the above-mentioned process.
  • the reanalysis request is a notification for requesting reanalysis of speech data based on the common word dictionary 221 and the common sentence dictionary 222, and the reanalysis request includes a user ID.
  • step S027 when it is determined that the sentence type analysis has been performed (step S025; YES), the specific sentence type specifying unit 163 further determines whether there is an unselected sentence type (step S027). If the unique sentence type specifying unit 163 determines that there is no unselected sentence type (step S027; NO), the process proceeds to the process of step S026. On the other hand, when it is determined that there is an unselected sentence type (step S027; YES), the specific sentence type specifying unit 163 selects an unselected sentence type (step S028).
  • the unique sentence type specifying unit 163 temporarily stores the estimation result (selected sentence type) in the data area of the storage unit 12 (step S029). Then, the specific sentence type specifying unit 163 outputs the voice analysis result including the selected sentence type to the dialogue processing unit 164 (step S030). And a process progresses to the process of step S005 and performs the above-mentioned process.
  • FIG. 16 is an example of a flowchart for explaining the flow of registration processing in the present embodiment.
  • the main registration process is a process corresponding to the above-described voice recognition process in step S010.
  • the registration processing unit 166 transmits a guess content request to the server device 2 (step S101).
  • the guess content request is a notification for requesting the content of the guess result of the word and / or sentence type based on the common word dictionary 221 and the common sentence dictionary 222.
  • the guess information is included in the speech analysis result that is not incorrect in the response content, or when the response content corresponding to the speech analysis result based on the sentence type analysis request including the guess information is correct
  • the estimated content request is transmitted to the server device 2.
  • the guess content request includes a user ID.
  • the registration processing unit 166 determines whether or not a guess content notification has been received (step S102).
  • the estimated content notification is a notification transmitted from the server device 2 in response to the estimated content request, and is a notification for notifying the content of the estimated result.
  • the estimated content notification includes the content of the estimated result in the server device 2. For example, if there is a homonym inferred by the server device 2 in a word included in the sentence of the speech analysis result that is not erroneous in the response content, the homonym presumed by the server device 2 And the corresponding “tone reading ID” and the corresponding tone information are included in the estimated content notification.
  • the server apparatus 2 estimates the sentence type of the sentence of the voice analysis result that is not erroneous in the response contents
  • the sentence of the sentence of the voice analysis result that is not erroneous in the response contents includes the ID, the sentence type associated with the sentence ID, the sentence type of the sentence of the speech analysis result determined to have no error in the response contents, and the corresponding tone information.
  • step S102 determines that the estimated content notification has not been received (step S102; NO)
  • the process repeats the process of step S102 and waits for reception of the estimated content notification.
  • step S102 determines that the guess content notification is received (step S102; YES)
  • the registration processing unit 166 uses the content of the guess result included in the guess content notification as the user-specific word dictionary 121 and / or the user-specific sentence dictionary. 122 is registered (step S103). Then, this process ends, and the process proceeds to step S001 of the voice recognition process described above.
  • FIG. 17 is an example of a flowchart for explaining the flow of voice recognition processing executed by the server device 2 in the present embodiment.
  • the voice recognition process is started with reception of voice data as a trigger.
  • the voice recognition unit 231 determines whether voice data has been received (step S201). If the voice recognition unit 231 determines that voice data has not been received (step S201; NO), the process repeats the process of step S201 and waits for reception of voice data. On the other hand, if it is determined that voice data has been received (step S201; YES), the voice recognition unit 231 converts the received voice data into a character string and divides the character string into accent phrases (step S202).
  • the word specifying unit 232 performs word analysis processing in cooperation with the tone / tone detection unit 233, and specifies or guesses each word included in the sentence to be analyzed based on the common word dictionary 221. (Step S203). Then, the tone / tone detection unit 233 detects intonation (tone) of the sentence to be analyzed (step S204). Then, the sentence type specifying unit 234 executes a sentence type analyzing process, and specifies or estimates the type of the sentence to be analyzed based on the common sentence dictionary 222 (step S205).
  • the sentence type identification unit 234 determines whether or not a reanalysis request has been received (step S206). If it is determined that a reanalysis request has not been received (step S206; NO), the sentence type identification unit 234 further determines whether a response success notification has been received (step S207). If the sentence type identification unit 234 determines that a response success notification has been received (step S207; YES), the speech recognition process corresponding to the user ID included in the response success notification is terminated.
  • step S207 when the sentence type specifying unit 234 determines that the response success notification has not been received (step S207; NO), the process returns to the process of step S206, and the above-described process is repeated. If it is determined in step S206 that a reanalysis request has been received (step S206; YES), the sentence type specifying unit 234 further determines whether there is an unselected sentence type (step S208). ).
  • the sentence type specifying unit 234 further includes a word in which a homonym is present in words included in the sentence to be analyzed. It is determined whether there is an unselected homonym (step S209). If the sentence type identification unit 234 determines that there is no unselected homonym (step S209; NO), the process returns to the process of step S202, and the above-described process is executed. On the other hand, when it is determined that there is an unselected homonym (step S209; YES), the sentence type identification unit 234 performs reanalysis processing in cooperation with the word identification unit 232 (step S210). And a process returns to the process of step S206 and repeats the above-mentioned process.
  • step S208 when it is determined in step S208 that there is an unselected sentence type (step S208; YES), the sentence type specifying unit 234 performs reanalysis processing in cooperation with the word specifying unit 232. (Step S210). And a process returns to the process of step S206 and performs the above-mentioned process.
  • FIGS. 18 to 20 are a first part, a second part, and a third part of an example of a flowchart for explaining the flow of the word analysis processing in the present embodiment, respectively.
  • This word analysis process is a process corresponding to the process of step S203 of the speech recognition process executed by the server device 2.
  • the word specifying unit 232 divides each accent phrase of the sentence to be analyzed into a word and a connecting particle (step S301). Then, the word specifying unit 232 specifies each word (meaning) corresponding to each “word reading” included in the sentence to be analyzed based on the common word dictionary 221 (step S302). More specifically, the word specifying unit 232 searches the “word reading” field of the common word dictionary 221 to specify an entry that matches the “word reading” to be processed. Then, when there is only one word registered in the “meaning” column of the specified entry, the word specifying unit 232 corresponds to the “word reading” to be processed because there is no homonym. As a word, a word registered in the “meaning” column of the specified entry is specified.
  • the word specifying unit 232 determines whether or not all the words (meaning) corresponding to each “word reading” included in the sentence to be analyzed have been specified (step S303). When it is determined that all of the words have been identified (step S303; YES), the word identification unit 232 arbitrarily selects a word of interest from among the identified (or guessed) words (step S304). Then, this process ends, and the process proceeds to step S204 of the voice recognition process executed by the server device 2.
  • step S303 When it is determined in the process of step S303 that there is a “word reading” that could not be specified (step S303; NO), the word specifying unit 232 includes the homonyms in the “word reading” that could not be specified. It is determined whether or not there is a “word reading” corresponding to (step S305). If the word specifying unit 232 determines that there is no “word reading” corresponding to the homonym (step S305; NO), the process proceeds to step S320 described later.
  • step S305 if the word specifying unit 232 determines that there is a “word reading” corresponding to the homonym (step S305; YES), the tone / tone detection unit 233 selects the “word corresponding to the homonym” The “reading” accent (tone) is detected (step S306). Then, the word specifying unit 232 determines whether or not there is “word reading” corresponding to the homonym with the corresponding flag value “1” (step S307).
  • the word specifying unit 232 reads “word reading” corresponding to the homonym.
  • a word that matches the tone for which the corresponding tone information is detected is specified (step S308). More specifically, the word specifying unit 232 searches the “word reading” field of the common word dictionary 221 and specifies an entry of “word reading” corresponding to the homonym. And the word specific
  • the word specifying unit 232 determines whether or not all “word reading” words (synonyms) corresponding to the homonyms have been specified (step S309). If the word specifying unit 232 determines that all the homonyms have been specified (step S309; YES), the process proceeds to step S319 described later.
  • the word specifying unit 232 determines that there is a “word reading” corresponding to the homonym that cannot be specified (step S309; NO)
  • the word specifying unit 232 cannot specify the homonym that cannot be specified.
  • the word most similar to the tone for which the corresponding tone information is detected is selected (step S 310). More specifically, the word specifying unit 232 searches the “word reading” field of the common word dictionary 221 and specifies an entry of “word reading” corresponding to the homonym that could not be specified.
  • specification part 232 selects the meaning (meaning word) with which the corresponding tone information most resembles the detected tone from the meaning (synonyms) of the specified entry. If there are a plurality of “word readings” corresponding to the homonyms that could not be specified, the above-described processing is executed for each.
  • the word specifying unit 232 associates the estimation result (the selected homonym) with the user ID and temporarily stores it in the data area of the storage unit 22 (step S311). And a process progresses to the process of step S304 and performs the above-mentioned process.
  • step S307 when it is determined that there is a “word reading” corresponding to the homonym with the corresponding flag value “1” (step S307; YES), the word specifying unit 232 determines the corresponding flag value.
  • the homonym corresponding to the word registered in the unique tone management storage unit 223 is extracted from the homonyms corresponding to “word reading” with “1” (step S312).
  • specification part 232 determines whether it was able to extract (step S313). If the word identification unit 232 determines that the word could not be extracted (step S313; NO), the process proceeds to step S315 described later.
  • the word specifying unit 232 transmits a word analysis request to the information terminal device 1 that has transmitted the voice data (step S314).
  • the word analysis request at this time includes “word reading ID” corresponding to “word reading” of the extracted homonym and tone information corresponding thereto.
  • the word analysis request is transmitted to the information terminal device 1 because the word “word reading” registered in the specific tone management storage unit 223 is pronounced with a user-specific accent (tone). is there.
  • step S315 determines whether the specific word notification was received.
  • step S315 determines whether the specific word notification has not been received.
  • step S316 determines whether a word estimation request has been received. If the word specifying unit 232 determines that no word estimation request has been received (step S316; NO), the process returns to the process of step S315, and the above-described process is repeated.
  • the word specifying unit 232 determines the corresponding tone information based on the common word dictionary 221 for “word reading” that could not be extracted. A word that matches the detected tone is identified (step S317). More specifically, word identification based on the user-specific word dictionary 121 (or word identification based on the common word dictionary 221 or estimation) is performed on all “word readings” that are the target of the word analysis request. Thus, the word specifying unit 232 searches the “word reading” field of the common word dictionary 221 and specifies the entry of “word reading” that could not be extracted.
  • specification part 232 specifies the meaning (meaning word) from which the corresponding tone information corresponds with the detected tone (namely, tone information) from the meaning (synonym) of the specified entry.
  • the word specifying unit 232 determines whether or not all the words have been specified for the “word reading” that could not be extracted (step S318). If the word identification unit 232 determines that there is “word reading” in which the word could not be identified (step S318; NO), the process proceeds to the process of step S310, and the above-described process is executed. On the other hand, when it is determined that all the words have been specified for the “word reading” that could not be extracted (step S318; YES), the word specifying unit 232 further “word reading” included in the sentence to be analyzed. It is determined whether there is a “word reading” in which no word is specified (step S319). When the word specifying unit 232 determines that there is no “word reading” in which no word is specified (step S319; NO), the process proceeds to the process of step S304, and the above-described process is executed.
  • step S319 when it is determined that there is a “word reading” in which no word is specified (step S319; YES), the word specifying unit 232 determines a common word dictionary 221 for “word reading” in which no word is specified. Based on the above, an optimum word is estimated (step S320). In this case, since the “word reading” included in the sentence to be analyzed includes “word reading” that does not match the “word reading” registered in the common word dictionary 221, the word specifying unit 232 For example, with respect to such “word reading”, based on the common word dictionary 221, a word with the most similar “word reading” is estimated. And a process progresses to the process of step S304 and performs the above-mentioned process.
  • step S316 when it is determined that the word estimation request has been received (step S316; YES), the word specifying unit 232 uses the word in the “word reading” that is the target of the word analysis request. For “word readings” other than the word included in the guess request, the homophones whose homonyms registered in the common tone dictionary 221 are excluded from the homophones registered in the common tone dictionary 221. Therefore, the homonym corresponding to the tone for which the corresponding tone information is detected is specified (step S321). For example, referring to FIG. 8 and FIG.
  • the special tone management storage unit 223 registers words (other than unexpected) whose “word reading” is “mussel”.
  • the words whose “word reading” registered in the common word dictionary 221 is “mussel” are a dead body, a clam, and a proper noun 1 except for unexpected ones. Therefore, in this case, the word specifying unit 232 specifies a word (an anomaly) that matches the tone from which the corresponding tone information is detected, from among the remains, the shellfish, and the proper noun 1.
  • step S322 determines whether it was able to be specified (step S322). If it is determined by the word identification unit 232 that identification has been made (step S322; YES), the process proceeds to the process of step S317, and the above-described process is executed. On the other hand, if it is determined that the word could not be specified (step S322; NO), the word specifying unit 232 starts from the homonym registered in the common word dictionary 221 for the “word reading” for which the word could not be specified. Then, a homonym is selected from the homonyms excluding the homonyms registered in the unique tone management storage unit 223 (step S323).
  • the word specifying unit 232 associates the estimation result (the selected homonym) with the user ID and temporarily stores it in the data area of the storage unit 22 (step S324). And a process progresses to the process of step S317 and performs the above-mentioned process.
  • FIG. 21 and FIG. 22 are a part of an example of a flowchart for explaining the flow of sentence type analysis processing in the present embodiment, and another part, respectively.
  • the body type identification process is a process corresponding to the process of step S205 of the speech recognition process executed by the server device 2.
  • the sentence type specifying unit 234 refers to the common sentence dictionary 222 and specifies a sentence that matches the sentence to be analyzed that is configured with the specified or estimated word (step S401). More specifically, the sentence type specifying unit 234 searches the “word” field of the common sentence dictionary 222 and specifies an entry of a word that matches the word of interest. Then, the sentence type specifying unit 234 specifies a sentence that matches the sentence to be analyzed from the sentences registered in the specified entry. At this time, if a sentence that matches the sentence to be analyzed cannot be specified from the sentences registered in the specified entry, the same sound is included in the word corresponding to the word reading included in the sentence to be analyzed.
  • the process of reselecting the anomalous synonym from unselected homophones is repeated until a word (anomaly) that matches the sentence to be analyzed can be identified.
  • a word that matches the sentence to be analyzed can be identified.
  • the sentence type identifying unit 234 determines whether or not the flag value associated with the “following word” of the identified sentence is “1” (step S402).
  • the sentence type specifying unit 234 stores the specified sentence in the special tone management storage. It collates with the sentence registered in the part 225 (step S403). More specifically, the sentence type specifying unit 234 searches the “user ID” field of the special tone management storage unit 225 and specifies an entry that matches the user ID received together with the tone data. Then, the sentence type identification unit 234 collates the sentence ID of the identified sentence with the sentence ID registered in the identified entry.
  • the sentence type identifying unit 234 determines whether or not the collation has been completed (step S404). If the sentence type identification unit 234 determines that the collation has failed (step S404; NO), the process proceeds to a process of step S408 described later. On the other hand, when it is determined that the collation has been completed (step S404; YES), the sentence type identification unit 234 further determines whether or not the estimated word is included in the sentence to be analyzed (step S405). ).
  • step S405 When it is determined that the estimated word is included in the sentence to be analyzed (step S405; YES), the sentence type identification unit 234 transmits a sentence type analysis request including the estimation information (step S406). ). Then, this process ends, and the process proceeds to step S206 of the voice recognition process executed by the server device 2. On the other hand, when it is determined that the estimated word is not included in the sentence to be analyzed (step S405; NO), the sentence type identification unit 234 transmits a sentence type analysis request that does not include the estimation information. (Step S407). Similarly, this process ends, and the process proceeds to the process of step S206 of the voice recognition process executed by the server device 2. In such a case, the sentence type analysis request is transmitted to the information terminal device 1 because the sentence registered in the specific tone management storage unit 225 may be pronounced with user-specific intonation (tone). .
  • step S402 when it is determined that the flag value associated with the “following word” of the identified sentence is not “1” (step S402; NO), the sentence type identification unit 234 determines that the common sentence The sentence type of the sentence to be analyzed is specified based on the dictionary 221 (step S408). More specifically, the sentence type identification unit 234 refers to the tone management storage unit 224, and intonation (tone) in which corresponding tone information is detected from the sentence types associated with the identified sentence. Identify the sentence type that matches.
  • the sentence type identification unit 234 determines whether or not it has been identified (step S409). If it is determined that the sentence has been identified (step S409; YES), the sentence type identifying unit 234 further determines whether or not the estimated word is included in the sentence to be analyzed (step S410).
  • step S410 When it is determined that the estimated word is included in the sentence to be analyzed (step S410; YES), the sentence type identification unit 234 transmits the speech analysis result including the estimation information (step S411). . Then, this process ends, and the process proceeds to step S206 of the voice recognition process executed by the server device 2. On the other hand, when it is determined that the estimated word is not included in the sentence to be analyzed (step S410; NO), the sentence type identification unit 234 transmits a speech analysis result that does not include the estimation information ( Step S412). Similarly, this process ends, and the process proceeds to the process of step S206 of the voice recognition process executed by the server device 2.
  • the sentence type specifying unit 234 estimates the sentence type of the sentence to be analyzed based on the common sentence dictionary 221 (step S413). ). More specifically, the sentence type identification unit 234 refers to the tone management storage unit 224, and intonation (tone) in which corresponding tone information is detected from the sentence types associated with the identified sentence. Select the sentence type most similar to. Alternatively, the sentence type identification unit 234 may select an unselected sentence type from among the sentence types associated with the identified sentence.
  • the sentence type identification unit 234 associates the estimation result (selected sentence type) with the user ID and temporarily stores it in the data area of the storage unit 22 (step S414), and the speech analysis result including the estimation information is obtained. It transmits to the information terminal device 1 (step S415). Then, this process ends, and the process proceeds to step S206 of the voice recognition process executed by the server device 2.
  • FIG. 23 is an example of a flowchart for explaining the flow of reanalysis processing in the present embodiment.
  • This reanalysis process is a process corresponding to the process of step S210 of the speech recognition process executed by the server device 2.
  • the sentence type specifying unit 234 determines whether or not there is an unselected sentence type among the sentence types associated with the specified sentence (step S501). When it is determined that there is an unselected sentence type among the sentence types associated with the specified sentence (step S501; YES), the sentence type specifying unit 234 specifies based on the common sentence dictionary 222. An unselected sentence type is estimated from the sentence types associated with the selected sentence (step S502). More specifically, the sentence type specifying unit 234 refers to the tone management storage unit 224, and selects corresponding tone information from among the unselected sentence types among the sentence types associated with the specified sentence. The sentence type most similar to the intonation (tone) in which is detected is selected. Alternatively, the sentence type identification unit 234 may select an unselected sentence type from among the sentence types associated with the identified sentence.
  • the sentence type identification unit 234 associates the estimation result (selected sentence type) with the user ID and temporarily stores it in the data area of the storage unit 22 (step S503), and the speech analysis result including the estimation information is obtained. It transmits to the information terminal device 1 (step S504). Then, this process ends, and the process proceeds to step S206 of the voice recognition process executed by the server device 2.
  • step S501 if the sentence type identification unit 234 determines that there is no unselected sentence type among the sentence types associated with the identified sentence (step S501; NO), the word identification is performed. Based on the common word dictionary 221, the unit 232 estimates a word (synonym) from unselected homonyms (step S 505). More specifically, the word specifying unit 232 selects a homonym that most closely resembles the tone for which the corresponding tone information is detected from unselected homophones.
  • the word identification unit 232 associates the estimation result (the selected homonym) with the user ID, temporarily stores it in the data area of the storage unit 22 (step S506), and arbitrarily selects the attention word (step S506). Step S507). At this time, if there is a previously selected word as the attention word, the word specifying unit 232 selects the previously selected word. Then, the sentence type identification unit 234 executes the above-described sentence type analysis process in cooperation with the tone / tone detection unit 233 (step S508). Then, this process ends, and the process proceeds to step S206 of the voice recognition process executed by the server device 2.
  • FIG. 24 is an example of a flowchart for explaining the flow of the estimated content transmission process in the present embodiment.
  • the estimated content transmission process is started with the reception of the estimated content request as a trigger.
  • the registration processing unit 235 determines whether or not a guess content request has been received (step S601). If the registration processing unit 235 determines that the estimated content request has not been received (step S601; NO), the process repeats the process of step S601 and waits for reception of the estimated content request. On the other hand, if it is determined that the estimated content request has been received (step S601; YES), the registration processing unit 235 transmits an estimated content notification to the information terminal device 1 (step S602).
  • the registration processing unit 235 performs registration processing according to the content of the estimation result (step S603), and deletes the estimation result corresponding to the processing target audio data from the data area of the storage unit 22 (step S604). And a process returns to the process of step S601 and repeats the above-mentioned process.
  • FIG. 25 is a diagram showing an example of the common word dictionary 221 in this case.
  • a standard frequency used to pronounce each syllable character (a kana character or hiragana character in the case of Japanese) constituting a word may be used.
  • FIG. 26 is a diagram illustrating an example of the common word dictionary 221 in this case.
  • the information terminal device 1 transmits the corresponding voice data to the server device 2.
  • the server apparatus 2 receives the voice data, the server apparatus 2 converts the voice data into a character string “Chukagaino lunch”, and further divides the character string into “Chuka”, “Igai”, “No”, “Lunch”. .
  • the server device 2 identifies the meaning (word) corresponding to each word reading, that is, “chuuka”, “mussel”, “lunch” based on the common word dictionary 221.
  • word a word corresponding to each word reading
  • there is a homonym for example, other than unexpected, corpse, shellfish, proper name 1 in the word whose word reading is “mussel”
  • the homonym for example, other than unexpected
  • the server device 2 detects the tone of the word reading “Chuka” and transmits a word analysis request to cause the information terminal device 1 to perform word analysis of the word reading “mussel”.
  • the information terminal device 1 When the information terminal device 1 receives the word analysis request, the information terminal device 1 specifies the word of the word reading “mussel” based on the user-specific word dictionary 121 (illustrated in FIG. 3). Here, if the tone information in the voice data of the word reading “mussel” is ( ⁇ ⁇ ), the information terminal device 1 identifies the word “other than”. Then, the information terminal device 1 transmits a specific word notification to the server device 2 to notify the specified word “other than”.
  • the general tone information of the word reading “mussel” is ( ⁇ ⁇ ⁇ )
  • the tone information in the voice data of the word reading “mussel” is ( ⁇ ⁇ ). Based on the common word dictionary 221, it is understood that the word “other than” cannot be specified.
  • the server device 2 identifies words based on the common word dictionary 221 for the remaining word readings “chuuka” and “lunch”.
  • the server device 2 reads the word reading “Chuka”.
  • the word “Chinese” is identified with respect to the word “Lunch” (lunch) with respect to the word reading “lunch”.
  • the server device 2 selects the attention word from the words (“Chinese”, “Other than”, “Lunch”).
  • the server device 2 selects the word “other than” as the attention word.
  • the server device 2 searches the “word” column of the common sentence dictionary 222 to identify an entry of the word of interest “other than”, and from the sentences registered in the identified entry, the sentence “other than Chinese” Identify sentences that match “no lunch”.
  • the flag value associated with the specified word “lunch” in the subsequent sentence is “1”
  • the sentence “lunch other than Chinese” is a user-specific intonation (tone). ) Can be pronounced.
  • the server device 2 determines that the sentence “lunch other than Chinese” A sentence type analysis request is transmitted to the information terminal device 1 so that the information terminal device 1 can identify the sentence type “
  • the information terminal device 1 when receiving the sentence type analysis request, specifies the sentence type of the sentence “Lunch other than Chinese” based on the user-specific sentence dictionary 122.
  • the tone information included in the sentence type analysis request is “tone 11”
  • the information terminal device 1 specifies the sentence type “question”.
  • the information terminal device 1 generates a corresponding response sentence using the sentence “lunch other than Chinese” and the sentence type “question” as a voice analysis result. Because the sentence “lunch other than Chinese” and the sentence type “question” allows the information terminal device 1 to capture the sentence “lunch other than Chinese” as an object, it guides you to places where you can eat lunches other than Chinese.
  • a response sentence such as For example, when the information terminal device 1 is car navigation, based on the position information, for example, it is possible to generate a response sentence “A steak restaurant is open for 500 m at lunch other than Chinese”. In this way, it is possible to specify (or guess) the sentence type of a sentence that has been voice-input, so that the voice input includes a verb as in the sentence “Search for restaurants where you can eat lunch other than Chinese”. Rather than being spoken, a voice dialogue can be established even if the verb is omitted and entered as in the sentence “Lunch other than Chinese”.
  • the standard tone of the sentence type “question” is “tone 01”. Therefore, it can be seen that the sentence type “question” cannot be specified as the sentence type of the sentence “Lunch other than Chinese” based on the common sentence dictionary 222.
  • the information terminal device 1 holds the tone information related to the homonym that is pronounced with the user-specific accent (tone), so that the homonym is pronounced with the user-specific accent (tone). It becomes possible to specify the word accurately. That is, it is possible to perform voice recognition taking account of user roundness and user-specific habits.
  • the information terminal device 1 holds the tone information of the sentence type related to the sentence pronounced with the user-specific intonation (tone), so that the sentence type of the sentence pronounced with the user-specific intonation (tone) can be accurately determined. It becomes possible to specify. Therefore, the accuracy of voice recognition can be improved. Further, by distributing the processing to the information terminal device 1, the processing load on the server device 2 can be reduced.
  • the information terminal device 1 is configured such that, for a word in which a homonym is present among words constituting a sentence specified based on input voice data, a word having a homonym is present. Based on the accent (tone) in the audio data, the homonym is identified from the homonyms corresponding to the word in which the homonym exists. And when there is a word in which a homonym exists in the word which comprises a sentence, the information terminal device 1 and the word specified by the server apparatus 2 based on intonation (tone) in the audio
  • This enables voice recognition that takes into account the user's roundness and user-specific habits, and distributes processing to the information terminal device 1 and the server device 2, thereby enabling a single device (for example, the server device 2). Compared to the case where all processes are performed, the processing load on the apparatus can be reduced.
  • the information terminal device 1 of the user of a homonym is Accents (tones) are registered in the user-specific word dictionary 121 in association with the homonyms.
  • Accents tones
  • homonyms that are pronounced with user-specific accents (tones) are accumulated, so that the accuracy of speech recognition can be improved as they are used. Therefore, it is possible to reduce processing that is repeated due to failure of voice recognition.
  • the information terminal device 1 uses the standard tone when the tone of the user of the sentence specified based on the input voice data is uttered by the same sentence type. Are detected, they are registered in the user-specific sentence dictionary 122 by associating the tone in the voice data with the sentence type. As a result, sentences that are pronounced with a user-specific intonation (tone) are accumulated, so that the accuracy of voice recognition can be improved as it is used. Therefore, it is possible to reduce processing that is repeated due to failure of voice recognition.
  • FIG. 27 is a diagram illustrating an example of a hardware configuration of the information terminal device 1 in the present embodiment.
  • the information terminal device 1 illustrated in FIG. 2 may be realized by various hardware illustrated in FIG. 27, for example.
  • the information terminal device 1 includes a CPU 201, a RAM 202, a ROM 203, a flash memory 204, an audio interface 205, a communication module 206, and a reading device 207, and these hardware are connected via a bus 208. .
  • the CPU 201 loads, for example, an operation program stored in the flash memory 204 into the RAM 202, and executes various processes while using the RAM 202 as a working memory.
  • the CPU 201 can realize each functional unit of the control unit 16 illustrated in FIG. 2 by executing the operation program.
  • the operation program for executing the above operation is a computer-readable recording medium such as a flexible disk, Compact Disk-Read Only Memory (CD-ROM), Digital Versatile Disk (DVD), and Magneto Optical disk (MO).
  • the above-described processing may be executed by storing and distributing in 209, reading it with the reading device 207 of the information terminal device 1, and installing it in a computer.
  • an operation program may be stored in a disk device or the like of a server device on the Internet, and the operation program may be downloaded to the computer of the information terminal device 1 via the communication module 206.
  • the information terminal device 1 is a Content You may have memory
  • CAM Addressable Memory
  • SRAM Static Random Access Memory
  • SDRAM Synchronous Dynamic Random Access Memory
  • the hardware configuration of the information terminal device 1 may be different from that in FIG. 27, and other hardware other than the standard / type illustrated in FIG. 27 is applied to the information terminal device 1. You can also.
  • each functional unit of the control unit 16 of the information terminal device 1 illustrated in FIG. 2 may be realized by a hardware circuit.
  • each functional unit of the control unit 16 shown in FIG. 2 is realized by a reconfigurable circuit such as Field Programmable Gate Array (FPGA) or Application Specific Integrated Circuit (ASIC) instead of the CPU 201. Also good.
  • FPGA Field Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • these functional units may be realized by both the CPU 201 and the hardware circuit.
  • FIG. 28 is a diagram illustrating an example of a hardware configuration of the server device 2 in the present embodiment.
  • the server device 2 illustrated in FIG. 7 may be realized by various hardware illustrated in FIG. 28, for example.
  • the server device 2 includes a CPU 301, a RAM 302, a ROM 303, an HDD 304, a communication module 305, and a reading device 306, and these hardware are connected via a bus 307.
  • the CPU 301 loads, for example, an operation program stored in the HDD 304 into the RAM 302, and executes various processes while using the RAM 302 as a working memory.
  • the CPU 301 can implement each function unit of the control unit 23 illustrated in FIG. 7 by executing the operation program.
  • An operation program for executing the above operation is stored and distributed in a computer-readable recording medium 308 such as a flexible disk, CD-ROM, DVD, or MO, and this is distributed by the reading device 306 of the server device 2.
  • the above-described processing may be executed by reading and installing in a computer.
  • an operation program may be stored in a disk device or the like of a server device on the Internet, and the operation program may be downloaded to a computer of the server device 2 via the communication module 305.
  • the server device 2 may include a storage device such as a CAM, SRAM, or SDRAM.
  • the hardware configuration of the server apparatus 2 may be different from that in FIG. 28, and other hardware other than the standards and types illustrated in FIG. 28 can be applied to the server apparatus 2. .
  • each functional unit of the control unit 23 of the server device 2 illustrated in FIG. 7 may be realized by a hardware circuit.
  • each functional unit of the control unit 23 illustrated in FIG. 7 may be realized by a reconfigurable circuit such as an FPGA or an ASIC instead of the CPU 301.
  • these functional units may be realized by both the CPU 301 and the hardware circuit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 情報端末装置は、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおける声調に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する。そして、情報端末装置は、文を構成する単語の中に同音異義語が存在する単語が有る場合に、文の音声データにおける音調に基づいて、サーバ装置により特定された同音異義語が存在する単語以外の単語と特定した同音異義語とにより構成される文に対する、応答文を生成する。

Description

音声認識装置、音声認識システム、及び、プログラム
 本発明は、音声認識装置、音声認識システム、及び、プログラムに関する。
 近年、ユーザの発話内容を認識する装置が開発され、情報システムに活用され始めている。そのような装置の一例として音声認識装置が知られている。
 音声認識装置は、例えば、タブレット型携帯端末、スマートフォン、カーナビゲーション、パーソナルコンピュータといった情報端末装置において、キーボードなどの入力装置の代わりに利用されている。一例として、ユーザによる音声入力は、音声入力された情報端末装置とネットワークを介して接続されているサーバ装置において音声認識が実行され、音声認識の結果に応じて、音楽再生、ビデオ再生、目的地へのナビゲーションなどを実行するために用いられている。
 音声認識の結果に基づいて、ユーザの音声入力に対して正確に回答したり、ユーザの音声入力に従って操作指示を行うための制御コマンドなどの処理を行うためには、音声認識装置は、高性能な処理装置と多くのメモリを備える必要がある。
 また、音声認識を行う際に、音声認識用の辞書を用いる方法が知られている(例えば、特許文献1)。特許文献1で提案されている方法は、音声認識語彙として音声認識用の辞書に追加登録する際に、ユーザが普段使用している検索クエリをユーザが発話しやすいように加工した語彙を追加登録するものである。
特開2011-059313号公報
 しかしながら、特許文献1で提案されている方法では、同音異義語については一切考慮されていない。音声認識技術の適用範囲が広がるにつれて、音声入力される一文は長く複雑になり、同音異義語を含む一文を音声認識しなければならない場面も増加傾向にある。音声入力された一文に同音異義語が含まれている場合には、例えば、ユーザが意図している意味の単語(異義語)をその都度ユーザに選択させればよいが、単語を選択させるための選択画面の表示に伴う処理をその都度追加実行する必要がある。ここで、同音異義語は、意味が異なるが同一の「単語読み」を有する単語である。
 同音異義語を音声認識する場合、アクセント(声調)に基づいて、ユーザが意図している意味の単語を認識する必要がある。しかしながら、ユーザ特有のくせなどのために、標準的なアクセント(声調)に基づいて、対応する単語を認識するのが適切ではない場合がある。ユーザのなまりやユーザ特有のくせを考慮して同音異義語などを音声認識する場合、ユーザごとにアクセント(声調)などを保持する必要がある。しかしながら、サーバ装置側で音声認識を行い、その結果を情報端末装置に送信する音声認識システムにおいて、同音異義語などに対するユーザごとのアクセント(声調)などをサーバ装置が保持すると、サーバ装置の処理負荷が急激に増加してしまう。
 一つの側面では、本発明は、ユーザのなまりやユーザ特有のくせなどを考慮した音声認識を可能とすると共に、処理負荷を軽減することを可能とする音声認識装置、音声認識システム、及び、プログラムを提供することを課題とする。
 一態様における音声認識装置は、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおける声調に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する特定手段と、文を構成する単語の中に同音異義語が存在する単語が有る場合に、文の音声データにおける音調に基づいて、外部装置により特定された同音異義語が存在する単語以外の単語と特定した同音異義語とにより構成される文に対する、応答文を生成する生成手段と、を備えることを特徴としている。
 一態様における音声認識システムは、第1の音声認識装置と第2の音声認識装置を含む音声認識システムであって、第1の音声認識装置は、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおける声調に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する特定手段と、文を構成する単語の中に同音異義語が存在する単語が有る場合に、文の音声データにおける音調に基づいて、第2の音声認識装置により特定された同音異義語が存在する単語以外の単語と特定した同音異義語とにより構成される文に対する、応答文を生成する生成手段とを備え、第2の音声認識装置は、単語の読みに基づいて、同音異義語が存在する単語以外の単語を特定する特定手段と、特定した単語を第1の音声認識装置に通知する通知手段と、を備えることを特徴としている。
 一態様におけるプログラムは、音声認識装置のコンピュータに、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおける声調に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定し、文を構成する単語の中に同音異義語が存在する単語が有る場合に、文の音声データにおける音調に基づいて、外部装置により特定された同音異義語が存在する単語以外の単語と特定した同音異義語とにより構成される文に対する、応答文を生成する処理を実行させることを特徴としている。
 一つの側面では、ユーザのなまりやユーザ特有のくせなどを考慮した音声認識が可能となると共に、処理負荷を軽減することが可能となる。
実施形態における音声認識システムの構成例を示す図である。 実施形態における情報端末装置の構成例を示す機能ブロック図である。 実施形態におけるユーザ特有単語辞書の構成例を示す図である。 実施形態におけるユーザ特有文辞書の構成例を示す図である。 表示画面の例を示す図である。 表示画面の別の例を示す図である。 実施形態におけるサーバ装置の構成例を示す機能ブロック図である。 実施形態における共通単語辞書の構成例を示す図である。 実施形態における共通文辞書の構成例を示す図である。 実施形態における特有声調管理記憶部の構成例を示す図である。 実施形態における音調管理記憶部の構成例を示す図である。 実施形態における特有音調管理記憶部の構成例を示す図である。 実施形態における情報端末装置で実行される音声認識処理のフローを説明するためのフローチャートの例の第1部である。 実施形態における情報端末装置で実行される音声認識処理のフローを説明するためのフローチャートの例の第2部である。 実施形態における情報端末装置で実行される音声認識処理のフローを説明するためのフローチャートの例の第3部である。 実施形態における情報端末装置で実行される登録処理のフローを説明するためのフローチャートの例である。 実施形態におけるサーバ装置で実行される音声認識処理のフローを説明するためのフローチャートの例である。 実施形態における単語解析処理のフローを説明するためのフローチャートの例の第1部である。 実施形態における単語解析処理のフローを説明するためのフローチャートの例の第2部である。 実施形態における単語解析処理のフローを説明するためのフローチャートの例の第3部である。 実施形態における文種別解析処理のフローを説明するためのフローチャートの例の一部である。 実施形態における文種別解析処理のフローを説明するためのフローチャートの例の他の一部である。 実施形態における再解析処理のフローを説明するためのフローチャートの例である。 実施形態における推測内容送信処理のフローを説明するためのフローチャートの例である。 実施形態における共通単語辞書の別の構成例を示す図である。 実施形態における共通単語辞書の更に別の構成例を示す図である。 実施形態における情報端末装置のハードウェア構成の例を示す図である。 実施形態におけるサーバ装置のハードウェア構成の例を示す図である。
 以下に本発明の実施の形態について図面を参照しながら詳細に説明する。
 図1は、本実施形態における音声認識システム100の構成例を示す図である。音声認識システム100は、図1に示すように、一又は複数の情報端末装置1とサーバ装置2とを含んでおり、情報端末装置1とサーバ装置2との間は、ネットワークNWを介して相互に通信可能に接続されている。
 図2は、本実施形態における情報端末装置1の構成例を示す機能ブロック図である。本実施形態における情報端末装置1は、音声入力された音声認識の対象となる一文の中に、ユーザ特有のくせやなまりを考慮した音声認識が必要な単語(例えば、同音異義語)が存在する場合に、それらの単語の音声認識などを行う第1の音声認識装置である。なお、以下において、ユーザ特有のくせやなまりを考慮した音声認識が必要な単語は、同音異義語が存在する単語として説明するが、これに限定されるものではなく、同音異義語が存在しない単語であってもよい。
 本実施形態における情報端末装置1は、例えば、スマートフォン、タブレット型携帯端末、カーナビゲーション、パーソナルコンピュータなどにより実現可能であり、図2に示すように、入力部11と、記憶部12と、表示部13と、出力部14と、通信部15と、制御部16と、を備えている。
 入力部11は、例えば、オーディオインターフェースなどを備え、接続されている音声取得装置(例えば、マイクロフォンなど)から音声区間を含む信号(以下、音声データという)を受け付ける。そして、入力部11は、受け付けた音声データを、制御部16に出力する。この際、入力部11は、受け付けた音声データをバッファメモリ(不図示)に一時的に格納し、制御部16が処理のタイミングに合わせて音声データをバッファメモリから順次取得するようにしてもよい。
 記憶部12は、例えば、Random Access Memory(RAM)、Read Only Memory(ROM)、フラッシュメモリなどを備えている。記憶部12は、制御部16が備える、例えば、Central Processing Unit(CPU)のワークエリア、情報端末装置1全体を制御するための動作プログラムなどの各種プログラムを格納するプログラムエリア、推測結果(詳しくは後述)などの各種のデータを格納するデータエリアとして機能する。
 また、記憶部12は、図2に示すように、ユーザ特有単語辞書121、ユーザ特有文辞書122、として機能する。
 ここで、図3と図4を参照して、ユーザ特有単語辞書121とユーザ特有文辞書122について、それぞれ、説明する。図3は、本実施形態におけるユーザ特有単語辞書121の構成例を示す図である。図4は、本実施形態におけるユーザ特有文辞書122の構成例を示す図である。
 本実施形態におけるユーザ特有単語辞書121は、ユーザ特有のアクセント(声調)で発音される単語を、単語読みごとに管理している。本実施形態におけるユーザ特有単語辞書121は、一例では、図3に示すように、「単語読みID」ごとに、「声調」と「意味」とが対応付けられている。ユーザ特有単語辞書121は登録処理部166(詳しくは後述)により管理されており、「単語読みID」欄には、ユーザ特有のアクセント(声調)で発音される単語の単語読みIDが格納される。また、「意味」欄には、対応する「単語読みID」の単語読みを有する単語(同音異義語)の中で、ユーザ特有のアクセント(声調)で発音される単語(意義語)が格納される。
 また、「声調」欄には、対応する単語(意義語)のユーザ特有のアクセント(声調)を表す情報(以下、声調情報という)が格納される。声調情報は、例えば、単語読みを構成する各音節文字(日本語の場合は、仮名文字、平仮名文字)のアクセント(声調)パターンである。本実施形態におけるアクセント(声調)パターンは、音節文字のアクセントが高いことを表す“↑”、音節文字のアクセントが低いことを表す“↓”、直前の音節文字に対してアクセント(声調)の高低の変化が無いことを表す“-”の3種類とする。しかしながら、これに限定されるものではなく、上記以外のバリエーションのアクセント(声調)パターンを用いてもよい。また、音声認識の対象とする言語に応じてその他の種類のアクセント(声調)パターンが用いられても良い。例えば、音声認識の対象とする言語が英語である場合には、高低アクセントパターンではなく、一例として、強弱アクセントパターンを用いることが可能である。
 本実施形態におけるユーザ特有文辞書122は、ユーザ特有のイントネーション(音調)で発音されることがある文を管理している。本実施形態におけるユーザ特有文辞書122は、一例では、図4に示すように、「文ID」ごとに、「文種別」と「音調」と「フラグ」とが対応付けられている。ユーザ特有文辞書122は登録処理部166により管理されており、「文ID」欄には、ユーザ特有のイントネーション(音調)で発音されることがある文の文IDが格納される。「文種別」欄には、対応する文において想定される、ユーザがその文を発話する際の目的(意図)を示す情報である文種別が格納される。文種別としては、「質問」、「確認」、「指示」、「否定」などが想定される。
 「音調」欄には、ユーザが、対応する文を対応する「文種別」で発話する際のイントネーション(音調)を表す情報(以下、音調情報という)が格納される。イントネーション(音調)としては、上昇調、下降調などが想定される。「フラグ」は、対応する文を対応する「文種別」でユーザが発話する際に、ユーザ特有のイントネーション(音調)で発音されるか否かを示すフラグである。本実施形態においては、フラグ値“0”は標準的なイントネーション(音調)で発音されることを示し、フラグ値“1”はユーザ特有のイントネーション(音調)で発音されることを示している。
 図2に戻り、表示部13は、Liquid Crystal Display(LCD)や有機Electro-Luminescence(EL)などの表示装置などを備えている。表示部13は、例えば、図5と図6に例示するような表示画面などの各種の画面や各種機能ボタンなどを表示画面上に表示する。
 図2に戻り、出力部14は、例えば、オーディオインターフェースなどを備え、接続されている音声出力装置(例えば、スピーカなど)を介して、例えば、音声解析結果(詳しくは後述)に応じた応答文を音声出力させる。
 通信部15は、例えば、通信モジュールなどを備えており、ネットワークNWを介して接続されているサーバ装置2との間で通信を行う。通信部15は、例えば、サーバ装置2から送信される音声解析結果などを受信する。
 制御部16は、例えば、CPUなどを備えており、記憶部12のプログラムエリアに格納されている動作プログラムを実行して、図2に示すように、音声入力処理部161と、特有単語特定部162と、特有文種別特定部163と、対話処理部164と、出力処理部165と、登録処理部166としての機能を実現する。また、制御部16は、動作プログラムを実行して、情報端末装置1全体を制御する制御処理や詳しくは後述の音声認識処理などの処理を実行する。
 ここで、制御部16の各機能部が果たす役割の概要について説明する。なお、詳細な役割については、後述する各種の処理の説明の中で説明することとする。
 音声入力処理部161は、表示部13を制御して、図5に例示するような音声入力画面を表示画面上に表示させる。音声入力画面は、図5に示すように、ユーザに音声入力を指示するための表示画面である。そして、音声入力処理部161は、入力された音声データを、ユーザ(情報端末装置1)を一意に識別可能なユーザIDと共に、通信部15を介して、サーバ装置2に送信する。また、音声入力処理部161は、出力部14に接続されている音声出力装置を介して、音声入力画面の表示内容、例えば、「話してください」を音声出力させてもよい。なお、音声入力の指示は、画面の表示又は音声の出力のいずれか一方であってもよいし、両方であってもよい。また、音声入力の指示は、その他の報知手段を用いて行ってもよい。ここで、図5は、表示画面の例を示す図である。
 図2に戻り、特有単語特定部162は、ユーザ特有のアクセント(声調)を考慮して、同音異義語の中から、ユーザが意図する意味の単語を特定する。つまり、特有単語特定部162は、ユーザ特有単語辞書121に基づいて、同音異義語の中から、ユーザが意図する意味の単語を特定する。特有文種別特定部163は、ユーザ特有のイントネーション(音調)を考慮して、ユーザが意図する文種別を特定、又は、推測する。つまり、特有文種別特定部163は、ユーザ特有文辞書122に基づいて、ユーザが意図する文種別を特定、又は、推測する。対話処理部164は、音声データの音声解析結果に基づいて、音声入力に対する応答文を生成する処理部である。なお、音声解析結果は、音声データを解析した結果を通知するための通知である。音声解析結果には、音声データを解析して得られた、ユーザが音声入力したと推測される文と文種別とが含まれている。
 出力処理部165は、応答文に基づいて応答画面を生成し、表示部13を制御して、生成した応答画面を表示画面上に表示させる。例えば、出力処理部165は、図6に例示するような応答画面を表示画面上に表示させる。応答画面は、図6に示すように、応答文を表示する画面である。ここで、図6は、表示画面の別の例を示す図である。また、出力処理部165は、出力部14に接続されている音声出力装置から、応答文を音声出力させる。なお、応答内容の報知は、画面の表示又は音声の出力のいずれか一方であってもよいし、両方であってもよい。
 図2に戻り、登録処理部166は、ユーザ特有単語辞書121とユーザ特有文辞書122を管理する処理部である。より具体的には、登録処理部166は、同音異義語の中で、標準的なアクセント(声調)とは異なるアクセント(声調)で発音される単語(異義語)をユーザ特有単語辞書121に登録する。また、登録処理部166は、ユーザ特有のイントネーション(音調)で発音されることがある文をユーザ特有文辞書122に登録する。
 図7は、本実施形態におけるサーバ装置2の構成例を示す機能ブロック図である。本実施形態におけるサーバ装置2は、音声入力された音声認識の対象となる一文の、ユーザ特有のくせやなまりを考慮する必要がない単語に対する音声認識などを行う第2の音声認識装置である。
 本実施形態におけるサーバ装置2は、図7に示すように、通信部21と、記憶部22と、制御部23と、を備えている。
 通信部21は、例えば、通信モジュールなどを備えており、ネットワークNWを介して接続されている情報端末装置1との間で通信を行う。通信部21は、例えば、情報端末装置1から送信される音声データなどを受信する。
 記憶部22は、例えば、RAM、ROM、Hard Disk Drive(HDD)などを備えている。記憶部22は、制御部23が備える、例えば、CPUのワークエリア、サーバ装置2全体を制御するための動作プログラムなどの各種プログラムを格納するプログラムエリア、推測結果(詳しくは後述)などの各種のデータを格納するデータエリアとして機能する。
 また、記憶部22は、図7に示すように、共通単語辞書221、共通文辞書222、特有声調管理記憶部223、音調管理記憶部224、特有音調管理記憶部225、として機能する。
 図8は、本実施形態における共通単語辞書221の構成例を示す図である。本実施形態における共通単語辞書221は、各種の単語を管理していると共に、同音異義語が存在する各単語の標準的なアクセント(声調)を管理している。共通単語辞書221は、一例では、図8に示すように、「単語読みID」ごとに、「単語読み」と、「声調」と、「意味」と、「フラグ」と、が対応付けられている。意味が異なるが同一の「単語読み」を有する単語が複数存在する場合、つまり、同音異義語が存在する場合には、図8に示すように、「単語読み」に対して複数の「意味」が対応付けられ、「意味」ごとに「声調」が対応付けられている。
 「単語読みID」は、「単語読み」を一意に識別可能な識別子であり、本実施形態においては、同一の「単語読み」に対しては同一の「単語読みID」が割り当てられている。「単語読み」は、単語の読みを示した情報である。「意味」は、単語を書き表した情報、つまり、単語表記である。つまり、同音異義語が存在する場合であっても、「単語読み」と「意味」とに基づいて、単語を特定することができる。
 「声調」は、対応する「意味」の標準的なアクセント(声調)の声調情報である。声調情報は、例えば、「単語読み」を構成する各音節文字(日本語の場合は、仮名文字、平仮名文字)のアクセント(声調)パターンである。本実施形態におけるアクセント(声調)パターンは、音節文字のアクセントが高いことを表す“↑”、音節文字のアクセントが低いことを表す“↓”、直前の音節文字に対してアクセント(声調)の高低の変化が無いことを表す“-”の3種類とする。しかしながら、これに限定されるものではなく、上記以外のバリエーションのアクセント(声調)パターンを用いてもよい。また、音声認識の対象とする言語に応じてその他の種類のアクセント(声調)パターンが用いられても良い。例えば、音声認識の対象とする言語が英語である場合には、高低アクセントパターンではなく、一例として、強弱アクセントパターンを用いることが可能である。
 「フラグ」は、対応する「単語読み」の単語に対して、標準的なアクセント(声調)以外で発音するユーザが存在するか否かを示すフラグである。「フラグ」は、登録処理部235(詳しくは後述)により管理されており、本実施形態においては、フラグ値“0”は標準的なアクセント(声調)以外で発音するユーザが存在しないことを示し、フラグ値“1”は標準的なアクセント(声調)以外で発音するユーザが存在することを示している。
 図9は、本実施形態における共通文辞書222の構成例を示す図である。本実施形態における共通文辞書222は、音声対話方式においてユーザが一般的に発話すると想定される文ごとに、その文が発話された場合に想定されるユーザの意図(文種別)が対応付けられて登録されている。本実施形態における共通文辞書222は、一例では、図9に示すように、各文が「単語」と「接続助詞」と「前段単語」と「後段単語」とに分割された状態で登録され、各文に対して「文種別」と「フラグ」が対応付けられている。なお、図9の例は、「単語」が“以外”の部分を抜粋した例である。なお、共通文辞書222に登録されている各文には、各文を一意に識別可能な識別子である文IDが対応付けられているものとする。このように、音声対話方式においてユーザが一般的に発話すると想定される各文を「単語」と「接続助詞」と「前段単語」と「後段単語」とに分割した状態で登録することで、不明瞭になりがちな接続助詞を前後関係で補完することも可能となる。よって、音声認識の精度を向上させることができる。
 「単語」は、単語特定部232などにより特定、又は、推測された単語の中から、任意に選択された単語(以下、注目単語という)である。「接続助詞」は、対応する「単語」に接続する接続助詞である。例えば、“中華以外のランチ”という文の注目単語を“以外”とした場合、「接続助詞」は“の”となる。
 「前段単語」は、注目単語より前の単語である。例えば、“中華以外のランチ”という文の注目単語を“以外”とした場合、「前段単語」は“中華”となる。なお、「前段単語」の欄の数字列は、分野・分類を表すコードである。「後段単語」は、「接続助詞」に続く単語である。例えば、“中華以外のランチ”という文の注目単語を“以外”とした場合、「後段単語」は“ランチ”となる。
 「フラグ」は、本実施形態においては、図9に示すように、「後段単語」ごとに対応付けられている。本フラグは、対応する「後段単語」を含む文の中に、標準的なイントネーション(音調)とは異なるイントネーション(音調)で発音される文が存在するか否かを示すフラグである。「フラグ」は、登録処理部235により管理されており、本実施形態においては、フラグ値“0”は標準的なイントネーション(音調)とは異なるイントネーション(音調)で発音される文が存在しないことを示し、フラグ値“1”は標準的なイントネーション(音調)とは異なるイントネーション(音調)で発音される文が存在することを示している。
 「文種別」は、対応する文に想定される、ユーザがその文を発話する際の目的(意図)の種別であり、「質問」、「確認」、「指示」、「否定」などが想定される。
 図10は、本実施形態における特有声調管理記憶部223の構成例を示す図である。特有声調管理記憶部223は、ユーザ特有のアクセント(声調)で発音される単語を、ユーザごとに管理している記憶部である。本実施形態における特有声調管理記憶部223は、一例では、図10に示すように、「ユーザID」ごとに、「単語読みID」と「意味」とが対応付けられている。特有声調管理記憶部223は登録処理部235により管理されており、「単語読みID」欄には、ユーザ特有のアクセント(声調)で発音される単語の単語読みIDが格納される。また、「意味」欄には、対応する「単語読みID」の単語読みを有する単語(同音異義語)の中で、ユーザ特有のアクセント(声調)で発音される単語(意義語)が格納される。
 図11は、本実施形態における音調管理記憶部224の構成例を示す図である。音調管理記憶部224は、「文種別」ごとに、標準的なイントネーション(音調)を管理している記憶部である。本実施形態における音調管理記憶部224は、一例では、図11に示すように、「文種別」ごとに「音調」が対応付けられている。「音調」欄には、対応する「文種別」の標準的なイントネーション(音調)の音調情報が格納されている。
 図12は、本実施形態における特有音調管理記憶部225の構成例を示す図である。特有音調管理記憶部225は、ユーザ特有のイントネーション(音調)で発音される文を、ユーザごとに管理している記憶部である。本実施形態における特有音調管理記憶部225は、一例では、図12に示すように、「ユーザID」ごとに、「文ID」が対応付けられている。特有音調管理記憶部225は登録処理部235により管理されており、「文ID」欄には、ユーザ特有のイントネーション(音調)で発音される文の文IDが格納される。
 図7に戻り、制御部23は、例えば、CPUなどを備えており、記憶部22のプログラムエリアに格納されている動作プログラムを実行して、図7に示すように、音声認識部231と、単語特定部232と、声調・音調検出部233と、文種別特定部234と、登録処理部235としての機能を実現する。また、制御部23は、動作プログラムを実行して、サーバ装置2全体を制御する制御処理や詳しくは後述の音声認識処理などの処理を実行する。
 ここで、制御部23の各機能部が果たす役割の概要について説明する。なお、詳細な役割については、後述する各種の処理の説明の中で説明することとする。
 音声認識部231は、既存の技術を用いて、受信した音声データを文字列に変換し、アクセント句を抽出する。例えば、音声の小さい途切れを検出することでアクセント句を抽出する。また、音声認識部231は、例えば、音声の大きい途切れ検出することで一文を抽出する。
 単語特定部232は、共通単語辞書221に基づいて、解析対象の文に含まれる各「単語読み」に対応する単語(意味)を特定、又は、推測する。この際、「単語読み」に対応する単語に同音異義語が存在する場合であっても、それらの同音異義語がユーザ特有のアクセント(声調)で発音されることがない場合には、単語特定部232は、標準的なアクセント(声調)に基づいて、同音異義語の中から、ユーザが意図する意味の単語を特定、又は、推測する。
 声調・音調検出部233は、解析対象の文の中に、同音異義語が存在する単語が含まれている場合に、同音異義語が存在する単語のアクセント(声調)パターンを検出する。また、声調・音調検出部233は、解析対象の文のイントネーション(音調)を検出する。文種別特定部234は、解析対象の文がユーザ特有のイントネーション(音調)で発音されることがない場合には、共通文辞書222に基づいて、解析対象の文の文種別を特定、又は、推測する。
 登録処理部235は、共通単語辞書221と共通文辞書222などを管理する処理部である。より具体的には、登録処理部235は、同音異義語の中に、標準的なアクセント(声調)とは異なるアクセント(声調)で発音されることがある同音異義語が存在することが検出された場合に、共通単語辞書221の対応するフラグのフラグ値を“1”に設定する。また、登録処理部235は、標準的なイントネーション(音調)とは異なるイントネーション(音調)で発音される文が存在することが検出された場合に、共通文辞書222の対応するフラグのフラグ値を“1”に設定する。
 また、登録処理部235は、ユーザが標準的なアクセント(声調)とは異なるアクセント(声調)で同音意義語を発音することが検出された場合に、その同音異義語と単語読みIDをユーザIDに対応付けて、特有声調管理記憶部223に格納する。また、登録処理部236は、ユーザが標準的なイントネーション(音調)とは異なるイントネーション(音調)で文を発音することが検出された場合に、その文の文IDをユーザIDに対応付けて、特有音調管理記憶部225に格納する。
 次に、図13乃至図15を参照して、本実施形態における情報端末装置1で実行される音声認識処理の流れについて説明する。図13乃至図15は、ぞれぞれ、本実施形態における情報端末装置1で実行される音声認識処理のフローを説明するためのフローチャートの例の第1部、第2部、第3部である。本音声認識処理は、例えば、音声認識用のアプリケーションが起動されることで開始される。
 音声入力処理部161は、表示部13を制御して、例えば、図5に例示するような音声入力画面を表示画面上に表示させる(ステップS001)。そして、音声入力処理部161は、音声入力がされたか否かを判定する(ステップS002)。音声入力処理部161により、音声入力がされていないと判定された場合には(ステップS002;NO)、処理はステップS002の処理を繰り返して、音声入力がされるのを待つ。一方、音声入力がされたと判定した場合には(ステップS002;YES)、音声入力処理部161は、入力された音声データをユーザIDと共に、通信部15を介して、サーバ装置2に送信する(ステップS003)。
 そして、対話処理部164は、音声解析結果を受信したか否かを判定する(ステップS004)。音声解析結果を受信したと判定した場合には(ステップS004;YES)、対話処理部164は、音声解析結果に基づいて、音声入力に対する応答文を生成する(ステップS005)。そして、出力処理部165は、例えば、応答文に基づいて応答画面を生成し、表示部13を制御して、生成した応答画面を表示画面上に表示させる(ステップS006)。
 そして、出力処理部165は、応答内容に誤りがないか否かを判定する(ステップS007)。例えば、応答画面を表示させた場合には、出力処理部165は、応答画面上のOKボタンが選択されたか否かを判定する。OKボタンが選択されたと判定した場合には(ステップS007;YES)、出力処理部165は、応答内容に誤りがないことを示す応答成功通知をサーバ装置2に送信する(ステップS008)。なお、応答成功通知には、ユーザIDが含まれている。
 そして、登録処理部166は、音声解析結果に推測情報が含まれているか否かを判定する(ステップS009)。推測情報が含まれていると判定した場合には(ステップS009;YES)、登録処理部166は、詳しくは後述の登録処理を実行する(ステップS010)。そして、処理はステップS001の処理へと戻り、前述の処理を繰り返す。なお、推測情報は、サーバ装置2において、共通単語辞書221と共通文辞書222とに基づく、単語及び/又は文種別の推測が行われたことを示す情報である。
 一方、推測情報は含まれていないと判定した場合には(ステップS009;NO)、登録処理部166は、更に、記憶部12のデータエリアに推測結果(選択した文種別)が保存されているか否かを判定する(ステップS011)。推測結果が保存されていると判定した場合には(ステップS011;YES)、登録処理部166は、推測結果の内容をユーザ特有文辞書122に登録する(ステップS012)。この場合、登録処理部166は、ユーザ特有文辞書122における推測結果(選択した文種別)に対応するフラグ値を“1”に設定すると共に、ユーザ特有文辞書122における対応する「音調」欄を、文種別解析要求に含まれる音調情報で更新する。そして、処理はステップS001の処理へと戻り、前述の処理を繰り返す。一方、登録処理部166により、推測結果は保存されていないと判定された場合には(ステップS011;NO)、処理はステップS001の処理へと戻り、前述の処理を繰り返す。
 ここで、文種別解析要求は、情報端末装置1に対して、ユーザ特有文辞書122に基づく文種別の解析を要求するための通知ある。ユーザが標準的なイントネーション(音調)以外のイントネーション(音調)で解析対象の文を発音することがある場合に、文種別解析要求は、サーバ装置2から対象ユーザの情報端末装置1に送信される。なお、文種別解析要求には、ユーザが音声入力したと推測される文とその文の文IDと対応する音調情報とが含まれている。
 ステップS004の処理において、対話処理部164により、音声解析結果を受信していないと判定された場合には(ステップS004;NO)、特有単語特定部162は、単語解析要求を受信したか否かを判定する(ステップS013)。
 ここで、単語解析要求は、情報端末装置1に対して、ユーザ特有単語辞書121に基づく単語(同音異義語が存在する単語)の解析を要求するための通知ある。解析対象の文の中に同音異義語が存在する単語に対応する「単語読み」が存在する場合であって、ユーザが標準的なアクセント(声調)以外のアクセント(声調)で、それらの同音異義語のいずれかを発音することがある場合に、単語解析要求は、サーバ装置2から対象ユーザの情報端末装置1に送信される。なお、単語解析要求には、解析要求対象の「単語読み」に対応する「単語読みID」と対応する声調情報とが含まれている。
 ステップS013の処理において、単語解析要求を受信したと判定した場合には(ステップS013;YES)、特有単語特定部162は、ユーザ特有単語辞書121を参照して、単語解析要求に基づいて、解析要求対象の「単語読み」に対応する単語を特定する(ステップS014)。より具体的には、特有単語特定部162は、ユーザ特有単語辞書121の「単語読みID」欄を検索して、単語解析要求に含まれる「単語読みID」と一致するエントリを特定する。そして、特有単語特定部162は、特定したエントリに対応する声調情報の中から、単語解析要求に含まれる声調情報と一致する単語(意味)を特定する。
 そして、特有単語特定部162は、全て特定できたか否かを判定する(ステップS015)。全て特定できたと判定した場合には(ステップS015;YES)、特有単語特定部162は、特定単語通知をサーバ装置に送信する(ステップS016)。そして、処理はステップS004の処理へと戻り、前述の処理を実行する。なお、特定単語通知は特定した単語を通知するための通知である。特定単語通知には、ユーザIDと、特定した単語と、が含まれている。
 一方、少なくとも一部特定できなかったと判定した場合には(ステップS015;YES)、特有単語特定部162は、単語推測要求をサーバ装置2に送信する(ステップS017)。そして、処理はステップS004の処理へと戻り、前述の処理を実行する。なお、単語推測要求は、特定できた単語を通知すると共に、共通単語辞書221に基づいて特定できなかった単語を推測するように要求するための通知である。単語推測要求には、ユーザIDと、特定した単語と、が含まれている。
 ここで、ステップS013の処理において、特有単語特定部162により、単語解析要求を受信していないと判定された場合には(ステップS013;NO)、特有文種別特定部163は、文種別解析要求を受信したか否かを判定する(ステップS018)。
 文種別解析要求を受信したと判定した場合には(ステップS018;YES)、特有文種別特定部163は、ユーザ特有文辞書122を参照して、文種別解析要求に基づいて、解析対象の文の文種別を特定する(ステップS019)。より具体的には、特有文種別特定部163は、ユーザ特有文辞書122の「文ID」欄を検索して、文種別解析要求に含まれる「文ID」と一致するエントリを特定する。そして、特有文種別特定部163は、特定したエントリに対応する音調情報の中から、文種別解析要求に含まれる音調情報と一致する文種別を特定する。
 そして、特有文種別特定部163は、特定できたか否かを判定する(ステップS020)。特定できなかったと判定した場合には(ステップS020;NO)、特有文種別特定部163は、更に、ユーザ特有文辞書122を参照して、文種別解析要求に基づいて、解析対象の文の文種別を推測する(ステップS021)。より具体的には、特有文種別特定部163は、ユーザ特有文辞書122の「文ID」欄を検索して、文種別解析要求に含まれる「文ID」と一致するエントリを特定する。そして、特有文種別特定部163は、特定したエントリに対応する文種別の中から、未選択の文種別を選択する。
 そして、特有文種別特定部163は、推測結果(選択した文種別)を記憶部12のデータエリアに一時的に保存する(ステップS022)。そして、特有文種別特定部163は、選択した文種別を含む音声解析結果を対話処理部164に出力する(ステップS023)。そして、処理はステップS005の処理へ進み、前述の処理を実行する。一方、ステップS020の処理において、特定できたと判定した場合には(ステップS020;YES)、特有文種別特定部163は、特定した文種別を含む音声解析結果を対話処理部164に出力する(ステップS023)。そして、処理はステップS005の処理へと進み、前述の処理を実行する。
 ここで、ステップS007の処理において、出力処理部165により、NGボタンが選択されたと判定された場合には(ステップS007;NO)、特有文種別特定部163は、保存されている推測結果を削除し(ステップS024)、文種別解析を行ったか否かを判定する(ステップS025)。文種別解析を行っていないと判定した場合には(ステップS025;NO)、特有文種別特定部163は、再解析要求をサーバ装置2に送信する(ステップS026)。そして、処理はステップS004の処理へと戻り、前述の処理を実行する。なお、再解析要求は、共通単語辞書221と共通文辞書222とに基づく音声データの再解析を要求するための通知であり、再解析要求には、ユーザIDが含まれている。
 一方、文種別解析を行ったと判定した場合には(ステップS025;YES)、特有文種別特定部163は、更に、未選択の文種別が有るか否かを判定する(ステップS027)。特有文種別特定部163により、未選択の文種別は無いと判定された場合には(ステップS027;NO)、処理はステップS026の処理へと進む。一方、未選択の文種別が有る判定した場合には(ステップS027;YES)、特有文種別特定部163は、未選択の文種別を選択する(ステップS028)。
 そして、特有文種別特定部163は、推測結果(選択した文種別)を記憶部12のデータエリアに一時的に保存する(ステップS029)。そして、特有文種別特定部163は、選択した文種別を含む音声解析結果を対話処理部164に出力する(ステップS030)。そして、処理はステップS005の処理へ進み、前述の処理を実行する。
 次に、図16を参照して、本実施形態における情報端末装置1で実行される登録処理の流れについて説明する。図16は、本実施形態における登録処理のフローを説明するためのフローチャートの例である。本登録処理は、上述の音声認識処理にステップS010の処理に対応する処理である。
 登録処理部166は、推測内容要求をサーバ装置2に送信する(ステップS101)。推測内容要求は、共通単語辞書221と共通文辞書222とに基づく、単語及び/又は文種別の推測結果の内容を要求するための通知である。応答内容に誤りがないとされた音声解析結果に推測情報が含まれている場合、あるいは、推測情報を含む文種別解析要求に基づく音声解析結果に対応した応答内容に誤りがないとされた場合に、推測内容要求は、サーバ装置2に送信される。なお、推測内容要求には、ユーザIDが含まれている。
 そして、登録処理部166は、推測内容通知を受信したか否かを判定する(ステップS102)。推測内容通知は、推測内容要求に応答して、サーバ装置2から送信される通知であり、推測結果の内容を通知するための通知である。推測内容通知には、サーバ装置2での推測結果の内容が含まれている。例えば、応答内容に誤りが無いとされた音声解析結果の文に含まれる単語の中に、サーバ装置2で推測された同音異義語が有る場合には、サーバ装置2で推測された同音異義語と対応する「単語読みID」と対応する声調情報とが、推測内容通知に含まれる。また、例えば、応答内容に誤りが無いとされた音声解析結果の文の文種別が、サーバ装置2で推測された場合には、応答内容に誤りが無いとされた音声解析結果の文の文IDと、文IDに対応付けられている文種別と、応答内容に誤りが無いとされた音声解析結果の文の文種別と、対応する音調情報とが、推測内容通知に含まれる。
 登録処理部166により、推測内容通知を受信していないと判定された場合には(ステップS102;NO)、処理はステップS102の処理を繰り返して、推測内容通知の受信を待つ。一方、推測内容通知を受信したと判定した場合には(ステップS102;YES)、登録処理部166は、推測内容通知に含まれる推測結果の内容をユーザ特有単語辞書121及び/又はユーザ特有文辞書122に登録する(ステップS103)。そして、本処理は終了して、上述の音声認識処理のステップS001の処理へと移行する。
 次に、図17を参照して、本実施形態におけるサーバ装置2で実行される音声認識処理の流れについて説明する。図17は、本実施形態におけるサーバ装置2で実行される音声認識処理のフローを説明するためのフローチャートの例である。本音声認識処理は、音声データの受信をトリガとして開始される。
 音声認識部231は、音声データを受信したか否かを判定する(ステップS201)。音声認識部231により、音声データを受信していないと判定された場合には(ステップS201;NO)、処理はステップS201の処理を繰り返して、音声データの受信を待つ。一方、音声データを受信したと判定した場合には(ステップS201;YES)、音声認識部231は、受信した音声データを文字列に変換し、文字列をアクセント句に分割する(ステップS202)。
 そして、単語特定部232は、声調・音調検出部233と連係して、単語解析処理を実行し、共通単語辞書221に基づいて、解析対象の文に含まれる各単語を特定、又は、推測する(ステップS203)。そして、声調・音調検出部233は、解析対象の文のイントネーション(音調)を検出する(ステップS204)。そして、文種別特定部234は、文種別解析処理を実行して、共通文辞書222に基づいて、解析対象の文の種別を特定、又は、推測する(ステップS205)。
 そして、文種別特定部234は、再解析要求を受信したか否かを判定する(ステップS206)。再解析要求を受信していないと判定した場合には(ステップS206;NO)、文種別特定部234は、更に、応答成功通知を受信したか否かを判定する(ステップS207)。文種別特定部234により、応答成功通知を受信したと判定された場合には(ステップS207;YES)、応答成功通知に含まれるユーザIDに対応する音声認識処理を終了する。
 一方、文種別特定部234により、応答成功通知を受信していないと判定された場合には(ステップS207;NO)、処理はステップS206の処理へと戻り、前述の処理を繰り返す。ステップS206の処理において、再解析要求を受信したと判定した場合には(ステップS206;YES)、文種別特定部234は、更に、未選択の文種別が有るか否かを判定する(ステップS208)。
 未選択の文種別は無いと判定した場合には(ステップS208;NO)、文種別特定部234は、更に、解析対象の文に含まれる単語の中に同音異義語が存在する単語が有り、未選択の同音異義語が有る否かを判定する(ステップS209)。文種別特定部234により、未選択の同音異義語は無いと判定された場合には(ステップS209;NO)、処理はステップS202の処理へと戻り、前述の処理を実行する。一方、未選択の同音異義語が有ると判定した場合には(ステップS209;YES)、文種別特定部234は、単語特定部232と連係して、再解析処理を実行する(ステップS210)。そして、処理はステップS206の処理へと戻り、前述の処理を繰り返す。
 一方、ステップS208の処理において、未選択の文種別が有ると判定された場合には(ステップS208;YES)、文種別特定部234は、単語特定部232と連係して、再解析処理を実行する(ステップS210)。そして、処理はステップS206の処理へと戻り、前述の処理を実行する。
 次に、図18乃至図20を参照して、本実施形態における単語解析処理の流れについて説明する。図18乃至図20は、それぞれ、本実施形態における単語解析処理のフローを説明するためのフローチャートの例の第1部、第2部、第3部である。本単語解析処理は、サーバ装置2で実行される音声認識処理のステップS203の処理に対応する処理である。
 単語特定部232は、解析対象の文の各アクセント句を、単語と接続助詞とに分割する(ステップS301)。そして、単語特定部232は、共通単語辞書221に基づいて、解析対象の文に含まれる各「単語読み」に対応する単語(意味)を、それぞれ、特定する(ステップS302)。より具体的には、単語特定部232は、共通単語辞書221の「単語読み」欄を検索して、処理対象の「単語読み」と一致するエントリを特定する。そして、単語特定部232は、特定したエントリの「意味」欄に登録されている単語が一つである場合には、同音異義語が存在しない単語なので、処理対象の「単語読み」に対応する単語として、特定したエントリの「意味」欄に登録されている単語を特定する。
 そして、単語特定部232は、解析対象の文に含まれる各「単語読み」に対応する単語(意味)を全て特定できたか否かを判定する(ステップS303)。全て特定できたと判定した場合には(ステップS303;YES)、単語特定部232は、特定(又は、推測)した単語の中から注目単語を任意に選択する(ステップS304)。そして、本処理は終了し、サーバ装置2で実行される音声認識処理のステップS204の処理へと移行する。
 ステップS303の処理において、特定できなかった「単語読み」が有ると判定した場合には(ステップS303;NO)、単語特定部232は、特定できなかった「単語読み」の中に、同音異義語に対応する「単語読み」が有るか否かを判定する(ステップS305)。単語特定部232により、同音異義語に対応する「単語読み」は無いと判定された場合には(ステップS305;NO)、処理は後述のステップS320の処理へと進む。
 一方、単語特定部232により、同音異義語に対応する「単語読み」が有ると判定された場合には(ステップS305;YES)、声調・音調検出部233は、同音異義語に対応する「単語読み」のアクセント(声調)を検出する(ステップS306)。そして、単語特定部232は、対応するフラグ値が“1”の同音異義語に対応する「単語読み」が有るか否かを判定する(ステップS307)。
 対応するフラグ値が“1”の同音異義語に対応する「単語読み」は無いと判定した場合には(ステップS307;NO)、単語特定部232は、同音異義語に対応する「単語読み」に対し、共通単語辞書221に基づいて、対応する声調情報が検出された声調と一致する単語を特定する(ステップS308)。より具体的には、単語特定部232は、共通単語辞書221の「単語読み」欄を検索して、同音異義語に対応する「単語読み」のエントリを特定する。そして、単語特定部232は、特定したエントリの意味(同音異義語)の中から、対応する声調情報が、検出した声調(つまり、声調情報)と一致する意味(意義語)を特定する。なお、同音異義語に対応する「単語読み」が複数有る場合には、上述の処理が、それぞれに対して実行される。
 そして、単語特定部232は、同音異義語に対応する「単語読み」の単語(異義語)が全て特定できたか否かを判定する(ステップS309)。単語特定部232により、同音異義語が全て特定できたと判定された場合には(ステップS309;YES)、処理は後述のステップS319の処理へと進む。
 一方、単語特定部232により、特定できなかった同音異義語に対応する「単語読み」があると判定した場合には(ステップS309;NO)、単語特定部232は、特定できなかった同音異義語に対応する「単語読み」に対し、共通単語辞書221に基づいて、対応する声調情報が検出された声調に最も似ている単語を選択する(ステップS310)。より具体的には、単語特定部232は、共通単語辞書221の「単語読み」欄を検索して、特定できなかった同音異義語に対応する「単語読み」のエントリを特定する。そして、単語特定部232は、特定したエントリの意味(異義語)の中から、対応する声調情報が、検出した声調に最も似ている意味(意義語)を選択する。なお、特定できなかった同音異義語に対応する「単語読み」が複数有る場合には、上述の処理が、それぞれに対して実行される。
 そして、単語特定部232は、推測結果(選択した同音異義語)をユーザIDと対応付けて、記憶部22のデータエリアに一時的に保存する(ステップS311)。そして、処理はステップS304の処理へと進み、前述の処理を実行する。
 ステップS307の処理において、対応するフラグ値が“1”の同音異義語に対応する「単語読み」が有ると判定した場合には(ステップS307;YES)、単語特定部232は、対応するフラグ値が“1”の「単語読み」に対応する同音異義語の中から、特有声調管理記憶部223に登録されている単語と一致する同音異義語を抽出する(ステップS312)。そして、単語特定部232は、抽出できたか否かを判定する(ステップS313)。単語特定部232により、抽出できなかったと判定された場合には(ステップS313;NO)、処理は後述のステップS315の処理へと進む。
 一方、抽出できたと判定した場合には(ステップS313;YES)、単語特定部232は、音声データを送信した情報端末装置1に、単語解析要求を送信する(ステップS314)。この際の単語解析要求には、抽出した同音異義語の「単語読み」に対応する「単語読みID」と対応する声調情報とが含まれる。このような場合に単語解析要求を情報端末装置1に送信するのは、特有声調管理記憶部223に登録されている「単語読み」の単語はユーザ特有のアクセント(声調)で発音されるからである。
 そして、単語特定部232は、特定単語通知を受信したか否かを判定する(ステップS315)。特定単語通知を受信していないと判定した場合には(ステップS315;NO)、単語特定部232は、更に、単語推測要求を受信したか否かを判定する(ステップS316)。単語特定部232により、単語推測要求も受信していないと判定された場合には(ステップS316;NO)、処理はステップS315の処理へと戻り、前述の処理を繰り返す。
 一方、特定単語通知を受信したと判定した場合には(ステップS315;YES)、単語特定部232は、抽出できなかった「単語読み」に対し、共通単語辞書221に基づいて、対応する声調情報が検出された声調と一致する単語を特定する(ステップS317)。より具体的には、単語解析要求の対象となった全ての「単語読み」に対し、ユーザ特有単語辞書121に基づく単語の特定(あるいは、共通単語辞書221に基づく単語の特定、又は、推測)ができたので、単語特定部232は、共通単語辞書221の「単語読み」欄を検索して、抽出できなかった「単語読み」のエントリを特定する。そして、単語特定部232は、特定したエントリの意味(異義語)の中から、対応する声調情報が、検出した声調(つまり、声調情報)と一致する意味(意義語)を特定する。なお、抽出できなかった「単語読み」が複数有る場合には、上述の処理が、それぞれに対して実行される。
 そして、単語特定部232は、抽出できなかった「単語読み」に対し、単語を全て特定できたか否かを判定する(ステップS318)。単語特定部232により、単語が特定できなかった「単語読み」が有ると判定された場合には(ステップS318;NO)、処理はステップS310の処理へと進み、前述の処理を実行する。一方、抽出できなかった「単語読み」に対し、単語を全て特定できたと判定した場合には(ステップS318;YES)、単語特定部232は、更に、解析対象の文に含まれる「単語読み」の中に、単語が特定されていない「単語読み」が有るか否かを判定する(ステップS319)。単語特定部232により、単語が特定されていない「単語読み」は無いと判定された場合には(ステップS319;NO)、処理はステップS304の処理へと進み、前述の処理を実行する。
 一方、単語が特定されていない「単語読み」が有ると判定した場合には(ステップS319;YES)、単語特定部232は、単語が特定されていない「単語読み」に対し、共通単語辞書221に基づいて、最適な単語を推測する(ステップS320)。この場合、解析対象の文に含まれる「単語読み」の中に、共通単語辞書221に登録されている「単語読み」と一致しない「単語読み」が存在するということなので、単語特定部232は、例えば、そのような「単語読み」に対し、共通単語辞書221に基づいて、「単語読み」が最も似ている単語を推測する。そして、処理はステップS304の処理へと進み、前述の処理を実行する。
 ここで、ステップS316の処理において、単語推測要求を受信したと判定した場合には(ステップS316;YES)、単語特定部232は、単語解析要求の対象となった「単語読み」の中で単語推測要求に含まれる単語以外の「単語読み」に対し、共通単語辞書221に登録されている同音異義語から特有声調管理記憶部223に登録されている同音異義語を除いた同音異義語の中から、対応する声調情報が検出された声調と一致する同音異義語を特定する(ステップS321)。例えば、図8と図10を参照して、単語解析要求の対象となった「単語読み」の中で単語推測要求に含まれる単語以外の「単語読み」が“イガイ”であり、ユーザのユーザIDが“UID0001”であるとした場合、特有声調管理記憶部223には、「単語読み」が“イガイ”である単語(意外と以外)が登録されている。また、共通単語辞書221に登録されている「単語読み」が“イガイ”である単語は、意外、以外、遺骸、貽貝、固有名詞1である。したがって、この場合、単語特定部232は、遺骸、貽貝、固有名詞1の中から、対応する声調情報が検出された声調と一致する単語(異義語)を特定する。
 そして、単語特定部232は、特定できたか否かを判定する(ステップS322)。単語特定部232により、特定できたと判定された場合には(ステップS322;YES)、処理はステップS317の処理へと進み、前述の処理を実行する。一方、特定できなかったと判定した場合には(ステップS322;NO)、単語特定部232は、単語を特定できなかった「単語読み」に対し、共通単語辞書221に登録されている同音異義語から、特有声調管理記憶部223に登録されている同音異義語を除いた同音異義語の中から、同音異義語を選択する(ステップS323)。そして、単語特定部232は、推測結果(選択した同音異義語)をユーザIDと対応付けて、記憶部22のデータエリアに一時的に保存する(ステップS324)。そして、処理はステップS317の処理へと進み、前述の処理を実行する。
 次に、図21と図22を参照して、本実施形態における文種別特定処理の流れについて説明する。図21と図22は、それぞれ、本実施形態における文種別解析処理のフローを説明するためのフローチャートの例の一部と、他の一部である。本文種別特定処理は、サーバ装置2で実行される音声認識処理のステップS205の処理に対応する処理である。
 文種別特定部234は、共通文辞書222を参照して、特定、又は、推測された単語で構成された解析対象の文と一致する文を特定する(ステップS401)。より具体的には、文種別特定部234は、共通文辞書222の「単語」欄を検索して、注目単語と一致する単語のエントリを特定する。そして、文種別特定部234は、特定したエントリに登録されている文の中から、解析対象の文と一致する文を特定する。この際、特定したエントリに登録されている文の中から、解析対象の文と一致する文が特定できない場合であって、解析対象の文に含まれる単語読みに対応する単語の中に、同音異義語が存在する単語が有る場合には、未選択の同音異義語の中から、同音異義語を再選択する処理を、解析対象の文と一致する単語(異義語)が特定できるまで繰り返す。こうすることで、音声対話方式においてユーザが一般的に発話すると想定されている文を特定することができ、音声認識の精度を向上させることができる。
 そして、文種別特定部234は、特定した文の「後段単語」に対応付けられているフラグ値が“1”であるか否かを判定する(ステップS402)。特定した文の「後段単語」に対応付けられているフラグ値が“1”であると判定した場合には(ステップS402;YES)、文種別特定部234は、特定した文を特有音調管理記憶部225に登録されている文と照合する(ステップS403)。より具体的には、文種別特定部234は、特有音調管理記憶部225の「ユーザID」欄を検索して、音調データと共に受信したユーザIDと一致するエントリを特定する。そして、文種別特定部234は、特定した文の文IDを、特定したエントリに登録されている文IDと照合する。
 そして、文種別特定部234は、照合できたか否かを判定する(ステップS404)。文種別特定部234により、照合できなかったと判定された場合には(ステップS404;NO)、処理は後述のステップS408の処理へと進む。一方、照合できたと判定した場合には(ステップS404;YES)、文種別特定部234は、更に、解析対象の文の中に推測された単語が含まれているか否かを判定する(ステップS405)。
 解析対象の文の中に推測された単語が含まれていると判定した場合には(ステップS405;YES)、文種別特定部234は、推測情報を含む文種別解析要求を送信する(ステップS406)。そして、本処理は終了して、サーバ装置2で実行される音声認識処理のステップS206の処理へと移行する。一方、解析対象の文の中に推測された単語は含まれていないと判定した場合には(ステップS405;NO)、文種別特定部234は、推測情報を含まない文種別解析要求を送信する(ステップS407)。同様に、本処理は終了して、サーバ装置2で実行される音声認識処理のステップS206の処理へと移行する。このような場合に文種別解析要求を情報端末装置1に送信するのは、特有音調管理記憶部225に登録されている文はユーザ特有のイントネーション(音調)で発音される場合があるからである。
 ステップS402の処理において、特定した文の「後段単語」に対応付けられているフラグ値は“1”ではないと判定した場合には(ステップS402;NO)、文種別特定部234は、共通文辞書221に基づいて、解析対象の文の文種別を特定する(ステップS408)。より具体的には、文種別特定部234は、音調管理記憶部224を参照して、特定した文に対応付けられている文種別の中から、対応する音調情報が検出されたイントネーション(音調)と一致する文種別を特定する。
 そして、文種別特定部234は、特定できたか否かを判定する(ステップS409)。特定できたと判定した場合には(ステップS409;YES)、文種別特定部234は、更に、解析対象の文の中に推測された単語が含まれているか否かを判定する(ステップS410)。
 解析対象の文の中に推測された単語が含まれていると判定した場合には(ステップS410;YES)、文種別特定部234は、推測情報を含む音声解析結果を送信する(ステップS411)。そして、本処理は終了して、サーバ装置2で実行される音声認識処理のステップS206の処理へと移行する。一方、解析対象の文の中に推測された単語は含まれていないと判定した場合には(ステップS410;NO)、文種別特定部234は、推測情報を含まない音声解析結果を送信する(ステップS412)。同様に、本処理は終了して、サーバ装置2で実行される音声認識処理のステップS206の処理へと移行する。
 ステップS409の処理において、特定できなかったと判定した場合には(ステップS409;NO)、文種別特定部234は、共通文辞書221に基づいて、解析対象の文の文種別を推測する(ステップS413)。より具体的には、文種別特定部234は、音調管理記憶部224を参照して、特定した文に対応付けられている文種別の中から、対応する音調情報が検出されたイントネーション(音調)と最も似ている文種別を選択する。あるいは、文種別特定部234は、特定した文に対応付けられている文種別の中から、未選択の文種別を選択してもよい。
 そして、文種別特定部234は、推測結果(選択した文種別)をユーザIDと対応付けて、記憶部22のデータエリアに一時的に保存し(ステップS414)、推測情報を含む音声解析結果を情報端末装置1に送信する(ステップS415)。そして、本処理は終了して、サーバ装置2で実行される音声認識処理のステップS206の処理へと移行する。
 次に、図23を参照して、本実施形態における再解析処理の流れについて説明する。図23は、本実施形態における再解析処理のフローを説明するためのフローチャートの例である。本再解析処理は、サーバ装置2で実行される音声認識処理のステップS210の処理に対応する処理である。
 文種別特定部234は、特定した文に対応付けられている文種別の内で未選択の文種別が有るか否かを判定する(ステップS501)。特定した文に対応付けられている文種別の内で未選択の文種別が有ると判定した場合には(ステップS501;YES)、文種別特定部234は、共通文辞書222に基づいて、特定した文に対応付けられている文種別の中から、未選択の文種別を推測する(ステップS502)。より具体的には、文種別特定部234は、音調管理記憶部224を参照して、特定した文に対応付けられている文種別の内で未選択の文種別の中から、対応する音調情報が検出されたイントネーション(音調)と最も似ている文種別を選択する。あるいは、文種別特定部234は、特定した文に対応付けられている文種別の中から、未選択の文種別を選択してもよい。
 そして、文種別特定部234は、推測結果(選択した文種別)をユーザIDと対応付けて、記憶部22のデータエリアに一時的に保存し(ステップS503)、推測情報を含む音声解析結果を情報端末装置1に送信する(ステップS504)。そして、本処理は終了して、サーバ装置2で実行される音声認識処理のステップS206の処理へと移行する。
 ステップS501の処理において、文種別特定部234により、特定した文に対応付けられている文種別の内で未選択の文種別は無いと判定された場合には(ステップS501;NO)、単語特定部232は、共通単語辞書221に基づいて、未選択の同音異義語の中から単語(異義語)を推測する(ステップS505)。より具体的には、単語特定部232は、未選択の同音異義語の中から、対応する声調情報が検出された声調に最も似ている同音異義語を選択する。
 そして、単語特定部232は、推測結果(選択した同音異義語)をユーザIDと対応付けて、記憶部22のデータエリアに一時的に保存し(ステップS506)、注目単語を任意に選択する(ステップS507)。この際、単語特定部232は、注目単語として、前回選択した単語が存在する場合には、前回選択した単語を選択する。そして、文種別特定部234は、声調・音調検出部233と連係して、上述の文種別解析処理を実行する(ステップS508)。そして、本処理は終了して、サーバ装置2で実行される音声認識処理のステップS206の処理へと移行する。
 次に、図24を参照して、本実施形態における推測内容送信処理の流れについて説明する。図24は、本実施形態における推測内容送信処理のフローを説明するためのフローチャートの例である。本推測内容送信処理は、推測内容要求の受信をトリガとして開始される。
 登録処理部235は、推測内容要求を受信したか否かを判定する(ステップS601)。登録処理部235により、推測内容要求を受信していないと判定された場合には(ステップS601;NO)、処理はステップS601の処理を繰り返して、推測内容要求の受信を待つ。一方、推測内容要求を受信したと判定した場合には(ステップS601;YES)、登録処理部235は、推測内容通知を情報端末装置1に送信する(ステップS602)。
 そして、登録処理部235は、推測結果の内容に応じた登録処理を行い(ステップS603)、処理対象の音声データに対応する推測結果を記憶部22のデータエリアから削除する(ステップS604)。そして、処理はステップS601の処理へと戻り、前述の処理を繰り返す。
 なお、単語特定部232による同音異義語の推測精度を向上させるために、種々の既存の技術を適用してもよい。例えば、同音異義語を推測する際に、単語特定部232は、類語相違の最強調部分を含む声調情報の同音異義語から、単語(異義語)を選択するようにしてもよい。図25は、この場合の共通単語辞書221の例を示す図である。また、例えば、同音異義語を推測する際に、単語を構成する各音節文字(日本語の場合は、仮名文字、平仮名文字)を発音する際の標準的な周波数が用いられてもよい。図26は、この場合の共通単語辞書221の例を示す図である。
 次に、ユーザが“中華以外のランチ”と音声入力した場合の具体例にしたがって、上述したフローチャートなどを参照し、音声認識システム全体における音声認識処理の概略的な流れについて、更に、説明する。
 ユーザが、“中華以外のランチ”と、情報端末装置1に音声入力すると、情報端末装置1は、対応する音声データをサーバ装置2に送信する。サーバ装置2は、音声データを受信すると、音声データを文字列“チュウカイガイノランチ”に変換し、更に、文字列を、“チュウカ”,“イガイ”,“ノ”,“ランチ”に分割する。
 そして、サーバ装置2は、共通単語辞書221に基づいて、各単語読み、つまり、“チュウカ”,“イガイ”,“ランチ”に対応する意味(単語)を特定する。ここで、単語読みが“イガイ”の単語に同音異義語(例えば、意外、以外、遺骸、貽貝、固有名詞1)が存在し、特有声調管理記憶部223にその同音異義語(例えば、意外と以外)が登録されているとする。この場合、サーバ装置2は、単語読み“チュウカ”の声調を検出し、情報端末装置1側で単語読み“イガイ”の単語解析を行わせるために、単語解析要求を送信する。
 情報端末装置1は、単語解析要求を受信すると、ユーザ特有単語辞書121(図3に例示)に基づいて、単語読み“イガイ”の単語を特定する。ここで、単語読み“イガイ”の音声データにおける声調情報が(↑↓↓)であるとすると、情報端末装置1は、単語“以外”を特定する。そして、情報端末装置1は、特定単語通知をサーバ装置2に送信し、特定した単語“以外”を通知する。ここで、図8を参照すると、単語読み“イガイ”の一般的な声調情報は(↑↓―)であるため、単語読み“イガイ”の音声データにおける声調情報が(↑↓↓)である場合、共通単語辞書221に基づいて、単語“以外”を特定することができないことが分かる。
 一方、残りの単語読み“チュウカ”と“ランチ”に対して、サーバ装置2は、共通単語辞書221に基づく単語の特定を行う。ここで、単語読みが“チュウカ”の単語は“中華”のみであり、単語読みが“ランチ”の単語は“ランチ”(昼食)のみであるとすると、サーバ装置2は、単語読み“チュウカ”に対して単語“中華”を、単語読み“ランチ”に対して単語“ランチ”(昼食)を特定する。
 そして、サーバ装置2は、単語(“中華”、“以外”、“ランチ”)の中から、注目単語を選択する。ここで、サーバ装置2は、単語“以外”を注目単語として選択したとする。この場合、サーバ装置2は、共通文辞書222の「単語」欄を検索して、注目単語“以外”のエントリを特定し、特定したエントリに登録されている文の中から、文“中華以外のランチ”と一致する文を特定する。ここで、図9を参照して、特定した文の後段単語“ランチ”に対応付けられているフラグ値が“1”であることから、文“中華以外のランチ”がユーザ特有のイントネーション(音調)で発音されることがあることが分かる。また、ユーザIDが“UID0001”、文“中華以外のランチ”の文IDが“SID00001”であるとする。この場合、特有音調管理記憶部225(図12に例示)のユーザID“UID0001”のエントリには、文ID“SID00001”が登録されていることから、サーバ装置2は、文“中華以外のランチ”の文種別を情報端末装置1で特定させるために、文種別解析要求を情報端末装置1に送信する。
 そして、情報端末装置1は、文種別解析要求を受信すると、ユーザ特有文辞書122に基づいて、文“中華以外のランチ”の文種別を特定する。ここで、文種別解析要求に含まれる音調情報が“音調11”であるとすると、情報端末装置1は、文種別“質問”を特定する。そして、情報端末装置1は、文“中華以外のランチ”と文種別“質問”を、音声解析結果として、対応する応答文を生成する。文“中華以外のランチ”と文種別“質問”により、情報端末装置1は、文“中華以外のランチ”を目的語としてとらえることができるため、中華以外のランチを食べることができる場所を案内するような応答文を生成することが可能となる。例えば、情報端末装置1がカーナビゲーションである場合には、位置情報に基づいて、例えば、応答文“中華以外のランチでは500m直進でステーキ屋が開店しています”を生成することができる。このように、音声入力された文の文種別を特定(又は、推測)することができるので、文“中華以外のランチを食べれるレストランを検索する”のように、動詞まで含む形で音声入力されるのではなく、文“中華以外のランチ”のように動詞が省略された形で音声入力されたとしても、音声対話を成立させることができる。ここで、図11を参照すると、文種別“質問”の標準的な音調は“音調01”である。したがって、共通文辞書222に基づいて、文“中華以外のランチ”の文種別として文種別“質問”を特定することができないことが分かる。
 以上に説明したように、ユーザ特有のアクセント(声調)で発音される同音異義語の関する声調情報を情報端末装置1側で保持することで、ユーザ特有のアクセント(声調)で発音される同音異義語を正確に特定することが可能となる。つまり、ユーザのなまりやユーザ特有のくせなどを考慮した音声認識が可能となる。また、ユーザ特有のイントネーション(音調)で発音される文の関する文種別の音調情報を情報端末装置1側で保持することで、ユーザ特有のイントネーション(音調)で発音される文の文種別を正確に特定することが可能となる。したがって、音声認識の精度を向上させることができる。また、情報端末装置1に処理を分散させることで、サーバ装置2の処理負荷を軽減させることができる。
 上記実施形態によれば、情報端末装置1は、入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、同音異義語が存在する単語の音声データにおけるアクセント(声調)に基づいて、同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する。そして、情報端末装置1は、文を構成する単語の中に同音異義語が存在する単語が有る場合に、文の音声データにおけるイントネーション(音調)に基づいて、サーバ装置2により特定された単語と情報端末装置1が特定した同音異義語とにより構成される文に対する、応答文を生成する。これにより、ユーザのなまりやユーザ特有のくせなどを考慮した音声認識が可能となると共に、情報端末装置1とサーバ装置2に処理を分散することで、一の装置(例えば、サーバ装置2)で全ての処理を行う場合と比較して、装置の処理負荷を軽減することが可能となる。
 また、上記実施形態によれば、情報端末装置1は、同音異義語のユーザのアクセント(声調)が標準的なアクセント(声調)とは異なることが検出された際に、同音異義語のユーザのアクセント(声調)を当該同音異義語に対応付けてユーザ特有単語辞書121に登録する。これにより、ユーザ特有のアクセント(声調)で発音される同音異義語が蓄積されていくので、使用される程、音声認識の精度を向上させることができる。よって、音声認識の失敗により繰り返される処理を軽減させることができる。
 また、上記実施形態によれば、情報端末装置1は、入力された音声データに基づいて特定される文のユーザの音調が、同一の文種別で当該文を発話した際の標準的な音調とは異なることが検出された際に、音声データにおける音調を文種別と対応付けて、ユーザ特有文辞書122に登録する。これにより、ユーザ特有のイントネーション(音調)で発音される文が蓄積されていくので、使用される程、音声認識の精度を向上させることができる。よって、音声認識の失敗により繰り返される処理を軽減させることができる。
 図27は、本実施形態における情報端末装置1のハードウェア構成の例を示す図である。図2に示す情報端末装置1は、例えば、図27に示す各種ハードウェアにより実現されてもよい。図27の例では、情報端末装置1は、CPU201、RAM202、ROM203、フラッシュメモリ204、オーディオインターフェース205、通信モジュール206、読取装置207を備え、これらのハードウェアはバス208を介して接続されている。
 CPU201は、例えば、フラッシュメモリ204に格納されている動作プログラムをRAM202にロードし、RAM202をワーキングメモリとして使いながら各種処理を実行する。CPU201は、動作プログラムを実行することで、図2に示す制御部16の各機能部を実現することができる。
 なお、上記動作を実行するための動作プログラムを、フレキシブルディスク、Compact Disk-Read Only Memory(CD-ROM)、Digital Versatile Disk(DVD)、Magneto Optical disk(MO)などのコンピュータで読み取り可能な記録媒体209に記憶して配布し、これを情報端末装置1の読取装置207で読み取ってコンピュータにインストールすることにより、上述の処理を実行するようにしてもよい。さらに、インターネット上のサーバ装置が有するディスク装置等に動作プログラムを記憶しておき、通信モジュール206を介して、情報端末装置1のコンピュータに動作プログラムをダウンロード等するものとしてもよい。
 なお、実施形態に応じて、RAM202、ROM203、フラッシュメモリ204以外の他の種類の記憶装置が利用されてもよい。例えば、情報端末装置1は、Content
 Addressable Memory(CAM)、Static Random Access Memory(SRAM)、Synchronous Dynamic Random Access Memory(SDRAM)などの記憶装置を有してもよい。
 なお、実施形態に応じて、情報端末装置1のハードウェア構成は図27とは異なっていてもよく、図27に例示した規格・種類以外のその他のハードウェアを情報端末装置1に適用することもできる。
 例えば、図2に示す情報端末装置1の制御部16の各機能部は、ハードウェア回路により実現されてもよい。具体的には、CPU201の代わりに、Field Programmable Gate Array(FPGA)などのリコンフィギュラブル回路や、Application Specific Integrated Circuit(ASIC)などにより、図2に示す制御部16の各機能部が実現されてもよい。もちろん、CPU201とハードウェア回路の双方により、これらの機能部が実現されてもよい。
 図28は、本実施形態におけるサーバ装置2のハードウェア構成の例を示す図である。図7に示すサーバ装置2は、例えば、図28に示す各種ハードウェアにより実現されてもよい。図28の例では、サーバ装置2は、CPU301、RAM302、ROM303、HDD304、通信モジュール305、読取装置306を備え、これらのハードウェアはバス307を介して接続されている。
 CPU301は、例えば、HDD304に格納されている動作プログラムをRAM302にロードし、RAM302をワーキングメモリとして使いながら各種処理を実行する。CPU301は、動作プログラムを実行することで、図7に示す制御部23の各機能部を実現することができる。
 なお、上記動作を実行するための動作プログラムを、フレキシブルディスク、CD-ROM、DVD、MOなどのコンピュータで読み取り可能な記録媒体308に記憶して配布し、これをサーバ装置2の読取装置306で読み取ってコンピュータにインストールすることにより、上述の処理を実行するようにしてもよい。さらに、インターネット上のサーバ装置が有するディスク装置等に動作プログラムを記憶しておき、通信モジュール305を介して、サーバ装置2のコンピュータに動作プログラムをダウンロード等するものとしてもよい。
 なお、実施形態に応じて、RAM302、ROM303、HDD304以外の他の種類の記憶装置が利用されてもよい。例えば、サーバ装置2は、CAM、SRAM、SDRAMなどの記憶装置を有してもよい。
 なお、実施形態に応じて、サーバ装置2のハードウェア構成は図28とは異なっていてもよく、図28に例示した規格・種類以外のその他のハードウェアをサーバ装置2に適用することもできる。
 例えば、図7に示すサーバ装置2の制御部23の各機能部は、ハードウェア回路により実現されてもよい。具体的には、CPU301の代わりに、FPGAなどのリコンフィギュラブル回路や、ASICなどにより、図7に示す制御部23の各機能部が実現されてもよい。もちろん、CPU301とハードウェア回路の双方により、これらの機能部が実現されてもよい。
 以上において、いくつかの実施形態について説明した。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態及び代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨及び範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態を成すことができることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して又は置換して、或いは実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。

Claims (10)

  1.  入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、前記同音異義語が存在する単語の前記音声データにおける声調に基づいて、前記同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する特定手段と、
     前記文を構成する単語の中に同音異義語が存在する単語が有る場合に、前記音声データにおける前記文の音調に基づいて、外部装置により特定された前記同音異義語が存在する単語以外の単語と特定した前記同音異義語とにより構成される前記文に対する、応答文を生成する生成手段と、
     を備える、
     ことを特徴とする音声認識装置。
  2.  前記同音異義語のユーザの声調を前記同音異義語に対応付けて、保持する第1の保持手段を、更に、備え、
     前記特定手段は、対応する前記ユーザの声調が、前記同音異義語が存在する単語の前記音声データにおける声調と一致する同音異義語を特定する、
     ことを特徴とする請求項1に記載の音声認識装置。
  3.  前記同音異義語の前記ユーザの声調が標準的な声調とは異なることが検出された際に、前記同音異義語の前記ユーザの声調を前記第1の保持手段に登録する第1の登録手段を、更に、備える、
     ことを特徴とする請求項2に記載の音声認識装置。
  4.  標準的な音調とは異なる音調で前記文が発音される場合に、前記音声データにおける前記文の音調に基づいて、前記文を発話した際のユーザの意図を推測する推測手段を、更に、備え、
     前記生成手段は、推測した前記ユーザの意図に基づいて、前記応答文を生成する、
     ことを特徴とする請求項1乃至3のいずれか一に記載の音声認識装置。
  5.  前記文を前記ユーザが発話した際の前記ユーザの意図を示す情報と当該意図で前記文を前記ユーザが発話した際の前記音調とが対応付けられて、保持されている第2の保持手段を、更に、備え、
     前記推測手段は、保持されている前記音調が、前記音声データにおける前記文の音調と一致する前記ユーザの意図を示す情報を特定することにより、前記文を発話したユーザの意図を推測する、
     ことを特徴とする請求項4に記載の音声認識装置。
  6.  前記文の前記ユーザの音調が、前記ユーザの意図で前記文を発話した際の標準的な音調とは異なることが検出された際に、前記文の前記ユーザの音調を前記ユーザの意図を示す情報と対応付けて、前記第2の保持手段に登録する第2の登録手段を、更に、備える、
     ことを特徴とする請求項5に記載の音声認識装置。
  7.  前記特定手段が前記同音異義語を特定できなかった場合に、前記外部装置に前記同音異義語の特定、又は推測を要求する要求手段を、更に、備える、
     ことを特徴とする請求項1乃至6のいずれか一に記載の音声認識装置。
  8.  前記特定手段は、前記文を構成する単語の内で、前記ユーザの声調が標準的な声調と異なる同音異義語が存在する単語に対してのみ、前記ユーザの声調が標準的な声調と異なる前記同音異義語が存在する単語の前記音声データにおける声調に基づいて、前記ユーザの声調が標準的な声調と異なる前記同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する、
     ことを特徴とする請求項1乃至7のいずれか一に記載の音声認識装置。
  9.  第1の音声認識装置と第2の音声認識装置を含む音声認識システムであって、
     前記第1の音声認識装置は、
     入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、前記同音異義語が存在する単語の前記音声データにおける声調に基づいて、前記同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定する特定手段と、
     前記文を構成する単語の中に同音異義語が存在する単語が有る場合に、前記音声データにおける前記文の音調に基づいて、前記第2の音声認識装置により特定された前記同音異義語が存在する単語以外の単語と特定した前記同音異義語とにより構成される前記文に対する、応答文を生成する生成手段と、
     を備える、
     前記第2の音声認識装置は、
     前記単語の読みに基づいて、前記同音異義語が存在する単語以外の単語を特定する特定手段と、
     特定した単語を前記第1の音声認識装置に通知する通知手段と、
     を備える、
     ことを特徴とする音声認識システム。
  10.  音声認識装置のコンピュータに、
     入力された音声データに基づいて特定される文を構成する単語の内で同音異義語が存在する単語に対し、前記同音異義語が存在する単語の前記音声データにおける声調に基づいて、前記同音異義語が存在する単語に対応する同音異義語の中から、同音異義語を特定し、
     前記文を構成する単語の中に同音異義語が存在する単語が有る場合に、前記音声データにおける前記文の音調に基づいて、外部装置により特定された前記同音異義語が存在する単語以外の単語と特定した前記同音異義語とにより構成される前記文に対する、応答文を生成する、
     処理を実行させる、
     ことを特徴とするプログラム。
PCT/JP2015/059870 2015-03-30 2015-03-30 音声認識装置、音声認識システム、及び、プログラム WO2016157352A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2015/059870 WO2016157352A1 (ja) 2015-03-30 2015-03-30 音声認識装置、音声認識システム、及び、プログラム
JP2017508878A JP6572969B2 (ja) 2015-03-30 2015-03-30 音声認識装置、音声認識システム、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/059870 WO2016157352A1 (ja) 2015-03-30 2015-03-30 音声認識装置、音声認識システム、及び、プログラム

Publications (1)

Publication Number Publication Date
WO2016157352A1 true WO2016157352A1 (ja) 2016-10-06

Family

ID=57006600

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/059870 WO2016157352A1 (ja) 2015-03-30 2015-03-30 音声認識装置、音声認識システム、及び、プログラム

Country Status (2)

Country Link
JP (1) JP6572969B2 (ja)
WO (1) WO2016157352A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117922A (ja) * 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2005524859A (ja) * 2001-12-29 2005-08-18 モトローラ・インコーポレイテッド 多重レベル分散型音声認識のための方法および装置
JP2010276869A (ja) * 2009-05-28 2010-12-09 Funai Electric Co Ltd 自動翻訳対応電話機および自動翻訳対応電話システム
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004349851A (ja) * 2003-05-20 2004-12-09 Ntt Docomo Inc 携帯端末、画像通信プログラム、及び画像通信方法
JP4902617B2 (ja) * 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010197644A (ja) * 2009-02-25 2010-09-09 Gifu Univ 音声認識システム
JP2014219594A (ja) * 2013-05-09 2014-11-20 ソフトバンクモバイル株式会社 会話処理システム及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001117922A (ja) * 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
JP2005524859A (ja) * 2001-12-29 2005-08-18 モトローラ・インコーポレイテッド 多重レベル分散型音声認識のための方法および装置
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2010276869A (ja) * 2009-05-28 2010-12-09 Funai Electric Co Ltd 自動翻訳対応電話機および自動翻訳対応電話システム
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム

Also Published As

Publication number Publication date
JP6572969B2 (ja) 2019-09-11
JPWO2016157352A1 (ja) 2017-09-21

Similar Documents

Publication Publication Date Title
US10719507B2 (en) System and method for natural language processing
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
CN106796788B (zh) 基于用户反馈来改善自动语音识别
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US10152965B2 (en) Learning personalized entity pronunciations
US9275635B1 (en) Recognizing different versions of a language
CN113412514B (zh) 用于设备上语音识别模型的训练的文本片段的设备上语音合成
US9594744B2 (en) Speech transcription including written text
US20090112593A1 (en) System for recognizing speech for searching a database
CN105222797B (zh) 利用口授和部分匹配搜索的导航系统的系统和方法
WO2014183373A1 (en) Systems and methods for voice identification
KR20100019596A (ko) 음성인식을 이용한 언어 번역 방법 및 장치
EP3005152B1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP2008234427A (ja) ユーザ間の対話を支援する装置、方法およびプログラム
US10582046B2 (en) Voice recognition-based dialing
US20150206539A1 (en) Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning
JP6572969B2 (ja) 音声認識装置、音声認識システム、及び、プログラム
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP6805431B2 (ja) 音声認識装置
AU2018101475B4 (en) Improving automatic speech recognition based on user feedback
JP2016151718A5 (ja)
JP2022024615A (ja) 情報出力システム
JP2020034832A (ja) 辞書生成装置、音声認識システムおよび辞書生成方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15887505

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017508878

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15887505

Country of ref document: EP

Kind code of ref document: A1