WO2015075903A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
WO2015075903A1
WO2015075903A1 PCT/JP2014/005683 JP2014005683W WO2015075903A1 WO 2015075903 A1 WO2015075903 A1 WO 2015075903A1 JP 2014005683 W JP2014005683 W JP 2014005683W WO 2015075903 A1 WO2015075903 A1 WO 2015075903A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
speech recognition
function
recognition result
voice
Prior art date
Application number
PCT/JP2014/005683
Other languages
English (en)
French (fr)
Inventor
拓郎 内藤
鈴木 大介
Original Assignee
日産自動車株式会社
株式会社デンソー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日産自動車株式会社, 株式会社デンソー filed Critical 日産自動車株式会社
Publication of WO2015075903A1 publication Critical patent/WO2015075903A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Definitions

  • the present invention relates to a speech recognition apparatus.
  • a technology for recognizing a command of a navigation device, an audio device, an air conditioner, and vehicle information using a single speech recognition engine mounted on a main unit in a vehicle system and executing the function is known.
  • the main unit has one speech recognition engine, and the speech recognition engine cannot recognize data (hereinafter referred to as speech data) obtained by converting speech uttered by the user into an electrical signal (for example, an address or the like).
  • speech data data obtained by converting speech uttered by the user into an electrical signal (for example, an address or the like).
  • a technique is known in which the utterance data is transmitted to the center outside the vehicle via a network (for example, see Patent Document 1).
  • an object of the present invention is to provide a voice recognition device that does not carry out external communication and does not have an excessive processing load for voice recognition.
  • one embodiment of the present invention includes a first unit having a first function and a second unit having a second function.
  • the first unit stores the vocabulary belonging to the first function as first dictionary data in advance, and transfers the voice data to the second unit while collating the voice data with the first dictionary.
  • the second unit stores in advance the vocabulary belonging to the second function as second dictionary data, compares the voice data transferred from the first unit with the second dictionary, and obtains the second voice recognition result. Output to the first unit.
  • the first unit determines a final recognition result based on the first speech recognition result and the second speech recognition result, which are matching results with the first dictionary.
  • two units mounted on a vehicle and having different functions share voice recognition processing using different dictionaries.
  • the voice recognition device can prevent the processing load of voice recognition from becoming excessive without performing external communication when voice recognition of the user's utterance in the vehicle interior is performed.
  • FIG. 1 is a schematic diagram showing a configuration example of a speech recognition system 100 according to an embodiment of the present invention.
  • the voice recognition system 100 includes, for example, a plurality of units (that is, devices) equipped with one or a plurality of functions, and is disposed in a vehicle interior of a vehicle or the like (that is, mounted on a vehicle), and is mounted on each unit. This is a system in which each function can be operated by voice spoken by the user.
  • the speech recognition system 100 includes, for example, a microphone (hereinafter referred to as a microphone) 10, a master unit 20 having a plurality of functions, a navigation unit 40 having a navigation (hereinafter referred to as navigation) function, and a switch. 50, an audio line 60, a transfer line 65, a signal line 70, and a communication line 80.
  • the microphone 10 is disposed, for example, in a passenger compartment, collects voice spoken by the user, converts the collected voice into an electrical signal, and generates voice data.
  • the microphone 10 is attached to a dashboard, for example.
  • the switch 50 receives a manual operation by the user and generates a voice recognition start signal.
  • the switch 50 is attached to, for example, a steering wheel (that is, a handle) (not shown).
  • the master unit 20 is a unit that is arranged, for example, in the passenger compartment, and mediates each function between the units when a single voice recognition system is configured with a plurality of units.
  • the master unit 20 includes, for example, a storage device such as a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), a HDD (Hard Disk Drive), a liquid crystal display device, or an organic electroluminescence display. It consists of a display device and hardware such as an antenna for communicating with the outside.
  • the master unit 20 includes, as its functional units, for example, an audio function unit 21, a screen display function unit 22, a telephone function unit 23, a vehicle cooperation function unit 24, a first voice recognition processing unit 31, and voice recognition.
  • the result determination unit 34, the speech recognition result adoption unit 35, and the function execution instruction unit 36 are included.
  • the audio function unit 21 receives, for example, a radio broadcast or a television broadcast, a compact disc (CD) inserted into the master unit 20, a flash memory, or music data or video stored in a storage device built in the master unit 20. It has a function to reproduce and output data.
  • the screen display function unit 22 has a function of displaying various information (for example, information regarding an audio function, information regarding a telephone function, etc.) on the display device.
  • the telephone function unit 23 has a telephone function (for example, a function of wirelessly connecting to a telephone base station and having a conversation between a remote party and a user in the passenger compartment at a distance through a telephone line).
  • the vehicle cooperation function unit 24 has a vehicle cooperation function (for example, a function that cooperates with vehicle control, such as engine output control).
  • the first voice recognition processing unit 31 has a function of transferring voice data to the navigation unit 40 through the transfer line 65 while recognizing voice data acquired from the microphone 10 through the voice line 60.
  • the first speech recognition processing unit 31 compares the speech data with the first speech recognition dictionary 32 and the first speech recognition dictionary 32 that stores the first dictionary data, for example. And a first speech recognition engine 33 that outputs the speech recognition result.
  • the first dictionary data includes a plurality of vocabularies belonging to (ie, related to) any one of the functions of the master unit 20 (for example, an audio function, a screen display function, a telephone function, and a vehicle linkage function), and a navigation unit And a plurality of vocabularies belonging to 40 navigation functions.
  • a plurality of vocabularies “audio”, “music”, “XXX (artist name)”, “Play Artist”, etc. belonging to the audio function belong to the telephone function.
  • a plurality of vocabularies “phone” and “Call”, a plurality of vocabularies “navi” and “destination setting” belonging to the navigation function are stored in the first speech recognition dictionary 32.
  • the vocabulary stored in the first speech recognition dictionary 32 as the first dictionary data is an arbitrary language such as Japanese, English, German, French, or Chinese.
  • the speech recognition result determination unit 34 has a function of determining the success or failure of the speech recognition processing by the first speech recognition processing unit 31 based on, for example, the first speech recognition result acquired from the first speech recognition processing unit 31. In addition, when the voice recognition result determination unit 34 determines that the voice recognition processing by the first voice recognition processing unit 31 is successful, the content of each function (for example, an audio function, a screen display function, a telephone set) of the master unit 20 is included. Or a vehicle cooperation function) or a navigation function of the navigation unit 40.
  • the voice recognition result determination unit 34 has a function of determining the success or failure of the voice recognition processing by the second voice recognition processing unit 41 based on, for example, the second voice recognition result acquired from the second voice recognition processing unit 41. Have. Then, the speech recognition result determination unit 34 determines the final recognition result based on the first speech recognition result and the second speech recognition result (that is, determines the final speech recognition result as the speech recognition device). Function).
  • the speech recognition result adopting unit 35 has a function of adopting either the first speech recognition result or the second speech recognition result based on the determination result by the speech recognition result determining unit 34.
  • the function execution instruction unit 36 is based on the audio function unit 21, the screen display function unit 22, the telephone function unit 23, and the vehicle cooperation function unit. 24 or the navigation function unit 44 has a function of instructing execution of various processes.
  • the navigation unit 40 is also arranged in the vehicle interior.
  • the navigation unit 40 includes hardware such as a CPU, a storage device such as a RAM and a ROM, a display device such as a liquid crystal display device or an organic electroluminescence display, and an antenna for receiving a GPS (Global Positioning System) signal. It consists of
  • the navigation unit 40 includes, for example, a navigation function unit 44 for indicating the current location of the host vehicle and guiding the host vehicle to a destination when set by the user, and a first voice recognition processing unit. And a second voice recognition processing unit 41 for recognizing the voice data transferred from 31 through the transfer line 65. For example, the second voice recognition processing unit 41 compares the voice data transferred from the master unit 20 with the second voice recognition dictionary 42 that stores the second dictionary data, and the second voice recognition dictionary 42 to check the second voice recognition dictionary 42. And a second speech recognition engine 43 that outputs a speech recognition result to the master unit 20.
  • the second dictionary data includes a plurality of vocabularies belonging to the navigation function of the navigation unit 40.
  • a plurality of vocabularies belonging to the navigation function of the navigation unit 40 are stored in the second speech recognition dictionary 42.
  • the vocabulary belonging to the navigation function more vocabulary is stored in the second speech recognition dictionary 42 than in the first speech recognition dictionary 32. That is, the second dictionary data has a larger amount of vocabulary information belonging to the navigation function than the first dictionary data.
  • the vocabulary belonging to the navigation function stored in the first speech recognition dictionary 32 is only a prefix of a command spoken by the user, such as “navigation” and “destination”.
  • the vocabulary belonging to the navigation function stored in the second speech recognition dictionary 42 includes prefectures such as “Atsugi City, Kanagawa Prefecture” as well as command prefixes such as “Navi” and “Destination”.
  • a more detailed vocabulary such as a name, a municipality name, an address, a name of a facility such as “ ⁇ ” station, and a street name such as “xxx street” is also stored.
  • the vocabulary stored in the second speech recognition dictionary 42 as the second dictionary data is also an arbitrary language such as Japanese, English, German, French, or Chinese.
  • the audio line 60 is a path for transmitting audio data from the microphone 10 to the master unit 20.
  • the transfer line 65 is a path for the first voice recognition processing unit 31 to transfer voice data to the navigation unit 40.
  • the signal line 70 is a path for transmitting a voice recognition start signal from the switch 50 to the master unit 20 and the navigation unit 40, respectively.
  • the communication line 80 is a path for communicating between the master unit 20 and the navigation unit 40.
  • the audio line 60, the signal line 70, and the communication line 80 may be either wired or wireless. Note that the communication method via the communication line 80 includes USB (Universal Serial Bus) communication or CAN (Controller Area Network) communication.
  • FIG. 3 is a flowchart (main routine) showing a speech recognition process performed by the speech recognition system 100.
  • each process of steps S10b, 20b, 30b, and 40b is performed by, for example, the navigation unit 40.
  • the master unit 20 performs each process of steps other than the above.
  • the user operates the switch 50 attached to the steering wheel or the like to notify the voice recognition system 100 of the start of voice recognition.
  • each of the master unit 20 and the navigation unit 40 starts voice recognition processing (steps S10a and 10b).
  • the microphone 10 collects sound and converts it into an electric signal to generate sound data.
  • the master unit 20 acquires the generated audio data via the audio line 60 (step S20a).
  • the first voice recognition processing unit 31 of the master unit 20 performs voice recognition processing on the acquired voice data (step S30a). That is, the first voice recognition engine 33 collates the acquired voice data with the first voice recognition dictionary 32. Further, before or after the collation operation by the first voice recognition dictionary 32, or in parallel, the first voice recognition processing unit 31 sends the voice data to the second voice recognition processing unit 41 of the navigation unit 40 through the transfer line 65. Transfer (step S30a).
  • the second voice recognition processing unit 41 receives and acquires the transferred voice data (step S20b).
  • the second speech recognition engine 43 collates the acquired speech data with the second speech recognition dictionary 42 (step S30b).
  • the 1st speech recognition dictionary 32 is each function (for example, an audio function, a screen display function, a telephone function, and a vehicle cooperation function) of the master unit 20 as 1st dictionary data.
  • a plurality of vocabularies belonging to the navigation function of the navigation unit 40 for example, utterance prefixes are stored.
  • the first speech recognition engine 33 compares the speech data obtained by converting the continuous utterance into an electric signal with the first speech recognition dictionary 32. .
  • the first speech recognition engine 33 performs “destination setting” which is a part of continuous speech. Can be recognized.
  • the first speech recognition processing unit 31 outputs this recognition result (that is, the first speech recognition result) to the speech recognition result determination unit 34 (step S40a).
  • the second speech recognition dictionary 42 uses a plurality of vocabularies (for example, command prefixes, prefecture names) belonging to the navigation function of the navigation unit 40 as the second dictionary data. , City name, address, facility name, street, intersection name, etc.).
  • vocabularies for example, command prefixes, prefecture names
  • the voice data obtained by converting the continuous utterance into an electrical signal is transferred from the master unit 20 to the navigation unit 40.
  • the second voice recognition engine 43 collates the transferred voice data with the second voice recognition dictionary 42.
  • the second speech recognition processing unit 41 outputs the recognition result (that is, the second speech recognition result) to the speech recognition result determination unit 34 included in the master unit 20 via the communication line 80 (step S40b).
  • the speech recognition result determination unit 34 determines whether or not the speech recognition processing by the first speech recognition processing unit 31 is successful based on the acquired first speech recognition result (that is, whether or not at least part of the speech data has been recognized). Is determined (step S50). For example, when the first speech recognition engine 33 can recognize “destination setting” which is a part of continuous speech, the speech recognition result determination unit 34 determines that the speech recognition processing by the first speech recognition processing unit 31 is successful. To do. When the first speech recognition engine 33 cannot recognize the continuous utterance at all, the speech recognition result determination unit 34 determines that the speech recognition processing by the first speech recognition processing unit 31 is impossible. If the speech recognition result determination unit 34 determines that the speech recognition processing by the first speech recognition processing unit 31 has been successful, the process proceeds to step S60, and if it is determined to be impossible, the process proceeds to step S100.
  • step S60 the speech recognition result determination unit 34 determines the success or failure of the speech recognition processing by the second speech recognition processing unit 41 based on the acquired second speech recognition result. For example, when the second speech recognition engine 43 can recognize the continuous utterance “Destination setting: Atsugi City, Kanagawa Prefecture”, the speech recognition result determination unit 34 succeeds in the speech recognition processing by the second speech recognition processing unit 41. It is determined that When the second speech recognition engine 43 cannot recognize any continuous utterance at all, the speech recognition result determination unit 34 determines that the speech recognition processing by the second speech recognition processing unit 41 is impossible. If the speech recognition result determination unit 34 determines that the speech recognition processing by the second speech recognition processing unit 41 is successful, the process proceeds to step S70, and if it is determined that the speech recognition process is not possible, the process proceeds to step S110.
  • step S70 the speech recognition result determination unit 34 determines whether the content of the utterance belongs to each function or navigation function of the master unit 20 based on at least one of the first speech recognition result and the second speech recognition result. Determine.
  • the speech recognition result determination unit 34 determines that the utterance content belongs to the navigation function of the navigation unit 40. To do.
  • the speech recognition result adoption unit 35 employs the second speech recognition result output by the second speech recognition processing unit 41 of the navigation unit 40 (step S80).
  • the speech recognition result determination unit 34 performs speech recognition by the second speech recognition processing unit 41.
  • the second speech recognition result may be adopted based only on the success of. In this case, since the speech recognition result determination unit 34 does not need to confirm the content of the first speech recognition result, there is a possibility that the speech recognition process in the speech recognition system 100 can be further accelerated.
  • step S70 determines in step S70 that the content of the utterance belongs to each function of the master unit 20 based on the first speech recognition result
  • step S90 the speech recognition result adoption unit 35 employs the first speech recognition result.
  • step S80 or step S90 for example, when the microphone 10 collects sound until a predetermined time elapses, or when the user operates the switch 50 to notify the voice recognition system 100 of the start of voice recognition Returns to Steps S10a and 10b and starts the speech recognition process again. In cases other than the above, for example, the voice recognition process is terminated.
  • FIG. 4A is a flowchart (subroutine) showing the unavailable processing 1 performed by the speech recognition system 100 in step S100.
  • the unavailable time handling process 1 in step S100 includes, for example, steps S101, S102, and S103.
  • step S ⁇ b> 101 the speech recognition result determination unit 34 determines the success or failure of the speech recognition process by the second speech recognition processing unit 41 based on the acquired second speech recognition result. For example, in step S101, the speech recognition result determination unit 34 performs the same process as in step S60. If the speech recognition result determination unit 34 determines that the speech recognition processing by the second speech recognition processing unit 41 is successful, the process proceeds to step S102, and if it is determined that the speech recognition process is impossible, the process proceeds to step S103.
  • the speech recognition result adoption unit 35 employs the second speech recognition result output by the second speech recognition processing unit 41.
  • the voice recognition result adopting unit 35 displays, for example, on the display device or the like included in the voice recognition system 100 that the voice cannot be recognized, or notifies the voice recognition result using the voice recorded in advance.
  • the voice recognition result adoption unit 35 displays on the display device or the like a message indicating that the voice cannot be recognized, and then prompts the user to speak again, for example, “please instruct again”. May be.
  • the voice recognition result adopting unit 35 may display the above on the display device and notify by voice. In response to at least one of these indications or notifications, the user can speak again a command instructing execution of each function of the speech recognition system 100, or can again speak continuously intended for this instruction.
  • FIG. 4B is a flowchart (subroutine) showing the unavailable processing 2 performed by the speech recognition system 100 in step S110.
  • the unavailable time handling process 2 includes, for example, steps S111, S112, and S113.
  • step S ⁇ b> 111 the voice recognition result determination unit 34 determines whether the content of the utterance belongs to each function or navigation function of the master unit 20 based on the first voice recognition result.
  • the process proceeds to step S112, where the speech recognition result adoption unit 35 adopts the first speech recognition result output by the first speech recognition processing unit 31. To do. If the content of the first speech recognition result belongs to the navigation function of the navigation unit 40, the process proceeds to step S113.
  • step S113 the speech recognition result adopting unit 35 displays on the display device or the like, for example, a message “Please say the destination again” to notify the user that the speech is to be re-spoken regarding the destination setting, or notifies with a pre-recorded voice. Also in this case, the voice recognition result adoption unit 35 may perform both display on the display device and notification by voice.
  • the function execution instruction unit 36 transmits a command corresponding to the voice recognition result or the second voice recognition result to each function unit.
  • the command transmission destination is the audio function unit 21, the screen display function unit 22, the telephone function unit 23, or the vehicle cooperation function unit 24 of the master unit 20 when the first voice recognition result is adopted.
  • the navigation function unit 44 of the navigation unit 40 is used.
  • the function execution instructing unit 36 uses the navigation function of the navigation unit 40.
  • a command for “Atsugi City, Kanagawa Prefecture” as the destination is transmitted to the unit 44.
  • the navigation function unit 44 executes the navigation function with “Atsugi City, Kanagawa Pref.” As the destination.
  • the user After the user operates the switch 50, the user utters a command “Destination setting” ⁇ “Atsugi City, Kanagawa Prefecture”. Alternatively, the user may speak continuously with “Destination setting: Atsugi City, Kanagawa Prefecture”. Then, the microphone 10 collects this utterance and converts it into audio data, and transmits the audio data to the master unit 20.
  • the first speech recognition processing unit 31 of the master unit 20 recognizes only the vocabulary “destination setting” that is part of the utterance and is in the first dictionary data (“Kanagawa” that is not in the first dictionary data). Atsugi City ⁇ ”is not recognized.)
  • the master unit 20 sets the result of speech recognition by the first speech recognition processing unit 31 as the first speech recognition result.
  • the first voice recognition processing unit 31 transfers the voice data to the navigation unit 40.
  • the second speech recognition processing unit 41 of the navigation unit 40 recognizes both of the vocabulary “Destination setting” and “Atsugi City, Kanagawa Prefecture” in the second dictionary data. Then, the navigation unit 40 sets the result of the voice recognition (that is, the second voice recognition result) and necessary parameters (for example, a set value for causing the master unit 20 to recognize the result of the voice recognition performed by the navigation unit 40). ) To the master unit 20 via the communication line 80.
  • the master unit 20 recognizes that the content spoken by the user belongs to the navigation function because “destination setting” is included in both the first voice recognition result and the second voice recognition result. In response to this result, the master unit 20 adopts the second speech recognition result including more vocabulary regarding the navigation function, and instructs the navigation unit 40 to execute the navigation function. In other words, the master unit 20 instructs the navigation unit 40 to execute the navigation function with “Atsugi City, Kanagawa Prefecture XXX” as the destination. In response to this instruction, the navigation unit 40 executes a navigation function with “Atsugi City, Kanagawa Prefecture XXX” as the destination.
  • the master unit 20 corresponds to the first unit, and each function (for example, an audio function, a screen display function, a telephone function, and a vehicle cooperation function) of the master unit 20 corresponds to the first function.
  • the navigation unit 40 corresponds to the second unit, and the navigation function corresponds to the second function.
  • the first speech recognition processing unit 31 corresponds to the first speech recognition processing unit
  • the first speech recognition dictionary 32 corresponds to the first dictionary.
  • the second speech recognition processing unit 41 corresponds to the second speech recognition processing unit, and the second speech recognition dictionary 42 corresponds to the second dictionary.
  • the voice recognition system 100 corresponds to a voice recognition device.
  • the embodiment has the following effects.
  • the speech recognition system 100 includes a master unit 20 that is mounted on a vehicle and has a plurality of functions, and a navigation unit 40 that is mounted on a vehicle and has a navigation function.
  • the first speech recognition processing unit 31 of the master unit 20 uses the first speech recognition dictionary 32.
  • the second voice recognition processing unit 41 of the navigation unit 40 performs voice recognition processing using the second voice recognition dictionary 42.
  • the first speech recognition dictionary 32 stores in advance vocabulary belonging to each function of the master unit 20, and the second speech recognition dictionary 42 stores in advance vocabulary belonging to the navigation function.
  • the voice recognition system 100 can prevent the processing load of voice recognition from becoming excessive without performing external communication when voice recognition of the user's utterance in the passenger compartment is performed.
  • the first voice recognition processing unit 31 and the second voice recognition processing unit 41 collate the same voice data with the first voice recognition dictionary 32 and the second voice recognition dictionary 42, for example, in synchronization.
  • the speech recognition system 100 outputs the first speech recognition output by the first speech recognition processing unit 31.
  • the speech recognition system 100 can recognize the speech. Therefore, even when the user utters a command or continuously speaks without specifying a unit, the speech recognition system 100 can recognize the speech.
  • the first speech recognition processing unit 31 stores not only the vocabulary belonging to each function of the master unit 20 but also the vocabulary belonging to the navigation function as the first dictionary data. Therefore, it is not necessary to transmit dictionary data (for example, second dictionary data) necessary for speech recognition from the navigation unit 40 to the master unit 20, and the time required for speech recognition processing can be shortened. Therefore, the voice recognition process can be speeded up.
  • the second dictionary data stored in the second speech recognition dictionary 42 is read-only depending on map data such as prefecture, city, town name, facility genre, facility name, intersection name, street name, etc. It is data. These data amounts are very large, for example, 1 gigabyte or more. For example, when such information is transmitted by USB communication, it takes, for example, ten minutes.
  • the time required for the speech recognition process can be shortened.
  • the master unit 20 includes a voice recognition result determination unit 34.
  • the voice recognition result determination unit 34 determines whether the content of the utterance belongs to each function or navigation function of the master unit 20 (for example, step S70). This determination can be made in the master unit 20.
  • the master unit 20 does not need to transmit the first speech recognition result to the outside or receive the determination result from the outside in order to make this determination. For this reason, the time required for the speech recognition processing can be further shortened.
  • the master unit 20 includes a voice recognition result adoption unit 35.
  • the speech recognition result adoption unit 35 Based on the determination result of the recognition result determination unit 34 (that is, using the content of the utterance as a determination material), one of the first and second speech recognition results is adopted.
  • the second dictionary data has a larger amount of vocabulary information belonging to the navigation function than the first dictionary data.
  • the speech recognition result adoption unit 35 selects the speech recognition result output by collating with a dictionary that includes more vocabulary that may match the content of the utterance from the first and second speech recognition results. It can be employed as a speech recognition result in the speech recognition system 100.
  • the voice recognition result adoption unit 35 adopts the first voice recognition result when the first voice recognition processing unit 31 recognizes the voice data and the second voice recognition processing unit 41 does not recognize the voice data. (For example, step S110).
  • the speech recognition result adoption unit 35 adopts the second speech recognition result when the first speech recognition processing unit 31 does not recognize the speech data and the second speech recognition processing unit 41 recognizes the speech data. (For example, step S100).
  • the speech recognition system 100 can increase the possibility of outputting the speech recognition result.
  • the master unit 20 uses the function units (for example, the audio function unit 21 and the screen display function) of the master unit 20 according to one of the first and second speech recognition results adopted by the speech recognition result adoption unit 35.
  • each function of the master unit 20 and the navigation function of the navigation unit 40 can be operated by voice.
  • FIG. 5 is a conceptual diagram showing a configuration example of a speech recognition system 100A according to a modification of the present invention.
  • the speech recognition system 100A includes an audio unit 40A instead of the navigation unit 40 as a second unit.
  • the audio unit 40A includes a second voice recognition processing unit 41A and an audio function unit 21.
  • the second speech recognition processing unit 41A includes a second speech recognition dictionary 42A and a second speech recognition engine 43A.
  • a plurality of vocabularies belonging to the audio function as shown in FIG. 2A are stored in advance as second dictionary data.
  • the master unit 20 includes a navigation function unit 44 instead of the audio function unit.
  • a plurality of vocabularies belonging to the audio function such as “Play Artist” serving as a command prefix are stored in advance as first dictionary data.
  • the master unit 20 can recognize.
  • the master unit 20 can recognize only “Play Artist” of continuous utterances “Play Artist OO (artist name)” by the user.
  • the modification (1) also has the same effects as the effects (1) to (7) of the above embodiment.
  • the audio unit 40A corresponds to the second unit
  • the audio function corresponds to the second function.
  • the voice recognition system 100A corresponds to a voice recognition device.
  • FIG. 6 is a conceptual diagram showing a configuration example of a speech recognition system 100B according to a modification of the present invention.
  • the speech recognition system 100B includes a navigation unit 40 and an audio unit 40A as the second unit.
  • a transfer line 65 and a communication line 80 are connected between the master unit 20 and the navigation unit 40, and between the master unit 20 and the audio unit 40A, respectively.
  • the switch 50 and the navigation unit 40 and the switch 50 and the audio unit 40A are connected by a signal line 70, respectively.
  • the speech recognition system 100B can execute the steps shown in FIG. That is, the navigation unit 40 and the audio unit 40A can execute steps S10b, S20b, S30b, and S40b in FIG. Therefore, the modification (2) also has the same effects as the effects (1) to (7) of the above embodiment.
  • the navigation unit 40 and the audio unit 40A each correspond to the second unit, and the navigation function and the audio function correspond to the second function, respectively.
  • the voice recognition system 100B corresponds to a voice recognition device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

 複数の機能を有するマスターユニット(20)と、ナビ機能を有するナビユニット(40)とを備え、車載された音声認識システム(100)である。マスターユニット(20)は、車室内で発話された音声を電気信号に変換した音声データを第1音声認識辞書(32)と照合しつつ、音声データをナビユニット(40)に転送する。ナビユニット(40)は、マスターユニット(20)から転送された音声データを第2音声認識辞書(42)と照合して第2の音声認識結果をマスターユニット(20)に出力する。マスターユニット(20)は、第1音声認識辞書(32)との照合結果である第1の音声認識結果と、第2の音声認識結果とに基づいて、最終認識結果を判定する。

Description

音声認識装置
 本発明は、音声認識装置に関する。
 従来から、車両システム内のメインユニットに搭載されている1つの音声認識エンジンを用いて、ナビゲーション装置、オーディオ装置、エアコン、車両情報のコマンドを認識して機能実行させる技術が知られている。また、近年では、メインユニット内に1つの音声認識エンジンを持ち、ユーザーが発話した音声を電気信号に変換したデータ(以下、発話データ)を音声認識エンジンが認識できなかった場合(例えば住所等を認識できなかった場合)に、該発話データをネットワーク経由で車外センタに送信する技術が知られている(例えば、特許文献1参照)。
国際公開第2008/072413号
 特許文献1ではメインユニット内に1つの音声認識エンジンを持ち、全ての音声認識をこの音声認識エンジンで行い、認識できなかった音声についてはネットワーク経由で車外センタにて認識を行うので、通信障害が起きた場合には対応できないことがある。かといって全ての音声認識をこの1つの音声認識エンジンにて行うと音声認識の処理負荷が過大になる。
 そこで、本発明は、外部通信を行わずに、音声認識の処理負荷が過大にならない音声認識装置を提供することを目的とする。
 上記課題を解決するために、本発明の一態様は、第1の機能を有する第1のユニットと、第2の機能を有する第2のユニットとを備える。第1のユニットは、第1の機能に属する語彙を第1の辞書データとして予め格納し、音声データを第1の辞書と照合しつつ、音声データを第2のユニットに転送する。第2のユニットは、第2の機能に属する語彙を第2の辞書データとして予め格納し、第1のユニットから転送された音声データを第2の辞書と照合して第2の音声認識結果を第1のユニットに出力する。第1のユニットは、第1の辞書との照合結果である第1の音声認識結果と第2の音声認識結果とに基づいて、最終認識結果を判定する。
 本発明の一態様によれば、車載され、機能が異なる2つのユニットが、互いに異なる辞書を用いて音声認識処理を分担して行う。これにより、音声認識装置は、車室内でのユーザーの発話を音声認識する際に、外部通信を行わずに、音声認識の処理負荷が過大にならないようにすることができる。
本発明の実施形態に係る音声認識システム100の構成例を示す概要図である。 第1、第2の辞書データの一例を示す図である。 音声認識システム100が行う音声認識処理を示すフローチャート(メインルーチン)である。 不可時対応処理1、2を示すフローチャート(サブルーチン)である。 本発明の変形例に係る音声認識システム100Aの構成例を示す概念図である。 本発明の変形例に係る音声認識システム100Bの構成例を示す概念図である。
 次に、本発明の実施形態について図面を参照しつつ説明する。
(構成)
 図1は、本発明の実施形態に係る音声認識システム100の構成例を示す概要図である。この音声認識システム100は、例えば、1つ又は複数以上の機能を搭載した複数のユニット(即ち、機器)を備え、自動車等の車室内に配置され(即ち、車載され)、各ユニットが搭載する各機能をユーザーが発話する音声で操作することが可能なシステムである。
 図1に示すように、この音声認識システム100は、例えば、マイクロフォン(以下、マイク)10と、複数の機能を有するマスターユニット20と、ナビゲーション(以下、ナビ)機能を有するナビユニット40と、スイッチ50と、音声ライン60と、転送ライン65と、信号ライン70及び通信ライン80を備える。マイク10は、例えば車室内に配置されており、ユーザーが発話した音声を集音し、集音した音声を電気信号に変換して音声データを生成する。マイク10は、例えばダッシュボードに取り付けられている。また、スイッチ50は、ユーザーによる手動操作を受けて、音声認識開始信号を生成する。スイッチ50は、例えば、図示しないステアリングホイール(即ち、ハンドル)に取り付けられている。
 マスターユニット20は、例えば車室内に配置されており、複数のユニットで1つの音声認識システムを構成する際に各ユニット間で各機能の調停を行うユニットである。マスターユニット20は、例えばCPU(Central Processing Unit)と、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard disk drive)等の記憶装置と、液晶表示装置又は有機エレクトロルミネッセンスディスプレイ等の表示装置と、外部と通信するためのアンテナ等のハードウェアで構成されている。
 また、マスターユニット20は、その機能部として、例えばオーディオ機能部21と、画面表示機能部22と、電話機能部23と、車両連携機能部24と、第1音声認識処理部31と、音声認識結果判定部34と、音声認識結果採用部35と、機能実行指示部36と、を有する。
 オーディオ機能部21は、例えば、ラジオ放送やテレビジョン放送の受信、マスターユニット20に装入するコンパクトディスク(CD)、フラッシュメモリ、又は、マスターユニット20が内蔵する記憶装置に格納した音楽データや映像データを再生出力する機能を有する。画面表示機能部22は、例えば、上記の表示装置に各種情報(例えば、オーディオ機能に関する情報や、電話機能に関する情報等)を表示する機能を有する。電話機能部23は、電話機能(例えば、無線で電話基地局に接続し、電話回線を通じて離れた場所にいる相手方と車室内のユーザーとが互いに会話する機能)を有する。車両連携機能部24は、車両連携機能(例えば、エンジンの出力制御など、車両制御と連携する機能)を有する。
 また、第1音声認識処理部31は、マイク10から音声ライン60を通して取得した音声データを認識しつつ、この音声データを転送ライン65を通してナビユニット40に転送する機能を有する。この機能を実現するために、第1音声認識処理部31は、例えば、第1の辞書データを格納する第1音声認識辞書32と、音声データを第1音声認識辞書32と照合して第1の音声認識結果を出力する第1音声認識エンジン33とを有する。
 第1の辞書データは、マスターユニット20の各機能(例えば、オーディオ機能、画面表示機能、電話機能及び車両連携機能)の何れか一つに属する(即ち、関係する)複数の語彙と、ナビユニット40のナビ機能に属する複数の語彙とを含む。例えば図2(a)に示すように、第1の辞書データとして、オーディオ機能に属する複数の語彙「オーディオ」「音楽」「○○○(アーティスト名)」「Play Artist」等、電話機能に属する複数の語彙「電話」「Call」、ナビ機能に属する複数の語彙「ナビ」「目的地設定」等を第1音声認識辞書32に格納しておく。第1の辞書データとして第1音声認識辞書32に格納する語彙は、例えば日本語、英語、ドイツ語、フランス語、中国語など任意の言語である。
 音声認識結果判定部34は、例えば、第1音声認識処理部31から取得する第1の音声認識結果に基づいて、第1音声認識処理部31による音声認識処理の成否を判定する機能を有する。また、音声認識結果判定部34は、第1音声認識処理部31による音声認識処理が成功と判定した場合は、その内容がマスターユニット20が有する各機能(例えば、オーディオ機能、画面表示機能、電話機能又は車両連携機能等)に属するのか、ナビユニット40が有するナビ機能に属するのかを判定する機能を有する。
 また、音声認識結果判定部34は、例えば、第2音声認識処理部41から取得する第2の音声認識結果に基づいて、第2音声認識処理部41による音声認識処理の成否を判定する機能を有する。そして、音声認識結果判定部34は、第1の音声認識結果と第2の音声認識結果とに基づいて、最終認識結果を判定する(即ち、音声認識装置としての最終的な音声認識結果を決定する)機能を有する。
 音声認識結果採用部35は、音声認識結果判定部34による判定結果に基づいて、第1の音声認識結果及び第2の音声認識結果の何れか一方を採用する機能を有する。機能実行指示部36は、音声認識結果採用部35により採用された第1又は第2の音声認識結果に基づいて、オーディオ機能部21、画面表示機能部22、電話機能部23、車両連携機能部24又はナビ機能部44に各種処理の実行を指示する機能を有する。
 また、マスターユニット20と同様、ナビユニット40も車室内に配置されている。ナビユニット40は、例えばCPUと、RAM、ROM等の記憶装置と、液晶表示装置又は有機エレクトロルミネッセンスディスプレイ等の表示装置と、GPS(Global Positioning System)信号等を受信するためのアンテナ等のハードウェアで構成されている。
 また、ナビユニット40は、その機能部として、例えば、自車両の現在地を示すと共に、ユーザーが設定することにより自車両を目的地に案内するためのナビ機能部44と、第1音声認識処理部31から転送ライン65を通して転送された音声データを認識するための第2音声認識処理部41と、を有する。第2音声認識処理部41は、例えば、第2の辞書データを格納する第2音声認識辞書42と、マスターユニット20から転送された音声データを第2音声認識辞書42と照合して第2の音声認識結果をマスターユニット20に出力する第2音声認識エンジン43と、を有する。
 第2の辞書データは、ナビユニット40のナビ機能に属する複数の語彙を含む。例えば図2(b)に示すように、ナビユニット40のナビ機能に属する複数の語彙を第2音声認識辞書42に格納しておく。ここで、ナビ機能に属する語彙について、第2音声認識辞書42には第1音声認識辞書32と比べて、より多くの語彙を格納しておく。即ち、第1の辞書データよりも第2の辞書データの方が、ナビ機能に属する語彙の情報量が大きい。例えば、第1音声認識辞書32に格納するナビ機能に属する語彙は、「ナビ」「目的地」など、ユーザーが発話するコマンドの接頭語のみである。これに対して、第2音声認識辞書42に格納するナビ機能に属する語彙は、「ナビ」「目的地」などコマンドの接頭語のほかに、「神奈川県厚木市○○○」等の都道府県名、市町村名、住所、「△△△」駅等の施設の名称、「×××通り」等のストリート名など、より詳細な語彙も格納しておく。なお、第2の辞書データとして第2音声認識辞書42に格納する語彙も、例えば日本語、英語、ドイツ語、フランス語、中国語など任意の言語である。
 音声ライン60は、マイク10からマスターユニット20へ音声データを送信するための経路である。転送ライン65は、第1音声認識処理部31がナビユニット40に音声データを転送するための経路である。信号ライン70は、スイッチ50からマスターユニット20及びナビユニット40へそれぞれ音声認識開始信号を送信するための経路である。通信ライン80は、マスターユニット20とナビユニット40との間で通信するための経路である。音声ライン60、信号ライン70及び通信ライン80は有線又は無線のどちらでもよい。なお、通信ライン80を介した通信方法として、USB(Universal Serial Bus)通信又はCAN(Controller Area Network)通信などが挙げられる。
 次に、音声認識システム100が行う処理について説明する。
 図3は、音声認識システム100が行う音声認識処理を示すフローチャート(メインルーチン)である。なお、図3において、ステップS10b、20b、30b、40bの各処理は、例えばナビユニット40が行う。図3において、上記以外の他のステップの各処理は、例えばマスターユニット20が行う。
 まず始めに、図3に示すように、ユーザーはステアリングホイール等に取り付けられているスイッチ50を操作して、音声認識システム100に音声認識の開始を通知する。これにより、マスターユニット20及びナビユニット40はそれぞれ、音声認識処理を開始する(ステップS10a、10b)。
 次に、ユーザーが発話すると、マイク10は音声を集音し、これを電気信号に変換して音声データを生成する。マスターユニット20は、この生成した音声データを音声ライン60を介して取得する(ステップS20a)。
 次に、この取得した音声データについて、マスターユニット20の第1音声認識処理部31は音声認識処理を行う(ステップS30a)。即ち、第1音声認識エンジン33は、取得した音声データを第1音声認識辞書32と照合する。また、この第1音声認識辞書32による照合動作と前後して、或いは並行して、第1音声認識処理部31は、音声データを転送ライン65を通してナビユニット40の第2音声認識処理部41に転送する(ステップS30a)。第2音声認識処理部41は、転送された音声データを受信し、取得する(ステップS20b)。第2音声認識エンジン43は、取得した音声データを第2音声認識辞書42と照合する(ステップS30b)。
 この音声認識処理ついて、ユーザーがナビ機能に関して発話した場合を想定して説明する。まず、第1音声認識辞書32が行う音声認識処理について説明する。
 例えば図2(a)に示したように、第1音声認識辞書32は、第1の辞書データとして、マスターユニット20の各機能(例えば、オーディオ機能、画面表示機能、電話機能及び車両連携機能)に属する複数の語彙と、ナビユニット40のナビ機能に属する複数の語彙(例えば、発話の接頭語)とを格納している。ユーザーが例えば「目的地設定 神奈川県厚木市○○○」と連続発話した場合、第1音声認識エンジン33は、この連続発話を電気信号に変換した音声データを第1音声認識辞書32と照合する。ここでは、音声データに含まれる「目的地設定」が、第1の辞書データの「目的地設定」と一致するため、第1音声認識エンジン33は連続発話の一部である「目的地設定」を音声認識することができる。第1音声認識処理部31は、この認識結果(即ち、第1の音声認識結果)を音声認識結果判定部34に出力する(ステップS40a)。
 また、例えば図2(b)に示すように、第2音声認識辞書42は、第2の辞書データとして、ナビユニット40のナビ機能に属する複数の語彙(例えば、コマンドの接頭語、都道府県名、市町村名、住所、施設の名称、ストリート、交差点の名称等)を格納している。
 上述したように、ユーザーが例えば「目的地設定 神奈川県厚木市○○○」と連続発話した場合、この連続発話を電気信号に変換した音声データはマスターユニット20からナビユニット40に転送される。第2音声認識エンジン43は、この転送されてきた音声データを第2音声認識辞書42と照合する。ここでは、音声データに含まれる「目的地設定」、「神奈川県厚木市○○○」と、第2の辞書データの「目的地設定」、「神奈川県厚木市○○○」がそれぞれ一致するため、第2音声認識エンジン43は連続発話「目的地設定 神奈川県厚木市○○○」を全て音声認識することができる。第2音声認識処理部41は、この認識結果(即ち、第2の音声認識結果)を、通信ライン80を介して、マスターユニット20が有する音声認識結果判定部34に出力する(ステップS40b)。
 次に、音声認識結果判定部34は、取得した第1の音声認識結果に基づいて、第1音声認識処理部31による音声認識処理の成否(即ち、音声データの少なくとも一部を認識できたか否か)を判定する(ステップS50)。例えば、第1音声認識エンジン33が連続発話の一部である「目的地設定」を認識できた場合、音声認識結果判定部34は第1音声認識処理部31による音声認識処理が成功したと判定する。また、第1音声認識エンジン33が連続発話を全く認識できなかった場合、音声認識結果判定部34は第1音声認識処理部31による音声認識処理が不可であったと判定する。音声認識結果判定部34が第1音声認識処理部31による音声認識処理が成功したと判定した場合はステップS60へ進み、不可であったと判定した場合はステップS100へ進む。
 ステップS60では、音声認識結果判定部34は、取得した第2の音声認識結果に基づいて、第2音声認識処理部41による音声認識処理の成否を判定する。例えば、第2音声認識エンジン43が、連続発話「目的地設定 神奈川県厚木市○○○」を認識できた場合、音声認識結果判定部34は第2音声認識処理部41による音声認識処理が成功したと判定する。また、第2音声認識エンジン43が連続発話を全く認識できなかった場合、音声認識結果判定部34は第2音声認識処理部41による音声認識処理が不可であったと判定する。音声認識結果判定部34が第2音声認識処理部41による音声認識処理が成功したと判定した場合はステップS70へ進み、不可であったと判定した場合はステップS110へ進む。
 ステップS70では、音声認識結果判定部34が、第1の音声認識結果及び第2の音声認識結果の少なくとも一方に基づいて、発話の内容がマスターユニット20の各機能又はナビ機能のどちらに属するかを判定する。ここでは、例えば第1の音声認識結果の内容及び第2の音声認識結果の内容が双方ともナビ機能に属するため、音声認識結果判定部34は発話内容がナビユニット40のナビ機能に属すると判定する。
 この判定を受けて、音声認識結果採用部35は、ナビユニット40の第2音声認識処理部41が出力した第2の音声認識結果を採用する(ステップS80)。
 なお、第2音声認識辞書42が格納している第2の辞書データが例えばナビ機能に属する語彙に限定されている場合、音声認識結果判定部34は、第2音声認識処理部41による音声認識が成功したことのみに基づいて、第2の音声認識結果を採用してもよい。この場合、音声認識結果判定部34は、第1の音声認識結果の内容を確認する必要がないので、音声認識システム100における音声認識処理をより高速化できる可能性がある。
 また、ステップS70で、音声認識結果判定部34が第1の音声認識結果に基づいて発話の内容がマスターユニット20の各機能に属すると判定した場合は、ステップS90に進む。ステップS90では、音声認識結果採用部35は、第1の音声認識結果を採用する。
 ステップS80又はステップS90の後、例えば、所定時間が経過するまでの間にマイク10が集音した場合、又は、ユーザーがスイッチ50を操作して音声認識システム100に音声認識の開始を通知した場合は、ステップS10a、10bに戻って、音声認識処理を再度開始する。また、上記以外の場合は、例えば、音声認識処理を終了する。
 次に、ステップS100、S110の各処理について説明する。
 図4(a)は、音声認識システム100がステップS100で行う不可時対応処理1を示すフローチャート(サブルーチン)である。図4(a)に示すように、ステップS100の不可時対応処理1は、例えば、ステップS101、S102、S103からなる。
 ステップS101では、音声認識結果判定部34は、取得した第2の音声認識結果に基づいて、第2音声認識処理部41による音声認識処理の成否を判定する。例えば、ステップS101では、音声認識結果判定部34はステップS60と同様の処理を行う。音声認識結果判定部34が第2音声認識処理部41による音声認識処理が成功したと判定した場合はステップS102へ進み、不可であったと判定した場合はステップS103へ進む。
 ステップS102では、音声認識結果採用部35は、第2音声認識処理部41が出力した第2の音声認識結果を採用する。また、ステップS103では、音声認識結果採用部35は、例えば、音声を認識できない旨を音声認識システム100が有する表示装置等に表示し、又は予め録音した音声等で通知する。或いは、音声認識結果採用部35は、音声を認識できない旨に続いて、再度の発話を促す旨、例えば「もう一度指示してください」を上記表示装置等に表示し、又は予め録音した音声で通知してもよい。音声認識結果採用部35は、上記旨を表示装置で表示すると共に、音声で通知してもよい。これらの表示又は通知の少なくとも一方を受けて、ユーザーは、音声認識システム100の各機能の実行を指示するコマンドを再び発話し、又は、この指示を意図する連続発話を再びすることができる。
 図4(b)は、音声認識システム100がステップS110で行う不可時対応処理2を示すフローチャート(サブルーチン)である。図4(b)に示すように、不可時対応処理2は、例えば、ステップS111、S112、S113からなる。
 ステップS111では、音声認識結果判定部34が、第1の音声認識結果に基づいて、発話の内容がマスターユニット20の各機能又はナビ機能のどちらに属するかを判定する。第1の音声認識結果の内容がマスターユニット20の各機能に属する場合はステップS112へ進み、音声認識結果採用部35は、第1音声認識処理部31が出力した第1の音声認識結果を採用する。また、第1の音声認識結果の内容がナビユニット40のナビ機能に属する場合はステップS113へ進む。ステップS113では、音声認識結果採用部35は、目的地設定に関して再度の発話を促す旨、例えば「目的地をもう一度言ってください」を表示装置等に表示し、又は予め録音した音声で通知する。この場合も、音声認識結果採用部35は、表示装置での表示と音声による通知の両方を行ってもよい。
 図3又は図4(a)及び(b)の各フローチャートに沿って、音声認識結果採用部35が第1の音声認識結果又は第2の音声認識結果を採用した後は、採用した第1の音声認識結果又は第2の音声認識結果に対応するコマンドを機能実行指示部36が各機能部に送信する。コマンドの送信先は、第1の音声認識結果を採用した場合はマスターユニット20のオーディオ機能部21、画面表示機能部22、電話機能部23又は車両連携機能部24であり、第2の音声認識結果を採用した場合はナビユニット40のナビ機能部44である。
 例えば、音声認識結果採用部35が第2の音声認識結果として、ユーザーによる連続発話「目的地設定 神奈川県厚木市○○○」を認識した場合、機能実行指示部36はナビユニット40のナビ機能部44に「神奈川県厚木市○○○」を目的地とするコマンドを送信する。このコマンドを受けて、ナビ機能部44は「神奈川県厚木市○○○」を目的地とするナビ機能を実行する。
(動作)
 次に、実施形態の動作例について説明する。
 例えば、ユーザーが音声認識システム100のナビ機能を動作させる場合を想定する。この場合、ユーザーは、コマンドを発話する前に、ステアリングホイールに取り付けられているスイッチ50を操作して、音声認識システム100に音声認識の開始を通知する。これを受けて、マスターユニット20とナビユニット40はそれぞれ音声認識処理を開始する。
 ユーザーは、スイッチ50を操作した後で、「目的地設定」→「神奈川県厚木市○○○」とコマンドを発話する。或いは、「目的地設定 神奈川県厚木市○○○」と連続発話してもよい。すると、マイク10がこの発話を集音して音声データに変換し、音声データをマスターユニット20に送信する。そして、マスターユニット20の第1音声認識処理部31は、発話の一部であって第1の辞書データにある語彙「目的地設定」だけを認識する(第1の辞書データには無い「神奈川県厚木市○○○」は認識しない。)。マスターユニット20は、この第1音声認識処理部31による音声認識の結果を第1の音声認識結果とする。また、第1音声認識処理部31は、音声データをナビユニット40に転送する。
 ナビユニット40の第2音声認識処理部41は、第2の辞書データにある語彙「目的地設定」、「神奈川県厚木市○○○」を両方とも認識する。そして、ナビユニット40は、この音声認識の結果(即ち、第2の音声認識結果)と、必要なパラメータ(例えば、ナビユニット40で音声認識した結果をマスターユニット20に認識させるための設定値等)とを通信ライン80を介してマスターユニット20に送信する。
 マスターユニット20は、第1の音声認識結果及び第2の音声認識結果の何れにも「目的地設定」が含まれていることから、ユーザーが発話した内容はナビ機能に属するものと認識する。この結果を受けて、マスターユニット20はナビ機能に関してより多くの語彙を含む第2の音声認識結果を採用して、ナビユニット40にナビ機能の実行を指示する。
 即ち、マスターユニット20は、ナビユニット40に「神奈川県厚木市○○○」を目的地とするナビ機能の実行を指示する。ナビユニット40は、この指示を受けて、「神奈川県厚木市○○○」を目的地とするナビ機能を実行する。
 この実施形態では、マスターユニット20が第1のユニットに対応し、マスターユニット20の各機能(例えば、オーディオ機能、画面表示機能、電話機能及び車両連携機能)が第1の機能に対応している。また、ナビユニット40が第2のユニットに対応し、ナビ機能が第2の機能に対応している。さらに、第1音声認識処理部31が第1の音声認識処理部に対応し、第1音声認識辞書32が第1の辞書に対応している。また、第2音声認識処理部41が第2の音声認識処理部に対応し、第2音声認識辞書42が第2の辞書に対応している。さらに、音声認識システム100が音声認識装置に対応している。
(実施形態の効果)
 実施形態は、次のような効果を奏する。
(1)音声認識システム100は、車載され複数の機能を有するマスターユニット20と、車載されナビ機能を有するナビユニット40とを備える。車室内でユーザーが発話した音声に、マスターユニット20の各機能又はナビ機能に関係する言葉が含まれている場合、マスターユニット20の第1音声認識処理部31は第1音声認識辞書32を用いて音声認識処理を行い、ナビユニット40の第2音声認識処理部41は第2音声認識辞書42を用いて音声認識処理を行う。第1音声認識辞書32にはマスターユニット20の各機能に属する語彙が予め格納され、第2音声認識辞書42にはナビ機能に属する語彙が予め格納されている。このように、音声認識システム100では、車載され、機能が異なる2つのユニットが、互いに異なる辞書を用いて音声認識処理を分担して行う。これにより、音声認識システム100は、車室内でのユーザーの発話を音声認識する際に、外部通信を行わずに、音声認識の処理負荷が過大にならないようにすることができる。
(2)また、第1音声認識処理部31と第2音声認識処理部41は、例えば同期して、同一の音声データを第1音声認識辞書32及び第2音声認識辞書42とそれぞれ照合する。これにより、ユーザーが発話した音声にマスターユニット20の各機能又はナビ機能に関係する言葉が含まれている場合、音声認識システム100は、第1音声認識処理部31が出力する第1の音声認識結果及び第2音声認識処理部41が出力する第2の音声認識結果の何れか一方を採用することによって、その音声を認識することができる。従って、ユーザーがユニットを指定しないでコマンドを発話したり連続発話した場合でも、音声認識システム100は、その発話を音声認識することができる。
(3)上述したように、第1音声認識処理部31は、第1の辞書データとして、マスターユニット20の各機能に属する語彙だけでなく、ナビ機能に属する語彙も格納している。このため、ナビユニット40からマスターユニット20に向けて音声認識に必要な辞書データ(例えば、第2の辞書データ等)を送信する必要がなく、音声認識処理の所要時間を短縮することができる。よって、音声認識処理を高速化することができる。
 例えば、第2音声認識辞書42に格納する第2の辞書データは、県、市、町の名称、施設のジャンル、施設の名称、交差点の名称、ストリートの名称等々、地図データに依存する読み込み専用データである。これらのデータ量は非常に大きく、例えば1ギガバイト以上ある。これらの情報を例えばUSB通信で送信する場合、例えば十数分の時間を要する。これに対して、本実施形態では、上記のような大容量の辞書データを送受信する必要はないので、音声認識処理の所要時間を短縮することができる。
(4)マスターユニット20は音声認識結果判定部34を有する。音声認識結果判定部34は、発話の内容がマスターユニット20の各機能又はナビ機能のどちらに属するかを判定する(例えば、ステップS70)。この判定はマスターユニット20内で行うことができる。マスターユニット20は、この判定を行うために第1の音声認識結果を外部へ送信したり、判定結果を外部から受信したりする必要はない。このため、音声認識処理の所要時間をさらに短縮することができる。
(5)マスターユニット20は音声認識結果採用部35を有する。第1音声認識処理部31、第2音声認識処理部41がそれぞれ音声データの少なくとも一部を認識した場合(例えば、ステップS50、S60がそれぞれYesの場合)、音声認識結果採用部35は、音声認識結果判定部34の判定結果に基づいて(即ち、発話の内容を判定材料として)、第1、第2の音声認識結果の何れか一方を採用する。ここで、第1の辞書データよりも第2の辞書データの方が、ナビ機能に属する語彙の情報量が大きい。これにより、音声認識結果採用部35は、第1、第2の音声認識結果のうち、発話の内容と一致する可能性がある語彙をより多く含む辞書と照合することによって出力した音声認識結果を、音声認識システム100における音声認識結果として採用することができる。
(6)音声認識結果採用部35は、第1音声認識処理部31が音声データを認識し、且つ第2音声認識処理部41が音声データを認識しない場合は第1の音声認識結果を採用する(例えば、ステップS110)。また、音声認識結果採用部35は、第1音声認識処理部31が音声データを認識せず、且つ第2音声認識処理部41が音声データを認識する場合は第2の音声認識結果を採用する(例えば、ステップS100)。このように、第1音声認識処理部31及び第2音声認識処理部41の何れか一方が音声データを認識しなかった場合でも、その他方が音声データを認識した場合は、該他方が出力する音声認識結果を採用する。これにより、音声認識システム100は、音声認識結果を出力できる可能性を高めることができる。
(7)マスターユニット20は、音声認識結果採用部35が採用した第1、第2の音声認識結果の何れか一方に従って、マスターユニット20の各機能部(例えば、オーディオ機能部21、画面表示機能部22、電話機能部23若しくは車両連携機能部24)、又は、ナビユニット40のナビ機能部44に各種処理の実行を指示する機能実行指示部36を有する。これにより、マスターユニット20の各機能や、ナビユニット40のナビ機能をそれぞれ音声で操作することができる。
(変形例)
(1)上記の実施形態では、第2のユニットとしてナビユニット40を例示した。しかしながら、第2のユニットはナビユニットに限定されるものではない。第2のユニットは、例えば、第2音声認識処理部と、オーディオ機能部とを有するオーディオユニットでもよい。
 図5は、本発明の変形例に係る音声認識システム100Aの構成例を示す概念図である。図5に示すように、音声認識システム100Aは、第2のユニットとして、ナビユニット40の代わりにオーディオユニット40Aを有する。オーディオユニット40Aは、第2音声認識処理部41Aとオーディオ機能部21とを有する。また、第2音声認識処理部41Aは、第2音声認識辞書42Aと、第2音声認識エンジン43Aとを有する。第2音声認識辞書42Aには、第2の辞書データとして、図2(a)に示したようなオーディオ機能に属する複数の語彙を予め格納しておく。
 また、マスターユニット20は、オーディオ機能部に代えて、ナビ機能部44を有する。マスターユニット20が有する第1音声認識辞書32には、第1の辞書データとして、コマンドの接頭語となる「Play Artist」など、オーディオ機能に属する複数の語彙を予め格納しておく。
 このような構成であれば、例えば、ユーザーが音声で選曲操作を行う場合、ユーザーが発話するコマンド「Play Artist」→「○○○(アーティスト名)」のうちの接頭語「Play Artisit」だけをマスターユニット20は認識することができる。或いは、ユーザーによる連続発話「Play Artist ○○○(アーティスト名)」のうち「Play Artisit」だけをマスターユニット20は認識することができる。このように、第2のユニットがオーディオユニット40Aの場合でも、音声認識システム100Aは図3に示した各ステップを実行できる。従って、変形例(1)も上記の実施形態の効果(1)~(7)と同様の効果を奏する。
 変形例(1)では、オーディオユニット40Aが第2のユニットに対応し、オーディオ機能が第2の機能に対応している。また、音声認識システム100Aが音声認識装置に対応している。
(2)上記の実施形態では、第2のユニットが一つの場合について例示した。しかしながら、第2のユニットは一つに限定されず、複数でもよい。例えば、第2のユニットは、実施形態で説明したナビユニット40と、変形例(1)で説明したオーディオユニット40Aの両方でもよい。
 図6は、本発明の変形例に係る音声認識システム100Bの構成例を示す概念図である。図6に示すように、音声認識システム100Bは、第2のユニットとして、ナビユニット40及びオーディオユニット40Aを有する。マスターユニット20とナビユニット40との間、及び、マスターユニット20とオーディオユニット40Aとの間はそれぞれ転送ライン65及び通信ライン80で接続されている。また、スイッチ50とナビユニット40との間、及び、スイッチ50とオーディオユニット40Aとの間はそれぞれ信号ライン70で接続されている。
 このような構成であっても、音声認識システム100Bは図3に示した各ステップを実行できる。即ち、ナビユニット40及びオーディオユニット40Aはそれぞれ、図3のステップS10b、S20b、S30b、S40bを実行できる。従って、変形例(2)も上記の実施形態の効果(1)~(7)と同様の効果を奏する。
 変形例(2)では、ナビユニット40とオーディオユニット40Aがそれぞれ第2のユニットに対応し、ナビ機能とオーディオ機能がそれぞれ第2の機能に対応している。また、音声認識システム100Bが音声認識装置に対応している。
 以上、本願が優先権を主張する日本国特許出願2013-241065(2013年11月21日出願)の全内容は、参照により本開示の一部をなす。
 ここでは、限られた数の実施形態を参照しながら説明したが、権利範囲はそれらに限定されるものではなく、上記の開示に基づく各実施形態の改変は当業者にとって自明なことである。
10 マイクロフォン
20 マスターユニット
21 オーディオ機能部
22 画面表示機能部
23 電話機能部
24 車両連携機能部
31 第1音声認識処理部
32 第1音声認識辞書
33 第1音声認識エンジン
34 音声認識結果判定部
35 音声認識結果採用部
36 機能実行指示部
40 ナビユニット
40A オーディオユニット
41、41A 第2音声認識処理部
42、42A 第2音声認識辞書
43、43A 第2音声認識エンジン
44 ナビ機能部
50 スイッチ
60 音声ライン
70 信号ライン
80 通信ライン
100、100A、100B 音声認識システム

Claims (5)

  1.  第1の機能を有する第1のユニットと、前記第1の機能とは異なる第2の機能を有する第2のユニットとを備え、車載された音声認識装置であって、
     前記第1のユニットは、前記第1の機能に属する語彙を第1の辞書データとして第1の辞書に予め格納し、車室内で発話された音声を電気信号に変換した音声データを前記第1の辞書と照合しつつ、前記音声データを第2のユニットに転送する第1の音声認識処理部を有し、
     前記第2のユニットは、前記第2の機能に属する語彙を第2の辞書データとして第2の辞書に予め格納し、前記第1のユニットから転送された前記音声データを前記第2の辞書と照合して第2の音声認識結果を前記第1のユニットに出力する第2の音声認識処理部を有し、
     前記第1のユニットは、前記第1の辞書との照合結果である第1の音声認識結果と、前記第2の音声認識結果とに基づいて、最終認識結果を判定する音声認識結果判定部を有することを特徴とする音声認識装置。
  2.  前記音声認識結果判定部は、
     前記第1の音声認識結果及び前記第2の音声認識結果の少なくとも一方に基づいて、前記発話の内容が前記第1の機能又は前記第2の機能のどちらに属するかを判定することを特徴とする請求項1に記載の音声認識装置。
  3.  前記第1のユニットは、
     前記音声認識結果判定部による判定結果に基づいて、前記第1の音声認識結果及び前記第2の音声認識結果の何れか一方を採用する音声認識結果採用部、をさらに有し、
     前記第1の辞書データは前記第2の機能に属する語彙を含み、かつ前記第1の辞書データよりも前記第2の辞書データの方が、前記2の機能に属する語彙の情報量が大きく、
     前記音声認識結果採用部は、前記第1の音声認識処理部及び前記第2の音声認識処理部がそれぞれ前記音声データの少なくとも一部を認識した場合であって、前記音声認識結果判定部が前記発話の内容が前記第1の機能に属すると判定したときは前記第1の音声認識結果を採用し、前記発話の内容が前記第2の機能に属すると判定したときは前記第2の音声認識結果を採用することを特徴とする請求項2に記載の音声認識装置。
  4.  前記音声認識結果採用部は、
     前記第1の音声認識処理部が前記音声データを認識し、且つ前記第2の音声認識処理部が前記音声データを認識しない場合は前記第1の音声認識結果を採用し、
     前記第1の音声認識処理部が前記音声データを認識せず、且つ前記第2の音声認識処理部が前記音声データを認識する場合は前記第2の音声認識結果を採用することを特徴とする請求項3に記載の音声認識装置。
  5.  前記第1のユニットは、
     前記音声認識結果採用部が採用した前記第1の音声認識結果及び前記第2の音声認識結果の何れか一方に従って、該第1のユニットに前記第1の機能の実行を指示し、又は、前記第2のユニットに前記第2の機能の実行を指示する機能実行指示部、をさらに有することを特徴とする請求項3又は請求項4に記載の音声認識装置。
PCT/JP2014/005683 2013-11-21 2014-11-12 音声認識装置 WO2015075903A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-241065 2013-11-21
JP2013241065A JP2017015744A (ja) 2013-11-21 2013-11-21 音声認識装置

Publications (1)

Publication Number Publication Date
WO2015075903A1 true WO2015075903A1 (ja) 2015-05-28

Family

ID=53179190

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/005683 WO2015075903A1 (ja) 2013-11-21 2014-11-12 音声認識装置

Country Status (2)

Country Link
JP (1) JP2017015744A (ja)
WO (1) WO2015075903A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146437A (ja) * 2016-02-17 2017-08-24 本田技研工業株式会社 音声入力処理装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022373A (ja) * 1999-07-02 2001-01-26 Alpine Electronics Inc 音声認識方法
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
JP2005181439A (ja) * 2003-12-16 2005-07-07 Nissan Motor Co Ltd 音声認識装置
JP2008089625A (ja) * 2006-09-29 2008-04-17 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
JP2010054896A (ja) * 2008-08-29 2010-03-11 Brother Ind Ltd 音声認識装置および音声認識プログラム
JP2013134302A (ja) * 2011-12-26 2013-07-08 Denso Corp 音声認識装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022373A (ja) * 1999-07-02 2001-01-26 Alpine Electronics Inc 音声認識方法
JP2005003997A (ja) * 2003-06-12 2005-01-06 Toyota Motor Corp 音声認識装置および音声認識方法ならびに車両
JP2005181439A (ja) * 2003-12-16 2005-07-07 Nissan Motor Co Ltd 音声認識装置
JP2008089625A (ja) * 2006-09-29 2008-04-17 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
JP2010054896A (ja) * 2008-08-29 2010-03-11 Brother Ind Ltd 音声認識装置および音声認識プログラム
JP2013134302A (ja) * 2011-12-26 2013-07-08 Denso Corp 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146437A (ja) * 2016-02-17 2017-08-24 本田技研工業株式会社 音声入力処理装置

Also Published As

Publication number Publication date
JP2017015744A (ja) 2017-01-19

Similar Documents

Publication Publication Date Title
US10083685B2 (en) Dynamically adding or removing functionality to speech recognition systems
EP3172729B1 (en) Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection
EP2581901A2 (en) Information terminal, server device, searching system and corresponding searching method
US20100217482A1 (en) Vehicle-based system interface for personal navigation device
US20120135714A1 (en) Information system for motor vehicle
US20190122661A1 (en) System and method to detect cues in conversational speech
US20110288867A1 (en) Nametag confusability determination
CN107819929A (zh) 优选表情符号的识别和生成
JP2009300537A (ja) 音声作動システム、音声作動方法および車載装置
JP2009530666A (ja) 外部ユーザの自動音声認識、口述、録音および再生を提供する方法
US10008205B2 (en) In-vehicle nametag choice using speech recognition
US9302677B2 (en) Methods for providing operator support utilizing a vehicle telematics service system
US10269350B1 (en) Responsive activation of a vehicle feature
US20150302851A1 (en) Gesture-based cues for an automatic speech recognition system
US20150341005A1 (en) Automatically controlling the loudness of voice prompts
US20200156537A1 (en) Voice activated vehicle alarm
JP2016218361A (ja) 音声認識システム、車載器およびサーバ装置
JP5181533B2 (ja) 音声対話装置
JP2015028566A (ja) 応答制御システム、車載器、およびセンター
JP6160794B1 (ja) 情報管理システムおよび情報管理方法
WO2015075903A1 (ja) 音声認識装置
JP2007183516A (ja) 音声対話装置及び音声認識方法
US20160307562A1 (en) Controlling speech recognition systems based on radio station availability
JP6109373B2 (ja) サーバー装置および検索方法
US10674427B2 (en) System and method to select and operate a mobile device through a telematics unit

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14863780

Country of ref document: EP

Kind code of ref document: A1

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14863780

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP