WO2024009465A1 - 音声認識装置、プログラム、音声認識方法、及び音声認識システム - Google Patents

音声認識装置、プログラム、音声認識方法、及び音声認識システム Download PDF

Info

Publication number
WO2024009465A1
WO2024009465A1 PCT/JP2022/026995 JP2022026995W WO2024009465A1 WO 2024009465 A1 WO2024009465 A1 WO 2024009465A1 JP 2022026995 W JP2022026995 W JP 2022026995W WO 2024009465 A1 WO2024009465 A1 WO 2024009465A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
information
unit
similarity
input
Prior art date
Application number
PCT/JP2022/026995
Other languages
English (en)
French (fr)
Inventor
皓祐 杉山
雅紀 前原
Original Assignee
パイオニア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パイオニア株式会社 filed Critical パイオニア株式会社
Priority to PCT/JP2022/026995 priority Critical patent/WO2024009465A1/ja
Publication of WO2024009465A1 publication Critical patent/WO2024009465A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present invention relates to a speech recognition device, a program, a speech recognition method, and a speech recognition system.
  • Patent Document 1 discloses a telephone device with a voice response function that can effectively prevent malfunctions of the voice response function due to surrounding noise without impairing the convenience of the voice response function.
  • Patent Document 2 discloses a voice adjustment device that appropriately adjusts the input gain and output gain of the voice signal according to the usage environment and improves the voice recognition rate. There is.
  • voice recognition may occur unintentionally due to radio or audio sounds. Furthermore, since the loudness and frequency of voices vary depending on the passenger, it may be difficult to recognize the voice.
  • An example of the problem to be solved by the present invention is to improve the accuracy of voice recognition in a vehicle.
  • the invention according to claim 1 includes: a voice input section into which the voice of a passenger in the vehicle is input; a voice recognition unit that recognizes the voice input to the voice input unit as first voice information; a determining unit that determines whether the similarity between the first audio information and second audio information stored in advance satisfies a predetermined criterion; a processing execution unit that executes a predetermined process when the similarity satisfies the predetermined criterion;
  • the speech recognition device includes: an adjustment unit that adjusts at least one of the similarity determination rule and the predetermined criterion in accordance with input from the passenger.
  • the invention according to claim 8 includes: For the computer that realizes the voice recognition device, Procedures for inputting the voice of passengers in the vehicle, a procedure for recognizing voice as first voice information; a step of determining whether the similarity between the first audio information and the second audio information stored in advance satisfies a predetermined criterion; performing a predetermined process if the similarity meets a predetermined criterion; This is a program for executing a procedure for adjusting at least one of a similarity determination rule and a predetermined criterion in accordance with input from a passenger.
  • the invention according to claim 9 includes:
  • the computer that realizes the speech recognition device is Input the voice of the passenger inside the vehicle, Recognize the voice as the first voice information, determining whether the similarity between the first audio information and the second audio information stored in advance satisfies a predetermined criterion; perform a predetermined process if the similarity satisfies a predetermined criterion;
  • This is a voice recognition method that adjusts at least one of a similarity judgment rule and a predetermined standard according to input from a passenger.
  • the invention according to claim 10 is A voice recognition system comprising an in-vehicle device installed in a vehicle and a server, a voice input section into which the voice of a passenger in the vehicle is input; a voice recognition unit that recognizes the voice input to the voice input unit as first voice information; a determination unit that determines whether the similarity between the first audio information and the second audio information stored in advance satisfies a predetermined criterion; a processing execution unit that executes a predetermined process when the similarity satisfies a predetermined criterion;
  • the speech recognition system further includes an adjustment unit that adjusts at least one of a similarity determination rule and a predetermined criterion in accordance with input from a passenger.
  • FIG. 1 is a block diagram schematically showing a speech recognition system and a speech recognition device according to a first embodiment
  • FIG. FIG. 2 is a simplified diagram for explaining a method for determining similarity by the determination unit of the first embodiment.
  • FIG. 7 is a simplified diagram for explaining a method for a determination unit to determine similarity when a plurality of pieces of second audio information are provided;
  • FIG. 1 is a diagram illustrating an example of a hardware configuration of a speech recognition device.
  • FIG. 2 is a flowchart until the speech recognition device of the first embodiment executes startup processing of the speech output unit.
  • FIG. 2 is a block diagram schematically showing a speech recognition system and a speech recognition device according to a second embodiment.
  • FIG. 6 is a simplified diagram for explaining a method for determining similarity by a determination unit according to the second embodiment.
  • FIG. 7 is a simplified diagram for explaining a method for a determination unit to determine similarity when a plurality of pieces of second text information are provided;
  • FIG. 10 is a flowchart until the speech recognition device according to the second embodiment executes activation processing of the speech output unit.
  • each component of each device represents a functional unit block rather than a hardware unit configuration.
  • Each component of each device consists of any combination of hardware and software, centering on the CPU of any computer, memory, programs loaded into the memory, storage media such as hard disks that store the programs, and network connection interfaces. realized by There are various modifications of the method and device for realizing this.
  • FIG. 1 is a block diagram schematically showing a speech recognition system 100 and a speech recognition device 1 according to the first embodiment.
  • a speech recognition system 100 and a speech recognition device 1 will be described using FIG. 1.
  • the voice recognition system 100 includes an in-vehicle device 2 and a server 3.
  • the on-vehicle device 2 is mounted in a vehicle.
  • the in-vehicle device 2 includes an audio output section 2a, a microphone section 2b, a camera section 2c, and a server communication section 2d.
  • the in-vehicle device 2 may include a display.
  • the audio output unit 2a is triggered by a specific utterance from the passenger.
  • the audio output unit 2a outputs mechanical audio.
  • the audio output unit 2a outputs, for example, information regarding route guidance to a destination in audio.
  • the passengers U include a driver and a fellow passenger.
  • the camera section 2c has an in-camera and an out-camera (not shown).
  • the interior camera faces inside the car, and the driver's seat is included in the shooting range.
  • the inside camera takes pictures of the inside of the vehicle so that the driver can be seen.
  • the outside camera faces outside the vehicle.
  • the outside camera photographs the outside of the vehicle.
  • the server 3 is provided outside the vehicle.
  • the server 3 may be a so-called cloud server.
  • the speech recognition device 1 is the server 3.
  • the speech recognition device 1 includes a speech input section 10, a speech recognition section 20, a judgment section 30, a processing execution section 40, an adjustment section 50, a storage section 60, and an on-vehicle device communication section 70.
  • the voice input unit 10 receives the voice of the passenger U in the vehicle.
  • the voice input to the microphone section 2b is transmitted to the voice input section 10, so that the voice of the passenger is input to the voice input section 10.
  • the voice input to the voice input section 10 is transmitted to the voice recognition section 20.
  • the speech recognition section 20 recognizes the speech input to the speech input section 10 as first speech information.
  • the first audio information includes at least one of information regarding the audio waveform as an audio signal, information regarding the loudness of the audio, and information regarding the frequency of the audio.
  • the speech recognition unit 20 recognizes the first speech information using score information.
  • the score information is information that quantifies the probability that the voice uttered by the passenger U is a predetermined term.
  • the determining unit 30 compares the first voice information recognized by the voice recognition unit 20 with the second voice information, and determines whether the similarity between the two satisfies a predetermined criterion.
  • the second audio information is stored in the storage unit 60 in advance.
  • the second audio information includes at least one of information regarding the audio waveform, information regarding the volume of the audio, and information regarding the frequency of the audio for a specific sentence including the Japanese syllabary and the long sound symbol.
  • FIG. 2 is a simplified diagram for explaining how the determining unit 30 of the first embodiment determines similarity.
  • the determining unit 30 compares the first audio information and the second audio information to calculate score information.
  • the score information indicates, for example, the degree of similarity of the first audio information to the second audio information.
  • FIG. 3 is a simplified diagram for explaining the method by which the determining unit 30 determines similarity when a plurality of pieces of second audio information are provided.
  • the storage unit 60 stores a plurality of pieces of second audio information.
  • the wordings corresponding to the plurality of pieces of second audio information are different from each other as a whole, but have some parts in common. That is, one of the plurality of pieces of second voice information indicates the exact phrase to be uttered by the passenger ("E-B" in FIG. 3).
  • the remaining second voice information is a part of the phrase that the passenger should utter ("Bishee" in Figure 3), or a partially modified phrase that the passenger should utter ("Bishee” in Figure 3). Inside is ⁇ Ebishi'' (shrimp).
  • the determining unit 30 compares the first audio information and the plurality of second audio information, and calculates score information for each of the plurality of second audio information.
  • the determining unit 30 outputs a determination result for each of the plurality of pieces of second audio information. In the example of FIG. 3, the determining unit 30 determines that the first voice information and "Bishii" (second voice information) are similar.
  • the determination unit 30 determines that the first audio information and the second audio information are similar. It may be determined that there is. That is, when any of the score information regarding each of the plurality of second audio information exceeds the threshold, the determination unit 30 determines that the similarity between the first audio information and the second audio information satisfies a predetermined criterion. It may be determined that
  • the processing execution unit 40 shown in FIG. 1 executes a predetermined process when the similarity between the first audio information and the second audio information satisfies a predetermined criterion.
  • the processing execution unit 40 executes a predetermined process.
  • the predetermined processing includes activation processing of the audio output section 2a of the in-vehicle device 2. That is, in the first embodiment, when the passenger U speaks a specific word and the word is recognized by the voice recognition device 1, the voice output unit 2a is activated.
  • the adjustment unit 50 shown in FIG. 1 adjusts at least one of a rule for determining the similarity between the first audio information and the second audio information and a predetermined criterion, according to an input from the passenger U.
  • the adjustment unit 50 adjusts at least one of the determination rule and the criteria via a terminal managed by the passenger U.
  • the terminal include a smartphone, a tablet, and a PC (personal computer).
  • a step in which the adjustment unit 50 adjusts at least one of the similarity determination rule and the predetermined criteria in accordance with input from the passenger U will be described below.
  • the adjustment unit 50 When the adjustment unit 50 receives an input from the passenger U, the adjustment unit 50 adjusts at least one of the determination rule and the predetermined criteria.
  • the passenger U may want to set the voice recognition rate low because voices may be unintentionally recognized due to radio, audio, and other external sounds.
  • the passenger U performs input so that the speech recognition rate of the speech recognition device 1 becomes low.
  • the threshold value becomes high, it becomes difficult to judge that the first sound information and the second sound information are similar, and therefore it becomes difficult to recognize the sound uttered by the passenger U.
  • the speech recognition rate of the speech recognition device 1 becomes low.
  • the passenger U may want to set the voice recognition rate high because it may be difficult to recognize the voice due to the characteristics of the voice of the passenger U.
  • the passenger U performs input so that the speech recognition rate of the speech recognition device 1 becomes high.
  • the adjustment unit 50 adjusts to increase the number of second audio information to be compared with the first audio information.
  • FIG. 4 is a diagram showing an example of the hardware configuration of the speech recognition device 1.
  • the speech recognition device 1 includes a bus 1010, a processor 1020, a memory 1030, a storage device 1040, an input/output interface 1050, and a network interface 1060.
  • the bus 1010 is a data transmission path through which the processor 1020, memory 1030, storage device 1040, input/output interface 1050, and network interface 1060 exchange data with each other.
  • the method of connecting the processors 1020 and the like to each other is not limited to bus connection.
  • the processor 1020 is a processor implemented by a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or the like.
  • the memory 1030 is a main storage device implemented by RAM (Random Access Memory) or the like.
  • the storage device 1040 is an auxiliary storage device realized by a removable medium such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, or a ROM (Read Only Memory), and has a recording medium. There is.
  • the recording medium of the storage device 1040 stores program modules that implement each function of the speech recognition device 1 (for example, the speech input section 10, the speech recognition section 20, the judgment section 30, the processing execution section 40, and the adjustment section 50). There is.
  • the processor 1020 reads each of these program modules onto the memory 1030 and executes them, each function corresponding to the program module is realized.
  • the storage device 1040 also functions as the storage unit 60.
  • the input/output interface 1050 is an interface for connecting the speech recognition device 1 and various input/output devices.
  • the network interface 1060 is an interface for connecting the speech recognition device 1 to a network.
  • This network is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network).
  • the method by which the network interface 1060 connects to the network may be a wireless connection or a wired connection.
  • the speech recognition device 1 may communicate with the in-vehicle device 2 via the network interface 1060.
  • FIG. 5 is a flowchart until the speech recognition device 1 of the first embodiment executes the activation process of the speech output unit 2a. The flow until the speech recognition device 1 executes the activation process of the speech output unit 2a will be described using FIG. 5.
  • step S100 the voice of the passenger U is input to the voice input unit 10.
  • step S110 the voice recognition unit 20 recognizes the voice input to the voice input unit 10 as first voice information.
  • step S120 the determining unit 30 determines whether the similarity between the first audio information and the second audio information stored in advance satisfies a predetermined criterion. If the predetermined criteria are met (Yes in step S120), startup processing for the audio output unit 2a is executed in step S130. If the predetermined criteria are not met (No in step S120), the process returns to step S100 again. Note that if the predetermined criterion is not satisfied (No in step S120), the control may be terminated.
  • the speech recognition device 1 of the present embodiment includes a determination unit 30 that determines whether the similarity between the first speech information and the second speech information satisfies a predetermined criterion; A processing execution unit 40 that executes a predetermined process when the passenger .
  • Predetermined processes starting process of the voice output unit 2a, process related to destination setting, process related to route guidance, etc.
  • passenger U himself/herself can adjust the voice recognition rate, so it is possible to suppress the possibility that the predetermined process will be executed unintentionally and erroneously.
  • the passenger U can improve the voice recognition rate of the voice recognition device 1 by himself/herself.
  • the adjustment unit 50 adjusts at least one of the judgment rule and the criteria via a terminal managed by the passenger U, so that the passenger U himself or herself can easily adjust the voice recognition rate.
  • processing execution unit 40 executes the activation process of the audio output unit 2a, it is possible to improve the accuracy of speech recognition of the wake word.
  • FIG. 6 is a block diagram schematically showing a speech recognition system 100 and a speech recognition device 1 according to the second embodiment.
  • the speech recognition device 1 of the second embodiment further includes a text conversion section 80.
  • the first audio information is converted into first text information by the text conversion unit 80.
  • the first text information includes character information such as the Japanese syllabary and the long sound symbol.
  • the second text information is stored in the storage unit 60 in advance.
  • the second text information includes character information such as the Japanese syllabary and the long sound symbol.
  • FIG. 7 is a diagram showing an example of the data structure of the second text information and information linked thereto stored in the storage unit 60 of the second embodiment.
  • the second text information is associated with an ID, a priority, and information as to whether or not it is a determination target.
  • FIG. 8 is a simplified diagram for explaining how the determining unit 30 of the second embodiment determines similarity.
  • the determining unit 30 determines whether the similarity between the first text information converted by the text converting unit 80 and the second text information satisfies a predetermined criterion.
  • the determining unit 30 recognizes the proportion of the second text information included in the first text information, and determines whether a predetermined criterion is satisfied. This will be explained in detail below.
  • the judgment unit 30 compares the text-converted "B-S" with the second text information "B-S" to be determined, and determines how much of the second text information is included in the first text information. Calculate the percentage of In the case of FIG. 8, the first text information and the second text information partially match in the "bishy" part, so the above ratio is calculated to be about 67%.
  • the determination unit 30 determines that the first text information and the second text information are similar. In other words, the determining unit 30 determines that the similarity between the first text information and the second text information satisfies a predetermined criterion.
  • FIG. 9 is a simplified diagram for explaining how the determining unit 30 determines similarity when a plurality of pieces of second text information are provided.
  • the passenger U utters "E-B-S”
  • the voice recognition section 20 recognizes the voice of the utterance as the first voice information
  • the second text information to be determined for similarity to the first text information may be set in advance.
  • "EBSC” and “KBS" are the targets of determination.
  • the determining unit 30 compares the value of the ratio with a threshold value and determines whether it exceeds the threshold value. As for "E-B-S" in the second text information, it is less than 90% of the threshold value, so the determination unit 30 determines that the first text information and the second text information are dissimilar.
  • the second text information “KBS” (ID: 003 in Figure 9) and the first text information “KBS” are a complete match, and the above percentage is calculated as 100%. be done. Then, the determining unit 30 compares the value of the ratio with a threshold value and determines whether it exceeds the threshold value. Regarding the second text information "KBS". Since it exceeds the threshold of 90%, the determining unit 30 determines that the first text information and the second text information are similar (or identical).
  • the determining unit 30 determines that the similarity between the first text information and the second text information satisfies a predetermined criterion.
  • a predetermined criterion In the example of FIG. 9, "E-B-S" does not exceed the threshold, but "K-B" exceeds the threshold, so the determination unit 30 determines that the above-mentioned similarity satisfies the predetermined criteria. I judge that.
  • the adjustment unit 50 upon receiving an input from the passenger U, the adjustment unit 50 adjusts at least one of the determination rule and the predetermined standard.
  • the judgment rule includes judgment target information.
  • the determination target information also includes information on which second text information is to be compared with the first text information.
  • the determination target information includes, for example, information as to which second text information among the second text information ID:001 to ID:010 is to be set as a determination target.
  • the adjustment unit 50 may adjust the determination target information according to input from the passenger U. That is, the adjustment unit 50 may adjust which second text information is to be determined in accordance with input from the passenger U. Further, the adjustment unit 50 may preferentially include second text information having a relatively high priority as a determination target.
  • the adjustment unit 50 adjusts the determination rule, the number of pieces of second audio information used for comparison with the first audio information increases or decreases.
  • a priority is set for the second audio information
  • the adjustment unit 50 increases the number of the second audio information, it preferentially increases the second audio information with a high priority, and When reducing the number of information, the second audio information having a high priority may be reduced preferentially. Note that when the adjustment unit 50 increases or decreases the number of the second audio information, it is possible to arbitrarily select whether to increase or decrease the second audio information with a high priority or the second audio information with a low priority. be.
  • FIG. 10 is a diagram showing another example of the data structure of the second text information and information linked thereto stored in the storage unit 60 of the second embodiment. As shown in FIG. 9, the information may be organized in one data table T01, or as shown in FIG. 10, a plurality of data tables (T01 to T10) may be provided.
  • the adjustment unit 50 may be configured to add or delete the second text information and information linked thereto from the data table T01 in accordance with input from the passenger U.
  • the adjustment unit 50 may be configured to increase or decrease the number of data tables to be determined in accordance with input from the passenger U.
  • FIG. 11 is a flowchart until the speech recognition device 1 of the second embodiment executes the activation process of the speech output unit 2a.
  • the text conversion unit 80 converts the first voice information into first text information.
  • the determining unit 30 compares the first text information and the second text information, and determines whether the similarity between the first text information and the second text information satisfies a predetermined criterion. If the predetermined criteria are met (Yes in step S121), startup processing for the audio output unit 2a is executed in step S130. If the predetermined criteria are not met (No in step S121), the process returns to step S100 again. Note that if the predetermined criteria are not met (No in step S121), the control may be terminated.
  • the speech recognition accuracy of the speech recognition device 1 in the vehicle can be improved.
  • the speech recognition accuracy of the speech recognition device 1 is improved. can be further improved.
  • the determining unit 30 can clearly determine the similarity by recognizing the proportion of the second text information included in the first text information and determining whether or not it satisfies a predetermined criterion. Therefore, the speech recognition accuracy of the speech recognition device 1 can be further improved.
  • the adjustment unit 50 can effectively improve the speech recognition accuracy of the speech recognition device 1.
  • the adjustment unit 50 can more effectively improve the speech recognition accuracy of the speech recognition device 1 by preferentially including the second speech information having a relatively high priority in the judgment target.
  • the voice recognition device 1 has been explained as the server 3, but the voice recognition device 1 may be the in-vehicle device 2.
  • the voice input section 10, the voice recognition section 20, the determination section 30, the processing execution section 40, and the adjustment section 50 may be included in the in-vehicle device 2.
  • the storage unit 60 may be provided outside the speech recognition device 1.
  • the predetermined process may include a process related to destination setting of the vehicle and a process related to route guidance, in addition to the process of activating the audio output unit 2a.
  • a voice input section into which the voice of a passenger in the vehicle is input; a voice recognition unit that recognizes the voice input to the voice input unit as first voice information; a determining unit that determines whether the similarity between the first audio information and second audio information stored in advance satisfies a predetermined criterion; a processing execution unit that executes a predetermined process when the similarity satisfies the predetermined criterion;
  • a voice recognition device comprising: an adjustment unit that adjusts at least one of the similarity determination rule and the predetermined criterion in accordance with input from the passenger.
  • the judgment unit is a speech recognition device that judges whether the similarity between the first text information and second text information stored in advance satisfies the predetermined criterion. 3. 2. In the speech recognition device described in The judgment unit is a speech recognition device that recognizes a ratio of the second text information included in the first text information and judges whether the predetermined criterion is satisfied. 4. 1. From 3. In the speech recognition device according to any one of The judgment rule includes judgment target information for specifying the second voice information to be judged for similarity from among the plurality of second voice information, The adjustment unit is a voice recognition device that adjusts the determination target information according to input from the passenger. 5. 4.
  • the adjustment unit is a speech recognition device in which the second speech information having the relatively high priority is preferentially included in the determination target. 6. 1. From 5. In the speech recognition device according to any one of The adjustment unit is a voice recognition device that adjusts at least one of the judgment rule and the criterion via a terminal managed by the passenger. 7. 1. From 6. In the speech recognition device according to any one of In the speech recognition device, the predetermined processing includes activation processing of a speech output unit. 8.
  • Procedures for inputting the voice of passengers in the vehicle a step of recognizing the voice as first voice information; a step of determining whether the similarity between the first voice information and second voice information stored in advance satisfies a predetermined criterion; performing a predetermined process if the similarity satisfies the predetermined criterion;
  • the computer that realizes the speech recognition device is Input the voice of the passenger inside the vehicle, Recognizing the voice as first voice information, determining whether the similarity between the first audio information and second audio information stored in advance satisfies a predetermined criterion; performing a predetermined process if the similarity satisfies the predetermined criterion; A voice recognition method, wherein at least one of the similarity determination rule and the predetermined criterion is adjusted in accordance with input from the passenger. 10.
  • a voice recognition system comprising an in-vehicle device installed in a vehicle and a server, a voice input section into which the voice of a passenger in the vehicle is input; a voice recognition unit that recognizes the voice input to the voice input unit as first voice information; a determining unit that determines whether the similarity between the first audio information and second audio information stored in advance satisfies a predetermined criterion; a processing execution unit that executes a predetermined process when the similarity satisfies the predetermined criterion;
  • a voice recognition system further comprising: an adjustment unit that adjusts at least one of the similarity determination rule and the predetermined criterion in accordance with input from the passenger.
  • Speech recognition device In-vehicle device 2a Speech output unit 3 Server 10 Speech input unit 20 Speech recognition unit 30 Judgment unit 40 Process execution unit 50 Adjustment unit 60 Storage unit 70 In-vehicle communication unit 100 Speech recognition system

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

音声入力部(10)と、音声認識部(20)と、判断部(30)と、処理実行部(40)と、調整部(50)と、を備える、音声認識装置1である。音声入力部(10)は、車両内の搭乗者の音声が入力される。音声認識部(20)は、音声入力部(10)に入力された音声を第1音声情報として認識する。判断部(30)は、第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する。処理実行部(40)は、類似性が所定の基準を満たしていた場合に所定の処理を実行する。調整部(50)は、類似性の判断ルール、及び前記所定の基準の少なくとも一方を、搭乗者からの入力に従って調整する。

Description

音声認識装置、プログラム、音声認識方法、及び音声認識システム
 本発明は、音声認識装置、プログラム、音声認識方法、及び音声認識システムに関する。
 たとえば特開2000-106592号公報(特許文献1)には、音声応答機能の利便性を損ねること無く、周囲の雑音による音声応答機能の誤作動を良好に防止可能な音声応答機能付電話装置が開示されている。また、特開2016-85420号公報(特許文献2)には、音声信号の入力ゲインや出力ゲインを使用環境に合わせて適切に調整し、音声認識率を向上させた音声調整装置が開示されている。
特開2000-106592号公報 特開2016-85420号公報
 車両内において、ラジオやオーディオ音などにより、意図せず音声認識される場合がある。また、搭乗者によって声の大きさや周波数などが異なるため、音声認識されづらい場合がある。
 本発明が解決しようとする課題としては、車両内における音声認識精度を向上することが一例として挙げられる。
 請求項1に記載の発明は、
 車両内の搭乗者の音声が入力される音声入力部と、
 前記音声入力部に入力された前記音声を第1音声情報として認識する音声認識部と、
 前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
 前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
 前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、を備える、音声認識装置である。
 請求項8に記載の発明は、
 音声認識装置を実現するコンピュータに、
 車両内の搭乗者の音声を入力する手順、
 音声を第1音声情報として認識する手順、
 第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する手順、
 類似性が所定の基準を満たしていた場合に所定の処理を実行する手順、
 類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者からの入力に従って調整する手順、を実行させるためのプログラムである。
 請求項9に記載の発明は、
 音声認識装置を実現するコンピュータが、
 車両内の搭乗者の音声を入力し、
 音声を第1音声情報として認識し、
 第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断し、
 類似性が所定の基準を満たしていた場合に所定の処理を実行し、
 類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者からの入力に従って調整する、音声認識方法である。
 請求項10に記載の発明は、
 車両内に搭載された車載装置と、サーバとを備える音声認識システムであって、
 車両内の搭乗者の音声が入力される音声入力部と、
 音声入力部に入力された音声を第1音声情報として認識する音声認識部と、
 第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
 類似性が所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
 類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者からの入力に従って調整する調整部と、をさらに備える、音声認識システムである。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1実施形態の音声認識システム及び音声認識装置の概略を示すブロック図である。 第1実施形態の判断部が類似性を判断する方法を説明するための簡略図である。 複数の第2音声情報が設けられている場合において、判断部が類似性を判断する方法を説明するための簡略図である。 音声認識装置のハードウエア構成例を示す図である。 第1実施形態の音声認識装置が音声出力部の起動処理を実行するまでのフロー図である。 第2実施形態の音声認識システム及び音声認識装置の概略を示すブロック図である。 第2実施形態の記憶部に記憶された第2テキスト情報及びそれに紐づく情報のデータ構造の一例を示す図である。 第2実施形態の判断部が類似性を判断する方法を説明するための簡略図である。 複数の第2テキスト情報が設けられている場合において、判断部が類似性を判断する方法を説明するための簡略図である。 第2実施形態の記憶部に記憶された第2テキスト情報及びそれに紐づく情報のデータ構造の別例を示す図である。 第2実施形態の音声認識装置が音声出力部の起動処理を実行するまでのフロー図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
 なお、以下に示す説明において、各装置の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。各装置の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム、そのプログラムを格納するハードディスクなどの記憶メディア、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置には様々な変形例がある。
 [第1実施形態]
 図1は、第1実施形態の音声認識システム100及び音声認識装置1の概略を示すブロック図である。図1を用いて音声認識システム100及び音声認識装置1について説明する。
 (音声認識システム100)
 音声認識システム100は、車載装置2と、サーバ3とを備えている。車載装置2は、車両内に搭載されている。車載装置2は、音声出力部2aと、マイク部2bと、カメラ部2cと、サーバ通信部2dとを含む。図示されていないが、車載装置2は、ディスプレイを含んでいてもよい。
 第1実施形態において、音声出力部2aは、搭乗者からの特定の発話をトリガーに起動する。音声出力部2aは、機械音声を出力する。音声出力部2aは、例えば、目的地までのルート案内に関する情報を音声出力する。
 マイク部2bは、搭乗者U(=ユーザ)が発話した音声を受け付ける。搭乗者Uは、ドライバ及び同乗者を含む。
 カメラ部2cは、インカメラとアウトカメラを有する(図示しない)。インカメラは、車内に向いており、運転席が撮影範囲に含まれている。インカメラは、ドライバが映るように、車両内を撮影する。アウトカメラは、車両外に向いている。アウトカメラは、車両外の様子を撮影する。
 サーバ通信部2dは、ネットワーク101を介して、サーバ3(=車載装置通信部70)と通信可能な構成となっている。
 第1実施形態において、サーバ3は車両外に設けられている。サーバ3は、いわゆるクラウドサーバであってもよい。
 (音声認識装置1)
 第1実施形態において、音声認識装置1は、サーバ3である。音声認識装置1は、音声入力部10と、音声認識部20と、判断部30と、処理実行部40と、調整部50と、記憶部60と車載装置通信部70とを備える。
 (音声入力部10)
 音声入力部10は、車両内の搭乗者Uの音声が入力される。マイク部2bに入力された音声が音声入力部10に送信されることで、音声入力部10に搭乗者の音声が入力される。
 (音声認識部20)
 音声入力部10に入力された音声は、音声認識部20に送信される。音声認識部20は、音声入力部10に入力された音声を第1音声情報として認識する。第1音声情報は、音声信号としての音声波形に関する情報、音声の大きさに関する情報、及び音声の周波数に関する情報の少なくともいずれか1つを含んでいる。第1実施形態において、音声認識部20は、スコア情報を用いて、第1音声情報を認識する。スコア情報は、搭乗者Uの発話した音声が予め定められている用語であることの確からしさを数値化した情報である。
 (判断部30)
 判断部30は、音声認識部20が認識した第1音声情報と、第2音声情報とを比較し、両者の類似性が所定の基準を満たすか否かを判断する。第2音声情報は、記憶部60に予め記憶されている。第2音声情報は、五十音及び長音記号を含む特定の文言に対する音声波形に関する情報、音声の大きさに関する情報、及び音声の周波数に関する情報の少なくともいずれか1つを含んでいる。
 図2は、第1実施形態の判断部30が類似性を判断する方法を説明するための簡略図である。判断部30は、第1音声情報と第2音声情報を比較して、スコア情報を算出する。スコア情報は、たとえば、第2音声情報に対する第1音声情報の類似度を示している。スコア情報には、閾値(=所定の基準)が設けられており、搭乗者Uの発話した音声の第1音声情報のスコア情報が当該閾値を超えたとき、判断部30は、第1音声情報と、第2音声情報とが、類似している(又は同一である)と判断する。すなわち、第1音声情報のスコア情報が当該閾値を超えたとき、判断部30は、第1音声情報と、第2音声情報との類似性が所定の基準を満たしたと判断する。
 例えば、搭乗者Uの「abc(えーびーしー)」という発話を音声認識する場合について音声認識方法を説明する。音声認識部20は、搭乗者Uの発話した音声(=abc)を第1音声情報(=「xxx」(図2中のC01)。「xxx」は音声波形データなどである)として認識する。判断部30は、第1音声情報と、記憶部60に記憶された第2音声情報である「えーびーしー」(=図2中のC02)とを比較し、スコア情報(=図2中のC03)を算出する。
 判断部30は、算出されたスコア情報と記憶部60に記憶された閾値(=図2中のC04)とを比較して、当該閾値を超えたか否かを判断する。当該閾値を超えた場合、判断部30は、第1音声情報と第2音声情報が類似している(又は同一)と判断する。言い換えれば、当該閾値を超えた場合、判断部30は、搭乗者Uが「abc(えーびーしー)」と発話したと判断する(=図2中の「判断結果:類似」)。図2の例では、算出されたスコア情報は100であり、閾値の80を超えているので、判断部30は、第1音声情報と第2音声情報が類似していると判断する。
 図3は、複数の第2音声情報が設けられている場合において、判断部30が類似性を判断する方法を説明するための簡略図である。第1実施形態において、記憶部60には、複数の第2音声情報が記憶されている。複数の第2音声情報に対応している文言のそれぞれは、全体としては互いに異なっているが、部分的に共通している。すなわち、複数の第2音声情報の一つは、搭乗者が発話すべき文言そのものを示している(図3中の「えーびーしー」)。そして残りの第2音声情報は、搭乗者が発話すべき文言の一部(図3中の「びーしー」)、又は、搭乗者が発話すべき文言を部分的に変更した文言(図3中の「えびし」)となっている。
 判断部30は、第1音声情報と複数の第2音声情報とをそれぞれ比較し、複数の第2音声情報それぞれに対して、スコア情報を算出する。判断部30は、複数の第2音声情報それぞれに対して、判断結果を出力する。図3の例では、判断部30は、第1音声情報と、「びーしー」(第2音声情報)とが類似していると判断している。
 第1実施形態において、複数の第2音声情報のそれぞれに係るスコア情報のいずれかが閾値を超えているとき、判断部30は、第1音声情報と、第2音声情報とが、類似していると判断してもよい。すなわち、複数の第2音声情報のそれぞれに係るスコア情報のいずれかが閾値を超えているとき、判断部30は、第1音声情報と、第2音声情報との類似性が所定の基準を満たしたと判断してもよい。
 (処理実行部40)
 図1に示す処理実行部40は、第1音声情報と第2音声情報との類似性が所定の基準を満たしていた場合に所定の処理を実行する。図2の例において、第1音声情報と第2音声情報との類似性が所定の基準を満たしている(=閾値を超えている)ので、処理実行部40は、所定の処理を実行する。
 第1実施形態において、所定の処理は、車載装置2の音声出力部2aの起動処理を含んでいる。すなわち、第1実施形態において、搭乗者Uが特定のワードを発話して、そのワードが音声認識装置1に認識された場合、音声出力部2aが起動することになる。
 (調整部50)
 図1に示す調整部50は、第1音声情報と第2音声情報との類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者Uからの入力に従って調整する。第1実施形態において、調整部50は、搭乗者Uが管理する端末を介して、判断ルール及び基準の少なくとも一方を調整する。第1実施形態において、調整部50は、搭乗者Uが管理する(=所有する)端末からの入力を受け付ける。この場合、搭乗者Uが管理する端末と、音声認識装置1(=サーバ3)及び車載装置2の少なくとも一方とが通信可能となっている。端末は、例えば、スマートフォン、タブレット、及びPC(パーソナルコンピューター)などである。
 調整部50が、類似性の判断ルール、及び所定の基準の少なくとも一方を、搭乗者Uからの入力に従って調整するステップについて以下説明する。
 搭乗者Uからの入力を調整部50が受け付けると、調整部50は判断ルール及び所定の基準の少なくとも一方を調整する。
 具体的には例えば、ラジオ、オーディオ、及びその他外部の音などにより、意図せず音声認識される場合があるため、搭乗者Uが音声認識率を低く設定したい場合がある。このような場合、搭乗者Uは、音声認識装置1の音声認識率が低くなるように入力を行う。すると調整部50は、閾値を高くするように調整する(=所定の基準を調整する)。閾値が高くなると、第1音声情報と第2音声情報とが類似していると判断されにくくなるため、搭乗者Uが発話した音声が音声認識されにくくなる。これにより、音声認識装置1の音声認識率が低くなる。
 その他の例として、搭乗者Uの音声の特徴に起因して音声認識されづらい場合があるため、搭乗者Uが音声認識率を高く設定したい場合がある。このような場合、搭乗者Uは、音声認識装置1の音声認識率が高くなるように入力を行う。すると調整部50は、第1音声情報との比較対象となる第2音声情報の数を増やすように調整する。言い換えると、搭乗者Uからの入力により、調整部50は、判断ルール(=第1音声情報との比較対象となる第2音声情報の数をいくつにするか)を調整する。第1音声情報と比較対象になる第2音声情報が増えることで、音声認識装置1の音声認識率が向上する。
 (ハードウエア構成例)
 図4は、音声認識装置1のハードウエア構成例を示す図である。音声認識装置1は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060を有する。
 バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1020は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
 メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
 ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカードなどのリムーバブルメディア、又はROM(Read Only Memory)などで実現される補助記憶装置であり、記録媒体を有している。ストレージデバイス1040の記録媒体は音声認識装置1の各機能(例えば、音声入力部10、音声認識部20、判断部30、処理実行部40、及び調整部50)を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。また、ストレージデバイス1040は記憶部60としても機能する。
 入出力インタフェース1050は、音声認識装置1と各種入出力機器とを接続するためのインタフェースである。
 ネットワークインタフェース1060は、音声認識装置1をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。音声認識装置1は、ネットワークインタフェース1060を介して車載装置2と通信してもよい。
 (第1実施形態の動作例)
 図5は、第1実施形態の音声認識装置1が音声出力部2aの起動処理を実行するまでのフロー図である。図5を用いて、音声認識装置1が音声出力部2aの起動処理を実行するまでのフローについて説明する。
 まずステップS100において、音声入力部10に搭乗者Uの音声が入力される。次にステップS110において、音声認識部20は、音声入力部10に入力された音声を第1音声情報として認識する。次にステップS120において、判断部30は、第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する。所定の基準を満たす場合(ステップS120でYes)、ステップS130で音声出力部2aの起動処理を実行する。所定の基準を満たさない場合(ステップS120でNo)、再度ステップS100に戻る。なお、所定の基準を満たさない場合(ステップS120でNo)、制御を終了してもよい。
 本実施形態の音声認識装置1は、第1音声情報と第2音声情報との類似性が所定の基準を満たすか否かを判断する判断部30と、類似性が所定の基準を満たしていた場合に所定の処理を実行する処理実行部40と、類似性の判断ルール及び所定の基準の少なくとも一方を搭乗者Uからの入力に従って調整する調整部50と、を備えていることを特徴としている。
 搭乗者Uが発話した音声(=キーワード)を音声認識することをトリガーとして所定の処理(音声出力部2aの起動処理、目的地設定に関する処理、及びルート案内に関する処理など)が実行されるように制御されている場合であっても、搭乗者U自身が音声認識率を調整することができるため、意図せず誤って所定の処理が実行される可能性を抑制することができる。
 さらに、搭乗者Uが発話する音声が音声認識されにくい場合であっても、搭乗者Uが自分自身で音声認識装置1の音声認識率を上げることができる。
 したがって、上記特徴のような構成を備えることにより、車両内における音声認識装置1の音声認識精度を向上することができる。
 また、調整部50が、搭乗者Uが管理する端末を介して、判断ルール及び基準の少なくとも一方を調整することにより、搭乗者U自身が簡易に音声認識率を調整することができる。
 また、処理実行部40が音声出力部2aの起動処理を実行する構成とすることにより、ウェイクワードの音声認識精度を向上させることができる。
 [第2実施形態]
 図6は、第2実施形態の音声認識システム100及び音声認識装置1の概略を示すブロック図である。第1実施形態と異なり、第2実施形態の音声認識装置1は、テキスト変換部80をさらに備えている。第1実施形態において、第1音声情報は、テキスト変換部80により、第1テキスト情報に変換される。第1テキスト情報は、五十音及び長音記号などの文字情報を含む。
 第2テキスト情報は、記憶部60に予め記憶されている。第2テキスト情報は、五十音及び長音記号などの文字情報を含む。
 図7は、第2実施形態の記憶部60に記憶された第2テキスト情報及びそれに紐づく情報のデータ構造の一例を示す図である。第2実施形態において、第2テキスト情報には、ID、優先度、及び判断対象か否かの情報が紐づいている。複数の第2音声情報(=第2テキスト情報)にはそれぞれ優先度が設定されている。
 図8は、第2実施形態の判断部30が類似性を判断する方法を説明するための簡略図である。判断部30は、テキスト変換部80により変換された第1テキスト情報と、第2テキスト情報との類似性が所定の基準を満たすか否かを判断する。
 第2実施形態において、判断部30は、第1テキスト情報の中に含まれている第2テキスト情報の割合を認識し、所定の基準を満たすか否かを判断する。以下、具体的に説明する。
 搭乗者Uが「えーびーしー」と発話して、音声認識部20が当該発話の音声を第1音声情報として認識し、テキスト変換部80が「びーしー」(=第1テキスト情報)として変換したとする。
 判断部30は、テキスト変換された「びーしー」と、判断対象である第2テキスト情報の「えーびーしー」を比較し、第1テキスト情報の中に第2テキスト情報がどのくらい含まれているかの割合を算出する。図8の場合、第1テキスト情報と第2テキスト情報とは、「びーしー」の部分で部分一致するため、上記割合は約67%と算出される。
 そして、例えば、閾値を60%以上としていた場合、上記第1テキスト情報と第2テキスト情報とは類似していると判断部30は判断する。言い換えると、判断部30は、第1テキスト情報と、第2テキスト情報との類似性が所定の基準を満たしていると判断する。
 図9は、複数の第2テキスト情報が設けられている場合において、判断部30が類似性を判断する方法を説明するための簡略図である。
 今回は、搭乗者Uが「えーびーしー」と発話して、音声認識部20が当該発話の音声を第1音声情報として認識し、テキスト変換部80が「けいびーしー」(=第1テキスト情報)として変換したとする。
 第1テキスト情報との類似の判断対象となる第2テキスト情報が、予め設定されていてもよい。図9では、「えーびーしー」と「けいびーしー」が判断対象である。
 第2テキスト情報の「えーびーしー」(図9中のID:001)と、第1テキスト情報の「けいびーしー」とは、「びーしー」について、部分一致をしているため、上記割合は67%と算出される。そして判断部30は、当該割合の値と閾値とを比較し、閾値を上回っているか判断する。第2テキスト情報の「えーびーしー」については、閾値の90%を下回っているので、判断部30は、第1テキスト情報と第2テキスト情報は非類似と判断する。
 第2テキスト情報の「けいびーしー」(図9中のID:003)と、第1テキスト情報の「けいびーしー」とは、完全一致をしており、上記割合は100%と算出される。そして判断部30は、当該割合の値と閾値とを比較し、閾値を上回っているか判断する。第2テキスト情報の「けいびーしー」については。閾値の90%を上回っているので、判断部30は、第1テキスト情報と第2テキスト情報は類似(又は同一)と判断する。
 第2実施形態において、複数の第2テキスト情報が設けられている場合、いずれかの第2テキスト情報の割合が閾値を超えていれば(いずれかの第2テキスト情報が第1テキスト情報と類似であれば)、判断部30は、第1テキスト情報と、第2テキスト情報との類似性が所定の基準を満たしていると判断する。図9の例では、「えーびーしー」は閾値を超えていないが、「けいびーしー」が閾値を超えているので、判断部30は、上記類似性が所定の基準を満たしていると判断する。
 第2実施形態においても、第1実施形態と同様に、搭乗者Uからの入力を受け付けると、調整部50は、判断ルール及び所定の基準の少なくとも一方を調整する。
 第2実施形態において、判断ルールは、判断対象情報を含む。判断対象情報は、複数の第2音声情報(=第2テキスト情報)の中から、上記類似性の判断対象となる第2音声情報(=第2テキスト情報)を特定するための情報である。判断対象情報は、どの第2テキスト情報を第1テキスト情報との比較対象にするかの情報も含んでいる。
 図9では判断対象は、「えーびーしー」及び「けいびーしー」である。判断対象情報は、例えば、ID:001~ID:010の第2テキスト情報のうち、どの第2テキスト情報を判断対象に設定するかの情報を含んでいる。
 第2実施形態において、調整部50は、搭乗者Uからの入力に従って、判断対象情報を調整してもよい。すなわち、調整部50は、搭乗者Uからの入力に従って、どの第2テキスト情報を判断対象にするかを調整してもよい。さらに、調整部50は、優先度が相対的に高い第2テキスト情報を優先的に判断対象に含めてもよい。
 判断ルールによって、第1音声情報との比較に用いられる第2音声情報(=第2テキスト情報)の数が決定される。調整部50が判断ルールを調整することで、第1音声情報との比較に用いられる第2音声情報の数が増減する。さらに、第2音声情報に優先度が設定されている場合、調整部50が当該第2音声情報の数を増やすときは、優先度の高い第2音声情報を優先的に増やし、当該第2音声情報の数を減らすときは、優先度の高い第2音声情報を優先的に減らしてもよい。なお、調整部50が当該第2音声情報の数を増減させるときに、優先度の高い第2音声情報を増減させるか、優先度の低い第2音声情報を増減させるかは任意に選択可能である。
 図10は、第2実施形態の記憶部60に記憶された第2テキスト情報及びそれに紐づく情報のデータ構造の別例を示す図である。図9のように、1つのデータテーブルT01に情報がまとまっている構造でもよいし、図10のように、複数のデータテーブル(T01~T10)が設けられている構造であってもよい。
 図9の場合、調整部50は、搭乗者Uからの入力に従って、第2テキスト情報及びそれに紐づく情報をデータテーブルT01から追加したり削除したりする構成でもよい。図10の場合、調整部50は、搭乗者Uからの入力に従って、判断対象となるデータテーブルを増減させる構成でもよい。なお、図10の場合、判断対象となるデータテーブルはT01とT02の2つである。
 (第2実施形態の動作例)
 図11は、第2実施形態の音声認識装置1が音声出力部2aの起動処理を実行するまでのフロー図である。第1実施形態の音声認識装置1と異なり、ステップS111では、テキスト変換部80は第1音声情報を第1テキスト情報に変換する。ステップS121では、判断部30は、第1テキスト情報と第2テキスト情報を比較し、第1テキスト情報と、第2テキスト情報との類似性が所定の基準を満たすか否かを判断する。所定の基準を満たす場合(ステップS121でYes)、ステップS130で音声出力部2aの起動処理を実行する。所定の基準を満たさない場合(ステップS121でNo)、再度ステップS100に戻る。なお、所定の基準を満たさない場合(ステップS121でNo)、制御を終了してもよい。
 第2実施形態においても第1実施形態と同様に、車両内における音声認識装置1の音声認識精度を向上することができる。第2実施形態において、第1テキスト情報と、第2テキスト情報との類似性が所定の基準を満たすか否かを判断部30が判断する構成とすることで、音声認識装置1の音声認識精度をより向上させることができる。
 判断部30が、第1テキスト情報の中に含まれている第2テキスト情報の割合を認識し、所定の基準を満たすか否かを判断することにより、当該類似性を明確に判断することができるため、音声認識装置1の音声認識精度をより向上させることができる。
 調整部50が、搭乗者Uからの入力に従って、判断対象情報を調整することにより、効果的に音声認識装置1の音声認識精度を向上させることができる。
 調整部50が、優先度が相対的に高い第2音声情報を優先的に判断対象に含めることにより、より効果的に音声認識装置1の音声認識精度を向上させることができる。
 以上、図面を参照して実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 上記の説明では、音声認識装置1は、サーバ3として説明してきたが、音声認識装置1は、車載装置2であってもよい。この場合、音声入力部10、音声認識部20、判断部30、処理実行部40、及び調整部50は、車載装置2に含まれていてもよい。
 また、音声入力部10、音声認識部20、判断部30、処理実行部40、及び調整部50の構成のそれぞれを、車載装置2とサーバ3のどちらに搭載するかは任意に選択してもよい。
 また、記憶部60は音声認識装置1の外部に設けられていてもよい。所定の処理は、音声出力部2aの起動処理のほかに、車両の目的地設定に関する処理やルート案内に関する処理を含んでいてもよい。
 また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。
 以下、参考形態の例を付記する。
1. 車両内の搭乗者の音声が入力される音声入力部と、
 前記音声入力部に入力された前記音声を第1音声情報として認識する音声認識部と、
 前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
 前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
 前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、を備える、音声認識装置。
2. 1.に記載の音声認識装置において、
 前記第1音声情報は、第1テキスト情報に変換され、
 前記判断部は、前記第1テキスト情報と、予め記憶された第2テキスト情報との前記類似性が前記所定の基準を満たすか否かを判断する、音声認識装置。
3. 2.に記載の音声認識装置において、
 前記判断部は、前記第1テキスト情報の中に含まれている前記第2テキスト情報の割合を認識し、前記所定の基準を満たすか否かを判断する、音声認識装置。
4. 1.から3.のいずれか一つに記載の音声認識装置において、
 前記判断ルールは、複数の前記第2音声情報の中から前記類似性の判断対象となる第2音声情報を特定するための判断対象情報を含み、
 前記調整部は、前記搭乗者からの入力に従って、前記判断対象情報を調整する、音声認識装置。
5. 4.に記載の音声認識装置において、
 前記複数の第2音声情報にはそれぞれ優先度が設定されており、
 前記調整部は、前記優先度が相対的に高い第2音声情報を優先的に前記判断対象に含める、音声認識装置。
6. 1.から5.のいずれか一つに記載の音声認識装置において、
 前記調整部は、前記搭乗者が管理する端末を介して、前記判断ルール及び前記基準の少なくとも一方を調整する、音声認識装置。
7. 1.から6.のいずれか一つに記載の音声認識装置において、
 前記所定の処理は、音声出力部の起動処理を含む、音声認識装置。
8. 音声認識装置を実現するコンピュータに、
 車両内の搭乗者の音声を入力する手順、
 前記音声を第1音声情報として認識する手順、
 前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する手順、
 前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する手順、
 前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する手順、を実行させるためのプログラム。
9. 音声認識装置を実現するコンピュータが、
 車両内の搭乗者の音声を入力し、
 前記音声を第1音声情報として認識し、
 前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断し、
 前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行し、
 前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する、音声認識方法。
10. 車両内に搭載された車載装置と、サーバとを備える音声認識システムであって、
 車両内の搭乗者の音声が入力される音声入力部と、
 前記音声入力部に入力された前記音声を第1音声情報として認識する音声認識部と、
 前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
 前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
 前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、をさらに備える、音声認識システム。
1 音声認識装置
2 車載装置
2a 音声出力部
3 サーバ
10 音声入力部
20 音声認識部
30 判断部
40 処理実行部
50 調整部
60 記憶部
70 車載通信部
100 音声認識システム

Claims (10)

  1.  車両内の搭乗者の音声が入力される音声入力部と、
     前記音声入力部に入力された前記音声を第1音声情報として認識する音声認識部と、
     前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
     前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
     前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、を備える、音声認識装置。
  2.  請求項1に記載の音声認識装置において、
     前記第1音声情報は、第1テキスト情報に変換され、
     前記判断部は、前記第1テキスト情報と、予め記憶された第2テキスト情報との前記類似性が前記所定の基準を満たすか否かを判断する、音声認識装置。
  3.  請求項2に記載の音声認識装置において、
     前記判断部は、前記第1テキスト情報の中に含まれている前記第2テキスト情報の割合を認識し、前記所定の基準を満たすか否かを判断する、音声認識装置。
  4.  請求項1から3のいずれか一項に記載の音声認識装置において、
     前記判断ルールは、複数の前記第2音声情報の中から前記類似性の判断対象となる第2音声情報を特定するための判断対象情報を含み、
     前記調整部は、前記搭乗者からの入力に従って、前記判断対象情報を調整する、音声認識装置。
  5.  請求項4に記載の音声認識装置において、
     前記複数の第2音声情報にはそれぞれ優先度が設定されており、
     前記調整部は、前記優先度が相対的に高い第2音声情報を優先的に前記判断対象に含める、音声認識装置。
  6.  請求項1から3のいずれか一項に記載の音声認識装置において、
     前記調整部は、前記搭乗者が管理する端末を介して、前記判断ルール及び前記基準の少なくとも一方を調整する、音声認識装置。
  7.  請求項1から3のいずれか一項に記載の音声認識装置において、
     前記所定の処理は、音声出力部の起動処理を含む、音声認識装置。
  8.  音声認識装置を実現するコンピュータに、
     車両内の搭乗者の音声を入力する手順、
     前記音声を第1音声情報として認識する手順、
     前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する手順、
     前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する手順、
     前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する手順、を実行させるためのプログラム。
  9.  音声認識装置を実現するコンピュータが、
     車両内の搭乗者の音声を入力し、
     前記音声を第1音声情報として認識し、
     前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断し、
     前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行し、
     前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する、音声認識方法。
  10.  車両内に搭載された車載装置と、サーバとを備える音声認識システムであって、
     車両内の搭乗者の音声が入力される音声入力部と、
     前記音声入力部に入力された前記音声を第1音声情報として認識する音声認識部と、
     前記第1音声情報と、予め記憶された第2音声情報との類似性が所定の基準を満たすか否かを判断する判断部と、
     前記類似性が前記所定の基準を満たしていた場合に所定の処理を実行する処理実行部と、
     前記類似性の判断ルール、及び前記所定の基準の少なくとも一方を、前記搭乗者からの入力に従って調整する調整部と、をさらに備える、音声認識システム。
PCT/JP2022/026995 2022-07-07 2022-07-07 音声認識装置、プログラム、音声認識方法、及び音声認識システム WO2024009465A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/026995 WO2024009465A1 (ja) 2022-07-07 2022-07-07 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/026995 WO2024009465A1 (ja) 2022-07-07 2022-07-07 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Publications (1)

Publication Number Publication Date
WO2024009465A1 true WO2024009465A1 (ja) 2024-01-11

Family

ID=89453114

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/026995 WO2024009465A1 (ja) 2022-07-07 2022-07-07 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Country Status (1)

Country Link
WO (1) WO2024009465A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016092807A1 (ja) * 2014-12-11 2016-06-16 日本電気株式会社 話者識別装置および話者識別用の登録音声の特徴量登録方法
WO2019069731A1 (ja) * 2017-10-06 2019-04-11 ソニー株式会社 情報処理装置、情報処理方法、プログラム、および移動体
WO2019176252A1 (ja) * 2018-03-13 2019-09-19 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020118962A (ja) * 2019-01-22 2020-08-06 菱洋エレクトロ株式会社 音声認識システム、音声認識装置、及び音声認識機能付き本
JP2020147214A (ja) * 2019-03-14 2020-09-17 本田技研工業株式会社 エージェント装置、システム、エージェント装置の制御方法、およびプログラム
JP2021156992A (ja) * 2020-03-26 2021-10-07 本田技研工業株式会社 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016092807A1 (ja) * 2014-12-11 2016-06-16 日本電気株式会社 話者識別装置および話者識別用の登録音声の特徴量登録方法
WO2019069731A1 (ja) * 2017-10-06 2019-04-11 ソニー株式会社 情報処理装置、情報処理方法、プログラム、および移動体
WO2019176252A1 (ja) * 2018-03-13 2019-09-19 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020118962A (ja) * 2019-01-22 2020-08-06 菱洋エレクトロ株式会社 音声認識システム、音声認識装置、及び音声認識機能付き本
JP2020147214A (ja) * 2019-03-14 2020-09-17 本田技研工業株式会社 エージェント装置、システム、エージェント装置の制御方法、およびプログラム
JP2021156992A (ja) * 2020-03-26 2021-10-07 本田技研工業株式会社 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム

Similar Documents

Publication Publication Date Title
US11562736B2 (en) Speech recognition method, electronic device, and computer storage medium
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
JP5233989B2 (ja) 音声認識システム、音声認識方法、および音声認識処理プログラム
US20070239453A1 (en) Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US20070239454A1 (en) Personalizing a context-free grammar using a dictation language model
JP6844472B2 (ja) 情報処理装置
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
CN107622768B (zh) 音频截剪器
JP7023823B2 (ja) 車載装置及び音声認識方法
US20070118380A1 (en) Method and device for controlling a speech dialog system
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2017138536A (ja) 音声処理装置
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
JP2018072599A (ja) 音声認識装置および音声認識方法
WO2024009465A1 (ja) 音声認識装置、プログラム、音声認識方法、及び音声認識システム
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP5376072B1 (ja) 車載情報システムおよび音声認識適応方法
Tchankue et al. Are mobile in-car communication systems feasible? a usability study
KR20200041642A (ko) 차량용 음성인식 시스템 및 그 제어 방법
US20190189119A1 (en) Electronic device
KR20210095569A (ko) 에이전트 시스템, 서버 및 컴퓨터 판독 가능한 기록 매체
JP2021182051A (ja) エージェント連携装置
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
WO2019175960A1 (ja) 音声処理装置および音声処理方法
Ivanecký et al. An in-car speech recognition system for disabled drivers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22950259

Country of ref document: EP

Kind code of ref document: A1