WO2017081960A1 - 音声認識制御システム - Google Patents

音声認識制御システム Download PDF

Info

Publication number
WO2017081960A1
WO2017081960A1 PCT/JP2016/079607 JP2016079607W WO2017081960A1 WO 2017081960 A1 WO2017081960 A1 WO 2017081960A1 JP 2016079607 W JP2016079607 W JP 2016079607W WO 2017081960 A1 WO2017081960 A1 WO 2017081960A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
control
vehicle
voice
driver
Prior art date
Application number
PCT/JP2016/079607
Other languages
English (en)
French (fr)
Inventor
真吾 入方
宗義 難波
Original Assignee
三菱自動車工業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱自動車工業株式会社 filed Critical 三菱自動車工業株式会社
Publication of WO2017081960A1 publication Critical patent/WO2017081960A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present invention relates to a voice recognition control system for controlling an in-vehicle device with a voice of a vehicle occupant.
  • a voice recognition control system that can control an in-vehicle device using a voice command. That is, the operation state of various in-vehicle devices (car navigation device, air conditioner device, car audio device, etc.) is controlled using the voice of the vehicle occupant as an input signal.
  • spoken speech is analyzed based on an acoustic model (a model in which the correspondence between sound waveform samples and phonemes is specified), and based on a language model (a model in which phonemes are connected) The content is recognized.
  • a voice recognition technology it is possible to operate the vehicle-mounted device in a hands-free manner.
  • One of the purposes of this case was devised in view of the above problems, and provides a voice recognition control system that improves convenience by preventing erroneous recognition of voice commands and malfunctions of various control devices. It is to be. It should be noted that the present invention is not limited to this purpose, and is an operational effect that is derived from each configuration shown in “Mode for Carrying Out the Invention” to be described later. Can be positioned as a purpose.
  • the voice recognition control system disclosed here is a voice recognition control system that controls an in-vehicle device using a voice of a vehicle occupant as an input signal.
  • the system includes an utterance state identification unit that identifies an utterance position and an utterance direction of a speaker based on at least the voice, and a control target that recognizes the in-vehicle device to be controlled based on at least the utterance position and the utterance direction.
  • a recognition unit Moreover, the control part which controls the said control object is provided based on the combination of the said speech position and the said speech direction.
  • the utterance state specifying unit specifies whether or not the utterance position is a driver's seat. Moreover, it is preferable that the said speech state specific
  • the said control part expands the range specified as the said speech direction, so that the said vehicle speed is high.
  • the control target is not controlled unless the utterance direction matches the direction of the control target.
  • the control target is controlled even if the utterance direction is slightly deviated from the direction of the control target.
  • the deviation amount between the utterance direction and the control target direction allowed for controlling the control target is increased as the vehicle speed is higher.
  • the control target recognizing unit includes any one of a first in-vehicle device that can be operated by a driver and a second in-vehicle device that can be operated by a passenger other than the driver. It is preferable to recognize whether In this case, it is preferable that the control unit controls the control target when the combination of the utterance position, the utterance direction, and the vehicle speed corresponds to the type of the control target.
  • the control unit can control the first in-vehicle device and cannot control the second in-vehicle device.
  • the control unit can control the second in-vehicle device and cannot control the first in-vehicle device.
  • control unit controls the control target when the utterance direction is a predetermined direction.
  • specification part specifies the said utterance position and the said utterance direction together using the said audio
  • control object By controlling the control object after specifying the utterance position and the utterance direction of the speaker, it is possible to suppress misrecognition due to conversation that is not an operation command for the in-vehicle device or malfunction of the control object.
  • FIG. 1 is a schematic top view of a vehicle to which a voice recognition control system is applied. It is a schematic diagram which shows the structure of a speech recognition control system. It is a table
  • surface which shows the correspondence of the combination of an utterance position, an utterance direction, and a vehicle speed, and the kind of control object. It is a graph which shows the relationship between a vehicle speed and the utterance range (deviation of the utterance direction).
  • (A)-(C) are diagrams showing an utterance range in which a driver's voice is recognized. It is a flowchart for demonstrating the control content of a speech recognition control system.
  • the voice recognition control system of this embodiment is applied to the vehicle 10 shown in FIG.
  • a driver's seat 14 and a passenger seat 15 are provided in the passenger compartment of the vehicle 10, and an instrument panel (instrument panel, dashboard) is disposed on the front side of the passenger compartment.
  • a steering device and instruments are arranged in front of the driver's seat 14 and a glove box is arranged in front of the passenger seat 15 in the portion of the instrument panel facing the passenger compartment.
  • a multi-communication type display device 16 that collects and provides user interfaces such as a car navigation function and an AV function is mounted in the center of the instrument panel in the vehicle width direction. The position of the display device 16 is diagonally forward left from the viewpoint of the driver sitting in the driver's seat 14 and diagonally forward right from the viewpoint of the passenger sitting in the passenger seat 15.
  • the display device 16 includes a general-purpose video display device (display screen) having a touch panel and an electronic control device (computer) including a CPU (Central Processing Unit), ROM (Read Only Memory), RAM (Random Access Memory), and the like.
  • the display device 16 is connected to in-vehicle devices such as the navigation device 11, the air conditioner device 12, the car audio device 13, and the multimedia system, and can function as an input / output device for various in-vehicle devices. For example, route information from the navigation device 11 to the destination, map information, traffic jam information, and the like can be displayed on the display screen of the display device 16.
  • the display screen of the display device 16 includes a program received by an in-vehicle digital terrestrial broadcast tuner, DVD video content, video shot by a rear view camera, an interface for operating the air conditioner device 12 and the car audio device 13, and the like. Various visual information can be reproduced and displayed.
  • the vehicle 10 is equipped with a voice recognition control device 1 that controls various in-vehicle devices using a passenger's voice as an input signal.
  • the speech recognition control device 1 is an electronic device (ECU, electronic control device) in which a processor such as a CPU or MPU (Micro Processing Unit) and a ROM, RAM, nonvolatile memory, etc. are integrated.
  • the processor here is, for example, a processing device (processor) including a control unit (control circuit), an arithmetic unit (arithmetic circuit), a cache memory (register), and the like.
  • the ROM, RAM, and nonvolatile memory are memory devices that store programs and working data.
  • the contents of the control performed by the voice recognition control apparatus 1 are recorded in ROM, RAM, nonvolatile memory, and removable media as firmware and application programs. When the program is executed, the contents of the program are expanded in the memory space in the RAM and executed by the processor.
  • examples of the input device of the voice recognition control device 1 include a microphone array 21, an indoor camera 22, a vehicle speed sensor 23, and the like.
  • the microphone array 21 is an audio input device in which a plurality of microphones are arranged in a predetermined arrangement
  • the indoor camera 22 is a wide-angle video camera capable of photographing the entire vehicle interior.
  • the vehicle speed sensor 23 is a sensor that outputs a pulse signal corresponding to the rotational speed of the wheel.
  • examples of the output device of the voice recognition control device 1 include a navigation device 11, an air conditioner device 12, a car audio device 13, a display device 16, a winker 17, a wiper 18, and the like.
  • the voice recognition control device 1 controls various on-vehicle devices based on the voice input from the microphone array 21, the image taken by the indoor camera 22, and the pulse information detected by the vehicle speed sensor 23.
  • the voice recognition control device 1 has a function of recognizing the voice content and controlling the in-vehicle device in consideration of not only the voice of the occupant but also the utterance direction and vehicle speed of the person who uttered the voice. For example, when some kind of sound is input from the microphone array 21, the position (speech position) where the sound is emitted is first specified, and the direction (utterance direction) where the sound is emitted is specified. If the utterance direction is within a predetermined utterance range set for each occupant, the utterance content is recognized. At this time, the predetermined speech range is set according to the vehicle speed. Moreover, the vehicle-mounted apparatus used as a control object is recognized from the recognition result of the utterance content. Thereafter, when the combination of the utterance position, the utterance direction, and the vehicle speed corresponds to the type of the control target, the control target is actually controlled.
  • the speech recognition control device 1 is provided with a vehicle speed detection unit 2, an utterance state identification unit 3, a control object recognition unit 4, a database 5, and a control unit 6.
  • a vehicle speed detection unit 2 acquires (detects and calculates) the vehicle speed based on the pulse signal output from the vehicle speed sensor 23.
  • the vehicle speed information acquired here is transmitted to the utterance state identification unit 3, the control object recognition unit 4, and the control unit 6.
  • the utterance state identification unit 3 identifies the utterance position and direction of the utterer based on at least the voice input from the microphone array 21.
  • the utterance position can be specified based on the magnitudes and delays of a plurality of audio signals detected by the microphone array 21.
  • the utterance position can be specified by analyzing an image photographed by the indoor camera 22 and comparing the movement of the lips of the person existing in the image with the timing when the sound is detected. The same applies to the speech direction, and it can be specified by performing beam forming processing on a plurality of audio signals detected by the microphone array 21.
  • the control object recognition unit 4 recognizes the voice content based on the information on the utterance position and the utterance direction specified by the utterance state specifying unit 3.
  • voice recognition for the utterance is performed.
  • the predetermined utterance range here means the direction of the utterance in which it can be confirmed that the utterance is a voice command for the voice recognition control system.
  • a range including a direction from each occupant toward the display device 16 is set as the utterance range of each occupant.
  • the position of the display device 16 when viewed from the driver seated in the driver's seat 14, the position of the display device 16 is in the direction of -30 degrees (the direction of +30 degrees to the left with reference to the front of the vehicle 10). ).
  • the driver's utterance range is set to a range including a direction of -30 degrees (for example, a range of -40 to -20 degrees).
  • the position of the display device 16 when viewed from the passenger seated in the passenger seat 15, the position of the display device 16 is +30 degrees on the right side, and thus the utterance range of this passenger is a range including the direction of +30 degrees (for example, +20 To a range of +40 degrees).
  • the utterance range is extended as the vehicle speed increases. This is because the driver and the occupant are likely to be in a state in which the line of sight is directed to the front of the vehicle during traveling as compared to when the vehicle 10 is stopped. That is, by expanding the utterance range during travel compared to when the vehicle 10 is stopped, it becomes easier to allow voice commands to be issued with the face facing the front of the vehicle, and the convenience of voice input is improved.
  • the utterance range of the driver is set to a range of -40 to (-30 + A) degrees
  • the utterance range of the passenger in the passenger seat 15 is set to a range of (30-B) to 40 degrees. Is done.
  • the utterance range is expanded toward the front of the vehicle 10 as the vehicle speed increases. Further, as shown in FIG. 4, the values A and B are set so as to increase as the vehicle speed increases. The value A is always set larger than the value B. This is because, unlike the driver, the passenger in the passenger seat 15 does not have to look toward the front of the vehicle 10 (that is, it is not necessary to hesitate to face his face toward the display device 16).
  • the control object recognition unit 4 starts to recognize the utterance content when the utterance direction is within the utterance range. At this time, the context of the utterance content is analyzed, the type of the in-vehicle device to be controlled is estimated, and the content of the voice command for the control target is recognized.
  • a specific method of speech recognition is arbitrary, and a known speech recognition technique can be employed. For example, after a phoneme included in speech is analyzed based on an acoustic model, a word or phrase consisting of a series of phonemes is analyzed based on a language model, and its semantic content is recognized.
  • the control target recognition unit 4 identifies whether the control target is the first in-vehicle device or the second in-vehicle device.
  • the first vehicle-mounted device means a vehicle-mounted device that can be operated by the driver, and includes, for example, a seat adjuster for the driver's seat 14, a blinker 17, a wiper 18, and the like. Further, only when the vehicle 10 is stopped, onboard devices such as the navigation device 11, the air conditioner device 12, and the car audio device 13 are also included in the first onboard device.
  • the second in-vehicle device means an in-vehicle device that can be operated by an occupant other than the driver, and includes, for example, a seat adjuster for the passenger seat 15.
  • in-vehicle devices such as the navigation device 11, the air conditioner device 12, and the car audio device 13 are included in the second in-vehicle device.
  • the classification between the first in-vehicle device and the second in-vehicle device can change according to the traveling state (vehicle speed) of the vehicle 10.
  • the identification result here is transmitted to the control unit 6.
  • the database 5 is a storage device in which various general data related to voice recognition are recorded and stored.
  • the relationship between the utterance position and the utterance range at the position is recorded and stored, and the relationship between the traveling state (vehicle speed) of the vehicle 10 and the type of the in-vehicle device is recorded and stored.
  • the database 5 also records and stores the correspondence between the combination of the utterance position, the utterance direction, and the vehicle speed and the type of the in-vehicle device.
  • the contents of the database 5 are illustrated in FIG. In this figure, when the utterance position is the driver's seat 14, the utterance direction is within the range of -40 to (-30 + A) degrees, and the vehicle 10 is traveling, the winker 17 and the wiper 18 are displayed. It is shown that the control is allowed. Further, it is shown that the winker 17 and the wiper 18 are not allowed to be controlled unless at least the utterance position is the driver's seat 14 (if the speaker is not the driver).
  • the control unit 6 determines whether control is possible using the relationship recorded and stored in the database 5.
  • the controlled object is controlled based on at least the combination of the utterance position and the utterance direction.
  • the control target is actually controlled when the combination of the utterance position, the utterance direction, and the vehicle speed corresponds to the type of control target.
  • the voice command is canceled (cancelled) without controlling the control target.
  • FIG. 6 is an example of a flowchart for explaining the contents of control performed by the speech recognition control apparatus 1.
  • voice information detected by the microphone array 21, image information taken by the indoor camera 22, and pulse information from the vehicle speed sensor 23 are inputted to the voice recognition control device 1 (step A1), and whether or not voice is inputted. Is determined (step A2).
  • the utterance state identification unit 3 identifies the utterance position and the utterance direction based on at least the voice information (step A3). If the utterance position is the driver's seat 14 or the passenger seat 15 (step A4), speech recognition is performed on the condition that the utterance direction is within a predetermined utterance range (steps A5 and A6). On the other hand, if the utterance position is near the door or instrument panel of the vehicle 10, it is determined that the voice is from the car audio device 13, and voice recognition is not performed (step A7).
  • the type of the in-vehicle device to be controlled is estimated and the content of the voice command for the control target is recognized (step A8). Thereafter, it is determined whether or not the combination of the utterance position, the utterance direction, and the vehicle speed corresponds to the type of control target (step A9).
  • the voice command is canceled and control is not performed (step A11).
  • the value A increases according to the vehicle speed, and the predetermined speech range is expanded. Accordingly, as shown in FIG. 5C, the driver can input a voice command in a posture facing the front of the vehicle 10. Therefore, the winker 17 and the wiper 18 can be operated by voice while concentrating on the driving operation of the vehicle 10, and the convenience of various in-vehicle devices is improved.
  • the controlled object is actually controlled only when the combination of the utterance position, the utterance direction, and the vehicle speed corresponds to the type of the controlled object.
  • the vehicle speed corresponds to the type of the controlled object.
  • voice commands to the navigation device 11, the air conditioner device 12, and the car audio device 13 are input even when the driver is stopped, the driver's attention is prevented from being lowered.
  • the control target is controlled by using not only the speech position and the speech direction but also the vehicle speed information.
  • the vehicle speed it is possible to limit the operation while the vehicle is traveling. For example, while the vehicle is traveling, the voice input operation of the navigation device 11 by the driver is limited, while the voice input operation of the navigation device 11 by a person other than the driver can be performed with high accuracy. Thereby, the convenience can be improved while suppressing malfunction of the in-vehicle device.
  • the predetermined utterance range is expanded as the vehicle speed increases.
  • the driver can perform a voice input operation with a reasonable posture without taking his eyes from the front of the vehicle 10, thereby improving convenience while suppressing malfunction of the in-vehicle device. Can be increased.
  • the control target recognition unit 4 identifies the first in-vehicle device that can be operated by the driver and the second in-vehicle device that can be operated by other than the driver.
  • the navigation device 11 and the air conditioner device 12 that are preferably operated by a person other than the driver who is driving are operated by the voice of an occupant other than the driver.
  • the concentration with respect to the operation can be increased, and the comfort performance of the vehicle 10 can be improved. Further, since the driver cannot operate these devices during traveling, the safety performance of the vehicle 10 can be improved.
  • the winker 17 and the wiper 18 that are preferably operated by the driver who is actually driving the vehicle 10 can be operated by the driver's voice, and the convenience of the driving operation can be improved. . Moreover, since these devices cannot be operated by a person other than the driver, malfunction can be effectively prevented.
  • a predetermined utterance range is set so as to include a direction (predetermined direction) toward the display device 16. This makes it possible to clearly distinguish a conversation with a passenger from a voice command, and to prevent unnecessary voice recognition operations.
  • the speech direction of the voice command to the wiper 18 may be a direction toward the front where the wiper 18 is provided.
  • the navigation device 11, the air conditioner device 12, the car audio device 13, and the like the utterance command to the air conditioner device 12 is set to be effective only when the utterance is made toward the air outlet. Good.
  • the voice recognition control device 1 can be connected to a network such as the Internet, a mobile phone wireless communication network, and other digital wireless communication networks, and a part or all of the functions of the voice recognition control device 1 are mounted on a server on the network. May be. Thereby, management and update of the database 5 become easy, and speech recognition accuracy and gesture recognition accuracy can be improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

音声に基づき、発話者の発話位置及び発話方向を特定する発話状態特定部(3)を設ける。また、少なくとも発話位置及び発話方向に基づき、制御対象となる車載装置を認識する制御対象認識部(4)を設ける。さらに、発話位置と発話方向との組み合わせに基づき、制御対象を制御する制御部(6)を設ける。

Description

音声認識制御システム
 本発明は、車両乗員の音声で車載装置を制御する音声認識制御システムに関する。
 従来、音声コマンドを用いて車載装置を制御できるようにした音声認識制御システムが開発されている。すなわち、車両の乗員の音声を入力信号として、各種車載装置(カーナビゲーション装置,エアコン装置,カーオーディオ装置など)の作動状態を制御するものである。一般に、発話された音声は音響モデル(音の波形サンプルと音素との対応関係が規定されたモデル)に基づいて解析され、言語モデル(音素の連なり方が規定されたモデル)に基づいてその意味内容が認識される。このような音声認識技術を利用することで、車載装置をハンズフリーで操作することが可能となる。
 一方、車室内には運転手(ドライバー)以外の同乗者が存在することがあるため、発話の主体を区別して認識することが望ましい。そこで、車室内に複数のマイクを設置し、各々のマイクで検出された音声信号の大小や遅れに基づいて、発話者が運転手であるか否かを判断する技術が提案されている。また、音声によるナビゲーション装置の操作入力を運転手のみに許可し、運転手以外はナビゲーション装置を操作できないようにする技術も知られている(特許文献1参照)。このように、発話主体に応じた制御を実施することで、運転手以外の同乗者やカーオーディオ装置の音声による車載装置の誤作動を防止することができる。
特開2004-354930号公報
 しかしながら、単に発話主体を区別して認識しただけでは、同乗者間の会話と音声コマンドとを識別することが難しく、利便性を向上させにくいという課題がある。例えば、運転手が助手席の同乗者に対して「エアコンを作動させるか?」と尋ねたときに、音声認識制御システムがその音声をエアコン装置の作動命令であると誤認識するおそれがある。また、運転手以外の同乗者が存在しない場合であっても、運転手が車外に向けて話しかけたときの音声を誤認識する可能性もある。このように、運転手による発話を認識したとしても、音声コマンドの誤認識や各種制御装置の誤作動が発生しうる。
 本件の目的の一つは、上記のような課題に鑑みて創案されたものであり、音声コマンドの誤認識や各種制御装置の誤作動を防止して利便性を高めた音声認識制御システムを提供することである。なお、この目的に限らず、後述する「発明を実施するための形態」に示す各構成から導き出される作用効果であって、従来の技術では得られない作用効果を奏することも、本件の他の目的として位置付けることができる。
 (1)ここで開示する音声認識制御システムは、車両乗員の音声を入力信号として車載装置を制御する音声認識制御システムである。本システムは、少なくとも前記音声に基づき、発話者の発話位置及び発話方向を特定する発話状態特定部と、少なくとも前記発話位置及び前記発話方向に基づき、制御対象となる前記車載装置を認識する制御対象認識部とを備える。また、前記発話位置と前記発話方向との組み合わせに基づき、前記制御対象を制御する制御部を備える。
 前記発話状態特定部は、前記発話位置が運転席であるか否かを特定することが好ましい。また、前記発話状態特定部は、前記発話方向が前記制御対象の方向であるか否かを特定することが好ましい。
 (2)車速を検出する車速検出部をさらに備えることが好ましい。この場合、前記制御部が、前記発話位置と前記発話方向と前記車速との組み合わせに基づき、前記制御対象を制御することが好ましい。
 (3)前記制御部は、前記車速が高いほど、前記発話方向として特定される範囲を広げることが好ましい。
 例えば、車両停止中には、前記発話方向と前記制御対象の方向とが一致しなければ、前記制御対象を制御しないこととする。これに対し、車両走行中には、前記発話方向が前記制御対象の方向から多少ずれていたとしても、前記制御対象を制御することとする。このように、前記制御対象を制御するために許容される前記発話方向と前記制御対象の方向とのずれ量を、前記車速が高いほど大きくすることが好ましい。
 (4)前記制御対象認識部は、運転手が操作可能な第一車載装置と、前記運転手以外の乗員が操作可能な第二車載装置とのうち、前記制御対象がいずれの種類に属するものであるかを認識することが好ましい。この場合、前記制御部は、前記発話位置,前記発話方向,前記車速の組み合わせと前記制御対象の種類とが対応する場合に、前記制御対象を制御することが好ましい。
 (5)前記制御部は、前記発話位置が運転席である場合に、前記第一車載装置の制御を実施可能とし、前記第二車載装置の制御を実施不能とすることが好ましい。
 (6)前記制御部は、前記発話位置が運転席以外である場合に、前記第二車載装置の制御を実施可能とし、前記第一車載装置の制御を実施不能とすることが好ましい。
 (7)前記制御部は、前記発話方向が所定の方向である場合に、前記制御対象を制御することが好ましい。
 (8)前記発話状態特定部が、前記音声と車載カメラで撮影された車室内の画像とを併用して、前記発話位置及び前記発話方向を特定することが好ましい。
 発話者の発話位置と発話方向とを特定した上で制御対象を制御することで、車載装置に対する作動命令ではない会話による誤認識や制御対象の誤作動を抑制することができる。
音声認識制御システムが適用された車両の模式的な上面図である。 音声認識制御システムの構成を示す模式図である。 発話位置,発話方向,車速の組み合わせと制御対象の種類との対応関係を示す表である。 車速と発話範囲(発話方向のずれ)との関係を示すグラフである。 (A)~(C)は、運転手の音声が認識される発話範囲を示す図である。 音声認識制御システムの制御内容を説明するためのフローチャートである。
 図面を参照して、実施形態としての音声認識制御システムについて説明する。なお、以下に示す実施形態はあくまでも例示に過ぎず、以下の実施形態で明示しない種々の変形や技術の適用を排除する意図はない。本実施形態の各構成は、それらの趣旨を逸脱しない範囲で種々変形して実施することができる。また、必要に応じて取捨選択することができ、あるいは適宜組み合わせることができる。
[1.装置構成]
 本実施形態の音声認識制御システムは、図1に示す車両10に適用される。車両10の車室内には運転席14,助手席15が設けられ、車室前方側にはインパネ(インストルメントパネル,ダッシュボード)が配置される。インパネの車室側に面した部分のうち、運転席14の前方にはステアリング装置や計器類が配置され、助手席15の前方にはグローブボックスが配置される。また、インパネの車幅方向中央には、カーナビ機能やAV機能などのユーザーインターフェースを集約して提供するマルチコミュニケーション型のディスプレイ装置16が搭載される。ディスプレイ装置16の位置は、運転席14に座る運転手の視点では左斜め前方であり、助手席15に座る乗員の視点では右斜め前方である。
 ディスプレイ装置16は、タッチパネルを備えた汎用の映像表示装置(表示画面)とCPU(Central Processing Unit),ROM(Read Only Memory),RAM(Random Access Memory)などを含む電子制御装置(コンピューター)とを備えた電子デバイスである。ディスプレイ装置16は、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,マルチメディアシステムなどの車載装置に接続されて、各種車載装置の入出力装置として機能しうる。例えば、ナビゲーション装置11から提供される目的地までの経路情報や地図情報,渋滞情報などは、このディスプレイ装置16の表示画面に表示可能とされる。また、このディスプレイ装置16の表示画面には、車載の地上デジタル放送チューナーで受信した番組や、DVD映像コンテンツ,リアビューカメラで撮影された映像,エアコン装置12やカーオーディオ装置13の操作用インターフェースといった、多様な視覚情報が再生,表示可能である。
 また、車両10には、乗員の音声を入力信号として各種車載装置を制御する音声認識制御装置1が搭載される。音声認識制御装置1は、CPU,MPU(Micro Processing Unit)などのプロセッサとROM,RAM,不揮発メモリなどを集積した電子デバイス(ECU,電子制御装置)である。ここでいうプロセッサとは、例えば制御ユニット(制御回路)や演算ユニット(演算回路),キャッシュメモリ(レジスタ)などを内蔵する処理装置(プロセッサ)である。また、ROM,RAM及び不揮発メモリは、プログラムや作業中のデータが格納されるメモリ装置である。音声認識制御装置1で実施される制御の内容は、ファームウェアやアプリケーションプログラムとしてROM,RAM,不揮発メモリ,リムーバブルメディア内に記録される。また、プログラムの実行時には、プログラムの内容がRAM内のメモリ空間内に展開され、プロセッサによって実行される。
 図2に示すように、音声認識制御装置1の入力装置としては、マイクアレイ21,室内カメラ22,車速センサ23などが挙げられる。マイクアレイ21は、複数のマイクロフォンを所定の配列に並べた音声入力装置であり、室内カメラ22は車室内全体を撮影可能な広角ビデオカメラである。車速センサ23は、車輪の回転速度に応じたパルス信号を出力するセンサである。一方、音声認識制御装置1の出力装置としては、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13,ディスプレイ装置16,ウィンカー17,ワイパー18などが挙げられる。音声認識制御装置1は、マイクアレイ21から入力された音声と室内カメラ22で撮影された画像と車速センサ23で検出されたパルス情報とに基づいて、各種車載装置を制御する。
[2.制御構成]
 音声認識制御装置1は、単に乗員の音声だけでなく、その音声を発声した人物の発話方向や車速の状態も考慮して、音声内容を認識するとともに車載装置を制御する機能を持つ。例えば、マイクアレイ21から何らかの音声が入力されると、まずその音声が発せられた位置(発話位置)が特定されるとともに、その音声が発せられた方向(発話方向)が特定される。そして、発話方向が乗員毎に設定された所定の発話範囲内にあれば、発話内容が認識される。このとき、所定の発話範囲は、車速に応じて設定される。また、発話内容の認識結果から、制御対象となる車載装置が認識される。その後、発話位置,発話方向,車速の組み合わせと制御対象の種類とが対応する場合に、その制御対象が実際に制御される。
 上記の制御を実施するための要素として、音声認識制御装置1には、車速検出部2,発話状態特定部3,制御対象認識部4,データベース5,制御部6が設けられる。これらは、音声認識制御装置1で実行されるプログラムの一部の機能を示すものであり、ソフトウェアで実現されるものとする。ただし、各機能の一部又は全部をハードウェア(電子制御回路)で実現してもよく、あるいはソフトウェアとハードウェアとを併用して実現してもよい。
 車速検出部2は、車速センサ23が出力するパルス信号に基づき、車速を取得(検出,算出)するものである。ここで取得された車速の情報は、発話状態特定部3,制御対象認識部4,制御部6に伝達される。
 発話状態特定部3は、少なくともマイクアレイ21から入力された音声に基づき、発話者の発話位置及び発話方向を特定するものである。発話位置は、マイクアレイ21で検知された複数の音声信号の大きさや遅れに基づいて特定可能である。あるいは、室内カメラ22で撮影された画像を解析し、画像中に存在する人物の口唇の動きと音声が検出されたタイミングとを比較することでも、発話位置を特定可能である。また、発話方向についても同様であり、マイクアレイ21で検知された複数の音声信号にビームフォーミング処理を施すことで特定可能である。あるいは、室内カメラ22で撮影された画像中における発話者を特定した上で、発話者の顔の向きを検出することでも特定可能である。ここで特定された発話位置及び発話方向の情報は、制御対象認識部4に伝達される。
 制御対象認識部4は、発話状態特定部3で特定された発話位置及び発話方向の情報に基づいて、音声内容を認識するものである。ここでは、発話者が所定の発話範囲内に向かって発話している場合に、その発話についての音声認識が実施される。ここでいう所定の発話範囲とは、その発話が音声認識制御システムに対する音声コマンドであると確認できる発話の方向を意味する。本実施形態では、それぞれの乗員からディスプレイ装置16へと向かう方向を含む範囲が、それぞれの乗員の発話範囲として設定される。
 例えば、図5(A)に示すように、運転席14に着座する運転手から見て、ディスプレイ装置16の位置が-30度の方向(車両10の前方を基準として左側に+30度の方向)にあるものとする。この場合、運転手の発話範囲は、-30度の方向を含む範囲(例えば-40~-20度の範囲)に設定される。反対に、助手席15に着座する乗員から見ると、ディスプレイ装置16の位置は右側に+30度の方向となるため、この乗員の発話範囲は、+30度の方向を含む範囲(例えば+20~+40度の範囲)に設定される。
 また、発話範囲は、車速が高いほど拡張されるようになっている。この理由は、車両10の停止中と比較して走行中には、運転手及び乗員が車両前方に視線を向けた状態となりやすいからである。つまり、車両10の停止中と比較して走行中の発話範囲を拡大することで、顔を車両前方に向けたまま音声コマンドを発することが許容されやすくなり、音声入力の利便性が向上する。本実施形態では、運転手の発話範囲が-40~(-30+A)度の範囲に設定されるとともに、助手席15の乗員の発話範囲が(30-B)~40度の範囲に設定される。すなわち、車速が高いほど、発話範囲が車両10の前方に向かって拡張される。また、図4に示すように、車速が高いほど値A,Bの値が増大する特性を持つように設定される。なお、値Aは値Bよりも常に大きい値に設定される。なぜならば、助手席15の乗員は運転手とは異なり、視線を車両10の前方に向けなくてもよい(すなわち、顔をディスプレイ装置16に向けることを躊躇する必要がない)からである。
 制御対象認識部4は、発話方向が発話範囲内にある場合に、発話内容の認識を開始する。このとき、発話内容の文脈が解析され、制御対象となる車載装置の種類が推定されるとともに、制御対象に対する音声コマンドの内容が認識される。音声認識の具体的な手法は任意であり、公知の音声認識技術を採用することができる。例えば、音響モデルに基づいて音声に含まれる音素が解析された後に、言語モデルに基づいて音素の連なりからなる語や句が解析され、その意味内容が認識される。
 音声認識が完了すると、制御対象認識部4は、制御対象が第一車載装置であるか、それとも第二車載装置であるかを識別する。第一車載装置とは、運転手が操作可能な車載装置を意味し、例えば運転席14のシートアジャスターやウィンカー17,ワイパー18などが含まれる。また、車両10の停止中に限り、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13などの車載装置も第一車載装置に含まれる。これに対し、第二車載装置とは、運転手以外の乗員が操作可能な車載装置を意味し、例えば助手席15のシートアジャスターがこれに含まれる。また、車両10の走行中には、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13などの車載装置は第二車載装置に含まれる。このように、第一車載装置と第二車載装置との区分は、車両10の走行状態(車速)に応じて変化しうる。ここでの識別結果は、制御部6に伝達される。
 データベース5は、音声認識に関する総合的な各種データが記録,保存されたストレージ装置である。ここには、発話位置とその位置における発話範囲との関係が記録,保存されるとともに、車両10の走行状態(車速)と車載装置の種類との関係が記録,保存される。また、データベース5は、発話位置,発話方向,車速の組み合わせと車載装置の種類との対応関係を併せて記録,保存している。データベース5の内容を図3に例示する。この図には、発話位置が運転席14であり、発話方向が-40~(-30+A)度の範囲内にあって、車両10が走行中である場合には、ウィンカー17やワイパー18の制御が許容されることが示されている。また、ウィンカー17,ワイパー18は、少なくとも発話位置が運転席14でなければ(発話者が運転手でなければ)制御が許容されないことが示されている。
 制御部6は、データベース5に記録,保存された関係を用いて制御の可否を判定するものである。ここでは、少なくとも発話位置と発話方向との組み合わせに基づいて、制御対象が制御される。本実施形態では、発話位置,発話方向,車速の組み合わせが、制御対象の種類と対応する場合に、実際に制御対象が制御される。一方、発話位置,発話方向,車速の組み合わせが、制御対象の種類と対応しない場合には、その制御対象が制御されることなく、音声コマンドがキャンセル(取り消し)される。
[3.フローチャート]
 図6は、音声認識制御装置1で実施される制御内容を説明するためのフローチャート例である。まず、マイクアレイ21で検出された音声情報,室内カメラ22で撮影された画像情報,車速センサ23からのパルス情報が音声認識制御装置1に入力され(ステップA1)、音声が入力されたか否かが判定される(ステップA2)。ここで、何らかの音声が入力されていると、発話状態特定部3において、少なくともその音声情報に基づき、発話位置と発話方向とが特定される(ステップA3)。また、発話位置が運転席14又は助手席15であれば(ステップA4)、発話方向が所定の発話範囲内にあることを条件として、音声認識が実施される(ステップA5,A6)。一方、発話位置が車両10のドアやインパネ近傍である場合には、カーオーディオ装置13の音声だったものと判断されて、音声認識が不実施とされる(ステップA7)。
 音声認識が実施されると、制御対象となる車載装置の種類が推定されるとともに、制御対象に対する音声コマンドの内容が認識される(ステップA8)。その後、発話位置,発話方向,車速の組み合わせが、制御対象の種類と対応するものであるか否かが判定される(ステップA9)。ここで、例えば図3に示すような対応関係がある場合には、その制御対象に対する正当な音声コマンドが入力されたものと判断され、制御部6によって制御対象が実際に制御される(ステップA10)。一方、対応関係がない場合には、その音声コマンドがキャンセルされ、制御が不実施とされる(ステップA11)。
[4.作用]
 図5(A)に示すように、車両停止中に運転手がディスプレイ装置16の方向に向かって発声すると、その発声内容が音声認識制御装置1に認識され、制御対象が制御される。また、運転手が助手席15の同乗者と会話している場合には、図5(B)に示すように、発話方向が所定の発話範囲外となることから、音声認識が不実施とされる。これにより、音声コマンドの誤認識や各種制御装置の誤作動が防止される。また、この場合には音声の認識自体が実施されないことから、不必要に音声認識制御装置1が作動するようなことがなくなり、消費電力が削減される。
 一方、車両走行中には、車速に応じて値Aが増大し、所定の発話範囲が拡大される。これより、図5(C)に示すように、運転手は車両10の前方を向いた姿勢で音声コマンドを入力することが可能となる。したがって、車両10の運転操作に集中したままの状態で、ウィンカー17やワイパー18を声で操作することができるようになり、各種車載装置の利便性が向上する。
 また、図3に示すように、制御対象が実際に制御されるのは、発話位置,発話方向,車速の組み合わせと制御対象の種類とが対応する場合に限られる。これにより、運転手以外の乗員が誤ってウィンカー17を作動させてしまうような事態が回避される。また、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13に対する音声コマンドの入力は、運転手であっても車両停止中に制限されるため、運転手の注意力低下が確実に防止される。
[5.効果]
 (1)上記の音声認識制御装置1では、図3に示すように、発話位置と発話方向との組み合わせに基づいて制御対象が実際に制御される。したがって、車載装置に対する作動命令ではない会話による音声コマンドの誤認識や適切でない制御対象の誤作動を抑制することができる。また、発話方向が所定の発話範囲外となる場合には、音声の認識自体が実施されないため、音声認識制御装置1の演算負荷や消費電力を削減することができ、電力の省エネ性能を高めることができる。
 (2)また、上記の音声認識制御装置1では、発話位置及び発話方向だけでなく、車速の情報を併用して制御対象が制御される。このように、車速を考慮することで、車両走行中の操作に制限をかけることができる。例えば、車両走行中は運転手によるナビゲーション装置11の音声入力操作に制限をかける一方、運転手以外によるナビゲーション装置11の音声入力操作を精度良く実施することができる。これにより、車載装置の誤作動を抑制しつつ、利便性を向上させることができる。
 (3)特に、上記の音声認識制御装置1では、図4に示すように、車速が高いほど所定の発話範囲が拡大されるようになっている。このような設定により、車両10の前方から目を離すことなく、無理のない姿勢で運転手が音声入力操作を実施することができるようになり、車載装置の誤作動を抑制しながら利便性を高めることができる。
 (4)上記の音声認識制御装置1では、制御対象認識部4において、運転手が操作可能な第一車載装置と、運転手以外が操作可能な第二車載装置とが識別される。このように、制御対象とその制御対象を操作可能な乗員の役割との関係をあらかじめ規定しておくことで、適切でない制御対象の誤作動を効果的に防止できる。
 (5)図3に示すように、運転中の運転手以外による操作が好ましいナビゲーション装置11やエアコン装置12などは、運転手以外の乗員の音声で作動するようにすることで、運転手の運転操作に対する集中力を高めることができ、車両10の快適性能を向上させることができる。また、運転手は走行中にこれらの装置を操作できなくなるため、車両10の安全性能を向上させることができる。
 (6)一方、車両10を実際に運転している運転手による操作が好ましいウィンカー17やワイパー18などは、運転手の音声で作動させることができ、運転操作の利便性を向上させることができる。また、運転手以外はこれらの装置を作動させることができないため、誤作動を効果的に防止することができる。
 (7)上記の音声認識制御装置1では、ディスプレイ装置16へと向かう方向(所定の方向)を含むように所定の発話範囲が設定されている。これにより、同乗者への会話と音声コマンドとを明確に区別することが可能となり、不必要な音声認識の動作を防止することができる。
 (8)また、マイクアレイ21で取得された音声情報だけでなく、室内カメラ22で撮影された画像情報を併用することで、発話位置や発話対象(発話方向)の特定精度を向上させることができる。
[6.変形例]
 上述の実施形態では、図3に示すように、一つの発話位置に対して一つの発話方向が規定されたものを例示したが、発話位置と発話方向との対応関係はこれに限定されない。例えば、ワイパー18に対する音声コマンドの発話方向は、ワイパー18が設けられている前方に向かう方向としてもよい。また、ナビゲーション装置11,エアコン装置12,カーオーディオ装置13などについても同様であり、例えばエアコン装置12への発話コマンドは、送風口に向かって発話した場合にのみ有効となるような設定にしてもよい。少なくとも発話位置,発話方向,制御対象の組み合わせに基づいてその制御対象を制御することで、上述の実施形態と同様の効果を奏するものとなる。
 また、上述の実施形態では、音声の認識から制御対象の制御までに至るすべての過程が音声認識制御装置1で統括管理されているが、音声認識制御装置1の機能の一部又は全部を車両10の外部に移設することも考えられる。例えば、音声認識制御装置1をインターネット,携帯電話機の無線通信網,その他のデジタル無線通信網などのネットワークに接続可能とし、ネットワーク上のサーバに音声認識制御装置1の機能の一部又は全部を実装してもよい。これにより、データベース5の管理や更新が容易となり、音声認識精度やジェスチャ認識精度を向上させることができる。
1 音声認識制御装置
2 車速検出部
3 発話状態特定部
4 制御対象認識部
5 データベース
6 制御部
10 車両
11 ナビゲーション装置
12 エアコン装置
13 カーオーディオ装置
14 運転席
15 助手席
16 ディスプレイ装置
17 ウィンカー
18 ワイパー
21 マイクアレイ
22 室内カメラ
23 車速センサ
 

Claims (8)

  1.  車両乗員の音声を入力信号として車載装置を制御する音声認識制御システムにおいて、
     少なくとも前記音声に基づき、発話者の発話位置及び発話方向を特定する発話状態特定部と、
     少なくとも前記発話位置及び前記発話方向に基づき、制御対象となる前記車載装置を認識する制御対象認識部と、
     前記発話位置と前記発話方向との組み合わせに基づき、前記制御対象を制御する制御部と、
    を備えたことを特徴とする、音声認識制御システム。
  2.  車速を検出する車速検出部をさらに備え、
     前記制御部が、前記発話位置と前記発話方向と前記車速との組み合わせに基づき、前記制御対象を制御する
    ことを特徴とする、請求項1記載の音声認識制御システム。
  3.  前記制御部は、前記車速が高いほど、前記発話方向として特定される範囲を広げる
    ことを特徴とする、請求項2記載の音声認識制御システム。
  4.  前記制御対象認識部は、運転手が操作可能な第一車載装置と、前記運転手以外の乗員が操作可能な第二車載装置とのうち、前記制御対象がいずれの種類に属するものであるかを認識し、
     前記制御部は、前記発話位置,前記発話方向,前記車速の組み合わせと前記制御対象の種類とが対応する場合に、前記制御対象を制御する
    ことを特徴とする、請求項2又は3記載の音声認識制御システム。
  5.  前記制御部は、前記発話位置が運転席である場合に、前記第一車載装置の制御を実施可能とし、前記第二車載装置の制御を実施不能とする
    ことを特徴とする、請求項4記載の音声認識制御システム。
  6.  前記制御部は、前記発話位置が運転席以外である場合に、前記第二車載装置の制御を実施可能とし、前記第一車載装置の制御を実施不能とする
    ことを特徴とする、請求項4又は5記載の音声認識制御システム。
  7.  前記制御部は、前記発話方向が所定の方向である場合に、前記制御対象を制御する
    ことを特徴とする、請求項1~6の何れか1項に記載の音声認識制御システム。
  8.  前記発話状態特定部が、前記音声と車載カメラで撮影された車室内の画像とを併用して、前記発話位置及び前記発話方向を特定する
    ことを特徴とする、請求項1~7の何れか1項に記載の音声認識制御システム。
     
PCT/JP2016/079607 2015-11-09 2016-10-05 音声認識制御システム WO2017081960A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-219112 2015-11-09
JP2015219112A JP2017090611A (ja) 2015-11-09 2015-11-09 音声認識制御システム

Publications (1)

Publication Number Publication Date
WO2017081960A1 true WO2017081960A1 (ja) 2017-05-18

Family

ID=58695031

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/079607 WO2017081960A1 (ja) 2015-11-09 2016-10-05 音声認識制御システム

Country Status (2)

Country Link
JP (1) JP2017090611A (ja)
WO (1) WO2017081960A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020044543A1 (ja) * 2018-08-31 2020-03-05 三菱電機株式会社 情報処理装置、情報処理方法及びプログラム
CN111007968A (zh) * 2018-10-05 2020-04-14 本田技研工业株式会社 智能体装置、智能体提示方法及存储介质
CN111163974A (zh) * 2017-10-05 2020-05-15 宁波吉利汽车研究开发有限公司 用于车辆的显示系统和方法
CN111261154A (zh) * 2018-11-14 2020-06-09 本田技研工业株式会社 智能体装置、智能体提示方法及存储介质
CN111559317A (zh) * 2019-02-14 2020-08-21 本田技研工业株式会社 智能体装置、智能体装置的控制方法及存储介质
WO2022084709A1 (ja) * 2020-10-22 2022-04-28 日産自動車株式会社 情報処理装置及び情報処理方法
WO2022084708A1 (ja) * 2020-10-22 2022-04-28 日産自動車株式会社 情報処理装置及び情報処理方法
WO2023062817A1 (ja) * 2021-10-15 2023-04-20 パイオニア株式会社 音声認識装置、制御方法、プログラム及び記憶媒体
US11694675B2 (en) 2018-02-20 2023-07-04 Sony Corporation Information processing apparatus, information processing system, and information processing method

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311872B2 (en) * 2017-07-25 2019-06-04 Google Llc Utterance classifier
JP2019073255A (ja) * 2017-10-19 2019-05-16 アイシン精機株式会社 運転支援装置
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
JP7023131B2 (ja) * 2018-02-08 2022-02-21 三菱電機株式会社 音声出力制御装置、及び音声出力制御プログラム
KR102488285B1 (ko) * 2018-06-01 2023-01-13 애플 인크. 디지털 어시스턴트를 이용한 오디오 정보 제공
JP7240895B2 (ja) * 2019-02-25 2023-03-16 本田技研工業株式会社 表示装置、および、表示制御方法
WO2022176038A1 (ja) * 2021-02-17 2022-08-25 三菱電機株式会社 音声認識装置および音声認識方法
CN113655938B (zh) * 2021-08-17 2022-09-02 北京百度网讯科技有限公司 一种用于智能座舱的交互方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02193198A (ja) * 1989-01-21 1990-07-30 Ricoh Co Ltd 自動車用音声制御方式
JPH0497400A (ja) * 1990-08-16 1992-03-30 Fujitsu Ten Ltd 音声認識装置
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2007298592A (ja) * 2006-04-28 2007-11-15 Fujitsu Ten Ltd 音声処理装置
JP2008309966A (ja) * 2007-06-13 2008-12-25 Fujitsu Ten Ltd 音声入力処理装置および音声入力処理方法
JP2009025715A (ja) * 2007-07-23 2009-02-05 Xanavi Informatics Corp 車載装置および音声認識方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59117610A (ja) * 1982-12-24 1984-07-07 Nippon Denso Co Ltd 車載機器制御装置
JP6233650B2 (ja) * 2014-05-20 2017-11-22 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02193198A (ja) * 1989-01-21 1990-07-30 Ricoh Co Ltd 自動車用音声制御方式
JPH0497400A (ja) * 1990-08-16 1992-03-30 Fujitsu Ten Ltd 音声認識装置
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2007298592A (ja) * 2006-04-28 2007-11-15 Fujitsu Ten Ltd 音声処理装置
JP2008309966A (ja) * 2007-06-13 2008-12-25 Fujitsu Ten Ltd 音声入力処理装置および音声入力処理方法
JP2009025715A (ja) * 2007-07-23 2009-02-05 Xanavi Informatics Corp 車載装置および音声認識方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKUMI ARIYOSHI ET AL.: "A Control Interface for Consumer Electrical Appliances using Recognition of User's Face Direction and Voice Commands", IEICE TECHNICAL REPORT, vol. 114, no. 521, 12 March 2015 (2015-03-12), pages 181 - 187 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111163974A (zh) * 2017-10-05 2020-05-15 宁波吉利汽车研究开发有限公司 用于车辆的显示系统和方法
CN111163974B (zh) * 2017-10-05 2023-08-15 宁波吉利汽车研究开发有限公司 用于车辆的显示系统和方法
US11694675B2 (en) 2018-02-20 2023-07-04 Sony Corporation Information processing apparatus, information processing system, and information processing method
WO2020044543A1 (ja) * 2018-08-31 2020-03-05 三菱電機株式会社 情報処理装置、情報処理方法及びプログラム
JPWO2020044543A1 (ja) * 2018-08-31 2020-12-17 三菱電機株式会社 情報処理装置、情報処理方法及びプログラム
CN111007968A (zh) * 2018-10-05 2020-04-14 本田技研工业株式会社 智能体装置、智能体提示方法及存储介质
US11176948B2 (en) * 2018-11-14 2021-11-16 Honda Motor Co., Ltd. Agent device, agent presentation method, and storage medium
CN111261154A (zh) * 2018-11-14 2020-06-09 本田技研工业株式会社 智能体装置、智能体提示方法及存储介质
CN111559317A (zh) * 2019-02-14 2020-08-21 本田技研工业株式会社 智能体装置、智能体装置的控制方法及存储介质
CN111559317B (zh) * 2019-02-14 2024-03-19 本田技研工业株式会社 智能体装置、智能体装置的控制方法及存储介质
WO2022084709A1 (ja) * 2020-10-22 2022-04-28 日産自動車株式会社 情報処理装置及び情報処理方法
WO2022084708A1 (ja) * 2020-10-22 2022-04-28 日産自動車株式会社 情報処理装置及び情報処理方法
JP7473002B2 (ja) 2020-10-22 2024-04-23 日産自動車株式会社 情報処理装置及び情報処理方法
WO2023062817A1 (ja) * 2021-10-15 2023-04-20 パイオニア株式会社 音声認識装置、制御方法、プログラム及び記憶媒体

Also Published As

Publication number Publication date
JP2017090611A (ja) 2017-05-25

Similar Documents

Publication Publication Date Title
WO2017081960A1 (ja) 音声認識制御システム
JP6604151B2 (ja) 音声認識制御システム
US11600269B2 (en) Techniques for wake-up word recognition and related systems and methods
US20180357040A1 (en) In-vehicle infotainment with multi-modal interface
JP2017090613A (ja) 音声認識制御システム
JP2017090612A (ja) 音声認識制御システム
JP2017090614A (ja) 音声認識制御システム
US11615798B2 (en) Voice activation using a laser listener
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
JP6767082B2 (ja) 車内通話制御装置、車内通話システムおよび車内通話制御方法
US20200152203A1 (en) Agent device, agent presentation method, and storage medium
JP6361565B2 (ja) 車載機器の動作制御装置
JP2010156825A (ja) 音声出力装置
JP3446805B2 (ja) 車両用音声入力装置
CN113157080A (zh) 用于车辆的指令输入方法、存储介质、系统及车辆
JP2008094228A (ja) 車両用通話警告装置
JP2008250236A (ja) 音声認識装置および音声認識方法
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
JPH11352987A (ja) 音声認識装置
US20220415318A1 (en) Voice assistant activation system with context determination based on multimodal data
JP2000321080A (ja) 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置
JP6332072B2 (ja) 対話装置
US9503041B1 (en) Automatic gain control module, method for controlling the same, vehicle including the automatic gain control module, and method for controlling the vehicle
JP7239365B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2002149191A (ja) 音声入力装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16863924

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16863924

Country of ref document: EP

Kind code of ref document: A1