WO2014108981A1 - 車載情報システムおよび音声認識適応方法 - Google Patents
車載情報システムおよび音声認識適応方法 Download PDFInfo
- Publication number
- WO2014108981A1 WO2014108981A1 PCT/JP2013/007670 JP2013007670W WO2014108981A1 WO 2014108981 A1 WO2014108981 A1 WO 2014108981A1 JP 2013007670 W JP2013007670 W JP 2013007670W WO 2014108981 A1 WO2014108981 A1 WO 2014108981A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information terminal
- vehicle
- speech recognition
- vehicle information
- terminal
- Prior art date
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims description 44
- 238000004891 communication Methods 0.000 claims abstract description 63
- 230000006870 function Effects 0.000 description 76
- 238000013500 data storage Methods 0.000 description 35
- 230000008569 process Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3688—Systems comprising multiple parts or multiple output devices (not client-server), e.g. detachable faceplates, key fobs or multiple output screens
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Definitions
- the present invention relates to an in-vehicle information system and a speech recognition adaptation method.
- FIG. 3 shows an example of audio data information stored in the in-vehicle terminal data storage unit 207.
- FIG. 3 is an explanatory diagram showing an example of audio data information stored in the in-vehicle terminal data storage unit 207.
- the audio data information stored in the in-vehicle terminal data storage unit 207 includes user identification information 210, stored audio data 211, utterance content text 212, and storage date / time 213.
- the speaker adaptation function information 221 includes, for example, a speaker adaptation function of a speech recognition engine that can be used from the portable information terminal 300 when the in-vehicle information terminal 200 and the portable information terminal 300 are communicably connected. Information may be registered by being transmitted from the portable information terminal 300.
- the place where the speech recognition engine that can be used from the portable information terminal 300 is installed is not limited.
- the portable information terminal 300 may use a plurality of voice recognition engines.
- the portable terminal communication unit 301 and the information terminal communication unit 303 are realized by a CPU that operates according to a program and a wireless interface.
- the voice data of the input voice is output to the in-vehicle terminal communication unit 205 via the in-vehicle terminal control unit 204.
- the in-vehicle terminal communication unit 205 transmits the input voice data to the portable information terminal 300 (step S502).
- the 10 may be automatically executed when the in-vehicle information terminal 200 and the portable information terminal 300 can communicate with each other. Further, all the adaptation processing may be executed by a user operation when communication is possible. The adaptive process may be automatically executed halfway when communication is possible, and the subsequent process may be executed by a user operation.
- step S610 If the selected speech recognition engine has an unsupervised speaker adaptation function (Yes in step S610), the in-vehicle terminal control unit 204 uses the speech data stored in the in-vehicle terminal data storage unit 207 for speaker adaptation. Then, a predetermined number of times are transmitted to the portable information terminal 300 (step S611). If the selected speech recognition engine does not have an unsupervised speaker adaptation function (No in step S610), the in-vehicle terminal control unit 204 advances the process to step S614.
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
車載情報システム1は、音声認識エンジンをアクセス可能な携帯型情報端末3と通信可能な車載情報端末2を含み、車載情報端末2は、音声データを記憶する記憶部21と、所定の時期に音声データを携帯型情報端末3に送信する車載通信部22とを有し、携帯型情報端末3は、車載情報端末2から受信した音声データを話者適応のために音声認識エンジンに送信する携帯端末通信部31を有する。
Description
本発明は、車載情報システムおよび音声認識適応方法に関する。
情報通信インフラストラクチャ(以下、インフラという。)の発展およびスマートフォンの普及により、スマートフォンへの入力データおよびスマートフォンからの出力データをサーバに送り、サーバがデータ処理を行いスマートフォンに処理結果を送るというクラウドサービスが普及している。そのようなクラウドサービスの一つである、音声認識によるWeb検索システムや会話型応答システムの利用者は増加している。
自動車内において目的地を発声すると、発声された目的地がカーナビゲーションシステムに設定される機能を有する音声認識システムを搭載した自動車は増加している。車載情報端末とスマートフォンとを連携したクラウドサービスについても普及することが見込まれており、音声認識によるクラウドサービスもその一つである。
音声認識は、人の話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理である。音声認識を利用する際、話者の声の特徴に適応する話者適応技術や自動車内における騒音等の環境に適応する環境適応技術を用いて、音声認識の認識性能を高めることができる。これらの適応技術を利用して、自動車内における音声認識の認識性能を高めるにはいくつかの課題がある。
発話に対応する正しい認識結果テキストが不明確である場合でも適応度を高める処理を行うことができる、教師無し話者適応と呼ばれる技術がある(非特許文献1参照)。
教師無し話者適応機能を有する音声認識エンジンを用いる場合、音声認識エンジンに対する適応度を高めるために、ユーザには音声認識エンジンに対し数多く発声することが求められる。この場合、ユーザが乗車してからすぐに認識性能を高めることは困難である。
これに対して、発声内容の正しい認識結果テキストが明確である場合に適応度を高める処理を行うことができる、教師有り話者適応と呼ばれる技術がある(非特許文献2参照)。
教師有り話者適応機能を有する音声認識エンジンを用いる場合、教師無し話者適応機能を有する音声認識エンジンを用いた場合と比べると、適応度を高めるために必要なユーザの発声回数は比較的少なくなる。
ただし、教師有り話者適応機能を有する音声認識エンジンを利用する場合、ユーザには指定されたテキストを参照して発声することが求められる。または、発声後に音声認識結果テキストを参照して正しいか否かを判定し、正しければ話者適応を実行させるという判定処理をすることが求められる。
ユーザが指定されたテキストを参照して発声する場合、事前に指定されたテキストを複数回発声することが求められるため、ユーザはすぐに音声認識機能を利用することができない。
発声後に音声認識結果テキストを参照して正しいか否か判定する場合、判定するためのユーザ操作が求められるため、ユーザが運転中に操作すると自動車運転の安全性が低下することがある。よって、ユーザが教師有り話者適応機能を有する音声認識エンジンを運転中に利用することは困難である。
他にも、運転者の交代等によって発声するユーザが変更された場合、音声認識エンジンへの適応度を高めるためには、変更後のユーザに複数回発声することが求められる。よって、音声認識エンジンを利用するまでに発声の時間を要する。
さらに、ユーザが携帯型情報端末から複数の音声認識エンジンを利用することがある。例えば、ユーザがA社の音声によるWeb検索サービスとB社の音声対話アプリケーションを利用することが可能である携帯型情報端末を使用する場合等である。この場合、ユーザは、Web検索サービスを利用する時はA社の音声認識エンジンを利用し、B社の音声対話アプリケーションを利用する時はB社の音声認識エンジンを利用する。
他にも、複数の音声認識エンジンを同時に利用する場合の具体例として、ユーザが音声を複数の音声認識エンジンに入力して認識結果を複数取得し、正しい認識結果をユーザ操作により選択する、または正しい認識結果が自動的に選択されるという場合がある。
上記のように音声認識エンジンを複数利用する場合、それぞれの音声認識エンジンの適応度を高めることで認識性能が向上する。しかし、全ての音声認識エンジンの話者適応度を高めるためには、それぞれの音声認識エンジンを利用して複数回発声することが求められる。よって、全ての音声認識エンジンを利用するまでに多大な時間を要する。
このような状況において、音声認識エンジンを複数利用する場合に、利用できる全ての音声認識エンジンに対し事前に適応処理ができる音声認識システムが望まれる。
特許文献1には、車両に搭載される車載機と、車両の外部の遠隔地に設置されたセンターとを備えた音声認識システムが記載されている。
鹿野清宏、 中村哲、 伊勢史郎著「音声・音情報のディジタル信号処理」、昭晃堂、1997年発行、p.132
中川聖一著「確率モデルによる音声認識」、電子情報通信学会、1988年発行、p.150
しかし、特許文献1に記載された音声認識システムでは、ユーザが発話するごとに適応処理をしているため、利用するまで時間がかかる。また、事前に適応処理が行われないため、音声認識が失敗する可能性もある。
そこで、本発明は、ユーザが利用する音声認識の認識性能を向上させることができる車載情報システムおよび音声認識適応方法を提供することを目的とする。
本発明による車載情報システムは、音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムであって、車載情報端末は、音声データを記憶する記憶部と、所定の時期に音声データを携帯型情報端末に送信する車載通信部とを有し、携帯型情報端末は、車載情報端末から受信した音声データを話者適応のために音声認識エンジンに送信する携帯端末通信部を有することを特徴とする。
本発明による音声認識適応方法は、音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムで実行される音声認識適応方法であって、車載情報端末が、音声データを記憶する記憶部に記憶されている音声データを所定の時期に携帯型情報端末に送信し、携帯型情報端末が、車載情報端末から受信した音声データを話者適応のために音声認識エンジンに送信することを特徴とする。
本発明によれば、ユーザが利用する音声認識の認識性能を向上させることができる。
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明による車載情報システムの実施形態の構成例を示すシステム構成図である。図1に示す車載情報システム100には、車載情報端末200と、携帯型情報端末300とが含まれる。
図1には、車載情報端末200が、携帯型情報端末300に、通信路400を介して接続されている例が示されている。また、図1には、車載情報システム100が自動車1000に搭載されている例が示されている。
なお、図1には1台の携帯型情報端末300が示されているが、携帯型情報端末300の台数は2台以上であってもよい。
車載情報端末200は、ユーザからの音声入力機能、携帯型情報端末等の機器との通信機能、音声データを保存する機能等を有する。
携帯型情報端末300は、音声認識を利用する機能、車載情報端末等の機器との通信機能等を有する。携帯型情報端末300は、例えば、音声認識を利用するアプリケーションを1つ以上備えていてもよい。
通信路400は、例えば、無線LAN(Local Area Network)、Bluetooth(登録商標)または有線ケーブルである。携帯型情報端末300は、車載情報端末200と通信可能な状態である。
次に、車載情報システム100の詳細な構成を図2と図8を参照して説明する。図2は、車載情報端末200の構成例を示すブロック図である。
図2に示す車載情報端末200は、車載端末入力部201と、オーディオ入力部202と、オーディオ出力部203と、車載端末制御部204と、車載端末通信部205と、車載端末表示部206と、車載端末データ記憶部207とを含む。
車載端末入力部201は、ユーザからの指示を入力する機能を有する。本実施形態において、車載端末入力部201には、音声認識エンジンの認識結果の候補が複数ある場合に候補の中からユーザが選択した正しい認識結果等が入力される。車載端末入力部201は、例えば、タッチパネルである。
オーディオ入力部202は、車載端末データ記憶部207に事前に保存される音声データの基となる音声を入力する機能を有する。オーディオ入力部202は、例えば、マイクロフォン(以下、マイクという。)である。
オーディオ出力部203は、音声案内やラジオ、音楽等、一般的なカーナビゲーションシステムから出力される音声を出力する機能を有する。本実施形態において、オーディオ出力部203からは、ユーザに通知するために音声認識結果が音声合成により出力されてもよい。オーディオ出力部203は、例えば、スピーカである。
車載端末制御部204は、ユーザの音声データおよび音声認識エンジンの認識結果を入力または出力する機能を有する。
また、車載端末制御部204は、音声認識エンジンから取得した認識結果が正しいか否か判定する機能を有する。例えば、音声認識エンジンから認識スコアと呼ばれる認識結果に対する正確さを示すパラメータを認識結果とともに取得できるとする。この場合、車載端末制御部204は、認識スコアがあらかじめ定められている閾値以上であれば、認識結果を正しいと判定してもよい。
他にも、認識結果を車載情報端末200の車載端末表示部206から参照したユーザがその後の操作で認識結果を利用したことが確認された場合に、車載端末制御部204は、その認識結果を正しいと判定してもよい。また、すぐに音声入力をやり直す等、ユーザが認識結果を利用したことが確認されない場合、車載端末制御部204は、その認識結果を正しくないと判定してもよい。
また、一つまたは複数の音声認識エンジンを利用し認識結果の候補が複数ある場合、車載端末制御部204は、候補の中からユーザが選択した認識結果を正しいと判定してもよい。
また、複数の音声認識エンジンが利用される場合、車載端末制御部204は、適応度が高い音声認識エンジン、または正しく認識した回数が多い音声認識エンジンの優先度を高くし、優先度が高い音声認識エンジンの認識結果をより正しいと判定してもよい。
また、車載端末制御部204は、オーディオ入力部202より入力された音声の音声データを加工する機能を有する。車載端末制御部204による音声データの加工処理には、例えば、雑音除去処理、データ圧縮処理がある。
車載端末通信部205は、通信路400を介して、携帯型情報端末300等の機器と通信する機能を有する。車載端末通信部205は、有線または無線により通信する。
車載端末表示部206は、音声認識の認識結果等を表示する機能を有する。車載端末表示部206は、例えば、ディスプレイである。
車載端末データ記憶部207は、音声データを保存する機能を有する。保存される音声データは、オーディオ入力部202より入力された音声の音声データでもよい。
また、オーディオ入力部202より入力された音声の音声データを車載端末制御部204が加工し、加工された音声データが携帯型情報端末300に送信される場合、保存される音声データは、加工された後の音声データでもよい。
また、保存される音声データのチャネル数は限定されない。例えば、自動車1000内にマイクが複数存在する場合には、その全てのチャネルの音声データが保存されてもよい。
複数チャネルの音声データを保存した場合、車載端末通信部205は、携帯型情報端末300に音声データを送信する時には、保存されている音声データの中から必要なチャネルの音声データを一つまたは複数個選別して送信してもよい。
また、保存されている複数チャネルの音声データを用いて、例えば、雑音除去等の加工処理を車載端末制御部204が行い、車載端末通信部205が、加工された後の音声データを携帯型情報端末300に送信してもよい。
車載端末データ記憶部207に保存されている音声データの情報の一例を図3に示す。図3は、車載端末データ記憶部207に保存されている音声データの情報の一例を示す説明図である。車載端末データ記憶部207に保存されている音声データの情報は、ユーザ識別情報210と、保存音声データ211と、発話内容テキスト212と、保存日時213とを含む。
ユーザ識別情報210は、話者を識別するための情報である。ユーザ識別情報210は、ユーザが車載情報端末200を操作すると登録されるユーザIDやユーザアカウント等の所有者固有の情報である。
また、ユーザ識別情報210は、接続した携帯情報端末のSIM(Subscriber Identity Module)カードの情報、または自動車の鍵の情報と、ユーザIDやユーザアカウント等の所有者固有の情報が組み合わされた情報でもよい。
また、自動車1000が生体認証機能等を有していて登録した人しかドアを開けることができない場合、ユーザ識別情報210は、機能を使用するためにあらかじめ登録されたユーザ情報でもよい。
他にも、車載情報端末200の車載端末入力部201を介してユーザが入力した内容をユーザ識別情報210としてもよい。具体的には、例えば、事前に登録されたユーザ情報や利用履歴等を選択できる画面を車載端末入力部201に表示し、ユーザがタッチパネルにより入力した情報をユーザ識別情報210としてもよい。
ユーザ識別情報210は、上記の情報に限らず、発声するユーザごとに異なる情報であればどのような情報でもよい。
保存音声データ211は、例えば、オーディオ入力部202より入力された音声のデータである。保存音声データ211には、保存された音声データのファイル名等が表示される。
発話内容テキスト212は、音声データに含まれる発話内容を示すテキストデータである。発話内容テキスト212は、音声認識エンジンによる認識結果から得られるデータである。
保存日時213は、音声データが保存された日時を示す情報である。
また、車載端末データ記憶部207は、音声認識エンジンの情報を保存する機能を有する。音声認識エンジンの情報は、車載情報端末200と携帯型情報端末300とが通信可能な状態となった際に、携帯型情報端末300から車載情報端末200へ送信され、車載情報端末200の車載端末データ記憶部207に登録される。
図4は、車載端末データ記憶部207に保存されている音声認識エンジンの情報の一例を示す説明図である。車載端末データ記憶部207に保存されている音声認識エンジンの情報は、音声認識エンジン識別情報220と、話者適応機能情報221と、適応状態222と、利用可否(利用可否状態を示すデータ)223とを含む。
なお、図5、図6および図7は、車載端末データ記憶部207に保存されている音声認識エンジンの情報の他の一例を示す説明図である。
音声認識エンジン識別情報220は、音声認識エンジンを識別する情報である。
話者適応機能情報221は、音声認識エンジンが有する話者適応機能を表わす情報である。話者適応機能情報221には、例えば、教師有り話者適応機能、教師無し話者適応機能等がある。
話者適応機能情報221には、例えば、車載情報端末200と携帯型情報端末300とが通信可能に接続された際に、携帯型情報端末300から利用できる音声認識エンジンの有する話者適応機能の情報が、携帯型情報端末300から送信されることによって登録されてもよい。
また、話者適応機能情報221には、携帯型情報端末300から利用できる音声認識エンジンにおいて、一般的に広く利用されている機能が事前にユーザによって登録されてもよい。他にも、話者適応機能情報221には、車載情報端末200をユーザが操作する場合に、話者適応機能の有無について選択された結果が登録されてもよい。
適応状態222は、これから利用する音声認識エンジンにユーザの音声データが適応されているか否かを示す情報である。音声認識エンジンに既にユーザの音声データが適応されている場合、適応状態222は「適応済」となる。音声認識エンジンに未だユーザの音声データが適応されていない場合、適応状態222は「未適応」となる。
音声認識エンジンにユーザの音声データが適応されているか否か判定する具体的な方法を説明する。例えば、同じユーザの音声データの入力回数と適応度が比例すると想定し、音声データが所定回数入力されると適応が完了すると判断する方法が用いられてもよい。また、過去数回の入力に対する認識結果の正解率があらかじめ定められている率よりも高い音声認識エンジンは適応が完了していると判断する方法が用いられてもよい。
利用可否223は、音声認識エンジンが現在利用可能な状態にあるか否かを示す情報である。音声認識エンジンが通常通り利用できる場合、利用可否223は「利用可」となる。
また、例えば、周囲の電波状況によっては携帯型情報端末300がサーバと接続できないことがあり、サーバの音声認識エンジンにアクセスできなくなることがある。他にも、音声認識エンジンの故障やサーバのメンテナンス等により音声認識エンジンが利用できない場合がある。このように何らかの事由により音声認識エンジンが現在利用できない場合、利用可否223は「利用不可」となる。
車載端末データ記憶部207の記憶容量は有限であるため、新たに発生する情報を保存するために、図3に示す音声データの情報や図4に示す音声認識エンジンの情報は逐次削除される。
車載端末データ記憶部207に保存されている情報を削除する方法は、例えば、音声の録音日時を参照して所定時間経過している情報を削除する方法でもよいし、保存日時が古い情報を優先的に削除する方法でもよい。
本実施形態において、データの削除方法は上記の方法に限らず、不要なデータや録音日時の古いデータがユーザ操作により削除される方法や、条件に合致すると自動的に削除される方法であればよい。
なお、本実施形態において、車載端末制御部204は、例えば、プログラムに従って動作するCPU(Central Processing Unit)によって実現される。
また、車載端末通信部205は、プログラムに従って動作するCPUと、ネットワークカード等の通信制御装置とによって実現される。
また、車載端末データ記憶部207は、例えば、データベースシステムといった記憶装置とその記憶装置に対してアクセス制御する制御部とによって実現される。
図8は、携帯型情報端末300の構成例を示すブロック図である。図8に示す携帯型情報端末300は、携帯型端末通信部301と、携帯型端末入力部302と、情報端末通信部303と、携帯型端末制御部304と、携帯型端末表示部305と、携帯型端末データ記憶部306とを含む。
携帯型端末通信部301は、音声認識エンジンを備えたサーバ等と無線通信する機能を有してもよい。使用される通信方式として、例えば、W-CDMA(Wideband Code Division Multiple Access)等がある。
また、携帯型端末通信部301は、音声認識エンジンを搭載したサーバに音声データを送信し、サーバから認識結果を受信してもよい。
携帯型端末入力部302は、ユーザからの指示を入力する機能を有する。携帯型端末入力部302は、例えば、ボタンやタッチパネルである。
情報端末通信部303は、通信路400を介して、車載情報端末200等の機器と通信する機能を有する。
携帯型端末制御部304は、入力した音声データを音声認識エンジンに出力する機能と、音声認識エンジンから認識結果を入力する機能を有する。携帯型端末制御部304は、音声認識エンジンを搭載してもよい。
携帯型端末表示部305は、ユーザに指示を促す画面等を表示する機能を有する。携帯型端末表示部305は、例えば、ディスプレイである。
携帯型端末データ記憶部306は、例えば、携帯型情報端末300から利用できる音声認識エンジンの情報等を記憶する機能を有してもよい。
本実施形態では、携帯型情報端末300から利用できる音声認識エンジンが搭載される場所は限定されない。また、携帯型情報端末300は、音声認識エンジンを複数利用してもよい。
なお、本実施形態において、携帯型端末制御部304は、例えば、プログラムに従って動作するCPUによって実現される。
また、携帯型端末通信部301および情報端末通信部303は、プログラムに従って動作するCPUと、無線インタフェースによって実現される。
また、携帯型端末データ記憶部306は、フラッシュメモリ等の記憶媒体とその記憶媒体に対してアクセス制御する制御部とによって実現される。
以下、本発明による保存処理の動作を、図9を参照して説明する。図9は、車載情報システム100の音声データの保存処理の動作を示すフローチャートである。
本実施形態では、ユーザは、音声データを事前に保存することが求められる。ユーザは、例えばあらかじめ車載情報端末200の録音機能を利用して保存する。
ここでは、ユーザが音声認識を利用する際に、車載情報端末200の車載端末制御部204が音声データを保存する方法を例にして、図9のフローチャートを参照して説明する。
音声認識を利用する際、ユーザは、車載情報端末200のオーディオ入力部202に音声を入力する(ステップS501)。なお、音声を入力する際、ユーザが車載情報端末200を操作した時に登録されるユーザIDやユーザアカウントをユーザ識別情報210とする。
入力された音声の音声データは、車載端末制御部204を介して、車載端末通信部205へ出力される。車載端末通信部205は、入力された音声データを携帯型情報端末300に送信する(ステップS502)。
情報端末通信部303は、車載情報端末200から音声データを受信する。携帯型端末制御部304は、情報端末通信部303から音声データを入力し、入力した音声データを音声認識エンジンに出力する(ステップS503)。
音声認識エンジンは、入力した音声データの認識結果を出力する。携帯型端末制御部304は、音声認識エンジンの認識結果を取得し(ステップS504)、情報端末通信部303に出力する。
情報端末通信部303は、入力した認識結果を車載情報端末200に送信する(ステップS505)。車載情報端末200の車載端末通信部205は、認識結果を受信する(ステップS506)。その後、車載端末制御部204は、受信した認識結果が正しいか否か判定する(ステップS507)。
受信した認識結果が正しくない場合(ステップS507のNo)、車載端末制御部204は、保存処理を終了する。
受信した認識結果が正しい場合(ステップS507のYes)、車載端末制御部204は、その認識結果を発話内容テキスト212として、ユーザ識別情報210と音声データと共に車載端末データ記憶部207に保存する(ステップS508)。保存した後、車載端末制御部204は、保存処理を終了する。
なお、認識結果が所定の基準を満たす場合に認識結果が正しいと判定されるが、判断基準は例えば上述した認識スコアである。ただし、車載端末制御部204は、他の判断基準を用いてもよい。
次に、本発明による適応処理の動作を、図10を参照して説明する。図10は、車載情報システム100の音声認識エンジンへの適応処理の動作を示すフローチャートである。
具体例として、図4に示す音声認識エンジンに関する情報が車載端末データ記憶部207に登録される時の車載情報システム100の適応処理の動作を説明する。
ユーザは乗車後に、車載情報端末200と携帯型情報端末300を有線または無線により通信可能に接続する。車載情報端末200と携帯型情報端末300が通信可能な状態になると、車載情報端末200の車載端末制御部204は、自動的に、またはボタン等による車載端末入力部201を介したユーザ操作により、図10のフローチャートに示す適応処理をする。
図10のフローチャートに示す適応処理は、車載情報端末200と携帯型情報端末300が通信可能な状態になると、自動的に実行されてもよい。また、適応処理は、通信可能な状態な時にユーザ操作により全て実行されてもよい。また、適応処理は、通信可能な状態になると途中まで自動的に実行され、ユーザ操作により後続の処理が実行されてもよい。
適応処理が開始されると、携帯型情報端末300の情報端末通信部303が、携帯型情報端末300から利用できる音声認識エンジンについての情報を車載情報端末200に送信する(ステップS601)。
車載情報端末200の車載端末通信部205は、利用できる音声認識エンジンについての情報を受信する。車載端末制御部204は、受信した情報を車載端末データ記憶部207に登録する。音声認識エンジンの情報が登録されると、車載端末制御部204は、ユーザが車載情報端末200を操作したときに登録されたユーザID等に基づき、ユーザを識別する(ステップS602)。
車載端末制御部204は、識別したユーザの音声データが車載情報端末200の車載端末データ記憶部207に保存されているか否か判定する(ステップS603)。保存されていない場合(ステップS603のNo)、車載端末制御部204は、適応処理を終了する。
保存されている場合(ステップS603のYes)、車載端末制御部204は、携帯型情報端末300で利用できる音声認識エンジンが存在するか否か判定する(ステップS604)。
利用できる音声認識エンジンが存在しない場合(ステップS604のNo)、車載端末制御部204は、適応処理を終了する。利用できる音声認識エンジンが存在する場合(ステップS604のYes)、車載端末制御部204は、適応が完了していなく、かつ利用できる音声認識エンジンを1つ選択する(ステップS605)。
なお、適応が完了していないということは、具体的には、適応度が所定レベルよりも低いことを意味する。「適応度が所定レベルよりも低い音声認識エンジン」は、一例として、過去数回の入力に対する認識結果の正解率があらかじめ定められている所定値以下の音声認識エンジンである。
図4に示す利用可否223を参照すると、5つの音声認識エンジンのうち、音声認識エンジンA、音声認識エンジンB、音声認識エンジンC、および音声認識エンジンEは「利用可」であるため(ステップS604のYes)、車載端末制御部204は、ステップS605へ処理を進める。
ステップS605において、車載端末制御部204は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンAを選択する(ステップS605)。
車載端末制御部204は、選択した音声認識エンジンに教師有り話者適応機能があるか否か判定する(ステップS606)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師有り話者適応機能の有無を判定する。
話者適応機能の有無が不明確である場合、車載端末制御部204は、音声認識エンジンに話者適応機能が有る、または話者適応機能が無いとみなして後続の処理を行ってもよい。また、車載端末制御部204が音声認識エンジンに話者適応機能が有るか無いかのどちらとみなすかを、ユーザが任意に設定してもよい。
選択した音声認識エンジンに教師有り話者適応機能がある場合(ステップS606のYes)、車載端末制御部204は、話者適応のために、車載端末データ記憶部207に保存されている音声データと発話内容テキストを、所定の回数だけ携帯型情報端末300に送信する(ステップS607)。選択した音声認識エンジンに教師有り話者適応機能がない場合(ステップS606のNo)、車載端末制御部204は、ステップS610へ処理を進める。
音声認識エンジンAは教師有り話者適応機能を有するため(ステップS606のYes)、車載端末制御部204は、音声データと発話内容テキストを、所定の回数だけ携帯型情報端末300に送信する(ステップS607)。
送信回数が決められている理由は、携帯型情報端末300に送信する音声データが多いと、話者適応処理に時間がかかることがあるためである。
携帯型情報端末300の情報端末通信部303は、音声データと発話内容テキストを受信する。情報端末通信部303は、受信した音声データと発話内容テキストを携帯型端末制御部304へ出力する。携帯型端末制御部304は、入力した音声データと発話内容テキストを音声認識エンジンに出力する(ステップS608)。
本実施形態では、音声認識エンジンに所定の回数分の音声データ等が入力されると、その音声認識エンジンの適応は完了したとする。音声認識エンジンに所定の回数分の音声データと発話内容テキストが入力されると、車載端末制御部204は、音声認識エンジンの適応状態222を「適応済」に変更する(ステップS609)。
所定の回数分の音声データと発話内容テキストが入力された後、音声認識エンジンAの適応状態222は、図5に示すように「適応済」となる。
その後、車載端末制御部204は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する(ステップS615)。利用できる全ての音声認識エンジンについて適応が完了している場合(ステップS615のYes)、車載端末制御部204は、適応処理を終了する。利用できる全ての音声認識エンジンについて適応が完了していない場合(ステップS615のNo)、車載端末制御部204は、ステップS605へ処理を進める。
図5に示す適応状態222を参照すると、利用できる音声認識エンジンのうち、音声認識エンジンBおよび音声認識エンジンEは「未適応」であるため(ステップS615のNo)、車載端末制御部204は、ステップS605へ処理を進める。
ステップS605において、車載端末制御部204は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンBを選択する。
車載端末制御部204は、選択した音声認識エンジンに教師有り話者適応機能があるか否か判定する(ステップS606)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師有り話者適応機能の有無を判定する。
音声認識エンジンBは教師有り話者適応機能を有していないため(ステップS606のNo)、車載端末制御部204は、ステップS610へ処理を進める。
車載端末制御部204は、選択した音声認識エンジンに教師無し話者適応機能があるか否か判定する(ステップS610)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師無し話者適応機能の有無を判定する。
選択した音声認識エンジンに教師無し話者適応機能がある場合(ステップS610のYes)、車載端末制御部204は、話者適応のために、車載端末データ記憶部207に保存されている音声データを、所定の回数だけ携帯型情報端末300に送信する(ステップS611)。選択した音声認識エンジンに教師無し話者適応機能がない場合(ステップS610のNo)、車載端末制御部204は、ステップS614へ処理を進める。
音声認識エンジンBは教師無し話者適応機能を有するため(ステップS610のYes)、車載端末制御部204は、音声データを所定の回数だけ携帯型情報端末300に送信する(ステップS611)。
携帯型情報端末300の情報端末通信部303は、音声データを受信する。情報端末通信部303は、受信した音声データを携帯型端末制御部304へ出力する。携帯型端末制御部304は、入力した音声データを音声認識エンジンに出力する(ステップS612)。
音声認識エンジンに所定の回数分の音声データが入力されたら、車載端末制御部204は、音声認識エンジンの適応状態222を「適応済」に変更する(ステップS613)。所定の回数分の音声データが入力された後、音声認識エンジンBの適応状態222は、図6に示すように「適応済」となる。
その後、車載端末制御部204は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する(ステップS615)。図6に示す適応状態222を参照すると、利用できる音声認識エンジンのうち、音声認識エンジンEは「未適応」であるため(ステップS615のNo)、車載端末制御部204は、ステップS605へ処理を進める。
ステップS605において、車載端末制御部204は、利用でき、かつ適応が完了していない音声認識エンジンとして、音声認識エンジンEを選択する。
車載端末制御部204は、選択した音声認識エンジンに教師有り話者適応機能があるか否か判定する(ステップS606)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師有り話者適応機能の有無を判定する。
音声認識エンジンEは教師有り話者適応機能を有していないため(ステップS606のNo)、車載端末制御部204は、ステップS610へ処理を進め、選択した音声認識エンジンに教師無し話者適応機能があるか否か判定する(ステップS610)。車載端末制御部204は、車載端末データ記憶部207に登録されている情報を基に、教師無し話者適応機能の有無を判定する。
音声認識エンジンEは教師無し話者適応機能を有していないため(ステップS610のNo)、車載端末制御部204は、ステップS614へ処理を進める。
車載端末制御部204は、音声認識エンジンEの利用可否223を「利用不可」に変更する(ステップS614)。音声認識エンジンEの利用可否223は、図7に示すように「利用不可」となる。
その後、車載端末制御部204は、利用できる全ての音声認識エンジンについて適応が完了しているか否か確認する(ステップS615)。図7に示す適応状態222を参照すると、利用できる音声認識エンジンは全て「適応済」であるため(ステップS615のYes)、車載端末制御部204は、適応処理を終了する。
以上のように、本実施形態では、音声認識エンジンを利用する機能を有する携帯型情報端末と、携帯型情報端末との通信機能を有しユーザが自動車内で発声した音声データを保存する車載情報端末とを使用し、保存した音声データおよびその発話内容テキストを用いる。よって、複数の音声認識エンジンに対してユーザが新たに発声することなく話者適応度および環境適応度を高めることができる。
本実施形態の車載情報システムを使用することにより、自動車内で利用する音声認識エンジンの話者適応度を高めるために必要なユーザの手間を削減することができる。その理由は、車載情報端末に保存されたユーザの音声データを携帯型情報端末に送信して、携帯型情報端末より音声認識エンジンに音声データを入力する場合、ユーザが新たに発声することなく話者適応度を高めることができるからである。また、音声認識を利用する時に音声データが保存されるため、ユーザは、話者適応だけのために発声する必要がない。
また、本実施形態の車載情報システムを使用することにより、自動車内で利用する音声認識エンジンの環境適応度が高まり、適応環境と同じ環境で使用するときの性能を向上させることができる。その理由は、自動車内で音声認識を利用する場合の音声データが保存されるため、音声データが自動車内の騒音等の環境も含んでおり環境適応度が向上するためである。この結果、自動車内で使用する時の音声認識の性能が向上する。
次に、本発明の概要を説明する。図11は、本発明による車載情報システムの概要を示すブロック図である。本発明による車載情報システム1において、車載情報端末2は、音声データを記憶する記憶部21と、所定の時期に音声データを携帯型情報端末3に送信する車載通信部22とを有する。また、携帯型情報端末3は、車載情報端末2から受信した音声データを話者適応のために音声認識エンジンに送信する携帯端末通信部31を有する。
携帯型情報端末3は、複数の教師無し話者適応機能を有する音声認識エンジンをアクセス可能である。車載情報端末2は、適応度が所定レベルよりも低い教師無し話者適応機能を有する音声認識エンジンを選択する選択部(例えば、車載端末制御部204で実現される。)を有している。携帯端末通信部31は、選択部によって選択された音声認識エンジンに音声データを送信するように構成されていてもよい。
そのように構成されている場合には、車載情報端末2は、教師無し話者適応機能を有する音声認識エンジンを事前に(ユーザが実際に音声認識エンジンを活用する前に)ユーザ(話者)に適応させることができる。
携帯型情報端末3は、複数の教師有り話者適応機能を有する音声認識エンジンをアクセス可能である。車載情報端末2は、適応度が所定レベルよりも低い教師有り話者適応機能を有する音声認識エンジンを選択する選択部(例えば、車載端末制御部204で実現される。)を有している。携帯端末通信部31は、選択部によって選択された音声認識エンジンに音声データおよび発話内容テキストを送信するように構成されていてもよい。
そのように構成されている場合には、車載情報端末2は、教師有り話者適応機能を有する音声認識エンジンを事前に話者に適応させることができる。
記憶部21は、複数の話者の各々の音声データを記憶し、車載通信部22は、各々の話者の音声データを携帯型情報端末3に送信するように構成されていてもよい。
そのように構成されている場合には、複数のユーザの各々について、音声認識エンジンを事前に適応させることができる。
携帯端末通信部31は、音声認識エンジンの認識結果を車載情報端末2に送信する。車載情報端末2は、認識結果が所定の基準を満たす場合に認識結果を正しいとして、その認識結果を発話内容テキストとして記憶部21に保存する記憶制御部(例えば、車載端末制御部204で実現される。)を有していてもよい。
そのように構成されている場合には、事前に、教師有り話者適応機能を有する音声認識エンジンを適応させるための用意を行うことができる。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年1月9日に出願された日本特許出願2013-001504を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1、100 車載情報システム
2 車載情報端末
3 携帯型情報端末
21 記憶部
22 車載通信部
31 携帯端末通信部
200 車載情報端末
201 車載端末入力部
202 オーディオ入力部
203 オーディオ出力部
204 車載端末制御部
205 車載端末通信部
206 車載端末表示部
207 車載端末データ記憶部
210 ユーザ識別情報
211 保存音声データ
212 発話内容テキスト
213 保存日時
220 音声認識エンジン識別情報
221 話者適応機能情報
222 適応状態
223 利用可否
300 携帯型情報端末
301 携帯型端末通信部
302 携帯型端末入力部
303 情報端末通信部
304 携帯型端末制御部
305 携帯型端末表示部
306 携帯型端末データ記憶部
400 通信路
2 車載情報端末
3 携帯型情報端末
21 記憶部
22 車載通信部
31 携帯端末通信部
200 車載情報端末
201 車載端末入力部
202 オーディオ入力部
203 オーディオ出力部
204 車載端末制御部
205 車載端末通信部
206 車載端末表示部
207 車載端末データ記憶部
210 ユーザ識別情報
211 保存音声データ
212 発話内容テキスト
213 保存日時
220 音声認識エンジン識別情報
221 話者適応機能情報
222 適応状態
223 利用可否
300 携帯型情報端末
301 携帯型端末通信部
302 携帯型端末入力部
303 情報端末通信部
304 携帯型端末制御部
305 携帯型端末表示部
306 携帯型端末データ記憶部
400 通信路
Claims (8)
- 話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムであって、
前記車載情報端末は、
音声データを記憶する記憶部と、
所定の時期に前記音声データを前記携帯型情報端末に送信する車載通信部と、
適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択する選択部とを有し、
前記携帯型情報端末は、
前記車載情報端末から受信した音声データを話者適応のために、前記選択部によって選択された音声認識エンジンに送信する携帯端末通信部を有する
ことを特徴とする車載情報システム。 - 車載通信部は、携帯型情報端末と車載情報端末とが通信可能になったときに、音声データを前記携帯型情報端末に送信する
請求項1記載の車載情報システム。 - 携帯端末通信部は、話者適応機能として教師無し話者適応機能を有する複数の音声認識エンジンに音声データを送信する
請求項1または請求項2記載の車載情報システム。 - 記憶部は、音声データに対応する発話内容テキストを記憶し、
車載通信部は、音声データとともにそれに対応する発話内容テキストを送信し、
携帯端末通信部は、話者適応機能として教師有り話者適応機能を有する複数の音声認識エンジンに音声データおよび発話内容テキストを送信する
請求項1または請求項2記載の車載情報システム。 - 記憶部は、複数の話者の各々の音声データを記憶し、
車載通信部は、各々の話者の音声データを前記携帯型情報端末に送信する
請求項1から請求項4のうちのいずれか1項に記載の車載情報システム。 - 携帯端末通信部は、音声認識エンジンの認識結果を車載情報端末に送信し、
前記車載情報端末は、前記認識結果が所定の基準を満たす場合に前記認識結果を正しいとして、その認識結果を発話内容テキストとして記憶部に保存する記憶制御部を有する
請求項1から請求項5のうちのいずれか1項に記載の車載情報システム。 - 話者適応機能を有する複数の音声認識エンジンをアクセス可能な携帯型情報端末と通信可能な車載情報端末を含む車載情報システムで実行される音声認識適応方法であって、
前記車載情報端末が、音声データを記憶する記憶部に記憶されている音声データを所定の時期に前記携帯型情報端末に送信し、
前記車載情報端末が、適応度が所定レベルよりも低い話者適応機能を有する音声認識エンジンを選択し、
前記携帯型情報端末が、前記車載情報端末から受信した音声データを話者適応のために、前記車載情報端末によって選択された音声認識エンジンに送信する
ことを特徴とする音声認識適応方法。 - 車載情報端末が、携帯型情報端末と車載情報端末とが通信可能になったときに、音声データを前記携帯型情報端末に送信する
請求項7記載の音声認識適応方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013001504A JP5376072B1 (ja) | 2013-01-09 | 2013-01-09 | 車載情報システムおよび音声認識適応方法 |
JP2013-001504 | 2013-01-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014108981A1 true WO2014108981A1 (ja) | 2014-07-17 |
Family
ID=49954984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/007670 WO2014108981A1 (ja) | 2013-01-09 | 2013-12-27 | 車載情報システムおよび音声認識適応方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5376072B1 (ja) |
WO (1) | WO2014108981A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101910383B1 (ko) * | 2015-08-05 | 2018-10-22 | 엘지전자 주식회사 | 차량 운전 보조 장치 및 이를 구비한 차량 |
US10650819B2 (en) | 2018-10-15 | 2020-05-12 | Midea Group Co., Ltd. | System and method for providing portable natural language processing interface across multiple appliances |
US10978046B2 (en) * | 2018-10-15 | 2021-04-13 | Midea Group Co., Ltd. | System and method for customizing portable natural language processing interface for appliances |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003076390A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 話者認証システム及び方法 |
JP2004061609A (ja) * | 2002-07-25 | 2004-02-26 | Alpine Electronics Inc | 音声認識方法及び音声認識装置 |
JP2005091504A (ja) * | 2003-09-12 | 2005-04-07 | Chubu Electric Power Co Inc | 音声認識装置 |
JP2005181459A (ja) * | 2003-12-16 | 2005-07-07 | Canon Inc | 音声認識装置および方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004029299A (ja) * | 2002-06-25 | 2004-01-29 | Auto Network Gijutsu Kenkyusho:Kk | 音声認識システム |
JP2005173215A (ja) * | 2003-12-11 | 2005-06-30 | Oki Electric Ind Co Ltd | 音声認識システム |
-
2013
- 2013-01-09 JP JP2013001504A patent/JP5376072B1/ja active Active
- 2013-12-27 WO PCT/JP2013/007670 patent/WO2014108981A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003076390A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 話者認証システム及び方法 |
JP2004061609A (ja) * | 2002-07-25 | 2004-02-26 | Alpine Electronics Inc | 音声認識方法及び音声認識装置 |
JP2005091504A (ja) * | 2003-09-12 | 2005-04-07 | Chubu Electric Power Co Inc | 音声認識装置 |
JP2005181459A (ja) * | 2003-12-16 | 2005-07-07 | Canon Inc | 音声認識装置および方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2014134604A (ja) | 2014-07-24 |
JP5376072B1 (ja) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6571118B2 (ja) | 音声認識処理のための方法、車載システム及び不揮発性記憶媒体 | |
US10380992B2 (en) | Natural language generation based on user speech style | |
US10490207B1 (en) | Automated speech recognition using a dynamically adjustable listening timeout | |
EP2538404B1 (en) | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system | |
US10679620B2 (en) | Speech recognition arbitration logic | |
CN111095400A (zh) | 选择系统和方法 | |
US9123345B2 (en) | Voice interface systems and methods | |
US10255913B2 (en) | Automatic speech recognition for disfluent speech | |
US20180074661A1 (en) | Preferred emoji identification and generation | |
JP2009530666A (ja) | 外部ユーザの自動音声認識、口述、録音および再生を提供する方法 | |
US20180075842A1 (en) | Remote speech recognition at a vehicle | |
US20160322052A1 (en) | Method and System for Generating a Control Command | |
JP5376072B1 (ja) | 車載情報システムおよび音声認識適応方法 | |
US20170018273A1 (en) | Real-time adaptation of in-vehicle speech recognition systems | |
US20200321006A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
US20210241755A1 (en) | Information-processing device and information-processing method | |
KR20230135396A (ko) | 대화 관리 방법, 사용자 단말 및 컴퓨터로 판독 가능한 기록 매체 | |
US20200219508A1 (en) | Method for commanding a plurality of virtual personal assistants and associated devices | |
US20230318727A1 (en) | Vehicle and method of controlling the same | |
US11355114B2 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
WO2022024188A1 (ja) | 音声登録装置、制御方法、プログラム及び記憶媒体 | |
KR102441066B1 (ko) | 차량의 음성생성 시스템 및 방법 | |
KR20230122427A (ko) | 차량 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13870739 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13870739 Country of ref document: EP Kind code of ref document: A1 |