WO2020031781A1

WO2020031781A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2020031781A1
Application number: PCT/JP2019/029716
Authority: WO
Inventors: 真里斎藤
Original assignee: ソニー株式会社
Priority date: 2018-08-10
Filing date: 2019-07-29
Publication date: 2020-02-13
Also published as: US20210166698A1

Abstract

ディクテーションの発話の書き下し文に係る指示を良好に行い得るようにする。　表示制御部は、ディクテーションの発話の書き下し文の表示を制御する。例えば、表示制御部は、発話の書き下し文を、発話したユーザが識別可能な状態で表示する。付与部により、所定のユーザに主導権を付与する。例えば、付与部は、ディクテーションを開始したユーザに主導権を付与する。編集制御部は、発話の書き下し文に係る指示を主導権が付与されたユーザが行い得るように制御する。例えば、指示は、送信、確定、完了、登録、キャンセル、クリア等である。

Description

情報処理装置および情報処理方法

　本技術は、情報処理装置および情報処理方法に関し、詳しくは、ディクテーションの発話の書き下し文に係る指示を良好に行い得るようにした情報処理装置および情報処理方法に関する。

　複数人でディクテーションを行う場合、関係ない会話をしているのか、交互にディクテーションをしているのか、判別しにくい。また、人によって言い方が異なるので、コマンドの区別を精度良く行ったとしても、ユーザの発話の曖昧性や表現の個人差などにより、必ずしも意図通りの認識結果にはならない。

　例えば、特許文献１には、入力された音声を複数のセグメントに分割して各セグメントに対して１以上の音素を割り当て、この音素に基づいて１以上の単語を決定し、記憶部に格納された前記単語の１つを確定単語としてモニタに表示するとともに確定単語以外の単語を表示の次候補とすること、が記載されている。

特開平１１－１４３４８７号公報

　一人でディクテーションを行う場合は、その人が今入力したものが必要か否か等を判断して進めればよいが、複数人でディクテーションを行う場合は、ユーザに対する話しかけなのか、エージェントへの入力なのか判断できない。さらに、交互に入力する場合、人によって発話の特性や表現も異なるので、一人のときと同様の候補では誤認識の修正などがしにくい。

　本技術の目的は、ディクテーションの発話の書き下し文に係る指示を良好に行い得るようにすることにある。

　本技術の概念は、
　ディクテーションの発話の書き下し文の表示を制御する表示制御部と、
　所定のユーザに主導権を付与する付与部と、
　上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する編集制御部を備える
　情報処理装置にある。

　本技術において、表示制御部により、ディクテーションの発話の書き下し文の表示が制御される。例えば、表示制御部は、発話の書き下し文を、発話したユーザが識別可能な状態で表示する、ようにされてもよい。例えば、色分け表示をし、あるいはアイコンや記号を付加することで、発話したユーザが識別可能な状態とされる。また、表示制御部は、発話の書き下し文を、確定するまで、非確定状態で表示する、ようにされてもよい。例えば、点滅、あるいはグレー文字等とされる。この場合、例えば、発話の書き下し文は、タイムアウトまたは確定処理により確定される、ようにされてもよい。

　付与部により、所定のユーザに主導権が付与される。例えば、付与部は、ディクテーションを開始したユーザに主導権を付与する、ようにされてもよい。この場合、例えば、付与部は、ディクテーションを開始したユーザが所定の属性であるときは、主導権を付与しない、ようにされてもよい。これにより、所定の属性のユーザに主導権を付与することによる不都合の発生を防止できる。例えば、付与部は、ディクテーションを開始したユーザが所定の年齢以下であるときは、主導権を付与しない、ようにされてもよい。これにより、子供によるいたずらを回避することができる。また、この場合、例えば、付与部は、発話の書き下し文を送信する相手に応じて、ディクテーションを開始したユーザが所定の年齢以下であっても主導権を付与する、ようにされてもよい。これにより、子供は例えば家族には送信することが可能となる。

　編集制御部により、発話の書き下し文に係る指示を主導権が付与されたユーザが行い得るように制御される。例えば、発話の書き下し文に係る指示は、送信、確定、完了、登録、キャンセル、クリア等である。

　このように本技術においては、発話の書き下し文に係る指示は、主導権が付与されたユーザが行い得るものである。そのため、主導権が付与されたユーザは、ディクテーションの発話の書き下し文に係る指示を良好に行い得る。例えば、複数人でメッセージを作成する環境にあっても、主導権のあるユーザは意図通りにメッセージを作成して送信することが可能となる。

実施の形態としての情報処理装置の構成例を示すブロック図である。ユーザの発話があった場合における制御部の処理手順の一例を示すフローチャートである。発話依頼モードの場合における提示画面の一例を示す図である。ディクテーションモードの場合における提示画面の一例を示す図である。あいまいモードの場合における提示画面の一例を示す図である。複数人で交互にディクテーションを行う場合の一例を示す図である。メッセージ送信を行う場合の一例を示す図である。タイムアウトの場合（一人で使う場合）について説明するための図である。タイムアウトの場合（複数人で使う場合）について説明するための図である。タイムアウトの場合（複数人で使う場合でキャンセルする場合）について説明するための図である。書き下し文の確定のためのタイムアウト開始ポイントを説明するための図である。確定処理をする場合（一人で使う場合）について説明するための図である。確定処理をする場合（複数人で使う場合）について説明するための図である。確定処理をする場合（複数人で使う場合でキャンセルする場合）について説明するための図である。制御部におけるディクテーションモード処理の手順の一例を示すフローチャートである。複数ユーザが文章を交互に入力する場合のシーケンスの一例を示す図である。文章を修正する場合のシーケンスの一例を示す図である。複数人で行う場合の他のモダリティの活用について説明するための図である。複数人で行う場合の他のモダリティの活用について説明するための図である。複数人で行う場合の他のモダリティの活用について説明するための図である。主導権のあるユーザの発話に係る書き下し文の表示位置に他のユーザの発話に係る書き下し文がマージされる例を示す図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［情報処理システムの構成例］
　図１は、実施の形態としての情報処理装置１００の構成例を示している。この情報処理装置１００は、音声エージェントを構成している。この情報処理装置１００は、制御部１０１と、入出力インタフェース１０２と、操作入力デバイス１０３と、カメラ１０４と、マイク１０５と、スピーカ１０６と、ディスプレイ１０７と、ユーザ認識部１０８と、音声認識部１０９と、通信インタフェース１１０と、意味解析ガイドデータベース１１１と、ディクテーションガイドデータベース１１２を有している。制御部１０１、入出力インタフェース１０２、ユーザ認識部１０８、音声認識部１０９、通信インタフェース１１０、意味解析ガイドデータベース１１１およびディクテーションガイドデータベース１１２は、バス１１３に接続されている。

　制御部１０１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random access memory）等を備えてなり、情報処理装置１００の各部の動作を制御する。入出力インタフェース１０２は、操作入力デバイス１０３、カメラ１０４、マイク１０５、スピーカ１０６およびディスプレイ１０７を接続する。操作入力デバイス１０３は、情報処理装置１００の管理者あるいはユーザが種々の操作入力を行うための操作部を構成する。この操作入力デバイス１０３には、ディスプレイ１０７の画面上に配置されるタッチパネルも含まれる。

　カメラ１０４は、例えば情報処理装置１００の前側にいるユーザを撮像して画像データを得る。マイク１０５は、ユーザの発話を検出して音声データを得る。スピーカ１０６は、ユーザに応答出力としての音声出力をする。ディスプレイ１０７は、ユーザに応答出力としての画面出力をする。

　ユーザ認識部１０８は、画像データに対して顔認識処理を施して、情報処理装置１００の視野である画像に存在する各ユーザの顔を検出し、その検出された各ユーザの顔の画像に対して画像解析処理を施して予め登録されている各ユーザの特徴量と比較して、ユーザを識別する。なお、このユーザ認識部１０８では、音声データを解析して、予め登録されている各ユーザの特徴量と比較して、ユーザを識別することも考えられる。また、ユーザの認識については、自動的に認識されなくても、ユーザが任意の手段（ボタン操作や音声操作など）で指定してもよい。

　また、ユーザ認識部１０８は、その検出された各ユーザの顔の画像に対して画像解析処理を施して、各ユーザの顔の向きや視線を検出する。また、ユーザ認識部１０８は、各ユーザの画像データに対して解析処理を行って、例えば指差している場合に、どの方向を指差しているかを示す指差し方向を検出する。このようにユーザ認識部１０８で得られる各種検出情報は、制御部１０１に送られる。

　音声認識部１０９は、音声データに対して音声認識処理を施して発話テキスト情報を得る。この発話テキスト情報は、制御部１０１に送られる。この音声テキスト情報は、上述したようにユーザ認識部１０８で得られたユーザ識別情報に基づいて、ユーザと結び付けられた状態で保持される。通信インタフェース１１０は、インターネット等のネットワークを介して、図示しないクラウド・サーバと通信を行って、種々の情報を取得する。

　意味解析ガイドデータベース１１１は、ユーザ発話が「明日の天気を教えて」、「今の時間は何時」などであって依頼発話モードである場合に参照するデータベースである。ディクテーションガイドデータベース１１２は、ユーザ発話が「○○にメッセージ送って」、「来月の予定登録」、「ＴｏＤｏを登録」などであってディクテーションモードである場合に参照するデータベースである。ここで、ディクテーションモードは、依頼を発話するのと異なり、ユーザの発話をそのままテキストにして入力するモードである。

　図１に示す情報処理装置１００では、ユーザの発話がある毎に、依頼発話モードであるか、ディクテーションモードであるかなどが判断される。そして、依頼発話モードである場合には、依頼発話モード処理が行われる。また、ディクテーションモードである場合には、ディクテーションモード処理が行われる。また、ユーザの発話によっては、いずれのモードであるかモード判別が不可能な場合もある。その場合には、双方のモードに対応したあいまいモード処理が行われる。

　図２のフローチャートは、ユーザの発話があった場合における制御部１０１の処理手順の一例を示している。制御部１０１は、ステップＳＴ１において、ユーザの発話があるとき処理を開始する。次に、制御部１０１は、ステップＳＴ２において、モード判別が可能か否かを判別する。ここで、制御部１０１は、発話内容からだけではなく、過去のその発話内容に対するユーザの操作履歴などから、モード判別の可否を判断することも考えられる。

　モード判別が可能であった場合、制御部１０１は、ステップＳＴ３において、ユーザの発話に対応したモードは、依頼発話モードであるかディクテーションモードであるかが判断される。依頼発話モードである場合、制御部１０１は、ステップＳＴ４において、依頼発話モード処理をする。一方、ディクテーションモードである場合、制御部１０１は、ステップＳＴ５において、ディクテーションモード処理をする。

　また、ステップＳＴ２でモード判別が可能でなかった場合、制御部１０１は、ステップＳＴ６において、依頼発話モードとディクテーションモードの双方のモードに対応したあいまいモード処理をする。

　発話依頼モードの場合、一字一句正確に書き下される必要はなく、コマンドが伝わればよい。また、この場合は、書き下さずに実行のみを行ってもよい。誤認識の場合、ユーザはコマンドとして実行し直すための候補を知ることを希望すると思われるので、実行結果と共に、部分一致等で類似するコマンドあるいは関連するコマンドが提示される。

　図３は、発話依頼モードの場合における、提示画面の一例を示している。この例は、ユーザが「今日のニュース見せて」という発話を行った場合の例である。図示の例では、実行結果である今日のニュースの提示と共に、類似あるいは関連するコマンドの提示もなされている。

　また、ディクテーションモードの場合、言った通りに書き下されないとき、ユーザは文章を直すことを希望する。誤認識の場合、ユーザは言い直し候補を見たいと思われるので、部分的な言い換えフレーズや、クエスチョンマーク「？」などの記号を付加したフレーズが提示される。

　図４（ａ）は、ディクテーションモードの場合における、最初の提示画面の一例を示している。この例は、ユーザが「パパに、メッセージを送って」という発話を行った場合の例である。図示の例では、「メッセージをお話しください」というユーザにメッセージ入力を促すガイド表示がなされた、ディクテーション待ち受けとなっている。

　図４（ｂ）は、ユーザがガイド表示に従って実際に発話を行ってメッセージ入力を行った場合の提示画面の一例を示している。この例では、ユーザが「今日、夕飯食べる？」という発話を行った場合の例である。この場合、「今日、ゆうは食べる」という認識された書き下し文が表示され、誤認識の言い直しのための変換候補も表示されている。ここで、「今日」に対応して「京」および「京都」がそれぞれ番号付きで表示されている。また、「ゆうは」に対応して「ゆうちゃん」および「夕飯」がそれぞれ番号付きで表示されている。また、「食べる」に対応して「食べる？」および「しゃべる」がそれぞれ番号付きで表示されている。

　また、あいまいモードの場合、依頼発話およびディクテーションのいずれも受け付けられるようにする。つまり、依頼を実行しつつ、ディクテーション待ち受けにする。この場合、提示画面では、エリアを分けて表示するなど、依頼実行しつつ、ディクテーション待ち受けにする。

　図５（ａ）は、あいまいモードの場合における、最初の提示画面の一例を示している。この例は、ユーザが「パパのメッセージにして」という発話を行った場合の例である。この場合、メッセージの閲覧を依頼するものか、メッセージの作成を行うものか判別が困難である。図示の例では、メッセージ閲覧に対応したメッセージ項目表示と、メッセージ作成に対応したディクテーション待ち受け表示とがエリア分割されて表示されている。

　図５（ｂ）は、ユーザがメッセージ閲覧を希望していて、「２番みせて」という発話を行った場合の提示画面の一例である。この場合、「２番みせて」という認識された書き下し文も表示され、言い直しのための変換候補も番号付きで表示されている。図５（ｃ）は、ユーザがメッセージ作成を希望していて、「なにか買っておくものある？」という発話を行った場合の提示画面の一例である。この場合、メッセージ閲覧に対応したメッセージ項目表示はそのままとされ、「なにか買っておくものある」という認識された書き下し文が表示され、言い直しのための候補も番号付きで表示されている。

　「ディクテーションモード処理」
　ディクテーションモード処理についてさらに説明する。図６（ａ）～（ｃ）は、複数人で交互にディクテーションを行う場合の一例を示している。図６（ａ）は、メッセージ送信を行う場合の例である。図示の例においては、ママが「パパに、帰りに牛乳を買って来てって送って」という発話を行った後に、子供が「イチゴジャムも買って」という発話を行った場合の例を示している。

　この場合、ママは、「送信」という指示発話を行っているが、これにより「帰りに牛乳買って来て　イチゴジャムも買って」というメッセージがパパに送信されることになる。なお、子供の発話である「イチゴジャムも買って」が間違いである場合、情報処理装置１００自体はそれを判別できないので、ママが意志をもってその部分をキャンセルする必要がある。また、この場合、子供の発話である「イチゴジャムも買って」が間違いである場合に、その後に子供が「送信」という指示発話を行った場合、「帰りに牛乳買って来て　イチゴジャムも買って」のメッセージの送信が実行されないようにすることも重要である。

　図６（ｂ）は、カレンダー登録を行う場合の一例を示している。図示の例においては、ママが「来月の予定を登録　６月５日に粗大ごみを出す」という発話を行った後に、子供が「イチゴジャムも買って」という発話を行った場合の例を示している。この場合、子供の発話である「イチゴジャムも買って」が間違いである場合、ママが意志をもってその部分をキャンセルした後に、「確定」という指示発話を行って、登録をする必要がある。また、この場合、子供の発話である「イチゴジャムも買って」が間違いである場合に、その後に子供が「確定」という指示発話を行った場合、６月５日に「イチゴジャムも買って」も誤って登録されることになる。

　図６（ｃ）は、Ｔｏｄｏ登録を行う場合の一例を示している。図示の例においては、ママが「Ｔｏｄｏを登録」という発話をし、さらに「ゆうたのＴｏｄｏ、明日絵具をもっていく」という発話を行った後に、子供（ゆうた）が「ぼくのＴｏｄｏ　水曜日は体操着」という発話を行った場合の例を示している。この場合、子供の発話である「ぼくのＴｏｄｏ　水曜日は体操着」が間違いである場合、ママが意志をもってその部分をキャンセルした後に、「確定」という指示発話を行って、登録をする必要がある。また、この場合、子供の発話である「ぼくのＴｏｄｏ　水曜日は体操着」が間違いである場合に、その後に子供が「確定」という指示発話を行った場合、「水曜日に体操着を持っていく」が誤って登録されることになる。

　上述の図６（ａ）～（ｃ）の例で示したように、複数人でディクテーションをしているのか、関係のない発話が混在したのか判別しにくい。この実施の形態において、情報処理装置１００は、ディクテーションの発話の書き下し文を提示画面上に表示する場合、発話したユーザが識別可能な状態で表示する。例えば、ユーザ別に色分けをするとか、あるいはアイコンや記号を用いて、それぞれの書き下し文がいずれのユーザの発話に係るものであるか識別可能にされる。

　また、この実施の形態において、ディクテーションを開始したユーザに主導権を持たせ、送信、確定、完了、登録、キャンセル、クリア等の指示に関しては、主導権を持ったユーザのみ行えるようにして、いたずらや強引な割り込みが防止される。この場合、ディクテーションを開始したユーザが所定の属性（年齢、性別、性格、能力など）であるときは、主導権を付与しないようにされてもよい。これにより、所定の属性のユーザに主導権を付与することによる不都合の発生を防止できる。

　この場合、意図せず入力されてしまった発話や外音などは、ディクテーションはされるが、実行されないので致命的にはならない。また、確定処理がされない限り、仮入力情報（例えば点滅、グレー文字など）にして、確定処理までのタイムアウトを設けるようにされてもよい。また、子供などいたずらすることがある場合は、主導権は大人だけに付与するなどとされてもよい。この場合、例えば、ディクテーションを開始したユーザが所定の年齢以下であるときは主導権を付与しないものとされる。さらに、例えば、家族なら子供でも送れるなど、相手によって主導権の処理を変えるようにされてもよい。この場合、例えば、発話の書き下し文を送信する相手に応じて、ディクテーションを開始したユーザが所定の年齢以下であっても主導権を付与するものとされる。

　例えば、図７（ａ）～（ｄ）は、メッセージ送信を行う場合の一例を示している。図７（ａ）において、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る？」という認識された書き下し文が、未確定の状態で表示されている。この場合、ママはディクテーションを開始したユーザであることから、送信、確定、完了、登録、キャンセル、クリア等の指示に関して、主導権を持っている。

　図７（ｂ）は、ママの確定指示あるいはタイムアウトにより「今日何時に帰る？」の書き下し文が確定した後に、子供が「おもちゃ買ってきて」という発話を行った場合の提示例を示している。この場合、「おもちゃ買ってきて」という認識された書き下し文が、未確定の状態で表示されている。ここで、未確定の状態は、例えば、点滅、グレー文字による表示である。

　図７（ｃ）は、ママが「クリア」という指示発話を行った場合の提示例を示している。この場合、未確定の状態にあった「おもちゃ買ってきて」という書き下し文がキャンセルされた状態となる。なお、この「おもちゃ買ってきて」の部分がタイムアウトにより確定した後であっても、その部分を指定することで、その部分をキャンセルすることは可能である。

　また、この場合、「今日何時に帰る？」の部分と「おもちゃ買ってきて」の部分とは、発話したユーザが識別可能に、例えば色分けなどされて表示される。このように識別されて表示されることで、キャンセル部分を指定する場合等に便利となる。図７（ｄ）は、ママが「送信」という指示発話を行った場合の提示例を示している。この場合、「今日何時に帰る？」というメッセージがパパに送信される。

　なお、上述では、子供の発話入力をキャンセルする例を示したが、同様に、外音等の誤認識によって意味不明な書き下し文が発話入力となることもある。その場合にも、主導権を持ったユーザは「クリア」という指示発話を行うことで削除することが可能となる。また、業務などで用いる場合にも、特定の権限がある立場の人にだけ主導権を与えるなどの用途でも用いることができる。

　ここで、ディクテーションモードにおける入力のセッション管理について述べる。ディクテーションの発話入力をしているユーザがいる場合、特に改めてセッションを開始することなく、他のユーザが追加で発話入力を行い得るようにされる。この場合、発話入力をしているユーザがいる場合、そのユーザの周囲にいる他のユーザが検知され、そのユーザの発話入力が追加で書き下される。また、他のユーザの顔向き等の情報から、明らかに追加の発話入力ではないと分かる場合は、その発話入力については書き下されないようにされる。このようなセッション管理をすることで、後から追加の発話入力を行うユーザは起動ワードを言う必要はなく、各ユーザは交互に発話入力を行うことができる。

　次に、ディクテーションモードにおける確定処理について述べる。発話の終端が検出されて、終端ごとに確定処理がされる。この確定処理は、主導権を持ったユーザが「確定」の指示発話を行うことで行われるか、あるいは終端が検出されてから一定時間が経過することによるタイムアウトで行われる。例えば、割り込み発話のクリアは、終端毎にタイムアウト前に行うことが可能とされる。クリアしない場合は、タイムアウトか確定発話で確定される。

　ユーザの確定発話まで、発話の終端があっても、そのまま発話入力が続けられる。この場合、部分をクリアしたい場合、確定する部分までを指定して確定させる。例えば、“「帰る？」まで確定”、“「帰る？」まで送信”という発話により、確定する部分までの指定が可能となる。また、クリアしたい部分を指定することで、クリアが実行される。例えば、「おもちゃ」の発話により、「おもちゃ」から先（以降）がクリアされる。また、例えば、「おもちゃ買って来て」の発話により、「おもちゃ買って来て」のそのものがクリアされる。

　ここで、図８（ａ）～（ｂ）を用いて、タイムアウトの場合（一人で使う場合）について説明する。図８（ａ）は、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る？」という認識された書き下し文が、未確定の状態で表示されている。この状態で、一定時間、例えば４秒経過したらタイムアウトとされ、図８（ｂ）に示すように、「今日何時に帰る？」の書き下し文か確定された状態となる。

　そして、この図８（ｂ）の状態で、ママが「送信」の指示発話を行うことで、「今日何時に帰る？」というメッセージがパパに送信される。なお、図示のように。図８（ａ）の状態からタイムアウトとなった場合、「今日何時に帰る？」の書き下し文か確定されて、直ちにその「今日何時に帰る？」というメッセージがパパに送信されることも考えられる。

　次に、図９（ａ）～（ｄ）を用いて、タイムアウトの場合（複数人で使う場合）について説明する。図９（ａ）は、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る？」という認識された書き下し文が、未確定の状態で表示されている。

　この状態で、一定時間、例えば４秒経過したらタイムアウトとされ、図９（ｂ）に示すように、「今日何時に帰る？」の書き下し文が確定された状態となる。この状態で、図示のように、子供（ゆうた）が「おもちゃを買ってきて」という発話を行った場合、その書き下し文が、未確定の状態で表示される。この状態で、一定時間、例えば４秒経過したらタイムアウトとされ、図９（ｃ）に示すように、「おもちゃを買ってきて」の書き下し文も確定された状態となる。

　この場合、ママの発話部分である「今日何時に帰る？」と、子供の発話部分である「おもちゃを買ってきて」とは、いずれのユーザの発話部分であるかを識別可能に、例えば色分けされて表示される。なお、色分けの代わりにアイコンや記号でユーザ識別可能とすることも可能であり、例えば図９（ｄ）は、名前を付加することで、いずれのユーザの発話部分であるかを識別可能とした例を示している。なお、図９（ｃ），（ｄ）の状態で、ママが「送信」の指示発話を行うことで、「今日何時に帰る？おもちゃ買ってきて」というメッセージがパパに送信される。

　次に、図１０（ａ）～（ｃ）を用いて、タイムアウトの場合（複数人で使う場合でキャンセルする場合）について説明する。詳細説明は省略するが、図１０（ａ），（ｂ）は、図９（ａ），（ｂ）と同じである。

　ディクテーションを開始したママは、主導権を持っており、図１０（ｂ）の状態で、「クリア」の指示発話をすることで、未確定部分をキャンセルでき、ここでは結果として、図１０（ｃ）に示すように、「おもちゃを買ってきて」の書き下し文がキャンセルされた状態となる。なお、この場合、未確定部分に関して、キャンセルしたい部分を直接的に指定することも可能とされる。例えば、「おもちゃを買って来てクリア」、「おもちゃ以降をクリア」、「ゆうたの入力を消して」などの指示発話を行うことで、「おもちゃを買ってきて」の書き下し文のキャンセルが可能となる。

　なお、図１０の例においては、ママの発話部分である「今日何時に帰る？」がタイムアウトで確定した後に、子供の発話部分である「おもちゃ買ってきて」の発話がされて、その書き下し文が未確定の状態で表示される例を示した。しかし、あるユーザの発話についてタイムアウトになる前に、次のユーザの発話が開始される場合も想定される。その場合には、あるユーザの発話についてタイムアウトの開始も次のユーザの発話の終端からとなり、あるユーザの発話と次のユーザの発話の双方が未確定のままに置かれた状態となる。その場合には、双方の発話についての未確定な書き下し文に関してキャンセル処理を行うことが可能となる。

　図１１は、書き下し文の確定のためのタイムアウト開始ポイントを説明するための図である。この図１１において、ユーザ１の発話に関して、その発話の終了（終端）がタイムアウト開始ポイントとなる。しかし、ユーザ１の発話に関してタイムアウトとなる前に、ユーザ２の発話が開始されると、ユーザ１のタイムアウトがキャンセルされ、ユーザ２の発話の終了（終端）が新たなタイムアウト開始ポイントとなる。そのため、ユーザ１の発話とユーザ２の発話とは、ユーザ２の発話の終了（終端）からタイムアウトとなるまでは、いずれも未確定な状態におかれる。また、ユーザ３の発話の開始は、そのタイムアウト後であるので、ユーザ３の発話は、新たな発話として処理される。

　なお、上述では、発話入力の書き下し文が未確定の状態において、主導権を持つユーザがキャンセル処理を行い得るように説明したが、この状態において、各ユーザは文章の修正処理を行うことも可能とされる。この場合にあっても、文章の修正処理の最終的な確定は、主導権を持つユーザが行うようにすることができる。

　また、キャンセルや文章修正などの処理を行った場合には、例えば、その時点が新たなタイムアウト処理開始ポイントとされる。これにより、ユーザがキャンセルや文章修正などの処理を複数行う場合であっても、十分に余裕をもって処理することが可能となる。

　また、図１２（ａ）～（ｂ）を用いて、確定処理をする場合（一人で使う場合）について説明する。図１２（ａ）は、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る？」という認識された書き下し文が、未確定の状態で表示されている。この状態で、ママはクリア処理や文章の修正処理を行うことができる。

　そして、ママが「送信」の指示発話を行うことで、図１２（ｂ）に示すように、「今日何時に帰る？」という書き下し文が確定し、「今日何時に帰る？」というメッセージがパパに送信される。なお、図示の例では、「送信」の指示発話によって書き下し文の確定と、その送信を指示するものであるが、書き下し文の確定を例えば「確定」という指示発話を持って指示し、その後に「送信」の指示発話で送信を指示することも考えられる。

　次に、図１３（ａ）～（ｃ）を用いて、確定処理をする場合（複数人で使う場合）について説明する。図１３（ａ）は、ママが「パパに、今日何時に帰るってメッセージ送って」という発話を行った場合の提示例を示している。この場合、「今日何時に帰る？」という認識された書き下し文が、未確定の状態で表示されている。

　この状態で、図１３（ｂ）に示すように、子供（ゆうた）が「おもちゃを買ってきて」という発話を行った場合、その書き下し文が、未確定の状態で追加表示される。この状態で、主導権を持つママは、クリア処理や文章修正処理を行うことができる。なお、子供（ゆうた）も文章の修正処理を行うことができるが、主導権を持たないので、最終的な修正決定の処理はママが行うことになる。

　そして、主導権を持つママが「送信」の指示発話を行うことで、図１３（ｃ）に示すように、
「今日何時に帰る？（ママ）　おもちゃ買ってきて（ゆうた）」という書き下し文が確定し、「今日何時に帰る？　おもちゃ買ってきて（ゆうた）」というメッセージがパパに送信される。なお、図示の例では、「送信」の指示発話によって書き下し文の確定と、その送信を指示するものであるが、書き下し文の確定を例えば「確定」という指示発話を持って指示し、その後に「送信」の指示発話で送信を指示することも考えられる。

　次に、図１４（ａ）～（ｃ）を用いて、確定処理をする場合（複数人で使う場合でキャンセルする場合）について説明する。詳細説明は省略するが、図１４（ａ），（ｂ）は、図１３（ａ），（ｂ）と同じである。

　ディクテーションを開始したママは、主導権を持っており、図１４（ｂ）の状態で、「クリア」の指示発話をすることで、未確定部分をキャンセルできる。また、この場合、未確定部分に関して、キャンセルしたい部分を直接的に指定することも可能とされる。例えば、「おもちゃを買って来てクリア」、「おもちゃ以降をクリア」、「ゆうたの入力を消して」などの指示発話を行うことで、「おもちゃを買ってきて」の書き下し文のキャンセルが可能となる。図１４（ｃ）は、「おもちゃを買ってきて」の書き下し文がキャンセルされた状態を示している。

　図１５のフローチャートは、情報処理装置１００の制御部１０１におけるディクテーションモード処理（図２のステップＳＴ５参照）の手順の一例を示している。なお、ユーザ識別、つまり発話ユーザの識別処理に関しては、別の処理フローで、常に行われているものとする。

　まず、制御部１０１は、ステップＳＴ１１において、ディクテーションモード処理を開始する。次に、制御部１０１は、ステップＳＴ１２において、開始発話ユーザに主導権を付与する。次に、制御部１０１は、ステップＳＴ１３において、発話があるか否かを判断する。

　発話があるとき、制御部１０１は、ステップＳＴ１４において、修正指示発話であるか否かを判断する。修正指示発話であるとき、制御部１０１は、ステップＳＴ１５において、書き下し文に対する修正処理を行い、その後に、ステップＳＴ１３の処理に戻る。

　修正指示発話でないとき、制御部１０１は、ステップＳＴ１６において、修正指示以外のその他の指示発話、つまり「クリア」、「確定」、「登録」、「送信」、「修正」などの指示発話か否かを判断する。その他の指示発話でないとき、制御部１０１は、ステップＳＴ１７において、発話に対応した書き下し文をディスプレイ１０７に表示し、その後、ステップＳＴ１３の処理に戻る。

　ステップＳＴ１６でその他の指示発話であるとき、制御部１０１は、ステップＳＴ１８において、発話ユーザは、主導権付与者か否かを判断する。発話ユーザが主導権付与者でないとき、その他の指示発話は無効であるとして、制御部１０１は、ステップＳＴ１３の処理に戻る。

　ステップＳＴ１８で発話ユーザが主導権付与者であるとき、制御部１０１は、ステップＳＴ１９において、指示が確定（送信、登録等）であるか否かを判断する。指示が確定（送信、登録等）でないときは、制御部１０１は、ステップＳＴ２０において、確定（送信、登録等）以外の処理を行い、その後に、ステップＳＴ１３の処理に戻る。

　一方、指示が確定（送信、登録等）であるときは、制御部１０１は、ステップＳＴ２１において、確定（送信、登録等）の処理を行い、その後、ステップＳＴ２２において、一連の処理を終了する。

　複数ユーザが別のタスクを実行したい場合について説明する。この場合、情報処理装置１００は、ドメイン（インテント）とスロット（エンティティ）が同じ場合は、交互の発話と見なして処理をする。ここで、ドメインは、例えば、メッセージ送信、カレンダー登録、ＴｏＤｏ登録などを意味する。また、スロットは、例えば、メッセージ送信のドメインの場合は宛先などを意味し、カレンダー登録の場合は月日などを意味し、ＴｏＤｏ登録の場合は対象者などを意味する。従って、ドメインとスロットが同じ場合とは、メッセージ送信の場合のあて名が同じ、カレンダー登録の場合の月日が同じ、ＴｏＤｏ登録の場合の対象者が同じ、などが該当する。

　なお、スロットが異なる場合であっても、ドメインが同じで、かつ表示が可能な場合、情報処理装置１００は、同一画面上で実行する。また、ドメインが異なる場合、情報処理装置１００は、画面を分割するか、掲示的に処理をするか、さらには分割表示できないドメインに関しては音声出力で代用して実行する。例えば、ママの「パパにメッセージを送って」という発話に基づくメッセージ送信のタスクと子供の「天気見せて」という発話に基づく依頼タスクを実行する場合、メッセージ送信のタスクは画面上で実行するが、天気に関しては音声で子供に伝えることが考えられる。

　書き下し文の変換候補について説明する。上述したように、ディクテーションモード処理においては、ディクテーションの発話の書き下し文の表示がなされる。この場合、誤認識の言い直しのための変換候補を表示することが行われる。

　変換候補の出し方について述べる。基本としては、表記ゆれ（例えば、漢字にするかひらがなのままか、漢数字か算用数字を使うかなど）の候補より、類似音候補が優先される。これは、表記ゆれに関しては、それがあったとしても意味が通じるからである。なお、表記ゆれにこだわりのあるユーザに関しては、表記ゆれ候補を提示することも考えられる。また、子供のユーザに関しては、ひらがな候補だけにすることも考えられる。表記ゆれにこだわりのあるユーザか否かは、そのユーザの人物属性データベースに基づいて判断してもよく、あるいは過去のそのユーザの修正履歴情報に基づいて判断してもよい。また、子供のユーザか否かは、ユーザ認識結果に基づいて判断できる。

　変換候補の出し方は、発話ユーザ毎に、履歴が活用されて提示される。この場合、対象ユーザの履歴に類似音候補がない場合は、家族等の他のユーザの履歴を参照することも考えられる。この場合、過去の対象ユーザの発話入力文の中から、あるいは過去の他のユーザが使った文の中から、発話と類似するものが候補として提示される。また、この場合、コンテクト、つまり場所、時間、状況等に合った候補が優先して提示される。

　次に、修正時の指定の仕方について述べる。同じ発話が入力されたときは、その発話部分が誤認識であったと判断して、前とは異なる変換候補に変更する。例えば、１回目の発話が「夕飯食べる」で２回目の発話（修正発話）が「夕飯食べる」である場合、１回目の書き下し文が「夕飯食べる」であったとき、２回目の書き下し文は、１回目とは異なる、例えば「夕飯食べる？」と修正される。

　また、「○○じゃなくて××」との修正発話があった場合、書き下し文の「○○」の該当部分が「××」に修正される。例えば、「夕飯食べる？」の発話入力に対して、認識された書き下し文が「ゆうは食べる」であった場合を例として考える。この場合、「ゆうはじゃなくて夕飯」との修正発話があった場合、「ゆうは」の部分が「夕飯」に修正される。

　また、書き下し分の修正は、変換候補のみの言い直し、あるいは変換候補の番号の指定などで行われる。例えば、「夕飯食べる？」の発話入力に対して、認識された書き下し文が「ゆうは食べる」であった場合を例として考える。この場合、「夕飯」との修正発話があった場合、「夕飯食べる」に修正される。

　また、あるユーザの発話による書き下し文に関して、他のユーザによる言い直しも、あるユーザによる言い直しと同等に処理される。これにより、あるユーザの音声では入りにくい場合、他の家族が言い直してあげることが可能となる。

　長い文章を交互に入れる場合の修正について説明する。この場合、入力済みの文章修正が可能とされる。つまり、あるユーザが次の文章を入力中に、他のユーザが以前の分を直すことが可能とされる。この場合、発話と既に入力されている文が比較され、類似度が一定比率以上の場合、修正文の入力と見なされて、変更される。この場合、変更された部分が修正者以外、例えば次の文章を入力中のユーザにも分かるように、変更部分が示されるようにされてもよい。

　また、この場合、あるユーザが入力した文章の修正を他のユーザが行うことも可能とされる。この場合、発話と既に入力されている文が比較され、類似度が一定比率以上の場合、修正文の入力と見なされ、あるユーザによる確認になされた後に、その修正が確定される。これにより、あるユーザの文章の修正が他のユーザにより勝手に修正されることが防止される。

　図１６は、複数ユーザが文章を交互に入力する場合のシーケンスの一例を示している。ここでは、複数ユーザはユーザ１とユーザ２の２ユーザである。最初に、ユーザ１による「活動計画書を作成」という発話入力によって、活動計画書を作成するためのディクテーションモード処理が開始され、書き下し文としての「活動計画」が表示される。

　次に、ユーザ１の「今年度は、文化際と市民祭りへの参加が大きな活動になります。」という発話入力によって、それに対応した書き下し文が追加される。次に、ユーザ２の「予算的には、総額３５万円を計上しています。」という発話入力によって、それに対応した書き下し文が追加される。

　次に、ユーザ２の「予算的、以降を削除」という指示発話の入力に応じて、書き下し文の中から、予算的以降の文章が削除される。この場合、削除されたことがユーザ１に分かるようにされる（ハッチング部分参照）。次に、ユーザ２の「予算は、総額３５万円となっています。」という発話入力によって、それに対応した書き下し文が追加される。この場合、ユーザ１に追加部分が分かるように、その追加部分の色が他とは異なるように表示される。

　図１７は、上述の図１６で示すように入力された文章を修正する場合のシーケンスの一例を示している。最初に、ユーザ１の「文化際じゃなくて市民文化際」という修正指示の発話入力によって、「文化際」の部分が「市民文化際」に修正される。この場合、修正部分がユーザ２にも分かるように、その修正部分の色が他とは異なるように表示される。なお、図１７では、白黒の図面であることから、色の違いは表れていない。以下においても同様である。

　次に、ユーザ２の「市民祭りのステージ発表」という修正指示の発話によって、「市民祭り」の部分が「市民祭りのステージ発表」に修正される。この場合も、修正部分がユーザ１にも分かるように、その修正部分の色が他とは異なるように表示される。この場合、自分以外のユーザの入力部分を直すものであり、より目立つようにされる。

　次に、遠隔地、または共同執筆していない第三者の「１８年度計画」とう発話入力によって、「活動計画」の部分が「１８年度活動計画」に修正される。この場合、第三者がユーザの入力部分を直すものであり、より目立つようにされる。なお、この目立ちは例えば特別な色にするとかであるが、図１７では、白黒の図面であることから、色の違いは表れていない。

　複数人で行う場合の他のモダリティの活用について説明する。指示語・位置の利用について説明する。例えば、発話ユーザのいる位置を基準に、「真ん中のに変更」などの発話に応じた変換候補を選択して修正を行うことが考えられる。また、例えば、それぞれのユーザの立っている位置を検出して、「これ」と言ったら相対的に近くの変換候補を選択し、「あれ」と言ったら相対的に遠くの変換候補が選択して修正を行うことが考えられる。

　手、ジェスチャー、視線の利用について説明する。指さし、またはタッチ等で変換候補を指示しながら、「これに修正」、「これに変更」などと発話をすることで、指示された変換候補による修正が行われる。

　また、発話とタッチなどを混在させて、変換候補を選択して修正を行うことが行われる。例えば、ユーザの「帰りに、柔軟剤買って来て」の発話入力に対して、認識された書き下し文が「帰りに十万回買って来て」であって、（１）十万、（２）柔軟剤、（３）十何歳の変換候補が提示された場合を考える。この場合、２度目の発話を「帰りに（（２）をタッチ）買って来て」の発話をするか、「帰りに（２）買って来て」のようにすることで、変換候補として（２）柔軟剤を選択した修正が行われる。

　なお、複数ユーザで発話を行うときは、変換候補を現在発話しているユーザの付近に出して、見やすくかつタッチし易くすることが考えられる。また、書き下し文において、ユーザの視線が滞留している部分に関する変換候補だけを提示することで、ユーザの変換候補の選択を精度よく行い得るようにすることが考えられる。

　図１８（ａ）は、ユーザの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文が「帰りに風鈴買って来て」であって、画面水平方向に、「釣り」、「プリン」、「プリント」の変換候補がこの順序で並べて提示されている例である。そして、この例は、その状態で、ユーザが「真ん中のに変更」という発話を行った場合を示している。この場合、「プリン」の変換候補が選択されて、「風鈴」の部分が「プリン」に修正される。

　図１８（ｂ）は、ユーザの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文が「帰りに風鈴買って来て」であって、画面水平方向に、「釣り」、「プリン」、「プリント」の変換候補がこの順序で並べて提示されている例である。そして、この例は、その状態で、ユーザが「プリン」の選択候補の提示部分をタッチして、「これに変更」の発話を行った場合の例である。この場合も、「プリン」の変換候補が選択されて、「風鈴」の部分が「プリン」に修正される。

　図１８（ｃ）は、ユーザの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文が「帰りに風鈴買って来て」であって、画面水平方向に、「釣り」、「プリン」、「プリント」の変換候補がこの順序で並べて提示されている例である。そして、この例は、その状態で、ユーザが「プリン」の選択候補の提示部分を指さして、「これに変更」の発話を行った場合の例である。この場合も、「プリン」の変換候補が選択されて、「風鈴」の部分が「プリン」に修正される。

　図１９は、ユーザＡの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文「帰りに風鈴買って来て」が表示されている。また、ユーザＢの「アイスもほしい」の発話入力に対して、認識された書き下し文「アイスもほしい」が表示されている。ユーザＡの発話入力に係る「帰りに風鈴買って来て」の書き下し文における変換候補は、ユーザＡの近くに表示される。一方、ユーザＢの発話入力に係る「アイスほしい」の書き下し文における変換候補が、ユーザＢの近くに表示される。

　なお、各ユーザの発話の書き下し文を修正する変換候補を、画面表示ではなく、音声で与えることも考えらえる。その場合にあっても、その音声を与えるべきユーザのみに聞こえるような音声で出すことも可能である。

　図２０は、ユーザＡの「帰りにプリン買って来て」の発話入力に対して、認識された書き下し文「帰りに風鈴買って来て」が表示されている。この場合、ユーザの視線が「風鈴」の部分（ハッチングを付して示している）に滞留されていることが検知されることで、この「風鈴」の部分に係る変換候補が提示される。図示の例においては、「釣り」、「プリン」、「プリント」が提示されている。なお、滞留だけでなく、誤認識部分と修正したい候補の間を交互に見るなどの視線移動を検知してもよい。

　表示領域による制御について説明する。表示領域がある程度取れる場合には、変換候補として候補の差分を強調して、全文を表示することが考えられる。また、表示領域が小さい場合には、変更が生じる部分だけを表示することが考えられる。さらに、例えば、表示がない場合には、音声で復唱し、変更部分だけ修正すると、修正したものを復唱するということが考えられる。なお、表示がない場合として、例えば、時計型、イヤホン型などのウェラブルデバイスが該当する。

　以上説明したように、図１に示す情報処理装置１００においては、ディクテーションモード処理において、ディクテーションを開始したユーザに主導権が与えられ、当該主導権が与えられたユーザのみが、「クリア」、「確定」、「登録」、「送信」などの指示を行うことができる。そのため、主導権が付与されたユーザは、ディクテーションの発話の書き下し文に係る指示を良好に行うことができ、例えば、複数人でメッセージを作成する環境にあっても、主導権のあるユーザは意図通りにメッセージを作成して送信することが可能となる。

　＜２．変形例＞
　なお、上述実施の形態では、依頼発話モードとディクテーションモードについて述べたが、発話から依頼部分とディクテーション部分を識別して、適宜入力を行う混在モードも考えられる。

　また、上述実施の形態においては、ディクテーションを行う場合の例として、メッセージ送信、カレンダー登録およびＴｏｄｏ登録を行う場合を示した（図６参照）。しかし、これに限定されるものではなく、その他にも、考えられる。例えば、日記等の文書作成、写真や動画へのメタデータ付与、任意のメモの作成などである。

　なお、上述の実施の形態においては、ユーザの発話により入力をする例を示したが、タッチやジェスチャーなどで入力していく場合にも、先に入力したユーザに主導権を付与することが考えられる。これにより、タッチやジェスチャーなどで入力していく場合であっても、ディクテーションを開始したユーザに主導権を付与することができ、主導権を付与されたユーザは確定操作などを行うことができる。

　また、上述していないが、メッセージ送信、カレンダー登録などのアプリ別に、共同編集者のリストを持たせておくことも考えられる。このようにリストを持たせておくことで、例えば、特定のユーザが編集に関わることを回避することが可能となる。

　また、上述していないが、ディクテーションモード処理における書き下し文の追加、修正等の編集処理においてＵｎｄｏ機能を持たせるようにしてもよい。これにより、追加、クリア、修正等の編集処理を効率的に行うことが可能となる。

　また、上述していないが、ディクテーションモード処理において、特定のユーザ、例えば子供の発話を無視するようにすることも考えられる。これにより、いたずらなど不要な発話による書き下し文の追加などを回避できる。

　また、上述実施の形態においては、ディクテーションを開始したユーザが主導権を持つようにしたが、この主導権をディクテーションの途中で別のユーザに渡すことを可能とすることが考えられる。これにより、ディクテーションを開始したユーザが何等かの都合により途中で退席する場合であっても、主導権を渡されたユーザがディクテーションを完了させることが可能となる。

　また、上述実施の形態においては、ディクテーションを開始したユーザが主導権を持つようにしたが、ディクテーションを開始時に主導権を持つユーザを決めるのではなく、必要となったときに、主導権を持つユーザを決めるようにしてもよい。

　また、上述していないが、アプリによっては、どの発話はどのユーザが行ったものであるかを残しておくようにしてもよい。これにより、それぞれのユーザの発話に対応した書き下し文に色を付けたり、アイコンや記号、名前表示などを行って、発話をしたユーザが識別可能な状態とすることが可能となる。

　また、上述していないが、書き下し文をクリアしたときに、ユーザ名でフィルタできるようにしてもよい。例えば、「○○の発言はクリア」等である。これにより、いちいちクリアする文章を指定する手間を省くことができる。

　また、上述実施の形態においては、ディクテーションを行う複数のユーザは人間で構成されるが、この複数のユーザの一部にＡＩ（artificial intelligence）機器が含まれていてもよい。

　また、上述していないが、ディクテーションの発話の書き下し文をクリアした際には、例えば、半透明状態等にして、一定時間残しておくことも考えられる。これにより、クリアした内容を確認でき、誤ってクリアした場合に容易にもとに戻すことが可能となる。

　また、上述していないが、発話による入力において、予め設定されたＮＧワードに関しては、書き下されないようにフィルタリングされてもよい。この場合、ＮＧワードは、ユーザ毎に設定することも考えられる。

　また、上述していないが、主導権のあるユーザの発話による書き下し文は強調して表示するようにされてもよい。これにより、主導権のあるユーザの発話による書き下し文であることを容易に認識でき、また誰が主導権を持っているかを把握することが可能となる。

　また、上述していないが、主導権のあるユーザの発話と他のユーザの発話とが重複した場合に、主導権のあるユーザの発話に係る書き下し文を先に表示し、他のユーザの発話に係る書き下し文をその後に表示するようにされてもよい。

　また、上述していないが、主導権のあるユーザの発話に係る書き下し文の表示位置に、他のユーザの発話に係る書き下し文がマージされるようにされてもよい。これにより、いずれのユーザが主導権を持っているかを容易に知ることができる。

　図２１は、マージ動作の一例を示している。最初に、ユーザ１による「活動計画書を作成」という発話入力によって、活動計画書を作成するためのディクテーションモード処理が開始され、書き下し文としての「活動計画」が表示される。次に、ユーザ１の「今年度は、文化際と市民祭りへの参加が大きな活動になります。」という発話入力によって、それに対応した書き下し文が追加される。

　次に、ユーザ２の「予算的には、総額３５万円を計上しています。」という発話入力によって、それに対応した書き下し文が追加される。この場合、「活動計画　今年度は、文化際と市民祭りへの参加が大きな活動になります。」の文章に、「予算的には、総額３５万円を計上しています。」の文章が、画面上ではアニメーション的にマージされていく。

　また、本技術は、以下のような構成を取ることもできる。
　（１）ディクテーションの発話の書き下し文の表示を制御する表示制御部と、
　所定のユーザに主導権を付与する付与部と、
　上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する編集制御部を備える
　情報処理装置。
　（２）上記表示制御部は、上記発話の書き下し文を、発話したユーザが識別可能な状態で表示する
　前記（１）に記載の情報処理装置。
　（３）上記表示制御部は、上記発話の書き下し文を、確定するまで、非確定状態で表示する
　前記（１）または（２）に記載の情報処理装置。
　（４）上記発話の書き下し文は、タイムアウトまたは確定処理により確定される
　前記（３）に記載の情報処理装置。
　（５）上記付与部は、上記ディクテーションを開始したユーザに上記主導権を付与する
　前記（１）から（４）のいずれかに記載の情報処理装置。
　（６）上記付与部は、上記ディクテーションを開始したユーザが所定の属性であるときは、上記主導権を付与しない
　前記（５）に記載の情報処理装置。
　（７）上記付与部は、上記ディクテーションを開始したユーザが所定の年齢以下であるときは、上記主導権を付与しない
　前記（６）に記載の情報処理装置。
　（８）上記付与部は、上記発話の書き下し文を送信する相手に応じて、上記ディクテーションを開始したユーザが上記所定の年齢以下であっても上記主導権を付与する
　前記（７）に記載の情報処理装置。
　（９）ディクテーションの発話の書き下し文の表示を制御する手順と、
　所定のユーザに主導権を付与する手順と、
　上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する手順を有する
　情報処理方法。

　１００・・・情報処理装置
　１０１・・・制御部
　１０２・・・入出力インタフェース
　１０３・・・操作入力デバイス
　１０４・・・カメラ
　１０５・・・マイク
　１０６・・・スピーカ
　１０７・・・ディスプレイ
　１０８・・・ユーザ認識部
　１０９・・・音声認識部
　１１０・・・通信インタフェース
　１１１・・・意味解析ガイドデータベース
　１１２・・・ディクテーションガイドデータベース
　１１３・・・バス

Claims

　ディクテーションの発話の書き下し文の表示を制御する表示制御部と、
　所定のユーザに主導権を付与する付与部と、
　上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する編集制御部を備える
　情報処理装置。
　上記表示制御部は、上記発話の書き下し文を、発話したユーザが識別可能な状態で表示する
　請求項１に記載の情報処理装置。
　上記表示制御部は、上記発話の書き下し文を、確定するまで、非確定状態で表示する
　請求項１に記載の情報処理装置。
　上記発話の書き下し文は、タイムアウトまたは確定処理により確定される
　請求項３に記載の情報処理装置。
　上記付与部は、上記ディクテーションを開始したユーザに上記主導権を付与する
　請求項１に記載の情報処理装置。
　上記付与部は、上記ディクテーションを開始したユーザが所定の属性であるときは、上記主導権を付与しない
　請求項５に記載の情報処理装置。
　上記付与部は、上記ディクテーションを開始したユーザが所定の年齢以下であるときは、上記主導権を付与しない
　請求項６に記載の情報処理装置。
　上記付与部は、上記発話の書き下し文を送信する相手に応じて、上記ディクテーションを開始したユーザが上記所定の年齢以下であっても上記主導権を付与する
　請求項７に記載の情報処理装置。
　ディクテーションの発話の書き下し文の表示を制御する手順と、
　所定のユーザに主導権を付与する手順と、
　上記発話の書き下し文に係る指示を上記主導権が付与されたユーザが行い得るように制御する手順を有する
　情報処理方法。