WO2021205832A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2021205832A1
WO2021205832A1 PCT/JP2021/010885 JP2021010885W WO2021205832A1 WO 2021205832 A1 WO2021205832 A1 WO 2021205832A1 JP 2021010885 W JP2021010885 W JP 2021010885W WO 2021205832 A1 WO2021205832 A1 WO 2021205832A1
Authority
WO
WIPO (PCT)
Prior art keywords
editing
information
text
edit
unit
Prior art date
Application number
PCT/JP2021/010885
Other languages
English (en)
French (fr)
Inventor
山田 敬一
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021205832A1 publication Critical patent/WO2021205832A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

ユーザ発話の音声認識結果であるテキストを、ユーザ発話を用いて的確に修正する装置、方法を提供する。ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、編集情報生成・更新部が生成した事前生成テキストに対する編集情報を表示する編集情報表示部を有する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話に対する音声認識結果をユーザが確認し、音声認識結果に対する修正処理をユーザの発話を用いて行うことを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識システムの利用が増大している。
 この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
 例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
 システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
 このようなシステム発話を出力する。
 このように、ユーザ発話の音声認識結果に基づく処理や応答を行う情報処理装置は、スマートスピーカーあるいはエージェント装置と呼ばれ、利用が急増している。
 さらに、近年、音声によって天気予報や音楽再生等の処理のみならず、ショートメッセージ送信処理や、スケジュール情報登録、周辺家電機器の制御といった様々なタスクについても、ユーザ発話を音声認識して実行することが可能となっている。
 エージェント装置等の情報処理装置に、様々なタスクを実行させるためには、「音声で所望の文章(テキスト)を入力する」ことが必要となる。しかし、情報処理装置における音声認識エラーによって間違ったテキストが入力される場合がある。また、音声認識エラーによって生成された入力テキストがユーザの意図した文字とは異なる文字によって構成され、誤った処理が実行される場合もある。
 このような事態を防止するためには情報処理装置の音声認識結果を確認して修正を行うことが必要である。
 情報処理装置の音声認識結果の修正を行う一例として、例えば、情報処理装置の音声認識結果であるテキストを表示部に表示し、ユーザが表示部に表示されたテキストを確認して修正する構成がある。
 しかし、テキスト修正をキーボードやタッチディスプレイ等を介して手入力するのは煩わしいという問題がある。
 この問題を解決する従来技術の一例として、例えば特許文献1(特開2017-211430号公報)がある。
 この特許文献1は、情報処理装置の音声認識結果を修正する場合、ユーザが発話して修正する構成を開示している。
 しかし、この文献に記載の構成は、情報処理装置の音声認識結果の修正を行う場合、ユーザが修正依頼の具体的内容を発話して説明する必要がある。例えば、
 ユーザ発話=「ひとつ前の句読点から前部消して」
 このような具体的な修正内容を含む文を発話する必要がある。
 このような修正依頼文は、句読点等、文の構成を理解し、修正対象を確実に特定することに慣れているユーザにとっては、困難性が低いが、多くのユーザは、このような処理に不慣れであり、ユーザの思い通りの的確な修正を迅速に行うことができないという問題がある。
特開2017-211430号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、文書修正に不慣れなユーザであっても、情報処理装置の音声認識結果に対する修正処理を、ユーザ発話を用いて的確に行うことを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、
 前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、
 前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、
 前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示部を有する情報処理装置にある。
 さらに、本開示の第2の側面は、
 情報処理装置と、サーバを有する情報処理システムであり、
 前記情報処理装置は、
 ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、
 前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、
 前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、
 前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示部を有し、
 前記サーバは、
 テキストに対する形態素解析処理を実行する形態素解析処理部を有し、
 前記情報処理装置から受信した前記事前生成テキストに対する形態素解析を実行して、前記情報処理装置に送信し、
 前記情報処理装置は、
 前記編集情報表示部において、前記サーバが生成した形態素解析処理結果を表示する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 音声認識部が、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識ステップと、
 編集コマンド解析部が、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析ステップと、
 編集情報生成・更新部が、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新ステップと、
 編集情報表示部が、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示ステップを実行する情報処理方法にある。
 さらに、本開示の第4の側面は、
 情報処理装置と、サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記情報処理装置において、
 音声認識部が、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識処理と、
 編集コマンド解析部が、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析処理と、
 編集情報生成・更新部が、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新処理と、
 編集情報表示部が、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示処理を実行し、
 前記サーバの形態素解析処理部が、
 前記情報処理装置から受信した前記事前生成テキストに対する形態素解析を実行して、前記情報処理装置に送信し、
 前記情報処理装置の前記編集情報表示部が、前記サーバが生成した形態素解析処理結果を表示する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 音声認識部に、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成させる処理と、
 編集コマンド解析部に、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析処理と、
 編集情報生成・更新部に、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新処理と、
 編集情報表示部に、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示処理を実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、ユーザ発話の音声認識結果であるテキストを、ユーザ発話を用いて的確に修正する装置、方法が実現される。
 具体的には、例えば、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、編集情報生成・更新部が生成した事前生成テキストに対する編集情報を表示する編集情報表示部を有する。
 本構成により、ユーザ発話の音声認識結果であるテキストを、ユーザ発話を用いて的確に修正する装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
本開示の情報処理装置の構成例について説明する図である。 本開示の情報処理装置の構成例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 編集コマンドテーブルの格納データ例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 本開示の情報処理装置の実行する処理と、表示データの具体例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.本開示の情報処理装置の実行する処理の概要について
 2.本開示の情報処理装置の構成例について
 3.本開示の情報処理装置の実行する処理シーケンスについて
 4.各編集コマンドIDに対応した処理について
 5.編集情報生成・更新部が実行するその他の編集処理と表示データの具体例について
 5-(1)読み情報を利用した編集処理の具体例1
 5-(2)読み情報を利用した編集処理の具体例2
 5-(3)読み情報を利用した編集処理の具体例3
 5-(4)読み情報を利用した編集処理の具体例4
 5-(5)かな漢字変換を伴う編集処理の具体例
 5-(6)単語の分割、削除、挿入、連結等を使用した編集処理の具体例
 6.知識情報を利用した実施例について
 6-(1)知識情報を利用したユーザ発話の修正処理の具体例1
 6-(2)知識情報を利用したユーザ発話の修正処理の具体例2
 6-(3)知識情報を利用したユーザ発話の修正処理の具体例3
 6-(4)知識情報を利用したユーザ発話の修正処理の具体例4
 7.情報処理装置のハードウェア構成例について
 8.本開示の構成のまとめ
  [1.本開示の情報処理装置の実行する処理の概要について]
 まず、本開示の情報処理装置の実行する処理の概要について説明する。
 本開示の情報処理装置は、文書修正に不慣れなユーザであっても、情報処理装置の音声認識結果に対する修正処理を、ユーザ発話を用いて的確に行うことを可能とした装置である。
 本開示の情報処理装置は、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
 このように、ユーザ発話の音声認識結果に基づく処理や応答を行う情報処理装置は、スマートスピーカーあるいはエージェント装置と呼ばれ、利用が急増している。
 情報処理装置は、ユーザ発話音声の音声認識結果に基づいて、天気予報情報の提供や音楽再生、さらに、ショートメッセージの送信やスケジュール情報の登録といった様々なタスクを実行する。
 例えば、ユーザが情報処理装置(エージェント装置)にメッセージ送信を依頼する場合、メッセージ本文をユーザ発話によって情報処理装置に入力することが必要となる。
 また、ユーザが情報処理装置にスケジュール登録を依頼する場合には、スケジュールのタイトルや具体的な日程、行動予定等を発話して情報処理装置に入力することが必要となる。
 情報処理装置(エージェント装置)は、ユーザ発話対応の音声データを音声認識部に入力する。音声認識部はユーザ発話音声の音声認識処理を行い、音声認識処理の処理結果としてテキストを生成する。生成したテキストはタスク実行部に出力され、タスク実行部がテキストに基づく処理を行う。
 しかし、音声認識部が音声認識処理エラーを起こすと、間違ったテキストが生成され、タスク実行部に入力される。タスク実行部は間違ったテキストに基づく処理を行うことになり、この場合、ユーザが希望する処理と異なる処理が行われてしまうといった事態が発生する。
 また、音声認識部が生成したテキストを構成する文字が、ユーザの意図した文字と異なる場合もある。例えばユーザ発話の構成文字に同音異字(同音異表記)が含まれる場合等である。このような場合にも、ユーザの意図と異なる処理が行われてしまう可能性がある。
 本開示の情報処理装置は、このような問題の発生を防止することを可能としたものである。
 具体的には、例えば、情報処理装置の音声認識結果であるテキストを表示部に表示し、ユーザが表示部に表示されたテキストを確認して、ユーザ発話に基づいて修正することを可能とした構成を持つ。
 本開示の情報処理装置は、例えば、日本語の音声認識結果として生成した日本語テキストに対する修正を行う場合、音声認識結果から得られる読み情報だけではなく、例えば、漢字1文字単位の多様な読み情報をユーザに提示するUI(ユーザインタフェース)を提供する。このUIを利用することで、ユーザは容易に、かつ確実に正しい漢字を選択してテキストの修正を行うことが可能となる。
 なお、本開示の情報処理装置の提供するUIには、例えば以下の情報が表示される。
 (a)音声認識結果としてのテキスト、
 (b)表示テキストに対する修正手段として、文字や単語単位での「削除」「連結」「置換」「挿入」「分割」「漢字変換」「記号入力」「字種変換」といった編集機能の選択肢データ、
 (c)修正中、修正後のテキスト
 ユーザは、上記情報を含む表示情報を見ながら、ユーザ発話によって、修正したい文字や単語の指定処理や、修正のために必要となる編集機能の選択を行うことが可能となり、より確実な修正処理を行うことができる。
 なお、本開示の情報処理装置は、日本語のみならず、日本語以外の英語、中国語等、様々な国語を言語についても対応可能である。
 例えば、英語を対象とした修正手段としてアクセント情報を用いたり、中国語を対象とした修正手段として四声のような声調に関する情報を用いた処理を行うことも可能である。
 なお、テキストに対する修正処理は、主としてユーザ発話に基づいて実行することが可能であるが、ユーザ発話以外のユーザ操作、例えば、タッチパッドに対する処理や、ジェスチャーを用いた処理を併せて利用することも可能であり、音声とは異なるモーダルを用いた修正も可能である。
  [2.本開示の情報処理装置の構成例について]
 次に、本開示の情報処理装置の構成例について説明する。
 図1は、本開示の情報処理装置100の一構成例を示す図である。
 本開示の情報処理装置100は、音声入力部101、音声認識部102、テキスト編集処理部110を有する。
 テキスト編集処理部110は、編集コマンド解析部111、編集情報生成・更新部112、編集履歴情報管理部113、編集履歴情報記憶部114、編集情報表示部115、形態素解析処理部116、かな漢字変換処理部117、編集処理結果生成部118を有する。
 音声入力部101は、例えばマイクであり、ユーザ発話音(音声)信号を取り込む。
 音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声入力部101を介して入力するユーザ発話音声を
テキスト情報に変換する。
 音声認識部102の音声認識処理結果であるテキスト情報は、例えばユーザ発話に対応した発音情報も含まれる。
 テキスト編集処理部110の編集コマンド解析部111は、音声認識部102の音声認識処理結果であるテキスト情報を入力し、自然言語処理等の技術を用いて、ユーザの発話から編集コマンド情報を生成する。
 情報処理装置100は、まず、第1のユーザ発話に基づく音声認識結果として生成したテキストを表示部に表示する。その後、ユーザが表示部に表示されたテキストの修正を依頼するための第2のユーザ発話を行う。
 編集コマンド解析部111は、ユーザ発話に基づくテキストを解析して、ユーザ発話が、表示部に表示されたテキストの修正を依頼するための発話であると判定した場合、この編集を依頼するユーザ発話から編集コマンド情報を生成する。
 具体的には、例えば、第1のユーザ発話が以下の発話であったとする。
 第1のユーザ発話=「病院の予定」
 情報処理装置100の音声認識部は、この第1のユーザ発話の音声認識処理を行いテキスト情報を生成し、表示部に表示する。この表示データが以下の表示データであったとする。
 第1のユーザ発話の音声認識結果表示データ=「美容院の予定」
 このような音声認識結果表示データ=「美容院の予定」が表示部に表示されると、ユーザは、修正を依頼するための第2のユーザ発話を行う。具体的には、例えば以下のユーザ発話である。
 第2のユーザ発話=「美容院を病院にして」
 編集コマンド解析部111は、上記のようなユーザ発話に基づくテキストを解析して、ユーザ発話が、表示部に表示されたテキストの修正を依頼するための発話であると判定した場合、この編集を依頼するユーザ発話から編集コマンド情報を生成する。
 編集コマンド解析部111が生成する編集コマンド情報は、例えば、以下のような情報によって構成される。
 (1)編集コマンドID
 (2)編集前文字列情報
 (3)編集後文字列情報
 「(1)編集コマンドID」は、特定の編集操作を表す識別情報(ID情報)である。
 具体的には、例えば、「編集開始」、「単語選択」、「削除」、「連結」、「置換」、「前挿入」、「後挿入」、「分割」、「かな漢字変換」、「記号入力」、「字種変換」、「候補選択」、「キャンセル(取消)」、「クリア(全消去)」、「編集終了」、「読み情報を利用」等、様々な編集操作を識別するID情報である。
 1つの編集コマンド情報には、編集コマンドIDが必ず含まれる。
 「(2)編集前文字列情報」は、編集コマンド情報の操作対象となる文字列情報である。
 操作対象となる文字列に対応する番号情報であってもよい。
 なお、「(2)編集前文字列情報」は、編集コマンド情報に含まれない場合もある。
 「(3)編集後文字列情報」は、編集コマンド情報によって、編集された後の文字列情報である。
 「(2)編集前文字列情報」が、編集コマンド情報による編集後、「編集後文字列情報」に変更される。
 なお、「(3)編集後文字列情報」は、編集後文字列として表示される選択候補に対応する番号情報であってもよい。
 なお、「(3)編集後文字列情報」は、編集コマンド情報に含まれない場合もある。
 編集情報生成・更新部112は、編集コマンド解析部111が生成した編集コマンド情報を入力して、編集情報の生成処理や更新処理を行う。
 編集情報生成・更新部112は、編集対象となるテキスト情報に対する形態素解析結果を利用して、編集情報の生成処理や更新処理を行う。
 なお、編集対象となるテキスト情報に対する形態素解析処理は、形態素解析処理部116において実行される。
 編集情報生成・更新部112が生成する編集情報には、編集中単語情報が含まれる。
 編集中単語情報は、編集対象となるテキストの形態素解析によって得られる形態素列、あるいは、形態素列に対する編集途中の単語列を構成する各単語(形態素)各々に関する以下の3つの情報によって構成される。
 (1)単語表記文字列
 (2)単語読み情報
 (3)単語形態素情報
 (1)単語表記文字列は、単語(形態素)の表記文字列である。
 単語(形態素)そのものである。
 (2)単語読み情報は、単語(形態素)の読みに対応した文字列である。読みに対応した文字列を複数有してもよい。
 (3)単語形態素情報は、単語(形態素)の形態素としての情報である。
 編集情報に含まれる編集中単語情報の具体例について説明する。
 編集対象となるテキスト情報が「美容院の予定」であった場合について説明する。
 この場合、編集情報は、テキスト情報=「美容院の予定」の形態素解析によって取得される単語(形態素)である3つの単語(形態素)、すなわち、「美容院」、「の」、「予定」、これらの3つの単語(形態素)各々について、(1)単語表記文字列、(2)単語読み情報、(3)単語形態素情報を記録した情報となる。
 具体的には以下の情報によって構成される。
 単語1番=(単語表記文字列=美容院,単語読み情報=びよういん,単語形態素情報=名詞),
 単語2番(単語表記文字列=の,単語読み情報=の,単語形態素情報=助詞),
 単語3番(単語表記文字列=予定,単語読み情報=よてい,単語形態素情報=名詞)
 編集情報生成・更新部112は、まず、編集開始時に、ユーザ発話に対応したテキスト情報から、編集情報を生成する。
 また、編集処理実行中は、編集コマンド解析部111が生成した編集コマンド情報に基づいて、編集情報を更新する。
 編集情報表示部115は、編集情報生成・更新部112が生成、または更新した最新の編集情報をGUI(Graphical User Interface)画面上に表示する。
 表示データの具体例については、後段で図面を参照して説明する。
 編集履歴情報管理部113は、編集開始時からの全ての編集コマンド情報と、各編集コマンド情報に対応する編集情報の組を、時系列の編集履歴情報として編集履歴情報記憶部114に格納する。
 なお、編集情報生成・更新部112は、必要に応じて、編集履歴情報管理部113を介して編集コマンド情報とそれに対応する編集情報を取得することができる。
 編集処理結果生成部118は、編集終了時に、編集処理結果となる編集後のテキスト情報を、最新の編集情報を利用して生成する。
 編集処理結果生成部118は、編集情報生成・更新部112が生成した最終的な編集情報から、編集処理結果を生成する。
 なお、編集処理結果生成部118が生成した編集処理結果は、図示していないが、情報処理装置100のタスク実行部に出力される。
 タスク実行部は、編集処理結果生成部118が生成した編集処理結果に応じた処理を実行する。
 編集処理結果生成部118が生成した編集処理結果は、ユーザによる編集された後の正しいユーザ発話に相当する。
 例えば、
 編集後のユーザ発話=「明日の天気を教えて」
 このような、編集処理結果としての正しいユーザ発話テキストがスク実行部に出力される。
 この場合、タスク実行部は、編集処理結果生成部118が生成した編集処理結果である
 編集後のユーザ発話=「明日の天気を教えて」
 このユーザ発話に応じた処理を実行する。すなわち、天気情報を取得し、ユーザに通知する処理などを行うことになる。
 形態素解析処理部116は、編集情報生成・更新部112が編集対象とするテキスト情報に対する形態素解析処理を実行する。
 前述したように、編集情報生成・更新部112は、編集対象となるテキスト情報に対する形態素解析結果を利用して、編集情報の生成処理や更新処理を行う。
 形態素解析処理部116は、編集処理対象となるテキストの文字列情報に対して形態素解析処理を行う。
 かな漢字変換処理部117は、編集情報生成・更新部112が編集対象とするテキスト情報を構成する文字列や、形態素解析処理部116における形態素解析結果として得られた単語(形態素)のかな漢字変換処理を行う。
 なお、図1に示す情報処理装置100の構成要素の一部は、情報処理装置100と通信可能な他の装置、例えばネットワークを介して接続可能な外部サーバ等に構成してもよい。
 具体例を図2に示す。
 図2に示す例は、情報処理装置100bの構成例であり、情報処理装置100bとネットワークを介して接続可能なサーバ130が、形態素解析処理部131と、かな漢字変換処理部132を有した構成である。
 情報処理装置100bの編集情報生成・更新部112は、必要に応じて、外部のサーバ130をアクセスして、サーバ130の形態素解析処理部131と、かな漢字変換処理部132を利用して、編集対象テキストの形態素解析処理や、かな漢字変換処理を実行する。
  [3.本開示の情報処理装置の実行する処理シーケンスについて]
 次に、本開示の情報処理装置100の実行する処理シーケンスについて説明する。
 図3に示すフローチャートは、本開示の情報処理装置100の実行する処理シーケンスについて説明するフローチャートである。
 なお、図3に示すフローチャートに従った処理は、例えば情報処理装置100の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
 以下、図3に示すフローの各ステップの処理について説明する。
  (ステップS11)
 まず、情報処理装置100は、ステップS11において、ユーザ発話に対する音声認識処理を実行する。
 音声認識処理は、音声認識部102において実行される。音声認識部102は、音声入力部101から入力する音声信号をその発話内容に対応した複数の単語から構成されるテキストデータに変換する。
  (ステップS12)
 次に、情報処理装置100は、ステップS12において、ステップS11の音声認識処理の結果として生成されたテキストに編集コマンド表現が含まれるか否かを解析し、テキストに編集コマンド表現が検出された場合、検出された編集コマンド表現に対応して予め規定された編集コマンドIDを選択する。
 この処理は、図3に示す情報処理装置100編集コマンド解析部111が実行する処理である。
 なお、情報処理装置100は、様々な編集コマンド表現と、編集コマンド表現各々に対応する編集コマンドIDを対応付けた編集コマンドテーブルを記憶部に格納している。
 情報処理装置100の記憶部に格納された編集コマンドテーブルの具体例を図4に示す。
 編集コマンドテーブルは、図4に示すように、「編集開始」、「単語選択」、「削除」、「連結」等の様々な編集コマンド表現と、その識別子である編集コマンドID、およびユーザ発話例を対応付けて記録したテーブルである。
 編集コマンドテーブルには、例えば以下の編集コマンドが記録されている。
 以下、編集コマンドテーブルに記録されたデータの例を、
 編集コマンド(編集コマンドID):発話例=「発話例1」~「発話例n」
 として示す。
 編集開始(ID=01):発話例=「修正を始める」「編集を開始する」「修正を開始」
 単語選択(ID=02):発話例=「単語を選ぶ」「〇〇を選択する」「〇〇を選ぶ」「単語選択〇〇」「単語選択△番」「△番の単語」「△番」
 削除(ID=03):発話例=「単語を消す」「単語を削除する」「単語削除」「〇〇を削除して」「△番を削除」
 連結(ID=04):発話例=「単語を繋げる」「単語を連結する」「単語結合」「〇〇を連結して」「△番を連結」
 置換(ID=05):発話例=「単語を置き換える」「単語を置換する」「単語置換」「〇〇を□□に置換して」「△番を□□に置換」
 前挿入(ID=06):発話例=「単語を前に入れる」「単語を前に挿入する」「単語を前に追加」「前に挿入」「〇〇の前に□□を入れる」
 後挿入(ID=07):発話例=「単語を後ろに入れる」「単語を後(ろ)に挿入する」「単語を後(ろ)に追加」「後(ろ)に挿入」「〇〇の後(ろ)に□□を入れる」
 分割(ID=08):発話例=「単語を分ける」「単語を分割する」「単語分割」「〇〇を分割して」「△番を分割」
 かな漢字変換(ID=09):発話例=「単語を変換する」「漢字変換」「〇〇を漢字変換して」「△番を変換」
 記号入力(ID=10):発話例=「記号を入力する」「記号入力」「文字を入力して」「文字入力」「一文字入力」
 字種変換(ID=11):発話例=「単語の字種を変換する」「カタカナにして」「〇〇を全角にして」「〇〇を半角にする」「△番をアルファベットにする」
 候補選択(ID=12):発話例=「候補を選ぶ」「候補を選択する」「候補選択△番」「△番の候補」「△番」
 キャンセル(ID=13):発話例=「キャンセルする」「キャンセル」「取り消す」「取り消しする」
 クリア(ID=14):発話例=「クリアする」「クリア」「リセットする」「全キャンセル」「全部取り消して」
 編集終了(ID=15):発話例=「修正終わり」「編集を終了する」「修正を終了」「修正を終わる」「それでOK」
 読み情報を利用(ID=16):発話例=「●●を□□にして」「●●を□□に置換して」(●●=表示中の読み情報に対応する音声認識結果)
 このように、編集コマンドテーブルには、様々な編集コマンド表現と、その識別子である編集コマンドID、およびユーザ発話例を対応付けて記録したテーブルである。
 図3に示す情報処理装置100編集コマンド解析部111は、ステップS12において、ステップS11の音声認識処理の結果として生成されたテキストに編集コマンド表現が含まれるか否かを解析し、テキストに編集コマンド表現が検出された場合、記憶部に格納された編集コマンドテーブルを参照して、検出された編集コマンド表現に対応して予め規定された編集コマンドIDを選択する。
  (ステップS13)
 次に、情報処理装置100は、ステップS13において、ステップS12において、ユーザ発話対応のテキストから編集コマンド表現の検出、および検出編集コマンド表現対応の編集コマンドIDの選択が実行されたか否かを判定する。
 ステップS12において編集コマンドIDの選択が実行された場合、ステップS13の判定がYesとなり、編集コマンドIDに対応した処理であるステップS21等のいずれかの処理が実行される。
 一方、ステップS12において編集コマンドIDの選択が実行されなかった場合、ステップS13の判定がNoとなり、ステップS15に進む。
  (ステップS15)
 ステップS12において編集コマンドIDの選択が実行されず、ステップS13の判定がNoとなった場合は、ステップS15の処理を実行する。
 この場合、情報処理装置は、ステップS11におけるユーザ発話の音声認識結果に応じた処理(タスク)を実行する。
 これは、ユーザ発話がテキストの修正依頼を要求する発話でない、通常のタスク実行要求発話、例えば、
 ユーザ発話=「明日の天気を教えて」
 このようなユーザ発話である場合のタスク実行処理である。
  (ステップS21~S42、ステップS51~S53、ステップS61)
 次に、ステップS21~S42、ステップS51~S53、ステップS61の処理について説明する。
 ステップS21~S42の処理は、ステップS12において編集コマンドIDの選択が実行され、ステップS13の判定がYesとなった場合に実行される。
 この場合、ステップS12において選択された編集コマンドIDに対応した処理が、ステップS21~S42において実行される。
 この処理は、図1に示す情報処理装置の編集情報生成・更新部112等が実行する処理である。
 ステップS21~S42の編集情報生成、更新処理後に、編集履歴情報管理部113や、編集情報表示部115が、ステップS51~S53の処理を実行する。
 ステップS51~S53では、編集情報生成・更新部112が生成、更新した編集情報の記録処理や表示処理が実行される。
 編集処理を終了する場合には、ステップS42の編集処理終了処理と、ステップS51~S53の処理と、ステップS61の処理を実行する。
 ステップS61の処理は、編集情報生成・更新部112が生成した最終的な編集情報から、編集処理結果を生成する処理である。
 この処理は、編集処理結果生成部118が実行する。
 編集処理結果生成部118が生成した編集処理結果は、情報処理装置100のタスク実行部に出力される。
 タスク実行部は、編集処理結果生成部118が生成した編集処理結果に応じた処理を実行する。
  [4.各編集コマンドIDに対応した処理について]
 以下、各編集コマンドIDに対応した処理について説明する。
 なお、編集処理対象となるユーザ発話テキストは、図3に示すフローのステップS12において、編集コマンド表現が検出されたユーザ発話より前に入力されたユーザ発話である。
 例えば、第1のユーザ発話が以下の発話であったとする。
 第1のユーザ発話=「病院の予定」
 情報処理装置100の音声認識部は、この第1のユーザ発話の音声認識処理を行い、テキスト情報を生成して表示部に表示する。この表示データが以下の表示データであったとする。
 第1のユーザ発話の音声認識結果表示データ=「美容院の予定」
 このような音声認識結果表示データ=「美容院の予定」が表示部に表示されると、ユーザは、修正を依頼するための第2のユーザ発話を行う。具体的には、例えば以下のユーザ発話である。
 第2のユーザ発話=「修正を始めて」
 この第2のユーザ発話(最新入力発話)が、図3に示すフローのステップS12~S13において、編集コマント表現を含むユーザ発話であると判定される。
 この場合の編集処理対象となるユーザ発話テキストは、
 第1のユーザ発話の音声認識結果テキスト=「美容院の予定」
 このテキスト(事前生成テキスト)である。
 ステップS12においてユーザ発話テキスト(最新テキスト)から検出した編集コマンド表現が、例えば、「修正を始める」「編集を開始する」「修正を開始」、
 これらの表現である場合、ステップS13では、図4を参照して説明した編集コマンドテーブルから編集コマンドID=01を選択する。
 この場合、ステップS21~S22の処理を実行する。
 まず、ステップS21において、編集処理を開始する。なお、編集処理対象となるユーザ発話テキストは、上述したように、ステップS12において、編集コマンド表現が検出されたユーザ発話より前に入力されたユーザ発話である。
 次に、ステップS22において、編集対象テキストの形態素解析を実行して形態素解析結果から構成される編集情報を生成する。
 ステップS22において生成された編集情報は、ステップS51において、最新の編集情報として更新され、ステップS52において編集履歴情報管理部113に入力され編集履歴情報記憶部114に格納される。
 さらに、編集履歴情報記憶部114に格納された最新の編集情報は、ステップS53において、編集情報表示部115に表示される。
 このステップS21~S53の処理が実行される場合に、編集情報表示部115に表示されるデータ(GUI)の一例を図5、図6に示す。
 図5は、編集情報表示部115に表示される編集開始時の初期画面である。
 「現在の音声認識結果」の表示領域に、
 最新のユーザ発話対応の音声認識結果と、編集コマンド一覧が表示される。
 初期画面では、最新のユーザ発話対応の音声認識結果は、編集対象テキストであり、
 編集対象テキスト=「美容院の予定」
 この編集対象テキストが表示される。
 また、編集コマンド一覧は、図に示すように、「(1)編集を始める」~「(15)編集終わり」まで、複数種類の編集コマンドをユーザが選択可能なように表示した一覧データである。
 なお、編集コマンド一覧に表示されたワード(編集を始める等のワード)は、ユーザが、このワードを発話することで、発話ワードに対応する編集コマンドに従った処理が開始される。例えば、
 ユーザ発話=「編集を始める」
 このようなユーザ発話が入力された場合、編集コマンド解析部111が、ユーザ発話に対応する編集コマンドID(01)を選択し、編集情報生成・更新部112に出力する。編集情報生成・更新部112は、入力した編集コマンドIDに応じた編集処理を開始する。
 また、編集コマンド一覧に表示されたワード対応の番号は、編集コマンドIDに対応しており、ユーザはこの番号を発話して、その番号に対応する編集を開始させることもできる。
例えば、
 ユーザ発話=「1番」
 このようなユーザ発話が入力された場合、編集コマンド解析部111が、ユーザ発話に対応する編集コマンドID(01)を選択し、編集情報生成・更新部112に出力する。編集情報生成・更新部112は、入力した編集コマンドIDに応じた編集処理を開始する。
 なお、ユーザは、例えば図5に示す初期画面に表示された
 編集対象テキスト=「美容院の予定」
 を確認して、編集を行いたいと判断した場合、編集コマンド表現を含むユーザ発話を行う。
 例えば、
 ユーザ発話=「修正を始める」
 このような発話を行う。
 情報処理装置100が、このユーザ発話を入力すると、図3に示すフローのステップS12において、編集コマンド解析部111が、図4に示す編集コマンドテーブルから編集コマンドID=01を選択する。
 この編集コマンドID=01が、編集情報生成・更新部112に入力されると、編集情報生成・更新部112は、編集コマンドID=01に応じた処理、すなわち図3に示すフローのステップS21~S22の処理を実行する。
 このステップS21~S22の編集情報生成、更新処理後に、編集履歴情報管理部113や、編集情報表示部115が、ステップS51~S53の処理を実行する。
 ステップS51~S53では、編集情報生成・更新部112が生成、更新した編集情報の記録処理や表示処理が実行される。
 編集情報表示部115は、まず、初期画面として図5に示す表示データ、すなわち、
 編集対象テキスト=「美容院の予定」
 と、複数の編集コマンドを含む表示データを生成して表示する。
 次に、ユーザが
 ユーザ発話=「修正を始める」
 このような発話を行うと、図6に示すように、「現在の音声認識結果」中の
 「最新のユーザ発話音声認識結果」表示領域には、
 ユーザ発話=「修正を始める」
 この編集要求発話テキストが表示される。
 編集処理が開始されると、図6に示すように、「現在の音声認識結果」の表示領域に追加して、
 「修正前のテキスト」
 この表示領域が追加されて表示される。
 「修正前のテキスト」の表示領域には、
 (1)修正前のテキストの表示領域と、
 (2)修正中のテキストの表示領域が設定される。
 修正前のテキストの表示領域には、
 修正前のテキスト=「美容院の予定」
 上記テキストが表示される。
 一方、修正中のテキストの表示領域には、現在の最新の編集処理結果が表示される。
 編集処理の開示時には、まず、編集対象テキストの形態素解析結果と、単語(形態素)単位の読み情報が分割表示される。
 図6に示す例では、修正中のテキストの表示領域には、
 編集対象テキスト=「美容院の予定」の形態素解析結果が表示される。
 これは、形態素解析処理部116において実行された形態素解析結果であり、形態素解析処理の結果として得られた単語(形態素)が読み情報とともに表示される。
 なお、読み情報を付与した形態素単位データの各々には形態素ID(図に示す101~103)が対応付けられ、これらの形態素IDも併せて表示される。
 ユーザは、この図6に示す表示データを確認し、新たな修正要求発話を行う。
 例えば、
 ユーザ発話=「美容院を病院に置換して」
 このような発話を行う。
 なお、ユーザは、形態素IDを発話して修正対象を指定することも可能である。この処理については後述する。
 情報処理装置が、この新たなユーザ発話を入力すると、図3に示すステップS53からステップS11に戻り、ステップS11~S13の処理が繰り返される。
 このステップS11では、
 ユーザ発話テキスト=「美容院を病院に置換して」が生成される。
 ステップS12~S13では、このユーザ発話テキストから、
 編集コマンド表現=「〇〇を□□に置換して」
 を検出し、この編集コマンド表現=「〇〇を□□に置換して」に基づいて、図4に示す編集コマンドテーブルから、編集コマンドID=05(置換)を選択し、ユーザの編集要求発話が置換要求であると判定する。
 編集コマンド解析部111は、ユーザ発話テキストの解析結果として取得した編集コマンドID=05(置換)を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力した編集コマンドID=05(置換)に応じた編集処理、すなわち、図3に示すフローのステップS26以下の処理を実行する。
 ステップS26と、ステップS51~S53の処理を実行中に、編集情報表示部115に表示されるデータ(GUI)の例が図7に示す表示データである。
 すなわち、
 ユーザ発話=「美容院を病院に置換して」
 このユーザ発話に応じて、図7に示すように、
 ユーザ発話テキスト=「美容院を病院に置換して」
 複数の編集コマンド、
 修正前のテキスト
 修正中のテキスト
 これらのデータから構成される表示データが表示される。
 なお、修正中テキストとしては、編集対象テキスト=「美容院の予定」の形態素解析結果である単語(形態素)を示すとともに、ユーザの置換要求対象の単語(形態素)、すなわち、
 単語(形態素)=美容院(びよういん)
 この単語を、
 単語(形態素)=病院(びょういん)
 このように置き換えた修正中テキストを表示する。
 なお、図7に示すように、置き換えた単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 さらに、ユーザが、この図7の表示データを確認して、ユーザの要求に従った修正が行われたと判断した場合は、ユーザは新たなユーザ発話、例えば、
 ユーザ発話=「修正終わり」
 このような発話を行う。
 情報処理装置が、この新たなユーザ発話を入力すると、図3に示すステップS53からステップS11に戻り、ステップS11~S13の処理が繰り返される。
 このステップS11では、
 ユーザ発話テキスト=「修正終わり」が生成される。
 ステップS12~S13では、このユーザ発話テキストから、
 編集コマンド表現=「修正終わり」
 を検出し、この編集コマンド表現=「修正終わり」に基づいて、図4に示す編集コマンドテーブルから、編集コマンドID=15(編集終了)を選択し、ユーザの編集要求発話が編集終了であると判定する。
 編集コマンド解析部111は、ユーザ発話テキストの解析結果として取得した編集コマンドID=15(編集終了)を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力した編集コマンドID=15(編集終了)に応じた編集処理、すなわち、図3に示すフローのステップS42以下の処理を実行する。
 ステップS42と、ステップS51~S53の処理を実行中に、編集情報表示部115に表示されるデータ(GUI)の例が図8に示す表示データである。
 すなわち、
 ユーザ発話=「修正終わり」
 このユーザ発話に応じて、図8に示すように、
 ユーザ発話テキスト=「修正終わり」
 複数の編集コマンド、
 修正後テキスト
 これらのデータから構成される表示データを表示する。
 なお、図8に示す例においては、修正後テキストとして、
 編集処理後のテキスト=「病院の予定」
 が表示される。
 なお、ステップS42の編集処理終了が実行される場合は、ステップS61の処理が実行される。
 すなわち、ステップS61において、編集情報生成・更新部112が生成した最終的な編集情報から、編集処理結果を生成する。
 この処理は、編集処理結果生成部118が実行する。
 編集処理結果生成部118が生成した編集処理結果は、情報処理装置100のタスク実行部に出力される。
 タスク実行部は、編集処理結果生成部118が生成した編集処理結果に応じた処理を実行する。
 例えば図8を参照して説明した例では、
 ユーザ発話=「病院の予定」
 であるので、病院の予定をスケジュールに記録する処理等が実行される。
 なお、図5~図8を参照して説明した一連の編集処理は、編集処理の一例である。
 図6や図7に示す表示データ中、「修正中のテキスト」の表示領域には、形態素解析結果から取得される単語(形態素)情報が表示される。
 この形態素解析結果は、形態素解析処理部116が実行する。ただし、音声認識結果の中に、すでに形態素解析結果に対応するような情報が含まれている場合には、形態素解析は行わずに、その情報に基づいて「修正中のテキスト」の部分の表示を行ってもよい。
 また、テキスト編集処理を開始するためのコマンド発話、例えば「修正を始める」といったユーザ発話を行わずに、音声認識結果が得られる時点で直ぐにテキスト編集処理を開始するようにしてもよい。
 その場合には、テキスト編集処理を終了するためのコマンド発話「修正終わり」や、テキスト編集処理を行わずに音声認識結果を採用する為の「それでOK」といったコマンド発話は発話することとなる。
 こうすることによって、テキスト編集処理の為のコマンド発話の発話回数を1回減らすことが可能である。
 ここまで、図3に示すフローの編集情報生成・更新部112が実行する処理であるステップS21~S42の一部の処理、すなわち、
 編集コマンドが「編集開始」の場合の処理ステップS21~S22、
 編集コマンドが「置換」の場合の処理ステップS26、
 編集コマンドが「編集終了」の場合の処理ステップS42、
 これらの処理について説明した。
 編集情報生成・更新部112は、図3に示すフローのステップS21~S42の処理を各編集処理コマンドに応じて実行する。
 これらの処理について以下、まとめて説明する。
 なお、具体的な表示データの例については後段で説明する。
 編集コマンドが「単語選択」の場合には、ステップS23を実行する。
 編集情報生成・更新部112は、ステップS23において、ユーザが指定した編集対象単語を選択する。
 編集情報表示部115は、編集中テキストデータとして、選択された編集対象単語を識別可能としたデータを表示する。
 編集コマンドが「削除」の場合には、ステップS24を実行する。
 編集情報生成・更新部112は、ステップS24において、ユーザが指定した削除対象単語を削除する。
 編集情報表示部115は、編集中テキストデータとして、ユーザが指定した削除対象単語を削除したデータを表示する。
 編集コマンドが「連結」の場合には、ステップS25を実行する。
 編集情報生成・更新部112は、ステップS25において、ユーザが指定した編集対象単語と後続単語を連結する。
 編集情報表示部115は、編集中テキストデータとして、ユーザが指定した編集対象単語と後続単語を連結したデータを表示する。
 編集コマンドが「前挿入」の場合には、ステップS27を実行する。
 編集情報生成・更新部112は、ステップS27において、ユーザが指定した編集対象単語の前にユーザの要求するテキストを挿入する。
 編集情報表示部115は、編集中テキストデータとして、ユーザが指定した編集対象単語の前にユーザ要求テキストを挿入したデータを表示する。
 編集コマンドが「後挿入」の場合には、ステップS28を実行する。
 編集情報生成・更新部112は、ステップS28において、ユーザが指定した編集対象単語の後にユーザの要求するテキストを挿入する。
 編集情報表示部115は、編集中テキストデータとして、ユーザが指定した編集対象単語の後にユーザ要求テキストを挿入したデータを表示する。
 編集コマンドが「分割」の場合には、ステップS29、ステップS30を実行する。
 編集情報生成・更新部112は、ステップS29~S30において、ユーザが指定した編集対象単語の分割候補を生成し、表示する。
 編集情報表示部115は、上記編集対象単語の分割候補データとともに、編集中テキストデータとして、ユーザが指定した編集対象単語の分割処理後のデータを表示する。
 編集コマンドが「かな漢字変換」の場合には、ステップS31~S32を実行する。
 編集情報生成・更新部112は、ステップS31~32において、ユーザが指定した編集対象単語の変換候補を生成し、表示する。
 編集情報表示部115は、上記編集対象単語の変換候補データとともに、編集中テキストデータとして、ユーザが指定した編集対象単語の変換処理後のデータを表示する。
 編集コマンドが「記号入力」の場合には、ステップS33~S34を実行する。
 編集情報生成・更新部112は、ステップS33~34において、ユーザ要求に応じた入力可能な文字や記号の候補を生成し、表示する。
 編集情報表示部115は、ユーザ要求に応じた入力可能な文字や記号の候補データとともに、編集中テキストデータとして、ユーザ要求に応じた記号等を含むテキストデータを表示する。
 編集コマンドが「候補選択」の場合には、ステップS35~S36を実行する。
 編集情報生成・更新部112は、ステップS35~36において、ユーザ要求に応じた候補を選択し、表示する。
 編集情報表示部115は、ユーザ要求に応じた候補データとともに、編集中テキストデータとして、ユーザ要求に応じた候補の選択後のデータを表示する。
 編集コマンドが「字種変換」の場合には、ステップS37~S38を実行する。
 編集情報生成・更新部112は、ステップS37~38において、ユーザ要求に応じた編集対象単語を所望の字種に変換し、字種候補群を表示する。
 編集情報表示部115は、ユーザ要求に応じた字種候補群データとともに、編集中テキストデータとして、ユーザ要求に応じた字種変換後のデータを表示する。
 編集コマンドが「キャンセル」の場合には、ステップS39を実行する。
 編集情報生成・更新部112は、ステップS39において、ユーザ要求に応じて、直前に実行した編集処理を取り消す(キャンセル)処理を実行する。
 編集情報表示部115は、直前に実行した編集処理後のデータを、編集処理前のデータに戻して、再度、表示する。
 編集コマンドが「クリア」の場合には、ステップS40を実行する。
 編集情報生成・更新部112は、ステップS40において、ユーザ要求に応じて、全ての編集処理を取り消す(クリア)処理を実行する。
 編集情報表示部115は、編集処理後のデータを、全ての編集処理を行う前のデータに戻して、再度、表示する。
 編集コマンドが「読み情報利用」の場合には、ステップS41を実行する。
 編集情報生成・更新部112は、ステップS41において、ユーザから入力された読み情報を利用して、ユーザの要求する編集対象文字を変更する。
 編集情報表示部115は、ユーザの要求する編集対象文字を変更したデータを表示する。
 このように、編集情報生成・更新部112は、図3に示すフローのステップS21~S42の処理を各編集処理コマンドに応じて実行する。
 また、編集情報表示部115は、編集情報生成・更新部112によって実行された編集情報生成、更新により生成されたデータを表示する。
 なお、具体的な表示データの例については後段で説明する。
  [5.編集情報生成・更新部が実行するその他の編集処理と表示データの具体例について]
 次に、編集情報生成・更新部112が実行するその他の編集処理と表示データの具体例について説明する。
 以下の複数の編集処理の具体例について、順次、説明する。
 (1)読み情報を利用した編集処理の具体例1
 (2)読み情報を利用した編集処理の具体例2
 (3)読み情報を利用した編集処理の具体例3
 (4)読み情報を利用した編集処理の具体例4
 (5)かな漢字変換を伴う編集処理の具体例
 (6)単語の分割、削除、挿入、連結等を使用した編集処理の具体例
  (5-(1)読み情報を利用した編集処理の具体例1)
 まず、読み情報を利用した編集処理の具体例1について説明する。
 以下に説明する処理は、編集コマンドが「読み情報利用」の場合の処理であり、図3に示すフローのステップS41を実行する場合の処理例である。
 前述したように、編集情報生成・更新部112は、ステップS41において、ユーザから入力された読み情報を利用して、ユーザの要求する編集対象文字を変更する。
 編集情報表示部115は、ユーザの要求する編集対象文字を変更したデータを表示する。
 図9を参照して、読み情報を利用した編集処理の具体例1について説明する。
 図9は、情報処理装置100に対する2つのユーザ発話を時系列に示し、各ユーザ発話に対応付けて以下の各データを示した図である。
 (a)ユーザ発話
 (b)音声認識結果(発音情報)
 (c)「修正中のテキスト」表示領域の表示データ
 なお、ユーザが入力したい文章(テキスト)を、「病院の予定」とする。
 ユーザは1発話目に「びょういんのよてい」と発話したが、音声認識処理においてエラーが発生し、音声認識結果が「美容院の予定」(発音情報=「びよういんのよてい」)となったとする。編集情報生成・更新部112には、編集対象データとして、音声認識結果=「美容院の予定」と、発音情報=「びよういんのよてい」が入力される。
 編集情報表示部115の、
 「現在の音声認識結果」表示領域には、(b)音声認識結果に示すように、
 「美容院の予定」
 上記音声認識結果が表示される。
 編集情報生成・更新部112は、この音声認識結果=「美容院の予定」に対して、まず、編集開始処理を実行し、音声認識結果=「美容院の予定」に対する形態素解析を行い、形態素解析結果を編集情報表示部115の生成する表示データ中の「修正中のテキスト」表示領域に表示する。
 この表示データが、図9(c)に示す1発話目対応の「修正中のテキスト」表示領域の表示データである。
 なお、形態素解析処理によって得られる各単語(各形態素)は、一文字単位での編集操作も可能なように、文字単位での番号が付与されている。
 さらに、全ての漢字に対して、漢字一文字単位の読み情報も付与される。付与される読み情報は、ユーザ発話の発音情報とは異なる、その他の読み情報も付与される。
 ユーザは、「美容院」に含まれている「美容」の部分だけを「病」に変更するために、図9の(2発話目)に示すように、「びようをやまいにして」と発話する。
 情報処理装置100は、このユーザ発話を入力すると、このユーザ発話に対する音声認識処理を実行する。音声認識処理が終了すると、
 編集情報表示部115の、
 「現在の音声認識結果」表示領域に、(b)音声認識結果に示すように、
 「美容を病にして」
 上記音声認識結果が表示される。
 なお、このユーザ発話に対応する発音情報は、「びようをやまいにして」である。
 編集情報生成・更新部112には、音声認識結果=「美容を病にして」と、発音情報=「びようをやまいにして」が入力される。
 編集コマンド解析部111は、2発話目の音声認識結果=「美容を病にして」に基づいて、編集コマンド情報を生成して、編集情報生成・更新部112に出力する。
 編集コマンド解析部111が生成する編集コマンド情報は以下のデータによって構成される。
 (1)編集コマンドID=05(置換)、
 (2)編集前文字列情報=「美容(発音情報=びよう)」、
 (3)編集後文字列情報=「病(発音情報=やまい)」、
 編集コマンド解析部111は、これらのデータを有する編集コマンド情報を生成して、編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、上記(1)~(3)の各データを含む編集コマンド情報を入力して、この編集コマンド情報に基づく編集処理を行う。
 この編集処理の結果として、編集後のテキスト=「病院の予定」を生成する。
 この編集後の表示データが、図9(c)に示す2発話目対応の「修正中のテキスト」表示領域の表示データである。
 この後、ユーザは、ユーザ発話によって編集終了を指示すると、図3に示すフローのステップS42以下の処理が行われることになる。
 なお、先に図3を参照して説明したように、ステップS42の編集処理終了が実行される場合は、ステップS61の処理が実行される。
 すなわち、ステップS61において、編集情報生成・更新部112が生成した最終的な編集情報から、編集処理結果を生成する。
 この処理は、編集処理結果生成部118が実行する。
 編集処理結果生成部118が生成した編集処理結果は、情報処理装置100のタスク実行部に出力される。
 タスク実行部は、編集処理結果生成部118が生成した編集処理結果に応じた処理を実行する。
 例えば図9を参照して説明した例では、
 ユーザ発話=「病院の予定」
 であるので、病院の予定をスケジュールに記録する処理等が実行される。
  (5-(2)読み情報を利用した編集処理の具体例2)
 次に、読み情報を利用した編集処理の具体例2について説明する。
 以下に説明する「読み情報を利用した編集処理の具体例2」は、修正したい部分文字を指定するために、2発話目において、1発話目における発話情報とは異なる読み情報が利用されている例である。
 図10を参照して、読み情報を利用した編集処理の具体例2について説明する。
 図10は、図9と同様、情報処理装置100に対する2つのユーザ発話を時系列に示し、各ユーザ発話に対応付けて以下の各データを示した図である。
 (a)ユーザ発話
 (b)音声認識結果(発音情報)
 (c)「修正中のテキスト」表示領域の表示データ
 なお、ユーザが入力したい文章(テキスト)を、「彗星が見えた」とする。
 ユーザは1発話目に「すいせいがみえた」と発話したが、音声認識処理においてエラーが発生し、音声認識結果が「水星が見えた」(発音情報=「すいせいがみえた」)となったとする。編集情報生成・更新部112には、編集対象データとして、音声認識結果=「水星が見えた」と、発音情報=「すいせいがみえた」が入力される。
 編集情報表示部115の、
 「現在の音声認識結果」表示領域には、(b)音声認識結果に示すように、
 「水星が見えた」
 上記音声認識結果が表示される。
 編集情報生成・更新部112は、この音声認識結果=「水星が見えた」に対して、まず、編集開始処理を実行し、音声認識結果=「水星が見えた」に対する形態素解析を行い、形態素解析結果を編集情報表示部115の生成する表示データ中の「修正中のテキスト」表示領域に表示する。
 この表示データが、図10(c)に示す1発話目対応の「修正中のテキスト」表示領域の表示データである。
 なお、形態素解析処理によって得られる各単語(各形態素)は、一文字単位での編集操作も可能なように、文字単位での番号が付与されている。
 さらに、全ての漢字に対して、漢字一文字単位の読み情報も付与される。付与される読み情報は、ユーザ発話の発音情報とは異なる、その他の読み情報も付与される。
 ユーザは、「水星」に含まれている「水」の部分だけを「彗」に変更するために、図10の(2発話目)に示すように、「みずをほうきにして」と発話する。
 情報処理装置100は、このユーザ発話を入力すると、このユーザ発話に対する音声認識処理を実行する。音声認識処理が終了すると、
 編集情報表示部115の、
 「現在の音声認識結果」表示領域に、(b)音声認識結果に示すように、
 「水を彗にして」
 上記音声認識結果が表示される。
 なお、このユーザ発話に対応する発音情報は、「みずをほうきにして」である。
 編集情報生成・更新部112には、音声認識結果=「水を彗にして」と、発音情報=「みずをほうきにして」が入力される。
 編集コマンド解析部111は、2発話目の音声認識結果=「水を彗にして」に基づいて、編集コマンド情報を生成して、編集情報生成・更新部112に出力する。
 編集コマンド解析部111が生成する編集コマンド情報は以下のデータによって構成される。
 (1)編集コマンドID=05(置換)、
 (2)編集前文字列情報=「水(発音情報=みず)」、
 (3)編集後文字列情報=「彗(発音情報=ほうき)」、
 編集コマンド解析部111は、これらのデータを有する編集コマンド情報を生成して、編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、上記(1)~(3)の各データを含む編集コマンド情報を入力して、この編集コマンド情報に基づく編集処理を行う。
 この編集処理の結果として、編集後のテキスト=「彗星が見えた」を生成する。
 この編集後の表示データが、図10(c)に示す2発話目対応の「修正中のテキスト」表示領域の表示データである。
  (5-(3)読み情報を利用した編集処理の具体例3)
 次に、読み情報を利用した編集処理の具体例3について説明する。
 以下に説明する「読み情報を利用した編集処理の具体例3」は、上述した具体例2と同様、修正したい部分文字を指定するために、2発話目において、1発話目における発話情報とは異なる読み情報が利用されている例であり、かつ、修正したい部分文字が人名(固有名称)の一部である例である。
 図11を参照して、読み情報を利用した編集処理の具体例3について説明する。
 図11は、図9と同様、情報処理装置100に対する2つのユーザ発話を時系列に示し、各ユーザ発話に対応付けて以下の各データを示した図である。
 (a)ユーザ発話
 (b)音声認識結果(発音情報)
 (c)「修正中のテキスト」表示領域の表示データ
 なお、ユーザが入力したい文章(テキスト)を、「加東さんに会う」とする。
 ユーザは1発話目に「かとうさんにあう」と発話したが、音声認識処理結果が「加藤さんに会う」(発音情報=「かとうさんにあう」)となったとする。編集情報生成・更新部112には、編集対象データとして、音声認識結果=「加藤さんに会う」と、発音情報=「かとうさんにあう」が入力される。
 編集情報表示部115の、
 「現在の音声認識結果」表示領域には、(b)音声認識結果に示すように、
 「加藤さんに会う」
 上記音声認識結果が表示される。
 編集情報生成・更新部112は、この音声認識結果=「加藤さんに会う」に対して、まず、編集開始処理を実行し、音声認識結果=「加藤さんに会う」に対する形態素解析を行い、形態素解析結果を編集情報表示部115の生成する表示データ中の「修正中のテキスト」表示領域に表示する。
 この表示データが、図11(c)に示す1発話目対応の「修正中のテキスト」表示領域の表示データである。
 なお、形態素解析処理によって得られる各単語(各形態素)は、一文字単位での編集操作も可能なように、文字単位での番号が付与されている。
 さらに、全ての漢字に対して、漢字一文字単位の読み情報も付与される。付与される読み情報は、ユーザ発話の発音情報とは異なる、その他の読み情報も付与される。
 ユーザは、「加藤」に含まれている「藤」の部分だけを「東」に変更するために、図11の(2発話目)に示すように、「ふじをひがしにして」と発話する。
 情報処理装置100は、このユーザ発話を入力すると、このユーザ発話に対する音声認識処理を実行する。音声認識処理が終了すると、
 編集情報表示部115の、
 「現在の音声認識結果」表示領域に、(b)音声認識結果に示すように、
 「藤を東にして」
 上記音声認識結果が表示される。
 なお、このユーザ発話に対応する発音情報は、「ふじをひがしにして」である。
 編集情報生成・更新部112には、音声認識結果=「藤を東にして」と、発音情報=「ふじをひがしにして」が入力される。
 編集コマンド解析部111は、2発話目の音声認識結果=「藤を東にして」に基づいて、編集コマンド情報を生成して、編集情報生成・更新部112に出力する。
 編集コマンド解析部111が生成する編集コマンド情報は以下のデータによって構成される。
 (1)編集コマンドID=05(置換)、
 (2)編集前文字列情報=「藤(発音情報=ふじ)」、
 (3)編集後文字列情報=「東(発音情報=ひがし)」、
 編集コマンド解析部111は、これらのデータを有する編集コマンド情報を生成して、編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、上記(1)~(3)の各データを含む編集コマンド情報を入力して、この編集コマンド情報に基づく編集処理を行う。
 この編集処理の結果として、編集後のテキスト=「加東さんに会う」を生成する。
 この編集後の表示データが、図11(c)に示す2発話目対応の「修正中のテキスト」表示領域の表示データである。
  (5-(4)読み情報を利用した編集処理の具体例4)
 次に、読み情報を利用した編集処理の具体例4について説明する。
 以下に説明する「読み情報を利用した編集処理の具体例4」は、上述した具体例2と同様、修正したい部分文字を指定するために、2発話目において、1発話目における発話情報とは異なる読み情報が利用されている例であり、かつ、修正したい部分文字が地名(固有名称)の一部である例である。
 図12を参照して、読み情報を利用した編集処理の具体例4について説明する。
 図12は、図9と同様、情報処理装置100に対する2つのユーザ発話を時系列に示し、各ユーザ発話に対応付けて以下の各データを示した図である。
 (a)ユーザ発話
 (b)音声認識結果(発音情報)
 (c)「修正中のテキスト」表示領域の表示データ
 なお、ユーザが入力したい文章(テキスト)を、「立山に行きます」とする。
 ユーザは1発話目に「たてやまにいきます」と発話したが、音声認識処理結果が「館山に行きます」(発音情報=「たてやまにいきます」)となったとする。編集情報生成・更新部112には、編集対象データとして、音声認識結果=「館山に行きます」と、発音情報=「たてやまにいきます」が入力される。
 編集情報表示部115の、
 「現在の音声認識結果」表示領域には、(b)音声認識結果に示すように、
 「館山に行きます」
 上記音声認識結果が表示される。
 編集情報生成・更新部112は、この音声認識結果=「館山に行きます」に対して、まず、編集開始処理を実行し、音声認識結果=「館山に行きます」に対する形態素解析を行い、形態素解析結果を編集情報表示部115の生成する表示データ中の「修正中のテキスト」表示領域に表示する。
 この表示データが、図12(c)に示す1発話目対応の「修正中のテキスト」表示領域の表示データである。
 なお、形態素解析処理によって得られる各単語(各形態素)は、一文字単位での編集操作も可能なように、文字単位での番号が付与されている。
 さらに、全ての漢字に対して、漢字一文字単位の読み情報も付与される。付与される読み情報は、ユーザ発話の発音情報とは異なる、その他の読み情報も付与される。
 ユーザは、「館山」に含まれている「館」の部分だけを「立」に変更するために、図12の(2発話目)に示すように、「やかたをたつにして」と発話する。
 情報処理装置100は、このユーザ発話を入力すると、このユーザ発話に対する音声認識処理を実行する。音声認識処理が終了すると、
 編集情報表示部115の、
 「現在の音声認識結果」表示領域に、(b)音声認識結果に示すように、
 「館を立にして」
 上記音声認識結果が表示される。
 なお、このユーザ発話に対応する発音情報は、「やかたをたつにして」である。
 編集情報生成・更新部112には、音声認識結果=「館を立にして」と、発音情報=「やかたをたつにして」が入力される。
 編集コマンド解析部111は、2発話目の音声認識結果=「館を立にして」に基づいて、編集コマンド情報を生成して、編集情報生成・更新部112に出力する。
 編集コマンド解析部111が生成する編集コマンド情報は以下のデータによって構成される。
 (1)編集コマンドID=05(置換)、
 (2)編集前文字列情報=「館(発音情報=やかた)」、
 (3)編集後文字列情報=「立(つ)(発音情報=た(つ))」、
 編集コマンド解析部111は、これらのデータを有する編集コマンド情報を生成して、編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、上記(1)~(3)の各データを含む編集コマンド情報を入力して、この編集コマンド情報に基づく編集処理を行う。
 この編集処理の結果として、編集後のテキスト=「立山に行きます」を生成する。
 この編集後の表示データが、図12(c)に示す2発話目対応の「修正中のテキスト」表示領域の表示データである。
  (5-(5)かな漢字変換を伴う編集処理の具体例)
 次に、かな漢字変換を伴う編集処理の具体例について説明する。
 以下に説明する処理は、編集コマンドが「かな漢字変換」の場合の処理であり、図3に示すフローのステップS31~S32を実行する場合の処理例である。
 前述したように、編集情報生成・更新部112は、編集コマンドが「かな漢字変換」の場合には、ステップS31~S32を実行する。
 編集情報生成・更新部112は、ステップS31~32において、ユーザが指定した編集対象単語の変換候補を生成し、表示する。
 編集情報表示部115は、上記編集対象単語の変換候補データとともに、編集中テキストデータとして、ユーザが指定した編集対象単語の変換処理後のデータを表示する。
 図13以下を参照して、かな漢字変換を伴う編集処理の具体例について説明する。
 なお、ユーザが入力したい文章(テキスト)を、「美智子の予定」とする。
 ユーザは1発話目に「みちこのよてい」と発話する。
 図13は、編集情報表示部115に表示される編集開始時の初期画面である。
 「現在の音声認識結果」の表示領域に、
 最新のユーザ発話対応の音声認識結果と、編集コマンド一覧が表示される。
 初期画面では、最新のユーザ発話対応の音声認識結果は、編集対象テキストであり、
 編集対象テキスト=「みちこの予定」
 この編集対象テキストが表示される。
 また、編集コマンド一覧は、図に示すように、「(1)編集を始める」~「(15)編集終わり」まで、複数種類の編集コマンドをユーザが選択可能なように表示した一覧データである。
 次に、ユーザが
 ユーザ発話=「修正を始める」
 このような発話を行うと、図14に示すように、「現在の音声認識結果」中の
 「最新のユーザ発話音声認識結果」表示領域には、
 ユーザ発話=「修正を始める」
 この編集要求発話テキストが表示される。
 編集処理が開始されると、図14に示すように、「現在の音声認識結果」の表示領域に追加して、
 「修正前のテキスト」
 この表示領域が追加されて表示される。
 「修正前のテキスト」の表示領域には、
 (1)修正前のテキストの表示領域と、
 (2)修正中のテキストの表示領域が設定される。
 修正前のテキストの表示領域には、
 修正前のテキスト=「みちこの予定」
 上記テキストが表示される。
 一方、修正中のテキストの表示領域には、現在の最新の編集処理結果が表示される。
 編集処理の開示時には、まず、編集対象テキストの形態素解析結果と、単語(形態素)単位の読み情報が分割表示される。
 図14に示す例では、修正中のテキストの表示領域には、
 編集対象テキスト=「みちこの予定」の形態素解析結果が表示される。
 これは、形態素解析処理部116において実行された形態素解析結果であり、形態素解析処理の結果として得られた単語(形態素)が読み情報とともに表示される。
 ユーザは、この図14に示す表示データを確認し、新たな修正要求発話を行う。
 例えば、
 ユーザ発話=「101番」
 このような発話を行う。
 これは、図14に示す「修正中のテキスト」表示領域に表示された単語(形態素)の指定番号である。
 図14に示す「修正中のテキスト」表示領域に表示された単語(形態素)に対応付けられた番号「101番」である。
 このように、ユーザは、編集対象とするデータを表示された番号で指定することも可能である。
 編集コマンド解析部111は、この番号に基づいて、編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 この時点で、編集情報表示部115には図15に示す表示データが表示される。
 なお、修正中テキストとしては、編集対象テキスト=「みちこの予定」の形態素解析結果である単語(形態素)を示すとともに、ユーザから修正対象(編集対象)として指定された単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 図15に示す表示データを確認したユーザは、次に、以下のユーザ発話を行う。
 ユーザ発話=「単語を変換」
 これは、修正対象(編集対象)として指定した単語(形態素)=みちこ(101)の変換を要求する発話である。
 編集コマンド解析部111は、このユーザ発話=「単語を変換」に基づいて、編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 この例の場合、編集コマンド解析部111が生成する編集コマンド情報に含まれる編集コマンドIDは09(かな漢字変換)となる。
 編集情報生成・更新部112は、編集コマンド解析部111が生成した編集コマンド情報に基づく編集処理を開始する。すなわち、
 ユーザが修正対象(編集対象)として指定した単語(形態素)=みちこ(101)について、かな漢字変換処理を開始する。
 まず、編集情報生成・更新部112は、ユーザから修正対象(編集対象)として指定された単語(形態素)=みちこ(101)の修正候補データを検索して、表示する。
 この表示データの例が、図16に示す表示データ中に示す「選択候補」表示領域のデータである。
 「選択候補」表示領域に、単語(形態素)=「みちこ」の漢字変換候補の一覧が表示される。
 なお、漢字変換候補の一覧に表示された変換候補各々には、識別子(識別番号)が対応付けて表示される。
 ユーザは、この表示データを確認して、単語(形態素)=「みちこ」に対して、ユーザが希望する漢字候補を選択して発話する。本例では、
 ユーザ発話=「205番」
 このような発話を行う。
 これは、図16に示す「選択候補」表示領域に表示された漢字「美智子」に対応付けられた識別子(識別番号)である。
 このように、ユーザは、「選択候補」表示領域に表示されたデータを番号で指定することが可能である。
 編集コマンド解析部111は、この番号を含む編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力する番号を含む編集コマンド情報を入力して、入力した編集コマンド情報に基づいて、編集処理を開始する。
 具体的には、ユーザから修正対象(編集対象)として指定された単語(形態素)=みちこ(101)を、ユーザが指定した漢字候補である漢字「美智子」(205)に置き換える処理を行う。
 この編集処理時点で、編集情報表示部115には図17に示す表示データが表示される。
 なお、修正中テキストの表示領域には、ユーザから修正対象(編集対象)として指定された単語(形態素)=みちこ(101)を、ユーザが指定した漢字候補である漢字「美智子」(205)に置き換えた後の形態素解析結果が表示される。
 なお、修正対象(編集対象)とした単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 ユーザは、図17に示す表示データを確認し、テキストがユーザの希望するテキストに修正されたことを確認する。この確認に応じて、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「修正終わり」
 編集コマンド解析部111は、このユーザ発話に基づく編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力した編集コマンドID=15(編集終了)に応じた編集処理、すなわち、図3に示すフローのステップS42以下の処理を実行する。
 ステップS42と、ステップS51~S53の処理を実行中に、編集情報表示部115に表示されるデータは、図18に示す表示データとなる。
 すなわち、
 ユーザ発話=「修正終わり」
 このユーザ発話に応じて、図18に示すように、
 ユーザ発話テキスト=「修正終わり」
 複数の編集コマンド、
 修正後テキスト
 これらのデータから構成される表示データを表示する。
 なお、図18に示す例においては、修正後テキストとして、
 編集処理後のテキスト=「美智子の予定」
 が表示される。
 なお、ステップS42の編集処理終了が実行される場合は、ステップS61の処理が実行される。
 すなわち、ステップS61において、編集情報生成・更新部112が生成した最終的な編集情報から、編集処理結果を生成する。
 この処理は、編集処理結果生成部118が実行する。
 編集処理結果生成部118が生成した編集処理結果は、情報処理装置100のタスク実行部に出力される。
 タスク実行部は、編集処理結果生成部118が生成した編集処理結果に応じた処理を実行する。
 例えば図18を参照して説明した例では、
 ユーザ発話=「美智子の予定」
 であるので、美智子の予定をスケジュールに記録する処理等が実行される。
  (5-(6)単語の分割、削除、挿入、連結等を使用した編集処理の具体例)
 次に、単語の分割、削除、挿入、連結等を使用した編集処理の具体例について説明する。
 図19以下を参照して単語の分割、削除、挿入、連結等を使用した編集処理の具体例について説明する。
 なお、以下において説明する編集処理の具体例は、ユーザが当初「明日からの予定」と入力しようとしたが、途中で入力したい文章(テキスト)を「明日出張の予定」に変更した場合の処理例である。
 ユーザは1発話目に「あしたからのよてい」と発話する。
 図19は、編集情報表示部115に表示される編集開始時の初期画面である。
 「現在の音声認識結果」の表示領域に、
 最新のユーザ発話対応の音声認識結果と、編集コマンド一覧が表示される。
 初期画面では、最新のユーザ発話対応の音声認識結果は、編集対象テキストであり、
 編集対象テキスト=「明日からの予定」
 この編集対象テキストが表示される。
 また、編集コマンド一覧は、図に示すように、「(1)編集を始める」~「(15)編集終わり」まで、複数種類の編集コマンドをユーザが選択可能なように表示した一覧データである。
 次に、ユーザが
 ユーザ発話=「修正を始める」
 このような発話を行うと、図20に示すように、「現在の音声認識結果」中の
 「最新のユーザ発話音声認識結果」表示領域には、
 ユーザ発話=「修正を始める」
 この編集要求発話テキストが表示される。
 編集処理が開始されると、図20に示すように、「現在の音声認識結果」の表示領域に追加して、
 「修正前のテキスト」
 この表示領域が追加されて表示される。
 「修正前のテキスト」の表示領域には、
 (1)修正前のテキストの表示領域と、
 (2)修正中のテキストの表示領域が設定される。
 修正前のテキストの表示領域には、
 修正前のテキスト=「明日からの予定」
 上記テキストが表示される。
 一方、修正中のテキストの表示領域には、現在の最新の編集処理結果が表示される。
 編集処理の開始時には、まず、編集対象テキストの形態素解析結果と、単語(形態素)単位の読み情報が分割表示される。
 図20に示す例では、修正中のテキストの表示領域には、
 編集対象テキスト=「明日からの予定」の形態素解析結果が表示される。
 これは、形態素解析処理部116において実行された形態素解析結果であり、形態素解析処理の結果として得られた単語(形態素)が読み情報とともに表示される。
 ユーザは、この図20に示す表示データを確認し、新たな修正要求発話を行う。
 例えば、
 ユーザ発話=「102番」
 このような発話を行う。
 これは、図19に示す「修正中のテキスト」表示領域に表示された単語(形態素)の指定番号である。
 図19に示す「修正中のテキスト」表示領域に表示された単語(形態素)に対応付けられた番号「102番」である。
 このように、ユーザは、編集対象とするデータを表示された番号で指定することも可能である。
 編集コマンド解析部111は、この番号に基づいて、編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 この時点で、編集情報表示部115には図20に示す表示データが表示される。
 なお、修正中テキストとしては、編集対象テキスト=「明日からの予定」の形態素解析結果である単語(形態素)を示すとともに、ユーザから修正対象(編集対象)として指定された単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 図21に示す表示データを確認したユーザは、次に、以下のユーザ発話を行う。
 ユーザ発話=「単語を分ける」
 これは、修正対象(編集対象)として指定した単語(形態素)=からの(102)の分割を要求する発話である。
 編集コマンド解析部111は、このユーザ発話=「単語を分ける」に基づいて、編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 この例の場合、編集コマンド解析部111が生成する編集コマンド情報に含まれる編集コマンドIDは08(分割)となる。
 編集情報生成・更新部112は、編集コマンド解析部111が生成した編集コマンド情報に基づく編集処理を開始する。すなわち、
 ユーザが修正対象(編集対象)として指定された単語(形態素)=からの(102)について、分割する処理を開始する。
 まず、編集情報生成・更新部112は、ユーザから修正対象(編集対象)として指定された単語(形態素)=からの(102)の分割候補データを検索して、表示する。
 この表示データの例が、図22に示す表示データ中に示す「選択候補」表示領域のデータである。
 「選択候補」表示領域に、単語(形態素)=「からの」の分割候補の一覧が表示される。
 なお、分割候補の一覧に表示された候補各々には、識別子(識別番号)が対応付けて表示される。
 図22に示す例は、
 201番=か/らの
 202番=から/の
 これら2つの分割候補の一覧を表示した例である。
 ユーザは、この表示データを確認して、単語(形態素)=「からの」に対して、ユーザが希望する分割候補を選択して発話する。本例では、
 ユーザ発話=「202番」
 このような発話を行う。
 これは、図22に示す「選択候補」表示領域に表示された1つの分割候補である[202番=から/の]を指定する発話である。
 このように、ユーザは、「選択候補」表示領域に表示されたデータを番号で指定することが可能である。
 編集コマンド解析部111は、この番号を含む編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力する番号を含む編集コマンド情報を入力して、入力した編集コマンド情報に基づいて、編集処理を開始する。
 具体的には、ユーザから修正対象(編集対象)として指定された単語(形態素)=からの(102)を、ユーザが指定した分割候補である[202番=から/の]に分割する処理を行う。
 この編集処理時点で、編集情報表示部115には図23に示す表示データが表示される。
 なお、修正中テキストの表示領域には、ユーザから修正対象(編集対象)として指定された単語(形態素)=からの(102)を、ユーザが指定した分割候補である[202番=から/の]に分割した後の形態素解析結果が表示される。
 なお、単語の分割後には、分割した単語の前方の1つの単語(形態素)が識別可能なように、表示枠が強調されて表示され、この1つの単語(形態素)が編集対象として選択された状態に設定される。
 さらに、ユーザは、「明日からの予定」を「明日出張の予定」に変更したいと考えたとする。この場合、ユーザは以下の発話を行う。
 ユーザ発話=「単語を消す」
 これは、「修正中のテキスト」表示領域に表示され、かつ、現在、修正対象として選択された1つの単語(形態素)の消去依頼と解釈される。
 図23に示す表示データにおいて、現在、修正対象として選択された1つの単語(形態素)は、
 単語(形態素)=から(102)
 である。
 編集コマンド解析部111は、このユーザ発話=「単語を消す」に基づいて、編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 この例の場合、編集コマンド解析部111が生成する編集コマンド情報に含まれる編集コマンドIDは03(削除)となる。
 編集情報生成・更新部112は、編集コマンド解析部111が生成した編集コマンド情報に基づく編集処理を開始する。すなわち、
 修正対象(編集対象)として設定された単語(形態素)=から(102)について、削除する処理を実行する。
 この編集処理時に編集情報表示部115には図24に示す表示データが表示される。
 修正中テキストの表示領域には、ユーザから削除指定された単語(形態素)=「から」が削除された後の形態素解析結果が表示される。
 なお、この時点で、修正中テキストの表示領域には、削除された単語(から)に後節する単語(形態素)である「の」(103)の表示枠が強調されて表示され、この1つの単語(形態素)=「の」(103)が編集対象として選択された状態に設定される。
 ユーザは、さらに、1つの単語(形態素)=「の」(103)が編集対象として選択された状態において、以下のユーザ発話を行う。
 ユーザ発話=「出張」
 このユーザ発話入力時の編集情報表示部115には図25に示す表示データが表示される。
 「現在の音声認識結果」表示領域には、ユーザ発話の音声認識結果=「出張」が表示される。
 また、修正中テキストの表示領域には、削除された単語(から)に後節する単語(形態素)である「の」(103)の表示枠が強調されて表示される。
 この1つの単語(形態素)=「の」(103)が編集対象として選択された状態にある。
 次に、ユーザは、以下の発話を行う。
 ユーザ発話=「単語を前に入れる」
 編集コマンド解析部111は、このユーザ発話=「単語を前に入れる」に基づいて、編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 この例の場合、編集コマンド解析部111が生成する編集コマンド情報に含まれる編集コマンドIDは06(前挿入)となる。
 編集情報生成・更新部112は、編集コマンド解析部111が生成した編集コマンド情報に基づく編集処理を開始する。すなわち、
 修正対象(編集対象)として設定されている単語(形態素)=の(103)の前に、
 ユーザ発話=「単語を前に入れる」の前に入力したユーザ発話=「出張」を挿入する処理を実行する。
 この処理では挿入される文字列として、直前のユーザ発話である「出張」が利用される。
 あるいは、ユーザ発話、例えば、
 ユーザ発話=「出張を前に入れる」
 このようなユーザ発話を用いて編集を行ってもよい。
 このような発話を行うことで、テキスト編集処理のためのコマンド発話の発話回数を1回減らすことも可能である。
 この編集処理実行時の編集情報表示部115には図26に示す表示データが表示される。
 「現在の音声認識結果」表示領域には、ユーザ発話の音声認識結果=「単語を前に入れる」が表示される。
 また、修正中テキストの表示領域には、修正対象(編集対象)として設定されている単語(形態素)=の(103)の前に「出張」を挿入した後のテキスト、すなわち、
 テキスト=明日出張の予定
 このテキストの形態素解析結果が表示される。
 なお、図26に示す表示データの「修正中のテキスト」表示領域の表示データは、単語(形態素)=出張(102)の表示枠が強調されて表示された表示データとなる。
 この1つの単語(形態素)=出張(102)が編集対象として選択された状態にある。
 ここで、ユーザは、さらに、以下の発話を行う。
 ユーザ発話=「単語を繋げる」
 編集コマンド解析部111は、このユーザ発話=「単語を繋げる」に基づいて、編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 この例の場合、編集コマンド解析部111が生成する編集コマンド情報に含まれる編集コマンドIDは04(連結)となる。
 編集情報生成・更新部112は、編集コマンド解析部111が生成した編集コマンド情報に基づく編集処理を開始する。すなわち、
 修正対象(編集対象)として設定されている単語(形態素)=出張(102)と、その直後の単語(形態素)=の(103)を連結する編集処理を行う。
 この編集処理実行時の編集情報表示部115には図27に示す表示データが表示される。
 「現在の音声認識結果」表示領域には、ユーザ発話の音声認識結果=「単語を繋げる」が表示される。
 また、修正中テキストの表示領域には、修正対象(編集対象)として設定されていた単語(形態素)=出張(102)と、その直後の単語(形態素)=の(103)を連結した後のテキスト、すなわち、
 テキスト=明日出張の予定
 このテキストの形態素解析結果が表示される。
 なお、図27に示す表示データの「修正中のテキスト」表示領域の表示データは、単語(形態素)=出張の(102)の表示枠が強調されて表示された表示データとなる。
 ユーザは、図27に示す表示データを確認し、テキストがユーザの希望するテキストに修正されたことを確認する。この確認に応じて、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「修正終わり」
 編集コマンド解析部111は、このユーザ発話に基づく編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力した編集コマンドID=15(編集終了)に応じた編集処理、すなわち、図3に示すフローのステップS42以下の処理を実行する。
 ステップS42と、ステップS51~S53の処理を実行中に、編集情報表示部115に表示されるデータは、図28に示す表示データとなる。
 すなわち、
 ユーザ発話=「修正終わり」
 このユーザ発話に応じて、図28に示すように、
 ユーザ発話テキスト=「修正終わり」
 複数の編集コマンド、
 修正後テキスト
 これらのデータから構成される表示データを表示する。
 なお、図28に示す例においては、修正後テキストとして、
 編集処理後のテキスト=「明日出張の予定」
 が表示される。
 なお、ステップS42の編集処理終了が実行される場合は、ステップS61の処理が実行される。
 すなわち、ステップS61において、編集情報生成・更新部112が生成した最終的な編集情報から、編集処理結果を生成する。
 この処理は、編集処理結果生成部118が実行する。
 編集処理結果生成部118が生成した編集処理結果は、情報処理装置100のタスク実行部に出力される。
 タスク実行部は、編集処理結果生成部118が生成した編集処理結果に応じた処理を実行する。
 例えば図28を参照して説明した例では、
 ユーザ発話=「明日出張の予定」
 であるので、「明日出張の予定」をスケジュールに記録する処理等が実行される。
  [6.知識情報を利用した実施例について]
 次に、知識情報を利用した実施例について説明する。
 知識情報とは、例えば、著名な人名や地名、さらに一般常識的な事柄等の一般的な知識である。知識情報は知識情報データベースに記録されており、この知識情報データベースに記録された情報を参照して、ユーザ発話の修正処理を行う。
 図29は、本実施例の情報処理装置100cの構成例を示す図である。
 図29に示す情報処理装置100cは、先に図1を参照して説明した情報処理装置100の構成に、知識情報処理部119と知識情報データベース(DB)120を追加した構成である。
 知識情報データベース(DB)120には、例えば、著名な人名や地名、さらに一般常識的な事柄等の一般的な知識情報が格納されている。
 知識情報処理部119は、知識情報データベース(DB)120に格納された一般的な知識情報を利用して、ユーザ発話の音声認識結果に含まれる読み情報に対応した適切な表記を特定する。
 編集情報生成・更新部112は、知識情報処理部119を利用して、ユーザ発話の音声認識結果の修正、更新処理を行う。
 なお、知識情報データベース(DB)120は外部サーバに構成してもよい。同様に、知識情報処理部119も、外部サーバに構成してもよい。
 以下、図30以下を参照して、知識情報を利用したユーザ発話の修正処理の具体例について説明する。
  (6-(1)知識情報を利用したユーザ発話の修正処理の具体例1)
 まず、図30、図31を参照して、知識情報を利用したユーザ発話の修正処理の具体例1について説明する。
 図30は、先に、図13~図18を参照して説明した(5-(5)かな漢字変換を伴う編集処理の具体例)の修正過程で表示される途中画面であり、先に説明した図16と同様の画面である。
 ただし、本処理例では、ユーザが入力したい文章(テキスト)が、「みち子の予定」であるとする。
 先に、図13~図18を参照して説明した(5-(5)かな漢字変換を伴う編集処理の具体例)の修正過程で、編集情報表示部115に図15に示す表示データが表示された後、図15に示す表示データを確認したユーザが、
 ユーザ発話=「単語を変換」
 このユーザ発話を行った場合に、編集情報表示部115に表示されるデータが図30に示す表示データである。
 なお、先に説明した図15に示す表示データでは、
 修正中テキストとして、編集対象テキスト=「みちこの予定」の形態素解析結果である単語(形態素)を示すとともに、ユーザから修正対象(編集対象)として指定された単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 図15に示す表示データを確認したユーザは、次に、以下のユーザ発話を行う。
 ユーザ発話=「単語を変換」
 これは、修正対象(編集対象)として指定した単語(形態素)=みちこ(101)の変換を要求する発話である。
 編集コマンド解析部111は、このユーザ発話=「単語を変換」に基づいて、編集コマンド情報を生成して編集情報生成・更新部112に出力する。
 この例の場合、編集コマンド解析部111が生成する編集コマンド情報に含まれる編集コマンドIDは09(かな漢字変換)となる。
 編集情報生成・更新部112は、編集コマンド解析部111が生成した編集コマンド情報に基づく編集処理を開始する。すなわち、
 ユーザが修正対象(編集対象)として指定された単語(形態素)=みちこ(101)について、かな漢字変換処理を開始する。
 まず、編集情報生成・更新部112は、ユーザから修正対象(編集対象)として指定された単語(形態素)=みちこ(101)の修正候補データを検索して、表示する。
 この表示データの例が、図30に示す表示データ中に示す「選択候補」表示領域のデータである。
 「選択候補」表示領域に、単語(形態素)=「みちこ」の漢字変換候補の一覧が表示される。
 なお、漢字変換候補の一覧に表示された変換候補各々には、識別子(識別番号)が対応付けて表示される。
 しかし、ユーザは、「選択候補」表示領域に表示された変換候補を確認することなく、以下のユーザ発話を行う。
 ユーザ発話=「みちこのこを鳴子温泉の子にして」
 このような発話を行う。
 編集コマンド解析部111は、編集コマンド表現=「〇〇を□□にして」に基づいて、図4に示す編集コマンドテーブルから、編集コマンドID=16(読み情報を利用)を選択し、ユーザの編集要求発話が置換要求であると判定する。
 編集コマンド解析部111は、ユーザ発話テキストの解析結果として取得した編集コマンドID=16(読み情報を利用)を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力した編集コマンドID=16(読み情報を利用)に応じた編集処理、すなわち、図3に示すフローのステップS41の処理を実行する。
 具体的には、ユーザから修正対象(編集対象)として指定された単語(形態素)=みちこ(101)を、
 ユーザ発話=「みちこのこを鳴子温泉の子にして」
 この発話に従って、修正する処理を行う。
 この修正処理に際して、編集情報生成・更新部112は、鳴子温泉の子の文字を、知識情報処理部119を介して取得する。
 知識情報処理部119は、知識情報データベース(DB)120に格納された知識情報を利用して、鳴子温泉の子の文字を取得し、取得した文字情報を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、知識情報処理部119から取得した「鳴子温泉の子」の文字を利用して、ユーザ発話の音声認識結果の修正、更新処理を行う。
 具体的には、
 「みちこ」を「みち子」
 に置き換える処理を行う。
 この編集処理時点で、編集情報表示部115には図31に示す表示データが表示される。
 なお、修正中テキストの表示領域には、ユーザから修正対象(編集対象)として指定された単語(形態素)=みちこの「こ」を、ユーザが指定した「鳴子温泉の子」に置き換えた後の形態素解析結果が表示される。
 なお、修正対象(編集対象)とした単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 ユーザは、図31に示す表示データを確認し、テキストがユーザの希望するテキストに修正されたことを確認する。この確認に応じて、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「修正終わり」
  (6-(2)知識情報を利用したユーザ発話の修正処理の具体例2)
 次に、図32、図33を参照して、知識情報を利用したユーザ発話の修正処理の具体例2について説明する。
 図32、図33を参照して説明する処理例は、ユーザが入力したい文章(テキスト)が、「沢伊さんに連絡」であり、情報処理装置100の当初の音声認識結果に基づくテキスト表示が「沢井さんに連絡」であった場合の処理例である。
 情報処理装置100の当初の音声認識結果に基づくテキスト表示を行った表示データの例が、図32に示す表示データである。
 現在の音声認識結果として、
 「沢井さんに連絡」
 上記テキストが表示されている。
 ユーザは、このテキストを確認して、以下のユーザ発話を行う。
 ユーザ発話=「沢井のいを伊東温泉の伊にして」
 このような発話を行う。
 編集コマンド解析部111は、編集コマンド表現=「〇〇を□□にして」に基づいて、図4に示す編集コマンドテーブルから、編集コマンドID=16(読み情報を利用)を選択し、ユーザの編集要求発話が置換要求であると判定する。
 編集コマンド解析部111は、ユーザ発話テキストの解析結果として取得した編集コマンドID=16(読み情報を利用)を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力した編集コマンドID=16(読み情報を利用)に応じた編集処理、すなわち、図3に示すフローのステップS41の処理を実行する。
 具体的には、ユーザから修正対象(編集対象)として指定された単語(形態素)=沢井を、
 ユーザ発話=「沢井のいを伊東温泉の伊にして」
 この発話に従って、修正する処理を行う。
 この修正処理に際して、編集情報生成・更新部112は、伊東温泉の「伊」の文字を、知識情報処理部119を介して取得する。
 知識情報処理部119は、知識情報データベース(DB)120に格納された知識情報を利用して、伊藤温泉の「伊」の文字を取得し、取得した文字情報を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、知識情報処理部119から取得した伊東温泉の「伊」の文字を利用して、ユーザ発話の音声認識結果の修正、更新処理を行う。
 具体的には、
 「沢井」を「沢伊」
 に置き換える処理を行う。
 この編集処理時点で、編集情報表示部115には図33に示す表示データが表示される。
 なお、修正中テキストの表示領域には、ユーザから修正対象(編集対象)として指定された単語(形態素)=沢井の「井」を、ユーザが指定した伊東温泉の「伊」に置き換えた後の形態素解析結果が表示される。
 なお、修正対象(編集対象)とした単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 ユーザは、図33に示す表示データを確認し、テキストがユーザの希望するテキストに修正されたことを確認する。この確認に応じて、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「修正終わり」
  (6-(3)知識情報を利用したユーザ発話の修正処理の具体例3)
 次に、図34、図35を参照して、知識情報を利用したユーザ発話の修正処理の具体例3について説明する。
 図34、図35を参照して説明する処理例は、ユーザが入力したい文章(テキスト)が、「三咲町に行く」であり、情報処理装置100の当初の音声認識結果に基づくテキスト表示が「三崎町に行く」であった場合の処理例である。
 情報処理装置100の当初の音声認識結果に基づくテキスト表示を行った表示データの例が、図34に示す表示データである。
 現在の音声認識結果として、
 「三崎町に行く」
 上記テキストが表示されている。
 ユーザは、このテキストを確認して、以下のユーザ発話を行う。
 ユーザ発話=「三崎を船橋の三咲にして」
 このような発話を行う。
 編集コマンド解析部111は、編集コマンド表現=「〇〇を□□にして」に基づいて、図4に示す編集コマンドテーブルから、編集コマンドID=16(読み情報を利用)を選択し、ユーザの編集要求発話が置換要求であると判定する。
 編集コマンド解析部111は、ユーザ発話テキストの解析結果として取得した編集コマンドID=16(読み情報を利用)を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力した編集コマンドID=16(読み情報を利用)に応じた編集処理、すなわち、図3に示すフローのステップS41の処理を実行する。
 具体的には、ユーザから修正対象(編集対象)として指定された単語(形態素)=三崎を、
 ユーザ発話=「三崎を船橋の三咲にして」
 この発話に従って、修正する処理を行う。
 この修正処理に際して、編集情報生成・更新部112は、船橋の「三咲」の文字を、知識情報処理部119を介して取得する。
 知識情報処理部119は、知識情報データベース(DB)120に格納された知識情報を利用して、船橋の地名である「三咲」の文字を取得し、取得した文字情報を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、知識情報処理部119から取得した船橋の地名である「三咲」の文字を利用して、ユーザ発話の音声認識結果の修正、更新処理を行う。
 具体的には、
 「三崎」を「三咲」
 に置き換える処理を行う。
 この編集処理時点で、編集情報表示部115には図35に示す表示データが表示される。
 なお、修正中テキストの表示領域には、ユーザから修正対象(編集対象)として指定された単語(形態素)=「三崎」を、ユーザが指定した船橋の地名である「三咲」に置き換えた後の形態素解析結果が表示される。
 なお、修正対象(編集対象)とした単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 ユーザは、図35に示す表示データを確認し、テキストがユーザの希望するテキストに修正されたことを確認する。この確認に応じて、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「修正終わり」
  (6-(4)知識情報を利用したユーザ発話の修正処理の具体例4)
 次に、図36、図37を参照して、知識情報を利用したユーザ発話の修正処理の具体例4について説明する。
 図36、図37を参照して説明する処理例は、ユーザが入力したい文章(テキスト)が、「環境化学科を訪問」であり、情報処理装置100の当初の音声認識結果に基づくテキスト表示が「環境科学科を訪問」であった場合の処理例である。
 情報処理装置100の当初の音声認識結果に基づくテキスト表示を行った表示データの例が、図36に示す表示データである。
 現在の音声認識結果として、
 「環境科学科を訪問」
 上記テキストが表示されている。
 ユーザは、このテキストを確認して、以下のユーザ発話を行う。
 ユーザ発話=「サイエンスの科学をケミカルの化学にして」
 このような発話を行う。
 編集コマンド解析部111は、編集コマンド表現=「〇〇を□□にして」に基づいて、図4に示す編集コマンドテーブルから、編集コマンドID=16(読み情報を利用)を選択し、ユーザの編集要求発話が置換要求であると判定する。
 編集コマンド解析部111は、ユーザ発話テキストの解析結果として取得した編集コマンドID=16(読み情報を利用)を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、編集コマンド解析部111から入力した編集コマンドID=16(読み情報を利用)に応じた編集処理、すなわち、図3に示すフローのステップS41の処理を実行する。
 具体的には、ユーザから修正対象(編集対象)として指定された単語(形態素)=科学を、
 ユーザ発話=「サイエンスの科学をケミカルの化学にして」
 この発話に従って、修正する処理を行う。
 この修正処理に際して、編集情報生成・更新部112は、ケミカルの「化学」の文字を、知識情報処理部119を介して取得する。
 知識情報処理部119は、知識情報データベース(DB)120に格納された知識情報を利用して、ケミカルの「化学」の文字を取得し、取得した文字情報を編集情報生成・更新部112に出力する。
 編集情報生成・更新部112は、知識情報処理部119から取得したケミカルの「化学」の文字を利用して、ユーザ発話の音声認識結果の修正、更新処理を行う。
 具体的には、
 「科学」を「化学」
 に置き換える処理を行う。
 この編集処理時点で、編集情報表示部115には図37に示す表示データが表示される。
 なお、修正中テキストの表示領域には、ユーザから修正対象(編集対象)として指定された単語(形態素)=「科学」を、ユーザが指定したケミカルの「化学」に置き換えた後の形態素解析結果が表示される。
 なお、修正対象(編集対象)とした単語(形態素)が識別可能なように、表示枠が強調されて表示される。
 ユーザは、図37に示す表示データを確認し、テキストがユーザの希望するテキストに修正されたことを確認する。この確認に応じて、ユーザは、以下のユーザ発話を行う。
 ユーザ発話=「修正終わり」
  [7.情報処理装置のハードウェア構成例について]
 次に、図38を参照して、本開示の情報処理装置のハードウェア構成例について説明する。
 図38を参照して説明するハードウェアは、先に図1他を参照して説明した情報処理装置100のハードウェア構成の一例である。
 CPU(Central Processing Unit)301は、ROM(Read Only Memory)302、または記憶部308に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)303には、CPU301が実行するプログラムやデータなどが記憶される。これらのCPU301、ROM302、およびRAM303は、バス304により相互に接続されている。
 CPU301はバス304を介して入出力インタフェース305に接続され、入出力インタフェース305には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部306、ディスプレイ、スピーカーなどよりなる出力部307が接続されている。CPU301は、入力部306から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部307に出力する。
 入出力インタフェース305に接続されている記憶部308は、例えばハードディスク等からなり、CPU301が実行するプログラムや各種のデータを記憶する。通信部309は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース305に接続されているドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア311を駆動し、データの記録あるいは読み取りを実行する。
  [8.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、
 前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、
 前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、
 前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示部を有する情報処理装置。
 (2) 前記編集コマンド解析部は、
 前記最新テキストが、前記事前生成テキストに対する編集処理要求テキストであると判定した場合、編集内容を示すデータを含む編集コマンド情報を生成し、
 前記編集情報生成・更新部は、
 前記編集コマンド解析部が生成した編集コマンド情報に従って、前記事前生成テキストに対する編集処理を実行する(1)に記載の情報処理装置。
 (3) 前記編集コマンド解析部は、
 編集内容を示す編集コマンドIDを含む編集コマンド情報を生成して、前記編集情報生成・更新部に出力し、
 前記編集情報生成・更新部は、
 入力編集コマンド情報に含まれる編集コマンドIDに従って、前記事前生成テキストに対する編集処理を実行する(2)に記載の情報処理装置。
 (4) 前記編集コマンド解析部は、
 前記編集コマンドIDの他、編集前文字列情報、または編集後文字列情報の少なくともいずれかの情報を含む編集コマンド情報を生成して、前記編集情報生成・更新部に出力し、
 前記編集情報生成・更新部は、
 入力編集コマンド情報に含まれる編集コマンドIDと、編集前文字列情報、または編集後文字列情報の少なくともいずれかの情報を利用して、前記事前生成テキストに対する編集処理を実行する(3)に記載の情報処理装置。
 (5) 前記編集情報生成・更新部は、
 事前生成テキストに対する形態素解析処理を実行し、
 前記編集情報表示部は、
 前記編集情報生成・更新部が生成した形態素解析処理結果を表示する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記編集情報生成・更新部は、
 事前生成テキストの形態素単位の読み情報を生成し、
 前記編集情報表示部は、
 前記編集情報生成・更新部が生成した形態素単位の読み情報を表示する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記編集情報生成・更新部は、
 事前生成テキストの形態素に含まれる漢字1文字単位の読み情報を生成し、
 前記編集情報表示部は、
 前記編集情報生成・更新部が生成した漢字1文字単位の読み情報を表示する(1)~(6)いずれかに記載の情報処理装置。
 (8) 前記編集情報表示部は、
 編集コマンド一覧データを表示する(1)~(7)いずれかに記載の情報処理装置。
 (9) 前記編集情報表示部は、
 編集コマンド各々について、編集コマンドIDを対応付けた編集コマンド一覧データを表示する(8)に記載の情報処理装置。
 (10) 前記編集コマンド解析部は、
 前記最新テキストが、前記編集コマンド一覧データに表示された編集コマンドIDを含むか否かを解析し、
 前記最新テキストが編集コマンドIDを含む場合、
 前記最新テキストから取得した編集コマンドIDを含む編集コマンド情報を生成して、前記編集情報生成・更新部に出力し、
 前記編集情報生成・更新部は、
 入力編集コマンド情報に含まれる編集コマンドIDに従って、前記事前生成テキストに対する編集態様を決定する(8)または(9)に記載の情報処理装置。
 (11) 前記編集情報生成・更新部は、
 事前生成テキストに対する形態素解析処理を実行するとともに、形態素単位の読み情報を生成し、
 前記編集情報表示部は、
 読み情報を付与した形態素各々について、形態素IDを対応付けた形態素単位データを表示する(1)~(10)いずれかに記載の情報処理装置。
 (12) 前記編集情報生成・更新部は、
 前記形態素単位の複数の読み情報を生成し、
 前記編集情報表示部は、
 複数の読み情報を付与した形態素各々について、形態素IDを対応付けた形態素単位データを表示する(11)に記載の情報処理装置。
 (13) 前記編集情報生成・更新部は、
 前記最新テキストに含まれる形態素IDに従って、前記事前生成テキストの編集対象となる形態素を選択する(11)または(12)に記載の情報処理装置。
 (14) 前記編集情報生成・更新部は、
 知識情報データベースに格納された知識情報を利用して、前記事前生成テキストの編集処理を実行する(1)~(13)いずれかに記載の情報処理装置。
 (15) 情報処理装置と、サーバを有する情報処理システムであり、
 前記情報処理装置は、
 ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、
 前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、
 前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、
 前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示部を有し、
 前記サーバは、
 テキストに対する形態素解析処理を実行する形態素解析処理部を有し、
 前記情報処理装置から受信した前記事前生成テキストに対する形態素解析を実行して、前記情報処理装置に送信し、
 前記情報処理装置は、
 前記編集情報表示部において、前記サーバが生成した形態素解析処理結果を表示する情報処理システム。
 (16) 情報処理装置において実行する情報処理方法であり、
 音声認識部が、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識ステップと、
 編集コマンド解析部が、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析ステップと、
 編集情報生成・更新部が、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新ステップと、
 編集情報表示部が、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示ステップを実行する情報処理方法。
 (17) 情報処理装置と、サーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記情報処理装置において、
 音声認識部が、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識処理と、
 編集コマンド解析部が、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析処理と、
 編集情報生成・更新部が、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新処理と、
 編集情報表示部が、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示処理を実行し、
 前記サーバの形態素解析処理部が、
 前記情報処理装置から受信した前記事前生成テキストに対する形態素解析を実行して、前記情報処理装置に送信し、
 前記情報処理装置の前記編集情報表示部が、前記サーバが生成した形態素解析処理結果を表示する情報処理方法。
 (18) 情報処理装置において情報処理を実行させるプログラムであり、
 音声認識部に、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成させる処理と、
 編集コマンド解析部に、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析処理と、
 編集情報生成・更新部に、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新処理と、
 編集情報表示部に、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示処理を実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、ユーザ発話の音声認識結果であるテキストを、ユーザ発話を用いて的確に修正する装置、方法が実現される。
 具体的には、例えば、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、編集情報生成・更新部が生成した事前生成テキストに対する編集情報を表示する編集情報表示部を有する。
 本構成により、ユーザ発話の音声認識結果であるテキストを、ユーザ発話を用いて的確に修正する装置、方法が実現される。
 100 情報処理装置
 101 音声入力部
 102 音声認識部
 110 テキスト編集処理部
 111 編集コマンド解析部
 112 編集情報生成・更新部
 113 編集履歴情報管理部
 114 編集履歴情報記憶部
 115 編集情報表示部
 116 形態素解析処理部
 117 かな漢字変換処理部
 118 編集処理結果生成部
 119 知識情報処理部
 120 知識情報データベース
 130 サーバ
 131 かな漢字変換処理部
 132 編集処理結果生成部
 301 CPU
 302 ROM
 303 RAM
 304 バス
 305 入出力インタフェース
 306 入力部
 307 出力部
 308 記憶部
 309 通信部
 310 ドライブ
 311 リムーバブルメディア

Claims (18)

  1.  ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、
     前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、
     前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、
     前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示部を有する情報処理装置。
  2.  前記編集コマンド解析部は、
     前記最新テキストが、前記事前生成テキストに対する編集処理要求テキストであると判定した場合、編集内容を示すデータを含む編集コマンド情報を生成し、
     前記編集情報生成・更新部は、
     前記編集コマンド解析部が生成した編集コマンド情報に従って、前記事前生成テキストに対する編集処理を実行する請求項1に記載の情報処理装置。
  3.  前記編集コマンド解析部は、
     編集内容を示す編集コマンドIDを含む編集コマンド情報を生成して、前記編集情報生成・更新部に出力し、
     前記編集情報生成・更新部は、
     入力編集コマンド情報に含まれる編集コマンドIDに従って、前記事前生成テキストに対する編集処理を実行する請求項2に記載の情報処理装置。
  4.  前記編集コマンド解析部は、
     前記編集コマンドIDの他、編集前文字列情報、または編集後文字列情報の少なくともいずれかの情報を含む編集コマンド情報を生成して、前記編集情報生成・更新部に出力し、
     前記編集情報生成・更新部は、
     入力編集コマンド情報に含まれる編集コマンドIDと、編集前文字列情報、または編集後文字列情報の少なくともいずれかの情報を利用して、前記事前生成テキストに対する編集処理を実行する請求項3に記載の情報処理装置。
  5.  前記編集情報生成・更新部は、
     事前生成テキストに対する形態素解析処理を実行し、
     前記編集情報表示部は、
     前記編集情報生成・更新部が生成した形態素解析処理結果を表示する請求項1に記載の情報処理装置。
  6.  前記編集情報生成・更新部は、
     事前生成テキストの形態素単位の読み情報を生成し、
     前記編集情報表示部は、
     前記編集情報生成・更新部が生成した形態素単位の読み情報を表示する請求項1に記載の情報処理装置。
  7.  前記編集情報生成・更新部は、
     事前生成テキストの形態素に含まれる漢字1文字単位の読み情報を生成し、
     前記編集情報表示部は、
     前記編集情報生成・更新部が生成した漢字1文字単位の読み情報を表示する請求項1に記載の情報処理装置。
  8.  前記編集情報表示部は、
     編集コマンド一覧データを表示する請求項1に記載の情報処理装置。
  9.  前記編集情報表示部は、
     編集コマンド各々について、編集コマンドIDを対応付けた編集コマンド一覧データを表示する請求項8に記載の情報処理装置。
  10.  前記編集コマンド解析部は、
     前記最新テキストが、前記編集コマンド一覧データに表示された編集コマンドIDを含むか否かを解析し、
     前記最新テキストが編集コマンドIDを含む場合、
     前記最新テキストから取得した編集コマンドIDを含む編集コマンド情報を生成して、前記編集情報生成・更新部に出力し、
     前記編集情報生成・更新部は、
     入力編集コマンド情報に含まれる編集コマンドIDに従って、前記事前生成テキストに対する編集態様を決定する請求項8に記載の情報処理装置。
  11.  前記編集情報生成・更新部は、
     事前生成テキストに対する形態素解析処理を実行するとともに、形態素単位の読み情報を生成し、
     前記編集情報表示部は、
     読み情報を付与した形態素各々について、形態素IDを対応付けた形態素単位データを表示する請求項1に記載の情報処理装置。
  12.  前記編集情報生成・更新部は、
     前記形態素単位の複数の読み情報を生成し、
     前記編集情報表示部は、
     複数の読み情報を付与した形態素各々について、形態素IDを対応付けた形態素単位データを表示する請求項11に記載の情報処理装置。
  13.  前記編集情報生成・更新部は、
     前記最新テキストに含まれる形態素IDに従って、前記事前生成テキストの編集対象となる形態素を選択する請求項11に記載の情報処理装置。
  14.  前記編集情報生成・更新部は、
     知識情報データベースに格納された知識情報を利用して、前記事前生成テキストの編集処理を実行する請求項1に記載の情報処理装置。
  15.  情報処理装置と、サーバを有する情報処理システムであり、
     前記情報処理装置は、
     ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識部と、
     前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析部と、
     前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新部と、
     前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示部を有し、
     前記サーバは、
     テキストに対する形態素解析処理を実行する形態素解析処理部を有し、
     前記情報処理装置から受信した前記事前生成テキストに対する形態素解析を実行して、前記情報処理装置に送信し、
     前記情報処理装置は、
     前記編集情報表示部において、前記サーバが生成した形態素解析処理結果を表示する情報処理システム。
  16.  情報処理装置において実行する情報処理方法であり、
     音声認識部が、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識ステップと、
     編集コマンド解析部が、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析ステップと、
     編集情報生成・更新部が、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新ステップと、
     編集情報表示部が、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示ステップを実行する情報処理方法。
  17.  情報処理装置と、サーバを有する情報処理システムにおいて実行する情報処理方法であり、
     前記情報処理装置において、
     音声認識部が、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成する音声認識処理と、
     編集コマンド解析部が、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析処理と、
     編集情報生成・更新部が、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新処理と、
     編集情報表示部が、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示処理を実行し、
     前記サーバの形態素解析処理部が、
     前記情報処理装置から受信した前記事前生成テキストに対する形態素解析を実行して、前記情報処理装置に送信し、
     前記情報処理装置の前記編集情報表示部が、前記サーバが生成した形態素解析処理結果を表示する情報処理方法。
  18.  情報処理装置において情報処理を実行させるプログラムであり、
     音声認識部に、ユーザ発話の音声認識処理を実行して音声認識結果であるテキストを生成させる処理と、
     編集コマンド解析部に、前記音声認識部の生成した最新テキストを解析し、最新テキストが事前に入力したユーザ発話の音声認識結果として生成された事前生成テキストに対する編集処理要求テキストであるか否かを判定する編集コマンド解析処理と、
     編集情報生成・更新部に、前記編集コマンド解析部が、前記最新テキストが編集処理要求テキストであると判定した場合、前記最新テキストに従って、前記事前生成テキストに対する編集処理を実行する編集情報生成・更新処理と、
     編集情報表示部に、前記編集情報生成・更新部が生成した前記事前生成テキストに対する編集情報を表示する編集情報表示処理を実行させるプログラム。
PCT/JP2021/010885 2020-04-09 2021-03-17 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム WO2021205832A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020070258 2020-04-09
JP2020-070258 2020-04-09

Publications (1)

Publication Number Publication Date
WO2021205832A1 true WO2021205832A1 (ja) 2021-10-14

Family

ID=78023298

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/010885 WO2021205832A1 (ja) 2020-04-09 2021-03-17 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2021205832A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5361203A (en) * 1976-11-15 1978-06-01 Toshiba Corp Language information input devicw
JP2015203835A (ja) * 2014-04-16 2015-11-16 株式会社日立システムズ テキスト編集装置、テキスト編集方法、及びプログラム
JP2019148681A (ja) * 2018-02-27 2019-09-05 富士通株式会社 テキスト修正装置、テキスト修正方法およびテキスト修正プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5361203A (en) * 1976-11-15 1978-06-01 Toshiba Corp Language information input devicw
JP2015203835A (ja) * 2014-04-16 2015-11-16 株式会社日立システムズ テキスト編集装置、テキスト編集方法、及びプログラム
JP2019148681A (ja) * 2018-02-27 2019-09-05 富士通株式会社 テキスト修正装置、テキスト修正方法およびテキスト修正プログラム

Similar Documents

Publication Publication Date Title
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
JP4994834B2 (ja) 音声認識システム
CN102084417B (zh) 现场维护语音到语音翻译的系统和方法
US6334102B1 (en) Method of adding vocabulary to a speech recognition system
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
US20070296615A1 (en) Method, System and Computer Program for Facilitating Auto-Completion of Words Input to a Computer
JP2002014954A (ja) 中国語入力変換処理装置、中国語入力変換処理方法及び記録媒体
US7742924B2 (en) System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context
JP2009098490A (ja) 音声認識結果編集装置、音声認識装置およびコンピュータプログラム
US8903724B2 (en) Speech recognition device and method outputting or rejecting derived words
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
JP6336749B2 (ja) 音声合成システム及び音声合成方法
JP2006521578A5 (ja)
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
WO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5068225B2 (ja) 音声ファイルの検索システム、方法及びプログラム
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2008052676A (ja) コンピュータ実行可能なプログラム、方法、および処理装置
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
WO2021205832A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2020197592A (ja) テキスト補正装置およびテキスト補正方法
JP2003162293A (ja) 音声認識装置及び方法
WO2016151692A1 (ja) タグ付与支援装置、方法およびプログラム
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21785169

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21785169

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP