WO2023127292A1

WO2023127292A1 - 情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体

Info

Publication number: WO2023127292A1
Application number: PCT/JP2022/040671
Authority: WO
Inventors: 憲一原田
Original assignee: 富士フイルム株式会社
Priority date: 2021-12-27
Filing date: 2022-10-31
Publication date: 2023-07-06

Abstract

内視鏡検査時に自然な発話でストレスなく内視鏡検査に関連する記録情報を取得することができる情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体を提供する。タブレット端末は、プロセッサ（１１０）と、内視鏡検査に関連して記録する記録情報が登録された第１辞書（１２２）とを備える。第１辞書（１２２）は、記録情報とは異なる識別文字と記録情報とが関連付けられて構成され、プロセッサ（１１０）は、内視鏡検査時にユーザが発話する音声であって、識別文字を示す音声を認識し、認識した識別文字に基づいて第１辞書（１２２）から識別文字に対応する記録情報を取得する。

Description

情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体

　本発明は情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体に係り、特に内視鏡検査に関連して記録する記録情報を音声操作により入力する技術に関する。

　内視鏡検査時に医師は、両手で内視鏡スコープを操作し、両足でフットスイッチを使用している状態にある。医師が追加で機器を操作したいと考えた場合、音声操作は有効な手段の一つとなると考えられる。

　従来から、医療画像を用いた検査や診断支援を行う技術分野では、ユーザが発した音声を認識し、認識結果に基づく処理を行うことが知られている。例えば、特許文献１には、内視鏡を音声入力で操作することが記載されている。また、特許文献２には、レポート作成用の音声入力を行うことが記載されている。

特開平８－０５２１０５号公報特開２００４－１０２５０９号公報

　しかしながら、内視鏡検査時に患者が麻酔され、あるいは鎮痛剤が投与されないケースもあるため、患者に聞かれることが憚られる単語（特に重病の診断名）は、音声操作の単語として採用しにくい。また、診断レポートに記録する診断名、処置名、処置具名等の記録情報は正式名称で記録されるが、長い名称もあるため、正式名称による記録情報の音声入力は、使い勝手が悪いという問題がある。

　本発明はこのような事情に鑑みてなされたもので、内視鏡検査時に自然な発話でストレスなく内視鏡検査に関連する記録情報を取得することができる情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体を提供することを目的とする。

　上記目的を達成するために第１態様に係る発明は、プロセッサと、内視鏡検査に関連して記録する記録情報が登録された第１辞書と、を備えた情報処理装置であって、第１辞書は、記録情報とは異なる識別文字と記録情報とが直接的又は間接的に関連付けられて構成され、プロセッサは、内視鏡検査時にユーザが発話する音声であって、識別文字を示す音声を認識し、認識した識別文字に基づいて第１辞書から識別文字に対応する記録情報を取得する情報処理装置である。

　本発明の第１態様によれば、ユーザ（医師）は内視鏡検査時に内視鏡検査に関連する記録情報を音声操作で取得する場合、その記録情報を発話するのでなく、その記録情報に関連付けられた識別文字を発話する。プロセッサは、ユーザが発話した識別文字を示す音声を認識し、音声認識した識別文字に基づいて第１辞書から識別文字に対応する記録情報を取得する。これにより、ユーザは、患者に聞かれることが憚られる単語（例えば、重病の診断名等）を発話する必要がなく、また、普段使い慣れている略称や単語等を発話しても正式名称である記録情報を取得することができる。

　本発明の第２態様に係る情報処理装置において、プロセッサは、内視鏡検査時に記録情報と関連する内視鏡画像を取得し、取得した内視鏡画像と記録情報とを関連付けてメモリに保存することが好ましい。

　本発明の第３態様に係る情報処理装置において、第１辞書は、記録情報として病変を示す診断名を有する診断名辞書、記録情報として内視鏡による処置を示す処置名を有する処置名辞書、及び記録情報として内視鏡の処置具を示す処置具名を有する処置具名辞書のうちの少なくとも１つを含むことが好ましい。

　本発明の第４態様に係る情報処理装置において、識別文字は、数詞、アルファベットの１文字、及び記録情報を示す略称又は通称のうちの少なくとも１つを含むことが好ましい。

　本発明の第５態様に係る情報処理装置において、第１辞書は、記録情報を示す識別情報と記録情報とが関連付けて登録された第２辞書と、識別文字と識別情報とが関連付けて登録された第３辞書と、から構成され、プロセッサは、認識した識別文字に基づいて第３辞書から識別文字に関連付けられた識別情報を取得し、取得した識別情報に基づいて第２辞書から識別情報に関連付けられた記録情報を取得することが好ましい。第３辞書は、ユーザ毎にユーザ専用の辞書（複数の辞書）とすることができ、この場合、第２辞書は、ユーザ毎に共通に使用することができる。

　本発明の第６態様に係る情報処理装置において、ＧＵＩ(Graphical User Interface)を更に備え、プロセッサは、ＧＵＩからの操作入力により第３辞書を新規に作成し、又は第３辞書の登録内容を編集することが好ましい。

　本発明の第７態様に係る情報処理装置において、ＧＵＩ(Graphical User Interface)を更に備え、プロセッサは、ＧＵＩからの操作入力により第１辞書の有効又は無効を設定することが好ましい。

　本発明の第８態様に係る情報処理装置において、プロセッサは、内視鏡検査時に内視鏡画像を取得し、内視鏡画像から特定の種類の被写体を検出すると、第１辞書を有効にすることが好ましい。例えば、特定の種類の被写体（例えば、腫瘍性の病変）の検出が行われる場合、第１辞書を有効にすることで、患者に聞かれることが憚られる単語（腫瘍性に関連する診断名）の発話により記録情報の取得ができないようにすることができる。

　本発明の第９態様に係る情報処理装置において、プロセッサは、内視鏡検査時に内視鏡画像を取得し、内視鏡画像から病変の種類を検出し、検出した病変の種類に応じて第１辞書の有効又は無効を設定することが好ましい。これにより、より細やかな第１辞書の有効又は無効の設定が可能である。

　本発明の第１０態様に係る情報処理装置において、音声認識エンジンを提供するサーバと通信する通信部を更に備え、プロセッサは、サーバから通信部を介して音声認識エンジンをダウンロードし、又は更新し、ダウンロード又は更新した音声認識エンジンによりユーザが発話する音声を認識することが好ましい。これにより、情報処理装置側で予め音声認識エンジンを準備する必要がなく、また、最新の音声認識エンジンを取得することができる。また、ユーザの属性に適した音声認識エンジンを取得することができる。

　本発明の第１１態様に係る情報処理装置において、第１辞書は、病変を示す複数の診断名を有する診断名辞書、及び内視鏡の処置具を示す複数の処置具名を有する処置具名辞書を含み、プロセッサは、内視鏡検査時に内視鏡画像を取得し、内視鏡画像に基づいて病変及び内視鏡による処置に使用する処置具のうちの少なくとも１つを認識し、病変又は処置具の認識結果に基づいて診断名辞書又は処置具名辞書を選択し、認識した識別文字に基づいて選択した辞書から識別文字に対応する記録情報を取得することが好ましい。使用する辞書が自動的に選択されることで、音声認識する識別文字の候補を絞り込むことができ、音声認識の誤認識を抑制することができる。

　本発明の第１２態様に係る情報処理装置において、プロセッサは、内視鏡検査時にウエイクワードを示す音声を認識すると、その後に発話される識別文字を示す音声を認識することが好ましい。これにより、ユーザの意図しない音声が認識されないようにすることができる。

　本発明の第１３態様に係る情報処理装置において、第１辞書は、病変を示す複数の診断名を有する診断名辞書、内視鏡による処置を示す複数の処置名を有する処置名辞書、及び内視鏡の処置具を示す複数の処置具名を有する処置具名辞書のうちの少なくとも１つを含み、ウエイクワードは、診断名辞書、処置名辞書、及び処置具名辞書のうちの少なくとも１つの辞書を特定するワードであり、プロセッサは、認識した識別文字に基づいてウエイクワードにより特定された辞書から識別文字に対応する記録情報を取得することが好ましい。これにより、ユーザの意図しない音声が認識されないようにすることができ、同時に辞書が特定されるため、音声認識する識別文字の候補を絞り込むことができ、音声認識の誤認識を抑制することができる。

　本発明の第１４態様に係る情報処理装置において、内視鏡検査時に内視鏡画像が表示される第１表示装置とは独立した第２表示装置を更に備え、プロセッサは、内視鏡検査時に第２表示装置に第１辞書を表示することが好ましい。これにより、ユーザは、第１辞書を見ながら所望の記録情報に関連付けられた識別文字を確認し、確認した識別文字を示す音声を発話することができる。

　本発明の第１５態様に係る情報処理装置において、プロセッサは、ユーザが発話する音声の認識結果及び取得した記録情報のうちの少なくとも一方を第２表示装置に表示することが好ましい。

　本発明の第１６態様に係る情報処理装置において、内視鏡検査時にユーザが発話する音声の、患者による聞き取りを阻害するマスキング音を発生するマスキング音発生装置を更に備えることが好ましい。

　第１７態様に係る発明は、本発明の第１態様から第１５態様のうちのいずれかの情報処理装置を備えたタブレット端末である。

　第１８態様に係る発明は、プロセッサと、内視鏡検査に関連する記録情報が登録された第１辞書と、を備えた情報処理装置の作動方法であって、第１辞書は、記録情報とは異なる識別文字と記録情報とが直接的又は間接的に関連付けられて構成され、プロセッサが、内視鏡検査時にユーザが発話する音声であって、識別文字を示す音声を認識するステップと、プロセッサが、認識した識別文字に基づいて第１辞書から識別文字に対応する記録情報を取得するステップと、を含む情報処理装置の作動方法である。

　第１９態様に係る発明は、第１８態様に係る情報処理装置の作動方法をコンピュータに実行させる情報処理プログラムである。

　第２０態様に係る発明は、非一時的かつコンピュータ読取可能な記録媒体であって、本発明の第１９態様に係る情報処理プログラムが記録された記録媒体である。

　本発明によれば、内視鏡検査時に自然な発話でストレスなく内視鏡検査に関連する記録情報を取得することができる。

図１は、本発明に係る情報処理装置として機能するタブレット端末及び内視鏡システムを含むシステム構成図である。図２は、図１に示した内視鏡システムを構成するプロセッサ装置のハードウェア構成の実施形態を示すブロック図である。図３は、図１に示した内視鏡システムを構成する第１表示装置の表示画面の一例を示す図である。図４は、図１に示したタブレット端末のハードウェア構成の実施形態を示すブロック図である。図５は、タブレット端末の第１実施形態を示す機能ブロック図である。図６は、タブレット端末のメモリに保存された第１辞書である診断名辞書の一例を示す図である。図７は、タブレット端末のメモリに保存された第１辞書である処置名辞書の一例を示す図である。図８は、タブレット端末のメモリに保存された第１辞書である処置具名辞書の一例を示す図である。図９は、タブレット端末の第２実施形態を示す機能ブロック図である。図１０は、タブレット端末のメモリに保存された第２辞書である診断名辞書の一例を示す図である。図１１は、タブレット端末のメモリに保存された第２辞書である処置名辞書の一例を示す図である。図１２は、タブレット端末のメモリに保存された第２辞書である処置具名辞書の一例を示す図である。図１３は、タブレット端末のメモリに保存された第３辞書の一例を示す図である。図１４は、タブレット端末を使用して第３辞書を作成する手順を示すフローチャートである。図１５は、タブレット端末における第１辞書の有効／無効の設定及び記録情報の取得の流れを示すフローチャートである。図１６は、タブレット端末における第１辞書の有効／無効を自動設定する一例を示すフローチャートである。図１７は、タブレット端末における第１辞書の有効／無効を自動設定する他の例を示すフローチャートである。図１８は、タブレット端末が音声認識エンジンを取得する手順を示すフローチャートである。図１９は、ウエイクワードの音声認識を活用する一例を示すフローチャートである。図２０は、ウエイクワードの音声認識を活用する他の例を示すフローチャートである。図２１は、診断名辞書及び処置具名辞書の自動選択の一例を示すフローチャートである。図２２は、内視鏡検査時におけるタブレット端末の表示画面の一例を示す図である。図２３は、図２２の表示画面に表示される第１辞書の一例を示す図である。図２４は、マスキング音発生装置が配置された診察室の一例を示す図である。

　以下、添付図面に従って本発明に係る情報処理装置、タブレット端末、情報処理装置の作動方法、情報処理プログラム及び記録媒体の好ましい実施形態について説明する。

　［システム構成］
　図１は、本発明に係る情報処理装置として機能するタブレット端末及び内視鏡システムを含むシステム構成図である。

　図１において、内視鏡システム１は、内視鏡スコープ１０と、プロセッサ装置２０と、光源装置３０と、第１表示装置４０とから構成されており、従来のシステムを適用することができる。

　情報処理装置として機能するタブレット端末１００は、内視鏡システム１が搭載された台車に取り付けられている。タブレット端末１００は、クラウドサーバ（サーバ）２とネットワーク３を介して接続され、後述するようにクラウドサーバ２から音声認識エンジンをダウンロードすることができるようになっている。

　［プロセッサ装置］
　図２は、図１に示した内視鏡システムを構成するプロセッサ装置のハードウェア構成の実施形態を示すブロック図である。

　図２に示すプロセッサ装置２０は、内視鏡画像取得部２１、プロセッサ２２、メモリ２３、表示制御部、入出力インターフェース２５、及び操作部３６から構成されている。

　内視鏡画像取得部２１は、内視鏡スコープ１０が接続されるコネクタを含み、内視鏡スコープ１０の先端部に配設された撮像素子により撮像された内視鏡画像（動画）を内視鏡スコープ１０からコネクタを介して取得する。また、プロセッサ装置２０は、内視鏡スコープ１０の手元操作部での操作によるリモート信号を内視鏡スコープ１０が接続されるコネクタを介して取得する。リモート信号には、静止画撮影を指示するレリーズ信号、観察モードを切り替える観察モード切替え信号等を含む。

　プロセッサ２２は、ＣＰＵ（Central Processing Unit）等から構成され、プロセッサ装置２０の各部を統括制御するとともに、内視鏡スコープ１０から取得した内視鏡画像の画像処理、内視鏡画像から病変をリアルタイムで認識するＡＩ（Artificial Intelligence）処理、及び内視鏡スコープ１０を介して取得するレリーズ信号による静止画の取得及び保存処理等を行う処理部として機能する。

　メモリ２３は、フラッシュメモリ、ＲＯＭ（Read-only Memory）、及びＲＡＭ(Random Access Memory)、ハードディスク装置等を含む。フラッシュメモリ、ＲＯＭ又はハードディスク装置は、プロセッサ２２が実行する各種のプログラム等を記憶する不揮発性メモリである。ＲＡＭは、プロセッサ２２による処理の作業領域として機能し、また、フラッシュメモリ等に格納されたプログラム等を一時的に記憶する。尚、プロセッサ２２が、メモリ２３の一部（ＲＡＭ）を内蔵していてもよい。また、内視鏡検査中に撮影された静止画は、メモリ２３に保存することができる。

　表示制御部２４は、プロセッサ２２から加えられる画像処理後のリアルタイムの内視鏡画像（動画）、静止画、及びプロセッサ２２により処理された各種の情報（例えば、病変領域の情報、観察部位の情報、音声認識の状態）に基づいて表示用画像を生成し、表示用画像を第１表示装置４０に出力する。

　図３は、図１に示した内視鏡システムを構成する第１表示装置の表示画面の一例を示す図である。

　図３に示すように第１表示装置４０の画面４０Ａは、主表示領域Ａ１と副表示領域Ａ２とを有し、主表示領域Ａ１には、内視鏡画像Ｉ（動画）が表示される。また、プロセッサ２２により病変が認識された場合、画像診断をサポートするために、病変の領域を囲むバウンディングボックス等が表示することができる。

　画面４０Ａの副表示領域Ａ２には、内視鏡検査に関する各種の情報が表示される。図３に示す例では、患者に関する情報Ｉｐ、及び内視鏡検査中に撮影された内視鏡画像の静止画Ｉｓが表示されている。静止画Ｉｓは、例えば、画面４０Ａの上から下に向かって撮影された順に表示される。

　また、プロセッサ２２は、第１表示装置４０の画面４０Ａに、後述する音声認識の状態を示すアイコン４２、撮影中の観察部位を示す模式図（シェーマ図）４４、及び観察部位名（本例では上行結腸）４６を表示させることができる。

　図２に戻って、入出力インターフェース２５は、外部機器と有線及び／又は無線接続する接続部、及びネットワークと接続可能な通信部等を含む。本例では、プロセッサ装置２０は、入出力インターフェース２５を介してタブレット端末１００と無線接続され、必要な情報の送受信を行う。

　また、入出力インターフェース２５には、図示しないフットスイッチが接続される。フットスイッチは、術者の足元に置かれて、足で操作される操作デバイスであり、ペダルを踏み込むことで操作信号をプロセッサ装置２０に送信する。プロセッサ装置２０は、入出力インターフェース２５を介して図示しないストレージと接続される。図示しないストレージは、プロセッサ装置２０にＬＡＮ（Local Area Network）等で接続した外部記憶装置であり、例えば、ＰＡＣＳ（Picture Archiving and Communication System）等の内視鏡画像をファイリングするシステムのファイルサーバや、ＮＡＳ（Network Attached Storage）等である。

　操作部２６は、電源スイッチ、ホワイトバランスや光量、ズーミングなどを手動で調整するスイッチや、種々のモードを設定するためのスイッチ等を含む。

　光源装置３０は、内視鏡スコープ１０がコネクタを介して接続されることで、内視鏡スコープ１０のライトガイドへ照明光を供給する。照明光は、白色光（白色の波長帯域の光又は複数の波長帯域の光）、或いは１又は複数の特定の波長帯域の光、或いはこれらの組み合わせなど観察目的に応じた各種波長帯域の光が選択される。尚、特定の波長帯域は、白色の波長帯域よりも狭い帯域である。各種波長帯域の光の選択は、観察モードの選択スイッチにより行うことができる。

　［タブレット端末のハードウェア構成］
　図４は、図１に示したタブレット端末のハードウェア構成の実施形態を示すブロック図である。

　図４に示すタブレット端末１００は、プロセッサ１１０、メモリ１２０、第２表示装置１３０、及び入出力インターフェース１４０から構成されている。

　プロセッサ１１０は、ＣＰＵ等から構成され、タブレット端末１００の各部を統括制御するとともに、内視鏡検査時にユーザが発話する音声を認識する処理部、及び音声認識結果に基づいて内視鏡検査に関連して記録する記録情報を取得する処理部として機能する。

　メモリ１２０は、フラッシュメモリ、ＲＯＭ（Read-only Memory）、及びＲＡＭ(Random Access Memory)、ハードディスク装置等を含む。フラッシュメモリ、ＲＯＭ又はハードディスク装置は、プロセッサ１１０が実行する本発明に係る情報処理プログラム、音声認識エンジン等の各種のプログラム、及び本発明に係る第１辞書等を記憶する不揮発性メモリである。ＲＡＭは、プロセッサ１１０による処理の作業領域として機能し、また、フラッシュメモリ等に格納されたプログラム等を一時的に記憶する。尚、プロセッサ１１０が、メモリ１２０の一部（ＲＡＭ）を内蔵していてもよい。また、内視鏡検査中に撮影された内視鏡画像（静止画）及びプロセッサ１１０が取得した記録情報は、メモリ２３に保存することができる。

　第２表示装置１３０は、タッチパネル付きのディスプレイであり、プロセッサ１１０により認識された音声認識結果、プロセッサ１１０が取得した記録情報、及び第１辞書等を表示し、画面のタッチにより各種の指示及び情報を受け付けるＧＵＩ(Graphical User Interface)として機能する。

　入出力インターフェース１４０は、外部機器と有線及び／又は無線接続する接続部、及びネットワークと接続可能な通信部等を含む。本例では、タブレット端末１００は、入出力インターフェース１４０を介してプロセッサ装置２０と無線接続され、必要な情報の送受信を行う。

　また、入出力インターフェース１４０には、マイクロフォン１５０が接続され、入出力インターフェース１４０は、マイクロフォン１５０から音声データを受信する。尚、本例のマイクロフォン１５０は、ユーザ（医師）の頭部にセットされるワイヤレスヘッドセットであり、内視鏡検査時にユーザが発話する音声を示す音声データを送信する。

　タブレット端末１００は、図１に示したようにクラウドサーバ２とネットワーク３を介して接続されるが、入出力インターフェース１４０の通信部がネットワーク３と接続可能になっている。

　尚、タブレット端末１００は、ユーザのみがタブレット端末１００の画面が見えるように台車等に取り付けられることが好ましい。一方、内視鏡システム１の第１表示装置４０は、ユーザ及び患者の両者が見えるように設置されていることがある。

　［タブレット端末の第１実施形態］
　内視鏡検査を行う場合、ユーザ（医師）は、内視鏡スコープ１０を両手で操作し、被写体の管腔臓器内の所望の部位にスコープ先端を移動させ、スコープ先端部に配設された撮像素子により内視鏡画像（動画）の撮影を行う。内視鏡スコープ１０により撮影された内視鏡画像は、プロセッサ装置２０により画像処理が施された後、図３に示したように第１表示装置４０の画面４０Ａの主表示領域Ａ１に表示される。

　ユーザは、内視鏡検査時に第１表示装置４０の画面４０Ａに表示される内視鏡画像（動画）を確認しながら、スコープ先端の進退操作等を行い、管腔臓器内の観察部位に病変等を発見した場合には、静止画撮影を指示するレリーズボタンを操作して観察部位の静止画撮影を実行し、また、診断、及び内視鏡による処置等を行う。尚、プロセッサ装置２０は、前述したように内視鏡画像から病変をリアルタイムで認識するＡＩ処理等を行い、診断支援を行うことができる。

　タブレット端末１００は、上記のように内視鏡検査中に、内視鏡検査に関連して記録する記録情報をユーザが発話する音声に基づいて取得し、静止画に関連付けて記録するための機器である。

　図５は、タブレット端末の第１実施形態を示す機能ブロック図であり、特にプロセッサ１１０に関して示している。

　図５に示すようにプロセッサ１１０は、メモリ１２０に記憶された情報処理プログラム及び音声認識エンジンを実行することで、音声認識エンジン１１２による音声認識部、記録情報取得部１１４、及び記録処理部１１６として機能する。

　ユーザは、内視鏡検査時に病変を発見すると、病変が写っている内視鏡画像（静止画）を撮影し、また、内視鏡画像と関連付けて記録する記録情報（例えば、診断名、内視鏡による処置名、及び処置に使用した処置具名等）とは異なる識別文字を示す音声を発話する。

　ヘッドセットのマイクロフォン１５０は、ユーザが発話した音声を電気信号（音声データ）に変換する。音声データ１０２は、入出力インターフェース１４０により受信され、プロセッサ１１０に入力される。

　プロセッサ１１０は、音声認識エンジン１１２により記録情報に対応する識別文字を示す音声データを、識別文字（テキストデータ）に変換する。即ち、プロセッサ１１０は、ユーザが発話する、識別文字を示す音声を認識する。

　記録情報取得部１１４は、音声認識エンジン１１２が音声認識した識別文字に基づいて、メモリ１２０内の第１辞書１２２から識別文字に対応する記録情報を取得する（読み出す）。

　＜第１辞書＞
　図６は、タブレット端末のメモリに保存された第１辞書である診断名辞書の一例を示す図である。

　図６に示す第１辞書１２２は、記録情報として病変を示す診断名を有する診断名辞書であり、発話される識別文字と各診断名とが関連付けられている。

　ここで、発話される識別文字は、１番、２番、３番、…等の数詞、診断名である胃潰瘍の略語ＭＧ（Magen Geschwuer）であり、記録情報である診断名とは異なる。

　このように第１辞書１２２である診断名辞書では、患者に聞かれることが憚られる診断名とは異なる識別文字が、各診断名に関連付けられている。

　本例の場合、ユーザは、診断名を音声操作で記録する場合、診断名を発話する代わりに、診断名に関連付けられた番号を発話し、あるいは診断名の略語を発話する。

　尚、診断名とは異なる識別文字は、番号等の数詞や診断名の略語に限らず、例えば、アルファベットの１文字、アルファベットの１文字と数詞との組合せ等が考えられ、要は、患者が識別文字から診断名を想起できない識別文字であればよい。また、診断名の略語を識別文字として採用する場合には、重病ではない診断名の略語であることが好ましい。

　図７は、タブレット端末のメモリに保存された第１辞書である処置名辞書の一例を示す図である。

　図７に示す第１辞書１２２は、記録情報として内視鏡による処置を示す処置名を有する処置名辞書であり、発話される識別文字と各処置名とが関連付けられている。

　ここで、発話される識別文字は、内視鏡的粘膜切除術（ＥＭＲ：Endoscopic mucosal resection）、内視鏡的粘膜下層剥離術（ＥＳＤ：Endoscopic Submucosal Dissection），コールド・フォーセプス・ポリペクトミー（ＣＦＰ：Cold Forceps Polypectomy）、コールド・スネア・ポリペクトミー（ＣＳＰ：Cold Snare Polypectomy）等の内視鏡による処置名の略称である。

　内視鏡による処置名の正式名称は長い名称があり、その一方、これらの処置名の略称は、ユーザが使い慣れているため、発話される識別文字としては処置名の略称が好適である。

　図８は、タブレット端末のメモリに保存された第１辞書である処置具名辞書の一例を示す図である。

　図８に示す第１辞書１２２は、記録情報として内視鏡による処置に使用する処置具を有する処置具名辞書であり、発話される識別文字と各処置具名とが関連付けられている。

　ここで、発話される識別文字は、高周波スネア、高周波ナイフ、止血クリップ、ジャンボ・コールド・ポリペクトミー鉗子等の処置具名の略称や通称である。処置具名の正式名称は長い名称があり、その一方、これらの処置具名の略称や通称は、ユーザが使い慣れているため、発話される識別文字としては処置名の略称が好適である。

　図５に戻って、記録処理部１１６は、内視鏡検査時に静止画が撮影されると、プロセッサ装置２０から静止画の内視鏡画像１０４を取得し、また、内視鏡検査時に音声操作により記録情報取得部１１４が識別文字に基づいて第１辞書１２２から識別文字に対応する記録情報を取得すると、取得した内視鏡画像１０４と記録情報とを関連付けてメモリ１２０に保存する。メモリ１２０保存された内視鏡画像及び記録情報は、例えば、診断レポートの作成に使用することができる。

　［タブレット端末の第２実施形態］
　図９は、タブレット端末の第２実施形態を示す機能ブロック図であり、特にプロセッサ１１０に関して示している。尚、図９において、図５に示した第１実施形態のタブレット端末と共通する部分には同一の符号を付し、その詳細な説明は省略する。

　図９に示す第２実施形態のタブレット端末は、主として第１実施形態のタブレット端末の第１辞書１２２の代わりに、第２辞書１２４及び第３辞書１２６を使用する点で相違する。即ち、第１辞書１２２は、第２辞書１２４と第３辞書１２６とから構成される。

　第２辞書１２４は、記録情報を示す識別情報と記録情報とが関連付けて登録され、第３辞書１２６は、識別文字と識別情報とが関連付けて登録されており、第２辞書１２４と第３辞書１２６が、第１辞書１２２と同様の役割を果たす。

　プロセッサ１１０の記録情報取得部１１４－２は、音声認識エンジン１１２が音声認識した識別文字に基づいて、メモリ１２０内の第３辞書１２６から識別文字に関連付けられた識別情報を取得し、続いて、取得した識別情報に基づいて第２辞書１２４から識別情報に関連付けられた記録情報を取得する。

　第１辞書１２２は、記録情報とは異なる識別文字と記録情報とが直接的に関連付けられて構成されているが、第１辞書１２２が第２辞書１２４と第３辞書１２６とにより構成される場合、記録情報とは異なる識別文字と記録情報とは、識別情報を介して間接的に関連付けられる。

　＜第２辞書及び第３辞書＞
　図１０は、タブレット端末のメモリに保存された第２辞書である診断名辞書の一例を示す図である。

　図１０に示す第２辞書１２４である診断名辞書は、記録情報として病変を示す診断名を有する辞書である。この診断名辞書は、内視鏡検査時に診断される全ての診断名が登録された辞書であり、各診断名を特定する識別情報として、例えば、診断名辞書＋連続番号とすることができる。

　図１１は、タブレット端末のメモリに保存された第２辞書である処置名辞書の一例を示す図である。

　図１１に示す第２辞書１２４である処置名辞書は、記録情報として内視鏡による処置を示す処置名を有する辞書である。この処置名辞書は、内視鏡により処置される全ての処置を示す処置名が登録された辞書であり、各処置名を特定する識別情報として、例えば、処置名辞書＋連続番号とすることができる。

　図１２は、タブレット端末のメモリに保存された第２辞書である処置具名辞書の一例を示す図である。

　図１２に示す第２辞書１２４である処置具名辞書は、記録情報として内視鏡による処置に使用する処置具を示す処置具名を有する辞書である。この処置具名辞書は、内視鏡による処置に使用される全ての処置具を示す処置具名が登録された辞書であり、各処置具名を特定する識別情報として、例えば、処置具名辞書＋連続番号とすることができる。

　図１３は、タブレット端末のメモリに保存された第３辞書の一例を示す図である。

　図１３に示す第３辞書１２６は、ユーザが発話する識別文字と識別情報とが関連付けて登録された辞書である。

　図９に示した記録情報取得部１１４－２は、図１３に示す第３辞書１２６によれば、ユーザが発話する識別文字が「１番」の場合（音声認識エンジン１１２が「１番」を認識した場合）、第３辞書１２６から「１番」に関連付けられた識別情報として「診断名辞書の１番」を取得する。そして、取得した「診断名辞書の１番」の識別情報から、図１０に示した第２辞書である診断名辞書における「１番」の診断名は、「胃癌」であるため、診断名として「胃癌」を取得する。

　同様に、図１３に示す第３辞書１２６によれば、ユーザが発話する識別文字が「ＥＭＲ」の場合、第３辞書１２６から「ＥＭＲ」に関連付けられた識別情報として「処置名辞書の１番」を取得する。そして、取得した「処置名辞書の１番」の識別情報から、図１１に示した第２辞書である処置名辞書における「１番」の処置名は、「内視鏡的粘膜切除術」であるため、処置名として「内視鏡的粘膜切除術」を取得する。

　＜第３辞書の作成＞
　図１４は、タブレット端末を使用して第３辞書を作成する手順を示すフローチャートである。

　ユーザは、タブレット端末１００のＧＵＩを使用した操作入力により第３辞書１２６を新規に作成することができる。この場合、タブレット端末１００の第３辞書１２６を作成する機能により、まず、第２表示装置１３０に空欄の第３辞書を表示させる（ステップＳ２）。

　続いて、空欄の第３辞書の識別文字を入力する欄に、ユーザが発話する所望の識別文字（例えば、「１番」）を入力する（ステップＳ４）。

　ユーザは、入力した識別文字に対応する識別情報の欄に、所望の識別情報（例えば、「診断名辞書の１番」）を入力する（ステップＳ６）。尚、ユーザは、第２辞書（診断名辞書）の内容をタブレット端末１００の画面等により確認することができるものとする。

　このようにして識別文字と識別情報とのペアを入力すると、ユーザは、第３辞書の作成を終了するか否かを判断する（ステップＳ８）。

　第３辞書の作成を終了させない場合には、ユーザは、引き続きステップＳ４、ステップＳ６における入力を繰り返し、第３辞書を作成する。

　ユーザは、第３辞書の作成の終了を選択することで、第３辞書１２６を完成させ、メモリ１２０に保存させることができる。

　尚、ユーザは、第３辞書１２６の編集（識別文字と識別情報とのペアの追加、変更、削除）も同様にして行うことができる。

　また、第３辞書１２６は、ユーザ毎にユーザ専用の辞書（複数の辞書）としてメモリ１２０に保存することができる。この場合、第２辞書１２４は、ユーザ毎に共通に使用することができる。

　［第１辞書の有効／無効の設定及び情報処理装置の作動方法］
　図１５は、タブレット端末における第１辞書の有効／無効の設定及び情報処理装置の作動方法による記録情報の取得の流れを示すフローチャートである。

　図１において、第１辞書の有効／無効を設定する（ステップＳ１０）。第１辞書の有効／無効は、タブレット端末１００のＧＵＩからの操作入力によりユーザが設定してもよいし、後述するように自動で設定してもよい。

　第１辞書は、図５に示した第１辞書１２２、及び図９に示した第２辞書１２４及び第３辞書１２６からなる第１辞書として機能する辞書を含む。

　また、第１辞書の有効／無効の「有効」の設定とは、第１辞書を使用して診断名等の記録情報を音声操作により取得する設定をいい、「無効」の設定とは、第１辞書を使用し、又は第１辞書を使用せずに診断名等の記録情報を音声操作により取得する設定をいう。

　プロセッサ１１０は、内視鏡検査時にユーザが発話する音声を音声認識エンジン１１２により認識する（ステップＳ２０）。

　続いて、プロセッサ１１０は、認識した音声が第１辞書に登録されている識別文字を示す音声か否かを判別する（ステップＳ３０）。識別文字を示す音声と判別すると「Yes」の場合）、プロセッサ１１０は、第１辞書から識別文字に対応する記録情報を取得する（ステップＳ４０）。

　これにより、ユーザは、患者に聞かれることが憚られる診断名とは異なる識別文字を発話することで、その識別情報に対応する診断名（記録情報）を取得することができる。また、ユーザが使い慣れている内視鏡による処置名の略称等を識別文字として発話することで、その識別情報に対応する処置名の正式名称（記録情報）を取得することができる。

　一方、ステップＳ３０において、認識した音声が識別文字を示す音声でないと判別すると（「No」の場合）、プロセッサ１１０は、更に内視鏡検査時に記録する診断名等の記録情報を示す音声か否かを判別する（ステップＳ５０）。認識した音声が記録情報ではないと判別すると、ステップＳ２０に遷移し、認識した音声は、記録情報としては取得されない。プロセッサ１１０は、認識した音声が記録情報であると判別すると、ステップＳ６０に遷移する。

　プロセッサ１１０は、ステップＳ６０において、第１辞書が有効に設定されているか否かを判別する。第１辞書が有効に設定されていると判別すると（「Yes」の場合）、ステップＳ６０に遷移する。これにより、認識した音声が記録情報であっても、その記録情報は取得されない。第１辞書が有効に設定されている場合、識別文字の発話により第１辞書を使用して記録情報を取得する場合のみを許可するためである。

　一方、ステップＳ６０において、第１辞書が無効に設定されていると判別すると（「No」の場合）、ステップＳ７０に遷移し、ここで発話された記録情報を取得する。したがって、第１辞書が無効に設定されている場合には、識別文字の発話により第１辞書を使用して記録情報を取得することができるとともに、直接、記録情報を発話した場合もその記録情報を取得することができる。

　＜第１辞書の有効／無効の自動設定＞
　図１６は、タブレット端末における第１辞書の有効／無効を自動設定する一例を示すフローチャートであり、図１５に示したステップＳ１０における処理の一例に関して示している。

　図１６において、タブレット端末１００のプロセッサ１１０は、内視鏡検査時に内視鏡画像を取得し（ステップＳ１１）、取得した内視鏡画像から特定の種類の被写体が検出されたか否かを判別する（ステップＳ１２）。特定の種類の被写体は、病変であり、例えば、腫瘍性／非腫瘍性のうちの「腫瘍性」を示す被写体とすることができる。尚、腫瘍性／非腫瘍性は、内視鏡画像からＡＩにより認識することができる。

　そして、プロセッサ１１０は、特定の種類の被写体が検出されたと判別すると（「Yes」の場合）、第１辞書を有効に設定する（ステップＳ１３）。一方、特定の種類の被写体が検出されない場合（「No」の場合）には、第１辞書は有効に設定されない（無効に設定される）。

　このように、特定の種類の被写体が検出された場合には、自動的に第１辞書が有効に設定され、その結果、記録情報の取得は、識別文字の発話により第１辞書を使用して取得する場合に制限される。例えば、特定の種類の被写体（例えば、腫瘍性の病変）が検出された場合、第１辞書を有効にすることで、患者に聞かれることが憚られる単語（腫瘍性に関連する診断名）の発話により記録情報の取得ができないようにすることができる。

　図１７は、タブレット端末における第１辞書の有効／無効を自動設定する他の例を示すフローチャートであり、図１５に示したステップＳ１０における処理の他の例に関して示している。

　図１７において、タブレット端末１００のプロセッサ１１０は、内視鏡検査時に内視鏡画像を取得し（ステップＳ１１）、取得した内視鏡画像から病変の種類を検出する（ステップＳ１４）。病変の種類は、腫瘍性／非腫瘍性に限らず、例えば、診断名辞書に登録された複数の診断名に対応する複数の病変の種類を含む。また、病変の種類は、内視鏡画像から病変認識ＡＩにより認識することができる。

　プロセッサ１１０は、検出した病変の種類に応じて第１辞書の有効又は無効を自動的に設定する（ステップＳ１５）。ここで、第１辞書の有効にする病変の種類は、予め設定することができ、例えば、患者に聞かれることが憚られる重病の病変には、第１辞書を有効に設定することができる。

　したがって、内視鏡画像から特定の病変（第１辞書を有効にする病変）が検出された場合には、その特定の病変については自動的に第１辞書が有効に設定される。これにより、例えば、患者に聞かれることが憚られる重病の病変が検出された場合、その病変の診断名を音声操作で取得するためには、診断名とは異なる識別文字を発話して第１辞書から取得することになる。

　尚、図１６及び図１７に示した第１辞書の有効／無効の自動設定において、内視鏡画像から特定の被写体を検出する処理、及び内視鏡画像から病変の種類を検出する処理は、タブレット端末１００のプロセッサ１１０が行う場合に限らず、プロセッサ装置２０が行い、その検出結果をタブレット端末１００に送信するようにしてもよい。

　＜音声認識エンジンのダウンロード＞
　図１８は、タブレット端末が音声認識エンジンを取得する手順を示すフローチャートである。

　タブレット端末１００は、図１に示したクラウドサーバ２が提供する音声認識エンジンをダウンロードすることができる。ここで、クラウドサーバ２には、複数の音声認識エンジンが準備されており、ユーザは、複数の音声認識エンジンのうちの所望の音声認識エンジンをダウンロードすることが可能である。

　図１８において、音声認識エンジンをダウンロードする場合には、ユーザは、タブレット端末１００を操作し、音声認識エンジンをダウンロードするためのメニュー画面を表示させる（ステップＳ１００）。メニュー画面には、例えば、ユーザの属性等を入力する入力欄を表示することが好ましい。

　タブレット端末１００は、ユーザによるメニュー画面の操作に基づいてユーザから音声認識エンジンの選択を受け付ける（ステップＳ１１０）。例えば、メニュー画面にしたがってユーザの属性（使用言語、性別、年齢、地域）等をユーザが入力することで、タブレット端末１００は、そのユーザに適した音声認識エンジンの選択を受け付ける。使用言語の入力により、日本語、英語等の音声認識エンジンの選択が可能であり、性別及び年齢の入力により該当する性別及び年齢の音声の認識に適した音声認識エンジンの選択が可能である。また、地域の入力によりその地域で使用される音声のイントネーションに適した音声認識エンジンの選択が可能である。

　音声認識エンジンの選択を受け付けると、タブレット端末１００はクラウドサーバ２に接続し、クラウドサーバ２から選択した音声認識エンジンをダウンロードする（ステップＳ１２０）。

　これにより、タブレット端末側で予め音声認識エンジンを準備する必要がなく、ユーザの属性に適した音声認識エンジンを取得することができる。尚、クラウドサーバ２側で、最新の音声認識エンジンが開発された場合には、クラウドサーバ２からユーザに通知し、ユーザは、最新の音声認識エンジンに更新することができる。

　＜ウエイクワードの活用＞
　図１９は、ウエイクワードの音声認識を活用する一例を示すフローチャートである。

　例えば、図１５に示したステップＳ２０において、内視鏡検査時にウエイクワード（wake word）を示す音声を認識すると、タブレット端末１００は、ウエイクワードの音声認識をトリガーとして、その後に発話される識別文字等を示す音声の認識を開始する。尚、音声認識エンジンには、予めウエイクワードが設定されているものとする。

　タブレット端末１００のプロセッサ１１０は、音声認識エンジンが音声認識した文字が、ウエイクワードか否かを判別する（ステップＳ２１）。ウエイクワードと判別した場合（「Yes」の場合）、プロセッサ１１０は、ウエイクワード後に発話される音声を音声認識エンジンにより認識させ、その認識結果を識別文字として取得する。

　識別文字は、短い語句である場合が想定され、ユーザが意図しない場面で発話される可能性があるが、ウエイクワードを識別文字の音声を認識する場合のトリガーとすることで、識別文字をより精度よく認識することができる。

　図２０は、ウエイクワードの音声認識を活用する他の例を示すフローチャートである。

　本例のウエイクワードとして、例えば「診断」、「処置」、「処置具」の複数のウエイクワードを設定する。

　図２０において、タブレット端末１００のプロセッサ１１０は、音声認識エンジンが音声認識した文字が、ウエイクワードか否かを判別する（ステップＳ２１）。ウエイクワードと判別した場合（「Yes」の場合）、プロセッサ１１０は、ウエイクワードが「診断」を示すか否か、及び「処置」を示すか否かを判別する（ステップＳ２３、Ｓ２４）。

　ウエイクワードが「診断」と判別されると、プロセッサ１１０は、診断名辞書を特定し（ステップＳ２５）、ウエイクワードが「処置」と判別されると、プロセッサ１１０は、処置名辞書を特定し（ステップＳ２６）、ウエイクワードが「診断」、「処置」以外（即ち、「処置具」）」と判別されると、プロセッサ１１０は、処置具名辞書を特定する（ステップＳ２７）。

　プロセッサ１１０は、ウエイクワード後の発話から認識した識別文字に基づいてウエイクワードにより特定された辞書から識別文字に対応する記録情報を取得することができる。

　タブレット端末１００は、ウエイクワードの音声認識をトリガーとして、その後に発話される識別文字等を示す音声の認識を開始する点で、図１９の場合と同様であるが、更に、ウエイクワードの種類により辞書を特定するようにしたため、音声認識する識別文字の候補を特定した辞書内に絞り込むことができ、音声認識の誤認識を抑制することができる。

　尚、ウエイクワードは、診断名辞書、処置名辞書、及び処置具名辞書のうちの少なくとも１つの辞書を特定するワードでもよい。

　＜辞書の選択＞
　図２１は、診断名辞書及び処置具名辞書の自動選択の一例を示すフローチャートである。

　図２０に示した例では、ウエイクワードの種類に応じて辞書を特定（選択）するようにしたが、図２１に示す辞書の自動選択は、内視鏡画像に基づいて行う。

　図２１において、タブレット端末１００のプロセッサ１１０は、内視鏡画像を取得する（ステップＳ２００）。プロセッサ１１０は、取得した内視鏡画像に病変が写っているか否か、又は処置具が写っているか否かを認識する（ステップＳ２１０、Ｓ２２０）。これらの病変、処置具の認識は、内視鏡画像からＡＩ認識により行うことができる。

　プロセッサ１１０は、内視鏡画像から病変を認識すると、診断名辞書を選択し（ステップＳ２４０）、内視鏡画像から処置具を認識すると、処置具名辞書を選択する（ステップＳ２４２）。

　プロセッサ１１０は、病変及び処置具の少なくとも１つの認識結果に基づいて診断名辞書又は処置具名辞書を選択し、認識した識別文字に基づいて選択した辞書から識別文字に対応する記録情報を取得することができる。尚、プロセッサ１１０は、内視鏡画像から処置具を認識すると、処置名辞書を選択してもよい。

　＜辞書等の表示＞
　図２２は、内視鏡検査時におけるタブレット端末の表示画面の一例を示す図である。

　ユーザが発話する識別文字と、その識別文字に対応する診断名等の記録情報との関係が不明の場合、ユーザは、所望の記録情報を取得する場合に対応する識別文字を示す音声を発話することができない。

　図２２に示すタブレット端末１００は、内視鏡検査時に第２表示装置１３０の表示画面に第１辞書を表示する。

　図２３は、図２２の表示画面に表示される第１辞書の一例を示す図である。

　図２３に示す第１辞書は、ユーザが発話する識別文字と、識別文字に関連付けられた記録情報とを有している。また、図２３に示す第１辞書は、診断名、処置名、及び処置具名が混在している辞書であるが、診断名辞書、処置名辞書、及び処置具名辞書の３つの辞書で構成されたものでもよい。

　第１辞書が、診断名辞書、処置名辞書、及び処置具名辞書の３つの辞書で構成されている場合、診断名辞書は、タブレット端末１００の第２表示装置１３０に表示し、処置名辞書及び処置具名辞書は、内視鏡システム１の第１表示装置４０の画面４０Ａの副表示領域Ａ２に表示するようにしてもよい。

　前述したようにタブレット端末１００は、ユーザ（医師）のみがタブレット端末１００の画面が見えるように設定することが可能であるため、タブレット端末１００に診断名辞書を表示しても患者は、識別文字を示す音声と診断名とを結びつけることができないからである。

　また、図２０に示したように診断名辞書、処置名辞書、及び処置具名辞書のいずれかの辞書が特定され、又は図２１に示したように診断名辞書又は処置具名辞書が選択された場合には、特定され又は選択された辞書を、タブレット端末１００に表示するようにしてもよい。

　更に、タブレット端末１００のプロセッサは、ユーザが発話する音声の認識結果、及び取得した記録情報のうちの少なくとも一方を、第２表示装置１３０に表示することができる。図２２に示す例では、音声の認識結果は「１番」であり、「１番」に関連付けられた記録情報は「胃癌」である。

　これにより、ユーザは、音声認識エンジンによりユーザの発話が正しく音声認識されたか否かを確認することができ、また、内視鏡検査時に内視鏡画像に関連付けて記録する記録情報も確認することができる。

　ユーザは、記録情報の確認後、フットスイッチを操作することで、内視鏡画像と記録情報とを関連付けてメモリ１２０に保存させることができる。

　＜マスキング音発生装置＞
　図２４は、マスキング音発生装置が配置された診察室の一例を示す図である。

　図２４において、２００は、内視鏡検査時に患者が横臥するベッドであり、３００は、マスキング音発生装置である。

　ユーザ（医師）は、内視鏡検査時にマイクロフォン１５０に向かって発話するが、マスキング音発生装置３００は、内視鏡検査時にユーザが発話する音声の、患者による聞き取りを阻害するマスキング音を発生する。

　ワイヤレスヘッドセットのマイクロフォン１５０は、ユーザの口元に位置するため、ユーザが小声で発話してもマスキング音に阻害されることなく、ユーザの音声を検出することができる。

　マスキング音発生装置３００は、ヤマハ株式会社のスピーチプライバシーシステム（ＶＳＰ－１，ＶＳＰ－２）を使用することができる。

　マスキング音発生装置３００は、内視鏡検査時にマスキング音を発生させることで、患者に医師の発話が聞こえないようにし、又は聞こえにくくし、また、マスキング音として患者をリラックスさせる環境音を発生せることができる。

　［その他］
　本実施形態では、情報処理装置として、プロセッサ装置２０とは独立したタブレット端末１００を使用する場合について説明したが、プロセッサ装置２０が、本実施形態のタブレット端末１００の一部の機能、又は全部の機能を備えていてもよい。

　また、本発明に係る情報処理装置の各種制御を実行するハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の制御部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

　１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ）で構成されてもよい。また、複数の制御部を１つのプロセッサで構成してもよい。複数の制御部を１つのプロセッサで構成する例としては、第１に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の制御部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の制御部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の制御部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

　また、本発明は、コンピュータにインストールされることにより、コンピュータを本発明に係る情報処理装置として機能させる情報処理プログラム、及びこの情報処理プログラムが記録された非一時的かつコンピュータ読取可能な記録媒体を含む。

　更に、本発明は上述した実施形態に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能であることは言うまでもない。

１　内視鏡システム
２　クラウドサーバ
３　ネットワーク
１０　内視鏡スコープ
２０　プロセッサ装置
２１　内視鏡画像取得部
２２　プロセッサ
２３　メモリ
２４　表示制御部
２５　入出力インターフェース
２６　操作部
３０　光源装置
３６　操作部
４０　第１表示装置
４０Ａ　画面
４２　アイコン
１００　タブレット端末
１０２　音声データ
１０４　内視鏡画像
１１０　プロセッサ
１１２　音声認識エンジン
１１４、１１４－２　記録情報取得部
１１６　記録処理部
１２０　メモリ
１２２　第１辞書
１２４　第２辞書
１２６　第３辞書
１３０　第２表示装置
１４０　入出力インターフェース
１５０　マイクロフォン
２００　ベッド
３００　マスキング音発生装置
Ａ１　主表示領域
Ａ２　副表示領域
ＡＩ　病変認識
Ｉ　内視鏡画像
Ｉｐ　情報
Ｉｓ　静止画
Ｓ２～Ｓ８、Ｓ１０～Ｓ７０、Ｓ１００～Ｓ１２０、Ｓ２００～Ｓ２４０　ステップ

Claims

　プロセッサと、内視鏡検査に関連して記録する記録情報が登録された第１辞書と、を備えた情報処理装置であって、
　前記第１辞書は、前記記録情報とは異なる識別文字と前記記録情報とが直接的又は間接的に関連付けられて構成され、
　前記プロセッサは、
　内視鏡検査時にユーザが発話する音声であって、前記識別文字を示す音声を認識し、
　前記認識した前記識別文字に基づいて前記第１辞書から前記識別文字に対応する前記記録情報を取得する、
　情報処理装置。
　前記プロセッサは、
　前記内視鏡検査時に前記記録情報と関連する内視鏡画像を取得し、
　前記取得した内視鏡画像と前記記録情報とを関連付けてメモリに保存する、
　請求項１に記載の情報処理装置。
　前記第１辞書は、前記記録情報として病変を示す診断名を有する診断名辞書、前記記録情報として内視鏡による処置を示す処置名を有する処置名辞書、及び前記記録情報として内視鏡の処置具を示す処置具名を有する処置具名辞書のうちの少なくとも１つを含む、
　請求項１又は２に記載の情報処理装置。
　前記識別文字は、数詞、アルファベットの１文字、及び前記記録情報を示す略称又は通称のうちの少なくとも１つを含む、
　請求項１から３のいずれか１項に記載の情報処理装置。
　前記第１辞書は、前記記録情報を示す識別情報と前記記録情報とが関連付けて登録された第２辞書と、前記識別文字と前記識別情報とが関連付けて登録された第３辞書と、から構成され、
　前記プロセッサは、前記認識した前記識別文字に基づいて前記第３辞書から前記識別文字に関連付けられた前記識別情報を取得し、
　前記取得した前記識別情報に基づいて前記第２辞書から前記識別情報に関連付けられた前記記録情報を取得する、
　請求項１から４のいずれか１項に記載の情報処理装置。
　ＧＵＩ(Graphical User Interface)を更に備え、
　前記プロセッサは、
　前記ＧＵＩからの操作入力により前記第３辞書を新規に作成し、又は前記第３辞書の登録内容を編集する、
　請求項５に記載の情報処理装置。
　ＧＵＩ(Graphical User Interface)を更に備え、
　前記プロセッサは、
　前記ＧＵＩからの操作入力により前記第１辞書の有効又は無効を設定する、
　請求項１から６のいずれか１項に記載の情報処理装置。
　前記プロセッサは、
　前記内視鏡検査時に内視鏡画像を取得し、
　前記内視鏡画像から特定の種類の被写体を検出すると、前記第１辞書を有効にする、
　請求項１から６のいずれか１項に記載の情報処理装置。
　前記プロセッサは、
　前記内視鏡検査時に内視鏡画像を取得し、
　前記内視鏡画像から病変の種類を検出し、
　前記検出した病変の種類に応じて前記第１辞書の有効又は無効を設定する、
　請求項１から６のいずれか１項に記載の情報処理装置。
　音声認識エンジンを提供するサーバと通信する通信部を更に備え、
　前記プロセッサは、
　前記サーバから前記通信部を介して前記音声認識エンジンをダウンロードし、又は更新し、
　前記ダウンロード又は更新した前記音声認識エンジンにより前記ユーザが発話する音声を認識する、
　請求項１から９のいずれか１項に記載の情報処理装置。
　前記第１辞書は、病変を示す複数の診断名を有する診断名辞書、及び内視鏡の処置具を示す複数の処置具名を有する処置具名辞書を含み、
　前記プロセッサは、
　前記内視鏡検査時に内視鏡画像を取得し、
　前記内視鏡画像に基づいて病変及び内視鏡による処置に使用する処置具のうちの少なくとも１つを認識し、
　前記病変又は前記処置具の認識結果に基づいて前記診断名辞書又は前記処置具名辞書を選択し、
　前記認識した前記識別文字に基づいて前記選択した辞書から前記識別文字に対応する前記記録情報を取得する、
　請求項１から１０のいずれか１項に記載の情報処理装置。
　前記プロセッサは、
　前記内視鏡検査時にウエイクワードを示す音声を認識すると、その後に発話される前記識別文字を示す音声を認識する、
　請求項１から１１のいずれか１項に記載の情報処理装置。
　前記第１辞書は、病変を示す複数の診断名を有する診断名辞書、内視鏡による処置を示す複数の処置名を有する処置名辞書、及び内視鏡の処置具を示す複数の処置具名を有する処置具名辞書のうちの少なくとも１つを含み、
　前記ウエイクワードは、前記診断名辞書、前記処置名辞書、及び前記処置具名辞書のうちの少なくとも１つの辞書を特定するワードであり、
　前記プロセッサは、前記認識した前記識別文字に基づいて前記ウエイクワードにより特定された辞書から前記識別文字に対応する前記記録情報を取得する、
　請求項１２に記載の情報処理装置。
　前記内視鏡検査時に内視鏡画像が表示される第１表示装置とは独立した第２表示装置を更に備え、
　前記プロセッサは、前記内視鏡検査時に前記第２表示装置に前記第１辞書を表示する、
　請求項１から１３のいずれか１項に記載の情報処理装置。
　前記プロセッサは、ユーザが発話する音声の認識結果及び前記取得した前記記録情報のうちの少なくとも一方を前記第２表示装置に表示する、
　請求項１４に記載の情報処理装置。
　前記内視鏡検査時にユーザが発話する音声の、患者による聞き取りを阻害するマスキング音を発生するマスキング音発生装置を更に備えた、
　請求項１から１４のいずれか１項に記載の情報処理装置。
　請求項１から１５のいずれか１項に記載の情報処理装置を備えたタブレット端末。
　プロセッサと、内視鏡検査に関連する記録情報が登録された第１辞書と、を備えた情報処理装置の作動方法であって、
　前記第１辞書は、前記記録情報とは異なる識別文字と前記記録情報とが直接的又は間接的に関連付けられて構成され、
　前記プロセッサが、内視鏡検査時にユーザが発話する音声であって、前記識別文字を示す音声を認識するステップと、
　前記プロセッサが、前記認識した前記識別文字に基づいて前記第１辞書から前記識別文字に対応する前記記録情報を取得するステップと、
　を含む情報処理装置の作動方法。
　請求項１８に記載の情報処理装置の作動方法をコンピュータに実行させる情報処理プログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、請求項１９に記載の前記情報処理プログラムが記録された記録媒体。