WO2023139985A1

WO2023139985A1 - 内視鏡システム、医療情報処理方法、及び医療情報処理プログラム

Info

Publication number: WO2023139985A1
Application number: PCT/JP2022/045977
Authority: WO
Inventors: 裕哉木村
Original assignee: 富士フイルム株式会社
Priority date: 2022-01-19
Filing date: 2022-12-14
Publication date: 2023-07-27

Abstract

本発明の一つの実施形態は、関連する音声認識の結果を容易に記録することができる内視鏡システム、医療情報処理方法、及び医療情報処理プログラムを提供する。本発明の一の態様に係る内視鏡システムは、音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムであって、プロセッサは、被検体の時系列の医療画像を内視鏡スコープに撮影させ、時系列の医療画像の撮影中に、音声認識の結果に対する区切りを検出し、一の区切りを検出してから、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させる。

Description

内視鏡システム、医療情報処理方法、及び医療情報処理プログラム

　本発明は、医療画像に対し音声入力及び音声認識を行う内視鏡システム、医療情報処理方法、及び医療情報処理プログラムに関する。

　医療画像を用いた検査や診断支援を行う技術分野では、ユーザが入力した音声を認識し、認識結果に基づく処理を行うことが知られている。また、音声入力された情報を表示することが知られている（例えば、特許文献１，２を参照）。

特開２０１３－１０６７５２号公報特開２００６－２２１５８３号公報

　医療画像を用いた検査で音声認識を行う場合、認識結果を単に表示あるいは記録するだけでは、認識結果の関連性を把握することが困難である。しかしながら、上述した特許文献１，２のような従来の技術は、このような点を十分考慮したものではなかった。

　本発明はこのような事情に鑑みてなされたもので、関連する音声認識の結果を容易に記録することができる内視鏡システム、医療情報処理方法、及び医療情報処理プログラムを提供することを目的とする。

　上述した目的を達成するため、本発明の第１の態様に係る内視鏡システムは、音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムであって、プロセッサは、被検体の時系列の医療画像を内視鏡スコープに撮影させ、時系列の医療画像の撮影中に、音声認識の結果に対する区切りを検出し、一の区切りを検出してから、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させる。

　第１の態様によれば、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させるので、関連する音声認識の結果を容易に記録することができユーザは、その記録を参照することにより、関連する音声認識の結果を容易に把握することができる。

　第２の態様に係る内視鏡システムは第１の態様において、プロセッサは、音声認識を開始した場合は、音声認識する項目を示す項目情報と、項目情報に対応する音声認識の結果と、を表示装置に表示させる。

　第３の態様に係る内視鏡システムは第２の態様において、プロセッサは、１組の項目情報に対応する音声認識の結果を１つのグループとして記録装置に記録させる。

　第４の態様に係る内視鏡システムは第２または第３の態様において、プロセッサは、一の区切りを検出してから他の区切りを検出するまで項目情報及び音声認識の結果の表示を継続し、他の区切りを検出した場合は、表示装置における項目情報及び音声認識の結果の表示態様を変更させる。

　第５の態様に係る内視鏡システムは第２から第４の態様のいずれか１つにおいて、プロセッサは、項目情報及び音声認識の結果をリアルタイムに表示装置に表示させる。

　第６の態様に係る内視鏡システムは第２から第５の態様のいずれか１つにおいて、項目情報は、診断、所見、処置、止血のうち少なくとも１つを含む。

　第７の態様に係る内視鏡システムは第１から第6の態様のいずれか１つにおいて、プロセッサは、一の区切りをグループ化の開始区切りとして検出し、他の区切りをグループ化の終了区切りとして検出する。

　第８の態様に係る内視鏡システムは第７の態様において、プロセッサは、終了区切りを検出してから、終了区切りを検出した時刻より後の時刻に終了区切りを再度検出するまでの期間における音声認識の結果をグループ化する。

　第９の態様に係る内視鏡システムは第７または第８の態様において、プロセッサは、医療画像における特定の被写体の検出終了、音声認識装置に対する第１の特定語句の音声入力、音声認識装置に対する音声入力の決められた時間以上の未入力状態継続、音声認識する項目の全てに対する音声入力の完了、音声認識する項目の内の特定の項目に対する音声入力の完了、内視鏡スコープの挿入長及び／または挿入形状が決められた値以上に変化したことを示す情報の取得、内視鏡システムのユーザによる操作デバイスを介した操作の開始または停止のうち少なくとも１つを終了区切りとして検出する。

　第１０の態様に係る内視鏡システムは第７から第９の態様のいずれか１つにおいて、プロセッサは、医療画像における特定の被写体の検出開始、音声認識装置に対する第２の特定語句の音声入力、内視鏡システムのユーザによる操作デバイスを介した入力、特定の被写体についての鑑別モードの開始、特定の被写体についての鑑別結果の出力開始、特定の被写体についての計測モードの開始のうち少なくとも１つを開始区切りとして検出する。

　第１１の態様に係る内視鏡システムは第９または第１０の態様において、プロセッサは、病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも１つを特定の被写体と判断する。

　第１２の態様に係る内視鏡システムは第９から第１１の態様のいずれか１つにおいて、プロセッサは、機械学習により生成された画像認識器を用いて特定の被写体を認識する。

　第１３の態様に係る内視鏡システムは第８から第１２の態様のいずれか１つにおいて、プロセッサは、開始区切りを検出した場合は、医療画像についての音声入力を促すメッセージを出力装置に出力させる。

　第１４の態様に係る内視鏡システムは第１から第１３の態様のいずれか１つにおいて、プロセッサは、一の区切りを検出してから他の区切りを検出するまでの期間において内視鏡スコープで撮影した医療画像から選択した画像を、音声の認識結果と共にグループ化して記録させる。

　第１５の態様に係る内視鏡システムは第１から第１４の態様のいずれか１つにおいて、プロセッサは、時系列の医療画像を構成するフレーム画像から選択した画像、及び／または時系列の医療画像とは別に撮影した撮影画像から選択した画像を、音声認識の結果と共にグループ化して記録させる。

　第１６の態様に係る内視鏡システムは第１から第１５の態様のいずれか１つにおいて、プロセッサは、時系列の医療画像と音声認識の結果とを別個の表示装置に表示させる。

　上述した目的を達成するため、第１７の態様に係る医療情報処理方法は、音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムにより実行される医療情報処理方法であって、プロセッサは、被検体の時系列の医療画像を内視鏡スコープに撮影させ、時系列の医療画像の撮影中に、音声認識の結果に対する区切りを検出し、一の区切りを検出してから、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させる。第１７の態様によれば、第１の態様と同様に、関連する音声認識の結果を容易に記録することができる。なお、第１７の態様において、第２から第１６の態様と同様の構成を有していてもよい。

　上述した目的を達成するため、本発明の第１８の態様に係る医療情報処理プログラムは、音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムに医療情報処理方法を実行させる医療情報処理プログラムであって、医療情報処理方法において、プロセッサは、被検体の時系列の医療画像を内視鏡スコープに撮影させ、時系列の医療画像の撮影中に、音声認識の結果に対する区切りを検出し、一の区切りを検出してから、一の区切りを検出した時刻より後の時刻において一の区切りに対応する他の区切りを検出するまでの期間における音声認識の結果をグループ化して記録装置に記録させる。第１８の態様によれば、第１，第１７の態様と同様に、関連する音声認識の結果を容易に記録することができる。なお、第１８の態様において、第２から第１６の態様と同様の構成を有していてもよい。また、これら態様の医療情報処理プログラムのコンピュータ読み取り可能なコードが記録された非一時的かつ有体の記録媒体も、本発明の態様として挙げることができる。

　本発明に係る内視鏡システム、医療情報処理方法、及び医療情報処理プログラムによれば、関連する音声認識の結果を容易に記録することができる。

図１は、第１の実施形態に係る内視鏡画像診断システムの概略構成を示す図である。図２は、内視鏡システムの概略構成を示す図である。図３は、内視鏡の概略構成を示す図である。図４は、先端部の端面の構成の一例を示す図である。図５は、内視鏡画像生成装置の主な機能を示すブロック図である。図６は、内視鏡画像処理装置の主な機能を示すブロック図である。図７は、画像認識処理部の主な機能を示すブロック図である。図８は、音声入力を促すメッセージの他の表示例を示す図である。図９は、タブレット端末の主な機能を示すブロック図である。図１０は、音声入力を促すメッセージの表示例を示す図である。図１１は、音声認識の結果をグループ化する様子を示す図である。図１２は、病変情報入力ボックスの表示例を示す図である。図１３は、病変情報入力ボックスの表示態様を変更する例を示す図である。図１４は、音声認識結果と共に画像をグループ化する様子を示す図である。図１５は、音声認識結果と共に画像をグループ化する様子を示す他の図である。図１６は、病変の検出終了を終了区切りとして音声認識結果をグループ化する様子を示す図である。図１７は、内視鏡スコープの形状及び挿入長の変化を終了区切りとして音声認識結果をグループ化する様子を示す図である。図１８は、特定の語句を開始区切りとして音声認識の結果をグループ化する様子を示す図である。図１９は、第２の実施形態に係る内視鏡システムの概略構成を示す図である。図２０は、第２の実施形態に係る内視鏡画像生成装置の主な機能を示すブロック図である。図２１は、第２の実施形態に係る内視鏡画像処理装置の主な機能を示すブロック図である。図２２は、第２の実施形態において、表示装置に病変情報入力ボックスを表示させる様子を示す図である。

　本発明に係る内視鏡システム、医療情報処理方法、及び医療情報処理プログラムの実施形態について説明する。説明においては、必要に応じて添付図面が参照される。なお、添付図面において、説明の便宜上一部の構成要素の記載を省略する場合がある。

　［内視鏡画像診断支援システム］
　［第１の実施形態］
　本発明を内視鏡画像診断支援システムに適用した場合を例に説明する。内視鏡画像診断支援システムは、内視鏡検査における病変等の検出及び鑑別をサポートするシステムである。以下においては、下部消化管内視鏡検査（大腸検査）における病変等の検出及び鑑別をサポートする内視鏡画像診断支援システムに適用した場合を例に説明する。

　図１は、内視鏡画像診断支援システムの概略構成を示すブロック図である。

　図１に示すように、本実施の形態の内視鏡画像診断支援システム１（内視鏡システム）は、内視鏡システム１０（内視鏡システム）、内視鏡情報管理システム１００を有する。内視鏡画像診断支援システム１は、さらにユーザ端末を有していてもよい。

　［内視鏡システム］
　図２は、内視鏡システム１０の概略構成を示すブロック図である。

　本実施形態の内視鏡システム１０は、白色光を用いた観察（白色光観察）の他、特殊光を用いた観察（特殊光観察）が可能なシステムとして構成される。特殊光観察には、狭帯域光観察が含まれる。狭帯域光観察には、ＢＬＩ観察（Blue laser imaging観察）、ＮＢＩ観察（Narrow band imaging観察；ＮＢＩは登録商標）、ＬＣＩ観察（Linked Color Imaging観察）等が含まれる。なお、特殊光観察自体は、公知の技術であるので、その詳細についての説明は省略する。

　図２に示すように、本実施の形態の内視鏡システム１０は、内視鏡２０（内視鏡スコープ）、光源装置３０、内視鏡画像生成装置４０（プロセッサ）、内視鏡画像処理装置６０（プロセッサ）、表示装置７０（表示装置）、記録装置７５（記録装置）、及び入力装置５０、タブレット端末９０（プロセッサ、表示装置、記録装置）等を有する。内視鏡２０は、挿入部２１の先端部２１Ａに内蔵された光学系２４、及びイメージセンサ２５を備える。なお、内視鏡画像生成装置４０及び内視鏡画像処理装置６０は、医療情報処理装置８０を構成する。また、内視鏡システム１０は、タブレット端末９０を介してクラウド２００上のデータベース２１０にアクセスすることができる。

　［内視鏡］
　図３は、内視鏡２０の概略構成を示す図である。

　本実施形態の内視鏡２０は、下部消化器官用の内視鏡である。図３に示すように、内視鏡２０は軟性鏡（電子内視鏡）であり、挿入部２１、操作部２２及び接続部２３を有する。

　挿入部２１は、管腔臓器（例えば、大腸）に挿入される部位である。挿入部２１は、先端側から順に先端部２１Ａ、湾曲部２１Ｂ、及び軟性部２１Ｃで構成される。

　図４は、先端部の端面の構成の一例を示す図である。

　同図に示すように、先端部２１Ａの端面には、観察窓２１ａ、照明窓２１ｂ、送気送水ノズル２１ｃ及び鉗子出口２１ｄ等が備えられる。観察窓２１ａは観察用の窓である。観察窓２１ａを介して被検体の管腔臓器内が撮影される。撮影は、先端部２１Ａ（観察窓２１ａの部分）に内蔵されたレンズ等の光学系２４及びイメージセンサ２５（イメージセンサ；図２参照）を介して行われ、被検体の時系列の画像（動画像）及び／または静止画像を撮影することができる。イメージセンサには、たとば、ＣＭＯＳイメージセンサ（Complementary Metal Oxide Semiconductor image sensor）、ＣＣＤイメージセンサ（Charge Coupled Device image sensor）等が使用される。照明窓２１ｂは、照明用の窓である。照明窓２１ｂを介して管腔臓器内に照明光が照射される。送気送水ノズル２１ｃは、洗浄用のノズルである。送気送水ノズル２１ｃから観察窓２１ａに向けて洗浄用の液体及び乾燥用の気体が噴射される。鉗子出口２１ｄ、鉗子等の処置具の出口である。鉗子出口２１ｄは、体液等を吸引する吸引口としても機能する。

　湾曲部２１Ｂは、操作部２２に備えられたアングルノブ２２Ａの操作に応じて湾曲する部位である。湾曲部２１Ｂは、上下左右の４方向に湾曲する。

　軟性部２１Ｃは、湾曲部２１Ｂと操作部２２との間に備えられる長尺な部位である。軟性部２１Ｃは、可撓性を有する。

　操作部２２は、術者が把持して各種操作を行う部位である。操作部２２には、各種操作部材が備えられる。一例として、操作部２２には、湾曲部２１Ｂを湾曲操作するためのアングルノブ２２Ａ、送気送水の操作を行うための送気送水ボタン２２Ｂ、吸引操作を行うための吸引ボタン２２Ｃが備えられる。この他、操作部２２には、静止画像を撮影するための操作部材（シャッタボタン）、観察モードを切り替えるための操作部材、各種支援機能のＯＮ、ＯＦＦを切り替えるための操作部材等が備えられる。また、操作部２２には、鉗子等の処置具を挿入するための鉗子挿入口２２Ｄが備えられる。鉗子挿入口２２Ｄから挿入された処置具は、挿入部２１の先端の鉗子出口２１ｄ（図４参照）から繰り出される。一例として、処置具には、生検鉗子、スネア等が含まれる。

　接続部２３は、内視鏡２０を光源装置３０及び内視鏡画像生成装置４０等に接続するための部位である。接続部２３は、操作部２２から延びるコード２３Ａと、そのコード２３Ａの先端に備えられるライトガイドコネクタ２３Ｂ及びビデオコネクタ２３Ｃ等とで構成される。ライトガイドコネクタ２３Ｂは、光源装置３０に接続するためのコネクタである。ビデオコネクタ２３Ｃは、内視鏡画像生成装置４０に接続するためのコネクタである。

　［光源装置］
　光源装置３０は、照明光を生成する。上記のように、本実施の形態の内視鏡システム１０は、通常の白色光観察の他に特殊光観察が可能なシステムとして構成される。このため、光源装置３０は、通常の白色光の他、特殊光観察に対応した光（たとえば、狭帯域光）を生成可能に構成される。なお、上記のように、特殊光観察自体は、公知の技術であるので、その光の生成等についての説明は省略する。

　［医療情報処理装置］
　［内視鏡画像生成装置］
　内視鏡画像生成装置４０（プロセッサ）は、内視鏡画像処理装置６０（プロセッサ）と共に、内視鏡システム１０全体の動作を統括制御する。内視鏡画像生成装置４０は、そのハードウェア構成として、プロセッサ、主記憶部（メモリ）、補助記憶部（メモリ）及び通信部等を備える。すなわち、内視鏡画像生成装置４０は、そのハードウェア構成として、いわゆるコンピュータの構成を有する。プロセッサは、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等で構成される。主記憶部は、たとえば、ＲＡＭ（Random Access Memory）等で構成される。補助記憶部は、たとえば、フラッシュメモリやＲＯＭ（Read Only Memory）、ＥＥＰＲＯＭ（Electronically Erasable and Programmable Read Only Memory）等の非一時的かつ有体の記録媒体で構成される。

　図５は、内視鏡画像生成装置４０の主な機能を示すブロック図である。

　同図に示すように、内視鏡画像生成装置４０は、内視鏡制御部４１、光源制御部４２、画像生成部４３、入力制御部４４及び出力制御部４５等の機能を有する。プロセッサが実行する各種プログラム（本発明に係る医療情報処理プログラムまたはその一部を含んでいてよい）、及び、制御等に必要な各種データ等が上述した補助記憶部に格納され、内視鏡画像生成装置４０の各機能は、プロセッサがそれらのプログラムを実行することにより実現される。内視鏡画像生成装置４０のプロセッサは、本発明に係る内視鏡システム、医療情報処理装置におけるプロセッサの一例である。

　内視鏡制御部４１は、内視鏡２０を制御する。内視鏡２０の制御には、イメージセンサ２５の駆動制御、送気送水の制御、吸引の制御等が含まれる。

　光源制御部４２は、光源装置３０を制御する。光源装置３０の制御には、光源の発光制御等が含まれる。

　画像生成部４３は、内視鏡２０のイメージセンサ２５から出力される信号に基づいて撮影画像（内視鏡画像、医療画像）を生成する。画像生成部４３は、撮影画像として静止画像及び／または動画像（時系列の医療画像）を生成することができる。画像生成部４３は、生成した画像に各種画像処理を施してもよい。

　入力制御部４４は、入力装置５０を介した操作の入力及び各種情報の入力を受け付ける。

　出力制御部４５は、内視鏡画像処理装置６０への情報の出力を制御する。内視鏡画像処理装置６０に出力する情報には、撮影により得られた内視鏡画像の他、入力装置５０から入力された各種操作情報等が含まれる。

　［入力装置］
　入力装置５０は、表示装置７０と共に内視鏡システム１０におけるユーザインタフェース（user interface）を構成する。入力装置５０には、フットスイッチ５２（操作デバイス）が含まれる。フットスイッチ５２は術者の足元に置かれて足で操作される操作デバイスであり、ペダルを踏み込むことで、操作信号（例えば、音声認識の候補を選択する信号や、音声認識結果のグループ化の開始あるいは終了の区切りを示す信号）が出力される。なお、本態様ではフットスイッチ５２は内視鏡画像生成装置４０の入力制御部４４により制御されるが、このような態様に限らず、内視鏡画像処理装置６０や表示装置７０等を介してフットスイッチ５２を制御してもよい。また、内視鏡２０の操作部２２において、フットスイッチ５２と同等の機能を有する操作デバイス（ボタン、スイッチ等）を設けてもよい。

　この他、入力装置５０には、操作デバイスとしてキーボード、マウス、タッチパネル、マイク、視線入力装置等の公知の入力デバイスを含めることができる。

　［内視鏡画像処理装置］
　内視鏡画像処理装置６０は、そのハードウェア構成として、プロセッサ、主記憶部、補助記憶部、通信部等を備える。すなわち、内視鏡画像処理装置６０は、そのハードウェア構成として、いわゆるコンピュータの構成を有する。プロセッサは、たとえば、ＣＰＵ、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等で構成される。内視鏡画像処理装置６０のプロセッサは、本発明に係る内視鏡システム、医療情報処理装置におけるプロセッサの一例である。なお、内視鏡画像生成装置４０のプロセッサと内視鏡画像処理装置６０のプロセッサとで、本発明に係る内視鏡システムや医療情報処理装置におけるプロセッサの機能を分担してもよい。例えば、内視鏡画像生成装置４０は主として内視鏡画像を生成する「内視鏡プロセッサ」の機能を備え、内視鏡画像処理装置６０は主として内視鏡画像に画像処理を施す「ＣＡＤボックス（ＣＡＤ：Computer Aided Diagnosis）」としての機能を備える態様を採用することができる。しかしながら、本発明では、このような機能の分担と異なる態様を採用してもよい。

　主記憶部は、たとえば、ＲＡＭ等のメモリで構成される。補助記憶部は、たとえば、フラッシュメモリ、ＲＯＭ、ＥＥＰＲＯＭ等の非一時的かつ有体の記録媒体（メモリ）で構成され、プロセッサが実行する各種プログラム（本発明に係る医療情報処理プログラムまたはその一部を含んでいてよい）、及び、制御に必要な各種データ等が格納される。通信部は、たとえば、ネットワークに接続可能な通信インタフェースで構成される。内視鏡画像処理装置６０は、通信部を介して内視鏡情報管理システム１００と通信可能に接続される。

　図６は、内視鏡画像処理装置６０の主な機能を示すブロック図である。

　同図に示すように、内視鏡画像処理装置６０は、主として、内視鏡画像取得部６１、入力情報取得部６２、画像認識処理部６３、区切り検出部６４、表示制御部６５、及び検査情報出力制御部６６等の機能を有する。これらの機能は、上述したプロセッサが補助記憶部等に格納されたプログラム（本発明に係る医療情報処理プログラムまたはその一部を含んでいてよい）を実行することにより実現される。

　［内視鏡画像取得部］
　内視鏡画像取得部６１は、内視鏡画像生成装置４０から内視鏡画像を取得する。画像の取得は、リアルタイムに行うことができる。すなわち、被写体の時系列の医療画像をリアルタイムに順次取得（順次入力）することができる。

　［入力情報取得部］
　入力情報取得部６２（プロセッサ）は、入力装置５０及び内視鏡２０を介して入力された情報を取得する。入力情報取得部６２は、主として音声情報以外の入力情報を取得する情報取得部６２Ａを備える。

　入力装置５０を介して入力情報取得部６２に入力される情報には、フットスイッチ５２、タブレット端末９０のマイク９０Ａ、あるいは図示せぬキーボードやマウス等を介して入力される情報（音声認識結果、区切りを示す信号等）が含まれる。また、内視鏡２０を介して入力される情報には、内視鏡画像（動画像）の撮影開始指示、静止画像の撮影指示等の情報が含まれる。後述するように、本実施形態において、ユーザはマイク９０Ａやフットスイッチ５２を介して、音声認識に対する区切りを示す信号の入力や、音声認識候補の選択操作等を行うことができる。入力情報取得部６２は、内視鏡画像生成装置４０を介して、フットスイッチ５２の操作情報を取得する。

　［画像認識処理部］
　画像認識処理部６３（プロセッサ）は、内視鏡画像取得部６１で取得される内視鏡画像に対し、画像認識を行う。画像認識処理部６３は、リアルタイムに（画像の取得から認識までの時間遅れなしに）画像認識を行うことができる。

　図７は、画像認識処理部６３の主な機能を示すブロック図である。同図に示すように、画像認識処理部６３は、病変部検出部６３Ａ、鑑別部６３Ｂ、特定領域検出部６３Ｃ、処置具検出部６３Ｄ、止血具検出部６３Ｅ、及び計測部６３Ｆ等の機能を有する。これら各部は、「内視鏡画像に特定の被写体が含まれているか」の判定に用いることができる。「特定の被写体」は、例えば病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも１つであるが、処置具や止血具を含んでいてもよい。また、「特定の被写体」は、以下に説明するように画像認識処理部６３の各部によって違っていてもよい。

　病変部検出部６３Ａは、内視鏡画像からポリープ等の病変部（病変；「特定の被写体」の一例）を検出する。病変部を検出する処理には、病変部であることが確定的な部分を検出する処理の他、病変の可能性がある部分（良性の腫瘍または異形成等；病変候補領域）を検出する処理、病変を処置した後の領域（処置後領域）、及び、直接的または間接的に病変に関連する可能性がある特徴を有する部分（発赤等）を認識する処理等が含まれる。

　鑑別部６３Ｂは、病変部検出部６３Ａが「内視鏡画像に病変部（特定の被写体）が含まれている」と判定した場合に、病変部検出部６３Ａで検出された病変部について鑑別処理を行う（鑑別モードの開始）。本実施形態において、鑑別部６３Ｂは、病変部検出部６３Ａで検出されたポリープ等の病変部について、腫瘍性（NEOPLASTIC）もしくは非腫瘍性（HYPERPLASTIC）の鑑別処理を行う。なお、鑑別部６３Ｂは、あらかじめ決められた基準を満たす場合に鑑別結果の出力を開始するように構成することができる。「あらかじめ決められた基準」として、例えば、「鑑別結果の信頼度（内視鏡画像の露出、合焦度合い、ぶれ等の条件に依存する）やその統計値（決められた期間内での最大または最小、平均等）がしきい値以上である場合」を採用することができるが、他の基準を用いてもよい。鑑別モードの開始及び鑑別結果の出力開始は、音声認識の結果をグループ化する際の開始区切り（一の区切り、他の区切り）として用いることができる。

　特定領域検出部６３Ｃは、内視鏡画像から管腔臓器内の特定領域（ランドマーク）を検出する処理を行う。たとえば、大腸の回盲部を検出する処理等を行う。大腸は管腔臓器の一例であり、回盲部は特定領域の一例である。特定領域検出部６３Ｃは、例えば、肝湾曲部（右結腸部）、脾湾曲部（左結腸部）、直腸Ｓ状部等を検出してもよい。また、特定領域検出部６３Ｃは、複数の特定領域を検出してもよい。

　処置具検出部６３Ｄは、内視鏡画像から画像内に現れる処置具を検出し、その種類を判別する処理を行う。処置具検出部６３Ｄは、生検鉗子、スネア等、複数の種類の処置具を検出するように構成することができる。同様に、止血具検出部６３Ｅは、止血クリップ等の止血具を検出し、その種類を判別する処理を行う。処置具検出部６３Ｄと止血具検出部６３Ｅを１つの画像認識器で構成してもよい。

　計測部６３Ｆは、計測モードにおいて、病変、病変候補領域、特定領域、処置後領域等の計測（形状、寸法等の測定）を行う。

　画像認識処理部６３の各部（病変部検出部６３Ａ、鑑別部６３Ｂ、特定領域検出部６３Ｃ、処置具検出部６３Ｄ、止血具検出部６３Ｅ、及び計測部６３Ｆ等）は、機械学習により生成された画像認識器（学習済みモデル）を用いて構成することができる。具体的には、上述の各部は、ニューラルネットワーク（Neural Network：NN）、畳み込みニューラルネットワーク（Convolutional Neural Network：CNN）、アダブースト（AdaBoost）、ランダムフォレスト（Random Forest）等の機械学習アルゴリズム（これらの派生型でもよい）を用いて学習した画像認識器（学習済みモデル）で構成することができる。また、鑑別部６３Ｂについて上述したように、これらの各部は、必要に応じてネットワークの層構成を設定すること等により、最終的な出力（鑑別結果や処置具の種類等）の信頼度を合わせて出力することができる。また、上述の各部は、内視鏡画像の全フレームについて画像認識を行ってもよいし、一部のフレームについて間欠的に画像認識を行ってもよい。

　内視鏡システム１０では、これらの各部から内視鏡画像の認識結果が出力されることや、あらかじめ決められた基準（信頼度のしきい値等）を満たす認識結果が出力されることを音声認識の開始区切りあるいは終了区切り（音声入力のトリガ）としてもよいし、それらの出力がされる期間を、音声認識を実行する期間としてもよい。

　また、画像認識処理部６３を構成する各部を画像認識器（学習済みモデル）で構成する代わりに、各部の一部または全部について、内視鏡画像から特徴量を算出し、算出した特徴量を用いて検出等を行う構成を採用することもできる。

　［区切り検出部］
　区切り検出部６４（プロセッサ）は、音声認識の結果に対する区切り（音声認識の結果をグループ化する際の終了区切り；一の区切り、他の区切り）を検出する。具体的には、区切り検出部６４は、内視鏡画像（医療画像）における特定の被写体の検出終了、マイク９０Ａ（音声認識装置）に対する第１の特定語句の音声入力、マイク９０Ａに対する音声入力の決められた時間以上の未入力状態継続、音声認識する項目の全てに対する音声入力の完了、音声認識する項目の内の特定の項目に対する音声入力の完了、内視鏡スコープの挿入長及び／または挿入形状が決められた値以上に変化したことを示す情報の取得、内視鏡システムのユーザによる操作デバイス（フットスイッチ５２、操作部２２に設けられた操作部材等）を介した操作の開始または停止のうち少なくとも１つを、終了区切りとして認識することができる。これらを区切りとした音声認識については、詳細を後述する。

　なお、区切り検出部６４は、例えば病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも１つを「特定の被写体」と判断することができるが、この他に処置具や止血具を「特定の被写体」と認識してもよい。また、区切り検出部６４は、例えば内視鏡システム１０に接続された大腸内視鏡形状測定装置により、内視鏡スコープの挿入長及び／または挿入形状を計測することができる。

　［表示制御部］
　表示制御部６５（プロセッサ）は、表示装置７０の表示を制御する。以下、表示制御部６５が行う主な表示制御について説明する。

　表示制御部６５は、検査中（撮影中）、内視鏡２０で撮影された画像（内視鏡画像）を表示装置７０にリアルタイムに（時間遅れなしに）表示させる。図８は、検査中の画面表示の一例を示す図である。同図に示すように、画面７０Ａ内に設定された主表示領域Ａ１に内視鏡画像Ｉ（ライブビュー）が表示される。画面７０Ａには、更に副表示領域Ａ２が設定され、検査に関する各種情報が表示される。図８に示す例では、患者に関する情報Ｉｐ、及び、検査中に撮影された内視鏡画像の静止画像Ｉｓを副表示領域Ａ２に表示した場合の例を示している。静止画像Ｉｓは、たとえば、画面７０Ａの上から下に向かって撮影された順に表示される。なお、表示制御部６５は、病変等の特定の被写体が検出されている場合に、その被写体をバウンディングボックス等により強調表示してもよい。

　また、表示制御部６５は、音声認識の状態を示すアイコン３００、撮影中の部位を示すアイコン３２０、撮影対象の部位（上行結腸、横行結腸、下行結腸等）及び音声認識の結果をリアルタイムに（時間遅れなしに）文字表示する表示領域３４０を画面７０Ａに表示させることができる。また、表示制御部６５は、音声認識が可能になった場合に音声入力を促すメッセージを画面７０Ａに表示させてもよい。

　表示制御部６５は、内視鏡画像からの画像認識、ユーザによる操作デバイスを介した入力、内視鏡システム１０に接続された外部装置（例えば、内視鏡挿入形状観測装置）等により部位の情報を取得し、表示することができる。なお、表示制御部６５はタブレット端末９０のディスプレイ９０Ｅや他の表示装置に各種の情報を表示させてもよい。

　［検査情報出力制御部］
　検査情報出力制御部６６は、検査情報を記録装置７５及び／または内視鏡情報管理システム１００に出力する。また、検査情報出力制御部６６は、検査情報をフラッシュメモリ９０Ｈやデータベース２１０に出力してもよい。検査情報は、例えば検査中に撮影された内視鏡画像、特定の被写体についての判定の結果、音声認識の結果、検査中に入力された部位や処置名、処置具の情報等を含んでいてよい。後述するように、検査情報出力制御部６６は、これらの情報をグループ化して出力することができる。また、検査情報出力制御部６６は、検査情報を、例えば病変ないし検体採取ごとに出力することができる。

　検査情報出力制御部６６は、例えば病変部等を撮影した内視鏡画像に対し、音声認識の結果や部位の情報を関連付けて出力することができる。また、処置が行われた場合には、検査情報出力制御部６６は、選択された処置名の情報及び検出された処置具の情報を、内視鏡画像及び部位の情報、音声認識の結果等に関連付けて出力することもできる。また、検査情報出力制御部６６は、病変部等とは別に撮影された内視鏡画像を、適時、記録装置７５及び／または内視鏡情報管理システム１００に出力することができる。検査情報出力制御部６６は、内視鏡画像に撮影日時の情報を付加して出力してもよい。

　検査情報出力制御部６６は、後述するように、各情報を互いに関連付け、音声認識の区切りでグループ化して検査情報を出力することができる。

　［記録装置］
　記録装置７５（記録装置）は、各種の光磁気記録装置や半導体メモリ、及びその制御装置を備え、内視鏡画像（動画像、静止画像）、画像認識の結果、音声認識の結果、検査情報、レポート作成支援情報等を記録することができる。これらの情報は、内視鏡画像生成装置４０や内視鏡画像処理装置６０の副記憶部、あるいは内視鏡情報管理システム１００が備える記録装置に記録してもよいし、タブレット端末９０のメモリやデータベース２１０に記録してもよい。

　［タブレット端末］
　図９は、タブレット端末９０の構成を示す図である。同図に示すように、タブレット端末９０はマイク９０Ａ（音声入力装置）と、マイク９０Ａに入力された音声を認識する音声認識部９０Ｂと、音声認識に用いられる音声認識辞書９０Ｃと、を備える。音声認識辞書６２Ｃは、内容が異なる複数の辞書（例えば、部位情報、所見情報、処置情報、及び止血情報に関する辞書）を含んでいてもよい。また、タブレット端末９０は、後述する病変情報入力ボックス（項目情報、及び項目情報に対応する音声認識の結果；図１２～１３を参照）等の表示制御を行う表示制御部９０Ｄ及び病変情報入力ボックス等が表示されるディスプレイ９０Ｅ（表示装置）、スピーカー９０Ｆ（出力装置）、及び通信制御部９０Ｇを備え、通信制御部９０Ｇを介してクラウド２００上のデータベース２１０にアクセスすることができる。

　音声認識部９０Ｂは音声認識辞書９０Ｃを参照して音声認識を行う。音声認識辞書９０Ｃは特徴（例えば、対象とする部位）の異なる複数の辞書を含んでいてよく、画像認識処理部６３が内視鏡画像の撮影部位を認識し、その認識結果に基づいて音声認識部９０Ｂが適切な音声認識辞書を選択してもよい。

　なお、図９では、タブレット端末９０がマイク９０Ａ及びスピーカー９０Ｆを備える場合について説明しているが、これらのデバイスに加えて、またはこれらに代えて、外付けのマイク及び／またはスピーカーや、マイク及びスピーカーを備えるヘッドセット（音声入力装置、出力装置）を用いてもよい。

　また、タブレット端末９０は、音声認識のインタフェースとして機能する。例えばユーザ毎の音声認識のカスタマイズ設定をフラッシュメモリ９０Ｈ等に保存しておきユーザの操作に応じてディスプレイ９０Ｅに表示することや、使用法のガイダンスをディスプレイに表示すること、あるいはタブレット端末９０用のアプリケーション（プログラム）の操作履歴を収集、表示することができる。また、タブレット端末９０は、通信制御部９０Ｇを介してインターネットやクラウドに接続してアプリケーションやデータを取得あるいは更新することができる。音声認識部９０Ｂにおいて、ユーザの発話の特徴に合わせて音声認識の学習を行ってもよい。

　上述したタブレット端末９０の機能は、ＣＰＵ等のプロセッサを用いて実現することができる。プロセッサによる処理の際にはフラッシュメモリ９０Ｈ（非一時的かつ有体な記録媒体の一例）に記憶されたプログラム（本発明に係る医療情報処理プログラムまたはその一部（主として音声認識に係る部分））やデータが参照され、ＲＡＭ９０Ｉが一時的記憶領域あるいは作業領域として用いられる。

　第１の実施形態に係る内視鏡システム１０では、タブレット端末９０に代えて、またはこれに加えて、デスクトップ型またはノートブック型のコンピュータや、スマートフォン等のデバイスを用いてもよい。

　［内視鏡システムにおける機能の分担］
　なお、「内視鏡システム１０で実行する機能を内視鏡画像生成装置４０、内視鏡画像処理装置６０、タブレット端末９０でどのように分担するか」は、上述した例に限定されない。例えば、内視鏡画像生成装置４０や内視鏡画像処理装置６０の機能として上述した内容をタブレット端末９０で実行してもよいし、その逆に、タブレット端末９０の機能として上述した内容を内視鏡画像生成装置４０や内視鏡画像処理装置６０で実行してもよい。また、後述する第２の実施形態のように、タブレット端末９０を設けず全ての機能を内視鏡画像生成装置４０及び内視鏡画像処理装置６０で実行してもよい。

　なお、第１の実施形態ではマイク９０Ａを用いて音声入力を行う場合について説明するが、マイク９０Ａに代えて、またはマイク９０Ａに加えて入力装置５０がマイクを備えていてもよい（後述する第２の実施形態、図２０を参照）。

　［内視鏡システムにおける音声認識］
　上述した構成の内視鏡システム１０における音声認識及びその結果の記録について、以下に説明する。

　音声入力及び音声認識が可能になったら、あるいは時系列の内視鏡画像の撮影が始まったら、区切り検出部６４（プロセッサ）はこれらをグループ化の開始区切り（一の区切り）として検出することができる。また、これらの検出に対して、表示制御部９０Ｄ（プロセッサ）は、内視鏡画像についての音声入力を促すメッセージを出力装置に出力させることができる。具体的には、表示制御部９０Ｄは、タブレット端末９０のディスプレイ９０Ｅ（出力装置）に図１０のようなメッセージを表示してもよいし、スピーカー７２（出力装置）あるいはスピーカー９０Ｆ（出力装置）から音声メッセージを出力してもよい。このようなメッセージの出力により、ユーザは、音声認識が可能であることを容易に把握することができる。

　なお、音声認識部９０Ｂは、メッセージ出力後に音声認識及びそのグループ化を開始してもよいし、内視鏡画像（時系列の医療画像）の撮影が始まったら自動的に音声認識及びそのグループ化を開始してもよい（この場合、区切り検出部６４は、撮影開始を「グループ化の開始区切り」として検出することができる）。

　［音声認識結果のグループ化］
　区切り検出部６４（プロセッサ）は、音声認識の結果に対する区切り（音声認識の終了区切り；区切り）を検出する。検査情報出力制御部６６（プロセッサ）は、区切り検出部６４が開始区切り（一の区切り）を検出してから、その開始区切りを検出した時刻より後の時刻において、開始区切りに対応する終了区切り（他の区切り）を再度検出した場合は、開始区切りから終了区切りまでの期間における音声認識の結果をグループ化して記録装置７５及び／またはフラッシュメモリ９０Ｈ（記録装置）に記録させる。

　図１１は、音声認識の結果をグループ化して記録する様子を示す図である。同図は、「登録」の語（第１の特定語句）の音声入力及び音声認識を終了区切り（区切り）としてグループ化する例を示しており、検査情報出力制御部６６は、期間Ｔ１、期間Ｔ２における音声認識の結果をそれぞれ１つのグループとして記録する。「登録」の後は第１の特定語句の一例であり、「確定」等他の語句を用いてもよい。「登録」の語それ自体はグループ化しなくてよい。

　なお、「グループ化」の具体的態様には、複数の音声認識結果を１つのファイルやフォルダに記録すること（後述する病変情報入力ボックス単位で記録してもよい）、音声認識結果に他の音声認識結果のリンクを付加すること等が含まれる。

　図１１の例では、期間Ｔ１、期間Ｔ２は、それぞれ別の病変についての音声認識期間である。また、以降の図においてマイクの図形は音声入力及び音声認識のタイミングを示し、音声入力に応じて音声認識も行われるものとする。

　期間Ｔ１に関しては、時刻ｔ１において、撮影が開始したことや音声入力が可能な状態になったこと等により開始区切り（一の区切り）が検出されているものとする。また、開始区切りが検出された時刻ｔ１より後の時刻ｔ２において、当該開始区切りに対応する終了区切り（「登録」の後の音声入力；一の区切りに対応する他の区切り）が検出されている。また、期間Ｔ２に関しては、期間Ｔ１の時刻ｔ２で終了区切りが検出されてから、時刻ｔ２より後の時刻ｔ３に終了区切り（「登録」の語）が再度検出されており、時刻ｔ２から時刻ｔ３までの期間における音声認識の結果がグループ化される。すなわち、図１１の例では、時刻ｔ２における「登録」の語の音声入力は期間Ｔ１の終了区切りであり、かつ期間Ｔ２の開始区切りでもある。

　第１の実施形態によれば、音声認識結果のグループ化により、関連する音声認識の結果を容易に把握することができる。このようにグループ化された音声認識結果は、レポート作成等に活用することができる。

　［病変情報入力ボックスの表示］
　表示制御部９０Ｄ（プロセッサ）は、音声認識を開始した場合は、図１２に例示するように、病変情報入力ボックス（音声認識する項目を示す項目情報）及び項目情報に対応する音声認識の結果をディスプレイ９０Ｅ（表示装置）に表示させる。図１２の（ａ）部分は病変情報入力ボックス５００を表示した例（未入力状態）であり、病変情報入力ボックス５００は項目情報を示す領域５００Ａと、項目情報に対応する音声認識の結果を示す領域５００Ｂとから構成される。図１２の例において、項目情報は診断、所見、処置、止血（１組の項目情報）を含んでいる。このように、項目情報は診断、所見、処置、止血のうち少なくとも１つを含むことが好ましい。また、図１２の（ｂ）部分は項目情報のうち部位、診断について音声入力及び音声認識された状態を示す。このような病変情報入力ボックスにより、ユーザは音声認識の対象となる項目及びその入力状態を容易に把握することができる。

　図１２の（ｃ）部分は未入力の項目を表示する領域５０１をグレーアウト（識別表示の一態様）した例を示す。このように識別表示を行うことにより、ユーザは未入力の項目を容易に把握することができる。なお、表示制御部９０Ｄは、病変情報入力ボックス５００（項目情報）及び音声認識結果の表示をリアルタイムに（時間遅れなしに）行うことができる。

　なお、表示制御部９０Ｄは、音声認識の結果を、時系列の内視鏡画像を表示する表示装置とは別個の表示装置に表示させることができる。

　［病変情報入力ボックスの表示態様の変更］
　上述した病変情報入力ボックスは病変（注目領域の一例）ごとに表示、入力され、検査において複数の病変が発見された場合は、それら病変に対応して複数の病変情報入力ボックスが表示、入力される。このような場合、表示制御部９０Ｄは、グループ化の終了区切り（区切り）を検出した場合は、ディスプレイ９０Ｅ（表示装置）における項目情報及び音声認識の結果の表示態様を変更させる（例えば、識別力を低下させる）ことができる。図１３は、そのような表示態様の変更の例を示す図である。図１３の（ａ）部分に示す例では、表示制御部９０Ｄは、グループ化が確定した病変情報入力ボックス５０２について、枠線を点線化すると共にグレーアウトし、同図の（ｂ）部分に示す例では、グループ化が確定した病変情報入力ボックス５０６をさらにサムネイル画像化して表示している。これらの態様の他に、表示制御部９０Ｄは、グループ化が確定した病変情報入力ボックスをアイコン化して表示してもよいし、消去してもよい。このような表示態様の変更により、ユーザは現在入力対象となっている病変情報入力ボックスを容易に把握することができる。

　［音声認識結果及び画像のグループ化］
　本発明では、グループ化の終了区切り（区切り）を検出するまでの期間において内視鏡スコープで撮影した医療画像から選択した画像を、音声認識結果と共にグループ化して記録装置（記録装置７５、フラッシュメモリ９０Ｈ等）に記録させることができる。図１４は、画像もグループ化する様子を示す図である。同図に示す例では、検査情報出力制御部６６は、期間Ｔ３において撮影した３枚の静止画像（時系列の医療画像とは別に撮影した撮影画像；図１４，１５においてカメラの記号で示す）の内から静止画像６００Ａを選択して、音声認識結果と共にグループ化する。なお、時刻ｔ１における「登録」の語の音声入力が期間Ｔ３の終了区切りであり、前の期間における終了区切り等を期間Ｔ３の開始区切りとすることができる（後述する図１５，１６，１７についても同様である）。

　図１５は、画像もグループ化する様子を示す他の図である。同図に示す例では、検査情報出力制御部６６は、期間Ｔ４において撮影した時系列の医療画像を構成するフレーム画像から画像６０２Ａ，６０２Ｂを選択して、音声認識結果と共にグループ化する。

　検査情報出力制御部６６は、音声認識結果と共にグループ化する画像を、決められた条件に基づいて自動的に（ユーザ操作によらずに）選択することができる。例えば、検査情報出力制御部６６は、決められたタイミングで撮影した静止画像を選択することができる。「決められたタイミングで撮影した静止画像」は、図１４の例では期間Ｔ３で最初に撮影した静止画像であるが、例えば処置の前及び／または後等、他のタイミングでもよい。また、検査情報出力制御部６６は、画質に基づいて画像を選択してもよい。例えば、検査情報出力制御部６６は、ボケやブレの少ない画像、明るさが決められた範囲内である画像を選択することができる。また、検査情報出力制御部６６は、ユーザの操作に基づいて画像を選択してもよい。検査情報出力制御部６６は、音声認識と並行して画像を選択してもよいし、音声認識結果のグループ化が終了してから画像を選択してもよい。

　［グループ化終了区切りのバリエーション］
　上述の例ではグループ化の特定語句（第１の特定語句）が音声認識されたことをグループ化の終了区切り（区切り）とする場合について説明しているが、区切り検出部６４（プロセッサ）は、他の情報を終了区切りとして検出することもできる。図１６は画像認識処理部６３が特定の被写体（ここでは病変）の検出を終了したことを終了区切りとする例であり（期間Ｔ５と期間Ｔ６では別の病変が検出されている）、図１７は内視鏡２０（内視鏡スコープ）の挿入長及び／または挿入形状に基づく終了区切りを用いる例である。図１７の例において、区切り検出部６４は、例えばスコープの挿入形状が類似で挿入長の変化が停滞している期間Ｔ７及び期間Ｔ８は「特定の病変についての観察や処置の最中である」（終了区切りを検出していない）と判断して、挿入長及び／または挿入形状が決められた基準以上を超えて変化した場合（期間Ｔ７の終了時）は「特定の病変についての観察や処置が終了した」（「終了区切りを検出した」）と判断することができる。なお、内視鏡２０の挿入長及び／または挿入形状は、例えば大腸内視鏡形状測定装置を内視鏡システム１０に接続することで測定することができる。

　図１６，１７について上述した例では、ユーザは図１１について上述したような「特定の語句の音声入力」を行う必要はない。

　図１１，１６，１７について上述した例も含め、区切り検出部６４は、時系列の内視鏡画像（医療画像）における特定の被写体（例えば、病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも１つ）の検出終了、マイク９０Ａ（音声認識装置）に対する第１の特定語句の音声入力、マイク９０Ａに対し音声入力が決められた時間以上未入力の状態が継続していること、音声認識する項目（上述の例では部位、診断、所見、処置）の全てに対する音声入力の完了、音声認識する項目の内の特定の項目（例えば、処置）に対する音声入力の完了、内視鏡スコープの挿入長及び／または挿入形状が決められた値以上に変化したことを示す情報の取得、内視鏡システムのユーザによる操作デバイス（フットスイッチ５２等）を介した操作の開始または停止のうち少なくとも１つを終了区切りとして検出することができる。区切り検出部６４は一つの情報だけでは終了区切りの検出精度が低い場合に、これらの情報のうち複数を組み合わせて終了区切りとして検出精度を高めてもよい。

　［グループ化の開始区切り］
　上述した態様では主としてグループ化の終了区切りについて規定しており、前の期間の終了区切りを次の期間の開始区切りとする場合について説明しているが、終了区切りと同様に、明示的なグループ化の開始区切りを用いてもよい。この場合、区切り検出部６４は内視鏡画像の撮影中（入力中）に音声認識の開始区切り（区切り）を検出する。音声認識部９０Ｂは、開始区切り（区切り）を検出した場合に、図１０の例と同様に音声入力を促すメッセージを出力してもよい。

　図１８は、開始区切りから終了区切りまでの期間における音声認識結果をグループ化する様子を示す図である。この例では、音声認識部９０Ｂは、区切り検出部６４が時刻ｔ１で「開始」の語（第２の特定語句の一例；開始区切り）を検出してから、時刻ｔ１より後の時刻ｔ２において「登録」の語（第１の特定語句の一例；終了区切り）を検出するまでの期間Ｔ９における音声認識結果（“横行結腸”、“Ｉｓ”、“ＣＦＰ”）をグループ化して記録装置（記録装置７５及び／またはフラッシュメモリ９０Ｈ）に記録させる。なお、「開始」の語は第２の特定語句の一例であり、他の語を用いてもよい。

　区切り検出部６４は、特定語句の音声入力の他に、例えば内視鏡画像における特定の被写体の検出開始を示す判定結果（検出結果）をグループ化の開始区切りとして検出することができ、この場合、病変部検出部６３Ａの出力を判定結果とすることができる。また、区切り検出部６４は、特定の被写体についての鑑別モードの開始、特定の被写体に対する鑑別結果の出力開始、特定の被写体についての計測モードの開始等を開始区切りとして検出してもよいし（この場合、鑑別結果として鑑別部６３Ｂの出力を用いることができる）、時系列の医療画像の撮影開始指示、マイク９０Ａ（音声入力装置）に対するウェイクワード（第２の特定語句の一例）の入力、フットスイッチ５２の操作、内視鏡システムに接続された他の操作デバイス（例えば、大腸内視鏡形状測定装置等）に対するユーザの操作等を開始区切りとして検出してもよい。音声認識部９０Ｂは、開始区切りに応じた音声認識辞書９０Ｃを設定してもよい。

　［第２の実施形態］
　図１９は、第２の実施形態に係る内視鏡システム１１の構成を示す図である。また、図２０は第２の実施形態における内視鏡画像生成装置４０の構成を示す図であり、図２１は第２の実施形態における内視鏡画像処理装置６０の構成を示す図である。これらの図に示すように、第２の実施形態では、第１の実施形態におけるタブレット端末９０の機能を内視鏡画像生成装置４０及び内視鏡画像処理装置６０で実行する。ユーザは、入力装置５０のマイク５１を介して音声入力を行い、入力情報取得部６２の音声認識部６２Ｂが音声認識辞書６２Ｃを用いて音声認識を行う。

　第２の実施形態において、音声認識結果のグループ化、あるいは音声認識結果と画像とのグループ化は第１の実施形態と同様に行うことができ、これによりユーザは関連する音声認識の結果を容易に把握することができる。図２２は第２の実施形態における音声認識結果の例を示す図であり、表示装置７０の画面７０Ａに病変情報入力ボックス５００（項目情報及び音声認識結果）を表示した様子を示している。

　［上部消化管用内視鏡への適用］
　上述の実施形態では、本発明を下部消化管用の内視鏡システムに適用した場合について説明したが、本発明は上部消化管用内視鏡にも適用することができる。

　以上で本発明の実施形態について説明してきたが、本発明は上述した態様に限定されず、本発明の精神を逸脱しない範囲で種々の変形が可能である。

１　　　内視鏡画像診断支援システム
１０　　内視鏡システム
１１　　内視鏡システム
２０　　内視鏡
２１　　挿入部
２１Ａ　先端部
２１Ｂ　湾曲部
２１Ｃ　軟性部
２１ａ　観察窓
２１ｂ　照明窓
２１ｃ　送気送水ノズル
２１ｄ　鉗子出口
２２　　操作部
２２Ａ　アングルノブ
２２Ｂ　送気送水ボタン
２２Ｃ　吸引ボタン
２２Ｄ　鉗子挿入口
２３　　接続部
２３Ａ　コード
２３Ｂ　ライトガイドコネクタ
２３Ｃ　ビデオコネクタ
２４　　光学系
２５　　イメージセンサ
３０　　光源装置
４０　　内視鏡画像生成装置
４１　　内視鏡制御部
４２　　光源制御部
４３　　画像生成部
４４　　入力制御部
４５　　出力制御部
５０　　入力装置
５１　　マイク
５２　　フットスイッチ
６０　　内視鏡画像処理装置
６１　　内視鏡画像取得部
６２　　入力情報取得部
６２Ａ　情報取得部
６２Ｂ　音声認識部
６２Ｃ　音声認識辞書
６３　　画像認識処理部
６３Ａ　病変部検出部
６３Ｂ　鑑別部
６３Ｃ　特定領域検出部
６３Ｄ　処置具検出部
６３Ｅ　止血具検出部
６３Ｆ　計測部
６４　　区切り検出部
６５　　表示制御部
６６　　検査情報出力制御部
７０　　表示装置
７０Ａ　画面
７２　　スピーカー
７５　　記録装置
８０　　医療情報処理装置
９０　　タブレット端末
９０Ａ　マイク
９０Ｂ　音声認識部
９０Ｃ　音声認識辞書
９０Ｄ　表示制御部
９０Ｅ　ディスプレイ
９０Ｆ　スピーカー
９０Ｇ　通信制御部
９０Ｈ　フラッシュメモリ
９０Ｉ　ＲＡＭ
１００　内視鏡情報管理システム
２００　クラウド
２１０　データベース
３００　アイコン
３２０　アイコン
３４０　表示領域
５００　病変情報入力ボックス
５００Ａ　領域
５００Ｂ　領域
５０１　　領域
５０２　　病変情報入力ボックス
５０６　　病変情報入力ボックス
６００Ａ　静止画像
６０２Ａ　画像
６０２Ｂ　画像
Ａ１　　　主表示領域
Ａ２　　　副表示領域
Ｉ　　　　内視鏡画像
Ｉｐ　　　情報
Ｉｓ　　　静止画像
ｔ１　　　時刻
ｔ２　　　時刻
ｔ３　　　時刻
Ｔ１　　　期間
Ｔ２　　　期間
Ｔ３　　　期間
Ｔ４　　　期間
Ｔ５　　　期間
Ｔ６　　　期間
Ｔ７　　　期間
Ｔ８　　　期間
Ｔ９　　　期間

Claims

　音声の入力を受け付けて音声認識を行う音声認識装置と、
　被検体の医療画像を取得する内視鏡スコープと、
　プロセッサと、
　を備える内視鏡システムであって、
　前記プロセッサは、
　前記被検体の時系列の医療画像を前記内視鏡スコープに撮影させ、
　前記時系列の医療画像の撮影中に、前記音声認識の結果に対する区切りを検出し、
　一の前記区切りを検出してから、前記一の区切りを検出した時刻より後の時刻において前記一の区切りに対応する他の前記区切りを検出するまでの期間における前記音声認識の結果をグループ化して記録装置に記録させる内視鏡システム。
　前記プロセッサは、
　前記音声認識を開始した場合は、音声認識する項目を示す項目情報と、前記項目情報に対応する音声認識の結果と、を表示装置に表示させる請求項１に記載の内視鏡システム。
　前記プロセッサは、１組の前記項目情報に対応する前記音声認識の結果を１つのグループとして前記記録装置に記録させる請求項２に記載の内視鏡システム。
　前記プロセッサは、
　前記一の区切りを検出してから前記他の区切りを検出するまで前記項目情報及び前記音声認識の結果の表示を継続し、
　前記他の区切りを検出した場合は、前記表示装置における前記項目情報及び前記音声認識の結果の表示態様を変更させる請求項２または３に記載の内視鏡システム。
　前記プロセッサは、
　前記項目情報及び前記音声認識の結果をリアルタイムに前記表示装置に表示させる請求項２から４のいずれか１項に記載の内視鏡システム。
　前記項目情報は、診断、所見、処置、止血のうち少なくとも１つを含む請求項２から５のいずれか１項に記載の内視鏡システム。
　前記プロセッサは、前記一の区切りを前記グループ化の開始区切りとして検出し、前記他の区切りを前記グループ化の終了区切りとして検出する請求項１から６のいずれか１項に記載の内視鏡システム。
　前記プロセッサは、前記終了区切りを検出してから、前記終了区切りを検出した時刻より後の時刻に前記終了区切りを再度検出するまでの期間における前記音声認識の結果をグループ化する請求項７に記載の内視鏡システム。
　前記プロセッサは、
　前記医療画像における特定の被写体の検出終了、前記音声認識装置に対する第１の特定語句の音声入力、前記音声認識装置に対する音声入力の決められた時間以上の未入力状態継続、前記音声認識する項目の全てに対する音声入力の完了、前記音声認識する項目の内の特定の項目に対する音声入力の完了、前記内視鏡スコープの挿入長及び／または挿入形状が決められた値以上に変化したことを示す情報の取得、前記内視鏡システムのユーザによる操作デバイスを介した操作の開始または停止のうち少なくとも１つを前記終了区切りとして検出する請求項７または８に記載の内視鏡システム。
　前記プロセッサは、
　前記医療画像における特定の被写体の検出開始、前記音声認識装置に対する第２の特定語句の音声入力、前記内視鏡システムのユーザによる操作デバイスを介した入力、前記特定の被写体についての鑑別モードの開始、前記特定の被写体についての鑑別結果の出力開始、前記特定の被写体についての計測モードの開始のうち少なくとも１つを前記開始区切りとして検出する請求項７から９のいずれか１項に記載の内視鏡システム。
　前記プロセッサは、病変、病変候補領域、ランドマーク、処置後領域のうち少なくとも１つを前記特定の被写体と判断する請求項９または１０に記載の内視鏡システム。
　前記プロセッサは、機械学習により生成された画像認識器を用いて前記特定の被写体を認識する請求項９から１１のいずれか１項に記載の内視鏡システム。
　前記プロセッサは、前記開始区切りを検出した場合は、前記医療画像についての音声入力を促すメッセージを出力装置に出力させる請求項８から１２のいずれか１項に記載の内視鏡システム。
　前記プロセッサは、
　前記一の区切りを検出してから前記他の区切りを検出するまでの期間において前記内視鏡スコープで撮影した医療画像から選択した画像を、前記音声の認識結果と共にグループ化して記録させる請求項１から１３のいずれか１項に記載の内視鏡システム。
　前記プロセッサは、前記時系列の医療画像を構成するフレーム画像から選択した画像、及び／または前記時系列の医療画像とは別に撮影した撮影画像から選択した画像を、前記音声認識の結果と共にグループ化して記録させる請求項１から１４のいずれか１項に記載の内視鏡システム。
　前記プロセッサは、前記時系列の医療画像と前記音声認識の結果とを別個の表示装置に表示させる請求項１から１５のいずれか１項に記載の内視鏡システム。
　音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムにより実行される医療情報処理方法であって、
　前記プロセッサは、
　前記被検体の時系列の医療画像を前記内視鏡スコープに撮影させ、
　前記時系列の医療画像の撮影中に、前記音声認識の結果に対する区切りを検出し、
　一の前記区切りを検出してから、前記一の区切りを検出した時刻より後の時刻において前記一の区切りに対応する他の前記区切りを検出するまでの期間における前記音声認識の結果をグループ化して記録装置に記録させる医療情報処理方法。
　音声の入力を受け付けて音声認識を行う音声認識装置と、被検体の医療画像を取得する内視鏡スコープと、プロセッサと、を備える内視鏡システムに医療情報処理方法を実行させる医療情報処理プログラムであって、
　前記医療情報処理方法において、前記プロセッサは、
　前記被検体の時系列の医療画像を前記内視鏡スコープに撮影させ、
　前記時系列の医療画像の撮影中に、前記音声認識の結果に対する区切りを検出し、
　一の前記区切りを検出してから、前記一の区切りを検出した時刻より後の時刻において前記一の区切りに対応する他の前記区切りを検出するまでの期間における前記音声認識の結果をグループ化して記録装置に記録させる医療情報処理プログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、請求項１８に記載のプログラムが記録された記録媒体。