WO2022209371A1

WO2022209371A1 - 情報処理システム、情報処理方法および情報処理プログラム

Info

Publication number: WO2022209371A1
Application number: PCT/JP2022/005868
Authority: WO
Inventors: 健太郎鳥澤; 清敬大竹
Original assignee: 国立研究開発法人情報通信研究機構
Priority date: 2021-03-31
Filing date: 2022-02-15
Publication date: 2022-10-06
Also published as: US20240152565A1; JP2022157192A

Abstract

情報処理システムは、位置情報およびテキストを含む処理対象の処理結果を格納する処理結果データベースと、処理対象に含まれる位置情報に対応する単位エリアを決定するエリア決定手段と、第１解析処理と第１解析処理より精度が高い第２解析処理とを含む複数の解析処理のうち指定された解析処理によって、テキストを解析して処理結果を出力する解析手段と、第１解析処理によってテキストを解析して第１処理結果を取得した後に、決定された単位エリアについて別の処理対象の処理結果が既に格納されていれば、第１処理結果を処理結果データベースに追加し、決定された単位エリアについて別の処理対象の処理結果が格納されていなければ、第２解析処理によってテキストを解析して第２処理結果を取得し、処理結果データベースに格納する制御手段とを含む。

Description

情報処理システム、情報処理方法および情報処理プログラム

　本発明は、情報処理システム、情報処理方法および情報処理プログラムに関する。

　スマートフォンなどの携帯端末の急速な普及に伴って、誰もが容易に情報を発信できる手段として、様々な用途にＳＮＳ（Social　Networking　Service）が利用されるようになっている。ＳＮＳの用途の一つとして、災害時における情報収集が注目されている。

　災害時に収集すべき情報は、発生している事象の内容などに加えて、当該事象が発生している場所などを含む。一方で、発信者のプラバシーや個人情報を保護する観点から、当該発信者の携帯端末が有している位置情報は利用されず、もっぱら、ユーザが明示的に発信した位置を示す表現を解析することで、対象の場所を特定するという手法が採用される。

　メッセージに含まれるテキストを解析して、事象の内容を抽出するためには、自然言語処理が用いられる。例えば、非特許文献１に開示されるような深層学習に従う言語モデルを活用することで、より高い精度を実現できる。

Jacob　Devlin,　Ming-Wei　Chang,　Kenton　Lee,　and　Kristina　Toutanova,　"BERT:　Pre-training　of　Deep　Bidirectional　Transformers　for　Language　Understanding,"　Proceedings　of　NAACL-HLT　2019,　pages　4171-4186

　深層学習に従う言語解析処理を実現するためには、学習時および実行時のいずれにおいても、膨大な演算を実行する必要があり、例えば、ＧＰＵ（Graphics　Processing　Unit）やニューロチップといった専用のハードウェアリソースが用いられることが多い。そのため、深層学習に従う言語解析処理を採用する場合には、ＣＰＵ（Central　Processing　Unit）などの汎用的なハードウェアリソースを用いて実現する場合に比較して、コストが増加する。

　特に、災害時などには、多くの情報が発信されて、膨大なテキストを処理する必要がある一方で、処置や対策を急ぐ必要があるため、制限された処理時間内に解析処理を完了しなければならないという要求も存在する。

　本発明の一つ目的は、位置情報およびテキストを含む処理対象を効率的に処理するための技術を提供することである。

　ある実施の形態に従う情報処理システムは、位置情報およびテキストを含む処理対象の処理結果を格納する処理結果データベースと、処理対象に含まれる位置情報に対応する単位エリアを決定するエリア決定手段と、第１解析処理と第１解析処理より精度が高い第２解析処理とを含む複数の解析処理のうち指定された解析処理によって、テキストを解析して処理結果を出力する解析手段と、第１解析処理によってテキストを解析して第１処理結果を取得した後に、決定された単位エリアについて別の処理対象の処理結果が既に格納されていれば、第１処理結果を処理結果データベースに追加し、決定された単位エリアについて別の処理対象の処理結果が格納されていなければ、第２解析処理によってテキストを解析して第２処理結果を取得し、処理結果データベースに格納する制御手段とを含む。

　複数の解析処理は、第１解析処理より精度が高く、かつ、第２解析処理より精度が低い第３解析処理をさらに含んでいてもよい。制御手段は、第２解析処理を実行できない負荷状態であれば、第２解析処理に代えて、第３解析処理によってテキストを解析するようにしてもよい。

　処理結果は、抽出すべき情報を示す文字列であるフレーズと、当該フレーズの意味を示す意味情報とを含んでいてもよい。

　情報管理システムは、解析処理の処理状態を単位エリア毎に格納する処理状態データベースをさらに含んでいてもよい。処理状態は、解析処理が実行されて処理結果が取得された状態と、解析処理が実行されて処理結果が取得されていない状態と、解析処理が未だ実行されていない状態とのうちいずれかを設定可能になっていてもよい。

　処理状態は、実行された解析処理の種類を特定する情報を含んでいてもよい。制御手段は、任意の単位エリアについての処理結果の取得に用いられた解析処理より精度が高い解析処理を追加的に実行するようにしてもよい。

　制御手段は、決定された単位エリアについての処理状態が処理状態データベースに存在しなければ、決定された単位エリアから所定範囲内に存在する他の単位エリアについての処理状態を検索するようにしてもよい。

　制御手段は、第１解析処理によって第１処理結果を取得できないときも、第２解析処理によってテキストを解析して第２処理結果を取得するようにしてもよい。

　位置情報は、緯度経度で示される位置情報、および、ＵＴＭ（Universal　Transverse　Mercator）座標系で示される位置の情報の少なくとも一方を含んでいてもよい。

　別の実施の形態に従う情報処理方法は、位置情報およびテキストを含む処理対象を受信するステップと、処理対象に含まれる位置情報に対応する単位エリアを決定するステップと、第１解析処理によってテキストを解析して第１処理結果を取得するステップと、決定された単位エリアについて別の処理対象の処理結果が既に処理結果データベースに格納されているか否かを判断するステップと、決定された単位エリアについて別の処理対象の処理結果が既に処理結果データベースに格納されていれば、第１処理結果を処理結果データベースに追加するステップと、決定された単位エリアについて別の処理対象の処理結果が処理結果データベースに格納されていなければ、第１解析処理より精度が高い第２解析処理によってテキストを解析して第２処理結果を取得し、処理結果データベースに格納するステップとを含む。

　さらに別の形態に従えば、コンピュータに上記の情報処理方法を実行させるための情報処理プログラムが提供される。

　本発明によれば、位置情報およびテキストを含む処理対象を効率的に処理できる。

本実施の形態に従う情報処理システムのシステム構成の一例を示す模式図である。図１に示す携帯端末のユーザとチャットボットとの対話の一例を示す模式図である。本実施の形態に従う情報処理システムを構成する解析装置のハードウェア構成の一例を示す模式図である。本実施の形態に従う情報処理システムが提供する解析処理を示す概略図である。本実施の形態に従う情報処理システムが生成する処理結果データベースの一例を示す模式図である。本実施の形態に従う情報処理システムが生成する処理結果データベースの別の一例を示す模式図である。本実施の形態に従う情報処理システムが生成する処理状態データベースの一例を示す模式図である。本実施の形態に従う情報処理システムにおける解析処理プログラムの違いによる処理結果の相違例を示す図である。本実施の形態に従う情報処理システムが提供する解析処理の処理手順の一例を示すフローチャートである。

　本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

　［Ａ．システム構成］
　図１は、本実施の形態に従う情報処理システム１のシステム構成の一例を示す模式図である。図１を参照して、情報処理システム１は、解析装置１００と、ＳＮＳサーバ２００とを含む。なお、説明の便宜上、以下では、解析装置１００とＳＮＳサーバ２００とを分離した構成を例示するが、両者を一体化してもよい。

　ＳＮＳサーバ２００は、携帯端末３００との間でやり取りされるメッセージを収集する。なお、メッセージには、テキストに加えて、静止画像や動画像などの任意のコンテンツが含まれてもよい。

　ＳＮＳサーバ２００は、チャットボット２５０を有している。チャットボット２５０は、ＳＮＳの仮想的なユーザとして振る舞い、携帯端末３００のユーザと対話して、ユーザからのメッセージを収集する。典型的には、チャットボット２５０は、災害が発生した場合の情報（以下、「報告内容」とも称す。）を収集するための対話を行う。

　解析装置１００は、チャットボット２５０などによってＳＮＳサーバ２００に収集された１または複数のメッセージから生成される報告内容５０を解析して処理結果（後述の処理結果７１）を出力する。例えば、処理結果は、発生している事象および当該事象が発生している場所などの情報を含む。

　図２は、図１に示す携帯端末３００のユーザとチャットボット２５０との対話の一例を示す模式図である。図２を参照して、チャットボット２５０は、携帯端末３００のユーザからのメッセージに応答して、入力を促すメッセージを送信したり、追加の問合せを行うためのメッセージを送信したりする。

　携帯端末３００のユーザは、災害により生じた状況や被害などを報告する。この報告の際に、状況や被害の内容を示す任意のテキスト、当該報告に関する位置情報（例えば、緯度経度情報）、状況や被害を示す静止画や動画などが送信される。なお、静止画や動画などが添付されなくてもよい。図２に示すようなやり取りによって、ＳＮＳサーバ２００に報告内容５０が収集される。

　本実施の形態に従う情報処理システム１は、位置情報およびテキストを含む報告内容５０を処理対象とする。すなわち、情報処理システム１が実行する処理全体としては、位置情報およびテキストを処理した処理結果がデータベース等（後述の処理結果データベース７０および処理状態データベース８０）に格納される。より具体的には、図１および図２に示すように、情報処理システム１は、例えば、ＳＮＳ上でチャットボット２５０が収集した報告内容５０（典型的には、災害時における被害の報告）を解析して情報を抽出し、抽出により取得された情報をデータベースに格納する。

　テキストの処理結果としては、典型的には、必要とする情報を記述した文字列（後述のフレーズ７４）が出力される。なお、出力される文字列は、テキストに含まれる情報のみではなく、辞書等を参照して決定された何らかの意味を表す情報や、予め定められた記号なども含み得る。

　出力される文字列に含まれる情報に基づいて、文字列間の意味的距離あるいは同義か否かといった判定手続きを定義できる。さらに、解析装置１００は、文字列中の意味的距離等を求めるために用いる部分文字列を意味フラグ（後述のフレーズタイプ７５および意味カテゴリ７６に相当）として抽出する。意味フラグは、文字列（フレーズ７４）の意味を示す意味情報に相当する。

　［Ｂ．ハードウェア構成例］
　図３は、本実施の形態に従う情報処理システムを構成する解析装置１００のハードウェア構成の一例を示す模式図である。典型的には、解析装置１００は、汎用コンピュータを用いて実現できる。

　図３を参照して、解析装置１００は、主要なハードウェアコンポーネントとして、ＣＰＵ１０２と、ＧＰＵ１０４と、主メモリ１０６と、ディスプレイ１０８と、ネットワークインターフェイス（Ｉ／Ｆ：interface）１１０と、入力デバイス１１２と、光学ドライブ１１４と、二次記憶装置１２０とを含む。これらのコンポーネントは、内部バス１１８を介して互いに接続される。

　ＣＰＵ１０２および／またはＧＰＵ１０４は、本実施の形態に従う情報処理方法を実行するプロセッサである。ＣＰＵ１０２およびＧＰＵ１０４は、複数個配置されてもよいし、複数のコアを有していてもよい。

　主メモリ１０６は、プロセッサ（ＣＰＵ１０２および／またはＧＰＵ１０４）が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納（あるいは、キャッシュ）する記憶領域であり、例えば、ＤＲＡＭ（Dynamic　Random　Access　Memory）やＳＲＡＭ（Static　Random　Access　Memory）などの揮発性メモリデバイスなどで構成される。

　ディスプレイ１０８は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、ＬＣＤ（liquid　crystal　display）や有機ＥＬ（electroluminescence）ディスプレイなどで構成される。

　ネットワークインターフェイス１１０は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータをやり取りする。本実施の形態においては、ネットワークインターフェイス１１０は、ＳＮＳサーバ２００から解析装置１００への報告内容５０の伝送を担当する。ネットワークインターフェイス１１０としては、例えば、イーサネット（登録商標）、無線ＬＡＮ（local　area　network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式を採用できる。

　入力デバイス１１２は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。

　光学ドライブ１１４は、ＣＤ－ＲＯＭ（compact　disc　read　only　memory）、ＤＶＤ（digital　versatile　disc）などの光学ディスク１１６に格納されている情報を読出して、内部バス１１８を介して他のコンポーネントへ出力する。光学ディスク１１６は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ１１４が光学ディスク１１６からプログラムを読み出して、二次記憶装置１２０などにインストールすることで、コンピュータが解析装置１００として機能するようになる。したがって、本発明の主題は、二次記憶装置１２０などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク１１６などの記録媒体でもあり得る。

　図３には、非一過的な記録媒体の一例として、光学ディスク１１６などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（magneto-optical　disk）などの光磁気記録媒体を用いてもよい。

　二次記憶装置１２０は、コンピュータを解析装置１００として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、ＳＳＤ（solid　state　drive）などの不揮発性記憶装置で構成される。

　より具体的には、二次記憶装置１２０は、図示しないＯＳ（operating　system）の他、解析処理の実行を管理するための処理管理プログラム１２２と、ジオコードから対応する住所を決定するための逆ジオコードプログラム１２４と、解析処理を実現するための第１解析処理プログラム１２６、第２解析処理プログラム１２８、第３解析処理プログラム１３０とを格納している。また、二次記憶装置１２０には、処理結果データベース７０および処理状態データベース８０が形成されていてもよい。

　図３には、単一のコンピュータを用いて解析装置１００を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、本実施の形態に従う情報処理方法を実現するようにしてもよい。

　プロセッサ（ＣＰＵ１０２および／またはＧＰＵ１０４）がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired　circuit）を用いて実現してもよい。例えば、ＡＳＩＣ（application　specific　integrated　circuit）やＦＰＧＡ（field-programmable　gate　array）などを用いて実現してもよい。

　当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う解析装置１００を実現できるであろう。

　［Ｃ．解析処理の概要］
　次に、本実施の形態に従う情報処理システム１が提供する解析処理を概略する。

　図４は、本実施の形態に従う情報処理システム１が提供する解析処理を示す概略図である。図４を参照して、解析装置１００は、ＳＮＳサーバ２００から取得した報告内容５０を解析して、処理結果を処理結果データベース７０および処理状態データベース８０に格納する。解析装置１００は、位置情報（例えば、緯度経度情報）およびテキストを含む報告内容５０をより高速に解析処理する。

　ＳＮＳサーバ２００は、例えば、ＪＳＯＮ形式やＸＭＬ形式で、報告内容５０を解析装置１００に提供してもよい。報告内容５０は、解析装置１００に実装されたＡＰＩ（Application　Programming　Interface）を介して、処理管理プログラム１２２に提供されてもよい。報告内容５０は、例えば、識別情報５１と、ユーザ情報５２と、緯度経度情報５３と、テキスト５４と、写真添付属性５５とを含む。

　処理管理プログラム１２２は、報告内容５０の各々について、第１解析処理プログラム１２６、第２解析処理プログラム１２８、第３解析処理プログラム１３０を選択的に実行して、処理結果７１を生成する。なお、同一の報告内容５０に対して、第１解析処理プログラム１２６、第２解析処理プログラム１２８、第３解析処理プログラム１３０のうち１つが実行されることもあるし、複数が実行されることもある。

　第１解析処理プログラム１２６、第２解析処理プログラム１２８および第３解析処理プログラム１３０は、処理速度および精度が異なっている。例えば、第１解析処理プログラム１２６は、相対的に高速な処理が可能であるが、相対的に精度が低い。第３解析処理プログラム１３０は、処理速度が相対的に低いが、相対的に精度は高い。第２解析処理プログラム１２８の処理速度および精度は、いずれも第１解析処理プログラム１２６と第３解析処理プログラム１３０との間である。

　このように、情報処理システム１（解析装置１００）は、第１解析処理プログラム１２６による解析処理と、第１解析処理プログラム１２６による解析処理より精度が高い第３解析処理プログラム１３０による解析処理とを含む複数の解析処理のうち、指定された解析処理によって、報告内容５０に含まれるテキスト５４を解析して処理結果７１を出力する解析手段を有している。また、選択される複数の解析処理としては、第１解析処理プログラム１２６による解析処理より精度が高く、かつ、第３解析処理プログラム１３０による解析処理より精度が低い第２解析処理プログラム１２８による解析処理を含めてもよい。

　言語解析処理を想定すれば、第１解析処理プログラム１２６、第２解析処理プログラム１２８および第３解析処理プログラム１３０は、いずれもテキストの意味を解析し、処理結果７１を出力する処理を実行する。各解析処理プログラムが実行する解析処理の内容は異なっているが、出力される処理結果７１のフォーマットは互いに同一に構成されている。

　例えば、第１解析処理プログラム１２６は、ルールベースによる情報を抽出するものであり、第２解析処理プログラム１２８は、ＳＶＭ（Support　Vector　Machine）により情報を抽出するものであり、第３解析処理プログラム１３０は、深層学習を利用して情報を抽出するものである。

　なお、図４に示すように３種類の解析処理を用意する必要は必ずしもなく、２種類の解析処理のみを用意してもよいし、より多くの種類の解析処理を用意してもよい。すなわち、処理速度および精度の異なる複数種類の解析処理を用意しておき、これらの解析処理を予め定められた基準で順序付けしておく。

　処理結果データベース７０に格納される処理結果７１の各々は、例えば、報告内容５０に対応する単位エリア７２と、報告内容５０に対応する緯度経度情報７３と、抽出されたフレーズ７４と、抽出されたフレーズ７４のフレーズタイプ７５と、抽出されたフレーズ７４の意味カテゴリ７６と、対応する報告内容５０の写真添付属性７７と、対応する報告内容５０の識別情報７８とを含む。処理結果７１は、すべての情報をまとめた文字列として出力されてもよい。

　ここで、「フレーズ」は、報告内容５０に含まれるテキスト５４から収集すべき情報（例えば、災害により生じた状況や被害などの表現）に相当する文字列を意味する。

　フレーズタイプ７５の値としては、例えば、「要望・問題」、「矛盾」、「対応策」のいずれかが格納されるようにしてもよい。意味カテゴリ７６の値としては、「被害」や「火災」といった、災害により生じた状況や被害の内容を特定するテキストが格納される。フレーズタイプ７５および意味カテゴリ７６は、報告内容５０の意味フラグに相当する。

　このように、処理結果７１は、抽出すべき情報を示す文字列（フレーズ７４）と、フレーズ７４の意味を示す意味情報である意味フラグ（フレーズタイプ７５および意味カテゴリ７６）とを含む。

　１つの報告内容５０から複数のフレーズ７４が抽出されると、抽出されたフレーズ７４毎に、単位エリア７２、フレーズタイプ７５および意味カテゴリ７６をまとめた文字列を出力するようにしてもよい。また、報告内容５０に含まれるテキスト５４からフレーズ７４が抽出されなければ、抽出されなかったことを示す文字列が出力されるようにしてもよい。

　逆ジオコードプログラム１２４は、処理対象である報告内容５０に含まれる位置情報に対応する単位エリアを決定するエリア決定手段に相当する。より具体的には、逆ジオコードプログラム１２４は、報告内容５０に含まれる位置情報（緯度経度情報５３）に対応する単位エリア７２の住所表記を出力する。逆ジオコードプログラム１２４が出力する単位エリア７２の粒度は、いずれであってもよい。例えば、街区単位の住所表記を単位エリアとすることもできるし、２分の１地域メッシュ（４次メッシュ）などの地域メッシュを単位エリアとすることもできる。なお、位置情報としては、緯度経度の表現形式に加えて、ＵＴＭ（Universal　Transverse　Mercator）座標系を用いてもよい。すなわち、位置情報は、緯度経度で示される位置情報、および、ＵＴＭ座標系で示される位置の情報の少なくとも一方を含んでいてもよい。このように、位置情報は、地表上の任意の位置を特定できる情報であれば、どのような表現形式であってもよい。

　処理状態データベース８０は、解析処理の処理状態８１を少なくとも単位エリア毎に格納する。処理状態データベース８０に格納される処理状態８１の各々は、報告内容５０に対する解析処理の処理状況を示す。より具体的には、処理状態データベース８０には、処理状態８１として、単位エリア７２、フレーズタイプ７５および意味カテゴリ７６の組合せ毎に実行状態値８２が格納される。

　処理状態８１には、実行状態値８２として、「解析処理が実行されて処理結果が取得された状態」と、「解析処理が実行されて処理結果が取得されていない状態」と、「解析処理が未だ実行されていない状態」とのうちいずれかが設定可能になっている。

　より具体的には、実行状態値８２には、「結果有で処理済（ｐｎ：ｉｄ）」、「結果無で処理済（ｐｎ：ｉｄ）」および「未処理」のいずれかが格納されるようにしてもよい。「結果有で処理済（ｐｎ：ｉｄ）」および「結果無で処理済（ｐｎ：ｉｄ）」は、１または複数の報告内容５０に対する解析処理が実行済であることを意味する。一方、「未処理」は、報告内容５０に対する解析処理が未だ実行されていないことを意味する。

　また、処理状態８１は、実行された解析処理の種類を特定する情報を含む。より具体的には、処理状態８１の実行状態値８２に設定される「ｐｎ」には、「ｐ１」，「ｐ２」，「ｐ３」といった実行された解析処理プログラムを特定するための情報が格納される。

　また、処理状態８１は、解析処理の処理対象を特定するための情報をさらに含む。より具体的には、処理状態８１の実行状態値８２に設定される「ｉｄ」には、対象の報告内容５０を特定するための識別情報５１が格納される。

　実行状態値８２は、解析処理を優先すべき報告内容５０を抽出する処理や、より精度が高い解析処理を実行すべき報告内容５０を抽出する処理などに用いることができる。

　［Ｄ．処理結果データベース７０および処理状態データベース８０］
　次に、処理結果データベース７０および処理状態データベース８０の具体例について説明する。

　図５は、本実施の形態に従う情報処理システム１が生成する処理結果データベース７０の一例を示す模式図である。図５には、リレーショナルデータベースを用いて処理結果データベース７０を実装した例を示す。

　図５を参照して、処理結果データベース７０は、処理結果７１をエントリとして有しており、処理結果７１の各々は、識別情報７８（ｉｄ）に関連付けられている。処理結果７１は、単位エリア７２と、緯度経度情報７３と、フレーズ７４と、フレーズタイプ７５と、意味カテゴリ７６と、写真添付属性７７とを含む。

　このようなリレーショナルデータベースを用いた処理結果データベース７０を採用することで、ＳＱＬを用いて柔軟な問合せを実現できる。

　図６は、本実施の形態に従う情報処理システム１が生成する処理結果データベース７０の別の一例を示す模式図である。図６には、キーバリューストアー（ＫＶＳ：Key-Value　Store）のデータベースを用いて処理結果データベース７０を実装した例を示す。キーバリューストアーのデータベースでは、検索に用いるキーに応じたインデックスが予め用意される。

　図６を参照して、処理結果データベース７０は、例えば、メインデータベース７０Ａと、エリアインデスックスデータベース７０Ｂと、カテゴリインデックスデータベース７０Ｃとを含む。

　メインデータベース７０Ａは、処理結果７１をエントリとして有している。処理結果７１の各々は、識別情報７８がキーとして設定されるとともに、対応するバリューとして、単位エリア７２と、緯度経度情報７３と、フレーズ７４と、フレーズタイプ７５と、意味カテゴリ７６と、写真添付属性７７とが格納される。

　エリアインデスックスデータベース７０Ｂは、キーとして単位エリア７２が設定されるとともに、識別情報７８がバリューとして格納される。

　カテゴリインデックスデータベース７０Ｃは、キーとして意味カテゴリ７６が設定されるとともに、識別情報７８がバリューとして格納される。

　例えば、メインデータベース７０Ａに対しては、識別情報７８を指定することで、対応する単位エリア７２と、緯度経度情報７３と、フレーズ７４と、フレーズタイプ７５と、意味カテゴリ７６と、写真添付属性７７とを検索できる。エリアインデスックスデータベース７０Ｂに対しては、単位エリア７２を指定することで、対応する識別情報７８を検索できる。カテゴリインデックスデータベース７０Ｃに対しては、意味カテゴリ７６を指定することで、対応する識別情報７８を検索できる。

　複数のインデックスデータベースの検索結果を集合演算することで、論理和や論理積といった論理演算を含む検索を実現できる。図６に示す例では、エリアインデスックスデータベース７０Ｂおよび／またはカテゴリインデックスデータベース７０Ｃを用いて、インデックス検索を行って識別情報７８（ｉｄ）の集合を取得し、取得された識別情報７８（ｉｄ）の集合を用いて、メインデータベース７０Ａから目的の処理結果７１を取得する。

　このようなキーバリューストアーのデータベースを用いることで、高速な検索を実現できる。

　図７は、本実施の形態に従う情報処理システム１が生成する処理状態データベース８０の一例を示す模式図である。図７には、処理状態データベース８０をキーバリューストアーのデータベースを用いて実装した例を示す。

　図７を参照して、処理状態データベース８０は、処理状態８１をエントリとして有している。処理状態８１の各々は、単位エリア７２、フレーズタイプ７５および意味カテゴリ７６の組合せがキーとして設定されるとともに、対応するバリューとして、実行状態値８２が格納される。

　なお、図５～図７に示すデータベースの実装形態に限定されることなく、任意の実装形態を採用できる。

　［Ｅ．解析処理プログラムの精度差］
　次に、複数の解析処理プログラムによる精度の差について説明する。

　図８は、本実施の形態に従う情報処理システム１における解析処理プログラムの違いによる処理結果の相違例を示す図である。図８には、同一のテキスト５４に対して、第２解析処理プログラム１２８（ＳＶＭ）および第３解析処理プログラム１３０（深層学習）による解析処理をそれぞれ実行して取得された処理結果の一例を示す。

　なお、処理結果の一例として、フレーズ７４、フレーズタイプ７５および意味カテゴリ７６が出力される例を示すが、これに限らず、より多くの情報を出力するようにしてもよい。

　図８に示される５つのテキスト５４のうち、「火事があったようだ」とのテキスト５４に対しては、第２解析処理プログラム１２８は、「火事がある」というフレーズ７４を抽出するとともに、抽出したフレーズ７４に対応するフレーズタイプ７５および意味カテゴリ７６を出力している。これに対して、第３解析処理プログラム１３０は、フレーズ７４を抽出していない。これは、第３解析処理プログラム１３０が「火事があったようだ」という不確定な情報を収集すべき情報ではないと判断したためであり、情報処理システム１としては、第３解析処理プログラム１３０の処理結果が正しい処理となる。

　また、「火事が起きていると言うことはない」とのテキスト５４に対しては、第２解析処理プログラム１２８は、「火事が起きる」というフレーズ７４を抽出するとともに、抽出したフレーズ７４に対応して、「要望・問題」というフレーズタイプ７５、ならびに、「災害：火災」という意味カテゴリ７６を出力している。これに対して、第３解析処理プログラム１３０は、同じ「火事が起きる」というフレーズ７４を抽出しているが、抽出したフレーズ７４に対応して、「矛盾」というフレーズタイプ７５、ならびに、「災害：火災」という意味カテゴリ７６を出力している。「火事が起きていると言うことはない」とのテキスト５４からは、実際に火事が起きているというわけではないので、フレーズタイプ７５の値としては、第３解析処理プログラム１３０が出力した「矛盾」が正しい処理結果となる。

　このように、第３解析処理プログラム１３０は、第２解析処理プログラム１２８（および、第１解析処理プログラム１２６）に比較して、より高い精度を実現できる。但し、より多くの処理時間およびリソースを必要とする。

　［Ｆ．解析処理の詳細］
　次に、本実施の形態に従う情報処理システム１が提供する解析処理のより詳細な処理手順について説明する。

　図９は、本実施の形態に従う情報処理システム１が提供する解析処理の処理手順の一例を示すフローチャートである。図９に示す各ステップは、典型的には、解析装置１００のプロセッサ（ＣＰＵ１０２および／またはＧＰＵ１０４）が処理管理プログラム１２２を含むプログラムを実行することで実現される。

　図９を参照して、解析装置１００は、位置情報およびテキストを含む処理対象である報告内容５０を受信する処理を実行する。より具体的には、解析装置１００は、ＳＮＳサーバ２００から報告内容５０を受信したか否かを判断する（ステップＳ１００）。ＳＮＳサーバ２００から報告内容５０を受信していなければ（ステップＳ１００においてＮＯ）、ステップＳ１００の処理が繰り返される。

　ＳＮＳサーバ２００から報告内容５０を受信していれば（ステップＳ１００においてＹＥＳ）、解析装置１００は、プログラムの内部変数として扱えるように、報告内容５０をデコードする（ステップＳ１０２）。例えば、ＪＳＯＮ形式の報告内容５０を受信した場合には、以下のような変数（＄で始まる文字列）に値を格納する。

　＄ｌａｔｌｏｎｇ＝“（３４．７４５２９，１３５．７６０１６）”
　＄ｔｅｘｔ＝“火災が発生している”
　＄ｐｉｃ＝“ｎｏｎｅ”
　続いて、解析装置１００は、処理対象である報告内容５０に含まれる位置情報に対応する単位エリアを決定する処理を実行する。より具体的には、解析装置１００は、逆ジオコードプログラム１２４を実行して、報告内容５０に含まれる緯度経度情報５３（＄ｌａｔｌｏｎｇの値）に対応する住所表記を取得する（ステップＳ１０４）。例えば、緯度経度情報５３が（３４．７４５２９，１３５．７６０１６）を示す場合には、「京都府相楽郡精華町光台３丁目」との住所表記が取得される。取得された住所表記が単位エリア７２となる。

　続いて、解析装置１００は、最も精度が低い（最も処理速度が早い）解析処理によってテキストを解析して処理結果を取得する処理を実行する。より具体的には、解析装置１００は、第１解析処理プログラム１２６を実行して、報告内容５０に含まれるテキスト５４（＄ｔｅｘｔの値）を解析する（ステップＳ１０６）。

　例えば、「火災が発生している」というテキスト５４に対して、以下のような処理結果が取得される。

　フレーズ７４：“火災：が：発生する”
　フレーズタイプ７５：”要望・問題”
　意味カテゴリ７６：“災害：火災”
　続いて、解析装置１００は、第１解析処理プログラム１２６の実行により処理結果が取得されたか否かを判断する（ステップＳ１０８）。処理結果が取得されていなければ（ステップＳ１０８においてＮＯ）、ステップＳ１１６以下の処理が実行される。すなわち、解析装置１００は、第１解析処理プログラム１２６による解析処理によって処理結果を取得できないときも、後述するように、第３解析処理プログラム１３０（あるいは、第２解析処理プログラム１２８）による解析処理によってテキスト５４を解析して処理結果を取得する。

　処理結果が取得されていれば（ステップＳ１０８においてＹＥＳ）、解析装置１００は、処理状態データベース８０を参照して、ステップＳ１０４において取得した単位エリア７２と、取得された処理結果に含まれるフレーズタイプ７５と、取得された処理結果に含まれる意味カテゴリ７６との組合せに対応する実行状態値８２を取得する（ステップＳ１１０）。すなわち、解析装置１００は、単位エリア７２および意味フラグ（フレーズタイプ７５および意味カテゴリ７６）をキーとして、処理状態データベース８０から対応する処理状態８１を検索する。

　上述の例で説明すると、単位エリア７２が「京都府：相楽郡：精華町：光台」となり、フレーズタイプ７５が「要望・問題」となり、意味カテゴリ７６が「災害：火災」となる。これら３つの値の組合せをキーとして、対応するバリューである実行状態値８２が検索される。

　なお、単位エリア７２および意味フラグに完全一致するエントリが存在しない場合には、対象の単位エリア７２から所定範囲内に存在する他の単位エリア、および／または、所定の意味的距離にある他の意味フラグといった同値とみなすことができる範囲に検索対象を拡張してもよい。このように、解析装置１００は、決定された単位エリア７２についての処理状態８１が処理状態データベース８０に存在しなければ、決定された単位エリア７２から所定範囲内に存在する他の単位エリア７２についての処理状態８１を検索するようにしてもよい。

　続いて、解析装置１００は、決定された単位エリアについて別の処理対象（報告内容５０）の処理結果が既に処理結果データベース７０に格納されているか否かを判断する。より具体的には、解析装置１００は、取得した実行状態値８２が第３解析処理プログラム１３０による解析処理が実行済であることを示しているか否かを判断する（ステップＳ１１２）。上述の例では、解析装置１００は、対応する実行状態値８２が「結果有で処理済（ｐ３）」になっているか否かを判断する。

　取得した実行状態値８２が第３解析処理プログラム１３０による解析処理が実行済であることを示していれば（ステップＳ１１２においてＹＥＳ）、解析装置１００は、ステップＳ１０４およびＳ１０６において取得された情報に基づいて、処理結果データベース７０および処理状態データベース８０を更新する（ステップＳ１１４）。そして、処理は終了する。

　すなわち、解析装置１００は、第１解析処理プログラム１２６による解析処理によってテキスト５４を解析して処理結果を取得した後に、決定された単位エリアについて別の処理対象（報告内容５０）の処理結果が既に格納されていれば、第１解析処理プログラム１２６による当該処理結果を処理結果データベース７０に追加する。

　この場合には、対象の単位エリア７２、フレーズタイプ７５および意味カテゴリ７６の組合せについては、既に、最も精度が高い第３解析処理プログラム１３０によって、別の報告内容５０が解析済であることが示されているため、今回受信した報告内容５０をさらに別の解析処理プログラムを用いて解析処理する必要性は低いと判断できるため、より精度が高い解析処理プログラムの実行はスキップされる。

　一方、取得した実行状態値８２が第３解析処理プログラム１３０による解析処理が実行済であることを示していなければ（ステップＳ１１２においてＮＯ）、解析装置１００は、第３解析処理プログラム１３０を実行できる負荷状態であるか否かを判断する（ステップＳ１１６）。

　第３解析処理プログラム１３０を実行できる負荷状態であれば（ステップＳ１１６においてＹＥＳ）、解析装置１００は、第３解析処理プログラム１３０を実行して、報告内容５０に含まれるテキスト５４（＄ｔｅｘｔの値）を解析する（ステップＳ１１８）。そして、解析装置１００は、第３解析処理プログラム１３０の実行により処理結果が取得されたか否かを判断する（ステップＳ１２０）。

　処理結果が取得されていれば（ステップＳ１２０においてＹＥＳ）、解析装置１００は、ステップＳ１０４およびＳ１１８において取得された情報に基づいて、処理結果データベース７０および処理状態データベース８０を更新する（ステップＳ１２２）。そして、処理は終了する。

　すなわち、解析装置１００は、第１解析処理プログラム１２６による解析処理によってテキスト５４を解析して処理結果を取得した後に、決定された単位エリアについて別の処理対象（報告内容５０）の処理結果が格納されていなければ、第３解析処理プログラム１３０による解析処理によってテキスト５４を解析して処理結果を取得し、当該処理結果を処理結果データベース７０に格納する。

　一方、処理結果が取得されていなければ（ステップＳ１２０においてＮＯ）、解析装置１００は、ステップＳ１０４において取得した単位エリア７２と、ステップＳ１０６において取得された処理結果に含まれるフレーズタイプ７５と、ステップＳ１０６において取得された処理結果に含まれる意味カテゴリ７６との組合せに対応する実行状態値８２を、第３解析処理プログラム１３０による解析処理を実行済であるが、処理結果が取得できなかったことを示す値に更新する（ステップＳ１２４）。すなわち、実行状態値８２として、「結果無で処理済（ｐ３：対象のｉｄ）」が格納される。そして、処理は終了する。

　なお、先のステップＳ１０６において処理結果が取得できていなければ、対応する実行状態値８２を特定できないので、ステップＳ１２２における処理状態データベース８０の更新処理はスキップされる。

　一方、第３解析処理プログラム１３０を実行できる負荷状態でなければ（ステップＳ１１６においてＮＯ）、解析装置１００は、第２解析処理プログラム１２８を実行できる負荷状態であるか否かを判断する（ステップＳ１２６）。

　第２解析処理プログラム１２８を実行できる負荷状態であれば（ステップＳ１２６においてＹＥＳ）、解析装置１００は、第２解析処理プログラム１２８を実行して、報告内容５０に含まれるテキスト５４（＄ｔｅｘｔの値）を解析する（ステップＳ１２８）。このように、解析装置１００は、第３解析処理プログラム１３０による解析処理を実行できない負荷状態であれば、第３解析処理プログラム１３０に代えて、第２解析処理プログラム１２８による解析処理によってテキスト５４を解析する。

　続いて、解析装置１００は、第２解析処理プログラム１２８の実行により処理結果が取得されたか否かを判断する（ステップＳ１３０）。

　処理結果が取得されていれば（ステップＳ１３０においてＹＥＳ）、解析装置１００は、ステップＳ１０４およびＳ１２８において取得された情報に基づいて、処理結果データベース７０および処理状態データベース８０を更新する（ステップＳ１３２）。そして、処理は終了する。

　すなわち、解析装置１００は、第１解析処理プログラム１２６による解析処理によってテキスト５４を解析して処理結果を取得した後に、決定された単位エリアについて別の処理対象（報告内容５０）の処理結果が格納されていなければ、第２解析処理プログラム１２８による解析処理によってテキスト５４を解析して処理結果を取得し、当該処理結果を処理結果データベース７０に格納する。

　一方、処理結果が取得されていなければ（ステップＳ１３０においてＮＯ）、解析装置１００は、ステップＳ１０４において取得した単位エリア７２と、ステップＳ１０６において取得された処理結果に含まれるフレーズタイプ７５と、ステップＳ１０６において取得された処理結果に含まれる意味カテゴリ７６との組合せに対応する実行状態値８２を、第２解析処理プログラム１２８による解析処理を実行済であるが、処理結果が取得できなかったことを示す値に更新する（ステップＳ１３４）。すなわち、実行状態値８２として、「結果無で処理済（ｐ２：対象のｉｄ）」が格納される。そして、処理は終了する。

　なお、先のステップＳ１０６において処理結果が取得できていなければ、対応する実行状態値８２を特定できないので、ステップＳ１３４における処理状態データベース８０の更新処理はスキップされる。

　一方、第２解析処理プログラム１２８を実行できる負荷状態でなければ（ステップＳ１２６においてＮＯ）、解析装置１００は、ステップＳ１０４およびＳ１０６において取得された情報に基づいて、処理結果データベース７０および処理状態データベース８０を更新する（ステップＳ１３６）。そして、処理は終了する。

　以上のような処理手順が報告内容５０の受信毎に繰り返し実行される。なお、以上のような処理手順は、並列的に実行されることが想定される。

　［Ｇ．解析処理の運用例］
　実際の運用においては、時間の経過に伴って、処理状態データベース８０に登録される単位エリア７２の多くが「処理済」に更新される。その結果、第３解析処理プログラム１３０などの精度が高い解析処理が実行される頻度が低下し得るので、所定時間（例えば、２４時間）毎、あるいは、所定条件（例えば、登録された単位エリア７２の８０％が「処理済」になっているなど）の成立毎に、処理状態データベース８０に登録されている所定範囲の単位エリア７２、フレーズタイプ７５、意味カテゴリ７６の組合せに対応する実行状態値８２を「未処理」に初期化するようにしてもよい。

　また、特定の意味カテゴリ７６および／または特定のフレーズタイプ７５については、高い精度を要求せず、それ以外を対象とする解析処理に対して、精度が高い解析処理を実行したい場合も存在し得る。このような要望に対しては、処理状態データベース８０に登録されたすべての単位エリアについて、当該特定の意味カテゴリ７６および／または当該特定のフレーズタイプ７５との組合せに対応する実行状態値８２を「結果有で処理済」に初期化するようにしてもよい。実行状態値８２が「結果有で処理済」に設定されることで、対応する組合せに該当する報告内容５０は、常に、第１解析処理プログラム１２６で処理されることになるため、要望に沿った処理を実現できる。

　逆に、特定の意味カテゴリ７６および／または特定のフレーズタイプ７５について、常に精度が高い解析処理を実行したい場合も存在し得る。このような要望に対しては、処理状態データベース８０に登録されたすべての単位エリアについて、対象とする意味カテゴリ７６とフレーズタイプ７５との組合せに対応する実行状態値８２を、「処理済」に更新すべき場合であっても、「未処理」に維持するようにしてもよい。実行状態値８２が「未処理」に維持されることで、対応する組合せに該当する報告内容５０は、第２解析処理プログラム１２８または第３解析処理プログラム１３０により解析されることになる。

　また、図９に示す解析処理は、報告内容５０の受信毎に繰り返し実行されるが、これに加えて、事後的に追加の解析処理を実行するようにしてもよい。例えば、報告内容５０の単位時間当たりの受信数が減少し、解析装置１００の負荷状態が軽減されると、処理状態データベース８０のエントリ（処理状態８１）を参照し、解析処理プログラムｐｋで処理されているものをより高精度な解析処理プログラムｐｌ（ｌ＞ｋ）で追加的に処理するようにしてもよい。すなわち、解析装置１００は、任意の単位エリア７２についての処理結果の取得に用いられた解析処理より精度が高い解析処理を追加的に実行するようにしてもよい。このような解析処理を追加的に実行することで、より高精度および高品質な処理結果を収集できる。

　［Ｈ．応用例］
　上述の説明においては、主として、災害時における情報収集について例示したが、これに限らず、位置情報およびテキストを含む処理対象を効率的に処理しなければならない任意の局面に適用可能である。

　例えば、オリンピックなどの広範囲に開催されるイベントに参加した多くの参加者からの情報を効率的に収集するような局面に応用可能である。

　［Ｉ．まとめ］
　本実施の形態に従う情報処理システム１は、位置情報およびテキストを含む報告内容５０を効率的に処理する。すなわち、位置情報およびテキストを含む処理対象のすべてを高精度に解析処理したいというニーズがあるが、高精度な解析処理にはコストおよび処理時間を必要とする。そのため、処理対象が膨大になる場合には、すべての処理対象を高精度に処理することが困難になる。

　そこで、本実施の形態に従う情報処理システム１は、位置情報の特性に基づいて、処理対象および処理内容を選別することで、処理全体を最適化する。より具体的には、情報処理システム１は、位置情報（単位エリア７２）および意味フラグ（フレーズタイプ７５および意味カテゴリ７６）の単位で、報告内容５０が「処理済」であるか否か、および、処理内容を管理する。そして、情報処理システム１は、位置情報および意味フラグの組合せについて、既に抽出されている情報と類似の情報が取得されるにすぎない可能性の高い報告内容５０（すなわち、新規性が低いと推測される報告内容５０）については、コストの低い（すなわち、精度が低い）解析処理のみで処理を完了する。このような処理対象の選別を行うことで、各時点において、それまでに情報が取得されていない単位エリア７２に関する報告内容５０が優先的に処理される。特に、情報が取得されていない単位エリア７２については、より多くのコストをかけて、精度が高い解析処理が優先的に実行される。一方、既に情報が取得されている単位エリア７２については、解析処理に要するコストを低減させることができる。

　この結果、処理全体として、情報の有用性を大きく損なうことなく、コストを軽減できる。すなわち、膨大な報告内容５０のすべてをリアルタイムで処理するのではなく、位置情報などに基づいて処理の優先順位を決定することで、精度および処理速度のバランスを保ちつつ、解析処理を実行できる。

　今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　１　情報処理システム、５０　報告内容、５１，７８　識別情報、５２　ユーザ情報、５３，７３　緯度経度情報、５４　テキスト、５５，７７　写真添付属性、７０　処理結果データベース、７０Ａ　メインデータベース、７０Ｂ　エリアインデスックスデータベース、７０Ｃ　カテゴリインデックスデータベース、７１　処理結果、７２　単位エリア、７４　フレーズ、７５　フレーズタイプ、７６　意味カテゴリ、８０　処理状態データベース、８１　処理状態、８２　実行状態値、１００　解析装置、１０２　ＣＰＵ、１０４　ＧＰＵ、１０６　主メモリ、１０８　ディスプレイ、１１０　ネットワークインターフェイス、１１２　入力デバイス、１１４　光学ドライブ、１１６　光学ディスク、１１８　内部バス、１２０　二次記憶装置、１２２　処理管理プログラム、１２４　逆ジオコードプログラム、１２６　第１解析処理プログラム、１２８　第２解析処理プログラム、１３０　第３解析処理プログラム、２００　ＳＮＳサーバ、２５０　チャットボット、３００　携帯端末。

Claims

　位置情報およびテキストを含む処理対象の処理結果を格納する処理結果データベースと、
　前記処理対象に含まれる前記位置情報に対応する単位エリアを決定するエリア決定手段と、
　第１解析処理と前記第１解析処理より精度が高い第２解析処理とを含む複数の解析処理のうち指定された解析処理によって、前記テキストを解析して処理結果を出力する解析手段と、
　前記第１解析処理によって前記テキストを解析して第１処理結果を取得した後に、前記決定された単位エリアについて別の処理対象の処理結果が既に格納されていれば、前記第１処理結果を前記処理結果データベースに追加し、前記決定された単位エリアについて別の処理対象の処理結果が格納されていなければ、前記第２解析処理によって前記テキストを解析して第２処理結果を取得し、前記処理結果データベースに格納する制御手段とを備える、情報処理システム。
　前記複数の解析処理は、前記第１解析処理より精度が高く、かつ、前記第２解析処理より精度が低い第３解析処理をさらに含み、
　前記制御手段は、前記第２解析処理を実行できない負荷状態であれば、前記第２解析処理に代えて、前記第３解析処理によって前記テキストを解析する、請求項１に記載の情報処理システム。
　前記処理結果は、抽出すべき情報を示す文字列であるフレーズと、当該フレーズの意味を示す意味情報とを含む、請求項１または２に記載の情報処理システム。
　解析処理の処理状態を単位エリア毎に格納する処理状態データベースをさらに備え、
　前記処理状態は、解析処理が実行されて処理結果が取得された状態と、解析処理が実行されて処理結果が取得されていない状態と、解析処理が未だ実行されていない状態とのうちいずれかを設定可能になっている、請求項１～３のいずれか１項に記載の情報処理システム。
　位置情報およびテキストを含む処理対象を受信するステップと、
　前記処理対象に含まれる前記位置情報に対応する単位エリアを決定するステップと、
　第１解析処理によって前記テキストを解析して第１処理結果を取得するステップと、
　前記決定された単位エリアについて別の処理対象の処理結果が既に処理結果データベースに格納されているか否かを判断するステップと、
　前記決定された単位エリアについて別の処理対象の処理結果が既に前記処理結果データベースに格納されていれば、前記第１処理結果を前記処理結果データベースに追加するステップと、
　前記決定された単位エリアについて別の処理対象の処理結果が前記処理結果データベースに格納されていなければ、前記第１解析処理より精度が高い第２解析処理によって前記テキストを解析して第２処理結果を取得し、前記処理結果データベースに格納するステップとを備える、情報処理方法。
　コンピュータに請求項５に記載の情報処理方法を実行させるための情報処理プログラム。