WO2023228902A1

WO2023228902A1 - 評価支援装置、評価方法及びプログラム

Info

Publication number: WO2023228902A1
Application number: PCT/JP2023/018957
Authority: WO
Inventors: 由美宮本; 愛織清水; 崇寛三浦; 公威浅谷; 一郎坂田
Original assignee: ダイキン工業株式会社; 国立大学法人東京大学
Priority date: 2022-05-26
Filing date: 2023-05-22
Publication date: 2023-11-30
Also published as: JP7403782B2; JP2023174573A

Abstract

化学物質の有害性に関わる分類の傾向を評価又は予測可能にする。評価支援装置が有する制御部が、複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。

Description

評価支援装置、評価方法及びプログラム

　本開示は、評価支援装置、評価方法及びプログラムに関する。

　化学物質の構造的特徴に基づいて、化学物質の毒性を予測する技術がある。例えば、特許文献１には、化学物質の構造をベクトル化し、学習済みの分類器を用いて毒性予測スコアを算出する発明が開示されている。

国際公開第２０１８／０４９３７６号

　しかしながら、化学物質の規制は、化学物質自体の毒性の他にも社会的要因等の外部要因によって基準が変化する場合がある。そのため、化学物質の構造的特徴のみから化学物質の有害性を評価又は予測することは困難である。

　本開示は、化学物質の有害性に関わる分類の傾向を評価又は予測可能とする。

　本開示の第１の態様に係る評価支援装置は、制御部を有する評価支援装置であって、前記制御部は、複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。

　本開示の第１の態様によれば、化学物質の有害性に関わる分類の傾向を評価又は予測可能になる。

　本開示の第２の態様は、第１の態様に係る評価支援装置であって、前記制御部は、化学物質の性質毎に、前記複数の文書を分類した情報を統計処理することにより、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。

　本開示の第３の態様は、第２の態様に係る評価支援装置であって、前記制御部は、前記化学物質の性質が記載されているか否かに基づいて前記複数の文書を分類する。

　本開示の第４の態様は、第３の態様に係る評価支援装置であって、前記制御部は、前記文書に記載された化学物質の特徴情報に基づいて前記複数の文書を分類した情報を統計処理する。

　本開示の第５の態様は、第４の態様に係る評価支援装置であって、前記制御部は、前記出力された情報から、化学物質の前記有害性に関わる分類の傾向を評価又は予測する。

　本開示の第６の態様は、第５の態様に係る評価支援装置であって、前記制御部は、前記文書に記載された化学物質の特徴情報から、前記特徴情報が類似する化学物質の前記傾向を評価又は予測する。

　本開示の第７の態様は、第２の態様から第６の態様に係る評価支援装置であって、前記化学物質の性質は、前記化学物質の毒性、生物蓄積性、難分解性、地域分布性、可燃性及び温室効果のうち少なくとも一つを含む。

　本開示の第８の態様は、第２の態様から第６の態様に係る評価支援装置であって、前記化学物質の性質は、前記化学物質の有害性に関わる分類への該当性を下げる情報が含まれる。

　本開示の第９の態様は、第８の態様に係る評価支援装置であって、前記該当性を下げる情報は、前記化学物質の処理方法及び分解方法のうち少なくとも一つを含む。

　本開示の第１０の態様は、第２の態様に係る評価支援装置であって、前記制御部は、互いに関連性の高い前記文書が近傍に配置される分散表現に基づいて、前記複数の文書を分類する。

　本開示の第１１の態様は、第１０の態様に係る評価支援装置であって、前記制御部は、前記複数の文書のうち一部の前記文書に、前記化学物質の性質が記載されているか否かを表す文書情報を付与し、前記文書情報に基づいて、前記化学物質の性質が記載された前記文書を分類する。

　本開示の第１２の態様は、第２の態様から第１１の態様に係る評価支援装置であって、前記制御部は、前記複数の文書の間の引用関係に基づいて、前記複数の文書を分類する。

　本開示の第１３の態様は、第１２の態様に係る評価支援装置であって、前記文書は学術論文である。

　本開示の第１４の態様は、第２の態様から第１３の態様に係る評価支援装置であって、前記制御部は、前記文書の記載内容の自然言語処理結果に基づいて、前記複数の文書を分類する。

　本開示の第１５の態様に係る評価方法は、複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測する工程を有する。

　本開示の第１６の態様に係るプログラムは、評価支援装置が有する制御部に、複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する手順を実行させる。

図１は、評価支援装置のシステム構成の一例を示すブロック図である。図２は、評価支援装置のハードウェア構成の一例を示すブロック図である。図３は、評価支援装置の機能構成の一例を示すブロック図である。図４は、評価支援装置の処理手順を示すフローチャートである。図５は、境界面の一例を示す概念図である。図６は、出力結果の一例を示す概念図である。図７は、出力結果の一例を示す概念図である。

　以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

　［実施形態］
　本実施形態は、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する評価支援装置である。本実施形態における評価支援装置は、化学物質について収集された複数の文書の関連性に基づいて、化学物質の有害性に関わる分類毎の分類器を学習し、調査対象とする文書を分類する。また、本実施形態における評価支援装置は、化学物質の性質毎に文書を分類した情報を統計処理することにより、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。

　化学物質の有害性に関わる分類は、化学物質を人間、生物又は環境に対して与える害の性質に基づいて分類した集合である。化学物質の有害性に関わる分類の一例は、例えば、欧州ＲＥＡＣＨ（Registration, Evaluation, Authorisation and Restriction of Chemicals）規則における、ＣＭＲ（carcinogenic, mutagenic or toxic for reproduction）物質、ＰＢＴ（Persistence, Bioaccumulation and Toxicity）物質又はｖＰｖＢ（very persistent and very bioaccumulative）物質等に該当するか否かである。なお、ＣＭＲ物質は、人間の健康に影響を及ぼす物質として指定されている化学物質である。ＰＢＴ物質は、難分解性、生物蓄積性又は毒性を有し、環境に影響を及ぼす物質として指定されている化学物質である。ｖＰｖＢ物質は、極めて難分解かつ生物蓄積性が高い物質として指定されている化学物質である。

　＜システム構成＞
　図１は、本実施形態における評価支援装置１０のシステム構成の一例を示すブロック図である。図１に示されているように、評価支援装置１０は、アノテーションデータ及び調査対象データを含む文書データを入力とする。評価支援装置１０は、入力された各文書データを文書ベクトルに変換し、文書データの関連性に基づいて、化学物質の有害性に関わるカテゴリ毎に分類器を学習する。評価支援装置１０は、入力された調査対象データをカテゴリ毎に分類し、カテゴリ毎の統計情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。

　本実施形態における文書データは、化学物質に関する文書を表すデータである。文書データの一例は、化学物質に関する学術論文の内容を表す論文データである。論文データは、論文データベース等を用いて収集することができる。論文データベースは、例えば、ＳＣＯＰＵＳ（登録商標）を用いることができる。

　文書データの他の例は、化学物質に関する特許公報類である。特許公報類は各国特許庁から発行される公報を収集してもよいし、各国特許庁から発行された公報を収録したデータベースを用いてもよい。

　文書データは、文書（例えば、学術論文又は特許明細書等）の全体を表していなくともよい。文書データは、文書の一部を表すデータであってもよいし、要約を表すデータであってもよい。

　文書データには、文書に記載されている化学物質の特徴情報が付与されている。特徴情報の一例は、化学物質を識別する識別情報である。特徴情報の他の例は、化合物のフィンガープリント、若しくは官能基又は骨格に関する情報である。

　化学物質を識別する識別情報は、例えば、化合物名、ＩＵＰＡＣ（International Union of Pure and Applied Chemistry）命名法に基づく名称、ＳＭＩＬＥＳ記法に基づく表記、ＩｎＣｈＩ（International Chemical Identifier）Ｋｅｙ、又は構造式等である。識別情報は、これらに限定されず、化学物質を識別可能なあらゆる情報を用いることができる。

　文書に記載される化学物質の特徴情報は、表記ゆれ等のノイズが多いことがある。表記ゆれとは、同一の物質に対して異なる特徴情報が付与されていることを表す。そのため、文書データに付与された特徴情報に対して、化学物質データベース等を用いて表記ゆれを解消するとよい。化学物質データベースの一例は、日本化学物質辞書である。

　アノテーションデータは、文書情報が付与されている文書データである。調査対象データは、文書情報が付与されていない文書データである。文書情報は、化学物質の性質が文書データに記載されているか否かを表す情報である。文書情報は、文書データを各性質に該当するか否かを二値分類した真理値であってもよい。

　文書の関連性は、文書データに記載された内容に基づく関連性である。文書の関連性は、化学物質の性質等に基づいてもよい。

　化学物質の性質の一例は、化学物質の有害性に関するカテゴリを表す情報である。化学物質の有害性に関するカテゴリは、例えば、化学物質の毒性、生物蓄積性、難分解性、地域分布性、可燃性及び温室効果のうち少なくとも一つを含む。化学物質の有害性に関するカテゴリは、これらに限定されるものではなく、他のカテゴリを含んでいてもよい。

　化学物質の性質の他の例は、環境対応技術に関するカテゴリを表す情報である。環境対応技術は、例えば、化学物質の処理方法又は分解方法等である。化学物質を適切に処理又は分解することで、化学物質の有害性が低下することが考えられる。したがって、環境対応技術に関する情報は、化学物質の有害性に関するカテゴリへの該当性を下げる情報となる。化学物質の性質は、これらに限定されるものではなく、他の性質を含んでいてもよい。

　本実施形態における統計情報は、化学物質の識別情報及び有害性に関するカテゴリに分類された文書を集計した結果である。統計情報は、文書データの件数の増加率、カテゴリ毎の割合、それらの時系列推移等であってもよい。統計情報は、さらに文書の書誌情報に基づいて集計したものであってもよい。書誌情報は、例えば、発行年、発行機関又は著者等である。統計情報は、機関や著者のネットワークの疎密に基づいて集計したものであってもよい。

　化学物質の有害性に関わる分類を評価又は予測するための情報の一例は、ある化学物質について、各カテゴリに分類された文書数の時系列推移を表す情報である。このような情報を参照することで、その化学物質の有害性について、最近議論が盛んになっているカテゴリを把握することができる。

　化学物質の有害性に関わる分類を評価又は予測するための情報の他の例は、各カテゴリに分類された文書のうち、文書数の多い化学物質の一覧を表す情報である。このような情報を参照することで、ある有害性に関するカテゴリにおいて、最近盛んに議論されている化学物質を把握することができる。

　＜ハードウェア構成＞
　図２は、本実施形態における評価支援装置１０のハードウェア構成の一例を示すブロック図である。図２に示されているように、評価支援装置１０は、プロセッサ１０１、メモリ１０２、補助記憶装置１０３、操作装置１０４、表示装置１０５、通信装置１０６、ドライブ装置１０７を有する。なお、評価支援装置１０の各ハードウェアは、バス１０８を介して相互に接続されている。

　プロセッサ１０１は、ＣＰＵ（Central Processing Unit）等の各種演算デバイスを有する。プロセッサ１０１は、補助記憶装置１０３にインストールされている各種プログラムをメモリ１０２上に読み出して実行する。

　メモリ１０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ１０１とメモリ１０２とは、いわゆるコンピュータ（以下、「制御部」ともいう）を形成し、プロセッサ１０１が、メモリ１０２上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。

　補助記憶装置１０３は、各種プログラムや、各種プログラムがプロセッサ１０１によって実行される際に用いられる各種データを格納する。

　操作装置１０４は、評価支援装置１０のユーザが各種操作を行うための操作デバイスである。表示装置１０５は、評価支援装置１０により実行される各種処理の処理結果を表示する表示デバイスである。

　通信装置１０６は、不図示のネットワークを介して外部装置と通信を行うための通信デバイスである。

　ドライブ装置１０７は、記憶媒体１０９をセットするためのデバイスである。ここでいう記憶媒体１０９には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記憶する媒体が含まれる。また、記憶媒体１０９には、ＲＯＭ、フラッシュメモリ等のように情報を電気的に記憶する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置１０３にインストールされる各種プログラムは、例えば、配布された記憶媒体１０９がドライブ装置１０７にセットされ、記憶媒体１０９に記憶された各種プログラムがドライブ装置１０７により読み出されることでインストールされる。あるいは、補助記憶装置１０３にインストールされる各種プログラムは、通信装置１０６を介してネットワークからダウンロードされることで、インストールされてもよい。

　＜機能構成＞
　図３は、本実施形態における評価支援装置の機能構成の一例を示すブロック図である。図３に示されているように、本実施形態における評価支援装置１０は、入力部１１、変換部１２、学習部１３、分類器記憶部１４、抽出部１５及び出力部１６を備える。

　分類器記憶部１４は、図２に示されているメモリ１０２又は補助記憶装置１０３によって実現される。入力部１１、変換部１２、学習部１３、抽出部１５及び出力部１６は、図２に示されているプロセッサ１０１がメモリ１０２上に読み出した各種のプログラムを実行することで実現される。

　入力部１１は、複数の文書データの入力を受け付ける。文書データには、複数のアノテーションデータと複数の調査対象データとが含まれる。

　変換部１２は、入力部１１が受け付けた各文書データについて、文書ベクトルを生成する。

　学習部１３は、変換部１２により生成された文書ベクトルに基づいて、有害性に関するカテゴリ毎に分類器を学習する。

　分類器記憶部１４には、学習部１３により学習されたカテゴリ毎の分類器が記憶される。

　抽出部１５は、分類器記憶部１４に記憶されている分類器を用いて、入力部１１が受け付けた調査対象データをカテゴリ毎に分類する。

　出力部１６は、カテゴリ毎の統計情報に基づいて、化学物質の有害性を評価又は予測するための情報を出力する。

　＜評価支援方法の流れ＞
　図４は、本実施形態における評価支援方法の流れの一例を示すフローチャートである。

　ステップＳ１において、入力部１１は、複数の文書データの入力を受け付ける。文書データには、複数のアノテーションデータと複数の調査対象データとが含まれる。次に、入力部１１は、受け付けた文書データを変換部１２に送る。

　アノテーションデータの件数は、分類器を学習するために必要とされる件数以上であればよい。例えば、アノテーションデータは、各カテゴリについて１００～５００件程度であってもよい。調査対象データの件数は限定されないが、例えば、１００００件程度であってもよい。

　ステップＳ２において、変換部１２は、入力部１１から文書データを受け取る。次に、変換部１２は、各文書データについて、文書ベクトルを生成する。続いて、変換部１２は、生成した複数の文書ベクトルを学習部１３に送る。

　本実施形態における文書ベクトルは、引用空間上の分散表現及び文書空間上の分散表現の少なくとも一方からなる。引用空間上の分散表現は、文書データ間の引用関係に基づいて生成される。引用空間上の分散表現の一例は、ＬＩＮＥ（Large-scale Information Network Embedding）である。ＬＩＮＥに関する詳細は、下記参考文献１に開示されている。

　〔参考文献１〕Tang, J., Qu, M., Wang, M., Zhang, M., Yan, J., and Mei, Q, "Line: Large-scale information network embedding," in Proceedings of the 24th international conference on world wide web, pp. 1067-1077, 2015.

　なお、ＬＩＮＥには、１次近接性に基づく分散表現と、２次近接性に基づく分散表現とがある。本実施形態では、１次近接性に基づく分散表現も２次近接性に基づく分散表現も用いることが可能であるが、２次近接性に基づく分散表現を用いると好適である。

　１次近接性に基づく分散表現は、ノードのペア同士がリンクしているかどうかを表す確率表現である。１次近接性に基づく分散表現は、式（１）で表される。ただし、νはノードを表し、uはνの低次元ベクトル表現である。

　２次近接性に基づく分散表現は、ノードのペア同士が他のノードと共通のリンクを有しているかどうかを表す確率表現である。２次近接性に基づく分散表現は、式（２）で表される。ただし、νはノードを表し、uはνの低次元ベクトル表現であり、u'は文脈を表すベクトル表現である。

　文書空間上の分散表現は、文書データの記載内容に基づいて生成される。文書空間上の分散表現の一例は、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）である。ＢＥＲＴに関する詳細は、下記参考文献２に開示されている。

　〔参考文献２〕Beltagy, I., Lo, K., and Cohan, A., "SciBERT: A pretrained language model for scientific text," arXiv preprint, arXiv:1903.10676, 2019.

　変換部１２は、引用空間上の分散表現を文書ベクトルとして生成してもよいし、文書空間上の分散表現を文書ベクトルとして生成してもよい。また、変換部１２は、引用空間上の分散表現と文書空間上の分散表現をそれぞれ生成し、それらを結合したベクトルを文書ベクトルとしてもよい。

　ステップＳ３において、学習部１３は、変換部１２から各文書データに対応する複数の文書ベクトルを受け取る。次に、学習部１３は、各文書ベクトルを多次元空間上に配置する。本実施形態における多次元空間は、互いに関連性が高い文書ベクトルが近傍に配置されるように構成される。このとき、アノテーションデータ及び調査対象データを含むすべての文書ベクトルが多次元空間内に配置される。

　ステップＳ４において、学習部１３は、文書ベクトルが配置された多次元空間において、カテゴリ毎に分類器を学習する。本実施形態における分類器は、多次元空間を２つの空間に分割する境界面である。学習部１３は、多次元空間に配置された文書ベクトルのうち、学習対象とするカテゴリを付与されたアノテーションデータに対応する文書ベクトルが、境界面で分割された一方の空間に集まるように、当該カテゴリの境界面を学習する。

　本実施形態における境界面は、ロジスティック回帰により学習される。ただし、境界面の学習方法は、ロジスティック回帰に限定されず、多次元空間を二値分類可能な分類器であればどのような学習方法を用いてもよい。

　本実施形態における境界面は、カテゴリ毎に学習される。例えば、化学物質の毒性、生物蓄積性、難分解性及び地域分布性を含むカテゴリを用いる場合、制御部は、毒性に関する境界面、生物蓄積性に関する境界面、難分解性に関する境界面、及び地域分布性に関する境界面をそれぞれ学習する。

　図５は、境界面の一例を示す概念図である。図５において、白丸は多次元空間におけるアノテーションデータの配置を表し、黒丸は多次元空間における調査対象データの配置を表している。図５に示されているように、境界面は、アノテーションデータが境界面で分割された一方の空間にできるだけ集まるように学習される。

　なお、カテゴリ毎の境界面は、アノテーションデータ及び調査対象データが追加されるたびに再学習する。後述するように、調査対象データに分類結果を付与することで、アノテーションデータを追加することができる。学習部１３は、アノテーションデータが追加された後に境界面の再学習を行うことができる。

　ステップＳ５において、抽出部１５は、分類器記憶部１４に記憶されているカテゴリ毎の分類器（境界面）を読み出す。次に、抽出部１５は、カテゴリ毎の境界面を用いて、調査対象データを分類する。抽出部１５は、各調査対象データについて、カテゴリ毎に当該カテゴリに該当するか否かを判定することで、分類を行う。

　抽出部１５は、カテゴリ毎の分類結果を、調査対象データに付与する。次に、抽出部１５は、分類結果が付与された調査対象データを出力部１６に送る。

　抽出部１５は、分類結果を付与された調査対象データをアノテーションデータとして、再度カテゴリ毎の境界面を学習してもよい。このとき、新たな調査対象データを収集し、それらの文書ベクトルを多次元空間に配置する。これにより、有害性に関するカテゴリ毎の文書データを増やすことができ、より精度良く化学物質の有害性を評価することが可能となる。

　ステップＳ６において、出力部１６は、抽出部１５から分類結果を付与された調査対象データを受け取る。次に、出力部１６は、分類結果に基づいて、カテゴリ毎の統計情報を生成する。本実施形態における統計情報は、例えば、化学物質の識別情報及び有害性に関するカテゴリに基づいて、件数を集計した統計情報である。本実施形態における統計情報は、文書の公開年、発行機関又は著者等の書誌情報に基づいて集計したものであってもよい。

　続いて、出力部１６は、カテゴリ毎の統計情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。出力する情報の一例は、ある化学物質について、各カテゴリに分類された文書数の推移を表す情報である。出力する情報の他の例は、各カテゴリに分類された文書のうち、文書数の多い化学物質の一覧を表す情報である。

　出力部１６は、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測し、その結果を出力してもよい。有害性の評価結果は、例えば、有害性のカテゴリ毎に所定の規則に従って算出したスコアである。有害性の予測結果は、ある化学物質について将来議論される可能性が高いカテゴリを表す情報、又はあるカテゴリについて将来議論される可能性が高い化学物質を表す情報である。

　出力部１６は、文書データに記載された化学物質の特徴情報が類似する化学物質の有害性に関わる傾向を評価又は予測してもよい。例えば、化合物名や化学式が類似する物質同士であれば有害性に関する分類の傾向も同様に類似する可能性が高い。そのため、特徴情報が類似する化学物質を同時に評価又は予測することで有益な情報が得られる可能性がある。

　図６は、各カテゴリに分類された文書数の推移を表す出力結果の一例である。図６に示されているように、出力結果の一例では、ある化学物質について、公開年毎に全論文数とカテゴリ毎の論文数の推移を対比可能な態様で出力する。この出力結果によれば、例えば、ある化学物質について、最近特に毒性に関する議論が盛んにされていることを把握することができる。

　図７は、各カテゴリに分類された文書のうち、文書数の多い化学物質の一覧を表す出力結果の一例である。図７に示されているように、出力結果の他の例では、有害性に関するカテゴリ（例えば、毒性）において、論文数が多い物質の一覧を降順で出力する。この出力結果によれば、例えば、化学物質の毒性について、最近特に議論されている化学物質を把握することができる。

　＜評価方法の流れ＞
　本実施形態における評価支援装置１０のユーザは、評価支援装置１０を用いて化学物質の有害性に関わる分類の傾向を評価又は予測することができる。以下、評価支援装置１０を用いた評価方法について説明する。

　評価支援装置１０のユーザは、複数の文書データを評価支援装置１０に入力する。評価支援装置１０は、複数の文書データの入力を受け付ける（図４のステップＳ１）。評価支援装置１０は、入力を受け付けた複数の文書データに基づいて、評価支援方法のステップＳ２からステップＳ５を実行する。そして、評価支援装置１０は、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する（図４のステップＳ６）。

　評価支援装置１０のユーザは、評価支援装置１０から出力された情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測する。例えば、評価支援装置１０のユーザは、特定の化学物質について有害性に関わる分類の統計情報を参照することで、有害性に関して盛んに議論されている化学物質、又は特定の化学物質について盛んに議論されている有害性の分類を把握する。

　＜まとめ＞
　以上、本開示の各実施形態によれば、化学物質の有害性に関わる分類の傾向を評価又は予測可能になる。例えば、化学物質の有害性は、化学物質自体の毒性の他にも社会的要因等の外部要因によって基準が変化する場合がある。そのため、化学物質の構造的特徴のみから有害性を評価することは困難である。本実施形態における評価支援装置は、複数の文書をそれらの関連性に基づいて分類し、それらに記載された化学物質の性質を用いた統計情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。したがって、本実施形態における評価支援装置によれば、化学物質の有害性に関わる分類の傾向を評価又は予測可能になる。

　特に、本実施形態における評価支援装置は、分類された文書に記載された化学物質の性質を用いた統計情報に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する。特定の化学物質について有害性に関わる分類の統計情報を参照することで、有害性に関して盛んに議論されている化学物質、又は特定の化学物質について盛んに議論されている有害性の分類を把握することができる。

　また、本実施形態における評価支援装置は、化学物質の毒性、生物蓄積性、難分解性、地域分布性、可燃性及び温室効果のうち少なくとも１つに基づいて文書を分類する。化学物質の有害性は、様々な観点から議論されるため、様々な分類の傾向を同時に評価することで化学物質の有害性を緻密に評価することが可能となる。

　さらに、本実施形態における評価支援装置は、引用関係又は自然言語処理結果に基づいて学術論文を分類する。化学物質の有害性は様々な観点から議論されているが、学術論文の引用関係等から分類可能であることは、従来知られていなかった。引用関係又は自然言語処理結果に基づいて学術論文を分類することで、化学物質の有害性を評価するために信頼性の高い情報を得られることが期待できる。

　以上、実施形態を説明したが、特許請求の範囲の趣旨及び範囲から逸脱することなく、形態や詳細の多様な変更が可能なことが理解されるであろう。

　本願は、日本国特許庁に２０２２年５月２６日に出願された日本国特許出願２０２２－８６２４７号の優先権を主張するものであり、その全内容を参照することにより本願に援用する。

１０　評価支援装置
１１　入力部
１２　変換部
１３　学習部
１４　分類器記憶部
１５　抽出部
１６　出力部

Claims

　制御部を有する評価支援装置であって、
　前記制御部は、
　複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する、
　評価支援装置。
　前記制御部は、
　化学物質の性質毎に、前記複数の文書を分類した情報を統計処理することにより、
　化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する、
　請求項１に記載の評価支援装置。
　前記制御部は、
　前記化学物質の性質が記載されているか否かに基づいて前記複数の文書を分類する、
　請求項２に記載の評価支援装置。
　前記制御部は、
　前記文書に記載された化学物質の特徴情報に基づいて前記複数の文書を分類した情報を統計処理する、
　請求項３に記載の評価支援装置。
　前記制御部は、
　前記出力された情報から、化学物質の前記有害性に関わる分類の傾向を評価又は予測する、
　請求項４に記載の評価支援装置。
　前記制御部は、
　前記文書に記載された化学物質の特徴情報から、前記特徴情報が類似する化学物質の前記傾向を評価又は予測する、
　請求項５に記載の評価支援装置。
　前記化学物質の性質は、前記化学物質の毒性、生物蓄積性、難分解性、地域分布性、可燃性及び温室効果のうち少なくとも一つを含む、
　請求項２に記載の評価支援装置。
　前記化学物質の性質は、前記化学物質の有害性に関わる分類への該当性を下げる情報が含まれる、
　請求項２に記載の評価支援装置。
　前記該当性を下げる情報は、前記化学物質の処理方法及び分解方法のうち少なくとも一つを含む、
　請求項８に記載の評価支援装置。
　前記制御部は、
　互いに関連性の高い前記文書が近傍に配置される分散表現に基づいて、前記複数の文書を分類する、
　請求項２に記載の評価支援装置。
　前記制御部は、
　前記複数の文書のうち一部の前記文書に、前記化学物質の性質が記載されているか否かを表す文書情報を付与し、
　前記文書情報に基づいて、前記化学物質の性質が記載された前記文書を分類する、
　請求項１０に記載の評価支援装置。
　前記制御部は、
　前記複数の文書の間の引用関係に基づいて、前記複数の文書を分類する、
　請求項２に記載の評価支援装置。
　前記文書は学術論文である、
　請求項１２に記載の評価支援装置。
　前記制御部は、
　前記文書の記載内容の自然言語処理結果に基づいて、前記複数の文書を分類する、
　請求項２に記載の評価支援装置。
　複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測する工程を有する評価方法。
　評価支援装置が有する制御部に、
　複数の文書の関連性に基づいて、化学物質の有害性に関わる分類の傾向を評価又は予測するための情報を出力する手順と、
　を実行させるためのプログラム。