JPWO2017072822A1 - 関連性評価システム、方法、プログラムおよび記録媒体 - Google Patents
関連性評価システム、方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JPWO2017072822A1 JPWO2017072822A1 JP2017547201A JP2017547201A JPWO2017072822A1 JP WO2017072822 A1 JPWO2017072822 A1 JP WO2017072822A1 JP 2017547201 A JP2017547201 A JP 2017547201A JP 2017547201 A JP2017547201 A JP 2017547201A JP WO2017072822 A1 JPWO2017072822 A1 JP WO2017072822A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- evaluation
- test data
- relevance
- components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
〔構成要素関連性評価システムのハードウェア構成〕
図1を参照して、本願発明の構成要素関連性評価システム(以下、単に「システム」とよぶ)について、説明する。図1は、システム1のハードウェア構成の一例である。システム1は、サーバ装置10およびクライアント端末11を有する。サーバ装置10は、計算を行う演算装置10aとデータ格納用の記憶装置10bを有する。
続いて、図2を参照して、本発明における構成要素関連性評価システムにおいて関連性評価の原理について説明する。図2は、本発明における関連性の比較対象となる基準データRと被検データTを説明した図である。本発明における構成要素関連性評価では、2以上の被検データT(本実施例では被検データT1と被検データT2)が、基準データRとの関連性が高いか否かを判定するものである。関連性評価のための指標としての特徴係数を算定し、それによって関連性の高さを評価する。被検データT1,T2も基準データRも、いずれもデータ構成要素の集合体である。すなわち、被検データT1,T2は複数の単位データt1により、被検データT2は複数のデータ構成要素t2により、基準データRは複数のデータ構成要素rにより構成されている。被検データTも基準データRのデータの種類は特に限定されない。文書データでもよいし、画像データ、音声データなど、単位データの集合体である限りあらゆるデータの集合体が対象となる。したがって、データ構成要素としては、文書を構成する形態素、キーワード、センテンス、段落、および/またはメタデータ(例えば、電子メールのヘッダ情報)であったり、音声を構成する部分音声、ボリューム(ゲイン)情報、および/または音色情報であったり、画像を構成する部分画像、部分画素、および/または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および/または3次元情報となる。
図6は、システム1の機能ブロック構成の一例を示した図である。システム1は、例えば、基準データ取得部21、被検データ取得部22、並び方向判定部23、評価構成要素抽出部24、構成要素格納部25、および構成要素関連性評価部26を備える。基準データ取得部21から並び方向判定部23と評価構成要素抽出部24を介して構成要素格納部25にいたる経路が、基準データRについての学習プロセスとなる。一方、被検データ取得部22から並び方向判定部23と評価構成要素抽出部24を介して構成要素関連性評価部26にいたる経路が、被検データTについて、基準データRに対しての関連性評価のプロセスとなる。
続いて、上記機能についてシステム1で実行するプログラムのアルゴリズムを説明する。まず、基準データRを取り込む(S101)。続いて、読み込んだ基準データRについて、データ構成要素の並び方向を決定する(S102)。データ構成要素の並び方向が決定された基準データRにおいて、データ構成要素の中から基準データRの内容の特徴を最もよく表す複数のデータ構成要素を、予め定義した並び方向に従った出現順とともに抽出し、関連性評価のための評価構成要素群として定義する(S103)。抽出された評価構成要素群とその出現順のデータを記憶装置10bに格納する(S104)。以上が関連性評価のための基準データRによる学習プロセスである。これに続いて、被検データTについての基準データRに対する関連性評価プロセスが進む。まず、被検データTを取り込む(S105)。続いて、被検データTを構成するデータ構成要素の並び方向を決定する(S106)。並び方向が決定された被検データTから、予め学習プロセスにおいて決定していた関連性評価のための評価構成要素を抽出する(S107)。抽出された被検データTの中の評価構成要素について、基準データRにおける出現順と同じものを抽出する(S108)。続いて、前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する。特徴係数は、抽出された被検データTの評価構成要素のうち、選択された2個の組み合わせの出現順が予め定義された基準データRの評価構成要素の出現順との合致の程度を計算することが可能である。すなわち、合致の程度は、たとえば合致率として、前記の特徴係数(Order)に対応することができる。たとえば、抽出された被検データTの評価構成要素のうち選択された2個の組み合せの総数において、その出現順が合致するものには「1」を付与し、合致しないものには「0」を付与する。前記の通り、出現順のみを考慮し、構成要素間に別の構成要素が出現することは評価の対象としない。そして、特徴係数(Order) = (1が付与された頻度)/(2個の組み合せ総数)を算出する(S109)。
上記の実施の形態1におけるシステム1では、特徴係数(Order)を演算するシステム1によって判断を行う形態について説明した。しかし、特徴係数(Order)をスコア値の補正に使用することで、被検データTの関連性の高さを補正されたスコア値で評価することが可能となる。以下、これにつき、実施の形態2として説明する。
上記の実施の形態2におけるシステム1では、基準データRに対する被検データT1および被検データT2のスコア値(Score RAW)を、特徴係数(Order)とは別に算出している。すなわち、スコア値を算出するための評価構成要素群と、特徴係数(Order)とが、異なっている場合に使用できる形態である。実施の形態3では、基準データRで予め決定した共通の評価構成要素により、スコア値の算出と特徴係数の算出とを、一連のプロセスで実施するものである。以下、これにつき、実施の形態3として説明する。
データ分析システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム(データ分析システムの制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能である。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。
上記システムは、例えば、ディスカバリ支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム(データと所定の事案との関連性を評価可能な任意のシステム)として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。
10 サーバ装置
11 クライアント端末
12 入力装置
13 データ格納サーバ装置
21 基準データ取得部
22 被検データ取得部
23 並び方向判定部
24 評価構成要素抽出部
25 構成要素格納部
26 構成要素関連性評価部
27 スコア値算出部
28 スコア値補正部
Claims (7)
- 基準データに対する被検データの関連性を評価する関連性評価システムであって、その関連性評価システムは、
前記基準データと前記被検データとをそれぞれ取得するデータ取得部と、
前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データのデータ構成要素の並び方向にしたがった出現順に、抽出する評価構成要素抽出部と、
前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価部と、を備える関連性評価システム。 - 請求項1に記載の関連性評価システムであって、
前記特徴係数は、前記被検データの前記評価構成要素から選択された構成要素の2つの組み合せの総数に対する、前記総数のうち前記基準データにおける出現順と同じ出現順の評価構成要素の2つの組み合せ出現数の割合である関連性評価システム。 - 請求項1に記載の関連性評価システムであって、
前記関連性評価部は、前記被検データのスコア値に、前記特徴係数を乗じる演算を行う関連性評価システム。 - 請求項1に記載の関連性評価システムであって、
前記評価構成要素抽出部は、抽出した前記被検データの前記評価構成要素を複数のグループに分類し、
前記関連性評価システムは、前記複数のグループのそれぞれについて、抽出した前記評価構成要素に基づいてスコア値を算出するスコア値算出部を備え、
前記関連性評価部は、前記複数のグループのそれぞれについて、前記特徴係数を計算し、
前記関連性評価システムは、前記複数のグループのそれぞれについて、前記スコア値と、前記特徴係数とを乗じて、前記複数のグループのすべてについてその乗じた数の総和を計算するスコア値補正部とを備える関連性評価システム。 - コンピュータを備える関連性評価システムにより、基準データと被検データとの関連性を評価する方法であって、
前記基準データと前記被検データとをそれぞれ取得し、
前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出し、
前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する関連性評価方法。 - コンピュータを備える関連性評価システムにおいて実行可能な関連性評価プログラムであって、そのプログラムは基準データと被検データとの関連性を評価するものであって、前記プログラムは、
前記基準データと前記被検データとをそれぞれ取得する工程と、
前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、
前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する関連性評価プログラム。 - コンピュータを備える関連性評価システムにおいて実行可能であって、基準データと被検データとの関連性を評価する関連性評価プログラムが格納されている記憶媒体であって、前記プログラムは、
前記基準データと前記被検データとをそれぞれ取得する工程と、
前記基準データの前記データ構成要素のうち前記基準データの特徴を表す評価構成要素を、前記被検データから前記被検データの前記データ構成要素の並び方向にしたがった出現順に、抽出する工程と、
前記被検データの前記並び方向における前記被検データの前記評価構成要素の出現順に基づく特徴係数を計算する工程と、を実行する記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/005479 WO2017072822A1 (ja) | 2015-10-30 | 2015-10-30 | 関連性評価システム、方法、プログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2017072822A1 true JPWO2017072822A1 (ja) | 2018-07-26 |
Family
ID=58629917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017547201A Pending JPWO2017072822A1 (ja) | 2015-10-30 | 2015-10-30 | 関連性評価システム、方法、プログラムおよび記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2017072822A1 (ja) |
WO (1) | WO2017072822A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277413A (ja) * | 2005-03-29 | 2006-10-12 | Toshiba Corp | 文書分類装置および文書分類方法 |
JP2010055373A (ja) * | 2008-08-28 | 2010-03-11 | Sky Co Ltd | ノート評価装置またはノート評価プログラム |
JP2011113426A (ja) * | 2009-11-30 | 2011-06-09 | Fujitsu Ltd | 辞書作成装置,辞書作成プログラムおよび辞書作成方法 |
JP2012252484A (ja) * | 2011-06-02 | 2012-12-20 | Hitachi Systems Ltd | 回答自動生成システム |
-
2015
- 2015-10-30 JP JP2017547201A patent/JPWO2017072822A1/ja active Pending
- 2015-10-30 WO PCT/JP2015/005479 patent/WO2017072822A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277413A (ja) * | 2005-03-29 | 2006-10-12 | Toshiba Corp | 文書分類装置および文書分類方法 |
JP2010055373A (ja) * | 2008-08-28 | 2010-03-11 | Sky Co Ltd | ノート評価装置またはノート評価プログラム |
JP2011113426A (ja) * | 2009-11-30 | 2011-06-09 | Fujitsu Ltd | 辞書作成装置,辞書作成プログラムおよび辞書作成方法 |
JP2012252484A (ja) * | 2011-06-02 | 2012-12-20 | Hitachi Systems Ltd | 回答自動生成システム |
Also Published As
Publication number | Publication date |
---|---|
WO2017072822A1 (ja) | 2017-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6402265B2 (ja) | 意思決定モデルを構築する方法、コンピュータデバイス及び記憶デバイス | |
CN111028006B (zh) | 一种业务投放辅助方法、业务投放方法及相关装置 | |
CN112017777B (zh) | 相似对问题预测的方法、装置及电子设备 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
US20160335249A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
CN113468421A (zh) | 基于向量匹配技术的产品推荐方法、装置、设备及介质 | |
CN112541069A (zh) | 一种结合关键词的文本匹配方法、系统、终端及存储介质 | |
JP6144314B2 (ja) | データ分類システム,方法,プログラムおよびその記録媒体 | |
US11232325B2 (en) | Data analysis system, method for controlling data analysis system, and recording medium | |
KR101958555B1 (ko) | 검색 결과 제공 장치 및 방법 | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
CN112686339B (zh) | 一种基于起诉状的案由确定方法和装置 | |
WO2017072822A1 (ja) | 関連性評価システム、方法、プログラムおよび記録媒体 | |
JP6509391B1 (ja) | 計算機システム | |
US11514311B2 (en) | Automated data slicing based on an artificial neural network | |
CN113688206A (zh) | 基于文本识别的趋势分析方法、装置、设备及介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN115769194A (zh) | 跨数据集的自动数据链接 | |
CN111353428A (zh) | 动作信息识别方法、装置、电子设备及存储介质 | |
CN110807118A (zh) | 图像评论的生成方法、装置及电子设备 | |
KR20210023453A (ko) | 리뷰 광고 매칭 장치 및 방법 | |
CN114579762B (zh) | 知识图谱对齐方法、装置、设备、存储介质及程序产品 | |
JP5946949B1 (ja) | データ分析システム、その制御方法、プログラム、および、記録媒体 | |
US20080120263A1 (en) | Computer-readable recording medium, apparatus and method for calculating scale-parameter | |
CN117786234B (zh) | 一种基于两阶段对比学习的多模态资源推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180323 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180323 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190328 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190524 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191024 |