JPWO2022130578A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2022130578A5
JPWO2022130578A5 JP2022569434A JP2022569434A JPWO2022130578A5 JP WO2022130578 A5 JPWO2022130578 A5 JP WO2022130578A5 JP 2022569434 A JP2022569434 A JP 2022569434A JP 2022569434 A JP2022569434 A JP 2022569434A JP WO2022130578 A5 JPWO2022130578 A5 JP WO2022130578A5
Authority
JP
Japan
Prior art keywords
document
groups
similarity
entities
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022569434A
Other languages
English (en)
Other versions
JPWO2022130578A1 (ja
JP7487797B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2020/047218 external-priority patent/WO2022130578A1/ja
Publication of JPWO2022130578A1 publication Critical patent/JPWO2022130578A1/ja
Publication of JPWO2022130578A5 publication Critical patent/JPWO2022130578A5/ja
Application granted granted Critical
Publication of JP7487797B2 publication Critical patent/JP7487797B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (10)

  1. 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
    第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
    前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、
    処理をコンピュータに実行させる、類似度判定プログラム。
  2. 前記第1の複数のグループを取得する処理は、前記第1の複数の固有表現の各々の前記第1の文書内の出現位置の近さを数値化した値と、前記第1の複数の固有表現の各々の類似度とを用いたクラスタリング処理を含み、
    前記第2の複数のグループを取得する処理は、前記第2の複数の固有表現の各々の前記第2の文書内の出現位置の近さを数値化した値と、前記第2の複数の固有表現の各々の類似度とを用いたクラスタリング処理を含む、
    請求項1に記載の類似度判定プログラム。
  3. 前記類似度を判定する処理は、前記第1の複数のグループの各々と前記第2の複数のグループの各々との組み合わせの中で、グループの類似度が最大となる組み合わせの前記グループの類似度を、前記第1の文書と前記第2の文書との類似度と判定する処理を含む、
    請求項1又は請求項2に記載の類似度判定プログラム。
  4. 前記第2の複数のグループのうちの前記グループの類似度が最大となるグループに属する固有表現のリストを含む画面情報を出力する、
    処理を前記コンピュータに実行させる、
    請求項3に記載の類似度判定プログラム。
  5. 前記第1の文書に含まれる単語に基づいて、前記第1の文書に対応する第1のベクトルを算出し、
    前記第2の文書に含まれる単語に基づいて、前記第2の文書に対応する第2のベクトルを算出する、
    処理を前記コンピュータに実行させ、
    前記類似度を判定する処理は、前記第1の複数のグループと前記第2の複数のグループとの比較と、前記第1のベクトルと前記第2のベクトルとの比較とに基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
    請求項1~請求項4のいずれか1項に記載の類似度判定プログラム。
  6. 前記第1のベクトルを算出する処理は、前記第1の文書を分割することによって得られた第1の複数の部分文書を前記第1の複数のグループに基づいて分類することによって得られた第1の複数の部分文書グループについて、前記第1の複数の部分文書グループのそれぞれに含まれる単語に基づいて、前記第1の複数の部分文書グループのそれぞれに対応する第1の複数のベクトルを算出する処理を含み、
    前記第2のベクトルを算出する処理は、前記第2の文書を分割することによって得られた第2の複数の部分文書を前記第2の複数のグループに基づいて分類することによって得られた第2の複数の部分文書グループについて、前記第2の複数の部分文書グループのそれぞれに含まれる単語に基づいて、前記第2の複数の部分文書グループのそれぞれに対応する第2の複数のベクトルを算出する処理を含む、
    請求項5に記載の類似度判定プログラム。
  7. 前記第1の複数のグループの各々の情報を含む画面情報を出力する、
    処理を前記コンピュータに実行させ、
    前記類似度を判定する処理は、前記画面情報に応じて選択されたグループと、前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
    請求項1~請求項6のいずれか1項に記載の類似度判定プログラム。
  8. 前記類似度を判定する処理は、前記第1の複数のグループのうちの指定されたキーワードを含むグループと、前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
    請求項1~請求項7のいずれか1項に記載の類似度判定プログラム。
  9. 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
    第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
    前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、制御部を備える、
    類似度判定装置。
  10. 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
    第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
    前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、
    処理をコンピュータが実行する、類似度判定方法。
JP2022569434A 2020-12-17 2020-12-17 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 Active JP7487797B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/047218 WO2022130578A1 (ja) 2020-12-17 2020-12-17 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Publications (3)

Publication Number Publication Date
JPWO2022130578A1 JPWO2022130578A1 (ja) 2022-06-23
JPWO2022130578A5 true JPWO2022130578A5 (ja) 2023-06-09
JP7487797B2 JP7487797B2 (ja) 2024-05-21

Family

ID=82057405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022569434A Active JP7487797B2 (ja) 2020-12-17 2020-12-17 類似度判定プログラム、類似度判定装置、及び、類似度判定方法

Country Status (2)

Country Link
JP (1) JP7487797B2 (ja)
WO (1) WO2022130578A1 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272680A (ja) * 1998-03-19 1999-10-08 Fujitsu Ltd 文書データ提供装置およびそのプログラム記録媒体
JP3921837B2 (ja) 1998-09-30 2007-05-30 富士ゼロックス株式会社 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP2002259411A (ja) * 2001-03-06 2002-09-13 Nec Corp 文章情報変換システム、文章情報変換方法および文章情報変換プログラム
JP4931114B2 (ja) * 2006-06-29 2012-05-16 独立行政法人情報通信研究機構 データ表示装置、データ表示方法及びデータ表示プログラム
JP5754018B2 (ja) 2011-07-11 2015-07-22 日本電気株式会社 多義語抽出システム、多義語抽出方法、およびプログラム
JP2016045552A (ja) * 2014-08-20 2016-04-04 富士通株式会社 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置

Similar Documents

Publication Publication Date Title
US11605019B2 (en) Visually guided machine-learning language model
US11074434B2 (en) Detection of near-duplicate images in profiles for detection of fake-profile accounts
Bostrom et al. Binary shapelet transform for multiclass time series classification
JP2016529611A (ja) 画像を検索するための方法およびシステム
Zhang et al. Efficient kNN algorithm based on graph sparse reconstruction
CN109241741B (zh) 一种基于图像纹理指纹的恶意代码分类方法
Zeng et al. Grid anchor based image cropping: A new benchmark and an efficient model
CN111783867A (zh) 机器学习算法选择方法及装置
US20170109403A1 (en) Pre-caching
JP2015007975A (ja) マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法
JP2018092615A (ja) 畳み込みニューラルネットワークモデルの決定装置及び決定方法
Schaalje et al. Extended nearest shrunken centroid classification: A new method for open-set authorship attribution of texts of varying sizes
Li et al. Cardiovascular disease risk prediction based on random forest
Zhang et al. Clustering algorithm based on spatial shadowed fuzzy c-means and i-ching operators
JP6172332B2 (ja) 情報処理方法及び情報処理装置
US11438639B2 (en) Partial-video near-duplicate detection
WO2016033130A1 (en) Computing device classifier improvement through n-dimensional stratified input sampling
JPWO2022130579A5 (ja)
JPWO2022130578A5 (ja)
JP6622369B1 (ja) 訓練データを生成する方法、コンピュータおよびプログラム
Pasupa et al. Virtual screening by a new clustering-based weighted similarity extreme learning machine approach
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
Lan et al. Comparison of computer-key-hold-time and alternating-finger-tapping tests for early-stage Parkinson’s disease
Xia et al. Ordinal regression as multiclass classification
Cazzolato et al. A statistical decision tree algorithm for medical data stream mining