JPWO2022130578A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2022130578A5 JPWO2022130578A5 JP2022569434A JP2022569434A JPWO2022130578A5 JP WO2022130578 A5 JPWO2022130578 A5 JP WO2022130578A5 JP 2022569434 A JP2022569434 A JP 2022569434A JP 2022569434 A JP2022569434 A JP 2022569434A JP WO2022130578 A5 JPWO2022130578 A5 JP WO2022130578A5
- Authority
- JP
- Japan
- Prior art keywords
- document
- groups
- similarity
- entities
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims 10
- 239000013598 vector Substances 0.000 claims 10
- 230000014509 gene expression Effects 0.000 claims 2
Claims (10)
- 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、
処理をコンピュータに実行させる、類似度判定プログラム。 - 前記第1の複数のグループを取得する処理は、前記第1の複数の固有表現の各々の前記第1の文書内の出現位置の近さを数値化した値と、前記第1の複数の固有表現の各々の類似度とを用いたクラスタリング処理を含み、
前記第2の複数のグループを取得する処理は、前記第2の複数の固有表現の各々の前記第2の文書内の出現位置の近さを数値化した値と、前記第2の複数の固有表現の各々の類似度とを用いたクラスタリング処理を含む、
請求項1に記載の類似度判定プログラム。 - 前記類似度を判定する処理は、前記第1の複数のグループの各々と前記第2の複数のグループの各々との組み合わせの中で、グループの類似度が最大となる組み合わせの前記グループの類似度を、前記第1の文書と前記第2の文書との類似度と判定する処理を含む、
請求項1又は請求項2に記載の類似度判定プログラム。 - 前記第2の複数のグループのうちの前記グループの類似度が最大となるグループに属する固有表現のリストを含む画面情報を出力する、
処理を前記コンピュータに実行させる、
請求項3に記載の類似度判定プログラム。 - 前記第1の文書に含まれる単語に基づいて、前記第1の文書に対応する第1のベクトルを算出し、
前記第2の文書に含まれる単語に基づいて、前記第2の文書に対応する第2のベクトルを算出する、
処理を前記コンピュータに実行させ、
前記類似度を判定する処理は、前記第1の複数のグループと前記第2の複数のグループとの比較と、前記第1のベクトルと前記第2のベクトルとの比較とに基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
請求項1~請求項4のいずれか1項に記載の類似度判定プログラム。 - 前記第1のベクトルを算出する処理は、前記第1の文書を分割することによって得られた第1の複数の部分文書を前記第1の複数のグループに基づいて分類することによって得られた第1の複数の部分文書グループについて、前記第1の複数の部分文書グループのそれぞれに含まれる単語に基づいて、前記第1の複数の部分文書グループのそれぞれに対応する第1の複数のベクトルを算出する処理を含み、
前記第2のベクトルを算出する処理は、前記第2の文書を分割することによって得られた第2の複数の部分文書を前記第2の複数のグループに基づいて分類することによって得られた第2の複数の部分文書グループについて、前記第2の複数の部分文書グループのそれぞれに含まれる単語に基づいて、前記第2の複数の部分文書グループのそれぞれに対応する第2の複数のベクトルを算出する処理を含む、
請求項5に記載の類似度判定プログラム。 - 前記第1の複数のグループの各々の情報を含む画面情報を出力する、
処理を前記コンピュータに実行させ、
前記類似度を判定する処理は、前記画面情報に応じて選択されたグループと、前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
請求項1~請求項6のいずれか1項に記載の類似度判定プログラム。 - 前記類似度を判定する処理は、前記第1の複数のグループのうちの指定されたキーワードを含むグループと、前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との前記類似度を判定する処理を含む、
請求項1~請求項7のいずれか1項に記載の類似度判定プログラム。 - 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、制御部を備える、
類似度判定装置。 - 第1の文書に含まれる第1の複数の固有表現のそれぞれの位置と前記第1の複数の固有表現のそれぞれの類似度とに基づいて前記第1の複数の固有表現を分類することによって生成された第1の複数のグループを取得し、
第2の文書に含まれる第2の複数の固有表現のそれぞれの位置と前記第2の複数の固有表現のそれぞれの類似度とに基づいて前記第2の複数の固有表現を分類することによって生成された第2の複数のグループを取得し、
前記第1の複数のグループと前記第2の複数のグループとの比較に基づいて、前記第1の文書と前記第2の文書との類似度を判定する、
処理をコンピュータが実行する、類似度判定方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/047218 WO2022130578A1 (ja) | 2020-12-17 | 2020-12-17 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2022130578A1 JPWO2022130578A1 (ja) | 2022-06-23 |
JPWO2022130578A5 true JPWO2022130578A5 (ja) | 2023-06-09 |
JP7487797B2 JP7487797B2 (ja) | 2024-05-21 |
Family
ID=82057405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022569434A Active JP7487797B2 (ja) | 2020-12-17 | 2020-12-17 | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7487797B2 (ja) |
WO (1) | WO2022130578A1 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272680A (ja) * | 1998-03-19 | 1999-10-08 | Fujitsu Ltd | 文書データ提供装置およびそのプログラム記録媒体 |
JP3921837B2 (ja) | 1998-09-30 | 2007-05-30 | 富士ゼロックス株式会社 | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 |
JP2002259411A (ja) * | 2001-03-06 | 2002-09-13 | Nec Corp | 文章情報変換システム、文章情報変換方法および文章情報変換プログラム |
JP4931114B2 (ja) * | 2006-06-29 | 2012-05-16 | 独立行政法人情報通信研究機構 | データ表示装置、データ表示方法及びデータ表示プログラム |
JP5754018B2 (ja) | 2011-07-11 | 2015-07-22 | 日本電気株式会社 | 多義語抽出システム、多義語抽出方法、およびプログラム |
JP2016045552A (ja) * | 2014-08-20 | 2016-04-04 | 富士通株式会社 | 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置 |
-
2020
- 2020-12-17 WO PCT/JP2020/047218 patent/WO2022130578A1/ja active Application Filing
- 2020-12-17 JP JP2022569434A patent/JP7487797B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11605019B2 (en) | Visually guided machine-learning language model | |
US11074434B2 (en) | Detection of near-duplicate images in profiles for detection of fake-profile accounts | |
Bostrom et al. | Binary shapelet transform for multiclass time series classification | |
JP2016529611A (ja) | 画像を検索するための方法およびシステム | |
Zhang et al. | Efficient kNN algorithm based on graph sparse reconstruction | |
CN109241741B (zh) | 一种基于图像纹理指纹的恶意代码分类方法 | |
Zeng et al. | Grid anchor based image cropping: A new benchmark and an efficient model | |
CN111783867A (zh) | 机器学习算法选择方法及装置 | |
US20170109403A1 (en) | Pre-caching | |
JP2015007975A (ja) | マルチモダリティに基づく画像タグ付け装置及び画像タグ付け方法 | |
JP2018092615A (ja) | 畳み込みニューラルネットワークモデルの決定装置及び決定方法 | |
Schaalje et al. | Extended nearest shrunken centroid classification: A new method for open-set authorship attribution of texts of varying sizes | |
Li et al. | Cardiovascular disease risk prediction based on random forest | |
Zhang et al. | Clustering algorithm based on spatial shadowed fuzzy c-means and i-ching operators | |
JP6172332B2 (ja) | 情報処理方法及び情報処理装置 | |
US11438639B2 (en) | Partial-video near-duplicate detection | |
WO2016033130A1 (en) | Computing device classifier improvement through n-dimensional stratified input sampling | |
JPWO2022130579A5 (ja) | ||
JPWO2022130578A5 (ja) | ||
JP6622369B1 (ja) | 訓練データを生成する方法、コンピュータおよびプログラム | |
Pasupa et al. | Virtual screening by a new clustering-based weighted similarity extreme learning machine approach | |
JP5439235B2 (ja) | 文書分類方法、文書分類装置、およびプログラム | |
Lan et al. | Comparison of computer-key-hold-time and alternating-finger-tapping tests for early-stage Parkinson’s disease | |
Xia et al. | Ordinal regression as multiclass classification | |
Cazzolato et al. | A statistical decision tree algorithm for medical data stream mining |