JPWO2020213158A1 - 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置 - Google Patents
特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置 Download PDFInfo
- Publication number
- JPWO2020213158A1 JPWO2020213158A1 JP2021514773A JP2021514773A JPWO2020213158A1 JP WO2020213158 A1 JPWO2020213158 A1 JP WO2020213158A1 JP 2021514773 A JP2021514773 A JP 2021514773A JP 2021514773 A JP2021514773 A JP 2021514773A JP WO2020213158 A1 JPWO2020213158 A1 JP WO2020213158A1
- Authority
- JP
- Japan
- Prior art keywords
- vector
- word
- text
- compression
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
10B テキスト圧縮ファイル
15 辞書情報
20A 検索クエリ
31 第1候補リスト
32 第2候補リスト
100 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
140a 単語ベクトルテーブル
140b 次元圧縮単語ベクトルテーブル
140c 単語インデックス
140d 同義語インデックス
140e 同義文インデックス
140f 文ベクトルテーブル
140g 動的辞書
150 制御部
150a 受付部
150b 次元圧縮部
150c 生成処理部
150d 抽出部
150e 特定部
150f グラフ生成部
Claims (12)
- 検索条件に含まれるテキストを受け付け、
受け付けた前記テキストに含まれるいずれかの単語に応じたベクトルを特定し、
複数のテキストファイルの少なくともいずれかに含まれる複数の単語に応じた複数のベクトルそれぞれに対応付けて、前記複数のベクトルそれぞれに応じた単語が、前記複数のテキストファイルそれぞれに含まれるか否かを示す存否情報を記憶する記憶部を参照して、前記複数のベクトルのうち、特定した前記ベクトルとの類似度が基準以上となるベクトルに対応付けられた存否情報に基づき、前記複数のテキストファイルのうち、前記いずれかの単語を含むテキストファイルを特定する
処理をコンピュータが実行することを特徴とする特定方法。 - 前記ベクトルを特定する処理は、前記テキストに含まれる単語の各次元の値を積算し、積算結果を基にして、前記テキストに含まれるいずれかの単語から、特徴単語のベクトルを特定し、前記テキストファイルを特定する処理は、前記記憶部を参照して、前記複数のベクトルのうち、前記特徴単語のベクトルとの類似度が基準以上となるベクトルに対応付けられた存否情報に基づき、前記複数のテキストファイルのうち、前記いずれかの単語を含むテキストファイルを特定することを特徴とする請求項1に記載の特定方法。
- 前記ベクトルを特定する処理は、前記検索条件に含まれる複数の文の各次元の値を積算した積算結果を基にして、前記検索条件に含まれるいずれかの文から、特徴文のベクトルを特定し、前記テキストファイルを特定する処理は、前記複数のベクトルそれぞれに応じた文が、前記複数のテキストファイルそれぞれに含まれるか否かを示す存否情報を記憶する記憶部を参照して、前記複数のベクトルのうち、特定した前記特徴文のベクトルとの類似度が基準以上となるベクトルに対応付けられた存否情報に基づき、前記複数のテキストファイルのうち、前記検索条件に含まれるいずれかの文を含むテキストファイルを特定することを特徴とする請求項1に記載の特定方法。
- テキストファイルを受け付け、
受け付けた前記テキストファイルに含まれるいずれかの単語に応じた第1のベクトルを特定し、
複数の単語に応じた複数のベクトルを記憶する記憶部を参照して、前記複数のベクトルのうち、前記第1のベクトルとの類似度が基準以上となる第2のベクトルを特定し、
前記テキストファイルに前記いずれかの単語が含まれることを示す情報を、前記第2のベクトルに対応付ける情報を生成する
処理をコンピュータが実行することを特徴とする生成方法。 - 分類レベルに応じた類似度の複数の基準値を基にして、前記テキストファイルに含まれる複数の単語のうち、ベクトル同士の類似度が基準値以上となる単語グループに属する各単語に対して同一のベクトルに対応付ける処理を、異なる分類レベル毎に実行し、
前記テキストファイルに含まれるある単語グループに属する単語のオフセットと、前記ある単語グループに属する単語のベクトルとを対応付けた転置インデックスを、異なる分類レベル毎に生成する処理を更に実行することを特徴とする請求項4に記載の生成方法。 - 検索条件に含まれるテキストを受け付け、
受け付けた前記テキストに含まれるいずれかの単語に応じたベクトルを特定し、
特定した前記ベクトルと、前記分類レベル毎のいずれかの転置インデックスとを基にして、前記ベクトルに対応する単語を含むテキストファイルを特定する処理を更に実行することを特徴とする請求項5に記載の生成方法。 - 前記テキストファイルを特定する処理は、前記分類レベル毎の転置インデックスに基づいて検索したテキストファイルの数を基にして、前記転置インデックスを切り替えることを特徴とする請求項6に記載の生成方法。
- 文字列に対応する複数次元のベクトルを基にして、前記ベクトルを次元毎に成分分解された複数の基底ベクトルを円状に分散配置し、
前記複数の基底ベクトルのうち、第1の基底ベクトルに対して、前記第1の基底ベクトルを除く他の第2の基底ベクトルを直交変換した値を積算することで、前記第1の基底ベクトルの値を算出し、
前記ベクトルに含まれる複数次元を、前記第1の基底ベクトルに対応する次元に圧縮し、圧縮した次元の値を、前記算出する処理によって算出された第1の基底ベクトルの値に設定する
処理をコンピュータが実行することを特徴とする次元圧縮方法。 - テキストを受け付け、
受け付けた前記テキストに含まれる複数の単語または文に応じたベクトルの次元を次元圧縮し、
前記複数の単語または文に対応する次元圧縮されたベクトルの次元のうち、2次元のベクトルの値に応じた位置をそれぞれグラフにプロットした画像情報を生成し、
生成した画像情報を表示する
処理をコンピュータが実行することを特徴とする表示方法。 - 検索条件に含まれるテキストを受け付ける受付部と、
受け付けた前記テキストに含まれるいずれかの単語に応じたベクトルを特定し、複数のテキストファイルの少なくともいずれかに含まれる複数の単語に応じた複数のベクトルそれぞれに対応付けて、前記複数のベクトルそれぞれに応じた単語が、前記複数のテキストファイルそれぞれに含まれるか否かを示す存否情報を記憶する記憶部を参照して、前記複数のベクトルのうち、特定した前記ベクトルとの類似度が基準以上となるベクトルに対応付けられた存否情報に基づき、前記複数のテキストファイルのうち、前記いずれかの単語を含むテキストファイルを特定する特定部と
を有することを特徴とする情報処理装置。 - テキストファイルを受け付ける受付部と、
受け付けた前記テキストファイルに含まれるいずれかの単語に応じた第1のベクトルを特定し、複数の単語に応じた複数のベクトルを記憶する記憶部を参照して、前記複数のベクトルのうち、前記第1のベクトルとの類似度が基準以上となる第2のベクトルを特定し、前記テキストファイルに前記いずれかの単語が含まれることを示す情報を、前記第2のベクトルに対応付ける情報を生成する生成処理部と
を有することを特徴とする情報処理装置。 - テキストを受け付ける受付部と、
受け付けた前記テキストに含まれる複数の単語または文に応じたベクトルの次元を次元圧縮し、前記複数の単語または文に対応する次元圧縮されたベクトルの次元のうち、2次元のベクトルの値に応じた位置をそれぞれグラフにプロットした画像情報を生成し、生成した画像情報を表示するグラフ生成部と
を有することを特徴とする情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022193695A JP7552675B2 (ja) | 2019-04-19 | 2022-12-02 | 生成方法および情報処理装置 |
JP2023218382A JP2024023870A (ja) | 2019-04-19 | 2023-12-25 | 次元圧縮方法、表示方法および情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/016847 WO2020213158A1 (ja) | 2019-04-19 | 2019-04-19 | 特定方法、生成方法、次元圧縮方法、表示方法および情報処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022193695A Division JP7552675B2 (ja) | 2019-04-19 | 2022-12-02 | 生成方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020213158A1 true JPWO2020213158A1 (ja) | 2021-12-09 |
JP7367754B2 JP7367754B2 (ja) | 2023-10-24 |
Family
ID=72837136
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021514773A Active JP7367754B2 (ja) | 2019-04-19 | 2019-04-19 | 特定方法および情報処理装置 |
JP2022193695A Active JP7552675B2 (ja) | 2019-04-19 | 2022-12-02 | 生成方法および情報処理装置 |
JP2023218382A Pending JP2024023870A (ja) | 2019-04-19 | 2023-12-25 | 次元圧縮方法、表示方法および情報処理装置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022193695A Active JP7552675B2 (ja) | 2019-04-19 | 2022-12-02 | 生成方法および情報処理装置 |
JP2023218382A Pending JP2024023870A (ja) | 2019-04-19 | 2023-12-25 | 次元圧縮方法、表示方法および情報処理装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220035848A1 (ja) |
EP (2) | EP3958147A4 (ja) |
JP (3) | JP7367754B2 (ja) |
CN (1) | CN113728316A (ja) |
AU (2) | AU2019441125B2 (ja) |
WO (1) | WO2020213158A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022249478A1 (ja) * | 2021-05-28 | 2022-12-01 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
CN113239668B (zh) * | 2021-05-31 | 2023-06-23 | 平安科技(深圳)有限公司 | 关键词智能提取方法、装置、计算机设备及存储介质 |
EP4357937A4 (en) | 2021-06-14 | 2024-08-14 | Fujitsu Ltd | INFORMATION PROCESSING PROGRAM, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING DEVICE |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
WO2015151162A1 (ja) * | 2014-03-31 | 2015-10-08 | 楽天株式会社 | 類似度算出システム、類似度算出方法およびプログラム |
WO2018190128A1 (ja) * | 2017-04-11 | 2018-10-18 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP2019003387A (ja) * | 2017-06-15 | 2019-01-10 | Kddi株式会社 | 単語群が散布された散布図を作成するプログラム、装置及び方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230021A (ja) | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
JP4074564B2 (ja) | 2003-07-30 | 2008-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置 |
JP2006119714A (ja) | 2004-10-19 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体 |
JP2006146355A (ja) | 2004-11-16 | 2006-06-08 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索方法および装置 |
US8015190B1 (en) * | 2007-03-30 | 2011-09-06 | Google Inc. | Similarity-based searching |
CN101464907B (zh) * | 2009-01-09 | 2011-05-11 | 中国科学院计算技术研究所 | 一种文本维度压缩及尺度调整方法以及基于此的分类方法 |
CN102929894A (zh) * | 2011-08-12 | 2013-02-13 | 中国人民解放军总参谋部第五十七研究所 | 一种文本在线聚类可视化方法 |
CN104765769B (zh) * | 2015-03-06 | 2018-04-27 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
JP6640519B2 (ja) | 2015-10-07 | 2020-02-05 | Necソリューションイノベータ株式会社 | 情報分析装置及び情報分析方法 |
CN106021626A (zh) * | 2016-07-27 | 2016-10-12 | 成都四象联创科技有限公司 | 基于数据挖掘的数据搜索方法 |
CN106407280B (zh) * | 2016-08-26 | 2020-02-14 | 合一网络技术(北京)有限公司 | 查询目标匹配方法及装置 |
CN110268398A (zh) | 2017-02-14 | 2019-09-20 | 三菱电机株式会社 | 数据分析装置和数据分析方法 |
JP6722615B2 (ja) | 2017-04-07 | 2020-07-15 | 日本電信電話株式会社 | クエリクラスタリング装置、方法、及びプログラム |
KR102027471B1 (ko) | 2017-06-20 | 2019-10-01 | 라인 가부시키가이샤 | 소셜 네트워크 컨텐츠를 기반으로 단어 벡터화 기법을 이용하여 일상 언어로 확장하기 위한 방법 및 시스템 |
CN107391671B (zh) * | 2017-07-21 | 2019-11-26 | 华中科技大学 | 一种文档泄露检测方法及系统 |
-
2019
- 2019-04-19 JP JP2021514773A patent/JP7367754B2/ja active Active
- 2019-04-19 EP EP19925106.7A patent/EP3958147A4/en not_active Withdrawn
- 2019-04-19 CN CN201980095477.3A patent/CN113728316A/zh active Pending
- 2019-04-19 WO PCT/JP2019/016847 patent/WO2020213158A1/ja active Application Filing
- 2019-04-19 EP EP22212422.4A patent/EP4191434A1/en not_active Withdrawn
- 2019-04-19 AU AU2019441125A patent/AU2019441125B2/en active Active
-
2021
- 2021-10-13 US US17/500,104 patent/US20220035848A1/en active Pending
-
2022
- 2022-12-02 JP JP2022193695A patent/JP7552675B2/ja active Active
- 2022-12-21 AU AU2022291509A patent/AU2022291509A1/en active Pending
-
2023
- 2023-12-25 JP JP2023218382A patent/JP2024023870A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000207404A (ja) * | 1999-01-11 | 2000-07-28 | Sumitomo Metal Ind Ltd | 文書検索方法及び装置並びに記録媒体 |
WO2015151162A1 (ja) * | 2014-03-31 | 2015-10-08 | 楽天株式会社 | 類似度算出システム、類似度算出方法およびプログラム |
WO2018190128A1 (ja) * | 2017-04-11 | 2018-10-18 | ソニー株式会社 | 情報処理装置および情報処理方法 |
JP2019003387A (ja) * | 2017-06-15 | 2019-01-10 | Kddi株式会社 | 単語群が散布された散布図を作成するプログラム、装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2019441125A1 (en) | 2021-11-11 |
AU2022291509A1 (en) | 2023-02-02 |
EP3958147A4 (en) | 2022-07-06 |
WO2020213158A1 (ja) | 2020-10-22 |
AU2019441125B2 (en) | 2023-02-02 |
JP2024023870A (ja) | 2024-02-21 |
JP2023014348A (ja) | 2023-01-26 |
JP7367754B2 (ja) | 2023-10-24 |
US20220035848A1 (en) | 2022-02-03 |
EP3958147A1 (en) | 2022-02-23 |
CN113728316A (zh) | 2021-11-30 |
JP7552675B2 (ja) | 2024-09-18 |
EP4191434A1 (en) | 2023-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7552675B2 (ja) | 生成方法および情報処理装置 | |
JP6122800B2 (ja) | 電子機器、文字列表示方法、および文字列表示プログラム | |
US10331717B2 (en) | Method and apparatus for determining similar document set to target document from a plurality of documents | |
US11461909B2 (en) | Method, medium, and apparatus for specifying object included in image utilizing inverted index | |
JP7176233B2 (ja) | 検索方法、検索プログラムおよび検索装置 | |
US10747725B2 (en) | Compressing method, compressing apparatus, and computer-readable recording medium | |
KR20210002435A (ko) | 해석 프로그램, 해석 방법 및 해석 장치 | |
EP4357937A1 (en) | Information processing program, information processing method, and information processing device | |
JP6972788B2 (ja) | 特定プログラム、特定方法および情報処理装置 | |
US20220261430A1 (en) | Storage medium, information processing method, and information processing apparatus | |
US11120222B2 (en) | Non-transitory computer readable recording medium, identification method, generation method, and information processing device | |
WO2022249478A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
US11386267B2 (en) | Analysis method, analyzer, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230925 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7367754 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |