JPWO2019180546A1 - 文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体 - Google Patents
文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体 Download PDFInfo
- Publication number
- JPWO2019180546A1 JPWO2019180546A1 JP2020508098A JP2020508098A JPWO2019180546A1 JP WO2019180546 A1 JPWO2019180546 A1 JP WO2019180546A1 JP 2020508098 A JP2020508098 A JP 2020508098A JP 2020508098 A JP2020508098 A JP 2020508098A JP WO2019180546 A1 JPWO2019180546 A1 JP WO2019180546A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- analysis data
- keyword
- reference sentence
- sentence analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 claims abstract description 174
- 238000012545 processing Methods 0.000 claims abstract description 112
- 230000006870 function Effects 0.000 claims description 110
- 239000013598 vector Substances 0.000 claims description 44
- 238000004891 communication Methods 0.000 claims description 43
- 238000013528 artificial neural network Methods 0.000 claims description 33
- 229910044991 metal oxide Inorganic materials 0.000 claims description 27
- 150000004706 metal oxides Chemical class 0.000 claims description 27
- 239000013604 expression vector Substances 0.000 claims description 25
- 230000000877 morphologic effect Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 8
- 229910052710 silicon Inorganic materials 0.000 claims description 6
- 239000010703 silicon Substances 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 4
- 210000004027 cell Anatomy 0.000 description 102
- 230000005540 biological transmission Effects 0.000 description 37
- 238000004364 calculation method Methods 0.000 description 35
- 239000004065 semiconductor Substances 0.000 description 33
- 210000002569 neuron Anatomy 0.000 description 26
- 230000008569 process Effects 0.000 description 19
- 230000008859 change Effects 0.000 description 13
- 230000004913 activation Effects 0.000 description 9
- 230000008878 coupling Effects 0.000 description 8
- 238000010168 coupling process Methods 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 5
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 4
- 229910052738 indium Inorganic materials 0.000 description 4
- APFVFJFRJDLVQX-UHFFFAOYSA-N indium atom Chemical compound [In] APFVFJFRJDLVQX-UHFFFAOYSA-N 0.000 description 4
- 229910052725 zinc Inorganic materials 0.000 description 4
- 239000011701 zinc Substances 0.000 description 4
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 239000004020 conductor Substances 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000010936 titanium Substances 0.000 description 2
- ZOXJGFHDIHLPTG-UHFFFAOYSA-N Boron Chemical compound [B] ZOXJGFHDIHLPTG-UHFFFAOYSA-N 0.000 description 1
- 229910052684 Cerium Inorganic materials 0.000 description 1
- GYHNNYVSQQEPJS-UHFFFAOYSA-N Gallium Chemical compound [Ga] GYHNNYVSQQEPJS-UHFFFAOYSA-N 0.000 description 1
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 1
- ZOKXTWBITQBERF-UHFFFAOYSA-N Molybdenum Chemical compound [Mo] ZOKXTWBITQBERF-UHFFFAOYSA-N 0.000 description 1
- 229910052779 Neodymium Inorganic materials 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 229910052796 boron Inorganic materials 0.000 description 1
- GWXLDORMOJMVQZ-UHFFFAOYSA-N cerium Chemical compound [Ce] GWXLDORMOJMVQZ-UHFFFAOYSA-N 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 229910052733 gallium Inorganic materials 0.000 description 1
- YZZNJYQZJKSEER-UHFFFAOYSA-N gallium tin Chemical compound [Ga].[Sn] YZZNJYQZJKSEER-UHFFFAOYSA-N 0.000 description 1
- 229910052732 germanium Inorganic materials 0.000 description 1
- GNPVGFCGXDBREM-UHFFFAOYSA-N germanium atom Chemical compound [Ge] GNPVGFCGXDBREM-UHFFFAOYSA-N 0.000 description 1
- 229910052735 hafnium Inorganic materials 0.000 description 1
- VBJZVLUMGGDVMO-UHFFFAOYSA-N hafnium atom Chemical compound [Hf] VBJZVLUMGGDVMO-UHFFFAOYSA-N 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 229910052746 lanthanum Inorganic materials 0.000 description 1
- FZLIPJUXYLNCLC-UHFFFAOYSA-N lanthanum atom Chemical compound [La] FZLIPJUXYLNCLC-UHFFFAOYSA-N 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 229910052750 molybdenum Inorganic materials 0.000 description 1
- 239000011733 molybdenum Substances 0.000 description 1
- 229910021421 monocrystalline silicon Inorganic materials 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- QEFYFXOXNSNQGX-UHFFFAOYSA-N neodymium atom Chemical compound [Nd] QEFYFXOXNSNQGX-UHFFFAOYSA-N 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- KYKLWYKWCAYAJY-UHFFFAOYSA-N oxotin;zinc Chemical compound [Zn].[Sn]=O KYKLWYKWCAYAJY-UHFFFAOYSA-N 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- VSZWPYCFIRKVQL-UHFFFAOYSA-N selanylidenegallium;selenium Chemical compound [Se].[Se]=[Ga].[Se]=[Ga] VSZWPYCFIRKVQL-UHFFFAOYSA-N 0.000 description 1
- 238000011425 standardization method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 229910052715 tantalum Inorganic materials 0.000 description 1
- GUVRBAGPIYLISA-UHFFFAOYSA-N tantalum atom Chemical compound [Ta] GUVRBAGPIYLISA-UHFFFAOYSA-N 0.000 description 1
- JBQYATWDVHIOAR-UHFFFAOYSA-N tellanylidenegermanium Chemical compound [Te]=[Ge] JBQYATWDVHIOAR-UHFFFAOYSA-N 0.000 description 1
- 229910001887 tin oxide Inorganic materials 0.000 description 1
- 229910052719 titanium Inorganic materials 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- WFKWXMTUELFFGS-UHFFFAOYSA-N tungsten Chemical compound [W] WFKWXMTUELFFGS-UHFFFAOYSA-N 0.000 description 1
- 229910052721 tungsten Inorganic materials 0.000 description 1
- 239000010937 tungsten Substances 0.000 description 1
- 229910052727 yttrium Inorganic materials 0.000 description 1
- VWQVUPCCIRVNHF-UHFFFAOYSA-N yttrium atom Chemical compound [Y] VWQVUPCCIRVNHF-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/11—Patent retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Neurology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本実施の形態では、本発明の一態様の文書検索システム及び文書検索方法について図1〜図11を用いて説明する。
本実施の形態では、文書検索システムの一例として、知的財産の検索に用いることができる文書検索システムについて説明する。なお、本発明の一態様の文書検索システムは、知的財産の検索用途に限られず、知的財産以外の検索に使用することもできる。
入力部101には、文書検索システム100の外部からデータが供給される。入力部101に供給されたデータは、伝送路102を介して、処理部103、記憶部105、またはデータベース107に供給される。
伝送路102は、データを伝達する機能を有する。入力部101、処理部103、記憶部105、データベース107、及び出力部109の間のデータの送受信は、伝送路102を介して行うことができる。
処理部103は、入力部101、記憶部105、データベース107などから供給されたデータを用いて、演算、推論などを行う機能を有する。処理部103は、演算結果、推論結果などを、記憶部105、データベース107、出力部109などに供給することができる。
記憶部105は、処理部103が実行するプログラムを記憶する機能を有する。また、記憶部105は、処理部103が生成した演算結果及び推論結果、並びに、入力部101に入力されたデータなどを記憶する機能を有していてもよい。
データベース107は、少なくとも、検索対象となる参照用文章解析データ、IDFデータ、及びベクトルデータを記憶する機能を有する。また、データベース107は、処理部103が生成した演算結果及び推論結果、並びに、入力部101に入力されたデータなどを記憶する機能を有していてもよい。なお、記憶部105及びデータベース107は互いに分離されていなくてもよい。例えば、文書検索システムは、記憶部105及びデータベース107の双方の機能を有する記憶ユニットを有していてもよい。
出力部109は、文書検索システム100の外部にデータを供給する機能を有する。例えば、処理部103における演算結果または推論結果などを外部に供給することができる。
まず、図2及び図3を用いて、文書検索システム100を用いて検索を行うために事前に行う処理について説明する。図2にフローチャートを示し、図3に、図2に示す各ステップの模式図を示す。なお、図3に示す各データの図示は一例であり、これに限定されない。
まず、入力部101に、参照用文章データTDrefを複数入力する(図2及び図3(A))。
次に、複数の参照用文章データTDrefそれぞれの形態素解析を行い、参照用文章解析データADrefを複数生成する(図2及び図3(A))。
ステップS2の後、複数の参照用文章解析データADrefに含まれる単語のIDFを計算し、IDFデータIDを生成する(図2及び図3(B))。ここで、IDFは、規格化することが好ましい。
ステップS2の後、複数の参照用文章解析データADrefに含まれる単語の分散表現ベクトルを生成し、ベクトルデータVDを生成する(図2及び図3(C))。
まず、入力部101に、文章データTDを入力する(図4、図5、及び図6(A))。
次に、文章データTDの形態素解析を行い、文章解析データADを生成する(図4、図5、及び図6(A))。
次に、文章解析データADをIDFデータIDと照合することで、キーワードデータKDを生成する(図4、図5、及び図6(B))。
次に、文章解析データADまたはキーワードデータKDと、ベクトルデータVDと、を用いて、関連語データRDを生成する(図4、図5、及び図6(C))。
次に、参照用文章解析データADrefに含まれる単語と一致したキーワードKWまたは関連語RWの重みに基づいて、参照用文章解析データADrefに点数を付与する(図4、図5、及び図7(A))。
まず、点数づけしていない参照用文章解析データADrefを1件選択する。
次に、参照用文章解析データADrefにおいて、キーワードKWxがヒットするか判断する。ヒットする場合、ステップS25に進む。ヒットしない場合、ステップS23に進む。
次に、参照用文章解析データADrefにおいて、キーワードKWxの関連語RWxyがヒットするか判断する。ヒットする場合、ステップS25に進む。ヒットしない場合、ステップS24に進む。
次に、キーワードKWxの全ての関連語RWで検索したか判断する。検索した場合、ステップS26に進む。検索していない場合、ステップS23に進む。例えば、キーワードKWxの関連語RWが2つあり、先のステップS23で関連語RWx1がヒットするか判断していた場合、ステップS23に戻って関連語RWx2がヒットするか判断する。
ステップS25では、ヒットした単語に対応する重みをスコアに加算する。ステップS22でヒットした場合、キーワードKWxのIDFをスコアに加算する。ステップS23でヒットした場合、キーワードKWxのIDFと、関連語RWxyの関連度RSと、の積をスコアに加算する。なお、上述の点数づけの例では、スコアの分子に加算する。
次に、全てのキーワードKWで検索したか判断する。検索した場合、ステップS27に進む。検索していない場合、ステップS22に進む。例えば、キーワードKWxが2つあり、先のステップS22でキーワードKW1がヒットするか判断していた場合、ステップS22に戻ってキーワードKW2がヒットするか判断する。
次に、全ての参照用文章解析データADrefの点数づけをしたか判断する。全ての点数づけが終わった場合、ステップS16に進む。終わっていない場合、ステップS21に進む。
そして、参照用文章解析データADrefを順位づけし、ランキングデータLDを生成し、出力する(図4、5、及び図7(A))。
ステップ14の後、ステップS15で使用予定のキーワードデータKD及び関連語データRDの一覧を出力する(図9及び図10(A))。
次に、キーワードデータKD及び関連語データRDを編集する(図9及び図10(B))。
次に、ランキングデータLDが期待した結果であるか確認する(図9)。期待した結果であれば、検索を終了する。期待した結果が得られなかった場合、ステップS41に戻って、編集済みのキーワードデータKD及び関連語データRDの一覧を出力し、ステップS42にて、再度編集してもよい。
次に、図11に示す文書検索システム150について説明する。
入出力部169には、文書検索システム150の外部からデータが供給される。入出力部169は、文書検索システム150の外部にデータを供給する機能を有する。なお、文書検索システム100のように、入力部と出力部が分かれていてもよい。
伝送路162及び伝送路168は、データを伝達する機能を有する。通信部161a、処理部163a、及びデータベース167の間のデータの送受信は、伝送路162を介して行うことができる。通信部161b、処理部163b、記憶部165、及び入出力部169の間のデータの送受信は、伝送路168を介して行うことができる。
処理部163aは、通信部161a及びデータベース167などから供給されたデータを用いて、演算、推論などを行う機能を有する。処理部163bは、通信部161b、記憶部165、及び入出力部169などから供給されたデータを用いて、演算などを行う機能を有する。処理部163a及び処理部163bは、処理部103の説明を参照できる。特に、処理部163aは、上記<2.文書検索方法>で説明した各種処理を行うことができる。そのため、処理部163aは、処理部163bに比べて処理能力が高いことが好ましい。
記憶部165は、処理部163bが実行するプログラムを記憶する機能を有する。また、記憶部165は、処理部163bが生成した演算結果、通信部161bに入力されたデータ、及び入出力部169に入力されたデータなどを記憶する機能を有する。
データベース167は、参照用文章解析データADref、IDFデータID、及びベクトルデータVDを記憶する機能を有する。また、データベース167は、処理部163aが生成した演算結果、及び通信部161aに入力されたデータなどを記憶する機能を有していてもよい。または、サーバ151は、データベース167とは別に記憶部を有し、当該記憶部が、処理部163aが生成した演算結果、及び通信部161aに入力されたデータなどを記憶する機能を有していてもよい。
通信部161a及び通信部161bを用いて、サーバ151と端末152との間で、データの送受信を行うことができる。通信部161a及び通信部161bとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線(例えば、電波、赤外線など)を用いてもよい。
本実施の形態では、ニューラルネットワークに用いることが可能な半導体装置の構成例について説明する。
図13に、ニューラルネットワークの演算を行う機能を有する半導体装置MACの構成例を示す。半導体装置MACは、ニューロン間の結合強度(重み)に対応する第1のデータと、入力データに対応する第2のデータの積和演算を行う機能を有する。なお、第1のデータ及び第2のデータはそれぞれ、アナログデータまたは多値のデジタルデータ(離散的なデータ)とすることができる。また、半導体装置MACは、積和演算によって得られたデータを活性化関数によって変換する機能を有する。
上記の半導体装置MACを用いて、第1のデータと第2のデータの積和演算を行うことができる。以下、積和演算を行う際の半導体装置MACの動作例を説明する。
まず、時刻T01−時刻T02の期間において、配線WL[1]の電位がハイレベル(High)となり、配線WD[1]の電位が接地電位(GND)よりもVPR−VW[1,1]大きい電位となり、配線WDrefの電位が接地電位よりもVPR大きい電位となる。また、配線RW[1]、及び配線RW[2]の電位が基準電位(REFP)となる。なお、電位VW[1,1]はメモリセルMC[1,1]に格納される第1のデータに対応する電位である。また、電位VPRは参照データに対応する電位である。これにより、メモリセルMC[1,1]及びメモリセルMCref[1]が有するトランジスタTr11がオン状態となり、ノードNM[1,1]の電位がVPR−VW[1,1]、ノードNMref[1]の電位がVPRとなる。
次に、時刻T05−時刻T06の期間において、配線RW[1]の電位が基準電位よりもVX[1]大きい電位となる。このとき、メモリセルMC[1,1]、及びメモリセルMCref[1]のそれぞれの容量素子C11には電位VX[1]が供給され、容量結合によりトランジスタTr12のゲートの電位が上昇する。なお、電位VX[1]はメモリセルMC[1,1]及びメモリセルMCref[1]に供給される第2のデータに対応する電位である。
Claims (24)
- 処理部を有し、
前記処理部は、
文章データに含まれるキーワードを抽出する機能と、
複数の第1の参照用文章解析データに含まれる単語の中から、前記キーワードの関連語を抽出する機能と、
前記キーワード及び前記関連語のそれぞれに対して、重みを付与する機能と、
複数の第2の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与する機能と、
前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成する機能と、
前記ランキングデータを出力する機能と、を有する、文書検索システム。 - 処理部を有し、
前記処理部は、
文章データに含まれるキーワードを抽出する機能と、
複数の第1の参照用文章解析データに含まれる単語の中から、前記キーワードの関連語を抽出する機能と、
前記キーワード及び前記関連語のそれぞれに対して、重みを付与する機能と、
複数の第2の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与する機能と、
前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成する機能と、
前記ランキングデータを出力する機能と、を有し、
前記キーワードの前記重みは、前記キーワードの、前記複数の第1の参照用文章解析データまたは前記複数の第2の参照用文章解析データにおける逆文書頻度に基づいた値であり、
前記関連語の前記重みは、前記関連語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度または距離に基づいた値と、前記キーワードの前記重みと、の積である、文書検索システム。 - 請求項1または2において、
前記キーワードまたは前記関連語と一致する単語を有する前記第2の参照用文章解析データに対して、前記点数を付与する、文書検索システム。 - 請求項1乃至3のいずれか一において、
前記複数の第1の参照用文章解析データは、前記複数の第2の参照用文章解析データと同一である、文書検索システム。 - 請求項1乃至4のいずれか一において、
前記関連語は、前記複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて抽出する、文書検索システム。 - 請求項1乃至5のいずれか一において、
前記関連語は、前記複数の第1の参照用文章解析データに含まれる単語の中から、前記単語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて抽出する、文書検索システム。 - 請求項6において、
前記単語の分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索システム。 - 請求項1乃至7のいずれか一において、
前記文章データに含まれるキーワードを抽出する機能として、前記文章データの形態素解析を行うことで解析データを生成する機能と、前記解析データから前記キーワードを抽出する機能と、を有し、
前記キーワードは、前記解析データに含まれる単語の中から、前記複数の第1の参照用文章解析データまたは前記複数の第2の参照用文章解析データにおける逆文書頻度の高さに基づいて抽出する、文書検索システム。 - 請求項1乃至8のいずれか一において、
前記重みは、ユーザが変更することが可能である、文書検索システム。 - 請求項1乃至9のいずれか一において、
前記第1の参照用文章解析データは、第1の参照用文章データの形態素解析を行うことで生成されたデータであり、
前記第2の参照用文章解析データは、第2の参照用文章データの形態素解析を行うことで生成されたデータである、文書検索システム。 - 請求項1乃至10のいずれか一において、
電子機器と、サーバと、を有し、
前記電子機器は、第1の通信部を有し、
前記サーバは、前記処理部と、第2の通信部と、を有し、
前記第1の通信部は、有線通信及び無線通信のうち一方または双方により、前記サーバに前記文章データを供給する機能を有し、
前記処理部は、前記ランキングデータを前記第2の通信部に供給する機能を有し、
前記第2の通信部は、有線通信及び無線通信のうち一方または双方により、前記電子機器に前記ランキングデータを供給する機能を有する、文書検索システム。 - 請求項1乃至11のいずれか一において、
前記処理部は、トランジスタを有し、
前記トランジスタは、チャネル形成領域に金属酸化物を有する、文書検索システム。 - 請求項1乃至11のいずれか一において、
前記処理部は、トランジスタを有し、
前記トランジスタは、チャネル形成領域にシリコンを有する、文書検索システム。 - 文章データに含まれるキーワードを抽出し、
複数の第1の参照用文章解析データに含まれる単語の中から、前記キーワードの関連語を抽出し、
前記キーワード及び前記関連語のそれぞれに対して、重みを付与し、
複数の第2の参照用文章解析データのそれぞれに対して、前記重みに基づいて点数を付与し、
前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることで、ランキングデータを生成し、
前記ランキングデータを出力する、文書検索方法。 - 請求項14において、
前記キーワードまたは前記関連語と一致する単語を有する前記第2の参照用文章解析データに対して、前記点数を付与する、文書検索方法。 - 請求項14または15において、
前記キーワードの前記重みは、前記キーワードの、前記複数の第1の参照用文章解析データまたは前記複数の第2の参照用文章解析データにおける逆文書頻度に基づいた値であり、
前記関連語の前記重みは、前記関連語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度または距離に基づいた値と、前記キーワードの前記重みと、の積である、文書検索方法。 - 請求項14乃至16のいずれか一において、
前記複数の第1の参照用文章解析データは、前記複数の第2の参照用文章解析データと同一である、文書検索方法。 - 請求項14乃至17のいずれか一において、
前記関連語は、前記複数の第1の参照用文章解析データに含まれる単語の分散表現を機械学習することで得られる分散表現ベクトルを用いて抽出する、文書検索方法。 - 請求項14乃至18のいずれか一において、
前記関連語は、前記複数の第1の参照用文章解析データに含まれる単語の中から、前記単語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて抽出する、文書検索方法。 - 請求項19において、
前記単語の分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索方法。 - 請求項14乃至20のいずれか一において、
前記文章データの形態素解析を行うことで解析データを生成し、前記解析データに含まれる単語の中から、前記複数の第1の参照用文章解析データまたは前記複数の第2の参照用文章解析データにおける逆文書頻度の高さに基づいて前記キーワードを抽出することで、前記文章データに含まれる前記キーワードを抽出する、文書検索方法。 - 請求項14乃至21のいずれか一において、
前記第1の参照用文章解析データは、第1の参照用文章データの形態素解析を行うことで生成されたデータであり、
前記第2の参照用文章解析データは、第2の参照用文章データの形態素解析を行うことで生成されたデータである、文書検索方法。 - 文章データに含まれるキーワードを抽出する第1のステップと、
複数の第1の参照用文章解析データに含まれる単語の中から前記キーワードの関連語を抽出する第2のステップと、
前記キーワード及び前記関連語のそれぞれに対して重みを付与する第3のステップと、
複数の第2の参照用文章解析データのそれぞれに対して、前記第2の参照用文章解析データに含まれる単語と一致した前記キーワードまたは前記関連語の前記重みに基づいて点数を付与する第4のステップと、
前記点数に基づいて前記複数の第2の参照用文章解析データを順位づけすることでランキングデータを生成する第5のステップと、をプロセッサに実行させるプログラム。 - 請求項23に記載のプログラムが記憶された非一時的コンピュータ可読記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020158272A JP6916941B2 (ja) | 2018-03-23 | 2020-09-23 | 文書検索方法、文書検索システム、プログラム |
JP2023120817A JP2023134810A (ja) | 2018-03-23 | 2023-07-25 | 文書検索方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018055934 | 2018-03-23 | ||
JP2018055934 | 2018-03-23 | ||
PCT/IB2019/052022 WO2019180546A1 (ja) | 2018-03-23 | 2019-03-13 | 文書検索システム、文書検索方法、プログラム、及び非一時的コンピュータ可読記憶媒体 |
Related Child Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020154415A Division JP2021072102A (ja) | 2018-03-23 | 2020-09-15 | 文書検索方法、文書検索装置 |
JP2020158272A Division JP6916941B2 (ja) | 2018-03-23 | 2020-09-23 | 文書検索方法、文書検索システム、プログラム |
JP2023120817A Division JP2023134810A (ja) | 2018-03-23 | 2023-07-25 | 文書検索方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2019180546A1 true JPWO2019180546A1 (ja) | 2021-03-11 |
JPWO2019180546A5 JPWO2019180546A5 (ja) | 2022-03-07 |
JP7321143B2 JP7321143B2 (ja) | 2023-08-04 |
Family
ID=67986795
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020508098A Active JP7321143B2 (ja) | 2018-03-23 | 2019-03-13 | 文書検索システム |
JP2020154415A Withdrawn JP2021072102A (ja) | 2018-03-23 | 2020-09-15 | 文書検索方法、文書検索装置 |
JP2020158272A Active JP6916941B2 (ja) | 2018-03-23 | 2020-09-23 | 文書検索方法、文書検索システム、プログラム |
JP2023120817A Pending JP2023134810A (ja) | 2018-03-23 | 2023-07-25 | 文書検索方法 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020154415A Withdrawn JP2021072102A (ja) | 2018-03-23 | 2020-09-15 | 文書検索方法、文書検索装置 |
JP2020158272A Active JP6916941B2 (ja) | 2018-03-23 | 2020-09-23 | 文書検索方法、文書検索システム、プログラム |
JP2023120817A Pending JP2023134810A (ja) | 2018-03-23 | 2023-07-25 | 文書検索方法 |
Country Status (6)
Country | Link |
---|---|
US (3) | US11789953B2 (ja) |
JP (4) | JP7321143B2 (ja) |
KR (1) | KR20200134265A (ja) |
CN (1) | CN112136126A (ja) |
DE (1) | DE112019001497T5 (ja) |
WO (1) | WO2019180546A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2020217140A1 (ja) | 2019-04-26 | 2020-10-29 | ||
US11409754B2 (en) * | 2019-06-11 | 2022-08-09 | International Business Machines Corporation | NLP-based context-aware log mining for troubleshooting |
WO2021014256A1 (ja) | 2019-07-19 | 2021-01-28 | 株式会社半導体エネルギー研究所 | オブジェクトをテキストに変換する方法およびシステム |
US12086181B2 (en) | 2020-01-10 | 2024-09-10 | Semiconductor Energy Laboratory Co., Ltd. | Document retrieval system and method for retrieving document |
JP7428250B2 (ja) * | 2020-06-11 | 2024-02-06 | 株式会社島津製作所 | 文書検索の性能を評価する方法、システム、および装置 |
CN114691965A (zh) * | 2020-12-29 | 2022-07-01 | 北京达佳互联信息技术有限公司 | 简历推荐方法、岗位推荐方法、电子设备 |
CN115329051B (zh) * | 2022-10-17 | 2022-12-20 | 成都大学 | 一种多视角新闻信息快速检索方法、系统、存储介质及终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
JP2011039639A (ja) * | 2009-08-07 | 2011-02-24 | Yahoo Japan Corp | 検索装置及び方法 |
JP2015041239A (ja) * | 2013-08-21 | 2015-03-02 | Kddi株式会社 | メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法 |
JP2016219011A (ja) * | 2015-05-21 | 2016-12-22 | 株式会社半導体エネルギー研究所 | 電子装置 |
JP2017134675A (ja) * | 2016-01-28 | 2017-08-03 | 日本放送協会 | 情報検索装置及びプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263521A (ja) | 1995-03-24 | 1996-10-11 | Fuji Xerox Co Ltd | 文書登録検索システム |
JP2000207422A (ja) * | 1999-01-13 | 2000-07-28 | Fujitsu Ltd | 概念シソ―ラスを用いた文書の検索及び格付けシステム並びに方法 |
JP2007065745A (ja) | 2005-08-29 | 2007-03-15 | Canon Inc | 文書検索方法および文書検索装置、プログラム |
CN201000602Y (zh) * | 2007-01-05 | 2008-01-02 | 鸿富锦精密工业(深圳)有限公司 | 电脑关机节能电路 |
US9280595B2 (en) * | 2012-08-30 | 2016-03-08 | Apple Inc. | Application query conversion |
US20140324808A1 (en) | 2013-03-15 | 2014-10-30 | Sumeet Sandhu | Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis |
CN105631009A (zh) * | 2015-12-25 | 2016-06-01 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
US11645317B2 (en) | 2016-07-26 | 2023-05-09 | Qualtrics, Llc | Recommending topic clusters for unstructured text documents |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
US10810214B2 (en) * | 2017-11-22 | 2020-10-20 | Facebook, Inc. | Determining related query terms through query-post associations on online social networks |
US11182806B1 (en) * | 2018-01-04 | 2021-11-23 | Facebook, Inc. | Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities |
US10891943B2 (en) | 2018-01-18 | 2021-01-12 | Citrix Systems, Inc. | Intelligent short text information retrieve based on deep learning |
US11086857B1 (en) | 2018-05-15 | 2021-08-10 | Intuit Inc. | Method and system for semantic search with a data management system |
-
2019
- 2019-03-13 DE DE112019001497.8T patent/DE112019001497T5/de active Pending
- 2019-03-13 JP JP2020508098A patent/JP7321143B2/ja active Active
- 2019-03-13 KR KR1020207029794A patent/KR20200134265A/ko active Application Filing
- 2019-03-13 CN CN201980033402.2A patent/CN112136126A/zh active Pending
- 2019-03-13 WO PCT/IB2019/052022 patent/WO2019180546A1/ja active Application Filing
- 2019-03-13 US US16/979,197 patent/US11789953B2/en active Active
-
2020
- 2020-09-15 JP JP2020154415A patent/JP2021072102A/ja not_active Withdrawn
- 2020-09-23 JP JP2020158272A patent/JP6916941B2/ja active Active
- 2020-10-07 US US17/064,871 patent/US12019636B2/en active Active
-
2023
- 2023-07-25 JP JP2023120817A patent/JP2023134810A/ja active Pending
-
2024
- 2024-04-15 US US18/635,181 patent/US20240273108A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03172966A (ja) * | 1989-12-01 | 1991-07-26 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書検索装置 |
JP2011039639A (ja) * | 2009-08-07 | 2011-02-24 | Yahoo Japan Corp | 検索装置及び方法 |
JP2015041239A (ja) * | 2013-08-21 | 2015-03-02 | Kddi株式会社 | メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法 |
JP2016219011A (ja) * | 2015-05-21 | 2016-12-22 | 株式会社半導体エネルギー研究所 | 電子装置 |
JP2017134675A (ja) * | 2016-01-28 | 2017-08-03 | 日本放送協会 | 情報検索装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20210026861A1 (en) | 2021-01-28 |
JP2021072102A (ja) | 2021-05-06 |
JP2021007024A (ja) | 2021-01-21 |
CN112136126A (zh) | 2020-12-25 |
DE112019001497T5 (de) | 2021-01-07 |
KR20200134265A (ko) | 2020-12-01 |
US11789953B2 (en) | 2023-10-17 |
JP7321143B2 (ja) | 2023-08-04 |
JP6916941B2 (ja) | 2021-08-11 |
WO2019180546A1 (ja) | 2019-09-26 |
US20240273108A1 (en) | 2024-08-15 |
JP2023134810A (ja) | 2023-09-27 |
US12019636B2 (en) | 2024-06-25 |
US20200409963A1 (en) | 2020-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6916941B2 (ja) | 文書検索方法、文書検索システム、プログラム | |
US12099543B2 (en) | Document search system and document search method | |
Rintyarna et al. | Enhancing the performance of sentiment analysis task on product reviews by handling both local and global context | |
Zhang et al. | A quantum-inspired sentiment representation model for twitter sentiment analysis | |
US20210011956A1 (en) | Information search system, intellectual property information search system, information search method, and intellectual property information search method | |
Li et al. | Learning distributed word representation with multi-contextual mixed embedding | |
Govindarajan | Sentiment analysis of restaurant reviews using hybrid classification method | |
Moghadasi et al. | Sent2vec: A new sentence embedding representation with sentimental semantic | |
WO2021079230A1 (ja) | 文書検索システム | |
Islam et al. | Technical approach in text mining for stock market prediction: A systematic review | |
Mahmoud et al. | Hybrid attention-based approach for arabic paraphrase detection | |
Yang et al. | Extractive text summarization model based on advantage actor-critic and graph matrix methodology | |
Srivastava et al. | State-of-the-art methods in healthcare text classification system: AI paradigm | |
Riduan et al. | A Systematic Literature Review of Text Classification: Datasets and Methods | |
Siddique et al. | A review of reverse dictionary: Finding words from concept description | |
KR20240151278A (ko) | 문서 검색 시스템, 문서 검색 방법, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체 | |
D’Silva et al. | Automatic text summarization of Konkani Folk tales using supervised machine learning algorithms and language independent features | |
JP2023076598A (ja) | 情報検索の方法 | |
Patil et al. | Exploring various emotion-shades for Marathi Sentiment Analysis | |
WO2022090849A1 (ja) | 読解支援システム及び読解支援方法 | |
Kandimalla | Subject Category Classification of Scholarly Papers Using Deep Attentive Neural Networks | |
Geng | Clinical name entity recognition using conditional random field with augmented features | |
Zhang et al. | Query Classification Based on Automatic Learning Query Representation | |
Wang | Selected Topics in Deep Learning and Text Mining | |
Das et al. | FastText and Extremely Randomized Trees for Language Detection: A Powerful Duo for Multilingual Text Analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220225 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7321143 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |