WO2020217140A1 - 文書検索システム、および文書検索方法 - Google Patents

文書検索システム、および文書検索方法 Download PDF

Info

Publication number
WO2020217140A1
WO2020217140A1 PCT/IB2020/053578 IB2020053578W WO2020217140A1 WO 2020217140 A1 WO2020217140 A1 WO 2020217140A1 IB 2020053578 W IB2020053578 W IB 2020053578W WO 2020217140 A1 WO2020217140 A1 WO 2020217140A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
search
document
weight
word
Prior art date
Application number
PCT/IB2020/053578
Other languages
English (en)
French (fr)
Inventor
東和樹
桃純平
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Priority to JP2021515317A priority Critical patent/JPWO2020217140A1/ja
Priority to US17/600,280 priority patent/US20220207070A1/en
Priority to KR1020217037770A priority patent/KR20220002394A/ko
Priority to CN202080029122.7A priority patent/CN113711205A/zh
Publication of WO2020217140A1 publication Critical patent/WO2020217140A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Definitions

  • One aspect of the present invention relates to a document retrieval system and a document retrieval method.
  • one aspect of the present invention is not limited to the above technical fields.
  • the technical fields of one aspect of the present invention include semiconductor devices, display devices, light emitting devices, power storage devices, storage devices, electronic devices, lighting devices, input devices (for example, touch sensors), input / output devices (for example, touch panels, etc.). ), Their driving method, or their manufacturing method can be given as an example.
  • the patent document containing the keyword can be output.
  • Patent Document 1 discloses an invention in which a storage device using a transistor having an oxide semiconductor in a channel forming region holds weight data necessary for calculation using an artificial neural network.
  • one aspect of the present invention is to provide a document retrieval system capable of searching a document with high accuracy.
  • one aspect of the present invention is to provide a document retrieval method capable of searching a document with high accuracy.
  • one aspect of the present invention is to realize highly accurate document retrieval, particularly retrieval of documents related to intellectual property, by a simple input method.
  • One aspect of the present invention includes an input unit, a database, a storage unit, and a processing unit, and the database stores a plurality of reference document data, weight dictionary data, and synonym dictionary data. It has a function, and the processing unit has a function of generating weight dictionary data and synonym dictionary data based on reference document data, a function of generating sentence analysis data from sentence data input to the input unit, and sentence analysis.
  • the storage unit has a function of extracting a search word from the words included in the data and a function of generating a first search data from the search word based on the weight dictionary data and the synonym dictionary data. It has a function of storing the second search data generated by modifying the first search data by the user, and the processing unit updates the synonym dictionary data according to the second search data. It is a document search system with a function.
  • the processing unit has a function of generating reference sentence analysis data from reference document data, and a plurality of keywords and related words corresponding to the keywords from the words included in the reference sentence analysis data.
  • a document retrieval system having a function of extracting is preferable.
  • the weight dictionary data extracts the frequency of appearance of keywords from the words included in the reference sentence analysis data, and assigns a first weight according to the frequency of appearance to each of the keywords.
  • a document retrieval system which is the data to be added and generated, is preferable.
  • a document retrieval system is preferable in which the first weight is a value based on the reverse document frequency of the keyword in the reference sentence analysis data.
  • the synonym dictionary data is preferably data generated by giving a second weight to each of the related words, that is, a document retrieval system.
  • the second weight is the product of a value based on the similarity or distance between the distributed representation vector of related words and the distributed representation vector of the keyword, and the first weight of the keyword.
  • a document retrieval system is preferred.
  • the distributed representation vector is preferably a document retrieval system which is a vector generated by using a neural network.
  • a document retrieval system in which the processing unit has a transistor, and the transistor has a metal oxide in the channel forming region.
  • a document retrieval system is preferable in which the processing unit has a transistor, and the transistor has silicon in the channel forming region.
  • One aspect of the present invention is to generate weight dictionary data and synonym dictionary data based on a plurality of reference document data, generate sentence analysis data from sentence data, and search words from words included in the sentence analysis data. Is extracted, the first search data is generated from the search word based on the weight dictionary data and the synonym dictionary data, and the first search data is modified by the user to be the second search data generated. Correspondingly, the synonym dictionary data is updated, points are given to the reference document data based on the second search data, and a plurality of reference document data are ranked based on the points to generate ranking data. This is a document search method.
  • a document search method in which reference sentence analysis data is generated from reference document data and a plurality of keywords and related words of the keywords are extracted from the words included in the reference sentence analysis data is preferable. ..
  • the weight dictionary data is a first method in which the frequency of occurrence of keywords is extracted from the words included in the reference sentence analysis data, and the frequency of appearance of each of the plurality of keywords is increased.
  • a document retrieval method which is data generated by giving weights, is preferable.
  • the document retrieval method in which the first weight is a value based on the inverse document frequency in the reference text analysis data of the keyword is preferable.
  • the document retrieval method is preferable in which the synonym dictionary data is data generated by giving a second weight to each of the related words.
  • the second weight is the product of a value based on the similarity or distance between the distributed representation vector of related words and the distributed representation vector of the keyword, and the first weight of the keyword.
  • the document retrieval method is preferred.
  • a document retrieval method in which the distributed representation vector is a vector generated by using a neural network is preferable.
  • one aspect of the present invention it is possible to provide a document search system capable of searching a document with high accuracy.
  • one aspect of the present invention can provide a document retrieval method capable of searching a document with high accuracy.
  • a highly accurate document search particularly a document related to intellectual property, can be realized by a simple input method.
  • FIG. 1 is a block diagram showing an example of a document retrieval system.
  • FIG. 2 is a flow chart for explaining a document retrieval method.
  • FIG. 3 is a flow chart for explaining a document retrieval method.
  • FIG. 4 is a flow chart for explaining a document retrieval method.
  • FIG. 5 is a flow chart for explaining a document retrieval method.
  • 6A to 6C are schematic views for explaining a document retrieval method.
  • FIG. 7 is a schematic diagram for explaining a document retrieval method.
  • FIG. 8 is a schematic diagram for explaining a document retrieval method.
  • FIG. 9 is a schematic diagram for explaining a document retrieval method.
  • FIG. 10 is a flow chart for explaining a document retrieval method.
  • FIG. 11 is a flow chart for explaining a document retrieval method.
  • FIG. 12 is a flow chart for explaining a document retrieval method.
  • 13A and 13B are diagrams showing a configuration example of a neural network.
  • FIG. 14 is a diagram showing a configuration example of a semiconductor device.
  • FIG. 15 is a diagram showing a configuration example of a memory cell.
  • FIG. 16 is a diagram showing a configuration example of an offset circuit.
  • FIG. 17 is a timing chart.
  • the ordinal numbers "1st”, “2nd”, and “3rd” are added to avoid confusion of the components. Therefore, the number of components is not limited. Moreover, the order of the components is not limited. Further, for example, the component referred to in “first” in one of the embodiments of the present specification and the like is defined as another embodiment or the component referred to in “second” in the scope of claims. It is possible. Further, for example, the component referred to in “first” in one of the embodiments of the present specification and the like may be omitted in another embodiment or in the claims.
  • the power supply potential VDD may be abbreviated as potentials VDD, VDD, etc. This also applies to other components (eg, signals, voltages, circuits, elements, electrodes, wiring, etc.).
  • the code is used for identification such as "_1”, “_2”, “[n]", “[m, n]”. May be added and described.
  • the second wiring GL is described as wiring GL [2].
  • the document retrieval system As an example of the document retrieval system, a document retrieval system that can be used for searching intellectual property will be described.
  • the document retrieval system according to one aspect of the present invention is not limited to the use for searching intellectual property, and can also be used for searching other than intellectual property.
  • FIG. 1 shows a block diagram of the document retrieval system 10.
  • the document retrieval system 10 includes an input unit 20, a processing unit 30, a storage unit 40, a database 50, an output unit 60, and a transmission line 70.
  • Data (text data 21, etc.) is supplied to the input unit 20 from the outside of the document retrieval system 10. Further, the input unit is supplied with modified data (search data 62, etc.) generated by modifying the data (search data 61, etc.) output from the output unit 60 by a user who uses the document retrieval system. Will be done.
  • the text data 21 and the search data 62 are supplied to the processing unit 30, the storage unit 40, or the database 50 via the transmission line 70.
  • the data of documents related to intellectual property is referred to as document data.
  • the text data is data corresponding to a part of the document data.
  • Specific examples of the document data include data of publications such as patent documents (public patent gazettes, patent gazettes, etc.), utility model gazettes, design gazettes, and papers. Not limited to publications published in Japan, publications published in various countries around the world can be used as document data related to intellectual property.
  • the document data corresponds to the data referred to for the text data including the text to be searched. Therefore, the document data may be referred to as reference document data.
  • the text data 21 is a part of the reference document data.
  • the specification, claims, and abstract included in the patent document can be used in part or in whole as text data 21, respectively.
  • a mode, an example, or a claim for carrying out a specific invention may be used as text data 21.
  • a part or all of sentences included in other publications such as papers can be used as sentence data 21.
  • Documents related to intellectual property are not limited to publications.
  • a document file independently owned by a user of the document retrieval system or a user organization can also be used as the text data 21.
  • the text data 21 can have, for example, a patent document of a specific applicant or a patent document of a specific technical field.
  • the text data 21 can have not only an explanation of the intellectual property itself (for example, a specification) but also various information related to the intellectual property (for example, bibliographic information). Examples of the information include the applicant of the patent, the technical field, the application number, the publication number, the status (pending, registered, withdrawn, etc.).
  • the text data 21 preferably has date information related to intellectual property.
  • Examples of the date information include the filing date, publication date, registration date, etc. if the intellectual property is a patent document, and the release date, etc. if the intellectual property is technical information of an industrial product.
  • the processing unit 30 has a function of performing calculations, inferences, and the like using data supplied from the input unit 20, the storage unit 40, the database 50, and the like.
  • the processing unit 30 can supply the calculation result, the inference result, and the like to the storage unit 40, the database 50, the output unit 60, and the like.
  • the processing unit 30 It is preferable to use a transistor having a metal oxide in the channel forming region for the processing unit 30. Since the transistor has an extremely small off current, the data retention period can be secured for a long period of time by using the transistor as a switch for holding the electric charge (data) flowing into the capacitive element that functions as a storage element. ..
  • the processing unit 30 is operated only when necessary, and in other cases, the information of the immediately preceding processing is saved in the storage element. This makes it possible to turn off the processing unit 30. That is, normally off-computing becomes possible, and the power consumption of the document retrieval system can be reduced.
  • a transistor using an oxide semiconductor or a metal oxide in the channel forming region is referred to as an Oxide Semiconductor transistor or an OS transistor.
  • the channel forming region of the OS transistor preferably has a metal oxide.
  • a metal oxide is a metal oxide in a broad sense. Metal oxides are classified into oxide insulators, oxide conductors (including transparent oxide conductors), oxide semiconductors (also referred to as Oxide Semiconductor or simply OS) and the like. For example, when a metal oxide is used in the semiconductor layer of a transistor, the metal oxide may be referred to as an oxide semiconductor. That is, when a metal oxide has at least one of an amplification action, a rectifying action, and a switching action, the metal oxide can be referred to as a metal oxide semiconductor, or OS for short.
  • the metal oxide contained in the channel forming region preferably contains indium (In).
  • the metal oxide contained in the channel forming region is a metal oxide containing indium, the carrier mobility (electron mobility) of the OS transistor becomes high.
  • the metal oxide contained in the channel forming region is preferably an oxide semiconductor containing the element M.
  • the element M is preferably aluminum (Al), gallium (Ga), tin (Sn) or the like. Other elements applicable to the element M include boron (B), silicon (Si), titanium (Ti), iron (Fe), nickel (Ni), germanium (Ge), yttrium (Y), and zirconium (Zr).
  • the element M is, for example, an element having a high binding energy with oxygen.
  • the metal oxide contained in the channel forming region is preferably a metal oxide containing zinc (Zn). Metal oxides containing zinc may be more likely to crystallize.
  • the metal oxide contained in the channel forming region is not limited to the metal oxide containing indium.
  • the semiconductor layer may be, for example, a metal oxide containing zinc, a metal oxide containing zinc, a metal oxide containing zinc, a metal oxide containing tin, or the like, such as zinc tin oxide or gallium tin oxide.
  • processing unit 30 may use a transistor containing silicon in the channel forming region.
  • a transistor containing an oxide semiconductor in the channel forming region and a transistor containing silicon in the channel forming region in combination in the processing unit 30.
  • the processing unit 30 has, for example, an arithmetic circuit or a central processing unit (CPU: Central Processing Unit) or the like.
  • the processing unit 30 may have a microprocessor such as a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit).
  • the microprocessor may have a configuration realized by a PLD (Programmable Logic Device) such as FPGA (Field Programmable Gate Array) or FPAA (Field Programmable Analog Array).
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • FPAA Field Programmable Analog Array
  • the processing unit 30 can perform various data processing and program control by interpreting and executing instructions from various programs by the processor.
  • the program that can be executed by the processor is stored in at least one of the memory area and the storage unit 40 of the processor.
  • the processing unit 30 may have a main memory.
  • the main memory has at least one of a volatile memory such as RAM (Random Access Memory) and a non-volatile memory such as ROM (Read Only Memory).
  • RAM Random Access Memory
  • ROM Read Only Memory
  • RAM for example, DRAM (Dynamic Random Access Memory), SRAM (Static Random Access Memory), or the like is used, and a memory space is virtually allocated and used as the work space of the processing unit 30.
  • the operating system, application program, program module, program data, lookup table, and the like stored in the storage unit 40 are loaded into the RAM for execution. These data, programs, and program modules loaded into the RAM are each directly accessed and operated by the processing unit 30.
  • the ROM can store BIOS (Basic Input / Output System), firmware, etc. that do not require rewriting.
  • BIOS Basic Input / Output System
  • Examples of the ROM include a mask ROM, an OTPROM (One Time Program Read Only Memory), an EPROM (Erasable Program Read Only Memory), and the like.
  • Examples of EPROM include UV-EPROM (Ultra-Violet Erasable Program Read Only Memory), EEPROM (Electrically Erasable Program Memory), etc., which enable erasure of stored data by irradiation with ultraviolet rays.
  • the storage unit 40 has a function of storing a program executed by the processing unit 30. Further, the storage unit 40 may have a function of storing the calculation result and the inference result generated by the processing unit 30, the data input to the input unit 20, and the like. Further, the storage unit 40 has a function of storing the search data 62 input to the input unit 20 in the storage unit 40 as the search data 41. The search data 41 stored in the storage unit 40 is used to update the similar word dictionary data described later.
  • the storage unit 40 has at least one of a volatile memory and a non-volatile memory.
  • the storage unit 40 may have, for example, a volatile memory such as a DRAM or SRAM.
  • the storage unit 40 includes, for example, ReRAM (Resistive Random Access Memory, also referred to as resistance change type memory), PRAM (Phase change Random Access Memory), FeRAM (Ferroelectric Random Access Memory), FeRAM (Ferroelectric Random Access Memory) Also referred to as), or may have a non-volatile memory such as a flash memory.
  • the storage unit 40 may have a recording media drive such as a hard disk drive (Hard Disk Drive: HDD) and a solid state drive (Solid State Drive: SSD).
  • the database 50 has at least a function of storing reference document data 51, weight dictionary data 52, and similar word search data 53 to be searched. Further, the database 50 may have a function of storing the calculation result and the inference result generated by the processing unit 30, the data input to the input unit 20, and the like.
  • the storage unit 40 and the database 50 do not have to be separated from each other.
  • the document retrieval system 10 may have a storage unit having both functions of the storage unit 40 and the database 50.
  • Reference document data 51 is data of a plurality of documents related to intellectual property. Further, the weight dictionary data 52 extracts the appearance frequency of a plurality of keywords from the words included in the reference sentence analysis data obtained by analyzing the reference document data 51, and for each of the plurality of keywords, the weight dictionary data 52 is used. It is data generated by giving weights according to the frequency of appearance. Further, the similar word search data 53 is generated by extracting related words corresponding to the keywords from the words included in the reference sentence analysis data and giving weights to each of the related words according to the degree of similarity. Data.
  • the database 50 has a function of storing reverse document frequency (hereinafter referred to as IDF) data (hereinafter referred to as IDF data) necessary for generating the weight dictionary data 52 and the similar word search data 53.
  • IDF reverse document frequency
  • the IDF represents the difficulty of a word appearing in a document.
  • the IDF of words that appear in many documents is small, and the IDF of words that appear only in some documents is high. Therefore, it can be said that a word having a high IDF is a characteristic word in the reference sentence analysis data. It is preferable to use IDF data for calculating the frequency of appearance of the above keywords.
  • search word can be extracted from the text data based on the IDF.
  • words having an IDF of a certain numerical value or more may be extracted as search words, and an arbitrary number of words can be extracted as search words in descending order of IDF.
  • the database 50 also has a function of storing vector data necessary for calculating related words corresponding to keywords.
  • Related words are extracted from the words included in the reference sentence analysis data based on the degree of similarity between the distributed expression vector of the word and the distributed expression vector of the keyword or the closeness of the distance.
  • the weight of the related word is preferably calculated by using the product of the weight of the keyword and the value based on the similarity or distance between the distributed expression vector of the related word and the distributed expression vector of the keyword.
  • the weight of the related word may be calculated by using a value based on the similarity or distance between the distributed expression vector of the related word and the distributed expression vector of the keyword. Search accuracy can be improved by setting the weight of the related word based on both the similarity between the related word and the keyword and the weight of the keyword itself.
  • Examples of related words include synonyms, synonyms, antonyms, hypernyms, and hyponyms.
  • the search data 61 corresponds to the data generated by extracting the search word included in the sentence data 21 and referring to the similar word dictionary data and the weight dictionary data.
  • the search data is data in which weights are given to each of the keyword corresponding to the search word and the related word corresponding to the keyword. Since each of the keyword and the related word has a weight, it is possible to give a score based on the weight to the reference document data in which the keyword or the related word is hit.
  • the search data 62 corresponds to the data in which the weights have been corrected by the user's operation in the search data 61.
  • the output unit 60 has a function of supplying search data to the outside of the document search system 10.
  • the search data generated by the processing unit 30 can be supplied to a display device or the like provided outside the document retrieval system 10.
  • the user can check the search data generated via a display device or the like provided outside the document search system 10.
  • the transmission line 70 has a function of transmitting data. Data can be transmitted and received between the input unit 20, the processing unit 30, the storage unit 40, the database 50, and the output unit 60 via the transmission line 70.
  • FIG. 2 is a diagram showing a flow for explaining a document retrieval method using the document retrieval system 10 described with reference to FIG.
  • step S12 the weight dictionary data is created (step S12).
  • the weight dictionary data creation flow in step S12 will be described with reference to FIG. 3, which will be described later.
  • the text data is input (step S14).
  • the text data is input via a graphical user interface (GUI) such as a display device provided outside the document retrieval system 10.
  • GUI graphical user interface
  • step S15 the search word is extracted from the text data.
  • the extraction flow of the search word in step S15 will be described with reference to FIG. 5 described later.
  • the synonym dictionary data can be updated using the search data modified by the user. Therefore, it is possible to provide a document search method capable of searching a document with high accuracy. Alternatively, a highly accurate document search, particularly a document related to intellectual property, can be realized by a simple input method.
  • step S55 corresponds to the same process as the step S45.
  • the update of the synonym dictionary data is not limited to the example shown in FIG.
  • the correction may be made in consideration of the contribution rate.
  • the weight data after modification may be obtained by adding a value obtained by multiplying the difference between the weight data before modification and the weight data after modification by the contribution rate to the weight data before modification.
  • the contribution rate is 0.1
  • the weight data before modification is 0.5
  • the weight data after modification is 1.0
  • the weight data after modification is "0.5 + 0.1 ⁇ ". (1.0-0.5) ”is updated to 0.55. Therefore, when updating the synonym dictionary data, it is possible to update according to the modification of a plurality of users regardless of the modification content of one user.
  • FIG. 9 is a diagram schematically showing synonym dictionary data that is updated when the search data shown in FIG. 8 is modified.
  • the synonym dictionary data of the related word RW (hatched portion) and the corresponding keyword KW whose weight data is modified, which is shown in FIG. 8, is modified based on the modified weight data.
  • the table data 53TB schematically representing the synonym dictionary data before the update, which is shown in FIG. 9, can be updated as shown in the table data 53TB_re.
  • Step S61 corresponds to step S20 described with reference to FIG.
  • step S62 it is determined whether or not to periodically update the synonym dictionary data. Periodic updates are performed using a timer or the like. At the timing of updating, the synonym dictionary data is updated (step S63). If it is not updated, it will end. The update of the synonym dictionary data in step S63 is performed regardless of whether or not the search data in step S61 is saved.
  • FIG. 12 is a diagram showing a flow for explaining the scoring of the reference sentence analysis data AD ref based on the weight data attached to the search data shown in step S73 described with reference to FIG.
  • step S82 it is determined whether or not the keyword KW is hit (step S82). If there is a hit, the process proceeds to step S85. If there is no hit, the process proceeds to step S83.
  • step S84 it is determined whether or not all the related words RW corresponding to the keyword KW have been searched. If searched, the process proceeds to step S86. If not searched, the process proceeds to step S83. For example, if there are two related word RWs of the keyword KW and it is determined in the previous step S83 whether the first related word RW hits, it returns to step S83 and whether the second related word RW hits. to decide.
  • the search can be performed using the document search system 10.
  • the product-sum calculation circuit may be composed of a transistor (also referred to as a “Si transistor”) containing silicon (single crystal silicon or the like) in the channel forming region, or an oxide semiconductor which is a kind of metal oxide in the channel forming region. It may be composed of a transistor (also referred to as “OS transistor”) including. In particular, since the OS transistor has an extremely small off-current, it is suitable as a transistor constituting the memory of the product-sum calculation circuit.
  • the product-sum calculation circuit may be configured by using both the Si transistor and the OS transistor.
  • a configuration example of a semiconductor device having a function of a product-sum calculation circuit will be described.
  • FIG. 15 shows a specific configuration example of the memory cell MC and the memory cell MCref.
  • FIG. 15 shows memory cells MC [1,1] and MC [2,1] and memory cells MCref [1] and MCref [2] as typical examples, but other memory cells MC and memory cells MCref are shown. Can also use a similar configuration.
  • the memory cell MC and the memory cell MCref each have a transistor Tr11, a transistor Tr12, and a capacitance element C11.
  • the transistor Tr11 and the transistor Tr12 are n-channel type transistors will be described.
  • the offset circuit OFST is connected to the wiring BL [1] to BL [n] and the wiring OL [1] to OL [n].
  • the offset circuit OFST detects the amount of current flowing from the wirings BL [1] to BL [n] to the offset circuit OFST and / or the amount of change in the current flowing from the wirings BL [1] to BL [n] to the offset circuit OFST.
  • the offset circuit OFST has a function of outputting the detection result to the wiring OL [1] to OL [n].
  • the offset circuit OFST may output the current corresponding to the detection result to the wiring OL, or may convert the current corresponding to the detection result into a voltage and output it to the wiring OL.
  • the current flowing between the cell array CA and the offset circuit OFST is referred to as I ⁇ [1] to I ⁇ [n].
  • circuits OC [1] to OC [n] will be described. Although an operation example of the circuit OC [1] will be described here as a typical example, the circuits OC [2] to OC [n] can be operated in the same manner.
  • the circuits OC [2] to OC [n] can be operated in the same manner.
  • the transistor Tr21 is in the ON state, and the potential Va is supplied to the node Nb. After that, the transistor Tr21 is turned off.
  • the product-sum calculation of the first data and the second data can be performed by using the above-mentioned semiconductor device MAC.
  • the semiconductor device MAC when performing the product-sum calculation will be described.
  • the currents I MC [1,1], 0 flowing from the wiring BL [1] to the transistor Tr12 of the memory cell MC [1,1] can be expressed by the following equations.
  • k is a constant determined by the channel length, channel width, mobility, capacitance of the gate insulating film, and the like of the transistor Tr12.
  • V th is the threshold voltage of the transistor Tr12.
  • the transistor Tr11 As described above, it is preferable to use an OS transistor as the transistor Tr11. As a result, the leakage current of the transistor Tr11 can be suppressed, and the potentials of the node NM [1,1] and the node NMref [1] can be accurately maintained.
  • the potential of the wiring WL [2] becomes a high level, and the potential of the wiring WD [1] becomes a potential V PR- V W [2,1] larger than the ground potential.
  • the potential of the wiring WDref becomes the V PR greater potential than the ground potential.
  • the potential V W [2,1] is a potential corresponding to the first data stored in the memory cell MC [2,1].
  • the transistor Tr11 possessed by the memory cell MC [2,1] and the memory cell MCref [2] is turned on, the potential of the node NM [2,1] becomes V PR- V W [2,1] , and the node NMref. potential [2] becomes the V PR.
  • the first data is stored in the memory cells MC [1,1] and MC [2,1], and the reference data is stored in the memory cells MCref [1] and MCref [2].
  • the amount of change in the potential of the gate of the transistor Tr12 is a value obtained by multiplying the amount of change in the potential of the wiring RW by the capacitive coupling coefficient determined by the configuration of the memory cell.
  • the capacitive coupling coefficient is calculated from the capacitance of the capacitive element C11, the gate capacitance of the transistor Tr12, the parasitic capacitance, and the like.
  • the capacitive coupling coefficient is 1.
  • the potential V X may be determined in consideration of the capacitive coupling coefficient.
  • the currents I MC [1,1], 1 flowing from the wiring BL [1] to the transistor Tr12 of the memory cell MC [1,1] can be expressed by the following equations. it can.
  • the currents I MCref [1] and 1 flowing from the wiring BLref to the transistor Tr12 of the memory cell MCref [1] can be expressed by the following equations.
  • the current flowing through the wiring BL [1] and the wiring BLref is supplied to the wiring BLref from the current source circuit CS. Further, the current flowing through the wiring BLref is discharged to the current mirror circuit CM, the memory cells MCref [1], and the MCref [2]. Assuming that the current discharged from the wiring BLref to the current mirror circuit CM is ICM , 1 , the following equation holds.
  • the wiring BL [1], the current I C is supplied from the current source circuit CS. Further, the current flowing through the wiring BL [1] is discharged to the current mirror circuit CM, the memory cells MC [1,1], and the MC [2,1]. Further, a current flows from the wiring BL [1] to the offset circuit OFST. Assuming that the current flowing from the wiring BL [1] to the offset circuit OFST is I ⁇ , 1 , the following equation holds.
  • the potential of the wiring RW [1] becomes the reference potential, and the potentials of the node NM [1,1] and the node NMref [1] become the same as the period of time T04-time T05. ..
  • the potential of the wiring RW [1] becomes a potential V X [1] larger than the reference potential
  • the potential of the wiring RW [2] becomes V X [2] higher than the reference potential . It becomes a large potential.
  • the potential V X [1] is supplied to the respective capacitance elements C11 of the memory cell MC [1,1] and the memory cell MCref [1], and the node NM [1,1] and the node NMref [ 1] are coupled by capacitance.
  • the potentials of 1] rise by V X [1] respectively.
  • the currents I MC [2,1], 1 flowing from the wiring BL [1] to the transistor Tr12 of the memory cell MC [2,1] can be expressed by the following equations. it can.
  • the current flowing through the wiring BL [1] and the wiring BLref is supplied to the wiring BLref from the current source circuit CS. Further, the current flowing through the wiring BLref is discharged to the current mirror circuit CM, the memory cells MCref [1], and the MCref [2]. Assuming that the current discharged from the wiring BLref to the current mirror circuit CM is ICM , 2 , the following equation holds.
  • the wiring BL [1], the current I C is supplied from the current source circuit CS. Further, the current flowing through the wiring BL [1] is discharged to the current mirror circuit CM, the memory cells MC [1,1], and the MC [2,1]. Further, a current flows from the wiring BL [1] to the offset circuit OFST. Assuming that the currents flowing from the wiring BL [1] to the offset circuit OFST are I ⁇ and 2 , the following equation holds.
  • the differential current ⁇ I ⁇ is obtained by adding the product of the potential V W [1, 1] and the potential V X [1] and the product of the potential V W [2, 1] and the potential V X [2]. The value corresponds to the combined result.
  • the differential current ⁇ I ⁇ input to the offset circuit OFST includes the potential V W corresponding to the first data (weight) and the second data (input data). ), It can be calculated from the equation having the term of the product of the potentials V X. That is, by measuring the difference current ⁇ I ⁇ with the offset circuit OFST, the result of the product-sum calculation of the first data and the second data can be obtained.
  • the memory cells MC [1,1] and MC [2,1] and the memory cells MCref [1] and MCref [2] are particularly focused, but the number of the memory cells MC and the memory cells MCref is arbitrarily set. can do.
  • the difference current ⁇ I ⁇ when the number of rows m of the memory cell MC and the memory cell MCref is an arbitrary number i can be expressed by the following equation.
  • the product-sum calculation of the first data and the second data can be performed.
  • the product-sum calculation circuit can be configured with a small number of transistors. Therefore, the circuit scale of the semiconductor device MAC can be reduced.
  • the number of rows m of the memory cell MC corresponds to the number of input data supplied to one neuron
  • the number of columns n of the memory cell MC corresponds to the number of neurons.
  • the number of rows m of the memory cell MC is set to the number of input data supplied from the input layer IL (the number of neurons of the input layer IL)
  • the number of columns n of the memory cell MC is the number of neurons of the intermediate layer HL.
  • the structure of the neural network to which the semiconductor device MAC is applied is not particularly limited.
  • the semiconductor device MAC can also be used for a convolutional neural network (CNN), a recurrent neural network (RNN), an autoencoder, a Boltzmann machine (including a restricted Boltzmann machine), and the like.
  • CNN convolutional neural network
  • RNN recurrent neural network
  • autoencoder a Boltzmann machine (including a restricted Boltzmann machine), and the like.
  • the product-sum calculation of the neural network can be performed by using the semiconductor device MAC. Further, by using the memory cell MC and the memory cell MCref shown in FIG. 15 for the cell array CA, it is possible to provide an integrated circuit capable of improving calculation accuracy, reducing power consumption, or reducing the circuit scale. ..
  • each embodiment can be made into one aspect of the present invention by appropriately combining with the configurations shown in other embodiments or examples. Further, when a plurality of configuration examples are shown in one embodiment, the configuration examples can be appropriately combined.
  • the content described in one embodiment is another content (may be a part of the content) described in the embodiment, and / or one or more. It is possible to apply, combine, or replace the contents described in another embodiment (some contents may be used).
  • figure (which may be a part) described in one embodiment is another part of the figure, another figure (which may be a part) described in the embodiment, and / or one or more.
  • figures (which may be a part) described in another embodiment of the above more figures can be constructed.
  • the components are classified by function and shown as blocks independent of each other.
  • it is difficult to separate the components for each function and there may be a case where a plurality of functions are involved in one circuit or a case where one function is involved in a plurality of circuits. Therefore, the blocks in the block diagram are not limited to the components described in the specification, and can be appropriately paraphrased according to the situation.
  • the size, the thickness of the layer, or the area is shown in an arbitrary size for convenience of explanation. Therefore, it is not necessarily limited to that scale.
  • the drawings are schematically shown for the sake of clarity, and are not limited to the shapes or values shown in the drawings. For example, it is possible to include variations in signal, voltage, or current due to noise, or variations in signal, voltage, or current due to timing lag.
  • the voltage and the potential can be paraphrased as appropriate.
  • the voltage is a potential difference from a reference potential.
  • the reference potential is a ground voltage (ground voltage)
  • the voltage can be paraphrased as a potential.
  • the ground potential does not necessarily mean 0V.
  • the electric potential is relative, and the electric potential given to the wiring or the like may be changed depending on the reference electric potential.
  • a node can be paraphrased as a terminal, a wiring, an electrode, a conductive layer, a conductor, an impurity region, etc., depending on a circuit configuration, a device structure, and the like.
  • terminals, wiring, etc. can be paraphrased as nodes.
  • a and B are connected means that A and B are electrically connected.
  • the term “A and B are electrically connected” refers to an object (an element such as a switch, a transistor element, or a diode, or a circuit including the element and wiring) between A and B. ) Is present, it means a connection capable of transmitting an electric signal between A and B.
  • the case where A and B are electrically connected includes the case where A and B are directly connected.
  • the fact that A and B are directly connected means that the electric signal between A and B is transmitted between A and B via wiring (or electrodes) or the like without going through the object.
  • a possible connection is a connection that can be regarded as the same circuit diagram when represented by an equivalent circuit.
  • the switch means a switch that is in a conductive state (on state) or a non-conducting state (off state) and has a function of controlling whether or not a current flows.
  • the switch means a switch having a function of selecting and switching a path through which a current flows.
  • the channel length is defined as, for example, in the top view of the transistor, a region or a channel where the semiconductor (or the portion where the current flows in the semiconductor when the transistor is on) and the gate overlap is formed. The distance between the source and drain in the region.
  • the channel width is a source in, for example, a region where a semiconductor (or a portion where a current flows in a semiconductor when a transistor is on) and a gate electrode overlap, or a region where a channel is formed.
  • membrane and “layer” can be interchanged with each other in some cases or depending on the situation.
  • conductive layer is referred to as “conductive layer”. It may be possible to change to the term “membrane”. Alternatively, for example, it may be possible to change the term “insulating film” to the term “insulating layer”.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Neurology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現する。 処理部は、入力部に入力された文章データから文章解析データを生成する機能と、文章解析データ に含まれる単語の中から検索ワードを抽出する機能と、検索ワードから、重み辞書データおよび類 義語辞書データに基づいて、第1の検索データを生成する機能と、を有する。記憶部は、第1の検 索データがユーザに修正されることで生成される、第2の検索データを記憶する。処理部は、第2 の検索データに応じて、類義語辞書データの更新を行う。

Description

文書検索システム、および文書検索方法
 本発明の一態様は、文書検索システム、および文書検索方法に関する。
 なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置(例えば、タッチセンサなど)、入出力装置(例えば、タッチパネルなど)、それらの駆動方法、またはそれらの製造方法を一例として挙げることができる。
 出願前の発明に関し先行技術調査を行うことで、関連する知的財産権が存在するか否かを調査することができる。先行技術調査を行うことで得られた国内外の特許文献および論文などは、発明の新規性および進歩性の確認、並びに、特許を出願するか否かの判断に、利用することができる。また、特許文献の無効資料調査を行うことで、自身の所有する特許権が無効化する恐れが無いか、或いは、他者の所有する特許権を無効化できるか、調査することができる。
 例えば、特許文献を検索するシステムに、ユーザがキーワードを入力することで、そのキーワードを含む特許文献を出力することができる。
 このようなシステムを用いて高い精度で先行技術調査を行うためには、適切なキーワードで検索すること、さらに、出力された多くの特許文献から必要な特許文献を抽出することなど、ユーザに高い技量が求められる。
 また、様々な用途において、人工知能の活用が検討されている。特に、人工ニューラルネットワークなどを利用することで、従来のノイマン型コンピュータよりも高性能なコンピュータが実現できると期待されており、近年、電子回路上で人工ニューラルネットワークを構築する種々の研究が進められている。
 例えば、特許文献1には、チャネル形成領域に酸化物半導体を有するトランジスタを用いた記憶装置によって、人工ニューラルネットワークを用いた計算に必要な重みデータを保持する発明が開示されている。
米国特許公開第2016/0343452号公報
 そこで、本発明の一態様は、高い精度で文書を検索できる文書検索システムを提供することを課題の一つとする。または、本発明の一態様は、高い精度で文書を検索できる文書検索方法を提供することを課題の一つとする。または、本発明の一態様は、簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現することを課題の一つとする。
 複数の課題の記載は、互いの課題の存在を妨げるものではない。本発明の一形態は、例示した全ての課題を解決する必要はない。また、列記した以外の課題が、本明細書の記載から、自ずと明らかとなり、このような課題も、本発明の一形態の課題となり得る。
 本発明の一態様は、入力部と、データベースと、記憶部と、処理部と、を有し、データベースは、複数の参照用文書データと、重み辞書データと、類義語辞書データと、を記憶する機能を有し、処理部は、参照用文書データに基づいて、重み辞書データおよび類義語辞書データを生成する機能と、入力部に入力された文章データから文章解析データを生成する機能と、文章解析データに含まれる単語の中から検索ワードを抽出する機能と、検索ワードから、重み辞書データおよび類義語辞書データに基づいて、第1の検索データを生成する機能と、を有し、記憶部は、第1の検索データがユーザに修正されることで生成される、第2の検索データを記憶する機能を有し、処理部は、第2の検索データに応じて、類義語辞書データの更新を行う機能を有する、文書検索システムである。
 本発明の一態様において、処理部は、参照用文書データから参照用文章解析データを生成する機能と、参照用文章解析データに含まれる単語の中から複数のキーワードおよびキーワードに対応する関連語を抽出する機能と、を有する、文書検索システムが好ましい。
 本発明の一態様において、重み辞書データは、参照用文章解析データに含まれる単語の中から、キーワードの出現頻度を抽出し、キーワードのそれぞれに対して、出現頻度に応じた第1の重みを付与して生成されるデータである、文書検索システムが好ましい。
 本発明の一態様において、第1の重みは、キーワードの、参照用文章解析データにおける逆文書頻度に基づいた値である、文書検索システムが好ましい。
 本発明の一態様において、類義語辞書データは、関連語のそれぞれに対して、第2の重みを付与して生成されるデータである、文書検索システムが好ましい。
 本発明の一態様において、第2の重みは、関連語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度または距離に基づいた値と、キーワードの第1の重みと、の積である、文書検索システムが好ましい。
 本発明の一態様において、分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索システムが好ましい。
 本発明の一態様において、処理部は、トランジスタを有し、トランジスタは、チャネル形成領域に金属酸化物を有する、文書検索システムが好ましい。
 本発明の一態様において、処理部は、トランジスタを有し、トランジスタは、チャネル形成領域にシリコンを有する、文書検索システムが好ましい。
 本発明の一態様は、複数の参照用文書データに基づいて、重み辞書データおよび類義語辞書データを生成し、文章データから文章解析データを生成し、文章解析データに含まれる単語の中から検索ワードを抽出し、検索ワードから、重み辞書データおよび類義語辞書データに基づいて、第1の検索データを生成し、第1の検索データがユーザに修正されることで生成される第2の検索データに応じて、類義語辞書データの更新を行い、第2の検索データに基づいて参照用文書データに点数を付与し、点数に基づいて複数の参照用文書データを順位づけすることで、ランキングデータを生成する、文書検索方法である。
 本発明の一態様において、参照用文書データから参照用文章解析データを生成し、参照用文章解析データに含まれる単語の中から複数のキーワードおよびキーワードの関連語を抽出する、文書検索方法が好ましい。
 本発明の一態様において、重み辞書データは、参照用文章解析データに含まれる単語の中から、キーワードの出現頻度を抽出し、複数のキーワードのそれぞれに対して、出現頻度に応じた第1の重みを付与して生成されるデータである、文書検索方法が好ましい。
 本発明の一態様において、第1の重みは、キーワードの、参照用文章解析データにおける逆文書頻度に基づいた値である、文書検索方法が好ましい。
 本発明の一態様において、類義語辞書データは、関連語のそれぞれに対して、第2の重みを付与して生成されるデータである、文書検索方法が好ましい。
 本発明の一態様において、第2の重みは、関連語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度または距離に基づいた値と、キーワードの第1の重みと、の積である、文書検索方法が好ましい。
 本発明の一態様において、分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索方法が好ましい。
 なおその他の本発明の一態様については、以下で述べる実施の形態における説明、および図面に記載されている。
 本発明の一態様により、高い精度で文書を検索できる文書検索システムを提供できる。または、本発明の一態様により、高い精度で文書を検索できる文書検索方法を提供できる。または、本発明の一態様により、簡単な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。
 複数の効果の記載は、他の効果の存在を妨げるものではない。また、本発明の一形態は、必ずしも、例示した効果の全てを有する必要はない。また、本発明の一形態について、上記以外の課題、効果、および新規な特徴については、本明細書の記載および図面から自ずと明らかになるものである。
図1は、文書検索システムの一例を示すブロック図である。
図2は、文書検索方法を説明するためのフロー図である。
図3は、文書検索方法を説明するためのフロー図である。
図4は、文書検索方法を説明するためのフロー図である。
図5は、文書検索方法を説明するためのフロー図である。
図6A乃至図6Cは、文書検索方法を説明するための模式図である。
図7は、文書検索方法を説明するための模式図である。
図8は、文書検索方法を説明するための模式図である。
図9は、文書検索方法を説明するための模式図である。
図10は、文書検索方法を説明するためのフロー図である。
図11は、文書検索方法を説明するためのフロー図である。
図12は、文書検索方法を説明するためのフロー図である。
図13A、図13Bは、ニューラルネットワークの構成例を示す図である。
図14は、半導体装置の構成例を示す図である。
図15は、メモリセルの構成例を示す図である。
図16は、オフセット回路の構成例を示す図である。
図17は、タイミングチャートである。
 以下に、本発明の実施の形態を説明する。ただし、本発明の一形態は、以下の説明に限定されず、本発明の主旨およびその範囲から逸脱することなくその形態および詳細を様々に変更し得ることは、当業者であれば容易に理解される。したがって、本発明の一形態は、以下に示す実施の形態の記載内容に限定して解釈されるものではない。
 なお本明細書等において、「第1」、「第2」、「第3」という序数詞は、構成要素の混同を避けるために付したものである。従って、構成要素の数を限定するものではない。また、構成要素の順序を限定するものではない。また例えば、本明細書等の実施の形態の一において「第1」に言及された構成要素が、他の実施の形態、あるいは特許請求の範囲において「第2」に言及された構成要素とすることもありうる。また例えば、本明細書等の実施の形態の一において「第1」に言及された構成要素を、他の実施の形態、あるいは特許請求の範囲において省略することもありうる。
 図面において、同一の要素または同様な機能を有する要素、同一の材質の要素、あるいは同時に形成される要素等には同一の符号を付す場合があり、その繰り返しの説明は省略する場合がある。
 本明細書において、例えば、電源電位VDDを、電位VDD、VDD等と省略して記載する場合がある。これは、他の構成要素(例えば、信号、電圧、回路、素子、電極、配線等)についても同様である。
 また、複数の要素に同じ符号を用いる場合、特に、それらを区別する必要があるときには、符号に“_1”、“_2”、“[n]”、“[m,n]”等の識別用の符号を付記して記載する場合がある。例えば、2番目の配線GLを配線GL[2]と記載する。
(実施の形態1)
 本実施の形態では、本発明の一態様の文書検索システムおよび文書検索方法について図1乃至図12を用いて説明する。
 本実施の形態では、文書検索システムの一例として、知的財産の検索に用いることができる文書検索システムについて説明する。なお、本発明の一態様の文書検索システムは、知的財産の検索用途に限られず、知的財産以外の検索に使用することもできる。
 図1に、文書検索システム10のブロック図を示す。文書検索システム10は、入力部20、処理部30、記憶部40、データベース50、出力部60、および伝送路70を有する。
 入力部20には、文書検索システム10の外部からデータ(文章データ21など)が供給される。また入力部には、出力部60から出力されるデータ(検索データ61など)を、文書検索システムを利用するユーザが修正することで生成される、修正されたデータ(検索データ62など)が供給される。文章データ21および検索データ62は、伝送路70を介して、処理部30、記憶部40またはデータベース50に供給される。
 なお本明細書等において、知的財産に係る文書のデータは文書データと呼ぶ。上記文章データは、文書データの一部に相当するデータである。文書データとしては、具体的には、特許文献(公開特許公報、特許公報など)、実用新案公報、意匠公報、および論文などの刊行物のデータが挙げられる。国内で発行された刊行物に限られず、世界各国で発行された刊行物を、知的財産に係る文書データとして用いることができる。なお文書データは、検索したい文章を含む文章データに対して参照されるデータに相当する。そのため、文書データは参照用文書データと呼ぶ場合がある。
 上記文章データ21は、上記参照用文書データの一部のデータである。具体的に言えば、特許文献に含まれる明細書、特許請求の範囲、および要約書は、それぞれ、一部または全部を文章データ21として用いることができる。例えば、特定の発明を実施するための形態、実施例、または請求項を、文章データ21として用いてもよい。同様に、論文など他の刊行物に含まれる文章についても、一部または全部を文章データ21として用いることができる。
 知的財産に係る文書は、刊行物に限られない。例えば、文書検索システムのユーザまたは使用団体が独自に有する文書ファイルも文章データ21として用いることができる。
 さらに、知的財産に係る文書としては、発明、考案、もしくは意匠、または工業製品を説明する文章などが挙げられる。
 文章データ21は、例えば、特定の出願人の特許文献、または特定の技術分野の特許文献を有することができる。
 文章データ21は、知的財産自体の説明(例えば、明細書など)だけでなく、当該知的財産に関係する様々な情報(例えば、書誌情報など)を有することができる。当該情報としては、例えば、特許の出願人、技術分野、出願番号、公開番号、ステータス(係属中、登録済、取り下げ済など)などが挙げられる。
 文章データ21は、知的財産に係る日付情報を有することが好ましい。日付情報としては、例えば、知的財産が特許文献であれば、出願日、公開日、登録日などが挙げられ、知的財産が工業製品の技術情報であれば、発売日などが挙げられる。
 このように、文章データ21が知的財産に関係する様々な情報を有することで、文書検索システムを用いて、様々な検索範囲を選択することができる。
 処理部30は、入力部20、記憶部40、データベース50などから供給されたデータを用いて、演算、推論などを行う機能を有する。処理部30は、演算結果、推論結果などを、記憶部40、データベース50、出力部60などに供給することができる。
 処理部30には、チャネル形成領域に金属酸化物を有するトランジスタを用いることが好ましい。当該トランジスタはオフ電流が極めて小さいため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷(データ)を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部30が有するレジスタおよびキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部30を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部30をオフにすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることができる。
 なお、本明細書等において、チャネル形成領域に酸化物半導体または金属酸化物を用いたトランジスタをOxide Semiconductorトランジスタ、あるいはOSトランジスタと呼ぶ。OSトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。
 本明細書等において、金属酸化物(metal oxide)とは、広い意味での金属の酸化物である。金属酸化物は、酸化物絶縁体、酸化物導電体(透明酸化物導電体を含む)、酸化物半導体(Oxide Semiconductorまたは単にOSともいう)などに分類される。例えば、トランジスタの半導体層に金属酸化物を用いた場合、当該金属酸化物を酸化物半導体と呼称する場合がある。つまり、金属酸化物が増幅作用、整流作用、およびスイッチング作用の少なくとも1つを有する場合、当該金属酸化物を、金属酸化物半導体(metal oxide semiconductor)、略してOSと呼ぶことができる。
 チャネル形成領域が有する金属酸化物はインジウム(In)を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、OSトランジスタのキャリア移動度(電子移動度)が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Mを含む酸化物半導体であると好ましい。元素Mは、好ましくは、アルミニウム(Al)、ガリウム(Ga)またはスズ(Sn)などとする。そのほかの元素Mに適用可能な元素としては、ホウ素(B)、シリコン(Si)、チタン(Ti)、鉄(Fe)、ニッケル(Ni)、ゲルマニウム(Ge)、イットリウム(Y)、ジルコニウム(Zr)、モリブデン(Mo)、ランタン(La)、セリウム(Ce)、ネオジム(Nd)、ハフニウム(Hf)、タンタル(Ta)、タングステン(W)などがある。ただし、元素Mとして、前述の元素を複数組み合わせても構わない場合がある。元素Mは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛(Zn)を含む金属酸化物であると好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。
 チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。
 また、処理部30には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。
 また、処理部30には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いることが好ましい。
 処理部30は、例えば、演算回路または中央演算装置(CPU:Central Processing Unit)等を有する。
 処理部30は、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、FPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって実現された構成であってもよい。処理部30は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理およびプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域および記憶部40のうち少なくとも一方に格納される。
 処理部30はメインメモリを有していてもよい。メインメモリは、RAM(Random Access Memory)等の揮発性メモリ、およびROM(Read Only Memory)等の不揮発性メモリのうち少なくとも一方を有する。
 RAMとしては、例えばDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等が用いられ、処理部30の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部40に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、およびルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、およびプログラムモジュールは、それぞれ、処理部30に直接アクセスされ、操作される。
 ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)およびファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV−EPROM(Ultra−Violet Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ等が挙げられる。
 記憶部40は、処理部30が実行するプログラムを記憶する機能を有する。また、記憶部40は、処理部30が生成した演算結果および推論結果、並びに、入力部20に入力されたデータなどを記憶する機能を有していてもよい。また記憶部40は、入力部20に入力される検索データ62を、検索データ41として記憶部40内に記憶する機能を有する。記憶部40に記憶される検索データ41は、後述する類似語辞書データを更新するために用いられる。
 記憶部40は、揮発性メモリおよび不揮発性メモリのうち少なくとも一方を有する。記憶部40は、例えば、DRAM、SRAMなどの揮発性メモリを有していてもよい。記憶部40は、例えば、ReRAM(Resistive Random Access Memory、抵抗変化型メモリともいう)、PRAM(Phase change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory、磁気抵抗型メモリともいう)、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部40は、ハードディスクドライブ(Hard Disc Drive:HDD)およびソリッドステートドライブ(Solid State Drive:SSD)等の記録メディアドライブを有していてもよい。
 データベース50は、少なくとも、検索対象となる参照用文書データ51、重み辞書データ52、および類似語検索データ53を記憶する機能を有する。また、データベース50は、処理部30が生成した演算結果および推論結果、並びに、入力部20に入力されたデータなどを記憶する機能を有していてもよい。なお、記憶部40およびデータベース50は互いに分離されていなくてもよい。例えば、文書検索システム10は、記憶部40およびデータベース50の双方の機能を有する記憶ユニットを有していてもよい。
 参照用文書データ51は、知的財産に係る複数の文書のデータである。また重み辞書データ52は、参照用文書データ51を解析して得られる参照用文章解析データに含まれる単語の中から、複数のキーワードの出現頻度を抽出し、複数のキーワードのそれぞれに対して、出現頻度に応じた重みを付与して生成されるデータである。また類似語検索データ53は、参照用文章解析データに含まれる単語の中から、キーワードに対応する関連語を抽出し、関連語のそれぞれに対して類似度に応じた重みを付与して生成されるデータである。
 またデータベース50は、重み辞書データ52および類似語検索データ53の生成に必要な逆文書頻度(Inverse Document Frequency、以下IDFと記す)データ(以下、IDFデータと記す)を記憶する機能を有する。IDFは、ある単語の文書への現れにくさを表す。多くの文書に出現する単語のIDFは小さく、一部の文書にのみ出現する単語のIDFは高くなる。したがって、IDFが高い単語は、参照用文章解析データにおいて特徴的な単語であるといえる。上記キーワードの出現頻度の算定には、IDFデータを用いることが好ましい。
 なお文章データからの検索ワードの抽出も、IDFに基づいて行うことができる。例えば、IDFがある数値以上の単語を検索ワードとして抽出してもよく、IDFが高い順に任意の個数の単語を検索ワードとして抽出することができる。
 またデータベース50は、キーワードに対応する関連語の算定に必要なベクトルデータを記憶する機能を有する。関連語は、参照用文章解析データに含まれる単語の中から、当該単語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度の高さまたは距離の近さに基づいて抽出する。関連語の重みの算定は、関連語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度または距離に基づいた値と、キーワードの重みと、の積を用いることが好ましい。または、関連語の重みの算定は、関連語の分散表現ベクトルとキーワードの分散表現ベクトルとの類似度または距離に基づいた値を用いてもよい。関連語の重みが、関連語とキーワードの類似度と、キーワード自体の重みと、の双方に基づいて設定されることで検索精度を高めることができる。なお関連語としては、同義語、類義語、対義語、上位語、下位語などが挙げられる。
 なお上記検索データ61は、文章データ21に含まれる検索ワードを抽出し、類似語辞書データおよび重み辞書データを参照することで生成されるデータに相当する。検索データは、検索ワードに対応するキーワードおよび当該キーワードに対応する関連語のそれぞれに重みが付与されたデータである。キーワードおよび関連語のそれぞれが重みを有することで、キーワードまたは関連語がヒットした参照用文書データに、重みに基づいた点数を付与することができる。検索データ62は、検索データ61において、ユーザの操作によって上記重みが修正されたデータに相当する。
 出力部60は、文書検索システム10の外部に検索データを供給する機能を有する。例えば、処理部30において生成された検索データを、文書検索システム10の外部に設けられる表示装置などに供給することができる。ユーザは、文書検索システム10の外部に設けられる表示装置などを介して生成された検索データを確認することができる。
 伝送路70は、データを伝達する機能を有する。入力部20、処理部30、記憶部40、データベース50、および出力部60の間のデータの送受信は、伝送路70を介して行うことができる。
 図2は、図1で説明した文書検索システム10を用いる文書検索方法を説明するためのフローを示す図である。
 図2に図示するフローでは、まず、データベース50に対して、参照用文書データの登録を行う(ステップS11)。この登録を行うステップは、以降のステップの途中で行う構成であってもよい。
 次いで重み辞書データの作成を行う(ステップS12)。このステップS12における重み辞書データ作成フローについては、後述する図3を用いて説明する。
 次いで類義語辞書データの作成を行う(ステップS13)。このステップS13における類義語辞書データ作成フローについては、後述する図4を用いて説明する。なおステップS13は、ステップS12と入れ替えて行ってもよいし、同じタイミングで行ってもよい。
 次いで、文章データの入力を行う(ステップS14)。この文章データの入力は、文書検索システム10の外部に設けられる表示装置などのグラフィカルユーザインタフェース(GUI)を介して入力される。
 次いで文章データから検索ワードの抽出を行う(ステップS15)。このステップS15における検索ワードの抽出フローについては、後述する図5を用いて説明する。
 次いで検索データの作成を行う(ステップS16)。検索データの作成は、検索ワード、重み辞書データ、および類似語辞書データを参照して行われる。このステップS16における検索データについては、後述する図7等を参照して説明する。
 次いで検索データに基づく検索データの表示を行う(ステップS17)。当該表示は、検索データが文書検索システム10の外部に設けられる表示装置などのGUIに出力されることで行われる。
 次いで、ステップS17で表示された検索データの修正を行う(ステップS18)。この修正は、ユーザが文書検索システム10の外部に設けられる表示装置に表示された検索データが有する重みデータの値を修正することで行われる。
 次いで、修正された検索データをもとにして、検索を実行する(ステップS19)。このステップS19における検索実行のフローについては、後述する図11を用いて説明する。
 ステップS18で修正された検索データは、記憶部等に保存される(ステップS20)。
 ステップS19で検索を実行した後は、検索を終了するか否かの判断を行う(ステップS21)。継続する場合、ステップS14に戻り、再度文章データの入力を行う。終了の場合、検索終了となる。
 ステップS20で修正された検索データの保存後は、類義語辞書データの更新を行う(ステップS22)。つまりステップS13で示す類義語辞書データ作成で作成されたデータを更新する。このステップS22における類義語辞書データの更新フローについては、後述する図10等を参照して説明する。
 図2のフロー図によれば、本発明の一態様の文書検索方法では、ユーザによって修正された検索データを用いて類義語辞書データの更新を行うことができる。そのため、高い精度で文書を検索できる文書検索方法を提供できる。あるいは簡単な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。
 図3は、図2で説明したステップS12に示す重み辞書データを生成するためのフローを示す図である。
 まず複数の参照用文書データ(以下文書データTDREF)が入力部20を介して処理部30に入力される(ステップS41)。ステップS41は、上記説明したステップS11に相当する。
 次いで文書データTDREFに対して、分かち書き処理を行う(ステップS42)。その後不要な分かち書き処理を修正する処理を行うことが好ましい。
 次いで、分かち書き処理を行った文書データTDREFに対して、形態素解析を行う(ステップS43)。
 次いで、形態素解析を行ったデータに対して、文章解析データADREF(参照用文章解析データ)の生成を行う(ステップS44)。形態素解析では、自然言語で書かれた文章を、形態素(言語として意味を持つ最小単位)に分割し、形態素の品詞などを判別することができる。これにより、例えば、分かち書き処理をおこなった文書データTDREFから名詞のみを抽出した文章解析データADREFとすることができる。
 次いで文章解析データADREFに対して、当該文章解析データADREFに含まれる単語のIDFを計算し、IDFデータIDを生成する(ステップS45)。IDFデータIDは、単語(Word)と規格化されたIDFを含む。IDFデータIDは、キーワードとなる単語(Word)と、規格化されたIDFと、を含む。
 ある単語tのIDF(t)は、式(1)のidf(t)を規格化することで求められる。規格化の方法は特に限定されず、例えば、式(2)により、idf(t)を規格化できる。式(1)において、Nは全文書数(参照用文章解析データADrefの数)であり、df(t)はある単語tが出現する文書数(参照用文章解析データADrefの数)である。式(2)において、idfMAXは、参照用文章解析データADrefに含まれる単語のidf(t)の最大値であり、idfMINは、参照用文章解析データADrefに含まれる単語のidf(t)の最小値である。
Figure JPOXMLDOC01-appb-M000001
 IDFが高いワードは、文章解析データADREFに現れにくい特徴的な単語であるといえる。そのため単語ごとに規格化されたIDFデータIDを見積もることで、所望の文書を検索するための特徴的なワードであるキーワードおよび規格化されたIDFの抽出を行うことができる。
 次いで、IDFデータIDにおいて、キーワードごとに付されたIDFを重みデータとし、キーワードごとに重みデータが付された重み辞書データを生成する(ステップS46)。上述したようにIDFが高い単語は、参照用文章解析データにおいて特徴的な単語であるといえる。IDFを抽出することでキーワードごとの出現頻度を見積もることができ、出現頻度に応じた重みデータを各キーワードに紐づけした重み辞書データを生成することができる。生成された重み辞書データは、データベース50に保存することができる。
 図3のフロー図によれば、データベースに保存された参照用文書データをもとに重み辞書データの生成を行うことができる。文書データ中の特徴的な単語(キーワード)ごとに、IDFで規格化された数値で見積もることでキーワードごとの重要度(重み)を見積もることができる。そのため、高い精度で文書を検索できる文書検索方法を提供できる。あるいは簡単な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。
 図4は、図2で説明したステップS12に示す類義語辞書データを生成するためのフローを示す図である。
 まず文書データTDREFが入力部20を介して処理部30に入力される(ステップS51)。ステップS51は、上記説明したステップS11に相当する。なお当該ステップS51は、ステップS41と同じ処理に相当する。
 次いで文書データTDREFに対して、分かち書き処理を行う(ステップS52)。その後不要な分かち書き処理を修正する処理を行うことが好ましい。なお当該ステップS52は、ステップS42と同じ処理に相当する。
 次いで、分かち書き処理を行った文書データTDREFに対して、形態素解析を行う(ステップS53)。なお当該ステップS53は、ステップS43と同じ処理に相当する。
 次いで、形態素解析を行ったデータに対して、文章解析データADREF(参照用文章解析データ)の生成を行う(ステップS54)。なお当該ステップS54は、ステップS44と同じ処理に相当する。
 次いで文章解析データADREFに対して、当該文章解析データADREFに含まれる単語のIDFを計算し、IDFデータIDを生成する(ステップS55)。なお当該ステップS55は、ステップS45と同じ処理に相当する。単語ごとに規格化されたIDFデータIDを見積もることで、所望の文書を検索するための特徴的なワードであるキーワードおよび規格化されたIDFの抽出を行うことができる。
 次いで文章解析データADREFに対して、当該データに含まれる単語を抽出し、単語ごとに分散表現ベクトルを生成し、ベクトルデータVDを生成する(ステップS56)。
 単語の分散表現は、単語埋め込みともいわれる。単語の分散表現ベクトルは、単語を、各特徴要素(次元)に対して、定量化した連続値で表現したベクトルである。意味の近い単語同士は、ベクトルも近くなる。
 処理部30は、ニューラルネットワークを用いて、単語の分散表現ベクトルを生成することが好ましい。ニューラルネットワークの学習は教師あり学習で行う。具体的には、ある単語を入力層に与え、当該単語の周辺語を出力層に与えて、ニューラルネットワークに、ある単語に対するその周辺語の確率を学習させる。中間層(隠れ層)は10次元以上1000次元以下の比較的低次元のベクトルを有することが好ましい。学習後の当該ベクトルが、単語の分散表現ベクトルである。
 単語の分散表現は、例えば、オープンソース化されているアルゴリズムのWord2vecを用いて行うことができる。Word2vecは、同じ文脈で利用される単語は、同じ意味を持つという仮説に基づき、単語の特徴および意味構造を含めて単語をベクトル化する。
 単語のベクトル化において、単語の分散表現ベクトルを生成することで、ベクトル間の演算で単語間の類似度や距離などを計算することができる。2つのベクトルの類似度が高いとき、当該2つのベクトルは関係性が高いといえる。また、2つのベクトルの距離が近いとき、当該2つのベクトルは関係性が高いといえる。
 また、one−hot表現が1単語に1次元を割り当てるのに対し、分散表現では単語を低次元の実数値ベクトルで表すことができるため、語彙数が増えても少ない次元数で表現することができる。したがって、コーパスに含まれる単語数が多くても計算量が増加しにくく、膨大なデータを短時間で処理することができる。
 次いで文章解析データADREFに対して、キーワードに対応する関連語の抽出を行う(ステップS57)。キーワードに対応する関連語の抽出は、キーワードの分散表現ベクトルと、単語の分散表現ベクトルと、の類似度の高さまたは距離の近さに基づいて、キーワードに対応する関連語を抽出する。そして、関連語を類似度の高い順または距離の近い順に並べることで、関連語データを生成する。具体的には、1つのキーワードに対して、関連語を1個以上10個以下抽出することが好ましく、2個以上5個以下抽出することがより好ましい。関連語は、例えば、類似度が所定の値以上の単語であってもよく、距離が所定の値以下の単語であってもよく、類似度が高い上位の所定の個数の単語であってもよく、距離が近い上位の所定の個数の単語であってもよい。キーワードによって、同義語、類義語、対義語、上位語、下位語などの数は異なる。このため、キーワードによって、関連語の数は異なっていてもよい。文章解析データADREFに含まれる単語の中からキーワードの関連語を抽出することで、文章解析データADREFが独特の表記でキーワードを表現している場合であっても、当該表記を関連語として抽出することができる。したがって、表記の揺らぎによる検索漏れが低減でき、好ましい。
 2つのベクトルの類似度は、コサイン類似度、共分散、不偏共分散、ピアソンの積率相関係数などを用いて求めることができる。特に、コサイン類似度を用いることが好ましい。2つのベクトルの距離は、ユークリッド距離、標準(標準化、平均)ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離などを用いて求めることができる。
 次いで関連語に対して重みデータの付与を行う(ステップS58)。各関連語に付与される重みデータは、キーワードと関連語の関連性の度合い(類似度)に相当する。したがって関連語に付与される重みデータは、上記類似度の高さもしくは距離の近さを示す値、またはこれらを規格化した値である。関連語に付与される重みデータは、後に検索結果に点数を付与する際に用いる、関連語の重みの算出に利用する。具体的には、キーワードの規格化されたIDFと関連語の重みデータとの積が、関連語の重みに相当する。なお関連語の重みの算出は、積に相当する値であればよく、算出される重みの値に対し、当該積の切片に相当する値が加わっていてもよい。
 上述したIDFデータID、およびベクトルデータVDを用いて、複数のキーワードおよび重みデータが付された関連語で構成される類義語辞書データを生成する(ステップS59)。生成された類義語辞書データは、データベース50に保存することができる。
 図4のフローによれば、データベースに保存された複数の文書データをもとに類義語辞書データの生成を行うことができる。文書データ中の特徴的な単語(キーワード)に関連する関連語ごとに、IDFデータIDおよびベクトルデータVDで規格化された数値で見積もることで関連語ごとの類似度(重み)を見積もることができる。そのため、高い精度で文書を検索できる文書検索方法を提供できる。あるいは簡単な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。
 図5は、図2で説明したステップS15に示す検索ワードの抽出のためのフローを示す図である。
 まず文章データ(以下文章データTD)が入力部20を介して処理部30に入力される(ステップS31)。ステップS31は、上記説明したステップS14に相当する。
 次いで文章データTDに対して、分かち書き処理を行う(ステップS32)。その後不要な分かち書き処理を修正するための処理を行うことが好ましい。
 次いで、分かち書き処理を行った文章データTDに対して、形態素解析を行う(ステップS33)。
 次いで、形態素解析を行ったデータに対して、文章解析データ(以下、文章解析データAD)の生成を行う(ステップS34)。形態素解析では、自然言語で書かれた文章を、形態素(言語として意味を持つ最小単位)に分割し、形態素の品詞などを判別することができる。これにより、例えば、分かち書き処理を行った文章データTDから名詞のみを抽出した文章解析データADとすることができる。
 次いで、重み辞書データまたは類義語辞書データの生成時に算出したIDFデータを参照し、文章解析データADに含まれる単語に応じたIDFデータIDを取得する(ステップS35)。単語ごとに規格化されたIDFデータIDを取得することで、所望の文書を検索するための特徴的なワードである検索ワードおよび規格化されたIDFの抽出を行うことができる。
 次いで、IDFをもとに検索ワードを抽出する(ステップS36)。IDFが高いワードは、文章解析データADに現れにくい特徴的な単語である。
 図5のフローによれば、入力される文章データをもとに検索ワードの抽出を行うことができる。文章データ中の特徴的な単語をIDFで規格化された数値で見積もることで、当該特徴的なワードを検索ワードとして抽出させることができる。そのため、高い精度で文書を検索できる文書検索方法を提供できる。あるいは簡単な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。
 図6Aは、上記説明した文章データTDから抽出される検索ワード(SW)のデータを模式的に表す図である。表データ21TBは、検索ワード(SW)のデータを模式的に表している。抽出された検索ワードとして、「Word A」、「Word B」、「Word C」を例示している。
 図6Bは、上記説明した複数の文書データから生成されるキーワード(KW)ごとに、規格化されたIDFに基づく重みデータを付した重み辞書データを模式的に表す図である。表データ52TBは、重み辞書データを模式的に表している。キーワードとして、「Word A」、「Word B」、「Word C」を例示し、それぞれのキーワードの重みデータとして「0.9」、「0.9」、「0.8」としている。
 図6Cは、上記説明した複数の文書データから抽出されるキーワード(KW)ごとに関連語を抽出し、関連語(RW)ごとに類似度に相当する重みデータを付した類義語辞書データを模式的に表す図である。表データ53TBは、類義語辞書データを模式的に表している。
 表53TBでは、キーワードKWとして、「Word A」、「Word B」、「Word C」、「Word D」、「Word E」を例示している。「Word A」の関連語として、「Word X」、「Word Y」、「Word Z」、「Word a」を例示し、それぞれの関連語の重みデータとして、「0.9」、「0.8」、「0.6」、「0.5」としている。同様に、「Word B」の関連語として、「Word b」、「Word c」、「Word d」、「Word e」を例示し、それぞれの関連語の重みデータとして、「0.5」、「0.5」、「0.45」、「0.3」としている。「Word C」の関連語として、「Word f」、「Word g」、「Word h」、「Word i」を例示し、それぞれの関連語の重みデータとして、「0.75」、「0.75」、「0.75」、「0.75」としている。「Word D」の関連語として、「Word j」、「Word k」、「Word m」、「Word n」を例示し、それぞれの関連語の重みデータとして、「0.5」、「0.3」、「0.3」、「0.1」としている。「Word E」の関連語として、「Word p」、「Word q」、「Word r」、「Word s」を例示し、それぞれの関連語の重みデータとして、「0.75」、「0.65」、「0.65」、「0.6」としている。
 図7は、重み辞書データおよび類似語辞書データを参照して作成される検索データを模式的に示す図である。表データ61TBには、検索ワードSWを有する表データ21TBに示す「Word A」、「Word B」、「Word C」の重みを、表データ52TBを参照することで「0.9」、「0.9」、「0.8」としている。またキーワードKWに対応する関連語として、表データ53TBを参照することで「Word A」では「Word X」、「Word Y」、「Word Z」、「Word a」を例示し、それぞれの関連語の重みとして、「0.9」、「0.8」、「0.6」、「0.5」としている。同様に、「Word B」では「Word b」、「Word c」、「Word d」、「Word e」を例示し、それぞれの関連語の重みとして、「0.5」、「0.5」、「0.45」、「0.3」としている。「Word C」では「Word f」、「Word g」、「Word h」、「Word i」を例示し、それぞれの関連語の重みとして、「0.75」、「0.75」、「0.75」、「0.75」としている。
 図7に図示する表データ61TBは、文書検索システム10の外部に設けられる表示装置に表示される。ユーザは、表データ61TBに図示するように、文書検索システム10の外部に設けられる表示装置に表示される検索データを見て、明らかに関連語として適切ではない単語の重みデータ、あるいは明らかに関連性の高い関連語の重みデータを修正することができる。
 例えば図8に図示するように、図7に図示する表データ61TBでは、「Word A」において、「Word a」の関連性がユーザの判断で大きい場合、関連語の重みを「0.5」から「1.0」に修正する。同様に「Word B」において、「Word c」の関連性がユーザの判断で小さい場合、関連語の重みを「0.5」から「0.0」に修正する。同様に「Word C」において、「Word h」の関連性がユーザの判断で大きい場合、関連語の重みを「0.75」から「1.0」に修正する。なお、重みデータを修正した関連語にハッチングを付している。
 図8に図示する修正をユーザが行うことで、検索データ(第1の検索データ:表データ61TBに相当)は、修正された検索データ(第2の検索データ:表データ62TBに相当)となる。
 なお類義語辞書データの更新は、図8で示す例に限らない。例えば、関連語の重みデータを「0.5」から「1.0」に修正する場合、寄与率を考慮した修正としてもよい。例えば修正前の重みデータと修正後の重みデータの差に寄与率を乗じた値を修正前の重みデータに加算することで、修正後の重みデータとする構成でもよい。当該構成の場合、寄与率を0.1とし、修正前の重みデータを0.5とし、修正後の重みデータを1.0とすると、修正後の重みデータは、「0.5+0.1×(1.0−0.5)」で0.55に更新される。そのため、類義語辞書データの更新時において、一ユーザの修正内容によらず、複数のユーザの修正に応じた更新を行うことができる。
 また図9では、図8で図示する検索データの修正を行った際に更新される、類義語辞書データを模式的に示す図である。図8で図示する、重みデータを修正した関連語RW(ハッチングを付した箇所)および対応するキーワードKWは、修正される重みデータに基づいて類義語辞書データが修正される。具体的には、図9に図示する、更新前の類義語辞書データを模式的に表す表データ53TBは、表データ53TB_reに示すように更新することができる。
 図9に図示するように、重みデータが更新された関連語RWは、キーワードに紐づけされた関連語のランキングが変動する。このように類義語辞書データを更新することで、ユーザの判断基準が加味された文書の検索ができる文書検索方法を提供することができる。また、高い精度で文書を検索できる文書検索方法を提供できる。あるいは簡単な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。
 図10は、図2で説明したステップS22に示す類義語辞書データの更新を説明するためのフローを示す図である。
 まずユーザによって修正された検索データが、入力部を介して記憶部に保存される(ステップS61)。ステップS61は、上記図2で説明したステップS20に相当する。
 次いで類義語辞書データの定期的な更新を行うか、否かの判断を行う(ステップS62)。定期的な更新は、タイマー等を利用して行われる。更新するタイミングの場合、類義語辞書データの更新を行う(ステップS63)。更新しない場合、終了となる。ステップS63における類義語辞書データの更新は、ステップS61における検索データの保存がされるか否かにかかわらず行われる。
 図11は、図2で説明したステップS19に示す検索実行を説明するためのフローを示す図である。
 まず検索ワードに基づく検索データの作成を行う(ステップS71)。ステップS71は、上記説明したステップS16に相当する。
 次いで作成した検索データに対して、検索データの修正を行う(ステップS72)。ステップS72は、上記説明したステップS18に相当する。このようにユーザが重みデータを編集(修正)することで、検索精度の向上を図ることができる。
 次いで参照用文章解析データADrefに対して検索データに付した重みデータに基づく点数の付与(スコアリング)を行う(ステップS73)。複数の参照用文章解析データADrefに対するスコアリングの処理については、後述する図12等を参照して説明する。
 次いで参照用文章解析データADrefのそれぞれに付されたスコアをもとにランキングデータを作成する(ステップS74)。
 ランキングデータは、順位(Rank)、参照用文章データTDrefの情報(名称や識別番号など)(Doc)、スコア(Score)などを含むことができる。なお、データベース50などに参照用文章データTDrefが保存されている場合、ランキングデータは、参照用文章データTDrefへのファイルパスを含むことが好ましい。これにより、ユーザは、ランキングデータから、目的の文書に容易にアクセスすることができる。
 参照用文章解析データADrefのスコアが高いほど、当該文章解析データADrefは、文章データTDと関連または類似しているといえる。
 本発明の一態様の文書検索システムは、文章データをもとに検索ワードを抽出し、当該検索ワードを類似語辞書データおよび重み辞書データを参照することで、キーワードと当該キーワードの関連語とを抽出する機能を有する。そのため、本発明の一態様の文書検索システムのユーザは、検索に用いるキーワードを自ら選定しなくてもよい。ユーザは、キーワードよりも分量の多い文章データ(テキストデータ)をそのまま文書検索システムに入力することができる。また、ユーザ自身がキーワードおよび関連語を選定したい場合も、一から選定する必要はなく、文書検索システムが抽出したキーワードおよび関連語を参照して、キーワードおよび関連語の追加、修正、削除などを行えばよい。したがって、文書検索におけるユーザの負担を軽減し、また、ユーザの技量による検索結果の差を生じにくくできる。
 図12は、図11で説明したステップS73に示す、検索データに付した重みデータに基づく参照用文章解析データADrefのスコアリングを説明するためのフローを示す図である。
 点数づけしていない参照用文章解析データADrefを1件選択する(ステップS81)。
 次いで参照用文章解析データADrefにおいて、キーワードKWがヒットするか判断する(ステップS82)。ヒットする場合、ステップS85に進む。ヒットしない場合、ステップS83に進む。
 次いで参照用文章解析データADrefにおいて、キーワードKWに対応する関連語RWがヒットするか判断する(ステップS83)。ヒットする場合、ステップS85に進む。ヒットしない場合、ステップS84に進む。
 次いでキーワードKWに対応する全ての関連語RWで検索したか判断する(ステップS84)。検索した場合、ステップS86に進む。検索していない場合、ステップS83に進む。例えば、キーワードKWの関連語RWが2つあり、先のステップS83で1つ目の関連語RWがヒットするか判断していた場合、ステップS83に戻って2つめの関連語RWがヒットするか判断する。
 ステップS85では、ヒットした単語に対応する重みをスコアに加算する。ステップS82でヒットした場合、キーワードKWの重みデータをスコアに加算する。ステップS83でヒットした場合、キーワードKWの重みデータと、関連語RWの重みデータと、の積をスコアに加算する。
 次に、全てのキーワードKWで検索したか判断する(ステップS86)。検索した場合、ステップS87に進む。検索していない場合、ステップS82に進む。例えば、キーワードKWが2つあり、先のステップS82で1つ目のキーワードKWがヒットするか判断していた場合、ステップS82に戻って2つ目のキーワードKWがヒットするか判断する。
 次に、全ての参照用文章解析データADrefに対して点数づけをしたか判断する(ステップS87)。全ての点数づけが終わった場合、終了となる。終わっていない場合、ステップS81に進む。
 以上により、文書検索システム10を用いて、検索を行うことができる。
 以上のように、本実施の形態の文書検索システムでは、事前に準備された文書を検索の対象として、入力された文書に関連または類似する文書を検索することができる。検索に用いるキーワードをユーザが選択する必要がなく、キーワードよりも分量の多い文章データを用いて検索することができるため、検索精度の個人差を低減することができ、簡便かつ高精度に、文書を検索できる。また、本実施の形態の文書検索システムは、キーワードの関連語を、事前に準備された文書の中から抽出するため、当該文書に含まれる独特な表記も関連語として抽出することができ、検索漏れを低減できる。また、本実施の形態の文書検索システムは、関連性または類似性の高さで順位づけして検索結果を出力することができるため、ユーザにとっては、検索結果から必要な文書を探しやすく、かつ、見落としにくくなる。
 本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、1つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。
(実施の形態2)
 本実施の形態では、ニューラルネットワークに用いることが可能な半導体装置の構成例について説明する。
 本実施の形態の半導体装置は、例えば、本発明の一態様の文書検索システムの処理部に用いることができる。
 図13Aに示すように、ニューラルネットワークNNは入力層IL、出力層OL、中間層(隠れ層)HLによって構成することができる。入力層IL、出力層OL、中間層HLはそれぞれ、1または複数のニューロン(ユニット)を有する。なお、中間層HLは1層であってもよいし2層以上であってもよい。2層以上の中間層HLを有するニューラルネットワークはDNN(ディープニューラルネットワーク)と呼ぶこともでき、ディープニューラルネットワークを用いた学習は深層学習と呼ぶこともできる。
 入力層ILの各ニューロンには入力データが入力され、中間層HLの各ニューロンには前層または後層のニューロンの出力信号が入力され、出力層OLの各ニューロンには前層のニューロンの出力信号が入力される。なお、各ニューロンは、前後の層の全てのニューロンと結合されていてもよいし(全結合)、一部のニューロンと結合されていてもよい。
 図13Bに、ニューロンによる演算の例を示す。ここでは、ニューロンNと、ニューロンNに信号を出力する前層の2つのニューロンを示している。ニューロンNには、前層のニューロンの出力xと、前層のニューロンの出力xが入力される。そして、ニューロンNにおいて、出力xと重みwの乗算結果(x)と出力xと重みwの乗算結果(x)の総和x+xが計算された後、必要に応じてバイアスbが加算され、値a=x+x+bが得られる。そして、値aは活性化関数hによって変換され、ニューロンNから出力信号y=h(a)が出力される。
 このように、ニューロンによる演算には、前層のニューロンの出力と重みの積を足し合わせる演算、すなわち積和演算が含まれる(上記のx+x)。この積和演算は、プログラムを用いてソフトウェア上で行ってもよいし、ハードウェアによって行われてもよい。積和演算をハードウェアによって行う場合は、積和演算回路を用いることができる。この積和演算回路としては、デジタル回路を用いてもよいし、アナログ回路を用いてもよい。積和演算回路にアナログ回路を用いる場合、積和演算回路の回路規模の縮小、または、メモリへのアクセス回数の減少による処理速度の向上および消費電力の低減を図ることができる。
 積和演算回路は、チャネル形成領域にシリコン(単結晶シリコンなど)を含むトランジスタ(「Siトランジスタ」ともいう)によって構成してもよいし、チャネル形成領域に金属酸化物の一種である酸化物半導体を含むトランジスタ(「OSトランジスタ」ともいう)によって構成してもよい。特に、OSトランジスタはオフ電流が極めて小さいため、積和演算回路のメモリを構成するトランジスタとして好適である。なお、SiトランジスタとOSトランジスタの両方を用いて積和演算回路を構成してもよい。以下、積和演算回路の機能を備えた半導体装置の構成例について説明する。
<半導体装置の構成例>
 図14に、ニューラルネットワークの演算を行う機能を有する半導体装置MACの構成例を示す。半導体装置MACは、ニューロン間の結合強度(重み)に対応する第1のデータと、入力データに対応する第2のデータの積和演算を行う機能を有する。なお、第1のデータおよび第2のデータはそれぞれ、アナログデータまたは多値のデジタルデータ(離散的なデータ)とすることができる。また、半導体装置MACは、積和演算によって得られたデータを活性化関数によって変換する機能を有する。
 半導体装置MACは、セルアレイCA、電流源回路CS、カレントミラー回路CM、回路WDD、回路WLD、回路CLD、オフセット回路OFST、および活性化関数回路ACTVを有する。
 セルアレイCAは、複数のメモリセルMCおよび複数のメモリセルMCrefを有する。図14には、セルアレイCAがm行n列(m,nは1以上の整数)のメモリセルMC(MC[1,1]乃至MC[m,n])と、m個のメモリセルMCref(MCref[1]乃至MCref[m])を有する構成例を示している。メモリセルMCは、第1のデータを格納する機能を有する。また、メモリセルMCrefは、積和演算に用いられる参照データを格納する機能を有する。なお、参照データはアナログデータまたは多値のデジタルデータとすることができる。
 メモリセルMC[i,j](iは1以上m以下の整数、jは1以上n以下の整数)は、配線WL[i]、配線RW[i]、配線WD[j]、および配線BL[j]と接続されている。また、メモリセルMCref[i]は、配線WL[i]、配線RW[i]、配線WDref、配線BLrefと接続されている。ここで、メモリセルMC[i,j]と配線BL[j]間を流れる電流をIMC[i,j]と表記し、メモリセルMCref[i]と配線BLref間を流れる電流をIMCref[i]と表記する。
 メモリセルMCおよびメモリセルMCrefの具体的な構成例を、図15に示す。図15には代表例としてメモリセルMC[1,1]、MC[2,1]およびメモリセルMCref[1]、MCref[2]を示しているが、他のメモリセルMCおよびメモリセルMCrefにも同様の構成を用いることができる。メモリセルMCおよびメモリセルMCrefはそれぞれ、トランジスタTr11、トランジスタTr12、容量素子C11を有する。ここでは、トランジスタTr11およびトランジスタTr12がnチャネル型のトランジスタである場合について説明する。
 メモリセルMCにおいて、トランジスタTr11のゲートは配線WLと接続され、ソースまたはドレインの一方はトランジスタTr12のゲート、および容量素子C11の第1の電極と接続され、ソースまたはドレインの他方は配線WDと接続されている。トランジスタTr12のソースまたはドレインの一方は配線BLと接続され、ソースまたはドレインの他方は配線VRと接続されている。容量素子C11の第2の電極は、配線RWと接続されている。配線VRは、所定の電位を供給する機能を有する配線である。ここでは一例として、配線VRから低電源電位(接地電位など)が供給される場合について説明する。
 トランジスタTr11のソースまたはドレインの一方、トランジスタTr12のゲート、および容量素子C11の第1の電極と接続されたノードを、ノードNMとする。また、メモリセルMC[1,1]、MC[2,1]のノードNMを、それぞれノードNM[1,1]、NM[2,1]と表記する。
 メモリセルMCrefも、メモリセルMCと同様の構成を有する。ただし、メモリセルMCrefは配線WDの代わりに配線WDrefと接続され、配線BLの代わりに配線BLrefと接続されている。また、メモリセルMCref[1]、MCref[2]において、トランジスタTr11のソースまたはドレインの一方、トランジスタTr12のゲート、および容量素子C11の第1の電極と接続されたノードを、それぞれノードNMref[1]、NMref[2]と表記する。
 ノードNMとノードNMrefはそれぞれ、メモリセルMCとメモリセルMCrefの保持ノードとして機能する。ノードNMには第1のデータが保持され、ノードNMrefには参照データが保持される。また、配線BL[1]からメモリセルMC[1,1]、MC[2,1]のトランジスタTr12には、それぞれ電流IMC[1,1]、IMC[2,1]が流れる。また、配線BLrefからメモリセルMCref[1]、MCref[2]のトランジスタTr12には、それぞれ電流IMCref[1]、IMCref[2]が流れる。
 トランジスタTr11は、ノードNMまたはノードNMrefの電位を保持する機能を有するため、トランジスタTr11のオフ電流は小さいことが好ましい。そのため、トランジスタTr11としてオフ電流が極めて小さいOSトランジスタを用いることが好ましい。これにより、ノードNMまたはノードNMrefの電位の変動を抑えることができ、演算精度の向上を図ることができる。また、ノードNMまたはノードNMrefの電位をリフレッシュする動作の頻度を低く抑えることが可能となり、消費電力を削減することができる。
 トランジスタTr12は特に限定されず、例えばSiトランジスタまたはOSトランジスタなどを用いることができる。トランジスタTr12にOSトランジスタを用いる場合、トランジスタTr11と同じ製造装置を用いて、トランジスタTr12を作製することが可能となり、製造コストを抑制することができる。なお、トランジスタTr12はnチャネル型であってもpチャネル型であってもよい。
 電流源回路CSは、配線BL[1]乃至BL[n]および配線BLrefと接続されている。電流源回路CSは、配線BL[1]乃至BL[n]および配線BLrefに電流を供給する機能を有する。なお、配線BL[1]乃至BL[n]に供給される電流値と配線BLrefに供給される電流値は異なっていてもよい。ここでは、電流源回路CSから配線BL[1]乃至BL[n]に供給される電流をI、電流源回路CSから配線BLrefに供給される電流をICrefと表記する。
 カレントミラー回路CMは、配線IL[1]乃至IL[n]および配線ILrefを有する。配線IL[1]乃至IL[n]はそれぞれ配線BL[1]乃至BL[n]と接続され、配線ILrefは、配線BLrefと接続されている。ここでは、配線IL[1]乃至IL[n]と配線BL[1]乃至BL[n]の接続箇所をノードNP[1]乃至NP[n]と表記する。また、配線ILrefと配線BLrefの接続箇所をノードNPrefと表記する。
 カレントミラー回路CMは、ノードNPrefの電位に応じた電流ICMを配線ILrefに流す機能と、この電流ICMを配線IL[1]乃至IL[n]にも流す機能を有する。図14には、配線BLrefから配線ILrefに電流ICMが排出され、配線BL[1]乃至BL[n]から配線IL[1]乃至IL[n]に電流ICMが排出される例を示している。また、カレントミラー回路CMから配線BL[1]乃至BL[n]を介してセルアレイCAに流れる電流を、I[1]乃至I[n]と表記する。また、カレントミラー回路CMから配線BLrefを介してセルアレイCAに流れる電流を、IBrefと表記する。
 回路WDDは、配線WD[1]乃至WD[n]および配線WDrefと接続されている。回路WDDは、メモリセルMCに格納される第1のデータに対応する電位を、配線WD[1]乃至WD[n]に供給する機能を有する。また、回路WDDは、メモリセルMCrefに格納される参照データに対応する電位を、配線WDrefに供給する機能を有する。回路WLDは、配線WL[1]乃至WL[m]と接続されている。回路WLDは、データの書き込みを行うメモリセルMCまたはメモリセルMCrefを選択するための信号を、配線WL[1]乃至WL[m]に供給する機能を有する。回路CLDは、配線RW[1]乃至RW[m]と接続されている。回路CLDは、第2のデータに対応する電位を、配線RW[1]乃至RW[m]に供給する機能を有する。
 オフセット回路OFSTは、配線BL[1]乃至BL[n]および配線OL[1]乃至OL[n]と接続されている。オフセット回路OFSTは、配線BL[1]乃至BL[n]からオフセット回路OFSTに流れる電流量、および/または、配線BL[1]乃至BL[n]からオフセット回路OFSTに流れる電流の変化量を検出する機能を有する。また、オフセット回路OFSTは、検出結果を配線OL[1]乃至OL[n]に出力する機能を有する。なお、オフセット回路OFSTは、検出結果に対応する電流を配線OLに出力してもよいし、検出結果に対応する電流を電圧に変換して配線OLに出力してもよい。セルアレイCAとオフセット回路OFSTの間を流れる電流を、Iα[1]乃至Iα[n]と表記する。
 オフセット回路OFSTの構成例を図16に示す。図16に示すオフセット回路OFSTは、回路OC[1]乃至OC[n]を有する。また、回路OC[1]乃至OC[n]はそれぞれ、トランジスタTr21、トランジスタTr22、トランジスタTr23、容量素子C21、および抵抗素子R1を有する。各素子の接続関係は図16に示す通りである。なお、容量素子C21の第1の電極および抵抗素子R1の第1の端子と接続されたノードを、ノードNaとする。また、容量素子C21の第2の電極、トランジスタTr21のソースまたはドレインの一方、およびトランジスタTr22のゲートと接続されたノードを、ノードNbとする。
 配線VrefLは電位Vrefを供給する機能を有し、配線VaLは電位Vaを供給する機能を有し、配線VbLは電位Vbを供給する機能を有する。また、配線VDDLは電位VDDを供給する機能を有し、配線VSSLは電位VSSを供給する機能を有する。ここでは、電位VDDが高電源電位であり、電位VSSが低電源電位である場合について説明する。また、配線RSTは、トランジスタTr21の導通状態を制御するための電位を供給する機能を有する。トランジスタTr22、トランジスタTr23、配線VDDL、配線VSSL、および配線VbLによって、ソースフォロワ回路が構成される。
 次に、回路OC[1]乃至OC[n]の動作例を説明する。なお、ここでは代表例として回路OC[1]の動作例を説明するが、回路OC[2]乃至OC[n]も同様に動作させることができる。まず、配線BL[1]に第1の電流が流れると、ノードNaの電位は、第1の電流と抵抗素子R1の抵抗値に応じた電位となる。また、このときトランジスタTr21はオン状態であり、ノードNbに電位Vaが供給される。その後、トランジスタTr21はオフ状態となる。
 次に、配線BL[1]に第2の電流が流れると、ノードNaの電位は、第2の電流と抵抗素子R1の抵抗値に応じた電位に変化する。このときトランジスタTr21はオフ状態であり、ノードNbはフローティング状態となっているため、ノードNaの電位の変化に伴い、ノードNbの電位は容量結合により変化する。ここで、ノードNaの電位の変化をΔVNaとし、容量結合係数を1とすると、ノードNbの電位はVa+ΔVNaとなる。そして、トランジスタTr22のしきい値電圧をVthとすると、配線OL[1]から電位Va+ΔVNa−Vthが出力される。ここで、Va=Vthとすることにより、配線OL[1]から電位ΔVNaを出力することができる。
 電位ΔVNaは、第1の電流から第2の電流への変化量、抵抗素子R1の抵抗値、および電位Vrefに応じて定まる。ここで、抵抗素子R1の抵抗値と電位Vrefは既知であるため、電位ΔVNaから配線BLに流れる電流の変化量を求めることができる。
 上記のようにオフセット回路OFSTによって検出された電流量、および/または電流の変化量に対応する信号は、配線OL[1]乃至OL[n]を介して活性化関数回路ACTVに入力される。
 活性化関数回路ACTVは、配線OL[1]乃至OL[n]、および、配線NIL[1]乃至NIL[n]と接続されている。活性化関数回路ACTVは、オフセット回路OFSTから入力された信号を、あらかじめ定義された活性化関数に従って変換するための演算を行う機能を有する。活性化関数としては、例えば、シグモイド関数、tanh関数、softmax関数、ReLU関数、しきい値関数などを用いることができる。活性化関数回路ACTVによって変換された信号は、出力データとして配線NIL[1]乃至NIL[n]に出力される。
<半導体装置の動作例>
 上記の半導体装置MACを用いて、第1のデータと第2のデータの積和演算を行うことができる。以下、積和演算を行う際の半導体装置MACの動作例を説明する。
 図17に半導体装置MACの動作例のタイミングチャートを示す。図17には、図15における配線WL[1]、配線WL[2]、配線WD[1]、配線WDref、ノードNM[1,1]、ノードNM[2,1]、ノードNMref[1]、ノードNMref[2]、配線RW[1]、および配線RW[2]の電位の推移と、電流I[1]−Iα[1]、および電流IBrefの値の推移を示している。電流I[1]−Iα[1]は、配線BL[1]からメモリセルMC[1,1]、MC[2,1]に流れる電流の総和に相当する。
 なお、ここでは代表例として図15に示すメモリセルMC[1,1]、MC[2,1]およびメモリセルMCref[1]、MCref[2]に着目して動作を説明するが、他のメモリセルMCおよびメモリセルMCrefも同様に動作させることができる。
[第1のデータの格納]
 まず、時刻T01−時刻T02の期間において、配線WL[1]の電位がハイレベル(High)となり、配線WD[1]の電位が接地電位(GND)よりもVPR−VW[1,1]大きい電位となり、配線WDrefの電位が接地電位よりもVPR大きい電位となる。また、配線RW[1]、および配線RW[2]の電位が基準電位(REFP)となる。なお、電位VW[1,1]はメモリセルMC[1,1]に格納される第1のデータに対応する電位である。また、電位VPRは参照データに対応する電位である。これにより、メモリセルMC[1,1]およびメモリセルMCref[1]が有するトランジスタTr11がオン状態となり、ノードNM[1,1]の電位がVPR−VW[1,1]、ノードNMref[1]の電位がVPRとなる。
 このとき、配線BL[1]からメモリセルMC[1,1]のトランジスタTr12に流れる電流IMC[1,1],0は、次の式で表すことができる。ここで、kはトランジスタTr12のチャネル長、チャネル幅、移動度、およびゲート絶縁膜の容量などで決まる定数である。また、VthはトランジスタTr12のしきい値電圧である。
Figure JPOXMLDOC01-appb-I000002
 また、配線BLrefからメモリセルMCref[1]のトランジスタTr12に流れる電流IMCref[1],0は、次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000003
 次に、時刻T02−時刻T03の期間において、配線WL[1]の電位がローレベル(Low)となる。これにより、メモリセルMC[1,1]およびメモリセルMCref[1]が有するトランジスタTr11がオフ状態となり、ノードNM[1,1]およびノードNMref[1]の電位が保持される。
 なお、前述の通り、トランジスタTr11としてOSトランジスタを用いることが好ましい。これにより、トランジスタTr11のリーク電流を抑えることができ、ノードNM[1,1]およびノードNMref[1]の電位を正確に保持することができる。
 次に、時刻T03−時刻T04の期間において、配線WL[2]の電位がハイレベルとなり、配線WD[1]の電位が接地電位よりもVPR−VW[2,1]大きい電位となり、配線WDrefの電位が接地電位よりもVPR大きい電位となる。なお、電位VW[2,1]はメモリセルMC[2,1]に格納される第1のデータに対応する電位である。これにより、メモリセルMC[2,1]およびメモリセルMCref[2]が有するトランジスタTr11がオン状態となり、ノードNM[2,1]の電位がVPR−VW[2,1]、ノードNMref[2]の電位がVPRとなる。
 このとき、配線BL[1]からメモリセルMC[2,1]のトランジスタTr12に流れる電流IMC[2,1],0は、次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000004
 また、配線BLrefからメモリセルMCref[2]のトランジスタTr12に流れる電流IMCref[2],0は、次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000005
 次に、時刻T04−時刻T05の期間において、配線WL[2]の電位がローレベルとなる。これにより、メモリセルMC[2,1]およびメモリセルMCref[2]が有するトランジスタTr11がオフ状態となり、ノードNM[2,1]およびノードNMref[2]の電位が保持される。
 以上の動作により、メモリセルMC[1,1]、MC[2,1]に第1のデータが格納され、メモリセルMCref[1]、MCref[2]に参照データが格納される。
 ここで、時刻T04−時刻T05の期間において、配線BL[1]および配線BLrefに流れる電流を考える。配線BLrefには、電流源回路CSから電流が供給される。また、配線BLrefを流れる電流は、カレントミラー回路CM、メモリセルMCref[1]、MCref[2]へ排出される。電流源回路CSから配線BLrefに供給される電流をICref、配線BLrefからカレントミラー回路CMへ排出される電流をICM,0とすると、次の式が成り立つ。
Figure JPOXMLDOC01-appb-I000006
 配線BL[1]には、電流源回路CSからの電流が供給される。また、配線BL[1]を流れる電流は、カレントミラー回路CM、メモリセルMC[1,1]、MC[2,1]へ排出される。また、配線BL[1]からオフセット回路OFSTに電流が流れる。電流源回路CSから配線BL[1]に供給される電流をIC,0、配線BL[1]からオフセット回路OFSTに流れる電流をIα,0とすると、次の式が成り立つ。
Figure JPOXMLDOC01-appb-I000007
[第1のデータと第2のデータの積和演算]
 次に、時刻T05−時刻T06の期間において、配線RW[1]の電位が基準電位よりもVX[1]大きい電位となる。このとき、メモリセルMC[1,1]、およびメモリセルMCref[1]のそれぞれの容量素子C11には電位VX[1]が供給され、容量結合によりトランジスタTr12のゲートの電位が上昇する。なお、電位VX[1]はメモリセルMC[1,1]およびメモリセルMCref[1]に供給される第2のデータに対応する電位である。
 トランジスタTr12のゲートの電位の変化量は、配線RWの電位の変化量に、メモリセルの構成によって決まる容量結合係数を乗じて得た値となる。容量結合係数は、容量素子C11の容量、トランジスタTr12のゲート容量、および寄生容量などによって算出される。以下では便宜上、配線RWの電位の変化量とトランジスタTr12のゲートの電位の変化量が同じ、すなわち容量結合係数が1であるとして説明する。実際には、容量結合係数を考慮して電位Vを決定すればよい。
 メモリセルMC[1,1]およびメモリセルMCref[1]の容量素子C11に電位VX[1]が供給されると、ノードNM[1,1]およびノードNMref[1]の電位がそれぞれVX[1]上昇する。
 ここで、時刻T05−時刻T06の期間において、配線BL[1]からメモリセルMC[1,1]のトランジスタTr12に流れる電流IMC[1,1],1は、次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000008
 すなわち、配線RW[1]に電位VX[1]を供給することにより、配線BL[1]からメモリセルMC[1,1]のトランジスタTr12に流れる電流は、ΔIMC[1,1]=IMC[1,1],1−IMC[1,1],0増加する。
 また、時刻T05−時刻T06の期間において、配線BLrefからメモリセルMCref[1]のトランジスタTr12に流れる電流IMCref[1],1は、次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000009
 すなわち、配線RW[1]に電位VX[1]を供給することにより、配線BLrefからメモリセルMCref[1]のトランジスタTr12に流れる電流は、ΔIMCref[1]=IMCref[1],1−IMCref[1],0増加する。
 また、配線BL[1]および配線BLrefに流れる電流について考える。配線BLrefには、電流源回路CSから電流ICrefが供給される。また、配線BLrefを流れる電流は、カレントミラー回路CM、メモリセルMCref[1]、MCref[2]へ排出される。配線BLrefからカレントミラー回路CMへ排出される電流をICM,1とすると、次の式が成り立つ。
Figure JPOXMLDOC01-appb-I000010
 配線BL[1]には、電流源回路CSから電流Iが供給される。また、配線BL[1]を流れる電流は、カレントミラー回路CM、メモリセルMC[1,1]、MC[2,1]へ排出される。さらに、配線BL[1]からオフセット回路OFSTにも電流が流れる。配線BL[1]からオフセット回路OFSTに流れる電流をIα,1とすると、次の式が成り立つ。
Figure JPOXMLDOC01-appb-I000011
 そして、式(E1)乃至式(E10)から、電流Iα,0と電流Iα,1の差(差分電流ΔIα)は次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000012
 このように、差分電流ΔIαは、電位VW[1,1]とVX[1]の積に応じた値となる。
 その後、時刻T06−時刻T07の期間において、配線RW[1]の電位は基準電位となり、ノードNM[1,1]およびノードNMref[1]の電位は時刻T04−時刻T05の期間と同様になる。
 次に、時刻T07−時刻T08の期間において、配線RW[1]の電位が基準電位よりもVX[1]大きい電位となり、配線RW[2]の電位が基準電位よりもVX[2]大きい電位となる。これにより、メモリセルMC[1,1]、およびメモリセルMCref[1]のそれぞれの容量素子C11に電位VX[1]が供給され、容量結合によりノードNM[1,1]およびノードNMref[1]の電位がそれぞれVX[1]上昇する。また、メモリセルMC[2,1]、およびメモリセルMCref[2]のそれぞれの容量素子C11に電位VX[2]が供給され、容量結合によりノードNM[2,1]およびノードNMref[2]の電位がそれぞれVX[2]上昇する。
 ここで、時刻T07−時刻T08の期間において、配線BL[1]からメモリセルMC[2,1]のトランジスタTr12に流れる電流IMC[2,1],1は、次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000013
 すなわち、配線RW[2]に電位VX[2]を供給することにより、配線BL[1]からメモリセルMC[2,1]のトランジスタTr12に流れる電流は、ΔIMC[2,1]=IMC[2,1],1−IMC[2,1],0増加する。
 また、時刻T07−時刻T08の期間において、配線BLrefからメモリセルMCref[2]のトランジスタTr12に流れる電流IMCref[2],1は、次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000014
 すなわち、配線RW[2]に電位VX[2]を供給することにより、配線BLrefからメモリセルMCref[2]のトランジスタTr12に流れる電流は、ΔIMCref[2]=IMCref[2],1−IMCref[2],0増加する。
 また、配線BL[1]および配線BLrefに流れる電流について考える。配線BLrefには、電流源回路CSから電流ICrefが供給される。また、配線BLrefを流れる電流は、カレントミラー回路CM、メモリセルMCref[1]、MCref[2]へ排出される。配線BLrefからカレントミラー回路CMへ排出される電流をICM,2とすると、次の式が成り立つ。
Figure JPOXMLDOC01-appb-I000015
 配線BL[1]には、電流源回路CSから電流Iが供給される。また、配線BL[1]を流れる電流は、カレントミラー回路CM、メモリセルMC[1,1]、MC[2,1]へ排出される。さらに、配線BL[1]からオフセット回路OFSTにも電流が流れる。配線BL[1]からオフセット回路OFSTに流れる電流をIα,2とすると、次の式が成り立つ。
Figure JPOXMLDOC01-appb-I000016
 そして、式(E1)乃至式(E8)、および、式(E12)乃至式(E15)から、電流Iα,0と電流Iα,2の差(差分電流ΔIα)は次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000017
 このように、差分電流ΔIαは、電位VW[1,1]と電位VX[1]の積と、電位VW[2,1]と電位VX[2]の積と、を足し合わせた結果に応じた値となる。
 その後、時刻T08−時刻T09の期間において、配線RW[1]、[2]の電位は基準電位となり、ノードNM[1,1]、NM[2,1]およびノードNMref[1]、NMref[2]の電位は時刻T04−時刻T05の期間と同様になる。
 式(E11)および式(E16)に示されるように、オフセット回路OFSTに入力される差分電流ΔIαは、第1のデータ(重み)に対応する電位Vと、第2のデータ(入力データ)に対応する電位Vの積の項を有する式から算出することができる。すなわち、差分電流ΔIαをオフセット回路OFSTで計測することにより、第1のデータと第2のデータの積和演算の結果を得ることができる。
 なお、上記では特にメモリセルMC[1,1]、MC[2,1]およびメモリセルMCref[1]、MCref[2]に着目したが、メモリセルMCおよびメモリセルMCrefの数は任意に設定することができる。メモリセルMCおよびメモリセルMCrefの行数mを任意の数iとした場合の差分電流ΔIαは、次の式で表すことができる。
Figure JPOXMLDOC01-appb-I000018
 また、メモリセルMCおよびメモリセルMCrefの列数nを増やすことにより、並列して実行される積和演算の数を増やすことができる。
 以上のように、半導体装置MACを用いることにより、第1のデータと第2のデータの積和演算を行うことができる。なお、メモリセルMCおよびメモリセルMCrefとして図15に示す構成を用いることにより、少ないトランジスタ数で積和演算回路を構成することができる。そのため、半導体装置MACの回路規模の縮小を図ることができる。
 半導体装置MACをニューラルネットワークにおける演算に用いる場合、メモリセルMCの行数mは一のニューロンに供給される入力データの数に対応させ、メモリセルMCの列数nはニューロンの数に対応させることができる。例えば、図13Aに示す中間層HLにおいて半導体装置MACを用いた積和演算を行う場合を考える。このとき、メモリセルMCの行数mは、入力層ILから供給される入力データの数(入力層ILのニューロンの数)に設定し、メモリセルMCの列数nは、中間層HLのニューロンの数に設定することができる。
 なお、半導体装置MACを適用するニューラルネットワークの構造は特に限定されない。例えば半導体装置MACは、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、オートエンコーダ、ボルツマンマシン(制限ボルツマンマシンを含む)などに用いることもできる。
 以上のように、半導体装置MACを用いることにより、ニューラルネットワークの積和演算を行うことができる。さらに、セルアレイCAに図15に示すメモリセルMCおよびメモリセルMCrefを用いることにより、演算精度の向上、消費電力の削減、または回路規模の縮小を図ることが可能な集積回路を提供することができる。
 本実施の形態は、他の実施の形態と適宜組み合わせることができる。
(本明細書等の記載に関する付記)
 以上の実施の形態、および実施の形態における各構成の説明について、以下に付記する。
 各実施の形態に示す構成は、他の実施の形態あるいは実施例に示す構成と適宜組み合わせて、本発明の一態様とすることができる。また、1つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。
 なお、ある一つの実施の形態の中で述べる内容(一部の内容でもよい)は、その実施の形態で述べる別の内容(一部の内容でもよい)、および/または、一つ若しくは複数の別の実施の形態で述べる内容(一部の内容でもよい)に対して、適用、組み合わせ、または置き換えなどを行うことが出来る。
 なお、実施の形態の中で述べる内容とは、各々の実施の形態において、様々な図を用いて述べる内容、または明細書に記載される文章を用いて述べる内容のことである。
 なお、ある一つの実施の形態において述べる図(一部でもよい)は、その図の別の部分、その実施の形態において述べる別の図(一部でもよい)、および/または、一つ若しくは複数の別の実施の形態において述べる図(一部でもよい)に対して、組み合わせることにより、さらに多くの図を構成させることが出来る。
 また本明細書等において、ブロック図では、構成要素を機能毎に分類し、互いに独立したブロックとして示している。しかしながら実際の回路等においては、構成要素を機能毎に切り分けることが難しく、一つの回路に複数の機能が係わる場合や、複数の回路にわたって一つの機能が関わる場合があり得る。そのため、ブロック図のブロックは、明細書で説明した構成要素に限定されず、状況に応じて適切に言い換えることができる。
 また、図面において、大きさ、層の厚さ、または領域は、説明の便宜上任意の大きさに示したものである。よって、必ずしもそのスケールに限定されない。なお図面は明確性を期すために模式的に示したものであり、図面に示す形状または値などに限定されない。例えば、ノイズによる信号、電圧、若しくは電流のばらつき、または、タイミングのずれによる信号、電圧、若しくは電流のばらつきなどを含むことが可能である。
 また、図面等において図示する構成要素の位置関係は、相対的である。従って、図面を参照して構成要素を説明する場合、位置関係を示す「上に」、「下に」等の語句は便宜的に用いられる場合がある。構成要素の位置関係は、本明細書の記載内容に限定されず、状況に応じて適切に言い換えることができる。
 本明細書等において、トランジスタの接続関係を説明する際、「ソースまたはドレインの一方」(または第1電極、または第1端子)、ソースとドレインとの他方を「ソースまたはドレインの他方」(または第2電極、または第2端子)という表記を用いる。これは、トランジスタのソースとドレインは、トランジスタの構造または動作条件等によって変わるためである。なおトランジスタのソースとドレインの呼称については、ソース(ドレイン)端子や、ソース(ドレイン)電極等、状況に応じて適切に言い換えることができる。
 また、本明細書等において「電極」や「配線」の用語は、これらの構成要素を機能的に限定するものではない。例えば、「電極」は「配線」の一部として用いられることがあり、その逆もまた同様である。さらに、「電極」や「配線」の用語は、複数の「電極」や「配線」が一体となって形成されている場合なども含む。
 また、本明細書等において、電圧と電位は、適宜言い換えることができる。電圧は、基準となる電位からの電位差のことであり、例えば基準となる電位をグラウンド電圧(接地電圧)とすると、電圧を電位に言い換えることができる。グラウンド電位は必ずしも0Vを意味するとは限らない。なお電位は相対的なものであり、基準となる電位によっては、配線等に与える電位を変化させる場合がある。
 また本明細書等において、ノードは、回路構成やデバイス構造等に応じて、端子、配線、電極、導電層、導電体、不純物領域等と言い換えることが可能である。また、端子、配線等をノードと言い換えることが可能である。
 本明細書等において、AとBとが接続されている、とは、AとBとが電気的に接続されているものをいう。ここで、AとBとが電気的に接続されているとは、AとBとの間で対象物(スイッチ、トランジスタ素子、またはダイオード等の素子、あるいは当該素子および配線を含む回路等を指す)が存在する場合にAとBとの電気信号の伝達が可能である接続をいう。なおAとBとが電気的に接続されている場合には、AとBとが直接接続されている場合を含む。ここで、AとBとが直接接続されているとは、上記対象物を介することなく、AとBとの間で配線(または電極)等を介してAとBとの電気信号の伝達が可能である接続をいう。換言すれば、直接接続とは、等価回路で表した際に同じ回路図として見なせる接続をいう。
 本明細書等において、スイッチとは、導通状態(オン状態)、または、非導通状態(オフ状態)になり、電流を流すか流さないかを制御する機能を有するものをいう。または、スイッチとは、電流を流す経路を選択して切り替える機能を有するものをいう。
 本明細書等において、チャネル長とは、例えば、トランジスタの上面図において、半導体(またはトランジスタがオン状態のときに半導体の中で電流の流れる部分)とゲートとが重なる領域、またはチャネルが形成される領域における、ソースとドレインとの間の距離をいう。
 本明細書等において、チャネル幅とは、例えば、半導体(またはトランジスタがオン状態のときに半導体の中で電流の流れる部分)とゲート電極とが重なる領域、またはチャネルが形成される領域における、ソースとドレインとが向かい合っている部分の長さをいう。
 なお本明細書等において、「膜」、「層亅などの語句は、場合によっては、または、状況に応じて、互いに入れ替えることが可能である。例えば、「導電層」という用語を、「導電膜」という用語に変更することが可能な場合がある。または、例えば、「絶縁膜」という用語を、「絶縁層」という用語に変更することが可能な場合がある。
C11:容量素子、C21:容量素子、R1:抵抗素子、Tr11:トランジスタ、Tr12:トランジスタ、Tr21:トランジスタ、Tr22:トランジスタ、Tr23:トランジスタ、10:文書検索システム、20:入力部、21:文章データ、21TB:表データ、30:処理部、40:記憶部、50:データベース、51:参照用文書データ、52:重み辞書データ、52TB:表データ、53:類似語検索データ、53TB:表データ、53TB_re:表データ、60:出力部、61:検索データ、61TB:表データ、62:検索データ、62TB:表データ、70:伝送路

Claims (16)

  1.  入力部と、データベースと、記憶部と、処理部と、を有し、
     前記データベースは、複数の参照用文書データと、重み辞書データと、類義語辞書データと、を記憶する機能を有し、
     前記処理部は、
     前記参照用文書データに基づいて、前記重み辞書データおよび前記類義語辞書データを生成する機能と、
     前記入力部に入力された文章データから文章解析データを生成する機能と、
     前記文章解析データに含まれる単語の中から検索ワードを抽出する機能と、
     前記検索ワードから、前記重み辞書データおよび前記類義語辞書データに基づいて、第1の検索データを生成する機能と、を有し、
     前記記憶部は、前記第1の検索データがユーザに修正されることで生成される、第2の検索データを記憶する機能を有し、
     前記処理部は、前記第2の検索データに応じて、前記類義語辞書データの更新を行う機能を有する、文書検索システム。
  2.  請求項1において、
     前記処理部は、
     前記参照用文書データから参照用文章解析データを生成する機能と、
     前記参照用文章解析データに含まれる単語の中から複数のキーワードおよび前記キーワードに対応する関連語を抽出する機能と、を有する、文書検索システム。
  3.  請求項2において、
     前記重み辞書データは、
     前記参照用文章解析データに含まれる単語の中から、前記キーワードの出現頻度を抽出し、
     前記キーワードのそれぞれに対して、前記出現頻度に応じた第1の重みを付与して生成されるデータである、文書検索システム。
  4.  請求項3において、
     前記第1の重みは、前記キーワードの、前記参照用文章解析データにおける逆文書頻度に基づいた値である、文書検索システム。
  5.  請求項2乃至4のいずれか一において、
     前記類義語辞書データは、
     前記関連語のそれぞれに対して、第2の重みを付与して生成されるデータである、文書検索システム。
  6.  請求項5において、
     前記第2の重みは、前記関連語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度または距離に基づいた値と、前記キーワードの前記第1の重みと、の積である、文書検索システム。
  7.  請求項6において、
     前記分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索システム。
  8.  請求項1乃至7のいずれか一において、
     前記処理部は、トランジスタを有し、
     前記トランジスタは、チャネル形成領域に金属酸化物を有する、文書検索システム。
  9.  請求項1乃至7のいずれか一において、
     前記処理部は、トランジスタを有し、
     前記トランジスタは、チャネル形成領域にシリコンを有する、文書検索システム。
  10.  複数の参照用文書データに基づいて、重み辞書データおよび類義語辞書データを生成し、
     文章データから文章解析データを生成し、
     前記文章解析データに含まれる単語の中から検索ワードを抽出し、
     前記検索ワードから、前記重み辞書データおよび前記類義語辞書データに基づいて、第1の検索データを生成し、
     前記第1の検索データがユーザに修正されることで生成される第2の検索データに応じて、前記類義語辞書データの更新を行い、
     前記第2の検索データに基づいて前記参照用文書データに点数を付与し、前記点数に基づいて複数の前記参照用文書データを順位づけすることで、ランキングデータを生成する、文書検索方法。
  11.  請求項10において、
     前記参照用文書データから参照用文章解析データを生成し、
     前記参照用文章解析データに含まれる単語の中から複数のキーワードおよび前記キーワードの関連語を抽出する、文書検索方法。
  12.  請求項11において、
     前記重み辞書データは、
     前記参照用文章解析データに含まれる単語の中から、前記キーワードの出現頻度を抽出し、
     前記複数のキーワードのそれぞれに対して、前記出現頻度に応じた第1の重みを付与して生成されるデータである、文書検索方法。
  13.  請求項12において、
     前記第1の重みは、前記キーワードの、前記参照用文章解析データにおける逆文書頻度に基づいた値である、文書検索方法。
  14.  請求項11乃至13のいずれか一において、
     前記類義語辞書データは、
     前記関連語のそれぞれに対して、第2の重みを付与して生成されるデータである、文書検索方法。
  15.  請求項14において、
     前記第2の重みは、前記関連語の分散表現ベクトルと前記キーワードの分散表現ベクトルとの類似度または距離に基づいた値と、前記キーワードの前記第1の重みと、の積である、文書検索方法。
  16.  請求項15において、
     前記分散表現ベクトルは、ニューラルネットワークを用いて生成されたベクトルである、文書検索方法。
PCT/IB2020/053578 2019-04-26 2020-04-16 文書検索システム、および文書検索方法 WO2020217140A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021515317A JPWO2020217140A1 (ja) 2019-04-26 2020-04-16
US17/600,280 US20220207070A1 (en) 2019-04-26 2020-04-16 Document search system and document search method
KR1020217037770A KR20220002394A (ko) 2019-04-26 2020-04-16 문서 검색 시스템 및 문서 검색 방법
CN202080029122.7A CN113711205A (zh) 2019-04-26 2020-04-16 文档检索系统及文档检索方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019084820 2019-04-26
JP2019-084820 2019-04-26

Publications (1)

Publication Number Publication Date
WO2020217140A1 true WO2020217140A1 (ja) 2020-10-29

Family

ID=72941325

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2020/053578 WO2020217140A1 (ja) 2019-04-26 2020-04-16 文書検索システム、および文書検索方法

Country Status (5)

Country Link
US (1) US20220207070A1 (ja)
JP (1) JPWO2020217140A1 (ja)
KR (1) KR20220002394A (ja)
CN (1) CN113711205A (ja)
WO (1) WO2020217140A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020144730A1 (ja) * 2019-01-07 2020-07-16 富士通株式会社 抽出方法、抽出プログラムおよび情報処理装置
JP7343311B2 (ja) * 2019-06-11 2023-09-12 ファナック株式会社 文書検索装置及び文書検索方法
TWI786011B (zh) * 2022-01-25 2022-12-01 旺宏電子股份有限公司 內容定址記憶體裝置、內容定址記憶體晶胞及其資料搜尋比對方法
KR102445443B1 (ko) * 2022-05-27 2022-09-20 (주)유알피시스템 문서내 키워드 추출 자동화 방법 및 시스템
KR102467307B1 (ko) * 2022-06-07 2022-11-16 (주)유알피시스템 딥러닝 기반 문서 검색을 위한 정확도 계산 시스템 및 정확도 계산 방법
CN116860951B (zh) * 2023-09-04 2023-11-14 贵州中昂科技有限公司 一种基于人工智能的信息咨询服务管理方法及管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342255A (ja) * 1992-06-11 1993-12-24 Hitachi Ltd 自然言語の構文情報を利用した文書検索方法および文書検索システム
JP2018206376A (ja) * 2017-05-31 2018-12-27 株式会社半導体エネルギー研究所 情報検索システム、知的財産情報検索システム、情報検索方法、及び知的財産情報検索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5994366B2 (ja) * 2012-04-27 2016-09-21 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
JP6674838B2 (ja) 2015-05-21 2020-04-01 株式会社半導体エネルギー研究所 電子装置
US10747758B2 (en) * 2016-04-29 2020-08-18 Rovi Guides, Inc. Methods and systems for identifying an information resource for answering natural language queries
US20190205382A1 (en) * 2017-12-29 2019-07-04 Facebook, Inc. Analyzing language units for personality

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342255A (ja) * 1992-06-11 1993-12-24 Hitachi Ltd 自然言語の構文情報を利用した文書検索方法および文書検索システム
JP2018206376A (ja) * 2017-05-31 2018-12-27 株式会社半導体エネルギー研究所 情報検索システム、知的財産情報検索システム、情報検索方法、及び知的財産情報検索方法

Also Published As

Publication number Publication date
CN113711205A (zh) 2021-11-26
KR20220002394A (ko) 2022-01-06
US20220207070A1 (en) 2022-06-30
JPWO2020217140A1 (ja) 2020-10-29

Similar Documents

Publication Publication Date Title
WO2020217140A1 (ja) 文書検索システム、および文書検索方法
JP6916941B2 (ja) 文書検索方法、文書検索システム、プログラム
US20210011956A1 (en) Information search system, intellectual property information search system, information search method, and intellectual property information search method
Rintyarna et al. Enhancing the performance of sentiment analysis task on product reviews by handling both local and global context
Zhang et al. A quantum-inspired sentiment representation model for twitter sentiment analysis
Pröllochs et al. Negation scope detection in sentiment analysis: Decision support for news-driven trading
CN111209738A (zh) 一种联合文本分类的多任务命名实体识别方法
Govindarajan Sentiment analysis of restaurant reviews using hybrid classification method
CN110033382B (zh) 一种保险业务的处理方法、装置及设备
Islam et al. Technical approach in text mining for stock market prediction: A systematic review
Mankolli et al. Machine learning and natural language processing: Review of models and optimization problems
Lan et al. Minimum description length recurrent neural networks
Wang et al. Named entity recognition (NER) for Chinese agricultural diseases and pests based on discourse topic and attention mechanism
Cheah Question Classification Using Extreme Learning Machine on Semantic Features.
Mahmoud et al. Hybrid attention-based approach for arabic paraphrase detection
Riduan et al. A Systematic Literature Review of Text Classification: Datasets and Methods
US20230368003A1 (en) Adaptive sparse attention pattern
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
US12019636B2 (en) Document search system, document search method, program, and non-transitory computer readable storage medium
JP2023076598A (ja) 情報検索の方法
Alharbi et al. Tourist reviews sentiment classification using deep learning techniques: A case study in saudi arabia
US20230350949A1 (en) Document Retrieval System and Method For Retrieving Document
WO2022090849A1 (ja) 読解支援システム及び読解支援方法
Kim et al. A 24.1 TOPS/W mixed-signal BNN processor in 28-nm CMOS
Wang Selected Topics in Deep Learning and Text Mining

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20795364

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021515317

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20217037770

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 20795364

Country of ref document: EP

Kind code of ref document: A1