WO2023195768A1 - 자연어 처리 기반의 유사도 판단을 통한 특허 문헌의 시각화 방법 및 이를 제공하는 장치 - Google Patents

자연어 처리 기반의 유사도 판단을 통한 특허 문헌의 시각화 방법 및 이를 제공하는 장치 Download PDF

Info

Publication number
WO2023195768A1
WO2023195768A1 PCT/KR2023/004592 KR2023004592W WO2023195768A1 WO 2023195768 A1 WO2023195768 A1 WO 2023195768A1 KR 2023004592 W KR2023004592 W KR 2023004592W WO 2023195768 A1 WO2023195768 A1 WO 2023195768A1
Authority
WO
WIPO (PCT)
Prior art keywords
core
similar
similarity
target
computer
Prior art date
Application number
PCT/KR2023/004592
Other languages
English (en)
French (fr)
Inventor
최인경
Original Assignee
주식회사 타날리시스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 타날리시스 filed Critical 주식회사 타날리시스
Publication of WO2023195768A1 publication Critical patent/WO2023195768A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/923Intellectual property
    • Y10S707/93Intellectual property intellectual property analysis
    • Y10S707/931Patent comparison

Definitions

  • the present invention relates to a method and device for providing patent document information through natural language processing of patent documents.
  • NLP Natural Language Processing
  • natural language processing methods are available to analyze embedded-based structured and unstructured documents. It is being designed (Korea Registered Patent Publication 10-2342055 (2021.12.17)).
  • the purpose of the present invention is to propose a method of providing patent analysis results through a neural network model learned from patent data and patent judgment data from the Korean Intellectual Property Office or court.
  • the purpose of the present invention is to provide an interface that inputs the user's condition settings for patent analysis and outputs the result of the analysis.
  • the purpose of the present invention is to propose a method of diagramming patent analysis results and providing them to users.
  • the first panel preferably includes extraction criteria for each core for extracting similar patents.
  • the first panel preferably includes similar patents and weights for determining similarity.
  • the second panel includes results according to the core-specific extraction criteria for extracting the similar patents.
  • the interface further includes a third panel that provides paragraph information corresponding to each core of the target patent or similar patent.
  • the interface further includes a third panel that provides a validity determination result based on the core-specific comparison of similar patents extracted from the target patent.
  • the third panel provides statistical validity scores of the target patent.
  • the third panel preferably provides a position in the distribution of the validity score of the patent for which the target patent was previously determined to be valid or the validity score for the patent for which the target patent was judged invalid, according to the validity score of the target patent.
  • the interface includes a fourth panel that maps and provides feature vectors of the target patent or similar patents in a feature space.
  • the first feature vector of the target patent and the second feature vector of the similar patent have a distance in the feature space corresponding to the degree of similarity calculated for the target patent and the similar patent.
  • Information generated based on a 1-1 text similar to the core, and the 1-2 core mapping information is generated based on a 1-2 text similar to the second core among the texts of the first similar document. desirable.
  • the similarity of the 1-1 text with the first core among the texts of the first similar document is greater than or equal to a first threshold.
  • the similarity of the 1-2 text with the second core among the texts of the first similar document is greater than or equal to a second threshold value that is smaller than the first threshold value.
  • the first and second cores are preferably extracted from the claims of the target patent.
  • a computer-implemented method according to the present invention for solving the above technical problem includes displaying a third core of the target patent; and displaying 1-3 core mapping information of the first similar document, wherein the 1-3 core mapping information is 1-3 text similar to the third core among the texts of the first similar document. It is desirable that the information is generated based on .
  • the 1-1 core mapping information is displayed at a first location corresponding to the first core
  • the 1-2 core mapping information is preferably displayed at a second location corresponding to the second core.
  • the first and second cores and the 1-1 and 1-2 core mapping information are arranged in a matrix form, the first and second cores are arranged in a first row, and the 1-1 and 1-2 cores are arranged in a matrix form.
  • -2 Core mapping information is preferably placed in the second row.
  • the first text is provided in plurality, and the 1-1 core mapping information includes the number of the plurality of first texts, the average similarity of the 1-1 texts with the first core, and the plurality of first texts.
  • the -1 texts it is desirable to include at least one of the similarities of the 1-1 text that is most similar to the first core.
  • the color of the 1-1 core mapping information is determined by the number of first texts, the average similarity of the 1-1 texts with the first core, and the most common similarity with the first core among the plurality of 1-1 texts. It is preferable that the decision is made based on at least one of the maximum similarities of the similar 1-1 text.
  • the 2-1 core mapping information is the second core mapping information among the text of the second similar document. It is information generated based on a 2-1 text similar to the core, and the 2-2 core mapping information is information generated based on a 2-2 text similar to the second core among the texts of the second similar document. It is desirable to be
  • first core mapping statistics based on the 1-1 core mapping information and the 2-1 core mapping information displaying first core mapping statistics based on the 1-1 core mapping information and the 2-1 core mapping information; and displaying second core mapping statistics based on the 1-2 core mapping information and the 2-2 core mapping information.
  • the target similarity and the first average similarity are calculated by the same algorithm or neural network model.
  • the rating standard further includes a second reference value, wherein the second reference value is a second average similarity that is the average similarity between applications or patents with inventive step defects and inventive step cited documents of the applications or patents, and the second reference value is The average similarity is preferably smaller than the first average similarity.
  • the rating criterion includes at least one of third, fourth, and fifth criteria, wherein the third criterion is a third average similarity, which is the average similarity between the applications and the IDS documents submitted at the time of filing of the applications, The third average similarity is smaller than the second average similarity, and the fourth reference value is the documents excluding the novelty cited documents, the inventive step cited documents, and the IDS documents among the documents in the technical field of the target document and the The fourth average similarity is the average similarity with the target document, the fourth average similarity is smaller than the second average similarity, and the fifth reference value is the average similarity between the target document and documents outside the technical field of the target document. It is the fifth average similarity, and the fifth average similarity is preferably smaller than the second average similarity.
  • the target effectiveness score and the first average effectiveness score are calculated by the same algorithm or neural network model.
  • the target validity score is preferably determined based on the similarity score between the target document and the similar documents.
  • the rating standard further includes a second reference value, wherein the second reference value is a second average validity score that is the average validity score of applications that have not been rejected or patents that have not been invalidated, and the second average validity score is the first average validity score. A higher than average effectiveness score is desirable.
  • the first average validity score is preferably the average validity score of applications lacking novelty.
  • the rating standard further includes a second reference value, wherein the second reference value is a second average validity score that is the average validity score of applications or patents with inventive step defects, and the second reference value is preferably lower than the first reference value. do.
  • users can easily request analysis of patent documents by providing an interface in the form of a GUI for entering patent information to be analyzed.
  • the present invention provides a visualization of the analysis results according to the entered user conditions, enabling easy and quick understanding of the results.
  • the present invention can provide results more quickly by providing analysis results using a learned neural network model.
  • FIG. 1 is a conceptual diagram showing a patent document analysis service according to an embodiment of the present invention.
  • Figure 2 is a flowchart showing a method of providing patent document analysis results according to an embodiment of the present invention.
  • Figures 3 and 4 are exemplary diagrams showing the configuration of an interface for receiving a patent document analysis request according to an embodiment of the present invention.
  • Figure 5 is a flowchart showing a method of providing patent document analysis results through an interface according to an embodiment of the present invention.
  • Figure 6 is a block diagram showing the database configuration of a server according to an embodiment of the present invention.
  • FIG. 7 to 16 are exemplary diagrams showing an interface configuration according to an embodiment of the present invention.
  • Figure 17 is a block diagram showing the hardware configuration of a server that provides patent document analysis results according to an embodiment of the present invention.
  • FIG. 1 is a diagram illustrating a patent document analysis service system that provides results of determining similarity between patent documents according to an embodiment of the present invention.
  • the system includes a user 10 entering query information including target patent document information to be analyzed through the user terminal 100, and the query information entered by the user 10. It may be comprised of a server 300 that extracts and provides corresponding similar patent document information.
  • the server 300 may provide an interface for inputting the user's query information as a graphic user interface (GUI) through the display device of the user terminal 100, and the user may use the various interfaces provided through the GUI. You can input query information using interface elements.
  • GUI graphic user interface
  • the user 10 inputs target patent document information as query information through a text input interface and additionally searches for information on the core structure of the target patent and its critical number of appearances (frequency), critical similarity, or weights. It can be set as a condition.
  • the server 300 extracts information on documents from a database that manages patent documents through the input query information, and generates similar patent document information by determining the degree of similarity with previous patents using a learned neural network model. can do.
  • the neural network model can calculate a similarity score by extracting an embedding vector corresponding to a patent document from a database that manages embedding vectors pre-extracted for patent documents and inputting it into a pre-trained similarity model.
  • the neural network model according to this embodiment is dualized into an embedding model that directly includes an embedding model that extracts the meanings inherent in the text of patent documents based on natural language processing, and a similarity judgment model that calculates similarity through the output of the embedding model. It is also possible to implement it in a structured structure. Therefore, the neural network model is also capable of calculating similarity by comparing the core configuration information selected by the user for the target patent document with prior patent documents in real time.
  • this embodiment illustrates a method of extracting and displaying similar prior patent documents based on query information
  • prior patent documents are interpreted as prior documents in a broad sense and are non-patent documents, such as papers published in academic societies or archives (arxiv). It can include various text documents posted on web communities such as technical data and GitHub. Therefore, the collected various technical data can be used to extract documents similar to the query patent document by using them as one prior art document based on the date or time of publication and managing them in a database described later.
  • the server 300 provides similar patent document information determined with respect to the query information of the user 10 through the above process to the user terminal 100.
  • the provided similar patent document information is also provided to the user 10 through the GUI, so that the user 10 can intuitively check the patentability of the target patent compared to similar patent documents.
  • the user 10 can input query information for searching similar patent documents through the GUI provided on the display device of the user terminal 100 (S10).
  • Query information is an identification value of the target patent document that serves as a standard for extracting similar patent documents and may include information to identify the patent, such as the patent application (or publication or registration) number or the title of the invention. there is.
  • the server 300 may extract target patent documents corresponding to the input query information from the DB and provide the target patent document information to the user terminal 100 to set search conditions (S20).
  • Steps S20 and S30 are optional steps and at least one of the two steps can be omitted.
  • the server 300 extracts the target patent document from the DB and displays the content on the display of the user terminal 100 as the GUI 102. can be provided.
  • the provided GUI 102 may be divided into at least two panels, and the first panel 102b provides claims of the target patent document so that the user 10 can select elements from the claims.
  • the first panel 102b a detailed description of the target patent document is provided so that the user 10 can select an element from the detailed description.
  • the claims of the target patent document can be set as the keyword for the search. It can be provided through the first panel 102b.
  • the second panel 102c is adjacent to the first panel 102b and can extract and provide the content of the specification text of the target patent document corresponding to the claim element selected by the user.
  • the provided specification body contents can be provided by dividing them based on paragraphs containing sentences similar to the claim elements, and the selected elements and similarity judgment results for each paragraph can be provided together.
  • the second panel 102c is adjacent to the first panel 102b and may extract and provide the content of the specification text of the target patent document corresponding to the detailed description element selected by the user.
  • the content of the specification text provided at this time can be provided separately based on paragraphs containing sentences similar to the detailed description components, and the selected components and similarity judgment results for each paragraph can be provided together.
  • the user sets search conditions by referring to the second panel and the specification paragraph containing the elements of the claims or detailed description and the detailed description of the elements in the first panel (S30).
  • the components selected by the user through the claims or detailed description can be designated as a core that defines key keywords (words, phrases, or sentences) for search and are displayed on the first panel in the order of designation ( 102b).
  • keywords can be set in units of not only words but also phrases or clauses composed of two or more words.
  • the number of appearances can be counted based on the set keyword by setting it to a sentence or a paragraph consisting of sentences.
  • designation of the core can also be performed by dynamically dividing claims into configurations according to a predetermined algorithm within the server.
  • the composition of the claims can be divided based on semicolons (;) and set to the core.
  • the neural network model it is possible for the neural network model to automatically specify the core by dividing the composition of the claim into each semantic unit through a learned natural language processing-based neural network model.
  • the user can provide an element 102b-1 that provides summarized information for each core and a button element 102b-2 that can set a weight indicating importance when searching for similar patents.
  • the core may have a designated color to distinguish it from other cores, and a menu element 102f that allows the user to select a color for the content of the core provided in the second panel 102c may be provided. You can.
  • the server 300 may provide similar patent document information by displaying paragraphs containing words, phrases, or sentences in the patent document determined to be similar in the color of the corresponding core (S40).
  • the server 300 may extract target patent document information from the query information and search condition setting information entered by the user through the GUI 102 as described above (S100).
  • the target patent document's application (or publication or registration) number or invention name is used to extract the target patent document from the patent document DB, and retrieve the extracted target patent document information It can be provided to the user to additionally input search condition setting information such as the keyword (word, phrase, or sentence) for the search, the critical number of appearances, critical similarity, or weight.
  • the search condition setting information may include display information such as colors for displaying cores and paragraphs similar to the core set by the user from patent claims or provided by the server.
  • date information such as the priority date (application date) of the target patent may be included, and therefore the server 300 can set search conditions to search for patents before that date.
  • a patent classification system representing the technical field of the invention, such as IPC (International Patent Classification) or CPC (Cooperative Patent Classification), is entered as a search condition and prior patent documents for that condition are searched. Or, you can compare them first.
  • IPC International Patent Classification
  • CPC Cooperative Patent Classification
  • the server 300 uses the input query information and search condition setting information to extract prior patent documents to calculate similarity with the target patent document.
  • the server 300 receives document and sentence embedding vectors for each of the extracted patent documents from the embedding vector DB (S200).
  • the document embedding vector is a value that embeds the meaning of the entire patent document and can have a unique value for each document, and the sentence embedding vector embeds the meaning of each unit of each sentence or paragraph in the patent document.
  • One vector can be created with multiple values depending on the size or composition of the patent document.
  • the server 300 calculates the global similarity through the document embedding vector of the target patent document and the document embedding vector of previous patent documents, and at the same time compares the similarity between each element of the patent document through the sentence embedding vector to determine the similarity at the sentence level. Calculate .
  • the server 300 includes a patent document DB 312 for extracting prior patent documents, a first embedding vector DB 314 that manages the first embedding vectors in document units for each patent, and a patent document DB 312 in sentence units. It may be configured to include a second embedding vector DB 316 that manages second embedding vectors for each patent.
  • the database according to this embodiment may be composed of a patent document DB 312, a first embedding vector DB 314, and a second embedding vector DB 316, and the database 310 stores the values in each DB as the patent.
  • Identification information can be managed as a unique index, and thus each value corresponding to the patent identification information in the input query information can be extracted and used to determine similarity.
  • Identification information of prior patent documents to be compared with the target patent document according to the search conditions in the query information can also be extracted from the patent document DB 312, and the patent application (or publication or registration) number of the prior patents is used as the identification information of the prior patent documents.
  • the first embedding vector of the prior patent documents can be extracted from the first embedding vector DB 314, or the second embedding vector can be extracted from the second embedding vector DB 316.
  • the above embedding vectors can be generated in advance through an embedding model and managed in the DB.
  • the server 300 calculates the degree of similarity between patent documents based on the extracted first and second embedding vectors (S300).
  • the similarity determination model implements a model network that sequentially determines similarity using embedding vectors hierarchically extracted for the document-sentence structure, and it is also possible to calculate the similarity.
  • a second set of prior patent documents having a similarity greater than a threshold is obtained through the first similarity between the prior patent document and the target patent document in the first candidate patent document list extracted from the patent document DB 312 according to the search conditions in the query information.
  • a candidate patent list is extracted, and then a second embedding vector for the corresponding patent is extracted from the second embedding vector DB 316 in order to calculate the sentence-level similarity between the query document and the preceding patent documents in the second candidate patent list.
  • a second similarity is calculated based on a second embedding vector set consisting of a second embedding vector pair between the target patent document and the prior patents in the second candidate patent list, and the second candidate patent document list is calculated through the calculated second similarity.
  • the similar patent document information may include mapping information that is the basis for determining similarity in addition to the identification value of the similar patent document.
  • Mapping information is information about sentences in similar patent documents that are similar to sentences in the target patent document. For example, the mapping information may be generated for each core based on the text of a prior patent document that is most similar to the first or second core of the target patent document. You can.
  • it may include a text with a similarity to the first core greater than a threshold among texts from similar prior patent documents and judgment information about the location and similarity thereof, and the mapping information is provided in a GUI along with the calculated similarity judgment results. can do.
  • the threshold for extracting the text of prior patent documents may be set for each core.
  • the threshold for the second core may be set to a value smaller than the threshold set for the first core, and based on this, the threshold for the second core may be set to a value smaller than the threshold set for the first core. Texts with similarity greater than the 2 threshold can be extracted from prior patent documents.
  • the threshold for extracting the text of prior patent documents may be set for each core.
  • the threshold for the second core may be set to a value greater than the threshold set for the first core, and based on this, Texts with similarity greater than the 2 threshold can be extracted from prior patent documents.
  • Similar patent document information provided by the server 300 according to this embodiment can be provided through the GUI 102 divided into the above-described first panel 102b and second panel 102c. there is.
  • each panel is implemented in the form of a matrix, dividing each document into rows, but can provide the core of the target patent document and mapping information corresponding to the core by dividing it into columns.
  • the first panel 102b provides summary information between the target patent document and the extracted similar patent document, and the second panel 102c can statistically provide the similarity determination result.
  • the first panel 102b is divided into three sub-panels: a 1-1 panel 102h that provides summary information of the target patent document information, a 1-2 panel 102i that provides summary information of similar patent documents, and It may consist of 1-3 panels 102j that provide mapping information within the feature space of similar patent documents.
  • the second panel 102c is divided into three sub-panels: a 2-1 panel 102k that provides statistical information of the similarity judgment results, a 2-2 panel 102l that provides a summary of the similarity judgment results by core, and a target panel 102l. It may consist of 2-3 panels (102m) that provide statistical information on all prior patents in the patent's related technical field.
  • the 1-1 panel 102h can summarize the target patent as the target patent document and provide visual information about search conditions, etc.
  • the summary information of the target patent includes the document number of the target patent and an element ranking the validity/invalidity judgment result (102h-6), the core entered as search condition setting information (102h-1), and the importance of the core. It may include a graded color element (102h-4) representing the weight represented.
  • critical number of occurrences (102h-2) and critical similarity information (102h-3) of paragraphs (sentences) corresponding to the core can be summarized and displayed as critical information for extracting similar patents set by the user for each core.
  • the set threshold information for extracting similar patents acts as a filter for extracting text, but the threshold similarity information may be determined based on the average or maximum similarity.
  • the location information of paragraphs similar to each core in the target patent is provided in the GUI as a scaled element (102h-5) based on the size of the entire target patent using a horizontal slider, allowing users to intuitively see the appearance of cores in the target patent. Helps determine location and frequency and recognize importance.
  • the 1-2 panel 102i provides summary information to the user in the same format for extracted similar patents, thereby enabling intuitive recognition.
  • the 1-2 panel 102i displays a list of similar patents.
  • the similar patent list may display similar patents sorted based on similarity to the target patent and information about their similarity (e.g., similarity grade displayed in alphabet, similarity score, interface element 102i-4). . Similarity may be a value inferred through a similarity judgment model provided in the server.
  • the first and second panels 102i display a document number, a similarity score (62), a grade (A), and a paragraph corresponding to the core of the target patent.
  • the positions can be scaled by color and provided as a landscape-type interface element 102i-4.
  • the number of appearances and similarity of paragraphs (sentences) corresponding to the core are provided as elements 102i-1 divided by core.
  • the number of texts in the similar patent document with a similarity higher than the threshold corresponding to the third core of the target patent document is 29, and the average similarity calculated through this is 71. Calculation can be indicated by each element (102i-2,3). Alternatively, it is also possible to display the maximum similarity value of the most similar text for each core instead of the average similarity.
  • the similarity level for each core is provided in step-by-step colors, allowing users to determine which core each similar patent document is highly relevant to.
  • the color may be determined using any one of the number, average similarity, or maximum similarity.
  • the 1-3 panel 102j can display the embedding results of the target patent document and similar patent documents by mapping them to a vector space.
  • the user 10 can intuitively recognize a patent as having higher relevance as the distance is closer through the positional relationship between each patent document in the feature space based solely on the mapping results, and conversely as a patent having lower relevance as the distance increases.
  • mapping results within the feature space are displayed by color-coded clusters by mapping and technology classification of all patents in the patent document DB, allowing indirect recognition of relevance through technology classification of similar patent documents.
  • the distance within the feature space of the embedding vectors (102j-1, 2) between both documents can be used as a basis for explaining the similarity.
  • the user may set the critical distance within the feature space as an additional search condition instead of setting the critical similarity during the above-described search condition setting process.
  • the 2-1 panel 102k within the second panel 102c can statistically provide a result of determining the validity of the target patent document through the valid patent document.
  • the 2-1 panel 102k displays statistical values of validity scores (e.g. The standard values set based on the average value of the effectiveness score and the grade interval defined by the standard values can be displayed.
  • the validity score can be calculated using a list of similar patents.
  • the validity score can be calculated by normalizing the sum of the similarities of similar patents listed in the similar patent list.
  • the server 300 provides a first average validity score of the validity scores of applications that have not been rejected as valid patent documents or patents that have not been invalidated, and a second average validity score of the validity scores of applications that have been rejected as invalid patents or patents that have been invalidated. Based on the score, the position in the distribution graph can be provided as an element (102k-1) so that the section to which the validity score of the target patent falls can be determined.
  • the average validity score of 41,322 invalid patents is 32 points and the average validity score of 12,348 valid patents is 87 points
  • 32 points or less is the low validity interval
  • the high effectiveness interval and the interval in between are the validity intervals.
  • results in this normal interval it is not limited to this, and more grade intervals can be defined as shown in 102k using 32 points and 87 points.
  • the 2-2 panel 102l can statistically analyze and provide the similarity determination result for each core of the target patent. That is, if the 2-1 panel 102k provides the validity level of the patent, the 2-2 panel 102l can provide the effectiveness level for each core, the position in the overall distribution, and the similarity score.
  • panel 2-2 for each core, the frequency (frequency) of similar sentences (or words or phrases) having a value higher than the threshold similarity with the core in similar patent documents, the average similarity score, and the validity score.
  • An element (102l-1) that provides position/grade results within the distribution may be included, and an element (102l-2) that directly displays the contents of the core allows the user 10 to determine the contents of the core.
  • the user 10 may determine that the effectiveness of a specific core among the cores is low or may recognize that additional analysis of the core is necessary.
  • the 2-3 panel 102m can provide a statistical distribution of the entire prior patent list extracted in the similarity determination process.
  • similar patent documents can be extracted using vectors embedded step by step according to the structure of the patent documents, so in this embodiment, similar patent documents can be extracted through a set of prior patents filtered first or second. Global statistical results can be obtained.
  • the criteria for determining the grade can be determined according to the technology classification. For example, through the IPC code of the target patent, the similarity is divided into 5 levels for all prior patents with the same IPC code, and the prior patent list is distributed according to the similarity score. can be provided as one element (102m-2).
  • the standard value for classifying the stages can refer to the examiner's judgment results of previous patents with the same IPC code.
  • grade S is a violation of novelty as a result of patent examination within the IPC code G06F technology field (Article 29 of the Korean Patent Act).
  • Paragraph 1, Article 102 of the U.S. Patent Act) can be distinguished by the average of the similarity judgment results between the novelty cited documents used as reference and the patent documents subject to examination.
  • the results of determining the similarity between patents in the patent literature DB are used as a grading standard.
  • grade B or lower the examination results are not directly cited in the patentability judgment, but are submitted by the applicant, such as IDS (Information Disclosure). If it is used as a reference according to the Statement) system, etc., it can be used as a grading standard.
  • Grade C can be used as a standard by extracting the average of mutual similarities between specific pairs of documents within the technology classification, and documents used to determine the standard for Grade B described above can be excluded.
  • the average similarity between the target document and documents outside the technical field of the target document can be used as the standard value.
  • the user 10 can determine the possibility of occurrence or invalidity of reasons for rejection for violation of novelty or inventive step through prior patents in the target patent document.
  • the above-mentioned panel 2-3 shows the statistical distribution of the top prior patent lists extracted in the process of determining the similarity of the target document (this patent) and the specific prior patents (for example, US1,111,111). It can also be implemented as a visual element (102m') that provides comparison of the statistical distribution of the top prior patent lists.
  • the visual element 102m' according to FIG. 14b is implemented in parallel with the validity rating result element 102'k of the patent provided as the 2-1 panel 102k of FIG. 13 described above to provide the user with can be provided.
  • the panels within the GUI 102 can be adjusted in position or size depending on the size of the display device of the user terminal or the user's needs, and the interface elements within the panel can also dynamically react to change the displayed contents. You can.
  • the second panel 102c may provide content in an integrated area for a detailed view of the similar patent document selected in the first panel 102h and 102i.
  • paragraphs containing sentences with the highest similarity for each core of the target patent document are provided by dividing them into each element (102p) on the second panel. You can. The user 10 can directly compare the core of the target patent document with the extracted paragraphs of similar patent documents to determine whether they are similar.
  • the element (102p) can provide the similarity rating for each core, the position and frequency in the distribution, and the average similarity. For example, for Core 1, 12,351 sentences were extracted with a threshold similarity or higher, so a menu where you can view the corresponding paragraphs additionally.
  • a button element (102p-1) can be provided.
  • the second panel can provide a list of paragraphs of two similar patent documents selected through horizontal division (102c-1, 102c-2) according to the degree of similarity. Therefore, the user can simultaneously compare paragraphs of major similar patent documents for each core of the target patent and determine eligibility for citation references for inventive step violations by determining whether the technical ideas of the paragraphs are in common and the possibility of combination.
  • first panel 102b (102h, 102i), whose area is reduced as the second panel 102c is expanded, can provide a summary of dynamically displayed information.
  • the 1-1 and 1-2 panels (102h, 102i) provide a summary of the similarity judgment results between the target patent document and similar patent documents, and provide the color of the core to identify the core of the target patent document as minimum information.
  • the frequency count of paragraphs corresponding to the color of the core of the similar patent document the user can select the similar patent document to be compared.
  • the server 300 may be implemented in the form of a computing device.
  • Each module constituting the server 300 is implemented on a general-purpose computing processor, and thus includes a processor 308, an input/output I/O 302, a memory 304, and an interface. It may include 306, storage 312, and bus 314.
  • the processor 308, input/output I/O 302, memory device 304, and/or interface 306 may be coupled to each other through a bus 314.
  • the bus 314 corresponds to a path through which data moves.
  • the processor 308 includes a Central Processing Unit (CPU), Micro Processor Unit (MPU), Micro Controller Unit (MCU), Graphic Processing Unit (GPU), microprocessor, digital signal processor, microcontroller, and application processor (AP). , application processor) and logic elements capable of performing similar functions.
  • CPU Central Processing Unit
  • MPU Micro Processor Unit
  • MCU Micro Controller Unit
  • GPU Graphic Processing Unit
  • microprocessor digital signal processor
  • microcontroller microcontroller
  • AP application processor
  • application processor application processor
  • the input/output I/O device 302 may include at least one of a keypad, keyboard, touch screen, and display device.
  • the memory device 304 may store data and/or programs.
  • the interface 306 may perform the function of transmitting data to or receiving data from a communication network.
  • Interface 306 may be wired or wireless.
  • the interface 306 may include an antenna or a wired or wireless transceiver.
  • the memory device 304 is an operating memory for improving the operation of the processor 308 and may further include high-speed DRAM and/or SRAM.
  • Internal storage 312 stores programming and data configurations that provide the functionality of some or all modules described herein. For example, it may include logic to perform selected aspects of the similarity determination method described above.
  • the memory device 304 loads a program or application with a set of instructions including each step of performing the above-described visualization method through similarity judgment stored in the storage 312 and allows the processor to perform each step.
  • users can easily request analysis of patent documents by providing a user interface for entering patent information to be analyzed.
  • the present invention provides a visualization of the analysis results according to the entered user conditions, enabling easy and quick understanding of the results.
  • the present invention can provide results more quickly by providing analysis results using a learned neural network model.
  • various embodiments described herein may be implemented in a recording medium readable by a computer or similar device, for example, using software, hardware, or a combination thereof.
  • the embodiments described herein include application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), and field programmable gate arrays (FPGAs). It may be implemented using at least one of processors, controllers, micro-controllers, microprocessors, and other electrical units for performing functions. In some cases, as described herein, The described embodiments may be implemented as a control module itself.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • embodiments such as procedures and functions described in this specification may be implemented as separate software modules.
  • Each of the software modules may perform one or more functions and operations described herein.
  • Software code can be implemented as a software application written in an appropriate programming language.
  • the software code may be stored in a memory module and executed by a control module.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 특허 문헌의 자연어 처리를 통해 특허 문헌 정보를 제공하는 방법 및 장치에 관한 것이다. 본 발명에 따른 컴퓨터로 구현되는 특허 문헌의 시각화 방법은 대상 특허 정보를 입력 받는 단계; 및 입력된 대상 특허로부터 추출된 적어도 하나의 구성 정보를 정의하는 코어를 결정된 색상에 따라 구분하는 제1 패널, 그리고 상기 대상 특허의 유사 특허에 대한 유사도 판단 결과를 상기 결정된 색상에 따라 구분하는 제2 패널을 포함하는 사용자 인터페이스가 디스플레이되게 하는 단계를 포함한다. 본 발명에 따르면, 분석하고자 하는 특허 정보를 입력할 수 있는 인터페이스를 GUI 형태로 제공함으로써 사용자들이 용이하게 특허 문헌의 분석을 요청할 수 있다.

Description

자연어 처리 기반의 유사도 판단을 통한 특허 문헌의 시각화 방법 및 이를 제공하는 장치
본 발명은 특허 문헌의 자연어 처리를 통해 특허 문헌 정보를 제공하는 방법 및 장치에 관한 것이다.
4차 산업혁명에 따라 지식재산에 대한 중요성은 증대되고 있으며 기업들은 R&D에 적극적인 투자를 통해 다양한 사업 판로들을 개척하고 있다.
R&D의 산물로서 기업들은 국내외 특허를 통해 기술 장벽을 마련하여 자기 기술들을 보호하고자 노력하며 이와 동시에 특허 소송을 통해 사업 영역을 확보하거나 특허 회피 설계를 통해 사업 안정성을 확보하고자 노력하고 있다.
융합 기술들이 발달하는 4차 산업의 특징 상 중첩되는 기술 간 분쟁은 날로 증가하고 있으며, 특허 소송에 이용되는 비용 역시 기업의 영역 이익을 초과할 정도의 높은 수준으로 증가함에 따라 특허의 가치는 점차 증가하고 있다.
그럼에도 불구하고 현재의 높은 R&D 투자 비용 대비 전문성을 요구하는 특허의 활용도는 낮은 실정이며, 실제 산업에 활용되지 못하는 부실특허로 인한 경제적 손실 규모가 연간 약 2조원, 미국은 연간 28조원 정도의 규모로 손실이 발생되고 있다.
최근 급속도로 발달하고 있는 인공지능 기술들은 자연어 처리 분야(NLP(Natural Language Processing))에 대해서도 다양한 분석 알고리즘들이 제공되고 있으며 임베딩 기반의 정형성과 비정형성을 가진 문서들을 분석할 수 있는 다양한 자연어 처리 방법들이 고안되고 있다(한국 등록 특허 공보 10-2342055 (2021.12.17)).
이에 따라 형식적인 요구사항 및 관습적인 표현에 따라 특징적인 구조를 갖는 특허 문헌에 대해서도 보다 전문화된 분석으로 특허 문헌 정보를 사용자에게 제공할 수 있는 방법이 요구될 수 있다.
본 발명은 특허 데이터 및 특허청 또는 법원의 특허 판단 자료를 학습한 신경망 모델을 통한 특허 분석 결과를 제공하는 방법을 제안하는 것을 목적으로 한다.
본 발명은 특허 분석을 위한 사용자의 조건 설정 입력과 그에 따른 분석 결과를 출력하는 인터페이스를 제공하는 것을 목적으로 한다.
또한, 본 발명은 특허 분석 결과를 도식화하여 사용자에게 제공하는 방법을 제안하는 것을 목적으로 한다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 컴퓨터로 구현되는 특허 문헌의 시각화 방법은 대상 특허 정보를 입력 받는 단계; 및 입력된 대상 특허로부터 추출된 적어도 하나의 구성 정보를 정의하는 코어를 결정된 색상에 따라 구분하는 제1 패널, 상기 대상 특허의 유사 특허에 대한 유사도 판단 결과를 상기 결정된 색상에 따라 구분하는 제2 패널을 포함하는 사용자 인터페이스가 디스플레이되게 하는 단계를 포함한다.
상기 제1 패널은 유사 특허의 추출을 위한 상기 코어 별 추출 기준을 포함하는 것이 바람직하다.
상기 제1 패널은 유사 특허와 유사도 판단의 가중치를 포함하는 것이 바람직하다.
상기 제2 패널은 상기 유사 특허의 추출을 위한 상기 코어 별 추출 기준에 따른 결과를 포함한다.
상기 인터페이스는 대상 특허 또는 유사 특허의 상기 코어 별 대응되는 단락 정보를 제공하는 제3 패널을 더 포함한다.
상기 인터페이스는 대상 특허로부터 추출된 유사 특허의 상기 코어 별 비교에 따른 유효성 판단 결과를 제공하는 제3 패널을 더 포함한다.
상기 제3 패널은 상기 대상 특허의 유효성 점수를 통계화하여 제공하는 것이 바람직하다.
상기 제3 패널은 상기 대상 특허의 유효성 점수에 따라 상기 대상 특허의 상기 과거 유효 여부가 판단된 특허의 유효성 점수 또는 무효 여부가 판단된 특허의 유효성 점수의 분포 상 위치를 제공하는 것이 바람직하다.
상기 인터페이스는 대상 특허 또는 유사 특허의 특징 벡터를 특징 공간 내 매핑하여 제공하는 제4 패널을 포함한다.
상기 대상 특허의 제1 특징 벡터와 상기 유사 특허의 제2 특징 벡터는 상기 대상 특허와 유사 특허에 대하여 산출된 유사도에 대응하는 상기 특징 공간 내 거리를 갖는 것이 바람직하다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 컴퓨터로 구현되는 방법은 대상 특허의 제1 및 제2 코어를 표시하는 단계; 상기 대상 특허와 유사한 제1 유사문헌을 표시하는 단계; 및 상기 제1 유사문헌의 제1-1 코어 매핑 정보 및 제1-2 코어 매핑 정보를 표시하는 단계를 포함하고, 상기 제1-1 코어 매핑 정보는 상기 제1 유사 문헌의 텍스트 중 상기 제1 코어와 유사한 제1-1 텍스트를 근거로 생성된 정보이며, 상기 제1-2 코어 매핑 정보는 상기 제1 유사 문헌의 텍스트 중 상기 제2 코어와 유사한 제1-2 텍스트를 근거로 생성된 것이 바람직하다.
상기 제1-1 텍스트는 상기 제1 유사 문헌의 텍스트 중 상기 제1 코어와의 유사도가 제1 임계값 이상인 것이 바람직하다.
상기 제1-2 텍스트는 상기 제1 유사 문헌의 텍스트 중 상기 제2 코어와의 유사도가 상기 제1 임계값 보다 작은 제2 임계값 이상인 것이 바람직하다.
상기 제1 및 제2 코어는 상기 대상 특허의 청구항에서 추출된 것이 바람직하다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 컴퓨터로 구현되는 방법은 상기 대상 특허의 제3 코어를 표시하는 단계; 및 상기 제1 유사문헌의 제1-3 코어 매핑 정보를 표시하는 단계를 포함하고, 상기 제1-3코어 매핑 정보는 상기 제1 유사 문헌의 텍스트 중 상기 제3 코어와 유사한 제1-3텍스트를 근거로 생성된 정보인 것이 바람직하다.
상기 제1-1 코어 매핑 정보는 상기 제1 코어에 대응되는 제1 위치에 표시되며,
상기 제1-2 코어 매핑 정보는 상기 제2 코어에 대응되는 제2 위치에 표시되는 것이 바람직하다.
상기 제1 및 제2 코어들 및 상기 제1-1 및 1-2 코어 매핑 정보는 행렬형태로 배열되며, 상기 제1 및 제2 코어는 제1 행에 배치되고, 상기 제1-1 및 1-2 코어 매핑 정보는 제2 행에 배치되는 것이 바람직하다.
상기 제1 텍스트는 복수로 제공되며, 상기 제1-1 코어 매핑 정보는 복수의 상기 제1 텍스트들의 개수 및 상기 제1-1 텍스트들의 상기 제1 코어와의 평균 유사도, 및 상기 복수의 제1-1 텍스트들 중 상기 제1 코어와 가장 유사한 제1-1 텍스트의 유사도 중 적어도 어느 하나를 포함하는 것이 바람직하다.
상기 1-1 코어 매핑 정보의 색상은 상기 제1 텍스트들의 개수 및 상기 제1-1 텍스트들의 상기 제1 코어와의 평균 유사도, 및 상기 복수의 제1-1 텍스트들 중 상기 제1 코어와 가장 유사한 제1-1 텍스트의 최대 유사도 중 적어도 어느 하나를 근거로 결정되는 것이 바람직하다.
상기 개수, 평균 유사도, 및 최대 유사도 중 어느 하나의 필터 임계값을 설정하는 단계; 및 상기 1-1 코어 매핑 정보 중 상기 필터 임계값에 대응되는 값이 상기 필터 임계값 이상인 경우에만 상기 제1-1 코어 매핑 정보를 표시하는 단계를 포함하는 것이 바람직하다.
상기 제1-1 및 제1-2 텍스트들 각각의 상기 제1 유사 문헌 상의 위치를 수평선 상에 표시하는 것이 바람직하다.
상기 대상 특허와 유사한 제2 유사문헌을 표시하는 단계; 및 상기 제2 유사문헌의 제2-1 코어 매핑 정보 및 제2-2 코어 매핑 정보를 표시하는 단계를 포함하고, 상기 제2-1 코어 매핑 정보는 상기 제2 유사 문헌의 텍스트 중 상기 제2 코어와 유사한 제2-1 텍스트를 근거로 생성된 정보이며, 상기 제2-2 코어 매핑 정보는 상기 제2 유사 문헌의 텍스트 중 상기 제2 코어와 유사한 제2-2 텍스트를 근거로 생성된 정보인 것이 바람직하다.
상기 제1-1 코어 매핑 정보 및 상기 제2-1 코어 매핑 정보를 근거로 제1 코어 매핑 통계를 표시하는 단계; 및 상기 제1-2 코어 매핑 정보 및 상기 제2-2 코어 매핑 정보를 근거로 제2 코어 매핑 통계를 표시하는 단계를 더 포함하는 것이 바람직하다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 컴퓨터로 구현되는 방법은 대상 문헌을 표시하는 단계; 및 상기 대상 문헌과 유사한 유사 문헌의 유사 등급을 표시하는 단계를 포함하고, 상기 유사 등급은 상기 대상 문헌과 상기 유사 문헌과의 유사도인 대상 유사도 및 등급 기준을 근거로 결정되며, 상기 등급 기준은 제1 기준값을 포함하고, 상기 제1 기준 값은 신규성이 흠결된 출원들 또는 특허들과 상기 출원들 또는 특허들의 신규성 인용 문헌들간의 평균 유사도인 제1 평균 유사도인 것이 바람직하다.
상기 대상 유사도 및 상기 제1 평균 유사도는 동일한 알고리즘 또는 신경망 모델에 의해 계산되는 것이 바람직하다.
상기 등급 기준은 제2 기준값을 더 포함하고, 상기 제2 기준값은 진보성이 흠결된 출원들 또는 특허들과 상기 출원들 또는 특허들의 진보성 인용 문헌들간의 평균 유사도인 제2 평균 유사도이며, 상기 제2 평균 유사도는 상기 제1 평균 유사도보다 작은 것이 바람직하다.
상기 등급 기준은 제3, 제4, 및 제5 기준값들 중 적어도 하나를 포함하고, 상기 제3 기준값은 출원들과 상기 출원들의 출원시 제출된 IDS 문헌간의 평균 유사도인 제3 평균 유사도이며, 상기 제3 평균 유사도는 상기 제2 평균 유사도보다 작고, 상기 제4 기준값은 상기 대상 문헌의 기술분야 내의 문헌들 중 상기 신규성 인용 문헌들, 상기 진보성 인용 문헌들, 및 상기 IDS 문헌들을 제외한 문헌들과 상기 대상 문헌과의 평균 유사도인 제4 평균 유사도이며, 상기 제4 평균 유사도는 상기 제2 평균 유사도 보다 작고, 상기 제5 기준값은 상기 대상 문헌의 기술분야 외의 문헌들 과 상기 대상 문헌과의 평균 유사도인 제5 평균 유사도이며, 상기 제5 평균 유사도는 상기 제2 평균 유사도 보다 작은 것이 바람직하다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 컴퓨터로 구현되는 방법은 대상 문헌을 표시하는 단계; 상기 대상 문헌과 유사한 유사 문헌들 중 적어도 하나를 표시하는 단계; 및 상기 대상 문헌의 유효성 등급을 표시하는 단계를 포함하고, 상기 유효성 등급은 상기 대상 문헌의 대상 유효성 점수 및 등급 기준을 근거로 결정되며, 상기 등급 기준은 제1 기준값을 포함하고, 상기 대상 유효성 점수는 상기 대상 문헌과 상기 유사문헌들을 근거로 결정되며, 상기 제1 기준값은 거절된 출원 또는 무효된 특허의 평균 유효성 점수인 제1 평균 유효성 점수인 것이 바람직하다.
상기 대상 유효성 점수 및 상기 제1 평균 유효성 점수는 동일한 알고리즘 또는 신경망 모델에 의해 계산되는 것이 바람직하다.
상기 대상 유효성 점수는 상기 대상 문헌과 상기 유사문헌들간의 유사도 점수를 근거로 결정되는 것이 바람직하다.
상기 등급 기준은 제2 기준값을 더 포함하고, 상기 제2 기준값은 거절된 적 없는 출원 또는 무효된 적 없는 특허의 평균 유효성 점수인 제2 평균 유효성 점수이며, 상기 제2 평균 유효성 점수는 상기 제1 평균 유효성 점수보다 높은 것이 바람직하다.
상기 제1 평균 유효성 점수는 신규성이 흠결된 출원들의 평균 유효성 점수인 것이 바람직하다.
상기 등급 기준은 제2 기준값을 더 포함하고, 상기 제2 기준값은 진보성이 흠결된 출원들 또는 특허들의 평균 유효성 점수인 제2 평균 유효성 점수이며, 상기 제2 기준값은 상기 제1 기준값보다 낮은 것이 바람직하다.
본 발명에 따르면, 분석하고자 하는 특허 정보를 입력할 수 있는 인터페이스를 GUI 형태로 제공함으로써 사용자들이 용이하게 특허 문헌의 분석을 요청할 수 있다.
또한, 분석하고자 하는 특허 정보의 분석 조건을 그래픽 사용자 인터페이스를 기반으로 입력하도록 함으로써 사용자들이 직관적으로 니즈에 맞는 결과를 요청할 수 있다.
본 발명은 입력된 사용자의 조건에 따른 분석 결과를 시각화하여 제공함으로써 결과에 대한 쉽고 빠른 이해가 가능하다.
또한, 본 발명은 학습된 신경망 모델을 이용하여 분석 결과를 제공함으로써 보다 신속한 결과의 제공이 가능하다.
도 1은 본 발명의 일 실시예에 따른 특허 문헌 분석 서비스를 나타내는 개념도이다.
도 2는 본 발명의 일 실시예에 따른 특허 문헌 분석 결과를 제공하는 방법을 나타내는 흐름도이다.
도 3 내지 4는 본 발명의 일 실시예에 따른 특허 문헌 분석 요청을 수신하는 인터페이스 구성을 나타내는 예시도이다.
도 5는 본 발명의 일 실시예에 따른 인터페이스를 통한 특허 문헌 분석 결과를 제공하는 방법을 나타내는 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 서버의 데이터베이스 구성을 나타내는 블록도이다.
도 7 내지 16은 본 발명의 일 실시예에 따른 인터페이스 구성을 나타내는 예시도이다.
도 17은 본 발명의 일 실시예에 따른 특허 문헌 분석 결과를 제공하는 서버의 하드웨어 구성을 나타내는 블록도이다.
이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시 되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이외같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.
또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예에 대해 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 특허 문헌 간 유사도 판단 결과를 제공하는 특허 문헌 분석 서비스 시스템을 나타내는 도이다.
도 1을 참조하면, 본 실시예에 따른 시스템은 분석하고자 하는 대상 특허 문헌 정보를 포함하는 쿼리 정보를 사용자 단말(100)을 통해 입력하는 사용자(10)와 사용자(10)가 입력한 쿼리 정보에 대응하는 유사 특허 문헌 정보를 추출하여 제공하는 서버(300)로 구성될 수 있다.
본 실시예에서 서버(300)는 사용자의 쿼리 정보의 입력을 위한 인터페이스를 사용자 단말(100)의 디스플레이 장치를 통해 그래픽 유저 인터페이스(graphic user interface, GUI)로 제공할 수 있으며 사용자는 GUI로 제공된 다양한 인터페이스 요소(element)들을 활용하여 쿼리 정보를 입력할 수 있다.
예를 들어, 사용자(10)는 텍스트 입력 인터페이스를 통해 대상 특허 문헌 정보를 쿼리 정보로 입력하고 대상 특허의 핵심 구성에 대한 정보 및 그에 대한 임계 등장 횟수(빈도수), 임계 유사도, 또는 가중치들을 추가적인 검색 조건으로 설정할 수 있다.
서버(300)는 입력된 쿼리 정보를 통해 특허 문헌들을 관리하는 DB(Database)로부터 문헌들의 정보를 추출하고, 학습된 신경망 모델을 이용하여 선행 특허 들과의 유사도를 판단함으로써 유사 특허 문헌 정보를 생성할 수 있다.
본 실시예에서 신경망 모델은 특허 문헌들에 대하여 사전 추출된 임베딩 벡터들을 관리하는 데이터베이스로부터 특허 문헌에 대응하는 임베딩 벡터를 추출하여 사전 학습된 유사도 모델에 입력함으로써 유사도 점수를 산출할 수 있다.
또는, 본 실시예에 따른 신경망 모델은 자연어 처리 기반으로 특허 문헌들의 텍스트에 내재된 의미들을 추출하는 임베딩 모델을 직접 포함하여 임베딩 모델과, 임베딩 모델의 출력을 통해 유사도를 산출하는 유사도 판단 모델로 이중화된 구조로 구현되는 것도 가능하다. 따라서 신경망 모델은 실시간으로 대상 특허 문헌에 대하여 사용자가 선택한 핵심 구성 정보와 선행 특허 문헌들을 비교함으로써 유사도를 산출하는 것도 가능하다.
나아가 본 실시예에서는 쿼리 정보를 기준으로 유사한 선행 특허 문헌을 추출하여 표시하는 방법을 예시하나, 선행 특허 문헌은 광의의 선행 문헌으로 해석되어 비 특허 문헌으로 학회 또는 아카이브(arxiv)에 개제된 논문이나 기술 자료, GitHub 등과 같은 웹 커뮤니티 상에 개제된 다양한 텍스트 문헌들을 포함할 수 있다. 따라서 수집된 다양한 기술 자료들을 개제 일자나 시간을 단위로 하나의 선행 기술 문헌으로 이용하여 후술하는 데이터베이스에서 관리하도록 함으로써 쿼리 특허 문헌과 유사한 문헌을 추출하는데 이용되도록 할 수 있다.
서버(300)는 이상의 과정을 통해 사용자(10)의 쿼리 정보에 대하여 판단된 유사 특허 문헌 정보를 사용자 단말(100)로 제공한다.
제공된 유사 특허 문헌 정보 역시 GUI를 통해 사용자(10)에게 제공됨으로써 사용자(10)는 대상 특허의 유사 특허 문헌 대비 특허성 등을 직관적으로 확인할 수 있다.
이하 도 2를 참고하여 본 실시예에 따른 특허 문헌의 유사 판단 결과의 시각화 방법에 대하여 설명한다.
먼저, 도 2를 참조하면 사용자(10)는 사용자 단말(100)의 디스플레이 장치로 제공되는 GUI를 통하여 유사 특허 문헌을 검색하기 위한 쿼리 정보를 입력할 수 있다(S10).
쿼리 정보는 유사한 유사 특허 문헌들을 추출하기 위한 기준이 되는 대상 특허 문헌의 식별 값으로 예를 들어 특허의 출원(또는 공개 또는 등록) 번호 또는 발명의 명칭과 같이 특허를 식별하기 위한 정보를 포함할 수 있다.
서버(300)는 입력된 쿼리 정보에 대응하는 대상 특허 문헌을 DB로부터 추출하고 검색 조건의 설정을 위하여 대상 특허 문헌 정보를 사용자 단말(100)로 제공할 수 있다(S20).
S20과 S30 단계는 선택적인 단계이며 두 단계 중 적어도 하나는 생략될 수 있다.
도 3을 참고하면 사용자가 쿼리 정보로 미국 특허 등록 번호 US8,046,721을 입력한 경우 서버(300)는 DB로부터 해당 대상 특허 문헌을 추출하고 사용자 단말(100)의 디스플레이에 내용을 GUI(102)로 제공할 수 있다.
이때, 제공되는 GUI(102)는 적어도 두개의 패널로 구분될 수 있으며 제1 패널(102b)의 경우 대상 특허 문헌의 청구항을 제공함으로써 사용자(10)가 청구항 중 구성 요소를 선택할 수 있도록 한다. 또는, 제1 패널(102b)의 경우 대상 특허 문헌의 상세한 설명을 제공함으로써 사용자(10)가 상세한 설명 중 구성 요소를 선택할 수 있도록 한다.
특허 문헌의 분석 목적상 대상 특허의 무효 가능성 또는 등록 가능성을 판단하는 경우 청구항을 기초로 유사한 선행 특허 문헌들을 검색하여 추출할 필요가 있으므로 본 실시예에서는 대상 특허 문헌의 청구항을 검색의 키워드로 설정할 수 있도록 제1 패널(102b)을 통해 제공할 수 있다.
제2 패널(102c)은 제1 패널(102b)에 인접하여 사용자가 선택한 청구항 구성 요소에 대응되는 대상 특허 문헌의 명세서 본문 내용들을 추출하여 제공할 수 있다. 이때 제공되는 명세서 본문 내용들은 청구항 구성 요소와 유사한 문장을 포함하는 단락을 기준으로 구분하여 제공될 수 있으며 단락 별 선택된 구성 요소와 유사도 판단 결과를 함께 제공할 수 있다.
또는 제2 패널(102c)은 제1 패널(102b)에 인접하여 사용자가 선택한 상세한 설명 구성 요소에 대응되는 대상 특허 문헌의 명세서 본문 내용들을 추출하여 제공할 수 있다. 이때 제공되는 명세서 본문 내용들은 상세한 설명 구성 요소와 유사한 문장을 포함하는 단락을 기준으로 구분하여 제공될 수 있으며 단락 별 선택된 구성 요소와 유사도 판단 결과를 함께 제공할 수 있다.
사용자는 제1 패널의 청구항 또는 상세한 설명의 구성 요소와 구성 요소에 대한 상세한 설명을 포함하는 명세서 단락을 제2 패널로 참고하여 검색 조건을 설정한다(S30).
도 4를 참고하면, 사용자가 청구항 또는 상세한 설명을 통해 선택한 구성 요소들은 검색을 위한 핵심 키워드(단어, 구절 또는 문장)를 정의하는 코어(core)로 지정될 수 있으며 지정 순서대로 제1 패널 상(102b)에 나열될 수 있다.
본 실시예에서 키워드는 단어 뿐만 아니라 두개 이상의 단어로 구성된 구(phrase) 또는 절(clause)을 단위로 설정될 수 있다. 또는 문장이나 문장으로 구성된 단락으로 설정되어 설정된 키워드를 기준으로 등장 횟수를 카운팅할 수 있다.
또한, 코어의 지정은 서버 내에서 미리 결정된 알고리즘에 따라 청구항을 구성으로 동적으로 구분함으로써 수행되는 것도 가능하다. 예를 들어 청구항의 구성을 세미콜론(;)을 기준으로 분할하여 코어로 설정될 수 있다. 또는 학습된 자연어 처리 기반의 신경망 모델을 통하여 청구항의 구성을 각각의 의미 단위로 분할함으로써 신경망 모델이 코어를 자동으로 지정하는 것도 가능하다.
이때, 사용자는 코어 별로 요약된 정보를 제공하는 요소(102b-1)와 유사 특허 검색 시 중요도를 나타내는 가중치를 설정할 수 있는 버튼 요소(102b-2)를 제공할 수 있다.
본 실시예에서 코어는 다른 코어들과 구분을 위하여 지정된 색상을 가질 수 있으며, 사용자는 제2 패널(102c)에서 제공되는 코어의 내용에 대하여 색상을 선택할 수 있는 메뉴 요소(102f)를 함께 제공할 수 있다.
다음 서버(300)는 유사 특허 문헌 정보를, 유사하다고 판단된 특허 문헌 내 단어, 구절, 또는 문장을 포함하는 단락을 대응되는 코어의 색상으로 표시하여 제공할 수 있다(S40).
이하, 사용자와 상호 인터랙션을 통해 유사 특허 문헌을 추출하는 서버의 동작에 대하여 도 5를 참조하여 설명한다.
도 5를 참조하면 서버(300)는 상술한 바와 같이 사용자가 GUI(102)를 통해 입력한 쿼리 정보 및 검색 조건 설정 정보로부터 대상 특허 문헌 정보를 추출할 수 있다(S100).
쿼리 정보 내 대상 특허 문헌의 식별 값으로써, 예를 들어 대상 특허의 출원(또는 공개 또는 등록) 번호 또는 발명의 명칭을 통해 대상 특허 문헌을 특허 문헌 DB로부터 추출하고, 추출된 대상 특허 문헌 정보를 다시 사용자에게 제공하여 검색의 키워드(단어, 구절, 또는 문장) 및 이에 대한 임계 등장 횟수, 임계 유사도, 또는 가중치와 같은 검색 조건 설정 정보를 추가로 입력 받을 수 있다.
검색 조건 설정 정보는 상술한 바와 같이 특허 청구항으로부터 사용자가 설정하거나 서버가 제공한 코어 및 코어와 유사한 단락을 표시하기 위한 색상 등의 표시 정보들을 포함할 수 있다.
또한 추가적으로 선행 특허의 검색을 위한 조건으로써 대상 특허의 우선일(출원일)로 날짜 정보를 포함할 수 있으며 따라서 서버(300)는 해당 날짜 이전의 특허들을 검색하도록 검색 조건을 설정할 수 있다.
그 외에도 IPC(International Patent Classification, 국제특허분류), CPC(Cooperative Patent Classification, 협력적 특허분류)와 같이 발명의 기술분야를 나타내는 특허분류체계를 검색 조건으로 입력 받고 해당 조건에 대한 선행 특허 문헌들을 검색 또는 우선하여 비교하도록 할 수 있다.
따라서 서버(300)는 입력된 쿼리 정보와 검색 조건 설정 정보를 이용하여 대상 특허 문헌과 유사도를 산출할 선행 특허 문헌들을 추출한다.
다음, 서버(300)는 추출된 양 특허 문헌들 각각의 문서 및 문장 임베딩 벡터들을 임베딩 벡터 DB로 부터 입력 받는다(S200).
본 실시예에서 문서 임베딩 벡터는 특허 문헌 전체의 의미를 임베딩 한 값으로서 문헌 별로 고유의 값을 가질 수 있으며, 문장 임베딩 벡터는 특허 문헌 내 각각의 문장 또는 문단 등을 단위로 각 단위 별 의미들을 임베딩 한 벡터로 특허 문헌의 크기나 구성에 따라 복수의 값들로 생성될 수 있다.
서버(300)는 대상 특허 문헌의 문서 임베딩 벡터와 선행 특허 문헌들의 문서 임베딩 벡터를 통해 전역적인 유사도를 산출함과 동시에 특허 문헌 각각의 요소들 간의 유사도를 문장 임베딩 벡터를 통해 비교함으로써 문장 레벨의 유사도를 산출한다.
도 6을 참고하면 이때 서버(300)는 선행 특허 문헌들을 추출하기 위한 특허 문헌 DB(312)와 함께 문서 단위의 제1 임베딩 벡터들을 특허 별로 관리하는 제1 임베딩 벡터 DB(314)와 문장 단위의 제2 임베딩 벡터들을 특허 별로 관리하는 제2 임베딩 벡터 DB(316)를 포함하여 구성될 수 있다.
본 실시예에 따른 데이터베이스는 특허 문헌 DB(312), 제1 임베딩 벡터 DB(314) 및 제2 임베딩 벡터 DB(316)로 구성될 수 있으며, 데이터베이스(310)는 각각의 DB 내 값들을 특허의 식별 정보를 고유의 인덱스로 관리할 수 있으며 따라서 입력된 쿼리 정보 내 특허의 식별 정보에 대응되는 각각의 값들을 추출하여 유사도 판단에 이용할 수 있도록 한다.
쿼리 정보 내 검색 조건에 따라 대상 특허 문헌과 비교할 선행 특허 문헌들의 식별 정보 역시 특허 문헌 DB(312)로부터 추출될 수 있으며, 선행 특허 문헌들의 식별 정보로써 선행 특허들의 특허 출원(또는 공개 또는 등록) 번호를 이용하여 선행 특허 문헌들의 제1 임베딩 벡터를 제1 임베딩 벡터 DB(314)로부터 추출하거나, 제2 임베딩 벡터를 제2 임베딩 벡터 DB(316)로부터 추출할 수 있다.
이상의 임베딩 벡터들은 상술한 바와 같이 미리 임베딩 모델을 통하여 생성되어 DB에 관리될 수 있다. 또는 실시간으로 사용자가 설정한 코어 정보에 따라 문장 단위의 임베딩 벡터를 별도의 임베딩 모델로 추출하는 것도 가능하다.
다음 서버(300)는 추출된 제1 및 제2 임베딩 벡터들을 근거로 특허 문헌들간의 유사도를 산출한다(S300).
본 실시예에 따른 유사도 판단 모델은 상술한 바와 같이 문서-문장 구조에 대하여 계층적으로 추출된 임베딩 벡터를 이용하여 순차적으로 유사도를 판단하는 모델 네트워크를 구현하고 유사도를 산출하는 것도 가능하다.
쿼리 정보 내 검색 조건에 따라 특허 문헌 DB(312)에서 추출된 제1 후보 특허 문헌 리스트 내 선행 특허 문헌과 대상 특허 문헌 간의 제1 유사도를 통하여 임계값 이상의 유사도를 갖는 선행 특허 문헌들의 집합으로 제2 후보 특허 리스트를 추출하고, 이어서 제2 후보 특허 리스트 내 선행 특허 문헌들과 쿼리 문헌 간의 문장 레벨의 유사도를 산출하기 위하여 해당 특허에 대한 제2 임베딩 벡터를 제2 임베딩 벡터 DB(316)로부터 추출할 수 있다.
대상 특허 문헌과 제2 후보 특허 리스트 내 선행 특허들 간의 제2 임베딩 벡터 쌍으로 구성된 제2 임베딩 벡터 집합을 근거로 제2 유사도를 산출하고, 산출된 제2 유사도를 통하여 상기 제2 후보 특허 문헌 리스트 내 유사 특허 문헌 정보를 특허 리스트로 생성할 수 있다(S400)
이때, 본 실시예에서 유사 특허 문헌 정보에는 유사 특허 문헌의 식별 값 외에도 유사도 판단의 근거가 된 매핑 정보도 포함할 수 있다. 매핑 정보는 대상 특허 문헌의 문장들과 유사한 유사 특허 문헌의 문장들에 관한 정보로서 예를 들어 대상 특허 문헌의 제1 코어 또는 제2 코어와 가장 유사한 선행 특허 문헌의 텍스트를 근거로 코어 별로 생성될 수 있다.
구체적으로 유사한 선행 특허 문헌의 텍스트 중 제1 코어와의 유사도가 임계값 이상을 갖는 텍스트와 이에 대한 위치 및 유사도에 대한 판단 정보를 포함할 수 있으며 매핑 정보들은 산출된 유사도 판단 결과와 함께 GUI로 제공할 수 있다.
또한, 선행 특허 문헌의 텍스트를 추출하기 위한 임계값은 코어 별로 설정될 수 있으며 예를 들어 제1 코어에 대하여 설정된 임계값보다 작은 값으로 제2 코어의 임계값이 설정될 수 있으며 이를 근거로 제2 임계값 이상의 유사도를 갖는 텍스트들을 선행 특허 문헌으로부터 추출할 수 있다.
또한, 선행 특허 문헌의 텍스트를 추출하기 위한 임계값은 코어 별로 설정될 수 있으며 예를 들어 제1 코어에 대하여 설정된 임계값보다 큰 값으로 제2 코어의 임계값이 설정될 수 있으며 이를 근거로 제2 임계값 이상의 유사도를 갖는 텍스트들을 선행 특허 문헌으로부터 추출할 수 있다.
이상의 과정을 통해 생성된 유사 특허 문헌 정보는 사용자 단말(100)을 통해 사용자에게 제공된다(S40).
이하, 본 실시예에 따라 생성된 유사 특허 문헌 정보를 사용자 단말(100)의 GUI(102)를 통해 제공하는 방법에 대하여 도 7 및 도 8을 이용하여 설명한다.
도 7을 참고하면, 본 실시예에 따라 서버(300)에서 제공되는 유사 특허 문헌 정보는 상술한 제1 패널(102b) 및 제2 패널(102c)로 구분된 GUI(102)를 통해 제공될 수 있다.
구체적으로 각 패널은 행렬의 형태로 구현되어 각각의 문헌을 행으로 구분하되, 대상 특허 문헌의 코어 와 코어에 대응되는 매핑 정보들을 열로 구분하여 제공할 수 있다.
도 8을 참조하면, 제1 패널(102b)은 대상 특허 문헌과 추출된 유사 특허 문헌 간의 요약 정보를 제공하며 제2 패널(102c)은 유사도 판단 결과를 통계적으로 제공해 줄 수 있다.
이때 제1 패널(102b)은 3개의 하위 패널로 대상 특허 문헌 정보의 요약 정보를 제공하는 제1-1 패널(102h)과 유사 특허 문헌의 요약 정보를 제공하는 제1-2 패널(102i) 및 유사 특허 문헌의 특징 공간 내 매핑 정보를 제공하는 1-3 패널(102j)로 구성될 수 있다.
또한 제2 패널(102c)은 3개의 하위 패널로 유사도 판단 결과의 통계적 정보를 제공하는 제2-1 패널(102k), 유사도 판단 결과를 코어 별로 요약 제공하는 제2-2 패널(102l) 및 대상 특허의 관련 기술 분야 내 선행 특허 전체의 통계 정보를 제공하는 2-3 패널(102m)로 구성될 수 있다.
이하, 도 9 내지 14를 참고하여 본 실시예에 따라 각 패널 상에 포함되는 인터페이스 요소들에 대하여 보다 상세히 설명한다.
본 실시예에서 제1-1 패널(102h)의 경우 대상 특허 문헌으로 대상 특허를 요약하고 검색 조건 등에 대한 정보를 시각화하여 제공해 줄 수 있다.
도 9를 참조하면 대상 특허의 요약 정보는 대상 특허의 문헌 번호 및 유무효 판단 결과를 랭킹화 한 요소(102h-6)와 검색 조건 설정 정보로 입력한 코어(102h-1)와 코어의 중요도를 나타내는 가중치를 나타내는 단계적인 색상 요소(102h-4)를 포함할 수 있다.
또한 각 코어 별로 사용자가 설정한 유사 특허 추출의 임계 정보로서 코어와 대응되는 단락(문장)의 임계 등장 횟수(102h-2)와 임계 유사도 정보(102h-3)가 요약되어 표시될 수 있다. 즉 설정된 유사 특허 추출의 임계 정보는 텍스트를 추출하기 위한 필터로 작용하되, 임계 유사도 정보는 평균 또는 최대 유사도를 기준으로 결정될 수 있다.
또한 대상 특허 내 각 코어와 유사한 단락의 위치 정보를 수평선 형태의 슬라이더로 전체 대상 특허의 크기를 기준으로 스케일화한 요소(102h-5)를 GUI로 제공함으로써 사용자가 직관적으로 대상 특허 내 코어들의 등장 위치와 횟수를 판단하고 중요도를 인식할 수 있도록 한다.
다음 제1-2 패널(102i)은 추출된 유사 특허에 대해서도 동일한 형식으로 사용자에게 요약 정보를 제공함으로써 직관적인 인식이 가능하도록 한다. 제1-2 패널(102i)은 유사 특허 리스트를 표시한다. 유사 특허 리스트는 대상 특허와의 유사도를 기준으로 정렬된 유사 특허들 및 이들의 유사도에 대한 정보(예를 들어 알파벳으로 표시된 유사도 등급, 유사도 점수, 인터페이스 요소(102i-4))를 표시할 수 있다. 유사도는 서버에 구비된 유사도 판단 모델을 통해 추론된 값일 수 있다.
도 10을 참조하면 제1-2 패널(102i)은 유사 특허 문헌으로 추출된 US6,541,239 특허를 예로 들면 문헌 번호와 함께 유사도 점수(62)와 등급(A) 및 대상 특허의 코어에 대응되는 단락의 위치들을 색상별로 스케일화하여 랜드스케이프 형태의 인터페이스 요소(102i-4)로 제공할 수 있다.
또한, 각 코어별 유사도 판단 결과로서 코어에 대응되는 단락(문장)의 등장 횟수와 유사도를 코어를 단위로 구분된 요소(102i-1)로 제공한다.
예를 들어 유사 특허 문헌으로 추출된 US6,541,239 특허에는 대상 특허 문헌의 제3 코어에 대응되는 임계값 이상의 유사도를 갖는 유사 특허 문헌 내 텍스트들의 개수는 29개이며 이를 통해 산출된 평균 유사도는 71로 산출됨을 각각의 요소(102i-2,3)로 표시할 수 있다. 또는 평균 유사도 대신 코어 별 가장 유사한 텍스트의 최대 유사도 값을 표시하는 것도 가능하다.
나아가, 각 코어별로 유사도는 단계별 색상으로 제공됨으로써 사용자는 각 유사 특허 문헌이 어떤 코어에 집중적으로 관련성이 높은 지 판단할 수 있도록 한다. 이때 본 실시예에서 색상은 개수, 평균 유사도 또는 최대 유사도 중 어느 하나를 이용하여 결정될 수 있다.
예를 들어 유사 특허 문헌 3의 경우는 코어 별 유사도 판단 결과만을 요약하여 제공하며 대상 특허 문헌의 제3 코어와 유사한 단락이 33번 및 유사도가 82, 제5 코어와 관련하여 유사한 단락이 24번 등장하며 유사도가 90으로 나타나므로 제3 코어 및 제5 코어에 대한 결과 요소(102i-5,6)가 다른 코어의 결과 요소에 비하여 진한 색상으로 표시될 수 있도록 한다.
이어서 도 11을 참고하여 제1-3 패널(102j)에 대하여 설명하면 제1-3 패널(102j)은 대상 특허 문헌 및 유사 특허 문헌의 임베딩 결과를 벡터 공간에 매핑하여 표시할 수 있다.
따라서, 사용자(10)는 매핑 결과만으로 특징 공간 상에서 각 특허 문헌 간의 위치 관계를 통해 거리가 가까울수록 관련성이 높고 반대로 거리가 먼 경우에는 관련성이 낮은 특허로 직관적인 인식이 가능하다.
특징 공간 내 매핑 결과는 특허 문헌 DB 내 전체 특허의 매핑 및 기술 분류 별 클러스터를 색상으로 구분하여 표시됨으로써 유사 특허 문헌의 기술 분류를 통해 관련성을 간접적으로 인식할 수 있도록 한다.
나아가, 본 실시예에서는 특허 문헌의 임베딩 벡터를 통해 유사도를 산출하므로 양 문헌 간 임베딩 벡터(102j-1, 2)의 특징 공간 내 거리는 해당 유사도를 설명할 수 있는 근거로 활용될 수 있다.
따라서, 사용자는 상술한 검색 조건의 설정 과정에서 임계 유사도를 설정하는 대신 특징 공간 내 임계 거리를 추가 검색 조건으로 설정하는 것도 가능하다.
이어서 제2 패널(102c)에 대하여 설명하면, 제2 패널(102c) 내 제2-1 패널(102k)은 유효 특허 문헌을 통해 대상 특허 문헌의 유효성 판단 결과를 통계적으로 제공할 수 있다.
구체적으로 도 12를 참조하면 제2-1 패널(102k)은 특허 문헌 DB 내에서 특허 심사 결과, 무효 심판 또는 소송의 결과로 유/무효 판단을 받은 특허 문헌의 유효성 점수의 통계 값(예를 들어 유효성 점수의 평균 값)을 근거로 설정된 기준 값들 및 그 기준 값들에 의해 정의되는 등급 구간을 표시할 수 있다.
예를 들어 유효성 점수는 유사 특허 리스트를 이용하여 산출될 수 있다. 일 예로 유효성 점수는 유사 특허 리스트에 나열된 유사 특허의 유사도의 합을 정규화하는 방식으로 산출될 수 있다.
서버(300)는 유효인 특허 문헌으로 거절된 적 없는 출원 또는 무효된 적 없는 특허의 유효성 점수의 제1 평균 유효성 점수와 무효인 특허로 거절된 출원 또는 무효된 특허의 유효성 점수의 제2 평균 유효성 점수를 기준으로 대상 특허의 유효성 점수가 속하는 구간을 판단할 수 있도록 분포 그래프 내 위치를 일 요소(102k-1)로 제공해 줄 수 있다.
예를 들어, 무효인 특허 41,322건의 평균 유효성 점수가 32점이고 유효인 특허 12,348건의 평균 유효성 점수가 87점인 경우 해당 구간을 기준으로 32점 이하는 유효성이 낮은 구간, 유효성이 높은 구간 및 사이 구간은 유효성이 보통인 구간으로 결과를 제공하는 것도 가능하다. 그러나 이에 한정되지 않고 32점 및 87점을 이용하여 102k에 도시된 것과 같이 더 많은 등급 구간을 정의할 수 있다.또한, 상위/하위 그룹의 평균을 이용하여 구간을 세분화하는 것도 가능하며 산출된 유효성 점수가 속하는 구간을 등급으로 표시하는 요소(102k-2)를 통해 분석 결과를 제공해 줄 수 있다.
도 13을 참조하면, 제2-2 패널(102l)은 대상 특허의 코어 별 유사도 판단 결과를 통계적으로 분석하여 제공해 줄 수 있다. 즉 제2-1 패널(102k)은 특허의 유효성 등급을 제공한다면 제2-2 패널(102l)은 코어 별 유효성 등급과 전체 분포 내 위치 및 유사도 점수를 제공할 수 있다.
구체적으로 제2-2 패널(102l)에는 코어 별로, 유사 특허 문헌 내 코어와 임계 유사도 이상의 값을 갖는 유사 문장(또는 단어 또는 구절)의 등장 빈도(빈도수)와 평균 유사도 점수, 및 유효성 점수에 따른 분포 내 위치/등급 결과를 제공해 주는 요소(102l-1)가 포함될 수 있으며 코어의 내용을 직접 표시하는 요소(102l-2)를 통해 사용자(10)가 해당 코어의 내용도 판단할 수 있도록 한다.
따라서 사용자(10)는 코어 중 특정 코어에 대한 유효성이 낮음을 판단하거나 해당 코어에 대한 추가 분석이 필요함을 인식할 수 있다.
도 14a를 참조하면, 제2-3 패널(102m)은 유사도 판단 과정에서 추출된 전체 선행 특허 리스트들의 통계적인 분포를 제공해 줄 수 있다.
상술한 바와 같이 본 실시예에서 유사도 판단은 특허 문헌의 구조에 따라 단계적으로 임베딩된 벡터를 활용하여 유사 특허 문헌을 추출할 수 있으므로 이러한 과정에서 1차 또는 2차 필터링된 선행 특허들의 집합을 통해 보다 전역적인 통계결과를 획득할 수 있다.
이때 등급의 판단 기준은 기술 분류에 따라 결정될 수 있으며 예를 들어 대상 특허의 IPC 코드를 통해 동일 IPC 코드를 갖는 전체 선행 특허들에 대해서 유사도를 5단계로 구분하여 유사도 점수에 따라 선행 특허 리스트들의 분포를 일 요소(102m-2)로 제공할 수 있다.
이때 단계를 구분하는 기준 값은 IPC 코드가 같은 선행 특허들의 심사관 판단 결과를 참조할 수 있으며 예를 들어 순차적으로 S등급은 IPC 코드 G06F 기술 분야 내 특허 심사결과로 신규성 위반(한국 특허법 제29조 제1항, 미국 특허법 제102조)의 인용 참증으로 이용된 신규성 인용 문헌과 심사 대상 특허 문헌 간의 유사도 판단 결과의 평균으로 구분될 수 있다.
IPC 코드 G06F의 경우 신규성 위반의 인용 참증으로 이용된 154,313건의 유사도 판단 결과 평균 유사도 점수가 93인 경우에 해당 점수 이상의 대상 특허에 대한 유사도를 갖는 선행 특허들을 S 등급으로 분류할 수 있다.
A등급의 경우 해당 IPC 분류의 특허들 중 심사과정에서 진보성 위반(한국 특허법 제29조 제2항, 미국 특허법 제103조)의 거절이유에 인용된 진보성 인용 문헌과 심사 대상 특허 간의 유사도 평균을 구분 기준으로 이용할 수 있다.
예를 들어 GO6F의 IPC 코드를 갖는 특허들 중 진보성의 인용 참증으로 이용된 264,789건의 심사 대상 특허와의 유사도 평균이 78인 경우 이를 78점 이상의 대상 특허에 대한 유사도를 갖는 선행 특허를 A등급으로 분류할 수 있다.
심사 결과를 이용하여 특허 문헌 DB 내 특허들 간의 유사도 판단 결과를 등급 분류 기준으로 활용하되 B등급 이하의 경우는 심사 결과 특허성 판단에는 직접적으로 인용되지 않았으나 출원인의 제출, 예를 들어 IDS(Information Disclosure Statement) 제도 등에 따라 참고 문헌으로 활용된 경우 등급 분류 기준으로 활용할 수 있다.
나아가, C등급은 기술 분류 내 특정 문헌 쌍의 상호 유사도 평균을 추출하여 기준으로 활용할 수 있으며 상술한 B 등급의 기준 판단에 이용된 문헌은 제외할 수 있다.
이어서 D 등급의 경우 대상 문헌의 기술분야 외의 문헌들 과 대상 문헌과의 평균 유사도를 기준 값으로 이용할 수 있다.
이상의 기술 분류 별 등급 분포 요소(102m-2)를 통해 사용자(10)는 대상 특허 문헌의 선행 특허들을 통해 신규성 또는 진보성 위반의 거절 이유의 발생 가능성 또는 무효 가능성을 판단할 수 있다.
또한, 도 14b를 참조하면 상술한 제2-3 패널은 대상 문헌(본 특허)의 유사도 판단 과정에서 추출된 상위 선행 특허 리스트들의 통계적인 분포와, 특정 선행 특허(예를 들어 US1,111,111)에 대한 상위 선행 특허 리스트들의 통계적인 분포를 비교하여 제공하는 시각적인 요소(102m')로 구현되는 것도 가능하다.
이를 통해 사용자는 본 특허와 특정 선행 특허들의 유사한 선행 문헌의 분포를 비교하여 인식하고 상대적인 가치로서 예를 들어 상대적인 무효 가능성, 관련 업종에서의 활용 가능성 등 을 판단할 수 있다.
이때, 도 14b에 따른 시각적인 요소(102m')는 상술한 도 13의 제2-1 패널(102k)로 제공된 특허의 유효성 등급 결과 요소(102'k)와 함께 병행하는 형태로 구현되어 사용자에게 제공될 수 있다.
또한, 본 실시예에 따른 GUI(102) 내 패널들은 사용자 단말의 디스플레이 장치의 크기 또는 사용자의 요구에 따라 위치나 크기가 조절될 수 있으며 패널 내 인터페이스 요소들도 동적으로 반응하여 표시되는 내용들을 변경할 수 있다.
예를 들어 도 15를 참고하면, 본 실시예에 따라 제2 패널(102c)은 제1 패널(102h, 102i)에서 선택된 유사 특허 문헌의 상세보기를 위하여 통합된 영역에서 내용을 제공할 수 있다.
따라서 사용자가 선택한 제1 유사 특허 문헌으로 US6,541,239 특허의 상세보기로 대상 특허 문헌의 코어 별 가장 높은 유사도를 갖는 문장을 포함하는 단락들을 제2 패널 상에 각 요소(102p)로 구분하여 제공할 수 있다. 사용자(10)는 대상 특허 문헌의 코어와 유사 특허 문헌의 발췌된 단락을 직접 비교함으로써 유사 여부를 판단할 수 있도록 한다.
요소(102p)는 코어 별 유사도 등급과 분포 상 위치 및 빈도와 평균 유사도를 함께 제공할 수 있으며 예를 들어 코어 1에 대하여 12,351 개의 문장이 임계 유사도 이상으로 추출되었으므로 해당 단락들을 추가로 볼 수 있는 메뉴 버튼 요소(102p-1)를 제공할 수 있다.
또한, 대상 특허 문헌과 유사 특허 문헌 간의 비교 외에 유사 특허 문헌간의 비교를 위하여 본 실시예에서는 제2 패널(102c)을 분할하여 각각의 유사 특허 문헌의 내용들을 함께 볼 수 있도록 제공하는 것도 가능하다.
도 16을 참고하면, 제2 패널은 횡방향의 분할(102c-1, 102c-2)을 통하여 선택된 2개의 유사 특허 문헌의 단락들을 유사도에 따라 리스트 화하여 제공해 줄 수 있다. 따라서 사용자는 대상 특허의 코어 별로 주요 유사 특허 문헌의 단락들을 동시에 비교하고 해당 단락들의 기술적 사상의 공통 여부 및 결합 가능성 등의 판단을 통해 진보성 위반에 대한 인용 참증 적격들을 확인할 수 있다.
또한, 제2 패널(102c)의 확장에 따라 영역이 감소된 제1 패널(102b(102h, 102i))은 동적으로 표시되는 정보들을 요약하여 제공해 줄 수 있다.
본 실시예에서는 제1-1 및 1-2 패널(102h, 102i)은 대상 특허 문헌과 유사 특허 문헌의 유사도 판단 결과를 요약하여 제공하되 최소 정보로서 대상 특허 문헌의 코어를 식별하기 위한 코어의 색상과 유사 특허 문헌의 코어의 색상에 대응되는 단락들의 빈도 수를 제공함으로써 사용자가 비교하고자 하는 유사 특허 문헌을 선택할 수 있도록 한다.
이상 본 발명의 일 실시예에 따른 유사도 판단 결과의 시각화 방법을 수행하는 서버(300)의 구체적인 하드웨어 구현에 대하여 설명한다.
도 17을 참조하면, 본 발명의 몇몇 실시예들에 서버(300)는 컴퓨팅 장치의 형태로 구현될 수 있다. 서버(300)를 구성하는 각각의 모듈 중 하나 이상은 범용 컴퓨팅 프로세서 상에서 구현되며 따라서 프로세서(processor)(308), 입출력 I/O(302), 메모리 장치(memory)(304), 인터페이스(interface)(306), 스토리지(312) 및 버스(314, bus)를 포함할 수 있다. 프로세서308), 입출력 I/O(302), 메모리 장치(304) 및/또는 인터페이스(306)는 버스(314)를 통하여 서로 결합될 수 있다. 버스(314)는 데이터들이 이동되는 통로(path)에 해당한다.
구체적으로, 프로세서(308)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit), 마이크로프로세서, 디지털 신호 프로세스, 마이크로컨트롤러, 어플리케이션 프로세서(AP, application processor) 및 이들과 유사한 기능을 수행할 수 있는 논리 소자들 중에서 적어도 하나를 포함할 수 있다.
입출력 I/O 장치(302)는 키패드(keypad), 키보드, 터치스크린 및 디스플레이 장치 중 적어도 하나를 포함할 수 있다. 메모리 장치(304)는 데이터 및/또는 프로그램 등을 저장할 수 있다.
인터페이스(306)는 통신 네트워크로 데이터를 전송하거나 통신 네트워크로부터 데이터를 수신하는 기능을 수행할 수 있다. 인터페이스(306)는 유선 또는 무선 형태일 수 있다. 예컨대, 인터페이스(306)는 안테나 또는 유무선 트랜시버 등을 포함할 수 있다. 도시하지 않았지만, 메모리 장치(304)는 프로세서(308)의 동작을 향상시키기 위한 동작 메모리로서, 고속의 디램 및/또는 에스램 등을 더 포함할 수도 있다.
내부의 스토리지(312)는 여기에 설명된 일부 또는 모든 모듈의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 예를 들어, 상술한 유사도 판단 방법의 선택된 양태들을 수행하도록 하는 로직을 포함할 수 있다.
메모리 장치(304)는 스토리지(312)에 저장된 상술한 유사도 판단을 통한 시각화 방법을 수행하는 각 단계를 포함하는 명령어들의 집합으로 프로그램 또는 어플리케이션을 로드하고 프로세서가 각 단계를 수행할 수 있도록 한다.
본 발명에 따르면, 분석하고자 하는 특허 정보를 입력할 수 있는 메뉴를 사용자 인터페이스로 제공함으로써 사용자들이 용이하게 특허 문헌의 분석을 요청할 수 있다.
또한, 분석하고자 하는 특허 정보의 분석 조건을 그래픽 사용자 인터페이스를 기반으로 입력하도록 함으로써 사용자들이 직관적으로 니즈에 맞는 결과를 요청할 수 있다.
본 발명은 입력된 사용자의 조건에 따른 분석 결과를 시각화하여 제공함으로써 결과에 대한 쉽고 빠른 이해가 가능하다.
또한, 본 발명은 학습된 신경망 모델을 이용하여 분석 결과를 제공함으로써 보다 신속한 결과의 제공이 가능하다.
나아가, 여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어 모듈 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 쓰여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리 모듈에 저장되고, 제어모듈에 의해 실행될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (34)

  1. 컴퓨터로 구현되는 방법으로서,
    대상 특허 정보를 입력 받는 단계; 및
    입력된 대상 특허로부터 추출된 적어도 하나의 구성 정보를 정의하는 코어를 결정된 색상에 따라 구분하는 제1 패널,
    상기 대상 특허의 유사 특허에 대한 유사도 판단 결과를 상기 결정된 색상에 따라 구분하는 제2 패널을 포함하는 사용자 인터페이스가 디스플레이되게 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  2. 제 1 항에 있어서,
    상기 제1 패널은 유사 특허의 추출을 위한 상기 코어 별 추출 기준을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  3. 제 2 항에 있어서,
    상기 제1 패널은 유사 특허와 유사도 판단의 가중치를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  4. 제 2 항에 있어서,
    상기 제2 패널은 상기 유사 특허의 추출을 위한 상기 코어 별 추출 기준에 따른 결과를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  5. 제 1 항에 있어서,
    상기 인터페이스는 대상 특허 또는 유사 특허의 상기 코어 별 대응되는 단락 정보를 제공하는 제3 패널을 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  6. 제 1 항에 있어서,
    상기 인터페이스는 대상 특허로부터 추출된 유사 특허의 상기 코어 별 비교에 따른 유효성 판단 결과를 제공하는 제3 패널을 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  7. 제 6 항에 있어서,
    상기 제3 패널은 상기 대상 특허의 유효성 점수를 통계화하여 제공하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  8. 제 7 항에 있어서,
    상기 제3 패널은 상기 대상 특허의 유효성 점수에 따라 상기 대상 특허의, 과거 유효 여부가 판단된 특허의 유효성 점수 또는 무효 여부가 판단된 특허의 유효성 점수의 분포 상 위치를 제공하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  9. 제 1 항에 있어서,
    상기 인터페이스는 대상 특허 또는 유사 특허의 특징 벡터를 특징 공간 내 매핑하여 제공하는 제 4 패널을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  10. 제 9 항에 있어서,
    상기 대상 특허의 제1 특징 벡터와 상기 유사 특허의 제2 특징 벡터는 상기 대상 특허와 유사 특허에 대하여 산출된 유사도에 대응하는 상기 특징 공간 내 거리를 갖는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
  11. 제 1 내지 제 10 항 중 어느 한 항에 따른 방법을 수행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체.
  12. 컴퓨터로 구현되는 방법에 있어서,
    대상 특허의 제1 및 제2 코어를 표시하는 단계;
    상기 대상 특허와 유사한 제1 유사문헌을 표시하는 단계; 및
    상기 제1 유사문헌의 제1-1 코어 매핑 정보 및 제1-2 코어 매핑 정보를 표시하는 단계를 포함하고,
    상기 제1-1 코어 매핑 정보는 상기 제1 유사 문헌의 텍스트 중 상기 제1 코어와 유사한 제1-1 텍스트를 근거로 생성된 정보이며,
    상기 제1-2 코어 매핑 정보는 상기 제1 유사 문헌의 텍스트 중 상기 제2 코어와 유사한 제1-2 텍스트를 근거로 생성된 것을 특징으로 하는 컴퓨터로 구현된 방법.
  13. 제 12 항에 있어서,
    상기 제1-1 텍스트는 상기 제1 유사 문헌의 텍스트 중 상기 제1 코어와의 유사도가 제1 임계값 이상인 것을 특징으로 하는 컴퓨터로 구현된 방법.
  14. 제 12 항에 있어서,
    상기 제1-2 텍스트는 상기 제1 유사 문헌의 텍스트 중 상기 제2 코어와의 유사도가 상기 제1 임계값 보다 작은 제2 임계값 이상인 것을 특징으로 하는 컴퓨터로 구현된 방법.
  15. 제 12 항에 있어서,
    상기 제1 및 제2 코어는 상기 대상 특허의 청구항에서 추출된 것을 특징으로 하는 컴퓨터로 구현된 방법.
  16. 제 12 항에 있어서,
    상기 대상 특허의 제3 코어를 표시하는 단계; 및
    상기 제1 유사문헌의 제1-3 코어 매핑 정보를 표시하는 단계를 포함하고,
    상기 제1-3 코어 매핑 정보는 상기 제1 유사 문헌의 텍스트 중 상기 제3 코어와 유사한 제1-3텍스트를 근거로 생성된 정보인 것을 특징으로 하는 컴퓨터로 구현된 방법.
  17. 제 12항에 있어서,
    상기 제1-1 코어 매핑 정보는 상기 제1 코어에 대응되는 제1 위치에 표시되며,
    상기 제1-2 코어 매핑 정보는 상기 제2 코어에 대응되는 제2 위치에 표시되는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  18. 제 17 항에 있어서,
    상기 제1 및 제2 코어들 및 상기 제1-1 및 1-2 코어 매핑 정보는 행렬형태로 배열되며,
    상기 제1 및 제2 코어는 제1 행에 배치되고,
    상기 제1-1 및 1-2 코어 매핑 정보는 제2 행에 배치되는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  19. 제 12 항에 있어서,
    상기 제1 텍스트는 복수로 제공되며,
    상기 제1-1 코어 매핑 정보는 복수의 상기 제1 텍스트들의 개수 및 상기 제1-1 텍스트들의 상기 제1 코어와의 평균 유사도, 및 상기 복수의 제1-1 텍스트들 중 상기 제1 코어와 가장 유사한 제1-1 텍스트의 유사도 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  20. 제 19 항에 있어서,
    상기 1-1 코어 매핑 정보의 색상은 상기 제1 텍스트들의 개수 및 상기 제1-1 텍스트들의 상기 제1 코어와의 평균 유사도, 및 상기 복수의 제1-1 텍스트들 중 상기 제1 코어와 가장 유사한 제1-1 텍스트의 최대 유사도 중 적어도 어느 하나를 근거로 결정되는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  21. 제 19 항에 있어서,
    상기 개수, 평균 유사도, 및 최대 유사도 중 어느 하나의 필터 임계값을 설정하는 단계;
    상기 1-1 코어 매핑 정보 중 상기 필터 임계값에 대응되는 값이 상기 필터 임계값 이상인 경우에만 상기 제1-1 코어 매핑 정보를 표시하는 단계를 포함하는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  22. 제 12 항에 있어서,
    상기 제1-1 및 제1-2 텍스트들 각각의 상기 제1 유사 문헌 상의 위치를 수평선 상에 표시하는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  23. 제 12 항에 있어서,
    상기 대상 특허와 유사한 제2 유사문헌을 표시하는 단계; 및
    상기 제2 유사문헌의 제2-1 코어 매핑 정보 및 제2-2 코어 매핑 정보를 표시하는 단계를 포함하고,
    상기 제2-1 코어 매핑 정보는 상기 제2 유사 문헌의 텍스트 중 상기 제2 코어와 유사한 제2-1 텍스트를 근거로 생성된 정보이며,
    상기 제2-2 코어 매핑 정보는 상기 제2 유사 문헌의 텍스트 중 상기 제2 코어와 유사한 제2-2 텍스트를 근거로 생성된 정보인 것을 특징으로 하는 컴퓨터로 구현된 방법.
  24. 제 23 항에 있어서,
    상기 제1-1 코어 매핑 정보 및 상기 제2-1 코어 매핑 정보를 근거로 제1 코어 매핑 통계를 표시하는 단계; 및
    상기 제1-2 코어 매핑 정보 및 상기 제2-2 코어 매핑 정보를 근거로 제2 코어 매핑 통계를 표시하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  25. 컴퓨터로 구현되는 방법에 있어서,
    대상 문헌을 표시하는 단계; 및
    상기 대상 문헌과 유사한 유사 문헌의 유사 등급을 표시하는 단계를 포함하고,
    상기 유사 등급은 상기 대상 문헌과 상기 유사 문헌과의 유사도인 대상 유사도 및 등급 기준을 근거로 결정되며, 상기 등급 기준은 제1 기준값을 포함하고,
    상기 제1 기준 값은 신규성이 흠결된 출원들 또는 특허들과 상기 출원들 또는 특허들의 신규성 인용 문헌들간의 평균 유사도인 제1 평균 유사도인 것을 특징으로 하는 컴퓨터로 구현된 방법.
  26. 제 25 항에 있어서,
    상기 대상 유사도 및 상기 제1 평균 유사도는 동일한 알고리즘 또는 신경망 모델에 의해 계산되는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  27. 제 26 항에 있어서,
    상기 등급 기준은 제2 기준값을 더 포함하고,
    상기 제2 기준값은 진보성이 흠결된 출원들 또는 특허들과 상기 출원들 또는 특허들의 진보성 인용 문헌들간의 평균 유사도인 제2 평균 유사도이며, 상기 제2 평균 유사도는 상기 제1 평균 유사도보다 작은 것을 특징으로 하는 컴퓨터로 구현된 방법.
  28. 제 27 항에 있어서,
    상기 등급 기준은 제3, 제4, 및 제5 기준값들 중 적어도 하나를 포함하고,
    상기 제3 기준값은 출원들과 상기 출원들의 출원시 제출된 IDS 문헌간의 평균 유사도인 제3 평균 유사도이며, 상기 제3 평균 유사도는 상기 제2 평균 유사도보다 작고
    상기 제4 기준값은 상기 대상 문헌의 기술분야 내의 문헌들 중 상기 신규성 인용 문헌들, 상기 진보성 인용 문헌들, 및 상기 IDS 문헌들을 제외한 문헌들과 상기 대상 문헌과의 평균 유사도인 제4 평균 유사도이며, 상기 제4 평균 유사도는 상기 제2 평균 유사도 보다 작고,
    상기 제5 기준값은 상기 대상 문헌의 기술분야 외의 문헌들 과 상기 대상 문헌과의 평균 유사도인 제5 평균 유사도이며, 상기 제5 평균 유사도는 상기 제2 평균 유사도 보다 작은 것을 특징으로 하는 컴퓨터로 구현된 방법.
  29. 컴퓨터로 구현되는 방법에 있어서,
    대상 문헌을 표시하는 단계;
    상기 대상 문헌과 유사한 유사 문헌들 중 적어도 하나를 표시하는 단계; 및
    상기 대상 문헌의 유효성 등급을 표시하는 단계를 포함하고,
    상기 유효성 등급은 상기 대상 문헌의 대상 유효성 점수 및 등급 기준을 근거로 결정되며, 상기 등급 기준은 제1 기준값을 포함하고, 상기 대상 유효성 점수는 상기 대상 문헌과 상기 유사 문헌들을 근거로 결정되며,
    상기 제1 기준값은 거절된 출원 또는 무효된 특허의 평균 유효성 점수인 제1 평균 유효성 점수인 것을 특징으로 하는 컴퓨터로 구현된 방법.
  30. 제 29 항에 있어서,
    상기 대상 유효성 점수 및 상기 제1 평균 유효성 점수는 동일한 알고리즘 또는 신경망 모델에 의해 계산되는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  31. 제 29 항에 있어서,
    상기 대상 유효성 점수는 상기 대상 문헌과 상기 유사 문헌들간의 유사도 점수를 근거로 결정되는 것을 특징으로 하는 컴퓨터로 구현된 방법.
  32. 제 29 항에 있어서,
    상기 등급 기준은 제2 기준값을 더 포함하고,
    상기 제2 기준값은 거절된 적 없는 출원 또는 무효된 적 없는 특허의 평균 유효성 점수인 제2 평균 유효성 점수이며, 상기 제2 평균 유효성 점수는 상기 제1 평균 유효성 점수보다 높은 것을 특징으로 하는 컴퓨터로 구현된 방법.
  33. 제 29 항에 있어서,
    상기 제1 평균 유효성 점수는 신규성이 흠결된 출원들의 평균 유효성 점수인 것을 특징으로 하는 컴퓨터로 구현된 방법.
  34. 제 33 항에 있어서,
    상기 등급 기준은 제2 기준값을 더 포함하고,
    상기 제2 기준값은 진보성이 흠결된 출원들 또는 특허들의 평균 유효성 점수인 제2 평균 유효성 점수이며, 상기 제2 기준값은 상기 제1 기준값보다 낮은 것을 특징으로 하는 컴퓨터로 구현된 방법.
PCT/KR2023/004592 2022-04-05 2023-04-05 자연어 처리 기반의 유사도 판단을 통한 특허 문헌의 시각화 방법 및 이를 제공하는 장치 WO2023195768A1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR20220042194 2022-04-05
KR10-2022-0042194 2022-04-05
KR10-2022-0042213 2022-04-05
KR20220042213 2022-04-05
KR1020220056067A KR102569562B1 (ko) 2022-04-05 2022-05-06 자연어 처리 기반의 유사도 판단을 통한 특허 문헌의 시각화 방법 및 이를 제공하는 장치
KR10-2022-0056067 2022-05-06

Publications (1)

Publication Number Publication Date
WO2023195768A1 true WO2023195768A1 (ko) 2023-10-12

Family

ID=87841245

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/004592 WO2023195768A1 (ko) 2022-04-05 2023-04-05 자연어 처리 기반의 유사도 판단을 통한 특허 문헌의 시각화 방법 및 이를 제공하는 장치

Country Status (2)

Country Link
KR (3) KR102606352B1 (ko)
WO (1) WO2023195768A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180072167A (ko) * 2016-12-21 2018-06-29 특허법인 해담 유사특허 추출 시스템 및 그 방법
KR20200017575A (ko) * 2018-07-24 2020-02-19 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법
KR20200122151A (ko) * 2019-04-17 2020-10-27 김권석 특허 검색 애플리케이션 장치 및 이를 이용하는 특허 검색 방법
JP2021086592A (ja) * 2019-12-23 2021-06-03 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
KR20210100389A (ko) * 2020-02-06 2021-08-17 아이피루씨 주식회사 유사 특허 검색 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366327B2 (en) 2014-01-31 2019-07-30 Google Llc Generating vector representations of documents
KR20210053539A (ko) * 2019-11-04 2021-05-12 한국전자통신연구원 특허 신규성 판단 시스템 및 방법
JP2021128620A (ja) * 2020-02-14 2021-09-02 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
KR20210044146A (ko) * 2020-02-21 2021-04-22 (주)디앤아이파비스 특허문서의 유사도 판단 방법, 장치 및 시스템
KR102161666B1 (ko) 2020-04-22 2020-10-05 한밭대학교 산학협력단 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180072167A (ko) * 2016-12-21 2018-06-29 특허법인 해담 유사특허 추출 시스템 및 그 방법
KR20200017575A (ko) * 2018-07-24 2020-02-19 배재대학교 산학협력단 유사 특허 검색 서비스 시스템 및 방법
KR20200122151A (ko) * 2019-04-17 2020-10-27 김권석 특허 검색 애플리케이션 장치 및 이를 이용하는 특허 검색 방법
JP2021086592A (ja) * 2019-12-23 2021-06-03 株式会社AI Samurai 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
KR20210100389A (ko) * 2020-02-06 2021-08-17 아이피루씨 주식회사 유사 특허 검색 방법

Also Published As

Publication number Publication date
KR102569562B1 (ko) 2023-08-24
KR20230143533A (ko) 2023-10-12
KR20230143969A (ko) 2023-10-13
KR102606352B1 (ko) 2023-11-24

Similar Documents

Publication Publication Date Title
WO2010036013A2 (ko) 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
WO2020204586A1 (ko) 신약 재창출 후보 추천 시스템 및 이 시스템의 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
WO2020078058A1 (zh) 医疗数据异常识别方法、装置、终端及存储介质
WO2017007084A1 (ko) 토픽 추출 장치 및 방법
WO2021003930A1 (zh) 客服录音的质检方法、装置、设备及计算机可读存储介质
WO2010087566A1 (en) Document analysis system
WO2012134180A2 (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
WO2014058233A1 (ko) 데이터 프리로드를 통한 사용자 디바이스의 gui 반응 속도 증대 방법 및 그 사용자 디바이스
WO2018004298A1 (ko) 영상 축약 시스템 및 방법
WO2018004299A1 (ko) 영상 축약 시스템 및 방법
WO2018004236A1 (ko) 개인정보의 비식별화 방법 및 장치
WO2011065630A1 (ko) 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
WO2020119383A1 (zh) 医保监管方法、设备、装置及计算机可读存储介质
WO2016099019A1 (ko) 특허문서 분류 시스템 및 방법
WO2010050675A2 (ko) 의존 문법 구문 트리의 탐색을 통한 자동 관계 트리플 추출 방법
WO2021225421A1 (ko) 면역 항암제에 대한 반응을 예측하는 방법 및 시스템
WO2018131955A1 (ko) 디지털 컨텐츠를 분석하는 방법
WO2023191129A1 (ko) 법안 및 법규정에 대한 모니터링 방법 및 이를 위한 프로그램
WO2012046906A1 (ko) 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법
WO2021010671A9 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
WO2023195769A1 (ko) 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
WO2023195768A1 (ko) 자연어 처리 기반의 유사도 판단을 통한 특허 문헌의 시각화 방법 및 이를 제공하는 장치
WO2017069548A1 (ko) 복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법
WO2022050551A1 (ko) 법률 서비스 제공 시스템 및 그 방법
WO2019112117A1 (ko) 텍스트 콘텐츠 작성자의 메타정보를 추론하는 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23784992

Country of ref document: EP

Kind code of ref document: A1