WO2024029966A1 - 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법 및 그 방법을 수행하는 서버 - Google Patents

청구항 분석에 기초하여 문헌의 가치를 평가하는 방법 및 그 방법을 수행하는 서버 Download PDF

Info

Publication number
WO2024029966A1
WO2024029966A1 PCT/KR2023/011430 KR2023011430W WO2024029966A1 WO 2024029966 A1 WO2024029966 A1 WO 2024029966A1 KR 2023011430 W KR2023011430 W KR 2023011430W WO 2024029966 A1 WO2024029966 A1 WO 2024029966A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
value
occurrence
subsequent
weight
Prior art date
Application number
PCT/KR2023/011430
Other languages
English (en)
French (fr)
Inventor
원동식
Original Assignee
재단법인대구경북과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인대구경북과학기술원 filed Critical 재단법인대구경북과학기술원
Priority claimed from KR1020230101722A external-priority patent/KR20240019049A/ko
Publication of WO2024029966A1 publication Critical patent/WO2024029966A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Definitions

  • the following embodiments relate to a method of evaluating the value of a document based on claim analysis and a server that performs the method.
  • Evaluating the value of a patent is the process of determining the commercial value of a patent that has institutionally granted a specific technology, invention, or idea. Since a patent guarantees exclusive rights to a specific invention or technology, it is also a process of evaluating the technology in more detail to confirm its usefulness and potential profits from a business perspective.
  • assessing the value of patents is an essential preliminary step in making investment decisions or evaluating the value of a company. If the value of a patent is misjudged, various problems may arise, including inappropriate license negotiations due to incorrect patent strategies, loss of trust with investors, and inefficient patent portfolio management. Therefore, evaluating the value of patents can be considered an important activity that has a significant impact on a company's business.
  • the object of the present invention is to provide a method for evaluating the value of a document based on claim analysis.
  • obtaining bibliographic information and claim text of a target patent and extracting one or more components from the claim text; determining one or more matching configurations that satisfy each of the one or more components and matching conditions, and obtaining prior or subsequent documents including one or more of the matching configurations; calculating the number of the one or more preceding documents as a preceding frequency of appearance and calculating the number of the one or more succeeding documents as a subsequent frequency of appearance; determining one or more evaluation items including the preceding frequency of occurrence or the lagging frequency of occurrence; calculating a value score of the target patent based on the one or more evaluation items; A method for evaluating the value of a document based on claim analysis is provided, including.
  • the value score is calculated using weights corresponding to each of the one or more evaluation items, and when there is a first weight corresponding to the preceding frequency of appearance and a second weight corresponding to the subsequent frequency of appearance. , the value score may be calculated based on the preceding frequency of occurrence value adjusted by the first weight and the subsequent frequency of occurrence adjusted by the second weight.
  • the first weight corresponding to the preceding frequency of appearance may be smaller than the second weight corresponding to the subsequent frequency of appearance.
  • a method for evaluating the value of a document based on claim analysis wherein the first weight corresponding to the prior occurrence frequency has a negative value.
  • the evaluation item includes a total frequency of appearance that is the sum of the preceding frequency of appearance and the frequency of subsequent appearance, and the value score is the total frequency of occurrence adjusted by a third weight value corresponding to the frequency of occurrence of the total appearance. It can be calculated based on the frequency value.
  • the evaluation items include a same field item for determining whether the prior or subsequent literature belongs to the same or similar technical field as the technical field to which the target patent belongs, and the prior or subsequent literature includes If there is a fourth weight corresponding to the case belonging to the same or similar technical field, the value score may be calculated based on the preceding frequency value and the subsequent frequency value adjusted by the fourth weight. .
  • the fourth weight corresponding to the preceding frequency of appearance may be smaller than the fourth weight corresponding to the subsequent frequency of appearance.
  • whether the prior or subsequent literature belongs to the same or similar technical field as the technical field to which the target patent belongs can be determined based on the industry code or industry classification code to which the target patent belongs.
  • the evaluation item includes a technical field concentration item of the prior or subsequent literature, and an item corresponding to the case where one or more of the prior or subsequent documents belong to a specific technical field in relation to the technical field concentration. If 5 weights exist, the value score may be calculated based on the preceding frequency of occurrence and the subsequent frequency of occurrence adjusted by the fifth weight.
  • the evaluation item includes an applicant type item of the prior or subsequent document, and a sixth weight corresponding to the case where one or more of the prior or subsequent document belongs to a specific applicant type in relation to the applicant type. If exists, the value score may be calculated based on the preceding frequency value and the trailing frequency value adjusted by the sixth weight.
  • the evaluation item includes a component vector value item corresponding to each of one or more components extracted from the claims of the target patent, and in relation to the component vector value item, for each component If there is a seventh weight that adjusts the preceding frequency of occurrence or the subsequent frequency of occurrence, the value score may be calculated based on the preceding frequency of occurrence and the frequency of occurrence of the trailing value adjusted by the seventh weight. there is.
  • the component vector value corresponding to each of the one or more components increases as the vector distance between the component and the matched text increases, and the seventh weight is a negative value of the component vector value. There may be a correlation.
  • the base date of the target patent may be later than the base date of the preceding document and may be earlier than the base date of the subsequent document.
  • the evaluation item further includes calculating a frequency in which one or more of the matching components are described in the preceding document as a prior description frequency, and a frequency in which the matching component is described in the subsequent document as a subsequent description frequency. may include the preceding frequency or the succeeding frequency.
  • the preceding frequency of appearance is the number of prior documents in which the frequency of description of one or more of the matching configurations included in the corresponding document is greater than or equal to a preset value
  • the subsequent frequency of appearance is the number of prior documents containing the one or more matching configurations included in the corresponding document. It may be the number of subsequent documents in which the frequency of description of the configuration is greater than or equal to a preset value.
  • the evaluation item includes a trend item of increasing frequency of appearance corresponding to each of one or more components extracted from the claims of the target patent, and the value score is the frequency of appearance corresponding to each of the components. It may be calculated based on the leading appearance frequency value and the lagging appearance frequency value adjusted by the eighth weight related to the increasing trend item.
  • a server performs a method of evaluating the value of a document based on claim analysis, wherein the server includes a processor, and the processor acquires bibliographic information and claim text of the target patent. Extract one or more components from the claim text, determine one or more matching configurations that satisfy matching conditions with each of the one or more components, and obtain prior or subsequent documents that include one or more of the matching configurations; , calculate the number of the one or more preceding documents as the preceding frequency of appearance, and calculate the number of the one or more succeeding documents as the subsequent frequency of appearance, and determine one or more evaluation items including the preceding frequency or the subsequent frequency of appearance, A server may be provided that calculates a value score of the target patent based on one or more evaluation items.
  • a computer-readable recording medium recording a program for executing the method of the present invention on a computer may be provided.
  • the value of the document can be evaluated based on claim analysis.
  • components of the document to be analyzed are extracted based on claim analysis, and the value of the document to be analyzed is determined according to the number of preceding and subsequent documents in which configurations matching the components appear. can do.
  • the value of the document to be analyzed can be judged by placing more weight on the number of subsequent documents than on the number of preceding documents in which components and matching configurations appear.
  • FIG. 1 is a system diagram including an evaluation server, a user terminal, and a document DB according to an embodiment.
  • Figure 2 is a flowchart showing an embodiment of the present invention in time series.
  • Figure 3 shows an example of dividing a document into a preset range according to an embodiment of the present invention.
  • Figure 4 shows the reference date order of documents according to an embodiment of the present invention on a patent timeline.
  • FIG. 5 is a table showing the relationship between the preceding and following appearing frequencies and the preceding and following appearing frequencies corresponding to components according to an embodiment.
  • Figure 6 is a graph illustrating component vector values according to an embodiment of the present invention.
  • Figure 7 is a graph illustrating an increase in the frequency of appearance of each component according to an embodiment of the present invention.
  • Figure 8 is a block diagram of a server according to an embodiment of the present invention.
  • obtaining bibliographic information and claim text of a target patent and extracting one or more components from the claim text; determining one or more matching configurations that satisfy each of the one or more components and matching conditions, and obtaining prior or subsequent documents including one or more of the matching configurations; calculating the number of the one or more preceding documents as a preceding frequency of appearance and calculating the number of the one or more succeeding documents as a subsequent frequency of appearance; determining one or more evaluation items including the preceding frequency of occurrence or the lagging frequency of occurrence; calculating a value score of the target patent based on the one or more evaluation items; A method for evaluating the value of a document based on claim analysis is provided, including.
  • Some embodiments of the present disclosure may be represented by functional block configurations and various processing steps. Some or all of these functional blocks may be implemented in various numbers of hardware and/or software configurations that perform specific functions.
  • the functional blocks of the present disclosure may be implemented by one or more microprocessors, or may be implemented by circuit configurations for certain functions.
  • functional blocks of the present disclosure may be implemented in various programming or scripting languages.
  • Functional blocks may be implemented as algorithms running on one or more processors.
  • the present disclosure may employ prior art for electronic environment setup, signal processing, and/or data processing, etc. Terms such as “mechanism,” “element,” “means,” and “configuration” will be used broadly. It can be done and is not limited to mechanical and physical configurations.
  • connection lines or connection members between components shown in the drawings merely exemplify functional connections and/or physical or circuit connections. In an actual device, connections between components may be represented by various replaceable or additional functional connections, physical connections, or circuit connections.
  • the operations performed by the user may refer to the operations performed by the user through the user terminal.
  • a command corresponding to an action performed by the user may be input to the user terminal through an input device (eg, keyboard, mouse, etc.) embedded in or additionally connected to the user terminal.
  • a command corresponding to an action performed by the user may be input to the user terminal through the touch screen of the user terminal.
  • the action performed by the user may include a predetermined gesture.
  • gestures may include tap, touch and hold, double tap, drag, panning, flick, drag and drop, etc.
  • Figure 1 is a system diagram including an evaluation server, a user terminal, and a literature database according to an embodiment.
  • the system may include an evaluation server 1000, a user terminal 2000, and a document DB 3000.
  • the user terminal 2000 and the document DB 3000 can each be understood as one physical configuration, this is only an example, and the number of the user terminal 2000 and the document DB 3000 is different from the present invention. It can be freely decided to the extent that it does not conflict with the core ideas of.
  • the evaluation server 1000 may evaluate the value of the target patent by analyzing the claims of the target patent. To this end, the evaluation server 10000 extracts elements from the claims of the target patent, calculates the frequency with which text satisfying the elements and matching conditions appears in prior or subsequent literature, and calculates the frequency based on the calculated frequencies. Calculate the value score of the target patent.
  • the object for calculating the value score is described as a patent, the present invention is not necessarily limited thereto and can be used in all documents requiring value evaluation. The specific operation of the evaluation server 1000 will be described later.
  • the user terminal 2000 may be a smartphone, tablet PC, PC, smart TV, mobile phone, laptop, and other mobile or non-mobile computing devices. Additionally, the user terminal 2000 may be a wearable device such as glasses or a hair band equipped with a communication function and a data processing function. The user terminal 2000 may include all types of devices that can communicate with other devices through a network. According to one embodiment, the evaluation server 1000 may obtain information on the target patent subject to value evaluation from the user terminal 2000 and return the calculated value score of the target patent to the user terminal 2000. there is.
  • the document DB 3000 may be an online database containing all public documents accessible through the Internet or other communication networks.
  • the literature DB 3000 may be a public database containing literature materials without field restrictions, and users can access the database through a computing device and search for preceding or succeeding literature.
  • the document DB 3000 is a database containing information related to patents, and may be a database operated by patent offices or other organizations in various countries.
  • the document DB 3000 serves to collect, store, and manage documents related to patents, is open to the public for free, and can be used for patent searches or technology research.
  • the evaluation server 1000 of the present invention can obtain a preceding or succeeding document including a matched text from the document DB 3000.
  • Networks include Local Area Network (LAN), Wide Area Network (WAN), Value Added Network (VAN), mobile radio communication network, satellite communication network, and combinations thereof. It is a data communication network in a comprehensive sense that allows each network constituent shown in FIG. 1 to communicate smoothly with each other, and may include wired Internet, wireless Internet, and mobile wireless communication networks.
  • wireless communications include, for example, wireless LAN (Wi-Fi), Bluetooth, Bluetooth low energy, ZigBee, WFD (Wi-Fi Direct), UWB (ultra wideband), and infrared communications (IrDA). Data Association), NFC (Near Field Communication), etc., but are not limited to these.
  • Figure 2 is a flowchart showing an embodiment of the present invention in time series.
  • the evaluation server 1000 obtains bibliographic information and claim text of the target patent and extracts one or more components from the claim text (201).
  • the evaluation server 1000 determines one or more matching configurations that satisfy each of one or more components and matching conditions, and obtains preceding or succeeding documents that include one or more matching configurations (202).
  • the evaluation server 1000 calculates the number of one or more preceding documents as the preceding frequency and the number of one or more succeeding documents as the subsequent frequency (203).
  • the evaluation server 1000 determines one or more evaluation items including a preceding or succeeding frequency of appearance (204).
  • the evaluation server 1000 calculates the value score of the target patent based on one or more evaluation items (205).
  • the evaluation server 1000 obtains a document to be analyzed.
  • the document to be analyzed may be a patent document, and in this case, the evaluation server 1000 obtains bibliographic information and claim text of the target patent.
  • the bibliographic information and claim text can be obtained from the user terminal 2000 described above, or the evaluation server 1000 can determine it automatically.
  • Figure 3 shows an example of dividing documents into preset ranges according to an embodiment of the present invention.
  • the document 300 illustrated in FIG. 3 is an example of a target patent according to an embodiment of the present invention, and the document 300 may be a patent specification. Meanwhile, document 300 can be used as an example of not only the target patent but also preceding and following documents. However, the formal features of the document 300 illustrated in FIG. 3 are only examples and are not necessarily limited thereto.
  • document 300 may be divided into one or more ranges 310, 320, and 330.
  • the evaluation server 1000 may obtain documents 300 corresponding to the target patent, prior documents, and subsequent documents, and obtain information on one or more ranges 310, 320, and 330 from this. These ranges 310, 320, and 330 may correspond to the structure of the bibliography or patent specification of document 300.
  • the first range 310, second range 320, and third range 330 of the document 300 may be divided using the titles of each range. Titles can be separated by specific delimiters such as [ ]. Additionally, the text written below [Title] may include detailed information related to [Title]. For example, referring to FIG. 3, the first range 310 includes a title 311 called 'Title of Invention', and may include text defining the name of the corresponding patent specification at the bottom of the title 311. there is. Likewise, referring to FIG. 3, the second range 320 includes a title 321 called 'Effect of the Invention', and at the bottom of the title 321, the effect that can be obtained when implementing the invention described in the corresponding patent specification is indicated. May include written text.
  • the evaluation server 1000 may extract bibliographic information and claim text of the document 300 corresponding to the target patent.
  • the document 300 corresponding to the target patent may be a patent specification and may have the structure of a patent specification.
  • the evaluation server 1000 may obtain the application date or publication date as bibliographic information of the target patent.
  • the bibliographic information obtained by the evaluation server 1000 is not necessarily limited to this and may include one or more of application number, publication number, application date, publication date, applicant, and inventor information.
  • the evaluation server 1000 may extract claim text from a range of the document 300 corresponding to the target patent.
  • the third scope 330 includes a title 331 called 'Claims', and at the bottom of the title 331 indicates a legal description of the patent rights of the target patent and the boundary of the invention. May include claim text defining .
  • the text titled 'Claims' (331) is defined as claim text in this specification.
  • the claim text may have a subheading indicating a claim number such as [Claim #], as can be seen in the third range 330, but in this specification, the claims are not limited to the subheading and are based on the entire 'claim range'. Let's define the text.
  • the evaluation server 1000 may extract one or more components from the claim text.
  • the component may be the most basic semantic unit in constituting the rights of the target patent, but is not necessarily limited thereto and refers to all text used to clearly define key parts of the patented invention. can do.
  • the evaluation server 1000 may extract them word by word.
  • the extracted component may be ‘electric vehicle’, ‘electric vehicle’, etc.
  • the evaluation server 1000 may extract components by phrase or sentence.
  • the extracted components may be the result of logically combining individual words/phrases/sentences by considering their technical aspects. More specifically, the evaluation server 1000 identifies individual elements expressed as noun phrases or verb phrases with technical meaning in the claim text, and combines the individual elements with relevant technical meaning to create components expressed as complete phrases or sentences. It can be extracted.
  • the extracted claim text is "a database storing ranking variables, which are various variables of a vehicle; a stopping algorithm that calculates a ranking score by comparing the ranking variables based on the database; and the vehicle stopped by the stopping algorithm. A recharging algorithm that recharges the vehicle by first unstopping the charging unit in the order of the highest ranking score among the charging units. Assuming this, the evaluation server 1000 ) is a component, and the phrase "database that stores rank variables, which are various variables of the vehicle,” can be extracted.
  • the evaluation server 1000 may use a text-based learning model to extract components from claim text.
  • the evaluation server 1000 may use Natural Language Processing (NLP) technology.
  • NLP Natural Language Processing
  • the evaluation server 1000 preprocesses the claim text, performs word/phrase/sentence level tokenization, and uses a pre-trained language model to learn a model suitable for finding components of the patent claim, and then Meaningful components can be extracted.
  • NLP Natural Language Processing
  • Matching elements may be texts that have the same or similar meaning as elements extracted from the claim text of the target patent.
  • each component can be referred to as ⁇ e 1 , e 2 , e 3 , ..., e E ⁇ .
  • the matching configuration corresponding to each component can be referred to as t ij (i is the order of the component, j is the order of the matching configuration).
  • there are components with a plurality of matching configurations but there may also be components with one matching configuration.
  • the matching configuration that satisfies the similar condition as the matching condition is “an electric vehicle equipped with a computer vision trained with reinforcement learning.”
  • the evaluation server 1000 may use various learning methods to measure text similarity to determine a plurality of matching configurations for one component.
  • the evaluation server 1000 may use a word embedding technique to determine a matching configuration that has the same or similar meaning as the component.
  • word embedding technology is an important part of natural language processing. It expresses words as vectors and can identify semantic similarities to find similar words or identify words with similar meaning in context. Word embedding technology mainly uses machine learning and deep learning-based models to convert words into high-dimensional vectors, and then the vector representation can be designed to reflect the semantic similarity between words.
  • the evaluation server 1000 converts words into vectors using word embedding techniques such as Word2Vec, FastText, and ELMo (Embeddings from Language Models) and determines semantic similarity between words. By capturing, the matching configuration of the component can be determined.
  • word-to-back is an embedding technology that represents words as distributed vectors and can be composed of two models: Continuous Bag of Words (CBOW) and Skip-gram.
  • CBOW Continuous Bag of Words
  • Skip-gram The word-to-back model learns vector representations of words by optimizing the probability of surrounding words, and the learned vectors contain semantic similarity and can be used to find similar words.
  • FastText is an extended form of Word2Back, and can generate embeddings by decomposing words into character-by-character n-grams (subwords).
  • FastText can process OOV (Out-of-Vocabulary) words more effectively and can have good performance even on small-sized training data.
  • OOV Out-of-Vocabulary
  • Elmo is a technology that generates word embeddings by taking context into account. It uses a two-way LSTM to reflect both left and right context information of a word and can handle polysemy where the meaning of a word can vary depending on the context.
  • the evaluation server 1000 may determine a matching configuration that has the same or similar meaning as the component using various word learning techniques.
  • the evaluation server 100 obtains prior or subsequent documents that include one or more matching configurations corresponding to the components of the target patent.
  • the preceding or succeeding literature can be determined from among all published documents whose text can be obtained using the document DB 3000 shown in FIG. 1, and the reference date related to the bibliographic information of the target patent is used. Thus, it is possible to determine whether it is a preceding or succeeding document.
  • Figure 4 shows the reference date order of documents according to an embodiment of the present invention on a patent timeline.
  • the preceding document reference date is earlier than the target patent reference date on the timeline, and the subsequent document reference date is later than the target patent reference date.
  • the reference date may be the application date or the publication date (if the registration announcement date is earlier than the publication date, the registration announcement date). That is, the evaluation server 1000 may determine one or more documents with a reference date earlier than the reference date of the target patent as prior documents, and determine one or more documents with a reference date later than the reference date of the target patent as subsequent documents.
  • the evaluation server 1000 can determine the preceding or following documents that include one or more matching configurations.
  • the evaluation server 1000 uses a preset patent database, etc., and selects documents with a reference date earlier than the target patent among patent documents output as search results when a matching composition is set to a search term as prior literature. Documents whose base date is later than the target patent can be determined as lagging documents.
  • the evaluation server 1000 may determine that documents that include one or more elements of the entire set T E of the matching configuration and that have a reference date earlier than the target patent are prior documents, and documents that have a reference date that is later than the target patent are late documents.
  • the evaluation server 1000 calculates the determined number of one or more preceding documents as the preceding frequency of appearance, and the determined number of one or more succeeding documents as the subsequent frequency of appearance.
  • the number of prior documents corresponding to the total components ⁇ e 1 , e 2 , ..., e E ⁇ of the target patent, that is, the prior appearance frequency can be defined and calculated as P. there is.
  • the number of trailing documents corresponding to the total components ⁇ e 1 , e 2 , ..., e E ⁇ of the target patent, that is, the trailing appearance frequency can be defined and calculated as S.
  • the frequency of appearance can be defined and calculated as Pc i .
  • the trailing frequency of occurrence of the ⁇ e i ⁇ configuration can be defined and calculated as Sc i .
  • the evaluation server 1000 calculates the total description frequency (Fp) of how many times one or more matching configurations included in the prior literature are described in the prior documents. Likewise, the evaluation server 1000 calculates the overall description frequency of how many times one or more matching structures included in the subsequent documents are described in the subsequent documents as the subsequent description frequency (Fs). Alternatively, according to another embodiment of the present invention, the evaluation server 1000 may calculate, for each one or more components, the prior description frequency for prior documents of an individual component or the subsequent description frequency for subsequent documents of an individual component. . This will be explained in more detail in Figure 5 below.
  • the components of the target patent ⁇ e 1 ⁇ The matching configuration of, i.e. the component ⁇ e 1 ⁇
  • the set of matching configurations corresponding to can be defined as ⁇ t 11 , t 12 , t 13 , ... ⁇ .
  • the matching configuration ⁇ t 11 , t 12 ⁇ is described 5 and 10 times, respectively, in the determined prior documents
  • the matching configuration ⁇ t 11 , t 12 , t 13 ⁇ is described 8 and 6 times, respectively, in the determined subsequent documents.
  • the preceding description frequency corresponding to can be 15 times.
  • the corresponding trailing frequency may be 16 times.
  • FIG. 5 is a table showing the relationship between the preceding and following appearing frequencies and the preceding and following appearing frequencies corresponding to components according to an embodiment.
  • the preceding appearance frequency which is the number of preceding documents for all components of the target patent
  • the subsequent appearing frequency which is the number of succeeding documents
  • the number of preceding documents for an individual component ⁇ e i ⁇ can be defined as Pc i
  • the number of succeeding documents can be defined as Sc i .
  • the matching configuration contained in the subsequent literature ⁇ s 1 , s 2 , ..., s S ⁇
  • Their description frequencies can be expressed as ⁇ fs 11 , fs 12 , ..., fs 1S ⁇ , respectively.
  • the description frequency of the matching configuration ⁇ t 11 , t 12 , t 13 , ... ⁇ included in Prior Document 1 (p 1 ) can be calculated as the prior description frequency fp 11 .
  • the matching configuration ⁇ t 11 , t 12 , t 13 , ... ⁇ corresponding to component e 1 the corresponding matching configuration ⁇ t 11 , t 12 , t 12 , The description frequency of t 13 , ... ⁇ can be calculated as the subsequent description frequency fs 11 .
  • the total prior description frequency or the total subsequent description frequency corresponding to the corresponding component e i can be calculated.
  • the entire preceding description frequency corresponding to the component ⁇ e i ⁇ may be defined as Fp i*
  • the entire subsequent description frequency may be defined as Fs i*
  • the total frequency of description corresponding to the component e i can be defined and calculated as Fi, regardless of previous or subsequent literature.
  • F i* represents the total frequency of description of the component e i in previous and subsequent literature.
  • the total prior description frequency in which all elements ⁇ e 1 , e 2 , e 3 , ..., e E ⁇ described in the claims of the target patent appear in prior documents is defined as Fp
  • the total frequency of occurrences in subsequent documents is defined as Fp
  • the frequency of subsequent entries can be defined as Fs. Therefore, the F value for the target patent is defined as the total frequency of preceding and following descriptions of all elements ⁇ e 1 , e 2 , e 3 , ..., e E ⁇ described in the claims of the target patent in preceding and following documents. and can be calculated.
  • F which finally represents the total frequency of description of the components of the target patent in preceding and following documents, can be defined as in [Equation 2] below.
  • the evaluation server 1000 may determine one or more evaluation items to evaluate the value of the target patent.
  • the evaluation item may include the previously calculated preceding frequency of appearance, subsequent frequency of appearance, or overall frequency of appearance.
  • the evaluation server 1000 may calculate the value score of the target patent based on one or more evaluation items. That is, the evaluation server 1000 may calculate the value score of the target patent by considering the number of prior documents, the number of succeeding documents, or the total number of prior and following documents corresponding to the target patent. At this time, the evaluation server 1000 may calculate weights corresponding to each of the plurality of evaluation items.
  • the evaluation server 1000 may calculate the preceding or lagging frequency of occurrence in which the description frequency of one or more matching configurations included in the relevant document is greater than or equal to a preset value.
  • the document can be determined as a preceding or succeeding document and included in the frequency of appearance. For example, if ⁇ e i ⁇ is described only once in a specific document, the specific document is not considered to have meaningfully described the ⁇ e i ⁇ configuration and can be excluded from frequency calculation (counting).
  • the evaluation server 1000 may determine that the evaluation item includes a preceding description frequency or a subsequent description frequency. Unlike the preceding or succeeding appearance frequency described above, the preceding or succeeding description frequency is an indicator that can tell you how many times claim elements have been described in prior or subsequent documents.
  • the evaluation server 1000 calculates the value score of the target patent using evaluation items including the preceding or lagging frequency of appearance, and sets the weight so that the greater the lagging frequency of appearance, the higher the value score is calculated. In other words, if the number of subsequent documents corresponding to the components ⁇ e 1 , e 2 , e 3 , ..., e E ⁇ described in the claims of the target patent is greater than the number of preceding documents, the value score of the target patent is higher. It can be calculated.
  • the evaluation server 100 sets the first weight corresponding to the preceding frequency of appearance (P), which is one of the evaluation items, to ⁇ and the second weight corresponding to the subsequent frequency of appearance (S).
  • the value of the first weight ( ⁇ ) is set to ⁇ , and the value of the first weight ( ⁇ ) can be set to be smaller than the value of the second weight ( ⁇ ). That is, the value score is calculated based on the preceding frequency of occurrence adjusted by the first weight and the subsequent frequency of occurrence adjusted by the second weight, where the value of the first weight ( ⁇ ) is the value of the second weight ( ⁇ ). It can be made smaller.
  • V ⁇ *P + ⁇ *S ( ⁇ )
  • the evaluation server 1000 may set the 1 weight ⁇ to have a negative value, that is, a negative value.
  • the evaluation server 1000 calculates the value score of the target patent using evaluation items including the preceding or following description frequency, but the greater the subsequent description frequency, the higher the value score is calculated. You can also set the weight as much as possible. That is, in the embodiment of FIG. 5, the weight corresponding to the preceding writing frequency (Fp) can be set to be smaller than the weight corresponding to the succeeding writing frequency (Fs).
  • the value of the patent may be determined to be high if the total number of preceding and following documents is large, regardless of whether the number of preceding or following documents is large.
  • the technology related to the corresponding component is actually widely used, and the value of the target patent can be judged to be high by considering the overall frequency of occurrence as one of the evaluation items. there is.
  • the evaluation server 100 may set the third weight corresponding to the overall frequency of appearance (PS), which is one of the evaluation items, as ⁇ .
  • the total appearance frequency (PS) may be the sum of the preceding appearance frequency (P) and the succeeding appearance frequency (S).
  • V ⁇ *P + ⁇ *S + ⁇ *PS
  • the value of the patent may be determined to be high if the elements described in the claims of the target patent are frequently described in all preceding or succeeding documents, regardless of whether they are preceding or succeeding.
  • the evaluation server 1000 may assign a higher weight to the number of prior documents or the number of subsequent documents in the same or similar field as the technical field to which the target patent belongs.
  • the evaluation server 1000 can calculate the value score (V) by assigning high weight to the preceding or succeeding frequency of occurrence of preceding or succeeding documents belonging to the same technical field.
  • the same technical field may be expanded to similar technical fields.
  • the evaluation server 1000 includes a same field item in the evaluation items to determine whether the preceding or succeeding literature belongs to the same or similar field as the technical field to which the target patent belongs.
  • the number of prior documents that belong to the same or similar field as the technical field to which the target patent belongs can be referred to as P(U)
  • the number of prior documents that do not belong can be referred to as P(U -1 ).
  • the number of subsequent documents that belong to the same or similar field as the technical field to which the target patent belongs can be referred to as S(U)
  • the number of subsequent documents that do not belong can be referred to as S(U -1 ).
  • the evaluation server 1000 may determine a fourth weight ( ⁇ ) corresponding to a case where the preceding or succeeding literature belongs to the same or similar technical field.
  • the evaluation server 1000 may calculate a value score based on the preceding frequency value and the subsequent frequency value adjusted by the set fourth weight ⁇ .
  • a value score can be calculated for the number of preceding documents P(U) and the number of succeeding documents S(U) in the same or similar field.
  • a value score can be calculated for previous and subsequent literature that is not in the same or similar field. This can be expressed as a formula as shown in [Equation 5] below.
  • V ⁇ *P + ⁇ *S + ⁇ *PS + ⁇ *(P(U)+S(U)) + (1- ⁇ )*(P(U -1 )+S(U -1 ))
  • the evaluation server 1000 reflects the later frequency of appearance in the same or similar field more than the preceding appearance frequency to obtain a value score (V ) can be calculated.
  • the evaluation server 1000 may assign a higher weight to the preceding and subsequent appearing frequencies as the concentration of the technical field corresponding to the preceding or succeeding literature increases.
  • the degree of concentration in the technology field is an indicator of how leading the technology field (field of focus) is the technology field of prior and subsequent literature in the entire technology field. It is expressed as the ratio of prior and subsequent documents belonging to a specific technology field to the total number of prior and subsequent documents. can be calculated.
  • the specific technology field may be an input value, and the evaluation server 1000 may automatically set the specific technology field as the main technology field.
  • the evaluation server 1000 may determine that the technology field concentration item of the preceding or following literature be included in the evaluation items. At this time, similar to the technology field similarity described above, the evaluation server 1000 determines whether the preceding or succeeding literature belongs to a specific technology field (focus field).
  • the embodiment of [Equation 5] described above is modified and the number of prior documents belonging to a specific technical field is referred to as P(U), and the number of prior documents that do not belong is referred to as P(U -1 ). can do.
  • the number of subsequent documents that belong to a specific technical field can be referred to as S(U)
  • the number of subsequent documents that do not belong to a specific technical field can be referred to as S(U -1 ).
  • the evaluation server 1000 may determine a fifth weight ( ⁇ ) corresponding to the case where the preceding or succeeding literature belongs to a specific technical field. At this time, the fifth weight ( ⁇ ) can be set higher as the concentration of a specific technology field increases, that is, the field of preceding and following literature is more likely to be a leading technology field in the field.
  • the evaluation server 1000 assigns high weight to the preceding and succeeding occurrence frequencies when the applicant type of the applicant corresponding to the preceding or succeeding document satisfies a specific condition. can do. For example, a high weight can be given to the frequency of appearance of prior or subsequent documents that can be classified as applicants of large corporations. This is because certain groups of applicants, such as applicants from large corporations, are likely to lead the development of the relevant technology field and hold patents with high business value.
  • the specific applicant type may be an input value, and the evaluation server 1000 may automatically set the specific applicant type as the main applicant.
  • the evaluation server 1000 may determine that the applicant type item of the preceding or succeeding document be included in the evaluation item. At this time, similar to the technical field similarity described above, the evaluation server 1000 determines whether the applicant type corresponding to the preceding or succeeding document belongs to a specific applicant type.
  • the number of prior documents belonging to a specific applicant type is P(U)
  • the number of prior documents that do not belong is P(U). -1 ).
  • the evaluation server 1000 may determine a sixth weight ( ⁇ ) corresponding to a case where the applicant type of the preceding or succeeding document belongs to a specific applicant type.
  • the evaluation server 1000 may calculate a value score by considering the vector value of each component extracted from the claims of the target patent.
  • the vector value of the component means the vector distance value between the component and the matched text in the language learning model used to generate a matching composition that satisfies the matching condition.
  • Figure 6 is a graph illustrating component vector values according to an embodiment of the present invention.
  • the component ⁇ e 1 ⁇ of the target patent may have the matched text ⁇ t 11 , t 12 , t 13 ,... ⁇ as a similar word.
  • the component ⁇ e 2 ⁇ of the target patent may have the matched text ⁇ t 21 , t 22 , t 23 ,... ⁇ as a similar word.
  • the x, y, and z lines may each represent a semantic unit. In this case, as shown in FIG.
  • a vector value including the direction and vector distance value between ⁇ e 1 ⁇ and ⁇ t 11 , t 12 , t 13 ,... ⁇ , ⁇ e 2 ⁇ A vector value including the direction and vector distance values between and ⁇ t 21 , t 22 , t 23 ,... ⁇ can be obtained.
  • the vector distance values between ⁇ e 1 ⁇ and ⁇ t 11 , t 12 , t 13 ,... ⁇ are ⁇ e 2 ⁇ and ⁇ t 21 , t 22 , t 23. ,... ⁇ tends to be smaller than the vector distance between them.
  • ⁇ e 2 ⁇ can be seen as having a wide similarity range of matched texts, and therefore, the preceding and following documents corresponding to the matched texts of ⁇ e 2 ⁇ may have little relevance to the actual ⁇ e 2 ⁇ component. It can be assumed that
  • the evaluation server 1000 considers the above-described vector value characteristics for each component, and determines the value score by calculating the preceding and following frequencies corresponding to components with large vector distance values. It can be reflected less.
  • the preceding and succeeding description frequencies corresponding to components with large vector distance values can be reflected less in the value score.
  • the evaluation server 1000 may set a component vector value item corresponding to each of one or more components extracted from the claims of the target patent as an evaluation item. Additionally, the evaluation server 1000 may set a seventh weight that adjusts the preceding or following appearing frequency value for each component in relation to the component vector value item. At this time, the seventh weight corresponding to the component ⁇ e i ⁇ can be referred to as ⁇ i . The evaluation server 1000 uses the calculated seventh weight to calculate a value score (V ) can be calculated.
  • a value score can be calculated by reflecting the characteristics of each component by assigning a higher weight to the frequency of occurrence of preceding and following documents with a high frequency of occurrence of components with a narrow similarity range of the matched text.
  • Figure 7 is a graph illustrating an increase in the frequency of appearance of each component according to an embodiment of the present invention.
  • the evaluation server 1000 may include an item with an increase in frequency of appearance trend corresponding to each component.
  • Figures 7 (a) and (b) are graphs illustrating the preceding and succeeding appearance frequency values for each component when the target patent application date is set as the reference date, showing an increasing trend in appearance frequency corresponding to each component. It shows.
  • configuration a, configuration b, and configuration c all increase in appearance frequency over time, so there is a trend of increasing appearance frequency, but configuration a in particular shows a sharp change in slope at a specific point in time (dotted circle). It can be seen that the frequency of appearance increases. In this way, when the appearance frequency corresponding to a specific component shows a rapid increase, for example, when the change in appearance frequency during a preset time is more than a threshold, the evaluation server 1000 weights the appearance frequency value corresponding to the configuration. It can be set high.
  • the evaluation server 1000 determines the corresponding configuration.
  • the weight of the frequency of appearance corresponding to can be set high.
  • the evaluation server 1000 may set the weight of the frequency of appearance corresponding to the corresponding configuration to a low value or to a negative value.
  • the weight of the frequency of appearance corresponding to the components belonging to the field can be set high.
  • the evaluation server 1000 may set the value of the eighth weight ⁇ a to be large.
  • the evaluation server 1000 may calculate the value score (V) based on the preceding frequency of appearance (Pc a ) and the subsequent frequency of appearance (Sc a ) for each component adjusted by the set eighth weight. .
  • the evaluation server 1000 checks whether the matching configuration exists in a specific range of preceding and following documents, and sets a ninth weight that increases or decreases the frequency of appearance of the preceding and following documents in which the matching configuration is counted when it is described in a specific range. You can.
  • the specific scope may be [technology underlying the invention] or [claims]. If a matching configuration exists in the [background technology of the invention] of a prior or subsequent document, the evaluation server 1000 may assign a ninth weight that reduces the counted appearance frequency of the matching configuration. Conversely, when a matching configuration exists in the [claims] of a preceding or following document, the evaluation server 1000 may assign a ninth weight that increases the frequency of appearance of the preceding or following document in which the matching configuration is counted.
  • the evaluation server 1000 may increase the weight by which the corresponding document is counted in the preceding or succeeding appearance frequency. This is because the more multiple components of the target patent appear in one document, the higher the relevance of the document to the target patent. More specifically, when a plurality of components appear in a specific prior document, the evaluation server 1000 may assign a tenth weight so that the weight counted for the frequency of prior appearance of the prior document increases.
  • Figure 8 is a block diagram of a server according to one embodiment.
  • the server 1100 of FIG. 8 may be an evaluation server 1000.
  • the server 1100 may include a communication unit 1110, a processor 1120, and a DB 1130.
  • the server 1100 of FIG. 11 only components related to the embodiment are shown. Accordingly, those skilled in the art can understand that other general-purpose components may be included in addition to the components shown in FIG. 11.
  • the communication unit 1110 may include one or more components that enable wired/wireless communication with other nodes.
  • the communication unit 1110 may include at least one of a short-range communication unit (not shown), a mobile communication unit (not shown), and a broadcast receiver (not shown).
  • the DB 1130 is hardware that stores various data processed within the server 1100, and can store programs for processing and control of the processor 1120. DB 1130 can store payment information, user information, etc.
  • the DB 1130 is a random access memory (RAM) such as dynamic random access memory (DRAM), static random access memory (SRAM), read-only memory (ROM), electrically erasable programmable read-only memory (EEPROM), CD- It may include ROM, Blu-ray or other optical disk storage, a hard disk drive (HDD), a solid state drive (SSD), or flash memory.
  • RAM random access memory
  • DRAM dynamic random access memory
  • SRAM static random access memory
  • ROM read-only memory
  • EEPROM electrically erasable programmable read-only memory
  • CD- It may include ROM, Blu-ray or other optical disk storage, a hard disk drive (HDD), a solid state drive (SSD), or flash memory.
  • the processor 1120 controls the overall operation of the server 1100.
  • the processor 1120 can generally control the input unit (not shown), display (not shown), communication unit 1110, DB 1130, etc. by executing programs stored in the DB 1130.
  • the processor 1120 can control the operation of the server 1100 by executing programs stored in the DB 1130.
  • the processor 1120 may control at least some of the operations of the game server 2000 or the mediation server 3000 described above with reference to FIGS. 1 to 10 .
  • the processor 1120 includes application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs), controllers, and microcontrollers. It may be implemented using at least one of micro-controllers, microprocessors, and other electrical units for performing functions.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • controllers and microcontrollers. It may be implemented using at least one of micro-controllers, microprocessors, and other electrical units for performing functions.
  • Embodiments according to the present invention may be implemented in the form of a computer program that can be executed through various components on a computer, and such a computer program may be recorded on a computer-readable medium.
  • the media includes magnetic media such as hard disks, floppy disks, and magnetic tapes, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, and ROM.
  • RAM, flash memory, etc. may include hardware devices specifically configured to store and execute program instructions.
  • the computer program may be designed and configured specifically for the present invention, or may be known and available to those skilled in the art of computer software.
  • Examples of computer programs may include not only machine language code such as that created by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • methods according to various embodiments of the present disclosure may be included and provided in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • the computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store (e.g. Play StoreTM) or between two user devices. It may be distributed in person or online (e.g., downloaded or uploaded). In the case of online distribution, at least a portion of the computer program product may be at least temporarily stored or temporarily created in a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server.
  • a machine-readable storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Economics (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Electromagnetism (AREA)
  • Toxicology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 의하면, 대상 특허의 서지사항 정보 및 청구항 텍스트를 획득하고, 상기 청구항 텍스트로부터 하나 이상의 구성 요소를 추출하는 단계; 상기 하나 이상의 구성 요소 각각과 매칭 조건을 만족하는 하나 이상의 매칭 구성을 결정하고, 상기 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 획득하는 단계; 상기 하나 이상의 선행 문헌의 개수를 선행 출현 빈도로, 상기 하나 이상의 후행 문헌의 개수를 후행 출현 빈도로 산출하는 단계; 상기 선행 출현 빈도 또는 상기 후행 출현 빈도를 포함하는 하나 이상의 평가 항목을 결정하는 단계; 상기 하나 이상의 평가 항목에 기초하여 상기 대상 특허의 가치 점수를 산출하는 단계; 를 포함하는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법이 제공된다.

Description

청구항 분석에 기초하여 문헌의 가치를 평가하는 방법 및 그 방법을 수행하는 서버
아래의 실시예들은 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법 및 그 방법을 수행하는 서버에 관한 것이다.
특허의 가치를 평가하는 것은 특정 기술, 발명, 또는 아이디어가 제도적으로 권리화된 특허권의 상업적 가치를 판단하는 과정이다. 특허는 특정 발명물이나 기술에 대한 독점적인 권리를 보장하므로, 해당 기술을 보다 자세히 평가하여 비즈니스적인 측면에서의 유용성과 잠재적인 이익을 확인하는 과정이기도 하다.
특히, 특허의 가치를 평가하는 것은 투자 결정 또는 기업의 가치를 평가하기 위한 필수적인 사전 단계이다. 만약 특허의 가치를 오판단하는 경우 잘못된 특허 전략으로 인한 부적절한 라이선스 협상, 투자자와의 신뢰 상실, 그리고 비효율적인 특허 포트폴리오 관리 등 다양한 문제가 발생할 수 있다. 따라서 특허의 가치 평가는 기업의 비즈니스에 큰 영향을 미치는 중요한 활동으로 간주될 수 있다.
그러나, 이러한 중요성에도 불구하고 기존의 특허 가치 평가는 주로 수동적이고 주관적인 방식으로 행해져왔다. 예를 들어, 평가자 또는 검토자들이 직접 특허 문헌들을 읽어보고, 수작업으로 관련된 기술 문헌들을 검색하며 비교분석하여 평가 대상 특허의 가치를 평가하였다. 그러나 이러한 방식은 많은 시간과 비용이 소요되며, 주관적인 판단이 개입되어 정확성과 일관성이 낮다는 문제점이 있었다.
본 발명의 과제는 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 과제 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명이 해결하고자 하는 과제 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다..
본 발명의 일 실시예에 따르면, 대상 특허의 서지사항 정보 및 청구항 텍스트를 획득하고, 상기 청구항 텍스트로부터 하나 이상의 구성 요소를 추출하는 단계; 상기 하나 이상의 구성 요소 각각과 매칭 조건을 만족하는 하나 이상의 매칭 구성을 결정하고, 상기 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 획득하는 단계; 상기 하나 이상의 선행 문헌의 개수를 선행 출현 빈도로, 상기 하나 이상의 후행 문헌의 개수를 후행 출현 빈도로 산출하는 단계; 상기 선행 출현 빈도 또는 상기 후행 출현 빈도를 포함하는 하나 이상의 평가 항목을 결정하는 단계; 상기 하나 이상의 평가 항목에 기초하여 상기 대상 특허의 가치 점수를 산출하는 단계; 를 포함하는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법이 제공된다.
본 발명에 있어서, 상기 가치 점수는 상기 하나 이상의 평가 항목에 각각 대응하는 가중치를 이용하여 산출되고, 상기 선행 출현 빈도에 대응하는 제1 가중치와 상기 후행 출현 빈도에 대응하는 제2 가중치가 존재하는 경우, 상기 가치 점수는 상기 제1 가중치에 의해 조정된 상기 선행 출현 빈도 값과 상기 제2 가중치에 의해 조정된 상기 후행 출현 빈도 값에 기초하여 산출될 수 있다.
본 발명에 있어서, 상기 선행 출현 빈도에 대응하는 제1 가중치는 상기 후행 출현 빈도에 대응하는 제2 가중치보다 작을 수 있다.
본 발명에 있어서, 상기 선행 출현 빈도에 대응하는 제1 가중치는 음(negative)의 값을 갖는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
본 발명에 있어서, 상기 평가 항목은 상기 선행 출현 빈도 및 상기 후행 출현 빈도를 합산한 전체 출현 빈도를 포함하고, 상기 가치 점수는 상기 전체 출현 빈도에 대응하는 제3 가중치 값에 의해 조정된 상기 전체 출현 빈도 값에 기초하여 산출될 수 있다.
본 발명에 있어서, 상기 평가 항목은 상기 선행 문헌 또는 후행 문헌이 상기 대상 특허가 속한 기술 분야와 동일 또는 유사한 기술 분야에 속하였는지 여부를 판단하는 동일 분야 항목을 포함하고, 상기 선행 문헌 또는 후행 문헌이 상기 동일 또는 유사한 기술 분야에 속한 경우에 대응하는 제4 가중치가 존재하는 경우, 상기 가치 점수는, 상기 제4 가중치에 의해 조정된 상기 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출될 수 있다.
본 발명에 있어서, 상기 선행 출현 빈도에 대응하는 제4 가중치는 상기 후행 출현 빈도에 대응하는 제4 가중치보다 작을 수 있다.
본 발명에 있어서, 상기 선행 문헌 또는 후행 문헌이 상기 대상 특허가 속한 기술 분야와 동일 또는 유사한 기술 분야에 속하였는지 여부는 상기 대상 특허가 속한 업종 코드 또는 산업 분류 코드에 기초하여 결정될 수 있다.
본 발명에 있어서, 상기 평가 항목은 상기 선행 문헌 또는 후행 문헌의 기술 분야 집중도 항목을 포함하고, 상기 기술 분야 집중도와 관련하여 하나 이상의 상기 선행 문헌 또는 후행 문헌이 특정 기술 분야에 속한 경우에 대응하는 제5 가중치가 존재하는 경우, 상기 가치 점수는, 상기 제5 가중치에 의해 조정된 상기 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출될 수 있다.
본 발명에 있어서, 상기 평가 항목은 상기 선행 문헌 또는 후행 문헌의 출원인 종류 항목을 포함하고, 상기 출원인 종류와 관련하여 하나 이상의 상기 선행 문헌 또는 후행 문헌이 특정 출원인 종류에 속한 경우에 대응하는 제6 가중치가 존재하는 경우, 상기 가치 점수는, 상기 제6 가중치에 의해 조정된 상기 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출될 수 있다.
본 발명에 있어서, 상기 평가 항목은 상기 대상 특허의 청구항으로부터 추출된 하나 이상의 구성 요소 각각에 대응하는 구성 요소 벡터값 항목을 포함하고, 상기 구성 요소 벡터값 항목과 관련하여, 각각의 상기 구성 요소 별로 상기 선행 출현 빈도 또는 상기 후행 출현 빈도 값을 조정하는 제7 가중치가 존재하는 경우, 상기 가치 점수는, 상기 제7 가중치에 의해 조정된 상기 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출될 수 있다.
본 발명에 있어서, 상기 하나 이상의 구성 요소 각각에 대응하는 구성 요소 벡터값은 상기 구성 요소와 매칭된 텍스트 간의 벡터 거리가 멀수록 증가하고, 제7 가중치는 상기 구성 요소 벡터값과 음(negative)의 상관관계를 가질 수 있다.
본 발명에 있어서, 상기 대상 특허의 기준일은 상기 선행 문헌의 기준일보다 느리고, 상기 후행 문헌의 기준일보다 빠를 수 있다.
본 발명에 있어서, 하나 이상의 상기 매칭 구성이 상기 선행 문헌에 기재된 빈도를 선행 기재 빈도로, 상기 매칭 구성이 상기 후행 문헌에 기재된 빈도를 후행 기재 빈도로 산출하는 단계;를 더 포함하고, 상기 평가 항목은 상기 선행 기재 빈도 또는 상기 후행 기재 빈도를 포함할 수 있다.
본 발명에 있어서, 상기 선행 출현 빈도는, 해당 문헌에 포함되는 하나 이상의 상기 매칭 구성의 기재 빈도가 기설정된 값 이상인 선행 문헌의 개수이고, 상기 후행 출현 빈도는, 해당 문헌에 포함되는 하나 이상의 상기 매칭 구성의 기재 빈도가 기설정된 값 이상인 후행 문헌의 개수일 수 있다.
본 발명에 있어서, 상기 평가 항목은 상기 대상 특허의 청구항으로부터 추출된 하나 이상의 구성 요소 각각에 대응하는 출현 빈도 증가 추세 항목을 포함하고, 상기 가치 점수는, 각각의 상기 구성 요소 각각에 대응하는 출현 빈도 증가 추세 항목에 관련된 제8 가중치에 의해 조정된 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출될 수 있다.
본 발명의 일 실시예에 따르면, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법을 수행하는 서버로서, 상기 서버는 프로세서를 포함하고, 상기 프로세서는, 대상 특허의 서지사항 정보 및 청구항 텍스트를 획득하고, 상기 청구항 텍스트로부터 하나 이상의 구성 요소를 추출하며, 상기 하나 이상의 구성 요소 각각과 매칭 조건을 만족하는 하나 이상의 매칭 구성을 결정하고, 상기 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 획득하며, 상기 하나 이상의 선행 문헌의 개수를 선행 출현 빈도로, 상기 하나 이상의 후행 문헌의 개수를 후행 출현 빈도로 산출하고, 상기 선행 출현 빈도 또는 상기 후행 출현 빈도를 포함하는 하나 이상의 평가 항목을 결정하며, 상기 하나 이상의 평가 항목에 기초하여 상기 대상 특허의 가치 점수를 산출하는, 서버가 제공될 수 있다.
또한, 본 발명의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.
전술한 본 개시의 과제 해결 수단에 의하면, 청구항 분석에 기초하여 문헌의 가치를 평가할 수 있다.
본 개시의 다른 과제 해결 수단 중 하나에 의하면, 청구항 분석에 기초하여 분석 대상 문헌의 구성 요소를 추출하고, 구성 요소와 매칭된 구성들이 출현하는 선후행 문헌의 수에 따라 분석 대상 문헌의 가치를 판단할 수 있다.
본 개시의 다른 과제 해결 수단 중 하나에 의하면, 구성 요소와 매칭된 구성들이 출현하는 선행 문헌의 수보다 후행 문헌의 수에 더 가중치를 두고 분석 대상 문헌의 가치를 판단할 수 있다.
도 1 은 일 실시예에 따른 평가 서버, 사용자 단말 및 문헌 DB를 포함하는 시스템도이다.
도 2 는 본 발명의 일 실시예를 시계열적으로 나타낸 순서도이다.
도 3 은 본 발명의 일 실시예에 따른 문헌을 기설정된범위로 구획한 예를 나타내는 것이다.
도 4 는 본 발명의 일 실시예에 따른 문헌들의 기준일 순서를 특허 타임라인 상에 나타낸 것이다.
도 5 는 일 실시예에 따른 구성 요소에 대응하는 선행 출현 빈도 및 후행 출현 빈도, 그리고 선행 기재 빈도 및 후행 기재 빈도의 관계를 나타낸 테이블이다.
도 6 은 본 발명의 일 실시예에 따른 구성 요소 벡터값을 예시한 그래프이다.
도 7 은 본 발명의 일 실시예에 따른 구성 요소 별 출현 빈도 증가 추세 를 예시한 그래프이다.
도 8 은 본 발명의 일 실시예에 따른 서버의 블록도이다.
본 발명의 일 실시예에 따르면, 대상 특허의 서지사항 정보 및 청구항 텍스트를 획득하고, 상기 청구항 텍스트로부터 하나 이상의 구성 요소를 추출하는 단계; 상기 하나 이상의 구성 요소 각각과 매칭 조건을 만족하는 하나 이상의 매칭 구성을 결정하고, 상기 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 획득하는 단계; 상기 하나 이상의 선행 문헌의 개수를 선행 출현 빈도로, 상기 하나 이상의 후행 문헌의 개수를 후행 출현 빈도로 산출하는 단계; 상기 선행 출현 빈도 또는 상기 후행 출현 빈도를 포함하는 하나 이상의 평가 항목을 결정하는 단계; 상기 하나 이상의 평가 항목에 기초하여 상기 대상 특허의 가치 점수를 산출하는 단계; 를 포함하는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법이 제공된다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함하다” 또는 “가지다” 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다.“매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
이하에서 사용자가 수행하는 동작은, 사용자가 사용자 단말을 통해 수행하는 동작을 의미할 수 있다. 일 예로서, 사용자 단말에 매립되거나 부가적으로 연결된 입력 장치(예를 들어, 키보드, 마우스 등)를 통하여, 사용자가 수행하는 동작에 대응하는 명령(command)이 사용자 단말에 입력될 수 있다. 다른 예로서, 사용자 단말의 터치 스크린을 통하여, 사용자가 수행하는 동작에 대응하는 명령이 사용자 단말에 입력될 수 있다. 이 때, 사용자가 수행하는 동작은 소정의 제스처를 포함할 수 있다. 예를 들어, 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭 등이 포함될 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1 은 일 실시예에 따른 평가 서버, 사용자 단말 및 문헌문헌 DB를 포함하는 시스템도이다.
일 실시예에 따른 시스템은 평가 서버(1000), 사용자 단말(2000) 및 문헌 DB(3000)을 포함할 수 있다. 비록 도 1 의 실시예에서는 사용자 단말(2000) 및 문헌DB(3000)가 각각 하나의 물리적 구성으로 이해될 수 있으나 이는 일 실시예일 뿐 사용자 단말(2000) 및 문헌 DB(3000)의 수는 본 발명의 핵심적 사상에 반하지 않는 정도에서 자유롭게 결정될 수 있다.
본 발명의 일 실시예에서, 평가 서버(1000)는 대상 특허의 청구범위를 분석하여 대상 특허의 가치를 평가할 수 있다. 이를 위해, 평가 서버(10000)는 대상 특허의 청구범위에서 구성 요소를 추출하고, 선행 문헌 또는 후행 문헌에 구성 요소와 매칭조건을 만족하는 텍스트가 출현한 빈도를 산출하고, 산출된 빈도에 기초하여 대상 특허의 가치 점수를 산출한다. 비록 본 명세서에서는 가치 점수를 산정하는 대상을 특허로 하여 설명하지만, 반드시 이에 제한되지 않고 모든 가치 평가가 필요한 문헌에 본 발명이 사용될 수 있다. 평가 서버(1000)의 구체적인 동작에 대해서는 후술하기로 한다.
사용자 단말(2000)은 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, 랩톱 및 기타 모바일 또는 비모바일 컴퓨팅 디바이스일 수 있다. 또한, 사용자 단말(2000)은 통신 기능 및 데이터 프로세싱 기능을 구비한 안경, 헤어 밴드 등의 웨어러블 디바이스일 수 있다. 사용자 단말(2000)은 네트워크를 통해 다른 장치와 통신을 수행할 수 있는 모든 종류의 디바이스를 포함할 수 있다. 일 실시예에 따르면, 평가 서버(1000)는 사용자 단말(2000)로부터 가치 평가 대상이 되는 대상 특허의 정보를 획득할 수 있으며, 산출된 대상 특허의 가치 점수를 사용자 단말(2000)에 반환할 수 있다.
문헌DB(3000)는 인터넷 또는 기타 통신망을 통해 접근 가능한 모든 공개 문서를 포함하는 온라인 데이터베이스일 수 있다. 보다 상세히, 문헌DB(3000)는 분야의 제한 없이 문헌 자료들을 수록하는 공개 데이터베이스일 수 있으며, 사용자들은 컴퓨팅 장치를 통해 해당 데이터베이스에 접속하여 선행 문헌 혹은 후행 문헌을 검색할 수 있다.
본 발명의 구체적 실시예에서, 문헌DB(3000)는 특허와 관련된 정보들이 수록된 데이터베이스로서, 다양한 국가의 특허청이나 기타 기관에서 운영하는 데이터베이스일 수 있다. 본 발명의 일 실시예에 따른 문헌DB(3000)는 특허에 관련된 문서들을 수집, 저장, 관리하는 역할을 하는 것으로서, 무료로 공개되어 있으며, 특허 검색이나 기술 조사에 활용될 수 있다. 특히, 본 발명의 평가 서버(1000)는 매칭된 텍스트를 포함하는 선행 문헌 또는 후행 문헌을 문헌DB(3000)로부터 획득할 수 있다.
네트워크는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 위성 통신망 및 이들의 상호 조합을 포함하며, 도 1에 도시된 각 네트워크 구성 주체가 서로 원활하게 통신을 할 수 있도록 하는 포괄적인 의미의 데이터 통신망이며, 유선 인터넷, 무선 인터넷 및 모바일 무선 통신망을 포함할 수 있다. 또한, 무선 통신은 예를 들어, 무선 랜(Wi-Fi), 블루투스, 블루투스 저 에너지(Bluetooth low energy), 지그비, WFD(Wi-Fi Direct), UWB(ultra wideband), 적외선 통신(IrDA, infrared Data Association), NFC(Near Field Communication) 등이 있을 수 있으나, 이에 한정되는 것은 아니다.
도 2 는 본 발명의 일 실시예를 시계열적으로 나타낸 순서도이다.
먼저, 평가 서버(1000)는 대상 특허의 서지사항 정보 및 청구항 텍스트를 획득하고, 청구항 텍스트로부터 하나 이상의 구성 요소를 추출한다(201).
다음으로, 평가 서버(1000)는 하나 이상의 구성 요소 각각과 매칭 조건을 만족하는 하나 이상의 매칭 구성을 결정하고, 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 획득한다(202).
다음으로, 평가 서버(1000)는 하나 이상의 선행 문헌의 개수를 선행 출현 빈도로, 하나 이상의 후행 문헌의 개수를 후행 출현 빈도로 산출한다(203).
다음으로, 평가 서버(1000)는 선행 출현 빈도 또는 후행 출현 빈도를 포함하는 하나 이상의 평가 항목을 결정한다(204).
다음으로, 평가 서버(1000)는 하나 이상의 평가 항목에 기초하여 대상 특허의 가치 점수를 산출한다(205).
이하에서는 도 2 의 단계들에 대해 보다 상세히 살펴보기로 한다.
먼저, 평가 서버(1000)는 분석 대상 문헌을 획득한다. 일 실시예에 따르면 분석 대상 문헌은 특허 문헌일 수 있고, 이때 평가 서버(1000)는 대상 특허의 서지사항 정보 및 청구항 텍스트를 획득한다. 이때, 서지사항 정보 및 청구항 텍스트는 전술한 사용자 단말(2000)로부터 획득하거나, 혹은 평가 서버(1000)가 자동으로 결정할 수 있다
도 3 은 본 발명의 일 실시예에 따른 문헌을 기설정된 범위로 구획한 예를 나타내는 것이다.
도 3 에 예시된 문헌(300)은 본 발명의 일 실시예에 따른 대상 특허의 예시로서, 문헌(300)은 특허 명세서일 수 있다. 한편, 문헌(300)은 대상 특허 뿐만 아니라 선행 문헌 및 후행 문헌의 예시로 사용될 수 있다. 다만, 도 3 에 예시된 문헌(300)의 형식적 특징은 일 예시일 뿐이며 반드시 이에 한정되지 않는다.
일 실시예에 따르면, 문헌(300)은 하나 이상의 범위들(310, 320, 330)으로 구획될 수 있다. 평가 서버(1000)는 대상 특허, 선행 문헌 및 후행 문헌에 대응하는 문헌(300)을 획득하고, 이로부터 하나 이상의 범위들(310, 320, 330)의 정보를 얻을 수 있다. 이 범위들(310, 320, 330)은 문헌(300)의 서지사항 또는 특허 명세서의 구조에 대응하는 것일 수 있다.
한편, 본 명세서에서는 발명 내용의 혼란을 방지하기 위해, 본 명세서의 분석 대상인 문헌(300)의 범위를 일컫는 명칭으로서 특허청구범위, 청구항, 도면 등의 용어는 작은 따옴표(single quotation mark)를 부가하여 '발명의 명칭', '발명을 실시하기 위한 구체적인 내용', '특허청구범위', '청구항', '도면'등으로 기재할 수 있다. 이와 달리 본 명세서 자체의 발명의 명칭, 발명을 실시하기 위한 구체적인 내용, 특허청구범위, 청구항, 도면 등은 작은 따옴표의 부가 없이 그대로 기재할 수 있다.
보다 상세히, 문헌(300)의 제1 범위(310), 제2 범위(320), 제3 범위(330)는 각 범위의 제목을 이용하여 구획될 수 있다. 제목은 [ ]와 같은 특정한 구분 기호로 구분될 수 있다. 또한, [제목] 하단에 기재된 텍스트들은 [제목]과 관련된 세부 정보를 포함할 수 있다. 예를 들어, 도 3 을 참조하면 제1 범위(310)는 '발명의 명칭'이라는 제목(311)을 포함하고, 제목(311)의 하단에 해당 특허 명세서의 명칭을 정의하는 텍스트를 포함할 수 있다. 마찬가지로, 도 3 을 참조하면 제2 범위(320)는 '발명의 효과'라는 제목(321)을 포함하고, 제목(321)의 하단에 해당 특허 명세서에 기재된 발명을 실시하였을 때 얻을 수 있는 효과가 기재된 텍스트를 포함할 수 있다.
일 실시예에 따르면, 평가 서버(1000)는 대상 특허에 대응하는 문헌(300)의 서지사항 정보 및 청구항 텍스트를 추출할 수 있다. 앞에서 언급했던 대로, 대상 특허에 대응하는 문헌(300)은 특허 명세서일 수 있으며 특허 명세서의 구조를 가질 수 있다. 구체적인 실시예에서, 평가 서버(1000)는 대상 특허의 서지사항 정보로서 출원 일자 또는 공개 일자를 획득할 수 있다. 그러나 반드시 이에 한정되지 않고 평가 서버(1000)가 획득하는 서지사항 정보는 출원 번호, 공개 번호, 출원 일자, 공개 일자, 출원인 및 발명자 정보 중 하나 이상을 포함할 수 있다.
계속하여, 평가 서버(1000)는 대상 특허에 대응하는 문헌(300)의 일 범위로부터 청구항 텍스트를 추출할 수 있다. 도 3 의 실시예를 다시 참조하면, 제3 범위(330)는 '청구범위'라는 제목(331)을 포함하고, 제목(331)의 하단부에 대상 특허의 특허권에 대한 법적 설명을 나타내며 발명의 경계를 정의하는 청구항 텍스트를 포함할 수 있다.
이때, '청구범위'라는 제목(331) 텍스트를 본 명세서에서는 청구항 텍스트라 정의하기로 한다. 이때, 청구항 텍스트는 제3 범위(330)에서 볼 수 있는 바와 같이 [청구항 #]와 같은 청구항 번호를 지시하는 소제목을 가질 수 있으나 본 명세서에서는 소제목에 구애되지 않고 전체 '청구범위'를 기준으로 청구항 텍스트를 정의하기로 한다.
또한, 평가 서버(1000)는 청구항 텍스트로부터 하나 이상의 구성 요소를 추출할 수 있다. 본 발명의 일 실시예에 따르면, 구성 요소는 대상 특허의 권리를 구성하는 것에 있어서 가장 기본적인 의미 단위일 수 있으나, 반드시 이에 한정되지 않고 특허 발명의 핵심적인 부분들을 명확히 정의하는데 사용되는 모든 텍스트를 의미할 수 있다. 한편, 평가 서버(1000)는 구성 요소를 추출할 때, 단어 단위로 추출할 수 있다. 구체적인 예를 들어, 추출된 구성 요소는 '전기차', '전기자동차' 등일 수 있다.
다른 실시예에서, 평가 서버(1000)는 구성 요소를 추출할 때 구문 또는 문장 단위로 추출할 수 있다. 이때 추출된 구성 요소는 개별적인 단어/구문/문장이 갖는 기술적인 측면을 고려하여 논리적으로 결합한 결과일 수 있다. 보다 상세히, 평가 서버(1000)는 청구항 텍스트에서 기술적인 의미를 가진 명사구 또는 동사구로 표현된 개별 요소들을 식별하고, 관련성 있는 기술적 의미를 가진 개별 요소들을 결합하여 완전한 구문 또는 문장으로 표현된 구성 요소를 추출할 수 있다. 예를 들어, 추출된 청구항 텍스트가 "차량의 다양한 변수인 순위변수로 저장하는 데이터베이스; 상기 데이터베이스를 기반으로 상기 순위변수를 상호 비교하여 순위점수를 산출하는 정지알고리즘; 및 상기 정지알고리즘으로 정지된 상기 충전부 중 상기 순위점수가 높은 순서부터 우선적으로 상기 충전부의 정지를 해제하여 상기 차량을 재충전하는 재충전알고리즘;을 포함하는 차량 위치에 따라 충전 가능한 전기자동차 충전시스템."이이라고 가정하면, 평가 서버(1000)는 구성 요소로서 "차량의 다양한 변수인 순위변수로 저장하는 데이터베이스" 라는 구문을 추출할 수 있다.
본 발명의 일 실시예에 따르면, 평가 서버(1000)는 청구항 텍스트로부터 구성 요소를 추출하기 위하여 텍스트 기반의 학습 모델을 사용할 수 있다. 구체적인 실시예로, 평가 서버(1000)는 자연어 처리(Natural Language Processing, NLP) 기술을 사용할 수 있다. 평가 서버(1000)는 청구항 텍스트를 전처리한 후, 단어/구문/문장 수준 토큰화를 수행하고, 사전 학습된 언어 모델을 활용하여 특허 청구항의 구성 요소를 찾기에 적합한 모델을 학습한 후 청구항 텍스트에서 유의미한 구성 요소를 추출할 수 있다.
다음으로, 평가 서버(100)는 결정된 구성 요소와 매칭 조건을 만족하는 하나 이상의 매칭 구성을 결정한다. 매칭 구성이란, 대상 특허의 청구항 텍스트로부터 추출한 구성 요소와 동일 또는 유사한 의미를 가지는 텍스트들일 수 있다.
예를 들어, 대상 특허의 청구항 텍스트로부터 추출된 구성 요소의 개수가 총 E 개일 때, 각 구성 요소를 {e1, e2, e3, ..., eE}라 할 수 있다. 또한, 각각의 구성 요소에 대응하는 매칭 구성을 tij(i는 구성 요소의 순서, j는 매칭 구성의 순서)라 할 수 있다. 일 실시예에 따르면 복수개의 매칭 구성을 갖는 구성 요소도 존재하지만, 1개의 매칭 구성을 갖는 구성 요소도 존재할 수 있다.
구체적인 실시예에서, 추출된 구성 요소가 "강화 학습된 컴퓨터 비전을 탑재한 전기 자동차"일 경우, 매칭 조건인 유사 조건을 만족하는 매칭 구성은 "강화 학습으로 훈련된 컴퓨터 비전을 갖춘 전기차", "강화 학습과 컴퓨터 비전 기술이 결합된 전동차", "AI 강화 학습으로 향상된 컴퓨터 비전을 탑재한 전기차" 등이 존재할 수 있다. 일 실시예에 따르면, 평가 서버(1000)는 하나의 구성 요소에 대하여 복수개의 매칭 구성을 결정하기 위하여 텍스트 유사도를 측정하는 다양한 학습 방법을 사용할 수 있다.
일 실시예에 따르면, 선행 기술들 또는 후행 기술들과 대상 특허와의 관련성을 알아내기 위해 청구항의 구성 요소와 매칭 조건을 만족하는 텍스트, 즉 매칭 구성을 먼저 결정하는 것은 중요한 작업이다. 결정된 매칭 구성을 이용하여, 매칭 구성을 포함하는 선행 문헌 또는 후행 문헌을 탐색할 수 있기 때문이다.
이를 위하여, 평가 서버(1000)는 구성 요소와 동일 또는 유사한 의미를 갖는 매칭 구성을 결정하기 위하여 단어 임베딩(Word Embedding) 기법을 사용할 수 있다. 보다 상세히, 단어 임베딩 기술은 자연어 처리에서 중요한 부분으로, 단어들을 벡터로 표현하여 의미적 유사성을 파악하여 유사한 단어들을 찾거나 문맥상으로 의미가 비슷한 단어들을 파악할 수 있다. 단어 임베딩 기술은 주로 머신러닝과 딥러닝 기반의 모델들을 사용하여 단어들을 고차원 벡터로 변환한 후, 벡터 표현이 단어들 간의 의미적 유사성을 반영하도록 설계될 수 있다.
보다 상세히, 평가 서버(1000)는 워드투백(Word2Vec), 패스트텍스트(FastText), 엘모(ELMo, Embeddings from Language Models) 등의 단어 임베딩 기법을 이용하여 단어를 벡터로 변환하고 단어들 간의 의미적 유사성을 캡처함으로서 구성 요소의 매칭 구성을 결정할 수 있다. 먼저, 워드투백은 단어들을 분산된 벡터로 표현하는 임베딩 기술로서 Continuous Bag of Words (CBOW)와 Skip-gram 두 가지 모델로 구성될 수 있다. 워드투백 모델은 주변 단어들의 확률을 최적화하여 단어들의 벡터 표현을 학습하고, 학습된 벡터들은 의미적 유사성을 담고 있어 유사한 단어를 찾는 데에 활용될 수 있다.
또한, 패스트텍스트는 워드투백의 확장된 형태로, 단어들을 문자 단위의 n-그램(subword)으로 분해하여 임베딩을 생성할 수 있다. 패스트텍스트는 OOV(Out-of-Vocabulary) 단어에 대한 처리를 더 효과적으로 할 수 있으며, 작은 크기의 훈련 데이터에서도 좋은 성능을 가질 수 있다.
또한, 엘모는 문맥을 고려하여 단어 임베딩을 생성하는 기술로, 양방향 LSTM을 사용하여 단어의 왼쪽과 오른쪽 문맥 정보를 모두 반영하여 문맥에 따라 단어의 의미가 달라질 수 있는 다의성을 처리할 수 있다.
그러나, 반드시 상술한 예시들에 한정되지 않고 평가 서버(1000)는 구성 요소와 동일 또는 유사한 의미를 갖는 매칭 구성을 다양한 단어 학습 기법을 이용하여 결정할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 평가 서버(100)는 대상 특허의 구성 요소에 대응되는 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 획득한다. 본 발명의 일 실시예에 따르면, 선행 문헌 또는 후행 문헌은 도 1 에서 살펴본 문헌DB(3000)를 이용하여 텍스트를 획득 가능한 전체 공개 문헌들 중에서 결정될 수 있고, 대상 특허의 서지사항과 관련된 기준일을 이용하여 선행 문헌인지 후행 문헌인지 여부를 결정할 수 있다.
도 4 는 본 발명의 일 실시예에 따른 문헌들의 기준일 순서를 특허 타임라인 상에 나타낸 것이다.
도 4 를 참고하면, 타임라인 상 대상 특허 기준일보다 선행 문헌 기준일이 빠르고, 대상 특허 기준일보다 후행 문헌 기준일이 늦은 것을 알 수 있다. 이때, 기준일은 출원일 또는 공개일(등록공고일이 공개일보다 빠른 경우 등록공고일)일 수 있다. 즉, 평가 서버(1000)는 대상 특허의 기준일보다 빠른 기준일을 가지는 하나 이상의 문헌을 선행 문헌으로 결정하고, 대상 특허의 기준일 보다 늦은 기준일을 가지는 하나 이상의 문헌을 후행 문헌으로 결정할 수 있다.
상술한 바와 같은 기준일을 이용하여 선행 문헌 또는 후행 문헌의 관계가 결정되면, 평가 서버(1000)는 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 결정할 수 있다. 구체적인 일 실시예에 따르면, 평가 서버(1000)는 기설정된 특허 데이터 베이스 등을 이용하여, 매칭 구성을 검색어로 하였을 때 검색 결과로 출력되는 특허 문헌들 중 기준일이 대상 특허보다 빠른 문헌들을 선행 문헌, 기준일이 대상 특허보다 느린 문헌들을 후행 문헌이라 결정할 수 있다.
보다 상세히, 상술한 실시예에 계속하여 대상 특허의 전체 구성 요소 {e1, e2, ..., eE} 의 매칭 구성, 즉 매칭 구성의 전체 세트를 TE={t11, t12, t13, ..., t21, t22, ..., tE1, tE2, ...} 라 정의할 수 있다. 이때 평가 서버(1000)는 매칭 구성의 전체 세트 TE 의 요소를 하나 이상 포함하면서, 기준일이 대상 특허보다 빠른 문헌들을 선행 문헌, 기준일이 대상 특허보다 느린 문헌들을 후행 문헌이라 결정할 수 있다.
다음으로, 평가 서버(1000)는 결정된 하나 이상의 선행 문헌의 개수를 선행 출현 빈도로, 결정된 하나 이상의 후행 문헌의 개수를 후행 출현 빈도로 산출한다. 이하의 명세서에서는 설명의 편의를 위하여, 대상 특허의 전체 구성 요소 {e1, e2, ..., eE}에 대응하는 선행 문헌의 개수, 즉 선행 출현 빈도를 P 라 정의하고 산출할 수 있다. 마찬가지로, 대상 특허의 전체 구성 요소 {e1, e2, ..., eE}에 대응하는 후행 문헌의 개수, 즉 후행 출현 빈도를 S 라 정의하고 산출할 수 있다.
본 발명의 다른 일 실시예에 따르면, 평가 서버(1000)는 구성 요소 별로 구성별 선행 출현 빈도 또는 구성별 후행 출현 빈도를 산출할 수 있다. 즉, {ei} 구성의 매칭 구성들의 세트 Ti={ti1, ti2, ti3, ...} 의 요소를 하나 이상 포함하는 선행 문헌들의 개수를, 즉 {ei} 구성의 선행 출현 빈도를 Pci 라 정의하고 산출할 수 있다. 마찬가지로, {ei} 구성의 후행 출현 빈도를 Sci 라 정의하고 산출할 수 있다.
본 발명의 추가적인 실시예에서, 평가 서버(1000)는 선행 문헌에 포함되는 하나 이상의 매칭 구성이 선행 문헌들 내에서 몇번이나 기재되었는지에 대한 전체 기재 빈도를 선행 기재 빈도(Fp)로 산출한다. 마찬가지로, 평가 서버(1000)는 후행 문헌에 포함되는 하나 이상의 매칭 구성이 후행 문헌들 내에서 몇번이나 기재되었는지에 대한 전체 기재 빈도를 후행 기재 빈도(Fs)로 산출한다. 혹은, 본 발명의 다른 일 실시예에 따르면, 평가 서버(1000)는 하나 이상의 구성 요소 별로, 개별 구성의 선행 문헌에 대한 선행 기재 빈도 또는 개별 구성의 후행 문헌에 대한 후행 기재 빈도를 산출할 수 있다. 이에 대해서는 이하의 도 5 에서 보다 상세히 설명하기로 한다.
상술한 실시예에 계속하여, 대상 특허의 구성 요소 {e1} 의 매칭 구성, 즉 구성 요소 {e1} 에 대응하는 매칭 구성의 세트를 {t11, t12, t13, ...} 라 정의할 수 있다. 이때, 결정된 선행 문헌들에는 매칭 구성 {t11, t12}가 각각 5회, 10회 기재되고, 결정된 후행 문헌들에는 매칭 구성 {t11, t12, t13}가 각각 8회, 6회, 2회 기재되는 경우를 상정할 수 있다. 이 경우, 구성 요소 {e1} 에 대응하는 선행 기재 빈도는 15회가 될 수 있다. 또한, 구성 요소 {e1} 에 대응하는 후행 기재 빈도는 16회가 될 수 있다.
도 5 는 일 실시예에 따른 구성 요소에 대응하는 선행 출현 빈도 및 후행 출현 빈도, 그리고 선행 기재 빈도 및 후행 기재 빈도의 관계를 나타낸 테이블이다.
도 5 를 참조하면, 대상 특허의 전체 구성 요소에 대한 선행 문헌들의 개수인 선행 출현 빈도는 P, 후행 문헌들의 개수인 후행 출현 빈도는 S 라 정의할 수 있다. 한편, 도 5 에는 비록 도시되지 않았지만 개별 구성 요소 {ei}에 대한 선행 문헌들의 개수는 Pci, 후행 문헌들의 개수는 Sci 라 정의할 수 있다.
또한, 구성 요소 {e1} 에 대응하는 매칭 구성 {t11, t12, t13, ...}와 관련하여, 선행 문헌 {p1, p2, ..., pP} 에 포함된 매칭 구성들의 기재 빈도를 각각 {fp11, fp12, ..., fp1P} 로 나타낼 수 있다. 마찬가지로, 구성 요소 e1 에 대응하는 매칭 구성 {t11, t12, t13, ...}와 관련하여, 후행 문헌 {s1, s2, ..., sS} 에 포함된 매칭 구성들의 기재 빈도를 각각 {fs11, fs12, ..., fs1S} 로 나타낼 수 있다.
보다 구체적으로, 본 발명의 일 실시예에 따르면 선행 문헌 1(p1)에 포함되는 매칭 구성 {t11, t12, t13, ...} 의 기재 빈도를 선행 기재 빈도 fp11 로 산출할 수 있다. 마찬가지로, 구성 요소 e1 에 대응하는 매칭 구성 {t11, t12, t13, ...} 와 관련하여, 후행 문헌 1(s1)에 포함되는 대응하는 매칭 구성 {t11, t12, t13, ...} 의 기재 빈도를 후행 기재 빈도 fs11 로 산출할 수 있다.
이와 같은 방법으로 모든 선행 문헌 또는 후행 문헌에 포함되는 매칭 구성의 기재 빈도를 합산하는 경우, 해당하는 구성 요소 ei 에 대응하는 전체 선행 기재 빈도 또는 전체 후행 기재 빈도를 산출할 수 있다. 이하의 명세서에서는 구성 요소 {ei} 에 대응하는 전체 선행 기재 빈도를 Fpi* 이라 정의하고, 전체 후행 기재 빈도를 Fsi* 라 정의할 수 있다. 또한, 선후행 문헌 관계없이 구성 요소 ei 에 대응하는 전체 기재 빈도를 Fi 라 정의하고 산출할 수 있다. 또한, 각각의 Fpi*, Fsi* 로부터 최종적으로 구성 요소 ei 가 선후행 문헌에 기재된 전체 기재 빈도를 나타내는 Fi* 를 정의할 수 있다.
추가적으로, 위에서 설명한 구성 요소별 기재 빈도의 개념을 선행 문헌별 기재 빈도로 확장하여 도 5 를 참조하여 아래와 같이 정리할 수 있다.
i) 구성 요소 {ei} 가 선행(후행) 문헌 pj (sj) 에 기재된 기재 빈도 = fpij (fsij)
ii) 전체 구성 요소 {ei, ..., eE} 가 선행(후행) 문헌 pj (sj) 에 기재된 기재 빈도 = Fp*j (Fs *j)
iii) 구성 요소 {ei} 가 전체 선행(후행) 문헌 {p1, p2, ..., pP} ({s1, ... sS})에 기재된 기재 빈도 = Fpi* (Fsi* )
위 개념들은 아래의 [수학식 1] 과 같이 정의될 수 있다.
Figure PCTKR2023011430-appb-img-000001
[수학식 1]
더불어, 대상 특허의 청구항에 기재된 모든 구성 요소 {e1, e2, e3, ..., eE} 가 선행 문헌에 출현하는 전체 선행 기재 빈도를 Fp 라 정의하고, 후행 문헌에 출현하는 전체 후행 기재 빈도를 Fs 라 정의할 수 있다. 따라서, 대상 특허의 청구항에 기재된 모든 구성 요소 {e1, e2, e3, ..., eE} 가 선후행 문헌에 출현하는 전체 선후행 기재 빈도를 해당 대상 특허에 대한 F 값이라 정의하고 산출할 수 있다.
각각의 Fp, Fs 로부터 최종적으로 대상 특허의 구성 요소들이 선후행 문헌에 기재된 전체 기재 빈도를 나타내는 F 는 아래의 [수학식 2] 와 같이 정의될 수 있다.
Figure PCTKR2023011430-appb-img-000002
[수학식 2]
다음으로, 평가 서버(1000)는 대상 특허의 가치를 평가하기 위한 하나 이상의 평가 항목을 결정할 수 있다. 본 발명의 일 실시예에 따르면, 평가 항목은 앞서 산출한 선행 출현 빈도, 후행 출현 빈도 또는 전체 출현 빈도를 포함할 수 있다. 또한, 평가 서버(1000)는 하나 이상의 평가 항목에 기초하여 대상 특허의 가치 점수를 산출할 수 있다. 즉, 평가 서버(1000)는 대상 특허에 대응하는 선행 문헌의 개수, 후행 문헌의 개수 또는 전체 선후행 문헌의 개수를 고려하여 대상 특허의 가치 점수를 산출할 수 있다. 이때, 평가 서버(1000)는 복수개의 평가 항목 각각에 대응하는 가중치에 기초하여 산출될 수 있다.
또한, 평가 서버(1000)는 선행 출현 빈도 또는 후행 출현 빈도를 산출할 때, 해당 문헌에 포함되는 하나 이상의 매칭 구성의 기재 빈도가 기설정된 값 이상인 선행 출현 빈도 혹은 후행 출현 빈도로 산출할 수 있다. 즉, 구성 {ei}가 특정 문헌에 기재된 횟수인 fpij 혹은 fsij 가 기설정된 값 이상인 경우에만 해당 문헌을 선행 문헌 혹은 후행 문헌으로 결정하고 출현 빈도에 포함시킬 수 있다. 예를 들어, 특정 문헌에 {ei}가 기재된 횟수가 1회 뿐이라면, 해당 특정 문헌은 {ei} 구성을 유의미하게 기재하고 있다고 보지 않고 빈도 산출(카운팅)의 대상에서 제외할 수 있다.
본 발명의 다른 일 실시예에 따르면, 평가 서버(1000)는 평가 항목이 선행 기재 빈도 또는 후행 기재 빈도를 포함하도록 결정할 수 있다. 설명한 선행 기재 빈도 또는 후행 기재 빈도는 앞서 설명한 선행 출현 빈도 또는 후행 출현 빈도와 달리 청구항 구성 요소들이 선행 문헌에 몇번이나 기재되었는지 혹은 후행 문헌에 몇번이나 기재되었는지를 구분해서 알려줄 수 있는 지표이다.
보다 상세히, 평가 서버(1000)는 선행 출현 빈도 또는 후행 출현 빈도를 포함하는 평가 항목을 이용하여 대상 특허의 가치 점수를 산출하되, 후행 출현 빈도가 클수록 가치 점수가 높게 산출되도록 가중치를 설정할 수 있다. 즉, 대상 특허의 청구항에 기재된 구성 요소 {e1, e2, e3, ..., eE} 에 대응되는 후행 문헌의 수가 선행 문헌의 수보다 큰 경우, 대상 특허의 가치 점수를 더 높게 산출할 수 있다. 예를 들어, 구성 요소 ei 의 선행 출현 빈도(Pci)가 100개지만 후행 출현 빈도(Sci)가 1만개일 때, 해당 구성 요소 ei 는 출원 후 더 많이 사용되는 기술 요소로서 가치가 있다고 판단할 수 있다. 마찬가지로, 대상 특허의 전체 구성 요소들에 대응하는 선행 출현 빈도(P)가 1000개이고 후행 출현 빈도(S)가 10만개일 때, 대상 특허는 출원 후 더 많이 사용되는 기술 요소들을 포함하고 있다고 판단할 수 있다. 이를 위해, 평가 서버(100)는 가치 점수를 산출할 때 평가 항목 중 하나인 선행 출현 빈도(P)에 대응하는 제1 가중치를 α로 설정하고, 후행 출현 빈도(S)에 대응하는 제2 가중치를 β 로 설정하며, 제1 가중치(α) 값이 제2 가중치(β)의 값보다 작도록 설정할 수 있다. 즉, 제1 가중치에 의해 조정된 선행 출현 빈도 값과 제2 가중치에 의해 조정된 후행 출현 빈도 값에 기초하여 가치 점수를 산출하되, 제1 가중치(α) 값이 제2 가중치(β)의 값보다 작도록 할 수 있다.
이를 대상 특허의 가치 점수(V)를 산출하는 식으로 나타내면 하기의 [수학식 3]과 같을 수 있다.
V= α*P + β*S (α<β)
[수학식 3]
만약, 제1 가중치(α)를 0으로 설정하는 경우 선행 출현 빈도는 고려하지 않고 후행 출현 빈도만으로 특허 가치 점수를 평가할 수 있다. 이와 같은 가중치 조절을 통해 선행 문헌의 수보다 후행 문헌의 수가 클수록 대상 특허에 높은 가치 점수를 부여할 수 있다. 추가적으로, 본 발명의 다른 일 실시예에 따르면 평가 서버(1000)는 1 가중치(α)가 음의 값, 즉 네거티브(negative) 값을 갖도록 설정할 수 있다.
혹은, 본 발명의 다른 실시예에서, 평가 서버(1000)는 선행 기재 빈도 또는 후행 기재 빈도를 포함하는 평가 항목을 이용하여 대상 특허의 가치 점수를 산출하되, 후행 기재 빈도가 클수록 가치 점수가 높게 산출되도록 가중치를 설정할 수도 있다. 즉, 도 5 의 실시예에서, 선행 기재 빈도(Fp)에 대응하는 가중치가 후행 기재 빈도(Fs)에 대응하는 가중치보다 작도록 설정할 수 있다.
다음으로, 본 발명의 다른 실시예에 따르면, 선후행 문헌의 수가 선행 또는 후행인지에 상관없이 전체 선후행 문헌의 개수가 크다면 해당 특허의 가치가 높다고 판단할 수 있다. 즉, 대상 특허에 대응하는 선후행 문헌이 다수 존재하는 경우, 해당 구성 요소와 관련된 기술이 실질적으로 많이 쓰이고 있는 것으로 이해하고, 전체 출현 빈도를 평가 항목 중의 하나로 하여 대상 특허의 가치가 높다고 판단할 수 있다.
이를 위해, 평가 서버(100)는 가치 점수를 산출할 때 평가 항목 중 하나인 전체 출현 빈도(PS)에 대응하는 제3 가중치를 γ로 설정할 수 있다. 이때, 전체 출현 빈도(PS)는 선행 출현 빈도(P) 및 후행 출현 빈도(S)를 합산한 값일 수 있다. 상술한 [수학식 3]에 이어, 대상 특허의 가치 점수(V)를 나타내는 식에 전체 출현 빈도(F)를 반영할 경우 아래의 [수학식 4]와 같이 나타낼 수 있다. [수학식 4]와 같이 가치 점수(V)를 산출할 경우, 선행 출현 빈도의 가중치인 제1 가중치(α)를 0으로 설정하더라도 전체 출현 빈도가 높은 경우, 즉 대상 특허의 구성 요소들이 실질적으로 선후행 모두에서 많이 사용되고 있는 경우 높은 가치 점수(V)가 산출될 수 있다.
V= α*P + β*S + γ*PS
[수학식 4]
혹은, 본 발명의 다른 실시예에 따르면, 대상 특허의 청구항에 기재된 구성 요소가 선행 또는 후행인지에 상관없이 전체 선후행 문헌에 많이 기재되었다면 해당 특허의 가치가 높다고 판단할 수 있다.
다음으로, 본 발명의 다른 실시예에 따르면 평가 서버(1000)는 대상 특허가 속한 기술 분야와 동일 또는 유사한 분야의 선행 문헌의 수 또는 후행 문헌의 수에 보다 높은 가중치를 부여할 수 있다. 일 실시예에 따르면, 대상 특허와 동일한 기술 분야에 속하는 선행 문헌 또는 후행 문헌에 구성 요소와 매칭되는 텍스트가 출현한 경우가, 그렇지 아닌 경우보다 문헌들 간에 실질적으로 연관이 있을 가능성이 높다. 따라서 평가 서버(1000)는 동일 기술 분야에 속하는 선후행 문헌의 선행 출현 빈도 또는 후행 출현 빈도에 높은 가중치를 부여하여 가치 점수(V)를 산출할 수 있다. 일 실시예에 의하면, 동일 기술 분야는 유사 기술 분야까지 확장될 수 있다.
보다 상세히, 평가 서버(1000)는 선행 문헌 또는 후행 문헌이 대상 특허가 속한 기술 분야와 동일 또는 유사 분야에 속하였는지 여부를 판단하는 동일 분야 항목을 평가 항목에 포함시킨다. 이때, 대상 특허가 속한 기술 분야와 동일 또는 유사 분야에 속하는 선행 문헌의 수를 P(U)라 하고, 속하지 않는 선행 문헌의 수를 P(U-1)라 할 수 있다. 마찬가지로, 대상 특허가 속한 기술 분야와 동일 또는 유사 분야에 속하는 후행 문헌의 수를 S(U)라 하고, 속하지 않는 후행 문헌의 수를 S(U-1)라 할 수 있다. 또한, 평가 서버(1000)는 선행 문헌 또는 후행 문헌이 동일 또는 유사한 기술 분야에 속한 경우에 대응하는 제4 가중치(δ)를 결정할 수 있다.
평가 서버(1000)는 설정된 제4 가중치(δ)에 의해 조정된 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 가치 점수를 산출할 수 있다. 보다 상세히, 동일 또는 유사 분야의 선행 문헌의 수 P(U) 및 후행 문헌의 수 S(U)에 대해, 제4 가중치(δ)의 가중치를 적용한 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 가치 점수를 산출할 수 있다. 또한, 동일 또는 유사 분야가 아닌 선후행 문헌에 대해, (1-δ)의 가중치를 적용한 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 가치 점수를 산출할 수 있다. 이를 수식으로 나타내면 아래 [수학식 5]와 같다.
V= α*P + β*S + γ*PS +δ*(P(U)+S(U)) + (1-δ)*(P(U-1)+S(U-1))
[수학식 5]
또한, 본 발명의 다른 실시예에서, 동일 또는 유사 기술 분야에 속한 선행 문헌 또는 후행 문헌일지라도, 평가 서버(1000)는 동일 또는 유사 분야의 후행 출현 빈도를 선행 출현 빈도보다 많이 반영하여 가치 점수(V)를 산출할 수 있다.
다음으로, 본 발명의 다른 실시예에 따르면 평가 서버(1000)는 선행 문헌 또는 후행 문헌에 대응하는 기술 분야 집중도가 높을수록 선행 출현 빈도 및 후행 출현 빈도에 높은 가중치를 부여할 수 있다. 이때, 기술 분야 집중도란 전체 기술 분야에서 선후행 문헌의 기술 분야가 얼마나 주도적인 기술 분야(집중 분야)인지를 나타내는 지표로서, 전체 선후행 문헌들의 개수 대비 특정 기술 분야에 속한 선후행 문헌들의 비율로 산정될 수 있다. 일 실시예에서 특정 기술 분야는 입력값일 수도 있고, 평가 서버(1000)에서 주요 기술 분야로서 특정 기술 분야를 자동으로 설정할 수 있다.
보다 상세히, 평가 서버(1000)는 선행 문헌 또는 후행 문헌의 기술 분야 집중도 항목이 평가 항목에 포함되도록 결정할 수 있다. 이때, 상술한 기술 분야 유사도와 마찬가지로, 평가 서버(1000)는 선행 문헌 또는 후행 문헌이 특정 기술 분야(집중 분야)에 속하였는지 여부를 판단한다.
설명의 편의를 위하여, 상술한 [수학식 5]의 실시예를 변형하여 특정 기술 분야에 속한 선행 문헌의 수를 P(U)라 하고, 속하지 않는 선행 문헌의 수를 P(U-1)라 할 수 있다. 마찬가지로, 특정 기술 분야에 속하는 후행 문헌의 수를 S(U)라 하고, 속하지 않는 후행 문헌의 수를 S(U-1)라 할 수 있다. 또한, 평가 서버(1000)는 선행 문헌 또는 후행 문헌이 특정 기술 분야에 속한 경우에 대응하는 제5 가중치(δ)를 결정할 수 있다. 이때, 제5 가중치(δ)는 특정 기술 분야의 집중도가 높을수록, 즉 선후행 문헌의 분야가 해당 분야에서 주도적인 기술 분야일 가능성이 높을수록 높게 설정될 수 있다.
다음으로, 본 발명의 다른 실시예에 따르면 평가 서버(1000)는 선행 문헌 또는 후행 문헌에 대응하는 출원인의 출원인 종류가 특정 조건을 만족하는 경우, 해당 선행 출현 빈도 및 후행 출현 빈도에 높은 가중치를 부여할 수 있다. 예를 들어, 출원인 종류가 대기업 출원인으로 분류될 수 있는 선행 문헌 또는 후행 문헌에 대하여 그 출현 빈도에 높은 가중치를 부여할 수 있다. 이는, 대기업 출원인과 같은 특정 출원인 그룹의 경우 해당 기술 분야의 개발을 주도할 가능성이 높고 비즈니스적으로 가치가 높은 특허를 보유하고 있을 가능성이 높기 때문이다. 일 실시예에서 특정 출원인 종류는 입력값일 수도 있고, 평가 서버(1000)에서 주요 출원인으로서 특정 출원인 종류를 자동으로 설정할 수 있다.
보다 상세히, 평가 서버(1000)는 선행 문헌 또는 후행 문헌의 출원인 종류 항목이 평가 항목에 포함되도록 결정할 수 있다. 이때, 상술한 기술 분야 유사도와 마찬가지로, 평가 서버(1000)는 선행 문헌 또는 후행 문헌에 대응하는 출원인 종류가 특정 출원인 종류에 속하였는지 여부를 판단한다.
설명의 편의를 위하여, 상술한 [수학식 5]의 실시예를 변형하여, 출원인 종류가 특정 출원인 종류에 속하는 선행 문헌의 수를 P(U)라 하고, 속하지 않는 선행 문헌의 수를 P(U-1)라 할 수 있다. 마찬가지로, 출원인 종류가 특정 출원인 종류에 속한 경우 후행 문헌의 수를 S(U)라 하고, 속하지 않는 후행 문헌의 수를 S(U-1)라 할 수 있다. 또한, 평가 서버(1000)는 선행 문헌 또는 후행 문헌의 출원인 종류가 특정 출원인 종류에 속한 경우에 대응하는 제6 가중치(δ)를 결정할 수 있다.
다음으로, 본 발명의 다른 일 실시예에 의하면, 평가 서버(1000)는 대상 특허의 청구항으로부터 추출된 각 구성 요소의 벡터값을 고려하여 가치 점수를 산출할 수 있다. 일 실시예에서 구성 요소의 벡터값이란, 구성 요소와 매칭 조건을 만족하는 매칭 구성을 생성하기 위하여 사용한 언어 학습 모델에서, 구성 요소와 매칭된 텍스트 간의 벡터 거리값을 의미한다.
도 6 은 본 발명의 일 실시예에 따른 구성 요소 벡터값을 예시한 그래프이다.
상술한 바와 같이, 대상 특허의 구성 요소 {e1} 은 유사어로서 매칭된 텍스트 {t11, t12, t13,...}를 가질 수 있다. 또한, 대상 특허의 구성 요소 {e2} 는 유사어로서 매칭된 텍스트 {t21, t22, t23,...}를 가질 수 있다. 도 6 의 그래프에서 x, y, z 선은 각각 의미단위를 나타내는 선일 수 있다. 이 경우 학습된 언어 모델에 의해 도 6 에 도시된 바와 같이 {e1}와 {t11, t12, t13,...} 간의 방향 및 벡터 거리값을 포함하는 벡터값, {e2}와 {t21, t22, t23,...} 간의 방향 및 벡터 거리값을 포함하는 벡터값이 구해질 수 있다.
한편, 본 발명의 일 실시예에 따라 단어의 유사어를 찾는 학습 모델에서, 매칭된 단어와 원래 구성 요소와의 벡터 거리가 작을수록 두 단어는 의미적으로 비슷하다고 간주될 수 있다. 다만 학습 모델의 임베딩 기술, 개별 구성 요소의 전문성 정도 및 특성에 따라 개별 구성 요소와 매칭된 텍스트 간의 벡터 거리값에 대해 일괄적인 한계값을 정하기는 어렵다. 예를 들어, 도 6 에서 볼 수 있는 바와 같이 {e1}와 {t11, t12, t13,...} 간의 벡터 거리값은 {e2}와 {t21, t22, t23,...} 간의 벡터 거리값보다 작은 경향을 보인다. 이 경우, {e2}는 매칭된 텍스트들의 유사 범위가 넓게 설정되었다고 볼 수 있고, 따라서 {e2}의 매칭된 텍스트들에 대응하는 선후행 문헌들은 실제 {e2} 구성 요소와 관련성이 작을 것으로 추측할 수 있다.
본 발명의 일 실시예에 따르면, 평가 서버(1000)는 상술한 구성 요소 별 벡터값 특징을 고려하여, 큰 벡터 거리값을 가지는 구성 요소들에 대응하는 선행 출현 빈도 및 후행 출현 빈도가 가치 점수에 적게 반영되도록 할 수 있다. 혹은, 본 발명의 다른 실시예에 따르면, 큰 벡터 거리값을 가지는 구성 요소들에 대응하는 선행 기재 빈도 및 후행 기재 빈도가 가치 점수에 적게 반영되도록 할 수 있다.
보다 구체적으로, 평가 서버(1000)는 대상 특허의 청구항으로부터 추출된 하나 이상의 구성 요소 각각에 대응하는 구성 요소 벡터값 항목을 평가 항목으로 설정할 수 있다. 또한, 평가 서버(1000)는 구성 요소 벡터값 항목과 관련하여, 각각의 구성 요소 별로 선행 출현 빈도 또는 후행 출현 빈도 값을 조정하는 제7 가중치를 설정할 수 있다. 이때 구성 요소 {ei} 에 대응하는 제7 가중치를 εi 라 할 수 있다. 평가 서버(1000)는 산출된 제7 가중치를 이용하여, 제7 가중치에 의해 조정된 각 구성 요소별 선행 출현 빈도(Pci) 값 및 후행 출현 빈도(Sci) 값에 기초하여 가치 점수(V)를 산출할 수 있다.
관련하여, 구성 요소 {ei} 와 매칭된 텍스트들 간의 벡터 거리값이 클수록 εi 값은 작아질 수 있다. 보다 상세히, 구성 요소 각각에 대응하는 구성 요소 벡터값은 구성 요소와 매칭된 텍스트 간의 벡터 거리가 멀수록 증가하고, 따라서 제7 가중치 εi 는 구성 요소 벡터값과 음(negative)의 상관관계를 가질 수 있다. 본 발명에 따르면, 매칭된 텍스트의 유사 범위가 좁게 설정된 구성 요소의 출현 빈도가 높은 선후행 문헌의 출현 빈도에 가중치를 보다 높게 부여함으로써, 구성 요소 별 특징을 반영하여 가치 점수를 산출할 수 있다.
도 7 은 본 발명의 일 실시예에 따른 구성 요소 별 출현 빈도 증가 추세 를 예시한 그래프이다.
본 발명의 일 실시예에 의하면, 평가 서버(1000)는 구성 요소 각각에 대응하는 출현 빈도 증가 추세 항목을 포함할 수 있다. 보다 상세히, 도 7 의 (a) 및 (b)는, 대상 특허 출원일을 기준일로 할 때, 구성 요소 별로 선행 출현 빈도 및 후행 출현 빈도 값을 예시한 그래프로서 구성 요소 각각에 대응하는 출현 빈도 증가 추세를 도시하고 있다.
도 7 의 (a)를 참고하면, 구성 a, 구성 b, 구성 c 모두 시간이 지날수록 출현 빈도가 증가하여 출현 빈도 증가 추세가 존재하지만, 특히 구성 a 는 특정 시점(점선 동그라미)에서 급격한 기울기 변화를 가지며 출현 빈도가 높아지는 것을 알 수 있다. 이와 같이 특정 구성 요소에 대응하는 출현 빈도가 급격한 증가를 보이는 경우, 예를 들어 기설정된 시간 동안의 출현 빈도 변화값이 임계치 이상인 경우 평가 서버(1000)는 해당 구성에 대응하는 출현 빈도 값의 가중치를 높게 설정할 수 있다.
혹은, 도 7 의 (b)를 참고하면, 구성 a 는 시간이 경과할수록 후행 문헌 출현 빈도가 높아지지만 구성 c 및 구성 b 는 출현 빈도의 변화가 거의 없거나 혹은 오히려 감소한 것을 알 수 있다. 이와 같이 특정 구성 요소에 대응하는 출현 빈도가 다른 구성 요소에 대응하는 출현 빈도와 달리 뚜렷한 증가 추세를 보이는 경우, 예를 들어 출현 빈도의 기울기가 기설정된 값 이상인 경우, 평가 서버(1000)는 해당 구성에 대응하는 출현 빈도의 가중치를 높게 설정할 수 있다. 추가적으로, 출현 빈도의 기울기가 감소 추세를 보이는 경우, 평가 서버(1000)는 해당 구성에 대응하는 출현 빈도의 가중치를 낮게 설정하거나 음의 값(negative)으로 설정할 수 있다. 또한, 본 발명의 다른 실시예에 의하면, 동일 혹은 유사 분야의 구성 요소들이 함께 출현 빈도가 증가된다면, 해당 분야에 속하는 구성 요소들에 대응하는 출현 빈도의 가중치를 높게 설정할 수 있다.
보다 구체적으로, 구성 요소 {ea} 에 대응하는 제8 가중치를 εa 라 정의할 때, 구성 요소 {ea} 가 특정 시점에서 급격한 출현 빈도의 증가를 보인다거나, 혹은 다른 구성 요소들과 비교하였을 때 증가 추세를 보이는 경우 평가 서버(1000)는 제8 가중치 εa 의 값을 크게 설정할 수 있다. 또한, 평가 서버(1000)는 설정된 제8 가중치에 의해 조정된 각 구성 요소별 선행 출현 빈도(Pca) 값 및 후행 출현 빈도(Sca) 값에 기초하여 가치 점수(V)를 산출할 수 있다.
보다 상세히, 평가 서버(1000)는 매칭 구성이 선후행 문헌의 특정 범위에 존재하는지 확인하고, 특정 범위에 기재되었을 경우 해당 미칭 구성이 카운팅된 선후행 문헌의 출현 빈도를 증감시키는 제9 가중치를 설정할 수 있다. 구체적 실시예에서, 특정 범위는 [발명의 배경이 되는 기술] 또는 [청구범위]일 수 있다. 평가 서버(1000)는 매칭 구성이 선후행 문헌의 [발명의 배경이 되는 기술]에 존재하는 경우, 해당 매칭 구성이 카운팅된 출현 빈도를 감소시키는 제9 가중치를 부여할 수 있다. 이와 반대로, 평가 서버(1000)는 매칭 구성이 선후행 문헌의 [청구범위]에 존재하는 경우, 해당 매칭 구성이 카운팅된 선후행 문헌의 출현 빈도를 증가시키는 제9 가중치를 부여할 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 평가 서버(1000)는 동일 문헌에 복수개의 구성이 출현하는 경우 해당 문헌이 선행 출현 빈도 혹은 후행 출현 빈도에 카운팅되는 가중치를 증가시킬 수 있다. 이는 한 문헌 안에서 대상 특허의 여러 개의 구성 요소가 출현될수록 해당 문헌과 대상 특허의 관련성이 높다고 볼 수 있기 때문이다. 보다 상세히, 평가 서버(1000)는 특정 선행 문헌에 복수개의 구성 요소가 출현하는 경우 해당 선행 문헌이 선행 출현 빈도에 카운팅되는 가중치가 증가되도록 제10 가중치를 부여할 수 있다.
상술한 명세서에서는 특허 가치 평가를 위한 평가 항목의 항목별로 다른 가중치가 적용되는 실시예에 대하여 설명하였다. 상술한 본 발명의 가치 점수(V)를 산출하는 방법에 있어서 앞서 설명한 실시예들은 개별적으로 사용될 필요 없고, 복수개의 실시예 또는 수학식이 결합되어 가치 점수(V)를 산출하는 것에 사용될 수도 있다.
도 8 은 일 실시예에 따른 서버의 블록도이다.
도 8 의 서버(1100)는 평가 서버(1000)일 수 있다. 도 8 을 참조하면, 서버(1100)는 통신부(1110), 프로세서(1120) 및 DB(1130)를 포함할 수 있다. 도 11의 서버(1100)에는 실시예와 관련된 구성 요소들만이 도시되어 있다. 따라서, 도 11에 도시된 구성 요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.
통신부(1110)는 다른 노드들과 유선/무선 통신을 하게 하는 하나 이상의 구성 요소를 포함할 수 있다. 예를 들어, 통신부(1110)는, 근거리 통신부(미도시), 이동 통신부(미도시) 및 방송 수신부(미도시) 중 적어도 하나를 포함할 수 있다.
DB(1130)는 서버(1100) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 프로세서(1120)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. DB(1130)는 결제 정보, 사용자 정보 등을 저장할 수 있다.
DB(1130)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.
프로세서(1120)는 서버(1100)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1120)는 DB(1130)에 저장된 프로그램들을 실행함으로써, 입력부(미도시), 디스플레이(미도시), 통신부(1110), DB(1130) 등을 전반적으로 제어할 수 있다. 프로세서(1120)는, DB(1130)에 저장된 프로그램들을 실행함으로써, 서버(1100)의 동작을 제어할 수 있다. 프로세서(1120)는 도 1 내지 도 10에서 상술한 게임 서버(2000) 또는 중개 서버(3000)의 동작 중 적어도 일부를 제어할 수 있다.
프로세서(1120)는 ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나를 이용하여 구현될 수 있다.
본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성 요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
일 실시예에 따르면, 본 개시의 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

Claims (20)

  1. 대상 특허의 서지사항 정보 및 청구항 텍스트를 획득하고, 상기 청구항 텍스트로부터 하나 이상의 구성 요소를 추출하는 단계;
    상기 하나 이상의 구성 요소 각각과 매칭 조건을 만족하는 하나 이상의 매칭 구성을 결정하고, 상기 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 획득하는 단계;
    상기 하나 이상의 선행 문헌의 개수를 선행 출현 빈도로, 상기 하나 이상의 후행 문헌의 개수를 후행 출현 빈도로 산출하는 단계;
    상기 선행 출현 빈도 또는 상기 후행 출현 빈도를 포함하는 하나 이상의 평가 항목을 결정하는 단계;
    상기 하나 이상의 평가 항목에 기초하여 상기 대상 특허의 가치 점수를 산출하는 단계;
    를 포함하는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  2. 제 1 항에 있어서,
    상기 가치 점수는 상기 하나 이상의 평가 항목에 각각 대응하는 가중치를 이용하여 산출되고,
    상기 선행 출현 빈도에 대응하는 제1 가중치와 상기 후행 출현 빈도에 대응하는 제2 가중치가 존재하는 경우,
    상기 가치 점수는 상기 제1 가중치에 의해 조정된 상기 선행 출현 빈도 값과 상기 제2 가중치에 의해 조정된 상기 후행 출현 빈도 값에 기초하여 산출되는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  3. 제 2 항에 있어서,
    상기 선행 출현 빈도에 대응하는 제1 가중치는 상기 후행 출현 빈도에 대응하는 제2 가중치보다 작은, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  4. 제 2 항에 있어서,
    상기 선행 출현 빈도에 대응하는 제1 가중치는 음(negative)의 값을 갖는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  5. 제 1 항에 있어서,
    상기 평가 항목은 상기 선행 출현 빈도 및 상기 후행 출현 빈도를 합산한 전체 출현 빈도를 포함하고,
    상기 가치 점수는 상기 전체 출현 빈도에 대응하는 제3 가중치 값에 의해 조정된 상기 전체 출현 빈도 값에 기초하여 산출되는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  6. 제 1 항에 있어서,
    상기 평가 항목은 상기 선행 문헌 또는 후행 문헌이 상기 대상 특허가 속한 기술 분야와 동일 또는 유사한 기술 분야에 속하였는지 여부를 판단하는 동일 분야 항목을 포함하고,
    상기 선행 문헌 또는 후행 문헌이 상기 동일 또는 유사한 기술 분야에 속한 경우에 대응하는 제4 가중치가 존재하는 경우,
    상기 가치 점수는, 상기 제4 가중치에 의해 조정된 상기 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출되는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  7. 제 6 항에 있어서,
    상기 선행 출현 빈도에 대응하는 제4 가중치는 상기 후행 출현 빈도에 대응하는 제4 가중치보다 적은, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  8. 제 6 항에 있어서,
    상기 선행 문헌 또는 후행 문헌이 상기 대상 특허가 속한 기술 분야와 동일 또는 유사한 기술 분야에 속하였는지 여부는 상기 대상 특허가 속한 업종 코드 또는 산업 분류 코드에 기초하여 결정되는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  9. 제 1 항에 있어서,
    상기 평가 항목은 상기 선행 문헌 또는 후행 문헌의 기술 분야 집중도 항목을 포함하고,
    상기 기술 분야 집중도와 관련하여 하나 이상의 상기 선행 문헌 또는 후행 문헌이 특정 기술 분야에 속한 경우에 대응하는 제5 가중치가 존재하는 경우,
    상기 가치 점수는, 상기 제5 가중치에 의해 조정된 상기 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출되는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  10. 제 1 항에 있어서,
    상기 평가 항목은 상기 선행 문헌 또는 후행 문헌의 출원인 종류 항목을 포함하고,
    상기 출원인 종류와 관련하여 하나 이상의 상기 선행 문헌 또는 후행 문헌이 특정 출원인 종류에 속한 경우에 대응하는 제6 가중치가 존재하는 경우,
    상기 가치 점수는, 상기 제6 가중치에 의해 조정된 상기 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출되는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  11. 제 1 항에 있어서,
    상기 평가 항목은 상기 대상 특허의 청구항으로부터 추출된 하나 이상의 구성 요소 각각에 대응하는 구성 요소 벡터값 항목을 포함하고,
    상기 구성 요소 벡터값 항목과 관련하여, 각각의 상기 구성 요소 별로 상기 선행 출현 빈도 또는 상기 후행 출현 빈도 값을 조정하는 제7 가중치가 존재하는 경우,
    상기 가치 점수는, 상기 제7 가중치에 의해 조정된 상기 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출되는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  12. 제 11 항에 있어서,
    상기 하나 이상의 구성 요소 각각에 대응하는 구성 요소 벡터값은 상기 구성 요소와 매칭된 텍스트 간의 벡터 거리가 멀수록 증가하고, 제7 가중치는 상기 구성 요소 벡터값과 음(negative)의 상관관계를 가지는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  13. 제 1 항에 있어서,
    상기 대상 특허의 기준일은 상기 선행 문헌의 기준일보다 느리고, 상기 후행 문헌의 기준일보다 빠른, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  14. 제 1 항에 있어서,
    하나 이상의 상기 매칭 구성이 상기 선행 문헌에 기재된 빈도를 선행 기재 빈도로, 상기 매칭 구성이 상기 후행 문헌에 기재된 빈도를 후행 기재 빈도로 산출하는 단계;를 더 포함하고,
    상기 평가 항목은 상기 선행 기재 빈도 또는 상기 후행 기재 빈도를 포함하는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  15. 제 1 항에 있어서,
    상기 선행 출현 빈도는, 해당 문헌에 포함되는 하나 이상의 상기 매칭 구성의 기재 빈도가 기설정된 값 이상인 선행 문헌의 개수이고,
    상기 후행 출현 빈도는, 해당 문헌에 포함되는 하나 이상의 상기 매칭 구성의 기재 빈도가 기설정된 값 이상인 후행 문헌의 개수인, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  16. 제 1 항에 있어서,
    상기 평가 항목은 상기 대상 특허의 청구항으로부터 추출된 하나 이상의 구성 요소 각각에 대응하는 출현 빈도 증가 추세 항목을 포함하고,
    상기 가치 점수는, 각각의 상기 구성 요소 각각에 대응하는 출현 빈도 증가 추세 항목에 관련된 제8 가중치에 의해 조정된 선행 출현 빈도 값 및 후행 출현 빈도 값에 기초하여 산출되는, 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법.
  17. 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법을 수행하는 서버로서, 상기 서버는 프로세서를 포함하고, 상기 프로세서는,
    대상 특허의 서지사항 정보 및 청구항 텍스트를 획득하고, 상기 청구항 텍스트로부터 하나 이상의 구성 요소를 추출하며,
    상기 하나 이상의 구성 요소 각각과 매칭 조건을 만족하는 하나 이상의 매칭 구성을 결정하고, 상기 매칭 구성을 하나 이상 포함하는 선행 문헌 또는 후행 문헌을 획득하며,
    상기 하나 이상의 선행 문헌의 개수를 선행 출현 빈도로, 상기 하나 이상의 후행 문헌의 개수를 후행 출현 빈도로 산출하고,
    상기 선행 출현 빈도 또는 상기 후행 출현 빈도를 포함하는 하나 이상의 평가 항목을 결정하며,
    상기 하나 이상의 평가 항목에 기초하여 상기 대상 특허의 가치 점수를 산출하는, 서버.
  18. 제 17 항에 있어서,
    상기 가치 점수는 상기 하나 이상의 평가 항목에 각각 대응하는 가중치를 이용하여 산출되고,
    상기 선행 출현 빈도에 대응하는 제1 가중치와 상기 후행 출현 빈도에 대응하는 제2 가중치가 존재하는 경우,
    상기 가치 점수는 상기 제1 가중치에 의해 조정된 상기 선행 출현 빈도 값과 상기 제2 가중치에 의해 조정된 상기 후행 출현 빈도 값에 기초하여 산출되는, 서버.
  19. 제 18 항에 있어서,
    상기 선행 출현 빈도에 대응하는 제1 가중치는 상기 후행 출현 빈도에 대응하는 제2 가중치보다 작은, 서버.
  20. 제 1 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2023/011430 2022-08-03 2023-08-03 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법 및 그 방법을 수행하는 서버 WO2024029966A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220096888 2022-08-03
KR10-2022-0096888 2022-08-03
KR10-2023-0101722 2023-08-03
KR1020230101722A KR20240019049A (ko) 2022-08-03 2023-08-03 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법및 그 방법을 수행하는 서버

Publications (1)

Publication Number Publication Date
WO2024029966A1 true WO2024029966A1 (ko) 2024-02-08

Family

ID=89849618

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/011430 WO2024029966A1 (ko) 2022-08-03 2023-08-03 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법 및 그 방법을 수행하는 서버

Country Status (1)

Country Link
WO (1) WO2024029966A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090002308A (ko) * 2007-06-27 2009-01-09 재단법인 한국특허정보원 텍스트 마이닝 기법을 이용한 등록특허의 기술평가 시스템및 그 방법
KR20110068277A (ko) * 2009-12-15 2011-06-22 한국발명진흥회 특허 자동 평가 시스템 및 상기 시스템에서의 평가 요소 정보 처리 방법
KR20120046670A (ko) * 2010-11-02 2012-05-10 (주)광개토연구소 특허 평가 모델 생성 방법, 특허 평가 방법, 그 방법을 실시하는 시스템 및 그 방법이 기록된 프로그램이 저장된 기록 매체
US20140143269A1 (en) * 2001-06-29 2014-05-22 Guerry L. Grune Simultaneous Intellectual Property Search and Valuation System and Methodology (SIPS-VSM)
KR20150114143A (ko) * 2014-03-31 2015-10-12 (주)윕스 지식재산권 평가 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140143269A1 (en) * 2001-06-29 2014-05-22 Guerry L. Grune Simultaneous Intellectual Property Search and Valuation System and Methodology (SIPS-VSM)
KR20090002308A (ko) * 2007-06-27 2009-01-09 재단법인 한국특허정보원 텍스트 마이닝 기법을 이용한 등록특허의 기술평가 시스템및 그 방법
KR20110068277A (ko) * 2009-12-15 2011-06-22 한국발명진흥회 특허 자동 평가 시스템 및 상기 시스템에서의 평가 요소 정보 처리 방법
KR20120046670A (ko) * 2010-11-02 2012-05-10 (주)광개토연구소 특허 평가 모델 생성 방법, 특허 평가 방법, 그 방법을 실시하는 시스템 및 그 방법이 기록된 프로그램이 저장된 기록 매체
KR20150114143A (ko) * 2014-03-31 2015-10-12 (주)윕스 지식재산권 평가 장치 및 방법

Similar Documents

Publication Publication Date Title
Quan et al. Unsupervised product feature extraction for feature-oriented opinion determination
Liu et al. Automated rule selection for opinion target extraction
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
WO2010036013A2 (ko) 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
Hosseini et al. SentiPers: a sentiment analysis corpus for Persian
Yiran et al. Aspect-based Sentiment Analysis on mobile phone reviews with LDA
US20230147941A1 (en) Method, apparatus and device used to search for content
US20120317125A1 (en) Method and apparatus for identifier retrieval
JP2003223456A (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN111429184A (zh) 一种基于文本信息的用户画像抽取方法
JP2021086580A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
JP2008243024A (ja) 情報取得装置、そのプログラム及び方法
Srivastava et al. Exploiting grammatical dependencies for fine-grained opinion mining
Jahan et al. An Automated Bengali Text Summarization Technique Using Lexicon-Based Approach
WO2023195769A1 (ko) 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치
WO2024029966A1 (ko) 청구항 분석에 기초하여 문헌의 가치를 평가하는 방법 및 그 방법을 수행하는 서버
CN113127600A (zh) 一种信息检索方法、装置、电子设备和存储介质
CN115062135B (zh) 一种专利筛选方法与电子设备
Jahan et al. A pronoun replacement-based special tagging system for bengali language processing (blp)
JP2021086592A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
WO2019112223A1 (ko) 전자 문서 검색 방법 및 그 서버
CN113919352A (zh) 数据库敏感数据识别方法及装置
TWI681308B (zh) 文章的回應預測裝置及方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23850466

Country of ref document: EP

Kind code of ref document: A1