WO2011155736A2 - Method for dynamically generating additional terms for each meaning of every natural language expression; dictionary manager, document generator, term annotator, search system, and device for building a document information system based on the method - Google Patents

Method for dynamically generating additional terms for each meaning of every natural language expression; dictionary manager, document generator, term annotator, search system, and device for building a document information system based on the method Download PDF

Info

Publication number
WO2011155736A2
WO2011155736A2 PCT/KR2011/004113 KR2011004113W WO2011155736A2 WO 2011155736 A2 WO2011155736 A2 WO 2011155736A2 KR 2011004113 W KR2011004113 W KR 2011004113W WO 2011155736 A2 WO2011155736 A2 WO 2011155736A2
Authority
WO
WIPO (PCT)
Prior art keywords
semantic unit
term
document
search
natural language
Prior art date
Application number
PCT/KR2011/004113
Other languages
French (fr)
Korean (ko)
Other versions
WO2011155736A9 (en
WO2011155736A3 (en
Inventor
박동민
Original Assignee
Park Dong Min
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Park Dong Min filed Critical Park Dong Min
Publication of WO2011155736A2 publication Critical patent/WO2011155736A2/en
Publication of WO2011155736A3 publication Critical patent/WO2011155736A3/en
Publication of WO2011155736A9 publication Critical patent/WO2011155736A9/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Definitions

  • the present invention relates to a term dictionary, a document writer, and an information retrieval involved in generating information, collecting, indexing, searching, and using information, and a term commenter, a document information system construction device, and a semantic web for making them based on semantic terms. (Semantic Web) is included.
  • the technical field to which the present invention belongs is the field of information retrieval. Since the present invention relates to semantic-based information retrieval, the semantic web field is related to the information retrieval field.
  • the Semantic Web represents the information about resources (web documents, various files, services, etc.) and the relations between resources in a distributed environment such as the Internet.
  • the meaning information (Semanteme) is expressed in an ontology that a machine (computer) can process. It is a framework technology that allows automated machines (computers) to process them.
  • Ontology is a formal specification of shared conceptualization of domains and expresses semantic information of domain vocabulary. Ontology is a kind of knowledge representation, and the computer can understand the concept represented by the ontology and process the knowledge. Ontology's axioms and rules are used for inference and proofing, and a separate rule language is used for rule expression.
  • the technical field to which the present invention belongs is the field of information retrieval.
  • the current level of search technology can be clearly seen through major search engines.
  • the major search technologies are natural language-based search technology. Since information is accumulated using unclear natural language and natural language search query is used, it has low search accuracy rate based on meaning.
  • Hong Gil-Dong (a pseudonym). Searching for information about the inventor under the name of Hong Gil-dong includes unnecessary information about 640 people other than the inventor. In this case, the search accuracy rate for the keyword Hong Gil-dong of the natural language search system is 1/641 on average. Indeed, current search engines display a lot of material, but often they don't really want it.
  • the total number of word types and the total number of meanings are proportional to the amount of overall meaning-based efforts.
  • the present invention finds several meanings in a specific natural language sorted content of a search system, generates a term, annotates this new term in the index, and eventually converts the entire Internet documents into semantic unit terms based on the index. It has the same effect as one.
  • Semantic term-based indexing can be used to convert all documents to semantic terminology.
  • this method unlike the ontology dictionary, this method generates terms through the simple task of dividing the natural language into semantic units, so that the general public can easily participate in the task of generating terms and converting documents / indexes into semantic unit terms. When general users generate only a few terms that they are interested in and have knowledge of, search for the corresponding natural language on the Internet and comment out the newly created semantic unit term, it is possible to convert the semantic unit term based on the whole Internet.
  • the present invention improves the meaning-based accuracy rate by several times, tens of times to hundreds of times, in some cases, compared to existing search engines.
  • a single term often has various meanings, and numerous proper nouns such as human names, store names, place names, etc. are invaded to general nouns, verbs, and adjectives.
  • the present invention uses the semantic unit terminology to improve the level of accuracy of the expression unit to the correct rate of the semantic unit by complementing the unclear natural language.
  • the present invention does not merely suggest a new model but includes a method in which the new model can be well established.
  • 1 is a block diagram of a semantic unit term-based information system
  • Figure 2 is the construction of a two-step semantic unit term-based information system
  • 9 is a flowchart illustrating generation of semantic unit terms
  • FIG. 14 is a flowchart of generating, commenting, and searching a semantic unit term segment.
  • 16 is a flowchart illustrating generation and use of semantic unit terminology group.
  • 17 is a block diagram of the center of an independent tin machine
  • 19 is an example of default values corresponding to a specific user.
  • 20 is a flowchart illustrating the determination of semantic unit default values for natural language expressions.
  • 21 is a conceptual structure of an annotation knowledge table
  • 25 is a flowchart in which a knowledge base annotation unit is performed on a document or a query word.
  • 26 is a flowchart for performing annotation knowledge on an index.
  • 27 is a document annotation of an index-based document annotation portion.
  • Fig. 28 is a flowchart for annotating semantic unit terms to specific natural language expressions in an indexed document.
  • 29 is a scale of a semantic unit term (unique ID +) based information system.
  • 32 is a manual annotation type document builder and an automatic annotation type document builder
  • 35 is a minimum configuration of a search system
  • 36 is a diagram illustrating a search commenter added to a search system minimum configuration.
  • 40 is an operation flowchart of a search system using basic functions and a search annotation function.
  • Fig. 41 is a flowchart showing the operation of the search system using basic functions and annotation knowledge functions.
  • 49 shows the difference between a word search comment and a document search comment
  • Fig. 52 is a comparison of the importance of each of the annotation devices.
  • Fig. 53 is a block diagram created around the search commenter
  • 54 is a flowchart of a search comment.
  • 55 is a flowchart illustrating annotations on indexes of search result words.
  • 56 is a diagram illustrating the structure of a searcher
  • 57 is a search query word
  • 59 is a flow chart of query term based on semantic unit terms.
  • 61 is a flowchart for searching for words and displaying items in word units.
  • 62 is a search flow chart listing and displaying word search results by word for each document.
  • 63 is a flowchart for generating and utilizing search knowledge.
  • 64 is a diagram illustrating the construction of a document information system builder
  • 65 is a natural language document information system and a unique ID + document information system.
  • 66 is to construct a document information system using dictionary, index and annotation knowledge.
  • 67 is to build a semantic unit term-based document information system using a dictionary and an index
  • 68 is a document information system construction using dictionary and annotation knowledge.
  • 69 is a flowchart illustrating the construction of a document information system using an index.
  • 70 is a flow chart of document information system construction using annotation knowledge.
  • 71 is a flow chart of document information system using search system index and annotation knowledge.
  • 73 is a flow chart of storing and using after merging a search target document source with additional information
  • 02-01 is a natural language document information system
  • 02-02 is a natural language based search system
  • 02-03 is a semantic unit term based device 1
  • 02-04 is a first-level semantic unit term-based information system
  • 02-05 is a semantic unit term based search system
  • 02-06 is a semantic unit term based document information system builder
  • 02-07 is a semantic unit term based information system
  • 03-01 is the semantic unit term-based document creation step
  • 03-03 is a semantic unit term-based index step
  • 03-04 is a semantic unit term-based index step
  • 03-07 is an annotation knowledge generation step
  • 03-08 is a knowledge base annotation step
  • 03-09 is the establishment stage of document information system based on semantic unit terminology
  • 05-02 is the semantic unit term generation in the word search process
  • 06-01 is the table above and shows that natural language has various meanings.
  • 06-02 shows the following table and shows that unique IDs are assigned to various meanings of natural language.
  • 09-01 is the semantic unit term information acquisition step
  • 11-02 is the semantic unit term search classification stage
  • 11-03 is the semantic unit term classification stratification step.
  • 11-05 is a step to adjust the semantic unit term classification dissent.
  • 16-02 is the search term using the term group
  • 20-01 is the step of determining the default value of semantic unit term by group
  • Step 20-04 applies the semantic unit term internet default
  • 23-02 is the step of receiving annotation knowledge creation request
  • 25-01 is the stage of receiving knowledge base annotation requests
  • 25-02 is annotated knowledge search phase
  • 26-01 is the request to perform index target annotation knowledge step
  • 26-02 is annotated knowledge transformation stage
  • 26-03 is annotated index search step
  • 32-01 is a manual annotated document writer
  • 33-01 is a natural language document creation step
  • 39-01 is the semantic unit term-based document collection stage
  • 39-02 is a semantic unit term-based index step
  • 39-03 is a semantic unit term-based search step
  • 40-01 is the semantic unit term-based document collection step
  • 40-02 is a semantic unit term-based index step
  • 40-04 is the semantic unit term based search step
  • 41-01 is the semantic unit term-based document collection
  • 41-02 is a semantic unit term-based index step
  • 41-04 is the semantic unit term based search step
  • 43-01 is a conceptual index for 43-02 documents
  • 44-01 is a conceptual index for 44-02 documents
  • 44-02 is a search for natural language instructions
  • 44-03 is an arrow pointing to a table showing the values to be placed in the semantic unit term field of the index.
  • 45-02 is the semantic unit term-based indexing stage
  • 46-01 is the semantic unit term query comment section (in the semantic term based search commenter).
  • 46-02 is the semantic unit term query part (which is included in the semantic term based searcher).
  • 49-01 shows a word search annotation method that annotates all words in a document.
  • 49-02 does not record the location within a document, so it shows a document retrieval annotation that records only one thing with the same natural language and the same meaning.
  • 51-01 is a new document document creator type 1
  • 51-03 is the default document commenter.
  • 54-02 is a document retrieval comment request receipt step
  • 55-01 is the semantic unit term based word search step
  • 57-01 is a natural search query
  • 57-02 is a unique ID + search query
  • 59-01 is the natural language query stage
  • 61-01 is the step of receiving a word search request
  • 62-02 is a word search result document-by-word display step
  • 63-01 is a search query review step
  • 63-02 is the creation of search knowledge
  • 63-03 is the stage of receiving a search knowledge disclosure request
  • 65-01 is a natural language document information system
  • 65-02 is a unique ID + document information system
  • 70-01 is the document information system document collection stage
  • 70-02 is the application of annotation knowledge documents
  • 70-03 is the application stage of annotation knowledge document information system.
  • 71-01 is the document information system document collection stage
  • 71-05 shows the application of annotation knowledge documents.
  • 71-06 shows the application of annotation knowledge document information system.
  • Semantic term-In the natural language the same natural language expression may have several meanings. On the contrary, a single meaning may be expressed in various ways. A semantic unit term generates one term for each meaning. When a natural language expression has various meanings, the term is subdivided by a semantic serial number. On the contrary, when the expressions have various expressions, natural language representative expressions are used to have the same meaning. However, as an exception, even if the meaning is the same, if the languages are different, separate semantic unit terms are created.
  • the natural language exists in the form of "natural language + meaning unit term" with the semantic unit terms are annotated to clarify the meaning.
  • the semantic unit term is used in two meanings. It may mean “natural language + meaning unit term”, and it may mean only “mean unit term” regardless of the natural language.
  • the term "natural language + semantic term” means a semantic term.
  • a semantic unit term document means a form in which a semantic unit term is annotated in a natural language.
  • the semantic unit term index is also an index containing both natural language information and semantic unit terms. The terms used to clarify this meaning are Unique ID and Unique ID +.
  • Unique ID-A representative semantic unit term proposed by the present invention It is made by linking a semantic serial number to a natural language representation. One language is created for each language.
  • Annotation-Annotation is used here to clarify meaning by adding semantic unit terms to natural language expressions.
  • convert means to convert a natural language expression into (natural language expression, semantic term) pair. After all, comments and conversions mean the same thing.
  • GUID-Globally Unique Identifier is a pseudo-random number used in application software. While there is no guarantee that a unique value will always be created when generating a GUID, it is very unlikely that the same number will be generated twice if there is an appropriate algorithm. Therefore, the system does not need to maintain serial numbers. However, its length is inconvenient to use.
  • the present invention is a semantic unit term based information system centered on a retrieval system.
  • the basic components of the natural language retrieval system are document collectors, indexers, and searchers.
  • Natural language document writers and natural language search systems use natural language dictionaries.
  • the natural language information system centered on the retrieval system consists of 5 devices: 1) dictionary, 2) document writer, 3) collector, 4) indexer, and 5) searcher.
  • the semantic unit term-based information system includes all the devices of the natural language information system.
  • the basic framework is the same. Devices added because they are semantic terms are 1) dictionary of semantic terms, 2) commenter of meaning unit, 3) search commenter of meaning unit, and 4) builder of document information system based on semantic unit.
  • the actual diagram consists of eight devices except the natural language dictionary. This is because the natural language dictionary is conceptually included in the semantic unit term dictionary. Of the four devices that have been added, the need for a semantic dictionary of terms is too obvious.
  • the other three devices (commenters, search commentators, and document information system builders) are the devices needed to convert information made from natural language into information made from semantic unit terms.
  • semantic unit terminology is not the language that users use in real life, but the number of words is much longer and its length is longer. Therefore, we need special help because we can't remember and write the document. There is a need for devices that help users easily use semantic terms.
  • Annotator is a device that converts natural language into semantic unit term.
  • a document writer, retrieval system, and document information system builder are used as an independent device outside the retrieval system.
  • Search commentators are internal devices in the search system that convert the contents of an index from natural to semantic terms.
  • the document information system builder is a device that converts all documents into semantic unit terms based on knowledge and information accumulated in the state of making semantic unit terms based on the retrieval system.
  • 1 is a configuration diagram including all devices.
  • a semantic unit term based information system is a semantic unit term based information system including dictionary manager, commenter, document writer, retrieval system, and document information system builder.
  • the semantic term dictionary manager is a device that creates semantic unit terms and adds descriptions to them to create dictionaries and manage them. It is a basic device used by all devices of A. semantic term-based information system. Abbreviation is a dictionary manager.
  • Meaning unit term generation unit is a device that generates a dictionary by generating a unique ID, a meaning expression ID, or a semantic based GUID that is a semantic unit term, and adds a description to it.
  • Abbreviation is term generating unit.
  • the semantic unit term management unit is a device that manages the modified semantic unit term.
  • dictionary search unit is a dictionary finder. When a user searches a dictionary by inputting natural language, corresponding semantic unit terms are listed and the user selects one of them. It is similar to the function of inputting Hangul and converting to Hanja, but Hanja conversion is replaced with Hanja, but the dictionary search unit is commented after natural language rather than replacing. Abbreviated name is dictionary search
  • C. Meaning unit term commenter is a device that annotates semantic unit term in natural language expression and is used by D. Meaning unit based document writer, E. Meaning unit based search system, and J. Meaning unit based document information system builder. do. Abbreviation is a tin group. It is very difficult to convert all natural words into semantic units using dictionaries.
  • Annotators are devices that automatically comment or help using annotation knowledge or defaults. It is a device used for comments on natural language in documents, comments on search system indexes, and comments on search query words. It is used to annotate existing documents as well as to comment on natural languages as new documents are created. It can be done by command, or it can be done automatically on a regular basis like an agent. It is also used for annotating bulk documents and for individual documentation.
  • Annotation knowledge is the knowledge that "in any 1) condition, 2) natural language expression is 3) meaning.” This is usually done using a search commenter that finds objects by searching and annotates specific semantic unit terms in certain natural language expressions, and then registers them as annotation knowledge if the results are satisfactory.
  • 1) condition is query term used in search
  • 2) natural language expression is specific natural language expression used in search
  • 3) meaning is semantic unit term used to comment in search.
  • Default management unit is a device that manages default values.
  • the default value is the semantic unit term for a specific natural language most frequently used on the individual, in a particular organization, in a particular field or on the Internet. In situations where multiple default values are applied, they usually have priority in order of individual, specific group, sector, and the Internet, and the user can specify the priority or default value. If there is no comment knowledge and a specific natural language cannot be annotated as a semantic unit term, the default value of the highest priority is applied.
  • C3.Knowledge-based comment section (document / index / query comment) is usually marked as C3.Knowledge-based comment section. It is a device that annotates or helps semantic unit terms in natural language by using comment knowledge or default value. It can be called and used, or it can be run regularly like an agent. It is a device that can be used for all annotations, including bulk documentation.
  • Index-based document commenting unit is an apparatus that annotates the contents of the document by extracting the information of the index while the index is converted based on semantic terms.
  • the fact that the index has already been based on semantic unit terminology means that the semantic unit term-based information system is completed.
  • C5.Annotation management unit is a device that shows all the comments and reviews the contents so that the comment errors can be corrected. Comments added by the user's comment knowledge, comments added by the user's search comment, etc. can be viewed in the order of the comment date.
  • the term-based document composer can write a document in semantic unit terms, but conceptually, it creates a document in natural language and finds the corresponding semantic unit term using natural language, and then goes through the two-step process of commenting on the natural language. Create a term-based document.
  • the abbreviation is a document writer.
  • Natural language writing unit is the same as the existing natural language-based document generator.
  • Meaning unit term document comment section is a device that annotates documents written in natural language in semantic unit terminology. Annotation is a difficult task only with the help of the semantic unit terminology dictionary, but it can be done without any difficulty with the help of C3.
  • the semantic term based search system is a device for indexing and searching the collected documents based on semantic unit terms.
  • Internal devices include 1) document collector, 2) indexer, 3) search commenter, and 4) searcher.
  • F. Document Collector is a device that collects documents to be searched.
  • Semantic term-based indexer is a device for creating semantic term-based indexes from retrieved documents. Abbreviation is indexer
  • Semantic term-based search commenter is a device that combines search and annotation functions to annotate indexes.
  • Abbreviation is a search commenter
  • Document search comment section is a device that annotates a specific semantic unit term to a specific natural language contained in all or part of the documents found by a search.
  • the abbreviation is a document search comment.
  • Word search comment section is a device that writes and annotates a specific semantic unit term for all or part of the words found by the search. Abbreviations are word search comments.
  • a semantic unit term based searcher is a searcher that searches a query made of semantic unit terms for an index created based on a semantic unit term.
  • Abbreviation is a searcher
  • the document search unit is a list of documents whose search results are the same as in the existing search system. For example, if a word search result is 4 words in 2 documents, 2 items are listed. The resulting items may be subject to document processing.
  • the word search unit is a word list of the search results. For example, if the word search result is 4 words in 2 documents of 2 documents, 4 items are listed. Result items may be subject to word processing.
  • Search Knowledge Management Unit is a device that creates and manages search knowledge. If the user determines that the search query is meaningful, the user may register it as search knowledge. Existing natural language search was so low in accuracy that it was less likely to continue to be used as knowledge. On the other hand, the semantic unit term-based search can pursue 100% accuracy. The knowledge of low accuracy rate increases the error rate by operation, but the semantic unit term base can be used in combination.
  • Semantic term-based document information system builder extracts semantic unit term information from semantic unit term-based index to make documents in document information system based on semantic unit term or convert documents to semantic unit term using annotation knowledge.
  • Device. Abbreviation is document information system builder.
  • Index-based document information system construction unit is an apparatus that makes the documents in the document information system based on semantic unit terms using index information.
  • J2.Annotation knowledge-based document information system construction unit is a device that makes the documents in the document information system based on semantic unit terms using annotation knowledge.
  • the proposed method is to sort the document information system by words and to annotate the whole word. Fortunately, there are devices that sort by word. This is a search system. In the retrieval system, the contents of all searched documents are sorted by words. The proposed method is to make the index of the retrieval system based on the semantic term instead of changing the document information system to the semantic term. Changing the index to semantic terminology is the same as changing the document information system to semantic terminology.
  • a semantic unit term-based index can make a natural language document information system into a semantic unit term-based document information system.
  • the proposed first-level semantic unit term-based information system (02-04) is made by introducing a search system (02-02) into the natural language document information system (02-01). After sorting by word by the index of the retrieval system, the index should be changed based on semantic terms.
  • the semantic unit term-based device 1 is a semantic unit term dictionary, a default DB and an annotation knowledge DB and three devices (a semantic unit term dictionary manager, a semantic unit term commenter, and a semantic unit term based search annotator). These devices make natural language-based indexes into semantic unit-based indexes.
  • the purpose of the first-level semantic unit term-based information system is to build a semantic unit terminology dictionary and a semantic unit term-based index. It can be said that the semantic unit term-based index and dictionary were completed in the first stage, but it is still based on natural language in terms of document information system and retrieval system. Also, step 1 has no role in terms of new documents, rather than existing documents indexed in the retrieval system.
  • the semantic unit term-based processing apparatuses for new documents are added, the search apparatuses are changed to the semantic unit term based, and the semantic unit term based retrieval system apparatus is changed to change the document information system to the semantic unit term based (02-05). ) And semantic unit term-based document information system builder (02-06) are added.
  • the core devices of the semantic unit term-based information system are contained in the first-level information system. If the first stage succeeds, there is no obstacle to the completion of the semantic unit term-based information system. This is because the second stage is not a task performed by a large number of users, but a task performed by the operator / developer and the user simply uses the result.
  • FIG. 3 is a flowchart in which a semantic unit term based information system centered on a search system operates.
  • the first four steps (document creation step (03-01), document collection step (03-02), indexing step (03-03) and search step (03-04)) are typical features of the search system. It is not based on semantic unit terminology. If documents are written as semantic terminology documents from the beginning, they can be treated the same as natural language-based information systems, and no special procedures need to be introduced. However, since the dictionary of semantic unit terminology is insufficient at the beginning, it is difficult for the document itself to be written based on semantic unit terminology. Almost all of them are collected and indexed as natural language documents, and the actual step of making indexes based on semantic terms is the next step. From now on, the semantic terminology-based procedure begins.
  • semantic unit term dictionary manager creates a term using natural language expressions and creates a dictionary entry for the term by pairing the generated term with a description (03-05).
  • the user must divide specific natural words by meaning and display the meaning unit by indexes sorted by words.
  • the user searches using a query to find a specific meaning of a specific natural language and annotates the semantic unit term in the index to the corresponding natural language expression included in the found document (03-06).
  • Conventional natural language indexes index document positions and document names in natural language fields, whereas semantic term-based indexes index document positions and document names in natural language / semi units.
  • the work of creating indexes on a semantic basis based on search annotations can be done. But a more sophisticated approach can be applied here. Rather than performing the search knowledge once and forgetting it, storing this information can be used for other purposes.
  • the most representative example is the application to new documents.
  • the search system index adds content as new documents continue to be added. It is inconvenient for the user to regularly perform search knowledge on newly indexed documents.
  • the search query word used in the search comment, the natural language expression to be commented, and the semantic unit term to be commented out become comment knowledge when stored.
  • annotation knowledge is later performed to perform the same tasks as existing search annotations.
  • Annotation knowledge is usually done on a different target than previous search annotations. New documents that are newly created and included in the search system index can be performed regularly. Annotation knowledge can be performed in the form of an agent by setting time and period (03-08). Repeated search annotations and knowledge base annotations build up many semantic term annotations in the index.
  • semantic unit term annotation information for each document from the semantic unit term-based index and applying it to the corresponding document, make the document into semantic unit term-based document, and make the document information system based on the semantic unit term.
  • Document information systems can be based on semantic units (03-09).
  • semantic unit term dictionary is completed, semantic unit term based index is completed, and semantic unit term based document information system is completed.
  • FIG. 4 is a diagram illustrating the configuration of a pre-manager.
  • Meaning unit term generation unit is implemented by selecting one of four methods, unique ID, semantic expression ID, semantic unit GUID, and semantic expression GUID, but it does not mean that several methods are applied at the same time.
  • the term merging is used for merging one of the two or merging by making a third term when two semantic unit terms have the same meaning.
  • Terminology classification is the same as classifying Obama as "man,” president. Classifications do not have to be entered at term generation and can specify multiple values.
  • Terminology aliases can be created for semantic terminology that is used frequently. Long semantic unit terms are term aliases because they are inconvenient for users to enter and difficult to remember. This term alias is translated into the corresponding semantic unit term before being used by the actual device.
  • division function is a function for dividing, dividing and searching a term in detail when a term is frequently used.
  • semantic unit terms there are only a few cases and hundreds of millions of cases. If hundreds of millions of cases are found, the terminology split will be used.
  • a term group is a group of several terms, and the group search shows the combined results of each of the terms in the group.
  • Meaning unit term dictionary search unit is a dictionary finder. When a user searches a dictionary by inputting natural language, corresponding semantic unit terms are listed and one of them is selected. It is similar to the function of inputting Hangul and converting to Hanja, but Hanja conversion is replaced with Hanja, but the dictionary search unit is commented after natural language rather than replacing.
  • the retrieval system is the best system to show related information easily while making sense of semantic terminology.
  • the retrieval system makes it easy to generate semantic terminology and to create means for annotating semantic unit terms in the index.
  • the retrieval system is the best tool for transforming natural language based information system into semantic based.
  • FIG. 6 shows how ambiguous a natural language is and why a semantic unit term is necessary.
  • the upper part of FIG. 6 shows the cause of the invention (06-01).
  • Natural language has many meanings. This causes the general search engines to have a low accuracy rate based on semantic unit terms. In the case of Hong Gil-dong (a pseudonym, the inventor's name), the accuracy rate is 1/641. A myriad of proper nouns invade common nouns and verb adjectives, making the meaning of words unclear.
  • the lower part of FIG. 6 shows that a semantic unit term is generated for each meaning of the natural language expression (06-02).
  • the unique ID is a representative semantic unit term used in the present invention and is made by adding a natural language representative expression and a semantic serial number. Unique ID is created separately for each meaning. Looking for Hong Gil-dong on a particular social network service (SNS), there are 641 people with the same name. In Hong Gil-dong_1, 1 is the semantic serial number. After that, if a new Honggil-dong is found, it will be Honggil-dong_642 using the largest meaning serial number. If the semantic unit term is used instead of the natural language, it is 100% at the search accuracy rate of 1/641 in Hong Gil-dong.
  • SNS social network service
  • Unique ID + is a concept that includes a natural language expression for the user in addition to the unique ID for clear expression.
  • the unique ID table contains a representative expression and a unique ID value, and contains a one-line description and a detailed description of the meaning of the unique ID.
  • the one-line description is used when many unique IDs are listed at the same time, and the description is used when there is enough space to see only one unique ID.
  • natural language and unique ID are one-to-many relationship, but there can be many expressions for one entity. In this case, other expressions that are not representative expressions are entered in other natural language expressions.
  • semantic unit term 9 is a flowchart illustrating generating a semantic unit term.
  • the generation of semantic unit terms is all parts of speech in all languages of the world. The number is at least 10 billion because all proper nouns, including personal names, are included.
  • semantic unit term with the desired meaning in the dictionary search and the natural language expression is not the same, but it is included in other expressions, the semantic unit term can be used. When it is necessary to create a semantic unit term, there is no semantic unit term with a desired meaning.
  • a natural language expression and a description of a specific meaning of the natural language expression must be input (09-01).
  • a new semantic unit term is generated by connecting the semantic serial number of the natural language expression to the input natural language expression.
  • a unique ID that is a semantic unit term defined in the present invention is generated (09-02).
  • the semantic unit term dictionary item is generated by pairing the generated semantic unit term and the obtained description (09-03).
  • semantic unit terms are embodiments of the present invention. These terms are very easy to define and very easy to use compared to ontology dictionaries, which can be called conventional semantic dictionaries. Therefore, general users who do not have expertise can participate in generating semantic unit terms of interest and build new document information system using these terms. For example, if the natural language AAA has three meanings, the effort to create three terms AAA_1, AAA_2, and AAA_3 to create a unique ID, and write a description for each one is completed. .
  • the four semantic unit terms may have different shapes, but basically, the knowledge required by the user or the information to be input is similar. Because it is created in the natural language system, it does not require the effort and knowledge to create a completely new language.
  • the semantic unit term generation method can be considered when there are only two natural languages in the world and each has two meanings.
  • AAA_1, AAA_2, BBB_1, BBB_2 is a unique ID method and the system must maintain a semantic serial number for each natural language.
  • Unique ID is a method of maintaining and using serial numbers for each natural language. This is the best way to read and remember the user.
  • Unique ID is a representative semantic unit term proposed by the present invention. The process of dividing natural language expressions into semantic units is easy to understand. On the other hand, making various expressions as one semantic unit term may be a little inconvenient for general users because the concept of natural language representation should be introduced. For example, in many news, President Obama is represented as Barack Obama, but there are also cases where it is expressed as Barack Hussein Obama, Barack Hussein Obama II, Barack, and Obama. Creating a term for each of these expressions results in a semantic expression ID. Since the semantic expression ID is not a semantic unit term, it is necessary to merge the semantic unit into a semantic unit term.
  • semantic merge ID The merge of semantic expression ID into semantic unit is called semantic merge ID.
  • the semantic merge ID corresponds to a unique ID
  • the semantic expression ID corresponds to a unique ID +. Comparing the unique ID method and the semantic expression ID method, the semantic expression ID requires several times the term generation effort. It makes the term dictionary large and the user uncomfortable by writing explanations without the need for expression units rather than semantic units.
  • the unique ID + does not have a separate term description can confirm the efficiency of the unique ID method.
  • the unique ID is the most recommended semantic unit terminology in that the term generation effort is the smallest among the proposed semantic unit terms and is easy to remember and use.
  • the natural language representation is Barack Obama, while Barack Hussein Obama, Barack Hussein Obama II, Barack, and Obama are other expressions.
  • the generated unique ID becomes Barack_Obama_1 assuming that the semantic serial number of the corresponding natural language expression possessed by the system is 1.
  • the part enclosed in square brackets is a unique ID + and corresponds to a semantic expression ID.
  • Unique ID of the present invention has the following meaning. Unique ID was created to remove the ambiguity of natural language, and terms are created for each of the various meanings of natural language. It is the most representative semantic unit term, and it is divided into semantic units including all proper nouns such as names, place names, etc., which are confused with other words. The global set of 6 billion people, including all languages and all parts-of-speech, must be a separate, unique ID item, at least 10 billion.
  • Teen ID can easily create based on natural language, so general users can create and annotate terms. Unique ID is a precise language with a rich dictionary. The prerequisite for the new term to actually be established and empowered is to be able to annotate all existing documents with unique IDs. It is not worth it without the annotation method.
  • unique ID + will be the basis for search engines, language translation, semantic web, AI, and classification.
  • the unique ID maintains the generation method that depends on the natural language even when creating a concept that does not exist in the existing natural language expression. Create a natural language representation for the new concept and create a unique ID based on the generated natural language representation.
  • a detailed description of the semantic unit term is described using a unique ID. Since the implementation of semantic expression ID and semantic unit GUID is very different from the implementation of unique ID, a separate explanation is not necessary unless a separate explanation is necessary.
  • the classification of semantic unit terms means that the object of classification is a semantic unit term.
  • the semantic unit term is also used for the classification name to which the semantic unit term belongs.
  • Classification names can be natural, semantic, or mixed forms of natural and semantic terms.
  • the semantic unit term may have a classification name of 0 or more, and the classification name of the semantic unit term may be added or deleted at any time, and the classification name does not need to be defined before use in the term, and when the term is created or the term is changed. If you enter a classification name that has not existed before, a new classification name is automatically registered, and one classification name belongs to more than 0 classifications and hierarchies. If there is disagreement, the classification and hierarchical structure of terms can be refined through group intelligence such as discussion. Intuitive semantic term classification method.
  • classification name is entered in the classification field of a term while generating or changing a semantic unit term, the term belongs to the classification name (11-01).
  • the term classification can proceed in bulk through search.
  • the semantic unit term dictionary is searched and the selected terms belong to a specific classification (11-02).
  • Classification can have a hierarchical structure.
  • the hierarchical structure is created by selecting two classification names and setting up a hierarchical relationship. This hierarchical relationship setting has a complicated hierarchical structure when it is repeated (11-03).
  • This semantic unit term classification can be changed if a change such as an error is found (11-04).
  • the classification of semantic unit terms proceeds with the participation of many people as natural language develops. Procedures for setting up, discussing, and voting are provided so that the classification of semantic unit terms can be developed by many people (11-05).
  • FIG. 12 illustrates a method of using a semantic unit term term alias to create and use a term alias that can be used when a semantic unit term is long and difficult to remember.
  • Terms apply to semantic terminology, and term aliases are created and used for individuals, specific groups, or the Internet.
  • the term alias is created using three pieces of information: applied group, term alias, and semantic unit term (12-01). To use a terminology of a group, the group's term aliases are listed in the individual's terminology list (12-02).
  • the actual query term is executed or translated into the corresponding semantic unit term before the document is stored (12-03).
  • FIG. 14 illustrates a method of managing specific semantic unit terms by dividing them into term segments when necessary to subdivide semantic unit terms, and using them to annotate and search like semantic unit terms subdivided using semantic unit term terms. .
  • the semantic unit term term division is performed (14-01).
  • the terminology division may consist of several layers, not just one.
  • the terminology of the lower hierarchy can be created (14-02). Once a term split has been created, it can be used to annotate a document or search system index (14-03) and search for the term using the term split (14-04).
  • semantic unit terminology group If you define a term group, you can create a search query using the term group name. In the example shown in the figure, the search term “2010 Korea High School Grade 1 _Grp” shows the list of the results found with “Hong Gil Dong_1” and the results found with “Kim Gil Dong_1”. Semantic unit terminology
  • the term group unlike terminology, has no use for annotating documents or search system indexes, and semantic unit terms are more precise language than natural language. Thus, if you search in semantic terms, only a small number of documents can be searched in. Groups can be used to increase concepts or search results at a reasonable size. A list of graduates should be found and each one searched, and this term group function provides a convenient way to perform two-step tasks at once.
  • Figure 16 shows how to create a semantic unit term group and use it. After inputting a semantic unit term or group list to be grouped, a group name to be created, and a group description, and requesting to create a semantic unit terminology group, a term group is generated using the input items (16-01). The created term group can be used in search queries. The term group included in the search query is converted into a semantic unit term query and the search is performed (16-02). Natural language is not an object that can accumulate knowledge in search because its meaning is unclear. This is because the error is widened as it is used in various ways. Semantic unit terminology can be used in various ways because it is precise and close to 100% of search accuracy.
  • the semantic unit term-based information system includes a device for annotating document builders, retrieval systems, and document information system construction units.
  • the independent commenter is mainly described, and the overall commenter is comprehensively described in the section describing the search commenter in the search system.
  • Semantic unit term commenter provides comment function to all devices (document writer, retrieval system, system builder).
  • Mean unit term commenter is a device for annotating semantic unit term in natural language expression.It is C1.Annotation knowledge management unit, C2.Default management unit, C3.Knowledge-based annotation unit, C4.Index-based document annotation unit and C5.Annotation unit. It is composed and used with the semantic unit dictionary manager.
  • Commentators are called independent commenters, meaning they can be used without being dependent on a particular device.
  • the search commenter is a powerful commenting device, but is separate from this independent commenter because it depends on the searcher.
  • Independent commentators are called on different devices and used in a variety of ways.
  • Annotation knowledge consists of 1) comment conditions, 2) natural language expressions to be commented, and 3) semantic unit terms to be commented on.
  • C1.Annotation Knowledge Management Unit is responsible for creating, modifying and deleting this annotation knowledge.
  • Meaning unit default value management department creates and manages default value for individual or group.
  • the default value is the semantic unit term that a particular person or group uses the most for a particular natural language expression.
  • the individual's default is the highest priority, groups such as companies or sectors come first, and everyone's Internet has the lowest priority. Individuals using default values decide which default values to apply.
  • C3.Knowledge-based comment section is a device that annotates semantic unit terms in natural language expression using annotation knowledge and default value.
  • Knowledge base annotations are performed on documents, indexes and queries. That is, it is used for annotation in all parts of natural language input. It can be called from where natural language is input or used in the form of an agent that is executed regularly. It can be done in the form of automatic annotation.
  • annotation knowledge When annotation knowledge is accumulated enough, all annotations can be automatically performed.
  • Knowledge base annotations apply annotation knowledge and default values when run. Whether or not to accept defaults in the absence of annotation knowledge is determined by the configuration. The default value means the highest frequency of use and does not mean that the accuracy is above the standard.
  • Index-based document Annotation unit is a device that converts a document into semantic term based on information in the index.
  • the target document In order to use the information in the index, the target document must already be included in the search system index. If the document is based on semantic unit terminology, the relevant part of the index can be changed to semantic unit term base. Conversely, if the information in the index is based on semantic unit terminology, the document can be based on semantic unit terminology.
  • This device can be said to be a device for type conversion of existing information.
  • C5.Annotation management unit is a device that shows all the comments and reviews the contents so that the comment errors can be corrected. My comment manager can view comments added by the comment knowledge that you created, comments added by your search comment, etc. in the order of comment date.
  • the heading part is a natural language, and the content below the heading indicates various meanings of the natural language (various meanings mean unique IDs).
  • the colored unique ID is the default semantic unit term for the natural language of a specific person.
  • the default value specifies a specific value among several meanings of natural language.
  • the default value of natural language Hong-gil-dong is set to Hong-gil-dong_1 (inventor Hong-gil-dong), operation is set to operation_3 (operation), and eyes are set to eye_1 (Eye). If there is a setting to apply the default value, the system automatically annotates the unique ID value, which is the default value when the user enters the above natural language according to the contents of this default DB.
  • 19 is an example of default values corresponding to a specific user.
  • Their priorities are individuals> groups> the Internet. Usually, the default value for the entire Internet is the lowest priority, and smaller groups usually have higher priority. Therefore, the individual's default has the highest priority.
  • the number and priority of groups they belong to can be determined by each user or set by the system. If you set the document field in advance while creating the document, the default value of the field is applied. In general, higher priority has a default value for some natural language and lower priority has a default value for many natural language.
  • the Internet has defaults for all natural languages.
  • the final default value is that of the highest priority individual. In order for the lowest Internet default to be the final default, all other group defaults must not exist. In the picture above, in the case of natural language Hong Gil-dong, there are several default values, but the highest priority personal default value is the comprehensive default value. In the case of natural language operation, the default values of the group and the Internet exist. In the case of natural language eyes, only the Internet has a default value, which is the final default value.
  • each group records the frequency of use of semantic unit terms by natural language expression and sets the semantic unit term with the highest frequency of use as the semantic unit term default value of the natural language expression (20-01). If a person is known because a search query is being made or the owner of a document is specified, the semantic unit term for a specific natural language expression is applied as the person's default (20-02). If the default value does not exist and the group (field) of the document is specified in the application of personal default value, the semantic unit term for the natural language expression is applied as the default value of the group. Apply priority to groups (20-03). If the corresponding default value does not exist in the group default application step, the semantic unit term for the natural language expression is applied as the default value of the Internet (20-04).
  • 21 shows a conceptual structure of an annotation knowledge table.
  • the comment condition refers to the search query.
  • This commentary knowledge is explained as follows.
  • this annotation knowledge acts like a search annotation.
  • the search engine searches for “President Obama” and annotates the unique ID barack_obama_1 in the index for the found documents.
  • this annotation knowledge is performed on a document, it finds a "President Obama” in the document and converts the Obama to Obama: barack_obama_1.
  • the search query can contain not only natural language but also a lot of information used in advanced search such as unique ID +, target site, field, date range and so on.
  • the search is performed by acquiring a search query using phrases allowed by the search query grammar, such as a natural language / meaning term expression, an operator, a period, a site, a field, a category (23-01).
  • phrases allowed by the search query grammar such as a natural language / meaning term expression, an operator, a period, a site, a field, a category (23-01).
  • Annotated knowledge and annotated knowledge ID are created that contain the verified search query word, the natural language to be annotated, the semantic unit term to be commented, and annotated knowledge item is created by combining the annotated knowledge, annotated knowledge ID, and description (23-03). .
  • Annotation knowledge is information that is applied when knowledge base annotations are performed.
  • the default value is applied only if there is a setting to apply.
  • the default value is inaccurate information compared to annotation knowledge. Therefore, whether the knowledge base comment is left uncommented or the default is applied is determined by the configuration.
  • the order of application is annotation knowledge> personal default> group default> Internet default. If there is a higher priority semantic unit term, it is used in the semantic unit term annotation of the natural language. If not, the semantic unit term of the next rank is used. If the semantic unit term used in the annotation processing is not correct, the user must correct it.
  • FIG. 25 illustrates a process of annotating by performing a knowledge base annotation on a document or query word. Indexing works with the help of the search system, but in the case of documents or queries, the search system is not involved. Thus the procedure is very different.
  • First select a natural language expression to be commented and make a knowledge-based comment request (25-01).
  • annotation knowledge is typically generated from search system queries by default. Therefore, not all annotation knowledge can be used for annotation in natural language expressions.
  • the annotation knowledge is indicated by a function that checks whether it is applicable in the absence of a search system, so the applicability can be confirmed in advance. If the corresponding annotation knowledge is not one but multiple, which one is to be performed first is the annotation knowledge itself. In general, priority has priority because it is determined that a small number of results is accurate when a search is performed.
  • annotation knowledge is the annotation knowledge that performs the search comment and stores the content of the search comment.
  • annotation knowledge is a duplication of what you've done in previous search annotations. But search system indexes are always changing. Adding new documents is the biggest reason. It is very inconvenient for a person to perform a search annotation each time new documents are added, but if you save the contents at the time of the search annotation, it can be automatically performed regularly.
  • annotation knowledge you can modify some of the content of the previous annotation knowledge in order to change the length of time or reenactment.
  • a comment knowledge request for indexing is entered by inputting a comment knowledge ID and a change element (26-01).
  • the requested comment knowledge is modified to reflect the change elements before execution (26-02).
  • (26-03) Annotate the semantic unit terms included in the annotation knowledge (26-04).
  • FIG. 27 shows that an index-based document annotation unit annotates a document using only index information.
  • the search commenter or commenter accumulates semantic information in the index, while the index-based document commenter is used to extract information from the index and apply it to natural language documents. It is a device that works backwards with semantic unit term indexer.
  • knowledge base annotations are typically used, using annotation knowledge and default values.
  • Index-based document annotations use information accumulated in the index, not annotation knowledge.
  • semantic unit term-based index semantic unit term annotations are accumulated by search commenter or commenter. The information stored in the index may be more than what can be obtained from annotation knowledge.
  • index-based document annotation unit is called and used mainly by the index-based document information system builder. It can also be called and used by the document writer.
  • Fig. 28 shows a procedure for annotating semantic unit terms to specific natural language expressions in documents indexed to a retrieval system. Documents are included in the index, but they do not necessarily have semantic term comments for specific natural languages in the document. This figure shows the procedure for annotating semantic terminology to a specific natural language expression using all available information, such as information in the search system index, annotation knowledge, and default values. For documents included in the index, the richest and most accurate information is the annotation information from the index.
  • the semantic unit term annotation is extracted by extracting information on the natural language expression in the document from the index (28-01). If the information is not obtained from the index, the annotation knowledge DB is searched to find the annotation knowledge of the natural language expression, and the semantic unit term is annotated in the natural language expression (28-02). If there is no information corresponding to the annotation knowledge and the default value is set, the default semantic unit term for the natural language expression is applied (28-03).
  • semantic unit term unique ID +
  • the only way to build a system is to decompose it into individual units so that individuals can decompose the Internet and do as much work as they need. But even when working at the individual level, it should not be a way of unevenly burdening individuals.
  • an individual comments on the entire word of his or her document it is difficult to proceed normally. Many words are used in one document. It takes a lot of effort to process many words regardless of the total number of comments. In fact, the number of comments is not proportional to the effort of the individual, but is proportional to the number of unique IDs used.
  • the unique ID unit annotation method has 23,000,000 times higher productivity than the document unit annotation method.
  • the annotation requirements for the entire information system are constant. Therefore, tin productivity is the most important measure of new system construction.
  • Unique ID unit annotation is a key device that enables the construction of a new system. Normally this is generated by the agent and performed regularly for new documents.
  • 32 shows a manual annotation type document builder and an automatic annotation type document writer.
  • a document writer can basically create a semantic term-based document with only a semantic term dictionary manager. You can create a document in natural language and search the semantic unit term dictionary to select the desired semantic unit term by referring to the description of each semantic unit term. However, it is unlikely that a manual document writer will actually be used. This is because document authors are not parties to semantic confusion in natural language, and manual commenting is inconvenient (32-01). The document composer will become the semantic terminology comment in the form of automatic commenting from the time when sufficient comment knowledge is accumulated, and the document composer will review and partially revise the comment content. Documents written in natural language in the autocomment format are autocommented using annotation knowledge and default values. After automatic commenting, the document writer displays a dictionary description of the semantic terminology that was commented out, and which commentary knowledge or default value was commented on (32-02).
  • Annotation knowledge is not a device that helps annotate with only one word entered. Although the default value can suggest recommended semantic terms even when there is only one word, it is normal to start a comment after completing a natural language document because it prevents the use of highly accurate annotation knowledge (33-01).
  • FIG. 34 shows only a search system in FIG. 1 and simplifies other parts.
  • the J. semantic term-based document information system builder is a device that uses only the results of the retrieval system and is not related to the performance of the retrieval system.
  • the plot consists of all the annotation devices that populate the content of the semantic term-based index.
  • FIG. 36 is a block diagram of a semantic unit term-based search commenter added to a basic semantic based search system. Only the commenter is missing among the devices that help the comment. Except for the problem that the commenter cannot repeat the annotation knowledge, it can be said that it is completed from the point of view of the search system. If you do not repeat the contents of previous search annotations on new documents that are newly added to the index, such as agents, it may be inconvenient for people to repeatedly perform search annotations. Therefore, semantic unit term annotations may be incomplete. If these features are included in the search commenter itself, then the search system is complete. However, the absence of a structure that utilizes search annotation knowledge beyond the search system can be a major obstacle to creating a complete semantic term-based information system.
  • 39 illustrates a method of operating a semantic unit term based search system having only basic functions.
  • This method has only basic functions, and the semantic terminology information of the index is obtained from the semantic terminology based document. Other than this, it does not provide a means to add semantic terminology information of the index.
  • the search system collects documents included in the search target, and whether the collected documents sufficiently include semantic unit term information determines the semantic unit term base level of the search system (39-01). Index the collected documents against natural and semantic terms (39-02). Searching for natural words and semantic unit terms stored in the index using query terms including semantic unit terms and natural language expressions (39-03).
  • 40 illustrates a method of operating a semantic unit term based search system in which semantic unit term information is obtained from collected documents and search annotations.
  • the search system collects documents included in the search object (40-01). Index the collected documents against natural and semantic terminology (40-02). Receives a search annotation request along with a query to find an annotation object, a natural language expression to be commented, and a semantic unit term to be annotated, and annotates the semantic unit term on the search system index to the natural language expression included in the search result of the query. -03). Search the natural language and semantic unit terms stored in the index by query words including semantic unit terms and natural language expressions (40-04).
  • FIG. 41 illustrates a method of operating a semantic unit term-based retrieval system for obtaining semantic unit term information from collected documents and annotation knowledge.
  • the search system collects documents included in the search object (41-01). Index the collected documents against natural and semantic terms (41-02). Annotated semantic terms in natural language expressions are annotated using annotation knowledge that has information that certain natural language expressions have meaning under certain conditions (41-03). Search for natural words and semantic unit terms stored in the index using query terms including semantic unit terms and natural language expressions (41-04).
  • Fig. 42 is a configuration diagram created around the indexer. Parts other than the indexer are simplified.
  • the indexer is responsible for indexing the collected documents. Semantic term-based indexes have a semantic term field added to the index. Semantic term comments in a semantic term-based document are recorded in the added field. The search commenter also records the semantic terms in this field. If the indexer fails to fill this part, the search commenter or commenter fills this part to base the semantic unit term. If the natural language has only one meaning, it is not necessary to comment. Natural language itself can also play a role as a semantic unit term.
  • This figure is the index (43-01) of the second Hong Gil-dong of a specific document (43-02) found by searching for "Hong Gil-dong".
  • the unique ID + value is formed. After all, this index is the document location index for the unique ID + value.
  • the indexing device creates a search system index (45-01) with a semantic unit term field blank for each word included in the collected document. If a semantic unit term annotation is included in the word, the semantic unit term is recorded in the semantic unit term field of the word index item (45-02).
  • 46 shows all annotation devices belonging to various devices. In the previous section on semantic unit terminology commenters, the independent commenter section is described, but all commenter devices are described here. 46 is different from FIG. 1.
  • the semantic unit term query term comment unit is included in the search commenter 46-01 and the searcher 46-02.
  • search To search, a query term must be prepared, and the query term is also the target of semantic term term annotation. Because query words are very short sentences, they are less important in terms of comments. It is usually treated as part of the document comment. In the case of search commenters, comments are made after the search.
  • the search portion of the search commenter uses much of the same functionality as the searcher. Therefore, the query is used in the search commenter, and the query word in the search commenter is the target of semantic unit term annotation like the query word in the searcher.
  • Annotation devices often contain the word document.
  • a document should understand exactly what it means in many ways.
  • Documents are sometimes used to mean “document search comments.” The opposite concept is a "word search comment”.
  • Documents also mean the subject of comments. The opposite of what it means to comment on a document is the record of the index.
  • Semantic Unit Term Document in the comments section means that the document is annotated rather than an index.
  • Documents in the document retrieval comments are document-level records. The target of all search comments is the index.
  • FIG. 47 briefly describes annotation devices that form the basis of a semantic unit term-based information system as part of the description of FIG. 46.
  • semantic unit term-based information system making natural language information based on semantic unit term is the core task.
  • the function of adding semantic unit term to natural language is simply called annotation function.
  • Annotation targets are places where comments are made. It is divided into document comment, index comment, and search query comment (47-01).
  • the target document is already indexed to the retrieval system and indicates whether it is annotated using the functionality of the retrieval system or an annotation method that does not use the retrieval system. This means that new documents are not included in the index and are processed regardless of the search system (47-02).
  • the splitting of search annotations occurs because existing search results are listed as documents. An incomplete way to comment on what a word in a document means is what is meant by a document search comment. Word search comments are more precise (47-03).
  • the C4 index-based document annotation unit, the J1 index-based document information system building unit, and the J2 annotation knowledge-based document information system building unit are functions that are performed secondarily after the first-level semantic unit term-based information system is already completed. It is therefore of no early importance (47-04).
  • the document information system and the index can be easily based on the semantic unit terminology when one is based on the semantic unit term.
  • the first thing to be based on semantic unit terminology is index, not document information system. This is because the semantic unit term base of indexes is much easier.
  • D2. Semantic terminology Document annotations are not a secondary device, but are not of great importance initially, in that they are not devices that annotate indexes.
  • the semantic unit term query term comment is not important because the amount of comments is extremely small.
  • the C3 knowledge-based commentary, the H1. Document search commentary, and the H2. Word search commentary are the initial critical devices (47-05).
  • Index comment is applied to the word search comment method.
  • 49 shows a difference between a word search comment and a document search comment.
  • Word search comments are a way to record all occurrences and are natural. Annotate each word in the document. This is the correct comment. Record up to each occurrence of each word in the document. This method is difficult to apply to existing search systems. A new search device made for this processing is the word search section (49-01). Document retrieval comments are inaccurate and the original comment should be done at every word level, and the problem is caused by the inability to obtain the desired information because the search is not a specific word, but a device to find a specific document. It is an annotation method that may disappear in the long run. Compared to the tin method per generation, only one Hong-gil-dong and two seas are recorded. The position of words should not be recorded (49-02).
  • New and old documents have different processing environments. Since new documents are not included in the search system index, they cannot be processed for the index. New document comments annotate the document itself. Existing documents are commented on the index (51-03). Existing document annotations are annotated with the retrieval system and new document annotations are annotations that proceed regardless of the retrieval system.
  • the new Document Builder-2 writes directly to the search system index, but means that it has a built-in indexer, which is done without any intervention from the search system. Storing the results directly in the search system's index does not mean using the traditional document annotation method. In the case of document writer-1, the document writer creates a semantic unit term-based document, and the collector collects the semantic unit term-based index (51-01).
  • the document writer does not pass the semantic terminology to the collector and then directly indexes it (51-02).
  • the indexing method can be conveniently used in situations where it is difficult to store and keep the annotated documents separately. Normally, you cannot save a changed document to its original location unless you are the owner of the document. In this situation, the changed contents are stored directly in the index without storing the changed documents.
  • the information stored in the index can be used at any time to convert a natural language document into a document annotated with semantic terms.
  • Existing document commenters comment on the index with the documents included in the index.
  • New documents can also be commented using existing document commenters if they are included in the index without any semantic term annotation work until the document is written. This is because annotating with indexes is more efficient.
  • the document retrieval section is a forced part because the existing retrieval system has a structure for searching a document.
  • the word search feature is added, the document search comment is not a necessary device. This is because comments are added to certain words rather than added to the document.
  • 55 shows a procedure of annotating a specific semantic unit term in an index to a specific natural language expression for words found through a search.
  • This method specifies that a natural language representation of a location in a document is performed and is performed in a structure of searching for words unlike a conventional search function.
  • the words are searched by obtaining a query including natural and semantic unit terms (55-01).
  • a search annotation request is received together with a list of all the search results words or some selected words, a natural language expression to be annotated, and information about semantic unit terms to be annotated (55-02).
  • the corresponding semantic unit terms are commented on the search system index for the natural language expression, and the position in the document of the natural language expression is clearly recorded (55-03).
  • Semantic term-based searcher includes I1. Document search unit, I2. Word search unit and I3. Search knowledge management unit, and there is a natural language query unit for creating a search query and a semantic unit term query term comment unit. Search comments do not comment the document, but comment the found words. Therefore, to help the search commenter's role, the searcher has been enhanced with the ability to find words rather than documents. Compared to a document search for a document, a word search has been added to clarify which words within the found document are desired to be listed. In the existing natural language search, the search method was not called knowledge.
  • the semantic unit term-based search can be 100% accurate and can be registered as a search knowledge and used in combination.
  • Search knowledge is created by registering the experience of search as knowledge. Both the search commenter and the searcher need a search query, and the query is the target of the semantic term term annotation. Therefore, the searcher has a natural language query unit and a semantic unit term query term comment unit. In the representative diagram (FIG. 1), the query-related part is not exposed as a component.
  • 57 shows a search query.
  • Query terms are used in search systems and search commenters in search systems.
  • a natural language search query is composed of one or more natural words and various operators such as and / or, specific time periods, specific sites, specific classifications, etc. (57-01).
  • the unique ID + search query consists of one or more unique ID + and various operators such as and / or, a specific time period, a specific site, a specific classification, etc. (57-02).
  • 59 shows a method of creating a semantic unit term-based query word.
  • Semantic unit terminology is difficult to remember and use, so input natural language and convert it to semantic unit term by dictionary search. Similar to the existing query method, a natural language is obtained to prepare a query (59-01). A natural language expression to be annotated in the query is selected and a dictionary search request is made (59-02). Obtain the selected item from the list of semantic unit terms listed and annotate the natural language (59-03). For the query words annotated with the semantic unit term, the natural / mean unit pair is changed to the pure semantic unit term (59-04).
  • a retrieval system is a device for retrieving a document and thus lists the document items (60-01). This method of document listing makes it difficult to process certain words within a particular document. If the natural language in a document is always used in the same sense, it is not a big obstacle to commenting. In practice, document-level commenting is not a major obstacle because you can comment on the meaning of each specific natural language in a document. In particular, the accuracy of the initial semantic unit term-based retrieval system is not a big obstacle. In general, since the natural language retrieval rate is very low and shows a superior accuracy rate, it is not a big problem to reduce the accuracy rate slightly based on the semantic unit term.
  • Word item listing eliminates the problem of document-level comments. It can be clearly expressed as a semantic unit term of a natural language expression at a specific position in a specific document. (60-02) This is a feature that existing search systems should add. However, this can be inconvenient if you need to use the traditional document listing method.
  • the document / word item listing method combines the document listing method and the word listing method (60-03). Word commentary does not necessarily mean that only one word is processed. Search for “President Obama” to support President_1 comment on President and comment barack_obama_1 on Obama.
  • the number of search result items is the same as the number of words searched for, and can be used for word-by-word processing.
  • the word search query can find the words you want, display the results in word units, and the number of items listed is the same as the number of words searched.
  • a search query for finding a document and a term (natural language expression or semantic unit terminology) information to be searched for in the searched document are received (61-01).
  • the words searched by the word search query are listed and displayed (61-02).
  • search procedure 62 shows a search procedure for searching for words and listing and displaying the results by word for each document.
  • the search results are organized by word by document, and the results can be used for document-by-document and word-by-word processing.
  • the search query finds the words you want within the desired document, displays the document as one item, and displays each word unit for each document.
  • the results are displayed in the same way as the number of items listed, plus the number of documents and terms.
  • a search query for finding a document and a document / word search request are received with information on a term (natural language expression or semantic unit term) to be searched for in the searched document (62-01).
  • the words searched by the word search query are listed and displayed by word of each document (62-02).
  • 63 shows a procedure of generating and utilizing a search knowledge.
  • Existing natural language search was so low in accuracy that it was less likely to continue to be used as knowledge.
  • the semantic unit term-based search can pursue 100% accuracy rate.
  • the knowledge of low accuracy rate increases the error rate by operation, but the semantic unit term base can be used in combination.
  • This procedure provides a means to perform search queries to review the results and to register and use meaningful search queries as search knowledge.
  • Perform and review the semantic unit term-based search query (63-01). Receives a search knowledge generation request along with a search query and its description, generates a search knowledge ID, and turns the knowledge search ID, search query and description into search knowledge (63-02). 63-03) Reveal search knowledge (63-04).
  • FIG. 64 is a diagram illustrating the construction of a document information system builder. Parts other than the document information system builder are simplified.
  • the document information system builder plays a role in building the document information system using information stored in the index or annotation knowledge.
  • 65 shows a natural language document information system and a unique ID + document information system.
  • the document information system is an entire document, including documents of various types such as Internet documents, companies, and personal documents.
  • the natural language document information system is a document information system based on the natural language dictionary (65-01), and the unique ID + document information system (65-02) is created based on the unique ID dictionary.
  • Creating a semantic term-based document information system is a huge task.
  • the value of changing the document information system is the same as the value of the index of the retrieval system that contains all of these documents based on semantic terms. Perfect commentary knowledge is of the highest value. This is because annotation knowledge has the added value of being able to base many parts of semantic terms on future documents. Annotation knowledge cannot be made right away. Making indexes based on semantic terms is the best way to base document information systems on semantic terms and is the best way to create annotation knowledge.
  • FIG. 66 illustrates the construction of a semantic unit term-based document information system using a semantic unit term dictionary, index, and annotation knowledge.
  • the semantic unit term dictionary is mandatory. Without this, neither the semantic term index nor the annotation knowledge can be created.
  • the semantic unit term index contains information about which natural language representation of a document is meant. Therefore, if the semantic unit term index has enough information, the semantic unit term document information system can be created.
  • Annotation knowledge is the knowledge that "under certain conditions, what natural language means what.” Therefore, if there is sufficient comment knowledge, semantic terminology document information system can be made.
  • 67 shows that a semantic unit term based document information system is constructed using a semantic unit term dictionary and an index. If the semantic terminology index has enough information, a semantic terminology document information system can be constructed. However, semantic terminology gives no information about newly created documents.
  • FIG. 68 illustrates the construction of a semantic unit term-based document information system using a semantic unit term dictionary and annotation knowledge. If there is sufficient annotation knowledge, it is possible to construct semantic unit term-based document information system using only annotation knowledge. Therefore, it is possible to construct a semantic unit term-based document information system without the help of a retrieval system. However, it requires more computing power than semantic-based using index information. In general, index information is larger than the semantic unit term information of annotation knowledge.
  • FIG. 69 illustrates a procedure for constructing a document information system such as the Internet based on a semantic unit term using a search system index in which information for annotating natural language expressions included in each document is accumulated.
  • the method of using index can be applied only to the documents included in the search target of the search system.
  • the semantic unit term annotation information accumulated in the index of the search system is classified by document location and the semantic unit term annotation information of each document is classified.
  • Each document collected by the retrieval system includes new semantic terminology annotation information for the document (69-02).
  • Documents created by including semantic unit terms are stored in a separate storage location of the retrieval system including the existing document location information (69-03).
  • 69 is a procedure of extracting information from a search system index and constructing a semantic unit term-based document information system.
  • FIG. 70 shows a procedure for constructing a document information system such as the Internet based on semantic unit terminology using annotation knowledge accumulated in annotating natural language expressions as semantic unit terminology.
  • Annotation knowledge can be applied without being dependent on a specific search system. Therefore, it is applicable to new documents of a specific search system.
  • Collect documents in the document information system It does not use a retrieval system and performs document collection directly (70-01).
  • the semantic unit term is annotated for all natural language expressions in the document. ).
  • Document information such as the Internet
  • search system index for documents that are included in the search system and having sufficient semantic unit term information accumulated in the index, and the annotation knowledge for new documents or documents outside the search system that do not have information in the index. It is a procedure to build a system based on semantic unit terminology.
  • the semantic unit term annotation information accumulated in the index of the search system is classified for each document position for the documents included in the search system to generate semantic unit term annotation information for each document (71-02).
  • Each document included in the retrieval system contains new semantic terminology annotation information for that document (71-03).
  • Documents created by including semantic unit terms are stored in a separate storage location of the retrieval system including the existing document location information (71-04).
  • the corresponding annotation knowledge is searched for the natural language expression contained within each document, and the applied annotation knowledge is applied to the corresponding natural language expression. Comment on the semantic unit term (71-05). After commenting is completed for each document, repeating the steps of storing the existing document location information in a separate storage location makes the semantic unit term-based document for all documents not included in the search system (71-06).
  • FIG. 72 is a flowchart illustrating a procedure for managing disagreements about the contents of a semantic unit term dictionary item, comment contents, annotation knowledge, default value, and search knowledge by using collective intelligence.
  • a user with disagreement about the semantic unit term dictionary entry's content, comment content, comment knowledge, default value, and search knowledge requests a discussion creation along with the discussion topic to create a discussion item on the topic (72-01).
  • 73 is a view illustrating a storing and using procedure after merging a search target document original with additional information. It is a method of storing and using the changed document contents in the situation where the contents of the search target document of the search system need to be supplemented or changed and the original document cannot be directly modified.
  • the target document is stored in a separate place along with the document address (73-01).
  • Change documents stored in separate places (73-02). Upon receiving a request for change to the address of the original document, the changed document is found and provided using the stored original document address (73-03).

Abstract

The present invention relates to changing an information system comprising natural language expressions to an information system based on unit expressions of meaning, which is accompanied by functional changes for an information search system, term dictionary, document generator, and term converter. The accuracy of current search systems is very low. This is because natural language represents many meanings using few words. Due to the problem of expressions becoming longer and more difficult to recollect as the number of terms increases, people use a small number of terms in a repetitive manner. When unit expressions of meaning having 1 term corresponding to 1 meaning are introduced, the accuracy of a search system can approach 100%. The present invention discloses a method for easily generating unit expressions of meaning, and a method for efficiently applying the generated unit expressions of meaning to documents from around the world. The method for creating unit expressions of meaning is a technique of breaking down each natural language term into the number of its respective meanings. Because this is a matter of a simple breakdown of terms, anyone can generate expressions. The task of applying generated terms to documents from around the world is formidable. For this task, according to the present invention, instead of changing each word that is repetitively used, alignment is performed for each word, and certain aligned word groups are simultaneously processed. Even if one word has been used several hundred billion times in documents throughout the world, there is no need to perform term conversions several hundred billion times. If the word in question has several meanings, the task of conversion can be performed simply by way of several sorting commands. Even if the repetitive use of terms does not impose a large load on term conversion, because the number of unit expressions of meaning itself is enormous, term conversion is not simple. The task of processing close to 10 billion unit expressions of meaning is daunting. A method for solving this difficulty is to equally distribute the task to a number of users. The greatest factor contributing to the ambiguity of natural language is the presence of innumerable proper nouns. These encroach on the domains of nouns, adjectives, verbs, and all other parts of speech, causing semantic confusion. While not limited to people's names, when considering proper nouns only in that context, there are over 10 billion terms in this category since the global population exceeds 6 billion. The present invention discloses a configuration in which this prodigious task is equally allotted to a countless number of users. When users have needs, they may perform tasks to fulfill their requirements and benefit from their work. If they feel that term conversion is required, users may perform term generation and term conversion tasks so that a state that is always satisfactory for users can be maintained. The present invention relates to: 1) a unit expression of meaning dictionary manager that can easily generate unit expressions of meaning; and 2) a search annotator which is a means for categorizing words and converting (annotating) words belonging to a word group into unit expressions of meaning. The annotator operates as part of a search system. The alignment and search of words uses existing search system functions. Also provided is 3) a unit expression of meaning converter (annotator) performing a function similar to the search annotator. The task of making a global information system based on unit expressions of meaning is an enormous endeavor. However, the problem of natural language being unclear in meaning presents a large obstacle for development in many fields. The present invention discloses a basis for achieving considerable advances in the semantic web field, search system field, language translation field, and artificial intelligence field, by means of providing clear language thereto.

Description

모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치Method to dynamically generate separate terms for each meaning of all natural language expressions and dictionary manager, document writer, term commenter, search system and document information system construction device based on them
본 발명은 정보를 생성하고 이들을 수집하여 색인을 만들고 검색하여 이용하는데 관여하는 용어 사전, 문서 작성기, 정보 검색에 관한 것이며 이들을 의미단위용어 기반으로 만들기 위한 용어 주석기, 문서정보체계 구축 장치 및 시맨틱 웹(Semantic Web)이 포함된다.The present invention relates to a term dictionary, a document writer, and an information retrieval involved in generating information, collecting, indexing, searching, and using information, and a term commenter, a document information system construction device, and a semantic web for making them based on semantic terms. (Semantic Web) is included.
본 발명이 속하는 기술분야는 정보검색 분야이다. 본 발명은 의미기반 정보 검색에 관한 것이기 때문에 정보 검색 분야 외에 시맨틱 웹 분야도 관련되어 있다. 시맨틱 웹은 현재의 인터넷과 같은 분산환경에서 리소스(웹 문서, 각종파일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(Semanteme)를 기계(컴퓨터)가 처리할 수 있는 온톨로지형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크 기술이다. 온톨로지는 도메인의 공유된 개념화(conceptualization)에 대한 형식적 명세체제로서, 도메인 어휘의 의미 정보를 표현한다. 온톨로지는 일종의 지식 표현(knowledge representation)으로, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있다. 추론, 증명 등의 처리에 온톨로지의 공리(axiom)와 규칙(rule)이 사용되며, 규칙 표현을 위해서 별도의 규칙 언어가 사용된다.The technical field to which the present invention belongs is the field of information retrieval. Since the present invention relates to semantic-based information retrieval, the semantic web field is related to the information retrieval field. The Semantic Web represents the information about resources (web documents, various files, services, etc.) and the relations between resources in a distributed environment such as the Internet. The meaning information (Semanteme) is expressed in an ontology that a machine (computer) can process. It is a framework technology that allows automated machines (computers) to process them. Ontology is a formal specification of shared conceptualization of domains and expresses semantic information of domain vocabulary. Ontology is a kind of knowledge representation, and the computer can understand the concept represented by the ontology and process the knowledge. Ontology's axioms and rules are used for inference and proofing, and a separate rule language is used for rule expression.
본 발명이 속하는 기술분야는 정보검색 분야이다. 현재의 검색기술수준은 주요 검색엔진들을 통해 명확히 알 수 있다. 현재 주요 검색기술들은 자연어 기반 검색 기술이며 불명확한 자연어를 이용하여 정보가 축적되고 자연어 검색질의어를 이용하기 때문에 의미를 기준으로 하면 낮은 검색 정확률을 가진다. 발명자 홍길동(가명)과 같은 이름을 가진 사람은 국내 유명 서비스에서 찾아보면 641명이 있다. 홍길동이라는 이름으로 발명자에 관한 정보를 검색하면 발명자 이외의640 명에 대한 불필요한 정보들이 포함된다. 이 경우 자연어 검색시스템의 홍길동이라는 키워드에 대한 검색 정확률은 평균 1/641 이라고 할 수 있다. 실제로 현재의 검색 엔진은 수많은 자료를 보여주지만 실제로 원하는 자료는 없는 경우가 많다. 따라서 여러 키워드를 이용하여 검색 범위를 좁히는 방법들을 동원하고 페이지 랭크 등 가능성이 큰 결과를 앞에 보여주는 기술을 적용하지만 자연어가 가지는 불명확성을 근본적으로 해결할 수는 없다. 이것은 자연어 기반 검색 시스템이 갖는 어쩔 수 없는 한계이다. 검색방법이 근본적으로 개선되기 위해서는 하나의 표현이 여러 가지 의미를 갖는 문제를 근본적으로 해결하여야 한다. 이를 위해서는 자연어와 별도로 모든 의미를 정확히 표현하는 정보를 추가하여 그 의미를 정확히 하여야 한다. 이를 위해서는 자연어가 아닌 의미 단위의 별도 표현 방법이 필요하고 새로운 표현방법에 따라 인터넷 정보에 주석을 하여야 한다. 이러한 새로운 표현방법이 정착되기 위해서는 현실적인 실용화 방법이 있어야 한다. 인터넷 정보에 일일이 주석을 다는 일은 엄청난 작업이고 의미단위의 표현을 위한 새로운 사전을 만드는 일도 한두 사람이 해낼 수 없는 방대한 작업이다. 특정분야의 정확한 사전을 만드는 작업만 해도 전문가들이 모여 오랜 기간 노력을 하여야 한다고 알려져 있으며 전체분야에 대한 사전 작업은 몇 명이 한두 해에 끝낼 수 있는 작업이 아니다. 사전 작업이 완성된다고 하여도 이 사전을 이용하여 전체 인터넷에 주석을 다는 문제는 특별한 방안이 없이 해결하는 것은 불가능한 작업이다.The technical field to which the present invention belongs is the field of information retrieval. The current level of search technology can be clearly seen through major search engines. Currently, the major search technologies are natural language-based search technology. Since information is accumulated using unclear natural language and natural language search query is used, it has low search accuracy rate based on meaning. There are 641 people who have the same name as the inventor Hong Gil-Dong (a pseudonym). Searching for information about the inventor under the name of Hong Gil-dong includes unnecessary information about 640 people other than the inventor. In this case, the search accuracy rate for the keyword Hong Gil-dong of the natural language search system is 1/641 on average. Indeed, current search engines display a lot of material, but often they don't really want it. Therefore, we use techniques to narrow the scope of search using various keywords and apply the technique that shows the probable results such as page rank, but we cannot fundamentally solve the ambiguity of natural language. This is an inevitable limitation of natural language based search systems. In order to fundamentally improve the retrieval method, it is necessary to fundamentally solve a problem in which one expression has various meanings. To this end, the meaning must be corrected by adding information expressing all the meanings separately from the natural language. To this end, a separate expression method of the semantic unit is required, not natural language, and the Internet information should be annotated according to the new expression method. In order for this new expression method to be established, there must be a practical method of practical use. Annotating every piece of Internet information is a tremendous task, and creating new dictionaries for the expression of semantic units is a huge task that one or two people cannot. It is known that even the task of creating accurate dictionaries in a specific field requires long-term efforts to gather together, and preliminary work in the whole field is not something that a few people can finish in a year or two. Even if the dictionary is completed, it is impossible to solve the problem of annotating the entire Internet using this dictionary without any special measures.
의미단위용어 사전을 만들고 인터넷을 포함한 전지구적 문서들을 의미단위용어 기반으로 변환하는 것은 아주 방대한 작업으로서 특별한 방법이 없이는 불가능한 작업이다. 하지만 이 방대한 작업을 몇백만 분의 일로 일의 양을 줄이는 방법이 존재한다. 이 작업의 전체 양은 전지구적 문서들이 사용한 단어의 종류와 각 단어의 반복 사용 회수에 달려 있다. 하지만 전체를 단어별로 정렬하면 전체 단어 반복 사용횟수가 아닌 단어의 종류/의미의 수 만큼으로 작업량을 줄일 수 있다. 특정 단어가 몇 번 반복 사용되었는가는 실제로 작업의 양과 큰 관련이 없다. 자연어 별로 모든 문서 내용들이 정렬되어 있는 검색 시스템의 색인으로부터 의미단위용어 사전을 만들고 색인 자체를 의미단위용어 기반으로 만드는 것은 불가능하지 않은 일이다. 특정 단어가 몇 번 반복 사용되었는가는 전체 노력에 큰 영향이 없다. 전체 단어 종류의 수, 전체 의미의 수가 전체 의미 기반화 노력의 양과 비례한다. 본 발명은 검색 시스템의 특정 자연어로 정렬된 내용에서 여러 의미들을 찾아내 용어를 생성하고, 이 새로운 용어를 색인에 주석하며, 결국 의미단위로 바꾸어진 색인은 전체 인터넷 문서들이 의미단위용어 기반으로 변환한 것과 같은 효과를 가진다. 의미단위용어 기반의 색인은 모든 문서들을 의미단위용어 기반으로 변환시키는 데 사용될 수 있다. 또한 이 방법은 온톨로지 사전과 달리 자연어를 의미단위로 분할하는 간단한 작업을 통해 용어를 생성하기 때문에 일반인들도 쉽게 용어 생성하는 일과 문서/색인을 의미단위용어 기반으로 변환시키는 작업에 참여할수 있다. 일반 사용자들이 자기가 관심을 갖고 지식도 있는 몇 개의 용어만 생성하고 인터넷의 해당 자연어를 검색하여 새로 생성된 의미단위용어를 주석하면 전체 인터넷의 의미단위용어 기반 변환이 가능하다.Creating a dictionary of semantic terms and converting global documents, including the Internet, to semantic terms is a very large task that cannot be done without special methods. However, there is a way to reduce this amount of work to millions of jobs. The total amount of this work depends on the type of words used by global documents and the number of repetitions of each word. However, sorting the whole word can reduce the amount of work by the number of word types / meanings rather than the total number of word repetitions. How many times a particular word is used is not really related to the amount of work. It is not impossible to make a dictionary of semantic units from the index of the retrieval system where all document contents are sorted by natural language and make the index itself based on semantic terms. How many times a particular word is used has little effect on the overall effort. The total number of word types and the total number of meanings are proportional to the amount of overall meaning-based efforts. The present invention finds several meanings in a specific natural language sorted content of a search system, generates a term, annotates this new term in the index, and eventually converts the entire Internet documents into semantic unit terms based on the index. It has the same effect as one. Semantic term-based indexing can be used to convert all documents to semantic terminology. In addition, unlike the ontology dictionary, this method generates terms through the simple task of dividing the natural language into semantic units, so that the general public can easily participate in the task of generating terms and converting documents / indexes into semantic unit terms. When general users generate only a few terms that they are interested in and have knowledge of, search for the corresponding natural language on the Internet and comment out the newly created semantic unit term, it is possible to convert the semantic unit term based on the whole Internet.
현재 검색엔진의 정확률은 의미 기반 관점에서 상당히 낮다. 본 발명은 의미 기반 정확률을 기존 검색엔진보다 경우에 따라 수배, 수십 배 내지 수백배까지 향상시킨다. 자연어는 하나의 용어가 다양한 의미를 갖는 경우가 많고 인명,상점 명, 지명 등등의 수많은 고유명사가 일반 명사, 동사, 형용사의 영역까지 침범하고 있어 자연어만의 검색 정확률은 낮을 수밖에 없다. 본 발명은 불명확한 자연어에 보완하여 의미단위용어를 사용하여 표현 단위의 정확률을 의미단위의 정확률로 수준을 향상시켰다. 본 발명은 단순히 새로운 모델을 제시하는 것이 아니라 새로운 모델이 잘 정착될 수 있는 방법을 포함하고 있다. 전세계 60억 인구를 대상으로 새로운 기반의 검색 엔진을 정착시키는 것은 엄청난 일이지만 본 발명은 방대한 인터넷 단위의 작업을 각 개인의 작업으로 분할하여 간단한 노력으로 사용자의 요구를 만족시키고 개인의 만족을 바탕으로 60억 사용자를 만족시킬 수 있는 구조를 제시하고 있다.Currently, the accuracy of search engines is quite low from a semantic basis. The present invention improves the meaning-based accuracy rate by several times, tens of times to hundreds of times, in some cases, compared to existing search engines. In natural language, a single term often has various meanings, and numerous proper nouns such as human names, store names, place names, etc. are invaded to general nouns, verbs, and adjectives. The present invention uses the semantic unit terminology to improve the level of accuracy of the expression unit to the correct rate of the semantic unit by complementing the unclear natural language. The present invention does not merely suggest a new model but includes a method in which the new model can be well established. It is a tremendous task to set up a new based search engine for 6 billion people around the world, but the present invention divides the work of the vast internet unit into the work of each individual, satisfying the needs of users with simple efforts and based on personal satisfaction. It proposes a structure that can satisfy 6 billion users.
도 1은 의미단위용어 기반 정보 체계의 전체 구성도1 is a block diagram of a semantic unit term-based information system
도 2는 2단계 의미단위용어 기반 정보 체계 구축 진행Figure 2 is the construction of a two-step semantic unit term-based information system
도 3은 의미단위용어 기반 정보 체계를 구축하는 순서도3 is a flowchart of constructing a semantic unit term based information system
도 4는 사전관리기 중심의 구성도4 is a configuration diagram of the pre-management center
도 5는 의미단위용어를 생성하는 환경에 대한 비교5 is a comparison of an environment for generating semantic unit terms.
도 6은 자연어의 모호함과 의미단위용어의 필요성 설명6 illustrates the ambiguity of natural language and the necessity of semantic unit terms
도 7은 생성된 고유ID의 사용 예7 is a use example of the generated unique ID
도 8은 고유ID 사전의 개념적 구조8 is a conceptual structure of a unique ID dictionary
도 9는 의미단위용어의 생성 순서도9 is a flowchart illustrating generation of semantic unit terms
도 10은 본 발명 제시 의미단위용어와 기존의 온톨로지 사전의 비교10 is a comparison of the present term meaning unit term and the existing ontology dictionary
도 11은 의미단위용어의 직관적 분류 및 계층화11 is an intuitive classification and hierarchy of semantic unit terms.
도 12는 용어별칭의 생성과 사용 방법12 shows how to create and use term aliases
도 13은 의미단위용어 용어분할의 사용 예13 shows examples of using semantic unit terminology division
도 14는 의미단위용어 용어분할(Segment) 생성, 주석 및 검색 순서도FIG. 14 is a flowchart of generating, commenting, and searching a semantic unit term segment.
도 15는 의미단위용어 용어그룹15 is a semantic unit term group
도 16은 의미단위용어 용어그룹의 생성 및 사용 순서도16 is a flowchart illustrating generation and use of semantic unit terminology group.
도 17은 독립된 주석기 중심의 구성도17 is a block diagram of the center of an independent tin machine
도 18은 개인의 기본값 예18 is a default example of an individual
도 19는 특정 사용자에 해당하는 기본값들의 예19 is an example of default values corresponding to a specific user.
도 20은 자연어 표현에 대한 의미단위용어 기본값 결정 순서도20 is a flowchart illustrating the determination of semantic unit default values for natural language expressions.
도 21은 주석지식 테이블의 개념적 구조21 is a conceptual structure of an annotation knowledge table
도 22는 하나의 자연어에 여러 가지 주석지식의 적용22 shows the application of various annotation knowledge to one natural language.
도 23은 주석지식 생성 순서도23 is an annotation knowledge generation flowchart
도 24는 주석지식과 기본값의 적용 우선 순위24 is an application priority of annotation knowledge and default values.
도 25는 문서나 질의어를 대상으로 지식 기반 주석부가 수행되는 순서도25 is a flowchart in which a knowledge base annotation unit is performed on a document or a query word.
도 26은 색인을 대상으로 주석지식을 수행하는 순서도26 is a flowchart for performing annotation knowledge on an index.
도 27은 색인 기반 문서 주석부의 문서 주석27 is a document annotation of an index-based document annotation portion.
도 28은 색인 되어있는 문서 내부의 특정 자연어 표현에 의미단위용어를 주석하는 순서도Fig. 28 is a flowchart for annotating semantic unit terms to specific natural language expressions in an indexed document.
도 29는 의미단위용어(고유ID+) 기반 정보체계의 규모29 is a scale of a semantic unit term (unique ID +) based information system.
도 30은 의미단위용어(고유ID+) 기반 정보체계의 다양한 구축 방식 비교30 is a comparison of various construction methods of a semantic unit term (unique ID +) based information system
도 31은 문서 단위 주석과 검색 주석 방식의 생산성 비교31 is productivity comparison of document unit comment and search comment method
도 32는 수작업 주석 방식 문서 작성기와 자동 주석 방식 문서 작성기32 is a manual annotation type document builder and an automatic annotation type document builder
도 33은 지식 기반 주석부 도움을 받는 의미단위용어 기반 문서 작성 순서도33 is a flow chart of semantic unit term-based document creation with help of a knowledge base comment unit
도 34는 검색 시스템을 중심으로 작성된 의미단위용어 기반 정보 체계34 is a semantic unit term-based information system created around a retrieval system
도 35는 검색 시스템의 최소 구성35 is a minimum configuration of a search system
도 36은 검색 시스템 최소 구성에 검색 주석기가 추가된 구성도36 is a diagram illustrating a search commenter added to a search system minimum configuration.
도 37은 검색 시스템 최소 구성에 주석기가 추가된 구성도37 is a diagram in which annotator is added to the search system minimum configuration
도 38은 메타 방식의 검색 시스템38 is a meta-based search system
도 39는 기본적인 기능만을 갖는 의미단위용어 기반 검색 시스템의 작동 순서도39 is an operation flowchart of a semantic unit term based search system having only basic functions
도 40은 기본 기능과 검색 주석 기능을 이용하는 검색 시스템의 작동 순서도40 is an operation flowchart of a search system using basic functions and a search annotation function.
도 41은 기본 기능과 주석지식 기능을 이용하는 검색 시스템의 작동 순서도Fig. 41 is a flowchart showing the operation of the search system using basic functions and annotation knowledge functions.
도 42는 색인기를 중심으로 작성된 구성도42 is a diagram illustrating the configuration of an indexer
도 43은 고유ID+ 색인의 개념적 구조Figure 43 Conceptual Structure of Unique ID + Index
도 44는 색인 상에서 고유ID 방식과 의미표현ID 방식의 비교44 is a comparison of a unique ID method and a semantic expression ID method on an index.
도 45는 의미단위용어 기반 색인 순서도45 is a semantic unit term based index flowchart
도 46은 여러 장치에 속해 있는 모든 주석 장치들46 shows all annotation devices belonging to various devices
도 47은 의미단위용어 기반 정보 체계의 근간을 이루는 주석 장치들 비교47 is a comparison of annotation devices that form the basis of a semantic unit term-based information system.
도 48은 문서 주석, 색인 주석 및 검색 질의어 주석의 예48 is an example of a document comment, index comment, and search query comment.
도 49는 단어 검색 주석과 문서 검색 주석의 차이점49 shows the difference between a word search comment and a document search comment
도 50은 주석 단위의 규모 비교50 is a scale comparison of tin units
도 51은 신규문서와 기존 문서에 대한 주석 비교51 is an annotation comparison for a new document and an existing document
도 52는 각 주석 장치들의 단계별 중요성 비교Fig. 52 is a comparison of the importance of each of the annotation devices.
도 53은 검색 주석기 중심으로 작성된 구성도Fig. 53 is a block diagram created around the search commenter;
도 54는 검색 주석의 순서도54 is a flowchart of a search comment.
도 55는 검색 결과 단어들을 대상으로 색인 상에서 주석하는 순서도55 is a flowchart illustrating annotations on indexes of search result words.
도 56은 검색기를 중심으로 작성된 구성도56 is a diagram illustrating the structure of a searcher
도 57은 검색 질의어57 is a search query word
도 58은 고유ID+ 검색 질의어의 해석58 is a unique ID + search query interpretation
도 59는 의미단위용어 기반의 질의어 작성 순서도59 is a flow chart of query term based on semantic unit terms.
도 60은 검색 결과를 표시하는 3가지 방법60 shows three ways of displaying search results
도 61은 단어를 검색하고 단어 단위로 항목 표시를 하는 순서도61 is a flowchart for searching for words and displaying items in word units.
도 62는 단어 검색 결과를 문서별 단어별로 나열 표시하는 검색 순서도62 is a search flow chart listing and displaying word search results by word for each document.
도 63은 검색지식을 생성하고 활용하는 순서도63 is a flowchart for generating and utilizing search knowledge.
도 64는 문서정보체계 구축기를 중심으로 작성된 구성도64 is a diagram illustrating the construction of a document information system builder;
도 65는 자연어 문서정보체계와 고유ID+ 문서정보체계65 is a natural language document information system and a unique ID + document information system.
도 66은 사전, 색인 및 주석지식을 이용한 문서정보체계를 구축66 is to construct a document information system using dictionary, index and annotation knowledge.
도 67은 사전 및 색인을 이용한 의미단위용어 기반 문서정보체계 구축67 is to build a semantic unit term-based document information system using a dictionary and an index
도 68은 사전 및 주석지식을 이용한 문서정보체계 구축68 is a document information system construction using dictionary and annotation knowledge.
도 69는 색인을 이용한 문서정보체계 구축 순서도69 is a flowchart illustrating the construction of a document information system using an index.
도 70은 주석지식을 이용한 문서정보체계 구축 순서도70 is a flow chart of document information system construction using annotation knowledge.
도 71은 검색 시스템 색인과 주석지식을 이용한 문서정보체계 구축 순서도71 is a flow chart of document information system using search system index and annotation knowledge.
도 72는 이견에 대한 집단지성을 이용한 관리 순서도72 is a flowchart illustrating management using collective intelligence on disagreement
도 73은 검색 대상 문서 원본과 추가 정보의 통합 후 저장 및 이용 순서도73 is a flow chart of storing and using after merging a search target document source with additional information;
부호의 설명Explanation of the sign
02-01은 자연어 문서정보체계02-01 is a natural language document information system
02-02는 자연어 기반 검색 시스템02-02 is a natural language based search system
02-03은 의미단위용어 기반 장치 102-03 is a semantic unit term based device 1
02-04는 1단계 의미단위용어 기반 정보 체계02-04 is a first-level semantic unit term-based information system
02-05는 의미단위용어 기반 검색 시스템02-05 is a semantic unit term based search system
02-06은 의미단위용어 기반 문서정보체계 구축기02-06 is a semantic unit term based document information system builder
02-07은 의미단위용어 기반 정보 체계02-07 is a semantic unit term based information system
03-01은 의미단위용어 기반 문서 작성 단계03-01 is the semantic unit term-based document creation step
03-02는 문서 수집 단계03-02 document collection stage
03-03은 의미단위용어 기반 색인 단계03-03 is a semantic unit term-based index step
03-04는 의미단위용어 기반 색인 단계03-04 is a semantic unit term-based index step
03-05는 의미단위용어 생성 단계03-05 is the semantic unit term generation stage
03-06은 의미단위용어 검색 주석 단계03-06 is the semantic unit term search comment step
03-07은 주석지식 생성 단계03-07 is an annotation knowledge generation step
03-08은 지식 기반 주석 수행 단계03-08 is a knowledge base annotation step
03-09는 의미단위용어 기반 문서정보체계 구축 단계03-09 is the establishment stage of document information system based on semantic unit terminology
05-01은 문서 작성 과정에서의 의미단위용어 생성05-01 means semantic unit term generation
05-02는 단어 검색 과정에서의 의미단위용어 생성05-02 is the semantic unit term generation in the word search process
06-01은 위의 표이며 자연어가 다양한 의미를 갖는 것을 보여준다.06-01 is the table above and shows that natural language has various meanings.
06-02는 아래의 표이며 자연어의 다양한 의미마다 고유ID가 부여된 것을 보여준다.06-02 shows the following table and shows that unique IDs are assigned to various meanings of natural language.
09-01은 의미단위용어 정보 획득 단계09-01 is the semantic unit term information acquisition step
09-02는 의미단위용어 생성 단계09-02 is the semantic unit term generation stage
09-03은 의미단위용어 사전 항목 생성 단계09-03 is the semantic unit term dictionary entry generation step
11-01은 의미단위용어 분류 단계11-01 is the semantic unit term classification stage
11-02는 의미단위용어 검색 분류 단계11-02 is the semantic unit term search classification stage
11-03은 의미단위용어 분류 계층화 단계11-03 is the semantic unit term classification stratification step.
11-04는 의미단위용어 분류 변경 단계11-04 is the change of semantic unit term classification
11-05는 의미단위용어 분류 이견 조정 단계11-05 is a step to adjust the semantic unit term classification dissent.
12-01은 용어별칭 등록 단계12-01 is the term alias registration step
12-02는 용어별칭 도입 단계12-02 is the terminology introduction phase
12-03은 용어별칭 사용 단계12-03 is the use of terminology aliases
13-01은 의미단위용어13-01 is the semantic unit term
13-02는 1차 용어분할13-02 is the primary terminology
13-03은 2차 용어분할13-03 is secondary terminology
14-01은 의미단위용어 용어분할 생성 단계14-01 is a semantic unit term term division generation step
14-02는 의미단위용어 계층적 용어분할 생성 단계14-02 is the semantic unit term hierarchical term division generation step
14-03은 용어분할 기반 주석 단계14-03 is a terminology based annotation step
14-04는 용어분할 이용 검색 단계14-04 is the term division search step
16-01은 의미단위용어 용어그룹 생성 단계16-01 is the semantic unit term group
16-02는 용어그룹 이용 검색 단계16-02 is the search term using the term group
20-01은 집단별 의미단위용어 기본값 결정 단계20-01 is the step of determining the default value of semantic unit term by group
20-02는 의미단위용어 개인 기본값 적용 단계20-02 is the meaning unit term default value application step
20-03은 의미단위용어 소속 집단 기본값 적용 단계20-03 applies to the semantic unit term belonging group default
20-04는 의미단위용어 인터넷 기본값 적용 단계Step 20-04 applies the semantic unit term internet default
23-01은 검색 단계23-01 steps search
23-02는 주석지식 생성 요청 수령 단계23-02 is the step of receiving annotation knowledge creation request
23-03은 주석지식 생성 단계23-03 is the annotation knowledge generation step
25-01은 지식 기반 주석 요청 수령 단계25-01 is the stage of receiving knowledge base annotation requests
25-02는 주석지식 검색 단계25-02 is annotated knowledge search phase
25-03은 주석지식 적용 단계25-03 is the application of annotation knowledge
25-04는 기본값 적용 단계25-04 apply defaults
26-01은 색인 대상 주석지식 수행 요청 단계26-01 is the request to perform index target annotation knowledge step
26-02는 주석지식 변형 단계26-02 is annotated knowledge transformation stage
26-03은 주석지식 이용 색인 검색 단계26-03 is annotated index search step
26-04는 주석지식 이용 색인 주석 단계26-04 is annotation index step
28-01은 색인 기반 주석 단계28-01 is an index based comment step
28-02는 주석지식 적용 단계28-02 is the application of annotation knowledge
28-03은 기본값 적용 단계28-03 is the default apply step
32-01은 수작업 주석 방식의 문서 작성기32-01 is a manual annotated document writer
32-02는 자동 주석 방식의 문서 작성기32-02 Auto Annotated Document Composer
33-01은 자연어 문서 작성 단계33-01 is a natural language document creation step
33-02는 지식 기반 주석 단계33-02 Knowledge Base Annotation Step
33-03은 주석 변경 요청 단계33-03 is the comment change request step
33-04는 의미단위용어 주석 변경 단계33-04 is the change of semantic unit term comment
33-05는 의미단위용어 생성 주석 단계33-05 is the annotation unit term generation comment step
38-01은 외부 검색 시스템38-01 is an external search system
39-01은 의미단위용어 기반 문서 수집 단계39-01 is the semantic unit term-based document collection stage
39-02는 의미단위용어 기반 색인 단계39-02 is a semantic unit term-based index step
39-03은 의미단위용어 기반 검색 단계39-03 is a semantic unit term-based search step
40-01은 의미단위용어 기반 문서 수집 단계40-01 is the semantic unit term-based document collection step
40-02는 의미단위용어 기반 색인 단계40-02 is a semantic unit term-based index step
40-03은 검색 주석 단계40-03 steps to search comments
40-04는 의미단위용어 기반 검색 단계40-04 is the semantic unit term based search step
41-01은 의미단위용어 기반 문서 수집41-01 is the semantic unit term-based document collection
41-02는 의미단위용어 기반 색인 단계41-02 is a semantic unit term-based index step
41-03은 주석지식 수행 단계41-03 is an annotation knowledge step
41-04는 의미단위용어 기반 검색 단계41-04 is the semantic unit term based search step
43-01은 43-02 문서에 대한 개념적 색인43-01 is a conceptual index for 43-02 documents
43-02는 자연어 홍길동으로 검색하여 찾은 문서43-02 was found in natural language Hong Gil-dong.
44-01은 44-02 문서에 대한 개념적 색인44-01 is a conceptual index for 44-02 documents
44-02는 자연어 길동으로 검색하여 찾은 문서44-02 is a search for natural language instructions
44-03은 색인의 의미단위용어 필드에 들어갈 값을 보여주는 테이블을 가리키는 화살표44-03 is an arrow pointing to a table showing the values to be placed in the semantic unit term field of the index.
45-01은 자연어 색인 생성 단계45-01 is the natural language indexing stage
45-02는 의미단위용어 기반 색인 생성 단계45-02 is the semantic unit term-based indexing stage
46-01은 의미단위용어 질의어 주석부(의미단위용어 기반 검색 주석기에 들어 있는 것)46-01 is the semantic unit term query comment section (in the semantic term based search commenter).
46-02는 의미단위용어 질의어 주석부(의미단위용어 기반 검색기에 들어 있는 것)46-02 is the semantic unit term query part (which is included in the semantic term based searcher).
47-01은 주석 대상47-01 is annotated
47-02는 대상 문서47-02 Target Document
47-03은 검색 주석47-03 comment search
47-04는 단계47-04 steps
47-05는 중요도47-05 is the importance
49-01은 문서 내의 모든 단어를 주석하는 단어 검색 주석 방식을 보여준다.49-01 shows a word search annotation method that annotates all words in a document.
49-02는 문서 내부의 위치는 기록하지 않기 때문에 자연어가 같고 의미도 같은 것은 하나만 기록하는 문서 검색 주석 방식을 보여준다.49-02 does not record the location within a document, so it shows a document retrieval annotation that records only one thing with the same natural language and the same meaning.
51-01은 신규문서 문서 작성기 유형 151-01 is a new document document creator type 1
51-02는 신규문서 문서 작성기 유형 251-02 New Document Document Creator Type 2
51-03은 기본문서 주석기51-03 is the default document commenter.
54-01은 의미단위용어 기반 문서 검색 단계54-01 is the semantic unit term-based document retrieval step
54-02는 문서 검색 주석 요청 수령 단계54-02 is a document retrieval comment request receipt step
54-03은 문서 검색 주석 단계54-03 is an article search comment step
55-01은 의미단위용어 기반 단어 검색 단계55-01 is the semantic unit term based word search step
55-02는 단어 검색 주석 요청 수령 단계55-02 Steps in Receiving Word Search Comments Request
55-03은 단어 검색 주석 단계55-03 is a word search comment step
57-01은 자연어 검색 질의어57-01 is a natural search query
57-02는 고유ID+ 검색 질의어57-02 is a unique ID + search query
59-01은 자연어 질의어 작성 단계59-01 is the natural language query stage
59-02는 사전 찾기 단계59-02 Dictionary Finding Steps
59-03은 의미단위용어 주석 단계59-03 is the semantic unit term comment step
59-04는 질의어 수정 단계59-04 is the query modification step
60-01은 문서 항목 나열 방식How 60-01 Lists Document Items
60-02는 단어 항목 나열 방식How 60-02 Lists Word Entries
60-03은 문서/단어 항목 나열 방식How 60-03 lists documents / word entries
61-01은 단어 검색 요청 수령 단계61-01 is the step of receiving a word search request
61-02는 단어 검색 결과 표시 단계61-02 steps to display word search results
62-01은 문서/단어 검색 요청 수령 단계62-01 is the document / word search request receipt step
62-02는 단어 검색 결과 문서별 단어별 표시 단계62-02 is a word search result document-by-word display step
63-01은 검색 질의어 검토 단계63-01 is a search query review step
63-02는 검색지식 생성 단계63-02 is the creation of search knowledge
63-03은 검색지식 공개 요청 수령 단계63-03 is the stage of receiving a search knowledge disclosure request
63-04는 검색지식 공개 단계63-04 is the search knowledge disclosure stage
65-01은 자연어 문서정보체계65-01 is a natural language document information system
65-02는 고유ID+ 문서 정보 체계65-02 is a unique ID + document information system
69-01은 문서 주석 정보 작성 단계69-01 steps to create document comment information
69-02는 문서 주석 단계69-02 Document Annotation Steps
69-03은 의미단위용어 문서 저장 단계69-03 is the semantic unit term document storage step
70-01은 문서정보체계 문서 수집 단계70-01 is the document information system document collection stage
70-02는 주석지식 문서 적용 단계70-02 is the application of annotation knowledge documents
70-03은 주석지식 문서정보체계 적용 단계70-03 is the application stage of annotation knowledge document information system.
71-01은 문서정보체계 문서 수집 단계71-01 is the document information system document collection stage
71-02는 문서 주석 정보 작성 단계71-02 steps to create document comment information
71-03은 문서 주석 단계71-03 is a document comment step
71-04는 의미단위용어 문서 저장 단계71-04 is the semantic unit term document storage step
71-05는 주석지식 문서 적용 단계71-05 shows the application of annotation knowledge documents.
71-06은 주석지식 문서정보체계 적용 단계71-06 shows the application of annotation knowledge document information system.
72-01은 토론 생성 단계72-01 is the discussion creation phase
72-02는 토론 단계72-02 the discussion stage
72-03은 투표 단계72-03 votes stage
72-04는 토론 결과 적용 단계72-04 apply the results of the discussion
73-01은 문서 및 주소 별도 장소 저장 단계73-01 saves separate places for documents and addresses
73-02는 문서 내용 변경 단계73-02 Steps to Change Document Content
73-03은 변경 문서 이용 단계73-03 is the Change Document Use Step.
먼저 간단히 용어를 설명한다. First, the terms are briefly explained.
의미단위용어(Semantic term) - 자연어는 같은 자연어 표현이 여러 가지 의미를 갖는 경우가 있고 반대로 하나의 의미가 여러 가지로 표현되는 경우도 있다. 의미단위용어는 하나의 의미마다 한 개의 용어가 생성된다. 자연어 표현이 여러 가지 의미를 갖는 경우에 의미 일련번호를 붙여 용어를 세분화하고 반대로 표현이 여러 가지인 경우에는 자연어 대표표현을 사용하여 의미가 같은데 여러 의미단위용어가 생성되지 못하게 한다. 하지만 예외사항으로서 의미가 같더라도 각국 언어가 다르면 별도의 의미단위용어가 생성된다. Semantic term-In the natural language, the same natural language expression may have several meanings. On the contrary, a single meaning may be expressed in various ways. A semantic unit term generates one term for each meaning. When a natural language expression has various meanings, the term is subdivided by a semantic serial number. On the contrary, when the expressions have various expressions, natural language representative expressions are used to have the same meaning. However, as an exception, even if the meaning is the same, if the languages are different, separate semantic unit terms are created.
본 발명에서 자연어는 의미를 분명히 하기 위해 의미단위용어가 주석되어 "자연어+의미단위용어"의 형태로 존재한다. 본 발명에서는 의미단위용어가 2가지 의미로 사용된다. "자연어+의미단위용어"를 의미하는 경우가 있고 자연어와 무관하게 "의미단위용어"만을 의미하는 경우가 있다. 별도의 특별한 언급이 없으면 의미단위용어라는 수식어가 붙은 경우 "자연어+의미단위용어"를 의미한다. 예를 들어 의미단위용어 문서이라고 하면 자연어에 의미단위용어가 주석된 형태를 의미한다. 의미단위용어 검색 질의어도 마찬가지이다. 의미단위용어 색인도 자연어 정보와 의미단위용어가 같이 들어있는 색인이다. 이런 의미를 분명히 하기 위해 사용되는 용어가 고유ID와 고유ID+이다. In the present invention, the natural language exists in the form of "natural language + meaning unit term" with the semantic unit terms are annotated to clarify the meaning. In the present invention, the semantic unit term is used in two meanings. It may mean "natural language + meaning unit term", and it may mean only "mean unit term" regardless of the natural language. Unless otherwise noted, the term "natural language + semantic term" means a semantic term. For example, a semantic unit term document means a form in which a semantic unit term is annotated in a natural language. The same applies to the semantic unit term search query. The semantic unit term index is also an index containing both natural language information and semantic unit terms. The terms used to clarify this meaning are Unique ID and Unique ID +.
고유ID(UniqueID) - 본 발명이 제안하는 대표적인 의미단위용어이다. 자연어 대표 표현에 의미 일련 번호를 연결하여 만든다. 각국 언어별로 의미마다 1개씩 생성된다. Unique ID-A representative semantic unit term proposed by the present invention. It is made by linking a semantic serial number to a natural language representation. One language is created for each language.
"고유ID+" - 자연어 표현과 고유ID 쌍(Pair)이다. 보통 "자연어:고유ID"이 형태를 갖는다"Unique ID +"-natural language representation and unique ID pair. Usually "natural language: unique ID" takes the form
주석(Annotation) - 여기서 주석은 자연어 표현에 의미단위용어를 더하여 의미를 명확히 하는 용도로 사용된다.Annotation-Annotation is used here to clarify meaning by adding semantic unit terms to natural language expressions.
변환(Convert) - 여기서 변환은 자연어 표현을 (자연어 표현, 의미단위용어)쌍으로 바꾸는 것을 의미한다. 결국 주석과 변환이 같은 의미이다. Convert-Here, convert means to convert a natural language expression into (natural language expression, semantic term) pair. After all, comments and conversions mean the same thing.
만약 자연어 표현을 의미단위용어로 바꾸는 것은 변환이라는 용어가 아니라 대체라는 용어를 쓰고 있다.If a natural language expression is translated into a semantic unit term, it uses the term substitution, not the term conversion.
단어/의미/발생 - 하나의 문서에는 여러 가지 단어들이 사용된다. 이 단어들은 하나 이상의 의미로 사용될 수 있다. 하나의 문서에서 특정한 의미를 갖는 단어가 여러 번 반복 사용될 수 있으며 이것을 여기서 발생이라고 부른다. 1000개의 발생이 들어 있고 500개의 의미가 사용되고 400개의 단어가 사용되는 문서의 예를 들어보자. 한 문서 내에서 의미와 단어의 수는 발생의 수를 넘지 못하고, 일반적으로 의미의 수가 단어의 수보다 많으나 같은 의미의 다른 표현들이 많으면 단어의 수가 의미의 수보다 많을 수도 있다. 이 예에서 하나의 단어는 평균 2.5(1000/400)번씩 반복 사용되었으며 100(500-400)개 정도의 단어가 의미 분할을 하였다. 하나의 단어가 여러 번 의미분할을 할 수도 여러 단어가 하나의 의미를 가질 수도 있어 정확한 분할된 단어의 수는 알 수 없다. Word / Meaning / Occurrence-Several words are used in one document. These words may be used in more than one sense. Words with a particular meaning in a document can be used many times and this is called an occurrence. For example, a document containing 1000 occurrences, 500 meanings, and 400 words are used. The meaning and number of words in a document do not exceed the number of occurrences, and in general, the number of meanings is greater than the number of words, but if there are many other expressions of the same meaning, the number of words may be greater than the number of meanings. In this example, one word is repeated 2.5 (1000/400) times on average, and 100 (500-400) words are divided in meaning. A word can be split several times or several words can have a single meaning, so the exact number of split words is unknown.
GUID - 전역 고유 식별자(Globally Unique Identifier)는 응용 소프트웨어에서 사용되는 유사 난수이다. GUID는 생성할 때 항상 유일한 값이 만들어진다는 보장은 없지만, 사용할 수 있는 모든 값의 수가 매우 크기 때문에, 적절한 알고리즘이 있다면 같은 숫자를 두 번 생성할 가능성은 매우 적다. 따라서 시스템이 일련번호를 유지관리할 필요가 없다. 하지만 길이가 길어져서 사용에 불편하다.GUID-Globally Unique Identifier is a pseudo-random number used in application software. While there is no guarantee that a unique value will always be created when generating a GUID, it is very unlikely that the same number will be generated twice if there is an appropriate algorithm. Therefore, the system does not need to maintain serial numbers. However, its length is inconvenient to use.
본 발명은 검색 시스템이 중심이 된 의미단위용어 기반 정보 체계이다. 먼저 자연어 정보 체계의 예를 살펴보자. 자연어 검색 시스템의 기본적인 구성요소는 문서 수집기, 색인기 및 검색기이며 검색 시스템의 대상인 자연어 문서들은 자연어 문서 작성기가 만들어 준다. 자연어 문서 작성기와 자연어 검색 시스템은 자연어 사전을 이용한다. 검색 시스템이 중심이 된 자연어 정보 체계는 1)사전, 2)문서 작성기,3)수집기, 4)색인기 및 5) 검색기 모두 5 장치로 이루어진다. 의미단위용어 기반 정보 체계는 자연어 정보체계의 모든 장치들을 포함한다. 기본적인 프레임워크도 같다. 의미단위용어 기반이기 때문에 추가되는 장치들은 1) 의미단위용어 사전, 2)의미단위용어 주석기, 3)의미단위용어 기반 검색 주석기, 4) 의미단위용어 기반 문서정보체계 구축기이다. 의미단위용어 기반 정보 체계는 5+4=9 개의 장치로 구성된다. 실제 구성도는 자연어 사전을 제외한 8개 장치로 구성되어 있다. 이는 자연어 사전이 개념적으로 의미단위용어 사전에 포함되어 있기 때문이다. 추가되었던 4개 장치 중 의미단위용어 사전의 필요성은 너무나 자명하다. 나머지 3장치(주석기, 검색 주석기, 문서정보체계 구축기)는 자연어로 만들어진 정보를 의미단위용어로 만들어진 정보로 변환하기 위해 필요한 장치들이다. 자연어와 달리 의미단위용어는 사용자들이 실생활에서 사용하는 언어가 아니고 단어의 수도 훨씬 많고 길이도 길다. 따라서 기억하여 문서 작성을 할 수 없다는 점 때문에 특별한 도움이 필요하다. 사용자들이 쉽게 의미단위용어를 사용할 수 있도록 도와주는 장치들이 필요하다. 주석기는 자연어를 의미단위용어로 변환해 주는 장치이다. 검색 시스템 외부의 독립 장치로서 문서 작성기, 검색 시스템 및 문서정보체계 구축기가 이용한다. 검색 주석기는 색인의 내용을 자연어에서 의미단위용어로 변환해 주는 검색 시스템 내부 장치이다. 문서정보체계 구축기는 검색 시스템 차원에서 의미단위용어 기반으로 만드는 작업이 끝난 상태에서 그간에 쌓인 지식과 정보를 이용하여 모든 문서들을 의미단위용어 기반으로 바꾸는 장치이다. The present invention is a semantic unit term based information system centered on a retrieval system. First, let's look at an example of natural language information system. The basic components of the natural language retrieval system are document collectors, indexers, and searchers. Natural language document writers and natural language search systems use natural language dictionaries. The natural language information system centered on the retrieval system consists of 5 devices: 1) dictionary, 2) document writer, 3) collector, 4) indexer, and 5) searcher. The semantic unit term-based information system includes all the devices of the natural language information system. The basic framework is the same. Devices added because they are semantic terms are 1) dictionary of semantic terms, 2) commenter of meaning unit, 3) search commenter of meaning unit, and 4) builder of document information system based on semantic unit. The semantic unit term-based information system consists of 5 + 4 = 9 devices. The actual diagram consists of eight devices except the natural language dictionary. This is because the natural language dictionary is conceptually included in the semantic unit term dictionary. Of the four devices that have been added, the need for a semantic dictionary of terms is too obvious. The other three devices (commenters, search commentators, and document information system builders) are the devices needed to convert information made from natural language into information made from semantic unit terms. Unlike natural language, semantic unit terminology is not the language that users use in real life, but the number of words is much longer and its length is longer. Therefore, we need special help because we can't remember and write the document. There is a need for devices that help users easily use semantic terms. Annotator is a device that converts natural language into semantic unit term. As an independent device outside the retrieval system, a document writer, retrieval system, and document information system builder are used. Search commentators are internal devices in the search system that convert the contents of an index from natural to semantic terms. The document information system builder is a device that converts all documents into semantic unit terms based on knowledge and information accumulated in the state of making semantic unit terms based on the retrieval system.
이하, 첨부한 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 모든 장치들을 포함하는 구성도이다. 1 is a configuration diagram including all devices.
A.의미단위용어 기반 정보 체계는 사전 관리기, 주석기, 문서 작성기, 검색 시스템 및 문서정보체계 구축기를 포함하는 의미단위용어 기반의 총체적인 정보 체계이다. A. A semantic unit term based information system is a semantic unit term based information system including dictionary manager, commenter, document writer, retrieval system, and document information system builder.
B.의미단위용어 사전 관리기는 의미단위용어를 생성하고 여기에 설명을 추가하여 사전을 만들고 그것을 관리하는 장치이며 A.의미단위용어 기반 정보 체계의 모든 장치들이 사용하는 기본적인 장치이다. 약칭은 사전 관리기이다.B. The semantic term dictionary manager is a device that creates semantic unit terms and adds descriptions to them to create dictionaries and manage them. It is a basic device used by all devices of A. semantic term-based information system. Abbreviation is a dictionary manager.
B1.의미단위용어 생성부는 의미단위용어인 고유ID,의미표현ID 또는 의미 기반 GUID를 생성하고 여기에 설명을 추가하여 사전을 생성하는 장치이다. 약칭은 용어 생성부이다. B1. Meaning unit term generation unit is a device that generates a dictionary by generating a unique ID, a meaning expression ID, or a semantic based GUID that is a semantic unit term, and adds a description to it. Abbreviation is term generating unit.
B2.의미단위용어 관리부는 생성된 의미단위용어를 수정 삭제하는 등등의 관리를 하는 장치이다. B2.The semantic unit term management unit is a device that manages the modified semantic unit term.
B3.의미단위용어 사전 검색부는 사전 찾기 장치로서 보통 자연어를 입력하여 사전 찾기 기능을 호출하면 해당하는 의미단위용어들이 나열되고 사용자는 그 중에 하나를 선택하게 된다. 한글을 입력하고 한자로 변환하는 기능과 유사하지만 한자 변환은 한자로 대체되나 사전 검색부는 대체하기보다는 자연어 뒤에 주석이 된다. 약칭은 사전 검색부이다B3. Meaning unit term dictionary search unit is a dictionary finder. When a user searches a dictionary by inputting natural language, corresponding semantic unit terms are listed and the user selects one of them. It is similar to the function of inputting Hangul and converting to Hanja, but Hanja conversion is replaced with Hanja, but the dictionary search unit is commented after natural language rather than replacing. Abbreviated name is dictionary search
C.의미단위용어 주석기는 자연어 표현에 의미단위용어를 주석해 주는 장치이며 D.의미단위용어 기반 문서 작성기, E.의미단위용어 기반 검색 시스템 및 J.의미단위용어 기반 문서정보체계 구축기에 의해 사용된다. 약칭은 주석기이다. 모든 자연어를 의미단위용어로 바꾸는 작업을 하나하나 사전을 이용해 수행하는 것은 매우 힘든 작업이다. 주석기는 주석지식이나 기본값을 이용하여 자동으로 주석하거나 도움을 주는 장치이다. 문서 내부의 자연어에 대한 주석, 검색 시스템 색인에 대한 주석 및 검색 질의어에 대한 주석 모두에 사용되는 장치이고 신규문서를 만들면서 자연어에 주석하는데 사용할 뿐 아니라 기존문서들을 주석하는 데도 사용된다. 명령으로 수행될 수도 있고 에이전트처럼 정기적으로 자동 수행되기도 한다. 대량 문서 주석 작업에도 사용되고 개별 문서 작업에도 사용된다.C. Meaning unit term commenter is a device that annotates semantic unit term in natural language expression and is used by D. Meaning unit based document writer, E. Meaning unit based search system, and J. Meaning unit based document information system builder. do. Abbreviation is a tin group. It is very difficult to convert all natural words into semantic units using dictionaries. Annotators are devices that automatically comment or help using annotation knowledge or defaults. It is a device used for comments on natural language in documents, comments on search system indexes, and comments on search query words. It is used to annotate existing documents as well as to comment on natural languages as new documents are created. It can be done by command, or it can be done automatically on a regular basis like an agent. It is also used for annotating bulk documents and for individual documentation.
C1.주석지식 관리부는 주석지식을 생성하고, 수정 및 삭제하는 장치이다. 주석지식은 “어떠한 1)조건에서 어떤 2)자연어 표현은 어떤 3)의미이다”라는 지식이다. 이것은 보통 검색으로 대상을 찾아내서 특정 자연어 표현에 특정 의미단위용어를 주석하는 검색 주석기를 사용한 후에 결과가 만족스러우면 이를 주석지식으로 등록하게 된다. 보통 1)조건은 검색에서 사용한 질의어이고, 2)자연어 표현은 검색에서 사용한 특정 자연어 표현이고, 3)의미는 검색에서 주석을 하는데 사용한 의미단위용어가 된다. C1.Annotation Knowledge Management Unit is a device for creating, modifying and deleting annotation knowledge. Annotation knowledge is the knowledge that "in any 1) condition, 2) natural language expression is 3) meaning." This is usually done using a search commenter that finds objects by searching and annotates specific semantic unit terms in certain natural language expressions, and then registers them as annotation knowledge if the results are satisfactory. Usually, 1) condition is query term used in search, 2) natural language expression is specific natural language expression used in search, and 3) meaning is semantic unit term used to comment in search.
C2.기본값 관리부는 기본값을 관리하는 장치이다. 기본값은 개인,특정 단체, 특정 분야 또는 인터넷에서 가장 빈번하게 사용하는 특정 자연어에 대한 의미단위용어를 말한다. 여러 개의 기본값이 적용되는 상황에서 보통 개인,특정집단,분야,인터넷 순으로 우선 순위를 가지며 우선 순위나 기본값을 사용자가 지정할 수 있다. 주석지식이 없어서 특정 자연어를 의미단위용어로 주석하지 못할 때 최우선순위의 기본값을 적용한다. C2. Default management unit is a device that manages default values. The default value is the semantic unit term for a specific natural language most frequently used on the individual, in a particular organization, in a particular field or on the Internet. In situations where multiple default values are applied, they usually have priority in order of individual, specific group, sector, and the Internet, and the user can specify the priority or default value. If there is no comment knowledge and a specific natural language cannot be annotated as a semantic unit term, the default value of the highest priority is applied.
C3.지식 기반 주석부(문서/색인/질의어 주석)는 보통 C3.지식 기반 주석부로 표기되며 주석지식이나 기본값을 이용하여 자연어에 의미단위용어를 주석해 주거나 도움을 주는 장치이다. 호출되어 사용되기도 하고 에이전트처럼 정기적으로 수행되기도 한다. 대량 문서 작업을 포함한 모든 주석 작업에 사용될 수 있는 장치이다. C3.Knowledge-based comment section (document / index / query comment) is usually marked as C3.Knowledge-based comment section. It is a device that annotates or helps semantic unit terms in natural language by using comment knowledge or default value. It can be called and used, or it can be run regularly like an agent. It is a device that can be used for all annotations, including bulk documentation.
C4.색인 기반 문서 주석부는 색인이 의미단위용어 기반으로 변환된 상태에서 색인의 정보를 추출하여 문서의 내용을 주석하는 장치이다. 이미 색인이 의미단위용어 기반화 된 상태는 의미단위용어 기반 정보체계가 완성됐다는 것을 의미하기 때문에 2차적인 주석 장치라고 할 수 있다. C4. Index-based document commenting unit is an apparatus that annotates the contents of the document by extracting the information of the index while the index is converted based on semantic terms. The fact that the index has already been based on semantic unit terminology means that the semantic unit term-based information system is completed.
C5.주석 관리부는 모든 주석을 보여주고 내용을 검토하여 주석 오류를 수정할 수 있게 하는 장치이다. 사용자가 만든 주석지식에 의해 추가된 주석, 사용자의 검색 주석에 의해 추가된 주석 등을 주석일자 순으로 볼 수 있으며 오류가 있으면 수정하는 기능을 제공한다.C5.Annotation management unit is a device that shows all the comments and reviews the contents so that the comment errors can be corrected. Comments added by the user's comment knowledge, comments added by the user's search comment, etc. can be viewed in the order of the comment date.
D.의미단위용어 기반 문서 작성기는 직접 의미단위용어로 문서 작성을 할 수도 있지만 개념적으로 자연어로 문서를 만들고 자연어를 이용하여 해당하는 의미단위용어를 찾아내 자연어에 주석하는 2단계 절차를 거쳐 의미단위용어 기반 문서를 만든다. 약칭은 문서 작성기이다.D. The term-based document composer can write a document in semantic unit terms, but conceptually, it creates a document in natural language and finds the corresponding semantic unit term using natural language, and then goes through the two-step process of commenting on the natural language. Create a term-based document. The abbreviation is a document writer.
D1.자연어 작성부는 기존의 자연어 기반 문서 작성기와 같다. D1. Natural language writing unit is the same as the existing natural language-based document generator.
D2.의미단위용어 문서 주석부는 자연어로 작성된 문서를 의미단위용어로 주석을 하는 장치이다. 의미단위용어 사전의 도움만 받으면 주석 작업은 힘든 작업이지만 주석지식이 많이 누적된 상태에서 C3.지식 기반 주석부의 도움을 받으면 큰 어려움 없이 수행될 수 있다.D2. Meaning unit term document comment section is a device that annotates documents written in natural language in semantic unit terminology. Annotation is a difficult task only with the help of the semantic unit terminology dictionary, but it can be done without any difficulty with the help of C3.
E.의미단위용어 기반 검색 시스템은 의미단위용어를 기반으로 수집된 문서들을 색인하고 검색하는 장치이다. 내부 장치로는 1)문서 수집기, 2) 색인기, 3) 검색 주석기 및 4) 검색기가 있다. E. The semantic term based search system is a device for indexing and searching the collected documents based on semantic unit terms. Internal devices include 1) document collector, 2) indexer, 3) search commenter, and 4) searcher.
F.문서 수집기는 검색 대상이 되는 문서들을 수집하는 장치이다F. Document Collector is a device that collects documents to be searched.
G.의미단위용어 기반 색인기는 검색된 문서들로부터 의미단위용어 기반 색인을 만드는 장치이다. 약칭은 색인기이다G. Semantic term-based indexer is a device for creating semantic term-based indexes from retrieved documents. Abbreviation is indexer
H.의미단위용어 기반 검색 주석기는 색인에 주석을 하기 위해 검색 기능과 주석기능이 합쳐진 기능을 수행하는 장치이다. 검색을 하여 찾아진 문서(들)에 들어 있는 특정 자연어 표현에 의미단위용어를 주석하는 장치이다. 약칭은 검색 주석기이다H. Semantic term-based search commenter is a device that combines search and annotation functions to annotate indexes. A device that annotates semantic unit terms to specific natural language expressions contained in document (s) found by searching. Abbreviation is a search commenter
H1.문서 검색 주석부(색인 주석)는 검색으로 찾아진 문서들 전부 또는 일부에 들어 있는 특정 자연어에 특정 의미단위용어를 주석하는 장치이다. 약칭은 문서 검색 주석부이다.H1. Document search comment section (index comment) is a device that annotates a specific semantic unit term to a specific natural language contained in all or part of the documents found by a search. The abbreviation is a document search comment.
H2.단어 검색 주석부(색인 주석)는 표기하며 검색으로 찾아진 단어들 전부 또는 일부에 대해 특정 의미단위용어를 주석하는 장치이다. 약칭은 단어 검색 주석부이다.H2. Word search comment section (index comment) is a device that writes and annotates a specific semantic unit term for all or part of the words found by the search. Abbreviations are word search comments.
I.의미단위용어 기반 검색기는 의미단위용어 기반으로 만들어진 색인을 대상으로 의미단위용어로 작성된 질의어로 검색을 수행하는 검색기이다. 약칭은 검색기이다I. A semantic unit term based searcher is a searcher that searches a query made of semantic unit terms for an index created based on a semantic unit term. Abbreviation is a searcher
I1.문서 검색부는 기존 검색 시스템처럼 검색 결과가 문서 목록이다. 예를 들어 단어 검색 결과가 2문서 각 2 단어 총 4 단어이면 2개의 항목이 나열된다. 결과 항목들은 문서 처리의 대상이 될 수 있다. I1. The document search unit is a list of documents whose search results are the same as in the existing search system. For example, if a word search result is 4 words in 2 documents, 2 items are listed. The resulting items may be subject to document processing.
I2.단어 검색부는 검색 결과가 단어 목록이다. 예를 들어 단어 검색 결과가 2문서 각 2 단어 총 4 단어이면 4개의 항목이 나열된다. 결과 항목들은 단어 처리의 대상이 될 수 있다. I2. The word search unit is a word list of the search results. For example, if the word search result is 4 words in 2 documents of 2 documents, 4 items are listed. Result items may be subject to word processing.
I3.검색지식 관리부는 검색지식을 생성하고 관리하는 장치이다. 사용자는 검색 질의어가 의미가 있다고 판단되면 이를 검색지식으로 등록할 수 있다. 기존의 자연어 검색은 너무 정확률이 낮아 지식으로 계속 활용할 수 있는 가능성이 작았다. 반면에 의미단위용어 기반 검색은 정확률 100%를 추구하는 것이 가능하다. 낮은 정확률의 지식은 연산에 의해 오차율이 커지지만 의미단위용어 기반은 복합적으로 활용이 가능하다.I3. Search Knowledge Management Unit is a device that creates and manages search knowledge. If the user determines that the search query is meaningful, the user may register it as search knowledge. Existing natural language search was so low in accuracy that it was less likely to continue to be used as knowledge. On the other hand, the semantic unit term-based search can pursue 100% accuracy. The knowledge of low accuracy rate increases the error rate by operation, but the semantic unit term base can be used in combination.
J.의미단위용어 기반 문서정보체계 구축기는 의미단위용어 기반 색인으로부터 의미단위용어 정보를 추출하여 문서정보체제 내의 문서들을 의미단위용어 기반으로 만들거나 주석지식을 이용하여 문서들을 의미단위용어 기반으로 변환하는 장치이다. 약칭은 문서정보체계 구축기이다.J. Semantic term-based document information system builder extracts semantic unit term information from semantic unit term-based index to make documents in document information system based on semantic unit term or convert documents to semantic unit term using annotation knowledge. Device. Abbreviation is document information system builder.
J1.색인 기반 문서정보체계 구축부는 색인 정보를 이용하여 문서정보체제 내의 문서들을 의미단위용어 기반으로 만드는 장치이다. J1. Index-based document information system construction unit is an apparatus that makes the documents in the document information system based on semantic unit terms using index information.
J2.주석지식 기반 문서정보체계 구축부는 주석지식을 이용하여 문서정보체제 내의 문서들을 의미단위용어 기반으로 만드는 장치이다.J2.Annotation knowledge-based document information system construction unit is a device that makes the documents in the document information system based on semantic unit terms using annotation knowledge.
도 2는 2단계별 의미단위용어 기반 정보 체계를 보여준다. 자연어 문서정보체계를 의미단위용어 사전을 만들고 문서에 들어가서 하나하나 의미단위용어 주석을 하여 의미단위용어 기반 문서정보체계로 만드는 일은 아주 방대하고 불가능에 가까운 일이다. 이런 문제를 극복하기 위해 제안된 방법이 문서정보체계를 단어별로 정렬하고 단어 전체에 대한 주석을 하는 방식이다. 다행히 단어별로 정렬을 하는 장치는 존재한다. 이것이 검색 시스템이다. 검색 시스템에는 모든 검색 대상 문서의 내용들이 단어별로 정렬되어 있다. 제안된 방법은 문서정보체계를 의미단위용어 기반으로 바꾸는 대신에 검색 시스템의 색인을 의미단위용어 기반으로 만드는 것이다. 색인을 의미단위용어 기반으로 바꾸면 이것은 문서정보체계를 의미단위용어 기반으로 바꾼 것이나 마찬가지이다. 의미단위용어 기반 색인은 자연어 문서정보체계를 의미단위용어 기반 문서정보체계로 만들 수 있다. 제안된 1단계 의미단위용어 기반 정보 체계(02-04)는 자연어 문서정보체계(02-01)에 검색 시스템(02-02)을 도입하여 만들어진다. 검색 시스템의 색인에 의해 단어별로 정렬한 후에는 이 색인을 의미단위용어 기반으로 바꾸어야 한다. 이러한 역할을 하는 것이 1단계 의미단위용어 기반 정보 체계에 두 번째로 추가되는 의미단위용어 기반 장치 1 (02-03)이다. 의미단위용어 기반 장치 1은 의미단위용어 사전, 기본값 DB 및 주석지식 DB와 3개의 장치(의미단위용어 사전 관리기, 의미단위용어 주석기, 의미단위용어 기반 검색 주석기)이다. 이들 장치는 자연어 기반 색인을 의미단위용어 기반 색인으로 만든다. 2 shows a semantic unit term based information system for each stage. It is very vast and almost impossible to make natural language document information system into semantic unit term dictionary and make it into semantic unit term based document information system by entering semantic unit terminology. To overcome this problem, the proposed method is to sort the document information system by words and to annotate the whole word. Fortunately, there are devices that sort by word. This is a search system. In the retrieval system, the contents of all searched documents are sorted by words. The proposed method is to make the index of the retrieval system based on the semantic term instead of changing the document information system to the semantic term. Changing the index to semantic terminology is the same as changing the document information system to semantic terminology. A semantic unit term-based index can make a natural language document information system into a semantic unit term-based document information system. The proposed first-level semantic unit term-based information system (02-04) is made by introducing a search system (02-02) into the natural language document information system (02-01). After sorting by word by the index of the retrieval system, the index should be changed based on semantic terms. It is the semantic unit term-based device 1 (02-03) which is added second to the first-level semantic unit term-based information system. The semantic unit term-based device 1 is a semantic unit term dictionary, a default DB and an annotation knowledge DB and three devices (a semantic unit term dictionary manager, a semantic unit term commenter, and a semantic unit term based search annotator). These devices make natural language-based indexes into semantic unit-based indexes.
1단계 의미단위용어 기반 정보 체계의 목적은 의미단위용어 사전을 만드는 것과 의미단위용어 기반 색인을 만드는 것이다. 1단계에서 의미단위용어 기반 색인과 사전은 완성되었다고 할 수 있지만 문서정보체계와 검색시스템 차원에서는 아직 자연어 기반에 머물러 있다. 또한 검색 시스템에 색인 되어 있는 기존 문서들이 아닌 신규문서의 관점에 있어서 1단계는 아무 역할도 없다. 2단계에서는 신규 문서들에 대한 의미단위용어 기반 처리 장치들이 추가되고 검색 장치들도 의미단위용어 기반으로 변경되고 문서정보체계도 의미단위용어 기반으로 바꾸기 위해 의미단위용어 기반 검색 시스템 장치(02-05)와 의미단위용어 기반 문서정보체계 구축기(02-06)가 추가된다. The purpose of the first-level semantic unit term-based information system is to build a semantic unit terminology dictionary and a semantic unit term-based index. It can be said that the semantic unit term-based index and dictionary were completed in the first stage, but it is still based on natural language in terms of document information system and retrieval system. Also, step 1 has no role in terms of new documents, rather than existing documents indexed in the retrieval system. In the second step, the semantic unit term-based processing apparatuses for new documents are added, the search apparatuses are changed to the semantic unit term based, and the semantic unit term based retrieval system apparatus is changed to change the document information system to the semantic unit term based (02-05). ) And semantic unit term-based document information system builder (02-06) are added.
이것으로써 기존문서/신규문서를 위한 의미단위용어 기반 문서정보체계가 완성되고 검색 시스템도 의미단위용어 기반으로 바뀌게 된다(02-07).This completes the semantic unit term-based document information system for existing documents / new documents and changes the search system to the semantic unit term base (02-07).
의미단위용어 기반 정보 체계의 핵심적인 장치들은 1단계 정보 체계에 들어 있다. 1단계가 성공하면 의미단위용어 기반 정보 체계 완성에 장애가 되는 것은 없다고 할 수 있다. 2단계는 수많은 사용자의 참여 하에 이루어지는 작업이 아니라 운영자/개발자들에 의해서 진행되는 작업이고 사용자는 단순히 결과를 이용하는 단계이기 때문이다.The core devices of the semantic unit term-based information system are contained in the first-level information system. If the first stage succeeds, there is no obstacle to the completion of the semantic unit term-based information system. This is because the second stage is not a task performed by a large number of users, but a task performed by the operator / developer and the user simply uses the result.
도 3은 검색 시스템 중심의 의미단위용어 기반 정보 체계가 작동하는 순서도이다. 앞의 4단계(문서 작성 단계(03-01), 문서 수집 단계(03-02), 색인 단계 (03-03) 및 검색 단계(03-04))는 검색 시스템이 가지고 있는 대표적인 기능이며 자연어가 아닌 의미단위용어를 기반으로 하고 있다는 것이 특징이다. 처음부터 문서들이 의미단위용어 기반 문서로 작성된다면 자연어 기반 정보 체계처럼 똑같이 처리하면 되고 특별한 절차를 도입할 필요가 없다. 하지만 초기에는 의미단위용어 사전도 미비하기 때문에 문서 자체가 의미단위용어 기반으로 작성되기는 어렵다. 거의 다 자연어 문서로 수집되고 색인 되며 실제로 색인을 의미단위용어 기반으로 만드는 것은 다음 단계이며 앞의 4단계는 과거와 같이 자연어로 진행된다고 보는 것이 정확할 것이다. 이제부터가 실제로 의미단위용어 기반의 절차가 시작된다. 자연어로 검색을 하면 쉽게 해당 자연어의 많은 의미들이 드러나고 이 단계에서 의미단위용어의 필요성이 대두하고 의미단위용어를 생성하게 된다. 자연어 검색의 경우에는 이미 존재하는 단어들을 사용하지만 본 발명에서는 미리 생성되어 있는 용어를 사용하는 것이 아니기 때문에 필요한 경우마다 용어 생성을 하여야 한다. 용어를 생성하기 위해서는 자연어표현, 특정 의미에 대한 설명 등을 입력하고 용어 생성 요청을 한다. 의미단위용어 사전 관리기는 자연어 표현을 이용해서 용어를 생성하고 생성된 용어에 설명을 쌍으로 하여 해당 용어에 대한 사전 항목을 생성한다 (03-05).3 is a flowchart in which a semantic unit term based information system centered on a search system operates. The first four steps (document creation step (03-01), document collection step (03-02), indexing step (03-03) and search step (03-04)) are typical features of the search system. It is not based on semantic unit terminology. If documents are written as semantic terminology documents from the beginning, they can be treated the same as natural language-based information systems, and no special procedures need to be introduced. However, since the dictionary of semantic unit terminology is insufficient at the beginning, it is difficult for the document itself to be written based on semantic unit terminology. Almost all of them are collected and indexed as natural language documents, and the actual step of making indexes based on semantic terms is the next step. From now on, the semantic terminology-based procedure begins. Searching in natural language easily reveals many meanings of the natural language, and the necessity of semantic unit term is raised at this stage and the semantic unit term is generated. In the case of natural language search, existing words are used, but since the present invention does not use a pre-generated term, the term should be generated whenever necessary. To create a term, input a natural word expression, a description of a specific meaning, and request a term generation. The semantic unit term dictionary manager creates a term using natural language expressions and creates a dictionary entry for the term by pairing the generated term with a description (03-05).
이제 사용자는 단어별로 정렬되어 있는 색인을 대상으로 특정 자연어들을 의미별로 나누고 의미단위의 표시를 하여야 한다. 사용자는 특정 자연어의 특정 의미를 찾기 위한 질의어를 이용하여 검색하고 찾아진 문서에 들어있는 해당 자연어 표현에 해당 의미단위용어를 색인 상에서 주석을 한다(03-06). 기존의 자연어 색인은 자연어 필드에 문서위치와 문서 명이 색인 되지만 의미단위용어 기반 색인은 자연어/의미단위용어 필드에 문서위치와 문서 명이 색인 된다. 검색 주석만으로 색인을 의미단위용어 기반으로 만드는 작업은 진행될 수 있다. 하지만 여기에 좀 더 세련된 방법을 적용할 수 있다. 검색 지식을 한번 수행하고 잊어 버릴 것이 아니라 이 정보를 저장하면 다른 용도로 사용될 수 있다. 가장 대표적인 예가 신규 문서에 적용하는 것이다. 검색 시스템 색인은 새로운 문서들이 계속 추가되어 내용이 추가된다. 새로 색인에 포함된 문서들에 대해 또 사용자가 직접 정기적으로 검색 지식을 수행하는 것은 불편하다. 검색 주석에 사용되는 검색 질의어, 주석 대상 자연어 표현 및 주석이 될 의미단위용어는 저장하면 주석지식이 된다. Now, the user must divide specific natural words by meaning and display the meaning unit by indexes sorted by words. The user searches using a query to find a specific meaning of a specific natural language and annotates the semantic unit term in the index to the corresponding natural language expression included in the found document (03-06). Conventional natural language indexes index document positions and document names in natural language fields, whereas semantic term-based indexes index document positions and document names in natural language / semi units. The work of creating indexes on a semantic basis based on search annotations can be done. But a more sophisticated approach can be applied here. Rather than performing the search knowledge once and forgetting it, storing this information can be used for other purposes. The most representative example is the application to new documents. The search system index adds content as new documents continue to be added. It is inconvenient for the user to regularly perform search knowledge on newly indexed documents. The search query word used in the search comment, the natural language expression to be commented, and the semantic unit term to be commented out become comment knowledge when stored.
좋은 주석지식이 될 수 있는가 여부는 검색 질의어에 달려 있다. 검색을 한 후에 사용자가 목록에서 하나하나 선택을 하여야 한다면 주석지식으로 적합하지는 않은 경우이다(03-07). 주석지식으로 만들어지면 주석지식은 나중에 수행되어 기존의 검색 주석과 같은 작업을 수행한다. 주석지식은 이전에 수행한 검색 주석과는 다른 대상에 대해서 수행이 되는 것이 보통이다. 새로 만들어져 검색 시스템 색인에 포함된 신규문서들에 대해 정기적으로 수행될 수 있다. 주석지식은 시간과 주기를 정해서 에이전트 형태로 수행될 수 있다(03-08). 검색 주석과 지식 기반 주석이 반복되면 색인에 많은 의미단위용어 주석이 쌓이게 된다. 의미단위용어 기반 색인에서 문서별로 의미단위용어 주석 정보를 추출하여 각각 해당 문서에 적용하여 해당문서를 의미단위 용어 기반 문서로 만들어 문서정보체계를 의미단위용어 기반으로 만들며, 주석지식 및 기본값을 적용하여 문서정보체계를 의미단위용어 기반으로 만들 수 있다(03-09). Whether it can be good comment knowledge depends on the search query. If a user has to make a selection from a list after searching, this is not an appropriate annotation knowledge (03-07). When created with annotation knowledge, annotation knowledge is later performed to perform the same tasks as existing search annotations. Annotation knowledge is usually done on a different target than previous search annotations. New documents that are newly created and included in the search system index can be performed regularly. Annotation knowledge can be performed in the form of an agent by setting time and period (03-08). Repeated search annotations and knowledge base annotations build up many semantic term annotations in the index. By extracting semantic unit term annotation information for each document from the semantic unit term-based index and applying it to the corresponding document, make the document into semantic unit term-based document, and make the document information system based on the semantic unit term. Document information systems can be based on semantic units (03-09).
이러한 과정을 통해서 의미단위용어 사전이 완성되고 의미단위용어 기반 색인이 완성되고 의미단위용어 기반 문서정보체계가 완성된다.Through this process, semantic unit term dictionary is completed, semantic unit term based index is completed, and semantic unit term based document information system is completed.
도 4는 사전관리기를 중심으로 작성된 구성도이다. 4 is a diagram illustrating the configuration of a pre-manager.
B1.의미단위용어 생성부는 고유ID, 의미표현ID, 의미단위 GUID, 의미표현 GUID 네 가지 방식 중 하나를 선택하여 구현되며 동시에 여러 방식이 적용된다는 의미는 아니다. B1. Meaning unit term generation unit is implemented by selecting one of four methods, unique ID, semantic expression ID, semantic unit GUID, and semantic expression GUID, but it does not mean that several methods are applied at the same time.
B2.의미단위용어 관리부 의미는 7가지 기능(용어 수정, 용어 삭제, 용어 병합, 용어 분류, 용어별칭, 용어분할, 용어그룹)을 수행한다. B2. Meaning of terminology management section Means to perform seven functions (term correction, term deletion, term merging, term classification, term alias, term division, term group).
이 중 용어 병합은 2가지 의미단위용어가 의미가 같은 경우에 2가지 중 하나로 병합을 하던가 제3의 용어를 만들어 병합을 하는 용도로 사용된다. 용어 분류는 오바마를 “남자, “대통령”등으로 분류하는 것과 같은 작업이다. 분류는 꼭 용어 생성시에 입력할 필요가 없고 다수의 값을 지정할 수 있다. Among them, the term merging is used for merging one of the two or merging by making a third term when two semantic unit terms have the same meaning. Terminology classification is the same as classifying Obama as "man," president. Classifications do not have to be entered at term generation and can specify multiple values.
용어별칭은 자주 사용하는 의미단위용어를 위해 만들면 좋다. 긴 의미단위용어는 사용자가 입력하기 불편하고 기억하기도 어렵기 때문에 용어별칭이 사용된다. 이 용어별칭은 실제 장치가 사용하기 전에 해당하는 의미단위용어로 번역된다.Terminology aliases can be created for semantic terminology that is used frequently. Long semantic unit terms are term aliases because they are inconvenient for users to enter and difficult to remember. This term alias is translated into the corresponding semantic unit term before being used by the actual device.
용어분할 기능은 용어의 사용빈도가 높은 경우 용어를 세부적으로 나누어 주석하고 검색하는 기능이다. 의미단위용어는 검색하면 몇 개밖에 결과가 없는 경우와 수억 건인 경우가 있다. 수억 건이 찾아지는 경우는 용어분할을 사용할 대상이 된다. The term division function is a function for dividing, dividing and searching a term in detail when a term is frequently used. When you search for semantic unit terms, there are only a few cases and hundreds of millions of cases. If hundreds of millions of cases are found, the terminology split will be used.
용어그룹은 여러 개의 용어를 그룹으로 만들어 그룹으로 검색하면 그룹에 들어 있는 용어들의 각각의 검색 결과를 합친 내용을 보여준다.A term group is a group of several terms, and the group search shows the combined results of each of the terms in the group.
B3.의미단위용어 사전 검색부는 사전 찾기 장치로서 보통 자연어를 입력하여 사전 찾기 기능을 호출하면 해당하는 의미단위용어들이 나열되고 그 중에 하나를 선택하게 된다. 한글을 입력하고 한자로 변환하는 기능과 유사하지만 한자 변환은 한자로 대체되나 사전 검색부는 대체하기보다는 자연어 뒤에 주석이 된다.B3. Meaning unit term dictionary search unit is a dictionary finder. When a user searches a dictionary by inputting natural language, corresponding semantic unit terms are listed and one of them is selected. It is similar to the function of inputting Hangul and converting to Hanja, but Hanja conversion is replaced with Hanja, but the dictionary search unit is commented after natural language rather than replacing.
도 5는 의미단위용어를 생성하는 환경에 대한 비교이다. 보통 자연어로 문서의 작성을 하는 상황에서는 의미단위용어의 필요성을 느끼지는 못한다(05-01). 하지만 자연어로 검색을 하는 상황에서는 하나의 단어가 여러 의미를 갖는 경우를 흔하게 보게 된다. 원하지 않는 자료가 너무 많이 포함된 것을 알게 되고 검색의 정확률 문제가 자연어의 다양한 의미에 기인한다는 것을 알게 된다(05-02). 검색 시스템은 의미단위용어의 필요성을 느끼게 하면서 관련 정보도 알기 쉽게 보여주는 최고의 시스템이다. 검색 시스템을 이용하면 의미단위용어의 생성이 용이하고 색인의 의미단위용어 주석 수단을 만드는 것도 가능하다. 검색 시스템은 자연어 기반 정보체계를 의미기반으로 바꾸기 위한 최고의 도구이다. 5 is a comparison of an environment for generating semantic unit terms. Usually, in the case of writing a document in natural language, the necessity of semantic unit term is not felt (05-01). However, in the case of natural language search, it is common to see a word having several meanings. They find that they contain too much unwanted data, and that the accuracy of the search problem is due to the various meanings of natural language (05-02). The retrieval system is the best system to show related information easily while making sense of semantic terminology. The retrieval system makes it easy to generate semantic terminology and to create means for annotating semantic unit terms in the index. The retrieval system is the best tool for transforming natural language based information system into semantic based.
도 6은 자연어가 얼마나 모호하고 왜 의미단위용어가 꼭 필요한 것인가를 보여준다. 도 6의 윗부분은 본 발명이 만들어지게 된 원인을 보여준다(06-01). 자연어는 다양한 의미가 있다. 이것은 일반 검색엔진들이 의미단위용어 기반으로 볼 때 낮은 정확률을 갖는 원인이 된다. 홍길동(가명, 발명자의 이름)의 경우에 정확률은 1/641이라고 할 수 있다. 무수히 많은 고유명사들이 일반명사, 동사 형용사 영역을 침범하여 단어의 의미를 불명확하게 한다.6 shows how ambiguous a natural language is and why a semantic unit term is necessary. The upper part of FIG. 6 shows the cause of the invention (06-01). Natural language has many meanings. This causes the general search engines to have a low accuracy rate based on semantic unit terms. In the case of Hong Gil-dong (a pseudonym, the inventor's name), the accuracy rate is 1/641. A myriad of proper nouns invade common nouns and verb adjectives, making the meaning of words unclear.
도 6의 아랫부분은 자연어 표현의 각각의 의미에 대해 의미단위용어가 생성되는 것을 보여준다(06-02). 고유ID는 본 발명에서 사용되는 대표적인 의미단위용어이며 자연어 대표표현과 의미일련번호를 더해서 만들어진다. 고유ID는 의미마다 별도로 생성된다. 홍길동을 특정 SNS(Social Network Service)에서 찾아보면 동명이인이 641명이 있다. 홍길동_1에서 1은 의미 일련번호이다. 이후 새로운 홍길동이 발견되면 가장 큰 의미일련번호를 이용하여 홍길동_642가 된다. 자연어 대신 의미단위용어를 사용하면 홍길동의 경우 검색 정확률 1/641에서 100%가 된다.The lower part of FIG. 6 shows that a semantic unit term is generated for each meaning of the natural language expression (06-02). The unique ID is a representative semantic unit term used in the present invention and is made by adding a natural language representative expression and a semantic serial number. Unique ID is created separately for each meaning. Looking for Hong Gil-dong on a particular social network service (SNS), there are 641 people with the same name. In Hong Gil-dong_1, 1 is the semantic serial number. After that, if a new Honggil-dong is found, it will be Honggil-dong_642 using the largest meaning serial number. If the semantic unit term is used instead of the natural language, it is 100% at the search accuracy rate of 1/641 in Hong Gil-dong.
도 7은 생성된 고유ID가 어떤 방식으로 사용되는 지를 보여준다. 생성된 의미단위용어는 기존 자연어를 대체하는 것이 아니라 추가된다. 자연어에 고유ID가 추가 된 형태를 "고유ID+"라고 한다. 고유ID+는 명확한 표현을 위한 고유ID 외에 사용자를 위해 자연어 표현도 포함된 개념이다.7 shows how the generated unique ID is used. The generated semantic unit term is added instead of replacing the existing natural language. The form of adding unique ID to natural language is called "unique ID +". Unique ID + is a concept that includes a natural language expression for the user in addition to the unique ID for clear expression.
도 8은 고유ID 사전의 개념적 구조이다. 고유ID 테이블에는 대표표현과 고유ID 값이 들어있고 해당 고유ID의 의미에 대한 1줄짜리 설명과 자세한 설명이 들어 있다. 한 줄짜리 설명은 많은 고유ID가 동시에 나열될 때 사용되며 설명은 해당 고유ID 하나만 볼 때 충분한 공간이 있는 상태에서 사용한다. 보통 자연어와 고유ID는 1대 다수의 관계이지만 하나의 실체에 대해 여러 가지 표현이 있을 수 있다. 이런 경우에 대표표현이 아닌 기타표현들은 기타 자연어 표현에 입력한다.8 is a conceptual structure of a unique ID dictionary. The unique ID table contains a representative expression and a unique ID value, and contains a one-line description and a detailed description of the meaning of the unique ID. The one-line description is used when many unique IDs are listed at the same time, and the description is used when there is enough space to see only one unique ID. Usually, natural language and unique ID are one-to-many relationship, but there can be many expressions for one entity. In this case, other expressions that are not representative expressions are entered in other natural language expressions.
도 9는 의미단위 용어를 생성하는 것을 보여주는 순서도이다. 의미단위용어의 생성 대상은 지구 모든 언어의 모든 품사들이다. 인명 지명 등 모든 고유 명사도 포함되기 때문에 그 숫자는 적어도 100억 이상이 된다. 용어 생성 요청을 하기 전에 사용자는 사전 찾기를 통해 이미 같은 의미에 대한 용어가 존재하는지 확인하는 것이 보통이다. 사용하려는 자연어 표현과 자연어 표현이 동일하고 의미도 동일한 용어가 있으면 용어 생성의 필요성은 없다. 사전 찾기에서 원하는 의미의 용어를 찾았지만 자연어 대표표현이 다르고 기타 표현에도 원하는 자연어 표현이 없으면 의미단위용어 변경을 통해 기타 표현에 사용하려는 자연어 표현을 추가하고 해당의미단위용어를 사용하면 된다. 사전 찾기에서 원하는 의미를 가진 의미단위용어가 존재하고 자연어 표현이 같지는 않지만 기타 표현에 들어 있으면 해당 의미단위용어를 사용하면 된다. 의미단위용어를 생성할 필요가 있는 경우는 원하는 의미의 의미단위용어가 없는 경우이다.9 is a flowchart illustrating generating a semantic unit term. The generation of semantic unit terms is all parts of speech in all languages of the world. The number is at least 10 billion because all proper nouns, including personal names, are included. Before making a request for creating a term, it is common for a user to check the dictionary to see if a term with the same meaning already exists. If the natural language expression and the natural language expression to be used have the same terms and the same meaning, there is no need to generate a term. If the term of the desired meaning is found in the dictionary search, but the natural language representation is different and the other expression does not have the desired natural language expression, the natural term expression to be used for other expression can be added by using the meaning unit term by changing the semantic unit term. If there is a semantic unit term with the desired meaning in the dictionary search and the natural language expression is not the same, but it is included in other expressions, the semantic unit term can be used. When it is necessary to create a semantic unit term, there is no semantic unit term with a desired meaning.
용어를 생성하기 위해서는 자연어 표현과 해당 자연어 표현의 특정 의미에 대한 설명이 입력되어야 한다(09-01). 용어 생성 단계는 입력된 자연어 표현에 해당 자연어 표현의 의미 일련 번호를 연결하여 새로운 의미단위용어를 생성한다. 입력되는 자연어 표현을 특정 의미의 자연어 대표표현으로 한정하면 본 발명에서 정의한 의미단위용어인 고유ID가 생성된다(09-02). 용어가 생성되면 생성된 의미단위용어와 획득된 설명을 쌍으로 하여 의미단위용어 사전 항목을 생성한다(09-03).In order to generate a term, a natural language expression and a description of a specific meaning of the natural language expression must be input (09-01). In the term generation step, a new semantic unit term is generated by connecting the semantic serial number of the natural language expression to the input natural language expression. When the input natural language expression is limited to a natural language representative expression of a specific meaning, a unique ID that is a semantic unit term defined in the present invention is generated (09-02). When the term is generated, the semantic unit term dictionary item is generated by pairing the generated semantic unit term and the obtained description (09-03).
도 10은 본 발명이 제시하는 4개의 의미단위용어와 기존의 대표적인 사전인 온톨로지 사전을 비교한다.10 compares four semantic unit terms of the present invention with an ontology dictionary, which is a typical representative dictionary.
4개의 의미단위용어(고유ID, 의미표현ID, 의미단위 GUID, 의미표현 GUID)는 본 발명의 실시 예 들이다. 이들은 기존의 의미 기반 사전이라고 할 수 있는 온톨로지 사전에 비해 용어의 정의가 아주 쉽고 사용도 매우 쉽다고 할 수 있다. 따라서 전문지식을 갖지 않는 일반사용자들이 참여해서 관심 의미단위용어를 생성하고 이 용어를 이용하여 새로운 문서정보체계를 구축할 수 있다. 만약 예를 들어 AAA라는 자연어가 3가지 의미가 있다면 고유ID를 만들기 위해서는 AAA_1, AAA_2, AAA_3 3가지 용어를 만들고 각각에 대한 설명을 작성하는 노력이면 AAA라는 자연어에 대한 고유ID 사전 생성 작업은 완료된다. 4가지 의미단위용어의 모양은 다를 수 있지만 기본적으로 사용자가 필요한 지식이나 입력하여야 하는 정보는 비슷한 수준이다. 자연어 체계 속에서 만들어 지기 때문에 완전히 새로운 언어를 만드는 노력과 지식이 필요하지 않다.Four semantic unit terms (unique ID, semantic expression ID, semantic unit GUID, semantic expression GUID) are embodiments of the present invention. These terms are very easy to define and very easy to use compared to ontology dictionaries, which can be called conventional semantic dictionaries. Therefore, general users who do not have expertise can participate in generating semantic unit terms of interest and build new document information system using these terms. For example, if the natural language AAA has three meanings, the effort to create three terms AAA_1, AAA_2, and AAA_3 to create a unique ID, and write a description for each one is completed. . The four semantic unit terms may have different shapes, but basically, the knowledge required by the user or the information to be input is similar. Because it is created in the natural language system, it does not require the effort and knowledge to create a completely new language.
세상에 AAA,BBB 2가지 자연어만 있고 각각이 2가지의 의미가 있다고 할 때 생각할 수 있는 의미단위 용어 생성 방법은 The semantic unit term generation method can be considered when there are only two natural languages in the world and each has two meanings.
1. AAA_1, AAA_2, BBB_1, BBB_2 로 명명하는 것이 고유ID방식이며 시스템이 각 자연어 별로 의미 일련 번호를 유지하여야 한다. 1. Named AAA_1, AAA_2, BBB_1, BBB_2 is a unique ID method and the system must maintain a semantic serial number for each natural language.
2. word_1, word_2, word_3, word_4 와 같이 명명하였다면 전체 일련 번호를 유지하여야 한다.2. If you name it word_1, word_2, word_3, word_4, you must keep the entire serial number.
3. 아주 큰 숫자를 4개 생성하는 GUID 방식이 있을 수 있으며 전체 일련 번호를 유지할 필요가 없다. 아주 큰 숫자이기 때문에 이름이 중복될 가능성이 없다는 점을 이용한 방식이다. 3. There may be a GUID method for generating four very large numbers, and there is no need to keep the entire serial number. This is a very large number, so there is no possibility of duplicate names.
고유ID 방식은 자연어 별로 일련번호를 유지하고 사용하는 방식이다. 사용자의 읽고 기억하는 측면에서 가장 좋은 방식이다. 고유ID는 본 발명에서 제안하는 대표적인 의미단위용어이다. 자연어 표현을 의미단위로 분할하는 과정은 이해하기가 쉽다. 반면에 다양한 표현을 하나의 의미단위용어로 만드는 것은 자연어 대표표현이라는 개념이 도입되어야 하므로 일반 사용자에게 약간은 불편할 수 있다. 예를 들면 많은 뉴스에서 오바마 대통령이 Barack Obama로 표현되지만 Barack Hussein Obama, Barack Hussein Obama II, Barack, Obama 로 표현되는 경우들도 있다. 이런 각각의 표현에 대해 용어를 생성하면 의미표현ID가 된다. 의미표현ID는 의미단위용어는 아니기 때문에 의미단위용어가 되기 위해서는 의미단위로 병합하는 과정이 필요하다. 의미표현ID를 의미단위로 병합한 것을 의미병합ID라고 한다. 내용상으로 보면 의미병합ID는 고유ID에 해당하고 의미표현ID는 고유ID+에 해당한다. 고유ID방식과 의미표현ID방식을 비교하면 의미표현ID가 용어 생성 노력이 몇 배로 많이 소요된다. 의미단위가 아닌 표현 단위로 필요 없이 설명을 작성하여 용어 사전을 크게 하고 사용자를 불편하게 한다. 고유ID+는 별도의 용어 설명을 갖지 않는다는 것을 보면 고유ID 방식의 효율성을 확인할 수 있다.Unique ID is a method of maintaining and using serial numbers for each natural language. This is the best way to read and remember the user. Unique ID is a representative semantic unit term proposed by the present invention. The process of dividing natural language expressions into semantic units is easy to understand. On the other hand, making various expressions as one semantic unit term may be a little inconvenient for general users because the concept of natural language representation should be introduced. For example, in many news, President Obama is represented as Barack Obama, but there are also cases where it is expressed as Barack Hussein Obama, Barack Hussein Obama II, Barack, and Obama. Creating a term for each of these expressions results in a semantic expression ID. Since the semantic expression ID is not a semantic unit term, it is necessary to merge the semantic unit into a semantic unit term. The merge of semantic expression ID into semantic unit is called semantic merge ID. In terms of content, the semantic merge ID corresponds to a unique ID and the semantic expression ID corresponds to a unique ID +. Comparing the unique ID method and the semantic expression ID method, the semantic expression ID requires several times the term generation effort. It makes the term dictionary large and the user uncomfortable by writing explanations without the need for expression units rather than semantic units. The unique ID + does not have a separate term description can confirm the efficiency of the unique ID method.
고유ID는 용어의 수가 작아 용어 생성 노력이 제안된 의미단위용어 중에 가장 작고 기억하여 사용하기도 편하다는 점에서 가장 권장되는 의미단위용어 방식이다. 오바마 대통령의 경우 자연어 대표 표현은 Barack Obama이고 Barack Hussein Obama, Barack Hussein Obama II, Barack, Obama는 기타 표현이다. 생성되는 고유ID는 시스템이 보유한 해당 자연어 표현의 의미일련번호가 1이라고 가정하면 Barack_Obama_1이 된다. “Barack Hussein Obama”로 표현된 오바마 대통령은 [“Barack Hussein Obama”: barack_obama_1]이 된다. 대괄호로 둘러싸인 부분이 고유ID+이며 의미표현ID에 대응되는 개념이다. The unique ID is the most recommended semantic unit terminology in that the term generation effort is the smallest among the proposed semantic unit terms and is easy to remember and use. For President Obama, the natural language representation is Barack Obama, while Barack Hussein Obama, Barack Hussein Obama II, Barack, and Obama are other expressions. The generated unique ID becomes Barack_Obama_1 assuming that the semantic serial number of the corresponding natural language expression possessed by the system is 1. President Obama, represented as “Barack Hussein Obama,” becomes [“Barack Hussein Obama”: barack_obama_1]. The part enclosed in square brackets is a unique ID + and corresponds to a semantic expression ID.
본 발명의 고유ID는 다음과 같은 의미가 있다. 고유ID는 자연어의 불명확성 제거를 위해 탄생하였고 자연어의 다양한 의미 각각에 대해 용어가 생성되어 만들어 진다. 가장 대표적인 의미단위용어이며 다른 단어들과 혼동하게 하는 주범인 인명, 지명 등등 모든 고유명사 포함하여 의미단위로 분할한다. 모든 언어, 모든 품사를 포함하는 글로벌 세트 60억 인구 각각이 별도의 고유ID 항목이 되어야 하기 때문에 최소한 100억 이상의 방대한 규모이다. 자연어를 기반으로 누구나 쉽게 생성 가능하기 때문에 일반 사용자들에 의해 용어 생성 및 주석 작업이 가능하다. 고유ID는 풍부한 사전을 갖는 정밀한 언어이다. 새로운 용어가 실제 정착되고 힘을 갖기 위한 전제 조건은 모든 기존 문서를 고유ID로 주석할 수 있어야 한다. 주석 방법이 없으면 가치가 없다. 본 발명에서는 주석 방법이 제시되었다. 이렇게도 해석되고 저렇게도 해석되는 자연어가 검색엔진, 언어번역, 시맨틱 웹, 인공지능(AI), 분류의 기반이 될 수 없다. 결국 고유ID+가 검색엔진, 언어번역, 시맨틱 웹, AI, 분류의 기반이 될 것이다. 고유ID는 기존 자연어 표현에 없는 개념을 만드는 경우에도 자연어에 의존하는 생성방식을 유지한다. 새로운 개념을 위한 자연어 표현을 생성하고 생성된 자연어 표현에 근거하여 고유ID를 만든다. 본 발명에서는 의미단위용어에 대한 상세한 설명을 고유ID를 이용해서 설명한다. 의미표현ID나 의미단위 GUID의 실시가 고유ID의 실시와 크게 달라서 반드시 별도의 설명이 필요한 경우를 제외하고는 별도의 설명을 하지 않는다.Unique ID of the present invention has the following meaning. Unique ID was created to remove the ambiguity of natural language, and terms are created for each of the various meanings of natural language. It is the most representative semantic unit term, and it is divided into semantic units including all proper nouns such as names, place names, etc., which are confused with other words. The global set of 6 billion people, including all languages and all parts-of-speech, must be a separate, unique ID item, at least 10 billion. Anyone can easily create based on natural language, so general users can create and annotate terms. Unique ID is a precise language with a rich dictionary. The prerequisite for the new term to actually be established and empowered is to be able to annotate all existing documents with unique IDs. It is not worth it without the annotation method. In the present invention, a tin method is presented. Naturally interpreted and interpreted in this way cannot be the basis for search engines, language translation, semantic web, artificial intelligence (AI), and classification. Eventually, unique ID + will be the basis for search engines, language translation, semantic web, AI, and classification. The unique ID maintains the generation method that depends on the natural language even when creating a concept that does not exist in the existing natural language expression. Create a natural language representation for the new concept and create a unique ID based on the generated natural language representation. In the present invention, a detailed description of the semantic unit term is described using a unique ID. Since the implementation of semantic expression ID and semantic unit GUID is very different from the implementation of unique ID, a separate explanation is not necessary unless a separate explanation is necessary.
도 11은 의미단위용어를 직관적으로 분류하고 계층화하여 관리하는 방법을 보여준다. 의미단위용어의 분류는 분류의 대상이 의미단위용어라는 것을 의미한다. 의미단위용어가 소속하게 되는 분류명도 의미단위용어가 사용된다. 분류명은 자연어, 의미단위용어 및 자연어와 의미단위용어의 혼합된 형태가 사용 가능하다. 의미단위용어는 0 이상의 분류 명을 가질 수 있으며, 의미단위용어의 분류 명은 어느 때나 추가되거나 삭제될 수 있으며, 분류 명은 용어에서 사용하기 전에 미리 정의되어 있을 필요가 없으며, 용어 생성 또는 용어 변경 시에 기존에 없던 분류 명을 입력하면 새로운 분류 명이 자동으로 등록되며, 하나의 분류 명은 0이상의 분류에 소속되어 계층화하며, 용어의 분류 및 계층의 구조는 이견이 있는 경우 토론과 같은 집단지성을 통해 정밀화하는 직관적인 의미단위용어 분류 방법이다.11 illustrates a method of intuitively classifying, layering, and managing semantic unit terms. The classification of semantic unit terms means that the object of classification is a semantic unit term. The semantic unit term is also used for the classification name to which the semantic unit term belongs. Classification names can be natural, semantic, or mixed forms of natural and semantic terms. The semantic unit term may have a classification name of 0 or more, and the classification name of the semantic unit term may be added or deleted at any time, and the classification name does not need to be defined before use in the term, and when the term is created or the term is changed. If you enter a classification name that has not existed before, a new classification name is automatically registered, and one classification name belongs to more than 0 classifications and hierarchies. If there is disagreement, the classification and hierarchical structure of terms can be refined through group intelligence such as discussion. Intuitive semantic term classification method.
의미단위용어를 생성하거나 변경하는 과정에서 용어의 분류 필드에 분류명을 입력하면 해당용어는 해당 분류명에 속하게 된다(11-01). 용어 분류는 검색을 통해 대량으로 진행될 수 있다. 의미단위용어 사전을 검색하여 선택한 용어들을 특정의 분류에 소속하는 방식으로 진행된다(11-02). 분류는 계층적인 구조를 가질 수 있다. 계층적인 구조는 두 분류명을 선택하여 상하관계를 설정하여 만들어진다. 이러한 상하관계 설정은 반복되면 복잡한 계층 구조를 갖게 된다(11-03). 이렇게 설정된 의미단위용어 분류는 오류와 같은 변경 사항이 발견되면 변경될 수 있다 (11-04). 의미단위용어의 분류는 자연어가 변천 발달하는 것처럼 많은 사람의 참여 하에 진행된다. 의미단위용어의 분류가 많은 사람에 의해 발전하여 갈 수 있도록 토론 항목을 설정하고 토론하고 투표하는 절치가 제공된다(11-05).If a classification name is entered in the classification field of a term while generating or changing a semantic unit term, the term belongs to the classification name (11-01). The term classification can proceed in bulk through search. The semantic unit term dictionary is searched and the selected terms belong to a specific classification (11-02). Classification can have a hierarchical structure. The hierarchical structure is created by selecting two classification names and setting up a hierarchical relationship. This hierarchical relationship setting has a complicated hierarchical structure when it is repeated (11-03). This semantic unit term classification can be changed if a change such as an error is found (11-04). The classification of semantic unit terms proceeds with the participation of many people as natural language develops. Procedures for setting up, discussing, and voting are provided so that the classification of semantic unit terms can be developed by many people (11-05).
도 12는 의미단위용어가 길고 기억하기 힘들 때 사용할 수 있는 용어별칭을 만들고 사용하는 의미단위용어 용어별칭 사용 방법을 보여준다. 용어별칭의 적용대상이 의미단위용어이며 용어별칭은 개인이나 특정 집단 또는 인터넷에 대하여 만들고 사용된다. 용어별칭은 적용 집단, 용어별칭, 의미단위용어 3가지 정보를 이용하여 작성이 된다(12-01). 특정 집단의 용어별칭을 사용하려면 해당집단의 용어별칭들을 개인의 용어별칭 목록에 수록하게 된다(12-02). 검색의 질의어나 문서 내에서 의미단위용어를 입력하는 상황에서 사용자가 용어별칭을 입력하면 실제 질의어가 수행되거나 문서가 저장되기 전에 이를 해당하는 의미단위용어로 번역하여 준다(12-03).FIG. 12 illustrates a method of using a semantic unit term term alias to create and use a term alias that can be used when a semantic unit term is long and difficult to remember. Terms apply to semantic terminology, and term aliases are created and used for individuals, specific groups, or the Internet. The term alias is created using three pieces of information: applied group, term alias, and semantic unit term (12-01). To use a terminology of a group, the group's term aliases are listed in the individual's terminology list (12-02). When a user enters a term alias in the context of entering a search term or a semantic unit term in the document, the actual query term is executed or translated into the corresponding semantic unit term before the document is stored (12-03).
도 13은 의미단위용어 용어분할의 사용 예를 보여준다. 오바마 대통령에 대해 검색하면 너무 많은 양이 찾아진다. 이를 용어분할 단위로 세분하여 주석하고 검색할 수 있다. 그림의 예를 보면 오바마 대통령(13-01)을 대통령 시절, 상원의원 시절 및 기타에 대한 용어분할로 나누고(13-02) 각자를 또 2차 계층 용어분할 (13-03)로 나누고 있다. 검색을 통해 찾아진 문서 목록에 대해 특정 자연어 표현에 대해 용어분할 이름을 주석하면 나중에 해당 용어분할 명으로 검색이 가능하다. 상부의 의미단위용어나 용어분할로 검색하면 하부 용어분할의 내용은 자연히 포함된다. 용어분할은“의미단위용어/용어분할 명”형태에 의해 인식된다.13 shows an example of using a semantic unit terminology division. Searching for President Obama finds too much. You can subdivide this into terminology units to annotate and search. In the example of the figure, President Obama (13-01) is divided into term divisions for the presidency of the president, Senator, and others (13-02), and each is divided into second-tier term divisions (13-03). If you comment out the terminology name for a particular natural language expression in the list of documents found through the search, you can search the terminology name later. Searching by upper semantic unit term or term division will naturally include the contents of the lower term division. The terminology division is recognized in the form of "meaning unit term / terminology division name".
도 14는 의미단위용어를 세분할 필요가 있을 때 특정 의미단위용어를 용어분할(segment)로 나누어 관리하고 의미단위용어 용어분할을 이용하여 세분화된 의미단위용어처럼 주석하고 검색하는데 사용하는 방법을 보여준다.FIG. 14 illustrates a method of managing specific semantic unit terms by dividing them into term segments when necessary to subdivide semantic unit terms, and using them to annotate and search like semantic unit terms subdivided using semantic unit term terms. .
분할하려는 의미단위용어와 용어분할 이름을 입력하고 용어분할 요청을 하면 의미단위용어 용어분할이 이루어 진다(14-01). 용어분할은 한 계층만이 아닌 여러 개의 층으로 이루어질 수 있다. 분할하려는 용어분할 이름을 입력하고 생성하려는 하위 용어분할 이름을 입력하면 하부 계층의 용어분할을 만들 수 있다(14-02). 용어분할이 생성된 다음에 이것을 이용하여 문서 또는 검색 시스템 색인에 주석을 하면(14-03) 검색질의어에 용어분할을 이용해서 검색할 수 있다(14-04).Entering the semantic unit term and term division name to be divided and requesting the term division, the semantic unit term term division is performed (14-01). The terminology division may consist of several layers, not just one. By entering the name of the terminology to be split and the name of the child terminology to be created, the terminology of the lower hierarchy can be created (14-02). Once a term split has been created, it can be used to annotate a document or search system index (14-03) and search for the term using the term split (14-04).
도 15는 의미단위용어 용어그룹을 보여준다. 용어그룹을 정의하면 용어그룹 명을 이용해서 검색 질의어를 만들 수 있다. 그림의 예에서 질의어“2010대한고3학년1반_Grp"로 검색하면 “홍길동_1”로 찾은 결과와 “김길동_1”로 찾은 결과가 합쳐져서 목록을 보여준다. 용어그룹 명은 _Grp로 끝나는 형태에 의해 인식된다. 의미단위용어 용어그룹은 용어분할과 달리 문서나 검색 시스템 색인에 주석하기 위한 용도는 없다. 자연어에 비해 의미단위용어는 정밀한 언어이다. 의미단위언어는 계속 더 정밀화의 방향으로 발전할 수 있다. 따라서 의미단위용어로 검색을 하면 소수의 문서만이 검색될 수 있다. 적당한 크기로 개념 또는 검색 결과를 증가시키는 방법으로 그룹을 이용할 수 있다. 2010년 대한고 졸업생 관련 기사를 찾으려면 해당 졸업생 목록을 찾아야 하고 각각 검색을 하여야 한다. 이 용어그룹 기능은 2단계 작업을 편하게 한번에 수행할 수 있는 수단을 제공한다.15 shows semantic unit terminology group. If you define a term group, you can create a search query using the term group name. In the example shown in the figure, the search term “2010 Korea High School Grade 1 _Grp” shows the list of the results found with “Hong Gil Dong_1” and the results found with “Kim Gil Dong_1”. Semantic unit terminology The term group, unlike terminology, has no use for annotating documents or search system indexes, and semantic unit terms are more precise language than natural language. Thus, if you search in semantic terms, only a small number of documents can be searched in. Groups can be used to increase concepts or search results at a reasonable size. A list of graduates should be found and each one searched, and this term group function provides a convenient way to perform two-step tasks at once.
도 16은 의미단위용어 용어그룹을 만들고 이를 사용하는 방법을 보여준다. 그룹화 대상 의미단위용어 또는 그룹 목록, 생성할 그룹 명 및 그룹 설명을 입력하고 의미단위용어 용어그룹 생성 요청을 하면 입력된 항목들을 이용하여 용어그룹을 생성한다(16-01). 생성된 용어그룹은 검색 질의어에서 사용할 수 있다. 검색 질의어에 포함된 용어그룹은 의미단위용어 질의어로 변환되어 검색이 진행된다(16-02). 자연어는 의미가 불명확하기 때문에 검색에 있어서 지식을 누적시킬 수 있는 대상이 아니다. 다양하게 활용할수록 오차가 확대되기 때문이다. 의미단위용어는 정밀하고 검색 정확률을 100%에 근접시킬 수 있기 때문에 다양한 방법으로 활용이 가능하다.Figure 16 shows how to create a semantic unit term group and use it. After inputting a semantic unit term or group list to be grouped, a group name to be created, and a group description, and requesting to create a semantic unit terminology group, a term group is generated using the input items (16-01). The created term group can be used in search queries. The term group included in the search query is converted into a semantic unit term query and the search is performed (16-02). Natural language is not an object that can accumulate knowledge in search because its meaning is unclear. This is because the error is widened as it is used in various ways. Semantic unit terminology can be used in various ways because it is precise and close to 100% of search accuracy.
도 17은 독립된 주석기(의미단위용어 주석기)를 중심으로 작성된 의미단위용어 기반 정보 체계를 보여준다. 의미단위용어 기반 정보 체계에는 문서 작성기, 검색 시스템 및 문서정보체계 구축부에도 주석을 위한 장치들이 들어 있다. 여기서는 독립적인 주석기에 대해 주로 설명하고 검색 시스템 내의 검색 주석기를 설명하는 부분에서 전체 주석기에 대해 종합적으로 설명이 된다. 의미단위용어 주석기는 모든 장치(문서 작성기, 검색 시스템, 체계 구축기)에게 주석 기능을 제공한다.17 shows a semantic unit term-based information system written around an independent commenter (a semantic term term commenter). The semantic unit term-based information system includes a device for annotating document builders, retrieval systems, and document information system construction units. In this section, the independent commenter is mainly described, and the overall commenter is comprehensively described in the section describing the search commenter in the search system. Semantic unit term commenter provides comment function to all devices (document writer, retrieval system, system builder).
C.의미단위용어 주석기는 자연어 표현에 의미단위용어를 주석하기 위한 장치이며 C1.주석지식 관리부, C2.기본값 관리부, C3.지식 기반 주석부, C4.색인 기반 문서 주석부 및 C5.주석 관리부로 구성되어 있으며 의미단위용어 사전 관리기와 함께 사용된다. C. Mean unit term commenter is a device for annotating semantic unit term in natural language expression.It is C1.Annotation knowledge management unit, C2.Default management unit, C3.Knowledge-based annotation unit, C4.Index-based document annotation unit and C5.Annotation unit. It is composed and used with the semantic unit dictionary manager.
C.의미단위용어 주석기를 독립적인 주석기라고 하는 것은 특정 장치에 종속되지 않고 사용될 수 있다는 의미이다. 검색 주석기는 강력한 주석장치이지만 검색기에 종속되어 있기 때문에 이 독립된 주석기에서 분리되어 있다. 독립된 주석기는 다른 장치들에 호출되어 다양한 방식으로 사용된다.C. Semantic terminology Commentators are called independent commenters, meaning they can be used without being dependent on a particular device. The search commenter is a powerful commenting device, but is separate from this independent commenter because it depends on the searcher. Independent commentators are called on different devices and used in a variety of ways.
주석지식은 1)주석조건, 2)주석 대상 자연어 표현, 3)주석될 의미단위용어로 구성된다. 이 주석지식을 생성, 수정, 삭제하여 관리하는 것이 C1.주석지식 관리부이다. Annotation knowledge consists of 1) comment conditions, 2) natural language expressions to be commented, and 3) semantic unit terms to be commented on. C1.Annotation Knowledge Management Unit is responsible for creating, modifying and deleting this annotation knowledge.
C2.의미단위용어 기본값 관리부는 개인 또는 각 집단별로 기본값을 생성하고 관리한다. 기본값은 특정인이나 집단이 특정 자연어 표현에 대해 가장 많이 사용하는 의미단위용어를 말한다. 여러 집단의 기본값이 적용될 때 일반적으로 소속인원이 작은 집단의 기본값이 소속인원이 많은 집단보다 우선 적용되는 것이 보통이다. 이런 관점에서 개인의 기본값이 가장 우선이고 회사나 분야 같은 집단이 그 다음 우선순위를 차지하고 모든 사람이 소속한 인터넷이 가장 낮은 우선순위를 갖는다. 기본값을 사용하는 개인은 어떤 기본값들을 적용할 것인가를 결정하여 사용한다.C2. Meaning unit default value management department creates and manages default value for individual or group. The default value is the semantic unit term that a particular person or group uses the most for a particular natural language expression. When the default values of several groups are applied, it is common for the group with the smallest number of members to take precedence over the group with the large number of members. In this respect, the individual's default is the highest priority, groups such as companies or sectors come first, and everyone's Internet has the lowest priority. Individuals using default values decide which default values to apply.
C3.지식 기반 주석부는 주석지식 및 기본값을 이용하여 자연어 표현에 의미단위용어를 주석하는 장치이다. 지식 기반 주석부는 문서, 색인 및 질의어를 대상으로 수행된다. 즉 자연어를 입력하는 모든 부분에서 주석을 위해 사용이 된다. 자연어를 입력하는 곳에서 호출하거나 정기적으로 수행되는 에이전트의 형태로 사용될 수 있다. 자동 주석의 형태로 수행될 수 있다.C3.Knowledge-based comment section is a device that annotates semantic unit terms in natural language expression using annotation knowledge and default value. Knowledge base annotations are performed on documents, indexes and queries. That is, it is used for annotation in all parts of natural language input. It can be called from where natural language is input or used in the form of an agent that is executed regularly. It can be done in the form of automatic annotation.
주석지식이 충분히 누적되면 모든 주석을 자동으로 수행할 수 있는 장치이다. 지식기반 주석부는 수행될 때 주석지식과 기본값을 적용한다. 주석지식이 없는 상황에서 기본값을 적용하는가 않는가 여부는 설정에 의해 결정된다. 기본값은 가장 사용빈도가 높다는 의미이며 정확성이 기준 이상이라는 것을 의미하지는 않기 때문이다.When annotation knowledge is accumulated enough, all annotations can be automatically performed. Knowledge base annotations apply annotation knowledge and default values when run. Whether or not to accept defaults in the absence of annotation knowledge is determined by the configuration. The default value means the highest frequency of use and does not mean that the accuracy is above the standard.
C4.색인 기반 문서 주석부는 색인에 있는 정보를 이용하여 문서를 의미단위용어 기반으로 바꾸는 장치이다. 색인에 있는 정보를 사용하기 위해서는 대상 문서가 이미 검색 시스템 색인에 포함된 문서이어야 한다. 문서가 의미단위용어 기반으로 만들어 저 있으면 색인의 해당 부분이 의미단위용어 기반으로 바꿀 수 있고 역으로 색인의 정보가 의미단위용어 기반화 되어 있으면 해당 문서를 의미단위용어 기반화 할 수 있다. 이 장치는 이미 존재하는 정보를 형태 변환하는 장치라고 할 수 있다.C4. Index-based document Annotation unit is a device that converts a document into semantic term based on information in the index. In order to use the information in the index, the target document must already be included in the search system index. If the document is based on semantic unit terminology, the relevant part of the index can be changed to semantic unit term base. Conversely, if the information in the index is based on semantic unit terminology, the document can be based on semantic unit terminology. This device can be said to be a device for type conversion of existing information.
C5.주석 관리부는 모든 주석을 보여주고 내용을 검토하여 주석 오류를 수정할 수 있게 하는 장치이다. 내 주석 관리부는 자신이 만든 주석지식에 의해 추가된 주석, 자신의 검색 주석에 의해 추가된 주석 등을 주석일자 순으로 볼 수 있으며 오류가 있으면 수정하는 기능을 제공한다.C5.Annotation management unit is a device that shows all the comments and reviews the contents so that the comment errors can be corrected. My comment manager can view comments added by the comment knowledge that you created, comments added by your search comment, etc. in the order of comment date.
도 18은 개인(발명자 홍길동)의 기본값의 예이다. 헤딩부분은 자연어이며 헤딩 아래의 내용은 해당 자연어의 다양한 의미(다양한 의미는 곧 고유ID를 의미)를 나타낸다. 채색된 고유ID는 특정인의 자연어에 대한 의미단위용어 기본값이다. 기본값은 자연어의 여러 가지 의미 중에 특정 값을 지정하고 있다. 그림에서 자연어 홍길동의 기본값은 홍길동_1(발명자 홍길동)으로 설정되어 있고 operation은 operation_3(운용)으로 설정되어 있고 눈은 눈_1(Eye)로 설정되어 있다. 기본값을 적용하는 설정이 되어 있으면 이 기본값 DB의 내용에 따라 사용자가 위의 자연어를 입력하면 시스템은 자동으로 기본값인 해당 고유ID값을 주석해 준다.18 is an example of a default value of an individual (inventor Hong Gil-dong). The heading part is a natural language, and the content below the heading indicates various meanings of the natural language (various meanings mean unique IDs). The colored unique ID is the default semantic unit term for the natural language of a specific person. The default value specifies a specific value among several meanings of natural language. In the figure, the default value of natural language Hong-gil-dong is set to Hong-gil-dong_1 (inventor Hong-gil-dong), operation is set to operation_3 (operation), and eyes are set to eye_1 (Eye). If there is a setting to apply the default value, the system automatically annotates the unique ID value, which is the default value when the user enters the above natural language according to the contents of this default DB.
도 19는 특정 사용자에 해당하는 기본값들의 예이다. 인터넷 차원의 기본값, 각 집단(분야)의 기본값 및 개인의 기본값이 있을 수 있다. 이들의 우선순위는 개인>소속 집단>인터넷이다. 보통 인터넷 전체에 대한 기본값이 가장 우선순위가 낮으며 소집단일수록 높은 우선순위를 갖는 것이 일반적이다. 따라서 개인의 기본값이 가장 높은 우선순위를 갖는다. 자기가 소속한 집단들의 수와 우선순위는 각 사용자가 결정하거나 시스템에서 설정할 수 있다. 문서를 작성하면서 문서 분야를 미리 설정하면 해당 분야의 기본값이 적용된다. 일반적으로는 우선순위가 높은 것일수록 일부의 자연어에 대해 기본값을 갖고 우선순위가 낮을수록 많은 자연어에 대한 기본값을 갖는 것이 일반적이다. 인터넷은 전체 자연어에 대해 기본값을 갖는다. 19 is an example of default values corresponding to a specific user. There may be default values at the Internet level, default values for each group, and individual default values. Their priorities are individuals> groups> the Internet. Usually, the default value for the entire Internet is the lowest priority, and smaller groups usually have higher priority. Therefore, the individual's default has the highest priority. The number and priority of groups they belong to can be determined by each user or set by the system. If you set the document field in advance while creating the document, the default value of the field is applied. In general, higher priority has a default value for some natural language and lower priority has a default value for many natural language. The Internet has defaults for all natural languages.
특정 자연어의 기본값이 모두 존재하면 최종 기본값은 가장 우선순위가 높은 개인의 기본값이 된다. 가장 낮은 인터넷의 기본값이 최종 기본값이 되려면 다른 집단의 기본값이 모두 존재하지 않아야 한다. 위의 그림에서 자연어 홍길동의 경우 여러 집단의 기본값이 존재하지만 가장 우선순위가 높은 개인 기본값이 종합적인 기본값이 된다. 자연어 operation의 경우 소속 집단과 인터넷의 기본값이 존재하는데 소속 집단의 우선순위가 높아서 소속 집단의 기본값이 최종 기본값이 되었다. 자연어 눈의 경우는 인터넷만 기본값이 존재해 최종 기본값이 되었다.If all natural default values exist, the final default value is that of the highest priority individual. In order for the lowest Internet default to be the final default, all other group defaults must not exist. In the picture above, in the case of natural language Hong Gil-dong, there are several default values, but the highest priority personal default value is the comprehensive default value. In the case of natural language operation, the default values of the group and the Internet exist. In the case of natural language eyes, only the Internet has a default value, which is the final default value.
도 20은 자연어 표현에 대한 의미단위용어 기본값 결정 절차를 보여준다. 먼저 각 집단의 기본값을 결정하고 기본값의 적용 대상에 포함되는 집단들의 우선 순위를 결정하는 순서로 진행된다. 각 집단은 자연어 표현 별 의미단위용어의 사용빈도를 기록하고 가장 높은 사용빈도를 갖는 의미단위용어를 해당 자연어 표현의 의미단위용어 기본값으로 정한다(20-01). 검색 질의어 작성 중이거나 문서의 소유자가 지정되어 있어 개인이 알려져 있는 경우 특정 자연어 표현에 대한 의미단위용어를 개인의 기본값으로 적용한다(20-02). 개인 기본값 적용단계에서 해당하는 기본값이 존재하지 않고 문서의 소속집단(분야)이 지정되어 있는 경우 해당 자연어 표현에 대한 의미단위용어를 해당 집단의 기본값으로 적용하며 해당 집단이 한 개 이상인 경우 소속원 수가 작은 집단에 우선권을 적용한다(20-03). 집단 기본값 적용단계에서 해당하는 기본값이 존재하지 않는 경우 해당 자연어 표현에 대한 의미단위용어를 인터넷의 기본값으로 적용한다(20-04).20 shows a procedure for determining a semantic unit default value for natural language expressions. First, the default value of each group is decided, and the order of priority of the groups included in the application of the default value is determined. Each group records the frequency of use of semantic unit terms by natural language expression and sets the semantic unit term with the highest frequency of use as the semantic unit term default value of the natural language expression (20-01). If a person is known because a search query is being made or the owner of a document is specified, the semantic unit term for a specific natural language expression is applied as the person's default (20-02). If the default value does not exist and the group (field) of the document is specified in the application of personal default value, the semantic unit term for the natural language expression is applied as the default value of the group. Apply priority to groups (20-03). If the corresponding default value does not exist in the group default application step, the semantic unit term for the natural language expression is applied as the default value of the Internet (20-04).
도 21은 주석지식 테이블의 개념적 구조를 보여준다. 보통 주석지식의 3가지 요소 중 첫 번째인 주석조건은 여기서 검색 질의어를 말한다. 이 주석지식을 설명하면 다음과 같다.21 shows a conceptual structure of an annotation knowledge table. Usually the first of three elements of comment knowledge, the comment condition refers to the search query. This commentary knowledge is explained as follows.
이 주석지식이 검색엔진에서 수행되면 검색 주석과 같은 역할을 한다. 검색 엔진에서 “President Obama”로 검색하고 찾아진 문서들에 대해 Obama에 고유ID barack_obama_1 를 색인 상에서 주석한다. 이 주석지식이 문서상에서 수행되면 문서 내에서 “President Obama”를 찾아 Obama를 Obama:barack_obama_1 로 변환한다.When this annotation knowledge is performed on a search engine, it acts like a search annotation. The search engine searches for “President Obama” and annotates the unique ID barack_obama_1 in the index for the found documents. When this annotation knowledge is performed on a document, it finds a "President Obama" in the document and converts the Obama to Obama: barack_obama_1.
도 22는 하나의 자연어에 여러 가지 주석지식이 적용되는 상황을 설명한다. 많은 주석지식의 적용 결과가 다를 수 있다. 이런 경우 더 상세한 정보가 적용된다. 어느 것이 더 상세한가 여부는 검색 결과 건수가 작은 것이 상세한 주석지식이다.“Barack Hussein Obama I”이 검색하면 가장 작은 건수를 갖는다. 하나의 자연어 표현에 적용할 수 있는 주석지식이 여러 개일 때 적용 우선 순위는 지정할 수 있다. 검색 질의어는 자연어뿐이 아니라 고유ID+, 대상 사이트, 분야, 기간 등등 고급 검색에서 사용되는 많은 정보가 포함될 수 있다.22 illustrates a situation in which various annotation knowledge is applied to one natural language. The results of applying many annotations knowledge may differ. In this case, more detailed information applies. Which is more detailed is the detailed annotation knowledge that the number of search results is small. “Barack Hussein Obama I” has the smallest number. When there are several annotations that can be applied to one natural language expression, the application priority can be specified. The search query can contain not only natural language but also a lot of information used in advanced search such as unique ID +, target site, field, date range and so on.
도 23은 주석지식을 검색을 통해 검증하고 주석지식으로 등록하는 주석지식 생성 절차를 보여준다. 자연어/의미단위용어 표현, 연산자, 기간, 사이트, 분야, 카테고리 등 검색 질의어 문법이 허용하는 문구를 이용하는 검색 질의어를 획득하여 검색을 수행한다(23-01). 검색 결과를 보여주고 사용자 검토 이후에 검증을 거친 검색 질의어, 주석 대상 자연어 표현, 주석하려는 의미단위용어 및 주석지식에 대한 설명과 함께 주석지식 생성 요청을 받는다(23-02). 검증을 거친 검색 질의어, 주석 대상 자연어 표현, 주석하려는 의미단위용어를 내용으로 하는 주석지식과 주석지식ID를 생성하고 주석지식, 주석지식ID 및 설명을 합하여 주석지식 항목을 생성한다(23-03).23 shows an annotation knowledge generation procedure of verifying annotation knowledge through search and registering it as annotation knowledge. The search is performed by acquiring a search query using phrases allowed by the search query grammar, such as a natural language / meaning term expression, an operator, a period, a site, a field, a category (23-01). After displaying the search results and receiving the user's review, the user is asked to create an annotation knowledge along with the verified search query word, the natural language expression to be commented, the semantic unit term to be commented, and the annotation knowledge (23-02). Annotated knowledge and annotated knowledge ID are created that contain the verified search query word, the natural language to be annotated, the semantic unit term to be commented, and annotated knowledge item is created by combining the annotated knowledge, annotated knowledge ID, and description (23-03). .
도 24는 지식 기반 주석부가 주석지식과 기본값을 적용하는 순서를 보여준다. 주석지식은 지식기반 주석부가 수행될 때 반드시 적용되는 정보이며 기본값은 적용하라는 설정이 있는 경우에만 적용된다. 기본값은 주석지식에 비해 부정확한 정보이다. 따라서 지식 기반 주석부가 수행이 될 때 주석이 없는 상태로 놔두는가 기본값을 적용하는가 여부는 설정에 의해 결정된다. 기본값을 적용하는 경우에 적용순서는 주석지식>개인 기본값>집단 기본값>인터넷 기본값 순이다. 우선 순위가 높은 의미단위용어가 있으면 그것이 해당 자연어의 의미단위용어 주석에 사용된다. 없으면 다음 순위의 의미단위용어를 사용한다. 주석처리에 사용되는 의미단위용어가 정확하지 않으면 사용자가 이를 수정하여야 한다.24 shows a sequence in which the knowledge base annotation unit applies annotation knowledge and default values. Annotation knowledge is information that is applied when knowledge base annotations are performed. The default value is applied only if there is a setting to apply. The default value is inaccurate information compared to annotation knowledge. Therefore, whether the knowledge base comment is left uncommented or the default is applied is determined by the configuration. In order to apply the default values, the order of application is annotation knowledge> personal default> group default> Internet default. If there is a higher priority semantic unit term, it is used in the semantic unit term annotation of the natural language. If not, the semantic unit term of the next rank is used. If the semantic unit term used in the annotation processing is not correct, the user must correct it.
도 25는 문서나 질의어를 대상으로 지식 기반 주석부가 수행되어 주석을 하는 절차를 보여준다. 색인을 대상으로 하는 작업은 검색 시스템의 도움을 받아 처리를 하지만 문서나 질의어의 경우에는 검색 시스템이 개입되는 작업이 아니다. 따라서 그 절차는 아주 상이하다. 먼저 주석을 하려는 자연어 표현을 선택하여 지식 기반 주석 요청을 한다(25-01). 해당 자연어 표현에 대한 주석지식 DB를 검색하여 적용할 주석지식을 찾는다(25-02). 검색된 주석지식을 자연어 표현에 적용한다 (25-03). 주석지식이 없고 기본값 적용 설정이 되어 있는 경우 의미단위용어 기본값을 적용한다(25-04).FIG. 25 illustrates a process of annotating by performing a knowledge base annotation on a document or query word. Indexing works with the help of the search system, but in the case of documents or queries, the search system is not involved. Thus the procedure is very different. First, select a natural language expression to be commented and make a knowledge-based comment request (25-01). Search the annotation knowledge DB for the natural language expression to find the annotation knowledge to apply (25-02). Apply retrieved annotation knowledge to natural language representations (25-03). If there is no comment knowledge and the default is set, the semantic unit term default is applied (25-04).
도 25는 문서 전체를 주석하는 절차가 아니며 문서 내의 특정 자연어 표현을 주석하는 절차이다. 이 절차는 문서 전체 주석 장치에 의해 호출될 수도 있고 사람이 특정 자연어를 선택한 후 주석 요청을 하여 호출될 수 있다. 주석지식은 기본적으로 검색 시스템 질의어에서 생성되는 것이 일반적이다. 따라서 모든 주석지식이 자연어 표현의 주석에 사용될 수 있는 것은 아니다. 주석지식은 검색 시스템이 없는 상태에서 적용 가능한가 여부를 검사하는 기능에 의해 표시되기 때문에 적용성 여부는 미리 확인이 가능하다. 해당하는 주석지식이 하나가 아니라 다수인 경우 어느 것을 먼저 수행하는가 하는 문제는 주석지식 자체가 정보를 보유한다. 일반적으로 우선순위는 검색을 수행하면 결과 건수가 작은 것이 정밀하다고 판단하여 우선 순위를 갖는다.25 is not a procedure of annotating the entire document, but annotating a specific natural language expression in the document. This procedure can be invoked by the document-wide commenting device, or by a person selecting a specific natural language and then requesting a comment. Annotation knowledge is typically generated from search system queries by default. Therefore, not all annotation knowledge can be used for annotation in natural language expressions. The annotation knowledge is indicated by a function that checks whether it is applicable in the absence of a search system, so the applicability can be confirmed in advance. If the corresponding annotation knowledge is not one but multiple, which one is to be performed first is the annotation knowledge itself. In general, priority has priority because it is determined that a small number of results is accurate when a search is performed.
도 26은 색인을 대상으로 주석지식을 수행하는 절차를 보여준다. 일반적으로 주석지식은 검색주석을 수행하고 검색주석 내용을 저장한 것이 주석지식이다. 따라서 주석지식은 수행하면 이전의 검색 주석에서 수행한 것과 중복된 작업이 수행된다. 하지만 검색 시스템 색인은 항상 변화한다. 신규문서들이 추가되는 것이 가장 큰 원인이다. 사람이 신규 문서들이 추가될 때마다 검색 주석을 수행하는 것은 매우 불편하다 하지만 검색 주석 당시의 내용을 저장해 놓으면 정기적으로 자동 수행되도록 할 수 있다. 주석지식을 수행할 때는 재상이나 적용 기간을 바꾸기 위해 이전 주석지식의 내용을 일부 수정하여 수행할 수 있다. 26 shows a procedure of performing annotation knowledge with respect to an index. In general, the annotation knowledge is the annotation knowledge that performs the search comment and stores the content of the search comment. As a result, annotation knowledge is a duplication of what you've done in previous search annotations. But search system indexes are always changing. Adding new documents is the biggest reason. It is very inconvenient for a person to perform a search annotation each time new documents are added, but if you save the contents at the time of the search annotation, it can be automatically performed regularly. When performing annotation knowledge, you can modify some of the content of the previous annotation knowledge in order to change the length of time or reenactment.
주석지식ID와 변경요소를 입력하여 색인을 대상으로 하는 주석지식 수행 요청을 한다(26-01).요청된 주석지식은 수행하기 전에 변경요소들을 반영하기 위해 수정이 된다(26-02).변형된 주석지식을 수행하여 해당하는 색인항목을 찾아낸다 (26-03).찾아낸 색인항목에 주석지식에 포함된 의미단위용어를 주석한다(26-04).A comment knowledge request for indexing is entered by inputting a comment knowledge ID and a change element (26-01). The requested comment knowledge is modified to reflect the change elements before execution (26-02). (26-03) .Annotate the semantic unit terms included in the annotation knowledge (26-04).
도 27은 색인 기반 문서 주석부가 색인 정보만을 이용하여 문서 주석을 하는 것을 보여준다.27 shows that an index-based document annotation unit annotates a document using only index information.
보통 검색 주석기나 주석기는 색인에 의미 정보를 누적하는 데 반해서 색인 기반 문서 주석부는 색인에서 정보를 추출하여 주로 자연어 문서에 적용하는 용도로 사용된다. 의미단위용어 색인기와 역방향 작업을 하는 장치이다. 문서에 의미단위용어 주석을 하기 위해서는 일반적으로 주석지식과 기본값을 사용하는 지식 기반 주석부가 사용된다. 반면에 색인 기반 문서 주석부는 주석지식이 아닌 색인에 누적된 정보를 이용한다. 의미단위용어 기반 색인에는 검색 주석기 또는 주석기에 의해 의미단위용어 주석이 누적된다. 색인에 저장된 정보는 주석지식에서 얻을 수 있는 정보보다 많을 수 있다. 검색 주석으로 의미단위용어 주석을 하고 주석 내용을 주석지식으로 생성하지 않으면 색인의 의미정보가 주석지식의 정보보다 많은 것은 당연하다. 반면에 색인 정보는 신규문서에는 전혀 적용할 수 없다. 따라서 색인의 의미 관련 정보와 주석지식의 의미정보는 각기 다른 특성이 있다. 색인 기반 문서 주석부는 색인 기반 문서정보체계 구축부가 호출하여 주로 사용하는 장치이며 문서 작성기가 호출하여 사용할 수도 있다.In general, the search commenter or commenter accumulates semantic information in the index, while the index-based document commenter is used to extract information from the index and apply it to natural language documents. It is a device that works backwards with semantic unit term indexer. To comment semantic terminology on a document, knowledge base annotations are typically used, using annotation knowledge and default values. Index-based document annotations, on the other hand, use information accumulated in the index, not annotation knowledge. In semantic unit term-based index, semantic unit term annotations are accumulated by search commenter or commenter. The information stored in the index may be more than what can be obtained from annotation knowledge. It is natural that the semantic information of the index is more than that of the annotation knowledge unless the semantic unit term annotation is used as a search annotation and the contents of the annotation are not generated as annotation knowledge. Index information, on the other hand, is not applicable to new documents at all. Therefore, semantic information of index and semantic information of annotation knowledge have different characteristics. The index-based document annotation unit is called and used mainly by the index-based document information system builder. It can also be called and used by the document writer.
도 28은 검색 시스템에 색인이 되어 있는 문서 내의 특정 자연어 표현에 의미단위용어를 주석하는 절차를 보여준다. 문서는 색인에 포함되어 있지만 문서 내 특정 자연어에 대한 의미단위용어 주석이 꼭 되어 있지는 않다. 이 그림은 검색 시스템 색인의 정보, 주석지식 및 기본값과 같이 이용할 수 있는 모든 정보를 이용하여 특정 자연어 표현에 의미단위용어를 주석하는 절차를 보여준다. 색인에 포함된 문서의 경우 가장 풍부하고 정확한 정보는 색인에서 얻는 주석 정보이다. Fig. 28 shows a procedure for annotating semantic unit terms to specific natural language expressions in documents indexed to a retrieval system. Documents are included in the index, but they do not necessarily have semantic term comments for specific natural languages in the document. This figure shows the procedure for annotating semantic terminology to a specific natural language expression using all available information, such as information in the search system index, annotation knowledge, and default values. For documents included in the index, the richest and most accurate information is the annotation information from the index.
색인에서 해당 문서 내의 해당 자연어 표현에 대한 정보를 추출하여 의미단위용어 주석을 한다(28-01). 색인에서 정보를 얻지 못하면 주석지식 DB를 검색하여 해당 자연어 표현에 대한 주석지식을 찾아내고 이를 적용하여 해당 자연어 표현에 의미단위용어를 주석한다(28-02). 주석지식에 해당하는 정보가 없고 기본값 설정이 되어 있는 경우 해당 자연어 표현에 대한 의미단위용어 기본값을 적용한다(28-03).The semantic unit term annotation is extracted by extracting information on the natural language expression in the document from the index (28-01). If the information is not obtained from the index, the annotation knowledge DB is searched to find the annotation knowledge of the natural language expression, and the semantic unit term is annotated in the natural language expression (28-02). If there is no information corresponding to the annotation knowledge and the default value is set, the default semantic unit term for the natural language expression is applied (28-03).
도 29는 의미단위용어(고유ID+) 기반 정보체계의 규모를 보여준다. 자연어의 불명확성을 증가시키는 주요 원인은 고유명사이다. 모든 고유명사를 포함한 자연어가 반드시 유일한 의미단위용어를 가져야 언어가 가지는 불명확성을 제거할 수 있다. 전세계의 현존하는 인구 수가 60억인 것을 고려하면 어느 정도 정착되는 시기의 의미단위용어 수는 고유 명사만 고려한 상태에서도 최소한 100억 이상이 될 것이다. 문서정보체계의 현재 최대 검색 시스템의 규모를 생각하면 오래지 않은 미래에 EXA Byte 단위가 될 것으로 생각된다. 기본값은 최소 자연어 하나당 한 개의 기본값이 존재하여야 하며 주석지식도 자연어 1개 당 하나의 복합 주석지식이 필요하다. 이러한 방대한 구축 규모는 인터넷을 의미단위용어로 바꾸는 작업이 소수의 전문가에 의해 진행될 수 없는 작업임을 나타낸다. 인터넷을 의미단위용어 기반으로 만드는 작업은 자연어처럼 모든 인터넷 사용자가 참여하고 같이 변화되어 가는 집단 지성에 의존하는 방식일 수밖에 없다는 것을 알려준다. 본 발명은 사용자가 쉽게 참여할 수 있는 구조로 되어 있다.29 shows the scale of a semantic unit term (unique ID +) based information system. Proper nouns are the main cause of increasing the ambiguity of natural language. Natural language, including all proper nouns, must have unique semantic terminology to eliminate the ambiguity of the language. Considering that the existing population of the world is 6 billion, the number of semantic units at the time of settlement will be at least 10 billion, even considering proper nouns. Considering the size of the current maximum retrieval system of the document information system, it is expected to be in the unit of EXA byte in the not too long time. There should be at least one default value per natural language, and annotation knowledge requires one compound annotation knowledge per natural language. This vast scale of construction indicates that the work of converting the Internet into semantic unit terms cannot be done by a few experts. Making the Internet based on the semantic unit terminology shows that, like natural language, it can only be a way for all Internet users to participate and rely on the changing collective intelligence. The present invention has a structure in which a user can easily participate.
도 30은 의미단위용어(고유ID+) 기반 정보체계를 구축하는 여러 가지 접근 방식을 보여준다. 접근 방법에 따라서는 인터넷의 의미단위용어 기반화가 가능할 수도 있고 불가능할 수도 있다. 개인 단위로 분해하여 개인들이 인터넷을 분해하여 자신이 필요한 만큼의 작업을 하도록 만드는 것이 체계 구축의 유일한 방법이다. 하지만 개인 차원으로 작업을 할 때에도 개인에게 불균등하게 많은 부담이 주어지는 방식은 안 된다. 체계 구축 초기에 개인이 자신이 만든 문서의 전체단어를 주석하게 하면 정상적인 진행이 되기 어렵다. 하나의 문서에는 많은 단어들이 사용된다. 전체 주석 건수와 무관하게 많은 단어들을 처리하려면 많은 노력이 들어간다. 사실상 주석건수와 개인의 노력이 비례하는 것이 아니라 사용 고유ID 수에 비례하여 노력이 들어간다. 문서 단위의 주석은 많은 고유ID를 사용한다는 문제점과 주석작업의 혜택이 자신에게 돌아가지 않는다는 문제점이 있다. 자신이 작성한 문서는 자신이 잘 아는 내용이므로 의미 혼동의 문제 없고 따라서 의미를 명확히 하는 작업에서 본인이 혜택을 받지는 않는다. 개인별 고유ID별 구축 방식은 전체 구축의 부담이 개인차원으로 분배되고 균등하게 분배된다는 장점을 갖는다. 자신이 구축작업이 본인에게 혜택이 돌아간다. 자신의 관심 키워드, 자신의 관심 의미에 대한 주석 작업이기 때문이다. 검색을 통한 고유ID 단위 주석 작업은 개인의 문서 전체단어에 대한 주석 방식보다 수천만 배 효율적인 경우들도 있다.30 illustrates various approaches for building a semantic unit term (unique ID +) based information system. Depending on the approach, it may or may not be possible to base semantic terms on the Internet. The only way to build a system is to decompose it into individual units so that individuals can decompose the Internet and do as much work as they need. But even when working at the individual level, it should not be a way of unevenly burdening individuals. In the early stages of system construction, if an individual comments on the entire word of his or her document, it is difficult to proceed normally. Many words are used in one document. It takes a lot of effort to process many words regardless of the total number of comments. In fact, the number of comments is not proportional to the effort of the individual, but is proportional to the number of unique IDs used. Document-level comments have the problem of using many unique IDs and the benefits of commenting do not benefit them. Since the documents you write are the ones you know well, there is no problem of meaning confusion, and therefore you do not benefit from clarifying meaning. The construction method for each unique ID has the advantage that the burden of the entire construction is distributed evenly to the individual level. The work you build will benefit you. This is because it is a commentary on the keywords of their interest, their interest. Searching for unique ID units via search is often tens of millions of times more efficient than annotating a person's entire word.
도 31은 문서 단위 주석과 검색 주석 방식 예를 들어 생산성을 비교하였다. 위의 예에서 고유ID 단위 주석 방식이 문서단위 주석방식보다 23,000,000배 높은 생산성을 가진다. 정보체계 전체에 대한 주석 요구량은 일정하다. 따라서 주석 생산성이 새로운 체계 구축의 가장 중요한 척도이다. 고유ID 단위 주석이 새로운 체계의 구축을 가능하게 하는 핵심장치이다. 보통 이것은 에이전트로 생성되어 새로운 문서들에 대해 정기적으로 수행된다.31 compares the document unit annotation and the search annotation scheme, for example, productivity. In the above example, the unique ID unit annotation method has 23,000,000 times higher productivity than the document unit annotation method. The annotation requirements for the entire information system are constant. Therefore, tin productivity is the most important measure of new system construction. Unique ID unit annotation is a key device that enables the construction of a new system. Normally this is generated by the agent and performed regularly for new documents.
도 32는 수작업 주석 방식 문서 작성기와 자동 주석 방식 문서 작성기를 보여준다.32 shows a manual annotation type document builder and an automatic annotation type document writer.
문서 작성기는 기본적으로 의미단위용어 사전 관리기만 있으면 의미단위용어 기반 문서를 작성할 수 있다. 자연어로 문서를 작성하고 의미단위용어 사전 찾기를 수행하여 각 의미단위용어에 대한 설명을 참조하여 원하는 의미단위용어를 선택하면 된다. 하지만 수작업 방식 문서 작성기기 실제 사용될 가능성은 작다. 문서 작성자는 자연어에서 의미혼동을 겪는 당사자가 아니기 때문이며 수작업 주석 작업이 불편한 방식이기 때문이다(32-01). 문서 작성기는 충분한 주석지식이 누적된 시기부터 자동주석 방식으로 의미단위용어 주석이 되고 문서 작성자는 주석 내용을 검토하고 일부 수정하는 역할을 하게 될 것이다. 자동 주석 방식에서 자연어로 작성된 문서는 주석지식과 기본값을 이용해 자동 주석이 된다. 자동 주석이 된 후 문서 작성기는 주석된 의미단위용어에 대한 사전 설명을 보여주고 어느 주석지식 또는 기본값에 의해 주석이 되었는지 보여준다(32-02).A document writer can basically create a semantic term-based document with only a semantic term dictionary manager. You can create a document in natural language and search the semantic unit term dictionary to select the desired semantic unit term by referring to the description of each semantic unit term. However, it is unlikely that a manual document writer will actually be used. This is because document authors are not parties to semantic confusion in natural language, and manual commenting is inconvenient (32-01). The document composer will become the semantic terminology comment in the form of automatic commenting from the time when sufficient comment knowledge is accumulated, and the document composer will review and partially revise the comment content. Documents written in natural language in the autocomment format are autocommented using annotation knowledge and default values. After automatic commenting, the document writer displays a dictionary description of the semantic terminology that was commented out, and which commentary knowledge or default value was commented on (32-02).
도 33은 지식 기반 주석부의 자동 주석 기능의 도움을 받아 의미단위용어 기반 문서를 작성하는 절차를 보여준다.33 illustrates a procedure of creating a semantic unit term-based document with the help of the automatic annotation function of the knowledge base comment unit.
먼저 자연어로 문서를 작성한다. 주석지식은 하나의 단어만 입력한 상태에서 주석을 도와주는 장치는 아니다. 기본값은 하나의 단어만 있는 상태에서도 권장하는 의미단위용어를 제시할 수 있지만 정확률이 높은 주석지식 활용을 방해하므로 자연어 문서를 완상한 후에 주석을 시작하는 것이 정상적인 방법이다(33-01). 자동 주석 기능을 호출하여 자연어 문장에 주석기의 주석지식과 의미단위용어 기본값을 적용하여 개별 자연어 표현마다 의미단위용어를 주석한다(33-02). 자동 주석 기능이 작성한 주석에 오류가 있으면 해당 부분을 선택하고 변경요청을 하여 수정 절차를 시작하면 해당 자연어에 대한 사전 찾기를 통해 해당 자연어에 대한 의미단위용어 목록을 보여준다(33-03). 사용자가 목록에서 해당하는 의미단위용어를 선택하면 선택한 용어로 주석을 변경한다(33-04). 만약 의미단위용어 목록에서 해당하는 용어가 없으면 용어를 생성한 후에 생성한 용어로 주석을 변경한다(33-05).First, write the document in natural language. Annotation knowledge is not a device that helps annotate with only one word entered. Although the default value can suggest recommended semantic terms even when there is only one word, it is normal to start a comment after completing a natural language document because it prevents the use of highly accurate annotation knowledge (33-01). Invoke the automatic comment function to apply the commenter's annotation knowledge and semantic unit defaults to natural language sentences to annotate semantic unit terms for each natural language expression (33-02). If there is an error in the comment made by the auto comment function, select the relevant part and start the modification process by requesting the change. Then, the dictionary search for the natural language shows a list of semantic unit terms for the natural language (33-03). When the user selects the corresponding semantic term from the list, the comment is changed to the selected term (33-04). If there is no corresponding term in the semantic unit term list, change the comment to the term after creating the term (33-05).
도 34는 도 1에서 검색 시스템만 중점적으로 보여주고 다른 부분은 단순화시킨 그림이다. J.의미단위용어 기반 문서정보체계 구축기는 검색 시스템의 결과만을 이용하는 장치이라서 검색 시스템의 성능과 별 관련이 없어서 여기서는 삭제하였다. 이 그림의 구성은 의미단위용어 기반 색인의 내용을 채워주는 모든 주석 장치가 포함되어 있다.FIG. 34 shows only a search system in FIG. 1 and simplifies other parts. The J. semantic term-based document information system builder is a device that uses only the results of the retrieval system and is not related to the performance of the retrieval system. The plot consists of all the annotation devices that populate the content of the semantic term-based index.
도 35는 색인 상에서 주석을 도와주는 장치가 없다. 따라서 색인 상의 모든 의미단위용어 정보는 의미단위용어 기반 문서로부터 얻어야 한다. 따라서 수집되는 문서 자체가 완전한 의미단위용어 기반 문서이어야 한다. 사용자들이 자연어가 아닌 의미단위용어를 일상생활에서 쓰는 수준이 되어야 이 구성도가 작동 가능할 정도로 실제 잘 작동되기는 어려운 구성도이다.35 does not have an apparatus for assisting annotation on the index. Therefore, all semantic terminology information in the index should be obtained from semantic terminology based documents. Therefore, the collected document itself must be a complete semantic term-based document. It is difficult to actually work well enough for users to use semantic unit terms in their daily lives instead of natural words.
도 36은 기본적인 의미 기반 검색 시스템에 의미단위용어 기반 검색 주석기가 추가되어 있는 구성도이다. 주석에 도움을 주는 장치 중에 주석기만이 누락되어 있는 상태이다. 주석기가 가지고 있는 주석지식을 반복 수행해주는 기능을 사용하지 못한다는 문제점을 제외하면 검색 시스템 관점에서는 완성되어 있다고 할 수 있다. 에이전트처럼 새로 색인에 추가되는 신규문서들에 대해 과거 수행되었던 검색 주석 내용을 반복 수행하지 못하면 사람의 검색 주석 반복 수행 불편이 크다고 할 수 있다. 따라서 의미단위용어 주석이 불완전해 질 가능성이 있다. 이러한 기능이 검색 주석기 자체에 포함된다면 검색 시스템 측면에서는 완성되었다고 할 수 있다. 하지만 검색 시스템을 넘어서 검색 주석지식을 활용하는 구조가 없다는 것은 완전한 의미단위용어 기반 정보 체계를 만드는데 큰 장애가 될 수 있다.36 is a block diagram of a semantic unit term-based search commenter added to a basic semantic based search system. Only the commenter is missing among the devices that help the comment. Except for the problem that the commenter cannot repeat the annotation knowledge, it can be said that it is completed from the point of view of the search system. If you do not repeat the contents of previous search annotations on new documents that are newly added to the index, such as agents, it may be inconvenient for people to repeatedly perform search annotations. Therefore, semantic unit term annotations may be incomplete. If these features are included in the search commenter itself, then the search system is complete. However, the absence of a structure that utilizes search annotation knowledge beyond the search system can be a major obstacle to creating a complete semantic term-based information system.
도 37은 검색 시스템 자체에 검색 주석기가 없지만 외부에 의미단위용어 주석기가 존재하고 있다. 이 구성은 의미단위용어 주석기가 얼마나 완벽한가에 전체 검색 시스템의 성능이 좌우된다. 검색 주석기에 의해 검증된 내용들이 주석지식이 되고 주석지식의 완성 여부가 의미단위용어 주석기 성능의 핵심요소라는 점에서 의미단위용어 주석기도 한계를 가질 수 있다. 이 구성에 있어서는 주석기가 일정부분 검색 주석기의 기능을 포함하여야 정상적으로 작동된다고 할 수 있다.In FIG. 37, there is no search commenter in the search system itself, but a semantic unit term commenter exists outside. This configuration depends on the completeness of the semantic unit term commenter and the performance of the entire search system. The semantic unit term commenter can also have limitations because the contents verified by the search commenter become the annotation knowledge and the completion of the annotation knowledge is a key element of the semantic unit term commenter performance. In this configuration, it can be said that the commenter includes the function of the search commenter to operate normally.
도 38은 메타 방식의 검색 시스템이다. 자체적인 문서 수집기와 색인기가 없다. 따라서 외부 검색 엔진에서 검색을 하여 주석을 한 후 자체 의미단위용어 기반 색인에 기록한다. 이 방식은 초기에 쉽게 시스템을 만들 수 있다는 장점이 있으나 반면에 심각한 제약도 있다. 예를 들어 “President Obama”로 검색되는 문서 중에서 Obama에 주석이 되어 있지 않은 단어를 골라 barack_obama_1을 주석하라는 검색 주석 명령은 외부 시스템에서 받아야 하는 자료가 1억 건에 가깝다. 이미 99%가 주석이 되어 있는 상황이면 1%만 가져와서 처리하면 되지만 100%를 다 받아와서 처리하여야 하는 큰 문제점이 있다. 또한 외부 검색 시스템과 협조가 잘 되는가 하는 문제점도 크다.38 is a meta search system. It doesn't have its own document collector and indexer. Therefore, the search is done by an external search engine, annotated, and recorded in its own semantic term-based index. This approach has the advantage of making the system easier at first, but there are some serious limitations. For example, a search comment command to select a word that is not annotated in Obama among the documents searched as “President Obama” and comment out barack_obama_1 has nearly 100 million pieces of data to be received from an external system. If 99% is already annotated, only 1% needs to be imported and processed, but there is a big problem that 100% must be received and processed. There is also a big problem with how well it works with external search systems.
도 39는 기본적인 기능만을 갖는 의미단위용어 기반 검색 시스템의 작동 방법을 보여준다. 이 방법은 기본 기능만 가지고 있어 색인의 의미단위용어 정보가 의미단위용어 기반 문서로부터 얻어진다. 이 외에는 색인의 의미단위용어 정보를 추가시켜주는 수단을 제공하지 않는다. 검색 시스템은 검색 대상에 포함되는 문서들을 수집하며 수집되는 문서들이 의미단위용어 정보를 충분히 포함하고 있는지 여부가 검색 시스템의 의미단위용어 기반화 수준을 결정한다(39-01). 수집된 문서들을 자연어와 의미단위용어에 대해 색인을 한다(39-02). 색인에 저장된 자연어 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색한다(39-03).39 illustrates a method of operating a semantic unit term based search system having only basic functions. This method has only basic functions, and the semantic terminology information of the index is obtained from the semantic terminology based document. Other than this, it does not provide a means to add semantic terminology information of the index. The search system collects documents included in the search target, and whether the collected documents sufficiently include semantic unit term information determines the semantic unit term base level of the search system (39-01). Index the collected documents against natural and semantic terms (39-02). Searching for natural words and semantic unit terms stored in the index using query terms including semantic unit terms and natural language expressions (39-03).
도 40은 수집된 문서와 검색 주석으로부터 의미단위용어 정보가 얻어지는 의미단위용어 기반 검색 시스템의 작동 방법을 보여준다.40 illustrates a method of operating a semantic unit term based search system in which semantic unit term information is obtained from collected documents and search annotations.
검색 시스템은 검색 대상에 포함되는 문서들을 수집한다(40-01). 수집된 문서들을 자연어와 의미단위용어에 대해 색인을 한다(40-02). 주석 대상을 찾기 위한 질의어, 주석 대상 자연어 표현 및 주석될 의미단위용어와 함께 검색 주석 요청을 받아 해당 질의어로 검색한 결과에 포함된 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석한다(40-03). 색인에 저장된 자연어 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색한다(40-04).The search system collects documents included in the search object (40-01). Index the collected documents against natural and semantic terminology (40-02). Receives a search annotation request along with a query to find an annotation object, a natural language expression to be commented, and a semantic unit term to be annotated, and annotates the semantic unit term on the search system index to the natural language expression included in the search result of the query. -03). Search the natural language and semantic unit terms stored in the index by query words including semantic unit terms and natural language expressions (40-04).
도 41은 수집된 문서와 주석지식으로부터 의미단위용어 정보가 얻어지는 의미단위용어 기반 검색 시스템의 작동방법을 보여준다. FIG. 41 illustrates a method of operating a semantic unit term-based retrieval system for obtaining semantic unit term information from collected documents and annotation knowledge.
검색 시스템은 검색 대상에 포함되는 문서들을 수집한다(41-01). 수집된 문서들을 자연어와 의미단위용어에 대해 색인을 한다(41-02). 특정 조건에서 특정 자연어 표현이 어떤 의미가 있다는 정보를 갖고 있는 주석지식을 이용하여 자연어 표현에 의미단위용어를 주석한다(41-03). 색인에 저장된 자연어 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색한다 (41-04).The search system collects documents included in the search object (41-01). Index the collected documents against natural and semantic terms (41-02). Annotated semantic terms in natural language expressions are annotated using annotation knowledge that has information that certain natural language expressions have meaning under certain conditions (41-03). Search for natural words and semantic unit terms stored in the index using query terms including semantic unit terms and natural language expressions (41-04).
도 42는 색인기를 중심으로 작성된 구성도이다. 색인기 이외의 부분은 단순화되어있다. Fig. 42 is a configuration diagram created around the indexer. Parts other than the indexer are simplified.
색인기는 수집된 문서들로부터 색인을 만드는 일을 담당한다. 의미단위용어 기반 색인은 색인에 의미단위용어 필드가 추가되었다. 의미단위용어 기반 문서에 들어있는 의미단위용어 주석은 추가된 필드에 기록이 된다. 검색 주석기도 이 필드에 의미단위용어를 기록하는 작업이다. 색인기가 이 부분을 채우지 못하면 검색 주석기 또는 주석기가 이 부분을 채움으로써 의미단위용어 기반화 한다. 자연어가 의미가 하나인 경우는 반드시 주석을 할 필요가 없다. 자연어 자체가 의미단위용어의 역할도 같이 할 수 있다.The indexer is responsible for indexing the collected documents. Semantic term-based indexes have a semantic term field added to the index. Semantic term comments in a semantic term-based document are recorded in the added field. The search commenter also records the semantic terms in this field. If the indexer fails to fill this part, the search commenter or commenter fills this part to base the semantic unit term. If the natural language has only one meaning, it is not necessary to comment. Natural language itself can also play a role as a semantic unit term.
도 43은 고유ID+ 색인의 개념적 구조를 보여준다. 이 그림은“홍길동”으로 검색하여 찾은 특정 문서(43-02)의 2번째 홍길동에 대한 색인(43-01)이다. 그림 좌측 표의 자연어 표현 필드와 고유ID 필드 2개 필드 값이 합쳐지면 고유ID+ 값을 형성한다. 결국 이 색인은 고유ID+ 값에 대한 문서 위치 색인이다.43 shows a conceptual structure of a unique ID + index. This figure is the index (43-01) of the second Hong Gil-dong of a specific document (43-02) found by searching for "Hong Gil-dong". When the natural language expression field and the unique ID field of the left table of the figure are combined, the unique ID + value is formed. After all, this index is the document location index for the unique ID + value.
도 44는 색인 상에서 고유ID 방식과 의미표현ID 방식이 어떻게 처리되는지 보여준다. 오른편 문서는 “길동” 검색어로 찾은 특정 문서(44-02)이며 왼편 표는 길동에 대한 색인(44-01)이다. 2번째 필드인 의미단위용어 필드에 들어가는 값이 왼편 아래 표에 나와있다(44-03). 문장에서 같은 인물인 홍길동이 홍길동과 길동 두 가지로 표현되었다. 이 경우 고유ID는 두 가지 표현에 같은 ID를 사용하고 의미표현ID는 다른 ID가 사용된다.44 shows how the unique ID scheme and the semantic expression ID scheme are handled on an index. The document on the right is the specific document (44-02) found with the search term "gil" and the table on the left is the index (44-01) for the kildong. The value entered in the semantic unit term field, the second field, is shown in the table below on the left (44-03). In the sentence, the same person, Hong Gil-dong, is expressed in two ways, Hong-gil-dong and Gil-dong. In this case, the unique ID uses the same ID in both expressions, and the semantic expression ID uses a different ID.
도 45는 의미단위용어 기반 색인 방법을 보여준다. 색인 장치는 수집된 문서에 포함된 각 단어에 대해 의미단위용어 필드를 공란으로 하여 검색 시스템 색인을 만든다(45-01). 해당 단어에 의미단위용어 주석이 되어 있는 경우 해당 단어 색인 항목의 의미단위용어 필드에 해당 의미단위용어를 기록한다(45-02).45 illustrates a semantic unit term-based indexing method. The indexing device creates a search system index (45-01) with a semantic unit term field blank for each word included in the collected document. If a semantic unit term annotation is included in the word, the semantic unit term is recorded in the semantic unit term field of the word index item (45-02).
도 46은 여러 장치에 속해 있는 모든 주석 장치들을 보여준다. 앞의 의미단위용어 주석기 부분에서는 독립적인 주석기 부분에 대해 설명이 되었지만 여기서는 모든 주석기 장치들에 대해서 설명한다. 도 46는 도 1과 다른 부분이 있다. 검색 주석기(46-01)와 검색기(46-02)에 의미단위용어 질의어 주석부가 포함되어 있다. 검색을 위해서는 질의어가 작성되어야 하고 질의어도 의미단위용어 주석의 대상이다. 질의어는 극히 짧은 문장이기 때문에 주석 측면에서 중요도는 낮다. 보통 문서 주석의 일 부분으로서 취급된다. 검색 주석기의 경우 검색 후에 주석을 한다. 검색 주석기의 검색 부분은 검색기와 거의 같은 기능을 사용한다. 따라서 검색 주석기에도 질의어가 사용되며 검색 주석기의 질의어도 검색기의 질의어처럼 의미단위용어 주석의 대상이다. 46 shows all annotation devices belonging to various devices. In the previous section on semantic unit terminology commenters, the independent commenter section is described, but all commenter devices are described here. 46 is different from FIG. 1. The semantic unit term query term comment unit is included in the search commenter 46-01 and the searcher 46-02. To search, a query term must be prepared, and the query term is also the target of semantic term term annotation. Because query words are very short sentences, they are less important in terms of comments. It is usually treated as part of the document comment. In the case of search commenters, comments are made after the search. The search portion of the search commenter uses much of the same functionality as the searcher. Therefore, the query is used in the search commenter, and the query word in the search commenter is the target of semantic unit term annotation like the query word in the searcher.
주석 장치의 이름에는 문서라는 말이 많이 들어간다. 문서는 여러 가지 의미가 있으면 이를 정확히 이해하여야 한다. 문서는 때로는 “문서 검색 주석”의 의미로 사용된다. 이때는 반대 개념이 “단어 검색 주석”이다. 문서는 주석의 대상을 의미하기도 한다. 문서에 주석을 기록하는 의미에 대해 반대 개념은 색인에 대한 기록이다. 의미단위용어 문서 주석부의 문서는 주석 대상이 색인이 아니라 문서라는 것을 의미한다. 문서 검색 주석부의 문서는 문서 단위 기록을 한다는 의미이다. 모든 검색 주석의 대상은 색인이다. Annotation devices often contain the word document. A document should understand exactly what it means in many ways. Documents are sometimes used to mean "document search comments." The opposite concept is a "word search comment". Documents also mean the subject of comments. The opposite of what it means to comment on a document is the record of the index. Semantic Unit Term Document in the comments section means that the document is annotated rather than an index. Documents in the document retrieval comments are document-level records. The target of all search comments is the index.
도 47은 도 46에 대한 설명의 일부로서 의미단위용어 기반 정보 체계의 근간을 이루는 주석 장치들에 대해 간단히 설명한다. FIG. 47 briefly describes annotation devices that form the basis of a semantic unit term-based information system as part of the description of FIG. 46.
의미단위용어 기반 정보 체계에서는 자연어 정보를 의미단위용어 기반으로 만드는 것이 핵심적인 작업이며 자연어에 의미단위용어를 덧붙이는 기능을 간단히 주석기능이라고 부른다. 주석 대상은 주석을 하는 곳을 말한다. 문서 주석, 색인 주석, 검색 질의어 주석으로 구분된다(47-01). 대상 문서는 이미 검색 시스템에 색인이 되어 검색 시스템의 기능을 이용해서 주석을 하는가 아니면 검색 시스템을 이용하지 않는 주석 방법인가를 나타낸다. 신규 문서는 색인에 포함되지 못해 검색 시스템과 무관하게 처리된다는 의미이다(47-02). 검색 주석이 나뉘는 것은 기존 검색 결과가 문서로 나열되기 때문에 발생하는 현상이다. 어느 문서의 어느 위치의 단어의 의미를 설명할 수 있어야 하는데 어느 문서의 어느 단어의 의미가 무엇이다라고 주석하는 불완전한 방식이 문서 검색 주석이다. 단어 검색 주석이 더 정밀한 방식이다(47-03). 여기서 C4.색인 기반 문서 주석부, J1.색인 기반 문서정보체계 구축부 및 J2.주석지식 기반 문서정보체계 구축부는 1단계 의미단위용어 기반 정보 체계가 이미 완성된 이후에 2차적으로 수행되는 기능이기 때문에 초기에 중요성을 갖지 못한다(47-04).In semantic unit term-based information system, making natural language information based on semantic unit term is the core task. The function of adding semantic unit term to natural language is simply called annotation function. Annotation targets are places where comments are made. It is divided into document comment, index comment, and search query comment (47-01). The target document is already indexed to the retrieval system and indicates whether it is annotated using the functionality of the retrieval system or an annotation method that does not use the retrieval system. This means that new documents are not included in the index and are processed regardless of the search system (47-02). The splitting of search annotations occurs because existing search results are listed as documents. An incomplete way to comment on what a word in a document means is what is meant by a document search comment. Word search comments are more precise (47-03). The C4 index-based document annotation unit, the J1 index-based document information system building unit, and the J2 annotation knowledge-based document information system building unit are functions that are performed secondarily after the first-level semantic unit term-based information system is already completed. It is therefore of no early importance (47-04).
문서정보체계와 색인은 어느 하나가 의미단위용어 기반화 되면 다른 것도 색인기 또는 구축기를 통해 다른 것도 쉽게 의미단위용어 기반화 할 수 있다. 먼저 의미단위용어 기반화 되어야 할 것은 문서정보체계가 아니라 색인이다. 색인의 의미단위용어 기반화가 훨씬 용이하기 때문이다. D2.의미단위용어 문서 주석부는 2차적 장치는 아니지만 색인에 대해 주석을 하는 장치가 아니라는 점에서 초기에 크게 중요성을 갖지 못한다. 의미단위용어 질의어 주석부는 주석의 양이 극히 작기 때문에 중요성이 크지 않다. 결국 C3.지식 기반 주석부, H1.문서 검색 주석부 및 H2.단어 검색 주석부가 초기의 중요 장치이다(47-05).The document information system and the index can be easily based on the semantic unit terminology when one is based on the semantic unit term. The first thing to be based on semantic unit terminology is index, not document information system. This is because the semantic unit term base of indexes is much easier. D2. Semantic terminology Document annotations are not a secondary device, but are not of great importance initially, in that they are not devices that annotate indexes. The semantic unit term query term comment is not important because the amount of comments is extremely small. After all, the C3 knowledge-based commentary, the H1. Document search commentary, and the H2. Word search commentary are the initial critical devices (47-05).
도 48은 문서 주석, 색인 주석 및 검색 질의어 주석이 실제로 적용되는 예를 보여준다. 색인 주석은 단어 검색 주석 방법이 적용되었다.48 shows an example in which document comments, index comments, and search query comments are actually applied. Index comment is applied to the word search comment method.
도 49는 단어 검색 주석과 문서 검색 주석의 차이점을 보여준다. 49 shows a difference between a word search comment and a document search comment.
단어 검색 주석은 모든 발생에 대해 기록하는 방식이며 당연한 방식이다. 문서 내에 각각의 단어에 대해 모두 주석하는 방식이다. 정확한 주석이다. 각 단어의 문서 내 발생 위치까지 기록한다. 이 방식은 기존 검색 시스템으로는 적용이 어렵다. 이런 처리를 위해 만들어진 새로운 검색 장치가 단어 검색부이다(49-01). 문서 검색 주석은 부정확한 방식이며 원래 주석은 모든 단어 차원에서 수행이 되어야 하는 데 검색이 특정 단어를 찾아주는 것이 아니라 특정 문서를 찾아주는 장치라는 점에서 원하는 정보를 얻지 못해 문제가 발생하여 생긴 방식이다. 장기적으로는 없어질 가능성이 있는 주석 방식이다. 발생 당 주석방식에 비해 홍길동은 1개만 기록하고 바다는 2개만 기록한다. 단어의 위치는 기록 안 한다(49-02).Word search comments are a way to record all occurrences and are natural. Annotate each word in the document. This is the correct comment. Record up to each occurrence of each word in the document. This method is difficult to apply to existing search systems. A new search device made for this processing is the word search section (49-01). Document retrieval comments are inaccurate and the original comment should be done at every word level, and the problem is caused by the inability to obtain the desired information because the search is not a specific word, but a device to find a specific document. It is an annotation method that may disappear in the long run. Compared to the tin method per generation, only one Hong-gil-dong and two seas are recorded. The position of words should not be recorded (49-02).
도 50은 주석을 어떤 단위로 진행할 것인가에 대한 설명이다. 이 외에도 여러 가지 방식이 있을 수 있지만 주요 항목만을 비교하였다. 지식 기반 주석부에 대한 부분은 포함하지 않았다. 주석지식이 완성되면 전체문서의 전체의미에 대한 주석 작업이 가능하다. 주석지식이 충분히 누적되었다는 것은 곧 의미단위용어 기반 정보 체계가 완성되었다는 것을 의미하기 때문이다. 초기의 가장 강력한 장치는 검색 주석기이다. 검색 주석기는 특정의미의 전체문서 단위 주석을 수행한다. 검색 주석기는 개별적인 문서의 자연어 표현 하나하나에 대해 수작업으로 주석하는 것에 비해 경우에 따라 몇천만 배의 생산성을 가질 수 있다. 이러한 방식은 의미단위용어 기반 정보체계를 가능케 하는 중요한 수단이다.50 is a description of what unit to proceed with annotation. There are many other ways, but only the main items are compared. It does not include the section on knowledge base comments. Once the knowledge of the comment is completed, it is possible to comment on the full meaning of the entire document. Accumulation of annotation knowledge means that the semantic terminology-based information system is complete. The earliest and most powerful device is the search commenter. The search commenter performs the entire document-level comment of a particular meaning. Search commentators can sometimes be tens of millions of times more productive than manual commenting on each natural language representation of an individual document. This is an important means of enabling semantic terminology based information systems.
도 51은 신규문서와 기존 문서에 대한 주석을 비교해 준다. 신규문서와 기존문서는 처리환경이 판이하다. 신규문서는 검색 시스템 색인에 포함이 안 된 것이기 때문에 색인을 대상으로 처리가 불가능한 문서이다. 신규문서 주석은 문서 그 자체에 주석을 한다. 기존 문서는 색인에 대하여 주석을 한다(51-03). 기존 문서 주석은 검색 시스템이 개입된 주석 방식이고 신규 문서 주석은 검색 시스템과 관계없이 진행되는 주석이다. 신규 문서 작성기-2는 검색 시스템 색인에 직접 기록을 하지만 색인기를 내장하고 있다는 의미이며 주석 과정에는 검색 시스템의 개입이 없는 상태에서 진행되는 작업이다. 결과를 검색 시스템의 색인에 직접 저장하였다는 것이 기존 문서 주석 방식을 이용하였다는 의미는 아니다. 문서 작성기-1의 경우에는 문서 작성기가 의미단위용어 기반 문서를 만들고 이를 수집기가 모아서 의미단위용어 기반 색인을 만든다(51-01). 문서 작성기-2의 경우에는 문서 작성기가 의미단위용어를 주석한 후 수집기에 넘기는 것이 아니라 직접 색인 작업까지 수행한다 (51-02). 색인까지 하는 방식은 주석이 된 문서를 별도로 저장하여 보관하기 어려운 상황에서 편리하게 사용할 수 있다. 보통 문서 소유자가 아니면 변경된 문서를 원본 위치에 저장할 수 없다. 이런 상황에서 변경된 문서는 보관하지 않고 변경된 내용을 직접 색인에 저장하는 방식이다.51 compares annotations for new and existing documents. New and old documents have different processing environments. Since new documents are not included in the search system index, they cannot be processed for the index. New document comments annotate the document itself. Existing documents are commented on the index (51-03). Existing document annotations are annotated with the retrieval system and new document annotations are annotations that proceed regardless of the retrieval system. The new Document Builder-2 writes directly to the search system index, but means that it has a built-in indexer, which is done without any intervention from the search system. Storing the results directly in the search system's index does not mean using the traditional document annotation method. In the case of document writer-1, the document writer creates a semantic unit term-based document, and the collector collects the semantic unit term-based index (51-01). In the case of document writer-2, the document writer does not pass the semantic terminology to the collector and then directly indexes it (51-02). The indexing method can be conveniently used in situations where it is difficult to store and keep the annotated documents separately. Normally, you cannot save a changed document to its original location unless you are the owner of the document. In this situation, the changed contents are stored directly in the index without storing the changed documents.
색인에 저장된 정보들은 언제든지 자연어 원본문서를 의미단위용어가 주석된 문서로 변환하는데 사용될 수 있다. 기존 문서 주석기들은 문서들이 색인에 포함된 상태에서 색인에 대한 주석을 수행한다. 신규 문서들도 문서 작성시까지는 아무 의미단위용어 주석 작업을 하지 않다가 색인에 포함되면 기존문서 주석기들을 이용하여 주석을 수행할 수 있다. 색인을 이용하여 주석을 하는 방식이 더 효율적인 방식이기 때문이다.The information stored in the index can be used at any time to convert a natural language document into a document annotated with semantic terms. Existing document commenters comment on the index with the documents included in the index. New documents can also be commented using existing document commenters if they are included in the index without any semantic term annotation work until the document is written. This is because annotating with indexes is more efficient.
도 52는 각 주석 장치들의 단계별 중요성을 보여준다. 초기의 방대한 기존문서는 검색 주석기와 지식 기반 주석부에 의해 주석이 될 것이며 기존 문서들이 대부분 주석이 되면 완성기에 들어서는 것이다. 완성기에서는 새로운 문서들은 지식기반 주석부의 도움을 받는 문서 작성기에 의해 주석이 될 것이다. 하지만 문서 작성기에 의한 주석이 얼마나 얼마나 이루어질 것인가 하는 것은 미지수이다. 문서 작성자 자신은 의미의 혼돈이 없어서 주석에 대한 노력이 들지 않더라도 주석을 하지 않고 자연어 문서로 그냥 방치할 가능성도 크다. 이런 경우에는 색인이 된 이후에 지식기반 주석부에 의해 주석이 진행될 것이다. 완성기에는 문서 주석부와 지식 기반 주석부가 주요한 역할을 하지만 문서 주석부에서도 사실상 지식 기반 주석부를 호출하여 사용하기 때문에 지식 기반 주석부에 의해 모든 주석이 자동으로 이루어진다고 할 수 있다.52 shows the importance of each of the annotation devices step by step. The vast majority of existing documents will be annotated by search and knowledge base annotations, and will be completed when most of the existing documents are annotated. In the finalizer, new documents will be annotated by a document writer with the help of the knowledge base commentary. However, it is not known how much comments will be made by the document writer. Even if the document author himself does not have any confusion of meaning, and there is no effort for commenting, he or she is likely to leave it as a natural language document without commenting. In this case, after indexing, the annotations will be processed by the knowledge base annotation. In the finalizer, the document annotation and knowledge base annotations play a major role, but since the document annotation portion actually calls and uses the knowledge base annotation, all annotations are automatically made by the knowledge base annotation.
도 53은 검색 주석기 중심으로 작성된 구성도이다. 검색 주석기 이외 부분을 단순화시켰다. 문서 검색 주석부는 기존 검색 시스템이 문서를 검색하는 구조로 되어 있어 강요된 부분이다. 단어 검색 기능이 추가되면 문서 검색 주석부는 필수 장치는 아니다. 주석은 문서에 추가되는 것이 아니라 특정 단어에 추가되는 행위이기 때문이다.53 is a diagram illustrating the configuration of a search annotation machine. Simplification beyond the search commenter. The document retrieval section is a forced part because the existing retrieval system has a structure for searching a document. When the word search feature is added, the document search comment is not a necessary device. This is because comments are added to certain words rather than added to the document.
도 54는 검색을 통해 찾아진 문서들을 대상으로 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하는 절차를 보여준다. 이 방법은 문서 내 어느 위치의 자연어 표현이라는 것은 명시하지 않는 방식이며 기존의 검색 기능이 문서를 검색하는 구조를 가졌기 때문에 유래한 방법이다. 자연어와 의미단위용어를 포함하는 질의어를 획득하여 문서들을 검색한다. 이 기능은 기존 검색 기능을 그대로 이용한다(54-01). 검색 결과 문서들 전체 또는 선택된 일부 문서 목록, 주석 대상 자연어 표현 및 주석될 의미단위용어에 대한 정보와 함께 검색 주석 요청을 받는다 (54-02). 선택된 문서들에 대해 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하며 해당 자연어 표현의 문서 내의 위치는 기록하지 않는다(54-03).54 shows a procedure of annotating a specific semantic unit term in an index to a specific natural language expression for documents found through a search. This method does not specify that the natural language representation of a certain position in the document is derived because the existing search function has a structure for searching the document. Retrieve documents containing natural and semantic unit terms and search documents. This function uses the existing search function as it is (54-01). A search annotation request is received (54-02), with a list of all or some selected documents, the natural language expression to be commented, and the semantic term to be annotated. For the selected documents, the semantic unit term for the natural language expression is annotated on the search system index and the position in the document of the natural language expression is not recorded (54-03).
도 55는 검색을 통해 찾아진 단어들을 대상으로 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하는 절차를 보여준다. 이 방법은 문서 내 어느 위치의 자연어 표현이라는 것은 명시하는 방식이며 기존의 검색 기능과는 다르게 단어를 검색하는 구조 속에서 수행되는 방법이다. 자연어와 의미단위용어를 포함하는 질의어를 획득하여 단어들을 검색한다(55-01). 검색 결과 단어들 전체 또는 선택된 일부 단어 목록, 주석 대상 자연어 표현 및 주석될 의미단위용어에 대한 정보와 함께 검색 주석 요청을 받는다(55-02). 선택된 단어들에 대해 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하며 해당 자연어 표현의 문서 내의 위치가 명확하게 기록된다(55-03).55 shows a procedure of annotating a specific semantic unit term in an index to a specific natural language expression for words found through a search. This method specifies that a natural language representation of a location in a document is performed and is performed in a structure of searching for words unlike a conventional search function. The words are searched by obtaining a query including natural and semantic unit terms (55-01). A search annotation request is received together with a list of all the search results words or some selected words, a natural language expression to be annotated, and information about semantic unit terms to be annotated (55-02). For the selected words, the corresponding semantic unit terms are commented on the search system index for the natural language expression, and the position in the document of the natural language expression is clearly recorded (55-03).
도 56은 검색기를 중심으로 작성된 구성도이다. 검색기 이외의 부분은 단순화되어있다. 검색기는 검색 질의어로 검색을 수행한다. I.의미단위용어 기반 검색기는 I1.문서 검색부, I2.단어 검색부 및 I3.검색지식 관리부가 있으며 검색 질의어를 작성하는 자연어 질의부와 의미단위용어 질의어 주석부가 있다. 검색 주석은 문서에 주석을 하는 것이 아니라 찾아진 단어에 주석을 한다. 따라서 검색 주석기의 역할을 돕기 위해 검색기도 문서가 아니라 단어를 찾는 기능이 추가하여 강화되었다. 문서를 찾는 문서 검색에 비해 단어 검색을 위해서는 찾아진 문서 내부의 어떤 단어를 나열하기를 원하는지 명확히 하는 단계가 추가되었다. 기존의 자연어 검색에서는 검색 방법을 지식이라고 부르기는 부족하였다. 자연어 검색의 정확률이 낮아 검색에 관련된 지식을 복합적으로 활용하기 힘들었다. 검색에 대한 결과로 연산을 할수록 오차가 확대되기 때문이다. 하지만 의미단위용어 기반 검색은 100% 정확률을 추구할 수 있기 때문에 검색 지식으로 등록되고 복합적으로 이용이 가능하다. 검색지식은 검색의 경험을 지식으로 등록하여 만들어진다. 검색 주석기 및 검색기 모두는 검색 질의어가 필요하고 질의어는 의미단위용어 주석의 대상이다. 따라서 검색기에는 자연어 질의부와 의미단위용어 질의어 주석부가 있다. 대표도(도 1)에서는 질의어 관련 부분이 구성요소로 노출되어 있지는 않다.56 is a diagram illustrating the configuration of a searcher. Parts other than the browser are simplified. The searcher performs a search with a search query. I. Semantic term-based searcher includes I1. Document search unit, I2. Word search unit and I3. Search knowledge management unit, and there is a natural language query unit for creating a search query and a semantic unit term query term comment unit. Search comments do not comment the document, but comment the found words. Therefore, to help the search commenter's role, the searcher has been enhanced with the ability to find words rather than documents. Compared to a document search for a document, a word search has been added to clarify which words within the found document are desired to be listed. In the existing natural language search, the search method was not called knowledge. Due to the low accuracy of natural language search, it was difficult to use complex knowledge. This is because the more errors are calculated as a result of the search. However, the semantic unit term-based search can be 100% accurate and can be registered as a search knowledge and used in combination. Search knowledge is created by registering the experience of search as knowledge. Both the search commenter and the searcher need a search query, and the query is the target of the semantic term term annotation. Therefore, the searcher has a natural language query unit and a semantic unit term query term comment unit. In the representative diagram (FIG. 1), the query-related part is not exposed as a component.
도 57은 검색 질의어를 보여준다. 질의어는 검색 시스템의 검색기와 검색 주석기에서 사용된다. 자연어 검색 질의어는 한 개 이상의 자연어와 and/or 같은 각종 연산자, 특정 기간, 특정 사이트, 특정 분류 등등으로 구성된다(57-01). 고유ID+ 검색 질의어는 한 개 이상의 고유ID+와 and/or 같은 각종 연산자, 특정 기간, 특정 사이트, 특정 분류 등등으로 구성된다(57-02).57 shows a search query. Query terms are used in search systems and search commenters in search systems. A natural language search query is composed of one or more natural words and various operators such as and / or, specific time periods, specific sites, specific classifications, etc. (57-01). The unique ID + search query consists of one or more unique ID + and various operators such as and / or, a specific time period, a specific site, a specific classification, etc. (57-02).
도 58은 고유ID+ 검색 질의어가 어떻게 해석되는가를 보여준다.58 shows how the unique ID + search query is interpreted.
도 59는 의미단위용어 기반의 질의어를 작성하는 방법을 보여 준다. 의미단위용어는 기억하여 사용하기 힘들므로 자연어를 입력하고 이를 사전 찾기로 의미단위용어로 변환하여 사용한다. 기존의 질의 방법과 같이 자연어를 획득하여 질의어를 작성한다(59-01). 질의어 내부의 주석 대상 자연어 표현을 선택하고 사전 찾기 요청을 한다(59-02). 나열된 의미단위용어 목록 중에서 선택된 항목을 얻어 해당 자연어에 주석을 한다(59-03). 의미단위용어로 주석된 질의어에 대해 자연어/의미단위용어 쌍을 순수 의미단위용어로 바꾸는 등의 수정을 한다(59-04).59 shows a method of creating a semantic unit term-based query word. Semantic unit terminology is difficult to remember and use, so input natural language and convert it to semantic unit term by dictionary search. Similar to the existing query method, a natural language is obtained to prepare a query (59-01). A natural language expression to be annotated in the query is selected and a dictionary search request is made (59-02). Obtain the selected item from the list of semantic unit terms listed and annotate the natural language (59-03). For the query words annotated with the semantic unit term, the natural / mean unit pair is changed to the pure semantic unit term (59-04).
도 60은 검색 결과를 표시하는 3가지 방법을 보여준다. 일반적으로 검색 시스템은 문서를 검색하는 장치이고 따라서 문서 항목을 나열한다(60-01). 이러한 문서 나열 방식은 특정 문서 내의 특정 단어에 대한 처리를 어렵게 만든다. 만약 한 문서 내의 자연어가 항상 같은 의미로만 쓰인다면 주석작업에 큰 장애가 되지는 않는다. 실제로 문서단위 주석 방법이 한 문서에 들어 있는 특정 자연어의 각각의 의미에 대해 주석할 수 있기 때문에 큰 장애가 되지는 않는다. 특히 초기의 의미단위용어 기반 검색 시스템의 정확률에 큰 장애가 되지 않는다. 일반적으로 자연어 검색 정확률이 아주 낮은 상태이고 이와 비교하여 월등한 정확률을 보여주기 때문에 의미단위용어 기반에서 정확률이 조금 낮아지는 것은 큰 문제가 되지 않는다. 하지만 장기적으로 100% 정확률을 추구하는 데 있어서는 장애가 될 것은 명확하다. 문서단위 주석은 문서 내에 있는 어떤 위치에 있는 자연어 표현에 대한 주석인가를 알려 줄 수 없다. 단어 항목 나열 방식은 문서 단위 주석의 문제점을 없애 준다. 특정 문서의 특정 위치에 있는 자연어 표현의 의미단위용어라고 명확히 표시할 수가 있다. (60-02) 이 방식은 기존 검색 시스템이 추가하여야 할 기능이다. 하지만 이 방식은 기존의 문서 나열 방식을 사용해야 하는 경우에 불편을 줄 수 있다. 문서/단어 항목 나열 방식은 문서 나열 방식과 단어 나열 방식을 합친 방법이다(60-03). 단어 주석 방식이 반드시 한 단어만을 처리한다는 의미는 아니다. “President Obama”를 검색하여 President에 President_1을 주석하고 Obama에 barack_obama_1을 주석하는 기능을 지원한다.60 shows three ways of displaying search results. In general, a retrieval system is a device for retrieving a document and thus lists the document items (60-01). This method of document listing makes it difficult to process certain words within a particular document. If the natural language in a document is always used in the same sense, it is not a big obstacle to commenting. In practice, document-level commenting is not a major obstacle because you can comment on the meaning of each specific natural language in a document. In particular, the accuracy of the initial semantic unit term-based retrieval system is not a big obstacle. In general, since the natural language retrieval rate is very low and shows a superior accuracy rate, it is not a big problem to reduce the accuracy rate slightly based on the semantic unit term. But in the long run, it is clear that it will be an obstacle to pursuing 100% accuracy. Document-level comments can't tell you where a natural language expression is located in a document. Word item listing eliminates the problem of document-level comments. It can be clearly expressed as a semantic unit term of a natural language expression at a specific position in a specific document. (60-02) This is a feature that existing search systems should add. However, this can be inconvenient if you need to use the traditional document listing method. The document / word item listing method combines the document listing method and the word listing method (60-03). Word commentary does not necessarily mean that only one word is processed. Search for “President Obama” to support President_1 comment on President and comment barack_obama_1 on Obama.
도 61은 단어를 검색하고 단어 단위로 항목 표시를 해주는 절차를 보여준다. 검색 결과 항목 수가 검색된 단어 수와 같아 단어별 처리에 사용할 수 있으며, 단어 검색 질의어를 통해 원하는 단어를 찾아내고 단어 단위로 결과를 표시하며 나열 항목수가 검색된 단어 수와 같은 방법이다. 문서를 찾아내는 검색 질의어, 검색된 문서에서 찾고자 하는 용어(자연어 표현 또는 의미단위용어) 정보와 함께 단어 검색 요청을 받는다(61-01). 단어 검색 질의어로 검색된 단어들을 단어당 항목으로 나열하여 표시한다(61-02).61 shows a procedure of searching for a word and displaying an item in word units. The number of search result items is the same as the number of words searched for, and can be used for word-by-word processing. The word search query can find the words you want, display the results in word units, and the number of items listed is the same as the number of words searched. A search query for finding a document and a term (natural language expression or semantic unit terminology) information to be searched for in the searched document are received (61-01). The words searched by the word search query are listed and displayed (61-02).
도 62는 단어를 검색하고 결과를 문서별 단어별로 나열 표시하는 검색 절차를 보여준다. 검색 결과가 문서별 단어별로 정리되어 결과를 문서별 처리 및 단어별 처리에 사용할 수 있는 구조이며, 검색 질의어를 통해 원하는 문서 내의 원하는 단어를 찾아내고 문서를 한 항목으로 표시하고 각 문서별로 각 단어 단위로 결과를 표시하며 나열 항목 수가 문서 수와 용어 수를 합친 것과 같은 검색 방법이다. 문서를 찾아내는 검색 질의어, 검색된 문서에서 찾고자 하는 용어(자연어 표현 또는 의미단위용어) 정보와 함께 문서/단어 검색 요청을 받는다(62-01). 단어 검색 질의어로 검색된 단어들을 문서별 단어별로 나열하여 표시한다(62-02).62 shows a search procedure for searching for words and listing and displaying the results by word for each document. The search results are organized by word by document, and the results can be used for document-by-document and word-by-word processing.The search query finds the words you want within the desired document, displays the document as one item, and displays each word unit for each document. The results are displayed in the same way as the number of items listed, plus the number of documents and terms. A search query for finding a document and a document / word search request are received with information on a term (natural language expression or semantic unit term) to be searched for in the searched document (62-01). The words searched by the word search query are listed and displayed by word of each document (62-02).
도 63은 검색지식을 생성하고 활용하는 절차를 보여준다. 기존의 자연어 검색은 너무 정확률이 낮아 지식으로 계속 활용할 수 있는 가능성이 작았다. 반면에 의미단위용어 기반 검색은 정확률율 100%를 추구하는 것이 가능하다. 낮은 정확률의 지식은 연산에 의해 오차율이 커지지만 의미단위용어 기반은 복합적으로 활용이 가능해 졌다. 이 절차는 검색 질의어를 수행하여 결과를 검토하고 의미 있는 검색 질의어는 검색지식으로 등록하여 활용하는 수단을 제공한다. 의미단위용어 기반 검색 질의어를 수행하고 검토한다(63-01). 검색 질의어 및 그에 대한 설명과 함께 검색지식 생성 요청을 받아 검색지식ID를 생성하고 지식 검색 ID, 검색 질의어 및 설명을 검색지식으로 만든다(63-02).소유자로부터 검색지식에 대한 공개 요청을 받으면(63-03) 검색지식을 공개한다(63-04 ).63 shows a procedure of generating and utilizing a search knowledge. Existing natural language search was so low in accuracy that it was less likely to continue to be used as knowledge. On the other hand, the semantic unit term-based search can pursue 100% accuracy rate. The knowledge of low accuracy rate increases the error rate by operation, but the semantic unit term base can be used in combination. This procedure provides a means to perform search queries to review the results and to register and use meaningful search queries as search knowledge. Perform and review the semantic unit term-based search query (63-01). Receives a search knowledge generation request along with a search query and its description, generates a search knowledge ID, and turns the knowledge search ID, search query and description into search knowledge (63-02). 63-03) Reveal search knowledge (63-04).
도 64는 문서정보체계 구축기를 중심으로 작성된 구성도이다. 문서정보체계 구축기 이외의 부분은 단순화되어있다. 문서정보체계 구축기는 색인에 저장된 정보 또는 주석지식을 이용하여 문서정보체계를 구축하는 역할을 한다.64 is a diagram illustrating the construction of a document information system builder. Parts other than the document information system builder are simplified. The document information system builder plays a role in building the document information system using information stored in the index or annotation knowledge.
도 65는 자연어 문서정보체계와 고유ID+ 문서정보체계를 보여준다. 65 shows a natural language document information system and a unique ID + document information system.
문서정보체계는 인터넷 문서,회사와 같은 각종 단체들의 문서 및 개인의 문서들을 포함한 전체 문서들이다. 자연어 문서정보체제는 자연어 사전을 기반으로 만들어진 문서정보체제이고(65-01) 고유ID+ 문서정보체계(65-02)는 고유ID 사전을 기반으로 만들어진다. 의미단위용어 기반 문서정보체계를 만드는 일은 아주 방대한 일이다. 문서정보체계를 바꾸는 작업의 가치는 이들 문서들을 모두 포함하는 검색 시스템의 색인을 의미단위용어 기반으로 만드는 가치와 같고 주석지식이 완벽하면 같은 효과를 가진다. 주석지식이 완벽하다는 것이 가장 높은 가치를 갖는다. 주석지식은 앞으로 만들어질 문서에 대해서도 많은 부분 의미단위용어 기반화 할 수 있는 추가적인 가치가 있기 때문이다. 주석지식은 바로 만들어질 수 없다. 색인을 의미단위용어 기반으로 만드는 것이 문서정보체계를 의미단위용어 기반으로 만드는 가장 좋은 방법이며 주석지식을 만드는 가장 좋은 방법이다.The document information system is an entire document, including documents of various types such as Internet documents, companies, and personal documents. The natural language document information system is a document information system based on the natural language dictionary (65-01), and the unique ID + document information system (65-02) is created based on the unique ID dictionary. Creating a semantic term-based document information system is a huge task. The value of changing the document information system is the same as the value of the index of the retrieval system that contains all of these documents based on semantic terms. Perfect commentary knowledge is of the highest value. This is because annotation knowledge has the added value of being able to base many parts of semantic terms on future documents. Annotation knowledge cannot be made right away. Making indexes based on semantic terms is the best way to base document information systems on semantic terms and is the best way to create annotation knowledge.
도 66은 의미단위용어 사전, 색인 및 주석지식을 이용해 의미단위용어 기반 문서정보체계를 구축하는 것을 보여준다. 의미단위용어 사전은 필수인 요소이다. 이것 없이는 의미단위용어 색인도 만들 수 없고 주석지식도 만들 수 없다. 의미단위용어 색인은 어느 문서의 어느 자연어 표현이 어느 의미라는 정보를 갖고 있다. 따라서 의미단위용어 색인이 충분한 정보를 갖고 있으면 의미단위용어 문서정보체계를 만들 수 있다. 주석지식은 "어떤 조건에서 어떤 자연어가 어떤 의미이다."하는 지식이다. 따라서 주석지식이 충분한 내용이 있으면 의미단위용어 문서 정보 체계를 만들 수 있다.FIG. 66 illustrates the construction of a semantic unit term-based document information system using a semantic unit term dictionary, index, and annotation knowledge. The semantic unit term dictionary is mandatory. Without this, neither the semantic term index nor the annotation knowledge can be created. The semantic unit term index contains information about which natural language representation of a document is meant. Therefore, if the semantic unit term index has enough information, the semantic unit term document information system can be created. Annotation knowledge is the knowledge that "under certain conditions, what natural language means what." Therefore, if there is sufficient comment knowledge, semantic terminology document information system can be made.
도 67은 의미단위용어 사전 및 색인을 이용해 의미단위용어 기반 문서정보체계를 구축하는 것을 보여준다. 의미단위용어 색인이 충분한 정보를 갖고 있으면 의미단위용어 문서정보체계를 만들 수 있다. 하지만 의미단위용어 색인은 새로 만들어지는 문서에 대해서는 아무 정보도 주지 못한다.67 shows that a semantic unit term based document information system is constructed using a semantic unit term dictionary and an index. If the semantic terminology index has enough information, a semantic terminology document information system can be constructed. However, semantic terminology gives no information about newly created documents.
도 68은 의미단위용어 사전 및 주석지식을 이용해 의미단위용어 기반 문서정보체계를 구축하는 것을 보여준다. 충분한 내용을 갖는 주석지식이 있으면 주석지식만을 이용하여 의미단위용어 기반 문서정보체계의 구축이 가능하다. 따라서 검색 시스템의 도움이 없이 의미단위용어 기반 문서정보체계의 구축이 가능하다. 하지만 색인 정보를 이용해 의미 기반화하는 것에 비해 큰 컴퓨팅 파워를 요구하며 일반적으로 색인 정보가 주석지식의 의미단위용어 정보량보다 크다.FIG. 68 illustrates the construction of a semantic unit term-based document information system using a semantic unit term dictionary and annotation knowledge. If there is sufficient annotation knowledge, it is possible to construct semantic unit term-based document information system using only annotation knowledge. Therefore, it is possible to construct a semantic unit term-based document information system without the help of a retrieval system. However, it requires more computing power than semantic-based using index information. In general, index information is larger than the semantic unit term information of annotation knowledge.
도 69는 각 문서에 들어있는 자연어 표현을 의미단위용어로 주석하는 정보가 쌓여 있는 검색 시스템 색인을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 절차를 보여준다. (색인을 이용하는 방식은 반드시 검색시스템의 검색 대상에 포함된 문서에 대해서만 적용이 가능하다.) 검색 시스템의 색인에 누적된 의미단위용어 주석정보를 문서 위치별로 분류하여 문서별 의미단위용어 주석 정보를 만든다(69-01). 검색 시스템이 수집한 각 문서에 해당 문서에 대한 의미단위용어 주석 정보를 포함시켜 새로운 문서를 만든다(69-02). 의미단위용어를 포함시켜 작성된 문서들을 검색시스템의 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장한다(69-03). 도 69는 검색 시스템 색인에서 정보를 추출하여 의미단위용어 기반 문서정보체계를 구축하는 절차이다.FIG. 69 illustrates a procedure for constructing a document information system such as the Internet based on a semantic unit term using a search system index in which information for annotating natural language expressions included in each document is accumulated. (The method of using index can be applied only to the documents included in the search target of the search system.) The semantic unit term annotation information accumulated in the index of the search system is classified by document location and the semantic unit term annotation information of each document is classified. (69-01) Each document collected by the retrieval system includes new semantic terminology annotation information for the document (69-02). Documents created by including semantic unit terms are stored in a separate storage location of the retrieval system including the existing document location information (69-03). 69 is a procedure of extracting information from a search system index and constructing a semantic unit term-based document information system.
도 70은 자연어 표현을 의미단위용어로 주석하는 지식이 쌓여 있는 주석지식을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 절차를 보여준다. 주석지식은 특정 검색 시스템에 종속되지 않고 적용이 가능하다. 따라서 특정 검색시스템의 신규 문서에 대해서도 적용 가능하다. 문서정보체계에 속하는 문서들을 수집한다. 검색 시스템을 이용하지 않으며 문서 수집도 직접 수행한다(70-01). 문서별로 내부에 들어 있는 자연어 표현에 대해 해당하는 주석지식을 검색하여 찾아진 주석지식을 해당하는 자연어 표현에 적용하는 작업을 반복하여 문서 내 모든 자연어 표현에 대해 의미단위용어를 주석한다(70-02). 문서별로 주석 작업이 완료되면 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 단계를 반복하여 모든 문서에 대해 의미단위용어 기반 문서로 만든다(70-03).FIG. 70 shows a procedure for constructing a document information system such as the Internet based on semantic unit terminology using annotation knowledge accumulated in annotating natural language expressions as semantic unit terminology. Annotation knowledge can be applied without being dependent on a specific search system. Therefore, it is applicable to new documents of a specific search system. Collect documents in the document information system. It does not use a retrieval system and performs document collection directly (70-01). By retrieving the corresponding annotation knowledge for the natural language expression contained in each document and applying the found annotation knowledge to the corresponding natural language expression, the semantic unit term is annotated for all natural language expressions in the document. ). After commenting is completed for each document, repeating the steps of storing the existing document location information in a separate storage location makes the semantic term-based document for all documents (70-03).
도 71은 검색 시스템 색인과 주석지식을 이용한 의미단위용어 기반 문서정보체계 구축 절차를 보여준다. 검색 시스템에 포함이 되어있고 색인에 충분한 의미단위용어 정보가 쌓여있는 문서에 대해서는 검색 시스템 색인을 이용하고 색인에 정보가 없는 신규문서 또는 검색시스템 외부 문서에 대해서는 주석지식을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 절차이다. 71 shows a procedure of constructing a semantic unit term based document information system using a search system index and annotation knowledge. Document information, such as the Internet, by using the search system index for documents that are included in the search system and having sufficient semantic unit term information accumulated in the index, and the annotation knowledge for new documents or documents outside the search system that do not have information in the index. It is a procedure to build a system based on semantic unit terminology.
문서정보체계에 속하는 문서들을 수집한다(71-01). 검색 시스템에 포함이 되어 있는 문서들을 대상으로 검색 시스템의 색인에 누적된 의미단위용어 주석정보를 문서 위치별로 분류하여 문서별 의미단위용어 주석 정보를 생성한다(71-02). 검색 시스템에 포함된 각 문서에 해당 문서에 대한 의미단위용어 주석 정보를 포함시켜 새로운 문서를 만든다(71-03). 의미단위용어를 포함시켜 작성된 문서들을 검색시스템의 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장한다(71-04). 검색시스템에 포함되지 않은 문서들을 대상으로, 문서별로 내부에 들어 있는 자연어 표현에 대해 해당하는 주석지식을 검색하고 찾아진 주석지식을 해당하는 자연어 표현에 적용하는 작업을 반복하여 문서 내 모든 자연어 표현에 대해 의미단위용어를 주석한다(71-05). 문서별로 주석 작업이 완료되면 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 단계를 반복하여 검색시스템에 포함되지 않은 모든 문서에 대해 의미단위용어 기반 문서로 만든다(71-06).Collect documents belonging to the document information system (71-01). The semantic unit term annotation information accumulated in the index of the search system is classified for each document position for the documents included in the search system to generate semantic unit term annotation information for each document (71-02). Each document included in the retrieval system contains new semantic terminology annotation information for that document (71-03). Documents created by including semantic unit terms are stored in a separate storage location of the retrieval system including the existing document location information (71-04). For documents that are not included in the search system, the corresponding annotation knowledge is searched for the natural language expression contained within each document, and the applied annotation knowledge is applied to the corresponding natural language expression. Comment on the semantic unit term (71-05). After commenting is completed for each document, repeating the steps of storing the existing document location information in a separate storage location makes the semantic unit term-based document for all documents not included in the search system (71-06).
도 72는 의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 대한 이견을 집단지성을 이용하여 관리하는 절차를 보여준다.FIG. 72 is a flowchart illustrating a procedure for managing disagreements about the contents of a semantic unit term dictionary item, comment contents, annotation knowledge, default value, and search knowledge by using collective intelligence.
의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 대한 이견이 있는 사용자가 토론 주제와 함께 토론 생성 요청을 하여 해당 주제에 토론 항목을 생성한다(72-01). 각자의 의견을 제시하고 토론한다(72-02). 토론에서 합의에 도달하지 못하는 경우 투표를 하고 결과를 종합한다(72-03). 토론 및 투표에서 얻은 결과를 적용한다(72-04).A user with disagreement about the semantic unit term dictionary entry's content, comment content, comment knowledge, default value, and search knowledge requests a discussion creation along with the discussion topic to create a discussion item on the topic (72-01). Present and discuss their opinions (72-02). If no consensus is reached in the discussion, vote and synthesize the results (72-03). Apply the results from the discussions and votes (72-04).
도 73은 검색 대상 문서 원본과 추가 정보의 통합 후 저장 및 이용 절차를 보여준다. 검색 시스템의 검색 대상 문서의 내용 보완이나 변경의 필요가 있고 원본 문서를 직접 수정할 수 없는 상황에서 변경된 문서 내용을 저장하고 이용하는 방법이다.73 is a view illustrating a storing and using procedure after merging a search target document original with additional information. It is a method of storing and using the changed document contents in the situation where the contents of the search target document of the search system need to be supplemented or changed and the original document cannot be directly modified.
원본에 대한 쓰기 권한이 없는 경우에 대상 문서를 문서 주소와 함께 별도의 장소에 저장한다(73-01). 별도의 장소에 저장된 문서를 변경한다(73-02). 원본 문서의 주소로 변경된 내용 요청을 받으면 저장된 원본 문서 주소를 이용하여 변경된 문서를 찾아 제공한다(73-03).If there is no write permission for the original, the target document is stored in a separate place along with the document address (73-01). Change documents stored in separate places (73-02). Upon receiving a request for change to the address of the original document, the changed document is found and provided using the stored original document address (73-03).
전지구적인 문서들을 의미단위용어 기반으로 바꾸는 것은 아주 방대한 작업이다. 하지만 반복 사용되는 단어들을 단어별로 정렬하여 색인을 만들면 단어의 반복 사용 회수와 무관하게 단어의 종류 및 단어의 의미 숫자 만큼으로 일의 양을 축소할 수 있다. 이렇게 하면 일의 양이 몇백만 분의 일로 줄어든다. 또한 의미단위용어의 생성이 일반인이 참여할 수 있게 쉬운 절차가 있으며 일을 수많은 사용자가 나누어 처리할 수 있는 구조를 갖는다. 방대한 일이 몇백만 분의 일로 줄어들고 축소된 작업도 개별 사용자들이 어렵지 않기 때문에 참여하여 나누어 처리할 수 있는 구조를 제공한다. 사용자에게 강요하는 것이 아니라 사용자들이 자신의 관심사항에 대해 어렵지 않은 일을 처리하면 이와 같은 방대한 작업은 완성되는 것이다.Converting global documents into semantic terms is a huge task. However, if you index words that are used repeatedly by word, you can reduce the amount of work by the number of words and the number of meanings of the words, regardless of the number of repeated uses of the word. This reduces the amount of work to a few million. In addition, there is an easy procedure for the creation of semantic unit terms so that the public can participate, and it has a structure that can be divided and processed by many users. The vast amount of work is reduced to a few million, and the reduced work is not difficult for individual users, providing a structure for participation and sharing. Rather than forcing the user, they do something that is not difficult for their interests, and this massive task is complete.

Claims (56)

  1. 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하고 생성된 의미단위용어를 기반으로 정보를 생성,수집,색인,주석,검색하는 정보 체계로서,An information system that dynamically generates separate terms for each meaning of all natural language expressions, and generates, collects, indexes, comments, and searches information based on the generated semantic unit terms.
    a)자연어 표현과 의미 설명 정보를 획득하여 자연어 표현을 기반으로 의미단위용어를 생성하고, 생성된 용어에 의미 설명 정보를 부착하여 의미단위용어 사전 항목을 만들고, 이들 용어 사전 항목을 수정,병합,삭제하여 용어를 관리하는 의미단위용어 사전 관리기;a) Generate semantic unit terms based on natural language expressions by acquiring natural language expression and semantic description information, attach semantic description information to the created terms to make semantic unit term dictionary items, modify, merge, A semantic unit term dictionary manager for managing terms by deleting them;
    b)문서에서 획득한 자연어 표현에 대해 의미단위용어 사전으로부터 해당 의미단위용어 목록을 찾아내고 선택된 의미단위용어를 해당 자연어 표현에 주석하여 의미상으로 모호한 자연어 표현을 보완시키는 의미단위용어 기반 문서 작성기;b) a semantic unit term-based document generator for finding a list of semantic unit terms from a semantic unit term dictionary for natural language expressions obtained from the document, and annotating the selected semantic unit terms to the natural language expressions to supplement semantically ambiguous natural language expressions;
    c) 주석지식(주석 조건, 주석 대상 자연어 표현, 주석될 의미단위용어)을 생성,수정,삭제하여 관리하고, 이러한 주석지식을 실제로 대상 문서들과 정보 검색 시스템의 색인에 적용하고, 주석지식이 없는 경우 적용되는 기본값을 관리하고, 색인에 들어 있는 의미단위용어 주석 정보를 이용하여 이미 존재하는 자연어 문서를 의미단위용어 기반 문서로 변환해 주는 의미단위용어 주석기;c) create, modify, and manage annotation knowledge (commentary terms, natural language expressions to be annotated, semantic unit terms to be annotated), and apply this annotation knowledge to the indexes of the target documents and information retrieval systems; A semantic unit term commenter that manages a default value applied when there is no information and converts an existing natural language document into a semantic unit term based document by using semantic unit term annotation information included in an index;
    d) 검색 대상 문서를 모아오는 문서 수집기;d) a document collector for collecting documents to be searched;
    e) 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인기e) A semantic unit term-based indexer that indexes natural and semantic terms by adding semantic unit term fields to existing natural language indexes that index documents written using only natural language.
    f) 의미단위용어 질의어로 검색된 결과 문서들에 들어 있는 자연어 표현에 의미단위용어를 주석하여(직접 문서에 주석을 하는 것이 아니라 색인에 주석한다) 주는 의미단위용어 기반 검색 주석기; f) a semantic unit term-based search commenter that annotates semantic terminology (not to commenting directly on the document) but to the natural language expressions contained in the resulting documents retrieved as semantic unit terminology queries;
    g) 기존의 자연어 외에 의미단위용어를 질의어에 추가하여 검색할 수 있게 하여 주는 의미단위용어 기반 검색기; 및 g) a semantic unit term based searcher that enables to search by adding a semantic unit term to a query in addition to the existing natural language; And
    h) 주석지식 및 색인의 정보를 이용하여 검색 대상 전체 문서 또는 일부 문서를 의미단위용어 기반으로 구축하는 의미단위용어 기반 문서정보체계 구축기; 를 h) a semantic unit term based document information system builder for constructing a semantic unit term based whole document or a part of a document to be searched by using annotation knowledge and index information; To
    포함하는 의미단위용어 기반 정보 체계Semantic unit term-based information system to include
  2. 전 지구적 문서를 단어별로 정렬하여 색인하고 정렬된 단어 속에서 다양한 의미를 찾아내어 의미단위용어를 생성하고 단어별로 정렬된 전 지구적 문서를 대상으로 일괄적으로 의미단위용어를 주석하기 위해 검색 시스템을 이용하는 방법으로서,Search system for sorting and indexing global documents by words, finding various meanings in sorted words, creating semantic unit terms, and annotating semantic unit terms collectively for global documents sorted by words. As a method of using,
    a) 문서 내의 일부 자연어 표현 또는 전체 자연어 표현에 각각 해당하는 의미단위용어를 획득하여 주석하는 의미단위용어 기반 문서 작성 단계;a) a semantic unit term-based document creation step of acquiring and annotating semantic unit terms corresponding to some natural language expressions or all natural language expressions in the document;
    b) 검색 시스템에 포함할 문서들을 수집하는 문서 수집 단계;b) a document collection step of collecting documents to be included in the retrieval system;
    c) 수집된 문서로부터 의미단위용어 기반 색인을 만드는 의미단위용어 기반 색인 단계;c) a semantic unit term-based indexing step that creates a semantic unit term-based index from the collected documents;
    d) 의미단위용어 기반 질의어를 획득하여 의미단위용어 기반 색인으로부터 검색하여 결과를 표시하는 의미단위용어 기반 검색 단계; d) a semantic unit term based search step of obtaining a semantic unit term based query word, searching from a semantic unit term based index, and displaying a result;
    e) 자연어 표현 및 해당 표현의 특정 의미에 대한 설명과 함께 용어 생성 요청을 획득하여 의미단위 용어를 생성하고 획득한 설명을 쌍으로 하여 사전 항목을 생성하는 의미단위용어 생성 단계;e) generating a semantic unit term by acquiring a term generation request together with a natural language expression and a description of a specific meaning of the expression, and generating a dictionary item by pairing the obtained description;
    f) 의미단위용어 기반 질의어로 특정 자연어 표현의 특정 의미를 검색하여 찾아진 결과문서들에 대해 해당 자연어 표현에 해당 의미단위용어를 의미단위용어 기반 색인에 주석하는 의미단위용어 검색 주석 단계;f) a semantic unit term search comment step of annotating the semantic unit term to a semantic unit term-based index in the natural language expression for the result documents found by searching for a specific meaning of a specific natural language expression as a semantic unit term based query;
    g) 검색 주석 단계에서 사용된 질의어, 자연어 표현 및 의미단위용어를 획득하여 주석지식으로 등록하는 주석지식 생성 단계;g) Annotation knowledge generation step of acquiring query terms, natural language expressions and semantic unit terms used in the search annotation step and registering them as annotation knowledge;
    h) 신규문서들과 같은 지정된 문서들을 대상으로 주석지식을 이용하여 의미단위용어를 주석하는 지식 기반 주석 단계; 및h) a knowledge base annotation step of annotating semantic unit terms using annotation knowledge for designated documents such as new documents; And
    i) 의미단위용어 기반 색인에서 문서별로 의미단위용어 주석 정보를 추출하여 각각 해당 문서에 적용하여 해당문서를 의미단위 용어 기반 문서로 만들어 문서정보체계를 의미단위용어 기반으로 만들며, 주석지식 및 기본값을 적용하여 문서정보체계를 의미단위용어 기반으로 만드는 의미단위용어 기반 문서정보체계 구축 단계; 를i) Extract the semantic unit term annotation information for each document from the semantic unit term-based index and apply it to the corresponding document to make the document a semantic unit term-based document, and make the document information system based on the semantic unit term. Constructing a semantic unit term based document information system by applying the semantic unit term based document information system; To
    포함하는 검색 시스템 중심의 의미단위용어 기반 정보 체계 작동 방법How a Semantic Unit Term-based Information System that Involves a Search System
  3. a)고유명사를 포함한 모든 언어의 모든 품사를 대상으로, 사용자가 입력한 자연어 표현과 설명을 획득하여 자연어 표현의 다양한 의미에 대해 각각의 의미마다 별도의 용어를 동적으로 생성하는 의미단위용어 생성부; a) Semantic unit term generation unit that obtains the natural language expression and description input by the user for all parts of speech in all languages including unique nouns and dynamically generates separate terms for each meaning for various meanings of natural language expressions. ;
    b)생성된 용어의 수정, 병합 및 삭제를 수행하는 의미단위용어 관리부; 및b) a semantic unit term management unit for correcting, merging, and deleting generated terms; And
    c)의미단위용어에 대한 사전 찾기 기능을 수행하는 의미단위용어 사전검색부; 를 c) a semantic unit term dictionary search unit that performs a dictionary search function for a term unit term; To
    포함하는 의미단위용어 사전 관리기Semantic unit term dictionary manager to include
  4. 청구항 3에 있어서, The method according to claim 3,
    생성되는 용어가 사용자로부터 획득한 자연어 대표표현과 해당 자연어 대표표현의 의미 일련번호에 의해 자동 생성되는“고유ID”라고 부르는 용어이며 언어와 의미가 같으면 표현이 다르더라도 하나의 의미단위용어를 갖는 것을 특징으로 하는 의미단위용어 사전 관리기The term that is generated is a term called “unique ID” which is automatically generated by the natural language representative expression obtained from the user and the meaning of the natural language representative expression. If the language and the meaning are the same, the term has one semantic unit term. Meaning unit term dictionary manager characterized by
  5. 청구항 3에 있어서,The method according to claim 3,
    생성되는 용어가 사용자가 입력한 자연어 표현과 해당 자연어 표현의 의미 일련번호에 의해 자동 생성되는“표현의미ID”라고 부르는 용어이고 따라서 의미가 같더라도 표현이 다른 경우에 다른 용어가 생성되는 것을 특징으로 하는 의미단위용어 사전 관리기The generated term is a term called “expression meaning ID” which is automatically generated by a user-entered natural language expression and the meaning of the natural language expression serial number. Therefore, when the expression is the same, another term is generated. Unit term dictionary manager
  6. 청구항 3에 있어서,The method according to claim 3,
    의미단위용어의 생성이 자연어의 복수 의미 문제가 부각되는 검색 시스템 내에서 이루어지는 것을 특징으로 하는 의미단위용어 사전 관리기Semantic unit term dictionary manager, characterized in that the generation of the semantic unit term is made in a retrieval system in which plural semantic problems of natural language are highlighted.
  7. 청구항 3의 사전 관리기에 의해 만들어진 의미단위용어 사전Semantic unit term dictionary created by the dictionary manager of claim 3
  8. 고유 명사를 포함한 모든 언어의 모든 품사를 대상으로 특정 자연어 표현이 하나 이상의 의미를 갖는 경우 각각의 의미에 새로운 용어를 생성하는 방법으로서. As a method of generating a new term for each meaning when a particular natural language expression has more than one meaning for all parts of speech in all languages, including proper nouns.
    a) 특정 자연어 표현의 특정 의미에 대한 의미단위용어가 부재한 상황에서 해당 의미의 자연어 표현과 이에 대한 설명 및 용어 생성 요청을 획득하는 용어 정보 획득 단계; a) term information obtaining step of acquiring a natural language representation of the meaning, a description thereof, and a term generation request in a situation where a semantic unit term for a specific meaning of a specific natural language expression is absent;
    b) 해당 자연어 표현과 해당 자연어 표현에 대해 생성된 의미 용어 개수(의미 일련 번호)를 이용하여 의미단위용어를 생성하는 용어 생성 단계; 및b) a term generation step of generating a semantic unit term using the natural language expression and the number of semantic terms (significant serial number) generated for the natural language expression; And
    c) 생성된 의미단위용어와 획득된 설명을 쌍으로 하여 의미단위용어 사전 항목을 생성하는 사전항목 생성 단계; 를c) a dictionary item generation step of generating a semantic unit term dictionary item by pairing the generated semantic unit term and the obtained description; To
    포함하는 의미단위용어 생성 방법How to create a semantic unit term that includes
  9. 분류의 대상이 의미단위용어이며, 의미단위용어가 소속하게 되는 분류명이 자연어 또는 의미단위용어이며, 의미단위용어가 0 이상의 분류 명을 가질 수 있으며, 의미단위용어의 분류 명은 어느 때나 추가되거나 삭제될 수 있으며, 분류 명은 용어에서 사용하기 전에 미리 정의되어 있을 필요가 없으며, 용어 생성 또는 용어 변경 시에 기존에 없던 분류 명을 입력하면 새로운 분류 명이 자동으로 등록되며, 하나의 분류 명은 0 이상의 분류에 소속되어 계층화하며, 용어의 분류 및 계층의 구조는 이견이 있는 경우 토론과 같은 집단지성을 통해 정밀화하는 직관적인 의미단위용어 분류 방법으로서,The object of classification is the semantic unit term, the classification name to which the semantic unit term belongs is a natural or semantic unit term, the semantic unit term may have a classification name of 0 or more, and the classification name of the semantic unit term may be added or deleted at any time. The classification name does not need to be defined before use in the term. If you enter a classification name that does not exist when the term is created or changed, the new classification name is automatically registered, and one classification name belongs to zero or more categories. In the case of disagreement, the classification of terms and hierarchical structure is an intuitive semantic unit term classification method that refines through collective intelligence such as discussion.
    a) 용어 생성 또는 용어 변경 과정에서 용어의 분류 필드 값이 주어진 경우 의미단위용어 사전에서 자연어 또는 의미단위용어로 표현된 분류 필드 값을 획득하여 해당용어를 분류하는 의미단위용어 분류 단계;a) a semantic unit term classification step of classifying a term by acquiring a classification field value expressed as a natural language or a semantic unit term from a semantic unit term dictionary when a term of a term is given in a term generation or term change process;
    b) 의미단위용어 사전을 검색하여 선택한 용어 목록과 분류명을 획득하여 해당 의미단위용어들을 해당 분류에 소속시키는 의미단위용어 검색 분류 단계;b) a semantic unit term search classification step of searching a semantic unit term dictionary to obtain a list of selected terms and a classification name and assigning the semantic unit terms to a corresponding classification;
    c) 특정 두 분류들에 대해 상하관계 설정 요청을 획득하여 계층화를 수행하는 의미단위용어 분류 계층화 단계;c) a semantic unit term classification stratification step of acquiring a hierarchy relation setting request for two specific classifications and performing stratification;
    d)특정 의미단위용어의 분류에 변경이 필요한 경우 분류의 변경 요청을 획득하여 재분류하는 의미단위용어 분류 변경 단계; 및d) a step of classifying a semantic unit term that obtains and reclassifies a request for a change of a classification when a change is required in a classification of a specific semantic unit term; And
    e) 의미단위용어의 분류에 사용자들의 이견이 발생하면 사용자들이 토론하여 집단 지성에 의한 결론에 도달하기 위해 토론 주제와 함께 토론 생성 요청을 획득하여 토론항목을 생성하여 주는 의미단위용어 분류 이견 조정 단계; 를 e) When the user's disagreement occurs in the classification of semantic unit terminology, the semantic unit term classification disagreement adjustment step that generates a discussion item by acquiring a discussion creation request with the discussion topic in order for the user to discuss and reach a conclusion by the collective intelligence. ; To
    포함하는 의미단위용어의 직관적 분류 및 계층화 관리 방법Intuitive classification and hierarchy management of semantic unit terms
  10. 용어별칭의 적용대상이 의미단위용어이며, 의미단위용어 사용에 있어서 길이가 길고 기억하기 힘든 의미단위용어를 쉽게 사용하기 위해서, 특정 단체나 개인이 의미단위용어에 대한 용어별칭을 만들고 이를 사용하는 방법으로서,To apply term term to semantic unit terminology, and to use semantic unit term that is long and difficult to remember in using semantic unit terminology, a specific group or individual makes a term alias for semantic unit term and uses it As
    a) 특정 집단이나 개인으로부터 의미단위용어, 용어별칭과 함께 별칭 등록 요청을 획득하여 별칭을 등록하는 용어별칭 등록 단계;a) a term alias registration step of acquiring an alias registration request together with a semantic unit term and term alias from a specific group or individual and registering the alias;
    b) 특정 집단이나 인터넷의 용어별칭을 사용하기 위해 용어별칭 도입요청과 해당 집단 명을 획득하여 개인 용어별칭 목록에 해당집단의 용어별칭들을 수록하는 용어별칭 도입 단계; 및b) a term alias introduction step of acquiring a term alias introduction request and a corresponding group name for using a term alias of a specific group or the Internet, and including the term aliases of the group in an individual term alias list; And
    c) 검색의 질의어나 문서 내에서 의미단위용어를 입력하는 상황에서 사용자가 용어별칭을 입력하면 이를 해당하는 의미단위용어로 번역하여 주는 용어별칭 변환 단계; 를 c) a term alias translation step of translating a term alias when a user inputs a term alias in a situation of inputting a semantic unit term in a query or document of a search; To
    포함하는 의미단위용어 용어별칭 사용 방법Semantic Unit Terms
  11. 특정 의미단위용어를 세분할 필요가 있을 때 특정 의미단위용어를 용어분할(segment)로 나누어 관리하고 의미단위용어 용어분할을 이용하여 세분화된 의미단위용어처럼 주석하고 검색하는데 사용하는 방법으로서,When a specific semantic unit term needs to be subdivided, a specific semantic unit term is managed by dividing into a term segmentation, and the semantic unit term term division is used to annotate and search like a semantic unit term subdivided.
    a) 의미단위용어 용어분할 요청, 특정 의미단위용어, 생성할 용어분할 이름 및 용어분할 설명을 획득하여 해당 의미단위용어의 하부 용어분할을 생성하는 의미단위용어 용어분할 생성 단계;a) a semantic unit terminology splitting step of obtaining a semantic unit terminology division request, a specific semantic unit term, a terminology name to be generated, and a terminology description to generate lower terminology of the semantic unit terminology;
    b) 의미단위용어 용어분할 요청, 특정의미단위용어/(계층적)용어분할 이름, 생성할 용어분할 이름 및 용어분할 설명을 획득하여 해당 의미단위용어의 계층적 하부 용어분할을 생성하는 의미단위용어 계층적 용어분할 생성 단계;b) Semantic unit term A semantic unit term that obtains a hierarchical sub-term segmentation of the semantic unit term by acquiring a request for term division, a specific semantic term / (hierarchical) term division name, a term division name to be generated, and a term division description. Creating a hierarchical terminology division;
    c) 주석 요청, 주석 대상 문서, 주석 대상 자연어 표현 및 주석할 의미단위용어/(계층적)용어분할을 획득하여 해당문서들의 해당 자연어 표현에 해당 의미단위용어/계층 용어분할을 주석하는 의미단위용어/용어분할 기반 주석 단계; 및c) a semantic unit term that obtains the request for annotation, the document to be commented, the natural language expression to be commented, and the semantic unit term / (hierarchical) term division to be annotated and annotates the semantic unit term / hierarchical term division to the corresponding natural language expression of the documents. Terminology based annotation step; And
    d) 검색 요청, 의미단위용어/계층 용어분할을 포함하는 질의어를 획득하여 해당문서들을 검색하는 의미단위용어 용어분할 이용 검색 단계; 를d) a semantic unit term term division use search step of obtaining a query including a search request and a semantic unit term / hierarchical term division and searching for corresponding documents; To
    포함하는 의미단위용어 세분화 방법 및 세분화된 용어 이용 방법Semantic unit terminology including subdivision method and subdivision terminology
  12. 의미단위용어 기반 검색 시스템에 있어서 특정 의미단위용어들을 그룹화하기 위하여 특정 의미단위용어들을 트리 형태의 계층적 그룹으로 관리하고 그룹 명을 이용하여 그룹화된 의미단위용어처럼 검색하는데 사용하는 방법으로서, In the semantic unit term-based search system, in order to group specific semantic unit terms, the semantic unit terms are managed in a hierarchical group in a tree form and used to search like group semantic unit terms using group names.
    a) 의미단위용어 그룹화 요청, 그룹화 대상 의미단위용어 또는 그룹 목록, 생성할 그룹 명 및 그룹 설명을 획득하여 해당 의미단위용어의 그룹을 생성하는 용어그룹 생성 단계; 및a) a term group generation step of generating a group of semantic unit terms by obtaining a semantic unit term grouping request, a semantic unit term or group list to be grouped, a group name to be generated, and a group description; And
    b) 검색 요청 및, 그룹 명을 포함하는 질의어를 획득하여 이를 의미단위용어 질의어로 변환하여 해당문서들의 검색하는 용어그룹 이용 검색 단계; 를 b) a term group use search step of obtaining a search request and a query word including a group name, converting the semantic unit term query word, and searching the corresponding documents; To
    포함하는 의미단위용어 그룹화 이용 방법How to use semantic unit term grouping
  13. a)주석지식(주석 조건, 주석 대상 자연어 표현, 주석될 의미단위용어)을 생성,수정,삭제하는 주석지식 관리부;a) Annotation knowledge management unit for creating, modifying, and deleting comment knowledge (comment condition, expression of natural language to be commented, and semantic unit term to be commented);
    b)주석지식이 없는 경우 적용되는 자연어 표현의 의미단위용어 기본값을 관리하는 기본값 관리부;b) a default value management unit that manages a default value of a semantic unit term of a natural language expression applied when there is no comment knowledge;
    c)주석지식을 실제로 대상 문서들, 정보 검색 시스템의 색인 및 검색 질의어에 적용하고 주석지식이 없는 경우 의미단위용어 기본값을 적용하는 지식 기반 주석부; 및c) a knowledge base comment section that applies comment knowledge to the actual documents, index of the information retrieval system, and search query words, and applies semantic unit term defaults if there is no comment knowledge; And
    d)자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 이용하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를d) a semantic unit term dictionary manager for dynamically generating a separate term for each meaning and modifying, merging, and deleting the generated terms by using natural language expressions and descriptions input by the user when the meanings of the natural language expressions vary; To
    포함하는 의미단위용어 주석기Semantic Unit Term Commentator to Include
  14. 청구항 13에 To claim 13
    색인에 누적된 의미단위용어 정보를 해당 자연어 문서에 추가하여 의미단위용어 기반 문서로 만드는 색인 기반 문서 주석부; 가An index-based document commenting unit that adds semantic unit term information accumulated in an index to a corresponding natural language document to form a semantic unit term-based document; end
    추가되어 강화된 의미단위용어 주석기Added semantic unit term commenter
  15. 색인에 누적된 의미단위용어 정보를 해당 문서에 추가하여 의미단위용어 기반 문서로 만드는 색인 기반 문서 주석부; 및An index-based document commenting unit that adds semantic unit term information accumulated in the index to the document and makes the semantic unit term-based document; And
    자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 이용하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를A semantic unit term dictionary manager that dynamically creates a separate term for each meaning and modifies, merges, and deletes the generated terms by using natural language expressions and descriptions input by the user when the meanings of the natural language expressions vary; To
    포함하는 의미단위용어 주석기Semantic Unit Term Commentator to Include
  16. 청구항 13의 주석기에 의해 만들어진 주석지식 데이터베이스Annotation database created by the commenter of claim 13
  17. 수집되어 검색 시스템 색인이 만들어지기 이전의 신규 문서의 내부나 검색 질의어 내에 있는 자연어 표현에 주석지식이나 기본값을 이용하여 의미단위용어를 주석하는 방법으로서,A method of annotating semantic unit terms using annotation knowledge or default values in natural language expressions in new documents or in search queries before they are collected and indexed.
    a) 주석 대상 자연어 표현과 지식 기반 주석요청을 획득하는 지식 기반 주석 요청 수령 단계;a) a knowledge-based annotation request receiving step of obtaining an annotation-target natural language expression and a knowledge-based annotation request;
    b) 해당 자연어 표현에 대한 주석지식 DB를 검색하여 적용할 주석지식을 찾는 주석지식 검색 단계;b) an annotation knowledge search step of searching an annotation knowledge DB for the natural language expression to find an annotation knowledge to apply;
    c) 검색된 주석지식을 자연어 표현에 적용하는 주석지식 적용 단계; 및 c) applying annotation knowledge to the natural language representation; And
    d) 주석지식이 없고 기본값 적용 설정이 되어 있는 경우 의미단위용어 기본값을 적용하는 기본값 적용 단계; 를d) a default value applying step of applying the semantic unit term default value when there is no comment knowledge and the default value setting is set; To
    포함하는 지식 기반 문서 주석 방법How to Annotate Knowledge Base Documents That Include
  18. 특정 조건 아래서 또는 특정 대상에 대해 특정 주석지식을 이용하여 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하는 방법으로서,A method of annotating a specific semantic unit term in an index to a specific natural language expression under certain conditions or using specific annotation knowledge for a particular object.
    a)주석지식ID 및 변경 요소(지정된 기간, 지정된 대상 등)과 함께 주석지식 수행 요청을 획득하는 주석지식 수행 요청 수령 단계;a) receiving an annotation knowledge execution request to obtain an annotation knowledge request with an annotation knowledge ID and a change element (specified period, designated object, etc.);
    b)주석지식ID를 이용하여 주석지식을 가져와 변경요소를 반영하는 주석지식 변형 단계;b) transforming annotation knowledge by using annotation knowledge ID to reflect annotation elements and reflecting change factors;
    c) 변형된 주석지식을 수행하여 해당하는 색인항목을 찾아내는 주석지식 이용 색인 검색 단계; 및c) an index search using annotation knowledge to find a corresponding index item by performing modified annotation knowledge; And
    d) 찾아낸 색인항목에 주석지식에 포함된 의미단위용어를 주석하는 주석지식 이용 색인 주석 단계; 를d) using annotation knowledge index commenting step to comment the semantic unit term included in the annotation knowledge in the found index item; To
    포함하는 지식 기반 색인 주석 방법Knowledge Base Index Annotation Methods That Include
  19. 검색 시스템 색인 정보를 이용하여 해당하는 문서 내의 자연어 표현에 의미단위용어를 주석하고 색인에 충분한 정보가 없는 경우에 주석지식이나 기본값을 이용하여 해당 자연어 표현에 의미단위용어를 주석하는 방법으로서,A method of annotating semantic unit terms in natural language expressions in a document using search system index information, and annotating semantic unit terms in natural language expressions using annotation knowledge or default values when there is not enough information in the index.
    a) 검색 시스템 색인에 누적된 의미단위용어 정보를 추출하여 해당하는 문서의 자연어 표현에 주석하는 색인 기반 주석 단계;a) an index-based annotation step of extracting semantic unit term information accumulated in a search system index and annotating the natural language representation of a corresponding document;
    b) 색인 기반 주석 단계에서 의미단위용어 주석이 안 된 경우, 해당 자연어 표현에 대한 주석지식을 적용하는 주석지식 적용 단계; 및b) applying annotation knowledge to apply the annotation knowledge of the natural language expression if the semantic unit term annotation is not commented in the index-based annotation step; And
    c) 주석지식 적용 단계에서도 해당하는 주석지식이 없는 경우 의미단위용어 기본값을 적용하는 기본값 적용 단계; 를c) a default value applying step of applying a default value of a semantic unit when there is no corresponding comment knowledge in the comment knowledge applying step; To
    포함하는 색인/지식 기반 문서 주석 방법How to Annotate / Include Knowledge-Based Documents That Include
  20. 주석지식을 검색을 통해 검증하고 주석지식으로 등록하는 주석지식 생성 방법으로서,An annotation knowledge generation method of verifying annotation knowledge through search and registering it as annotation knowledge,
    a) 자연어/의미단위용어 표현, 연산자, 기간, 사이트, 분야, 카테고리 등 검색 질의어 문법이 허용하는 문구를 이용하는 검색 질의어를 획득하여 검색을 수행하는 검색 단계;a) a search step of performing a search by obtaining a search query using a phrase allowed by a search query grammar such as a natural language / meaning term expression, an operator, a period, a site, a field, a category;
    b) 검색 결과를 보여주고 사용자 검토 이후에 검증을 거친 검색 질의어, 주석 대상 자연어 표현, 주석하려는 의미단위용어 및 주석지식에 대한 설명과 함께 주석지식 생성 요청을 획득하는 주석지식 생성 요청 수령 단계;b) an annotation knowledge generation request receiving step of displaying a search result and acquiring an annotation knowledge generation request along with a description of a verified query query, an annotation target natural language expression, a semantic unit term to be annotated, and an annotation knowledge after a user review;
    c)) 검증을 거친 검색 질의어, 주석 대상 자연어 표현, 주석하려는 의미단위용어를 내용으로 하는 주석지식과 주석지식ID를 생성하고 주석지식, 주석지식ID 및 설명을 합하여 주석지식 항목을 생성하는 주석지식 생성 단계;를c)) Annotated knowledge to generate comment knowledge and comment knowledge IDs that include the verified search query word, the natural language to be commented, and the semantic unit term to be commented, and the comment knowledge, comment knowledge ID, and description to create comment knowledge items. Generating step;
    포함하는 주석지식 생성 방법How to generate annotation knowledge to include
  21. 각 집단의 기본값을 결정하고 기본값의 적용 대상에 포함되는 집단들의 우선 순위를 결정하는 방법으로서,As a method of determining the default value of each group and the priority of the groups included in the application of the default value,
    a) 각 집단은 자연어 표현 별 의미단위용어의 사용빈도를 기록하고 사용빈도가 가장 높은 의미단위용어를 해당 자연어 표현의 의미단위용어 기본값으로 정하는 집단별 의미단위용어 기본값 결정단계;a) each group records the frequency of use of the semantic unit term for each natural language expression and determines the semantic unit term default value for each group to set the highest semantic unit term as the default value of the semantic unit term of the natural language expression;
    b) 검색 질의어 작성 중이거나 문서의 소유자가 지정되어 있어 개인이 알려져 있는 경우 특정 자연어 표현에 대한 의미단위용어를 개인의 기본값으로 지정하는 개인 의미단위용어 기본값 적용 단계;b) applying a default value of a personal semantic unit term that designates a semantic unit term for a specific natural language expression as a default value of the individual when the search query is being prepared or the owner of the document is known;
    c) 개인 기본값 적용단계에서 해당하는 기본값이 존재하지 않고 문서의 소속집단(분야)이 지정되어 있는 경우 해당 자연어 표현에 대한 의미단위용어를 해당 집단의 기본값으로 지정하며 해당 집단이 한 개 이상인 경우 소속원 수가 작은 집단에 우선권을 주는 집단 의미단위용어 기본값 적용 단계;c) If the default value does not exist in the step of applying the personal default value and the group (field) of the document is specified, the semantic unit term for the natural language expression is designated as the default value of the group. Applying a group semantic unit default value to give priority to a small group;
    d) 집단 기본값 적용단계에서 해당하는 기본값이 존재하지 않는 경우 해당 자연어 표현에 대한 의미단위용어를 인터넷의 기본값으로 지정하는 인터넷 의미단위용어 기본값 적용 단계;d) applying a default value of a semantic unit term that designates a semantic unit term for the natural language expression as a default value of the Internet if a corresponding default value does not exist in the group default value applying step;
    를 포함하는 자연어 표현의 의미단위용어 기본값 결정 방법Determination of Semantic Unit Term Default Values in Natural Language Expressions
  22. a)자연어로 문장을 작성하는 자연어 작성부;a) natural language writing unit for writing sentences in natural language;
    b)작성된 자연어 표현에 의미단위용어를 주석하는 의미단위용어 문서 주석부 ; 및b) the semantic unit term document commenting unit which annotates the semantic unit term in the written natural language expression; And
    c)자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 획득하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를c) a semantic unit term dictionary manager for acquiring natural language expressions and descriptions input by a user when the meanings of natural language expressions vary, and dynamically generating separate terms for each meaning, and modifying, merging, and deleting the generated terms; To
    포함하는 의미단위용어 기반 문서 작성기Semantic unit-based document builder, including
  23. 청구항 22에,The method according to claim 22,
    의미단위용어 주석 작업을 주석지식과 의미단위용어 기본값을 이용하여 도와주는 의미단위용어 주석기; 가Semantic unit term commenter to assist in comment operations with annotation knowledge and semantic unit defaults; end
    더해져서 강화된 의미단위용어 기반 문서 작성기Added semantic term-based document builder
  24. 자연어와 의미단위용어를 이용하여 문서를 작성하는 방법으로서,As a method of writing a document using natural language and semantic unit terms,
    a) 자연어로 문서를 작성하는 자연어 문서 작성 단계;a) natural language document creation step of creating a document in natural language;
    b) 자연어 문장에 주석기의 주석지식과 의미단위용어 기본값을 적용하여 개별 자연어 표현마다 의미단위용어를 주석하는 지식 기반 주석 단계;b) a knowledge-based comment step of annotating semantic unit terms for each natural language expression by applying commentary knowledge of the commenter and default values of the semantic unit to the natural language sentence;
    c) 주석 변경 요청 및, 의미단위용어 변경 대상 자연어 표현을 획득하여 해당 자연어 표현에 대한 의미단위용어 목록을 화면 표시하는 주석 변경 요청 단계;c) a comment change request step of obtaining a comment change request and a semantic unit term change target natural language expression and displaying a list of semantic unit terms for the corresponding natural language expression;
    d) 화면 표시된 의미단위용어 목록에서 선택된 의미단위용어를 획득하여 해당 자연어 표현의 의미단위용어를 주석하는 의미단위용어 주석 수정 단계; 및d) obtaining a semantic unit term selected from the displayed semantic unit term list and annotating the semantic unit term annotation to annotate the semantic unit term of the natural language expression; And
    e) 화면 표시된 의미단위용어 목록에 해당하는 의미단위용어가 없는 상황에서 의미단위용어 생성 요청, 자연어 표현 및 설명을 획득하여 의미단위용어를 생성하여 주석하는 의미단위용어 생성 주석 단계;를e) a semantic unit term generation annotation step of generating and annotating a semantic unit term by obtaining a semantic unit term generation request, a natural language expression, and a description in the absence of a semantic unit term corresponding to the semantic unit term list displayed on the screen;
    포함하는 의미단위용어 문서 작성 방법How to write a semantic unit term document
  25. a)검색 대상 문서를 모아오는 문서 수집기; a) a document collector for collecting documents to be searched;
    b)자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인기;b) a semantic unit term-based indexer that indexes natural and semantic terminology by adding semantic unit term fields to existing natural language indexes that index documents written using natural language only;
    c)기존의 자연어 질의어 외에 의미단위용어를 추가하여 검색할 수 있게 하여 주는 의미단위용어 기반 검색기; 및c) a semantic unit term based searcher for adding and searching semantic unit terms in addition to existing natural language query terms; And
    d)자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 이용하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를d) a semantic unit term dictionary manager for dynamically generating a separate term for each meaning and modifying, merging, and deleting the generated terms by using natural language expressions and descriptions input by the user when the meanings of the natural language expressions vary; To
    포함하는 의미단위용어 기반 검색 시스템Semantic unit term-based search system that includes
  26. 청구항 25에,To claim 25,
    의미단위용어 질의어로 검색된 결과 문서들에 들어 있는 자연어 표현에 의미단위용어를 주석하여(직접 문서에 주석을 하는 것이 아니라 색인에 주석한다) 주는 의미단위용어 기반 검색 주석기; 가Semantic Unit Term A semantic unit term-based search commenter for annotating semantic terms (not commenting the document directly but in the index) to natural language expressions contained in the result documents searched by the query; end
    더해져서 강화된 의미단위용어 기반 검색 시스템Added semantic unit term based search system
  27. 청구항 25에,To claim 25,
    의미단위용어 주석 작업을 주석지식과 의미단위용어 기본값을 이용하여 도와주는 의미단위용어 주석기; 가Semantic unit term commenter to assist in comment operations with annotation knowledge and semantic unit defaults; end
    더해져서 강화된 의미단위용어 기반 검색 시스템Added semantic unit term based search system
  28. 청구항 25에,To claim 25,
    의미단위용어 질의어로 검색된 결과 문서들에 들어 있는 자연어 표현에 의미단위용어를 주석하여(직접 문서에 주석을 하는 것이 아니라 색인에 주석한다) 주는 의미단위용어 기반 검색 주석기; 및Semantic Unit Term A semantic unit term-based search commenter for annotating semantic terms (not commenting the document directly but in the index) to natural language expressions contained in the result documents searched by the query; And
    의미단위용어 주석 작업을 주석지식과 의미단위용어 기본값을 이용하여 도와주는 의미단위용어 주석기; 가Semantic unit term commenter to assist in comment operations with annotation knowledge and semantic unit defaults; end
    더해져서 강화된 의미단위용어 기반 검색 시스템Added semantic unit term based search system
  29. 직접 문서 수집 및 색인을 하지 않고 외부 검색 시스템에서 얻은 정보를 이용하여 자체 의미단위용어 기반 색인을 만드는 메타 검색 시스템으로서,A meta-search system that builds its own semantic unit term-based index using information obtained from external search systems without collecting and indexing documents directly.
    a)외부 자연어 검색 시스템에서 검색하여 자체 보유 의미단위용어 색인에 자연어/의미단위용어 색인 정보를 저장하는 자연어 기반 검색 주석기;a) a natural language-based search commenter for retrieving from an external natural language retrieval system and storing natural language / meaning unit index information in its own semantic unit term index;
    b)자체 보유 의미단위용어 기반 색인으로부터 기존의 자연어 질의어 외에 의미단위용어를 추가하여 검색할 수 있게 하여 주는 의미단위용어 기반 검색기;b) a semantic unit term-based searcher that enables to search by adding semantic unit terms in addition to existing natural language query terms from a semantic unit term-based index owned by itself;
    c)의미단위용어 질의어로 검색된 결과 문서들에 들어 있는 자연어 표현에 의미단위용어를 주석하여(직접 문서에 주석을 하는 것이 아니라 색인에 주석한다) 주는 의미단위용어 기반 검색 주석기;c) a semantic unit term-based search commenter that annotates the semantic unit terminology (annotating the document directly, but to the index) in the natural language expression contained in the resulting documents retrieved by the query term;
    d)의미단위용어 주석 작업을 주석지식과 기본값을 이용하여 도와주는 의미단위용어 주석기; 및 d) a semantic unit term commenter that assists with synonym terminology operations with annotation knowledge and default values; And
    e)자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 이용하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를e) when the meanings of natural language expressions vary, a semantic unit term dictionary manager that dynamically generates separate terms for each meaning by using natural language expressions and descriptions input by the user, and corrects, merges, and deletes the generated terms; To
    포함하는 메타 검색 시스템 유형의 의미단위용어 기반 검색 시스템Semantic unit term based search system of meta search system type
  30. 전세계 국가 및 언어를 대상으로 서비스하는 검색 시스템의 모든 색인어에 대해 해당 색인어가 둘 이상의 의미를 가지면 각각의 의미에 대해 별도의 용어를 생성하여 의미 단위로 분리하여 자연어의 모호성을 제거한 정보 검색 방법으로서, If the index word has more than one meaning for all index words of the search system serving the countries and languages around the world, separate terms are generated for each meaning and separated into semantic units to remove information ambiguity.
    a) 검색 시스템의 대상이 되는 문서를 수집하는 의미단위용어 기반 문서 수집 단계;a) a semantic unit term-based document collection step of collecting documents targeted for a retrieval system;
    b) 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인 단계; 및b) a semantic unit term-based indexing step of indexing natural and semantic unit terms by adding a semantic unit term field to an existing natural language index that indexes documents written using only natural language; And
    c) 색인에 저장된 자연어 표현 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색하는 의미단위용어 기반 검색 단계;를 c) a semantic unit term-based search step of searching for a semantic unit term and a query word including a natural term expression for natural language expressions and semantic unit terms stored in the index;
    포함하는 의미단위용어 기반 검색 시스템 작동 방법How a Semantic Unit-Based Search System Containing
  31. 전세계 국가 및 언어를 대상으로 서비스하는 검색 시스템의 모든 색인어에 대해 해당 색인어가 둘 이상의 의미를 가지면 각각의 의미에 대해 별도의 용어를 생성하여 의미 단위로 분리하여 자연어의 모호성을 제거한 정보 검색 방법으로서,If the index word has more than one meaning for all index words of the search system serving the countries and languages around the world, separate terms are generated for each meaning and separated into semantic units to remove information ambiguity.
    a) 검색 시스템의 대상이 되는 문서를 수집하는 의미단위용어 기반 문서 수집 단계;a) a semantic unit term-based document collection step of collecting documents targeted for a retrieval system;
    b) 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인 단계;b) a semantic unit term-based indexing step of indexing natural and semantic unit terms by adding a semantic unit term field to an existing natural language index that indexes documents written using only natural language;
    c) 검색 주석 요청, 주석 대상을 찾기 위한 질의어, 주석 대상 자연어 표현 및 주석될 의미단위용어를 획득하여 해당 질의어로 검색한 결과에 포함된 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하는 검색 주석 단계; 및c) requesting a search annotation, querying to find an annotation target, obtaining a natural language expression to be annotated, and a semantic unit term to be annotated, and annotating the semantic unit term on the search system index to the natural language expression included in the search result of the query term. Search annotation step; And
    d) 색인에 저장된 자연어 표현 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색하는 의미단위용어 기반 검색 단계;를d) a semantic unit term-based search step of searching for a semantic unit term and a semantic term term stored in an index and a query word including a semantic unit term and a natural word term;
    포함하는 의미단위용어 기반 검색 시스템 작동 방법How a Semantic Unit-Based Search System Containing
  32. 전세계 국가 및 언어를 대상으로 서비스하는 검색 시스템의 모든 색인어에 대해 해당 색인어가 둘 이상의 의미를 가지면 각각의 의미에 대해 별도의 용어를 생성하여 의미 단위로 분리하여 자연어의 모호성을 제거한 정보 검색 방법으로서,If the index word has more than one meaning for all index words of the search system serving the countries and languages around the world, separate terms are generated for each meaning and separated into semantic units to remove information ambiguity.
    a) 검색 시스템의 대상이 되는 문서를 수집하는 의미단위용어 기반 문서 수집 단계;a) a semantic unit term-based document collection step of collecting documents targeted for a retrieval system;
    b) 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인 단계;b) a semantic unit term-based indexing step of indexing natural and semantic unit terms by adding a semantic unit term field to an existing natural language index that indexes documents written using only natural language;
    c) 특정 조건에서 특정 자연어 표현이 어떤 의미가 있다는 정보를 갖고 있는 주석지식을 이용하여 자연어 표현에 의미단위용어를 주석하는 주석지식 수행 단계; 및c) performing annotation knowledge to annotate semantic unit terms in natural language expressions using annotation knowledge having information that certain natural language expressions have meaning under specific conditions; And
    d) 색인에 저장된 자연어 표현 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색하는 의미단위용어 기반 검색 단계;를d) a semantic unit term-based search step of searching for a semantic unit term and a semantic term term stored in an index and a query word including a semantic unit term and a natural word term;
    포함하는 의미단위용어 기반 검색 시스템 작동 방법How a Semantic Unit-Based Search System Containing
  33. 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 색인부를 포함하는 의미단위용어 기반 색인기A semantic unit term-based indexer that includes a semantic unit term index section for indexing natural and semantic unit terms by adding a semantic unit term field to an existing natural language index that indexes documents written using only natural language.
  34. 청구항 33에 있어서,The method according to claim 33,
    추가되는 의미단위용어 필드가 사용자가 입력한 자연어 대표표현과 해당 자연어 대표표현의 의미 일련번호에 의해 자동 생성되는“고유ID”라고 부르는 용어 필드인 것을 특징으로 하는 의미단위용어 기반 색인기The semantic unit term-based indexer, wherein the added semantic unit term field is a term field called “unique ID” which is automatically generated by the natural language representative expression input by the user and the semantic serial number of the natural language representative expression.
  35. 청구항 33에 있어서,The method according to claim 33,
    추가되는 의미단위용어 필드가 사용자가 입력한 자연어 표현과 해당 자연어 표현의 의미 일련번호에 의해 자동 생성되는“표현의미ID”라고 부르는 용어 필드인 것을 특징으로 의미단위용어 기반 색인기The semantic unit term-based indexer is a term field called “expression meaning ID” which is automatically generated by the natural language expression input by the user and the semantic serial number of the natural language expression.
  36. 검색 시스템이 문서 수집기를 이용하여 저장소에 모아놓은 문서들을 자연어/의미단위용어별로 색인하는 방법으로서,The search system indexes documents collected in the repository by natural language / meaning terms using a document collector.
    a) 문서의 각 단어에 대해 의미단위용어 필드를 공란으로 하여 검색 시스템 색인을 만드는 자연어 색인 생성 단계; 및a) a natural language indexing step of creating a search system index with a semantic unit term field blank for each word of the document; And
    b) 해당 단어에 의미단위용어 주석이 되어 있는 경우 해당 단어 색인 항목의 의미단위용어 필드에 해당 의미단위용어를 기록하는 의미단위용어 색인 생성 단계; 를b) a semantic unit term index generation step of recording the semantic unit term in the semantic unit term field of the word index item when the semantic unit term is commented on the word; To
    포함하는 의미단위용어 기반 색인 방법Semantic unit-based indexing methods
  37. 검색을 통해 찾아진 문서들에 대해 특정 자연어 표현에 특정 의미단위용어를 검색 시스템 색인 상에서 주석하는 장치로서,An apparatus for annotating a specific semantic unit term in a search system index to a specific natural language expression for documents found through a search.
    a)검색을 통해 찾아진 다수의 문서들에 대해 특정 자연어 표현에 의미단위용어를 검색 시스템 색인 상에서 주석하며 문서 내의 어느 자연어 표현에 대한 주석인가는 명시하지 않는 문서 검색 주석부; 및a) a document retrieval comment section for commenting a semantic unit term on a search system index for a particular natural language expression for a plurality of documents found through a search and not specifying which natural language expression in the document is an annotation; And
    b)검색으로 찾아진 문서 내의 주석 대상 자연어 표현 각각에 대해 문서 내 위치 정보까지 포함하여 의미단위용어를 검색 시스템 색인 상에서 주석하는 단어 검색 주석부;를b) a word search annotation unit that annotates semantic unit terms on a search system index, including location information in the document, for each of the natural language expressions to be annotated in the document found by the search;
    포함하는 의미단위용어 기반 검색 주석기Semantic unit-based search commenter that includes
  38. 문서 단위가 아닌 단어 단위로 처리하는 장치이며, 검색을 통해 찾아진 단어들에 대해 특정 자연어 표현에 특정 의미단위용어를 검색 시스템 색인 상에서 주석하는 장치로서,It is a device that processes word units, not document units, and annotates a specific semantic unit term on a search system index to a specific natural language expression for words found through a search.
    a)검색을 통해 문서를 찾는 것이 아니라 단어를 찾아서 주석 대상인 단어를 명확히 하는 단어 검색부; 및a) a word search unit that searches for words and clarifies the words to be commented instead of searching for a document through a search; And
    b)검색으로 찾아진 단어에 대해 문서 위치 및 문서 내 위치를 명시하여 검색 시스템 색인 상에서 주석하는 단어 주석부;를b) a word comment section that specifies a document location and a location within the document for comments found in the search and annotates on the search system index;
    포함하는 의미단위용어 기반 검색 주석기Semantic unit-based search commenter that includes
  39. 검색을 통해 찾아진 문서들을 대상으로 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하며 문서 내 어느 위치의 자연어 표현이라는 것은 명시하지 않는 특징을 갖는 색인 상의 검색 주석 방법으로서,This is a search annotation method for indexes that has a feature of annotating a specific semantic unit term in an index with respect to documents found through a search, and does not specify that a natural language expression at any position in a document is provided.
    a) 자연어와 의미단위용어를 포함하는 질의어를 획득하여 문서들을 검색하는 의미단위용어 기반 문서 검색 단계;a) a semantic unit term based document retrieval step of retrieving documents by obtaining a query word including a natural language and a semantic unit term;
    b) 검색 결과 문서들 전체 또는 선택된 일부 문서 목록, 주석 대상 자연어 표현 및 주석될 의미단위용어를 획득하는 문서 검색 주석 요청 수령 단계; 및b) a document search annotation request receiving step of obtaining a list of all or some selected documents of the search result documents, a natural language expression to be annotated, and a semantic unit term to be annotated; And
    c) 선택된 문서들에 대해 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하며 해당 자연어 표현의 문서 내의 위치는 기록하지 않는 문서 검색 주석 단계; 를c) a document search annotation step for annotating the semantic unit terminology corresponding to the natural language expression on the search system index for the selected documents and not recording the position in the document of the natural language expression; To
    포함하는 문서 검색 주석 방법How to Annotate Searching Documents That Include
  40. 검색을 통해 찾아진 단어들을 대상으로 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하며 문서 내 어느 위치의 자연어 표현이라는 것은 명시하는 특징을 갖는 색인 상의 검색 주석 방법으로서,Annotation of a specific semantic unit term in an index for a specific natural language expression for words found through a search, and a natural language expression at a certain position in a document is a search annotation method in an index having a feature that specifies.
    a) 자연어와 의미단위용어를 포함하는 질의어를 획득하여 단어들을 검색하는 의미단위용어 기반 단어 검색 단계;a) a semantic unit term-based word retrieval step of searching for words by obtaining a query word including a natural language and a semantic unit term;
    b) 검색 결과 단어들 전체 또는 선택된 일부 단어 목록, 주석 대상 자연어 표현 및 주석될 의미단위용어를 획득하는 단어 검색 주석 요청 수령 단계; 및b) a word search annotation request receiving step of obtaining a list of all or selected partial words of the search result words, a natural language expression to be annotated, and a semantic unit term to be annotated; And
    c) 선택된 단어들에 대해 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하며 해당 자연어 표현의 문서 내의 위치를 명시하는 단어 검색 주석 단계; 를c) a word search annotation step that annotates the semantic unit terminology on the search system index to the natural language expression for the selected words and specifies a location within the document of the natural language expression; To
    포함하는 단어 검색 주석 방법How to Include Word Search Comments
  41. 질의어를 통해 원하는 문서를 찾아내는 검색 시스템에 있어서,In a search system that finds a desired document through a query,
    a)찾아내는 대상이 검색 질의어를 만족하는 문서이며 결과가 문서 단위로 표시되는 의미단위용어 기반 문서 검색부;a) a semantic unit term based document retrieval unit in which the object to be found is a document satisfying the search query word and the results are displayed in document units;
    b)찾아내는 대상이 검색 질의어를 만족하는 단어이며 결과가 단어 단위로 표시되어 한 문서에 해당하는 단어가 다수이면 결과가 다수 항목으로 표시되는 의미단위용어 기반 단어 검색부; 및b) a semantic unit term-based word search unit that finds a word that satisfies the search query word and the result is displayed in word units so that a plurality of words corresponding to a document are displayed in multiple items; And
    c)검색에 사용되는 지식을 생성하고 관리하는 의미단위용어 기반 검색지식 관리부; 를c) a semantic unit term based search knowledge management unit for generating and managing knowledge used for searching; To
    포함하는 의미단위용어 기반 검색기Semantic unit-based searcher that includes
  42. 질의어를 통해 원하는 문서를 찾아내는 검색 시스템에 있어서 자연어의 모호성을 극복하기 위해 의미단위용어 기반의 질의어를 작성하는 방법으로서,In order to overcome the ambiguity of natural language in a search system that finds a desired document through a query, a method of creating a term based on semantic unit terms,
    a) 기존의 질의 방법과 같이 자연어를 획득하여 질의어를 작성하는 자연어 질의어 작성 단계;a) a natural language query generation step of creating a query by obtaining a natural language as in a conventional query method;
    b) 질의어 내부의 주석 대상 자연어 표현 및 의미단위용어 사전 찾기 요청을 획득하여 해당하는 의미단위용어들을 나열해 주는 사전 찾기 단계;b) a dictionary search step of acquiring a request for annotating a natural language expression and a semantic unit term dictionary in a query and listing corresponding semantic unit terms;
    c) 나열된 의미단위용어 목록 중에서 선택된 항목을 획득하여 해당 자연어에 주석을 하는 의미단위용어 주석 단계: 및c) the semantic unit term comment step of obtaining a selected item from the list of semantic unit terms listed and annotating the natural language; and
    d) 의미단위용어로 주석된 질의어에 대해 자연어/의미단위용어 쌍을 순수 의미단위용어로 바꾸는 등의 수정을 위해 질의어를 변경하는 질의어 수정단계:를d) A query modification step for modifying a query word to modify a natural word / mean unit pair to a pure semantic unit term for a query term annotated with a semantic unit term.
    포함하는 의미단위용어 기반 질의어 작성 방법How to Write a Semantic Unit-Based Query
  43. 검색 결과 항목 수가 검색된 단어 수와 같아 단어별 처리에 사용할 수 있으며, 단어검색 질의어를 통해 원하는 단어를 찾아내고 단어 단위로 결과를 표시하며, 나열 항목 수가 검색된 단어 수와 같은 검색 방법으로서,The number of search result items is the same as the number of words searched for, and can be used for word-by-word processing. The word search query can be used to find the words you want and display the results in word units.
    a)문서를 찾아내는 검색 질의어, 검색된 문서에서 찾고자 하는 용어(자연어 표현 또는 의미단위용어) 및 단어 검색 요청을 획득하는 단어 검색 요청 수령 단계; 및a) a word search request receiving step of obtaining a search query to find a document, a term (natural language expression or semantic unit term) to be searched for in the searched document, and a word search request; And
    b)단어 검색 질의어로 검색된 문서 내의 찾고자 하는 용어들을 나열하는 단어 검색 결과 표시 단계; 를b) a word search result display step of listing terms to be searched for in a document searched with a word search query; To
    포함하는 의미단위용어 기반 단어 검색 방법Semantic unit-based word search method that includes
  44. 검색 결과가 문서별 단어별로 정리되어 결과를 문서별 처리 및 단어별 처리에 사용할 수 있는 구조이며, 검색 질의어를 통해 원하는 문서 내의 원하는 단어를 찾아내고 문서를 한 항목으로 표시하고 각 문서별로 각 단어 단위로 결과를 표시하며 나열 항목 수가 문서 수와 용어 수를 합친 것과 같은 검색 방법으로서,The search results are organized by word by document, and the results can be used for document-by-document and word-by-word processing.The search query finds the words you want within the desired document, displays the document as one item, and displays each word unit for each document. Is a search method that displays results in, and lists items as the sum of documents and terms.
    a)문서를 찾아내는 검색 질의어, 검색된 문서에서 찾고자 하는 용어(자연어 표현 또는 의미단위용어) 및 문서/단어 검색 요청을 획득하는 문서/단어 검색 요청 수령 단계; 및a) a document / word search request receiving step of obtaining a search query word for finding a document, a term (natural language expression or semantic unit term) to be searched for in the searched document, and a document / word search request; And
    b)단어 검색 질의어로 검색된 문서들을 문서 단위로 나열하고 문서마다 찾고자 하는 용어별로 나열하는 단어 검색 결과 문서별 단어별 표시 단계; 를b) a word search result for displaying the documents searched by the word search query in document units and the word search results for each document for each term; To
    포함하는 의미단위용어 기반 문서별 용어별 검색 방법How to search by term based on semantic unit terms
  45. 검색 질의어를 수행하여 결과를 검토하여 의미 있는 검색 질의어는 검색지식으로 등록하여 활용하는 방법으로서,By performing a search query and reviewing the results, a meaningful search query is registered and used as search knowledge.
    a) 의미단위용어 기반 검색 질의어를 획득하여 수행하고 사용자 검토를 위해 검색 결과를 화면 표시하는 의미단위용어 기반 검색 질의어 검토 단계;a) a semantic unit term based search query review step of obtaining and performing a semantic unit term based search query word and displaying a search result for a user review;
    b) 검색 질의어 및 그에 대한 설명을 획득하여 검색지식을 생성하고 검색지식ID도 생성하는 검색지식 생성 단계;b) generating a search knowledge by obtaining a search query and a description thereof, and generating a search knowledge ID;
    c) 검색지식을 생성한 사용자가 원하는 경우 타인의 활용을 위해 공개 요청을 획득하는 검색지식 공개 요청 수령 단계: 및c) receiving a search knowledge disclosure request step of obtaining a disclosure request for use by others if the user who created the search knowledge is desired: and
    d) 검색지식을 활용할 수 있도록 목록을 제공하는 검색지식 공개 단계:를d) The search knowledge disclosure step, which provides a list so that you can use your search knowledge:
    포함하는 의미단위용어 기반 검색지식 생성 및 활용 방법How to create and use semantic unit term-based search knowledge
  46. 검색 시스템의 의미단위용어 기반 색인에서 의미단위용어 주석 정보를 추출하고 이를 정보체계 내부 문서들에 적용하여 모든 내부 문서들을 의미단위용어 기반 문서들로 만드는 장치로서,A device for extracting semantic unit term annotation information from a semantic unit term-based index of a retrieval system and applying it to documents in the information system to make all internal documents into semantic unit term-based documents.
    a) 의미단위용어 기반 색인에 의미단위용어 주석을 누적시키는 의미단위용어 기반 검색 시스템; 및a) a semantic unit term based retrieval system for accumulating semantic unit term annotations in a semantic unit term based index; And
    b) 의미단위용어 기반 색인에 저장된 의미 정보를 추출하고 문서 단위로 정렬하여 해당문서에 적용하여 의미단위용어 기반 문서로 만드는 색인 기반 문서정보체계 구축부; 를b) an index-based document information system construction unit for extracting semantic information stored in a semantic unit term-based index, sorting by document, and applying the document to a semantic unit term-based document; To
    포함하는 의미단위용어 기반 문서정보체계 구축기Constructor for semantic unit term-based document information system that includes
  47. 청구항 46에,The method of claim 46,
    주석지식 및 기본값을 이용하여 주석 대상 문서 내의 주석 대상 자연어 표현에 의미단위용어를 주석하여 의미단위용어 기반 문서로 만드는 주석지식 기반 문서정보체계 구축부; 가Annotation knowledge-based document information system construction unit for generating semantic unit term-based documents by annotating semantic unit terms to annotated natural language expressions in annotated documents using annotation knowledge and default values; end
    추가되어 강화된 의미단위용어 기반 문서정보체계 구축기Added semantic unit term based document information system builder
  48. 전지구적 문서정보체계 또는 특정 문서정보체계를 의미단위용어 기반 문서정보체계로 만드는 장치로서,As a device for making a global document information system or a specific document information system into a semantic unit term-based document information system,
    a)자연어 표현과 의미 설명 정보를 획득하여 자연어 표현을 기반으로 의미단위용어를 생성하고, 생성된 용어에 의미 설명 정보를 부착하여 의미단위용어 사전 항목을 만들고, 이들 용어 사전 항목을 수정,병합,삭제하여 용어를 관리하는 의미단위용어 사전 관리기;a) Generate semantic unit terms based on natural language expressions by acquiring natural language expression and semantic description information, attach semantic description information to the created terms to make semantic unit term dictionary items, modify, merge, A semantic unit term dictionary manager for managing terms by deleting them;
    b)주석 대상 문서들에 대해 주석지식 및 기본값을 이용하여 주석 대상 자연어 표현에 의미단위용어를 주석하여 의미단위용어 기반 문서로 만드는 주석지식 기반 문서정보체계 구축부; 를b) Annotation knowledge-based document information system construction unit for constructing semantic unit term-based documents by annotating semantic unit terms to annotated natural language expressions using annotation knowledge and default values for the comment target documents; To
    포함하는 의미단위용어 기반 문서정보체계 구축기Constructor for semantic unit term-based document information system that includes
  49. 각 문서에 들어있는 자연어 표현을 의미단위용어로 주석하는 정보가 쌓여 있는 검색 시스템 색인을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 방법으로서,As a method of constructing a document information system such as the Internet based on a semantic unit term using a search system index, which accumulates information that annotates natural language expressions in each document as semantic unit terms,
    a) 검색 시스템의 색인에 누적된 의미단위용어 주석정보를 문서 위치별로 분류하여 문서별 의미단위용어 주석 정보를 생성하는 문서 주석정보 작성 단계;a) document annotation information generation step of generating semantic unit term annotation information for each document by classifying semantic unit term annotation information accumulated in an index of a search system for each document position;
    b) 검색 시스템이 수집한 각 문서에 해당 문서에 대한 의미단위용어 주석 정보를 포함시켜 새로운 문서를 만드는 문서 주석 단계; 및b) a document comment step of creating a new document by including semantic unit term annotation information about the document in each document collected by the retrieval system; And
    c) 의미단위용어를 포함시켜 작성된 문서들을 검색시스템의 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 의미단위용어 문서 저장 단계; 를c) a semantic unit term document storing step of storing documents, including semantic unit terminology, including existing document position information in a separate storage place of a retrieval system; To
    포함하는 검색 시스템 색인을 이용한 의미단위용어 기반 문서정보체계 구축 방법Semantic unit term-based document information system construction using search system index
  50. 자연어 표현을 의미단위용어로 주석하는 지식이 모여 있는 주석지식을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 방법으로서,As a method of constructing a document information system such as the Internet based on semantic unit terminology, using annotation knowledge gathering knowledge that annotates natural language expression as semantic unit terminology,
    a)문서정보체계에 속하는 문서들을 수집하는 문서정보체계 문서 수집 단계;a) document information system document collection step of collecting documents belonging to the document information system;
    b)문서별로 내부에 들어 있는 자연어 표현에 대해 해당하는 주석지식을 검색하여 찾아진 주석지식을 해당하는 자연어 표현에 적용하는 작업을 반복하여 문서 내 모든 자연어 표현에 대해 의미단위용어를 주석하는 주석지식 문서 적용 단계;b) Annotation knowledge to annotate semantic unit terms for all natural language expressions in a document by retrieving the corresponding annotation knowledge for natural language expressions contained in each document and applying the found annotation knowledge to the corresponding natural language expressions. Document application step;
    c) 문서별로 주석 작업이 완료되면 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 단계를 반복하여 모든 문서에 대해 의미단위용어 기반 문서로 만드는 주석지식 문서정보체계 적용 단계; 를c) applying the annotation knowledge document information system to make the semantic unit term-based document for all documents by repeating the step of storing the existing document location information in a separate storage location when the annotation work is completed for each document; To
    포함하는 주석지식을 이용한 의미단위용어 기반 문서정보체계 구축 방법Semantic unit term based document information system construction method using annotation knowledge
  51. 검색 시스템에 포함이 되어있고 색인에 충분한 의미단위용어 정보가 쌓여있는 문서에 대해서는 검색 시스템 색인을 이용하고 색인에 정보가 없는 신규문서 또는 검색시스템 외부 문서에 대해서는 주석지식을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 방법으로서,Document information, such as the Internet, by using the search system index for documents that are included in the search system and having sufficient semantic unit term information accumulated in the index, and the annotation knowledge for new documents or documents outside the search system that do not have information in the index. As a method of constructing a system based on semantic unit terms,
    a) 문서정보체계에 속하는 문서들을 수집하는 문서정보체계 문서 수집 단계;a) document information system document collection step of collecting documents belonging to the document information system;
    b) 검색 시스템에 포함이 되어 있는 문서들을 대상으로 검색 시스템의 색인에 누적된 의미단위용어 주석정보를 문서 위치별로 분류하여 문서별 의미단위용어 주석 정보를 생성하는 문서주석정보 작성 단계;b) document comment information generation step of generating semantic unit term annotation information for each document by classifying semantic unit term annotation information accumulated in an index of the search system for documents included in the search system by document position;
    c) 검색 시스템에 포함된 각 문서에 해당 문서에 대한 의미단위용어 주석 정보를 포함시켜 새로운 문서를 만드는 문서 주석 단계;c) a document comment step of creating a new document by including semantic unit term annotation information for the document in each document included in the retrieval system;
    d) 의미단위용어를 포함시켜 작성된 문서들을 검색시스템의 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 의미단위용어 문서 저장 단계d) a step of storing the semantic unit term document that stores the documents created by including the semantic unit terminology, including the existing document location information in a separate storage location of the retrieval system;
    e) 검색시스템에 포함되지 않은 문서들을 대상으로, 문서별로 내부에 들어 있는 자연어 표현에 대해 해당하는 주석지식을 검색하여 찾아진 주석지식을 해당하는 자연어 표현에 적용하는 작업을 반복하여 문서 내 모든 자연어 표현에 대해 의미단위용어를 주석하는 주석지식 문서 적용 단계;e) For all documents that are not included in the search system, search for the corresponding annotation knowledge for the natural language expression contained in each document and apply the found annotation knowledge to the corresponding natural language expression. Applying an annotation knowledge document to annotate semantic unit terms for expressions;
    f) 문서별로 주석 작업이 완료되면 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 단계를 반복하여 검색시스템에 포함되지 않은 모든 문서에 대해 의미단위용어 기반 문서로 만드는 주석지식 문서정보체계 적용 단계; 를f) After annotation is completed for each document, repeating the step of storing the existing document location information in a separate storage location and applying the annotation knowledge document information system to make a semantic unit term-based document for all documents not included in the search system. ; To
    포함하는 검색 시스템 색인과 주석지식을 이용한 의미단위용어 기반 문서정보체계 구축 방법Semantic terminology based document information system using search system index and annotation knowledge
  52. 의미단위용어 기반 정보 체계에서 만들어지는 의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 대한 이견을 집단지성을 이용하여 관리하는 방법으로서,As a method that manages disagreements about the contents, comment contents, annotation knowledge, default value, and search knowledge of semantic unit terminology dictionary items created in semantic unit term-based information system,
    a) 의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 대한 이견이 있는 사용자가 토론 주제와 함께 토론 생성 요청을 하면 이를 획득하여 해당 주제에 토론 항목을 생성하는 토론 생성 단계;a) A discussion creation step in which a user with a disagreement about the semantic unit term dictionary entry, comment content, comment knowledge, default value, and search knowledge requests a discussion creation with the discussion topic and obtains it to create a discussion topic on that topic. ;
    b) 각자의 의견 내용을 획득하여 의견들을 저장하고 보여주는 토론 단계;b) a discussion stage in which each of the opinions is obtained and stored and displayed;
    c) 토론에서 합의에 도달하지 못하는 경우 투표 요청을 획득하여 투표 기능을 활성화하고 각자의 투표를 종합하는 투표 단계; 및c) a voting step of acquiring a voting request to activate the voting function and synthesizing each voting if the consensus is not reached in the discussion; And
    d) 토론 및 투표에서 얻은 결론을 획득하여 의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 적용하는 토론 결과 적용 단계; 를d) obtaining conclusions from discussions and voting and applying the discussion results to the semantic unit terminology entry, comment content, annotation knowledge, default values, and search knowledge; To
    포함하는 의미단위용어 관련 이견 조정 방법How to adjust disagreement about semantic unit terms
  53. 의미단위용어 기반 정보 체계에서 검색 시스템의 검색 대상 문서의 내용에 대한 주석 필요성에 따라 문서의 보완이나 변경의 필요가 있고 원본 문서를 직접 수정할 수 없는 상황에서 변경된 문서 내용을 저장하고 이용하는 방법으로서,In the semantic unit term-based information system, it is necessary to supplement or change the document according to the necessity of annotating the contents of the search target document, and to save and use the changed document content in a situation where the original document cannot be directly modified.
    a) 변경 요청, 대상 문서 및 문서 주소를 획득하여 원본 문서의 내용과 주소를 별도의 장소에 저장하는 문서 및 주소 저장 단계;a) document and address storage step of acquiring the change request, the target document and the document address, and storing the contents and the address of the original document in separate places;
    b) 내용 변경 요청과 변경 내용을 획득하여 해당 문서의 내용을 변경하여 저장하는 문서 내용 변경 단계; 및b) a document content change step of acquiring the content change request and the changed content, and changing and storing the content of the document; And
    c) 원본 문서의 주소로 변경된 내용 요청을 받으면 저장된 원본 문서 주소를 이용하여 변경된 문서를 찾고 이를 반환하여 이용할 수 있게 해주는 변경 문서 이용 단계; 를c) a change document use step of receiving a change request to the address of the original document and finding and returning the changed document using the stored original document address; To
    포함하는 검색 대상 문서 원본과 추가 정보의 통합 후 저장 및 이용 방법How to save and use the combined search source document source and additional information included
  54. 문서정보체계의 모든 문서들을 단어별로 정렬하고 정렬된 단어들을 단어 단위로 동시에 의미단위용어 주석을 함으로서 전 지구적 문서정보체계 또는 특정 문서정보체계를 효율적으로 의미단위용어 기반화 하는 방법으로서,As a method to efficiently semantic unit term-based global document information system or specific document information system by sorting all documents of document information system by words and annotating semantic unit terms by word at the same time.
    a)문서정보체계의 모든 문서들을 단어별로 정렬하기 위해 단어별 색인을 만드는 단계;a) creating a word-by-word index to sort all documents of the document information system by words;
    b)색인 상의 특정 단어 모음을 의미단위별로 분류하는 단계b) classifying a specific set of words on the index by semantic unit
    c)단어 각각의 의미마다 의미단위용어를 생성하는 단계;c) generating a semantic unit term for each meaning of the word;
    d)단어의 분류된 모음에 의미단위용어를 주석하는 단계;d) annotating semantic unit terms to the categorized vowels of words;
    e)각 개별 단어에 주석된 의미단위용어 및 문서 색인 정보를 이용하여 해당 문서에 의미단위용어를 주석하는 단계;e) annotating semantic unit terms in the document using semantic unit terms and document index information annotated in each individual word;
    를 포함하는 단어별 색인을 이용한 문서정보체계 의미단위용어 기반화 방법Document Information System Semantic Unit Terminology Based Method Using Word Index
  55. 청구항 54에 있어서, 단어별 색인을 위해 검색 시스템을 사용하고 특정 단어 모음을 분류하는 것을 검색 시스템 검색 방법에 의존하는 단어별 색인을 이용한 문서정보체계 의미단위용어 기반화 방법55. The method of claim 54, wherein the use of a retrieval system for word-by-word indexing and classification of a particular set of words relies on a retrieval system retrieval method using a word-by-word index.
  56. 청구항 2, 청구항 8, 청구항 9, 청구항 10, 청구항 11, 청구항 12, 청구항 17, 청구항 18, 청구항 19, 청구항 20 청구항 21, 청구항 24, 청구항 30, 청구항 31, 청구항 32, 청구항 36, 청구항 39, 청구항 40, 청구항 42, 청구항 43, 청구항 44, 청구항 45, 청구항 49, 청구항 50, 청구항 51, 청구항 52, 청구항 53, 청구항 54 및 청구항 55 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체Claims 2, 8, 9, 10, 11, 12, 17, 18, 19, 20, 21, 24, 30, 31, 32, 36, 39, Claim 42, 42, 43, 44, 45, 49, 50, 51, 52, 53, 54 and 55 for recording a program for executing the method of a computer on a computer. Computer readable media
PCT/KR2011/004113 2010-06-07 2011-06-06 Method for dynamically generating additional terms for each meaning of every natural language expression; dictionary manager, document generator, term annotator, search system, and device for building a document information system based on the method WO2011155736A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0053571 2010-06-07
KR1020100053571A KR20110133909A (en) 2010-06-07 2010-06-07 Semantic dictionary manager, semantic text editor, semantic term annotator, semantic search engine and semantic information system builder based on the method defining semantic term instantly to identify the exact meanings of each word

Publications (3)

Publication Number Publication Date
WO2011155736A2 true WO2011155736A2 (en) 2011-12-15
WO2011155736A3 WO2011155736A3 (en) 2012-04-19
WO2011155736A9 WO2011155736A9 (en) 2012-06-21

Family

ID=45098509

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/004113 WO2011155736A2 (en) 2010-06-07 2011-06-06 Method for dynamically generating additional terms for each meaning of every natural language expression; dictionary manager, document generator, term annotator, search system, and device for building a document information system based on the method

Country Status (2)

Country Link
KR (1) KR20110133909A (en)
WO (1) WO2011155736A2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014104944A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Dictionary markup method
US9946762B2 (en) 2014-09-16 2018-04-17 International Business Machines Corporation Building a domain knowledge and term identity using crowd sourcing
CN111008594A (en) * 2019-12-04 2020-04-14 科大讯飞股份有限公司 Error correction evaluation method, related equipment and readable storage medium

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101602342B1 (en) * 2014-07-10 2016-03-11 네이버 주식회사 Method and system for providing information conforming to the intention of natural language query
KR101661198B1 (en) * 2014-07-10 2016-10-04 네이버 주식회사 Method and system for searching by using natural language query
CN110059167A (en) * 2019-01-23 2019-07-26 艾肯特公司 Natural expression processing method, response method, equipment and the system of natural intelligence
CN117709375A (en) * 2024-02-01 2024-03-15 成都帆点创想科技有限公司 Text translation method and device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980029011A (en) * 1996-10-25 1998-07-15 구자홍 Vocabulary automatic classification device and method
KR20020036059A (en) * 2000-11-07 2002-05-16 옥철영 Method for disambiguating word-sense based on semantic informations extracted from definitions in dictionary
KR20070059881A (en) * 2005-12-06 2007-06-12 한국전자통신연구원 Method and apparatus for constructing database of semantic co-occurrence pattern

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980029011A (en) * 1996-10-25 1998-07-15 구자홍 Vocabulary automatic classification device and method
KR20020036059A (en) * 2000-11-07 2002-05-16 옥철영 Method for disambiguating word-sense based on semantic informations extracted from definitions in dictionary
KR20070059881A (en) * 2005-12-06 2007-06-12 한국전자통신연구원 Method and apparatus for constructing database of semantic co-occurrence pattern

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014104944A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Dictionary markup method
US9946762B2 (en) 2014-09-16 2018-04-17 International Business Machines Corporation Building a domain knowledge and term identity using crowd sourcing
CN111008594A (en) * 2019-12-04 2020-04-14 科大讯飞股份有限公司 Error correction evaluation method, related equipment and readable storage medium
CN111008594B (en) * 2019-12-04 2024-04-19 科大讯飞股份有限公司 Error-correction question review method, related device and readable storage medium

Also Published As

Publication number Publication date
KR20110133909A (en) 2011-12-14
WO2011155736A9 (en) 2012-06-21
WO2011155736A3 (en) 2012-04-19

Similar Documents

Publication Publication Date Title
WO2011155736A2 (en) Method for dynamically generating additional terms for each meaning of every natural language expression; dictionary manager, document generator, term annotator, search system, and device for building a document information system based on the method
WO2012074338A2 (en) Natural language and mathematical formula processing method and device therefor
WO2010068068A2 (en) Information search method and information provision method based on user's intention
WO2020009297A1 (en) Domain extraction based language comprehension performance enhancement apparatus and performance enhancement method
WO2019177182A1 (en) Multimedia content search apparatus and search method using attribute information analysis
WO2011137724A1 (en) Quasi natural language man-machine conversation device based on semantic logic
EP2391955A1 (en) Document analysis system
WO2010036012A2 (en) Internet-based opinion search system, and opinion search, advertisement service system and method for same
WO2012091360A2 (en) Method and system for providing user-customized content
WO2012060532A1 (en) Patent evaluation model generating method, patent evaluating method, patent dispute prediction model generating method, patent dispute prediction information generating method, patent licensing prediction information generating method, patent risk hedging information generating method, and system therefor
WO2011007935A1 (en) System and method for providing a consolidated service for a homepage
WO2018034426A1 (en) Method for automatically correcting error in tagged corpus by using kernel pdr
WO2013168860A1 (en) Method for displaying text associated with audio file and electronic device
WO2017209564A1 (en) Application list providing method and device therefor
WO2010021527A2 (en) System and method for indexing object in image
WO2013176365A1 (en) Method and electronic device for easily searching for voice record
WO2013176366A1 (en) Method and electronic device for easy search during voice record
WO2017146437A1 (en) Electronic device and method for operating the same
WO2012130145A1 (en) Method and device for acquiring and searching for relevant knowledge information
WO2014010975A1 (en) User interface apparatus and method for user terminal
WO2020197257A1 (en) Translating method using visually represented elements, and device therefor
WO2012097701A1 (en) Method, system and computer storage medium for pre-reading network data
WO2020082766A1 (en) Association method and apparatus for input method, device and readable storage medium
WO2014010819A1 (en) Method of implementing structured and non-structured data in xml document
WO2013119007A1 (en) Idea wheel-based data creating apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11792647

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11792647

Country of ref document: EP

Kind code of ref document: A2