WO2018101506A1 - 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 - Google Patents

문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 Download PDF

Info

Publication number
WO2018101506A1
WO2018101506A1 PCT/KR2016/013963 KR2016013963W WO2018101506A1 WO 2018101506 A1 WO2018101506 A1 WO 2018101506A1 KR 2016013963 W KR2016013963 W KR 2016013963W WO 2018101506 A1 WO2018101506 A1 WO 2018101506A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
classification
sentence
lexical
unit
Prior art date
Application number
PCT/KR2016/013963
Other languages
English (en)
French (fr)
Inventor
장준환
김현태
고준호
이재안
윤도현
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Publication of WO2018101506A1 publication Critical patent/WO2018101506A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a method of classifying documents using language processing techniques.
  • document classification techniques are used to categorize documents into specific categories according to the contents contained in the documents.
  • algorithms such as SLDA (Supervised Latent Dirichlet Allocation) and SVM (Support Vector Machines) are known as document classification techniques through machine learning.
  • the document classification technique through machine learning is not easy to prepare a data set for learning at the beginning of the learning, and there is a problem in that the classification result varies greatly depending on which data set is used for learning.
  • Such a limitation is because it is difficult to extract a specific keyword, especially in a document containing a large number of sentences, and is not suitable for classifying a document by extracting only a significant part.
  • the inventors of the present invention have completed the present invention as a result of research and efforts to solve the above problems.
  • the inventors of the present invention analyze the actual meaning of sentences included in a document based on a lexical semantic pattern to provide an answer to which category the document should be matched.
  • the document can be classified more accurately according to the actual meaning of the document by using the lexical semantic pattern.
  • one document is classified into a plurality of categories (document classifications) so that various meanings included in the document can be easily inferred.
  • the first aspect of the present invention defines a lexical semantic pattern (LSP) composed of morphemes, syllables, and words, stores them in a database, and hierarchically structured plural lexical meanings.
  • LSP lexical semantic pattern
  • a preprocessing unit defining a concept that is a group of patterns and storing the concept in a database;
  • a classification unit for extracting at least one document classification of the analysis target document by matching the syntax analysis result according to a document classification rule.
  • a multi-classifying device for documents that classifies one document into a plurality of categories is provided.
  • the analysis unit is a sentence extraction unit for separating the analysis target document in sentence units;
  • a sentence element analyzer for analyzing a sentence in at least one of a morpheme, a syllable, and a word
  • the sentence analysis result may include a syntax analysis unit that matches a lexical meaning pattern with a predefined lexical meaning pattern to derive a matching result of the lexical meaning pattern for each sentence as a syntax analysis result.
  • the classification unit may include a classification rule input unit for receiving a document classification rule including at least one of a lexical meaning pattern identifier and a concept identifier;
  • It may include a document classification matching unit for extracting at least one document classification of the analysis target document by matching the syntax analysis result to a predefined document classification according to the document classification rule.
  • a document classification in which a preprocessing unit classifies a document category based on 1) a lexical meaning pattern, 2) a concept of a group of plural lexical meaning patterns hierarchically structured, and 3) a lexical meaning pattern. Defining each and storing the data in a database;
  • Reconstructing a semantic category of words constituting a sentence comprising: extracting at least one document classification of an analysis target document by matching the parsed result with a document classification defined in advance according to a document classification rule Provides a multi-classification method of documents that classify one document into a plurality of categories using a lexical semantic pattern.
  • the present invention can grasp the content contained in the document and automatically classify the document into a predefined document category.
  • the present invention has the effect of greatly improving the accuracy of document classification by grasping the actual meaning of the syntax based on a structured vocabulary meaning pattern or concept model.
  • the present invention may not classify a document into one document classification, but may extract a plurality of document classifications according to various meanings included in the document. This makes it easy for users to see what the document contains, without having to read the actual document.
  • FIG. 1 is a view showing a preferred embodiment of the multi-classifier of the present invention.
  • FIG. 2 is a diagram illustrating an embodiment of defining a lexical meaning pattern in the present invention.
  • FIG. 3 is a view showing an embodiment for defining a concept in the present invention.
  • FIG. 4 is a diagram illustrating an example of analyzing a document using a lexical meaning pattern in the present invention.
  • FIG. 5 is a diagram showing an embodiment of multi-classifying a document in the present invention.
  • FIG. 6 is a view showing a preferred embodiment of the multi-classification method of the present invention.
  • FIG. 1 is a view showing a preferred embodiment of the multi-classifier of the present invention.
  • the multi-classification apparatus 100 of the present invention includes a pretreatment unit 110, an analysis unit 120, a classification unit 130.
  • the preprocessing unit 110 defines a lexical semantic pattern (LSP) composed of morphemes, syllables, and words and stores them in the first database 111.
  • LSP lexical semantic pattern
  • the lexical semantic pattern is similar to a regular expression for matching text, and is constructed using not only words but also stemming tags, semantic features, and various operators. For example, if you have a sentence that says, "How much is this month's cell phone bill," the LSP asks '/ NNG + @ month @phone @pay + (/ J_)?' @how + (/ SC)? ' It can be configured together.
  • '@' means semantics
  • '/' in front means stemming tags.
  • '/ J_' means investigation.
  • the symbols that define LSP are summarized as follows.
  • OR Operator to specify a category of values Of Part of speech expression + Represents morphological coupling to the left and right sides ? Means applied or unapplied to all expressions. Replaces all expressions once or means empty set. ! Expressions that negate the original meaning of an expression or word * Repeat expression Parts of speech N_: Correspondence (including nouns) J_: Investigation V_: Verb (verb, adjective) E_: Mother MA: Adverb
  • the preprocessing unit 110 defines a concept, which is a group of a plurality of lexical meaning patterns hierarchically structured, and stores the concept in the second database 113.
  • the concept may include a hierarchical structure as shown in FIG. 3.
  • the concept is a set of LSPs.
  • the concept is to bring together LPSs that have similar meanings.
  • Concepts can give meaning to sentences matched by LSPs. Therefore, the concept should be hierarchically structured to have a specific intention and to give a specific meaning.
  • a concept having a specific meaning such as a refund, return, or inquiry of a product, can be constructed, and a sentence matched to an LSP belonging to a refund concept means that the sentence includes a meaning of a refund.
  • semantic qualities can be defined as basic units that constitute the meaning of a concept. It is a kind of word dictionary that has similar vocabulary, stemming tags or pattern information.
  • Information in the semantic feature is defined as an entry.
  • One or more entries with the same semantics can be constructed into one set belonging to each semantic feature.
  • These semantic features can be used in the LSP, and in the actual analysis stage, all the entries in the semantic features are analyzed. For example, it is possible to pre-configure the meaning of 'clothing' and the entries such as 'cardigan', 'knit', 'vest', 'jumper', and so on. If an entry such as "vest” or "jumper” appears, a match is made.
  • the preprocessing unit 110 defines the document classification in advance and stores it in the third database 115.
  • the document classification is matched with at least one lexical semantic pattern or concept.
  • the vocabulary meaning pattern or concept matched with the document classification specifies what the document classification means.
  • the lexical semantic pattern matched to the document is the same as the lexical semantic pattern matched to a specific document classification, it plays a role of assigning the document to the document classification.
  • the database storing the document classification may include a document classification identifier (ID), a vocabulary meaning pattern identifier matched to the document classification identifier, and a concept identifier matched to the document classification identifier.
  • ID document classification identifier
  • concept identifier matched to the document classification identifier.
  • the analysis unit 120 calculates the syntax analysis result by morphologically analyzing the sentences included in the analysis target document and matching the lexical meaning patterns.
  • the analysis unit 120 is a sentence extraction unit for separating the analysis target document in sentence units, sentence element analysis unit for analyzing the sentence in at least one of morphemes, syllables, and words, and sentence element analysis results in advance It includes a syntax analysis unit for matching the defined lexical meaning pattern to derive a matching result of the lexical meaning pattern for the individual sentences as a syntax analysis result.
  • Syntax analysis results derived from the analysis unit 120 is illustrated in FIG. 4.
  • the analysis unit 120 analyzes the document 21 to derive the syntax analysis result 23.
  • the parsing result 23 is divided into n sentences, and includes information on which vocabulary semantic pattern is matched to each sentence. That is, it can be seen that the sentence 1 matches the lexical meaning pattern 1 and the lexical meaning pattern 10.
  • the classification unit 130 extracts at least one document classification of the analysis target document by matching the syntax analysis result according to the document classification rule.
  • the classification unit 130 may include a classification rule input unit that receives a document classification rule including at least one of a lexical meaning pattern identifier and a concept identifier, and a document previously defined according to the document classification rule. And a document classification matching unit for extracting at least one document classification of the analysis target document by matching the classification.
  • the classification result of the document analyzed by the classification unit 130 is illustrated in FIG. 5. For example, document 1 31 is classified into document classification 1 and document classification 2. Document 2 32 is classified into document classifications 2, 3, and n.
  • FIG. 6 is a view showing a preferred embodiment of the multi-classification method of the present invention.
  • a document is classified into a plurality of categories by using a lexical semantic pattern that reconstructs a semantic category of words constituting a sentence.
  • the preprocessing unit defines a document classification that classifies categories of documents based on 1) lexical meaning patterns, 2) concepts that are groups of a plurality of hierarchical structured lexical meaning patterns, and 3) lexical meaning patterns. Store in the database. In this way, the lexical meaning patterns, concepts, and document classifications are defined in the circumstances, and the analysis target documents to be analyzed are input to the analysis unit. First, the analysis unit separates the analysis target document into sentence units (S110).
  • the analysis unit analyzes the separated sentence into at least one sentence element among morphemes, syllables, and words (S120).
  • the sentence element analysis result thus analyzed is matched with a predefined lexical meaning pattern.
  • the matching result of the lexical meaning pattern for each sentence is derived as a syntax analysis result (S130). For example, if a sentence is 'Internet shopping' and 'refund policy', and the LSP identifier of the vocabulary meaning pattern related to 'Internet shopping' and 'refund policy' is 3, LSP 3 is matched with the sentence.
  • the classification unit sorts the sentences in order and sorts the LSPs matched to the individual sentences to group the LSPs by sentence (S140).
  • the classification unit receives a document classification rule including at least one of a lexical meaning pattern identifier and a concept identifier.
  • Document classification rules mean criteria for classifying documents.
  • the document classification rule may include a function name, an LSP identifier, and a concept identifier.
  • the document classification rule includes at least one of an LSP identifier and a concept identifier as follows.
  • the document classification rule may include the path of a specific LSP in the hierarchical structure of the concept.
  • the document classification rule may also include a string. For example:
  • the document classification rule also contains a function name that defines the operation of the arguments included in the classification rule.
  • the function names and their meanings are shown in the table below.
  • LSP, Concept, String, Function, etc. can be used as arguments (AND, (NOT, "expensive"), (OR, L49)) MIN_n
  • the MIN_n (minimum) operator takes one integer (n) and one or more conditions as parameters. The rule is true when at least n conditions are met.
  • LSP, Concept, String, Function, etc. can be used as arguments (MIN_2, L21, C11, "Return") MINOC_n
  • the MINOC_n (minimum occurrences) operator is similar to MIN_n. The word specified in the operator must appear at least n times in order for the condition to be true. n can only contain integers, and only arguments can be strings.
  • MAXOC_n maximum occurrences operator is the inverse of MINOC_n, and the word specified in the operator must appear at most n times for the condition to be true. n can only contain integers, and only arguments can be strings.
  • MAXOC_2, "Agreement”, “Return” SENT The SENT (sentence) operator takes one or more conditions and returns true when all the conditions are met in one statement. LSP, Concept, String, Function, etc. can be used as arguments (SENT, "Calendar”, L41, C12) DIST_n The DIST_n (distance) operator takes one integer (n) and two conditions.
  • n can only contain integers, and only arguments can be strings.
  • DIST_3, "co”, “research” DMS_n
  • the DMS_n (distance matched sentence) function compares the distance between sentences that match the LSP or concept given as an argument and returns true if there is a statement that satisfies any condition. Only integers can be in n, and only LSP or Concept can be used as arguments.
  • DMS_3, L3241, C12 NSENEQ_n NSENEQ_n (Number of Sentence Equal) No other arguments are used. Only the arguments that define the number of sentences are used.
  • NSENLT_n NSENLT_n (Number of Sentence Less Than) Other arguments are not used. Only the argument that defines the number of sentences is used. Returns true if the number of sentences is less than n after separation of sentences in the document to be analyzed. n can only be an integer, no other argument can be used. (NSENLT_3) Returns true if the document is less than 3 sentences in total.
  • the classification unit extracts at least one document classification of the analysis target document by matching the syntax analysis result to a predefined document classification according to the document classification rule (S150).
  • the method of the present invention may be embodied in the form of program instructions that can be executed by various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer readable media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, magnetic-optical media such as floppy disks, and ROM, RAM, Hardware devices specifically configured to store and execute program instructions, such as flash memory, may be included.
  • program instructions include machine code, such as produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 방법에 관한 것이다. 본 발명은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛, 분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛, 및 상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함한다.

Description

문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
본 발명은 언어 처리 기술을 이용하여 문서를 분류하는 방법에 관한다.
하루가 다르게 증가하는 정보의 홍수 속에서 가치 있는 정보를 찾기 위한 방편으로 정보검색의 효율을 향상시키는 기술이 진화되어 왔다. 특히 문서에 포함된 내용에 따라 문서를 특정분류로 카테고라이징 하는 문서분류기술이 전해진다. 예를 들어 기계학습을 통한 문서분류기술로서 SLDA(Supervised Latent Dirichlet Allocation), SVM(Support Vector Machines) 등의 알고리즘이 알려져있다.
그러나 기계학습을 통한 문서분류기술은 학습초기에 학습에 필요한 데이터셋을 준비하는 것이 쉽지 않고, 어떤 데이터셋을 사용하여 학습시켰는지에 따라 분류결과에 편차가 큰 편이어서 문제된다.
그와 같은 한계는 특히 다수의 문장을 포함하는 문서에서 특정 키워드를 추출하기 어렵고, 유의미한 부분만을 추출하여 문서를 분류하기에 적합하지 않기 때문이다. 또한, 의미의 확장이나 새로운 지식에 대한 대응을 하기 쉽지 않다는 문제점도 지니고 있었다.
본 발명의 발명자들은 위와 같은 문제점을 해결하기 위해서 연구하고 노력한 결과 본 발명을 완성하기에 이르렀다.
본 발명의 발명자들은 문서에 포함된 문장의 실질적 의미를 어휘의미패턴을 기반으로 분석하여 해당 문서를 어느 분류에 매칭시켜야 하는 지에 대한 대답을 제공하려고 한다. 특히 본 발명에 따르면 어휘의미패턴을 이용하여 문서가 담고 있는 실질적인 의미에 따라 문서를 보다 정확하게 분류할 수 있다. 또한, 하나의 문서를 복수의 카테고리(문서분류)로 분류하여 문서가 포함하고 있는 다양한 의미를 용이하게 추론할 수 있도록 한다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
이와 같은 과제를 달성하기 위하여 본 발명의 제1국면은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛;
분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛; 및
상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함하는 것을 특징으로 하는, 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치를 제공한다.
바람직한 실시예에 있어서 상기 분석유닛은 분석대상문서를 문장 단위로 분리하는 문장추출부;
문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부; 및
문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함할 수 있다.
바람직한 실시예에 있어서 상기 분류유닛은 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부; 및
구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함할 수 있다.
본 발명의 제2국면은 전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장하는 단계;
분석유닛이 분석대상문서를 문장 단위로 분리하는 단계;
분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석하는 단계;
문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 단계;
어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 단계; 및
구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 단계를 포함하는 것을 특징으로 하는, 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 방법을 제공한다.
본 발명은 문서가 담고 있는 내용을 파악하여 해당 문서를 사전에 정의된 문서 카테고리로 자동분류할 수 있다. 특히, 본 발명은 기구축된 어휘의미패턴 혹은 컨셉 모델을 기반으로 구문의 실질적 의미를 파악해서 문서분류의 정확성을 크게 개선하는 효과가 있다.
한편 본 발명은 문서를 하나의 문서분류로 분류하는 것이 아니고 문서가 포함하고 있는 다양한 의미에 따라 복수의 문서분류를 추출할 수 있다. 사용자는 이를 통해 실제 문서를 읽지 않아도 해당 문서가 어떤 내용을 포함하고 있는지 손쉽게 파악할 수 있다.
한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 본 발명의 다중분류장치의 바람직한 실시예를 나타내는 도면이다.
도 2는 본 발명에서 어휘의미패턴을 정의하는 실시예를 나타내는 도면이다.
도 3은 본 발명에서 컨셉을 정의하는 실시예를 나타내는 도면이다.
도 4는 본 발명에서 어휘의미패턴을 이용하여 문서를 분석하는 실시예를 나타내는 도면이다.
도 5는 본 발명에서 문서를 다중분류하는 실시예를 나타내는 도면이다.
도 6은 본 발명의 다중분류방법의 바람직한 실시예를 나타내는 도면이다.
첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 다중분류장치의 바람직한 실시예를 나타내는 도면이다.
도 1에서 알 수 있듯이, 본 발명의 다중분류장치(100)는 전처리유닛(110), 분석유닛(120), 분류유닛(130)을 포함한다.
전처리유닛(110)은 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 제1데이터베이스(111)에 저장한다. 예를 들어 전처리유닛(110)은 도 2와 같이 복수의 어휘의미패턴을 정의하고 식별자(ID)를 부여한다. 어휘의미패턴은 텍스트를 매칭하기 위한 정규식과 유사한 것으로, 단어뿐만 아니라 형태소 태그, 의미자질, 각종 연산자들을 사용하여 구성한다. 예를 들어, '이번달 핸드폰 요금이 얼마'라는 문장이 있다면, 이를 분석하기 위해서 LSP는 '/NNG+@month @phone @pay+(/J_)? @how+(/SC)?' 같이 구성될 수 있다. 여기서 '@'는 의미자질을 의미하며, '/'가 앞에 들어간 것은 형태소 태그를 의미한다. '/J_'는 조사를 의미한다. LSP를 정의하는 기호를 표로 정리하면 다음과 같다.
연산자 의미
| OR
= 값의 범주를 지정하는 연산자
/ 품사 표현
+ 좌/우변에 대한 형태소 결합을 표현
? 모든 표현에 대해 적용 혹은 미적용을 의미모든 표현을 한 번 대치하거나 공집합을 의미
! 표현이나 단어의 본래 의미를 부정하는 표현
* 표현식을 반복
품사 N_: 체언(명사류를 포함)J_: 조사V_: 용언(동사, 형용사)E_: 어미MA: 부사
전처리유닛(110)은 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉(concept)을 정의하여 제2데이터베이스(113)에 저장한다. 예를 들어 컨셉은 도 3과 같이 계층적인 구조를 포함할 수 있다. 컨셉은 일종의 LSP의 집합이다. 컨셉은 비슷한 의미를 가지는 LPS들을 하나로 묶어주는 역할을 한다. 컨셉을 통해서 LSP를 통해 매칭된 문장에 의미를 부여할 수 있다. 따라서, 컨셉은 특정한 의도를 갖고 특정한 의미를 부여하기 위해 계층적으로 구조화되는 것이 좋다. 예를 들어, 상품의 환불, 반품, 문의 등과 같이 특정한 의미를 갖는 컨셉을 구축할 수 있으며, 환불 컨셉에 속한 LSP에 매칭된 문장은 그 문장이 환불에 관한 의미를 포함하고 있다는 의미이다.
한편 의미자질은 컨셉의 의미를 구성하는 기본 단위로 정의될 수 있다. 그것은 일종의 단어 사전으로 비슷한 의미를 가진 어휘나 형태소 태그 또는 패턴 정보를 가지게 된다. 의미자질 안에 속한 정보를 '엔트리'라고 정의한다. 동일한 의미를 가지는 한 개 이상의 엔트리들을 각 의미자질에 속하는 하나의 집합으로 구축할 수 있다. 이러한 의미자질은 LSP 내에 사용할 수 있으며, 실제 분석 단계에서 의미자질 내에 속한 모든 엔트리를 대상으로 분석을 진행하게 된다. 예를 들어, '의류'이라는 의미자질과 그 안에 '가디건', '니트', '조끼', '점퍼' 등의 엔트리를 미리 구축하여 놓을 수 있고, 그렇다면 문장 내에 '가디건', '니트', '조끼', '점퍼' 등의 엔트리가 나타나면 매칭이 되게 된다.
전처리유닛(110)은 문서분류를 사전에 정의하여 제3데이터베이스(115)에 저장한다. 문서분류는 적어도 하나 이상의 어휘의미패턴 또는 컨셉이 매칭되어 있다. 이와 같이 문서분류에 매칭되어 있는 어휘의미패턴 또는 컨셉은 해당 문서분류가 어떤 의미인지 특정하게 된다. 또한, 문서에 매칭된 어휘의미패턴이 특정 문서분류에 매칭된 어휘의미패턴과 동일한 경우 해당 문서를 해당 문서분류에 할당 할 수 있는 매개역할을 한다.
바람직한 실시예에 있어서 문서분류를 저장하는 데이터베이스는 문서분류 식별자(ID), 해당 문서분류 식별자에 매칭된 어휘의미패턴 식별자, 해당 문서분류 식별자에 매칭된 컨셉 식별자를 포함할 수 있다.
분석유닛(120)은 분석대상문서에 포함된 문장을 형태소 분석하고 어휘의미패턴에 매칭시켜 구문분석결과를 연산한다. 바람직한 실시예에서 분석유닛(120)은 분석대상문서를 문장 단위로 분리하는 문장추출부, 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부, 및 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함한다. 분석유닛(120)에서 도출한 구문분석결과를 도 4에 예시하였다. 예를 들어 분석유닛(120)은 문서(21)를 분석하여 구문분석결과(23)를 도출한다. 구문분석결과(23)는 해당 문서가 n개의 문장으로 구분되며, 각 문장에 어떤 어휘의미패턴에 매칭되어 있는지에 대한 정보를 포함한다. 즉, 문장 1은 어휘의미패턴 1과 어휘의미패턴 10에 매칭됨을 알 수 있다.
분류유닛(130)은 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출한다. 바람직한 실시예에 있어서 분류유닛(130)은 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부, 및 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함한다. 분류유닛(130)에서 분석한 문서의 분류결과를 도 5에 예시하였다. 예를 들어 문서 1(31)은 문서분류 1과 문서분류 2로 다중 분류된다. 문서 2(32)는 문서분류 2, 3, n으로 다중 분류된다.
도 6은 본 발명의 다중분류방법의 바람직한 실시예를 나타내는 도면이다. 본 발명의 방법은 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류한다.
바람직한 실시예에서 전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장한다. 이와 같이 어휘의미패턴, 컨셉, 문서분류를 사정에 정의한 다음 실제 분석하고자 하는 분석대상문서를 분석유닛에 입력한다. 먼저 분석유닛은 분석대상문서를 문장 단위로 분리한다(S110).
분석유닛이 분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석한다(S120). 이렇게 분석된 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭한다. 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출한다(S130). 예를들어 문장이 '인터넷쇼핑' 및 '환불정책'이고, '인터넷쇼핑' 및 '환불정책'에 관련된 어휘의미패턴의 LSP 식별자가 3번이라면, 해당 문장에 LSP 3번이 매칭된다.
분류유닛이 문장을 순서대로 정렬하고 개별 문장에 매칭된 LSP를 정렬하여 문장별로 LSP를 그룹핑한다(S140).
분류유닛이 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는다.
문서분류규칙은 문서를 분류하기 위한 기준을 의미한다. 문서분류규칙은 함수명, LSP 식별자, 컨셉 식별자를 포함할 수 있다. 바람직한 실시예에서 문서분류규칙은 아래와 같이 LSP 식별자, 컨셉 식별자 중 적어도 하나 이상을 포함한다.
(함수명, LSP 식별자, 컨셉 식별자)
그 밖에 문서분류규칙은 컨셉의 계층적 구조 중에서 특정 LSP의 경로를 포함할 수 있다. 또한, 문서분류규칙은 문자열을 포함할 수도 있다. 예를 들면 다음과 같다.
(함수명, L43, C12, (or, "지연", "장애"))
문서분류규칙은 또한 분류규칙에 포함된 인자들의 연산방식을 정의하는 함수명을 포함한다. 함수명과 그 의미는 아래 표와 같다.
함수 이름 함수 기능 함수 제약 사항 사용 예시
AND AND 연산자는 한 개 이상의 조건을 취하며, 결과가 참이 되기 위해서는 입력 문서에 대하여 주어진 모든 조건들이 만족되어야 한다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (AND, "요금제", "핸드폰")
OR OR 연산자는 한 개 이상의 조건을 취하며, 결과가 참이 되기 위해서는 입력 문서에 대하여 주어진 조건들 중 한 개 이상이 만족되어야 한다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (OR, "요금제", "핸드폰")
NOT NOT 연산자는 한 개의 조건만을 취하며, AND 연산자의 자식으로만 존재 할 수 있습니다. 이 조건은 문자열이 온 경우에는 해당 문자열이 주어진 문서 범위 안에 존재하지 않을 때 참을 반환한다. LSP나 개념이 인자로 있을 때는 분석 결과에 해당 사항이 없을 때에 참을 반환하며, 함수가 인자로 온 경우에는 함수의 반환 결과를 역으로 반환한다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (AND, (NOT, "비싸"), (OR, L49))
MIN_n MIN_n (minimum) 연산자는 한 개의 정수(n)와 한 개 이상의 조건을 매개변수로 취합니다. 해당 규칙은 최소 n개의 조건이 만족될 때 참이 된다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (MIN_2, L21, C11, "반품")
MINOC_n MINOC_n (minimum occurrences) 연산자는 MIN_n과 비슷한 연산자로, 조건이 참이 되기 위해서는 연산자에 명시된 단어가 최소 n번 등장해야 한다. n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다. (MINOC_2, "제품", "결함", "리콜")
MIXOC_n MAXOC_n (maximum occurrences) 연산자는 MINOC_n의 반대 연산자이며, 조건이 참이 되기 위해서는 연산자에 명시된 단어가 최대 n번만 등장해야 한다. n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다. (MAXOC_2, "약정", "반품")
SENT SENT (sentence) 연산자는 한 개 이상의 조건을 취하며, 모든 조건이 한 문장 내에서 만족될 때 참을 반환한다. LSP, Concept, 문자열, 함수 등이 인자로 사용 가능 (SENT, "달력", L41, C12)
DIST_n DIST_n (distance) 연산자는 한 개의 정수(n)와 두 개의 조건을 취한다. 이 규칙은 두 문자열의 거리가 n 이내 일 때 참을 반환한다. n에는 정수만 올 수 있으며, 인자에는 문자열만 사용 가능합니다. (DIST_3, "공동", "연구")
DMS_n DMS_n (distance matched sentence) 함수는 인자로 주어진 LSP나 개념에 매칭된 문장들의 거리를 비교하며, 하나라도 조건을 만족시키는 문장이 있을 시 참을 반환한다. n에는 정수만 올 수 있으며, 인자에는 LSP 혹은 Concept 만 사용 가능 (DMS_3, L3241, C12)
NSENEQ_n NSENEQ_n (Number of Sentence Equal) 기타 다른 인자를 사용하지 않으며 문장 개수를 정의하는 인자만 사용된다. 분석 대상 문서의 문장 분리 후 문장 개수가 n과 같을 때 참을 반환 n에는 정수만 올 수 있으며, n이외 기타 다른 인자 사용 불가 (NSENEQ_3) 문서가 총 3문장 일 때 참을 반환한다.
NSENLT_n NSENLT_n (Number of Sentence Less Than) 기타 다른 인자를 사용하지 않으며 문장 개수를 정의하는 인자만 사용된다. 분석 대상 문서의 문장 분리 후 문장 개수가 n개 미만일 때 참을 반환한다. n에는 정수만 올 수 있으며, n이외 기타 다른 인자 사용 불가 (NSENLT_3) 문서가 총 3문장 미만 일 때 참을 반환한다.
분류유닛이 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출한다(S150).
참고로, 본 발명의 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (4)

  1. 형태소, 음절, 및 어절로 이루어진 어휘의미패턴(Lexico-semantic pattern: LSP)을 정의하여 데이터베이스에 저장하고, 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉을 정의하여 데이터베이스에 저장하는 전처리유닛;
    분석대상문서에 포함된 문장을 형태소 분석하고 상기 어휘의미패턴에 매칭시켜 구문분석결과를 연산하는 분석유닛; 및
    상기 구문분석결과를 문서분류규칙에 따라 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 분류유닛을 포함하는 것을 특징으로 하는,
    문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
  2. 제1항에 있어서,
    상기 분석유닛은
    분석대상문서를 문장 단위로 분리하는 문장추출부;
    문장을 형태소, 음절, 및 어절 중 적어도 어느 하나로 분석하는 문장요소분석부; 및
    문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 구문분석부를 포함하는 것인,
    문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
  3. 제1항에 있어서,
    상기 분류유닛은
    어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 분류규칙입력부; 및
    구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 문서분류매칭부를 포함하는 것인,
    문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치.
  4. 전처리유닛이 1) 어휘의미패턴, 2) 계층적으로 구조화된 복수의 어휘의미패턴의 집단인 컨셉, 3) 어휘의미패턴에 기반하여 문서의 카테고리를 분류한 문서분류를 각각 정의하여 데이터베이스에 저장하는 단계;
    분석유닛이 분석대상문서를 문장 단위로 분리하는 단계;
    분석유닛이 분리된 문장을 형태소, 음절, 및 어절 중 적어도 어느 하나의 문장요소로 분석하는 단계;
    분석유닛이 문장요소 분석결과를 사전에 정의된 어휘의미패턴에 매칭하여 개별 문장에 대한 어휘의미패턴의 매칭결과를 구문분석결과로 도출하는 단계;
    분류유닛이 어휘의미패턴 식별자 및 컨셉 식별자 중 적어도 어느 하나를 포함하는 문서분류규칙을 입력받는 단계; 및
    분류유닛이 구문분석결과를 문서분류규칙에 따라 사전에 정의된 문서분류에 매칭하여 분석대상문서의 문서분류를 적어도 하나 이상 추출하는 단계를 포함하는 것을 특징으로 하는,
    문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 방법.
PCT/KR2016/013963 2016-11-30 2016-11-30 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법 WO2018101506A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160161224A KR101948257B1 (ko) 2016-11-30 2016-11-30 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
KR10-2016-0161224 2016-11-30

Publications (1)

Publication Number Publication Date
WO2018101506A1 true WO2018101506A1 (ko) 2018-06-07

Family

ID=62242147

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/013963 WO2018101506A1 (ko) 2016-11-30 2016-11-30 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법

Country Status (2)

Country Link
KR (1) KR101948257B1 (ko)
WO (1) WO2018101506A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611524A (zh) * 2022-02-08 2022-06-10 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102076548B1 (ko) * 2018-07-30 2020-02-12 주식회사 한글과컴퓨터 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법
KR102147582B1 (ko) * 2018-11-27 2020-08-26 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
KR102233503B1 (ko) * 2019-02-12 2021-03-29 주식회사 자이냅스 문서 학습 장치
KR102215091B1 (ko) * 2019-03-29 2021-02-10 주식회사 포시에스 형태소 분석 기반의 자연어 매칭 장치, 방법 및 그를 이용한 전자문서 제어 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008027057A (ja) * 2006-07-19 2008-02-07 Fuji Xerox Co Ltd 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
KR101339103B1 (ko) * 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
KR101589621B1 (ko) * 2015-02-23 2016-01-28 주식회사 와이즈넛 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008027057A (ja) * 2006-07-19 2008-02-07 Fuji Xerox Co Ltd 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
KR101339103B1 (ko) * 2011-10-05 2013-12-09 (주)워드워즈 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
KR101589621B1 (ko) * 2015-02-23 2016-01-28 주식회사 와이즈넛 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIM, BYOUNG WOO ET AL.: "The Design and Implementation of an Information Retrieval System Using Lexico-semantic Pattern and Ontology", HCI SOCIETY KOREA CONFERENCE, February 2007 (2007-02-01), pages 957 - 962 *
KIM, MOON JONG ET AL.: "VOC Summarization and Classification Based on Sentence Understanding", KIISE TRANSACTIONS ON COMPUTING PRACTICES, vol. 22, no. 1, January 2016 (2016-01-01), pages 50 - 55 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611524A (zh) * 2022-02-08 2022-06-10 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质
CN114611524B (zh) * 2022-02-08 2023-11-17 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
KR20180062490A (ko) 2018-06-11
KR101948257B1 (ko) 2019-02-15

Similar Documents

Publication Publication Date Title
WO2018101506A1 (ko) 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
US6965857B1 (en) Method and apparatus for deriving information from written text
Abujar et al. A heuristic approach of text summarization for Bengali documentation
WO2018016673A1 (ko) 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
Vincze et al. Dependency parsing for identifying Hungarian light verb constructions
Abid et al. Urdu word sense disambiguation using machine learning approach
Sazali et al. Information extraction: Evaluating named entity recognition from classical Malay documents
Othman et al. Arabic text processing model: Verbs roots and conjugation automation
Fharook et al. Are you a hero or a villain? A semantic role labelling approach for detecting harmful memes.
Garcia et al. Fakerecogna: A new brazilian corpus for fake news detection
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
Tanev et al. Exploiting machine learning techniques to build an event extraction system for portuguese and spanish
Minard et al. Feature selection for drug-drug interaction detection using machine-learning based approaches
Ketui et al. A rule-based method for thai elementary discourse unit segmentation (ted-seg)
US20230114982A1 (en) Automated knowledge base
Jafari et al. Improving pre-trained language model for relation extraction using syntactic information in Persian
Rondon et al. Never-ending multiword expressions learning
Das et al. Theme detection an exploration of opinion subjectivity
Sunitha et al. Automatic summarization of Malayalam documents using clause identification method
WO2022094724A1 (en) System and method for generating regulatory content requirement descriptions
Ceglarek Semantic compression for text document processing
Vitkutė-Adžgauskienė et al. NLP infrastructure for the Lithuanian language
Matsumoto et al. Construction and expansion of dictionary of idiomatic emotional expressions and idiomatic emotional expression corpus
Bindu et al. A hybrid model for phrase chunking employing artificial immunity system and rule based methods

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16922701

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16922701

Country of ref document: EP

Kind code of ref document: A1