KR101195341B1 - Method and apparatus for determining category of an unknown word - Google Patents
Method and apparatus for determining category of an unknown word Download PDFInfo
- Publication number
- KR101195341B1 KR101195341B1 KR1020100113442A KR20100113442A KR101195341B1 KR 101195341 B1 KR101195341 B1 KR 101195341B1 KR 1020100113442 A KR1020100113442 A KR 1020100113442A KR 20100113442 A KR20100113442 A KR 20100113442A KR 101195341 B1 KR101195341 B1 KR 101195341B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- synonyms
- category
- unregistered word
- unregistered
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
본 발명의 실시예들은 미등록 단어의 카테고리를 결정하는 방법 및 장치를 개시하고 있다. 이 방법은, 단어 형성 규칙(word formation rule)에 기초하여 사전에서 미등록 단어의 유의어들을 선택하는 단계, 코퍼스로부터 미등록 단어의 문맥을 생성하는 단계, 및 미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 단계를 포함할 수 있다. 본 발명에 따른 방법 및 장치는 미등록 단어의 카테고리를 보다 효과적이고 보다 정확하게 결정할 수 있다.Embodiments of the present invention disclose a method and apparatus for determining a category of unregistered words. The method includes selecting synonyms of an unregistered word from a dictionary based on a word formation rule, generating a context of an unregistered word from a corpus, and an unregistered word based on the context and synonyms of an unregistered word And determining a category to which the belongs. The method and apparatus according to the invention can more effectively and more accurately determine the category of unregistered words.
Description
본 발명은 일반적으로 정보 처리 분야에 관한 것이며, 상세하게는 미등록 단어(unknown word)의 카테고리를 결정하는 방법 및 장치에 관한 것이다.TECHNICAL FIELD The present invention generally relates to the field of information processing, and more particularly, to a method and apparatus for determining the category of an unknown word.
인터넷의 보급과 증가하는 사회적 정보 추세에 따라, 텍스트 정보가 더욱 더 많아지고, 그에 따라 텍스트 정보 처리에 대한 사회적 요구가 점점 더 높아져가고 있다. 사람들은 점점 더 자연어를 이용하여 컴퓨터와 소통하길 원하며, 대량의 텍스트 정보의 자동 처리를 원한다. 텍스트 정보를 더 좋은 방법으로 처리하기 위하여, 예를 들면, 사전과 같은 대량의 언어 데이터 리소스를 모아두는 것이 필요하다. 그러나, 텍스트 처리를 위한 중요한 수단들 중의 하나로서, 사전은 항상 수작업으로 편집되는데, 이는 시간이 많이 걸리고 비효율적이다. 게다가, 단어 분할(word segmentation) 기술에서, 미등록 단어에 대한 분할 오류는 전체적인 단어 분할의 재현율(recall rate)에 큰 영향을 미치고, 이후의 문법 및 단어 의미 해석의 정확도에도 영향을 미치며, 그에 따라 정보 처리에 어느 정도 문제를 일으킨다. 예를 들어, 정보 추출과 같은 다른 정보 처리 기술에서, 미등록 단어의 속성이 충분히 명확하지 않은 경우, 정보 추출의 결과는 중의성(ambiguity)은 물론 미등록 단어 및 그 정보의 결함으로 인한 오류까지도 갖게 될 것이다. 그러므로, 미등록 단어의 카테고리를 결정하는 것은 시급한 문제이다.With the spread of the Internet and the increasing trend of social information, there is more and more text information, and accordingly, the social demand for text information processing is increasing. More and more people want to communicate with computers using natural language, and they want automatic processing of large amounts of textual information. In order to process textual information in a better way, it is necessary to collect a large amount of linguistic data resources such as dictionaries, for example. However, as one of the important means for text processing, dictionaries are always edited manually, which is time consuming and inefficient. In addition, in word segmentation techniques, segmentation errors for unregistered words have a significant effect on the recall rate of the overall word segmentation, and also affect the accuracy of subsequent grammar and word semantic interpretations, and thus information. It causes some trouble with the process. For example, in other information processing techniques, such as information extraction, if the attributes of an unregistered word are not clear enough, the results of the information extraction will not only have ambiguity but also errors due to unregistered words and defects of that information. will be. Therefore, it is urgent to determine the category of unregistered words.
중국 특허 출원 공개 제CN1717679호는 단어 클래스 태깅 방법(word class tagging method)을 개시하고 있다. 그 방법은 단어들의 분절에 총괄적으로 태깅하기 위하여 사전-기록된 키워드-단어 클래스 저장소를 주로 사용한다. 단어들의 분절이 특별한 키워드를 포함하는 경우에는, 이 단어들의 분절이 키워드에 대응하는 단어 클래스로서 태깅된다.Chinese Patent Application Publication No. CN1717679 discloses a word class tagging method. The method mainly uses a pre-recorded keyword-word class repository for tagging words segments collectively. If the segment of words contains a special keyword, the segment of these words is tagged as a word class corresponding to the keyword.
미국 특허 출원 공개 제US20060100856A1호는 단어 의미 추정 방법을 개시하고 있다. 그 방법의 기본 요지는 웹 검색을 통해 각 새로운 단어의 용례(usage example)를 추출하고, 기존의 용례 사전에 따른 예들에 기초하여 의미 클래스 후보를 추출하는 것이며, 2개 이상의 후보가 있는 경우, 특정 코퍼스(corpus)에서 새로운 단어와 가장 높은 동시 발생 빈도를 갖는 의미 클래스가 선택된다.US Patent Application Publication No. US20060100856A1 discloses a method of estimating word meaning. The basic idea of the method is to extract usage examples of each new word through web search, and to extract semantic class candidates based on the examples according to the existing usage dictionary, and when there are two or more candidates, In the corpus, the semantic class with the new word and the highest co-occurrence frequency is selected.
중국 특허 출원 공개 제CN1369877호는 새로운 단어의 카테고리 추정 방법을 개시하고 있다. 이 방법은 우선 새로운 단어 속의 각각의 문자 별로 분리 확률(separation probability)을 결정하고 그 다음에 각각의 카테고리의 전체 분리 확률을 구하기 위해 단어 카테고리에 기초하여 각각의 문자의 확률들을 결합한다. 임계치에 대한 전체 확률의 비교에 근거하여, 임계치를 초과하는 확률을 갖는 각각의 단어 카테고리는 다-문자 단어(multi-character word)에 대한 가능한 카테고리로서 추가된다.Chinese Patent Application Publication No. CN1369877 discloses a method of estimating a category of a new word. This method first determines the separation probability for each letter in the new word and then combines the probabilities of each letter based on the word category to find the overall separation probability of each category. Based on the comparison of the overall probabilities against the threshold, each word category with a probability above the threshold is added as a possible category for a multi-character word.
NAACL HLT 2007의 페이지 188-195의 '중국어 미등록 단어의 의미 분류를 위한 통합 모델(Hybrid Models for Semantic Classification of Chinese Unknown Words)'에서 Xiaofei Lu는, 사람이 만든 규칙과 통계적 방법 및 문맥에 기반하여 정립된 혼합 유형의 단어 클래스 추정 방법을 개시하고 있으며, 이 규칙 및 통계적 방법은 문맥-기반 방법에 대한 의미 클래스 후보를 제공한다.In 'Hybrid Models for Semantic Classification of Chinese Unknown Words' on pages 188-195 of NAACL HLT 2007, Xiaofei Lu was established based on man-made rules and statistical methods and contexts. A method of estimating word class of mixed types is disclosed, and this rule and statistical method provide semantic class candidates for context-based methods.
2000년에 열린 제2회 중국어 처리 워크샵 회보의 페이지 7-14의 '의미-태깅 중국어 코퍼스'(2000. Sense-tagging Chinese Corpus on pages 7-14 of the In Proceedings of the 2nd Chinese Language Processing Workshop)에서 Chen, H.-H.와 C.-C. Lin은 중-영 사전 내의 교차-번역(inter-translation)을 통한 의미 클래스 태깅 방법을 개시하고 있다. 이 방법의 기본 프로세스는 다음의 4 단계로 구성되어 있다: 1) 새로운 단어를 선택하고 주어진 중-영 사전에 기초하여 그 단어에 대한 가능한 모든 영어 번역을 검색하는 단계, 2) WordNet에서 모든 번역에 대한 대응하는 의미 항목을 검색하는 단계, 3) 매핑 테이블을 검색하고 2 단계에서 구한 의미 항목을 Cilin 의미 태그와 매칭하는 단계, 4) 의미 중의성 제거 방법을 통하여 3 단계에서 구한 의미 태그들 중 하나를 최종 결과로서 선택하는 단계.Sense-tagging Chinese Corpus on pages 7-14 of the In Proceedings of the 2nd Chinese Language Processing Workshop, page 7-14 of the 2nd Chinese Processing Workshop Newsletter in 2000 Chen, H.-H. and C.-C. Lin discloses a semantic class tagging method through inter-translation in a Chinese-English dictionary. The basic process of this method consists of four steps: 1) selecting a new word and retrieving all possible English translations for that word based on a given Chinese-English dictionary; 2) for all translations in WordNet. Searching for the corresponding semantic item, 3) searching the mapping table and matching the semantic item obtained in step 2 with the Cilin semantic tag, and 4) one of the semantic tags obtained in step 3 through the semantic neutralization method. Selecting as the final result.
그러나, 현재 어떤 기술도 자동 태깅을 구현하기 위해 미등록 단어의 카테고리를 효율적으로 결정하는 문제를 해결하고 있지 않다. 기존의 기술들은 일반적으로 새로운 단어에 대한 단어 클래스 분석을 수행하기 위하여 사전-편집된 사전을 사용하고, 따라서, 이러한 방법의 태깅 결과의 합리성은 대응하는 사전 또는 지식 베이스의 구축에 좌우되고, 이들의 성능이 꽤 낮다.However, no technology currently solves the problem of efficiently determining the category of unregistered words in order to implement automatic tagging. Existing techniques generally use pre-edited dictionaries to perform word class analysis on new words, so the rationality of tagging results of this method depends on the construction of the corresponding dictionary or knowledge base, and their The performance is quite low.
그러므로, 미등록 단어의 카테고리를 효율적으고 양호한 성능으로 결정하는 기술적 해결 방안이 요구된다.Therefore, a technical solution for determining the category of unregistered words with efficient and good performance is required.
종래 기술에 존재하는 이상의 문제들과 관련하여, 본 발명의 목적은 미등록 단어의 카테고리를 결정하는 방법 및 장치를 제공하는 데 있다.In connection with the above problems present in the prior art, it is an object of the present invention to provide a method and apparatus for determining the category of unregistered words.
본 발명의 일 양태에 따르면, 미등록 단어의 카테고리를 결정하는 방법이 제공된다. 이 방법은, 단어 형성 규칙(word formation rule)에 기초하여 사전에서 미등록 단어의 유의어들을 선택하는 단계, 코퍼스로부터 미등록 단어의 문맥을 생성하는 단계, 및 미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 단계를 포함할 수 있다.According to one aspect of the present invention, a method of determining a category of unregistered words is provided. The method includes selecting synonyms of an unregistered word from a dictionary based on a word formation rule, generating a context of an unregistered word from a corpus, and an unregistered word based on the context and synonyms of an unregistered word And determining a category to which the belongs.
본 발명의 제2 양태에 따르면, 미등록 단어의 카테고리를 결정하는 장치가 제공된다. 이 장치는, 단어 형성 규칙에 기초하여 사전에서 미등록 단어의 유의어들을 선택하도록 구성된 유의어 선택기(synonym selector), 코퍼스로부터 미등록 단어의 문맥을 생성하도록 구성된 문맥 생성기(context generator), 및 미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리를 결정하도록 구성된 카테고리 결정기(category determiner)를 포함할 수 있다.According to a second aspect of the invention, there is provided an apparatus for determining a category of unregistered words. The apparatus includes a synonym selector configured to select synonyms of an unregistered word from a dictionary based on word forming rules, a context generator configured to generate a context of an unregistered word from a corpus, and a context of an unregistered word; And a category determiner configured to determine a category to which the unregistered word belongs based on the synonyms.
본 발명의 다른 특징들 및 이점들은 첨부 도면을 참조한 본 발명의 바람직한 실시예들에 대한 이하의 설명을 통하여 명백해질 것이다.Other features and advantages of the present invention will become apparent from the following description of the preferred embodiments of the present invention with reference to the accompanying drawings.
본 발명에 따른 방법 및 장치는 미등록 단어의 카테고리를 보다 효과적이고 보다 정확하게 결정할 수 있다.The method and apparatus according to the invention can more effectively and more accurately determine the category of unregistered words.
본 발명의 기타 목적들 및 효과들은 첨부 도면을 참조한 이하의 설명을 통해 그리고 본 발명에 대한 보다 명료한 이해에 의해 훨씬 더 명확해지고 이해하기 쉬워질 것이다.
도 1은 본 발명의 일 실시예에 따른, 미등록 단어의 카테고리를 결정하는 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른, 미등록 단어의 카테고리를 결정하는 방법의 흐름도이다.
도 3은 본 발명의 다른 실시예에 따른, 미등록 단어의 카테고리를 결정하는 방법의 흐름도이다.
도 4는 본 발명의 또 다른 실시예에 따른, 미등록 단어의 카테고리를 결정하는 방법의 흐름도이다.
도 5는 본 발명의 다른 실시예에 따른, 미등록 단어를 결정하는 방법의 흐름도이다.
이상의 첨부 도면들 전부에서, 유사한 참조 번호들은 동일하거나 유사하거나 대응하는 특징들 또는 기능들을 가리킨다.Other objects and effects of the present invention will become much clearer and easier to understand through the following description with reference to the accompanying drawings and by a clearer understanding of the present invention.
1 is a block diagram of an apparatus for determining a category of an unregistered word according to an embodiment of the present invention.
2 is a flowchart of a method of determining a category of an unregistered word, according to an embodiment of the present invention.
3 is a flowchart of a method of determining a category of an unregistered word according to another embodiment of the present invention.
4 is a flowchart of a method of determining a category of an unregistered word, according to another embodiment of the present invention.
5 is a flowchart of a method of determining an unregistered word according to another embodiment of the present invention.
In all of the accompanying drawings, like reference numerals refer to the same, similar or corresponding features or functions.
이하에서, 본 발명이 첨부 도면을 참조하여 더 상세히 설명되고 예시될 것이다. 본 발명의 첨부 도면 및 실시예들이 본 발명의 보호 범위를 제한하려는 것이 아니라 단지 예시를 위한 것이라는 것에 유의해야 한다.In the following, the invention will be explained and illustrated in more detail with reference to the accompanying drawings. It should be noted that the accompanying drawings and embodiments of the present invention are for illustrative purposes only and not intended to limit the protection scope of the present invention.
명확히 하기 위하여, 본 발명에서 사용되는 용어들에 대해 먼저 설명한다.For clarity, the terms used in the present invention are first described.
1. 사전1. Dictionary
사전이란, 예를 들어, (ci-lin, 단어 숲), HowNet, WordNet 등과 같이 일반적으로 50,000 이상의 수록어를 갖는, 처리되어야 할 언어의 핵심 어휘를 기록하고 있는 것을 말한다. 사전은 하나 이상의 단어들을 포함할 수 있다. 각각의 단어에 대하여, 품사, 카테고리, 단어 의미 및 예문과 같은 정보가 태깅될 수 있다. 표 1은 사전의 데이터 구조의 예를 제공하며, "北京"(Beijing, 북경), "保健品"(bao-jian-pin, 의료용품), 및 "愉快"(yu-kuai, 행복)의 세 단어가 제시되어 있고, 각각의 단어는 각자의 품사와 카테고리를 갖는다.With a dictionary, for example, (ci-lin, word forest), howNet, WordNet, etc., which generally contains more than 50,000 entries, records the core vocabulary of the language to be processed. The dictionary may include one or more words. For each word, information such as part of speech, category, word meaning and example sentence can be tagged. Table 1 provides an example of the dictionary's data structure, with three categories: "北京" (Beijing, Beijing), "保健 品" (bao-jian-pin, medical supplies), and "愉快" (yu-kuai, happiness). The words are presented, and each word has its own parts of speech and category.
2. 코퍼스2. Corpus
코퍼스는 자유 텍스트(free text)의 집합이다. 자유 텍스트는 문장, 분절, 관사 등과 이들의 임의의 조합일 수 있다.Corpus is a collection of free text. The free text can be sentences, segments, articles, or any combination thereof.
3. 문자, 직접 요소(direct constituent) 및 단어3. Letters, direct constituents and words
문자는 최소 텍스트 단위이다. 예를 들어, 중국어에서, "天"(tian, 하늘), "我"(wo, 나), 및 "好"(hao, 좋은)은 각각 문자이다.Character is the minimum text unit. For example, in Chinese, "天" (tian, heaven), "我" (wo, me), and "好" (hao, good) are letters respectively.
직접 요소: 큰 단위를 형성하는 작은 단위는 큰 단위의 요소(constituent)라 불리며, 따라서 큰 단위를 직접 구성하는 작은 단위는 큰 단위의 직접 요소라 불린다. 한 단어의 직접 요소는 음소(phoneme) 또는 그 단어보다 작은 단어일 수 있다. 일례로, (ke-xue-ji-shu-bu, 과학기술부)의 직접 요소들은 (ke-xue, 과학), (ji-shu, 기술) 및 "部"(bu, 부서)이며, (bing-jing, 얼음 결정체)의 직접 요소들은 (얼음)과 "晶"(결정체)이다.Direct element: A small unit that forms a large unit is called a constituent of a large unit, so a small unit that directly constitutes a large unit is called a direct element of a large unit. The direct element of a word may be a phoneme or a word smaller than that word. For example, (ke-xue-ji-shu-bu, Ministry of Science and Technology) (ke-xue, science), (ji-shu, technology) and "部" (bu, department), Direct elements of (bing-jing, ice crystals) (Ice) and "晶" (crystals).
단어는 하나 이상의 문자로 형성된, 특정한 의미를 갖는 문자열이다. 예를 들어, (wo-men, 우리)는 두 문자를 포함하는 단어이고, (ji-suan-ji, 컴퓨터)는 세 문자를 포함하는 단어이다.A word is a string of specific meaning, formed of one or more letters. E.g, (wo-men, we) is a word that contains two letters, (ji-suan-ji, computer) is a word that contains three letters.
4. 미등록 단어4. Unregistered Word
미등록 단어는 현재 사전에 포함되지 않은 단어이다.Unregistered words are words that are not currently included in the dictionary.
5. 카테고리5. Category
카테고리는 의미 클래스(semantic class) 및 의미 클래스보다 더 넓은 적용범위를 갖는 수퍼센스(supersense)를 포함할 수 있다.Categories may include semantic classes and supersenses with broader coverage than semantic classes.
의미 클래스는, 예를 들어, "城市" (cheng-shi, 도시), "心情" (xin-qing, 심정) 등일 수 있다. 의미 클래스는 다수의 단어를 가질 수 있고, 예를 들어, 단어들 "北京(Beijing, 북경)"과 "上海(상해)"는 의미 클래스 "城市"(cheng-shi, 도시)에 속할 수 있다. 한 단어는 복수의 의미 클래스를 가질 수 있고, 예를 들어, "臂膀"(bi-bang, 팔)이라는 단어는 (shen-ti-bu-wei, 신체부위)"와 "人物(ren-wu, 인물)"의 2개의 의미 클래스를 가질 수 있다.The semantic class may be, for example, "城市" (cheng-shi, city), "心情" (xin-qing). The semantic class may have a number of words, for example, the words "北京 (Beijing)" and "上海 (Shanghai)" may belong to the semantic class "城市" (cheng-shi, city). A word can have multiple semantic classes, for example, the word "bi" (bi-bang) (shen-ti-bu-wei) and "ren-wu" (person).
수퍼센스는, 예를 들면, "location"과 "substance"등과 같이, 의미 클래스보다 더 넓은 카테고리이며, "location"은 의미 클래스 "city"보다 더 넓은 범위를 갖는다.Supersense is a broader category than the semantic class, for example "location" and "substance", and "location" has a wider range than the semantic class "city".
본 발명은 미등록 단어의 카테고리를 결정하는 방법에 관한 것이다. 이 방법은, 단어 형성 규칙(word formation rule)에 기초하여 사전에서 미등록 단어의 유의어들을 선택하는 단계, 코퍼스로부터 미등록 단어의 문맥을 생성하는 단계, 및 미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 단계를 포함할 수 있다.The present invention relates to a method for determining a category of unregistered words. The method includes selecting synonyms of an unregistered word from a dictionary based on a word formation rule, generating a context of an unregistered word from a corpus, and an unregistered word based on the context and synonyms of an unregistered word And determining a category to which the belongs.
본 발명의 일 실시예에 따르면, 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들이 미등록 단어의 유의어들로서 사전에서 선택될 수 있고, 그에 의해 단어 형성 규칙에 기초하여 미등록 단어의 유의어들을 사전에서 선택하는 프로세스를 구현한다. 본 발명의 추가적인 실시예에 따르면, 단어 형성 규칙에 기초하여 미등록 단어의 유의어들을 사전에서 선택하는 프로세스는 다음과 같은 단계들을 통하여 구현될 수 있다: 미등록 단어의 품사를 결정하는 단계, 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들을 사전에서 선택하는 단계, 및 선택된 모든 단어들 중에서 미등록 단어와 동일한 품사를 갖는 단어들을 미등록 단어의 유의어들로서 선택하는 단계.According to one embodiment of the invention, words sharing one or more word forming elements with an unregistered word may be selected from the dictionary as synonyms of the unregistered word, thereby selecting synonyms of the unregistered word based on the word formation rule. Implement a process that According to a further embodiment of the present invention, the process of selecting in the dictionary the synonyms of the unregistered word based on the word formation rule may be implemented through the following steps: determining the part of speech of the unregistered word, the unregistered word and one. Selecting words in the dictionary that share the above word forming elements, and selecting words having the same parts of speech as the unregistered word among all selected words as synonyms of the unregistered word.
본 발명의 일 실시예에 따르면, 코퍼스로부터 미등록 단어의 문맥을 생성하는 프로세스는 다음과 같은 단계들을 통하여 구현될 수 있다: 코퍼스로부터 미등록 단어를 검색하는 단계, 윈도우(window)를 적용하여 미등록 단어에 근접한 문자들을 가져오는 단계, 가져온 미등록 단어에 근접한 문자들에 단어 분할을 수행하는 단계, 및 단어 분할 이후 얻어진 각자의 단어들 및 그 단어들의 가중치를 미등록 단어의 문맥으로서 사용하기 위하여, 단어 분할 이후 얻어진 각자의 단어들의 가중치를 결정하는 단계. 본 발명의 다른 실시예에 따르면, 코퍼스로부터 미등록 단어의 문맥을 생성하는 프로세스는 다음과 같은 단계들을 통하여 구현될 수 있다: 코퍼스로부터 미등록 단어를 검색하는 단계, 및 미등록 단어의 문맥으로서 의존성을 사용하기 위하여, 의존 트리 모드(dependent tree mode)에서 미등록 단어의 의존성을 분석하는 단계.According to one embodiment of the invention, the process of creating a context of an unregistered word from a corpus may be implemented through the following steps: retrieving an unregistered word from a corpus, applying a window to the unregistered word Importing adjacent characters, performing word segmentation on the characters adjacent to the imported unregistered word, and using the respective words obtained after the word segmentation and the weight of the words as the context of the unregistered word, Determining weights of respective words. According to another embodiment of the invention, the process of creating a context of an unregistered word from a corpus can be implemented through the following steps: retrieving an unregistered word from a corpus, and using dependencies as the context of an unregistered word. Analyzing the dependencies of unregistered words in dependent tree mode.
본 발명의 일 실시예에 따르면, 미등록 단어의 유의어들 및 문맥에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 프로세스는 다음과 같은 단계들을 포함할 수 있다: 유의어들이 속하는 카테고리들에 관한 통계를 작성하는 단계, 코퍼스로부터 각자의 카테고리에 포함된 모든 단어들의 문맥을 각자의 카테고리의 문맥으로서 생성하는 단계, 미등록 단어의 문맥과 각자의 카테고리들의 문맥들 사이의 유사도를 계산하는 단계, 및 최대 유사도를 갖는 카테고리를 미등록 단어가 속하는 카테고리로서 결정하는 단계. 본 발명의 다른 실시예에 따르면, 미등록 단어의 유의어들 및 문맥에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 프로세스는 다음과 같은 단계들을 포함할 수 있다: 코퍼스로부터 유의어들의 문맥을 생성하는 단계, 미등록 단어의 문맥과 유의어들의 문맥들 사이의 유사도를 계산하는 단계, 계산을 통해 획득된 유사도에 기초하여 유의어들로부터 집합을 추출하는 단계, 추출된 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 유사도들을 합산하는 단계, 및 합산된 유사도들에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 단계. 본 발명의 다른 실시예에 따르면, 미등록 단어의 유의어들 및 문맥에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 프로세스는 다음과 같은 단계들을 포함할 수 있다: 코퍼스로부터 유의어들의 문맥을 생성하는 단계, 미등록 단어의 문맥과 유의어들의 문맥들 사이의 유사도들을 계산하는 단계, 유의어들이 속하는 카테고리들에 관한 통계를 작성하는 단계, 유의어들과 연관되어 있는 미리 정해진 가중 인자들을 수신하는 단계, 수신된 미리 정해진 인자들에 기초하여 연관된 유의어들에 대응하는 유사도들을 가중하는 단계, 가중된 유사도들에 기초하여 유의어들로부터 집합을 추출하는 단계, 추출된 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 가중된 유사도들을 합산하는 단계, 및 합산된 유사도들에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 단계.According to one embodiment of the invention, the process of determining the category to which the unregistered word belongs based on the synonyms and context of the unregistered word may include the following steps: generating statistics about the categories to which the synonym belongs. Generating from the corpus the context of all the words contained in each category as the context of their category, calculating the similarity between the context of the unregistered words and the contexts of the respective categories, and the category with the maximum similarity Determining as a category to which the unregistered word belongs. According to another embodiment of the present invention, the process of determining a category to which an unregistered word belongs based on synonyms and context of an unregistered word may include the following steps: generating a context of the synonyms from a corpus, unregistered Calculating a similarity between the context of the word and the contexts of the synonyms, extracting a set from the synonyms based on the similarity obtained through the calculation, summing the similarities corresponding to the synonyms in the extracted set and belonging to the same category And determining a category to which the unregistered word belongs based on the sum of the similarities. According to another embodiment of the present invention, the process of determining a category to which an unregistered word belongs based on synonyms and context of an unregistered word may include the following steps: generating a context of the synonyms from a corpus, unregistered Calculating similarities between the context of the word and the contexts of the synonyms, generating statistics about the categories to which the synonyms belong, receiving the predetermined weighting factors associated with the synonyms, the received predetermined factors Weighting similarities corresponding to the associated synonyms based on; extracting a set from the synonyms based on the weighted similarities; summing the weighted similarities corresponding to the synonyms in the extracted set and belonging to the same category And the unregistered word based on the sum of the similarities Determining the category.
이하에서, 본 발명의 각자의 실시예들이 상세히 설명될 것이다.In the following, respective embodiments of the present invention will be described in detail.
도 1은 본 발명의 일 실시예에 따른, 미등록 단어의 카테고리를 결정하는 장치(100)의 블록도를 나타낸 것이다.1 shows a block diagram of an
본 발명에 따른 미등록 단어의 카테고리를 결정하는 장치(100)는 유의어 선택기(110), 문맥 생성기(120) 및 카테고리 결정기(130)를 포함할 수 있다. 유의어 선택기(110)는 단어 형성 규칙에 기초하여 사전에서 미등록 단어의 유의어들을 선택할 수 있다. 문맥 생성기(120)는 코퍼스로부터 미등록 단어의 문맥을 생성할 수 있다. 카테고리 결정기(130)는 미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리를 결정할 수 있다.The
본 발명의 일 실시예에 따르면, 유의어 선택기(110)는 미등록 단어의 유의어들로서 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들을 사전에서 선택하기 위한 수단을 포함할 수 있다. 본 발명의 일 실시예에 따르면, 유의어 선택기(110)는 미등록 단어의 품사를 결정하기 위한 수단, 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들을 사전에서 선택하기 위한 수단, 및 선택된 모든 단어들 중에서 미등록 단어와 동일한 품사를 갖는 단어들을 미등록 단어의 유의어들로서 선택하기 위한 수단을 포함할 수 있다.According to one embodiment of the invention, the
본 발명의 일 실시예에 따르면, 문맥 생성기(120)는 코퍼스에서 미등록 단어를 검색하기 위한 수단, 윈도우(window)를 적용하여(apply) 미등록 단어에 근접한 단어들을 가져오기(fetch) 위한 수단, 가져온 미등록 단어에 근접한 단어들에 단어 분할을 수행하기 위한 수단, 및 단어 분할 이후 얻어진 각자의 단어들 및 그 단어들의 가중치를 미등록 단어의 문맥으로서 사용하기 위하여, 단어 분할 이후 얻어진 각자의 단어들의 가중치를 결정하기 위한 수단을 포함할 수 있다.According to one embodiment of the invention, the
본 발명의 일 실시예에 따르면, 문맥 생성기(120)는 코퍼스에서 미등록 단어를 검색하기 위한 수단, 및 미등록 단어의 문맥으로서 의존성을 사용하기 위하여, 의존 트리 모드(dependent tree mode)에서 미등록 단어의 의존성을 분석하기 위한 수단을 포함할 수 있다.According to one embodiment of the invention, the
본 발명의 일 실시예에 따르면, 문맥 생성기(120)는 코퍼스로부터 유의어들의 문맥을 생성하기 위한 수단을 더 포함할 수 있다.According to one embodiment of the invention, the
본 발명의 일 실시예에 따르면, 카테고리 결정기(130)는 유의어들이 속하는 카테고리들에 관한 통계를 작성하기 위한 수단, 코퍼스로부터 각자의 카테고리에 포함된 모든 단어들의 문맥을 각자의 카테고리의 문맥으로서 생성하기 위한 수단, 미등록 단어의 문맥과 각자의 카테고리들의 문맥들 사이의 유사도를 계산하기 위한 수단, 및 최대 유사도에 대응하는 카테고리를 미등록 단어가 속하는 카테고리로서 결정하기 위한 수단을 포함할 수 있다.According to one embodiment of the invention, the
본 발명의 일 실시예에 따르면, 카테고리 결정기(130)는 미등록 단어의 문맥과 유의어들의 문맥들의 유사도들을 계산하기 위한 수단, 유사도들에 기초하여 유의어들로부터 집합을 추출하기 위한 수단, 추출된 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 유사도들을 합산하기 위한 수단, 및 합산된 유사도들에 기초하여 미등록 단어가 속하는 카테고리를 결정하기 위한 수단을 포함할 수 있다. 일 실시예에서, 카테고리 결정기(130)에 포함되어 있는, 합산된 유사도들에 기초하여 미등록 단어가 속하는 카테고리를 결정하기 위한 수단은 K-최근접 이웃(K-nearest Neighbor) 알고리즘을 수행할 수 있다.According to an embodiment of the present invention, the
본 발명의 일 실시예에 따르면, 카테고리 결정기(130)는 미등록 단어의 문맥과 유의어들의 문맥들의 유사도들을 계산하기 위한 수단, 유의어들이 속하는 카테고리들에 관한 통계를 작성하기 위한 수단, 유의어들과 연관되어 있는 미리 정해진 가중 인자들을 수신하기 위한 수단, 수신된 미리 정해진 가중 인자들에 기초하여 연관된 유의어들에 대응하는 유사도들을 가중하기 위한 수단, 유사도들에 기초하여 유의어들로부터 집합을 추출하기 위한 수단, 추출된 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 가중된 유사도들을 합산하기 위한 수단, 및 합산된 유사도들에 기초하여 미등록 단어가 속하는 카테고리를 결정하기 위한 수단을 포함할 수 있다. 일 실시예에서, 미리 정해진 가중 인자들의 지정은 다음의 정책들을 만족시킨다: 미등록 단어와 카테고리 내의 단어가 마지막 문자 및 마지막에서 두 번째 문자를 공유하는 경우에, 카테고리와 연관된 미리 정해진 가중 인자를 λ1으로 설정함; 그렇지 않고, 미등록 단어와 카테고리 내의 단어가 첫번째 문자 및 마지막 문자를 공유하는 경우에, 카테고리와 연관된 미리 정해진 가중 인자를 λ2로 설정함; 그렇지 않고, 미등록 단어와 카테고리 내의 단어가 첫번째 문자 또는 마지막 문자만을 공유하는 경우에, 카테고리와 연관된 미리 정해진 가중 인자를 λ3로 설정함; 그렇지 않은 경우에는, 카테고리와 연관된 미리 정해진 가중 인자를 λ4로 설정함(단, λ1≥λ2≥λ3≥λ4임). 일 실시예에서, 카테고리 결정기(130)에 포함되어 있는, 유사도들에 기초하여 유의어들로부터 집합을 추출하기 위한 수단은, 유사도들을 내림차순으로 정렬하기 위한 수단, 및 최상위에 있는 미리 정해진 수의 유사도들에 대응하는 유의어들을 집합으로 추출하기 위한 수단을 포함할 수 있다.According to one embodiment of the invention, the
도 2는 본 발명의 일 실시예에 따른, 미등록 단어의 카테고리를 결정하는 방법의 흐름도를 나타낸 것이다.2 is a flowchart of a method of determining a category of an unregistered word, according to an embodiment of the present invention.
단계(201)에서, 단어 형성 규칙(word formation rule)에 기초하여 사전에서 미등록 단어의 유의어들을 선택한다.In
본 발명의 일 실시예에 따르면, 단어 형성 규칙은 단어 형성 요소들, 요소 속성들 및 요소 관계들을 포함할 수 있다. 단어 형성 요소들은 문자들 및/또는 단어를 형성하는 직접 요소들 등을 포함할 수 있고, 요소 속성들은 단어의 태깅, 길이, 품사를 포함할 수 있으며, 요소 관계들은 단어의 각자의 요소들 간의 관계, 예를 들어, 병행, 수정, 제한 등을 포함할 수 있다.According to one embodiment of the invention, the word forming rule may include word forming elements, element attributes and element relationships. Word forming elements may include letters and / or direct elements forming a word, element attributes may include tagging, length, part-of-speech of a word, and element relationships may be relationships between respective elements of a word. , For example, may include parallelism, modifications, restrictions, and the like.
일례에서, 미등록 단어와 하나 이상의 문자들 및/또는 직접 요소들을 공유하는 단어들이 미등록 단어의 유의어들로서 사전에서 선택될 수 있다. 예를 들어, 미등록 단어가 "基"(ji, 투자자)와 "民"(min, 사람)의 두 문자를 포함하는 "基民" (ji-min, 펀드 투자자)이라고 가정해보자. 사전에서 "基"라는 문자를 포함하는 단어가 (ji-chu, 기초), "基本"(ji-ben, 기본), (dian-ji-zhe, 창립자), "地基"(di-ji, 토대)이고, "民"을 포함하는 단어는 "人民"(ren-min, 인민)과 "民主"(min-zhu, 민주)라고 가정하면, 이 단어들 모두가 미등록 단어 "基民"의 유의어로 여겨진다. 현재, 유의어들의 집합은 {, "基本", , "地基", "人民", "民主"}이다. 도 3에 도시된 예는 이 실시예를 설명한다.In one example, words that share one or more letters and / or direct elements with an unregistered word may be selected from the dictionary as synonyms of the unregistered word. For example, suppose the unregistered word is "基 民" (ji-min, fund investor), which contains two letters: "基" (ji, investor) and "民" (min, person). In the dictionary, a word containing the word "基" (ji-chu, basic), "基本" (ji-ben, basic), (dian-ji-zhe, founder), "地基" (di-ji, foundation), and the words containing "民" are "人民" (ren-min) and "民主" (min-zhu, democratic) ), All of these words are considered synonyms of the unregistered word "基 民". Currently, the set of synonyms is { , "基本", , "地基", "人民", "民主"}. The example shown in FIG. 3 describes this embodiment.
게다가, 다른 예에서, 먼저 명사, 형용사 또는 동사 등과 같은 미등록 단어의 품사가 결정되고, 이어서 하나 이상의 문자 및/또는 직접 요소를 공유하는 단어들이 사전에서 선택되며, 미등록 단어와 동일한 품사를 갖는 단어들이 미등록 단어의 유의어들로 선정된다. 도 4와 도 5에 도시된 실시예들은 이 실시예를 설명한다.In addition, in another example, a part-of-speech of an unregistered word, such as a noun, adjective, verb, or the like, is first determined, then words that share one or more letters and / or direct elements are selected from a dictionary, and words having the same part-of-speech are found. Synonyms of unregistered words are selected. The embodiments shown in Figs. 4 and 5 describe this embodiment.
단계(202)에서, 코퍼스로부터 미등록 단어의 문맥이 생성된다.In
본 발명의 일 실시예에 따르면, 단어의 문맥은 의존 트리 모드에서 또는 당업자들이 잘 알고 있는 다른 방식에서 윈도우를 적용하여 생성될 수 있다.According to one embodiment of the invention, the context of a word may be generated by applying a window in dependent tree mode or in other ways well known to those skilled in the art.
이하에서는, 윈도우를 적용하여 코퍼스로부터 주어진 단어의 문맥을 어떻게 구하는지를 설명하기 위해 예가 사용된다. 주어진 단어가 (wo-men, 우리)이고, 코퍼스가 복수의 문장을 포함하는데 한 문장이 (yi-ding-hao-hao-ba-wo-wo-men-mei-ge-ren-de-ren-sheng-dao-lu, 우리 각자의 인생 경로를 단단히 붙잡아야 한다.)이며, 윈도우의 크기를 6으로 설정하는 것으로 가정해보자.In the following, an example is used to illustrate how to apply a window to obtain the context of a given word from a corpus. Given word (wo-men, we), and the corpus contains multiple sentences, one sentence (yi-ding-hao-hao-ba-wo-wo-men-mei-ge-ren-de-ren-sheng-dao-lu, we must firmly grasp each of our life paths.) Let's assume that we set 6 to 6.
우선, 코퍼스로부터 이 단어가 검색된다. 이 예에서, 단어 가 문장 에 포함되어 있는 것이 검색된다.First, this word is retrieved from the corpus. In this example, the word Sentence What is included in is searched.
다음으로, 윈도우를 적용하여 단어 에 근접한 문자들을 가져온다. 크기 6을 갖는 윈도우는 코퍼스 내의 이 단어를 포함하는 문장이나 단락 안에 이 단어를 포함하도록 정의될 수 있다. 단어를 포함하는 방식은, 예를 들면, 이 단어(즉, )를 중심에 두고 바로 앞의 3문자와 바로 뒤의 3 문자를 가져오거나, 예를 들어, 이 단어에서 시작하여 바로 뒤에 오는 6 문자를 가져오거나, 예를 들어, 이 단어를 끝에 두고 있는 바로 앞의 6 문자를 가져오거나, 예를 들어, 바로 앞의 1 또는 2 문자와 바로 뒤의 5 또는 4 문자를 가져오는 것 등을 의미한다.Next, apply a window to the word Gets characters close to. A window of size 6 may be defined to include this word in a sentence or paragraph that contains this word in the corpus. The way to include a word is, for example, this word (i.e. 3 characters in front of the center 3 characters immediately after and , Or, for example, 6 characters starting at this word and immediately following , Or, for example, the six characters immediately preceding the word , Or, for example, to bring the 1 or 2 characters immediately before and the 5 or 4 characters immediately after.
윈도우의 크기와 동일한 수의 문자를 가져온 후에, 이 단어에 근접한 가져온 단어들에 대하여 단어 분할이 수행된다. 예를 들어, 이 단어 (즉, )를 중심에 두고 바로 앞의 3문자와 바로 뒤의 3 문자을 가져온 경우에, 와 의 2개의 문자 그룹이 얻어지며, 이어서 2개의 문자 그룹에 대하여 단어 분할이 수행되며, 예를 들어, 다음과 같은 단어 분할 결과가 얻어질 수 있다: .After importing the same number of characters as the size of the window, word splitting is performed on the imported words that are close to this word. For example, this word (ie 3 characters in front of the center And the 3 characters immediately after If you imported Wow Two character groups of are obtained, followed by word division for two character groups, for example, the following word division results can be obtained: .
다음으로, 단어 분할 이후에 얻어진 각자의 단어들의 가중치가 결정된다. 단어 분할 이후에 얻어진 결과들은 대응하는 벡터 <v1, v2, ..., vn>를 가질 수 있고, 여기서 n은 이 단어의 단어 분할 결과의 수를 가리킨다. 위의 예에서, 총 4개의 단어 분할 결과가 있으며, 따라서, n=4이고, vi은 대응하는 단어의 가중치(i=1 …n)를 가리킨다. 예를 들어, TFIDF(word frequency × inverse document frequency), BOOL(존재하는지 여부), IDF(inverse document frequency) 및 PMI(pointwise mutual information) 등과 같은 복수의 가중치-계산 방법이 있다. 보통, 한 단어의 문맥 단어가 나타난 횟수는 이 단어의 의미를 결정하는 데 거의 기여하지 못하지만, 그것이 나타났는지 여부는 결정적인 중요성을 갖고, 따라서, 본 발명의 바람직한 실시예에서는, 가중치를 계산하기 위해 IDF(inverse document frequency)가 사용될 수 있다.Next, the weights of the respective words obtained after word division are determined. The results obtained after word division may have corresponding vectors <v 1 , v 2 , ..., v n >, where n indicates the number of word division results of this word. In the above example, there are a total of four word splitting results, so n = 4, and v i indicates the weight of the corresponding word (i = 1… n). For example, there are a plurality of weight-computing methods such as word frequency x inverse document frequency (TFIDF), BOOL (whether present), inverse document frequency (IDF), and pointwise mutual information (PMI). Usually, the number of occurrences of a word of context word contributes little to determining the meaning of this word, but whether or not it appears is of critical importance, and therefore, in a preferred embodiment of the present invention, IDF is used to calculate weights. (inverse document frequency) can be used.
이상의 프로세스를 통하여, 단어 분할 이후 얻어진 각자의 단어들 및 그 단어들의 가중치가 획득될 수 있으며, 이 단어들과 획득된 가중치들이 주어진 단어의 문맥으로서 사용될 수 있다.Through the above process, respective words obtained after word division and the weights of the words can be obtained, and these words and the obtained weights can be used as the context of a given word.
게다가, 코퍼스에서 미등록 단어를 검색하고 의존 트리 모드에서 미등록 단어를 분석함으로써, 분석에 의해 획득된 의존성이 주어진 단어의 문맥으로서 사용된다.In addition, by searching for unregistered words in the corpus and analyzing unregistered words in the dependency tree mode, the dependencies obtained by the analysis are used as the context of a given word.
이상의 문맥 생성 방법을 통하여, 미등록 단어의 문맥이 획득될 수 있다.Through the above context generating method, the context of an unregistered word can be obtained.
단계(203)에서, 미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리가 결정된다.In
미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 프로세스가 복수의 방식으로 구현될 수 있다. 도 3 내지 도 5에 대한 이하의 상세한 설명에서, 미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리를 결정하는 복수의 구체적인 실시예들이 제공된다.The process of determining the category to which an unregistered word belongs based on the context and synonyms of the unregistered word can be implemented in a number of ways. In the following detailed description of FIGS. 3 to 5, a plurality of specific embodiments are provided for determining a category to which an unregistered word belongs based on context and synonyms of the unregistered word.
도 3에 도시된 실시예에서, 먼저, 이 유의어들이 속하는 카테고리를 각각 결정하기 위하여 미등록 단어의 유의어들에 대한 통계가 작성될 수 있고, 이어서, 각자의 카테고리들의 문맥이 생성되며, 각자의 카테고리들의 문맥은 코퍼스로부터 생성되는 각자의 카테고리들에 포함된 모든 단어들의 문맥에 기초하여 얻어지며, 다음으로, 선행 기술의 공지된 또는 통상적인 유사도 계산 방법들이 미등록 단어의 문맥과 각자의 카테고리들의 문맥들 사이의 유사도들을 계산하기 위하여 사용될 수 있고, 마지막으로, 최대 유사도에 대응하는 카테고리가 미등록 단어가 속하는 카테고리로서 결정된다.In the embodiment shown in Fig. 3, first, statistics for synonyms of an unregistered word may be created to determine each category to which these synonyms belong, and then a context of respective categories is generated, The context is obtained based on the context of all words contained in the respective categories generated from the corpus, and then known or conventional similarity calculation methods of the prior art between the context of the unregistered word and the contexts of the respective categories. Can be used to calculate the similarities of and finally, the category corresponding to the maximum similarity is determined as the category to which the unregistered word belongs.
도 4에 도시된 실시예에서, 먼저, 유의어들의 문맥들이 코퍼스로부터 생성될 수 있고 - 이는 단계(202)에서 미등록 단어의 문맥을 생성하는 것과 동일한 구현 방법을 사용할 수 있음 -, 이어서, 미등록 단어의 문맥과 유의어들의 문맥들 사이의 유사도들이 계산되고, 계산된 유사도들에 기초하여 미등록 단어의 유의어들로부터 집합이 추출되며 - 이 집합은 미리 정해진 수의 유의어들을 포함할 수 있음 -, 다음으로, 추출된 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 유사도들이 합산되며, 마지막으로, 합산된 유사도들에 기초하여 미등록 단어가 속하는 카테고리가 결정된다. 도 4에 도시된 실시예에서, 예를 들어, K-최근접 이웃(KNN) 알고리즘 또는 당업자들에 알려진 다른 방법이 사용될 수 있다.In the embodiment shown in FIG. 4, first, contexts of synonyms may be generated from the corpus, which may use the same implementation method as generating the context of an unregistered word in
도 5에 도시된 실시예에서, 먼저, 유의어들의 문맥들이 코퍼스로부터 생성될 수 있으며 미등록 단어의 문맥과 유의어들의 문맥들 사이의 유사도가 계산되고, 이어서, 계산된 유사도들을 가중 인자들로 가중함으로써 보다 나은 유사도 결과가 얻어질 수 있으며, 게다가, 보다 나은 유사도에 기초하여 미등록 단어가 속하는 카테고리가 결정될 수 있다. 구체적으로는, 먼저, 유의어들의 문맥들이 코퍼스로부터 생성될 수 있고, 미등록 단어의 문맥과 유의어들의 문맥들 사이의 유사도들이 계산되며, 유의어들이 속하는 카테고리들에 관한 통계가 작성되고, 유의어들과 연관되어 있는 미리 정해진 가중 인자들을 수신하며, 수신된 미리 정해진 가중 인자들에 기초하여 연관된 유의어들에 대응하는 유사도들을 가중하고, 가중된 유사도들에 기초하여 미등록 단어의 유의어들로부터 집합을 추출하며 - 이 집합은 미리 정해진 수의 유의어들을 포함할 수 있음 -, 동일한 카테고리에 속하는 집합 내의 유의어들의 가중된 유사도들을 합산하고, 합산된 유사도들에 기초하여 미등록 단어가 속하는 카테고리를 결정한다.In the embodiment shown in FIG. 5, first, contexts of synonyms can be generated from a corpus, and the similarity between the context of an unregistered word and the contexts of the synonyms is calculated, and then weighted by the weighted factors Better similarity results can be obtained, and furthermore, the categories to which unregistered words belong can be determined based on better similarity. Specifically, first, contexts of the synonyms can be generated from the corpus, similarities between the context of the unregistered word and the contexts of the synonyms are calculated, statistics about the categories to which the synonyms belong, and the synonyms associated with the synonyms Receive predetermined weighting factors, weight similarities corresponding to associated synonyms based on the received predetermined weighting factors, and extract a set from the synonyms of an unregistered word based on the weighted similarities- May include a predetermined number of synonyms-summing the weighted similarities of the synonyms in the set belonging to the same category, and determining the category to which the unregistered word belongs based on the summed similarities.
이하에서, 도 3 내지 도 5의 실시예들이 상세히 설명된다.In the following, the embodiments of FIGS. 3 to 5 are described in detail.
도 3은 본 발명의 다른 실시예에 따른, 미등록 단어의 카테고리를 결정하는 방법의 흐름도를 나타낸 것이다.3 illustrates a flowchart of a method for determining a category of an unregistered word, according to another embodiment of the present invention.
단계(301)에서, 미등록 단어가 수신된다.In
이 실시예에서, 수신된 미등록 단어가 (bing-jing, 얼음 결정체)이라고 가정하자.In this embodiment, the received unregistered word is Suppose (bing-jing, ice crystals).
단계(302)에서, 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들이 미등록 단어의 유의어들로서 사전에서 선택된다.In
앞서 언급한 바와 같이, 단어 형성 규칙은 단어 형성 요소들, 요소 속성들 및 요소 관계들 등을 포함할 수 있고, 단어 형성 요소들은 문자들 및/또는 단어를 형성하는 직접 요소들 등을 더 포함할 수 있으며, 미등록 단어와 사전이 주어졌을 때, 사전 내의 단어들이 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 경우에, 이 단어들은 모두 미등록 단어의 유의어들로 간주되며 유의어 집합에 넣어진다. 이상의 내용은 단어 형성 규칙에 기초하여 사전에서 미등록 단어의 유의어들을 선택하는 구체적인 구현 방식으로서 간주될 수 있다.As mentioned above, the word forming rules may include word forming elements, element attributes and element relationships, etc. The word forming elements may further include letters and / or direct elements forming the word, and the like. Given a word and a dictionary, if the words in the dictionary share one or more word forming elements with the word unregistered, these words are all considered synonyms of the word unregistered and put into the thesaurus. The foregoing may be regarded as a specific implementation manner for selecting synonyms of unregistered words in a dictionary based on word formation rules.
이하에서, 예시를 위해 동일한 문자를 공유하는 예가 제시된다. 예를 들어, 미등록 단어가 (bing, 얼음)과 "晶"(jing, 결정)의 두 문자를 포함하는 (bing-jing, 얼음 결정체)이라고 가정하자. 사전에서 문자 을 포함하는 단어들이 (bing-dao, 스케이트), (bing-gui, 얼음 저장고), (bing-yu, 진눈깨비), (bing-xue, 빙설)이고, 문자 "晶"을 포함하는 단어들이 "水晶"(shui-jing, 수정), "晶粒"(jing-li, 수정 입자), (수정체)이며, 이때, 미등록 단어의 유의어 집합은 {, , , , "水晶", "晶粒", }이라고 가정하자.In the following, an example of sharing the same letter is shown for illustration. For example, if an unregistered word (bing, ice) and "晶" (jing, crystal) containing two characters Suppose (bing-jing, ice crystals). Character from dictionary Words that contain (bing-dao, skate), (bing-gui, ice cellar), (bing-yu, sleet), (bing-xue, ice and snow), and the words containing the letter "晶" are "shui-jing", "晶粒" (jing-li, crystal particle), (Correction), where the set of synonyms for an unregistered word is { , , , , "水晶", "晶粒", }
단계(303)에서, 코퍼스로부터 미등록 단어의 문맥이 생성된다.In
미등록 단어의 문맥은 의존 트리 모드에서 또는 당업자들에게 알려진 다른 방식으로 윈도우를 적용하여 생성될 수 있으며, 구체적인 구현 방식은 단계(202)에서 설명되었으므로 여기에서는 상세히 설명하지 않을 것이다.The context of an unregistered word may be created by applying a window in dependent tree mode or in other ways known to those skilled in the art, and a specific implementation manner is described in
단계(304)에서, 유의어들이 속하는 카테고리들에 관한 통계가 작성된다.In
단계에서, 미등록 단어의 각자의 유의어들의 카테고리들이 얻어지며, 이어서 이 유의어들이 속하는 모든 카테고리들을 결정하기 위하여 구해진 카테고리들에 대한 통계가 각각 작성된다.In a step, categories of respective synonyms of an unregistered word are obtained, and then statistics are obtained for each of the obtained categories to determine all categories to which these synonyms belong.
예를 들어, 은 카테고리 C1에 속하고, 은 카테고리 C2에 속하며, 은 카테고리 C4에 속하고, 은 카테고리 C4에 속하며, "水晶"은 카테고리 C3에 속하고, "晶粒"은 카테고리 C3에 속하며, 은 카테고리 C3에 속한다. 앞에서 언급한 바와 같이, 사전 내의 각각의 단어는 그의 품사, 카테고리, 단어 의미 및 예문, 그리고 기타 정보로 태깅될 수 있으며, 따라서 각각의 단어가 어느 카테고리에 속하는지가 사전으로부터 직접 도출될 수 있다. 게다가, 단어의 카테고리가 또한 수작업으로 설정될 수 있다.E.g, Belongs to category C1, Belongs to category C2, Belongs to category C4, Belongs to category C4, "水晶" belongs to category C3, "晶粒" belongs to category C3, Belongs to category C3. As mentioned above, each word in a dictionary can be tagged with its parts of speech, category, word meaning and example, and other information, so that which category each word belongs to can be derived directly from the dictionary. In addition, the category of words can also be set manually.
이 예에서, 카테고리 C1에 속하는 단어들은 를 포함하고, 카테고리 C2에 속하는 단어들은 를 포함하며, 카테고리 C3에 속하는 단어들은 "水晶", "晶粒", 를 포함하고, 카테고리 C4에 속하는 단어들은 와 를 포함한다.In this example, words belonging to category C1 And words belonging to category C2 Words belonging to category C3 include "水晶", "晶粒", And words belonging to category C4 Wow .
이로부터 미등록 단어 의 유의어들이 속하는 카테고리들이 각각 C1, C2, C3 및 C4라는 것이 도출될 수 있다.Unregistered words from It can be derived that the categories to which the synonyms of are belonging to C1, C2, C3 and C4, respectively.
단계(305)에서, 카테고리들 각각의 문맥으로서 카테고리들 각각에 포함된 모든 단어들의 문맥들이 코퍼스로부터 생성된다.In
이 단계에서, 먼저 각자의 카테고리에 포함된 모든 단어들이 결정된다. 예를 들어, 로 기록되어 있는 카테고리 C1은 이외에 와 를 추가로 포함하고, 로 기록되어 있는 카테고리 C2는 이외에 를 추가로 포함하지만, 로 표시되어 있는 카테고리 C3는 단지 "水晶", "晶粒", 만을 포함하고, 로 기록되어 있는 카테고리 C4는 단지 만을 포함한다.In this step, all the words included in each category are first determined. E.g, Category C1 recorded as besides Wow , ≪ / RTI > Category C2 recorded as besides Contains additional Categories C3 marked with "Water", "晶粒", Including only Category C4 is listed as Includes only.
단계(202)에서 기술된 바와 같은 코퍼스로부터 단어의 문맥을 생성하는 방법에 따라, 상기한 네 개의 카테고리(C1 내지 C4)에 포함되는 각각의 단어의 문맥이 생성될 수 있다. 각각의 카테고리에 포함된 모든 단어들의 문맥이 이 카테고리의 문맥으로 간주될 수 있고, 예를 들어, 카테고리 C1에 포함된 의 문맥, 의 문맥, 및 의 문맥이 모두 C1의 문맥 = {의 문맥, 의 문맥, 및 의 문맥}으로 기록되어 있는 카테고리 C1의 문맥으로서 역할할 수 있다.Depending on how the context of the word is generated from the corpus as described in
단계(306)에서, 미등록 단어의 문맥과 카테고리들 각각의 문맥 사이의 유사도들이 계산된다.In
앞서 언급한 바와 같이, 미등록 단어의 문맥이 벡터로서 간주될 수 있고, 카테고리에 포함된 모든 단어의 문맥을 결합하는 것으로 인해 카테고리의 문맥도 역시 벡터로서 간주될 수 있으며, 따라서 두 벡터 간의 유사도를 계산하기 위하여 벡터 코사인 거리(vector cosine distance)가 사용될 수 있고, 코사인 거리는 수학식 1에 표현되어 있다.As mentioned above, the context of an unregistered word can be regarded as a vector, and the context of a category can also be regarded as a vector due to combining the context of all words included in the category, thus calculating the similarity between the two vectors. A vector cosine distance can be used for this purpose, and the cosine distance is represented by Equation 1.
여기서, X와 Y는 두개의 벡터이고, n은 X 벡터와 Y 벡터의 길이를 나타내며, xj와 yj는 X 벡터와 Y 벡터 내의 j번째 요소를 나타낸다.Where X and Y are two vectors, n is the length of the X and Y vectors, and x j and y j are the jth elements in the X and Y vectors.
본 발명의 시나리오에 관한 한, X는 미등록 단어의 문맥일 수 있고, Y는 카테고리의 문맥일 수 있으며, xj와 yj는 각각 X와 Y 문맥 내의 j번째 요소에 대응하는 가중치를 나타낸다. 두 문맥 내에 포함된 요소의 수가 다른 경우에, 새로운 문맥 벡터 X' 와 Y'를 재형성하기 위하여 두 벡터의 모든 요소들이 추출될 수 있다. X'에 대하여, X' 내의 요소가 X에 나타나지 않는 경우, 대응하는 가중치가 0으로 설정된다. 그러나, X와 Y 간의 유사도의 계산은 수학식 1을 통해 X' 와 Y' 간의 유사도를 계산함으로써 구현된다. 상기한 코사인 거리의 계산을 통하여, 미등록 단어의 문맥과 각자의 카테고리들의 문맥들 간의 유사도가 다음과 같이 구해질 수 있다:As far as the scenario of the present invention is concerned, X can be the context of an unregistered word, Y can be the context of a category, and x j and y j represent the weights corresponding to the j th element in the X and Y contexts, respectively. If the number of elements contained in the two contexts is different, all the elements of the two vectors can be extracted to reconstruct the new context vectors X 'and Y'. For X ', if the element in X' does not appear in X, the corresponding weight is set to zero. However, the calculation of the similarity between X and Y is implemented by calculating the similarity between X 'and Y' through equation (1). Through the calculation of the cosine distance, the similarity between the context of the unregistered word and the contexts of the respective categories can be obtained as follows:
여기서, 은 단어 의 문맥을 나타내고, context(C1)은 카테고리 C1의 문맥을 나타내며, Sim(A, B)는 A와 B 간의 유사도를 나타낸다. 따라서, 미등록 단어 의 문맥과 카테고리들 C1, C2, C3, C4의 각자의 문맥 간의 유사도는 0.71, 0.67, 0.81 및 0.65이다.here, Silver word Context (C1) represents the context of category C1, and Sim (A, B) represents the similarity between A and B. Thus, unregistered words The similarity between the context of and the context of each of the categories C1, C2, C3, C4 is 0.71, 0.67, 0.81 and 0.65.
게다가, 당업자들에 알려진 다른 방식으로도 둘 간의 유사도가 계산될 수 있다.In addition, the similarity between the two can also be calculated in other ways known to those skilled in the art.
단계(307)에서, 최대 유사도에 대응하는 카테고리가 미등록 단어의 카테고리로서 결정된다.In
단계(306)에서 계산된 유사도들을 비교해보면, 미등록 단어 의 문맥과 카테고리 C3의 문맥 간의 유사도가 제일 높은 것을 알 수 있으며, 따라서 미등록 단어 의 카테고리가 카테고리 C3로서 결정된다.Comparing the similarities calculated in
도 4는 본 발명의 또 다른 실시예에 따른, 미등록 단어의 카테고리를 결정하는 방법의 흐름도를 나타낸 것이다.4 shows a flowchart of a method for determining a category of unregistered words, according to another embodiment of the invention.
단계(401)에서, 미등록 단어가 수신된다.In
이 실시예에서, 도 3의 실시예와 동일하게, 수신된 미등록 단어가 (bing-jing, 얼음 결정체)이라고 가정하자.In this embodiment, the same as the embodiment of FIG. 3, the received unregistered word Suppose (bing-jing, ice crystals).
단계(402)에서, 미등록 단어의 품사가 결정된다.In
미등록 단어의 품사를 결정하는 복수의 방식이 있을 수 있다. 예를 들면, 미등록 단어의 품사가 다양한 알려진 모델을 사용하여 추정되거나 수작업 태깅을 사용하여 결정될 수 있다. 이 예에서, 미등록 단어 의 품사가 명사라고 가정하자.There may be a plurality of ways to determine the part of speech of an unregistered word. For example, the part of speech of an unregistered word can be estimated using various known models or determined using manual tagging. In this example, unregistered words Suppose that the part of speech is a noun.
단계(403)에서, 단어 형성 요소를 공유하는 단어들이 사전에서 선택된다.In
예를 들어, 단계(302)와 동일하게, 미등록 단어가 이라고 가정하면, 미등록 단어 과 하나의 문자를 공유하는 집합이 인 것으로 결정될 수 있다.For example, as in
단계(302)와는 다르게, 이번에는, 상기한 집합이 곧바로 미등록 단어의 유의어로 간주하지 않으며, 단계(404)의 품사 필터링 프로세스가 추가로 수행된다.Unlike
단계(404)에서, 미등록 단어의 유의어들로서, 미등록 단어와 동일한 품사를 갖는 단어들이 선택된 단어들로부터 선정된다.In
앞서 언급한 바와 같이, 단어 형성 규칙은 단어 형성 요소들, 요소 속성들 및 요소 관계들 등을 포함할 수 있으며, 요소 속성들은, 예를 들어, 단어의 태그, 길이, 품사 등을 포함할 수 있다. 도 4의 실시예에서, 단어 형성 규칙 내의 품사는 미등록 단어의 유의어 선택을 구현하는 데 사용된다.As mentioned above, the word forming rule may include word forming elements, element attributes, element relationships, and the like, and element attributes may include, for example, a tag, a length, a part of speech, and the like of a word. . In the embodiment of FIG. 4, parts of speech within the word formation rule are used to implement the synonym selection of an unregistered word.
이 실시예에서, 미등록 단어 의 품사가 명사라는 것이 단계(402)로부터 결정될 수 있으며, 집합 내의 각자의 단어들의 품사는 사전에서 구해질 수 있고, 따라서 단계(404)에서, 이 집합 내의 명사들이 미등록 단어 의 유의어로 선택될 수 있다.In this embodiment, unregistered words It can be determined from
단계(405)에서, 코퍼스로부터 미등록 단어의 문맥이 생성된다.In
미등록 단어의 문맥은 의존 트리 모드에서 또는 당업자들에게 알려진 다른 방식으로 윈도우를 적용하여 생성될 수 있으며, 구체적인 구현 방식은 단계(202)에서 설명되었으므로 여기에서는 상세히 설명하지 않을 것이다.The context of an unregistered word may be created by applying a window in dependent tree mode or in other ways known to those skilled in the art, and a specific implementation manner is described in
단계(406)에서, 코퍼스로부터 유의어들의 문맥들이 생성된다.In
유의어들의 문맥들은 의존 트리 모드에서 또는 당업자들에게 알려진 다른 방식으로 윈도우를 적용하여 생성될 수 있으며, 구체적인 구현 방식은 단계(202)에서 설명되었으므로 여기에서는 상세히 설명하지 않을 것이다.The contexts of the synonyms can be created by applying the window in dependent tree mode or in other ways known to those skilled in the art, and a detailed implementation manner is described in
단계(407)에서, 미등록 단어의 문맥과 유의어들의 문맥들 사이의 유사도들이 계산된다.In
미등록 단어의 문맥은 벡터로서 간주될 수 있고, 유의어의 문맥도 역시 벡터로서 간주될 수 있으며, 따라서 두 벡터 간의 유사도를 계산하기 위하여 벡터 코사인 거리 수학식 1이 사용될 수 있다.The context of an unregistered word can be regarded as a vector, and the context of a synonym can also be regarded as a vector, so vector cosine distance equation 1 can be used to calculate the similarity between two vectors.
본 발명의 시나리오에 관한 한, X는 미등록 단어의 문맥일 수 있고, Y는 미등록 단어의 유의어의 문맥일 수 있으며, xj와 yj는 각각 X와 Y 문맥 내의 j번째 요소에 대응하는 가중치를 나타낸다. 따라서, 상기한 코사인 거리의 계산을 통하여, 미등록 단어의 문맥과 그의 유의어들의 문맥들 간의 유사도가 다음과 같이 구해질 수 있다:As far as the scenario of the present invention is concerned, X can be in the context of an unregistered word, Y can be in the context of a synonym of an unregistered word, and x j and y j are weighted corresponding to the j th element in the X and Y contexts, respectively. Indicates. Thus, through the calculation of the cosine distance, the similarity between the context of an unregistered word and the context of its synonyms can be obtained as follows:
여기서, 은 미등록 단어 의 문맥을 나타내고, 는 미등록 단어 의 유의어 의 문맥을 나타내며, Sim(A, B)는 A와 B 간의 유사도를 나타낸다. 따라서, 미등록 단어 의 문맥과 그의 유의어들 의 문맥들 간의 유사도는 각각 0.30, 0.67, 0.81, 0.74, 0.69 및 0.56이다.here, Is an unregistered word Indicates the context of Is an unregistered word Synonyms of Sim (A, B) represents the similarity between A and B. Thus, unregistered words Context and its synonyms The similarities between the contexts of are 0.30, 0.67, 0.81, 0.74, 0.69 and 0.56, respectively.
단계(408)에서, 유사도들에 기초하여, 미등록 단어의 유의어들로부터 집합이 추출된다.In
추출될 집합 내의 유의어들의 수가 미리 정해져 있을 수 있다. 일례에서, 집합은 미리 정해진 수의 유의어들을 포함하도록 설정될 수 있고, 이 미리 정해진 수는 미등록 단어의 유의어들의 총수보다 작거나 같은 어떤 수라도 될 수 있다. 본 실시예에서, 미리 정해진 수는 K로 나타내어져 있으며, 이 미리 정해진 수를 5라고 가정하자, 즉 K=5라고 가정하자.The number of synonyms in the set to be extracted may be predetermined. In one example, the set may be set to include a predetermined number of synonyms, which may be any number less than or equal to the total number of synonyms of an unregistered word. In this embodiment, the predetermined number is represented by K, and assume that this predetermined number is 5, that is, K = 5.
먼저, 단계(407)에서 구한 유사도들이 내림차순으로 정렬될 수 있다.First, the similarities obtained in
본 실시예에서는, 단계(407)에서 계산된 총 6개의 유사도들이 있다. 유사도들을 내림차순으로 정렬하면 다음과 같은 시퀀스, 0.81, 0.74, 0.69, 0.67, 0.56, 및 0.30를 얻을 수 있고, 이 시퀀스 내의 유사도들에 대응하는 유의어들이 각각 이다.In this embodiment, there are a total of six similarities calculated in
이어서, 최상위에 있는 미리 정해진 수의 유사도들에 대응하는 유의어들이 집합으로 추출된다.Then, the synonyms corresponding to the predetermined number of similarities at the top are extracted into a set.
이 실시예에서, 미리 정해진 수 K=5이지만, 미등록 단어에 대해 총 6개의 유의어들이 있기 때문에, 내림차순으로 정렬된 유사도들 중에서 처음 다섯 개의 유사도가 선택되는데, 즉 0.81, 0.74, 0.69, 0.67, 0.56을 선택하고, 이 유사도들에 대응하는 유의어들 이 집합의 요소로서 집합에 들어가기 위해 추출된다.In this embodiment, since there are a total of six synonyms for the unregistered word, although the predetermined number K = 5, the first five similarities are selected among the similarities arranged in descending order, that is, 0.81, 0.74, 0.69, 0.67, 0.56 And the synonyms corresponding to these similarities As an element of this set, it is extracted to enter the set.
단계(409)에서, 이 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 유사도들이 합산된다.In
이 단계에서, 미등록 단어의 유의어들이 속하는 카테고리가 먼저 결정되고, 이는 단계(304)의 방식에 따라 구현될 수 있으며, 그에 따라 단계(304)에서와 동일한 결과를 얻는데, 즉 카테고리 C2에 속하는 단어들은 를 포함하고, 카테고리 C3에 속하는 단어들은 "水晶", "晶粒", 을 포함하며, 카테고리 C4에 속하는 단어들은 을 포함한다. 따라서, 단계(408)에서 추출된 집합에 들어 있는 유의어들은 각각 C2, C3, C4에 속한다.In this step, the category to which the synonyms of the unregistered words belong is determined first, which can be implemented according to the manner of
다음으로, 미등록 단어의 문맥과 동일한 카테고리에 속하는 유의어들의 문맥들 간의 유사도들이 합산되며, 그에 의해 미등록 단어와 각자의 카테고리들 간의 유사도들을 구하는데, 예를 들어,Next, the similarities between the contexts of the synonyms belonging to the same category as the context of the unregistered word are summed, thereby obtaining similarities between the unregistered word and the respective categories, for example,
단계(410)에서, 미등록 단어의 카테고리가 합산된 유사도들에 따라 결정된다.In
단계(409)에서 얻은 미등록 단어와 각자의 카테고리들 간의 유사도들이 정렬되고, 그에 따라 미등록 단어 과 카테고리 C3 간의 유사도가 가장 높은 것으로 도출되며, 그에 따라 카테고리 C3가 미등록 단어의 카테고리로서 결정될 수 있다.The similarities between the unregistered word obtained in
게다가, 본 발명의 몇몇 실시예들에서, 합산된 유사도들에 기초하여 미등록 단어가 속하는 카테고리를 결정하기 위하여 다른 규칙들이 사용될 수 있다. 예를 들면, 미등록 단어와 각자의 카테고리 간의 최대 유사도는 선택되지 않을 수 있고, 이 유사도들 중에서 중간 값에 해당하는 카테고리가 미등록 단어의 카테고리로서 결정된다.In addition, in some embodiments of the present invention, other rules may be used to determine the category to which an unregistered word belongs based on the sum of similarities. For example, the maximum similarity between an unregistered word and its category may not be selected, and among the similarities, the category corresponding to the median value is determined as the category of the unregistered word.
도 5는 본 발명의 다른 실시예에 따른, 미등록 단어의 카테고리를 결정하는 방법의 흐름도를 나타낸 것이다.5 is a flowchart of a method of determining a category of an unregistered word, according to another embodiment of the present invention.
단계(501)에서, 미등록 단어가 수신된다.In
이 실시예에서, 수신된 미등록 단어가 (dian-ji-chang, 전기 모터 공장)이라고 가정하자.In this embodiment, the received unregistered word is Suppose (dian-ji-chang, electric motor factory).
단계(502)에서, 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들이 미등록 단어의 유의어들로서 사전에서 선택된다.In
단계(302)와 유사하게, 단계(502)의 단어 형성 규칙에 기초하여 이 미등록 단어에 대하여 선택된 유의어들은 (tong-dian, 전원 켬), (lai-dian, 걸려온 전화), (da-dian-hua, 전화를 걸다), (dian-qi-chang, 전기 제품 공장), (chang-zhang, 공장장), (chang-zhu, 공장 소유주)이다.Similar to step 302, the synonyms selected for this unregistered word based on the word formation rule of step 502 (tong-dian, power on), (lai-dian, incoming call), (da-dian-hua, make a phone call), (dian-qi-chang, electrical appliance factory), (chang-zhang, factory manager), (chang-zhu, factory owner).
단계(503)에서, 코퍼스로부터 미등록 단어의 문맥이 생성된다.In
미등록 단어의 문맥은 의존 트리 모드에서 또는 당업자들에게 알려진 다른 방식으로 윈도우를 적용하여 생성될 수 있으며, 구체적인 구현 방식은 단계(202)에서 설명되었으므로 여기에서는 상세히 설명하지 않을 것이다.The context of an unregistered word may be created by applying a window in dependent tree mode or in other ways known to those skilled in the art, and a specific implementation manner is described in
단계(504)에서, 코퍼스로부터 유의어들의 문맥들이 생성된다.In
미등록 단어의 유의어들의 문맥들은 의존 트리 모드에서 또는 당업자들에게 알려진 다른 방식으로 윈도우를 적용하여 생성될 수 있으며, 구체적인 구현 방식은 단계(202)에서 설명되었으므로 여기에서는 상세히 설명하지 않을 것이다.The contexts of the synonyms of the unregistered word may be generated by applying the window in dependent tree mode or in other ways known to those skilled in the art, and the specific implementation manner is described in
단계(505)에서, 미등록 단어의 문맥과 유의어들의 문맥들 사이의 유사도들이 계산된다.In
이 단계는 단계(407)와 유사하므로, 여기에서는 상세히 설명하지 않을 것이다. 단계(505)에서, 미등록 단어 의 문맥과 그 유의어들의 문맥들 사이의 유사도가 다음과 같이 구해질 수 있다.This step is similar to step 407 and will not be described here in detail. In
단계(506)에서, 유의어들이 속하는 카테고리들에 관한 통계가 작성된다.In
이 단계는 단계(304)에서 설명된 방식으로 구현될 수 있으며, 다음과 같은 것들을 구할 수 있는데, 즉 카테고리 C1에 속하는 단어들은 를 포함하고, 카테고리 C2에 속하는 단어들은 와 를 포함하며, 카테고리 C3에 속하는 단어들은 를 포함하고, 카테고리 C4에 속하는 단어들은 를 포함한다.This step may be implemented in the manner described in
단계(507)에서, 유의어들과 연관된 미리 정해진 가중 인자들이 수신된다.In
카테고리를 결정하는데 있어서, 단어의 문맥이 아주 중요하며, 단어의 구조 정보도 역시 카테고리의 결정에 매우 중요하다. 따라서, 본 발명은 혼합 유사도(mixed similarity)라는 개념, 즉 미등록 단어의 문맥과 유의어들의 문맥들 간의 유사도들을 단어의 구조 정보로 가중시키는 것을 제시한다. 본 실시예에서, 단어의 구조 정보는, 예를 들면, 미리 정해진 가중 인자 λ(w,wi)이다. 미등록 단어의 문맥과 유의어의 문맥 간의 유사도를 미리 정해진 가중 인자로 가중시키는 것이 이하의 수학식 2에서 나타내어져 있다.In determining the category, the context of the word is very important, and the structure information of the word is also very important in determining the category. Accordingly, the present invention proposes the concept of mixed similarity, that is, weighting similarities between the context of an unregistered word and the contexts of synonyms with the structure information of the word. In this embodiment, the structure information of the word is, for example, a predetermined weighting factor λ (w, w i ). Weighting the similarity between the context of an unregistered word and the context of a synonym with a predetermined weighting factor is shown in Equation 2 below.
여기서, w는 미등록 단어이고, wi는 미등록 단어의 유의어이며, λ(w,wi)는 미등록 단어 w와 그 유의어 wj의 구조 정보에 기초한 가중 인자를 말하며, CTS(w, wi)는 미등록 단어 w의 문맥과 그 유의어 wj의 문맥 간의 유사도를 나타낸다.Here, w is an unregistered word, w i is a synonym of an unregistered word, λ (w, w i ) refers to a weighting factor based on the structure information of the unregistered word w and its synonym w j , and CTS (w, w i ) Denotes the similarity between the context of the unregistered word w and the context of its synonym w j .
가중 인자를 지정하기 위하여 복수의 방식들이 사용될 수 있다. 일 실시예에서, 가중 인자의 지정은 다음의 정책들을 만족시켜야 한다.Multiple ways can be used to specify the weighting factor. In one embodiment, the designation of weighting factors must satisfy the following policies.
미등록 단어 w와 그 유의어 wj가 마지막 문자 및 마지막에서 두 번째 문자를 공유한다면, 예를 들면, 와 같이 미리 정해진 가중 인자 λ(w,wi)를 λ1으로 설정하고,If the unregistered word w and its synonym w j share the last character and the second to last character, for example: Set the predetermined weighting factor λ (w, w i ) to λ 1 ,
그렇지 않고 미등록 단어 w와 그 유의어 wj가 첫 번째 문자 및 마지막 문자를 공유한다면, 예를 들면, 와 같이 미리 정해진 가중 인자 λ(w,wi)를 λ2로 설정하며,Otherwise, if the unregistered word w and its synonym w j share the first and last characters, for example, Set the predetermined weighting factor λ (w, w i ) to λ 2 ,
그렇지 않고 미등록 단어 w와 그 유의어 wj가 첫 번째 문자를 공유하거나 마지막 문자를 공유한다면, 예를 들면, λ(基民, 市民)=λ3과 같이 미리 정해진 가중 인자 λ(w,wi)를 λ3으로 설정하고,Otherwise, if the unregistered word w and its synonym w j share the first letter or the last letter, for example, the predefined weighting factor λ (w, w i ), such as λ (基 民, 市民) = λ 3 Is set to λ 3 ,
기타 상황들에서는, 가중 인자 λ(w,wi)가 λ4로 설정되며,In other situations, the weighting factor λ (w, w i ) is set to λ 4 ,
여기서 λ1≥λ2≥λ3≥λ4이고 대응하는 숫자들은 실험을 통해 구해질 수 있다.Where λ 1 ≧ λ 2 ≧ λ 3 ≧ λ 4 and the corresponding numbers can be obtained through experiments.
단계(508)에서, 연관된 유의어들에 대응하는 유사도들이 미리 정해진 가중 인자들을 사용하여 가중될 수 있다.In
일례에서, 단계(507)에 따라, 은 각각 λ4 = 0.382로 설정되고, 는 λ2 = 10로 설정된다.In one example, according to
단계(507)에 따라 구해진 상기한 가중 인자들과 단계(505)에 따라 구해진 미등록 단어의 문맥과 유의어들의 문맥들 간의 유사도들이 수학식 2에 적용될 수 있으며, 그에 따라 이하에 나타낸 바와 같이 가중된 유사도들을 구한다.Similarities between the above-described weighting factors obtained according to step 507 and the context of the unregistered word and the contexts of the synonyms obtained according to step 505 may be applied to Equation 2, thus weighted similarity as shown below. Save them.
단계(509)에서, 유사도들에 기초하여, 미등록 단어의 유의어들로부터 집합이 추출된다.In
이 단계는 단계(408)와 유사하다. 먼저, 단계(507)에서 구한 가중된 유사도들이 내림차순으로 정렬될 수 있다. 이어서, 최상위에 있는 미리 정해진 수의 유사도들에 대응하는 유의어들이 집합으로 추출된다.This step is similar to step 408. First, the weighted similarities obtained in
이 실시예에서, 미리 정해진 수 K=5라고 마찬가지로 가정하면, 내림차순으로 정렬된 유사도들 중 처음 5개의 유사도들이 선택되는데, 즉 3.0, 0.172, 0.115, 0.103, 0.076을 선택하고, 이 유사도들에 대응하는 유의어들 가 집합의 요소로서 집합에 넣기 위해 추출된다.In this embodiment, assuming similarly that the predetermined number K = 5, the first five similarities among the similarities sorted in descending order are selected, that is, 3.0, 0.172, 0.115, 0.103, 0.076 are selected and correspond to these similarities. Synonyms Is extracted to put into the set as an element of the set.
단계(510)에서, 이 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 가중된 유사도들이 합산된다.In
단계(510)는 단계(409)와 유사하다.Step 510 is similar to step 409.
우선, 단계(506)의 결과로부터, 추출된 집합 내의 와 가 카테고리 C2에 속하고, 가 카테고리 C3에 속하며, 와 가 카테고리 C4에 속한다는 것을 알 수 있다. 따라서, 단계(509)에서 추출된 집합 내에 들어 있는 유의어들은 각각 C2,C3,C4에 속하며, 이 카테고리들이 바로 미등록 단어의 후보 카테고리들이다.First, from the result of
다음으로, 미등록 단어의 문맥과 동일한 카테고리에 속하는 유의어들의 문맥들 간의 유사도들이 합산되며, 그에 의해 미등록 단어와 각자의 카테고리들 간의 유사도들을 구하는데, 예를 들어,Next, the similarities between the contexts of the synonyms belonging to the same category as the context of the unregistered word are summed, thereby obtaining similarities between the unregistered word and the respective categories, for example,
단계(511)에서, 미등록 단어의 카테고리가 합산된 유사도들에 따라 결정된다.In
단계(510)에서 얻은 미등록 단어와 각자의 카테고리들 간의 유사도들이 정렬되고, 그에 따라 미등록 단어 과 카테고리 C3 간의 유사도가 가장 높은 것으로 도출되며, 그에 따라 카테고리 C3가 미등록 단어의 카테고리로서 결정될 수 있다.The similarities between the unregistered word obtained in
본 발명에 따르면, 미등록 단어의 유의어들은 단어 형성 규칙에 기초하여 사전에서 선택되고, 미등록 단어의 문맥은 코퍼스로부터 생성되며, 그에 따라 미등록 단어의 문맥과 유의어들에 기초하여 미등록 단어가 속하는 카테고리를 결정한다. 본 발명은 선행 기술에서의 낮은 성능의 문제를 해결하며, 높은 적용범위를 갖는 카테고리 선택을 달성하기 위하여 단어 형성 규칙에 기초하여 기존의 사전에서 어떻게 유의어들을 자동으로 선택할지의 문제를 해결하고, 단어 의미 유사도를 정확하게 계산하기 위해서 단어의 구조 정보와 문맥 정보를 어떻게 병합할지의 문제를 해결한다.According to the present invention, the synonyms of an unregistered word are selected from a dictionary based on a word formation rule, a context of an unregistered word is generated from a corpus, and accordingly determine a category to which the unregistered word belongs based on the context and synonyms of the unregistered word. do. The present invention solves the problem of low performance in the prior art, solves the problem of how to automatically select synonyms from existing dictionaries based on word formation rules to achieve category selection with high coverage, and In order to accurately calculate semantic similarity, we solve the problem of how to merge structure information and context information of words.
본 발명에 따른 방법은 소프트웨어, 하드웨어, 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 하드웨어 부분은 전용 논리로 구현될 수 있으며, 소프트웨어 부분은 메모리에 저장되고, 예를 들어, 마이크로프로세서, 개인용 컴퓨터(PC) 또는 메인프레임과 같은 적절한 명령 실행 시스템에 의해 실행될 수 있다.The method according to the invention can be implemented in software, hardware or a combination of hardware and software. The hardware portion may be implemented with dedicated logic and the software portion may be stored in memory and executed by a suitable instruction execution system such as, for example, a microprocessor, personal computer (PC) or mainframe.
본 발명의 이해를 돕기 위하여, 이상의 설명이 당업자들에게 알려져 있고 본 발명의 구현에 필수적일 수 있는 몇몇 보다 구체적인 기술적 상세 내용들을 생략하고 있다는 것에 유의해야 한다.It should be noted that for the purpose of understanding the present invention, the above description is known to those skilled in the art and omits some more specific technical details that may be essential to the implementation of the present invention.
발명의 설명을 제공하는 목적은 본 발명을 설명하고 기술하기 위한 것이지 본 발명을 망라하거나 개시된 형태로 본 발명을 제한하려는 것이 아니다. 당업자에게는, 다양한 수정들 및 변경들이 명백하다.The purpose of providing a description of the invention is to explain and describe the invention and is not intended to be exhaustive or to limit the invention to the form disclosed. Various modifications and variations are apparent to those skilled in the art.
따라서, 바람직한 실시예들을 선택하고 설명하는 것이 본 발명의 원리와 실제적인 응용을 더욱 잘 기술하며, 본 발명의 사상을 벗어나지 않고 모든 수정들 및 변경들이 첨부된 특허청구범위에 의해 제한되는 본 발명의 보호 범위 내에 속한다는 것을 당업자들이 잘 알 수 있게 한다.Accordingly, selecting and describing preferred embodiments better describes the principles and practical application of the present invention, and all modifications and changes are defined by the appended claims without departing from the spirit of the invention. It is well understood by those skilled in the art that they fall within the scope of protection.
Claims (22)
단어 형성 규칙(word formation rule)에 기초하여 사전에서 미등록 단어의 유의어들을 선택하는 단계;
코퍼스로부터 상기 미등록 단어의 문맥을 생성하는 단계; 및
상기 미등록 단어의 문맥과 유의어들에 따라 상기 미등록 단어의 카테고리를 결정하는 단계
를 포함하고,
상기 단어 형성 규칙은 단어 형성 요소들, 요소 속성들 및 요소 관계들을 포함하는 방법.As a method of determining the category of unregistered words,
Selecting synonyms of an unregistered word in a dictionary based on a word formation rule;
Generating a context of the unregistered word from a corpus; And
Determining a category of the unregistered word according to the context and the synonyms of the unregistered word
Including,
And said word forming rule comprises word forming elements, element attributes and element relationships.
상기 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들을 상기 미등록 단어의 유의어들로서 사전에서 선택하는 단계를 포함하는 방법.The method of claim 2, wherein the selecting of the synonyms of the unregistered word in the dictionary based on the word formation rule comprises:
Selecting from the dictionary words that share one or more word forming elements with the unregistered word as synonyms of the unregistered word.
상기 미등록 단어의 품사를 결정하는 단계;
상기 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들을 사전에서 선택하는 단계; 및
선택된 상기 단어들 중에서 상기 미등록 단어와 동일한 품사를 갖는 단어들을 상기 미등록 단어의 유의어들로서 선정하는(picking out) 단계
를 포함하는 방법.The method of claim 2, wherein the selecting of the synonyms of the unregistered word in the dictionary based on the word formation rule comprises:
Determining a part-of-speech of the unregistered word;
Selecting words from a dictionary that share one or more word forming elements with the unregistered words; And
Picking out words having the same part-of-speech from the selected words as synonyms of the unregistered word;
≪ / RTI >
상기 코퍼스로부터 상기 미등록 단어를 검색하는 단계;
윈도우(window)를 적용하여 상기 미등록 단어에 근접한 문자들을 가져오는(fetching) 단계;
가져온 상기 미등록 단어에 근접한 문자들에 단어 분할(word segmentation)을 수행하는 단계; 및
단어 분할 이후 얻어진 단어들 및 그 단어들의 가중치를 상기 미등록 단어의 문맥으로서 사용하기 위하여, 단어 분할 이후 얻어진 각자의 단어들의 가중치를 결정하는 단계
를 포함하는 방법.The method of claim 2, wherein generating a context of an unregistered word from the corpus is as follows:
Retrieving the unregistered word from the corpus;
Applying a window to fetch characters near the unregistered word;
Performing word segmentation on the letters adjacent to the imported unregistered word; And
Determining weights of respective words obtained after the word division, in order to use the words obtained after the word division and the weights of the words as the context of the unregistered word.
≪ / RTI >
상기 코퍼스로부터 상기 미등록 단어를 검색하는 단계; 및
상기 미등록 단어의 문맥으로서 의존성을 사용하기 위하여, 의존 트리 모드(dependent tree mode)에서 상기 미등록 단어의 의존성을 분석하는 단계
를 포함하는 방법.The method of claim 2, wherein generating a context of an unregistered word from the corpus is as follows:
Retrieving the unregistered word from the corpus; And
Analyzing the dependency of the unregistered word in dependent tree mode to use the dependency as the context of the unregistered word
≪ / RTI >
상기 유의어들의 카테고리들에 관한 통계를 작성하는 단계;
상기 코퍼스로부터 각자의 카테고리들에 포함된 모든 단어들의 문맥들을 각자의 카테고리들의 문맥으로서 생성하는 단계;
상기 미등록 단어의 문맥과 상기 각자의 카테고리들의 문맥 사이의 유사도(similarity)를 계산하는 단계; 및
최대 유사도에 대응하는 카테고리를 상기 미등록 단어의 카테고리로서 결정하는 단계
를 포함하는 방법.The method of claim 2, wherein the determining of the category of the unregistered word according to the context and the synonyms of the unregistered word comprises:
Creating statistics regarding the categories of synonyms;
Generating, from the corpus, contexts of all words included in respective categories as contexts of respective categories;
Calculating a similarity between the context of the unregistered word and the context of the respective categories; And
Determining a category corresponding to a maximum similarity as a category of the unregistered word
≪ / RTI >
상기 코퍼스로부터 상기 유의어들의 문맥들을 생성하는 단계;
상기 미등록 단어의 문맥과 상기 유의어들의 문맥들 사이의 유사도들을 계산하는 단계;
상기 유사도들에 기초하여 상기 유의어들로부터 집합을 추출하는 단계;
상기 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 유사도들을 합산하는 단계; 및
합산된 상기 유사도들에 따라 상기 미등록 단어의 카테고리를 결정하는 단계
를 포함하는 방법.The method of claim 2, wherein the determining of the category to which the unregistered word belongs depends on the context and the synonyms of the unregistered word.
Generating contexts of the synonyms from the corpus;
Calculating similarities between the context of the unregistered word and the contexts of the synonyms;
Extracting a set from the synonyms based on the similarities;
Summing similarities corresponding to synonyms in the set and belonging to the same category; And
Determining a category of the unregistered word according to the sum of the similarities
≪ / RTI >
상기 코퍼스로부터 상기 유의어들의 문맥들을 생성하는 단계;
상기 미등록 단어의 문맥과 상기 유의어들의 문맥들 사이의 유사도들을 계산하는 단계;
상기 유의어들의 카테고리들에 관한 통계를 작성하는 단계;
상기 유의어들과 연관되어 있는 미리 정해진 가중 인자들을 수신하는 단계;
상기 미리 정해진 가중 인자들을 사용하여 상기 연관된 유의어들에 대응하는 유사도들을 가중하는 단계;
상기 유사도들에 기초하여 상기 유의어들로부터 집합을 추출하는 단계;
상기 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 가중된 상기 유사도들을 합산하는 단계; 및
합산된 상기 유사도들에 따라 상기 미등록 단어의 카테고리를 결정하는 단계
를 포함하는 방법.The method of claim 2, wherein the determining of the category of the unregistered word according to the context and the synonyms of the unregistered word comprises:
Generating contexts of the synonyms from the corpus;
Calculating similarities between the context of the unregistered word and the contexts of the synonyms;
Creating statistics regarding the categories of synonyms;
Receiving predetermined weighting factors associated with the synonyms;
Weighting similarities corresponding to the associated synonyms using the predetermined weighting factors;
Extracting a set from the synonyms based on the similarities;
Summing the weighted similarities corresponding to the synonyms in the set and belonging to the same category; And
Determining a category of the unregistered word according to the sum of the similarities
≪ / RTI >
상기 미등록 단어와 카테고리 내의 단어가 마지막 문자 및 마지막에서 두 번째 문자를 공유하는 경우에, 상기 카테고리와 연관된 미리 정해진 가중 인자를 λ1으로 설정하는 정책,
그렇지 않고, 상기 미등록 단어와 카테고리 내의 단어가 첫번째 문자 및 마지막 문자를 공유하는 경우에, 상기 카테고리와 연관된 미리 정해진 가중 인자를 λ2로 설정하는 정책,
그렇지 않고, 상기 미등록 단어와 카테고리 내의 단어가 첫번째 문자 또는 마지막 문자만을 공유하는 경우에, 상기 카테고리와 연관된 미리 정해진 가중 인자를 λ3로 설정하고, 그렇지 않은 경우, 상기 카테고리와 연관된 미리 정해진 가중 인자를 λ4로 설정하는 정책을 만족시키고,
여기서 λ1≥λ2≥λ3≥λ4인 방법.The method of claim 9, wherein the designation of the predetermined weighting factor is
A policy for setting a predetermined weighting factor associated with the category to λ 1 if the unregistered word and a word in a category share a last letter and a last second letter,
Otherwise, if the unregistered word and a word in a category share a first letter and a last letter, a policy for setting a predetermined weighting factor associated with the category to λ 2 ,
Otherwise, if the unregistered word and the word in the category share only the first letter or the last letter, the predetermined weighting factor associated with the category is set to λ 3 , otherwise, the predetermined weighting factor associated with the category is set. satisfy the policy set to λ 4 ,
Wherein λ 1 ≥λ 2 ≥λ 3 ≥λ 4 .
상기 유사도들을 내림차순으로 정렬하는 단계; 및
최상위에 있는 미리 정해진 수의 유사도들에 대응하는 유의어들을 상기 집합으로서 추출하는 단계
를 포함하는 방법.The method of claim 8 or 9, wherein extracting a set from the synonyms based on the similarities,
Sorting the similarities in descending order; And
Extracting the synonyms as the set corresponding to a predetermined number of similarities at the highest level;
≪ / RTI >
단어 형성 규칙에 기초하여 사전에서 상기 미등록 단어의 유의어들을 선택하도록 구성된 유의어 선택기(synonym selector);
코퍼스로부터 상기 미등록 단어의 문맥을 생성하도록 구성된 문맥 생성기(context generator); 및
상기 미등록 단어의 문맥과 유의어들에 따라서 상기 미등록 단어가 속하는 카테고리를 결정하도록 구성된 카테고리 결정기(category determiner)
를 포함하고,
상기 단어 형성 규칙은 단어 형성 요소들, 요소 속성들 및 요소 관계들을 포함하는 장치.An apparatus for determining a category of unregistered words,
A synonym selector configured to select synonyms of the unregistered word in a dictionary based on a word formation rule;
A context generator configured to generate a context of the unregistered word from a corpus; And
A category determiner configured to determine a category to which the unregistered word belongs according to context and synonyms of the unregistered word
Including,
And the word forming rule comprises word forming elements, element attributes and element relationships.
상기 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들을 상기 미등록 단어의 유의어들로서 사전에서 선택하기 위한 수단을 포함하는 장치.The synonym selector of claim 13, wherein
Means for selecting words in the dictionary that share one or more word forming elements with the unregistered word as synonyms of the unregistered word.
상기 미등록 단어의 품사를 결정하기 위한 수단;
상기 미등록 단어와 하나 이상의 단어 형성 요소를 공유하는 단어들을 사전에서 선택하기 위한 수단; 및
상기 선택된 단어들 중에서 상기 미등록 단어와 동일한 품사를 갖는 단어들을 상기 미등록 단어의 유의어들로서 선정하기 위한 수단
을 포함하는 장치.The synonym selector of claim 13, wherein
Means for determining a part of speech of the unregistered word;
Means for selecting words from a dictionary that share one or more word forming elements with the unregistered word; And
Means for selecting words having the same parts of speech from the selected words as the synonyms of the unregistered word;
/ RTI >
상기 코퍼스로부터 상기 미등록 단어를 검색하기 위한 수단;
윈도우(window)를 적용하여 상기 미등록 단어에 근접한 문자들을 가져오기 위한 수단;
가져온 상기 미등록 단어에 근접한 문자들에 단어 분할을 수행하기 위한 수단; 및
단어 분할 이후 얻어진 각각의 단어들 및 그 단어들의 가중치를 상기 미등록 단어의 문맥으로서 사용하기 위하여, 단어 분할 이후 얻어진 단어들의 가중치를 결정하기 위한 수단
을 포함하는 장치.The method of claim 13, wherein the context generator,
Means for retrieving the unregistered word from the corpus;
Means for applying a window to retrieve characters in proximity to the unregistered word;
Means for performing word segmentation on letters adjacent to the imported unregistered word; And
Means for determining the weights of the words obtained after the word division, in order to use the respective words obtained after the word division and the weights of the words as the context of the unregistered word.
/ RTI >
상기 코퍼스로부터 상기 미등록 단어를 검색하기 위한 수단; 및
상기 미등록 단어의 문맥으로서 의존성을 사용하기 위하여, 의존 트리 모드에서 상기 미등록 단어의 의존성을 분석하기 위한 수단
을 포함하는 장치.The method of claim 13, wherein the context generator,
Means for retrieving the unregistered word from the corpus; And
Means for analyzing the dependency of the unregistered word in dependency tree mode to use dependency as the context of the unregistered word
/ RTI >
상기 유의어들의 카테고리들에 관한 통계를 작성하기 위한 수단;
상기 코퍼스로부터 각자의 카테고리들에 포함된 모든 단어들의 문맥들을 각각의 카테고리들의 문맥으로서 생성하기 위한 수단;
상기 미등록 단어의 문맥과 상기 각자의 카테고리들의 문맥들 사이의 유사도를 계산하기 위한 수단; 및
최대 유사도에 대응하는 카테고리를 상기 미등록 단어가 속하는 카테고리로서 결정하기 위한 수단
을 포함하는 장치.The method of claim 13, wherein the category determiner,
Means for producing statistics regarding the categories of synonyms;
Means for generating from said corpus the contexts of all words contained in respective categories as the context of respective categories;
Means for calculating a similarity between the context of the unregistered word and the contexts of the respective categories; And
Means for determining a category corresponding to a maximum similarity as a category to which the unregistered word belongs.
/ RTI >
상기 카테고리 결정기는,
상기 미등록 단어의 문맥과 상기 유의어들의 문맥들 사이의 유사도들을 계산하기 위한 수단;
상기 유사도들에 기초하여 상기 유의어들로부터 집합을 추출하기 위한 수단;
상기 집합 내의 상기 유의어들에 대응하고 동일한 카테고리에 속하는 유사도들을 합산하기 위한 수단; 및
상기 합산된 유사도들에 따라서 상기 미등록 단어가 속하는 상기 카테고리를 결정하기 위한 수단
을 포함하는 장치.The apparatus of claim 13, wherein the context generator comprises means for generating contexts of the synonyms from the corpus,
The category determiner,
Means for calculating similarities between the context of the unregistered word and the contexts of the synonyms;
Means for extracting a set from the synonyms based on the similarities;
Means for summing similarities corresponding to the synonyms in the set and belonging to the same category; And
Means for determining the category to which the unregistered word belongs according to the sum of similarities
/ RTI >
상기 카테고리 결정기는,
상기 미등록 단어의 문맥과 상기 유의어들의 문맥들 사이의 유사도들을 계산하기 위한 수단;
상기 유의어들의 카테고리들에 관한 통계를 작성하기 위한 수단;
상기 유의어들과 연관되어 있는 미리 정해진 가중 인자들을 수신하기 위한 수단;
상기 수신된 미리 정해진 가중 인자들을 사용하여 연관된 상기 유의어들에 대응하는 유사도들을 가중하기 위한 수단;
상기 유사도들에 기초하여 상기 유의어들로부터 집합을 추출하기 위한 수단;
상기 집합 내의 유의어들에 대응하고 동일한 카테고리에 속하는 가중된 상기 유사도들을 합산하기 위한 수단; 및
합산된 상기 유사도들에 따라서 상기 미등록 단어가 속하는 카테고리를 결정하기 위한 수단
을 포함하는 장치.The apparatus of claim 13, wherein the context generator comprises means for generating contexts of the synonyms from the corpus,
The category determiner,
Means for calculating similarities between the context of the unregistered word and the contexts of the synonyms;
Means for producing statistics regarding the categories of synonyms;
Means for receiving predetermined weighting factors associated with the synonyms;
Means for weighting similarities corresponding to the synonyms associated with the received predetermined weighting factors;
Means for extracting a set from the synonyms based on the similarities;
Means for summing the weighted similarities corresponding to synonyms in the set and belonging to the same category; And
Means for determining a category to which the unregistered word belongs according to the similarities summed up
/ RTI >
상기 미등록 단어와 카테고리 내의 단어가 마지막 문자 및 마지막에서 두 번째 문자를 공유하는 경우에, 상기 카테고리와 연관된 미리 정해진 가중 인자를 λ1으로 설정하는 정책,
그렇지 않고, 상기 미등록 단어와 카테고리 내의 단어가 첫번째 문자 및 마지막 문자를 공유하는 경우에, 상기 카테고리와 연관된 미리 정해진 가중 인자를 λ2로 설정하는 정책,
그렇지 않고, 상기 미등록 단어와 카테고리 내의 단어가 첫번째 문자 또는 마지막 문자만을 공유하는 경우에, 상기 카테고리와 연관된 미리 정해진 가중 인자를 λ3로 설정하고, 그렇지 않은 경우, 상기 카테고리와 연관된 미리 정해진 가중 인자를 λ4로 설정하는 정책을 만족시키고,
여기서 λ1≥λ2≥λ3≥λ4인 장치.The method of claim 20, wherein the designation of the predetermined weighting factor is
A policy for setting a predetermined weighting factor associated with the category to λ 1 if the unregistered word and a word in a category share a last letter and a last second letter,
Otherwise, if the unregistered word and a word in a category share a first letter and a last letter, a policy for setting a predetermined weighting factor associated with the category to λ 2 ,
Otherwise, if the unregistered word and the word in the category share only the first letter or the last letter, the predetermined weighting factor associated with the category is set to λ 3 , otherwise, the predetermined weighting factor associated with the category is set. satisfy the policy set to λ 4 ,
Wherein λ 1 ≥λ 2 ≥λ 3 ≥λ 4 .
상기 유사도들을 내림차순으로 정렬하기 위한 수단; 및
최상위에 있는 미리 정해진 수의 유사도들에 대응하는 유의어들을 상기 집합으로서 추출하기 위한 수단
을 포함하는 장치.The apparatus of claim 19 or 20, wherein the means for extracting a set from the synonyms based on the similarities,
Means for sorting the similarities in descending order; And
Means for extracting the synonyms as the set corresponding to a predetermined number of similarities at the top;
/ RTI >
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910252923.5A CN102081602B (en) | 2009-11-30 | 2009-11-30 | Method and equipment for determining category of unlisted word |
CN200910252923.5 | 2009-11-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110060806A KR20110060806A (en) | 2011-06-08 |
KR101195341B1 true KR101195341B1 (en) | 2012-10-29 |
Family
ID=44087570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100113442A KR101195341B1 (en) | 2009-11-30 | 2010-11-15 | Method and apparatus for determining category of an unknown word |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5216063B2 (en) |
KR (1) | KR101195341B1 (en) |
CN (1) | CN102081602B (en) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902665B (en) * | 2012-09-25 | 2015-01-07 | 太原理工大学 | System for conducting semantic classification on unknown words and based on affix letters |
JP6044963B2 (en) | 2014-02-12 | 2016-12-14 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Information processing apparatus, method, and program |
CN105335390A (en) * | 2014-07-09 | 2016-02-17 | 阿里巴巴集团控股有限公司 | Object classification method, business pushing method and server |
CN105808529B (en) * | 2016-03-10 | 2018-06-08 | 语联网(武汉)信息技术有限公司 | The method and apparatus that a kind of language material divides field |
CN106649816B (en) * | 2016-12-29 | 2020-06-09 | 北京奇虎科技有限公司 | Synonym filtering method and device |
CN108038105B (en) * | 2017-12-22 | 2020-06-05 | 中科鼎富(北京)科技发展有限公司 | Method and device for generating simulated word vector for unknown words |
CN109033077A (en) * | 2018-07-03 | 2018-12-18 | 龙马智芯(珠海横琴)科技有限公司 | The recognition methods of time type, device, storage medium, electronic device |
CN110222266A (en) * | 2019-05-31 | 2019-09-10 | 江苏三六五网络股份有限公司 | A kind of house property profession phonetic searching system and method based on speech recognition |
US11538465B1 (en) | 2019-11-08 | 2022-12-27 | Suki AI, Inc. | Systems and methods to facilitate intent determination of a command by grouping terms based on context |
US11217227B1 (en) | 2019-11-08 | 2022-01-04 | Suki AI, Inc. | Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain |
KR102418871B1 (en) * | 2019-11-11 | 2022-07-07 | 한림대학교 산학협력단 | Apparatus, method and program for extracting research category of research literature using category feature lexicon each research category |
US11954605B2 (en) * | 2020-09-25 | 2024-04-09 | Sap Se | Systems and methods for intelligent labeling of instance data clusters based on knowledge graph |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062262A (en) | 2002-07-25 | 2004-02-26 | Hitachi Ltd | Method of registering unknown word automatically to dictionary |
KR100682897B1 (en) | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | Method and apparatus for updating dictionary |
JP2008242626A (en) | 2007-03-26 | 2008-10-09 | Mitsubishi Electric Corp | Term registration apparatus |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0782500B2 (en) * | 1992-09-25 | 1995-09-06 | 日本電気株式会社 | Unregistered word acquisition method |
JP2005326952A (en) * | 2004-05-12 | 2005-11-24 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for word registration in concept dictionary, and program |
CN101154226B (en) * | 2006-09-27 | 2011-02-16 | 腾讯科技(深圳)有限公司 | Method for adding unlisted word to word stock of input method and its character input device |
-
2009
- 2009-11-30 CN CN200910252923.5A patent/CN102081602B/en not_active Expired - Fee Related
-
2010
- 2010-09-21 JP JP2010210648A patent/JP5216063B2/en not_active Expired - Fee Related
- 2010-11-15 KR KR1020100113442A patent/KR101195341B1/en not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062262A (en) | 2002-07-25 | 2004-02-26 | Hitachi Ltd | Method of registering unknown word automatically to dictionary |
KR100682897B1 (en) | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | Method and apparatus for updating dictionary |
JP2008242626A (en) | 2007-03-26 | 2008-10-09 | Mitsubishi Electric Corp | Term registration apparatus |
Also Published As
Publication number | Publication date |
---|---|
CN102081602A (en) | 2011-06-01 |
JP5216063B2 (en) | 2013-06-19 |
JP2011118872A (en) | 2011-06-16 |
CN102081602B (en) | 2014-01-01 |
KR20110060806A (en) | 2011-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101195341B1 (en) | Method and apparatus for determining category of an unknown word | |
CN108829893B (en) | Method and device for determining video label, storage medium and terminal equipment | |
WO2021068339A1 (en) | Text classification method and device, and computer readable storage medium | |
TWI536181B (en) | Language identification in multilingual text | |
US7478033B2 (en) | Systems and methods for translating Chinese pinyin to Chinese characters | |
US8280721B2 (en) | Efficiently representing word sense probabilities | |
US20130018650A1 (en) | Selection of Language Model Training Data | |
US20090089047A1 (en) | Natural Language Hypernym Weighting For Word Sense Disambiguation | |
Zeng et al. | Domain-specific Chinese word segmentation using suffix tree and mutual information | |
CN111324771B (en) | Video tag determination method and device, electronic equipment and storage medium | |
CN111177532A (en) | Vertical search method, device, computer system and readable storage medium | |
CN102214189B (en) | Data mining-based word usage knowledge acquisition system and method | |
CN1282934A (en) | Mehtod and system of similar letter selection and document retrieval | |
CN110347790B (en) | Text duplicate checking method, device and equipment based on attention mechanism and storage medium | |
CN110297880B (en) | Corpus product recommendation method, apparatus, device and storage medium | |
CN107844493B (en) | File association method and system | |
CN114065758A (en) | Document keyword extraction method based on hypergraph random walk | |
CN111325018B (en) | Domain dictionary construction method based on web retrieval and new word discovery | |
Ye et al. | Unknown Chinese word extraction based on variety of overlapping strings | |
Aleahmad et al. | N-gram and local context analysis for Persian text retrieval | |
CN113434636A (en) | Semantic-based approximate text search method and device, computer equipment and medium | |
CN111309916A (en) | Abstract extraction method and device, storage medium and electronic device | |
Ullah et al. | A framework for extractive text summarization using semantic graph based approach | |
CN101470701A (en) | Text analyzer supporting semantic rule based on finite state machine and method thereof | |
CN110705285B (en) | Government affair text subject word library construction method, device, server and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150804 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |