KR20130097890A - System and method for recommending alternative words for specific domain area - Google Patents

System and method for recommending alternative words for specific domain area Download PDF

Info

Publication number
KR20130097890A
KR20130097890A KR1020120019527A KR20120019527A KR20130097890A KR 20130097890 A KR20130097890 A KR 20130097890A KR 1020120019527 A KR1020120019527 A KR 1020120019527A KR 20120019527 A KR20120019527 A KR 20120019527A KR 20130097890 A KR20130097890 A KR 20130097890A
Authority
KR
South Korea
Prior art keywords
word
band
candidate
bandword
frequency
Prior art date
Application number
KR1020120019527A
Other languages
Korean (ko)
Other versions
KR101335144B1 (en
Inventor
김판구
최동진
김정인
고미아
Original Assignee
조선대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조선대학교산학협력단 filed Critical 조선대학교산학협력단
Priority to KR1020120019527A priority Critical patent/KR101335144B1/en
Publication of KR20130097890A publication Critical patent/KR20130097890A/en
Application granted granted Critical
Publication of KR101335144B1 publication Critical patent/KR101335144B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: A domain target word recommendation system and a method thereof are provided to minimize the error and mistake of verb and noun selection by providing the example of a target word. CONSTITUTION: A display unit (100) inputs a searching command for translating target words and target words. A target word database (DB) unit (200) extracts a target word candidate word in a specific domain massive amount document and constructs a target word DB by calculating the weighted value and the frequency of the target word candidate word. A recommended target word determination unit (300) receives a target word searching signal, extracts a recommended target word, compares the frequency of the recommended target word with the weighted value, selects the recommended target word, and outputs information related to the selected recommended target word to the display unit. [Reference numerals] (100) Display unit; (112) Word input unit; (114) Implementation button unit; (116) Output unit; (200) Target word database (DB) unit; (300) Recommended target word determination unit; (312) Candidate target word determination unit; (314) Comparing unit; (316) Recommended target word selecting unit; (320) Existing target word dictionary unit

Description

도메인 대역어 추천 시스템 및 그 방법{System and Method for Recommending Alternative Words for Specific Domain Area}Domain Band Word Recommendation System and Method {System and Method for Recommending Alternative Words for Specific Domain Area}

본 발명은 도메인 대역어 추천 시스템 및 그 방법에 관한 것으로, 좀 더 상세하게는 한글단어의 입력시 기존 대역어 사전을 검색하여 후보대역어를 추출하고, 기 구축된 대역어 데이터베이스에서 갖는 후보대역어의 빈도수와 가중치를 비교하여 빈도수와 가중치가 높은 대역어를 우선으로 예시문과 함께 사용자에게 제공하는 도메인 대역어 추천 시스템 및 그 방법에 관한 것이다.
The present invention relates to a domain bandword recommendation system and a method thereof, and more particularly, to extract a candidate bandword by searching an existing bandword dictionary when inputting a Hangul word, and to calculate the frequency and weight of the candidate bandword in a previously established bandword database. In comparison, the present invention relates to a domain bandword recommendation system and a method for providing a user with a high-frequency and weighted bandword with an example.

기존의 대역어 사전 구축 방법은 예를 들어 영어 문서와 번역된 한글 문서를 1:1 매칭 분석하여 전문가에 의해 수동으로 또는 공기어휘(Co-occurrence words)를 이용하여 대역어를 선정하였다.In the existing dictionary construction method, for example, the English document and the translated Hangul document were analyzed by 1: 1 matching and the band word was selected manually by an expert or by using co-occurrence words.

이러한 기존의 대역어 사전들은 한국어와 의미적, 문맥적으로 일치하는 단어를 제공하지 못하고 단편적인 번역수준으로만 접근하고 있다. 즉, 단어의 문맥적 상황을 고려하지 않고 단순히 의미가 유사할 경우 대역어로 사용자에게 제공해주고 있다.These existing dictionary dictionarys do not provide words that are semantically and contextually consistent with Korean, but are approaching only at the fragmentary level of translation. In other words, if the meaning is similar without considering the context of the word, it is provided to the user as a band word.

이러한 대역어 사전을 이용하여 영어작문을 하는 경우, 한국어 뜻에 걸 맞는 영어의 정확한 단어 선정이 매우 어렵고, 단어 선정이 잘못된 경우 의미전달을 명확히 하지 못한 경우가 발생 되게 된다.In the case of English writing using such a band-word dictionary, it is very difficult to select the correct word of English suitable for Korean meaning, and if the word is wrong, there is a case that the meaning transfer is not clear.

따라서, 해당 대역어 국가의 사람들이 흔히 사용하는 특정 도메인 영역에서 단어를 수집하고 추출하여 사용자에게 의미적으로 한국어와 가까운 단어를 추천하여 대상 언어 작문의 어려움을 해소할 수 있는 대역어 추천시스템 및 그 방법이 요구된다.
Therefore, a bandword recommendation system and a method for collecting a word from a specific domain area commonly used by people of the bandword country and recommending a word semantically close to Korean to solve the difficulty of writing a target language are provided. Required.

한국공개특허: 10-2008-0039009 (공개일 2008. 05.07)Korean Publication Patent: 10-2008-0039009 (Published 2008. 05.07)

한국등록특허: 10-0892003 (공고일 2009. 04.07)
Korea Patent Registration: 10-0892003 (Notice date 2009. 04.07)

본 발명은 종래의 문제점을 해결하기 위해 안출 된 것으로서, SUMMARY OF THE INVENTION The present invention has been made to solve the conventional problems,

본 발명의 목적은 대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고 그 후보 단어의 빈도수와 가중치를 계산하여 대역어 데이터베이스를 구축한 다음, 기존 대역어 사전을 기반으로 번역할 단어의 후보 대역어들을 추출하고, 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스에서 갖는 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 예시문과 함께 사용자에게 제공되는 도메인 대역어 추천 시스템 및 그 방법을 제공하는 데 있다.
An object of the present invention is to analyze a large domain of a specific domain of the target language of the target language, extract the candidate word of the band word, calculate the frequency and weight of the candidate word, construct the band word database, and then translate the word based on the existing band word dictionary. A domain bandword recommendation system and a method for providing a domain bandword recommendation system which are provided to a user with example sentences mainly by extracting candidate bandwords of the candidate bandwords and comparing the frequencies and weights of the extracted candidate bandwords in a built-up bandword database. There is.

상기와 같은 목적을 달성하기 위해 제공되는 일 관점에 따른 본 발명의 도메인 대역어 추천 시스템은 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 출력이 이루어지는 것을 특징으로 한다. In accordance with an aspect of the present invention, there is provided a domain bandword recommendation system according to an aspect of the present invention. Compared with the weight and the weight is characterized in that the output is mainly around the bandword with a high frequency and weight.

상기 시스템은 번역할 단어 및 대역어 검색실행명령을 입력하는 디스플레이부와, 특정 도메인 대용량 문서에서 대역어 후보 단어를 추출하고 추출된 대역어 후보 단어의 빈도수와 가중치를 계산하여 대역어 데이터베이스를 구축하는 대역어 데이터베이스부와, 상기 디스플레이부에 입력된 단어의 대역어 검색신호를 받아 기존 대역어 사전을 기반으로 후보 대역어를 추출한 다음 상기 대역어 데이터베이스부에서 갖는 후보 대역어의 빈도수와 가중치를 비교한 후 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고 선정된 추천 대역어에 관한 정보를 디스플레이부에 출력하는 추천 대역어 결정부로 구성되는 것을 특징으로 한다. The system includes a display unit for inputting a word to be translated and a command for executing a band word search, a band word database unit for extracting a band word candidate word from a specific domain large document and calculating a frequency and weight of the extracted band word candidate word to construct a band word database; After receiving the band word search signal of the word input to the display unit, extracting the candidate band word based on the existing band word dictionary, comparing the frequency and weight of the candidate band word in the band word database unit, and then recommending the band words in the order of high frequency and weight. It is characterized in that it comprises a recommended band word determination unit for selecting a band word and outputting information on the selected recommended band word to the display unit.

여기서, 상기 디스플레이부는 터치에 의해 입력이 이루어지는 터치스크린이 적용되는 것이 바람직하다.In this case, the display unit is preferably applied to the touch screen is input by the touch.

그리고, 상기 디스플레이부에 출력되는 추천 대역어에 대한 정보는 추천 대역어와, 빈도수와, 예시문을 포함한다. The recommended band word output to the display unit includes a recommended band word, a frequency, and an example sentence.

상기 대역어 데이터베이스부는 특정 도메인 대용량 문서에서 특수문자, 수식, 그림을 제거하는 과정을 거쳐 대역어 후보 단어를 추출하고, 아울러 동사와 명사만을 대역어 대상으로 제한하여 대역어 후보 단어를 추출하는 것을 특징으로 한다. The bandword database unit extracts a bandword candidate word through a process of removing a special character, an expression, and a picture from a large domain document, and extracts the bandword candidate word by limiting only verbs and nouns to the bandword object.

또한, 상기 대역어 데이터베이스부는 대역어 후보 단어의 출현 빈도수 및 가중치를 계산한 뒤 기 설정된 임계값 이상의 대역어 후보 단어들만 선정하여 대역어 데이터베이스를 구축한 것을 특징으로 한다. In addition, the band word database unit may calculate a frequency and weights of band word candidate words, and then select only band word candidate words having a predetermined threshold value or more to build a band word database.

다른 관점에 따른 본 발명의 도메인 대역어 추천 시스템은 번역할 단어 입력 및 추천 대역어에 관한 정보를 표시하는 디스플레이부; 대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고, 그 후보 단어의 빈도수와 가중치를 계산한 뒤, 기 설정된 임계값 이상인 데이터들만 선정하여 대역어 데이터베이스를 구축하는 대역어 데이터베이스부; 및 상기 디스플레이부에 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고, 상기 대역어 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하여 빈도수와 가중치가 높은 대역어 순으로 디스플레이부에 출력하는 추천 대역어 결정부를 포함하여 구성된 것을 특징으로 한다.According to another aspect of the present invention, there is provided a system for recommending domain band words, including: a display unit configured to input information to be translated and information on recommended band words; A band word database unit configured to extract a band word candidate word by analyzing a large domain document of a target language of a band word, calculate a frequency and weight of the candidate word, and select only data having a predetermined threshold value or more to build a band word database; And extracting a candidate bandword by searching an existing bandword dictionary based on the word input to the display unit, and comparing the frequency and weight of the candidate bandword constructed in the bandword database unit to display the bandword in order of the bandword having the highest frequency and weight. Characterized in that it comprises a recommended band word determination unit for outputting.

상기 디스플레이부는 번역할 단어를 입력하는 단어입력부와, 입력된 단어의 대역어 검색명령신호를 입력하는 실행버튼부와, 추천 대역어에 대한 정보를 출력하는 추천 대역어 출력부로 구성되는 것을 특징으로 한다.The display unit includes a word input unit for inputting a word to be translated, an execution button unit for inputting a band word search command signal of the input word, and a recommended band word output unit for outputting information on the recommended band word.

상기 추천 대역어 결정부는 기존 대역어 사전을 검색하여 후보 대역어를 추출하는 후보 대역어 추출부와, 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하는 비교부와, 후보 대역어 중 빈도수와 가중치가 높은 대역어 순으로 추천대역어로 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 추천 대역어 선정부로 구성되는 것을 특징으로 한다. 여기서, 상기 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예문을 포함한다. The recommended band word determination unit searches for an existing band word dictionary and extracts a candidate band word, a comparison unit comparing the frequency and weight of candidate band words constructed in the database unit, and a band word having a high frequency and weight among the candidate band words. It is characterized in that it consists of a recommended band word selection unit for selecting the recommended band word, and outputs information on the selected recommended band word. Here, the information on the recommended bandword includes a recommended bandword, a frequency, and an example sentence.

상기 대역어 데이터베이스부는 특정 도메인 대용량 문서에서 특수문자, 수식, 그림 등을 제거하는 필터링부와, 필터링된 문서에서 분석하여 대역어 후보 단어를 추출하는 단어 추출부와, 추출된 대역어 후보 단어의 빈도수를 계산하는 빈도수 추출부와, 대역어 후보 단어의 의미적 가중치를 부여하는 가중치 부여부와, 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 최종 데이터베이스를 구축하는 대역어 후보 단어 선정부로 구성되는 것을 특징으로 한다. The bandword database unit includes a filtering unit to remove special characters, equations, and pictures from a large domain document, a word extractor to analyze the filtered document to extract candidate word candidate words, and calculate a frequency of the extracted bandword candidate words. And a frequency extracting unit, a weighting unit for assigning a semantic weight to the band word candidate word, and a band word candidate word selecting unit for selecting only data having a frequency and weight greater than or equal to a predetermined threshold value and constructing a final database.

여기서, 상기 단어 추출부는 동사와 명사만을 대역어 대상으로 제한하여 대역어 후보 단어를 추출하는 것을 특징으로 하며, 상기 가중치는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency) 중 어느 하나 이상이 적용되어 계산된 것을 된 것을 특징으로 한다. The word extracting unit may extract a candidate word for a band word by limiting only a verb and a noun to a target word, and the weight may be a number of occurrences of a word in a document (TF) and a document frequency (DF). Frequency), or an inversed document frequency (IDF: Inversed Document Frequency) of the number of documents in which the word appears, characterized in that it is calculated by applying.

본 발명의 도메인 대역어 추천 방법은 번역할 단어를 입력받은 후 대역어 검색을 실시하는 단계; 상기 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어들을 추출하는 단계; 상기 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스에서 갖는 빈도수와 가중치를 비교하는 단계; 및 상기 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 단계;를 포함하는 것을 특징으로 한다. The domain band word recommendation method of the present invention includes: performing a band word search after receiving a word to be translated; Extracting candidate band words by searching an existing band word dictionary based on the input word; Comparing the weighted frequency and weights of the extracted candidate band words in a pre-built band word database; And selecting a recommended band word in order of the band word having the highest frequency and weight, and outputting information on the selected recommended band word.

상기 대역어 데이터베이스는 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고, 상기 추출된 대역어 후보 단어의 빈도수와 가중치를 계산한 다음, 후보 대역어의 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 구축된 것을 특징으로 한다. 여기서, 상기 대역어 후보 단어의 추출은 특정 도메인 대용량 문서에서 특수문자, 수식, 그림을 제거하는 과정을 거쳐 추출되고, 또한 동사와 명사만을 대역어 대상으로 제한하여 추출하는 것을 특징으로 한다. The bandword database extracts a bandword candidate word by analyzing a large domain document, calculates the frequency and weight of the extracted bandword candidate word, and selects and builds only the data whose frequency and weight of the candidate bandword are greater than or equal to a preset threshold. It is characterized by. The candidate word candidate is extracted through a process of removing a special character, an expression, or a picture from a specific domain large document, and extracts only a verb and a noun by restricting the verb to a target word.

그리고, 상기 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예문을 포함하는 것을 특징으로 하며, 상기 가중치는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency) 중 어느 하나 이상이 적용되어 계산된 것을 된 것을 특징으로 한다.
The information on the recommended bandword may include a recommended bandword, a frequency, and an example sentence, and the weight may include the number of occurrences of a word in a document (Term Frequency) and the document frequency (DF). ) Is calculated by applying any one or more of the inversed document frequency (IDF) of the number of documents in which the word appears in the entire document.

본 발명의 도메인 대역어 추천 시스템 및 그 방법에 따르면, 입력된 단어를 바탕으로 기존 대역어 사전에서 검색하여 후보 대역어를 추출하고, 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 가장 빈번히 사용되고 있는 의미적, 문맥적으로 합당한 대역어를 사용자에게 예문과 함께 제공함으로써 영어 또는 해당 언어의 작문 시 빈번히 발생하는 동사, 명사 선정의 실수와 오류를 최소화할 수 있는 효과가 있다. According to the domain bandword recommendation system and method thereof of the present invention, a candidate bandword is extracted by searching from an existing bandword dictionary based on an input word, and is most frequently used by comparing the frequency and weights of candidate bandwords in a previously established bandword database. By providing a meaningful semantic and contextually reasonable band word with examples, it is possible to minimize mistakes and errors in selecting verbs and nouns that occur frequently when writing English or the corresponding language.

또한, 사용자에게 의미적으로 한국어와 가까운 단어를 추천하여 대상 언어 작문의 어려움을 해소하고, 의미의 전달을 확실히 할 수 있으며, 나아가 교육적인 효과를 얻을 수 있다.
In addition, by recommending a word semantically close to Korean to the user to solve the difficulty of writing the target language, it is possible to ensure the transfer of meaning, and further it can obtain an educational effect.

도 1 은 본 발명에 따른 도메인 대역어 추천 시스템을 도시한 구성도.
도 2는 본 발명에 따른 도메인 대역어 추천 시스템에서 디스플레이부를 도시한 구성도.
도 3은 본 발명에 따른 도메인 대역어 추천 시스템의 동작을 설명하기 위한 흐름도.
도 4는 본 발명에 따른 도메인 대역어 추천 방법을 설명하기 위한 순서도.
1 is a block diagram showing a domain band word recommendation system according to the present invention.
Figure 2 is a block diagram showing a display unit in the domain band word recommendation system according to the present invention.
3 is a flowchart for explaining an operation of a domain bandword recommendation system according to the present invention;
4 is a flowchart illustrating a method for recommending a domain band word according to the present invention.

본 발명의 상기와 같은 목적, 특징 및 다른 장점들은 첨부도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명함으로써 더욱 명백해질 것이다. 이하, 첨부된 도면을 참조하여 도메인 대역어 추천 시스템 및 그 방법을 상세히 설명하기로 한다. 본 명세서를 위해서, 도면에서의 동일한 참조번호들은 달리 지시하지 않는 한 동일한 구성 부분을 나타낸다.These and other objects, features and other advantages of the present invention will become more apparent by describing in detail preferred embodiments of the present invention with reference to the accompanying drawings. Hereinafter, a domain band word recommendation system and a method thereof will be described in detail with reference to the accompanying drawings. For purposes of this specification, like reference numerals in the drawings denote like elements unless otherwise indicated.

도 1 은 본 발명에 따른 도메인 대역어 추천 시스템을 도시한 구성도이고, 도 2는 본 발명에 따른 도메인 대역어 추천 시스템에서 디스플레이부를 도시한 구성도이며, 도 3은 본 발명에 따른 도메인 대역어 추천 시스템의 동작을 설명하기 위한 흐름도이다. 1 is a diagram illustrating a domain band word recommendation system according to the present invention, FIG. 2 is a diagram illustrating a display unit in a domain band word recommendation system according to the present invention, and FIG. 3 is a diagram of a domain band word recommendation system according to the present invention. A flowchart for explaining the operation.

본 발명의 도메인 대역어 추천 시스템은 입력된 한글단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 사용자에게 제공하여 사용자가 문맥적으로 정확한 대역어를 선정할 수 있도록 한 것이다.The domain bandword recommendation system of the present invention searches for existing bandword dictionaries based on the input Hangul word, extracts candidate bandwords, and compares the frequency and weight of candidate bandwords in a previously established bandword database. It is provided to the user so that the user can select a contextually accurate bandword.

도 1 내지 도 3에 도시한 바와 같이 본 발명의 시스템은 디스플레이부(100)와, 대역어 데이터베이스부(200)와, 추천 대역어 결정부(300)를 포함한다.As shown in FIGS. 1 to 3, the system of the present invention includes a display unit 100, a bandword database unit 200, and a recommended bandword determination unit 300.

디스플레이부(100)는 번역할 단어를 입력하고, 추천 대역어에 관한 정보를 표시하는 화면 창으로, 터치스크린이 적용되어 터치에 의해 입력이 이루어지는 것이 바람직하다. 이러한 디스플레이부(100)는 번역할 단어를 입력하는 단어입력부(112)와, 입력된 단어의 대역어 검색명령신호를 입력하는 실행버튼부(114)와, 추천 대역어에 관한 정보를 출력하는 추천 대역어 출력부(116)로 구성된다. The display unit 100 is a screen window for inputting a word to be translated and displaying information on a recommended band word. The display unit 100 is preferably a touch screen applied thereto. The display unit 100 includes a word input unit 112 for inputting a word to be translated, an execution button unit 114 for inputting a band word search command signal of the input word, and a recommended band word output for outputting information on a recommended band word. Section 116.

대역어 데이터베이스부(200)는 문맥적 상황을 고려한 대역어를 사용자에게 추천하기 위하여 목표 대역어 언어로 작성된 대용량 도메인 문서(210)에서 대역어 데이터베이스를 구축한다. 대역어 데이터베이스부(200)는 필터링부(212)와, 단어 추출부(214)와, 빈도수 추출부(216)와, 가중치 부여부(218)와, 대역어 후보 단어 선정부(220)로 구성된다.The bandword database unit 200 constructs a bandword database from a large domain document 210 written in a target bandword language in order to recommend a bandword to a user considering a context. The band word database unit 200 includes a filtering unit 212, a word extracting unit 214, a frequency extracting unit 216, a weighting unit 218, and a band word candidate word selecting unit 220.

여기서, 필터링부(212)는 특정 도메인 대용량 문서에서 특수문자 및 수식과 그림을 제거한다. 자연어(사람이 사용하는 언어)로 작성된 웹문서에는 의미를 지니지 않는 불필요한 단어와 특수문자들이 자주 등장하게 된다. 불필요한 단어와 특수문자들은 정확한 대역어를 구축하는 과정에서 오류를 범할 수 있는 역할을 수행할 수 있기 때문에 일차적으로 특수문자 및 수식과 그림 등을 제거한다.Here, the filtering unit 212 removes special characters, formulas, and pictures from a specific domain large document. Unnecessary words and special characters often appear in web documents written in natural language. Unnecessary words and special characters can play a role of making errors in the process of constructing the correct band word, and thus, special characters, expressions and pictures are first removed.

그리고, 단어 추출부(214)는 특수문자 및 수식과 그림이 제거된 대용량 문서에서 대역어 후보가 될 수 있는 단어를 추출한다. 이때, 단어의 추출은 문장의 작성 시 의미적으로 판단하기 어려운 동사와 명사를 중심으로 추출한다. 일반적으로 사용자는 동사 및 명사의 사용에 많은 오류를 범하고 있기 때문에 동사와 명사만을 대역어 대상으로 제한하여 추출하는 것이 바람직하다.In addition, the word extractor 214 extracts a word that may be a candidate for a band word from a large document from which special characters, equations, and pictures are removed. At this time, the extraction of words is mainly focused on verbs and nouns that are difficult to determine semantically when the sentence is written. In general, since the user makes a lot of errors in the use of verbs and nouns, it is preferable to limit the verbs and nouns to the target word.

그리고, 빈도수 추출부(216)는 추출된 대역어 후보 단어들이 대용량 도메인 문서(210)상에 출현한 총 빈도수를 계산한다. 여기서, 대역어 후보 단어들이 갖는 빈도수는 중요한 통계적 지표로써 해당 언어의 나라 사람들이 빈번히 사용하는 단어일수록 의미적 또는 문맥적으로 대역어 후보에 선정되기에 적합하다. 하지만, 모든 상황에 적용할 수 없기 때문에 의미적 가중치를 부여한다. The frequency extractor 216 calculates the total frequency of extracted band word candidate words on the large-capacity document 210. Here, the frequency of the candidate word candidates is an important statistical index, and the more frequently used words are used by the people of the country of the language, the more suitable the candidate is to be selected. However, because it is not applicable to all situations, it is given a semantic weight.

가중치 부여부(218)는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency)등을 적용하여 가중치를 부여할 수 있다. 이러한 빈도수의 계산과, 가중치의 부여는 해당 분야에서 주로 사용되는 단어인 만큼 의미적, 문맥적으로 일치하는 가능성을 높이고, 대역단어 선정의 오류를 최소화할 수 있다.The weighting unit 218 may include an inversed document frequency (IDF) of the number of occurrences of a word in a document (TF: Term Frequency), a document frequency (DF), and the number of documents in which a word appears among all documents. The weight may be applied by applying the same. Since the calculation of the frequency and the weighting are words mainly used in the field, it is possible to increase the possibility of semantically and contextual matching and to minimize errors in band word selection.

대역어 후보 단어 선정부(220)는 계산된 출현 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 최종 데이터베이스를 구축한다. 이때, 임계값은 본 발명의 실험과 검증을 거친 후 그 기준 값을 정한다.The band word candidate word selector 220 selects only data whose calculated appearance frequency and weight are equal to or greater than a predetermined threshold value and constructs a final database. At this time, the threshold value is determined after the experiment and verification of the present invention determines the reference value.

추천 대역어 결정부(300)는 후보 대역어 추출부(312)와, 비교부(314))와, 추천 대역어 선정부(316)로 구성된다. The recommended band word determiner 300 includes a candidate band word extractor 312, a comparison unit 314, and a recommended band word selector 316.

후보 대역어 추출부(312)는 디스플레이부(100)에 입력된 단어를 바탕으로 기존 대역어 사전(320)을 검색하여 후보 대역어들을 추출한다. The candidate band word extractor 312 extracts candidate band words by searching the existing band word dictionary 320 based on the word input to the display unit 100.

그리고, 비교부(314)는 기 구축된 대역어 데이터베이스부에서 후보 대역어들의 빈도수와 가중치를 비교한다.In addition, the comparison unit 314 compares the frequency and weight of candidate band words in the previously built band word database unit.

추천 대역어 선정부(316)는 후보 대역어들 중 빈도수 및 가중치가 높은 순으로 추천 대역어를 선정하고 선정된 추천 대역어에 관한 정보를 디스플레이부(100)의 추천 대역어 출력부(116)에 출력한다. 여기서, 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예시문을 포함한다. The recommended band word selecting unit 316 selects a recommended band word in order of high frequency and weight among candidate band words, and outputs information on the selected recommended band word to the recommended band word output unit 116 of the display 100. Here, the information on the recommended bandword includes a recommended bandword, a frequency, and an example sentence.

도 3을 참고하여 본 발명의 도메인 대역어 추천시스템의 작용을 설명하면 다음과 같다. Referring to Figure 3 describes the operation of the domain band word recommendation system of the present invention.

먼저, 디스플레이부의 단어입력부(112)에 번역할 한글 단어를 입력한 후 실행버튼부(114)를 눌러 대역어 검색명령신호를 입력하면, 추천 대역어 결정부(300)는 입력된 한글단어의 대역어 검색신호를 받아 기존 대역어 사전(320)을 검색하여 후보 대역어들을 추출한다. 이어, 추출된 후보 대역어들은 기 구축된 대역어 데이터베이스부(200)에서 갖는 후보 대역어들의 빈도수 및 가중치가 비교되어 그 빈도수 및 가중치가 높은 대역어 위주로 추천 대역어 선정이 이루어지고 선정된 추천대역어에 관한 정보가 디스플레이부(100)의 추천 대역어 출력부(116)에 출력되어 진다. First, when the Korean word to be translated is input to the word input unit 112 of the display unit and then the execution button unit 114 is pressed to input the band word search command signal, the recommended band word determining unit 300 inputs the band word search signal of the input Korean word. The candidate band words are extracted by searching the existing band word dictionary 320. Subsequently, the extracted candidate band words are compared with the frequency and weight of candidate band words included in the built-in band word database unit 200, and the recommended band words are selected based on the band words having the high frequency and weight, and information on the selected recommended band words is displayed. The recommended band word output unit 116 of the unit 100 is output.

예를 들어, 단어입력부(112)에 “구축하다”라는 한글 단어가 입력되고 대역어 검색명령신호가 입력되었을 경우, 추천 대역어 결정부(300)는 기존 영어 대역어 사전을 검색하여 기존 영어 대역어 사전에 정의되어 있는 “build”,“construct”,“establish”등의 후보 대역어들을 추출한다. 이때, 기존 영어 대역어 사전에 정의된 단어들은 사용자에게 해당 도메인에서 대역단어가 사용될 수 있는 문맥적, 의미적 상황을 고려하지 못하고 단편적인 번역수준에 그치고 있다. 컴퓨터에 관련된 문서에서 “construct”는 “구축하다”로 해석될 수 있는 반면, 건설업과 같은 다른 분야에서는 “건축하다”로 해석될 수 있기 때문에 이러한 의미적 문맥적 오류를 해결하기 위하여 기존 대역어 사전(320)에서 후보 대역어를 추출하고 이 후보 대역어들이 기 구축된 대역어 데이터베이스(200)에서 갖는 빈도수와 가중치를 비교하게 된다. 이는 해당 분야에서 주로 사용하는 단어일수록 의미적, 문맥적으로 일치하는 가능성이 높은 통계적 규칙에 기반하고, 대역어 선정의 오류를 최소화한다. For example, when a Korean word “build” is input to the word input unit 112 and a band word search command signal is input, the recommended band word determining unit 300 searches for an existing English band word dictionary and defines the existing English band word dictionary. Extract candidate candidate words such as "build", "construct", and "establish". At this time, the words defined in the existing English bandword dictionary do not consider the contextual and semantic situations in which the bandword can be used in the corresponding domain to the user, but are only at the fragmentary level of translation. In a computer-related document, “construct” can be interpreted as “build”, while in other fields, such as construction, it can be interpreted as “build”. The candidate bandwords are extracted at 320 and the candidate bandwords are compared with the frequency and weights of the previously established bandword database 200. It is based on statistical rules that are more likely to match semantically and contextually with the words used mainly in the field, and minimize errors in bandword selection.

그리고, 후보 대역어 중 높은 빈도수와 가중치를 갖는 값을 위주로 추천 대역어 출력부(116)에 예시문과 함께 대역어에 관한 정보를 출력한다. In addition, the recommendation band word output unit 116 outputs information on the band word with an example sentence based on a value having a high frequency and a weight among candidate band words.

그리고, 사용자는 추천 대역어 출력부(116)에 출력된 추천 대역어와 예시문을 바탕으로 가장 적합한 대역어를 선택할 수 있다. In addition, the user may select the most suitable band word based on the recommended band word and the example sentence output to the recommended band word output unit 116.

이와 같이 본 발명의 도메인 대역어 추천시스템은 대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고 그 후보 단어의 빈도수와 가중치를 계산하여 대역어 데이터베이스를 구축한 다음, 기존 대역어 사전을 기반으로 번역할 단어의 후보 대역어들을 추출하고, 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스에서 갖는 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 예시문과 함께 사용자에게 제공함으로써 문맥적으로 정확한 대역어를 선정할 수 있다. 또한, 사용자에게 의미적으로 한국어와 가까운 단어를 추천하여 대상 언어 작문의 어려움을 해소하고 나아가 교육적인 효과를 얻을 수 있다. As described above, the domain bandword recommendation system of the present invention analyzes a large domain document of a specific target language, extracts a bandword candidate word, calculates the frequency and weight of the candidate word, constructs a bandword database, and then uses an existing bandword dictionary. By extracting candidate bandwords of words to be translated based on the comparison, and comparing the frequency and weight of the extracted candidate bandwords in the built-up bandword database and providing them to the user with example sentences based on the bandword with high frequency and weight, the contextually accurate bandword Can be selected. In addition, by semantically recommending words that are close to Korean, the difficulty of writing a target language can be solved, and further, an educational effect can be obtained.

도 4는 본 발명에 따른 도메인 대역어 추천 방법을 설명하기 위한 순서도이다.4 is a flowchart illustrating a domain band word recommendation method according to the present invention.

도 4에 도시된 바와 같이 본 발명의 도메인 대역어 추천 방법은 번역할 단어를 입력받은 후 대역어 검색을 실시하는 단계(S100); 입력된 단어를 바탕으로 기존 대역어 사전(320)을 검색하여 후보 대역어들을 추출하는 단계(S200); 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스부(200)에서 갖는 빈도수와 가중치를 비교하는 단계(S300); 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고, 선정된 추천대역어에 대한 정보를 출력하는 단계(S400);를 포함한다. As shown in FIG. 4, the domain band word recommendation method of the present invention includes: performing a band word search after receiving a word to be translated (S100); Extracting candidate band words by searching the existing band word dictionary 320 based on the input word (S200); Comparing the frequency and weights of the extracted candidate band words in the pre-built band word database unit 200 (S300); And selecting a recommended band word in order of a frequency word and a band word having a high weight, and outputting information on the selected recommended band word (S400).

S100 단계는 터치스크린 환경의 가상 키보드를 이용하여 번역할 단어를 입력하고 대역어 검색을 실시한다. In step S100, a word to be translated is input using a virtual keyboard of a touch screen environment, and a band word search is performed.

S200 단계에서 추출된 후보 대역어들은 사용자에게 해당 도메인에서 대역단어가 사용될 수 있는 문맥적, 의미적 상황을 고려하지 않은 단편적인 대역어들이다.The candidate bandwords extracted in step S200 are fragmentary bandwords that do not take into account the contextual and semantic situations in which the bandword may be used in the domain.

S300 단계에서는 기존 대역어 사전(320)에서 검색된 후보 대역어의 의미적, 문맥적 오류를 해결하기 위하여 기 구축된 대역어 데이터베이스부(200)에서 갖는 후보 대역어들의 빈도수와 가중치를 비교하게 된다. 여기서, 대역어 데이터베이스부(200)는 특정 도메인 대용량 문서에서 특수문자, 수식, 그림을 제거하는 과정을 거치고, 특수문자, 수식, 그림이 제거된 문서에서 동사 및 명사만을 대역어 대상으로 제한하여 대역어후보 단어를 추출한 다음, 추출된 대역어 후보 단어들이 대용량 도메인 문서(210)상에 출현되는 총 빈도수를 계산하고 아울러 의미적 가중치를 부여한다. 그리고, 총 빈도수와 가중치가 기 설정된 임계값 이상인 대역어 후보 단어들만 선정하여 기 구축된다. In step S300, in order to solve the semantic and contextual errors of the candidate bandwords retrieved from the existing bandword dictionary 320, the frequency and weight of candidate bandwords in the previously established bandword database unit 200 are compared. Here, the bandword database unit 200 undergoes a process of removing special characters, formulas, and pictures from a specific domain large document, and restricts only verbs and nouns to bandword targets in a document from which special characters, formulas, and pictures are removed. Then, the extracted band word candidate words are calculated in the total frequency of appearing on the large-capacity document 210 and given a semantic weight. Then, only band word candidate words whose total frequency and weight are greater than or equal to a predetermined threshold value are selected and constructed.

S400 단계에서는 후보 대역어의 빈도수와 가중치가 높은 대역어 순으로 추천 대역어의 선정이 이루어지고 선정된 추천 대역어는 예시문과 함께 디스플레이부(100)의 추천 대역어 출력부(116)에 출력된다.In operation S400, the recommended band word is selected in order of the frequency of the candidate band word and the band word having the highest weight, and the selected recommended band word is output to the recommended band word output unit 116 of the display unit 100 together with an example sentence.

그리고, 사용자는 추천 대역어 출력부에 출력된 추천 대역어와 예시문을 바탕으로 가장 적합한 대역어를 선택하여 작문의 어려움을 해결한다. Then, the user selects the most suitable band word based on the recommended band word and the example sentence output to the recommended band word output unit, and solves the difficulty of writing.

이와 같이 본 발명의 도메인 대역어 추천 방법은 입력된 단어를 바탕으로 기존 대역어 사전에서 검색하여 후보 대역어를 추출하고, 기 구축된 대역어 데이터베이스부에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 가장 빈번히 사용되고 있는 의미적, 문맥적으로 합당한 대역어를 사용자에게 예문과 함께 제공함으로써 영어 또는 해당 언어의 작문 시 빈번히 발생하는 동사, 명사 선정의 실수와 오류를 최소화할 수 있게 된다. As described above, in the domain band word recommendation method of the present invention, a candidate band word is extracted by searching from an existing band word dictionary based on the input word, and the meaning is most frequently used by comparing the frequency and weights of candidate band words in the existing band word database unit. By providing appropriate and contextually appropriate band words to the user with examples, it is possible to minimize mistakes and errors in selecting verbs and nouns that occur frequently when writing English or the language.

이상에서 본 발명의 바람직한 실시 예에 대하여 설명하였으나, 본 발명은 상술한 특정의 실시 예에 한정되지 아니한다. 즉, 본 발명이 속하는 기술분야에서 통상의 지식을 가지는 자라면 첨부된 특허청구범위의 사상 및 범주를 일탈함이 없이 본 발명에 대한 다수의 변경 및 수정이 가능하며, 그러한 모든 적절한 변경 및 수정은 균등물들로 본 발명의 범위에 속하는 것으로 간주 되어야 할 것이다.
Although the preferred embodiments of the present invention have been described, the present invention is not limited to the specific embodiments described above. It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the appended claims, And equivalents may be resorted to as falling within the scope of the invention.

100: 디스플레이부 112: 단어입력부
114: 실행버튼부 116: 추천 대역어 출력부
200: 대역어 데이터 베이스부 212: 필터부
214: 단어추출부 216: 빈도수 추출부
218: 가중치 부여부 220: 대역어 후보 단어 선정부
300: 추천 대역어 결정부 312: 후보 대역어 추출부
314: 비교부 316: 추천 대역어 선정부
320: 기존 대역어 사전
100: display unit 112: word input unit
114: execution button unit 116: recommended band word output unit
200: bandword database unit 212: filter unit
214: word extractor 216: frequency extractor
218: Weighting unit 220: Band word candidate word selection unit
300: recommended band word determination unit 312: candidate band word extraction unit
314: comparison unit 316: recommended band word selection unit
320: existing bandword dictionary

Claims (20)

입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고 기 구축된 대역어 데이터베이스에서 갖는 후보 대역어의 빈도수와 가중치를 비교하여 그 빈도수와 가중치가 높은 대역어 위주로 출력이 이루어지는 것을 특징으로 하는 도메인 대역어 추천 시스템.The domain bandword is characterized in that the candidate bandword is extracted by searching the existing bandword dictionary based on the input word, and the output is focused on the bandword with a high frequency and weight by comparing the frequency and weight of the candidate bandword in the already established bandword database. Referral system. 제 1 항에 있어서,
상기 시스템은 번역할 단어 및 대역어 검색실행명령을 입력하는 디스플레이부와, 특정 도메인 대용량 문서에서 대역어 후보 단어를 추출하고 추출된 대역어 후보 단어의 빈도수와 가중치를 계산하여 대역어 데이터베이스를 구축하는 대역어 데이터베이스부와, 상기 디스플레이부에 입력된 단어의 대역어 검색신호를 받아 기존 대역어 사전을 기반으로 후보 대역어를 추출한 다음 상기 대역어 데이터베이스부에서 갖는 후보 대역어의 빈도수와 가중치를 비교한 후 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고 선정된 추천 대역어에 관한 정보를 디스플레이부에 출력하는 추천 대역어 결정부를 포함하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
The method of claim 1,
The system includes a display unit for inputting a word to be translated and a command for executing a band word search, a band word database unit for extracting a band word candidate word from a specific domain large document and calculating a frequency and weight of the extracted band word candidate word to construct a band word database; After receiving the band word search signal of the word input to the display unit, extracting the candidate band word based on the existing band word dictionary, comparing the frequency and weight of the candidate band word in the band word database unit, and then recommending the band words in the order of high frequency and weight. And a recommendation band word determiner for selecting a band word and outputting information on the selected recommendation band word to a display unit.
제 2 항에 있어서,
상기 디스플레이부는 터치에 의해 입력이 이루어지는 터치스크린이 적용된 것을 특징으로 하는 도메인 대역어 추천 시스템.
3. The method of claim 2,
The display unit domain domain word recommendation system, characterized in that the touch screen is applied to the input is applied by the touch.
제 2 항에 있어서,
상기 추천 대역어에 대한 정보는 추천 대역어와, 빈도수와, 예시문을 포함하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
3. The method of claim 2,
The information about the recommended bandword includes a recommended bandword, a frequency, and an example sentence.
제 2 항에 있어서,
상기 대역어데이터 베이스부는 특정 도메인 대용량 문서에서 특수문자, 수식, 그림을 제거하는 과정을 거쳐 대역어 후보 단어를 추출하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
3. The method of claim 2,
The bandword database unit domain bandword recommendation system according to claim 1, wherein the bandword candidate word is extracted through a process of removing a special character, an expression, and a picture from a specific domain large document.
제 2 항에 있어서,
상기 대역어 데이터베이스부는 동사와 명사만을 대역어 대상으로 제한하여 대역어 후보 단어를 추출하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
3. The method of claim 2,
And the band word database unit extracts a band word candidate word by restricting only a verb and a noun to the band word target.
제 2 항에 있어서,
상기 대역어 데이터베이스부는 대역어 후보 단어의 출현 빈도수 및 가중치를 계산한 뒤 기 설정된 임계값 이상의 대역어 후보 단어들만 선정하여 대역어 데이터베이스를 구축한 것을 특징으로 하는 도메인 대역어 추천 시스템.
3. The method of claim 2,
And the band word database unit constructs a band word database by selecting only band word candidate words having a predetermined threshold value or more after calculating a frequency and weight of occurrence of the band word candidate words.
번역할 단어 입력 및 추천 대역어에 관한 정보를 표시하는 디스플레이부;
대역어 대상이 되는 언어의 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고, 그 후보 단어의 빈도수와 가중치를 계산한 뒤, 기 설정된 임계값 이상인 데이터들만 선정하여 대역어 데이터베이스를 구축하는 대역어 데이터베이스부; 및
상기 디스플레이부에 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어를 추출하고, 상기 대역어 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하여 빈도수와 가중치가 높은 대역어 순으로 디스플레이부에 출력하는 추천 대역어 결정부를 포함하여 구성된 것을 특징으로 하는 도메인 대역어 추천 시스템.
A display unit which displays information about a word input to be translated and a recommended band word;
A band word database unit configured to extract a band word candidate word by analyzing a large domain document of a target language of a band word, calculate a frequency and weight of the candidate word, and select only data having a predetermined threshold value or more to build a band word database; And
The candidate bandword is extracted by searching an existing bandword dictionary based on the word input to the display unit, and the frequency band and the weight of the candidate bandword constructed in the bandword database unit are compared and output in the order of the bandwords having the highest frequency and weight. Domain band word recommendation system comprising a recommended band word determination unit configured to.
제 8 항에 있어서,
상기 디스플레이부는 번역할 단어를 입력하는 단어입력부와, 입력된 단어의 대역어 검색명령신호를 입력하는 실행버튼부와, 추천 대역어에 대한 정보를 출력하는 추천 대역어 출력부로 구성되는 것을 특징으로 하는 도메인 대역어 추천 시스템.
The method of claim 8,
The display unit includes a word input unit for inputting a word to be translated, an execution button unit for inputting a band word search command signal of the input word, and a recommended domain word output unit for outputting information on the recommended band word. system.
제 8 항에 있어서,
상기 추천 대역어 결정부는 기존 대역어 사전을 검색하여 후보 대역어를 추출하는 후보 대역어 추출부와, 대역어 데이터베이스부에 구축된 후보 대역어의 빈도수와 가중치를 비교하는 비교부와, 후보 대역어 중 빈도수와 가중치가 높은 대역어 순으로 추천대역어로 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 추천 대역어 선정부로 구성되는 것을 특징으로 도메인 대역어 추천 시스템.
The method of claim 8,
The recommended band word determination unit searches for an existing band word dictionary and extracts a candidate band word, a comparison unit comparing the frequency and weight of the candidate band words constructed in the band word database unit, and a band word having a high frequency and weight among the candidate band words. And a recommendation band word selecting unit for selecting the recommended band words in order, and outputting information on the selected recommended band words.
제 10 항에 있어서,
상기 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예문을 포함하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
11. The method of claim 10,
The information on the recommended bandword includes a recommended bandword, a frequency, and an example sentence.
제 8 항에 있어서,
상기 대역어 데이터베이스부는 특정 도메인 대용량 문서에서 특수문자, 수식, 그림 등을 제거하는 필터링부와, 필터링된 문서에서 분석하여 대역어 후보 단어를 추출하는 단어 추출부와, 추출된 대역어 후보 단어의 빈도수를 계산하는 빈도수 추출부와, 대역어 후보 단어의 의미적 가중치를 부여하는 가중치 부여부와, 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 최종 데이터베이스를 구축하는 대역어 후보 단어 선정부로 구성되는 것을 특징으로 하는 도메인 대역어 추천 시스템.
The method of claim 8,
The bandword database unit includes a filtering unit to remove special characters, equations, and pictures from a large domain document, a word extractor to analyze the filtered document to extract candidate word candidate words, and calculate a frequency of the extracted bandword candidate words. And a frequency extracting unit, a weighting unit for assigning a semantic weight to the band word candidate word, and a band word candidate word selecting unit configured to select only data having a frequency and weight greater than or equal to a preset threshold and construct a final database. Bandword Recommendation System.
제 12 항에 있어서,
상기 단어 추출부는 동사와 명사만을 대역어 대상으로 제한하여 대역어 후보 단어를 추출하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
13. The method of claim 12,
And the word extracting unit extracts a band word candidate word by limiting only verbs and nouns to the band word object.
제 12 항에 있어서,
상기 가중치는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency) 중 어느 하나 이상이 적용되어 계산된 것을 된 것을 특징으로 하는 도메인 대역어 추천 시스템.
13. The method of claim 12,
The weight may be one or more of the number of occurrences of a word in a document (TF: Term Frequency), a document frequency (DF), and an inverse of the number of documents in which a word appears in an entire document (IDF). Domain band word recommendation system, characterized in that the calculation has been applied.
번역할 단어를 입력받은 후 대역어 검색을 실시하는 단계;
상기 입력된 단어를 바탕으로 기존 대역어 사전을 검색하여 후보 대역어들을 추출하는 단계;
상기 추출된 후보 대역어들이 기 구축된 대역어 데이터베이스에서 갖는 빈도수와 가중치를 비교하는 단계; 및
상기 빈도수와 가중치가 높은 대역어 순으로 추천 대역어를 선정하고, 선정된 추천대역어에 관한 정보를 출력하는 단계;
를 포함하는 것을 특징으로 하는 도메인 대역어 추천 방법.
Performing a band word search after receiving a word to be translated;
Extracting candidate band words by searching an existing band word dictionary based on the input word;
Comparing the weighted frequency and weights of the extracted candidate band words in a pre-built band word database; And
Selecting a recommended band word in order of the frequency and the band word having the highest weight, and outputting information on the selected recommended band word;
Domain band word recommendation method comprising a.
제 15 항에 있어서,
상기 대역어 데이터베이스는 특정 도메인 대용량 문서를 분석하여 대역어 후보 단어를 추출하고, 상기 추출된 대역어 후보 단어의 빈도수와 가중치를 계산한 다음, 후보 대역어의 빈도수와 가중치가 기 설정된 임계값 이상인 데이터들만 선정하여 구축된 것을 특징으로 하는 도메인 대역어 추천 방법.
The method of claim 15,
The bandword database extracts a bandword candidate word by analyzing a large domain document, calculates the frequency and weight of the extracted bandword candidate word, and selects and builds only the data whose frequency and weight of the candidate bandword are greater than or equal to a preset threshold. Domain band word recommendation method characterized in that.
제 16 항에 있어서,
상기 대역어 후보 단어의 추출은 특정 도메인 대용량 문서에서 특수문자, 수식, 그림을 제거하는 과정을 거쳐 추출되는 것을 특징으로 하는 도메인 대역어 추천 방법.
17. The method of claim 16,
The band word candidate word is extracted through a process of removing a special character, an expression, and a picture from a specific domain large document.
제 16 항에 있어서,
상기 대역어 후보 단어의 추출은 동사와 명사만을 대역어 대상으로 제한하여 추출하는 것을 특징으로 하는 도메인 대역어 추천 시스템.
17. The method of claim 16,
The band word candidate system extracts the band word candidate word by limiting only verbs and nouns to band word targets.
제 15 항에 있어서,
상기 추천 대역어에 관한 정보는 추천 대역어와, 빈도수와, 예문을 포함하는 것을 특징으로 하는 도메인 대역어 추천 방법.
The method of claim 15,
The information on the recommended bandword includes a recommended bandword, a frequency, and an example sentence.
제 16 항에 있어서,
상기 가중치는 문서 내에서의 단어의 출현 회수(TF: Term Frequency), 문서 빈도수(DF: Document Frequency), 전체문서 중 단어가 출현한 문서의 개수의 역수(IDF: Inversed Document Frequency) 중 어느 하나 이상이 적용되어 계산된 것을 된 것을 특징으로 하는 도메인 대역어 추천 방법.
17. The method of claim 16,
The weight may be one or more of the number of occurrences of a word in a document (TF: Term Frequency), a document frequency (DF), and an inverse of the number of documents in which a word appears in an entire document (IDF). The domain band word recommendation method, characterized in that the calculation has been applied.
KR1020120019527A 2012-02-27 2012-02-27 System and Method for Recommending Alternative Words for Specific Domain Area KR101335144B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120019527A KR101335144B1 (en) 2012-02-27 2012-02-27 System and Method for Recommending Alternative Words for Specific Domain Area

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120019527A KR101335144B1 (en) 2012-02-27 2012-02-27 System and Method for Recommending Alternative Words for Specific Domain Area

Publications (2)

Publication Number Publication Date
KR20130097890A true KR20130097890A (en) 2013-09-04
KR101335144B1 KR101335144B1 (en) 2013-12-05

Family

ID=49450019

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120019527A KR101335144B1 (en) 2012-02-27 2012-02-27 System and Method for Recommending Alternative Words for Specific Domain Area

Country Status (1)

Country Link
KR (1) KR101335144B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102046640B1 (en) * 2019-07-22 2019-12-02 (주)위세아이텍 Automatic terminology recommendation device and method for big data standardization
KR102153259B1 (en) * 2020-03-24 2020-09-08 주식회사 데이터스트림즈 Data domain recommendation method and method for constructing integrated data repository management system using recommended domain
WO2020218908A1 (en) * 2019-04-26 2020-10-29 김정태 Verb learning method and system for speaking foreign language
KR102406251B1 (en) * 2021-11-18 2022-06-07 염종명 Machine translation and coding method to improve translation quality in localization

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102253015B1 (en) * 2017-11-09 2021-05-17 한국전자통신연구원 Apparatus and method of an automatic simultaneous interpretation using presentation scripts analysis

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100792203B1 (en) * 2005-12-07 2008-01-08 한국전자통신연구원 Apparatus and Method of Construction for Single Noun Korean-English Technical Word Dictionary Using Compound Noun's Target Word Notation in Patent Documents
KR20100110628A (en) * 2009-04-03 2010-10-13 (주)인피니티텔레콤 Character inputting apparatus and method thereof

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020218908A1 (en) * 2019-04-26 2020-10-29 김정태 Verb learning method and system for speaking foreign language
KR20200125302A (en) * 2019-04-26 2020-11-04 김정태 Verb Learning Method For Speaking Foreign Language
KR102046640B1 (en) * 2019-07-22 2019-12-02 (주)위세아이텍 Automatic terminology recommendation device and method for big data standardization
KR102153259B1 (en) * 2020-03-24 2020-09-08 주식회사 데이터스트림즈 Data domain recommendation method and method for constructing integrated data repository management system using recommended domain
KR102406251B1 (en) * 2021-11-18 2022-06-07 염종명 Machine translation and coding method to improve translation quality in localization

Also Published As

Publication number Publication date
KR101335144B1 (en) 2013-12-05

Similar Documents

Publication Publication Date Title
US8069027B2 (en) Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
CN103678285A (en) Machine translation method and machine translation system
de Caseli et al. Alignment-based extraction of multiword expressions
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
KR101335144B1 (en) System and Method for Recommending Alternative Words for Specific Domain Area
Kaity et al. An automatic non-English sentiment lexicon builder using unannotated corpus
Lynch et al. The translator’s visibility: Detecting translatorial fingerprints in contemporaneous parallel translations
Östling Studying colexification through massively parallel corpora
Marciniak et al. Termopl-a flexible tool for terminology extraction
Abidi et al. An automatic learning of an algerian dialect lexicon by using multilingual word embeddings
JP5204203B2 (en) Example translation system, example translation method, and example translation program
Elbarougy et al. A proposed natural language processing preprocessing procedures for enhancing arabic text summarization
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
Alethary et al. Automated Arabic-Arabic sign language translation system based on 3D avatar technology
Richardson et al. Robust transliteration mining from comparable corpora with bilingual topic models
Abidin et al. Text Stemming and Lemmatization of Regional Languages in Indonesia: A Systematic Literature Review
Malik et al. Urdu to English machine translation using bilingual evaluation understudy
Johansson et al. Automatic extraction of synonyms from an easy-to-read corpus
Saleh Automatic extraction of lemma-based bilingual dictionaries for morphologically rich languages
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
JP5302784B2 (en) Machine translation method and system
JP2010267047A (en) Apparatus and method for constructing synonym dictionary, and computer program
KR100669239B1 (en) Automatic hypernym recommendation method for construction of lexical concept network
Al Nahian et al. Review on Multiple Plagiarism: A Performance Comparison Study

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161021

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee