KR20130125912A - System and method for making markup language for searching dictionary - Google Patents

System and method for making markup language for searching dictionary Download PDF

Info

Publication number
KR20130125912A
KR20130125912A KR1020120049539A KR20120049539A KR20130125912A KR 20130125912 A KR20130125912 A KR 20130125912A KR 1020120049539 A KR1020120049539 A KR 1020120049539A KR 20120049539 A KR20120049539 A KR 20120049539A KR 20130125912 A KR20130125912 A KR 20130125912A
Authority
KR
South Korea
Prior art keywords
language
markup language
sentence
input
words
Prior art date
Application number
KR1020120049539A
Other languages
Korean (ko)
Inventor
윤기오
Original Assignee
윤기오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤기오 filed Critical 윤기오
Priority to KR1020120049539A priority Critical patent/KR20130125912A/en
Publication of KR20130125912A publication Critical patent/KR20130125912A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

Disclosed are a system and a method for generating a set of dictionary search information for a sentence, a word, an idiom, and contents as a markup language which is used in the whole terminal. The sentence, the word, and the idiom are extracted from sentences consisting of a first language. The contents are translated by using a second language. The system for generating the dictionary search markup language comprises an input/output unit for inputting the sentence and outputting the markup language; a sentence processing unit which extracts words and combines/divides sentences when inputted data is an image; a word extraction unit which analyzes and extracts the morphemes of the word and the idiom; a dictionary database which searching the word used for the sentence in a dictionary; and a markup generation unit which writes a result by using the markup language.

Description

사전 검색 마크업 언어 생성 시스템 및 방법{SYSTEM AND METHOD FOR MAKING MARKUP LANGUAGE FOR SEARCHING DICTIONARY}Dictionary search markup language generation system and method {SYSTEM AND METHOD FOR MAKING MARKUP LANGUAGE FOR SEARCHING DICTIONARY}

본 발명은 제1언어로 구성된 문서에서 추출된 문장, 단어 및 숙어에 대한 사전검색 정보와 제2언어로 번역된 문장 등을 언제 어디서든 모든 유무선 단말기에서 사용할 수 있는 마크업 언어를 생성하는 시스템 및 방법에 관한 것이며, 보다 구체적으로는 다수의 영어문장으로 구성된 입력문서에 대해 각 문장별로 병합 및 분리하여 각 문장과 일치된 번역문과 각 문장에 속한 단어 및 숙어를 추출하고, 문장 및 어휘의 오디오 정보를 생성해 모든 단말기에서 운용 가능한 마크업 언어를 생성하는 시스템 및 방법에 관한 것이다.The present invention provides a system for generating a markup language that can be used in all wired and wireless terminals anytime, anywhere, dictionary search information for sentences, words and idioms extracted from a document consisting of a first language and sentences translated into a second language; It relates to a method, and more specifically, merges and separates input documents composed of a plurality of English sentences by each sentence to extract translation sentences matching each sentence, words and idioms belonging to each sentence, and audio information of sentences and vocabulary. The present invention relates to a system and a method for generating a markup language that can be generated by all terminals.

최근 정보통신의 비약적인 발전으로 새로운 형태의 단말기를 이용한 교육 환경이 출현하였으며, 특히 유무선 환경과 컴퓨터 및 휴대용 단말기의 보급은 언제 어디서든 학습할 수 있는 환경을 제공하고 있다.Recently, with the rapid development of information and communication, an educational environment using a new type of terminal has emerged. In particular, the distribution of wired and wireless environments and computers and portable terminals provide an environment where learning can be performed anytime and anywhere.

특히, 정보통신의 발전과 더불어 기계번역의 발전에 따라서 언어 번역 분야가 많은 발전을 이루어왔다. 그러나 일부 언어들은 언어의 특성에 따라서 기계번역에 많은 어려움을 겪고 있으며 번역의 오류 및 해석의 부정확으로 신뢰도에서 많은 차이를 보이고 있다. In particular, with the development of information and communication, with the development of machine translation, many areas of language translation have been made. However, some languages have a lot of difficulties in machine translation depending on the characteristics of the language, and there are many differences in reliability due to translation errors and inaccuracies.

예를 들어, 영어와 프랑스어의 기계번역은 한-영 번역에 비해서 높은 신뢰도를 가지고 있다. 이것은 상기 언어들의 어순에 따라서 번역의 질이 결정되고 있기 때문이다. 마찬가지로 한-일 번역은 한-영보다 우수한 번역결과를 제공한다. For example, English and French machine translations are more reliable than Korean-English translations. This is because the quality of the translation is determined by the order of the languages. Similarly, Korean-Japanese translation provides better translation than Korean-English translation.

따라서 서로 다른 환경의 언어들 간에 있어서 기계번역은 단어 및 숙어의 도움을 받아야 한다. 그리고 기계번역의 결과물은 텍스트 형식으로 기계번역 되고 있으며, 휴먼 번역 역시 결과물은 텍스트 형태로 제공되고 있기 때문에 학습자의 입장에서는 오로지 문서(종이) 언어 학습을 통해서만 학습하는 불편을 겪고 있다.Therefore, machine translation between languages of different environments should be helped by words and idioms. And the result of machine translation is machine translation in text form, and human translation is also provided in text form, so from the learner's point of view, it is inconvenient to learn only through document (paper) language learning.

따라서 번역에 관련된 휴먼 번역 또는 기계 번역을 함에 있어서 번역된 결과물과 원문에서 사용된 단어 숙어의 정보를 종이뿐만 아니라 마크업 언어로 작성해서 유무선 단말기에서 학습할 수 있는 멀티미디어 및 유비쿼터스 환경을 제공할 필요가 있다.Therefore, it is necessary to provide a multimedia and ubiquitous environment that can be learned in wired and wireless terminals by writing not only paper but also markup language of the translated results and the information of the word idiom used in the original text. have.

본 발명은 상기와 같은 점을 감안하여 안출한 것으로, 제1언어로 구성된 문서에서 추출된 문장, 단어 및 숙어에 대한 사전검색 정보와 제2언어로 번역된 문장 등을 언제 어디서든 모든 유무선 단말기에서 사용할 수 있는 마크업 언어를 생성하는 시스템 및 방법을 제공하는데 그 목적이 있다.The present invention has been made in view of the above, and the dictionary search information for the sentences, words and idioms extracted from the document consisting of the first language and sentences translated into the second language, anytime, anywhere in all wired and wireless terminals Its purpose is to provide a system and method for creating a markup language that can be used.

본 발명의 다른 목적은, 다수의 영어문장으로 구성된 입력문서에 대해 각 문장별로 분리 및 병합하여 각 문장과 일치된 번역문과 각 문장에 속한 단어 및 숙어를 추출하고, 문장 및 어휘의 오디오 정보를 생성하고 모든 단말기에서 운용 가능한 마크업 언어를 생성하는 시스템 및 방법을 제공하는데 있다.Another object of the present invention, by separating and merging the input document consisting of a plurality of English sentences for each sentence to extract the translation sentences matched with each sentence and the words and idioms belonging to each sentence, to generate audio information of the sentence and vocabulary And it provides a system and method for generating a markup language operable in all terminals.

본 발명의 또 다른 목적은, 입력된 문장에서 사용된 모든 단어의 수준을 검토하여 문장 수준보다 낮은 수준의 단어 및 숙어는 제공하지 않음으로써 학습 효율성을 높여 소기의 목적을 달성할 수 있는 시스템 및 방법을 제공하는데 있다.Another object of the present invention is to examine the level of all the words used in the input sentence system and method that can achieve the desired purpose by improving the learning efficiency by not providing words and idioms lower than the sentence level To provide.

본 발명의 또 다른 목적은, 입력된 문장을 일목요연하게 문장별로 분리 및 병합하고 각 문장 및 단어, 숙어에 대해 음성을 지원하고, 멀티미디어 환경의 서비스 제공과 더불어 시공간 제약을 벗어나는 클라우드(cloud) 서비스를 제공하기 위해 마크업 언어를 생성하는 시스템 및 방법을 제공하는데 있다.It is still another object of the present invention to separate and merge input sentences by sentence at a glance, support voice for each sentence, word, idiom, and provide a cloud service that provides a multimedia environment service and overcomes space and time constraints. To provide a system and method for generating a markup language to provide.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 의한 사전검색 마크업언어 생성 시스템은, 문장의 입력과 마크업언어 출력을 위한 입출력부; 입력된 문서에서 각 문장별로 분리 및 병합하는 문장처리부; 각 문장을 이루는 형태소를 분석하고 단어 및 숙어를 추출하는 어휘추출부; 문장에서 사용된 어휘의 사전검색을 위한 사전 데이터 베이스; 및 상기 결과물을 마크업언어로 작성하는 마크업 생성기;를 포함할 수 있다.According to an aspect of the present invention, there is provided a dictionary search markup language generation system comprising: an input / output unit for inputting a sentence and outputting a markup language; A sentence processing unit for separating and merging each sentence in the input document; Vocabulary extraction unit for analyzing the morphemes forming each sentence and extracting words and idioms; Dictionary database for dictionary search of the vocabulary used in the sentence; And a markup generator for writing the result in a markup language.

또한, 상기 입출력부는, 다수의 문장을 입력받고, 마크업언어로 작성된 결과물을 출력하는 입출력기; 상기 입력된 다수의 문장이 이미지인 경우 문자를 추출하는 문자추출기(OCR); 및 마크업 언어로 작성된 것을 서버에 전송하는 전송기;를 더 포함할 수 있다.The input / output unit may include an input / output unit for receiving a plurality of sentences and outputting a result written in a markup language; A text extractor (OCR) for extracting characters when the plurality of sentences are images; And a transmitter that transmits the markup language to the server.

또한, 상기 문장처리부는, 상기 입력된 문장을 표현하는 문자코드체계를 동기화 하는 코드변환기; 코드변환된 텍스트 형태의 문장들을 각 문장별로 분리 및 병합하기 위한 문장 분리기; 및 각 분리된 문장을 자동번역하는 번역기;를 더 포함할 수 있다The sentence processing unit may include a code converter configured to synchronize a character code system representing the input sentence; A sentence separator for separating and merging sentences in transcoded text form for each sentence; And a translator for automatically translating each separated sentence.

또한, 상기 어휘 추출부는, 상기 문장으로 분리 정렬된 문장에서 사용된 형태소를 분석하는 형태소분석기; 형태소 분석을 통해서 분리된 단어와 고정형 숙어 및 가변형 숙어를 추출하는 단어숙어 추출기; 및 문장에서 사용된 단어 및 숙어의 수준에 따라서 문장 및 문서의 수준을 파악하는 문장 수준 검사기;를 더 포함할 수 있다.The lexical extracting unit may further include: a morpheme analyzer configured to analyze morphemes used in sentences separated and arranged into the sentence; A word idiom extractor for extracting separated words, fixed idioms and variable idioms through morphological analysis; And a sentence level checker which grasps the level of the sentence and the document according to the level of words and idioms used in the sentence.

또한, 상기 사전 데이터 베이스는, 상기 모든 단어의 수준을 정의한 단어 사전; 고정된 숙어 또는 변형이 가능한 가변형 숙어를 기록 관리하는 숙어 사전; 및 단어 및 숙어의 음성을 기록 관리하는 오디오 사전;을 더 포함할 수 있다.The dictionary database may further include a word dictionary defining levels of all the words; An idiom dictionary for recording and managing fixed idioms or variable idioms; And an audio dictionary for recording and managing voice of words and idioms.

또한, 본 발명의 마크업 언어 생생부는 분리된 각 문장에 대해 오디오 음성을 생성하는 오디오 생성기; 제1언어의 문장, 번역된 제2언어, 단어 및 숙어 정보 및 오디오 파일을 문장 또는 단락 단위의 형식으로 사용자 유무선 단말기 환경에 따라 출력시키는 양식 생성기; 및 모든 유무선 단말기에서 사용가능한 형식으로 마크업 언어로 작성하는 마크업 생성기;를 포함할 수 있다.In addition, the markup language generation unit of the present invention comprises: an audio generator for generating audio speech for each separated sentence; A form generator for outputting sentences of the first language, translated second languages, words and idiom information, and audio files in the form of sentences or paragraphs according to a user wired / wireless terminal environment; And a markup generator for writing in a markup language in a format usable by all wired and wireless terminals.

한편, 본 발명의 목적을 달성하기 위한 사전검색 마크업언어 생성 방법은, a) 마크업 언어를 작성할 제1언어 또는 번역된/될 제2언어를 입력하는 단계; b) 입력된 문서에서 각 문장 단위로 분리 및 병합하고 또는 제2언어로 번역하는 단계; c) 정리된 문장으로부터 단어 및 숙어를 분리 추출하는 단계; d) 문장에서 사용된 단어의 수준에 따라 문서 및 문장의 수준을 결정하고 문장의 수준 이하의 단어 및 숙어는 배제시키는 단계; e) 분리된 문장, 단어, 숙어의 발음 오디오를 생성하는 단계; f) 정제되어 추출된 단어, 숙어, 문장, 오디오 및 번역의 결과물을 마크업 언어로 생성하는 단계; 및 g) 마크업 언어를 네트워크를 이용한 유무선 모든 단말기에서 사용 가능하게 서버에 전송하는 단계;를 포함한다.On the other hand, the method for generating a dictionary search markup language for achieving the object of the present invention, a) inputting a first language to be written markup language or a second language to be translated / to be; b) separating and merging each sentence unit in the input document or translating it into a second language; c) separating and extracting words and idioms from the arranged sentences; d) determining the level of documents and sentences according to the level of words used in the sentence and excluding words and idioms below the level of the sentence; e) generating pronunciation audio of the separated sentences, words, idioms; f) generating the result of refined and extracted words, idioms, sentences, audio and translations in markup language; And g) transmitting the markup language to the server so that the markup language can be used in all the wired and wireless terminals using the network.

본 발명의 바람직한 실시예에 의하면, 상기 a) 단계에 의해 입력되는 제1언어가 이미지, pdf 파일등으로 작성된 문서인 경우, 문서추출기를 사용해서 텍스트화 할 수 있다.According to a preferred embodiment of the present invention, when the first language input in step a) is a document written in an image, a pdf file, or the like, text may be converted using a document extractor.

또한, 상기 b)단계에서 텍스트 문장으로 입력되는 경우 효과적인 사전검색을 위해 문자를 표현하는 방식을 통일하기 위해 코드변환과 특수문자 변경 및 제거 등을 포함할 수 있으며, 입력된 제1언어 또는 제2언어의 배치에 따라서 제1언어, 제2언어로 분리할 수 있는 단계를 더 포함할 수 있다.In addition, when inputted as a text sentence in step b), it may include a code conversion and a special character change and removal, etc. in order to unify the way of expressing the characters for effective dictionary search, the inputted first language or second According to the arrangement of the language may further comprise the step of separating into a first language, a second language.

또한, 상기 c) 단계에서 단어 및 숙어의 추출은 단어인 경우 원형이 아닌 파생형(과거, 현재, 현재진행, 분사 등)인 경우 원형을 생성할 수 있으며, 숙어의 경우 고정형 숙어(예를 들어, in order to)와 가변형 숙어, (예를 들어, achieving one's goals)를 추출할 수 있다.In addition, the extraction of words and idioms in the step c) may generate a prototype in the case of a derivative type (past, present, present, present, participle, etc.) instead of a circular type, and in the case of idioms, fixed idioms (eg, , in order to) and variable idioms (e.g. achieving one's goals).

또한, 상기 d) 단계에서 문장에서 사용된 단어 및 숙어의 수준을 기반으로 입력된 문서 및 문장의 수준을 정의하고 정의된 수준이하의 단어 및 숙어를 배제시키는 단계를 더 포함할 수 있다.The method may further include defining levels of the input documents and sentences based on the levels of words and idioms used in the sentence in step d) and excluding words and idioms below the defined level.

또한, 상기 e) 단계에서 분리된 문장에 따라서 음성 파일을 생성하는 단계를 더 포함할 수 있다.The method may further include generating a voice file according to the sentence separated in step e).

또한, 상기 f) 단계에서 마크업언어로 생성하기 위해 사용자 요구 및 단말기의 특성과 문장의 형태에 따라서 여러가지 출력형태를 가진 출력폼을 더 포함할 수 있다.The method may further include an output form having various output forms according to a user's request, a characteristic of a terminal, and a sentence form in order to generate the markup language in step f).

또한, 상기 g) 단계에서 마크업 언어로 생성된 결과물을 사용자 단말기 뿐만아니라 언제 어디서든 활용할 수 있게 원격지 서버에 전송할 수 있는 단계를 더 포함할 수 있다.The method may further include transmitting a result generated in the markup language in step g) to a remote server for use anytime, anywhere as well as the user terminal.

본 발명의 일 실시예에 의하면, 모국어가 아닌 언어를 학습하는 사람들에게 제1언어에서 제2언어로 번역하며 문장구성 요소인 단어 및 숙어에 대한 사전 검색정보를 제공함으로써 효과적인 학습을 할 수 있다. 또한 이러한 정보가 단지 문서로 표기되는 수준에서 각종 유무선 단말기를 사용할 수 있는 형태인 마크업 언어로 생성되어 언제 어디서든 학습할 수 있는 입체교육 환경을 제공한다.According to an embodiment of the present invention, effective learning can be provided by providing dictionary search information for words and idioms that are sentence elements that translate from a first language to a second language to those who learn a language other than the mother tongue. In addition, the information is generated in a markup language, which can be used for various wired and wireless terminals at the level indicated by a document, thereby providing a three-dimensional education environment that can be learned anytime and anywhere.

특히, 언어는 음성이 중요시 되는 바, 제2언어로 구성되는 문장에 따라 발음 과 사전 정보를 제공함으로써 멀티미디어 교육효과를 얻을 수 있다.In particular, since language is important for speech, it is possible to obtain a multimedia educational effect by providing pronunciation and dictionary information according to a sentence composed of a second language.

또한, 본 발명의 다른 실시예에 의하면, 문장에서 사용되는 모든 단어 및 숙어에 대한 사전검색을 수행해 문서 및 문장의 수준을 정의하고 문장 수준 이하의 단어 및 숙어를 배제함으로써 사용자의 언어 수준에 맞춘 정보를 제공해 사용자가 효과적으로 학습할 수 있는 효과도 있다.In addition, according to another embodiment of the present invention, by performing a dictionary search for all words and idioms used in a sentence to define the level of documents and sentences, and excludes words and idioms below the sentence level information tailored to the language level of the user There is also an effect that allows users to learn effectively.

도 1는 본 발명의 다른 실시예에 의한 사전검색 마크업언어 생성 시스템과 네트워크 간의 연동 관계를 개략적으로 나타낸 도면이다.
도 2은 본 발명의 일 실시예에 의한 사전검색 마크업언어 생성 시스템의 전체적인 구성을 개략적으로 보인 블록도,
도 3는 사전검색 마크업언어 생성 시스템의 입출력부 구성을 보인 블록도,
도 4은 사전검색 마크업언어 생성 시스템의 문장처리부 구성을 보인 블록도,
도 5는 사전검색 마크업언어 생성 시스템의 어휘추출부 구성을 보인 블록도,
도 6는 사전검색 마크업언어 생성 시스템의 사전데이터베이스 구성을 보인 블록도,
도 7은 사전검색 마크업언어 생성 시스템의 마크업 언어생성부 구성을 보인 블록도,
도 8은 사전검색 마크업언어 생성 방법을 개략적으로 설명하기 위한 플로우 챠트,
도 9은 사전검색 마크업언어 생성 방법중 입력 문서 정리 및 번역 방법을 설명하기 위한 플로우 챠트,
도 10는 사전검색 마크업언어 생성 방법중 형태소분석 및 어휘 추출 방법과 문장, 단어 및 숙어 수준 검사 방법을 설명하기 위한 플로우 챠트,
도 11은 사전검색 마크업언어 생성 방법중 마크업 언어 생성 방법을 설명하기 위한 플로우 챠트,
도 12은 사전검색 마크업언어 생성 방법의 결과물중 문장별로 작성된 마크업언어의 예를 나타타낸 도면,
도 13은 사전검색 마크업언어 생성 방법의 결과물중 단락별로 작성된 마크업언어의 예를 나타타낸 도면,
도 14는 사전검색 마크업언어 생성 방법의 결과물중 입력된 문서에서 추출된 단어 및 숙어로 작성된 마크업언어의 예를 나타타낸 도면이다.
1 is a diagram schematically showing an interworking relationship between a system for generating a dictionary search markup language and a network according to another embodiment of the present invention.
2 is a block diagram schematically showing the overall configuration of a dictionary search markup language generation system according to an embodiment of the present invention;
3 is a block diagram showing an input / output unit configuration of a pre-search markup language generation system;
4 is a block diagram showing the structure of a sentence processing unit of a dictionary search markup language generation system;
5 is a block diagram showing the configuration of the lexical extraction unit of the dictionary search markup language generation system;
6 is a block diagram showing the configuration of a dictionary database of a dictionary search markup language generation system;
7 is a block diagram showing a configuration of a markup language generation unit of a dictionary search markup language generation system;
8 is a flowchart for schematically explaining a method for generating a dictionary search markup language;
9 is a flowchart illustrating an input document arrangement and translation method in a dictionary search markup language generation method;
10 is a flowchart illustrating a morphological analysis and a vocabulary extraction method and a sentence, word and idiom level checking method among dictionary search markup language generation methods;
11 is a flowchart for explaining a markup language generation method in a dictionary search markup language generation method;
12 is a view showing an example of markup languages written for each sentence in the result of the method for generating a dictionary search markup language;
FIG. 13 is a view showing an example of markup languages prepared for each paragraph among results of the method for generating a pre-search markup language;
FIG. 14 is a diagram illustrating an example of a markup language written with words and idioms extracted from an input document among results of a method of generating a dictionary search markup language.

이하, 본 발명의 바람직한 실시예를 첨부도면에 의거하여 상세히 설명한다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 실시예들을 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태로 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. While the present invention has been described in connection with what is presently considered to be the most practical and preferred embodiment, it is to be understood that the invention is not limited to the disclosed embodiments. It should be understood, however, that the invention is not intended to be limited to the particular forms disclosed, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

또한, 다르게 정의되지 않는 한 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Also, unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the meaning of the context in the relevant art and, unless explicitly defined herein, are to be interpreted as ideal or overly formal Do not.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 의한 사전검색 마크업언어 생성 시스템은, 서로 다른 플렛폼 기반의 단말기 자체에 내장되어 있는 마크업 언어생성 시스템이 될 수 있으며, 단말기에서 서버로 입력된 것을 기반으로 마크업 언어생성 시스템이 될 수도 있다. 상기 시스템에서 출력된 결과물인 마크업 언어는 이기종 모든 단말기에서 동작이 가능하다.As shown in FIG. 1, the pre-search markup language generation system according to an embodiment of the present invention may be a markup language generation system embedded in different platforms based on the terminal itself. It can be a markup language generation system based on input. The markup language output from the system can be operated in all heterogeneous terminals.

통상적으로 단어, 숙어 및 텍스트 형태의 정보들은 마크업 언어로 작성되고 단어 및 숙어에 대한 음성은 하이퍼텍스트 형태로 연결되어 서비스 가능하다. 그러나 문장은 선택적으로 사용할 때마다 오디오 생성시스템을 활용하는 방법과 녹음 된 오디오 파일 제작 되어 활용될 수 있다. 본 발명의 일 실시예에 의한 사전검색 마크업언어 생성 시스템은, 서버용과 단말기용으로 구성될 수 있다. 예를 들면, 서버용으로 구성할 때에는, 서로 다른 플랫폼 단말기(10)에서 입력된 문장이 서버(30)로 유무선 네트워크(20) 통하여 전송되면 서버에서 사전검색 마크업언어생성 시스템이 개시되어 결과물인 마크업 언어가 서버에 저장되고 저장된 마크업 언어는 모든 이기종 단말기에서도 동작이 가능하게 한다.Typically, information in words, idioms and text forms is written in markup language and voices for words and idioms are connected and serviced in hypertext form. However, whenever a sentence is used selectively, it can be used to create an audio file and to use the audio generation system. The pre-search markup language generation system according to an embodiment of the present invention may be configured for a server and a terminal. For example, in the case of configuring for a server, when sentences input from different platform terminals 10 are transmitted to the server 30 through the wired or wireless network 20, the pre-search markup language generation system is started on the server, and the resulting mark is displayed. The markup language is stored in the server and the markup language is stored in all heterogeneous terminals.

또한 단말기형으로 구성할 때에는, 특정 단말기(10)에 저장된 사전검색 마크업 언어생성 시스템에 직접 입력하고 결과를 출력해 자체에서 사용되거나 서버(30)로 전송해 모든 이기종 단말기(10)에서 사용가능하도록 할 수도 있다.In addition, when configuring the terminal type, directly input to the dictionary search markup language generation system stored in the specific terminal 10 and output the result can be used in itself or transmitted to the server 30 can be used in all heterogeneous terminals (10) You can also do that.

상기 사전검색 마크업언어 생성 시스템은 도 2에 나타낸 바와 같이, 원문인 제1언어 또는 번역된/될 제2언어가 함께 입력되고 결과물의 출력을 관리하며, 최종 결과물인 마크업언어를 서버에 전송하는 전송기로 구성되는 입출력부(100), 입력된 제1언어를 문장단위로 분리 및 병합 처리하는 문장처리부(200), 문장에서 사용되는 단어 및 숙어를 추출하는 어휘추출부(300), 단어 사전 및 숙어 사전 데이터베이스(400), 문장, 단어, 숙어 정보와 음성 정보를 모든 단말기에서 활용 가능하도록 하는 마크업 언어 생성부(500) 등을 구비한다.As shown in FIG. 2, the pre-search markup language generation system is inputted with the first language, which is the original text, or the second language to be translated / to be managed, and manages the output of the result, and transmits the markup language, which is the final result, to the server. An input / output unit 100 configured as a transmitter, a sentence processing unit 200 for separating and merging the input first language into sentence units, a vocabulary extraction unit 300 for extracting words and idioms used in sentences, a word dictionary And a idiom dictionary database 400, a markup language generator 500, and the like, which can utilize the phrases, words, idiom information and voice information in all terminals.

상기 입출력부(100)는 도 3에 나타낸 바와 같이, 입력되는 제1언어가 단독으로 입력되는 경우, 제1언어와 번역된/될 제2언어가 입력되는 경우 입력된 형태가 텍스트 형태인 경우 등 다양한 입력방식을 처리하는 입력기와 마크업언어로 생성된 결과물을 표현하는 출력기로 구성되는 입출력기(101), 입력된 형태가 이미지로 입력되는 경우 입력된 이미지에서 문자를 추출하는 문자추출기(102), 마크업 언어로 생성된 결과물을 모든 기종의 단말기에서 사용가능 하도록 서버에 전송하는 전송기(103) 등을 구비한다.As illustrated in FIG. 3, the input / output unit 100 may include a case where a first language to be input is input alone, a case where a first language and a second language to be translated / to be translated are input, or a text form. Input and output unit 101 composed of an input to process a variety of input methods and output to represent the results generated in the markup language, the character extractor 102 to extract characters from the input image when the input form is input as an image And a transmitter 103 for transmitting a result generated in a markup language to a server so that it can be used in all types of terminals.

본 발명에서 상기 입력 형태는 텍스트, 이미지, pdf등 다양하게 입력될 수 있으며 광학식문자판독기(OCR - optical character reader)를 활용해 입력문서에서 문자를 추출할 수 있다.In the present invention, the input form may be variously input such as text, image, pdf, etc. and may extract characters from the input document by using an optical character reader (OCR).

상기 문장처리부(200)는 도 4에 나타낸 바와 같이, 입력된 모든 문서의 코드는 마크업 언어 생성 시스템과 동기화 하기 위해 코드 변환을 실행하는 코드변환기(201), 입력된 다수의 문장을 분리 및 병합하는 문장분리기(202), 입력된 제1언어만 입력되었을 경우 제2언어로 번역하는 번역기(203) 등을 구비한다.As shown in FIG. 4, the sentence processing unit 200 separates and merges a plurality of input sentences, a code converter 201 that executes code conversion to synchronize the code of all input documents with a markup language generation system. And a sentence separator 202, a translator 203 for translating the second language when only the first language is input.

상기 어휘추출부(300)는 도 5에 나타낸 바와 같이, 각각 분리된 문장을 구성하는 형태소를 분석해 단어 및 숙어를 추출하는 단어 숙어 추출기(301), 추출된 단어의 수준을 분석해 사용된 단어의 수준이 문장에서 사용된 단어의 수준보다 낮을 경우 출력을 제한하는 문장 수준검사기(302) 등을 구비한다.As shown in FIG. 5, the lexical extracting unit 300 analyzes the morphemes constituting the separated sentences, and extracts words and idioms. The idiom extractor 301 extracts words and idioms, and analyzes the levels of the extracted words. A sentence level checker 302 or the like is provided for limiting the output when it is lower than the level of words used in this sentence.

상기 사전 데이터베이스(400)는 도 6에 나타낸 바와 같이, 단어의 뜻, 발음기호, 품사 등과 원형, 단어 수준을 정의 및 기록 관리하는 단어사전(401), 고정적인 숙어 형태와 가변적인 숙어 형태를 기록 관리하는 숙어 사전(402), 단어 및 숙어에 대한 오디오 음성 파일을 기록 관리하는 오디오 사전(403) 등을 구비한다.As shown in FIG. 6, the dictionary database 400 records a word dictionary 401, a fixed idiom form and a variable idiom form that define and record a word meaning, a phonetic symbol, a part-of-speech, a prototype, and a word level. An idiom dictionary 402 for managing, an audio dictionary 403 for recording and managing audio and voice files for words and idioms, and the like.

상기 마크업 언어생성부(500)는 도 7에 나타낸 바와 같이, 문장에 대한 오디오 파일을 생성하기 위해 오디오 생성기(501), 마크업 언어의 생성이 사용자 환경에 따라서 컴퓨터, 인터넷, 모바일 등 다양한 환경에서 사용가능하도록 하는 단말기 형태로 구성되는 출력양식생성기(502), 각 단말기 형태에서 운용될 수 있는 마크업 언어를 생성하는 마크업 언어생성기(503) 등을 구비한다.As shown in FIG. 7, the markup language generator 500 generates an audio file 501 for a sentence, and generates various environments such as computer, internet, and mobile according to the user environment. An output form generator 502 configured to be used in the terminal form, and a markup language generator 503 for generating a markup language that can be operated in each terminal form.

본 발명에서 상기 오디오 생성기(501)은 문자음성 자동변환기(TTS - text to speech)를 활용해 문장에 대한 오디오 음성 파일을 생성할 수 있다. In the present invention, the audio generator 501 may generate an audio-voice file for a sentence by using a text-to-speech (TTS).

이하, 본 발명의 사전 검색 마크업 언어 생성 방법에 대하여 설명한다.Hereinafter, the dictionary search markup language generation method of the present invention will be described.

본 발명의 사전 검색 마크업 언어 생성 시스템은 사용자 단말기에서 운용할 수도 있으며, 서버에서 원격으로 운용될 수 있다. 또한 그 결과물은 마크업 언어를 사용자 단말기에서 저장 및 사용할 수 있으며, 서버로 전송해 언제 어디서든 서로 다른 플랫폼 단말기에서도 사용할 수 있다.The dictionary search markup language generation system of the present invention may be operated from a user terminal or remotely from a server. The result can also be stored and used in the markup language on the user's terminal and can be sent to a server for use on different platform terminals anytime, anywhere.

도 8는 본 발명에 의한 사전검색 마크업언어 생성 방법을 설명하기 위한 개괄적인 플로우 챠트이다. 이를 참조하여 마크업 언어가 생성되는 수행 절차를 살펴보면 다음과 같다. 마크업 언어를 작성할 제1언어가 입력된다(S810). 텍스트형태가 아닌 이미지 또는 PDF 파일등으로도 입력될 수 있다. 텍스트 형태가 아닌 경우에 있어서 광학식문자판독기(OCR - optical character reader)를 활용해 입력문서에서 문자를 추출할 수 있다.8 is a schematic flowchart illustrating a method for generating a dictionary search markup language according to the present invention. With reference to this, the execution procedure for generating markup language is as follows. A first language for creating a markup language is input (S810). It can also be entered as an image or PDF file rather than in text form. In the case of non-text form, an optical character reader (OCR) can be used to extract characters from the input document.

입력된 문서에서 각 문장 단위로 분리 및 병합하고 입력된 제1언어는 제2언어로 번역이 필요할 수도 있으며 이때는 기계번역기를 활용해 번역을 수행 할 수도 있다(S820). 입력된 문장이 제1언어와 제2언어 모두 입력되었을 경우에는 번역기를 실행할 필요는 없으며, 제1언어와 제2언어를 서로 분리할 수 있다.The inputted language may be separated and merged in units of sentences in the input document, and the inputted first language may need to be translated into the second language. In this case, the translation may be performed using a machine translator (S820). When the input sentence is input to both the first language and the second language, the translator does not need to be executed, and the first language and the second language may be separated from each other.

본 발명의 일 실시예에 의한 제1언어는 영어로 할 수도 있으며 한국어로도 할 수 있다. 또한 제2언어 역시 영어 또는 한국어로도 할 수 있으나 제1언어와 제2언어는 서로 달라야 한다.The first language according to an embodiment of the present invention may be English or Korean. The second language may also be English or Korean, but the first and second languages should be different.

문장을 분리하는 것은 입력된 문장이 각 문장별로 구분되어 지지 않았기 때문에 문장을 표현하는 컴퓨터 기계어에서는 라인피드(LF), 페이지구분자등 사용자가 식별할 수없는 특수문자를 제거 및 분리함으로써 입력된 문서를 각 문장으로 분리 및 병합하는 것을 의미한다.In order to separate the sentences, the input sentences are not divided into each sentence. Therefore, in the computer machine language representing the sentences, the input document is removed by removing and separating special characters that the user cannot identify such as line feed (LF) and page separator. It means to separate and merge each sentence.

정리된 문장으로부터 문장을 구성하는 단어 및 숙어를 구분하고 사전 데이터베이스 및 숙어 데이터 베이스에서 검색을 수행한다.(S830)The words and idioms composing the sentence are classified from the arranged sentences and searched in the dictionary database and the idiom database. (S830)

단어 및 숙어 데이터베이스는 각각의 수준을 정의하고 있다. 단어의 경우는 원형단어와 파생단어가 존재한다. 사전 데이터베이스 거의 모든 단어를 구비하고 있으나 경우에 따라서는 검색될 파생단어가 없을 경우 원형을 생성하는 단계를 더 포함한다.The word and idiom database defines each level. In the case of words, there are circular words and derivative words. The dictionary database further includes generating a prototype when the dictionary database includes almost all words but in some cases there are no derivative words to be searched.

문장에서 사용된 단어 및 숙어 수준은 문장의 수준을 판단할 수 있다. 실예를 들면, 입력된 문장이 “In many areas, the housing market also suffered, resulting in numerous evictions, foreclosures and prolonged unemployment."인 경우 상기 문장에서 사용된 단어가 퇴거(eviction), 압류(foreclosure), 주택시장(housing market), 장기실업(prolonged unemployment) 등의 단어가 나타날 경우에 있어서 상기 문장은 초등, 중학 등의 수준은 아닐 것으로 판단되기 때문에 중학이하의 수준의 단어들인 in, many, areas, the, also, suffer, and 등은 상기 검색 및 추출에서 제외될 수 있다.The level of words and idioms used in a sentence can determine the level of the sentence. For example, if the sentence entered is “In many areas, the housing market also suffered, resulting in numerous evictions, foreclosures and prolonged unemployment.” The words used in these sentences are eviction, foreclosure, housing. In the case of a word such as a housing market or a prolonged unemployment, the sentence is not considered to be at the elementary and junior high school level. Therefore, the words below the middle school level are in, many, areas, the, Also, suffer, and etc may be excluded from the search and extraction.

따라서 문장에서 사용된 단어 및 숙어의 수준은 문장의 수준을 판단할 수 있는 근거를 제시하며 문장의 수준보다 낮은 단어 및 숙어를 배제한다(S840).Therefore, the level of words and idioms used in the sentence presents a basis for judging the level of the sentence and excludes words and idioms lower than the level of the sentence (S840).

학습자에서 보다 나은 교육 정보를 제공하기 위해, 분리된 문장과 문장에서 추출된 단어 및 숙어에 대해 발음 정보를 생성 및 연결한다. 단어 및 숙어는 오디오 데이터 베이스에 기록 저장 관리되고 있어 하이퍼링크를 연결하는 하며, 문장의 경우는 직접 문자음성 자동변환기(TTS - text to speech)를 활용해 문장에 대한 오디오 음성 파일을 생성할 수도 있으며 서버에서 매번 연결될 때마다 생성해서 서비스할 수도 있다(S850).In order to provide better educational information to learners, pronunciation information is generated and linked for the separated sentences and words and idioms extracted from the sentences. Words and idioms are recorded and managed in an audio database, and hyperlinks are linked. In the case of sentences, an audio-to-speech file can be generated using a text-to-speech (TTS). Each time a connection is made from the server, the service may be generated (S850).

입력된 문장들로부터 분리된 문장, 문장에서 사용된 단어 및 숙어의 정보와 오디오 파일들 모두를 마크업언어로 생성한다(S860).In operation S860, all of the information and audio files of the sentences separated from the input sentences, the words and idioms used in the sentences, and audio files are generated.

마크업 언어는 서버에서 생성할 수도 있으면 사용자 단말기에서 생성할 수도 있다. 마크업 언어로 생성된 파일은 모든 유무선 단말기에서 사용가능하게 하기 위하여 서버로 전송되어 기록 관리될 수 있다.The markup language may be generated at the server or at the user terminal. Files created in the markup language can be transferred to a server and recorded for use in all wired and wireless terminals.

본 발명에 의한 사전검색 마크업언어 생성 방법을 구체적이고 단계적으로 설명한다. A method for generating a dictionary search markup language according to the present invention will be described in detail and step by step.

도 9는 본 발명에 의한 사전검색 마크업언어 생성 방법 중 입력 문서를 문장단위로 분리 및 병합하는 방법을 설명하기 위한 플로우 챠트이다. 9 is a flowchart illustrating a method of separating and merging input documents in sentence units in a method of generating a dictionary search markup language according to the present invention.

입력된 문서는 텍스트 형태일 수도 있으며 이미지나 pdf등의 파일일 수도 있다. 입력된 문서가 어던 형태인지를 판단하고(S901) 텍스트 형태가 아닌 경우에 있어서 광학식문자판독기(OCR - optical character reader)를 활용해 입력문서에서 문자를 추출할 수 있다(S902). 입력된 모든 문서의 코드는 마크업 언어 생성 시스템과 동기화하기 위해 코드 변환을 실행한다(S903). 코드변환의 실예를 들면, 아스키(ASCII)에서 UTF-8등으로 변환하기나 반대로도 할 수 있다.The input document may be in text form or may be an image or a pdf file. In operation S901, the input document may be determined in a non-text form, and a character may be extracted from the input document using an optical character reader (OCR) (S902). Code of all the input documents executes code conversion in order to synchronize with the markup language generation system (S903). For example, you can convert from ASCII to UTF-8 or vice versa.

입력된 문장은 제1언어만 입력되는 경우와 제2언어와 함께 입력되는 경우가 있을 수 있다. 즉, 제1언어만 입력되는 경우는 번역을 필요로 하는 경우일 수 있고,제1언어로 영어가 입력되고 번역되어진 제2언어가 입력되는 경우는 본 발명에서는 번역이 필요없는 경우이다. 따라서 제1언어와 제2언어가 입력되는 경우는 서로 언어별로 먼저 분리하고, 분리된 각 언어는 문서단위로 입력되어 있기 때문에 문장별로 각각 분리된다(S904). 문장을 분리하는 것은 입력된 문장이 각 문장별로 구분되어 지지 않았기 때문에 문장을 표현하는 컴퓨터 기계어에서는 라인피드(LF), 페이지구분자등 사용자가 식별할 수 없는 특수문자를 제거 및 분리함으로써 입력된 문서를 각 문장으로 구분한다(S905). 입력된 문서가 제1언어만 입력되었을 경우는 분리된 문장별로 기계번역을 수행한다(S906).The input sentence may be input only with the first language or with the second language. That is, the case where only the first language is input may be a case where translation is required, and the case where English is input as the first language and the translated second language is input is when the translation is not necessary in the present invention. Therefore, when the first language and the second language are input, they are first separated from each other by language, and since each of the separated languages is input in document units, they are separated by sentences (S904). In order to separate the sentences, the input document is not divided into each sentence. Therefore, in the computer machine language that expresses the sentence, the input document is removed by removing and separating special characters that the user cannot identify such as line feed (LF) and page separator. Each sentence is divided (S905). If only the first language is entered, the input document performs machine translation for each of the separated sentences (S906).

또한 코드변환 되고 분리 및 병합된 제1언어와 제1언어를 번역한 제2언어의 문장들은 각각 원문과 번역문을 1:1 매핑하여 원문과 번역문을 연결한다(S907). 이들 원문과 번역문은 각각의 원문/번역문으로 출력될 수 있으며(도12), 단락 단위로 원문 표시와 별도의 번역문 단락으로 표시할 수도 있다(도13). 또한 입력된 모든 문장에 대해 문장의 수준 이상인 단어 및 숙어만 마크업 언어로 생성할 수도 있다.(도14)In addition, the sentences of the first language and the second language which are transcoded, separated and merged are translated from the original text and the translated text by 1: 1 mapping the original text and the translated text (S907). These original texts and translations may be output as respective original texts / translations (FIG. 12), or may be displayed in separate paragraphs of the original text in paragraph units (FIG. 13). It is also possible to generate only words and idioms in the markup language that are above the sentence level for all input sentences (Fig. 14).

도 10은 본 발명에 의한 사전검색 마크업언어 생성 방법 중 분리 병합된 문장에서 사용된 단어 및 숙어의 형태소 분석을 통해 단어 및 숙어를 검색 추출하는 방법을 설명하기 위한 플로우 챠트이다. FIG. 10 is a flowchart illustrating a method of searching and extracting words and idioms through morphological analysis of words and idioms used in a separated and merged sentence in the dictionary search markup language generation method according to the present invention.

형태소 분석은 문장에서 사용된 단어들을 공백(SPACE)를 구분자로 구분하고(S1001) 구분된 형태소를 기준으로 사전 및 숙어 검색을 진행한다. 단어는 원형과 파생단어들로 나뉠 수 있어 사전 데이터베이스에서 기록 관리되는 모든 단어는 완벽하게 파생단어들까지 구비하기 어렵기 때문에 파생으로 입력된 단어들은 원형단어를 기준으로 변경되어 파생단어와 원형단어의 정보들 - 뜻, 수준, 발음기호 등-을 함께 표현하기 위해 형태소 분석을 실행 한다(S1002). 숙어의 경우는 별도로 숙어 사전에서 검색 추출 한다.The morpheme analysis divides the words used in the sentence into spaces (SACE) as delimiters (S1001) and proceeds with a dictionary and idiom search based on the separated morphemes. Since words can be divided into prototypes and derived words, all words recorded and maintained in the dictionary database are difficult to have perfectly derived words. Morphological analysis is performed to express information-meaning, level, phonetic symbols, etc. (S1002). In the case of idioms, search separately from the idiom dictionary.

예를 들어 in order to 같은 경우는 형태소 분석을 통해 in, order, to로 구분되었지만 in order to 자체로 의미를 가진 숙어이기 때문에 숙어 사전에서 검색할 수 있다. 본 발명에서는 상기 형태를 고정형 숙어라 하고, achieve one's goal의 경우는 achieve가 achieves, achieved, achieving 등으로 변화될 수 있다. 또한 one's는 광의의 단어기 때문에 his, her등의 소유격과 his great 등으로 확대할 수 있는 구조를 가지고 있다. 또한 goal 역시 복수형인 goals로 표현될 수 있다.For example, in order to is classified as in, order, to through stemming, but it can be searched in the idiom dictionary because it is an idiom that has meaning in in order to itself. In the present invention, the above form is referred to as a fixed idiom, and in the case of achieve one's goal, the achieve may be changed to achieves, achieved, achieving, and the like. Also, since one's is a broad word, it has a structure that can be extended to possessives such as his and her and his great. Goals can also be expressed in plural goals.

따라서 다양한 변화형을 가진 가변형 구조의 숙어를 추출하기 위해 상기 예의 숙어에서 사용된 단어를 사용한 예비숙어를 검색하고(S1003) 검색된 예비숙어 중에서 실제 사용한 숙어를 추출한다(S1004). 복합명사 역시 단어와 단어 사이에 공백이 존재하기 때문에 동일한 방법으로 추출할 수 있다.Therefore, in order to extract a idiom of a variable structure having a variety of variations, the preliminary idiom using the words used in the idioms of the above example is searched (S1003) and the actual idiom is extracted from the searched idioms (S1004). Compound nouns can also be extracted in the same way because there are spaces between words.

추출된 모든 단어 및 숙어의 수준을 검사해서 각 수준별 단어의 사용 빈도를 검사하면 문장의 수준도 예측 가능하다. 단어 및 숙어 사전은 수준을 정의 기록 관리한다(S1005). 예를 들어, a, an, the, he, his, she, I, am 등의 인칭, 전치사 등은 기초단어에 포함되고 like, love 등은 초등단어로, accept, pardon 등은 중학단어로, engrave, vegetarian등은 고등단어 그리고 퇴거(eviction), 압류(foreclosure), 주택시장(housing market), 장기실업(prolonged unemployment) 등은 대학단어로 구분할 수 있으며 더 세분화 할 수도 있다.By checking the level of all extracted words and idioms, the frequency of sentences can be predicted by checking the frequency of use of each word. The word and idiom dictionary manages the level definition record (S1005). For example, basic words such as a, an, the, he, his, she, I, am, prepositions, etc. are included in basic words, like, love, etc. are elementary words, accept, pardon, etc. are middle school words, engrave , vegetarian, etc. can be classified into higher words and eviction, foreclosure, housing market, and prolonged unemployment.

따라서 추출된 단어들이 문장 수준 이하의 단어인지를 판단하고(S1006), 상기 예문에서 다수의 대학단어들이 출현하므로 기본 단어, 초등단어 및 중학단어들은 배제시키고 고등학교 수준 이상의 단어 및 숙어들로 구성된 정보를 색인화 한다(S1007).Therefore, it is determined whether the extracted words are words below the sentence level (S1006), and since a plurality of university words appear in the example sentence, basic words, elementary words, and middle school words are excluded, and information consisting of words and idioms of high school level or higher is determined. Indexing (S1007).

또한 색인화된 단어 및 숙어는 중복성을 제거하고 파생형 단어인 경우 원형과 함께 출력해 학습 효과를 높인다. 단어 및 숙어는 서로 구분되거나 함께 출력할 수 있다.In addition, indexed words and idioms eliminate duplication and, in the case of derived words, are printed with prototypes to enhance the learning effect. Words and idioms can be separated from each other or printed together.

도 11은 본 발명에 의한 사전검색 마크업언어 생성 시스템 및 방법에서 마크업 언어를 생성 방법을 나타하는 플로우챠트이다. 11 is a flowchart illustrating a method of generating a markup language in a dictionary search markup language generation system and method according to the present invention.

먼저 분리된 문장에 대해 원어민 오디오 파일을 생성한다.(S1101) 오디오 파일은 문자음성 자동변환기(TTS - text to speech)를 활용해 문장에 대한 오디오 음성을 직접 생성해서 파일로 보관 관리할 수 있으며, 네트워크를 통한 서버에서 문자음성 자동변환기를 사용해서 필요할 때마다 음성을 생성해서 서비스할 수도 있다.First, a native speaker audio file is generated for the separated sentences. (S1101) An audio file may be directly generated and maintained as an audio voice for a sentence using a text-to-speech (TTS). Text-to-speech converters on servers across the network can also generate and service voice as needed.

단어 및 숙어의 오디오 파일은 단어숙어 오디오 데이터베이스에 기록 관리하고 있기 때문에 별도의 오디오 파일은 생성하지 않고 하이퍼링크로 연결 관리 할 수 있다(S1102).Since audio files of words and idioms are recorded and managed in a word idiom audio database, it is possible to manage the connection by hyperlinks without generating a separate audio file (S1102).

마크업 언어는 서로 다른 단말기 환경에서 사용가능하도록 만들어진다. 단말기의 환경은 화면의 크기, 운영체계, 오디오 지원 환경 등에 따라서 다양하게 만들어 질 수 있으며 사용자는 출력형태를 선택할 수 있으며, 모든 단말기 환경에 맞춘 출력형태에 따라서 자동 생성이 가능하다.(S1103)Markup languages are made available to different terminal environments. The environment of the terminal can be made variously according to the size of the screen, the operating system, the audio support environment, etc. The user can select the output type, and can be automatically generated according to the output type suitable for all terminal environments (S1103).

분리된 문장, 문장의 오디오 파일, 검색된 단어 및 숙어의 정보와 오디오 파일 하이퍼 링크등을 단말기의 형태에 따라서 마크업 언어로 생성한다(S1104).Segmented sentences, audio files of sentences, searched words and idiom information, and audio file hyperlinks are generated in a markup language according to the type of the terminal (S1104).

마크업 언어로 생성된 파일은 사용자 단말기에서 생성해서 보관 관리될 수 있으며, 모든 단말기에서 사용가능한 상태로 서비스를 받기 위해서는 생성된 마크업 언어를 서버로 전송하고 보관 관리할 수 있다(S1105) The file generated in the markup language may be generated and maintained by the user terminal, and the generated markup language may be transmitted to the server and stored and managed in order to receive the service in a usable state in all terminals (S1105).

정보통신의 발전으로 다양한 단말기가 보급되고 있다. 컴퓨터에서 운용되는 정보들은 이동형 단말기와 더불어 다양한 형태로 운영체계에 따라서 운용될 수 있으나 각 단말기의 운영체계 및 환경에 따라서 서로 호환이 되지 않는 경우도 있다.Due to the development of information and communication, various terminals are spreading. The information operated by the computer may be operated according to the operating system in various forms in addition to the mobile terminal, but may not be compatible with each other depending on the operating system and environment of each terminal.

따라서 모든 단말기에서 사용 가능하게 하는 마크업언어를 생성함으로서 언제 어디서든 무슨 단말기든 사용할 수 있는 환경을 제공함으로써 언어 학습에 대한 접근 용이성을 제공한다.Therefore, by creating a markup language that can be used in all terminals, it provides accessibility to language learning by providing an environment that can be used by any terminal anytime, anywhere.

이상에서, 본 발명은 예시적인 방법으로 설명되었다. 여기서 사용된 용어들은 설명을 위한 것일 뿐 한정의 의미로 이해되어서는 안 될 것이다. 상기 내용에 따라 본 발명의 다양한 수정 및 변형이 가능하다. 따라서 따로 부가 언급하지 않는 한 본 발명은 특허청구범위 내에서 자유로이 실행될 수 있을 것이다.In the above, the present invention has been described by way of example. The terminology used herein is for the purpose of description and should not be regarded as limiting. Various modifications and variations of the present invention are possible in light of the above teachings. Therefore, unless otherwise stated, the present invention may be freely implemented within the scope of the claims.

100;입출력부 101;입출력기
102;문자추출기 103;전송기
200;문장처리부 201;코드변환기
202;문장분리기 203;기계번역기
300;어휘추출부 301;형태소분석기
302;단어숙어추출기 303;문장수준검사기
400;사전데이터베이스 401;단어사전
402;숙어사전 403;오디오사전
500;마크업언어생성부 501;오디오생성기
502;출력양식생성기 503;마크업언어생성기
100; I / O 101; I / O
102; Extractor 103; Transmitter
200; sentence processing unit 201; code converter
202; Sentence Separator 203; Machine Translator
300; lexical extraction unit 301; morphological analyzer
302; Idiom extractor 303; Sentence level checker
400; dictionary database 401; word dictionary
402; Idiom dictionary 403; Audio dictionary
500; markup language generator 501; audio generator
502; output form generator 503; markup language generator

Claims (24)

한 개 이상의 단어 또는 복수의 문장을 입출력하기 위한 장치와 마크업 언어 를 서버에 전송하는 입출력부;
상기 입력된 문서를 문장으로 분리 및 병합하는 문장처리부;
상기 구분되어진 문장으로부터 형태소를 분석하고 단어 및 숙어를 추출하는 어휘추출부;
상기 단어, 숙어 및 단어숙어 오디오 파일을 기록보관하는 사전 데이터 베이스; 및
상기 분리된 문장, 문장의 오디오 파일, 검색된 단어 및 숙어의 정보와 오디오 파일, 하이퍼 링크 등을 단말기의 형태에 따라서 마크업 언어로 생성하는 마크업 언어 생성부;를 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 시스템.
An input / output unit which transmits an apparatus for inputting and outputting one or more words or a plurality of sentences and a markup language to a server;
A sentence processing unit for separating and merging the input document into sentences;
A lexical extraction unit for analyzing morphemes from the divided sentences and extracting words and idioms;
A dictionary database for recording the word, idiom and idiom audio files; And
And a markup language generator for generating the separated sentences, the audio file of the sentence, the information of the searched words and idioms, the audio file, the hyperlink, and the like in a markup language according to the form of the terminal. Markup Language Generation System.
제1항에 있어서, 상기 입출력부는,
상기 입력되는 제1언어가 단독으로 입력되는 경우, 제1언어와 번역된 제2언어가 입력되는 경우, 입력된 형태가 텍스트 형태인 경우 등 다양한 입력방식을 입출력 처리하는 입출력기;
상기 입력된 형태가 이미지, pdf 등 텍스트 형태가 아닌 형태로 입력되는 경우 입력된 이미지에서 문자를 추출하는 문자추출기; 및
상기 마크업 언어로 생성된 결과물을 모든 기종의 단말기에서 사용가능 하도록 서버에 전송하는 전송기;를 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 시스템.
The method of claim 1, wherein the input and output unit,
An input / output unit for inputting / outputting various input methods such as when the input first language is input alone, when the first language and the translated second language are input, or when the input language is a text;
A character extractor extracting characters from the input image when the input form is input in a non-text form such as an image or a pdf; And
And a transmitter for transmitting the result generated in the markup language to a server to be used in all types of terminals.
제1항에 있어서, 상기 문장처리부는,
상기 입력된 모든 문서의 코드를 마크업 언어 생성 시스템과 동기화 하기 위해 코드 변환을 실행하는 코드변환기;
상기 입력된 다수의 문장을 분리 및 병합하는 문장분리기;
상기 제1언어만 입력되었을 경우 제2언어로 번역하는 번역기;를 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 시스템.
The method of claim 1, wherein the sentence processing unit,
A code converter for performing code conversion to synchronize code of all the input documents with a markup language generation system;
A sentence separator for separating and merging the input plurality of sentences;
And a translator for translating the second language when only the first language is input.
제1항에 있어서, 상기 어휘추출부는,
상기 각각 분리된 문장을 구성하는 형태소를 분석해 원형 및 파생단어를 구분 짓고 원형을 생성하는 형태소 분석기;
상기 분석된 단어 및 숙어를 단어, 숙어 사전에서 추출하는 단어 숙어 추출기; 및
상기 추출된 단어의 수준을 분석해 사용된 단어의 수준이 문장에서 사용된 단어의 수준보다 낮을 경우 배제시키는 문장 수준 검사기;를 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 시스템.
The method of claim 1, wherein the vocabulary extraction unit,
A morpheme analyzer for analyzing the morphemes constituting the separated sentences to distinguish the prototype and the derived word and to generate a prototype;
A word idiom extractor for extracting the analyzed word and idiom from a word and an idiom dictionary; And
And a sentence level checker which analyzes the level of the extracted word and excludes the level of the used word if the level of the used word is lower than the level of the word used in the sentence.
제1항에 있어서, 상기 사전 데이터베이스는,
상기 단어의 기본적인 뜻과 원형, 단어 수준을 정의 및 기록 관리하는 단어사전;
상기 고정적인 숙어 형태와 가변적인 숙어 형태를 기록 관리하는 숙어 사전;및
상기 단어 및 숙어에 대한 오디오 음성 파일을 기록 관리하는 오디오 사전;를 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 시스템.
The method of claim 1, wherein the dictionary database,
A word dictionary for defining and recording the basic meaning, prototype, and word level of the word;
An idiom dictionary for recording and managing the fixed idiom form and the variable idiom form; And
And an audio dictionary for recording and managing an audio-voice file for the word and idioms.
제1항에 있어서, 상기 마크업 언어생성부는,
상기 문장에 대한 오디오 파일을 생성하기 위한 오디오 생성기;
상기 마크업 언어의 생성이 사용자 환경에 따라서 컴퓨터, 인터넷, 모바일 등 다양한 환경에서 사용가능하도록 하는 단말기 형태로 구성되는 출력양식생성기; 및
상기 각 단말기 형태에서 운용될 수 있는 마크업 언어를 생성하는 마크업 언어생성기;를 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 시스템.
The method of claim 1, wherein the markup language generation unit,
An audio generator for generating an audio file for the sentence;
An output form generator configured in the form of a terminal to allow the generation of the markup language to be used in various environments such as a computer, the Internet, and a mobile device according to a user environment; And
And a markup language generator for generating a markup language that can be operated in each terminal type.
제1항에 있어서,
상기 사전검색 마크업언어 생성 시스템은, 하나의 사용자 단말기에서 마크업언어를 생성하고 사용하는 것과 네트워크 통해 모든 기종 단말기에서 사용 가능하게 서버에 기록 관리하여 독립적으로 운영 가능한 것을 특징으로 하는 사전검색 마크업언어 생성 시스템.
The method of claim 1,
The pre-search markup language generation system may generate and use a markup language in one user terminal and pre-search markup, which may be independently operated by recording and managing the server to be used in all model terminals through a network. Language generation system.
a) 마크업 언어를 작성할 제1언어 또는 번역된 제2언어를 입력하는 단계;
b) 입력된 문서에서 각 문장 단위로 분리 및 병합하는 단계;
c) 제1언어만 입력되는 경우 제2언어로 번역하는 단계;
d) 분리 및 병합된 문장으로부터 단어 및 숙어를 분리 추출하는 단계;
e) 문장에서 사용된 단어의 수준에 따라 임의의 수준 이하의 단어 및 숙어를 배제하는 단계;
f) 분리 및 병합된 문장, 단어, 숙어의 발음 오디오를 생성하는 단계; 및
g) 단어, 숙어, 문장, 오디오, 번역의 결과물을 마크업 언어로 생성하는 단계;를 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 시스템.
a) inputting a first language or a translated second language in which a markup language is to be written;
b) separating and merging each sentence in the input document;
c) translating to the second language if only the first language is input;
d) separating and extracting words and idioms from the separated and merged sentences;
e) excluding words and idioms below any level according to the level of words used in the sentence;
f) generating pronunciation audio of the separated and merged sentences, words, idioms; And
g) generating a result of words, idioms, sentences, audio, and translations in a markup language.
제8항에 있어서,
상기 a) 단계에 의해 입력되는 문서가 텍스트형태 또는 텍스트가 아닌 이미지, PDF 파일 등 다양한 입력형태를 수용하는 것 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
Method for generating a pre-search markup language, characterized in that the document input by the step a) accommodates a variety of input forms, such as images, PDF files, not text or text.
제8항에 있어서,
상기 a) 단계에 의해 입력된 문장이 제1언어와 번역된 제2언어가 모두 입력되었을 경우에 제1언어와 제2언어를 입력 언어별로 분리 및 병합하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
Generating a pre-search markup language, wherein the first language and the second language are separated and merged for each input language when the sentence input by step a) includes both the first language and the translated second language. Way.
제8항에 있어서,
상기 a) 단계에 의해 입력된 모든 문서의 코드는 마크업 언어 생성 시스템과 동기화 하기 위해 코드 변환을 실행하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
The code of all documents input by step a) is performed to perform code conversion to synchronize with the markup language generation system.
제8항에 있어서,
상기 b) 단계에 의해 입력된 문장들에서 라인피드(LF), 페이지구분자등 사용자가 식별할 수 없는 특수문자를 제거 및 분리함으로써 각각의 독립된 문장으로 분리 및 병합하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
Pre-search markup, characterized in that by separating and merging into separate sentences by removing and separating the special characters that can not be identified by the user, such as line feed (LF), page separators from the sentences entered in step b) How to create a language.
제8항에 있어서,
상기 c) 단계에 의해 입력된 문장이 제1언어로만 되어 있는 경우 제2언어로 기계번역 하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
And c) machine translation into a second language if the sentence input in step c) is only the first language.
제10항 또는 제13항 있어서,
상기 제1언어와 제2언어로 구성된 경우 각각의 제1언어문장, 제2언어문장을 1:1 연결하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
The method according to claim 10 or 13,
And a first language sentence and a second language sentence, if the first language and the second language are configured as 1: 1.
제8항에 있어서,
상기 d) 단계에 의해 정리된 문장으로부터 단어 및 숙어를 분리 추출할 때 단어가 파생형일 경우 원형과 함께 검색 추출하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
And dividing the words and idioms from the sentence arranged in step d) if the words are derived.
제15항에 있어서,
상기 고정형과 가변형 숙어을 모두 추출하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
16. The method of claim 15,
Method for generating a dictionary search markup language, characterized in that for extracting both the fixed and variable idioms.
제8항에 있어서,
상기 e) 단계에 의해 검색 추출된 모든 단어 및 숙어의 수준에 의해 문장의 수준을 결정하고 문장 수준 이하의 단어 및 숙어를 배제하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
And determining the level of the sentence based on the level of all words and idioms searched and extracted by the step e) and excluding the words and idioms below the sentence level.
제17항에 있어서,
상기 문장 수준 이상의 단어 및 숙어를 색인화 하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
18. The method of claim 17,
Method for generating a dictionary search markup language, characterized in that the index of words and phrases above the sentence level.
제8항에 있어서,
상기 f) 단계에 의해 분리된 문장, 단어 및 숙어의 발음 오디오 파일을 생성 및 오디오 사전과 하이퍼링크로 연결하는 단계를 더 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
Generating a pronunciation audio file of the sentences, words and idioms separated by step f) and linking the audio dictionary with a hyperlink by using the dictionary search markup language generation method.
제19항에 있어서,
다양한 단말기의 특성에 따라서 기본 출력 형식을 구비하고 마크업언어를 생성하는 단계를 더 포함하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
20. The method of claim 19,
The method of claim 1, further comprising the step of generating a markup language according to the characteristics of various terminals.
제8항에 있어서,
상기 g) 단계에 의해 분리 정제되어 있는 문장 및/또는 번역된 문장, 문장 수준 이상의 단어, 숙어, 오디오 파일등을 마크업언어로 생성하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법
9. The method of claim 8,
Method for generating a dictionary search markup language, characterized in that the step of generating a sentence and / or translated sentences, words above the sentence level, idioms, audio files, etc., separated and refined by the step g).
제8항에 있어서,
상기 a)부터 g) 단계에 의해 생성된 마크업언어를 사용자 단말기에서 생성하여 기록 보관하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법
9. The method of claim 8,
Method for generating a pre-search markup language, characterized in that the markup language generated by the steps a) to g) generated in the user terminal to record the markup language
제22항 있어서,
상기 사용자 단말기에서 생성된 마크업언어를 다양한 단말기에서 사용 가능하게 서버로 전송하여 기록 보관하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
The method of claim 22,
Method for generating a pre-search markup language, characterized in that for transmitting the markup language generated by the user terminal to the server for use in various terminals to record.
제8항에 있어서,
상기 a)부터 g) 단계에 의해 생성된 마크업언어를 서버에서 생성하고 기록 보관하는 것을 특징으로 하는 사전검색 마크업언어 생성 방법.
9. The method of claim 8,
Method for generating a pre-search markup language, characterized in that for generating the markup language generated in the step a) to g) at the server and to record.
KR1020120049539A 2012-05-10 2012-05-10 System and method for making markup language for searching dictionary KR20130125912A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120049539A KR20130125912A (en) 2012-05-10 2012-05-10 System and method for making markup language for searching dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120049539A KR20130125912A (en) 2012-05-10 2012-05-10 System and method for making markup language for searching dictionary

Publications (1)

Publication Number Publication Date
KR20130125912A true KR20130125912A (en) 2013-11-20

Family

ID=49854114

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120049539A KR20130125912A (en) 2012-05-10 2012-05-10 System and method for making markup language for searching dictionary

Country Status (1)

Country Link
KR (1) KR20130125912A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017142127A1 (en) * 2016-02-19 2017-08-24 김병인 Method, server, and computer program for setting word/idiom examination questions

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017142127A1 (en) * 2016-02-19 2017-08-24 김병인 Method, server, and computer program for setting word/idiom examination questions

Similar Documents

Publication Publication Date Title
KR101678787B1 (en) Method for automatic question-answering and apparatus therefor
KR101762866B1 (en) Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method
Bolívar et al. Academic and professional discourse
KR101266361B1 (en) Automatic translation system based on structured translation memory and automatic translating method using the same
Garje et al. Survey of machine translation systems in India
Karim Technical challenges and design issues in bangla language processing
CN103314369B (en) Machine translation apparatus and method
KR20130123037A (en) Apparatus and method for providing two-way automatic interpretation and tranlating service
Othman et al. English-asl gloss parallel corpus 2012: Aslg-pc12
KR101664258B1 (en) Text preprocessing method and preprocessing sytem performing the same
Younes et al. Language resources for Maghrebi Arabic dialects’ NLP: a survey
Lyons A review of Thai–English machine translation
Öktem et al. Corpora compilation for prosody-informed speech processing
JP2015041284A (en) Text processing apparatus, text display system, and program
CN103164397A (en) Chinese-Kazakh electronic dictionary and automatic translating Chinese- Kazakh method thereof
CN103164398A (en) Chinese-Uygur language electronic dictionary and automatic translating Chinese-Uygur language method thereof
JP5690829B2 (en) Document processing apparatus and method for expression and description extraction
KR20130125912A (en) System and method for making markup language for searching dictionary
JP2005250525A (en) Chinese classics analysis support apparatus, interlingual sentence processing apparatus and translation program
KR101501459B1 (en) Translation apparatus and method for providing various style of translatability
KR101589948B1 (en) Machine translation method and apparatus for the same
Fagbolu et al. Digital yoruba corpus
JP6203083B2 (en) Unknown word extraction device and unknown word extraction method
KR20120046414A (en) Apparatus and method for providing result of mid-translation processing
Nakatsuka et al. Extending a multilingual chat application: towards collaborative language resource building

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination