KR20010028946A - Morphological analysis method and apparatus used in text-to-speech synthesizer - Google Patents

Morphological analysis method and apparatus used in text-to-speech synthesizer Download PDF

Info

Publication number
KR20010028946A
KR20010028946A KR1019990041495A KR19990041495A KR20010028946A KR 20010028946 A KR20010028946 A KR 20010028946A KR 1019990041495 A KR1019990041495 A KR 1019990041495A KR 19990041495 A KR19990041495 A KR 19990041495A KR 20010028946 A KR20010028946 A KR 20010028946A
Authority
KR
South Korea
Prior art keywords
morpheme
sentence
list
speech
token
Prior art date
Application number
KR1019990041495A
Other languages
Korean (ko)
Other versions
KR100322743B1 (en
Inventor
이혜정
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019990041495A priority Critical patent/KR100322743B1/en
Publication of KR20010028946A publication Critical patent/KR20010028946A/en
Application granted granted Critical
Publication of KR100322743B1 publication Critical patent/KR100322743B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

PURPOSE: The method for interpreting morpheme used in a document interpreter of a voice synthesizer and an apparatus thereof are provided to enhance naturalness and clearness of a voice synthesizer by deciding kind of a sentence and kind of each paragraph composing a sentence, thereby creating a pronunciation suited thereto. CONSTITUTION: A document preprocessor comprises a sentence extracting unit(20), a user preapplying unit(24) and special pattern processor(26). The sentence extracting unit(20) receives a document and extracts the document as a token list type. The user preapplying unit(24) replaces a word row by a replacement word row corresponding to the word row if the word row stored in user dictionary database(22) is included in the token list typed document. The special pattern processor(26) decides a kind of extracted sentence and decides a kind of pattern by extracting a special pattern, and modifies a position of space. The token list typed document extracted from the document preprocessor is transmitted to a morpheme interpretation unit. The morpheme interpretation unit comprises a morpheme combination creating unit, a reserve list creating unit, a morpheme interpretation list creating unit and a morpheme error modifying unit. The morpheme combination creating unit receives the token list typed document from the document preprocessor and creates all sorts of combinations of morphemes. The morpheme interpretation list creating unit selects a reserve morpheme list having a value multiplying a connection weight value of a morpheme and a word as the last morpheme interpretation list.

Description

음성합성기의 문서해석기에서 사용되는 형태소 해석방법 및 그 장치{Morphological analysis method and apparatus used in text-to-speech synthesizer}Morphological analysis method and apparatus used in text interpreter of speech synthesizer

본 발명은 음성합성기에 관한 것으로서, 특히 음성합성기의 문서해석기에서 사용되는 형태소 해석기 및 그 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to speech synthesizers, and more particularly, to a morpheme analyzer and a method used in a document parser of a speech synthesizer.

음성합성기의 문서해석기는 입력된 문서로부터 문장을 추출하여, 그 문장에 대한 형태소 분석 및 구문해석을 통해 구문트리와 발음 정보를 생성하는 일을 한다. 문서해석기에서 생성된 구문트리와 발음 정보는 운율처리부에 입력되어 문장의 운율생성과 합성단위 선택에 영향을 준다.The document parser of the speech synthesizer extracts a sentence from the input document, and generates a syntax tree and pronunciation information through morphological analysis and syntax analysis of the sentence. The syntax tree and pronunciation information generated by the document interpreter are input to the rhyme processing unit to influence the rhythm generation of the sentence and the selection of the composition unit.

영어에 대한 품사 태깅 모델을 제시한 처치(Church)의 대한민국 특허출원번호 89-1364 ‘품사 결정과 이용방법’은 교착어인 한국어에는 적절하지 않고, 통계정보만을 이용하기 때문에 실세계 언어 현상을 충분히 반영하지 못해 품사 태깅의 정확도가 떨어지는 단점이 있다.Church's Korean Patent Application No. 89-1364 'Part-of-Speech Decision and Usage Method', which presents a part-of-speech tagging model for English, is not appropriate for the Korean language, which is a deadlock, and does not fully reflect real-world language phenomena because only statistical information is used. There is a drawback that the accuracy of part-of-speech tagging is poor.

이러한 문제를 해결하기 위해 통계 기반 접근 방법에 추가적으로 규칙 접근 방법을 사용하는 방법이 제안되었다. 임희석의 ‘언어지식과 통계정보를 이용한 한국어 품사 태깅 모델’에서 사용되는 기술은 통계정보를 이용하기 전에 긍정, 부정 언어지식을 이용하여 모호성을 해소하거나 감소시키는 방법을 취하고 있다. 여기서, 모호성이란 하나의 어절에 대해 여러 개의 형태소 해석 결과가 존재하는 것을 의미한다. 언어지식으로 해결되지 않은 어절에 대해서는 통계기반 품사 태깅 결과로 품사를 할당한다. 마지막으로 수정지식을 이용하여 품사태깅의 결과를 수정한다. 이 기술에서 부정지식은 가능한 형태소 해석의 수를 줄이는 역할을 하지만, 긍정 지식은 하나의 품사 태깅 결과를 생성하는 것으로 정확도가 상당히 높은 규칙만이 이용된다. 따라서 ‘품사 A의 어휘 A'는 품사 B의 어휘 B'와 연결될 가능성이 높다’와 같은 규칙은 사용할 수 없다는 문제점이 있다. 또한 이 방법에서 사용되는 지식은 대용량의 코퍼스에서 추출되었을 때만 의미가 있어, 소용량의 코퍼스에서 추출된 지식은 적용되기 어려운 문제점이 있다.In order to solve this problem, a method of using a rule approach in addition to a statistical approach has been proposed. The technique used in Lim Hee-seok's “Korean part-of-speech tagging model using linguistic knowledge and statistical information” uses a method of resolving or reducing ambiguity using positive and negative linguistic knowledge before using statistical information. Here, ambiguity means that there are several morphological results of a word. For words that are not resolved by linguistic knowledge, parts of speech are assigned as the result of statistical part-of-speech tagging. Finally, the correction knowledge is used to correct the result of the emergency. In this technique, negation knowledge serves to reduce the number of possible morphological interpretations, but affirmative knowledge generates only part-of-speech tagging results, and only highly accurate rules are used. Therefore, there is a problem that a rule such as' the vocabulary A of part-of-speech A is likely to be linked to the vocabulary B 'of the part-of-speech B' cannot be used. In addition, since the knowledge used in this method is meaningful only when extracted from a large amount of corpus, the knowledge extracted from a small amount of corpus is difficult to apply.

본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 문서해석기가 형태소 분석 및 품사 태깅을 통해 올바른 발음 정보를 생성할 수 있도록 하는 형태소 해석방법, 형태소 해석기 및 형태소 해석 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체를 제공함을 그 목적으로 한다.The present invention was created to solve the above problems, and can be read by a computer that records a morpheme analysis method, a morpheme interpreter, and a morpheme analysis program to enable a document interpreter to generate correct pronunciation information through morpheme analysis and part-of-speech tagging. Its purpose is to provide a record carrier.

도 1은 본 발명에 의한 형태소 해석기의 전체 구성을 도시한 블록도이다.1 is a block diagram showing the overall configuration of a morpheme analyzer according to the present invention.

도 2는 도 1의 문서 전처리부의 상세 구성을 도시한 블록도이다.FIG. 2 is a block diagram illustrating a detailed configuration of the document preprocessor of FIG. 1.

도 3은 도 1의 형태소 해석부의 상세 구성을 도시한 블록도이다.3 is a block diagram showing a detailed configuration of a morpheme analysis unit in FIG. 1.

도 4는 본 발명에 의한 형태소 해석을 위한 문서 전처리과정을 도시한 흐름도이다.4 is a flowchart illustrating a document preprocessing process for morpheme analysis according to the present invention.

도 5는 도 4의 특별 패턴 처리 단계를 상세히 도시한 흐름도이다.FIG. 5 is a flowchart showing the detailed pattern processing step of FIG. 4 in detail.

도 6은 본 발명에 의한 형태소 해석과정을 도시한 흐름도이다.6 is a flowchart illustrating a morpheme analysis process according to the present invention.

이하에서 첨부된 도면을 참조하여, 본 발명의 구성 및 동작을 상세히 설명한다.Hereinafter, with reference to the accompanying drawings, the configuration and operation of the present invention will be described in detail.

도 1에 의하면, 본 발명에 의한 한국어 음성합성기의 문서해석기에서 사용되는 형태소 해석기는 문서 전처리부(10), 형태소 해석부(12)를 포함하여 구성된다.1, the morpheme analyzer used in the document interpreter of the Korean speech synthesizer according to the present invention includes a document preprocessor 10 and a morpheme analyzer 12.

도 2에 의하면, 본 발명에 의한 형태소 해석기에서 문서 전처리부(10)는 문장 추출부(20), 사용자 사전 적용부(24) 및 특별 패턴 처리부(26)를 포함하여 구성된다. 문장 추출부(20)는 주어진 문서를 입력받아 토큰 리스트 형태로 문장을 추출한다. 사용자 사전 적용부(24)는 미리 준비된 사용자 사전 데이터베이스(22)에 저장된 단어열이 토큰 리스트 형태의 문장 내에 포함되어 있는 경우 그 단어열에 대응한 대치 문자열로 바꾸어 준다. 특별 패턴 처리부(26)는 추출된 문장의 종류를 결정하고, 문장 내에서 미리 정의된 유형의 특별 패턴을 추출하여 그에 맞는 패턴의 종류를 결정하고, 자연스런 끊어읽기를 위하여 공백의 위치를 수정해 준다. 문서 전처리부(10)에서 추출된 토큰 리스트 형태의 문장을 형태소 해석부(12)로 전달된다.According to FIG. 2, in the morpheme analyzer according to the present invention, the document preprocessor 10 includes a sentence extractor 20, a user dictionary application unit 24, and a special pattern processor 26. The sentence extraction unit 20 receives a given document and extracts the sentence in the form of a token list. The user dictionary application unit 24 converts the word string stored in the user dictionary database 22 prepared in advance into a substitution string corresponding to the word string when the word string is included in the sentence in the form of a token list. The special pattern processing unit 26 determines the type of the extracted sentence, extracts a special pattern of a predefined type in the sentence, determines the type of the pattern corresponding thereto, and corrects the position of the blank for natural break reading. . The sentence in the form of a token list extracted by the document preprocessor 10 is transferred to the morpheme interpreter 12.

도 3에 의하면, 본 발명에 의한 형태소 해석기에서 형태소 해석부(12)는 형태소 조합 생성부(30), 후보리스트 생성부(32), 형태소 해석리스트 생성부(34) 및 형태소 오류 수정부(36)를 포함하여 구성된다.According to FIG. 3, in the morpheme analyzer according to the present invention, the morpheme analysis unit 12 includes the morpheme combination generation unit 30, the candidate list generation unit 32, the morpheme analysis list generation unit 34, and the morpheme error correction unit 36. It is configured to include).

형태소 조합 생성부(30)는 문서 전처리부(10)로부터 특별 패턴이 처리된 토큰 리스트 형태의 문장을 입력받아 형태소 사전을 이용하여 토큰별로 가능한 모든 형태소의 조합들을 생성한다. 후보 형태소 리스트 생성부(32)는 가능한 모든 형태소의 조합들에서 최장일치방법에 의해 좌우 접속 정보를 이용하여 어절별로 후보 형태소 리스트들을 추출한다. 형태소 해석 리스트 생성부(34)는 어절별로 상기 후보 형태소 리스트들 중에서 그 문맥 확률, 어휘 확률 및 형태소 해석이 올바른 결과를 도출할 확률에 따라 형태소 및 품사의 연결에 곱하는 가중치인 연결 가중치를 곱한 값이 최고가 되는 후보 형태소 리스트를 최종적인 형태소 해석 리스트로 선택한다. 형태소 오류 수정부(36)는 형태소 해석 수정 지식을 이용하여 최종적인 형태소 해석 리스트에서 발생가능한 오류를 수정한다.The morpheme combination generator 30 receives a sentence in the form of a token list processed with a special pattern from the document preprocessor 10 and generates all possible morpheme combinations for each token using a morpheme dictionary. The candidate morpheme list generator 32 extracts candidate morpheme lists for each word using left and right connection information by the longest matching method among all possible morpheme combinations. The morpheme analysis list generator 34 multiplies the link weights, which are weights multiplied by the concatenation of the morphemes and the parts of speech, according to the words, the context probability, the lexical probability, and the probability that the morpheme analysis yields a correct result. The best candidate morphological list is selected as the final morphological interpretation list. The morpheme error corrector 36 corrects errors that may occur in the final morpheme interpretation list using knowledge of morphological analysis correction.

이하에서, 본 발명의 동작 과정을 상세히 설명한다.Hereinafter, the operation process of the present invention will be described in detail.

본 발명이 제안하는 문서전처리 과정은 도 4에 도시된 바와 같이 문장 추출 단계(400 단계), 사용자 사전 적용 단계(410 단계), 특별 패턴 처리 단계(420 단계)로 구성된다.As shown in FIG. 4, the document preprocessing process proposed by the present invention includes a sentence extraction step (400), a user dictionary application step (410), and a special pattern processing step (420).

먼저, 선출원인 대한민국 특허출원번호 97-24231(문맥 정보 및 지역적 문서 형태를 이용한 문장 추출)의 방법을 사용하여 입력된 문서로부터 문장을 추출하고, 추출된 문장을 공백의 위치와 단어를 구성하는 문자의 종류에 따라 토큰들로 분리하여 토큰 리스트를 구성한다(400 단계). 여기서 토큰이라 함은 하나의 어절을 구성하는 문자들을 그 종류별로 나눈 것이다. 본 발명에서 구분하는 토큰의 종류는 그 토큰을 구성하는 문자의 종류에 따라 한글, 한자, 기호, 숫자 및 외국어로 분류된다.First, a sentence is extracted from an input document by using the method of the prior application, Korean Patent Application No. 97-24231 (context extraction using contextual information and regional document form), and the extracted sentence is a character constituting a blank position and a word. Tokens are divided into tokens according to the type of the token list (step 400). Here, the token is divided by the type of characters that constitute a word. Types of tokens classified in the present invention are classified into Korean, Chinese, symbols, numbers, and foreign languages according to the types of characters constituting the token.

사용자 사전 데이터베이스(22)에 등록된 문자열이 토큰 리스트 형태의 문장 내에 있는 경우, 그 문자열을 사용자 사전에 있는 대치 문자열로 바꾼다. 사용자 사전 데이터베이스(22)의 구성을 예시하면 다음과 같다.When the string registered in the user dictionary database 22 is in a sentence in the form of a token list, the string is replaced with the replacement string in the user dictionary. An example of the configuration of the user dictionary database 22 is as follows.

Co. CompanyCo. Company

H/W hardwareH / W hardware

(월) 월요일Monday

미.일 미·일Mi-Sun Mi-Sun

… …… …

사용자 사전 데이터베이스(22)의 첫번째 항목에 있는 원시 문자열이 토큰 리스트 형태의 문장 내에 나타나면, 그 문자열을 두번째 항목에 나타나는 목적 문자열로 바꾼다. 즉, 토큰 리스트 형태의 문장 내에 ‘(월)’이라는 문자열이 나타나면, ‘(월)’에 해당하는 토큰을 삭제하고, 그 위치에 ‘월요일’에 해당하는 토큰을 삽입한다. 따라서, 음성합성기는 토큰 리스트 형태의 문장에 ‘(월)’이라는 문자열이 나타나면 ‘월요일’이라는 음성을 합성하게 된다. 사용자 사전 데이터베이스를 이용하여 구두점의 잘못된 사용도 정정할 수도 있다. 토큰 리스트 형태의 문장 내에 ‘미.일’이 있으면, ‘.’에 의해 문장분리를 하지 않고 ‘미·일’로 바꾸어 처리하게 된다.If the raw string in the first entry of the user dictionary database 22 appears in a token list form sentence, replace that string with the destination string appearing in the second entry. That is, when the string '(month)' appears in the token list form sentence, the token corresponding to '(month)' is deleted and the token corresponding to 'Monday' is inserted at the position. Therefore, the voice synthesizer synthesizes a voice called 'Monday' when the string '(month)' appears in a sentence in the form of a token list. You can also use the user dictionary database to correct misuse of punctuation. If there is a ‘미. 일’ in a sentence in the form of a token list, the sentence is replaced with ‘미 · 일’ without ‘.’.

도 4의 특별 패턴 처리 단계(420 단계)의 자세한 과정은 도 5에 도시되어 있다. 사용자 사전이 적용된 토큰 리스트 형태의 문장에 대해 문장의 종류를 결정하고(500 단계), 미리 정의된 유형의 특별 패턴을 위치를 추정하여(510 단계), 그에 맞는 패턴의 종류를 결정하고, 결정된 패턴의 종류에 따라 각 토큰이 구성하게 될 어절의 종류를 결정하고, 공백의 위치를 수정한다(520 단계 내지 540 단계).A detailed process of the special pattern processing step 420 of FIG. 4 is illustrated in FIG. 5. The sentence type is determined for the sentence in the form of a token list to which the user dictionary is applied (step 500), the position of the special pattern of the predefined type is estimated (step 510), and the type of the pattern is determined accordingly. According to the type of word, the type of word that each token is to be configured is determined, and the position of the blank is corrected (steps 520 to 540).

본 발명에서 구분하는 문장의 종류는 일반 문장, 제목 문장, 나열식 문장, 영어 문장 및 이름 문장이다. 제목 문장은 문서의 제목에 해당하는 문장으로 문장의 앞뒤 형태에 의해 결정된다. 나열식 문장은 ‘가 나 다 라 마 바 사’와 같이 비슷한 종류의 단어들이 나열된 문장이다. 영어 문장은 영어로 이루어진 문장을 말하며, 이름 문장은 한 문장을 구성하는 한국인 이름을 말한다. 이름 문장은 소설, 수필과 같은 글에서 흔히 나타나는 문장이다. 이러한 문장의 종류는 형태소 해석 방법과 발음 생성에 영향을 준다. 영어 문장인 경우는 구두점이나 기호, 숫자도 영어로 생성해야 하며, 이름 문장의 경우는 이름의 각 음절 간에 자음동화가 일어나지 않도록 해야 한다. 나열식 문장은 한 단어씩 또박 또박 읽어야 한다. 이와 같이 문장의 종류가 발음 생성에 영향을 주게 된다. 문장의 종류에 따른 형태소 해석 방법이 어떻게 달라지는가는 도 6에서 설명하기로 한다.Types of sentences distinguished by the present invention are general sentences, title sentences, enumerated sentences, English sentences, and name sentences. The title sentence is a sentence corresponding to the title of the document and is determined by the form of the sentence before and after. An enumerated sentence is a sentence in which similar kinds of words are listed, such as '가나다 라마 바사'. An English sentence refers to a sentence composed of English, and a name sentence refers to a Korean name constituting a sentence. Name sentences are common sentences in texts such as novels and essays. This kind of sentence influences the method of morpheme interpretation and pronunciation. In the case of English sentences, punctuation, symbols, and numbers should be generated in English, and in case of name sentences, consonant stories should not occur between syllables of names. The enumerated sentences should be read one word at a time. In this way, the type of sentence affects the pronunciation generation. How the morpheme interpretation method differs according to the type of sentence will be described with reference to FIG. 6.

문장의 종류가 결정되면 문장 내에서 미리 정의된 유형의 특별 패턴을 추출한다(510 단계 내지 540 단계). 본 발명에서 추출하는 특별 패턴은 수식, 전자우편주소, URL, 파일이름, 반복패턴 등이다. 이러한 특별 패턴들은 주로 영어/숫자/기호로 이루어진 것이다. 따라서 토큰 리스트 형태의 문장 중에서 공백없이 영어/숫자/기호 토큰 노드가 계속되는 경우, 특별 패턴일 가능성이 있는 것으로 본다(510 단계).When the type of sentence is determined, a special pattern of a predefined type is extracted in the sentence (steps 510 to 540). The special pattern extracted in the present invention is a formula, an email address, a URL, a file name, a repeating pattern, and the like. These special patterns are mainly English / numeric / symbols. Therefore, if the English / numeric / symbol token node continues without a space in the token list form sentence, it is considered that there is a possibility of a special pattern (step 510).

특별 패턴일 가능성이 있는 경우에는 먼저 수식 패턴인지를 판단하여 그에 대한 처리를 한다(520 단계). 수식패턴은 ‘3 * (4+3) = 21’과 같이 숫자와 수식 기호로 이루어진 패턴으로, 수식 패턴으로 판정된 토큰 노드들에 대해서는 어절 종류를 ‘수식’으로 하고, 수식 기호와 숫자들 사이에 공백을 삽입하여 수식에 맞는 발음과 자연스런 끊어 읽기가 생성되도록 한다.If there is a possibility that the pattern is a special pattern, it is first determined whether the pattern is a mathematical pattern (step 520). The formula pattern is a pattern consisting of numbers and mathematical symbols such as '3 * (4 + 3) = 21'. For the token nodes determined as the mathematical pattern, the word type is 'formula', and the formula symbol and the numbers Insert spaces in the text to produce pronunciation and natural break readings.

수식 패턴이 아닌 경우에는 전자우편주소, URL(Uniform Resource Locator), 파일이름인지를 판단하여 처리한다(530 단계). 전자우편주소는 ‘uliphin@sait.samsung.co.kr’과 같이 사용자 식별자(uliphin)와 ‘@’기호가 나타나고, 그 뒤에 도메인 네임(sait.samsung.co.kr)이 나타난다. 이 경우에는 특정 기호가 나타나는 곳에서 공백을 삽입하고, 어절 종류는 ‘전자우편주소’로 하여 그 패턴에 나타나는 기호에 대해 적절한 발음을 생성하도록 한다. URL은 ‘http://www.samsung.co.kr’과 같이 프로토콜(http)과 기호 ‘://’가 나타나고, 그 뒤에 사이트의 위치(www.samsung.co.kr)가 나타난다. URL의 경우도 전자우편주소와 기호읽는 방법이 같으므로, 어절 종류를 ‘전자우편주소’로 하고 특정 기호마다 공백을 삽입한다. 파일이름은 ‘c:\config.sys’와 같이 디렉토리 이름(c)과 기호 ‘:\’가 나타나고, 그 뒤로 파일이름(config)과 기호‘.’이 나타나고, 확장자(sys)가 나타나는 경우이다. 이때, 디렉토리 이름은 생략될 수도 있다. 이 경우도 전자우편주소와 기호읽는 방법이 같으므로, 패턴의 종류를 ‘전자우편주소’로 하고, 특정 기호 뒤에 공백을 삽입한다.If it is not a mathematical pattern, it is determined whether the e-mail address, a Uniform Resource Locator (URL), or a file name is processed (step 530). The email address is followed by the user identifier (uliphin) and the "@" symbol, such as "uliphin@sait.samsung.co.kr," followed by the domain name (sait.samsung.co.kr). In this case, insert a space where the specific symbol appears, and set the word type to 'e-mail address' to generate proper pronunciation for the symbol that appears in the pattern. For the URL, the protocol (http) and the symbol ': //' appear, such as 'http://www.samsung.co.kr,' followed by the site's location (www.samsung.co.kr). In the case of URLs, the e-mail address and the symbol reading method are the same, so the word type is 'e-mail address' and a space is inserted for each symbol. The file name is a directory name (c) followed by the symbol ': \', followed by the file name (config) and the symbol '.' Followed by an extension (sys), such as 'c: \ config.sys'. . In this case, the directory name may be omitted. In this case, the email address and the symbol reading method are the same, so the pattern type is 'e-mail address', and a space is inserted after the specific symbol.

전자우편주소/URL/파일이름 패턴이 아닌 경우에는, 같은 유형의 문자열이 공백없이 반복되는 패턴인지 여부를 조사하여, 반복되는 패턴이 있으면 반복되는 패턴 사이에 공백을 삽입하여 자연스런 끊어읽기를 생성할 수 있도록 한다(540 단계).If it is not an email address / URL / filename pattern, it checks whether the same type of string is a repeating pattern without spaces, and if there is a repeating pattern, inserts a space between repeated patterns to create a natural break. (Step 540).

특별 패턴일 가능성이 있는 패턴이 520 단계 내지 540단계에서 처리되지 않는 경우, 의미가 없는 패턴으로 판단하여 그 패턴에 나타나는 숫자와 기호를 한 문자씩 읽어줄 수 있도록 어절종류를 ‘한 글자씩 읽는 패턴’으로 한다. 예를 들면 ‘344-06-087488’과 같은 패턴은 각각의 숫자를 한 글자씩 읽어 주어야 하는 패턴이다.If a pattern that is likely to be a special pattern is not processed in steps 520 to 540, a word that reads the word type “letter by letter” is read so that it is judged as a meaningless pattern and the numbers and symbols appearing in the pattern can be read one by one. ' For example, a pattern such as '344-06-087488' is a pattern that requires reading each number one letter.

문서 전처리부(10)에서 특별 패턴 처리 단계를 거친 문장의 토큰 리스트는 도 1에 도시된 바와 같이 형태소 해석부(12)로 전달된다. 본 발명에서의 형태소해석이란 통상적인 의미의 형태소 해석과 품사태깅을 통칭하는 말이다. 형태소 해석부(12)의 자세한 동작 과정은 도 6에 도시된다.The token list of sentences that have undergone a special pattern processing step in the document preprocessor 10 is transferred to the morpheme interpreter 12 as shown in FIG. 1. Morphological analysis in the present invention is a general term for morphological analysis and avalanche logging. The detailed operation of the morpheme analysis unit 12 is shown in FIG. 6.

본 발명에서는 입력된 토큰 리스트에 의해 표시된 문장의 종류에 따라 형태소 해석 방법이 달라진다(600 단계). 문장의 종류가 이름 문장이나 나열식 문장과 같이 특별 문장인 경우에는 미리 정의된 정보에 의해 형태소 해석을 한다(680 단계). 예를 들어, 이름 문장인 경우에는 문장 자체가 한 사람의 이름으로 구성되어 있으므로 형태소 품사가 고유명사가 된다.In the present invention, the method of morpheme interpretation varies according to the type of sentence indicated by the input token list (step 600). When the type of sentence is a special sentence such as a name sentence or an enumerated sentence, the morpheme analysis is performed based on predefined information (step 680). For example, in the case of a name sentence, since the sentence itself consists of one person's name, the morpheme part of speech becomes a proper noun.

제목/일반/영어 문장에 대해서는 문장을 구성하는 토큰의 종류에 따라 그 토큰의 형태소 해석 방법이 달라진다(610 단계). 숫자, 기호, 외국어 토큰에 대해서는 단일 후보 형태소 리스트를 생성한다(640 단계). 숫자와 외국어 토큰의 형태소 품사는 각각 숫자와 외국어가 되며, 기호 토큰에는 그 유형에 따라 미리 정의된 형태소 품사가 할당된다.For the title / general / English sentence, the method of morphological interpretation of the token varies according to the type of token constituting the sentence (step 610). In operation 640, a single candidate stem list is generated for numbers, symbols, and foreign language tokens. Stemmed parts of numbers and foreign language tokens become numbers and foreign languages, respectively, and symbol tokens are assigned predefined stem parts according to their types.

한글 및 한자 토큰에 대해서는 형태소 사전 데이터베이스(625)를 이용하여 가능한 모든 형태소 조합을 만든다(620 단계). 본 발명에서는 생성되는 형태소 노드의 수를 줄이기 위해, 가능한 형태소 품사들 중에서 앞/뒤 문맥에 의해서만 결정될 수 있는 형태소 품사들은 하나로 통합하여 하나의 형태소 노드로 나타냄으로써 생성되는 형태소 노드의 수를 줄인다.For the Hangul and Hanja tokens, all possible stemming combinations are made using the stemming dictionary database 625 (step 620). In the present invention, in order to reduce the number of morpheme nodes generated, the morpheme parts of speech which can be determined only by the front / back context among the possible morpheme parts of speech are merged into one to reduce the number of morpheme nodes generated.

보조적 연결어미와 대등적/종속적 연결어미의 경우는 확률에 의해 결정되기보다는 뒤에 나오는 형태소의 품사에 따라 결정되므로, 하나의 노드로 통합한다. 이들 두 개의 품사들 중 대표성이 있는 품사를 그 형태소의 품사로 취하고, 상세품사를 이용하여 통합된 품사를 표현한다. 예를 들어,‘하고 있다’의 ‘-고’는 대등적 연결어미와 보조적 연결어미의 품사를 갖는다. ‘-고’의 품사는 뒤에 오는 형태소의 품사가 연결가능한 보조 용언인 경우에는 보조적 연결어미가 되지만, 그 이외의 것인 경우에는 대등적 연결어미가 된다. 결국, 형태소의 품사가 대등적 연결어미인지 또는 보조적 연결어미인지 여부는 앞뒤 문맥에 의해 결정되는 것이지 확률적인 것은 아니다. 따라서, 이들 두 품사들을 통합하여 하나의 형태소로 만들어 형태소 리스트를 생성하고, 형태소 해석의 마지막 단계인 규칙을 이용한 형태소 해석 결과 수정 단계(670 단계)에서 통합된 품사를 하나 선택한다.In the case of ancillary linkages and equivalent / slave linkings, it is determined by the parts of the morphemes that follow, rather than by probability, so it is integrated into one node. Of these two parts-of-speech, the part-of-speech that is representative is taken as the part of speech of the morpheme, and the detail part of speech is used to express the integrated part-of-speech. For example, the word ‘-고’ in ‘하는 하다’ has parts of speech that are both parallel and auxiliary. A part-of-speech of '-고' is an auxiliary linking end when a part of the following morpheme is a linkable verb, but otherwise, it is an equivalent linking end. After all, whether the parts of morphemes are equivalent linkages or auxiliary linkings is determined by the context of the front and back, and not stochastic. Accordingly, the two parts-of-speech are merged into one morpheme to generate a morpheme list, and the integrated part-of-speech is selected in the step 670 of modifying the morpheme analysis result using a rule, which is the final step of morpheme analysis.

620 단계에서 생성된 형태소 조합으로부터 여러 개의 후보 형태소 리스트를 추출한다(630 단계). 이는 실시간 처리를 위하여 모든 가능한 경우에 대해 확률을 계산하는 것을 막기 위한 것이다. 본 발명에서는, 최장일치방법에 의해 후보 형태소 리스트를 생성하는 것이 바람직하다. 이때, 확장된 좌우 접속 정보 데이터베이스(635)가 사용되며, 후보 형태소 리스트 생성시 비슷한 유형의 리스트들을 하나로 통합하여 처리한다.In operation 620, a plurality of candidate morpheme lists are extracted from the morpheme combination generated in operation 620. This is to avoid calculating the probabilities for all possible cases for real time processing. In the present invention, it is preferable to generate a candidate morpheme list by the longest matching method. At this time, the extended left and right access information database 635 is used, and when generating candidate morpheme lists, lists of similar types are combined and processed.

기존의 좌우 접속 정보는 형태소 품사에만 관련된 것이지만, 본 발명에서 사용되는 확장된 좌우 접속 정보는 형태소 품사간 연결 가능성에 관한 정보 외에 어휘 정보도 포함되어 있다. 어휘 정보에는 일반적으로는 연결가능하지 않은 품사이지만 특정 어휘에 대해서는 연결 가능한 경우에 대한 정보가 주로 포함된다. 예를 들어, 동사화접미사는 일반적으로는 명사 뒤에만 온다. 따라서 기존의 좌우 접속정보에는 <명사 + 동사화접미사> 라는 유형의 접속정보가 있게 된다. 그러나 몇몇 동사화 접미사는 부사나 어미 뒤에 오기도 한다. ‘뜨리다/트리다’와 같은 동사화 접미사는 연결어미 ‘아/어’뒤에 올 수 있으며, ‘하다/거리다’와 같은 동사화 접미사는 부사 뒤에도 올 수 있다. 본 발명에서 제안하는 확장된 좌우접속정보에서는 <아/어*연결어미 + 뜨리다/트리다*동사화접미사>, <부사 + 하다/거리다*동사화접미사>와 같은 어휘 정보를 포함하게 된다.Existing left and right connection information is related only to the morpheme parts of speech, but the extended left and right connection information used in the present invention includes lexical information in addition to the information on the connection possibility between the morpheme parts of speech. Vocabulary information is typically part of speech that is not connectable, but for a particular vocabulary, information is usually included. For example, verb verb suffixes generally follow only nouns. Therefore, the existing left and right access information has a type of access information called <noun + verb suffix>. However, some verbalization suffixes may follow adverbs or endings. Verbization suffixes such as stri / trida can follow the linking ‘아 / 어’ and verbs suffixes such as ‘다다 / distance 다’ may follow an adverb. The extended left-right connection information proposed in the present invention includes lexical information such as <a/word* link + drop/trida* verb suffix> and <adverb + put / distance * verb suffix>.

본 발명에서는 하나의 명사가 <명사+명사화접미사>로 분리되어 있는 경우처럼 최종적으로 같은 형태소 해석 리스트를 생성하는 경우 및 명사가 여러 개의 명사로 분리되어 있는 경우처럼 의미적으로는 다른 리스트이지만 음성합성기의 끊어읽기와 발음 생성에 영향을 주지 않는 범위에서 통합가능한 경우에는 후보 형태소 리스트를 하나로 통합한다.In the present invention, a speech synthesizer is semantically different from the case in which one noun is finally generated as the same morphological interpretation list as in the case of <noun + noun suffix> and the noun is divided into several nouns. If possible, the candidate morphological lists are merged into one if they can be integrated without affecting the reading and pronunciation generation.

정보화 * nc.2 + 는 * jxc.0 ----- (1)Informatization * nc.2 + * jxc.0 ----- (1)

정보 * nc.0 + 화 * xn.0 + 는 * jxc.0 ----- (2)Info * nc.0 + sum * xn.0 + * jxc.0 ----- (2)

‘정보화는’에 해당하는 후보 형태소 리스트 중에서 (1)과 (2)의 경우를 보면 (1)번 리스트의 ‘정보화’라는 명사가 (2)번 리스트에서는 <정보*명사>와 <화*명사화접미사>로 분리되어 표현된다. 결국 (2)번 리스트는 명사 파생을 하고 나면 (1)번과 같은 리스트가 되므로 후보 형태소 리스트 생성시 (1)번 리스트만을 생성한다.In the case of (1) and (2) in the list of candidate morphemes corresponding to 'informatization', the noun 'informatization' in list (1) is shown in the (2) list of <information * noun> and <hwa * noun The suffixes> are separated. After all, list (2) becomes the same list as (1) after noun derivation, so only list (1) is created when creating candidate morpheme list.

정보 * nc.0 + 는 * jxc.0 ----- (3)Info * nc.0 + * jxc.0 ----- (3)

정 * nc.0 + 보 * nc.2 + 는 * jxc.0 ----- (4)* Nc.0 + bo * nc.2 + * jxc.0 ----- (4)

‘정보는’에 해당하는 후보 형태소 리스트 중에서 (3)과 (4)의 경우를 보명 (3)번 리스트의 ‘정보’가 (4)번 리스트에서 ‘정’과 ‘보’로 분리되어 표현된다. 의미상으로는 다른 리스트이지만 구조적으로 볼 경우에는 두 리스트 모두 <명사 + 조사>의 형태를 갖는 리스트로 끊어읽기에 영향을 주지 않으며 발음 생성시에도 같은 발음이 생성된다. 따라서, 두 리스트를 하나로 통합해도 음성합성기의 자연성과 명료성에 영향을 주지 않는다. 따라서, (3)번 리스트만을 후보 형태소 리스트로 생성한다.In the case of (3) and (4) among candidate morphological lists corresponding to 'information', 'information' in list (3) is expressed as 'jeong' and 'beam' in list (4) . Although the list is semantically different in terms of structure, both lists are in the form of <noun + survey>, which does not affect reading, and the same pronunciation is generated when the pronunciation is generated. Thus, integrating the two lists into one does not affect the naturalness and clarity of the speech synthesizer. Therefore, only list (3) is generated as a candidate stem list.

630 단계에서 생성된 후보 형태소 리스트들 중에서 가장 가능성이 높은 리스트를 최종 형태소 해석 리스트로 결정한다(650 단계). 본 발명에서는 최종 형태소 해석 리스트를 생성하기 위해 문맥 확률/어휘 확률/연결 가중치 데이터베이스(655)에서 그 후보 형태소 리스트에 대한 문맥 확률, 어휘 확률 및 연결 가중치를 인출한다. 인출된 문맥 확률, 어휘 확률 및 연결 가중치의 곱이 최고가 되는 후보 형태소 리스트가 최종 형태소 해석 리스트가 된다. 문맥확률에는 어절내 문맥확률과 어절간 문맥확률이 있다. 어절내 문맥확률은 동일한 어절 내의 이전의 두 개의 형태소 품사들과 현재 형태소 품사가 연결될 확률이고, 어절간 문맥확률은 이전 어절의 마지막 형태소 품사에서 현재 어절의 첫 형태소 품사로 천이할 확률이다. 어휘 확률은 주어진 현재 형태소 품사에서 현재 형태소를 갖을 확률이다. 연결 가중치란 형태소 해석이 올바른 결과를 낼 수 있도록 연결될 수 있는, 가능성이 높은 형태소 및 품사의 연결에 곱하는 가중치로서, 연결 강화 가중치와 연결 약화 가중치가 있다. 이 가중치는 연결 가중치 규칙에 의해 결정된다. 연결 가중치 규칙은 다음과 같은 형태로 구성된다.The most likely list of candidate morpheme lists generated in step 630 is determined as the final morpheme analysis list (step 650). In the present invention, to generate the final morphological analysis list, the context probability, the lexical probability, and the connection weight for the candidate morpheme list are extracted from the context probability / lexical probability / connection weight database 655. The final morphological analysis list is the candidate morphological list in which the product of the extracted context probabilities, lexical probabilities, and link weights is the best. Context Probability includes intra-word context probability and inter-word context probability. In-word context probability is the probability of linking two previous morpheme parts of speech with the current morpheme part-of-speech, and the inter-word context probability is the probability of transitioning from the last morpheme part of previous phrase to the first morpheme part of the current word. Vocabulary probabilities are the probability of having a current morpheme in a given current morpheme part of speech. Link weights are weights that multiply the linking of morphemes and parts of speech that are likely to be linked so that morphological analysis can produce the correct results, and there are link enhancement weights and link weakening weights. This weight is determined by the connection weight rule. The connection weight rule has the following form.

< (이전 형태소) * (이전 형태소품사) (연결형태) (현재 형태소) * (현재 형태소품사) => 가중치 ><(Old morpheme) * (old morpheme) (consolidated) (current morpheme) * (current morpheme) => Weight >

연결형태는 ‘+’일 경우는 어절내 형태소 연결을 의미하며, ‘/’일 경우에는 어절간 형태소 연결을 의미한다. 예를 들어, < ? * 부사격조사 / ? * 의존동사 => 10 >의 연결 가중치 규칙은 이전 어절의 마지막 형태소 품사가 부사격조사이고, 현재 형태소 즉 현재 어절의 첫 형태소 품사가 의존동사인 경우, 문맥확률에 가중치 10을 곱하여 이 형태소 리스트가 선택될 확률을 높이는 것이다. 연결 가중치는 일반적인 문맥확률이 품사에 대한 것만을 고려했을 때 생기는 문제점을 해결하여 줄 수 있으며, 코퍼스의 크기가 작아 문맥확률이 실제 언어현상과 다를 경우를 보정하여 줄 수 있다.'+' Means morphological links within words, and '/' means morphological links between words. For example, <? * Side fire investigation /? * The dependent weighting rule of dependent verb => 10 > is that if the last morpheme part of the previous word is a subtest, and the current morpheme, that is, the first morpheme part of the current word, is a dependent verb, the context probability is multiplied by a weight of 10 to select this morphological list. Increase your chances of becoming. The connection weight can solve the problem that occurs when the general context probability only considers the part of speech, and it can correct the case where the context probability differs from the actual language phenomenon due to the small size of the corpus.

일반/제목/영어 문장에 대하여, 610 단계 내지 650 단계는 토큰 리스트 형태의 문장에 포함된 모든 토근에 대하여 반복하여 수행된다(660 단계).For general / title / English sentences, steps 610 to 650 are repeatedly performed for all tokens included in the token list type sentence (step 660).

마지막으로, 형태소 해석 수정 지식(675)을 이용하여 650 단계에서 생성된 형태소 해석 결과를 수정한다(670 단계). 이는 통계정보만 이용했을 때 발생하는 오류를 수정하기 위한 과정이다. 형태소 해석 수정 지식(675)에는 자주 오류를 발생시키는 부분에 대한 지식이 포함되어 있다.Finally, the morpheme analysis result generated in step 650 is corrected using the morphological analysis correction knowledge 675 (step 670). This is a process for correcting errors that occur when only statistical information is used. Morphological analysis correction knowledge 675 includes knowledge about the parts that frequently cause errors.

한편, 상술한 본 발명의 실시예는 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능한다. 그리고, 컴퓨터에서 사용되는 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.Meanwhile, the above-described embodiments of the present invention can be written as a program that can be executed on a computer. And, it can be implemented in a general-purpose digital computer for operating the program using a medium used in the computer. The media may be stored such as magnetic storage media (e.g., ROM, floppy disk, hard disk, etc.), optical reading media (e.g., CD-ROM, DVD, etc.) and carrier waves (e.g., transmission over the Internet). Media.

상기 기록매체는 주어진 문서를 입력받아 토큰 리스트 형태로 문장을 추출하는 모듈; 사용자 사전 데이터베이스에서 인출된 원시 문자열이 상기 토큰 리스트 형태의 문장 내에 포함되어 있는 경우, 대응하는 목적 문자열을 사용자 사전 데이터베이스에서 인출하여 상기 토큰 리스트 형태의 문장 내의 상기 단어열을 대치시키는 모듈; 사용자 사전이 적용된 토근 리스트 형태의 문장의 종류를 결정하고, 그 문장 내에서 소정의 유형의 특별 패턴들을 추출하고, 특별 패턴의 유형에 따라 소정의 공백 위치를 수정하는 모듈; 및 특별 패턴이 처리된 토큰 리스트 형태의 문장을 구성하는 형태소들을 해석하고 품사 태깅을 하여 어절단위 형태소 해석 리스트들을 생성하는 모듈을 컴퓨터에서 실행할 수 있는 프로그램 코드로 저장한다.The recording medium is a module for receiving a given document to extract a sentence in the form of a token list; A module for retrieving a corresponding target string from the user dictionary database and replacing the word string in the sentence in the token list form when the raw string extracted from the user dictionary database is included in the sentence in the token list form; A module for determining a type of a sentence in the form of a token list to which a user dictionary is applied, extracting a predetermined type of special patterns in the sentence, and correcting a predetermined blank position according to the type of the special pattern; And a module for interpreting the morphemes constituting the sentence in the form of a token list processed with a special pattern, and performing a part-of-speech tagging to generate word-level morpheme interpretation lists as program code that can be executed on a computer.

그리고, 상기 어절단위 형태소 해석 리스트를 생성하는 모듈은 특별 패턴이 처리된 토큰 리스트를 구성하는 토큰별로 형태소 사전을 이용하여 가능한 모든 형태소의 조합들을 생성하는 모듈; 상기 가능한 모든 형태소의 조합들에서 좌우 접속 정보를 이용하여 어절별로 후보 형태소 리스트들을 추출하는 모듈; 어절별로 상기 후보 형태소 리스트들 중에서 그 문맥 확률, 어휘 확률 및 형태소 해석이 올바른 결과를 도출할 확률에 따라 형태소 및 품사의 연결에 곱하는 가중치인 연결 가중치를 곱한 값이 최고가 되는 후보 형태소 리스트를 최종적인 형태소 해석 리스트로 선택하는 모듈; 및 형태소 해석 수정 지식을 이용하여 최종적인 형태소 해석 리스트에서 발생가능한 오류를 수정하는 모듈을 실행하는 프로그램 코드를 포함한다.The module for generating a word stem morpheme interpretation list may include a module for generating all possible morpheme combinations using a morpheme dictionary for each token constituting a token list processed with a special pattern; A module for extracting candidate morphological lists for each word using left and right access information from all the possible morpheme combinations; From the candidate morpheme lists of words, the candidate morpheme list is obtained by multiplying the concatenation weight, which is the weight multiplied by the concatenation of morphemes and parts of speech, according to the probability that the context probability, the lexical probability, and the morpheme analysis yield the correct result. A module for selecting from the analysis list; And program code for executing a module to correct errors that may occur in the final morphological interpretation list using morphological analysis correction knowledge.

이상과 같은 본 발명을 구현하기 위한 기능적인 모듈들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 실시될 수 있다.Functional modules for implementing the present invention as described above can be easily implemented by programmers in the art to which the present invention belongs.

본 발명에 의하면, 첫째, 주어진 문장의 종류와 문장을 구성하는 각 어절의 종류를 결정하여 그에 맞는 발음을 생성할 수 있도록 하기 때문에 음성합성기의 자연성과 명료성을 높인다.According to the present invention, first, since the type of a given sentence and the type of each word constituting the sentence can be determined to generate a sound corresponding to the sentence, the naturalness and clarity of the speech synthesizer are increased.

둘째, 숫자/기호/영어가 공백없이 반복되는 특별 패턴에 대해 적절한 공백을 삽입하여 줌으로써 음성합성기가 자연스런 끊어읽기를 할 수 있도록 한다.Second, by inserting appropriate spaces for special patterns where numbers / symbols / English are repeated without spaces, the speech synthesizer can be naturally read.

셋째, 확장된 좌우 접속 정보를 사용하여 후보 형태소 리스트를 생성함으로써 올바른 형태소 해석 리스트가 후보 형태소 리스트들에 포함될 확률을 높였으며, 유사 품사와 유사 후보 형태소 리스트를 통합함으로써 후보 형태소 리스트를 최적화하여 형태소 해석 시간을 감소시킨다.Third, the candidate morpheme analysis list is increased by generating the candidate morpheme list using the extended left and right access information, and the candidate morpheme list is optimized by integrating the similar parts of speech and the candidate candidate morpheme list. Reduce time.

네째, 어휘 확률과 문맥 확률 외에 연결가중치 규칙을 사용하여 작은 양의 코퍼스를 사용하더라도 형태소 해석 정확률을 향상시킬 수 있다.Fourth, in addition to lexical probabilities and context probabilities, link weighting rules can be used to improve the accuracy of morphological analysis even if a small amount of corpus is used.

Claims (11)

음성합성기의 문서해석기에서 사용되는 형태소 해석기에 있어서,In the morpheme interpreter used in the text interpreter of the speech synthesizer, 주어진 문서를 입력받아 토큰 리스트 형태로 문장을 추출하는 문장 추출부; 다수의 원시 문자열들과 이에 대응한 다수의 목적 문자열들로 구성된 사용자 사전 데이터베이스를 구비하고, 상기 사용자 사전 데이터베이스에서 인출된 원시 문자열이 상기 토큰 리스트 형태의 문장 내에 포함되어 있는 경우, 대응하는 목적 문자열을 인출하여 상기 토큰 리스트 형태의 문장 내의 상기 단어열을 대치시키는 사용자 사전 적용부; 및 사용자 사전이 적용된 토근 리스트 형태의 문장의 종류를 결정하고, 그 문장 내에서 소정의 유형의 특별 패턴들을 추출하고, 특별 패턴의 유형에 따라 소정의 공백 위치를 수정하는 특별 패턴 처리부를 구비하는 문서 전처리부; 및A sentence extracting unit which receives a given document and extracts a sentence in the form of a token list; And a user dictionary database composed of a plurality of source strings and a plurality of object strings corresponding thereto, and when the source string extracted from the user dictionary database is included in the token list form sentence, A user dictionary application unit for retrieving and replacing the word string in a sentence of the token list form; And a special pattern processing unit that determines a type of a sentence in the form of a token list to which the user dictionary is applied, extracts a predetermined type of special patterns within the sentence, and corrects a predetermined blank position according to the type of the special pattern. Pretreatment unit; And 상기 문서 전처리부로부터 특별 패턴이 처리된 토큰 리스트 형태의 문장을 입력받아, 형태소를 해석하고 품사 태깅을 하여 어절단위 형태소 해석 리스트들을 생성하는 형태소 해석부를 포함함을 특징으로 하는 형태소 해석기.And a morpheme analysis unit configured to receive a sentence in the form of a token list processed with a special pattern from the document preprocessing unit, and interpret morphemes and tagging parts of speech to generate word-level morphological analysis lists. 제1항에 있어서, 상기 형태소 해석부는The method of claim 1, wherein the morpheme analysis unit 상기 문서 전처리부로부터 특별 패턴이 처리된 토큰 리스트 형태의 문장을 입력받아 형태소 사전을 이용하여 토큰별로 가능한 모든 형태소의 조합들을 생성하는 형태소 조합 생성부;A morpheme combination generation unit that receives a sentence in the form of a token list processed with a special pattern from the document preprocessor and generates all possible morpheme combinations for each token using a morpheme dictionary; 상기 가능한 모든 형태소의 조합들에서 최장일치방법에 의해 좌우 접속 정보를 이용하여 어절별로 후보 형태소 리스트들을 추출하는 후보 형태소 리스트 생성부;A candidate morpheme list generator for extracting candidate morpheme lists for each word using left and right access information by the longest matching method among all possible morpheme combinations; 어절별로 상기 후보 형태소 리스트들 중에서 그 문맥 확률, 어휘 확률 및 형태소 해석이 올바른 결과를 도출할 확률에 따라 형태소 및 품사의 연결에 곱하는 가중치인 연결 가중치를 곱한 값이 최고가 되는 후보 형태소 리스트를 최종적인 형태소 해석 리스트로 선택하는 형태소 해석 리스트 생성부; 및From the candidate morpheme lists of words, the candidate morpheme list is obtained by multiplying the concatenation weight, which is the weight multiplied by the concatenation of morphemes and parts of speech, according to the probability that the context probability, the lexical probability, and the morpheme analysis yield the correct result. A morpheme analysis list generation unit for selecting the analysis list; And 형태소 해석 수정 지식을 이용하여 최종적인 형태소 해석 리스트에서 발생가능한 오류를 수정하는 형태소 오류 수정부를 구비함을 특징으로 하는 형태소 해석기.A morphological analyzer comprising a morphological error correction unit for correcting errors that may occur in the final morphological analysis list by using morphological analysis correction knowledge. 제2항에 있어서, 상기 후보 형태소 리스트 생성부에서 사용하는 좌우 접속 정보는The method of claim 2, wherein the left and right connection information used in the candidate stem list generator is 형태소 품사간 연결가능성에 관한 정보 및 일반적으로는 연결 가능하지 않은 품사이지만 소정의 어휘에 대해서는 연결 가능한 품사에 관한 어휘 정보를 구비함을 특징으로 하는 형태소 해석기.A morpheme interpreter comprising information on linkability between morpheme parts of speech and lexical information about parts of speech that are generally non-connectable parts of speech but that can be linked to a predetermined vocabulary. 음성합성기의 문서해석기에서 사용되는 형태소 해석방법에 있어서,In the morpheme analysis method used in the text interpreter of the speech synthesizer, (a) 주어진 문서를 입력받아 토큰 리스트 형태로 문장을 추출하는 단계;(a) receiving a given document and extracting a sentence in the form of a token list; (b) 사용자 사전 데이터베이스에서 인출된 원시 문자열이 상기 토큰 리스트 형태의 문장 내에 포함되어 있는 경우, 대응하는 목적 문자열을 사용자 사전 데이터베이스에서 인출하여 상기 토큰 리스트 형태의 문장 내의 상기 단어열을 대치시키는 단계;(b) if the raw string extracted from the user dictionary database is included in the token list form sentence, fetching a corresponding object string from the user dictionary database to replace the word string in the sentence in the token list form; (c) 사용자 사전이 적용된 토근 리스트 형태의 문장의 종류를 결정하고, 그 문장 내에서 소정의 유형의 특별 패턴들을 추출하고, 특별 패턴의 유형에 따라 소정의 공백 위치를 수정하는 단계; 및(c) determining a kind of a sentence in the form of a token list to which the user dictionary is applied, extracting a predetermined type of special patterns in the sentence, and correcting a predetermined blank position according to the type of the special pattern; And (d) 특별 패턴이 처리된 토큰 리스트 형태의 문장을 구성하는 형태소들을 해석하고 품사 태깅을 하여 어절단위 형태소 해석 리스트들을 생성하는 단계를 포함함을 특징으로 하는 형태소 해석방법.and (d) interpreting the morphemes constituting the sentence in the form of a token list processed with the special pattern and tagging the parts of speech to generate word-word morpheme interpretation lists. 제4항에 있어서, 상기 (c) 단계에서 문장의 종류는The method of claim 4, wherein the type of sentence in step (c) 문서의 제목에 해당하는 제목 문장, 비슷한 종류의 단어들이 나열된 나열 문장, 영어로 이루어진 영어 문장, 한국인 이름으로 이루어진 이름 문장 및 그 이외의 문장인 일반 문장으로 구분됨을 특징으로 하는 형태소 해석방법.A morpheme interpretation method comprising a title sentence corresponding to a title of a document, an enumerated sentence listing similar kinds of words, an English sentence in English, a name sentence composed of Korean names, and a general sentence other than the above. 제4항에 있어서, 상기 (c) 단계에서 특별 패턴의 종류에는The method of claim 4, wherein in the step (c), 숫자와 수식 기호로 이루어진 수식 패턴, 전자우편주소, URL 또는 파일 이름으로 이루어진 문장으로 구성된 전자우편주소 패턴, 같은 유형의 문자열이 공백없이 반복되는 반복 패턴이 구비됨을 특징으로 하는 형태소 해석방법.A morphological analysis method comprising: a mathematical pattern consisting of numbers and mathematical symbols, an email address pattern consisting of an email address, a sentence consisting of a URL or a file name, and a repeating pattern in which a string of the same type is repeated without a space. 제4항에 있어서, 상기 (d) 단계는The method of claim 4, wherein step (d) (d1) 특별 패턴이 처리된 토큰 리스트를 구성하는 토큰별로 형태소 사전을 이용하여 가능한 모든 형태소의 조합들을 생성하는 단계;(d1) generating all possible morpheme combinations using the stemming dictionary for each token constituting the token list processed with the special pattern; (d2) 상기 가능한 모든 형태소의 조합들에서 좌우 접속 정보를 이용하여 어절별로 후보 형태소 리스트들을 추출하는 단계;(d2) extracting candidate morphological lists for each word using left and right access information in all possible morpheme combinations; (d3) 어절별로 상기 후보 형태소 리스트들 중에서 그 문맥 확률, 어휘 확률 및 형태소 해석이 올바른 결과를 도출할 확률에 따라 형태소 및 품사의 연결에 곱하는 가중치인 연결 가중치를 곱한 값이 최고가 되는 후보 형태소 리스트를 최종적인 형태소 해석 리스트로 선택하는 단계; 및(d3) a candidate morphological list of which the product of the concatenation weight, which is the weight multiplied by the concatenation of the morphemes and parts of speech, of the candidate morpheme lists among the candidate morpheme lists according to the phrases, is the highest. Selecting as the final morphological analysis list; And (d4) 형태소 해석 수정 지식을 이용하여 최종적인 형태소 해석 리스트에서 발생가능한 오류를 수정하는 단계를 구비함을 특징으로 하는 형태소 해석방법.and (d4) correcting errors that may occur in the final morphological analysis list using morphological analysis correction knowledge. 제7항에 있어서, 상기 (d2) 단계에서 사용하는 좌우 접속 정보는The method of claim 7, wherein the left and right connection information used in the step (d2) is 형태소 품사간 연결가능성에 관한 정보 및 일반적으로는 연결 가능하지 않은 품사이지만 소정의 어휘에 대해서는 연결 가능한 품사에 관한 어휘 정보를 구비함을 특징으로 하는 형태소 해석방법.A morpheme analysis method comprising information on linkability between morpheme parts of speech and lexical information about parts of speech that are generally unconnectable parts of speech but that can be linked to a predetermined vocabulary. 제7항에 있어서, 상기 특별 패턴이 처리된 토큰 리스트 형태의 문장이 이름 및 나열식 문장 중 하나인 경우에는 상기 (d1) 단계 내지 상기 (d4) 단계 대신 그 문장의 종류에 대응한 형태소 해석을 하여 어절단위 형태소 해석 리스트를 생성하는 것을 특징으로 하는 형태소 해석방법.8. The method of claim 7, wherein when the sentence in the form of a token list processed with the special pattern is one of a name and an enumerated sentence, the morphological analysis corresponding to the type of the sentence is performed instead of the steps (d1) to (d4). And generating a word-by-word morpheme analysis list. 음성합성기의 문서해석기에서 사용되는 형태소 해석프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체에 있어서,In a computer-readable recording medium recording a morphological analysis program used in a text interpreter of a speech synthesizer, (a) 주어진 문서를 입력받아 토큰 리스트 형태로 문장을 추출하는 모듈;(a) a module for receiving a given document and extracting a sentence in the form of a token list; (b) 사용자 사전 데이터베이스에서 인출된 원시 문자열이 상기 토큰 리스트 형태의 문장 내에 포함되어 있는 경우, 대응하는 목적 문자열을 사용자 사전 데이터베이스에서 인출하여 상기 토큰 리스트 형태의 문장 내의 상기 단어열을 대치시키는 모듈;(b) a module for retrieving a corresponding target string from the user dictionary database and replacing the word string in the sentence in the token list form when the raw string extracted from the user dictionary database is included in the sentence in the token list form; (c) 사용자 사전이 적용된 토근 리스트 형태의 문장의 종류를 결정하고, 그 문장 내에서 소정의 유형의 특별 패턴들을 추출하고, 특별 패턴의 유형에 따라 소정의 공백 위치를 수정하는 모듈; 및(c) a module for determining a type of a sentence in the form of a token list to which the user dictionary is applied, extracting a predetermined type of special patterns in the sentence, and correcting a predetermined blank position according to the type of the special pattern; And (d) 특별 패턴이 처리된 토큰 리스트 형태의 문장을 구성하는 형태소들을 해석하고 품사 태깅을 하여 어절단위 형태소 해석 리스트들을 생성하는 모듈을 포함함을 특징으로 하는 형태소 해석프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체.and (d) a module for interpreting the morphemes constituting the sentence in the form of a token list processed with a special pattern and tagging the parts of speech to generate word-level morphological interpretation lists. Record carrier. 제10항에 있어서, 상기 (d) 모듈은The method of claim 10, wherein the module (d) (d1) 특별 패턴이 처리된 토큰 리스트를 구성하는 토큰별로 형태소 사전을 이용하여 가능한 모든 형태소의 조합들을 생성하는 모듈;(d1) a module for generating all possible morpheme combinations using the morpheme dictionary for each token constituting the token list processed with the special pattern; (d2) 상기 가능한 모든 형태소의 조합들에서 좌우 접속 정보를 이용하여 어절별로 후보 형태소 리스트들을 추출하는 모듈;(d2) a module for extracting candidate morphological lists for each word using left and right access information in all possible morpheme combinations; (d3) 어절별로 상기 후보 형태소 리스트들 중에서 그 문맥 확률, 어휘 확률 및 형태소 해석이 올바른 결과를 도출할 확률에 따라 형태소 및 품사의 연결에 곱하는 가중치인 연결 가중치를 곱한 값이 최고가 되는 후보 형태소 리스트를 최종적인 형태소 해석 리스트로 선택하는 모듈; 및(d3) a candidate morpheme list having the highest product value obtained by multiplying a concatenation weight, which is a weight multiplied by a concatenation of morphemes and parts of speech, according to the probability that the context probability, the lexical probability, and the morpheme analysis yield a correct result. A module for selecting the final morphological analysis list; And (d4) 형태소 해석 수정 지식을 이용하여 최종적인 형태소 해석 리스트에서 발생가능한 오류를 수정하는 모듈을 구비함을 특징으로 하는 형태소 해석프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체.(d4) A computer-readable recording medium having recorded thereon a morphological analysis program, comprising a module for correcting errors that may occur in the final morphological analysis list using morphological analysis correction knowledge.
KR1019990041495A 1999-09-28 1999-09-28 Morphological analysis method and apparatus used in text-to-speech synthesizer KR100322743B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990041495A KR100322743B1 (en) 1999-09-28 1999-09-28 Morphological analysis method and apparatus used in text-to-speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990041495A KR100322743B1 (en) 1999-09-28 1999-09-28 Morphological analysis method and apparatus used in text-to-speech synthesizer

Publications (2)

Publication Number Publication Date
KR20010028946A true KR20010028946A (en) 2001-04-06
KR100322743B1 KR100322743B1 (en) 2002-02-07

Family

ID=19613018

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990041495A KR100322743B1 (en) 1999-09-28 1999-09-28 Morphological analysis method and apparatus used in text-to-speech synthesizer

Country Status (1)

Country Link
KR (1) KR100322743B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100784730B1 (en) * 2005-12-08 2007-12-12 한국전자통신연구원 Method and apparatus for statistical HMM part-of-speech tagging without tagged domain corpus
US7725408B2 (en) 2005-12-09 2010-05-25 Electronics And Telecommunications Research Institute Apparatus and method for constructing learning data

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101664258B1 (en) * 2015-06-22 2016-10-11 전자부품연구원 Text preprocessing method and preprocessing sytem performing the same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100784730B1 (en) * 2005-12-08 2007-12-12 한국전자통신연구원 Method and apparatus for statistical HMM part-of-speech tagging without tagged domain corpus
US7725408B2 (en) 2005-12-09 2010-05-25 Electronics And Telecommunications Research Institute Apparatus and method for constructing learning data

Also Published As

Publication number Publication date
KR100322743B1 (en) 2002-02-07

Similar Documents

Publication Publication Date Title
US20070255567A1 (en) System and method for generating a pronunciation dictionary
US20070179779A1 (en) Language information translating device and method
JP4319860B2 (en) Method and apparatus for developing a transfer dictionary for use in a transfer-based machine translation system
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
Springmann et al. LatMor: A Latin finite-state morphology encoding vowel quantity
Liyanapathirana et al. Sinspell: A comprehensive spelling checker for sinhala
KR100509917B1 (en) Apparatus and method for checking word by using word n-gram model
Onyenwe Developing methods and resources for automated processing of the african language igbo
de Silva et al. Singlish to sinhala transliteration using rule-based approach
Dolatian et al. A free/open-source morphological transducer for western armenian
Vasiu et al. Enhancing tokenization by embedding romanian language specific morphology
KR100322743B1 (en) Morphological analysis method and apparatus used in text-to-speech synthesizer
JP4476609B2 (en) Chinese analysis device, Chinese analysis method and Chinese analysis program
Lane et al. Interactive word completion for morphologically complex languages
KR100202292B1 (en) Text analyzer
KR100487716B1 (en) Method for machine translation using word-level statistical information and apparatus thereof
Al-Daoud et al. A framework to automate the parsing of Arabic language sentences.
KR20040018008A (en) Apparatus for tagging part of speech and method therefor
ASAHIAH et al. A survey of diacritic restoration in abjad and alphabet writing systems
L’haire FipsOrtho: A spell checker for learners of French
Nejja et al. Context's impact on the automatic spelling correction
Rozovskaya et al. Challenges in processing colloquial Arabic
Naserzade et al. CKMorph: a comprehensive morphological analyzer for Central Kurdish
Yamron et al. LINGSTAT: An interactive, machine-aided translation system
Kaalep et al. You can’t suggest that?!: Comparisons and improvements of speller error models

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20101230

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee