KR19990001034A - 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법 - Google Patents

문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법 Download PDF

Info

Publication number
KR19990001034A
KR19990001034A KR1019970024231A KR19970024231A KR19990001034A KR 19990001034 A KR19990001034 A KR 19990001034A KR 1019970024231 A KR1019970024231 A KR 1019970024231A KR 19970024231 A KR19970024231 A KR 19970024231A KR 19990001034 A KR19990001034 A KR 19990001034A
Authority
KR
South Korea
Prior art keywords
sentence
token
read
information
character
Prior art date
Application number
KR1019970024231A
Other languages
English (en)
Other versions
KR100434526B1 (ko
Inventor
이혜정
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019970024231A priority Critical patent/KR100434526B1/ko
Publication of KR19990001034A publication Critical patent/KR19990001034A/ko
Application granted granted Critical
Publication of KR100434526B1 publication Critical patent/KR100434526B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 문서 해석을 하는 전처리 단계로서 문서로부터 문장을 추출하는 방법에 관한 것으로, 특히 문맥 정보와 지역적 문서 형태를 고려하여 예비문장 추출과정과 실제문장 추출과정의 2단계 과정을 거쳐 문장을 추출함으로써, 구두점 정보만을 이용한 문장 추출의 문제점을 해결할 수 있도록, 지역적 문서 형태 정보를 사용하기 위하여 문서로부터 구두점 정보와 구두점의 문맥 정보에 근거한 예비 문장을 추출하면서 지역적 문서 형태에 대한 정보를 저장하는 예비문장 추출과정과 ; 상기 예비문장 추출과정에서 저장된 지역적 문서 형태에 대한 정보와 함께 문맥 정보를 사용하여 실제로 사용될 문장을 추출하는 실제문장 추출과정을 포함하여 이루어진 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법에 관한 것이다.

Description

문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법
본 발명은 문서 해석을 하는 전처리 단계로서 문서로부터 문장을 추출하는 방법에 관한 것으로, 특히 문맥 정보와 지역적 문서 형태를 고려하여 예비문장 추출과정과 실제문장 추출과정의 2단계 과정을 거쳐 문장을 추출함으로써, 구두점 정보만을 이용한 문장 추출의 문제점을 해결할 수 있도록 한 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법에 관한 것이다.
지금까지 한국어 문서에서의 문장 추출 방법에 대한 연구는 거의 전무하다고 볼 수 있다. 또한, 대부분의 방법이 구두점 정보만을 이용하고 있다. 즉, 문장의 끝을 나타내는 마침표(.), 물음표(?), 느낌표(!)와 같은 기호만을 고려하여 문장을 추출하였다.
그러나, 실제의 문서를 보면 구두점이 없는 문장이나, 구두점에서 끝나지 않는 문장이 종종 있다. 또한, 한 문장의 길이가 너무 길어서 두 개 이상의 문장으로 분리해야 하는 경우도 있다.
구두점이 없는 문장은 도 1 의 문장(1)에서 보듯이 제목이나 개조식의 글에서 많이 찾아 볼 수 있다.
문장(2)에서는 구두점이 있어도 문장의 끝이 아닌 예를 보여주고 있다. 직접 인용문이나 구두점이 문장의 끝을 나타내는 용도가 아닌 다른 의미로 사용될 경우가 여기에 해당된다.
마지막으로 문장의 길이가 너무 길어서 두 개 이상의 문장으로 분리해야 하는 경우는 도 1 의 문장(3)에서 그 예를 볼 수 있다.
상기 문장(3)에 나타난 문장 전체를 하나의 문장으로 간주한다면, 문장의 길이가 너무 길어져 문서 해석시 문장의 구조 추출이 어려워지고, 시스템을 구현하는데도 어려움이 생기게 된다. 따라서, 적당한 위치에서 문장을 분할할 필요가 있다.
종래의 문장 추출 방법에서는, 이러한 상황을 고려하지 않고 문장을 추출하므로, 잘못된 문장을 추출하여 문서 해석기의 입력으로 사용하게 된다. 따라서, 잘못된 결과를 출력하게 된다.
특히, 문장 단위로 문서를 읽어주는 음성 합성기에서는 문제가 더욱더 심각해진다. 또한, 긴 문장의 경우, 적당한 위치에서 문장을 분리함으로써 합성기가 자연스럽게 문서를 읽을 수 있도록 해야 한다.
이에 본 발명은 상기한 바와 같은 종래의 제 문제점을 해소시키기 위하여 창안된 것으로, 문맥 정보와 지역적 문서 형태를 고려하여 예비문장 추출과정과 실제문장 추출과정의 2단계 과정을 거쳐 문장을 추출함으로써, 구두점 정보만을 이용한 문장 추출의 문제점을 해결할 수 있도록 한, 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법을 제공하는데 그 목적이 있다.
도 1 은 종래 기술의 문제점을 설명하기 위한 예시도,
도 2 는 본 발명에 따른 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법의 전체 블록도,
도 3 은 도 2 의 예비문장 추출과정에 대한 세부 동작 순서도,
도 4 는 도 2 의 실제문장 추출과정에 대한 세부 동작 순서도,
도 5 는 본 발명에서 제안한 문장 추출 방법을 음성 합성기에 적용한 예시도이다.
* 도면의 주요 부분에 대한 부호의 설명*
10 : 예비문장 추출과정
20 : 실제문장 추출과정
상기한 바와 같은 목적을 달성하기 위한 본 발명은, 지역적 문서 형태 정보를 사용하기 위하여 문서로부터 구두점 정보와 구두점의 문맥 정보에 근거한 예비 문장을 추출하면서 지역적 문서 형태에 대한 정보를 저장하는 예비문장 추출과정과 ; 상기 예비문장 추출과정에서 저장된 지역적 문서 형태에 대한 정보와 함께 문맥 정보를 사용하여 실제로 사용될 문장을 추출하는 실제문장 추출과정을 포함하여 이루어짐을 특징으로 한다.
본 발명에서 제안하는 문장 추출 방법에서는, 기존의 구두점 정보만을 이용한 문장 추출의 문제점을 해결하기 위해, 문맥 정보와 지역적 문서 형태를 고려하여 문장을 추출한다.
여기서, 지역적 문서 형태란 문서의 일부분의 형태 즉, 한 라인을 구성하는 글자의 수, 시작 공백의 수, 라인의 시작 글자의 종류, 다음 라인에 글자가 있는가 등, 말 그대로 어떠한 언어 정보도 없이 단지 문서의 형태에 대한 정보를 의미한다.
또한, 지역적이란 말은 문서 전체가 아닌 문서의 일부분만을 고려한다는 의미를 포함하고 있다.
이하 본 발명의 목적에 따른 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법의 동작 원리를 상세히 설명하면 다음과 같다.
본 발명이 제안하는 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법은 도 2 에 도시한 바와 같이, 지역적 문서 형태 정보를 사용하기 위하여 문서로부터 구두점 정보와 구두점의 문맥 정보에 근거한 예비 문장을 추출하면서 지역적 문서 형태에 대한 정보를 저장하는 예비문장 추출과정(10)과 ; 상기 예비문장 추출과정에서 저장된 지역적 문서 형태에 대한 정보와 함께 문맥 정보를 사용하여 실제로 사용될 문장을 추출하는 실제문장 추출과정(20)의 2단계 과정을 포함하여 구성된다.
예비문장 추출과정(10)에서는 지역적 문서 형태에 대한 정보를 추출하여 저장하면서, 토큰 리스트의 형태로 예비 문장을 추출한다.
도 2 에 도시한 바와 같이, 예비문장 추출과정(10)에서 추출된 지역적 문서 형태 정보(33)는 실제문장 추출과정(20)에서 이용된다.
반면에, 문맥 정보를 이용한 문장 분리 규칙(31)은 예비문장 추출과정(10)과 실제문장 추출과정(20) 모두에서 사용된다.
실제문장 추출과정(20)에서는 규칙을 적용하기 위해 각 토큰에 대해 문맥 정보(34)를 추출한다.
상기 예비문장 추출과정(10)을 자세히 살펴보면 다음과 같다.
먼저 문서에서 한 문자를 읽은 후, 읽은 문자가 라인피드인가를 판단하여 라인피드인 경우, 현재까지 읽은 라인에 대한 문서 형태 정보를 추출하여 지역적 문서 형태 정보(33)에 저장한다.
저장되는 정보의 종류는 언어 정보가 아닌 현재 라인의 형태에 관한 것으로, 현재 라인의 시작에 공백이 얼마나 있는가, 현재 라인에는 몇 개의 문자가 있는가, 현재 라인의 라인피드 위치, 현재 라인의 시작 토큰의 위치 등이 있다.
이러한 정보들이 라인별로 추출되어 지역적 문서 형태를 나타내는 정보가 되는 것이다.
반면에, 읽은 문자가 라인피드가 아닌 경우, 읽은 문자가 공백인가를 판단하여 읽은 문자가 공백인 경우, 토큰의 공백에 대한 정보를 수정한다.
상기 공백 정보는 문장 추출 단계에서 추출된 토큰 리스트가 언어 해석에 사용될 경우, 어절을 구성하기 위한 정보로 사용되며, 토큰 리스트로부터 원래 문서를 복원하기 위한 정보로도 사용된다.
한편, 읽은 문자가 라인피드인 경우에는 라인피드도 공백의 일종이므로, 현재까지 읽은 라인에 대한 문서 형태 정보를 추출하여 지역적 문서 형태 정보(33)에 저장한 후, 다른 공백과 마찬가지로 토큰의 공백 정보를 수정한다.
반면에, 읽은 문자가 공백이 아닌 경우, 읽은 문자가 기호인가를 판단하여 읽은 문자가 기호이거나, 이전에 읽었던 문자와 다른 종류인 경우에는 새로운 토큰을 형성한다.
그렇지 않은 경우에는 현재 읽은 토큰을 토큰 리스트의 마지막 토큰 문자열에 첨가한 후, 문장의 끝인지를 판단한다.
상기와 같이 예비문장 추출과정에서는, 구두점을 근거로 문장을 추출하게 된다.
즉, 구두점을 만나야 예비 문장의 추출이 끝나게 된다.
그러나, 구두점이 항상 모든 문장의 끝을 의미하는 것은 아니다.
도 1 의 문장(2)에서 보듯이 물음표(?)가 어제밤에는 어디 갔었읍던교?의 문장의 끝이 아니라, 뒤의 문자()가 문장(2)의 끝이 된다.
또한, 상기 문장(2)의 다음 라인의 첫단어 하며를 보면, 상기 문장(1)은 단독으로 하나의 문장을 구성하는 것이 아니라, 문장(3)의 직접 인용문임을 알 수 있다.
상기 물음표(?)를 문장의 끝으로 판단하게 되면, 다음 문장을 '하며'로 시작하게 되어 문장의 시작이 어색하게 된다.
따라서, 문장(2)의 물음표(~?)는 문장 끝으로 판명되어서는 안된다.
이러한 문제를 해결하기 위해 구두점이 나타나면, 앞 뒤 문맥 정보를 이용하여 문장의 끝인지 아닌지를 판단해야 한다.
여기서, 구두점과 관련된 문맥 정보를 이용한 문장 분리 규칙(31)은 다음과 같다.
구두점이 직접 인용문의 끝에 오는 경우나 괄호 안에 나타나는 경우는 문장으로 추출하지 않는다.
특히, 마침표(.)의 경우는 영어 약자에 나오는 마침표, 말줄임표 중간에 나오는 마침표, 소수점을 나타내는 마침표, 문장의 글머리 번호 뒤에 나오는 마침표도 문장으로 추출하지 않는다.
그리고, 말줄임표는 문장의 줄임으로 쓰이지 않은 경우는 문장의 끝이 아니다.
상기 동작을 순서도로 도시하면 도 3 에 도시한 바와 같이, 문서에서 한 문자를 읽는 제 1 단계(11)와 ; 읽은 문자가 라인피드인가를 판단하여 라인피드인 경우, 현재까지 읽은 라인에 대한 문서 형태 정보를 추출하여 지역적 문서 형태 정보에 저장하는 제 2 단계(12) ; 반면에, 읽은 문자가 라인피드가 아닌 경우, 읽은 문자가 공백인가를 판단하는 제 3 단계(13) ; 읽은 문자가 공백인 경우, 토큰의 공백에 대한 정보를 수정하는 한편, 읽은 문자가 라인피드인 경우에는 라인피드도 공백의 일종이므로, 현재까지 읽은 라인에 대한 문서 형태 정보를 추출하여 지역적 문서 형태 정보에 저장한 후, 다른 공백과 마찬가지로 토큰의 공백 정보를 수정하는 제 4 단계(14) ; 반면에, 읽은 문자가 공백이 아닌 경우, 읽은 문자가 기호인가를 판단하는 제 5 단계(15) ; 읽은 문자가 기호가 아닌 경우, 이전 문자와 다른 종류의 문자인가를 판단하는 제 6 단계(16) ; 읽은 문자가 기호이거나, 이전 문자와 다른 종류의 문자인 경우에는 새로운 토큰을 형성하는 제 7 단계(17) ; 읽은 문자가 이전 문자와 다른 종류의 문자가 아닌 경우에는 현재 읽은 토큰을 토큰 리스트의 마지막 토큰 문자열에 첨가하는 제 8 단계(18) 및 ; 문장의 끝인지를 판단하여, 문장의 끝이 아닌 경우 상기 단계(11~18)를 반복 수행하고, 문장의 끝인 경우 예비 문장과 지역적 문서 형태 정보를 추출하는 제 9 단계(19)를 포함하여 이루어진다.
상기와 같이 에비문장 추출과정(10)을 통하여 추출된 예비 문장으로부터 실제 문장을 추출하는 과정을 살펴보면 다음과 같다.
먼저, 예비 문장의 토큰 리스트로부터 하나의 토큰을 읽는다.
만약, 예비 문장에 남아있는 토큰이 없다면, 예비문장 추출과정(10)을 수행하여 앞에서 설명한 바와 같이, 예비 문장과 예비 문장의 지역적 문서 형태를 추출하도록 한다.
읽은 토큰이 한 라인의 끝이면, 지역적 문서 형태 정보(33)를 조사하여 읽은 현재 라인이 문장의 끝인지를 조사하게 된다.
도 1 의 라인(1)에서 뽕은 그 라인의 마지막 토큰으로, 라인(1)은 끝에 구두점이 없지만 하나의 독립적인 문장이 된다.
이것은 예비 문장 추출시 저장된 지역적 문서 형태 정보(33)를 이용하여 판단할 수 있다.
즉, 라인(1)의 다음 라인은 공백인 라인이고, 상기 라인(1)은 라인(1)의 글자 수, 라인피드의 위치, 시작 공백의 수 등을 고려했을 때 문서 폭에 비해 상당히 좁은 폭만이 글자가 있다는 사실에 근거하여, 하나의 독립적인 문장으로 추출하는 것이다.
구두점이 없는 라인을 문장으로 추출하기 위해 지역적 문서 형태 정보를 이용하는 규칙은 다음과 같다.
아무 글자도 없는 라인이나 같은 기호로만 이루어진 문장을 구성하지 않는 라인으로 간주한다.
현재 라인이 문서의 폭에서 차지하는 비율을 고려하여, 문장으로 간주할것인지 처리한다.
다음 라인이 문장에 시작을 나타내는 정보가 있는 경우에는, 현재 라인을 문장의 끝 라인으로 간주하여 문장을 추출한다.
나머지 라인은 다음 라인과 같은 문장을 구성하도록 한다.
구두점에 의해 문장이 끝나는 경우는, 이미 예비 문장 추출시 예비 문장의 끝으로 간주되므로, 따로 고려할 필요없이 현재 읽은 토큰이 예비 문장의 마지막 토큰인지를 살펴보면 된다.
지금까지 읽은 토큰 리스트의 길이가 너무 긴 경우, 즉 추출하고 있는 문장의 길이가 너무 긴 경우 적당한 위치에서 문장을 잘라야 한다.
이를 위해, 현재 토큰의 이전 토큰에 대한 문맥 정보(34)를 추출하여, 적당한 문장 분리 위치인가를 판단한다.
이때, 추출되는 문맥 정보(34)에는 현재 토큰의 언어 정보뿐만 아니라 앞 뒤 토큰의 언어 정보도 포함한다.
도 1 의 문장(3)의 경우, 실제로는 하나의 문장이지만, 문장(3) 전체를 하나의 문장으로 추출하여 문서 해석기의 입력으로 사용하는 경우, 올바른 문장 구조를 추출하기 어려우며, 특히 음성 합성기의 입력으로 사용되는 경우에는 음성 합성기가 자연스러운 운율을 생성할 수가 없다.
문장을 분리하는 가장 적당한 위치는, 문장의 구조상이나 의미상 크게 나뉘어지는 부분이 된다.
이를 고려할 때, 도 1 의 라인(2) 이전의 헤치면서 다음이 문장 분리 위치로 가장 적당함을 알 수 있다.
이것은 헤치면서 토큰의 마지막 형태소가 종속적 연결어미이고, 다음 토큰이 여는 인용 기호라는 문맥 정보(34)를 이용하면 된다.
긴 문장을 적당한 위치에서 분리하기 위해 이용하는 문맥 정보는 다음과 같다.
현재 토큰과 앞뒤 토큰에서 종속적/대등적 연결어미 정보, -에 따르면과 같이 접속부사와 같은 역할을 하는 관용구가 있는가의 여부, 시간성 명사 정보, 조사 정보, 명사 정보, 기호 정보를 이용한다.
상기 동작을 순서도로 도시하면 도 4 에 도시한 바와 같이, 예비 문장에 남아있는 토큰이 있는가를 판단하는 제 1 단계(21)와 ; 예비 문장에 남아있는 토큰이 없다면 예비문장 추출과정(10)을 수행하고, 예비 문장에 남아있는 토큰이 있는 경우, 예비 문장의 토큰 리스트로부터 하나의 토큰을 읽는 제 2 단계(22) ; 읽은 토큰이 한 라인의 끝인가를 판단하는 제 3 단계(23) ; 읽은 토큰이 한 라인의 끝이면, 지역적 문서 형태 정보를 조사하여 읽은 현재 라인이 문장의 끝인지를 조사하는 제 4 단계(24) ; 반면에 읽은 토큰이 한 라인의 끝이 아니거나, 지역적 문서 형태 정보를 조사하여 읽은 현재 라인이 문장의 끝이 아닌 경우, 현재 읽은 토큰이 예비 문장의 마지막 토큰인지를 살펴보는 제 5 단계(25) ; 현재 읽은 토큰이 예비 문장의 마지막 토큰인 경우 추출하고 있는 문장의 길이가 너무 긴가를 판단하는 제 6 단계(26) ; 추출하고 있는 문장의 길이가 너무 긴 경우 적당한 위치에서 문장을 자르기 위하여 현재 토큰의 이전 토큰에 대한 문맥 정보를 추출하는 제 7 단계(27) 및 ; 적당한 문장 분리 위치인가를 판단하여 적당한 문장 분리 위치인 경우, 문장의 토큰 리스트와 부분 형태소 해석 결과를 추출하는 제 8 단계(28)를 포함하여 이루어진다.
본 발명에 따른 일실시 예로서, 상기와 같은 원리로 동작하는 문장 추출 방법을 도 5 에 도시한 바와 같이, 음성 합성기에 적용하여 실험을 해 보았다
(40)은 이전의 문장 추출 방법 및 자료 구조를 사용한 것으로, 먼저 문장을 문자열 단위로 추출하여 토큰 리스트를 생성하였다.
(41)은 본 발명에서 제안한 문장 추출 방법을 사용한 것으로, 문장의 자료 구조가 문자열이 아니라 토큰 리스트이므로, 바로 형태소 해석 단계로 들어간다.
이상에서 상세히 설명한 바와 같이 본 발명은, 문맥 정보와 지역적 문서 형태를 고려하여 예비문장 추출과정과 실제문장 추출과정의 2단계 과정을 거쳐 문장을 추출함으로써 구두점 정보만을 이용한 문장 추출의 문제점을 해결할 수 있으며, 따라서 구두점이 없는 문장에 대해서도 올바른 문장을 추출할 수 있고, 구두점이 다른 의미로 사용된 문장도 올바로 추출할 수 있으며, 문장의 길이가 너무 긴 경우 적당한 위치에서 적당한 길이의 문장으로 분리할 수 있고, 이로 인하여 모든 문서에 대해 올바르고 적당한 길이의 문장을 추출함으로써 문장을 입력으로 하는 모든 문서 해석기의 전처리로서 사용할 수 있으며, 문서 해석기의 성능을 높이는데 기여할 수 있고, 문장 단위로 문서를 읽어주는 무제한 음성 합성기의 자연성을 높일 수 있는 효과가 있다.

Claims (3)

  1. 지역적 문서 형태 정보를 사용하기 위하여 문서로부터 구두점 정보와 구두점의 문맥 정보에 근거한 예비 문장을 추출하면서 지역적 문서 형태에 대한 정보를 저장하는 예비문장 추출과정(10)과 ;
    상기 예비 문장 추출과정에서 저장된 지역적 문서 형태에 대한 정보와 함께 문맥 정보를 사용하여 실제로 사용될 문장을 추출하는 실제문장 추출과정(20)을 포함하여 이루어짐을 특징으로 하는, 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법.
  2. 1 항에 있어서,
    상기 예비문장 추출과정(10)은
    문서에서 한 문자를 읽는 단계(11)와 ;
    읽은 문자가 라인피드인가를 판단하여 라인피드인 경우, 현재까지 읽은 라인에 대한 문서 형태 정보를 추출하여 지역적 문서 형태 정보에 저장하는 단계(12) ;
    반면에, 읽은 문자가 라인피드가 아닌 경우, 읽은 문자가 공백인가를 판단하는 단계(13) ;
    읽은 문자가 공백인 경우, 토큰의 공백에 대한 정보를 수정하는 한편, 읽은 문자가 라인피드인 경우에는 라인피드도 공백의 일종이므로, 현재까지 읽은 라인에 대한 문서 형태 정보를 추출하여 지역적 문서 형태 정보에 저장한 후, 다른 공백과 마찬가지로 토큰의 공백 정보를 수정하는 단계(14) ;
    반면에, 읽은 문자가 공백이 아닌 경우, 읽은 문자가 기호인가를 판단하는 단계(15) ;
    읽은 문자가 기호가 아닌 경우, 이전 문자와 다른 종류의 문자인가를 판단하는 단계(16) ;
    읽은 문자가 기호이거나, 이전 문자와 다른 종류의 문자인 경우에는 새로운 토큰을 형성하는 단계(17) ;
    읽은 문자가 이전 문자와 다른 종류의 문자가 아닌 경우에는 현재 읽은 토큰을 토큰 리스트의 마지막 토큰 문자열에 첨가하는 단계(18) 및 ;
    문장의 끝인지를 판단하여, 문장의 끝이 아닌 경우 상기 단계(11~18)를 반복 수행하고, 문장의 끝인 경우 예비 문장 과 지역적 문서 형태 정보를 추출하는 단계(19)를 포함하여 이루어짐을 특징으로 하는, 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법.
  3. 1 항에 있어서,
    상기 실제문장 추출과정(20)은
    예비 문장에 남아있는 토큰이 있는가를 판단하는 제 1 단계(21)와 ;
    예비 문장에 남아있는 토큰이 없다면 예비문장 추출과정(10)을 수행하고, 예비 문장에 남아있는 토큰이 있는 경우, 예비 문장의 토큰 리스트로부터 하나의 토큰을 읽는 제 2 단계(22) ;
    읽은 토큰이 한 라인의 끝인가를 판단하는 제 3 단계(23) ;
    읽은 토큰이 한 라인의 끝이면, 지역적 문서 형태 정보를 조사하여 읽은 현재 라인이 문장의 끝인지를 조사하는 제 4 단계(24) ;
    반면에 읽은 토큰이 한 라인의 끝이 아니거나, 지역적 문서 형태 정보를 조사하여 읽은 현재 라인이 문장의 끝이 아닌 경우, 현재 읽은 토큰이 예비 문장의 마지막 토큰인지를 살펴보는 제 5 단계(25) ;
    현재 읽은 토큰이 예비 문장의 마지막 토큰인 경우 추출하고 있는 문장의 길이가 너무 긴가를 판단하는 제 6 단계(26) ;
    추출하고 있는 문장의 길이가 너무 긴 경우 적당한 위치에서 문장을 자르기 위하여 현재 토큰의 이전 토큰에 대한 문맥 정보를 추출하는 제 7 단계(27) 및 ;
    적당한 문장 분리 위치인가를 판단하여 적당한 문장 분리 위치인 경우, 문장의 토큰 리스트와 부분 형태소 해석 결과를 추출하는 제 8 단계(28)를 포함하여 이루어짐을 특징으로 하는, 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법.
KR1019970024231A 1997-06-12 1997-06-12 문맥정보및지역적문서형태를이용한문장추출방법 KR100434526B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970024231A KR100434526B1 (ko) 1997-06-12 1997-06-12 문맥정보및지역적문서형태를이용한문장추출방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970024231A KR100434526B1 (ko) 1997-06-12 1997-06-12 문맥정보및지역적문서형태를이용한문장추출방법

Publications (2)

Publication Number Publication Date
KR19990001034A true KR19990001034A (ko) 1999-01-15
KR100434526B1 KR100434526B1 (ko) 2004-09-04

Family

ID=37341042

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970024231A KR100434526B1 (ko) 1997-06-12 1997-06-12 문맥정보및지역적문서형태를이용한문장추출방법

Country Status (1)

Country Link
KR (1) KR100434526B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100991036B1 (ko) * 2002-06-06 2010-10-29 마이크로소프트 코포레이션 문맥에 의존하는 기능을 컴퓨터 생성 문서에 제공하는 방법
WO2012026667A2 (ko) * 2010-08-23 2012-03-01 에스케이텔레콤 주식회사 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012134180A2 (ko) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197750A (ja) * 1992-01-22 1993-08-06 Matsushita Electric Ind Co Ltd 機械翻訳装置およびその方法
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JPH07244663A (ja) * 1994-03-04 1995-09-19 Nippon Telegr & Teleph Corp <Ntt> 文書情報要旨部分の抽出方法とその装置
JPH086591A (ja) * 1994-06-15 1996-01-12 Sony Corp 音声出力装置
JP3594701B2 (ja) * 1995-07-19 2004-12-02 株式会社リコー キーセンテンス抽出装置
KR0168925B1 (ko) * 1995-12-23 1999-01-15 양승택 한국어 대화체 문장의 의미파싱과 생성을 위한 의미틀을 이용한 의미추출 장치 및 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100991036B1 (ko) * 2002-06-06 2010-10-29 마이크로소프트 코포레이션 문맥에 의존하는 기능을 컴퓨터 생성 문서에 제공하는 방법
WO2012026667A2 (ko) * 2010-08-23 2012-03-01 에스케이텔레콤 주식회사 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법
WO2012026667A3 (ko) * 2010-08-23 2012-04-19 에스케이텔레콤 주식회사 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법
US8543376B2 (en) 2010-08-23 2013-09-24 SK Planet Co., Ltd Apparatus and method for decoding using joint tokenization and translation

Also Published As

Publication number Publication date
KR100434526B1 (ko) 2004-09-04

Similar Documents

Publication Publication Date Title
EP0907924B1 (en) Identification of words in japanese text by a computer system
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US6470306B1 (en) Automated translation of annotated text based on the determination of locations for inserting annotation tokens and linked ending, end-of-sentence or language tokens
US6823301B1 (en) Language analysis using a reading point
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
JP2765665B2 (ja) タイポグラフィカル情報付き文書の翻訳装置
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
KR100434526B1 (ko) 문맥정보및지역적문서형태를이용한문장추출방법
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
WO1997048058A9 (en) Automated translation of annotated text
WO1997048058A1 (en) Automated translation of annotated text
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP3876014B2 (ja) 機械翻訳装置
Bosch et al. Towards Zulu corpus clean-up, lexicon development and corpus annotation by means of computational morphological analysis
KR100487716B1 (ko) 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
JP2004265440A (ja) 未知語登録装置および方法並びに記録媒体
JP3581237B2 (ja) 未知語登録装置および方法並びに記録媒体
JP3616126B2 (ja) 特殊範囲抽出装置および文抽出装置
JPS62245366A (ja) 文書処理装置
JP2575947B2 (ja) 文節切出し装置
JP2723886B2 (ja) 機械翻訳装置及びその翻訳規則作成方法
Wheeler Changes and improvements to the European Commisssion’s Systran system 1976/84
Dash Morphological processing of words in bangla corpus
Carlos et al. Large-coverage root lexicon extraction for Hindi
JP2000029882A (ja) 要約文作成装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080312

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee