KR100805191B1 - 한국어 문장에서의 생략 성분 복원 방법 및 장치 - Google Patents

한국어 문장에서의 생략 성분 복원 방법 및 장치 Download PDF

Info

Publication number
KR100805191B1
KR100805191B1 KR1020060091102A KR20060091102A KR100805191B1 KR 100805191 B1 KR100805191 B1 KR 100805191B1 KR 1020060091102 A KR1020060091102 A KR 1020060091102A KR 20060091102 A KR20060091102 A KR 20060091102A KR 100805191 B1 KR100805191 B1 KR 100805191B1
Authority
KR
South Korea
Prior art keywords
sentence
phrase
component
phrases
predecessor
Prior art date
Application number
KR1020060091102A
Other languages
English (en)
Inventor
서영애
김영길
김창현
양성일
홍문표
최승권
이기영
권오욱
노윤형
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060091102A priority Critical patent/KR100805191B1/ko
Application granted granted Critical
Publication of KR100805191B1 publication Critical patent/KR100805191B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

생략된 문장 성분을 복원하는 한국어 문장에서의 생략 성분 복원 방법 및 장치가 개시된다. 이를 위하여, 입력 문장의 시작과 끝의 범위를 인식하는 단락 인식부; 상기 입력 문장에 대한 구문 분석된 결과를 토대로 상기 입력 문장을 용언구 단위로 저장하는 단락 저장부; 현재 탐색 중인 문장에서 문장 성분 생략의 발생 여부를 파악하여 상기 생략 성분을 복원할 용언구가 있는지 판단하는 생략 인식부; 상기 단락 저장부에 저장된 용언구 정보들과 상기 현재 탐색 중인 문장의 용언구 정보 간의 유사도를 비교하는 용언 비교부; 및 상기 생략 성분에 대한 선행사 후보를 파악하고, 상기 선행사 후보들 간에 우선 순위를 결정한 후, 상기 용언 비교부의 비교 결과를 토대로 선행사를 결정하는 선행사 선택부를 포함하는 한국어 문장에서의 생략 성분 복원 장치를 제공하여, 입력 문장에서 생략된 성분을 찾아내어 올바른 영어 대역문의 생성이 가능하게 함으로써, 번역 시스템의 품질을 향상시킬 수 있다.
문장, 생략, 성분, 복원, 번역

Description

한국어 문장에서의 생략 성분 복원 방법 및 장치{ELLIPSIS COMPONENT RESTORATION METHOD AND APPARATUS IN KOREAN SENTENCE}
도 1은 본 발명의 일 실시예에 따른 자동 번역 장치를 나타내는 구성도.
도 2는 도 1의 생략 성분 복원기를 나타내는 구성도.
도 3은 본 발명의 일 실시예에 따른 생략 성분을 복원하는 과정을 나타내는 순서도.
* 도면의 주요 부분에 대한 부호의 설명
100 : 형태소 분석기 200 : 구문 분석기
300 : 생략 성분 복원기 310 : 단락 인식부
320 : 단락 저장부 330 : 생략 인식부
340 : 선행사 선택부 350 : 용언 비교부
400 : 대역문 변환기 500 : 형태소 생성기
본 발명은 자동 번역 장치에 관한 것으로, 더욱 상세하게는 생략된 문장 성분을 복원하는 한국어 문장에서의 생략 성분 복원 방법 및 장치에 관한 것이다.
한국어는 문장 성분의 생략이 자주 일어나며, 특히 주어 성분의 생략이 매우 빈번하다. 이러한 현상은 자연 언어 처리 시스템의 성능 저하의 한 원인이 된다. 한영 자동번역 시스템의 경우에 주어의 생략을 예로 들면, 주어가 생략된 한국어 문장을 주어 복원 과정을 거치지 않고 그대로 영어 문장으로 번역할 경우 주어가 기술되지 않은 비문으로 번역된다. 따라서, 생략된 한국어의 주어 성분을 복원함으로써 번역된 영어 문장에서 주어를 기술하여 주어야 올바른 영어 문장 번역이 가능하다.
생략 성분의 복원과 관련된 종래 기술들은 크게 2가지 분류로 나누어 볼 수 있다.
첫 번째로, 언어학적 지식에 기반한 규칙 기반의 처리 시스템이다.
이는 언어의 근접성, 평행성 등의 형태소 및 구문 정보를 이용한 규칙을 기반으로 하여 생략 성분의 선행사를 찾는 방법과, 조응 현상을 이론적으로 설명한 중심화 이론 등에 기반하여 선행사를 찾는 방법으로 구분할 수 있다. 이러한 시스템은 특별한 언어 자원이 필요하지 않아 비교적 손쉽게 구현이 가능하며, 시스템 구축에 드는 비용에 비해 시스템의 성능이 비교적 좋다는 장점이 있으나, 새로운 규칙의 추가가 어려운 문제점 등으로 인해 추가적인 성능 향상에 한계가 있는 문제점이 있었다.
또 다른 방법으로, 코퍼스(corpus)에 기반한 정보를 이용하는 방법이다.
이는 조응 정보가 표시된 코퍼스(anaphora-annotated corpus) 또는 원시 코퍼스 등을 이용하여 생략 성분 복원을 위한 확률 정보를 추출하고, 이를 기반으로 선행사(antecedent)를 찾는 방법이다. 이 방법은 코퍼스의 양이 적을 경우 성능이 떨어지고 코퍼스의 구축에 많은 비용이 소비되는 단점이 있어 한국어 문장에서의 생략 성분 복원 성능의 향상에 한계가 있는 문제점이 있었다.
따라서, 본 발명의 목적은 휴리스틱 규칙 및 원시 코퍼스를 기반으로 한국어 문장에서의 생략 성분을 복원하는 방법 및 장치를 제공하는데 있다.
이를 위하여, 본 발명의 일 실시예에 따른 한국어 문장에서의 생략 성분 복원 방법은, (a) 입력 문장 단락의 시작과 끝의 범위를 인식하는 단계; (b) 상기 문장 각각의 구조 분석 결과를 토대로 상기 문장을 용언구 단위의 형태로 저장하는 단계; (c) 상기 문장 각각에 대해 생략 성분을 복원해야 할 용언구가 있는지 탐색하는 단계; (d) 현재 탐색 문장 및 이전 탐색 문장에 나타난 명사구를 선행사 후보로 추출하고, 상기 추출된 선행사 후보들을 의미 필터링한 후 남은 선행사 후보들의 우선 순위를 결정하는 단계; (e) 상기 현재 탐색 문장에서 생략 성분을 복원해야 하는 용언구와 상기 (b) 단계에서 저장된 이전 문장들의 용언구들을 비교하여 상기 현재 탐색 문장에서 생략 성분을 복원해야 하는 용언구와 유사한 용언구를 탐색하는 단계; 및 (f) 상기 (e) 단계의 탐색 결과를 토대로 상기 생략 성분의 선행사를 결정하는 단계를 포함한다.
또한, 본 발명의 일 실시예에 따른 한국어 문장에서의 생략 성분 복원 장치는, 입력 문장의 시작과 끝의 범위를 인식하는 단락 인식부; 상기 입력 문장에 대한 구문 분석된 결과를 토대로 상기 입력 문장을 용언구 단위로 저장하는 단락 저 장부; 현재 탐색 중인 문장에서 문장 성분 생략의 발생 여부를 파악하여 상기 생략 성분을 복원할 용언구가 있는지 판단하는 생략 인식부; 상기 단락 저장부에 저장된 용언구 정보들과 상기 현재 탐색 중인 문장의 용언구 정보 간의 유사도를 비교하는 용언 비교부; 및 상기 생략 성분에 대한 선행사 후보를 파악하고, 상기 선행사 후보들 간에 우선 순위를 결정한 후, 상기 용언 비교부의 비교 결과를 토대로 선행사를 결정하는 선행사 선택부를 포함한다.
이하에서는, 첨부 도면 및 실시예를 참조하여 본 발명을 상세히 설명한다. 도면상에서 동일 또는 유사한 구성 요소에 대하여는 동일한 참조 번호를 부여하였다.
또한, 이하의 설명에서 본 발명을 명확히 하기 위하여 유사한 내용의 문장이 빈번하게 나타나는 한국어 방송 뉴스를 본 발명에 따른 실시예로서 설명하나, 이에 한정되는 것은 아니다.
도 1은 본 발명의 일 실시예에 따른 자동 번역 장치를 나타내는 구성도이다.
도 1에 도시된 바와 같이, 자동 번역 장치는, 한국어 문장을 입력받아 이를 형태소 분석하는 형태소 분석기(100)와, 형태소 분석 결과를 받아 이를 구문 분석하는 구문분석기(200)와, 구문 분석 결과를 토대로 문장 생략 성분의 발생 여부를 탐색하여 생략 성분의 선행사를 복원하는 생략 성분 복원기(300)와, 구문 분석결과를 이용하여 한국어 동사구들의 영어 대역표현을 생성하는 대역문 변환기(400)와, 대역문 변환기(400)의 결과를 입력받아 영어 어휘 형태소를 생성하여 최종 영어 문장을 생성하는 형태소 생성기(500)를 포함한다.
따라서, 상술한 자동 번역 장치를 통해 입력된 한국어 문장이 번역되어 출력된다. 특히, 본 발명에 따른 생략 성분 복원기(300)를 통해 한국어 문장 가운데 생략 성분을 복원하여 거의 완벽한 번역문을 출력할 수 있다. 여기서, 생략 성분 복원기(300)는 구문 분석기(200)에 포함되어 상술한 바와 같은 기능을 수행할 수도 있으나, 이는 설계자의 선택 사항이다.
이하, 첨부된 도면을 참고로 본 발명에 따른 생략 성분 복원기(300)를 좀 더 상세히 설명한다.
도 2는 도 1의 생략 성분 복원기를 나타내는 구성도이다.
도 2에 도시한 바와 같이, 생략 성분 복원기(300)는, 입력 문장의 시작과 끝의 범위를 인식하는 단락 인식부(310)와, 구문 분석된 결과를 토대로 입력 문장을 용언구 단위로 저장하는 단락 저장부(320)와, 현재 탐색 문장에서 문장 성분 생략의 발생 여부를 파악하고 생략 성분을 복원할 용언구가 있는지 파악하는 생략 인식부(330)와, 단락 저장부(320)에 저장된 용언구 정보들과 현재 주어를 복원하고자 하는 문장의 용언구 정보 간의 유사도를 비교하는 용언 비교부(350)와, 생략 성분에 대한 선행사 후보를 파악하고 그 후보들 간에 우선 순위를 결정한 후 용언 비교부(350)의 결과를 토대로 선행사를 결정하는 선행사 선택부(340)를 포함한다.
단락 인식부(310)는, 문장의 시작과 끝의 범위를 인식한다. 즉, 입력으로 받아들인 문장이 단락의 첫 부분 또는 끝 부분인지를 파악한다. 예컨대, 한국어 방송 뉴스에서, 방송 뉴스 문장이 화자가 앵커인지, 혹은 기자인지에 화자 정보와 방송 뉴스 문장들의 형태 정보를 이용하여 파악한다. 화자가 앵커이고, "X기자의 보도입니다", "X 기자가 보도합니다", "X 기자입니다" 등의 뉴스 시작 단락임을 나타내는 문형이 나타날 경우 앵커의 발화 시작 부분을 한 뉴스의 시작으로 간주한다. 한 뉴스의 끝 부분은 화자가 기자이고, "X 뉴스 Y입니다" 등의 문형의 문장이 입력될 경우 이를 한 뉴스의 끝으로 간주한다. 아래는 뉴스 단락의 시작과 끝을 나타내는 한 예이다.
[예]
◆ 정혜정 앵커 :
잠시 세워둔 담배인삼공사 소속 배달 트럭을 도난당했는데 5km 떨어진 주택가 골목에서 발견됐습니다. 차안에 있던 현금 1,600여만원이 없어졌습니다. 김효엽 기자입니다.
◆ 김효엽 기자 :
오늘날 12시반쯤 서울 여의도 모 빌딩 앞, 담배인삼공사 30살 김 모씨 등 2명은 평소처럼 빌딩 앞에 차를 세워놓고 배달할 담배를 들고 건물 안으로 들어갔습니다. 그러나 김씨 등이 건물안에 있는 10여분 사이 누군가 시동이 걸려 있던 트럭을 몰고 달아났습니다.
< 중간 생략 >
경찰은 짧은 시간에 범행이 이루어진 점과 배달 트럭이 매주 한 두차례씩 같 은 장소에 시동을 걸어놓은 채 배달을 해온 점 등으로 미루어 배달시간 등 내부 사정을 잘 아는 사람의 소행으로 보고 이 일대 담배 판매상 등을 상대로 탐문수사를 벌이고 있습니다. MBC 뉴스 김효엽입니다
단락 저장부(320)는, 단락 인식부(310)로부터 단락의 시작임을 통보받으면, 문장의 구조 분석된 결과를 바탕으로 각 용언구 단위로 "(체언1 + 격조사1, ... 체언n+격조사n, 용언)"의 형태로 각 문장의 내용을 저장한다. 또한, 단락 저장부(320)는 문장의 구조 분석 결과가 "N1의 N2" 형태의 명사구의 경우에, 이것이 "N2가 N1이다" 등의 용언구의 형태로 바꿀 수 있는 경우, "(N2, N1이다)" 형태도 역시 저장한다. 또한, 단락 저장부(320)는 선행사가 결정된 용언구에 대해서도 해당 내용이 저장되며, 이후 문장에서의 생략 성분 복원의 정보로 이용된다.
다음은 "무기 구매 관련 기밀 유출 사건을 수사중인 군 당국은 현역 장교들이 기밀을 빼내서 무기 중개상들에게 넘겨준 사실을 밝혀내고 수사를 확대하고 있습니다."라는 뉴스 문장에 대해 단락 저장부(320)가 저장하는 형태에 대한 예이다.
[예]
(군 당국+가, 기밀 유출 사건+를, 수사중이다)
(현역 장교들+가, 기밀+를, 빼내다)
(현역 장교들+가, 무기 중개상들+에게, 넘기다)
(군 당국+가, 사실+를, 밝혀내다)
(군 당국+가, 수사+를, 확대하다)
생략 인식부(330)는 현재 문장에서 문장 성분의 생략이 발생하였는지를 파악하여 생략 성분을 복원해야 할 용언구가 있는지를 파악한다. 어떤 성분이 생략되어 있더라도 현재 용언이 해당 성분 불필요 용언 리스트에 속한다면 생략된 영형 대명사를 복원하지 않기 때문이다.
선행사 선택부(340)는 생략 인식부(330)에서 해당 성분을 복원해야 하는 용언구로 판단된 경우, 생략 성분에 대한 선행사 후보를 선택하고, 그 후보들 간에 우선 순위를 결정한 후, 용언 비교부(350)의 결과에 따라 선행사를 결정한다. 여기서, 선행사의 후보는 현재 문장 및 이전 문장에 나타난 명사가 대상이 된다. 이들 후보들은 의미 필터링 과정과 우선 순위 결정 과정을 거치게 된다. 의미 필터링 과정은 추출된 선행사 후보들은 격틀 정보 및 MI(Mutual Information) 정보 등을 이용하여, 의미가 맞지 않아 해당 생략 격성분의 선행사로 쓰일 수 없는 후보는 제거하는 과정을 말한다. 이후 의미 필터링을 거친 선행사의 후보들은 주제격 여부와 인접성 등의 휴리스틱 규칙이 반영된 선행사 선호도 계산 규칙에 따라 우선 순위가 결정된다. 일반적으로 선행사의 후보들 간의 우선 순위는 "현재 문장 내의 주제격 > 현재 문장 내의 주격 > 이전 문장 내에서의 주제격 > 이전 문장 내에서의 주격 > 기타"의 순이 된다. 이후, 선행사 선택부(340)는 용언 비교부(350)의 결과에 따라 선행사를 결정한다.
용언 비교부(350)는 단락 저장부(320)에 저장된 이전 뉴스 문장들의 "(격성분1 + 격조사1, ... 격성분N + 격조사N, 용언)" 형태의 뉴스 내용 정보로부터 현재 생략된 성분을 복원하고자 하는 문장과의 유사도를 비교한다. 즉, 용언 비교부(350)는 두 용언구 정보가 아래의 3가지 중 하나에 해당할 경우 유사하다고 판단한다. 이때, 체언 및 용언, 또는 (체언+격조사, 용언)의 클러스터링 정보는 뉴스 코퍼스로부터 생략 성분 복원 처리 이전에 구축하여 둔다.
1. 두 용언구의 생략 성분을 제외한 명사구와 용언이 모두 동일한 경우.
2. 생략된 명사구를 제외한 두 용언구가 동일 클러스터에 속하는 경우.
3. 두 용언구의 생략 성분을 제외한 명사구와 용언 각각이 동일하거나 동일 클러스터에 속하는 경우.
도 3은 본 발명의 일 실시예에 따른 생략 성분을 복원하는 과정을 나타내는 순서도이다. 도 3을 설명하기 위해 다음의 뉴스 문장을 예로 들어 설명한다.
[예]
* 김종진 앵커 :
음식점이나 숙박업소, 병원 등 일정 규모 이상의 업소들은 앞으로 신용카드 사용을 거부하면 세무조사를 받게 됩니다.
국세청은 일부 업소들이 과세자료를 숨기기 위해서 신용카드 가맹을 꺼리고 있다고 보고 이런 업소들을 중점 관리하기로 했습니다.
연규선 기자입니다.
이상의 문장에서 단락 인식부 (310)가 단락의 시작임을 알리면 단락 저장부(320)는 각 용언구의 정보를 차례로 저장한다(S201-S202).
이어, 다음과 같은 문장에서 "신용카드 사용을 거부하면"의 용언구에서 생략 주어가 있음을 생략 인식부(330)가 파악하게 되고(S203), 의미 필터링과 선호도 계산을 통해 문장의 주제격인 "업소들"이 생략 주어의 선행사로 결정된다(S204). 이 정보도 단락 저장부(320)에 저장된다.
[예]
음식점이나 숙박업소, 병원 등 일정 규모 이상의 업소들은 앞으로 신용카드 사용을 거부하면 세무조사를 받게 됩니다.
=> (업소들+가, 신용카드 사용+를, 거부하다)
(업소들+가, 세무조사+를, 받다)
이후, 다음과 같은 문장에서 "신용카드 가맹을 꺼리고 있다"의 용언구의 생략 주어의 복원이 필요함을 인식하고, 선행사 후보 추출 및 필터링 과정을 거쳐 "국세청 > 업소들"의 순으로 선행사 후보의 선호도가 결정된다(S205-S206).
[예]
국세청은 일부 업소들이 과세자료를 숨기기 위해서 신용카드 가맹을 꺼리고 있다고 보고 이런 업소들을 중점 관리하기로 했습니다.
=> (업소들+가, 과세자료+를, 숨기다)
(?, 신용카드 가맹+를, 꺼리다)
이어, 용언구 유사도 비교부(350)에서 단락 저장부(320)에 저장된 용언구 정보들과 현재 주어를 복원하고자 하는 문장의 용언구 정보 "(?, 신용카드 가맹+를, 꺼리다)" 간의 유사도를 비교한다(S207).
이때, 단계 S207에서 유사도 비교는 다음과 같이 수행된다.
1. 두 용언구의 생략 성분을 제외한 명사구와 용언이 모두 동일한 경우.
예) "(업소들+가, 신용카드 사용+를, 거부하다)"와 "(?, 신용카드 사용+를, 거부하다)"
2. 생략된 명사구를 제외한 두 용언구가 동일 클러스터에 속하는 경우.
예) "(업소들+가, 신용카드 사용+를, 거부하다)"와 "(?, 신용카드 가맹+를, 꺼리다)", "(업소들+가, 세금+를, 탈루하다)"와 "(?, 과세자료+를, 숨기다)"
3. 두 용언구의 생략 성분을 제외한 명사구와 용언 각각이 동일하거나 동일 클러스터에 속하는 경우.
예1) "(업체+가, 광고하다)"와 "(?, 선전하다)" : 두 용언이 동일 클러스터에 속하는 경우.
예2) "(업체+가, 과세자료+를, 숨기다)"와 "(?, 과세표준금액+를, 숨기다)" : 두 용언이 동일하며 ‘과세자료’와 ‘과세표준금액’이 동일 클러스터에 속하는 경우.
단계 S207의 비교결과, 비교 조건 1과 비교 조건 2에서와 같이, 두 가지의 경우에서 "(업소들+가, 신용카드 사용+를, 거부하다)"와 현재 문장이 유사도가 높음을 알 수 있다(S208). 이로 인해 "국세청"이 "업소들"보다 선호도가 높음에도 불구하고, "업소들"이 선행사로 결정된다(S209). 이때, 단락 저장부(320)에 저장된 용언구 정보들과 현재 주어를 복원하고자 하는 문장의 용언구 정보 간의 비교시, 유사한 용언구가 없다면, 우선 순위가 가장 높은 후보를 선행사로 결정한다(S208, S210).
이와 같이, 본 발명에 따른 생략 성분 복원기를 한영 자동번역 시스템에 적용하면, 입력 문장에서 생략된 성분을 찾아내어 올바른 영어 대역문의 생성이 가능하게 함으로써, 번역 시스템의 품질을 향상시킬 수 있다.
지금까지 본 발명을 바람직한 실시예를 참조하여 상세히 설명하였지만, 당업자는 본 발명의 사상 및 범위를 벗어나지 않고 다양한 변형 또는 수정이 가능하다는 것을 알 것이다.
상기와 같은 본 발명은, 한영 자동번역 시스템에서 생략된 성분을 찾아내어, 올바른 영어 대역문의 생성이 가능하게 하고 번역 시스템의 품질을 향상시키며, 자동 번역 시스템 이외에서도 질의응답 시스템이나 문서요약 시스템 등의 품질 향상 효과가 있다.

Claims (9)

  1. (a) 입력 문장 단락의 시작과 끝의 범위를 인식하는 단계;
    (b) 상기 인식된 문장 각각을 구조 분석하여 상기 인식된 문장을 용언구 단위의 형태로 저장하는 단계;
    (c) 상기 용언구 단위의 형태로 저장된 문장 각각에 대해 생략 성분을 복원해야 할 용언구가 있는지 탐색하는 단계;
    (d) 현재 탐색 문장 및 이전 탐색 문장에 나타난 명사구를 선행사 후보로 추출하고, 상기 추출된 선행사 후보들을 의미 필터링한 후 남은 선행사 후보들의 우선 순위를 결정하는 단계;
    (e) 상기 현재 탐색 문장에서 생략 성분을 복원해야 하는 용언구와 상기 (b) 단계에서 저장된 이전 문장들의 용언구들을 비교하여 상기 현재 탐색 문장에서 생략 성분을 복원해야 하는 용언구와 유사한 용언구를 탐색하는 단계; 및
    (f) 상기 (e) 단계의 탐색 결과를 토대로 상기 생략 성분의 선행사를 결정하는 단계를 포함하는 것을 특징으로 하는 한국어 문장에서의 생략 성분 복원 방법.
  2. 제 1 항에 있어서, 상기 (e) 단계는,
    미리 결정된 비교 대상 용언구의 생략 성분을 제외한 명사구와 용언이 모두 동일한 제 1 조건과, 상기 생략 성분을 제외한 두 용언구가 동일 클러스터에 속하는 제 2 조건과, 상기 두 용언구의 생략 성분을 제외한 명사구와 용언 각각이 동일하거나 동일 클러스터에 속하는 제 3 조건 중 어느 하나에 해당하는 경우에, 상기 비교 대상 용언구를 유사한 용언구로 판단하는 것을 특징으로 하는 한국어 문장에서의 생략 성분 복원 방법.
  3. 제 1 항에 있어서, 상기 (f) 단계는,
    상기 유사한 용언구가 탐색되면, 상기 유사 용언구의 주어를 상기 생략 성분의 선행사로 결정하고,
    상기 유사 용언구가 탐색되지 않으면, 상기 우선 순위가 가장 높은 후보 선행사를 상기 생략 성분의 선행사로 결정하는 것을 특징으로 하는 한국어 문장에서의 생략 성분 복원 방법.
  4. 제 1 항에 있어서, 상기 (d) 단계는,
    상기 선행사 후보들을 격틀 정보와 MI(Mutual Information) 정보를 이용하여 의미 필터링한 후, 상기 필터링 되지 않은 선행사 후보들을 선행사 선호도 계산 규칙에 따라 우선 순위를 결정하는 것을 특징으로 하는 한국어 문장에서의 생략 성분 복원 방법.
  5. 입력 문장의 시작과 끝의 범위를 인식하는 단락 인식부;
    상기 입력 문장에 대한 구문 분석된 결과를 토대로 상기 입력 문장을 용언구 단위로 저장하는 단락 저장부;
    현재 탐색 중인 문장에서 문장 성분 생략의 발생 여부를 파악하여 상기 생략 성분을 복원할 용언구가 있는지 판단하는 생략 인식부;
    상기 단락 저장부에 저장된 용언구 정보들과 상기 현재 탐색 중인 문장의 용언구 정보 간의 유사도를 비교하는 용언 비교부; 및
    상기 생략 성분에 대한 선행사 후보를 파악하고, 상기 선행사 후보들 간에 우선 순위를 결정한 후, 상기 용언 비교부의 비교 결과를 토대로 선행사를 결정하는 선행사 선택부를 포함하는 것을 특징으로 하는 한국어 문장에서의 생략 성분 복원 장치.
  6. 제 5 항에 있어서, 상기 선행사 선택부는,
    상기 선행사 후보들을 격틀 정보와 MI(Mutual Information) 정보를 이용하여 의미 필터링한 후, 상기의 의미 필터링이 되지 않은 선행사 후보들을 선행사 선호도 계산 규칙에 따라 우선 순위를 결정하는 것을 특징으로 하는 한국어 문장에서의 생략 성분 복원 장치.
  7. 제 5 항에 있어서, 상기 선행사 선택부는,
    상기 용언 비교부의 비교 결과,
    유사한 용언구가 탐색되면, 상기 유사 용언구의 주어를 생략 성분의 선행사로 결정하고, 상기 유사 용언구가 탐색되지 않으면, 상기 우선 순위가 가장 높은 선행사 후보를 상기 생략 성분의 선행사로 결정하는 것을 특징으로 하는 한국어 문장에서의 생략 성분 복원 장치.
  8. 제 5 항 내지 제 7 항 중 어느 한 항에 있어서, 상기 용언 비교부는,
    미리 결정된 비교 대상 용언구의 생략 성분을 제외한 명사구와 용언이 모두 동일한 제 1 조건과, 상기 생략 성분을 제외한 두 용언구가 동일 클러스터에 속하는 제 2 조건과, 상기 두 용언구의 생략 성분을 제외한 명사구와 용언 각각이 동일하거나 동일 클러스터에 속하는 제 3 조건 중 어느 하나에 해당하는 경우에 상기 두 용언구를 유사한 용언구로 판단하는 것을 특징으로 하는 한국어 문장에서의 생략 성분 복원 장치.
  9. 한국어 문장에서의 생략 성분을 복원하는 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체로서,
    상기 프로그램은,
    입력 문장 단락의 시작과 끝의 범위를 인식하는 과정;
    상기 인식된 문장 각각의 구조 분석 결과를 토대로 상기 인식된 문장을 용언구 단위의 형태로 저장하는 과정;
    상기 용언구 단위의 형태로 저장된 문장 각각에 대해 생략 성분을 복원해야 할 용언구가 있는지 탐색하는 과정;
    현재 탐색 문장 및 이전 탐색 문장에 나타난 명사구를 선행사 후보로 추출하고, 상기 추출된 선행사 후보들을 의미 필터링한 후 남은 선행사 후보들의 우선 순위를 결정하는 과정;
    상기 현재 탐색 문장에서 생략 성분을 복원해야 하는 용언구와 상기 저장 과정에서 저장된 이전 문장들의 용언구들을 비교하여 상기 현재 탐색 문장에서 생략 성분을 복원해야 하는 용언구와 유사한 용언구를 탐색하는 과정; 및
    상기 유사한 용언구를 탐색하는 과정의 탐색 결과를 토대로 상기 생략 성분의 선행사를 결정하는 과정을 포함하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록 매체.
KR1020060091102A 2006-09-20 2006-09-20 한국어 문장에서의 생략 성분 복원 방법 및 장치 KR100805191B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060091102A KR100805191B1 (ko) 2006-09-20 2006-09-20 한국어 문장에서의 생략 성분 복원 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060091102A KR100805191B1 (ko) 2006-09-20 2006-09-20 한국어 문장에서의 생략 성분 복원 방법 및 장치

Publications (1)

Publication Number Publication Date
KR100805191B1 true KR100805191B1 (ko) 2008-02-21

Family

ID=39382584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060091102A KR100805191B1 (ko) 2006-09-20 2006-09-20 한국어 문장에서의 생략 성분 복원 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100805191B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101983477B1 (ko) * 2017-11-28 2019-05-29 한국과학기술원 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
KR20190064910A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법
KR20190130905A (ko) * 2018-05-15 2019-11-25 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH023A (ja) * 1987-10-23 1990-01-05 Nippon Telegr & Teleph Corp <Ntt> 光ファイバ回線のアクセス方法及びそのコネクタプラグ
KR100641053B1 (ko) 2005-10-06 2006-11-02 한국전자통신연구원 생략된 문장성분 복원 장치 및 방법
KR100652901B1 (ko) 2005-12-07 2006-12-04 한국전자통신연구원 나열 및 병렬형 구문 분석 장치 및 방법
KR100725723B1 (ko) 2005-12-09 2007-06-08 한국전자통신연구원 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH023A (ja) * 1987-10-23 1990-01-05 Nippon Telegr & Teleph Corp <Ntt> 光ファイバ回線のアクセス方法及びそのコネクタプラグ
KR100641053B1 (ko) 2005-10-06 2006-11-02 한국전자통신연구원 생략된 문장성분 복원 장치 및 방법
KR100652901B1 (ko) 2005-12-07 2006-12-04 한국전자통신연구원 나열 및 병렬형 구문 분석 장치 및 방법
KR100725723B1 (ko) 2005-12-09 2007-06-08 한국전자통신연구원 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
한국어 복합문에서의 제로 대용어 처리를 위한 분해 알고리즘과 복원규칙(한국정보과학회논문지:소프트웨어및응용, 2002, 29(10), pp.736-746)
한국어 영 대용어 처리를 통한 문서요약의 성능 향상(2003 한국정보과학회 봅 학술발표논문집)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101983477B1 (ko) * 2017-11-28 2019-05-29 한국과학기술원 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
KR20190064910A (ko) * 2017-12-01 2019-06-11 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법
KR102157390B1 (ko) * 2017-12-01 2020-09-18 한국전자통신연구원 언어모델에 기반한 한국어 생략 성분 복원 방법
KR20190130905A (ko) * 2018-05-15 2019-11-25 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법
KR102528779B1 (ko) 2018-05-15 2023-05-08 한국전자통신연구원 한국어 생략어 복원을 위한 학습 말뭉치 생성 장치 및 방법

Similar Documents

Publication Publication Date Title
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
US9626358B2 (en) Creating ontologies by analyzing natural language texts
US9092514B2 (en) System and method for automatically summarizing fine-grained opinions in digital text
US20190278812A1 (en) Model generation device, text search device, model generation method, text search method, data structure, and program
US20130018650A1 (en) Selection of Language Model Training Data
US20060241944A1 (en) Method and system for generating spelling suggestions
US20180113856A1 (en) Producing training sets for machine learning methods by performing deep semantic analysis of natural language texts
US8949111B2 (en) System and method for identifying phrases in text
US7917353B2 (en) Hybrid text segmentation using N-grams and lexical information
Vincze et al. Dependency parsing for identifying Hungarian light verb constructions
Vechtomova Facet-based opinion retrieval from blogs
EP1391830A1 (fr) Système d&#39;extraction d&#39;informations dans un texte en langage naturel
CN110765313A (zh) 网络视频弹幕分类播放方法和系统
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN111985244A (zh) 一种针对文档内容的洗稿检测方法及装置
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
KR100805191B1 (ko) 한국어 문장에서의 생략 성분 복원 방법 및 장치
Bednarek Keyword analysis and the indexing of Aboriginal and Torres Strait Islander identity: A corpus linguistic analysis of the Australian Indigenous TV drama Redfern Now
Cemri et al. Unsupervised simplification of legal texts
US20070067291A1 (en) System and method for negative entity extraction technique
Begum et al. Analysis of legal case document automated summarizer
KR100338806B1 (ko) 목적언어 분석에 기반한 언어 번역 방법 및 장치
US20060136147A1 (en) Biological relationship event extraction system and method for processing biological information
Mendels et al. Collecting code-switched data from social media
CN108920452B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110131

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20111208

Year of fee payment: 20