KR20100072841A - 대용어 복원 방법 - Google Patents

대용어 복원 방법 Download PDF

Info

Publication number
KR20100072841A
KR20100072841A KR1020080131368A KR20080131368A KR20100072841A KR 20100072841 A KR20100072841 A KR 20100072841A KR 1020080131368 A KR1020080131368 A KR 1020080131368A KR 20080131368 A KR20080131368 A KR 20080131368A KR 20100072841 A KR20100072841 A KR 20100072841A
Authority
KR
South Korea
Prior art keywords
substitute
candidate
term
generating
terminology
Prior art date
Application number
KR1020080131368A
Other languages
English (en)
Other versions
KR101092355B1 (ko
Inventor
이창기
윤여찬
최미란
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131368A priority Critical patent/KR101092355B1/ko
Publication of KR20100072841A publication Critical patent/KR20100072841A/ko
Application granted granted Critical
Publication of KR101092355B1 publication Critical patent/KR101092355B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

본 발명은 대명사 혹은 명사 등으로 이루어진 대용어가 실제로 의미하는 것을 찾는 방법에 관한 것으로, 이를 위하여 입력 텍스트로부터 형태소 분석을 통한 개체명 인식 결과, 형태소 분석 및 구문 분석을 이용하여 대용어를 인식함과 더불어 개체명 인식 결과 또는 구문 분석 결과를 적어도 하나 이상의 선행어 후보를 생성하고, 선행어 후보를 이용하여 대용어를 복원한다.
이와 같이, 본 발명은 한국어 대용어 인식에 있어서 대명사 및 명사 대용어 및 생략된 대용어(영형 대용어)를 포함하여 대용어를 인식할 수 있을 뿐만 아니라 선행어 후보 생성 시에 명사구로 이루어진 선행어와 개체명으로 이루어진 선행어를 후보로 생성함으로써, 대용어가 실제 가리키는 의미를 정확하게 파악할 수 있다.
대용어, 생략, 한국어, 선행어, 형태소

Description

대용어 복원 방법{A METHOD FOR RESTORING NAMED ENTITY}
본 발명은 대용어 복원에 관한 것으로, 더욱 상세하게는 입력 텍스트에 대해서 형태소 분석, 개체명 인식 및 구문 분석을 수행하여 대용어를 인식함과 더불어 선행어 후보를 생성하고, 인식된 대용어가 실제 가리키는 선행어를 찾아주는 대용어 복원 방법에 관한 것이다.
본 발명은 지식 경제부 및 정보통신연구진흥원의 IT 신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호:2006-S-034-03, 과제명: 국가 IT온톨로지 인프라 기술개발].
한국어는 문장 성분의 생략이 자주 일어나며, 특허 주어 성분의 생략이 매우 빈번하다. 이러한 현상은 자연 언어 처리 시스템의 성능 저하의 한 원인이 된다. 한영 자동번역 시스템의 경우에 주어의 생략을 예로 들면, 주어가 생략된 한국어 문장을 주어 복원 과정을 거치지 않고 그대로 영어 문장으로 번역할 경우 주어가 기술되지 않은 비문으로 번역된다. 따라서, 생략된 한국어의 주어 성분을 복원함 으로써, 번역된 영어 문장에서 주어를 기술하여 주어야 올바른 영어 문장 번역이 가능하다.
생략 성분의 복원과 관련된 종래 기술들에 대해 설명하면 아래와 같다.
첫 번째로, 언어학적 지식에 기반한 규칙 기반의 처리 시스템이다. 이는 언어의 근접성, 평행성 등의 형태소 및 구문 정보를 이용한 규칙을 기반으로 하여 생략 성분의 선행자를 찾는 방법과 조응 현상을 이론적으로 설명한 중심화 이론 등에 기반하여 선행사를 찾는 방법으로 구분할 수 있다. 이러한 시스템은 특별한 언어 자원이 필요하지 않아 비교적 손쉽게 구현이 가능하며, 시스템 구축에 드는 비용에 비해 시스템의 성능이 비교적 좋다는 장점이 있다.
다른 방법으로, 코퍼스(corpus)에 기반한 정보를 이용하는 방법이다. 이는 조응 정보가 표시된 코퍼스(anaphora-annotated corpus) 또는 원시 코퍼스 등을 이용하여 생략 성분 복원을 위한 확률 정보를 추출하고, 이를 기반으로 선행사를 찾는 방법이다.
또 다른 방법으로, 입력 텍스트에 대한 구문 분석된 결과를 토대로 문장 성분 생략의 발생 여부를 파악하고, 생략 성분에 대한 선행사 후보를 파악하고, 산행사 후보들간에 우선 순위를 결정한 후 선행사를 결정하는 방법이 있다.
종래의 방법들은 생략된 성분의 복원만을 기술하고 있을 뿐 올바른 번역에 필요한 대명사 및 명사로 이루어진 대용어에 대한 해결 방안이 없다는 단점이 있다.
본 발명은 입력 텍스트에 대해 형태소 분석, 개체명 인식, 구문 분석을 수행하여 대용어뿐만 아니라 대용어가 생략된 경우 생략된 대용어를 복원하는 영형 대용어를 인식하고, 구문 분석 결과와 개체명 인식 결과로부터 대용어의 선행어 후보를 생성한 후 대용어와 선행어 후보들을 이용하여 대용어가 실제로 가리키는 선행어를 찾아준다.
본 발명에 따른 대용어 복원 방법은, 입력 텍스트로부터 형태소 분석을 통해 개체명을 인식하는 단계와, 상기 형태소 분석 및 상기 개체명 인식 결과와 구문 분석을 이용하여 대용어를 인식하는 단계와, 상기 개체명 인식 결과 또는 상기 구문 분석 결과를 적어도 하나 이상의 선행어 후보를 생성하는 단계와, 상기 선행어 후보를 이용하여 상기 대용어를 복원하는 단계를 포함한다.
본 발명에서의 상기 선행어 후보를 생성하는 단계는, 상기 형태소 분석을 통해 개체명 인식이 되는지를 판단하는 단계와, 상기 판단 결과, 상기 개체명 인식이 되지 않을 경우 상기 구문 분석 결과를 이용하여 상기 선행어 후보를 생성하는 단계와, 상기 판단 결과, 상기 개체명이 인식되는 경우 상기 개체명 인식 결과 및 상기 구문 분석 결과를 이용하여 상기 선행어 후보를 생성하는 단계를 포함한다.
본 발명은 상기 구문 분석 결과를 이용하여 명사구로 이루어진 상기 선행어 후보를 생성하고, 상기 선행어 후보에 대응되는 명사구에 의미 태깅을 수행하는 것이 바람직하다.
본 발명에서 상기 대용어를 복원하는 단계는, 상기 인식된 대용어와 상기 선행어 후보를 이용하여 대용어-선행어 후보로 이루어진 후보 리스트를 생성하는 단계와, 상기 후보 리스트의 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계와, 상기 선택된 대용어-선행어 후보의 대용어를 상기 선택된 대용어-선행어의 선행어 후보로 변경시키는 단계를 포함한다.
본 발명에서 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계는, 상기 후보 리스트 내 각각의 대용어-선행어 후보에 구문 정보, 의미 태킹 또는 개체명 인식 정보를 적용하여 자질을 생성하는 단계와, 기 생성된 대용어 참조 해결 모델을 이용하여 상기 대용어-선행어 후보들의 상기 자질에 대응되는 점수를 각각 계산하는 단계와, 상기 계산된 각 점수를 토대로 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계를 포함한다.
본 발명에서 대용어는, 상기 대용어가 생략된 영형 대용어 또는 대명사 및 명사로 이루어진 대용어인 것이 바람직하며, 상기 영형 대용어가 존재할 경우 상기 구문 분석 결과를 토대로 상기 영형 대용어를 임의의 대용어로 복원하여 인식하는 것이 바람직하다.
본 발명은 한국어 대용어 인식에 있어서 대명사 및 명사 대용어 및 생략된 대용어(영형 대용어)를 포함하여 대용어를 인식할 수 있을 뿐만 아니라 선행어 후보 생성 시에 명사구로 이루어진 선행어와 개체명으로 이루어진 선행어를 후보로 생성함으로써, 대용어가 실제 가리키는 의미를 정확하게 파악할 수 있다.
이하, 본 발명의 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 실시 예에 따른 문장에서의 대용어 복원 장치를 도시한 블록도이다.
도 1을 참조하면, 대용어 복원 장치는 객체명 인식부(100), 구분 분석부(110), 선행어 후보 생성부(120), 대용어 인식부(130), 데이터베이스(140) 및 대용어 복원부(150)를 포함한다.
객체명 인식부(100)는 입력 텍스트로부터 형태소 분석을 통해 개체명을 인식하는데, 즉 입력 텍스트의 각 단어들에 대한 형태소 분석을 실시하여 OPL(Organization Person Location)의 개체명을 인식한다.
구분 분석부(110)는 개체명 인식 결과를 이용하여 구문 분석 수행한 후 그 결과를 선행어 후보 생성부(120) 및 대용어 인식부(130)에 제공하는데, 즉 개체명 인식 결과를 이용하여 입력 텍스트 내의 명사구를 추출한 후 선행어 후보 생성부(120) 및 대용어 인식부(130)에 제공한다.
선행어 후보 생성부(120)는 객체명 인식부(100)에서 인식된 개체명 또는 구분 분석부(110)에서 제공받은 명사구 정보를 이용하여 선행어 후보를 생성하는데, 즉 구문 분석 결과를 토대로 제공받은 명사구의 중심어에 대해서 의미 태깅을 실시하고, 객체명 인식부(100)에서 인식된 개체명으로 이루어진 선행어 후보를 생성한다.
대용어 인식부(130)는 구문 분석 결과를 이용하여 명사 및 대명사 등으로 이루어진 대용어와 생략된 대용어, 즉 입력 텍스트 내 문장에서 생략된 명사 및 대명사 등으로 이루어진 생략된 대용어를 임의의 대용어로 복원한 후 이를 대용어 복원부(150)에 제공한다.
데이터베이스(140)에는 통계 기반으로 생성된 대용어 참조 해결 모델이 저장되어 있다.
대용어 복원부(150)는 인식된 대용어와 선행어 후보를 이용하여 대용어가 실제 가리키는 명사구 혹은 개체명에 해당되는 선행어 후보를 찾아 대용어를 복원시킨다. 즉, 대용어 복원부(150)는 대용어와 선행어 후보를 이용하여 대용어-선행어 후보로 이루어진 후보 리스트를 생성한 후 각각의 대용어-선행어 후보에 구문 정보 및 의미 태깅, 개체명 인식 정보 등을 적용하여 자질을 생성하고, 데이터베이스(140)에 저장된 대용어 참조 해결 모델을 이용하여 각각의 대용어-선행어 후보들의 점수를 각각 계산하여 가장 높은 점수를 갖는 대용어-선행어 후보를 선택함으로써, 대용어의 선행어를 결정한다.
상기와 같은 구성을 갖는 대용어 복원 장치가 대용어를 인식하고 이를 복원 하는 과정에 대해 도 2를 참조하여 설명한다.
도 2는 본 발명의 실시 예에 따라 대용어를 복원하는 과정을 도시한 흐름도이다.
먼저, 도 2를 참조하면, 입력 텍스트가 입력됨에 따라 객체명 인식부(100)는 형태소 분석을 통해 개체명을 인식한다(S200). 예를 들어, 객체명 인식부(100)는 "삼성전자(회장 이건희)는 DMB 기술을 개발하였다. 또한 CPU 기술도 보유하고 있다. 이 회사는 수원에 있다."와 같은 입력 텍스트가 입력됨에 따라 입력 텍스트에 대한 형태소 분석으로 통해 OPL에 대한 개체명을 인식, 즉 "<삼성전자:ORG>(회장 <이건희:PER>)는 DMB 기술을 개발하였다. 또한 CPU 기술도 보유하고 있다. 이 회사는 <수원:LOC>에 있다."와 같이 개체명을 인식한다.
그런 다음, 구분 분석부(110)는 형태소 분석 및 객체명 인식 결과를 토대로 구분 분석을 실시한 후 구분 분석 결과를 대용어 인식부(130)에 제공한다. 대용어 인식부(130)는 구분 분석 결과를 토대로 명사 및 대명사로 이루어진 대용어를 인식함과 더불어 대용어가 생략된 부분을 찾아 생략된 대용어(영형 대용어)를 복원시키는데(S202), 즉 상기의 입력 텍스트에서 "이 회사"라는 대용어를 인식함과 더불어 생략된 대용어인 "이 회사"를 복원한 후 이를 대용어 복원부(150)에 제공한다. 즉 상기 입력 텍스트의 구문 분석 결과 토대로 "삼성전자:ORG>(회장 <이건희:PER>)는 DMB 기술을 개발하였다. 또한 <생략된 대용어 복원:이 회사는> CPU 기술도 보유하고 있다. <이 회사:대용어>는 <수원:LOC>에 있다."와 같은 대용어를 인식함과 더불어 영형 대용어를 복원시킨다.
한편, 선행어 후보 생성부(120)는 객체명 인식부(100)에서 인식된 개체명을 이용하여 선행어 후보를 생성함과 더불어 구문 분석 결과를 토대로 인시된 명사구의 중심어 대해서 의미 태깅을 수행하여 선행어 후보를 생성(S204)하고, 생성된 선행어 후보들을 대용어 복원부(150)에 제공한다.
이후, 대용어 복원부(150)는 대용어와 선행어 후보를 이용하여 대용어-선행어 후보로 이루어진 후보 리스트를 생성하는데, 즉 "이 회사-삼성전자, 이 회사-이건희, 이 회사- 수원" 등과 같은 후보 리스트를 생성한다(S206).
그리고 나서, 대용어 복원부(150)는 후보 리스트의 각 대용어-선행어 후보의 구문 정보, 의미 태깅, 및 개체명 인식 정보 등을 이용하여 자질을 생성하고(S208), 데이터베이스(140)에 저장된 대용어 참조 해결 모델을 이용하여 각각의 대용어-선행어 후보들의 점수를 계산하여 가장 높은 점수를 갖는 대용어-선행어 후보를 선택한다(S210). 그런 다음, 대용어 복원부(150)는 선택된 대용어-선행어 후보를 이용하여 선택된 대용어의 선행어로 상기 선택된 대용어-선행어 후보의 선행어 후보를 결정하여 대용어를 복원시킨다(S212). 즉, 상기 입력 텍스트인 "삼성전자(회장 이건희)는 DMB 기술을 개발하였다. 또한 CPU 기술도 보유하고 있다. 이 회사는 수원에 있다."는 "<삼성전자:ORG>(회장 <이건희:PER>)는 DMB 기술을 개발하였다. 또한 <삼성전자:ORG>는 CPU 기술도 보유하고 있다. <삼성전자:ORG>는 <수원:LOC>에 있다."로 복원된다.
본 발명에서는 개체명이 인식되는 경우에 대해 설명하였지만, 개체명 인식부()에서 개체명이 인식되지 않을 경우 구문 분석 결과를 토대로 입력 텍스트에서 획득한 명사구의 중심어에 대한 의미 태깅을 수행하여 선행어 후보를 찾을 수 있는데, 이에 대한 설명은 아래와 같다.
먼저, "지식마이닝연구팀에서는 새로 Web QA 과제를 수행하고 있다. 이 프로젝트는 올해 3월에 시작되었다."와 같은 입력 텍스트가 입력되고, 개체명 인식이 되지 않으면, 구문 분석 결과, 즉 "<지식마이닝연구팀에서는:명사구> <새로:부사구> <Web QA 과제를:명사구> <수행하고 있다:동사구>. <이 프로젝트는:명사구> <올해 3월에:부사구> <시작되었다:동사구>." 추출된 명사구인 Web QA 과제의 중심어에 대해 의미 태깅을 수행하여 선행어 후보를 생성한 후 의미 태깅된 선행어 후보를 대용어 복원부(150)에 제공한다.
한편, 대용어 인식부(130)는 상기 입력 텍스트에서 "이 프로젝트"라는 대용어를 인식하고, 대용어 복원부(150)는 의미 태깅된 선행어 후보와 대용어 인식부(130)에서 인식된 대용어를 이용하여 S206, S208, S210, S212 단계를 수행함으로써, 대용어를 복원한다. 즉, "지식마이닝연구팀에서는 새로 Web QA 과제를 수행하고 있다. 이 프로젝트는 올해 3월에 시작되었다." 입력 텍스트를 "지식마이닝연구팀에서는 새로 Web QA 과제를 수행하고 있다. Web QA 과제는 올해 3월에 시작되었다."와 같이 복원시킨다.
본 발명의 실시 예에 따른 대용어 복원 장치는 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이터 저장 장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.
지금까지 본 발명의 바람직한 실시예에 국한하여 설명하였으나 본 발명의 기술이 당업자에 의하여 용이하게 변형 실시될 가능성이 자명하다. 이러한 변형된 실시 예들은 본 발명의 특허청구범위에 기재된 기술사상에 포함된다고 하여야 할 것이다.
도 1은 본 발명에 따른 대용어 복원 장치를 도시한 블록도이며,
도 2는 본 발명의 실시 예에 따라 대용어를 인식하고, 이를 복원하는 과정을 도시한 흐름도이다.
<도면의 주요부분에 대한 부호의 설명>
100 : 개체명 인식부 110 : 구문 분석부
120 : 선행어 후보 생성부 130 : 대용어 인식부
140 : 데이터베이스 150 : 대용어 복원부

Claims (7)

  1. 입력 텍스트로부터 형태소 분석을 통해 개체명을 인식하는 단계와,
    상기 형태소 분석 및 상기 개체명 인식 결과와 구문 분석을 이용하여 대용어를 인식하는 단계와,
    상기 개체명 인식 결과 또는 상기 구문 분석 결과를 적어도 하나 이상의 선행어 후보를 생성하는 단계와,
    상기 선행어 후보를 이용하여 상기 대용어를 복원하는 단계
    를 포함하는 대용어 복원 방법.
  2. 제 1 항에 있어서,
    상기 선행어 후보를 생성하는 단계는,
    상기 형태소 분석을 통해 개체명 인식이 되는지를 판단하는 단계와,
    상기 판단 결과, 상기 개체명 인식이 되지 않을 경우 상기 구문 분석 결과를 이용하여 상기 선행어 후보를 생성하는 단계와,
    상기 판단 결과, 상기 개체명이 인식되는 경우 상기 개체명 인식 결과 및 상기 구문 분석 결과를 이용하여 상기 선행어 후보를 생성하는 단계
    를 포함하는 대용어 복원 방법.
  3. 제 2 항에 있어서,
    상기 구문 분석 결과를 이용하여 명사구로 이루어진 상기 선행어 후보를 생성하고, 상기 선행어 후보에 대응되는 명사구에 의미 태깅을 수행하는 것을 특징으로 하는 대용어 복원 방법.
  4. 제 1 항에 있어서,
    상기 복원하는 단계는,
    상기 인식된 대용어와 상기 선행어 후보를 이용하여 대용어-선행어 후보로 이루어진 후보 리스트를 생성하는 단계와,
    상기 후보 리스트의 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계와,
    상기 선택된 대용어-선행어 후보의 대용어를 상기 선택된 대용어-선행어의 선행어 후보로 변경시키는 단계
    를 포함하는 대용어 복원 방법.
  5. 제 4 항에 있어서,
    상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계는,
    상기 후보 리스트 내 각각의 대용어-선행어 후보에 구문 정보, 의미 태킹 또는 개체명 인식 정보를 적용하여 자질을 생성하는 단계와,
    기 생성된 대용어 참조 해결 모델을 이용하여 상기 대용어-선행어 후보들의 상기 자질에 대응되는 점수를 각각 계산하는 단계와,
    상기 계산된 각 점수를 토대로 상기 대용어-선행어 후보들 중 어느 하나를 선택하는 단계
    를 포함하는 대용어 복원 방법.
  6. 제 1 항에 있어서,
    상기 대용어는, 상기 대용어가 생략된 영형 대용어 또는 대명사 및 명사로 이루어진 대용어인 것을 특징으로 하는 대용어 복원 방법.
  7. 제 6 항에 있어서,
    상기 영형 대용어가 존재할 경우 상기 구문 분석 결과를 토대로 상기 영형 대용어를 임의의 대용어로 복원하여 인식하는 것을 특징으로 하는 대용어 복원 방법.
KR1020080131368A 2008-12-22 2008-12-22 대용어 복원 방법 KR101092355B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080131368A KR101092355B1 (ko) 2008-12-22 2008-12-22 대용어 복원 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131368A KR101092355B1 (ko) 2008-12-22 2008-12-22 대용어 복원 방법

Publications (2)

Publication Number Publication Date
KR20100072841A true KR20100072841A (ko) 2010-07-01
KR101092355B1 KR101092355B1 (ko) 2011-12-09

Family

ID=42635934

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131368A KR101092355B1 (ko) 2008-12-22 2008-12-22 대용어 복원 방법

Country Status (1)

Country Link
KR (1) KR101092355B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487197A (zh) * 2020-11-06 2021-03-12 中科云谷科技有限公司 基于会议记录构建知识图谱的方法、装置及处理器
US11468123B2 (en) 2019-08-13 2022-10-11 Samsung Electronics Co., Ltd. Co-reference understanding electronic apparatus and controlling method thereof

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025659A (ja) * 2003-07-01 2005-01-27 Nippon Telegr & Teleph Corp <Ntt> ゼロ代名詞解消方法、解消装置、解消プログラムおよびプログラムを記録した記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468123B2 (en) 2019-08-13 2022-10-11 Samsung Electronics Co., Ltd. Co-reference understanding electronic apparatus and controlling method thereof
CN112487197A (zh) * 2020-11-06 2021-03-12 中科云谷科技有限公司 基于会议记录构建知识图谱的方法、装置及处理器

Also Published As

Publication number Publication date
KR101092355B1 (ko) 2011-12-09

Similar Documents

Publication Publication Date Title
Bott et al. Can spanish be simpler? lexsis: Lexical simplification for spanish
KR100546743B1 (ko) 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
KR20140128346A (ko) 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
Eger et al. Lemmatization and Morphological Tagging in German and Latin: A Comparison and a Survey of the State-of-the-art
US20150161096A1 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
KR20140052328A (ko) Rdf 기반의 문장 온톨로지 생성 장치 및 방법
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
Comas et al. Sibyl, a factoid question-answering system for spoken documents
Issam et al. Goud. ma: a news article dataset for summarization in moroccan darija
KR101092355B1 (ko) 대용어 복원 방법
KR101134455B1 (ko) 음성 인식 장치 및 그 방법
Fernandes et al. A machine learning approach to Portuguese clause identification
Nambiar et al. Attention based abstractive summarization of malayalam document
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
US8977538B2 (en) Constructing and analyzing a word graph
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
Ariaratnam et al. A shallow parser for Tamil
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
Solberg A corpus builder for Wikipedia
Demir Context tailoring for text normalization
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Kulick Exploiting separation of closed-class categories for Arabic tokenization and part-of-speech tagging

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160328

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161013

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180313

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190304

Year of fee payment: 8