KR102576350B1 - 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법 - Google Patents

입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법 Download PDF

Info

Publication number
KR102576350B1
KR102576350B1 KR1020210017290A KR20210017290A KR102576350B1 KR 102576350 B1 KR102576350 B1 KR 102576350B1 KR 1020210017290 A KR1020210017290 A KR 1020210017290A KR 20210017290 A KR20210017290 A KR 20210017290A KR 102576350 B1 KR102576350 B1 KR 102576350B1
Authority
KR
South Korea
Prior art keywords
event structure
structure frame
processing system
language processing
verb
Prior art date
Application number
KR1020210017290A
Other languages
English (en)
Other versions
KR20220114146A (ko
Inventor
정민화
임서현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020210017290A priority Critical patent/KR102576350B1/ko
Publication of KR20220114146A publication Critical patent/KR20220114146A/ko
Application granted granted Critical
Publication of KR102576350B1 publication Critical patent/KR102576350B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자연어 추론과 자연어 이해과제를 해결하기 위해 '사건구조프레임 주석 워드넷이라 명명한 자원과 그 자원을 이용하여 입력문장에 사건구조프레임을 자동 주석하는 방법에 관한 것으로 이를 통해 동사의 사건구조에 따른 다양한 추론을 가능케 한다. 본 발명은 GESL을 이용하여 워드넷에 사건구조프레임을 반자동 주석한 언어자원인 ESFWN과 자동 주석 도구를 연결한 것으로, ESFWN이 WordNet과 직접 대응함으로써 WordNet의 정보 이용과 다른 언어로의 적용을 용이하게 한다. 또한, 본 발명에 채택된 자동 주석 도구는 성능이 좋은 최신 WSD(Word Sense Disambiguation) 알고리즘과 SRL(Semantic Role Labeling) 시스템을 도입함으로써 훈련 데이터셋을 준비해야 하는 비용도 절감시킨다.

Description

입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법{Automatic Event Structure Annotation Method of Sentence using Event Structure Frame-annotated WordNet}
본 발명은 자연어 추론과 자연어 이해과제를 해결하기 위한 입력문장 자동 주석 방법에 관한 것으로, 특히 상세하게는 '사건구조프레임 주석 워드넷(Event Structure Frame-annotated WordNet: ESFWN)'이라 명명한 자원과 그 자원을 이용하여 입력문장에 사건구조프레임을 자동 주석하는 방법에 관한 것이다.
최근 자연어 추론과 이해에 관한 관심이 높아지면서 구글에서 개발한 자연어 처리 신경망 구조인 BERT(Bidirectional Encoder Representations from Transformers) 기반의 자연어추론이 꽤 좋은 성능을 얻고 있지만, 인간의 다양한 추론 유형을 모두 잘 추출하지는 못한다는 한계가 있다. 특히 동사의 사건구조와 관련된 추론은 현재 딥러닝 기반 추론 시스템이 해결하지 못하는 과제이다. 따라서 여전히 인간의 언어 추론을 잘 반영하기 위해서는 다양한 추론 유형을 반영하는 지식 베이스나 언어자원이 필요하다. 프린스턴 대학교에서 구축한 유의어 DB로 유의어 사이의 관계를 그래프로 정의하고 있는 방대한 데이터인 워드넷(WordNet)은 영어의 의미 어휘어미 사전으로, 영어 단어를 'synset'이라는 유의어 집단으로 분류하여 간략하고 일반적인 정의를 제공하고, 이러한 어휘목록 사이의 다양한 의미 관계를 기록한다. 이렇게 함으로써 사전(단어집)과 시소러스(유의어·반의어 사전)의 배합을 만들어, 보다 직관적으로 사용할 수 있고 자동화된 본문 분석과 인공 지능 응용을 뒷받침하려는 것이다. 이 WordNet을 이용하여 유사한 단어를 파악할 수 있고, 각 단어의 유사도를 계산할 수 있다.
워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘 의미 정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 그러므로 워드넷 등의 어휘부에 연결하여 핵심적인 어휘 어미 정보인 사건구조를 추출할 수 있는 프레임이 필요한 실정이다. 2018년 10월 12일 공개된 제30회 한글 및 한국어 정보처리 학술대회 논문집에 실린 임서현의 논문 "워드넷 신셋에 대한 사건구조 프레임 반자동 태깅"은 GESL(The Generator of the Event Structure Lexicon)을 사용하여 워드넷 신셋에 '사건구조 프레임(Event Structure Frame)'을 주석하는 방법을 개시하였다. 사건구조 프레임은 동사(verb)의 의미를 해부하여 그 동사가 표현하는 사건의 발생 전과 후의 상태를 주석하기 위한 프레임이다.
상기 연구는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 하며, 텍스트 추론, 자연어처리, 멀티 모달 태스크 등에도 매우 유용할 것이다. 그러나 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이라는 한계를 가진다.
이와 같이 워드넷에 GESL과 직접 검토를 거친 반자동 주석 결과물은 사건구조프레임 주석 워드넷으로 불리며, 인간의 언어 추론을 잘 반영하기 위한 자동 주석방법의 개발이 요구되는 상황이다.
임서현, "워드넷 신셋에 대한 사건구조 프레임 반자동 태깅", 제30회 한글 및 한국어 정보처리 학술대회 논문집, 2018. 10. 12.
본 발명은 인간의 다양한 언어 추론을 잘 반영하기 위해, 종래의 문장 주석도구가 해결하지 못했던 주석방법인 다양한 추론 유형 추출을 가능하게 하는 입력 문장의 자동 주석 방법을 제공하고자 한다.
본 발명은 프로세서 및 메모리를 포함하는 언어처리 시스템에서, 입력 문장을 사건구조프레임(Event Structure Frame: ESF)이 주석된 문장으로 출력하는 자동 주석방법으로, 상기 방법은: 상기 언어처리 시스템에 의해, 동사를 포함하는 영어 문장을 입력하는 단계; 상기 언어처리 시스템에 의해, 상기 입력된 영어 문장에서 동사를 추출하는 단계; 상기 언어처리 시스템에 의해, 사전 정의된 사건구조프레임 유형(Event Structure Frame type)과 그에 따른 동사를 분류하는 사건구조프레임 목록(ESF-list)을 구비하고, 영어 단어의 유의어 집단인 신셋(SynSet)을 포함하는 언어자원인 사건구조프레임 주석 워드넷(ESFWN)에 연결하는 단계; 상기 언어처리 시스템에 의해, 상기 추출된 동사에 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘을 이용하여 상기 동사의 신셋과 연결되는 아이디인 오프셋을 출력하는 단계; 상기 언어처리 시스템에 의해, 상기 출력된 오프셋을 이용하여 상기 ESFWN에서 상기 동사의 사건구조프레임 유형을 찾아 출력하는 단계; 상기 언어처리 시스템에 의해, 상기 출력된 사건구조프레임 유형에 해당하는 사건구조프레임(ESF)을 사건구조프레임 목록(ESF-List)에서 찾아 출력하는 단계; 상기 언어처리 시스템에 의해, 상기 출력된 동사의 사건구조프레임에서 시간순서를 가진 각각에 시간순서 해당 동사를 삽입하는 단계; 상기 언어처리 시스템에 의해, 의미역 라벨러(Semantic Role Labeler)에 연결하는 단계; 상기 언어처리 시스템에 의해, 상기 입력된 영어문장에 의미역 라벨링 알고리즘을 적용하여 동사 고유의 특성에 따라 구성성분이 갖는 의미상 역할인 의미역을 출력하는 단계; 상기 언어처리 시스템에 의해, 논항 삽입 알고리즘을 이용하여 상기 출력된 의미역 해당 텍스트를 사건구조프레임의 각 논항 위치에 삽입하는 단계; 및 상기 언어처리 시스템에 의해, 상기 논항이 삽입된 동사중심 사건구조 문장을 출력하는 단계를 포함하고, 상기 단어 중의성 해소(WSD) 알고리즘은 EWISER 또는 EWISER-Wrapper이며, 상기 의미역 라벨링 알고리즘은 AllenNLP SRL인, 자동 주석방법을 제공한다.
본 발명은 또한, 상기 사건구조프레임 주석 워드넷(ESFWN)은, 23개의 사건구조프레임(ESF) 유형을 가지는 주석도구인 GESL(Generator of the Event Structure Lexicon)을 영어동사에 적용하여 23개 유형으로 분류하고, 이를 전문가가 점검하여 68개 유형을 가진 사건구조프레임 목록(ESF-list)으로 최종 분류하여, 상기 워드넷의 2431개 동사의 신셋 24,601개가 각각 상기 68개 ESF-list 유형 중 하나에 연결되도록 상기 2431개 동사의 신셋 24,601개 각각을 해당 동사, 해당 신셋번호, 해당 오프셋 번호, 해당 사건구조프레임 유형을 포함하는 포맷으로 주석한, 68개의 사건구조프레임 유형을 가진 언어자원인, 자동 주석방법을 제공한다.
본 발명은 또한, 상기 사건구조프레임은, 하나의 동사가 지시하는 사건을 시간적 순서를 가진 복수개의 하위사건으로 구성하고, 상기 복수개의 하위사건은 전 상태, 진행 상태, 및 후 상태를 나타내는, 자동 주석방법을 제공한다.
본 발명은 또한, 상기 논항 삽입 알고리즘은, 상기 출력된 의미역을 사건구조프레임의 각 하위사건 해당 위치에 삽입하는, 자동 주석방법을 제공한다.
본 발명은 또한, 상기 시간순서 해당 동사는, 불규칙 굴절 동사 사전에서 추출된 불규칙 동사 및 동사굴절 알고리즘을 적용한 동사의 과거분사형, 현재분사형을 포함하는, 자동 주석방법을 제공한다.
본 발명은 또한, 프로세서 및 메모리를 포함하는 언어처리 시스템에서, 입력 문장을 사건구조프레임(ESF)이 주석된 문장으로 출력하는 자동 주석 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장매체로, 상기 저장매체는: 상기 언어처리 시스템에 의해, 동사를 포함하는 영어 문장을 입력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 입력된 영어 문장에서 동사를 추출하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 사전 정의된 사건구조프레임 유형과 그에 따른 동사를 분류하는 사건구조프레임 목록(ESF-list)을 구비하고, 영어 단어의 유의어 집단인 신셋(SynSet)을 포함하는 언어자원인 사건구조프레임 주석 워드넷에 연결하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 추출된 동사에 단어 중의성 해소 알고리즘을 이용하여 상기 동사의 신셋과 연결되는 아이디인 오프셋을 출력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 출력된 오프셋을 이용하여 상기 ESFWN에서 상기 동사의 사건구조프레임 유형을 찾아 출력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 출력된 사건구조프레임 유형에 해당하는 사건구조프레임(ESF)을 사건구조프레임 목록(ESF-List)에서 찾아 출력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 출력된 동사의 사건구조프레임에서 시간순서를 가진 각각에 시간순서 해당 동사를 삽입하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 의미역 라벨러(Semantic Role Labeler)에 연결하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 입력된 영어문장에 의미역 라벨링 알고리즘을 적용하여 동사 고유의 특성에 따라 구성성분이 갖는 의미상 역할인 의미역을 출력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 논항 삽입 알고리즘을 이용하여 상기 출력된 의미역 해당 텍스트를 사건구조프레임의 각 논항 위치에 삽입하도록 프로그램된 코드 부분; 및 상기 언어처리 시스템에 의해, 상기 논항이 삽입된 동사중심 사건구조 문장을 출력하도록 프로그램된 코드 부분을 포함하고, 상기 단어 중의성 해소 알고리즘은 EWISER 또는 EWISER-Wrapper이며, 상기 의미역 라벨링 알고리즘은 AllenNLP SRL인, 컴퓨터 판독가능 저장매체를 제공한다.
본 발명은 워드넷을 GESL로 반자동 주석한 언어자원인 ESFWN과 자동 주석 도구를 연결한 것으로, ESFWN이 WordNet과 직접 대응함으로써 WordNet의 정보 이용과 다른 언어로의 적용을 용이하게 한다. 또한, 본 발명에 채택된 자동 주석 도구는 성능이 좋은 최신 WSD(Word Sense Disambiguation) 알고리즘과 SRL(Semantic Role Labeling) 시스템을 도입함으로써 훈련 데이터셋을 준비해야 하는 비용도 절감시킨다.
도 1은 본 발명의 일 실시예에 따른, 사건구조프레임 자동 주석 알고리즘 구조를 나타내는 개념도이다.
도 2는 본 발명의 일 실시예에 따른, 미리 정의하여 목록화된 사건구조프레임의 유형을 정리한 표이다.
다양한 양상이 도면을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항이 개시된다. 그러나 이러한 양상은 각각의 구체적인 세부사항 없이도 실행될 수 있다는 점이 인식될 것이다. 이후의 기재 및 첨부된 도면은 하나 이상의 양상에 대한 특정한 예시적인 양상을 상세하게 기술한다. 하지만, 이러한 양상은 예시적인 것이고 다양한 양상의 원리에서 다양한 방법 중 일부가 이용될 수 있으며 기술되는 설명은 그러한 양상 및 그 균등물을 모두 포함하고자 하는 의도이다.
다양한 양상 및 특징이 다수의 장치, 모듈 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템이 추가적인 장치, 부품, 구성품 등을 포함할 수 있고 그리고/또는 도면들과 관련하여 논의된 장치, 부품, 구성품 등 모두를 포함할 수 없다는 점 또한 이해되고 인식되어야 한다.
본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술된 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않아야 한다. 아래에서 사용되는 용어인 '시스템' '서버' 단말기 등은 일반적으로 컴퓨터 관련 실체(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다.
더불어, 용어 "또는"은 배타적 "또는"이 아니라 내포적 "또는"을 의미하는 것으로 의도된다. 즉, 달리 특정되지 않거나 문맥상 명확하지 않은 경우에, "X는 A 또는 B를 이용한다"는 자연적인 내포적 치환 중 하나를 의미하는 것으로 의도된다. 즉, X가 A를 이용하거나; X가 B를 이용하거나; 또는 X가 A 및 B 모두를 이용하는 경우, "X는 A 또는 B를 이용한다"가 상기 경우 어느 것으로도 적용될 수 있다. 또한, 본 명세서에 사용된 "및/또는"이라는 용어는 열거된 관련 항목 중 하나 이상 항목의 가능한 모든 조합을 지칭하고 포함하는 것으로 이해되어야 한다.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징, 단계, 동작, 모듈, 및/또는 구성요소가 존재함을 의미하지만, 하나 이상의 다른 특징, 단계, 동작, 모듈, 구성요소, 및/또는 이 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다. 더불어, 본 명세서에서 제1 및 제2 등의 용어가 다양한 구성요소를 설명하기 위해 사용될 수 있지만, 이들 구성요소는 이러한 용어에 의해 한정되지 아니한다. 즉, 이러한 용어는 둘 이상의 구성요소 간의 구별을 위해서 사용될 뿐이고, 순서 또는 우선순위를 의미하는 것으로 해석되지 않아야 한다. 또한, 달리 특정되지 않거나 단수 형태를 지시하는 것으로 문맥상 명확하지 않은 경우에, 본 명세서와 청구범위에서 단수는 일반적으로 "하나 또는 그 이상"을 의미하는 것으로 해석되어야 한다. 이하 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.
도 1은 본 발명의 일 실시예에 따른, 사건구조프레임 자동 주석 알고리즘 구조를 나타내는 개념도이다. 본 발명은 영어 문장이 텍스트 형식으로 입력되면 그 문장에 필요로 하는 라벨, 태그 또는 주석을 붙여주는 작업을 자동으로 수행하는 주석기(automatic annotator)에 관한 것으로, 그 예는 다음과 같다. 주석기는 태거(tagger) 또는 라벨러(labeler)라고도 한다.
(1) 품사 태깅 (Part-Of-Speech tagging)
입력: John killed Mary. → 품사 태거 → 출력: John<pronoun> killed<verb> Mary<pronoun>
(2) 의미역 라벨링 (Semantic Role Labeling)
입력: John killed Mary. → 의미역 라벨러 → 출력: [ARG0: John] [V: killed] [ARG1: Mary] .
(3) 정서 분석 (Sentiment analysis)
입력: I love my LG gram notebook. → 정서 분석기 → 출력: I love my LG gram notebook<positive>
상기 (2)의미역 라벨링 항목에서 의미역은 동사나 형용사의 고유한 특성에 따라 논항이 갖게 되는 의미상의 역할을 말하고, 논항이란 동사나 형용사가 문장 안에서 필수적으로 취하는 성분으로 술어의 의미적 구조에 따라 하위 범주화하는 명사구 또는 명사상당구이다.
주석기 개발을 위해서는 그 주석기가 제대로 주석할 수 있도록 훈련하기 위해 사람이 맞다고 판단하는 라벨을 주석한 훈련용 말뭉치(corpus)를 사용하거나 워드넷과 같은 사전이나 지식베이스를 사용한다. 본 발명은 훈련용 말뭉치를 이용하지 않고 사건구조를 주석하는 주석 시스템인 GESL(The Generator of the Event Structure Lexicon)로 워드넷을 주석한 언어자원인 사건구조프레임 주석 워드넷(Event Structure Frame-annotated WordNet: ESFWN)을 사용한다. 그 이유는 워드넷이 가장 풍부한 단어 의미 정보를 갖고 있고, 가장 많이 사용되며, 단어 중의성 해소 알고리즘인 EWISER(Enhanced Word sense disambiguation Integrating Synset Embeddings and Relations)와 같은 워드넷을 이용하는 단어 의미 결정 알고리즘이 현재 매우 좋은 성능을 보이기 때문에 ESFWN을 이용하는 것이 코퍼스를 이용하는 것보다 더 효과적이기 때문이다. ESFWN을 이용하면 따로 시간과 노력을 많이 들여 훈련 코퍼스를 구축할 필요 없이 좋은 단어 의미 결정 알고리즘을 선택하는 것만으로 사건구조프레임 자동 주석기가 좋은 결과를 낼 수 있다.
본 발명은 프로세서 및 메모리를 포함하는 언어처리 시스템에서, 입력 문장을 사건구조프레임(Event Structure Frame: ESF)이 주석된 문장으로 출력하는 자동 주석방법으로, 상기 방법은: 상기 언어처리 시스템에 의해, 동사를 포함하는 영어 문장을 입력하는 단계; 상기 언어처리 시스템에 의해, 상기 입력된 영어 문장에서 동사를 추출하는 단계; 상기 언어처리 시스템에 의해, 사전 정의된 사건구조프레임 유형(Event Structure Frame type)과 그에 따른 동사를 분류하는 사건구조프레임 목록(ESF-list)을 구비하고, 영어 단어의 유의어 집단인 신셋(SynSet)을 포함하는 언어자원인 사건구조프레임 주석 워드넷(Event Structure Frame-annotated WordNet: ESFWN)에 연결하는 단계; 상기 언어처리 시스템에 의해, 상기 추출된 동사에 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘을 이용하여 상기 동사의 신셋과 연결되는 아이디인 오프셋을 출력하는 단계; 상기 언어처리 시스템에 의해, 상기 출력된 오프셋을 이용하여 상기 ESFWN에서 상기 동사의 사건구조프레임 유형을 찾아 출력하는 단계; 상기 언어처리 시스템에 의해, 상기 출력된 사건구조프레임 유형(Event Structure Frame type)에 해당하는 사건구조프레임(ESF)을 사건구조프레임 목록(ESF-List)에서 찾아 출력하는 단계; 상기 언어처리 시스템에 의해, 상기 출력된 동사의 사건구조프레임에서 시간순서를 가진 각각에 시간순서 해당 동사를 삽입하는 단계; 상기 언어처리 시스템에 의해, 의미역 라벨러(Semantic Role Labeler)에 연결하는 단계; 상기 언어처리 시스템에 의해, 상기 입력된 영어문장에 의미역 라벨링 알고리즘을 적용하여 동사 고유의 특성에 따라 구성성분이 갖는 의미상 역할인 의미역을 출력하는 단계; 상기 언어처리 시스템에 의해, 논항 삽입 알고리즘을 이용하여 상기 출력된 의미역 해당 텍스트를 사건구조프레임의 각 논항 위치에 삽입하는 단계; 및 상기 언어처리 시스템에 의해, 상기 논항이 삽입된 동사중심 사건구조 문장을 출력하는 단계를 포함한다. 본 발명의 일 구현예에서 상기 사건구조프레임 목록은 사건구조프레임의 형태에 따라 분류된 68개의 목록으로, 사건구조프레임의 형태와 해당 프레임으로 구성된다. 워드넷에 있는 모든 영어 동사에 대해 각 신셋은 이 목록에 있는 68개 사건구조프레임 중 하나와 연결된다.
도 2는 본 발명의 일 실시예에 따른, 미리 정의하여 목록화된 사건구조프레임의 유형을 정리한 표이다. 본 발명의 일 구현예에서, 상기 사건구조프레임 주석 워드넷(Event Structure Frame-annotated WordNet: ESFWN)은, 23개의 사건구조프레임(Event Structure Frame: ESF) 유형을 가지는 주석도구인 GESL(Generator of the Event Structure Lexicon)을 영어동사에 적용하여 23개 유형으로 분류하고, 이를 전문가가 점검하여 68개 유형을 가진 사건구조프레임 목록(ESF-list)으로 최종 분류하여, 상기 워드넷의 2431개 동사의 신셋 24,601개가 각각 상기 68개 ESF-list 유형 중 하나에 연결되도록 상기 2431개 동사의 신셋 24,601개 각각을 해당 동사, 해당 신셋번호, 해당 오프셋 번호, 해당 사건구조프레임 유형을 포함하는 포맷으로 주석한, 68개의 사건구조프레임 유형을 가진 언어자원이다. 본 발명의 일 구현예에서, 상기 사건구조프레임은, 하나의 동사가 지시하는 사건을 시간적 순서를 가진 복수개의 하위사건으로 구성하고, 상기 복수개의 하위사건은 전 상태, 진행 상태, 및 후 상태를 나타낸다.
신셋은 워드넷에서 분류하는 유의어집단의 이름이다. 모든 신셋은 단어의 동의어 집합 또는 단어들이 순서대로 놓여 특정 의미를 형성하는 연어 관계를 포함한다. 그러므로 서로 다른 의미의 단어는 서로 다른 신셋에 포함된다. 신셋의 의미는 간략하게 정의하는 주석이나 정의 또는 예문으로 보다 명확해진다. 대부분의 신셋은 다른 동의어집합과 몇 개의 의미적 관계로 연결되어 있고, 이런 관계는 단어의 유형에 따라 다르다. 동사의 경우는 상위어, 양태어, 함의, 등위어 등을 포함한다. 상위어(hypernym)는 X라는 행동이 Y의 한 종류일 때 동사 Y가 동사 X에 대한 관계(움직이다는 여행하다의 상위어)이다. 양태어(troponym)는 Y라는 행동이 특정 상항에서 X를 하는 경우라면 동사 Y가 동사 X에 대한 관계(더듬다는 말하다의 양태어)이다. 함의(entailment)는 X를 할 때 반드시 Y를 하게 된다면 X는 Y를 함의(코골이는 잠을 함의)한다고 한다.
본 발명의 일 구현예에서, 상기 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘은 EWISER 또는 EWISER-Wrapper이며, 상기 의미역 라벨링 알고리즘은 AllenNLP SRL이다. EWISER는 신경망 학습에 어휘지식기반 LKB(Lexical Knowledge Bases) 그래프를 더한 단어 중의성 해소 알고리즘으로 현재 80% 이상의 정확도를 나타낸다. 문장이 텍스트로 입력되면 문장 내 모든 단어에 대해서 워드넷 신셋과 연결되는 아이디인 오프셋을 출력한다. 또한 EWISER-Wrapper는 EWISER를 서브 프로세스로 불러와 입력된 텍스트에 적용하여 동사의 신셋과 연결되는 아이디인 오프셋을 출력하는 알고리즘이다. 그러므로 입력된 문장의 텍스트에 EWISER-Wrapper를 적용하면 EWISER가 서브 프로세서로 호출되어 실행된 결과 문장이 포함하는 동사의 오프셋을 출력하게 된다. 본 발명의 일 구현예에서 AllenNLP 의미역 라벨러 (SRL)는 다음 URL에서 접근 가능하다. https://demo.allennlp.org/semantic-role-labeling/semantic-role-labeling
본 발명의 일 구현예에서 상기 논항 삽입 알고리즘은, 상기 출력된 의미역을 사건구조프레임의 각 하위사건 해당 위치에 삽입하는 것으로, 사건구조 프레임 할당 알고리즘은 다음과 같다.
1) 사건구조프레임 타입 추출
EWISER Wrapper를 입력 문장에 적용해 얻은 동사의 오프셋과 동일한 ESFWN의 오프셋을 키로 하여 ESFWN에서 사건구조프레임 타입 호출
2) 사건구조프레임 타입에 해당하는 프레임 불러오기
ESFWN의 etype에 해당하는 ESF를 ESF list에서 불러오기
3) 프레임 하위사건에 동사 삽입
ESF의 각 하위사건 se에서 V-ed나 V-ing에 동사 삽입 (이 때 동사 굴절 알고리즘 적용하여 V-ed는 과거분사형, V-ing는 진행형으로 삽입)
4) 프레임 하위사건에 논항 삽입
ESF의 각 하위사건 se에서 논항 자리에 적절한 텍스트 삽입
- 입력 문장에 AllenNLP 의미역 라벨러(Semantic Role Labeler) 적용하여 <의미역: 텍스트> 추출 (의미역 주석 예: [ARG0: John] [V: killed] [ARG1: Mary])
- 추출된 의미역과 하위사건 논항 연결
예를 들어 ARG0의 텍스트는 AGENT 자리에, ARG1의 텍스트는 THEME 자리에 넣으면 AGENT: John, THEME: Mary가 된다.
본 발명의 일 구현예에서 상기 시간순서 해당 동사는, 불규칙 굴절 동사 사전에서 추출된 불규칙 동사 및 동사굴절 알고리즘을 적용한 동사의 과거분사형, 현재분사형을 포함한다. 이에 따른 자동 주석기 프로세스는 다음과 같다. 본 발명의 일 구현예에서 상기 불규칙 굴절 동사 사전은 사건구조프레임 내의 하위사건마다 동사를 삽입해야 하므로, 과거분사나 현재분사를 삽입하는 경우의 불규칙을 자동 처리하기 위한 것으로 미리 구축되어 있는 사전이다.
(실시예)
본 발명의 일 구현예에 따른 입력문장 (John arrived in Seoul yesterday.)에 대한 자동 주석 방법은 다음과 같다.
(1) 입력: 영어 문장 텍스트 (John arrived in Seoul yesterday.)
(2) 동사 의미 결정 (EWISER & EWISER Wrapper)
동사 arrived를 추출하고, EWISER Wrapper를 적용해서 동사 arrive의 의미를워드넷 신셋과 오프셋으로 출력한다.
(3) 사건구조프레임 타입 호출
출력된 워드넷 신셋과 오프셋과 동일한 오프셋과 신셋을 ESFWN에 매핑하고, ESFWN에서 해당 ESF_TYPE을 출력한다.
(4) 사건구조프레임 호출
출력된 ESF_TYPE을 ESF_lib에 매핑하고, 해당 ESF를 출력한다.
(5) 동사 삽입
출력된 ESF에서 각 하위사건 se마다 V-ing가 있으면 동사의 진행형 arriving을, V-ed가 있으면 분사형 arrived를 동사 위치에 삽입한다.
(6) 논항 삽입
최초 입력 텍스트에 AllenNLP 의미역 라벨러(Semantic Role Labeler)를 적용해서 의미역을 주석한다.
주석된 의미역 해당 텍스트를 논항 위치에 삽입한다. 여기서 AllenNLP 의미역 라벨링 결과와 사건구조프레임 하위사건의 논항 자리를 연결하는 것은 논항 할당 알고리즘을 통해서 한다.
(7) 출력
동사 arrive의 사건구조프레임을 출력한다.
본 발명의 일 구현예에서 상기 방법은 프로세서 및 메모리를 포함하는 언어처리 시스템에서, 입력 문장을 사건구조프레임(ESF)이 주석된 문장으로 출력하는 자동 주석 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장매체로 구현된다. 상기 저장매체는: 상기 언어처리 시스템에 의해, 동사를 포함하는 영어 문장을 입력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 입력된 영어 문장에서 동사를 추출하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 사전 정의된 사건구조프레임 유형(Event Structure Frame type)과 그에 따른 동사를 분류하는 사건구조프레임 목록(ESF-list)을 구비하고, 영어 단어의 유의어 집단인 신셋(SynSet)을 포함하는 언어자원인 사건구조프레임 주석 워드넷(Event Structure Frame-annotated WordNet: ESFWN)에 연결하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 추출된 동사에 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘을 이용하여 상기 동사의 신셋과 연결되는 아이디인 오프셋을 출력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 출력된 오프셋을 이용하여 상기 ESFWN에서 상기 동사의 사건구조프레임 유형을 찾아 출력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 출력된 사건구조프레임 유형(Event Structure Frame type)에 해당하는 사건구조프레임(ESF)을 사건구조프레임 목록(ESF-List)에서 찾아 출력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 출력된 동사의 사건구조프레임에서 시간순서를 가진 각각에 시간순서 해당 동사를 삽입하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 의미역 라벨러(Semantic Role Labeller)에 연결하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 상기 입력된 영어문장에 의미역 라벨링 알고리즘을 적용하여 동사 고유의 특성에 따라 구성성분이 갖는 의미상 역할인 의미역을 출력하도록 프로그램된 코드 부분; 상기 언어처리 시스템에 의해, 논항 삽입 알고리즘을 이용하여 상기 출력된 의미역 해당 텍스트를 사건구조프레임의 각 논항 위치에 삽입하도록 프로그램된 코드 부분; 및 상기 언어처리 시스템에 의해, 상기 논항이 삽입된 동사중심 사건구조 문장을 출력하도록 프로그램된 코드 부분을 포함한다. 본 발명의 일 구현예에서, 상기 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘은 EWISER 또는 EWISER-Wrapper이며, 상기 의미역 라벨링 알고리즘은 AllenNLP SRL인, 컴퓨터 판독가능 저장매체이다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 씌여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 관리서버 및/또는 데이터베이스에 저장되고, 앱에 의해 실행될 수 있다.
한편, 여기서 제시된 다양한 실시예들은 방법, 장치, 또는 표준 프로그래밍 및/또는 엔지니어링 기술을 사용한 제조 물품(article)으로 구현될 수 있다. 용어 "제조 물품"은 임의의 컴퓨터 판독가능한 장치로부터 액세스 가능한 컴퓨터 프로그램, 캐리어, 또는 매체(media)를 포함한다. 예를 들어, 컴퓨터 판독가능한 매체는 자기 저장 장치(예를 들면, 하드 디스크, 플로피 디스크, 자기 스트립, 등), 광학 디스크(예를 들면, CD, DVD, 등), 스마트 카드, 및 플래쉬 메모리 장치(예를 들면, EEPROM, 카드, 스틱, 키 드라이브, 등)를 포함하지만, 이들로 제한되는 것은 아니다. 또한, 여기서 제시되는 다양한 저장 매체는 정보를 저장하기 위한 하나 이상의 장치 및/또는 다른 기계-판독가능한 매체를 포함한다. 용어 "기계-판독가능한 매체"는 명령(들) 및/또는 데이터를 저장, 보유, 및/또는 전달할 수 있는 무선 채널 및 다양한 다른 매체를 포함하지만, 이들로 제한되는 것은 아니다.
제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.

Claims (6)

  1. 프로세서 및 메모리를 포함하는 언어처리 시스템에서, 입력 문장을 사건구조프레임(Event Structure Frame: ESF)이 주석된 문장으로 출력하는 자동 주석방법으로, 상기 방법은:
    상기 언어처리 시스템에 의해, 동사를 포함하는 영어 문장을 입력하는 단계;
    상기 언어처리 시스템에 의해, 상기 입력된 영어 문장에서 동사를 추출하는 단계;
    상기 언어처리 시스템에 의해, 사전 정의된 사건구조프레임 유형(Event Structure Frame type)과 그에 따른 동사를 분류하는 사건구조프레임 목록(ESF-list)을 구비하고, 영어 단어의 유의어 집단인 신셋(SynSet)을 포함하는 언어자원인 사건구조프레임 주석 워드넷(Event Structure Frame-annotated WordNet: ESFWN)에 연결하는 단계;
    상기 언어처리 시스템에 의해, 상기 추출된 동사에 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘을 이용하여 상기 동사의 신셋과 연결되는 아이디인 오프셋을 출력하는 단계;
    상기 언어처리 시스템에 의해, 상기 출력된 오프셋을 이용하여 상기 ESFWN에서 상기 동사의 사건구조프레임 유형을 찾아 출력하는 단계;
    상기 언어처리 시스템에 의해, 상기 출력된 사건구조프레임 유형(Event Structure Frame type)에 해당하는 사건구조프레임(ESF)을 사건구조프레임 목록(ESF-List)에서 찾아 출력하는 단계;
    상기 언어처리 시스템에 의해, 상기 출력된 동사의 사건구조프레임에서 시간순서를 가진 각각에 시간순서 해당 동사를 삽입하는 단계;
    상기 언어처리 시스템에 의해, 의미역 라벨러(Semantic Role Labeler)에 연결하는 단계;
    상기 언어처리 시스템에 의해, 상기 입력된 영어문장에 의미역 라벨링 알고리즘을 적용하여 동사 고유의 특성에 따라 구성성분이 갖는 의미상 역할인 의미역을 출력하는 단계;
    상기 언어처리 시스템에 의해, 논항 삽입 알고리즘을 이용하여 상기 출력된 의미역 해당 텍스트를 사건구조프레임의 각 논항 위치에 삽입하는 단계; 및
    상기 언어처리 시스템에 의해, 상기 논항이 삽입된 동사중심 사건구조 문장을 출력하는 단계를 포함하고,
    상기 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘은 EWISER 또는 EWISER-Wrapper이며,
    상기 의미역 라벨링 알고리즘은 AllenNLP SRL인,
    자동 주석방법.
  2. 제 1항에 있어서,
    상기 사건구조프레임 주석 워드넷(Event Structure Frame-annotated WordNet: ESFWN)은,
    23개의 사건구조프레임(Event Structure Frame: ESF) 유형을 가지는 주석도구인 GESL(Generator of the Event Structure Lexicon)을 영어동사에 적용하여 23개 유형으로 분류하고, 이를 전문가가 점검하여 68개 유형을 가진 사건구조프레임 목록(ESF-list)으로 최종 분류하여,
    상기 워드넷의 2431개 동사의 신셋 24,601개가 각각 상기 68개 ESF-list 유형 중 하나에 연결되도록 상기 2431개 동사의 신셋 24,601개 각각을 해당 동사, 해당 신셋번호, 해당 오프셋 번호, 해당 사건구조프레임 유형을 포함하는 포맷으로 주석한, 68개의 사건구조프레임 유형을 가진 언어자원인,
    자동 주석방법.
  3. 제 1항에 있어서,
    상기 사건구조프레임은,
    하나의 동사가 지시하는 사건을 시간적 순서를 가진 복수개의 하위사건으로 구성하고,
    상기 복수개의 하위사건은 전 상태, 진행 상태, 및 후 상태를 나타내는,
    자동 주석방법.
  4. 제 1항에 있어서,
    상기 논항 삽입 알고리즘은,
    상기 출력된 의미역을 사건구조프레임의 각 하위사건 해당 위치에 삽입하는,
    자동 주석방법.
  5. 제 1항에 있어서,
    상기 시간순서 해당 동사는,
    불규칙 굴절 동사 사전에서 추출된 불규칙 동사 및 동사굴절 알고리즘을 적용한 동사의 과거분사형, 현재분사형을 포함하는,
    자동 주석방법.
  6. 프로세서 및 메모리를 포함하는 언어처리 시스템에서, 입력 문장을 사건구조프레임(ESF)이 주석된 문장으로 출력하는 자동 주석 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장매체로, 상기 저장매체는:
    상기 언어처리 시스템에 의해, 동사를 포함하는 영어 문장을 입력하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 상기 입력된 영어 문장에서 동사를 추출하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 사전 정의된 사건구조프레임 유형(Event Structure Frame type)과 그에 따른 동사를 분류하는 사건구조프레임 목록(ESF-list)을 구비하고, 영어 단어의 유의어 집단인 신셋(SynSet)을 포함하는 언어자원인 사건구조프레임 주석 워드넷(Event Structure Frame-annotated WordNet: ESFWN)에 연결하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 상기 추출된 동사에 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘을 이용하여 상기 동사의 신셋과 연결되는 아이디인 오프셋을 출력하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 상기 출력된 오프셋을 이용하여 상기 ESFWN에서 상기 동사의 사건구조프레임 유형을 찾아 출력하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 상기 출력된 사건구조프레임 유형(Event Structure Frame type)에 해당하는 사건구조프레임(ESF)을 사건구조프레임 목록(ESF-List)에서 찾아 출력하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 상기 출력된 동사의 사건구조프레임에서 시간순서를 가진 각각에 시간순서 해당 동사를 삽입하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 의미역 라벨러(Semantic Role Labeler)에 연결하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 상기 입력된 영어문장에 의미역 라벨링 알고리즘을 적용하여 동사 고유의 특성에 따라 구성성분이 갖는 의미상 역할인 의미역을 출력하도록 프로그램된 코드 부분;
    상기 언어처리 시스템에 의해, 논항 삽입 알고리즘을 이용하여 상기 출력된 의미역 해당 텍스트를 사건구조프레임의 각 논항 위치에 삽입하도록 프로그램된 코드 부분; 및
    상기 언어처리 시스템에 의해, 상기 논항이 삽입된 동사중심 사건구조 문장을 출력하도록 프로그램된 코드 부분을 포함하고,
    상기 단어 중의성 해소(Word Sense Disambiguation: WSD) 알고리즘은 EWISER 또는 EWISER-Wrapper이며,
    상기 의미역 라벨링 알고리즘은 AllenNLP SRL인,
    컴퓨터 판독가능 저장매체.
KR1020210017290A 2021-02-08 2021-02-08 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법 KR102576350B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210017290A KR102576350B1 (ko) 2021-02-08 2021-02-08 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210017290A KR102576350B1 (ko) 2021-02-08 2021-02-08 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법

Publications (2)

Publication Number Publication Date
KR20220114146A KR20220114146A (ko) 2022-08-17
KR102576350B1 true KR102576350B1 (ko) 2023-09-07

Family

ID=83110532

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210017290A KR102576350B1 (ko) 2021-02-08 2021-02-08 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법

Country Status (1)

Country Link
KR (1) KR102576350B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019050501A1 (en) 2017-09-05 2019-03-14 TripleDip, LLC NARRATIVE INTERPRETER BASED ON A FUNCTIONAL ONTOLOGY MACHINE

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012520527A (ja) * 2009-03-13 2012-09-06 インベンション マシーン コーポレーション ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法
WO2017094967A1 (ko) * 2015-12-03 2017-06-08 한국과학기술원 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
KR102206742B1 (ko) * 2018-12-06 2021-01-25 한국과학기술원 자연언어 텍스트의 어휘 지식 그래프 표현 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019050501A1 (en) 2017-09-05 2019-03-14 TripleDip, LLC NARRATIVE INTERPRETER BASED ON A FUNCTIONAL ONTOLOGY MACHINE

Also Published As

Publication number Publication date
KR20220114146A (ko) 2022-08-17

Similar Documents

Publication Publication Date Title
Saurí et al. Evita: a robust event recognizer for qa systems
Iida et al. Annotating a Japanese text corpus with predicate-argument and coreference relations
US8561014B2 (en) Extracting a system modelling meta-model language model for a system from a natural language specification of the system
Bhat et al. The hindi/urdu treebank project
Al-Hroob et al. The use of artificial neural networks for extracting actions and actors from requirements document
Orasmaa et al. Estnltk-nlp toolkit for estonian
Singh et al. Part of speech tagging of Marathi text using trigram method
Kocoń et al. Evaluating KGR10 Polish word embeddings in the recognition of temporal expressions using BiLSTM-CRF
Derczynski et al. Gate-time: Extraction of temporal expressions and event
Zhang et al. A machine learning approach for compliance checking-specific semantic role labeling of building code sentences
Haffar et al. TimeML annotation of events and temporal expressions in Arabic texts
Kiyavitskaya et al. Semi-Automatic Semantic Annotations for Web Documents.
Pustejovsky et al. Merging propbank, nombank, timebank, penn discourse treebank and coreference
Simionescu Graphical grammar studio as a constraint grammar solution for part of speech tagging
KR102576350B1 (ko) 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법
Bimson et al. The lexical bridge: A methodology for bridging the semantic gaps between a natural language and an ontology
Berzins et al. Innovations in natural language document processing for requirements engineering
Singh et al. Marathi parts-of-speech tagger using supervised learning
Iida et al. NAIST text corpus: Annotating predicate-argument and coreference relations in Japanese
Bico et al. Early experiments on automatic annotation of Portuguese medieval texts
Okano et al. Analysis of specification in Japanese using natural language processing
Mititelu et al. Improving parsing using morpho-syntactic and semantic information
Cheng et al. Constructing a temporal relation tagged corpus of chinese based on dependency structure analysis
Boroş et al. RACAI GEC–a hybrid approach to grammatical error correction
Mridha et al. A Proficient Autonomous Bangla Semantic Parser for Natural Language Processing

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant