KR102381079B1 - 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 - Google Patents

기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 Download PDF

Info

Publication number
KR102381079B1
KR102381079B1 KR1020210101350A KR20210101350A KR102381079B1 KR 102381079 B1 KR102381079 B1 KR 102381079B1 KR 1020210101350 A KR1020210101350 A KR 1020210101350A KR 20210101350 A KR20210101350 A KR 20210101350A KR 102381079 B1 KR102381079 B1 KR 102381079B1
Authority
KR
South Korea
Prior art keywords
sentence
morpheme
basic
unit
additional information
Prior art date
Application number
KR1020210101350A
Other languages
English (en)
Inventor
송환구
윤현지
윤수현
단현석
김기호
Original Assignee
주식회사 닥터송
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 닥터송 filed Critical 주식회사 닥터송
Priority to KR1020210101350A priority Critical patent/KR102381079B1/ko
Priority to CN202180050247.2A priority patent/CN115956245A/zh
Priority to US18/020,514 priority patent/US20240169150A1/en
Priority to PCT/KR2021/017468 priority patent/WO2023013826A1/ko
Application granted granted Critical
Publication of KR102381079B1 publication Critical patent/KR102381079B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템에 있어서, 사용자로부터 한국어로 구성된 자연어가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장을 복수 개의 기본 문장으로 분해하는 문장 분해부; 상기 문장 분해부에 의해 복합 문장의 분해가 완료되면, 상기 분해된 복수 개의 기본 문장 각각에 포함된 형태소를 확인하여, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 판단하는 문형 유형 판단부; 상기 문형 유형 판단부에 의해 상기 복수 개의 기본 문장 각각에 대한 문형 유형이 판단 완료된 경우, 상기 복수 개의 기본 문장 각각에 포함된 형태소 중 일부를 부가 정보로 지정하는 부가 정보 지정부; 및 상기 부가 정보의 지정이 완료되면, 상기 부가 정보를 상기 부가 정보로 지정되지 않은 형태소에 매칭시켜, 기 저장된 기본 형태소 사전 테이블에 포함된 기본 형태소 카테고리에 상기 부가 정보를 저장하는 부가 정보 저장부;를 포함하는 것을 특징으로 한다. 이 외에도 본 문서를 통해 파악되는 다양한 실시예들이 가능하다.

Description

기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템{KOREAN PHRASE LEARNING SYSTEM BASED ON BASIC SENTENCE UNIT SEGMENTATION}
본 발명은 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템에 관한 것으로서, 구체적으로는 사용자로부터 한국어로 구성된 자연어가 입력되는 경우, 입력된 자연어에 대응되는 복합 문장을 복수 개의 기본 문장으로 분해하고, 기본 문장의 형태소에 기반해 기본 문장의 문형 유형을 판단하며, 상기 판단된 문형 유형에 기반하여 상기 기본 문장에서 부가 정보를 추출하고, 추출된 부가 정보를 기반으로, 기본 문장의 기본 형태소에 대한 트리 정보를 업데이트함으로써, 조사와 어미가 발달된 한국어 구문에 대하여 학습하도록 하는 기술에 대한 것이다.
인공지능 기술이 발전하고 있는 가운데, 이를 적극적으로 활용 및 상용화하고 있는 분야로 "언어이해 기술"이 대표적이다. "언어이해 기술"은 사람들이 표현하는 방대한 텍스트로부터 의미를 이해하고 텍스트에 포함된 정보를 추출 및 분류하며, 더 나아가 직접 텍스트를 생성하는 기술을 포함한 자연어 처리 (Natural Language Processing: NLP)로 대표된다.
그러나, 인공지능 기술을 통해 한국어로 구성된 문장의 구문을 분석하는 경우, 한국어 문장은 조사와 어미가 발달되어 있어 문장을 구성하는 구성 요소의 위치의 자유도가 높고 어순에 의한 문장 조합의 애매함이 존재하며, 주어와 목적어와 같은 필수적인 문장 성분이 문맥에 따라 생략되는 경우가 많아, 이로 인해 다양한 패턴이 발생하여 인공지능으로도 학습을 하는데 어려움이 존재한다. 이에 따라, 인공지능을 통해 자연어를 처리하는 기술을 개발하는 기업들은 한국어 문장의 구문을 분석 및 학습하기 위한 다양한 기술들을 개발하고 있다.
일 예로서, 한국공개특허 10-2014-0019094(한국어 구문 인식을 위한 어휘의미패턴 재구성 방법)에는 형태소, 음절, 어절로 이루어진 문장을 생성하고, 정의된 어휘의미패턴을 통해 문장의 의미를 파악하는 기술이 개시되어 있다.
그러나, 상술한 선행기술에서는 어휘의미패턴을 통한 문장의 의미를 파악하는 기술만이 개시되어 있을 뿐, 사용자에 의해 입력된 자연어에 대응되는 복합 문장을 복수 개의 기본 문장으로 분해하고, 기본 문장의 형태소에 기반해 기본 문장의 문형 유형을 판단하며, 상기 판단된 문형 유형에 기반하여 상기 기본 문장에서 부가 정보를 추출하고, 추출된 부가 정보를 기반으로, 기본 문장의 기본 형태소에 대한 트리 정보를 업데이트하는 기술이 개시되어 있지 않아, 이를 해결할 수 있는 기술의 필요성이 대두되고 있다.
이에 본 발명은, 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템을 통하여, 입력된 자연어에 대응되는 복합 문장을 복수 개의 기본 문장으로 분해하고, 기본 문장의 형태소에 기반해 기본 문장의 문형 유형을 판단하며, 상기 판단된 문형 유형에 기반하여 상기 기본 문장에서 부가 정보를 추출하고, 추출된 부가 정보를 기반으로, 기본 문장의 기본 형태소에 대한 트리 정보를 업데이트함으로써, 새롭게 입력되는 한국어로 구성된 문장에서 주어 및 목적어가 생략되거나 동음이의어가 포함되더라도 이전의 대화의 맥락에 적합한 의미를 이해하도록 부가 정보를 수집하는 것에 그 목적이 있다.
본 발명의 일 실시예에 따른 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템에 있어서, 사용자로부터 한국어로 구성된 자연어가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장을 복수 개의 기본 문장으로 분해하는 문장 분해부; 상기 문장 분해부에 의해 복합 문장의 분해가 완료되면, 상기 분해된 복수 개의 기본 문장 각각에 포함된 형태소를 확인하여, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 판단하는 문형 유형 판단부; 상기 문형 유형 판단부에 의해 상기 복수 개의 기본 문장 각각에 대한 문형 유형이 판단 완료된 경우, 상기 복수 개의 기본 문장 각각에 포함된 형태소 중 일부를 부가 정보로 지정하는 부가 정보 지정부; 및 상기 부가 정보의 지정이 완료되면, 상기 부가 정보를 상기 부가 정보로 지정되지 않은 형태소에 매칭시켜, 기 저장된 기본 형태소 사전 테이블에 포함된 기본 형태소 카테고리에 상기 부가 정보를 저장하는 부가 정보 저장부;를 포함하는 것을 특징으로 한다.
상기 문장 분해부는, 상기 자연어가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장에 포함된 복수 개의 형태소를 식별하여, 상기 복합 문장을 형태소 별로 분해하는 형태소 분해부; 상기 형태소 분해부에 의해 상기 복합 문장이 상기 형태소 별로 분해되면, 상기 분해된 형태소를 분석하여 상기 분석 결과를 기반으로, 상기 복합 문장을 서술어 단위로 분해하는 단위 분해부; 및 상기 단위 분해부에 의해 상기 복합 문장이 서술어 단위로 분해되면, 상기 서술어 단위로 분해된 복합 문장을 상기 복수 개의 기본 문장으로 생성하는 기본 문장 생성부;를 포함하는 것이 바람직하다.
상기 문형 유형 판단부는, 상기 기본 문장 생성부에 의해 상기 복수 개의 기본 문장이 생성된 경우, 상기 생성된 복수 개의 기본 문장 각각을 구성하는 복수 개의 어절을 확인하는 어절 확인부; 상기 어절 확인부에 의해 상기 복수 개의 어절의 확인이 완료되면, 기 저장된 품사 분류 정보를 기반으로, 상기 복수 개의 어절에 포함된 형태소들 각각에 대한 품사를 확인하여, 상기 확인된 품사를 통해 상기 복수 개의 어절 각각의 문장 성분을 분류하는 성분 분류부; 상기 성분 분류부에 의해 상기 복수 개의 어절 각각에 대한 문장 성분의 분류가 완료된 경우, 상기 분류된 문장 성분 간의 조합 관계를 확인하여, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 결정하는 문형 결정부;를 포함하는 것이 가능하다.
상기 문형 유형은, 상기 복수 개의 어절 각각에 대한 문장 성분 간의 조합 관계를 기반으로 결정되는 상기 복수 개의 기본 문장 각각에 대한 문장 형태로써, 주어 및 서술어로 조합되어 구성되는 제1 유형; 상기 주어, 부사어 및 상기 서술어로 조합되어 구성되는 제2 유형; 상기 주어, 목적어 및 상기 서술어로 조합되어 구성되는 제3 유형; 상기 주어, 보어 및 상기 서술어로 조합되어 구성되는 제4 유형; 및 상기 주어, 상기 목적어, 상기 보어 및 상기 서술어로 조합되어 구성되는 제5 유형;을 포함하는 것이 가능하다.
상기 부가 정보 지정부는, 상기 문형 유형이 결정된 복수 개의 기본 문장 각각에 포함된 형태소들 중 기 저장된 기본 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 중 적어도 하나에 대응하는 제1 형태소를 제외한 나머지 형태소인 제2 형태소를 추출하는 형태소 추출부; 및 상기 제2 형태소의 추출이 완료되면, 상기 제2 형태소를 상기 제1 형태소에 대한 부가 정보로 지정하여, 상기 제1 형태소의 트리 정보를 갱신하는 트리 정보 갱신부;를 포함하는 것이 가능하다.
상기 트리 정보는, 상기 문형 유형 별로 기본 형태소마다 종속되어 있는 트리 구조의 정보로써, 상기 부가 정보로 지정된 제2 형태소가 상기 기본 형태소의 하위 계층 정보로 업데이트되는 것이 가능하다.
상기 부가 정보 저장부는, 상기 트리 정보 갱신부에 의해 상기 제1 형태소의 트리 정보가 갱신되는 경우, 갱신 내용을 기반으로, 상기 기 저장된 기본 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 카테고리 중 하나의 부가 정보를 업데이트하여, 상기 제1 형태소의 트리 정보를 기준으로 상기 기 저장된 기본 형태소 사전 테이블을 동기화하는 것이 가능하다.
상기 기 저장된 기본 형태소 사전 테이블은, 상기 문형 유형 별로 상기 제2 형태소를 추출하기 위한 기준이 되는 기본 형태소에 기반한 복수 개의 기본 형태소 카테고리를 포함하고 있는 데이터로써, 상기 복수 개의 기본 형태소 카테고리 각각에 포함된 부가 정보의 검색 및 추출 기능을 제공하기 위해 상기 복수 개의 기본 형태소 카테고리마다 그래프 구조로 형성되는 것이 가능하다.
본 발명인 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템을 통해 사용자로부터 입력되는 한국어로 구성된 자연어를 복수 개의 기본 문장으로 분해하고, 기본 문장의 형태소에 기반해 트리 정보 및 기 저장된 형태소 사전 테이블을 업데이트함으로써, 조사와 어미가 발달된 한국어 문장에 대하여 학습할 수 있다.
또한, 복합 문장을 복수 개의 기본 문장으로 분해하여, 기 저장된 형태소 사전 테이블을 통해 복수 개의 기본 문장 각각에 대한 의미를 정확하게 파악할 수 있다.
또한, 부가 정보를 기 저장된 형태소 사전 테이블에 포함된 형태소 카테고리에 저장함에 따라, 학습 데이터로 이용될 부가 정보를 점차적으로 확보할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 문장 분해부를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 문형 유형 판단부를 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 문장 성분의 조합 관계를 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 부가 정보 지정부를 설명하기 위한 블록도이다.
도 6은 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 부가 정보 저장부를 설명하기 위한 블록도이다.
도 7는 본 발명의 일 실시 예에 따른 컴퓨팅 장치의 내부 구성의 일 예를 설명하기 위한 도면이다.
이하에서는, 다양한 실시 예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 인식될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다.
본 명세서에서 사용되는 "실시 예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다.
또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하지만, 하나이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다.
또한, 제 1, 제 2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
또한, 본 발명의 실시 예들에서, 별도로 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 실시 예에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템을 설명하기 위한 블록도이다.
도 1을 참조하면, 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(100)(이하, 학습 시스템으로 칭함)은 문장 분해부(101), 문형 유형 판단부(103), 부가 정보 지정부(105) 및 부가 정보 저장부(107)를 포함할 수 있다.
본 발명에 대한 기술적 특징을 개시하기 이전에, 한국어 문장은 조사와 어미가 발달되어 있어 문장을 구성하는 구성 요소의 위치의 자유도가 높고 어순에 의한 문장 조합의 애매함이 존재하며, 주어와 목적어와 같은 필수적인 문장 성분이 문맥에 따라 생략되는 경우가 많아, 이로 인해 다양한 패턴이 발생하여 인공지능 알고리즘으로도 학습하는데 한계가 있다. 이에 따라, 본 발명인 상기 학습 시스템(100)은 사용자로부터 한국어로 구성된 문장이 입력되는 경우, 입력된 문장에서 부가 정보를 추출하고 추출된 부가 정보를 기본 형태소에 종속시켜 별도의 트리 정보를 생성할 수 있다.
본 발명은 자연어 처리 기술(Natural Language Processing)에 포함된 구문 분석과 관련된 기술로, 보다 정확하게 상기 학습 시스템(100)은 트리 정보를 기반으로, 한국어 문장의 패턴을 확인하고, 확인된 패턴을 기반으로 문장의 의미를 파악하여 적절한 답변을 제공하도록 하기 위해 한국어 문장을 학습하는 시스템일 수 있다.
일 실시예에 따르면, 상기 문장 분해부(101)는 사용자로부터 한국어로 구성된 자연어(101a)가 입력되는 경우, 상기 입력된 자연어(101a)에 대응되는 복합 문장을 복수 개의 기본 문장으로 분해할 수 있다. 이 때, 사용자로부터 입력되는 자연어(101a)는 사용자의 음성을 통해 입력되거나 사용자에 의해 입력되는 텍스트에 기반한 구성으로, 상기 문장 분해부(101)에 의해 인식될 수 있다.
이 때, 입력되는 자연어(101a)로 구성된 문장은 복합적인 의미를 포함하고 있는 복합 문장으로 구성된 문장일 수 있다. 이에 따라, 상기 문장 분해부(101)는 상기 복합 문장을 기본 문장(예: 최소 단위 문장)으로 분해할 수 있다. 이에 따라, 상기 복합 문장에서 분해되어 생성되는 기본 문장은 복수 개일 수 있다. 상기 문장 분해부(101)가 상기 복합 문장을 기본 문장으로 분해하는 자세한 설명은 도 2를 참고하도록 한다.
일 실시예에 따르면, 상기 문형 유형 판단부(103)는 상기 문장 분해부(101)에 의해 복합 문장의 분해가 완료되면, 상기 분해된 복수 개의 기본 문장 각각에 포함된 형태소를 확인하여, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 판단할 수 있다. 상기 형태소는 문장을 구성하는 단어를 분석한 단위로, 뜻을 가진 가장 작은 말의 단위를 의미할 수 있다.
일 실시예에 따르면, 상기 문형 유형 판단부(103)는 상기 복수 개의 기본 문장 각각에 포함된 문장의 형태를 판단할 수 있다. 문형은, 문장 성분이 문장을 구성할 때의 배열 유형으로써, 문장의 형태를 의미할 수 있다. 문형 유형 판단부(103)가 상기 문장의 문형을 판단하기 위한 자세한 설명은 도 3 및 도 4를 참고하도록 한다.
일 실시예에 따르면, 상기 부가 정보 지정부(105)는 상기 문형 유형 판단부(103)에 의해 상기 복수 개의 기본 문장 각각에 대한 문형 유형이 판단 완료된 경우, 상기 복수 개의 기본 문장 각각에 포함된 형태소 중 일부를 부가 정보로 지정할 수 있다. 상기 부가 정보 지정부(105)는 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 판단하고, 상기 문형 유형을 판단하는데 필요한 형태소를 제외한 나머지 형태소로 구성되는 단어, 어절 및 형태소를 부가 정보로 지정할 수 있다. 보다 자세하게, 상기 부가 정보 지정부(105)는 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 판단하는데 필요한 형태소를 기본 형태소(예: 제1 형태소)로 인식하여, 상기 기본 형태소를 제외한 문장 내의 형태소를 상기 기본 형태소와 관련된 제2 형태소로 인식하여, 상기 제2 형태소를 상기 부가 정보로 인식할 수 있다.
즉, 상기 부가 정보 지정부(105)는 상기 제2 형태소를 제1 형태소와 연관되어, 도출 가능한 형태소로 판단하되, 기본 문장의 문형 유형을 결정하는데 필요한 필수 구성이 아니라고 판단하여, 상기 제2 형태소를 상기 제1 형태소에 대한 부가 정보로 지정할 수 있다.
일 실시예에 따르면, 상기 부가 정보 저장부(107)는 상기 부가 정보의 지정이 완료되면, 상기 부가 정보를 상기 부가 정보로 지정되지 않은 형태소(예: 제1 형태소)에 매칭시켜, 기 저장된 기본 형태소 사전 테이블에 포함된 기본 형태소 카테고리에 상기 부가 정보를 저장할 수 있다. 상기 기 저장된 기본 형태소 사전 테이블은 기본 형태소마다 부가 정보가 저장되어 있는 기본 형태소 카테고리를 포함하고 있는 데이터 테이블로써, 복수 개의 기본 형태소 카테고리를 포함할 수 있다. 상기 형태소 카테고리는 기본 형태소와 매칭된 부가 정보가 저장되어 있는 카테고리일 수 있다. 상기 부가 정보 저장부(107)와 관련된 자세한 설명은 도 5 및 도 6을 참고하도록 한다.
도 2는 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 문장 분해부를 설명하기 위한 블록도이다.
도 2을 참조하면, 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(예: 도 1의 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(100))(이하, 학습 시스템으로 칭함)은 문장 분해부(200)(예: 도 1의 문장 분해부(101))를 포함할 수 있다.
일 실시예에 따르면, 상기 문장 분해부(200)는 사용자로부터 한국어로 구성된 자연어(200a)가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장(200a)을 복수 개의 기본 문장으로 분해할 수 있다. 예를 들어, 상기 문장 분해부(200)는 사용자로부터 한국어로 구성된 자연어인 "커피숍에서 미팅을 기다리면서 아메리카노 커피 한잔을 주문했다"를 입력 받을 수 있다.
일 실시예에 따르면, 상기 문장 분해부(200)는 형태소 분해부(201), 단위 분해부(203) 및 기본 문장 생성부(205)를 포함할 수 있다.
일 실시예에 따르면, 상기 형태소 분해부(201)는, 상기 자연어가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장(200a)에 포함된 복수 개의 형태소를 식별하여, 상기 복합 문장을 형태소 별로 분해할 수 있다. 예를 들어, 상기 형태소 분해부(201)는 상기 복합 문장(200a)인"커피숍에서 미팅을 기다리면서 아메리카노 커피 한잔을 주문했다"를 형태소 별로 분해할 수 있다.
상기 형태소 분해부(201)는 "커피숍에서 미팅을 기다리면서 아메리카노 커피 한잔을 주문했다"의 복합 문장(200a)을 "커피숍" v "에서" v "미팅" v "을" v "기다리(기다림)" v "면서(~하면서)" v "아메리카노" v "커피" v "한(하나)" v "~잔" v "~을" v "주문" v "했(하~)(~였)"v 다(~다)" 으로 분해하여, 총 15개의 형태소(201a)로 분해할 수 있다.
일 실시예에 따르면, 상기 단위 분해부(203)는 상기 형태소 분해부(201)에 의해 상기 복합 문장(200a)이 상기 형태소 별로 분해되면, 상기 분해된 형태소(201a)를 분석하여, 상기 분석 결과를 기반으로, 상기 복합 문장을 서술어 단위로 분해할 수 있다.
일 실시예에 따르면, 상기 단위 분해부(203)는 상기 분해된 형태소(201a) 각각이 어떤 형태소인지를 구분할 수 있다. 상기 형태소의 종류는 자립 형태소(혼자 쓰일 수 있는 형태소(예: 커피숍, 미팅, 아메리카노, 커피, 주문)), 의존 형태소(다른 말에 의존하여 쓰이는 형태소(예: ~에서, ~을, "기다리~", ~면서", ~했다)), 실질 형태소(실질적인 의미를 갖는 형태소(예: 자립 형태소와 동일)) 및 형식 형태소(문법적 관계나 형식적 의미를 더해주는 형태소(예: 조사, 어미, 접사))로 구분되는데, 상기 단위 분해부(203)는 상기 분해된 형태소(201a) 각각의 종류를 분석할 수 있다. 이 때, 상기 단위 분해부(203)는 기 저장된 형태소 정보를 기반으로, 상기 분해된 형태소(201a) 각각의 종류를 구분하여 확인할 수 있다.
일 실시예에 따르면, 상기 단위 분해부(203)는 상기 분석 결과를 기반으로, 상기 복합 문장을 서술어 단위로 분해할 수 있다. 상기 단위 분해부(203)는 상기 분해된 형태소(201a)의 종류를 구분하여, 상기 형식 형태소에 해당되되, 문장을 서술하는 성격을 가지는 형태소를 인식하여, 상기 복합 문장을 서술어 단위로 분해(203a)할 수 있다. 예를 들어, 상기 단위 분해부(203)는 상기 분해된 "커피숍" v "에서" v "미팅" v "을" v "기다리(기다림)" v "면서(~하면서)" v "아메리카노" v "커피" v "한(하나)" v "잔" v "을" v "주문" v "했(하~)(~였)"v 다(~다)" 각각의 형태소에서 형식 형태소를 구분하고, 서술어 성격을 가지는 "기다리면서"와 "주문했다"를 인식하여, "커피숍에서 미팅을 기다리면서 아메리카노 커피 한잔을 주문했다"의 복합 문장(200a)을 서술어 단위로 분해된 "커피숍에서 미팅을 기다리면서"와 "아메리카노 커피 한잔을 주문했다"로 분해할 수 있다.
일 실시예에 따르면, 상기 기본 문장 생성부(205)는 상기 단위 분해부(203)에 의해 상기 복합 문장(200a)이 서술어 단위(203a)로 분해되면, 상기 서술어 단위(203a)로 분해된 복합 문장을 복수 개의 기본 문장(205a)으로 생성할 수 있다. 상기 기본 문장(205a)은 복합적인 의미로 사용되는 문장이 아닌 하나의 의미만 포함하고 있는 최소 단위의 문장일 수 있다. 예를 들어, 상기 기본 문장 생성부(205)는 상기 단위 분해부(203)에 의해 서술어 단위로 분해된"커피숍에서 미팅을 기다리면서"와 "아메리카노 커피 한잔을 주문했다"을 "커피숍에서 미팅을 기다리다"와 "아메리카노 커피 한잔을 주문했다"의 2개의 기본 문장(205a)으로 생성할 수 있다.
도 3은 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 문형 유형 판단부를 설명하기 위한 블록도이다.
도 3을 참조하면, 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(예: 도 1의 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(100))(이하, 학습 시스템으로 칭함)은 문형 유형 판단부(300)(예: 도 1의 문장 분해부(103))를 포함할 수 있다.
일 실시예에 따르면, 상기 문형 유형 판단부(300)는 문장 분해부(예: 도 1의 문장 분해부(101))에 의해 복합 문장의 분해가 완료되면, 상기 복합 문장의 분해됨에 따라 생성된 복수 개의 기본 문장 각각에 포함된 형태소를 확인할 수 있다. 상기 문형 유형 판단부(300)는 상기 확인 결과를 기반으로, 복수 개의 기본 문장 각각에 대한 문형 유형을 판단할 수 있다.
일 실시예에 따르면, 상기 문형 유형 판단부(300)는 어절 확인부(301), 품사 분류부(303) 및 문형 결정부(305)를 포함할 수 있다.
일 실시예에 따르면, 상기 어절 확인부(301)는 기본 문장 생성부(예: 도 2의 기본 문장 생성부(205))에 의해 상기 복수 개의 기본 문장이 생성된 경우, 상기 생성된 복수 개의 기본 문장 각각을 구성하는 적어도 하나의 어절을 확인할 수 있다. 어절은 문장을 구성하고 있는 각각의 마디로써, 문장 성분의 최소 단위로서, 띄어쓰기의 단위가 되는 구성일 수 있다.
일 실시예에 따르면, 상기 어절 확인부(301)는 문장 내의 적어도 하나의 어절을 확인하기 위하여, 토큰화(tokenization) 프로세스를 수행할 수 있다. 이 때, 상기 어절 확인부(301)는 상기 토큰화 프로세스를 진행 시, 단어 토큰화가 아닌 형태소 토큰화 방식을 수행할 수 있다. 한국어는 영어와 달린 형태소가 독립적인 단어로만 구성되어 있지 않은, 교착어이기 때문이다. 상기 어절 확인부(301)는 상기 복수 개의 기본 문장 각각에 포함된 형태소를 인식하고, 형태소의 종류를 구분할 수 있다. 형태소를 구분하는 자세한 설명은 도 2를 참고하도록 한다.
일 실시예에 따르면, 상기 어절 확인부(301)는 상기 형태소의 종류를 구분하여, 자립 형태소 및 의존 형태소의 결합으로 구성되는 것을 하나의 토큰으로 인식하여, 하나의 어절로 지정할 수 있다.
일 실시예에 따르면, 상기 형태소 토큰화 방식의 토큰화 프로세스를 진행하여, 상기 기본 문장 내에 포함된 복수 개의 어절을 확인할 수 있다. 예를 들어, 상기 어절 확인부(301)는 "커피숍에서 미팅을 기다리다"와 "아메리카노 커피 한잔을 주문했다"두 개의 기본 문장에서 어절을 확인할 수 있다. 상기 어절 확인부(301)는 "커피숍에서 미팅을 기다리다"에 대한 형태소 토큰화를 진행하여, "커피숍에서" v "미팅을" v "기다리다"라는 3개의 어절(301a)을 확인할 수 있다. 또한, 상기 어절 확인부(301)는 "아메리카노 커피 한잔을 주문했다"에 대한 형태소 토큰화를 진행하여, "아메리카노" v "커피 한잔을" v "주문했다"라는 3개의 어절을 확인(301a)할 수 있다.
일 실시예에 따르면, 상기 성분 분류부(303)는 상기 어절 확인부(301)에 의해 상기 복수 개의 어절의 확인이 완료되면, 기 저장된 품사 분류 정보를 기반으로, 상기 복수 개의 어절에 포함된 형태소들 각각에 대한 품사를 확인하여, 상기 확인된 품사를 통해 상기 복수 개의 어절 각각의 문장 성분을 분류할 수 있다. 이 때, 상기 기 저장된 품사 분류 정보는 품사 태그 정보를 의미할 수 있다.
일 실시예에 따르면, 상기 성분 분류부(303)는 상기 기 저장된 품사 분류 정보를 통해 형태소 각각에 대한 품사를 정의할 수 있다. 한국어는 기본적으로 5언 9품사 태깅(Part-of-speech tagging) 기술을 통해 형태소 각각의 품사를 정의할 수 있다. 상기 기 저장된 품사 분류 정보는 형태소 각각의 품사를 정의하기 위한 기준 형태소 정보(품사 정보 포함)를 포함할 수 있다.
보다 자세하게 상기 성분 분류부(303)는 상기 기 저장된 품사 분류 정보를 통해 형태소 각각에 대한 품사를 정의하고, 상기 품사가 정의된 형태소들 중 하나의 토큰으로 인식되는 구성의 문장 성분을 결정할 수 있다. 예를 들어 상기 성분 분류부(303)는 상기 기 저장된 품사 분류 정보를 기반으로,"미팅"과 "을"에 대한 품사를 분류할 수 있다. 상기 성분 분류부(303)는 상기 "미팅"을 명사로 분류하고, 상기 "을"을 조사로 분류할 수 있다. 상기 성분 분류부(303)는 상기 분류된 품사를 기반으로, 하나의 토큰으로 인식되는 "미팅을"의 문장 성분을 목적어로 결정할 수 있다.
일 실시예에 따르면, 상기 문형 결정부(305)는 상기 성분 분류부(303)에 의해 상기 복수 개의 어절 각각에 대한 문장 성분의 분류가 완료된 경우, 상기 분류된 문장 성분 간의 조합 관계를 확인할 수 있다. 상기 문형 결정부(305)는 상기 확인 결과를 기반으로, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 결정할 수 있다. 즉, 상기 복수 개의 기본 문장 각각에 대한 문형 유형은 근본적으로 형태소에 기반하여 판단되는 구성일 수 있다.
도 4를 참고하면, 도 4에는 5가지의 문형 유형을 포함하는 표가 도시되어 있다.
일 실시예에 따르면, 상기 제1 유형은 주어 및 서술어의 조합에 의한 문형 유형이고, 제2 유형은 주어와 부사어 및 서술어의 조합에 의한 문형 유형이고, 제3 유형은 주어와 목적어 및 서술어의 조합에 의한 문형 유형이고, 제4 유형은 주어와 보어 및 서술어의 조합에 의한 문형 유형이고, 제5 유형은 주어, 목적, 보어 및 서술어에 의한 문형 유형일 수 있다. 즉, 상기 문형 유형은 복수 개의 어절 각각에 대한 문장 성분 간의 조합 관계를 기반으로 결정되는 상기 복수 개의 기본 문장 각각에 대한 문장 형태일 수 있다.
일 실시예에 따르면, 상기 문형 결정부(305)는 상기 표에 개시된 내용을 기반으로, 상기 복수 개의 어절 각각에 대한 문장 성분의 조합 관계를 확인함으로써, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 결정할 수 있다.
도 5는 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 부가 정보 지정부를 설명하기 위한 블록도이다.
도 5를 참조하면, 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(예: 도 1의 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(100))(이하, 학습 시스템으로 칭함)은 부가 정보 지정부(500)(예: 도 1의 부가 정보 지정부(105))를 포함할 수 있다.
일 실시예에 따르면, 상기 부가 정보 지정부(500)는 문형 결정부(예: 도 3의 문형 결정부(305))에 의해 상기 복수 개의 기본 문장 각각에 대한 문형 유형이 판단 완료된 경우, 상기 문형 유형이 판단 완료된 복수 개의 기본 문장 각각에 포함된 형태소 중 일부를 부가 정보로 지정할 수 있다.
일 실시예에 따르면, 상기 부가 정보 지정부(500)는 상기 형태소 추출부(501) 및 트리 정보 갱신부(503)를 포함할 수 있다.
일 실시예에 따르면, 상기 형태소 추출부(501)는 문형 유형이 결정된 복수 개의 기본 문장 각각에 포함된 형태소들 중 기 저장된 기본 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 중 적어도 하나에 대응하는 제1 형태소를 제외한 나머지 형태소인 제2 형태소를 추출할 수 있다. 상기 기본 형태소는 상기 기 저장된 기본 형태소 사전 테이블에 저장되어 있는 형태소로써, 복수 개의 기본 문장에서 상기 기본 형태소를 기준으로, 상기 기본 형태소와 연관되는 형태소인 제2 형태소를 추출하여, 추출된 제2 형태소를 매칭하기 위한 기준 정보일 수 있다. 상기 제1 형태소는 복수 개의 기본 문장에 포함되어 있는 형태소로 상기 기본 형태소와 대응되는 구성일 수 있다. 즉, 상기 기본 형태소는 부가 정보를 추출하기 위한 기준이 되는 정보일 수 있다.
예를 들어, 상기 형태소 추출부(501)는 복수 개의 기본 문장(501a)인 "커피숍에서 미팅을 기다리다"와 "아메리카노 커피 한잔을 주문했다"에서 제2 형태소를 추출할 수 있다. 이 때, 상기 기 저장된 기본 형태소 사전 테이블에는 "미팅을", "기다리다", "커피를", "주문했다"가 기본 형태소로 저장된 상태일 수 있다. 즉, 상기 형태소 추출부(501)는 상기 복수 개의 기본 문장(501a)에서 기본 형태소에 대응되는 "미팅을", "기다리다", "커피를", "주문했다"를 제1 형태소로 인식하고, 제1 형태소를 제외한 나머지 형태소인 "커피숍에서", "아메리카노", "한잔을"을 제2 형태소로 추출할 수 있다.
일 실시예에 따르면, 상기 트리 정보 갱신부(503)는 복수 개의 기본 문장 각각에서 제2 형태소의 추출이 완료되는 경우, 제2 형태소를 상기 제1 형태소에 대한 부가 정보로 지정하여, 상기 제1 형태소의 트리 정보(503a)를 갱신할 수 있다. 상기 트리 정보(503a)는 문형 유형 별로 기본 형태소마다 종속되어 있는 트리 구조의 정보로써, 상기 부가 정보로 지정된 제2 형태소가 상기 기본 형태소의 하위 계층 정보로 업데이트됨에 따라 갱신되는 정보일 수 있다.
한국어는 동일한 단어일지라도 조사와 어미에 의해 문형이 변경되어, 다른 의미로 해석될 수 있다. 이에 따라 상기 학습 시스템은 문형 유형 별로 기본 형태소마다 별도의 트리 정보(503a)를 생성 및 갱신함으로써, 새로운 부가 정보인 제2 형태소를 기본 형태소의 하위 계층 정보로 종속시킴으로써, 구문 분석에 필요한 데이터를 축적할 수 있다. 즉, 상기 트리 정보(503a)는 문형 유형 및 기본 형태소를 기준으로, 기본 형태소와 관련되는 새로운 형태소가 추가됨에 따라 생성 또는 갱신되는 정보일 수 있다.
예를 들어, 상기 트리 정보 갱신부(503)는 복수 개의 기본 문장(501a)에서 제2 형태소의 추출을 완료하면, 제1 형태소와 대응되는 기본 형태소에 상기 추출된 제2 형태소를 하위 계층 정보로 종속시킬 수 있다. 보다 자세하게, 상기 트리 정보 갱신부(503)는 기본 형태소인 "미팅을", "기다리다"에 제2 형태소인 "커피숍에서"를 하위 계층 정보로 종속시켜, 트리 정보(503a)를 갱신할 수 있다. 또한, 상기 트리 정보 갱신부(503)는 "커피를", "주문했다"에 제2 형태소인 "아메리카노" 및 "한잔을"을 하위 계층 정보로 종속시켜, 트리 정보(503a)를 갱신할 수 있다.
다른 실시예에 따르면, 상기 트리 정보 갱신부(503)는 복수 개의 기본 문장(501a)에서 제2 형태소의 추출을 완료하면, 제1 형태소와 대응되는 기본 형태소에 상기 추출된 제2 형태소를 하위 계층 정보로 종속시킬 수 있다. 이 때, 상기 트리 정보 갱신부(503)는 상기 제2 형태소의 속성을 확인할 수 있다.
다른 실시예에 따르면, 상기 속성은 제2 형태소가 장소를 나타내는 형태소인지, 대상(동물, 사람, 물품 등)을 나타내는 형태소인지, 대상의 개수를 나타내는 형태소인지 구분할 수 있다. 예를 들어, 상기 트리 정보 갱신부(503)는 제2 형태소 중 "커피숍"을 기본 형태소의 하위 계층 정보로 종속 시, 기 저장된 기본 형태소 사전 테이블을 기반으로, 제2 형태소 "커피"가 대상을 나타내는 형태소이고, "숍"이 장소를 나타내는 형태소인지를 구분할 수 있다. 한국어의 경우, 말단에 위치한 어미 또는 형태소가 단어 전체에 대한 의미를 수식하므로, 상기 트리 정보 갱신부(503)는 제2 형태소인 "커피숍"의 속성을 장소(where)로 확인할 수 있다.
도 6은 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 부가 정보 저장부를 설명하기 위한 블록도이다.
도 6을 참조하면, 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(예: 도 1의 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템(100))(이하, 학습 시스템으로 칭함)은 부가 정보 저장부(600)(예: 도 1의 부가 정보 저장부(107))를 포함할 수 있다.
일 실시예에 따르면, 상기 부가 정보 저장부(600)는 부가 정보 지정부(예: 도 5의 부가 정보 지정부(500))에 의해 부가 정보의 지정이 완료되면, 상기 부가 정보를 상기 부가 정보로 지정되지 않은 형태소(예: 제1 형태소)에 매칭시켜, 기 저장된 기본 형태소 사전 테이블에 포함된 기본 형태소 카테고리에 상기 부가 정보를 저장할 수 있다.
일 실시예에 따르면, 상기 기 저장된 기본 형태소 사전 테이블은, 문형 유형 별로 상기 제2 형태소를 추출하기 위한 기준이 되는 기본 형태소에 기반한 복수 개의 기본 형태소 카테고리를 포함하고 있는 데이터 테이블일 수 있다. 상기 기 저장된 기본 형태소 사전 테이블은 상기 복수 개의 기본 형태소 카테고리 각각에 포함된 부가 정보의 검색 및 추출 기능을 제공하기 위해 상기 복수 개의 기본 형태소 카테고리마다 그래프 구조로 형성된 상태일 수 있다.
일 실시예에 따르면, 상기 부가 정보 저장부(600)는 트리 정보 갱신부(예: 도 5의 트리 정보 갱신부(503))에 의해 제1 형태소의 트리 정보(603)가 갱신되는 경우, 갱신 내용을 기반으로, 기 저장된 기본 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 카테고리 중 하나의 부가 정보를 업데이트할 수 있다. 이 때, 상기 부가 정보 저장부(600)는 상기 갱신 내용을 기반으로, 상기 기본 형태소 카테고리(605)의 부가 정보를 업데이트하는 경우, 상기 기본 형태소 카테고리(605)의 계층 정보를 구분하여, 상기 부가 정보를 업데이트할 수 있다.
예를 들어, 상기 부가 정보 저장부(600)는 상기 트리 정보(603)에서 "미팅" 또는 "기다리다"가 기본 형태소로 지정되어 있는 경우, 상기 기본 형태소의 부가 정보로써, 제2 형태소인 "커피숍에서"를 상기 "미팅을 기다리다"의 하위 계층 정보로 종속시킬 수 있다. 이에 따라, 상기 트리 정보(603)는 갱신될 수 있다. 상기 부가 정보 저장부(600)는 상기 트리 정보(603)가 갱신되는 경우, 상기 갱신된 내용을 기반으로, 기 저장된 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 카테고리에 포함된 "기다렸다" 및 "미팅"에 기반한 기본 형태소 카테고리(605)의 부가 정보를 업데이트할 수 있다.
일 실시예에 따르면, 상기 기본 형태소 카테고리(605)는 상위 계층 항목, 중위 계층 항목 및 하위 계층 항목을 포함할 수 있다. 상기 상위 계층 항목, 중위 계층 항목 및 하위 계층 항목은 부가 정보의 검색 및 추출을 용이하게 하기 위하여, 상기 기본 형태소 카테고리(605)마다 포함되어 있는 구성일 수 있다.
또한, 상기 부가 정보 저장부(600)는 상기 기본 형태소 카테고리(605)에 상기 부가 정보를 업데이트할 시, 상기 부가 정보의 속성을 확인하여, 상기 확인된 속성에 대응되는 상위 계층 항목, 중위 계층 항목 및 하위 계층 항목에 상기 부가 정보를 저장할 수 있다. 상기 속성과 관련된 자세한 설명은 도 5를 참고하도록 한다. 예를 들어, 상기 부가 정보 저장부(600)는 제2 형태소 즉, 부가 정보(커피숍)의 속성이 장소(where)로 확인된 경우, 상기 기본 형태소 카테고리(605)의 상위 계층 항목에서 "장소"의 속성을 가지는 상위 계층에 상기 부가 정보(커피숍)를 저장할 수 있다. 이 때, 상기 제2 형태소는 기본 형태소인 "기다렸다" 및 "미팅"에 기반한 기본 형태소 카테고리에 저장될 수 있다.
예를 들어, 상기 부가 정보 저장부(600)는 상기 부가 정보(커피숍)를 "장소"의 속성을 가지는 상위 계층 항목에 저장하고, 상기 상위 계층 항목에 포함된 적어도 하나의 중위 계층 항목(업소) 및 상기 중위 계층 항목(업소)에 포함된 하위 계층 항목에 상기 부가 정보를 분류할 수 있다. 이 때, 상기 부가 정보 저장부(600)는 부가 정보인 "커피숍"에서 "숍" 장소의 속성을 가지되, 상점을 의미하는 영어 단어인 것을 확인하여, 업소의 속성을 가지는 중위 계층에 포함된 하위 계층 항목에 상기 부가 정보 "커피숍"을 저장할 수 있다.
즉, 상기 부가 정보 저장부(600)는 상기 제1 형태소의 트리 정보(603)의 갱신 내용을 기반으로, 상기 기 저장된 기본 형태소 사전 테이블에 포함된 기본 형태소 카테고리(605)를 업데이트함으로써, 상기 제1 형태소의 트리 정보를 기준으로, 상기 기 저장된 행태소 사전 테이블을 동기화할 수 있다.
도 7는 본 발명의 일 실시 예에 따른 컴퓨팅 장치의 내부 구성의 일 예를 설명하기 위한 도면이다.
도 7는 본 발명의 일 실시 예에 따른 컴퓨팅 장치의 내부 구성의 일 예를 도시하였으며, 이하의 설명에 있어서, 상술한 도 1 내지 6에 대한 설명과 중복되는 불필요한 실시 예에 대한 설명은 생략하기로 한다.
도 7에 도시한 바와 같이, 컴퓨팅 장치(10000)은 적어도 하나의 프로세서(processor)(11100), 메모리(memory)(11200), 주변장치 인터페이스(peripEHRal interface)(11300), 입/출력 서브시스템(I/O subsystem)(11400), 전력 회로(11500) 및 통신 회로(11600)를 적어도 포함할 수 있다. 이때, 컴퓨팅 장치(10000)은 촉각 인터페이스 장치에 연결된 유저 단말이기(A) 혹은 전술한 컴퓨팅 장치(B)에 해당될 수 있다.
메모리(11200)는, 일례로 고속 랜덤 액세스 메모리(high-speed random access memory), 자기 디스크, 에스램(SRAM), 디램(DRAM), 롬(ROM), 플래시 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(11200)는 컴퓨팅 장치(10000)의 동작에 필요한 소프트웨어 모듈, 명령어 집합 또는 그밖에 다양한 데이터를 포함할 수 있다.
이때, 프로세서(11100)나 주변장치 인터페이스(11300) 등의 다른 컴포넌트에서 메모리(11200)에 액세스하는 것은 프로세서(11100)에 의해 제어될 수 있다.
주변장치 인터페이스(11300)는 컴퓨팅 장치(10000)의 입력 및/또는 출력 주변장치를 프로세서(11100) 및 메모리 (11200)에 결합시킬 수 있다. 프로세서(11100)는 메모리(11200)에 저장된 소프트웨어 모듈 또는 명령어 집합을 실행하여 컴퓨팅 장치(10000)을 위한 다양한 기능을 수행하고 데이터를 처리할 수 있다.
입/출력 서브시스템(11400)은 다양한 입/출력 주변장치들을 주변장치 인터페이스(11300)에 결합시킬 수 있다. 예를 들어, 입/출력 서브시스템(11400)은 모니터나 키보드, 마우스, 프린터 또는 필요에 따라 터치스크린이나 센서 등의 주변장치를 주변장치 인터페이스(11300)에 결합시키기 위한 컨트롤러를 포함할 수 있다. 다른 측면에 따르면, 입/출력 주변장치들은 입/출력 서브시스템(11400)을 거치지 않고 주변장치 인터페이스(11300)에 결합될 수도 있다.
전력 회로(11500)는 단말기의 컴포넌트의 전부 또는 일부로 전력을 공급할 수 있다. 예를 들어 전력 회로(11500)는 전력 관리 시스템, 배터리나 교류(AC) 등과 같은 하나 이상의 전원, 충전 시스템, 전력 실패 감지 회로(power failure detection circuit), 전력 변환기나 인버터, 전력 상태 표시자 또는 전력 생성, 관리, 분배를 위한 임의의 다른 컴포넌트들을 포함할 수 있다.
통신 회로(11600)는 적어도 하나의 외부 포트를 이용하여 다른 컴퓨팅 장치와 통신을 가능하게 할 수 있다.
또는 상술한 바와 같이 필요에 따라 통신 회로(11600)는 RF 회로를 포함하여 전자기 신호(electromagnetic signal)라고도 알려진 RF 신호를 송수신함으로써, 다른 컴퓨팅 장치와 통신을 가능하게 할 수도 있다.
이러한 도 7의 실시 예는, 컴퓨팅 장치(10000)의 일례일 뿐이고, 컴퓨팅 장치(11000)은 도 7에 도시된 일부 컴포넌트가 생략되거나, 도 7에 도시되지 않은 추가의 컴포넌트를 더 구비하거나, 2개 이상의 컴포넌트를 결합시키는 구성 또는 배치를 가질 수 있다. 예를 들어, 모바일 환경의 통신 단말을 위한 컴퓨팅 장치는 도 7에 도시된 컴포넌트들 외에도, 터치스크린이나 센서 등을 더 포함할 수도 있으며, 통신 회로(1160)에 다양한 통신방식(WiFi, 3G, LTE, Bluetooth, NFC, Zigbee 등)의 RF 통신을 위한 회로가 포함될 수도 있다. 컴퓨팅 장치(10000)에 포함 가능한 컴포넌트들은 하나 이상의 신호 처리 또는 어플리케이션에 특화된 집적 회로를 포함하는 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어 양자의 조합으로 구현될 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨팅 장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 특히, 본 실시 예에 따른 프로그램은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 발명이 적용되는 애플리케이션은 파일 배포 시스템이 제공하는 파일을 통해 이용자 단말에 설치될 수 있다. 일 예로, 파일 배포 시스템은 이용자 단말이기의 요청에 따라 상기 파일을 전송하는 파일 전송부(미도시)를 포함할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시 예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅 장치상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시 예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술 분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시 예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (8)

  1. 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템에 있어서,
    사용자로부터 한국어로 구성된 자연어가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장을 복수 개의 기본 문장으로 분해하는 문장 분해부;
    상기 문장 분해부에 의해 복합 문장의 분해가 완료되면, 상기 분해된 복수 개의 기본 문장 각각에 포함된 형태소를 확인하여, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 판단하는 문형 유형 판단부;
    상기 문형 유형 판단부에 의해 상기 복수 개의 기본 문장 각각에 대한 문형 유형이 판단 완료된 경우, 상기 복수 개의 기본 문장 각각에 포함된 형태소 중 일부를 부가 정보로 지정하는 부가 정보 지정부; 및
    상기 부가 정보의 지정이 완료되면, 상기 부가 정보를 상기 부가 정보로 지정되지 않은 형태소에 매칭시켜, 기 저장된 기본 형태소 사전 테이블에 포함된 기본 형태소 카테고리에 상기 부가 정보를 저장하는 부가 정보 저장부;를 포함하되,
    상기 문장 분해부는,
    상기 자연어가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장에 포함된 복수 개의 형태소를 식별하여, 상기 복합 문장을 형태소 별로 분해하는 형태소 분해부;
    상기 형태소 분해부에 의해 상기 복합 문장이 상기 형태소 별로 분해되면, 상기 분해된 형태소를 분석하여 상기 분석 결과를 기반으로, 상기 복합 문장을 서술어 단위로 분해하는 단위 분해부; 및
    상기 단위 분해부에 의해 상기 복합 문장이 서술어 단위로 분해되면, 상기 서술어 단위로 분해된 복합 문장을 상기 복수 개의 기본 문장으로 생성하는 기본 문장 생성부;를 포함하되,
    상기 문형 유형 판단부는,
    상기 기본 문장 생성부에 의해 상기 복수 개의 기본 문장이 생성된 경우, 상기 생성된 복수 개의 기본 문장 각각을 구성하는 복수 개의 어절을 확인하는 어절 확인부;
    상기 어절 확인부에 의해 상기 복수 개의 어절의 확인이 완료되면, 기 저장된 품사 분류 정보를 기반으로, 상기 복수 개의 어절에 포함된 형태소들 각각에 대한 품사를 확인하여, 상기 확인된 품사를 통해 상기 복수 개의 어절 각각의 문장 성분을 분류하는 성분 분류부; 및
    상기 성분 분류부에 의해 상기 복수 개의 어절 각각에 대한 문장 성분의 분류가 완료된 경우, 상기 분류된 문장 성분 간의 조합 관계를 확인하여, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 결정하는 문형 결정부;를 포함하되,
    상기 부가 정보 지정부는,
    상기 문형 유형이 결정된 복수 개의 기본 문장 각각에 포함된 형태소들 중 기 저장된 기본 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 중 적어도 하나에 대응하는 제1 형태소를 제외한 나머지 형태소인 제2 형태소를 추출하는 형태소 추출부; 및
    상기 제2 형태소의 추출이 완료되면, 상기 제2 형태소를 상기 제1 형태소에 대한 부가 정보로 지정하여, 상기 제1 형태소의 트리 정보를 갱신하는 트리 정보 갱신부;를 포함하는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 문형 유형은,
    상기 복수 개의 어절 각각에 대한 문장 성분 간의 조합 관계를 기반으로 결정되는 상기 복수 개의 기본 문장 각각에 대한 문장 형태로써,
    주어 및 서술어로 조합되어 구성되는 제1 유형
    상기 주어, 부사어 및 상기 서술어로 조합되어 구성되는 제2 유형;
    상기 주어, 목적어 및 상기 서술어로 조합되어 구성되는 제3 유형;
    상기 주어, 보어 및 상기 서술어로 조합되어 구성되는 제4 유형; 및
    상기 주어, 상기 목적어, 상기 보어 및 상기 서술어로 조합되어 구성되는 제5 유형;을 포함하는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
  5. 삭제
  6. 제1항에 있어서,
    상기 트리 정보는,
    상기 문형 유형 별로 기본 형태소마다 종속되어 있는 트리 구조의 정보로써, 상기 부가 정보로 지정된 제2 형태소가 상기 기본 형태소의 하위 계층 정보로 업데이트되는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
  7. 제6항에 있어서,
    상기 부가 정보 저장부는,
    상기 트리 정보 갱신부에 의해 상기 제1 형태소의 트리 정보가 갱신되는 경우, 갱신 내용을 기반으로, 상기 기 저장된 기본 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 카테고리 중 하나의 부가 정보를 업데이트하여, 상기 제1 형태소의 트리 정보를 기준으로 상기 기 저장된 기본 형태소 사전 테이블을 동기화하는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
  8. 제7항에 있어서,
    상기 기 저장된 기본 형태소 사전 테이블은,
    상기 문형 유형 별로 상기 제2 형태소를 추출하기 위한 기준이 되는 기본 형태소에 기반한 복수 개의 기본 형태소 카테고리를 포함하고 있는 데이터로써, 상기 복수 개의 기본 형태소 카테고리 각각에 포함된 부가 정보의 검색 및 추출 기능을 제공하기 위해 상기 복수 개의 기본 형태소 카테고리마다 그래프 구조로 형성되는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
KR1020210101350A 2021-08-02 2021-08-02 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 KR102381079B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020210101350A KR102381079B1 (ko) 2021-08-02 2021-08-02 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템
CN202180050247.2A CN115956245A (zh) 2021-08-02 2021-11-25 基于基本句型单位分解的外语句子结构学习系统
US18/020,514 US20240169150A1 (en) 2021-08-02 2021-11-25 Foreign language phrases learning system based on basic sentence pattern unit decomposition
PCT/KR2021/017468 WO2023013826A1 (ko) 2021-08-02 2021-11-25 기본 문형 단위 분해에 기반한 외국어 구문 학습 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210101350A KR102381079B1 (ko) 2021-08-02 2021-08-02 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템

Publications (1)

Publication Number Publication Date
KR102381079B1 true KR102381079B1 (ko) 2022-04-01

Family

ID=81183576

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210101350A KR102381079B1 (ko) 2021-08-02 2021-08-02 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템

Country Status (4)

Country Link
US (1) US20240169150A1 (ko)
KR (1) KR102381079B1 (ko)
CN (1) CN115956245A (ko)
WO (1) WO2023013826A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230155156A (ko) 2022-05-03 2023-11-10 서강대학교산학협력단 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150042532A (ko) * 2013-10-11 2015-04-21 에스케이텔레콤 주식회사 복합 문장 분석 장치, 이를 위한 기록매체
KR20170083946A (ko) * 2016-01-11 2017-07-19 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
WO2017122904A1 (ko) * 2016-01-11 2017-07-20 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
KR20180086801A (ko) * 2017-01-23 2018-08-01 (주)센솔로지 Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치
JP6526470B2 (ja) * 2015-02-23 2019-06-05 株式会社ワイズナット テキスト分析及び応答システムのための語彙意味パターンの事前構築方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101755437B1 (ko) * 2016-01-21 2017-07-12 주식회사 와이즈넛 어휘의미패턴을 이용한 한국어의 기계번역방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150042532A (ko) * 2013-10-11 2015-04-21 에스케이텔레콤 주식회사 복합 문장 분석 장치, 이를 위한 기록매체
JP6526470B2 (ja) * 2015-02-23 2019-06-05 株式会社ワイズナット テキスト分析及び応答システムのための語彙意味パターンの事前構築方法
KR20170083946A (ko) * 2016-01-11 2017-07-19 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
WO2017122904A1 (ko) * 2016-01-11 2017-07-20 한국과학기술원 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템
KR20180086801A (ko) * 2017-01-23 2018-08-01 (주)센솔로지 Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박용민 외, 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV 프로그램 (2014.07.) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230155156A (ko) 2022-05-03 2023-11-10 서강대학교산학협력단 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법

Also Published As

Publication number Publication date
US20240169150A1 (en) 2024-05-23
WO2023013826A1 (ko) 2023-02-09
CN115956245A (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
Gu et al. Multimodal affective analysis using hierarchical attention strategy with word-level alignment
Medhat et al. Sentiment analysis algorithms and applications: A survey
RU2592396C1 (ru) Способ и система для машинного извлечения и интерпретации текстовой информации
US20160062982A1 (en) Natural language processing system and method
RU2646386C1 (ru) Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора
RU2607976C1 (ru) Извлечение информации из структурированных документов, содержащих текст на естественном языке
US20080091405A1 (en) Method and system for analyzing various languages and constructing language-independent semantic structures
US12019981B2 (en) Method and system for converting literature into a directed graph
US11170169B2 (en) System and method for language-independent contextual embedding
RU2640297C2 (ru) Определение степеней уверенности, связанных со значениями атрибутов информационных объектов
Rachman et al. CBE: Corpus-based of emotion for emotion detection in text document
US10223349B2 (en) Inducing and applying a subject-targeted context free grammar
Cuteri et al. A logic-based question answering system for cultural heritage
Li et al. Intention understanding in human–robot interaction based on visual-NLP semantics
WO2020091618A1 (ru) Система определения именованных сущностей с динамическими параметрами
Jang et al. A novel density-based clustering method using word embedding features for dialogue intention recognition
KR102381079B1 (ko) 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템
KR102465622B1 (ko) 인공지능 및 자연어 처리 기반의 의료 콘텐츠 저작 및 관리 시스템
Malik et al. NLP techniques, tools, and algorithms for data science
Caschera et al. From modal to multimodal ambiguities: a classification approach
Pham et al. A hybrid approach for biomedical event extraction
Dehkharghani et al. A novel approach to sentiment analysis in Persian using discourse and external semantic information
Mehler et al. Towards a network model of the coreness of texts: An experiment in classifying Latin texts using the ttlab latin tagger
KR20230142109A (ko) 지식 베이스를 활용한 유저별 맞춤형 컨텐츠 추천 방법, 장치 및 컴퓨터-판독가능 기록매체
Pittaras et al. Content-based and knowledge-enriched representations for classification across modalities: a survey

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant