KR20200066009A - 한국어 구문 분석을 활용한 정보 처리 시스템 - Google Patents
한국어 구문 분석을 활용한 정보 처리 시스템 Download PDFInfo
- Publication number
- KR20200066009A KR20200066009A KR1020180153014A KR20180153014A KR20200066009A KR 20200066009 A KR20200066009 A KR 20200066009A KR 1020180153014 A KR1020180153014 A KR 1020180153014A KR 20180153014 A KR20180153014 A KR 20180153014A KR 20200066009 A KR20200066009 A KR 20200066009A
- Authority
- KR
- South Korea
- Prior art keywords
- user
- unit
- translation
- input sentence
- analysis
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
한국어인 사용자의 입력 문장에 대하여 향상된 구문 분석을 수행하여, 정확한 의미를 분석하고 그에 대한 결과를 제공할 수 있는 정보 처리 시스템을 제공한다. 본 발명에 따른 정보 처리 시스템은, 네트워크를 통하여 사용자로부터 입력 문장을 받고, 사용자의 입력 문장에 대하여 처리된 결과물인 출력을 사용자에게 제공하는 사용자 인터페이스; 사용자의 입력 문장에 대한 번역을 수행하는 언어 번역부; 사용자의 입력 문장에 대한 번역 결과에 대하여 의존 구문 분석을 수행하는 의존 구문 분석부; 사용자의 입력 문장에 대한 번역 결과에 대하여 수행된 의존 구문 분석 결과를 사용자의 입력 문장에 대응하여, 사용자의 입력 문장에 대한 의존 구문 분석을 수행하는 의존 구문 구조 대응부; 및 사용자의 입력 문장, 및 그에 대한 의존 구문 분석 결과로부터, 출력을 생성하는 질의 응답/검색 요청 처리부;를 포함한다.
Description
본 발명은 질의에 대한 응답 또는 검색 요청에 대한 검색 결과를 제공하는 정보 처리 시스템에 관한 것으로, 자세하게는 한국어 구문 분석을 활용한 정보 처리 시스템에 관한 것이다.
본 발명은 과학기술정보통신부 정보통신·방송 기술개발사업의 일환으로 (주)솔트룩스에서 주관하고 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2018.01.01~2018.12.31, 연구관리 전문기관: 정보통신기술진흥센터, 연구과제명: 자율지능 디지털 동반자 프레임워크 및 응용 연구개발, 과제 고유번호: 2017-0-00255]
사용자의 질의에 대한 응답을 하거나, 사용자의 검색 요청에 대하여 검색 결과를 제공하는 정보 처리 시스템은, 사용자의 질의 또는 사용자의 검색 요청(이하, 사용자의 입력 문장)에 대한 정확한 의미를 분석할 필요가 있다. 이를 위하여, 사용자의 입력 문장을 이루고 있는 구성 성분을 분해하고, 그들 사이의 위계 관계를 분석하여 문장의 구조를 결정하는 구문 분석이 전제되어야 한다.
구문 분석은 문장을 구성하는 구성 성분의 조합을 찾는 구 구조 구문분석(phrase structure parsing)과 구성 성분들 간의 의존-지배 관계를 찾는 의존 구문 분석(dependency parsing)이 있다. 그러나, 한국어 문장의 경우 조사와 어미가 발달되어 있어 문장을 구성하는 구성요소의 위치가 비교적 자유롭기 때문에 어순에 의한 문장 조합에 있어서 애매성이 높고, 주어나 목적어와 같은 필수적인 문장성분이 문맥에 따라서 생략될 수 있기 때문에 구문 분석이 어렵다.
본 발명의 기술적 과제는, 한국어인 사용자의 입력 문장에 대하여 향상된 구문 분석을 수행하여, 정확한 의미를 분석하고 그에 대한 결과를 제공할 수 있는 정보 처리 시스템을 제공하는 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 기술적 사상의 일측면에 따른 정보 처리 시스템은, 네트워크를 통하여 사용자로부터 입력 문장을 받고, 상기 사용자의 입력 문장에 대하여 처리된 결과물인 출력을 상기 사용자에게 제공하는 사용자 인터페이스; 상기 사용자의 입력 문장에 대한 번역을 수행하는 언어 번역부; 상기 사용자의 입력 문장에 대한 번역 결과에 대하여 의존 구문 분석을 수행하는 의존 구문 분석부; 상기 사용자의 입력 문장에 대한 번역 결과에 대하여 수행된 의존 구문 분석 결과를 상기 사용자의 입력 문장에 대응하여, 상기 사용자의 입력 문장에 대한 의존 구문 분석을 수행하는 의존 구문 구조 대응부; 및 상기 사용자의 입력 문장, 및 그에 대한 의존 구문 분석 결과로부터, 상기 출력을 생성하는 질의 응답/검색 요청 처리부;를 포함한다.
상기 언어 번역부는, 상기 사용자의 입력 문장을 어절 단위로 엔그램(n-Gram)들로 분리하는 엔그램 분리부; 상기 사용자의 입력 문장 및 분리된 상기 엔그램들 각각에 대하여 번역을 수행하는 번역 수행부; 및 상기 사용자의 입력 문장과 그 번역 결과, 및 분리된 상기 엔그램들과 그 각각의 번역 결과를 비교하여 대응시키는 엔그램 비교부;를 포함할 수 있다.
상기 의존 분석 수행부는, 상기 사용자의 입력 문장에 대한 번역 결과, 및 분리된 상기 엔그램들 각각에 대한 번역 결과에 대하여 의존 구문 분석을 수행하는 번역문 분석 수행부;를 포함할 수 있다.
상기 의존 분석 수행부는, 상기 사용자의 입력 문장, 및 분리된 상기 엔그램들 각각에 대하여 의존 구문 분석을 수행하는 원문 분석 수행부;를 더 포함할 수 있다.
상기 의존 구문 구조 대응부는, 상기 사용자의 입력 문장과 그에 대한 번역 결과 각각의 어절을 대응시켜 상기 사용자의 입력 문장과 그에 대한 번역 결과 각각의 서술어를 분석하는 서술어 분석부; 형태소 번역 사전을 참조하여 분석된 상기 사용자의 입력 문장과 그에 대한 번역 결과 각각의 서술어를 매칭하여, 의존 구문 구조에서 의존 관계의 중심이 되는 기준 서술어를 정하는 서술어 매칭부; 및 상기 기준 서술어를 기준으로, 상기 사용자의 입력 문장 및 그에 대한 번역 결과 각각의 나머지 어절들의 의존 관계를 대응하여, 상기 사용자의 입력 문장에 대한 의존 구문 구조를 생성하는 의존 관계 대응부;를 포함할 수 있다.
상기 서술어 매칭부는, 상기 사용자의 입력 문장, 및 분리된 상기 엔그램들 각각에 대한 번역 결과의 서술어들에 가중치를 반영하고 빈도를 고려하여 상기 기준 서술어를 결정할 수 있다.
한국어 의존 관계 기본 원칙을 참조하여, 상기 의존 관계 대응부에서 생성한 상기 사용자의 입력 문장에 대한 의존 구문 구조에 대한 보정을 수행하여, 상기 질의 응답/검색 요청 처리부에 제공하는 의존 구문 분석 보정부를 더 포함할 수 있다.
상기 서술어 매칭부는 기본형 사전을 참조하여, 상기 사용자의 입력 문장, 및 분리된 상기 엔그램들 각각에 대한 번역 결과의 서술어에 대한 기본형을 구한 후, 상기 사용자의 입력 문장, 및 분리된 상기 엔그램들 각각에 대한 번역 결과의 서술어를 종합하여 상기 기준 서술어를 결정할 수 있다.
상기 사용자의 입력 문장은 한국어로 이루어지고, 상기 언어 번역부는 한국어에 대한 영어 번역을 수행할 수 있다.
본 발명에 따른 한국어 구문 분석을 활용한 정보 처리 시스템은, 한국어 구문 분석, 특히 의존 구문 분석을 한국어 문장 그 자체로 수행하지 않고, 한국어보다 의존 구문 분석 기술의 성능이 뛰어난 다른 언어로 번역한 후, 번역 결과에 대하여 의존 구문 분석을 수행한 결과를 활용하여 한국어에 대한 의존 구문 분석에 활용하므로, 향상된 한국어 구문 분석이 가능하며, 향상된 구문 분석에 의한 한국어 문장의 자연어 분석 결과를 토대로 정보처리를 수행하므로, 사용자에게 더욱 정확한 출력 결과를 제공할 수 있다.
도 1은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템을 나타내는 블록도이다.
도 2는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 자연어 이해부의 구성을 나타내는 블록도이다.
도 3은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 분석부의 구성을 나타내는 블록도이다.
도 4는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 언어 번역부의 구성을 나타내는 블록도이다.
도 5는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 분석 수행부의 구성을 나타내는 블록도이다.
도 6은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 구조 대응부의 구성을 나타내는 블록도이다.
도 7은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템을 나타내는 블록도이다.
도 2는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 자연어 이해부의 구성을 나타내는 블록도이다.
도 3은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 분석부의 구성을 나타내는 블록도이다.
도 4는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 언어 번역부의 구성을 나타내는 블록도이다.
도 5는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 분석 수행부의 구성을 나타내는 블록도이다.
도 6은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 구조 대응부의 구성을 나타내는 블록도이다.
도 7은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템을 나타내는 블록도이다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하 도면 및 설명에서, 하나의 블록, 예를 들면, '~부' 또는 '~모듈'로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다.
본 발명의 구성 및 효과를 충분히 이해하기 위하여, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예들을 설명한다.
도 1은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템을 나타내는 블록도이다.
도 1을 참조하면, 한국어 구문 분석을 활용한 정보 처리 시스템(1, 이하 정보 처리 시스템)은, 네트워크(50)를 통하여 사용자(10)로부터 질의 또는 검색 요청을 수신하고, 응답 또는 검색 결과를 송신하는 유저 인터페이스(UI, 100)를 포함한다. 네트워크(50)는 유선 인터넷 서비스, 근거리 통신망(LAN), 광대역 통신망(WAN), 인트라넷, 무선 인터넷 서비스, 이동 컴퓨팅 서비스, 무선 데이터 통신 서비스, 무선 인터넷 접속 서비스, 위성 통신 서비스, 무선 랜, 블루투스 등 유/무선을 통하여 데이터를 주고 받을 수 있는 것을 모두 포함할 수 있다. 네트워크(50)가 스마트폰 또는 태블릿 등과 연결되는 경우, 네트워크(50)는 3G, 4G, 5G 등의 무선 데이터 통신 서비스, 와이파이(Wi-Fi) 등의 무선 랜, 블루투스 등일 수 있다.
유저 인터페이스(100)는 사용자(10)가 사용하는 단말기 등을 통하여 정보 처리 시스템(1)에 엑세스하기 위한 인터페이스를 제공할 수 있다. 사용자(10)는 유저 인터페이스(100)를 통하여 정보 처리 시스템(1)에 질의 또는 검색 요청을 전송할 수 있고, 유저 인터페이스(100)를 통하여 정보 처리 시스템(1)의 제공하는 질의에 대한 응답 또는 검색 요청에 대한 검색 결과를 수신할 수 있다.
정보 처리 시스템(1)는 유저 인터페이스(100)를 통하여 입력받은 자연어 형태의 사용자(10)의 질의 또는 검색 요청(이하 사용자의 입력 문장)을 분석할 수 있는 자연어 이해부(300), 및 자연어 이해부(300)와 함께 사용자(10)의 입력 문장에 대한 의존 구문 분석을 수행하는 의존 구문 분석부(200)를 포함한다.
예를 들면, 자연어 이해부(300)는 질의에 대하여 형태소 분석, 구문 분석, 개체명 분석, 필터링 분석, 의도 분류, 도메인 분석, 및 시맨틱 롤 라벨링 등의 복수의 단위 분석 과정을 수행할 수 있다. 상기 복수의 단위 분석 과정 중 일부는 병렬적으로 수행될 수 있다. 상기 복수의 단위 분석 과정 중 일부는 순차적으로 수행될 수 있다.
구문 분석은 문장을 구성하는 구성 성분(예를 들면, 형태소, 또는 객체와 조사 등이 결합된 2개 이상의 형태소로 이루어지는 성분)들의 조합을 찾는 구 구조 구문분석(phrase structure parsing)과 구성 요소들 간의 의존-지배 관계를 찾는 의존 구문 분석(dependency parsing)이 있다. 한국어 문장의 경우 조사와 어미가 발달되어 있어 문장을 구성하는 구성 성분의 위치가 비교적 자유롭기 때문에 어순에 의한 문장 조합에 있어서 애매성이 높고, 주어나 목적어와 같은 필수적인 문장성분이 문맥에 따라서 생략될 수 있기 때문에 구성 성분의 조합을 찾는 구 구조 구문분석이 어렵다. 따이러한 이유로 많은 한국어 처리 연구에서는 한국어의 특성을 비교적 잘 반영할 수 있는 의존 구문 분석에 집중하고 있다.
본 명세서에서는 사용자(10)의 입력 문장 그 자체로 구문 분석을 하는 종래의 구문 분석부의 기능을 수행하는 부분을 자연어 이해부(300)의 구문 분석부(320)로 나타내고, 이하에서 설명한 본 발명의 실시 예에 따른 의존 구문 분석을 수행하는 부분을 의존 구문 분석부(200)로 구분하여 나타냈으나, 이에 한정되지 않는다.
일부 실시 예에서, 의존 구문 분석부(200)는 자연어 이해부(300)의 일부분일 수 있으며, 의존 구문 분석부(200)와 자연어 이해부(300)를 함께 의존 구문 분석이 강화된 자연어 이해부(300a)로 이해할 수도 있다.
즉, 의존 구문 분석부(200)는 자연어 이해부(300)에서 구문 분석을 하는 부분인 구문 분석부(도 2의 320)과 연결되어, 구문 분석부(320)의 성능을 향상시켜줄 수 있는 별도의 블록이거나, 구문 분석부(320)의 일부분을 별도로 구성요소로 나타낸 것일 수 있다.
의존 구문 분석부(200)는 사용자(10)의 입력 문장 그 자체로만 구문 분석, 특히 의존 구문 분석을 수행하지 않고, 사용자(10)의 입력 문장을 하나의 외국어 또는 다국어로 번역한 후, 번역된 사용자(10)의 입력 문장(이하 번역된 입력 문장)에 대한 의존 구문 분석 결과를 활용하여, 사용자(10)의 입력 문장에 대한 의존 구문 분석을 할 수 있다. 이에 대해서는 도 3 내지 도 6을 참조하여, 자세히 설명하도록 한다.
본 명세서에서는 한국어인 사용자(10)의 입력 문장을 영어로 번역한 후, 영어로 번역된 입력 문장에 대한 의존 구문 분석 결과를 활용해서 한국어인 사용자(10)의 입력 문장에 대한 의존 구문 분석을 하는 것을 설명하나, 이에 한정되지 않는다. 일부 실시 예에서, 한국어인 사용자(10)의 입력 문장을 영어 이외의 다른 언어로 번역하거나, 다국어로 번역한 후, 번역된 입력 문장에 대한 의존 구문 분석 결과를 활용해서 한국어인 사용자(10)의 입력 문장에 대한 의존 구문 분석을 할 수도 있고, 다른 일부 실시 예에서, 한국어 이외의 다른 언어인 사용자(10)의 입력 문장을 또 다른 적어도 하나의 언어로 번역한 후, 번역된 입력 문장에 대한 의존 구문 분석 결과를 활용해서 한국어 이외의 다른 언이인 사용자(10)의 입력 문장에 대한 의존 구문 분석을 할 수도 있으며, 본 발명에 따른 정보 처리 시스템(1)이 가지는 의존 구문 분석부(200)는, 사용자(10)의 입력 문장을 이루는 언어 그 자체로만 이루어지는 의존 구문 분석 기술의 성능보다, 번역할 다른 언어의 의존 구문 분석 기술의 성능이 뛰어난 경우에는 모두 적용 가능하다.
질의 응답/검색 요청 처리부(400)는 자연어 형태의 사용자(10)의 질의 또는 검색 요청에 대한 자연어 분석 결과에 대하여 정보 처리를 하여, 사용자(10)에게 질의에 대한 응답 또는 검색 요청에 대한 검색 결과를 제공할 수 있으나, 이에 한정되지 않는다. 예를 들면, 질의 응답/검색 요청 처리부(400)는 자연어 형태의 사용자(10)의 입력 문장에 대하여 정보 처리를 하여, 사용자(10)에게 출력을 제공할 수 있는 모든 형태의 정보 처리부일 수 있다.
도 2는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 자연어 이해부의 구성을 나타내는 블록도이다.
도 2를 참조하면, 의존 구문 분석이 강화된 자연어 이해부(300a)는 의존 구문 분석부(200) 및 자연어 이해부(300)로 이루어질 수 있다. 의존 구문 분석부(200)와 자연어 이해부(300)는 사용자(도 1의 10 참조)의 입력 문장에 대한 자연어 분석을 수행할 수 있다. 의존 구문 분석부(200)와 자연어 이해부(300)는 자연어 분석을 수행하는 각 과정의 적어도 일부에서, 지식 베이스(800)를 참조할 수 있다.
자연어 이해부(300)는 형태소 분석부(310), 구문 분석부(320), 개체명 분석부(330), 필터링 분석부(340), 의도 분류부(350), 도메인 분석부(360), 및 시맨틱 롤 라벨링부(SRL, 370)를 포함할 수 있다. 형태소 분석부(310)는 의미 역할이 부여된 사용자(10)의 입력 문장을 형태소 단위로 분리할 수 있다. 구문 분석부(320) 및 개체명 분석부(330)는 각각 형태소 단위로 분리된 사용자(10)의 입력 문장에 구문 분석 및 개체명 분석을 할 수 있다. 필터링 분석부(340)는 사용자(10)의 입력 문장에 포함된 불필요한 피쳐(feature)를 제거하여 간결화된 문장 패턴을 생성할 수 있다. 의도 분류부(350) 및 도메인 분석부(360)는 필터링 분석부(340)에서 생성한 간결화된 문장 패턴을 기초로 의미 역할이 부여된 사용자(10)의 입력 문장의 의도(intention) 분류 및 도메인 분석을 할 수 있다. 시맨틱 롤 라벨링부(370)는 사용자(10)의 입력 문장에 대한 의미 역할(Semantic Role)을 부여(Labeling)할 수 있다.
의존 구문 분석부(200)는 구문 분석부(320)에서 수행될 수 있는 의존 구문 분석 기능을 대신 수행하거나, 보완할 수 있다. 의존 구문 분석부(200)는 자연어 이해부(300)의 구문 분석부(320)와 정보를 주고 받을 수 있으나, 이에 한정되지 않고, 자연어 이해부(300)의 다른 구성 요소, 예를 들면, 형태소 분석부(310), 개체명 분석부(330), 필터링 분석부(340), 의도 분류부(350), 도메인 분석부(360), 및 시맨틱 롤 라벨링부(370) 중 적어도 하나와도 정보를 주고 받을 수 있다.
의존 구문 분석부(200)와 자연어 이해부(300)는 생성된 자연어 분석 결과를 질의 응답/검색 요청 처리부(400)에 제공할 수 있다.
도 3은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 분석부의 구성을 나타내는 블록도이다. 도 3에서는 도 2에 보인 자연어 이해부(300)에 대한 내용이 생략되었으나, 의존 구문 분석부(200)는 자연어 이해부(300)와 함께 자연어 분석을 수행할 수 있으며, 의존 구문 분석부(200)에서 수행되는 의존 구문 분석에 대한 내용을 위주로 설명한다.
도 3을 참조하면, 의존 구문 분석부(200)는 언어 번역부(210), 의존 구문 분석 수행부(220), 의존 구문 구조 대응부(230) 및 의존 구문 분석 보정부(240)를 포함할 수 있다.
언어 번역부(210)는 유저 인터페이스(100)로부터 사용자(10)의 입력 문장을 수신하여, 사용자(10)의 입력 문장을 다른 언어로 번역할 수 있다. 예를 들면, 언어 번역부(210)은 한국어인 사용자(10)의 입력 문장을 영어로 번역할 수 있다. 언어 번역부(210)는 사용자(10)의 입력 문장 전체를 그대로 번역할 수도 있고, 사용자(10)의 입력 문장을 어절 단위로 엔그램(n-Gram)으로 분리하여 분리된 엔그램들을 각각 번역할 수도 있고, 사용자(10)의 입력 문장 전체 및 분리된 엔그림들을 각각 번역할 수도 있다.
언어 번역부(210)는 자체 번역 엔진을 가지고 사용자(10)의 입력 문장에 대한 번역을 수행할 수도 있으나, 외부 번역 서비스(510)를 이용하여 번역을 수행한 후 번역 결과를 제공받을 수도 있다.
의존 구문 분석 수행부(220)는 언어 번역부(210)의 번역 결과에 대한 의존 구문 분석을 수행한다. 일부 실시 예에서, 의존 구문 분석 수행부(220)는 사용자(10)의 입력 문장 및 분리된 엔그림들에 대한 의존 구문 분석을 더 수행할 수 있다.
의존 구문 분석 수행부(220)는 자체 의존 구문 분석 엔진을 가지고 의존 구문 분석을 수행할 수도 있으나, 외부 의존 구문 분석 서비스(520)를 이용하여 의존 구문 분석을 수행한 후, 그 결과를 제공받을 수도 있다.
의존 구문 구조 대응부(230)는 의존 구문 분석 수행부(220)에서 수행된 의존 구문 분석 결과를 이용하여, 사용자(10)의 입력 문장에 의존 구문 구조를 대응시킨다. 의존 구문 구조 대응부(230)는 형태소 번역 사전(610)를 참조하여, 사용자(10)의 입력 문장에 번역 결과에 대한 의존 구문 분석 수행부(220)에서 수행된 의존 구문 분석 결과를 대응하여, 사용자(10)의 입력 문장에 대한 의존 구문 구조를 생성할 수 있다.
의존 구문 구조 대응부(230)는 사용자(10)의 입력 문장의 어절과 번역 결과의 어절을 대응시켜 사용자(10)의 입력 문장의 서술어와 번역 결과의 서술어를 분석하고, 형태소 번역 사전(610)을 참조하여, 사용자(10)의 입력 문장의 서술어와 번역 결과의 서술어를 매칭하여, 의존 구문 구조의 기준으로 삼는다. 이때. 의존 구문 구조 대응부(230)는 기본형 사전(620)을 추가로 참조할 수 있다. 기본형 사전(620)은 단복수/시제/존칭 등 여러 가지 형태로 변형이 가능한 형태소에 대한 기본형을 제공할 수 있다. 이후, 의존 구문 구조 대응부(230)는 사용자(10)의 입력 문장의 분리된 엔그램과 그의 번역 결과를 반영하여 서술어에 대한 의존 관계를 대응하여, 사용자(10)의 입력 문장에 대한 의존 구문 구조를 생성할 수 있다.
의존 구문 분석 보정부(240)는 한국어 의존 관계 기본 원칙(700)를 참조하여, 의존 구문 구조 대응부(230)에서 생성한 의존 구문 구조에 대한 보정을 수행하여, 질의 응답/검색 요청 처리부(400)에 의존 구문 구조에 대한 정보를 가지는 사용자(10)의 입력 문장을 제공한다.
한국어 의존 관계 기본 원칙(700)은 예를 들면, 2015. 12. 16. 제정된 정보통신단체표준(국문표준), TTAK.KO-10.0853인 의존 구문 분석 말뭉치 구축을 위한 의존 관계 태그 세트 및 의존 관계 설정 방법일 수 있다.
질의 응답/검색 요청 처리부(400)는 사용자(10)의 입력 문장에 대한 의존 구문 구조를 포함하는 자연어 분석 결과에 대하여 정보 처리를 하여, 사용자(10)에게 그에 대한 처리 결과를 제공할 수 있다.
도 4는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 언어 번역부의 구성을 나타내는 블록도이다.
도 4를 참조하면, 언어 번역부(210)는 엔그램 분리부(212), 번역 수행부(214), 및 엔그램 비교부(216)을 포함할 수 있다.
언어 번역부(210)는 유저 인터페이스(100)로부터 사용자(도 1의 10)의 입력 문장을 수신하여, 사용자(10)의 입력 문장을 다른 언어로 번역할 수 있다. 예를 들면, 언어 번역부(210)은 한국어인 사용자(10)의 입력 문장을 영어로 번역할 수 있다.
엔그램 분리부(212)는 사용자(10)의 입력 문장을 어절 단위로 엔그램(n-Gram)들로 분리할 수 있다. 예를 들어, 사용자(10)의 입력 문장이 x개의 어절로 이루어지는 경우, 엔그램 분리부(212)는 사용자(10)의 입력 문장을 2개 내지 x-1개의 어절로 이루어지는 엔그램들로 분리할 수 있다.
예를 들어, 사용자(10)의 입력 문장이 "멜라닌은 사람의 피부색을 결정한다."와 같이 4개의 어절로 이루어지는 경우, 엔그램 분리부(212)는 사용자(10)의 입력 문장을 2개 또는 3개의 어절로 이루어지는 엔그램으로 분리할 수 있다. 2개의 어절로 이루어지는 엔그램은 "멜라닌은 사람의", "사람의 피부색을", "피부색을 결정한다"일 수 있고, 3개의 어절로 이루어지는 엔그램은 "멜라닌은 사람의 피부색을", "사람의 피부색을 결정한다"일 수 있다.
번역 수행부(214)는 사용자(10)의 입력 문장으로부터 분리된 엔그램들을 각각 번역할 수도 있고, 사용자(10)의 입력 문장 전체를 번역할 수도 있다. 이때, 번역 수행부(214)가 사용자(10)의 입력 문장 전체와 분리된 엔그램을 함께 번역하는 경우는, 2개 내지 x개의 어절로 이루어지는 사용자(10)의 입력 문장에 대한 엔그램들을 각각 번역한다고 지칭할 수도 있다.
번역 수행부(214)는 자체 번역 엔진을 가지고 사용자(10)의 입력 문장, 및 분리된 엔그램들에 대한 번역을 수행할 수도 있으나, 외부 번역 서비스(510)를 이용하여 번역을 수행한 후 번역 결과를 제공받을 수도 있다. 외부 번역 서비스(510)는 예를 들면, 구글의 GNMT(Google Nueral Machine Translation) 또는 네이버의 N2MT (Naver Neural Machine Translation) 등일 수 있으나 이에 한정되지 않는다. 또한 언어 번역부(210)는 하나의 외부 번역 서비스(510)를 이용하여 번역을 수행할 수도 있으나, 2개 이상의 외부 번역 서비스(510)를 함께 이용하여 번역을 수행할 수도 있고, 자체 번역 엔진과 적어도 1개의 외부 번역 서비스(510)를 함께 이용하여 번역을 수행할 수도 있다.
엔그램 비교부(216)는 사용자(10)의 입력 문장과 그 번역 결과, 및/또는 분리된 엔그램들과 그 각각의 번역 결과를 비교하고 대응시켜 의존 구문 분석 수행부(220)에 제공할 수 있다. 엔그램 비교부(216)는 서로 대응되는 원문의 형태소와 번역문의 형태소가 하나의 세트를 이루도록 하여, 그 결과를 의존 구문 분석 수행부(220)에 제공할 수 있다.
도 5는 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 분석 수행부의 구성을 나타내는 블록도이다.
도 5를 참조하면, 의존 구문 분석 수행부(220)는 번역문 분석 수행부(224)를 포함할 수 있다. 일부 실시 예에서, 의존 구문 분석 수행부(220)는 원문 분석 수행부(222)를 더 포함할 수 있다.
의존 구문 분석 수행부(220)는 언어 번역부(210)로부터 원문, 예를 들면, 사용자(도 1의 10)의 입력 문장 및 분리된 엔그램들과, 번역문, 예를 들면 사용자(도 1의 10)의 입력 문장 및 분리된 엔그램들 각각의 번역 결과를 제공받아, 의존 구문 분석을 수행할 수 있다.
번역문 분석 수행부(224)는 언어 번역부(210)의 번역 결과에 대한 의존 구문 분석을 수행한다.
예를 들어, 사용자(10)의 입력 문장인 "멜라닌은 사람의 피부색을 결정한다."에 대한 번역 결과가 "Melanin determines a person's skin color."인 경우, "Melanin//NP_SBJ// determines//VP// a person's//NP_MOD// skin color//NP_OBJ//."이고, 'NP_SBJ'와 'NP_MOD'는 'VP'에 의존하고, 'NP_MOD'는 'NP_OBJ'에 의존하는 의존 구문 분석 결과를 얻을 수 있다. 여기에서 'NP'는 체언(명사, 대명사, 수사), 'SBJ'는 주어, 'MOD'는 관형어(체언 수식어), 'OBJ'는 목적어, 'VP'는 용언 (동사, 형용사, 보조 용언)일 수 있다.
일부 실시 예에서, 의존 구문 분석 수행부(220)가 원문 분석 수행부(222)를 더 포함하는 경우, 원문 분석 수행부(222)는 원문, 즉 사용자(10)의 입력 문장 및 분리된 엔그램들에 대한 의존 구문 분석을 더 수행할 수 있다.
의존 구문 분석 수행부(220)는 자체 의존 구문 분석 엔진을 가지고 의존 구문 분석을 수행할 수도 있으나, 외부 의존 구문 분석 서비스(520)를 이용하여 의존 구문 분석을 수행한 후, 그 결과를 제공받을 수도 있다.
외부 의존 구문 분석 서비스(520)는 예를 들면, 한국전자통신연구원(ETRI) 인공지능 Open API 서비스의 언어 분석 API에서의 의존 구문분석 또는 미국 스탠포드 대학교의 Stanford Parser 등일 수 있으나 이에 한정되지 않는다. 예를 들면, 원문 분석 수행부(222)는 외부 의존 구문 분석 서비스(520)로 한국전자통신연구원(ETRI) 인공지능 Open API 서비스의 언어 분석 API에서의 의존 구문분석을 이용하고, 번역문 분석 수행부(224)는 외부 의존 구문 분석 서비스(520)로 미국 스탠포드 대학교의 Stanford Parser를 이용할 수 있다.
의존 구문 분석 수행부(220)는 하나의 외부 의존 구문 분석 서비스(520)를 이용하여 의존 구문 분석을 수행할 수도 있으나, 2개 이상의 외부 의존 구문 분석 서비스(520)를 함께 이용하여 번역을 수행할 수도 있고, 자체 의존 구문 분석 엔진과 적어도 1개의 외부 의존 구문 분석 서비스(520)를 함께 이용하여 의존 구문 분석을 수행할 수도 있다.
도 6은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템의 의존 구문 구조 대응부의 구성을 나타내는 블록도이다.
도 6을 참조하면, 의존 구문 구조 대응부(230)는 서술어 분석부(232), 서술어 매칭부(234), 및 의존 관계 대응부(236)를 포함할 수 있다.
서술어 분석부(232)는 사용자(도 1의 10)의 입력 문장의 어절과 번역 결과의 어절을 대응시켜 사용자(10)의 입력 문장의 서술어와 번역 결과의 서술어를 분석한다. 예를 들어, 서술어 분석부(232)는 사용자(10)의 입력 문장인 "멜라닌은 사람의 피부색을 결정한다."에서 서술어인 "결정한다"를 분석해내고, 번역 결과인 "Melanin determines a person's skin color."에서 서술어인 "determines"를 분석해낼 수 있다. 일부 실시 예에서, 서술어 분석부(232)는 사용자(10)의 입력 문장의 분리된 엔그램들과 그들의 번역 결과를 함께 대응시켜, 사용자(10)의 입력 문장의 서술어와 번역 결과의 서술어를 분석할 수 있다.
본 명세서에서는, 설명의 용이성을 위하여 사용자(10)의 입력 문장이 홑문장인 경우를 기준으로 설명하나, 이에 한정되지 않으며, 사용자(10)의 입력 문장이 접속문 또는 내포문 등 겹문장인 경우, 사용자(10)의 입력 문장 및 그 번역 결과로부터 분석된 서술어는 각각 복수개일 수도 있다.
서술어 분석부(232)는 자연어 이해부(300)의 형태소 분석부(310)에서 분석된 사용자(10)의 입력 문장에 대한 형태소 분석 결과, 및/또는 그 외의 자연어 분석 결과를 함께 참조하여, 서술어를 분석해낼 수 있다.
서술어 매칭부(234)는, 형태소 번역 사전(610)을 참조하여 사용자(10)의 입력 문장의 서술어와 번역 결과의 서술어를 매칭하여, 의존 구문 구조의 기준이 되는 기준 서술어로 정한다. 이때. 서술어 매칭부(234)는 기본형 사전(620)을 추가로 참조할 수 있다. 기본형 사전(620)은 단복수/시제/존칭 등 여러 가지 형태로 변형이 가능한 형태소에 대한 기본형을 제공할 수 있다. 예를 들어, 서술어 매칭부(234)은 기본형 사전(620)을 참조하여, 번역 결과의 서술어인 "determines"의 기본형인 "determine"과 사용자(10)의 입력 문장의 서술어인 "결정한다"의 기본형인 "결정하다"를 구한 후, 형태소 번역 사전(610)을 참조하여, "결정한다"와 "determines"를 기준 서술어로 정할 수 있다.
일부 실시 예에서, 사용자(10)의 입력 문장 및 그 번역 결과로부터 분석된 서술어가 각각 복수개인 경우, 의존 구문 분석 수행부(220)에서 구한 번역 결과에 대한 의존 구문 분석 결과로부터 의존 관계에서 중심이 되는 서술어 및 그에 대응되는 원문의 서술어를 기준 서술어로 정할 수 있다.
일부 실시 예에서, 서술어 매칭부(234)는 사용자(10)의 입력 문장을 분리한 엔그램들 및 그들의 번역 결과를 함께 이용하여, 기준 서술어를 정할 수 있다. 예를 들어, 사용자(10)의 입력 문장을 분리한 엔그램들이 "멜라닌은 사람의", "사람의 피부색을", "피부색을 결정한다", "멜라닌은 사람의 피부색을", "사람의 피부색을 결정한다"일 경우, 이들의 번역 결과는 각각 "Melanin is a humanoid", "the color of a person's skin", "Determine skin color", "Melanin is a person's skin color", "determine a person's skin color"일 수 있다. 일부 실시 예에서, 서술어 매칭부(234)는 모든 번역 결과, 즉 사용자(10)의 입력 문장 및 분리된 엔그램들 각각에 대한 번역 결과의 서술어를 종합하여, 가장 빈도가 높은 서술어를 기준 서술어로 결정할 수 있다. 예를 들면, determine/determines는 3번이고, is는 2번이므로, determines를 기준 서술어로 정할 수 있다. 다른 일부 실시 예에서, 서술어 매칭부(234)는 be 동사 또는 조동사 등에는 낮은 가중치를 주거나, 분리된 엔그램들의 번역 결과의 서술어에는 낮은 가중치를 준 후, 이를 종합하여 기준 서술어를 결정할 수 있다. 또 다른 일부 실시 예에서, 서술어 매칭부(234)는 빈도 및 가중치를 종합하여 기준 서술어를 결정할 수 있다.
의존 관계 대응부(236)는 기준 서술어를 기준으로, 나머지 어절들의 의존 관계를 대응하여, 사용자(10)의 입력 문장에 대한 의존 구문 구조를 생성할 수 있다.
즉 사용자(10)의 입력 문장인 "멜라닌은 사람의 피부색을 결정한다."에 대한 번역 결과인 "Melanin determines a person's skin color."에 대한 의존 구문 분석 결과가 "Melanin//NP_SBJ//, determines//VP//, a person's//NP_MOD//, skin color//NP_OBJ//이고, 'NP_SBJ'와 'NP_MOD'는 'VP'에 의존하고, 'NP_MOD'는 'NP_OBJ'에 의존한다"인 경우, 기준 서술어로 "determines" 매칭된 "결정한다"를 기준으로 나머지 어절들의 의존 관계를 대응('Melanin ?? 멜라닌은', 'a person's ?? 사람의', 'skin color ?? 피부색을')하여, 사용자(10)의 입력 문장에 대한 의존 구문 구조인 "멜라닌은//NP_SBJ//, 사람의//NP_MOD//, 피부색을//NP_OBJ// 결정한다.//VP//"를 생성할 수 있다.
의존 관계 대응부(236)는 생성한 의존 구문 구조를 의존 구문 분석 보정부(240)에 전달할 수 있다.
도 7은 본 발명의 예시적 실시 예에 따른 한국어 구문 분석을 활용한 정보 처리 시스템을 나타내는 블록도이다. 도 7에 대한 내용 중 도 1 내지 도 6과 중복되는 설명은 생략될 수 있다.
도 7을 참조하면, 한국어 구문 분석을 활용한 정보 처리 시스템(1a, 이하 정보 처리 시스템)은, 네트워크(50)를 통하여 사용자(10)로부터 입력 문장을 수신하는 유저 인터페이스(100), 사용자(10)의 입력 문장에 대하여 의존 구문 분석 및 자연어 분석을 수행하는 의존 구문 분석부(200) 및 자연어 이해부(300), 및 사용자(10)의 입력 문장에 대한 의존 구문 분석 결과를 포함하는 자연어 분석 결과에 대하여 정보 처리를 하여, 유저 인터페이스(100)를 통하여 사용자(10)에게 처리 결과를 제공하는 응답/검색 요청 처리부(400)를 포함한다.
의존 구문 분석부(200)는 유저 인터페이스(100)로부터 사용자(10)의 입력 문장을 수신하여, 사용자(10)의 입력 문장, 및 어절 단위로 분리된 엔그램들을 다른 언어로 번역하는 언어 번역부(210), 언어 번역부(210)의 번역 결과에 대한 의존 구문 분석을 수행하는 의존 구문 분석 수행부(220), 의존 구문 분석 수행부(220)에서 수행된 의존 구문 분석 결과를 이용하여, 사용자(10)의 입력 문장에 의존 구문 구조를 대응시키는 의존 구문 구조 대응부(230)를 포함할 수 있다.
예를 들면, 자연어 이해부(300)는 질의에 대하여 형태소 분석, 구문 분석, 개체명 분석, 필터링 분석, 의도 분류, 도메인 분석, 및 시맨틱 롤 라벨링 등의 복수의 단위 분석 과정을 수행할 수 있으며, 의존 구문 분석부(200)과 자연어 이해부(300)에 의하여 의존 구문 구조를 포함하는 자연어 분석 결과를 얻을 수 있다.
질의 응답/검색 요청 처리부(400)는 사용자(10)의 입력 문장에 대하여 정보 처리를 하여, 유저 인터페이스(100)를 통하여 사용자(10)에게 출력을 제공할 수 있다.
질의 응답/검색 요청 처리부(400)는 사용자(10)의 입력 문장에 대하여 정보 처리를 하는 요청 처리부(410), 요청 처리부(410)의 처리 결과를 수신하여 유저 인터페이스(100)를 통하여 사용자(10)에게 출력을 제공하는 결과 랭킹부(430)를 포함할 수 있다. 결과 랭킹부(430)는 자연어 생성부(420)를 참조하여, 자연어 형태로 출력을 사용자(10)에게 제공할 수 있다.
본 발명에 따른 한국어 구문 분석을 활용한 정보 처리 시스템은, 한국어 구문 분석, 특히 의존 구문 분석을 한국어 문장 그 자체로 수행하지 않고, 한국어보다 의존 구문 분석 기술의 성능이 뛰어난 다른 언어로 번역한 후, 번역 결과에 대하여 의존 구문 분석을 수행한 결과를 활용하여 한국어에 대한 의존 구문 분석에 활용하므로, 향상된 한국어 구문 분석이 가능하며, 향상된 구문 분석에 의한 한국어 문장의 자연어 분석 결과를 토대로 정보처리를 수행하므로, 사용자에게 더욱 정확한 출력 결과를 제공할 수 있다.
이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상 및 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형 및 변경이 가능하다.
1, 1a : 자동 질의 응답 시스템, 10 : 사용자, 50 : 네트워크, 100 : 사용자 인터페이스, 200 : 의존 구문 분석부, 210 : 언어 번역부, 212 : 엔그램 분리부, 214 : 번역 수행부, 216 : 엔그램 비교부, 220 : 의존 구문 분석 수행부, 222 : 원문 분석 수행부, 224 : 번역문 분석 수행부, 230 : 의존 구문 구조 대응부, 232 : 서술어 분석부, 234 : 서술어 매칭부, 236 : 의존 구문 분석 보정부, 240 : 의존 구문 분석 보정부, 300 : 자연어 이해부, 400 : 질의 응답/검색 요청 처리부, 510 : 외부 번역 서비스, 520 : 외부 의존 구문 분석 서비스, 610 : 형태소 번역 사전, 620 : 기본형 사전, 700 : 한국어 의존 관계 기본 원칙, 800 : 지식 베이스
Claims (9)
- 네트워크를 통하여 사용자로부터 입력 문장을 받고, 상기 사용자의 입력 문장에 대하여 처리된 결과물인 출력을 상기 사용자에게 제공하는 사용자 인터페이스;
상기 사용자의 입력 문장에 대한 번역을 수행하는 언어 번역부;
상기 사용자의 입력 문장에 대한 번역 결과에 대하여 의존 구문 분석을 수행하는 의존 구문 분석부;
상기 사용자의 입력 문장에 대한 번역 결과에 대하여 수행된 의존 구문 분석 결과를 상기 사용자의 입력 문장에 대응하여, 상기 사용자의 입력 문장에 대한 의존 구문 분석을 수행하는 의존 구문 구조 대응부; 및
상기 사용자의 입력 문장, 및 그에 대한 의존 구문 분석 결과로부터, 상기 출력을 생성하는 질의 응답/검색 요청 처리부;를 포함하는 것을 특징으로 하는 정보 처리 시스템. - 제1 항에 있어서,
상기 언어 번역부는,
상기 사용자의 입력 문장을 어절 단위로 엔그램(n-Gram)들로 분리하는 엔그램 분리부;
상기 사용자의 입력 문장 및 분리된 상기 엔그램들 각각에 대하여 번역을 수행하는 번역 수행부; 및
상기 사용자의 입력 문장과 그 번역 결과, 및 분리된 상기 엔그램들과 그 각각의 번역 결과를 비교하여 대응시키는 엔그램 비교부;를 포함하는 것을 특징으로 하는 정보 처리 시스템. - 제2 항에 있어서,
상기 의존 분석 수행부는,
상기 사용자의 입력 문장에 대한 번역 결과, 및 분리된 상기 엔그램들 각각에 대한 번역 결과에 대하여 의존 구문 분석을 수행하는 번역문 분석 수행부;를 포함하는 것을 특징으로 하는 정보 처리 시스템. - 제3 항에 있어서,
상기 의존 분석 수행부는,
상기 사용자의 입력 문장, 및 분리된 상기 엔그램들 각각에 대하여 의존 구문 분석을 수행하는 원문 분석 수행부;를 더 포함하는 것을 특징으로 하는 정보 처리 시스템. - 제3 항에 있어서,
상기 의존 구문 구조 대응부는,
상기 사용자의 입력 문장과 그에 대한 번역 결과 각각의 어절을 대응시켜 상기 사용자의 입력 문장과 그에 대한 번역 결과 각각의 서술어를 분석하는 서술어 분석부;
형태소 번역 사전을 참조하여 분석된 상기 사용자의 입력 문장과 그에 대한 번역 결과 각각의 서술어를 매칭하여, 의존 구문 구조에서 의존 관계의 중심이 되는 기준 서술어를 정하는 서술어 매칭부; 및
상기 기준 서술어를 기준으로, 상기 사용자의 입력 문장 및 그에 대한 번역 결과 각각의 나머지 어절들의 의존 관계를 대응하여, 상기 사용자의 입력 문장에 대한 의존 구문 구조를 생성하는 의존 관계 대응부;를 포함하는 것을 특징으로 하는 정보 처리 시스템. - 제5 항에 있어서,
상기 서술어 매칭부는,
상기 사용자의 입력 문장, 및 분리된 상기 엔그램들 각각에 대한 번역 결과의 서술어들에 가중치를 반영하고 빈도를 고려하여 상기 기준 서술어를 결정하는 것을 특징으로 하는 정보 처리 시스템. - 제5 항에 있어서,
한국어 의존 관계 기본 원칙을 참조하여, 상기 의존 관계 대응부에서 생성한 상기 사용자의 입력 문장에 대한 의존 구문 구조에 대한 보정을 수행하여, 상기 질의 응답/검색 요청 처리부에 제공하는 의존 구문 분석 보정부를 더 포함하는 것을 특징으로 하는 정보 처리 시스템. - 제5 항에 있어서,
상기 서술어 매칭부는 기본형 사전을 참조하여, 상기 사용자의 입력 문장, 및 분리된 상기 엔그램들 각각에 대한 번역 결과의 서술어에 대한 기본형을 구한 후, 상기 사용자의 입력 문장, 및 분리된 상기 엔그램들 각각에 대한 번역 결과의 서술어를 종합하여 상기 기준 서술어를 결정하는 것을 특징으로 하는 정보 처리 시스템.. - 제1 항에 있어서,
상기 사용자의 입력 문장은 한국어로 이루어지고, 상기 언어 번역부는 한국어에 대한 영어 번역을 수행하는 것을 특징으로 하는 정보 처리 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180153014A KR102143158B1 (ko) | 2018-11-30 | 2018-11-30 | 한국어 구문 분석을 활용한 정보 처리 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180153014A KR102143158B1 (ko) | 2018-11-30 | 2018-11-30 | 한국어 구문 분석을 활용한 정보 처리 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200066009A true KR20200066009A (ko) | 2020-06-09 |
KR102143158B1 KR102143158B1 (ko) | 2020-08-11 |
Family
ID=71082177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180153014A KR102143158B1 (ko) | 2018-11-30 | 2018-11-30 | 한국어 구문 분석을 활용한 정보 처리 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102143158B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102689779B1 (ko) | 2023-01-27 | 2024-07-30 | 델타인덱스 주식회사 | 목표 시스템 설계를 위한 고객의 요구사항 객체화 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR950013128B1 (ko) * | 1993-03-15 | 1995-10-25 | 김영택 | 기계번역장치 및 방법 |
KR20150010145A (ko) * | 2013-07-18 | 2015-01-28 | 에스케이텔레콤 주식회사 | 구문 분석 장치 및 이를 위한 기록매체 |
KR101818598B1 (ko) * | 2016-08-09 | 2018-03-02 | 주식회사 에버트란 | 자동 번역 엔진 서버 및 자동 번역 방법 |
KR20180093157A (ko) * | 2017-02-09 | 2018-08-21 | 서울대학교산학협력단 | 의존구문 분석 기술 및 의미 표현 기술을 활용한 질문 번역 시스템 및 방법 |
-
2018
- 2018-11-30 KR KR1020180153014A patent/KR102143158B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR950013128B1 (ko) * | 1993-03-15 | 1995-10-25 | 김영택 | 기계번역장치 및 방법 |
KR20150010145A (ko) * | 2013-07-18 | 2015-01-28 | 에스케이텔레콤 주식회사 | 구문 분석 장치 및 이를 위한 기록매체 |
KR101818598B1 (ko) * | 2016-08-09 | 2018-03-02 | 주식회사 에버트란 | 자동 번역 엔진 서버 및 자동 번역 방법 |
KR20180093157A (ko) * | 2017-02-09 | 2018-08-21 | 서울대학교산학협력단 | 의존구문 분석 기술 및 의미 표현 기술을 활용한 질문 번역 시스템 및 방법 |
Non-Patent Citations (2)
Title |
---|
오태환, 한국어 보편 의존 구문 분석 방법론 연구, 연세대 석사학위논문 (2019) * |
이도경, 의존 구문 분석을 이용한 질의 기반 정답 추출에 관한 연구, 연세대 석사학위 논문 (2019) * |
Also Published As
Publication number | Publication date |
---|---|
KR102143158B1 (ko) | 2020-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101130444B1 (ko) | 기계번역기법을 이용한 유사문장 식별 시스템 | |
US20030061023A1 (en) | Automatic extraction of transfer mappings from bilingual corpora | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
US8121829B2 (en) | Method and apparatus for constructing translation knowledge | |
KR20160060247A (ko) | 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈 | |
JP2003196274A (ja) | 構文解析方法及び装置 | |
US10223349B2 (en) | Inducing and applying a subject-targeted context free grammar | |
Li et al. | Improving semantic parsing with enriched synchronous context-free grammar | |
Sun et al. | Towards accurate and efficient Chinese part-of-speech tagging | |
JPH0261763A (ja) | 機械翻訳装置 | |
KR102143158B1 (ko) | 한국어 구문 분석을 활용한 정보 처리 시스템 | |
Garje et al. | Transmuter: an approach to rule-based English to Marathi machine translation | |
JP4007413B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Yellin et al. | Paths to relation extraction through semantic structure | |
Atrey et al. | Issues in parsing and POS tagging of hybrid language | |
JP2005284723A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP4114526B2 (ja) | 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム | |
Enache et al. | Handling non-compositionality in multilingual CNLs | |
KR20160085100A (ko) | 하이브리드 번역 장치 및 그 방법 | |
Horvat | Hierarchical statistical semantic translation and realization | |
JP4033093B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP4039282B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP4708682B2 (ja) | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 | |
JP4033012B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP4039205B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |