KR20020045343A - 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법 - Google Patents

표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법 Download PDF

Info

Publication number
KR20020045343A
KR20020045343A KR1020000074768A KR20000074768A KR20020045343A KR 20020045343 A KR20020045343 A KR 20020045343A KR 1020000074768 A KR1020000074768 A KR 1020000074768A KR 20000074768 A KR20000074768 A KR 20000074768A KR 20020045343 A KR20020045343 A KR 20020045343A
Authority
KR
South Korea
Prior art keywords
information
semantic
sentence
syntax
user
Prior art date
Application number
KR1020000074768A
Other languages
English (en)
Inventor
차건회
정의석
임수종
강현규
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1020000074768A priority Critical patent/KR20020045343A/ko
Priority to US09/852,317 priority patent/US6947923B2/en
Publication of KR20020045343A publication Critical patent/KR20020045343A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 사용자 자신이 제공하고자 하는 정보를 기술하거나 또는 자신이 원하는 정보를 검색할 수 있도록 하기 위하여, 표준화된 자연언어 구문구조 및 의미구조 표현 기법을 이용하여 정보를 생성 및 저장하여 검색할 수 있도록 하기 위한 정보 생성/검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하기 위하여, 정보 공급자에 의해 기술되는 자연언어 문장(정보 및 지식)을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 색인하는 제 1 단계; 및 사용자로부터 입력되는 자연언어 질의어 문장을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 상기 색인된 정보중에서 사용자의 요구사항에 적합한 정보를 검색하여 제공하는 제 2 단계를 포함하며, 정보거래와 관련된 정보 생성 및 검색 장치 등에 이용됨.

Description

표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치 및 그 방법{Method of information generation and retrieval system based on a standardized Representation format of sentences structures and meanings}
본 발명은 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 인터넷상에서 빠르고 효율적으로 정보 및 지식을 생성, 검색 및 유통하도록 하기 위하여, 구문구조 및 의미구조의 표준(standard)에 적합한 자연언어 문장을 생성하여 정보를 기술하고 검색할 수 있도록 하는, 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
정보화 사회로의 이행에 가장 관건이 되는 것은 대규모의 자료를 저장, 관리하고 이를 원활이 유통할 수 있는 정보서비스의 확립에 있다. 모든 정보자료들이 디지털화되어 데이터베이스에 저장되고 네트워크에 연결되어 온라인으로 어느 지역에서나 원격으로 접근하고 이용할 수 있게 됨에 따라 정보관리와 정보검색은 중요한 핵심 기술의 하나로 여겨지게 되었다. 정보검색은 정보를 축적하고 가공하는 정보가공 과정과 정보 요구자에게 적절한 정보를 제시하고 탐색해 주는 정보제시의 부분으로 크게 나뉜다. 또한 정보 요구자들로 하여금 정보서비스를 보다 편리하고 효율적으로 사용하도록 도와주는 사용자 인터페이스 기술도 이에 포함된다.
정보거래(information brokerage)와 관련해서는 미국의 경우 아메리칸 온 라인((AOL : American On-Line)과 같은 다국적 PC 통신업체에서 각종 정보 유통서비스를 제공하고 있으며, 웹정보 검색엔진 업체(예를 들면, Yahoo!)와 제휴하여 그 사업 영역을 넓히고 있는 중이지만 문장의 의미표현 및 의미유사도에 기반하여 적합한 정보거래 후보를 정확하고 신속하게 알선하며 거래를 중개해주는 기술은 아직 개발되지 않고 있다.
의미 표현 기술과 관련해서는 1998년부터 미국 메사추세츠 대학교의 지능형 정보 검색 센터(CIIR: Center for Intelligent Information Retrieval)과 같은 정보검색 및 자연언어처리 연구소에서 어휘개념 및 정보의 의미분석 기반의 정교한 정보 추출 및 정보 검색 기술을 활용한 응용 기술을 개발하려는 움직임을 보이고 있으나 정보거래에 활용하려는 움직임은 없다. 또한, 미국 메릴랜드대와 남가주대에서 온탈로지 명세 언어(OML: Ontology Markup Language), 개념지식 명세 언어(CKML: Conceptual Knowledge Markup Language) 등을 이용한 웹페이지 마크업 언어가 제안되고 있으며, 뉴멕시코 주립 대학교의 "Mikro-Kosmos", 프린스턴대의 "WordNet", 싸이코프(Cycorp)의 "CYC" 및 KIF(Knowledge Interchange Format)와 온탈로지 공유 재사용에 관한 연구가 진행되고 있고, 각 기관은 그들의 기법을 표준안으로 제안하려는 움직임을 보이고 있으며, 최근에는 국제전기전자기술자협회(IEEE : Institute of Electrical and Electronics Engineers)에서 SUO(Standard Upper Ontology)라는 표준화된 의미 계층구조를 통해 일반적이고 추상적인 상위 수준에서의 개념을 정립하려는 노력을 기울이고 있다.
정보거래와 관련된 국내 기술 현황으로는 천리안, 나우누리, 하이텔 등 PC 통신 업체에서는 유망한 영역의 정보제공 사업 제안자의 사업능력을 판정하여 정보 제공자(IP) 사업권을 주어, 독점적으로 정보를 수집 가공하여 PC 통신 방에 적절한 메뉴와 정보를 등록하도록 하고, 사용자에게서 이 정보를 열람하는 시간동안의 사용료를 받는 방식으로 이루어지고 있다. 또한, 정보 거래 센터라는 업체가 1997년 말에 발족하여 인터넷을 통하여 정보 거래를 취급하려고 하고 있으며, 특허 기술 분야의 중개를 시작하였다. 그러나, 정보 거래의 프로토콜이 마련되지 않았고, 적합한 거래 후보를 자동으로 정확하게 선택하는 개념유사도 기반 정보 추출/매칭 기술이 적용되지 않아 대규모의 다양한 정보의 거래를 처리하기는 역부족인 상황이다.
의미 표현 기술과 관련해서 국내에서는 의미표현 및 관련 연구는 전북대, 포항공대 등을 중심으로 개념 그래프(Conceptual Graph)에 대한 기초 연구가 진행중이며, 개념분류체계에 대한 연구는 에트리(ETRI), 울산대, 한남대, 인천대, 호서대 등에서 진행되고 있으나 국제적인 추세에 맞추어 의미표현 및 관련 기술의 표준화에 대한 노력은 이루어지지 못하고 있는 실정이다.
따라서, 구문구조 및 의미구조의 표준을 연구하는 기술분야에서는 인터넷상에서 빠르고 효율적인 정보 및 지식을 생성/검색할 수 있도록 구문구조 및 의미구조의 표준(standard)에 적합한 자연언어 문장을 생성하여 정보를 기술하고 검색할 수 있는 방안이 필수적으로 요구되고 있다.
본 발명은, 상기한 바와 같은 요구에 부응하기 위하여 안출된 것으로, 사용자 자신이 제공하고자 하는 정보를 기술(description)하거나 또는 자신이 원하는 정보를 검색할 수 있도록 하기 위하여, 표준화된 자연언어 구문구조 및 의미구조 표현 기법(standardized formats for the structures and meanings of natural language sentences)을 이용하여 정보를 생성 및 저장하여 검색할 수 있도록 하기 위한 정보 생성/검색 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치의 일실시예 구성도.
도 2a 및 도 2b 는 본 발명에 따른 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법에 대한 일실시예 흐름도.
도 3 은 도 2a 및 도 2b의 정보 생성/검색 방법 중 의미구조 생성 과정에 대한 일실시예 상세흐름도.
도 4a 및 도 4b 는 본 발명에 따른 구문 범주와 그에 따른 변환 규칙 및 개념 처리결과 생성된 서브 그래프에 대한 예시도.
도 5a 내지 도 5f는 본 발명에 따른 분할 그래프의 색인 결과 생성된 테이블 구조와 레코드 내용을 설명한 예시도.
도 6 은 본 발명에 따른 사용자의 요구 정보 및 문서 추출 과정에 대한 일실시예 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
11 : 데이터 저장부12 : 정보 제공 인터페이스
13 : 입력 문장 분석부14 : 대화 처리부
15 : 의미구조 처리부16 : 정보 수요 인터페이스
상기 목적을 달성하기 위한 본 발명은, 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치에 있어서, 사용자로부터의 정보 제공을 위한 문장이나 정보 요구를 위한 질의문을 분석하기 위해 사용하는 언어 지식 데이터와 문장의 의미를 개념 그래프로 나타내는 의미 표현 데이터와 웹 문서를 저장하기 위한 데이터 저장수단; 상기 사용자로부터 정보 제공을 위한 자연언어 문장의 생성이나 정보의 요구 명세를 위한 자연어 질의 문장을 입력받기 위한 입력수단; 상기 데이터 저장수단의 데이터를 참조하여 상기 사용자로부터 입력된 자연언어 문장 또는 자연언어 질의 문장의 구문구조를 분석하여 의미구조를 생성하기 위한 입력 문장 분석수단; 상기 입력 문장 분석수단을 통해 분석된 의미 구조를 분할하여 데이터베이스에 색인하여 저장하거나 의미 적합도를 계산하여 요구 정보 명세에 가장 의미적으로 적합한 제공 정보 및 문서를 검색하기 위한 의미구조 처리수단; 상기 입력 문장 분석수단으로부터 제시된 오류 데이터를 구문구조 표준과 의미구조 표준에 따라 수정한 문장 형식 규칙, 상기 색인/검색 결과를 출력하기 위한 대화형 처리수단; 및 상기 대화형 처리수단으로부터 출력되는 데이터를 사용자에게 제공하기 위한 정보 제공수단을 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치에 적용되는 정보 생성/검색 방법에 있어서, 정보 공급자에 의해 기술되는 자연언어 문장(정보 및 지식)을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 색인하는 제 1 단계; 및 사용자로부터 입력되는 자연언어 질의어 문장을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 상기 색인된 정보중에서 사용자의 요구사항에 적합한 정보를 검색하여 제공하는 제 2 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성 장치에 적용되는 정보 생성 방법에 있어서, 상기 정보 공급자에 의해 입력되는 자연언어 문장을 구문구조 및 의미구조의 표준에 따라 구문구조 및 의미구조의 중의성이 해소된 문장으로 생성하는 제 1 단계; 상기 생성된 문장을 구문분석과 의미분석을 통하여 개념 그래프로 변환하는 제 2 단계; 및 상기 변환된 개념 그래프를 관계 노드에 의한 테이블의 레코드 값으로 변환하여 색인하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 표준화된 문장 구문구조 및 의미구조에 기반한 정보 검색 장치에 적용되는 정보 검색 방법에 있어서, 상기 사용자로부터 자연언어 질의어 문장을 입력받아 구문구조 및 의미구조를 분석하여 개념 그래프로 변환하는 제 1 단계; 상기 질의어를 개념 그래프와 의미적으로 가장 근접한 데이터베이스내의 개념 그래프를 탐색하여 의미 적합도를 계산하는 제 2 단계; 및 상기 탐색된 개념 그래프에 의해 색인된 정보를 추출하여 상기 사용자에게 제공하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.
또한, 본 발명은, 프로세서를 구비한 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치에, 정보 공급자에 의해 기술되는 자연언어 문장(정보 및 지식)을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 색인하는 제 1 기능; 및 사용자로부터 입력되는 자연언어 질의어 문장을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 상기 색인된 정보중에서 사용자의 요구사항에 적합한 정보를 검색하여 제공하는 제 2 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은, 프로세서를 구비한 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성 장치에, 상기 정보 공급자에 의해 입력되는 자연언어 문장을 구문구조 및 의미구조의 표준에 따라 구문구조 및 의미구조의 중의성이 해소된 문장으로 생성하는 제 1 기능; 상기 생성된 문장을 구문분석과 의미분석을 통하여 개념 그래프로 변환하는 제 2 기능; 및 상기 변환된 개념 그래프를 관계 노드에 의한 테이블의 레코드 값으로 변환하여 색인하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한, 본 발명은, 프로세서를 구비한 표준화된 문장 구문구조 및 의미구조에 기반한 정보 검색 장치에, 상기 사용자로부터 자연언어 질의어 문장을 입력받아 구문구조 및 의미구조를 분석하여 개념 그래프로 변환하는 제 1 기능; 상기 질의어를 개념 그래프와 의미적으로 가장 근접한 데이터베이스내의 개념 그래프를 탐색하여 의미 적합도를 계산하는 제 2 기능; 및 상기 탐색된 개념 그래프에 의해 색인된 정보를 추출하여 상기 사용자에게 제공하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명은, 구문구조 및 의미구조 표준에 따라 자연언어 문장을 작성함으로써, 사용자에 의해 기술되는 정보 및 지식을 개념 그래프로 변환하여 저장하고 색인하는 '정보 제공'(information supply) 과정과 사용자의 질의어를 분석하여 사용자의 요구사항에 적합한 정보를 검색하고 추출하는 '정보 요구' 과정을 포함한다.
상기 '정보 제공' 과정은 구문구조 및 의미구조의 표준에 따라 정보 및 지식이 생성되도록 돕는 정보 기술 지원 도구(a toolset for supporting information specification)에 의해 구문구조 및 의미구조의 중의성(ambiguities)이 해소된 문장을 생성하고, 생성된 문장을 구문 분석과 의미분석을 통하여 개념 그래프(conceptual graph)로 변환하며, 개념그래프를 관계 노드(relation node)에의한 테이블의 레코드 값으로 변환하여 저장하고 색인한다.
상기 '정보 요구' (information request) 과정은 사용자의 자연언어 질의어를 구문/의미분석을 통하여 개념 그래프로 변환하며, 질의어의 개념 그래프와 의미적으로 가장 근접한 데이터베이스내의 개념 그래프를 탐색하여 의미 적합도(semantic appropriateness degree) 계산을 수행하며, 탐색된 개념 그래프에 의해 색인된 정보를 사용자에게 보여주는 것을 특징으로 한다.
즉, 본 발명은, 구문구조 및 의미구조의 표준에 의한 효율적인 정보 거래를 위하여 사용자의 정보나 지식이 생성되는 단계에서부터 사용자와의 상호 작용을 통해 구조적/의미적 중의성을 해결하고 사용자의 명세 정보가 상기 구문구조 및 의미구조 표준에 일치하도록 함으로써, 정보와 지식의 검색과 유통이 효율적이고 정확하게 이루어지도록 하는 것을 특징으로 한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치의 일실시예 구성도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치는, 사용자로부터의 정보 제공을 위한 문장이나 정보 요구를 위한 질의문을 분석하기 위해 사용하는 언어 지식 데이터와 문장의 의미를 개념 그래프로 나타내는 의미 표현 데이터와 웹 문서를 저장하기 위한 데이터저장부(11)와, 상기 사용자로부터 거래를 목적으로 하는 정보 제공을 위한 문장의 생성이나 정보의 요구 명세를 위한 자연어 질의 문장을 입력받기 위한 정보 제공 인터페이스(12)와, 데이터 저장부(11)의 데이터를 참조하여 상기 사용자로부터 입력된 자연어 문장을 분석하여 의미구조를 생성하기 위한 입력 문장 분석부(13)와, 입력 문장 분석부(13)를 통해 사용자가 작성한 문장에서 발생하는 철자나 띄어쓰기 오류, 구문구조나 의미구조의 표준과 위배되는 비문, 구문구조의 중의성 및 의미구조의 중의성 등이 발생했을 때 이에 대한 의미를 해결하여 그 결과와 색인 및 검색 결과를 출력하기 위한 대화 처리부(14)와, 입력 문장 분석부(13)로부터 의미구조를 입력받아 색인/저장하거나 검색하기 위한 의미구조 처리부(15) 및 대화 처리부(14)부터 출력되는 데이터를 사용자에게 제공하기 위한 정보 수요 인터페이스(16)를 구비한다.
여기서, 데이터 저장부(data storage part)(11)는 사전(lexicon) 저장장치(111), 용언 격 프레임(predicate case frame) 저장장치(112), 명사 개념 분류망(noun thesaurus) 저장장치(113), 개념 그래프 데이터베이스(114) 및 웹 문서 데이터베이스(115)로 이루지고, 입력 문장 분석부(13)는 형태소 분석기(morphological analyzer)(131), 구문 분석기(parser)(132) 및 의미구조 생성기(semantic structure generator)(133)로 구성되고, 대화 처리부(interactive response processor)(14)는 분석 실패 처리기(analysis failure processor)(141), 응답 생성기(response generator)(142)로 구성되며, 의미구조 처리부(semantic structure processor)(15)는 개념 그래프 변환기(conceptual graphtransformer)(151), 개념 그래프 색인기(conceptual graph indexer)(152), 개념 그래프 검색기(conceptual graph searcher)(107)(153)로 이루어진다.
상기와 갖는 구조를 갖는 본 발명의 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치의 동작을 상세하게 설명하면 다음과 같다.
먼저, 사용자로부터 자연언어 문장을 통해 제공하고자 하는 정보를 입력받는 정보 제공 인터페이스(12)나 제공받고자 하는 정보에 대한 명세를 입력받는 정보 수요 인터페이스(16)가 입력 문장을 입력 문장 분석부(13)로 전달하면, 입력문장 분석부(13)는 사용자로부터 입력된 문장을 받아 데이터 저장부(11)에 있는 사전 저장 장치(111), 용언 격 프레임 저장 장치(112) 및 명사 개념 분류망 저장 장치(113)의 데이터와 비교하여 순차적으로 분석을 하는데, 이때 형태소 분석기(141)에서 형태소 분석을 수행하고, 구문 분석기(132)에서 구문 분석을 수행하여 구문구조 트리를 생성하고, 의미구조 생성기(133)에서 의미 분석을 수행하여 의미구조를 생성한다.
의미구조 처리부(15)의 개념 그래프 변환기(151)는 의미구조 생성기(133)로부터 출력된 개념 그래프를 의미 관계에 따라 분리해내고 개념 그래프 색인기(153)는 이렇게 분리된 각각의 관계로 연결된 개념의 쌍의 레코드에 의해 사용자의 제공 정보가 있는 원래의 웹문서에 대한 색인을 수행하고 개념 그래프 검색기(152)는 사용자 질의어의 의미구조와 저장된 의미구조들 사이에서 의미 적합도(semantic relevance)를 계산하여 적합도가 높은 제공 정보를 탐색한다.
대화 처리부(14)의 분석 실패 처리기(141)는 형태소 분석기(131), 구문 분석기(132), 의미구조 생성기(133)가 분석 과정에서 사용자의 표준 규칙 위반에 의해 발생하는 분석 실패에 대해 생성하는 오류 유형 데이터를 입력받아 구문구조 표준 및 의미구조 표준에 일치하는 수정된 문장 형식 규칙을 찾아내고, 응답 생성기(142)는 분석 실패 처리기(141)로부터 입력되는 수정 문장 규칙이나 개념 그래프 검색기(152)로부터 입력되는 검색 결과나 개념 그래프 색인기(153)로부터 입력되는 색인 결과를 입력 받아 사용자에 대한 응답 형식과 내용을 생성한다.
상기의 구문구조 표준과 의미구조 표준을 나타내면 다음과 같다.
(1) 구문구조 표준
201. 논항
NP1:(_NP+jc1)
NP2:(_NP+jc2)
NP3:(_NP+jc3)
202. 기본문
S:(NP1 _VP)
S:(NP1 NP2 _VP)
S:(NP1 NP3 _VP)
S:(NP1 NP2 NP3 _VP)
203. 명사구
NP:(nc|nn+[nc|nn]+[nc|nn])
NP:(nb|np)
204. 관형사 확대 논항
_NP:(mm!.[dt]+[mm]!.[nu|ad] NP!-[nn,nb])
205. 접속조사, 접속 부사의 논항 확대
_NP:(NP+jj NP)
_NP:(_NP maj _NP)
_NP:(NP!@+',' maj NP)
206. 속격의 논항 확대
_NP:(_NP+jm _NP!^[NP])
207. 서술어
VP:(pv+[ep]+[ef])
VP:(pa+[ep]+[ef])
VP:(NP+co+[ep]+[ef])
VP:(NP+xsv+[ep]+[ef])
208. 부사의 서술어 확대
VP:(mag _VP!^[VP])
VP:(maj _S)
209. 보조용언의 서술어 확대
VP:(_VP:(_VP+ec px+[ec] [px])+[ep]+[ef])
210. 관형절의 논항 확대
_NP:(ETMS:(_S+etm) NP)
211. 명사절
_NP:(_S+etn)
_NP:(_S+etm '것')
212. 인용절의 서술어 확대
VP:(JQTS:(_S+'라고|고|하고') _VP)
VP:(JQTS:('"'+_S+'"'+'라고|고|하고') _VP)
213. 부사절의 서술어 확대
VP:(ADVS:(NP1 [NP2] [NP3] '게|듯이|도록') _VP)
VP:(ADVS:(NP1 [NP2] [NP3] '같이|없이|달리') _VP)
214. 서술절
VP:(NP1 _VP!^[VP])
215. 문의 접속
S:(_S+ec _S)
(2) 의미구조 표준
<개념간 관계>
216.행위자 관계(agent)
'이/가', '은/는', '-께서', '-에서', '-의'
217.경험자 관계(experiencer)
'이/가','은/는', '-의'
218.대상 관계(object)
'을/를', '-와/과', '-의'
219.장소 관계(location)
'-을', '-에', '-에서', '-[으]로'
219a. 시작점 관계(starting point)
219b. 지향점 관계(target point)
220.시간 관계 : C1(TIME)C2
'-에'
220a. 시작점 관계(starting point)
220b. 완료점 관계(target point)
221. 목적 관계(purpose)
'-을', '-려면'
222.이유/원인 관계(causal-effect)
'-(으)로'
223.수용자 관계(receiver)
'-에게', '-에'
224.결과 관계(result)
'-(으)로'
225.수단/방법 관계(instrument)
'-로', '-에', '-아/어[서]'
226.비교관계 : '-와/과', '-만큼', '-보다', '-처럼'
226a. 일반비교 관계(comparison)
226b. 동등비교 관계(equivalence)
226c. 차등비교 관계(difference)
226d. 비유 관계(analogy)
227.속성 관계(property)
'-의', '#' [#은 공백]
227a. 소유자 관계(owner)
227b. 생산지/생산자 관계(source)
227c. 소재지 관계(location)
228d. 소속 관계(belonging to)
229e. 제재 관계(substance)
229f. 상호 관계(reciprocal)
229g. 하위개념 관계(subsumption)
229h. 부분-전체 관계(whole-part)
229i. 속성/개체 관계(property of)
229j. 동시/병치관계(juxtapose)
<개념 그래프간 관계>
230. 병치 관계(Juxtaposition)
231. 조건 관계(condition)
232. 원인결과 관계(causal-effect)
233. 전환 관계(context switch)
233a. 선행 상황 미완(unfinished precedence)
233b. 선행 상황 완료(finished precedence)
234. 내포 관계(involvement)
235. 가능 관계(possibility)
236. 양보 관계(concession)
다음으로, 상기 각 구성요소의 상세동작을 도 2a 내지 도 6을 참조하여 상세히 살펴보기로 한다.
도 2a 및 도 2b 는 본 발명에 따른 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법에 대한 일실시예 흐름도이다.
도 2a 및 도 2b에 도시된 바와 같이, 본 발명에 따른 표준화된 문장 구문구조 및 의미구조에 기반한 정보를 생성 및 검색하기 위하여, 정보 제공 인터페이스(16)를 통해 사용자 자신이 제공하고자 하는 정보나 제공받기를 원하는 정보에 대해서 자연어 문장을 입력하면(201), 입력된 자연어 문장이 형태소 분석기(131)에 의해 형태소 분석된다(202).
이어서, 형태소 분석이 성공적으로 수행되었는지를 확인하여(203) 형태소 분석이 실패되었으면 형태소 분석 오류가 발생한 유형에 따라 오류 유형 데이터를 생성하고(204), 형태소 분석이 성공했으면 형태소 분석 결과를 가지고 구문 분석을 수행한다(205).
이후, 정보 거래 표준에 적합한 구문구조가 생성되는지를 확인하여(206) 구문구조의 생성에 실패하면 구문 분석 오류 유형 데이터(parsing failure type data)를 생성하고(207), 구문구조의 생성에 성공하면 구문 분석 트리(parse tree)를 의미구조로 변환하여 의미구조를 생성한다(208).
이어서, 의미구조 표준에 적합한 의미구조가 생성되는지를 확인하여(209) 의미구조 생성에 실패하면 의미구조 생성 오류 유형 데이터를 생성하고(210), 의미구조 생성에 성공하면 개념 그래프 변환기(151)에 입력하여 개념 그래프에 대한 분할(partition)을 이룬다(211).
그리고, 현재 사용자의 입력 문장이 정보 제공용인지를 확인하여(212) 정보 제공용이면 그 문장의 분할된 개념 그래프를 각각의 의미 관계 노드(relation node)에 대해 색인을 이루고(213), 개념 그래프 색인 결과에 따라 데이터를 생성한 후(214), 정보 거래 시스템의 응답의 형식과 내용을 생성하여(215) 최종적인 응답을 출력한다(216). 한편, 현재 사용자의 입력 문장이 정보 요구를 위한 질의어(query)라면 개념 그래프 데이터베이스(114)에 저장되어 있는 개념 그래프와 의미적으로 가장 가까운 개념 그래프를 검색하여(217) 개념 그래프 검색 결과를 생성한 후(218), 정보 거래 시스템의 응답의 형식과 내용을 생성하는 과정(215)을 진행한다.
한편, 형태소 분석 오류 유형 데이터 생성(204), 구문 분석 오류 유형 데이터 생성(207) 및 의미구조 생성 오류 유형 데이터를 생성한 후(210), 분석 실패 처리기(141)에 의해 오류 수정 규칙 데이터를 생성한 후(219), 정보 거래 시스템의응답의 형식과 내용을 생성하는 과정(215)을 진행한다.
상기와 갖는 구조를 갖는 본 발명의 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법의 동작을 상세하게 설명하면 다음과 같다.
정보 거래를 위한 정보의 생성 및 검색 방법에 있어서, 먼저 텍스트 편집기를 통해 문장을 입력하고, 입력된 문장에 대해 형태소 분석을 수행하여 형태소 중의성이나 철자 오류 등이 발생할 경우 사용자에게 분석 결과를 제시하여 사용자로부터 수정된 문장을 입력받는다.
문장의 형태소 분석 결과를 입력받아 구문분석을 수행하여 구문구조 표준에 불일치하거나 구문구조의 중의성이 발생할 경우 사용자에게 분석 결과를 제시하고 사용자로 하여금 수정된 문장을 입력받거나 여러 개의 구문구조 중에서 하나를 선택하도록 함으로써 사용자로 하여금 구문구조의 표준에 일치하도록 유도한다.
그리고 나서, 문장의 구문 분석 결과를 입력받아 의미구조를 생성하여 의미구조 표준에 불일치하거나 의미구조의 중의성이 발생한 경우에 사용자에게 여러 개의 의미구조를 제시하고 사용자로 하여금 하나를 선택하도록 함으로써 사용자의 입력 문장이 의미구조의 표준에 일치하도록 유도하며, 문장의 의미 분석 결과 생성된 의미구조를 의미 관계 노드를 중심으로 분할 및 저장하여 사용자의 정보가 정보 제공을 위한 것일 경우, 의미 관계 노드와 연결되어 있는 개념 노드들의 쌍과 문서의 식별자로 구성된 레코드로 색인 및 저장한다.
사용자의 정보가 정보 요구를 위한 명세일 경우, 사용자 질의문의 의미구조와 저장되어 있는 제공 정보에 대한 의미구조와의 의미 적합도를 계산하여 의미적으로 가장 근접한 제공 정보를 검색하고, 분석 실패 처리부와 의미구조 처리부로부터 처리 결과를 입력으로 받아 사용자에게 제시할 결과의 형식과 내용을 결정하여 사용자에게 제시할 응답을 생성하여 제시 응답을 출력한다.
즉, 본 발명의 정보 거래를 위한 정보 생성 및 검색 장치가 정보 제공 측면에서 사용자의 입력 문장을 상기 (1)구문구조 표준과 (2)의미구조 표준에 따라 일치시켜 나가면서 최종적으로 개념 그래프로 색인하는 과정과 정보 요구 측면에서 사용자의 질의어를 분석하여 분할된 개념 그래프에 의해 의미적합도를 계산하여 의미적으로 가장 근접한 정보를 추출해내는 과정을 "좋은 남자용 향수를 파리에서 살 수 있는 방법"이라는 문장을 일실시예로 삼아 설명하도록 한다.
(A) 구문구조 오류 유형 데이터
(0, 306,310)
오류 유형 0: 표준 위배 오류
(오류타입번호,(표준위배식별자)+)
오류 유형 1: 구문구조 중의성 발생
(오류타입번호,(구문구조)+)
(B) 사용자 제시 구문구조 유형
(((좋은 (남자용 (향수))를) (파리에서) (((살) 수) 있는) 방법)
(((좋은 남자용) 향수)를) (파리에서) (((살) 수) 있는) 방법)(X)
상기와 같은 문장 "좋은 남자용 향수를 파리에서 살 수 있는 방법"은 상기 형태소 분석 과정을 수행했을 경우, 형태소 분석 오류가 발생하지 않고 성공적으로 형태소 분석 결과가 생성된다.
그러나, 상기 구문 분석 과정을 거치면서 상기 구문구조 표준의 속격의 논항 확대와 관형절의 논항 확대 제약 규칙 및 상기 용언 격 프레임 정보에 의해 상기 문장은 분석 실패 처리기(141)에 의해 (207)과정을 통해 상기 (A)와 같은 구문구조 오류 유형 데이터가 생성된다.
상기 (A)는 상기 문장에 대한 오류 유형 데이터를 예시하고 오류 유형 데이터의 일반적인 데이터 형식(format)을 나타내고 있다. 상기 오류 유형 데이터를 응답 생성기(142)가 입력받아 정보 거래 시스템의 응답 생성 과정(215)을 거쳐 상기 (B)와 같은 결과를 사용자에게 제시하여 사용자로 하여금 문장 구조 중의 하나를 선택하게 하거나 다시 처음부터 문장을 작성하도록 한다.
사용자가 선택하거나 구문구조 표준에 일치하여 입력된 문장의 구문구조 트리는 의미구조 생성기(133)에 의해 의미구조로 변환된다.
도 3 은 도 2a 및 도 2b의 정보 생성/검색 방법 중 의미구조 생성 과정에 대한 일실시예 상세흐름도이다.
도 3에 도시된 바와 같이, 의미구조 생성 과정은, 먼저 의미구조 생성기(133)로부터 구문구조 중의성이 해소된 구문 트리(T)를 입력받아(501) 이를 의미적 중의성이 해소되지 않은 개념 그래프인 전단계 개념 그래프(P-CG : Pre-Conceptual Graph)로 변환하는데(502), 이것은 구문 트리의 노드를 재귀적으로 좌우부모노드(left-right-head node) 순으로 탐색해나가면서 좌우 자식 노드로부터 생성된 서브 그래프(subgraph)를 결합하는 방식으로 진행된다. 좌우 자식 노드가 없는 0-레벨 넌-터미널(non-terminal)의 경우, 트리 변환 규칙(307)을 이용하여 서브그래프(subgraph)로 변환한다. 상기 트리 변환 규칙(307)은 도 4a에 도시되어 있는데, 상기 구문 분석기(parser)에서 사용하는 각각의 구문 범주와 그에 따른 변환 규칙을 보여주고 있다.
이와 같이, 생성된 전단계 개념 그래프(P-CG)(303)는 의미 중의성이 해소된 개념 그래프로 변환되기 위해 개념 노드 처리 과정(304)과 개념 노드간 관계 결정과정(305)을 거치게 된다.
여기서, 개념 노드의 처리 과정(304)은 수량사, 한정사 처리 규칙(308)을 사용하여 지시어(referent)로 처리되어야 할 정보를 전단계 개념 그래프(P-CG)로부터 찾아서 지시어로 지정하고 개념 분류망(508) 정보를 이용하여 고유명사 및 시제와 같은 내용을 그 개념의 타입 정보로 설정하게 된다. 상기 예문 "좋은 남자용 향수를 파리에서 살 수 있는 방법"에서 "파리" 개념 노드에 대해 개념 처리 결과 생성된 서브그래프가 도 4b에 도시되어 있다. 이어서, 개념 노드 처리가 수행되고 나면 그 개념 노드들 간의 관계가 개념 분류망(309)과 격틀 정보(310)에 의해 결정된다(305). 술어 개념(predicate concept)(단, 동사 및 형용사에 해당함)과 그 술어 개념의 하위 범주(subcategorization)로 들어가는 개념 노드와의 관계는 용언 격틀 정보와 격조사를 이용하여 결정되며, 복합 명사구도 명사구 내의 명사들의 관계를 규칙과 통계적 방법을 사용하여 분석된다.
이러한 수행 과정 중에는 의미적 중의성이 발생하게 되는데 통계적인 단어 의미 중의성 해결(Word Sense Disambiguation)을 하거나 사용자에게 의미를 선택하도록 여러가지 대안을 제시한다. 예를 들어, 상기 예문 "좋은 남자용 향수를 파리에서 살 수 있는 방법"에서 "파리"'와 "사"가 각각 [도시:파리], [곤충:파리] 또는 [사(live)], [사(buy)]의 의미 중의성을 갖게 되는데 사용자에게 두 가지 의미 중에서 어떤 것을 사용한 것인지 묻게 된다. 상기 과정을 수행한 후에, 최종 의미구조인 개념 그래프(306)가 생성된다.
(C) 구문구조 트리 : 좋은 남자용 향수를 파리에서 살 수 있는 방법
(((좋은 ((남자용) 향수))를) ((파리)에서) (((((사)ㄹ) 수) 있)는) 방법)
(D) 의미구조 개념 그래프 : 좋은 남자용 향수를 파리에서 살 수 있는 방법
[방법]→(ATTR)→[Assertion030]
Assertion030: [사]→(AGENT)→[NULL]
→ (OBJECT)→[향수:X]→[ATTR)[Assertion:031]
→(JUXTAPOSE)[남자용]
→ (LOCATE)→[파리]
→ (ATTR)→[값싸]
Assertion031 : [좋]→(EXPERIENCER)→[X]
(E) 의미구조 오류 유형 데이터
(1,파리,파리/도시,파리/곤충,사,사/live,사/buy)
의미구조 오류 유형 0: 표준 의미구조 위배
(0,(표준의미구조 위배 항목)+)
의미구조 오류 유형 1: 의미 중의성 발생
(1,의미 중의성 발생 노드 식별자,(의미 중의성 발생 노드 식별자의 의미)++)
(F) 분할 그래프
(ATTR)[방법][Assertion030]
(AGENT)[사][NULL]
(OBJECT)[사][향수:X]
(LOCATE)[사][파리]
(ATTR)[사][값싸]
(ATTR)[X][Assertion031]
(JUXTAPOSE)[X][남자용]
(EXPERIENCER)[좋][X]
상기 (C) 및 (D)는 상기 예문 "좋은 남자 향수를 파리에서 살 수 있는 방법"에 대한 상기 의미구조 생성 과정(208)에 대한 입력으로서, 구문 트리와 출력으로의미구조인 개념 그래프를 예시한다. 상기 (D)에서 예시된 의미구조에서는 동사에 대한 시제나 상 정보와 같은 것을 편의상 생략했다.
상기 과정을 거쳐 최종적으로 생성된 의미구조에 대해서는 상기 (2)의미구조 표준에 적합한지의 여부를 판별한다. 적합 여부의 판별은 사용자에게 최종적으로 생성된 개념 그래프를 제시하여 사용자가 의도하는 의미와 일치하는지를 확인함으로써 이루어진다. 상기 (E)는 의미구조 표준에 적합하지 않거나 의미 중의성이 발생할 경우의 의미구조 생성 오류 유형 데이터(210)에 대한 예와 의미구조 오류 유형 데이터 형식을 보여준다. 사용자에 의해 확인된 의미구조가 의미구조 표준에 적합하면 그 개념 그래프를 관계에 따라 분할한다(211). 상기 (D)에 예시된 개념 그래프를 관계 노드에 따라 분할한 결과 생성된 분할 그래프가 상기 (F)에 예시되어 있다.
개념 그래프가 분할된 이후엔 현재의 사용자의 입력 문장이 정보 제공을 위한 것인지 아니면 정보 요구를 위한 질의어인지에 따라, 개념 그래프의 색인이나 개념 그래프의 검색이 이루어지게 된다. 정보 제공일 경우, 수행되는 개념 그래프 색인은 관계에 대한 개념 쌍들과 웹 문서 식별자로 이루어지는 레코드들로 구성되는 관계형 데이터베이스의 테이블을 생성하는 과정이다. 상기 (F)에 예시된 분할 그래프들을 색인한 결과 생성되는 테이블 구조와 내용이 도 5a 내지 도 5f에 예시되어 있다. 분할된 그래프가 사용자의 요구 정보를 나타내는 질의어에 대한 것일 경우에는 개념 그래프 검색을 수행하여 질의어를 통해 나타나는 사용자의 요구 정보와 의미적으로 가장 근접한 문서를 추출하게 된다.
도 6 은 본 발명에 따른 사용자의 요구 정보 및 문서 추출 과정에 대한 일실시예 흐름도이다.
도 6에 도시된 바와 같이, 먼저 초기화 과정(d←최상위 노드의 레벨=0, N←분할 그래프의 깊이(depth))을 거친 후(901)에 최상위 노드의 레벨과 분할 그래프의 깊이를 비교하여(602) 분할 그래프의 깊이 보다 작으면 개념 그래프의 레벨(d)에 속하는 관계 노드에 대해 탐색을 시작한다(603).
이어서, 언어 특성적 탐색 우선순위 노드(c1, c2)를 결정하고(604), c1과 c2에 대해서 언어 L1의 우선 규칙(608)에 따라, 관계 노드(n)과 연관된 테이블의 레코드를 탐색하여(605) 각 레코드의 의미 적합도를 계산하면서(606) 최상의 노드의 레벨을 증가시킨 후(607), 최상위 노드의 레벨과 분할 그래프의 깊이를 비교하는 과정(602)을 반복 수행한다.
즉, 초기화 과정(d←최상위 노드의 레벨=0, N←분할 그래프의 깊이(depth))을 거친 후에, 아직 탐색해야 할 노드가 남아 있을 시에는(602), 현재의 그래프 레벨에 속하는 관계노드에 대한 탐색을 시작하게 된다. 그래프 레벨은 개념 그래프의 계층 구조의 위치를 의미한다.
상기 (D)에 예시된 개념 그래프와 상기 (D)에 예시된 분할 그래프에서와 같이 도 5a의 "ATTR" 테이블은 최상위 레벨의 관계 노드이며, 도 5b의 "AGENT" 테이블은 차상위 레벨의 관계노드가 된다. 개념 그래프의 깊이(depth)는 그래프의 단말 노드까지의 레벨의 총 수가 되며, 상기 (D)에 예시된 개념 그래프의 깊이(depth)는 4가 된다.
탐색을 수행할 관계 노드가 결정되면 그 관계 노드에 연결된 한 쌍의 개념 노드들에 대해서 언어 특성적인 의미 적합 우선순위를 결정한다. 의미 적합 우선순위는 의미가 첨가되는 수식+피수식 관계에 있을 때 피수식어에 해당하는 개념 노드가 우선순위를 갖는다. 그 이외의 경우에는 언어에 고유하게 존재하는 의미 우선 순위 규칙에 따라 결정을 하게 된다. 우선순위가 결정되고 나면 각 개념 노드에 대하여 관계 노드 n에 대한 테이블의 각 레코드와의 의미 적합도를 계산한다. 개념 x와 y 사이의 의미 적합도 S(x,y)는 다음의 (수학식 1)에 의해 계산된다.
d(x,y), 즉 개념망에서 노드 x에 대한 y의 거리는 y가 x의 하위 노드중의 하나일 경우에는 0이 되며, 그 이외의 경우에는 노드간 에지의 수로 계산된다. 예를 들어 d('방법','절차')의 값은 만일 개념망 내에서 '절차'가 '방법'의 하위 개념일 때 0의 값을 갖게 된다. 따라서, 웹문서(I)가 특정 질의어에 대해 갖는 의미 적합도 S(I,Q)는 I가 갖는 모든 문장의 개념 그래프에 대해 모든 테이블내에서 I에 대해 색인되어 있는 레코드에 대한 의미적합도의 합으로 계산되며 그것은 (수학식 2)와 같이 표현된다.
개념 그래프 검색이 수행된 후에는 검색된 그래프에 대해 S(I,Q) 값의 순서대로 정렬을 하고, 그 결과를 응답 생성기(142)에 전달한다. 응답 생성기(142)는 색인 결과나 검색 결과 혹은 분석 오류 유형 데이터를 입력받아서 사용자에게 응답 문장 및 결과 출력 양식을 생성하고 정보 제공 인터페이스(16)나 정보 수요 인터페이스(12)를 통해 사용자에게 출력된다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명은, 영어나 한국어와 같은 자연언어 문장을 통해 제공하고자 하는 정보나 얻고자 하는 정보를 정보거래를 위한 구문구조 표준과 의미구조 표준에 맞추어 기술(description)함으로써, 인터넷에서 폭발적으로 늘어나는 정보의 효율적인 검색을 가능하게 하고, 구문구조와 의미구조의 표준에 따르도록 정보 생성 및 작성 단계에서부터 유도함으로써 인터넷에서 정확하고 명확한 정보의 생성을 가능하게 하여 정보의 거래 및 유통을 활성화시킬 수 있는 효과가 있다.
또한, 본 발명은, 사용자의 정보 요구를 표현하는 질의어나 제공 정보를 나타내는 문장에 대해 표층적인 구문구조 분석과 심층적인 의미구조 분석 및 의미구조인 개념그래프의 의미 적합도 계산을 통해 의미적으로는 동일하지만 표층 구조가 다른 문장으로 이루어진 정보에 대해서도 검색이 가능하게 함으로써, 사용자가 필요로 하는 정보에 대한 요구나 사용자가 제공하고자 하는 정보의 거래에 대한 요구를 충족시킬 수 있는 효과가 있다.

Claims (22)

  1. 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치에 있어서,
    사용자로부터의 정보 제공을 위한 문장이나 정보 요구를 위한 질의문을 분석하기 위해 사용하는 언어 지식 데이터와 문장의 의미를 개념 그래프로 나타내는 의미 표현 데이터와 웹 문서를 저장하기 위한 데이터 저장수단;
    상기 사용자로부터 정보 제공을 위한 자연언어 문장의 생성이나 정보의 요구 명세를 위한 자연어 질의 문장을 입력받기 위한 입력수단;
    상기 데이터 저장수단의 데이터를 참조하여 상기 사용자로부터 입력된 자연언어 문장 또는 자연언어 질의 문장의 구문구조를 분석하여 의미구조를 생성하기 위한 입력 문장 분석수단;
    상기 입력 문장 분석수단을 통해 분석된 의미 구조를 분할하여 데이터베이스에 색인하여 저장하거나 의미 적합도를 계산하여 요구 정보 명세에 가장 의미적으로 적합한 제공 정보 및 문서를 검색하기 위한 의미구조 처리수단;
    상기 입력 문장 분석수단으로부터 제시된 오류 데이터를 구문구조 표준과 의미구조 표준에 따라 수정한 문장 형식 규칙, 상기 색인/검색 결과를 출력하기 위한 대화형 처리수단; 및
    상기 대화형 처리수단으로부터 출력되는 데이터를 사용자에게 제공하기 위한 정보 제공수단
    을 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치.
  2. 제 1 항에 있어서,
    상기 입력 문장 분석수단은,
    상기 사용자로부터 입력된 문장을 전달받아 데이터 저장부에 있는 사전 저장 장치, 용언 격 프레임 저장 장치 및 명사 개념 분류망 저장 장치의 데이터와 비교하여 순차적으로 분석하고, 형태소 분석기에서 형태소를 분석하며, 구문 분석기에서 구문을 분석하여 구문구조 트리를 생성하고, 의미구조 생성기에서 의미 분석을 수행하여 의미구조를 생성하는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 의미구조 처리수단은,
    상기 의미구조 생성기로부터 출력된 개념 그래프를 의미 관계에 따라 변환하기 위한 개념 그래프 변환기;
    상기 개념 그래프 변환기를 통해 변환된 각각의 관계로 연결된 개념 쌍의 레코드에 의해 사용자의 제공 정보가 있는 원래의 웹문서에 대해 색인을 수행하기 위한 개념 그래프 색인기; 및
    사용자 질의어의 의미구조와 저장된 의미구조들 사이에서 의미 적합도(semantic relevance)를 계산하여 적합도가 높은 제공 정보를 탐색하기 위한 개념 그래프 검색기
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치.
  4. 제 3 항에 있어서,
    상기 대화형 처리수단은,
    사용자가 작성한 문장에서 발생하는 철자나 띄어쓰기 오류, 구문구조나 의미구조의 표준과 위배되는 비문, 구문구조의 중의성 및 의미구조의 중의성 등의 분석 실패를 해결하는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치.
  5. 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치에 적용되는 정보 생성/검색 방법에 있어서,
    정보 공급자에 의해 기술되는 자연언어 문장(정보 및 지식)을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 색인하는 제 1 단계; 및
    사용자로부터 입력되는 자연언어 질의어 문장을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 상기 색인된 정보중에서 사용자의 요구사항에 적합한 정보를 검색하여 제공하는 제 2 단계
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
  6. 제 5 항에 있어서,
    상기 제 1 단계는,
    상기 정보 공급자에 의해 입력되는 자연언어 문장을 구문구조 및 의미구조의 표준에 따라 구문구조 및 의미구조의 중의성이 해소된 문장으로 생성하는 제 3 단계;
    상기 생성된 문장을 구문분석과 의미분석을 통하여 개념 그래프로 변환하는 제 4 단계; 및
    상기 변환된 개념 그래프를 관계 노드에 의한 테이블의 레코드 값으로 변환하여 색인하는 제 5 단계
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 제 1 단계는,
    정보 거래를 위한 정보를 생성하여 표준에 적합한 구조로 사용자의 문장을 유도하여 구문구조 표준과 의미구조 표준에 적합한 문장을 생성하는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
  8. 제 7 항에 있어서,
    상기 제 1 단계는,
    상기 사용자의 문장을 유도하여 구문구조 분석과 의미구조 생성 실패시, 사용자로부터 올바른 구문이나 의미를 선택하도록 여러가지 분석 결과를 분석 순위에 따라 사용자에게 제시하는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
  9. 제 5 항에 있어서,
    상기 제 2 단계는,
    상기 사용자로부터 자연언어 질의어 문장을 입력받아 구문구조 및 의미구조를 분석하여 개념 그래프로 변환하는 제 3 단계;
    상기 질의어를 개념 그래프와 의미적으로 가장 근접한 데이터베이스내의 개념 그래프를 탐색하여 의미 적합도를 계산하는 제 4 단계; 및
    상기 탐색된 개념 그래프에 의해 색인된 정보를 추출하여 상기 사용자에게 제공하는 제 5 단계
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
  10. 제 5 항, 제 6 항 또는 제 9 항 중 어느 한 항에 있어서,
    상기 정보 공급자에 의해 기술되는 자연언어 문장(정보 및 지식) 및 상기 사용자로부터 입력되는 자연언어 질의어 문장이 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환되는 과정은,
    상기 정보 공급자 자신이 제공하고자 하는 정보나 제공받기를 원하는 정보에 대한 자연어 문장이 입력되면 형태소 분석기를 통하여 자연어 문장에 대한 형태소를 분석하여 성공 여부를 확인하는 제 6 단계;
    상기 제 6 단계의 확인결과, 형태소 분석에 실패하였으면 오류가 발생된 유형에 따라 오류 유형 데이터를 생성하고, 형태소 분석에 성공하였으면 형태소 분석 결과를 가지고 구문구조를 분석하는 제 7 단계;
    상기 분석된 구문구조의 생성 여부에 따라 구문 분석 트리를 의미구조로 변환하여 의미구조를 생성하는 제 8 단계; 및
    상기 의미구조가 표준에 적합하게 생성되었는지의 여부에 따라 생성된 의미구조를 개념 그래프 변환기로 입력하여 상기 개념 그래프에 대한 분할을 수행하는 제 9 단계
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
  11. 제 10 항에 있어서,
    상기 의미구조 생성 과정은,
    의미구조 생성기로부터 구문구조 중의성이 해소된 구문 트리(T)를 입력받아 구문 트리(T)를 트리 변환 규칙에 따라 전단계 개념 그래프(P-CG)로 변환하는 제 10 단계;
    상기 변환된 전단계 개념 그래프(P-CG)를 의미 중의성이 해소된 개념 그래프로 변환하기 위해, 수량사 및 한정사 처리 규칙을 이용하여 지시어로 처리되어야 할 정보를 상기 전단계 개념 그래프(P-CG)로부터 찾아서 지시어로 지정하고 개념 분류망 정보를 이용하여 고유명사 및 시제와 같은 내용을 그 개념의 타입 정보로 설정하여 개념 노드를 처리하는 제 11 단계; 및
    상기 개념 노드 처리 수행 후, 상기 개념 분류망 정보와 격틀 정보에 의해 개념 노드들 간의 관계를 결정하여 최종 의미구조인 개념 그래프를 생성하는 제 12 단계
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색방법.
  12. 제 10 항에 있어서,
    상기 개념 그래프 분할 수행 과정은,
    상기 정보 공급자의 요구 정보 및 문서를 추출하기 위하여, 최상위 노드 레벨(d), 분할 그래프의 깊이(N)를 초기화시키는 제 10 단계;
    상기 초기화 수행 후, 최상위 노드의 레벨(d)과 분할 그래프의 깊이(N)를 비교한 결과에 따라, 상기 개념 그래프의 레벨(d)에 속하는 관계 노드(n)에 대해 탐색하는 제 11 단계;
    언어 특성적 탐색 우선순위 노드(c1, c2)를 결정하고, 결정된 우선순위 노드(c1, c2)에 대해서 언어(L1~Ln)의 우선순위 규칙에 따라, 관계 노드(n)와 연관된 테이블의 레코드를 탐색하여 각 레코드의 의미 적합도(S(x,y))를 계산하는 제 12 단계; 및
    상기 의미 적합도(S(x,y)) 계산 결과에 따라, 최상의 노드의 레벨(d)을 증가시킨 후, 상기 제 10 단계로 진행하는 제 13 단계
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
  13. 제 12 항에 있어서,
    상기 의미 적합도(S(x,y))는,
    하기의 수학식과 같이 개념망에서 노드 x에 대한 y의 거리(d(x,y))를 나타내는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
    (여기서, 개념망에서 노드 x에 대한 y의 거리(d(x,y))는 y가 x의 하위 노드중의 하나일 경우에는 0이 되고, 그 이외의 경우에는 노드간 에지의 수로 계산됨)
  14. 제 5 항 또는 제 9 항에 있어서,
    상기 제 2 단계는,
    의미구조 그래프를 분할하여 의미 관계를 중심으로 정보를 저장하여 검색하고, 명사 개념 분류망을 이용해 개념과 개념간의 의미 적합도를 이용하여 사용자의 요구 정보 명세에 가장 근사한 정보와 문서를 검색하는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 방법.
  15. 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성 장치에 적용되는정보 생성 방법에 있어서,
    상기 정보 공급자에 의해 입력되는 자연언어 문장을 구문구조 및 의미구조의 표준에 따라 구문구조 및 의미구조의 중의성이 해소된 문장으로 생성하는 제 1 단계;
    상기 생성된 문장을 구문분석과 의미분석을 통하여 개념 그래프로 변환하는 제 2 단계; 및
    상기 변환된 개념 그래프를 관계 노드에 의한 테이블의 레코드 값으로 변환하여 색인하는 제 3 단계
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성 방법.
  16. 제 15 항에 있어서,
    상기 정보 생성 방법은,
    정보 거래를 위한 정보를 생성하여 표준에 적합한 구조로 사용자 문장을 유도하여 구문구조 표준과 의미구조 표준에 적합한 문장을 생성하는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성 방법.
  17. 제 15 항 또는 제 16 항에 있어서,
    상기 정보 생성 방법은,
    상기 사용자의 문장을 유도하여 구문구조 분석과 의미구조 생성 실패시, 사용자에게 제시하는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성 방법.
  18. 표준화된 문장 구문구조 및 의미구조에 기반한 정보 검색 장치에 적용되는 정보 검색 방법에 있어서,
    상기 사용자로부터 자연언어 질의어 문장을 입력받아 구문구조 및 의미구조를 분석하여 개념 그래프로 변환하는 제 1 단계;
    상기 질의어를 개념 그래프와 의미적으로 가장 근접한 데이터베이스내의 개념 그래프를 탐색하여 의미 적합도를 계산하는 제 2 단계; 및
    상기 탐색된 개념 그래프에 의해 색인된 정보를 추출하여 상기 사용자에게 제공하는 제 3 단계
    를 포함하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 검색 방법.
  19. 제 18 항에 있어서,
    상기 정보 검색 방법은,
    의미구조 그래프를 분할하여 의미 관계를 중심으로 정보를 검색하고, 명사 개념 분류망을 이용해 개념과 개념간의 의미 적합도를 계산하여 사용자의 요구 정보 명세에 가장 근사한 정보와 문서를 검색하는 것을 특징으로 하는 표준화된 문장 구문구조 및 의미구조에 기반한 정보 검색 방법.
  20. 프로세서를 구비한 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성/검색 장치에,
    정보 공급자에 의해 기술되는 자연언어 문장(정보 및 지식)을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 색인하는 제 1 기능; 및
    사용자로부터 입력되는 자연언어 질의어 문장을 구문구조 및 의미구조 표준에 따라 개념 그래프로 변환하여 상기 색인된 정보중에서 사용자의 요구사항에 적합한 정보를 검색하여 제공하는 제 2 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  21. 프로세서를 구비한 표준화된 문장 구문구조 및 의미구조에 기반한 정보 생성 장치에,
    상기 정보 공급자에 의해 입력되는 자연언어 문장을 구문구조 및 의미구조의 표준에 따라 구문구조 및 의미구조의 중의성이 해소된 문장으로 생성하는 제 1 기능;
    상기 생성된 문장을 구문분석과 의미분석을 통하여 개념 그래프로 변환하는제 2 기능; 및
    상기 변환된 개념 그래프를 관계 노드에 의한 테이블의 레코드 값으로 변환하여 색인하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  22. 프로세서를 구비한 표준화된 문장 구문구조 및 의미구조에 기반한 정보 검색 장치에,
    상기 사용자로부터 자연언어 질의어 문장을 입력받아 구문구조 및 의미구조를 분석하여 개념 그래프로 변환하는 제 1 기능;
    상기 질의어를 개념 그래프와 의미적으로 가장 근접한 데이터베이스내의 개념 그래프를 탐색하여 의미 적합도를 계산하는 제 2 기능; 및
    상기 탐색된 개념 그래프에 의해 색인된 정보를 추출하여 상기 사용자에게 제공하는 제 3 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020000074768A 2000-12-08 2000-12-08 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법 KR20020045343A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020000074768A KR20020045343A (ko) 2000-12-08 2000-12-08 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
US09/852,317 US6947923B2 (en) 2000-12-08 2001-05-08 Information generation and retrieval method based on standardized format of sentence structure and semantic structure and system using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000074768A KR20020045343A (ko) 2000-12-08 2000-12-08 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20020045343A true KR20020045343A (ko) 2002-06-19

Family

ID=19702848

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000074768A KR20020045343A (ko) 2000-12-08 2000-12-08 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법

Country Status (2)

Country Link
US (1) US6947923B2 (ko)
KR (1) KR20020045343A (ko)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030046768A (ko) * 2001-12-06 2003-06-18 (주)와이솔루션즈 인공지능 전문가시스템의 추론 이론을 바탕으로 한 웹사이트 관리 시스템 및 웹 사이트 관리 방법
KR100611101B1 (ko) * 2004-12-07 2006-08-09 한국전자통신연구원 로봇 서비스 플랜 생성 시스템 및 방법
KR100941155B1 (ko) * 2006-12-05 2010-02-10 한국전자통신연구원 온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치
WO2011087358A2 (en) * 2010-01-15 2011-07-21 Mimos Berhad A semantic interpreter system and methods thereof
KR101223173B1 (ko) * 2004-07-26 2013-01-17 구글 인코포레이티드 정보 검색 시스템에서의 문구 기반 인덱싱
KR101286713B1 (ko) * 2011-11-18 2013-07-16 서강대학교산학협력단 Sns문장분석을 통한 사용자 요구사항 수집방법
US8631027B2 (en) 2007-09-07 2014-01-14 Google Inc. Integrated external related phrase information into a phrase-based indexing information retrieval system
US9037573B2 (en) 2004-07-26 2015-05-19 Google, Inc. Phase-based personalization of searches in an information retrieval system
US9361331B2 (en) 2004-07-26 2016-06-07 Google Inc. Multiple index based information retrieval system
US9817886B2 (en) 2004-07-26 2017-11-14 Google Llc Information retrieval system for archiving multiple document versions
KR102081512B1 (ko) * 2018-09-14 2020-02-25 울산대학교 산학협력단 비유법 문장 생성 장치 및 방법
WO2020141418A1 (en) * 2018-12-31 2020-07-09 3M Innovative Properties Company Concept molecule data structure generator
CN116775947A (zh) * 2023-06-16 2023-09-19 北京枫清科技有限公司 一种图数据语义检索方法、装置、电子设备及存储介质

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6970881B1 (en) 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
US7536413B1 (en) 2001-05-07 2009-05-19 Ixreveal, Inc. Concept-based categorization of unstructured objects
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7877421B2 (en) * 2001-05-25 2011-01-25 International Business Machines Corporation Method and system for mapping enterprise data assets to a semantic information model
US20030101170A1 (en) * 2001-05-25 2003-05-29 Joseph Edelstein Data query and location through a central ontology model
US7099885B2 (en) * 2001-05-25 2006-08-29 Unicorn Solutions Method and system for collaborative ontology modeling
US7146399B2 (en) * 2001-05-25 2006-12-05 2006 Trident Company Run-time architecture for enterprise integration with transformation generation
US8412746B2 (en) * 2001-05-25 2013-04-02 International Business Machines Corporation Method and system for federated querying of data sources
US20060064666A1 (en) 2001-05-25 2006-03-23 Amaru Ruth M Business rules for configurable metamodels and enterprise impact analysis
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
US20040083199A1 (en) * 2002-08-07 2004-04-29 Govindugari Diwakar R. Method and architecture for data transformation, normalization, profiling, cleansing and validation
US7151826B2 (en) * 2002-09-27 2006-12-19 Rockwell Electronics Commerce Technologies L.L.C. Third party coaching for agents in a communication system
US8255417B2 (en) * 2003-05-20 2012-08-28 Google Inc. System and method for providing definitions
US20050050042A1 (en) * 2003-08-20 2005-03-03 Marvin Elder Natural language database querying
US7613719B2 (en) * 2004-03-18 2009-11-03 Microsoft Corporation Rendering tables with natural language commands
US7685118B2 (en) 2004-08-12 2010-03-23 Iwint International Holdings Inc. Method using ontology and user query processing to solve inventor problems and user problems
US20060047500A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Named entity recognition using compiler methods
US20060047690A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Integration of Flex and Yacc into a linguistic services platform for named entity recognition
US20060047691A1 (en) * 2004-08-31 2006-03-02 Microsoft Corporation Creating a document index from a flex- and Yacc-generated named entity recognizer
US7496593B2 (en) 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
US20060053172A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and using multi-relational ontologies
US20060053171A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for curating one or more multi-relational ontologies
US20060074833A1 (en) * 2004-09-03 2006-04-06 Biowisdom Limited System and method for notifying users of changes in multi-relational ontologies
US7505989B2 (en) 2004-09-03 2009-03-17 Biowisdom Limited System and method for creating customized ontologies
US20060053382A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for facilitating user interaction with multi-relational ontologies
US20060053175A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for creating, editing, and utilizing one or more rules for multi-relational ontology creation and maintenance
US7493333B2 (en) 2004-09-03 2009-02-17 Biowisdom Limited System and method for parsing and/or exporting data from one or more multi-relational ontologies
US20060053173A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for support of chemical data within multi-relational ontologies
US20060053174A1 (en) * 2004-09-03 2006-03-09 Bio Wisdom Limited System and method for data extraction and management in multi-relational ontology creation
US7552117B2 (en) * 2005-05-26 2009-06-23 International Business Machines Corporation Using ontological relationships in a computer database
US8666928B2 (en) 2005-08-01 2014-03-04 Evi Technologies Limited Knowledge repository
WO2007047252A2 (en) * 2005-10-11 2007-04-26 Intelligenxia Inc. System, method & computer program product for concept based searching & analysis
US20070106496A1 (en) * 2005-11-09 2007-05-10 Microsoft Corporation Adaptive task framework
US7822699B2 (en) 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
US7606700B2 (en) * 2005-11-09 2009-10-20 Microsoft Corporation Adaptive task framework
US7831585B2 (en) 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
US7933914B2 (en) * 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US7676485B2 (en) * 2006-01-20 2010-03-09 Ixreveal, Inc. Method and computer program product for converting ontologies into concept semantic networks
US8060357B2 (en) * 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface
US7797303B2 (en) 2006-02-15 2010-09-14 Xerox Corporation Natural language processing for developing queries
US7996783B2 (en) * 2006-03-02 2011-08-09 Microsoft Corporation Widget searching utilizing task framework
US20070219773A1 (en) * 2006-03-17 2007-09-20 Xerox Corporation Syntactic rule development graphical user interface
US20070239517A1 (en) * 2006-03-29 2007-10-11 Chung Christina Y Generating a degree of interest in user profile scores in a behavioral targeting system
US7814109B2 (en) * 2006-03-29 2010-10-12 Yahoo! Inc. Automatic categorization of network events
US7809740B2 (en) * 2006-03-29 2010-10-05 Yahoo! Inc. Model for generating user profiles in a behavioral targeting system
US8504575B2 (en) 2006-03-29 2013-08-06 Yahoo! Inc. Behavioral targeting system
US8438170B2 (en) * 2006-03-29 2013-05-07 Yahoo! Inc. Behavioral targeting system that generates user profiles for target objectives
US7904448B2 (en) * 2006-03-29 2011-03-08 Yahoo! Inc. Incremental update of long-term and short-term user profile scores in a behavioral targeting system
US7634471B2 (en) * 2006-03-30 2009-12-15 Microsoft Corporation Adaptive grouping in a file network
US7624130B2 (en) * 2006-03-30 2009-11-24 Microsoft Corporation System and method for exploring a semantic file network
US7774198B2 (en) * 2006-10-06 2010-08-10 Xerox Corporation Navigation system for text
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8078450B2 (en) * 2006-10-10 2011-12-13 Abbyy Software Ltd. Method and system for analyzing various languages and constructing language-independent semantic structures
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US7890318B2 (en) * 2007-05-23 2011-02-15 Xerox Corporation Informing troubleshooting sessions with device data
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US8639708B2 (en) * 2007-08-31 2014-01-28 Microsoft Corporation Fact-based indexing for natural language search
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8712758B2 (en) * 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US7984032B2 (en) * 2007-08-31 2011-07-19 Microsoft Corporation Iterators for applying term occurrence-level constraints in natural language searching
US8041697B2 (en) * 2007-08-31 2011-10-18 Microsoft Corporation Semi-automatic example-based induction of semantic translation rules to support natural language search
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8838659B2 (en) * 2007-10-04 2014-09-16 Amazon Technologies, Inc. Enhanced knowledge repository
EP2071452A1 (en) * 2007-12-07 2009-06-17 Alcatel Lucent Device and method for automatically building applications from specifications and from off-the-shelf components selected by semantic analysis
US10867133B2 (en) * 2008-05-01 2020-12-15 Primal Fusion Inc. System and method for using a knowledge representation to provide information based on environmental inputs
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8386489B2 (en) * 2008-11-07 2013-02-26 Raytheon Company Applying formal concept analysis to validate expanded concept types
US8463808B2 (en) * 2008-11-07 2013-06-11 Raytheon Company Expanding concept types in conceptual graphs
CN102272755A (zh) * 2008-11-07 2011-12-07 琳古佩迪亚投资责任有限公司 使用图形国际语对自然语言进行语义处理的方法
EP2184685A1 (en) * 2008-11-07 2010-05-12 Lingupedia Investments SARL Method for semantic processing of natural language using graphical interlingua
US9158838B2 (en) * 2008-12-15 2015-10-13 Raytheon Company Determining query return referents for concept types in conceptual graphs
US8577924B2 (en) * 2008-12-15 2013-11-05 Raytheon Company Determining base attributes for terms
US9087293B2 (en) * 2008-12-23 2015-07-21 Raytheon Company Categorizing concept types of a conceptual graph
US9805089B2 (en) * 2009-02-10 2017-10-31 Amazon Technologies, Inc. Local business and product search system and method
CN101833555B (zh) * 2009-03-12 2016-05-04 富士通株式会社 信息提取方法和装置
US9245243B2 (en) 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
WO2010138972A2 (en) 2009-05-29 2010-12-02 Abacast, Inc. Selective access of multi-rate data from a server and/or peer
US20110040774A1 (en) * 2009-08-14 2011-02-17 Raytheon Company Searching Spoken Media According to Phonemes Derived From Expanded Concepts Expressed As Text
US20110055268A1 (en) * 2009-08-27 2011-03-03 Chen-Yu Sheu Search system based on structured natural languages
WO2011051970A2 (en) * 2009-10-28 2011-05-05 Tata Consultancy Services Ltd. Method and system for obtaining semantically valid chunks for natural language applications
US9110882B2 (en) 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
CN102314424B (zh) * 2010-07-01 2017-03-01 商业对象软件有限公司 文件的基于维度的关系图示
US8930959B2 (en) 2011-05-13 2015-01-06 Orions Digital Systems, Inc. Generating event definitions based on spatial and relational relationships
CN102789464B (zh) * 2011-05-20 2017-11-17 陈伯妤 基于语意识别的自然语言处理方法、装置和系统
US9495331B2 (en) * 2011-09-19 2016-11-15 Personetics Technologies Ltd. Advanced system and method for automated-context-aware-dialog with human users
US8727780B2 (en) * 2011-09-21 2014-05-20 ValueCorp Pacific, Inc. System and method for mathematics ontology extraction and research
CN102651032A (zh) * 2012-03-31 2012-08-29 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
CN102663088A (zh) * 2012-03-31 2012-09-12 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8914416B2 (en) 2013-01-31 2014-12-16 Hewlett-Packard Development Company, L.P. Semantics graphs for enterprise communication networks
US9704136B2 (en) 2013-01-31 2017-07-11 Hewlett Packard Enterprise Development Lp Identifying subsets of signifiers to analyze
US9355166B2 (en) 2013-01-31 2016-05-31 Hewlett Packard Enterprise Development Lp Clustering signifiers in a semantics graph
WO2015028616A1 (en) * 2013-08-30 2015-03-05 Unsilo A/S Method and system for identifying and evaluating semantic patterns in written language
US9817823B2 (en) * 2013-09-17 2017-11-14 International Business Machines Corporation Active knowledge guidance based on deep document analysis
US10146865B2 (en) * 2013-10-04 2018-12-04 Orions Digital Systems, Inc. Tagonomy—a system and method of semantic web tagging
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
KR20150129134A (ko) * 2014-05-08 2015-11-19 한국전자통신연구원 질의 응답 시스템 및 그 방법
CN105373546B (zh) * 2014-08-25 2019-03-29 北大方正集团有限公司 一种用于知识服务的信息处理方法及系统
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
KR102094934B1 (ko) 2014-11-19 2020-03-31 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10592519B2 (en) * 2016-03-29 2020-03-17 Microsoft Technology Licensing, Llc Computational-model operation using multiple subject representations
JP6663826B2 (ja) * 2016-09-08 2020-03-13 株式会社日立製作所 計算機及び応答の生成方法
WO2018081628A1 (en) 2016-10-28 2018-05-03 Roam Analytics, Inc. Dataset networking and database modeling
WO2018081633A1 (en) * 2016-10-28 2018-05-03 Roam Analytics, Inc. Semantic parsing engine
US10229195B2 (en) * 2017-06-22 2019-03-12 International Business Machines Corporation Relation extraction using co-training with distant supervision
CN110209764B (zh) * 2018-09-10 2023-04-07 腾讯科技(北京)有限公司 语料标注集的生成方法及装置、电子设备、存储介质
US11265292B1 (en) * 2019-01-28 2022-03-01 Amazon Technologies, Inc. Graph based management of virtualized infrastructures
JP7362424B2 (ja) * 2019-10-29 2023-10-17 株式会社東芝 情報処理装置、情報処理方法、および情報処理システム
US11205053B2 (en) * 2020-03-26 2021-12-21 International Business Machines Corporation Semantic evaluation of tentative triggers based on contextual triggers
US11687539B2 (en) * 2021-03-17 2023-06-27 International Business Machines Corporation Automatic neutral point of view content generation
CN112989145B (zh) * 2021-05-11 2021-12-14 浙江大华技术股份有限公司 查询语句生成方法、装置、系统及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916592A (ja) * 1995-06-27 1997-01-17 Meidensha Corp 日本語処理システム
KR19980084119A (ko) * 1997-05-21 1998-12-05 이계철 지리정보 시스템용 시간지원 데이타베이스 관리 장치
KR19990047859A (ko) * 1997-12-05 1999-07-05 정선종 도서 문헌 데이터베이스 검색을 위한 자연언어 대화 시스템
KR20000039749A (ko) * 1998-12-15 2000-07-05 정선종 기계 번역을 위한 변환 장치 및 이를 이용한 변환 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9105367D0 (en) * 1991-03-13 1991-04-24 Univ Strathclyde Computerised information-retrieval database systems
US5600831A (en) * 1994-02-28 1997-02-04 Lucent Technologies Inc. Apparatus and methods for retrieving information by modifying query plan based on description of information sources
US5630025A (en) * 1994-07-13 1997-05-13 Unisys Corporation Generalized configurator using a declaratively constructed two-level bi-partite graph as a knowledge representation
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US6137499A (en) * 1997-03-07 2000-10-24 Silicon Graphics, Inc. Method, system, and computer program product for visualizing data using partial hierarchies
US6233546B1 (en) * 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6081774A (en) * 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
GB9726654D0 (en) * 1997-12-17 1998-02-18 British Telecomm Data input and retrieval apparatus
US6678677B2 (en) * 2000-12-19 2004-01-13 Xerox Corporation Apparatus and method for information retrieval using self-appending semantic lattice

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916592A (ja) * 1995-06-27 1997-01-17 Meidensha Corp 日本語処理システム
KR19980084119A (ko) * 1997-05-21 1998-12-05 이계철 지리정보 시스템용 시간지원 데이타베이스 관리 장치
KR19990047859A (ko) * 1997-12-05 1999-07-05 정선종 도서 문헌 데이터베이스 검색을 위한 자연언어 대화 시스템
KR20000039749A (ko) * 1998-12-15 2000-07-05 정선종 기계 번역을 위한 변환 장치 및 이를 이용한 변환 방법

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030046768A (ko) * 2001-12-06 2003-06-18 (주)와이솔루션즈 인공지능 전문가시스템의 추론 이론을 바탕으로 한 웹사이트 관리 시스템 및 웹 사이트 관리 방법
US9817886B2 (en) 2004-07-26 2017-11-14 Google Llc Information retrieval system for archiving multiple document versions
US10671676B2 (en) 2004-07-26 2020-06-02 Google Llc Multiple index based information retrieval system
US9569505B2 (en) 2004-07-26 2017-02-14 Google Inc. Phrase-based searching in an information retrieval system
US9817825B2 (en) 2004-07-26 2017-11-14 Google Llc Multiple index based information retrieval system
KR101223173B1 (ko) * 2004-07-26 2013-01-17 구글 인코포레이티드 정보 검색 시스템에서의 문구 기반 인덱싱
US9037573B2 (en) 2004-07-26 2015-05-19 Google, Inc. Phase-based personalization of searches in an information retrieval system
US9361331B2 (en) 2004-07-26 2016-06-07 Google Inc. Multiple index based information retrieval system
US9990421B2 (en) 2004-07-26 2018-06-05 Google Llc Phrase-based searching in an information retrieval system
KR100611101B1 (ko) * 2004-12-07 2006-08-09 한국전자통신연구원 로봇 서비스 플랜 생성 시스템 및 방법
KR100941155B1 (ko) * 2006-12-05 2010-02-10 한국전자통신연구원 온톨로지의 도메인 정보를 이용한 문서 요약 방법 및 장치
US8631027B2 (en) 2007-09-07 2014-01-14 Google Inc. Integrated external related phrase information into a phrase-based indexing information retrieval system
WO2011087358A2 (en) * 2010-01-15 2011-07-21 Mimos Berhad A semantic interpreter system and methods thereof
WO2011087358A3 (en) * 2010-01-15 2011-10-06 Mimos Berhad A semantic interpreter system and methods thereof
KR101286713B1 (ko) * 2011-11-18 2013-07-16 서강대학교산학협력단 Sns문장분석을 통한 사용자 요구사항 수집방법
KR102081512B1 (ko) * 2018-09-14 2020-02-25 울산대학교 산학협력단 비유법 문장 생성 장치 및 방법
WO2020141418A1 (en) * 2018-12-31 2020-07-09 3M Innovative Properties Company Concept molecule data structure generator
CN116775947A (zh) * 2023-06-16 2023-09-19 北京枫清科技有限公司 一种图数据语义检索方法、装置、电子设备及存储介质
CN116775947B (zh) * 2023-06-16 2024-04-19 北京枫清科技有限公司 一种图数据语义检索方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US6947923B2 (en) 2005-09-20
US20020107844A1 (en) 2002-08-08

Similar Documents

Publication Publication Date Title
KR20020045343A (ko) 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법
Affolter et al. A comparative survey of recent natural language interfaces for databases
Reeve et al. Survey of semantic annotation platforms
Faure et al. First experiments of using semantic knowledge learned by ASIUM for information extraction task using INTEX
Van der Beek et al. The Alpino dependency treebank
Li et al. Nalix: an interactive natural language interface for querying xml
US6405162B1 (en) Type-based selection of rules for semantically disambiguating words
Popescu et al. Towards a theory of natural language interfaces to databases
JP4658420B2 (ja) 文字列の正規化表示を生成するシステム
US8041697B2 (en) Semi-automatic example-based induction of semantic translation rules to support natural language search
Tjoa et al. Transformation of requirement specifications expressed in natural language into an EER model
Akbik et al. Propminer: A workflow for interactive information extraction and exploration using dependency trees
Gupta et al. IQS-intelligent querying system using natural language processing
Abdurakhmonova et al. Uzbek electronic corpus as a tool for linguistic analysis
Šukys Querying ontologies on the base of semantics of business vocabulary and business rules
Mukherjee et al. Natural language query handling using extended knowledge provider system
Anisyah et al. Natural language interface to database (NLIDB) for decision support queries
Joseph et al. An efficient natural language interface to XML database
Lezius et al. Towards a search engine for syntactically annotated corpora
Clematide et al. Reflections and a proposal for a query and reporting language for richly annotated multiparallel corpora
Meng et al. Overview of a chinese natural language interface to databases: Nchiql
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
Vickers Ontology-based free-form query processing for the semantic web
Mueckstein Q-TRANS: Query Translation Into English.
Klyueva et al. Querying multi-word expressions annotation with CQL

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application