KR20110133909A - 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 - Google Patents

모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 Download PDF

Info

Publication number
KR20110133909A
KR20110133909A KR1020100053571A KR20100053571A KR20110133909A KR 20110133909 A KR20110133909 A KR 20110133909A KR 1020100053571 A KR1020100053571 A KR 1020100053571A KR 20100053571 A KR20100053571 A KR 20100053571A KR 20110133909 A KR20110133909 A KR 20110133909A
Authority
KR
South Korea
Prior art keywords
semantic unit
term
document
search
natural language
Prior art date
Application number
KR1020100053571A
Other languages
English (en)
Inventor
박동민
Original Assignee
박동민
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박동민 filed Critical 박동민
Priority to KR1020100053571A priority Critical patent/KR20110133909A/ko
Priority to PCT/KR2011/004113 priority patent/WO2011155736A2/ko
Publication of KR20110133909A publication Critical patent/KR20110133909A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자연어로 이루어진 정보 체계를 의미단위용어 기반 정보 체계로 바꾸는 것에 관한 것으로 정보 검색 시스템, 용어 사전, 문서작성기, 용어 변환기의 기능적 변화를 동반한다. 현재 검색 시스템의 정확률은 매우 낮다. 이것은 자연어가 작은 수의 용어로 많은 의미를 표현하기 때문이다. 용어가 증가하면 용어의 길이가 길어지고 기억하기 힘들어지는 문제 때문에 사람들은 작은 수의 용어를 의미를 중복해 가면서 사용된다. 용어와 의미가 1대 1로 대응되는 의미단위용어를 도입하면 검색 시스템의 정확률은 100%를 추구할 수 있다. 본 발명은 손쉽게 의미단위용어를 생성하는 방법을 제시하며 생성된 의미단위용어를 전지구적인 문서들에 효율적으로 적용시키는 방법을 제시한다. 의미단위용어를 만드는 방법은 자연어를 의미 개수만큼 분할하는 방식이다. 단순한 용어 분할이기 때문에 누구나 용어 생성이 가능하다. 생성된 용어를 전지구적인 문서에서 적용시키는 작업은 아주 방대한 작업이다. 본 발명은 이러한 작업에 있어서 반복 사용되는 단어 하나하나를 바꾸는 것이 아니라 단어별로 정렬하여 정렬된 특정 단어 묶음을 동시에 처리한다. 하나의 단어가 전지구적인 문서들 속에서 수천억 번 사용되었다고 하여도 수천억 번 용어 변환을 할 필요가 없다. 해당 단어가 몇 가지 의미가 있다면 몇 번의 분류 명령으로 간단히 변환작업이 처리될 수도 있다. 용어의 반복 사용이 용어 변환에 큰 짐이 되지 않는다고 의미단위용어 숫자 자체가 엄청나기 때문에 간단하지는 않다. 100억에 가까운 의미단위용어를 처리하는 것은 엄청난 일이다. 이를 극복하는 방법은 일을 사용자들에게 고르게 분배하는 것이다. 자연어의 모호성을 야기하는 가장 큰 원인은 수많은 고유 명사이다. 이들이 명사 영역 형용사 동사 모든 품사영역을 침범하고 의미 혼동을 가져온다. 고유 명사는 인명뿐이 아니지만 일단 인명만 고려하여도 전세계 인구 60억은 넘어야 하기 때문에 용어 숫자는 100억 이상이 될 것이다. 본 발명은 이 커다란 일을 수많은 사용자가 고르게 분배하는 구조를 제시한다. 사용자가 필요하면 자신들이 필요한 작업을 수행하고 그 혜택을 누릴 수 있다. 그들이 용어 변환이 필요하다고 느끼면 그들이 용어 생성 및 용어 변환 작업을 할 수 있어 사용자는 언제나 만족한 상태를 유지할 수 있다. 본 발명은 1) 손쉽게 의미단위용어 생성을 할 수 있는 의미단위용어 사전 관리기를 제공한다.
2)단어를 분류하고 단어 묶음에 해당하는 것을 의미단위용어로 변환(주석)하는 수단인 검색 주석기를 제공한다. 이 검색 주석기는 검색 시스템의 일부로서 작동한다. 단어를 정렬하고 검색하는 것은 기존의 검색 시스템 기능을 이용한다. 3) 이외에 검색 주석기와 비슷한 역할을 하는 의미단위 용어 변환(주석)기를 제공한다. 전지구적인 정보체계를 의미단위용어 기반으로 만드는 작업은 엄청난 방대한 작업이다. 하지만 의미가 불분명한 자연어의 문제는 많은 분야 발전의 장애가 되고 있다. 본 발명은 시맨틱 웹 분야, 검색 시스템 분야, 언어 번역 분야, 인공지능 분야에 명확한 언어를 제공함으로써 큰 진전을 가져올 수 있는 기반을 제공할 것이다.

Description

모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치{Semantic dictionary manager, semantic text editor, semantic term annotator, semantic search engine and semantic information system builder based on the method defining semantic term instantly to identify the exact meanings of each word}
본 발명은 정보를 생성하고 이들을 수집하여 색인을 만들고 검색하여 이용하는데 관여하는 용어 사전, 문서 작성기, 정보 검색에 관한 것이며 이들을 의미단위용어 기반으로 만들기 위한 용어 주석기, 문서정보체계 구축 장치 및 시맨틱 웹(Semantic Web)이 포함된다.
본 발명이 속하는 기술분야는 정보검색 분야이다. 본 발명은 의미 기반 정보 검색에 관한 것이기 때문에 정보 검색 분야 외에 시맨틱 웹 분야도 관련되어 있다. 시맨틱 웹은 현재의 인터넷과 같은 분산환경에서 리소스(웹 문서, 각종 파일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(Semanteme)를 기계(컴퓨터)가 처리할 수 있는 온톨로지형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크 기술이다. 온톨로지는 도메인의 공유된 개념화(conceptualization)에 대한 형식적 명세체제로서, 도메인 어휘의 의미 정보를 표현한다. 온톨로지는 일종의 지식 표현(knowledge representation)으로, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있다. 추론, 증명 등의 처리에 온톨로지의 공리(axiom)와 규칙(rule)이 사용되며, 규칙 표현을 위해서 별도의 규칙 언어가 사용된다.
본 발명이 속하는 기술분야는 정보검색 분야이다. 현재의 검색기술수준은 주요 검색엔진들을 통해 명확히 알 수 있다. 현재 주요 검색기술들은 자연어 기반 검색 기술이며 불명확한 자연어를 이용하여 정보가 축적되고 자연어 검색 질의어를 이용하기 때문에 의미를 기준으로 하면 낮은 검색 정확률을 가진다. 발명자 홍길동(가명)과 같은 이름을 가진 사람은 국내 유명 서비스에서 찾아보면 641 명이 있다. 홍길동이라는 이름으로 발명자에 관한 정보를 검색하면 발명자 이외의 640 명에 대한 불필요한 정보들이 포함된다. 이 경우 자연어 검색시스템의 홍길동이라는 키워드에 대한 검색 정확률은 평균 1/641 이라고 할 수 있다. 실제로 현재의 검색 엔진은 수많은 자료를 보여주지만 실제로 원하는 자료는 없는 경우가 많다. 따라서 여러 키워드를 이용하여 검색 범위를 좁히는 방법들을 동원하고 페이지 랭크 등 가능성이 큰 결과를 앞에 보여주는 기술을 적용하지만 자연어가 가지는 불명확성을 근본적으로 해결할 수는 없다. 이것은 자연어 기반 검색 시스템이 갖는 어쩔 수 없는 한계이다. 검색방법이 근본적으로 개선되기 위해서는 하나의 표현이 여러 가지 의미를 갖는 문제를 근본적으로 해결하여야 한다. 이를 위해서는 자연어와 별도로 모든 의미를 정확히 표현하는 정보를 추가하여 그 의미를 정확히 하여야 한다. 이를 위해서는 자연어가 아닌 의미 단위의 별도 표현 방법이 필요하고 새로운 표현방법에 따라 인터넷 정보에 주석을 하여야 한다. 이러한 새로운 표현방법이 정착되기 위해서는 현실적인 실용화 방법이 있어야 한다. 인터넷 정보에 일일이 주석을 다는 일은 엄청난 작업이고 의미단위의 표현을 위한 새로운 사전을 만드는 일도 한두 사람이 해낼 수 없는 방대한 작업이다. 특정분야의 정확한 사전을 만드는 작업만 해도 전문가들이 모여 오랜 기간 노력을 하여야 한다고 알려져 있으며 전체 분야에 대한 사전 작업은 몇 명이 한두 해에 끝낼 수 있는 작업이 아니다. 사전 작업이 완성된다고 하여도 이 사전을 이용하여 전체 인터넷에 주석을 다는 문제는 특별한 방안이 없이 해결하는 것은 불가능한 작업이다.
의미단위용어 사전을 만들고 인터넷을 포함한 전지구적 문서들을 의미단위용어 기반으로 변환하는 것은 아주 방대한 작업으로서 특별한 방법이 없이는 불가능한 작업이다. 하지만 이 방대한 작업을 몇백만 분의 일로 일의 양을 줄이는 방법이 존재한다. 이 작업의 전체 양은 전지구적 문서들이 사용한 단어의 종류와 각 단어의 반복 사용 회수에 달려 있다. 하지만 전체를 단어별로 정렬하면 전체 단어 반복 사용횟수가 아닌 단어의 종류/의미의 수 만큼으로 작업량을 줄일 수 있다. 특정 단어가 몇 번 반복 사용되었는가는 실제로 작업의 양과 큰 관련이 없다. 자연어 별로 모든 문서 내용들이 정렬되어 있는 검색 시스템의 색인으로부터 의미단위용어 사전을 만들고 색인 자체를 의미단위용어 기반으로 만드는 것은 불가능하지 않은 일이다. 특정 단어가 몇 번 반복 사용되었는가는 전체 노력에 큰 영향이 없다. 전체 단어 종류의 수, 전체 의미의 수가 전체 의미 기반화 노력의 양과 비례한다. 본 발명은 검색 시스템의 특정 자연어로 정렬된 내용에서 여러 의미들을 찾아내 용어를 생성하고, 이 새로운 용어를 색인에 주석하며, 결국 의미단위로 바꾸어진 색인은 전체 인터넷 문서들이 의미단위용어 기반으로 변환한 것과 같은 효과를 가진다. 의미단위용어 기반의 색인은 모든 문서들을 의미단위용어 기반으로 변환시키는 데 사용될 수 있다. 또한 이 방법은 온톨로지 사전과 달리 자연어를 의미단위로 분할하는 간단한 작업을 통해 용어를 생성하기 때문에 일반인들도 쉽게 용어 생성하는 일과 문서/색인을 의미단위용어 기반으로 변환시키는 작업에 참여할 수 있다. 일반 사용자들이 자기가 관심을 갖고 지식도 있는 몇 개의 용어만 생성하고 인터넷의 해당 자연어를 검색하여 새로 생성된 의미단위용어를 주석하면 전체 인터넷의 의미단위용어 기반 변환이 가능하다.
현재 검색엔진의 정확률은 의미 기반 관점에서 상당히 낮다. 본 발명은 의미 기반 정확률을 기존 검색엔진보다 경우에 따라 수배, 수십 배 내지 수백 배까지 향상시킨다. 자연어는 하나의 용어가 다양한 의미를 갖는 경우가 많고 인명,상점 명, 지명 등등의 수많은 고유명사가 일반 명사, 동사, 형용사의 영역까지 침범하고 있어 자연어만의 검색 정확률은 낮을 수밖에 없다. 본 발명은 불명확한 자연어에 보완하여 의미단위용어를 사용하여 표현 단위의 정확률을 의미단위의 정확률로 수준을 향상시켰다. 본 발명은 단순히 새로운 모델을 제시하는 것이 아니라 새로운 모델이 잘 정착될 수 있는 방법을 포함하고 있다. 전세계 60억 인구를 대상으로 새로운 기반의 검색 엔진을 정착시키는 것은 엄청난 일이지만 본 발명은 방대한 인터넷 단위의 작업을 각 개인의 작업으로 분할하여 간단한 노력으로 사용자의 요구를 만족시키고 개인의 만족을 바탕으로 60억 사용자를 만족시킬 수 있는 구조를 제시하고 있다.
제 1도는 의미단위용어 기반 정보 체계의 전체 구성도
제 2도는 2단계 의미단위용어 기반 정보 체계 구축 진행
제 3도는 의미단위용어 기반 정보 체계를 구축하는 순서도
제 4도는 사전관리기 중심의 구성도
도 5는 의미단위용어를 생성하는 환경에 대한 비교
도 6은 자연어의 모호함과 의미단위용어의 필요성 설명
도 7은 생성된 고유ID의 사용 예
도 8은 고유ID 사전의 개념적 구조
도 9는 의미단위용어의 생성 순서도
도 10은 본 발명 제시 의미단위용어와 기존의 온톨로지 사전의 비교
도 11은 의미단위용어의 직관적 분류 및 계층화
도 12는 용어별칭의 생성과 사용 방법
도 13은 의미단위용어 용어분할의 사용 예
도 14는 의미단위용어 용어분할(Segment) 생성, 주석 및 검색 순서도
도 15는 의미단위용어 용어그룹
도 16은 의미단위용어 용어그룹의 생성 및 사용 순서도
도 17은 독립된 주석기 중심의 구성도
도 18은 개인의 기본값 예
도 19는 특정 사용자에 해당하는 기본값들의 예
도 20은 자연어 표현에 대한 의미단위용어 기본값 결정 순서도
도 21은 주석지식 테이블의 개념적 구조
도 22는 하나의 자연어에 여러 가지 주석지식의 적용
도 23은 주석지식 생성 순서도
도 24는 주석지식과 기본값의 적용 우선 순위
도 25는 문서나 질의어를 대상으로 지식 기반 주석부가 수행되는 순서도
도 26은 색인을 대상으로 주석지식을 수행하는 순서도
도 27은 색인 기반 문서 주석부의 문서 주석
도 28은 색인 되어있는 문서 내부의 특정 자연어 표현에 의미단위용어를 주석하는 순서도
도 29는 의미단위용어(고유ID+) 기반 정보체계의 규모
도 30은 의미단위용어(고유ID+) 기반 정보체계의 다양한 구축 방식 비교
도 31은 문서 단위 주석과 검색 주석 방식의 생산성 비교
도 32는 수작업 주석 방식 문서 작성기와 자동 주석 방식 문서 작성기
도 33은 지식 기반 주석부 도움을 받는 의미단위용어 기반 문서 작성 순서도
도 34는 검색 시스템을 중심으로 작성된 의미단위용어 기반 정보 체계
도 35는 검색 시스템의 최소 구성
도 36은 검색 시스템 최소 구성에 검색 주석기가 추가된 구성도
도 37은 검색 시스템 최소 구성에 주석기가 추가된 구성도
도 38은 메타 방식의 검색 시스템
도 39는 기본적인 기능만을 갖는 의미단위용어 기반 검색 시스템의 작동 순서도
도 40은 기본 기능과 검색 주석 기능을 이용하는 검색 시스템의 작동 순서도
도 41은 기본 기능과 주석지식 기능을 이용하는 검색 시스템의 작동 순서도
도 42는 색인기를 중심으로 작성된 구성도
도 43은 고유ID+ 색인의 개념적 구조
도 44는 색인 상에서 고유ID 방식과 의미표현ID 방식의 비교
도 45는 의미단위용어 기반 색인 순서도
도 46은 여러 장치에 속해 있는 모든 주석 장치들
도 47은 의미단위용어 기반 정보 체계의 근간을 이루는 주석 장치들 비교
도 48은 문서 주석, 색인 주석 및 검색 질의어 주석의 예
도 49는 단어 검색 주석과 문서 검색 주석의 차이점
도 50은 주석 단위의 규모 비교
도 51은 신규문서와 기존 문서에 대한 주석 비교
도 52는 각 주석 장치들의 단계별 중요성 비교
도 53은 검색 주석기 중심으로 작성된 구성도
도 54는 검색 주석의 순서도
도 55는 검색 결과 단어들을 대상으로 색인 상에서 주석하는 순서도
도 56은 검색기를 중심으로 작성된 구성도
도 57은 검색 질의어
도 58은 고유ID+ 검색 질의어의 해석
도 59는 의미단위용어 기반의 질의어 작성 순서도
도 60은 검색 결과를 표시하는 3가지 방법
도 61은 단어를 검색하고 단어 단위로 항목 표시를 하는 순서도
도 62는 단어 검색 결과를 문서별 단어별로 나열 표시하는 검색 순서도
도 63은 검색지식을 생성하고 활용하는 순서도
도 64는 문서정보체계 구축기를 중심으로 작성된 구성도
도 65는 자연어 문서정보체계와 고유ID+ 문서정보체계
도 66은 사전, 색인 및 주석지식을 이용한 문서정보체계를 구축
도 67은 사전 및 색인을 이용한 의미단위용어 기반 문서정보체계 구축
도 68은 사전 및 주석지식을 이용한 문서정보체계 구축
도 69는 색인을 이용한 문서정보체계 구축 순서도
도 70은 주석지식을 이용한 문서정보체계 구축 순서도
도 71은 검색 시스템 색인과 주석지식을 이용한 문서정보체계 구축 순서도
도 72는 이견에 대한 집단지성을 이용한 관리 순서도
도 73은 검색 대상 문서 원본과 추가 정보의 통합 후 저장 및 이용 순서도
먼저 간단히 용어를 설명한다.
의미단위용어(Semantic term) - 자연어는 같은 자연어 표현이 여러 가지 의미를 갖는 경우가 있고 반대로 하나의 의미가 여러 가지로 표현되는 경우도 있다. 의미단위용어는 하나의 의미마다 한 개의 용어가 생성된다. 자연어 표현이 여러 가지 의미를 갖는 경우에 의미 일련번호를 붙여 용어를 세분화하고 반대로 표현이 여러 가지인 경우에는 자연어 대표표현을 사용하여 의미가 같은데 여러 의미단위용어가 생성되지 못하게 한다. 하지만 예외사항으로서 의미가 같더라도 각국 언어가 다르면 별도의 의미단위용어가 생성된다.
본 발명에서 자연어는 의미를 분명히 하기 위해 의미단위용어가 주석되어 "자연어+의미단위용어"의 형태로 존재한다. 본 발명에서는 의미단위용어가 2가지 의미로 사용된다. "자연어+의미단위용어"를 의미하는 경우가 있고 자연어와 무관하게 "의미단위용어"만을 의미하는 경우가 있다. 별도의 특별한 언급이 없으면 의미단위용어라는 수식어가 붙은 경우 "자연어+의미단위용어"를 의미한다. 예를 들어 의미단위용어 문서이라고 하면 자연어에 의미단위용어가 주석된 형태를 의미한다. 의미단위용어 검색 질의어도 마찬가지이다. 의미단위용어 색인도 자연어 정보와 의미단위용어가 같이 들어있는 색인이다. 이런 의미를 분명히 하기 위해 사용되는 용어가 고유ID와 고유ID+이다.
고유ID(UniqueID) - 본 발명이 제안하는 대표적인 의미단위용어이다. 자연어 대표 표현에 의미 일련 번호를 연결하여 만든다. 각국 언어별로 의미마다 1개씩 생성된다.
"고유ID+" - 자연어 표현과 고유ID 쌍(Pair)이다. 보통 "자연어:고유ID"이 형태를 갖는다
주석(Annotation) - 여기서 주석은 자연어 표현에 의미단위용어를 더하여 의미를 명확히 하는 용도로 사용된다.
변환(Convert) - 여기서 변환은 자연어 표현을 (자연어 표현, 의미단위용어)쌍으로 바꾸는 것을 의미한다. 결국 주석과 변환이 같은 의미이다.
만약 자연어 표현을 의미단위용어로 바꾸는 것은 변환이라는 용어가 아니라 대체라는 용어를 쓰고 있다.
단어/의미/발생 - 하나의 문서에는 여러 가지 단어들이 사용된다. 이 단어들은 하나 이상의 의미로 사용될 수 있다. 하나의 문서에서 특정한 의미를 갖는 단어가 여러 번 반복 사용될 수 있으며 이것을 여기서 발생이라고 부른다. 1000개의 발생이 들어 있고 500개의 의미가 사용되고 400개의 단어가 사용되는 문서의 예를 들어보자. 한 문서 내에서 의미와 단어의 수는 발생의 수를 넘지 못하고, 일반적으로 의미의 수가 단어의 수보다 많으나 같은 의미의 다른 표현들이 많으면 단어의 수가 의미의 수보다 많을 수도 있다. 이 예에서 하나의 단어는 평균 2.5(1000/400)번씩 반복 사용되었으며 100(500-400)개 정도의 단어가 의미 분할을 하였다. 하나의 단어가 여러 번 의미분할을 할 수도 여러 단어가 하나의 의미를 가질 수도 있어 정확한 분할된 단어의 수는 알 수 없다.
GUID - 전역 고유 식별자(Globally Unique Identifier)는 응용 소프트웨어에서 사용되는 유사 난수이다. GUID는 생성할 때 항상 유일한 값이 만들어진다는 보장은 없지만, 사용할 수 있는 모든 값의 수가 매우 크기 때문에, 적절한 알고리즘이 있다면 같은 숫자를 두 번 생성할 가능성은 매우 적다. 따라서 시스템이 일련번호를 유지관리할 필요가 없다. 하지만 길이가 길어져서 사용에 불편하다.
본 발명은 검색 시스템이 중심이 된 의미단위용어 기반 정보 체계이다. 먼저 자연어 정보 체계의 예를 살펴보자. 자연어 검색 시스템의 기본적인 구성요소는 문서 수집기, 색인기 및 검색기이며 검색 시스템의 대상인 자연어 문서들은 자연어 문서 작성기가 만들어 준다. 자연어 문서 작성기와 자연어 검색 시스템은 자연어 사전을 이용한다. 검색 시스템이 중심이 된 자연어 정보 체계는 1)사전, 2)문서 작성기,3)수집기, 4)색인기 및 5) 검색기 모두 5 장치로 이루어진다. 의미단위용어 기반 정보 체계는 자연어 정보체계의 모든 장치들을 포함한다. 기본적인 프레임워크도 같다. 의미단위용어 기반이기 때문에 추가되는 장치들은 1) 의미단위용어 사전, 2)의미단위용어 주석기, 3)의미단위용어 기반 검색 주석기, 4) 의미단위용어 기반 문서정보체계 구축기이다. 의미단위용어 기반 정보 체계는 5+4=9 개의 장치로 구성된다. 실제 구성도는 자연어 사전을 제외한 8개 장치로 구성되어 있다. 이는 자연어 사전이 개념적으로 의미단위용어 사전에 포함되어 있기 때문이다. 추가되었던 4개 장치 중 의미단위용어 사전의 필요성은 너무나 자명하다. 나머지 3장치(주석기, 검색 주석기, 문서정보체계 구축기)는 자연어로 만들어진 정보를 의미단위용어로 만들어진 정보로 변환하기 위해 필요한 장치들이다. 자연어와 달리 의미단위용어는 사용자들이 실생활에서 사용하는 언어가 아니고 단어의 수도 훨씬 많고 길이도 길다. 따라서 기억하여 문서 작성을 할 수 없다는 점 때문에 특별한 도움이 필요하다. 사용자들이 쉽게 의미단위용어를 사용할 수 있도록 도와주는 장치들이 필요하다. 주석기는 자연어를 의미단위용어로 변환해 주는 장치이다. 검색 시스템 외부의 독립 장치로서 문서 작성기, 검색 시스템 및 문서정보체계 구축기가 이용한다. 검색 주석기는 색인의 내용을 자연어에서 의미단위용어로 변환해 주는 검색 시스템 내부 장치이다. 문서정보체계 구축기는 검색 시스템 차원에서 의미단위용어 기반으로 만드는 작업이 끝난 상태에서 그간에 쌓인 지식과 정보를 이용하여 모든 문서들을 의미단위용어 기반으로 바꾸는 장치이다.
이하, 첨부한 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명한다.
도 1은 모든 장치들을 포함하는 구성도이다.
A.의미단위용어 기반 정보 체계는 사전 관리기, 주석기, 문서 작성기, 검색 시스템 및 문서정보체계 구축기를 포함하는 의미단위용어 기반의 총체적인 정보 체계이다.
B.의미단위용어 사전 관리기는 의미단위용어를 생성하고 여기에 설명을 추가하여 사전을 만들고 그것을 관리하는 장치이며 A.의미단위용어 기반 정보 체계의 모든 장치들이 사용하는 기본적인 장치이다. 약칭은 사전 관리기이다.
B1.의미단위용어 생성부는 의미단위용어인 고유ID,의미표현ID 또는 의미 기반 GUID를 생성하고 여기에 설명을 추가하여 사전을 생성하는 장치이다. 약칭은 용어 생성부이다.
B2.의미단위용어 관리부는 생성된 의미단위용어를 수정 삭제하는 등등의 관리를 하는 장치이다.
B3.의미단위용어 사전 검색부는 사전 찾기 장치로서 보통 자연어를 입력하여 사전 찾기 기능을 호출하면 해당하는 의미단위용어들이 나열되고 사용자는 그 중에 하나를 선택하게 된다. 한글을 입력하고 한자로 변환하는 기능과 유사하지만 한자 변환은 한자로 대체되나 사전 검색부는 대체하기보다는 자연어 뒤에 주석이 된다. 약칭은 사전 검색부이다
C.의미단위용어 주석기는 자연어 표현에 의미단위용어를 주석해 주는 장치이며 D.의미단위용어 기반 문서 작성기, E.의미단위용어 기반 검색 시스템 및 J.의미단위용어 기반 문서정보체계 구축기에 의해 사용된다. 약칭은 주석기이다. 모든 자연어를 의미단위용어로 바꾸는 작업을 하나하나 사전을 이용해 수행하는 것은 매우 힘든 작업이다. 주석기는 주석지식이나 기본값을 이용하여 자동으로 주석하거나 도움을 주는 장치이다. 문서 내부의 자연어에 대한 주석, 검색 시스템 색인에 대한 주석 및 검색 질의어에 대한 주석 모두에 사용되는 장치이고 신규문서를 만들면서 자연어에 주석하는데 사용할 뿐 아니라 기존문서들을 주석하는 데도 사용된다. 명령으로 수행될 수도 있고 에이전트처럼 정기적으로 자동 수행되기도 한다. 대량 문서 주석 작업에도 사용되고 개별 문서 작업에도 사용된다.
C1.주석지식 관리부는 주석지식을 생성하고, 수정 및 삭제하는 장치이다. 주석지식은 “어떠한 1)조건에서 어떤 2)자연어 표현은 어떤 3)의미이다”라는 지식이다. 이것은 보통 검색으로 대상을 찾아내서 특정 자연어 표현에 특정 의미단위용어를 주석하는 검색 주석기를 사용한 후에 결과가 만족스러우면 이를 주석지식으로 등록하게 된다. 보통 1)조건은 검색에서 사용한 질의어이고, 2)자연어 표현은 검색에서 사용한 특정 자연어 표현이고, 3)의미는 검색에서 주석을 하는데 사용한 의미단위용어가 된다.
C2.기본값 관리부는 기본값을 관리하는 장치이다. 기본값은 개인,특정 단체, 특정 분야 또는 인터넷에서 가장 빈번하게 사용하는 특정 자연어에 대한 의미단위용어를 말한다. 여러 개의 기본값이 적용되는 상황에서 보통 개인,특정집단,분야,인터넷 순으로 우선 순위를 가지며 우선 순위나 기본값을 사용자가 지정할 수 있다. 주석지식이 없어서 특정 자연어를 의미단위용어로 주석하지 못할 때 최우선순위의 기본값을 적용한다.
C3.지식 기반 주석부(문서/색인/질의어 주석)는 보통 C3.지식 기반 주석부로 표기되며 주석지식이나 기본값을 이용하여 자연어에 의미단위용어를 주석해 주거나 도움을 주는 장치이다. 호출되어 사용되기도 하고 에이전트처럼 정기적으로 수행되기도 한다. 대량 문서 작업을 포함한 모든 주석 작업에 사용될 수 있는 장치이다.
C4.색인 기반 문서 주석부는 색인이 의미단위용어 기반으로 변환된 상태에서 색인의 정보를 추출하여 문서의 내용을 주석하는 장치이다. 이미 색인이 의미단위용어 기반화 된 상태는 의미단위용어 기반 정보체계가 완성됐다는 것을 의미하기 때문에 2차적인 주석 장치라고 할 수 있다.
C5.주석 관리부는 모든 주석을 보여주고 내용을 검토하여 주석 오류를 수정할 수 있게 하는 장치이다. 사용자가 만든 주석지식에 의해 추가된 주석, 사용자의 검색 주석에 의해 추가된 주석 등을 주석일자 순으로 볼 수 있으며 오류가 있으면 수정하는 기능을 제공한다.
D.의미단위용어 기반 문서 작성기는 직접 의미단위용어로 문서 작성을 할 수도 있지만 개념적으로 자연어로 문서를 만들고 자연어를 이용하여 해당하는 의미단위용어를 찾아내 자연어에 주석하는 2단계 절차를 거쳐 의미단위용어 기반 문서를 만든다. 약칭은 문서 작성기이다.
D1.자연어 작성부는 기존의 자연어 기반 문서 작성기와 같다.
D2.의미단위용어 문서 주석부는 자연어로 작성된 문서를 의미단위용어로 주석을 하는 장치이다. 의미단위용어 사전의 도움만 받으면 주석 작업은 힘든 작업이지만 주석지식이 많이 누적된 상태에서 C3.지식 기반 주석부의 도움을 받으면 큰 어려움 없이 수행될 수 있다.
E.의미단위용어 기반 검색 시스템은 의미단위용어를 기반으로 수집된 문서들을 색인하고 검색하는 장치이다. 내부 장치로는 1)문서 수집기, 2) 색인기, 3) 검색 주석기 및 4) 검색기가 있다.
F.문서 수집기는 검색 대상이 되는 문서들을 수집하는 장치이다
G.의미단위용어 기반 색인기는 검색된 문서들로부터 의미단위용어 기반 색인을 만드는 장치이다. 약칭은 색인기이다
H.의미단위용어 기반 검색 주석기는 색인에 주석을 하기 위해 검색 기능과 주석기능이 합쳐진 기능을 수행하는 장치이다. 검색을 하여 찾아진 문서(들)에 들어 있는 특정 자연어 표현에 의미단위용어를 주석하는 장치이다. 약칭은 검색 주석기이다
H1.문서 검색 주석부(색인 주석)는 검색으로 찾아진 문서들 전부 또는 일부에 들어 있는 특정 자연어에 특정 의미단위용어를 주석하는 장치이다. 약칭은 문서 검색 주석부이다.
H2.단어 검색 주석부(색인 주석)는 표기하며 검색으로 찾아진 단어들 전부 또는 일부에 대해 특정 의미단위용어를 주석하는 장치이다. 약칭은 단어 검색 주석부이다.
I.의미단위용어 기반 검색기는 의미단위용어 기반으로 만들어진 색인을 대상으로 의미단위용어로 작성된 질의어로 검색을 수행하는 검색기이다. 약칭은 검색기이다
I1.문서 검색부는 기존 검색 시스템처럼 검색 결과가 문서 목록이다. 예를 들어 단어 검색 결과가 2문서 각 2 단어 총 4 단어이면 2개의 항목이 나열된다. 결과 항목들은 문서 처리의 대상이 될 수 있다.
I2.단어 검색부는 검색 결과가 단어 목록이다. 예를 들어 단어 검색 결과가 2문서 각 2 단어 총 4 단어이면 4개의 항목이 나열된다. 결과 항목들은 단어 처리의 대상이 될 수 있다.
I3.검색지식 관리부는 검색지식을 생성하고 관리하는 장치이다. 사용자는 검색 질의어가 의미가 있다고 판단되면 이를 검색지식으로 등록할 수 있다. 기존의 자연어 검색은 너무 정확률이 낮아 지식으로 계속 활용할 수 있는 가능성이 작았다. 반면에 의미단위용어 기반 검색은 정확률 100%를 추구하는 것이 가능하다. 낮은 정확률의 지식은 연산에 의해 오차율이 커지지만 의미단위용어 기반은 복합적으로 활용이 가능하다.
J.의미단위용어 기반 문서정보체계 구축기는 의미단위용어 기반 색인으로부터 의미단위용어 정보를 추출하여 문서정보체제 내의 문서들을 의미단위용어 기반으로 만들거나 주석지식을 이용하여 문서들을 의미단위용어 기반으로 변환하는 장치이다. 약칭은 문서정보체계 구축기이다.
J1.색인 기반 문서정보체계 구축부는 색인 정보를 이용하여 문서정보체제 내의 문서들을 의미단위용어 기반으로 만드는 장치이다.
J2.주석지식 기반 문서정보체계 구축부는 주석지식을 이용하여 문서정보체제 내의 문서들을 의미단위용어 기반으로 만드는 장치이다.
도 2는 2단계별 의미단위용어 기반 정보 체계를 보여준다. 자연어 문서정보체계를 의미단위용어 사전을 만들고 문서에 들어가서 하나하나 의미단위용어 주석을 하여 의미단위용어 기반 문서정보체계로 만드는 일은 아주 방대하고 불가능에 가까운 일이다. 이런 문제를 극복하기 위해 제안된 방법이 문서정보체계를 단어별로 정렬하고 단어 전체에 대한 주석을 하는 방식이다. 다행히 단어별로 정렬을 하는 장치는 존재한다. 이것이 검색 시스템이다. 검색 시스템에는 모든 검색 대상 문서의 내용들이 단어별로 정렬되어 있다. 제안된 방법은 문서정보체계를 의미단위용어 기반으로 바꾸는 대신에 검색 시스템의 색인을 의미단위용어 기반으로 만드는 것이다. 색인을 의미단위용어 기반으로 바꾸면 이것은 문서정보체계를 의미단위용어 기반으로 바꾼 것이나 마찬가지이다. 의미단위용어 기반 색인은 자연어 문서정보체계를 의미단위용어 기반 문서정보체계로 만들 수 있다. 제안된 1단계 의미단위용어 기반 정보 체계(02-04)는 자연어 문서정보체계(02-01)에 검색 시스템(02-02)을 도입하여 만들어진다. 검색 시스템의 색인에 의해 단어별로 정렬한 후에는 이 색인을 의미단위용어 기반으로 바꾸어야 한다. 이러한 역할을 하는 것이 1단계 의미단위용어 기반 정보 체계에 두 번째로 추가되는 의미단위용어 기반 장치 1 (02-03)이다. 의미단위용어 기반 장치 1은 의미단위용어 사전, 기본값 DB 및 주석지식 DB와 3개의 장치(의미단위용어 사전 관리기, 의미단위용어 주석기, 의미단위용어 기반 검색 주석기)이다. 이들 장치는 자연어 기반 색인을 의미단위용어 기반 색인으로 만든다.
1단계 의미단위용어 기반 정보 체계의 목적은 의미단위용어 사전을 만드는 것과 의미단위용어 기반 색인을 만드는 것이다. 1단계에서 의미단위용어 기반 색인과 사전은 완성되었다고 할 수 있지만 문서정보체계와 검색시스템 차원에서는 아직 자연어 기반에 머물러 있다. 또한 검색 시스템에 색인 되어 있는 기존 문서들이 아닌 신규문서의 관점에 있어서 1단계는 아무 역할도 없다. 2단계에서는 신규 문서들에 대한 의미단위용어 기반 처리 장치들이 추가되고 검색 장치들도 의미단위용어 기반으로 변경되고 문서정보체계도 의미단위용어 기반으로 바꾸기 위해 의미단위용어 기반 검색 시스템 장치(02-05)와 의미단위용어 기반 문서정보체계 구축기(02-06)가 추가된다.
이것으로써 기존문서/신규문서를 위한 의미단위용어 기반 문서정보체계가 완성되고 검색 시스템도 의미단위용어 기반으로 바뀌게 된다(02-07).
의미단위용어 기반 정보 체계의 핵심적인 장치들은 1단계 정보 체계에 들어 있다. 1단계가 성공하면 의미단위용어 기반 정보 체계 완성에 장애가 되는 것은 없다고 할 수 있다. 2단계는 수많은 사용자의 참여 하에 이루어지는 작업이 아니라 운영자/개발자들에 의해서 진행되는 작업이고 사용자는 단순히 결과를 이용하는 단계이기 때문이다.
도 3은 검색 시스템 중심의 의미단위용어 기반 정보 체계가 작동하는 순서도이다. 앞의 4단계(문서 작성 단계(03-01), 문서 수집 단계(03-02), 색인 단계 (03-03) 및 검색 단계(03-04))는 검색 시스템이 가지고 있는 대표적인 기능이며 자연어가 아닌 의미단위용어를 기반으로 하고 있다는 것이 특징이다. 처음부터 문서들이 의미단위용어 기반 문서로 작성된다면 자연어 기반 정보 체계처럼 똑같이 처리하면 되고 특별한 절차를 도입할 필요가 없다. 하지만 초기에는 의미단위용어 사전도 미비하기 때문에 문서 자체가 의미단위용어 기반으로 작성되기는 어렵다. 거의 다 자연어 문서로 수집되고 색인 되며 실제로 색인을 의미단위용어 기반으로 만드는 것은 다음 단계이며 앞의 4단계는 과거와 같이 자연어로 진행된다고 보는 것이 정확할 것이다. 이제부터가 실제로 의미단위용어 기반의 절차가 시작된다. 자연어로 검색을 하면 쉽게 해당 자연어의 많은 의미들이 드러나고 이 단계에서 의미단위용어의 필요성이 대두하고 의미단위용어를 생성하게 된다. 자연어 검색의 경우에는 이미 존재하는 단어들을 사용하지만 본 발명에서는 미리 생성되어 있는 용어를 사용하는 것이 아니기 때문에 필요한 경우마다 용어 생성을 하여야 한다. 용어를 생성하기 위해서는 자연어표현, 특정 의미에 대한 설명 등을 입력하고 용어 생성 요청을 한다. 의미단위용어 사전 관리기는 자연어 표현을 이용해서 용어를 생성하고 생성된 용어에 설명을 쌍으로 하여 해당 용어에 대한 사전 항목을 생성한다 (03-05).
이제 사용자는 단어별로 정렬되어 있는 색인을 대상으로 특정 자연어들을 의미별로 나누고 의미단위의 표시를 하여야 한다. 사용자는 특정 자연어의 특정 의미를 찾기 위한 질의어를 이용하여 검색하고 찾아진 문서에 들어있는 해당 자연어 표현에 해당 의미단위용어를 색인 상에서 주석을 한다(03-06). 기존의 자연어 색인은 자연어 필드에 문서위치와 문서 명이 색인 되지만 의미단위용어 기반 색인은 자연어/의미단위용어 필드에 문서위치와 문서 명이 색인 된다. 검색 주석만으로 색인을 의미단위용어 기반으로 만드는 작업은 진행될 수 있다. 하지만 여기에 좀 더 세련된 방법을 적용할 수 있다. 검색 지식을 한번 수행하고 잊어 버릴 것이 아니라 이 정보를 저장하면 다른 용도로 사용될 수 있다. 가장 대표적인 예가 신규 문서에 적용하는 것이다. 검색 시스템 색인은 새로운 문서들이 계속 추가되어 내용이 추가된다. 새로 색인에 포함된 문서들에 대해 또 사용자가 직접 정기적으로 검색 지식을 수행하는 것은 불편하다. 검색 주석에 사용되는 검색 질의어, 주석 대상 자연어 표현 및 주석이 될 의미단위용어는 저장하면 주석지식이 된다.
좋은 주석지식이 될 수 있는가 여부는 검색 질의어에 달려 있다. 검색을 한 후에 사용자가 목록에서 하나하나 선택을 하여야 한다면 주석지식으로 적합하지는 않은 경우이다(03-07). 주석지식으로 만들어지면 주석지식은 나중에 수행되어 기존의 검색 주석과 같은 작업을 수행한다. 주석지식은 이전에 수행한 검색 주석과는 다른 대상에 대해서 수행이 되는 것이 보통이다. 새로 만들어져 검색 시스템 색인에 포함된 신규문서들에 대해 정기적으로 수행될 수 있다. 주석지식은 시간과 주기를 정해서 에이전트 형태로 수행될 수 있다(03-08). 검색 주석과 지식 기반 주석이 반복되면 색인에 많은 의미단위용어 주석이 쌓이게 된다. 의미단위용어 기반 색인에서 문서별로 의미단위용어 주석 정보를 추출하여 각각 해당 문서에 적용하여 해당문서를 의미단위 용어 기반 문서로 만들어 문서정보체계를 의미단위용어 기반으로 만들며, 주석지식 및 기본값을 적용하여 문서정보체계를 의미단위용어 기반으로 만들 수 있다(03-09).
이러한 과정을 통해서 의미단위용어 사전이 완성되고 의미단위용어 기반 색인이 완성되고 의미단위용어 기반 문서정보체계가 완성된다.
도 4는 사전관리기를 중심으로 작성된 구성도이다.
B1.의미단위용어 생성부는 고유ID, 의미표현ID, 의미단위 GUID, 의미표현 GUID 네 가지 방식 중 하나를 선택하여 구현되며 동시에 여러 방식이 적용된다는 의미는 아니다.
B2.의미단위용어 관리부 의미는 7가지 기능(용어 수정, 용어 삭제, 용어 병합, 용어 분류, 용어별칭, 용어분할, 용어그룹)을 수행한다.
이 중 용어 병합은 2가지 의미단위용어가 의미가 같은 경우에 2가지 중 하나로 병합을 하던가 제3의 용어를 만들어 병합을 하는 용도로 사용된다. 용어 분류는 오바마를 “남자, “대통령”등으로 분류하는 것과 같은 작업이다. 분류는 꼭 용어 생성시에 입력할 필요가 없고 다수의 값을 지정할 수 있다.
용어별칭은 자주 사용하는 의미단위용어를 위해 만들면 좋다. 긴 의미단위용어는 사용자가 입력하기 불편하고 기억하기도 어렵기 때문에 용어별칭이 사용된다. 이 용어별칭은 실제 장치가 사용하기 전에 해당하는 의미단위용어로 번역된다.
용어분할 기능은 용어의 사용빈도가 높은 경우 용어를 세부적으로 나누어 주석하고 검색하는 기능이다. 의미단위용어는 검색하면 몇 개밖에 결과가 없는 경우와 수억 건인 경우가 있다. 수억 건이 찾아지는 경우는 용어분할을 사용할 대상이 된다.
용어그룹은 여러 개의 용어를 그룹으로 만들어 그룹으로 검색하면 그룹에 들어 있는 용어들의 각각의 검색 결과를 합친 내용을 보여준다.
B3.의미단위용어 사전 검색부는 사전 찾기 장치로서 보통 자연어를 입력하여 사전 찾기 기능을 호출하면 해당하는 의미단위용어들이 나열되고 그 중에 하나를 선택하게 된다. 한글을 입력하고 한자로 변환하는 기능과 유사하지만 한자 변환은 한자로 대체되나 사전 검색부는 대체하기보다는 자연어 뒤에 주석이 된다.
도 5는 의미단위용어를 생성하는 환경에 대한 비교이다. 보통 자연어로 문서의 작성을 하는 상황에서는 의미단위용어의 필요성을 느끼지는 못한다(05-01). 하지만 자연어로 검색을 하는 상황에서는 하나의 단어가 여러 의미를 갖는 경우를 흔하게 보게 된다. 원하지 않는 자료가 너무 많이 포함된 것을 알게 되고 검색의 정확률 문제가 자연어의 다양한 의미에 기인한다는 것을 알게 된다(05-02). 검색 시스템은 의미단위용어의 필요성을 느끼게 하면서 관련 정보도 알기 쉽게 보여주는 최고의 시스템이다. 검색 시스템을 이용하면 의미단위용어의 생성이 용이하고 색인의 의미단위용어 주석 수단을 만드는 것도 가능하다. 검색 시스템은 자연어 기반 정보체계를 의미기반으로 바꾸기 위한 최고의 도구이다.
도 6은 자연어가 얼마나 모호하고 왜 의미단위용어가 꼭 필요한 것인가를 보여준다. 도 6의 윗부분은 본 발명이 만들어지게 된 원인을 보여준다(06-01). 자연어는 다양한 의미가 있다. 이것은 일반 검색엔진들이 의미단위용어 기반으로 볼 때 낮은 정확률을 갖는 원인이 된다. 홍길동(가명, 발명자의 이름)의 경우에 정확률은 1/641이라고 할 수 있다. 무수히 많은 고유명사들이 일반명사, 동사 형용사 영역을 침범하여 단어의 의미를 불명확하게 한다.
도 6의 아랫부분은 자연어 표현의 각각의 의미에 대해 의미단위용어가 생성되는 것을 보여준다(06-02). 고유ID는 본 발명에서 사용되는 대표적인 의미단위용어이며 자연어 대표표현과 의미일련번호를 더해서 만들어진다. 고유ID는 의미마다 별도로 생성된다. 홍길동을 특정 SNS(Social Network Service)에서 찾아보면 동명이인이 641명이 있다. 홍길동_1에서 1은 의미 일련번호이다. 이후 새로운 홍길동이 발견되면 가장 큰 의미일련번호를 이용하여 홍길동_642가 된다. 자연어 대신 의미단위용어를 사용하면 홍길동의 경우 검색 정확률 1/641에서 100%가 된다.
도 7은 생성된 고유ID가 어떤 방식으로 사용되는 지를 보여준다. 생성된 의미단위용어는 기존 자연어를 대체하는 것이 아니라 추가된다. 자연어에 고유ID가 추가 된 형태를 "고유ID+"라고 한다. 고유ID+는 명확한 표현을 위한 고유ID 외에 사용자를 위해 자연어 표현도 포함된 개념이다.
도 8은 고유ID 사전의 개념적 구조이다. 고유ID 테이블에는 대표표현과 고유ID 값이 들어있고 해당 고유ID의 의미에 대한 1줄짜리 설명과 자세한 설명이 들어 있다. 한 줄짜리 설명은 많은 고유ID가 동시에 나열될 때 사용되며 설명은 해당 고유ID 하나만 볼 때 충분한 공간이 있는 상태에서 사용한다. 보통 자연어와 고유ID는 1대 다수의 관계이지만 하나의 실체에 대해 여러 가지 표현이 있을 수 있다. 이런 경우에 대표표현이 아닌 기타표현들은 기타 자연어 표현에 입력한다.
도 9는 의미단위 용어를 생성하는 것을 보여주는 순서도이다. 의미단위용어의 생성 대상은 지구 모든 언어의 모든 품사들이다. 인명 지명 등 모든 고유 명사도 포함되기 때문에 그 숫자는 적어도 100억 이상이 된다. 용어 생성 요청을 하기 전에 사용자는 사전 찾기를 통해 이미 같은 의미에 대한 용어가 존재하는지 확인하는 것이 보통이다. 사용하려는 자연어 표현과 자연어 표현이 동일하고 의미도 동일한 용어가 있으면 용어 생성의 필요성은 없다. 사전 찾기에서 원하는 의미의 용어를 찾았지만 자연어 대표표현이 다르고 기타 표현에도 원하는 자연어 표현이 없으면 의미단위용어 변경을 통해 기타 표현에 사용하려는 자연어 표현을 추가하고 해당의미단위용어를 사용하면 된다. 사전 찾기에서 원하는 의미를 가진 의미단위용어가 존재하고 자연어 표현이 같지는 않지만 기타 표현에 들어 있으면 해당 의미단위용어를 사용하면 된다. 의미단위용어를 생성할 필요가 있는 경우는 원하는 의미의 의미단위용어가 없는 경우이다.
용어를 생성하기 위해서는 자연어 표현과 해당 자연어 표현의 특정 의미에 대한 설명이 입력되어야 한다(09-01). 용어 생성 단계는 입력된 자연어 표현에 해당 자연어 표현의 의미 일련 번호를 연결하여 새로운 의미단위용어를 생성한다. 입력되는 자연어 표현을 특정 의미의 자연어 대표표현으로 한정하면 본 발명에서 정의한 의미단위용어인 고유ID가 생성된다(09-02). 용어가 생성되면 생성된 의미단위용어와 획득된 설명을 쌍으로 하여 의미단위용어 사전 항목을 생성한다(09-03).
도 10은 본 발명이 제시하는 4개의 의미단위용어와 기존의 대표적인 사전인 온톨로지 사전을 비교한다.
4개의 의미단위용어(고유ID, 의미표현ID, 의미단위 GUID, 의미표현 GUID)는 본 발명의 실시 예 들이다. 이들은 기존의 의미 기반 사전이라고 할 수 있는 온톨로지 사전에 비해 용어의 정의가 아주 쉽고 사용도 매우 쉽다고 할 수 있다. 따라서 전문지식을 갖지 않는 일반사용자들이 참여해서 관심 의미단위용어를 생성하고 이 용어를 이용하여 새로운 문서정보체계를 구축할 수 있다. 만약 예를 들어 AAA라는 자연어가 3가지 의미가 있다면 고유ID를 만들기 위해서는 AAA_1, AAA_2, AAA_3 3가지 용어를 만들고 각각에 대한 설명을 작성하는 노력이면 AAA라는 자연어에 대한 고유ID 사전 생성 작업은 완료된다. 4가지 의미단위용어의 모양은 다를 수 있지만 기본적으로 사용자가 필요한 지식이나 입력하여야 하는 정보는 비슷한 수준이다. 자연어 체계 속에서 만들어 지기 때문에 완전히 새로운 언어를 만드는 노력과 지식이 필요하지 않다.
세상에 AAA,BBB 2가지 자연어만 있고 각각이 2가지의 의미가 있다고 할 때 생각할 수 있는 의미단위 용어 생성 방법은
1. AAA_1, AAA_2, BBB_1, BBB_2 로 명명하는 것이 고유ID방식이며 시스템이 각 자연어 별로 의미 일련 번호를 유지하여야 한다.
2. word_1, word_2, word_3, word_4 와 같이 명명하였다면 전체 일련 번호를 유지하여야 한다.
3. 아주 큰 숫자를 4개 생성하는 GUID 방식이 있을 수 있으며 전체 일련 번호를 유지할 필요가 없다. 아주 큰 숫자이기 때문에 이름이 중복될 가능성이 없다는 점을 이용한 방식이다.
고유ID 방식은 자연어 별로 일련번호를 유지하고 사용하는 방식이다. 사용자의 읽고 기억하는 측면에서 가장 좋은 방식이다. 고유ID는 본 발명에서 제안하는 대표적인 의미단위용어이다. 자연어 표현을 의미단위로 분할하는 과정은 이해하기가 쉽다. 반면에 다양한 표현을 하나의 의미단위용어로 만드는 것은 자연어 대표표현이라는 개념이 도입되어야 하므로 일반 사용자에게 약간은 불편할 수 있다. 예를 들면 많은 뉴스에서 오바마 대통령이 Barack Obama로 표현되지만 Barack Hussein Obama, Barack Hussein Obama II, Barack, Obama 로 표현되는 경우들도 있다. 이런 각각의 표현에 대해 용어를 생성하면 의미표현ID가 된다. 의미표현ID는 의미단위용어는 아니기 때문에 의미단위용어가 되기 위해서는 의미단위로 병합하는 과정이 필요하다. 의미표현ID를 의미단위로 병합한 것을 의미병합ID라고 한다. 내용상으로 보면 의미병합ID는 고유ID에 해당하고 의미표현ID는 고유ID+에 해당한다. 고유ID방식과 의미표현ID방식을 비교하면 의미표현ID가 용어 생성 노력이 몇 배로 많이 소요된다. 의미단위가 아닌 표현 단위로 필요 없이 설명을 작성하여 용어 사전을 크게 하고 사용자를 불편하게 한다. 고유ID+는 별도의 용어 설명을 갖지 않는다는 것을 보면 고유ID 방식의 효율성을 확인할 수 있다.
고유ID는 용어의 수가 작아 용어 생성 노력이 제안된 의미단위용어 중에 가장 작고 기억하여 사용하기도 편하다는 점에서 가장 권장되는 의미단위용어 방식이다. 오바마 대통령의 경우 자연어 대표 표현은 Barack Obama이고 Barack Hussein Obama, Barack Hussein Obama II, Barack, Obama는 기타 표현이다. 생성되는 고유ID는 시스템이 보유한 해당 자연어 표현의 의미일련번호가 1이라고 가정하면 Barack_Obama_1이 된다. “Barack Hussein Obama”로 표현된 오바마 대통령은 [“Barack Hussein Obama”: barack_obama_1]이 된다. 대괄호로 둘러싸인 부분이 고유ID+이며 의미표현ID에 대응되는 개념이다.
본 발명의 고유ID는 다음과 같은 의미가 있다. 고유ID는 자연어의 불명확성 제거를 위해 탄생하였고 자연어의 다양한 의미 각각에 대해 용어가 생성되어 만들어 진다. 가장 대표적인 의미단위용어이며 다른 단어들과 혼동하게 하는 주범인 인명, 지명 등등 모든 고유명사 포함하여 의미단위로 분할한다. 모든 언어, 모든 품사를 포함하는 글로벌 세트 60억 인구 각각이 별도의 고유ID 항목이 되어야 하기 때문에 최소한 100억 이상의 방대한 규모이다. 자연어를 기반으로 누구나 쉽게 생성 가능하기 때문에 일반 사용자들에 의해 용어 생성 및 주석 작업이 가능하다. 고유ID는 풍부한 사전을 갖는 정밀한 언어이다. 새로운 용어가 실제 정착되고 힘을 갖기 위한 전제 조건은 모든 기존 문서를 고유ID로 주석할 수 있어야 한다. 주석 방법이 없으면 가치가 없다. 본 발명에서는 주석 방법이 제시되었다. 이렇게도 해석되고 저렇게도 해석되는 자연어가 검색엔진, 언어번역, 시맨틱 웹, 인공지능(AI), 분류의 기반이 될 수 없다. 결국 고유ID+가 검색엔진, 언어번역, 시맨틱 웹, AI, 분류의 기반이 될 것이다. 고유ID는 기존 자연어 표현에 없는 개념을 만드는 경우에도 자연어에 의존하는 생성방식을 유지한다. 새로운 개념을 위한 자연어 표현을 생성하고 생성된 자연어 표현에 근거하여 고유ID를 만든다. 본 발명에서는 의미단위용어에 대한 상세한 설명을 고유ID를 이용해서 설명한다. 의미표현ID나 의미단위 GUID의 실시가 고유ID의 실시와 크게 달라서 반드시 별도의 설명이 필요한 경우를 제외하고는 별도의 설명을 하지 않는다.
도 11은 의미단위용어를 직관적으로 분류하고 계층화하여 관리하는 방법을 보여준다. 의미단위용어의 분류는 분류의 대상이 의미단위용어라는 것을 의미한다. 의미단위용어가 소속하게 되는 분류명도 의미단위용어가 사용된다. 분류명은 자연어, 의미단위용어 및 자연어와 의미단위용어의 혼합된 형태가 사용 가능하다. 의미단위용어는 0 이상의 분류 명을 가질 수 있으며, 의미단위용어의 분류 명은 어느 때나 추가되거나 삭제될 수 있으며, 분류 명은 용어에서 사용하기 전에 미리 정의되어 있을 필요가 없으며, 용어 생성 또는 용어 변경 시에 기존에 없던 분류 명을 입력하면 새로운 분류 명이 자동으로 등록되며, 하나의 분류 명은 0이상의 분류에 소속되어 계층화하며, 용어의 분류 및 계층의 구조는 이견이 있는 경우 토론과 같은 집단지성을 통해 정밀화하는 직관적인 의미단위용어 분류 방법이다.
의미단위용어를 생성하거나 변경하는 과정에서 용어의 분류 필드에 분류명을 입력하면 해당용어는 해당 분류명에 속하게 된다(11-01). 용어 분류는 검색을 통해 대량으로 진행될 수 있다. 의미단위용어 사전을 검색하여 선택한 용어들을 특정의 분류에 소속하는 방식으로 진행된다(11-02). 분류는 계층적인 구조를 가질 수 있다. 계층적인 구조는 두 분류명을 선택하여 상하관계를 설정하여 만들어진다. 이러한 상하관계 설정은 반복되면 복잡한 계층 구조를 갖게 된다(11-03). 이렇게 설정된 의미단위용어 분류는 오류와 같은 변경 사항이 발견되면 변경될 수 있다 (11-04). 의미단위용어의 분류는 자연어가 변천 발달하는 것처럼 많은 사람의 참여 하에 진행된다. 의미단위용어의 분류가 많은 사람에 의해 발전하여 갈 수 있도록 토론 항목을 설정하고 토론하고 투표하는 절치가 제공된다(11-05).
도 12는 의미단위용어가 길고 기억하기 힘들 때 사용할 수 있는 용어별칭을 만들고 사용하는 의미단위용어 용어별칭 사용 방법을 보여준다. 용어별칭의 적용대상이 의미단위용어이며 용어별칭은 개인이나 특정 집단 또는 인터넷에 대하여 만들고 사용된다. 용어별칭은 적용 집단, 용어별칭, 의미단위용어 3가지 정보를 이용하여 작성이 된다(12-01). 특정 집단의 용어별칭을 사용하려면 해당집단의 용어별칭들을 개인의 용어별칭 목록에 수록하게 된다(12-02). 검색의 질의어나 문서 내에서 의미단위용어를 입력하는 상황에서 사용자가 용어별칭을 입력하면 실제 질의어가 수행되거나 문서가 저장되기 전에 이를 해당하는 의미단위용어로 번역하여 준다(12-03).
도 13은 의미단위용어 용어분할의 사용 예를 보여준다. 오바마 대통령에 대해 검색하면 너무 많은 양이 찾아진다. 이를 용어분할 단위로 세분하여 주석하고 검색할 수 있다. 그림의 예를 보면 오바마 대통령(13-01)을 대통령 시절, 상원의원 시절 및 기타에 대한 용어분할로 나누고(13-02) 각자를 또 2차 계층 용어분할 (13-03)로 나누고 있다. 검색을 통해 찾아진 문서 목록에 대해 특정 자연어 표현에 대해 용어분할 이름을 주석하면 나중에 해당 용어분할 명으로 검색이 가능하다. 상부의 의미단위용어나 용어분할로 검색하면 하부 용어분할의 내용은 자연히 포함된다. 용어분할은“의미단위용어/용어분할 명”형태에 의해 인식된다.
도 14는 의미단위용어를 세분할 필요가 있을 때 특정 의미단위용어를 용어분할(segment)로 나누어 관리하고 의미단위용어 용어분할을 이용하여 세분화된 의미단위용어처럼 주석하고 검색하는데 사용하는 방법을 보여준다.
분할하려는 의미단위용어와 용어분할 이름을 입력하고 용어분할 요청을 하면 의미단위용어 용어분할이 이루어 진다(14-01). 용어분할은 한 계층만이 아닌 여러 개의 층으로 이루어질 수 있다. 분할하려는 용어분할 이름을 입력하고 생성하려는 하위 용어분할 이름을 입력하면 하부 계층의 용어분할을 만들 수 있다(14-02). 용어분할이 생성된 다음에 이것을 이용하여 문서 또는 검색 시스템 색인에 주석을 하면(14-03) 검색질의어에 용어분할을 이용해서 검색할 수 있다(14-04).
도 15는 의미단위용어 용어그룹을 보여준다. 용어그룹을 정의하면 용어그룹 명을 이용해서 검색 질의어를 만들 수 있다. 그림의 예에서 질의어“2010대한고3학년1반_Grp"로 검색하면 “홍길동_1”로 찾은 결과와 “김길동_1”로 찾은 결과가 합쳐져서 목록을 보여준다. 용어그룹 명은 _Grp로 끝나는 형태에 의해 인식된다. 의미단위용어 용어그룹은 용어분할과 달리 문서나 검색 시스템 색인에 주석하기 위한 용도는 없다. 자연어에 비해 의미단위용어는 정밀한 언어이다. 의미단위언어는 계속 더 정밀화의 방향으로 발전할 수 있다. 따라서 의미단위용어로 검색을 하면 소수의 문서만이 검색될 수 있다. 적당한 크기로 개념 또는 검색 결과를 증가시키는 방법으로 그룹을 이용할 수 있다. 2010년 대한고 졸업생 관련 기사를 찾으려면 해당 졸업생 목록을 찾아야 하고 각각 검색을 하여야 한다. 이 용어그룹 기능은 2단계 작업을 편하게 한번에 수행할 수 있는 수단을 제공한다.
도 16은 의미단위용어 용어그룹을 만들고 이를 사용하는 방법을 보여준다. 그룹화 대상 의미단위용어 또는 그룹 목록, 생성할 그룹 명 및 그룹 설명을 입력하고 의미단위용어 용어그룹 생성 요청을 하면 입력된 항목들을 이용하여 용어그룹을 생성한다(16-01). 생성된 용어그룹은 검색 질의어에서 사용할 수 있다. 검색 질의어에 포함된 용어그룹은 의미단위용어 질의어로 변환되어 검색이 진행된다(16-02). 자연어는 의미가 불명확하기 때문에 검색에 있어서 지식을 누적시킬 수 있는 대상이 아니다. 다양하게 활용할수록 오차가 확대되기 때문이다. 의미단위용어는 정밀하고 검색 정확률을 100%에 근접시킬 수 있기 때문에 다양한 방법으로 활용이 가능하다.
도 17은 독립된 주석기(의미단위용어 주석기)를 중심으로 작성된 의미단위용어 기반 정보 체계를 보여준다. 의미단위용어 기반 정보 체계에는 문서 작성기, 검색 시스템 및 문서정보체계 구축부에도 주석을 위한 장치들이 들어 있다. 여기서는 독립적인 주석기에 대해 주로 설명하고 검색 시스템 내의 검색 주석기를 설명하는 부분에서 전체 주석기에 대해 종합적으로 설명이 된다. 의미단위용어 주석기는 모든 장치(문서 작성기, 검색 시스템, 체계 구축기)에게 주석 기능을 제공한다.
C.의미단위용어 주석기는 자연어 표현에 의미단위용어를 주석하기 위한 장치이며 C1.주석지식 관리부, C2.기본값 관리부, C3.지식 기반 주석부, C4.색인 기반 문서 주석부 및 C5.주석 관리부로 구성되어 있으며 의미단위용어 사전 관리기와 함께 사용된다.
C.의미단위용어 주석기를 독립적인 주석기라고 하는 것은 특정 장치에 종속되지 않고 사용될 수 있다는 의미이다. 검색 주석기는 강력한 주석장치이지만 검색기에 종속되어 있기 때문에 이 독립된 주석기에서 분리되어 있다. 독립된 주석기는 다른 장치들에 호출되어 다양한 방식으로 사용된다.
주석지식은 1)주석조건, 2)주석 대상 자연어 표현, 3)주석될 의미단위용어로 구성된다. 이 주석지식을 생성, 수정, 삭제하여 관리하는 것이 C1.주석지식 관리부이다.
C2.의미단위용어 기본값 관리부는 개인 또는 각 집단별로 기본값을 생성하고 관리한다. 기본값은 특정인이나 집단이 특정 자연어 표현에 대해 가장 많이 사용하는 의미단위용어를 말한다. 여러 집단의 기본값이 적용될 때 일반적으로 소속인원이 작은 집단의 기본값이 소속인원이 많은 집단보다 우선 적용되는 것이 보통이다. 이런 관점에서 개인의 기본값이 가장 우선이고 회사나 분야 같은 집단이 그 다음 우선순위를 차지하고 모든 사람이 소속한 인터넷이 가장 낮은 우선순위를 갖는다. 기본값을 사용하는 개인은 어떤 기본값들을 적용할 것인가를 결정하여 사용한다.
C3.지식 기반 주석부는 주석지식 및 기본값을 이용하여 자연어 표현에 의미단위용어를 주석하는 장치이다. 지식 기반 주석부는 문서, 색인 및 질의어를 대상으로 수행된다. 즉 자연어를 입력하는 모든 부분에서 주석을 위해 사용이 된다. 자연어를 입력하는 곳에서 호출하거나 정기적으로 수행되는 에이전트의 형태로 사용될 수 있다. 자동 주석의 형태로 수행될 수 있다.
주석지식이 충분히 누적되면 모든 주석을 자동으로 수행할 수 있는 장치이다. 지식기반 주석부는 수행될 때 주석지식과 기본값을 적용한다. 주석지식이 없는 상황에서 기본값을 적용하는가 않는가 여부는 설정에 의해 결정된다. 기본값은 가장 사용빈도가 높다는 의미이며 정확성이 기준 이상이라는 것을 의미하지는 않기 때문이다.
C4.색인 기반 문서 주석부는 색인에 있는 정보를 이용하여 문서를 의미단위용어 기반으로 바꾸는 장치이다. 색인에 있는 정보를 사용하기 위해서는 대상 문서가 이미 검색 시스템 색인에 포함된 문서이어야 한다. 문서가 의미단위용어 기반으로 만들어 저 있으면 색인의 해당 부분이 의미단위용어 기반으로 바꿀 수 있고 역으로 색인의 정보가 의미단위용어 기반화 되어 있으면 해당 문서를 의미단위용어 기반화 할 수 있다. 이 장치는 이미 존재하는 정보를 형태 변환하는 장치라고 할 수 있다.
C5.주석 관리부는 모든 주석을 보여주고 내용을 검토하여 주석 오류를 수정할 수 있게 하는 장치이다. 내 주석 관리부는 자신이 만든 주석지식에 의해 추가된 주석, 자신의 검색 주석에 의해 추가된 주석 등을 주석일자 순으로 볼 수 있으며 오류가 있으면 수정하는 기능을 제공한다.
도 18은 개인(발명자 홍길동)의 기본값의 예이다. 헤딩부분은 자연어이며 헤딩 아래의 내용은 해당 자연어의 다양한 의미(다양한 의미는 곧 고유ID를 의미)를 나타낸다. 채색된 고유ID는 특정인의 자연어에 대한 의미단위용어 기본값이다. 기본값은 자연어의 여러 가지 의미 중에 특정 값을 지정하고 있다. 그림에서 자연어 홍길동의 기본값은 홍길동_1(발명자 홍길동)으로 설정되어 있고 operation은 operation_3(운용)으로 설정되어 있고 눈은 눈_1(Eye)로 설정되어 있다. 기본값을 적용하는 설정이 되어 있으면 이 기본값 DB의 내용에 따라 사용자가 위의 자연어를 입력하면 시스템은 자동으로 기본값인 해당 고유ID값을 주석해 준다.
도 19는 특정 사용자에 해당하는 기본값들의 예이다. 인터넷 차원의 기본값, 각 집단(분야)의 기본값 및 개인의 기본값이 있을 수 있다. 이들의 우선순위는 개인>소속 집단>인터넷이다. 보통 인터넷 전체에 대한 기본값이 가장 우선순위가 낮으며 소집단일수록 높은 우선순위를 갖는 것이 일반적이다. 따라서 개인의 기본값이 가장 높은 우선순위를 갖는다. 자기가 소속한 집단들의 수와 우선순위는 각 사용자가 결정하거나 시스템에서 설정할 수 있다. 문서를 작성하면서 문서 분야를 미리 설정하면 해당 분야의 기본값이 적용된다. 일반적으로는 우선순위가 높은 것일수록 일부의 자연어에 대해 기본값을 갖고 우선순위가 낮을수록 많은 자연어에 대한 기본값을 갖는 것이 일반적이다. 인터넷은 전체 자연어에 대해 기본값을 갖는다.
특정 자연어의 기본값이 모두 존재하면 최종 기본값은 가장 우선순위가 높은 개인의 기본값이 된다. 가장 낮은 인터넷의 기본값이 최종 기본값이 되려면 다른 집단의 기본값이 모두 존재하지 않아야 한다. 위의 그림에서 자연어 홍길동의 경우 여러 집단의 기본값이 존재하지만 가장 우선순위가 높은 개인 기본값이 종합적인 기본값이 된다. 자연어 operation의 경우 소속 집단과 인터넷의 기본값이 존재하는데 소속 집단의 우선순위가 높아서 소속 집단의 기본값이 최종 기본값이 되었다. 자연어 눈의 경우는 인터넷만 기본값이 존재해 최종 기본값이 되었다.
도 20은 자연어 표현에 대한 의미단위용어 기본값 결정 절차를 보여준다. 먼저 각 집단의 기본값을 결정하고 기본값의 적용 대상에 포함되는 집단들의 우선 순위를 결정하는 순서로 진행된다. 각 집단은 자연어 표현 별 의미단위용어의 사용빈도를 기록하고 가장 높은 사용빈도를 갖는 의미단위용어를 해당 자연어 표현의 의미단위용어 기본값으로 정한다(20-01). 검색 질의어 작성 중이거나 문서의 소유자가 지정되어 있어 개인이 알려져 있는 경우 특정 자연어 표현에 대한 의미단위용어를 개인의 기본값으로 적용한다(20-02). 개인 기본값 적용단계에서 해당하는 기본값이 존재하지 않고 문서의 소속집단(분야)이 지정되어 있는 경우 해당 자연어 표현에 대한 의미단위용어를 해당 집단의 기본값으로 적용하며 해당 집단이 한 개 이상인 경우 소속원 수가 작은 집단에 우선권을 적용한다(20-03). 집단 기본값 적용단계에서 해당하는 기본값이 존재하지 않는 경우 해당 자연어 표현에 대한 의미단위용어를 인터넷의 기본값으로 적용한다(20-04).
도 21은 주석지식 테이블의 개념적 구조를 보여준다. 보통 주석지식의 3가지 요소 중 첫 번째인 주석조건은 여기서 검색 질의어를 말한다. 이 주석지식을 설명하면 다음과 같다.
이 주석지식이 검색엔진에서 수행되면 검색 주석과 같은 역할을 한다. 검색 엔진에서 “President Obama”로 검색하고 찾아진 문서들에 대해 Obama에 고유ID barack_obama_1 를 색인 상에서 주석한다. 이 주석지식이 문서상에서 수행되면 문서 내에서 “President Obama”를 찾아 Obama를 Obama:barack_obama_1 로 변환한다.
도 22는 하나의 자연어에 여러 가지 주석지식이 적용되는 상황을 설명한다. 많은 주석지식의 적용 결과가 다를 수 있다. 이런 경우 더 상세한 정보가 적용된다. 어느 것이 더 상세한가 여부는 검색 결과 건수가 작은 것이 상세한 주석지식이다.“Barack Hussein Obama I”이 검색하면 가장 작은 건수를 갖는다. 하나의 자연어 표현에 적용할 수 있는 주석지식이 여러 개일 때 적용 우선 순위는 지정할 수 있다. 검색 질의어는 자연어뿐이 아니라 고유ID+, 대상 사이트, 분야, 기간 등등 고급 검색에서 사용되는 많은 정보가 포함될 수 있다.
도 23은 주석지식을 검색을 통해 검증하고 주석지식으로 등록하는 주석지식 생성 절차를 보여준다. 자연어/의미단위용어 표현, 연산자, 기간, 사이트, 분야, 카테고리 등 검색 질의어 문법이 허용하는 문구를 이용하는 검색 질의어를 획득하여 검색을 수행한다(23-01). 검색 결과를 보여주고 사용자 검토 이후에 검증을 거친 검색 질의어, 주석 대상 자연어 표현, 주석하려는 의미단위용어 및 주석지식에 대한 설명과 함께 주석지식 생성 요청을 받는다(23-02). 검증을 거친 검색 질의어, 주석 대상 자연어 표현, 주석하려는 의미단위용어를 내용으로 하는 주석지식과 주석지식ID를 생성하고 주석지식, 주석지식ID 및 설명을 합하여 주석지식 항목을 생성한다(23-03).
도 24는 지식 기반 주석부가 주석지식과 기본값을 적용하는 순서를 보여준다. 주석지식은 지식기반 주석부가 수행될 때 반드시 적용되는 정보이며 기본값은 적용하라는 설정이 있는 경우에만 적용된다. 기본값은 주석지식에 비해 부정확한 정보이다. 따라서 지식 기반 주석부가 수행이 될 때 주석이 없는 상태로 놔두는가 기본값을 적용하는가 여부는 설정에 의해 결정된다. 기본값을 적용하는 경우에 적용순서는 주석지식>개인 기본값>집단 기본값>인터넷 기본값 순이다. 우선 순위가 높은 의미단위용어가 있으면 그것이 해당 자연어의 의미단위용어 주석에 사용된다. 없으면 다음 순위의 의미단위용어를 사용한다. 주석처리에 사용되는 의미단위용어가 정확하지 않으면 사용자가 이를 수정하여야 한다.
도 25는 문서나 질의어를 대상으로 지식 기반 주석부가 수행되어 주석을 하는 절차를 보여준다. 색인을 대상으로 하는 작업은 검색 시스템의 도움을 받아 처리를 하지만 문서나 질의어의 경우에는 검색 시스템이 개입되는 작업이 아니다. 따라서 그 절차는 아주 상이하다. 먼저 주석을 하려는 자연어 표현을 선택하여 지식 기반 주석 요청을 한다(25-01). 해당 자연어 표현에 대한 주석지식 DB를 검색하여 적용할 주석지식을 찾는다(25-02). 검색된 주석지식을 자연어 표현에 적용한다 (25-03). 주석지식이 없고 기본값 적용 설정이 되어 있는 경우 의미단위용어 기본값을 적용한다(25-04).
도 25는 문서 전체를 주석하는 절차가 아니며 문서 내의 특정 자연어 표현을 주석하는 절차이다. 이 절차는 문서 전체 주석 장치에 의해 호출될 수도 있고 사람이 특정 자연어를 선택한 후 주석 요청을 하여 호출될 수 있다. 주석지식은 기본적으로 검색 시스템 질의어에서 생성되는 것이 일반적이다. 따라서 모든 주석지식이 자연어 표현의 주석에 사용될 수 있는 것은 아니다. 주석지식은 검색 시스템이 없는 상태에서 적용 가능한가 여부를 검사하는 기능에 의해 표시되기 때문에 적용성 여부는 미리 확인이 가능하다. 해당하는 주석지식이 하나가 아니라 다수인 경우 어느 것을 먼저 수행하는가 하는 문제는 주석지식 자체가 정보를 보유한다. 일반적으로 우선순위는 검색을 수행하면 결과 건수가 작은 것이 정밀하다고 판단하여 우선 순위를 갖는다.
도 26은 색인을 대상으로 주석지식을 수행하는 절차를 보여준다. 일반적으로 주석지식은 검색주석을 수행하고 검색주석 내용을 저장한 것이 주석지식이다. 따라서 주석지식은 수행하면 이전의 검색 주석에서 수행한 것과 중복된 작업이 수행된다. 하지만 검색 시스템 색인은 항상 변화한다. 신규문서들이 추가되는 것이 가장 큰 원인이다. 사람이 신규 문서들이 추가될 때마다 검색 주석을 수행하는 것은 매우 불편하다 하지만 검색 주석 당시의 내용을 저장해 놓으면 정기적으로 자동 수행되도록 할 수 있다. 주석지식을 수행할 때는 재상이나 적용 기간을 바꾸기 위해 이전 주석지식의 내용을 일부 수정하여 수행할 수 있다.
주석지식ID와 변경요소를 입력하여 색인을 대상으로 하는 주석지식 수행 요청을 한다(26-01).요청된 주석지식은 수행하기 전에 변경요소들을 반영하기 위해 수정이 된다(26-02).변형된 주석지식을 수행하여 해당하는 색인항목을 찾아낸다 (26-03).찾아낸 색인항목에 주석지식에 포함된 의미단위용어를 주석한다(26-04).
도 27은 색인 기반 문서 주석부가 색인 정보만을 이용하여 문서 주석을 하는 것을 보여준다.
보통 검색 주석기나 주석기는 색인에 의미 정보를 누적하는 데 반해서 색인 기반 문서 주석부는 색인에서 정보를 추출하여 주로 자연어 문서에 적용하는 용도로 사용된다. 의미단위용어 색인기와 역방향 작업을 하는 장치이다. 문서에 의미단위용어 주석을 하기 위해서는 일반적으로 주석지식과 기본값을 사용하는 지식 기반 주석부가 사용된다. 반면에 색인 기반 문서 주석부는 주석지식이 아닌 색인에 누적된 정보를 이용한다. 의미단위용어 기반 색인에는 검색 주석기 또는 주석기에 의해 의미단위용어 주석이 누적된다. 색인에 저장된 정보는 주석지식에서 얻을 수 있는 정보보다 많을 수 있다. 검색 주석으로 의미단위용어 주석을 하고 주석 내용을 주석지식으로 생성하지 않으면 색인의 의미정보가 주석지식의 정보보다 많은 것은 당연하다. 반면에 색인 정보는 신규문서에는 전혀 적용할 수 없다. 따라서 색인의 의미 관련 정보와 주석지식의 의미정보는 각기 다른 특성이 있다. 색인 기반 문서 주석부는 색인 기반 문서정보체계 구축부가 호출하여 주로 사용하는 장치이며 문서 작성기가 호출하여 사용할 수도 있다.
도 28은 검색 시스템에 색인이 되어 있는 문서 내의 특정 자연어 표현에 의미단위용어를 주석하는 절차를 보여준다. 문서는 색인에 포함되어 있지만 문서 내 특정 자연어에 대한 의미단위용어 주석이 꼭 되어 있지는 않다. 이 그림은 검색 시스템 색인의 정보, 주석지식 및 기본값과 같이 이용할 수 있는 모든 정보를 이용하여 특정 자연어 표현에 의미단위용어를 주석하는 절차를 보여준다. 색인에 포함된 문서의 경우 가장 풍부하고 정확한 정보는 색인에서 얻는 주석 정보이다.
색인에서 해당 문서 내의 해당 자연어 표현에 대한 정보를 추출하여 의미단위용어 주석을 한다(28-01). 색인에서 정보를 얻지 못하면 주석지식 DB를 검색하여 해당 자연어 표현에 대한 주석지식을 찾아내고 이를 적용하여 해당 자연어 표현에 의미단위용어를 주석한다(28-02). 주석지식에 해당하는 정보가 없고 기본값 설정이 되어 있는 경우 해당 자연어 표현에 대한 의미단위용어 기본값을 적용한다(28-03).
도 29는 의미단위용어(고유ID+) 기반 정보체계의 규모를 보여준다. 자연어의 불명확성을 증가시키는 주요 원인은 고유명사이다. 모든 고유명사를 포함한 자연어가 반드시 유일한 의미단위용어를 가져야 언어가 가지는 불명확성을 제거할 수 있다. 전세계의 현존하는 인구 수가 60억인 것을 고려하면 어느 정도 정착되는 시기의 의미단위용어 수는 고유 명사만 고려한 상태에서도 최소한 100억 이상이 될 것이다. 문서정보체계의 현재 최대 검색 시스템의 규모를 생각하면 오래지 않은 미래에 EXA Byte 단위가 될 것으로 생각된다. 기본값은 최소 자연어 하나당 한 개의 기본값이 존재하여야 하며 주석지식도 자연어 1개 당 하나의 복합 주석지식이 필요하다. 이러한 방대한 구축 규모는 인터넷을 의미단위용어로 바꾸는 작업이 소수의 전문가에 의해 진행될 수 없는 작업임을 나타낸다. 인터넷을 의미단위용어 기반으로 만드는 작업은 자연어처럼 모든 인터넷 사용자가 참여하고 같이 변화되어 가는 집단 지성에 의존하는 방식일 수밖에 없다는 것을 알려준다. 본 발명은 사용자가 쉽게 참여할 수 있는 구조로 되어 있다.
도 30은 의미단위용어(고유ID+) 기반 정보체계를 구축하는 여러 가지 접근 방식을 보여준다. 접근 방법에 따라서는 인터넷의 의미단위용어 기반화가 가능할 수도 있고 불가능할 수도 있다. 개인 단위로 분해하여 개인들이 인터넷을 분해하여 자신이 필요한 만큼의 작업을 하도록 만드는 것이 체계 구축의 유일한 방법이다. 하지만 개인 차원으로 작업을 할 때에도 개인에게 불균등하게 많은 부담이 주어지는 방식은 안 된다. 체계 구축 초기에 개인이 자신이 만든 문서의 전체단어를 주석하게 하면 정상적인 진행이 되기 어렵다. 하나의 문서에는 많은 단어들이 사용된다. 전체 주석 건수와 무관하게 많은 단어들을 처리하려면 많은 노력이 들어간다. 사실상 주석건수와 개인의 노력이 비례하는 것이 아니라 사용 고유ID 수에 비례하여 노력이 들어간다. 문서 단위의 주석은 많은 고유ID를 사용한다는 문제점과 주석작업의 혜택이 자신에게 돌아가지 않는다는 문제점이 있다. 자신이 작성한 문서는 자신이 잘 아는 내용이므로 의미 혼동의 문제 없고 따라서 의미를 명확히 하는 작업에서 본인이 혜택을 받지는 않는다. 개인별 고유ID별 구축 방식은 전체 구축의 부담이 개인차원으로 분배되고 균등하게 분배된다는 장점을 갖는다. 자신이 구축작업이 본인에게 혜택이 돌아간다. 자신의 관심 키워드, 자신의 관심 의미에 대한 주석 작업이기 때문이다. 검색을 통한 고유ID 단위 주석 작업은 개인의 문서 전체단어에 대한 주석 방식보다 수천만 배 효율적인 경우들도 있다.
도 31은 문서 단위 주석과 검색 주석 방식 예를 들어 생산성을 비교하였다. 위의 예에서 고유ID 단위 주석 방식이 문서단위 주석방식보다 23,000,000배 높은 생산성을 가진다. 정보체계 전체에 대한 주석 요구량은 일정하다. 따라서 주석 생산성이 새로운 체계 구축의 가장 중요한 척도이다. 고유ID 단위 주석이 새로운 체계의 구축을 가능하게 하는 핵심장치이다. 보통 이것은 에이전트로 생성되어 새로운 문서들에 대해 정기적으로 수행된다.
도 32는 수작업 주석 방식 문서 작성기와 자동 주석 방식 문서 작성기를 보여준다.
문서 작성기는 기본적으로 의미단위용어 사전 관리기만 있으면 의미단위용어 기반 문서를 작성할 수 있다. 자연어로 문서를 작성하고 의미단위용어 사전 찾기를 수행하여 각 의미단위용어에 대한 설명을 참조하여 원하는 의미단위용어를 선택하면 된다. 하지만 수작업 방식 문서 작성기기 실제 사용될 가능성은 작다. 문서 작성자는 자연어에서 의미혼동을 겪는 당사자가 아니기 때문이며 수작업 주석 작업이 불편한 방식이기 때문이다(32-01). 문서 작성기는 충분한 주석지식이 누적된 시기부터 자동주석 방식으로 의미단위용어 주석이 되고 문서 작성자는 주석 내용을 검토하고 일부 수정하는 역할을 하게 될 것이다. 자동 주석 방식에서 자연어로 작성된 문서는 주석지식과 기본값을 이용해 자동 주석이 된다. 자동 주석이 된 후 문서 작성기는 주석된 의미단위용어에 대한 사전 설명을 보여주고 어느 주석지식 또는 기본값에 의해 주석이 되었는지 보여준다(32-02).
도 33은 지식 기반 주석부의 자동 주석 기능의 도움을 받아 의미단위용어 기반 문서를 작성하는 절차를 보여준다.
먼저 자연어로 문서를 작성한다. 주석지식은 하나의 단어만 입력한 상태에서 주석을 도와주는 장치는 아니다. 기본값은 하나의 단어만 있는 상태에서도 권장하는 의미단위용어를 제시할 수 있지만 정확률이 높은 주석지식 활용을 방해하므로 자연어 문서를 완상한 후에 주석을 시작하는 것이 정상적인 방법이다(33-01). 자동 주석 기능을 호출하여 자연어 문장에 주석기의 주석지식과 의미단위용어 기본값을 적용하여 개별 자연어 표현마다 의미단위용어를 주석한다(33-02). 자동 주석 기능이 작성한 주석에 오류가 있으면 해당 부분을 선택하고 변경요청을 하여 수정 절차를 시작하면 해당 자연어에 대한 사전 찾기를 통해 해당 자연어에 대한 의미단위용어 목록을 보여준다(33-03). 사용자가 목록에서 해당하는 의미단위용어를 선택하면 선택한 용어로 주석을 변경한다(33-04). 만약 의미단위용어 목록에서 해당하는 용어가 없으면 용어를 생성한 후에 생성한 용어로 주석을 변경한다(33-05).
도 34는 도 1에서 검색 시스템만 중점적으로 보여주고 다른 부분은 단순화시킨 그림이다. J.의미단위용어 기반 문서정보체계 구축기는 검색 시스템의 결과만을 이용하는 장치이라서 검색 시스템의 성능과 별 관련이 없어서 여기서는 삭제하였다. 이 그림의 구성은 의미단위용어 기반 색인의 내용을 채워주는 모든 주석 장치가 포함되어 있다.
도 35는 색인 상에서 주석을 도와주는 장치가 없다. 따라서 색인 상의 모든 의미단위용어 정보는 의미단위용어 기반 문서로부터 얻어야 한다. 따라서 수집되는 문서 자체가 완전한 의미단위용어 기반 문서이어야 한다. 사용자들이 자연어가 아닌 의미단위용어를 일상생활에서 쓰는 수준이 되어야 이 구성도가 작동 가능할 정도로 실제 잘 작동되기는 어려운 구성도이다.
도 36은 기본적인 의미 기반 검색 시스템에 의미단위용어 기반 검색 주석기가 추가되어 있는 구성도이다. 주석에 도움을 주는 장치 중에 주석기만이 누락되어 있는 상태이다. 주석기가 가지고 있는 주석지식을 반복 수행해주는 기능을 사용하지 못한다는 문제점을 제외하면 검색 시스템 관점에서는 완성되어 있다고 할 수 있다. 에이전트처럼 새로 색인에 추가되는 신규문서들에 대해 과거 수행되었던 검색 주석 내용을 반복 수행하지 못하면 사람의 검색 주석 반복 수행 불편이 크다고 할 수 있다. 따라서 의미단위용어 주석이 불완전해 질 가능성이 있다. 이러한 기능이 검색 주석기 자체에 포함된다면 검색 시스템 측면에서는 완성되었다고 할 수 있다. 하지만 검색 시스템을 넘어서 검색 주석지식을 활용하는 구조가 없다는 것은 완전한 의미단위용어 기반 정보 체계를 만드는데 큰 장애가 될 수 있다.
도 37은 검색 시스템 자체에 검색 주석기가 없지만 외부에 의미단위용어 주석기가 존재하고 있다. 이 구성은 의미단위용어 주석기가 얼마나 완벽한가에 전체 검색 시스템의 성능이 좌우된다. 검색 주석기에 의해 검증된 내용들이 주석지식이 되고 주석지식의 완성 여부가 의미단위용어 주석기 성능의 핵심요소라는 점에서 의미단위용어 주석기도 한계를 가질 수 있다. 이 구성에 있어서는 주석기가 일정부분 검색 주석기의 기능을 포함하여야 정상적으로 작동된다고 할 수 있다.
도 38은 메타 방식의 검색 시스템이다. 자체적인 문서 수집기와 색인기가 없다. 따라서 외부 검색 엔진에서 검색을 하여 주석을 한 후 자체 의미단위용어 기반 색인에 기록한다. 이 방식은 초기에 쉽게 시스템을 만들 수 있다는 장점이 있으나 반면에 심각한 제약도 있다. 예를 들어 “President Obama”로 검색되는 문서 중에서 Obama에 주석이 되어 있지 않은 단어를 골라 barack_obama_1을 주석하라는 검색 주석 명령은 외부 시스템에서 받아야 하는 자료가 1억 건에 가깝다. 이미 99%가 주석이 되어 있는 상황이면 1%만 가져와서 처리하면 되지만 100%를 다 받아와서 처리하여야 하는 큰 문제점이 있다. 또한 외부 검색 시스템과 협조가 잘 되는가 하는 문제점도 크다.
도 39는 기본적인 기능만을 갖는 의미단위용어 기반 검색 시스템의 작동 방법을 보여준다. 이 방법은 기본 기능만 가지고 있어 색인의 의미단위용어 정보가 의미단위용어 기반 문서로부터 얻어진다. 이 외에는 색인의 의미단위용어 정보를 추가시켜주는 수단을 제공하지 않는다. 검색 시스템은 검색 대상에 포함되는 문서들을 수집하며 수집되는 문서들이 의미단위용어 정보를 충분히 포함하고 있는지 여부가 검색 시스템의 의미단위용어 기반화 수준을 결정한다(39-01). 수집된 문서들을 자연어와 의미단위용어에 대해 색인을 한다(39-02). 색인에 저장된 자연어 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색한다(39-03).
도 40은 수집된 문서와 검색 주석으로부터 의미단위용어 정보가 얻어지는 의미단위용어 기반 검색 시스템의 작동 방법을 보여준다.
검색 시스템은 검색 대상에 포함되는 문서들을 수집한다(40-01). 수집된 문서들을 자연어와 의미단위용어에 대해 색인을 한다(40-02). 주석 대상을 찾기 위한 질의어, 주석 대상 자연어 표현 및 주석될 의미단위용어와 함께 검색 주석 요청을 받아 해당 질의어로 검색한 결과에 포함된 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석한다(40-03). 색인에 저장된 자연어 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색한다(40-04).
도 41은 수집된 문서와 주석지식으로부터 의미단위용어 정보가 얻어지는 의미단위용어 기반 검색 시스템의 작동방법을 보여준다.
검색 시스템은 검색 대상에 포함되는 문서들을 수집한다(41-01). 수집된 문서들을 자연어와 의미단위용어에 대해 색인을 한다(41-02). 특정 조건에서 특정 자연어 표현이 어떤 의미가 있다는 정보를 갖고 있는 주석지식을 이용하여 자연어 표현에 의미단위용어를 주석한다(41-03). 색인에 저장된 자연어 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색한다 (41-04).
도 42는 색인기를 중심으로 작성된 구성도이다. 색인기 이외의 부분은 단순화되어있다.
색인기는 수집된 문서들로부터 색인을 만드는 일을 담당한다. 의미단위용어 기반 색인은 색인에 의미단위용어 필드가 추가되었다. 의미단위용어 기반 문서에 들어있는 의미단위용어 주석은 추가된 필드에 기록이 된다. 검색 주석기도 이 필드에 의미단위용어를 기록하는 작업이다. 색인기가 이 부분을 채우지 못하면 검색 주석기 또는 주석기가 이 부분을 채움으로써 의미단위용어 기반화 한다. 자연어가 의미가 하나인 경우는 반드시 주석을 할 필요가 없다. 자연어 자체가 의미단위용어의 역할도 같이 할 수 있다.
도 43은 고유ID+ 색인의 개념적 구조를 보여준다. 이 그림은“홍길동”으로 검색하여 찾은 특정 문서(43-02)의 2번째 홍길동에 대한 색인(43-01)이다. 그림 좌측 표의 자연어 표현 필드와 고유ID 필드 2개 필드 값이 합쳐지면 고유ID+ 값을 형성한다. 결국 이 색인은 고유ID+ 값에 대한 문서 위치 색인이다.
도 44는 색인 상에서 고유ID 방식과 의미표현ID 방식이 어떻게 처리되는지 보여준다. 오른편 문서는 “길동” 검색어로 찾은 특정 문서(44-02)이며 왼편 표는 길동에 대한 색인(44-01)이다. 2번째 필드인 의미단위용어 필드에 들어가는 값이 왼편 아래 표에 나와있다(44-03). 문장에서 같은 인물인 홍길동이 홍길동과 길동 두 가지로 표현되었다. 이 경우 고유ID는 두 가지 표현에 같은 ID를 사용하고 의미표현ID는 다른 ID가 사용된다.
도 45는 의미단위용어 기반 색인 방법을 보여준다. 색인 장치는 수집된 문서에 포함된 각 단어에 대해 의미단위용어 필드를 공란으로 하여 검색 시스템 색인을 만든다(45-01). 해당 단어에 의미단위용어 주석이 되어 있는 경우 해당 단어 색인 항목의 의미단위용어 필드에 해당 의미단위용어를 기록한다(45-02).
도 46은 여러 장치에 속해 있는 모든 주석 장치들을 보여준다. 앞의 의미단위용어 주석기 부분에서는 독립적인 주석기 부분에 대해 설명이 되었지만 여기서는 모든 주석기 장치들에 대해서 설명한다. 도 46는 도 1과 다른 부분이 있다. 검색 주석기(46-01)와 검색기(46-02)에 의미단위용어 질의어 주석부가 포함되어 있다. 검색을 위해서는 질의어가 작성되어야 하고 질의어도 의미단위용어 주석의 대상이다. 질의어는 극히 짧은 문장이기 때문에 주석 측면에서 중요도는 낮다. 보통 문서 주석의 일 부분으로서 취급된다. 검색 주석기의 경우 검색 후에 주석을 한다. 검색 주석기의 검색 부분은 검색기와 거의 같은 기능을 사용한다. 따라서 검색 주석기에도 질의어가 사용되며 검색 주석기의 질의어도 검색기의 질의어처럼 의미단위용어 주석의 대상이다.
주석 장치의 이름에는 문서라는 말이 많이 들어간다. 문서는 여러 가지 의미가 있으면 이를 정확히 이해하여야 한다. 문서는 때로는 “문서 검색 주석”의 의미로 사용된다. 이때는 반대 개념이 “단어 검색 주석”이다. 문서는 주석의 대상을 의미하기도 한다. 문서에 주석을 기록하는 의미에 대해 반대 개념은 색인에 대한 기록이다. 의미단위용어 문서 주석부의 문서는 주석 대상이 색인이 아니라 문서라는 것을 의미한다. 문서 검색 주석부의 문서는 문서 단위 기록을 한다는 의미이다. 모든 검색 주석의 대상은 색인이다.
도 47은 도 46에 대한 설명의 일부로서 의미단위용어 기반 정보 체계의 근간을 이루는 주석 장치들에 대해 간단히 설명한다.
의미단위용어 기반 정보 체계에서는 자연어 정보를 의미단위용어 기반으로 만드는 것이 핵심적인 작업이며 자연어에 의미단위용어를 덧붙이는 기능을 간단히 주석기능이라고 부른다. 주석 대상은 주석을 하는 곳을 말한다. 문서 주석, 색인 주석, 검색 질의어 주석으로 구분된다(47-01). 대상 문서는 이미 검색 시스템에 색인이 되어 검색 시스템의 기능을 이용해서 주석을 하는가 아니면 검색 시스템을 이용하지 않는 주석 방법인가를 나타낸다. 신규 문서는 색인에 포함되지 못해 검색 시스템과 무관하게 처리된다는 의미이다(47-02). 검색 주석이 나뉘는 것은 기존 검색 결과가 문서로 나열되기 때문에 발생하는 현상이다. 어느 문서의 어느 위치의 단어의 의미를 설명할 수 있어야 하는데 어느 문서의 어느 단어의 의미가 무엇이다라고 주석하는 불완전한 방식이 문서 검색 주석이다. 단어 검색 주석이 더 정밀한 방식이다(47-03). 여기서 C4.색인 기반 문서 주석부, J1.색인 기반 문서정보체계 구축부 및 J2.주석지식 기반 문서정보체계 구축부는 1단계 의미단위용어 기반 정보 체계가 이미 완성된 이후에 2차적으로 수행되는 기능이기 때문에 초기에 중요성을 갖지 못한다(47-04).
문서정보체계와 색인은 어느 하나가 의미단위용어 기반화 되면 다른 것도 색인기 또는 구축기를 통해 다른 것도 쉽게 의미단위용어 기반화 할 수 있다. 먼저 의미단위용어 기반화 되어야 할 것은 문서정보체계가 아니라 색인이다. 색인의 의미단위용어 기반화가 훨씬 용이하기 때문이다. D2.의미단위용어 문서 주석부는 2차적 장치는 아니지만 색인에 대해 주석을 하는 장치가 아니라는 점에서 초기에 크게 중요성을 갖지 못한다. 의미단위용어 질의어 주석부는 주석의 양이 극히 작기 때문에 중요성이 크지 않다. 결국 C3.지식 기반 주석부, H1.문서 검색 주석부 및 H2.단어 검색 주석부가 초기의 중요 장치이다(47-05).
도 48은 문서 주석, 색인 주석 및 검색 질의어 주석이 실제로 적용되는 예를 보여준다. 색인 주석은 단어 검색 주석 방법이 적용되었다.
도 49는 단어 검색 주석과 문서 검색 주석의 차이점을 보여준다.
단어 검색 주석은 모든 발생에 대해 기록하는 방식이며 당연한 방식이다. 문서 내에 각각의 단어에 대해 모두 주석하는 방식이다. 정확한 주석이다. 각 단어의 문서 내 발생 위치까지 기록한다. 이 방식은 기존 검색 시스템으로는 적용이 어렵다. 이런 처리를 위해 만들어진 새로운 검색 장치가 단어 검색부이다(49-01). 문서 검색 주석은 부정확한 방식이며 원래 주석은 모든 단어 차원에서 수행이 되어야 하는 데 검색이 특정 단어를 찾아주는 것이 아니라 특정 문서를 찾아주는 장치라는 점에서 원하는 정보를 얻지 못해 문제가 발생하여 생긴 방식이다. 장기적으로는 없어질 가능성이 있는 주석 방식이다. 발생 당 주석방식에 비해 홍길동은 1개만 기록하고 바다는 2개만 기록한다. 단어의 위치는 기록 안 한다(49-02).
도 50은 주석을 어떤 단위로 진행할 것인가에 대한 설명이다. 이 외에도 여러 가지 방식이 있을 수 있지만 주요 항목만을 비교하였다. 지식 기반 주석부에 대한 부분은 포함하지 않았다. 주석지식이 완성되면 전체문서의 전체의미에 대한 주석 작업이 가능하다. 주석지식이 충분히 누적되었다는 것은 곧 의미단위용어 기반 정보 체계가 완성되었다는 것을 의미하기 때문이다. 초기의 가장 강력한 장치는 검색 주석기이다. 검색 주석기는 특정의미의 전체문서 단위 주석을 수행한다. 검색 주석기는 개별적인 문서의 자연어 표현 하나하나에 대해 수작업으로 주석하는 것에 비해 경우에 따라 몇천만 배의 생산성을 가질 수 있다. 이러한 방식은 의미단위용어 기반 정보체계를 가능케 하는 중요한 수단이다.
도 51은 신규문서와 기존 문서에 대한 주석을 비교해 준다. 신규문서와 기존문서는 처리환경이 판이하다. 신규문서는 검색 시스템 색인에 포함이 안 된 것이기 때문에 색인을 대상으로 처리가 불가능한 문서이다. 신규문서 주석은 문서 그 자체에 주석을 한다. 기존 문서는 색인에 대하여 주석을 한다(51-03). 기존 문서 주석은 검색 시스템이 개입된 주석 방식이고 신규 문서 주석은 검색 시스템과 관계없이 진행되는 주석이다. 신규 문서 작성기-2는 검색 시스템 색인에 직접 기록을 하지만 색인기를 내장하고 있다는 의미이며 주석 과정에는 검색 시스템의 개입이 없는 상태에서 진행되는 작업이다. 결과를 검색 시스템의 색인에 직접 저장하였다는 것이 기존 문서 주석 방식을 이용하였다는 의미는 아니다. 문서 작성기-1의 경우에는 문서 작성기가 의미단위용어 기반 문서를 만들고 이를 수집기가 모아서 의미단위용어 기반 색인을 만든다(51-01). 문서 작성기-2의 경우에는 문서 작성기가 의미단위용어를 주석한 후 수집기에 넘기는 것이 아니라 직접 색인 작업까지 수행한다 (51-02). 색인까지 하는 방식은 주석이 된 문서를 별도로 저장하여 보관하기 어려운 상황에서 편리하게 사용할 수 있다. 보통 문서 소유자가 아니면 변경된 문서를 원본 위치에 저장할 수 없다. 이런 상황에서 변경된 문서는 보관하지 않고 변경된 내용을 직접 색인에 저장하는 방식이다.
색인에 저장된 정보들은 언제든지 자연어 원본문서를 의미단위용어가 주석된 문서로 변환하는데 사용될 수 있다. 기존 문서 주석기들은 문서들이 색인에 포함된 상태에서 색인에 대한 주석을 수행한다. 신규 문서들도 문서 작성시까지는 아무 의미단위용어 주석 작업을 하지 않다가 색인에 포함되면 기존문서 주석기들을 이용하여 주석을 수행할 수 있다. 색인을 이용하여 주석을 하는 방식이 더 효율적인 방식이기 때문이다.
도 52는 각 주석 장치들의 단계별 중요성을 보여준다. 초기의 방대한 기존문서는 검색 주석기와 지식 기반 주석부에 의해 주석이 될 것이며 기존 문서들이 대부분 주석이 되면 완성기에 들어서는 것이다. 완성기에서는 새로운 문서들은 지식기반 주석부의 도움을 받는 문서 작성기에 의해 주석이 될 것이다. 하지만 문서 작성기에 의한 주석이 얼마나 얼마나 이루어질 것인가 하는 것은 미지수이다. 문서 작성자 자신은 의미의 혼돈이 없어서 주석에 대한 노력이 들지 않더라도 주석을 하지 않고 자연어 문서로 그냥 방치할 가능성도 크다. 이런 경우에는 색인이 된 이후에 지식기반 주석부에 의해 주석이 진행될 것이다. 완성기에는 문서 주석부와 지식 기반 주석부가 주요한 역할을 하지만 문서 주석부에서도 사실상 지식 기반 주석부를 호출하여 사용하기 때문에 지식 기반 주석부에 의해 모든 주석이 자동으로 이루어진다고 할 수 있다.
도 53은 검색 주석기 중심으로 작성된 구성도이다. 검색 주석기 이외 부분을 단순화시켰다. 문서 검색 주석부는 기존 검색 시스템이 문서를 검색하는 구조로 되어 있어 강요된 부분이다. 단어 검색 기능이 추가되면 문서 검색 주석부는 필수 장치는 아니다. 주석은 문서에 추가되는 것이 아니라 특정 단어에 추가되는 행위이기 때문이다.
도 54는 검색을 통해 찾아진 문서들을 대상으로 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하는 절차를 보여준다. 이 방법은 문서 내 어느 위치의 자연어 표현이라는 것은 명시하지 않는 방식이며 기존의 검색 기능이 문서를 검색하는 구조를 가졌기 때문에 유래한 방법이다. 자연어와 의미단위용어를 포함하는 질의어를 획득하여 문서들을 검색한다. 이 기능은 기존 검색 기능을 그대로 이용한다(54-01). 검색 결과 문서들 전체 또는 선택된 일부 문서 목록, 주석 대상 자연어 표현 및 주석될 의미단위용어에 대한 정보와 함께 검색 주석 요청을 받는다 (54-02). 선택된 문서들에 대해 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하며 해당 자연어 표현의 문서 내의 위치는 기록하지 않는다(54-03).
도 55는 검색을 통해 찾아진 단어들을 대상으로 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하는 절차를 보여준다. 이 방법은 문서 내 어느 위치의 자연어 표현이라는 것은 명시하는 방식이며 기존의 검색 기능과는 다르게 단어를 검색하는 구조 속에서 수행되는 방법이다. 자연어와 의미단위용어를 포함하는 질의어를 획득하여 단어들을 검색한다(55-01). 검색 결과 단어들 전체 또는 선택된 일부 단어 목록, 주석 대상 자연어 표현 및 주석될 의미단위용어에 대한 정보와 함께 검색 주석 요청을 받는다(55-02). 선택된 단어들에 대해 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하며 해당 자연어 표현의 문서 내의 위치가 명확하게 기록된다(55-03).
도 56은 검색기를 중심으로 작성된 구성도이다. 검색기 이외의 부분은 단순화되어있다. 검색기는 검색 질의어로 검색을 수행한다. I.의미단위용어 기반 검색기는 I1.문서 검색부, I2.단어 검색부 및 I3.검색지식 관리부가 있으며 검색 질의어를 작성하는 자연어 질의부와 의미단위용어 질의어 주석부가 있다. 검색 주석은 문서에 주석을 하는 것이 아니라 찾아진 단어에 주석을 한다. 따라서 검색 주석기의 역할을 돕기 위해 검색기도 문서가 아니라 단어를 찾는 기능이 추가하여 강화되었다. 문서를 찾는 문서 검색에 비해 단어 검색을 위해서는 찾아진 문서 내부의 어떤 단어를 나열하기를 원하는지 명확히 하는 단계가 추가되었다. 기존의 자연어 검색에서는 검색 방법을 지식이라고 부르기는 부족하였다. 자연어 검색의 정확률이 낮아 검색에 관련된 지식을 복합적으로 활용하기 힘들었다. 검색에 대한 결과로 연산을 할수록 오차가 확대되기 때문이다. 하지만 의미단위용어 기반 검색은 100% 정확률을 추구할 수 있기 때문에 검색 지식으로 등록되고 복합적으로 이용이 가능하다. 검색지식은 검색의 경험을 지식으로 등록하여 만들어진다. 검색 주석기 및 검색기 모두는 검색 질의어가 필요하고 질의어는 의미단위용어 주석의 대상이다. 따라서 검색기에는 자연어 질의부와 의미단위용어 질의어 주석부가 있다. 대표도(도 1)에서는 질의어 관련 부분이 구성요소로 노출되어 있지는 않다.
도 57은 검색 질의어를 보여준다. 질의어는 검색 시스템의 검색기와 검색 주석기에서 사용된다. 자연어 검색 질의어는 한 개 이상의 자연어와 and/or 같은 각종 연산자, 특정 기간, 특정 사이트, 특정 분류 등등으로 구성된다(57-01). 고유ID+ 검색 질의어는 한 개 이상의 고유ID+와 and/or 같은 각종 연산자, 특정 기간, 특정 사이트, 특정 분류 등등으로 구성된다(57-02).
도 58은 고유ID+ 검색 질의어가 어떻게 해석되는가를 보여준다.
도 59는 의미단위용어 기반의 질의어를 작성하는 방법을 보여 준다. 의미단위용어는 기억하여 사용하기 힘들므로 자연어를 입력하고 이를 사전 찾기로 의미단위용어로 변환하여 사용한다. 기존의 질의 방법과 같이 자연어를 획득하여 질의어를 작성한다(59-01). 질의어 내부의 주석 대상 자연어 표현을 선택하고 사전 찾기 요청을 한다(59-02). 나열된 의미단위용어 목록 중에서 선택된 항목을 얻어 해당 자연어에 주석을 한다(59-03). 의미단위용어로 주석된 질의어에 대해 자연어/의미단위용어 쌍을 순수 의미단위용어로 바꾸는 등의 수정을 한다(59-04).
도 60은 검색 결과를 표시하는 3가지 방법을 보여준다. 일반적으로 검색 시스템은 문서를 검색하는 장치이고 따라서 문서 항목을 나열한다(60-01). 이러한 문서 나열 방식은 특정 문서 내의 특정 단어에 대한 처리를 어렵게 만든다. 만약 한 문서 내의 자연어가 항상 같은 의미로만 쓰인다면 주석작업에 큰 장애가 되지는 않는다. 실제로 문서단위 주석 방법이 한 문서에 들어 있는 특정 자연어의 각각의 의미에 대해 주석할 수 있기 때문에 큰 장애가 되지는 않는다. 특히 초기의 의미단위용어 기반 검색 시스템의 정확률에 큰 장애가 되지 않는다. 일반적으로 자연어 검색 정확률이 아주 낮은 상태이고 이와 비교하여 월등한 정확률을 보여주기 때문에 의미단위용어 기반에서 정확률이 조금 낮아지는 것은 큰 문제가 되지 않는다. 하지만 장기적으로 100% 정확률을 추구하는 데 있어서는 장애가 될 것은 명확하다. 문서단위 주석은 문서 내에 있는 어떤 위치에 있는 자연어 표현에 대한 주석인가를 알려 줄 수 없다. 단어 항목 나열 방식은 문서 단위 주석의 문제점을 없애 준다. 특정 문서의 특정 위치에 있는 자연어 표현의 의미단위용어라고 명확히 표시할 수가 있다. (60-02) 이 방식은 기존 검색 시스템이 추가하여야 할 기능이다. 하지만 이 방식은 기존의 문서 나열 방식을 사용해야 하는 경우에 불편을 줄 수 있다. 문서/단어 항목 나열 방식은 문서 나열 방식과 단어 나열 방식을 합친 방법이다(60-03). 단어 주석 방식이 반드시 한 단어만을 처리한다는 의미는 아니다. “President Obama”를 검색하여 President에 President_1을 주석하고 Obama에 barack_obama_1을 주석하는 기능을 지원한다.
도 61은 단어를 검색하고 단어 단위로 항목 표시를 해주는 절차를 보여준다. 검색 결과 항목 수가 검색된 단어 수와 같아 단어별 처리에 사용할 수 있으며, 단어 검색 질의어를 통해 원하는 단어를 찾아내고 단어 단위로 결과를 표시하며 나열 항목수가 검색된 단어 수와 같은 방법이다. 문서를 찾아내는 검색 질의어, 검색된 문서에서 찾고자 하는 용어(자연어 표현 또는 의미단위용어) 정보와 함께 단어 검색 요청을 받는다(61-01). 단어 검색 질의어로 검색된 단어들을 단어당 항목으로 나열하여 표시한다(61-02).
도 62는 단어를 검색하고 결과를 문서별 단어별로 나열 표시하는 검색 절차를 보여준다. 검색 결과가 문서별 단어별로 정리되어 결과를 문서별 처리 및 단어별 처리에 사용할 수 있는 구조이며, 검색 질의어를 통해 원하는 문서 내의 원하는 단어를 찾아내고 문서를 한 항목으로 표시하고 각 문서별로 각 단어 단위로 결과를 표시하며 나열 항목 수가 문서 수와 용어 수를 합친 것과 같은 검색 방법이다. 문서를 찾아내는 검색 질의어, 검색된 문서에서 찾고자 하는 용어(자연어 표현 또는 의미단위용어) 정보와 함께 문서/단어 검색 요청을 받는다(62-01). 단어 검색 질의어로 검색된 단어들을 문서별 단어별로 나열하여 표시한다(62-02).
도 63은 검색지식을 생성하고 활용하는 절차를 보여준다. 기존의 자연어 검색은 너무 정확률이 낮아 지식으로 계속 활용할 수 있는 가능성이 작았다. 반면에 의미단위용어 기반 검색은 정확률율 100%를 추구하는 것이 가능하다. 낮은 정확률의 지식은 연산에 의해 오차율이 커지지만 의미단위용어 기반은 복합적으로 활용이 가능해 졌다. 이 절차는 검색 질의어를 수행하여 결과를 검토하고 의미 있는 검색 질의어는 검색지식으로 등록하여 활용하는 수단을 제공한다. 의미단위용어 기반 검색 질의어를 수행하고 검토한다(63-01). 검색 질의어 및 그에 대한 설명과 함께 검색지식 생성 요청을 받아 검색지식ID를 생성하고 지식 검색 ID, 검색 질의어 및 설명을 검색지식으로 만든다(63-02).소유자로부터 검색지식에 대한 공개 요청을 받으면(63-03) 검색지식을 공개한다(63-04 ).
도 64는 문서정보체계 구축기를 중심으로 작성된 구성도이다. 문서정보체계 구축기 이외의 부분은 단순화되어있다. 문서정보체계 구축기는 색인에 저장된 정보 또는 주석지식을 이용하여 문서정보체계를 구축하는 역할을 한다.
도 65는 자연어 문서정보체계와 고유ID+ 문서정보체계를 보여준다.
문서정보체계는 인터넷 문서,회사와 같은 각종 단체들의 문서 및 개인의 문서들을 포함한 전체 문서들이다. 자연어 문서정보체제는 자연어 사전을 기반으로 만들어진 문서정보체제이고(65-01) 고유ID+ 문서정보체계(65-02)는 고유ID 사전을 기반으로 만들어진다. 의미단위용어 기반 문서정보체계를 만드는 일은 아주 방대한 일이다. 문서정보체계를 바꾸는 작업의 가치는 이들 문서들을 모두 포함하는 검색 시스템의 색인을 의미단위용어 기반으로 만드는 가치와 같고 주석지식이 완벽하면 같은 효과를 가진다. 주석지식이 완벽하다는 것이 가장 높은 가치를 갖는다. 주석지식은 앞으로 만들어질 문서에 대해서도 많은 부분 의미단위용어 기반화 할 수 있는 추가적인 가치가 있기 때문이다. 주석지식은 바로 만들어질 수 없다. 색인을 의미단위용어 기반으로 만드는 것이 문서정보체계를 의미단위용어 기반으로 만드는 가장 좋은 방법이며 주석지식을 만드는 가장 좋은 방법이다.
도 66은 의미단위용어 사전, 색인 및 주석지식을 이용해 의미단위용어 기반 문서정보체계를 구축하는 것을 보여준다. 의미단위용어 사전은 필수인 요소이다. 이것 없이는 의미단위용어 색인도 만들 수 없고 주석지식도 만들 수 없다. 의미단위용어 색인은 어느 문서의 어느 자연어 표현이 어느 의미라는 정보를 갖고 있다. 따라서 의미단위용어 색인이 충분한 정보를 갖고 있으면 의미단위용어 문서정보체계를 만들 수 있다. 주석지식은 "어떤 조건에서 어떤 자연어가 어떤 의미이다."하는 지식이다. 따라서 주석지식이 충분한 내용이 있으면 의미단위용어 문서 정보 체계를 만들 수 있다.
도 67은 의미단위용어 사전 및 색인을 이용해 의미단위용어 기반 문서정보체계를 구축하는 것을 보여준다. 의미단위용어 색인이 충분한 정보를 갖고 있으면 의미단위용어 문서정보체계를 만들 수 있다. 하지만 의미단위용어 색인은 새로 만들어지는 문서에 대해서는 아무 정보도 주지 못한다.
도 68은 의미단위용어 사전 및 주석지식을 이용해 의미단위용어 기반 문서정보체계를 구축하는 것을 보여준다. 충분한 내용을 갖는 주석지식이 있으면 주석지식만을 이용하여 의미단위용어 기반 문서정보체계의 구축이 가능하다. 따라서 검색 시스템의 도움이 없이 의미단위용어 기반 문서정보체계의 구축이 가능하다. 하지만 색인 정보를 이용해 의미 기반화하는 것에 비해 큰 컴퓨팅 파워를 요구하며 일반적으로 색인 정보가 주석지식의 의미단위용어 정보량보다 크다.
도 69는 각 문서에 들어있는 자연어 표현을 의미단위용어로 주석하는 정보가 쌓여 있는 검색 시스템 색인을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 절차를 보여준다. (색인을 이용하는 방식은 반드시 검색시스템의 검색 대상에 포함된 문서에 대해서만 적용이 가능하다.) 검색 시스템의 색인에 누적된 의미단위용어 주석정보를 문서 위치별로 분류하여 문서별 의미단위용어 주석 정보를 만든다(69-01). 검색 시스템이 수집한 각 문서에 해당 문서에 대한 의미단위용어 주석 정보를 포함시켜 새로운 문서를 만든다(69-02). 의미단위용어를 포함시켜 작성된 문서들을 검색시스템의 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장한다(69-03). 도 69는 검색 시스템 색인에서 정보를 추출하여 의미단위용어 기반 문서정보체계를 구축하는 절차이다.
도 70은 자연어 표현을 의미단위용어로 주석하는 지식이 쌓여 있는 주석지식을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 절차를 보여준다. 주석지식은 특정 검색 시스템에 종속되지 않고 적용이 가능하다. 따라서 특정 검색시스템의 신규 문서에 대해서도 적용 가능하다. 문서정보체계에 속하는 문서들을 수집한다. 검색 시스템을 이용하지 않으며 문서 수집도 직접 수행한다(70-01). 문서별로 내부에 들어 있는 자연어 표현에 대해 해당하는 주석지식을 검색하여 찾아진 주석지식을 해당하는 자연어 표현에 적용하는 작업을 반복하여 문서 내 모든 자연어 표현에 대해 의미단위용어를 주석한다(70-02). 문서별로 주석 작업이 완료되면 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 단계를 반복하여 모든 문서에 대해 의미단위용어 기반 문서로 만든다(70-03).
도 71은 검색 시스템 색인과 주석지식을 이용한 의미단위용어 기반 문서정보체계 구축 절차를 보여준다. 검색 시스템에 포함이 되어있고 색인에 충분한 의미단위용어 정보가 쌓여있는 문서에 대해서는 검색 시스템 색인을 이용하고 색인에 정보가 없는 신규문서 또는 검색시스템 외부 문서에 대해서는 주석지식을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 절차이다.
문서정보체계에 속하는 문서들을 수집한다(71-01). 검색 시스템에 포함이 되어 있는 문서들을 대상으로 검색 시스템의 색인에 누적된 의미단위용어 주석정보를 문서 위치별로 분류하여 문서별 의미단위용어 주석 정보를 생성한다(71-02). 검색 시스템에 포함된 각 문서에 해당 문서에 대한 의미단위용어 주석 정보를 포함시켜 새로운 문서를 만든다(71-03). 의미단위용어를 포함시켜 작성된 문서들을 검색시스템의 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장한다(71-04). 검색시스템에 포함되지 않은 문서들을 대상으로, 문서별로 내부에 들어 있는 자연어 표현에 대해 해당하는 주석지식을 검색하고 찾아진 주석지식을 해당하는 자연어 표현에 적용하는 작업을 반복하여 문서 내 모든 자연어 표현에 대해 의미단위용어를 주석한다(71-05). 문서별로 주석 작업이 완료되면 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 단계를 반복하여 검색시스템에 포함되지 않은 모든 문서에 대해 의미단위용어 기반 문서로 만든다(71-06).
도 72는 의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 대한 이견을 집단지성을 이용하여 관리하는 절차를 보여준다.
의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 대한 이견이 있는 사용자가 토론 주제와 함께 토론 생성 요청을 하여 해당 주제에 토론 항목을 생성한다(72-01). 각자의 의견을 제시하고 토론한다(72-02). 토론에서 합의에 도달하지 못하는 경우 투표를 하고 결과를 종합한다(72-03). 토론 및 투표에서 얻은 결과를 적용한다(72-04).
도 73은 검색 대상 문서 원본과 추가 정보의 통합 후 저장 및 이용 절차를 보여준다. 검색 시스템의 검색 대상 문서의 내용 보완이나 변경의 필요가 있고 원본 문서를 직접 수정할 수 없는 상황에서 변경된 문서 내용을 저장하고 이용하는 방법이다.
원본에 대한 쓰기 권한이 없는 경우에 대상 문서를 문서 주소와 함께 별도의 장소에 저장한다(73-01). 별도의 장소에 저장된 문서를 변경한다(73-02). 원본 문서의 주소로 변경된 내용 요청을 받으면 저장된 원본 문서 주소를 이용하여 변경된 문서를 찾아 제공한다(73-03).
전지구적인 문서들을 의미단위용어 기반으로 바꾸는 것은 아주 방대한 작업이다. 하지만 반복 사용되는 단어들을 단어별로 정렬하여 색인을 만들면 단어의 반복 사용 회수와 무관하게 단어의 종류 및 단어의 의미 숫자 만큼으로 일의 양을 축소할 수 있다. 이렇게 하면 일의 양이 몇백만 분의 일로 줄어든다. 또한 의미단위용어의 생성이 일반인이 참여할 수 있게 쉬운 절차가 있으며 일을 수많은 사용자가 나누어 처리할 수 있는 구조를 갖는다. 방대한 일이 몇백만 분의 일로 줄어들고 축소된 작업도 개별 사용자들이 어렵지 않기 때문에 참여하여 나누어 처리할 수 있는 구조를 제공한다. 사용자에게 강요하는 것이 아니라 사용자들이 자신의 관심사항에 대해 어렵지 않은 일을 처리하면 이와 같은 방대한 작업은 완성되는 것이다.
02-01은 자연어 문서정보체계
02-02는 자연어 기반 검색 시스템
02-03은 의미단위용어 기반 장치 1
02-04는 1단계 의미단위용어 기반 정보 체계
02-05는 의미단위용어 기반 검색 시스템
02-06은 의미단위용어 기반 문서정보체계 구축기
02-07은 의미단위용어 기반 정보 체계
03-01은 의미단위용어 기반 문서 작성 단계
03-02는 문서 수집 단계
03-03은 의미단위용어 기반 색인 단계
03-04는 의미단위용어 기반 색인 단계
03-05는 의미단위용어 생성 단계
03-06은 의미단위용어 검색 주석 단계
03-07은 주석지식 생성 단계
03-08은 지식 기반 주석 수행 단계
03-09는 의미단위용어 기반 문서정보체계 구축 단계
05-01은 문서 작성 과정에서의 의미단위용어 생성
05-02는 단어 검색 과정에서의 의미단위용어 생성
06-01은 위의 표이며 자연어가 다양한 의미를 갖는 것을 보여준다.
06-02는 아래의 표이며 자연어의 다양한 의미마다 고유ID가 부여된 것을 보여준다.
09-01은 의미단위용어 정보 획득 단계
09-02는 의미단위용어 생성 단계
09-03은 의미단위용어 사전 항목 생성 단계
11-01은 의미단위용어 분류 단계
11-02는 의미단위용어 검색 분류 단계
11-03은 의미단위용어 분류 계층화 단계
11-04는 의미단위용어 분류 변경 단계
11-05는 의미단위용어 분류 이견 조정 단계
12-01은 용어별칭 등록 단계
12-02는 용어별칭 도입 단계
12-03은 용어별칭 사용 단계
13-01은 의미단위용어
13-02는 1차 용어분할
13-03은 2차 용어분할
14-01은 의미단위용어 용어분할 생성 단계
14-02는 의미단위용어 계층적 용어분할 생성 단계
14-03은 용어분할 기반 주석 단계
14-04는 용어분할 이용 검색 단계
16-01은 의미단위용어 용어그룹 생성 단계
16-02는 용어그룹 이용 검색 단계
20-01은 집단별 의미단위용어 기본값 결정 단계
20-02는 의미단위용어 개인 기본값 적용 단계
20-03은 의미단위용어 소속 집단 기본값 적용 단계
20-04는 의미단위용어 인터넷 기본값 적용 단계
23-01은 검색 단계
23-02는 주석지식 생성 요청 수령 단계
23-03은 주석지식 생성 단계
25-01은 지식 기반 주석 요청 수령 단계
25-02는 주석지식 검색 단계
25-03은 주석지식 적용 단계
25-04는 기본값 적용 단계
26-01은 색인 대상 주석지식 수행 요청 단계
26-02는 주석지식 변형 단계
26-03은 주석지식 이용 색인 검색 단계
26-04는 주석지식 이용 색인 주석 단계
28-01은 색인 기반 주석 단계
28-02는 주석지식 적용 단계
28-03은 기본값 적용 단계
32-01은 수작업 주석 방식의 문서 작성기
32-02는 자동 주석 방식의 문서 작성기
33-01은 자연어 문서 작성 단계
33-02는 지식 기반 주석 단계
33-03은 주석 변경 요청 단계
33-04는 의미단위용어 주석 변경 단계
33-05는 의미단위용어 생성 주석 단계
38-01은 외부 검색 시스템
39-01은 의미단위용어 기반 문서 수집 단계
39-02는 의미단위용어 기반 색인 단계
39-03은 의미단위용어 기반 검색 단계
40-01은 의미단위용어 기반 문서 수집 단계
40-02는 의미단위용어 기반 색인 단계
40-03은 검색 주석 단계
40-04는 의미단위용어 기반 검색 단계
41-01은 의미단위용어 기반 문서 수집
41-02는 의미단위용어 기반 색인 단계
41-03은 주석지식 수행 단계
41-04는 의미단위용어 기반 검색 단계
43-01은 43-02 문서에 대한 개념적 색인
43-02는 자연어 홍길동으로 검색하여 찾은 문서
44-01은 44-02 문서에 대한 개념적 색인
44-02는 자연어 길동으로 검색하여 찾은 문서
44-03은 색인의 의미단위용어 필드에 들어갈 값을 보여주는 테이블을 가리키는 화살표
45-01은 자연어 색인 생성 단계
45-02는 의미단위용어 기반 색인 생성 단계
46-01은 의미단위용어 질의어 주석부(의미단위용어 기반 검색 주석기에 들어 있는 것)
46-02는 의미단위용어 질의어 주석부(의미단위용어 기반 검색기에 들어 있는 것)
47-01은 주석 대상
47-02는 대상 문서
47-03은 검색 주석
47-04는 단계
47-05는 중요도
49-01은 문서 내의 모든 단어를 주석하는 단어 검색 주석 방식을 보여준다.
49-02는 문서 내부의 위치는 기록하지 않기 때문에 자연어가 같고 의미도 같은 것은 하나만 기록하는 문서 검색 주석 방식을 보여준다.
51-01은 신규문서 문서 작성기 유형 1
51-02는 신규문서 문서 작성기 유형 2
51-03은 기본문서 주석기
54-01은 의미단위용어 기반 문서 검색 단계
54-02는 문서 검색 주석 요청 수령 단계
54-03은 문서 검색 주석 단계
55-01은 의미단위용어 기반 단어 검색 단계
55-02는 단어 검색 주석 요청 수령 단계
55-03은 단어 검색 주석 단계
57-01은 자연어 검색 질의어
57-02는 고유ID+ 검색 질의어
59-01은 자연어 질의어 작성 단계
59-02는 사전 찾기 단계
59-03은 의미단위용어 주석 단계
59-04는 질의어 수정 단계
60-01은 문서 항목 나열 방식
60-02는 단어 항목 나열 방식
60-03은 문서/단어 항목 나열 방식
61-01은 단어 검색 요청 수령 단계
61-02는 단어 검색 결과 표시 단계
62-01은 문서/단어 검색 요청 수령 단계
62-02는 단어 검색 결과 문서별 단어별 표시 단계
63-01은 검색 질의어 검토 단계
63-02는 검색지식 생성 단계
63-03은 검색지식 공개 요청 수령 단계
63-04는 검색지식 공개 단계
65-01은 자연어 문서정보체계
65-02는 고유ID+ 문서 정보 체계
69-01은 문서 주석 정보 작성 단계
69-02는 문서 주석 단계
69-03은 의미단위용어 문서 저장 단계
70-01은 문서정보체계 문서 수집 단계
70-02는 주석지식 문서 적용 단계
70-03은 주석지식 문서정보체계 적용 단계
71-01은 문서정보체계 문서 수집 단계
71-02는 문서 주석 정보 작성 단계
71-03은 문서 주석 단계
71-04는 의미단위용어 문서 저장 단계
71-05는 주석지식 문서 적용 단계
71-06은 주석지식 문서정보체계 적용 단계
72-01은 토론 생성 단계
72-02는 토론 단계
72-03은 투표 단계
72-04는 토론 결과 적용 단계
73-01은 문서 및 주소 별도 장소 저장 단계
73-02는 문서 내용 변경 단계
73-03은 변경 문서 이용 단계

Claims (56)

  1. 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하고 생성된 의미단위용어를 기반으로 정보를 생성,수집,색인,주석,검색하는 정보 체계로서,
    a)자연어 표현과 의미 설명 정보를 획득하여 자연어 표현을 기반으로 의미단위용어를 생성하고, 생성된 용어에 의미 설명 정보를 부착하여 의미단위용어 사전 항목을 만들고, 이들 용어 사전 항목을 수정,병합,삭제하여 용어를 관리하는 의미단위용어 사전 관리기;
    b)문서에서 획득한 자연어 표현에 대해 의미단위용어 사전으로부터 해당 의미단위용어 목록을 찾아내고 선택된 의미단위용어를 해당 자연어 표현에 주석하여 의미상으로 모호한 자연어 표현을 보완시키는 의미단위용어 기반 문서 작성기;
    c) 주석지식(주석 조건, 주석 대상 자연어 표현, 주석될 의미단위용어)을 생성,수정,삭제하여 관리하고, 이러한 주석지식을 실제로 대상 문서들과 정보 검색 시스템의 색인에 적용하고, 주석지식이 없는 경우 적용되는 기본값을 관리하고, 색인에 들어 있는 의미단위용어 주석 정보를 이용하여 이미 존재하는 자연어 문서를 의미단위용어 기반 문서로 변환해 주는 의미단위용어 주석기;
    d) 검색 대상 문서를 모아오는 문서 수집기;
    e) 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인기
    f) 의미단위용어 질의어로 검색된 결과 문서들에 들어 있는 자연어 표현에 의미단위용어를 주석하여(직접 문서에 주석을 하는 것이 아니라 색인에 주석한다) 주는 의미단위용어 기반 검색 주석기;
    g) 기존의 자연어 외에 의미단위용어를 질의어에 추가하여 검색할 수 있게 하여 주는 의미단위용어 기반 검색기; 및
    h) 주석지식 및 색인의 정보를 이용하여 검색 대상 전체 문서 또는 일부 문서를 의미단위용어 기반으로 구축하는 의미단위용어 기반 문서정보체계 구축기; 를
    포함하는 의미단위용어 기반 정보 체계
  2. 전 지구적 문서를 단어별로 정렬하여 색인하고 정렬된 단어 속에서 다양한 의미를 찾아내어 의미단위용어를 생성하고 단어별로 정렬된 전 지구적 문서를 대상으로 일괄적으로 의미단위용어를 주석하기 위해 검색 시스템을 이용하는 방법으로서,
    a) 문서 내의 일부 자연어 표현 또는 전체 자연어 표현에 각각 해당하는 의미단위용어를 획득하여 주석하는 의미단위용어 기반 문서 작성 단계;
    b) 검색 시스템에 포함할 문서들을 수집하는 문서 수집 단계;
    c) 수집된 문서로부터 의미단위용어 기반 색인을 만드는 의미단위용어 기반 색인 단계;
    d) 의미단위용어 기반 질의어를 획득하여 의미단위용어 기반 색인으로부터 검색하여 결과를 표시하는 의미단위용어 기반 검색 단계;
    e) 자연어 표현 및 해당 표현의 특정 의미에 대한 설명과 함께 용어 생성 요청을 획득하여 의미단위 용어를 생성하고 획득한 설명을 쌍으로 하여 사전 항목을 생성하는 의미단위용어 생성 단계;
    f) 의미단위용어 기반 질의어로 특정 자연어 표현의 특정 의미를 검색하여 찾아진 결과문서들에 대해 해당 자연어 표현에 해당 의미단위용어를 의미단위용어 기반 색인에 주석하는 의미단위용어 검색 주석 단계;
    g) 검색 주석 단계에서 사용된 질의어, 자연어 표현 및 의미단위용어를 획득하여 주석지식으로 등록하는 주석지식 생성 단계;
    h) 신규문서들과 같은 지정된 문서들을 대상으로 주석지식을 이용하여 의미단위용어를 주석하는 지식 기반 주석 단계; 및
    i) 의미단위용어 기반 색인에서 문서별로 의미단위용어 주석 정보를 추출하여 각각 해당 문서에 적용하여 해당문서를 의미단위 용어 기반 문서로 만들어 문서정보체계를 의미단위용어 기반으로 만들며, 주석지식 및 기본값을 적용하여 문서정보체계를 의미단위용어 기반으로 만드는 의미단위용어 기반 문서정보체계 구축 단계; 를
    포함하는 검색 시스템 중심의 의미단위용어 기반 정보 체계 작동 방법
  3. a)고유명사를 포함한 모든 언어의 모든 품사를 대상으로, 사용자가 입력한 자연어 표현과 설명을 획득하여 자연어 표현의 다양한 의미에 대해 각각의 의미마다 별도의 용어를 동적으로 생성하는 의미단위용어 생성부;
    b)생성된 용어의 수정, 병합 및 삭제를 수행하는 의미단위용어 관리부; 및
    c)의미단위용어에 대한 사전 찾기 기능을 수행하는 의미단위용어 사전검색부; 를
    포함하는 의미단위용어 사전 관리기
  4. 청구항 3에 있어서,
    생성되는 용어가 사용자로부터 획득한 자연어 대표표현과 해당 자연어 대표표현의 의미 일련번호에 의해 자동 생성되는“고유ID”라고 부르는 용어이며 언어와 의미가 같으면 표현이 다르더라도 하나의 의미단위용어를 갖는 것을 특징으로 하는 의미단위용어 사전 관리기
  5. 청구항 3에 있어서,
    생성되는 용어가 사용자가 입력한 자연어 표현과 해당 자연어 표현의 의미 일련번호에 의해 자동 생성되는“표현의미ID”라고 부르는 용어이고 따라서 의미가 같더라도 표현이 다른 경우에 다른 용어가 생성되는 것을 특징으로 하는 의미단위용어 사전 관리기
  6. 청구항 3에 있어서,
    의미단위용어의 생성이 자연어의 복수 의미 문제가 부각되는 검색 시스템 내에서 이루어지는 것을 특징으로 하는 의미단위용어 사전 관리기
  7. 청구항 3의 사전 관리기에 의해 만들어진 의미단위용어 사전
  8. 고유 명사를 포함한 모든 언어의 모든 품사를 대상으로 특정 자연어 표현이 하나 이상의 의미를 갖는 경우 각각의 의미에 새로운 용어를 생성하는 방법으로서.
    a) 특정 자연어 표현의 특정 의미에 대한 의미단위용어가 부재한 상황에서 해당 의미의 자연어 표현과 이에 대한 설명 및 용어 생성 요청을 획득하는 용어 정보 획득 단계;
    b) 해당 자연어 표현과 해당 자연어 표현에 대해 생성된 의미 용어 개수(의미 일련 번호)를 이용하여 의미단위용어를 생성하는 용어 생성 단계; 및
    c) 생성된 의미단위용어와 획득된 설명을 쌍으로 하여 의미단위용어 사전 항목을 생성하는 사전항목 생성 단계; 를
    포함하는 의미단위용어 생성 방법
  9. 분류의 대상이 의미단위용어이며, 의미단위용어가 소속하게 되는 분류명이 자연어 또는 의미단위용어이며, 의미단위용어가 0 이상의 분류 명을 가질 수 있으며, 의미단위용어의 분류 명은 어느 때나 추가되거나 삭제될 수 있으며, 분류 명은 용어에서 사용하기 전에 미리 정의되어 있을 필요가 없으며, 용어 생성 또는 용어 변경 시에 기존에 없던 분류 명을 입력하면 새로운 분류 명이 자동으로 등록되며, 하나의 분류 명은 0 이상의 분류에 소속되어 계층화하며, 용어의 분류 및 계층의 구조는 이견이 있는 경우 토론과 같은 집단지성을 통해 정밀화하는 직관적인 의미단위용어 분류 방법으로서,
    a) 용어 생성 또는 용어 변경 과정에서 용어의 분류 필드 값이 주어진 경우 의미단위용어 사전에서 자연어 또는 의미단위용어로 표현된 분류 필드 값을 획득하여 해당용어를 분류하는 의미단위용어 분류 단계;
    b) 의미단위용어 사전을 검색하여 선택한 용어 목록과 분류명을 획득하여 해당 의미단위용어들을 해당 분류에 소속시키는 의미단위용어 검색 분류 단계;
    c) 특정 두 분류들에 대해 상하관계 설정 요청을 획득하여 계층화를 수행하는 의미단위용어 분류 계층화 단계;
    d)특정 의미단위용어의 분류에 변경이 필요한 경우 분류의 변경 요청을 획득하여 재분류하는 의미단위용어 분류 변경 단계; 및
    e) 의미단위용어의 분류에 사용자들의 이견이 발생하면 사용자들이 토론하여 집단 지성에 의한 결론에 도달하기 위해 토론 주제와 함께 토론 생성 요청을 획득하여 토론항목을 생성하여 주는 의미단위용어 분류 이견 조정 단계; 를
    포함하는 의미단위용어의 직관적 분류 및 계층화 관리 방법
  10. 용어별칭의 적용대상이 의미단위용어이며, 의미단위용어 사용에 있어서 길이가 길고 기억하기 힘든 의미단위용어를 쉽게 사용하기 위해서, 특정 단체나 개인이 의미단위용어에 대한 용어별칭을 만들고 이를 사용하는 방법으로서,
    a) 특정 집단이나 개인으로부터 의미단위용어, 용어별칭과 함께 별칭 등록 요청을 획득하여 별칭을 등록하는 용어별칭 등록 단계;
    b) 특정 집단이나 인터넷의 용어별칭을 사용하기 위해 용어별칭 도입요청과 해당 집단 명을 획득하여 개인 용어별칭 목록에 해당집단의 용어별칭들을 수록하는 용어별칭 도입 단계; 및
    c) 검색의 질의어나 문서 내에서 의미단위용어를 입력하는 상황에서 사용자가 용어별칭을 입력하면 이를 해당하는 의미단위용어로 번역하여 주는 용어별칭 변환 단계; 를
    포함하는 의미단위용어 용어별칭 사용 방법
  11. 특정 의미단위용어를 세분할 필요가 있을 때 특정 의미단위용어를 용어분할(segment)로 나누어 관리하고 의미단위용어 용어분할을 이용하여 세분화된 의미단위용어처럼 주석하고 검색하는데 사용하는 방법으로서,
    a) 의미단위용어 용어분할 요청, 특정 의미단위용어, 생성할 용어분할 이름 및 용어분할 설명을 획득하여 해당 의미단위용어의 하부 용어분할을 생성하는 의미단위용어 용어분할 생성 단계;
    b) 의미단위용어 용어분할 요청, 특정의미단위용어/(계층적)용어분할 이름, 생성할 용어분할 이름 및 용어분할 설명을 획득하여 해당 의미단위용어의 계층적 하부 용어분할을 생성하는 의미단위용어 계층적 용어분할 생성 단계;
    c) 주석 요청, 주석 대상 문서, 주석 대상 자연어 표현 및 주석할 의미단위용어/(계층적)용어분할을 획득하여 해당문서들의 해당 자연어 표현에 해당 의미단위용어/계층 용어분할을 주석하는 의미단위용어/용어분할 기반 주석 단계; 및
    d) 검색 요청, 의미단위용어/계층 용어분할을 포함하는 질의어를 획득하여 해당문서들을 검색하는 의미단위용어 용어분할 이용 검색 단계; 를
    포함하는 의미단위용어 세분화 방법 및 세분화된 용어 이용 방법
  12. 의미단위용어 기반 검색 시스템에 있어서 특정 의미단위용어들을 그룹화하기 위하여 특정 의미단위용어들을 트리 형태의 계층적 그룹으로 관리하고 그룹 명을 이용하여 그룹화된 의미단위용어처럼 검색하는데 사용하는 방법으로서,
    a) 의미단위용어 그룹화 요청, 그룹화 대상 의미단위용어 또는 그룹 목록, 생성할 그룹 명 및 그룹 설명을 획득하여 해당 의미단위용어의 그룹을 생성하는 용어그룹 생성 단계; 및
    b) 검색 요청 및, 그룹 명을 포함하는 질의어를 획득하여 이를 의미단위용어 질의어로 변환하여 해당문서들의 검색하는 용어그룹 이용 검색 단계; 를
    포함하는 의미단위용어 그룹화 이용 방법
  13. a)주석지식(주석 조건, 주석 대상 자연어 표현, 주석될 의미단위용어)을 생성,수정,삭제하는 주석지식 관리부;
    b)주석지식이 없는 경우 적용되는 자연어 표현의 의미단위용어 기본값을 관리하는 기본값 관리부;
    c)주석지식을 실제로 대상 문서들, 정보 검색 시스템의 색인 및 검색 질의어에 적용하고 주석지식이 없는 경우 의미단위용어 기본값을 적용하는 지식 기반 주석부; 및
    d)자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 이용하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를
    포함하는 의미단위용어 주석기
  14. 청구항 13에
    색인에 누적된 의미단위용어 정보를 해당 자연어 문서에 추가하여 의미단위용어 기반 문서로 만드는 색인 기반 문서 주석부; 가
    추가되어 강화된 의미단위용어 주석기
  15. 색인에 누적된 의미단위용어 정보를 해당 문서에 추가하여 의미단위용어 기반 문서로 만드는 색인 기반 문서 주석부; 및
    자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 이용하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를
    포함하는 의미단위용어 주석기
  16. 청구항 13의 주석기에 의해 만들어진 주석지식 데이터베이스
  17. 수집되어 검색 시스템 색인이 만들어지기 이전의 신규 문서의 내부나 검색 질의어 내에 있는 자연어 표현에 주석지식이나 기본값을 이용하여 의미단위용어를 주석하는 방법으로서,
    a) 주석 대상 자연어 표현과 지식 기반 주석요청을 획득하는 지식 기반 주석 요청 수령 단계;
    b) 해당 자연어 표현에 대한 주석지식 DB를 검색하여 적용할 주석지식을 찾는 주석지식 검색 단계;
    c) 검색된 주석지식을 자연어 표현에 적용하는 주석지식 적용 단계; 및
    d) 주석지식이 없고 기본값 적용 설정이 되어 있는 경우 의미단위용어 기본값을 적용하는 기본값 적용 단계; 를
    포함하는 지식 기반 문서 주석 방법
  18. 특정 조건 아래서 또는 특정 대상에 대해 특정 주석지식을 이용하여 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하는 방법으로서,
    a)주석지식ID 및 변경 요소(지정된 기간, 지정된 대상 등)과 함께 주석지식 수행 요청을 획득하는 주석지식 수행 요청 수령 단계;
    b)주석지식ID를 이용하여 주석지식을 가져와 변경요소를 반영하는 주석지식 변형 단계;
    c) 변형된 주석지식을 수행하여 해당하는 색인항목을 찾아내는 주석지식 이용 색인 검색 단계; 및
    d) 찾아낸 색인항목에 주석지식에 포함된 의미단위용어를 주석하는 주석지식 이용 색인 주석 단계; 를
    포함하는 지식 기반 색인 주석 방법
  19. 검색 시스템 색인 정보를 이용하여 해당하는 문서 내의 자연어 표현에 의미단위용어를 주석하고 색인에 충분한 정보가 없는 경우에 주석지식이나 기본값을 이용하여 해당 자연어 표현에 의미단위용어를 주석하는 방법으로서,
    a) 검색 시스템 색인에 누적된 의미단위용어 정보를 추출하여 해당하는 문서의 자연어 표현에 주석하는 색인 기반 주석 단계;
    b) 색인 기반 주석 단계에서 의미단위용어 주석이 안 된 경우, 해당 자연어 표현에 대한 주석지식을 적용하는 주석지식 적용 단계; 및
    c) 주석지식 적용 단계에서도 해당하는 주석지식이 없는 경우 의미단위용어 기본값을 적용하는 기본값 적용 단계; 를
    포함하는 색인/지식 기반 문서 주석 방법
  20. 주석지식을 검색을 통해 검증하고 주석지식으로 등록하는 주석지식 생성 방법으로서,
    a) 자연어/의미단위용어 표현, 연산자, 기간, 사이트, 분야, 카테고리 등 검색 질의어 문법이 허용하는 문구를 이용하는 검색 질의어를 획득하여 검색을 수행하는 검색 단계;
    b) 검색 결과를 보여주고 사용자 검토 이후에 검증을 거친 검색 질의어, 주석 대상 자연어 표현, 주석하려는 의미단위용어 및 주석지식에 대한 설명과 함께 주석지식 생성 요청을 획득하는 주석지식 생성 요청 수령 단계;
    c)) 검증을 거친 검색 질의어, 주석 대상 자연어 표현, 주석하려는 의미단위용어를 내용으로 하는 주석지식과 주석지식ID를 생성하고 주석지식, 주석지식ID 및 설명을 합하여 주석지식 항목을 생성하는 주석지식 생성 단계;를
    포함하는 주석지식 생성 방법
  21. 각 집단의 기본값을 결정하고 기본값의 적용 대상에 포함되는 집단들의 우선 순위를 결정하는 방법으로서,
    a) 각 집단은 자연어 표현 별 의미단위용어의 사용빈도를 기록하고 사용빈도가 가장 높은 의미단위용어를 해당 자연어 표현의 의미단위용어 기본값으로 정하는 집단별 의미단위용어 기본값 결정단계;
    b) 검색 질의어 작성 중이거나 문서의 소유자가 지정되어 있어 개인이 알려져 있는 경우 특정 자연어 표현에 대한 의미단위용어를 개인의 기본값으로 지정하는 개인 의미단위용어 기본값 적용 단계;
    c) 개인 기본값 적용단계에서 해당하는 기본값이 존재하지 않고 문서의 소속집단(분야)이 지정되어 있는 경우 해당 자연어 표현에 대한 의미단위용어를 해당 집단의 기본값으로 지정하며 해당 집단이 한 개 이상인 경우 소속원 수가 작은 집단에 우선권을 주는 집단 의미단위용어 기본값 적용 단계;
    d) 집단 기본값 적용단계에서 해당하는 기본값이 존재하지 않는 경우 해당 자연어 표현에 대한 의미단위용어를 인터넷의 기본값으로 지정하는 인터넷 의미단위용어 기본값 적용 단계;
    를 포함하는 자연어 표현의 의미단위용어 기본값 결정 방법
  22. a)자연어로 문장을 작성하는 자연어 작성부;
    b)작성된 자연어 표현에 의미단위용어를 주석하는 의미단위용어 문서 주석부 ; 및
    c)자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 획득하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를
    포함하는 의미단위용어 기반 문서 작성기
  23. 청구항 22에,
    의미단위용어 주석 작업을 주석지식과 의미단위용어 기본값을 이용하여 도와주는 의미단위용어 주석기; 가
    더해져서 강화된 의미단위용어 기반 문서 작성기
  24. 자연어와 의미단위용어를 이용하여 문서를 작성하는 방법으로서,
    a) 자연어로 문서를 작성하는 자연어 문서 작성 단계;
    b) 자연어 문장에 주석기의 주석지식과 의미단위용어 기본값을 적용하여 개별 자연어 표현마다 의미단위용어를 주석하는 지식 기반 주석 단계;
    c) 주석 변경 요청 및, 의미단위용어 변경 대상 자연어 표현을 획득하여 해당 자연어 표현에 대한 의미단위용어 목록을 화면 표시하는 주석 변경 요청 단계;
    d) 화면 표시된 의미단위용어 목록에서 선택된 의미단위용어를 획득하여 해당 자연어 표현의 의미단위용어를 주석하는 의미단위용어 주석 수정 단계; 및
    e) 화면 표시된 의미단위용어 목록에 해당하는 의미단위용어가 없는 상황에서 의미단위용어 생성 요청, 자연어 표현 및 설명을 획득하여 의미단위용어를 생성하여 주석하는 의미단위용어 생성 주석 단계;를
    포함하는 의미단위용어 문서 작성 방법
  25. a)검색 대상 문서를 모아오는 문서 수집기;
    b)자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인기;
    c)기존의 자연어 질의어 외에 의미단위용어를 추가하여 검색할 수 있게 하여 주는 의미단위용어 기반 검색기; 및
    d)자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 이용하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를
    포함하는 의미단위용어 기반 검색 시스템
  26. 청구항 25에,
    의미단위용어 질의어로 검색된 결과 문서들에 들어 있는 자연어 표현에 의미단위용어를 주석하여(직접 문서에 주석을 하는 것이 아니라 색인에 주석한다) 주는 의미단위용어 기반 검색 주석기; 가
    더해져서 강화된 의미단위용어 기반 검색 시스템
  27. 청구항 25에,
    의미단위용어 주석 작업을 주석지식과 의미단위용어 기본값을 이용하여 도와주는 의미단위용어 주석기; 가
    더해져서 강화된 의미단위용어 기반 검색 시스템
  28. 청구항 25에,
    의미단위용어 질의어로 검색된 결과 문서들에 들어 있는 자연어 표현에 의미단위용어를 주석하여(직접 문서에 주석을 하는 것이 아니라 색인에 주석한다) 주는 의미단위용어 기반 검색 주석기; 및
    의미단위용어 주석 작업을 주석지식과 의미단위용어 기본값을 이용하여 도와주는 의미단위용어 주석기; 가
    더해져서 강화된 의미단위용어 기반 검색 시스템
  29. 직접 문서 수집 및 색인을 하지 않고 외부 검색 시스템에서 얻은 정보를 이용하여 자체 의미단위용어 기반 색인을 만드는 메타 검색 시스템으로서,
    a)외부 자연어 검색 시스템에서 검색하여 자체 보유 의미단위용어 색인에 자연어/의미단위용어 색인 정보를 저장하는 자연어 기반 검색 주석기;
    b)자체 보유 의미단위용어 기반 색인으로부터 기존의 자연어 질의어 외에 의미단위용어를 추가하여 검색할 수 있게 하여 주는 의미단위용어 기반 검색기;
    c)의미단위용어 질의어로 검색된 결과 문서들에 들어 있는 자연어 표현에 의미단위용어를 주석하여(직접 문서에 주석을 하는 것이 아니라 색인에 주석한다) 주는 의미단위용어 기반 검색 주석기;
    d)의미단위용어 주석 작업을 주석지식과 기본값을 이용하여 도와주는 의미단위용어 주석기; 및
    e)자연어 표현의 의미가 다양한 경우 사용자가 입력한 자연어 표현과 설명을 이용하여 각각의 의미마다 별도의 용어를 동적으로 생성하고, 생성된 용어를 수정, 병합 및 삭제하는 의미단위용어 사전 관리기; 를
    포함하는 메타 검색 시스템 유형의 의미단위용어 기반 검색 시스템
  30. 전세계 국가 및 언어를 대상으로 서비스하는 검색 시스템의 모든 색인어에 대해 해당 색인어가 둘 이상의 의미를 가지면 각각의 의미에 대해 별도의 용어를 생성하여 의미 단위로 분리하여 자연어의 모호성을 제거한 정보 검색 방법으로서,
    a) 검색 시스템의 대상이 되는 문서를 수집하는 의미단위용어 기반 문서 수집 단계;
    b) 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인 단계; 및
    c) 색인에 저장된 자연어 표현 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색하는 의미단위용어 기반 검색 단계;를
    포함하는 의미단위용어 기반 검색 시스템 작동 방법
  31. 전세계 국가 및 언어를 대상으로 서비스하는 검색 시스템의 모든 색인어에 대해 해당 색인어가 둘 이상의 의미를 가지면 각각의 의미에 대해 별도의 용어를 생성하여 의미 단위로 분리하여 자연어의 모호성을 제거한 정보 검색 방법으로서,
    a) 검색 시스템의 대상이 되는 문서를 수집하는 의미단위용어 기반 문서 수집 단계;
    b) 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인 단계;
    c) 검색 주석 요청, 주석 대상을 찾기 위한 질의어, 주석 대상 자연어 표현 및 주석될 의미단위용어를 획득하여 해당 질의어로 검색한 결과에 포함된 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하는 검색 주석 단계; 및
    d) 색인에 저장된 자연어 표현 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색하는 의미단위용어 기반 검색 단계;를
    포함하는 의미단위용어 기반 검색 시스템 작동 방법
  32. 전세계 국가 및 언어를 대상으로 서비스하는 검색 시스템의 모든 색인어에 대해 해당 색인어가 둘 이상의 의미를 가지면 각각의 의미에 대해 별도의 용어를 생성하여 의미 단위로 분리하여 자연어의 모호성을 제거한 정보 검색 방법으로서,
    a) 검색 시스템의 대상이 되는 문서를 수집하는 의미단위용어 기반 문서 수집 단계;
    b) 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 기반 색인 단계;
    c) 특정 조건에서 특정 자연어 표현이 어떤 의미가 있다는 정보를 갖고 있는 주석지식을 이용하여 자연어 표현에 의미단위용어를 주석하는 주석지식 수행 단계; 및
    d) 색인에 저장된 자연어 표현 및 의미단위용어를 대상으로 의미단위용어와 자연어 표현을 포함한 질의어로 검색하는 의미단위용어 기반 검색 단계;를
    포함하는 의미단위용어 기반 검색 시스템 작동 방법
  33. 자연어만 사용하여 작성된 문서를 색인하는 기존의 자연어 색인에, 의미단위용어 필드를 추가하여 자연어와 의미단위용어에 대해 색인하는 의미단위용어 색인부를 포함하는 의미단위용어 기반 색인기
  34. 청구항 33에 있어서,
    추가되는 의미단위용어 필드가 사용자가 입력한 자연어 대표표현과 해당 자연어 대표표현의 의미 일련번호에 의해 자동 생성되는“고유ID”라고 부르는 용어 필드인 것을 특징으로 하는 의미단위용어 기반 색인기
  35. 청구항 33에 있어서,
    추가되는 의미단위용어 필드가 사용자가 입력한 자연어 표현과 해당 자연어 표현의 의미 일련번호에 의해 자동 생성되는“표현의미ID”라고 부르는 용어 필드인 것을 특징으로 의미단위용어 기반 색인기
  36. 검색 시스템이 문서 수집기를 이용하여 저장소에 모아놓은 문서들을 자연어/의미단위용어별로 색인하는 방법으로서,
    a) 문서의 각 단어에 대해 의미단위용어 필드를 공란으로 하여 검색 시스템 색인을 만드는 자연어 색인 생성 단계; 및
    b) 해당 단어에 의미단위용어 주석이 되어 있는 경우 해당 단어 색인 항목의 의미단위용어 필드에 해당 의미단위용어를 기록하는 의미단위용어 색인 생성 단계; 를
    포함하는 의미단위용어 기반 색인 방법
  37. 검색을 통해 찾아진 문서들에 대해 특정 자연어 표현에 특정 의미단위용어를 검색 시스템 색인 상에서 주석하는 장치로서,
    a)검색을 통해 찾아진 다수의 문서들에 대해 특정 자연어 표현에 의미단위용어를 검색 시스템 색인 상에서 주석하며 문서 내의 어느 자연어 표현에 대한 주석인가는 명시하지 않는 문서 검색 주석부; 및
    b)검색으로 찾아진 문서 내의 주석 대상 자연어 표현 각각에 대해 문서 내 위치 정보까지 포함하여 의미단위용어를 검색 시스템 색인 상에서 주석하는 단어 검색 주석부;를
    포함하는 의미단위용어 기반 검색 주석기
  38. 문서 단위가 아닌 단어 단위로 처리하는 장치이며, 검색을 통해 찾아진 단어들에 대해 특정 자연어 표현에 특정 의미단위용어를 검색 시스템 색인 상에서 주석하는 장치로서,
    a)검색을 통해 문서를 찾는 것이 아니라 단어를 찾아서 주석 대상인 단어를 명확히 하는 단어 검색부; 및
    b)검색으로 찾아진 단어에 대해 문서 위치 및 문서 내 위치를 명시하여 검색 시스템 색인 상에서 주석하는 단어 주석부;를
    포함하는 의미단위용어 기반 검색 주석기
  39. 검색을 통해 찾아진 문서들을 대상으로 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하며 문서 내 어느 위치의 자연어 표현이라는 것은 명시하지 않는 특징을 갖는 색인 상의 검색 주석 방법으로서,
    a) 자연어와 의미단위용어를 포함하는 질의어를 획득하여 문서들을 검색하는 의미단위용어 기반 문서 검색 단계;
    b) 검색 결과 문서들 전체 또는 선택된 일부 문서 목록, 주석 대상 자연어 표현 및 주석될 의미단위용어를 획득하는 문서 검색 주석 요청 수령 단계; 및
    c) 선택된 문서들에 대해 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하며 해당 자연어 표현의 문서 내의 위치는 기록하지 않는 문서 검색 주석 단계; 를
    포함하는 문서 검색 주석 방법
  40. 검색을 통해 찾아진 단어들을 대상으로 특정 자연어 표현에 특정 의미단위용어를 색인 상에서 주석하며 문서 내 어느 위치의 자연어 표현이라는 것은 명시하는 특징을 갖는 색인 상의 검색 주석 방법으로서,
    a) 자연어와 의미단위용어를 포함하는 질의어를 획득하여 단어들을 검색하는 의미단위용어 기반 단어 검색 단계;
    b) 검색 결과 단어들 전체 또는 선택된 일부 단어 목록, 주석 대상 자연어 표현 및 주석될 의미단위용어를 획득하는 단어 검색 주석 요청 수령 단계; 및
    c) 선택된 단어들에 대해 해당 자연어 표현에 해당 의미단위용어를 검색 시스템 색인 상에서 주석하며 해당 자연어 표현의 문서 내의 위치를 명시하는 단어 검색 주석 단계; 를
    포함하는 단어 검색 주석 방법
  41. 질의어를 통해 원하는 문서를 찾아내는 검색 시스템에 있어서,
    a)찾아내는 대상이 검색 질의어를 만족하는 문서이며 결과가 문서 단위로 표시되는 의미단위용어 기반 문서 검색부;
    b)찾아내는 대상이 검색 질의어를 만족하는 단어이며 결과가 단어 단위로 표시되어 한 문서에 해당하는 단어가 다수이면 결과가 다수 항목으로 표시되는 의미단위용어 기반 단어 검색부; 및
    c)검색에 사용되는 지식을 생성하고 관리하는 의미단위용어 기반 검색지식 관리부; 를
    포함하는 의미단위용어 기반 검색기
  42. 질의어를 통해 원하는 문서를 찾아내는 검색 시스템에 있어서 자연어의 모호성을 극복하기 위해 의미단위용어 기반의 질의어를 작성하는 방법으로서,
    a) 기존의 질의 방법과 같이 자연어를 획득하여 질의어를 작성하는 자연어 질의어 작성 단계;
    b) 질의어 내부의 주석 대상 자연어 표현 및 의미단위용어 사전 찾기 요청을 획득하여 해당하는 의미단위용어들을 나열해 주는 사전 찾기 단계;
    c) 나열된 의미단위용어 목록 중에서 선택된 항목을 획득하여 해당 자연어에 주석을 하는 의미단위용어 주석 단계: 및
    d) 의미단위용어로 주석된 질의어에 대해 자연어/의미단위용어 쌍을 순수 의미단위용어로 바꾸는 등의 수정을 위해 질의어를 변경하는 질의어 수정단계:를
    포함하는 의미단위용어 기반 질의어 작성 방법
  43. 검색 결과 항목 수가 검색된 단어 수와 같아 단어별 처리에 사용할 수 있으며, 단어검색 질의어를 통해 원하는 단어를 찾아내고 단어 단위로 결과를 표시하며, 나열 항목 수가 검색된 단어 수와 같은 검색 방법으로서,
    a)문서를 찾아내는 검색 질의어, 검색된 문서에서 찾고자 하는 용어(자연어 표현 또는 의미단위용어) 및 단어 검색 요청을 획득하는 단어 검색 요청 수령 단계; 및
    b)단어 검색 질의어로 검색된 문서 내의 찾고자 하는 용어들을 나열하는 단어 검색 결과 표시 단계; 를
    포함하는 의미단위용어 기반 단어 검색 방법
  44. 검색 결과가 문서별 단어별로 정리되어 결과를 문서별 처리 및 단어별 처리에 사용할 수 있는 구조이며, 검색 질의어를 통해 원하는 문서 내의 원하는 단어를 찾아내고 문서를 한 항목으로 표시하고 각 문서별로 각 단어 단위로 결과를 표시하며 나열 항목 수가 문서 수와 용어 수를 합친 것과 같은 검색 방법으로서,
    a)문서를 찾아내는 검색 질의어, 검색된 문서에서 찾고자 하는 용어(자연어 표현 또는 의미단위용어) 및 문서/단어 검색 요청을 획득하는 문서/단어 검색 요청 수령 단계; 및
    b)단어 검색 질의어로 검색된 문서들을 문서 단위로 나열하고 문서마다 찾고자 하는 용어별로 나열하는 단어 검색 결과 문서별 단어별 표시 단계; 를
    포함하는 의미단위용어 기반 문서별 용어별 검색 방법
  45. 검색 질의어를 수행하여 결과를 검토하여 의미 있는 검색 질의어는 검색지식으로 등록하여 활용하는 방법으로서,
    a) 의미단위용어 기반 검색 질의어를 획득하여 수행하고 사용자 검토를 위해 검색 결과를 화면 표시하는 의미단위용어 기반 검색 질의어 검토 단계;
    b) 검색 질의어 및 그에 대한 설명을 획득하여 검색지식을 생성하고 검색지식ID도 생성하는 검색지식 생성 단계;
    c) 검색지식을 생성한 사용자가 원하는 경우 타인의 활용을 위해 공개 요청을 획득하는 검색지식 공개 요청 수령 단계: 및
    d) 검색지식을 활용할 수 있도록 목록을 제공하는 검색지식 공개 단계:를
    포함하는 의미단위용어 기반 검색지식 생성 및 활용 방법
  46. 검색 시스템의 의미단위용어 기반 색인에서 의미단위용어 주석 정보를 추출하고 이를 정보체계 내부 문서들에 적용하여 모든 내부 문서들을 의미단위용어 기반 문서들로 만드는 장치로서,
    a) 의미단위용어 기반 색인에 의미단위용어 주석을 누적시키는 의미단위용어 기반 검색 시스템; 및
    b) 의미단위용어 기반 색인에 저장된 의미 정보를 추출하고 문서 단위로 정렬하여 해당문서에 적용하여 의미단위용어 기반 문서로 만드는 색인 기반 문서정보체계 구축부; 를
    포함하는 의미단위용어 기반 문서정보체계 구축기
  47. 청구항 46에,
    주석지식 및 기본값을 이용하여 주석 대상 문서 내의 주석 대상 자연어 표현에 의미단위용어를 주석하여 의미단위용어 기반 문서로 만드는 주석지식 기반 문서정보체계 구축부; 가
    추가되어 강화된 의미단위용어 기반 문서정보체계 구축기
  48. 전지구적 문서정보체계 또는 특정 문서정보체계를 의미단위용어 기반 문서정보체계로 만드는 장치로서,
    a)자연어 표현과 의미 설명 정보를 획득하여 자연어 표현을 기반으로 의미단위용어를 생성하고, 생성된 용어에 의미 설명 정보를 부착하여 의미단위용어 사전 항목을 만들고, 이들 용어 사전 항목을 수정,병합,삭제하여 용어를 관리하는 의미단위용어 사전 관리기;
    b)주석 대상 문서들에 대해 주석지식 및 기본값을 이용하여 주석 대상 자연어 표현에 의미단위용어를 주석하여 의미단위용어 기반 문서로 만드는 주석지식 기반 문서정보체계 구축부; 를
    포함하는 의미단위용어 기반 문서정보체계 구축기
  49. 각 문서에 들어있는 자연어 표현을 의미단위용어로 주석하는 정보가 쌓여 있는 검색 시스템 색인을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 방법으로서,
    a) 검색 시스템의 색인에 누적된 의미단위용어 주석정보를 문서 위치별로 분류하여 문서별 의미단위용어 주석 정보를 생성하는 문서 주석정보 작성 단계;
    b) 검색 시스템이 수집한 각 문서에 해당 문서에 대한 의미단위용어 주석 정보를 포함시켜 새로운 문서를 만드는 문서 주석 단계; 및
    c) 의미단위용어를 포함시켜 작성된 문서들을 검색시스템의 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 의미단위용어 문서 저장 단계; 를
    포함하는 검색 시스템 색인을 이용한 의미단위용어 기반 문서정보체계 구축 방법
  50. 자연어 표현을 의미단위용어로 주석하는 지식이 모여 있는 주석지식을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 방법으로서,
    a)문서정보체계에 속하는 문서들을 수집하는 문서정보체계 문서 수집 단계;
    b)문서별로 내부에 들어 있는 자연어 표현에 대해 해당하는 주석지식을 검색하여 찾아진 주석지식을 해당하는 자연어 표현에 적용하는 작업을 반복하여 문서 내 모든 자연어 표현에 대해 의미단위용어를 주석하는 주석지식 문서 적용 단계;
    c) 문서별로 주석 작업이 완료되면 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 단계를 반복하여 모든 문서에 대해 의미단위용어 기반 문서로 만드는 주석지식 문서정보체계 적용 단계; 를
    포함하는 주석지식을 이용한 의미단위용어 기반 문서정보체계 구축 방법
  51. 검색 시스템에 포함이 되어있고 색인에 충분한 의미단위용어 정보가 쌓여있는 문서에 대해서는 검색 시스템 색인을 이용하고 색인에 정보가 없는 신규문서 또는 검색시스템 외부 문서에 대해서는 주석지식을 이용하여 인터넷과 같은 문서정보체계를 의미단위용어 기반으로 구축하는 방법으로서,
    a) 문서정보체계에 속하는 문서들을 수집하는 문서정보체계 문서 수집 단계;
    b) 검색 시스템에 포함이 되어 있는 문서들을 대상으로 검색 시스템의 색인에 누적된 의미단위용어 주석정보를 문서 위치별로 분류하여 문서별 의미단위용어 주석 정보를 생성하는 문서주석정보 작성 단계;
    c) 검색 시스템에 포함된 각 문서에 해당 문서에 대한 의미단위용어 주석 정보를 포함시켜 새로운 문서를 만드는 문서 주석 단계;
    d) 의미단위용어를 포함시켜 작성된 문서들을 검색시스템의 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 의미단위용어 문서 저장 단계
    e) 검색시스템에 포함되지 않은 문서들을 대상으로, 문서별로 내부에 들어 있는 자연어 표현에 대해 해당하는 주석지식을 검색하여 찾아진 주석지식을 해당하는 자연어 표현에 적용하는 작업을 반복하여 문서 내 모든 자연어 표현에 대해 의미단위용어를 주석하는 주석지식 문서 적용 단계;
    f) 문서별로 주석 작업이 완료되면 별도 저장 장소에 기존 문서 위치 정보를 포함하여 저장하는 단계를 반복하여 검색시스템에 포함되지 않은 모든 문서에 대해 의미단위용어 기반 문서로 만드는 주석지식 문서정보체계 적용 단계; 를
    포함하는 검색 시스템 색인과 주석지식을 이용한 의미단위용어 기반 문서정보체계 구축 방법
  52. 의미단위용어 기반 정보 체계에서 만들어지는 의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 대한 이견을 집단지성을 이용하여 관리하는 방법으로서,
    a) 의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 대한 이견이 있는 사용자가 토론 주제와 함께 토론 생성 요청을 하면 이를 획득하여 해당 주제에 토론 항목을 생성하는 토론 생성 단계;
    b) 각자의 의견 내용을 획득하여 의견들을 저장하고 보여주는 토론 단계;
    c) 토론에서 합의에 도달하지 못하는 경우 투표 요청을 획득하여 투표 기능을 활성화하고 각자의 투표를 종합하는 투표 단계; 및
    d) 토론 및 투표에서 얻은 결론을 획득하여 의미단위용어 사전 항목의 내용, 주석 내용, 주석지식, 기본값 및 검색지식에 적용하는 토론 결과 적용 단계; 를
    포함하는 의미단위용어 관련 이견 조정 방법
  53. 의미단위용어 기반 정보 체계에서 검색 시스템의 검색 대상 문서의 내용에 대한 주석 필요성에 따라 문서의 보완이나 변경의 필요가 있고 원본 문서를 직접 수정할 수 없는 상황에서 변경된 문서 내용을 저장하고 이용하는 방법으로서,
    a) 변경 요청, 대상 문서 및 문서 주소를 획득하여 원본 문서의 내용과 주소를 별도의 장소에 저장하는 문서 및 주소 저장 단계;
    b) 내용 변경 요청과 변경 내용을 획득하여 해당 문서의 내용을 변경하여 저장하는 문서 내용 변경 단계; 및
    c) 원본 문서의 주소로 변경된 내용 요청을 받으면 저장된 원본 문서 주소를 이용하여 변경된 문서를 찾고 이를 반환하여 이용할 수 있게 해주는 변경 문서 이용 단계; 를
    포함하는 검색 대상 문서 원본과 추가 정보의 통합 후 저장 및 이용 방법
  54. 문서정보체계의 모든 문서들을 단어별로 정렬하고 정렬된 단어들을 단어 단위로 동시에 의미단위용어 주석을 함으로서 전 지구적 문서정보체계 또는 특정 문서정보체계를 효율적으로 의미단위용어 기반화 하는 방법으로서,
    a)문서정보체계의 모든 문서들을 단어별로 정렬하기 위해 단어별 색인을 만드는 단계;
    b)색인 상의 특정 단어 모음을 의미단위별로 분류하는 단계
    c)단어 각각의 의미마다 의미단위용어를 생성하는 단계;
    d)단어의 분류된 모음에 의미단위용어를 주석하는 단계;
    e)각 개별 단어에 주석된 의미단위용어 및 문서 색인 정보를 이용하여 해당 문서에 의미단위용어를 주석하는 단계;
    를 포함하는 단어별 색인을 이용한 문서정보체계 의미단위용어 기반화 방법
  55. 청구항 54에 있어서, 단어별 색인을 위해 검색 시스템을 사용하고 특정 단어 모음을 분류하는 것을 검색 시스템 검색 방법에 의존하는 단어별 색인을 이용한 문서정보체계 의미단위용어 기반화 방법
  56. 청구항 2, 청구항 8, 청구항 9, 청구항 10, 청구항 11, 청구항 12, 청구항 17, 청구항 18, 청구항 19, 청구항 20 청구항 21, 청구항 24, 청구항 30, 청구항 31, 청구항 32, 청구항 36, 청구항 39, 청구항 40, 청구항 42, 청구항 43, 청구항 44, 청구항 45, 청구항 49, 청구항 50, 청구항 51, 청구항 52, 청구항 53, 청구항 54 및 청구항 55 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체
KR1020100053571A 2010-06-07 2010-06-07 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 KR20110133909A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100053571A KR20110133909A (ko) 2010-06-07 2010-06-07 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
PCT/KR2011/004113 WO2011155736A2 (ko) 2010-06-07 2011-06-06 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100053571A KR20110133909A (ko) 2010-06-07 2010-06-07 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치

Publications (1)

Publication Number Publication Date
KR20110133909A true KR20110133909A (ko) 2011-12-14

Family

ID=45098509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100053571A KR20110133909A (ko) 2010-06-07 2010-06-07 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치

Country Status (2)

Country Link
KR (1) KR20110133909A (ko)
WO (1) WO2011155736A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160007040A (ko) * 2014-07-10 2016-01-20 네이버 주식회사 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
KR20160007057A (ko) * 2014-07-10 2016-01-20 네이버 주식회사 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
CN117709375A (zh) * 2024-02-01 2024-03-15 成都帆点创想科技有限公司 文本翻译方法及装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140188456A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Dictionary Markup System and Method
US9946762B2 (en) 2014-09-16 2018-04-17 International Business Machines Corporation Building a domain knowledge and term identity using crowd sourcing
CN110059167A (zh) * 2019-01-23 2019-07-26 艾肯特公司 自然智能的自然表达处理方法、回应方法、设备及系统
CN111008594B (zh) * 2019-12-04 2024-04-19 科大讯飞股份有限公司 改错题评阅方法、相关设备及可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100206814B1 (ko) * 1996-10-25 1999-07-01 구자홍 어휘 자동 분류 장치 및 방법
KR20020036059A (ko) * 2000-11-07 2002-05-16 옥철영 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
KR100784441B1 (ko) * 2005-12-06 2007-12-11 한국전자통신연구원 의미공기정보 지식베이스 구축 방법 및 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160007040A (ko) * 2014-07-10 2016-01-20 네이버 주식회사 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
KR20160007057A (ko) * 2014-07-10 2016-01-20 네이버 주식회사 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
CN117709375A (zh) * 2024-02-01 2024-03-15 成都帆点创想科技有限公司 文本翻译方法及装置
CN117709375B (zh) * 2024-02-01 2024-05-24 成都帆点创想科技有限公司 文本翻译方法及装置

Also Published As

Publication number Publication date
WO2011155736A9 (ko) 2012-06-21
WO2011155736A3 (ko) 2012-04-19
WO2011155736A2 (ko) 2011-12-15

Similar Documents

Publication Publication Date Title
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US8473473B2 (en) Object oriented data and metadata based search
Kandogan et al. Avatar semantic search: a database approach to information retrieval
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
CN102810114A (zh) 基于本体的个人计算机资源管理系统
Haase et al. Semantic wiki search
US20070271228A1 (en) Documentary search procedure in a distributed system
Cimiano et al. Linguistic linked open data cloud
KR101441219B1 (ko) 정보 엔터티들의 자동 연관
JP2001290843A (ja) 文書検索装置及びその方法並びに文書検索プログラム及びそのプログラムを記録した記録媒体
Papadakos et al. On exploiting static and dynamically mined metadata for exploratory web searching
Jutta et al. Linguistic variation in the Austrian Media Corpus. Dealing with the challenges of large amounts of data
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
Abu Rasheed et al. A text extraction-based smart knowledge graph composition for integrating lessons learned during the microchip design
Thollot et al. Text-to-query: dynamically building structured analytics to illustrate textual content
Weikum et al. Temporal knowledge for timely intelligence
KR101072147B1 (ko) 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템
KR20010107810A (ko) 웹 검색시스템 및 그 방법
Angrosh et al. Contextual information retrieval in research articles: Semantic publishing tools for the research community
Bojārs et al. The requirements for semantic annotation of cultural heritage content
Li et al. Characterizing Emerging Technologies of Global Digital Humanities Using Scientific Method Entities.
Clough et al. Extending Domain-Specific Resources to Enable Semantic Access to Cultural Heritage Data.
Asfoor et al. Unleash the Potential of Upstream Data Using Search, AI and Computer Vision
Alias et al. Application of semantic technology in digital library
Goel et al. Semantic Web Engineering: Boon or Bane

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application