KR20070112730A

KR20070112730A - 지능형 정보 검색 처리 시스템 및 방법

Info

Publication number: KR20070112730A
Application number: KR1020070049690A
Authority: KR
Inventors: 쟈오 카이하오
Original assignee: 쟈오 카이하오
Priority date: 2006-05-22
Filing date: 2007-05-22
Publication date: 2007-11-27
Also published as: DE112007000053T5; SMAP200800032A; SMP200800032B; CN1845104A; CN1845104B; WO2007143899A1; US20080235190A1; JP2007317188A

Abstract

지능형 정보 검색 처리 시스템 및 방법이 제공된다. 본 발명의 일 실시예에 따른 지능형 정보 검색 처리 시스템은, 파일, 영상, 오디오, 비디오 데이터에 대해 처리하여 데이터를 분석하고 해석하며 색인화한 지식단위 컨텐츠를 원활하고 정확하게 정보를 색인할 수 있는 지능형 데이터 처리 서브시스템과, 지능형 데이터 처리 서브시스템이 접속되며 다수의 상징 정보 및 처리를 가속화하기 위해 형성된 중간 결과가 저장된 처리용 데이터베이스와, 처리용 데이터베이스와 접속되는 발표 및 관리 모듈과, 발표 및 관리 모듈과 접속되는 검색용 데이터베이스와, 검색용 데이터베이스를 조회하고 관련된 내용을 지능형 검색하며 전체 플랫폼을 제공하며 사용자의 검색요구를 통일적으로 처리하는 지능형 검색 서비스 서브시스템을 포함하며, 발표 및 관리 모듈은 심사 비준된 컨텐츠 및 색인정보와 지능형 검색 서비스 서브시스템에서 현시된 데이터를 동기화하며, 데이터를 동기화하고 처리용 데이터베이스에 있는 컨텐츠를 검색용 데이터베이스로 동기화하고 검색 과정에서 나타나는 피드백 정보를 검색용 데이터베이스로부터 처리용 데이터베이스로 동기화하는 데이터 발표 및 동기화 모듈 및 데이터 조회에 대한 권한을 설정하는 데이터 개방 관리 모듈을 포함한다.

검색엔진, 지능형 검색, 삼원관계

Description

지능형 정보 검색 처리 시스템 및 방법{System and Method of Intelligently Searching and Processing Information}

도 1은 본 발명의 일 실시예에 따른 색인삼원관계 모형도.

도 2는 본 발명의 일 실시예에 따른 인물 색인키워드 사이의 관계도.

도 3은 본 발명의 일 실시예에 따른 관계키워드 사이의 관계도.

도 4는 본 발명의 일 실시예에 따른 "역관계"의 추론 방법을 나타내는 도면.

도 5는 본 발명의 일 실시예에 따른 "2차전달"의 추론 방법을 나타내는 도면.

도 6은 본 발명의 일 실시예에 따른 "동일 주어"의 추론 방법을 나타내는 도면.

도 7은 본 발명의 일 실시예에 따른 "대칭"의 추론 방법을 나타내느니 도면.

도 8은 본 발명의 일 실시예에 따른 지능형 정보 검색 처리 시스템을 나타내는 도면.

도 9는 본 발명의 일 실시예에 따른 지능형 정보 검색 처리 방법의 공정도.

<도면의 주요 부분에 대한 부호의 설명>

1: 데이터 처리 서브시스템

2: 처리용 데이터베이스

3: 발표 및 관리 모듈

6: 검색용 데이터베이스

7: 검색 서비스 서브시스템

본 발명은 지능형 정보 검색 처리와 관련된 시스템 및 방법에 관한 것한 것으로서, 특히, 파일, 영상, 오디오, 비디오의 지능형 검색 처리와 관련된 시스템 및 방법에 관한 것이다.

데이터 정보와 문서를 유효하게 검색하고 처리하는 것은 데이터베이스 응용 영역에서 핵심이고 중요 내용이므로 각 전자 데이터, 문헌, 상업 데이터베이스 자원 및 인터넷 컨텐츠 검색 활용에서 널리 사용된다.

현재 이 영역에서 데이터 정보 검색 기술은 보통 키워드 통계방법으로서 키워드의 논리식(Boolean expression)으로 어구를 조회한다. 파일 데이터베이스에 대해 키워드와 키워드를 파일에 나타난 사전을 사용함으로써 어구 조회의 키워드와 파일 데이터베이스 사전에서 키워드를 비교하여 상응한 파일을 찾아낸다. 그밖에 또 어떤 것은 모호한 논리적 모형, 벡터 공간 모형 및 확률 검색모형 등을 개선하여 이용하였다.

그러나 이러한 방식은 단지 전체 문서를 단위로 검색하며 또한 키워드 검색 및 전체 문서 사이에 비슷한 정도는 현재 향상 및 개선을 위해 노력하는 단계이며 아직 만족한 해결방안이 없으므로 정보검색 결과가 아주 정확함을 실현할 방법이 없다. 예로서, 뜻이 같지만 형식이 다른 키워드를 찾을 수 없거나 형식은 같지만 뜻이 다른 키워드를 찾아낸다. 전체 문서 내부에 포함된 각종 데이터와 정보에 대하여 이러한 방식으로 단독으로 식별하고 구분할 수 없으며, 더욱이 지식 속성 관계를 근거로 처리 및 활용을 진행하거나 다른 문서 내용 사이의 교차분석 및 비교를 실현할 수 없으며, 또한 다른 문서 사이의 정보 컨텐츠를 여러 차례 처리하고 활용할 수 없다.

현재 각종 데이터베이스에서 지식 처리 및 검색 결과는 전체 문서를 최소 단위로 하므로 전체 문서에 포함된 지식속성이 매우 다양하여 이러한 방식은 지식처리 및 검색 결과를 제공하는 부분에서 문제가 존재한다.

현재 지식처리 부분에서 작업은 모두 주제어 인덱싱, 개별적인 키워드 주석표시, 문서 요약 방식을 통해 전체 문서에 대한 속성을 표지하여 검색과정에서의 검색 키워드로 한다. 이러한 방식은 아직 전체 문서의 모든 지식 정보를 충분히 반영할 수 없으며, 최종 결과는 검색 결과에서 문서 결함(缺失)으로 표현된다.

검색 결과를 제공하는 부분에서 전체 문서가 소지하는 수많은 비관련 정보가 불필요한 결과를 만들어 내고 결과의 정확성에 영향을 미치며 최종 결과는 검색 결과에서 문서가 범람하여 유효성이 저하된다.

상술에서 존재하는 문제를 해결하기 위하여 본 발명은 새로운 지능형 정보 검색 처리 시스템 및 방법을 제공하여 데이터 정보와 문서에 포함된 각종 검색문제 를 해결하며, 문서에서 다른 키워드 사이에서나 다른 문서 사이의 키워드 사이에서 정보, 지식을 비교, 분석하고 정보 데이터의 지능 처리 요구 및 관계를 새로 구축하여 "은함지대(隱含指代)"와 같은 비교적 복잡한 검색 요구를 지지할 수 있으며 동시에 시스템을 지지하는 다양한 형식의 위치 표현 기술을 통해 파일, 영상, 오디오, 비디오 등 다양한 매체 형식을 내재한 컨텐츠를 모두 검색하고 처리할 수 있다.

본 발명은 아래와 같은 방안을 통해 실현한다.

본 발명의 일 실시예에 따른 지능형 정보 검색 처리 시스템은, 파일, 영상, 오디오, 비디오 데이터에 대해 처리하여 데이터를 분석하고 해석하며 색인화한 지식단위 컨텐츠를 원활하고 정확하게 정보를 색인할 수 있는 지능형 데이터 처리 서브시스템과, 지능형 데이터 처리 서브시스템이 접속되며 다수의 상징 정보 및 처리를 가속화하기 위해 형성된 중간 결과가 저장된 처리용 데이터베이스와, 처리용 데이터베이스와 접속되는 발표 및 관리 모듈과, 발표 및 관리 모듈과 접속되는 검색용 데이터베이스와, 검색용 데이터베이스를 조회하고 관련된 내용을 지능형 검색하며 전체 플랫폼을 제공하며 사용자의 검색요구를 통일적으로 처리하는 지능형 검색 서비스 서브시스템을 포함하며, 발표 및 관리 모듈은 심사 비준된 컨텐츠 및 색인정보와 지능형 검색 서비스 서브시스템에서 현시된 데이터를 동기화하며, 데이터를 동기화하고 처리용 데이터베이스에 있는 컨텐츠를 검색용 데이터베이스로 동기화하고 검색 과정에서 나타나는 피드백 정보를 검색용 데이터베이스로부터 처리용 데이 터베이스로 동기화하는 데이터 발표 및 동기화 모듈 및 데이터 조회에 대한 권한을 설정하는 데이터 개방 관리 모듈을 포함한다.

본 발명의 일 실시예에 따른 지능형 정보 검색 처리 방법은, 검색 조건을 입력하는 단계와, 검색 조건에 대하여 코드변환과 색인의 복잡도를 평가하는 사전 처리를 하는 단계와, 처리된 검색 조건을 직접 검색, 고급 조합 검색, 분류 브라우징 검색, 전문 검색, 지능형 논리 검색으로 분류하여 직접 검색, 고급 조합 검색, 분류 브라우징 검색은 직접 관계 검색 엔진을 통해 검색하고 전문 검색은 전문 검색 엔진을 통해 검색하며 지능형 논리 검색은 논리적 관계 연산을 통해 조건을 재결합한 후에 다시 관계 검색 엔진으로 검색하는 단계와, 관계 검색 엔진 또는 사익 전문 검색 엔진을 통해 얻어진 검색결과를 반환하는 단계를 포함한다.

본 발명은 심도 있게 분석하여 해석한 인덱싱 파일 컨텐츠 및 고도로 원활한 지능형 색인 메커니즘을 기초로 한 다매체 검색 방법과 색인 시스템을 구축하였다. 삼원관계 모형을 설계하고 실현하여 한자 단어 사이에 대한 관계를 다각도로 묘사하였다. 원활하고 효율적인 교차색인 체계를 구축하였다. 또한, 이 교차색인 시스템 기반 상에서 어의 분석 기능이 있는 지능형 검색 기술을 실현하였다. 동시에 컨텐츠 인덱싱 방법에 대한 규범화를 통해 문자 단어 및 관련된 내용을 대비하여 더욱 지능화하여 "은함지대(隱含指代)"와 같은 비교적 복잡한 검색요구를 지지할 수 있다. 동시에 지능 시스템이 지지하는 다양한 형식의 위치 표현기술을 통해 문자 및 영상, 리스트, 오디오, 비디오 등 다양한 매체 형식을 포함한 내용을 모두 검색할 수 있다.

아래에서 첨부된 도면과 구체적인 실시예를 결합하여 본 발명에 대해 더욱 상세히 서술한다.

본 발명의 출발점은 검색 혹은 처리된 정보 컨텐츠에 내재된 함의 및 구조를 분석하고 해석하여 이 기초로 검색 및 처리 체계를 구축한다. 때문에 본 발명은 파일에서 비교 대조하는 제한을 전혀 받지 않으며, 한편으로 함의를 정확하게 할 수 있다. 즉, 무관하거나 단지 문자 표면상 같은 정보를 포함하지 않는다. 한편으로는 정보를 완벽히 할 수 있다. 즉, 문자 표면은 다르지만 함의가 같거나 혹은 사용자가 지정한 관련된 특징이 있는 정보를 제공할 수 있다.

다른 한편으로는 본 발명은 고도로 원활한 지능 색인 메커니즘을 구축하여 이를 기초로 한편으로 각종 분류 정보의 과학성을 충분히 보증하며 다른 한편으로는 사람들의 각종 습관과 약속된 용이성에 적합하도록 구비되었다.

본 발명은 현재 기존 검색엔진과 검색서비스 시스템을 배척하지 않으며, 반대로 본 발명은 현재 기존 검색 엔진과 검색 서비스 시스템이 탁월하게 집적화되어 서로 다른 검색요구에 의해 상응한 기능을 발휘할 수 있으며, 또 더욱 강대한 검색 서비스 능력을 조합할 수 있다.

본 발명에서 컨텐츠의 정확한 검색은 지식형식으로 검색결과를 분석하여 해석한다. 이런 분석하여 해석하는 방법은 두 가지 순서가 포함된다. 첫 번째는 검색결과 자체를 분석하고 해석하여 완벽하고 독립적인 함의를 특징으로 한 "지식단위(blocks of knowledge)" 혹은 "지식편"을 형성하는 것이다. 두 번째는 컨텐츠에 포함된 키워드를 추출하여 키워드의 함의에 관련도 정보 및 "은함지대" 등 관계된 유효한 키워드를 강화하여 주요정보의 지식속성을 풍부히 한다. 관련도가 크지 않은 무효 키워드를 제거하여 모든 데이터원에서 상대로 검색할 때 부차적인 정보가 주요 정보를 방해하는 것을 감소시킨다.

본 발명의 지능검색 방식은 색인분류 열람에 의한 방식과 문헌 키워드에 의한 방식의 일반적인 두 가지 검색 방식을 결합하였다. 일반적인 검색엔진과 다른 점은 본 발명에서는 색인 분류에 의해 열람하며 흔히 보는 학과, 습관 등 분류방법과 구성원의 종속 관계에 의한 세밀한 분류 외에 또 등가별명(等价別名) 관계 및 배경 참고 관계를 근거하여 두 가지 횡방향으로 확장시킨 검색방법을 제공하였다. 흔히 사용하는 시스템에서 관련된 링크점프와 달리 이런 횡방향 검색방법은 여전히 색인분류에 의해 진행되며 명확한 지향성이 있다. 일반적으로 사용되는 검색엔진과 다른 면은 본 발명에서는 파일 키워드와 알맞게 검색을 진행하며 명칭이 같지만 뜻이 다른 키워드를 검색 가능하다. 이것은 검색 사용자가 시스템의 제시를 통해 명칭이 같지만 뜻이 다른 키워드와 관련된 정보를 분명히 알 수 있으며 직접 2차 검색을 재빨리 하여 자신이 필요한 결과 모음 위치를 정할 수 있다.

본 발명은 자연적인 어의에 의해 자연 어의를 완벽히 표현하는 최소단위로서 지식단위의 구분 표준을 제공한다. 즉 지식처리시 매 하나의 지식단위의 속성을 철저히 하여 검색결과가 나타날 때 반응이 정확하며 불필요한 정보를 감소시킨다.

본 발명인 지능형 정보 검색 처리 시스템은 완전히 인간의 자연필요의 본능의 사고 논리적으로 분류한 시스템이다. 본 발명은 인류검색과 사용지식의 사고 방식으로 정보를 12가지 종류로 구분하였다. 즉, 인물, 사건, 시간, 지점, 물품, 생 물, 의물(衣物: 옷과 일상용품), 식물, 거주물(住物), 행물(行物), 체육물(育物), 악물(樂物), (다음과 같이 약칭한다. 인, 사, 시, 지, 물, 생, 의, 식, 주, 행, 육, 악)로 구분하며 각각의 큰 종류는 또다시 약간의 하위분류(下位分類)를 세밀히 나누었다.

예를 들어 인물의 하위분류에서 사람의 성명, 사람의 성별, 사람의 출생지 등으로 분류한다. 각각의 하위분류는 또 다시 약간의 하위분류가 있다. 예를 들어. 사람의 성명에서 또 조씨, 장씨, 이씨 등으로 분류한다. 이렇게 나무모양의 다순서 구조(트리구조)로 형성되며 색인구조 30단계면 각종의 세밀한 데이터를 충분히 표현할 수 있다. 각각의 큰 종류와 그 하위분류의 색인은 모두 상응한 코드로 표시한다. 이를 기초로 다시 색인의 2차 처리를 하며 색인구조의 배경정보를 인덱싱하여 재배열 및 합류를 통하여 고도로 원활, 정확, 다위지향(多維指向), 상호교차된 지능화 색인을 형성시킨다.

각종 정보 데이터는 각종 문헌, 전자데이터가 포함되며 그 컨텐츠의 길이 혹은 용량에 따라 약간의 지식단위로 나눈다. 문헌 지식단위의 용량은 600개 문자 이내로 정하며 이 지식에 대한 단위 번호를 매긴다. 다음 각각의 지식단위 컨텐츠에 대해 분석하고 해석하며 각 키워드를 상술한 분류방법에 따라 번호를 매긴 후 상술한 트리구조의 하위분류에 대응시킨다.

본 발명의 분류 방법은 과거에 전통적인 전문 분류 논리와 본질상에서 구별이 있으며 전통적인 분류 개념을 완전히 타파하였다. 현재 기타 각종 전문 분류방법은 주로 전문구조의 순서에 부합됨을 근거로 하지만 사람들의 자연지식 필요에 만족 되는지를 고려하지 않아서 통융성 정도가 높지 않다. 사용자가 자연지식의 필요를 근거한 검색요구에 대해 실현하는 과정에서 변환하는 복잡한 정도가 높아 적용되지 않는다.

본 발명의 또 하나의 특징은 기타 각종 전문 분류법을 포함할 수 있으며, 본 발명의 분류방법은 인류의 기본지식의 필요를 바탕으로 착안하였기 때문에 그 분류 각도의 보편적 적용성으로 기타 각종 전문 분류방법을 포용, 포괄하는 것을 바탕으로 각종 서로 다른 분류 방법을 통일, 정합하여 지식처리 및 사용상 정합을 위해 기술조건을 창조할 수 있다.

본 발명에서 고도로 원활한 지능색인 메커니즘 구축의 실현은 하나의 자체포함, 자체조직의 삼원관계 모형(三元關系模型)을 구축한 것이다. 각종 흔히 쓰는 언어는 모두 주요 어법구조(주어, 술어, 목적어)로 구비되었다. 본 발명은 이러한 삼원 관계를 모방하였으며 삼원관계를 근거로 한 모형의 데이터를 표현, 저장 및 검색한다.

도 1에 표시한 바와 같이 본 발명의 삼원관계 모형은 삼원조(三元組) Ka, Kr, Kb 형식을 이용하였으며 그 중에서 Ka는 키워드 a을 대표하며，Kb는 키워드 b를 대표하며，Kr은 키워드 a와 키워드 b 사이의 관계를 대표한다. 이 삼원조 형식은 키워드 사이의 세 가지 유형의 관련 관계를 표시 및 실현하며 성원의 종속관계, 등가별명(等价別名) 관계 및 배경참고 관계를 포함한다.

매 유형에서 계속하여 세밀히 분류할 수 있으며, 동시에 각종 관계 사이에서 여전히 세 가지 유형의 관련을 실현할 수 있다. 이러한 삼원관계 모형을 기초로 연 산하여 논리적 함의를 포함한 검색이 가능하며 단순한 키워드를 조합한 조회방식과는 다르다.

Kr_r은 키워드 사이의 관계를 대표하며 예를 들어 역관계, 2차 전달, 동일 주어, 대칭 등의 관계이다. Kr'은 Kr이 Kr_r에 근거하여 유도해낸 관계를 대표하며 이로서 Ka' 키워드와 Kb' 키워드 사이에 새로운 관계 Kr'이 갖추어 진다.

도 2는 인물 색인 키워드 사이의 관계의 한가지 예이다. 시스템에서 인물의 키워드는 아래와 같은 3개의 삼원조가 포함된다고 가정한다.

(장노삼, 아들, 장삼) (장삼, 아들, 장소삼) (장삼, 아들, 장소사).

또한, 도 3에서 표시한 바와 같이 시스템에서 관계 키워드의 삼원조에 대한 정의는 아래와 같다.

(아들, 역관계, 부친) (아들, 2차전달, 손자) (아들, 동일 주어, 형제) (형제, 대칭, 형제).

그러면 시스템은 기타 정보가 증가 되지 않은 상황하에서 아래와 같은 결론을 자동으로 추론한다.

도 4에 표시한 바와 같이 "역관계"에 근거하여 다음과 같이 추론할 수 있다.

(장삼, 부친, 장노삼) (장소삼, 부친, 장삼) (장소사, 부친, 장삼).

도 5에 표시한 바와 같이 "2차전달 관계"는 아래와 같이 추론할 수 있다.

(장노삼, 손자, 장소삼) (장노삼, 손자, 장소사).

도 6, 도 7에서 표시한 바와 같이 "동일 주어 관계"에 의해 (장소삼, 형제, 장소사)을 추론할 수 있으며 이를 기초로 "대칭관계"에 의해 (장소사, 형제, 장 소삼)을 추론할 수 있다.

다만, 추론한 선후 순서는 상황에 따라 달라질 수 있다.

이상 결과는 관계 키워드의 삼원조를 단지 한번 활용한 결론이며 만약 여러번 조합 활용하면 더욱 많은 논리적 결과가 출현할 수 있다.

기존에 있는 검색 시스템과 비교시 상술한 추론은 아래와 같은 특징이 있다.

1. 기초 데이터양이 대폭으로 감소한다. 상기 예에서 기초 데이터는 단지 3사람의 삼원조와 4개관계의 삼원조이지만 현재의 기존 검색 시스템은 서로 다른 검색요구를 만족시키기 위해 완벽한 기초 데이터가 필요하며, 상기 예에서 모든 추론의 결론을 전부 기초 데이터로 하여 시스템에 입력할 필요가 있다.

2. 검색 가능한 데이터가 대폭으로 증가한다. 상기 예의 추론에서 보면 사용자가 검색가능한 데이터는 기초 데이터의 양에만 의존하지 않으며 관계 삼원조의 수량과 관련된다. 관계 삼원조는 아주 강한 통용성이 있기 때문에 하나의 관계 삼원조를 증가하면 검색 데이터의 증가가 몇 배에서 심지어 기하급수적으로 증가한다.

3. 데이터 관계의 일치성이 더욱 강화된다. 대량의 결론은 시스템이 논리적으로 추론하여 획득하기 때문에 엄밀한 논리성이 있다. 하지만 현재의 기존 검색 시스템의 기초 데이터가 모두 단독으로 데이터에 입력되었기 때문에 동시에 (장노삼, 아들, 장삼) (장삼, 형제, 장노삼)의 상황이 나타날 가능성이 있어서 데이터의 일치성을 보장하지 못한다.

4. 관계의 확장성이 있다. 상기 예의 추론에서 보면 단지 논리적 관계 삼원조에 부합되면 시스템에서 정의하는 것이 가능하며, 이와 같이 생활 경험 및 현재에 있는 과학 기술 발전상황을 총결해서 나온 관계가 시스템에서 실현이 가능하며 동시에 사회 및 과학기술이 부단히 진보함에 따라 새로운 관계가 끓임없이 출현하지만 이러한 새로운 관계 역시 시스템에서 실현이 가능하다. 또한, 새로운 정의의 관계 삼원조에 대해 이전의 모든 데이터가 즉시로 상응한 조직을 얻어 조회에 대비한다.

본 발명은 지식단위 인덱싱 방법을 이용하였으며 키워드의 삼원모형과 유사하고 지식단위의 인덱싱은(C, R, K)조와 (Ca, R, Cb) 삼원조를 이용하여 나타내고 실현한다. 그 중 C는 지식단위의 컨텐츠를 나타내며 K는 키워드를 나타내며 R은 지식단위와 키워드 사이의 관계를 나타낸다. Ca은 지식단위 a의 컨텐츠를 대표하며 Cb는 지식단위 b의 컨텐츠를 대표하며 R은 지식단위 a와 지식단위 b 사이의 관계를 대표한다. 이 방법은 지식단위에서 키워드의 위치, 길이, 관련도 및 지식단위 사이의 상호 인용 등 관련된 지식을 기록한다. 이런 인덱싱을 통해 한편으로 지식단위를 구조화 방식으로 나타낼 수 있으며 사용자의 관련된 정보의 요구를 만족시킨다. 동시 다른 한편으로는 지식 출처의 최초 방식으로 나타낼 수 있다.

그밖에 (C, R, K) 삼원조를 통해 인덱싱 방법은 지식단위 중의 “지대(指代: 지시대명사)” 관계를 충분하게 해결하였다. 예를 들면, 하나의 지식단위에서 나타난 대명사 “그”에 대해 삼원조에서 확정한 실제 지대(指代) 목표를 통해 시스템은 사용자에게 지대 목표의 검색을 제공할 수 있으며 문자상 같거나 비슷한 경우 만 국한되는 것이 아니다.

도 8은 본 발명에서 정보지능 검색처리 시스템의 전체구조를 나타낸다. 본 시스템은 지능형 데이터 처리 서브시스템(1), 처리용 데이터베이스(2), 발표 및 관리 모듈(3), 검색용 데이터베이스(6), 지능형 검색 서비스 서브시스템(7)이 포함되며 그 중 발표 및 관리 모듈(3)은 데이터 발표 및 동기화 모듈(4), 데이터 개방 관리 모듈(5)이 포함된다.

데이터 처리는 지능형 데이터 처리 서브시스템(1)에서 이루어진다. 데이터는 여기에서 서로 다른 매체의 각종 출처를 처리한 후 심도있게 분석하고 해석하여 인덱싱한 파일 혹은 기타 매체 형식의 컨텐츠 및 원활하고 정확한 지능 색인 정보로 된다. 이 단계에서는 주로 처리용 데이터베이스(2)에 대해 작업하며 최종 검색에 사용되는 각종 정보 외에 처리용 데이터베이스(2)에는 표지 정보 및 가속화 처리를 위해 형성된 중간 결과가 아직 대량으로 저장되어 있다.

데이터 처리 단계에서 전체 처리과정은 3개의 절차로 나뉜다.

첫째, 기초 데이터 처리는 파일 컨텐츠의 정확성에 대한 처리 절차이다. 이 절차에서 시스템은 데이터베이스에 입력하는 데이터를 교정하며 교정하는 컨텐츠는 문자, 목록과 단락순서, 주석(注釋)의 인용 등이 포함된다. 본 발명은 표준 유니코드의 폰트 중 포함되거나 포함되지 않은 대량의 희소한 한자를 지지할 수 있으며 즉 이체자(異體字) 혹은 영상문자(圖像字)를 조회하고 표시할 수 있다. 이것은 이체자 혹은 영상문자에 대해 번호를 매긴 후 실현할 수 있다.

둘째, 기초 데이터의 정확성을 보증하는 전제 조건하에서 지식단위의 지능 처리를 한다. 이 절차에서 시스템은 원래 자연단을 기초단위로 한 데이터를 분석하고 해석하여 독립적이고 완벽한 함의가 있는 "지식단위"로 형성된다. 동시에 시스템은 이 절차에서 "지식단위" 및 색인키워드 사이의 관련 관계를 맺는다.

데이터 처리의 세 번째 절차는 지능형 색인 처리로서 위 절차인 지식단위의 지능 처리가 실제 작업 중에서 동시에 진행하며, 지능형 색인 처리는 지식단위의 지능 처리에서 추출한 키워드에 대해 색인화 처리가 필요하며, 색인화 처리를 거친 결과를 다시 2차 처리하여 원활하고 정확하며 다위지향(多維指向), 상호교차된 지능화 색인을 편성해 낸다.

지능화 색인의 반작용은 지식단위 과정에 있으며 사용자의 다양한 요구에 따라 새로운 분류, 배열, 합류을 형성하며 문헌, 리스트, 영상, 오디오, 비디오를 2차, 3차 혹은 수차 형성한다.

또한, 지능형 데이터 처리 서브시스템(1)은 공정 관리와 제어 모듈이 포함되며 상기 절차 중의 중간결과, 데이터 상태에 대해 관리한다.이 모듈 자체는 데이터에 대해 직접 영향이 발생하지 않지만 데이터의 행방에 대하여 감시와 통제 및 관리를 한다.

발표 및 관리모듈(3)은 발표 및 관리의 임무를 담당한다. 이 모듈은 주로 백그라운드에서 심의하여 비준한 내용 및 색인 정보와 포어그라운드의 데이터를 동시에 시행한다. 실현과정은 투웨이 방식이며 주요 데이터 흐름은 처리용 데이터베이스(2)에서 검색용 데이터베이스(6)로 이루어진다. 그러나, 이와 동시에 어떤 검색과정에서 피드백된 정보도 검색용 데이터베이스(6)로부터 처리용 데이터베이스(7) 로 동기화한다. 이러한 데이터 동기화 과정은 데이터 발표 및 동기화 모듈(4)이 실행한다. 발표 및 관리모듈(3)의 또 하나의 중요한 임무는 바로 데이터 조회에 대한 권한 설정이며 데이터 개방 관리 모듈(5)이 담당하는 기능이다.

네트워크 사용자의 검색 작업은 지능형 검색 서비스 서브시스템(7)에서 완성한다. 사용자가 횡방향의 통용 검색 및 상하방향의 전문 검색(통용 검색 요구는 일상용 키워드 혹은 키워드 조합의 검색 요구를 말하며 전문 검색 요구는 본 시스템을 통해 제공되는 분류법의 검색요구를 말한다.)을 포함한 검색 요구를 하면 이에 상응한 내부 검색 요구로 변환되어 컨텐츠와 색인 정보에 대해 지능검색을 진행한다. 또한, 시스템은 이 단계에서 공용 조회 인터페이스를 제공하여 일부분의 전공검색을 위한 서비스를 요구한다. 예를 들어, 기타 웹사이트도 본 시스템의 링크를 통하여 전공 검색 서비스를 제공할 수 있다.

본 시스템은 하나의 공용 지능형 검색 플랫폼 및 지능형 검색 서비스 플랫폼을 제공하며 서로 다른 사용자로부터 온 각종 검색 요구를 통일적으로 처리한다. 이를 기초로 시스템 자체는 풍부하고 관련된 컨텐츠 획득을 목적으로 한 횡방향의 웹사이트 통용 검색 서비스(8)의 기능과 전문 지식 획득을 목적으로 한 상하방향의 웹사이트 전용 검색 서비스(9)를 제공한다. 또 상기한 공용 방문 인터페이스는 전용 검색 서비스(10)의 형식으로 제공한다.

도 9는 본 발명의 지능형 정보 검색 처리 방법 및 사용자(11)의 검색요구에 대해 본 발명이 처리하는 방법을 설명한다. 도면에서 사각형은 각종 처리 작업을 표시하며 원통형은 색인 데이터(61)와 내용 데이터(62)의 검색용 데이터베이스를 표시한다. 도면에서 실선 화살표는 작업의 공정을 표시하며 점선 화살표는 주요한 데이터 행방을 표시한다.

실제 작업에서 사용자(11)는 주로 본 시스템을 통해 제공된 웹사이트 혹은 개방 인터페이스를 통하거나 본 시스템의 기타 시스템 사용자의 인터페이스에 컷오버하여 검색 조건(12)을 입력한다. 제공되는 키워드 입력과 색인 브라우징 두 가지 입력 방식을 제외하고 본 시스템은 또한 병음(표음문자로 표기하는 것)을 사용하거나 획순(筆順) 입력방식으로 유니코드 폰트 중에 포함되거나 포함되지 않은 다수의 희소한 한자를 제공한다.

시스템이 사용자의 검색요구를 획득한 후 본 시스템은 검색조건에 대해 사전처리(13)를 진행한다. 그 중 일상용 코드전환(14) 기술이 포함된 동시에 색인 복잡도 평가(15) 기술도 포함되었다. 사전 처리 조건(13)을 거친 후 검색요구는 통상적인 간편 직접 검색(16), 고급조합 검색(17), 분류 브라우징 검색(18), 전문 검색(19) 및 지능 논리적 검색(20)으로 세밀하게 분류한다.

앞의 세 가지는 일상적인 검색방식을 직접 관계 검색엔진(22)을 통해 검색하며 전문 검색(19)은 직접 전문 검색엔진(23)을 통해 검색하지만, 지능형 논리 검색(20)은 논리관계연산을 통해 조회조건을 재조합 후 다시 관계 검색엔진(22)으로부터 검색한다. 이 논리적 관계연산은 상술한 삼원관계 모형, 분류 색인베이스와 지식단위 인덱싱의 방법이다. 최종 관계 검색엔진(22)과 전문 검색엔진(23)이 검색결과를 획득한 후 시스템은 검색조건 및 검색결과를 내재한 논리적으로 연계한 인터페이스를 사용하여 충분히 나타낼 수 있으며 검색결과(24)를 반환한다.

본 발명에 관련된 시스템 및 방법은 독립된 컴퓨터뿐만 아니라 국부지역 네트워크, 기업 내부의 네트워크, 인터넷, 등 다양한 환경하에서 사용될 수 있으며, 시스템 사용자는 정보 컨텐츠 검색이 필요한 임의의 사람들로 확장시킬 수 있다.

본 발명은 정보 컨텐츠의 지능화 검색 및 처리를 실현할 수 있으며, 진정으로 검색소원에 부합하여 검색결과의 불필요한 부분을 극대화로 감소시키며, 임의의 지식원 사이에 지식원 순서를 근거로 새로운 정보 컨텐츠와 지식의 지능화 조합을 실현한다. 임의의 정보 컨텐츠를 기초로 사람, 사건, 시간, 지점, 물품 등 인류의 기본생산, 생활, 활동에 통용되는 속성 사이의 지능화 분류, 배열, 합류과정을 실현한다.

본 발명의 특정한 실시 예에서 발명의 내용에 대해 상세한 설명을 하였다. 본 발명의 기술분야에서 통상의 지식을 가진 자의 입장에서 본 발명 원리를 위배하지 않는 조건하에서, 이에 대해 분명히 알 수 있는 그 어떤 변경을 하면 본 발명의 특허를 침해한 것으로 구성되며 이에 대한 상응한 법률 책임을 져야한다.

본 발명은 아래와 같은 현저한 효과를 갖는다.

1. 정보 컨텐츠 검색을 정확히 하며 검색요구에 진정으로 부합되며, 최대한도로 검색결과에서 불필요한 결과를 감소시킨다.

2. 검색과정에서 사용자의 다양한 요구를 만족시킬 수 있다.

3. 시스템의 풍부한 지식배경과 정확한 지식 발산 방법을 통해 지식을 근거로 한 비정보의 검색결과를 제공할 수 있다.

4. 지식원 사이를 근거로 지식원 순서에서 전부 새로운 정보 컨텐츠 및 지식을 임의로 조합할 수 있으며, 정보 컨텐츠를 근거로 사람, 사건, 시간, 지점, 물품 등 인류의 기본생산, 생활, 활동의 통용 속성 간에 교차 비교하여 파일, 영상, 오디오, 비디오 등 다양한 매체 형식을 포함한 내용을 2차 처리하여 자동적으로 2차, 3차 혹은 여러 차례의 문헌을 형성한다.

5. 바다처럼 넓은 지식에 대한 활성화와 2차 처리를 실현할 수 있으며, 정보를 지식으로 빠르고 질서 정연하게 변환할 수 있다.

6. 인류의 생산, 생활, 활동에서 각 방면 및 서로 다른 지식점을 포함하여 넓은 정보검색에서 최적화된 지식 방법 문제를 해결함으로써 더 우수한 완벽성을 실현한다.

7. 인류가 지식에 대한 주관 필요에 충분히 대응하여 탁월한 통용성과 적용성이 구비되어 정방향, 역방향에서 검색이 가능하며 조회 및 저장, 작업이 편리하여 교육이 필요 없다.

Claims

파일, 영상, 오디오, 비디오 데이터에 대해 처리하여 데이터를 분석하고 심도 있게 해석하고 색인화한 지식단위 컨텐츠와 원활하고 정확한 정보를 색인하는 지능형 데이터 처리 서브시스템;

상기 지능형 데이터 처리 서브시스템이 접속되며 다수의 상징 정보 및 처리를 가속화하기 위해 형성된 중간 결과가 저장된 처리용 데이터베이스;

상기 처리용 데이터베이스와 접속되는 발표 및 관리 모듈;

상기 발표 및 관리 모듈과 접속되는 검색용 데이터베이스; 및

상기 검색용 데이터베이스를 조회하고 관련된 내용을 지능형 검색하며 전체 플랫폼을 제공하며 사용자의 검색요구를 통일적으로 처리하는 지능형 검색 서비스 서브시스템을 포함하며,

상기 발표 및 관리 모듈은 심사 비준된 컨텐츠 및 색인정보와 상기 지능형 검색 서비스 서브시스템에서 현시된 데이터를 동기화하며, 데이터를 동기화하고 상기 처리용 데이터베이스에 있는 컨텐츠를 상기 검색용 데이터베이스로 동기화하고 검색 과정에서 나타나는 피드백 정보를 상기 검색용 데이터베이스로부터 상기 처리용 데이터베이스로 동기화하는 데이터 발표 및 동기화 모듈 및 데이터 조회에 대한 권한을 설정하는 데이터 개방 관리 모듈을 포함하는 지능형 정보 검색 처리 시스템.
제 1 항에 있어서,

상기 지능형 데이터 처리 서브시스템은 데이터를 처리하여 인물, 사건, 시간, 지점, 물품, 생물, 의품, 식물, 거주물, 행물, 육물, 악물의 12종류로 나누는 지능형 정보 검색 처리 시스템.
제 2 항에 있어서,

상기 12종류는 다시 세밀하게 수개의 하위분류로 나뉘며 각 하위분류는 다시 수개의 하위분류로 나누어 트리구조를 이루며 트리구조에서 각 노드는 다양한 교차 종속 관계로 구비되며 각 종류에서 그 하위분류의 색인을 모두 코드로 표시하는 지능형 정보 검색 처리 시스템.
제 3 항에 있어서,

상기 하위분류는 30단계 이하인 지능형 정보 검색 처리 시스템.
제 1 항에 있어서,

상기 지능형 데이터 처리 서브시스템은 데이터를 처리하며 정보 데이터를 그 컨텐츠의 길이나 용량에 따라 수개의 지식단위로 나누는 지능형 정보 검색 처리 시스템.
제 5 항에 있어서,

상기 지식단위 하나의 용량은 600개의 문자 부호 이내인 지능형 정보 검색 처리 시스템.
제 1 항에 있어서,

상기 지능형 데이터 처리 서브시스템은 삼원 관계 모형을 이용하며 삼원조는 Ka, Kr, Kb 형식이며 상기 Ka는 키워드 a를 대표하며 상기 Kb는 키워드b를 대표하며 상기 Kr는 상기 키워드 a와 상기 키워드 b사이의 관계를 대표하며 상기 삼원조 형식은 상기 키워드 사이의 종속관계, 등가별명관계, 배경참고 관계의 3가지 유형의 관련관계를 표시하고 실현하는 지능형 정보 검색 처리 시스템.
(1) 검색 조건을 입력하는 단계;

(2) 상기 검색 조건에 대하여 코드변환과 색인의 복잡도를 평가하는 사전 처리를 하는 단계;

(3) 상기 처리된 검색 조건을 간단 직접 검색, 고급 조합 검색, 분류 브라우징 검색, 전문 검색, 지능형 논리 검색으로 분류하여 상기 직접 검색, 고급 조합 검색, 분류 브라우징 검색은 직접 관계 검색 엔진을 통해 검색하고 상기 전문 검색은 전문 검색 엔진을 통해 검색하며 상기 지능형 논리 검색은 논리적 관계 연산을 통해 조건을 재결합한 후에 다시 상기 관계 검색 엔진으로 검색하는 단계; 및

(4) 상기 관계 검색 엔진 또는 사익 전문 검색 엔진을 통해 얻어진 검색결과를 반환하는 단계를 포함하는 지능형 정보 검색 처리 방법.
(1) 시스템이 데이터베이스에 입력한 데이터를 문자, 목록, 단락, 순서, 주석의 인용 등으로 교정하는 단계;

(2) 상기 교정된 데이터를 지능형 분석하고 해석하며 함의가 독립적이고 완전한 지식단위로 형성하며 지식단위와 색인 키워드 사이에 관련관계를 맺는 단계;

(3)상기 지식단위에서 키워드를 추출하여 색인화 처리하며 상기 색인화된 키워드를 다시 2차 처리하여 색인구조의 배경정보를 철저히 색인화하여 순서를 재배열 및 합류하여 고도로 원활하고 정확하며 다위지향, 상호교차하는 색인을 형성하는 단계; 및

(4) 상기 색인을 형성하는 과정은 사용자의 요구에 의하여 새로이 분류, 배열, 합류하며 문헌, 리스트, 영상, 오디오, 비디오를 2차, 3차 혹은 수차례로 형성하는 단계를 포함하는 지능형 데이터 처리 방법.
제 8 항에 있어서,

이체자 혹은 영상문자에 대해 분석하고 해석하여 편성하고 순번을 부여한 후 표준 유니코드 폰트에 포함되거나 포함되지 않은 대량의 희소 한자를 지지하며 이체자 혹은 영상문자에 대한 획순 및 어근의 전용, 조회 및 표시하는 단계를 더 포함하는 지능형 정보 검색 처리 방법.
제 9 항에 있어서,

이체자 혹은 영상문자에 대해 분석하고 해석하여 편성하고 순번을 부여한 후 표준 유니코드 폰트에 포함되거나 포함되지 않은 대량의 희소 한자를 지지하며 이체자 혹은 영상문자에 대한 획순 및 어근의 전용, 조회 및 표시하는 단계를 더 포함하는 지능형 데이터 처리 방법.