KR20100032071A - 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법 - Google Patents

시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법 Download PDF

Info

Publication number
KR20100032071A
KR20100032071A KR1020080091037A KR20080091037A KR20100032071A KR 20100032071 A KR20100032071 A KR 20100032071A KR 1020080091037 A KR1020080091037 A KR 1020080091037A KR 20080091037 A KR20080091037 A KR 20080091037A KR 20100032071 A KR20100032071 A KR 20100032071A
Authority
KR
South Korea
Prior art keywords
information
electronic document
context information
web
ontology
Prior art date
Application number
KR1020080091037A
Other languages
English (en)
Inventor
최기선
안진현
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020080091037A priority Critical patent/KR20100032071A/ko
Publication of KR20100032071A publication Critical patent/KR20100032071A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법에 관한 것으로,
네트워크를 통해 온톨로지로 표현된 컨텍스트 정보가 송수신되는 컨텍스트 정보 송수신부; 정보를 얻기 위해 선택한 전자 문서가 입력되는 전자 문서 입력부; 입력된 전자 문서에 있는 내용을 해석처리하여 상기 입력된 전자 문서에 기술된 단어를 선별하여 추출한 개념 리스트가 생성되는 전자 문서 해석 처리부; 기계 가독형 어휘가 저장되고, 상기 개념 리스트에 기재된 단어와 관련되는 관련 정보가 추출되는 온톨로지 저장부; 상기 컨텍스트 정보 송수신부에 수신된 컨텍스트 정보와 상기 온톨로지 저장부에서 추출된 관련 정보를 이용하여 수집해야할 정보를 판단하여 검색 스트링을 생성하는 추론 엔진부; 상기 검색 스트링을 이용하여 웹상에서 검색된 전자 문서들을 수집하는 전자 문서 수집부를 포함한다.
시맨틱 브라우저, 컨텍스트 정보, peer to peer, JXTA

Description

시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법{Semantic Browser device and the method of collecting semantically relevant Web documents using it}
본 발명은 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법에 관한 것으로, 보다 상세하게는 웹 검색 엔진에 개인 정보 노출을 최소화하면서 웹 검색 엔진으로부터 사용자의 관심사에 관련된 정보를 자동으로 수집해서 보여 주는 시맨틱 브라우저 장치 및 방법에 관한 것이다.
피기 뱅크(Piggybank)(David Huynh, Stefano Mazzocchi and David Karger. (2005). "Piggy Bank: Experience the Semantic Web Inside Your Web Browser." International Semantic Web Conference (ISWC) 2005 3729: 413-430.)는 서로 다른 HTML 사이트들로부터 정보를 수집해서 RDF 문서로 가공해서 보여주는 기능을 제공한다. 사용자는 RDF 문서에 태그를 추가하고 서버 역할을 하는 시맨틱 뱅 크(Semantic Bank)를 통해 다른 사용자와 공유할 수 있다.
한편, 매그파이(Magpie)(Dzbor, M., Domingue, J., and Motta, E (2003). "Magpie: towards a semantic web browser." ISWC 2003.)는 웹 브라우저의 확장 모듈이다. 사용자가 웹 문서를 로드하면 사용자가 미리 선택한 온톨로지에 기술된 단어들을 강조(highlight)해서 보여준다. 강조된 단어를 선택하면 그와 관련된 정보를 미리 지정한 데이터베이스에서 찾아서 보여준다.
한편, JXTA(https://jxta.dev.java.net/ 참조)는 이질적인 장치들이 서로 P2P(peer to peer) 방식으로 상호 작용하는 네트워크에 관련된 프로토콜이다. JXTA 네트워크 상의 객체들은 모두 XML(Extensible Markup Language) 문서로 표현되기 때문에 임의의 프로그래밍 언어를 사용해서 JXTA 애플리케이션을 구현할 수 있고 임의의 장치에서 JXTA 애플리케이션을 작동시킬 수 있다. 또한, 애플리케이션 개발자 입장에서는 방화벽 등 네트워크 관련 설정을 신경 쓰지 않고 JXTA 네트워크를 구성할 수 있는 편리함도 있다.
상기와 같은 종래의 기술을 다음의 두 가지의 관점에서 살펴본다.
첫째, 유비쿼터스 환경에서 사용자는 언제 어디서든지 자유롭게 장치를 선택해서 네트워크에 접속할 수 있다. 만약 장치가 사용자의 관심사가 반영된 컨텍스트 정보를 알 수 있다면 사용자의 기호에 맞는 서비스를 제공할 수 있다. 사용자가 장 치를 사용할 때마다 자신의 컨텍스트 정보를 일일이 입력하는 것은 비효율적이기 때문에, 사용자가 컨텍스트 정보를 어딘가에 한 번 입력해 놓으면 장치가 그것을 엑세스 해서 활용하는 방법이 필요하다.
사용자의 컨텍스트 정보를 웹 서버에 저장한 뒤, 로그인을 통해서 이용하는 방법이 있지만 개인 정보 침해의 문제가 발생할 수 있다. 이를 극복하기 위해 다른 대안으로, USB에 사용자의 컨텍스트 정보를 저장한 뒤 장치를 사용할 때 기계에 그것을 연결해서 컨텍스트 정보를 로드하는 방법이 있다. 하지만, 사용자가 USB를 소지하는 것이 번거로울 뿐만 아니라, 해당 장치의 크기, 모양 등 근본적인 한계 때문에 USB를 해당 기계에 연결하지 못할 수가 있다. 따라서, 사용자가 사용하는 장치에서만 컨텍스트 정보가 저장되고 사용하는 장치를 바꿀 경우, 네트워크를 통해서 컨텍스트 정보가 전송되는 방법이 필요하다.
둘째, 시맨틱 웹은 장치가 의미를 이해할 수 있는 문서들로 구성된 웹이다. 현재 웹의 경우, 웹 문서가 기술하는 의미를 장치가 이해할 수 없기 때문에, 웹에서 정보를 얻기 위해서는 검색 엔진이 검색해준 웹 문서들을 사용자가 일일이 봐야만 한다. 해당하는 정보에 맞는 적절한 검색 키워드가 없다면 일일이 봐야 하는 문서의 양은 더욱 늘어난다.
시맨틱 웹에서는 사용자가 사용하는 클라이언트 장치가 직접 웹 문서들을 수집하고 이해해서 분류한 뒤 사용자에게 제공하는 것이 가능하다. 이러한 시맨틱 웹의 유용성을 충분히 활용하기 위해서, 사용자가 검색 키워드를 일일이 입력하지 않 더라도 웹에서 자동으로 정보를 수집해주는 방법이 필요하다.
이와 같이, 현재의 컴퓨팅 환경은 하드웨어 측면에서는 유비쿼터스 환경 소프트웨어 측면에서는 시맨틱 웹으로 진화하고 있다. 사용자가 웹에서 좀 더 편리 하게 정보를 얻게 하기 위해서는 이와 같이 새로운 컴퓨팅 환경을 충분히 활용한 장치 및 방법이 필요하다.
피기 뱅크(Piggybank)는 HTML(Hypertext Markup Language) 문서를 대상으로 하기 때문에 의미 정보 분석 기능이 없어서 의미적으로 관련된 정보를 수집할 수 없다. 또한, 시맨틱 뱅크(Semantic Bank)같이 서버에 정보를 저장하게 함으로써 개인 정보 침해의 여지가 있다는 문제점이 있다.
매그파이(Magpie)는 추론 기능이 있는 온톨로지를 사용하지 않는다는 점과 관련된 정보가 있는 데이터베이스 및 해당 정보의 위치를 미리 지정해야 한다는 데에 한계가 있다.
본 발명은 상기한 바와 같은 문제점을 해결하기 위해 안출된 것으로, 웹 검색 엔진에 개인 정보 노출을 최소화하면서 웹 검색 엔진으로부터 사용자의 관심사에 관련된 정보를 자동으로 수집해서 보여 주는 시맨틱 브라우저 장치 및 방법을 제공하는 것을 그 목적으로 한다.
상기한 바와 같은 목적을 달성하기 위한 본 발명에 따른 시맨틱 브라우저 장치는,
네트워크를 통해 온톨로지로 표현된 컨텍스트 정보가 송수신되는 컨텍스트 정보 송수신부; 정보를 얻기 위해 선택한 전자 문서가 입력되는 전자 문서 입력부; 입력된 전자 문서에 있는 내용을 해석처리하여 상기 입력된 전자 문서에 기술된 단어를 선별하여 추출한 개념 리스트가 생성되는 전자 문서 해석 처리부; 기계 가독형 어휘가 저장되고, 상기 개념 리스트에 기재된 단어와 관련되는 관련 정보가 추출되는 온톨로지 저장부; 상기 컨텍스트 정보 송수신부에 수신된 컨텍스트 정보와 상기 온톨로지 저장부에서 추출된 관련 정보를 이용하여 수집해야할 정보를 판단하여 검색 스트링을 생성하는 추론 엔진부; 상기 검색 스트링을 이용하여 웹상에서 검색된 전자 문서들을 수집하는 전자 문서 수집부를 포함한다.
또한, 상기 네트워크는 JXTA 네트워크인 것을 특징으로 한다.
또한, 상기 컨텍스트 정보 송수신부는 휴대폰 단말기, PDA, 컴퓨터, Ultra-Mobile PC, Subnotebook 등 JXTA 네트워크 상에서 작동할 수 있는 장치이다.
또한, 상기 전자 문서 입력부는 웹 브라우저 같이 웹상의 전자 문서를 읽는 장치, 워드 프로세서 같은 전자 문서 생성기, 그리고 광학 문자 판독기(Optical character recognition) 같이 일반 문서를 전자 문서로 변환하는 장치이다.
또한, 상기 전자 문서 해석 처리부는 HTML, XML, OWL등의 웹 문서 작성 언어를 해석 처리하는 파서와 같이 전자 문서만의 특징적인 메타 정보를 제외한 순수 텍스트만 추출할 수 있는 장치와 텍스트를 해석 처리해서 문법적인 정보를 알아내는 구문분석기로 구성된다.
또한, 상기 온톨로지 저장부는 일반적인 영어단어에 대한 전자사전인 워드넷(Wordnet), 한글전문용어사전인 코텀(Korterm), 유럽언어 단어에 대한 전자사전인 유로워드넷(EuroWordNet) 등 단어와 그들간의 관계를 기술한 온톨로지이다.
또한, 상기 추론 엔진부는 RacerPro, KAON2, FaCT++와 같은 OWL reasoner, Jess 같은 룰 기반 엔진 등 온톨로지에 기술된 사실로부터 유도되는 새로운 사실을 로직이나 룰에 기반해서 추론할 수 있는 장치이다.
또한, 상기 추론 엔진부는 상기 컨텍스트 정보와 상기 관련 정보 중에서 상기 컨텍스트 정보에 가중치를 두어 검색 스트링을 생성한다.
본 발명에 따른 시맨틱 브라우저 장치를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법은,
네트워크를 통해 온톨로지로 표현된 컨텍스트 정보를 수신하는 제1 단계; 정보를 얻기 위해 선택한 전자 문서를 전자 문서 입력부에 입력하는 제2 단계; 전자 문서 해석 처리부가 입력된 전자 문서에 있는 내용을 해석처리하고 상기 입력된 전자 문서에 기술된 단어를 선별하여 추출한 개념 리스트를 생성하는 제3 단계; 온톨로지 저장부에서 상기 개념 리스트에 기재된 단어와 관련되는 관련 정보를 추출하는 제4 단계; 추론 엔진부가 상기 수신된 컨텍스트 정보와 상기 온톨로지 저장부에서 추출된 관련 정보를 이용하여 수집해야할 정보를 판단하여 검색 스트링을 생성하는 제5 단계; 상기 검색 스트링을 이용하여 웹상에서 검색된 전자 문서들을 수집하는 제6 단계를 포함한다.
또한, 상기 네트워크는 JXTA 네트워크인 것을 특징으로 한다.
또한, 상기 컨텍스트 정보와 상기 관련 정보 중에서 상기 컨텍스트 정보에 가중치를 두는 것을 특징으로 한다.
상기한 바와 같은 본 발명에 따른 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법에 의하면,
첫째, 웹 검색 엔진을 이용해서 관련된 문서를 일일이 찾을 필요가 없기 때문에 사용자 입장에서는 웹에서 정보를 얻는 시간이 단축되는 장점이 있다.
둘째, 사용자의 컨텍스트 정보를 시스템이 자동으로 해석처리해서 활용하기 때문에 컨텍스트 정보 중에서 활용하지 못하는 정보는 없게 된다. 사용자가 직접 컨텐스트 정보를 해석처리하는 경우에 컨텍스트 정보의 양이 많을 경우 빠뜨리고 미처 활용하지 못하는 컨텍스트 정보가 있을 수 있다.
셋째, 사용자의 개인 정보를 서버에 저장할 필요가 없으므로, 개인 정보 침해의 위험성이 현저히 감소된다는 장점이 있다.
넷째, JXTA 네트워크를 이용하면 컨텍스트 정보를 모바일 장치에서 데스크탑 컴퓨터로 직접 데이터를 전송할 수 있기 때문에, USB를 소지하지 않아도 되므로 그만큼 모바일 장치의 선택이 자유로워진다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 우선, 도면들 중 동일한 구성요소 또는 부품들은 가능한 한 동일한 참조부호를 나타내고 있음에 유의해야 한다. 본 발명을 설명함에 있어서 관련된 공지기능 혹은 구성에 대한 구체적인 설명은 본 발명의 요지를 모호하게 하지 않기 위해 생략한다.
도 1은 본 발명에 따른 시맨틱 브라우저 장치를 개념적으로 도시한 블록도, 도 2는 종래 기술에 따른 컨텍스트 정보를 송수신하는 방법으로서, 인포메이션 서 버에 컨텍스트 정보를 저장하고 그것을 이용하는 상황을 도시한 도, 도 3은 본 발명에 따른 컨텍스트 정보를 송수신하는 방법으로서, JXTA 네트워크를 통해 컨텍스트 정보를 직접 송수신하는 상황을 도시한 도, 도 4는 본 발명에 따른 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법을 도시한 순서도, 도 5 및 도 5b는 컨텍스트 정보를 OWL 문서로 기록한 예제로써, 도 5a의 최하단부는 도 5b의 최상단부와 연결된 도, 도 6은 본 발명에 따른 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법에 의해 입력 전자 문서와 컨텍스트 정보를 이용하여 검색 스트링을 만드는 과정이 도시된 도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 시맨틱 브라우저 장치는, 크게 컨텍스트 정보 송수신부(10), 전자 문서 입력부(20), 전자 문서 해석 처리부(30), 온톨로지 저장부(40), 추론 엔진부(50), 그리고 전자 문서 수집부(60)를 포함하여 구성된다.
상기 컨텍스트 정보 송수신부(10)에서는 네트워크를 통해 온톨로지로 표현된 컨텍스트 정보가 송수신된다. 이때, 상기 네트워크는 도 2에 도시된 바와 같은 종래 기술에 따라, 컨텍스트 정보를 인포메이션 서버(information server)(11a)(여기서, 상기 인포메이션 서버(11a)는 예를 들면, 구글, 네이버와 같은 검색 엔진 서비스 제공자를 가리킨다.)를 통해 사용자가 구비한 통신 장치에 송수신되도록 할 수 있으나, 이 경우에는 서버에 매번 로그인해야 하는 불편함이 있을 뿐만 아니라 로그인으로 인해 개인 정보가 침해될 위험이 있다.
따라서, 본 발명의 바람직한 실시예에 의하면, 상기 네트워크는 도 3에 도시된 바와 같은 JXTA 네트워크(11b)를 통해서 컨텍스트 정보를 송수신한다. 상기 JXTA 네트워크(11b)를 통하여 컨텍스트 정보를 송수신하는 경우에는 종래의 인포메이션 서버(11a)를 사용하는 경우와는 달리, 로그인을 통한 개인 정보 침해의 위험성이 감소된다.
한편, 상기 컨텍스트 정보 송수신부(10)는 노트북 컴퓨터, 데스크 탑 컴퓨터 등의 컴퓨터 단말기(12), 또는 PDA 단말기(13), 또는 휴대폰(14) 등 모든 사용 가능한 통신 장치를 의미한다. 이외에도 Ultra-Mobile PC, Subnotebook 등 JXTA 네트워크 상에서 작동할 수 있는 장치이면 모두 가능하다.
휴대폰(14)의 경우를 예를 들면, 사용자가 휴대폰에서 작동하는 시맨틱 브라우저를 사용하다가 집에 있는 데스크 탑 컴퓨터에 있는 시맨틱 브라우저를 사용하고자 하는 경우, JXTA 네트워크(11b)를 통해서 컨텍스트 정보가 전송이 된다. 기계는 바뀌었지만 컨텍스트 정보를 그대로 사용하게 되는 것이다. 물론, 해당 기계들은 JXTA 네트워크(11b) 상에서 유일한 아이디를 사용해야 컨텍스트 정보를 휴대폰(14)에서 데스크 탑 컴퓨터(12)로 제대로 전송받을 수 있다. JXTA 네트워크 상에서의 아이디는 랑데뷰 피어(Rendezvous peer)에서 관리하게 된다. 상기 랑데뷰 피어는 고정된 것이 아니라 네트워크 상황에 따라 동적으로 바뀌고, 일정 시간이 지나면 정보가 삭제가 되어 갱신되기 때문에, 아이디 등의 정보가 종래의 중앙 집중 식 인포메이션 서버에 저장되어서 발생하는 개인 정보 노출의 문제점에서 어느 정도 벗어날 수 있게 되는 것이다.
상기 전자 문서 입력부(20)는 사용자가 정보를 얻기 위해 선택한 전자 문서(input document)를 입력하는 장치로서, 검색 장치가 컴퓨터인 경우 키보드나 마우스, 휴대폰인 경우 키패드, PDA인 경우 터치패드와 터치펜 등을 들 수 있다. 한편, 입력될 전자 문서는, 예를 들면 구글(Google)과 같은 웹 문서 검색 엔진을 사용해서 찾은 웹 문서를 의미한다.
상기 전자 문서 해석 처리부(30)(document analyzer)는 입력된 전자 문서에 있는 내용을 해석처리한 후, 상기 입력된 전자 문서에 기술된 단어를 선별 추출하여 상기 단어로 구성된 개념 리스트를 생성한다. 상기 개념 리스트는 전자 문서에 기술된 각 문장을 전자 문석 해석 처리부로 해석처리하여 문장의 각 단어의 품사를 알아낸 후, 그 단어들 중 명사에 해당하는 단어만 선별하여 이를 그 문서에 대한 개념 리스트로 정의한다. 여기서, 상기 전자 문서 해석 처리부는 HTML, XML, OWL등의 웹 문서 작성 언어를 해석 처리하는 파서와 같이 전자 문서만의 특징적인 메타 정보를 제외한 순수 텍스트만 추출할 수 있는 장치와 텍스트를 해석 처리해서 문법적인 정보를 알아내는 구문분석기로 될 수 있다.
상기 온톨로지 저장부(40)(ontologies repository)에는 기계가 이해할 수 있 는 언어(기계 가독형 어휘)가 저장되고, 상기 개념 리스트에 기재된 단어와 관련되는 관련 정보(relevant information)가 추출된다. 예를 들어 상기 온톨로지 저장부(40)를 워드넷(WordNet)과 같은 기계 가독형 어휘의미 사전으로 택했다고 가정하면, 이 경우 상기 개념 리스트는 상기 입력된 전자 문서로부터 추출된 단어 리스트에 대응되고, 상기 관련 정보는 각 단어에 대한 유의어 집합(synset)과 같은 대표의미를 가지는 단어들에 대응된다. 여기서, 상기 온톨로지 저장부로써, 일반적인 영어단어에 대한 전자사전인 워드넷(Wordnet), 한글전문용어사전인 코텀(Korterm), 유럽언어 단어에 대한 전자사전인 유로워드넷(EuroWordNet) 등 단어와 그들간의 관계를 기술한 온톨로지는 모두 가능하다.
상기 추론 엔진부(50)(Inference Engine)는 상기 컨텍스트 정보 송수신부(10)에 수신된 컨텍스트 정보와 상기 온톨로지 저장부(40)에서 추출된 관련 정보를 이용하여 수집해야할 정보를 판단한 후, 그 판단을 각 검색 엔진에 맞는 검색 키워드로 표현하여 검색 스트링을 생성한다. 이때, 상기 추론 엔진부(50)는 상기 컨텍스트 정보와 상기 관련 정보 중에서 상기 컨텍스트 정보에 가중치를 두어 검색 스트링을 생성하는 것이 더욱 바람직하다. 상기 추론 엔진부(50)는 RacerPro, KAON2, FaCT++와 같은 OWL reasoner와 Jess와 같은 룰 기반 엔진 등 온톨로지에 기술된 사실로부터 유도되는 새로운 사실을 로직이나 룰에 기반해서 추론할 수 있는 장치는 모두 가능하다.
상기 전자 문서 수집부(60)는 상기 추론 엔진부(50)에서 생성된 검색 스트링을 이용하여 웹상에서 검색을 요청하고 그 결과 검색된 전자 문서들을 수집한다.
이상 전술한 바와 같은 구성을 가진 본 발명의 시맨틱 브라우저 장치는,
사용자의 관심사에 대하여 사용자가 열람하고 있는 문서와 의미적으로 관련된 정보를 웹에서 자동으로 수집하는 데에 그 목적이 있으며, 또한 웹 검색 엔진에 대한 개인 정보 노출을 최소화하기 위해서 웹 검색 엔진의 기능을 일부 사용자의 장치에서 직접 수행하게 하는 방법을 사용한다.
사용자가 열람하고 있는 문서에 대해 의미적으로 관련된 정보가 무엇인지 판단하기 위해서 워드넷(WordNet)과 같이 광범위한 내용을 다루는 온톨로지를 이용한다. 즉, 사용자가 열람하고 있는 문서에 있는 단어와 의미적으로 관련된 단어들을 기존의 온톨로지를 활용해 확장한다.
또한, 사용자의 관심사에 의미적으로 관련된 정보가 무엇인지 판단하기 위해서 컨텍스트 정보를 이용한다. 사용자가 열람하고 있는 문서에 있는 모든 단어를 해석 처리하는 대신에 컨텍스트 정보에 관련된 단어에 가중치를 두어서 단어들을 확장한다.
의미적으로 관련된 단어들로 확장할 뿐만 아니라 추론된 단어들로 확장하기 위해서 컨텍스트 정보를 온톨로지로 표현한다. 사용자의 장치에서는 추론 엔진이 작동하게 하여 컨텍스트 정보로부터 추론된 정보를 얻고 이를 이용해 단어를 확장 한다. 이로부터 각 웹 검색엔진에 맞는 검색 키워드를 만들어 낸 뒤 웹 검색 엔진으로부터 그에 해당하는 정보를 얻는다.
웹 검색엔진에 대한 개인 정보 노출을 최소화하기 위해서 컨텍스트 정보를 웹 검색엔진 서버 같은 정보 제공자의 장치에 저장하지 않고, 사용자가 사용하는 기계들 사이에서 JXTA 네트워크를 통해서 P2P 방식으로 공유되도록 한다.
다음으로, 도 4를 참조하여 전술한 바와 같은 구성을 가진 본 발명에 따른 시맨틱 브라우저 장치를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법을 설명한다.
먼저, 네트워크를 통해 온톨로지로 표현된 컨텍스트 정보를 수신한다.(S10)
이때, 상기 네트워크가 도 2에 도시된 인포메이션 서버를 이용한 네트워크(예를 들면, 구글, 네이버 등)인 경우, 검색 시간의 단축 및 검색 정보의 다양화를 꾀할 수는 있으나, 전술한 바와 같이 사용자의 개인 정보 침해의 위험이 있다. 따라서, JTXA 네트워크인 것이 더욱 바람직하며, 이 경우 사용자 개인 정보 침해의 위험을 현저히 감소시킬 수 있다. 또한 이때, 상기 컨텍스트 정보는 사용자의 관심사를 반영한 것으로 장치가 그 의미를 해석할 수 있는 형태를 가져야 한다.
현재 존재하는 추론 엔진을 사용한다면 온톨로지 언어로 관심사를 기술하면 된다. 도 5a 및 도 5b는 여행에 관련된 관심사를 기술한 컨텍스트를 OWL(Web Ontology Language)로 표현한 예제 문서로서 도 5a의 최하단부는 도 5b의 최상단부 와 연결된다. "Travel"이라는 단어가 대표 단어이고, 그와 관련된 단어로는 "lodging", "transportation" 등이 있다는 정보가 기술되어 있다. 이와 같은 방식으로 사용자는 자신의 관심사를 온톨로지 문서에 표현한다. 일반 사용자가 이와 같은 온톨로지 문서를 직접 만드는 것은 쉽지 않기 때문에, 전문가가 만든 것을 사용하거나 컨텍스트 저작 도구를 이용하도록 할 수 있다. 컨텍스트 저작 도구는 본 발명의 범위 밖이다.
그 다음, 사용자가 정보를 얻기 위해 선택한 전자 문서를 전자 문서 입력부에 입력한다.(S20)
그 다음, 전자 문서 해석 처리부가 입력된 전자 문서에 있는 내용을 해석처리하고 상기 입력된 전자 문서에 기술된 단어를 선별하여 추출한 개념 리스트를 생성한다.(S30)
그 다음, 온톨로지 저장부에서 상기 개념 리스트에 기재된 단어와 관련되는 관련 정보를 추출한다.(S40) 이때, 워드넷(Wordnet)을 이용하여 상기 관련 정보를 확장하여 추출하는 것이 바람직하다. 또한, 상기 컨텍스트 정보와 상기 관련 정보 중에서 상기 컨텍스트 정보에 가중치를 두는 것이 바람직하다.
그 다음, 추론 엔진부가 상기 수신된 컨텍스트 정보와 상기 온톨로지 저장부에서 추출된 관련 정보를 이용하여 수집해야할 정보를 판단하여 검색 스트링을 생성한다.(S50)
그 다음, 상기 검색 스트링을 이용하여 웹상에서 검색된 전자 문서들을 수집한다.(S60)
도 6은 입력 문서가 "New York"의 정보를 기술한 문서이고, 컨텍스트 정보가 도 5와 같을 때 검색 키워드가 어떠한 방식으로 만들어지는지에 대한 예제이다.
"New York" 문서에 있는 단어들 중 "Travel"의 경우 컨텍스트 정보에 있는 단어이기 때문에 온톨로지 저장부(예를 들어, WordNet)를 참조하지 않고 컨텍스트 정보에 있는 단어를 참조한다. 그 외에 단어들은 온톨로지 저장부를 참조해서 관련된 단어들("america", "metropolis")을 얻는다. 이 둘을 조합해서 검색 키워드를 만들어 내는데, 컨텍스트 정보에 있는 단어들에는 가중치를 준다.
이렇게 만들어진 검색 스트링의 의미는 컨텍스트 문서에 기술된 단어는 반드시 포함하면서 동시에 "New York" 문서와 관련된 단어들을 최소한 하나 포함하는 문서를 검색하겠다는 것이다. 이렇게 하면 "New York"의 교통에 관련된 문서에 대한 검색 스트링을 자동으로 만들 수 있다.
만약, 컨텍스트 문서에 학교에 관련된 단어가 기술되어 있다면 "New York"의 학교에 관련된 검색 스트링을 자동으로 만들 수 있다.
이렇게 만든 검색 스트링들을 문서 수집기(Document collector)가 웹상의 검색 엔진들에 요청을 해서 검색된 문서들을 얻어 온다. 이 문서들을 적절한 방식으로 화면에 보여주면 본 발명에 따른 시맨틱 브라우저 장치의 작동 과정이 완료된다.
이상과 같이 본 발명에 따른 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스 트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법을 예시한 도면을 참조로 하여 설명하였으나, 본 명세서에 개시된 실시예와 도면에 의해 본 발명이 한정되는 것은 아니며, 본 발명의 기술사상 범위내에서 당업자에 의해 다양한 변형이 이루어질 수 있음은 물론이다.
도 1은 본 발명에 따른 시맨틱 브라우저 장치를 개념적으로 도시한 블록도,
도 2는 종래 기술에 따른 컨텍스트 정보를 송수신하는 방법으로서, 인포메이션 서버에 컨텍스트 정보를 저장하고 그것을 이용하는 상황을 도시한 도,
도 3은 본 발명에 따른 컨텍스트 정보를 송수신하는 방법으로서, JXTA 네트워크를 통해 컨텍스트 정보를 직접 송수신하는 상황을 도시한 도,
도 4는 본 발명에 따른 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법을 도시한 순서도,
도 5 및 도 5b는 컨텍스트 정보를 OWL 문서로 기록한 예제로써, 도 5a의 최하단부는 도 5b의 최상단부와 연결된 도,
도 6은 본 발명에 따른 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법에 의해 입력 전자 문서와 컨텍스트 정보를 이용하여 검색 스트링을 만드는 과정이 도시된 도이다.
<도면의 주요부분에 대한 부호의 설명>
10 : 컨텍스트 정보 송수신부 20 : 전자 문서 입력부
30 : 전자 문서 해석 처리부 40 : 온톨로지 저장부
50 : 추론 엔진부 60 : 전자 문서 수집부

Claims (9)

  1. 네트워크를 통해 온톨로지로 표현된 컨텍스트 정보가 송수신되는 컨텍스트 정보 송수신부;
    정보를 얻기 위해 선택한 전자 문서가 입력되는 전자 문서 입력부;
    입력된 전자 문서에 있는 내용을 해석처리하여 상기 입력된 전자 문서에 기술된 단어를 선별하여 추출한 개념 리스트가 생성되는 전자 문서 해석 처리부;
    기계 가독형 어휘가 저장되고, 상기 개념 리스트에 기재된 단어와 관련되는 관련 정보가 추출되는 온톨로지 저장부;
    상기 컨텍스트 정보 송수신부에 수신된 컨텍스트 정보와 상기 온톨로지 저장부에서 추출된 관련 정보를 이용하여 수집해야할 정보를 판단하여 검색 스트링을 생성하는 추론 엔진부;
    상기 검색 스트링을 이용하여 웹상에서 검색된 전자 문서들을 수집하는 전자 문서 수집부
    를 포함하는 시맨틱 브라우저 장치.
  2. 청구항 1에 있어서,
    상기 네트워크는 JXTA 네트워크인 것을 특징으로 하는 시맨틱 브라우저 장치.
  3. 청구항 1에 있어서,
    상기 컨텍스트 정보 송수신부는 휴대폰 단말기, PDA, 컴퓨터, Ultra-Mobile PC, 서브노트북(Subnotebook) 중 어느 하나인 것을 특징으로 하는 시맨틱 브라우저 장치.
  4. 청구항 1에 있어서,
    상기 전자 문서 해석 처리부는 전자 문서만의 특징적인 메타 정보를 제외한 순수 텍스트만 추출할 수 있는 장치와, 텍스트를 해석 처리해서 문법적인 정보를 알아내는 구문분석기로 구성되는 것을 특징으로 하는 시맨틱 브라우저 장치.
  5. 청구항 1에 있어서,
    상기 온톨로지 저장부는 영어단어에 대한 전자사전인 워드넷(Wordnet), 한글전문용어사전인 코텀(Korterm), 유럽언어 단어에 대한 전자사전인 유로워드넷(EuroWordNet) 중 어느 하나인 것을 특징으로 하는 시맨틱 브라우저 장치.
  6. 청구항 1에 있어서,
    상기 추론 엔진부는 상기 컨텍스트 정보와 상기 관련 정보 중에서 상기 컨텍스트 정보에 가중치를 두어 검색 스트링을 생성하는 것을 특징으로 하는 시맨틱 브라우저 장치.
  7. 네트워크를 통해 온톨로지로 표현된 컨텍스트 정보를 수신하는 제1 단계;
    정보를 얻기 위해 선택한 전자 문서를 전자 문서 입력부에 입력하는 제2 단계;
    전자 문서 해석 처리부가 입력된 전자 문서에 있는 내용을 해석처리하고 상기 입력된 전자 문서에 기술된 단어를 선별하여 추출한 개념 리스트를 생성하는 제3 단계;
    온톨로지 저장부에서 상기 개념 리스트에 기재된 단어와 관련되는 관련 정보를 추출하는 제4 단계;
    추론 엔진부가 상기 수신된 컨텍스트 정보와 상기 온톨로지 저장부에서 추출된 관련 정보를 이용하여 수집해야할 정보를 판단하여 검색 스트링을 생성하는 제5 단계;
    상기 검색 스트링을 이용하여 웹상에서 검색된 전자 문서들을 수집하는 제6 단계
    를 포함하는 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집 하는 방법.
  8. 청구항 7에 있어서,
    상기 네트워크는 JXTA 네트워크인 것을 특징으로 하는 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법.
  9. 청구항 7에 있어서,
    상기 컨텍스트 정보와 상기 관련 정보 중에서 상기 컨텍스트 정보에 가중치를 두는 것을 특징으로 하는 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법.
KR1020080091037A 2008-09-17 2008-09-17 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법 KR20100032071A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080091037A KR20100032071A (ko) 2008-09-17 2008-09-17 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080091037A KR20100032071A (ko) 2008-09-17 2008-09-17 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법

Publications (1)

Publication Number Publication Date
KR20100032071A true KR20100032071A (ko) 2010-03-25

Family

ID=42181415

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080091037A KR20100032071A (ko) 2008-09-17 2008-09-17 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법

Country Status (1)

Country Link
KR (1) KR20100032071A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101047956B1 (ko) * 2010-08-27 2011-07-12 엘아이지넥스원 주식회사 Xml 기반 대화형 전자기술교범 장치 및 전자기술교범 구축방법
WO2013012159A1 (ko) * 2011-07-19 2013-01-24 에스케이플래닛 주식회사 지능형 정보 제공 시스템 및 방법
KR20130062553A (ko) * 2011-12-05 2013-06-13 에스케이플래닛 주식회사 인텐트 등록 및 개인화된 정보 제공 시스템, 방법 및 그에 대한 기록매체
US8972322B2 (en) 2011-12-02 2015-03-03 Samsung Electronics Co., Ltd. Apparatus and method for extending a default model of a terminal

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101047956B1 (ko) * 2010-08-27 2011-07-12 엘아이지넥스원 주식회사 Xml 기반 대화형 전자기술교범 장치 및 전자기술교범 구축방법
WO2013012159A1 (ko) * 2011-07-19 2013-01-24 에스케이플래닛 주식회사 지능형 정보 제공 시스템 및 방법
US9124590B2 (en) 2011-07-19 2015-09-01 Sk Planet Co., Ltd. Intelligent information providing system and method
US8972322B2 (en) 2011-12-02 2015-03-03 Samsung Electronics Co., Ltd. Apparatus and method for extending a default model of a terminal
KR20130062553A (ko) * 2011-12-05 2013-06-13 에스케이플래닛 주식회사 인텐트 등록 및 개인화된 정보 제공 시스템, 방법 및 그에 대한 기록매체

Similar Documents

Publication Publication Date Title
US9613149B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
JP5133984B2 (ja) 入力候補提供装置、入力候補提供システム、入力候補提供方法、および入力候補提供プログラム
JP4909334B2 (ja) サービス提案装置及びその方法、サービス提案システム、ユーザのお気に入りベースに基づくサービス提案装置及びその方法
CN104915413A (zh) 一种健康检测方法及系统
JP2010129061A (ja) インデックス生成システム、情報検索システム、及びインデックス生成方法
Dumani et al. A framework for argument retrieval: Ranking argument clusters by frequency and specificity
KR100966651B1 (ko) 온톨로지 기반의 시맨틱 어노테이션 시스템 및 그 방법
KR20100112512A (ko) 검색 장치 및 검색 방법
WO2008034834A1 (en) Method for finding web services described by respective semantic descriptions in different languages or forms
JP7231190B2 (ja) 情報提供システム、及び、情報提供制御方法
JP6130270B2 (ja) メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法
KR20100032071A (ko) 시맨틱 브라우저 장치 및 이를 이용하여 컨텍스트 정보와 의미적으로 관련된 전자 문서를 웹상에서 수집하는 방법
JP6147629B2 (ja) ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
KR102540944B1 (ko) 메타데이터를 활용한 인공지능 기반 문서관리 및 통합 검색 지원 디지털 콘텐츠 시스템
Hu et al. Embracing information explosion without choking: Clustering and labeling in microblogging
Shafi et al. [WiP] Web Services Classification Using an Improved Text Mining Technique
KR20110017760A (ko) 멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법
KR20070008994A (ko) 비구조 웹문서에서 도메인별 정보를 추출하기 위한 시스템및 그 방법
JP5084859B2 (ja) 情報処理装置、データ抽出方法、及びプログラム
JP6676699B2 (ja) 予約語及び属性言語間の関連度を用いた情報提供方法及び装置
KR20100003084A (ko) 온톨로지 부분 그래프 추출 장치 및 그 방법과, 그를이용한 검색 사용자 질의와 온톨로지의 의미적 매칭 장치및 그 방법
Tvarozek et al. Reinventing the web browser for the semantic web
Kisimov Web 3.0 approach to corporate information systems evolution
KR101084546B1 (ko) 검색 결과 내 추가 검색 모듈 및 그를 이용한 검색 결과 내 추가 검색 방법
Anjomshoaa et al. Self-monitoring in social networks

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application