KR101752259B1 - 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램 - Google Patents

고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램 Download PDF

Info

Publication number
KR101752259B1
KR101752259B1 KR1020160097055A KR20160097055A KR101752259B1 KR 101752259 B1 KR101752259 B1 KR 101752259B1 KR 1020160097055 A KR1020160097055 A KR 1020160097055A KR 20160097055 A KR20160097055 A KR 20160097055A KR 101752259 B1 KR101752259 B1 KR 101752259B1
Authority
KR
South Korea
Prior art keywords
unit
content
keyword
entity
search
Prior art date
Application number
KR1020160097055A
Other languages
English (en)
Inventor
최미숙
박현철
Original Assignee
최미숙
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 최미숙 filed Critical 최미숙
Priority to KR1020160097055A priority Critical patent/KR101752259B1/ko
Application granted granted Critical
Publication of KR101752259B1 publication Critical patent/KR101752259B1/ko

Links

Images

Classifications

    • G06F17/30899
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06F17/218

Abstract

본 발명은 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램에 관한 것으로서, 더욱 상세하게는 콘텐츠를 입수, 가공 및 관리하되, 필요로 하는 컨텐츠의 검색이 용이하도록 대용량 데이터를 분석하여 중요한 정보를 개체화 하고, 컨텐츠에 포함된 개체를 식별할 수 있도록 고부가 가치화 한 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램을 제공한다.

Description

고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램 {HIGH VALUE-ADDED CONTENT MANAGEMENT DEVICE AND METHOD AND RECORDING MEDIUM STORING PROGRAM FOR EXECUTING THE SAME AND RECORDING MEDIUM STORING PROGRAM FOR EXECUTING THE SAME}
본 발명은 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램에 관한 것으로서, 더욱 상세하게는 콘텐츠를 입수, 가공 및 관리하되, 필요로 하는 컨텐츠의 검색이 용이하도록 대용량 데이터를 분석하여 중요한 정보를 개체화 하고, 컨텐츠에 포함된 개체를 식별할 수 있도록 고부가 가치화 한 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램에 관한 것이다.
개방형 연결 데이터(Linked Open Data)는 사용자가 정확하게 원하는 정보를 찾을 수 있도록 웹상의 모든 데이터와 데이터베이스를 공개하고 연결하는 것으로, 하이퍼텍스트 전송 규약(HTTP: hypertext transfer protocol), 자원 기술 프레임워크(RDF: resource description framework)와 인터넷 식별자(URI: Uniform Resource Identifier) 등의 웹 표준 기술을 이용하여 시멘틱 데이터(semantic data)를 구축하고, 출처가 서로 다르지만 인터넷 식별자(URI)를 통해 데이터를 서로 연결함으로써 웹에 공개, 연계, 공유하는 기술이며, 데이터를 재사용할 수 있고, 데이터 중복을 줄일 수 있는 장점이 있다.
그러나, 데이터의 양이 기하급수적으로 늘어나면서 필요로 하는 정보를 찾는데 들어가는 시간과 노력이 증가하게 되는 문제점이 있다.
일 예로, 학술자료(논문), 동향보고서, 연구보고서, 특허, 표준, 리포트 및 국가기록물 등의 자료들은 시간이 지나면서 더욱 많은 정보가 축적되게 되고, 이들 중 필요로 하는 정보를 찾기 위해 자료가 늘어난 만큼 필요로 하는 자료를 검색하는데 많은 시간이 소요된다.
이러한 자료를 찾기 위해, 일반적으로 키워드 검색을 이용하게 되나, 키워드 검색은 키워드가 일치하지 않으면 검색이 안 되는 문제점이 있다. 예를 들어, 키워드로 "배터리"를 검색하면 "베터리"는 검색이 안 되는 등의 문제가 발생될 수 있다.
또한, 대다수의 학술연구, 과학기술 정보서비스 등에서는 저자 정보, 기관 정보, 인용문헌 정보, 출처 정보 등을 하나의 독립된 개체로 정의하고 관리하지 않아(키워드 검색에 의존) 이와 연계된 저자 네트워크 분석, 전문가 탐색과 같은 서비스 제공에 어려움이 많은 문제점이 있다. 예를 들어, 동명이인이 많은 저자를 검색할 경우 의도하지 않은 검색 결과가 많아질 수 있는 등의 문제가 있다.
한국등록특허 [10-1381689]에서는 콘텐츠 이용 특성에 기초하여 콘텐츠를 관리하는 콘텐츠 제공 장치가 개시되어 있다.
한국등록특허 [10-1381689](등록일자: 2014년03월31일)
따라서, 본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은 콘텐츠를 입수, 가공 및 관리하되, 필요로 하는 컨텐츠의 검색이 용이하도록 대용량 데이터를 분석하여 중요한 정보를 개체화 하고, 컨텐츠에 포함된 개체를 식별할 수 있도록, 콘텐츠의 유의미한 개체를 정확히 추출하고 추출된 개체에 인터넷 식별자(URI: Uniform Resource Identifier) 등의 식별 가능한 항목을 부여하여 DB 스키마를 구성함으로써, 콘텐츠의 효율적인 관리와 높은 품질의 고부가가치 서비스의 제공이 가능한 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램을 제공하는 것이다.
본 발명의 실 시예들의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리 장치는, 대상 콘텐츠를 로드하는 콘텐츠로드부(100); 상기 콘텐츠로드부(100)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language) 형식으로 변환하며 고유식별자를 부여하는 문서변환부(200); 상기 문서변환부(200)에 의해 변환된 대상 콘텐츠의 키워드를 추출하는 키워드추출부(300); 상기 키워드추출부(300)로부터 추출된 키워드를 기반으로 핵심키워드, 저자, 기관, 지역, 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별하고, 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여하는 개체식별부(400); 상기 개체식별부(400)로부터 식별된 개체에 관련도 점수를 부가하는 관련도책정부(500); 상기 문서변환부(200)로부터 변환된 대상 콘텐츠에 상기 개체식별부(400)로부터 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(500)에서 부가된 관련도 점수 정보를 저장 및 관리하는 콘텐츠관리부(600); 및 고유식별정보를 이용하여 회원인증을 거친 사용자단말(10)의 검색 요청을 분석하여 검색에 이용할 개체를 선택하고, 선택된 개체를 기반으로 상기 콘텐츠관리부(600)로부터 관련도점수가 가장 높은 콘텐츠 순으로 검색 결과를 제공받아 사용자단말(10)에 검색 결과를 제공하는 검색제공부(700);를 포함하는 것을 특징으로 한다.
또한, 상기 키워드추출부(300)는 문서변환부(200)에 의해 변환된 대상 콘텐츠에서 형태소를 추출하고 해당 형태소가 문맥 상 어떤 의미로 사용되었는지를 파악하며, 출현 빈도에 기반하여 연관도 높은 형태소를 키워드로 추출하는 것을 특징으로 한다.
또, 상기 개체식별부(400)는 대상 콘텐츠의 제목, 초록 및 메타 데이터 중 선택되는 어느 하나 또는 복수의 정보를 이용하는 내재적 접근 방식과 외부의 데이터 또는 API(application programming interface)를 이용하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것을 특징으로 한다.
또한, 상기 고부가 가치화 콘텐츠 관리장치는 이용자의 로그데이터를 관리하여 콘텐츠의 사용에 대한 통계 및 이용자의 이용 로그를 수집하고 관리하는 이용자관리부(800);를 더 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리 방법은, 콘텐츠로드부(100), 문서변환부(200), 키워드추출부(300), 개체식별부(400), 관련도책정부(500), 콘텐츠관리부(600) 및 검색제공부(700)를 포함하는 고부가 가치화 콘텐츠 관리장치를 이용한 고부가 가치화 콘텐츠 관리방법에 있어서, 콘텐츠로드부(100)가 대상 콘텐츠를 로드하는 콘텐츠로드 단계(S10); 문서변환부(200)가 상기 콘텐츠로드부(100)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language)형식으로 변환하며 고유식별자를 부여하는 문서변환 단계(S20); 키워드추출부(300)가 상기 문서변환부(200)에 의해 변환된 대상 콘텐츠의 키워드를 추출하는 키워드추출 단계(S30); 개체식별부(400)가 상기 키워드추출부(300)로부터 추출된 키워드를 기반으로 핵심키워드, 저자, 기관, 지역, 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별하고, 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여하는 개체식별 단계(S40); 관련도책정부(500)가 상기 개체식별부(400)로부터 식별된 개체에 관련도 점수를 부가하는 개체점수부가 단계(S50); 콘텐츠관리부(600)가 상기 문서변환부(200)로부터 변환된 대상 콘텐츠에 상기 개체식별부(400)로부터 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(500)에서 부가된 관련도 점수 정보를 저장하는 콘텐츠저장 단계(S60); 및 고유식별정보를 이용하여 회원인증을 거친 사용자단말(10)로부터 검색제공부(700)가 검색 요청을 받으면, 검색 요청을 분석하여 검색에 이용할 개체를 선택하고, 선택된 개체를 기반으로 상기 콘텐츠관리부(600)로부터 관련도점수가 가장 높은 콘텐츠 순으로 검색 결과를 제공받아 사용자단말(10)에 검색 결과를 제공하는 검색제공 단계(S70);를 포함하는 것을 특징으로 한다.
또한, 상기 키워드추출 단계(S30)는 문서변환부(200)에 의해 변환된 대상 콘텐츠에서 형태소를 추출하고 해당 형태소가 문맥 상 어떤 의미로 사용되었는지를 파악하며, 출현 빈도에 기반하여 연관도 높은 형태소를 키워드로 추출하는 것을 특징으로 한다.
또, 상기 개체식별 단계(S40)는 대상 콘텐츠의 제목, 초록 및 메타 데이터 중 선택되는 어느 하나 또는 복수의 정보를 이용하는 내재적 접근 방식과 외부의 데이터 또는 API(application programming interface)를 이용하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것을 특징으로 한다.
또한, 상기 고부가 가치화 콘텐츠 관리장치는 이용자관리부(800)를 더 포함하며, 상기 고부가 가치화 콘텐츠 관리방법은 이용자관리부(800)가 상기 검색제공 단계(S70)에서 회원인증을 거친 이용자의 로그데이터를 관리하여 콘텐츠의 사용에 대한 통계 및 이용자의 이용 로그를 저장하는 이용자관리 단계(S80);를 더 포함하는 것을 특징으로 한다.
또한, 본 발명의 일 실시예에 따르면, 상기 고부가 가치화 콘텐츠 관리방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체가 제공되는 것을 특징으로 한다.
아울러, 본 발명의 일 실시예에 따르면, 상기 고부가 가치화 콘텐츠 관리방법을 구현하기 위해, 컴퓨터 판독 가능한 기록매체에 저장된 프로그램이 제공되는 것을 특징으로 한다.
고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램에 의하면, 고유식별자를 포함하는 마크업 언어 형식으로 변환된 대상 콘텐츠, 대상 콘텐츠와 관련된 고유식별자가 부여된 개체 정보 및 관련도 점수를 통합 저장 및 관리함으로써, 콘텐츠를 입수, 가공 및 관리하되, 필요로 하는 컨텐츠의 검색이 용이하도록 대용량 데이터를 분석하여 중요한 정보를 개체화 하고, 컨텐츠에 포함된 개체를 식별할 수 있도록 고부가 가치화 한 고부가 가치화 콘텐츠를 제공할 수 있는 효과가 있다.
또한, 형태소를 문맥 상 의미를 파악하여 추출하고 형태소 단위로 객체화 하여 고유식별자가 부여된 개체로 관리할 수 있음으로써, 다양한 유사어, 파생어, 변형어 등으로 표현된 정보들도 관련도 높은 정보를 용이하게 관리할 수 있는 효과가 있다.
또, 개체식별부가 내재적 접근 방식과 외재적 접근방식으로 콘텐츠 개체를 식별함으로써, 보다 정확하게 콘텐츠 개체를 식별하여 관리할 수 있는 효과가 있다.
또한, 이용자관리부가 이용자의 로그데이터를 관리하여 콘텐츠의 사용에 대한 통계 및 이용자의 이용 로그를 수집하고 관리함으로써, 서비스 개선 정책을 수립할 수 있고, 맞춤형 서비스를 위한 기반 데이터를 생성할 수 있는 효과가 있다.
또한, 논문의 제목, 저자, 기관, 초록, 표, 그림, 키워드 등과 같이 학술연구/과학기술 콘텐츠의 개체 속성으로 존재하는 유의미한 객체를 정확히 추출하고 정확히 처리할 수 있는 효과가 있다.
아울러, 학술연구/과학기술 콘텐츠의 유의미한 객체를 정확하게 추출하여 DB 스키마를 구성함으로써, 콘텐츠의 효율적인 관리와 높은 품질의 고부가가치 서비스의 제공이 가능한 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리 장치의 블록도.
도 2는 도 1에 이용자관리부가 추가된 블록도.
도 3은 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리 방법의 흐름도.
도 4는 도 3에 이용자관리 단계가 추가된 흐름도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 명세서에서 사용되는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 공정, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 공정, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미가 있는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명을 더욱 상세하게 설명한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정하여 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 또한, 사용되는 기술 용어 및 과학 용어에 있어서 다른 정의가 없다면, 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 통상적으로 이해하고 있는 의미를 가지며, 하기의 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 설명은 생략한다. 다음에 소개되는 도면들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 제시되는 도면들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 또한, 명세서 전반에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다.
도 1은 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리 장치의 블록도이고, 도 2는 도 1에 이용자관리부가 추가된 블록도이며, 도 3은 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리 방법의 흐름도이고, 도 4는 도 3에 이용자관리 단계가 추가된 흐름도이다.
설명에 앞서, 본 명세서( 및 특허청구범위)에서 사용되는 용어에 대해 간단히 설명하도록 한다.
'개체(Entity)'는 하나의 독립된 형태로서 존재할 수 있는 단위로서, 독립적인 기능/속성을 가지고 있는 학술연구, 과학기술 등의 콘텐츠와 관련된 개체(예: 저자, 기관, 인용문헌, 출처 등)를 의미한다. 또한,
'객체(Object)'는 의사나 행위가 미치는 작용의 대상으로, 개체의 속성으로 존재하며 한 개체가 다른 개체를 객체로서 가지고 있을 수 있는 학술연구/과학기술 콘텐츠와 관련된 객체(예: 논문의 제목, 저자, 기관, 초록, 표, 그림, 키워드 등)를 의미한다.
'객체화'는 관리나 서비스를 위해 유의미한 객체 중심으로 DB 스키마를 구성하는 것을 의미하는 것으로, 하나의 개체를 유일하게 구별하는 것(유일한 식별자를 부여할 수 있음)을 의미한다. 예를 들어, 저자 "홍길동"과 "Gildong Hong"이 하나의 개체임을 구별하고, 유일한 식별자를 부여할 수 있다.
'유의미한 객체'는 콘텐츠 저자, 기관, 주제 등 정보의 검색이나 관리에 빈번하게 사용되는 객체를 의미한다.
'DB 스키마'는 데이터를 특성에 의하여 체계적으로 저장하도록 설계한 구조를 의미한다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리장치는 콘텐츠로드부(100), 문서변환부(200), 키워드추출부(300), 개체식별부(400), 관련도책정부(500), 콘텐츠관리부(600) 및 검색제공부(700)를 포함한다.
상기 콘텐츠로드부(100), 문서변환부(200), 키워드추출부(300), 개체식별부(400), 관련도책정부(500), 콘텐츠관리부(600) 및 검색제공부(700)는 하나의 서버에 구성될 수도 있으나 다수의 서버로 분산되어 구비되는 것도 가능함은 물론이다.
콘텐츠로드부(100)는 대상 콘텐츠를 로드한다.
여기서, 상기 콘텐츠는 문서의 형태로 존재하며, 학술자료(논문), 동향보고서, 연구보고서, 특허, 표준, 리포트 및 국가기록물 등 학술연구, 과학기술과 관련된 내용을 담고 있는 학술자료를 의미한다.
문서변환부(200)는 상기 콘텐츠로드부(100)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language)(XML 또는 HTML 등)형식으로 변환하며 고유식별자를 부여한다.
상기 문서변환부(200)에서 부여하는 고유식별자는 해당 콘텐츠를 불러오는데 이용하는 것으로, 통합 자원 식별자(Uniform Resource Identifier, URI)를 사용할 수 있다. 통합 자원 식별자는 인터넷에 있는 자원을 나타내는 유일한 주소로, URI의 존재는 인터넷에서 요구되는 기본조건으로서 인터넷 프로토콜에 항상 붙어 다닌다.
즉, 상기 문서변환부(200)는 대상 콘텐츠를 마크업 언어 형식으로 변환하며 고유식별자를 부여하여, 추후 고유식별자를 이용한 대상 콘텐츠를 불러올 수 있도록 할 수 있다.
이때, 상기 문서변환부(200)는 학술자료(논문), 동향보고서, 연구보고서, 특허, 표준, 리포트 및 국가기록물 등 학술연구, 과학기술과 관련된 내용 분석하여 미리 정의된 분류 체계에 따라서 문서를 자동으로 분류하고, 분류체계에 따른 분류를 확인할 수 있는 고유식별자를 부가하는 것을 특징으로 할 수 있다.
문서의 자동분류는 컴퓨터가 문서의 내용에 기반하여 미리 정의되어 있는 분류 목록 체계에 자동으로 문서를 할당하는 것을 의미하고, 주제 전문가가 구축한 학습 데이터로 훈련된 컴퓨터가 문서를 자동으로 분류하거나, 지식베이스가 충분하게 축적된 경우, 주제 전거 데이터에 의하여 분류할 수 있다.
문서의 자동분류는 학습기반 기법의 정확도가 높으므로 기관별 기존에 보유하고 있는 문서 분류를 활용하여 학습하고, 이를 바탕으로 신규 문서를 분류하는 방향으로 문서 자동 분류 기술을 적용하는 것이 바람직하다. 또한, 문서 분류의 정확도를 높이고 신규 카테고리의 문서를 분류하기 위해 SVM과 KNN 기법을 동시에 적용할 수 있다.
이때, 문서의 자동 분류는 베이지언 기법, Support Vector Machine, 인공신경망 기법, K-Nearest Neighbor 등의 학습기반 기법을 이용하거나, 휴리스틱 기법, 시그니처 분석 기법, 블랙리스팅 기법, 해쉬기반 기법, 트래픽 분석 기법 등의 비학습기반 기법을 이용할 수 있다.
키워드추출부(300)는 상기 문서변환부(200)에 의해 변환된 대상 콘텐츠의 키워드를 추출한다.
키워드는 데이터를 검색할 때에, 특정한 내용이 들어 있는 정보를 찾기 위하여 사용하는 단어나 기호를 의미하는 것으로, 상기 키워드추출부(300)는 상기 대상 콘텐츠를 검색하는데 이용할 수 있는 키워드를 상기 대상 콘텐츠에서 추출한다.
학술연구/과학기술 등의 콘텐츠에서 키워드를 정의하고 추출, 관리하는 키워드 분석 기술은 콘텐츠 분류의 정확도를 높여줄 뿐만 아니라 이와 연관된 관심 연구 분야 탐색, 전문가 검색등과 같은 고부가 가치 서비스에 있어 매우 핵심적인 기술로, 콘텐츠를 관리함에 있어 이러한 키워드를 정확하고 자동적으로 정의, 관리할 수 있다면 관련 서비스의 품질 제고가 가능하다.
상기 키워드추출부(300)는 객체화를 통해 단어 객체, 특히 본문의 단어들을 파싱하고 정지어 처리(관사 등 필터링) 및 토큰 생성(시제, 복수형통일 등) 처리 등을 거친 이후, 출현 빈도에 기반하여 연관도 높은 키워드를 추출하고 이를 독립개체(고유식별자가 부여된 개체)로 저장 및 관리함으로써, 개체 연관 서비스와 같은 고부가 가치 서비스에 활용할 수 있다.
이때, 상기 키워드추출부(300)는 문서변환부(200)에 의해 변환된 대상 콘텐츠에서 형태소를 추출하고 해당 형태소가 문맥 상 어떤 의미로 사용되었는지를 파악하며, 출현 빈도에 기반하여 연관도 높은 형태소를 키워드로 추출하는 것을 특징으로 할 수 있다.
즉, 상기 키워드추출부(300)는 문자 자체를 키워드로 추출하는 것이 아니고, 문자가 가진 본연의 의미를 확인할 수 있는 형태소 단위로 키워드를 추출하고, 문맥상 키워드에 해당되는 의미를 파악하여 해당 키워드에 해당되는 의미를 부가할 수 있다.
다시 말해, 형태소 단위로 추출된 키워드는 해당 형태소의 의미가 같이 저장되어 관리된다.
개체식별부(400)는 상기 키워드추출부(300)로부터 추출된 키워드를 기반으로 핵심키워드, 저자(공저자 포함), 기관, 지역, 표, 그림 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여한다.
즉, 상기 키워드추출부(300)로부터 추출된 키워드 각각을 구별할 수 있도록 고유식별자를 부여하여 관리하되, 해당 키워드가 핵심키워드, 저자(공저자 포함), 기관, 지역, 표, 그림 및 인용문헌 중 어떤 분류에 해당되는 키워드인지 확인이 가능하도록 고유식별자를 부여하여 관리할 수 있다.
'스마트 그리드'를 핵심키워드로 선택하였을 경우를 예를 들면,
스마트 그리드(Smart Grid)는 기존의 전력망에 정보기술(IT)을 접목하여 전력 공급자와 소비자가 양방향으로 실시간 정보를 교환함으로써 에너지 효율을 최적화하는 차세대 지능형 전력망을 말하는 것으로, '지능형 전력망' 또는 '전력 전산망'이라고도 한다.
따라서, '스마트 그리드', '지능형 전력망' 및 '전력 전산망'이라는 키워드를 '스마트 그리드'라는 개체로 정의하고 이를 핵심키워드로 분류하고자 한다면, 정의된 개체가 핵심키워드 라는 것을 확인할 수 있는 고유식별자를 부여하여 관리할 수 있다.
이는 추후, "핵심키워드로 'A', 저자로 'B', 기관으로 'C', 인용문헌으로 'D'"과 같이 모든 조건을 만족하는 검색결과를 추출하여 정보의 노이즈를 최소화 시킬 수 있도록 하기 위함이다.
예를 들어, '스마트 그리드'로 전산망과 관련된 내용을 검색하고자 할 경우, 본문에서 추출한 핵심키워드로 '스마트 그리드'를 검색하는 명령을 내리면, '스마트 그리드'라는 인물이나 단체 등의 정보의 노이즈가 검색되지 않고, '스마트 그리드', '지능형 전력망' 및 '전력 전산망'이 본문의 핵심키워드인 정보만 검색되도록 할 수 있다.
논문, 보고서, 특허 등의 콘텐츠를, 속성정보를 확인할 수 있는 고유식별자를 부여한 개체로 저장(객체화 기술을 통해 저장)한 이후, 식별된 저자 정보, 인용/피인용 콘텐츠 정보를 이용하여 개체들 간의 관계 그래프를 생성하여 저장하였다가 서비스 요청 시 이때 구축하였던 데이터베이스의 정보를 활용하여 저자 네트워크 분석, 전문가 탐색, 인용/피인용 그래프 시각화 등 고부가가치 서비스에 제공할 수 있다.
이때, 상기 개체식별부(400)는 대상 콘텐츠의 제목, 초록 및 메타 데이터 중 선택되는 어느 하나 또는 복수의 정보를 이용하는 내재적 접근 방식과 외부의 데이터 또는 API(application programming interface)를 이용하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것을 특징으로 할 수 있다.
여기서, 메타 데이터로는 문헌 종류, 저자명, 연구책임자, 참여연구원, 기관명, 후원기관(주관부처), 지역, 연구기간키워드, 목차, 본문, 참고문헌, 학회명, 학술지명, 발행연도, 권호, 출판사, 심사위원, 심사완료일자, 학위, 학과, 부록, 발행일, 출원인, 발명자, 청구항, IPC, 명세서, 출원일, 공개일, 등록일 등이 될 수 있다.
즉, 전자 문서, 웹문서 형태의 논문, 보고서, 특허 등 콘텐츠를 메타데이터의 활용, 언어적 분석, XML 및 HTML 테그를 통한 내재적 접근 방식으로 콘텐츠 개체를 식별하는 것도 가능하고, 외부 API를 이용하여 객체화하고 구조 정보를 추출하여 데이터베이스 스키마를 구성하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것도 가능하다.
XML, HTML 태그 등의 메타 데이터를 활용하여 구조 정보를 축출하고 이에 대응 되는 데이터를 분리하는 예로는, HTML 테이블 Tag의 경우 처음 대응 데이터를 테이블의 속성(attribute)으로, 이후 데이터를 값(value)으로 분리할 수 있고, 저자 개체 정보의 경우 저자 개체를 의미하는 'Person', 'Name', 'Author' 등의 태그에 대응되는 데이터를 추출하고, 저자 정보가 저장되어 있는 데이터베이스를 참고하여 저자 개체를 식별할 수 있다.
이때, 저자 정보를 나타내는 메타 데이터를 바탕으로 Knowledge Base를 구축하여 'Person', 'Name', 'Author' 등의 XML 태그나 주석을 가지고 있는 데이터를 수합하여 저장할 수 있다.
또한, 저자명으로 판별되지 않는 데이터 셋을 찾아 검증하고 정정할 수 있다. 예를 들어, 'author' TAG에 해당하는 데이터가 연락처 정보 '02-555-1234'라면 해당 데이터 셋을 삭제할 수 있다.
논문, 특허, 보고서와 같은 콘텐츠들을 관리함에 있어서 각 콘텐츠의 저자 정보를 자동적으로, 정확하게 식별, 추출하여, 저자 개체간 네트워크 분석, 사용자 프로파일 관리, 개인화 서비스등에 요구되는 많은 비용을 절감할 수 있으며 연계된 서비스의 품질 또한 제고할 수 있다.
외재적 접근 방식으로 콘텐츠 개체를 식별하는 것은, 사용자가 저자 개체 식별 과정에서 부분적으로 개입하거나, 식별에 필요한 데이터 셋을 제공하는 등의 외부 API를 이용, 콘텐츠 개체를 식별하는 외재적 접근 방식으로 전체적인 동작 구조를, 저자 등과 같은 개체 정보의 추출을 위하여 외부의 데이터나 API를 통하여 저자를 식별하는 기법의 예를 들어 설명하면, 내재적 방법과 마찬가지로 크롤러 등을 통해 수집한 웹문서나 특정 인터페이스를 통해 로드한 전자 문서를 텍스트, 이미지, 테이블 등으로 객체화를 시키고, 텍스트 데이터와 함께 주석 등 가용 가능한 메타 데이터를 활용하여 구조 정보를 추출하여, 외부 데이터와 추출한 객체 데이터를 연계하거나 개체 식별 API를 활용하여 저자 개체를 식별할 수 있다.
예를 들어, 개체 후보를 identifiers.org, sameAs.org, OKKAM과 같은 외부 API에서 검색하여 저자 개체 식별할 수 있다.
외재적 접근 방식으로 콘텐츠 개체를 구별하는 방법은
논문, 보고서 등, 비교적 정형화 되어 있는 콘텐츠로부터 추출한 객체들을 이용해 저자 속성을 정의하고, 이를 이용하여 해당 속성에 가장 부합하는 저자 개체를 외부의 Look-up API 등을 통해 찾을 수 있고, 해당 문서를 사전 입력된 데이터 정보나 문서에 태그 등의 형태로 기술된 메타 데이터를 로드 해 저자 객체를 추출할 수 있다. 이후, 주요 객체들을 선택하여 개체에 고유식별자를 부여할 수 있고(속성화), 외부 API 등을 통하여 개체 속성을 매개로 저자 개체를 검색할 수 있다.
관련도책정부(500)는 상기 개체식별부(400)로부터 식별된 개체에 관련도 점수를 부가한다.
즉, 해당 개체가 해당 콘텐츠를 잘 표현하는 개체라면 관련도 점수를 높게 부가하고, 해당 개체가 해당 콘텐츠를 표현하기는 하지만 관련도가 낮은 개체라면 관련도 점수를 낮게 부가할 수 있다.
예를 들어, 스마트그리드 보안체계 구축과 관련된 콘텐츠를 검색하고자 할 경우, '스마트그리드', '보안', '구축'의 3 가지 키워드를 이용하여 검색할 수 있다.
이때, '스마트그리드'와 '보안'은 중요한 키워드로 작용될 수 있고, '구축'은 보조 키워드로 작용될 수 있다.
따라서, 해당 콘텐츠에서 개체를 '스마트그리드', '보안', '구축' 3 개로 추출하였다면, '스마트그리드', '보안'에는 100점을 부가하고 '구축'에는 30점을 부가할 수 있다.
여기서, 관련도 점수는 특정 검색엔진으로 검색된 수가 많을수록 적게 책정하는 것을 특징으로 할 수 있다.
이는, 검색된 수가 많을수록 식별력이 떨어지는 것이 일반적이기 때문이다.
예를 들어, '네이버' 검색엔진의 전문정보 전체에서 검색할 경우(2016년 7월 27일 기준), '스마트그리드'로 검색된 수는 1779건이고, '보안'으로 검색된 수는 22726건이며, '구축'으로 검색된 수는 61814건이 확인 되는 것으로도 검색된 수가 많을수록 식별력이 떨어짐을 확인할 수 있다.
콘텐츠관리부(600)는 상기 문서변환부(200)로부터 변환된 대상 콘텐츠에 상기 개체식별부(400)로부터 식별된 개체 정보 및 상기 관련도책정부(500)에서 부가된 관련도 점수 정보를 저장 및 관리한다.
즉, 상기 콘텐츠관리부(600)가 상기 문서변환부(200)로부터 부여된 고유식별자를 포함하는 변환된 대상 콘텐츠, 상기 개체식별부(400)로부터 상기 변환된 대상 콘텐츠와 관련된 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(500)로부터 부가된 관련도 점수를 통합 저장 및 관리한다.
상기 콘텐츠관리부(600)는 시멘틱 웹(semantic web) 기술이 적용된 것을 특징으로 할 수 있다.
시멘틱 웹(semantic web)은 컴퓨터가 정보자원의 뜻을 이해하고, 논리적 추론까지 할 수 있는 차세대 지능형 웹을 말하는 것으로, 현재의 컴퓨터처럼 사람이 마우스나 키보드를 이용해 원하는 정보를 찾아 눈으로 보고 이해하는 웹이 아니라, 컴퓨터가 이해할 수 있는 웹을 말한다. 즉 사람이 읽고 해석하기에 편리하게 설계되어 있는 현재의 웹 대신에 컴퓨터가 이해할 수 있는 형태의 새로운 언어로 표현(본 발명에서는 고유식별자를 이용한 표현)해 기계들끼리 서로 의사소통을 할 수 있는 지능형 웹이다.
원리는 사람들이 이해할 수 있도록 자연어 위주로 되어 있는 현재의 웹 문서와 달리, 정보자원들 사이에 연결되어 있는 의미를 컴퓨터가 이해할 수 있는 형태의 언어로 바꾸는 것이다. 이렇게 되면 컴퓨터가 정보자원의 뜻을 해석하고, 기계들끼리 서로 정보를 주고받으면서 자체적으로 필요한 일을 처리하는 것이 가능해진다.
2004년 현재 시멘틱 웹과 관련된 연구는 RDF(Resource Description Framework)를 기반으로 한 온톨로지 기술과 국제표준화기구(ISO) 중심의 토픽 맵(Topic Map) 기술이 주류를 이루고 있다.
온톨로지 기술은 현재의 웹에 자원(주어)ㅇ속성(술어)ㅇ속성값(목적어) 등 자원을 기술하는 언어인 메타데이터를 부여해 정보의 의미를 이해하고 처리할 수 있게 하는 기술이다. 토픽 맵(Topic Map) 기술은 ISO의 XML 기반 표준 기술언어인 XTM 언어를 이용해 정보와 지식의 분산 관리를 지원하는 기술로, 지식층과 정보층의 이중 구조를 띤다.
시멘틱 웹이 실현되면 컴퓨터가 자동으로 정보를 처리할 수 있어 정보시스템의 생산성과 효율성이 극대화된다. 컴퓨터 혼자 전자상거래를 할 수 있고, 기업의 시스템 통합(SI), 지능형 로봇 시스템, 의료 정보화 등 다양한 분야에 응용할 수 있다.
검색제공부(700)는 고유식별정보를 이용하여 회원인증을 거친 사용자단말(10)의 검색 요청을 분석하여 검색에 이용할 개체를 선택하고, 선택된 개체를 기반으로 상기 콘텐츠관리부(600)로부터 관련도점수가 가장 높은 콘텐츠 순으로 검색 결과를 제공받아 사용자단말(10)에 검색 결과를 제공한다.
상기 고유식별정보는 특정 IP, 공인인증서, 아이디(ID) 와 패스워드(password), 맥어드레스(MAC(media access control) address), 국제모바일기기식별코드(IMEI, International Mobile Station Equipment Identity), 고유식별번호(UDID: User Device IDentification), 범용고유식별자(UUID: Universally Unique IDentifier) 및 전화번호 등이 될 수 있다.
예를 들어, 컴퓨터의 경우, 특정 IP, 공인인증서, 아이디(ID) 와 패스워드(password), 맥어드레스(MAC address) 등을 이용해 회원인증을 수행할 수 있고, 모바일기기 및 스마트기기의 경우, 맥어드레스(MAC(media access control) address), 국제모바일기기식별코드(IMEI, International Mobile Station Equipment Identity), 고유식별번호(UDID: User Device IDentification), 범용고유식별자(UUID: Universally Unique IDentifier) 및 전화번호 등을 이용해 회원인증을 수행할 수 있다
맥어드레스(MAC(media access control) address)는 네트워크 구조에서 MAC 계층에서 네트워크 장치가 갖는 주소로서 보통 네트워크 카드의 ROM에 저장되어 있다.
고유식별번호(UDID: User Device IDentification)는 사용자의 디바이스를 식별할 수 있는 식별자 이다. 일종의 시리얼넘버인 셈이다.
범용고유식별자(UUID: Universally Unique IDentifier)는 인터넷상에서 객체나 실체를 식별하는 데 사용되는 128비트 숫자를 말한다. 공간과 시간(약 3400년까지)의 조합을 통해 구성되는 거의 유일하게 사용할 수 있는 식별자로서, 극히 단시간의 객체에서부터 영구적인 객체 식별에 이르기까지 다양한 목적으로 사용된다. 인증 기관의 등록 절차는 없고, 다만 범용 단일 식별자 생성 프로그램의 유일한 식별 숫자만 필요하다. 예를 들어, 어떤 제품의 맥어드레스를 특정 서버에 저장하게 되면 개인정보 유출 등의 문제가 발생될 수 있기 때문에, 맥어드레스를 대체하여 저장하기 위한 식별자로 사용 할 수 있다.
위에서 여러 가지 고유식별정보(식별자)에 대하여 설명하였으며, 하나의 기기가 다수의 고유식별정보를 갖을 수 있다.
예를 들어, 휴대폰이 와이파이 및 블루투스 통신이 가능하다면, 핸드폰 기기 자체의 식별자(UDID), 와이파이 칩에 대한 맥어드레스, 블루투스 칩에 대한 맥어드레스 등 여러 고유식별정보를 동시에 가지고 있다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리장치는 이용자의 로그데이터를 관리하여 콘텐츠의 사용에 대한 통계 및 이용자의 이용 로그를 수집하고 관리하는 이용자관리부(800)를 더 포함할 수 있다.
LOD(Linked Open Data) Cloud 정보서비스시스템에서 사용자의 관심사나 이용 패턴에 따라서 콘텐츠를 맞춤형으로 제공하기 위해서는 각종 통계 및 사용자 이용 로그를 수집/분석하는 기술이 필요하다.
즉, 사용자의 시스템 사용 로그를 저장하고, 이를 분석하여, 개인 맞춤형 서비스, 소셜 큐레이션 플랫폼, My Research Library 등의 서비스의 기반이 되는 사용자 프로필 정보를 제공할 수 있다.
이를 위해, 상기 이용자관리부(800)는 웹서버 로그파일 분석(Server Log File Analysis) 방식, 패킷 스니핑(Packet Sniffing) 방식, 페이지 태깅(Page Tagging) 방식, 하이브리드(Hybrid) 방식, 패널(Panel)에 의한 방식 등을 이용할 수 있다.
이중 이용자 로그 수집 방법 중 로그파일 분석 방식과 페이지 태깅 방식이 가장 많이 사용되고 있어서, 이 두 가지 방법의 장단점을 분석하여 적용할 수 있다.
로그파일 분석 방식의 장점은 분석솔루션 설치만으로 기본적인 분석수행가능하고, 과거 축적된 로그파일이 있으면 과거의 데이터도 분석 가능하며, 네트워크 트래픽에 대한 전송량 측정 가능하고, 파일 다운로드 성공 여부 및 다양한 서버 에러에 대한 측정가능하며, 모바일 웹페이지 및 검색엔진로봇 분석이 가능하다는 점이다.
페이지 태깅 방식의 장점은 방문자수에 대한 정확한 측정이 가능하고, 장기간에 걸친 캠페인 효과분석 용이하며, 방문자 웹브라우저에서 발생하는 다양한 이벤트 수집이 원활(클릭, AJAX 로딩, Flash 등)하고, 실시간 또는 실시간에 준하는 측정결과 데이터를 실시간으로 리포팅 할 수 있으며, 동적 콘텐츠/페이지 분석을 위해 초기 설정 후, 콘텐츠 추가/변경에 따른 설정 작업이 존재하지 않고, ASP 서비스 활용 시 별도의 Software/Hardware의 구매가 필요 없으며, 네트워크/호스트 구성에 무관하게 자동적인 Merge 분석 수행이 가능하다는 점이다.
로그파일 분석 방식의 단점은 Proxy/Cache/NAT 등으로 인해 정확한 방문자수에 대한측정이 어렵고, 장기간에 걸친 캠페인 효과분석의 어려우며(Raw 로그파일의 보관문제), 방문자 웹브라우저의 이벤트 수집이 어렵고, Iframe/AJAX 등이 존재하는 웹사이트에서 페이지 기능을 분 리하여 정의 하는 Mapping 과정 필요하며, 동적 콘텐츠/페이지 분석을 위한 Parameter Mapping 절차가 필요하고, 콘텐츠 변경 시 추가적 설정 작업 필요하며, 분석대상 호스트(Host)rk 네트워크/물리적으로 분리된 경우 분석이 어려우며, 추가적 Software/Hardware 구매가 필요할 수 있다는 점이다.
페이지 태깅 방식의 단점은 분석을 위해 분석스크립트가 웹페이지에 Tagging되어야 하는 작업 필요하며, Tagging의 실수로 인한 데이터 수집 주락 시 과거 내용의 분석이 어렵고, 트래픽 전송량 측정이 어려우며, 파일 다운로드 등 유사항목에 대해 결과분석이 아닌 사용자 시도에 대한 분석 수행이 어렵고, 검색엔진로봇, 모바일 웹페이지 분석이 어렵고, 쿠키의 삭제/제3사 쿠키의 배제 등 방문자수의 오차 요인이 존재한다는 점이다.
사용자의 이용로그를 분석하면 일반적인 측정지표를 이용하여, 서버의 처리용량 및 시스템적 트래픽량에 대한 모니터링이 가능하고, 웹사이트 사용량의 변화 분석이 가능하며, 처음방문자와 재방문자의 특성을 비교하여 사용성 비교 분석이 가능하고, 콘텐츠 관심도 및 이용도를 측정할 수 있으며, 이벤트에 대한 사용자의 행동 특성 분석이 가능하고, 서비스 사용성을 개선할 수 있는 통계적 지표를 분석이 가능하며, 사용자가 검색을 위해 사용한 질의어를 수집하고 분석하는 것이 가능하고, 사용자의 다운로드 로그 분석을 통해 관심 콘텐츠 분석하는 것이 가능하며, 웹사이트 내에서 사용자의 페이지 이동 패턴 분석이 가능함으로써, 서비스 개선 정책을 수립할 수 있고, 맞춤형 서비스를 위한 기반 데이터를 생성할 수 있다.
측정지표는 기본측정지표와 파생측정지표가 있으며, 이를 통한 서비스 개선 정책 수립이 가능하다.
기본측정지표는 힛트수, 페이지뷰수, 방문수, 방문자수, 체류시간, 반송수, 전환수 등이 있고, 파생측정지표는 방문당 페이지뷰수, 평균 체류시간, 반송율, 페이지 이탈율, 사이트 이용지수 등이 있다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리방법은 콘텐츠로드부(100), 문서변환부(200), 키워드추출부(300), 개체식별부(400), 관련도책정부(500), 콘텐츠관리부(600) 및 검색제공부(700)를 포함하는 고부가 가치화 콘텐츠 관리장치를 이용한 고부가 가치화 콘텐츠 관리방법에 있어서, 콘텐츠로드 단계(S10), 문서변환 단계(S20), 키워드추출 단계(S30), 개체식별 단계(S40), 개체점수부가 단계(S50), 콘텐츠저장 단계(S60) 및 검색제공 단계(S70)를 포함한다.
상기 콘텐츠로드부(100), 문서변환부(200), 키워드추출부(300), 개체식별부(400), 관련도책정부(500), 콘텐츠관리부(600) 및 검색제공부(700)는 하나의 서버에 구성될 수도 있으나 다수의 서버로 분산되어 구비되는 것도 가능함은 물론이다.
콘텐츠로드 단계(S10)는 콘텐츠로드부(100)가 대상 콘텐츠를 로드한다.
여기서, 상기 콘텐츠는 문서의 형태로 존재하며, 학술자료(논문), 동향보고서, 연구보고서, 특허, 표준, 리포트 및 국가기록물 등 학술연구, 과학기술과 관련된 내용을 담고 있는 학술자료를 의미한다.
문서변환 단계(S20)는 문서변환부(200)가 상기 콘텐츠로드부(100)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language)형식으로 변환하며 고유식별자를 부여한다.
상기 문서변환 단계(S20)에서 부여하는 고유식별자는 해당 콘텐츠를 불러오는데 이용하는 것으로, 통합 자원 식별자(Uniform Resource Identifier, URI)를 사용할 수 있다. 통합 자원 식별자는 인터넷에 있는 자원을 나타내는 유일한 주소로, URI의 존재는 인터넷에서 요구되는 기본조건으로서 인터넷 프로토콜에 항상 붙어 다닌다.
즉, 상기 문서변환 단계(S20)는 대상 콘텐츠를 마크업 언어 형식으로 변환하며 고유식별자를 부여하여, 추후 고유식별자를 이용한 대상 콘텐츠를 불러올 수 있도록 할 수 있다.
이때, 상기 문서변환 단계(S20)는 학술자료(논문), 동향보고서, 연구보고서, 특허, 표준, 리포트 및 국가기록물 등 학술연구, 과학기술과 관련된 내용 분석하여 미리 정의된 분류 체계에 따라서 문서를 자동으로 분류하고, 분류체계에 따른 분류를 확인할 수 있는 고유식별자를 부가하는 것을 특징으로 할 수 있다.
문서의 자동분류는 컴퓨터가 문서의 내용에 기반하여 미리 정의되어 있는 분류 목록 체계에 자동으로 문서를 할당하는 것을 의미하고, 주제 전문가가 구축한 학습 데이터로 훈련된 컴퓨터가 문서를 자동으로 분류하거나, 지식베이스가 충분하게 축적된 경우, 주제 전거 데이터에 의하여 분류할 수 있다.
문서의 자동분류는 학습기반 기법의 정확도가 높으므로 기관별 기존에 보유하고 있는 문서 분류를 활용하여 학습하고, 이를 바탕으로 신규 문서를 분류하는 방향으로 문서 자동 분류 기술을 적용하는 것이 바람직하다. 또한, 문서 분류의 정확도를 높이고 신규 카테고리의 문서를 분류하기 위해 SVM과 KNN 기법을 동시에 적용할 수 있다.
이때, 문서의 자동 분류는 베이지언 기법, Support Vector Machine, 인공신경망 기법, K-Nearest Neighbor 등의 학습기반 기법을 이용하거나, 휴리스틱 기법, 시그니처 분석 기법, 블랙리스팅 기법, 해쉬기반 기법, 트래픽 분석 기법 등의 비학습기반 기법을 이용할 수 있다.
키워드추출 단계(S30)는 키워드추출부(300)가 상기 문서변환부(200)에 의해 변환된 대상 콘텐츠의 키워드를 추출한다.
키워드는 데이터를 검색할 때에, 특정한 내용이 들어 있는 정보를 찾기 위하여 사용하는 단어나 기호를 의미하는 것으로, 상기 키워드추출 단계(S30)는 상기 대상 콘텐츠를 검색하는데 이용할 수 있는 키워드를 상기 대상 콘텐츠에서 추출한다.
학술연구/과학기술 등의 콘텐츠에서 키워드를 정의하고 추출, 관리하는 키워드 분석 기술은 콘텐츠 분류의 정확도를 높여줄 뿐만 아니라 이와 연관된 관심 연구 분야 탐색, 전문가 검색등과 같은 고부가 가치 서비스에 있어 매우 핵심적인 기술로, 콘텐츠를 관리함에 있어 이러한 키워드를 정확하고 자동적으로 정의, 관리할 수 있다면 관련 서비스의 품질 제고가 가능하다.
상기 키워드추출 단계(S30)는 객체화를 통해 단어 객체, 특히 본문의 단어들을 파싱하고 정지어 처리(관사 등 필터링) 및 토큰 생성(시제, 복수형통일 등) 처리 등을 거친 이후, 출현 빈도에 기반하여 연관도 높은 키워드를 추출하고 이를 독립개체(고유식별자가 부여된 개체)로 저장 및 관리함으로써, 개체 연관 서비스와 같은 고부가 가치 서비스에 활용할 수 있다.
이때, 상기 키워드추출 단계(S30)는 문서변환부(200)에 의해 변환된 대상 콘텐츠에서 형태소를 추출하고 해당 형태소가 문맥 상 어떤 의미로 사용되었는지를 파악하며, 출현 빈도에 기반하여 연관도 높은 형태소를 키워드로 추출하는 것을 특징으로 할 수 있다.
즉, 상기 키워드추출 단계(S30)는 문자 자체를 키워드로 추출하는 것이 아니고, 문자가 가진 본연의 의미를 확인할 수 있는 형태소 단위로 키워드를 추출하고, 문맥상 키워드에 해당되는 의미를 파악하여 해당 키워드에 해당되는 의미를 부가할 수 있다.
다시 말해, 형태소 단위로 추출된 키워드는 해당 형태소의 의미가 같이 저장되어 관리된다.
개체식별 단계(S40)는 개체식별부(400)가 상기 키워드추출부(300)로부터 추출된 키워드를 기반으로 핵심키워드, 저자(공저자 포함), 기관, 지역, 표, 그림 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여한다.
즉, 상기 키워드추출 단계(S30)로부터 추출된 키워드 각각을 구별할 수 있도록 고유식별자를 부여하여 관리하되, 해당 키워드가 핵심키워드, 저자(공저자 포함), 기관, 지역, 표, 그림 및 인용문헌 중 어떤 분류에 해당되는 키워드인지 확인이 가능하도록 고유식별자를 부여하여 관리할 수 있다.
'스마트 그리드'를 핵심키워드로 선택하였을 경우를 예를 들면,
스마트 그리드(Smart Grid)는 기존의 전력망에 정보기술(IT)을 접목하여 전력 공급자와 소비자가 양방향으로 실시간 정보를 교환함으로써 에너지 효율을 최적화하는 차세대 지능형 전력망을 말하는 것으로, '지능형 전력망' 또는 '전력 전산망'이라고도 한다.
따라서, '스마트 그리드', '지능형 전력망' 및 '전력 전산망'이라는 키워드를 '스마트 그리드'라는 개체로 정의하고 이를 핵심키워드로 분류하고자 한다면, 정의된 개체가 핵심키워드 라는 것을 확인할 수 있는 고유식별자를 부여하여 관리할 수 있다.
이는 추후, "핵심키워드로 'A', 저자로 'B', 기관으로 'C', 인용문헌으로 'D'"과 같이 모든 조건을 만족하는 검색결과를 추출하여 정보의 노이즈를 최소화 시킬 수 있도록 하기 위함이다.
예를 들어, '스마트 그리드'로 전산망과 관련된 내용을 검색하고자 할 경우, 본문에서 추출한 핵심키워드로 '스마트 그리드'를 검색하는 명령을 내리면, '스마트 그리드'라는 인물이나 단체 등의 정보의 노이즈가 검색되지 않고, '스마트 그리드', '지능형 전력망' 및 '전력 전산망'이 본문의 핵심키워드인 정보만 검색되도록 할 수 있다.
논문, 보고서, 특허 등의 콘텐츠를, 속성정보를 확인할 수 있는 고유식별자를 부여한 개체로 저장(객체화 기술을 통해 저장)한 이후, 식별된 저자 정보, 인용/피인용 콘텐츠 정보를 이용하여 개체들 간의 관계 그래프를 생성하여 저장하였다가 서비스 요청 시 이때 구축하였던 데이터베이스의 정보를 활용하여 저자 네트워크 분석, 전문가 탐색, 인용/피인용 그래프 시각화 등 고부가가치 서비스에 제공할 수 있다.
이때, 상기 개체식별 단계(S40)는 대상 콘텐츠의 제목, 초록 및 메타 데이터 중 선택되는 어느 하나 또는 복수의 정보를 이용하는 내재적 접근 방식과 외부의 데이터 또는 API(application programming interface)를 이용하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것을 특징으로 할 수 있다.
여기서, 메타 데이터로는 문헌 종류, 저자명, 연구책임자, 참여연구원, 기관명, 후원기관(주관부처), 지역, 연구기간키워드, 목차, 본문, 참고문헌, 학회명, 학술지명, 발행연도, 권호, 출판사, 심사위원, 심사완료일자, 학위, 학과, 부록, 발행일, 출원인, 발명자, 청구항, IPC, 명세서, 출원일, 공개일, 등록일 등이 될 수 있다.
즉, 전자 문서, 웹문서 형태의 논문, 보고서, 특허 등 콘텐츠를 메타데이터의 활용, 언어적 분석, XML 및 HTML 테그를 통한 내재적 접근 방식으로 콘텐츠 개체를 식별하는 것도 가능하고, 외부 API를 이용하여 객체화하고 구조 정보를 추출하여 데이터베이스 스키마를 구성하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것도 가능하다.
XML, HTML 태그 등의 메타 데이터를 활용하여 구조 정보를 축출하고 이에 대응 되는 데이터를 분리하는 예로는, HTML 테이블 Tag의 경우 처음 대응 데이터를 테이블의 속성(attribute)으로, 이후 데이터를 값(value)으로 분리할 수 있고, 저자 개체 정보의 경우 저자 개체를 의미하는 'Person', 'Name', 'Author' 등의 태그에 대응되는 데이터를 추출하고, 저자 정보가 저장되어 있는 데이터베이스를 참고하여 저자 개체를 식별할 수 있다.
이때, 저자 정보를 나타내는 메타 데이터를 바탕으로 Knowledge Base를 구축하여 'Person', 'Name', 'Author' 등의 XML 태그나 주석을 가지고 있는 데이터를 수합하여 저장할 수 있다.
또한, 저자명으로 판별되지 않는 데이터 셋을 찾아 검증하고 정정할 수 있다. 예를 들어, 'author' TAG에 해당하는 데이터가 연락처 정보 '02-555-1234'라면 해당 데이터 셋을 삭제할 수 있다.
논문, 특허, 보고서와 같은 콘텐츠들을 관리함에 있어서 각 콘텐츠의 저자 정보를 자동적으로, 정확하게 식별, 추출하여, 저자 개체간 네트워크 분석, 사용자 프로파일 관리, 개인화 서비스등에 요구되는 많은 비용을 절감할 수 있으며 연계된 서비스의 품질 또한 제고할 수 있다.
외재적 접근 방식으로 콘텐츠 개체를 식별하는 것은, 사용자가 저자 개체 식별 과정에서 부분적으로 개입하거나, 식별에 필요한 데이터 셋을 제공하는 등의 외부 API를 이용, 콘텐츠 개체를 식별하는 외재적 접근 방식으로 전체적인 동작 구조를, 저자 등과 같은 개체 정보의 추출을 위하여 외부의 데이터나 API를 통하여 저자를 식별하는 기법의 예를 들어 설명하면, 내재적 방법과 마찬가지로 크롤러 등을 통해 수집한 웹문서나 특정 인터페이스를 통해 로드한 전자 문서를 텍스트, 이미지, 테이블 등으로 객체화를 시키고, 텍스트 데이터와 함께 주석 등 가용 가능한 메타 데이터를 활용하여 구조 정보를 추출하여, 외부 데이터와 추출한 객체 데이터를 연계하거나 개체 식별 API를 활용하여 저자 개체를 식별할 수 있다.
예를 들어, 개체 후보를 identifiers.org, sameAs.org, OKKAM과 같은 외부 API에서 검색하여 저자 개체 식별할 수 있다.
외재적 접근 방식으로 콘텐츠 개체를 구별하는 방법은
논문, 보고서 등, 비교적 정형화 되어 있는 콘텐츠로부터 추출한 객체들을 이용해 저자 속성을 정의하고, 이를 이용하여 해당 속성에 가장 부합하는 저자 개체를 외부의 Look-up API 등을 통해 찾을 수 있고, 해당 문서를 사전 입력된 데이터 정보나 문서에 태그 등의 형태로 기술된 메타 데이터를 로드 해 저자 객체를 추출할 수 있다. 이후, 주요 객체들을 선택하여 개체에 고유식별자를 부여할 수 있고(속성화), 외부 API 등을 통하여 개체 속성을 매개로 저자 개체를 검색할 수 있다.
개체점수부가 단계(S50)는 관련도책정부(500)가 상기 개체식별부(400)로부터 식별된 개체에 관련도 점수를 부가한다.
즉, 해당 개체가 해당 콘텐츠를 잘 표현하는 개체라면 관련도 점수를 높게 부가하고, 해당 개체가 해당 콘텐츠를 표현하기는 하지만 관련도가 낮은 개체라면 관련도 점수를 낮게 부가할 수 있다.
예를 들어, 스마트그리드 보안체계 구축과 관련된 콘텐츠를 검색하고자 할 경우, '스마트그리드', '보안', '구축'의 3 가지 키워드를 이용하여 검색할 수 있다.
이때, '스마트그리드'와 '보안'은 중요한 키워드로 작용될 수 있고, '구축'은 보조 키워드로 작용될 수 있다.
따라서, 해당 콘텐츠에서 개체를 '스마트그리드', '보안', '구축' 3 개로 추출하였다면, '스마트그리드', '보안'에는 100점을 부가하고 '구축'에는 30점을 부가할 수 있다.
콘텐츠저장 단계(S60)는 콘텐츠관리부(600)가 상기 문서변환부(200)로부터 변환된 대상 콘텐츠에 상기 개체식별부(400)로부터 식별된 개체 정보 및 상기 관련도책정부(500)에서 부가된 관련도 점수 정보를 저장한다.
즉, 상기 콘텐츠저장 단계(S60)는 상기 콘텐츠관리부(600)가 상기 문서변환부(200)로부터 부여된 고유식별자를 포함하는 변환된 대상 콘텐츠, 상기 개체식별부(400)로부터 상기 변환된 대상 콘텐츠와 관련된 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(500)로부터 부가된 관련도 점수를 통합 저장 및 관리한다.
상기 콘텐츠관리부(600)는 시멘틱 웹(semantic web) 기술이 적용된 것을 특징으로 할 수 있다.
시멘틱 웹(semantic web)은 컴퓨터가 정보자원의 뜻을 이해하고, 논리적 추론까지 할 수 있는 차세대 지능형 웹을 말하는 것으로, 현재의 컴퓨터처럼 사람이 마우스나 키보드를 이용해 원하는 정보를 찾아 눈으로 보고 이해하는 웹이 아니라, 컴퓨터가 이해할 수 있는 웹을 말한다. 즉 사람이 읽고 해석하기에 편리하게 설계되어 있는 현재의 웹 대신에 컴퓨터가 이해할 수 있는 형태의 새로운 언어로 표현(본 발명에서는 고유식별자를 이용한 표현)해 기계들끼리 서로 의사소통을 할 수 있는 지능형 웹이다.
원리는 사람들이 이해할 수 있도록 자연어 위주로 되어 있는 현재의 웹 문서와 달리, 정보자원들 사이에 연결되어 있는 의미를 컴퓨터가 이해할 수 있는 형태의 언어로 바꾸는 것이다. 이렇게 되면 컴퓨터가 정보자원의 뜻을 해석하고, 기계들끼리 서로 정보를 주고받으면서 자체적으로 필요한 일을 처리하는 것이 가능해진다.
2004년 현재 시멘틱 웹과 관련된 연구는 RDF(Resource Description Framework)를 기반으로 한 온톨로지 기술과 국제표준화기구(ISO) 중심의 토픽 맵(Topic Map) 기술이 주류를 이루고 있다.
온톨로지 기술은 현재의 웹에 자원(주어)ㅇ속성(술어)ㅇ속성값(목적어) 등 자원을 기술하는 언어인 메타데이터를 부여해 정보의 의미를 이해하고 처리할 수 있게 하는 기술이다. 토픽 맵(Topic Map) 기술은 ISO의 XML 기반 표준 기술언어인 XTM 언어를 이용해 정보와 지식의 분산 관리를 지원하는 기술로, 지식층과 정보층의 이중 구조를 띤다.
시멘틱 웹이 실현되면 컴퓨터가 자동으로 정보를 처리할 수 있어 정보시스템의 생산성과 효율성이 극대화된다. 컴퓨터 혼자 전자상거래를 할 수 있고, 기업의 시스템 통합(SI), 지능형 로봇 시스템, 의료 정보화 등 다양한 분야에 응용할 수 있다.
검색제공 단계(S70)는 고유식별정보를 이용하여 회원인증을 거친 사용자단말(10)로부터 검색제공부(700)가 검색 요청을 받으면, 검색 요청을 분석하여 검색에 이용할 개체를 선택하고, 선택된 개체를 기반으로 상기 콘텐츠관리부(600)로부터 관련도점수가 가장 높은 콘텐츠 순으로 검색 결과를 제공받아 사용자단말(10)에 검색 결과를 제공한다.
상기 고유식별정보는 특정 IP, 공인인증서, 아이디(ID) 와 패스워드(password), 맥어드레스(MAC(media access control) address), 국제모바일기기식별코드(IMEI, International Mobile Station Equipment Identity), 고유식별번호(UDID: User Device IDentification), 범용고유식별자(UUID: Universally Unique IDentifier) 및 전화번호 등이 될 수 있다.
예를 들어, 컴퓨터의 경우, 특정 IP, 공인인증서, 아이디(ID) 와 패스워드(password), 맥어드레스(MAC address) 등을 이용해 회원인증을 수행할 수 있고, 모바일기기 및 스마트기기의 경우, 맥어드레스(MAC(media access control) address), 국제모바일기기식별코드(IMEI, International Mobile Station Equipment Identity), 고유식별번호(UDID: User Device IDentification), 범용고유식별자(UUID: Universally Unique IDentifier) 및 전화번호 등을 이용해 회원인증을 수행할 수 있다
맥어드레스(MAC(media access control) address)는 네트워크 구조에서 MAC 계층에서 네트워크 장치가 갖는 주소로서 보통 네트워크 카드의 ROM에 저장되어 있다.
고유식별번호(UDID: User Device IDentification)는 사용자의 디바이스를 식별할 수 있는 식별자 이다. 일종의 시리얼넘버인 셈이다.
범용고유식별자(UUID: Universally Unique IDentifier)는 인터넷상에서 객체나 실체를 식별하는 데 사용되는 128비트 숫자를 말한다. 공간과 시간(약 3400년까지)의 조합을 통해 구성되는 거의 유일하게 사용할 수 있는 식별자로서, 극히 단시간의 객체에서부터 영구적인 객체 식별에 이르기까지 다양한 목적으로 사용된다. 인증 기관의 등록 절차는 없고, 다만 범용 단일 식별자 생성 프로그램의 유일한 식별 숫자만 필요하다. 예를 들어, 어떤 제품의 맥어드레스를 특정 서버에 저장하게 되면 개인정보 유출 등의 문제가 발생될 수 있기 때문에, 맥어드레스를 대체하여 저장하기 위한 식별자로 사용 할 수 있다.
위에서 여러 가지 고유식별정보(식별자)에 대하여 설명하였으며, 하나의 기기가 다수의 고유식별정보를 갖을 수 있다.
예를 들어, 휴대폰이 와이파이 및 블루투스 통신이 가능하다면, 핸드폰 기기 자체의 식별자(UDID), 와이파이 칩에 대한 맥어드레스, 블루투스 칩에 대한 맥어드레스 등 여러 고유식별정보를 동시에 가지고 있다.
고부가 가치화 콘텐츠 관리방법에 이용되는 고부가 가치화 콘텐츠 관리장치는 이용자관리부(800)를 더 포함하며, 도 4에 도시된 바와 같이, 본 발명의 일 실시예에 따른 은 이용자관리부(800)가 상기 검색제공 단계(S70)에서 회원인증을 거친 이용자의 로그데이터를 관리하여 콘텐츠의 사용에 대한 통계 및 이용자의 이용 로그를 저장하는 이용자관리 단계(S80)를 더 포함할 수 있다.
LOD(Linked Open Data) Cloud 정보서비스시스템에서 사용자의 관심사나 이용 패턴에 따라서 콘텐츠를 맞춤형으로 제공하기 위해서는 각종 통계 및 사용자 이용 로그를 수집/분석하는 기술이 필요하다.
즉, 사용자의 시스템 사용 로그를 저장하고, 이를 분석하여, 개인 맞춤형 서비스, 소셜 큐레이션 플랫폼, My Research Library 등의 서비스의 기반이 되는 사용자 프로필 정보를 제공할 수 있다.
이를 위해, 상기 이용자관리부(800)는 웹서버 로그파일 분석(Server Log File Analysis) 방식, 패킷 스니핑(Packet Sniffing) 방식, 페이지 태깅(Page Tagging) 방식, 하이브리드(Hybrid) 방식, 패널(Panel)에 의한 방식 등을 이용할 수 있다.
이중 이용자 로그 수집 방법 중 로그파일 분석 방식과 페이지 태깅 방식이 가장 많이 사용되고 있어서, 이 두 가지 방법의 장단점을 분석하여 적용할 수 있다.
로그파일 분석 방식의 장점은 분석솔루션 설치만으로 기본적인 분석수행가능하고, 과거 축적된 로그파일이 있으면 과거의 데이터도 분석 가능하며, 네트워크 트래픽에 대한 전송량 측정 가능하고, 파일 다운로드 성공 여부 및 다양한 서버 에러에 대한 측정가능하며, 모바일 웹페이지 및 검색엔진로봇 분석이 가능하다는 점이다.
페이지 태깅 방식의 장점은 방문자수에 대한 정확한 측정이 가능하고, 장기간에 걸친 캠페인 효과분석 용이하며, 방문자 웹브라우저에서 발생하는 다양한 이벤트 수집이 원활(클릭, AJAX 로딩, Flash 등)하고, 실시간 또는 실시간에 준하는 측정결과 데이터를 실시간으로 리포팅 할 수 있으며, 동적 콘텐츠/페이지 분석을 위해 초기 설정 후, 콘텐츠 추가/변경에 따른 설정 작업이 존재하지 않고, ASP 서비스 활용 시 별도의 Software/Hardware의 구매가 필요 없으며, 네트워크/호스트 구성에 무관하게 자동적인 Merge 분석 수행이 가능하다는 점이다.
로그파일 분석 방식의 단점은 Proxy/Cache/NAT 등으로 인해 정확한 방문자수에 대한측정이 어렵고, 장기간에 걸친 캠페인 효과분석의 어려우며(Raw 로그파일의 보관문제), 방문자 웹브라우저의 이벤트 수집이 어렵고, Iframe/AJAX 등이 존재하는 웹사이트에서 페이지 기능을 분 리하여 정의 하는 Mapping 과정 필요하며, 동적 콘텐츠/페이지 분석을 위한 Parameter Mapping 절차가 필요하고, 콘텐츠 변경 시 추가적 설정 작업 필요하며, 분석대상 호스트(Host)rk 네트워크/물리적으로 분리된 경우 분석이 어려우며, 추가적 Software/Hardware 구매가 필요할 수 있다는 점이다.
페이지 태깅 방식의 단점은 분석을 위해 분석스크립트가 웹페이지에 Tagging되어야 하는 작업 필요하며, Tagging의 실수로 인한 데이터 수집 주락 시 과거 내용의 분석이 어렵고, 트래픽 전송량 측정이 어려우며, 파일 다운로드 등 유사항목에 대해 결과분석이 아닌 사용자 시도에 대한 분석 수행이 어렵고, 검색엔진로봇, 모바일 웹페이지 분석이 어렵고, 쿠키의 삭제/제3사 쿠키의 배제 등 방문자수의 오차 요인이 존재한다는 점이다.
사용자의 이용로그를 분석하면 일반적인 측정지표를 이용하여, 서버의 처리용량 및 시스템적 트래픽량에 대한 모니터링이 가능하고, 웹사이트 사용량의 변화 분석이 가능하며, 처음방문자와 재방문자의 특성을 비교하여 사용성 비교 분석이 가능하고, 콘텐츠 관심도 및 이용도를 측정할 수 있으며, 이벤트에 대한 사용자의 행동 특성 분석이 가능하고, 서비스 사용성을 개선할 수 있는 통계적 지표를 분석이 가능하며, 사용자가 검색을 위해 사용한 질의어를 수집하고 분석하는 것이 가능하고, 사용자의 다운로드 로그 분석을 통해 관심 콘텐츠 분석하는 것이 가능하며, 웹사이트 내에서 사용자의 페이지 이동 패턴 분석이 가능함으로써, 서비스 개선 정책을 수립할 수 있고, 맞춤형 서비스를 위한 기반 데이터를 생성할 수 있다.
측정지표는 기본측정지표와 파생측정지표가 있으며, 이를 통한 서비스 개선 정책 수립이 가능하다.
기본측정지표는 힛트수, 페이지뷰수, 방문수, 방문자수, 체류시간, 반송수, 전환수 등이 있고, 파생측정지표는 방문당 페이지뷰수, 평균 체류시간, 반송율, 페이지 이탈율, 사이트 이용지수 등이 있다.
이상에서 본 발명의 일 실시예에 따른 고부가 가치화 콘텐츠 관리방법에 대하여 설명하였지만, 고부가 가치화 콘텐츠 관리방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체 및 고부가 가치화 콘텐츠 관리방법을 구현하기 위한 컴퓨터 판독 가능한 기록매체에 저장된 프로그램 역시 구현 가능함은 물론이다.
즉, 상술한 고부가 가치화 콘텐츠 관리방법은 이를 구현하기 위한 명령어들의 프로그램이 유형적으로 구현됨으로써, 컴퓨터를 통해 판독될 수 있는 기록매체에 포함되어 제공될 수도 있음을 당업자들이 쉽게 이해할 수 있을 것이다. 다시 말해, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어, 컴퓨터 판독 가능한 기록매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 상기 컴퓨터 판독 가능한 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리, USB 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명은 상기한 실시예에 한정되지 아니하며, 적용범위가 다양함은 물론이고, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 다양한 변형 실시가 가능한 것은 물론이다.
100: 콘텐츠로드부 200: 문서변환부
300: 키워드추출부 400: 개체식별부
500: 관련도책정부 600: 콘텐츠관리부
700: 검색제공부 800: 이용자관리부
S10: 콘텐츠로드 단계 S20 문서변환 단계
S30: 키워드추출 단계 S40: 개체식별 단계
S50: 개체점수부가 단계 S60: 콘텐츠저장 단계
S70: 검색제공 단계 S80: 이용자관리 단계

Claims (10)

  1. 대상 콘텐츠를 로드하는 콘텐츠로드부(100);
    상기 콘텐츠로드부(100)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language) 형식으로 변환하며 고유식별자를 부여하는 문서변환부(200);
    상기 문서변환부(200)에 의해 변환된 대상 콘텐츠의 키워드를 추출하는 키워드추출부(300);
    상기 키워드추출부(300)로부터 추출된 키워드를 기반으로 핵심키워드, 저자, 기관, 지역, 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별하고, 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여하는 개체식별부(400);
    상기 개체식별부(400)로부터 식별된 개체에 관련도 점수를 부가하는 관련도책정부(500);
    상기 문서변환부(200)로부터 변환된 대상 콘텐츠에 상기 개체식별부(400)로부터 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(500)에서 부가된 관련도 점수 정보를 저장 및 관리하는 콘텐츠관리부(600); 및
    고유식별정보를 이용하여 회원인증을 거친 사용자단말(10)의 검색 요청을 분석하여 검색에 이용할 개체를 선택하고, 선택된 개체를 기반으로 상기 콘텐츠관리부(600)로부터 관련도점수가 가장 높은 콘텐츠 순으로 검색 결과를 제공받아 사용자단말(10)에 검색 결과를 제공하는 검색제공부(700);
    를 포함하며,
    상기 문서변환부(200)는 미리 정의된 분류 체계에 따라서, 훈련된 학습 데이터 또는 주제 전거 데이터를 근거로, 베이지언 기법, Support Vector Machine, 인공신경망 기법, K-Nearest Neighbor, 휴리스틱 기법, 시그니처 분석 기법, 블랙리스팅 기법, 해쉬기반 기법, 트래픽 분석 기법 중 선택되는 적어도 어느 하나의 기법을 이용하여, 문서를 자동으로 분류하고 분류 체계에 따른 분류를 확인할 수 있는 고유식별자를 부가하는 것을 특징으로 하고,
    상기 키워드추출부(300)는 객체화를 통해 단어 객체를 파싱하고 정지어 처리(관사 등 필터링) 및 토큰 생성(시제, 복수형통일 등) 처리를 거친 이후, 출현 빈도에 기반하여 연관도 높은 키워드를 추출하고 이를 독립개체(고유식별자가 부여된 개체)로 저장 및 관리하는 것을 특징으로 하며,
    상기 키워드추출부(300)는
    문서변환부(200)에 의해 변환된 대상 콘텐츠에서 형태소를 추출하고 해당 형태소가 문맥 상 어떤 의미로 사용되었는지를 파악하며, 출현 빈도에 기반하여 연관도 높은 형태소를 키워드로 추출하되, 해당 형태소 단위로 추출된 키워드는 해당 형태소의 의미가 같이 저장되는 것을 특징으로 하고,
    상기 개체식별부(400)는
    대상 콘텐츠의 제목, 초록 및 메타 데이터 중 선택되는 어느 하나 또는 복수의 정보를 이용하는 내재적 접근 방식과 외부의 데이터 또는 API(application programming interface)를 이용하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것을 특징으로 하며,
    메타 데이터로는 문헌 종류, 저자명, 연구책임자, 참여연구원, 기관명, 후원기관(주관부처), 지역, 연구기간키워드, 목차, 본문, 참고문헌, 학회명, 학술지명, 발행연도, 권호, 출판사, 심사위원, 심사완료일자, 학위, 학과, 부록, 발행일, 출원인, 발명자, 청구항, IPC, 명세서, 출원일, 공개일, 등록일 중 선택되는 적어도 하나인 것을 특징으로 하고,
    상기 관련도책정부(500)는
    특정 검색엔진으로 검색된 수가 적을수록 관련도가 높은 개체로 판단하여 관련도 점수를 많게 책정하고, 검색된 수가 많을수록 관련도가 낮은 개체로 판단하여 관련도 점수를 적게 책정하는 것을 특징으로 하며,
    상기 콘텐츠관리부(600)는
    시멘틱 웹(semantic web) 기술이 적용된 것을 특징으로 하는 고부가 가치화 콘텐츠 관리장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 고부가 가치화 콘텐츠 관리장치는
    이용자의 로그데이터를 관리하여 콘텐츠의 사용에 대한 통계 및 이용자의 이용 로그를 수집하고 관리하는 이용자관리부(800);
    를 더 포함하는 고부가 가치화 콘텐츠 관리장치.
  5. 콘텐츠로드부(100), 문서변환부(200), 키워드추출부(300), 개체식별부(400), 관련도책정부(500), 콘텐츠관리부(600) 및 검색제공부(700)를 포함하는 고부가 가치화 콘텐츠 관리장치를 이용한 고부가 가치화 콘텐츠 관리방법에 있어서,
    콘텐츠로드부(100)가 대상 콘텐츠를 로드하는 콘텐츠로드 단계(S10);
    문서변환부(200)가 상기 콘텐츠로드부(100)에 로드된 대상 콘텐츠를 파싱하여 마크업 언어(Markup Language)형식으로 변환하며 고유식별자를 부여하는 문서변환 단계(S20);
    키워드추출부(300)가 상기 문서변환부(200)에 의해 변환된 대상 콘텐츠의 키워드를 추출하는 키워드추출 단계(S30);
    개체식별부(400)가 상기 키워드추출부(300)로부터 추출된 키워드를 기반으로 핵심키워드, 저자, 기관, 지역, 및 인용문헌 중 선택되는 어느 하나 또는 복수의 개체를 식별하고, 개체를 식별할 수 있도록 각각의 개체에 고유식별자를 부여하는 개체식별 단계(S40);
    관련도책정부(500)가 상기 개체식별부(400)로부터 식별된 개체에 관련도 점수를 부가하는 개체점수부가 단계(S50);
    콘텐츠관리부(600)가 상기 문서변환부(200)로부터 변환된 대상 콘텐츠에 상기 개체식별부(400)로부터 고유식별자가 부여된 개체 정보 및 상기 관련도책정부(500)에서 부가된 관련도 점수 정보를 저장하는 콘텐츠저장 단계(S60); 및
    고유식별정보를 이용하여 회원인증을 거친 사용자단말(10)로부터 검색제공부(700)가 검색 요청을 받으면, 검색 요청을 분석하여 검색에 이용할 개체를 선택하고, 선택된 개체를 기반으로 상기 콘텐츠관리부(600)로부터 관련도점수가 가장 높은 콘텐츠 순으로 검색 결과를 제공받아 사용자단말(10)에 검색 결과를 제공하는 검색제공 단계(S70);
    를 포함하며,
    상기 문서변환 단계(S20)는 미리 정의된 분류 체계에 따라서, 훈련된 학습 데이터 또는 주제 전거 데이터를 근거로, 베이지언 기법, Support Vector Machine, 인공신경망 기법, K-Nearest Neighbor, 휴리스틱 기법, 시그니처 분석 기법, 블랙리스팅 기법, 해쉬기반 기법, 트래픽 분석 기법 중 선택되는 적어도 어느 하나의 기법을 이용하여, 문서를 자동으로 분류하고 분류 체계에 따른 분류를 확인할 수 있는 고유식별자를 부가하는 것을 특징으로 하고,
    상기 키워드추출 단계(S30)는 객체화를 통해 단어 객체를 파싱하고 정지어 처리(관사 등 필터링) 및 토큰 생성(시제, 복수형통일 등) 처리를 거친 이후, 출현 빈도에 기반하여 연관도 높은 키워드를 추출하고 이를 독립개체(고유식별자가 부여된 개체)로 저장 및 관리하는 것을 특징으로 하며,
    상기 키워드추출 단계(S30)는
    문서변환부(200)에 의해 변환된 대상 콘텐츠에서 형태소를 추출하고 해당 형태소가 문맥 상 어떤 의미로 사용되었는지를 파악하며, 출현 빈도에 기반하여 연관도 높은 형태소를 키워드로 추출하되, 해당 형태소 단위로 추출된 키워드는 해당 형태소의 의미가 같이 저장되는 것을 특징으로 하며,
    상기 개체식별 단계(S40)는
    대상 콘텐츠의 제목, 초록 및 메타 데이터 중 선택되는 어느 하나 또는 복수의 정보를 이용하는 내재적 접근 방식과 외부의 데이터 또는 API(application programming interface)를 이용하는 외재적 접근 방식으로 콘텐츠 개체를 식별하는 것을 특징으로 하고,
    메타 데이터로는 문헌 종류, 저자명, 연구책임자, 참여연구원, 기관명, 후원기관(주관부처), 지역, 연구기간키워드, 목차, 본문, 참고문헌, 학회명, 학술지명, 발행연도, 권호, 출판사, 심사위원, 심사완료일자, 학위, 학과, 부록, 발행일, 출원인, 발명자, 청구항, IPC, 명세서, 출원일, 공개일, 등록일 중 선택되는 적어도 하나인 것을 특징으로 하고,
    상기 개체점수부가 단계(S50)는
    특정 검색엔진으로 검색된 수가 적을수록 관련도가 높은 개체로 판단하여 관련도 점수를 많게 책정하고, 검색된 수가 많을수록 관련도가 낮은 개체로 판단하여 관련도 점수를 적게 책정하는 것을 특징으로 하며,
    상기 콘텐츠저장 단계(S60)는
    시멘틱 웹(semantic web) 기술이 적용된 것을 특징으로 하는 고부가 가치화 콘텐츠 관리방법.
  6. 삭제
  7. 삭제
  8. 제5항에 있어서,
    상기 고부가 가치화 콘텐츠 관리장치는 이용자관리부(800)를 더 포함하며,
    상기 고부가 가치화 콘텐츠 관리방법은
    이용자관리부(800)가 상기 검색제공 단계(S70)에서 회원인증을 거친 이용자의 로그데이터를 관리하여 콘텐츠의 사용에 대한 통계 및 이용자의 이용 로그를 저장하는 이용자관리 단계(S80);
    를 더 포함하는 고부가 가치화 콘텐츠 관리방법.
  9. 제 5항 또는 제 8항 중 선택되는 어느 한 항에 기재된 고부가 가치화 콘텐츠 관리방법을 구현하기 위한 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.
  10. 제 5항 또는 제 8항 중 선택되는 어느 한 항에 기재된 고부가 가치화 콘텐츠 관리방법을 구현하기 위한 컴퓨터 판독 가능한 기록매체에 저장된 프로그램.
KR1020160097055A 2016-07-29 2016-07-29 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램 KR101752259B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160097055A KR101752259B1 (ko) 2016-07-29 2016-07-29 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160097055A KR101752259B1 (ko) 2016-07-29 2016-07-29 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램

Publications (1)

Publication Number Publication Date
KR101752259B1 true KR101752259B1 (ko) 2017-06-29

Family

ID=59280263

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160097055A KR101752259B1 (ko) 2016-07-29 2016-07-29 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램

Country Status (1)

Country Link
KR (1) KR101752259B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101880474B1 (ko) * 2018-03-23 2018-08-17 주식회사 비네아 고부가 가치화 콘텐츠 정보서비스를 위한 키워드 기반 서비스 제공 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
KR102156289B1 (ko) * 2020-03-20 2020-09-15 주식회사 비네아 처방적 분석 기반 지능형 연구정보 고부가 가치화 플랫폼을 이용한 큐레이션 시스템 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101880474B1 (ko) * 2018-03-23 2018-08-17 주식회사 비네아 고부가 가치화 콘텐츠 정보서비스를 위한 키워드 기반 서비스 제공 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
KR102156289B1 (ko) * 2020-03-20 2020-09-15 주식회사 비네아 처방적 분석 기반 지능형 연구정보 고부가 가치화 플랫폼을 이용한 큐레이션 시스템 및 그 방법

Similar Documents

Publication Publication Date Title
Oltramari et al. PrivOnto: A semantic framework for the analysis of privacy policies
Walker et al. Personal data lake with data gravity pull
US9613149B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
US20180232362A1 (en) Method and system relating to sentiment analysis of electronic content
Elgazzar et al. Clustering wsdl documents to bootstrap the discovery of web services
Jäschke et al. Tag recommendations in folksonomies
Mohammed et al. An automated approach for digital forensic analysis of heterogeneous big data
Im et al. Linked tag: image annotation using semantic relationships between image tags
CN105431844A (zh) 用于搜索系统的第三方搜索应用
CA2977847A1 (en) Automated extraction tools and their use in social content tagging systems
Graf et al. A risk analysis of file formats for preservation planning
KR101752259B1 (ko) 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
Wang et al. Towards provenance-aware geographic information systems
KR101880474B1 (ko) 고부가 가치화 콘텐츠 정보서비스를 위한 키워드 기반 서비스 제공 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
Shepherd et al. Are ISO 15489‐1: 2001 and ISAD (G) compatible? Part 1
Mai et al. TSSE-DMM: topic modeling for short texts based on topic subdivision and semantic enhancement
EP3794457A1 (en) Recommending secured content
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
Mayer et al. Variety management for big data
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
Malik et al. Ontology and Web Usage Mining towards an Intelligent Web focusing web logs
CN114328947A (zh) 一种基于知识图谱的问答方法和装置
Chan et al. System design of cloud search engine based on rich text content
US20220083611A1 (en) Data management system for web based data services
Bianchini et al. Characterization and search of web services through intensional knowledge

Legal Events

Date Code Title Description
N231 Notification of change of applicant
GRNT Written decision to grant