KR20200073520A

KR20200073520A - 융합 콘텐츠 제공을 위한 시스템 및 방법

Info

Publication number: KR20200073520A
Application number: KR1020180161760A
Authority: KR
Inventors: 이송호; 최명환; 우수연; 박소영
Original assignee: (주)윕스
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2020-06-24

Abstract

본 발명은 융합 콘텐츠 제공을 위한 시스템 및 방법에 관한 것으로, 예를 들어 특허에 대한 다양한 정보들을 포함하는 특허 데이터를 상이한 분야의 산업 데이터 또는 시장 데이터와 융합한 뒤 이렇게 융합된 데이터를 사용자에게 제공하는 융합 콘텐츠 제공을 위한 시스템 및 방법에 관한 것이다.

Description

융합 콘텐츠 제공을 위한 시스템 및 방법{SYSTEM AND METHOD FOR PROVIDING INTEGRATED CONTENTS}

본격적인 정보화 사회로의 진입은 다양한 분야의 다양한 수요자들에게 방대한 양의 데이터를 활용하는 모습을 일상적인 모습으로 만들었다. 한편, 정보화 사회로의 진입이 상당히 오래 전에 이루어져 있음에도 불구하고, 현재까지 데이터를 어떻게 효과적으로 활용할 수 있는지에 대한 기술개발은 정보화 사회라는 이름에 걸맞지 않게 더디게 이루어져 왔다. 특히, 많은 사용자들은 체계화 되어 있지 않은 방대한 양의 데이터로부터 자신이 원하는 정보를 어렵게 찾아야 하는 수고를 하여야 했으며, 또한 사용자들은 자신이 궁극적으로 알고자 하는 고차원의 정보를 얻기 위해 직접 낮은 수준의 방대한 데이터들만 저장되어 있는 대용량의 데이터베이스들로부터 1차적인 데이터들을 수집한 후 사용자 자신이 직접 가공함으로써 원하는 고차원 정보를 만들어야 내야 하는 수고도 하여야 했다.

일 예로, 최근에는 특허기술에 대한 관심이 높아지면서 기업과 연계한 특허정보들을 얻고자 하는 수용자들이 증가하고 있는데, 종래 일반적인 특허 데이터 제공 서비스는 공개되어 있는 특허 문헌을 중심으로 한 이른바 관계형 데이터 베이스(Relational Database, RDB)를 기반으로 시스템이 구현되어 왔으며, 이러한 시스템은 주로 ER 모델(Entity Relation Model)로 데이터 모델링이 이루어진다. 한편, 이와 같이 구축된 관계형 데이터 베이스는 사용자가 특허 문헌을 검색하거나, 검색된 문헌으로부터 상세한 내용 조회를 하는 데에 비교적 적합한 형태의 데이터 베이스로 여겨져 왔으며, 이는 주로 특허 문헌 중심의 온라인 트랜잭션 처리(Online transaction processing, OLTP)를 위해 사용되어 왔다.

그러나 최근에는 특허 문헌 단위의 검색보다는 대량의 특허 문헌을 통합 분석하고자 하는 사용자들의 요구가 점차 늘어나고 있다. 즉, 기존 단일 문헌 중심의 분석보다는 대량의 문헌을 통합 분석하여 이를 의사결정에 활용하고자 하는 수요가 증가하면서 데이터베이스로부터 얻고자 하는 콘텐츠의 종류도 상이해 지고 있는 것이다.

한편 기존 관계형 데이터 베이스의 문헌 중심 구조에서는 대량의 데이터 분석을 수행함에 있어 한계가 존재하는바, 예를 들어 건수를 소량으로 한정하여야 하는 문제, 사전 설정된 제약 조건에 한정된 분석만 가능하다는 문제 등이 존재하여 왔다.

또한, 종래의 특허 데이터 제공 서비스의 경우 다양한 산업/시장분야 데이터를 빠르게 수집할 수 없고, 수집된 데이터를 빠른 성능으로 목적에 맞게 분석할 수 있는 환경도 제공할 수 없었기 때문에 오늘날 사용자들이 필요로 하는 정보, 즉 목적에 맞는 정보를 제대로 제공할 수 없는 문제가 있어 왔다.

본 발명은 이와 같은 문제점 및 사용자 수요에 착안하여 제안된 것으로, 다양한 분야의 정보들을 수집한 뒤 이들 정보들을 융합하여 생성한 소위 융합 콘텐츠를 제공할 수 있는 시스템, 그리고 이를 제공하는 방법에 대한 것이다.

대한민국 공개특허공보 제10-2013-0045054호(2013.05.03)

본 발명은 다양한 과업에 필요한 정보를 통합적으로 구축하여 대량의 데이터를 적시에 분석할 수 있는 이른바 데이터 융합을 위한 시스템, 그리고 이렇게 융합된 콘텐츠를 제공할 수 있는 시스템 및 방법을 제공하는 것을 목적으로 한다. 특히, 본 발명은 특허 데이터와 이와 연계된 산업/시장 데이터를 융합한 융합 콘텐츠를 제공하기 위한 시스템 및 그 방법을 제공하는 것을 목적으로 한다.

한편, 본 발명은 중간재(Intermediate Contents) 성격의 융합 콘텐츠를 시스템 내 하나의 구성요소로 활용하게 함으로써 이종의 데이터를 용이하게 융합하고 융합된 콘텐츠를 더 쉽게 제공할 수 있게 한 시스템 및 방법을 제공하는 것을 목적으로 한다.

또한 본 발명은 중간재 성격의 융합 콘텐츠를 활용함으로써 사용자들이 요구하는 다양한 요구 내지 필요에 따라 위 요구 내지 필요를 충족시키기 위한 데이터를 신속하게 제공할 수 있게 하는 것을 목적으로 한다.

한편, 본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

위와 같은 문제점을 해결하기 위하여, 본 발명에 따른 융합 콘텐츠 제공 시스템은, 복수의 소스 데이터를 수집하고, 수집된 소스 데이터를 씨드 데이터로 저장하는 씨드 데이터 저장부; 및 상기 씨드 데이터 저장부로부터 저장된 씨드 데이터 중 적어도 일부를 활용하여 융합 콘텐츠를 생성하고, 생성된 융합 콘텐츠를 저장하는 데이터 가공부;를 포함하고, 상기 데이터 가공부에서 생성된 융합 콘텐츠는 사용자 단말에서의 입력에 따라 콘텐츠 제공부에 의해 해당 사용자 단말로 제공되는 것을 특징으로 할 수 있다.

또한, 상기 융합 콘텐츠 제공 시스템에 있어서 상기 데이터 가공부는, 차원 모델링(dimensional modeling)을 수행함으로써 융합 콘텐츠를 생성하되, 상기 차원 모델링에 의해 생성된 차원 모델은, 키(key), 차원(dimension), 및 값(data)을 포함하는 것을 특징으로 할 수 있다.

또한 이 때, 상기 씨드 데이터 저장부는 상기 수집된 복수의 소스 데이터의 상이한 데이터 형태를 동일한 표준 데이터 형태로 변환한 후 이를 씨드 데이터로 저장하는 것을 특징으로 할 수 있으며, 나아가 상기 씨드 데이터 저장부는 복수의 소스 데이터를 수집하되, 상기 복수의 소스 데이터 중 적어도 일부는 기 생성된 융합 콘텐츠의 업데이트 데이터인 것을 특징으로 할 수 있다.

또한, 상기 융합 콘텐츠 제공 시스템은, 임의의 텍스트 데이터로부터 상기 융합 콘텐츠를 생성하는 데에 필요한 정보들을 추출하고 이를 저장하는 텍스트 추출부; 를 더 포함할 수 있다.

또한, 상기 융합 콘텐츠 제공 시스템에 있어서 상기 데이터 가공부가 생성하는 융합 콘텐츠는 상기 씨드 데이터로부터 추출된 정보들을 활용하여 임의의 차원 및 임의의 값을 매칭시킨 차원-값 모델을 포함하는 것을 특징으로 할 수 있으며, 또는 상기 데이터 가공부가 생성하는 융합 콘텐츠는 상기 데이터 가공부가 사전에 선계산을 실행한 복수의 항목들 중 적어도 하나를 포함하는 것을 특징으로 할 수 있다.

또한, 상기 융합 콘텐츠 제공 시스템은 상기 씨드 데이터 저장부와 데이터 가공부 사이, 및 상기 씨드 데이터 저장부와 상기 콘텐츠 제공부 사이의 데이터 송수신을 실행시키는 ETL부를 더 포함할 수 있다.

한편, 본 발명의 또 다른 실시예에 따른 융합 콘텐츠를 제공하는 방법은 씨드 데이터 저장부가, 복수의 소스 데이터를 수집하고 수집된 소스 데이터를 씨드 데이터로 변환하여 저장하는 단계; 및 데이터 가공부가, 상기 씨드 데이터 중 적어도 일부를 활용하여 융합 콘텐츠를 생성하는 단계; 를 포함하며, 상기 융합 콘텐츠는 콘텐츠 제공부에 의해 임의의 사용자 단말로 제공되는 것을 특징으로 할 수 있다.

또한, 상기 융합 콘텐츠를 제공하는 방법에 있어서 상기 융합 콘텐츠를 생성하는 단계는, 상기 데이터 가공부가 차원 모델링(dimensional modeling)을 수행함으로써 융합 콘텐츠를 생성하는 단계를 포함하고, 상기 차원 모델은 키(key), 차원(dimension), 및 값(data)을 포함하는 것을 특징으로 할 수 있다.

본 발명에 따르면, 다양한 과업에서 요구되는 데이터를 양적 제한이나 조건적 제한 없이 폭 넓게 통합 분석할 수 있는 환경을 구현할 수 있으며, 나아가 이러한 환경에서 생성된 융합 콘텐츠를 다양한 사용자들에게 제공할 수 있는 효과가 있다.

특히, 본 발명에 따르면 특허와 연계된 산업/시장분야 데이터를 중간재(Intermediate Contents) 성격의 융합 콘텐츠로 구축할 수 있을 뿐만 아니라, 사용자의 목적에 맞게 특허 데이터 및 산업/시장 데이터를 융합하여 다차원 적으로 분석된 융합 콘텐츠를 제공할 수 있는 효과가 있다.

또한, 본 발명에 따르면 사용자로부터 대량의 데이터 분석 및 조회 요구가 입력되더라도 빠르게 관련 정보를 제공할 수 있으며, 사용자의 다양한 요구에 유연하게 대응할 수 있는 효과가 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.

도 1은 본 발명이 제안하고자 하는 시스템에 의해 사용자가 원하는 정보를 획득해 가는 과정을 간략히 도시한 것이다.
도 2는 본 발명에 따른 융합 콘텐츠 제공 시스템의 전체 구성을 도시한 것이다.
도 3은 씨드 데이터 저장부 내에서 정보들이 주제 별로 저장된 모습을 도식화 한 것이다.
도 4는 차원 모델의 구조를 예시적으로 나타낸 것이다.
도 5는 차원 모델에 쓰이는 차원 데이터의 구성 중 특히 주체와 관련된 차원 데이터의 예시를 나타낸 것이다.
도 6은 도 2의 시스템에 텍스트 추출부가 더해진 전체 구성을 도시한 것이다.
도 7은 도 2에서 살펴본 융합 콘텐츠 제공 시스템에 ETL부가 더해진 전체 구성을 도시한 것이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 붙였다. 그리고, 어떤 부분이 어떤 구성 요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에서 기술한 “부”란, 특정 기능을 수행하는 하나의 단위 또는 블록을 의미한다.

도 1은 본 발명에 따른 시스템을 이용하여 사용자가 과업에 맞는 정보를 획득하는 과정을 간략히 도시한 것으로, 본 발명에서는 사용자들이 이른바 탐색 과정을 통해 원하는 정보를 얻을 수 있는 환경을 제공하는 것을 목적으로 한다. 본 상세한 설명에서 언급되는 탐색 과정이라는 용어는 검색 과정이라는 용어와 대비시키기 위한 것으로, 종래 검색 과정이 사용자가 원하는 정보를 얻기 위해 일련의 정보를 직접 입력하여야 했던 과정을 의미하는 것이었다면 탐색 과정은 사용자의 입력을 최소화 한 채 사용자가 화면 상에 표시된 다양한 관점의 시각화 자료들만을 참조하여 원하는 정보까지 단계를 찾아가는 것을 의미하는 것으로 이해될 수 있다.

도 1은 사용자가 위와 같은 탐색 과정을 거쳐 원하는 정보에 접근하는 과정을 간략히 도시한 것이다. 본 발명에 따른 시스템의 주된 사용자라 할 수 있는 연구원, 기업 마케팅부 직원, 학생, 저널리스트 등은 자신이 진행하고 있는 다양한 프로젝트의 수행을 위해 임의의 데이터들로부터 도출될 수 있는 의미 있는 정보를 획득할 필요가 있을 수 있는데, 이 때에 본 발명에 따른 시스템에서는 예를 들어 임의의 대분류 주제들을 표시하고 있는 첫 화면을 위 사용자에게 제공함으로써 사용자로 하여금 원하는 대분류 주제를 선택할 수 있게 할 수 있다. 대분류 주제1이 선택되었다고 가정할 때, 이 후 화면에서는 상기 대분류 주제1을 세분화 한 중분류 주제들이 나열될 수 있으며, 이 중 어느 하나가 선택된 경우 해당 중분류 주제에 대한 소분류 주제들이 다시 나열될 수 있어 사용자로 하여금 원하는 정보들을 여러 단계의 선택 입력만으로 접근이 가능하게 할 수 있다. 도 1의 실시예는 발명의 이해를 돕기 위해 화면 상에 복수 개의 주제들이 나열된 것으로만 설명하였으나, 화면 상에 나열될 수 있는 것에는 반드시 주제들로 한정되지 않으며, 사용자가 해당 메뉴를 선택하였을 때 어떤 정보를 얻을 수 있을지에 대한 추론이 가능한 어떠한 종류의 시각화 자료들, 예를 들어 그래프, 표 등을 포함할 수 있음을 이해한다.

한편, 이와 같이 사용자들이 나열된 주제들 또는 나열된 시각화 자료 등을 보고 여러 번의 선택 입력을 거쳐 원하는 정보에까지 접근할 수 있게 하기 위해서는 사용자의 수요 가능성이 있는 정보들을 상당 부분 미리 연산해 놓거나 수집하여 둔 후 이를 DB화 하여야 하는데, 본 발명에 따른 융합 콘텐츠 제공 시스템은 기본적으로 사용자에게 위와 같은 탐색 서비스를 제공하기 위하여 다량의 데이터들을 수집하고 이를 미리 통합, 전처리, 선집계 등의 과정을 통하여 사용자에게 제공 가능한 정보들을 DB화 해 놓은 것을 하나의 기술적 특징으로 한다.

다른 한편, 본 발명에 따른 융합 콘텐츠 제공 시스템이 제안된 배경에는 점차 증가하고 있는 대량의 데이터들을 통합 분석한 결과에 대한 수요도 존재하는데, 예를 들어 대량의 특허 데이터와 대량의 산업/시장 데이터를 융합시킴으로써 얻을 수 있는 새로운 종류의 정보들처럼 서로 다른 분야의 대량 데이터들을 융합한 소위 융합 콘텐츠를 제공하는 것은 본 발명의 또 다른 목적이다. 본 발명에 따른 시스템이 도 1에서와 같은 탐색 환경을 제공하고자 하는 이유 역시 위 목적과 관련이 있는데, 대량의 데이터들로부터는 사용자가 원하는 정보를 직접 찾기가 쉽지 않을 뿐만 아니라 특히 원하는 정보를 찾고자 할 때에 어떤 방향을 따라 해당 정보에 접근하여야 하는지 알기가 어려운 경우가 많으므로 본 발명에서는 이러한 사용자들의 편의를 위해 탐색 환경을 제공하고자 한 것이다.

이하에서는 도 2를 참조하여 본 발명에 따른 융합 콘텐츠 제공 시스템의 전체 구성, 그리고 융합 콘텐츠 제공 시스템에서 융합 콘텐츠를 생성 및 제공하는 방법에 대해 살펴보기로 한다.

도 2를 참조할 때, 융합 콘텐츠 제공 시스템은 크게 씨드 데이터 저장부(100) 및 데이터 가공부(200)를 포함하며, 그 외에 필요에 따라 콘텐츠 제공부(300)가 당해 융합 콘텐츠 제공 시스템의 일 구성으로 더 포함될 수 있다. 이하에서는 각 구성들에 대해 살펴본다.

먼저 씨드 데이터 저장부(100)는 복수의 소스 데이터를 수집하고, 수집된 소스 데이터를 씨드 데이터로서 저장하는 기능을 수행한다. 씨드 데이터 저장부(100)는 여러 운영시스템(500)들로부터의 소스 데이터를 한 곳으로 수집하여 저장하게 되는데, 본 상세한 설명에서 언급되는 운영시스템(500)들이란 산업계 전반에서 운영되고 있는 일반 시스템들을 모두 포함하는 개념으로, 임의의 데이터를 다루는 산업계에서 운영되는 시스템들을 의미하는 것으로 이해될 수 있다. 상기 운영시스템(500)들에는 예를 들어 행정기관의 시스템, 금융기관의 시스템, 기업의 시스템, 교육 시스템 등이 포함될 수 있으며, 이 외에 데이터를 다루는 분야의 시스템이 포함될 수 있다. 일반적으로 운영시스템(500)의 데이터는 트랜잭션을 중심으로 설계되어 있기 때문에, 운영시스템(500)의 소스 데이터를 대상으로만 데이터 분석을 진행할 경우 효용성이 매우 떨어지는데, 본 발명에 따른 융합 콘텐츠 제공 시스템은 위 소스 데이터들을 참조하여 새로운 융합 콘텐츠를 제공하기 위하여 씨드 데이터 저장부(100)를 둠으로써 위 소스 데이터들을 보관하는 기능을 수행하도록 한 것이다. 상기 운영시스템(500)의 쉬운 예로는 보험화재회사의 은행업무를 담당하는 시스템, 대출업무를 담당하는 시스템, 보험업무를 담당하는 시스템, 국가의 행정기관에서 각 담당부서 별 업무를 담당하는 시스템 등을 들 수 있고, 씨드 데이터 저장부(100)에 의해 수집되는 소스 데이터들은 위와 같은 각 운영시스템(500)으로부터 수집되는 각 분야별 데이터를 의미할 수 있다.

씨드 데이터 저장부(100)는 본격적으로 융합 콘텐츠를 생성하기 전 단계의 데이터들을 수집한 뒤 임시로 이를 저장해 두는 구성으로, 운영시스템(500)들로부터 소스 데이터를 수집함과 동시에 이력성 데이터를 더 수집할 수도 있다. 이력성 데이터란, 최종적으로 사용자에게 제공되는 융합 콘텐츠의 주기적인 변경사항들, 즉 업데이트 정보들을 포함하는 것으로, 향후 사용자에게 동일한 종류의 융합 콘텐츠를 제공할 때에 변동된 사항만 업데이트가 가능하도록 함으로써 보다 신속한 정보가 제공될 수 있게 하기 위한 것이다.

한편, 씨드 데이터 저장부(100)는 소스 데이터 기반으로 운영시스템(500)의 키(Key) 및 스키마(Schema), 그리고 값(Data)을 유지하면서 구축될 수 있는데, 이를 위해 씨드 데이터 저장부(100)는 분야별로 중복되어 구축되어 있는 소스 데이터 저장소(Master Repository)의 데이터로부터 상이한 형태의 데이터를 일치시켜 동일한 형태의 표준 데이터로 변환한 뒤 저장할 수 있다.

한편, 상기 씨드 데이터 저장부(100)는 운영시스템(500)으로부터 소스 데이터를 수집할 때에 소위 스테이지(Stage)라는 모듈을 거쳐 수집 및 적재될 수 있다. 스테이지는 소스 데이터 저장소로부터 제공 받은 데이터를 아무런 변화 없이 그대로 로딩하는 임시 저장소 성격의 공간일 수 있다. 본 발명은 특히 특허 데이터를 산업/시장 데이터와 융합시키는 시스템을 하나의 실시예로서 구현하고자 함을 목적으로 하는데, 특허 데이터는 구축된 이후라도 부가, 정정, 변경 데이터가 추가로 발행될 필요가 있는데, 본 씨드 데이터 저장부(100)에서는 스테이지 내에서 타임스탬프(TimeStamp)를 이용함으로써 이들에 대한 반영 처리를 할 수 있다.

한편, 도 3은 씨드 데이터 저장부(100) 내에 복수의 씨드 데이터들이 복수의 주제 영역 별로 구분되어 저장된 모습을 도시한 것이다. 도 3에서도 볼 수 있듯 씨드 데이터 저장부(100)에는 소스 데이터들이 주제 영역 별로 통합되어 구축되되, 이 때 키(Key) 및 스키마(Schema)는 운영시스템(500) 단에서 사용되는 데이터와 동일 또는 유사하게 유지시킬 수 있다. 관리 주제영역은 예를 들어 번호, 문헌 상태, 국가 등의 공보 식별 정보, 출원인, 발명자, 대리인 등의 주체 정보, IPC, CPC 등의 기술 분류 정보, 행정정보, 심판/소송 정보, 산업 정보, 기업 정보, 의약품 정보 등으로 나뉠 수 있다.

한편, 씨드 데이터 저장부(100)에서는 최종 서비스에서 활용되는 정형데이터 및 메타 정보의 구축도 이루어질 수 있다.

다음으로, 데이터 가공부(200)는 상기 씨드 데이터 저장부(100)로부터 저장된 씨드 데이터 중 적어도 일부를 활용하여 융합 콘텐츠를 생성하고, 생성된 융합 콘텐츠를 저장하는 기능을 한다. 다시 말해, 데이터 가공부(200)는 데이터를 최종적으로 제공되는 융합 콘텐츠의 형태로 변환한 뒤 저장하며, 특히 씨드 데이터 저장부(100)로부터 획득한 씨드 데이터를 활용하여 중간재(Intermediate) 성격의 콘텐츠로 통합, 전처리, 또는 선구축(집계)하는 구성이다. 더 구체적으로, 데이터 가공부(200)는 씨드 데이터 저장부(100)와 후술하게 될 텍스트 추출부(400)로부터 데이터를 수급 받아 구축되는 DB의 한 종류로 이해될 수 있으며, 최종 서비스 상에 제공되는 중간재 성격의 융합 콘텐츠를 제공하는 역할을 한다. 데이터 가공부(200)는 주제 중심의 통합 스키마로 구축되며, 차원(Dimensional) 모델링이 이루어진다.

일 예시로, 데이터 가공부(200)에서 생성되는 융합 콘텐츠의 주제영역으로는 크게 기술, 기업, 품목, 산업, 의약 등을 포함할 수 있다. 이 중 기술 주제영역에는 출원, 가공, 행정, 심판 등이 포함될 수 있으며, 기업 주제영역에는 기업과 재무가 포함될 수 있고, 산업 주제영역에는 산업과 산업품목이, 의약 주제영역에는 그린리스트와 오렌지북이 포함될 수 있다.

한편, 앞서 언급한 차원 모델링은 사용자 관점에서 매우 유연한 장점이 있다. 차원 모델링은 스키마, 즉 데이터를 임의의 방식으로 저장하기 위한 형식을 생성하기 위해 매핑되는 반면, ER(Entity Relation) 모델은 스키마를 생성하기 위해 매핑되지 않으며, 데이터의 정규화를 비표준화 형식으로 변환하는데 사용되지 않는 차이가 있다. 그리고 ER 모델링은 논리적 모델과 물리적 모델을 모두 갖고 있으나, 차원 모델링은 물리적 모델만이 존재한다.

데이터 가공부(200)에서 생성되는 융합 콘텐츠는 크게 통합(Intergration), 전처리(Prerocessing), 또는 선구축(집계; Aggregation) 중 적어도 어느 하나의 방법을 통하여 생성된다. 이 때 생성되는 융합 콘텐츠는 앞서 설명한 주제영역 또는 주제영역 하위 목적별로 생성된다.

먼저 통합(Intergration)이란, 대량의 데이터 분석 및 조회를 위하여 미리 씨드 데이터들을 기반으로 차원-값 구조의 차원 모델을 생성하는 것을 의미한다. 즉, 차원 모델은 관점별 차원(Dimension)과 탐색 및 분석을 위한 값을 대응시킴으로써 구성될 수 있다.

도 4는 앞서 언급한 통합(Integration) 과정에서 생성되는 차원 모델의 구성 예를 도시한 것이다. 도 4의 좌측은 씨드 데이터 중 일부를 나타낸 것이며, 도 4의 우측은 상기 씨드 데이터를 복수의 차원으로 구별한 뒤 각 차원에 따른 값을 상기 구별된 차원에 나누어 대응시키고, 궁극적으로는 좌측의 씨드 데이터를 앞서 나눈 차원-값을 이용한 이른바 차원-값 구조로 표현한 것이다. 구체적으로 살펴볼 때, 좌측의 씨드 데이터는 출원년월, 출원인, IPC, 국가코드가 각각 차원1 내지 차원4으로 분류됨을 알 수 있으며, 각각의 차원 내에서는 씨드 데이터 내 포함되어 있는 각각의 값에 대응되는 ID들이 부여되고, 이렇게 부여된 ID들은 원래 씨드 데이터 내의 값들에 대응되는 위치에 삽입시킴으로써 우측의 표와 같이 변환됨을 알 수 있다. 참고로 좌측 씨드 데이터 내 [서비스키] 항목은 우측 표에서는 표준화 변환을 통해 [App. Key] 항목으로 변환되었음을 알 수 있다.

이렇게 복잡한 변수들을 포함하고 있는 씨드 데이터를 차원-값 구조의 차원 모델로 변환하여 새로운 테이블을 구축하는 경우, 대량 데이터의 분석 조회 시 빠르게 데이터를 정렬시키거나 획득할 수 있으며, 결과적으로 사용자에게는 빠르게 원하는 정보를 취합 내지 융합하여 제공할 수 있게 된다.

한편, 도 5는 차원 모델을 구성하는 차원 데이터의 구성을 설명하기 위한 도면으로, 차원 데이터의 구성은 다양한 소스 데이터에 포함되어 있는 탐색 내지 분석의 대상을 통합하여 하나의 차원으로 선정하고, 이를 위 선정된 차원으로 표준화 처리하며, 중복되는 값을 제거한 뒤 ID 채번하는 방식으로 구성될 수 있다. 여기서 표준화 처리는 동일 출원인이나 표기 방법이 다른 경우의 표기 방법의 통일, 기업의 사명 변경이나 인수 합병 등에 따른 표기 최신화, 오기의 수정을 예로 들 수 있다.

도 5를 참조할 때, 동일한 주체 정보라 하더라도 씨드 데이터 내에는 공보 출원인, 외부 기업정보, 행정 출원인, 대표 출원인 등의 항목들이 동일한 주체를 가리키는 것임에도 불구하고 서로 다른 명칭으로 기재되어 있을 수 있는데, 데이터 가공부(200)에서는 이렇게 서로 다른 명칭을 하나의 차원, 즉 출원인 차원으로 구성하되 출원인 차원 내에 포함되는 명칭값은 모두 하나의 것으로 표준화하고, 표준화 된 명칭에는 개별 ID를 부여함으로써 구성할 수 있다.

다른 한편, 본 발명에서 제공하고자 하는 융합 콘텐츠 제공 시스템이 특허 데이터를 기초로 한 것임을 고려할 때, 종래의 일반적인 특허 검색 서비스가 공개공보, 등록공보, 보정서 둥 문헌의 종류에 따라 각각 기준을 달리하여 서비스를 제공하였던 것에 비하여, 본 발명에 따른 융합 콘텐츠 제공 시스템에서는 데이터 가공부(200)로 하여금 특허 데이터를 변환할 시 모든 문헌들을 출원 기준으로 전환하여 차원 및 값들을 구성하게 함으로써 특허와 관련된 데이터들이 일목요연하게 정리될 수 있도록 할 수 있다.

다음으로 전처리(Preprocessing)란, 융합 콘텐츠를 보다 빠르게 제공하기 위해 논리적 항목들을 선계산하고, 복수의 주제 영역들 간 연계를 위한 표준화 과정을 의미한다. 논리적 항목들의 선계산이란, 사용자가 어떠한 정보를 필요로 하는지 모르는 상태에서 상기 사용자의 요청에 따라 필요한 정보를 빠르게 제공하기 위해 미리 몇몇 논리적 항목들에 대해 선계산을 함으로써 필요한 정보를 확보해 두기 위한 것으로, 예를 들어 선계산에 의해 구축될 수 있는 정보에는 TCT, CLT 등의 지수 항목들에 대한 선계산 값, 인용항목(B1, F1)들에 대한 선계산 값, 패밀리 항목들에 대한 선계산 값, 건수, 평균, 합계 등의 집계에 대한 선계산 값, 행정구역 코드, 그 외 다양한 논리적 항목들에 대한 선계산 값들이 포함될 수 있다.

또한, 복수의 주제 영역들 간 연계를 위한 표준화란, 예를 들어 일자를 표시하는 방식(YYYYMM, MMDDYYYY 등), 주체(인명)를 표시하는 방식, 금액을 표시하는 방식(\, $ 등), 그 밖의 기타 코드/유무/형식을 표시하는 방식을 하나의 형태로 표준화 하는 것을 의미한다.

마지막으로 선구축 또는 선집계란, 사용자의 과업 목적별로 필요할 수 있는 집계 정보를 사전에 구축하여 놓는 것으로, 사용자에 의해 모집단 확장이 요청될 시 필요한 데이터를 제공하기 위한 것이다. 즉, 주제 별로 탐색 환경을 제공하고자 하는 본 발명 시스템에서는 사용자가 어떤 정보를 필요로 할지 모르기 때문에 사용자의 수요가 예상되는 몇몇 정보들 또는 융합 콘텐츠를 미리 선구축 내지 선집계 해 두는 것이다.

상기 선구축 또는 선집계에 의해 구축되는 정보 또는 융합 콘텐츠에는 일련의 통계세트 및 통계 필터링이 포함될 수 있는데, 통계세트에는 임의 데이터 모집단 단위의 통계 처리, 임의 항목간 연계/연산 처리, 목적별 연산 선계산 된 값들이 포함될 수 있으며, 통계 필터링에는 사용자에게 제공하고자 하는 항목에 대한 통계, 항목 간 연계/연산 처리, 임의 항목의 건수, 합계, 증가율, 지수 등에 대한 선계산 값들이 포함될 수 있다.

이렇듯 데이터 가공부(200)는 씨드 데이터 중 적어도 일부를 활용하여 융합 콘텐츠를 생성할 수 있으며, 융합 콘텐츠는 통합(Integration), 전처리(Preprocessing), 또는 선구축(선집계; Aggregation) 중 적어도 하나의 과정을 통해 생성될 수 있음에 대해 살펴보았다.

한편, 본 발명에 따른 융합 콘텐츠 제공 시스템은 원칙적으로 앞서 설명한 씨드 데이터 저장부(100)와 데이터 가공부(200)를 포함한 것으로 정의될 것이나, 융합 콘텐츠를 제공하는 구성인 콘텐츠 제공부(300)까지 포함하여서도 하나의 융합 콘텐츠 제공 시스템으로 볼 수도 있음을 이해해야 할 것이다.

콘텐츠 제공부(300)는 상기 씨드 데이터 저장부(100)에 저장된 씨드 데이터 또는 데이터 가공부(200)에 의해 생성된 융합 콘텐츠를 획득하여 직접 사용자 단말에 전달하는 구성으로, 콘텐츠 제공부(300)는 복수 개가 존재할 수 있으며 각각의 콘텐츠 제공부(300)는 상이한 목적에 따른 선(先)정의 모델로 구현될 수 있다.

상기 콘텐츠 제공부(300)는, 예를 들어 OLAP(Online Analytical Processing) 방식 또는 테마 방식 등의 형태로 구현될 수 있는데, 이 때 OLAP는 온라인 상에서 사용자가 대량의 데이터를 조회하여 데이터가 가지는 의미를 분석하는 방식의 프로세스를 의미하는 것이며, OLAP 방식의 콘텐츠 제공은 특정 주제 또는 목적 중심으로 대량의 데이터를 조회할 수 있도록 구축된 탐색 환경을 제공하는 것을 의미한다. 한편, 테마 방식의 콘텐츠 제공은 탐색 서비스의 인터페이스 상 뷰(view)에 표시된 데이터를 중심으로 구축되는 소규모 단일 주제의 탐색 환경을 제공하는 것을 의미한다.

이상 도 2 내지 도 5를 참조하여 본 발명에 따른 융합 콘텐츠 제공 시스템 및 당해 시스템에서 융합 콘텐츠가 생성 및 제공되는 과정에 대해 살펴보았다.

도 6은 본 발명의 또 다른 실시예에 따른 융합 콘텐츠 제공 시스템을 도시한 것이다. 도 6은 도 2의 융합 콘텐츠 제공 시스템에 텍스트 추출부(400)가 더해진 것으로, 상기 텍스트 추출부(400)는 텍스트 데이터로부터 마이닝을 수행하는 구성으로 이해될 수 있다.

본 발명이 특허 데이터에 기반한 융합 콘텐츠를 제공하기 위한 것임을 상기할 때, 예를 들어 상기 텍스트 추출부(400)는 특허 문헌들에 포함되어 있는 텍스트 데이터로부터 융합 콘텐츠 생성을 위해 필요한 항목을 추출하고, 융합 콘텐츠 생성에 활용할 수 있는 사전 정보를 저장하는 DB 기능을 할 수 있다.

다른 예로, 상기 텍스트 추출부(400)는 특허 텍스트, 산업 텍스트, 지식베이스를 주된 주제영역으로 하여 사전정보를 저장해 둘 수 있으며, 이 때 특허 텍스트에는 명칭, 요약, 청구항, 상세한 설명, 및 특허 데이터에서 추출된 IPC, CPC, 산업 메타, 기업 메타, 사전 DB, 중계 DB가 정형화 된 데이터로서 포함될 수 있다. 또한 산업 텍스트에는 산업, 제품, 품목 등의 설명이나 정의가 포함된 정의서, 특정 분야에 대한 매개 분류 키워드인 토픽 키워드가 포함될 수 있다. 또한 상기 지식베이스에는 용어 사전, 불용어 사전, 형태소(MOP) 사전, 키프레이즈(key phrase) 사전, 시그니쳐 사전, 토픽 사전 분류 사전 등이 포함될 수 있다.

즉, 상기 텍스트 추출부(400)는 텍스트로 된 데이터로부터 필요한 정보들을 추출하고 이를 당해 텍스트 추출부(400)에서 사전 정의한 주제 영역 별로 구분하여 저장할 수 있다.

한편, 본 발명에 따른 융합 콘텐츠 제공 시스템을 구현하고자 할 때에 각 구성들 간에는 데이터 전송이 필수적이라 할 수 있는데, 구성들 간 데이터 전송은 도 7에 도시되어 있는 ETL부(600)에 의해 제어될 수 있다.

ETL부(600)는 데이터의 전송 과정 전반을 제어하는 것으로, 더 구체적으로는 데이터를 추출, 정제, 변환, 적재하는 프로세스를 제어하며, 특히 씨드 데이터 저장부(100), 텍스트 추출부(400), 데이터 가공부(200), 콘텐츠 제공부(300) 간 데이터 이관 및 텍스트 데이터의 이동, 융합 콘텐츠(시각화/분석 데이터) 제공 등의 과정을 모두 제어하는 역할을 수행한다.

전술하였듯 ETL부(600)는 데이터 추출(Data Extraction), 데이터 정제(Data Cleansing), 데이터 변환 (Data Transformation), 데이터 적재(Data Loading, Transportation) 프로세스를 관리하게 되는데, 이 때 데이터 추출은 씨드 데이터 저장부(100)에서 데이터를 검색하고 추출하는 과정을, 데이터 정제는 데이터 가공부(200), 텍스트 추출부(400), 또는 콘텐츠 제공부(300)에서 요구되는 데이터 정의에 맞추어 표준화나 수정을 하는 과정을 의미한다. 또한 데이터 변환은 씨드 데이터 저장부(100)에서 수집된 데이터를 기 설정된 형식에 맞게 변환하는 과정이며, 데이터 적재는 이동된 데이터를 시스템 상에서 로딩하는 과정을 의미한다.

한편, 데이터 정제에 대해 더 구체적으로 설명하면, 데이터 정제는 데이터 오류 유형에 따라 관리자에 의해 직접 이루어질 수 있거나 또는 자동화 도구에 의해 이루어질 수 있다. 이 때 데이터 오류 유형에는 오타, 필드 손실, Null Value, 갱신이 안 된 데이터 등이 있다.

또한, 데이터 변환에 대해 더 구체적으로 설명하면, 데이터 변환은 데이터 가공부(200), 텍스트 추출부(400), 또는 콘텐츠 제공부(300)에 맞는 데이터로의 변환을 의미하는데, 데이터 변환에서는 무결성 체크가 가장 중요한 과정이라 할 수 있다. 아울러 데이터 변환 단계에서는 불필요한 필드의 제거도 함께 이루어질 수 있다. 데이터 변환의 주된 과정에는 데이터 전환, 불필요한 필드 제거, 데이터 타입 및 길이 변화, 서로 다른 통일, 계산된 값 추가, 키체계 변환 등이 포함될 수 있다. 참고로, 데이터 전환의 예시로는 주소 정보를 시/군/구/동번지로 분할하는 것, 데이터 타입 및 길이 변환의 예시로는 mm/dd/yy, yy/mm/dd를 yyyy/mm/dd로 변환하는 것, 서로 다른 포맷 통일의 예시로는 남/녀, 1/0, Male/Female을 M/F로 통일하는 것, 계산된 값 추가의 예시로는 매출단가*매출개수의 매출액을 미리 계산해서 추가하는 것, 키체계 변환의 예시로는 주민번호, 고객번호, 여권번호 등을 고객번호로 통일하는 것 등을 들 수 있다.

이상 본 발명에 따른 융합 콘텐츠 제공 시스템 내에서 데이터의 전송을 제어하는 ETL부(600)에 대해 살펴보았다.

위에서 설명된 본 발명의 실시 예들은 예시의 목적을 위해 개시된 것이며, 이들에 의하여 본 발명이 한정되는 것은 아니다. 또한, 본 발명에 대한 기술 분야에서 통상의 지식을 가진 자라면, 본 발명의 사상과 범위 안에서 다양한 수정 및 변경을 가할 수 있을 것이며, 이러한 수정 및 변경은 본 발명의 범위에 속하는 것으로 보아야 할 것이다.

100 씨드 데이터 저장부
200 데이터 가공부
300 콘텐츠 제공부
400 텍스트 추출부
500 운영시스템
600 ETL부

Claims

융합 콘텐츠 제공 시스템에 있어서,
복수의 소스 데이터를 수집하고, 수집된 소스 데이터를 씨드 데이터로 저장하는 씨드 데이터 저장부; 및
상기 씨드 데이터 저장부로부터 저장된 씨드 데이터 중 적어도 일부를 활용하여 융합 콘텐츠를 생성하고, 생성된 융합 콘텐츠를 저장하는 데이터 가공부;를 포함하고,
상기 데이터 가공부에서 생성된 융합 콘텐츠는 사용자 단말에서의 입력에 따라 콘텐츠 제공부에 의해 해당 사용자 단말로 제공되는 것을 특징으로 하는,
융합 콘텐츠 제공 시스템.
제1항에 있어서,
상기 데이터 가공부는,
차원 모델링(dimensional modeling)을 수행함으로써 융합 콘텐츠를 생성하되,
상기 차원 모델링에 의해 생성된 차원 모델은, 키(key), 차원(dimension), 및 값(data)을 포함하는 것을 특징으로 하는,
융합 콘텐츠 제공 시스템.
제2항에 있어서,
상기 씨드 데이터 저장부는,
상기 수집된 복수의 소스 데이터의 상이한 데이터 형태를 동일한 표준 데이터 형태로 변환한 후 이를 씨드 데이터로 저장하는 것을 특징으로 하는,
융합 콘텐츠 제공 시스템.
제3항에 있어서,
상기 씨드 데이터 저장부는,
복수의 소스 데이터를 수집하되, 상기 복수의 소스 데이터 중 적어도 일부는 기 생성된 융합 콘텐츠의 업데이트 데이터인 것을 특징으로 하는,
융합 콘텐츠 제공 시스템.
제1항에 있어서,
임의의 텍스트 데이터로부터 상기 융합 콘텐츠를 생성하는 데에 필요한 정보들을 추출하고 이를 저장하는 텍스트 추출부;
를 더 포함하는 것을 특징으로 하는,
융합 콘텐츠 제공 시스템.
제2항에 있어서,
상기 데이터 가공부가 생성하는 융합 콘텐츠는,
상기 씨드 데이터로부터 추출된 정보들을 활용하여 임의의 차원 및 임의의 값을 매칭시킨 차원-값 모델을 포함하는 것을 특징으로 하는,
융합 콘텐츠 제공 시스템
제2항에 있어서,
상기 데이터 가공부가 생성하는 융합 콘텐츠는,
상기 데이터 가공부가 사전에 선계산을 실행한 복수의 항목들 중 적어도 하나를 포함하는 것을 특징으로 하는,
융합 콘텐츠 제공 시스템.
제1항에 있어서,
상기 씨드 데이터 저장부와 데이터 가공부 사이, 및 상기 씨드 데이터 저장부와 상기 콘텐츠 제공부 사이의 데이터 송수신을 실행시키는 ETL부를 더 포함하는 것을 특징으로 하는,
융합 콘텐츠 제공 시스템.
융합 콘텐츠를 제공하는 방법에 있어서,
씨드 데이터 저장부가, 복수의 소스 데이터를 수집하고 수집된 소스 데이터를 씨드 데이터로 변환하여 저장하는 단계; 및
데이터 가공부가, 상기 씨드 데이터 중 적어도 일부를 활용하여 융합 콘텐츠를 생성하는 단계;
를 포함하며,
상기 융합 콘텐츠는 콘텐츠 제공부에 의해 임의의 사용자 단말로 제공되는 것을 특징으로 하는,
융합 콘텐츠 제공 방법
제9항에 있어서,
상기 융합 콘텐츠를 생성하는 단계는,
상기 데이터 가공부가 차원 모델링(dimensional modeling)을 수행함으로써 융합 콘텐츠를 생성하는 단계를 포함하고,
상기 차원 모델은 키(key), 차원(dimension), 및 값(data)을 포함하는 것을 특징으로 하는,
융합 콘텐츠 제공 방법.