KR100993817B1 - 정보 분석 시스템 및 그 방법 - Google Patents
정보 분석 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR100993817B1 KR100993817B1 KR1020070135050A KR20070135050A KR100993817B1 KR 100993817 B1 KR100993817 B1 KR 100993817B1 KR 1020070135050 A KR1020070135050 A KR 1020070135050A KR 20070135050 A KR20070135050 A KR 20070135050A KR 100993817 B1 KR100993817 B1 KR 100993817B1
- Authority
- KR
- South Korea
- Prior art keywords
- field
- matrix
- input
- generation
- group
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 파일이 입력되면, 상기 입력된 파일을 분석하여 구비된 데이터베이스에 포함된 필드 목록 정보에 해당하는 필드 목록을 추출하고, 상기 추출된 필드 목록을 포함하는 요약 테이블을 생성하는 요약 테이블 생성부, 상기 요약 테이블 생성부에서 생성된 요약 테이블의 필드에 대하여 필드 정제, 그룹 생성, 서브데이터 셋 생성 중 적어도 하나를 포함하는 전처리를 수행하는 전처리 모듈, 상기 요약 테이블 생성부 또는 상기 전처리 모듈에서 생성된 필드에 대해 사용자에 의해 입력된 행렬 설정 정보에 따라 행렬을 생성하는 행렬 생성부, 상기 요약 테이블 생성부 또는 상기 전처리 모듈에서 생성된 필드 중에서 상기 사용자에 의해 선택된 필드에 대해 상기 사용자에 의해 입력된 군집 분석 방법에 따라 해당 필드의 군집을 분석하는 군집 분석부, 상기 행렬 생성부, 상기 전처리 모듈, 상기 군집 분석부 중 적어도 하나에 의해 생성된 데이터에 대해 상기 사용자에 의해 선택된 시각화 방법에 따라 시각화 데이터를 생성하는 시각화 데이터 생성부로 구성된 것으로서, 파일을 분석하는데 있어서 행렬, 전처리, 군집 분석 등의 방법을 사용하도록 하여 정보 분석의 정확성과 효율성을 높일 수 있다.
정보분석, 행렬, 군집, 전처리
Description
본 발명은 정보 분석 시스템 및 그 방법에 관한 것으로서, 더욱 상세하게는 데이터베이스 파일 또는 행렬 값을 입력받아서 행렬 생성 및 데이터 전처리, 군집 분석, 시각화 기능을 제공하는 정보 분석 시스템 및 그 방법에 관한 것이다.
지식은 정보를 매개로 하여 성장하고, 인간의 사고와 혁신의 결과물로 인간 그 자체에 체화된 무형적 자산이다. 이러한 인간이 가진 무형적 지식은 다양한 커뮤니케이션을 통해서 전수되고 전달된다. 특히 논문, 특허 등은 이러한 지식을 전달하는 중요한 매개체이고 중요한 1차 정보자원이다. 즉 정보와 과학기술의 ‘공생관계’(symbiosis) 시대인 것이다.
특히 인터넷의 등장으로 지식혁명이 가속화되면서 정보와 지식발현은 가히 폭발적으로 증가하고 있다.
연구활동에 필요한 정보자원은 논문, 특허 등의 문헌정보 외에도 연구자, 연 구기관, 연구시설, 커뮤니티정보, 산업시장정보 등 다양한 정보가 필요하다. 그런데 연구활동에 필요한 이러한 정보자원이 인터넷 이전에는 주로 공개되는 논문, 특허를 중심으로 조사되었지만, 인터넷의 발달로 개인 연구자의 능력과 역량으로 수집되었던 정보들도 쉽게 접근할 수 있게 되었다. 이처럼 다양한 정보의 대부분이 온라인을 통해서 공개, 접근 가능하게 되면서 가용 가능한 정보자원은 점점 많아지고 있다.
이렇게 많은 정보를 어떻게 연구활동에 효율적으로 활용할 것인가 하는 문제는 연구자/연구기획관리자의 고민거리가 아닐 수 없다.
연구활동 수행시 정보 조사 및 분석은 매우 중요하다. 특히 정보자원의 기하급수적인 증가에 따라 이들 정보자원에서 자신의 연구에 의미 있는 지식을 추출하는 작업, 즉 자신에게 필요한 개별 아이템을 단순 검색하는 행태를 넘어서 외부에 있는 정보자원에 담겨있는 다양한 형태의 패턴변화를 모니터링하여 전략적으로 활용하는 작업이 더욱 중요해진 것이다.
이러한 작업은 과학기술 전체의 활동양상의 변화를 전문적으로 연구하는 정보계량분석 연구자뿐만 아니라, 연구수행 주체의 직접적인 몫이기도 하다. 왜냐하면, 전체적인 연구동향을 파악하고 수행하는 연구의 포지셔닝을 분석하여 신속한 대응전략을 수립하는 것 자체가 연구경쟁력의 핵심요소로 부각되고 있기 때문이다.
또한, 국가나 기업차원에서도 연구자들의 연구과제 방향과 연구목표가 올바르게 진행되고 있는지, 글로벌차원의 과학기술동향을 충분히 검토하고 반영했는지를 더욱 더 중요하게 여기고 있다. 한정된 자원과 효율적인 자원투자를 위해서 연 구방향의 트렌드와 현재 수행하려는 연구과제의 포지셔닝 분석이 필수적이 되기 때문이다. 최근 각종 국가연구개발사업의 과제기획시 연구동향분석에서 특허 및 논문의 선행조사를 의무화하도록 한 것은 이와 같은 추세가 일정정도 반영된 것이라고 할 수 있다.
한편, 학문적인 방법으로 계량과학학, 계량정보학 들이 발전하면서 이를 실제 문제에 적용하기 위한 다양한 정보분석시스템 기술도 개발되었다.
대표적으로 미국 조지아텍 대학의 VantagePoint, 오스트리아 연구회(ARC)의 BibTechMon, 미국 인디애나 대학의 CiteSpace 등의 문헌정보 분석시스템이 대표적인 툴이라 할 수 있다. 이 외에도 특허데이터베이스와 연동되어 분석기능을 제공하는 MicroPatent의 Aureka, Delphion Patlab 등의 다양한 툴이 개발되고 있다. 또한 검색된 데이터의 시각화에 중점을 둔 InXight, Omni Viz, SciFinder Panorama 등도 나왔다.
그런데, 1990년대 후반 이후부터 다양한 분석시스템이 개발되었지만 실제로 이러한 분석시스템을 활용하여, 문제를 해결하는 데는 한계를 지니고 있다.
첫째, 많은 분석시스템은 DB사용을 전제로 한 시스템으로서 지나치게 특정 DB에 종속적이다.
둘째, DB에 분석시스템이 결합이 되면 정밀분석에 필수적인 데이터의 정제(cleansing)와 자유로운 편집을 할 수 없다는 문제점이 있다.
셋째, 종래의 분석 시스템은 이용자가 자유자재로 원하는 항목 간을 연계시키면서 다양한 분석을 수행할 수 있도록 설계된 것이 아니라, 특정한 기능만을 제 공하는 단점이 있다.
넷째, 종래의 분석시스템은 실제 수요자의 요구를 충분히 반영하지 않았다. 즉, 수요자가 처해 있는 정보분석의 활용 맥락에서 필요로 하는 요구사항을 시스템화는 노력, 분석시스템을 이용한 다양한 활용 로직을 개발하는 노력보다는 구조화된 정보자원에서 나타나는 패턴을 시각화하는 것에만 치중을 한 것이다. 따라서 실제 수요자는 기존 정보분석시스템을 활용한다고 하더라도 언제나 “해석”의 어려움에 빠지거나, 실제 원하는 분석을 수행하지 못하는 어려움에 빠질 수밖에 없었다.
따라서, 본 발명의 목적은 연구개발 활동에서 발생한 정보를 체계적으로 구조화시킨 문헌 및 특허 데이터베이스를 대상으로 이용자의 목적에 따라 다양한 분석기법을 적용하여 새로운 지식을 추출변환시킬 수 정보 분석 시스템 및 그 방법을 제공하는데 있다.
본 발명의 다른 목적은 현장 수요자의 요구를 반영하여 시스템의 응용분석 사례들을 발굴하여 제공하고, 이를 시스템 상에서 구현할 수 있도록 로직화할 수 있는 정보 분석 시스템 및 그 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 수집된 정보자원에 대하여 분석을 원하는 항목 간의 연계와 정제를 위한 전처리(pre-processing)를 지원하고, 추출된 데이터에서 패턴을 추출하고 이를 시각화 할 수 있는 정보 분석 시스템 및 그 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 정보 분석 시스템 이용자가 자유자재로 원하는 항목 간을 연계시키면서 다양한 분석을 수행할 수 있는 정보 분석 시스템 및 그 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 파일을 분석하는데 있어서, 행렬, 전처리, 군집 분석 등의 방법을 사용하도록 하여 정보 분석의 정확성과 효율성을 높일 수 있는 정보 분석 시스템 및 그 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 사용자에 따라 다른 맞춤형 정보 분석 결과를 제 공할 수 있는 정보 분석 시스템 및 그 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 필드 목록 정보 및 파일 정보가 저장된 데이터베이스, 파일이 입력되면, 상기 입력된 파일을 분석하여 상기 데이터베이스에 포함된 필드 목록 정보에 해당하는 필드 목록을 추출하고, 상기 추출된 필드 목록을 포함하는 요약 테이블을 생성하는 요약 테이블 생성부, 상기 요약 테이블 생성부에서 생성된 요약 테이블의 필드에 대하여 필드 정제, 그룹 생성, 서브데이터 셋 생성 중 적어도 하나를 포함하는 전처리를 수행하는 전처리 모듈, 상기 요약 테이블 생성부 또는 상기 전처리 모듈에서 생성된 필드에 대해 사용자에 의해 입력된 행렬 설정 정보에 따라 행렬을 생성하는 행렬 생성부, 상기 요약 테이블 생성부 또는 상기 전처리 모듈에서 생성된 필드 중에서 상기 사용자에 의해 선택된 필드에 대해 상기 사용자에 의해 입력된 군집 분석 방법에 따라 해당 필드의 군집을 분석하는 군집 분석부를 포함하는 것을 특징으로 하는 정보 분석을 위한 정보 분석 서버가 제공된다.
상기 행렬 생성부, 상기 전처리 모듈, 상기 군집 분석부 중 적어도 하나에 의해 생성된 데이터에 대해 상기 사용자에 의해 선택된 시각화 방법에 따라 시각화 데이터를 생성하는 시각화 데이터 생성부를 더 포함하는 것을 특징으로 하는 정보 분석을 위한 정보 분석 서버가 제공된다.
상기 시각화 방법은 챠트, FDP, 전략 맵 중 적어도 하나를 포함하고, 상기 파일은 텍스트 또는 행렬의 형태로 입력된다.
상기 요약 테이블 생성부에서 생성된 요약 테이블은 필드 목록별 내용 건수 및 충실도가 포함된다.
상기 전처리 모듈은, 상기 사용자에 의해 입력된 필드 정제 방법에 따라 선택된 필드를 정제하는 필드 정제부, 상기 사용자에 의해 입력된 그룹 설정 방법에 따라 그룹을 설정하는 그룹 설정부, 상기 사용자에 의해 입력된 서브데이터 셋 생성 방법에 따라 서브데이터 셋을 생성하는 서브데이터 셋 생성부를 포함한다.
상기 필드 정제 방법은 그룹을 이용하여 필드 생성, 시소러스를 이용하여 필드 생성, 클러스터를 이용하여 필드 생성, 리파인 필드, 컴바인 필드 중 적어도 하나이고, 상기 그룹 설정 방법은 New Grouping, Add to Group, Edit Group, Thesaurus를 이용한 그룹 생성, stemming을 이용하여 그룹 생성 중 적어도 하나일 수 있다.
상기 서브데이터 셋 생성 방법은 그룹을 이용하여 서브데이터 셋 생성 방법, 필드 데이터를 이용하여 서브데이터 셋 생성 방법 중 하나이다.
상기 행렬 설정 정보는 행렬 방식, 행렬 생성 방식, 유사도 계산 방법을 포함하고, 상기 행렬 방식은 발생 행렬 방식, 동시 발생 행렬 방식, 유사도 행렬 방식을 포함한다.
상기 행렬 생성 방식은 레코드 기반 행렬 생성 방식, 레코드에 필드 데이터의 출현 개수 계산을 이용한 행렬 생성 방식을 포함한다.
상기 군집 분석부는 상기 사용자에 의해 선택된 필드에 해당하는 개체를 상 기 데이터베이스에서 추출한 후 각 개체간의 유사도를 구하여 군집을 분석한다.
상기 군집 분석 방법은 Single, Complete, Average, Ward, K-Means 중 적어도 하나를 포함한다.
본 발명의 다른 측면에 따르면, (a)파일이 입력되면, 상기 입력된 파일을 분석하여 필드 목록을 추출하고, 상기 추출된 필드 목록별 고유 아이템 수와 데이터 충실도를 포함하는 요약 테이블을 생성하는 단계, (b)상기 생성된 요약 테이블의 필드에 대해 행렬 생성 명령, 전처리 명령, 군집 분석 명령 중 적어도 하나가 입력되면, 상기 입력된 명령에 대한 설정 화면을 제공하고, 상기 제공된 설정 화면을 통해 해당 설정 정보가 입력되면, 해당 필드에 대해 상기 설정 정보에 따라 처리를 수행하는 단계, (c)상기 수행된 처리 결과에 대한 시각화 명령이 입력되면, 선택된 시각화 방법에 따라 상기 처리 결과에 대한 시각화 데이터를 생성하여 출력하는 단계를 포함하는 것을 특징으로 하는 정보 분석 방법이 제공된다.
상기 (a)단계는, 정보 분석 메뉴가 선택되면, 파일 입력 화면을 제공하는 단계, 상기 파일 입력 화면을 통해 파일이 입력되면, 상기 입력된 파일을 분석하여 상기 파일 입력 화면을 통해 선택된 필드에 해당하는 필드 목록을 추출하는 단계, 상기 추출된 필드 목록별 고유 아이템 수와 데이터 충실도를 포함하는 요약 테이블을 생성하는 단계를 포함한다.
상기 (b)단계에서, 상기 행렬 생성 명령이 입력되면, 행렬 설정 화면을 제공하는 단계, 상기 행렬 설정 화면을 통해 행렬 설정 정보가 입력되면, 상기 생성된 요약 테이블의 필드에 대해 상기 행렬 설정 정보에 따라 행렬을 생성하는 단계를 포함한다.
상기 행렬 설정 화면은 행렬 방식 선택 영역, 행렬 생성 방식 선택 영역, 유사도 계산 방법 선택 영역으로 구성하되, 상기 행렬 방식 선택 영역에는 발생 행렬, 동시 발생 행렬, 유사도 행렬 방식이 표시되고, 상기 행렬 생성 방식 선택 영역에는 레코드 기반 행렬 생성 및 레코드에 필드 데이터의 출현 유/무를 계산하여 행렬 생성 방식이 표시된다.
또한, 상기 (b)단계에서 필드 정제, 그룹 생성, 서브데이터 셋 생성 중 적어도 하나를 포함하는 전처리 명령이 입력되면, 해당 전처리 설정 화면을 제공하고, 상기 전처리 설정 화면을 통해 전처리 설정 정보가 입력되면, 해당 필드에 상기 전처리 설정 정보에 따라 전처리를 수행하는 단계를 포함한다.
또한, 상기 (b)단계에서 상기 생성된 요약 테이블의 특정 필드에 대해 군집 분석 명령이 입력되면, 군집 분석 방법 선택 화면을 제공하는 단계, 상기 군집 분석 방법 선택 화면을 통해 선택된 군집 분석 방법에 따라 상기 필드 항목에 대하여 군집을 분석하는 단계를 포함한다.
따라서, 본발명은 연구개발 활동에서 발생한 정보를 체계적으로 구조화시킨 문헌 및 특허 데이터베이스를 대상으로 이용자의 목적에 따라 다양한 분석기법을 적용하여 새로운 지식을 추출변환시킬 수 정보 분석 시스템 및 그 방법을 제공할 수 있다.
또한, 수집된 정보자원에 대하여 분석을 원하는 항목 간의 연계와 정제를 위한 전처리(pre-processing)를 지원하고, 추출된 데이터에서 패턴을 추출하고 이를 시각화 할 수 있는 정보 분석 시스템 및 그 방법을 제공할 수 있다.
또한, 정보 분석 시스템 이용자가 자유자재로 원하는 항목 간을 연계시키면서 다양한 분석을 수행할 수 있는 정보 분석 시스템 및 그 방법을 제공할 수 있다.
또한, 파일을 분석하는데 있어서, 행렬, 전처리, 군집 분석 등의 방법을 사용하도록 하여 정보 분석의 정확성과 효율성을 높일 수 있는 정보 분석을 위한 정보 분석 시스템 및 그 방법을 제공할 수 있다.
또한, 사용자에 따라 다른 맞춤형 정보 분석 결과를 제공할 수 있는 정보 분석을 위한 정보 분석 시스템 및 그 방법을 제공할 수 있다.
또한, 분야 전문가로 하여금 자신의 전문 지식을 쉽게 표현할 수 있게 도와주며, 사용자는 연구를 수행하는데 필요한 가장 필수적인 정보를 얻을 수 있는 정보 분석을 위한 정보 분석 시스템 및 그 방법을 제공할 수 있다.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명에 따른 정보 분석 시스템의 구성을 나타낸 도면이다.
도 1을 참조하면, 정보 분석 시스템은 분석을 원하는 파일을 입력받는 클라 이언트(100), 상기 클라이언트(100)로부터 전송된 파일을 분석하여 요약 테이블을 생성하는 정보 분석 서버(110)를 포함한다.
상기 클라이언트(100)는 유선 통신 단말기, 무선 통신 단말기 등을 말하는 것으로서, 상기 정보 분석 서버(110)와 통신망을 통해 연결되어 있다.
상기 정보 분석 서버(110)는 상기 클라이언트(100)로부터 전송된 파일을 분석하여 필드 목록을 추출하고, 상기 추출된 필드 목록별 고유 아이템 수와 충실도를 포함하는 요약 테이블을 생성한다.
또한, 상기 정보 분석 서버(110)는 상기 생성된 요약 테이블에 표시된 적어도 하나의 필드에 대해 행렬 생성 명령이 입력되면, 상기 클라이언트(100)에 의해 입력된 행렬 설정 정보에 따라 행렬을 생성한다.
또한, 상기 정보 분석 서버(110)는 상기 생성된 요약 테이블에 표시된 필드에 대해 전처리가 요청되면, 해당하는 전처리를 수행하는 역할을 수행한다. 여기서, 상기 전처리는 필드 생성, 그룹 생성, 서브 데이터 셋 생성 등을 포함할 수 있다.
또한, 상기 정보 분석 서버(110)는 상기 클라이언트(100)에 의해 선택된 필드 또는 개체에 대해 상기 클라이언트(100)에 의해 입력된 군집 분석 방법에 따라 군집을 분석하는 역할을 수행한다.
상기와 같은 역할을 수행하는 정보 분석 서버(110)에 대한 상세한 설명은 도 2를 참조하기로 한다.
도 2는 본 발명에 따른 정보 분석 서버의 구성을 개략적으로 나타낸 블럭도이다.
도 2를 참조하면, 정보 분석 서버는 데이터베이스(200), 파일 수신부(210), 요약 테이블 생성부(22), 전처리 모듈(230), 행렬 생성부(240), 군집 분석부(250), 시각화 데이터 생성부(260)를 포함한다.
상기 데이터베이스(200)에는 필드 목록 정보 및 파일 정보가 저장되어 있다.
상기 파일 수신부(210)는 클라이언트로부터 파일을 수신하여 상기 요약 테이블 생성부(220)에 전송한다. 여기서, 상기 파일은 웹문서, 텍스트, 워드, 행렬 등의 형태로 입력될 수 있다.
상기 요약 테이블 생성부(220)는 상기 파일 수신부(210)로부터 파일이 수신되면, 상기 수신된 파일을 분석하여 상기 데이터베이스(200)에 포함된 필드 목록을 추출한다. 그런 다음 상기 요약 테이블 생성부(220)는 상기 추출된 필드별 고유 아이템 수와 충실도를 구하여 도 5와 같은 요약 테이블을 생성한다.
즉, 상기 요약 테이블 생성부(220)는 텍스트, 워드 형태의 파일이 입력되면, 상기 파일을 분석하여 상기 데이터베이스(200)에 설정된 필드 목록과 상응하는 필드 목록을 추출한다. 그런 다음 상기 요약 테이블 생성부(220)는 상기 추출된 각 필드 목록에 대하여 고유 아이템 수(내용 건수)와 데이터 충실도를 구하여 요약 테이블을 생성한다. 따라서, 요약 테이블에는 필드 목록, 필드 목록별 내용 건수와 충실도가 함께 표현되어 있다.
상기 전처리 모듈(230)은 상기 요약 테이블 생성부(220)에서 생성된 요약 테 이블에서 제공하는 필드에 대한 전처리 과정을 수행하는 것으로서, 필드 정제부(232), 그룹 설정부(234), 서브데이터 셋 생성부(236)를 포함한다.
상기 필드 정제부(232)는 상기 클라이언트에 의해 입력된 필드 정제 방법에 따라 선택된 필드를 정제하는 역할을 수행한다. 여기서, 상기 필드 정제 방법에는 그룹을 이용하여 필드 생성, 시소러스를 이용하여 필드 생성, 클러스터를 이용하여 필드 생성, 리파인 필드, 컴바인 필드 등의 방법이 있다.
상기 그룹 설정부(234)는 상기 클라이언트에 의해 입력된 그룹 설정 방법에 따라 그룹을 설정하는 역할을 수행한다. 여기서, 상기 그룹 설정 방법에는 새로운 그룹 추가, 시소러스를 이용하여 그룹 생성, stemming을 이용하여 그룹 생성 등의 그룹 설정 방법이 존재한다.
상기 서브데이터 셋 생성부(236)는 상기 클라이언트에 의해 입력된 서브데이터 셋 생성 방법에 따라 서브데이터 셋을 생성하는 역할을 수행한다. 여기서, 상기 서브데이터 셋 생성 방법에는 그룹을 이용하여 서브데이타 셋 생성, 드래그한 부분을 서브데이터 셋으로 생성 방법 등이 포함되어 있다.
상기와 같이 구성된 전처리 모듈(230)의 전처리 동작에 의해 해당 파일에 대해 상기 요약 테이블 생성부(220)에서 생성된 요약 테이블과 다른 요약 테이블이 생성될 수 있다. 즉, 상기 전처리 모듈에 의해 생성된 요약 테이블은 상기 요약 테이블 생성부에서 생성된 모든 필드를 포함하는 요약 테이블이 아닌 필드 정제, 그룹설정 등의 방법에 의해 새로운 요약 테이블이 생성된다.
상기 행렬 생성부(240)는 상기 요약 테이블 생성부(220)에서 생성된 필드에 대해 발생 행렬, 동시발생 행렬, 유사도 행렬 등 클라이언트 또는 디폴트로 설정된 방식에 따라 행렬 값에 대한 요약 통계량을 생성한다.
또한, 상기 행렬 생성부(240)는 상기 전처리 모듈(230)에서 생성된 필드에 대해 발생 행렬, 동시발생 행렬, 유사도 행렬 등 사용자 또는 디폴트로 설정된 방식에 따라 행렬값에 따른 요약 통계량을 생성한다.
상기 군집 분석부(250)는 상기 클라이언트에 의해 선택된 필드(또는 개체)에 대해 상기 클라이언트에 의해 선택된 군집 분석 방법을 이용하여 군집을 분석하는 역할을 수행한다.
예를 들어, 상기 클라이언트가 '발명자'필드를 선택하여 군집 명령을 선택하면, 상기 군집 분석부(250)는 구비된 데이터베이스(200)에 저장된 발명자를 추출하고, 상기 추출된 발명자에 대해 클라이언트에 의해 선택된 군집 분석 방법을 이용하여 군집을 분석한다.
상기 군집 분석이라 함은 비슷한 특성을 가진 집단을 확인하기 위해 시도하는 통계적 분석기법 즉, 유사한 속성을 갖는 객체들을 묶어 전체의 객체들을 몇 개의 그룹 또는 군집으로 나누는 것을 말한다.
따라서, 상기 군집 분석부(250)는 개체에 대해 유사도를 이용하여 군집을 분석한다. 즉, 상기 군집 분석부(250)는 개체간의 거리를 구하고, 상기 구해진 거리를 이용하여 유사도를 구한 후, 상기 구해진 유사도를 이용하여 군집을 분석하는 역할을 수행한다.
상기 군집 분석 방법에는 계층적 방법(single, complete, average, ward), 비계층적 방법(K-Means) 등이 있고, 군집 분석의 결과로 각 항목이 군집화된 순서를 디렉토리 구조를 통해서 확인할 수 있다.
상기 계층적 군집 방법에는 single, complete, average, 중심 연결법 등의 방법이 있다. 상기 single linkage(conneted)은 군집간의 유사성 척도로 두 군집의 모든 객체 상의 거리중 가장 가까운 거리를 사용하는 것으로서, 두 군집의 유사성을 가장 짧은 거리를 갖는 객체 쌍으로 평가하고자 하는 것이다.
상기 complete linkage(compact)는 군집간의 유사성 척도로 두 군집의 모든 객체 쌍의 거리 중 가장 먼 거리를 사용하는 것으로서, 두 군집의 유사성을 가장 먼 거리를 갖는 객체 쌍으로 평가하고자 하는 것이다.
상기 average linkage는 군집간의 유사성 척도로 두 군집의 모든 객체 쌍의 평균 거리를 사용하는 것이다.
상기 중심 연결법은 군집을 이루는 객체들의 중심이 되는 좌표를 그 군집의 중심이라 하는데, 군집간의 유사성 척도로 두 군집의 중심간 거리를 사용하는 방법을 말한다.
상기 비 계층적 군집 방법은 분할 방법이라고도 하는데, 군집의 수를 사전에 지정하고 대상 객체들을 적절한 군집에 배정하는 방법을 말한다.
상기 비 계층적 군집 방법 중에서 K-Means 군집 방법은 어떤 규칙에 의하여 k개 객체의 좌표를 초기 군집의 중심 좌표로 선정하고, 각 객체에 대하여 k개의 군집 중심 좌표와의 거리를 산출한 후, 가장 가까운 군집에 그 객체를 배정하고, 새로운 군집에 대한 중심 좌표를 산출한 후 새로 산출된 중심 좌표값과 이전 좌표값 을 비교하여 수렴조건내에 들면 마치며 그렇지 않으면 초기 군집의 중심 좌료를 다시 선정하는 방법이다.
상기 시각화 데이터 생성부(260)는 상기 행렬 생성부(240)에 의해 생성된 데이터, 상기 전처리 모듈(230)에 의해 생성된 데이터, 상기 군집 분석부(250)에서 분석된 데이터 중 적어도 하나를 상기 클라이언트의 요청에 의해 챠트, FDP, 전략 맵 등의 시각화 데이터로 생성하는 역할을 수행한다.
상기 FDP는 다양한 옵션이 지원되어 원하는 형태로 시각화 결과를 도출할 수 있고, 초기값에 따라 최종 위치가 달라지므로 분석하기 가장 좋은 레이아웃이 될때까지 랜덤 초기화를 수회 반복하는 것이 좋다.
상기 전략맵은 키워드가 문헌상에서 동시출현하는 패턴을 기반으로 군집을 형성하고, 군집내의 연결강도, 타 군집과의 연결강도를 계산하여 데이터에 나타난 해당 연구분야의 지형을 전략적으로 4분면에 매핑하여 아이템별 수준을 파악하는 것을 말한다.
또한, 상기 시각화 데이터 생성부(260)는 각 개체를 랜덤 또는 일정하게 분포시킨 후, 각 개체간의 인력과 척력을 구하고, 상기 구해진 인력과 척력을 비교하여 각 개체에 대한 시각화 데이터를 생성하여 출력한다.
상기와 같이 구성된 정보 분석 서버는 데이터베이스 파일 또는 행렬값을 입력받아서 행렬 생성 및 데이터 전처리 기능, 군집 분석, 시각화 기능을 제공한다.
도 3은 본 발명에 따른 정보 분석 서버가 입력된 파일을 분석하는 방법을 나 타낸 흐름도, 도 4는 본 발명에 따른 파일 입력 화면을 나타낸 예시도, 도 5는 본 발명에 따른 요약 테이블 화면 예시도, 도 6은 본 발명에 따른 행렬 설정 화면을 나타낸 예시도이다.
도 3을 참조하면, 정보 분석 서버는 파일이 입력되면(S300), 상기 입력된 파일을 분석하여 필드 목록을 추출한다(S302).
즉, 사용자가 정보 분석 메뉴를 선택하면, 도 4와 같은 파일 입력 화면이 디스플레이된다.
상기 파일 입력 화면에 대해 도 4를 참조하면, 상기 파일 입력 화면에는 프로젝트명 입력 영역, DB 타입 입력 영역, DB 형식 선택 영역, 파일 입력 영역(Import/File)이 포함되어 있다.
상기 프로젝트명 입력 영역에 해당 프로젝트 명을 입력하고, 상기 DB 타입 입력 영역에는 텍스트 데이터 입력 또는 행렬 입력 중 원하는 데이터 타입을 선택한다. 상기 DB 형식 선택 영역에는 상기 DB 타입 입력 영역에서 텍스트 데이터 입력을 선택한 경우 텍스트 데이터의 DB 형식을 선택하는 것으로서, 상기 DB 형식에는 WoS, YESKISTI, DWPI등이 있을 수 있다.
상기 파일 입력 영역(Import/File)은 사용 필드 선택 영역과 파일 검색 영역으로 구성되어 있다. 상기 사용 필드 선택 영역에서는 기본으로 설정된 필드 이외에 다른 필드를 선택하거나 기본 필드 중 일부 필드만 선택하고자 할때 사용한다.
상기 파일 검색 영역에는 입력 파일을 검색하여 검색된 파일을 입력하는 영역이다.
상기와 같이 파일 입력 화면을 통해 파일이 입력되면, 상기 정보 분석 서버는 상기 입력된 파일을 분석하여 상기 사용 필드 선택 영역에서 선택한 필드에 해당하는 필드 목록을 추출한다.
그런 다음 상기 정보 분석 서버는 상기 추출된 필드 목록별 고유 아이템수와 데이터 충실도를 포함하는 요약 테이블을 생성한다(S304).
상기 생성된 요약 테이블은 분석을 하고자 하는 입력 데이터 셋에 대한 메타 정보를 말하는 것으로서, 도 5과 같다.
상기 요약 테이블에 대해 도 5을 참조하면, 프로젝트 명, 입력 데이터의 DB 형식을 나타낸 데이터베이스, 분석 수행 날짜 및 시각, 입력 레코드 수, 입력 파일 경로, 필드 목록, 필드별 고유 아이템 수, 충실도가 포함된다. 상기 충실도는 해당 필드가 채워져 있는 레코드 비율을 말한다.
상기 단계 304에서 생성된 요약 테이블의 각 필드에 대해 행렬 생성을 원하여 행렬 생성 명령이 입력되면(S306), 상기 정보 분석 서버는 행렬 설정 화면을 생성하여 상기 클라이언트에게 제공한다(S308).
상기 행렬 설정 화면에 대해 도 6을 참조하면, 행렬 설정 화면에는 행렬 방식 선택 영역, 행렬 생성 방식 선택 영역, 유사도 계산 방법 선택 영역으로 구성되어 있다.
상기 행렬 방식 선택 영역에는 발생 행렬, 동시 발생 행렬, 유사도 행렬 등의 행렬 방식이 표시되어 있다. 상기 발생 행렬은 두개의 서로 다른 필드 사이의 발생 행렬을 말하고, 상기 동시 발생 행렬은 동일한 필드 사이의 발생 행렬로서, 발생 행렬의 오버랩 함수를 적용하여 계산, 상기 유사도 행렬은 두 필드 사이에서 발생한 레코드의 수를 유사도 알고리즘을 적용하여 계산하는 것을 말한다.
상기 행렬 생성 방식 선택 영역에는 Records, Instances가 존재하는데, 상기 Records는 레코드 기반으로 행렬을 생성하는 것으로 레코드에 필드데이터의 출현 유/무를 계산하여 행렬을 구하는 것이고, 상기 Instances는 레코드에 필드 데이터의 출현 개수 계산를 이용하여 행렬을 구하는 것이다.
상기 유사도 계산 방법 선택 영역은 유사도를 계산할 때 발생 행렬을 사용할지 동시 발생 행렬을 사용할지를 선택하는 것을 말하는 것으로서, 제공 유사도 ㄱ계수로는 Parson's r, Cosine, Jaccard, Dice, Equivalence, Euclid, Squared Euclid, Minkowski p-Metric 등이 있다.
상기 단계 308에서 디스플레이된 행렬 설정 화면을 통해 행렬 설정 정보가 입력되면(S310), 상기 정보 분석 서버는 상기 요약 테이블의 내용을 상기 행렬 설정 정보에 따라 행렬을 생성한다(S312). 상기 생성된 행렬은 필드 목록과 함께 그 값이 표시되어 디스플레이된다.
상기 클라이언트가 상기 생성된 행렬의 시각화를 원하여 시각화 명령을 선택하면(S314), 상기 정보 분석 서버는 시각화 방법 선택 화면을 디스플레이한다(S316). 상기 시각화 방법 선택 화면에는 챠트, 클러스터링, FDP, 전략맵 등을 포함한다. 상기 사용자는 상기 시각화 방법 제공 화면을 통해 시각화를 원하는 방법을 선택한다.
또한, 상기 클라이언트는 미리 정해진 시각화 방법 선택 버튼을 이용하여 시 각화 명령을 입력할 수도 있다.
상기 정보 분석 서버는 상기 시각화 방법 선택 화면을 통해 시각화 방법이 선택되면(S318), 상기 생성된 행렬에 대해 상기 선택된 방법에 따라시각화 데이터를 생성하여 출력한다(S320). 상기 시각화 방법 제공 화면에는 챠트, FDP, 전략맵 등의 방법이 표시되어 있다.
예를 들어, 상기 사용자가 시각화 방법으로 전략맵을 선택하였다면, 상기 정보 분석 서버는 상기 생성된 행렬에 대해 전략맵으로 출력되게 한다.
도 7은 본 발명에 따른 정보 분석 서버가 필드 정보를 정제하는 방법을 나타낸 흐름도, 도 8는 본 발명에 따른 필드 정제 방법 선택 화면 예시도, 도 9a 및 도 9b는 본 발명에 따른 필드 생성 화면을 나타낸 예시도이다.
도 7을 참조하면, 정보 분석 서버는 파일이 입력되면(S700), 상기 입력된 파일을 분석하여 필드 목록을 추출한다(S702).
그런 다음 상기 정보 분석 서버는 상기 추출된 필드 목록별 고유 아이템수와 데이터 충실도를 포함하는 요약 테이블을 생성한다(S704).
상기 생성된 요약 테이블의 필드의 정제를 원하여 필드 정제 명령이 입력되면(S706), 상기 정보 분석 서버는 필드 정제 방법 선택 화면을 생성하여 상기 클라이언트에게 제공한다(S708).
상기 필드 정제 방법 선택 화면에 대해 도 8를 참조하면, 상기 필드 정제 방법 선택 화면에는 그룹을 이용하여 필드 생성(Group-Field), 시소러스를 이용하여 필드 생성(Thesaurus-Field), 클러스터를 이용하여 필드 생성(Cluster-Field), 리파인 필드(Refine Field), 컴바인 필드(Combine Field) 등의 필드 생성 방법이 포함되어 있다.
상기 그룹을 이용하여 필드 생성 명령을 선택하면, 도 9a와 같은 필드 생성 화면이 디스플레이된다.
도 9a를 참조하면, 필드생성 화면에는 Select field, Select group, From, USE, Keep Groups, New field name가 표시되어 있다.
상기 Select field는 Group이 생성되어 있는 Field를 표시, Select group은 Select Field에서 선택한 Field에 생성되어 있는 Group을 표시, From에 표시된 'Group’은 선택한 Group에 포함된 Field Data의 이름을 가지고 새로운 Field 생성, Group names’는 선택한 Group의 이름을 가지고 새로운 Field 생성, USE에서 'Checked’는 Group에 포함된 Field Data로 새로운 Field 생성, Unchecked'는 Group에 포함되지 않은 Field Data로 새로운 Field 생성을 말하고, Keep Groups은 체크시 기존 Field에 생성되어 있는 Group을 새로 생성한 Field에서도 유지, New field name은 새로 생기는 필드명을 설정하는 영역이다.
상기 시소러스를 이용하여 필드 생성(Thesaurus-Field) 명령을 선택하면, 도 9b와 같은 필드 생성 화면이 디스플레이된다.
상기 필드 생성 화면의 Fields에서 Thesaurus를 적용할 Field 선택, Thesaurus에서 적용할 Thesaurus를 선택, Contain unmatched field data에서 체크시 적용한 Thesaurus에 포함되지 않은 Field Data들도 새로 생성되는 Field에 포함 시키는 것을 말한다.
즉, 상기 시소러스를 이용하여 필드를 생성하는 것은 시소러스를 적용할 필드를 선택하고, 적용할 시소러스를 선택하여 새로운 필드를 생성하는 것이다.
상기 리파인 필드(Refine Field)는 스트링(string) 매칭 알고리즘을 이용하여 중복 아이템을 제거하여 필드를 정제하는 것을 말한다.
상기 컴바인 필드(Combine Field)는 서로 다른 필드를 선택하여 새로운 필드를 생성하는 것을 말한다.
상기 사용자는 상기 필드 정제 방법 선택 화면에서 원하는 필드 생성 방법을 선택한다.
단계 708에서 디스플레이된 필드 정제 방법 선택 화면을 통해 필드 생성 방법이 선택되면(S710), 상기 정보 분석 서버는 상기 선택된 필드 생성 방법에 따라 필드를 정제한다(S712).
그런 다음 상기 정제된 필드에 대해 시각화를 원하여 시각화 명령을 선택하면(S714), 상기 정보 분석 서버는 시각화 방법 제공 화면을 디스플레이한다(S716).
상기 시각화 방법 제공 화면을 통해 시각화 방법이 선택되면(S718), 상기 정보 분석 서버는 상기 선택된 시각화 방법에 따라 상기 정제된 필드 정보를 출력한다(S720).
도 10은 본 발명에 따른 정보 분석 서버가 그룹을 생성하는 방법을 나타낸 흐름도, 도 11은 본 발명에 따른 그룹 생성 방법 선택 화면을 나타낸 예시도, 도 12는 본 발명에 따른 Thesaurus를 이용한 그룹 생성 방법을 설명하기 위한 화면 예시도이다.
도 10을 참조하면, 정보 분석 서버는 파일이 입력되면(S1000), 상기 입력된 파일을 분석하여 필드 목록을 추출한다(S1002).
그런 다음 상기 정보 분석 서버는 상기 추출된 필드 목록별 고유 아이템수와 데이터 충실도를 포함하는 요약 테이블을 생성한다(S1004).
상기 생성된 요약 테이블의 필드를 이용하여 새로운 그룹 생성을 원하여 그룹 생성 명령을 입력하면(S1006), 상기 정보 분석 서버는 그룹 생성 방법 선택 화면을 생성하여 상기 클라이언트에게 제공한다(S1008).
상기 그룹 생성 방법 선택 화면에 대해 도 11을 참조하면, 그룹 생성 방법 선택 화면에는 New Grouping, Add to Group, Edit Group, Thesaurus->Group, Stem n->Group, Stem U->Group등의 그룹 생성 방법이 표시되어 있다.
상기 New Grouping은 새로운 Group을 추가, Add to Group은 현재 활성화되어있는 Field에 생성된 Group을 표시, Edit Group은 새로운 Group을 생성, 생성된 Group의 삭제, Group의 이름 변경 등의 Group을 관리하는 것이다.
상기 Thesaurus->Group는 Thesaurus를 이용하여 Group을 생성하는 것을 말하는 것으로서, Thesaurus->Group를 선택하면, 도 12와 같은 그룹 생성 화면이 제공된다. 도 12를 참조하면, 그룹 선택 영역, 방법 선택 영역, 그룹명 입력 영역, 시소러스 영역이 포함되어 있다.
상기 그룹 선택 영역에는 Single Group와 Group For Each Alias이 표시되어 있다. 상기 single Group은 Thesaurus에 포함되는 모든 Field Data들을 하나의 Group으로 생성하는 것을 말하고, 상기 Group For Each Alias은 포함된 Field Data가 있는 각각의 Thesaurus 항목들을 모두 Group으로 생성하는 것을 말한다.
상기 방법 선택 영역에는 Create New Groups, Merge With Exisiting Groups가 표시되고, 상기 Create New Groups은 동명의 Group이 존재할 경우 새로운 Group을 생성, 상기 Merge With Exisiting Groups: 동명의 Group이 존재할 경우 같은 Group으로 인식하는 것을 말한다.
그룹명 입력 영역에서 Thesaurus 파일을 적용할 Field Name, Group Name을 선택하고, 상기 시소러스 영역에서 적용할 Thesaurus파일을 선택한다.
상기 Stem n->Group은 활성화 된 List창의 모든 Field Data에 Stemming을 적용한 후 선택된 Field Data와 And 조건으로 일치하는 Field Data들을 Group으로 생성하는 것을 말한다.
상기 Stem U->Group은 활성화 된 List창의 모든 Field Data에 Stemming을 적용한 후 선택된 Field Data와 Or 조건으로 일치하는 Field Data들을 Group으로 생성하는 것을 말한다.
상기 사용자는 상기 그룹 생성 방법 선택 화면에서 원하는 그룹 생성 방법을 선택한다.
단계 1008에서 디스플레이된 그룹 생성 방법 선택 화면을 통해 그룹 생성 방법이 선택되면(S1010), 상기 정보 분석 서버는 상기 선택된 그룹 생성 방법에 따라 새로운 그룹을 생성한다(S1012).
그런 다음 상기 새로 생성된 그룹에 표시된 필드에 대해 시각화를 원하여 시각화 명령을 선택하면(S1014), 상기 정보 분석 서버는 시각화 방법 제공 화면을 디스플레이한다(S1016).
상기 시각화 방법 제공 화면을 통해 시각화 방법이 선택되면(S1018), 상기 정보 분석 서버는 상기 선택된 시각화 방법에 따라 상기 생성된 그룹에 포함된 필드 정보를 출력한다(S1020).
도 13은 본 발명에 따른 서브 데이터 셋 생성 방법을 나타낸 흐름도, 도 14는 본 발명에 따른 서브 데이터 셋 생성 방법 선택 화면을 나타낸 예시도이다.
도 13을 참조하면, 정보 분석 서버는 파일이 입력되면(S1300), 상기 입력된 파일을 분석하여 필드 목록을 추출한다(S1302).
그런 다음 상기 정보 분석 서버는 상기 추출된 필드 목록별 고유 아이템수와 데이터 충실도를 포함하는 요약 테이블을 생성한다(S1304).
상기 생성된 요약 테이블의 각 필드에 대해 새로운 서브데이타 셋 생성을 원하여 서브데이타 셋 생성 명령을 입력하면(S1306), 상기 정보 분석 서버는 서브 데이타 셋 생성 방법 선택 화면을 디스플레이한다(S1308).
상기 서브데이타 셋 생성 방법 선택 화면에 대해 도 14를 참조하면, 서브 데이터 셋 생성 방법 선택 화면에는 Select->Database, Group->Database가 표시되어 있다. 상기 Select->Database는 그룹을 이용하여 서브데이타 셋을 생성하는 것으로서, 선택한 그룹에 포함된 필드 데이터 또는 선택한 그룹에 포함되지 않은 필드 데 이터를 이용하여 서브데이터 셋을 생성하는 것을 말한다.
상기 Group->Database는 활성화된 리스트 창에서 선택된 또는 선택되지 않은 필드 데이터를 이용하여 서브데이터 셋을 생성하는 것을 말한다.
단계 1308에서 디스플레이된 서브데이타 셋 생성 방법 선택 화면을 통해 서브데이타 셋 생성 방법이 선택되면(S1310), 상기 정보 분석 서버는 상기 선택된 서브 데이터 셋 생성 방법에 따라 새로운 서브데이터 셋을 생성한다(S1312).
그런 다음 상기 새로 생성된 서브 데이터 셋에 표시된 필드에 대해 시각화를 원하여 시각화 명령을 선택하면(S1314), 상기 정보 분석 서버는 시각화 방법 제공 화면을 디스플레이한다(S1316).
상기 시각화 방법 제공 화면을 통해 시각화 방법이 선택되면(S1318), 상기 정보 분석 서버는 상기 선택된 시각화 방법에 따라 상기 생성된 서브 데이터 셋을 출력한다(S1320).
도 15는 본 발명에 따른 군집 분석 방법을 나타낸 흐름도, 도 16은 본 발명에 따른 군집 분석 방법 선택 화면을 나타낸 예시도이다.
도 15를 참조하면, 정보 분석 서버는 파일이 입력되면(S1500), 상기 입력된 파일을 분석하여 필드 목록을 추출한다(S1502).
그런 다음 상기 정보 분석 서버는 상기 추출된 필드 목록별 고유 아이템수와 데이터 충실도를 포함하는 요약 테이블을 생성한다(S1504).
상기 생성된 요약 테이블의 특정 필드에 대해 군집 분석을 원하여 필드가 선 택된 후(S1506), 군집 분석 명령이 입력되면(S1508), 상기 정보 분석 서버는 군집 분석 방법 선택 화면을 디스플레이한다(S1510).
상기 군집 분석 방법 선택 화면은 도 16과 같으므로, 도 16을 참조하면, 군집 분석 방법 선택 화면에는 Single, Complete, Average, Ward, K-Means 등의 방법이 표시되어 있다.
상기 사용자는 상기 디스플레이된 군집 분석 방법 선택 화면에서 원하는 군집 분석 방법을 선택한다.
그러면, 상기 정보 분석 서버는 상기 선택된 군집 분석 방법에 따라 상기 선택된 필드 항목에 대하여 군집을 분석한다(S1512).
그런 다음 상기 군집 분석 결과의 시각화를 원하여 시각화 방법이 선택되면(S1514), 상기 정보 분석 서버는 상기 선택된 시각화 방법을 이용하여 상기 군집 분석 결과를 출력한다(S1516).
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 본 발명에 따른 정보 분석 시스템의 구성을 나타낸 도면.
도 2는 본 발명에 따른 정보 분석 서버의 구성을 개략적으로 나타낸 블럭도.
도 3은 본 발명에 따른 정보 분석 서버가 입력된 파일을 분석하는 방법을 나타낸 흐름도.
도 4는 본 발명에 따른 파일 입력 화면을 나타낸 예시도.
도 5는 본 발명에 따른 요약 테이블 화면 예시도.
도 6은 본 발명에 따른 행렬 설정 화면을 나타낸 예시도.
도 7은 본 발명에 따른 정보 분석 서버가 필드 정보를 정제하는 방법을 나타낸 흐름도.
도 8는 본 발명에 따른 필드 정제 방법 선택 화면 예시도.
도 9a 및 도 9b는 본 발명에 따른 필드 생성 화면을 나타낸 예시도.
도 10은 본 발명에 따른 정보 분석 서버가 그룹을 생성하는 방법을 나타낸 흐름도.
도 11은 본 발명에 따른 그룹 생성 방법 선택 화면을 나타낸 예시도.
도 12는 본 발명에 따른 Thesaurus를 이용한 그룹 생성 방법을 설명하기 위한 화면 예시도.
도 13은 본 발명에 따른 서브 데이터 셋 생성 방법을 나타낸 흐름도.
도 14는 본 발명에 따른 서브 데이터 셋 생성 방법 선택 화면을 나타낸 예시도.
도 15는 본 발명에 따른 군집 분석 방법을 나타낸 흐름도.
도 16은 본 발명에 따른 군집 분석 방법 선택 화면을 나타낸 예시도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 클라이언트 110 : 정보 분석 서버
200 : 데이터베이스 210 : 파일 수신부
220 : 요약 테이블 생성부 230 : 전처리 모듈
232 : 필드 정제부 234 : 그룹 설정부
236 : 서브데이터 셋 생성부 240 : 행렬 생성부
250 : 군집 분석부 260 : 시각화 데이터 생성부
Claims (19)
- 필드 목록 정보 및 파일 정보가 저장된 데이터베이스;파일이 입력되면, 상기 입력된 파일을 분석하여 상기 데이터베이스에 포함된 필드 목록 정보에 해당하는 필드 목록을 추출하고, 상기 추출된 필드 목록을 포함하는 요약 테이블을 생성하는 요약 테이블 생성부;상기 요약 테이블 생성부에서 생성된 요약 테이블의 필드에 대하여 필드 정제, 그룹 생성, 서브데이터 셋 생성 중 적어도 하나를 포함하는 전처리를 수행하는 전처리 모듈;상기 요약 테이블 생성부 또는 상기 전처리 모듈에서 생성된 필드에 대해 사용자에 의해 입력된 행렬 설정 정보에 따라 행렬을 생성하는 행렬 생성부;상기 요약 테이블 생성부 또는 상기 전처리 모듈에서 생성된 필드 중에서 상기 사용자에 의해 선택된 필드에 대해 상기 사용자에 의해 입력된 군집 분석 방법에 따라 해당 필드의 군집을 분석하는 군집 분석부;및상기 행렬 생성부, 상기 전처리 모듈, 상기 군집 분석부 중 적어도 하나에 의해 생성된 데이터에 대해 상기 사용자에 의해 선택된 시각화 방법에 따라 시각화 데이터를 생성하는 시각화 데이터 생성부를 포함하며,상기 시각화 방법은 챠트, FDP, 전략 맵 중 적어도 하나를 포함하는 것을 특징으로 하며,상기 파일은 웹문서, 텍스트, 워드, 행렬 중 적어도 하나의 형태로 입력되는 것을 특징으로 하며,상기 요약 테이블 생성부에서 생성된 요약 테이블은 필드 목록별 내용 건수 및 충실도가 포함된 것을 특징으로 하며상기 전처리 모듈은,상기 사용자에 의해 입력된 필드 정제 방법에 따라 선택된 필드를 정제하는 필드 정제부;상기 사용자에 의해 입력된 그룹 설정 방법에 따라 그룹을 설정하는 그룹 설정부;및상기 사용자에 의해 입력된 서브데이터 셋 생성 방법에 따라 서브데이터 셋을 생성하는 서브데이터 셋 생성부를 포함하며,상기 필드 정제 방법은 그룹을 이용하여 필드 생성(Group-Field), 시소러스를 이용하여 필드 생성(Thesaurus-Field), 클러스터를 이용하여 필드 생성(Cluster-Field), 리파인 필드(Refine Field), 컴바인 필드(Combine Field) 생성 방법 중 적어도 하나인 것을 특징으로 하며,상기 그룹 설정 방법은 New Grouping, Add to Group, Edit Group, Thesaurus를 이용한 그룹 생성, stemming을 이용하여 그룹 생성 중 적어도 하나인 것을 특징으로 하며,상기 서브데이터 셋 생성 방법은 그룹을 이용하여 서브데이터 셋 생성 방법, 필드 데이터를 이용하여 서브데이터 셋 생성 방법 중 하나인 것을 특징으로 하며,상기 행렬 설정 정보는 행렬 방식, 행렬 생성 방식, 유사도 계산 방법을 포함하며,상기 행렬 방식은 발생 행렬 방식, 동시 발생 행렬 방식, 유사도 행렬 방식을 포함하며,상기 행렬 생성 방식은 레코드 기반 행렬 생성 방식, 레코드에 필드 데이터의 출현 개수 계산을 이용한 행렬 생성 방식을 포함하며상기 군집 분석부는 상기 사용자에 의해 선택된 필드에 해당하는 개체를 상기 데이터베이스에서 추출한 후 각 개체간의 유사도를 구하여 군집을 분석하는 것을 특징으로 하며,상기 군집 분석 방법은 Single, Complete, Average, Ward, K-Means 중 적어도 하나를 포함하는 것을 특징으로 하는 정보 분석 시스템.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- (a)파일이 입력되면, 상기 입력된 파일을 분석하여 필드 목록을 추출하고, 상기 추출된 필드 목록별 고유 아이템 수와 데이터 충실도를 포함하는 요약 테이블을 생성하는 단계;(b)상기 생성된 요약 테이블의 필드에 대해 행렬 생성 명령, 전처리 명령, 군집 분석 명령 중 적어도 하나가 입력되면, 상기 입력된 명령에 대한 설정 화면을 제공하고, 상기 제공된 설정 화면을 통해 해당 설정 정보가 입력되면, 해당 필드에 대해 상기 설정 정보에 따라 처리를 수행하는 단계;및(c)상기 수행된 처리 결과에 대한 시각화 명령이 입력되면, 선택된 시각화 방법에 따라 상기 처리 결과에 대한 시각화 데이터를 생성하여 출력하는 단계를 포함하며,상기 (a)단계는,정보 분석 메뉴가 선택되면, 파일 입력 화면을 제공하는 단계;상기 파일 입력 화면을 통해 파일이 입력되면, 상기 입력된 파일을 분석하여 상기 파일 입력 화면을 통해 선택된 필드에 해당하는 필드 목록을 추출하는 단계;및상기 추출된 필드 목록별 고유 아이템 수와 데이터 충실도를 포함하는 요약 테이블을 생성하는 단계를 포함하며,상기 (b)단계에서,상기 행렬 생성 명령이 입력되면, 행렬 설정 화면을 제공하는 단계;상기 행렬 설정 화면을 통해 행렬 설정 정보가 입력되면, 상기 생성된 요약 테이블의 필드에 대해 상기 행렬 설정 정보에 따라 행렬을 생성하는 단계를 포함하며,상기 행렬 설정 화면은 행렬 방식 선택 영역, 행렬 생성 방식 선택 영역, 유사도 계산 방법 선택 영역으로 구성하되,상기 행렬 방식 선택 영역에는 발생 행렬, 동시 발생 행렬, 유사도 행렬 방식이 표시되고, 상기 행렬 생성 방식 선택 영역에는 레코드 기반 행렬 생성 및 레코드에 필드 데이터의 출현 유/무를 계산하여 행렬 생성 방식이 표시되는 것을 특징으로 하며,상기 (b)단계에서,필드 정제, 그룹 생성, 서브데이터 셋 생성 중 적어도 하나를 포함하는 전처리 명령이 입력되면, 해당 전처리 설정 화면을 제공하는 단계;상기 전처리 설정 화면을 통해 전처리 설정 정보가 입력되면, 해당 필드에 상기 전처리 설정 정보에 따라 전처리를 수행하는 단계를 포함하는 것을 특징으로 하며,상기 (b)단계에서,상기 생성된 요약 테이블의 특정 필드에 대해 군집 분석 명령이 입력되면, 군집 분석 방법 선택 화면을 제공하는 단계;상기 군집 분석 방법 선택 화면을 통해 선택된 군집 분석 방법에 따라 상기 필드 항목에 대하여 군집을 분석하는 단계를 포함하는 것을 특징으로 하는 정보 분석 방법.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070135050A KR100993817B1 (ko) | 2007-12-21 | 2007-12-21 | 정보 분석 시스템 및 그 방법 |
PCT/KR2007/006851 WO2009082046A1 (en) | 2007-12-21 | 2007-12-26 | System and method for analysis of information |
PCT/KR2008/007439 WO2009082116A1 (en) | 2007-12-21 | 2008-12-16 | System and method for analysis of information |
US12/808,323 US20100268714A1 (en) | 2007-12-21 | 2008-12-16 | System and method for analysis of information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070135050A KR100993817B1 (ko) | 2007-12-21 | 2007-12-21 | 정보 분석 시스템 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090067398A KR20090067398A (ko) | 2009-06-25 |
KR100993817B1 true KR100993817B1 (ko) | 2010-11-12 |
Family
ID=40801330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070135050A KR100993817B1 (ko) | 2007-12-21 | 2007-12-21 | 정보 분석 시스템 및 그 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20100268714A1 (ko) |
KR (1) | KR100993817B1 (ko) |
WO (2) | WO2009082046A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024048866A1 (ko) * | 2022-09-02 | 2024-03-07 | 주식회사 아미크 | 목적 데이터 시각화 방법 및 시스템 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8625907B2 (en) * | 2010-06-10 | 2014-01-07 | Microsoft Corporation | Image clustering |
KR101035040B1 (ko) * | 2010-11-02 | 2011-05-19 | 한국과학기술정보연구원 | 연구주체간의 상관관계 추론을 위한 시스템 및 방법 |
KR101316780B1 (ko) * | 2012-02-21 | 2013-10-17 | 한국과학기술원 | 문서 내의 테이블의 정보를 기반으로 한 테이블 자동분류 시스템 및 그 방법 |
CN102682089A (zh) * | 2012-04-24 | 2012-09-19 | 浙江工业大学 | 一种利用鉴别随机邻域嵌入分析的数据降维方法 |
US9177249B2 (en) | 2012-06-29 | 2015-11-03 | Ut-Battelle, Llc | Scientometric methods for identifying emerging technologies |
US10282378B1 (en) * | 2013-04-10 | 2019-05-07 | Christopher A. Eusebi | System and method for detecting and forecasting the emergence of technologies |
CN104699689B (zh) * | 2013-12-04 | 2018-04-27 | 国家计算机网络与信息安全管理中心 | 数据处理方法及装置 |
CN104036020A (zh) * | 2014-06-27 | 2014-09-10 | 四川大学 | 一种基于MapX建立的GIS公交信息可视化方法 |
CN105281925B (zh) * | 2014-06-30 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 网络业务用户群组划分的方法和装置 |
KR101798149B1 (ko) * | 2017-04-17 | 2017-11-16 | 주식회사 뉴스젤리 | 데이터 테이블 중 일부 영역 선택을 통한 차트 시각화 방법 |
CN108733691A (zh) * | 2017-04-18 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 数据预处理方法和装置 |
CN107863157A (zh) * | 2017-08-25 | 2018-03-30 | 重庆康洲大数据有限公司 | 基于大数据中成药处方和方剂查询结果的分析装置和系统 |
CN109739975B (zh) * | 2018-11-15 | 2021-03-09 | 东软集团股份有限公司 | 热点事件抽取方法、装置、可读存储介质及电子设备 |
CN113268761B (zh) * | 2021-07-20 | 2021-09-24 | 北京国电通网络技术有限公司 | 信息加密方法、装置、电子设备和计算机可读介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100426001B1 (ko) * | 2000-12-15 | 2004-04-03 | 한국과학기술원 | 데이터 웨어하우스에서 실체 뷰와 차원 계층을 이용한집계 질의의 재작성 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2688164B2 (ja) * | 1993-07-26 | 1997-12-08 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 情報処理システム |
US6802042B2 (en) * | 1999-06-01 | 2004-10-05 | Yodlee.Com, Inc. | Method and apparatus for providing calculated and solution-oriented personalized summary-reports to a user through a single user-interface |
US6629097B1 (en) * | 1999-04-28 | 2003-09-30 | Douglas K. Keith | Displaying implicit associations among items in loosely-structured data sets |
CN1409838A (zh) * | 1999-11-05 | 2003-04-09 | 马萨诸塞州大学 | 数据可视化 |
US6763361B1 (en) * | 2000-10-31 | 2004-07-13 | Opsware, Inc. | Object-oriented database abstraction and statement generation |
KR100557874B1 (ko) * | 2003-12-31 | 2006-03-10 | 한국과학기술정보연구원 | 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 |
-
2007
- 2007-12-21 KR KR1020070135050A patent/KR100993817B1/ko active IP Right Grant
- 2007-12-26 WO PCT/KR2007/006851 patent/WO2009082046A1/en active Application Filing
-
2008
- 2008-12-16 US US12/808,323 patent/US20100268714A1/en not_active Abandoned
- 2008-12-16 WO PCT/KR2008/007439 patent/WO2009082116A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100426001B1 (ko) * | 2000-12-15 | 2004-04-03 | 한국과학기술원 | 데이터 웨어하우스에서 실체 뷰와 차원 계층을 이용한집계 질의의 재작성 방법 |
Non-Patent Citations (1)
Title |
---|
"계량정보분석시스템 KnowledgeMatrix 개발", 한국콘텐츠학회 2007 추계 종합학술대회 논문집 제5권 제2호(상), 2007.11, pp.167-171.* |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024048866A1 (ko) * | 2022-09-02 | 2024-03-07 | 주식회사 아미크 | 목적 데이터 시각화 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
WO2009082046A1 (en) | 2009-07-02 |
KR20090067398A (ko) | 2009-06-25 |
US20100268714A1 (en) | 2010-10-21 |
WO2009082116A1 (en) | 2009-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100993817B1 (ko) | 정보 분석 시스템 및 그 방법 | |
Federico et al. | A survey on visual approaches for analyzing scientific literature and patents | |
Han et al. | Spark: A big data processing platform based on memory computing | |
Albayrak et al. | Agent technology for personalized information filtering: the pia-system | |
Emara et al. | Distributed data strategies to support large-scale data analysis across geo-distributed data centers | |
He et al. | Parallel implementation of classification algorithms based on MapReduce | |
CN109710767B (zh) | 多语种大数据服务平台 | |
Talaş et al. | Elastic stack in action for smart cities: Making sense of big data | |
Bonnel et al. | Effective organization and visualization of web search results | |
Kharb et al. | A contingent exploration on big data tools | |
CN117369971A (zh) | 一种基于云计算的创新创业平台服务数据处理系统 | |
Huang et al. | Exploring the intellectual structure of cloud patents using non-exhaustive overlaps | |
CN110162580A (zh) | 基于分布式预警平台的数据挖掘与深度分析方法及应用 | |
KR102584032B1 (ko) | 워크 플로우 기반의 시맨틱 cad 데이터 변환 방법 및 이를 위한 장치 | |
Hussein | Context-aware recommendations on rails | |
Tidke et al. | A comprehensive survey and open challenges of mining bigdata | |
Thom et al. | TreeQueST: A treemap-based query sandbox for microdocument retrieval | |
Hameed et al. | Business intelligence: Self adapting and prioritizing database algorithm for providing big data insight in domain knowledge and processing of volume based instructions based on scheduled and contextual shifting of data | |
Cuzzocrea et al. | SeDaSOMA: A Framework for Supporting Serendipitous, Data-As-A-Service-Oriented, Open Big Data Management and Analytics | |
Albertoni et al. | Visualization and semantic analysis of geographic metadata | |
Paredes et al. | Analyzing logs from proxy server and captive portal using k-means clustering algorithm | |
Qu | Information resource sharing model of coastal city library based on cloud computing | |
Arbelaitz et al. | A navigation-log based web mining application to profile the interests of users accessing the web of Bidasoa Turismo | |
Kaabomeir et al. | Meta-Analysis of Studies in the Field of Usability of Library Information Storage and Retrieval System based on Semantic Web Technologies | |
Polous et al. | A general framework for event detection from social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20131004 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20151102 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20161005 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20170927 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20181029 Year of fee payment: 9 |