KR20100103001A

KR20100103001A - 이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이터를생성하는 방법

Info

Publication number: KR20100103001A
Application number: KR1020090021350A
Authority: KR
Inventors: 조정열
Original assignee: 조정열
Priority date: 2009-03-12
Filing date: 2009-03-12
Publication date: 2010-09-27
Also published as: KR101088787B1

Abstract

본 발명은 이슈 분석 시스템 및 이를 이용한 이슈 데이터 생성 방법에 관한 것으로 보다 구체적으로는, 입력 데이터에 포함된 정보를 추출하여 사용자에 의하여 설정된 이슈를 분석하여 관리하는 이슈 분석 시스템 및 이를 이용하여 다양한 입력의 데이터로부터 이슈 분석을 위한 이슈 분석 데이터를 생성하는 방법에 관한 것이다. 본 발명의 이슈 분석 시스템은 이슈 분석을 위하여 입력된 입력 데이터를 분리하여, 텍스트 데이터, 이미지 데이터, 및 상기 입력 데이터의 작성 정보를 포함하는 메타 데이터를 생성하는 데이터 분리부; 상기 데이터 분리부로부터 텍스트 데이터를 전달받아 의미소별로 빈도를 분석하여 핵심어 분석 결과를 산출하는 핵심어 분석 모듈; 상기 데이터 분리부로부터 이미지 데이터를 전달받아 이미지를 분석하여 핵심 이미지 분석 결과를 산출하는 핵심 이미지 분석 모듈; 상기 데이터 분리부로 부터 상기 입력 데이터의 메타 데이터를 전달받고, 상기 핵심어 분석 모듈 및 핵심 이미지 분석 모듈로부터 핵심어 분석 결과 및 핵심 이미지 분석 결과를 전달 받아, 각 분석 결과와 메타 데이터를 결합하여 이슈 데이터를 생성하는 이슈 데이터 생성부; 및 상기 이슈 데이터를 이슈 데이터 생성부로부터 이슈 데이터를 전달 받아 저장하는 이슈 데이터 베이스;를 포함하여 이루어진다.

이슈 분석, 시스템, 이슈 데이터, 생성, 핵심어, 핵심 이미지

Description

이슈 분석 시스템 및 이슈 분석을 위한 이슈 분석 데이터를 생성하는 방법{Issue Analyzing System and Issue Data Generation Method}

본 발명은 이슈분석 시스템 및 이를 이용한 이슈 데이터 생성 방법에 관한 것으로 보다 구체적으로는, 입력 데이터에 포함된 정보를 이용하여 사용자에 의하여 설정된 이슈를 분석하여 관리하는 이슈 분석 시스템 및 다양한 입력의 데이터로부터 이슈 분석을 위한 이슈 분석 데이터를 생성하는 방법에 관한 것이다.

이슈관리란 어떤 이슈가 여론의 초점이 되어 입법단계나 규제의 단계에 진입하기 전에 이를 적절히 사전 관리함으로써 더욱 깊은 파국으로 빠져 들어가는 것을 막을 수 있다는 취지에서 생겨난 홍보 전략이다.

이슈관리는 주로 공공정책의 수립과정에서 생기는 문제를 다루기 때문에 개념상 공공업무(Public Affairs)의 일종으로 볼 수도 있다.

이러한 이슈관리의 목적은 조직들로 하여금 사회, 경제, 정치상의 쟁점들에 절절히 대처하도록 하는 것이며 그럼으로써 급변하는 홍보 환경에 유효하게 대응하고자 하는 것이다.

기업의 경우 헬스케어, 식품, 금융 등 위기 고위험군 산업군은 커뮤니케이션 및 명성 관리를 위해 항상 기업과 연관된 이슈를 관리할 필요가 있다. 예를 들어, 과자를 만드는 기업이라면, 과자가 어린이들 건강에 해로울 가능성이 있다는 민감한 이슈를 평소에 적절히 관리해야 한다. 그렇지 않으면 민감한 이슈가 갑자기 사회적으로 뜨겁게 쟁점화되면서 회사 전체가 위기상황에 빠질 가능성이 높아진다.

조직이 위기에 빠지지 않기 위해서는 잠재적 이슈 및 발생 가능한 위기를 중심으로 핵심 이해관계자들을 정확하게 파악하고 그들의 관점과 니즈를 확인한 후 효과적 채널 믹스 전략을 통해 그들의 메시지를 전달하고 그들의 인식을 변화시켜나가려는 이슈관리 노력이 필요하다.

특히 온라인 커뮤니티/블로그가 활성화되면서 공공기관과 기업은 잠재적인 이슈를 파악하지 못해 위기에 이르는 경우가 많아졌다. 사전에 잠재적인 이슈 파악이 가능하다면 공공기관과 기업의 명성에 위협이 되는 위기 상황은 상당부분 사전 예방 가능하다.

한편, 온라인 커뮤니티/블로그가 활성화와 정보의 형태의 다양화에 따라, 정확한 이슈 파악을 위해서는 이슈 파악이 요구되는 데이터의 출처 및 형태에 대하여 이 적절하고 신속한 선택과 관리가 필요하게 되어 가도 있다.

이러한 이슈 분석에 있어서는 데이터의 내용 분석(Content Analysis)이 기초가 되고 있으며, 이러한 이슈 분석과 관련된 종래 기술로는 동일 출원인에 의하여 출원된 위기뉴스 데이터베이스의 긍·부정을 실시간으로 트래킹하여 브랜드 관리에 적용하는 브랜드 관리 서비스 방법(BRAND MANAGEMENT SERVICE METHOD, 출원번호: 1020050090286), 인터넷을 이용한 언론기관 기사 수집 및 평가 서비스 시스템을 개시하고 있는 인터넷을 이용한 기사 수집 및 평가 시스템과 그 방법(System and Method for Collecting and Evaluating NewsArticles on Internet, 출원번호: 1020020026919), 사용자의 관심사에 관련된 이슈 데이터를 추출하여 제공하는 관심사를 반영하여 추출한 정보 제공 방법 및 시스템(Information providing method and system of extracting a personalized issue, 출원번호: 1020050082432), 오프라인상의 기사를 데이터화하여 자동으로 분류, 편집하여 타 웹사이트에 전송하는 인터넷상에서 기사를 자동 분류하여 타 웹사이트에 자동 송출하는 시스템 및 그 제어방법(출원번호 1020040002276)이 있다.

그러나, 위 기술들은 기본적으로 인터넷 상의 기사 데이터 즉, 텍스트 데이터만을 분석대상으로 하여, 텍스트 데이터에 이미지 데이터등이 혼용되어 사용된 데이터등 다양한 형식의 데이터의 내용 분석에 한계를 가지고 있으며, 이슈 분석을 위한 데이터의 입수 내지 입력 방식에 있어서도 대부분 온라인 또는 오프라인의 제한된 범위내에서 이루어지므로 이슈 파악이 요구되는 데이터의 출처 및 형태에 대하여 이 적절하고 신속한 선택과 관리가 어렵고, 이에 따라, 정확하고 섬세한 이슈 분석 결과를 제공하는 데에 한계가 있다.

따라서, 본 발명은 다양한 방식의 입력 데이터로부터 핵심어 및 핵심 이미지를 추출을 통해 이슈를 사전에 분석함으로써 다양한 데이터의 형식에 제한 없이 입력 데이터에 포함된 정보를 추출하여 사용자에 의하여 설정된 이슈를 분석하여 관리하는 이슈 분석 시스템 및 이슈 분석을 위한 이슈 데이터를 생성하는 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 다양한 데이터 입력 방식 내지 데이터의 출처에 대응하여 용이하게 다양한 매체로부터 입력 데이터를 입수할 수 있으며, 사용자의 요구 또는 상황의 변화에 따라 입력 데이터의 입수 경로를 용이하게 변경하여 정확도와 신뢰성이 높게 이슈를 분석하여 관리할 수 있는 하여 이슈 분석 시스템 및 이슈 분석을 위한 이슈 데이터를 생성하는 방법을 제공하는 것을 목적으로 한다.

나아가, 이슈 분석에 필요한 정보(후술하는, 전자 사전, 가중치, 컬러의 유효성 정보, 인물 사전등)를 사용자의 필요에 따라 용이하게 설정 변경하여 업데이트하는 것이 가능하게 하여, 보다 정확한 이슈 분석 결과를 얻을 수 있을 뿐만 아니라, 생성된 이슈 데이터를 용이하게 가공하여 사용자의 다양한 요구를 만족시킬 수 있는 형태의 이슈 분석 리포트를 제공할 수 있는 이슈 분석 시스템 및 이슈 분석을 위한 이슈 데이터를 생성하는 방법을 제공하는 것을 목적으로 한다.

상기 목적을 달성하기 위하여, 본 발명에 따른 입력 데이터에 포함된 정보를 추출하여 사용자에 의하여 설정된 이슈를 분석하여 관리하는 이슈 분석 시스템은, 이슈 분석을 위하여 입력된 입력 데이터를 분리하여, 텍스트 데이터, 이미지 데이터, 및 상기 입력 데이터의 작성 정보를 포함하는 메타 데이터를 생성하는 데이터 분리부와; 상기 데이터 분리부로부터 텍스트 데이터를 전달받아 의미소별로 빈도를 분석하여 핵심어 분석 결과를 산출하는 핵심어 분석 모듈과; 상기 데이터 분리부로 부터 이미지 데이터를 전달받아 이미지를 분석하여 핵심 이미지 분석 결과를 산출하는 핵심 이미지 분석 모듈과; 상기 데이터 분리부로부터 상기 입력 데이터의 메타 데이터를 전달받고, 상기 핵심어 분석 모듈 및 핵심 이미지 분석 모듈로부터 핵심어 분석 결과 및 핵심 이미지 분석 결과를 전달 받아, 각 분석 결과와 메타 데이터를 결합하여 이슈 데이터를 생성하는 이슈 데이터 생성부; 및 이슈 데이터 생성부로부터 이슈 데이터를 전달 받아 저장하는 이슈 데이터 베이스;를 포함하여 이루어지는 것을 특징으로 한다.

바람직하게는, 상기 핵심어 분석 모듈은, 상기 텍스트 데이터를 어절로 분리하며 분리된 어절을 조사 및 동사어미와 단어로 분리하는 형태소 분석부와, 상기 분리된 단어를 전자 사전과 대조하여 의미를 가지는 의미 단위인 의미소를 추출하여 상기 의미소에 해당하는 단어의 사용 빈도수를 산출하고, 사용자에 의하여 기 설정된 단어별 가중치와 단어의 사용 빈도수에 의하여 의미소별 빈도 분석 결과를 산출하는 의미소 분석부와, 사용자에 의하여 설정되는 상기 각 단어별 가중치를 관리하는 가중치 관리 툴, 및 상기 의미소에 해당하는 단어별로 빈도 분석 결과를 저장하여 각 단어별 빈도 정보가 저장되어 있는 핵심어 저장 데이터 베이스를 포함하 여, 상기 핵심어 저장 데이터 베이스에 핵심어로 이미 존재하는 단어의 경우 상기 빈도 분석 결과를 업데이트하고, 상기 핵심어 저장 데이터 베이스에 존재하지 않는 단어의 경우 새로운 핵심어 테이블을 생성하여 빈도 분석 결과를 저장하도록 한다.

또한, 바람직하게는 상기 핵심 이미지 분석 모듈은, 상기 이미지 데이터로부터 이미지의 형상을 추출하는 형상 분석부와, 이미지의 색상을 분석하여 색상에 따라 이미지의 의미 유효성을 판단하는 컬러 분석부, 및 각 이미지별로 키워드와 이의 빈도 정보가 저장되어 있는 핵심 이미지 데이터 베이스를 포함하여, 상기 형상 분석부에서 추출된 이미지의 형상을 핵심 이미지 데이터 베이스에 저장된 이미지와 대조하여, 이미 저장되어 있는 이미지이고, 상기 컬러 분석부에서의 유효한 이미지로 판단되면, 해당 키워드의 빈도 정보를 업데이트한다.

나아가, 상기 핵심 이미지 분석 모듈은, 이미지에 얼굴이 포함되어 있는 지 여부를 판단하는 얼굴 인식부와 동일 인물의 이미지인지 여부를 판단하는 유사 인물 검색부를 더 포함하여, 형상 분석부에서 추출된 형상을 핵심 이미지 데이터 베이스에 저장된 이미지와 대조하여, 저장되어 있지 않은 이미지인 경우, 상기 얼굴 인식부는 이미지에 얼굴이 포함되어 있는 지 여부를 판단하고, 상기 유사 인물 검색부는 얼굴이 포함되어 있는 이미지인 경우, 동일 인물의 이미지가 핵심 이미지 데이터 베이스에 저장되어 있는 지 여부를 판단하며, 상기 컬러 분석부에서의 유효한 이미지로 판단되면, 해당 인물의 얼굴 이미지의 키워드의 빈도 정보를 업데이트한다.

나아가, 본 발명에 따른 입력 데이터에 포함된 정보를 추출하여 사용자에 의 하여 설정된 이슈를 분석하여 관리하는 이슈 분석 시스템은, 하나 이상의 입력 방식의 데이터를 수집하고 입력하기 위하여 필요한 정보를 저장하여 관리할 수 있도록 제공되는 각 데이터의 입력 방식에 따라 분류된 라이브러리와 상기 데이터 입력 방식에 따른 상기 라이브러리를 관리하고 상기 데이터의 수집에 필요한 데이터 입력 툴을 제공하는 데이터 입력 클라이언트를 더 포함하는 것을 특징으로 한다.

또한, 상기 핵심어 분석 모듈 및 핵심 이미지 분석 모듈에서 필요한 정보를 저장하여 관리하고, 상기 이슈 데이터를 이용하여 사용자에 의하여 요구되는 이슈 데이터 리포트를 제공하는 이슈 데이터 관리 클라이언트를 더 포함하여 이루어지는 것을 특징으로 한다.

한편, 본 발명의 목적을 달성하기 위하여, 본 발명에 따른 다양한 형식의 데이터로부터 이슈 분석을 위한 이슈 데이터를 생성하는 방법은, 입력된 데이터를 분리하여, 텍스트 데이터, 이미지 데이터, 및 입력 데이터의 작성 정보를 포함하는 메타 데이터를 생성하는 데이터 분리 단계와; 상기 텍스트 데이터의 의미소별 빈도 분석 결과에 의하여 핵심어 분석 결과를 산출하는 핵심어 분석 단계와; 상기 이미지 데이터를 분석하여 핵심 이미지 분석 결과를 산출하는 핵심 이미지 분석 단계와; 상기 핵심어 분석 결과 및 핵심 이미지 분석 결과에 상기 메타 데이터를 결합함으로써 이슈 데이터를 생성하는 이슈 데이터 생성 단계; 및 상기 이슈 테이터를 이슈 데이터 베이스에 저장하는 단계를 포함하여 이루어지는 것을 특징으로 한다.

바람직하게는, 상기 핵심어 분석 단계는, 상기 텍스트 데이터를 띄어쓰기 기준으로 어절을 분리하여 조사 및 동사어미와 단어를 분리하는 형태소 분석 단계와, 전자 사전과 대조하여 상기 조사와 어미가 분리된 단어로 부터 의미 단위인 의미소를 추출하여 의미소별 빈도수를 산출하고 상기 의미소의 빈도수와 의미소별로 기 설정된 가중치에 의하여 의미소별 빈도 분석 결과를 산출하는 의미소 분석 단계와, 상기 의미소별 빈도 분석 결과를 핵심어 저장 데이터 베이스에 저장하는 의미소별 빈도 분석 결과 저장 단계를 포함한다.

또한, 바람직하게는, 의미소별 빈도 분석 결과 저장 단계는 상기 의미소별 빈도 분석 결과가 1보다 큰 경우에 한하여 의미소별 빈도 분석 결과를 저장한다.

나아가, 바람직하게는, 핵심 이미지 분석 단계는, 상기 이미지 데이터로부터 이미지의 형상을 추출하여 추출된 이미지의 형상을 핵심 이미지 데이터베이스에 저장된 이미지와 대조하여 핵심 이미지 데이터베이스에 동일한 이미지가 저장되어 있는 지 여부를 판단하는 단계와 이미지의 색상에 따라, 이미지의 의미 유효성을 판단하는 단계를 포함한다.

또한, 핵심 이미지 데이터 베이스에 동일한 이미지가 저장되어 있는 경우, 해당 이미지의 이미지 키워드의 카운트를 증가하여 핵심 이미지 데이터 베이스에 이미지 분석 결과를 업데이트한다.

한편, 핵심 이미지 데이터 베이스에 동일한 이미지가 저장되어 있지 않은 경우, 이미지 데이터에 얼굴이 포함되어 있는 지를 판단하고, 얼굴이 포함되어 있는 경우, 동일한 인물 이미지가 핵심 이미지 데이터 베이스에 저장되어 있는지 여부를 판단하여 동일 인물 이미지가 저장되어 있으면, 해당 인물 이미지의 키워드의 카운트를 증가하여 핵심 이미지 데이터 베이스에 이미지 분석 결과를 업데이트한다.

나아가, 다양한 형식의 데이터로부터 이슈 분석을 위한 이슈 데이터를 생성하는 방법은, 입력된 데이터는 RSS 가입방식, URL 입력 방식 및 파일 업로드 방식의 중의 하나 이상의 방식으로 입력되는 것을 특징으로 한다.

또한, 상기 이슈 데이터를 제공받아 사용하는 이슈 데이터 사용 업체의 업체 정보, 입력된 데이터의 데이터 작성 정보, 핵심어 정보 및 핵심 이미지 정보를 포함하며, 이슈 데이터 사용 업체의 설정에 따라 이슈 데이터로부터 이슈 리포트를 생성하여 제공하는 것을 특징으로 한다.

상기와 같은 본 발명에 의하면, 다양한 방식의 입력 데이터로부터 핵심어 및 핵심 이미지를 추출을 통해 이슈를 사전에 분석함으로써 데이터의 형식에 제한 없이 다양한 입력 데이터에 포함된 정보를 추출하여 사용자에 의하여 설정된 이슈를 분석하여 관리하는 것이 가능하게 된다.

또한, 다양한 데이터 입력 방식에 대응하여 용이하게 다양한 매체로부터 입력 데이터를 입수할 수 있으며, 사용자의 요구 또는 상황의 변화에 따라 입력 데이터의 입수 경로를 용이하게 변경하여 정확도와 신뢰성이 높게 이슈를 분석하여 관리할 수 있게 된다.

나아가, 이슈 분석에 필요한 정보를 사용자의 필요나 상황에 따라 용이하게 변경하여 업데이트하는 것이 가능하여 보다 정확한 이슈 분석 결과를 얻을 수 있다. 또한, 생성된 이슈 데이터를 용이하게 가공하여 사용자의 다양한 요구를 만족 시킬 수 있는 형태의 이슈 분석 리포트를 제공할 수 있다.

따라서, 본 발명이 적용된 이슈 분석 시스템 및 이를 이용한 이슈 데이터 제공방법을 사용하는 공공기관과 기업은 막대한 심리적ㅇ경제적 손실을 가져오는 위기와 갈등 상황을 미연에 방지할 수 있게 된다.

아울러, 본 발명을 위기관리, 갈등관리, 브랜드관리, 명성관리에까지 폭 넓게 사용할 수 있으며, 공공기관은 상시적으로 여론을 수렴하여 상생과 소통의 정치에 본 발명을 활용할 수 있다.

또한, 본 발명은 리서치 기관에서는 온라인 기반의 정성 조사를 대체할 수 있어 새로운 형태의 리서치 툴로써도 활용 가능하여, 사회과학에서 광범위하게 쓰이는 내용분석(Content Analysis)의 툴로도 적용 가능하다.

본 발명의 실시 형태를 설명하기에 앞서 본 명세서상에 기술된 내용의 명확한 이해를 돕기 위하여 먼저 사용되는 데이터와 관련된 용어를 간단히 설명한다.

본 명세서에서 사용되는 입력 데이터란 사용자가 입력하는 RSS, URL, 파일로부터 추출되는 뉴스 기사, 블로그 게시물 등을 총칭하여 데이터라 지칭한다. 데이터로부터 분리되는 메타 데이터는 데이터에 대한 정보의 세트로 출처, 제목, 작성자, 작성일, 저작권자, 데이터 타입등의 하나 이상으로 이루어지는 데이터의 정보를 포함한다. 데이터 타입은 텍스트, 텍스트와 이미지 혼합, 이미지로 분류된다.

이슈 데이터란 메타 데이터에 이슈 분석 결과 즉, 핵심어 분석 결과 및/또는 핵심 이미지 분석 결과가 더해진 데이터를 지칭한다. 실시 형태에 따라서는 도8에 도시된 바와 같이, 업체정보, 데이터 정보, 핵심 이미지 정보와 핵심어 정보의 위 계 구조로 데이터 베이스에 저장될 수 있다.

또한, 핵심어란 데이터 내에서 출현 빈도가 높은 단어가 핵심어라고 칭하며, 이슈의 기본 구성 요소이다. 형태소란 문장의 형태를 이루는 최소단위로 정의 된다. 또한 의미소란 형태소중 의미를 이루는 최소단위로 형태소중 조사와 어미를 제외한 단어를 지칭한다.

핵심 이미지란 이슈의 구성 요소가 될 수 있는 의미의 유효성을 가진 이미지를 핵심 이미지라 정의되며, 포토 게시판의 활성화와 패러디의 유행, 포토 뉴스의 등장 등으로 단어와 분리되어 그 자체로 이슈를 생성하는 이미지가 많아짐에 따라 핵심이미지는 핵심어와 분리하여 관리할 필요가 있다.

또한, 본 명세서에서 사용되는 핵심어, 핵심 이미지는 사용자의 선택 또는 설정에 의하여 핵심어 또는 핵심 이미지(인물 이미지 포함)의 키워드를 통해 분석을 요하는 이슈의 구성요소가 되거나, 그 자체가 이슈가 되어 사용되며, 경우에 따라서는 상기 용어들을 구분하지 않고 혼용하여 사용될 수 있다.

이하, 본 발명의 실시 형태를 첨부된 도면을 참조하여 구체적으로 설명한다.

도1은 본 발명의 일 실시 형태에 따른 이슈 분석 시스템의 개략적인 구성을 나타내는 구성도이다.

본 발명의 일 실시 형태에 따른 이슈 분석 시스템(100)은 기본적으로 입력 데이터를 처리하여 이슈 데이터를 생성하는 이슈 분석부와 이슈 분석부에서 생성된 이슈 데이터를 저장하는 이슈 분석 데이터베이스로 구성된다.

또한, 실시 형태에 따라서는 본 발명의 이슈 분석 시스템(100)에는 다양한 입력 방식을 지원하는 데이터 입력 클라이언트(200) 및/또는 이슈 데이터 클라이언트(300)가 추가되어 구성될 수 있다.

도2는 본 발명의 일 실시 형태에 따른 기본적인 이슈 분석 시스템(100)의 구조을 나타내는 구조도이다.

도2를 참조하여 설명하면, 상기 이슈 분석 시스템(100)은 먼저 데이터 입력 시스템을 통해 입력된 데이터를 텍스트 데이터, 이미지 데이터, 및 메타 데이터로 분리하는 데이터 분리부(110)와 텍스트를 분석하는 핵심어 분석 모듈(120), 이미지를 분석하는 핵심 이미지 분석 모듈(130)과 이슈 데이터 생성부(140)의 이슈 분석 부분과 이슈 데이터베이스(150)로 구성된다.

도5(a) 및 도5(b)는 데이터 분리부(110)를 설명하기 위한 설명도이다.

도5(a) 및 도5(b)를 참조하면, 데이터 분리부(110)는 이슈 분석을 위하여 입력된 입력 데이터를 분리하여, 텍스트 데이터, 이미지 데이터, 및 상기 입력 데이터의 작성 정보를 포함하는 메타 데이터를 생성하는 역할을 한다. 실시 형태에 따라서는, 상기 입력 데이터는 데이터 입력 시스템(200)으로부터 입력될 수 있다. 하나의 뉴스 기사 내에 텍스트와 이미지가 동시에 존재할 경우, 데이터 분리부(110)는 기사 내에 있는 텍스트와 이미지를 분리하여 텍스트 데이터는 핵심어 분석 모듈(120)로, 이미지 데이터는 핵심 이미지 분석 모듈(130)로 송출한다.

예를 들어, 도5(a)와 같은 기사를 분석하기 위해서는 먼저 텍스트 데이터와 이미지 데이터를 분리하는 작업이 필요하며, 이러한 분리 작업을 데이터 분리부(110)에서 행한다. 또한, 도(b)에서와 같이, 데이터 분리부(110)는 입력 데이터에서 분리한 텍스트 데이터에서 제목, 입력 년, 월, 시, 분, 초등 작성일시, 미디어명, 작성자명, 저작권 정보등의 정보는 메타 데이터화하여, 데이터 정보를 포함하는 메타 데이터를 생성하고, 실제 분석에 필요한 기사 제목과 본문만을 추출하여 텍스트 데이터를 생성하여 핵심어 분석 모듈로 전달한다. 제목과 본문의 가중치를 달리하는 실시 형태의 경우에는, 텍스트 데이터에는 분리된 텍스트 부분이 제목인지 본문인지를 구별할 수 있는 정보가 포함된다. 데이터 정보를 포함하는 메타 데이터는 이슈 데이터 생성을 위하여 이슈 데이터 생성부(140)으로 전달된다. 또한, 데이터 분리부(110)에서 입력 데이터를 분리하여 생성한 이미지 데이터는 핵심 이미지 분석을 위하여 핵심 이미지 분석 모듈(130)로 전달된다.

도7(a) 내지 (d)는 핵심어 분석 모듈(120)의 일 실시 형태에 따른 구성과 기능을 설명하기 위한 설명도이다.

도2 및 도7(a) 내지 (d)를 참조하면, 핵심어 분석 모듈(120)은, 형태소 분석부(121), 의미소 분석부(122), 전자 사전(123), 가중치 관리 툴(124), 및 핵심어 저장 데이터 베이스(125)로 구성된다.

형태소 분석부(121)는 데이터 분리부(110)에서 전달받은 텍스트 데이터를 어절로 분리하며 분리된 어절을 조사 및 동사어미와 단어로 분리하여 의미소 분석부(122)에 전달한다. 구체적으로는 먼저, 데이터 분리부에서 송출된 텍스트의 띄어쓰기를 자동 교정할 수 있으며, 띄어쓰기 기준으로 어절을 분리한다, 예를 들어, 도5(b)의 기사에서 분리된 텍스트 데이터의 경우에는, 아래와 같이 어절이 분리될 수 있다.

'눈물/맺힌/마지막/경례'/
김XX/서울지방경찰청장이/12일/오후/서울/적선동/서울지방경찰청사에서/열린/자신의/퇴임식에서/경찰/직원들의/경례를/받고/있다./경찰/마스코트인/'포돌이'를/창안하기도/한/김XX/서울경찰청장은/경찰청장에/내정됐으나/용산/참사에/대해/도의적인/책임을/지고/자진/사퇴했다.

텍스트 데이터의 어절이 분리되고 나면, 조사 및 동사어미와 단어를 분리한다. 이와 같은 어절 내지 단어의 분리 및 조사 내지 동사어미의 분리는 도7(b) 및 도7(c)와 같이 함수의 형태로 구현될 수 있다.

의미소 분석부(122)는, 분리된 단어를 전자 사전(121)과 대조하여 의미를 가지는 의미 단위인 의미소를 추출하게 되며, 상기 의미소에 해당하는 단어의 사용 빈도수를 산출하는 의미소별 빈도 분석을 행한다. 이어, 의미소 분석부(122)는 사용자에 의하여 기 설정된 단어별 가중치와 단어의 사용 빈도수에 의하여 의미소별 빈도 분석 결과를 산출하게 된다.

구체적으로는 먼저, 전자사전과 대조하여 의미 단위인 의미소를 추출한다. 온라인 블로그에 사용되는 신조어, 은어 등 전자 사전에 해당 단어가 존재하지 않는 경우에는 별도 단어로 분류하여, 사용자에게 해당 단어를 전자사전에 추가할 것인지를 여부를 물어, 사용자가 승인할 경우 해당 단어를 전자 사전에 추가할 수 있도록 구성할 수도 있다. 단어의 추가등 전자 사전의 관리는 이슈 데이터 관리 클라이언트(300)이 추가되는 경우 이슈 데이터 관리 클라이언트(300)의 이슈 데이터 관리부(320)를 통해 행하여진다. 또한, 복합명사의 경우에는 복합명사 및 복합명사를 이루는 개별명사를 각각 나눈다. 예를 들어, "서울지방경찰청사"의 경우 "서울지방 경찰청사", "서울", "지방", "경찰", "경찰청", "경찰청사"로 의미소가 추출된다.

이어, 의미소 분석부(122)는 의미소에 해당하는 단어의 의미소별 사용 빈도수를 산출하고, 가중치 관리 툴(124)과 대조하여 사용 빈도수와 가중치에 의하여 의미소별 빈도 분석 결과를 산출한다. 상기 가중치는 가중치 관리 툴을 통해 사용자가 미리 설정, 변경등 관리하는 것이 가능하다. 가중치의 설정, 변경은 이슈 데이터 관리 클라이언트(300)이 추가되는 경우, 이슈 데이터 관리 클라이언트(300)의 이슈 데이터 관리부(320)를 통해 행하여진다. 예를 들어, 예를 들어, 가중치 설정은 다음과 같은 원칙을 적용할 수 있다.

1) 제목에 사용되는 단어는 10의 가중치를 둔다.
2)'도의적 책임'은 '개인의 양심이나 사회적 통념에 의한 윤리적인 책임'이라는 별도의 법률적 의미를 가지므로 하나의 단어로 처리, 가중치를 8로 둔다.
3) 부정적 의미를 포함할 가능성이 높은 단어인 '참사'는 가중치를 5로 둔다.

위의 예와 같이 가중치가 설정된 경우, 도5(b)의 기사에서 분리된 텍스트 데이터의 의미소별 빈도 분석 결과는 다음과 같이 나올 수 있다.

경례(11) 눈물(10) 마지막(10)
도의적 책임(8) 참사(5) 경찰(5)
서울(4)
경찰청(3)
김XX(2) 지방(2) 경찰청장(2)
서울지방경찰청장(1) 12일(1) 오후(1) 적선동(1) 서울지방경찰청사(1) 자신(1) 퇴임식(1) 직원(1) 마스코트(1) '포돌이'(1) 창안(1) 서울경찰청장(1) 내정(1) 용산(1) 자진(1) 사퇴(1)

이와 같이 추출된 텍스트 데이터의 의미소별 빈도 분석 결과는 핵심어 저장 데이터 베이스(125)에 저장된다. 핵심어 저장 데이터 베이스(125)에는 각 단어별 빈도 정보가 (핵심어인) 단어별 테이블의 형태로 저장되는 구조이다. 따라서, 핵심어 저장 데이터 베이스에 핵심어로 이미 존재하는 단어의 경우 상기 빈도 분석 결과를 이미 존재하는 카운트를 추가하는 방법으로 해당 빈도 정보를 업데이트하고, 상기 핵심어 저장 데이터 베이스에 존재하지 않는 단어의 경우 새로운 핵심어 테이블을 생성하여 신규 핵심어로 추가 하고 빈도 분석 결과를 저장하게 된다. 이와 같은 기능은 도7(c)와 같이 함수의 형태로 구현될 수 있다.

이어, 핵심어 분석 결과는 이슈 데이터 생성부(140)로 송출되어 데이터 분리부(110)에서 생성된 메타 데이터와 결합되어 이슈 데이터를 생성한다.

도8(a) 내지 (c)는 핵심 이미지 분석 모듈(130) 일 실시 형태에 따른 구성과 기능을 설명하기 위한 도면이다.

도2 및 도8(a) 내지 (c)를 참조하면, 핵심 이미지 분석 모듈(130)은 형상 분석부(131), 얼굴 인식부(132), 유사 인물 검색부(133), 컬러 분석부(134) 및 핵심 이미지 저장 데이터 베이스(135)로 구성된다.

형상 분석부(131)는 데이터 분리부(110)에서 전달받은 이미지 데이터의 형상을 추출하여, 추출된 이미지의 형상을 핵심 이미지 데이터 베이스(135)에 저장된 이미지와 대조하여, 데이터 분리부에서 전달 받은 이미지와 동일한 이미지가 핵심 이미지 데이터 베이스(135)에 존재하는가 여부를 판단한다.

판단 결과, 해당 이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있으면, 해당 핵심 이미지에 대하여 이미지 키워드가 등록되어 있는지 여부를 판단하고, 이미지 키워드가 등록되어 있는 경우 핵심 이미지 데이터 베이스(135)에 이미지 분석 결과를 업데이트하는 동시에 컬러 분석부(134)로 이미지를 송출한다. 예를 들어, 이미지의 형상 분석을 통해 도5(a)에서 분리된 이미지와 동일한 이미지가 핵심 이미지 데이터 베이스에 저장되어 있고, 상기 이미지에 "김XX청장2" 라고 이 미지 키워드가 매치되어 있는 경우, "김XX청장2"라는 이미지 키워드의 카운트를 증가 시키는 방법으로 이미지 분석 결과를 업데이트 하게 된다.

이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있지만, 이미지 키워드가 등록되어 있지 않은 경우에는 예를 들어,"무제n"으로 이미지 키워드를 임시 등록하고 이슈 데이터 관리 클라이언트(300)를 통해 사용자에 이미지 키워드 등록 요청을 하는 동시에 컬러 분석부(134)로 이미지를 송출한다. 키워드 등록을 요청 받은 사용자는 해당 이미지가 이슈에 해당하는 이미지일 경우 키워드를 등록하며, 이슈에 해당하지 않을 경우 키워드 등록을 거부하게 될 것이다. 사용자가 이미지 키워드 등록을 거부하면, 해당 이미지는 핵심 이미지 데이터 베이스(135)에서 삭제된다.

여기서, 사용자의 '이미지의 이슈 여부 판단' 즉, 핵심 이미지로의 등록 여부의 판단은 분석 후 프로세스로 사용자가 '이미지의 이슈 여부 판단'을 하지 않아도 모든 이미지는 컬러 분석부로 송출되어 이미지의 의미 유효성을 판단하도록 구성되며, 이는 데이터 작성자의 실수 혹은 문서 오류로 인한 흰 박스, 검은 박스 등이 중복 출현해 핵심 이미지로 인식되는 경우를 예방하기 위함이며, 또한 악성 바이러스, 해킹 등 공격에 의해 동일한 포르노, 공포 사진 등이 침투한 경우에 핵심 이미지로 인식되는 경우를 예방하기 위한 것이다.

이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있지 않은 경우에는 해당 이미지를 얼굴 인식부(132)로 전달한다. 얼굴 인식부(132)는 이미지의 형상을 분석하여 이미지에 인물의 얼굴이 포함되어 있는지 여부를 판단한다.

이미지에 얼굴이 포함되어 있는 것으로 판단되면, 상기 이미지를 유사 인물 검색부(133)으로 전달하고, 유사 인물 검색부(133)는 이목구비 분석을 통해 동일한 인물의 이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있는지 여부를 판단하며, 동일한 인물의 이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있으면, 상기 이미지에 대하여 자동 키워드 등록 후 해당 키워드에 카운트 하고, 상기 인물의 이미지를 핵심 이미지 데이터 베이스에 추가하는 동시에 컬러 분석부(134)로 이미지를 송출한다. 예를 들어, 이목구비의 일치도가 99.3% 이상인 경우, 동일인물로 판단해 '이름직함n'으로 자동 키워드 등록 후 해당 키워드에 카운트 하고, 해당 인물 사진을 핵심 이미지 데이터 베이스에 추가한다.

동일한 인물의 이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있지 않으면, 예를 들면, 이목구비의 일치도가 99.3% 미만인 경우, 동일한 인물의 이미지가 저장되어 있지 않은 것으로 판단하고, '인물n'으로 이미지 키워드를 임시 등록하고 이슈 데이터 관리 클라이언트(300)를 통해 사용자에 키워드 등록 요청을 하는 동시에 컬러 분석부(134)로 이미지를 송출한다. 사용자는 해당 인물이 이슈에 해당할 경우, 예를 들면,'이름직함n'의 순서로 키워드를 등록하고 해당 인물 사진을 핵심 이미지 데이터 베이스에 신규 인물사진으로 추가한다. 사용자가 해당 인물이 이슈에 해당하지 않는다고 판단하여 키워드 등록을 거부할 경우, 핵심 이미지 데이터 베이스(135)에 저장하지 않고 해당 이미지를 삭제한다.

여기서, 사용자의 '인물사진의 이슈 여부 판단' 즉, 인물사진 또는 인물의 이미지의 핵심 이미지로의 등록 여부의 판단은 분석 후 프로세스로 사용자가 '인물 사진의 이슈 여부 판단'을 하지 않아도 모든 이미지는 컬러 분석부(134)로 송출되어 이미지의 의미 유효성이 판단되게 된다. 이는 데이터 작성자의 실수 혹은 문서 오류로 인한 흰 박스, 검은 박스 등이 중복 출현해 핵심 이미지로 인식되는 경우를 예방하기 위함이며, 또한 악성 바이러스, 해킹 등 공격에 의해 동일한 포르노, 공포 사진 등이 침투한 경우에 핵심 이미지로 인식되는 경우를 예방하기 위한 것이다. 이미지에 얼굴이 포함되어 있지 않은 것으로 판단되면 해당 이미지를 컬러 분석부(134)로 송출하여 이미지의 의미 유효성을 판단한다.

컬러 분석부(134)는 상술한 바와 같이, 형상 분석부(131), 얼굴 인식부(132), 유사 인물 검색부(133)에서 분석되고 전달된 모든 이미지에 대하여 컬러를 분석한다. 컬러의 분석은 이미지의 색상 분포 정도에 따라, 의미의 유효성을 판단하는 것이다. 컬러의 분석은 도8(a)에서와 같이 픽셀 단위로 이미지를 분할 하는 단계, 분할된 이미지를 픽셀로 2차원 배열하는 단계, 색 근접도에 따라 색상별 픽셀의 개수를 등록하는 단계 및 색상에 따라 이미지의 의미 유효성을 구분하는 단계의 순서로 행하여 진다. 이와 같은 컬러의 분석을 통한 이미지의 의미 유효성 판단은 도8(c)와 같은 함수의 형태로 구현될 수 있다.

컬러 분석부(134)에서 픽셀 단위로 이미지를 분할 하는 단계, 분할된 이미지를 픽셀로 2차원 배열하는 단계, 색 근접도에 따라 색상별 픽셀의 개수를 등록하는 단계를 거친 이미지에 대한 색상 분석 결과는 이슈 컨설턴트등 이슈를 관리하는 사용자에게 전달되어, 사용자에 의하여 컬러의 분석을 통한 이미지의 의미 유효성을 판단하도록 구성될 수 있으며, 실시 형태에 따라서는 설정에 따라 이미지의 의미 유효성을 자동적으로 판단도록 구성될 수도 있다. 특히, 예를 들면, 상술한 바와 같은 판단 의미 대상이 되는 이미지가 단순한 데이터 작성자의 실수 혹은 문서 오류로 인한 흰 박스, 검은 박스 등의 자동 분류가 가능한 경우에는 자동 설정에 따라 이미지의 의미 유효성을 자동적으로 판단하는 것이 바람직하다. 또한, 실시 형태에 따라서는 이미지의 의미 유효성 판단의 기준과 이슈와 관련된 이미지의 종류 형태에 따라, 사용자에 의하여 컬러의 분석을 통한 이미지의 의미 유효성을 판단과 자동 설정에 의한 이미지의 의미 유효성을 판단을 병행하여 행할 수도 있다.

이미지의 컬러 분석을 통한 이미지의 의미 유효성 판단의 기준은 이슈 데이터 관리 클라이언트(300)에서 사용자가 미리 설정하거나 변경할 수 있다. 예를 들어, 사용자는 N잡지에 실린 1970년대 중국 사진과 2000년대 중국 사진 비교 결과 1970년대에 실린 중국 사진에는 원색, 그 중에도 붉은 색이 많이 사용되었고 2000년대 중국 사진에는 회색 컬러 분포가 높다면, 1970년대에는 이데올로기가 2000년대에는 급격한 산업화로 인한 환경오염이 주요 이슈로 등장한 것으로 분석하여, 이미지가 의미 유효성이 있는 것으로 설정할 수 있다.

또한, 예를 들면, A 정당 관련 이미지에서 2007년에는 파란색(#0095d)의 분포가 8%, 녹색(#bde283)의 분포가 1.5%였으나, 2008년에는 파란색(#0095d)의 분포가 5%, 녹색(#bde283)의 분포가 11%로 급증했다면 녹색(#bde283) 분포의 상승을 유의미하다 판단하여 2007년에는 A 정당의 정치/선거활동이 주요 이슈였으나, 2008년에는 녹색성장 관련 A 정당의 정책 혹은 A 정당의 자연친화적 활동이 핵심 이슈로 부각되었다고 분석할 수 있다.

이슈 데이터 생성부(140)는, 상술한 바와 같이 상기 데이터 분리부(110)으로부터 상기 입력 데이터의 메타 데이터를 전달받고, 상기 핵심어 분석 모듈 및 핵심 이미지 분석 모듈로부터 핵심어 분석 결과 및 핵심 이미지 분석 결과를 전달받아, 각 분석 결과와 메타 데이터를 결합하여 이슈 데이터를 생성하며, 이슈 데이터 베이스(150)에 이를 저장하여 관리하게 된다. 이슈 데이터는 메타 데이터에 포함된 데이터 정보와 위 핵심어 분석 결과가 업데이트된 핵심어 정보와 위 핵심 이미지 분석 결과가 업데이트된 핵심 이미지 정보의 조합의 형태를 가지게 된다.

도9는 이슈 데이터 베이스(150)에 저장되는 이슈 데이터의 위계 구조를 나타내는 설명도이다. 도8을 참조하면, 이슈 데이터는 이슈 데이터 관리 서비스를 이용하는 사용자 업체 정보의 하위에 데이터 정보와 그 하위의 핵심어 정보 및 핵심 이미지 정보로 이루어진다. 후술하는 이슈 리포트는 이슈 데이터 베이스에 저장된 정보 및/또는 실시간으로 생성되는 이슈 데이터를 이용하여 이슈 데이터 관리 클라이언트(300)의 이슈 데이터 리포트 관리부(310)의 설정에 따라 도11 (a) 내지 (c)과 같은 다양한 형태의 이슈 리포트가 생성되어 제공된다.

상술한 바와 같이, 본 발명에 따른 이슈 분석 시스템은 추가적으로 데이터 입력 클라이언트(200) 및 이슈 데이터 관리 클라이언트(300)을 포함하여 구성될 수 있다. 데이터 입력 클라이언트(200) 및 이슈 데이터 관리 클라이언트(300)는 웹사이트 형태 혹은 어플리케이션 형태로 제공되어 서비스가 가능하며, 이들은 하나의 웹사이트(혹은 어플리케이션)형태로 제공될 수도 있고 각 각 별개의 웹사이트(혹은 어플리케이션)형태로 제공될 수도 있다.

도3은 본 발명에 따른 데이터 입력 클라이언트(200)의 구성을 나타낸 구성도이다.

도2 및 도3을 참조하면, 데이터 입력 클라이언트(200)는 사용자가 분석하기를 원하는 입력 데이터, 예를 들면, 뉴스 사이트, 인터넷 게시판, 블로그, 커뮤니티, 또는 문서 파일등을 입력하는 시스템으로, 사용자가 분석 하기를 원하는 다양한 입력 방식의 입력 데이터를 수집하고 입력하기 위하여 필요한 정보를 저장하여 관리할 수 있도록 제공되는 각 데이터의 입력 방식에 따라 분류된 라이브러리와 상기 데이터 입력 방식에 따른 상기 라이브러리를 관리하고 상기 데이터의 수집에 필요한 데이터 입력 툴을 제공한다.

도3의 실시형태의 경우에는 데이터 입력 클라이언트(200)는 RSS 가입 방식과 URL 입력 방식, 파일 업로드 방식을 지원한다. 사용자는 데이터 입력 클라이언트(300)를 통해 지원하는 RSS 리더기와 URL 관리 툴, 파일 업로드 툴을 통해 직접 데이터 라이브러리를 관리할 수 있다. 데이터 입력 클라이언트는 웹사이트 형태 혹은 어플리케이션 형태로 서비스 가능하다.

데이터의 입력 방식으로 RSS 가입 방식이 사용되는 경우, 데이터 입력 클라이언트(200)은 RSS 리더기를 기본적으로 지원하는 것으로 한다. 따라서 사용자가 분석을 원하는 뉴스 사이트 혹은 포탈의 뉴스 검색에서 지원하는 RSS 피드에 가입하면 데이터 입력 시스템에 포함된 RSS 리더기가 해당 인터넷 뉴스를 이슈 분석 시스템으로 전송하여 인터넷 뉴스의 이슈를 실시간으로 분석할 수 있다. RSS피드 가입의 개수에 이론적인 한계는 없으나 서비스 효율화 측면에서 최대 100개의 RSS 피 드 가입이 가능한 것으로 그 수를 제한할 수도 있다. 예를 들어, '4대강'와 관련된 인터넷 뉴스 이슈를 분석하고 싶다면, 포탈의 뉴스 검색 키워드를 '4대강'으로 설정 후 RSS 피드에 가입하거나, 국내ㅇ외 뉴스 사이트의 RSS 피드에 가입 후 키워드를 '4대강'으로 설정하면, 데이터 입력 클라이언트에 포함된 RSS 리더기를 통해 해당 사이트에서 관련 뉴스를 구독하여 실시간으로 이슈를 관리할 수 있다. 단, 뉴스 콘텐츠에 대한 언론사의 저작권을 침해하지 않기 위해 이슈분석 시 뉴스 콘텐츠는 저장하지 않고, 이슈 분석에 필요한 정보만을 추출한 메타 데이터 형식으로 저장하는 것이 바람직하다.

참고로, RSS는 Really Simple Syndication의 머리글자를 딴 말이며, 사이트에 새로 올라온 글을 쉽게 구독할 수 있도록 하는 일종의 규칙이다. 사이트에서는 바뀐 내용, 새로운 글을 RSS라는 규칙에 따라 제공하면 이용자는 RSS리더기로 그 내용을 받아올 수 있다. RSS는 사이트에서 제공하는 RSS주소를 리더기에 입력하기만 하면 사용자가 일방적으로 내용을 긁어오므로 이메일 뉴스레터 등과 차이가 있다.

또한, 데이터의 입력 방식으로 URL 입력 방식이 사용되는 경우, 사용자가 분석을 원하는 인터넷 게시판, 블로그, 커뮤니티 등의 URL을 입력하면 데이터 입력 클라이언트이 해당 URL에 등록된 정보를 실시간으로 분석할 수 있다. 여러 개의 URL을 동시에 입력하여 관리 가능하며, 이론적으로 URL 개수의 한계는 없으나 서비스 효율화 측면에서 최대 100개의 URL을 입력하는 것으로 그 수를 제한할 수 있다. 예를 들어, '댄스'와 관련된 블로그 이슈를 분석하고 싶다면, http://blog.naver.com/dance, http://blog.daum.net/dance등 '댄스' 파워블로거가 운영하는 블로그 URL을 입력하여 이슈를 관리할 수 있다. 단, 블로그 게시물에 대한 개인의 저작권을 침해하지 않기 위해 이슈분석 시 블로그 게시물은 저장하지 않고, 모든 이슈 데이터는 원본 데이터에서 이슈 분석에 필요한 정보만을 추출한 메타 데이터 형식으로 저장하는 것이 바람직하다.

데이터의 입력 방식으로 파일 업로드 방식을 사용하는 경우에는, 사용자가 분석을 원하는 데이터가 doc, hwp, pdf 등의 문서 방식으로 존재한다면, 사용자는 파일 업로드를 통해 데이터의 이슈를 분석할 수 있다. 이론적으로 업로드 가능한 파일 개수의 한계는 없으나 서비스 효율화 측면에서 1회 당 최대 2G의 파일을 업로드할 수 있는 것으로 제한 할 수있다. 이 경우에도 만일 10G에 해당하는 파일을 분석하고 싶다면 2G씩 나누어 5회의 분석을 시도하면 된다.

도10 (a) 내지 도10(c)는 데이터 입력 클라이언트(200)의 웹 사이트의 구성부 형태로 구현된 경우의 캡쳐화면으로, 각각 RSS 입력 방식, URL 입력방식, 파일 업로드 방식에 따라, 좌측 상단부에 메뉴로 분류되어 있으며, 이에 따라, 분류되어 관리되는 라이브러리가 각각 화면에 디스플레이되어 있다.

도4는 본 발명에 따른 이슈 데이터 관리 클라이언트(300)의 구성을 나타낸 구성도이다.

도2 및 도4을 참조하면, 이슈 데이터 관리 클라이언트(300)는 본 발명에 따른 이슈 분석 시스템을 이용하여 생성된 이슈 데이터를 이용하여 사용자가 원하는 내용과 방식의 이슈 분석 리포트를 제공하는 이슈 데이터 리포트 관리부(310)과 입 력 데이터를 분석하여 필요한 정보, 예를 들어, 전자 사전관리부, 가중치 관리부, 컬러 유효성 관리부, 이미지 키워드 관리부, 인물 사진 관리부등을 포함하여 이슈 분석 시스템(100)과 이슈 데이터 생성 과정과 연동되어 이들의 설정, 변경, 관리하는 이슈 데이터 관리부(320)로 구성된다. 이슈 데이터 관리부(320)의 각 구성부는 이슈 분석 시스템의 실시 형태에 따라 가감될 수 있다.

도11(a)내지(c) 이슈 데이터 관리 클라이언트(200)가 데이터 입력 클라이언트(200)와 함께 웹 사이트의 구성부 형태로 구현된 경우의 캡쳐화면으로, 이슈 분석 리포트를 사용자의 선택에 의하여 핵심어 리포트, 핵심 이미지 리포트, 기간별 리포트이 형태로 제공하고 있다. 물론, 이슈 분석 리포트는 이슈 데이터 관리 클라이언트(200)가 이슈 분석 시스템(100)과 연동되어 실시간으로 즉, 이슈 데이터의 생성 동시에 생성되거나 업데이트되도록 구성될 수 있으며, 또는 특히, 기간별 리포트의 경우에는 이슈 데이터 베이스(150)에 저장되어 있는 해당 이슈 데이터를 전달받아 생성될 수도 있다.

도11(a) 내지 (c)의 화면 상단 우측에는 이슈 데이터 관리부(320)이 구성되어 있다. 본 실시 형태의 경우 전자사전 관리, 가중치 관리, 이미지 키워드 관리의 구성부만을 포함한 경우의 예시 화면으로, 실시 형태에 따라서는 필요에 따라, 컬러 유효성 관리부, 이미지 키워드 관리부, 인물 사진 관리부등을 포함할 수 있음은 당연하다.

이하에서는, 첨부된 도면을 참조하여, 앞서 본 발명에 따른 이슈 분석 시스 템에 관한 실시 형태의 설명된 사항과 중복되지 않는 범위에서 본 발명에 따른 다양한 형식의 데이터로부터 이슈 분석을 위한 이슈 데이터를 생성하는 방법을 설명한다.

도6은 본 발명에 따른 이슈 데이터를 생성하는 방법의 기본적인 흐름도이다.

도6을 참조하면, 본 발명에 따른 이슈 데이터를 생성하는 방법은 기본적으로는 다양한 형식의 데이터로부터 이슈 분석을 위한 이슈 데이터를 생성할 수 있도록 각각 특징적인, 데이터 분리 단계(S10), 핵심어 분석 단계(S21), 핵심 이미지 분석 단계(S21), 이슈 데이터 생성 단계(S30), 이슈 데이터 베이스 저장 단계(S40)로 구성된다.

데이터 분리 단계(S10)는 입력된 데이터를 분리하여, 텍스트 데이터, 이미지 데이터, 및 입력 데이터의 작성 정보를 포함하는 메타 데이터를 생성한다.

핵심어 분석 단계(S21)에서는 생성된 텍스트 데이터의 의미소별 빈도 분석 결과에 의하여 핵심어 분석 결과를 산출한다.

세부적으로, 도7(a)의 흐름도를 참조하면, 핵심어 분석 단계(S21)은, 텍스트 데이터를 띄어쓰기 기준으로 어절을 분리하여 조사 및 동사어미와 단어를 분리하는 형태소 분석 단계와, 전자 사전과 대조하여 조사와 어미가 분리된 단어로부터 의미 단위인 의미소를 추출하여 의미소별 빈도수를 산출하고 의미소의 빈도수와 의미소별로 기 설정된 가중치에 의하여 의미소별 빈도 분석 결과를 산출하는 의미소 분석 단계와, 의미소별 빈도 분석 결과를 핵심어 저장 데이터 베이스에 저장하는 의미소별 빈도 분석 결과 저장 단계로 이루어진다. 또한, 실시 형태에 따라서는 핵심어 저장 데이터 베이스에 저장하는 단계에 있어서, 의미소별 빈도 분석 결과를 제한하여, 값이 1보다 큰 경우에 한하여 의미소별 빈도 분석 결과를 저장하도록 할 수도 있다.

핵심 이미지 분석 단계(S21)는 이미지 데이터를 분석하여 핵심 이미지 분석 결과를 산출한다.

도8(a)는 일 실시 형태에 따른 핵심 이미지 분석 단계(S21)의 세부 알고리즘을 설명하는 흐름도이다. 도8(b)는 동일한 이미지가 핵심 이미지 데이터 베이스에 존재하지 않는 경우 동일한 인물 이미지에 대하여, 핵심 이미지 분석 결과 산출하는 과정을 설명한 흐름도이다.

도8(a) 및 도8(b)를 참조하면, 핵심 이미지 분석 단계(S21)는 먼저, 이미지 데이터의 형상을 추출하여, 추출된 이미지의 형상을 핵심 이미지 데이터 베이스(135)에 저장된 이미지와 대조하여, 동일한 이미지가 핵심 이미지 데이터 베이스(135)에 존재하는가 여부를 판단하는 단계를 수행한다.

판단 결과, 해당 이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있으면, 해당 핵심 이미지에 대하여 이미지 키워드가 등록되어 있는지 여부를 판단하게 된다. 판단 결과, 이미지 키워드가 등록되어 있는 경우, 핵심 이미지 데이터 베이스(135)에 해당 이미지 키워드의 카운트를 증가 시키는 방법으로 이미지 분석 결과를 업데이트하고, 동시에 이미지의 컬러 분석을 통해 이미지의 색상에 따라, 이미지의 의미 유효성을 판단하는 단계를 수행한다.

이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있지만, 이미지 키워 드가 등록되어 있지 않은 경우에는 예를 들어,"무제n"으로 이미지 키워드를 임시 등록하고 사용자에게 이미지 키워드 등록 요청을 하고, 동시에 이미지의 색상에 따라, 이미지의 의미 유효성을 판단하는 단계를 수행한다. 키워드 등록을 요청 받은 사용자는 해당 이미지가 이슈에 해당하는 이미지일 경우 키워드를 등록하며, 이슈에 해당하지 않을 경우 키워드 등록을 거부하게 될 것이다. 사용자가 이미지 키워드 등록을 거부하면, 해당 이미지는 삭제된다.

이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있지 않은 경우에는,이미지의 형상을 분석하여 이미지 데이터에 얼굴이 포함되어 있는 지를 판단한다.

이미지에 얼굴이 포함되어 있는 것으로 판단되면, 이목구비 분석을 통해 동일한 인물의 이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있는지 여부를 판단하며, 동일한 인물의 이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있으면, 상기 이미지에 대하여 자동 키워드 등록 후 해당 키워드에 카운트 하고, 상기 인물의 이미지를 핵심 이미지 데이터 베이스에 추가하는 동시에 이미지의 컬러 분석을 통해, 이미지의 색상에 따라, 이미지의 의미 유효성을 판단하는 단계를 수행한다.

동일한 인물의 이미지가 핵심 이미지 데이터 베이스(135)에 저장되어 있지 않으면, 해당 이미지에 대한 이미지 키워드를 임시 등록하고 사용자에 키워드 등록 요청을 하는 동시에 이미지의 색상에 따라, 이미지의 의미 유효성을 판단하는 단계를 수행한다. 사용자가 해당 인물이 이슈에 해당하지 않는다고 판단하여 등록 요청을 거절할 경우, 핵심 이미지 데이터 베이스(135)에 해당 이미지를 저장하지 않 고 삭제한다.

이미지에 얼굴이 포함되어 있지 않은 것으로 판단되면 이미지의 컬러 분석을 통해, 색상에 따라 이미지의 의미 유효성을 판단하는 단계를 수행한다.

한편, 이미지의 색상에 따라, 이미지의 의미 유효성을 판단하는 단계는 이미지의 컬러의 분석에 의하여 행하여지며, 이미지의 색상 분포 정도에 따라, 의미의 유효성을 판단하는 것이다. 컬러의 분석은 도8(a)에서와 같이 픽셀 단위로 이미지를 분할 하는 단계, 분할된 이미지를 픽셀로 2차원 배열하는 단계, 색 근접도에 따라 색상별 픽셀의 개수를 등록하는 단계 및 색상에 따라 이미지의 의미 유효성을 구분하는 단계의 순서로 행하여 진다. 이와 같은 컬러의 분석을 통한 이미지의 의미 유효성 판단은 도8(c)와 같은 함수의 형태로 구현될 수 있다. 상술한 바와 같이 상기 본 발명에 따른 실시형태의 경우 모든 이미지는 이미지의 의미 유효성이 판단되게 된다. 이는 데이터 작성자의 실수 혹은 문서 오류로 인한 흰 박스, 검은 박스 등이 중복 출현해 핵심 이미지로 인식되는 경우를 예방하기 위함이며, 또한 악성 바이러스, 해킹 등 공격에 의해 동일한 포르노, 공포 사진 등이 침투한 경우에 핵심 이미지로 인식되는 경우를 예방하기 위한 것이다.

이미지를 분할하는 단계, 분할된 이미지를 픽셀로 2차원 배열하는 단계, 색 근접도에 따라 색상별 픽셀의 개수를 등록하는 단계를 거친 이미지에 대한 색상 분석 결과는 이슈 컨설턴트등 이슈를 관리하는 사용자에게 전달되어, 사용자에 의하여 컬러의 분석을 통한 이미지의 의미 유효성을 판단하도록 구성될 수 있으며, 실시 형태에 따라서는 설정에 따라 이미지의 의미 유효성을 자동적으로 판단하도록 구성될 수도 있다. 특히, 예를 들면, 상술한 바와 같은 판단 의미 대상이 되는 이미지가 단순한 데이터 작성자의 실수 혹은 문서 오류로 인한 흰 박스, 검은 박스 등의 자동 분류가 가능한 경우에는 자동 설정에 따라 이미지의 의미 유효성을 자동적으로 판단하는 것이 바람직하다. 또한, 실시 형태에 따라서는 이미지의 의미 유효성 판단의 기준과 이슈와 관련된 이미지의 종류 형태에 따라, 사용자에 의하여 컬러의 분석을 통한 이미지의 의미 유효성을 판단과 자동 설정에 의한 이미지의 의미 유효성을 판단을 병행하여 행할 수도 있다.

이슈 데이터 생성 단계(S30)는 상기 핵심어 분석 결과 및 핵심 이미지 분석 결과에 상기 메타 데이터를 결합함으로써 이슈 데이터를 생성하는 이슈데이터 생성한다. 생성된 이슈 데이터는 상기 이슈 테이터를 이슈 데이터 베이스에 저장하는 단계(S30)를 거처 저장되어, 또는 저장과 동시에 실시간으로 사용자 또는 이슈 데이터 관리 클라이언트(300)에 제공되어 사용자에 의하여 설정된 다양한 이슈 리포트를 생성하는 단계(S50)를 통해 이슈 리포트를 사용자에게 제공하게 된다.

이상에서 본 발명은 실시 형태에 따라 도면에 도시된 실시 형태를 참고로 설명되었으나, 이들은 예시적인 것으로 본 발명의 권리범위는 이들에 한정되지 않으며, 다양한 변형 및 균등의 범위의 실시형태를 포함하여 청구범위에 기재된 사항에 따라 본 발명의 권리범위가 정해진다.

도1은 본 발명의 일실시 형태에 따른 이슈 분석 시스템의 개략적인 구성도.

도2는 본 발명의 일실시 형태에 따른 기본적인 이슈 분석 시스템(100)의 구조를 나타내는 구조도.

도3은 본 발명에 따른 데이터 입력 클라이언트(200)의 구성을 나타낸 구성도.

도4는 본 발명에 따른 이슈 데이터 관리 클라이언트(300)의 구성을 나타낸 구성도.

도5(a) 및 도5(b)는 데이터 분리부(110)를 설명하기 위한 설명도.

도6은 본 발명에 따른 이슈 데이터를 생성하는 방법의 기본적인 흐름도.

도7(a) 내지 (d)는 핵심어 분석 모듈(120)의 일실시 형태에 따른 구성와 기능을 설명하기 위한 도면.

도7(a)는 본 발명의 일실시 형태에 따른 핵심어 분석과정의 알고리즘의 흐름도.

도8(a) 내지 (c)는 핵심 이미지 분석 모듈(130) 일 실시 형태에 따른 구성과 기능을 설명하기 위한 도면.

도8(a)는 본 발명의 일실시 형태에 따른 핵심 이미지 분석과정의 알고리즘의 흐름도.

도8(b)는 본 발명의 일실시 형태에 따른 핵심 이미지 분석과정중 인물 이미지와 관련된 과정을 설명하는 흐름도.

도9는 이슈 데이터 베이스(150)에 저장되는 이슈 데이터의 위계 구조를 나타내는 설명도.

도10 (a) 내지 도10(c)는 데이터 입력 클라이언트(200)가 웹 사이트의 구성부 형태로 구현된 경우의 캡쳐화면.

도11 (a) 내지 도11(c)는 이슈 데이터 관리 클라이언트(300)가 웹 사이트의 구성부 형태로 구현된 경우의 캡쳐화면.

Claims

입력 데이터에 포함된 정보를 추출하여 사용자에 의하여 설정된 이슈를 분석하여 관리하는 이슈 분석 시스템에 있어서,

이슈 분석을 위하여 입력된 입력 데이터를 분리하여, 텍스트 데이터, 이미지 데이터, 및 상기 입력 데이터의 작성 정보를 포함하는 메타 데이터를 생성하는 데이터 분리부;

상기 데이터 분리부로부터 텍스트 데이터를 전달받아 의미소별로 빈도를 분석하여 핵심어 분석 결과를 산출하는 핵심어 분석 모듈;

상기 데이터 분리부로부터 이미지 데이터를 전달받아 이미지를 분석하여 핵심 이미지 분석 결과를 산출하는 핵심 이미지 분석 모듈;

상기 데이터 분리부로 부터 상기 입력 데이터의 메타 데이터를 전달받고, 상기 핵심어 분석 모듈 및 핵심 이미지 분석 모듈로부터 핵심어 분석 결과 및 핵심 이미지 분석 결과를 전달 받아, 각 분석 결과와 메타 데이터를 결합하여 이슈 데이터를 생성하는 이슈 데이터 생성부; 및

상기 이슈 데이터를 이슈 데이터 생성부로부터 이슈 데이터를 전달 받아 저장하는 이슈 데이터 베이스;를 포함하여 이루어지는 것을 특징으로 하는 이슈분석 시스템.
제 1항에 있어서, 상기 핵심어 분석 모듈은,

상기 텍스트 데이터를 어절로 분리하며 분리된 어절을 조사 및 동사어미와 단어로 분리하는 형태소 분석부,

상기 분리된 단어를 전자 사전과 대조하여 의미를 가지는 의미 단위인 의미소를 추출하여 상기 의미소에 해당하는 단어의 사용 빈도수를 산출하고, 사용자에 의하여 기 설정된 단어별 가중치와 단어의 사용 빈도수에 의하여 의미소별 빈도 분석 결과를 산출하는 의미소 분석부,

사용자에 의하여 설정되는 상기 각 단어별 가중치를 관리하는 가중치 관리 툴, 및

상기 의미소에 해당하는 단어별로 빈도 분석 결과를 저장하여 각 단어별 빈도 정보가 저장되어 있는 핵심어 저장 데이터 베이스를 포함하여,

상기 핵심어 저장 데이터 베이스에 핵심어로 이미 존재하는 단어의 경우 상기 빈도 분석 결과를 업데이트하고, 상기 핵심어 저장 데이터 베이스에 존재하지 않는 단어의 경우 새로운 핵심어 테이블을 생성하여 빈도 분석 결과를 저장하여 것을 특징으로 하는 이슈분석 시스템.
제 1항에 있어서, 상기 핵심 이미지 분석 모듈은,

상기 이미지 데이터로부터 이미지의 형상을 추출하는 형상 분석부,

이미지의 색상을 분석하여 색상에 따라 이미지의 의미 유효성을 판단하도록 하는 컬러 분석부, 및

각 이미지별로 키워드와 이의 빈도 정보가 저장되어 있는 핵심 이미지 데이터 베이스를 포함하여, 상기 형상 분석부에서 추출된 이미지의 형상을 핵심 이미지 데이터 베이스에 저장된 이미지와 대조하여, 이미 저장되어 있는 이미지이고, 상기 컬러 분석부에서의 유효한 이미지로 판단되면, 해당 키워드의 빈도 정보를 업데이트하는 것을 특징으로 하는 이슈분석 시스템.
제 3항에 있어서, 상기 핵심 이미지 분석 모듈은,

이미지의 형상을 분석하여 이미지에 인물의 얼굴이 포함되어 있는지 여부를 판단하는 얼굴 인식부를 더 포함하여, 상기 형상 분석부에서 추출된 형상을 핵심 이미지 데이터 베이스에 저장된 이미지와 대조하여, 저장되어 있지 않은 이미지인 경우, 이미지에 얼굴이 포함되어 있는 지 여부를 판단하여 얼굴이 포함되어 있는 이미지인 경우, 동일 인물의 이미지가 핵심 이미지 데이터 베이스에 저장되어 있고 상기 컬러 분석부에서의 유효한 이미지로 판단되면, 해당 인물의 얼굴 이미지의 키워드의 빈도 정보를 업데이트 하는 것을 특징으로 하는 이슈분석 시스템.
제 1항 내지 제4항 중 어느 한 항에 있어서,

하나 이상의 입력 방식의 데이터를 수집하고 입력하기 위하여 필요한 정보를 저장하여 관리할 수 있도록 제공되는 각 데이터의 입력 방식에 따라 분류된 라이브러리와 상기 데이터 입력 방식에 따른 상기 라이브러리를 관리하고 상기 데이터의 수집에 필요한 데이터 입력 툴을 제공하는 데이터 입력 클라이언트를 더 포함하는 것을 특징으로 하는 이슈분석 시스템.
제 1항 내지 제4항 중 어느 한 항에 있어서,

상기 핵심어 분석 모듈 및 핵심 이미지 분석 모듈에서 필요한 정보를 저장하여 관리하고, 상기 이슈 데이터를 이용하여 사용자에 의하여 요구되는 이슈 데이터 리포트를 제공하는 이슈 데이터 관리 클라이언트를 더 포함하여 이루어지는 것을 특징으로 하는 이슈 분석 시스템.
다양한 형식의 데이터로부터 이슈 분석을 위한 이슈 데이터를 생성하는 방법에 있어서,

입력된 데이터를 분리하여, 텍스트 데이터, 이미지 데이터, 및 입력 데이터의 작성 정보를 포함하는 메타 데이터를 생성하는 데이터 분리 단계;

상기 텍스트 데이터의 의미소별 빈도 분석 결과에 의하여 핵심어 분석 결과를 산출하는 핵심어 분석 단계;

상기 이미지 데이터를 분석하여 핵심 이미지 분석 결과를 산출하는 핵심 이미지 분석 단계;

상기 핵심어 분석 결과 및 핵심 이미지 분석 결과에 상기 메타 데이터를 결합함으로써 이슈 데이터를 생성하는 이슈데이터 생성 단계; 및

상기 이슈 테이터를 이슈 데이터 베이스에 저장하는 단계;를 포함하여 이루어지는 것을 특징으로 하는 이슈 데이터를 생성하는 방법.
제 7항에 있어서, 상기 핵심어 분석 단계는,

상기 텍스트 데이터를 띄어쓰기 기준으로 어절을 분리하여 조사 및 동사어미와 단어를 분리하는 형태소 분석 단계와,

전자 사전과 대조하여 상기 조사와 어미가 분리된 단어로 부터 의미 단위인 의미소를 추출하여 의미소별 빈도수를 산출하고 상기 의미소의 빈도수와 의미소별로 기 설정된 가중치에 의하여 의미소별 빈도 분석 결과를 산출하는 의미소 분석 단계와,

상기 의미소별 빈도 분석 결과를 핵심어 저장 데이터 베이스에 저장하는 의미소별 빈도 분석 결과 저장 단계를 포함하는 것을 특징으로 하는 이슈 데이터를 생성하는 방법.
제 8항에 있어서,

핵심어 저장 데이터 베이스에 저장하는 단계는, 상기 의미소별 빈도 분석 결과가 1보다 큰 경우에 한하여 의미소별 빈도 분석 결과를 저장하는 것을 특징으로 하는 이슈 데이터를 생성하는 방법.
제 7항에 있어서, 상기 핵심 이미지 분석 단계는,

상기 이미지 데이터로부터 이미지의 형상을 추출하여 추출된 이미지의 형상을 핵심 이미지 데이터베이스에 저장된 이미지와 대조하여 핵심 이미지 데이터베이스에 동일한 이미지가 저장되어 있는지 여부를 판단하는 단계와 이미지의 색상에 따라, 이미지의 의미 유효성을 판단하는 단계를 포함하는 것을 특징으로 하는 이슈 데이터 생성방법.
제 10항에 있어서,

핵심 이미지 데이터 베이스에 동일한 이미지가 저장되어 있는 경우, 해당 이미지의 이미지 키워드의 카운트를 증가하여 핵심 이미지 데이터 베이스에 이미지 분석 결과를 업데이트하는 것을 특징으로 하는 이슈 데이터 생성방법.
제 10항에 있어서,

핵심 이미지 데이터 베이스에 동일한 이미지가 저장되어 있지 않은 경우, 이미지 데이터에 얼굴이 포함되어 있는 지를 판단하고, 얼굴이 포함되어 있는 경우 동일한 인물 이미지가 핵심 이미지 데이터 베이스에 저장되어 있는 지 여부를 판단하여 동일 인물 이미지가 저장되어 있는 경우, 해당 인물 이미지의 키워드의 카운트를 증가하여 핵심 이미지 데이터 베이스에 이미지 분석 결과를 업데이트 하는 것을 특징으로 하는 이슈 데이터 생성 방법.
제 7항 내지 제 12항 중 어느 한 항에 있어서,

상기 입력된 데이터는 RSS 가입방식, URL 입력 방식 및 파일 업로드 방식 중 의 하나 이상의 방식으로 입력되는 것을 특징으로 하는 이슈 데이터 생성 방법.
제 7항 내지 제 12항 중 어느 한 항에 있어서,

상기 이슈 데이터는 제공받아 사용하는 이슈 데이터 사용 업체의 업체 정보, 입력된 데이터의 데이터 작성 정보, 핵심어 정보 및 핵심 이미지 정보를 포함하며, 이슈 데이터 클라이언트에서의 이슈 데이터 사용 업체의 설정에 따라 이슈 데이터로부터 이슈 리포트를 생성하여 제공하는 것을 특징으로 하는 이슈 데이터 생성 방법.