KR101850853B1

KR101850853B1 - 빅데이터를 이용한 검색 방법 및 장치

Info

Publication number: KR101850853B1
Application number: KR1020160046118A
Authority: KR
Inventors: 김인중
Original assignee: (주)솔루젠
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2018-04-20
Also published as: KR20170118399A; WO2017179778A1

Abstract

전자 단말기를 통해 빅데이터를 이용하여 키워드를 검색하는 방법 및 장치가 제공된다. 전자 단말기에서 검색 대상이 될 빅데이터 데이터베이스를 설정한다. 전자 단말기의 입력부를 통해, 검색 키워드를 입력받는다. 전자 단말기는, 빅데이터 데이터베이스에 포함된 각각의 자료들 중에서 검색 키워드가 포함된 자료를 선정한다. 전자 단말기가, 선정된 자료에 포함된 단어 또는 어구의 갯수를 카운트한다. 전자 단말기가, 카운트한 단어 또는 어구를 출현 빈도순으로 순위를 정한다. 전자 단말기가, 순위가 정해진 복수의 단어 또는 어구를 복수의 연관 검색어로서 선정한다. 전자 단말기의 디스플레이에, 선정된 복수의 연관 검색어를 시각적으로 표시한다.

Description

빅데이터를 이용한 검색 방법 및 장치{METHOD AND APPARATUS OF SEARCH USING BIG DATA}

본 발명은 빅데이터를 이용한 검색 방법 및 장치에 관한 것이다.

최근 정보 처리 기술이 급속하게 발달하여 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등의 정보 처리 장치에서 사용자로부터 질의(query)를 입력받고, 다수의 데이터베이스에서 사용자 질의에 상응하는 데이터를 검색하여 사용자에게 제공하는 검색 방법 및 시스템에 대한 연구가 활발하게 진행되고 있다.

특히, 빅데이터(Big Data) 시대가 도래함에 따라 검색 엔진 시스템을 통해 방대한 양의 데이터가 기록되어 있는 복수의 데이터베이스에서 사용자 질의에 상응하는 정확한 정보를 신속하게 검색하여 제공할 수 있다는 점에서 콘텐츠 검색, 지능형 로봇, 차세대 PC, 텔레매틱스, 홈네트워크와 같은 다양한 분야에서 활용될 것으로 기대된다.

빅데이터란 개념이 등장한지는 어느 정도 시간이 흘렀지만, 그 동안 이러한 빅데이터를 사용하는 것은 주로 기업이 개인을 상대하거나, 기업이 기업을 상대하거나, 또는 공공 분야에서 이용되는 분야였다.

한편, 기존의 인터넷 키워드 검색은 예를 들어 포털 사이트의 관련 서버 내에 저장된 데이터 또는 인터넷상에 있는 데이터를 검색하여 당해 키워드가 포함된(또는 관련성이 높은) 자료를 찾아서 제시한다. 제시되는 자료들은 대체로 웹페이지, 그림 파일, 동영상 파일 등이다. 그림, 동영상 등을 제외하면 대부분의 경우는 텍스트 자료로 된 홈페이지 링크가 검색되는 경우가 많다.

종래의 검색은 검색 키워드와 관련된 특정의 자료(즉, 특정의 언론 기사, 특정의 블로그 글, 특정의 이미지, 특정의 비디오 등)를 찾아준다. 기존에 검색에서 가장 맨 위에 나오는 검색물(홈페이지 링크)은 '홍길동'을 대표하는 글일 수도 있고 아닐 수도 있다. 즉, 단지 가장 최근의 글이라서 가장 위에 나올 수도 있고, 그다지 화제가 되고 있지 않은 주제인데도 가장 상단에 노출되는 경우도 충분히 있어 왔다. 이는, 기존의 검색은 당해 검색 키워드가 포함되어 있는지만 판단하지, 그 검색 결과의 내용을 전혀 고려하지 않기 때문에 발생하는 현상이다.

본 발명에 의하면, 전자 단말기를 통해 빅데이터를 이용하여 키워드를 검색하는 방법으로서, 상기 전자 단말기에서 검색 대상이 될 빅데이터 데이터베이스를 설정하는 단계; 상기 전자 단말기의 입력부를 통해, 검색 키워드를 입력받는 단계; 상기 전자 단말기는, 상기 빅데이터 데이터베이스에 포함된 각각의 자료들 중에서 상기 검색 키워드가 포함된 자료를 선정하는 단계; 상기 전자 단말기가, 상기 선정된 자료에 포함된 단어 또는 어구의 갯수를 카운트하는 단계; 상기 전자 단말기가, 상기 카운트한 단어 또는 어구를 출현 빈도순으로 순위를 정하는 단계; 상기 전자 단말기가, 상기 순위가 정해진 복수의 단어 또는 어구를 복수의 연관 검색어로서 선정하는 단계; 및 상기 전자 단말기의 디스플레이에, 상기 선정된 복수의 연관 검색어를 시각적으로 표시하는 단계를 포함하는 키워드 검색 방법이 제공된다.

바람직하게는, 상기 표시하는 단계는, 순위가 높은 연관 검색어일수록 큰 글씨로 표시한다.

바람직하게는, 상기 표시하는 단계는, 순위가 높은 연관 검색어일수록 더 큰 원 또는 더 큰 다각형 박스 내에 표시한다.

바람직하게는, 상기 표시하는 단계는, 순위에 따라 글씨의 색을 다르게 하거나, 또는 일부 순위의 글씨를 가로쓰기하고 다른 일부 순위의 글씨를 세로쓰기하여 배치한다.

바람직하게는, 상기 빅데이터 데이터베이스는 SNS 글이다.

바람직하게는, 상기 키워드 검색에 의해 특정의 기업 또는 사업체를 평가한다.

본 발명에 의하면, 빅데이터를 이용하여 키워드를 검색하는 전자 장치로서, 검색 대상이 될 빅데이터 데이터베이스를 설정하는 설정부; 검색 키워드를 입력받을 입력부; 제어부; 및 디스플레이를 포함하며, 상기 제어부는, 상기 빅데이터 데이터베이스에 포함된 각각의 자료들 중에서 상기 검색 키워드가 포함된 자료를 선정하고, 상기 선정된 자료에 포함된 단어 또는 어구의 갯수를 카운트하고, 상기 카운트한 단어 또는 어구를 출현 빈도순으로 순위를 정하고, 상기 순위가 정해진 복수의 단어 또는 어구를 복수의 연관 검색어로서 선정하고, 상기 디스플레이로 하여금, 상기 선정된 복수의 연관 검색어를 시각적으로 표시하도록 제어하는, 키워드 검색 전자 장치가 제공된다.

바람직하게는, 상기 제어부의 상기 디스플레이 제어는, 순위가 높은 연관 검색어일수록 큰 글씨로 표시하도록 한다.

바람직하게는, 상기 제어부의 상기 디스플레이 제어는, 순위가 높은 연관 검색어일수록 더 큰 원 또는 더 큰 다각형 박스 내에 표시하도록 한다.

바람직하게는, 상기 제어부의 상기 디스플레이 제어는, 순위에 따라 글씨의 색을 다르게 하거나, 또는 일부 순위의 글씨를 가로쓰기하고 다른 일부 순위의 글씨를 세로쓰기하여 배치하도록 한다.

바람직하게는, 상기 빅데이터 데이터베이스는 SNS 글이다.

바람직하게는, 상기 키워드 검색에 의해 특정의 기업 또는 사업체를 평가하도록 한다.

본 발명의 검색에 의하면, 연관 검색어는 검색 키워드와 가장 많이 함께 쓰이는 어휘이므로 당해 검색 키워드에 대해 매우 정확한 결과를 제공한다.

또한, 단지 순위를 텍스트로 나열만 하는 것에 그치지 않고, 본 발명의 일형태에 의하면, 제1 연관 검색어를 가장 큰 글씨로 표시하고, 제2 연관 검색어를 그 다음 큰 글씨로 표시하고, 제3 연관 검색어를 그 다음 큰 글씨(즉, 제2 연관 검색어보다 더 작은 글씨)로 표시하는 등으로 차등을 둘 수 있다. 그 외의 다른 시각적 배치도 무방하다.

이러한 빅데이터 검색을 통해서, 나온 연관 검색어를 보면, 당해 검색 키워드에 대해 인터넷상(더 좁게는 SNS 상)에서 어떠한 언급이 오고 가는지, 당해 검색 키워드에 대해 어떠한 사항이 이슈가 되고 있는지를 쉽게 파악할 수 있으며, 종래의 검색에서와 같이 사람의 추가 노력이 들지 않으며, 쓰레기 정보(garbage 또는 noise)가 상단에 검색될 수 있던 종래의 문제점(즉, 잘못된 정보를 얻게 되는 문제)을 해결할 수 있다.

도 1은 본 발명에 따른 검색 결과의 일예를 시각적으로 나타낸 도면이다.
도 2는 본 발명에 따른 검색의 흐름도의 일예를 나타낸다.
도 3은 본 발명에 따른 검색의 흐름을 크게 4단계로 구분하여 나타낸다.
도 4a 내지 도 4c는 본 발명에 따른 검색을 스마트폰 앱의 형태로 만든 일예로서, 도 3에서 언급된 '사용자 요청 연관어 입력' 과정을 나타낸다.
도 5a 내지 도 5c는 본 발명에 따른 검색을 스마트폰 앱의 형태로 만든 일예로서, 도 3에서 언급된 '실시간 데이터 수집' 과정을 나타낸다.
도 6a 및 도 6b는 본 발명에 따른 검색을 스마트폰 앱의 형태로 만든 일예로서, 도 3에서 언급된 '데이터 분석' 과정을 나타낸다.
도 7은 본 발명에 따른 검색을 스마트폰 앱의 형태로 만든 일예로서, 도 3에서 언급된 '시각화' 과정을 나타낸다.
도 8은 포털 이슈 단어 연관어 수집에 관한 도면이다.
도 9는 본 발명에 따른 장치의 일예를 나타낸다.

이하, 도면을 참조하여 본 발명에 따른 시스템 및 방법을 설명한다.

도 1은 본 발명에 따른 검색 결과의 일예를 시각적으로 나타낸 도면이다.

기존의 인터넷 키워드 검색은 예를 들어 포털 사이트의 관련 서버 내에 저장된 데이터 또는 인터넷상에 있는 데이터를 검색하여 당해 키워드가 포함된(또는 관련성이 높은) 자료를 찾아서 제시한다. 제시되는 자료들은 대체로 웹페이지, 그림 파일, 동영상 파일 등이다. 그림, 동영상 등을 제외하면 대부분의 경우는 텍스트 자료로 된 홈페이지 링크가 검색되는 경우가 많다.

본 발명은 빅데이터를 데이터베이스로 하며, 그 검색 결과를 단순히 글씨로만 보여주는 것이 아니라, 직관적으로 인식되도록 글씨의 크기에 차등을 두어 연관 키워드를 보여준다.

예컨대, 국회의원 선거와 관련하여 특정 후보의 이름을 기존의 검색 사이트(네이버, 다음, 구글 등)에서 입력하면, 그 사람에 대한 신문 기사 등의 홈페이지 링크 자료 등이 나열될 것이다. 그러나, 본 발명에 의하면, 특정 후보 이름을 입력하는 경우, 검색 데이터베이스는 빅데이터로서 기존과 차이가 있다. 그리고, 웹페이지가 검색되는 것이 아니라, SNS 등의 빅데이터 자료에서 언급된 횟수를 기준으로 가장 많이 언급된 것을 상위에 보여준다. 상위에 보여준다 함은 검색 결과의 가장 상단에 보여주는 것도 가능하지만, 더 바람직하게는 가장 많이 언급된 것을 가장 큰 글씨로 보여주는 것이다.

특정 후보 이름(홍길동)을 본 발명에 따라 검색하면, 여러가지 키워드가 등장할 수 있겠으나, 예컨대 홍길동 후보가 병역 비리에 관해 언론 등에 많이 노출되고 그에 따라 SNS에서도 홍길동 후보의 병역 비리에 대해 많이 언급되어 있다고 가정하면, "홍길동"이라는 검색 키워드에 대해서 본 발명의 방법 및 장치는 연관 키워드(즉, 검색 결과)로서 SNS 상에서 홍길동 후보에 대해 가장 많이 언급된 "병역 비리"를 제1 연관 키워드(즉, '홍길동'이라는 키워드와 가장 많이 SNS 글에서 함께 언급되는 키워드)로 선정할 수 있다. 예컨대, 어떤 SNS 글(트위터 멘션 등)이 "홍길동 후보가 병역 비리 의혹을 받고 있다"라고 되어 있으면 '홍길동' 키워드의 연관 검색어는 이 SNS 글에 한정하면, '후보' '병역 비리' '의혹' 등이 될 수 있으며, 이러한 취지의 글(예컨대, "홍길동 후보가 병역 비리로 수사를 받고 있습니다")라는 글이 많을수록 '홍길동'이라는 검색 키워드에 대한 '병역 비리'의 연관도(일치 횟수)는 점점 높아질 것이다. 그리고, 이와 유사한 어휘를 사용하는 SNS 글이 많거나 또는 당해 SNS 등이 많이 확대/재생산(예컨대, 트위터의 리트윗 기능 등)되어 있다면, 연관도(일치 횟수)가 점점 올라갈 것이다.

그리고, 그 다음으로 '홍길동'이라는 키워드와 함께 많이 언급되는 키워드가 '공약'이라고 하면, 제2 연관 키워드로 '공약'이 선정될 수 있다. 이러한 식으로 '홍길동'이라는 키워드와 함께 SNS 글 등의 빅데이터에서 가장 많이 연관되어 사용하는 키워드들의 순위를 매긴다. 이때의 검색 대상은 네이버 등의 포털 사이트와 같이 특정 서버 내부에 저장된 글에 한정되는 것이 아니라 빅데이터이므로, 이러한 검색의 정확도는 상당히 높을 것임을 예상할 수 있다. 연관 키워드로 선정하는 기준은 예컨대 검색 키워드와 천번 이상 함께 언급된 키워드만으로 한정하여 그 중에서 순위를 매길 수도 있다.

상기 설명을 통해, 이는 기존의 포털 사이트에서의 검색과는 매우 상이함을 알 수 있다. 기존의 포털 사이트에서의 검색은 당해 포털 사이트에 의해 미리 수집되어 있는 데이터만을 대상으로 하는 경우도 있고(예컨대, 네이버, 다음), 미리 수집되어 있지 않더라도 인터넷을 전반적으로 검색하는 경우도 있다(예컨대, 구글). 본 발명은 통상의 인터넷 전반을 검색 대상으로 하는 것도 가능하지만, 바람직하게는 그 중에서도 빅데이터만을 대상으로 하는 것이 더 좋다. 빅데이터라 함은 일예로서 트위터, 페이스북 등의 SNS 글을 의미한다. 물론, 경우에 따라서는 전술한 바와 같이 인터넷 전반의 자료(예컨대, 인터넷 언론 기사, 블로그 글 등)를 포함하여 검색을 하여도 좋다. 그러나, 기존의 검색과 상이한 점은 검색 키워드와 관련된 특정의 자료(즉, 특정의 언론 기사, 특정의 블로그 글, 특정의 이미지, 특정의 비디오 등)를 찾아주는 것이 아니라, 빅데이터 전체에서 당해 검색 키워드와 함께 등장하는(즉, 동일한 문단이나 동일한 글 내에 있는) 다른 연관 키워드의 빈도를 찾아내어 순위를 결정하고 그 순위를 보여준다는 점이다. 기존에 검색에서 가장 맨 위에 나오는 검색물(홈페이지 링크)은 '홍길동'을 대표하는 글일 수도 있고 아닐 수도 있다. 즉, 단지 가장 최근의 글이라서 가장 위에 나올 수도 있고, 그다지 화제가 되고 있지 않은 주제인데도 가장 상단에 노출되는 경우도 충분히 있어 왔다. 이는 기존의 검색은 당해 검색 키워드가 포함되어 있는지만 판단하지, 그 검색 결과의 내용을 전혀 고려하지 않기 때문에 발생하는 현상이다. 그러나, 본 발명의 검색에 의하면, 제1 연관 검색어는 검색 키워드와 가장 많이 함께 쓰이는 어휘이므로 당해 검색 키워드에 대해 매우 정확한 결과를 제공한다.

또한, 단지 순위를 텍스트로 나열만 하는 것에 그치지 않고, 본 발명의 일형태에 의하면, 제1 연관 검색어를 가장 큰 글씨로 표시하고, 제2 연관 검색어를 그 다음 큰 글씨로 표시하고, 제3 연관 검색어를 그 다음 큰 글씨(즉, 제2 연관 검색어보다 더 작은 글씨)로 표시하는 등으로 차등을 둘 수 있다. 이 경우 제1 연관 검색어가 반드시 가장 상단에 있을 필요는 없고, 검색 단말 화면의 중앙부에 나와도 좋고, 그 외의 다른 위치에 표시되어도 좋다. 글씨 크기가 가장 크기 때문에 화면의 어디에 표시되어도 제1 연관 검색어임을 쉽게 알 수 있을 것이다.

이와 같이 글씨 크기도 연관도 순위를 표시할 수도 있고, 원의 크기로 연관도 순위를 표시하여, 가장 큰 원 안에 제1 연관 검색어를 넣고, 그 다음 큰 원 안에 제2 연관 검색어를 넣어도 좋다. 원의 크기와 글자 크기라는 기준을 병용해도 좋음은 물론이다. 원의 위치도 가장 큰 것을 최상단에 표시하고 점차로 하단으로 갈수록 작아지게 할 수도 있고, 가장 큰 것을 최좌단에 표시하고 점차로 우단으로 갈수록 작아지게 할 수도 있고, 화면 중에 랜덤하게 표시하고 크기를 보고 사용자가 판단하게 할 수도 있다. 글씨는 반드시 가로 쓰기일 필요는 없고, 시각적으로, 직관적으로 파악될 수 있도록, 어떤 연관 검색어는 가로 쓰기, 어떤 연관 검색어는 세로 쓰기여도 무방하다. 또한, 연관 검색어별로 색깔을 달리하여도 좋다.

이러한 빅데이터 검색을 통해서, 나온 연관 검색어를 보면, 당해 검색 키워드에 대해 인터넷상(더 좁게는 SNS 상)에서 어떠한 언급이 오고 가는지, 당해 검색 키워드에 대해 어떠한 사항이 이슈가 되고 있는지를 쉽게 파악할 수 있다.

한편, 이러한 복수의 연관 검색어의 나열에 그치지 않고, 예컨대 검색 단말의 화면에서 제1 연관 검색어를 클릭하면 어떠한 문구에서 당해 제1 연관 검색어가 나왔는지 추가로 보여주는 서비스를 제공할 수도 있다.

즉, "홍길동"을 검색 키워드로 하여 제1 연관 검색어가 "병역 비리", 제2 연관 검색어가 "공약"이라면, 검색 결과 화면에 "병역 비리"가 가장 큰 글씨로, "공약"이 그 다음 큰 글씨로, 그리고 나머지 연관 검색어들이 각각의 순위에 맞는 글씨 크기로 나열되어 있을 것이다. 각각의 연관 검색어는 클릭할 수 있도록 구성될 수 있고, 특정의 연관 검색어(예컨대, "공약")를 클릭하면, 어떠한 글에서 "홍길동"과 "공약"이 함께 언급되는지 구체적은 글을 볼 수 있게 되어 있다. 구체적인 글이라 함은, 빅데이터의 일부를 구성하는 글이며, 통상의 SNS 글이겠으나, 필요에 따라서 통상의 인터넷 사이트(예컨대, 인터넷 언론이나 블로그 등)의 글까지 포함하도록 검색하여도 무방하다.

앞에서는 국회의원을 예로 들었으나, 다른 예로 연예인인 '투야'를 검색하는 경우의 예를 도 1에 나타낸다. 작동 원리는 앞서 설명한 바와 동일하다.

즉, '투야'라는 검색어에 대해서 가장 많이 연관된 단어(제1 연관 검색어)는 "김지혜"이며, 도 1의 가운데에 큰 글씨로 표시되어 있다. 그 다음으로 많이 연관된 단어(제2 연관 검색어)는 "슈가맨"이며, 도 1의 가운데에서 약간 하단에 큰 글씨로 표시되어 있다. 그 다음으로 많이 연관된 단어(제3 연관 검색어)는 "안진경"이며, 도 1의 가운데에서 약간 상단에 조금 더 작은 글씨로 표시되어 있다. 그 외의 연관 검색어(즉, 제4 연관 검색어 이하)는 가운데의 "김지혜"라는 글씨를 둘러싸는 형태로 여러개 표시되어 있는 것을 볼 수 있다.

본 발명에 따른 방법 또는 장치를 서비스함에 있어서 일반 서비스 버전은 연관 검색어만을 제공하고, 유료 서비스 버전은 연관 검색어를 클릭하여 구체적인 글(어떤 문구에서 나왔는지)을 볼 수 있도록 구성할 수도 있다.

빅데이터는 예컨대, 테라데이터사(社)와 같은 업체와의 연계/협약 등을 통해 제공받을 수도 있다. 이러한 연계를 통해서 개인이 공공 서비스의 빅데이터를 볼 수 있을 것이다.

또다른 예를 들어 보면, 예컨대 특정의 맛집 이름을 검색하는 것을 상정해 볼 수 있다. 본 발명에 의하면, 특정의 맛집 이름을 검색할 때, 예컨대, "짜다"라는 연관 검색어가 나올 수 있고, "맛있다"라는 연관 검색어가 나올 수 있다. 둘 다 많이 나오지만, "짜다"가 가장 많이 연관되어 있는 검색어라면 이를 가장 지배적인 것이라고 볼 수 있다. 즉, 특정의 맛집 이름을 검색하였을 때, 제1 연관 검색어가 "짜다"이고 제2 연관 검색어가 "맛있다"라면, 본 발명의 사용자는 당해 특정의 맛집이 맛있기는 한데 대체로 짜게 조리하는구나 하는 정보를 얻을 수 있다. 기존의 검색에 의하면, 가장 상위에 뜨는 당해 맛집의 리뷰를 쭉 읽어볼 수 밖에 없다. 이는 상당한 시간이 걸리는 작업이고, 당해 리뷰가 반드시 공정하다고 볼 수 없다. 즉, 홍보성 블로그 글이 우연이 가장 상단에 검색되어 버릴 수도 있는 종래의 검색에서는 당해 특정 맛집에 대한 잘못된 정보를 갖게 될 가능성이 매우 크다. 그러나, 본 발명의 검색에 의하면, 예컨대, 당해 맛집의 이름과 "짜다"라는 단어가 동시에 나온 글(자료)이 상당히 많다는 것이므로, 단편적으로 하나의 글을 읽은 종래의 검색과는 전혀 다른 효과를 얻을 수 있음은 자명하다.

특히, 본 발명에서 그래픽을 사용하는 경우에는, 예컨대 원의 크기를 달리하여 연관도의 크기를 나타낸다든지, 가로쓰기, 세로쓰기, 색깔 혼용 등을 통해 여러가지 시각적이고 직관적인 인터페이스를 제공하므로, 이해도 쉽고 정확한 정보를 얻을 수 있다.

이러한 본 발명에 의하면, 결과적으로, 개인이 식당, 기업 등을 평가하는 것이 가능하다.

종래의 검색에서는 키워드 검색을 통해 결과를 사람 눈으로 기사 등을 읽어서 내용을 확인해야 하므로, 결국은 사람의 힘이 상당 부분 필요하다. 그러나, 본 발명에 의하면, 기계가 읽어서 가장 많이 회자되는 글씨를 걸러주는 것이므로 사람의 힘이 크게 필요하지 않다. 그리고, 많이 검색되면 큰 글씨로 표시되므로 연관도의 파악이 매우 용이하며, 변별력이 부여된다. 반드시 큰 글씨 뿐만이 아니라, 하이라이트 표시라든지 색깔 차이 부여라든지, 여하한 시각적인 다른 효과를 부여하거나 병행하여도 좋다.

본 발명에 따른 빅데이터의 대상은 기사, 블로그, SNS, 트위터 등 다양하게 다변화 가능하다. 이들의 일부 또는 전부를 사용할 수 있고, 필요에 따라 별도의 새로운 데이터베이스 체계에 적용하는 것도 가능하다.

본 발명의 검색(연관 검색어 선정)을 위한 분석은 빅데이터 분석 기법으로서 머신 러닝(machine learing), 딥 러닝(deep learning) 등의 기법을 사용할 수 있으며, 본 발명의 방법 및 장치는 웹 기반으로, 또는 스마트폰의 앱(application) 기반으로 구현될 수도 있다.

한편, 검색 결과(즉, 연관 검색어를 보여주는 것)의 일부를 다시 클릭하여 재검색하거나, 트위터나 블로그로 연결하는 것도 가능하다. 재검색한다 함은, "홍길동"을 검색하여 "병역 비리"가 제1 연관 검색어인 경우에, "병역 비리"를 클릭하면, 이제는 "병역 비리"가 검색 키워드가 되어 그에 따른 연관 검색어를 찾는 것이다.

'연관 검색어'라는 용어 자체는 다소 브로드한 용어일 수도 있으나, 이를 단순히 단어의 의미만으로 파악하면 안 되고, 전술한 바와 같은 본 발명의 전제 조건, 즉, 보여주는 형태라든지, 앱의 형태라든지, 검색의 대상이나 방법이 다르다든지 하는 조건들이 충족되는 한도에서의 연관 검색어를 말하는 것이므로, 용어만으로 판단할 것은 아니다.

즉, 종래의 기술에 의하면 개인이 기업이나 마트 등을 상대로 평가할 수 있는 서비스가 불가능하거나 어렵지만, 본 발명에 의하면, 빅데이터를 구성하는 글 하나하나가 의미가 있는 평가 자료가 되고, 단순히 특정 단어가 들어간 글을 검색해서 보여주는 것과는 다른 방식임을 쉽게 알 수 있을 것이다. 예컨대, 종래에는 새로운 신용 카드를 발급한다면 자체 내부적으로 검색하여 평가하는 정도에 그치지만, 본 발명에 의하면, 일반인들이 빅데이터로 볼 수 있게 하는 서비스로서 전혀 다른 방식으로 활용될 수 있음은 자명하다.

본 발명에 의하면, 일응용으로서, "홍길동"이라는 검색어를 넣으면 제1 연관 검색어가 무엇이 나올지를 예측하는 퀴즈 놀이를 하여도 좋다. 또는 어떤 검색어를 넣었을 때 검색어가 "병역 비리"가 나올지를 예측하는 퀴즈 놀이도 가능하다. 이는 젊은이들 사이에서 간단하고 재미있는 놀이로서도 기능할 수 있을 것이다.

종래의 검색에 있어서, 데이터량이 많아지만 사실상, 접근(access) 및 처리에 어려움이 있다. 스마트폰이 아니라 PC에서 행해도 어려움이 있기는 마찬가지이다. 예컨대, 그러한 번잡함(즉, 쓸모없는 정보가 검색되는 것)을 피하기 위해, 신문사의 홈페이지에 들어가서 검색하는 사람도 있는데, 이렇게 노이즈를 거르고 싶은 사람들을 위해서도 본 발명은 좋은 도구가 될 수 있을 것이다.

현재, 웹 상의 신문 기사의 경우, 검색 결과를 중요도 순으로 배치하기도 한다. 그러나, 첫번째 기사에서 마지막 기사로 가면서 훑어보어도 갈수록 비슷한 말이 사용된 것 같기도 하여, 결국은 사람이 일일이 각각의 기사를 보기 전에는 미묘한 사항은 알기 힘들다. 그러나, 본 발명에 의하면, 각각의 기사(빅데이터가 신문 기사 데이터베이스인 경우)의 단어를 카운트하게 되므로 종래의 검색과는 다른 새로운 의미를 지닌다. 즉, 단어의 출현 빈도에 따라 중심 키워드를 선정할 수 있다. 중심 키워드란 전술한 연관 검색어와 동일한 개념이라고 보아도 무방하다.

한편, 시각화의 구체적인 형태는 전술하였으나, 그에 한정되지 않고 다양한 시각적 형태로 변별력을 줄 수 있다.

워드 카운트(즉, 연관도 확인) 과정은 여러가지 알고리즘이 사용될 수 있으며 가중치를 부여하는 방식도 사용가능하다. 그리고, 빅데이터 중의 일부 데이터가 상업성을 띠는 글(자료)이라고 판단되면 그 글(자료)은 워드 카운트에서 배제하는 것도 가능하다. 상업성의 판단은, 예컨대 당해 자료의 문구 중에 소정의 (미리 정해진) 선전 문구가 들어있는지를 확인함으로써 가능할 수도 있고, 특정 홈페이지 주소가 포함되어 있는지를 확인함으로써 가능할 수도 있는 등, 여러가지 수단이 있을 수 있다.

도 2는 본 발명에 따른 검색의 흐름도의 일예를 나타낸다.

본 발명은 전자 단말기를 통해 빅데이터를 이용하여 키워드를 검색하는 방법 및 장치를 제공한다.

예컨대, 전자 단말기에서 검색 대상이 될 빅데이터 데이터베이스를 설정한다(단계 201). 그리고, 전자 단말기의 입력부를 통해, 검색 키워드를 입력받는다(단계 202).

전자 단말기는, 빅데이터 데이터베이스에 포함된 각각의 자료들 중에서 상기 검색 키워드가 포함된 자료를 선정한다(단계 203). 전자 단말기가, 선정된 자료에 포함된 단어 또는 어구의 갯수를 카운트한다(단계 204). 그리고, 전자 단말기가, 카운트한 단어 또는 어구를 출현 빈도순으로 순위를 정한다(단계 205).

전자 단말기가, 순위가 정해진 복수의 단어 또는 어구를 복수의 연관 검색어로서 선정한다(단계 206). 전자 단말기의 디스플레이에, 선정된 복수의 연관 검색어를 시각적으로 표시한다(단계 207).

본 발명은 빅데이터 데이터베이스와 네트워크로 연결된 PC 등에서 동작할 수도 있고, 스마트폰 등의 기기에서 동작할 수도 있다.

도 3은 본 발명에 따른 검색의 흐름을 크게 4단계로 구분하여 나타낸다.

본 발명은 크게 보아 '사용자 요청 연관어 입력' 과정, '실시간 데이터 수집' 과정, '데이터 분석' 과정, '시각화' 과정을 거치는 것으로 볼 수도 있다.

이들 각각에 대해서 이하 설명한다.

도 4a 내지 도 4c는 본 발명에 따른 검색을 스마트폰 앱의 형태로 만든 일예로서, 도 3에서 언급된 '사용자 요청 연관어 입력' 과정을 나타낸다.

도 4a의 상단에는 검색창(입력창)이 표시되어 있고, 하단에는 포털 사이트(예컨대, 네이버, 다음 등)에서 이슈가 되고 있는 실시간 검색어가 순위별로 20개 표시되어 있다.

일예로, 본 발명에 따른 앱의 메인 페이지는 웹 앱을 목적으로 한 HTML 포맷으로 작성한다. HTML 문서내에는 사용자의 액션을 시스템 내부 프로그램으로 값을 전달하기 위한 java script로 구성한다.

도 4a의 상단부에 표시된 입력창을 통해 사용자가 찾기를 원하는 단어를 입력 받을 수 있도록 하였으며, 엔터키 또는 아래의 분석 버튼을 클릭하여 입력된 내용을 내부 수집 프로그램으로 전달할 수 있도록 한다.

도 4a의 하단부를 참조하면, 페이지 상단부의 사용자 입력부와는 별도로 하단부에는 포털 사이트들의 실시간 검색어 상위 20개 리스트 창을 배치한다. 실시간 검색어 순위를 자동으로 수집하여 그 단어에 연관된 웹자료를 수집하고 분석하여 사용자가 접속하는 메인 화면에 배치함으로서 사용자의 편의성에 대한 추가적인 가치를 부여한다.

사용자 요청 연관어 기능(즉, 도 3의 상단부의 입력창과 관련된 기능)은 사용자가 본 발명에 따른 앱의 메인 페이지에 접속하여 최소 1개에서 다수개의 원하는 단어를 입력할 수 있도록 하는 기능을 제공한다. 기술적으로는, 텍스트(Text)를 인풋(Input) 값으로 받을 수 있도록 되어 있으며, 여러 개의 단어의 경우 공백으로 분리하여 입력 값으로 전달할 수 있도록 한다. 단어 입력없이 분석 버튼을 누르거나 엔터를 클릭하는 경우, 단어를 입력하라는 메시지를 사용자에게 리턴한다. 이러한 사항은, 예컨대, 도 4b에 나타난 코드를 통해 구현 가능하다.

다음으로, 사용자가 정상적인 단어를 입력하고 분석버튼 또는 엔터키를 클릭하는 경우 내부의 search.jsp 파일을 호출하여 입력받은 인자값을 전달한다. search.jsp는 전달받은 인자값을 데이터 수집 프로그램으로 다시 값을 전달한다. 이러한 사항은, 예컨대, 도 4c에 나타난 코드를 통해 구현 가능하다.

도 5a 내지 도 5c는 본 발명에 따른 검색을 스마트폰 앱의 형태로 만든 일예로서, 도 3에서 언급된 '실시간 데이터 수집' 과정을 나타낸다.

인터넷상의 실시간 데이터를 수집하는 것은 웹스크래핑 엔진 실행하여 사용자가 입력한 단어가 포함된 문서들을 검색하여 그 결과를 내부에 html 또는 plain text 형태로 저장한다. 검색결과는 사용자가 입력한 단어를 파일명으로 사용하도록 한다. 이러한 사항은, 예컨대, 도 5a에 나타난 코드를 통해 구현 가능하다.

웹스크래핑 엔진을 통해서 수집된 초기 데이터는 바로 분석할 수 없는 html tag 및 불필요한 문자를 포함하고 있으므로 이러한 불필요한 내용을 정제하는 데이터 필터링 작업을 수행한다. 필터링 작업이 완료된 파일은 plain text 파일의 형태를 갖게 된다. 이러한 사항은, 예컨대, 도 5b에 나타난 코드를 통해 구현 가능하다.

부연 설명하자면, 도 5c와 같이, 본 발명은 웹, SNS, 블로그 등의 여러가지 소스로부터 데이터를 수집하여 사용자 요청(즉, 도 4a의 입력창에 입력되는 단어)의 연관어를 찾아내거나, 또는 포털 이슈 단어(즉, 도 4a의 하단에 이슈 1~10, 이슈 11~20으로 표시된 단어)의 연관어를 수집할 수 있다.

도 6a 및 도 6b는 본 발명에 따른 검색을 스마트폰 앱의 형태로 만든 일예로서, 도 3에서 언급된 '데이터 분석' 과정을 나타낸다.

데이터 분석은 공개소프트웨어인 R의 KoNLP 패키지를 사용하여 한글 구문분석이 가능하도록 한다. 필터링 작업을 거친 텍스트 파일을 입력 받아 필터링 프로그램에서 제거하지 못한 불필요한 기호를 삭제하는 작업을 수행한다. 이러한 사항은, 예컨대, 도 6a에 나타난 코드를 통해 구현 가능하다.

다음으로, 추출한 명사를 목록으로 재작성하고 각 명사의 빈도수를 측정한다. 명사와 명사의 빈도수를 2차 분석을 위하여 상위 100개 단어를 별도의 csv 파일로 출력한다. 출력한 상위 100개 단어 중 20개를 추출하여 결과내 재검색의 키워드로 사용한다. 이러한 사항은, 예컨대, 도 6b에 나타난 코드를 통해 구현 가능하다.

도 7은 본 발명에 따른 검색을 스마트폰 앱의 형태로 만든 일예로서, 도 3에서 언급된 '시각화' 과정을 나타낸다.

시각화는 R의 워드 클라우드(word cloud) 패키지를 사용하여 png 파일 포맷으로 출력을 하도록 한다. 워드 클라우드는 빅데이터 분석 결과 시각화에 있어서 단어 중 빈도수가 가장 높은 단어를 중앙에 크게 위치 시킨 후 그 다음 빈도수의 단어를 조금 작게 배치하는 형대로 출력을 한다. 출력된 결과는 단어의 모수가 많을수록 원형에 가깝게 된다. 이러한 사항은, 예컨대, 도 7a에 나타난 코드를 통해 구현 가능하다.

시각화작업을 완료한 결과는 최초 요청된 사용자 화면으로 그 결과를 전달한다. 전달되는 결과에는 결과 png 파일과 상위 10개 단어 목록이 포함된다. search.jsp 파일은 전달받은 png 파일명과 단어목록을 html 형태로 작성하여 사용자의 화면에 전달한다. 분석결과의 상위 10개 단어는 사용자의 재검색 편의를 위해 포털 사이트(예컨대, 네이버)의 검색창으로 링크가 되도록 한다.

이러한 과정을 거침으로써, 예컨대, 도 4a의 입력창에 "투야"를 입력하면, 도 1과 같은 검색 결과를 얻을 수 있게 된다.

한편, 도 4a의 하단에 나타나는 이슈 1~10, 이슈 11~20의 단어와 관련하여 부연 설명하자면, 메인 화면에 표시하는 소정 갯수의 이슈단어(예컨대, 20개)의 목록은 일예로 매 5분마다 자동으로 포털에 접속하여 단어목록을 수집해 온다. 제공되는 정보의 실시간성을 유지하기 위해 동일한 단어의 경우는 2시간마다 새롭게 정보를 수집한다. 이렇게 수집된 목록은 웹스크랩 프로그램에 전달하고 그 분석 결과를 서버에 저장하여 사용자에게 제공한다. 이러한 사항은, 예컨대, 도 8에 나타난 코드를 통해 구현 가능하다.

도 9는 본 발명에 따른 장치의 일예를 나타낸다.

빅데이터를 이용하여 키워드를 검색하는 전자 장치를 제공한다. 이 장치는 검색 대상이 될 빅데이터 데이터베이스를 설정하는 설정부(301), 검색 키워드를 입력받을 입력부(303), 제어부(305) 및 디스플레이(307)를 포함한다.

제어부(305)는, 빅데이터 데이터베이스에 포함된 각각의 자료들 중에서 검색 키워드가 포함된 자료를 선정하고, 선정된 자료에 포함된 단어 또는 어구의 갯수를 카운트하고, 카운트한 단어 또는 어구를 출현 빈도순으로 순위를 정하고, 순위가 정해진 복수의 단어 또는 어구를 복수의 연관 검색어로서 선정하고, 디스플레이(307)로 하여금, 선정된 복수의 연관 검색어를 시각적으로 표시하도록 제어할 수 있다.

제어부(305)는 예컨대, PC의 CPU 또는 스마트폰의 CPU일 수 있다.

위에서는 특정의 예를 들어 설명하였으나, 본 발명은 상기 실시예에 한정되지 않으며, 당 분야의 통상의 지식을 가진 자에 의하여 많은 변형이 첨부의 특허청구범위에 기재된 본 발명의 본질적인 사상 내에서 가능함은 물론이다. 본 발명의 기본 사상을 벗어나지 않는 한, 그 외의 다양한 변형도 본 발명의 범주에 속하는 것으로 보아야 할 것이다.

Claims

전자 단말기를 통해 빅데이터를 이용하여 키워드를 검색하는 방법으로서,
상기 전자 단말기에서 검색 대상이 될 빅데이터 데이터베이스를 설정하는 단계로서, 상기 빅데이터 데이터베이스는 SNS 글인, 단계;
상기 전자 단말기의 입력부를 통해, 검색 키워드를 입력받는 단계;
상기 전자 단말기는, 상기 빅데이터 데이터베이스에 포함된 각각의 자료들 중에서 상기 검색 키워드가 포함된 자료를 선정하는 단계로서, 상기 검색 키워드가 포함된 자료에 소정의 선전 문구 또는 특정 홈페이지 주소가 포함되어 있는 경우에는 당해 자료가 상업성을 띠는 것이라고 판단하여 상기 선정에서 제외하는, 단계;
상기 전자 단말기가, 상기 선정된 자료에 포함된 단어 또는 어구의 갯수를 카운트하는 단계;
상기 전자 단말기가, 상기 카운트한 단어 또는 어구를 출현 빈도순으로 순위를 정하는 단계로서, 출현 빈도가 많을수록 순위가 높은, 단계;
상기 전자 단말기가, 상기 순위가 정해진 복수의 단어 또는 어구를 복수의 연관 검색어로서 선정하는 단계;
상기 전자 단말기의 디스플레이에, 상기 선정된 복수의 연관 검색어를 시각적으로 표시하는 단계로서, 순위가 높은 연관 검색어일수록 큰 글씨로 표시하거나, 더 큰 원 또는 더 큰 다각형 박스 내에 표시하는, 단계; 및
상기 복수의 연관 검색어 중 어느 하나를 클릭하면, 당해 클릭된 연관 검색어가 어떠한 문구에서 나왔는지 보여주는, 단계
를 포함하는 키워드 검색 방법.
삭제
삭제
제1항에 있어서,
상기 표시하는 단계는, 순위에 따라 글씨의 색을 다르게 하거나, 또는 일부 순위의 글씨를 가로쓰기하고 다른 일부 순위의 글씨를 세로쓰기하여 배치하는 키워드 검색 방법,
삭제
제1항 또는 제4항에 있어서,
상기 키워드 검색에 의해 특정의 기업 또는 사업체를 평가하는 키워드 검색 방법.
빅데이터를 이용하여 키워드를 검색하는 전자 장치로서,
검색 대상이 될 빅데이터 데이터베이스를 설정하는 설정부;
검색 키워드를 입력받을 입력부;
제어부; 및
디스플레이
를 포함하며,
상기 제어부는, 상기 빅데이터 데이터베이스에 포함된 각각의 자료들 중에서 상기 검색 키워드가 포함된 자료를 선정하되 상기 검색 키워드가 포함된 자료에 소정의 선전 문구 또는 특정 홈페이지 주소가 포함되어 있는 경우에는 당해 자료가 상업성을 띠는 것이라고 판단하여 상기 선정에서 제외하고, 상기 선정된 자료에 포함된 단어 또는 어구의 갯수를 카운트하고, 상기 카운트한 단어 또는 어구를 출현 빈도순으로 순위를 정하고, 상기 순위가 정해진 복수의 단어 또는 어구를 복수의 연관 검색어로서 선정하고, 상기 디스플레이로 하여금, 상기 선정된 복수의 연관 검색어를 시각적으로 표시하고, 상기 복수의 연관 검색어 중 어느 하나를 클릭하면, 당해 클릭된 연관 검색어가 어떠한 문구에서 나왔는지 보여주도록 제어하며,
상기 빅데이터 데이터베이스는 SNS 글이며,
상기 순위를 정함에 있어서, 출현 빈도가 많을수록 순위가 높으며,
상기 시각적으로 표시함에 있어서, 순위가 높은 연관 검색어일수록 큰 글씨로 표시하거나, 더 큰 원 또는 더 큰 다각형 박스 내에 표시하도록 하는, 키워드 검색 전자 장치.
삭제
삭제
제7항에 있어서,
상기 제어부의 상기 디스플레이 제어는, 순위에 따라 글씨의 색을 다르게 하거나, 또는 일부 순위의 글씨를 가로쓰기하고 다른 일부 순위의 글씨를 세로쓰기하여 배치하도록 하는, 키워드 검색 전자 장치.
삭제
제7항 또는 제10항에 있어서,
상기 키워드 검색에 의해 특정의 기업 또는 사업체를 평가하도록 하는, 키워드 검색 전자 장치.