KR101308821B1 - 검색엔진용 키워드 추출 시스템 및 추출 방법 - Google Patents

검색엔진용 키워드 추출 시스템 및 추출 방법 Download PDF

Info

Publication number
KR101308821B1
KR101308821B1 KR1020110087376A KR20110087376A KR101308821B1 KR 101308821 B1 KR101308821 B1 KR 101308821B1 KR 1020110087376 A KR1020110087376 A KR 1020110087376A KR 20110087376 A KR20110087376 A KR 20110087376A KR 101308821 B1 KR101308821 B1 KR 101308821B1
Authority
KR
South Korea
Prior art keywords
search
homepage
searched
keyword
homepages
Prior art date
Application number
KR1020110087376A
Other languages
English (en)
Other versions
KR20130024127A (ko
Inventor
이창수
정복훈
Original Assignee
강릉원주대학교산학협력단
한국옐로우페이지주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강릉원주대학교산학협력단, 한국옐로우페이지주식회사 filed Critical 강릉원주대학교산학협력단
Priority to KR1020110087376A priority Critical patent/KR101308821B1/ko
Publication of KR20130024127A publication Critical patent/KR20130024127A/ko
Application granted granted Critical
Publication of KR101308821B1 publication Critical patent/KR101308821B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

본 발명은 검색 대상 웹 사이트에서 명사인 제품명과 회사명을 추출하여 해당 웹 사이트의 제품 및 회사 특성에 가장 부합하는 단어를 키워드로 선정함으로써 검색엔진의 검색 특성과 최적화된 결합을 서비스하는 검색엔진용 키워드 추출 방법에 관한 것으로, 열람하고자 하는 검색대상 홈페이지와 연관된 검색 키워드를 전송하여 홈페이지의 검색을 요청하는 사용자단말기(100)들과; 상기 사용자단말기(100)들과 네트워크를 통해 접속되는 것으로, 상기 사용자단말기(100)들의 검색요청에 의해 전송된 검색 키워드를 이용하여 단계별 검색을 수행하여 그 수행된 단계별 검색을 통한 결과물을 열람할 수 있도록 상기 사용자단말기(100)들로 전송되도록 안내하는 검색서버(200);를 포함하는 시스템 및 이를 이용한 방법을 제공한다.

Description

검색엔진용 키워드 추출 시스템 및 추출 방법{Keyword extraction system for search engines and extracting method thereof}
본 발명은 검색 대상 웹 사이트에서 제품명과 회사명에 해당하는 명사를 추출하여 해당 웹 사이트의 제품 및 회사 특성에 가장 부합하는 단어를 키워드로 선정함으로써 검색엔진의 검색 특성과 최적화된 결합을 서비스하는 검색엔진용 키워드 추출 방법에 관한 것이다.
최근 들어, 인터넷 사용이 보편화되면서 사용자들은 인터넷 검색을 통하여 다양한 정보를 획득할 수 있게 되었다.  즉, 사용자들은 인터넷에의 접속이 가능한 개인용 컴퓨터 등의 단말 장치를 통해 검색 사이트에 접속한 후, 뉴스, 지식, 게임, 커뮤니티 등과 관련된 각종 컨텐츠를 검색할 수 있게 되었다.
이러한 컨텐츠는 다음과 같은 방식으로 사용자에게 제공될 수 있다.  먼저, 사용자가 단말 장치 상에서 웹 브라우저를 실행시키고 검색 서비스를 제공하는 웹 사이트에 접속한다.  사용자가 상기 웹 사이트에서 제공되는 검색 창에 검색 키워드를 입력하면, 상기 웹 사이트와 연동되는 검색 엔진은 데이터베이스로부터 상기 검색 키워드에 대응하는 다양한 컨텐츠를 추출하여 이를 사용자에게 검색 결과로서 제공한다.  이러한 검색 결과는 사전, 지식 정보, 블로그, 카페, 전문 자료, 책, 뉴스, 웹 페이지, 동영상 등과 같은 다양한 카테고리로 나뉘어져 사용자에게 전달, 표시된다.  한편, 상기와 같은 웹 사이트는 자체적으로 보유하고 있는 데이터베이스뿐만 아니라 외부 데이터베이스를 이용하여서도 검색 서비스를 제공할 수 있다.
선출원된 '키워드 광고에서 검색 정보를 추출하는 방법 및 검색 정보추출 시스템'(출원번호; 10-2004-0082019호)은 검색 요청을 발생시킨 검색자, 또는 검색 요청에 따라 검색 정보의 선별적인 추출을 가능하게 함으로써 광고주의 마케팅 전략에 최적인 키워드 광고 서비스를 제공하는 검색 정보 추출 방법 및 검색 정보 추출 시스템에 관한 것으로 도 1은 종래의 검색 정보추출 시스템에 따른 키워드 광고에서 검색 정보를 추출하는 방법을 나타낸 순서도이다.
도시된 바와 같이, 종래의 검색 정보추출 시스템에 따른 키워드 광고에서 검색 정보를 추출하는 방법은 하나 이상의 검색 정보를 포함하는 검색 정보데이터베이스를 유지하는 단계(S10)와, 소정의 키워드, 검색 결과 리스트 상의 검색 정보가 표시될 노출 위치를 지정하기 위한 지정 정보 및 상기 광고주의 계정 잔액을, 검색 정보 별로 저장하기 위한 광고주 정보 데이터베이스를 유지하는 단계와, 상기 검색 정보의 광고주로부터 상기 검색 정보의 추출 조건을 입력받는 단계와, 상기 검색 정보와 연관하여 상기 입력된 추출 조건을 상기 광고주 정보 데이터베이스에 포함시키는 단계(S20)와, 검색자로부터 키워드를 포함하는 검색 요청을 입력받는 단계(S30)와, 상기 키워드에 대응하는 하나 이상의 검색 정보 중에서, 상기 검색자 또는 상기 검색 요청과 연관된 정보에 기초하여 상기 추출 조건을 충족하는 검색 정보를 식별하는 단계(S40)와, 상기 식별된 검색 정보를 상기 지정 정보에 의거하여 노출 위치 별로 추출하는 단계(S50)와, 상기 추출된 검색 정보에 대한 입찰 처리를 통해, 각 노출 위치에서 표시되는 하나의 검색 정보를 결정하는 단계(S60)와, 상기 결정된 검색 정보를 해당 노출 위치에서 표시하는 검색 결과 리스트를, 상기 검색 요청의 응답으로 상기 검색자에게 제공하고, 상기 검색자로부터 검색 정보의 선택을 입력받는 단계(S70)와, 및 상기 선택과 관련하여 소정의 광고 비용을 생성하고, 상기 생성된 광고 비용을 상기 선택된 검색 정보에 대응되는 상기 계정 잔액으로부터 차감하는 단계(S80)로 이루어져 있다.
이와 같은, 과정을 통해 종래의 검색 정보추출 시스템에 따른 키워드 광고에서 검색 정보를 추출하는 방법은 검색 요청에 포함되는 키워드에 대응하는 검색 정보를 식별하되, 식별된 검색 정보 중에서 소정의 추출조건을 충족시키는 검색 정보 만이 추출되도록 함으로써 검색자에 대한 맞춤, 타켓 마케팅을 가능하게 하는 검색 정보 추출 방법을 제공하고 있다.
그런데 입력된 검색 키워드에 대응하는 검색 결과에는 사용자가 원하는 컨텐츠가 포함되어 있을 수도 있고 그렇지 않을 수도 있다.
만약 검색 결과에 사용자가 원하는 컨텐츠가 포함되어 있지 않다면, 사용자는 이미 입력했던 검색 키워드를 변경하거나 다른 검색 키워드를 입력하는 과정을 더 거쳐야만 비로소 자신이 원하는 컨텐츠가 포함된 검색 결과를 제공 받는다.
더욱이, 사용자가 검색 서비스를 이용함에 있어서, 검색 키워드를 단속적으로 입력함에 따라 단속적으로 검색 결과와 그에 따른 컨텐츠를 획득할 수 밖에 없었다. 그러나, 이러한 방식은 사용자가 굳이 연관된 검색 키워드를 생각해낸 후에 다시 검색 키워드 입력을 행할 것을 요하므로, 사용자에게 상당히 번거로운 문제점이 있다.
본 발명은 상기 종래기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 검색 대상 웹 사이트에서 제품명과 회사명에 해당하는 명사를 추출하여 해당 웹 사이트의 제품 및 회사 특성에 가장 부합하는 단어를 키워드로 선정함으로써 검색엔진의 검색 특성과 최적화된 결합을 서비스하는 검색엔진용 키워드 추출 방법을 제공하는데 있다.
본 발명을 달성하기 위한 기술적 사상으로 본 발명의 검색엔진용 키워드 추출 시스템은, 열람하고자 하는 검색대상 홈페이지와 연관된 검색 키워드를 전송하여 홈페이지의 검색을 요청하는 사용자단말기들과; 상기 사용자단말기들과 네트워크를 통해 접속되는 것으로, 상기 사용자단말기들의 검색요청에 의해 전송된 검색 키워드를 이용하여 단계별 검색을 수행하여 그 수행된 단계별 검색을 통한 결과물을 열람할 수 있도록 상기 사용자단말기(100)들로 전송되도록 안내하는 검색서버;를 포함하되, 상기 검색서버에는 검색엔진과; 검색대상 홈페이지들에 포함된 문장을 분석하고, 그 분석된 해당 검색대상 홈페이지들의 문장을 어휘형태소로 분리하여 저장된 어휘소별 검색 홈페이지 문장 목록 DB 및 상기 어휘소별로 구분하여 저장된 해당 검색대상 홈페이지들에 등재된 제품 및 회사 특성에 부합되는 별도의 명사에 해당하는 제품명과 회사명인 검색대상 홈페이지별 최적 검색 부응 단어들이 저장된 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB를 갖는 DB부;로 이루어지고, 상기 검색엔진은 전송된 상기 검색키워드를 상기 어휘소별 검색 홈페이지 문장 목록 DB와 매칭하여 검색하되, TF-IDF식을 이용하여 검색하는 1단계 검색을 수행하고, 상기 검색키워드와 상기 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB를 매칭하여 2단계 검색을 수행하며, 1단계 검색을 수행하여 검색된 검색대상 홈페이지들과 2단계 검색을 수행하여 검색된 검색대상 홈페이지들 간에 중복되는 검색중복 홈페이들로 이루어진 검색결과물인 검색결과 안내페이지를 생성한 후 그 생성된 검색결과 안내페이지를 검색을 요청한 해당 사용자단말기로 전송되도록 제어하되, 상기 TF-IDF식은 정보 검색과 텍스트 마이닝에서 이용하는 가중치로서 여러 문서로 이루어진 문서 군이 있을 때, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로서 TF에 IDF를 곱한 값이고, 상기 TF(Term Frequency; 단어 빈도수)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값이고, 상기 IDF(Inverse Document Frequency)는 문서 빈도수의 역수값인 것을 특징으로 한다.
삭제
본 발명의 검색엔진용 키워드 추출 시스템을 이용하여 검색과정은 검색서버에서, 검색대상 홈페이지들에 포함된 문장을 분석하고, 그 분석된 해당 검색대상 홈페이지들의 문장을 어휘형태소로 분리하여 이를 어휘소별 검색 홈페이지 문장 목록 DB에 저장하는 단계와; 검색서버에서, 상기 어휘소별로 구분하여 저장된 해당 검색대상 홈페이지들에 등재된 제품 및 회사 특성에 부합되는 별도의 명사에 해당하는 제품명과 회사명인 검색대상 홈페이지별 최적 검색 부응 단어들을 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB에 저장하는 단계와; 사용자단말기에서, 상기 검색서버에 접속한 상태에서 열람하고자 하는 검색대상 홈페이지의 검색을 위해 검색 키워드를 입력하여 검색을 요청하는 단계와; 상기 사용자단말기에서 검색요청에 의해 입력된 검색 키워드를 상기 검색서버로 전송하는 단계와; 검색서버에 의해 운영되는 검색엔진에서, 상기 전송된 검색 키워드를 상기 어휘소별 검색 홈페이지 문장 목록 DB와 매칭하여 검색하되, TF-IDF식을 이용하여 1단계 검색을 수행하는 단계와; 검색서버에 의해 운영되는 검색엔진에서, 상기 검색키워드와 상기 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB를 매칭하여 2단계 검색을 수행하는 단계와; 검색서버에 의해 운영되는 검색엔진에서, 1단계 검색을 수행하여 검색된 검색대상 홈페이지들과 2단계 검색을 수행하여 검색된 검색대상 홈페이지들 간에 중복되는 검색중복 홈페이들로 이루어진 검색결과물인 검색결과 안내페이지를 생성한 후 그 생성된 검색결과 안내페이지를 검색을 요청한 해당 사용자단말기로 전송되도록 제어하는 단계;를 포함하되, 상기 TF-IDF식은 정보 검색과 텍스트 마이닝에서 이용하는 가중치로서 여러 문서로 이루어진 문서 군이 있을 때, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로서 TF에 IDF를 곱한 값이고, 상기 TF(Term Frequency; 단어 빈도수)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값이고, 상기 IDF(Inverse Document Frequency)는 문서 빈도수의 역수값인 것을 특징으로 한다.
본 발명은 검색 대상 웹 사이트에서 명사에 해당하는 제품명과 회사명을 추출하여 해당 웹 사이트의 제품 및 회사 특성에 가장 부합하는 단어를 키워드로 선정함으로써 검색엔진의 검색 특성과 최적화된 결합을 서비스하여 주는 효과를 발휘한다.
도 1은 종래의 검색 정보추출 시스템에 따른 키워드 광고에서 검색 정보를 추출하는 방법을 나타낸 순서도,
도 2는 본 발명의 검색엔진용 키워드 추출 시스템을 나타낸 블록구성도,
도 3은 본 발명의 검색엔진용 키워드 추출 시스템의 구성 중 검색서버의 블록구성도,
도 4는 본 발명의 검색엔진용 키워드 추출 시스템을 이용하여 검색과정을 나타낸 순서도이다.
이하에서는 본 발명의 실시예의 구성 및 작용에 대하여 첨부한 도면을 참조하면서 상세히 설명하기로 한다.
도 2는 본 발명의 검색엔진용 키워드 추출 시스템을 나타낸 블록구성도이고, 도 3은 본 발명의 검색엔진용 키워드 추출 시스템의 구성 중 검색서버의 블록구성도이며, 도 4는 본 발명의 검색엔진용 키워드 추출 시스템을 이용하여 검색과정을 나타낸 순서도이다.
도시된 바와 같이, 본 발명의 검색엔진용 키워드 추출 시스템은, 크게 사용자단말기(100), 사용자단말기(100)들과 네트워크를 통해 접속되는 검색서버(200)로 이루어진다.
먼저, 사용자단말기(100)는 열람하고자 하는 검색대상 홈페이지와 연관된 검색 키워드를 후술되는 검색서버(200)로 전송하여 홈페이지의 검색을 요청하고, 그 요청에 의해 검색서버(200)로부터 검색결과 안내페이지를 전송받아 이용자가 열람할 수 있게 디스플레이하여 주는 복수의 단말로서, 개인용 컴퓨터(PC), PDA, 스마트폰을 포함하는 휴대폰, 노트북 등 다양한 종류의 단말이 이용될 수 있다.
상기 검색서버(200)는 사용자단말기(100)들과 네트워크를 통해 접속되는 것으로, 상기 사용자단말기(100)들의 검색요청에 의해 전송된 검색 키워드를 이용하여 단계별 검색을 수행하여 그 수행된 단계별 검색을 통한 결과물을 열람할 수 있도록 상기 사용자단말기(100)들로 전송되도록 안내하는 서버이다.
이와 같은, 기능을 수행하는 검색서버(200)의 세부구성은 검색엔진(210) 및 검색대상 홈페이지들에 포함된 문장을 분석하고, 그 분석된 해당 검색대상 홈페이지들의 문장을 어휘형태소로 분리하여 저장된 어휘소별 검색 홈페이지 문장 목록 DB(221) 및 상기 어휘소별로 구분하여 저장된 해당 검색대상 홈페이지들에 등재된 제품 및 회사 특성에 부합되는 별도의 명사인 제품명과 회사명에 해당하는 검색대상 홈페이지별 최적 검색 부응 단어들이 저장된 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB(222)를 갖는 DB부(220);로 이루어지고, 상기 검색엔진(210)은 전송된 상기 검색키워드를 상기 어휘소별 검색 홈페이지 문장 목록 DB(221)와 매칭하여 검색하되, TF-IDF식을 이용하여 검색하는 1단계 검색을 수행하고, 상기 검색키워드와 상기 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB(222)를 매칭하여 2단계 검색을 수행하며, 1단계 검색을 수행하여 검색된 검색대상 홈페이지들과 2단계 검색을 수행하여 검색된 검색대상 홈페이지들 간에 중복되는 검색중복 홈페이들로 이루어진 검색결과물인 검색결과 안내페이지를 생성한 후 그 생성된 검색결과 안내페이지를 검색을 요청한 해당 사용자단말기(100)로 전송되도록 제어하는 기능을 수행한다.
이때, 검색엔진(210)에서 추구하는 검색방식인 TF-IDF(Term Frequency Inverse Document Frequency)란, 정보 검색과 텍스트 마이닝에서 이용하는 가중치로서 여러 문서로 이루어진 문서 군이 있을 때, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다.
즉, TF(Term Frequency; 단어 빈도수)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이값이 높을수록 문서에서 중요하다고 생각할 수 있다.
반면에 특정한 단어가 문서 군 전체에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다.
이것을 DF (Document Frequency; 문서 빈도수)라고 하며, 이 값의 역수를 IDF (Inverse Document Frequency)라고 한다.
TF-IDF는 수식으로 TF와 IDF를 곱한 값으로 표현한다.
이와 같은, 검색엔진용 키워드 추출 시스템을 이용하여 검색과정을 설명하면 다음과 같다.
먼저, 검색서버(200)에서, 검색대상 홈페이지들에 포함된 문장을 분석하고, 그 분석된 해당 검색대상 홈페이지들의 문장을 어휘형태소로 분리하여 이를 어휘소별 검색 홈페이지 문장 목록 DB(211)에 저장(S100)해야 한다.
또한, 검색서버(200)에서, 상기 어휘소별로 구분하여 저장된 해당 검색대상 홈페이지들에 등재된 제품 및 회사 특성에 부합되는 별도의 명사인 제품명과 회사명에 해당하는 검색대상 홈페이지별 최적 검색 부응 단어들도 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB(212)에 저장(S110)해야 한다.
이처럼, 검색서버(200)는 어휘소별 검색 홈페이지 문장 목록 DB(211) 및 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB(212)에 검색대상에 해당되는 홈페이지인 검색대상 홈페이지의 검색 대응정보를 저장한 상태를 항시 유지해야 하며, 일정주기마다 업데이트를 수행한다.
이후, 사용자들은 사용자단말기(100)를 통해 검색서버(200)에 접속한 상태에서 열람하고자 하는 검색대상 홈페이지의 검색을 위해 검색 키워드를 입력하여 검색을 요청(S120)한다.
사용자단말기(100)는 네트워크를 통해 접속된 검색서버(200)로 검색요청에 의해 입력된 검색 키워드를 전송(S130)한다.
검색서버(200)에 의해 운영되는 검색엔진(210)은 전송된 검색 키워드를 상기 어휘소별 검색 홈페이지 문장 목록 DB(211)와 매칭하여 검색하되, TF-IDF식을 이용하여 1단계 검색을 수행(S140)한다.
이후, 검색서버(200)에 의해 운영되는 검색엔진(210)은 검색키워드와 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB(212)를 매칭하여 2단계 검색을 수행(S150)한다.
이후, 검색서버(200)에 의해 운영되는 검색엔진(210)은 1단계 검색을 수행하여 검색된 검색대상 홈페이지들과 2단계 검색을 수행하여 검색된 검색대상 홈페이지들 간에 중복되는 검색중복 홈페이들로 이루어진 검색결과물인 검색결과 안내페이지를 생성한 후 그 생성된 검색결과 안내페이지를 검색을 요청한 해당 사용자단말기(100)로 전송(S160)되도록 제어함으로써 이용자들에게 최적화 된 검색결과물을 열람할 수 있게 제공한다.
100 : 사용자단말기 200 : 검색서버
210 : 검색엔진 220 : DB부
221 : 어휘소별 검색 홈페이지 문장 목록 DB
222 : 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB

Claims (3)

  1. 열람하고자 하는 검색대상 홈페이지와 연관된 검색 키워드를 전송하여 홈페이지의 검색을 요청하는 사용자단말기(100)들과;
    상기 사용자단말기(100)들과 네트워크를 통해 접속되는 것으로, 상기 사용자단말기(100)들의 검색요청에 의해 전송된 검색 키워드를 이용하여 단계 별 검색을 수행하여 그 수행된 단계별 검색을 통한 결과물을 열람할 수 있도록 상기 사용자단말기(100)들로 전송되도록 안내하는 검색서버(200);를 포함하되,
    상기 검색서버(200)에는 검색엔진(210)과; 검색대상 홈페이지들에 포함된 문장을 분석하고, 그 분석된 해당 검색대상 홈페이지들의 문장을 어휘형태소로 분리하여 저장된 어휘소별 검색 홈페이지 문장 목록 DB(221) 및 상기 어휘소별로 구분하여 저장된 해당 검색대상 홈페이지들에 등재된 제품 및 회사 특성에 부합되는 별도의 명사에 해당하는 제품명과 회사명인 검색대상 홈페이지별 최적 검색 부응 단어들이 저장된 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB(222)를 갖는 DB부(220);로 이루어지고,
    상기 검색엔진(210)은 전송된 상기 검색키워드를 상기 어휘소별 검색 홈페이지 문장 목록 DB(221)와 매칭하여 검색하되, TF-IDF식을 이용하여 검색하는 1단계 검색을 수행하고, 상기 검색키워드와 상기 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB(222)를 매칭하여 2단계 검색을 수행하며, 1단계 검색을 수행하여 검색된 검색대상 홈페이지들과 2단계 검색을 수행하여 검색된 검색대상 홈페이지들 간에 중복되는 검색중복 홈페이들로 이루어진 검색결과물인 검색결과 안내페이지를 생성한 후 그 생성된 검색결과 안내페이지를 검색을 요청한 해당 사용자단말기(100)로 전송되도록 제어하되, 상기 TF-IDF식은 정보 검색과 텍스트 마이닝에서 이용하는 가중치로서 여러 문서로 이루어진 문서 군이 있을 때, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로서 TF에 IDF를 곱한 값이고, 상기 TF(Term Frequency; 단어 빈도수)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값이고, 상기 IDF(Inverse Document Frequency)는 문서 빈도수의 역수값인 것을 특징으로 하는 검색엔진용 키워드 추출 시스템.
  2. 삭제
  3. 검색서버에서, 검색대상 홈페이지들에 포함된 문장을 분석하고, 그 분석된 해당 검색대상 홈페이지들의 문장을 어휘형태소로 분리하여 이를 어휘소별 검색 홈페이지 문장 목록 DB에 저장하는 단계(S100)와;
    검색서버에서, 상기 어휘소별로 구분하여 저장된 해당 검색대상 홈페이지들에 등재된 제품 및 회사 특성에 부합되는 별도의 명사인 검색대상 홈페이지별 최적 검색 부응 단어들을 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB에 저장하는 단계(S110)와;
    사용자단말기에서, 상기 검색서버에 접속한 상태에서 열람하고자 하는 검색대상 홈페이지의 검색을 위해 검색 키워드를 입력하여 검색을 요청하는 단계(S120)와;
    상기 사용자단말기에서 검색요청에 의해 입력된 검색 키워드를 상기 검색서버로 전송하는 단계(S130)와;
    검색서버에 의해 운영되는 검색엔진에서, 상기 전송된 검색 키워드를 상기 어휘소별 검색 홈페이지 문장 목록 DB와 매칭하여 검색하되, TF-IDF(Term Frequency Inverse Document Frequency)식을 이용하여 1단계 검색을 수행하는 단계(S140)와;
    검색서버에 의해 운영되는 검색엔진에서, 상기 검색키워드와 상기 검색대상 홈페이지별 최적 검색 부응 단어 목록 DB를 매칭하여 2단계 검색을 수행하는 단계(S150)와;
    검색서버에 의해 운영되는 검색엔진에서, 1단계 검색을 수행하여 검색된 검색대상 홈페이지들과 2단계 검색을 수행하여 검색된 검색대상 홈페이지들 간에 중복되는 검색중복 홈페이들로 이루어진 검색결과물인 검색결과 안내페이지를 생성한 후 그 생성된 검색결과 안내페이지를 검색을 요청한 해당 사용자단말기로 전송되도록 제어하는 단계(S160);를 포함하되,
    상기 TF-IDF식은 정보 검색과 텍스트 마이닝에서 이용하는 가중치로서 여러 문서로 이루어진 문서 군이 있을 때, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로서 TF에 IDF를 곱한 값이고, 상기 TF(Term Frequency; 단어 빈도수)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값이고, 상기 IDF(Inverse Document Frequency)는 문서 빈도수의 역수값인 것을 특징으로 하는 검색엔진용 키워드 추출 방법.
KR1020110087376A 2011-08-30 2011-08-30 검색엔진용 키워드 추출 시스템 및 추출 방법 KR101308821B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110087376A KR101308821B1 (ko) 2011-08-30 2011-08-30 검색엔진용 키워드 추출 시스템 및 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110087376A KR101308821B1 (ko) 2011-08-30 2011-08-30 검색엔진용 키워드 추출 시스템 및 추출 방법

Publications (2)

Publication Number Publication Date
KR20130024127A KR20130024127A (ko) 2013-03-08
KR101308821B1 true KR101308821B1 (ko) 2013-09-23

Family

ID=48176248

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110087376A KR101308821B1 (ko) 2011-08-30 2011-08-30 검색엔진용 키워드 추출 시스템 및 추출 방법

Country Status (1)

Country Link
KR (1) KR101308821B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077366B (zh) * 2014-06-13 2018-03-23 北京百度网讯科技有限公司 一种在网络设备中用于确定特征信息的方法和装置
KR101612291B1 (ko) * 2014-10-30 2016-04-26 한국과학기술정보연구원 자연어 처리를 활용한 제품별 산업구조 분석방법 및 분석장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070029389A (ko) * 2005-09-09 2007-03-14 주식회사 엠퓨처 핵심 키워드를 이용한 광고 서비스 제공 방법, 시스템 및이를 구현하기 위한 프로그램이 기록된 기록매체
KR20070091907A (ko) * 2006-03-08 2007-09-12 조광현 다단 웹 사이트 검색 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070029389A (ko) * 2005-09-09 2007-03-14 주식회사 엠퓨처 핵심 키워드를 이용한 광고 서비스 제공 방법, 시스템 및이를 구현하기 위한 프로그램이 기록된 기록매체
KR20070091907A (ko) * 2006-03-08 2007-09-12 조광현 다단 웹 사이트 검색 방법 및 시스템

Also Published As

Publication number Publication date
KR20130024127A (ko) 2013-03-08

Similar Documents

Publication Publication Date Title
US8001135B2 (en) Search support apparatus, computer program product, and search support system
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
CN107092615B (zh) 来自文档的查询建议
US8650483B2 (en) Method and apparatus for improving the readability of an automatically machine-generated summary
KR101060594B1 (ko) 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
US20070067294A1 (en) Readability and context identification and exploitation
US20050222989A1 (en) Results based personalization of advertisements in a search engine
KR100943962B1 (ko) 감성 기반의 아이템 검색 서비스 제공 방법, 데이터베이스구축 방법 및 검색 서버
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
US20130117303A1 (en) Data search device, data search method, and program
KR20090006464A (ko) 사용자 맞춤형 컨텐츠 제공 장치, 그 방법 및 기록매체
CN111194457A (zh) 专利评估判定方法、专利评估判定装置以及专利评估判定程序
JP2011103075A (ja) 抜粋文抽出方法
KR101606758B1 (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
US8838616B2 (en) Server device for creating list of general words to be excluded from search result
US9152698B1 (en) Substitute term identification based on over-represented terms identification
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP2017117021A (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
KR101308821B1 (ko) 검색엔진용 키워드 추출 시스템 및 추출 방법
KR20110023304A (ko) 개념 네트워크 기반 사용자 프로파일 구성 방법 및 시스템과 이를 이용한 개인화 질의 확장 시스템
US9208233B1 (en) Using synthetic descriptive text to rank search results
Gretzel et al. Intelligent search support: Building search term associations for tourism-specific search engines
US9208232B1 (en) Generating synthetic descriptive text
JP2003208447A (ja) 文書検索装置、文書検索方法、文書検索プログラム及び文書検索プログラムを記録した媒体
KR20150022583A (ko) 키워드를 추출하는 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161021

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180320

Year of fee payment: 5

R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20190612

Year of fee payment: 6

R401 Registration of restoration