KR20160091756A - 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치 - Google Patents

키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치 Download PDF

Info

Publication number
KR20160091756A
KR20160091756A KR1020150012261A KR20150012261A KR20160091756A KR 20160091756 A KR20160091756 A KR 20160091756A KR 1020150012261 A KR1020150012261 A KR 1020150012261A KR 20150012261 A KR20150012261 A KR 20150012261A KR 20160091756 A KR20160091756 A KR 20160091756A
Authority
KR
South Korea
Prior art keywords
result
target
content
web page
search engine
Prior art date
Application number
KR1020150012261A
Other languages
English (en)
Other versions
KR101667199B1 (ko
Inventor
공성랑
김회승
김종필
전효빈
Original Assignee
(주)해나소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)해나소프트 filed Critical (주)해나소프트
Priority to KR1020150012261A priority Critical patent/KR101667199B1/ko
Publication of KR20160091756A publication Critical patent/KR20160091756A/ko
Application granted granted Critical
Publication of KR101667199B1 publication Critical patent/KR101667199B1/ko

Links

Images

Classifications

    • G06F17/3053
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/30864

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

키워드 검색을 통한 대상 검색 엔진에서 검색되는 검색 결과 웹 페이지를 기초로 분석 대상 웹 페이지의 품질을 상대적으로 평가하는 컴퓨팅 장치가 제공된다. 상대적 품질 지수 평가 장치는, 목표 키워드로 대상 검색 엔진에서 검색되는 레퍼런스 페이지와 분석 대상 웹 페이지를 동일한 분석 알고리즘으로 분석하여 생성한 결과를 상대적으로 비교하여 품질 지수를 산출할 수 있다. 이때 분석 대상은 웹 페이지를 구성하는 요소가 되고, 분석 알고리즘은 검색 엔진에 상응하는 검색 최적화 기준이 적용될 수 있다.

Description

키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치{RELATIVE QUALITY INDEX ESTIMATION APPARATUS OF THE WEB PAGE USING KEYWORD SEARCH}
웹 페이지의 품질 지수 평가에 연관되며, 보다 구체적으로는 목표 키워드와 대상 검색 엔진에서 통해 검색되는 검색 결과 웹 페이지를 기초로 분석 대상 웹 페이지의 품질을 상대적으로 평가하는 컴퓨팅 장치에 연관된다.
미국의 경제학자 롤랜드 홀(Rolland Hall)은 소비자의 구매과정을 단계 별로 나타낸 AIDMA 이론을 제시하였다. AIDMA 이론은 소비자가 Attention, Interest, Desire, Memory, Action 단계의 순서로 상품을 구매한다고 설명한다. 광고 등을 통해 소비자에게 상품에 대한 주의를 끄는 단계(Attention), 소비자가 상품에 대한 흥미를 가지는 단계(Interest), 소비자가 상품을 원하게 되는 단계(Desire), 당장 구매하지 않더라도 소비자의 머리 속에 상품을 각인하는 단계(Memory), 마지막으로 소비자가 구매를 결정하고 결제를 하는 행동 단계(Action)로써, 마케팅과 직접 연관된 단계는 Attention 단계와 Memory 단계가 된다. Attention 단계에서는 잠정적인 소비자에게 제품을 노출할 수 있도록 다양한 방법으로 광고를 하고, Memory 단계에서는 기업이 자사의 제품에 좋은 기억을 심어주기 위한 다양한 마케팅을 적용하게 된다.
하지만, 최근 인터넷의 발달로 소셜 네트워크가 일상화되면서 AIDMA 이론이 재편성되어 AISAS 이론이 새롭게 등장했다. AISAS 이론은 Attention, Interest, Search, Action, Share 단계를 포함하는데, 새로운 행동 양식으로 검색(Search)과 공유(Share) 단계가 추가되었다. 구매가 완료되면 단계가 종료하는 AIDMA 이론과 달리 AISAS 이론은 SAS 단계가 반복될 수 있다. 즉, 소비자는 흥미가 생기는 제품에 대해서 구매 전에 인터넷 검색을 하고, 구매한 후에는 구매 경험을 소셜 네트워크를 통해 타인과 공유한다. 나아가 스마트폰이나 태블릿의 등장은 기존 PC를 활용한 AISAS 에서 관심(Interest)과 검색(Search)이 동시에 일어나는 변화를 가져왔다.
이와 같은 소비패턴의 변화는 마케팅의 변화를 가져왔고, 새로운 행동 양식인 검색과 공유에 마케팅의 포인트가 맞춰지고 있다. 하지만, 소비자가 제품 구매를 공유하기 위해 작성하는 온라인 컨텐츠는 구성요소 및 종류가 다양하고, 인터넷 검색 결과는 온라인 컨텐츠의 내용뿐 만 아니라 검색어, 검색 엔진, 또는 검색 대상 등 다양한 요소에 의하여 가변적이기 때문에 검색(Search) 단계에서 어떠한 내용을 공유(Share) 하게 될지 예측하기 어려운 점이 있다.
한국공개특허공보 제10-2013-0043297호, 2013.04.30 공개.
일측에 따르면, 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는: 목표 키워드에 대응하여 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 분석 알고리즘으로 분석한 제2 결과를 생성하는 분석부; 및 상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 연산부를 포함하는 컴퓨팅 장치가 제공된다. 상기 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 미리 지정된 수준 이상에서 랭크되는 것일 수 있으며, 미리 지정된 수준은, 상위에 랭크되는 순서로 소정 개수만큼의 상기 레퍼런스 페이지로 결정될 수 있다. 상기 제1 컨텐츠 및 상기 제2 컨텐츠는, 제목, 본문, 하이퍼링크, 이미지, 음성, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함할 수 있다.
일실시예에 따르면, 상기 분석 알고리즘은, 상기 제1 컨텐츠를 통계적으로 분석하고, 상기 분석된 결과를 기초로 상기 검색 엔진의 검색 최적화 기준에 대응하는 권고 값을 산출하여 상기 제1 결과로 설정할 수 있으며, 이때 상기 검색 최적화 기준은, 글자수, 본문 내 키워드 수, 이미지 포함 수, 동영상 포함 수, 지도 포함 수, 코멘트 수, 공감 수, 태그 수, 키워드 포함된 태그의 수, 제목에 키워드 포함여부, 키워드로 시작하는 제목여부 또는 맵 연동수 중 어느 하나 이상을 포함할 수 있다. 상기 검색 최적화 기준은 상기 대상 검색 엔진에 상응하여 결정되며, 상기 대상 검색 엔진은 하나 이상일 수 있다. 상기 분석 알고리즘은, 검색 순위에 따른 가중치를 상기 레퍼런스 페이지에 부여하여 상기 권고 값에 상기 검색 순위를 반영할 수 있다.
일실시예에 따르면, 상기 레퍼런스 페이지를 구성하는 데이터를 문서 객체 모델(Document Object Model; DOM)로 변환하고, 상기 문서 객체 모델로부터 계층적으로 상기 제1 컨텐츠를 추출할 수 있고, 상기 대상 검색 엔진의 컨텐츠 출력 방식에 상응하는 규칙을 가지는 봇(bot)을 이용하여 상기 레퍼런스 페이지에서 자동으로 제1 컨텐츠를 추출할 수 있다.
일실시예에 따르면, 상기 품질 지수를 출력하는 출력부를 더 포함하되, 상기 출력부는, 상기 품질 지수를 시각적으로 나타낸 통계 그래프를 제공하거나 상기 품질 지수에 따라 미리 작성된 분석내용 설명 및 추천 작성 방법을 포함할 수 있다.
다른 일측에 따르면, 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는: 목표 키워드에 대응하여 복수 개의 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 상기 검색에 사용된 대상 검색 엔진에 상응하는 복수 개의 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 복수 개의 분석 알고리즘으로 분석한 제2 결과를 생성하는 분석부; 및 상기 대상 검색 엔진으로 분류된 상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 연산부를 포함하는 컴퓨팅 장치가 제공된다. 상기 연산부는, 상기 제1 결과로부터 상기 대상 검색 엔진에 공통되는 요소를 추출하여 권고 값을 설정하고, 상기 권고 값과 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 보편 지수를 더 계산할 수 있다.
도 1은 일실시예에 따른 컴퓨팅 장치를 나타낸 블록도이다.
도 2는 사용자가 일실시예에 따른 컴퓨팅 장치의 사용 예를 나타낸 도면이다.
도 3은 일실시예에서 대상 검색 엔진으로부터 검색되는 결과 화면의 예시이다.
도 4는 일실시예에서 사용될 수 있는 웹 페이지의 예시이다.
도 5는 일실시예에서 웹 페이지 수집 장치를 나타낸 블록도이다.
도 6은 일실시예에 따른 웹 페이지 상대적 품질 지수 계산 방법의 흐름도이다.
도 7은 다른 실시예에서 복수 개의 대상 검색 엔진으로부터 검색되는 결과 화면의 예시이다.
이하에서, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 이러한 실시예들에 의해 권리범위가 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명에서 사용되는 용어는, 연관되는 기술 분야에서 일반적으로 보편적인 것으로 선택되었으나, 기술의 발달 및/또는 변화, 관례, 기술자의 선호 등에 따라 다른 용어가 있을 수 있다. 따라서, 아래 설명에서 사용되는 용어는 기술적 사상을 한정하는 것으로 이해되어서는 안되며, 실시예들을 설명하기 위한 예시적인 용어로 이해되어야 한다.
또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세한 그 의미를 기재할 것이다. 따라서 아래 설명에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가지는 의미와 명세서 전반에 걸친 내용을 토대로 이해되어야 한다.
도 1은 일실시예에 따른 컴퓨팅 장치(100)를 나타낸 것으로, 분석부(110) 및 연산부(120)를 포함할 수 있다. 컴퓨팅 장치(100)는 통신부(미도시)를 통해 네트워크와 연결될 수 있으며, 통신부는 유선 또는 무선의 다양한 통신 수단을 활용하여 네트워크 상의 수많은 종류의 온라인 문서, 컨텐츠, 자료 등에 접근할 수 있다. 컴퓨팅 장치(100)는 적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서에 의해 적어도 일시적으로 분석부(110) 및 연산부(120)이 구현된다. 예컨대 컴퓨팅 장치는 PC, 서버, 스마트 폰, 태블릿 등 다양한 종류의 디바이스가 될 수 있다.
도 1을 설명하기에 앞서, 도 2를 살펴보면 도 2는 사용자(200)가 도 1의 일실시예에 따른 컴퓨팅 장치(100)를 사용하는 사용 예를 나타낸 도면이다. 예시적으로 그러나 한정되지 않는 하나의 예를 들어 설명한다. 만일 사용자가 온라인 게시글(http://blog.com/20154)을 작성하고, 목표 키워드("홍대맛집")에 의해 검색되는 품질 지수가 궁금한 경우, 도 2와 같이 컴퓨팅 장치(100)에 목표 키워드/평가 대상을 입력하게 된다. 컴퓨팅 장치(100)는 "홍대맛집"으로 검색된 다른 웹 페이지를 비교 대상으로 수집/분석하여 사용자의 온라인 게시글에 대한 품질 지수를 계산하게 된다. 그리고 산출된 품질지수를 진단결과 리포트 혹은 다양한 종류의 그래프로 표현되는 분석 결과 리포트로 사용자에게 제공할 수 있다. 다시 말해, 컴퓨팅 장치(100)는 사용자가 원하는 목표 키워드와 평가 대상(분석 대상 웹 페이지)을 입력하면 대상 검색 엔진에서 다른 웹 페이지와 비교하여 상대적으로 어떠한 품질을 가지는지 분석 리포트를 제공하여 줄 수 있다. 이하에서는 구체적으로 컴퓨팅 장치(100)의 각 구성요소를 설명한다.
분석부(110)는 목표 키워드에 대응하여 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 분석 알고리즘으로 분석한 제2 결과를 생성할 수 있다.
검색 엔진에서 키워드를 검색하면 웹 페이지들 중에서 키워드를 포함하거나 관련된 것이 검색 결과로 피드백 된다. 검색 대상이 되는 웹 페이지는 인터넷 상의 웹 문서들을 총칭한 용어로, 네트워크를 통해 접근할 수 있는 모든 종류의 온라인 문서, 컨텐츠, 자료 등이 될 수 있으며, 다양한 텍스트는 물론 이미지, 소리, 동영상 파일도 내장할 수 있는 특징이 있다. 예컨대, 웹 페이지는 홈페이지 게시글, 커뮤니티 게시글, 질문글, 답변글, 블로그, SNS 페이지, PDF 문서 등이 될 수 있다. 일실시예에서는 웹 페이지를 대상으로 키워드 검색을 하여 상대적 품질 지수를 평가할 수 있다. 따라서 분석부(110)는 목표 키워드에 대응하여 대상 검색 엔진에서 검색을 수행한 결과인 레퍼런스 페이지와 분석 대상 웹 페이지를 분석한다. 여기서, 레퍼런스 페이지와 분석 대상 웹 페이지는 모두 웹 페이지에 해당하고, 목표 키워드로부터 검색될 수 있지만, 레퍼런스 페이지와 분석 대상 웹 페이지가 동일한 종류일 필요는 없으며, 다른 종류의 웹 페이지인 경우에도 상대적 품질 지수를 평가할 수 있다.
보다 상세하게 분석부(110)는 웹 페이지를 구성하는 구성요소인 컨텐츠를 분석하는데, 레퍼런스 페이지로부터 추출된 제1 컨텐츠와 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠가 분석 대상이 된다. 제1 컨텐츠와 제2 컨텐츠는 제목, 본문, 하이퍼링크, 이미지, 소리, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함할 수 있다. 이는 예시적인 것으로 제1 컨텐츠 및 제2 컨텐츠에 포함될 수 있는 것이지 이들로 제한되지 않으며 온라인 상의 새로운 표현 프로토타입이 생기면 당연히 새로운 프로토타입도 제1 컨텐츠 또는 제2 컨텐츠에 포함될 수 있을 것이다. 즉, 웹 페이지를 구성하는 모든 요소는 분석 대상으로서 제1 컨텐츠 또는 제2 컨텐츠가 될 수 있다.
분석부(110)는 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과와 제2 컨텐츠를 동일한 분석 알고리즘으로 분석한 제2 결과를 각각 생성한다. 제1 컨텐츠가 제목을 포함하는 경우 분석 알고리즘은 목표 키워드와 관련하여 제목을 분석하기 위해 제목을 구성하는 글자의 수, 폰트, 강조여부, 키워드 포함 여부, 키워드로 시작하는지 여부 등을 판단할 수 있다.
검색 엔진은 하나가 아니며, 각 검색 엔진마다 검색 대상이 달라질 수 있고 검색 결과를 나타내는 방식도 달라질 수 있다. 도 3은 일실시예에 따라 대상 검색 엔진으로부터 검색되는 결과 화면(300)의 예시이다. 검색 엔진마다 검색 결과가 상이하게 배치될 수 있기 때문에 일 예로서 도 3을 설명하고자 한다.
도 3을 참조하면, 목표 키워드를 대상 검색 엔진이 제공하는 인터페이스(310)에 입력하고 검색(320)을 수행하면, 결과 리스트(330)에 검색된 레퍼런스 페이지들(400)이 배치된다. 레퍼런스 페이지(400)의 개수는 목표 키워드에 따라 달라질 수 있기 때문에 검색 결과가 많은 경우 도 2와 같이 결과 리스트(330)로 N 개의 페이지를 링크하여 레퍼런스 페이지(400)를 제공할 수 있다. 또한, 대상 검색 엔진에 따라 결과 화면(300)이 상이해지면, 한 화면에서 확인할 수 있는 레퍼런스 페이지의 개수도 달라질 수 있다. 이는 디스플레이 장치의 가독성과 관련하여 결정될 수 있으며, 구현 환경에 따라 적절하게 선택될 수 있다.
도 4는 일실시예에서 사용될 수 있는 웹 페이지(400)의 예시이다. 일실시예에서 웹 페이지(400)는 목표 키워드로 검색되는 레퍼런스 페이지 또는 분석 대상 웹 페이지가 될 수 있다. 웹 페이지의 종류는 너무나 다양하기 때문에 도 4는 일 예로서 설명을 위한 것이다. 웹 페이지(400)는 제목(401), 작성 일시(402), 이미지(403), 텍스트로 구성될 수 있는 본문(404), 본문의 내용과 관련되어 작성자에 의해 선택된 단어를 나타내는 태그(405) 등을 포함할 수 있다. 도 4에서는 일부 구성요소를 표현한 것으로 표현된 구성요소가 삭제되거나, 다른 구성요소 추가될 수 있음은 당연하다. 앞서 설명한 것과 같이 웹 페이지를 구성하는 제1 컨텐츠 및 제2 컨텐츠가 웹 페이지(400)의 구성요소가 될 수 있다.
일실시예에서 적어도 하나의 레퍼런스 페이지는ㅈ목표 키워드를 쿼리로 대상 검색 엔진에서 검색한 검색 결과에서 미리 지정된 수준 이상에서 랭크(Rank)되는 것일 수 있다. 레퍼런스 페이지는 분석 대상 웹 페이지의 품질 지수를 계산하기 위한 비교 대상을 의미하는데, 목표 키워드로 검색되는 모든 웹 페이지를 레퍼런스 페이지로 볼 수도 있고 일정 수준을 만족하는 웹 페이지만을 레퍼런스 페이지로 볼 수도 있다. 예를 들어, 검색 결과로 피드백 되는 첫 화면에 포함되는 웹 페이지를 레퍼런스 페이지로 보거나 검색 결과 검색 순위 100위에 포함되는 웹 페이지를 레퍼런스 페이지로 볼 수 있다. 또한 대상 검색 엔진 또는 결과 화면의 디스플레이 장치에 상응하여 노출되는 레퍼런스 페이지의 개수나 배치 관계가 달라질 수 있으므로 동일하게 지정된 수준에 의해서도 레퍼런스 페이지의 실제 개수는 상이해질 수 있다.
이와 같이 미리 지정된 수준은, 상위에 랭크(Rank)되는 순서로 소정 개수만큼의 상기 레퍼런스 페이지로 결정될 수 있다. 검색 결과로서 랭크되는 순서와 개수에 대응하여 결정될 수 있는 것을 의미한다. 실시자는 품질 지수를 산출하는 목적 및 비교 대상에 따라 적절히 선택하여 결정할 수 있을 것이다.
키워드 검색에 대응되는 검색 결과는 검색 최적화 기준에 따라 달라질 수 있다. 검색 최적화 기준(Search Engine Optimization; SEO) 이란, 검색 엔진에 의해 키워드로 검색된 결과에 순서 즉 검색 순위(Retrieval ranking)를 매기는 지표를 말한다. 검색 엔진에 따라 검색 최적화 기준이 달라질 수 있다. 예컨대 검색 최적화 기준에 부합할수록 높은 검색 순위로 웹 페이지가 배치될 것이고 검색 최적화 기준에 부합하지 못할수록 낮은 검색 순위로 웹 페이지가 배치되는 것이다. AISAS 이론의 검색(Search) 과정에서 제품과 관련된 키워드를 목표 키워드로 할 때 검색 최적화 기준에 부합하는 웹 페이지들이 잠정 소비자들에게 노출되기 쉬울 것이고, 반대로 구매자가 작성한 공유(Share) 게시글이 검색 최적화 기준에 부합 할수록 타인과 공유할 수 있는 확률이 높아지게 된다. 따라서 검색 최적화 기준은 검색 엔진에 상응하여 결정될 수 있으며 목적하는 검색 엔진에서 검색 최적화 기준에 따라 웹 페이지의 품질 지수를 산출하면 해당 검색 엔진의 마케팅 수단에 활용할 수 있는 효과를 가질 수 있다.
도 1의 분석부(110)는 제1 결과 및 제2 결과를 생성하기 위해 분석 알고리즘을 이용하는데, 일실시예에서 상기 분석 알고리즘은 제1 컨텐츠를 통계적으로 분석하고 분석된 결과를 기초로 상기 대상 검색 엔진의 검색 최적화 기준(SEO)에 대응하는 권고 값(Guideline)을 산출하여 제1 결과로 설정할 수 있다.
검색 최적화 기준(SEO)은, 글자수, 본문 내 키워드 수, 이미지 포함 수, 소리 포함 수, 동영상 포함 수, 지도 포함 수, 코멘트 수, 공감 수, 태그 수, 키워드 포함된 태그의 수, 제목에 키워드 포함여부, 키워드로 시작하는 제목여부 또는 맵 연동수 중 어느 하나 이상을 포함할 수 있다. 이는 예시적인 것으로 제한하여 해석될 것은 아니며 웹 페이지를 구성하는 구성요소(예컨대, 일실시예에서의 제1 컨텐츠 또는 제2 컨텐츠)를 평가하는 지표가 될 수 있다면 무엇이든 검색 최적화 기준(SEO)의 구성요소가 될 수 있다. 검색 엔진마다 검색 최적화 기준(SEO)에 포함되는 구성요소의 개수나 종류가 달라질 수 있으며 그 구성요소마다 가중치가 다르게 주어질 수도 있다.
한편, 분석 알고리즘은 검색 순위(Retrieval ranking)에 따른 가중치를 레퍼런스 페이지에 부여하여 권고 값(Guideline)에 검색 순위를 반영할 수 있다. 즉 인기 게시물의 경우 일반 게시글에 비해 권고 값 설정에 더 큰 영향을 끼칠 수 있도록 하는 것이다. 인기 게시글은 대상 검색 엔진의 검색 최적화 기준에 많이 부합한다고 보아 그 정도를 가중치로 반영하는 것이다.
다시 도 1로 돌아가서, 연산부(120)는 분석부(110)가 생성한 제1 결과와 제2 결과를 비교하여 분석 대상 웹 페이지의 품질 지수를 계산할 수 있다. 품질 지수란, 웹 페이지가 목표 키워드에 대응하여 대상 검색 엔진에서 검색되는 적어도 하나 이상의 레퍼런스 페이지와 비교하여 결정되는 상대적 지수이다. 품질 지수는 제1 결과와 제2 결과를 상대적으로 비교하여 산출되며, 구체적으로 제1 결과를 통계적으로 분석한 후 분석된 결과를 기초로 산출된 권고 값을 기준으로 제2 결과를 비교함으로써 품질 지수를 계산할 수도 있다.
다음은 일실시예에서 예시적으로 사용한 품질 지수 계산 방법을 설명한다.
Figure pat00001
ak는 제1 컨텐츠의 각 항목을 나타내고, Ai는 레퍼런스 페이지의 제1 컨텐츠 값의 각 항목의 합의 평균을 나타낸다. 또는, ak는 제2 컨텐츠의 각 항목을 나타내고, Ai는 제2 컨텐츠 값의 각 항목의 합의 평균을 나타낸다.
레퍼런스 페이지 중에서 가장 상위에 랭크되는 일정한 양의 데이터들은 과도한 컨텐츠 포스팅과 같이 의미 없는 데이터에 해당할 수 있으므로, 분석 대상에서 제외할 필요가 있다. 또한 레퍼런스 페이지 중에서 가장 하위에 랭크되는 일정한 양의 데이터들 역시 의미 없는 데이터로 간주할 수 있는데, 이는 어뷰징된 수치 값이 환산되어 검색 순위가 매겨진 것으로 볼 수 있기 때문이다. 따라서 가장 상위(max) 및 가장 하위(min)에 랭크된 각각의 10 %를 불용처리 한 후, 정규화한 권고 값 di를 아래 수학식 2와 같이 계산할 수 있다.
Figure pat00002
수학식 1과 수학식 2를 이용하여 제2 컨텐츠의 각 항목에 상응하는 제2 결과로부터 품질 지수를 계산하는 식은 아래 수학식 3과 같이 정의할 수 있다.
Figure pat00003
수학식 3의 변수는 수학식 1 및 수학식 2와 같고, 백분위 점수로 산출된다. 제2 컨텐츠의 각 항목에 상응하기 때문에 예를 들어, 작성 일시, 글자수와 같은 항목에 대해 백분위 점수를 알 수 있다.
목표 키워드로 검색되는 레퍼런스 페이지를 비교 대상으로 분석 대상 웹 페이지를 상대적으로 비교한 품질 지수를 절대적 수치로 산출하기 때문에 직관적으로 분석 대상 웹 페이지의 품질을 이해하기 쉽다. 품질 지수가 높을수록 목표 키워드로 검색된 레퍼런스 페이지들 중에서 상위에 랭크된 웹 페이지와 유사한 것을 의미하고 대상 검색 엔진에 따라서 다른 기준(검색 최적화 기준)을 적용하기 때문에 해당 검색 엔진에서 목표 키워드에 의해 현재 분석 대상 웹 페이지의 랭킹을 예측할 수 있을 뿐만 아니라 부족한 점을 제2 결과에 대한 품질 지수의 항목을 통해 파악할 수 있는 효과를 가진다.
일실시예에서 품질 지수를 출력하는 출력부를 더 포함할 수 있다. 출력부는 품질 지수에 따라 미리 작성된 분석 내용 설명 및 추천 작성 방법을 포함하는 가이드를 제공할 수 있다. 예를 들어, 백분위 점수에 따라 "글자수가 충분합니다."와 같은 정성적인 분석 내용 설명을 포함할 수 있고, "작성 일시가 너무 오래 되었습니다."라는 분석 내용 설명에 대응해서는 "새로 웹 페이지를 작성하세요."와 같은 추천 장석 방법을 제시할 수 있다. 도 2에서 분석 리포트를 제공하는 것이 일 예이며, 이와 같은 가이드를 가시적으로 표현할 수 있는 다양한 방법으로 실시자에게 피드백할 수 있다.
도 5는 일실시예에서 웹 페이지 수집 장치(500)를 나타낸 블록도로서, 비교 대상이 되는 웹 페이지 및 그로부터 제1 컨텐츠를 수집하는 방법을 상세히 설명하고자 한다. 웹 페이지 수집 장치(500)는 사용자로부터 목표 키워드와 평가 대상을 입력 받아서 평가 대상에 대한 상대적 품질 지수 산출을 위해 스케줄 모듈(510)에 작업을 할당할 수 있다. 스케줄 모듈(510)은 목표 키워드와 평가 대상인 URL 정보 등을 저장 모듈(550)에 저장할 수 있다. 그리고 평가 대상을 대기 작업 큐에 등록시켜 순차적으로 비교 대상 수집을 수행하게 할 수 있다. 대기 작업 큐는 복수의 가상 작업 모듈(Job1, Job2, …) 로 구성된 것으로, 가상 작업 모듈은 복수의 스크랩핑 봇(scraping bot) (520)을 이용하여 웹 페이지를 수집할 수 있다. 약 100여 개의 스크랩핑 봇(520)이 대기 작업 큐를 호출하면서 필요한 작업을 할당 받게 된다. 이때 검색된 결과들은 동일 도메인 영역이 아닐 수 있기 때문에 크로스 도메인(Cross Domain) 제어 모듈(530)이 특정 포털 사이트의 상위 랭크된 미리 지정된 수준의 레퍼런스 페이지를 자동으로 스크래핑 할 수 있다. 스크랩핑 봇들(520)은 레퍼런스 페이지를 자동으로 스크랩핑 하면서, 하위 모듈을 가지고 자동으로 데이터를 수집할 수 있다. 하위 모듈은 제목, 텍스트, 이미지 등과 같은 컨텐츠를 분류할 수 있는 분류 모듈 또는 광고 등을 자동으로 제거할 수 있는 필터링 모듈 등이 될 수 있다. 스크랩핑 봇들(520)이 수집한 데이터는 수집 모듈(540)에 의해 2차적으로 제1 컨텐츠를 추출할 수 있는 단계를 거칠 수 있다. 원시 데이터(Raw Data) 자체를 수집하고, 수집된 원시 텍스트 데이터에서 문서 객체 모델(Document Object Model; DOM)로 변환한 후, 계층적 데이터 수집이 가능한 형태로 변환하게 된다. 그리고 제목, 메타 태그, 텍스트 개수, 강조 글 개수, 현재 순위 등과 같은 항목 별로 데이터를 수집하게 된다. 이는 원시 데이터를 구성하는 요소에 따라 결정될 수 있다. 마지막으로 이미지, 동영상, 링크 등과 같은 하이퍼 미디어를 수집할 수 있다. 이와 같이 수집된 데이터는 가공된 상태인 제1 컨텐츠 항목에 대응하여 저장 모듈(550)에 저장될 수 있으며, 이후 저장된 데이터는 갱신될 수도 있다. 이와 같은 방법으로 일실시예에서 레퍼런스 페이지를 수집하고 제1 컨텐츠를 자동으로 추출할 수 있다. 이는 예시적인 방법으로 구현 환경에 따라 다르게 실시할 수도 있음은 당연할 것이다.
이와 같이 일실시예에서는 레퍼런스 페이지를 구성하는 데이터를 문서 객체 모델(Document Object Model; DOM)로 변환하고, 문서 객체 모델로부터 계층적으로 제1 컨텐츠를 추출할 수 있다. 문서 객체 모델은 웹 브라우저를 통한 확장성 생성 언어(XML) 문서의 상호 연동을 위한 객체 기반의 문서 모델로 플랫폼과 언어 면에서 중립적인 인터페이스로서 프로그램과 스크립트에 의한 문서의 내용, 구조, 종류의 동적인 접근이 가능하기 때문에 일실시예에서는 이와 같은 문서 객체 모델을 이용하여 레퍼런스 페이지를 구성하는 제1 컨텐츠를 쉽게 추출할 수 있다.
그리고 대상 검색 엔진의 컨텐츠 출력 방식에 상응하는 규칙을 가지는 봇(bot)을 이용하여 레퍼런스 페이지에서 자동으로 제1 컨텐츠를 추출할 수 있다. 비교대상 즉 레퍼런스 페이지가 많은 경우에 봇을 이용하여 제1 컨텐츠를 자동으로 추출할 수 있어 시간적으로 효율적일 수 있다.
일실시예에 따른 컴퓨팅 장치가 분석 대상 웹 페이지의 품질 지수를 계산하기 위한 과정을 예시 값을 통해 더욱 상세히 설명하고자 한다.
표 1은 N개의 레퍼런스 페이지(Reference Page; RP)로부터 생성한 제1 결과를 나타낸 예시이다. SEO는 검색 최적화 기준(Search Engine Optimization)이고, unit은 SEO 값에 대한 단위를 나타내고, RP 1, RP 2, RP 3, …, RP N은 N개의 레퍼런스 페이지를 의미한다.
SEO unit RP 1 RP 2 RP 3 RP N
1 작성 일시 일(현재기준) -2 -4 -5 -156
2 키워드 제목 포함 여부 포함/미포함 포함 포함 포함 미포함
3 글자 수 1279 900 1202 576
4 본문 내 키워드 수 3 3 4 1
5 이미지 업로드 수 15 14 12 5
6 코멘트 수 42 38 12 3
7 공감 수 24 8 40 0
표 2는 분석 대상 웹 페이지(User Page)로부터 생성한 제2 결과를 나타낸 예시이다. 분석 대상 웹 페이지는 사용자가 작성한 온라인 게시글이 될 수 있다.
SEO unit User Page
1 작성 일시 일(현재기준) 0
2 키워드 제목 포함 여부 포함/미포함 미포함
3 글자 수 1100
4 본문 내 키워드 수 4
5 이미지 업로드 수 10
6 코멘트 수 10
7 공감 수 10
표 1의 제1 결과와 표 2의 제2 결과는 일실시예에서 분석부(110)의 동일한 분석 알고리즘에 의해 산출된 결과를 나타낸다. 따라서 동일한 항목에 대한 분석 결과가 산출된 것을 알 수 있다. 표 1과 표 2와 같이 제1 결과 및 제2 결과는 단일 값이 아닌 복수 값의 조합으로 만들어 질 수 있다.
표 3은 표 1의 제1 결과로부터 산출한 권고 값(Guideline)을 나타낸 표이다. 권고 값은 대상 검색 엔진에서 검색 순위에 영향을 미치는 정도를 의미한다.
SEO unit Guideline
1 작성 일시 일(현재기준) -7
2 키워드 제목 포함 여부 포함/미포함 포함
3 글자 수 1698
4 본문 내 키워드 수 3
5 이미지 업로드 수 18
6 코멘트 수 23
7 공감 수 14
상기 표 3에서 작성 일시의 권고 값은 -7로 현재 기준에서 7일 전을 나타내고 검색 최적화 기준에 대응하여 7일 전에 작성된 웹 페이지까지 높은 검색 순위를 가질 수 있는 것을 의미한다. 또한 글자 수의 권고 값은 1698개로 웹 페이지의 총 글자 수가 1698개에 부족한 만큼 검색 최적화 기준을 만족하지 못하는 것으로 볼 수 있다. 검색 최적화 기준은 각 항목의 별도 값이 아니라 항목의 조합과 그에 대한 권고 값으로 해석하는 것이 더 의미 있다. 앞서 설명한 바와 같이 검색 최적화 기준은 검색 엔진마다 상이할 수 있다.
표 4는 권고 값(표 3)과 분석 대상 웹 페이지의 제1 결과(표 2)를 비교하여 분석 대상 웹 페이지에 대한 정규화 값 및 백분위 점수를 계산한 품질 지수를 나타낸 표이다. 일실시예에서는 품질 지수를 백분위 점수로 산출하여 실시자에게 분석 대상 웹 페이지의 정량적인 분석 결과를 제시할 수 있다.
SEO unit guideline User Page 정규화 값 점수
(점)
1 작성 일시 일(현재기준) -7 0 0.24 40
2 키워드 제목 포함 여부 포함/미포함 포함 미포함 0.5 100
3 글자 수 1698 1100 0.77 62
4 본문 내 키워드 수 3 4 0.88 88
5 이미지 업로드 수 18 10 0.95 56
6 코멘트 수 23 10 0.44 40
7 공감 수 14 10 0.57 50
상기 표 4의 작성 일시는 40 점으로 직관적으로 해석하기에 품질이 낮은 것으로 볼 수 있고, 키워드 제목 포함 여부는 100점으로 품질이 높고, 글자 수는 62점으로 보통에 해당한다고 볼 수 있다.
품질 지수를 출력하는 출력부에서는 상기 표 4와 같이 품질 지수를 출력할 수 있고, 나아가 점수에 따른 정성적인 분석 결과 내용과 추천 작성 가이드를 포함할 수 있다. 분석 및 그에 대응한 조치까지 실시자에게 알려줄 수 있는 효과를 가질 수 있다.
도 6은 일실시예에 따른 웹 페이지 상대적 품질 지수 계산 방법의 흐름도로서, 사용자가 평가하고자 하는 웹 페이지에 대해서 목표 키워드에 대응하여 대상 검색 엔진에서 상대적 품질 지수를 계산하는 방법을 단계별로 구체화한 것이다. S610 단계에서는 사용자로 하여금 목표 키워드와 평가 대상을 입력받을 수 있다. S620 단계에서는 대상 검색 엔진에서 입력 받은 목표 키워드로 검색을 수행하고, 검색한 결과를 레퍼런스 페이지로 수집할 수 있다. 이 과정에서 도 5와 같은 웹 페이지 수집 장치를 이용하여 자동으로 비교 대상들을 추출할 수 있다. 그 다음 S630 단계에서는 수집된 레퍼런스 페이지로부터 제1 컨텐츠를 추출한다. 또한 평가 대상인 웹 페이지로부터는 제2 컨텐츠를 추출할 수 있다. 제1 컨텐츠 및 제2 컨텐츠는 웹 페이지를 구성하는 구성요소에 대응되는 것으로 제목, 텍스트, 소리, 이미지, 동영상, 태그 등과 같은 다양한 것이 될 수 있음을 앞서 설명한 바와 같다.
그리고 S640 단계에서는 제1 컨텐츠와 제2 컨텐츠를 분석하게 된다. 동일한 분석 알고리즘을 이용하여 각 컨텐츠들을 항목별로 분석한 결과를 제1 결과 및 제2 결과로 생성할 수 있다. 예를 들어, 제목에 키워드가 포함되었는지 여부와 같은 분석 내용을 포함할 수 있다. S650 단계에서 평가 대상에 대한 제2 결과와 비교 대상인 레퍼런스 페이지에 대한 제1 결과를 상대적으로 비교하게 된다. 이때는 통계 방법을 이용하여 산술적으로 비교할 수 있으며, 각 항목의 단위에 따라서 세부적으로 비교가 이루어질 수 있다. 특히 대상 검색 엔진에서 검색 최적화 기준(SEO)에 따라 제1 결과를 이용하여 권고 값을 산출하고 상기 권고 값과 제2 결과를 비교하는 방법도 사용될 수 있다. 비교 대상과 평가 대상을 다양한 방법으로 비교함으로써 상대적인 품질 지수를 산출할 수 있다.
그러면 S660 단계에서는, 품질 지수를 포함하는 비교 결과 리포트를 생성할 수 있다. 비교 결과 리포트는 백분위 점수로 표현한 품질 지수나 레퍼런스 페이지들과 가시적으로 비교할 수 있는 비교 그래프 등으로 작성될 수 있으며 사용자에게 유용한 정보를 제공하게 된다.
도 7은 다른 실시예에 따라 복수 개의 대상 검색 엔진으로부터 검색되는 결과 화면(300)의 예시이다. 검색 엔진은 하나 이상 존재하며, 각 검색 엔진은 검색 대상인 데이터 베이스, 검색 알고리즘, 검색 결과를 배치하는 방법 등이 다르다. 따라서 다른 실시예로서 복수 개의 대상 검색 엔진을 이용하여 분석 대상 웹 페이지의 품질 지수를 산출하는 컴퓨팅 장치를 제공한다.
다른 실시예에 따른 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는 분석부 및 연산부를 포함한다.
분석부는 목표 키워드에 대응하여 복수 개의 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 상기 검색에 사용된 대상 검색 엔진에 상응하는 복수 개의 분석 알고리즘으로 분석한 제1 결과를 생성한다. 검색에 사용된 대상 검색 엔진에 상응하여 제1 결과를 생성하기 때문에 제1 결과의 내용은 대상 검색 엔진의 종류에 따라 구분될 수 있다. 그리고 분석부는 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 복수 개의 분석 알고리즘으로 분석한 제2 결과를 생성한다. 제2 결과 역시 복수 개의 대상 검색 엔진에 상응하는 복수 개의 분석 알고리즘으로 분석한 결과기 때문에 제2 결과의 내용도 대상 검색 엔진의 종류에 따라 구분될 수 있다. 상기 제1 컨텐츠 및 상기 제2 컨텐츠는, 제목, 본문, 하이퍼링크, 이미지, 소리, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함할 수 있다. 한편으론, 일실시예의 분석부(도 1의 110)가 복수 개의 대상 검색 엔진에 대하여 반복하여 제1 결과 및 제2 결과를 실시한 것과 동일하게 해석될 수 있다. 따라서 도 1의 분석부(110)는 다른 실시예의 상기 분석부에 포함될 수 있는 구성이며, 상세한 설명은 중복되어 기재하지 않는다.
연산부는 상기 대상 검색 엔진으로 분류된 상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산한다. 제1 결과와 제2 결과 모두 대상 검색 엔진의 종류에 따라 그 내용이 구분될 수 있으며, 구분하여 각 항목에 대한 상대적인 비교를 할 수 있다. 또한, 상기 연산부는 제1 결과로부터 대상 검색 엔진에 공통되는 요소를 추출하고 권고 값을 설정한 후, 상기 권고 값과 상기 제2 결과를 비교하여 분석 대상 웹 페이지의 보편 지수를 더 계산할 수 있다. 검색 엔진마다 검색 최적화 기준이 상이할 수 있어서 이들 중에서 공통되는 요소를 추출하여 권고 값을 설정할 수도 있다. 예를 들어, 검색에 사용된 검색 엔진의 모든 검색 최적화 기준에 글자 수와 이미지 수 공통적으로 포함되어 있다면 이들 항목에 대한 권고 값을 대상 검색 엔진의 구분 없이 산출할 수 있는 것이다. 보편 지수란, 하나의 온라인 게시글(웹 페이지)에 대해서 복수의 검색 엔진에서 상위에 랭크될 수 있는 지표를 말한다. 예컨대 보편 지수가 높으면 복수의 검색 엔진 모두에서 상위에 랭크될 수 있는 것을 의미하고, 보편 지수가 낮으면 특정 검색 엔진에서만 상위에 랭크될 수 있는 것을 의미한다고 해석할 수 있다. 다른 실시예에서는 복수의 검색 엔진을 수단으로 함으로써, 비교 대상이 되는 레퍼런스 페이지를 확장하는 효과를 가지는 동시에 복수의 검색 엔진에서 공통으로 추구하는 웹 페이지 품질 평가 기준에 부합하는지 여부를 정량적인 수치로 계산하여 피드백 한다.
한편, 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 미리 지정된 수준 이상에서 랭크되는 것이 될 수 있다. 상기 미리 지정된 수준은 상위에 랭크되는 순서로 소정 개수만큼의 상기 레퍼런스 페이지로 결정되고, 상기 대상 검색 엔진마다 가변적일 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
100: 컴퓨팅 장치
110: 분석부
120: 연산부
200: 사용자
300: 검색엔진
400: 웹 페이지
500: 웹 페이지 수집 장치

Claims (17)

  1. 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는:
    목표 키워드에 대응하여 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 분석 알고리즘으로 분석한 제2 결과를 생성하는 분석부; 및
    상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 연산부
    를 포함하는 컴퓨팅 장치.
  2. 제1항에 있어서,
    상기 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 미리 지정된 수준 이상에서 랭크되는 것인 컴퓨팅 장치.
  3. 제2항에 있어서,
    상기 미리 지정된 수준은, 상위에 랭크되는 순서로 소정 개수만큼의 상기 레퍼런스 페이지로 결정되는 컴퓨팅 장치.
  4. 제1항에 있어서,
    상기 제1 컨텐츠 및 상기 제2 컨텐츠는,
    제목, 본문, 하이퍼링크, 이미지, 소리, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함하는 것인 컴퓨팅 장치.
  5. 제1항에 있어서,
    상기 분석 알고리즘은, 상기 제1 컨텐츠를 통계적으로 분석하고, 상기 분석된 결과를 기초로 상기 대상 검색 엔진의 검색 최적화 기준에 대응하는 권고 값을 산출하여 상기 제1 결과로 설정하는 컴퓨팅 장치.
  6. 제5항에 있어서,
    상기 검색 최적화 기준은,
    글자수, 본문 내 키워드 수, 이미지 포함 수, 소리 포함 수, 동영상 포함 수, 지도 포함 수, 코멘트 수, 공감 수, 태그 수, 키워드 포함된 태그의 수, 제목에 키워드 포함여부, 키워드로 시작하는 제목여부 또는 맵 연동수 중 어느 하나 이상을 포함하는 컴퓨팅 장치.
  7. 제5항에 있어서,
    상기 검색 최적화 기준은 상기 대상 검색 엔진에 상응하여 결정되는 컴퓨팅 장치.
  8. 제5항에 있어서,
    상기 분석 알고리즘은, 검색 순위에 따른 가중치를 상기 레퍼런스 페이지에 부여하여 상기 권고 값에 상기 검색 순위를 반영하는 컴퓨팅 장치.
  9. 제1항에 있어서,
    상기 레퍼런스 페이지를 구성하는 데이터를 문서 객체 모델(Document Object Model; DOM)로 변환하고, 상기 문서 객체 모델로부터 계층적으로 상기 제1 컨텐츠를 추출하는 컴퓨팅 장치.
  10. 제1항에 있어서,
    상기 대상 검색 엔진의 컨텐츠 출력 방식에 상응하는 규칙을 가지는 봇(bot)을 이용하여 상기 레퍼런스 페이지에서 자동으로 제1 컨텐츠를 추출하는 컴퓨팅 장치.
  11. 제1항에 있어서,
    상기 품질 지수를 출력하는 출력부를 더 포함하되,
    상기 출력부는, 상기 품질 지수를 시각적으로 나타낸 통계 그래프를 제공하거나 상기 품질 지수에 따라 미리 작성된 분석내용 설명 및 추천 작성 방법을 포함하는 가이드를 제공하는 컴퓨팅 장치.
  12. 적어도 하나의 프로세서를 포함하는 컴퓨팅 장치에 있어서, 상기 적어도 하나의 프로세서에 의해 적어도 일시적으로 구현되는:
    목표 키워드에 대응하여 복수 개의 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 상기 검색에 사용된 대상 검색 엔진에 상응하는 복수 개의 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 복수 개의 분석 알고리즘으로 분석한 제2 결과를 생성하는 분석부; 및
    상기 대상 검색 엔진으로 분류된 상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 연산부
    를 포함하는 컴퓨팅 장치.
  13. 제12항에 있어서,
    상기 연산부는, 상기 제1 결과로부터 상기 대상 검색 엔진에 공통되는 요소를 추출하여 권고 값을 설정하고, 상기 권고 값과 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 보편 지수를 더 계산하는 컴퓨팅 장치.
  14. 제12항에 있어서,
    상기 적어도 하나의 레퍼런스 페이지는, 상기 목표 키워드를 쿼리로 상기 대상 검색 엔진에서 검색한 검색 결과에서 미리 지정된 수준 이상에서 랭크되는 것인 컴퓨팅 장치.
  15. 제14항에 있어서,
    상기 미리 지정된 수준은 상위에 랭크되는 순서로 소정 개수만큼의 상기 레퍼런스 페이지로 결정되고, 상기 대상 검색 엔진마다 가변적인 컴퓨팅 장치.
  16. 제12항에 있어서,
    상기 제1 컨텐츠 및 상기 제2 컨텐츠는,
    제목, 본문, 하이퍼링크, 이미지, 소리, 동영상, 키워드, 코멘트, 공감, 태그, 지도, 또는 작성 일시 중 어느 하나 이상을 포함하는 것인 컴퓨팅 장치.
  17. 컴퓨터 판독 가능 기록매체에 저장되어, 컴퓨팅 장치가 웹 페이지 품질 지수를 계산하여 피드백을 제공하도록 하는 프로그램에 있어서:
    컴퓨팅 장치에 수신되는 목표 키워드에 대응하여 대상 검색 엔진으로부터 검색되는 적어도 하나의 레퍼런스 페이지로부터 추출된 제1 컨텐츠를 분석 알고리즘으로 분석한 제1 결과 및 분석 대상 웹 페이지로부터 추출된 제2 컨텐츠를 상기 분석 알고리즘으로 분석한 제2 결과를 생성하는 명령어 세트; 및
    상기 제1 결과와 상기 제2 결과를 비교하여 상기 분석 대상 웹 페이지의 품질 지수를 계산하는 명령어 세트
    를 포함하는 기록매체에 저장된 프로그램.
KR1020150012261A 2015-01-26 2015-01-26 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치 KR101667199B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150012261A KR101667199B1 (ko) 2015-01-26 2015-01-26 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150012261A KR101667199B1 (ko) 2015-01-26 2015-01-26 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치

Publications (2)

Publication Number Publication Date
KR20160091756A true KR20160091756A (ko) 2016-08-03
KR101667199B1 KR101667199B1 (ko) 2016-10-18

Family

ID=56708648

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150012261A KR101667199B1 (ko) 2015-01-26 2015-01-26 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치

Country Status (1)

Country Link
KR (1) KR101667199B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180059112A (ko) * 2016-11-25 2018-06-04 한국전자통신연구원 콘텐츠 분류 장치 및 방법
CN112071406A (zh) * 2020-09-03 2020-12-11 深圳市全息医疗科技有限公司 医疗质量考核数据处理方法、装置及存储介质
CN117151082A (zh) * 2023-10-30 2023-12-01 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法
CN117392826A (zh) * 2023-12-11 2024-01-12 吉林大学 一种基于大数据的网络信息预警方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102205061B1 (ko) 2019-04-29 2021-01-19 중앙대학교 산학협력단 메타데이터 추천 서비스 제공 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020007742A (ko) * 2000-07-18 2002-01-29 김민욱 사용자별 정보선호 분석 및 정보 내용 인기도 평가를 통한정보추천 방법 및 그 시스템
KR20030079919A (ko) * 2000-10-02 2003-10-10 휴렛-팩커드 컴퍼니 웹 콘텐츠 변환 방법 및 장치
KR20070029967A (ko) * 2005-09-12 2007-03-15 (주)루크테크놀러지 키워드 광고 분석 시스템
KR20100132376A (ko) * 2009-06-09 2010-12-17 성균관대학교산학협력단 스니펫 제공 장치 및 방법
KR20130043297A (ko) 2011-10-20 2013-04-30 곽승현 검색사이트 최적화 진단 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020007742A (ko) * 2000-07-18 2002-01-29 김민욱 사용자별 정보선호 분석 및 정보 내용 인기도 평가를 통한정보추천 방법 및 그 시스템
KR20030079919A (ko) * 2000-10-02 2003-10-10 휴렛-팩커드 컴퍼니 웹 콘텐츠 변환 방법 및 장치
KR20070029967A (ko) * 2005-09-12 2007-03-15 (주)루크테크놀러지 키워드 광고 분석 시스템
KR20100132376A (ko) * 2009-06-09 2010-12-17 성균관대학교산학협력단 스니펫 제공 장치 및 방법
KR20130043297A (ko) 2011-10-20 2013-04-30 곽승현 검색사이트 최적화 진단 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180059112A (ko) * 2016-11-25 2018-06-04 한국전자통신연구원 콘텐츠 분류 장치 및 방법
CN112071406A (zh) * 2020-09-03 2020-12-11 深圳市全息医疗科技有限公司 医疗质量考核数据处理方法、装置及存储介质
CN112071406B (zh) * 2020-09-03 2024-03-15 深圳市全息医疗科技有限公司 医疗质量考核数据处理方法、装置及存储介质
CN117151082A (zh) * 2023-10-30 2023-12-01 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法
CN117151082B (zh) * 2023-10-30 2024-01-02 量子数科科技有限公司 一种基于大语言模型的商品标题spu关键词提取方法
CN117392826A (zh) * 2023-12-11 2024-01-12 吉林大学 一种基于大数据的网络信息预警方法及系统
CN117392826B (zh) * 2023-12-11 2024-02-13 吉林大学 一种基于大数据的网络信息预警方法及系统

Also Published As

Publication number Publication date
KR101667199B1 (ko) 2016-10-18

Similar Documents

Publication Publication Date Title
Chan-Olmsted A review of artificial intelligence adoptions in the media industry
KR101981075B1 (ko) 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
US10387546B1 (en) Web browsing
US8868558B2 (en) Quote-based search
KR101667199B1 (ko) 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치
US11550856B2 (en) Artificial intelligence for product data extraction
JP2003330948A (ja) ウェブページを評価する装置および方法
CN105786977A (zh) 基于人工智能的移动搜索方法和装置
Rusyn et al. The virtual library system design and development
WO2016135905A1 (ja) 情報処理システム及び情報処理方法
Kim et al. Opinion-mining methodology for social media analytics
US11803872B2 (en) Creating meta-descriptors of marketing messages to facilitate in delivery performance analysis, delivery performance prediction and offer selection
Kucher et al. Text visualization browser: A visual survey of text visualization techniques
CN106664463A (zh) 任意大小内容条目生成
JP7069802B2 (ja) ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
WO2020123689A1 (en) Suggesting text in an electronic document
US9594757B2 (en) Document management system, document management method, and document management program
US20130332440A1 (en) Refinements in Document Analysis
Bu et al. An FAR-SW based approach for webpage information extraction
US20110191663A1 (en) Efficient presentation of important profile information to a profile reader
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
CN112084376A (zh) 基于图谱知识的推荐方法、推荐系统及电子装置
JP4870809B2 (ja) 関連するウェブページ内コンテンツを分類・整理し自由自在に再構成して表示する方法
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190808

Year of fee payment: 4