KR102205061B1 - 메타데이터 추천 서비스 제공 방법 및 장치 - Google Patents

메타데이터 추천 서비스 제공 방법 및 장치 Download PDF

Info

Publication number
KR102205061B1
KR102205061B1 KR1020190049912A KR20190049912A KR102205061B1 KR 102205061 B1 KR102205061 B1 KR 102205061B1 KR 1020190049912 A KR1020190049912 A KR 1020190049912A KR 20190049912 A KR20190049912 A KR 20190049912A KR 102205061 B1 KR102205061 B1 KR 102205061B1
Authority
KR
South Korea
Prior art keywords
metadata
keywords
search result
assigned
websites
Prior art date
Application number
KR1020190049912A
Other languages
English (en)
Other versions
KR20200126213A (ko
Inventor
정재은
안소정
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020190049912A priority Critical patent/KR102205061B1/ko
Publication of KR20200126213A publication Critical patent/KR20200126213A/ko
Application granted granted Critical
Publication of KR102205061B1 publication Critical patent/KR102205061B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 메타데이터 추천 서비스 제공 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 연결된 메모리를 포함하되, 상기 메모리는, 미리 설정된 질의어에 대한 검색결과 페이지에 포함된 복수의 웹사이트 정보를 수집하고, 상기 수집된 복수의 웹사이트 각각의 메타태그로부터 복수의 메타데이터를 추출하고, 상기 복수의 웹사이트 각각의 본문 텍스트로부터 복수의 키워드를 추출하고, 상기 추출된 복수의 메타데이터 및 키워드 각각에 조합 가중치를 부여하고, 상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 각각의 검색결과 노출 순위 및 의미적 관련성을 고려하여 하나 이상의 메타데이터 추천 용어를 결정하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 메타데이터 추천 장치가 제공된다.

Description

메타데이터 추천 서비스 제공 방법 및 장치{Method and apparatus of metadata recommendation service}
본 발명은 메타데이터 추천 서비스 제공 방법 및 장치에 관한 것으로서, 보다 상세하게는 웹 문서 노출 및 순위 관리를 위한 메타데이터 추천 서비스 제공 방법 및 장치에 관한 것이다.
웹페이지를 검색 상단에 위치시키는 것은 기업의 성과를 결정짓는 중요한 마케팅 전략이다.
웹 3.0의 등장으로 점점 더 많은 기업들이 인터넷 상에서 특히, 검색엔진을 고려한 온라인 마케팅에 노력을 기울일 필요성이 대두되고 있다. 전 세계 97%의 사람들이 온라인 쇼핑을 이용하며, 그 중 70% 이상의 소비자들은 검색결과의 첫 번째 페이지만을 확인한다.
같은 맥락에 따라 배너 광고를 이용하는 것보다 검색결과 페이지의 상단에 위치하는 것이 온라인 마케팅의 성공요인으로 자리 잡게 되었다. 메타태그는 사용자들이 웹페이지를 평가하는 지표로서, 사이트·콘텐츠 가시성을 향상시킬 필요성이 있다. 기존의 온라인 마케팅 방법들은 검색엔진을 고려하지 않고 웹페이지를 구성하는 데에만 치중하여 웹페이지 가시성이 떨어진다.
기업 대부분은 메타데이터를 입력하지 않거나 경험적 지식에 의존하여 메타데이터를 입력하기 때문에 마케팅 투자 대비 효과는 점점 감소했다. 웹상의 디지털 리소스의 가시성과 접근성을 향상시키는 것은 매우 중요하며, 최적화되지 않은 웹페이지는 온라인 마케팅에서 실패하는 요인으로 작용할 수 있다. 따라서 인공지능 기술을 접목하여 보다 더 객관적인 메타데이터 의사결정을 위한 지표가 필요하다.
최근 검색엔진을 고려한 SEO 기법은 기존의 온라인 마케팅 기법을 완전히 바꾸어 놓았고, 웹사이트를 검색결과 상단에 배치하게 하는 가장 영향력 있는 온라인 마케팅 기법으로 뽑힌다. 그 중 메타데이터 최적화 기법은 검색엔진에 있어서 웹사이트의 가시성과 접근성을 높일 수 있는 가장 효과적인 온라인 마케팅 전략이다.
그러나 많은 기업들 특히, 웹 개발자들은 일반적으로 검색엔진의 순위 체계를 고려하지 않고 웹사이트를 디자인함에 따라 대부분 온라인 마케팅의 큰 실패요인으로 작용한다.
한국등록특허 제10-1667199호
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 소정 질의어에 대해 검색결과 페이지의 상단에 노출될 수 있도록 하는 메타데이터를 선택할 수 있는 메타데이터 추천 서비스 제공 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 메타데이터 추천 장치로서, 프로세서; 및 상기 프로세서에 연결된 메모리를 포함하되, 상기 메모리는, 미리 설정된 질의어에 대한 검색결과 페이지에 포함된 복수의 웹사이트 정보를 수집하고, 상기 수집된 복수의 웹사이트 각각의 메타태그로부터 복수의 메타데이터를 추출하고, 상기 복수의 웹사이트 각각의 본문 텍스트로부터 복수의 키워드를 추출하고, 상기 추출된 복수의 메타데이터 및 키워드 각각에 조합 가중치를 부여하고, 상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 각각의 검색결과 노출 순위 및 의미적 관련성을 고려하여 하나 이상의 메타데이터 추천 용어를 결정하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 메타데이터 추천 장치가 제공된다.
상기 추출된 복수의 메타데이터 각각에는 상기 메타태그에서의 빈도수에 따른 제1 가중치가 부여될 수 있다.
상기 추출된 복수의 키워드에는 키그래프에 기반한 제2 가중치가 부여될 수 있다.
상기 조합 가중치는 상기 추출된 복수의 메타데이터 및 키워드 각각의 상위 검색결과 페이지에서의 적중률에 따라 결정될 수 있다.
상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 중 검색결과 노출 순위가 높은 메타데이터 및 키워드에 높은 가중치가 부여될 수 있다.
상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 중 상위 검색결과 페이지에서의 적중률이 하위 검색결과 페이지에서의 적중률보다 높은 메타데이터 및 키워드가 상기 의미적 관련성에 따른 높은 가중치가 부여될 수 있다.
상기 메타태그는 제목태그, 설명태그 및 키워드태그 중 적어도 하나를 포함할 수 있다.
상기 프로그램 명령어들은, 상기 의미적 관련성 평가를 위해, 상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드에 BoW(Bag of Words) 모델 및 IF-IDF(Term Frequency-Inverse Document Frequency)를 적용하여 용어의 특징 벡터(Word Vector)를 생성하고, 상기 특징 벡터를 SOM(Self-Organizing Map)에 근거하여 클러스터링하고, 클러스터링된 용어들의 상관 관계를 계산할 수 있다.
본 발명의 다른 측면에 따르면, 검색서버와 연결되는 장치에서 메타데이터를 추천하는 방법으로서, 미리 설정된 질의어에 대한 검색결과 페이지에 포함된 복수의 웹사이트 정보를 수집하는 단계; 상기 수집된 복수의 웹사이트 각각의 메타태그로부터 복수의 메타데이터를 추출하는 단계; 상기 복수의 웹사이트 각각의 본문 텍스트로부터 복수의 키워드를 추출하는 단계; 상기 추출된 복수의 메타데이터 및 키워드 각각에 조합 가중치를 부여하는 단계; 및 상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 각각의 검색결과 노출 순위 및 의미적 관련성을 고려하여 하나 이상의 메타데이터 추천 용어를 결정하는 단계를 포함하는 메타데이터 추천 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행한 기록매체에 저장되는 프로그램이 제공된다.
본 발명에 따르면, 메타태그로부터 추출된 메타데이터와 본문 텍스트에서 추출된 키워드를 조합하고, 이들의 검색결과에서의 적중률, 의미적 관련성을 고려하여 메타데이터를 추천하기 때문에 소정 질의어에 대해 웹사이트를 상단에 노출시킬 수 있는 장점이 있다.
도 1은 본 실시예에 따른 메타데이터 추천 장치의 구성을 도시한 도면이다.
도 2는 본 실시예에 따른 메타데이터 추천 과정을 도시한 도면이다.
도 3은 소정 질의어에 대한 검색결과 페이지에서의 용어 빈도수를 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따른 메타데이터 추천 과정을 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명은 검색엔진 최적화(Search Engine Optimization: SEO)를 고려하여 검색결과 페이지에서 소정 웹사이트가 상단에 노출되도록 하기 위한 기법을 제안한다.
본 발명에서는 온라인 마케팅을 위해 메타태그의 메타데이터와 본문 텍스트의 키워드를 조합하여 소정 질의어에 대해 검색결과 페이지 상단에 웹사이트가 노출되도록 하는 메타데이터 추천 방법을 제안한다.
본 실시예에 따른 메타데이터 추천 과정은 검색서버와 연결되는 컴퓨팅 장치에서 수행될 수 있다.
도 1은 본 실시예에 따른 메타데이터 추천 장치의 구성을 도시한 도면이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 메타데이터 추천 장치는 프로세서(100) 및 메모리(102)를 포함할 수 있다.
프로세서(100)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.
메모리(102)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(102)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
이와 같은 메모리(102)에는 프로세서(100)에 의해 실행 가능한 프로그램 명령어들이 저장된다.
본 실시예에 따른 프로그램 명령어들은, 미리 설정된 질의어에 대한 검색결과 페이지에 포함된 복수의 웹사이트 정보를 수집하고, 수집된 복수의 웹사이트 각각의 메타태그로부터 복수의 메타데이터를 추출하고, 상기 복수의 웹사이트 각각의 본문 텍스트로부터 복수의 키워드를 추출한다.
또한, 추출된 복수의 메타데이터 및 키워드 각각에 조합 가중치를 부여하고, 조합 가중치가 부여된 복수의 메타데이터 및 키워드 각각의 노출 순위 및 의미적 관련성을 고려하여 하나 이상의 메타데이터 추천 용어를 결정할 수 있다.
이하, 본 실시예에 따른 프로그램 명령어들에 의해 수행되는 메타데이터 추천 과정을 상세하게 설명한다.
도 2는 본 실시예에 따른 메타데이터 추천 과정을 도시한 도면이다.
도 2를 참조하면, 메타데이터 추천 장치는 미리 설정된 질의어에 대한 검색결과 페이지에 포함된 복수의 웹사이트 정보를 수집한다(단계 200).
예를 들어, 단계 200에서 10개의 검색결과 페이지에 포함된 웹사이트 정보가 수집될 수 있다.
다음으로, 각 웹사이트의 메타태그에서 복수의 메타데이터를 추출하고(단계 202), 각 웹사이트의 본문 텍스트(Body Text)에서 복수의 키워드를 추출한다(단계 204).
이렇게 추출된 복수의 메타데이터 및 키워드가 복수의 용어(term)를 구성한다.
여기서, 메타데이터는 제목 태그, 설명 태그, 키워드 태그와 같은 요소를 포함하는 웹사이트의 검색 및 식별과 같은 목적을 위한 리소스를 설명하는 정보로서, 웹사이트 관리자가 자체적으로 작성하는 정보이다.
본 실시예에 따르면, 메타데이터 추천 장치는 각 웹사이트의 메타태그인 제목 태그, 설명 태그 및 키워드 태그로부터 복수의 메타데이터를 추출한다.
추출된 복수의 메타데이터에는 빈도수에 따라 제1 가중치가 부여될 수 있다.
복수의 용어를 구성하기 위해, 메타데이터 추천 장치는 불용어(stop word) 제거 및 본문 텍스트와 메타데이터의 형태소 분석 및 생성과 같은 과정에 의해 HTML 문서를 변환하는 과정을 수행한다.
또한, 본문 텍스트의 방대한 양을 고려하여 키그래프(KeyGraph) 기반으로 제2 가중치를 갖는 복수의 키워드를 추출한다.
키그래프 기법은 데이터 패턴 속에서 의사결정이나 미래 변화에 영향을 주지만 자주 발생하지 않는 희소성 있는 이벤트를 발견하기 위한 알고리즘으로서, 웹사이트로부터 본문 텍스트를 수집하고 빈도수에 근거하여 키워드를 선택하며 빈도수에 따라 초기 노드를 구성하고, 각 용어들 사이의 연관 강도를 동시 출현(co-occurrence) 빈도를 통해 계산하여 모든 용어들을 모든 클러스터에 연결하는 과정이다.
본 발명의 바람직한 일 실시예에 따르면, 단계 204에서 구성된 복수의 용어 각각에 조합 가중치를 부여한다(단계 206).
여기서, 조합 가중치는 단계 202 내지 204에서 추출된 복수의 메타데이터 및 키워드 각각의 상위 검색결과 페이지에서의 적중률(hit rate)에 따라 결정될 수 있다.
검색결과 페이지가 10페이지인 경우, 상위 검색결과 페이지의 적중률은 소정 질의어에 대해 1 내지 3페이지에 위치한 웹사이트에 존재하는 메타데이터 또는 키워드가 존재하는 빈도수로 정의될 수 있다.
본 발명의 바람직한 일 실시예에서, 조합 가중치는 0에서 1로 정규화되며, 이는 키워드와 메타데이터 사이의 용어의 가중치가 다른 방식으로 측정되었기 때문이다.
용어의 가중치는 용어의 중요성으로 설명할 수 있으며, 메타데이터 후보가 가장 큰 비중을 차지하도록 추천된다.
다음은 키워드와 메타데이터의 조합을 위한 수식이다.
Figure 112019044041793-pat00001
Figure 112019044041793-pat00002
는 용어를 나타내며,
Figure 112019044041793-pat00003
는 조합의 가중치이고,
Figure 112019044041793-pat00004
는 키워드의 중심을 나타내고,
Figure 112019044041793-pat00005
는 메타데이터의 빈도수이다.
메타데이터 추천 장치는 조합 가중치가 부여된 복수의 메타데이터 및 키워드 각각의 검색결과 노출 순위 및 의미적 관련성을 고려하여 하나 이상의 메타데이터 추천 용어를 결정한다(단계 208).
단계 208에서, 조합 가중치가 부여된 복수의 메타데이터 및 키워드 중 상위 검색결과 페이지에서의 적중률이 하위 검색결과 페이지에서의 적중률보다 높은 메타데이터 및 키워드에 의미적 관련성(Semantic Relevance)에 따른 높은 가중치가 부여된다.
검색 알고리즘과 관련하여, 상위(특히, 첫번째) 검색결과 페이지에 웹사이트를 위치시키기 위해, 사용자 질의어와 관련된 용어를 선택하는 것은 또 다른 문제이다.
검색결과 페이지의 순위를 올리는 것은 매우 중요한 문제이며, 같은 단어라고 하더라도 각 웹사이트의 의미적 관련성은 다를 수 있다.
그러나 웹사이트가 아무리 용어를 잘 사용한다고 하더라도 해당 용어가 질의어와 거의 관련이 없다면 웹사이트 순위는 떨어질 수 밖에 없다.
용어는 여러가지 의미를 가질 수 있고, 다양한 이유로 사용될 수 있기 때문에 웹사이트의 순위를 결정하는데 중요한 요소이다.
본 실시예에서는 의미적 관련성을 측정하기 위해 다음과 같은 방법을 제안한다.
의미적 관련성은 SOM(Self-Organizing Map)에 근거하여 산출되고, 단계 202 내지 204에서 추출된 복수의 메타데이터 및 키워드에 BoW(Bag of Word) 모델 및 TF-IDF(Term Frequency-Inverse Document Frequency)를 적용하여 구성된 특징 벡터의 상관 관계를 이용하여 평가된 사용자 질의어에 대한 분포 적합도로 정의될 수 있다.
도 3은 소정 질의어에 대한 검색결과 페이지에서의 용어 빈도수를 나타낸 것이다.
도 3을 참조하면, 제1 질의어의 입력 시 Blouse라는 용어는 상위 검색결과 페이지(1 페이지)에서의 빈도수가 하위 검색결과 페이지(10 페이지)에서의 빈도수보다 높고, shirt라는 용어는 상위 검색결과 페이지(1 페이지)에서의 빈도수가 하위 검색결과 페이지(10 페이지)에서의 빈도수보다 낮다.
이러한 경우, 사용자가 입력한 제1 질의어에 대해 Blouse가 shirt보다 상위 검색결과 페이지에서의 적중률이 높으므로 높은 의미적 관련성을 가지는 것으로 평가할 수 있다.
제1 질의어 입력 시 웹사이트가 상위 검색결과 페이지에 노출되도록 하기 위해, 본 실시예에 따른 메타데이터 추천 장치는, shirt보다는 Blouse에 우선순위를 부여하여 메타데이터로 추천한다.
도 4는 본 발명의 일 실시예에 따른 메타데이터 추천 과정을 도시한 도면이다.
도 4를 참조하면, 의미적 관련성 평가를 위해, 복수의 웹사이트로부터 추출된 복수의 메타데이터 및 키워드를 포함하는 용어에 대해 BoW 모델 및 IF-IDF를 적용하여 용어의 특징 벡터(Word Vector)를 생성한다.
이후, SOM(Self-Organizing Map) 기반으로 클러스터링을 수행하고, 용어들의 상관 관계를 계산하여 의미적 관련성을 평가한다.
용어와 사용자 질의어 사이의 의미적 관련성을 평가하기 위해, 용어는 각각의 특징 벡터와 함께 SOM에 근거하여 클러스터링 된다.
용어를 클러스터링하는 첫 번째 단계는 BoW 모델과 TF-IDF를 적용하여 모든 용어의 특징 벡터를 구성한다.
특징 벡터는 용어에 대한 TF-IDF를 계산하는 모든 웹사이트에 존재하는지 여부를 측정한 용어이다.
용어 벡터는 다음과 같은 형태로 제시된다.
Figure 112019044041793-pat00006
여기서,
Figure 112019044041793-pat00007
은 용어 벡터를 의미하며,
Figure 112019044041793-pat00008
는 웹사이트를 나타낸다.
용어와 질의어 간의 의미적 관련성을 평가하려면, 각 용어가 웹사이트 속하는 경우 용어의 TF-IDF 값을
Figure 112019044041793-pat00009
에 넣고 그렇지 않으면 0으로 설정한다.
구체적으로는 용어의 클러스터링을 위해, 인공신경망에 대해 제안된 아키텍쳐인 SOM 알고리즘을 적용하고 입력 데이터를 저차원 공간(일반적으로 2차원)으로 줄인다.
SOM 알고리즘은 유용한 정보의 손실 없이 입력 그리드를 클러스터링할 수 있다.
나아가, SOM 알고리즘은 고차원 벡터를 빠르게 학습할 수 있다.
특히, 첫번째로 SOM 알고리즘은 다음과 같이 맵의 사이즈를 결정한다.
Figure 112019044041793-pat00010
, 여기서,
Figure 112019044041793-pat00011
은 입력 벡터의 수이다.
두번째로 입력 벡터에 가장 인접한 지정 노드를 승리 노드로 결정한다.
승리 노드는 다음을 통해 계산된다.
Figure 112019044041793-pat00012
여기서,
Figure 112019044041793-pat00013
는 승리 노드를 나타내며,
Figure 112019044041793-pat00014
는 임의로 타게팅된 입력 데이터 벡터를 나타낸다.
Figure 112019044041793-pat00015
는 입력 벡터들의 수이다.
마지막으로 시퀀스 모티브가 무시할 수 있을 때까지 승리 노드와 인접 노드의 가중치가 업데이트 된다.
각 노드는 입력 공간의 위치인 가중치 벡터와 연관되어 있으며 가중치는 다음과 같이 업데이트 된다.
Figure 112019044041793-pat00016
여기서,
Figure 112019044041793-pat00017
는 맵에서 노드의 위치를 나타내고,
Figure 112019044041793-pat00018
는 가장 잘 매칭된 유닛(BMU)의 인덱스이다.
Figure 112019044041793-pat00019
는 BMU의 이웃을 다음과 같이 분류한다.
Figure 112019044041793-pat00020
제안된 접근법에 따르면 각 그룹은 의미적 관련성를 가진다.
웹사이트의 배포에 따라 의미적 관계의 많은 측면이 변한다면 의미있는 용어이다.
한편, 웹사이트 노출 순위가 높아질수록 사용자가 더 자주 이용하기 때문에 웹사이트의 트래픽에 의한 순위를 매길 수 있다.
이와 관련하여, 메타데이터와 키워드를 조합한 용어는 웹사이트의 노출 순위에 따라 가중치가 부여된다.
노출 순위가 높은 웹사이트에 포함된 용어일수록 용어의 가중치(
Figure 112019044041793-pat00021
)는 커진다.
웹사이트의 수가 C이고, 일련의 노출 순위가
Figure 112019044041793-pat00022
일 때 용어의 가중치는 다음과 같이 결정된다.
Figure 112019044041793-pat00023
Pearson 상관 계수를 사용하기 위해, 두 변수 사이의 인과관계를 설명하는 프로세스로, 만일 적중률과 노출 순위가 같다면 관련성 가중치가 1로 설정되고 반대 방향이면 0으로 설정된다. 반대방향으로 완전히 같으면 -1로 설정된다.
어떤 용어의 의미적 관련성이 높으면 그 용어의 가중치도 높을 것이다.
용어의 정규화된 빈도와 검색결과 페이지 사이의 상관 계수는 다음과 같이 계산된다.
Figure 112019044041793-pat00024
여기서,
Figure 112019044041793-pat00025
는 적중률에 대한 표준편차를 나타내고,
Figure 112019044041793-pat00026
는 페이지에 대한 표준편차를 나타낸다.
Figure 112019044041793-pat00027
는 용어의 정규화된 빈도와 검색결과 페이지 사이의 상관 관계를 나타낸다.
의미적 관련성이 점점 줄어들면 타겟이 되어야 하는 용어이다.
반대로 어떤 용어가 포지티브 상관 관계라면 사용하지 않는 것이 좋다.
이러한 이유 때문에 상관 계수는 기호로 변경되고 다음과 같이 평가를 위해 0과 1사이에서 정규화된다.
Figure 112019044041793-pat00028
두 가지 옵션을 고려하기 위해 메타데이터에 대해 상위 검색결과 페이지에 배치되고 의미적 관련성이 있는 용어를 제안한다.
용어는 다음과 같이 측정된다.
Figure 112019044041793-pat00029
이렇게 계산된 결과를 바탕으로 높은 순위를 갖는 용어를 선택한다.
용어는 웹사이트 최적화를 위해 제목, 설명 및 키워드와 같은 태그에 적용된다.
웹사이트가 사용자 질의어를 사용할 경우, 검색결과 페이지 내에서의 위치에 따라 서로 다른 가중치가 부여될 수 있다.
이는 용어를 선택하는 것이 중요하다는 것을 의미하며, 사용자 질의어와 본 실시예에서 제안된 두 가지 평가(가장 높은 노출 순위 및 기대 사용자 질의어와 높은 의미적 관련성이 있음)서 추천된 용어가 어떤면에서는 동일하다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (10)

  1. 메타데이터 추천 장치로서,
    프로세서; 및
    상기 프로세서에 연결된 메모리를 포함하되,
    상기 메모리는,
    미리 설정된 질의어에 대한 검색결과 페이지에 포함된 복수의 웹사이트 정보를 수집하고,
    상기 수집된 복수의 웹사이트 각각의 메타태그로부터 복수의 메타데이터를 추출하고,
    상기 복수의 웹사이트 각각의 본문 텍스트로부터 복수의 키워드를 추출하고,
    상기 추출된 복수의 메타데이터 및 키워드 각각에 조합 가중치를 부여하고,
    상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 각각의 검색결과 노출 순위 및 의미적 관련성을 고려하여 하나 이상의 메타데이터 추천 용어를 결정하도록,
    상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되,
    상기 조합 가중치는 상기 추출된 복수의 메타데이터 및 키워드 각각의 상위 검색결과 페이지에서의 적중률에 따라 결정되는 메타데이터 추천 장치.
  2. 제1항에 있어서,
    상기 추출된 복수의 메타데이터 각각에는 상기 메타태그에서의 빈도수에 따른 제1 가중치가 부여되는 메타데이터 추천 장치.
  3. 제1항에 있어서,
    상기 추출된 복수의 키워드에는 키그래프에 기반한 제2 가중치가 부여되는 메타데이터 추천 장치.
  4. 삭제
  5. 제1항에 있어서,
    상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 중 검색결과 노출 순위가 높은 메타데이터 및 키워드에 높은 가중치가 부여되는 메타데이터 추천 장치.
  6. 제1항에 있어서,
    상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 중 상위 검색결과 페이지에서의 적중률이 하위 검색결과 페이지에서의 적중률보다 높은 메타데이터 및 키워드가 상기 의미적 관련성에 따른 높은 가중치가 부여되는 메타데이터 추천 장치.
  7. 제1항에 있어서,
    상기 메타태그는 제목태그, 설명태그 및 키워드태그 중 적어도 하나를 포함하는 메타데이터 추천 장치.
  8. 제1항에 있어서,
    상기 프로그램 명령어들은,
    상기 의미적 관련성 평가를 위해, 상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드에 BoW(Bag of Words) 모델 및 IF-IDF(Term Frequency-Inverse Document Frequency)를 적용하여 용어의 특징 벡터(Word Vector)를 생성하고, 상기 특징 벡터를 SOM(Self-Organizing Map)에 근거하여 클러스터링하고, 클러스터링된 용어들의 상관 관계를 계산하는 메타데이터 추천 장치.
  9. 검색서버와 연결되는 장치에서 메타데이터를 추천하는 방법으로서,
    미리 설정된 질의어에 대한 검색결과 페이지에 포함된 복수의 웹사이트 정보를 수집하는 단계;
    상기 수집된 복수의 웹사이트 각각의 메타태그로부터 복수의 메타데이터를 추출하는 단계;
    상기 복수의 웹사이트 각각의 본문 텍스트로부터 복수의 키워드를 추출하는 단계;
    상기 추출된 복수의 메타데이터 및 키워드 각각에 조합 가중치를 부여하는 단계; 및
    상기 조합 가중치가 부여된 복수의 메타데이터 및 키워드 각각의 검색결과 노출 순위 및 의미적 관련성을 고려하여 하나 이상의 메타데이터 추천 용어를 결정하는 단계를 포함하되,
    상기 조합 가중치는 상기 추출된 복수의 메타데이터 및 키워드 각각의 상위 검색결과 페이지에서의 적중률에 따라 결정되는 메타데이터 추천 방법.
  10. 제9항에 따른 방법으로 수행하는 기록매체에 저장되는 프로그램.
KR1020190049912A 2019-04-29 2019-04-29 메타데이터 추천 서비스 제공 방법 및 장치 KR102205061B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190049912A KR102205061B1 (ko) 2019-04-29 2019-04-29 메타데이터 추천 서비스 제공 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190049912A KR102205061B1 (ko) 2019-04-29 2019-04-29 메타데이터 추천 서비스 제공 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200126213A KR20200126213A (ko) 2020-11-06
KR102205061B1 true KR102205061B1 (ko) 2021-01-19

Family

ID=73572240

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190049912A KR102205061B1 (ko) 2019-04-29 2019-04-29 메타데이터 추천 서비스 제공 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102205061B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023098027A (ja) * 2021-12-28 2023-07-10 楽天グループ株式会社 管理装置、提案方法、ならびに、プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299292A (ja) * 2006-05-01 2007-11-15 Konica Minolta Business Technologies Inc 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101667199B1 (ko) 2015-01-26 2016-10-18 (주)해나소프트 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299292A (ja) * 2006-05-01 2007-11-15 Konica Minolta Business Technologies Inc 検索装置による情報検索方法、情報検索装置及び情報検索処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Farahmand,, M. 외 3인. "Optimizing Title and Meta Tags Based on Distribution of Keywords; Lexical and Semantic Approaches". Journal of Computer Science, 7(9), 1358-1362(2011.11.23. 공개)*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023098027A (ja) * 2021-12-28 2023-07-10 楽天グループ株式会社 管理装置、提案方法、ならびに、プログラム
JP7314247B2 (ja) 2021-12-28 2023-07-25 楽天グループ株式会社 管理装置、提案方法、ならびに、プログラム

Also Published As

Publication number Publication date
KR20200126213A (ko) 2020-11-06

Similar Documents

Publication Publication Date Title
Li et al. Embedding-based product retrieval in taobao search
JP6141305B2 (ja) 画像検索
Kim et al. Collaborative filtering based on collaborative tagging for enhancing the quality of recommendation
US8832091B1 (en) Graph-based semantic analysis of items
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
CN110637316B (zh) 用于预期对象识别的系统和方法
JP2009093655A (ja) 単語親和度による単語クラスタの識別
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
Li et al. How to get them a dream job? Entity-aware features for personalized job search ranking
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Jafari et al. Applying web usage mining techniques to design effective web recommendation systems: A case study
Chai et al. User-aware multi-interest learning for candidate matching in recommenders
Tondulkar et al. Get me the best: predicting best answerers in community question answering sites
Zaghloul et al. Text classification: neural networks vs support vector machines
US20090125503A1 (en) Web page categorization using graph-based term selection
Salminen et al. Using machine learning to predict ranking of webpages in the gift industry: factors for search-engine optimization
JP6377917B2 (ja) 画像検索装置及び画像検索プログラム
CN101105799A (zh) 评价文件重要性程度的方法
KR102205061B1 (ko) 메타데이터 추천 서비스 제공 방법 및 장치
Hsu et al. Efficient and effective prediction of social tags to enhance web search
Brefeld et al. Document assignment in multi-site search engines
Albarede et al. Passage retrieval on structured documents using graph attention networks
Moumtzidou et al. Discovery of environmental nodes in the web
Gourgaris et al. based Entity-ranking Refinement.
KR101818716B1 (ko) 컨셉 키워드 확장 데이터 셋 생성방법, 장치 및 컴퓨터로 판독 가능한 기록매체

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant