KR20190038751A - 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체 - Google Patents

사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체 Download PDF

Info

Publication number
KR20190038751A
KR20190038751A KR1020187024862A KR20187024862A KR20190038751A KR 20190038751 A KR20190038751 A KR 20190038751A KR 1020187024862 A KR1020187024862 A KR 1020187024862A KR 20187024862 A KR20187024862 A KR 20187024862A KR 20190038751 A KR20190038751 A KR 20190038751A
Authority
KR
South Korea
Prior art keywords
keyword
word
blog
score
target user
Prior art date
Application number
KR1020187024862A
Other languages
English (en)
Other versions
KR102170929B1 (ko
Inventor
전위 우
루이카이 리유
잰밍 왕
징 시야오
Original Assignee
핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 filed Critical 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Publication of KR20190038751A publication Critical patent/KR20190038751A/ko
Application granted granted Critical
Publication of KR102170929B1 publication Critical patent/KR102170929B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 소셜 네트워크 기반의 사용자 키워드 추출 방법을 개시하고, 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하며, 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하며, 키워드 추출 알고리즘에 기초하여 블로그 문장과 대응되는 키워드를 추출하여 목표 사용자의 후보 키워드 집합을 구성하며, 상기 단어 벡터 모델에 기초하여 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산하며, 의미 유사성 그래프를 구축하며, 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 키워드을 채점하여 사용자의 취미 키워드를 획득하도록 한다. 본 발명은 소셜 네트워크 기반의 사용자 키워드 추출 장치 및 컴퓨터 판독 가능한 저장매체를 더 개시한다. 본 발명은 기존의 기술에서의 사용자의 블로그 문장에 따라 사용자의 취미를 유효적으로 구현할 수 있는 키워드를 추출하기 어렵다는 기술 문제를 해결하고자 한다.

Description

사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체
본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히 소셜 네트워크 기반의 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체에 관한 것이다.
현재, 소셜 네트워크의 보급에 따라 웨이보 등의 소셜 네트워크에 기반한 다양한 어플리케이션은 더 많아지고 있고, 예컨대,사용자의 블로그 문장에 대해 개별화 추천을 수행하고 기존의 추천 방식은 주로 동일한 태그 정보의 친구에 기초한 추천방식, 동일한 팔로우 대상에 기초한 추천방식, 이슈에 기초한 추천방식 등을 포함하지만 이 런 추천방식은 제한성이 커서 사용자의 취미와 선호에 맞게 추천하기 어렵다. 따라서, 수많은 블로그 문장 데이터에서 사용자의 선호에 맞는 키워드를 유효적으로 추출하여 사용자의 진정한 취미를 분석하여 결정하는 것은 급히 해결되어야 할 문제이다.
본 발명은 소셜 네트워크 기반의 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체를 개시하고, 그의 주된 목적은 기존의 기술에서의 사용자의 블로그 문장에 따라 사용자의 취미를 유효적으로 구현할 수 있는 키워드를 추출하기 어렵다는 기술 문제를 해결하고자 한다.
상기 목적을 달성하기 위해, 본 발명은 소셜 네트워크 기반의 사용자 키워드 추출장치를 개시하고, 이 장치는 저장장치와 프로세서를 포함하고 상기 저장장치는 상기 프로세서 상에서 실행할 수 있는 사용자 키워드 추출 프로그램이 저장되고, 상기 사용자 키워드 추출 프로그램은 상기 프로세서에 의해 실행되어 다음과 같은 단계를 구현한다.
미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.
획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.
키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.
상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.
상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.
선택적으로는, 상기 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다는 단계는 다음과 같은 단계를 포함한다.
상기 후보 키워드 집합에서의 키워드를 단어 노드로 한다. 그 중, 하나의 키워드는 하나의 키워드 단어와 대응된다.
모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축한다.
모든 단어 노드 및 구축된 변으로 상기 의미 유사성 그래프를 구성한다.
선택적으로는, 상기 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산한다는 단계는 다음과 같은 단계를 포함한다.
2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 한다.
선택적으로는, 상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는 다음과 같은 단계를 포함한다.
각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출한다.
상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 한다.
선택적으로는, 상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는 다음과 같은 단계를 포함한다.
미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 한다.
또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고 상기 제1 미리 설정된 개수는 상기 제2 미리 설정된 개수보다 크다.
또한, 상기 목적을 달성하기 위해, 본 발명은 소셜 네트워크 기반의 사용자 키워드 추출방법을 개시하고, 이 방법은 다음과 같은 단계를 포함한다.
미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.
획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.
키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.
상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.
상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.
선택적으로는, 상기 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다는 단계는 다음과 같은 단계를 포함한다.
상기 후보 키워드 집합에서의 키워드를 단어 노드로 한다. 그 중, 하나의 키워드는 하나의 키워드 단어와 대응된다.
모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축한다.
모든 단어 노드 및 구축된 변으로 상기 의미 유사성 그래프를 구성한다.
선택적으로는, 상기 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산한다는 단계는 다음과 같은 단계를 포함한다.
2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 한다.
선택적으로는, 상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는 다음과 같은 단계를 포함한다.
각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출한다.
상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 한다.
또한, 상기 목적을 달성하기 위해 본 발명은 컴퓨터 판독 가능한 저장매체를 더 개시하고, 상기 컴퓨터 판독 가능한 저장매체는 사용자 키워드 추출 프로그램이 저장되며, 상기 사용자 키워드 추출 프로그램은 적어도 하나의 프로세서에 의해 실행되어 다음과 같은 동작을 구현한다.
미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.
획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.
키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.
상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.
상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.
본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체는 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하며, Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하며, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 대응되는 키워드를 추출하여 하나의 후보 키워드 집합을 구성하며, 상기 단어 벡터 모델에 기초하여 집합에서의 각 키워드의 단어 벡터를 계산하며, 키워드 집합 중 키워드 및 단어 벡터에 따라 의미 유사성 그래프를 구축하며, 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 이 사용자의 취미 키워드로 하고, 본 발명은 상기 방식으로 사용자에 의해 발표된 블로그 문장을 통합하여 단어 분리를 수행하는 방식으로 사용자의 취미에 맞는 키워드를 유효적으로 추출한다.
도1은 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치의 바람직한 실시예의 도면이다.
도2는 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치의 일실시예에서의 사용자 키워드 추출 프로그램의 프로그램 모듈의 도면이다.
도3은 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출방법의 바람직한 실시예의 흐름도이다.
본 발명의 목적 실현, 기능 특점 및 장점에 대해 실시예를 통해 도면을 참조하여 설명하기로 한다.
여기서서 설명하는 구체적인 실시예는 본 발명을 설명하기 위한 것일 뿐 본 발명을 한정하기 위한 것이 아니다.
본 발명은 소셜 네트워크 기반의 사용자 키워드 추출장치를 개시한다. 도1에 도시된 바와 같이, 도1은 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치의 바람직한 실시예의 도면이다.
본 실시예에서, 소셜 네트워크 기반의 사용자 키워드 추출장치는 PC(Personal Computer,퍼스널 컴퓨터)일 수도 있고, 스마트폰, 태블릿 PC, 전자책 리더기, 휴대용 컴퓨터 등의 단말장치일 수도 있다.
이 소셜 네트워크 기반의 사용자 키워드 추출장치는 저정정치(11), 프로서서(12), 통신 버스(13) 및 네트워크 인터페이스(14)를 포함한다.
그 중, 저장장치(11)는 적어도 한 종류의 판독 가능한 저장매체를 포함하고, 상기 판독 가능한 저장매체는 플래시 메모리, 하드 디스크, 멀티미디어 카드, 카드 타입 메모리(예를 들어, SD 또는 DX 메모리 등), 자기 메모리, 자기 디스크, 시디롬 등을 포함한다. 일부 실시예에 있어서, 저장장치(11)는 소셜 네트워크 기반의 사용자 키워드 추출장치의 내부 저장 유닛일 수 있고, 예를 들어, 이 소셜 네트워크 기반의 사용자 키워드 추출장치의 하드 디스크일 수 있다. 다른 일부 실시예에 있어서, 저장장치(11)는 소셜 네트워크 기반의 사용자 키워드 추출장치의 외부 저장 장치일 수도 있고, 예를 들어, 소셜 네트워크 기반의 사용자 키워드 추출장치에 설치된 플러그인형 하드디스크, 스마트 미디어 카드(Smart Media Card, SMC), 시큐어 디지털(Secure Digital, SD) 카드, 플래시 카드(Flash Card)등과 같다. 또한, 저장장치(11)는 소셜 네트워크 기반의 사용자 키워드 추출장치의 내부 저장 유닛을 포함할 뿐만 아니라 외부 저장장치도 포함할 수 있다. 저장장치(11)는 소셜 네트워크 기반의 사용자 키워드 추출장치에 설치된 응용 소프트웨어 및 다양한 유형의 데이터, 예를 들어 사용자 키워드 추출 프로그램의 코드 등을 저장할 뿐만 아니라 출력되거나 출력될 데이터를 잠시 저장할 수도 있다.
일부 실시예에 있어서, 상기 프로세서(12)는 중앙 처리 장치(Central Processing Unit,CPU), 컨트롤러, 마이크로컨트롤러, 마이크로프로세서, 또는 기타 데이터 처리 칩일 수 있어 저장장치(11)에 저장되는 프로그램 코드 또는 처리 데이터를 실행하고, 예를 들어, 사용자 키워드 추출 프로그램을 실행한다.
통신 버스(13) 이 들 모듈 사이의 연결 통신을 구현하기 위한 것이다.
네트워크 인터페이스(14)는 표준적 유선 네트워크 인터페이스, 무선 네트워크 인터페이스(예를 들어, WI-FI 인터페이스)를 선택적으로 포함할 수 있고, 이 장치와 다른 전자 장비 사이에서 통신 연결을 구축하기 위한 것이다.
도1은 모듈(11-14)과 사용자 키워드 추출 프로그램을 가지는 소셜 네트워크 기반의 사용자 키워드 추출장치만 도시하나 모든 도시된 모듈을 실시하는 것을 요구하지 않고 더 많거나 적은 모듈으로 대체하여 실시할 수 있다는 것을 이해하여야 한다.
선택적으로, 이 장치는 유저 인터페이스를 더 포함할 수 있고, 유저 인터페이스는 디스플레이 장치(Display), 키보드(Keyboard)와 같은 입력 유닛을 포함할 수 있고, 선택할 수 있는 유저 인터페이스는 표준적인 유선 인터페이스, 무선 인터페이스를 더 포함할 수도 있다. 선택적으로, 일부 실시예에 있어서, 디스플레이 장치는 LED 모니터, 액정 모니터, 터치 액정 모니터 및 OLED(Organic Light-Emitting Diode,유기 발광 다이오드)터치장치 등일 수 있다. 그 중, 디스플레이 장치는 적당히 모니터 또는 디스플레이 유닛이라고 일컫을 수도 있고, 모델 분석 장치에서 처리된 정보를 디스플레이하고 가시화의 유저 인터페이스를 디스플레이한다.
도1에 도시된 장치의 실시예 있어서, 저장장치(11)에 사용자 키워드 추출 프로그램이 저장되며, 프로세서(12)는 저장장치(11)에 저장된 사용자 키워드 추출 프로그램을 실행하여 다음과 같은 단계를 구현한다.
A. 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.
B. 획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.
C. 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.
본 실시예에 있어서, 웨이보의 경우, 본 발명의 방안을 설명하기로 한다. 목표 사용자에 의해 발표된 웨이보 내용에 따라 이 사용자의 취미 및 선호를 유효적으로 구현할 수 있는 키워드를 획득할 때, 사용자에 의해 발표된 웨이보를 획득하여 단어 분리를 한다. 시간이 지나감에 따라 사용자의 취미 및 선호가 변화할 수 있기 때문에 키워드 추출의 정확도를 높이기 위해 시간 차원에서 발표된 블로그 문장에 대해 필터를 수행하고 미리 절정된 시간 구간을 설치하고 이 시간대에 발표된 블로그 문만 분석하고 예컨대, 최근 1년간에 발표된 블로그만 분석한다. 물론, 다른 실시예에서 사용자에 의해 미리 설정된 신간 구간에 발표된 블로그 문장의 개수가 적으면 이 사용자에 의해 과거에 발표된 전부 블로그 문장을 분석할 수도 있다.
목표 사용자에 의해 발표된 블로그 문장을 획득한 후 단어 분리 툴로 획득된 각 블로그 문장에 대해 차례로 단어 분리를 하고 예컨대, Stanford 중국어 단어 분리 툴, jieba 단어 분리 등의 단어 분리 툴로 단어 분리를 수행한다. 예컨대, '어제 밤에 영화를 보러 갔다.'란 블로그 문장 내용에 대해 단어 분리를 하면, 다음과 같은 결과를 얻는다. '어제|밤|영화|보다|가다|갔'. 단어 분리를 한 후 단어 분리 결과를 보류하고, 키워드의 유효성을 더 높이기 위해 단어 분리 결과에서의 동사 및 / 또는 명사만 보류하고 부사, 형용사 등 사용자 취미 및 선호를 구현할 수 없는 단어를 제거하고 예컨대, 상기 예에서, '영화'란 단어만 보류한다. 단어 분리를 수행한 후에 얻어진 결과는 비어있으면 대응되는 블로그 문장을 필터링하고 각 단어 분리 결과가 비 비어있는 블로그 문장은 대응되는 단어 테이블을 획득할 수 있고, 상기 시간 구간 내의 모든 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터 모델을 획득하며, 이 단어 벡터 모델은 키워드를 하나의 단어 벡터로 전화한다. Word2Vec 모델은 단어 벡터 계산을 위한 툴이며, 이 모델을 훈련하고 그를 이용하여 단어의 단어 벡터를 계산하는 것에 관하여 완전한 계산 방법을 구비하여 설명을 생략하기로 한다.
다음에는 키워드 추출 알고리즘을 이용하여 각 블로그 문장에 대해 키워드를 추출하고, 예를 들어, TF-IDF(Term Frequency-Inverse Document Frequency, 단어 빈도 및 역문서 빈도) 알고리즘, LSA (Latent Semantic Analysis, 잠재 의미 분석) 알고리즘 또는 PLSA (Probabilisitic Latent Semantic Analysis, 확률적 잠재 의미 분석) 알고리즘 등 키워드 추출 알고리즘 중 어느 하나의 알고리즘을 이용하여 각 블로그 문장의 단어 테이블을 계산하며, 최고 점수를 획득한 나하 또는 다수의 단어를 이 블로그 문장과 대응되는 키워드로 하여 상기 단어 벡터 모델을 이용하여 각 카워드를 하나의 대응되는 단어 벡터로 전화한다. 또는, 다른 실시방식으로서, 다수의 키워드 추출 알고리즘을 통해 키워드를 추출하고, 구체적로는, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하는 단계는 다음과 같다. 각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하며, 상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 한다. 예컨대, 각각 상기 TF-IDF 알고리즘, LSA 알고리즘 또는 PLSA 알고리즘에 따라 한번의 키워드 추출을 하고 반복적인 부분의 키워드를 이 블로그 문장과 대응되는 키워드로 한다.
블로그 문장의 내용이 상대적으로 적기 때문에 상기 키워드 추출 알고리즘을 이용하여 블로그 문장에 대해 키워드를 추출할 때, 일반적으로 추출된 키워드의 소음이 크고 지나치게 광범하여 사용자의 취미를 정학하게 구현하기 어려워서 본 실시예에서 대량의 블로그 문장에 대하여 상기 키워드 추출 알고리즘에 의해 추출된 키워드를 이용하여 후보 키워드로 하여 후보 키워드 집합을 구축하고 후속의 알고리즘에 의해 이 키워드 집합을 처리하여 그 중에서 사용자의 취미를 구현할 수 있는 키워드를 획득한다.
D. 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.
상기 미리 설정된 시간 구간 내에 목표 사용자에 의해 발표된 각 블로그 문장과 대응되는 키워드를 이 목표 사용자의 후보 키워드 집합으로 구축하며, 상기 단어 벡터 보델을 이용하여 집합에서의 각 키워드의 단어 벡터를 계산한다. 상기 후보 키워드 집합 및 단어 벡터에 따라 하나의 의미 유사성 그래프를 구축한다.
상기 후보 키워드 집합 및 상기 후보 키워드 집합에서의 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축하는 단계는 다음과 같은 세부화 단계를 포함할 수 있다. 상기 후보 키워드 집합에서의 키워드를 단어 노드로 한다. 그 중, 하나의 키워드는 하나의 키워드 단어와 대응되며, 모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축하며, 모든 단어 노드 및 구축된 변으로 상기 의미 유사성 그래프를 구성한다.
그 중, 전후 문맥의 유사도를 계산항 때, 2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 한다. 그 중, 단어 노드 사이에 구축된 변은 방향성 변일 수도 있고 비 방향성 변일 수도 있으며, 그 중, 방향성 변의 방향은 일찍 나타난 단어 노드로부터 늦게 나타난 단어 노드로 지향할 수 있다. 그들은 서로 다른 장점을 가지고 있고 방향성 변의 특점은 Pagerank 알고리즘을 실행할 때 반복 계산을 하여야 하여 계산량이 크고, 그의 장점은 소음 제거의 효과가 좋고, 예컨대, 하나의 사용자를 분석한 후, 획득된 키워드는 크리스티아누 호날두, 레알 마드리드, 라리가, 축구, 추첨을 포함하고, 앞의 4개 단어는 의미 유사성 그래프에서 어느 하나가 어느 하나를 지향하는 것 상관없이, Pagerank 알고리즘에 의해 채점하는 과정에서 상호 촉진 작용을 이루고, 그래서 일부 단어, 예컨대 과자가 다른 단어와의 방향성 변을 구축하였지만 반복 과정에서 상호 촉진을 이룰 수 없기 때문에 '추첨'이란 단어에 대한 채점이 상대적으로 낮아서 이 단어를 제거할 수 있다. 비 방향성 변에 대하여, Pagerank 알고리즘을 실행할 때 계산 속도가 신속하고 반복 계산할 필요 없지만 소음 제거의 효과가 좋지 않고 예컨대, 상기 예시에서, '추첨'이란 단어를 제거하지 않을 수도 있다. 다른 실시예에서, 다른 방식을 이용하여 두 단어 사이의 의미 유사도를 계산하고 예를 들어, 대규모 코퍼스에 기반하여 의미 유사도를 계산하는 방법은 성숙한 단어 사이 유사도의 계산 방법으로, 그의 구체적인 원리에 대한 설명을 여기서 생략하기로 한다.
E. 상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.
의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고, 단어 노드의 Pagerank 값이 클수록 그래프에서 이 단어 노드를 지향하는 다른 단어 노드(방향성 변의 경우) 또는 이 단어 노드와 연결을 구축하는 다른 단어 노드(비 방향성 변의 경우)가 더 많고 그래프에서 이 단어 노드와 높은 유사도를 가지는 다른 단어 노드가 더 많아 이 단어 노드와 대응되는 키워드는 사용자의 취미를 더 구현할 수 있음으로써 채점이 높은 키워드를 목표 사용자의 취미 키워드로 한다. 구체적으로는, 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계는 다음과 같은 단계를 포함한다.
미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 한다.
또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고 상기 제1 미리 설정된 개수는 상기 제2 미리 설정된 개수보다 크다.
상기 각 실시예에서 미리 설정된 한계값, 미리 설정된 자수, 제1 미리 설정된 개수 및 제2 미리 설정된 개수 등 미리 설정될 필요가 있는 파라미터는 사용자의 실제상황에 따라 설정할 수 있다.
상기 실시예에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치는 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 가 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하고 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하며, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 대응되는 키워드를 추출하여 하나의 후보 키워드 집합을 구성하며, 상기 단어 벡터 모델에 기초하여 집합에서의 각 키워드의 단어 벡터를 계산하며, 키워드 집합 중 키워드 및 단어 벡터에 따라 의미 유사성 그래프를 구축하며, 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 이 사용자의 취미 키워드로 하고, 본 출원은 상기 방식으로 사용자에 의해 발표된 블로그 문장을 통합하여 단어 분리를 수행하는 방식으로 사용자의 취미에 맞는 키워드를 유효적으로 추출한다.
선택적으로는, 다른 실시예에서, 사용자 키워드 추출 프로그램은 하나 또는 다수의 모듈로 분할될 수 있는데, 하나 또는 다수의 모듈은 상기 저장장치(11)에 저장되고 하나 또는 다수의 프로세서(본 실시예는 프로세서(12)이다)에 의해 실행되어 본 발명을 구현하도록 하며, 본 발명에서 언급한 모듈은 특정 기능을 수행할 수 있는 일련의 컴퓨터 프로그램 명령 세그먼트를 뜻하고, 예를 들어, 도2를 참조하면, 도2는 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치의 일 실시예에서의 사용자 키워드 추출 프로그램의 프로그램 모듈의 도면이고, 이 실시예에서, 사용자 키워드 추출 장치는 획득모듈(10), 훈련모듈(20), 추출모듈(30), 그래프 구축모듈(40) 및 채점모듈(50)로 분할될 수 있으며, 예시적으로는 다음과 같다.
획득모듈(10), 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.
훈련모듈(20), 획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.
추출모듈(30), 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.
그래프 구축모듈(40), 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.
채점모듈(50), 상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.
상기 획득모듈(10), 훈련모듈(20), 추출모듈(30), 그래프 구축모듈(40) 및 채점모듈(50)이 실행되어 구현된 기능 또는 동작 단계는 상기 실시예와 대체로 같아서 여기서 설명을 생략하기로 한다.
또는, 본 발명은 소셜 네트워크 기반의 사용자 키워드 추출 방법을 더 개시한다. 도3을 참조하면, 도3은 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출방법의 바람직한 실시예의 흐름도이다. 이 방법은 하나의 장치에 의해 실행될 수 있고, 이 장치는 소프트웨어 및/또는 하드웨어에 의해 구현될 수 있다.
본 실시예에서, 소셜 네트워크 기반의 사용자 키워드 추출 방법은 다음과 같은 단계를 포함한다.
단계(S10), 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.
단계(S20), 획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.
단계(S30), 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다. 본 실시예에 있어서, 웨이보의 경우, 본 발명의 방안을 설명하기로 한다. 목표 사용자에 의해 발표된 웨이보 내용에 따라 이 사용자의 취미 및 선호를 유효적으로 구현할 수 있는 키워드를 획득할 때, 사용자에 의해 발표된 웨이보를 획득하여 단어 분리를 한다. 시간이 지나감에 따라 사용자의 취미 및 선호가 변화할 수 있기 때문에 키워드 추출의 정확도를 높이기 위해 시간 차원에서 발표된 블로그 문장에 대해 필터를 수행하고 미리 절정된 시간 구간을 설치하고 이 시간대에 발표된 블로그 문만 분석하고 예컨대, 최근 1년간에 발표된 블로그만 분석한다. 물론, 다른 실시예에서 사용자에 의해 미리 설정된 신간 구간에 발표된 블로그 문장의 개수가 적으면 이 사용자에 의해 과거에 발표된 전부 블로그 문장을 분석할 수도 있다.
목표 사용자에 의해 발표된 블로그 문장을 획득한 후 단어 분리 툴로 획득된 각 블로그 문장에 대해 차례로 단어 분리를 하고 예컨대, Stanford 중국어 단어 분리 툴, jieba 단어 분리 등의 단어 분리 툴로 단어 분리를 수행한다. 예컨대, '어제 밤에 영화를 보러 갔다.'란 블로그 문장 내용에 대해 단어 분리를 하면, 다음과 같은 결과를 얻는다. '어제|밤|영화|보다|가다|갔'. 단어 분리를 한 후 단어 분리 결과를 보류하고, 키워드의 유효성을 더 높이기 위해 단어 분리 결과에서의 동사 및 / 또는 명사만 보류하고 부사, 형용사 등 사용자 취미 및 선호를 구현할 수 없는 단어를 제거하고 예컨대, 상기 예에서, '영화'란 단어만 보류한다. 단어 분리를 수행한 후에 얻어진 결과는 비어있으면 대응되는 블로그 문장을 필터링하고 각 단어 분리 결과가 비 비어있는 블로그 문장은 대응되는 단어 테이블을 획득할 수 있고, 상기 시간 구간 내의 모든 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터 모델을 획득하며, 이 단어 벡터 모델은 키워드를 하나의 단어 벡터로 전화한다. Word2Vec 모델은 단어 벡터 계산을 위한 툴이며, 이 모델을 훈련하고 그를 이용하여 단어의 단어 벡터를 계산하는 것에 관하여 완전한 계산 방법을 구비하여 설명을 생략하기로 한다.
다음에는 키워드 추출 알고리즘을 이용하여 각 블로그 문장에 대해 키워드를 추출하고, 예를 들어, TF-IDF(Term Frequency-Inverse Document Frequency, 단어 빈도 및 역문서 빈도) 알고리즘, LSA (Latent Semantic Analysis, 잠재 의미 분석) 알고리즘 또는 PLSA (Probabilisitic Latent Semantic Analysis, 확률적 잠재 의미 분석) 알고리즘 등 키워드 추출 알고리즘 중 어느 하나의 알고리즘을 이용하여 각 블로그 문장의 단어 테이블을 계산하며, 최고 점수를 획득한 나하 또는 다수의 단어를 이 블로그 문장과 대응되는 키워드로 하여 상기 단어 벡터 모델을 이용하여 각 카워드를 하나의 대응되는 단어 벡터로 전화한다. 또는, 다른 실시방식으로서, 다수의 키워드 추출 알고리즘을 통해 키워드를 추출하고, 구체적로는, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하는 단계는 다음과 같다. 각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하며, 상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 한다. 예컨대, 각각 상기 TF-IDF 알고리즘, LSA 알고리즘 또는 PLSA 알고리즘에 따라 한번의 키워드 추출을 하고 반복적인 부분의 키워드를 이 블로그 문장과 대응되는 키워드로 한다.
블로그 문장의 내용이 상대적으로 적기 때문에 상기 키워드 추출 알고리즘을 이용하여 블로그 문장에 대해 키워드를 추출할 때, 일반적으로 추출된 키워드의 소음이 크고 지나치게 광범하여 사용자의 취미를 정학하게 구현하기 어려워서 본 실시예에서 대량의 블로그 문장에 대하여 상기 키워드 추출 알고리즘에 의해 추출된 키워드를 이용하여 후보 키워드로 하여 후보 키워드 집합을 구축하고 후속의 알고리즘에 의해 이 키워드 집합을 처리하여 그 중에서 사용자의 취미를 구현할 수 있는 키워드를 획득한다.
단계(S40), 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.
상기 미리 설정된 시간 구간 내에 목표 사용자에 의해 발표된 각 블로그 문장과 대응되는 키워드를 이 목표 사용자의 후보 키워드 집합으로 구축하며, 상기 단어 벡터 보델을 이용하여 집합에서의 각 키워드의 단어 벡터를 계산한다. 상기 후보 키워드 집합 및 단어 벡터에 따라 하나의 의미 유사성 그래프를 구축한다.
상기 후보 키워드 집합 및 상기 후보 키워드 집합에서의 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축하는 단계는 다음과 같은 세부화 단계를 포함할 수 있다. 상기 후보 키워드 집합에서의 키워드를 단어 노드로 한다. 그 중, 하나의 키워드는 하나의 키워드 단어와 대응되며, 모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축하며, 모든 단어 노드 및 구축된 변으로 상기 의미 유사성 그래프를 구성한다.
그 중, 전후 문맥의 유사도를 계산항 때, 2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 한다. 그 중, 단어 노드 사이에 구축된 변은 방향성 변일 수도 있고 비 방향성 변일 수도 있으며, 그 중, 방향성 변의 방향은 일찍 나타난 단어 노드로부터 늦게 나타난 단어 노드로 지향할 수 있다. 그들은 서로 다른 장점을 가지고 있고 방향성 변의 특점은 Pagerank 알고리즘을 실행할 때 반복 계산을 하여야 하여 계산량이 크고, 그의 장점은 소음 제거의 효과가 좋고, 예컨대, 하나의 사용자를 분석한 후, 획득된 키워드는 크리스티아누 호날두, 레알 마드리드, 라리가, 축구, 추첨을 포함하고, 앞의 4개 단어는 의미 유사성 그래프에서 어느 하나가 어느 하나를 지향하는 것 상관없이, Pagerank 알고리즘에 의해 채점하는 과정에서 상호 촉진 작용을 이루고, 그래서 일부 단어, 예컨대 과자가 다른 단어와의 방향성 변을 구축하였지만 반복 과정에서 상호 촉진을 이룰 수 없기 때문에 '추첨'이란 단어에 대한 채점이 상대적으로 낮아서 이 단어를 제거할 수 있다. 비 방향성 변에 대하여, Pagerank 알고리즘을 실행할 때 계산 속도가 신속하고 반복 계산할 필요 없지만 소음 제거의 효과가 좋지 않고 예컨대, 상기 예시에서, '추첨'이란 단어를 제거하지 않을 수도 있다. 다른 실시예에서, 다른 방식을 이용하여 두 단어 사이의 의미 유사도를 계산하고 예를 들어, 대규모 코퍼스에 기반하여 의미 유사도를 계산하는 방법은 성숙한 단어 사이 유사도의 계산 방법으로, 그의 구체적인 원리에 대한 설명을 여기서 생략하기로 한다.
단계(S50), 상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.
의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고, 단어 노드의 Pagerank 값이 클수록 그래프에서 이 단어 노드를 지향하는 다른 단어 노드(방향성 변의 경우) 또는 이 단어 노드와 연결을 구축하는 다른 단어 노드(비 방향성 변의 경우)가 더 많고 그래프에서 이 단어 노드와 높은 유사도를 가지는 다른 단어 노드가 더 많아 이 단어 노드와 대응되는 키워드는 사용자의 취미를 더 구현할 수 있음으로써 채점이 높은 키워드를 목표 사용자의 취미 키워드로 한다. 구체적으로는, 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계는 다음과 같은 단계를 포함한다.
미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 한다.
또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고 상기 제1 미리 설정된 개수는 상기 제2 미리 설정된 개수보다 크다.
상기 각 실시예에서 미리 설정된 한계값, 미리 설정된 자수, 제1 미리 설정된 개수 및 제2 미리 설정된 개수 등 미리 설정될 필요가 있는 파라미터는 사용자의 실제상황에 따라 설정할 수 있다.
상기 실시예에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치는 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 가 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하고 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하며, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 대응되는 키워드를 추출하여 하나의 후보 키워드 집합을 구성하며, 상기 단어 벡터 모델에 기초하여 집합에서의 각 키워드의 단어 벡터를 계산하며, 키워드 집합 중 키워드 및 단어 벡터에 따라 의미 유사성 그래프를 구축하며, 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 이 사용자의 취미 키워드로 하고, 본 출원은 상기 방식으로 사용자에 의해 발표된 블로그 문장을 통합하여 단어 분리를 수행하는 방식으로 사용자의 취미에 맞는 키워드를 유효적으로 추출한다.
또한, 본 발명의 실시예는 컴퓨터 판독 가능한 저장매체를 더 개시하고, 상기 컴퓨터 판독 가능한 저장매체는 사용자 키워드 추출 프로그램이 저장되며, 상기 사용자 키워드 추출 프로그램은 하나 또는 다수의 프로세서에 의해 실행되어 다음과 같은 동작을 구현한다.
미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.
획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.
키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.
상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.
상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.
또한, 상기 사용자 키워드 추출 프로그램은 프로세서에 의해 실행될 때, 다음과 같은 동작을 더 구현한다.
상기 후보 키워드 집합에서의 키워드를 단어 노드로 한다. 그 중, 하나의 키워드는 하나의 키워드 단어와 대응된다.
모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축한다.
모든 단어 노드 및 구축된 변으로 상기 의미 유사성 그래프를 구성한다.
또한, 상기 사용자 키워드 추출 프로그램은 프로세서에 의해 실행될 때, 다음과 같은 동작을 더 구현한다.
2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 한다.
또한, 상기 사용자 키워드 추출 프로그램은 프로세서에 의해 실행될 때, 다음과 같은 동작을 더 구현한다.
각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출한다.
상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 한다.
본 발명에 따른 컴퓨터 판독 가능한 저장매체의 구체적인 실시방식은 상기 소셜 네트워크 기반의 사용자 키워드 추출장치와 방법의 각 실시예와 대체로 같아서 여기서 설명을 생략하기로 한다.
상기와 같은 본 발명에 따른 실시예의 순번은 설명하기 위한 것일 뿐 실시예의 우열을 가리기 위한 것이 아니다. 본 명세서에 있어서, 용어 "포함하다", "구성하다" 또는 이의 임의 기타 변형은 비 배타성의 포함을 뜻하여 일련의 요소를 포함하는 과정, 방법, 물품 또는 장치는 그런 요소를 포함할 뿐만 아니라 명확하게 열거하지 않은 기타 요소도 포함하거나 이런 과정, 방법, 물품 또는 장치가 고유한 요소를 포함한다. 더 많은 한정이 없는 한 문구 "하나의 ...... 포함한다"에 의해 한정된 요소는 이 요소의 과정, 방법, 물품 또는 장치에는 다른 동일한 요소가 존재한다는 것을 배제하지 않다.
본 기술분야의 당업자에게 있어서 상기와 같은 실시방식에 대한 설명을 통해 상기 실시예 방법이 소프트웨어와 필요하고 통용한 하드웨어 플랫폼으로 구현될 수 있으며 몰론 하드웨어를 통해 구현될 수 있지만 대부분의 경우에서 전자가 바람직한 실시방식임은 자명한 것이다. 이런 이해에 기초하여 본 발명의 기술방안 본질적으로 또는 종래 기술에 공헌할 부분은 소프트웨어 상품으로 구현될 수 있고 이 컴퓨터 소프트웨어 상품은 하나의 저장매체(예를 들어, ROM/RAM, 자기 디스크, 광 디스크)에 저장되고 여러 명령을 포함하여 하나의 단말기장치(휴대폰, 컴퓨터, 서버, 에어컨, 네트워크 장비 등)를 통해 본 발명에 따른 각각의 실시예의 방법을 수행한다.
상기와 같은 실시예는 본 발명의 바람직한 실시예로서 본 발명에 대해 한정하고자 하는 것이 아니고, 본 발명의 명세서 및 첨부된 도면을 이용하여 실시된 등가 구조 또는 등가 공정, 또는 직접적이나 간접적으로 기타 관련된 기술 분야에 적용되면 마찬가지로 본 발명의 특허 보호 범위내에 포함된다.

Claims (20)

  1. 소셜 네트워크 기반의 사용자 키워드 추출장치에 있어서, 상기 장치는 저장장치와 프로세서를 포함하고, 상기 저장장치는 상기 프로세서 상에서 실행할 수 있는 사용자 키워드 추출 프로그램이 저장되고, 상기 사용자 키워드 추출 프로그램은 상기 프로세서에 의해 실행되어,
    미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하는 단계와,
    획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하는 단계와,
    키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산하는 단계와,
    상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축하는 단계와,
    상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 구현하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
  2. 제1항에 있어서,
    상기 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다는 단계는,
    상기 후보 키워드 집합에서의 키워드를 단어 노드로 하고 그 중, 하나의 키워드는 하나의 키워드 단어와 대응되는 단계와,
    모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축하는 단계와,
    모든 단어 노드 및 구축된 변으로 상기 의미 유사성 그래프를 구성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
  3. 제2항에 있어서,
    상기 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산한다는 단계는,
    2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
  4. 제1항에 있어서,
    상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는
    각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하는 단계와,
    상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출장치.
  5. 제2항에 있어서,
    상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는
    각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하는 단계와,
    상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
  6. 제1항에 있어서,
    상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는
    미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계와,
    또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 상기 제2 미리 설정된 개수보다 큰 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
  7. 제2항에 있어서,
    상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는
    미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계와,
    또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 상기 제2 미리 설정된 개수보다 큰 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
  8. 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하는 단계와,
    획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하는 단계와,
    키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산하는 단계와,
    상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축하는 단계와,
    상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
  9. 제8항에 있어서,
    상기 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다는 단계는,
    상기 후보 키워드 집합에서의 키워드를 단어 노드로 하고, 그 중, 하나의 키워드는 하나의 키워드 단어와 대응되는 단계와,
    모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축하는 단계와,
    모든 단어 노드 및 구축된 변으로 상기 의미 유사성 그래프를 구성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
  10. 제9항에 있어서,
    상기 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산한다는 단계는,
    2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
  11. 제8항에 있어서,
    상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는
    각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하는 단계와,
    상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
  12. 제9항에 있어서,
    상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는
    각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하는 단계와,
    상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
  13. 제8항에 있어서,
    상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는
    미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계와,
    또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 상기 제2 미리 설정된 개수보다 큰 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
  14. 제9항에 있어서,
    상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는
    미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계와,
    또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 상기 제2 미리 설정된 개수보다 큰 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
  15. 컴퓨터 판독 가능한 저장매체에 있어서, 상기 컴퓨터 판독 가능한 저장매체는 사용자 키워드 추출 프로그램이 저장되며, 상기 사용자 키워드 추출 프로그램은 적어도 하나의 프로세서에 의해 실행되어,
    미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하는 단계와,
    획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하는 단계와,
    키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산하는 단계와,
    상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축하는 단계와,
    상기 의미 유사성 그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  16. 제15항에 있어서,
    상기 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다는 단계는,
    상기 후보 키워드 집합에서의 키워드를 단어 노드로 하고, 그 중, 하나의 키워드는 하나의 키워드 단어와 대응되는 단계와,
    모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축하는 단계와,
    모든 단어 노드 및 구축된 변으로 상기 의미 유사성 그래프를 구성하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  17. 제16항에 있어서,
    상기 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산한다는 단계는,
    2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  18. 제15항에 있어서,
    상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는
    각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하는 단계와,
    상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  19. 제16항에 있어서,
    상기 블로그에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는
    각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하는 단계와,
    상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  20. 제15항에 있어서,
    상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는
    미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계와,
    또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 상기 제2 미리 설정된 개수보다 큰 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
KR1020187024862A 2017-08-29 2017-10-31 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체 KR102170929B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710754314.4A CN107704503A (zh) 2017-08-29 2017-08-29 用户关键词提取装置、方法及计算机可读存储介质
CN2017107543144 2017-08-29
PCT/CN2017/108797 WO2019041521A1 (zh) 2017-08-29 2017-10-31 用户关键词提取装置、方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
KR20190038751A true KR20190038751A (ko) 2019-04-09
KR102170929B1 KR102170929B1 (ko) 2020-10-29

Family

ID=61169937

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187024862A KR102170929B1 (ko) 2017-08-29 2017-10-31 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체

Country Status (7)

Country Link
US (1) US20210097238A1 (ko)
EP (1) EP3477495A4 (ko)
JP (1) JP2019533205A (ko)
KR (1) KR102170929B1 (ko)
CN (1) CN107704503A (ko)
AU (1) AU2017408801B2 (ko)
WO (1) WO2019041521A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210062522A (ko) * 2019-11-21 2021-05-31 강원오픈마켓 주식회사 사용자 참여형 키워드 선정 시스템의 제어 방법, 장치 및 프로그램
KR20210130529A (ko) * 2020-04-22 2021-11-01 인하대학교 산학협력단 딥러닝 기반 일기 생성 방법 및 장치

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596789B (zh) * 2018-03-29 2022-08-30 时时同云科技(成都)有限责任公司 一种菜品标准化的方法
CN108573134A (zh) * 2018-04-04 2018-09-25 阿里巴巴集团控股有限公司 一种识别身份的方法、装置及电子设备
CN109635273B (zh) * 2018-10-25 2023-04-25 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109408826A (zh) * 2018-11-07 2019-03-01 北京锐安科技有限公司 一种文本信息提取方法、装置、服务器及存储介质
CN111259656A (zh) * 2018-11-15 2020-06-09 武汉斗鱼网络科技有限公司 短语相似度计算方法、存储介质、电子设备及系统
CN109508423A (zh) * 2018-12-14 2019-03-22 平安科技(深圳)有限公司 基于语义识别的房源推荐方法、装置、设备及存储介质
CN110298029B (zh) * 2019-05-22 2022-07-12 平安科技(深圳)有限公司 基于用户语料的好友推荐方法、装置、设备及介质
CN110489758B (zh) * 2019-09-10 2023-04-18 深圳市和讯华谷信息技术有限公司 应用程序的价值观计算方法及装置
JP7451917B2 (ja) * 2019-09-26 2024-03-19 株式会社Jvcケンウッド 情報提供装置、情報提供方法及びプログラム
CN111191119B (zh) * 2019-12-16 2023-12-12 绍兴市上虞区理工高等研究院 一种基于神经网络的科技成果自学习方法及装置
CN111274428B (zh) * 2019-12-19 2023-06-30 北京创鑫旅程网络技术有限公司 一种关键词的提取方法及装置、电子设备、存储介质
CN111160193B (zh) * 2019-12-20 2024-02-09 中国平安财产保险股份有限公司 关键信息提取方法、装置及存储介质
CN111222309B (zh) * 2020-01-15 2024-09-24 深圳前海微众银行股份有限公司 一种问句生成的方法及装置
CN112800771B (zh) * 2020-02-17 2023-11-07 腾讯科技(深圳)有限公司 文章识别方法、装置、计算机可读存储介质和计算机设备
CN111460099B (zh) * 2020-03-30 2023-04-07 招商局金融科技有限公司 关键词提取方法、装置及存储介质
CN111581492B (zh) * 2020-04-01 2024-02-23 车智互联(北京)科技有限公司 一种内容推荐方法、计算设备及可读存储介质
CN111737523B (zh) * 2020-04-22 2023-11-14 聚好看科技股份有限公司 一种视频标签、搜索内容的生成方法及服务器
CN111724196A (zh) * 2020-05-14 2020-09-29 天津大学 一种基于用户体验的提高汽车产品质量的方法
CN111858834B (zh) * 2020-07-30 2023-12-01 平安国际智慧城市科技股份有限公司 基于ai的案件争议焦点确定方法、装置、设备及介质
CN112069232B (zh) * 2020-09-08 2023-08-01 中国移动通信集团河北有限公司 宽带业务覆盖范围的查询方法及装置
CN112101012B (zh) * 2020-09-25 2024-04-26 北京百度网讯科技有限公司 互动领域确定方法、装置、电子设备及存储介质
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112329462B (zh) * 2020-11-26 2024-02-20 北京五八信息技术有限公司 一种数据排序方法、装置、电子设备及存储介质
CN112988971A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 基于词向量的搜索方法、终端、服务器及存储介质
CN113919342A (zh) * 2021-09-18 2022-01-11 暨南大学 一种会计术语共现网络图构建的方法
CN115080718B (zh) * 2022-06-21 2024-04-09 浙江极氪智能科技有限公司 一种文本关键短语的抽取方法、系统、设备及存储介质
CN115344679A (zh) * 2022-08-16 2022-11-15 中国平安财产保险股份有限公司 问题数据的处理方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116469A (ja) * 2007-11-02 2009-05-28 Fujitsu Ltd 情報抽出プログラムおよび情報抽出装置
CN105912524A (zh) * 2016-04-09 2016-08-31 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置
US20170083507A1 (en) * 2015-09-22 2017-03-23 International Business Machines Corporation Analyzing Concepts Over Time
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175331A (ja) * 2000-12-07 2002-06-21 Patent Mall:Kk 特許分類表示方法、装置、記録媒体およびプログラム
EP2635965A4 (en) * 2010-11-05 2016-08-10 Rakuten Inc SYSTEMS AND METHODS RELATING TO KEYWORD EXTRACTION
CN104778161B (zh) * 2015-04-30 2017-07-07 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
CN105447179B (zh) * 2015-12-14 2019-02-05 清华大学 基于微博社交网络的话题自动推荐方法及其系统
CN106372064B (zh) * 2016-11-18 2019-04-19 北京工业大学 一种文本挖掘的特征词权重计算方法
CN106997382B (zh) * 2017-03-22 2020-12-01 山东大学 基于大数据的创新创意标签自动标注方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009116469A (ja) * 2007-11-02 2009-05-28 Fujitsu Ltd 情報抽出プログラムおよび情報抽出装置
US20170083507A1 (en) * 2015-09-22 2017-03-23 International Business Machines Corporation Analyzing Concepts Over Time
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN105912524A (zh) * 2016-04-09 2016-08-31 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210062522A (ko) * 2019-11-21 2021-05-31 강원오픈마켓 주식회사 사용자 참여형 키워드 선정 시스템의 제어 방법, 장치 및 프로그램
KR20210130529A (ko) * 2020-04-22 2021-11-01 인하대학교 산학협력단 딥러닝 기반 일기 생성 방법 및 장치

Also Published As

Publication number Publication date
AU2017408801A1 (en) 2019-03-14
EP3477495A4 (en) 2019-12-11
WO2019041521A1 (zh) 2019-03-07
CN107704503A (zh) 2018-02-16
US20210097238A1 (en) 2021-04-01
AU2017408801B2 (en) 2020-04-02
KR102170929B1 (ko) 2020-10-29
JP2019533205A (ja) 2019-11-14
EP3477495A1 (en) 2019-05-01

Similar Documents

Publication Publication Date Title
KR20190038751A (ko) 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체
WO2019227710A1 (zh) 网络舆情的分析方法、装置及计算机可读存储介质
WO2017181612A1 (zh) 个性化视频推荐方法及装置
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
JP6404106B2 (ja) コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法
CN105357586A (zh) 视频弹幕过滤方法及装置
CA2997986C (en) Scoring mechanism for discovery of extremist content
CN103823849A (zh) 词条的获取方法及装置
KR101757900B1 (ko) 지식 베이스의 구축 방법 및 장치
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
JP2018503173A (ja) 画像の提示情報を提供するための方法及び機器
CN111191454A (zh) 一种实体匹配的方法及装置
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN106033444B (zh) 文本内容的聚类方法和装置
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN107688594B (zh) 基于社交信息的风险事件的识别系统及方法
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
CN106815196B (zh) 软文展现次数统计方法和装置
JP6680472B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN112597760A (zh) 文档中的领域词提取方法和装置
JP6804913B2 (ja) 表構造推定システムおよび方法
KR101402339B1 (ko) 문서 관리 시스템 및 문서 관리 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant