KR102170929B1

KR102170929B1 - 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체

Info

Publication number: KR102170929B1
Application number: KR1020187024862A
Authority: KR
Inventors: 전위 우; 루이카이 리유; 잰밍 왕; 징 시야오
Original assignee: 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date: 2017-08-29
Filing date: 2017-10-31
Publication date: 2020-10-29
Also published as: WO2019041521A1; AU2017408801B2; AU2017408801A1; CN107704503A; EP3477495A4; EP3477495A1; KR20190038751A; US20210097238A1; JP2019533205A

Abstract

본 발명은 소셜 네트워크 기반의 사용자 키워드 추출 방법을 개시하고, 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하며, 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하며, 키워드 추출 알고리즘에 기초하여 블로그 문장과 대응되는 키워드를 추출하여 목표 사용자의 후보 키워드 집합을 구성하며, 상기 단어 벡터 모델에 기초하여 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산하며, 의미 유사성 그래프를 구축하며, 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 키워드을 채점하여 사용자의 취미 키워드를 획득하도록 한다. 본 발명은 소셜 네트워크 기반의 사용자 키워드 추출 장치 및 컴퓨터 판독 가능한 저장매체를 더 개시한다. 본 발명은 기존의 기술에서의 사용자의 블로그 문장에 따라 사용자의 취미를 유효적으로 구현할 수 있는 키워드를 추출하기 어렵다는 기술 문제를 해결하고자 한다.

Description

사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체

본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히 소셜 네트워크 기반의 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체에 관한 것이다.

현재, 소셜 네트워크의 보급에 따라 웨이보 등의 소셜 네트워크에 기반한 다양한 어플리케이션은 더 많아지고 있고, 예컨대，사용자의 블로그 문장에 대해 개별화 추천을 수행하고 기존의 추천 방식은 주로 동일한 태그 정보의 친구에 기초한 추천방식, 동일한 팔로우 대상에 기초한 추천방식, 이슈에 기초한 추천방식 등을 포함하지만 이 런 추천방식은 제한성이 커서 사용자의 취미와 선호에 맞게 추천하기 어렵다. 따라서, 수많은 블로그 문장 데이터에서 사용자의 선호에 맞는 키워드를 유효적으로 추출하여 사용자의 진정한 취미를 분석하여 결정하는 것은 급히 해결되어야 할 문제이다.

본 발명은 소셜 네트워크 기반의 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체를 개시하고, 그의 주된 목적은 기존의 기술에서의 사용자의 블로그 문장에 따라 사용자의 취미를 유효적으로 구현할 수 있는 키워드를 추출하기 어렵다는 기술 문제를 해결하고자 한다.

상기 목적을 달성하기 위해, 본 발명은 소셜 네트워크 기반의 사용자 키워드 추출장치를 개시하고, 이 장치는 저장장치와 프로세서를 포함하고 상기 저장장치는 상기 프로세서 상에서 실행할 수 있는 사용자 키워드 추출 프로그램이 저장되고, 상기 사용자 키워드 추출 프로그램은 상기 프로세서에 의해 실행되어 다음과 같은 단계를 구현한다.

미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.

획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.

키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.

상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.

상기 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.

선택적으로는, 상기 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다는 단계는 다음과 같은 단계를 포함한다.

상기 후보 키워드 집합에서의 키워드를 단어 노드로 한다. 그 중, 하나의 키워드는 하나의 키워드 단어와 대응된다.

모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축한다.

모든 단어 노드 및 구축된 변으로 상기 의미　유사성　그래프를 구성한다.

선택적으로는, 상기 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산한다는 단계는 다음과 같은 단계를 포함한다.

2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 한다.

선택적으로는, 상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는 다음과 같은 단계를 포함한다.

각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출한다.

상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 한다.

선택적으로는, 상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는 다음과 같은 단계를 포함한다.

미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 한다.

또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고 상기 제1 미리 설정된 개수는 상기 제2 미리 설정된 개수보다 크다.

또한, 상기 목적을 달성하기 위해, 본 발명은 소셜 네트워크 기반의 사용자 키워드 추출방법을 개시하고, 이 방법은 다음과 같은 단계를 포함한다.

또한, 상기 목적을 달성하기 위해 본 발명은 컴퓨터 판독 가능한 저장매체를 더 개시하고, 상기 컴퓨터 판독 가능한 저장매체는 사용자 키워드 추출 프로그램이 저장되며, 상기 사용자 키워드 추출 프로그램은 적어도 하나의 프로세서에 의해 실행되어 다음과 같은 동작을 구현한다.

본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체는 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하며, Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하며, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 대응되는 키워드를 추출하여 하나의 후보 키워드 집합을 구성하며, 상기 단어 벡터 모델에 기초하여 집합에서의 각 키워드의 단어 벡터를 계산하며, 키워드 집합 중 키워드 및 단어 벡터에 따라 의미 유사성 그래프를 구축하며, 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 이 사용자의 취미 키워드로 하고, 본 발명은 상기 방식으로 사용자에 의해 발표된 블로그 문장을 통합하여 단어 분리를 수행하는 방식으로 사용자의 취미에 맞는 키워드를 유효적으로 추출한다.

도1은 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치의 바람직한 실시예의 도면이다.
도2는 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치의 일실시예에서의 사용자 키워드 추출 프로그램의 프로그램 모듈의 도면이다.
도3은 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출방법의 바람직한 실시예의 흐름도이다.
본 발명의 목적 실현, 기능 특점 및 장점에 대해 실시예를 통해 도면을 참조하여 설명하기로 한다.

여기서서 설명하는 구체적인 실시예는 본 발명을 설명하기 위한 것일 뿐 본 발명을 한정하기 위한 것이 아니다.

본 발명은 소셜 네트워크 기반의 사용자 키워드 추출장치를 개시한다. 도1에 도시된 바와 같이, 도1은 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치의 바람직한 실시예의 도면이다.

본 실시예에서, 소셜 네트워크 기반의 사용자 키워드 추출장치는 PC（Personal Computer，퍼스널 컴퓨터）일 수도 있고, 스마트폰, 태블릿 PC, 전자책 리더기, 휴대용 컴퓨터 등의 단말장치일 수도 있다.

이 소셜 네트워크 기반의 사용자 키워드 추출장치는 저정정치(11), 프로서서(12), 통신 버스(13) 및 네트워크　인터페이스(14)를 포함한다.

그 중, 저장장치(11)는 적어도 한 종류의 판독 가능한 저장매체를 포함하고, 상기 판독 가능한 저장매체는 플래시　메모리, 하드 디스크, 멀티미디어 카드, 카드 타입 메모리(예를 들어, SD 또는 DX 메모리 등), 자기 메모리, 자기 디스크, 시디롬 등을 포함한다. 일부 실시예에 있어서, 저장장치(11)는 소셜 네트워크 기반의 사용자 키워드 추출장치의 내부　저장　유닛일 수 있고, 예를 들어, 이 소셜 네트워크 기반의 사용자 키워드 추출장치의 하드 디스크일 수 있다. 다른 일부 실시예에 있어서, 저장장치(11)는 소셜 네트워크 기반의 사용자 키워드 추출장치의 외부　저장　장치일 수도 있고, 예를 들어, 소셜 네트워크 기반의 사용자 키워드 추출장치에 설치된 플러그인형 하드디스크, 스마트 미디어 카드(Smart Media Card, SMC), 시큐어 디지털(Secure Digital, SD) 카드, 플래시 카드(Flash Card)등과 같다. 또한, 저장장치(11)는 소셜 네트워크 기반의 사용자 키워드 추출장치의 내부 저장 유닛을 포함할 뿐만 아니라 외부 저장장치도 포함할 수 있다. 저장장치(11)는 소셜 네트워크 기반의 사용자 키워드 추출장치에 설치된 응용 소프트웨어 및 다양한 유형의 데이터, 예를 들어 사용자 키워드 추출 프로그램의 코드 등을 저장할 뿐만 아니라 출력되거나 출력될 데이터를 잠시 저장할 수도 있다.

일부 실시예에 있어서, 상기 프로세서(12)는 중앙 처리 장치(Central Processing Unit，CPU), 컨트롤러, 마이크로컨트롤러, 마이크로프로세서, 또는 기타 데이터 처리 칩일 수 있어 저장장치(11)에 저장되는 프로그램 코드 또는 처리 데이터를 실행하고, 예를 들어, 사용자 키워드 추출 프로그램을 실행한다.

통신 버스(13) 이 들 모듈 사이의 연결 통신을 구현하기 위한 것이다.

네트워크 인터페이스(14)는 표준적 유선 네트워크 인터페이스, 무선 네트워크 인터페이스(예를 들어, WI-FI 인터페이스)를 선택적으로 포함할 수 있고, 이 장치와 다른 전자 장비 사이에서 통신 연결을 구축하기 위한 것이다.

도1은 모듈(11-14)과 사용자 키워드 추출 프로그램을 가지는 소셜 네트워크 기반의 사용자 키워드 추출장치만 도시하나 모든 도시된 모듈을 실시하는 것을 요구하지 않고 더 많거나 적은 모듈으로 대체하여 실시할 수 있다는 것을 이해하여야 한다.

선택적으로, 이 장치는 유저 인터페이스를 더 포함할 수 있고, 유저 인터페이스는 디스플레이 장치(Display), 키보드(Keyboard)와 같은 입력 유닛을 포함할 수 있고, 선택할 수 있는 유저 인터페이스는 표준적인 유선 인터페이스, 무선 인터페이스를 더 포함할 수도 있다. 선택적으로, 일부 실시예에 있어서, 디스플레이 장치는 LED 모니터, 액정 모니터, 터치 액정 모니터 및 OLED（Organic Light-Emitting Diode，유기 발광 다이오드）터치장치 등일 수 있다. 그 중, 디스플레이 장치는 적당히 모니터 또는 디스플레이 유닛이라고 일컫을 수도 있고, 모델 분석 장치에서 처리된 정보를 디스플레이하고 가시화의 유저 인터페이스를 디스플레이한다.

도1에 도시된 장치의 실시예 있어서, 저장장치(11)에 사용자 키워드 추출 프로그램이 저장되며, 프로세서(12)는 저장장치(11)에 저장된 사용자 키워드 추출 프로그램을 실행하여 다음과 같은 단계를 구현한다.

A. 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.

B. 획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.

C. 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.

본 실시예에 있어서, 웨이보의 경우, 본 발명의 방안을 설명하기로 한다. 목표 사용자에 의해 발표된 웨이보 내용에 따라 이 사용자의 취미 및 선호를 유효적으로 구현할 수 있는 키워드를 획득할 때, 사용자에 의해 발표된 웨이보를 획득하여 단어 분리를 한다. 시간이 지나감에 따라 사용자의 취미 및 선호가 변화할 수 있기 때문에 키워드 추출의 정확도를 높이기 위해 시간 차원에서 발표된 블로그 문장에 대해 필터를 수행하고 미리 절정된 시간 구간을 설치하고 이 시간대에 발표된 블로그 문만 분석하고 예컨대, 최근 1년간에 발표된 블로그만 분석한다. 물론, 다른 실시예에서 사용자에 의해 미리 설정된 신간 구간에 발표된 블로그 문장의 개수가 적으면 이 사용자에 의해 과거에 발표된 전부 블로그 문장을 분석할 수도 있다.

목표 사용자에 의해 발표된 블로그 문장을 획득한 후 단어 분리 툴로 획득된 각 블로그 문장에 대해 차례로 단어 분리를 하고 예컨대, Stanford 중국어 단어 분리 툴, jieba 단어 분리 등의 단어 분리 툴로 단어 분리를 수행한다. 예컨대, '어제 밤에 영화를 보러 갔다.'란 블로그 문장 내용에 대해 단어 분리를 하면, 다음과 같은 결과를 얻는다. '어제|밤|영화|보다|가다|갔'. 단어 분리를 한 후 단어 분리 결과를 보류하고, 키워드의 유효성을 더 높이기 위해 단어 분리 결과에서의 동사 및 / 또는 명사만 보류하고 부사, 형용사 등 사용자 취미 및 선호를 구현할 수 없는 단어를 제거하고 예컨대, 상기 예에서, '영화'란 단어만 보류한다. 단어 분리를 수행한 후에 얻어진 결과는 비어있으면 대응되는 블로그 문장을 필터링하고 각 단어 분리 결과가 비 비어있는 블로그 문장은 대응되는 단어 테이블을 획득할 수 있고, 상기 시간 구간 내의 모든 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터 모델을 획득하며, 이 단어 벡터 모델은 키워드를 하나의 단어 벡터로 전화한다. Word2Vec 모델은 단어 벡터 계산을 위한 툴이며, 이 모델을 훈련하고 그를 이용하여 단어의 단어 벡터를 계산하는 것에 관하여 완전한 계산 방법을 구비하여 설명을 생략하기로 한다.

다음에는 키워드 추출 알고리즘을 이용하여 각 블로그 문장에 대해 키워드를 추출하고, 예를 들어, TF-IDF(Term Frequency-Inverse Document Frequency, 단어 빈도 및 역문서 빈도)　알고리즘, LSA (Latent Semantic Analysis, 잠재 의미 분석) 알고리즘 또는 PLSA (Probabilisitic Latent Semantic Analysis, 확률적 잠재 의미 분석) 알고리즘 등 키워드 추출 알고리즘 중 어느 하나의 알고리즘을 이용하여 각 블로그 문장의 단어 테이블을 계산하며, 최고 점수를 획득한 나하 또는 다수의 단어를 이 블로그 문장과 대응되는 키워드로 하여 상기 단어 벡터 모델을 이용하여 각 카워드를 하나의 대응되는 단어 벡터로 전화한다. 또는, 다른 실시방식으로서, 다수의 키워드 추출 알고리즘을 통해 키워드를 추출하고, 구체적로는, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하는 단계는 다음과 같다. 각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하며, 상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 한다. 예컨대, 각각 상기 TF-IDF 알고리즘, LSA 알고리즘 또는 PLSA 알고리즘에 따라 한번의 키워드 추출을 하고 반복적인 부분의 키워드를 이 블로그 문장과 대응되는 키워드로 한다.

블로그 문장의 내용이 상대적으로 적기 때문에 상기 키워드 추출 알고리즘을 이용하여 블로그 문장에 대해 키워드를 추출할 때, 일반적으로 추출된 키워드의 소음이 크고 지나치게 광범하여 사용자의 취미를 정학하게 구현하기 어려워서 본 실시예에서 대량의 블로그 문장에 대하여 상기 키워드 추출 알고리즘에 의해 추출된 키워드를 이용하여 후보 키워드로 하여 후보 키워드 집합을 구축하고 후속의 알고리즘에 의해 이 키워드 집합을 처리하여 그 중에서 사용자의 취미를 구현할 수 있는 키워드를 획득한다.

D. 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.

상기 미리 설정된 시간 구간 내에 목표 사용자에 의해 발표된 각 블로그 문장과 대응되는 키워드를 이 목표 사용자의 후보 키워드 집합으로 구축하며, 상기 단어 벡터 보델을 이용하여 집합에서의 각 키워드의 단어 벡터를 계산한다. 상기 후보 키워드 집합 및 단어 벡터에 따라 하나의 의미　유사성　그래프를 구축한다.

상기 후보 키워드 집합 및 상기 후보 키워드 집합에서의 각 키워드와 대응되는 단어 벡터에 따라 의미　유사성　그래프를 구축하는 단계는 다음과 같은 세부화 단계를 포함할 수 있다. 상기 후보 키워드 집합에서의 키워드를 단어 노드로 한다. 그 중, 하나의 키워드는 하나의 키워드 단어와 대응되며, 모든 단어 노드를 횡단하고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가이 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이의에서 하나의 변을 구축하며, 모든 단어 노드 및 구축된 변으로 상기 의미　유사성　그래프를 구성한다.

그 중, 전후 문맥의 유사도를 계산항 때, 2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 한다. 그 중, 단어 노드 사이에 구축된 변은 방향성 변일 수도 있고 비 방향성 변일 수도 있으며, 그 중, 방향성 변의 방향은 일찍 나타난 단어 노드로부터 늦게 나타난 단어 노드로 지향할 수 있다. 그들은 서로 다른 장점을 가지고 있고 방향성 변의 특점은 Pagerank 알고리즘을 실행할 때 반복 계산을 하여야 하여 계산량이 크고, 그의 장점은 소음 제거의 효과가 좋고, 예컨대, 하나의 사용자를 분석한 후, 획득된 키워드는 크리스티아누 호날두, 레알 마드리드, 라리가, 축구, 추첨을 포함하고, 앞의 4개 단어는 의미　유사성　그래프에서 어느 하나가 어느 하나를 지향하는 것 상관없이, Pagerank 알고리즘에 의해 채점하는 과정에서 상호 촉진 작용을 이루고, 그래서 일부 단어, 예컨대 과자가 다른 단어와의 방향성 변을 구축하였지만 반복 과정에서 상호 촉진을 이룰 수 없기 때문에 '추첨'이란 단어에 대한 채점이 상대적으로 낮아서 이 단어를 제거할 수 있다. 비 방향성 변에 대하여, Pagerank 알고리즘을 실행할 때 계산 속도가 신속하고 반복 계산할 필요 없지만 소음 제거의 효과가 좋지 않고 예컨대, 상기 예시에서, '추첨'이란 단어를 제거하지 않을 수도 있다. 다른 실시예에서, 다른 방식을 이용하여 두 단어 사이의 의미　유사도를 계산하고 예를 들어, 대규모 코퍼스에 기반하여 의미　유사도를 계산하는 방법은 성숙한 단어 사이 유사도의 계산 방법으로, 그의 구체적인 원리에 대한 설명을 여기서 생략하기로 한다.

E. 상기 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.

의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고, 단어 노드의 Pagerank 값이 클수록 그래프에서 이 단어 노드를 지향하는 다른 단어 노드(방향성 변의 경우) 또는 이 단어 노드와 연결을 구축하는 다른 단어 노드(비 방향성 변의 경우)가 더 많고 그래프에서 이 단어 노드와 높은 유사도를 가지는 다른 단어 노드가 더 많아 이 단어 노드와 대응되는 키워드는 사용자의 취미를 더 구현할 수 있음으로써 채점이 높은 키워드를 목표 사용자의 취미 키워드로 한다. 구체적으로는, 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계는 다음과 같은 단계를 포함한다.

상기 각 실시예에서 미리 설정된 한계값, 미리 설정된 자수, 제1 미리 설정된 개수 및 제2 미리 설정된 개수 등 미리 설정될 필요가 있는 파라미터는 사용자의 실제상황에 따라 설정할 수 있다.

상기 실시예에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치는 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 가 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득하고 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하며, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 대응되는 키워드를 추출하여 하나의 후보 키워드 집합을 구성하며, 상기 단어 벡터 모델에 기초하여 집합에서의 각 키워드의 단어 벡터를 계산하며, 키워드 집합 중 키워드 및 단어 벡터에 따라 의미 유사성 그래프를 구축하며, 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 이 사용자의 취미 키워드로 하고, 본 출원은 상기 방식으로 사용자에 의해 발표된 블로그 문장을 통합하여 단어 분리를 수행하는 방식으로 사용자의 취미에 맞는 키워드를 유효적으로 추출한다.

선택적으로는, 다른 실시예에서, 사용자 키워드 추출 프로그램은 하나 또는 다수의 모듈로 분할될 수 있는데, 하나 또는 다수의 모듈은 상기 저장장치(11)에 저장되고 하나 또는 다수의 프로세서(본 실시예는 프로세서(12)이다)에 의해 실행되어 본 발명을 구현하도록 하며, 본 발명에서 언급한 모듈은 특정 기능을 수행할 수 있는 일련의 컴퓨터 프로그램 명령 세그먼트를 뜻하고, 예를 들어, 도2를 참조하면, 도2는 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출장치의 일 실시예에서의 사용자 키워드 추출 프로그램의 프로그램 모듈의 도면이고, 이 실시예에서, 사용자 키워드 추출 장치는 획득모듈(10), 훈련모듈(20), 추출모듈(30), 그래프　구축모듈(40) 및 채점모듈(50)로 분할될 수 있으며, 예시적으로는 다음과 같다.

획득모듈(10), 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.

훈련모듈(20), 획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.

추출모듈(30), 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다.

그래프　구축모듈(40), 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.

채점모듈(50), 상기 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.

상기 획득모듈(10), 훈련모듈(20), 추출모듈(30), 그래프　구축모듈(40) 및 채점모듈(50)이 실행되어 구현된 기능 또는 동작 단계는 상기 실시예와 대체로 같아서 여기서 설명을 생략하기로 한다.

또는, 본 발명은 소셜 네트워크 기반의 사용자 키워드 추출 방법을 더 개시한다. 도3을 참조하면, 도3은 본 발명에 따른 소셜 네트워크 기반의 사용자 키워드 추출방법의 바람직한 실시예의 흐름도이다. 이 방법은 하나의 장치에 의해 실행될 수 있고, 이 장치는 소프트웨어 및/또는 하드웨어에 의해 구현될 수 있다.

본 실시예에서, 소셜 네트워크 기반의 사용자 키워드 추출 방법은 다음과 같은 단계를 포함한다.

단계(S10), 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 획득된 블로그 문장에 대해 단어 분리를 수행하여 각 블로그 문장과 대응되는 단어 테이블을 획득한다.

단계(S20), 획득된 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득한다.

단계(S30), 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산한다. 본 실시예에 있어서, 웨이보의 경우, 본 발명의 방안을 설명하기로 한다. 목표 사용자에 의해 발표된 웨이보 내용에 따라 이 사용자의 취미 및 선호를 유효적으로 구현할 수 있는 키워드를 획득할 때, 사용자에 의해 발표된 웨이보를 획득하여 단어 분리를 한다. 시간이 지나감에 따라 사용자의 취미 및 선호가 변화할 수 있기 때문에 키워드 추출의 정확도를 높이기 위해 시간 차원에서 발표된 블로그 문장에 대해 필터를 수행하고 미리 절정된 시간 구간을 설치하고 이 시간대에 발표된 블로그 문만 분석하고 예컨대, 최근 1년간에 발표된 블로그만 분석한다. 물론, 다른 실시예에서 사용자에 의해 미리 설정된 신간 구간에 발표된 블로그 문장의 개수가 적으면 이 사용자에 의해 과거에 발표된 전부 블로그 문장을 분석할 수도 있다.

단계(S40), 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다.

단계(S50), 상기 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다.

또한, 본 발명의 실시예는 컴퓨터 판독 가능한 저장매체를 더 개시하고, 상기 컴퓨터 판독 가능한 저장매체는 사용자 키워드 추출 프로그램이 저장되며, 상기 사용자 키워드 추출 프로그램은 하나 또는 다수의 프로세서에 의해 실행되어 다음과 같은 동작을 구현한다.

또한, 상기 사용자 키워드 추출 프로그램은 프로세서에 의해 실행될 때, 다음과 같은 동작을 더 구현한다.

본 발명에 따른 컴퓨터 판독 가능한 저장매체의 구체적인 실시방식은 상기 소셜 네트워크 기반의 사용자 키워드 추출장치와 방법의 각 실시예와 대체로 같아서 여기서 설명을 생략하기로 한다.

상기와 같은 본 발명에 따른 실시예의 순번은 설명하기 위한 것일 뿐 실시예의 우열을 가리기 위한 것이 아니다. 본 명세서에 있어서, 용어 "포함하다", "구성하다" 또는 이의 임의 기타 변형은 비 배타성의 포함을 뜻하여 일련의 요소를 포함하는 과정, 방법, 물품 또는 장치는 그런 요소를 포함할 뿐만 아니라 명확하게 열거하지 않은 기타 요소도 포함하거나 이런 과정, 방법, 물품 또는 장치가 고유한 요소를 포함한다. 더 많은 한정이 없는 한 문구 "하나의 ...... 포함한다"에 의해 한정된 요소는 이 요소의 과정, 방법, 물품 또는 장치에는 다른 동일한 요소가 존재한다는 것을 배제하지 않다.

본 기술분야의 당업자에게 있어서 상기와 같은 실시방식에 대한 설명을 통해 상기 실시예 방법이 소프트웨어와 필요하고 통용한 하드웨어 플랫폼으로 구현될 수 있으며 몰론 하드웨어를 통해 구현될 수 있지만 대부분의 경우에서 전자가 바람직한 실시방식임은 자명한 것이다. 이런 이해에 기초하여 본 발명의 기술방안 본질적으로 또는 종래 기술에 공헌할 부분은 소프트웨어 상품으로 구현될 수 있고 이 컴퓨터 소프트웨어 상품은 하나의 저장매체(예를 들어, ROM/RAM, 자기 디스크, 광 디스크)에 저장되고 여러 명령을 포함하여 하나의 단말기장치(휴대폰, 컴퓨터, 서버, 에어컨, 네트워크 장비 등)를 통해 본 발명에 따른 각각의 실시예의 방법을 수행한다.

상기와 같은 실시예는 본 발명의 바람직한 실시예로서 본 발명에 대해 한정하고자 하는 것이 아니고, 본 발명의 명세서 및 첨부된 도면을 이용하여 실시된 등가 구조 또는 등가 공정, 또는 직접적이나 간접적으로 기타 관련된 기술 분야에 적용되면 마찬가지로 본 발명의 특허 보호 범위내에 포함된다.

Claims

소셜 네트워크 기반의 사용자 키워드 추출장치에 있어서, 상기 장치는 저장장치와 프로세서를 포함하고, 상기 저장장치는 상기 프로세서 상에서 실행할 수 있는 사용자 키워드 추출 프로그램이 저장되고, 상기 사용자 키워드 추출 프로그램은 상기 프로세서에 의해 실행되어,
미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하고, 미리 설정된 단어 분리 툴을 이용하여 상기 획득된 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장에 대해 단어 분리를 수행하여 (i) 사용자 취미 선호를 구현할 수 없는 단어를 제거한 단어 분리 결과가 비어 있으면 대응되는 블로그 문장을 필터링하고, (ii) 상기 단어 분리 결과가 비어 있지 않으면 블로그 문장을 필터링하지 않고 각 블로그 문장과 대응되는 단어 테이블을 획득하는 단계와,
상기 획득된 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장 중에서 필터링되지 않은 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하는 단계와,
키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산하는 단계와,
상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축하는 단계와,
상기 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 구현하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
제1항에 있어서,
상기 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다는 단계는,
상기 후보 키워드 집합에서의 키워드를 단어 노드로 하고 그 중, 하나의 키워드는 하나의 키워드 단어와 대응되는 단계와,
모든 단어 노드를 거치고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이에서 하나의 변을 구축하는 단계와,
모든 단어 노드 및 구축된 변으로 상기 의미　유사성　그래프를 구성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
제2항에 있어서,
상기 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산한다는 단계는,
2개 단어 노드의 단어 벡터를 획득하고 이 2개 단어 벡터의 코사인 유사도를 계산하여 상기 코사인 유사도를 상기 2개 단어 노드 사이의 전후 문맥 유사도로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
제1항 또는 제2항에 있어서,
상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는
각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하는 단계와,
상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출장치.
삭제
제1항 또는 제2항에 있어서,
상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는
미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계와,
또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 제2 미리 설정된 개수보다 큰 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 상기 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 장치.
삭제
프로세서를 포함하는 소셜 네트워크 기반의 사용자 키워드 추출 장치에 의한 소셜 네트워크 기반의 사용자 키워드 추출 방법에 있어서,
상기 프로세서에 의해, 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하고, 미리 설정된 단어 분리 툴을 이용하여 상기 획득된 블로그 문장에 대해 단어 분리를 수행하여 (i) 사용자 취미 선호를 구현할 수 없는 단어를 제거한 단어 분리 결과가 비어 있으면 대응되는 블로그 문장을 필터링하고, (ii) 상기 단어 분리 결과가 비어 있지 않으면 블로그 문장을 필터링하지 않고 각 블로그 문장과 대응되는 단어 테이블을 획득하는 단계와,
상기 프로세서에 의해, 상기 획득된 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장 중에서 필터링되지 않은 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하는 단계와,
상기 프로세서에 의해, 키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산하는 단계와,
상기 프로세서에 의해, 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축하는 단계와,
상기 프로세서에 의해, 상기 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
제8항에 있어서,
상기 상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축한다는 단계는,
상기 후보 키워드 집합에서의 키워드를 단어 노드로 하고, 그 중, 하나의 키워드는 하나의 키워드 단어와 대응되는 단계와,
모든 단어 노드를 거치고 대응되는 단어 벡터에 따라 각 2개씩 단어 노드 사이의 전후 문맥 유사도를 계산하고 각 2개씩 단어 노드 사이의 전후 문맥 유사도가 미리 설정된 한계값보다 크면 상기 2개씩 단어 노드 사이에서 하나의 변을 구축하는 단계와,
모든 단어 노드 및 구축된 변으로 상기 의미　유사성　그래프를 구성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
삭제
제8항 또는 제9항에 있어서,
상기 블로그 문장에 포함된 자수가 미리 설정된 자수보다 크거나 같을 때, 상기 키워드에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출한다는 단계는
각각 미리 설정된 다수의 키워드 추출 알고리즘에 따라 블로그 문장의 단어 테이블에서 키워드를 추출하는 단계와,
상기 다수의 키워드 추출 알고리즘에 의해 추출된 키워드에서의 반복적인 단어를 이 블로그 문장과 대응되는 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
삭제
제8항 또는 제9항에 있어서,
상기 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 한다는 단계는
미리 설정된 채점보다 큰 채점의 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계와,
또는, 미리 설정된 채점보다 큰 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하고, 그 중, 미리 설정된 채점보다 큰 채점을 가지는 키워드의 개수가 제2 미리 설정된 개수보다 큰 제1 미리 설정된 개수보다 클 때, 상기 제1 미리 설정된 개수를 가지는 키워드에서의 상기 제2 미리 설정된 개수를 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 기반의 사용자 키워드 추출 방법.
삭제
컴퓨터 판독 가능한 저장매체에 있어서, 상기 컴퓨터 판독 가능한 저장매체는 사용자 키워드 추출 프로그램이 저장되며, 상기 사용자 키워드 추출 프로그램은 적어도 하나의 프로세서에 의해 실행되어,
미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장을 획득하여 미리 설정된 단어 분리 툴을 이용하여 상기 획득된 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장에 대해 단어 분리를 수행하여 (i) 사용자 취미 선호를 구현할 수 없는 단어를 제거한 단어 분리 결과가 비어 있으면 대응되는 블로그 문장을 필터링하고, (ii) 상기 단어 분리 결과가 비어 있지 않으면 블로그 문장을 필터링하지 않고 각 블로그 문장과 대응되는 단어 테이블을 획득하는 단계와,
상기 획득된 미리 설정된 시간구간 내에 목표 사용자에 의해 발표된 블로그 문장 중에서 필터링되지 않은 각 블로그 문장과 대응되는 단어 테이블을 Word2Vec 모델에 입력하고 훈련하여 단어 벡터를 획득하는 단계와,
키워드 추출 알고리즘에 기초하여 블로그 문장의 단어 테이블에서 이 블로그 문장과 대응되는 키워드를 추출하여 상기 미리 설정된 시간구간 내에 상기 목표 사용자에 의해 발표된 블로그 문장의 누적한 키워드를 상기 목표 사용자의 후보 키워드 집합으로 구성하며, 상기 단어 벡터 모델에 기초하여 상기 후보 키워드 집합에서의 각 키워드의 단어 벡터를 계산하는 단계와,
상기 후보 키워드 집합 및 상기 후보 키워드 집합 중 각 키워드와 대응되는 단어 벡터에 따라 의미 유사성 그래프를 구축하는 단계와,
상기 의미　유사성　그래프에서 Pagerank 알고리즘을 실행하여 각 키워드을 채점하고 미리 설정된 조건을 만족하는 채점을 가지는 키워드를 상기 목표 사용자의 취미 키워드로 하는 단계를 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
삭제
삭제
삭제
삭제
삭제