KR20210117037A

KR20210117037A - 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법 및 이를 기록한 기록매체

Info

Publication number: KR20210117037A
Application number: KR1020200033366A
Authority: KR
Inventors: 김연동; 최도진; 임종태; 복경수; 유재수
Original assignee: 충북대학교 산학협력단
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2021-09-28
Also published as: KR102388952B1

Abstract

본 발명은 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법에 관한 것으로서, 소셜 사물 인터넷 환경에서 사용자가 사용하는 데이터 유형, 데이터를 제공하는 사물 위치, 데이터를 사용한 날짜, 소셜 네트워크에서의 사용자 활동 내용을 포함하는 데이터를 수집하는 데이터 수집 단계, 수집한 데이터에서 사용자가 사용한 객체의 사용 빈도수, 사용 날짜, 사용 위치를 이용하여 사용자와 객체 간의 관계를 분석하는 사용자와 객체간 관계 분석 단계, 수집한 데이터에서 사용자가 작성한 문서와 사용자가 스크랩한 문서를 분석하여 사용자의 소셜 행위를 분석하는 소셜 행위 분석 단계, 상기 사용자와 객체간 관계 분석을 통해 사용자 간의 유사도 값을 계산하고, 상기 소셜 행위 분석을 통해 사용자 간의 유사도 값을 계산하고, 두 값을 합산하여 최종 유사도 값을 계산하는 유사도 계산 단계 및 최종 유사도 값이 높은 순서대로 유사 사용자를 선정하여 추천하는 사용자 추천 단계를 포함한다.

Description

소셜 사물 인터넷 환경에서 유사 사용자 추천 방법 및 이를 기록한 기록매체 {Method for recommending similar user in social internet of things, and recording medium thereof}

본 발명은 소셜 사물 인터넷에 관한 것으로서, 더욱 상세하게는 소셜 사물 인터넷 환경에서 유사 사용자를 추천하는 방법에 관한 것이다.

최근 많은 사용자들이 트위터, 페이스북, 인스타그램과 같은 소셜 네트워크 서비스(SNS : Scoial Network Service)를 이용하며 다양한 커뮤니티 활동을 하고 있다. 소셜 네트워크에서는 이러한 서비스들을 사용하는 사용자들에게 효율적인 정보 공유를 할 수 있도록 사용자와 사용자 간에 인적 네트워크 관계를 생성한다. 또한, 소셜 네트워크에서 사용자는 사용자 간 인적 관계를 통해 정보를 공유하고 '공유하기', '좋아요' 등 소셜 행위를 한다. 이처럼 소셜 네트워크에서 사용자에게 적합한 정보를 제공하기 위해서는 사용자와 사용자간에 연결 관계 및 커뮤니티 활동들에 대한 분석이 필요하다.

한편, 사물 인터넷은 각종 사물에 통신 기능 및 인터넷 기능을 내장시켜 실시간으로 정보를 수집 하거나 활용할 수 있다. 하지만 점차 사물 인터넷으로 활용할 수 있는 객체가 늘어나면서 사용자에게 원하는 정보를 제공하기 위한 탐색 및 관리 비용이 커지고 있다. 사용자에게 원하는 정보를 효율적으로 제공하기 위해 사물 인터넷에 소셜 네트워크의 특성을 접목시킨 소셜 사물 인터넷의 연구가 활발히 진행되고 있다.

소셜 사물 인터넷(SIoT : Social Internet of Things)은 소셜 네트워크와 사물 인터넷을 융합한 새로운 환경을 제공한다. SIoT를 기반으로 한 다양한 서비스들이 존재하는데 그 중 대표적인 서비스로 Nike와 Apple이 협력해서 개발한 Apple Watch Nike+가 있다. 이는 사용자의 신체 활동을 위해 나온 웨어러블로 다양한 센서 기능을 통해 사용자에게 정보를 줄 뿐만 아니라 다양한 사용자들로부터의 러닝 경로와 같은 유용한 정보를 사용자에게 공유하는 기능이 있다. 하지만 각 사람들마다의 유용한 정보는 다를 수 있다. 예를 들어, 서울에서 운동을 하는 사람들에게는 서울을 배경으로 한 러닝 경로가 의미 있을 수 있지만 다른 지역에서 운동을 하는 사람들은 무의미한 정보일 수 있다. 그러므로 해당 사용자가 원하는 정보를 받을 수 있도록 다양한 연구들이 진행되고 있다.

사용자가 원하는 정보를 받기 위해서는 사용자와 가장 유사한 사물 또는 사용자와 연결 관계가 생성될 필요가 있다. 연결 관계를 생성하기 위해 유사한 사용자를 찾는 기법과 사용자가 사용하고 있는 디바이스를 중심으로 유사한 사물을 찾는 기법으로 두 가지 방법이 존재한다. 먼저, 유사한 사용자를 찾기 위해 단순하게 친구 관계로 탐색할 경우 높은 탐색 비용이 발생할 수 있다. 그래서 이를 해결하기 위해 종래 사용자의 탐색비용을 줄일 수 있는 방법들은 제안하며 유사한 사용자를 추천하는 방법들을 제안되었다.

첫 번째 종래 방법으로 사용자가 요청한 정보 타입에 따라 사용자의 프로필 정보 또는 디바이스의 프로필 정보를 기반으로 유사도를 계산해 가장 유사한 사물 또는 사람과 그룹을 만들어주는 방법을 제안하였다. 그러나 사용자의 질의 타입에 의존하기 때문에 사용자와 디바이스 모두 고려하지 않는 문제점이 발생한다.

두 번째 종래 방법으로는 사용자들 간에 연결 관계를 고려해 탐색 비용을 줄이는 방법을 제안하였다. 이는 클러스터링 계수 또는 차수를 이용해 효율적으로 연결 관계를 재구축하여 탐색 비용을 줄였다. 그러나 사용자의 행위나 관심사는 전혀 고려하지 않은 문제점이 있다.

또한, 유사한 사물을 찾기 위해 사용자들이 사용한 사물 간에 연결 관계를 분석하거나 유사한 사용자에 행위를 분석하여 사물을 추천하는 방법들이 제안되었다. 이 방법들은 사용자에게 원하는 정보를 효율적으로 제공하기 위해 2번의 필터링과 랭킹방법을 통해 사물을 추천한다. 이 연구는 WIFI나 블루투스와 같은 무선통신연결을 중심으로 RSSI값에 의존해 필터링을 하고 있다. 이 때 사물들 간에 거리만으로 필터링이 이루어지기 때문에 거리가 먼 사물은 모두 제외되는 문제점이 발생하게 된다.

또 다른 기존 방법으로 사물들 간에 연결 관계를 중심으로 시간과 공간을 고려해 해당 사물과 유사한 사물을 추천하는 기술이 제안되었다. 하지만 사용자들이 사용한 사물에 대한 빈도수에 의존하게 되는 문제점이 있다.

이처럼 기존에 제안하는 기법들은 사물에 대한 특징을 고려하지 않았거나 오직 사용자간에 연결 관계만 고려해 SIoT 특징을 고려하지 않았다. 이와 같은 문제점을 해결하기 위해 사용자와 사물을 모두 고려해야하고 사용자들의 행위를 분석할 필요가 있다.

또한 기존 연구들에서 유사한 사용자를 추천하는 방법은 단순히 사용자의 프로필 정보나 사물의 프로필 정보만을 가지고 유사도를 계산하였다.

대한민국 등록특허 10-2044810

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명에서는 SIoT 환경에서 사물을 중심으로 유사한 사용자를 추천하는 기법을 제안하는데 그 목적이 있다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

이와 같은 목적을 달성하기 위한 본 발명의 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법에서, 소셜 사물 인터넷 환경에서 사용자가 사용하는 데이터 유형, 데이터를 제공하는 사물 위치, 데이터를 사용한 날짜, 소셜 네트워크에서의 사용자 활동 내용을 포함하는 데이터를 수집하는 데이터 수집 단계, 수집한 데이터에서 사용자가 사용한 객체의 사용 빈도수, 사용 날짜, 사용 위치를 이용하여 사용자와 객체 간의 관계를 분석하는 사용자와 객체간 관계 분석 단계, 수집한 데이터에서 사용자가 작성한 문서와 사용자가 스크랩한 문서를 분석하여 사용자의 소셜 행위를 분석하는 소셜 행위 분석 단계, 상기 사용자와 객체간 관계 분석을 통해 사용자 간의 유사도 값을 계산하고, 상기 소셜 행위 분석을 통해 사용자 간의 유사도 값을 계산하고, 두 값을 합산하여 최종 유사도 값을 계산하는 유사도 계산 단계 및 최종 유사도 값이 높은 순서대로 유사 사용자를 선정하여 추천하는 사용자 추천 단계를 포함한다.

사용자와 객체간 관계 분석 단계에서, 사용자가 어떤 유형의 객체를 자주 사용한 정도를 나타낸 값을 행위 값이라고 할 때, 사용자가 사용한 모든 객체들의 행위 값을 계산하는 방식으로 사용자와 객체간 관계를 분석할 수 있다.

사용자가 해당 객체를 사용한 빈도수가 높을수록 행위 값을 증가시키고, 사용 날짜가 현재 시점으로부터 멀수록 행위 값을 감소시킬 수 있다.

은 사용자 i가 객체 d를 사용한 행위 값이고, K는 τ시점 동안 해당 객체를 사용한 빈도수이고,

는 해당 객체를 사용한 시점부터 현재까지 지난 일 수라고 할 때,

(1)의 수학식으로 나타낼 수 있다.

상기 수학식 (1)을 통해 계산된 행위 값을 기반으로 전체 사용자가 사용한 객체들의 사용 비중을 계산하는 객체 비중 계산 과정과, 각 사용자 별로 객체 사용 비중을 계산하는 사용자 비중 계산 과정을 수행하여 행위 값을 조정하는 방식으로 정규화할 수 있다.

P는 사용자의 전체 수일 때, 상기 수학식 (1)을 통해 계산된 행위 값을 기반으로, 상기 객체 비중 계산 과정을,

(2)의 수학식으로 나타내고, m은 전체 객체의 수일 때, 상기 사용자 비중 계산 과정을,

(3)의 수학식으로 나타낼 수 있다.

상기 소셜 행위 분석 단계에서, 사용자가 작성한 문서 및 사용자가 스크랩한 문서의 키워드를 추출하고, 각 키워드의 빈도수와 희소성에 비례하는 사용자의 관심도를 계산하는 방식으로 사용자의 소셜 행위를 분석할 수 있다.

사용자 i가 작성한 문서에서 추출한 키워드 k의 값을

, 사용자 i가 가지고 있는 키워드 k에 대한 희소성 값을

라 할 때, 사용자의 관심도를,

(6)의 수학식으로 나타낼 수 있다.

은 사용자 i가 작성한 모든 문서에서 추출한 키워드들을 의미하며,

은 <키워드, 빈도 수>으로 정의하고,

은 스크랩한 문서 중 키워드 k의 빈도수 값이라고 할 때,

(7)의 수학식으로 나타낼 수 있다.

TF-IDF 알고리즘을 사용하여 희소성 값을 계산하며,

는 사용자 i가 작성한 문서의 수라고 할 때,

(8)의 수학식으로 나타낼 수 있다.

본 발명에 의하면 추천을 통해 연결 관계가 생성된 사용자들은 관심 분야가 유사하므로 동일한 정보 또는 의미있는 정보를 공유할 수 있다는 효과가 있다.

도 1은 본 발명에서 제안하는 기법의 전체 처리 과정을 나타낸 흐름도이다.
도 2는 행위 값을 계산하기 위한 처리 과정을 보여주는 도면이다.
도 3은 식 (1)을 통해 나온 행위 값을 식 (2)와 식 (3)을 이용해 정규화하는 과정을 나타낸 것이다.
도 4는 사용자와 객체 간의 분석 알고리즘이다.
도 5는 식 (6)을 계산하기 위해 식 (7) 및 식 (8)의 값을 구하는 과정을 보여주는 도면이다.
도 6는 사용자의 소셜 행위 분석 알고리즘이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 갖는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 발명은 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법에 대한 것이다.

본 발명의 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법을 수행하는 주체는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법을 수행하는 제반 컴퓨터 장치라고 할 수 있으며, 또는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법을 수행하는 시스템 또는 장치를 전반적으로 제어하는 제어부나 프로세서(processor)일 수 있다. 즉, 본 발명의 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법은 일종의 소프트웨어인 알고리즘으로 구성될 수 있으며, 소프트웨어 또는 알고리즘은 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법을 수행하는 시스템, 장치의 제어부 또는 프로세서(processor)에서 실행될 수 있다.

본 발명에서는 소셜 사물 인터넷(SIoT, Social Internet of Things) 환경에서 사물을 중심으로 유사한 사용자를 추천하는 방법을 제안한다. 기존 연구들에서 유사한 사용자를 추천하는 방법은 단순히 사용자의 프로필 정보나 사물의 프로필 정보만을 가지고 유사도를 계산하였으나, 본 발명에서는 단순 프로필 정보만이 아닌 사용자의 행위를 분석을 기반으로 유사도를 판별한다. 이를 위하여 소셜 네트워크에서 문서 작성, 리뷰 남기기, 평가하기 등 다양한 소셜 행위들을 고려한다.

그리고, 기존 소셜 네트워크 환경에서의 소셜 행위 분석은 사용자의 모든 행위를 고려해 각 행위마다 가중치를 부여하고, 이를 통해 나온 값을 가지고 유사도를 계산하지만, 본 발명에서는 사용자들 간에 정보를 공유한 활동 내역은 없다고 가정하고 문서 작성과 같은 개인 소셜 활동을 통해 관심 분야를 찾아낸다.

또한, 사용자들이 비슷한 사물들을 사용한다는 것은 관심 목록이나 취미 등 비슷한 성향을 가지고 있을 확률이 높다. 그래서 사용자가 직접 사용한 사물과의 관계를 고려해야 한다. 그러나 사물은 하나의 정보가 아닌 여러 개의 정보를 제공하고, 사물이 다르더라도 동일한 정보를 제공할 수 있다. 따라서, 본 발명에서는 사물에서 나온 정보를 중심으로 객체를 구분한다. 즉, 본 발명에서는 사물의 유형과 관계없이 동일한 정보를 사용하는 것을 동일한 객체로 간주한다.

도 1은 본 발명에서 제안하는 기법의 전체 처리 과정을 나타낸 흐름도이다.

도 1을 참조하면, 본 발명에서 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법은, 소셜 사물 인터넷 환경에서 사용자가 사용하는 데이터 유형, 데이터를 제공하는 사물 위치, 데이터를 사용한 날짜, 소셜 네트워크에서의 사용자 활동 내용을 포함하는 데이터를 수집하는 데이터 수집 단계(S110), 수집한 데이터에서 사용자가 사용한 객체의 사용 빈도수, 사용 날짜, 사용 위치를 이용하여 사용자와 객체 간의 관계를 분석하는 사용자와 객체간 관계 분석 단계(S120), 수집한 데이터에서 사용자가 작성한 문서와 사용자가 스크랩한 문서를 분석하여 사용자의 소셜 행위를 분석하는 소셜 행위 분석 단계(S130), 상기 사용자와 객체간 관계 분석을 통해 사용자 간의 유사도 값을 계산하고, 상기 소셜 행위 분석을 통해 사용자 간의 유사도 값을 계산하고, 두 값을 합산하여 최종 유사도 값을 계산하는 유사도 계산 단계(S140) 및 최종 유사도 값이 높은 순서대로 유사 사용자를 선정하여 추천하는 사용자 추천 단계(S150)를 포함한다.

사용자와 객체간 관계 분석 단계(S120)에서, 사용자가 어떤 유형의 객체를 자주 사용한 정도를 나타낸 값을 행위 값이라고 할 때, 사용자가 사용한 모든 객체들의 행위 값을 계산하는 방식으로 사용자와 객체간 관계를 분석할 수 있다. 이때, 사용자가 해당 객체를 사용한 빈도수가 높을수록 행위 값을 증가시키고, 사용 날짜가 현재 시점으로부터 멀수록 행위 값을 감소시킬 수 있다.

본 발명의 일 실시예에서 계산된 행위 값을 기반으로 전체 사용자가 사용한 객체들의 사용 비중을 계산하는 객체 비중 계산 과정과, 각 사용자 별로 객체 사용 비중을 계산하는 사용자 비중 계산 과정을 수행하여 행위 값을 조정하는 방식으로 정규화할 수 있다.

본 발명의 일 실시예에 따른 소셜 행위 분석 단계(S130)에서, 사용자가 작성한 문서 및 사용자가 스크랩한 문서의 키워드를 추출하고, 각 키워드의 빈도수와 희소성에 비례하는 사용자의 관심도를 계산하는 방식으로 사용자의 소셜 행위를 분석할 수 있다.

본 발명에서 제안하는 소셜 사물 인터넷 환경에서 사용자 추천 방법을 정리하면 다음과 같다.

먼저 사용자가 사용한 데이터 유형, 데이터를 제공해주는 사물 위치, 사용 날짜, 소셜 네트워크에서의 사용자 활동 내용 등과 같은 데이터를 수집한다(S110).

그리고, 사용자와 객체 간의 분석(S120)은 사용자가 사용한 객체를 중심으로 분석이 이루어진다. 두 사용자가 유사한 객체를 사용했다면 서로 유사할 확률이 높기 때문에 객체 사용 빈도수, 날짜, 위치를 이용해 분석한다.

그리고, 사용자의 소셜 행위 분석(S130)은 소셜 네트워크에서 사용자의 행위를 기반으로 사용자의 관심 항목을 파악해 서로 유사한지 판별한다. 만약, 사용자가 작성한 문서에서 나온 키워드가 서로 유사하면 관심을 가지고 있는 항목이 비슷할 확률이 높다. 따라서 사용자가 작성한 문서에서 키워드를 추출해 사용자 간에 유사도를 계산한다.

그리고, 사용자와 객체 간의 분석과 사용자의 소셜 행위 분석을 통해 계산된 유사도를 결합하여 최종 유사도를 계산하고, 유사도 값이 가장 큰 사용자를 추천한다(S140, S150).

사용자들이 동일한 객체를 사용할수록 서로 유사한 사용자로 판별할 수 있기 때문에 사용자가 사용한 객체 분석이 필요하다. 사용자와 객체 간의 분석은 사용자가 사용한 모든 객체들의 행위 값을 계산한 뒤, 사용자 간의 유사도 값을 계산한다. 여기서 행위 값은 사용자가 어떤 유형의 객체를 얼마나 자주 사용했는지에 대한 값을 의미한다. 사용자와 해당 객체 간의 행위 값이 높다면 사용자가 이 객체를 자주 사용하는 것으로 판단할 수 있다.

도 2는 행위 값을 계산하기 위한 처리 과정을 보여주는 도면이다.

도 2를 참조하면, 총 3단계(S210~S230)의 과정을 통해 행위 값을 계산할 수 있다. 행위 값을 계산하기 위해 필요한 요소로 사용 빈도수와 사용 날짜를 이용한다. 사용 빈도수는 사용자가 객체를 얼마나 자주 사용했는지를 알 수 있으며, 사용자가 객체를 많이 사용할수록 해당 객체에 대한 관심이 높다고 할 수 있다. 따라서 사용자가 해당 객체를 사용한 빈도수에 따라 객체에 대한 행위 값을 증가시킨다. 사용 날짜는 현재 시점으로부터 관심을 가지고 있는지 알 수 있기 때문에 현재 시점으로부터 멀어질수록 행위 값을 감소시킨다.

이 두 가지의 요소를 이용해 나온 수식이 식 (1)이다.

(1)

식 (1)에서

은 사용자 i가 객체 d를 사용한 행위 값을 의미한다. τ는 상수 값으로 현재시점부터 며칠까지 정보를 분석할지를 설정한다. K는 τ시점 동안 해당 객체를 사용한 빈도수를 의미하며,

는 해당 객체를 사용한 시점부터 현재까지 지난 일 수를 의미한다. 예를 들어, 사용자 1이 객체 A를 5일전에 사용했다고 가정할 경우, 이에 해당하는 객체 행위 값은 1-(5/20)라는 계산을 통해 0.75의 값을 가지게 된다. 이와 동일한 객체 A를 사용한 빈도 수 만큼 더한 값이

라고 할 수 있다. 하지만 각 객체마다의 특징들이 존재하기 때문에 단순히 빈도수가 많아 행위 값이 커지는 것은 문제가 있을 수 있다. 날씨 정보라는 객체로 예를 들면 날씨 정보는 모든 사용자들에게 관심 있는 정보이고, 매일 확인하는 정보이다. 만약 이대로 행위 값을 계산하면 모든 사용자들이 날씨정보라는 객체에 행위 값이 높아 다른 객체들의 유사도 비교가 무의미해 질 수 있다. 반대로 매주 주말마다 취미활동을 위해 활용하는 객체가 존재할 수 있다. 이와 같은 경우는 특정 사용자들만 관심 있어 하는 유형이므로 의미 있는 값이라고 할 수 있다. 하지만 현재 행위 값을 통해 계산하게 되면 일주일에 한 번씩 사용하는 사물에 대한 빈도수 값이 적어 무의미한 값으로 계산된다.

도 2에서 보는 바와 같이, 본 발명에서는 이러한 문제점을 해결하기 위해 제2단계(S220)와 제3 단계(S230)의 계산을 통해 행위 값을 조정한다.

(2)

(3)

제2단계에서의 계산은 수식 (1)로부터 나온 행위 값을 기반으로 전체 사용자가 사용한 객체들의 사용 비중을 알아내기 위해 수식 (2)를 이용하여 계산한다. 이는 객체마다 전체 사용자와 비교하여 객체의 사용 비중을 이용해 객체의 특성을 알아내기 위함이다. 이때, P는 사용자의 전체 수이다.

다음으로 각 사용자 별로 객체 사용 비중을 알아내기 위해 수식 (3)을 이용해 계산한다. 이때, m은 전체 객체의 수이다.

도 3은 식 (1)을 통해 나온 행위 값을 식 (2)와 식 (3)을 이용해 정규화하는 과정을 나타낸 것이다.

도 3에서 User1은 객체 b와 c를 사용해 행위 값이 2.1과 82.3의 값을 가진다고 가정한다. 전술한 바와 같이, 이대로 유사도를 계산하게 되면 82.3의 값을 가진 객체 c에 의존하게 되는 문제점이 발생한다. 그러므로 상대적인 계산하기 위해 객체 b와 c를 사용하는 모든 사용자의 값을 비교해 가중치를 구하게 되면 0.42와 0.41의 값을 가진다. 다음으로 사용자가 사용한 객체 간의 가중치를 계산하게 되면 최종적으로 User1은 b객체를 0.51, c객체는 0.49의 값을 갖는 것으로 볼 수 있다.

본 발명에서 식 (3)을 통해 얻은 값을 이용해 사용자 간에 유사도를 계산한다. 유사도를 계산하는 수식은 식 (4)와 같다.

(4)

(5)

식 (4)는 코사인 유사도에

을 추가해 변형한 식이다.

은 해당 객체 n의 위치정보의 유사도 값이다. 사용자와 객체 간의 관계에서 객체를 제공하는 위치도 중요하다. 즉, 동일한 객체를 사용하는 사용자들이 동일한 지역에서 사용한다면 다른 사용자들보다 유사할 확률이 높다. 그러므로 객체를 제공하는 위치를 고려해야 하며 식 (5)인 자카드 유사도(Jaccard Similarity)를 이용한다. 위치에 대한 유사도 값을 계산한 뒤 객체에 대한 유사도 비교를 할 때 가중치를 부여한다. 이때, 위치 유사도 값은 1.0~2.0 범위를 갖는다.

는 사용자가 사용한 객체 d에 대한 위치 정보를 저장한 벡터 값이다.

도 4는 사용자와 객체 간의 분석 알고리즘이다.

도 4를 참조하면 먼저, 사용자의 객체 사용량을 계산하기 위해 입력인자로 사용자들의 행위 내역(User's Behavior)과 time window 를 입력받는다. 행위 내역은 객체 id와 사용날짜를 기반으로 벡터 값으로 정의되어 있다. 또한 time winodw는 측정날짜이며 τ라고 표현한다.

Ut를 현재 날짜(current_Date)에서 사용 날짜(Date_of_use)를 뺀 것이라고 할 때, 이를 기반으로 객체 사용량을 계산하기 위해 기존 값 1에서 Ut를 τ로 나눈 뒤 빼준다(1-(Ut/τ). 따라서 최근에 사용할수록 값은 1에 가까울 것이고 나중에 사용할수록 값은 0에 가까워진다. 이를 Object Usage라는 객체사용량에 저장하는데, 기존에 객체에 대한 값이 존재하면 해당 값에 더해주고, 존재하지 않다면 해당 객체를 추가한다.

또한, 객체의 특징을 고려해 두 단계에 거쳐 계산한다. 첫 번째 단계에서는 모든 사용자들의 객체 사용량을 기준으로 비중을 계산한다. 이로 인해 매일 사용하는 객체와 일주일에 한 번씩 사용하는 객체에 대한 특징을 고려할 수 있게 된다.

두 번째 단계로 각 사용자별로 자신이 사용한 객체 사용량의 비중을 다시 한 번 계산한다. 이로써 사용자가 사용한 객체들에 대한 비중을 표현할 수 있고 이를 Usage Weight라고 표현한다.

소셜 네트워크에서 각 사용자들은 다양한 소셜 행위를 통해 사용자의 관심도를 도출하여 유사한 사용자를 찾을 수 있다. 본 발명에서는 유사한 사용자의 정확도를 높이기 위해 소셜 행위를 분석한다. 소셜 네트워크에서 유사한 사용자를 찾기 위해서는 사용자가 작성한 문서나 사용자들 간에 평가, 스크랩하기 등 공유한 내역을 분석하거나 친구 관계를 분석해야 한다. 하지만 본 발명에서 친구 관계가 존재하지 않는다고 가정하고 공유한 내역은 없다고 가정한다. 그러므로, 본 발명에서는 소셜 행위 분석으로 사용자들이 작성한 문서를 기반으로 분석해 사용자 간에 유사도 비교를 한다.

사용자들은 관심이 있거나 정보를 공유하고 싶으면 글을 남긴다. 이러한 성향을 이용하여 사용자가 작성한 키워드를 추출해 사용자의 관심도를 파악한다. 사용자가 작성한 문서에서 현재 시점으로부터 키워드가 자주 나타난다면 사용자는 이 키워드에 대한 관심이 높을 것으로 추정할 수 있다. 또한 사용자는 관심 있는 정보를 올린 다른 사용자 문서를 본다면 이를 스크랩할 것이다. 그러므로 사용자가 작성한 문서와 스크랩한 문서에서 나온 키워드를 추출해 분석할 필요가 있다.

본 발명에서는 소셜 행위를 비교하는데 작성한 문서와 스크랩한 문서의 키워드를 분석한다. 먼저, 작성한 문서의 키워드의 빈도수를 통해 사용자의 관심도가 무엇인지 파악할 수 있다. 예를 들어, 특정 사용자가 작성한 문서에서 운동이라는 키워드가 많이 나왔다면, 이 사용자는 운동에 관심이 많을 가능성이 크다. 그러므로 작성한 문서들에서 동일한 키워드가 많이 나왔다면 해당 키워드의 관심도에 높은 값을 부여한다.

스크랩한 문서도 사용자의 관심도에 영향을 미친다. 사용자들은 관심이 있거나 의미 있는 정보가 있을 때 해당 문서를 스크랩할 것이다. 이처럼 스크랩한 문서에는 사용자의 관심도를 파악할 수 있는 키워드가 존재하기 때문에 동일한 키워드가 자주 나타날수록 높은 값을 부여한다. 하지만 문서들로부터 나온 각 키워드들은 관심도를 파악할 수 있는 영향력이 다를 수 있다. 예를 들어 사용자 1이 키워드 A, B, C를 자주 사용한다고 했을 때 다른 모든 사용자도 키워드 A가 자주 나왔다면 키워드 A로 관심도를 파악하는 것은 의미가 없다. 반대로 키워드 C는 오직 사용자 1에서만 나온다면 해당 키워드는 사용자 1의 관심도를 파악하는데 의미 있는 키워드라고 할 수 있다. 따라서 키워드의 희소성이 높을수록 관심도를 파악하는데 의미가 있다.

(6)

사용자의 관심도를 구하기 위해 키워드의 빈도수와 희소성을 고려해 식 (6)을 이용한다. 식 (6)은 사용자 i가 작성한 문서에서 추출한 키워드 k의 값인

과 각 키워드에 맞는 희소성 값인

을 곱한 값이다. 해당 키워드 값에 희소성 값을 가중치로 사용함으로써 희소성이 높을수록 해당 키워드 값은 높아진다.

(7)

본 발명에서 식 (7)을 이용하여 키워드 값을 계산한다.

은 <키워드, 빈도 수>으로 정의한다.

은 스크랩한 문서 중 키워드 k의 빈도수 값이다. 스크랩한 문서는 관심 있는 문서일 가능성이 높으므로 가중치를 두었으며 가중치에 따라 극단적으로 커지는 값을 조정하기 위해 로그함수를 이용한다.

(8)

본 발명에서 식 (8)을 이용하여 희소성을 계산한다. 여기서,

는 사용자 i가 가지고 있는 키워드 k에 대한 희소성 값이다.

본 발명의 일 실시예에서 희소성을 구하기 위해 TF-IDF 알고리즘을 사용한다. TF-IDF 알고리즘이란 사용자들이 작성한 문서들이 있을 때 특정 단어가 특정 문서 내에서 얼마나 중요한 지를 수치적으로 나타내기 위한 알고리즘이다. 여기서, TF는 단어 빈도수로 문서 내에 특정 단어가 얼마나 나타는지를 표현하며, IDF는 특정 단어가 문서에 나타난 수의 역수를 의미한다. 다시 말해 다른 문서에서 자주 나타나지 않는 단어일 경우 IDF 값이 높아지고 핵심 단어가 될 수 있다. 따라서 다른 문서에서 나타나지 않았던 단어가 해당 문서에서 나타났다면 이는 핵심 단어라고 볼 수 있다. 이와 같은 알고리즘을 이용해 문서 대상이 아닌 사용자를 대상으로 사용자가 가지고 있는 키워드를 이용해 TF-IDF 알고리즘을 이용한다. 식 (8)에서

는 사용자 i가 작성한 문서의 수이다. 즉, 해당 키워드의 빈도수가 많을수록 TF의 값이 올라갈 것이고, 다른 사용자들이 해당 키워드에 대한 빈도수가 적으면 IDF의 값은 높아진다.

도 5는 식 (6)을 계산하기 위해 식 (7) 및 식 (8)의 값을 구하는 과정을 보여주는 도면이다.

도 5를 참조하면 먼저, 사용자들이 작성한 문서와 스크랩한 문서를 기반으로 각 키워드의 빈도수를 구한다. 여기서, 사용자 1, 2, 3이 있다고 가정하고, 키워드는 A부터 H까지 있다고 가정한다. 또한 각 사용자 별로 문서는 4개를 작성했고, 1~2개의 스크랩한 문서가 있다고 가정한다.

사용자 1의 경우, 가장 많이 작성된 키워드는 A, G이지만 스크랩한 키워드는 A보다 G가 더 높다. 따라서 빈도수가 동일하더라도 스크랩한 키워드 수가 G가 더 많기 때문에 키워드의 값은 G가 A보다 높게 나타난 결과를 볼 수 있다.

그리고, 키워드의 희소성을 계산하기 위해 사용자가 작성한 키워드를 기반으로 TF-IDF를 이용한다. 사용자 1이 작성한 키워드 A는 상대적으로 높은 빈도수를 가지고 있어 TF의 값은 높을 수 있다. 하지만 다른 사용자들 모두 키워드 A에 대한 빈도수가 높기 때문에 IDF 값이 낮게 나오게 된다. 따라서 다른 키워드에 비해 관심도를 판별하는데 의미가 없기 때문에 키워드의 값이 낮아진다.

반대로 사용자 1이 작성한 키워드 G는 사용자 1에게서만 자주 나타나는 것으로 드러나 희소성의 값이 0.301로 높은 값을 볼 수 가 있다. 이 희소성 값을 해당 키워드 빈도수에 의해 나온 값에 가중치로 사용함으로써 최종 키워드 값을 생성할 수 있다. 이를 이용해 나온 키워드들의 값을 기반으로 사용자 간에 유사도를 계산한다. 이 때 사용자들이 작성한 문서의 수는 각각 다르며 일부 사용자들은 다른 사용자들에 비해 소셜 활동을 활발히 하여 문서에서 나온 키워드 값들이 대체적으로 높을 수 있다. 반대로 소셜 활동이 적은 사용자들은 키워드 값들이 낮게 나타날 수 있다. 이를 해결하기 위해 다음 식 (9)를 이용해 사용자 간의 유사도를 계산한다.

(9)

식 (9)는 코사인 유사도에 사용자의 평균값을 추가함으로써 극단적으로 소셜 행위가 많은 사용자나 적은 사용자 간에 유사도 계산을 할 수 있어 보다 정확하게 유사도를 구할 수 있다.

도 6는 사용자의 소셜 행위 분석 알고리즘이다.

도 6을 참조하면 먼저, 사용자의 소셜 행위를 분석하기 위해 입력인자로 사용자들의 작성한 문서와 스크랩한 문서에 대한 내용을 입력받는다.

다음으로 사용자의 소셜 행위 값을 계산하기 위해 작성한 문서와 스크랩한 문서에 대한 키워드를 추출한다. 이를 기반으로 키워드의 값과 키워드의 희소성을 계산한다.

먼저, 키워드의 값을 계산하기 위해 작성한 문서로부터 나온 키워드에 스크랩한 문서로부터 나온 키워드 개수만큼 제곱을 함으로써 가중치를 준다. 이 때 단순히 제곱을 하면 키워드의 값이 급격히 증가하기 때문에 이를 보안하고자 로그함수를 취한다. 본 발명의 일 실시예에서 키워드 희소성을 계산하기 위해 TF-IDF를 사용한다.

TF는 해당 키워드 빈도수에 해당 사용자가 작성한 문서 개수를 나누어 계산한다. 즉, TF는 해당 키워드의 빈도수가 많을수록 TF의 값이 올라갈 것이다.

IDF는 전체 문서 개수에서 전체 문서로부터 나온 해당 키워드 개수를 나누어 로그를 취한다. 이는 다른 사용자들이 해당 키워드에 대한 빈도수가 적으면 IDF의 값은 높아질 수 있다. 키워드의 값과 키워드의 희소성은 서로 높을수록 해당 키워드에 관심이 많다고 판별할 수 있기 때문에 두 값을 곱해줌으로써 최종 소셜 행위 값을 계산할 수 있다.

본 발명에서 사용자와 객체 간의 행위 분석과 사용자의 소셜 행위 분석을 통해 나온 값들이 높을수록 사용자와 유사하다고 판단할 수 있다. 그러므로 앞에서 언급한 두 가지의 분석을 통해 나온 값을 종합하여 최종 유사도 값을 계산한다. 결과로 나온 유사도 값을 기반으로 값이 가장 높은 순서대로 유사 사용자들을 선정하여 사용자에게 추천한다. 식 (10)은 최종 유사도 값을 계산하는 수학식이다.

(10)

여기서,

값은 사용자와 객체 간의 분석을 통해 나온 값이며,

값은 소셜 행위 분석을 통해 나온 값이다. 이 두 가지의 값을 합하기 위해 α의 가중치를 둔다. α는 0~1까지의 범위를 가질 수 있다. 예를 들어, 가중치 α의 값을 0.5로 설정하고, 도 2에 있는 사용자 1, 2의 행위 값을 이용해 유사도 값을 계산하면 0.86이고, 사용자의 소셜 행위 분석으로부터 나온 유사도 값이 0.6일 경우, 최종 유사도의 값은 0.73이 될 수 있다. 하지만 가중치 α의 값에 따라 결과가 다르게 나타날 수 있으므로 성능평가에서 α, N 의 값을 조정하면서 가장 효율적인 값을 도출하는 것이 바람직하다.

이상에서 설명한 본 발명에서 제안하는 기법을 정리하면 다음과 같다. 사용자들이 자주 사용한 객체 해당 객체에 관심이 많은 것으로 판단할 수 있기 때문에 사용자와 사물의 상호 작용을 분석한다. 또한, 소셜 네트워크에서 사용자의 행위를 분석한다. 사용자가 작성한 문서를 기반으로 키워드를 추출함으로써 사용자의 관심 분야를 파악할 수 있기 때문에 키워드를 기반으로 유사도 값을 계산한다. 사용자와 사물의 상호 작용 분석을 통해 사용자와 객체 간의 행위 값을 도출하고 도출된 값을 기반으로 유사도 값을 계산할 수 있다.

본 발명에서는 객체를 사물로부터 얻을 수 있는 정보라고 정의한다. 두 사용자가 동일한 객체를 자주 사용한다면 두 사용자는 동일한 관심사를 가질 확률이 높기 때문에 결과를 효과적으로 도출해낼 수 있다. 또한, 유사도 값의 정확도를 높이기 위해 사용자가 작성한 문서와 '공유하기'와 같은 소셜 행위를 기반으로 관심도를 분석한다. 최종적으로 추천을 통해 연결 관계가 생성된 사용자들은 관심 분야가 유사하므로 동일한 정보 또는 의미 있는 정보를 공유할 수 있다.

한편, 본 발명의 실시예에 따른 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.

예컨대, 컴퓨터가 읽을 수 있는 기록매체로는 롬(ROM), 램(RAM), 시디-롬(CD-ROM), 자기 테이프, 하드디스크, 플로피디스크, 이동식 저장장치, 비휘발성 메모리(Flash Memory), 광 데이터 저장장치 등이 포함된다.

또한, 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

Claims

소셜 사물 인터넷 환경에서 유사 사용자 추천 방법에서,
소셜 사물 인터넷 환경에서 사용자가 사용하는 데이터 유형, 데이터를 제공하는 사물 위치, 데이터를 사용한 날짜, 소셜 네트워크에서의 사용자 활동 내용을 포함하는 데이터를 수집하는 데이터 수집 단계;
수집한 데이터에서 사용자가 사용한 객체의 사용 빈도수, 사용 날짜, 사용 위치를 이용하여 사용자와 객체 간의 관계를 분석하는 사용자와 객체간 관계 분석 단계;
수집한 데이터에서 사용자가 작성한 문서와 사용자가 스크랩한 문서를 분석하여 사용자의 소셜 행위를 분석하는 소셜 행위 분석 단계;
상기 사용자와 객체간 관계 분석을 통해 사용자 간의 유사도 값을 계산하고, 상기 소셜 행위 분석을 통해 사용자 간의 유사도 값을 계산하고, 두 값을 합산하여 최종 유사도 값을 계산하는 유사도 계산 단계; 및
최종 유사도 값이 높은 순서대로 유사 사용자를 선정하여 추천하는 사용자 추천 단계
를 포함하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 1에 있어서,
사용자와 객체간 관계 분석 단계에서,
사용자가 어떤 유형의 객체를 자주 사용한 정도를 나타낸 값을 행위 값이라고 할 때, 사용자가 사용한 모든 객체들의 행위 값을 계산하는 방식으로 사용자와 객체간 관계를 분석하는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 2에 있어서,
사용자가 해당 객체를 사용한 빈도수가 높을수록 행위 값을 증가시키고, 사용 날짜가 현재 시점으로부터 멀수록 행위 값을 감소시키는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 3에 있어서,

은 사용자 i가 객체 d를 사용한 행위 값이고, K는 τ시점 동안 해당 객체를 사용한 빈도수이고,
는 해당 객체를 사용한 시점부터 현재까지 지난 일 수라고 할 때,

(1)
의 수학식으로 나타낼 수 있는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 4에 있어서,
상기 수학식 (1)을 통해 계산된 행위 값을 기반으로 전체 사용자가 사용한 객체들의 사용 비중을 계산하는 객체 비중 계산 과정과, 각 사용자 별로 객체 사용 비중을 계산하는 사용자 비중 계산 과정을 수행하여 행위 값을 조정하는 방식으로 정규화하는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 5에 있어서,
P는 사용자의 전체 수일 때, 상기 수학식 (1)을 통해 계산된 행위 값을 기반으로, 상기 객체 비중 계산 과정을,

(2)
의 수학식으로 나타내고,
m은 전체 객체의 수일 때, 상기 사용자 비중 계산 과정을,

(3)
의 수학식으로 나타낼 수 있는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 1에 있어서,
상기 소셜 행위 분석 단계에서,
사용자가 작성한 문서 및 사용자가 스크랩한 문서의 키워드를 추출하고, 각 키워드의 빈도수와 희소성에 비례하는 사용자의 관심도를 계산하는 방식으로 사용자의 소셜 행위를 분석하는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 7에 있어서,
사용자 i가 작성한 문서에서 추출한 키워드 k의 값을
, 사용자 i가 가지고 있는 키워드 k에 대한 희소성 값을
라 할 때, 사용자의 관심도를,

(6)
의 수학식으로 나타낼 수 있는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 8에 있어서,

은 사용자 i가 작성한 모든 문서에서 추출한 키워드들을 의미하며,
은 <키워드, 빈도 수>으로 정의하고,
은 스크랩한 문서 중 키워드 k의 빈도수 값이라고 할 때,

(7)
의 수학식으로 나타낼 수 있는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 9에 있어서,
TF-IDF 알고리즘을 사용하여 희소성 값을 계산하며,

는 사용자 i가 작성한 문서의 수라고 할 때,

(8)
의 수학식으로 나타낼 수 있는 것을 특징으로 하는 소셜 사물 인터넷 환경에서 유사 사용자 추천 방법.
청구항 1 내지 청구항 10 중 어느 한 청구항의 방법을 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.