KR102170535B1 - 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법 - Google Patents

감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법 Download PDF

Info

Publication number
KR102170535B1
KR102170535B1 KR1020140004011A KR20140004011A KR102170535B1 KR 102170535 B1 KR102170535 B1 KR 102170535B1 KR 1020140004011 A KR1020140004011 A KR 1020140004011A KR 20140004011 A KR20140004011 A KR 20140004011A KR 102170535 B1 KR102170535 B1 KR 102170535B1
Authority
KR
South Korea
Prior art keywords
query
subject
keyword
preference
user
Prior art date
Application number
KR1020140004011A
Other languages
English (en)
Other versions
KR20150084217A (ko
Inventor
박기림
민경구
황영숙
홍금원
Original Assignee
에스케이플래닛 주식회사
십일번가 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사, 십일번가 주식회사 filed Critical 에스케이플래닛 주식회사
Priority to KR1020140004011A priority Critical patent/KR102170535B1/ko
Priority to PCT/KR2014/011015 priority patent/WO2015105270A1/ko
Publication of KR20150084217A publication Critical patent/KR20150084217A/ko
Application granted granted Critical
Publication of KR102170535B1 publication Critical patent/KR102170535B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

감성 분석을 통한 사용자 선호 기반의 검색 장치에 관한 것으로, 일 실시예에 따른 검색 장치는 사용자로부터 입력된 질의를 기초로 하나 이상의 질의 키워드를 생성하는 질의 키워드 생성부, 생성된 질의 키워드를 이용하여 감성 분석 데이터베이스에서 주제별로 감성 분석 정보를 검색하고, 검색된 감성 분석 정보를 미리 정의된 알고리즘에 적용하여 주제별 선호도를 산출하는 질의 수행부 및 산출된 주제별 선호도를 기초로 최종 결과를 반환하는 결과 반환부를 포함할 수 있다.

Description

감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법{APPARATUS AND METHOD FOR SEARCHING BASED ON USER PREFERENCE USING SENTIMENT ANALYSIS}
감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법에 관한 것으로, 보다 상세하게는 사용자가 정보를 취득하고자 하는 대상에 대하여 웹 문서에서 관련된 문서들을 수집하여 감성 분석 결과 정보들을 추출하고, 추출된 감성 분석 결과 정보들을 이용하여 사용자의 선호에 부합하는 순서로 검색 결과를 제공하는 검색 장치 및 방법과 관련된다.
일반적으로, 인터넷에 존재하는 다양한 종류의 검색 서비스 중에서 검색 대상이 단순한 문서가 아닌 실물 또는 서비스 등에 대한 검색 서비스들은 해당 대상에 대한 기본적인 키워드들 또는 대상에 부여된 수치화된 속성들을 이용하여 검색 대상을 정렬하여 결과로 제공한다. 예를 들어, 상품 검색의 결과를 가격 순으로 정렬하여 제공하거나, 스마트폰 애플리케이션 스토어를 판매량 순에 따라 정렬하여 제공하기도 한다. 또한, 일부 검색 서비스들은 서비스 사용자들이 해당 대상에 대하여 부여한 평점, 예컨대, 별점 정보를 이용하여 인기도 순이나 선호도 순으로 정렬하여 제공하는 경우도 있다.
한국공개특허 제10-2013-0119246호는 멀티미디어 콘텐츠에 대해 감성 키워드를 추천하기 위한 기술을 개시하고 있으나, 이와 같이 일반적인 검색 서비스에서 실제 사용자들은 그 검색 서비스들이 제공하는 정렬 기준으로 도출된 대상을 일일이 조회하여 선호하는 속성에 대하여 좋은 평판을 가지는 대상인지 여부를 판단하게 되어 소요되는 비용이 매우 크다.
사용자가 정보를 취득하고자 하는 대상에 대하여 웹 문서에서 추출된 감성 분석 결과 정보들을 이용하여 사용자의 선호에 부합하는 순서로 검색 결과를 제공하는 검색 장치 및 방법을 제공하기 위함이다.
일 양상에 따르면, 사용자 선호 기반의 검색 장치는 사용자로부터 입력된 질의를 기초로 하나 이상의 질의 키워드를 생성하는 질의 키워드 생성부, 생성된 질의 키워드를 이용하여 감성 분석 데이터베이스에서 주제별로 감성 분석 정보를 검색하고, 검색된 주제별 감성 분석 정보를 미리 정의된 알고리즘에 적용하여 주제별 선호도를 산출하는 질의 수행부 및 산출된 주제별 선호도를 기초로 최종 결과를 반환하는 결과 반환부를 포함할 수 있다.
이때, 질의 키워드는 사용자로부터 입력된 질의를 기초로 생성되는 제1 질의 키워드 및 제1 질의 키워드에 대한 질의 레벨을 기초로 생성되는 제2 질의 키워드 중의 하나 이상을 포함할 수 있다.
질의 키워드 생성부는 사용자로부터 입력된 질의가 미리 정의된 형태가 아니면, 입력된 질의를 분석하여 미리 정의된 형태로 제1 질의 키워드를 생성할 수 있다.
이때, 질의 레벨은 생성된 제1 질의 키워드의 구체도에 따라 결정되고, 제2 질의 키워드는 결정된 제1 질의 키워드의 질의 레벨에 대하여 미리 설정된 종속 질의 레벨에 기초하여 결정될 수 있다.
질의 수행부는 알고리즘에 질의 가중치, 속성 가중치, 빈도값 및 의견값 중의 하나 이상을 이용하여 주제별 선호도를 산출하는 선호도 산출부를 포함할 수 있다.
선호도 산출부는 알고리즘에 질의 가중치, 빈도값 및 속성 가중치 중의 하나 이상을 적용하여 빈도 가중치를 산출하고, 산출된 빈도 가중치 및 의견값을 알고리즘에 적용하여 주제별 점수를 산출할 수 있다.
선호도 산출부는 산출된 주제별 점수를 알고리즘에 적용하여 스무딩(smoothing) 처리하고, 처리 결과를 기초로 주제별 선호도를 산출할 수 있다.
질의 수행부는 하나 이상의 질의 키워드 각각에 대하여 질의 가중치를 산출하는 질의 가중치 산출부 및 질의 키워드 중의 속성 항목에 대하여 사용자로부터 속성 가중치를 입력받는 속성 가중치 입력부를 더 포함할 수 있다.
질의 수행부는 생성된 질의 키워드를 이용하여 감성 분석 데이터베이스에서 의견값 항목을 포함하는 감성 분석 정보를 검색하는 감성분석정보 검색부 및 검색된 감성 분석 정보에 대하여 통계 데이터베이스에서 감성 분석 정보를 포함하고 있는 문서의 빈도를 지시하는 빈도값을 검색하는 통계 검색부를 더 포함할 수 있다.
결과 반환부는 산출된 주제별 선호도에 따라 검색된 감성 분석 정보에 포함된 각 주제 항목을 내림차순으로 정렬하여 최종 결과를 반환할 수 있다.
일 양상에 따르면, 사용자 선호 기반의 검색 방법은 사용자 질의를 기초로 하나 이상의 질의 키워드를 생성하는 단계, 생성된 질의 키워드를 이용하여 감성 분석 데이터베이스에서 주제별로 감성 분석 정보를 검색하는 단계, 검색된 주제별 감성 분석 정보를 미리 정의된 알고리즘에 적용하여 주제별 선호도를 산출하는 단계 및 산출된 주제별 선호도를 기초로 최종 결과를 반환하는 단계를 포함할 수 있다.
주제별 선호도를 산출하는 단계는 주제별 감성 분석 정보에 대하여, 질의 가중치, 빈도값 및 속성 가중치 중의 하나 이상을 알고리즘에 적용하여 빈도 가중치를 산출하는 단계 및 산출된 빈도 가중치 및 의견값을 알고리즘에 적용하여 주제별 점수를 산출하는 단계를 포함할 수 있다.
주제별 선호도를 산출하는 단계는 산출된 주제별 점수를 알고리즘에 적용하여 스무딩 처리하는 단계 및 처리 결과를 기초로 주제별 선호도를 산출하는 단계를 더 포함할 수 있다.
또한, 주제별 선호도를 산출하는 단계는 알고리즘을 이용하여 하나 이상의 질의 키워드에 대한 질의 가중치를 산출하는 단계 및 검색된 감성 분석 정보에 대하여 통계 데이터베이스에서 감성 분석 정보를 포함하고 있는 문서의 빈도를 지시하는 빈도값을 검색하는 단계를 더 포함할 수 있다.
결과를 반환하는 단계는 산출된 주제별 선호도에 따라 검색된 감성 분석 정보에 포함된 각 주제 항목을 내림차순으로 정렬하는 단계 및 정렬된 최종 결과를 반환하는 단계를 포함할 수 있다.
검색 서비스에서 감성 분석 기술을 활용하여 사용자의 선호를 기반으로 한 주제 랭킹 알고리즘을 적용한 검색 결과를 사용자에게 제공할 수 있다.
이와 같이, 사용자는 정보를 취득하고자 하는 대상에 대하여 웹 문서에서 추출된 감성 분석 결과를 이용하여 사용자의 선호에 부합하는 순서로 검색 결과를 제공받음으로써, 결과 목록에 존재하는 각 대상들의 정보를 조회하는 비용을 최소화할 수 있다.
도 1은 일 실시예에 따른 감성 분석을 통한 검색 시스템의 구성도이다.
도 2는 일 실시예에 따른 감성 분석을 통한 사용자 선호 기반의 검색 장치의 블록도이다.
도 3은 도 2의 검색 장치의 질의 키워드 생성부의 상세 블록도이다.
도 4는 질의 키워드에 대하여 미리 설정되는 질의 레벨의 예이다.
도 5는 도 4의 질의 레벨에 대하여 미리 설정되는 종속 질의 레벨의 예이다.
도 6은 도 2의 검색 장치의 질의 수행부의 상세 블록도이다.
도 7은 일 실시예에 따른 감성 분석을 통한 사용자 선호 기반의 검색 방법의 흐름도이다.
도 8은 도 7의 검색 방법 중 질의 키워드 생성 단계의 상세 흐름도이다.
도 9는 도 7의 검색 방법 중 선호도 산출 단계의 상세 흐름도이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하, 도면들을 참조하여 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법의 다양한 실시예들을 설명한다.
도 1은 일 실시예에 따른 감성 분석을 통한 검색 시스템의 구성도이다.
도 1의 검색 시스템은 본 발명의 감성 분석을 통한 사용자 선호 기반의 검색 장치가 적용될 수 있다.
도 1을 참조하면, 검색 시스템(1)은 감성 분석을 통하여 감성 분석 결과를 생성하는 감성 분석 장치(100) 및 사용자의 질의를 수행하여 검색 결과를 반환하는 검색 장치(200)를 포함한다.
감성 분석 장치(100)는 수집기(110), 자동분류기(120), 감성분석기(130), 감성 분석 데이터베이스(140), 통계생성기(150), 통계 데이터베이스(160), 검색엔진색인기(170) 및 검색엔진검색기(180), 색인 데이터베이스(190)를 포함할 수 있다.
수집기(110)는 인터넷 웹으로부터 문서를 수집하고 수집된 문서를 감성 분석 데이터베이스(140)에 저장한다. 이때, 감성 분석 데이터베이스(140)는 하둡(hadoop) 기반의 에이치베이스(Hbase)일 수 있다.
자동분류기(120)는 수집되어 감성 분석 데이터베이스(140)에 저장된 문서를 감성 분석을 위한 체계로 분류하여 감성분석기(130)에 할당한다.
감성분석기(130)는 문서로부터 감성 분석 결과를 추출하고 추출된 감성 분석 결과를 감성 분석 정보로서 감성 분석 데이터베이스(140)에 저장한다. 이때, 감성 분석 결과는 미리 정의된 형태의 단위로 생성될 수 있으며, 이하, 이러한 미리 정의된 형태의 단위를 문서 키워드라 한다.
예를 들어, 아래의 표 1은 감성 분석 데이터베이스(140)에 저장된 감성 분석 정보로서 3개의 문서 키워드가 저장된 것을 예시한 것이다. 각 문서 키워드는 아래의 표 1과 같이 "주제(대상)", "속성(대표속성)" 및 "표현(의견값)" 항목으로 구성되고, 하나 이상의 항목의 실제 값은 존재하지 않을 수 있다.
주제(대상) 속성(대표속성) 표현(의견값)
500D 화질(성능) 좋다(+1)
500D 화질(성능) 훌륭하다(+2)
A음식점 국물(품질) 맛있다(+1)
통계생성기(150)는 감성 분석 데이터베이스(140)에 저장된 감성 분석 정보를 읽어 주제별 통계 정보를 생성하고, 생성된 통계 정보를 통계 데이터베이스(160)에 저장한다. 이때, 통계 정보는 각 문서 키워드를 포함하고 있는 문서들의 수를 의미하는 빈도값을 포함할 수 있다.
예를 들어, 통계생성기(150)는 어느 하나의 문서 키워드 "500D, 화질(성능), 좋다(+1)"에 대하여, "500D가 화질(성능)이 좋다"는 내용을 포함하고 있는 문서의 수를 그 문서 키워드에 대한 빈도값으로 산출하여 통계 데이터베이스(160)에 저장할 수 있다. 또한, 빈도값은 주제별, 주제 및 속성별로 산출될 수 있다.
검색엔진 색인기(170)는 감성 분석 정보 및 통계 정보를 이용하여 색인을 생성하고, 색인 데이터베이스(190)에 저장한다.
검색 장치(200)는 사용자의 질의가 입력되면 검색엔진 검색기(180), 감성 분석 데이터베이스(140), 통계 데이터베이스(160)를 이용하여 감성 분석 정보 및 통계 정보들을 검색하고, 검색 결과를 미리 정의된 주제 랭킹 알고리즘에 적용하여 사용자가 선호하는 정보가 우선적으로 반환될 수 있도록 처리하여 API(Application Programming Interface)를 통하여 최종 결과를 반환한다.
도 2는 일 실시예에 따른 감성 분석을 통한 사용자 선호 기반의 검색 장치의 블록도이다.
도 2를 참조하여, 도 1의 검색 시스템(1)에 적용이 가능한 검색 장치(200)의 실시예를 좀 더 상세하게 설명한다.
도2에 도시된 바와 같이, 검색 장치(200)는 질의 입력부(210), 질의 키워드생성부(220), 질의 수행부(230) 및 결과 반환부(240)를 포함할 수 있다.
질의 입력부(210)는 사용자의 질의(21)를 입력받는다. 이때, 사용자의 질의(21)는 미리 정의된 형태의 단위 즉, "주제(대상), 속성(대표속성), 표현(의견값)" 항목으로 이루어진 질의 키워드로 입력될 수 있다.
예를 들어, 사용자의 질의(21)는 "DSLR, 화질(성능), 좋다(+1)"와 같이 모든 항목을 포함하여 입력되거나, "DSLR", "DSLR, 화질(성능)", "DSLR, 좋다(+1)" 등과 같이 일부의 항목만 입력될 수도 있다.
또한, 사용자의 질의(21)는 "화질이 좋은 DSLR", "좋은 DSLR" 등과 같이 자연어 형태로 입력될 수도 있다.
질의 키워드 생성부(220)는 사용자의 질의가 입력되면 하나 이상의 질의 키워드를 생성한다. 이때, 사용자의 질의가 질의 키워드로 입력되면 입력된 사용자의 질의를 질의 키워드로 사용할 수 있다. 만약, 사용자의 질의가 자연어 형태로 입력되면, 입력된 사용자의 질의에서 감성 분석 기술을 이용하여 질의 키워드를 추출한다. 이때, 감성 분석 기술은 이미 알려진 다양한 방법들이 이용될 수 있다.
도 3은 도 2의 검색 장치의 질의 키워드 생성부의 상세 블록도이다. 도 4는 질의 키워드에 대하여 미리 설정되는 질의 레벨의 예이다. 도 5는 도 4의 질의 레벨에 대하여 미리 설정되는 종속 질의 레벨의 예이다.
이하, 도 3 내지 도 5를 참조하여, 도 2의 질의 키워드 생성부(220)를 보다 상세하게 설명한다.
도 3을 참조하면, 질의 키워드 생성부(220)는 제1 질의 키워드 생성부(221), 질의 레벨 확인부(222) 및 제2 질의 키워드 생성부(223)를 포함할 수 있다.
제1 질의 키워드 생성부(220)는 사용자의 질의(21)를 기초로 미리 정의된 형태 단위의 제1 질의 키워드를 생성한다. 이때, 사용자로부터 입력된 질의(21)가 미리 정의된 형태 단위로 입력된 경우 사용자의 질의를 바로 제1 질의 키워드로 생성한다. 만약, 사용자의 질의(21)가 "화질이 좋은 DSLR"과 같이 자연어 형태로 입력되면 입력된 사용자의 질의를 감성 분석하여 "DSLR, 화질(성능), 좋다(+1)"와 같이 제1 질의 키워드를 생성할 수 있다.
질의 레벨 확인부(222)는 생성된 제1 질의 키워드에 대하여 그 구체도에 따라 질의 레벨을 결정할 수 있다. 이때, 질의 키워드와 질의 레벨의 관계 정보는 도 4에 예시된 바와 같이 미리 설정될 수 있다. 질의 레벨 확인부(222)는 이와 같이 제1 질의 키워드가 생성되면 도 4에 예시된 바와 같은 관계 정보를 이용하여 질의 레벨을 결정할 수 있다.
예를 들어, 생성된 제1 질의 키워드가 "DSLR, 화질(성능), 좋다(+1)"인 경우, 질의 레벨 확인부(222)는 도 4를 참조하여, 제1 질의 키워드가 주제, 속성, 표현 및 의견값 항목의 값을 모두 포함하고 있으므로, 그 제1 질의 키워드에 대한 질의 레벨(l(q))을 0으로 결정할 수 있다.
또한, 질의 레벨 확인부(222)는 제1 질의 키워드에 대한 질의 레벨(l(q))이 결정되면, 그 질의 레벨(l(q))을 기초로 종속 질의 레벨을 확인한다. 이때, 질의 레벨 간의 종속 관계는 도 5에 예시된 바와 같이 미리 설정될 수 있다.
예를 들어, 질의 레벨 확인부(222)는 앞에서 제1 질의 키워드에 대하여 질의 레벨(l(q))을 0으로 결정하였으므로, 도 5를 참조하여 종속 질의 레벨을 1,2,3,4,5로 결정할 수 있다.
제2 질의 키워드 생성부(223)는 이와 같이 제1 질의 키워드에 대한 질의 레벨(l(q))이 결정되고, 그 질의 레벨(l(q))에 대한 종속 질의 레벨이 확인되면, 그 종속 질의 레벨을 기초로 제2 질의 키워드를 생성할 수 있다.
예를 들어, 제2 질의 키워드 생성부(223)는 도 4에 예시된 질의 레벨과 질의 키워드의 관계 정보를 이용하여 그 종속 질의 레벨에 대응되는 제2 질의 키워드를 생성한다.
아래의 표 2는 이와 같이 사용자가 입력한 질의 "화질이 좋은 DSLR"에 대하여 생성된 질의 키워드로서 첫 번째가 제1 질의 키워드이고, 나머지가 제2 질의 키워드이다.
주제 속성 표현 의견값 질의 레벨:l(q)
DSLR 화질(성능) 좋다 +1 0
DSLR 화질(성능) +1 1
DSLR 화질(성능) 2
DSLR 좋다 +1 3
DSLR +1 4
DSLR 5
다시 도 2를 참조하면, 질의 수행부(230)는 질의 키워드 생성부(220)에 의해 사용자의 질의에 대한 질의 키워드가 생성되면 질의 키워드를 이용하여 검색을 수행하고, 검색 결과를 주제별로 선호도를 산출한다.
도 6은 도 2의 검색 장치의 질의 수행부의 상세 블록도이다.
도 6을 참조하여, 질의 수행부(230)를 좀 더 구체적으로 설명하면, 질의 수행부(230)는 선호도 산출부(231), 질의 가중치 산출부(232), 속성 가중치 입력부(233), 감성 분석 정보 검색부(234) 및 통계 검색부(235)를 포함할 수 있다.
선호도 산출부(231)는 사용자가 선호하는 결과들이 우선하여 반환될 수 있도록 검색 결과들을 미리 정의된 주제 랭킹 알고리즘에 적용하여 주제별 선호도를 산출할 수 있다. 이때, 주제 랭킹 알고리즘은 이하에서 예시되는 수학식에 의해 구현될 수 있다.
질의 가중치 산출부(232)는 먼저 표 1과 같이 질의 키워드가 생성되면 생성된 질의 키워드에 대한 질의 가중치(w(q))를 수학식 1을 이용하여 산출할 수 있다.
Figure 112014003344698-pat00001
여기서, w(q)는 각 질의 키워드에 대한 질의 가중치를 의미하고, query_level_gap은 질의 레벨에 따른 가중치를 의미하는 것으로 미리 설정되는 값(예: 0~5 사이의 임의의 값)일 수 있다. 또한, l(q)는 각 질의 키워드에 대한 질의 레벨을 의미한다. 또한, "^" 연산을 제곱 연산을 의미한다.
예를 들어, 질의 레벨에 대한 가중치인 query_level_gap이 3이라 가정한 경우 생성된 각 질의 키워드에 대한 질의 가중치는 아래의 표 3과 같이 산출될 수 있다.
주제 속성 표현 의견값 질의 레벨:l(q) w(q)
DSLR 화질(성능) 좋다 +1 0 1
DSLR 화질(성능) +1 1 1/3
DSLR 화질(성능) 2 1/9
DSLR 좋다 +1 3 1/27
DSLR +1 4 1/81
DSLR 5 1/243
속성 가중치 입력부(233)는 생성된 질의 키워드의 속성 항목에 대해 사용자가 지정한 속성 가중치(w(a))를 입력받는다. 이때, 속성 가중치(w(a))는 0≤w(q)≤1을 만족하는 값으로서 사용자에 의해 지정될 수 있다. 예를 들어, 사용자는 속성 항목의 화질(성능) 속성에 1.0, 다른 속성에 0.5를 입력할 수 있다.
감성 분석 정보 검색부(234)는 질의 키워드가 산출되면 감성 정보 데이터베이스에서 해당하는 감성 분석 정보들을 검색한다. 이때, 검색되는 감성 분석 정보는 전술한 바와 같이 하나 이상의 문서 키워드 형태의 감성 분석 결과를 포함할 수 있다.
통계 검색부(235)는 감성 분석 정보가 검색되면 검색된 감성 분석 정보의 각 문서 키워드에 대응되는 통계 정보를 통계 데이터베이스에서 검색한다. 이때, 통계 정보는 문서 키워드에 대한 빈도값(df)을 포함할 수 있다. 빈도값은 그 문서 키워드를 포함하고 있는 문서의 수를 의미할 수 있다.
선호도 산출부(231)는 이와 같이, 질의 가중치(w(q)), 속성 가중치(w(a)) 및 검색된 감성 분석 정보의 각 문서 키워드에 대한 빈도값(df)들이 수집되면, 그 데이터를 아래의 수학식 2에 적용하여 빈도 가중치(w(df))를 산출할 수 있다. 이때, 선호도 산출부는 주제별로 분류하여 산출할 수 있다.
Figure 112014003344698-pat00002
아래의 표 4는 질의 키워드를 이용하여 검색한 감성 분석 정보 중의 일부 주제 예컨대 사용자 질의 주제인 DSLR에 포함된 다양한 주제 중에서 어느 하나의 주제 500D에 대해 수학식 2에 의해 산출한 빈도 가중치(w(df))의 예이다.
주제 속성 표현 의견값 l(q) w(q) w(a) df w(df)
500D 화질(성능) 좋다 +1 0 1 1.0 17 17.00
500D 화질(성능) +1 1 1/3 1.0 38 12.67
500D 화질(성능) +2 1 1/3 1.0 49 16.33
500D 화질(성능) -1 2 1/9 1.0 12 1.33
500D 화질(성능) -2 2 1/9 1.0 23 2.56
500D 좋다 +1 3 1/27 0.5 61 1.13
500D +1 4 1/81 0.5 147 0.91
500D +2 4 1/81 0.5 98 0.60
500D -1 5 1/243 0.5 82 0.17
500D -2 5 1/243 0.5 29 0.06
선호도 산출부(231)는 이와 같이 감성 분석 정보의 주제별로 각 문서 키워드에 대한 빈도 가중치가 산출되면, 산출된 빈도 가중치와 의견값을 아래의 수학식 3에 적용하여 주제별 점수를 산출한다.
Figure 112014003344698-pat00003
여기서, oldScore(o)는 주제 "o"에 대한 점수를 의미한다. 또한, opinion_value는 감성 분석 정보에 포함된 의견값을 의미하고, w(df)는 산출된 빈도 가중치를 의미한다.
위 수학식 3을 이용하여 위 표 4에 예시된 주제 500D에 대한 점수를 산출하면, sum of w(df)는 52.76이고, Sum of (opinion_value*w(df))는 58.85가 된다. 따라서, 최종적으로 주제 500D에 대한 점수 oldScore(500D)는 1.115가 된다.
선호도 산출부(231)는 이와 같이 산출된 주제 점수를 이용하여 바로 주제별 선호도로 생성할 수 있다. 하지만, 웹 문서의 빈도가 낮은 주제에 대한 점수 왜곡을 최소화하기 위해 아래의 수학식 4를 더 적용하여 주제별 빈도량을 이용한 점수 스무딩(smoothing) 처리를 할 수 있다.
Figure 112014003344698-pat00004
여기서, Score(o)는 주제에 대하여 스무딩 처리 결과를 의미하고, base_score는 주제별 빈도량 기본 점수로 예컨대, 50, 75 및 주제 평균 점수와 같이 미리 설정되는 임의의 값일 수 있다. 이때, 주제 평균 점수는 위에서 산출된 주제 점수의 평균일 수 있다. 또한, lamda는 아래의 수학식 5와 같이 정의될 수 있다.
Figure 112014003344698-pat00005
여기서, lamda_base는 0보다 크거나 같은 정수 중에서 미리 설정된 임의의 수를 의미한다.
위의 표 4에 예시된 주제 500D에 대하여 최종 스무딩 처리 결과를 산출하면, 이때, base_score가 50이고, lamda_base가 5라고 가정할 때 lamda는 수학식 5에 의해 0.91이 되므로 이를 수학식 4에 적용하면, 최종적으로 주제 500D에 대한 스무딩 처리 결과는 75.39가 된다.
선호도 산출부(231)는 이와 같이 검색된 모든 주제에 대해 스무딩 처리 결과 점수가 산출되면 이를 이용하여 주제별 선호도를 산출할 수 있다. 이때, 주제별 선호도는 스무딩 처리 전의 주제별 점수, 또는 스무딩 처리 후의 주제 점수 그 자체가 될 수 있다.
다시 도 2를 참조하면, 결과 반환부(240)는 이와 같이 사용자 질의에 대하여 주제별 선호도가 산출되면, 이를 이용하여 주제별로 정렬하고 정렬된 결과(22)를 반환할 수 있다. 이때, 주제별 선호도를 기준으로 내림차순으로 정렬하여 결과(22)를 반환할 수 있다.
개시된 실시예에 따르면, 사용자가 주제 랭킹 알고리즘의 각 파라미터에 대한 값들을 조정하고, 속성 가중치 등을 조절함으로써 자신들이 선호하는 데이터들을 우선적으로 제공받을 수 있다.
도 7은 일 실시예에 따른 감성 분석을 통한 사용자 선호 기반의 검색 방법의 흐름도이다. 도 8은 도 7의 검색 방법 중 질의 키워드 생성 단계의 상세 흐름도이다. 도 9는 도 7의 검색 방법 중 선호도 산출 단계의 상세 흐름도이다.
도 7 내지 도 9는 도 2의 실시예에 따른 검색 장치(200)에 의해 수행되는 검색 방법의 일 실시예일 수 있다. 도 2 이하를 참조하여, 검색 장치(200)가 수행하는 검색 방법의 실시예를 상세하게 설명하였으므로 이하 중복되는 설명을 피하기 위해 간단하게 설명한다.
먼저, 도 7을 참조하면, 검색 장치(200)는 사용자로부터 질의를 입력받는다(단계 310). 이때, 사용자로부터 입력된 질의는 미리 정의된 질의 키워드 형태 또는 자연어 형태일 수 있다.
그 다음, 사용자 질의가 입력되면, 사용자 질의를 기초로 질의 키워드를 생성한다(단계 320).
도 8을 참조하여, 질의 키워드 생성 단계 320을 좀 더 구체적으로 설명한다.
먼저, 사용자 질의가 입력되면, 입력된 사용자 질의가 미리 정의된 질의 키워드 형태인지를 판단한다(단계321).
그 다음, 판단 결과 사용자 질의가 미리 정의된 형태가 아니면 사용자 질의를 감성 분석하여 미리 정의된 형태의 제1 질의 키워드를 생성하고(단계 322), 사용자 질의가 미리 정의된 형태이면 입력된 사용자 질의를 그대로 제1 질의 키워드로 사용한다.
그 다음, 제1 질의 키워드가 생성되면, 생성된 제1 질의 키워드에 대한 질의 레벨을 결정한다(단계 323). 이때, 질의 레벨은 도 4에 예시된 바와 같이 질의 키워드에 대하여 미리 정의될 수 있으며, 생성된 질의 키워드에 대응하는 질의 레벨을 확인할 수 있다.
그 다음, 제1 질의 키워드에 대한 질의 레벨이 결정되면, 그 질의 레벨에 대해 종속 질의 레벨을 확인한다(단계 324). 이때. 종속 질의 레벨을 도 5에 예시된 바와 같이 미리 정의될 수 있다.
그 다음, 제1 질의 키워드의 질의 레벨에 대한 종속 레벨이 존재하면 그 종속 레벨에 대응하는 제2 질의 키워드를 생성할 수 있다(단계 326). 이때, 확인된 종속 레벨의 수에 따라 하나 이상의 제2 질의 키워드가 생성될 수 있다.
다시 도 7을 참조하면, 질의 키워드가 생성되면 감성 분석 데이터베이스에서 주제별로 감성 분석 정보를 검색한다(단계 330).
그 다음, 감성 정보를 주제 랭킹 알고리즘에 적용하여 주제별 선호도를 산출한다(단계 340). 이때, 주제 랭킹 알고리즘은 전술한 수학식 1 내지 5에 의해 구현될 수 있다.
도 9를 참조하여, 주제별 선호도를 산출하는 단계 340을 좀 더 구체적으로 설명한다.
하나 이상의 질의 키워드가 생성되면 질의 키워드에 대한 질의 가중치를 산출한다(단계 341). 이때, 위 수학식 1을 이용하여 각 질의 키워드에 대한 질의 가중치를 산출할 수 있다.
그 다음, 생성된 질의 키워드를 이용하여 검색된 감성 분석 정보에 대응되는 통계 정보를 통계 데이터베이스에서 검색한다(단계 342). 이때, 통계 정보는 감성 분석 정보에 포함된 각 문서 키워드에 대한 빈도값을 포함할 수 있다.
그 다음, 질의 가중치, 빈도값 및 사용자로부터 입력된 속성 가중치를 이용하여 감성 분석 정보의 각 문서 키워드에 대한 빈도 가중치를 산출할 수 있다(단계 343). 이때, 빈도 가중치는 위 수학식 2를 이용하여 산출될 수 있다.
그 다음, 빈도 가중치가 산출되면, 검색된 감성 분석 정보에 포함된 의견값과 빈도 가중치를 이용하여 주제별 점수를 산출할 수 있다(단계 344). 이때, 주제별 점수는 위 수학식 3을 이용하여 산출될 수 있다.
그 다음, 주제별로 점수가 산출되면, 웹문서의 빈도가 낮은 주제에 대한 점수 왜곡을 최소화하기 위해 각 주제별 점수를 수학식 4 및 5에 의해 스무딩 처리하여 최종 점수를 산출할 수 있다(단계 345).
그 다음, 산출된 점수를 이용하여 주제별 선호도를 산출할 수 있다(단계 346). 이때, 스무딩 처리 결과로 산출된 주제별 최종 점수를 주제별 선호도로 산출할 수 있다.
다시 도 7을 참조하면, 주제별 선호도가 산출되면 정렬하여 최종 결과를 반환할 수 있다(단계 350). 이때, 주제별 선호도를 기준으로 내림차순으로 정렬하여 반환할 수 있다.
본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이러한 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 모든 형태의 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서와 같이 본 발명은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
본 발명은 사용자가 정보를 취득하고자 하는 대상에 대하여 웹 문서에서 관련된 문서들을 수집하여 감성 분석 결과 정보들을 추출하고, 추출된 감성 분석 결과 정보들을 이용하여 사용자의 선호에 부합하는 순서로 검색 결과를 제공하는 검색 기술을 제공함으로써, 사용자들이 일반적인 검색 서비스에서 제공되는 결과 목록에 존재하는 각 대상들에 대하여 자신이 선호하는 정보를 확인하기 위해 다시 조회하는 데 소요되는 비용을 줄일 수 있다는 점에서 그 활용도가 매우 클 것이다.
1: 사용자 선호 기반의 검색 시스템
100: 감성 분석 장치 110: 수집기
120: 자동 분류기 130: 감성 분석기
140: 감성 분석 데이터베이스 150: 통계 생성기
160: 통계 데이터베이스 170: 검색 엔진 색인기
180: 검색 엔진 검색기 190: 색인 데이터베이스
200: 검색 장치 210: 질의 입력부
220: 질의 키워드 생성부 221: 제1 질의 키워드 생성부
222: 질의 레벨 확인부 223: 제2 질의 키워드 생성부
230: 질의 수행부 231: 선호도 산출부
232: 질의 가중치 산출부 233: 속성 가중치 입력부
234: 감성분석정보 검색부 235: 통계 검색부
240: 결과 반환부

Claims (16)

  1. 미리 정의된 형태의 단위로 주제와 상기 주제에 대한 속성 및 상기 주제에 대한 표현 중 적어도 하나의 항목을 포함하도록 사용자로부터 입력된 질의를 기초로 제1 질의 키워드를 생성하고, 미리 설정된 질의 키워드와 질의 레벨 사이의 관계 정보에 따라 상기 제1 질의 키워드에 대응되는 질의 레벨을 결정하며, 미리 설정된 질의 레벨 사이의 종속 관계에 따라 상기 결정된 질의 레벨에 대한 종속 질의 레벨을 결정하고, 상기 관계 정보 및 상기 종속 질의 레벨에 기초하여 하나 이상의 제2 질의 키워드를 생성하는 질의 키워드 생성부;
    상기 질의 키워드 생성부에 의해 생성된 질의 키워드인 제1 및 제2 질의 키워드를 이용하여 감성 분석 데이터베이스에서 주제별로 감성 분석 정보를 검색하고, 상기 검색된 감성 분석 정보를 상기 사용자가 선호하는 결과가 우선 반환되도록 처리하는 미리 정의된 알고리즘에 적용하여 주제별 선호도를 산출하는 질의 수행부; 및
    상기 산출된 주제별 선호도를 기초로 최종 결과를 반환하는 결과 반환부를 포함하는 사용자 선호 기반의 검색 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 질의 수행부는
    상기 질의 키워드의 질의 레벨에 따라 결정되는 질의 가중치, 상기 질의 키워드의 상기 속성 항목에 대해 상기 사용자에 의해 지정된 속성 가중치, 웹으로부터 수집되어 상기 감성 분석 데이터베이스 저장된 문서들 중 상기 주제, 속성 및 표현 각각의 항목에 대해 상기 검색된 감성 분석 정보에 포함된 문서 키워드를 포함하고 있는 문서의 수에 대한 빈도값 및 상기 검색된 감성 분석 정보에 포함되는 상기 표현 항목의 문서 키워드에 대한 값인 의견값 중의 하나 이상을 상기 알고리즘에 적용하여 상기 주제별 선호도를 산출하는 선호도 산출부를 포함하는 사용자 기반의 검색 장치.
  6. ◈청구항 6은(는) 설정등록료 납부시 포기되었습니다.◈
    제5항에 있어서,
    상기 선호도 산출부는
    상기 알고리즘에 상기 질의 가중치, 빈도값 및 속성 가중치 중의 하나 이상을 적용하여 빈도 가중치를 산출하고, 산출된 빈도 가중치 및 상기 의견값을 상기 알고리즘에 적용하여 주제별 점수를 산출하는 사용자 선호 기반의 검색 장치.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
KR1020140004011A 2014-01-10 2014-01-13 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법 KR102170535B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140004011A KR102170535B1 (ko) 2014-01-13 2014-01-13 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법
PCT/KR2014/011015 WO2015105270A1 (ko) 2014-01-10 2014-11-17 사용자 장치, 그 제어 방법 및 그를 포함하는 감성 평가 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140004011A KR102170535B1 (ko) 2014-01-13 2014-01-13 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20150084217A KR20150084217A (ko) 2015-07-22
KR102170535B1 true KR102170535B1 (ko) 2020-10-27

Family

ID=53874215

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140004011A KR102170535B1 (ko) 2014-01-10 2014-01-13 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102170535B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101997992B1 (ko) * 2017-12-01 2019-10-01 상명대학교산학협력단 감성 어휘 기반의 사회적 감성 설문 조사를 위한 설문 생성 시스템 및 그 방법
CN109344232B (zh) * 2018-11-13 2024-03-15 平安科技(深圳)有限公司 一种舆情信息检索方法及终端设备
CN111198732A (zh) * 2018-11-19 2020-05-26 顺丰科技有限公司 一种电子设备的主题变换的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101074215B1 (ko) * 2009-02-27 2011-10-14 에스케이 텔레콤주식회사 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법
US8176057B2 (en) * 2009-04-01 2012-05-08 Korea Institute Of Science And Technology Assessment of a user reputation and a content reliability
KR101100830B1 (ko) * 2009-10-27 2012-01-02 주식회사 버즈니 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
KR101492543B1 (ko) * 2009-12-09 2015-02-24 에스케이플래닛 주식회사 온라인 판매에서의 상품 평가 시스템 및 방법, 그리고 이에 적용되는 장치
KR20120108095A (ko) * 2011-03-23 2012-10-05 김병훈 소셜 데이터 분석 시스템

Also Published As

Publication number Publication date
KR20150084217A (ko) 2015-07-22

Similar Documents

Publication Publication Date Title
US20200410515A1 (en) Method, system and computer readable medium for creating a profile of a user based on user behavior
US8843470B2 (en) Meta classifier for query intent classification
US8290927B2 (en) Method and apparatus for rating user generated content in search results
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US10521469B2 (en) Image Re-ranking method and apparatus
Tso-Sutter et al. Tag-aware recommender systems by fusion of collaborative filtering algorithms
TWI640878B (zh) Query word fusion method, product information publishing method, search method and system
CN112015998B (zh) 一种基于用户画像的商品推荐方法
CN106557558B (zh) 一种数据分析方法及装置
CN107918657B (zh) 一种数据源的匹配方法和装置
JP6428795B2 (ja) モデル生成方法、単語重み付け方法、モデル生成装置、単語重み付け装置、デバイス、コンピュータプログラム及びコンピュータ記憶媒体
JP2011175362A (ja) 情報処理装置、重要度算出方法及びプログラム
US20100057559A1 (en) method of choosing advertisements to be shown to a search engine user
JP2015525418A (ja) 検索方法および装置
US20160170993A1 (en) System and method for ranking news feeds
US20230004608A1 (en) Method for content recommendation and device
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
CN112597396A (zh) 搜索召回排序方法、系统及计算机可读存储介质
KR101725510B1 (ko) 사용자 성향을 고려한 소셜 이벤트 추천 방법 및 장치
JP5740228B2 (ja) 代表的なコメント抽出方法およびプログラム
KR102170535B1 (ko) 감성 분석을 통한 사용자 선호 기반의 검색 장치 및 방법
JP6434954B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20160094887A1 (en) Tv program-based shopping guide system and tv program-based shopping guide method
JP5622880B2 (ja) アイテム推薦システム、アイテム推薦方法およびアイテム推薦プログラム
CN108460131B (zh) 一种分类标签处理方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant