KR101688829B1 - 사용자 패턴을 반영한 문서 제공 방법 및 그 장치 - Google Patents

사용자 패턴을 반영한 문서 제공 방법 및 그 장치 Download PDF

Info

Publication number
KR101688829B1
KR101688829B1 KR1020150105098A KR20150105098A KR101688829B1 KR 101688829 B1 KR101688829 B1 KR 101688829B1 KR 1020150105098 A KR1020150105098 A KR 1020150105098A KR 20150105098 A KR20150105098 A KR 20150105098A KR 101688829 B1 KR101688829 B1 KR 101688829B1
Authority
KR
South Korea
Prior art keywords
cluster
document
user
importance
interest
Prior art date
Application number
KR1020150105098A
Other languages
English (en)
Inventor
이재영
박종식
원성준
박철홍
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020150105098A priority Critical patent/KR101688829B1/ko
Priority to US15/067,946 priority patent/US20170024456A1/en
Priority to CN201610302372.9A priority patent/CN106372098A/zh
Application granted granted Critical
Publication of KR101688829B1 publication Critical patent/KR101688829B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • G06F17/21
    • G06F17/277
    • G06F17/30011
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/226Delivery according to priorities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명의 일 태양에 따른 사용자 패턴을 반영한 문서 제공 방법은, 복수의 문서를 클러스터링 하여 클러스터를 구성하는 단계와 상기 클러스터의 정보를 분석하여 상기 클러스터의 클러스터별 중요도를 연산하는 단계와 상기 클러스터의 사용자 이용 패턴을 분석하여 상기 클러스터의 사용자별 관심도를 연산하는 단계와 상기 클러스터에 속한 문서의 정보를 분석하여 상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 단계와 상기 클러스터에 속한 문서의 사용자 이용 패턴을 분석하여 상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 단계 및 상기 클러스터의 클러스터별 중요도와 사용자별 관심도 및 상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서를 제공하는 단계를 포함할 수 있다.

Description

사용자 패턴을 반영한 문서 제공 방법 및 그 장치 {Method and apparatus for providing documents reflecting user pattern}
본 발명은 사용자 패턴을 반영한 문서 제공 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 문서에 대한 사용자의 관심도를 수치화함으로써, 사용자가 보다 관심 있어 하는 문서를 우선하여 제공하는 방법 및 그 방법을 수행하는 장치에 관한 것이다.
컴퓨터 및 인터넷 기술의 발달은 정보의 생산과 유통을 가속화시켰지만, 이에 비해 정보를 수용할 수 있는 사람의 시간은 예나 지금이나 24시간 그대로여서 갈수록 정보의 취사선택이 중요해지고 있다.
하루에도 수백 통의 메일을 받는 사람은 그중에서 어느 메일을 먼저 읽어야 할지에 대한 고민이 많다. 더러는 메일 폴더를 여러 개 만들고 메일 규칙을 설정해서 자동으로 메일이 각 메일 폴더로 분류되도록 하기도 하지만, 새로운 프로젝트가 시작되거나 새로운 고객이 생길 때마다, 새로운 메일 폴더를 만들고 새로운 규칙을 일일이 설정하는 것도 여간 번거로운 일이 아니다.
출근해서 확인해야 하는 것이 메일만 있으면 다행이랴. 사내 게시판에 올라온 공지도 확인해야 하고, 그룹웨어에 올라온 결재문서도 확인해야 하고, 대답이 늦으면 불호령이 떨어질지도 모르는 부장님이 보낸 사내 메신저의 메시지도 확인해야 한다. 이쯤 되면 출근해서 하루 종일 문서만 읽다가 퇴근시간이 되고 만다.
대한민국 공개특허 공보 10-2014-0046556
본 발명이 해결하고자 하는 기술적 과제는, 사용자 패턴을 반영한 문서 제공 방법 및 그 장치를 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 태양에 따른 사용자 패턴을 반영한 문서 제공 방법은, 복수의 문서를 클러스터링 하여 클러스터를 구성하는 단계와 상기 클러스터의 정보를 분석하여 상기 클러스터의 클러스터별 중요도를 연산하는 단계와 상기 클러스터의 사용자 이용 패턴을 분석하여 상기 클러스터의 사용자별 관심도를 연산하는 단계와 상기 클러스터에 속한 문서의 정보를 분석하여 상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 단계와 상기 클러스터에 속한 문서의 사용자 이용 패턴을 분석하여 상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 단계 및 상기 클러스터의 클러스터별 중요도와 사용자별 관심도 및 상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서를 제공하는 단계를 포함할 수 있다.
상기 기술적 과제를 해결하기 위한 본 발명의 다른 태양에 따른 사용자 패턴을 반영한 문서 제공 방법은, 복수의 문서에 대하여, 각 문서의 정보를 분석하여 문서의 문서별 중요도를 연산하는 단계와 상기 문서의 사용자 이용 패턴을 분석하여 문서의 사용자별 관심도를 연산하는 단계와 상기 문서의 문서별 중요도와 사용자별 관심도를 이용하여 상기 문서를 클러스터링하고, 그 결과로 클러스터를 구성하는 단계와 상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 상기 클러스터의 클러스터별 중요도와 사용자별 관심도를 연산하는 단계 및 상기 클러스터의 클러스터별 중요도와 사용자별 관심도 및 상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서를 제공하는 단계를 포함할 수 있다.
상기 기술적 과제를 해결하기 위한 본 발명의 또 다른 태양에 따른 사용자 패턴을 반영한 문서 제공 장치는, 네트워크 인터페이스와 하나 이상의 프로세서와 상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드하는 메모리 및 복수의 문서를 저장하는 스토리지를 포함할 수 있다. 여기서, 상기 컴퓨터 프로그램은, 복수의 문서를 클러스터링 하여 클러스터를 구성하는 오퍼레이션과 상기 클러스터의 정보를 분석하여 상기 클러스터의 클러스터별 중요도를 연산하는 오퍼레이션과 상기 클러스터의 사용자 이용 패턴을 분석하여 상기 클러스터의 사용자별 관심도를 연산하는 오퍼레이션과 상기 클러스터에 속한 문서의 정보를 분석하여 상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 오퍼레이션과 상기 클러스터에 속한 문서의 사용자 이용 패턴을 분석하여 상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 오퍼레이션 및 상기 클러스터의 클러스터별 중요도와 사용자별 관심도 및 상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서를 제공하는 오퍼레이션을 포함할 수 있다.
상기와 같은 본 발명에 따르면, 문서를 클러스터링 하여 클러스터를 구성함으로써, 자동으로 연관된 문서를 함께 확인할 수 있다. 뿐만 아니라, 다양한 채널의 여러 종류의 문서를 한번에 확인할 수 있다.
각 클러스터 마다 우선순위를 수치화하여 보다 중요한 클러스터를 사용자에게 알려줄 수 있고, 해당 클러스터에 속한 문서에 대해서도 각 문서마다 우선순위를 수치화하여 보다 중요한 문서를 사용자에게 알려줄 수 있다. 뿐만 아니라, 사용자의 이용 패턴을 분석하여 클러스터와 클러스터에 속한 문서의 관심도를 지속적으로 모니터링함으로써, 사용자의 관심이 다른 클러스터와 다른 문서로 옮겨가더라도 이에 대응할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
도 1은 본 발명의 몇몇 실시예에서 문서를 클러스터링 하고, 그 결과로 구성된 클러스터와 클러스터에 속한 문서의 중요도 및 사용자별 관심도를 연산하여, 사용자에게 지능형 뷰를 제공하는 것을 설명하기 위한 도면이다.
도 2는 본 발명의 몇몇 실시예에 따른 사용자 패턴을 반영한 문서 제공 방법의 순서도이다.
도 3은 본 발명의 몇몇 실시예에서 클러스터의 클러스터별 중요도를 연산하는 것을 설명하기 위한 도면이다.
도 4는 본 발명의 몇몇 실시예에서 클러스터의 사용자별 관심도를 연산하는 것을 설명하기 위한 도면이다.
도 5는 본 발명의 몇몇 실시예에서 클러스터에 속한 문서의 문서별 중요도를 연산하는 것을 설명하기 위한 도면이다.
도 6은 본 발명의 몇몇 실시예에서 클러스터에 속한 문서의 사용자별 관심도를 연산하는 것을 설명하기 위한 도면이다.
도 7은 본 발명의 몇몇 실시예에서 클러스터의 클러스터별 중요도와 사용자별 관심도를 이용하여 클러스터의 우선순위를 연산하는 것을 설명하기 위한 도면이다.
도 8은 본 발명의 몇몇 실시예에서 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 클러스터에 속한 문서의 우선순위를 연산하는 것을 설명하기 위한 도면이다.
도 9는 본 발명의 몇몇 실시예에서 문서의 문서별 중요도와 사용자별 관심도를 연산하고, 이를 이용하여 클러스터링 하는 것을 설명하기 위한 도면이다.
도 10은 본 발명의 몇몇 실시예에 따른 사용자 패턴을 반영한 문서 제공 방법의 순서도이다.
도 11은 본 발명의 몇몇 실시예에 따른 클러스터의 클러스터별 중요도를 Y축으로 하고 사용자별 관심도를 X축으로 하는 클러스터 우선순위 좌표평면상에 클러스터를 도시하여 제공하는 그래픽 사용자 인터페이스(Graphic User Interface)의 예시도이다.
도 12 내지 도 13은 본 발명의 몇몇 실시예에 따른 클러스터의 우선순위와 클러스터에 속한 각 문서의 우선순위를 이용하여, 클러스터와 클러스터에 속한 각 문서를 사용자에게 제공하는 그래픽 사용자 인터페이스(Graphic User Interface)의 예시도이다.
도 14는 본 발명의 몇몇 실실예에 따른 사용자 패턴을 반영한 문서 제공 장치의 하드웨어 구성도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명에 대하여 첨부된 도면에 따라 보다 상세히 설명한다.
도 1은 본 발명의 몇몇 실시예에서 문서를 클러스터링 하고, 그 결과로 구성된 클러스터와 클러스터에 속한 문서의 중요도 및 사용자별 관심도를 연산하여, 사용자에게 지능형 뷰를 제공하는 것을 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 문서는 여러 채널에서 여러 종류로 존재할 수 있다. 메일, SNS, 온라인 게시판, 메신저 등을 통해서 주고 받는 글들이 클러스터를 구성할 문서들이다. 물론 이러한 문서들을 각각의 채널에서 개별적으로 열람하고 확인할 수도 있지만, 이를 모아서 한번에 볼 수 있다면 나아가서 연관된 문서들끼리 모아서 볼 수 있다면, 사용자가 문서를 더 손쉽고 간편하게 열람하고 확인할 수 있을 것이다.
복수의 문서를 클러스터링 하여 클러스터를 구성하는 기술은 텍스트 마이닝(Text Mining)이라고 하여 자연어 처리(Natural Language Processing)와 함께 많은 연구가 이루어지고 있는 분야이다. 대부분의 텍스트 마이닝 방법들은 전처리 과정을 거쳐 주요 품사들을 위주로 문서의 텍스트에서 유의미한 단어들을 추출하고, 추출된 키워드의 유사도를 이용하여 문서를 클러스터링 한다.
도 1에서는 그 종류가 메일인 문서 b에 대해서 클러스터링 하는 과정이 간략하게 도시되어 있다. 문서 b의 제목, 수신인, 발신인, 본문의 텍스트에서 주요 단어들을 추출하고 이를 기준으로 클러스터를 구성한다. 예를 들면, 클러스터 A는 문서의 작성자를 기준으로 작성자가 "도민준"인 문서들로 구성된 클러스터이다. 클러스터 B는 "상품기획회의"를 키워드로 하는 문서들로 구성된 클러스터이다. 클러스터 C는 "회신"+"부탁"을 키워드로 하는 문서들로 구성된 클러스터이다.
도 1에서는 간단하게 문서의 작성자와 키워드를 기준으로 클러스터가 구성된 예를 설명하였지만 클러스터의 구성은 반드시 이에 한정되는 것은 아니며, 문서가 메일인 경우 수신인의 이름을 기준으로 할 수도 있고, 자기가 받은 메일이 수신인으로 받은 메일인지 참조인으로 받은 메일인지를 기준으로 할 수도 있고, 문서의 작성일시를 기준으로 할 수도 있으며, 하나의 키워드만이 아니라 복수의 키워드를 기준으로 하는 클러스터가 구성될 수도 있다. 그리고, 각 문서는 하나의 클러스터에만 속할 수도 있지만, 문서 b의 경우처럼 동시에 여러 클러스터에 속할 수도 있다.
이처럼 복수의 문서를 클러스터링 하여 클러스터를 구성하고 이를 기준으로 사용자에게 문서를 제공하면 새로운 프로젝트가 시작되거나 새로운 고객이 생기더라도 자동으로 새로운 클러스터가 생성이 될 것이므로 새로운 메일 폴더를 만들고 새로운 규칙을 설정해야 하는 사용자의 불편을 줄일 수 있다.
문서를 클러스터링 하여 여러 개의 클러스터를 구성하였으면 그 후에는 각 클러스터의 우선순위를 정해야 한다. 우선순위를 정하기 위해서는 두 가지의 요소를 고려할 수 있다. 하나는 사용자와 무관한 우선순위(user independent priority)이며, 다른 하나는 사용자에 종속적인 우선순위(user dependent priority)이다. 이하 사용자와 무관한 우선순위를 클러스터의 클러스터별 중요도, 문서의 문서별 중요도라고 하고, 사용자에 종속적인 우선순위를 클러스터의 사용자별 관심도, 문서의 사용자별 관심도라고 한다. 클러스터의 우선순위는 클러스터의 클러스터별 중요도와 클러스터의 사용자별 관심도를 이용하여 정할 수 있으며, 문서의 우선순위는 문서의 문서별 중요도와 문서의 사용자별 관심도를 이용하여 정할 수 있다.
클러스터의 클러스터별 중요도 및 문서의 문서별 중요도는 사용자와 무관한 클러스터나 문서에 종속적인 우선순위이므로 클러스터나 문서가 동일하면 사용자가 다르더라도 동일한 값을 가지게 된다. 하지만, 클러스터의 사용자별 관심도 및 문서의 사용자별 관심도는 사용자에 종속적인 우선순위이므로 동일한 클러스터나 문서라고 하더라도 사용자별로 다른 값을 가지게 된다. 즉 중요도가 객관적인 우선순위라고 한다면, 관심도는 주관적인 우선순위라고 할 수 있다. 이 두 가지 요소를 고려하여 클러스터와 문서의 우선순위를 정하게 되면 일반적으로 중요한 클러스터와 문서들을 우선하여 제공하면서도, 사용자별 맞춤형 제공이 가능하다.
도 1에서는 클러스터별 중요도는 높으나 사용자별 관심도가 낮은 "전사 공지" 클러스터 D와, 클러스터별 중요도는 낮으나 사용자별 관심도가 높은 "동호회 공지" 클러스터 E가 예시되어 있다. 또한, 문서 b가 속한 클러스터 A, B, C가 각각의 클러스터별 중요도와 사용자별 관심도에 따라 특정 영역을 차지하고 있다. 각 클러스터는 서로 배타적인 관계가 아니므로 교집합이 존재할 수도 있으며, 문서 b의 경우 클러스터 A와 B와 C의 교집합 영역에 존재하게 될 것이다.
클러스터별 중요도를 한 축으로 하고 사용자별 관심도를 다른 한 축으로 하는 클러스터 우선순위 좌표평면상(110)에서는 원점에 가까울수록 우선순위가 낮은 클러스터라 볼 수 있고, 원점에서 멀수록 우선순위가 높은 클러스터라 볼 수 있다. 이처럼 클러스터의 우선순위를 수치화하고 이를 기준으로 사용자에게 문서를 제공하면 사용자는 중요한 문서들만 우선하여 확인할 수 있다.
도 2는 본 발명의 몇몇 실시예에 따른 사용자 패턴을 반영한 문서 제공 방법의 순서도이다.
우선, 복수의 문서를 클러스터링 하여 클러스터를 구성한다(S1100).
여기서, 클러스터링을 하는 기준으로는 문서의 작성자, 작성일시, 열람 여부, 첨부파일 여부 등을 고려할 수 있다. 즉 특정 작성자가 작성한 문서들로만 클러스터를 구성할 수도 있고, 작성된 지 1시간 이내의 문서, 1일 이내의 문서, 1주일 이내의 문서, 1개월 이내의 문서, 1년 이내의 문서, 그 이상의 문서와 같이 작성일시를 구간으로 나누어 클러스터를 구성할 수도 있다. 또는, 아직 열람하지 않은 문서들로만 클러스터를 구성할 수도 있고, 첨부파일이 있는 문서들로만 클러스터를 구성할 수도 있다.
사용자가 메일 프로그램을 이용해서 메일을 확인할 때 대부분의 메일 프로그램은 몇 가지 간단한 정렬 기준을 기본으로 제공하고 있다. Microsoft Outlook의 경우에는 보낸 사람, 제목, 받은 날짜, 크기와 같은 정렬 기준을 기본으로 제공하고 있다. 네이버 웹메일의 경우에도 동일한 정렬 기준을 기본으로 제공하고 있다. 아마 대부분의 메일 프로그램이 이와 유사한 정렬 기준을 기본으로 제공할 것이다. 사용자는 필요에 따라 그때그때 정렬 기준을 선택하면 그때마다 메일함의 메일들이 선택된 정렬 기준에 따라 정렬되어 보여지게 된다. 하지만 정렬 기준을 아무리 선택을 하더라도 부서장님이 보낸 메일도 정렬해서 보면서, 수신된 지 한 시간 이내의 문서도 동시에 정렬해서 볼 수는 없다. 즉 두 개의 정렬 기준을 동일한 레벨로 적용해서 볼 수는 없다. 이 경우에는 각각 선택해서 보아야 하는 불편함이 있다. 이는 하나의 정렬 기준으로만 메일을 정렬할 수 있기 때문이다. 즉, 정렬 기준을 1차원으로만 적용하게 되면 이러한 불편이 있을 수 밖에 없다.
이에 비해 본 발명의 몇몇 실시예와 같이 작성자를 기준으로, 작성일시를 기준으로, 문서의 열람 여부 등을 기준으로 각각 클러스터를 구성하여 이를 클러스터 우선순위 좌표평면상(110)에 도시하게 되면 문서의 분포를 직관적으로 파악할 수 있다. 즉 부서장님이 보냈으면서, 수신된 지 한 시간 이내의 문서는 부서장님이 보낸 문서들로만 구성된 클러스터와 수신된 지 한 시간 이내의 문서들로만 구성된 클러스터의 교집합 영역을 선택해서 확인하면 된다. 이처럼 다양한 클러스터링 기준을 적용하여 클러스터 우선순위 좌표평면상(110)에 도시하면 기존의 1차원적인 정렬 기준에 비해 사용자가 손쉽게 원하는 문서들을 선택해서 확인할 수 있는 효과가 있다.
클러스터링을 하는 기준으로 앞서 설명한 문서의 메타정보를 이용하는 것 외에도, 다른 기준으로 문서의 내용정보를 이용한 텍스트 마이닝 방법을 고려할 수 있다. 즉, 문서의 텍스트를 분석하여 키워드를 추출하고, 이를 이용하여 문서 간의 유사도를 연산한 후, 문서 간의 유사도를 기준으로 유사한 내용의 문서들로만 클러스터를 구성할 수도 있다. 텍스트 마이닝 방법을 이용하면, 새로운 프로젝트가 시작되더라도 별도의 메일 폴더를 만들 필요없이 자동으로 메일이나 게시판에서 새로 등장하게 된 프로젝트 명을 키워드로 한 클러스터가 구성될 수 있는 것이다.
본 발명의 일 실시예에 따르면, 문서의 메타정보 및 내용정보를 이용하여 클러스터를 구성한 후, 클러스터의 구성 기준을 이용하여 클러스터의 주제어를 도출할 수 있다. 문서의 메타정보를 기준으로 클러스터를 구성할 때는 각각의 메타정보가 주제어가 될 것이고, 문서의 내용정보를 기준으로 클러스터를 구성할 때는 각각의 키워드가 주제어가 될 것이다. 도 1에 예시된 바와 같이, "전사 공지", "동호회 공지", "도민준 부서장"과 같은 각각의 클러스터 구성 기준에 따른 클러스터의 주제어를 도출할 수 있다. 단순히 클러스터를 클러스터 우선순위 좌표평면상(110)에 영역으로만 도시하기보다 이와 같은 주제어를 함께 도시하면 사용자 편의성을 더욱 높일 수 있을 것이다. 뿐만 아니라, 클러스터를 목록 형태로 제공할 때에도 클러스터의 주제어를 활용할 수 있다.
클러스터를 구성한 후에는 중요도를 연산하는 단계(S1200)과 관심도를 연산하는 단계(S1300)를 수행한다. 클러스터의 클러스터별 중요도, 문서의 문서별 중요도는 각각 클러스터의 메타정보와 문서의 메타정보를 분석하여 중요도를 연산할 수 있고, 클러스터의 사용자별 관심도, 문서의 사용자별 관심도는 각각 클러스터와 문서에 대한 사용자의 이용패턴을 분석하여 관심도를 연산할 수 있다. 이에 대해서는 도 3 내지 도 6에서 보다 자세하게 설명하기로 한다.
중요도와 관심도를 연산한 후에는 이를 이용하여 우선순위를 연산한다(S1400). 클러스터의 클러스터별 중요도와 사용자별 관심도를 이용하여 클러스터의 우선순위를 연산하고, 문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서의 우선순위를 연산한다. 이에 대해서는 도 7 내지 도 8에서 보다 자세하게 설명하기로 한다.
우선순위를 연산한 후에는 이를 이용하여 클러스터와 문서를 사용자에게 제공한다(S1500). 우선순위를 이용하여 클러스터를 사용자에게 제공할 때에는 클러스터의 우선순위 좌표평면(110)을 이용한 그래픽 사용자 인터페이스(Graphic User Interface)나, 우선순위를 이용하여 정렬한 목록 형태의 그래픽 사용자 인터페이스(Graphic User Interface)를 고려할 수 있다. 이에 대해서는 도 11 내지 도 13에서 보다 자세하게 설명하기로 한다.
도 3은 본 발명의 몇몇 실시예에서 클러스터의 클러스터별 중요도를 연산하는 것을 설명하기 위한 도면이다.
클러스터의 클러스터별 중요도를 연산하기 위해서 사용자와는 무관한 클러스터 자체의 메타정보를 이용하여 클러스터의 클러스터별 중요도를 연산할 수 있다. 이때 사용할 수 있는 메타정보로는 클러스터가 구성된 일시, 클러스터에 속한 문서의 개수 및 클러스터에 속한 문서의 크기 합 등을 고려할 수 있다. 일반적으로 구성된 지 오래된 클러스터일수록 중요도가 낮다고 볼 수 있으며, 클러스터에 속한 문서가 많을수록 중요도가 높고, 클러스터에 속한 문서의 크기 합이 클수록 중요도가 높다고 볼 수 있다. 이는 마치 먼지가 모인 별의 탄생, 성장 및 소멸처럼 문서가 모인 클러스터의 탄생, 성장, 소멸을 수치화하여 클러스터의 클러스터별 중요도를 평가한 것이다.
클러스터의 구성일시를 기준으로 중요도를 수치화할 때에는 가장 최근에 구성된 클러스터의 중요도를 1로 두고, 시간이 지남에 따라 지수함수(exponential function)로 감소하도록 중요도를 설정할 수 있다. 클러스터에 속한 문서의 개수나 크기를 기준으로 중요도를 수치화할 때에는 문서의 개수나 크기에 산술적으로 비례하도록 중요도를 할당할 수도 있고, 지수함수적으로 특정 값에 수렴하도록 할당할 수도 있다. 즉 기준에 따라 감소하는 값인 경우에는 지수함수적으로 감소하도록 할당해야 음수가 나오는 것을 막을 수 있으나, 기준에 따라 증가하는 값인 경우에는 산술적으로 비례하도록 할당하거나, 지수함수적으로 특정 값에 수렴하도록 할당하거나 선택의 문제일 뿐이다. 다만 기준에 따른 값의 분포가 큰 경우에는 지수함수적으로 특정 값에 수렴하도록 할당하는 것이 바람직할 것이다.
만약 산술적으로 비례하도록 중요도를 할당한다면 추후에 각각의 기준을 종합하여 클러스터의 클러스터별 중요도를 연산할 때에는 각각의 기준에 따른 중요도를 곱하여 클러스터별 중요도를 연산하는 것이 바람직하다. 만약 특정 값에 수렴하도록 중요도를 할당한다면 이는 일종의 표준화 과정을 거친 것이므로 각각의 기준에 따른 중요도를 더하여 클러스터별 중요도를 연산할 수도 있다.
도 3의 예에서는 클러스터에 속한 문서의 개수나 크기에 산술적으로 비례하도록 중요도를 할당하였다. 그리고, 클러스터의 클러스터별 중요도를 연산할 때에는 각각의 기준에 따른 중요도를 곱하여 클러스터의 클러스터별 중요도를 수치화하였다. 도 3의 예에 따르면, 클러스터 X1은 1일 전에 구성된 클러스터로서 그에 따른 중요도가 1, X1에 속한 문서의 개수가 12개로 그에 따른 중요도가 12, X1에 속한 문서의 크기 합이 4M로 그에 따른 중요도가 4로 수치화 되었고 이를 종합하여 1*12*4=48.00의 클러스터별 중요도를 가진다.
도 4는 본 발명의 몇몇 실시예에서 클러스터의 사용자별 관심도를 연산하는 것을 설명하기 위한 도면이다.
클러스터의 사용자별 관심도를 연산하기 위해서는 사용자에 종속적인 항목들을 기준으로 하여야 한다. 물론 사람의 마음을 알 수 있는 직접적인 방법이 있다면 가장 좋겠지만 이는 불가능하므로, 사람이 가진 제한적 자원인 시간을 고려하여 간접적으로 사람의 관심도를 수치화할 수 있다. 즉, 특정 클러스터에 사용자가 얼마만큼의 시간을 소비하였는지가 관심도의 기준이 될 수 있다. 이때 사용할 수 있는 사용자의 이용패턴으로 클러스터가 구성된 후 사용자가 해당 클러스터를 열람하기까지의 걸린 시간, 열람한 누적 횟수, 열람한 누적 시간 등을 고려할 수 있다.
도 4의 예에서는 중요도를 연산할 때와 마찬가지로 클러스터가 구성된 후 사용자가 해당 클러스터를 열람하기까지의 시간은 지수함수적으로 감소하게 할당하였고, 열람 누적 횟수나 열람 누적 시간은 산술적으로 비례하도록 할당하였다. 도 4의 예에 따르면, 클러스터 X1은 구성 후 사용자가 열람하기까지 10분이 걸린 클러스터로서 그에 따른 관심도가 0.9, 열람한 누적 횟수는 6번으로서 그에 따른 관심도가 6, 열람한 누적 시간은 12분으로서 그에 따른 관심도가 12로 수치화 되었고 이를 종합하여 0.9*6*12=64.8의 사용자별 관심도를 가진다.
여기서, 사용자의 이용패턴으로 열람 누적 횟수와 열람 누적 시간을 이용하는 것을 중요하게 볼 필요가 있다. 특정 클러스터가 구성되고 새로운 문서가 해당 클러스터에 새로 편입되어 클러스터가 성장할수록 사용자가 해당 클러스터를 열람한 누적 횟수와 누적 시간 역시 증가하게 될 것이다. 그러다가 프로젝트가 종료되거나 고객과의 거래가 종료되면 해당 클러스터의 성장은 멈출 것이고 사용자가 해당 클러스터를 열람한 누적 횟수나 누적 시간 역시 정체될 것이다. 대신 새로운 프로젝트나 새로운 고객과 관련된 클러스터에 사용자의 관심도가 집중될 것이므로, 사용자의 관심이 다른 클러스터와 다른 문서로 옮겨가더라도 이를 반영하여 관심도를 연산할 수 있다.
도 5는 본 발명의 몇몇 실시예에서 클러스터에 속한 문서의 문서별 중요도를 연산하는 것을 설명하기 위한 도면이다.
클러스터의 클러스터별 중요도와 마찬가지로, 문서의 문서별 중요도를 연산하기 위해서는 문서의 메타정보를 이용할 수 있다. 이때 사용할 수 있는 문서의 메타정보로 문서의 작성자, 작성일시, 종류, 크기, 키워드 빈도 등을 고려할 수 있다. 여기서 문서의 작성자에 따른 중요도의 경우, 이를테면 회사의 직급체계, 조직체계와 연동될 수 있다. 일반 사원이 쓴 메일과 부장님, 사장님이 쓴 메일의 중요도는 다를 것이며, 같은 팀원이 쓴 메일과 저 멀리 다른 부서의 팀원이 쓴 메일의 중요도는 다를 것이기 때문이다. 또한 가장 최근에 작성된 문서일수록, 문서의 크기가 클수록, 문서의 텍스트에 포함된 키워드의 빈도가 많을수록 문서의 중요도가 높을 것이다. 그리고, 문서의 종류에 따른 중요도도 그 문서가 유통되는 채널의 특성에 따라 적절한 값으로 할당할 수 있다. 도 5의 예에서는, 메일의 경우 1의 중요도를, 게시판의 경우 0.7의 중요도를 메신저의 경우 0.5의 중요도를 SNS의 경우에는 0.2의 중요도를 할당하였다.
도 5의 예에 따르면, 클러스터 X1에 속한 문서 a는 작성자는 "천송이"로 그에 따른 중요도는 0.8, 작성일시는 1일전으로 그에 따른 중요도는 0.2, 문서의 종류는 메일로 그에 따른 중요도는 1, 문서의 크기는 1.5M로 그에 따른 중요도는 1.5, 키워드의 빈도는 35번으로 그에 따른 중요도는 35로 수치화 되었고, 이를 종합하여 0.8*0.2*1*1.5*3.5=8.40의 문서별 중요도를 가진다.
도 6은 본 발명의 몇몇 실시예에서 클러스터에 속한 문서의 사용자별 관심도를 연산하는 것을 설명하기 위한 도면이다.
클러스터의 사용자별 관심도와 마찬가지로, 문서의 사용자별 관심도를 연산하기 위하여 문서에 대한 사용자의 이용패턴을 이용할 수 있다. 이때 사용할 수 있는 사용자의 이용패턴으로, 문서가 작성된 후 사용자가 열람하기까지의 시간, 열람한 누적 횟수, 열람한 누적 시간, 열람 여부들을 고려할 수 있다. 문서 작성 후 사용자가 열람하기까지의 시간이나 열람 누적 횟수, 열람 누적 시간에 대한 설명은 클러스터의 사용자별 관심도에서 설명한 것과 크게 다르지 않으므로 생략하기로 한다.
일반적으로 사용자가 아직 열람하지 않은 문서의 경우 사용자가 우선적으로 열람하고 확인해야 하므로 관심도를 열람한 문서에 비에 크게 할당할 수 있다. 도 6의 예에서는, 열람한 문서는 0.5의 관심도를, 열람하지 않은 문서는 1의 관심도를 할당하였다. 도 6의 예에서는 열람 문서와 미열람 문서의 중요도를 1:2의 비율로 할당하였지만, 이는 각각의 상황에 따라 얼마든지 다른 비율이 적용될 수 있으며 사용자의 개인 설정에 따라 다른 비율이 적용될 수도 있다.
다만 사용자가 아직 열람하지 않은 문서의 경우에는 사용자가 이미 열람한 문서와 달리 사용자의 이용패턴을 이용한 관심도를 연산하기 어려운 부분이 있다. 즉 사용자가 아직 열람하지 않은 문서에 대해 열람 누적 횟수, 열람 누적 시간과 같은 이용패턴을 고려한 관심도를 적용할 수는 없으므로 이때 사용할 값들을 고민하여야 한다. 이 경우에는 해당 미열람 문서가 포함된 클러스터에 속한 사용자가 열람한 문서들의 관심도 평균값을 기준으로 미열람 문서의 사용자별 관심도를 연산할 수 있다. 즉, 클러스터는 키워드가 유사한 경우, 작성자가 동일한 경우와 같이, 각각의 클러스터 구성 기준에 의한 유사한 문서들의 군집이므로, 해당 미열람 문서가 포함된 클러스터에 속한 열람 문서들의 관심도 평균값을 이용하여 해당 미열람 문서의 관심도를 연산한다면, 해당 미열람 문서를 사용자가 열람할 경우의 관심도 기대값을 예상할 수 있다.
특정 문서가 복수의 클러스터에 속할 수 있음은 앞서 설명한 바 있다. 만약 미열람 문서들로만 클러스터를 구성한다면, 미열람 문서 클러스터에서는 각 미열람 문서들이 속한 다른 클러스터의 관심도 평균값을 이용하여, 미열람 문서임에도 불구하고 미열람 문서들의 관심도 기대값을 연산할 수 있고 이를 이용하여 사용자가 보다 관심 있어 할 만한 미열람 문서를 우선하여 제공할 수 있다. 이는 단지 읽지 않은 메일만을 모아서 보여주는 것에 비해, 사용자의 과거의 이용패턴을 반영하여 미래의 이용패턴을 예상한 맞춤형 제공이라는데서 사용자 편의성이 강화된 효과가 있다.
도 6의 예에 따르면, 클러스터 X1에 속한 문서 a는 작성 후 사용자가 열람하기까지 30분이 걸린 문서로서 그에 따른 관심도는 0.9, 열람 누적 횟수는 2번으로 그에 따른 관심도는 2, 열람 누적 시간은 1분으로 그에 따른 관심도는 1, 열람 문서로서 그에 따른 관심도는 0.5로 수치화 되었고, 이를 종합하여 0.9*2*1*0.5=0.90 의 사용자별 관심도를 가진다. 다른 한편으로 클러스터 X1에 속한 문서 e는 사용자가 아직 열람하지 않은 문서로서 미열람 문서에 따른 관심도는 1이며, 그 외에 작성 후 열람까지의 시간에 따른 관심도는 X1에 속한 열람 문서들의 관심도 평균값인 0.64, 열람 누적 회수에 따른 관심도는 X1에 속한 열람 문서들의 관심도 평균값인 2.25, 열람 누적 시간에 따른 관심도는 X1에 속한 열람 문서들의 관심도 평균값인 1.80으로 수치화 되었고, 이를 종합하여 0.64*2.25*1.80*1=2.58의 관심도 기대값을 가진다.
도 7은 본 발명의 몇몇 실시예에서 클러스터의 클러스터별 중요도와 사용자별 관심도를 이용하여 클러스터의 우선순위를 연산하는 것을 설명하기 위한 도면이다.
각 클러스터의 클러스터별 중요도와 사용자별 관심도를 연산하였으면 이를 이용하여 클러스터의 우선순위를 연산하여야 한다. 앞선 예에서 클러스터별 중요도와 사용자별 관심도를 연산할 때에 특정 값에 수렴하도록 표준화하는 과정을 거치지 않았으므로 여기서는 중요도와 관심도를 곱하여 우선순위를 연산하였다.
도 7의 예에 따르면, 클러스터 X1은 48.00의 클러스터별 중요도와, 64.80의 사용자별 관심도를 가지고 이를 종합한 결과 3110.40의 우선순위를 가진다. 다른 클러스터도 이와 같은 방법으로 각각의 클러스터의 우선순위를 연산할 수 있고, 여러 클러스터 중에서 우선순위의 값이 큰 클러스터를 사용자에게 우선하여 제공하면, 사용자는 어느 클러스터를 먼저 확인해야 하는지에 대한 고민을 덜 수 있다.
도 8은 본 발명의 몇몇 실시예에서 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 클러스터에 속한 문서의 우선순위를 연산하는 것을 설명하기 위한 도면이다.
문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서의 우선순위를 연산하는 것은 도 7의 클러스터의 우선순위를 연산하는 것과 크게 다르지 않으므로 생략하기로 한다. 클러스터에 속한 문서의 우선순위를 연산하면, 클러스터를 목록의 형태로 제공할 때, 클러스터의 주제어와 함께, 해당 클러스터에 속한 문서 중에서 우선순위가 가장 높은 문서의 요약 정보를 함께 보여줄 수 있다. 이 경우 사용자는 해당 클러스터를 열람하지 않더라도 클러스터의 목록에서 요약 정보를 통해 해당 클러스터의 내용을 간단히 파악할 수 있는 이점이 있다. 이에 대해서는 추후 도 12 내지 도 13에서 보다 자세하게 설명하도록 한다.
도 9는 본 발명의 몇몇 실시예에서 문서의 문서별 중요도와 사용자별 관심도를 연산하고, 이를 이용하여 클러스터링 하는 것을 설명하기 위한 도면이다.
지금까지는 문서의 메타정보(예를 들면, 작성자)나 문서의 내용정보(예를 들면, 키워드)를 기준으로 클러스터를 먼저 구성하고 그 후에 중요도와 관심도를 연산하는 것에 대해서 설명하였으나, 문서의 문서별 중요도와 사용자별 관심도를 먼저 연산한 후 이를 이용하여 클러스터링하는 실시예를 고려해볼 수도 있다. 즉, 먼저 문서의 문서별 중요도와 사용자별 관심도를 앞서 설명한 기준에 따라 연산한 후, 각각의 문서를 문서 우선순위 좌표평면상(120)에 도시한다면 각 문서들은 일정한 분포를 보일 것이며 이러한 문서의 분포를 이용하여 클러스터를 구성할 수도 있다.
도 9에 도시된 바와 같이, 문서 a 내지 문서 j 까지 각각의 문서에 대해 문서별 중요도와 사용자별 관심도를 연산하고 이를 문서의 우선순위 좌표평면(120)에 도시하여 클러스터 F 내지 클러스터 J 를 구성할 수 있다. 여기서 클러스터 G는 우선순위가 높은 문서들로 구성된 클러스터이며, 클러스터 I는 우선순위가 낮은 문서들로 구성된 클러스터이다. 또한 클러스터 F는 문서별 중요도가 높은 문서들로 구성된 클러스터이며, 클러스터 J는 사용자별 관심도가 높은 문서들로 구성된 클러스터이다.
이처럼 문서의 문서별 중요도와 사용자별 관심도를 먼저 연산하고 이를 기준으로 클러스터를 구성하더라도 유의미한 클러스터를 구성할 수 있다. 다만, 이렇게 구성된 클러스터는 문서의 문서별 중요도 및 사용자별 관심도를 이용하여 클러스터링 한 결과이므로, 해당 클러스터의 클러스터별 중요도나 사용자별 관심도는 해당 클러스터에 속한 문서들의 문서별 중요도나 사용자별 관심도의 평균값을 이용하는 방식으로 연산한다면 보다 바람직할 것이다.
도 9의 예에 따르면, 클러스터 F의 클러스터별 중요도는 클러스터 F에 속한 문서 a, c, d, e, h의 문서별 중요도 평균인 (10+9+11+12+8)/5=10의 값으로 연산되고, 클러스터 F의 사용자별 관심도는 클러스터 F에 속한 문서 a, c, d, e, h의 사용자별 관심도 평균인 (1+3+4+2+2)/5=2.4의 값으로 연산된다. 즉 문서 우선순위 좌표평면상(120)에서 클러스터를 구성하고, 각 클러스터에 속한 문서들의 중요도 평균값과 관심도 평균값을 이용하여 클러스터의 중요도와 관심도를 결정하게 되면 이 값은 해당 클러스터의 중심점을 가리키는 값이 된다. 즉 클러스터 F가 원이라고 가정하면 F의 중심점 좌표인 (2.4, 10)이 클러스터 F의 사용자별 관심도 및 클러스터별 중요도가 되는 것이다.
도 10은 본 발명의 몇몇 실시예에 따른 사용자 패턴을 반영한 문서 제공 방법의 순서도이다.
도 10은 문서의 문서별 중요도와 사용자별 관심도를 먼저 연산한 후 이를 기준으로 클러스터를 구성하는 실시예를 순서도로 나타낸 것이다. 도 10에서 중요도를 연산하는 단계(S2100) 및 관심도를 연산하는 단계(S2200)는 도 2의 S1200 및 S1300과 크게 다르지 않다. 그 외 우선순위의 연산(S2400)이나 사용자 제공(S2500)도 도 2와 유사하다. 다만, 클러스터를 구성하는 단계(S2300)만이 앞서 도 9에서 설명한 것처럼 특징이 있다. 즉, 본 발명에 따르면 클러스터를 구성하는 기준으로 문서의 메타정보, 문서의 내용정보 외에도 문서의 우선순위 정보를 이용할 수 있다. 다양한 기준으로 클러스터를 구성할수록 사용자에게 다양한 관점을 제공할 수 있는 효과가 있다.
도 11은 본 발명의 몇몇 실시예에 따른 클러스터의 클러스터별 중요도를 Y축으로 하고 사용자별 관심도를 X축으로 하는 클러스터 우선순위 좌표평면상(110)에 클러스터를 도시하여 제공하는 그래픽 사용자 인터페이스(Graphic User Interface)의 예시도이다.
도 11은 클러스터의 중요도와 관심도를 기준으로 한 클러스터 우선순위 좌표평면상(110)에서 각 클러스터를 도시하고 이를 사용자에게 제공하는 화면에 대한 예시로서 단순히 클러스터를 우선순위에 따라 정렬하여 목록으로 제공하는 기본적인 화면에 비해 클러스터의 분포를 직관적으로 파악할 수 있다는 장점이 있다. 클러스터 우선순위 좌표평면상(110)에서 각 클러스터는 각 클러스터에 속한 문서의 수에 비례하여 영역의 크기를 정하여 도시할 수 있다. 즉 클러스터에 속한 문서가 많을수록 보다 더 큰 영역을 차지하도록 도시한다면 직관성을 더 높일 수 있을 것이다.
또한, 클러스터 우선순위 좌표평면상(110)에 모든 클러스터를 한번에 다 도시할 수는 없으므로 일정 크기 이상의 클러스터만 도시하는 방법으로 좌표평면을 구성하되, 특정 영역을 확대하면 보다 해당 특정 영역에 위치한 작은 크기의 클러스터도 보일 수 있도록 클러스터 우선순위 좌표평면(110)을 구성할 수 있다. 즉 클러스터 우선순위 좌표평면은 줌-인(zoom-in), 줌-아웃(zoom-out) 기능을 가진 클러스터의 분포 맵이라 할 수 있다. 이에 클러스터 우선순위 좌표평면(110)은 줌-인, 줌-아웃 기능을 수행하기 위한 확대/축소 바(115)를 포함할 수 있다. 확대/축소 바를 이용하여 특정 영역을 확대하면 해당 영역에 속한 클러스터를 보다 더 자세하게 확인할 수 있다.
도 12 내지 도 13은 본 발명의 몇몇 실시예에 따른 클러스터의 우선순위와 클러스터에 속한 각 문서의 우선순위를 이용하여, 클러스터와 클러스터에 속한 각 문서를 사용자에게 제공하는 그래픽 사용자 인터페이스(Graphic User Interface)의 예시도이다.
도 12 내지 도 13은 일반적인 목록형태의 클러스터 제공화면, 클러스터에 속한 문서의 제공화면이다. 클러스터를 목록으로 제공하는 화면에서는 앞서 구한 클러스터의 우선순위를 이용하여 클러스터를 정렬하여 제공하고, 각 클러스터의 주제어를 표시하며, 각 클러스터에 속한 최우선순위 문서의 요약정보를 함께 제공할 수 있다. 여기서 최우선순위 문서의 요약정보를 추출하는 것은 텍스트 마이닝 방법을 이용하여 수행할 수 있다. 또한, 사용자 편의성을 강화하기 위하여 각 클러스터에 속한 문서의 종류와 개수 및 열람/미열람 문서의 정보도 함께 제공할 수 있다.
도 12의 예에 따르면, 가장 우선순위가 높은 클러스터는 "중국 EHR 시장 조사"라는 주제의 클러스터로서 그 아래에 "IDC 보고서에 따르면, 중국 시장 규모는 2018년 $1.6B, 연평균 성장률 15.6%에 달할 것으로 예상되며, 400여개 로컬사가 시장을 주도하고 있는 것으로..."와 같은 최우선순위 문서의 요약 정보도 함께 제공하고 있다. 또한, 해당 클러스터는 총 3개의 메일 문서와, 6개의 BBS(Bulletin Board System; 인터넷 게시판) 문서, 13개의 SNS (Social Network Service) 문서를 가지고 있다. 이 중에서 1개의 미확인 메일 문서와, 2개의 미확인 SNS 문서에 대한 정보도 확인할 수 있다.
사용자가 클러스터 목록에서 특정 클러스터를 선택하여 열람하는 경우, 선택된 클러스터에 속한 각 문서의 정보를 문서의 우선순위에 따라 정렬하여 제공할 수 있다. 여기서 각각의 문서를 다시 선택하면 해당 문서의 열람 화면으로 이동하여 문서의 상세 내용을 제공한다.
도 13의 예에서는, 사용자는 우선순위 1번의 "중국 EHR 시장 조사"라는 주제의 클러스터를 선택하였고, 해당 클러스터에 속한 각 문서들에 대한 정보를 사용자에게 제공하여, 보다 편리하게 문서를 열람하고 확인할 수 있도록 하고 있다. 특히, 각 문서의 우선순위를 별모양으로 시각화하여 제공하면 사용자 편의성을 더욱 강화할 수 있다.
도 14는 본 발명의 몇몇 실실예에 따른 사용자 패턴을 반영한 문서 제공 장치의 하드웨어 구성도이다.
도 14를 참조하면, 사용자 패턴을 반영한 문서 제공 장치(10)는 하나 이상의 프로세서(510), 메모리(520), 스토리지(560) 및 인터페이스(570)을 포함할 수 있다. 프로세서(510), 메모리(520), 스토리지(560) 및 인터페이스(570)는 시스템 버스(550)를 통하여 데이터를 송수신한다.
프로세서(510)는 메모리(520)에 로드 된 컴퓨터 프로그램을 실행하고, 메모리(520)는 상기 컴퓨터 프로그램을 스토리지(560)에서 로드(load) 한다. 상기 컴퓨터 프로그램은, 클러스터 구성 오퍼레이션(521), 중요도 연산 오퍼레이션(523), 관심도 연산 오퍼레이션(525) 및 문서 제공 오퍼레이션(529)를 포함할 수 있다.
클러스터 구성 오퍼레이션(521)은 스토리지(560)에 저장된 문서 데이터(569)을 시스템 버스(550)을 통해 메모리(520)로 로드할 수 있다. 그리고, 상기 복수의 문서를 문서의 메타정보, 문서의 내용정보, 문서의 우선순위정보를 기준으로 클러스터링 하여 클러스터를 구성할 수 있다.
중요도 연산 오퍼레이션(523)은 상기 클러스터의 정보를 분석하여 클러스터의 클러스터별 중요도를 연산할 수 있다. 또한 상기 클러스터에 속한 문서의 정보를 분석하여 클러스터에 속한 문서의 문서별 중요도를 연산할 수 있다. 또한, 메모리(520)에서 구성된 클러스터의 클러스터별 중요도 데이터 및 문서의 문서별 중요도 데이터는 시스템 버스(550)을 통해 스토리지(560)의 중요도 데이터(561)로 저장된다.
관심도 연산 오퍼레이션(525)은 상기 클러스터에 대한 사용자 이용 패턴을 분석하여 클러스터의 사용자별 관심도를 연산할 수 있다. 또한 상기 클러스터에 속한 문서에 대한 사용자 이용 패턴을 분석하여 클러스터에 속한 문서의 사용자별 관심도를 연산할 수 있다. 또한, 메모리(520)에서 구성된 클러스터의 사용자별 관심도 데이터 및 문서의 사용자별 관심도 데이터는 시스템 버스(550)을 통해 스토리지(560)의 관심도 데이터(565)로 저장된다.
사용자 패턴을 반영한 문서 제공 장치 (10)는, 네트워크 인터페이스(570)을 통해 스토리지(560)에 저장된 문서 데이터(569)와 중요도 데이터(561), 관심도 데이터(565)를 열람하고 확인하기 위한 인터페이스를 제공한다.
도 14의 각 구성 요소는 소프트웨어(Software) 또는, FPGA(Field Programmable Gate Array)나 ASIC(Application-Specific Integrated Circuit)과 같은 하드웨어(Hardware)를 의미할 수 있다. 그렇지만, 상기 구성 요소들은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 어드레싱(Addressing)할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 상기 구성 요소들 안에서 제공되는 기능은 더 세분화된 구성 요소에 의하여 구현될 수 있으며, 복수의 구성 요소들을 합하여 특정한 기능을 수행하는 하나의 구성 요소로 구현될 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (16)

  1. 복수의 문서를 클러스터링 하여 클러스터를 구성하는 단계;
    상기 클러스터의 정보를 분석하여 상기 클러스터의 클러스터별 중요도를 연산하는 단계;
    상기 클러스터의 사용자 이용 패턴을 분석하여 상기 클러스터의 사용자별 관심도를 연산하는 단계;
    상기 클러스터에 속한 문서의 정보를 분석하여 상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 단계;
    상기 클러스터에 속한 문서의 사용자 이용 패턴을 분석하여 상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 단계; 및
    상기 클러스터의 클러스터별 중요도와 사용자별 관심도 및 상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서를 제공하는 단계를 포함하되,
    상기 문서를 제공하는 단계는,
    상기 클러스터의 클러스터별 중요도를 한 축으로 하고, 사용자별 관심도를 다른 한 축으로 하는 우선순위 좌표평면 상에 상기 클러스터를 도시하여 제공하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  2. 제1항에 있어서,
    상기 클러스터를 구성하는 단계는,
    상기 문서의 작성자, 작성일시, 열람 여부 중 하나 이상을 기준으로 클러스터를 구성하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  3. 제1항에 있어서,
    상기 클러스터를 구성하는 단계는,
    상기 문서의 텍스트를 분석하여 문서 간의 유사도를 연산하는 단계; 및
    상기 문서 간의 유사도를 기준으로 클러스터를 구성하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  4. 제1항에 있어서,
    상기 클러스터를 구성하는 단계는,
    상기 클러스터의 구성 기준을 이용하여 상기 클러스터의 주제어를 도출하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  5. 제1항에 있어서,
    상기 클러스터의 클러스터별 중요도를 연산하는 단계는,
    상기 클러스터의 구성일시, 상기 클러스터에 속한 문서의 개수와 크기 중 하나 이상을 기준으로 상기 클러스터의 클러스터별 중요도를 연산하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  6. 제1항에 있어서,
    상기 클러스터의 사용자별 관심도를 연산하는 단계는,
    사용자가 상기 클러스터를 열람한 열람일시, 누적 횟수, 누적 시간 중 하나 이상을 기준으로 상기 클러스터의 사용자별 관심도를 연산하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  7. 제1항에 있어서,
    상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 단계는,
    상기 클러스터에 속한 문서의 작성자, 작성일시, 종류와 크기 중 하나 이상을 기준으로 상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  8. 제1항에 있어서,
    상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 단계는,
    상기 클러스터에 속한 문서의 텍스트에 포함된 키워드의 빈도를 기준으로 상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  9. 제1항에 있어서,
    상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 단계는,
    사용자가 상기 클러스터에 속한 문서를 열람한 열람일시, 누적 횟수, 누적 시간 중 하나 이상을 기준으로 상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  10. 제1항에 있어서,
    상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 단계는,
    사용자가 상기 클러스터에 속한 문서를 열람하였는지 여부를 기준으로 상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  11. 제1항에 있어서,
    상기 문서를 제공하는 단계는,
    상기 클러스터의 클러스터별 중요도와 사용자별 관심도를 이용하여 상기 클러스터의 우선순위를 연산하는 단계; 및
    상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 상기 클러스터에 속한 문서의 우선순위를 연산하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  12. 제11항에 있어서,
    상기 문서를 제공하는 단계는,
    상기 클러스터의 우선순위를 이용하여 상기 클러스터를 정렬하여 제공하는 단계; 및
    상기 클러스터에 속한 문서의 우선순위를 이용하여 상기 클러스터에 속한 문서를 정렬하여 제공하는 단계를 더 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  13. 제11항에 있어서,
    상기 문서를 제공하는 단계는,
    상기 클러스터에 속한 문서 중에서 우선순위가 가장 높은 문서의 요약 정보를 상기 클러스터와 함께 제공하는 단계를 더 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  14. 복수의 문서에 대하여, 각 문서의 정보를 분석하여 문서의 문서별 중요도를 연산하는 단계;
    상기 문서의 사용자 이용 패턴을 분석하여 문서의 사용자별 관심도를 연산하는 단계;
    상기 문서의 중요도와 사용자별 관심도를 이용하여 상기 문서를 클러스터링하고, 그 결과로 클러스터를 구성하는 단계;
    상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 상기 클러스터의 클러스터별 중요도와 사용자별 관심도를 연산하는 단계; 및
    상기 클러스터의 클러스터별 중요도와 사용자별 관심도 및 상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서를 제공하는 단계를 포함하되,
    상기 문서를 제공하는 단계는,
    상기 클러스터의 클러스터별 중요도를 한 축으로 하고, 사용자별 관심도를 다른 한 축으로 하는 우선순위 좌표평면 상에 상기 클러스터를 도시하여 제공하는 단계를 포함하는,
    사용자 패턴을 반영한 문서 제공 방법.
  15. 삭제
  16. 네트워크 인터페이스;
    하나 이상의 프로세서;
    상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드하는 메모리; 및
    복수의 문서를 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은,
    복수의 문서를 클러스터링 하여 클러스터를 구성하는 오퍼레이션;
    상기 클러스터의 정보를 분석하여 상기 클러스터의 클러스터별 중요도를 연산하는 오퍼레이션;
    상기 클러스터의 사용자 이용 패턴을 분석하여 상기 클러스터의 사용자별 관심도를 연산하는 오퍼레이션;
    상기 클러스터에 속한 문서의 정보를 분석하여 상기 클러스터에 속한 문서의 문서별 중요도를 연산하는 오퍼레이션;
    상기 클러스터에 속한 문서의 사용자 이용 패턴을 분석하여 상기 클러스터에 속한 문서의 사용자별 관심도를 연산하는 오퍼레이션; 및
    상기 클러스터의 클러스터별 중요도와 사용자별 관심도 및 상기 클러스터에 속한 문서의 문서별 중요도와 사용자별 관심도를 이용하여 문서를 제공하는 오퍼레이션을 포함하되,
    상기 문서를 제공하는 오퍼레이션은
    상기 클러스터의 클러스터별 중요도를 한 축으로 하고, 사용자별 관심도를 다른 한 축으로 하는 우선순위 좌표평면 상에 상기 클러스터를 도시하여 제공하는 오퍼레이션을 포함하는,
    사용자 패턴을 반영한 문서 제공 장치.
KR1020150105098A 2015-07-24 2015-07-24 사용자 패턴을 반영한 문서 제공 방법 및 그 장치 KR101688829B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020150105098A KR101688829B1 (ko) 2015-07-24 2015-07-24 사용자 패턴을 반영한 문서 제공 방법 및 그 장치
US15/067,946 US20170024456A1 (en) 2015-07-24 2016-03-11 Method and apparatus for providing documents reflecting user pattern
CN201610302372.9A CN106372098A (zh) 2015-07-24 2016-05-09 反映用户模式的文件提供方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150105098A KR101688829B1 (ko) 2015-07-24 2015-07-24 사용자 패턴을 반영한 문서 제공 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR101688829B1 true KR101688829B1 (ko) 2016-12-22

Family

ID=57723511

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150105098A KR101688829B1 (ko) 2015-07-24 2015-07-24 사용자 패턴을 반영한 문서 제공 방법 및 그 장치

Country Status (3)

Country Link
US (1) US20170024456A1 (ko)
KR (1) KR101688829B1 (ko)
CN (1) CN106372098A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102486787B1 (ko) * 2022-06-13 2023-01-09 김재영 임금명세서 포맷 설정 기능 및 안내 기능을 구비한 임금명세서 관리 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762439B2 (en) * 2016-07-26 2020-09-01 International Business Machines Corporation Event clustering and classification with document embedding
JP6885211B2 (ja) * 2017-06-19 2021-06-09 富士通株式会社 情報分析装置、情報分析方法および情報分析プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170583A (ja) * 2010-02-18 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法、情報検索プログラム
KR20130119031A (ko) * 2012-04-23 2013-10-31 (주)이스트소프트 축약된 이슈문장 추출 시스템 및 방법
KR20140012621A (ko) * 2010-12-06 2014-02-03 마이크로소프트 코포레이션 전자 통신 분류
KR20140046556A (ko) 2012-10-05 2014-04-21 에스케이플래닛 주식회사 문서 분류 시스템 및 그 방법, 그리고 이에 적용되는 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385619B1 (en) * 1999-01-08 2002-05-07 International Business Machines Corporation Automatic user interest profile generation from structured document access information
KR20040062843A (ko) * 2003-01-03 2004-07-09 삼성전자주식회사 중요도에 따른 전자메일 출력방법 및 장치
JP4828091B2 (ja) * 2003-03-05 2011-11-30 ヒューレット・パッカード・カンパニー クラスタリング方法プログラム及び装置
US8346770B2 (en) * 2003-09-22 2013-01-01 Google Inc. Systems and methods for clustering search results
US8046363B2 (en) * 2006-04-13 2011-10-25 Lg Electronics Inc. System and method for clustering documents
WO2008126184A1 (ja) * 2007-03-16 2008-10-23 Fujitsu Limited 文書重要度算出プログラム
US8346776B2 (en) * 2010-05-17 2013-01-01 International Business Machines Corporation Generating a taxonomy for documents from tag data
US9607077B2 (en) * 2011-11-01 2017-03-28 Yahoo! Inc. Method or system for recommending personalized content
CN104391843A (zh) * 2013-08-19 2015-03-04 捷达世软件(深圳)有限公司 文件推荐系统及方法
US9754210B2 (en) * 2014-04-01 2017-09-05 Microsoft Technology Licensing, Llc User interests facilitated by a knowledge base

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170583A (ja) * 2010-02-18 2011-09-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法、情報検索プログラム
KR20140012621A (ko) * 2010-12-06 2014-02-03 마이크로소프트 코포레이션 전자 통신 분류
KR20130119031A (ko) * 2012-04-23 2013-10-31 (주)이스트소프트 축약된 이슈문장 추출 시스템 및 방법
KR20140046556A (ko) 2012-10-05 2014-04-21 에스케이플래닛 주식회사 문서 분류 시스템 및 그 방법, 그리고 이에 적용되는 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102486787B1 (ko) * 2022-06-13 2023-01-09 김재영 임금명세서 포맷 설정 기능 및 안내 기능을 구비한 임금명세서 관리 시스템

Also Published As

Publication number Publication date
CN106372098A (zh) 2017-02-01
US20170024456A1 (en) 2017-01-26

Similar Documents

Publication Publication Date Title
US11893213B2 (en) Digital processing systems and methods for embedded live application in-line in a word processing document in collaborative work systems
US9886664B2 (en) System and method of message thread management
US8701027B2 (en) Scope user interface for displaying the priorities and properties of multiple informational items
US9792015B2 (en) Providing visualizations for conversations
US8140534B2 (en) System and method for sorting attachments in an integrated information management application
US8341534B2 (en) System and method for flexibly taking actions in response to detected activities
WO2021161104A1 (en) Enhanced display features in collaborative network systems, methods, and devices
US8041125B2 (en) Data visualization device and method
Neustaedter et al. The Social Network and Relationship Finder: Social Sorting for Email Triage.
EP1338967A2 (en) Computer system architecture for automatic context associations
US20110055264A1 (en) Data mining organization communications
US20060168040A1 (en) Automated email activity management
KR101688829B1 (ko) 사용자 패턴을 반영한 문서 제공 방법 및 그 장치
US20220261729A1 (en) Minimizing unmet demands due to short supply
US20150120353A1 (en) User interface elements and computer method for a team leader homepage
US20090216792A1 (en) Embedded work process item management
US12050624B2 (en) Entity interaction trends
Hong et al. FeedWinnower: layering structures over collections of information streams
US20200320455A1 (en) Queue management with dynamic prioritization
US9607287B2 (en) Integrated view of multi-sourced information objects
Collard et al. How is information literacy related to social competences in the workplace?
US9058589B2 (en) Subjective user interface
Bellotti et al. Managing activities with TVACTA: TaskVista and activity-centered task assistant
Linden Proposals for the integration of interactive dashboards in business process monitoring to support resources allocation decisions
US20120016890A1 (en) Assigning visual characteristics to records

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant