KR101544141B1 - System for grouping articles based on subject thereof - Google Patents
System for grouping articles based on subject thereof Download PDFInfo
- Publication number
- KR101544141B1 KR101544141B1 KR1020130119444A KR20130119444A KR101544141B1 KR 101544141 B1 KR101544141 B1 KR 101544141B1 KR 1020130119444 A KR1020130119444 A KR 1020130119444A KR 20130119444 A KR20130119444 A KR 20130119444A KR 101544141 B1 KR101544141 B1 KR 101544141B1
- Authority
- KR
- South Korea
- Prior art keywords
- article
- group
- unit
- articles
- similarity
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
기사 그룹화 시스템이 개시된다. 본 발명의 예시적 실시예에 따른 기사 그룹화 시스템은 데이터 베이스에 저장된 복수개의 기사들의 기사 주제들을 추출하는 주제 추출부, 상기 기사 주제들에 기초하여 상기 복수개의 기사들을 그룹화하여 제1 그룹을 생성하는 그룹 생성부 및 상기 제1 그룹을 사용자에게 제공하는 그룹 제공부를 포함할 수 있다.An article grouping system is disclosed. An article grouping system according to an exemplary embodiment of the present invention includes a subject extracting unit for extracting article topics of a plurality of articles stored in a database, a grouping unit for grouping the plurality of articles based on the article topics, And a group providing unit for providing the first group to a user.
Description
본 발명의 기술적 사상은 기사 그룹화 시스템에 관한 것으로서, 자세하게는 기사로부터 도출된 주제를 이용하여 복수개의 기사들을 그룹화하여 사용자에게 제공하는 주제 기반 기사 그룹화 시스템에 관한 것이다.The technical idea of the present invention relates to an article grouping system, and more particularly, to a topic-based article grouping system for grouping a plurality of articles using a topic derived from an article and providing the same to a user.
본 발명은 지식경제부 산업원천기술개발사업의 일환으로 숭실대학교 산학협력단에서 주관하고 (주)솔트룩스에서 공동연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2013.03.01~2014.02.28, 연구과제명: 모바일 플랫폼 기반 계획 및 학습 인지 모델 프레임워크 기술 개발, 과제번호: 10035348]The present invention is derived from the research conducted by Soongsil university industry-academy cooperation team as a part of the Ministry of Knowledge Economy's industrial technology development project and joint research conducted by Saltlux Co., Ltd. [Research period: 2013.03.01 ~ 2014.02.28, Research title: Development of mobile platform based planning and learning cognitive model framework technology, task number: 10035348]
인터넷의 발달로 인하여, 예컨대 온라인 커뮤니티, 영화, 음악, 사진, 문서 등을 포함하는 다양한 컨텐츠들이 인터넷을 통해서 제공되고 있다. 컨텐츠의 일종으로서 종래 텔레비전, 라디오, 잡지 또는 신문등을 통해서 제공되던 기사 또한 인터넷을 통해서 제공되고 있으며, 인터넷의 접근성 및 신속성으로 인하여 많은 인터넷 사용자들은 인터넷을 통해서 제공되는 기사를 열람하고 있다.Due to the development of the Internet, various contents including an online community, movies, music, photographs, documents, and the like are being provided through the Internet. As a kind of contents, articles that have been provided through conventional television, radio, magazine or newspaper are also provided through the Internet. Due to the accessibility and speed of the Internet, many Internet users are browsing articles provided through the Internet.
한편, 기존 언론 매체들이 인터넷을 통해서 기사를 공급할 뿐만 아니라 인터넷을 기반으로 하는 언론 매체들이 등장하고 있으며, 인터넷을 통해서 기사를 제공하는 언론 매체의 수는 증가하는 추세에 있다. 인터넷을 통해 기사를 제공하는 언론 매체의 수가 증가함에 따라 짧은 시간에 생성된 방대한 양의 기사들이 인터넷 사용자에게 제공되고 있다. 이에 따라, 많은 수의 기사들 중 인터넷 사용자가 원하는 기사를 쉽게 열람할 수는 수단이 필요하다. On the other hand, existing media are not only providing articles through the Internet, but also media-based media are emerging, and the number of media providing articles through the Internet is increasing. As the number of media that provide articles through the Internet grows, the vast amount of articles produced in a short time are being offered to Internet users. Accordingly, a means for easily browsing the articles desired by the Internet users among a large number of articles is needed.
본 발명의 기술적 사상은 기사 그룹화 시스템에 관한 것으로서, 인터넷을 통해서 제공되는 기사들의 주제를 추출하고, 추출된 주제에 따라 기사들을 그룹화하여 사용자에게 제공하는 주제 기반 기사 그룹화 시스템에 관한 것이다.The technical idea of the present invention relates to an article grouping system, and more particularly, to a topic-based article grouping system for extracting a topic of articles provided through the Internet, grouping articles according to extracted topics, and providing the article to a user.
상기와 같은 목적을 달성하기 위하여, 본 발명의 예시적 실시예에 따른 기사 그룹화 시스템은 데이터 베이스에 저장된 복수개의 기사들의 기사 주제들을 추출하는 주제 추출부, 상기 기사 주제들에 기초하여 상기 복수개의 기사들을 그룹화하여 제1 그룹을 생성하는 그룹 생성부 및 상기 제1 그룹을 네트워크를 통하여 사용자에게 제공하는 그룹 제공부를 포함할 수 있다.In order to achieve the above object, an article grouping system according to an exemplary embodiment of the present invention includes a subject extracting unit for extracting article topics of a plurality of articles stored in a database, And a group providing unit for providing the first group to a user through a network.
본 발명의 예시적 실시예에 따라, 상기 기사 주제들 각각은 적어도 하나의 단어를 포함할 수 있고, 상기 주제 추출부는 상기 복수개의 기사들 각각으로부터 적어도 하나의 주요 단어를 추출하는 단어 추출부 및 상기 주요 단어에 기초하여 상기 복수개의 기사들 각각의 기사 주제를 생성하는 주제 생성부를 포함할 수 있다.According to an exemplary embodiment of the present invention, each of the article topics may include at least one word, and the subject extracting unit may include a word extracting unit for extracting at least one main word from each of the plurality of articles, And a topic generating unit for generating an article topic of each of the plurality of articles based on the main word.
본 발명의 예시적 실시예에 따라, 상기 단어 추출부는 상기 복수개의 기사들 각각에 포함된 단어의 빈도에 기초하여 상기 주요 단어를 추출할 수 있다.According to an exemplary embodiment of the present invention, the word extracting unit may extract the main word based on the frequency of words included in each of the plurality of articles.
본 발명의 예시적 실시예에 따라, 상기 그룹 생성부는 기사 상기 주제들 사이의 제1 유사도를 연산하는 제1 유사도 연산부, 상기 제1 유사도에 기초하여 중복된 기사를 제거하고 상기 제1 그룹을 생성하는 중복 기사 처리부 및 상기 제1 유사도에 기초하여 상기 제1 그룹의 그룹 주제를 생성하는 그룹 주제 생성부를 포함할 수 있다.According to an exemplary embodiment of the present invention, the group generating section includes a first similarity degree calculating section for calculating a first degree of similarity between the articles, a second similarity degree calculating section for removing redundant articles based on the first degree of similarity, And a group subject generating unit for generating the group subject of the first group based on the first similarity.
본 발명의 예시적 실시예에 따라, 상기 중복 기사 처리부는 상기 제1 그룹의 그룹 주제와 상기 데이터 베이스에 저장된 제1 기사의 기사 주제 사이의 유사도에 기초하여 상기 제1 기사를 상기 제1 그룹에 선택적으로 포함시킬 수 있다.According to an exemplary embodiment of the present invention, the redundant-article processing unit is configured to assign the first article to the first group based on the similarity between the group topic of the first group and the article subject of the first article stored in the database And can be optionally included.
본 발명의 예시적 실시예에 따라, 상기 중복 기사 처리부는 상기 제1 유사도 및 상기 제1 그룹에 포함되는 기사들의 개수에 기초하여 상기 제1 그룹을 2개 이상의 그룹들로 분할할 수 있다.According to an exemplary embodiment of the present invention, the redundant article processing unit may divide the first group into two or more groups based on the first degree of similarity and the number of articles included in the first group.
본 발명의 예시적 실시예에 따라, 상기 기사 그룹화 시스템은 상기 제1 그룹에 포함되는 기사들의 기사 주제들 및 상기 제1 그룹의 그룹 주제에 기초하여 상기 제1 그룹에 포함된 적어도 하나의 대표 기사를 식별하는 대표 기사 식별부를 더 포함할 수 있다.According to an exemplary embodiment of the present invention, the article grouping system is configured to include article stories of articles included in the first group and at least one representative article included in the first group based on the first group of group topics And a representative article identification unit for identifying the representative article.
본 발명의 예시적 실시예에 따라, 상기 대표 기사 식별부는 상기 제1 그룹에 포함되는 기사들의 기사 주제들 및 상기 제1 그룹의 그룹 주제 사이의 제2 유사도를 연산하는 제2 유사도 연산부 및 상기 제2 유사도에 기초하여 상기 제1 그룹에 포함되는 기사들의 순위를 결정하는 기사 랭킹부를 포함할 수 있다.According to an exemplary embodiment of the present invention, the representative article identifying unit includes a second similarity calculating unit for calculating a second similarity degree between the article subjects of the articles included in the first group and the group topic of the first group, 2 < / RTI > degree of similarity of the articles included in the first group.
본 발명의 예시적 실시예에 따라, 상기 그룹 제공부는 상기 제1 그룹을 포함하는 복수개의 그룹들을 상기 사용자에게 제공하는 주제별 그룹 제공부 및 상기 제1 그룹에 포함된 대표 기사를 상기 사용자에게 제공하는 대표 기사 제공부를 포함할 수 있다.According to an exemplary embodiment of the present invention, the group providing unit may include a topic grouping providing unit for providing a plurality of groups including the first group to the user, and a providing unit for providing a representative article included in the first group to the user And a representative article providing unit.
본 발명의 예시적 실시예에 따라, 상기 대표 기사 제공부는 상기 제1 그룹에 포함된 기사들에 대한 상기 사용자의 조회수들을 측정하는 기사 조회수 측정부를 더 포함할 수 있고, 상기 기사 랭킹부는 상기 조회수들에 더 기초하여 상기 순위를 결정할 수 있다.According to an exemplary embodiment of the present invention, the representative article providing unit may further include an article hits measurement unit that measures the hits of the user with respect to the articles included in the first group, To determine the ranking.
상기 기사 그룹화 시스템에 따르면, 사용자는 방대한 양의 기사들로부터 자신이 원하는 기사를 용이하게 열람할 수 있다. 또한, 사용자는 주요 사건들을 한눈에 확인할 수 있고, 동일한 주제와 관련된 복수개의 기사들을 용이하게 열람할 수 있다.According to the article grouping system, a user can easily browse articles he wants from a vast amount of articles. In addition, the user can confirm important events at a glance, and can easily browse a plurality of articles related to the same topic.
도 1은 본 발명의 예시적 실시예에 따른 기사 그룹화 시스템의 일 예를 나타내는 도면이다.
도 2는 본 발명의 예시적 실시예에 따른 기사 그룹화 시스템의 구성을 나타내는 도면이다.
도 3은 본 발명의 예시적 실시예에 따라 도 1의 주제 추출부의 구현예를 나타내는 도면이다.
도 4는 본 발명의 예시적 실시예에 따른 도 3의 단어 추출부의 동작을 나타내는 도면이다.
도 5는 본 발명의 예시적 실시예에 따라 도 1의 그룹 생성부의 구현예를 나타내는 도면이다.
도 6a 및 6b는 본 발명의 예시적 실시예들에 따라 도 1의 그룹 생성부가 기사들을 그룹화하는 동작들을 나타내는 도면이다.
도 7은 본 발명의 예시적 실시예에 따라 도 1의 대표 기사 식별부의 구현예를 나타내는 도면이다.
도 8은 본 발명의 예시적 실시예에 따라 도 1의 그룹 제공부의 구현예를 나타내는 도면이다.
도 9는 본 발명의 예시적 실시예에 따라 도 1의 그룹 제공부가 사용자에게 제공하는 그룹들을 나타내는 도면이다.
도 10은 본 발명의 예시적 실시예에 따라 도 1의 그룹 제공부가 사용자에게 제공하는 기사들을 나타내는 도면이다.1 is a diagram illustrating an example of an article grouping system according to an exemplary embodiment of the present invention.
2 is a diagram showing the configuration of an article grouping system according to an exemplary embodiment of the present invention.
3 is a diagram showing an embodiment of the subject extracting unit of FIG. 1 according to an exemplary embodiment of the present invention.
4 is a diagram showing the operation of the word extracting unit of FIG. 3 according to an exemplary embodiment of the present invention.
5 is a diagram showing an embodiment of the group generating unit of FIG. 1 according to an exemplary embodiment of the present invention.
Figures 6A and 6B are diagrams illustrating operations for grouping articles in Figure 1 in accordance with exemplary embodiments of the present invention.
Figure 7 is a diagram illustrating an embodiment of the representative article identifier of Figure 1 in accordance with an exemplary embodiment of the present invention.
Figure 8 is a diagram illustrating an implementation of the group providing unit of Figure 1 in accordance with an exemplary embodiment of the present invention.
9 is a diagram illustrating groups that the group providing unit of FIG. 1 provides to a user in accordance with an exemplary embodiment of the present invention.
FIG. 10 is a diagram showing articles provided by the group providing section of FIG. 1 to a user according to an exemplary embodiment of the present invention.
이하에서는 본 발명의 바람직한 실시예가, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 철저한 이해를 제공할 의도 외에는 다른 의도 없이, 첨부한 도면들을 참조로 하여 상세히 설명될 것이다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings without intending to intend to provide a thorough understanding of the present invention to a person having ordinary skill in the art to which the present invention belongs.
도 1은 본 발명의 예시적 실시예에 따른 기사 그룹화 시스템의 일 예를 나타내는 도면이다. 도 1에 도시된 바와 같이, 기사 그룹화 시스템(10), 복수개의 데이터 베이스들(22, 24) 및 사용자(30)는 네트워크(40)를 통해서 서로 데이터를 주고 받을 수 있다. 사용자(30)는 네트워크(40)를 통해서 기사 그룹화 시스템(10)에 접속할 수 있다. 예컨대, 사용자(30)는 기사 그룹화 시스템(10)이 제공하는 기사들의 그룹을 제공받을 수 있다. 기사 그룹화 시스템(10)은 네트워크(40)를 통해서 데이터 베이스들(22, 24)에 접속할 수 있다.1 is a diagram illustrating an example of an article grouping system according to an exemplary embodiment of the present invention. As shown in FIG. 1, the
데이터 베이스들(22, 24)은 복수개의 기사들을 저장할 수 있다. 예컨대, 제1 데이터 베이스(22)는 제1 언론 매체가 작성한 복수개의 기사들을 저장할 수 있고, 제2 데이터 베이스(24)는 제1 언론 매체와 다른 제2 언론 매체가 작성한 복수개의 기사들을 저장할 수 있다. 제1 및 제2 언론 매체가 새롭게 작성한 기사들은 제1 및 제2 데이터 베이스(22, 24) 각각에 업데이트될 수 있다. 한편, 사용자(30)는 네트워크(40)를 통해서 기사를 열람할 수 있고, 네트워크(40)에 접속할 수 있는 단말기, 예컨대 퍼스널 컴퓨터, 휴대용 통신 기기 등을 이용할 수 있다.The
도 1에 도시된 바와 같이, 기사 그룹화 시스템(10)은 주제 추출부(100), 그룹 생성부(200), 그룹 제공부(300) 및 대표 기사 식별부(400)를 포함할 수 있다. 본 발명의 예시적 실시예에 따라, 주제 추출부(100)는 네트워크(40)를 통해서 데이터 베이스들(22, 24)에 저장된 기사들을 엑세스할 수 있고, 기사들의 기사 주제를 추출할 수 있다. 그룹 생성부(200)는 주제 추출부(100)가 추출한 기사 주제에 기초하여 기사들을 그룹화하여 제1 그룹을 생성할 수 있다. 그룹 제공부(300)는 그룹 생성부가 생성시킨 제1 그룹 및 제1 그룹에 포함되는 기사를 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다. 대표 기사 식별부(400)는 그룹 생성부(200)가 생성시킨 제1 그룹에 포함된 기사들 가운데 적어도 하나의 대표 기사를 식별할 수 있고, 식별된 대표 기사 또는 대표 기사에 대한 정보를 그룹 제공부(300)에 전달할 수 있다. 그룹 제공부(300)는 제1 그룹과 함께 제1 그룹의 대표 기사를 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다.1, the
도 2는 본 발명의 예시적 실시예에 따른 기사 그룹화 시스템의 구성을 나타내는 도면이다. 도 2에 도시된 바와 같이, 기사 그룹화 시스템(10)은 주제 추출부(100), 그룹 생성부(200), 그룹 제공부(300) 및 대표 기사 식별부(400)가 접근할 수 있는 내부 데이터 베이스(500)를 포함할 수 있다. 도 1을 함께 참조하면, 내부 데이터 베이스(500)는 언론 매체들이 기사를 저장하는 데이터 베이스들(22, 24)에 저장된 기사들 중 일부, 주제 추출부(100)가 추출한 기사들의 주제, 그룹 생성부(200)가 저장한 복수개의 그룹들 또는 그룹들에 대한 정보를 저장할 수 있다. 예컨대, 그룹 생성부(200)는 이미 생성된 제1 그룹을 내부 데이터 베이스(500)에 저장할 수 있고, 내부 데이터 베이스(500)에 저장된 제1 그룹에 기초하여 외부의 데이터 베이스들(22, 24)에 저장된 기사들이 제1 그룹에 포함되는지 여부를 판단할 수 있다.2 is a diagram showing the configuration of an article grouping system according to an exemplary embodiment of the present invention. 2, the
도 3은 본 발명의 예시적 실시예에 따라 도 1의 주제 추출부(100)의 구현예를 나타내는 도면이다. 도 3에 도시된 바와 같이, 주제 추출부(100)는 단어 추출부(120) 및 주제 생성부(140)를 포함할 수 있다. 도 1을 함께 참조하면, 데이터 베이스들(22, 24)에 저장된 기사로부터 추출되는 기사 주제는 적어도 하나의 단어를 포함할 수 있다. 단어 추출부(120)는 기사에 포함된 단어들 가운데 적어도 하나의 주요 단어를 추출할 수 있다. 예컨대, 단어 추출부(120)는 기사에 포함된 단어의 빈도에 기초하여 주요 단어를 추출하거나, 제목에 포함된 단어를 주요 단어로서 추출할 수 있다. 이를 위하여, 단어 추출부(120)는 문장의 구조를 분석하여 개별적인 단위로 분류할 수 있는 파서(parser)를 포함할 수 있다. 단어 추출부(120)는 파서가 분류한 단위들에 기초하여 단어의 빈도를 카운트할 수 있다. 이때, 문장에 포함된 부수적인 요소들, 예컨대 조사 및 관용어 등은 배제될 수 있다.FIG. 3 is a diagram showing an embodiment of the
주제 생성부(140)는 단어 추출부(120)가 추출한 주요 단어에 기초하여 기사의 기사 주제를 생성할 수 있다. 본 발명의 예시적 실시예에 따라, 주제 생성부(140)는 단어 추출부(120)가 추출한 주요 단어들을 분석하여 미리 정해진 개수의 단어들을 미리 정해진 순서로서 배열하여 기사 주제를 생성할 수 있다. 예컨대, 주제 생성부(140)는 단어 추출부(120)로부터 인물의 실명이 주요 단어로서 추출된 경우, 상기 실명이 기사 주제의 가장 앞에 위치하도록 주요 단어들을 배열할 수 있다. 또한, 주제 생성부(140)는 기사가 포함하는 단어의 빈도에 기초하여 단어 벡터들을 생성할 수 있다. 단어 벡터에 대한 자세한 내용은 후술한다.The
한편, 본 발명의 예시적 실시예에 따라 주제 생성부(140)는 데이터 베이스들(22, 24)에 저장된 기사의 분야에 따라 기사 주제를 분류할 수 있다. 언론 매체들은 데이터 베이스들(22, 24)에 기사들을 저장할 때 기사의 분야, 예컨대 정치, 경제, 사회, 스포츠 또는 연예등을 분류하여 저장할 수 있다. 이에 따라, 주제 생성부(140)는 데이터 베이스들(22, 24)에 저장된 기사의 분야를 나타내는 단어를 기사 주제에 포함시킬 수 있다. 기사 주제에 포함된 기사의 분야를 나타내는 단어는 서로 다른 분야의 기사들이 동일한 그룹으로 그룹화되는 것을 방지할 수 있다.Meanwhile, according to an exemplary embodiment of the present invention, the
도 4는 본 발명의 예시적 실시예에 따른 도 3의 단어 추출부(120)의 동작을 나타내는 도면이다. 도 4에 도시된 2개의 표들은 각각 2개 기사를 분석한 데이터를 나타낸다. 도 3에서 설명한 바와 같이, 단어 추출부(120)는 기사에 포함된 단어의 빈도에 기초하여 주요 단어를 추출할 수 있다. 또한, 제목에 포함된 단어를 주요 단어로서 추출할 수 있다. 도 4에 도시된 표에서 좌측 열은 단어를 나타내고, 가운데 열은 기사에 포함된 단어의 수를 나타내며, 우측 열은 기사의 제목에 단어가 포함되었는지 여부를 나타낸다. 도 4는 각각의 기사에서 5개의 단어에 대한 빈도 및 제목에 포함 여부만을 도시하였으나, 본 발명의 예시적 실시예는 이에 제한되지 않는다.FIG. 4 is a diagram showing the operation of the
도 4에 도시된 바와 같이, 제1 기사(A1)에서 “홍길동”은 5회, “PGA”및 “우승”은 각각 3회, “캘리포니아” 및 “골프”는 각각 1회 등장한다. 또한, “홍길동”, “PGA” 및 “우승”은 제1 기사(A1)의 제목에 포함되어 있다. 한편, 제2 기사(A2)에서 “홍길동”은 6회, “PGA”는 4회, “4회”는 2회, “캘리포니아”는 1회 등장하며, “홍길동”, “우승”, “PGA” 및 “4회”는 제2 기사(A2)의 제목에 포함되어 있다.As shown in Fig. 4, "Hong Gil Dong" appears five times in the first article A1, "PGA" and "Championship" appear three times, and "California" and "Golf" appear once each. In addition, "Hong Gil Dong", "PGA" and "championship" are included in the title of the first article (A1). On the other hand, in the second article (A2), "Hong Gil Dong", "PGA", "PGA", "PGA" &Quot; and " 4 times " are included in the title of the second article (A2).
본 발명의 예시적 실시예에 따라, 단어 추출부(120)는 제1 기사(A1) 및 제2 기사(A2)로부터 도 4에 도시된 표들과 같은 데이터를 생성할 수 있고, 생성된 데이터에 기초하여 제1 기사(A1) 및 제2 기사(A2)의 주요 단어를 각각 추출할 수 있다. 예컨대, 단어 추출부(120)는 기사의 제목에 포함된 단어를 주요 단어로 추출하고, 빈도 상위 3개 또는 그 이상의 의 단어를 주요 단어로 추출할 수 있다. 즉, 도 4에 도시된 예시에서, 단어 추출부(120)는 제1 기사(A1)의 주요 단어로서 “홍길동”, “PGA” 및 “우승”은 주요 단어로서 추출할 수 있다. 또한, 단어 추출부(120)는 제2 기사(A2)의 주요 단어로서 “홍길동”, “우승”, “PGA” 및 “4회”를 주요 단어로서 추출할 수 있다. According to an exemplary embodiment of the present invention, the
도 5는 본 발명의 예시적 실시예에 따라 도 1의 그룹 생성부(200)의 구현예를 나타내는 도면이다. 도 5에 도시된 바와 같이, 그룹 생성부(200)는 제1 유사도 연산부(220), 중복 기사 처리부(240) 및 그룹 주제 생성부(260)를 포함할 수 있다. 도 3을 함께 참조하면, 제1 유사도 연산부(220)는 주제 추출부(100)의 주제 생성부(140)가 생성한 복수개의 기사들에 대한 기사 주제들에 기초하여, 기사들 간의 제1 유사도를 연산할 수 있다. 제1 유사도 연산부(220)가 기사들 간의 제1 유사도를 연산하는 것에 대한 자세한 내용은 후술한다.FIG. 5 is a diagram illustrating an embodiment of the
중복 기사 처리부(240)는 제1 유사도 연산부(220)가 연산한 제1 유사도에 기초하여 중복된 기사들을 처리하여 제1 그룹을 생성할 수 있다. 중복 기사 처리부(240)는 제1 유사도에 기초하여 유사한 주제를 구비하는 기사들을 그룹화할 수 있다. 또한, 중복 기사 처리부(240)는 그룹화된 기사들 가운데 중복되는 기사들을 제거함으로써 제1 그룹을 생성할 수 있다.The redundant
사용자(30)는 하나의 사건에 대해서, 동일한 내용을 포함하는 기사들을 열람하기보다 동일한 사건에 대해 서로 다른 내용을 포함하는 기사들을 열람하기를 원할 수 있다. 따라서, 중복 기사 처리부(240)는 제1 유사도 연산부(220)가 연산한 제1 유사도에 기초하여, 중복되는 기사들을 제거할 수 있다. 예컨대, 중복 기사 처리부(240)는 제1 유사도가 미리 정해진 문턱값을 초과하는 경우, 둘 중 하나의 기사만을 제1 그룹에 포함시킬 수 있다.The
또한, 중복 기사 처리부(240)는 제1 그룹에 포함되는 기사의 개수에 기초하여 제1 그룹을 2개 이상의 하위 그룹으로 분할할 수 있다. 예컨대, 제1 유사도 연산부(220)는 제1 그룹에 포함되는 기사의 개수가 미리 정해진 개수를 초과하는 경우, 제1 그룹에 포함된 기사들의 유사도에 기초하여 제1 그룹을 2개 이상의 그룹들로 분할 할 수 있다. 중복 기사 처리부(240)가 생성한 제1 그룹에 포함된 기사들은 서로 동일 또는 유사한 주제를 갖는 기사들로서 사용자(30)에게 제공될 수 있다.In addition, the redundant
그룹 주제 생성부(260)는 중복 기사 처리부(240)가 생성한 제1 그룹의 그룹 주제를 생성할 수 있다. 예컨대, 그룹 주제 생성부(260)는 제1 그룹에 포함된 기사들의 기사 주제들에 기초하여 그룹 주제를 생성할 수 있다. 본 발명의 예시적 실시예에 따라, 그룹 주제 생성부(260)가 생성한 제1 그룹의 그룹 주제는 데이터 베이스들(22, 24)에 저장된 기사들이 제1 그룹에 포함되는지 여부를 판단, 제1 그룹의 대표 기사를 식별 또는 제1 그룹과 다른 제2 그룹과 유사한지 여부를 판단하는데 사용될 수 있다.The group
도 6a 및 6b는 본 발명의 예시적 실시예들에 따라 도 1의 그룹 생성부(200)가 기사들을 그룹화하는 동작들을 나타내는 도면이다. 도 5에서 설명한 바와 같이, 제1 유사도 연산부(220)는 복수개의 기사들 사이의 제1 유사도를 연산할 수 있고, 중복 기사 처리부(240)는 연산된 제1 유사도에 따라 기사들을 그룹화하여 제1 그룹을 생성할 수 있다. 도 6a 및 6b는 6개의 기사들(A1 내지 A6)에 대한 제1 유사도를 연산하는 방법들을 예시적으로 나타내며, 6개의 기사들(A1 내지 A6)로부터 제1 그룹(G1) 및 제2 그룹(G2)을 생성하는 것을 나타낸다.6A and 6B are diagrams illustrating operations for grouping articles by the
도 6a는 본 발명의 예시적 실시예에 따라 제1 유사도 연산부(220) 및 중복기사 처리부(240)가 기사들을 그룹화하는 동작을 나타내는 도면이다. 도 2를 참조하면, 단어 추출부(120)가 생성한 데이터, 예컨대 단어의 빈도 및 제목에 포함여부에 대한 정보는 그룹 생성부(200)의 제1 유사도 연산부(220)가 기사들 사이의 제1 유사도를 연산하는데 사용될 수도 있다. 예컨대, 제1 유사도 연산부(220)는 제1 기사(A1) 및 제2 기사(A2)의 제1 유사도를 판단하기 위하여, 단어 추출부(120)가 추출한 주요 단어 가운데 제1 기사(A1) 및 제2 기사(A2)에 공통적으로 포함되는 주요 단어의 빈도를 연산할 수 있다. 즉, 도 4에 도시된 실시예에서, 제1 유사도 연산부(220)는 아래와 같은 수학식을 통해서 제1 기사(A1) 및 제2 기사(A2)의 제1 유사도를 연산할 수 있다.FIG. 6A is a diagram illustrating an operation in which the first
[수학식 1][Equation 1]
(5×6) + (3×3) + (3×4) = 51(5 x 6) + (3 x 3) + (3 x 4) = 51
상기 수학식 1에서, 첫 번째 항은 제1 기사(A1) 및 제2 기사(A2)에 각각 포함된 “홍길동”의 개수들의 곱이고, 두 번째 및 세 번째 항은 각각 “우승” 및 “PGA”의 개수들의 곱이다. 한편, 제1 유사도 연산부(220)는 제목에 포함된 주요 단어의 경우 가중치를 더하거나 곱할 수 있다. 이에 따라 계산된 값이 높을 수록 기사들 사이의 유사도가 높은 것으로 판단될 수 있다.In the above equation (1), the first term is the product of the numbers of "Hong Kil Dong" included in the first article (A1) and the second article (A2), and the second and third terms are respectively " &Quot; On the other hand, the first similarity
도 6a에서 6개의 기사들(A1 내지 A6)은 6개의 노드들로 표현된다. 6개의 노드들은 각각 5개의 에지들을 통해서 자신과 다른 5개의 노드들에 연결될 수 있다. 예컨대, 제1 기사(A1)를 나타내는 노드는 제2 기사(A2) 내지 제6 기사(A6)를 나타내는 노드들과 5개의 에지들을 통해서 연결될 수 있다. 도 6a에 도시된 에지들은 각각 고유한 값을 가지고 있으며, 에지들이 갖는 값은 2개 기사들 사이의 제1 유사도를 나타낼 수 있다. 예컨대, 도 2를 함께 참조하면, 제1 기사(A1)를 나타내는 노드와 제2 기사(A2)를 나타내는 노드를 연결하는 에지는 상기 수학식 1에 따라 51의 값을 가질 수 있다.In Fig. 6A, six articles A1 to A6 are represented by six nodes. The six nodes can be connected to themselves and the other five nodes through five edges, respectively. For example, the node representing the first article A1 can be connected through five edges to the nodes representing the second article A2 to the sixth article A6. The edges shown in FIG. 6A each have a unique value, and the value of the edges may represent the first degree of similarity between the two articles. 2, the edge connecting the node representing the first article A1 and the node representing the second article A2 may have a value of 51 according to Equation (1) above.
제1 유사도 연산부(220)는 도 6a에 도시된 에지들에 대응하는 제1 유사도들을 각각 연산할 수 있다. 중복 기사 처리부(240)는 에지들이 갖는 값에 기초하여 기사들을 그룹화할 수 있다. 예컨대, 중복 기사 처리부(240)는 미리 정해진 문턱값 보다 높은 값(또는 제1 유사도)을 갖는 기사들을 그룹화할 수 있다. 이에 따라, 도 6a에 도시된 바와 같이, 중복 기사 처리부(240)는 제1 기사(A1), 제2 기사(A2) 및 제6 기사(A6)를 제1 그룹으로 그룹화할 수 있고, 제2 기사(A2) 및 제3 기사(A3)를 그룹화할 수 있다. 도 6a에 도시된 바와 같이, 제1 그룹(G1) 및 제2 그룹(G2)은 상호 배타적이지 않을 수 있다. 또한, 중복 기사 처리부(240)는 하나의 그룹에 포함된 기사들 가운데 중복되는 기사들을 제거함으로써 최종적으로 제 1그룹(G1) 및 제2 그룹(G2)를 생성할 수 있다.The first similarity
도 6b는 본 발명의 예시적 실시예에 따라 제1 유사도 연산부(220) 및 중복기사 처리부(240)가 기사들을 그룹화하는 동작을 나타내는 도면이다. 제1 유사도 연산부(220)는 주제 생성부(140)가 생성한 기사 주제에 따라 기사를 좌표에 나타낼 수 있다. 예컨대, 도 6b의 2차원 좌표에서 X축은 제1 단어의 빈도를 나타내고, Y축은 제2 단어의 빈도를 나타낸다. 6개의 기사들(A1 내지 A6)은 각각 주제 생성부(140)가 생성한 기사 주제에 포함된 제1 단어 및 제2 단어가 각각의 기사에서 나타난 빈도(또는 각각의 기사에 포함된 제1 단어 및 제2 단어의 개수)에 따라 2차원 좌표에서 하나의 지점으로 나타날 수 있다. 다시 말해서, 기사는 원점에서부터 자신의 좌표에 이르는 벡터로서 정의 될 수 있으며, 이러한 벡터를 단어 벡터라고 부른다. 기사는 단어 벡터로서 인덱싱 될 수 있다. 예컨대, 도 6b에 도시된 바와 같이, 제3 기사(A3)는 단어 벡터(V3)로서 인덱싱될 수 있다.FIG. 6B is a diagram illustrating an operation in which the first
중복 기사 처리부(240)는 좌표에 표시된 기사들의 상대적인 거리에 기초하여 기사들을 그룹화할 수 있다. 즉, 중복 기사 처리부(240)는 미리 정해진 문턱값 보다 가까운 거리에 있는 기사들을 그룹화할 수 있다. 예컨대, 도 6b에 도시된 바와 같이, 제1 유사도 연산부(220)는 제1 기사 내지 제6 기사(A1 내지 A6)를 좌표에 표시할 수 있다. 제1 유사도 연산부(220)는 제1 기사(A1) 및 제6 기사(A6)를 제1 그룹(G1)으로 그룹화할 수 있고, 제2 기사(A2), 제4 기사(A4) 및 제5 기사(A5)를 제2 그룹(G2)으로 그룹화할 수 있다. 그 다음에, 중복 기사 처리부(240)는 제1 그룹(G1) 및 제2 그룹(G2) 내에서 중복된 기사들을 제거함으로써 최종적으로 제1 그룹(G1) 및 제2 그룹(G2)를 생성할 수 있다. 비록 도 6b는 축을 포함하는 2차원의 좌표를 도시하였지만, 본 발명의 예시적 실시예는 이에 제한되지 않으며 중복 기사 처리부(240)는 3차원 이상의 좌표에 표시된 복수개의 기사들에 대하여 상대적인 거리를 미리 정해진 문턱값과 비교하여 기사들을 그룹화할 수 있다.The redundant
도 7은 본 발명의 예시적 실시예에 따라 도 1의 대표 기사 식별부(400)의 구현예를 나타내는 도면이다. 도 7에 도시된 바와 같이, 대표 기사 식별부(400)는 제2 유사도 연산부(420) 및 기사 랭킹부(440)를 포함할 수 있다. 제2 유사도 연산부(420)는 그룹 생성부(200)의 그룹 주제 생성부(260)가 생성한 제1 그룹의 그룹 주제와 제1 그룹에 포함된 기사들의 기사 주제들 사이의 제2 유사도를 연산할 수 있다. 비록 도 1에서는 그룹 생성부(200)가 제1 유사도 연산부(220)를 포함하고 대표 기사 식별부(400)가 제2 유사도 연산부(420)를 포함하는 것으로 도시되었으나, 본 발명의 예시적 실시예는 이에 제한되지 않으며 하나의 유사도 연산부를 그룹 생성부(200) 및 대표 기사 식별부(400)가 공유할 수도 있다.FIG. 7 is a diagram illustrating an embodiment of the
기사 랭킹부(440)는 제2 유사도 연산부(420)가 연산한 제2 유사도에 따라, 제1 그룹에 포함된 기사들의 순위를 결정할 수 있다. 예컨대, 기사 랭킹부(440)는 제1 그룹의 그룹 주제와 가장 제2 유사도가 높은 기사의 순위를 가장 높게 지정할 수 있다. 본 발명의 예시적 실시예에 따라, 기사 랭킹부(440)는 제1 그룹에 포함된 기사들 가운데 미리 정해진 수의 기사들에 대해서 순위를 결정할 수 있고, 이러한 미리 정해진 수의 기사들을 대표 기사라고 부른다. 또한, 기사 랭킹부(440)는 제2 유사도 연산부(420)가 연산한 제2 유사도 뿐만 아니라, 그룹 제공부(300)로부터 제공되는 피드백 정보에 더 기초하여 제1 그룹에 포함된 기사들의 순위를 결정할 수 있다. 예컨대, 도 8을 함께 참조하면, 그룹 제공부(300)의 기사 조회수 측정부(360)는 사용자(30)가 기사를 열람하는 횟수(조회수)에 대한 정보를 대표 기사 식별부(400)로 전달할 수 있고, 대표 기사 식별부(400)의 기사 랭킹부(440)는 제2 유사도 연산부(420)가 연산한 제2 유사도 뿐만 아니라 상기 조회수에 기초하여 제1 그룹에 포함된 기사들의 순위를 결정할 수 있다.The
도 8은 본 발명의 예시적 실시예에 따라 도 1의 그룹 제공부(300)의 구현예를 나타내는 도면이다. 도 8에 도시된 바와 같이, 그룹 제공부(300)는 주제별 그룹 제공부(320), 대표 기사 제공부(340) 및 기사 조회수 측정부(360)를 포함할 수 있다. 주제별 그룹 제공부(320)는 대표 기사 식별부(400)의 기사 랭킹부(440)가 결정한 제1 그룹의 기사들에 대한 순위에 따라 미리 정해진 개수의 기사들을 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다. 예컨대, 주제별 그룹 제공부(320)는 제1 그룹의 기사들 중 최고 순위의 기사를 다른 기사들 보다 부각되도록 나타낼 수 있다. 또한, 그룹 생성부(200)가 생성한 제1 그룹과 다른 제2 그룹의 대표 기사들을 기사 랭킹부(440)가 결정한 순위에 따라 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다.FIG. 8 is a diagram showing an embodiment of the
대표 기사 제공부(340)는 그룹 생성부(200)가 생성한 제1 그룹에 포함된 기사들을 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다. 예컨대, 대표 기사 제공부(340)는 제1 그룹에 포함된 기사들의 제목 및 본문의 일부를 나열할 수 있고, 사용자(30)가 하나의 기사를 선택한 경우 선택한 기사의 제목 및 본문을 사용자(30)에게 제공할 수 있다. 또한, 대표 기사 제공부(340)는 사용자(30)가 선택한 기사를 제공하는 동시에, 제1 그룹의 그룹 주제와 유사한 그룹을 사용자(30)에게 제공할 수도 있다. 예컨대, 대표 기사 제공부(340)는 사용자(30)가 선택한 기사의 제목 및 본문을 화면의 넓은 공간에 나타내는 동시에, 나머지 일부 공간에서 제1 그룹의 그룹 주제와 유사한 그룹 주제를 갖는 그룹들의 대표 기사들의 제목들을 사용자(30)에게 제공할 수 있다.The representative
기사 조회수 측정부(360)는 대표 기사 제공부(340)가 제공하는 기사들에 대한 사용자(30)의 열람 횟수(조회수)를 측정할 수 있다. 많은 수의 사용자(30)가 열람한 기사는 상대적으로 사용자(30)의 관심도가 높은 내용을 포함할 수 있는 것으로 추정될 수 있다. 따라서, 도 7을 참조하면 기사 조회수 측정부(360)가 측정한 기사의 조회수는 대표 기사 식별부(400)의 기사 랭킹부(440)에 전달될 수 있고, 기사 랭킹부(440)는 상기 조회수에 더 기초하여 제1 그룹에 포함된 기사들의 순위를 결정할 수 있다. 즉, 기사 랭킹부(440)는 기사의 조회수를 기사들의 순위를 결정하는데 반영할 수 있다.The article hits
도 9는 본 발명의 예시적 실시예에 따라 도 1의 그룹 제공부(300)가 사용자(30)에게 제공하는 그룹들을 나타내는 도면이다. 도 1 및 8을 함께 참조하면, 그룹 제공부(300)는 그룹 생성부(200)가 생성한 그룹 및 대표 기사 식별부(400)가 식별한 대표 기사를 네트워크(40)를 통해서 사용자(30)에게 제공할 수 있다. 예컨대, 도 9에 도시된 바와 같이, 그룹 제공부(300)의 주제별 그룹 제공부(320)는 복수개의 그룹들의 대표 기사들(1100, 1200, 1300, 1400)을 나열하여 사용자(30)에게 제공할 수 있다. 본 발명의 예시적 실시예에 따라, 주제별 그룹 제공부(320)는 대표 기사의 제목(1120, 1220, 1320, 1420) 및 본문의 일부(1140, 1240, 1340, 1440)를 표시함으로써 그룹들의 대표 기사들(1100, 1200, 1300, 1400)을 나열할 수 있다. 사용자(30)는 네트워크(40)를 통해서 복수개의 그룹들 각각의 대표 기사들을 한눈에 볼 수 있으며, 대표 기사의 제목(1120, 1220, 1320, 1420) 및 본문의 일부(1140, 1240, 1340, 1440)를 통해서 사용자(30) 자신이 관심 있는 주제와 관련된 기사들의 그룹을 용이하게 선택할 수 있다.FIG. 9 is a diagram illustrating the groups that the
한편, 도 9는 주제별 그룹 제공부(320)가 각 그룹의 대표 기사로서 하나의 대표 기사를 사용자에게 제공하는 실시예를 도시하였으나, 주제별 그룹 제공부(320)는 각 그룹에 대응하는 복수개의 대표 기사들을 사용자(30)에게 제공할 수 있다. 예컨대, 주제별 그룹 제공부(320)는 대표 기사 식별부(400)의 기사 랭킹부(440)가 결정한 순위에 따라 미리 정해진 개수의 기사들을 그룹의 대표 기사들로서 사용자에게 제공할 수 있다. 또한, 주제별 그룹 제공부(320)는 최고 순위의 기사를 다른 기사들 보다 부각되도록 나타낼 수 있다.Meanwhile, FIG. 9 shows an embodiment in which the
본 발명의 예시적 실시예에 따라, 그룹 제공부(300)의 주제별 그룹 제공부(320)는 사용자(30)에게 제공되는 그룹들의 순서(또는 그룹들의 대표 기사들의 순서)를 결정할 수 있다. 예컨대, 주제별 그룹 제공부(320)는 사용자(30)에 의해서 그룹(또는 대표 기사)이 선택되는 횟수를 측정할 수 있고, 그룹이 선택되는 횟수에 기초하여 사용자(30)에게 제공하는 복수개의 그룹들을 나열할 수 있다. 이에 따라, 주제별 그룹 제공부(320)는 사용자(30)에 의해서 빈번하게 선택되는 그룹을 최상위에 나타낼 수 있다. 뿐만 아니라, 주제별 그룹 제공부(320)는 사용자(30)가 미리 설정한 정보에 따라 그룹들의 순서를 결정할 수 있다. 즉, 사용자(30)는 미리 적어도 하나의 관심분야, 예컨대 정치, 경제, 스포츠 또는 연예 등을 설정할 수 있고, 주제별 그룹 제공부(320)는 사용자(30)의 관심분야에 대응하는 그룹을 최상위에 나타낼 수 있다.According to an exemplary embodiment of the present invention, the
도 10은 본 발명의 예시적 실시예에 따라 도 1의 그룹 제공부(300)가 사용자(30)에게 제공하는 기사들을 나타내는 도면이다. 도 8을 함께 참조하면, 그룹 제공부(300)의 주제별 그룹 제공부(320)가 도 9에 도시된 바와 같이 각 그룹의 대표 기사를 사용자(30)에게 제공하고, 사용자(30)가 하나의 그룹을 선택한 경우 그룹 제공부(300)의 대표 기사 제공부(340)는 선택된 그룹에 포함된 기사들을 사용자(30)에게 제공할 수 있다.FIG. 10 is a diagram showing articles provided by the
도 10에 도시된 바와 같이, 대표 기사 제공부(340)는 대표 기사 식별부(400)의 기사 랭킹부(440)에 따라 최고 순위의 대표 기사(2200)가 포함하는 제목(2220) 및 본문(2240)을 가장 넓은 공간에 나타낼 수 있다. 또한, 대표 기사 제공부(340)는 선택된 그룹에 포함된 다른 기사들의 제목들에 대한 목록(2400)을 나열할 수 있고, 사용자(30)가 목록(2400)의 기사들 중 하나를 선택하는 경우, 선택된 기사의 제목 및 본문이 대표 기사(2200)의 제목(2220) 및 본문(2240)을 대체하여 표시될 수 있다.As shown in FIG. 10, the representative
본 발명의 예시적 실시예에 따라, 대표 기사 제공부(340)는 사용자(30)가 선택한 그룹과 유사한 그룹 주제를 갖는 적어도 하나의 그룹들을 사용자(30)에게 제공할 수 있다. 예컨대, 도 5에서 설명한 바와 같이, 그룹 생성부(200)의 그룹 주제 생성부(260)를 통해서 생성된 복수개의 그룹들의 그룹 주제들 사이의 유사도에 따라서, 대표 기사 제공부(340)는 사용자(30)가 선택한 그룹과 그룹 주제가 유사한 복수개의 그룹들의 대표 기사들에 대한 목록(2600)을 사용자(30)에게 제공할 수 있다.According to an exemplary embodiment of the present invention, the representative
한편, 본 발명의 예시적 실시예에 따라, 그룹 제공부(300)의 기사 조회수 측정부(360)는 대표 기사 제공부(340)가 제공하는 기사에 대한 사용자(30)의 열람 횟수(조회수)를 측정할 수 있다. 기사 조회수 측정부(360)는 기사에 대한 사용자(30)의 열람 횟수를 대표 기사 식별부(400)의 기사 랭킹부(440)에 전달할 수 있다. 기사 랭킹부(440)는 그룹 주제와 기사의 기사 주제 사이의 제2 유사도 뿐만 아니라 기사의 열람 횟수에 기초하여 기사의 순위를 결정할 수 있다. 이에 따라, 기사 랭킹부(440)가 기사의 열람 횟수에 따라 기사의 순위를 변경한 경우, 그룹 제공부(300)의 대표 기사 제공부(340)가 나열하는 기사들의 순서도 변경될 수 있다.According to an exemplary embodiment of the present invention, the article view
상기한 실시예의 설명은 본 발명의 더욱 철저한 이해를 위하여 도면을 참조로 예를 든 것에 불과하므로, 본 발명을 한정하는 의미로 해석되어서는 안될 것이다. 또한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기본적 원리를 벗어나지 않는 범위 내에서 다양한 변화와 변경이 가능함은 명백하다 할 것이다.The foregoing description of the embodiments is merely illustrative of the present invention with reference to the drawings for a more thorough understanding of the present invention, and thus should not be construed as limiting the present invention. It will be apparent to those skilled in the art that various changes and modifications may be made without departing from the basic principles of the present invention.
Claims (10)
데이터 베이스에 저장된 복수개의 기사들의 기사 주제들을 추출하는 주제 추출부;
상기 기사 주제들에 기초하여 상기 복수개의 기사들을 그룹화하여 제1 그룹을 생성하는 그룹 생성부; 및
상기 제1 그룹을 네트워크를 통하여 사용자에게 제공하는 그룹 제공부를 포함하고,
상기 그룹 생성부는,
상기 기사 주제들 사이의 제1 유사도를 연산하는 제1 유사도 연산부;
상기 제1 유사도에 기초하여 중복된 기사들을 제거하고, 상기 제1 그룹을 생성하는 중복 기사 처리부; 및
상기 제1 유사도에 기초하여 상기 제1 그룹의 그룹 주제를 생성하는 그룹 주제 생성부를 포함하고,
상기 중복 기사 처리부는 상기 제1 그룹의 그룹 주제와 상기 데이터 베이스에 저장된 제1 기사의 기사 주제 사이의 유사도에 기초하여 상기 제1 기사를 상기 제1 그룹에 선택적으로 포함시키는 것을 특징으로 하는 기사 그룹화 시스템.The article grouping system,
A subject extracting unit for extracting article topics of a plurality of articles stored in a database;
A group generating unit for generating the first group by grouping the plurality of articles based on the article topics; And
And a group providing unit for providing the first group to a user via a network,
Wherein,
A first degree of similarity calculation unit for calculating a first degree of similarity between the article topics;
A duplicate-article processing unit for removing duplicate articles based on the first similarity, and generating the first group; And
And a group subject generating unit for generating the first group theme based on the first similarity,
Wherein the redundant article processing unit selectively includes the first article in the first group based on the degree of similarity between the group topic of the first group and the article subject of the first article stored in the database, system.
상기 기사 주제들 각각은 적어도 하나의 단어를 포함하고,
상기 주제 추출부는
상기 복수개의 기사들 각각으로부터 적어도 하나의 주요 단어를 추출하는 단어 추출부; 및
상기 주요 단어에 기초하여 상기 복수개의 기사들 각각의 기사 주제를 생성하는 주제 생성부를 포함하는 것을 특징으로 하는 기사 그룹화 시스템.The method according to claim 1,
Each of the article topics comprising at least one word,
The subject extracting unit
A word extracting unit for extracting at least one main word from each of the plurality of articles; And
And a topic generating unit for generating an article topic of each of the plurality of articles based on the main word.
상기 단어 추출부는 상기 복수개의 기사들 각각에 포함된 단어의 빈도에 기초하여 상기 주요 단어를 추출하는 것을 특징으로 하는 기사 그룹화 시스템.3. The method of claim 2,
Wherein the word extracting unit extracts the main word based on a frequency of words included in each of the plurality of articles.
상기 중복 기사 처리부는 상기 제1 유사도 및 상기 제1 그룹에 포함되는 기사들의 개수에 기초하여 상기 제1 그룹을 2개 이상의 그룹들로 분할하는 것을 특징으로 하는 기사 그룹화 시스템.The method according to claim 1,
Wherein the redundant article processing unit divides the first group into two or more groups based on the first degree of similarity and the number of articles included in the first group.
상기 제1 그룹에 포함되는 기사들의 기사 주제들 및 상기 제1 그룹의 그룹 주제에 기초하여 상기 제1 그룹에 포함된 적어도 하나의 대표 기사를 식별하는 대표 기사 식별부를 더 포함하는 기사 그룹화 시스템.The method according to claim 1,
And a representative article identification unit for identifying at least one representative article included in the first group based on the article topics of the articles included in the first group and the group topic of the first group.
상기 대표 기사 식별부는
상기 제1 그룹에 포함되는 기사들의 기사 주제들 및 상기 제1 그룹의 그룹 주제 사이의 제2 유사도를 연산하는 제2 유사도 연산부; 및
상기 제2 유사도에 기초하여 상기 제1 그룹에 포함되는 기사들의 순위를 결정하는 기사 랭킹부를 포함하는 것을 특징으로 하는 기사 그룹화 시스템.8. The method of claim 7,
The representative article identifying unit
A second degree of similarity calculation unit for calculating a second degree of similarity between the article subjects of the articles included in the first group and the group subject of the first group; And
And an article ranking unit for determining a ranking of articles included in the first group based on the second degree of similarity.
상기 그룹 제공부는
상기 제1 그룹을 포함하는 복수개의 그룹들을 상기 사용자에게 제공하는 주제별 그룹 제공부; 및
상기 제1 그룹의 대표 기사를 상기 사용자에게 제공하는 대표 기사 제공부 를 포함하는 것을 특징으로 하는 기사 그룹화 시스템.8. The method of claim 7,
The group providing unit
Providing a plurality of groups including the first group to the user; And
And a representative article providing unit for providing the representative article of the first group to the user.
상기 그룹 제공부는 상기 제1 그룹에 포함된 기사들에 대한 상기 사용자의 조회수들을 측정하는 기사 조회수 측정부를 더 포함하고,
상기 기사 랭킹부는 상기 조회수들에 더 기초하여 상기 순위를 결정하는 것을 특징으로 하는 기사 그룹화 시스템.9. The method of claim 8,
Wherein the group providing unit further includes an article hit counting unit for measuring the number of hits of the user for articles included in the first group,
Wherein the article ranking unit determines the ranking based further on the hits.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130119444A KR101544141B1 (en) | 2013-10-07 | 2013-10-07 | System for grouping articles based on subject thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130119444A KR101544141B1 (en) | 2013-10-07 | 2013-10-07 | System for grouping articles based on subject thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150040658A KR20150040658A (en) | 2015-04-15 |
KR101544141B1 true KR101544141B1 (en) | 2015-08-12 |
Family
ID=53031943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130119444A KR101544141B1 (en) | 2013-10-07 | 2013-10-07 | System for grouping articles based on subject thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101544141B1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7018762B2 (en) * | 2017-12-21 | 2022-02-14 | ヤフー株式会社 | Information processing equipment, information processing methods, and programs |
CN110633330B (en) | 2018-06-01 | 2022-02-22 | 北京百度网讯科技有限公司 | Event discovery method, device, equipment and storage medium |
KR102141192B1 (en) * | 2018-10-24 | 2020-08-04 | 네이버 주식회사 | Method and apparatus for collecting news common pharases based on media |
KR102095022B1 (en) * | 2019-10-02 | 2020-03-30 | 김근수 | Method, device and program for trading stocks using articles analysis |
CN111581967B (en) * | 2020-05-06 | 2023-08-11 | 西安交通大学 | News theme event detection method combining LW2V with triple network |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172701A (en) | 1998-12-04 | 2000-06-23 | Fujitsu Ltd | Document data providing device, document data providing system, document data providing method and storage medium recording program providing document data |
JP2000259666A (en) | 1999-03-11 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | Topic extraction device |
-
2013
- 2013-10-07 KR KR1020130119444A patent/KR101544141B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000172701A (en) | 1998-12-04 | 2000-06-23 | Fujitsu Ltd | Document data providing device, document data providing system, document data providing method and storage medium recording program providing document data |
JP2000259666A (en) | 1999-03-11 | 2000-09-22 | Nippon Hoso Kyokai <Nhk> | Topic extraction device |
Also Published As
Publication number | Publication date |
---|---|
KR20150040658A (en) | 2015-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101544141B1 (en) | System for grouping articles based on subject thereof | |
JP6293642B2 (en) | General-purpose graphs, rules and spatial structure based on recommendation engine | |
CN104820685B (en) | A kind of social category network search method and social category network searching system | |
CN104123332B (en) | The display methods and device of search result | |
JP5691735B2 (en) | CONTENT RECOMMENDATION DEVICE, RECOMMENDED CONTENT SEARCH METHOD, AND PROGRAM | |
CN102110135B (en) | System and method for estimating degree of association of information unit using information processing device | |
CN104111941B (en) | The method and apparatus that information is shown | |
CN102968413B (en) | A kind of method and apparatus for being used to provide search result | |
CN104484477B (en) | Electronic map searching method, device and system | |
Hussain et al. | Mining social media and DBpedia data using Gephi and R | |
CN103744887B (en) | It is a kind of for the method for people search, device and computer equipment | |
CN106686460B (en) | Video program recommendation method and video program recommendation device | |
CN104615631B (en) | A kind of method and device of information recommendation | |
RU2014138615A (en) | Interactive comparative information display | |
KR20130037976A (en) | Method and system for detecting related topics and competition topics based on topic templates and association words, related topics and competition topics detecting device | |
Grabovitch-Zuyev et al. | On the correlation between textual content and geospatial locations in microblogs | |
US20240134914A1 (en) | Content based related view recommendations | |
EP3824427A1 (en) | Determining item relevancy | |
JP2015207026A (en) | Information processor, record position information specification method and information processing program | |
CN105138684B (en) | A kind of information processing method and information processing unit | |
La Gala et al. | Ego-net digger: a new way to study ego networks in online social networks | |
CN104331490B (en) | network data processing method and device | |
CN104462055B (en) | Name similarity obtaining method and device | |
Abraham | Computational social networks: Mining and visualization | |
KR20150041267A (en) | System for generating chronicle of article based on subject thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190805 Year of fee payment: 5 |