KR100849631B1 - 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 - Google Patents
문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 Download PDFInfo
- Publication number
- KR100849631B1 KR100849631B1 KR1020060072730A KR20060072730A KR100849631B1 KR 100849631 B1 KR100849631 B1 KR 100849631B1 KR 1020060072730 A KR1020060072730 A KR 1020060072730A KR 20060072730 A KR20060072730 A KR 20060072730A KR 100849631 B1 KR100849631 B1 KR 100849631B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- documents
- information
- cluster
- similarity
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
특허 서지정보 | 내용 |
인적 정보 | 출원인/특허(실용)권자(Assignee), 출원인 국적(Assignee Country), 발명자/고안자(Inventor), 대리인(Attorney, Agent or Firm), 심사관(Primary/Assitent Examiner) 등 |
국가 정보 | 지정국(Designated Country), 우선권주장국(Priority Country), 출원인국적(Assignee Country), 발명자국적(Inventor Country), 국가 및 지역코드(National or Regional Code), 국가코드(Country Code) 등 |
날짜 정보 | 우선권주장일(Priority Date), 출원일(Application Date), 공개일(Published Date), 공고일(Firm Date), 등록일(Issue Date), 국제출원일(PCT Pub./Field Date), 국제공개일(PCT Pub. Date), 정정일(Correction Date) 등 |
번호 정보 | 우선권번호(Priority No.) 등 |
내용 정보 | 발명의 명칭(Title), 요약(Abstract), 대표 청구항(Exemplary Claim), 모든 청구항(All Claims), 청구항수(No. of Claims), 색인어, 상세설명(Description) 등 |
분류 정보 | 주IPC(Main IPC), IPC(All IPC), 주미국분류(UPC - Main), 미국분류(UPC - All), FI(File Index), 테마코드(Theme Code), 중국분류기호(Category Class), ECLA 코드(European Classification Code) 등 |
참조 정보 | 패밀리(Family), 관련출원수(Related Application No.), 관련특허수(Related Patent No.), 미국참조특허(U.S. Reference Patent), 참조문헌수(Backward Reference Count), 다른참조(Other References), 해외참조특허(Foreign Reference Patent), 해외참조국가(Foreign Reference Country) 등 |
Claims (25)
- 다수의 문서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템에 있어서,상기 서버에 그룹화할 문서를 요청하여 다수의 문서를 전송받는 요청수단,전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 벡터수단,생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 다수의 문서정보를 이용하여 상기 다수의 문서를 클러스터링하는 클러스터링수단,클러스터링된 다수의 클러스터와 상기 클러스터에 속한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 시각화수단,산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 출력하는 출력수단을 포함하는 것을 특징으로 하는 문서 그룹화 시스템.
- 제 1항에 있어서,상기 문서는 서지정보를 포함하는 특허 또는 실용신안의 공개공보 또는 등록공보인 것을 특징으로 하는 문서 그룹화 시스템.
- 제 2항에 있어서,상기 클러스터링수단은 두 클러스터(cluster)간 유사도가 가장 큰 클러스터들을 묶어 나가는 방식으로 클러스터링을 하고;상기 두 클러스터(cluster)간 유사도는 각 클러스터에 속하는 임의의 두 문서간 유사도에 의해 연산되고;상기 두 문서의 유사도는 상기 두 문서의 다차원 벡터와 상기 각 두 문서의 서지사항의 항목간의 유사도에 의해 연산되고;상기 두 항목간 유사도는 두 항목의 값에 의하여 산출할 수 있는 것;을 특징으로 하는 문서 그룹화 시스템.
- 제 3항에 있어서,상기 두 문서의 유사도에서 연산되는 상기 서지사항의 항목간 유사도가 차지하는 비중은 조절가능한 것을 특징으로 하는 문서 그룹화 시스템.
- 제 3항에 있어서,상기 두 문서의 유사도는 식sim(A, B) = α0simcos(A, B) + α1sima(1)(A, B) + α2sima(2)(A, B) + ... + αnsima(m)(A, B)의 실행에 의해 연산되며,여기서, A와 B는 각각 문서 A와 문서 B이며, sim(A, B)는 두 문서의 유사도이고, simcos(A, B)는 상기 다차원 벡터를 이용한 코사인 상관도이고, sima(k)(A, B)는 문서 A와 문서 B간의 서지정보의 항목인 a(k)에 대한 항목간 유사도이고(1≤k≤m), α0, α1, α2 및 αm 은 조절이 가능한 가중치로서, 총합이 1인 상수이고, 상기 m은 문서의 서지정보의 항목 수인 것을 특징으로 하는 문서 그룹화 시스템.
- 삭제
- 제 5항에 있어서,상기 서지정보의 항목은 인적 정보, 국가 정보, 날짜 정보, 번호 정보, 내용 정보, 분류 정보, 참조 정보 중 어느 하나를 포함하는 것을 특징으로 하는 문서 그룹화 시스템.
- 제 2항에 있어서,상기 시각화수단은 상기 다수의 클러스터의 각 대표값에 MDS(Multidimensional Scaling)를 적용하여 각각의 클러스터 중심값을 산출한 후, 상기 클러스터에 속한 상기 문서와 상기 클러스터 중심값과의 상대적인 유사도를 이용하여 상기 문서가 좌표로 표현될 시각화 정보인 문서벡터를 산출하는 것을 특 징으로 하는 문서 그룹화 시스템.
- 제 9항에 있어서,상기 문서벡터의 크기값은 상기 문서와 상기 클러스터 중심값간의 코사인 상관도, 클러스터의 크기, 클러스터에 속한 다수의 문서와 클러스터 중심값간의 코사인 상관도가 갖는 최대값과 최소값을 이용하여 산출하는 것을 특징으로 하는 문서 그룹화 시스템.
- 제 2항에 있어서,상기 출력수단은 상기 다수의 문서간의 우선권관계 정보 또는 참조관계 정보를 출력하는 것을 특징으로 하는 문서 그룹화 시스템.
- 다수의 문서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템으로 문서를 그룹화하는 방법에 있어서,(a) 상기 컴퓨터 시스템이 상기 서버로 그룹화할 문서를 요청하여 다수의 문서를 전송받는 단계,(b) 전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 단계,(c) 생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 다수의 문서정보를 이용하여 상기 컴퓨터 시스템이 상기 다수의 문서를 클러스터링하는 단계,(d) 상기 컴퓨터 시스템이 클러스터링된 다수의 클러스터와 상기 클러스터에 속한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 단계,(e) 산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 상기 컴퓨터 시스템의 출력수단을 통해 출력하는 단계를 포함하는 것을 특징으로 하는 문서 그룹화 방법.
- 제 13항에 있어서,상기 문서는 서지정보를 포함하는 특허 또는 실용신안의 공개공보 또는 등록공보인 것을 특징으로 하는 문서 그룹화 방법.
- 제 14항에 있어서,상기 (c) 단계는,두 클러스터(cluster)간 유사도가 가장 큰 클러스터들을 묶어 나가는 방식으로 클러스터링을 하고;상기 두 클러스터(cluster)간 유사도는 각 클러스터에 속하는 임의의 두 문서간 유사도에 의해 연산되고;상기 두 문서의 유사도는 상기 두 문서의 다차원 벡터와 상기 각 두 문서의 서지사항의 항목간의 유사도에 의해 연산되고;상기 두 항목간 유사도는 두 항목의 값에 의하여 산출할 수 있는 것;을 특징으로 하는 문서 그룹화 방법.
- 제 14항에 있어서,상기 두 문서의 유사도에서 연산되는 상기 서지사항의 항목간 유사도가 차지하는 비중은 조절가능한 것을 특징으로 하는 문서 그룹화 방법.
- 제 15항에 있어서,상기 두 문서의 유사도는 식sim(A, B) = α0simcos(A, B) + α1sima(1)(A, B) + α2sima(2)(A, B) + ... + αnsima(m)(A, B)의 실행에 의해 연산되며,여기서, A와 B는 각각 문서 A와 문서 B이며, sim(A, B)는 두 문서의 유사도이고, simcos(A, B)는 상기 다차원 벡터를 이용한 코사인 상관도이고, sima(k)(A, B)는 문서 A와 문서 B간의 서지정보의 항목인 a(k)에 대한 항목간 유사도이고(1≤k≤m), α0, α1, α2 및 αm 은 조절이 가능한 가중치로서, 총합이 1인 상수이고, 상기 m은 문서의 서지정보의 항목 수인 것을 특징으로 하는 문서 그룹화 방법.
- 삭제
- 제 17항에 있어서,상기 서지정보의 항목은 인적 정보, 국가 정보, 날짜 정보, 번호 정보, 내용 정보, 분류 정보, 참조 정보 중 어느 하나를 포함하는 것을 특징으로 하는 문서 그룹화 방법.
- 제 14항에 있어서,상기 (d) 단계는(d1) 상기 다수의 클러스터의 각 대표값에 MDS를 적용하여 각각의 클러스터 중심값을 산출하는 단계,(d2) 상기 클러스터에 속한 상기 문서와 상기 클러스터 중심값과의 상대적인 유사도를 이용하여 상기 문서가 좌표로 표현될 시각화 정보인 문서벡터를 산출하는 단계를 포함하는 것을 특징으로 하는 문서 그룹화 방법.
- 제 21항에 있어서,상기 문서벡터의 크기값은 상기 문서와 상기 클러스터 중심값간의 코사인 상관도, 클러스터의 크기, 클러스터에 속한 다수의 문서와 클러스터 중심값간의 코사인 상관도가 갖는 최대값과 최소값을 이용하여 산출하는 것을 특징으로 하는 문서 그룹화 방법.
- 제 14항에 있어서,상기 (e) 단계는 상기 다수의 문서간의 우선권관계 정보 또는 참조관계 정보를 출력하는 단계를 포함하는 것을 특징으로 하는 문서 그룹화 방법.
- 다수의 문서를 저장하는 데이터베이스를 구비한 서버와 네트워크를 통하여 연결되는 컴퓨터 시스템을 이용하는 문서 그룹화 시스템으로 문서를 그룹화하는 방법을 컴퓨터로 기록한 기록매체에 있어서,상기 컴퓨터 시스템이 상기 서버로 그룹화할 문서를 요청하여 다수의 문서를 전송받는 단계,전송받은 상기 다수의 문서를 구문분석하여 다차원 벡터를 생성하는 단계,생성된 상기 다차원 벡터와 상기 문서가 갖고 있는 문서정보를 이용하여 상기 컴퓨터 시스템이 상기 다수의 문서를 클러스터링하는 단계,상기 컴퓨터 시스템이 클러스터링된 다수의 클러스터와 상기 클러스터에 속 한 상기 다수의 문서를 시각화하기 위한 정보를 산출하는 단계,산출된 시각화 정보를 이용하여 상기 클러스터와 상기 다수의 문서를 상기 컴퓨터 시스템의 출력수단을 통해 출력하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060072730A KR100849631B1 (ko) | 2006-08-01 | 2006-08-01 | 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060072730A KR100849631B1 (ko) | 2006-08-01 | 2006-08-01 | 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080011949A KR20080011949A (ko) | 2008-02-11 |
KR100849631B1 true KR100849631B1 (ko) | 2008-07-31 |
Family
ID=39340332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060072730A KR100849631B1 (ko) | 2006-08-01 | 2006-08-01 | 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100849631B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9508167B2 (en) | 2013-02-08 | 2016-11-29 | Samsung Electronics Co., Ltd. | Method and apparatus for high-dimensional data visualization |
KR20210023636A (ko) * | 2019-08-21 | 2021-03-04 | 네이버 주식회사 | 장기간 연관성 높은 문서 클러스터링을 위한 방법 및 시스템 |
US11200448B2 (en) * | 2019-05-15 | 2021-12-14 | RELX Inc. | Systems and methods for generating a low-dimensional space representing similarities between patents |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101136037B1 (ko) * | 2009-11-06 | 2012-04-18 | 동국대학교 산학협력단 | 문서의 색인화 및 검색을 위한 방법 및 장치 |
KR101931859B1 (ko) * | 2016-09-29 | 2018-12-21 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
CN112989153B (zh) * | 2019-12-13 | 2024-05-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067398A (ja) | 2001-08-27 | 2003-03-07 | Ricoh Co Ltd | 文書分類装置および文書分類方法、並びに文書分類方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2005339412A (ja) | 2004-05-31 | 2005-12-08 | Bearnet Inc | 特許マップ生成方法およびプログラム |
-
2006
- 2006-08-01 KR KR1020060072730A patent/KR100849631B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003067398A (ja) | 2001-08-27 | 2003-03-07 | Ricoh Co Ltd | 文書分類装置および文書分類方法、並びに文書分類方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2005339412A (ja) | 2004-05-31 | 2005-12-08 | Bearnet Inc | 特許マップ生成方法およびプログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9508167B2 (en) | 2013-02-08 | 2016-11-29 | Samsung Electronics Co., Ltd. | Method and apparatus for high-dimensional data visualization |
US11200448B2 (en) * | 2019-05-15 | 2021-12-14 | RELX Inc. | Systems and methods for generating a low-dimensional space representing similarities between patents |
KR20210023636A (ko) * | 2019-08-21 | 2021-03-04 | 네이버 주식회사 | 장기간 연관성 높은 문서 클러스터링을 위한 방법 및 시스템 |
KR20210023635A (ko) * | 2019-08-21 | 2021-03-04 | 네이버 주식회사 | 장기간 관련 있는 이슈 단위의 클러스터를 이용한 문서 타임라인을 제공하는 방법 및 시스템 |
KR102337536B1 (ko) * | 2019-08-21 | 2021-12-13 | 네이버 주식회사 | 장기간 관련 있는 이슈 단위의 클러스터를 이용한 문서 타임라인을 제공하는 방법 및 시스템 |
KR102349522B1 (ko) * | 2019-08-21 | 2022-01-11 | 네이버 주식회사 | 장기간 연관성 높은 문서 클러스터링을 위한 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
KR20080011949A (ko) | 2008-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Charte et al. | Working with Multilabel Datasets in R: The mldr Package. | |
Tzirita Zacharatou et al. | GPU rasterization for real-time spatial aggregation over arbitrary polygons | |
Paiva et al. | An approach to supporting incremental visual data classification | |
US20060004753A1 (en) | System and method for document analysis, processing and information extraction | |
US20160350294A1 (en) | Method and system for peer detection | |
JP2017504108A (ja) | 3dモデルの比較方法および装置 | |
KR100849631B1 (ko) | 문서 그룹화 시스템과 그 그룹화 방법 및 이를 기록한기록매체 | |
JP2004062804A (ja) | 画像の分類方法、画像特徴量空間表示方法、プログラムおよび記録媒体 | |
Pagliosa et al. | Projection inspector: Assessment and synthesis of multidimensional projections | |
Huang et al. | Exploration of dimensionality reduction for text visualization | |
Yu et al. | A content-based goods image recommendation system | |
JP2000311246A (ja) | 類似画像表示方法及び類似画像表示処理プログラムを格納した記録媒体 | |
Foncubierta-Rodríguez et al. | Retrieval of high-dimensional visual data: current state, trends and challenges ahead | |
Zhao et al. | Call to order: a hierarchical browsing approach to eliciting users' preference | |
CN111354076A (zh) | 一种基于嵌入空间的单幅图像三维零件组合式建模方法 | |
Ellena et al. | A novel hierarchical clustering algorithm for the analysis of 3D anthropometric data of the human head | |
Assa et al. | Displaying data in multidimensional relevance space with 2D visualization maps | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
Chambers et al. | Exploring 2d shape complexity | |
CN110737796B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
da Fonseca | Sketch-based retrieval in large sets of drawings | |
Plant et al. | Visualising image databases | |
Beilschmidt et al. | An efficient aggregation and overlap removal algorithm for circle maps | |
Bespalov and et al. | Scale-space representation and classification of 3d models | |
Cromley et al. | A concentration-based approach to data classification for choropleth mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120703 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130701 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140728 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20150701 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20160704 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20170706 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20180702 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20190702 Year of fee payment: 12 |