KR101741408B1 - 대용량 학술논문정보 분석 시스템 - Google Patents
대용량 학술논문정보 분석 시스템 Download PDFInfo
- Publication number
- KR101741408B1 KR101741408B1 KR1020160134313A KR20160134313A KR101741408B1 KR 101741408 B1 KR101741408 B1 KR 101741408B1 KR 1020160134313 A KR1020160134313 A KR 1020160134313A KR 20160134313 A KR20160134313 A KR 20160134313A KR 101741408 B1 KR101741408 B1 KR 101741408B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- analysis
- academic
- main word
- data
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000011160 research Methods 0.000 claims abstract description 36
- 238000005516 engineering process Methods 0.000 claims abstract description 24
- 238000003064 k means clustering Methods 0.000 claims abstract description 18
- 238000007405 data analysis Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 description 8
- 238000013215 result calculation Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013144 data compression Methods 0.000 description 2
- 238000003012 network analysis Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- G06F17/30713—
-
- G06F17/30716—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 도 1의 분석 장치의 구성을 보다 상세하게 나타낸 도면이다.
도 3은 본 발명의 분석 시스템에 사용된 IT 용어의 수와 추출한 주제어의 수를 나타낸 도면이다.
도 4는 도 3에서 추출한 주제어의 일부 리스트를 나타낸 도면이다.
도 5는 각 연대별 논문의 수와 각 주제어의 연대별 출현 빈도를 나타낸 데이터세트이다.
도 6은 K-평균 군집화의 결과를 이용하여 각 군집에 해당하는 주제어들의 평균 출현 정도를 연대별로 나타낸 도면이다.
도 7은 K-평균 군집화를 통해 구분된 8개의 군집을 4가지의 패턴으로 나눈 주제어의 목록을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 대용량 학술논문정보 분석 방법의 동작과정을 상세하게 나타낸 순서도이다.
도 9는 도 8의 클러스터링 분석과정을 보다 상세하게 나타낸 순서도이다.
120 : 주제어 추출부 130 : 데이터 확인부
140 : 데이터 분석부 150 : 결과 산출부
160 : 저장부 170 : 제어부
200 : 데이터베이스
Claims (14)
- 특정 기술부분의 학술논문정보로부터 주제어를 추출하는 주제어 추출부;
상기 학술논문정보를 기 설정된 연대별로 구분하고, 연대별로 구분한 학술논문정보로부터 각각의 주제어에 대한 연대별 출현 빈도를 확인하는 데이터 확인부;
상기 각각의 주제어에 대한 연대별 출현 빈도의 클러스터링 분석을 수행하여 적어도 하나 이상의 그룹으로 군집화하는 데이터 분석부; 및
군집화한 적어도 하나 이상의 그룹을 특정 기술부분의 연구현황 및 추이와 관련된 적어도 하나 이상의 패턴으로 구분하여 결과를 출력하는 결과 산출부;를 포함하는 것을 특징으로 하는 대용량 학술논문정보 분석 시스템. - 청구항 1에 있어서,
상기 주제어 추출부는,
저장부에 기 저장되어 있는 용어 테이블을 참조하여 상기 학술논문정보의 서지정보에 나타나는 용어가 기 설정되어 있는 임계값 이상이면 해당 용어를 주제어로 추출하는 것을 특징으로 하는 대용량 학술논문정보 분석 시스템. - 청구항 1에 있어서,
상기 데이터 확인부는,
상기 학술논문정보를 기 설정된 연대별로 구분할 때, 연대별 학술논문정보의 수가 기 설정되어 있는 임계값 이하이면 해당 연대 및 해당 연대에 속하는 학술논문정보를 분석 대상에서 제외하는 것을 특징으로 하는 대용량 학술논문정보 분석 시스템. - 청구항 1에 있어서,
상기 클러스터링 분석은,
n개의 주제어에 대한 연대별 출현 빈도를 k개의 그룹으로 군집화하는 K-평균 군집화 기법을 사용하는 것을 특징으로 하는 대용량 학술논문정보 분석 시스템. - 청구항 4에 있어서,
상기 K-평균 군집화 기법은,
k개의 초기 점(initial point)을 임의로 선택한 후 각각의 주제어를 상기 주제어와 가장 근접한 초기 점에 배정하여 k개의 군집을 생성하고,
생성된 k개의 군집에 속하는 각각의 주제어의 평균점을 계산한 후 상기 k개의 초기 점을 새롭게 계산된 평균점으로 조정하며,
k개의 군집에 속하는 각각의 주제어의 평균점이 더 이상 조정되지 않을 때까지 상기 평균점 조정을 반복하여 수행하는 것을 특징으로 하는 대용량 학술논문정보 분석 시스템. - 청구항 1에 있어서,
상기 데이터 분석부는,
클러스터링 분석을 수행하기 이전에 각각의 주제어에 대한 연대별 출현 빈도의 정규화를 수행하는 것을 특징으로 하는 대용량 학술논문정보 분석 시스템. - 청구항 1에 있어서,
상기 연구현황 및 추이와 관련된 패턴은,
최근 증가하고 있는 군집(steadily increase & until recently), 마지막 연대에 하강하고 있는 군집(steadily increase but recently decrease), 과거 특정 연대에서 급증한 군집(once popular), 꾸준히 하강하고 있는 군집(mostly decrease) 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 대용량 학술논문정보 분석 시스템. - 분석 장치에서, 특정 기술부분의 학술논문정보로부터 주제어를 추출하는 주제어 추출 단계;
상기 분석 장치에서, 상기 학술논문정보를 기 설정된 연대별로 구분하고, 연대별로 구분한 학술논문정보로부터 상기 주제어 추출 단계에서 추출한 각각의 주제어에 대한 연대별 출현 빈도를 확인하는 데이터 확인 단계;
상기 분석 장치에서, 상기 데이터 확인 단계에서 확인한 상기 각각의 주제어에 대한 연대별 출현 빈도의 클러스터링 분석을 수행하여 적어도 하나 이상의 그룹으로 군집화하는 데이터 분석 단계; 및
상기 분석 장치에서, 상기 데이터 분석 단계를 통해 군집화한 적어도 하나 이상의 그룹을 특정 기술부분의 연구현황 및 추이와 관련된 적어도 하나 이상의 패턴으로 구분하여 결과를 출력하는 결과 산출 단계;를 포함하는 것을 특징으로 하는 대용량 학술논문정보 분석 방법. - 청구항 8에 있어서,
상기 주제어 추출 단계는,
저장부에 기 저장되어 있는 용어 테이블을 참조하여 상기 학술논문정보의 서지정보에 나타나는 용어가 기 설정되어 있는 임계값 이상이면 해당 용어를 주제어로 추출하는 것을 특징으로 하는 대용량 학술논문정보 분석 방법. - 청구항 8에 있어서,
상기 데이터 확인 단계는,
상기 학술논문정보를 기 설정된 연대별로 구분할 때, 연대별 학술논문정보의 수가 기 설정되어 있는 임계값 이하이면 해당 연대 및 해당 연대에 속하는 학술논문정보를 분석 대상에서 제외하는 것을 특징으로 하는 대용량 학술논문정보 분석 방법. - 청구항 8에 있어서,
상기 데이터 분석 단계에서 수행하는 상기 클러스터링 분석은,
n개의 주제어에 대한 연대별 출현 빈도를 k개의 그룹으로 군집화하는 K-평균 군집화 기법을 사용하는 것을 특징으로 하는 대용량 학술논문정보 분석 방법. - 청구항 11에 있어서,
상기 K-평균 군집화 기법은,
k개의 초기 점을 임의로 선택한 후 각각의 주제어를 상기 주제어와 가장 근접한 초기 점에 배정하여 k개의 군집을 생성하는 군집 생성 단계;
상기 군집 생성 단계를 통해 생성된 k개의 군집에 속하는 각각의 주제어의 평균점을 계산한 후 상기 k개의 초기 점을 새롭게 계산된 평균점으로 조정하는 평균점 조정 단계; 및
k개의 군집에 속하는 각각의 주제어의 평균점이 더 이상 조정되지 않을 때까지 상기 평균점 조정 단계를 반복하여 수행하는 반복 수행 단계;를 포함하는 것을 특징으로 하는 대용량 학술논문정보 분석 방법. - 청구항 8에 있어서,
상기 데이터 분석 단계는,
클러스터링 분석을 수행하기 이전에 각각의 주제어에 대한 연대별 출현 빈도의 정규화를 수행하는 것을 특징으로 하는 대용량 학술논문정보 분석 방법. - 청구항 8에 있어서,
상기 결과 산출 단계에서의 연구현황 및 추이와 관련된 패턴은,
최근 증가하고 있는 군집, 마지막 연대에 하강하고 있는 군집, 과거 특정 연대에서 급증한 군집, 꾸준히 하강하고 있는 군집 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 대용량 학술논문정보 분석 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160134313A KR101741408B1 (ko) | 2016-10-17 | 2016-10-17 | 대용량 학술논문정보 분석 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160134313A KR101741408B1 (ko) | 2016-10-17 | 2016-10-17 | 대용량 학술논문정보 분석 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101741408B1 true KR101741408B1 (ko) | 2017-05-30 |
Family
ID=59053191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160134313A KR101741408B1 (ko) | 2016-10-17 | 2016-10-17 | 대용량 학술논문정보 분석 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101741408B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190107252A (ko) * | 2018-03-09 | 2019-09-19 | 대진대학교 산학협력단 | 가상 캐릭터의 커스터마이징 학습을 통한 ar기반 테마여행 ai 큐레이션 제공시스템 |
KR20190109774A (ko) * | 2018-03-09 | 2019-09-27 | 대진대학교 산학협력단 | 가상 캐릭터의 커스터마이징 학습을 통한 mr 기반의 식습관 개선용 ai 비서 서비스 제공 시스템 |
KR102151272B1 (ko) * | 2020-01-07 | 2020-09-02 | 한국토지주택공사 | 예측모델 학습을 통한 데이터 분석 방법, 장치 및 컴퓨터프로그램 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016095684A (ja) | 2014-11-14 | 2016-05-26 | Kddi株式会社 | 予測モデル構築装置及びプログラム |
-
2016
- 2016-10-17 KR KR1020160134313A patent/KR101741408B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016095684A (ja) | 2014-11-14 | 2016-05-26 | Kddi株式会社 | 予測モデル構築装置及びプログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190107252A (ko) * | 2018-03-09 | 2019-09-19 | 대진대학교 산학협력단 | 가상 캐릭터의 커스터마이징 학습을 통한 ar기반 테마여행 ai 큐레이션 제공시스템 |
KR20190109774A (ko) * | 2018-03-09 | 2019-09-27 | 대진대학교 산학협력단 | 가상 캐릭터의 커스터마이징 학습을 통한 mr 기반의 식습관 개선용 ai 비서 서비스 제공 시스템 |
KR102033240B1 (ko) * | 2018-03-09 | 2019-10-17 | 대진대학교 산학협력단 | 가상 캐릭터의 커스터마이징 학습을 통한 mr 기반의 식습관 개선용 ai 비서 서비스 제공 시스템 |
KR102042919B1 (ko) * | 2018-03-09 | 2019-11-11 | 대진대학교 산학협력단 | 가상 캐릭터의 커스터마이징 학습을 통한 ar기반 테마여행 ai 큐레이션 제공시스템 |
KR102151272B1 (ko) * | 2020-01-07 | 2020-09-02 | 한국토지주택공사 | 예측모델 학습을 통한 데이터 분석 방법, 장치 및 컴퓨터프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Thenmozhi et al. | Heart disease prediction using classification with different decision tree techniques | |
CN106960248B (zh) | 一种基于数据驱动预测用户问题的方法及装置 | |
KR101741408B1 (ko) | 대용량 학술논문정보 분석 시스템 | |
US10387805B2 (en) | System and method for ranking news feeds | |
AU2013365452A1 (en) | Document classification device and program | |
JP4997892B2 (ja) | 検索システム、検索方法及び検索プログラム | |
CN104679911B (zh) | 一种基于离散弱相关的云平台决策森林分类方法 | |
JP5588811B2 (ja) | データ分析支援システム及び方法 | |
CN105786898B (zh) | 一种领域本体的构建方法和装置 | |
CN108897769A (zh) | 基于生成式对抗网络实现文本分类数据集扩展方法 | |
Rafea et al. | Classification of a COVID-19 dataset by using labels created from clustering algorithms | |
Das et al. | RETRACTED ARTICLE: Building a computational model for mood classification of music by integrating an asymptotic approach with the machine learning techniques | |
Gao et al. | Research on book personalized recommendation method based on collaborative filtering algorithm | |
Ashraf et al. | Feature selection techniques on thyroid, hepatitis, and breast cancer datasets | |
Nurhachita et al. | A comparison between naïve bayes and the k-means clustering algorithm for the application of data mining on the admission of new students | |
JP5439235B2 (ja) | 文書分類方法、文書分類装置、およびプログラム | |
JP6300572B2 (ja) | データ分析プログラム、及びデータ分析装置 | |
CN116484019A (zh) | 中文异体字字典库构建与输出利用方法 | |
CN114357149A (zh) | 摘要生成装置、控制方法及系统 | |
CN114021631A (zh) | 银行客户分类方法及装置 | |
WO2016013175A1 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
Hartanto et al. | Classifying User Personality Based on Media Social Posts Using Support Vector Machine Algorithm Based on DISC Approach | |
CN104572854A (zh) | 一种基于决策树的译员分类方法 | |
CN107577656B (zh) | 文本隐含语义激活方法及系统 | |
JP5240777B2 (ja) | 文書分類装置及び文書分類方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20161017 |
|
PA0201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20170519 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20170524 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20170524 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20210217 Start annual number: 5 End annual number: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20220711 Start annual number: 6 End annual number: 6 |