KR101679249B1 - Analysis method and device for scientific research information revolution - Google Patents
Analysis method and device for scientific research information revolution Download PDFInfo
- Publication number
- KR101679249B1 KR101679249B1 KR1020140148627A KR20140148627A KR101679249B1 KR 101679249 B1 KR101679249 B1 KR 101679249B1 KR 1020140148627 A KR1020140148627 A KR 1020140148627A KR 20140148627 A KR20140148627 A KR 20140148627A KR 101679249 B1 KR101679249 B1 KR 101679249B1
- Authority
- KR
- South Korea
- Prior art keywords
- scientific research
- subject
- evolution
- parameter
- words
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
본 발명은 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는 단계; 전처리 유닛을 통해 과학연구 문헌에 대해 전처리를 진행하고, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계; 및 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 정보 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계를 포함하는 과학연구 정보 진화의 분석 방법 및 장치를 제공한다. 본 발명이 제공하는 실시예에 있어서 미리 설정한 분야에서 과학연구 문헌을 수집하고, 과학연구 문헌에 대해 전처리를 진행하며, 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 진화 연산 공식을 이용하여 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙을 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맥락을 파악하는데 유리하다.Collecting at least two scientific research documents in a predetermined field through a collection unit; Preprocessing the scientific research literature through a preprocessing unit and constructing an authorship evolution model of two or more scientific research literature; And acquiring the scientific research information evolution result by setting the scientific research information estimation parameter through the acquisition unit and calculating the scientific research information estimation parameter by using the evolutionary operation formula. Lt; / RTI > In the embodiment provided by the present invention, the scientific research literature is collected in a predetermined field, the preprocessing is carried out on the scientific research literature, the authors subject evolution model of the scientific research literature is constructed, In order to obtain the results of the evolution of research information, the results of the evolution of scientific research information should include the topics of the scientific research literature and the research interests of the researchers, as well as the temporal change rules such as the scientific research theme of the pre- It is advantageous to grasp the evolutionary context of the scientific research subject in the predetermined field.
Description
본 발명은 과학연구 정보 분석 기술분야에 관한 것으로서, 특히 과학연구 정보 진화의 분석 방법 및 장치에 관한 것이다.The present invention relates to the field of scientific research information analysis technology, and more particularly, to a method and apparatus for analyzing scientific research information evolution.
과학연구 문헌은 학술 성과의 주요 저장 매개체로서, 연구원의 대량의 땀과 지혜가 응집되어 있으며, 인류사회에 있어서 지식전파 및 학술교류의 중요 수단이며, 어떠한 과학연구 성과도 모두 이전의 과학연구의 기초 상에 이루어진다. 프라이스 과학연구 문헌 지수 증가법칙 및 로직 곡선 증가 모형은 과학연구 문헌의 수량은 지수적 차수로 증가됨을 보여준다. 과학기술 발전 현황을 정확하게 파악하기 위하여 과학연구 문헌의 특징 정보를 결합하여, 방대한 과학연구 문헌 자료 중에서 과학기술 주제 및 그 내부 발전 맥락을 찾아낼 수 있다. 그 중에서, 과학연구 문헌 자원은 대량의 특징 정보, 예를 들어 단어와 단어 사이의 잠재적 어의 관계, 과학연구 문헌의 주제 및 저자의 관계(저자의 연구 관심), 연구 포인트의 흥행에서 성숙 및 쇠퇴의 과정 등을 포함한다.Scientific research literature is the main storage medium of scholarly achievement. It is a mass of sweat and wisdom of researchers. It is an important means of knowledge dissemination and academic exchanges in human society. Lt; / RTI > The Price Science Index and the Logic Curve Growth Model show that the quantity of scientific research literature is increased to an exponential order. In order to accurately grasp the state of science and technology development, it is possible to combine the feature information of scientific research literature and find out the science technology subject and its internal development context from the vast scientific research literature data. Among them, scientific research literature resources are characterized by a large amount of feature information, for example, the relationship of potential words between words and words, the relationship between the subject of the scientific research literature and the author (research interests of the author) And the like.
종래 기술에 있어서, Rosen-Zvi 등은 LDA 모형에 저자의 숨은 변수를 도입하고, 저자-주제(Author-Topic,AT)분포로 LDA 모형 중의 과학연구 문헌-주제분포를 대체하였다. AT 모형은 과학연구 문헌의 저자 및 과학연구 문헌의 주제 사이의 관계를 효율적으로 발굴할 수 있으며, 연구원의 연구 관심을 찾아낼 수 있다. 그러나 AT 모형은 각 연구원이 하나의 연구 관심을 가진다고 숨은 방식으로 가정하며, 이러한 제한 조건을 극복하기 위하여, Mimno 등은 AT 모형의 기초 상에서 저자-신분-주제(Author-Persona-Topic,APT)모형을 구축하였다. 이러한 모형은 연구원의 '신분'(Persona)과 연구 관심을 대응시켰으며, 연구 관심 수량을 추정하는 계발 방법을 제공한다. 그러나 AT 및 APT 모형은 연구원의 연구 관심을 발굴할 때, 오직 그가 저술한 과학연구 문헌만 고려하고, 시간적 요소에 의한 영향에 대해서는 직접적으로 고려하지 않았기에, 과학연구 문헌의 주제, 연구원의 연구 관심의 시간적 변화 규칙에 대해 게시할 수 없다.In the prior art, Rosen-Zvi et al. Introduced the authors' hidden variables into the LDA model and replaced the scientific literature-subject distribution in the LDA model with an Author-Topic (AT) distribution. The AT model can efficiently identify the relationship between the author of the scientific research literature and the subject of the scientific research literature, and can find the research interest of the researcher. However, in order to overcome these limitations, Mimno et al. Proposed an Author-Persona-Topic (APT) model on the basis of an AT model. . These models correspond to the 'persona' of the researcher and the research interest, and provide an enlightenment method for estimating the amount of research interest. The AT and APT models, however, did not directly consider the effects of time factors when considering the research interests of the researchers, only considering the scientific research literature, Can not post about the temporal change rule of.
본 발명은 종래 기술에서 과학연구 문헌의 주제, 연구원의 연구 관심의 시간적 변화 규칙을 게시할 수 없는 과제를 해결하기 위한 과학연구 정보 진화의 분석 방법 및 장치를 제공한다.The present invention provides a method and apparatus for analyzing the evolution of scientific research information for solving a problem that can not be posted on the subject of scientific research literature and time change rules of research interest of researchers in the prior art.
종래 기술 중의 상기 과제를 해결하기 위하여, 본 발명은 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는 단계; 전처리 유닛을 통해 상기 과학연구 문헌에 대해 전처리를 진행하고, 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계; 및 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계를 포함하는 과학연구 정보 진화의 분석 방법을 제공한다.In order to solve the above problems in the prior art, the present invention relates to a method for collecting scientific research documents in a field set in advance through a collection unit; Preprocessing the scientific research literature through a preprocessing unit and building an authorship evolution model of the two or more scientific research literature; And acquiring the scientific research information evolution result by setting the scientific research information estimation parameter through the acquisition unit and calculating the scientific research estimation parameter by using the evolutionary operation formula, thereby providing an analysis method of scientific research information evolution do.
또한 본 발명은 과학연구 정보 진화의 분석 장치에 있어서, 수집 유닛, 전처리 유닛 및 획득 유닛을 포함하되, 상기 수집 유닛은 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고; 상기 전처리 유닛은 상기 과학연구 문헌에 대해 전처리를 진행하고, 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하며; 상기 획득 유닛은 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 과학연구 정보 진화의 분석 장치를 더 제공한다.The invention also relates to an apparatus for analyzing the evolution of scientific research information, comprising: a collection unit, a preprocessing unit and an acquisition unit, the collection unit collecting two or more scientific research articles in a predetermined field; Wherein the preprocessing unit preprocesses the scientific research literature and builds an authorship evolution model of the two or more scientific research literature; The acquisition unit further provides a device for analyzing scientific research information evolution that acquires scientific research information evolution results by setting scientific research information estimation parameters and computing the scientific research estimation parameters using an evolutionary operation formula.
본 발명에 의해 제공된 실시예는 아래와 같은 유익한 효과를 제공한다.The embodiments provided by the present invention provide the following beneficial effects.
본 실시예에 있어서, 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고, 과학연구 문헌에 대해 전처리를 진행하며, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙을 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맥락을 파악하는데 유리하다.In this embodiment, two or more scientific research documents are collected in a predetermined field, preprocessing is carried out on scientific research documents, an authors subject evolution model of two or more scientific research documents is constructed, and a scientific research information estimation parameter The results of the evolution of scientific research information are obtained by posting the research topics of the scientific research literature and the research interests of the researchers, It is advantageous to grasp the evolutionary context of science research subject in pre-set field because it is possible to find and publish time change rule such as scientific research theme of scientific research field and research interest of researcher.
본 발명의 상술한 및/또는 추가 부분 및 장점은 아래의 도면을 결부하여 진행된 실시예의 설명에서더욱 명확하게 되며 쉽게 이해할 수 있게 된다.
도 1은 본 발명에 따른 과학연구 정보 진화의 분석 방법의 제 1실시예의 흐름도이다.
도 2는 본 발명에 따른 과학연구 정보 진화의 분석 방법의 제 2실시예의 흐름도이다.
도 3은 본 실시예 중 AToT 모형의 확률도이다.
도 4는 본 실시예 중 주제 '학습 강화'의 시간적 변화의 추세도이다.
도 5는 본 실시예 중 주제 'EM와 혼합모형'의 시간적 변화의 추세도이다.
도 6은 본 실시예 중 주제 '육안 식별 및 인자 분석'의 시간적 변화의 추세도이다.
도 7은 본 실시예 중 주제 '데이터 모형 및 학습 알고리즘'의 시간적 변화의 추세도이다.
도 8은 본 실시예 중 주제 '서포트 벡터 머신 및 커널기법'의 시간적 변화의 추세도이다.
도 9는 본 실시예 중 주제 '신경망'의 시간적 변화의 추세도이다.
도 10은 본 실시예 중 주제 '언어식별'의 시간적 변화의 추세도이다.
도 11은 본 실시예 중 주제 '베이지안 학습'의 시간적 변화의 추세도이다.
도 12는 본 실시예 중 과학연구 문헌의 시간 분포도이다.
도 13은 본 실시예 중 연구원의 연구 주제의 시간 진화 모형도이다.
도 14는 본 실시예 중 AT 모형 및 AToT 모형의 혼란도(perplexity)의 비교 모식도이다.
도 15는 본 발명에 따른 과학연구 정보 진화의 분석 장치의 제 1실시예의 구성 모식도이다.
도 16은 본 발명에 따른 과학연구 정보 진화의 분석 장치의 제 2실시예의 구성 모식도이다.The foregoing and / or additional aspects and advantages of the present invention will become more apparent from the following description of the embodiments thereof, taken in conjunction with the accompanying drawings, in which:
1 is a flowchart of a first embodiment of a method for analyzing scientific research information evolution according to the present invention.
2 is a flowchart of a second embodiment of a method for analyzing scientific research information evolution according to the present invention.
3 is a probability diagram of the AToT model in this embodiment.
FIG. 4 is a trend diagram of the temporal change of the theme 'reinforcement of learning' in the present embodiment.
FIG. 5 is a trend diagram of temporal change of the subject 'EM and mixed model' in the present embodiment.
FIG. 6 is a trend diagram of temporal change of the subject 'visual identification and factor analysis' in the present embodiment.
FIG. 7 is a trend diagram of the temporal change of the subject 'data model and learning algorithm' in the present embodiment.
FIG. 8 is a trend diagram of temporal change of the theme 'support vector machine and kernel technique' in this embodiment.
FIG. 9 is a trend diagram of temporal change of the subject 'neural network' in the present embodiment.
FIG. 10 is a trend diagram of temporal change of the theme 'language identification' in the present embodiment.
11 is a trend diagram of temporal change of the theme 'Bayesian learning' in this embodiment.
12 is a time distribution diagram of scientific research documents in this embodiment.
13 is a time evolution model diagram of the research subject of the present embodiment.
FIG. 14 is a schematic diagram showing a comparison of the perplexity of the AT model and the AToT model in this embodiment.
FIG. 15 is a structural diagram of a first embodiment of an apparatus for analyzing scientific research information evolution according to the present invention. FIG.
16 is a structural diagram of a second embodiment of an apparatus for analyzing scientific research information evolution according to the present invention.
이하 본 발명의 실시예에 대해 상세하게 설명하는데, 상기 실시예의 예시는 첨부된 도면에 나타내며, 그 중, 동일 또는 유사한 부호는 시종일관으로 동일하거나 유사한 소자 또는 동일하거나 유사한 기능을 가지는 소자를 나타낸다. 이하 도면을 참조하여 설명한 실시예는 예시적인 것이며, 단지 본 발명을 해석하는데 사용되며, 본 발명을 한정하는데 사용되는 것은 아니다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, in which like or similar reference numerals denote elements having the same or similar elements or elements having the same or similar functions. The embodiments described below with reference to the drawings are illustrative and are used merely for interpreting the present invention and are not used to limit the present invention.
본 기술분야의 당업자는 특별히 성명한 부분을 제외하고 여기에서 사용되는 단수형식의 "일", "한개", "상기" 및 "해당"은 복수형식도 포함한다는 것을 이해할 수 있다. 또한 본 발명의 명세서에서 사용되는 표현 "포함"은 상기 특징, 정수, 단계, 조작, 소자 및/또는 모듈의 존재함을 나타내지만, 한개 또는 복수개 기타 특징, 정수, 단계, 조작, 소자, 모듈 및/또는 이들 그룹의 존재 또는 추가를 배제하지 않는다는 것도 이해하여야 한다. 한 소자가 다른 소자에 "연결" 또는 "커플링"되었다고 할 때, 이는 해당 소자가 다른 소자에 직접 연결 또는 커플링되거나 중간 소자가 존재할 수도 있다고 이해하여야 한다. 그 외, 여기에서 사용되는 "연결" 또는 "커플링"은 무선 연결 또는 커플링을 포함할 수 있다. 여기에서 사용되는 표현 "및/또는"는 하나 또는 하나 이상의 서로 관련되는 열거항의 임의의 유닛 또는 전부의 조합을 포함한다.Those skilled in the art will recognize that the singular forms "a," " an ", "above" and "include" Also, the phrase "comprising" as used herein should be interpreted as indicating the presence of said features, integers, steps, operations, elements and / or modules but may include one or more other features, integers, And / or does not exclude the presence or addition of these groups. When an element is referred to as being "connected" or "coupled" to another element, it should be understood that the element may be directly coupled or coupled to another element, or an intermediate element may be present. In addition, "connection" or "coupling ", as used herein, may include wireless connection or coupling. As used herein, the phrase "and / or" includes any or all combinations of one or more related enumerated terms.
본 기술분야의 당업자는 별도의 정의를 제외하고, 여기에서 사용되는 모든 용어(기술 용어 및 과학 용어를 포함)는 본 발명이 속하는 기술분야의 당업자가 보편적으로 이해하는 동일한 의미를 가진다는 것을 이해하여야 한다. 또한 예를 들어 일반적으로 사용되는 사전에 정의되어 있는 용어는 종래 기술의 상하문에서의 의미와 일치한 의미를 가지고, 여기에서와 같이 정의되는 경우를 제외하고 이상화 또는 지나치게 공식적인 의미로 해석되지 않는 것도 이해하여야 한다. It will be apparent to those skilled in the art that, except as otherwise defined, all terms (including technical and scientific terms) used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs do. Also, for example, commonly used predefined terms have the meaning consistent with the meanings in the upper and lower statements of the prior art, and are not to be construed as idealized or overly formal meanings except as defined herein I must understand.
도 1은 본 발명에 따른 과학연구 정보 진화의 분석 방법의 제 1실시예의 흐름도이다. 도 1에 도시된 바와 같이, 본 실시예에 따른 과학연구 정보 진화의 분석 방법의 동작 프로세스는 아래와 같은 단계를 포함한다.1 is a flowchart of a first embodiment of a method for analyzing scientific research information evolution according to the present invention. As shown in Fig. 1, the operation process of the analysis method of scientific research information evolution according to the present embodiment includes the following steps.
단계101: 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집한다.Step 101: Collect more than one scientific research literature in a predetermined field through the collection unit.
본 실시예에 있어서, 컴퓨터를 통해 수집 유닛, 전처리 유닛 및 획득 유닛의 기능을 수행할 수 있다. 본 단계에 있어서, 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는데, 예를 들어 수집 유닛을 통해 어느 과학연구 분야에서 1000편의 과학연구 문헌을 수집할 수 있다. 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집한 후, 단계 102에 진입한다.In the present embodiment, the functions of the acquisition unit, the preprocessing unit, and the acquisition unit can be performed through the computer. In this step, the collection unit collects two or more scientific research documents in a predetermined field. For example, the collection unit can collect 1000 scientific research documents in a scientific research field. After collecting two or more scientific research documents in a predetermined field through the collection unit,
단계 102: 전처리 유닛을 통해 상기 과학연구 문헌에 대해 전처리를 진행하고, 두 편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축한다.Step 102: Preprocessing the scientific research literature through a preprocessing unit and constructing an authorship evolution model of two or more scientific research literature.
본 단계에 있어서, 전처리 유닛을 통해 수집한 모든 과학연구 문헌에 대해 전처리를 진행하는데, 사용중지 단어, 숫자 및 미리 설정한 빈도보다 낮은 단어 등을 필터링하는 것을 포함하며, 과학연구 문헌의 저자 이름에 대해 중의성 해소를 진행하며, 이름 중의성 해소 방법은 인공 중의성 해소법, 반 자동 중의성 해소법, 자동 중의성 해소법 및 혼합 중의성 해소법 등을 포함하며, 전처리 완성 후 정리를 통해 V개의 텀으로 구성된 사전 및 A명의 저자로 조성된 과학기술 종사자 집합을 얻을 수 있으며, 또한 과학연구 문헌의 발표시간을 구간(0, 1)으로 정규화 처리를 진행한다. 수집한 각 과학연구 문헌의 저자 주제 진화 모형(Author-Topic over Time,AToT)을 구축하는 단계는 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(), 저자 주제 파라미터(), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분() 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분()을 계산하는 것을 포함한다. 그 중, 깁스 샘플링 알고리즘 공식은 아래와 같으며,In this step, all the scientific research articles collected through the preprocessing unit are preprocessed, including filtering out of use words, numbers and words lower than a predetermined frequency, and the name of the author of the scientific research document The method of resolving the name of the name includes the artificial neutralization method, the semi-automatic neutralization method, the automatic neutralization method and the mixed neutralization method. And a set of science and technology workers who are made up of A authors. In addition, the presentation time of the scientific research literature is normalized to the interval (0, 1). Author-Topic over Time (AToT) of each collected scientific research literature is constructed by using the Gibbs sampling algorithm, ), Author subject parameter ( ), The theme allocation of the n words in the scientific research literature (m) ) And the authors' distribution of the n words in the scientific research literature (m) ). ≪ / RTI > Among them, the formula of Gibbs sampling algorithm is as follows,
그 중, K는 수집한 적어도 두 편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고, 는 주제(k)의 시간적 변화 베타(Beta) 분포 파라미터 벡터이며,는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고, 는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며, 는 과학연구 문헌(m) 중 제 n개 단어이며, 는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며, 는 (a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며, 는 저자 (a)의 주제 확률 분포 파라미터이며, 는 (k = 1, …, K)의 디리클레 선험 파라미터 벡터이며, 는 주제(k)의 텀 확률 분포이며, 는 단어()에 배분된 주제 이외의 모든 주제 변수이며, 는 단어()에 배분된 저자 이외의 모든 저자 변수이며,는 텀(v)이 주제()에 배분되는 차수이며, 는 저자()가 책임진 단어가 주제(k)에 배분되는 차수이다.K is the number of subjects covered by at least two scientific research articles collected, Nm is the number of words in the scientific research document (m), and a m is a vector formed by the author of the scientific research document (m) A m is the number of authors of the scientific research literature (m) Is a temporally varying Beta distribution parameter vector of the subject k, Is the subject allocation of the n words of the scientific research document (m) Is the authorship of the n words of the scientific research literature (m) Is the n-th word of the scientific research document (m) Is the time stamp of the n words of the scientific research document (m) The (A = 1, ... , A) is a Dirichlet priori parameter vector, Is the subject probability distribution parameter of the author (a) The (K = 1, ... , ≪ / RTI > K, Is the term probability distribution of the subject (k) Is the word ( ) Are all subject variables other than those that are distributed, Is the word ( ) Are all authors other than authors, (V) is the subject ( ), ≪ / RTI > The author ( ) Is the order to which the words responsible are allocated to the topic (k).
전처리 유닛을 통해 과학연구 문헌에 대해 전처리를 진행하고, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축한 후 단계 103에 진입한다.Preprocessing the scientific research literature through a preprocessing unit, constructing an authorship evolution model of two or more scientific research documents, and entering
단계 103: 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고, 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득한다.Step 103: Establish scientific research information estimation parameters through the acquisition unit, and obtain scientific research information evolution results by computing scientific research estimation parameters using evolutionary arithmetic formulas.
본 단계에 있어서, 단계 102에서의 전처리 결과를 이용하여, 획득 유닛에 의해 이용되는 근사 추론 알고리즘을 통해 과학연구 정보 추산 파라미터를 설정하는데, 그 중, 과학연구 정보 추산 파라미터는 주제 텀 파라미터(), 저자 주제 파라미터(), 주제 시간 파라미터(), 과학 연구 문헌(m) 중 제 n개 단어의 주제 배분() 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분()을 포함한다. 그 중, 주제 텀 파라미터(), 저자 주제 파라미터(), 과학 연구 문헌(m) 중 제 n개 단어의 주제 배분() 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분()을 설정하는 근사 추론 알고리즘은 변분 기대치 최대화(Variational Expectation-Maximization), 기대치 전파 및 깁스 샘플링 등을 포함한다. 주제 시간 파라미터( )를 설정하는 근사 추론 알고리즘은 최대우도 추정법, 적률 추정법, 퍼트(Program Evaluation and Review Technique,PERT)추정법, TSP(Two-Sided Power Distribution)추산법 및 분위수 추정법 등을 포함한다.In this step, the pre-processing result at
그 다음, 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데, 그 중, 진화 연산 공식은 아래와 같으며, Next, the scientific research information evolution result is obtained by calculating the above scientific research estimation parameter by using the evolutionary calculation formula, among which the evolutionary calculation formula is as follows,
그 중, 는 과학연구 문헌 저자(a) 주제(k)의 확률 분포이며, 와 는 주제(k)의 시간적 변화 Beta 분포 파라미터이고, 는 베타 분포의 확률 밀도 함수이다.among them, (A) the probability distribution of the subject (k) Wow Is the temporal change Beta distribution parameter of the subject k, Is the probability density function of the beta distribution.
본 실시예에 있어서, 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하고, 과학연구 진화 결과를 유저한테 보여주며, 예를 들어 표시 유닛을 통해 유저에게 과학연구 정보 진화 결과를 보여주는데, 상기 단계를 통해 획득한 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시할 뿐만아니라, 미리 설정한 분야에서의 과학연구 주제, 연구원의 연구 관심 등의 시간적 진화 규칙을 발굴 게시할 수 있다.In this embodiment, the scientific research information evolution result is obtained by calculating the scientific research estimation parameter by using the evolution calculation formula, and the scientific research evolution result is displayed to the user. For example, The results of scientific research information evolution obtained through the above steps show not only the topics of scientific research literature, but also the research interests of researchers, as well as scientific research topics in predefined fields, research interests of researchers Such as the time evolution of the rules can be found.
본 실시예에 있어서, 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고, 과학연구 문헌에 대해 전처리를 진행하며, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙도 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맹락을 파악하는데 유리하다.In this embodiment, two or more scientific research documents are collected in a predetermined field, preprocessing is carried out on scientific research documents, an authors subject evolution model of two or more scientific research documents is constructed, and a scientific research information estimation parameter The results of the evolution of scientific research information are obtained by posting the research topics of the scientific research literature and the research interests of the researchers, It is also advantageous to grasp the temporal change rules such as the theme of scientific research in the scientific research field and the research interest of the researcher, and to find out the evolutionary fallacy of the scientific research theme in the predetermined field.
도 2는 본 발명에 따른 과학연구 정보 진화의 분석 방법의 제 2실시예의 흐름도이고, 도 3은 본 실시예 중 AToT 모형의 확률 도이며, 도 4는 본 실시예 중 주제 '학습 강화'의 시간적 변화의 추세도이고, 도 5는 본 실시예 중 주제 'EM와 혼합모형'의 시간적 변화의 추세도이며, 도 6은 본 실시예 중 주제 '육안 식별 및 인자 분석'의 시간적 변화의 추세도이고, 도 7은 본 실시예 중 주제 '데이터 모형 및 학습 알고리즘'의 시간적 변화의 추세도이며, 도 8은 본 실시예 중 주제 '서포트 벡터 머신 및 커널기법'의 시간적 변화의 추세도이고, 도 9는 본 실시예 중 주제 '신경망'의 시간적 변화의 추세도이며, 도 10은 본 실시예 중 주제 '언어식별'의 시간적 변화의 추세도이고, 도 11은 본 실시예 중 주제 '베이지안 학습'의 시간적 변화의 추세도이며, 도 12는 본 실시예 중 과학연구 문헌의 시간 분포도이고, 도 13은 본 실시예 중 연구원의 연구 주제의 시간진화 모형도이며, 도 14는 본 실시예 중 AT 모형 및 AToT 모형의 혼란도(perplexity)의 비교 모식도이다. 도 2에 도시된 바와 같이, 본 실시예의 과학연구 정보 진화의 분석 방법의 동작 프로세스는 구체적으로 아래와 같은 단계를 포함한다.FIG. 2 is a flowchart of a second embodiment of a method for analyzing the evolution of scientific research information according to the present invention. FIG. 3 is a probability diagram of the AToT model in the present embodiment. FIG. FIG. 5 is a graph showing the temporal change of the theme 'EM and mixed model' in the present embodiment. FIG. 6 is a graph showing the temporal change of the theme 'visual identification and factor analysis' , FIG. 7 is a trend diagram of the temporal change of the subject 'data model and learning algorithm' in the present embodiment, FIG. 8 is a trend of temporal change of the 'support vector machine and kernel technique' FIG. 10 is a graph showing the temporal change of the theme 'language identification' in the present embodiment, and FIG. 11 is a graph showing the change of the theme 'Bayesian learning' in the present embodiment. FIG. 12 is a graph showing a change in the time-dependent change FIG. 13 is a time evolution diagram of the research subject of the researcher in this embodiment, and FIG. 14 is a schematic diagram of the perplexity of the AT model and the AToT model in this embodiment. As shown in Fig. 2, the operation process of the analysis method of scientific research information evolution of the present embodiment specifically includes the following steps.
단계 201: 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집한다.Step 201: Collect more than one scientific research literature in a pre-established field through the collection unit.
본 실시예에 있어서, 1987년부터 1999년까지 총 13년의 '신경 정보 처리 시스템'(Neural Information Processing System,NIPS)에 관한 회의 논문 전문을 수집 정리하고, 과학연구 문헌의 수량은 1740편이며, 단계 202에 진입한다.In this example, a total of 13 articles on the Neural Information Processing System (NIPS) from 1987 to 1999 were collected. The volume of scientific research literature is 1740,
단계 202: 전처리 유닛을 통해 과학연구 문헌에 대해 전처리를 진행한다.Step 202: The preprocessing unit preprocesses the scientific research literature.
본 단계에 있어서, 전처리 유닛을 통해 수집한 모든 과학연구 문헌에 대해 전처리를 진행하는데, 사용중지 단어, 숫자 및 미리 설정한 빈도보다 낮은 단어 등을 필터링하는 것을 포함하며, 과학연구 문헌의 저자 이름에 대해 중의성 해소를 진행하며, 이름 중의성 해소 방법은 인공 중의성 해소법, 반 자동 중의성 해소법, 자동 중의성 해소법 및 혼합 중의성 해소법 등을 포함하며, 전처리 완성 후 정리를 통해 V개의 텀으로 구성된 사전 및 A명의 저자로 조성된 과학기술 종사자 집합을 얻을 수 있으며, 또한 과학연구 문헌의 발표시간을 구간(0, 1)으로 정규화 처리를 진행한다. 본 실시예에 있어서, 전처리 유닛은 수집한 NIPS회의 논문에 대해 전처리를 진행하며, 전처리 완성 후 V개의 텀으로 구성된 단어 집합 및 A명의 저자로 조성된 과학기술 종사자 집합을 얻을 수 있으며, 또한 NIPS회의 논문의 발표시간을 구간(0, 1)으로 정규화 처리를 진행하며, 그 중, V=12364, A=2037이다. 과학 연구 문헌에 대해 전처리를 진행한 후, 단계 203에 진입한다.In this step, all the scientific research articles collected through the preprocessing unit are preprocessed, including filtering out of use words, numbers and words lower than a predetermined frequency, and the name of the author of the scientific research document The method of resolving the name of the name includes the artificial neutralization method, the semi-automatic neutralization method, the automatic neutralization method and the mixed neutralization method. And a set of science and technology workers who are made up of A authors. In addition, the presentation time of the scientific research literature is normalized to the interval (0, 1). In the present embodiment, the preprocessing unit preprocesses the collected NIPS papers, obtains a set of words consisting of V terms after completion of preprocessing, and a set of scientific and technological workers composed of authors of A. In addition, The presentation time of the paper is normalized to the interval (0, 1), where V = 12364 and A = 2037. After preprocessing the scientific research literature,
단계 203: 수집한 과학연구 문헌의 저자 주제 진화 모형을 구축한다.Step 203: Build the authors subject evolution model of the collected scientific research literature.
본 단계에 있어서, 수집한 과학연구 문헌의 AToT 모형을 구축하는데, AToT 모형의 확률도는 도 3에 도시된 바와 같으며, 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(), 저자 주제 파라미터(), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분() 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분()을 계산하는 것을 포함한다. 그 중, 깁스 샘플링 알고리즘 공식은 아래와 같으며, In this step, the AToT model of the collected scientific research literature is constructed. The probability of the AToT model is as shown in FIG. 3. Specifically, the Gibbs sampling algorithm is used to calculate the theme term parameter ), Author subject parameter ( ), The theme allocation of the n words in the scientific research literature (m) ) And the authors' distribution of the n words in the scientific research literature (m) ). ≪ / RTI > Among them, the formula of Gibbs sampling algorithm is as follows,
그 중, K는 수집한 적어도 두편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고, 는 주제(k)의 시간적 변화의 베타(Beta) 분포 파라미터 벡터이며,는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고, 는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며, 는 과학연구 문헌(m) 중 제 n개 단어이며, 는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며, 는 (a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며, 는 저자 (a)의 주제 확률 분포 파라미터이며, 는 (k = 1, …, K)의 디리클레 선험 파라미터 벡터이며, 는 주제(k)의 텀 확률 분포이며, 는 단어()에 배분된 주제 이외의 모든 주제 변수이며, 는 단어()에 배분된 저자 이외의 모든 저자 변수이며,는 텀(v)이 주제()에 배분되는 차수이며, 는 저자()가 책임진 단어가 주제(k)에 배분되는 차수이며, 그 중, K=100, =50/K(), =0.1()으로 설정할 수 있다. 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축한 후, 단계 204에 진입한다.K is the number of subjects covered by at least two scientific research articles collected, Nm is the number of words in the scientific research document (m), and a m is a vector formed by the author of the scientific research document (m) A m is the number of authors of the scientific research literature (m) Is a Beta distribution parameter vector of the temporal change of the subject k, Is the subject allocation of the n words of the scientific research document (m) Is the authorship of the n words of the scientific research literature (m) Is the n-th word of the scientific research document (m) Is the time stamp of the n words of the scientific research document (m) The (A = 1, ... , A) is a Dirichlet priori parameter vector, Is the subject probability distribution parameter of the author (a) The (k = 1, ..., K) Is the term probability distribution of the subject (k) Is the word ( ) Are all subject variables other than those assigned to the subject, Is the word ( ) Are all authors other than authors, (V) is the subject ( ), ≪ / RTI > The author ( ) Is the order to which the word responsible is allocated to the subject (k), among which K = 100, = 50 / K ( ), = 0.1 ( ). After constructing the authorship evolution model of more than one scientific research literature, enter
단계 204: 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정한다.Step 204: Set the scientific research information estimation parameter through the acquisition unit.
본 단계에 있어서, 단계 203에서 구축한 AToT 모형에 의하여, 단계 202에서의 전처리 결과를 이용하여, 획득 유닛에 의해 이용되는 근사 추론 알고리즘을 통해 과학연구 정보 추산 파라미터를 설정하며, 그 중, 과학연구 정보 추산 파라미터는 주제 텀 파라미터(), 저자 주제 파라미터(), 주제 시간 파라미터(), 과학 연구 문헌(m) 중 제 n개 단어의 주제 배분() 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분()을 포함한다. In this step, by using the AToT model constructed at
본 실시예에 있어서, 깁스 샘플링을 2000차 반복 수행하며, 전체 과정은 수렴되는 추세를 보이며, 이때, 각 단어()에 상응한 주제()와 저자()를 배분하며, 디리클레 분포의 기대치를 이용하여 주제(k)의 텀 확률분포 파라미터() 및 저자(a)의 주제 확률 분포 파라미터()를 추정하며, () 및 ()의 계산 공식은 아래와 같으며,In the present embodiment, Gibbs sampling is repeated 2000 times, and the whole process shows a tendency to converge, ) Corresponding topic ( ) And author ) And distributes the term probability distribution parameter (k) of the subject (k) using the dirichlet distribution expectation ) And the subject's probability distribution parameter (a) ), And ) And ( ) Is as follows,
의 계산 속도를 제고시키기 위하여, 적률 추정법을 이용하여 주제(k)의 시간적 변화 Beta 분포 파라미터 벡터()를 계산하며, 계산 공식은 아래와 같으며, In order to improve the computation speed of the subject (k), the temporal change Beta distribution parameter vector ), And the calculation formula is as follows,
그 중, tk는 미리 설정한 분야의 주제(k)의 샘플링 평균치이며, 는 미리 설정한 분야의 주제(k)의 샘플링 분산이며, 상기 tk와 의 계산 공식은 아래와 같으며,Among them, t k is a sampling average value of the subject (k) of a preset area, Is the sampling distribution of the subject (k) of a preset field, and the t k The calculation formula is as follows,
그 중, 는 과학연구 문헌(m) 중의 단어가 주제(k)에 배분되는 차수이다.among them, Is a degree to which the words in the scientific research document (m) are distributed to the subject (k).
본 단계에 있어서, 저자 주제 진화 모형을 이용하여 1740편 과학연구 문헌의 100개 주제를 계산하여 얻으며, 각 주제의 서술은 세부분, 즉 (a) 주제와 제일 관련되는 전 10개의 텀 및 상응한 확률; (b) 주제와 제일 관련되는 전 10명의 연구원 및 상응한 확률; (c) 주제의 시간적 변화 추세를 포함한다. 계산하여 얻은 1740편의 과학연구 문헌 중 8개의 주제는 표 1에 나타낸 바와 같다.In this step, the author's subject evolutionary model is used to calculate 100 subjects from the 1740 scientific research literature. The description of each subject is divided into three parts: (a) all 10 terms and the corresponding percentage; (b) a total of ten researchers and corresponding probabilities that are most relevant to the subject; (c) Includes temporal trends in the subject. Eight of the 1,740 scientific research documents obtained from the calculations are shown in Table 1.
‘학습 강화’'Enhanced learning'
‘EM와 혼합모형’'EM and mixed model'
‘육안 식별 및 인자 분석’ 'Visual identification and factor analysis'
‘데이터 모형 및 학습 알고리즘’ 'Data Model and Learning Algorithm'
‘서포트 벡터 머신 및 커널기법’'Support vector machine and kernel technique'
‘신경망’'Neural network'
‘언어식별’"Language Identification"
‘베이지안 학습’'Bayesian learning'
획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고, 1740편의 과학연구 문헌의 100개 주제 텀 확률, 저자 주제 확률 및 주제 시간 파라미터를 산출한 후, 단계 205에 진입한다.Sets the scientific research information estimation parameters through the acquisition unit, calculates 100 subject terms probability, author subject probability and subject time parameters of the scientific research literature of 1740, and then enters
단계 205: 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득한다Step 205: Obtain scientific research information evolution results by computing scientific research estimation parameters using the evolutionary arithmetic formula
본 단계에 있어서, 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학 연구 정보 진화 결과를 획득하는데, 진화 연산 공식은 아래와 같으며,In this step, the scientific research information evolution result is obtained by calculating the scientific research estimation parameter by using the evolution calculation formula. The evolution calculation formula is as follows,
그 중, 는 과학연구 문헌의 저자(a) 주제(k)의 확률이며, 와 는 주제(k)의 시간적 변화의 Beta 분포 파라미터이고, 는 Beta 분포의 확률 밀도 함수이다.among them, (A) the probability of the subject (k) of the scientific research literature, Wow Is the Beta distribution parameter of the temporal change of the subject (k) Is a probability density function of Beta distribution.
각 연구원()에 관하여 크기가 K x (1999 1987+1)=100 x 13인 매트릭스를 얻으며, 해당 매트릭스의 각 원소는 해당 연구원이 특정 시점에 특정 주제에 대한 관심도이다. 표 1의 연구원 Sejnowski를 예로 들어 기술방안을 설명한다.Each researcher ( ), A matrix with a size of K x (1999 1987 + 1) = 100 x 13 is obtained, and each element of the matrix is interested in a particular subject at a particular point in time. Using the example of Sejnowski, the researcher in Table 1 as an example, we describe the technical solution.
연구원 Sejnowski는 1987년부터 1999년 사이에 NIPS 회의에서 총 43편의 과학연구 문헌을 발표하였는데, 그 중, 43편의 과학연구 문헌의 시간 분포도는 도 12에 도시된 바와 같으며, Sejnowski가 부동한 시기에서의 연구 주제의 시간 진화 모형도는 도 13에 도시된 바와 같으며, 도 13에서는 Hinton도를 이용하여 Sejnowski가 부동한 시기에서의 연구 주제의 시간 진화를 보여주며, 부동한 주제에 대한 관심도를 직사각형의 면적으로 나타내며, 직사각형의 면적이 클수록 Sejnowski가 해당 주제에 대한 연구 관심이 더 높음을 설명한다. 도 13으로부터 알 수 있다시피, 1987년부터 1999년 기간에 Sejnowski의 연구 주제는 주요하게 '육안 인식 및 인자 분석'(주제51), '신경망'(주제37) 및 '데이터 모형 및 학습 알고리즘'(주제58)이며, 그 중, Sejnowski는 초기(1989년부터 1993년)의 연구 관심은 '육안 인식 및 인자 분석'이고, 1994년부터 Sejnowski의 연구 주제는 '신경망'(1994) 및 '데이터 모형 및 학습 알고리즘'(1996년)으로 확장하였으며, 연구 강도가 비교적 높다(문헌 발표 수량이 증가). 1997년 이후 Sejnowski의 연구 주제는 '육안 인식 및 인자 분석'으로 돌아갔으며, 연구강도도 다소 하강하였다. 1987년부터 1999년 전체 기간에 Sejnowski는 자신의 주요 연구 주제 '육안 인식 및 인자 분석'을 둘러싸고 연구 활동을 진행하였다.Researcher Sejnowski published a total of 43 scientific research papers at the NIPS meeting between 1987 and 1999. Among them, the time distribution diagrams of 43 scientific research documents are shown in Fig. 12, and Sejnowski 13 shows the time evolution model of the research topic. FIG. 13 shows the time evolution of the research topic at different times using Hinton diagram, The larger the area of the rectangle, the greater the interest of Sejnowski in research on the subject. As can be seen from FIG. 13, Sejnowski's research topics from 1987 to 1999 mainly consisted of 'visual recognition and factor analysis' (topic 51), 'neural network' (topic 37) and 'data model and learning algorithm' Sejnowski's research interest in the early years (1989 to 1993) is 'visual recognition and factor analysis', and since 1994, Sejnowski's research topics are 'neural network' (1994) Learning algorithm '(1996), and the research intensity is relatively high (the number of documents published increases). Since 1997, Sejnowski 's research topic has returned to' visual recognition and factor analysis', and the intensity of research has dropped somewhat. During the entire period from 1987 to 1999, Sejnowski conducted research on his main research topic, 'Visual perception and factor analysis'.
본 실시예에 있어서, 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하고, 과학연구 진화 결과를 유저한테 보여주며, 예를 들어 표시 유닛을 통해 유저에게 과학연구 정보 진화 결과를 보여주는데, 상기 단계를 통해 획득한 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시할 뿐만아니라, 미리 설정한 과학연구 분야에서의 과학연구 주제, 연구원의 연구 관심 등의 시간적 진화 규칙을 발굴 게시할 수 있다.In this embodiment, the scientific research information evolution result is obtained by calculating the scientific research estimation parameter by using the evolution calculation formula, and the scientific research evolution result is displayed to the user. For example, The results of scientific research information evolution obtained through the above steps show not only the topic of scientific research literature, but also the research interests of researchers, as well as scientific research topics in pre-established scientific research fields, Research interests and other temporal evolutionary rules.
실제 응용에서, 혼란도(perplexity)는 모형 일반화 능력을 평가하는 기준 지표이며, 혼란도 값이 작을수록 모형 일반화 능력이 강함을 설명한다. 저자 주제 진화 AToT 모형의 일반화 능력을 평가하기 위하여, 본 실시예는 1740편의 과학연구 문헌을 추가로 두 부분으로 나누고, 그 중, 1557편의 문서를 훈련집합으로 하고, 183편의 문서는 테스트 집합으로 하며, 테스트 집합에는 102편의 단일 저자 과학연구 문헌이 포함되고, 테스트 집합에서 나오는 모든 저자는 반드시 훈련 집합에서도 나온다. AToT 모형에서, 테스트 집합 중의 과학연구 문헌 ()에 관하여, 혼란도 계산 공식은 아래와 같으며,In practical applications, perplexity is a measure of the ability to model generalizability, and the smaller the value of confusion, the stronger the ability to generalize the model. In order to evaluate the generalization ability of the evolutionary AToT model, the present embodiment divides 1740 scientific research documents into two parts, 1557 documents as a training set, 183 documents as a test set , The test set contains 102 single author scientific research papers, and all authors from the test set are also derived from the training set. In the AToT model, the scientific research literature in the test set ( ), The confusion degree calculation formula is as follows,
그 중,among them,
훈련 집합에서 얻은 파라미터 , 및 에 의하여, 혼란도 계산 공식 중의 , 및 의 구체적인 값을 추산할 수 있으며, 본 실시예는 테스트 집합에 대해 깁스 샘플링을 S(예를 들어 S=10)차 실행하며, 혼란도는 S차 샘플링의 평균값을 취한다. 도 14로부터 알 수 있다시피, 주제 갯수가 10을 초과할 때, AToT 모형의 혼란도는 AT 모형보다 현저히 작으며, 이는 AToT 모형의 성능이 AT 모형보다 우수하다는 것을 설명한다.Parameters obtained from the training set , And , The confusion degree calculation formula , And And the present embodiment performs Gibbs sampling S (for example, S = 10) for the test set, and the degree of confusion takes an average value of the S-order sampling. As can be seen from FIG. 14, when the number of subjects exceeds 10, the degree of confusion of the AToT model is significantly smaller than that of the AT model, demonstrating that the performance of the AToT model is superior to that of the AT model.
본 실시예에 있어서, 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고, 과학연구 문헌에 대해 전처리를 진행하며, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙을 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맹락을 파악하는데 유리하다.In this embodiment, two or more scientific research documents are collected in a predetermined field, preprocessing is carried out on scientific research documents, an authors subject evolution model of two or more scientific research documents is constructed, and a scientific research information estimation parameter The results of the evolution of scientific research information are obtained by posting the research topics of the scientific research literature and the research interests of the researchers, It is advantageous to grasp the time-varying rules such as the theme of scientific research in the scientific research field and the research interest of the researcher, and to grasp the evolutionary fallacy of the scientific research theme in the predetermined field.
도 15는 본 발명에 따른 과학연구 정보 진화의 분석 장치의 제1 실시예의 구성 모식도이다. 도 15에 도시된 바와 같이, 본 실시예의 과학연구 정보 진화의 분석 장치는 수집 유닛(701), 전처리 유닛(702) 및 획득 유닛(703)을 포함한다. 그 중, 수집 유닛(701)은 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는데 사용되고, 전처리 유닛(702)은 과학연구 문헌에 대해 전처리를 진행하고, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는데 사용되며, 획득 유닛(703)은 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데 사용된다.FIG. 15 is a structural diagram of a first embodiment of an apparatus for analyzing scientific research information evolution according to the present invention. FIG. As shown in FIG. 15, the analysis apparatus for scientific research information evolution of the present embodiment includes a
그 중, 전처리 유닛(702)이 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계는 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(), 저자 주제 파라미터(), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분() 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분()을 계산하는 것을 포함하며, 그 중, 깁스 샘플링 알고리즘 공식은 아래와 같으며,Among them, the step of the
그 중, K는 수집한 적어도 두편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고, 는 주제(k)의 시간적 변화의 베타(Beta) 분포 파라미터 벡터이며,는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고, 는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며, 는 과학연구 문헌(m) 중 제 n개 단어이며, 는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며, 는 (a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며, 는 저자 (a)의 주제 확률 분포 파라미터이며, 는 (k = 1, …, K)의 디리클레 선험 파라미터 벡터이며, 는 주제(k)의 텀 확률 분포이며, 는 단어()에 배분된 주제 이외의 모든 주제 변수이며, 는 단어()에 배분된 저자 이외의 모든 저자 변수이며,는 텀(v)이 주제()에 배분되는 차수이며, 는 저자()가 책임진 단어가 주제(k)에 배분되는 차수이다.K is the number of subjects covered by at least two scientific research articles collected, Nm is the number of words in the scientific research document (m), and a m is a vector formed by the author of the scientific research document (m) A m is the number of authors of the scientific research literature (m) Is a Beta distribution parameter vector of the temporal change of the subject k, Is the subject allocation of the n words of the scientific research document (m) Is the authorship of the n words of the scientific research literature (m) Is the n-th word of the scientific research document (m) Is the time stamp of the n words of the scientific research document (m) The (a = 1, ..., A) is a Dirichlet priori parametric vector, Is the subject probability distribution parameter of the author (a) The (K = 1, ... , ≪ / RTI > K, Is the term probability distribution of the subject (k) Is the word ( ) Are all subject variables other than those that are distributed, Is the word ( ) Are all authors other than authors, (V) is the subject ( ), ≪ / RTI > The author ( ) Is the order to which the words responsible are allocated to the topic (k).
획득 유닛(703)이 과학연구 정보 추산 파라미터를 설정하는 단계는 구체적으로 디리클레 분포의 기대치를 이용하여 주제(k)의 텀 확률분포 파라미터() 및 저자(a)의 주제 확률 분포 파라미터()를 추정하는 것을 포함하며,The step of the
적률 추정법을 이용하여 주제(k)의 시간적 변화 Beta 분포 파라미터 벡터()를 계산하며, 계산 공식은 아래와 같으며,The temporal change of the subject (k) using the ratiometric estimation method. Beta distribution parameter vector ( ), And the calculation formula is as follows,
그 중, tk는 미리 설정한 분야의 주제(k)의 샘플링 평균치이며, 는 미리 설정한 분야의 주제(k)의 샘플링 분산이며, 상기 tk와 의 계산 공식은 아래와 같으며,Among them, t k is a sampling average value of the subject (k) of a preset area, Is the sampling distribution of the subject (k) of a preset field, and the t k The calculation formula is as follows,
그 중, 는 과학연구 문헌(m) 중의 단어가 주제(k)에 배분되는 차수이다.among them, Is a degree to which the words in the scientific research document (m) are distributed to the subject (k).
획득 유닛(703)이 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 것에 있어서, 상기 진화 연산 공식은 아래와 같으며,In obtaining the scientific research information evolution result by the
그 중, 는 저자(a) 주제(k)의 확률 분포이며, 와 는 주제(k)의 시간적 변화의 Beta 분포 파라미터이다.among them, Is the probability distribution of the author (a) subject (k) Wow Is the Beta distribution parameter of the temporal change of the subject (k).
본 실시예에 있어서, 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고, 전처리 유닛을 통해 과학연구 문헌에 대해 전처리를 진행하며, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학 연구 추산 파라미터를 연산하는 것을 통해, 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙을 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맹락을 파악하는데 유리하다.In this embodiment, two or more scientific research documents are collected in a predetermined field through a collection unit, preprocessing is carried out on a scientific research document through a preprocessing unit, and an author-theme evolution model of two or more scientific research documents is constructed The results of the evolution of scientific research information are obtained through the computation of scientific research estimation parameters by setting the scientific research information estimation parameters through the acquisition unit and using the evolutionary operation formula. , Research interests of researchers can be posted, and time-based change rules such as pre-set scientific research topics in the field of scientific research and research interests of researchers can be discovered and published, and the evolutionary eruption of scientific research topics within a predetermined field can be grasped .
도 16은 본 발명에 따른 과학연구 정보 진화의 분석 장치의 제 2실시예의 구성 모식도이다. 도 16에 도시된 바와 같이, 본 실시예의 과학연구 정보 진화의 분석 장치는 표시 유닛(704)을 더 포함하며, 표시 유닛(704)은 과학연구 정보 진화 결과를 유저에게 보여주며, 표시 유닛(704)의 표시 방식은 꺾은 선 그래프 및/또는 Hinton도를 포함하며, 유저가 직관적으로 연구원의 연구 주제 등의 시간적 변화 규칙을 확인하는데 편리하다.16 is a structural diagram of a second embodiment of an apparatus for analyzing scientific research information evolution according to the present invention. 16, the apparatus for analyzing scientific research information evolution of the present embodiment further includes a
본 기술분야의 당업자는 본 발명이 본 출원에 기재된 조작 중 하나 또는 복수개의 조작을 수행하는 설비에 관한 것일 수 있음을 알 수 있다. 상기 설비는 필요한 목적을 위해 전문적으로 설계 제작되거나 또는 보편적으로 사용되는 컴퓨터 중의 공지의 설비를 포함할 수도 있으며, 상기 보편적으로 사용되는 컴퓨터 내부에 저장된 프로그램은 선택적으로 활성화되거나 재구성된다. 이러한 컴퓨터 프로그램은 설비(예를 들어 컴퓨터)의 판독 가능 매체에 저장되거나 또는 전자 명령을 저장하기에 적합하고 각각 버스에 커플링 되는 임의의 유형의 매체에 저장될 수 있으며, 상기 컴퓨터 판독 가능 매체는 임의의 유형의 디스크(플로피 디스크, 하드 디스크, 레이저 디스크, CD-ROM 및 광자기 디스크를 포함), 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), PROM(Programmable ROM), EPROM(Electrically Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 프래시 메모리, 마그네틱 카드 또는 광카드를 포함하지만 이에 제한되지 않는다. 판독 가능 매체는 설비(예를 들어 컴퓨터) 판독 가능 형식으로 정보를 저장 또는 전송하기 위한 임의의 구조를 포함한다. 예를 들어, 판독 가능 매체는 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 마그네틱디스크 기억매체, 광학 기억매체, 프래시 저장장치, 전기, 광, 음성 또는 기타의 형식으로 전파되는 신호(예를 들어 반송파, 적외선 신호, 디지털 신호) 등을 포함한다.Those skilled in the art will appreciate that the present invention may relate to equipment that performs one or more of the operations described herein. The facility may include known facilities among computers that are professionally designed or used universally for the required purpose, and the programs stored in the universally used computer are selectively activated or reconfigured. Such a computer program may be stored on any type of medium that is suitable for storing electronic instructions and is coupled to a bus, and which may be stored on a readable medium of a facility (e.g., a computer) (RAM), read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), and the like, as well as any type of disk (including floppy disk, hard disk, laser disk, CD-ROM and magneto-optical disk) ROM), Electrically Erasable Programmable ROM (EEPROM), a flash memory, a magnetic card or an optical card. Readable media includes any structure for storing or transmitting information in a facility (e.g., computer) readable format. For example, the readable medium can be a random access memory (RAM), a read only memory (ROM), a magnetic disk storage medium, an optical storage medium, a flash storage device, a signal propagated in electrical, optical, A carrier wave, an infrared signal, a digital signal).
본 기술분야의 당업자는 컴퓨터 프로그램 명령으로 이러한 구성도 및/또는 블록도 및/또는 흐름도의 각 블록 및 이러한 구성도 및/또는 블록도 및/또는 흐름도 중의 블록의 조합을 실현할 수 있음을 알 수 있다. 이러한 컴퓨터 프로그램 명령을 보편적으로 사용하는 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능 데이터 처리 방법의 처리장치에 제공하여 기기를 생성하고, 이에 따라 컴퓨터 또는 기타 프로그램 가능 데이터 처리 방법의 처리장치를 통해 수행하는 명령으로 구성도 및/또는 블록도 및/또는 흐름도의 블록 또는 복수개의 블록에서 지정한 방법을 실현한다.It will be appreciated by those skilled in the art that the computer program instructions may be embodied in block diagrams and / or block diagrams and / or block diagrams, and combinations of blocks in the block diagrams and / or block diagrams and / or flowcharts . Such computer program instructions may be provided to a processing device of a computer, a dedicated computer, or other programmable data processing method that is commonly used to create a device, and thereby to execute a command through a processing device of a computer or other programmable data processing method Block diagrams and / or flowchart diagrams, and methods specified in blocks or blocks.
본 기술분야의 당업자는 본 발명에서 이미 토론한 각종 조작, 방법, 프로세스 중의 단계, 조치, 방안은 교체, 변경, 조합 또는 삭제될 수 있음을 알 수 있다. 추가로 본 발명에서 이미 토론한 각종 조작, 방법, 프로세스 중의 기타 단계, 조치, 방안도 교체, 변경, 재배열, 분해, 조합 또는 삭제될 수 있다. 추가로 종래 기술 중 본 발명에서 공개한 각종 조작, 방법, 프로세스 중의 단계, 조치, 방안도 교체, 변경, 재배열, 분해, 조합 또는 삭제될 수 있다.It will be apparent to those skilled in the art that various operations, methods, steps in the process, measures, and methods discussed in the present invention may be altered, altered, combined, or eliminated. Further, various operations, methods, and other steps, measures, and measures in the processes already discussed in the present invention may be replaced, changed, rearranged, disassembled, combined, or deleted. Further, steps, measures, and measures in various operations, methods, and processes disclosed in the present invention may be replaced, changed, rearranged, disassembled, combined, or deleted.
이상의 것은 본 발명의 일부 실시 형태일 뿐이며, 본 기술분야의 당업자에게 있어서 본 발명의 원리를 이탈하지 않는 전제하에서 여러가지 개선 및 수식을 할 수 있으며, 이러한 개선과 수식도 본 발명의 보호범위에 포함되어야 한다.
It will be apparent to those skilled in the art that various modifications and variations can be made without departing from the principles of the invention, do.
Claims (11)
수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는 단계;
전처리 유닛을 통해 상기 과학연구 문헌에 대해 전처리를 진행하고, 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계; 및
획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고, 진화 연산 공식을 이용하여 상기 과학연구 정보 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계를 포함하는 것을 특징으로 하며,
상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계는 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(), 저자 주제 파라미터(), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분() 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분()을 계산하는 것을 포함하며,
깁스 샘플링 알고리즘 공식은 아래와 같으며,
그 중, K는 수집한 적어도 두편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고, 는 주제(k)의 시간적 변화 베타(Beta) 분포 파라미터 벡터이며,는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고, 는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며, 는 과학연구 문헌(m) 중 제 n개 단어이며, 는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며, 는 (a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며, 는 저자 (a)의 주제 확률 분포 파라미터이며, 는 (k = 1, …, K)의 디리클레 선험 파라미터 벡터이며, 는 주제(k)의 텀 확률 분포이며, 는 단어()에 배분된 주제 이외의 모든 주제 변수이며, 는 단어()에 배분된 저자 이외의 모든 저자 변수이며,는 텀(v)이 주제()에 배분되는 차수이며, 는 저자()가 책임진 단어가 주제(k)에 배분되는 차수인 것을 특징으로 하며,
과학연구 정보 추산 파라미터를 설정하는 단계는 구체적으로 디리클레 분포의 기대치를 이용하여 주제(k)의 텀 확률분포 파라미터() 및 저자(a)의 주제 확률 분포 파라미터()를 추정하며, 계산 공식은 아래와 같으며,
적률 추정법을 이용하여 주제(k)의 시간적 변화 Beta 분포 파라미터 벡터()를 계산하며, 계산 공식은 아래와 같으며,
그 중, tk는 미리 설정한 분야의 주제(k)의 샘플링 평균치이며, 는 미리 설정한 분야의 주제(k)의 샘플링 분산이며, 상기 tk와 의 계산 공식은 아래와 같으며,
그 중, 는 과학연구 문헌(m) 중의 단어가 주제(k)에 배분되는 차수인 것을 특징으로 하는, 과학연구 정보 진화의 분석 방법.In an analysis method of scientific research information evolution, the analysis method of scientific research information evolution is:
Collecting at least two scientific research documents in a predetermined field through a collection unit;
Preprocessing the scientific research literature through a preprocessing unit and building an authorship evolution model of the two or more scientific research literature; And
Acquiring a scientific research information evolution result by setting a scientific research information estimation parameter through an acquisition unit and calculating the scientific research information estimation parameter using an evolutionary calculation formula,
The step of constructing the authors' topic evolution model of the above two or more scientific research documents is carried out by using the Gibbs sampling algorithm formula, ), Author subject parameter ( ), The theme allocation of the n words in the scientific research literature (m) ) And the authors' distribution of the n words in the scientific research literature (m) ), ≪ / RTI >
The formula for the Gibbs sampling algorithm is as follows,
K is the number of subjects covered by at least two scientific research articles collected, N m is the number of words in the scientific research document (m), and a m is the number of scientific research articles (m) A m is the number of author of the scientific research document (m) Is a temporally varying Beta distribution parameter vector of the subject k, Is the subject allocation of the n words of the scientific research document (m) Is the authorship of the n words of the scientific research literature (m) Is the n-th word of the scientific research document (m) Is the time stamp of the n words of the scientific research document (m) The (A = 1, ... , A) is a Dirichlet priori parameter vector, Is the subject probability distribution parameter of the author (a) The (K = 1, ... , ≪ / RTI > K, Is the term probability distribution of the subject (k) Is the word ( ) Are all subject variables other than those that are distributed, Is the word ( ) Are all authors other than authors, (V) is the subject ( ), ≪ / RTI > The author ( ) Is a degree distributed to the subject (k)
The step of setting the scientific research information estimating parameter is specifically a method of estimating the term probability distribution parameter (k) of the subject (k) using the dirichlet distribution expectation ) And the subject's probability distribution parameter (a) ), And the calculation formula is as follows,
The temporal change of the subject (k) using the ratiometric estimation method. Beta distribution parameter vector ( ), And the calculation formula is as follows,
Among them, t k is a sampling average value of the subject (k) of a preset area, Is the sampling distribution of the subject (k) of a preset field, and the t k The calculation formula is as follows,
among them, Characterized in that words in the scientific research document (m) are orders distributed to the subject (k).
표시 유닛을 통해 상기 과학연구 정보 진화 결과를 유저에게 보여주는 것을 더 포함하고, 그 표시 방식은 꺾은 선 그래프 및/또는 Hinton도 인 것을 특징으로 하는 과학연구 정보 진화의 분석 방법.The method according to claim 1,
Further comprising displaying the scientific research information evolution result to a user through a display unit, wherein the display scheme is a line graph and / or a Hinton diagram.
전처리 유닛을 통해 상기 과학연구 문헌에 대해 전처리를 진행하는 단계는 구체적으로,
상기 과학연구 문헌 중의 사용중지 단어, 숫자 및 미리 설정한 빈도보다 낮은 단어를 필터링하고, 상기 과학연구 문헌의 저자 이름에 대해 중의성 해소를 진행하는 단계; 및
상기 두편 이상의 과학연구 문헌의 A명의 저자, V개의 텀(term)을 획득하고, 상기 두편 이상의 과학연구 문헌의 발표시간에 대해 정규화 처리를 진행하는 단계를 포함하는 것을 특징으로 하는 과학연구 정보 진화의 분석 방법.The method according to claim 1,
The step of preprocessing the scientific research document through the preprocessing unit may be,
Filtering words that are less than a predetermined frequency and a word that is not in use in the scientific research literature and proceeding to solve the hypothesis for the author name of the scientific research literature; And
Obtaining the V terms of the A authors of the two or more scientific research documents and performing a normalization process on the presentation times of the two or more scientific research documents; Analysis method.
진화 연산 공식을 이용하여 상기 과학연구 정보 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계에 있어서, 상기 진화 연산 공식은 아래와 같으며,
그 중, 는 저자(a) 주제(k)의 확률이며, 와 는 주제(k)의 시간적 변화 Beta 분포 파라미터인 것을 특징으로 하는 과학연구 정보 진화의 분석 방법.The method according to claim 1,
Wherein the step of obtaining the evolution result of the scientific research information by computing the scientific research information estimation parameter using the evolution computation formula is as follows,
among them, Is the probability of the author (a) subject (k) Wow Is a temporal change Beta distribution parameter of the subject (k).
수집 유닛, 전처리 유닛 및 획득 유닛을 포함하되,
상기 수집 유닛은 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고;
상기 전처리 유닛은 상기 과학연구 문헌에 대해 전처리를 진행하고, 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하며;
상기 획득 유닛은 과학연구 정보 추산 파라미터를 설정하고, 진화 연산 공식을 이용하여 상기 과학연구 정보추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 것을 특징으로 하며,
상기 전처리 유닛이 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계는 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(), 저자 주제 파라미터(), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분() 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분()을 계산하는 것을 포함하며,
깁스 샘플링 알고리즘 공식은 아래와 같으며,
그 중, K는 수집한 적어도 두편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고, 는 주제(k)의 시간적 변화 베타(Beta) 분포 파라미터 벡터이며,는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고, 는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며, 는 과학연구 문헌(m) 중 제 n개 단어이며, 는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며, 는 (a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며, 는 저자 (a)의 주제 확률 분포 파라미터이며, 는 (k = 1, …, K)의 디리클레 선험 파라미터 벡터이며, 는 주제(k)의 텀 확률 분포이며, 는 단어()에 배분된 주제 이외의 모든 주제 변수이며, 는 단어()에 배분된 저자 이외의 모든 저자 변수이며,는 텀(v)이 주제()에 배분되는 차수이며, 는 저자()가 책임진 단어가 주제(k)에 배분되는 차수인 것을 특징으로 하며,
상기 획득 유닛이 과학연구 정보 추산 파라미터를 설정하는 단계는 구체적으로 디리클레 분포의 기대치를 이용하여 주제(k)의 텀 확률분포 파라미터() 및 저자(a)의 주제 확률 분포 파라미터()를 추정하며, 그 계산 공식은 아래와 같으며,
적률 추정법을 이용하여 주제(k)의 시간적 변화 Beta 분포 파라미터 벡터()를 계산하며, 계산 공식은 아래와 같으며,
그 중, tk는 미리 설정한 분야의 주제(k)의 샘플링 평균치이며, 는 미리 설정한 분야의 주제(k)의 샘플링 분산이며, 상기 tk와 의 계산 공식은 아래와 같으며,
그 중, 는 과학연구 문헌(m) 중의 단어가 주제(k)에 배분되는 차수인 것을 특징으로 하는, 과학연구 정보 진화의 분석 장치.An apparatus for analyzing the evolution of scientific research information, comprising:
A collection unit, a preprocessing unit and an acquisition unit,
The collection unit collecting two or more scientific research documents in a predetermined field;
Wherein the preprocessing unit preprocesses the scientific research literature and builds an authorship evolution model of the two or more scientific research literature;
Wherein the acquisition unit sets the scientific research information estimation parameter and acquires the scientific research information evolution result by calculating the scientific research information estimation parameter using the evolutionary operation formula,
The step of the preprocessing unit constructing an authorship evolution model of the two or more scientific research documents uses a Gibbs sampling algorithm formulation to generate a topic term parameter ), Author subject parameter ( ), The theme allocation of the n words in the scientific research literature (m) ) And the authors' distribution of the n words in the scientific research literature (m) ), ≪ / RTI >
The formula for the Gibbs sampling algorithm is as follows,
K is the number of subjects covered by at least two scientific research articles collected, Nm is the number of words in the scientific research document (m), and a m is a vector formed by the author of the scientific research document (m) A m is the number of authors of the scientific research literature (m) Is a temporally varying Beta distribution parameter vector of the subject k, Is the subject allocation of the n words of the scientific research document (m) Is the authorship of the n words of the scientific research literature (m) Is the n-th word of the scientific research document (m) Is the time stamp of the n words of the scientific research document (m) The (A = 1, ... , A) is a Dirichlet priori parameter vector, Is the subject probability distribution parameter of the author (a) The (K = 1, ... , ≪ / RTI > K, Is the term probability distribution of the subject (k) Is the word ( ) Are all subject variables other than those that are distributed, Is the word ( ) Are all authors other than authors, (V) is the subject ( ), ≪ / RTI > The author ( ) Is a degree distributed to the subject (k)
The step of the acquiring unit setting the scientific research information estimation parameter may be performed by using the term probability distribution parameter (k) of the subject (k) ) And the subject's probability distribution parameter (a) ), And the calculation formula is as follows,
The temporal change of the subject (k) using the ratiometric estimation method. Beta distribution parameter vector ( ), And the calculation formula is as follows,
Among them, t k is a sampling average value of the subject (k) of a preset area, Is the sampling distribution of the subject (k) of a preset field, and the t k The calculation formula is as follows,
among them, Is an order in which the words in the scientific research document (m) are distributed to the subject (k).
상기 과학연구 정보 진화 결과를 유저에게 보여주며, 그 표시 방식은 꺾은 선 그래프 및/또는 Hinton도 인 표시 유닛을 더 포함하는 것을 특징으로 하는 과학연구 정보 진화의 분석 장치.The method of claim 5,
Wherein the scientific research information evolution result is displayed to the user, and the display method further includes a line graph and / or a Hinton diagram display unit.
상기 획득 유닛이 진화 연산 공식을 이용하여 상기 과학연구 정보 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계에 있어서, 상기 진화 연산 공식은 아래와 같으며,
그 중, 는 저자(a) 주제(k)의 확률이며, 과 는 주제(k)의 시간적 변화 Beta 분포 파라미터인 것을 특징으로 하는 과학연구 정보 진화의 분석 장치.The method of claim 5,
Wherein the obtaining unit obtains a scientific research information evolution result by calculating the scientific research information estimation parameter using an evolution computation formula, the evolution computation formula is as follows,
among them, Is the probability of the author (a) subject (k) and Is a temporal change Beta distribution parameter of the subject (k).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310522710.6 | 2013-10-29 | ||
CN201310522710.6A CN103605671B (en) | 2013-10-29 | 2013-10-29 | Scientific research information evolution analyzing method and device |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150050465A KR20150050465A (en) | 2015-05-08 |
KR101679249B1 true KR101679249B1 (en) | 2016-11-24 |
Family
ID=50123896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140148627A KR101679249B1 (en) | 2013-10-29 | 2014-10-29 | Analysis method and device for scientific research information revolution |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101679249B1 (en) |
CN (1) | CN103605671B (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021222B (en) * | 2016-05-09 | 2019-04-30 | 浙江农林大学 | A kind of analysis method and device of scientific documents subject evolution |
CN107577657B (en) * | 2017-07-14 | 2020-09-11 | 北京赛时科技有限公司 | Mailbox author corresponding method and device |
CN111325390B (en) * | 2020-02-17 | 2023-04-18 | 电子科技大学 | Student cooperative relationship prediction method based on interest evolution |
CN112765305B (en) * | 2020-12-31 | 2024-05-14 | 北京工业大学 | Method and device for analyzing interest subject of author, electronic equipment and storage medium |
CN114417837B (en) * | 2022-01-19 | 2024-02-13 | 合肥工业大学 | Scientific and technological big data popularity and frontier measurement method based on subject evolution trend |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150450A (en) * | 2010-01-20 | 2011-08-04 | Sony Corp | Apparatus, method and program for processing information |
KR101102468B1 (en) * | 2011-04-22 | 2012-01-05 | 한국과학기술정보연구원 | Apparatus and method for prediction development speed of technology |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077175A (en) * | 2012-01-12 | 2013-05-01 | 西安邮电学院 | Effective collaborative construction and self-adoptive evolution method of academic collaboration relation network |
-
2013
- 2013-10-29 CN CN201310522710.6A patent/CN103605671B/en active Active
-
2014
- 2014-10-29 KR KR1020140148627A patent/KR101679249B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150450A (en) * | 2010-01-20 | 2011-08-04 | Sony Corp | Apparatus, method and program for processing information |
KR101102468B1 (en) * | 2011-04-22 | 2012-01-05 | 한국과학기술정보연구원 | Apparatus and method for prediction development speed of technology |
Also Published As
Publication number | Publication date |
---|---|
CN103605671A (en) | 2014-02-26 |
CN103605671B (en) | 2017-01-11 |
KR20150050465A (en) | 2015-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Epskamp et al. | The Gaussian graphical model in cross-sectional and time-series data | |
Price et al. | Bayesian synthetic likelihood | |
Yang et al. | A recurrence quantification analysis-based channel-frequency convolutional neural network for emotion recognition from EEG | |
Wang et al. | Understanding and discovering deliberate self-harm content in social media | |
KR101679249B1 (en) | Analysis method and device for scientific research information revolution | |
Bacry et al. | Modelling microstructure noise with mutually exciting point processes | |
Wang et al. | Integrating TTF and IDT to evaluate user intention of big data analytics in mobile cloud healthcare system | |
Brodu et al. | Exploring two novel features for EEG-based brain–computer interfaces: Multifractal cumulants and predictive complexity | |
Khaleghi et al. | A neuronal population model based on cellular automata to simulate the electrical waves of the brain | |
Vamosi et al. | A deep recurrent neural network approach to learn sequence similarities for user-identification | |
Vogelsmeier et al. | Evaluating covariate effects on ESM measurement model changes with latent Markov factor analysis: A three-step approach | |
Koseki et al. | Assessment of skin barrier function using skin images with topological data analysis | |
Yildirim et al. | A new model for classification of human movements on videos using convolutional neural networks: MA-Net | |
Yuan et al. | Markov chain Monte Carlo methods for state-space models with point process observations | |
Senthil et al. | Develop the hybrid Adadelta Stochastic Gradient Classifier with optimized feature selection algorithm to predict the heart disease at earlier stage | |
Schu | Adaptive trust-region POD methods and their application in finance | |
Galbraith et al. | Analyzing user-event data using score-based likelihood ratios with marked point processes | |
Lian et al. | Modeling correlated arrival events with latent semi-markov processes | |
Fushing et al. | Discovering stock dynamics through multidimensional volatility phases | |
Hall et al. | The statistical mechanics of Twitter communities | |
Zhang et al. | Cumulative Tsallis entropy based on power spectrum of financial time series | |
Chalaris et al. | Examining students' graduation issues using data mining techniques-The case of TEI of Athens | |
Park et al. | Evaluating discrete time methods for subgrouping continuous processes | |
CN114724677A (en) | Health card pushing method and device, computer equipment and medium | |
CN109408353B (en) | Storage partition utilization rate and IOPS analysis method, system and terminal equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20191025 Year of fee payment: 4 |