KR101679249B1 - Analysis method and device for scientific research information revolution - Google Patents

Analysis method and device for scientific research information revolution Download PDF

Info

Publication number
KR101679249B1
KR101679249B1 KR1020140148627A KR20140148627A KR101679249B1 KR 101679249 B1 KR101679249 B1 KR 101679249B1 KR 1020140148627 A KR1020140148627 A KR 1020140148627A KR 20140148627 A KR20140148627 A KR 20140148627A KR 101679249 B1 KR101679249 B1 KR 101679249B1
Authority
KR
South Korea
Prior art keywords
scientific research
subject
evolution
parameter
words
Prior art date
Application number
KR1020140148627A
Other languages
Korean (ko)
Other versions
KR20150050465A (en
Inventor
서우 쉬
칭웨이 스
샤오둥 차오
리쥔 주
Original Assignee
인스티튜트 오브 사이언티픽 앤 테크니컬 인포메이션 오브 차이나
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인스티튜트 오브 사이언티픽 앤 테크니컬 인포메이션 오브 차이나 filed Critical 인스티튜트 오브 사이언티픽 앤 테크니컬 인포메이션 오브 차이나
Publication of KR20150050465A publication Critical patent/KR20150050465A/en
Application granted granted Critical
Publication of KR101679249B1 publication Critical patent/KR101679249B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는 단계; 전처리 유닛을 통해 과학연구 문헌에 대해 전처리를 진행하고, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계; 및 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 정보 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계를 포함하는 과학연구 정보 진화의 분석 방법 및 장치를 제공한다. 본 발명이 제공하는 실시예에 있어서 미리 설정한 분야에서 과학연구 문헌을 수집하고, 과학연구 문헌에 대해 전처리를 진행하며, 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 진화 연산 공식을 이용하여 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙을 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맥락을 파악하는데 유리하다.Collecting at least two scientific research documents in a predetermined field through a collection unit; Preprocessing the scientific research literature through a preprocessing unit and constructing an authorship evolution model of two or more scientific research literature; And acquiring the scientific research information evolution result by setting the scientific research information estimation parameter through the acquisition unit and calculating the scientific research information estimation parameter by using the evolutionary operation formula. Lt; / RTI > In the embodiment provided by the present invention, the scientific research literature is collected in a predetermined field, the preprocessing is carried out on the scientific research literature, the authors subject evolution model of the scientific research literature is constructed, In order to obtain the results of the evolution of research information, the results of the evolution of scientific research information should include the topics of the scientific research literature and the research interests of the researchers, as well as the temporal change rules such as the scientific research theme of the pre- It is advantageous to grasp the evolutionary context of the scientific research subject in the predetermined field.

Description

과학연구 정보 진화의 분석 방법 및 장치{Analysis method and device for scientific research information revolution}Technical Field [0002] The present invention relates to a method and apparatus for analyzing the evolution of scientific information,

본 발명은 과학연구 정보 분석 기술분야에 관한 것으로서, 특히 과학연구 정보 진화의 분석 방법 및 장치에 관한 것이다.The present invention relates to the field of scientific research information analysis technology, and more particularly, to a method and apparatus for analyzing scientific research information evolution.

과학연구 문헌은 학술 성과의 주요 저장 매개체로서, 연구원의 대량의 땀과 지혜가 응집되어 있으며, 인류사회에 있어서 지식전파 및 학술교류의 중요 수단이며, 어떠한 과학연구 성과도 모두 이전의 과학연구의 기초 상에 이루어진다. 프라이스 과학연구 문헌 지수 증가법칙 및 로직 곡선 증가 모형은 과학연구 문헌의 수량은 지수적 차수로 증가됨을 보여준다. 과학기술 발전 현황을 정확하게 파악하기 위하여 과학연구 문헌의 특징 정보를 결합하여, 방대한 과학연구 문헌 자료 중에서 과학기술 주제 및 그 내부 발전 맥락을 찾아낼 수 있다. 그 중에서, 과학연구 문헌 자원은 대량의 특징 정보, 예를 들어 단어와 단어 사이의 잠재적 어의 관계, 과학연구 문헌의 주제 및 저자의 관계(저자의 연구 관심), 연구 포인트의 흥행에서 성숙 및 쇠퇴의 과정 등을 포함한다.Scientific research literature is the main storage medium of scholarly achievement. It is a mass of sweat and wisdom of researchers. It is an important means of knowledge dissemination and academic exchanges in human society. Lt; / RTI > The Price Science Index and the Logic Curve Growth Model show that the quantity of scientific research literature is increased to an exponential order. In order to accurately grasp the state of science and technology development, it is possible to combine the feature information of scientific research literature and find out the science technology subject and its internal development context from the vast scientific research literature data. Among them, scientific research literature resources are characterized by a large amount of feature information, for example, the relationship of potential words between words and words, the relationship between the subject of the scientific research literature and the author (research interests of the author) And the like.

종래 기술에 있어서, Rosen-Zvi 등은 LDA 모형에 저자의 숨은 변수를 도입하고, 저자-주제(Author-Topic,AT)분포로 LDA 모형 중의 과학연구 문헌-주제분포를 대체하였다. AT 모형은 과학연구 문헌의 저자 및 과학연구 문헌의 주제 사이의 관계를 효율적으로 발굴할 수 있으며, 연구원의 연구 관심을 찾아낼 수 있다. 그러나 AT 모형은 각 연구원이 하나의 연구 관심을 가진다고 숨은 방식으로 가정하며, 이러한 제한 조건을 극복하기 위하여, Mimno 등은 AT 모형의 기초 상에서 저자-신분-주제(Author-Persona-Topic,APT)모형을 구축하였다. 이러한 모형은 연구원의 '신분'(Persona)과 연구 관심을 대응시켰으며, 연구 관심 수량을 추정하는 계발 방법을 제공한다. 그러나 AT 및 APT 모형은 연구원의 연구 관심을 발굴할 때, 오직 그가 저술한 과학연구 문헌만 고려하고, 시간적 요소에 의한 영향에 대해서는 직접적으로 고려하지 않았기에, 과학연구 문헌의 주제, 연구원의 연구 관심의 시간적 변화 규칙에 대해 게시할 수 없다.In the prior art, Rosen-Zvi et al. Introduced the authors' hidden variables into the LDA model and replaced the scientific literature-subject distribution in the LDA model with an Author-Topic (AT) distribution. The AT model can efficiently identify the relationship between the author of the scientific research literature and the subject of the scientific research literature, and can find the research interest of the researcher. However, in order to overcome these limitations, Mimno et al. Proposed an Author-Persona-Topic (APT) model on the basis of an AT model. . These models correspond to the 'persona' of the researcher and the research interest, and provide an enlightenment method for estimating the amount of research interest. The AT and APT models, however, did not directly consider the effects of time factors when considering the research interests of the researchers, only considering the scientific research literature, Can not post about the temporal change rule of.

본 발명은 종래 기술에서 과학연구 문헌의 주제, 연구원의 연구 관심의 시간적 변화 규칙을 게시할 수 없는 과제를 해결하기 위한 과학연구 정보 진화의 분석 방법 및 장치를 제공한다.The present invention provides a method and apparatus for analyzing the evolution of scientific research information for solving a problem that can not be posted on the subject of scientific research literature and time change rules of research interest of researchers in the prior art.

종래 기술 중의 상기 과제를 해결하기 위하여, 본 발명은 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는 단계; 전처리 유닛을 통해 상기 과학연구 문헌에 대해 전처리를 진행하고, 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계; 및 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계를 포함하는 과학연구 정보 진화의 분석 방법을 제공한다.In order to solve the above problems in the prior art, the present invention relates to a method for collecting scientific research documents in a field set in advance through a collection unit; Preprocessing the scientific research literature through a preprocessing unit and building an authorship evolution model of the two or more scientific research literature; And acquiring the scientific research information evolution result by setting the scientific research information estimation parameter through the acquisition unit and calculating the scientific research estimation parameter by using the evolutionary operation formula, thereby providing an analysis method of scientific research information evolution do.

또한 본 발명은 과학연구 정보 진화의 분석 장치에 있어서, 수집 유닛, 전처리 유닛 및 획득 유닛을 포함하되, 상기 수집 유닛은 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고; 상기 전처리 유닛은 상기 과학연구 문헌에 대해 전처리를 진행하고, 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하며; 상기 획득 유닛은 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 과학연구 정보 진화의 분석 장치를 더 제공한다.The invention also relates to an apparatus for analyzing the evolution of scientific research information, comprising: a collection unit, a preprocessing unit and an acquisition unit, the collection unit collecting two or more scientific research articles in a predetermined field; Wherein the preprocessing unit preprocesses the scientific research literature and builds an authorship evolution model of the two or more scientific research literature; The acquisition unit further provides a device for analyzing scientific research information evolution that acquires scientific research information evolution results by setting scientific research information estimation parameters and computing the scientific research estimation parameters using an evolutionary operation formula.

본 발명에 의해 제공된 실시예는 아래와 같은 유익한 효과를 제공한다.The embodiments provided by the present invention provide the following beneficial effects.

본 실시예에 있어서, 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고, 과학연구 문헌에 대해 전처리를 진행하며, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙을 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맥락을 파악하는데 유리하다.In this embodiment, two or more scientific research documents are collected in a predetermined field, preprocessing is carried out on scientific research documents, an authors subject evolution model of two or more scientific research documents is constructed, and a scientific research information estimation parameter The results of the evolution of scientific research information are obtained by posting the research topics of the scientific research literature and the research interests of the researchers, It is advantageous to grasp the evolutionary context of science research subject in pre-set field because it is possible to find and publish time change rule such as scientific research theme of scientific research field and research interest of researcher.

본 발명의 상술한 및/또는 추가 부분 및 장점은 아래의 도면을 결부하여 진행된 실시예의 설명에서더욱 명확하게 되며 쉽게 이해할 수 있게 된다.
도 1은 본 발명에 따른 과학연구 정보 진화의 분석 방법의 제 1실시예의 흐름도이다.
도 2는 본 발명에 따른 과학연구 정보 진화의 분석 방법의 제 2실시예의 흐름도이다.
도 3은 본 실시예 중 AToT 모형의 확률도이다.
도 4는 본 실시예 중 주제 '학습 강화'의 시간적 변화의 추세도이다.
도 5는 본 실시예 중 주제 'EM와 혼합모형'의 시간적 변화의 추세도이다.
도 6은 본 실시예 중 주제 '육안 식별 및 인자 분석'의 시간적 변화의 추세도이다.
도 7은 본 실시예 중 주제 '데이터 모형 및 학습 알고리즘'의 시간적 변화의 추세도이다.
도 8은 본 실시예 중 주제 '서포트 벡터 머신 및 커널기법'의 시간적 변화의 추세도이다.
도 9는 본 실시예 중 주제 '신경망'의 시간적 변화의 추세도이다.
도 10은 본 실시예 중 주제 '언어식별'의 시간적 변화의 추세도이다.
도 11은 본 실시예 중 주제 '베이지안 학습'의 시간적 변화의 추세도이다.
도 12는 본 실시예 중 과학연구 문헌의 시간 분포도이다.
도 13은 본 실시예 중 연구원의 연구 주제의 시간 진화 모형도이다.
도 14는 본 실시예 중 AT 모형 및 AToT 모형의 혼란도(perplexity)의 비교 모식도이다.
도 15는 본 발명에 따른 과학연구 정보 진화의 분석 장치의 제 1실시예의 구성 모식도이다.
도 16은 본 발명에 따른 과학연구 정보 진화의 분석 장치의 제 2실시예의 구성 모식도이다.
The foregoing and / or additional aspects and advantages of the present invention will become more apparent from the following description of the embodiments thereof, taken in conjunction with the accompanying drawings, in which:
1 is a flowchart of a first embodiment of a method for analyzing scientific research information evolution according to the present invention.
2 is a flowchart of a second embodiment of a method for analyzing scientific research information evolution according to the present invention.
3 is a probability diagram of the AToT model in this embodiment.
FIG. 4 is a trend diagram of the temporal change of the theme 'reinforcement of learning' in the present embodiment.
FIG. 5 is a trend diagram of temporal change of the subject 'EM and mixed model' in the present embodiment.
FIG. 6 is a trend diagram of temporal change of the subject 'visual identification and factor analysis' in the present embodiment.
FIG. 7 is a trend diagram of the temporal change of the subject 'data model and learning algorithm' in the present embodiment.
FIG. 8 is a trend diagram of temporal change of the theme 'support vector machine and kernel technique' in this embodiment.
FIG. 9 is a trend diagram of temporal change of the subject 'neural network' in the present embodiment.
FIG. 10 is a trend diagram of temporal change of the theme 'language identification' in the present embodiment.
11 is a trend diagram of temporal change of the theme 'Bayesian learning' in this embodiment.
12 is a time distribution diagram of scientific research documents in this embodiment.
13 is a time evolution model diagram of the research subject of the present embodiment.
FIG. 14 is a schematic diagram showing a comparison of the perplexity of the AT model and the AToT model in this embodiment.
FIG. 15 is a structural diagram of a first embodiment of an apparatus for analyzing scientific research information evolution according to the present invention. FIG.
16 is a structural diagram of a second embodiment of an apparatus for analyzing scientific research information evolution according to the present invention.

이하 본 발명의 실시예에 대해 상세하게 설명하는데, 상기 실시예의 예시는 첨부된 도면에 나타내며, 그 중, 동일 또는 유사한 부호는 시종일관으로 동일하거나 유사한 소자 또는 동일하거나 유사한 기능을 가지는 소자를 나타낸다. 이하 도면을 참조하여 설명한 실시예는 예시적인 것이며, 단지 본 발명을 해석하는데 사용되며, 본 발명을 한정하는데 사용되는 것은 아니다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, in which like or similar reference numerals denote elements having the same or similar elements or elements having the same or similar functions. The embodiments described below with reference to the drawings are illustrative and are used merely for interpreting the present invention and are not used to limit the present invention.

본 기술분야의 당업자는 특별히 성명한 부분을 제외하고 여기에서 사용되는 단수형식의 "일", "한개", "상기" 및 "해당"은 복수형식도 포함한다는 것을 이해할 수 있다. 또한 본 발명의 명세서에서 사용되는 표현 "포함"은 상기 특징, 정수, 단계, 조작, 소자 및/또는 모듈의 존재함을 나타내지만, 한개 또는 복수개 기타 특징, 정수, 단계, 조작, 소자, 모듈 및/또는 이들 그룹의 존재 또는 추가를 배제하지 않는다는 것도 이해하여야 한다. 한 소자가 다른 소자에 "연결" 또는 "커플링"되었다고 할 때, 이는 해당 소자가 다른 소자에 직접 연결 또는 커플링되거나 중간 소자가 존재할 수도 있다고 이해하여야 한다. 그 외, 여기에서 사용되는 "연결" 또는 "커플링"은 무선 연결 또는 커플링을 포함할 수 있다. 여기에서 사용되는 표현 "및/또는"는 하나 또는 하나 이상의 서로 관련되는 열거항의 임의의 유닛 또는 전부의 조합을 포함한다.Those skilled in the art will recognize that the singular forms "a," " an ", "above" and "include" Also, the phrase "comprising" as used herein should be interpreted as indicating the presence of said features, integers, steps, operations, elements and / or modules but may include one or more other features, integers, And / or does not exclude the presence or addition of these groups. When an element is referred to as being "connected" or "coupled" to another element, it should be understood that the element may be directly coupled or coupled to another element, or an intermediate element may be present. In addition, "connection" or "coupling ", as used herein, may include wireless connection or coupling. As used herein, the phrase "and / or" includes any or all combinations of one or more related enumerated terms.

본 기술분야의 당업자는 별도의 정의를 제외하고, 여기에서 사용되는 모든 용어(기술 용어 및 과학 용어를 포함)는 본 발명이 속하는 기술분야의 당업자가 보편적으로 이해하는 동일한 의미를 가진다는 것을 이해하여야 한다. 또한 예를 들어 일반적으로 사용되는 사전에 정의되어 있는 용어는 종래 기술의 상하문에서의 의미와 일치한 의미를 가지고, 여기에서와 같이 정의되는 경우를 제외하고 이상화 또는 지나치게 공식적인 의미로 해석되지 않는 것도 이해하여야 한다. It will be apparent to those skilled in the art that, except as otherwise defined, all terms (including technical and scientific terms) used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs do. Also, for example, commonly used predefined terms have the meaning consistent with the meanings in the upper and lower statements of the prior art, and are not to be construed as idealized or overly formal meanings except as defined herein I must understand.

도 1은 본 발명에 따른 과학연구 정보 진화의 분석 방법의 제 1실시예의 흐름도이다. 도 1에 도시된 바와 같이, 본 실시예에 따른 과학연구 정보 진화의 분석 방법의 동작 프로세스는 아래와 같은 단계를 포함한다.1 is a flowchart of a first embodiment of a method for analyzing scientific research information evolution according to the present invention. As shown in Fig. 1, the operation process of the analysis method of scientific research information evolution according to the present embodiment includes the following steps.

단계101: 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집한다.Step 101: Collect more than one scientific research literature in a predetermined field through the collection unit.

본 실시예에 있어서, 컴퓨터를 통해 수집 유닛, 전처리 유닛 및 획득 유닛의 기능을 수행할 수 있다. 본 단계에 있어서, 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는데, 예를 들어 수집 유닛을 통해 어느 과학연구 분야에서 1000편의 과학연구 문헌을 수집할 수 있다. 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집한 후, 단계 102에 진입한다.In the present embodiment, the functions of the acquisition unit, the preprocessing unit, and the acquisition unit can be performed through the computer. In this step, the collection unit collects two or more scientific research documents in a predetermined field. For example, the collection unit can collect 1000 scientific research documents in a scientific research field. After collecting two or more scientific research documents in a predetermined field through the collection unit, step 102 is entered.

단계 102: 전처리 유닛을 통해 상기 과학연구 문헌에 대해 전처리를 진행하고, 두 편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축한다.Step 102: Preprocessing the scientific research literature through a preprocessing unit and constructing an authorship evolution model of two or more scientific research literature.

본 단계에 있어서, 전처리 유닛을 통해 수집한 모든 과학연구 문헌에 대해 전처리를 진행하는데, 사용중지 단어, 숫자 및 미리 설정한 빈도보다 낮은 단어 등을 필터링하는 것을 포함하며, 과학연구 문헌의 저자 이름에 대해 중의성 해소를 진행하며, 이름 중의성 해소 방법은 인공 중의성 해소법, 반 자동 중의성 해소법, 자동 중의성 해소법 및 혼합 중의성 해소법 등을 포함하며, 전처리 완성 후 정리를 통해 V개의 텀으로 구성된 사전 및 A명의 저자로 조성된 과학기술 종사자 집합을 얻을 수 있으며, 또한 과학연구 문헌의 발표시간을 구간(0, 1)으로 정규화 처리를 진행한다. 수집한 각 과학연구 문헌의 저자 주제 진화 모형(Author-Topic over Time,AToT)을 구축하는 단계는 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(

Figure 112014104284345-pat00001
), 저자 주제 파라미터(
Figure 112014104284345-pat00002
), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분(
Figure 112014104284345-pat00003
) 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분(
Figure 112014104284345-pat00004
)을 계산하는 것을 포함한다. 그 중, 깁스 샘플링 알고리즘 공식은 아래와 같으며,In this step, all the scientific research articles collected through the preprocessing unit are preprocessed, including filtering out of use words, numbers and words lower than a predetermined frequency, and the name of the author of the scientific research document The method of resolving the name of the name includes the artificial neutralization method, the semi-automatic neutralization method, the automatic neutralization method and the mixed neutralization method. And a set of science and technology workers who are made up of A authors. In addition, the presentation time of the scientific research literature is normalized to the interval (0, 1). Author-Topic over Time (AToT) of each collected scientific research literature is constructed by using the Gibbs sampling algorithm,
Figure 112014104284345-pat00001
), Author subject parameter (
Figure 112014104284345-pat00002
), The theme allocation of the n words in the scientific research literature (m)
Figure 112014104284345-pat00003
) And the authors' distribution of the n words in the scientific research literature (m)
Figure 112014104284345-pat00004
). ≪ / RTI > Among them, the formula of Gibbs sampling algorithm is as follows,

Figure 112014104284345-pat00005

Figure 112014104284345-pat00005

그 중, K는 수집한 적어도 두 편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고,

Figure 112014104284345-pat00006
는 주제(k)의 시간적 변화 베타(Beta) 분포 파라미터 벡터이며,
Figure 112014104284345-pat00007
는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고,
Figure 112014104284345-pat00008
는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며,
Figure 112014104284345-pat00009
는 과학연구 문헌(m) 중 제 n개 단어이며,
Figure 112014104284345-pat00010
는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며,
Figure 112014104284345-pat00011
Figure 112014104284345-pat00012
(a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며,
Figure 112014104284345-pat00013
는 저자 (a)의 주제 확률 분포 파라미터이며,
Figure 112014104284345-pat00014
Figure 112014104284345-pat00015
(k = 1, …, K)의 디리클레 선험 파라미터 벡터이며,
Figure 112014104284345-pat00016
는 주제(k)의 텀 확률 분포이며,
Figure 112014104284345-pat00017
는 단어(
Figure 112014104284345-pat00018
)에 배분된 주제 이외의 모든 주제 변수이며,
Figure 112014104284345-pat00019
는 단어(
Figure 112014104284345-pat00020
)에 배분된 저자 이외의 모든 저자 변수이며,
Figure 112014104284345-pat00021
는 텀(v)이 주제(
Figure 112014104284345-pat00022
)에 배분되는 차수이며,
Figure 112014104284345-pat00023
는 저자(
Figure 112014104284345-pat00024
)가 책임진 단어가 주제(k)에 배분되는 차수이다.K is the number of subjects covered by at least two scientific research articles collected, Nm is the number of words in the scientific research document (m), and a m is a vector formed by the author of the scientific research document (m) A m is the number of authors of the scientific research literature (m)
Figure 112014104284345-pat00006
Is a temporally varying Beta distribution parameter vector of the subject k,
Figure 112014104284345-pat00007
Is the subject allocation of the n words of the scientific research document (m)
Figure 112014104284345-pat00008
Is the authorship of the n words of the scientific research literature (m)
Figure 112014104284345-pat00009
Is the n-th word of the scientific research document (m)
Figure 112014104284345-pat00010
Is the time stamp of the n words of the scientific research document (m)
Figure 112014104284345-pat00011
The
Figure 112014104284345-pat00012
(A = 1, ... , A) is a Dirichlet priori parameter vector,
Figure 112014104284345-pat00013
Is the subject probability distribution parameter of the author (a)
Figure 112014104284345-pat00014
The
Figure 112014104284345-pat00015
(K = 1, ... , ≪ / RTI > K,
Figure 112014104284345-pat00016
Is the term probability distribution of the subject (k)
Figure 112014104284345-pat00017
Is the word (
Figure 112014104284345-pat00018
) Are all subject variables other than those that are distributed,
Figure 112014104284345-pat00019
Is the word (
Figure 112014104284345-pat00020
) Are all authors other than authors,
Figure 112014104284345-pat00021
(V) is the subject (
Figure 112014104284345-pat00022
), ≪ / RTI >
Figure 112014104284345-pat00023
The author (
Figure 112014104284345-pat00024
) Is the order to which the words responsible are allocated to the topic (k).

전처리 유닛을 통해 과학연구 문헌에 대해 전처리를 진행하고, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축한 후 단계 103에 진입한다.Preprocessing the scientific research literature through a preprocessing unit, constructing an authorship evolution model of two or more scientific research documents, and entering step 103.

단계 103: 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고, 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득한다.Step 103: Establish scientific research information estimation parameters through the acquisition unit, and obtain scientific research information evolution results by computing scientific research estimation parameters using evolutionary arithmetic formulas.

본 단계에 있어서, 단계 102에서의 전처리 결과를 이용하여, 획득 유닛에 의해 이용되는 근사 추론 알고리즘을 통해 과학연구 정보 추산 파라미터를 설정하는데, 그 중, 과학연구 정보 추산 파라미터는 주제 텀 파라미터(

Figure 112014104284345-pat00025
), 저자 주제 파라미터(
Figure 112014104284345-pat00026
), 주제 시간 파라미터(
Figure 112014104284345-pat00027
), 과학 연구 문헌(m) 중 제 n개 단어의 주제 배분(
Figure 112014104284345-pat00028
) 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분(
Figure 112014104284345-pat00029
)을 포함한다. 그 중, 주제 텀 파라미터(
Figure 112014104284345-pat00030
), 저자 주제 파라미터(
Figure 112014104284345-pat00031
), 과학 연구 문헌(m) 중 제 n개 단어의 주제 배분(
Figure 112014104284345-pat00032
) 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분(
Figure 112014104284345-pat00033
)을 설정하는 근사 추론 알고리즘은 변분 기대치 최대화(Variational Expectation-Maximization), 기대치 전파 및 깁스 샘플링 등을 포함한다. 주제 시간 파라미터( )를 설정하는 근사 추론 알고리즘은 최대우도 추정법, 적률 추정법, 퍼트(Program Evaluation and Review Technique,PERT)추정법, TSP(Two-Sided Power Distribution)추산법 및 분위수 추정법 등을 포함한다.In this step, the pre-processing result at step 102 is used to set the scientific research information estimation parameter through an approximate inference algorithm used by the acquisition unit, of which the scientific research information estimation parameter is the subject term parameter
Figure 112014104284345-pat00025
), Author subject parameter (
Figure 112014104284345-pat00026
), Subject time parameters (
Figure 112014104284345-pat00027
), The theme allocation of the n words in the scientific research literature (m)
Figure 112014104284345-pat00028
) And the authors' distribution of the n words in the scientific research literature (m)
Figure 112014104284345-pat00029
). Among them, the theme term parameter (
Figure 112014104284345-pat00030
), Author subject parameter (
Figure 112014104284345-pat00031
), The theme allocation of the n words in the scientific research literature (m)
Figure 112014104284345-pat00032
) And the authors' distribution of the n words in the scientific research literature (m)
Figure 112014104284345-pat00033
) Include approximate inference algorithms, such as Variational Expectation-Maximization, expectation propagation, and Gibbs sampling. The approximate inference algorithm that sets the subject time parameter () includes the maximum likelihood estimation method, the rate estimation method, the program evaluation and review technique (PERT) estimation method, the two-sided power distribution estimation method and the quantile estimation method.

그 다음, 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데, 그 중, 진화 연산 공식은 아래와 같으며, Next, the scientific research information evolution result is obtained by calculating the above scientific research estimation parameter by using the evolutionary calculation formula, among which the evolutionary calculation formula is as follows,

Figure 112014104284345-pat00034
Figure 112014104284345-pat00034

그 중,

Figure 112014104284345-pat00035
는 과학연구 문헌 저자(a) 주제(k)의 확률 분포이며,
Figure 112014104284345-pat00036
Figure 112014104284345-pat00037
는 주제(k)의 시간적 변화 Beta 분포 파라미터이고,
Figure 112014104284345-pat00038
는 베타 분포의 확률 밀도 함수이다.among them,
Figure 112014104284345-pat00035
(A) the probability distribution of the subject (k)
Figure 112014104284345-pat00036
Wow
Figure 112014104284345-pat00037
Is the temporal change Beta distribution parameter of the subject k,
Figure 112014104284345-pat00038
Is the probability density function of the beta distribution.

본 실시예에 있어서, 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하고, 과학연구 진화 결과를 유저한테 보여주며, 예를 들어 표시 유닛을 통해 유저에게 과학연구 정보 진화 결과를 보여주는데, 상기 단계를 통해 획득한 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시할 뿐만아니라, 미리 설정한 분야에서의 과학연구 주제, 연구원의 연구 관심 등의 시간적 진화 규칙을 발굴 게시할 수 있다.In this embodiment, the scientific research information evolution result is obtained by calculating the scientific research estimation parameter by using the evolution calculation formula, and the scientific research evolution result is displayed to the user. For example, The results of scientific research information evolution obtained through the above steps show not only the topics of scientific research literature, but also the research interests of researchers, as well as scientific research topics in predefined fields, research interests of researchers Such as the time evolution of the rules can be found.

본 실시예에 있어서, 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고, 과학연구 문헌에 대해 전처리를 진행하며, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙도 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맹락을 파악하는데 유리하다.In this embodiment, two or more scientific research documents are collected in a predetermined field, preprocessing is carried out on scientific research documents, an authors subject evolution model of two or more scientific research documents is constructed, and a scientific research information estimation parameter The results of the evolution of scientific research information are obtained by posting the research topics of the scientific research literature and the research interests of the researchers, It is also advantageous to grasp the temporal change rules such as the theme of scientific research in the scientific research field and the research interest of the researcher, and to find out the evolutionary fallacy of the scientific research theme in the predetermined field.

도 2는 본 발명에 따른 과학연구 정보 진화의 분석 방법의 제 2실시예의 흐름도이고, 도 3은 본 실시예 중 AToT 모형의 확률 도이며, 도 4는 본 실시예 중 주제 '학습 강화'의 시간적 변화의 추세도이고, 도 5는 본 실시예 중 주제 'EM와 혼합모형'의 시간적 변화의 추세도이며, 도 6은 본 실시예 중 주제 '육안 식별 및 인자 분석'의 시간적 변화의 추세도이고, 도 7은 본 실시예 중 주제 '데이터 모형 및 학습 알고리즘'의 시간적 변화의 추세도이며, 도 8은 본 실시예 중 주제 '서포트 벡터 머신 및 커널기법'의 시간적 변화의 추세도이고, 도 9는 본 실시예 중 주제 '신경망'의 시간적 변화의 추세도이며, 도 10은 본 실시예 중 주제 '언어식별'의 시간적 변화의 추세도이고, 도 11은 본 실시예 중 주제 '베이지안 학습'의 시간적 변화의 추세도이며, 도 12는 본 실시예 중 과학연구 문헌의 시간 분포도이고, 도 13은 본 실시예 중 연구원의 연구 주제의 시간진화 모형도이며, 도 14는 본 실시예 중 AT 모형 및 AToT 모형의 혼란도(perplexity)의 비교 모식도이다. 도 2에 도시된 바와 같이, 본 실시예의 과학연구 정보 진화의 분석 방법의 동작 프로세스는 구체적으로 아래와 같은 단계를 포함한다.FIG. 2 is a flowchart of a second embodiment of a method for analyzing the evolution of scientific research information according to the present invention. FIG. 3 is a probability diagram of the AToT model in the present embodiment. FIG. FIG. 5 is a graph showing the temporal change of the theme 'EM and mixed model' in the present embodiment. FIG. 6 is a graph showing the temporal change of the theme 'visual identification and factor analysis' , FIG. 7 is a trend diagram of the temporal change of the subject 'data model and learning algorithm' in the present embodiment, FIG. 8 is a trend of temporal change of the 'support vector machine and kernel technique' FIG. 10 is a graph showing the temporal change of the theme 'language identification' in the present embodiment, and FIG. 11 is a graph showing the change of the theme 'Bayesian learning' in the present embodiment. FIG. 12 is a graph showing a change in the time-dependent change FIG. 13 is a time evolution diagram of the research subject of the researcher in this embodiment, and FIG. 14 is a schematic diagram of the perplexity of the AT model and the AToT model in this embodiment. As shown in Fig. 2, the operation process of the analysis method of scientific research information evolution of the present embodiment specifically includes the following steps.

단계 201: 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집한다.Step 201: Collect more than one scientific research literature in a pre-established field through the collection unit.

본 실시예에 있어서, 1987년부터 1999년까지 총 13년의 '신경 정보 처리 시스템'(Neural Information Processing System,NIPS)에 관한 회의 논문 전문을 수집 정리하고, 과학연구 문헌의 수량은 1740편이며, 단계 202에 진입한다.In this example, a total of 13 articles on the Neural Information Processing System (NIPS) from 1987 to 1999 were collected. The volume of scientific research literature is 1740, Step 202 is entered.

단계 202: 전처리 유닛을 통해 과학연구 문헌에 대해 전처리를 진행한다.Step 202: The preprocessing unit preprocesses the scientific research literature.

본 단계에 있어서, 전처리 유닛을 통해 수집한 모든 과학연구 문헌에 대해 전처리를 진행하는데, 사용중지 단어, 숫자 및 미리 설정한 빈도보다 낮은 단어 등을 필터링하는 것을 포함하며, 과학연구 문헌의 저자 이름에 대해 중의성 해소를 진행하며, 이름 중의성 해소 방법은 인공 중의성 해소법, 반 자동 중의성 해소법, 자동 중의성 해소법 및 혼합 중의성 해소법 등을 포함하며, 전처리 완성 후 정리를 통해 V개의 텀으로 구성된 사전 및 A명의 저자로 조성된 과학기술 종사자 집합을 얻을 수 있으며, 또한 과학연구 문헌의 발표시간을 구간(0, 1)으로 정규화 처리를 진행한다. 본 실시예에 있어서, 전처리 유닛은 수집한 NIPS회의 논문에 대해 전처리를 진행하며, 전처리 완성 후 V개의 텀으로 구성된 단어 집합 및 A명의 저자로 조성된 과학기술 종사자 집합을 얻을 수 있으며, 또한 NIPS회의 논문의 발표시간을 구간(0, 1)으로 정규화 처리를 진행하며, 그 중, V=12364, A=2037이다. 과학 연구 문헌에 대해 전처리를 진행한 후, 단계 203에 진입한다.In this step, all the scientific research articles collected through the preprocessing unit are preprocessed, including filtering out of use words, numbers and words lower than a predetermined frequency, and the name of the author of the scientific research document The method of resolving the name of the name includes the artificial neutralization method, the semi-automatic neutralization method, the automatic neutralization method and the mixed neutralization method. And a set of science and technology workers who are made up of A authors. In addition, the presentation time of the scientific research literature is normalized to the interval (0, 1). In the present embodiment, the preprocessing unit preprocesses the collected NIPS papers, obtains a set of words consisting of V terms after completion of preprocessing, and a set of scientific and technological workers composed of authors of A. In addition, The presentation time of the paper is normalized to the interval (0, 1), where V = 12364 and A = 2037. After preprocessing the scientific research literature, step 203 is entered.

단계 203: 수집한 과학연구 문헌의 저자 주제 진화 모형을 구축한다.Step 203: Build the authors subject evolution model of the collected scientific research literature.

본 단계에 있어서, 수집한 과학연구 문헌의 AToT 모형을 구축하는데, AToT 모형의 확률도는 도 3에 도시된 바와 같으며, 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(

Figure 112014104284345-pat00039
), 저자 주제 파라미터(
Figure 112014104284345-pat00040
), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분(
Figure 112014104284345-pat00041
) 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분(
Figure 112014104284345-pat00042
)을 계산하는 것을 포함한다. 그 중, 깁스 샘플링 알고리즘 공식은 아래와 같으며, In this step, the AToT model of the collected scientific research literature is constructed. The probability of the AToT model is as shown in FIG. 3. Specifically, the Gibbs sampling algorithm is used to calculate the theme term parameter
Figure 112014104284345-pat00039
), Author subject parameter (
Figure 112014104284345-pat00040
), The theme allocation of the n words in the scientific research literature (m)
Figure 112014104284345-pat00041
) And the authors' distribution of the n words in the scientific research literature (m)
Figure 112014104284345-pat00042
). ≪ / RTI > Among them, the formula of Gibbs sampling algorithm is as follows,

Figure 112014104284345-pat00043
Figure 112014104284345-pat00043

그 중, K는 수집한 적어도 두편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고,

Figure 112014104284345-pat00044
는 주제(k)의 시간적 변화의 베타(Beta) 분포 파라미터 벡터이며,
Figure 112014104284345-pat00045
는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고,
Figure 112014104284345-pat00046
는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며,
Figure 112014104284345-pat00047
는 과학연구 문헌(m) 중 제 n개 단어이며,
Figure 112014104284345-pat00048
는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며,
Figure 112014104284345-pat00049
Figure 112014104284345-pat00050
(a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며,
Figure 112014104284345-pat00051
는 저자 (a)의 주제 확률 분포 파라미터이며,
Figure 112014104284345-pat00052
Figure 112014104284345-pat00053
(k = 1, …, K)의 디리클레 선험 파라미터 벡터이며,
Figure 112014104284345-pat00054
는 주제(k)의 텀 확률 분포이며,
Figure 112014104284345-pat00055
는 단어(
Figure 112014104284345-pat00056
)에 배분된 주제 이외의 모든 주제 변수이며,
Figure 112014104284345-pat00057
는 단어(
Figure 112014104284345-pat00058
)에 배분된 저자 이외의 모든 저자 변수이며,
Figure 112014104284345-pat00059
는 텀(v)이 주제(
Figure 112014104284345-pat00060
)에 배분되는 차수이며,
Figure 112014104284345-pat00061
는 저자(
Figure 112014104284345-pat00062
)가 책임진 단어가 주제(k)에 배분되는 차수이며, 그 중, K=100,
Figure 112014104284345-pat00063
=50/K(
Figure 112014104284345-pat00064
),
Figure 112014104284345-pat00065
=0.1(
Figure 112014104284345-pat00066
)으로 설정할 수 있다. 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축한 후, 단계 204에 진입한다.K is the number of subjects covered by at least two scientific research articles collected, Nm is the number of words in the scientific research document (m), and a m is a vector formed by the author of the scientific research document (m) A m is the number of authors of the scientific research literature (m)
Figure 112014104284345-pat00044
Is a Beta distribution parameter vector of the temporal change of the subject k,
Figure 112014104284345-pat00045
Is the subject allocation of the n words of the scientific research document (m)
Figure 112014104284345-pat00046
Is the authorship of the n words of the scientific research literature (m)
Figure 112014104284345-pat00047
Is the n-th word of the scientific research document (m)
Figure 112014104284345-pat00048
Is the time stamp of the n words of the scientific research document (m)
Figure 112014104284345-pat00049
The
Figure 112014104284345-pat00050
(A = 1, ... , A) is a Dirichlet priori parameter vector,
Figure 112014104284345-pat00051
Is the subject probability distribution parameter of the author (a)
Figure 112014104284345-pat00052
The
Figure 112014104284345-pat00053
(k = 1, ..., K)
Figure 112014104284345-pat00054
Is the term probability distribution of the subject (k)
Figure 112014104284345-pat00055
Is the word (
Figure 112014104284345-pat00056
) Are all subject variables other than those assigned to the subject,
Figure 112014104284345-pat00057
Is the word (
Figure 112014104284345-pat00058
) Are all authors other than authors,
Figure 112014104284345-pat00059
(V) is the subject (
Figure 112014104284345-pat00060
), ≪ / RTI >
Figure 112014104284345-pat00061
The author (
Figure 112014104284345-pat00062
) Is the order to which the word responsible is allocated to the subject (k), among which K = 100,
Figure 112014104284345-pat00063
= 50 / K (
Figure 112014104284345-pat00064
),
Figure 112014104284345-pat00065
= 0.1 (
Figure 112014104284345-pat00066
). After constructing the authorship evolution model of more than one scientific research literature, enter step 204.

단계 204: 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정한다.Step 204: Set the scientific research information estimation parameter through the acquisition unit.

본 단계에 있어서, 단계 203에서 구축한 AToT 모형에 의하여, 단계 202에서의 전처리 결과를 이용하여, 획득 유닛에 의해 이용되는 근사 추론 알고리즘을 통해 과학연구 정보 추산 파라미터를 설정하며, 그 중, 과학연구 정보 추산 파라미터는 주제 텀 파라미터(

Figure 112014104284345-pat00067
), 저자 주제 파라미터(
Figure 112014104284345-pat00068
), 주제 시간 파라미터(
Figure 112014104284345-pat00069
), 과학 연구 문헌(m) 중 제 n개 단어의 주제 배분(
Figure 112014104284345-pat00070
) 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분(
Figure 112014104284345-pat00071
)을 포함한다. In this step, by using the AToT model constructed at step 203, the pre-processing result at step 202 is used to set scientific research information estimation parameters through an approximate inference algorithm used by the acquisition unit, The information estimate parameter is the subject term parameter (
Figure 112014104284345-pat00067
), Author subject parameter (
Figure 112014104284345-pat00068
), Subject time parameters (
Figure 112014104284345-pat00069
), The theme allocation of the n words in the scientific research literature (m)
Figure 112014104284345-pat00070
) And the authors' distribution of the n words in the scientific research literature (m)
Figure 112014104284345-pat00071
).

본 실시예에 있어서, 깁스 샘플링을 2000차 반복 수행하며, 전체 과정은 수렴되는 추세를 보이며, 이때, 각 단어(

Figure 112014104284345-pat00072
)에 상응한 주제(
Figure 112014104284345-pat00073
)와 저자(
Figure 112014104284345-pat00074
)를 배분하며, 디리클레 분포의 기대치를 이용하여 주제(k)의 텀 확률분포 파라미터(
Figure 112014104284345-pat00075
) 및 저자(a)의 주제 확률 분포 파라미터(
Figure 112014104284345-pat00076
)를 추정하며, (
Figure 112014104284345-pat00077
) 및 (
Figure 112014104284345-pat00078
)의 계산 공식은 아래와 같으며,In the present embodiment, Gibbs sampling is repeated 2000 times, and the whole process shows a tendency to converge,
Figure 112014104284345-pat00072
) Corresponding topic (
Figure 112014104284345-pat00073
) And author
Figure 112014104284345-pat00074
) And distributes the term probability distribution parameter (k) of the subject (k) using the dirichlet distribution expectation
Figure 112014104284345-pat00075
) And the subject's probability distribution parameter (a)
Figure 112014104284345-pat00076
), And
Figure 112014104284345-pat00077
) And (
Figure 112014104284345-pat00078
) Is as follows,

Figure 112014104284345-pat00079
Figure 112014104284345-pat00079

Figure 112014104284345-pat00080
의 계산 속도를 제고시키기 위하여, 적률 추정법을 이용하여 주제(k)의 시간적 변화 Beta 분포 파라미터 벡터(
Figure 112014104284345-pat00081
)를 계산하며, 계산 공식은 아래와 같으며,
Figure 112014104284345-pat00080
In order to improve the computation speed of the subject (k), the temporal change Beta distribution parameter vector
Figure 112014104284345-pat00081
), And the calculation formula is as follows,

Figure 112014104284345-pat00082
Figure 112014104284345-pat00082

그 중, tk는 미리 설정한 분야의 주제(k)의 샘플링 평균치이며,

Figure 112014104284345-pat00083
는 미리 설정한 분야의 주제(k)의 샘플링 분산이며, 상기 tk
Figure 112014104284345-pat00084
의 계산 공식은 아래와 같으며,Among them, t k is a sampling average value of the subject (k) of a preset area,
Figure 112014104284345-pat00083
Is the sampling distribution of the subject (k) of a preset field, and the t k
Figure 112014104284345-pat00084
The calculation formula is as follows,

Figure 112014104284345-pat00085
Figure 112014104284345-pat00085

그 중,

Figure 112014104284345-pat00086
는 과학연구 문헌(m) 중의 단어가 주제(k)에 배분되는 차수이다.among them,
Figure 112014104284345-pat00086
Is a degree to which the words in the scientific research document (m) are distributed to the subject (k).

본 단계에 있어서, 저자 주제 진화 모형을 이용하여 1740편 과학연구 문헌의 100개 주제를 계산하여 얻으며, 각 주제의 서술은 세부분, 즉 (a) 주제와 제일 관련되는 전 10개의 텀 및 상응한 확률; (b) 주제와 제일 관련되는 전 10명의 연구원 및 상응한 확률; (c) 주제의 시간적 변화 추세를 포함한다. 계산하여 얻은 1740편의 과학연구 문헌 중 8개의 주제는 표 1에 나타낸 바와 같다.In this step, the author's subject evolutionary model is used to calculate 100 subjects from the 1740 scientific research literature. The description of each subject is divided into three parts: (a) all 10 terms and the corresponding percentage; (b) a total of ten researchers and corresponding probabilities that are most relevant to the subject; (c) Includes temporal trends in the subject. Eight of the 1,740 scientific research documents obtained from the calculations are shown in Table 1.

주제11 Topic 11
‘학습 강화’'Enhanced learning'
주제88Topic 88
‘EM와 혼합모형’'EM and mixed model'
Term 확률percentage Term 확률percentage statestate 0.04684660.0468466 densitydensity 0.02794770.0279477 learninglearning 0.02528760.0252876 loglog 0.02177900.0217790 beliefbelief 0.02139990.0213999 distributiondistribution 0.01869460.0186946 policypolicy 0.01821910.0182191 mixturemixture 0.01783790.0178379 functionfunction 0.01751220.0175122 methodmethod 0.01441080.0144108 actionaction 0.01503830.0150383 gaussiangaussian 0.01423940.0142394 statesstates 0.01486150.0148615 likelihoodlikelihood 0.01406810.0140681 reinforcementreinforcement 0.01185740.0118574 entropyentropy 0.01321130.0132113 actionsactions 0.01185740.0118574 gaussiansgaussians 0.01235460.0123546 mdpmdp 0.01026700.0102670 formform 0.01132640.0113264 저자author 확률percentage 저자author 확률percentage Zhang_NZhang_N 0.6294120.629412 Barron_ABarron_A 0.6085070.608507 Rodriguez_ARodriguez_A 0.5782350.578235 Wainwright_MWainwright_M 0.3728710.372871 Dietterich_TDietterich_T 0.3429540.342954 Mukherjee_SMukherjee_S 0.3409270.340927 Sallans_BSallans_B 0.2280420.228042 Li_JLi_J 0.3371080.337108 Walker_MWalker_M 0.1891430.189143 Jebara_TJebara_T 0.2532030.253203 Koller_DKoller_D 0.18851500.1885150 Millman_KMillman_K 0.1715690.171569 Yeung_DYeung_D 0.12137300.1213730 Fisher_JFisher_J 0.1482300.148230 Thrun_SThrun_S 0.08420810.0842081 Ihler_AIhler_A 0.1283690.128369 Konda_VKonda_V 0.06803650.0680365 Beal_MBeal_M 0.1265780.126578 Parr_RParr_R 0.04680060.0468006 Hansen_LHansen_L 0.08491090.0849109 주제51 Topic 51
‘육안 식별 및 인자 분석’ 'Visual identification and factor analysis'
주제58Topic 58
‘데이터 모형 및 학습 알고리즘’ 'Data Model and Learning Algorithm'
Term 확률percentage Term 확률percentage sejnowskisejnowski 0.02654090.0265409 learninglearning 0.009046550.00904655 eyeeye 0.02654090.0265409 modelmodel 0.007527410.00752741 icaica 0.01833240.0183324 neuralneural 0.007051020.00705102 vorvor 0.01595310.0159531 datadata 0.007003390.00700339 disparitydisparity 0.01535830.0153583 functionfunction 0.00683930.0068393 headhead 0.01357380.0135738 networknetwork 0.006246460.00624646 positionposition 0.01250310.0125031 inputinput 0.005939460.00593946 eegeeg 0.01190830.0119083 setset 0.005611280.00561128 parietalparietal 0.01095660.0109566 networksnetworks 0.005563650.00556365 salksalk 0.01059970.0105997 figurefigure 0.005452490.00545249 저자author 확률percentage 저자author 확률percentage Sejnowski_TSejnowski_T 0.4104590.410459 Gray_MGray_M 0.9744820.974482 Pouget_APouget_A 0.2697810.269781 Dimitrov_ADimitrov_A 0.9735380.973538 Anastasio_TAnastasio_T 0.1129570.112957 Galperin_GGalperin_G 0.970940.97094 Horiuchi_THoriuchi_T 0.03284850.0328485 Malik_JMalik_J 0.9685360.968536 Albright_TAlbright_T 0.00992780.0099278 Davies_SDavies_S 0.9665340.966534 Jousmaki_VJousmaki_V 0.007911390.00791139 Cook_GCook_G 0.965190.96519 Fredholm_HFredholm_H 0.006818180.00681818 Ghosn_JGhosn_J 0.9641840.964184 Bohr_JBohr_J 0.006437770.00643777 Orponen_POrponen_P 0.9641840.964184 Ramanujam_NRamanujam_N 0.006218910.00621891 Yen_SYen_S 0.9630010.963001 Dixon_LDixon_L 0.005859380.00585938 Chatterjee_CChatterjee_C 0.9626270.962627 주제87Topic 87
‘서포트 벡터 머신 및 커널기법’'Support vector machine and kernel technique'
주제37Topic 37
‘신경망’'Neural network'
Term 확률percentage Term 확률percentage setset 0.01881950.0188195 learninglearning 0.011067400.01106740 supportsupport 0.01871170.0187117 networknetwork 0.009480160.00948016 vectorvector 0.01860390.0186039 neuralneural 0.007805030.00780503 kernelkernel 0.01601630.0160163 inputinput 0.006821920.00682192 functionfunction 0.01461460.0146146 modelmodel 0.006816430.00681643 svmsvm 0.01380600.0138060 trainingtraining 0.006042020.00604202 trainingtraining 0.01299740.0129974 datadata 0.005976110.00597611 problemproblem 0.01245830.0124583 figurefigure 0.005943160.00594316 spacespace 0.01197310.0119731 networksnetworks 0.005608130.00560813 solutionsolution 0.01159570.0115957 functionfunction 0.005542220.00554222 저자author 확률percentage 저자author 확률percentage Scholkopf_BScholkopf_B 0.9496920.949692 Reggia_JReggia_J 0.9798320.979832 Crisp_DCrisp_D 0.8889750.888975 Todorov_ETodorov_E 0.9767500.976750 Laskov_PLaskov_P 0.7061700.706170 Horne_BHorne_B 0.9741460.974146 Steinhage_VSteinhage_V 0.6349730.634973 Thmn_SThmn_S 0.9730830.973083 Chapelle_OChapelle_O 0.6103850.610385 Weigend_AWeigend_A 0.9728060.972806 Li_YLi_Y 0.5134180.513418 McCallum_RMcCallum_R 0.9697770.969777 Herbrich_RHerbrich_R 0.4543840.454384 Camana_RCamana_R 0.9693880.969388 Gordon_MGordon_M 0.4250900.425090 Slaney_MSlaney_M 0.9693820.969382 Vapnik_VVapnik_V 0.3304210.330421 Miikkulainen_RMiikkulainen_R 0.9685410.968541 Dom_BDom_B 0.2860360.286036 Bergen_JBergen_J 0.9683580.968358 주제47Topic 47
‘언어식별’"Language Identification"
주제78 Topic 78
‘베이지안 학습’'Bayesian learning'
Term 확률percentage Term 확률percentage hmmhmm 0.04153640.0415364 bayesianbayesian 0.02430320.0243032 speechspeech 0.03929210.0392921 samplingsampling 0.0184560.018456 hmmshmms 0.02165790.0216579 priorprior 0.01785630.0178563 mixturemixture 0.01797080.0179708 distributiondistribution 0.01485780.0148578 suffixsuffix 0.01043620.0104362 montemonte 0.01275880.0127588 probabilisticprobabilistic 0.009955270.00995527 carlocarlo 0.01185920.0118592 probabilitiesprobabilities 0.009474340.00947434 modelmodel 0.01095970.0109597 singersinger 0.00883310.0088331 posteriorposterior 0.01050990.0105099 acousticacoustic 0.00883310.0088331 priorspriors 0.009460410.00946041 saulsaul 0.008672790.00867279 samplesample 0.009010630.00901063 저자author 확률percentage 저자author 확률percentage Rigoll_GRigoll_G 0.4608820.460882 Schuurmans_DSchuurmans_D 0.6515050.651505 Singer_YSinger_Y 0.4375470.437547 Sykacek_PSykacek_P 0.4955060.495506 Nix_DNix_D 0.1923420.192342 Andrieu_CAndrieu_C 0.4133240.413324 Saul_LSaul_L 0.1706990.170699 Rasmussen_CRasmussen_C 0.3441850.344185 Hermansky_HHermansky_H 0.07956020.0795602 Zlochin_MZlochin_M 0.2447450.244745 Roweis_SRoweis_S 0.03913640.0391364 Beal_MBeal_M 0.1578070.157807 Attias_HAttias_H 0.03575380.0357538 Hansen_LHansen_L 0.1227730.122773 Movellan_JMovellan_J 0.0334140.033414 Herbrich_RHerbrich_R 0.08827010.0882701 Schuster_MSchuster_M 0.02933240.0293324 Downs_ODowns_O 0.06947260.0694726 Muller_KMuller_K 0.0282580.028258 Williams_CWilliams_C 0.06520690.0652069

획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고, 1740편의 과학연구 문헌의 100개 주제 텀 확률, 저자 주제 확률 및 주제 시간 파라미터를 산출한 후, 단계 205에 진입한다.Sets the scientific research information estimation parameters through the acquisition unit, calculates 100 subject terms probability, author subject probability and subject time parameters of the scientific research literature of 1740, and then enters step 205.

단계 205: 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득한다Step 205: Obtain scientific research information evolution results by computing scientific research estimation parameters using the evolutionary arithmetic formula

본 단계에 있어서, 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학 연구 정보 진화 결과를 획득하는데, 진화 연산 공식은 아래와 같으며,In this step, the scientific research information evolution result is obtained by calculating the scientific research estimation parameter by using the evolution calculation formula. The evolution calculation formula is as follows,

Figure 112014104284345-pat00087
Figure 112014104284345-pat00087

그 중,

Figure 112014104284345-pat00088
는 과학연구 문헌의 저자(a) 주제(k)의 확률이며,
Figure 112014104284345-pat00089
Figure 112014104284345-pat00090
는 주제(k)의 시간적 변화의 Beta 분포 파라미터이고,
Figure 112014104284345-pat00091
는 Beta 분포의 확률 밀도 함수이다.among them,
Figure 112014104284345-pat00088
(A) the probability of the subject (k) of the scientific research literature,
Figure 112014104284345-pat00089
Wow
Figure 112014104284345-pat00090
Is the Beta distribution parameter of the temporal change of the subject (k)
Figure 112014104284345-pat00091
Is a probability density function of Beta distribution.

각 연구원(

Figure 112014104284345-pat00092
)에 관하여 크기가 K x (1999 1987+1)=100 x 13인 매트릭스를 얻으며, 해당 매트릭스의 각 원소는 해당 연구원이 특정 시점에 특정 주제에 대한 관심도이다. 표 1의 연구원 Sejnowski를 예로 들어 기술방안을 설명한다.Each researcher (
Figure 112014104284345-pat00092
), A matrix with a size of K x (1999 1987 + 1) = 100 x 13 is obtained, and each element of the matrix is interested in a particular subject at a particular point in time. Using the example of Sejnowski, the researcher in Table 1 as an example, we describe the technical solution.

연구원 Sejnowski는 1987년부터 1999년 사이에 NIPS 회의에서 총 43편의 과학연구 문헌을 발표하였는데, 그 중, 43편의 과학연구 문헌의 시간 분포도는 도 12에 도시된 바와 같으며, Sejnowski가 부동한 시기에서의 연구 주제의 시간 진화 모형도는 도 13에 도시된 바와 같으며, 도 13에서는 Hinton도를 이용하여 Sejnowski가 부동한 시기에서의 연구 주제의 시간 진화를 보여주며, 부동한 주제에 대한 관심도를 직사각형의 면적으로 나타내며, 직사각형의 면적이 클수록 Sejnowski가 해당 주제에 대한 연구 관심이 더 높음을 설명한다. 도 13으로부터 알 수 있다시피, 1987년부터 1999년 기간에 Sejnowski의 연구 주제는 주요하게 '육안 인식 및 인자 분석'(주제51), '신경망'(주제37) 및 '데이터 모형 및 학습 알고리즘'(주제58)이며, 그 중, Sejnowski는 초기(1989년부터 1993년)의 연구 관심은 '육안 인식 및 인자 분석'이고, 1994년부터 Sejnowski의 연구 주제는 '신경망'(1994) 및 '데이터 모형 및 학습 알고리즘'(1996년)으로 확장하였으며, 연구 강도가 비교적 높다(문헌 발표 수량이 증가). 1997년 이후 Sejnowski의 연구 주제는 '육안 인식 및 인자 분석'으로 돌아갔으며, 연구강도도 다소 하강하였다. 1987년부터 1999년 전체 기간에 Sejnowski는 자신의 주요 연구 주제 '육안 인식 및 인자 분석'을 둘러싸고 연구 활동을 진행하였다.Researcher Sejnowski published a total of 43 scientific research papers at the NIPS meeting between 1987 and 1999. Among them, the time distribution diagrams of 43 scientific research documents are shown in Fig. 12, and Sejnowski 13 shows the time evolution model of the research topic. FIG. 13 shows the time evolution of the research topic at different times using Hinton diagram, The larger the area of the rectangle, the greater the interest of Sejnowski in research on the subject. As can be seen from FIG. 13, Sejnowski's research topics from 1987 to 1999 mainly consisted of 'visual recognition and factor analysis' (topic 51), 'neural network' (topic 37) and 'data model and learning algorithm' Sejnowski's research interest in the early years (1989 to 1993) is 'visual recognition and factor analysis', and since 1994, Sejnowski's research topics are 'neural network' (1994) Learning algorithm '(1996), and the research intensity is relatively high (the number of documents published increases). Since 1997, Sejnowski 's research topic has returned to' visual recognition and factor analysis', and the intensity of research has dropped somewhat. During the entire period from 1987 to 1999, Sejnowski conducted research on his main research topic, 'Visual perception and factor analysis'.

본 실시예에 있어서, 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하고, 과학연구 진화 결과를 유저한테 보여주며, 예를 들어 표시 유닛을 통해 유저에게 과학연구 정보 진화 결과를 보여주는데, 상기 단계를 통해 획득한 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시할 뿐만아니라, 미리 설정한 과학연구 분야에서의 과학연구 주제, 연구원의 연구 관심 등의 시간적 진화 규칙을 발굴 게시할 수 있다.In this embodiment, the scientific research information evolution result is obtained by calculating the scientific research estimation parameter by using the evolution calculation formula, and the scientific research evolution result is displayed to the user. For example, The results of scientific research information evolution obtained through the above steps show not only the topic of scientific research literature, but also the research interests of researchers, as well as scientific research topics in pre-established scientific research fields, Research interests and other temporal evolutionary rules.

실제 응용에서, 혼란도(perplexity)는 모형 일반화 능력을 평가하는 기준 지표이며, 혼란도 값이 작을수록 모형 일반화 능력이 강함을 설명한다. 저자 주제 진화 AToT 모형의 일반화 능력을 평가하기 위하여, 본 실시예는 1740편의 과학연구 문헌을 추가로 두 부분으로 나누고, 그 중, 1557편의 문서를 훈련집합으로 하고, 183편의 문서는 테스트 집합으로 하며, 테스트 집합에는 102편의 단일 저자 과학연구 문헌이 포함되고, 테스트 집합에서 나오는 모든 저자는 반드시 훈련 집합에서도 나온다. AToT 모형에서, 테스트 집합 중의 과학연구 문헌 (

Figure 112014104284345-pat00093
)에 관하여, 혼란도 계산 공식은 아래와 같으며,In practical applications, perplexity is a measure of the ability to model generalizability, and the smaller the value of confusion, the stronger the ability to generalize the model. In order to evaluate the generalization ability of the evolutionary AToT model, the present embodiment divides 1740 scientific research documents into two parts, 1557 documents as a training set, 183 documents as a test set , The test set contains 102 single author scientific research papers, and all authors from the test set are also derived from the training set. In the AToT model, the scientific research literature in the test set (
Figure 112014104284345-pat00093
), The confusion degree calculation formula is as follows,

Figure 112014104284345-pat00094
Figure 112014104284345-pat00094

그 중,among them,

Figure 112014104284345-pat00095
Figure 112014104284345-pat00095

훈련 집합에서 얻은 파라미터

Figure 112014104284345-pat00096
,
Figure 112014104284345-pat00097
Figure 112014104284345-pat00098
에 의하여, 혼란도 계산 공식 중의
Figure 112014104284345-pat00099
,
Figure 112014104284345-pat00100
Figure 112014104284345-pat00101
의 구체적인 값을 추산할 수 있으며, 본 실시예는 테스트 집합에 대해 깁스 샘플링을 S(예를 들어 S=10)차 실행하며, 혼란도는 S차 샘플링의 평균값을 취한다. 도 14로부터 알 수 있다시피, 주제 갯수가 10을 초과할 때, AToT 모형의 혼란도는 AT 모형보다 현저히 작으며, 이는 AToT 모형의 성능이 AT 모형보다 우수하다는 것을 설명한다.Parameters obtained from the training set
Figure 112014104284345-pat00096
,
Figure 112014104284345-pat00097
And
Figure 112014104284345-pat00098
, The confusion degree calculation formula
Figure 112014104284345-pat00099
,
Figure 112014104284345-pat00100
And
Figure 112014104284345-pat00101
And the present embodiment performs Gibbs sampling S (for example, S = 10) for the test set, and the degree of confusion takes an average value of the S-order sampling. As can be seen from FIG. 14, when the number of subjects exceeds 10, the degree of confusion of the AToT model is significantly smaller than that of the AT model, demonstrating that the performance of the AToT model is superior to that of the AT model.

본 실시예에 있어서, 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고, 과학연구 문헌에 대해 전처리를 진행하며, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙을 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맹락을 파악하는데 유리하다.In this embodiment, two or more scientific research documents are collected in a predetermined field, preprocessing is carried out on scientific research documents, an authors subject evolution model of two or more scientific research documents is constructed, and a scientific research information estimation parameter The results of the evolution of scientific research information are obtained by posting the research topics of the scientific research literature and the research interests of the researchers, It is advantageous to grasp the time-varying rules such as the theme of scientific research in the scientific research field and the research interest of the researcher, and to grasp the evolutionary fallacy of the scientific research theme in the predetermined field.

도 15는 본 발명에 따른 과학연구 정보 진화의 분석 장치의 제1 실시예의 구성 모식도이다. 도 15에 도시된 바와 같이, 본 실시예의 과학연구 정보 진화의 분석 장치는 수집 유닛(701), 전처리 유닛(702) 및 획득 유닛(703)을 포함한다. 그 중, 수집 유닛(701)은 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는데 사용되고, 전처리 유닛(702)은 과학연구 문헌에 대해 전처리를 진행하고, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는데 사용되며, 획득 유닛(703)은 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는데 사용된다.FIG. 15 is a structural diagram of a first embodiment of an apparatus for analyzing scientific research information evolution according to the present invention. FIG. As shown in FIG. 15, the analysis apparatus for scientific research information evolution of the present embodiment includes a collection unit 701, a preprocessing unit 702, and an acquisition unit 703. Among them, the collecting unit 701 is used for collecting two or more scientific research documents in a predetermined field, the preprocessing unit 702 preprocesses the scientific research documents, and the authoring subject evolution models of two or more scientific research documents And the acquisition unit 703 is used to acquire scientific research information evolution results through setting scientific research information estimation parameters and computing scientific research estimation parameters using an evolutionary operation formula.

그 중, 전처리 유닛(702)이 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계는 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(

Figure 112014104284345-pat00102
), 저자 주제 파라미터(
Figure 112014104284345-pat00103
), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분(
Figure 112014104284345-pat00104
) 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분(
Figure 112014104284345-pat00105
)을 계산하는 것을 포함하며, 그 중, 깁스 샘플링 알고리즘 공식은 아래와 같으며,Among them, the step of the preprocessing unit 702 constructing the authors subject evolution model of two or more scientific research documents uses the Gibbs sampling algorithm formula to construct the subject term parameter
Figure 112014104284345-pat00102
), Author subject parameter (
Figure 112014104284345-pat00103
), The theme allocation of the n words in the scientific research literature (m)
Figure 112014104284345-pat00104
) And the authors' distribution of the n words in the scientific research literature (m)
Figure 112014104284345-pat00105
), Among which the Gibbs sampling algorithm formula is as follows,

Figure 112014104284345-pat00106
Figure 112014104284345-pat00106

그 중, K는 수집한 적어도 두편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고,

Figure 112014104284345-pat00107
는 주제(k)의 시간적 변화의 베타(Beta) 분포 파라미터 벡터이며,
Figure 112014104284345-pat00108
는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고,
Figure 112014104284345-pat00109
는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며,
Figure 112014104284345-pat00110
는 과학연구 문헌(m) 중 제 n개 단어이며,
Figure 112014104284345-pat00111
는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며,
Figure 112014104284345-pat00112
Figure 112014104284345-pat00113
(a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며,
Figure 112014104284345-pat00114
는 저자 (a)의 주제 확률 분포 파라미터이며,
Figure 112014104284345-pat00115
Figure 112014104284345-pat00116
(k = 1, …, K)의 디리클레 선험 파라미터 벡터이며,
Figure 112014104284345-pat00117
는 주제(k)의 텀 확률 분포이며,
Figure 112014104284345-pat00118
는 단어(
Figure 112014104284345-pat00119
)에 배분된 주제 이외의 모든 주제 변수이며,
Figure 112014104284345-pat00120
는 단어(
Figure 112014104284345-pat00121
)에 배분된 저자 이외의 모든 저자 변수이며,
Figure 112014104284345-pat00122
는 텀(v)이 주제(
Figure 112014104284345-pat00123
)에 배분되는 차수이며,
Figure 112014104284345-pat00124
는 저자(
Figure 112014104284345-pat00125
)가 책임진 단어가 주제(k)에 배분되는 차수이다.K is the number of subjects covered by at least two scientific research articles collected, Nm is the number of words in the scientific research document (m), and a m is a vector formed by the author of the scientific research document (m) A m is the number of authors of the scientific research literature (m)
Figure 112014104284345-pat00107
Is a Beta distribution parameter vector of the temporal change of the subject k,
Figure 112014104284345-pat00108
Is the subject allocation of the n words of the scientific research document (m)
Figure 112014104284345-pat00109
Is the authorship of the n words of the scientific research literature (m)
Figure 112014104284345-pat00110
Is the n-th word of the scientific research document (m)
Figure 112014104284345-pat00111
Is the time stamp of the n words of the scientific research document (m)
Figure 112014104284345-pat00112
The
Figure 112014104284345-pat00113
(a = 1, ..., A) is a Dirichlet priori parametric vector,
Figure 112014104284345-pat00114
Is the subject probability distribution parameter of the author (a)
Figure 112014104284345-pat00115
The
Figure 112014104284345-pat00116
(K = 1, ... , ≪ / RTI > K,
Figure 112014104284345-pat00117
Is the term probability distribution of the subject (k)
Figure 112014104284345-pat00118
Is the word (
Figure 112014104284345-pat00119
) Are all subject variables other than those that are distributed,
Figure 112014104284345-pat00120
Is the word (
Figure 112014104284345-pat00121
) Are all authors other than authors,
Figure 112014104284345-pat00122
(V) is the subject (
Figure 112014104284345-pat00123
), ≪ / RTI >
Figure 112014104284345-pat00124
The author (
Figure 112014104284345-pat00125
) Is the order to which the words responsible are allocated to the topic (k).

획득 유닛(703)이 과학연구 정보 추산 파라미터를 설정하는 단계는 구체적으로 디리클레 분포의 기대치를 이용하여 주제(k)의 텀 확률분포 파라미터(

Figure 112014104284345-pat00126
) 및 저자(a)의 주제 확률 분포 파라미터(
Figure 112014104284345-pat00127
)를 추정하는 것을 포함하며,The step of the acquisition unit 703 setting the scientific research information estimation parameter may be performed using the term probability distribution parameter (k) of the subject (k), specifically using the dirichlet distribution expectation
Figure 112014104284345-pat00126
) And the subject's probability distribution parameter (a)
Figure 112014104284345-pat00127
), ≪ / RTI >

Figure 112014104284345-pat00128
Figure 112014104284345-pat00128

적률 추정법을 이용하여 주제(k)의 시간적 변화 Beta 분포 파라미터 벡터(

Figure 112014104284345-pat00129
)를 계산하며, 계산 공식은 아래와 같으며,The temporal change of the subject (k) using the ratiometric estimation method. Beta distribution parameter vector (
Figure 112014104284345-pat00129
), And the calculation formula is as follows,

Figure 112014104284345-pat00130
Figure 112014104284345-pat00130

그 중, tk는 미리 설정한 분야의 주제(k)의 샘플링 평균치이며,

Figure 112014104284345-pat00131
는 미리 설정한 분야의 주제(k)의 샘플링 분산이며, 상기 tk
Figure 112014104284345-pat00132
의 계산 공식은 아래와 같으며,Among them, t k is a sampling average value of the subject (k) of a preset area,
Figure 112014104284345-pat00131
Is the sampling distribution of the subject (k) of a preset field, and the t k
Figure 112014104284345-pat00132
The calculation formula is as follows,

Figure 112014104284345-pat00133
Figure 112014104284345-pat00133

그 중,

Figure 112014104284345-pat00134
는 과학연구 문헌(m) 중의 단어가 주제(k)에 배분되는 차수이다.among them,
Figure 112014104284345-pat00134
Is a degree to which the words in the scientific research document (m) are distributed to the subject (k).

획득 유닛(703)이 진화 연산 공식을 이용하여 상기 과학연구 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 것에 있어서, 상기 진화 연산 공식은 아래와 같으며,In obtaining the scientific research information evolution result by the acquisition unit 703 by calculating the scientific research estimation parameter by using the evolution calculation formula, the evolution calculation formula is as follows,

Figure 112014104284345-pat00135
Figure 112014104284345-pat00135

그 중,

Figure 112014104284345-pat00136
는 저자(a) 주제(k)의 확률 분포이며,
Figure 112014104284345-pat00137
Figure 112014104284345-pat00138
는 주제(k)의 시간적 변화의 Beta 분포 파라미터이다.among them,
Figure 112014104284345-pat00136
Is the probability distribution of the author (a) subject (k)
Figure 112014104284345-pat00137
Wow
Figure 112014104284345-pat00138
Is the Beta distribution parameter of the temporal change of the subject (k).

본 실시예에 있어서, 수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고, 전처리 유닛을 통해 과학연구 문헌에 대해 전처리를 진행하며, 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하고, 획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고 진화 연산 공식을 이용하여 과학 연구 추산 파라미터를 연산하는 것을 통해, 과학연구 정보 진화 결과를 획득하는데, 과학연구 정보 진화 결과는 과학연구 문헌의 주제, 연구원의 연구 관심을 게시하는 동시에, 미리 설정한 과학연구 분야의 과학연구 주제, 연구원의 연구 관심 등의 시간적 변화 규칙을 발굴 게시할 수 있어, 미리 설정한 분야 내의 과학 연구 주제의 진화 맹락을 파악하는데 유리하다.In this embodiment, two or more scientific research documents are collected in a predetermined field through a collection unit, preprocessing is carried out on a scientific research document through a preprocessing unit, and an author-theme evolution model of two or more scientific research documents is constructed The results of the evolution of scientific research information are obtained through the computation of scientific research estimation parameters by setting the scientific research information estimation parameters through the acquisition unit and using the evolutionary operation formula. , Research interests of researchers can be posted, and time-based change rules such as pre-set scientific research topics in the field of scientific research and research interests of researchers can be discovered and published, and the evolutionary eruption of scientific research topics within a predetermined field can be grasped .

도 16은 본 발명에 따른 과학연구 정보 진화의 분석 장치의 제 2실시예의 구성 모식도이다. 도 16에 도시된 바와 같이, 본 실시예의 과학연구 정보 진화의 분석 장치는 표시 유닛(704)을 더 포함하며, 표시 유닛(704)은 과학연구 정보 진화 결과를 유저에게 보여주며, 표시 유닛(704)의 표시 방식은 꺾은 선 그래프 및/또는 Hinton도를 포함하며, 유저가 직관적으로 연구원의 연구 주제 등의 시간적 변화 규칙을 확인하는데 편리하다.16 is a structural diagram of a second embodiment of an apparatus for analyzing scientific research information evolution according to the present invention. 16, the apparatus for analyzing scientific research information evolution of the present embodiment further includes a display unit 704, the display unit 704 shows the scientific research information evolution result to the user, and the display unit 704 ) Includes a line graph and / or a Hinton diagram, and it is convenient for the user to intuitively check the temporal change rule such as the research topic of the researcher.

본 기술분야의 당업자는 본 발명이 본 출원에 기재된 조작 중 하나 또는 복수개의 조작을 수행하는 설비에 관한 것일 수 있음을 알 수 있다. 상기 설비는 필요한 목적을 위해 전문적으로 설계 제작되거나 또는 보편적으로 사용되는 컴퓨터 중의 공지의 설비를 포함할 수도 있으며, 상기 보편적으로 사용되는 컴퓨터 내부에 저장된 프로그램은 선택적으로 활성화되거나 재구성된다. 이러한 컴퓨터 프로그램은 설비(예를 들어 컴퓨터)의 판독 가능 매체에 저장되거나 또는 전자 명령을 저장하기에 적합하고 각각 버스에 커플링 되는 임의의 유형의 매체에 저장될 수 있으며, 상기 컴퓨터 판독 가능 매체는 임의의 유형의 디스크(플로피 디스크, 하드 디스크, 레이저 디스크, CD-ROM 및 광자기 디스크를 포함), 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), PROM(Programmable ROM), EPROM(Electrically Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 프래시 메모리, 마그네틱 카드 또는 광카드를 포함하지만 이에 제한되지 않는다. 판독 가능 매체는 설비(예를 들어 컴퓨터) 판독 가능 형식으로 정보를 저장 또는 전송하기 위한 임의의 구조를 포함한다. 예를 들어, 판독 가능 매체는 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 마그네틱디스크 기억매체, 광학 기억매체, 프래시 저장장치, 전기, 광, 음성 또는 기타의 형식으로 전파되는 신호(예를 들어 반송파, 적외선 신호, 디지털 신호) 등을 포함한다.Those skilled in the art will appreciate that the present invention may relate to equipment that performs one or more of the operations described herein. The facility may include known facilities among computers that are professionally designed or used universally for the required purpose, and the programs stored in the universally used computer are selectively activated or reconfigured. Such a computer program may be stored on any type of medium that is suitable for storing electronic instructions and is coupled to a bus, and which may be stored on a readable medium of a facility (e.g., a computer) (RAM), read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), and the like, as well as any type of disk (including floppy disk, hard disk, laser disk, CD-ROM and magneto-optical disk) ROM), Electrically Erasable Programmable ROM (EEPROM), a flash memory, a magnetic card or an optical card. Readable media includes any structure for storing or transmitting information in a facility (e.g., computer) readable format. For example, the readable medium can be a random access memory (RAM), a read only memory (ROM), a magnetic disk storage medium, an optical storage medium, a flash storage device, a signal propagated in electrical, optical, A carrier wave, an infrared signal, a digital signal).

본 기술분야의 당업자는 컴퓨터 프로그램 명령으로 이러한 구성도 및/또는 블록도 및/또는 흐름도의 각 블록 및 이러한 구성도 및/또는 블록도 및/또는 흐름도 중의 블록의 조합을 실현할 수 있음을 알 수 있다. 이러한 컴퓨터 프로그램 명령을 보편적으로 사용하는 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능 데이터 처리 방법의 처리장치에 제공하여 기기를 생성하고, 이에 따라 컴퓨터 또는 기타 프로그램 가능 데이터 처리 방법의 처리장치를 통해 수행하는 명령으로 구성도 및/또는 블록도 및/또는 흐름도의 블록 또는 복수개의 블록에서 지정한 방법을 실현한다.It will be appreciated by those skilled in the art that the computer program instructions may be embodied in block diagrams and / or block diagrams and / or block diagrams, and combinations of blocks in the block diagrams and / or block diagrams and / or flowcharts . Such computer program instructions may be provided to a processing device of a computer, a dedicated computer, or other programmable data processing method that is commonly used to create a device, and thereby to execute a command through a processing device of a computer or other programmable data processing method Block diagrams and / or flowchart diagrams, and methods specified in blocks or blocks.

본 기술분야의 당업자는 본 발명에서 이미 토론한 각종 조작, 방법, 프로세스 중의 단계, 조치, 방안은 교체, 변경, 조합 또는 삭제될 수 있음을 알 수 있다. 추가로 본 발명에서 이미 토론한 각종 조작, 방법, 프로세스 중의 기타 단계, 조치, 방안도 교체, 변경, 재배열, 분해, 조합 또는 삭제될 수 있다. 추가로 종래 기술 중 본 발명에서 공개한 각종 조작, 방법, 프로세스 중의 단계, 조치, 방안도 교체, 변경, 재배열, 분해, 조합 또는 삭제될 수 있다.It will be apparent to those skilled in the art that various operations, methods, steps in the process, measures, and methods discussed in the present invention may be altered, altered, combined, or eliminated. Further, various operations, methods, and other steps, measures, and measures in the processes already discussed in the present invention may be replaced, changed, rearranged, disassembled, combined, or deleted. Further, steps, measures, and measures in various operations, methods, and processes disclosed in the present invention may be replaced, changed, rearranged, disassembled, combined, or deleted.

이상의 것은 본 발명의 일부 실시 형태일 뿐이며, 본 기술분야의 당업자에게 있어서 본 발명의 원리를 이탈하지 않는 전제하에서 여러가지 개선 및 수식을 할 수 있으며, 이러한 개선과 수식도 본 발명의 보호범위에 포함되어야 한다.
It will be apparent to those skilled in the art that various modifications and variations can be made without departing from the principles of the invention, do.

Claims (11)

과학연구 정보 진화의 분석 방법에 있어서, 상기 과학연구 정보 진화의 분석 방법은 :
수집 유닛을 통해 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하는 단계;
전처리 유닛을 통해 상기 과학연구 문헌에 대해 전처리를 진행하고, 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계; 및
획득 유닛을 통해 과학연구 정보 추산 파라미터를 설정하고, 진화 연산 공식을 이용하여 상기 과학연구 정보 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계를 포함하는 것을 특징으로 하며,
상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계는 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(
Figure 112016030330730-pat00229
), 저자 주제 파라미터(
Figure 112016030330730-pat00230
), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분(
Figure 112016030330730-pat00231
) 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분(
Figure 112016030330730-pat00232
)을 계산하는 것을 포함하며,
깁스 샘플링 알고리즘 공식은 아래와 같으며,
Figure 112016030330730-pat00233

그 중, K는 수집한 적어도 두편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고,
Figure 112016030330730-pat00234
는 주제(k)의 시간적 변화 베타(Beta) 분포 파라미터 벡터이며,
Figure 112016030330730-pat00235
는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고,
Figure 112016030330730-pat00236
는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며,
Figure 112016030330730-pat00237
는 과학연구 문헌(m) 중 제 n개 단어이며,
Figure 112016030330730-pat00238
는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며,
Figure 112016030330730-pat00239
Figure 112016030330730-pat00240
(a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며,
Figure 112016030330730-pat00241
는 저자 (a)의 주제 확률 분포 파라미터이며,
Figure 112016030330730-pat00242
Figure 112016030330730-pat00243
(k = 1, …, K)의 디리클레 선험 파라미터 벡터이며,
Figure 112016030330730-pat00244
는 주제(k)의 텀 확률 분포이며,
Figure 112016030330730-pat00245
는 단어(
Figure 112016030330730-pat00246
)에 배분된 주제 이외의 모든 주제 변수이며,
Figure 112016030330730-pat00247
는 단어(
Figure 112016030330730-pat00248
)에 배분된 저자 이외의 모든 저자 변수이며,
Figure 112016030330730-pat00249
는 텀(v)이 주제(
Figure 112016030330730-pat00250
)에 배분되는 차수이며,
Figure 112016030330730-pat00251
는 저자(
Figure 112016030330730-pat00252
)가 책임진 단어가 주제(k)에 배분되는 차수인 것을 특징으로 하며,
과학연구 정보 추산 파라미터를 설정하는 단계는 구체적으로 디리클레 분포의 기대치를 이용하여 주제(k)의 텀 확률분포 파라미터(
Figure 112016030330730-pat00253
) 및 저자(a)의 주제 확률 분포 파라미터(
Figure 112016030330730-pat00254
)를 추정하며, 계산 공식은 아래와 같으며,
Figure 112016030330730-pat00255

적률 추정법을 이용하여 주제(k)의 시간적 변화 Beta 분포 파라미터 벡터(
Figure 112016030330730-pat00256
)를 계산하며, 계산 공식은 아래와 같으며,
Figure 112016030330730-pat00257

그 중, tk는 미리 설정한 분야의 주제(k)의 샘플링 평균치이며,
Figure 112016030330730-pat00258
는 미리 설정한 분야의 주제(k)의 샘플링 분산이며, 상기 tk
Figure 112016030330730-pat00259
의 계산 공식은 아래와 같으며,
Figure 112016030330730-pat00260

그 중,
Figure 112016030330730-pat00261
는 과학연구 문헌(m) 중의 단어가 주제(k)에 배분되는 차수인 것을 특징으로 하는, 과학연구 정보 진화의 분석 방법.
In an analysis method of scientific research information evolution, the analysis method of scientific research information evolution is:
Collecting at least two scientific research documents in a predetermined field through a collection unit;
Preprocessing the scientific research literature through a preprocessing unit and building an authorship evolution model of the two or more scientific research literature; And
Acquiring a scientific research information evolution result by setting a scientific research information estimation parameter through an acquisition unit and calculating the scientific research information estimation parameter using an evolutionary calculation formula,
The step of constructing the authors' topic evolution model of the above two or more scientific research documents is carried out by using the Gibbs sampling algorithm formula,
Figure 112016030330730-pat00229
), Author subject parameter (
Figure 112016030330730-pat00230
), The theme allocation of the n words in the scientific research literature (m)
Figure 112016030330730-pat00231
) And the authors' distribution of the n words in the scientific research literature (m)
Figure 112016030330730-pat00232
), ≪ / RTI >
The formula for the Gibbs sampling algorithm is as follows,
Figure 112016030330730-pat00233

K is the number of subjects covered by at least two scientific research articles collected, N m is the number of words in the scientific research document (m), and a m is the number of scientific research articles (m) A m is the number of author of the scientific research document (m)
Figure 112016030330730-pat00234
Is a temporally varying Beta distribution parameter vector of the subject k,
Figure 112016030330730-pat00235
Is the subject allocation of the n words of the scientific research document (m)
Figure 112016030330730-pat00236
Is the authorship of the n words of the scientific research literature (m)
Figure 112016030330730-pat00237
Is the n-th word of the scientific research document (m)
Figure 112016030330730-pat00238
Is the time stamp of the n words of the scientific research document (m)
Figure 112016030330730-pat00239
The
Figure 112016030330730-pat00240
(A = 1, ... , A) is a Dirichlet priori parameter vector,
Figure 112016030330730-pat00241
Is the subject probability distribution parameter of the author (a)
Figure 112016030330730-pat00242
The
Figure 112016030330730-pat00243
(K = 1, ... , ≪ / RTI > K,
Figure 112016030330730-pat00244
Is the term probability distribution of the subject (k)
Figure 112016030330730-pat00245
Is the word (
Figure 112016030330730-pat00246
) Are all subject variables other than those that are distributed,
Figure 112016030330730-pat00247
Is the word (
Figure 112016030330730-pat00248
) Are all authors other than authors,
Figure 112016030330730-pat00249
(V) is the subject (
Figure 112016030330730-pat00250
), ≪ / RTI >
Figure 112016030330730-pat00251
The author (
Figure 112016030330730-pat00252
) Is a degree distributed to the subject (k)
The step of setting the scientific research information estimating parameter is specifically a method of estimating the term probability distribution parameter (k) of the subject (k) using the dirichlet distribution expectation
Figure 112016030330730-pat00253
) And the subject's probability distribution parameter (a)
Figure 112016030330730-pat00254
), And the calculation formula is as follows,
Figure 112016030330730-pat00255

The temporal change of the subject (k) using the ratiometric estimation method. Beta distribution parameter vector (
Figure 112016030330730-pat00256
), And the calculation formula is as follows,
Figure 112016030330730-pat00257

Among them, t k is a sampling average value of the subject (k) of a preset area,
Figure 112016030330730-pat00258
Is the sampling distribution of the subject (k) of a preset field, and the t k
Figure 112016030330730-pat00259
The calculation formula is as follows,
Figure 112016030330730-pat00260

among them,
Figure 112016030330730-pat00261
Characterized in that words in the scientific research document (m) are orders distributed to the subject (k).
청구항 1에 있어서,
표시 유닛을 통해 상기 과학연구 정보 진화 결과를 유저에게 보여주는 것을 더 포함하고, 그 표시 방식은 꺾은 선 그래프 및/또는 Hinton도 인 것을 특징으로 하는 과학연구 정보 진화의 분석 방법.
The method according to claim 1,
Further comprising displaying the scientific research information evolution result to a user through a display unit, wherein the display scheme is a line graph and / or a Hinton diagram.
청구항 1에 있어서,
전처리 유닛을 통해 상기 과학연구 문헌에 대해 전처리를 진행하는 단계는 구체적으로,
상기 과학연구 문헌 중의 사용중지 단어, 숫자 및 미리 설정한 빈도보다 낮은 단어를 필터링하고, 상기 과학연구 문헌의 저자 이름에 대해 중의성 해소를 진행하는 단계; 및
상기 두편 이상의 과학연구 문헌의 A명의 저자, V개의 텀(term)을 획득하고, 상기 두편 이상의 과학연구 문헌의 발표시간에 대해 정규화 처리를 진행하는 단계를 포함하는 것을 특징으로 하는 과학연구 정보 진화의 분석 방법.
The method according to claim 1,
The step of preprocessing the scientific research document through the preprocessing unit may be,
Filtering words that are less than a predetermined frequency and a word that is not in use in the scientific research literature and proceeding to solve the hypothesis for the author name of the scientific research literature; And
Obtaining the V terms of the A authors of the two or more scientific research documents and performing a normalization process on the presentation times of the two or more scientific research documents; Analysis method.
청구항 1에 있어서,
진화 연산 공식을 이용하여 상기 과학연구 정보 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계에 있어서, 상기 진화 연산 공식은 아래와 같으며,
Figure 112016030330730-pat00172

그 중,
Figure 112016030330730-pat00173
는 저자(a) 주제(k)의 확률이며,
Figure 112016030330730-pat00174
Figure 112016030330730-pat00175
는 주제(k)의 시간적 변화 Beta 분포 파라미터인 것을 특징으로 하는 과학연구 정보 진화의 분석 방법.
The method according to claim 1,
Wherein the step of obtaining the evolution result of the scientific research information by computing the scientific research information estimation parameter using the evolution computation formula is as follows,
Figure 112016030330730-pat00172

among them,
Figure 112016030330730-pat00173
Is the probability of the author (a) subject (k)
Figure 112016030330730-pat00174
Wow
Figure 112016030330730-pat00175
Is a temporal change Beta distribution parameter of the subject (k).
과학연구 정보 진화의 분석 장치에 있어서, 상기 과학연구 정보 진화의 분석 장치는 :
수집 유닛, 전처리 유닛 및 획득 유닛을 포함하되,
상기 수집 유닛은 미리 설정한 분야에서 두편 이상의 과학연구 문헌을 수집하고;
상기 전처리 유닛은 상기 과학연구 문헌에 대해 전처리를 진행하고, 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하며;
상기 획득 유닛은 과학연구 정보 추산 파라미터를 설정하고, 진화 연산 공식을 이용하여 상기 과학연구 정보추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 것을 특징으로 하며,
상기 전처리 유닛이 상기 두편 이상의 과학연구 문헌의 저자 주제 진화 모형을 구축하는 단계는 구체적으로 깁스 샘플링 알고리즘 공식을 이용하여 주제 텀 파라미터(
Figure 112016030330730-pat00262
), 저자 주제 파라미터(
Figure 112016030330730-pat00263
), 과학연구 문헌(m) 중 제 n개 단어의 주제 배분(
Figure 112016030330730-pat00264
) 및 과학연구 문헌(m) 중 제 n개 단어의 저자 배분(
Figure 112016030330730-pat00265
)을 계산하는 것을 포함하며,
깁스 샘플링 알고리즘 공식은 아래와 같으며,
Figure 112016030330730-pat00266

그 중, K는 수집한 적어도 두편의 과학연구 문헌이 내포하는 주제 갯수이고, Nm는 과학연구 문헌(m) 중 단어의 갯수이며, am는 과학연구 문헌(m)의 저술 저자가 형성하는 벡터이며, Am는 과학연구 문헌(m)의 저술 저자수이고,
Figure 112016030330730-pat00267
는 주제(k)의 시간적 변화 베타(Beta) 분포 파라미터 벡터이며,
Figure 112016030330730-pat00268
는 과학연구 문헌(m) 중 제 n개 단어의 주제 배분이고,
Figure 112016030330730-pat00269
는 과학연구 문헌(m) 중 제 n개 단어의 저자 배분이며,
Figure 112016030330730-pat00270
는 과학연구 문헌(m) 중 제 n개 단어이며,
Figure 112016030330730-pat00271
는 과학연구 문헌(m) 중 제 n개 단어의 타임 스탬프이며,
Figure 112016030330730-pat00272
Figure 112016030330730-pat00273
(a = 1, …, A)의 디리클레(Dirichlet) 선험 파라미터 벡터이며,
Figure 112016030330730-pat00274
는 저자 (a)의 주제 확률 분포 파라미터이며,
Figure 112016030330730-pat00275
Figure 112016030330730-pat00276
(k = 1, …, K)의 디리클레 선험 파라미터 벡터이며,
Figure 112016030330730-pat00277
는 주제(k)의 텀 확률 분포이며,
Figure 112016030330730-pat00278
는 단어(
Figure 112016030330730-pat00279
)에 배분된 주제 이외의 모든 주제 변수이며,
Figure 112016030330730-pat00280
는 단어(
Figure 112016030330730-pat00281
)에 배분된 저자 이외의 모든 저자 변수이며,
Figure 112016030330730-pat00282
는 텀(v)이 주제(
Figure 112016030330730-pat00283
)에 배분되는 차수이며,
Figure 112016030330730-pat00284
는 저자(
Figure 112016030330730-pat00285
)가 책임진 단어가 주제(k)에 배분되는 차수인 것을 특징으로 하며,
상기 획득 유닛이 과학연구 정보 추산 파라미터를 설정하는 단계는 구체적으로 디리클레 분포의 기대치를 이용하여 주제(k)의 텀 확률분포 파라미터(
Figure 112016030330730-pat00286
) 및 저자(a)의 주제 확률 분포 파라미터(
Figure 112016030330730-pat00287
)를 추정하며, 그 계산 공식은 아래와 같으며,
Figure 112016030330730-pat00288

적률 추정법을 이용하여 주제(k)의 시간적 변화 Beta 분포 파라미터 벡터(
Figure 112016030330730-pat00289
)를 계산하며, 계산 공식은 아래와 같으며,
Figure 112016030330730-pat00290

그 중, tk는 미리 설정한 분야의 주제(k)의 샘플링 평균치이며,
Figure 112016030330730-pat00291
는 미리 설정한 분야의 주제(k)의 샘플링 분산이며, 상기 tk
Figure 112016030330730-pat00292
의 계산 공식은 아래와 같으며,
Figure 112016030330730-pat00293

그 중,
Figure 112016030330730-pat00294
는 과학연구 문헌(m) 중의 단어가 주제(k)에 배분되는 차수인 것을 특징으로 하는, 과학연구 정보 진화의 분석 장치.
An apparatus for analyzing the evolution of scientific research information, comprising:
A collection unit, a preprocessing unit and an acquisition unit,
The collection unit collecting two or more scientific research documents in a predetermined field;
Wherein the preprocessing unit preprocesses the scientific research literature and builds an authorship evolution model of the two or more scientific research literature;
Wherein the acquisition unit sets the scientific research information estimation parameter and acquires the scientific research information evolution result by calculating the scientific research information estimation parameter using the evolutionary operation formula,
The step of the preprocessing unit constructing an authorship evolution model of the two or more scientific research documents uses a Gibbs sampling algorithm formulation to generate a topic term parameter
Figure 112016030330730-pat00262
), Author subject parameter (
Figure 112016030330730-pat00263
), The theme allocation of the n words in the scientific research literature (m)
Figure 112016030330730-pat00264
) And the authors' distribution of the n words in the scientific research literature (m)
Figure 112016030330730-pat00265
), ≪ / RTI >
The formula for the Gibbs sampling algorithm is as follows,
Figure 112016030330730-pat00266

K is the number of subjects covered by at least two scientific research articles collected, Nm is the number of words in the scientific research document (m), and a m is a vector formed by the author of the scientific research document (m) A m is the number of authors of the scientific research literature (m)
Figure 112016030330730-pat00267
Is a temporally varying Beta distribution parameter vector of the subject k,
Figure 112016030330730-pat00268
Is the subject allocation of the n words of the scientific research document (m)
Figure 112016030330730-pat00269
Is the authorship of the n words of the scientific research literature (m)
Figure 112016030330730-pat00270
Is the n-th word of the scientific research document (m)
Figure 112016030330730-pat00271
Is the time stamp of the n words of the scientific research document (m)
Figure 112016030330730-pat00272
The
Figure 112016030330730-pat00273
(A = 1, ... , A) is a Dirichlet priori parameter vector,
Figure 112016030330730-pat00274
Is the subject probability distribution parameter of the author (a)
Figure 112016030330730-pat00275
The
Figure 112016030330730-pat00276
(K = 1, ... , ≪ / RTI > K,
Figure 112016030330730-pat00277
Is the term probability distribution of the subject (k)
Figure 112016030330730-pat00278
Is the word (
Figure 112016030330730-pat00279
) Are all subject variables other than those that are distributed,
Figure 112016030330730-pat00280
Is the word (
Figure 112016030330730-pat00281
) Are all authors other than authors,
Figure 112016030330730-pat00282
(V) is the subject (
Figure 112016030330730-pat00283
), ≪ / RTI >
Figure 112016030330730-pat00284
The author (
Figure 112016030330730-pat00285
) Is a degree distributed to the subject (k)
The step of the acquiring unit setting the scientific research information estimation parameter may be performed by using the term probability distribution parameter (k) of the subject (k)
Figure 112016030330730-pat00286
) And the subject's probability distribution parameter (a)
Figure 112016030330730-pat00287
), And the calculation formula is as follows,
Figure 112016030330730-pat00288

The temporal change of the subject (k) using the ratiometric estimation method. Beta distribution parameter vector (
Figure 112016030330730-pat00289
), And the calculation formula is as follows,
Figure 112016030330730-pat00290

Among them, t k is a sampling average value of the subject (k) of a preset area,
Figure 112016030330730-pat00291
Is the sampling distribution of the subject (k) of a preset field, and the t k
Figure 112016030330730-pat00292
The calculation formula is as follows,
Figure 112016030330730-pat00293

among them,
Figure 112016030330730-pat00294
Is an order in which the words in the scientific research document (m) are distributed to the subject (k).
청구항 5에 있어서,
상기 과학연구 정보 진화 결과를 유저에게 보여주며, 그 표시 방식은 꺾은 선 그래프 및/또는 Hinton도 인 표시 유닛을 더 포함하는 것을 특징으로 하는 과학연구 정보 진화의 분석 장치.
The method of claim 5,
Wherein the scientific research information evolution result is displayed to the user, and the display method further includes a line graph and / or a Hinton diagram display unit.
청구항 5에 있어서,
상기 획득 유닛이 진화 연산 공식을 이용하여 상기 과학연구 정보 추산 파라미터를 연산하는 것을 통해 과학연구 정보 진화 결과를 획득하는 단계에 있어서, 상기 진화 연산 공식은 아래와 같으며,
Figure 112016030330730-pat00209

그 중,
Figure 112016030330730-pat00210
는 저자(a) 주제(k)의 확률이며,
Figure 112016030330730-pat00211
Figure 112016030330730-pat00212
는 주제(k)의 시간적 변화 Beta 분포 파라미터인 것을 특징으로 하는 과학연구 정보 진화의 분석 장치.
The method of claim 5,
Wherein the obtaining unit obtains a scientific research information evolution result by calculating the scientific research information estimation parameter using an evolution computation formula, the evolution computation formula is as follows,
Figure 112016030330730-pat00209

among them,
Figure 112016030330730-pat00210
Is the probability of the author (a) subject (k)
Figure 112016030330730-pat00211
and
Figure 112016030330730-pat00212
Is a temporal change Beta distribution parameter of the subject (k).
삭제delete 삭제delete 삭제delete 삭제delete
KR1020140148627A 2013-10-29 2014-10-29 Analysis method and device for scientific research information revolution KR101679249B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310522710.6 2013-10-29
CN201310522710.6A CN103605671B (en) 2013-10-29 2013-10-29 Scientific research information evolution analyzing method and device

Publications (2)

Publication Number Publication Date
KR20150050465A KR20150050465A (en) 2015-05-08
KR101679249B1 true KR101679249B1 (en) 2016-11-24

Family

ID=50123896

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140148627A KR101679249B1 (en) 2013-10-29 2014-10-29 Analysis method and device for scientific research information revolution

Country Status (2)

Country Link
KR (1) KR101679249B1 (en)
CN (1) CN103605671B (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021222B (en) * 2016-05-09 2019-04-30 浙江农林大学 A kind of analysis method and device of scientific documents subject evolution
CN107577657B (en) * 2017-07-14 2020-09-11 北京赛时科技有限公司 Mailbox author corresponding method and device
CN111325390B (en) * 2020-02-17 2023-04-18 电子科技大学 Student cooperative relationship prediction method based on interest evolution
CN112765305B (en) * 2020-12-31 2024-05-14 北京工业大学 Method and device for analyzing interest subject of author, electronic equipment and storage medium
CN114417837B (en) * 2022-01-19 2024-02-13 合肥工业大学 Scientific and technological big data popularity and frontier measurement method based on subject evolution trend

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150450A (en) * 2010-01-20 2011-08-04 Sony Corp Apparatus, method and program for processing information
KR101102468B1 (en) * 2011-04-22 2012-01-05 한국과학기술정보연구원 Apparatus and method for prediction development speed of technology

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077175A (en) * 2012-01-12 2013-05-01 西安邮电学院 Effective collaborative construction and self-adoptive evolution method of academic collaboration relation network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150450A (en) * 2010-01-20 2011-08-04 Sony Corp Apparatus, method and program for processing information
KR101102468B1 (en) * 2011-04-22 2012-01-05 한국과학기술정보연구원 Apparatus and method for prediction development speed of technology

Also Published As

Publication number Publication date
CN103605671A (en) 2014-02-26
CN103605671B (en) 2017-01-11
KR20150050465A (en) 2015-05-08

Similar Documents

Publication Publication Date Title
Epskamp et al. The Gaussian graphical model in cross-sectional and time-series data
Price et al. Bayesian synthetic likelihood
Yang et al. A recurrence quantification analysis-based channel-frequency convolutional neural network for emotion recognition from EEG
Wang et al. Understanding and discovering deliberate self-harm content in social media
KR101679249B1 (en) Analysis method and device for scientific research information revolution
Bacry et al. Modelling microstructure noise with mutually exciting point processes
Wang et al. Integrating TTF and IDT to evaluate user intention of big data analytics in mobile cloud healthcare system
Brodu et al. Exploring two novel features for EEG-based brain–computer interfaces: Multifractal cumulants and predictive complexity
Khaleghi et al. A neuronal population model based on cellular automata to simulate the electrical waves of the brain
Vamosi et al. A deep recurrent neural network approach to learn sequence similarities for user-identification
Vogelsmeier et al. Evaluating covariate effects on ESM measurement model changes with latent Markov factor analysis: A three-step approach
Koseki et al. Assessment of skin barrier function using skin images with topological data analysis
Yildirim et al. A new model for classification of human movements on videos using convolutional neural networks: MA-Net
Yuan et al. Markov chain Monte Carlo methods for state-space models with point process observations
Senthil et al. Develop the hybrid Adadelta Stochastic Gradient Classifier with optimized feature selection algorithm to predict the heart disease at earlier stage
Schu Adaptive trust-region POD methods and their application in finance
Galbraith et al. Analyzing user-event data using score-based likelihood ratios with marked point processes
Lian et al. Modeling correlated arrival events with latent semi-markov processes
Fushing et al. Discovering stock dynamics through multidimensional volatility phases
Hall et al. The statistical mechanics of Twitter communities
Zhang et al. Cumulative Tsallis entropy based on power spectrum of financial time series
Chalaris et al. Examining students' graduation issues using data mining techniques-The case of TEI of Athens
Park et al. Evaluating discrete time methods for subgrouping continuous processes
CN114724677A (en) Health card pushing method and device, computer equipment and medium
CN109408353B (en) Storage partition utilization rate and IOPS analysis method, system and terminal equipment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191025

Year of fee payment: 4