WO2019035699A1 - 인문 사상의 분류 방법 - Google Patents

인문 사상의 분류 방법 Download PDF

Info

Publication number
WO2019035699A1
WO2019035699A1 PCT/KR2018/009529 KR2018009529W WO2019035699A1 WO 2019035699 A1 WO2019035699 A1 WO 2019035699A1 KR 2018009529 W KR2018009529 W KR 2018009529W WO 2019035699 A1 WO2019035699 A1 WO 2019035699A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
philosophical
noun
new
thought
Prior art date
Application number
PCT/KR2018/009529
Other languages
English (en)
French (fr)
Inventor
권오병
서한솔
Original Assignee
경희대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경희대학교 산학협력단 filed Critical 경희대학교 산학협력단
Publication of WO2019035699A1 publication Critical patent/WO2019035699A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Definitions

  • the present invention relates to a classification method of human thought, more specifically, generates a classification algorithm for classifying philosophical thought from the text of conventional philosophical thought, and when a new verbal phrase is collected, It can automatically classify philosophical thought, judge the future philosophical thought influenced by the past philosophical thought and new philosophical thought which were influenced by the new ironical word by judging the relation between the new ironical word and the conventional philosophical thought in a time series relation. And to the classification method of human thought that can be done.
  • Digital Humanities are attracting attention due to the spread of big data analysis techniques.
  • Digital Humanities aims to carry out research on humanities in a new way with the help of information technology while effectively transferring the knowledge of humanities to society as a whole.
  • universities, research institutes such as Oxford and Stanford, as well as companies such as Google, are conducting digital literacy projects.
  • Big Data in the field of humanities is not intended to replace human thought and consideration but to enrich the humanities.
  • Big Data technology has started to use Big Data technology.
  • the visualization tool is suitable for intuitively grasp the structure and relationship of humanities documents.
  • Data Sprint uses the Amazon API to visualize social-network analysis using brief bibliographic information, such as authors and book titles.
  • An object of the present invention is to provide a classification method of human thought which can automatically classify and judge the ideas of specific words by applying digital humanities in the field of philosophical research.
  • Another object of the present invention is to create a classification algorithm for classifying philosophical thought from texts of conventional philosophical thought, and to automatically classify philosophical ideas of new philosophical texts through a classification algorithm when new verbal phrases are collected And to provide a method for classifying humanities.
  • Another object of the present invention is to judge the relation between the new dialect and the conventional philosophical thought in a timely and thermal relation and to judge the future philosophical thought influenced by the new philosophical thought and the new philosophical And to provide a method for classifying humanities.
  • a method for classifying human thought includes: extracting a noun in philosophical thought text and generating a text-noun matrix (Document-Term Matrix) Generating a classification algorithm for classifying learning data and test data from the text-noun matrix and classifying the learning data and the philosophical idea from the test data, and generating a classification algorithm for classifying the new philosophical thought text by preprocessing Determining a philosophical thought to which the new philosophical thought text belongs by applying a weight to a classification classification algorithm; and a time-series correlation between a past philosophical thought influencing the new philosophical thought text and a future philosophical thought influencing the new philosophical text ≪ / RTI > .
  • the step of generating the text-noun matrix includes the steps of extracting a noun constituting the philosophical thought text by inputting the philosophical thought text into the morpheme analyzer, calculating a weight for the extracted noun, And generating a text-noun matrix consisting of weights for the extracted nouns.
  • the step of generating the text-noun matrices comprises extracting nouns from the nouns constituting the philosophical thought text, excluding the keywords used to collect the philosophical thought text.
  • the weight for the extracted noun is characterized by the ratio of the number of philosophical thought texts in which the nouns exist in the unit of philosophical thought texts and the frequency of the nouns extracted in the philosophical thought texts.
  • the step of judging the philosophical thought to which the new philosophical thought text belongs includes a step of extracting a noun constituting the new philosophical thought text by inputting a new philosophical thought text into the stemming analyzer and a step of extracting a weight for the noun extracted from the new philosophical thought text And a step of applying a weight to the extracted nouns to the mapping classification algorithm to determine a philosophical thought to which the new philosophical thought text belongs.
  • the step of generating the time-series association includes classifying the weights of the nouns constituting the document-term matrix into the philosopher identifiers, classifying the noun weights of the text-noun matrices classified according to the philosopher identifier A step of calculating a distance between noun weights extracted from the new philosophical thought text and a step of judging a time when the new philosophical thought text is created and a step of calculating the distance between the calculated distance and the new philosophical thought text And generating a time-series correlation between the mad past philosophical thought and the future philosophical thought that influenced the new philosophical text.
  • the noun weight of the text-noun matrix used to calculate the distance is an average value of the noun weights of the philosophical thought texts classified according to the philosopher identifier.
  • the creation time of the new philosophical thought text is calculated as an average value of the year data having the highest frequency among the year data extracted at the setting interval in the new philosophical thought text.
  • a method for classifying a human thought includes: inputting a new philosophical thought text into a stem analyzer to extract a noun constituting a new philosophical thought text; A step of calculating a weight for a noun extracted from the philosophical thought text, a step of applying the weight of the extracted noun to the classification algorithm to determine a philosophical thought to which the new philosophical thought text belongs, Generating a time-series correlation between the philosophical thought and the future philosophical thought that influenced the new philosophical text.
  • the mappings classification algorithm includes a step of extracting a noun from a conventional philosophical thought text and generating a text-noun matrix (Document-Term Matrix) made up of extracted noun weights, separating test data from test data from the text- And generating a classification algorithm used to classify philosophical ideas from the learning data and the test data.
  • a text-noun matrix Document-Term Matrix
  • the text-noun matrix includes a step of extracting a noun constituting a conventional philosophical thought text by inputting a conventional philosophical thought text into a morphological analyzer, a step of calculating a weight for the extracted noun, And generating a text-noun matrix consisting of weights for the text-noun matrices.
  • the classification method of human thought according to the present invention has the following effects.
  • the classification method of human thought generates a classification algorithm for classifying philosophical thought from the text of conventional philosophical thought, and when a text of new philosophical thought is collected, the text of a new philosophical thought By automatically classifying philosophical ideas, it is possible to reduce the time and effort required to classify philosophical thoughts.
  • the classification method of human thought according to the present invention can determine the relevance between the conventional philosophical thoughts and the conventional philosophical thoughts by calculating the degree of association between the new philosophical thought text and the conventional philosophical thought.
  • the classification method of human thought according to the present invention is based on the relationship between the new philosophical thought text and the conventional philosophical thought in terms of a time series correlation, so that the past philosophical thought and the new philosophical thought text influenced by the new philosophical thought text I can judge the future philosophy of the future.
  • FIG. 1 is a functional block diagram for explaining a classification system of a human mind according to the present invention.
  • FIG. 2 is a functional block diagram illustrating a mapping device according to an embodiment of the present invention.
  • FIG. 3 is a functional block diagram for explaining an example of the preprocessing unit according to the present invention.
  • FIG. 4 is a functional block diagram for explaining an example of an association determination unit according to the present invention.
  • FIG. 5 is a flowchart illustrating a method of classifying a human thought according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating an example of a step of generating a text-noun matrix.
  • FIG. 7 shows an example of a noun extracted by morphological analysis of philosophical words collected by the database unit.
  • Fig. 8 shows an example of a text-noun matrix.
  • FIG. 9 shows an example of a relationship between a philosophical idea of a new philosophical text and a philosophical thought of a text-noun matrix, which is calculated by a cosine similarity method.
  • FIG. 10 is a view for explaining an example of the time-series correlation of a new philosophical idea.
  • FIG. 11 is a diagram for explaining a method of determining a creation time of a new philosophy.
  • FIG. 1 is a functional block diagram for explaining a classification system of a human mind according to the present invention.
  • a database unit 10 and a human mapping apparatus 50 are connected to a network 30.
  • Various kinds of human language utterances are stored in the database unit 30. For example, humanities utterances relating to history, philosophy, and literature are stored.
  • the human ideology classifying apparatus 50 learns human sentences from the database unit 10 via the network 30 and learns a classification algorithm for classifying human sentences from received human sentences.
  • a classification algorithm for classifying human sentences from received human sentences.
  • FIG. 2 is a functional block diagram illustrating a mapping device according to an embodiment of the present invention.
  • the collecting unit 110 collects philosophical texts through a database unit or another source based on input keywords.
  • the collecting unit 110 includes a communication module for transmitting and receiving data through the network, and the collecting unit 110 collects philosophical words corresponding to the keywords input through the network.
  • the preprocessing unit 120 extracts a noun from the text of the philosophical text by inputting the text of the philosophical text into the morpheme analyzer, and calculates the weight of the extracted noun.
  • the matrix generation unit 130 generates a matrix of the philosophical ideology, And a document-term matrix consisting of noun weights extracted from each philosophical text.
  • the mapping class learning unit 150 extracts the training data and the test data from the text-to-noun matrix generated by the matrix generation unit 130 and generates a mapping classification algorithm used to classify the philosophy mapping from the extracted training data and the test data .
  • the text-to-noun matrix used in the classification classifying unit 150 is composed of a text having knowledge of philosophical thought and a weight of a noun extracted in each test.
  • the training data and the test data are arbitrarily classified in a text- can do.
  • the preprocessing unit 120 inputs the text of the new philosophy to the morpheme analyzer, extracts the noun from the text of the new philosophy, calculates the weight of the extracted noun do.
  • the classification weight of the new philosophy is provided to the classification classifying unit 150.
  • the classification classifying unit 150 applies the classification weight of the new philosophy to the generated classification algorithm so that the philosophical idea .
  • the preprocessing unit 120 provides a weight for each noun of the new philosophical text to the relevancy determination unit 170.
  • the relevancy determination unit 170 determines the relevance of the new philosophy based on the weights of the nouns of the philosophical thought generated by the matrix generation unit 130 And the weight of the nouns of the new philosophical text to calculate the degree of association between the ideas of the new philosophical text and other philosophical ideas.
  • the time series judging unit 190 judges whether or not a new philosophy word belonging to a new philosophy based on a relation between a philosophical thought to which the new philosophy word classified by the classification classifying unit 150 belongs and another philosophical idea judged by the association degree judging unit 170, Determine the time-series correlation between events. That is, the time series determination unit 190 determines the time-series correlation between the past philosophical thoughts influenced by the new philosophical text and the future philosophical thoughts influenced by the new philosophical text based on the time when the new philosophical text was written.
  • FIG. 3 is a functional block diagram for explaining an example of the preprocessing unit according to the present invention.
  • the morphological analysis unit 121 extracts nouns from the collected texts of the wording, wherein the morpheme is the unit of the smallest word having the meaning, and the morphological analysis method is a rule-based morphological analysis method And syllable unit type analysis method are used, and a detailed description thereof will be omitted.
  • the morphological analysis unit 121 removes the keyword used to collect the philosophical text from the noun extracted from the text of the philosophical text. By removing the keywords used to collect philosophical texts from the extracted nouns, it is possible to prevent overtitting of the extracted nouns by the classification algorithm generated from the collected philosophical texts.
  • the weight calculation unit 125 calculates weights of the extracted nouns in the text of the philosophical texts.
  • the weight of the extracted nouns is the ratio of the number of philosophical texts in which the corresponding noun exists, Lt; / RTI >
  • FIG. 4 is a functional block diagram for explaining an example of an association determination unit according to the present invention.
  • weights of nouns in the text-noun matrix are classified by philosophical mapping identifiers.
  • a philosopher identifier may be used as a philosophical idea identifier.
  • the average value calculation unit 173 calculates a weighted average value of each noun according to a philosophical idea identifier.
  • the association degree calculation unit 175 calculates the distance of each noun according to the philosophical idea identifier using the weighted average value of each noun, This branch calculates the degree of association.
  • FIG. 5 is a flowchart illustrating a method of classifying a human thought according to an embodiment of the present invention.
  • a text-noun matrix consisting of weights of nouns is extracted by extracting nouns from the collected texts of the philosophical texts collected and collected in the database unit.
  • the training data and the test data are classified and extracted from the generated text-noun matrix, and a classification algorithm is generated from the extracted training data and test data (S130).
  • a classification algorithm is generated from the extracted training data and test data (S130).
  • Various types of learning algorithms for generating a classification algorithm may be used according to the field to which the present invention is applied. For example, a decision tree, a Deep Neural Network, a k-NN classifier, a multinomial logistic regression, a Naive Bayes, Learning algorithm can be used, and a detailed description thereof will be omitted.
  • a new philosophy word is preprocessed to extract a noun from the text of the new philosophy word and calculate the weight of the extracted noun (S160).
  • the weight of the extracted noun is applied to the generated classification algorithm to determine the philosophical idea to which the new philosophical text belongs (S170), and the distance between the noun weight of the new philosophical text and the noun weight of the philosophical ideology constituting the text- (S180).
  • the relationship between the idea of the new philosophical text and the conventional philosophical thought constituting the text-noun matrix is calculated (S180).
  • FIG. 9 is an example of a philosophical mapping relationship calculated by a cosine similarity method. As shown in FIG. 9, a similar philosophical idea has a value close to 1, and a different philosophical idea has a value of zero.
  • the cosine similarity method is a method of expressing a word constituting two texts as a vector and measuring the similarity between two texts through an inner product between them, and a detailed description thereof will be omitted.
  • the time when the new philosophical text was written is judged based on the data of the year appearing in the new philosophical text.
  • the time when the new philosophical text was written, the philosophical thought to which the new philosophical text belongs, and the philosophical thought that composes the new philosophical text and the text- Based on the correlation, a temporal relation between the past philosophical thought that influenced the new philosophical text and the future philosophical thought influenced by the new modern text is determined (S190).
  • FIG. 6 is a flowchart illustrating an example of a step of generating a text-noun matrix.
  • the nouns constituting the text of the philosophical text are extracted by morphological analysis of the philosophical words collected in the database unit (S111).
  • FIG. 7 shows an example of a noun extracted by morphological analysis of philosophical words collected by the database unit.
  • a philosopher of philosophical texts or philosophical thought is already known, and nouns constituting texts of philosophical texts are extracted.
  • the keyword used to collect the philosophy word is removed from the extracted noun (S113).
  • S113 The keyword used to collect the philosophy word is removed from the extracted noun.
  • To remove the keywords used to collect the philosophical text from the extracted nouns it is necessary to prevent the occurrence of the overarching consensus problem in generating the classification algorithm using nouns extracted from the philosophical texts. For example, 'Descartes' When collecting philosophical texts by keywords, it removes 'Cartes' as a keyword among nouns extracted from texts of collected philosophical texts, thereby preventing occurrence of over-sum problems in the classification algorithm.
  • the weights of the extracted nouns in the philosophical text are calculated (S115).
  • the weight (w i ) of each noun (i) is calculated from the ratio of the number of philosophical utterances in which the noun is present and the frequency of the corresponding noun in the philosophical utterance, Can be calculated as shown in Equation (1).
  • N is the philosophy words of the number of units
  • n i is the number of wording that the noun (i) present in the unit can philosophy words of
  • f i is a noun (i) in the philosophy wording .
  • a text-noun matrix consisting of the weight of each noun constructing the philosophical text and the philosophical thinker or philosophical thought of the philosophical text is generated (S117).
  • FIG. 8 shows an example of a text-noun matrix.
  • weights of the nouns of the collected philosophical texts and philosophers of each philosophical text are generated in a matrix form.
  • FIG. 10 is a view for explaining an example of the time-series correlation of a new philosophical idea.
  • +1 corresponds to empirical philosophy
  • It is located at 0 if it corresponds to the philosophical thought of Lee Sung-ju, and does not correspond to both philosophical thought of empiricism and philosophical thought of Lee Sung-ju.
  • Circular shape means each philosophical thought. When there is a relation between philosophical thought and other philosophical thought of philosophical literal, circles are connected to each other by connecting line, and thickness of connecting line is displayed differently according to degree of relatedness.
  • the new philosophical text (N) when the new philosophical text (N) is collected, the weight of the noun extracted from the new philosophical text is classified into +1 and -1 by applying it to the classification algorithm, and from the weight of the noun extracted from the new philosophical text Calculate the association with philosophical thought.
  • the new philosophical text is judged by displaying the past philosophical thought influenced by the new philosophical thought and the new philosophical thought influenced by the new philosophical text. In other words, among the other philosophical thoughts related to the new philosophical texts, it is possible to judge the temporal relationship of the influences of the new philosophical texts to each other.
  • FIG. 11 is a diagram for explaining a method of determining a creation time of a new philosophy.
  • the year data shown in the new philosophy is extracted and the frequency of the extracted year data is divided for each unit period P and counted.
  • the data of the year of the remaining unit period excluding the unit period in which the frequency of the counted year data is the greatest in the unit period is deleted and the average value of the data of the year in the unit time of the greatest frequency is determined as the preparation time of the new philosophy.
  • the computer-readable recording medium may be a magnetic storage medium (e.g., ROM, floppy disk, hard disk, etc.), an optical reading medium (e.g. CD ROM, Lt; / RTI > transmission).
  • a magnetic storage medium e.g., ROM, floppy disk, hard disk, etc.
  • an optical reading medium e.g. CD ROM, Lt; / RTI > transmission.

Abstract

본 발명은 인문 사상의 분류 방법에 관한 것으로, 보다 구체적으로 종래 철학 사상의 텍스트로부터 철학 사상을 분류하기 위한 사상 분류 알고리즘을 생성하며 신규 철할 사상의 텍스트가 수집되는 경우 사상 분류 알고리즘을 통해 신규 철학 사상의 텍스트가 가지는 철학 사상을 자동 분류할 수 있으며, 신규 철할 사상 텍스트와 종래 철학 사상 사이의 관계를 시계열적 연관도로 판단함으로써 신규 철할 사상 텍스트가 영향을 받은 과거 철학 사상과 신규 철학 사상 텍스트가 영향을 준 미래 철학 사상을 판단할 수 있는 인문 사상의 분류 방법에 관한 것이다.

Description

인문 사상의 분류 방법
본 발명은 인문 사상의 분류 방법에 관한 것으로, 보다 구체적으로 종래 철학 사상의 텍스트로부터 철학 사상을 분류하기 위한 사상 분류 알고리즘을 생성하며 신규 철할 문언이 수집되는 경우 사상 분류 알고리즘을 통해 신규 철학 문언이 가지는 철학 사상을 자동 분류할 수 있고, 신규 철할 문언과 종래 철학 사상 사이의 관계를 시계열적 연관도로 판단함으로써 신규 철할 문언이 영향을 받은 과거 철학 사상과 신규 철학 사상 문언이 영향을 준 미래 철학 사상을 판단할 수 있는 인문 사상의 분류 방법에 관한 것이다.
최근 빅데이터 분석 기법의 확산으로 디지털 인문학(Digital Humanities)이 주목 받고 있다. 디지털 인문학은 전통적인 인문학의 연구 주제를 계승하면서도 정보기술의 도움을 받아 새로운 방식으로 인문학 연구를 수행하고 인문 지식을 사회 전반으로 효과적으로 확산시키려는 목적을 가진다. 이에 따라 국가뿐만 아니라 Oxford, Stanford 등의 대학 연구기관과 Google 등의 기업들도 디지털 인문학 프로젝트를 진행 중이다. 인문학 분야에서 빅데이터를 활용하는 것은 인문학적 사유와 고찰을 대체하려는 것이 아니라 인문학을 더욱 풍성하게 하려는 목적을 가진다.
이에 따라 문학, 지리학 등 다양한 학문 분야에서 디지털 인문학 연구가 진행되고 있으나 철학 분야에서의 디지털 인문학적 접근은 그 유용성에 대한 기대에도 불구하고 아직은 부족한 실정이다.
최근 디지털 인문학 연구는 빅데이터 기술을 활용하기 시작했다. 먼저 가시화 도구는 인문학 문헌들의 구조와 관계성을 직관적으로 파악하기에 적합하다. 예를 들어 Data Sprint는 서적의 간략한 서지 정보 즉 저자나 책 제목 등을 활용하여 social-network analysis를 가시화하는 Amazon API를 활용하고 있다. 둘째로, 자료 검색도 빅데이터의 도움을 받을 수 있다. 방대한 문헌에서 정해진 짧은 시간 안에 검색 기능을 수행하는 연구를 진행 중이다.
철학 연구에서 철학적 사상 간의 연결성 분석은 중요한 연구이며 또한 특정인의 사상이 기존 철학적 사상과 어떤 연관성이 있음을 분석하는 것도 중요한 연구이다. 이러한 연구를 위해서는 한 문헌이 지니는 철학적 성향과 특징을 파악하고 그와 관련된 철학 문헌들을 추출, 선별하고 목록화 하는 작업이 선행되어야 한다. 그러나 이러한 작업은 매우 광범위하고 많은 시간을 필요로 하는 과정이므로 연구자가 직접 수행하기보다 기존 연구 결과에 의존하거나 연구의 범위 자체가 축소되기도 하였다. 더구나 분석할 문헌의 양이 방대할수록 사람이 문헌을 읽고 철학 사상을 분류하는 작업은 많은 노력이 소요된다. 그러나 이러한 작업을 지원할 수 있는 정보기술{information technology}에 대해서는 제안된 바가 드물다.
본 발명이 이루고자 하는 목적은 철학 연구 분야에서 디지털 인문학을 적용하여 특정 문언이 가지는 사상을 자동으로 분류하여 판단할 수 있는 인문 사상의 분류 방법을 제공하는 것이다.
본 발명이 이루고자 하는 다른 목적은 종래 철학 사상의 텍스트로부터 철학 사상을 분류하기 위한 사상 분류 알고리즘을 생성하며, 신규 철할 문언이 수집되는 경우 사상 분류 알고리즘을 통해 신규 철학 문언이 가지는 철학 사상을 자동 분류할 수 있는 인문 사상 분류 방법을 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 목적은 신규 철학 문언과 종래 철학 사상 사이의 연관도를 계산하여 신규 철할 문언과 관련이 있는 종래 철학 사상 사이의 관련성을 판단할 수 있는 인문 사상 분류 방법을 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 목적은 신규 철할 문언과 종래 철학 사상 사이의 관계를 시계열적 연관도로 판단하여 신규 철할 문언이 영향을 받은 과거 철학 사상과 신규 철학 문언이 영향을 준 미래 철학 사상을 판단할 수 있는 인문 사상 분류 방법을 제공하는 것이다.
본 발명의 목적을 달성하기 위하여 본 발명의 일 실시예에 따른 인문 사상을 분류하는 방법은 철학 사상 텍스트에서 명사를 추출하고 추출한 명사별 가중치로 이루어진 텍스트-명사 매트릭스(Document-Term Matrix)를 생성하는 단계와, 텍스트-명사 매트릭스로부터 학습 데이터와 테스트 데이터를 구분하여 생성하고 학습 데이터와 테스트 데이터로부터 철학 사상을 분류하는데 이용되는 사상 분류 알고리즘을 생성하는 단계와, 신규 철학 사상 텍스트를 전처리하여 추출한 명사의 가중치를 사상 분류 알고리즘에 적용하여 상기 신규 철학 사상 텍스트가 속한 철학 사상을 판단하는 단계와, 신규 철학 사상 텍스트에 영향을 미친 과거 철학 사상과 신규 철학 텍스트에 영향을 준 미래 철학 사상 사이의 시계열적 연관도를 생성하는 단계를 포함하는 것을 특징으로 한다.
바람직하게, 텍스트-명사 매트릭스를 생성하는 단계는 철학 사상 텍스트를 형태소 분석기에 입력하여 철학 사상 텍스트를 구성하는 명사를 추출하는 단계와, 추출한 명사에 대한 가중치를 계산하는 단계와, 철학 사상 텍스트의 철학자와 추출한 명사에 대한 가중치로 이루어진 텍스트-명사 매트릭스를 생성하는 단계를 포함하는 특징으로 한다.
바람직하게, 텍스트-명사 매트릭스를 생성하는 단계는 철학 사상 텍스트를 구성하는 명사 중 철학 사상 텍스트를 수집하는데 사용된 키워드를 제외하고 명사를 추출하는 것을 특징으로 한다.
여기서 추출한 명사에 대한 가중치는 단위 수의 철학 사상 텍스트 중 명사가 존재하는 철학 사상 텍스트의 수의 비율과 철학 사상 텍스트에 추출한 명사가 나타난 빈도로부터 계산되는 것을 특징으로 한다.
바람직하게 신규 철학 사상 텍스트가 속한 철학 사상을 판단하는 단계는 신규 철학 사상 텍스트를 형태소 분석기에 입력하여 신규 철학 사상 텍스트를 구성하는 명사를 추출하는 단계와, 신규 철학 사상 텍스트로부터 추출한 명사에 대한 가중치를 계산하는 단계와, 추출한 명사에 대한 가중치를 사상 분류 알고리즘에 적용하여 신규 철학 사상 텍스트가 속한 철학 사상을 판단하는 단계를 포함하는 것을 특징으로 한다.
바람직하게, 시계열적 연관도를 생성하는 단계는 텍스트-명사 매트릭스(Document-Term Matrix)를 구성하는 명사별 가중치를 철학자 식별자로 분류하는 단계와, 철학자 식별자에 따라 분류한 텍스트-명사 매트릭스의 명사 가중치와 신규 철학 사상 텍스트로부터 추출한 명사 가중치 사이의 거리를 계산하는 단계와, 신규 철학 사상 텍스트의 작성 시기를 판단하는 단계와, 계산한 거리와 신규 철학 사상 텍스트의 작성 시기로부터 신규 철학 사상 텍스트에 영향을 미친 과거 철학 사상과 신규 철학 텍스트에 영향을 준 미래 철학 사상 사이의 시계열적 연관도를 생성하는 단계를 포함하는 것을 특징으로 한다.
여기서 거리를 계산하는데 이용되는 텍스트-명사 매트릭스의 명사 가중치는 철학자 식별자에 따라 분류한 철학 사상 텍스트들의 명사 가중치의 평균값인 것을 특징으로 한다.
여기서 신규 철학 사상 텍스트의 작성 시기는 신규 철학 사상 텍스트에서 설정 간격으로 추출한 년도 데이터 중 가장 많은 빈도수가 높은 년도 데이터들의 평균값으로 계산되는 것을 특징으로 한다.
한편, 본 발명의 목적을 달성하기 위하여 본 발명의 다른 실시예에 따른 인문 사상을 분류하는 방법은 신규 철학 사상 텍스트를 형태소 분석기에 입력하여 신규 철학 사상 텍스트를 구성하는 명사를 추출하는 단계와, 신규 철학 사상 텍스트로부터 추출한 명사에 대한 가중치를 계산하는 단계와, 추출한 명사에 대한 가중치를 사상 분류 알고리즘에 적용하여 신규 철학 사상 텍스트가 속한 철학 사상을 판단하는 단계와, 신규 철학 사상 텍스트에 영향을 미친 과거 철학 사상과 신규 철학 텍스트에 영향을 준 미래 철학 사상 사이의 시계열적 연관도를 생성하는 단계를 포함하는 것을 특징으로 한다.
여기서 사상 분류 알고리즘은 종래 철학 사상 텍스트에서 명사를 추출하고, 추출한 명사별 가중치로 이루어진 텍스트-명사 매트릭스(Document-Term Matrix)를 생성하는 단계와, 텍스트-명사 매트릭스로부터 학습 데이터와 테스트 데이터를 구분하여 생성하고 학습 데이터와 테스트 데이터로부터 철학 사상을 분류하는데 이용되는 사상 분류 알고리즘을 생성하는 단계를 통해 생성되는 것을 특징으로 한다.
여기서 텍스트-명사 매트릭스는 종래 철학 사상 텍스트를 형태소 분석기에 입력하여 종래 철학 사상 텍스트를 구성하는 명사를 추출하는 단계와, 추출한 명사에 대한 가중치를 계산하는 단계와, 종래 철학 사상 텍스트의 철학자와 추출한 명사에 대한 가중치로 이루어진 텍스트-명사 매트릭스를 생성하는 단계를 통해 생성되는 것을 특징으로 한다.
본 발명에 따른 인문 사상의 분류 방법은 다음과 같은 효과를 가진다.
첫째, 본 발명에 따른 인문 사상의 분류 방법은 종래 철학 사상의 텍스트로부터 철학 사상을 분류하기 위한 사상 분류 알고리즘을 생성하며 신규 철할 사상의 텍스트가 수집되는 경우 사상 분류 알고리즘을 통해 신규 철학 사상의 텍스트가 가지는 철학 사상을 자동 분류함으로써, 철학 사상을 분류하는데 소요되는 시간과 노력을 줄일 수 있다.
둘째, 본 발명에 따른 인문 사상의 분류 방법은 신규 철학 사상 텍스트와 종래 철학 사상 사이의 연관도를 계산함으로써, 신규 철할 사상 텍스트와 관련이 있는 종래 철학 사상 사이의 관련성을 판단할 수 있다.
셋째, 본 발명에 따른 인문 사상의 분류 방법은 신규 철할 사상 텍스트와 종래 철학 사상 사이의 관계를 시계열적 연관도로 판단함으로써, 신규 철할 사상 텍스트가 영향을 받은 과거 철학 사상과 신규 철학 사상 텍스트가 영향을 준 미래 철학 사상을 판단할 수 있다.
도 1은 본 발명에 따른 인문 사상의 분류 시스템을 설명하기 위한 기능 블록도이다.
도 2는 본 발명의 일 실시예에 따른 사상 분류 장치를 설명하기 위한 기능 블록도이다.
도 3은 본 발명에 따른 전처리부의 일 예를 설명하기 위한 기능 블록도이다.
도 4는 본 발명에 따른 연관도 판단부의 일 예를 설명하기 위한 기능 블록도이다.
도 5는 본 발명의 일 실시예에 따른 인문 사상의 분류 방법을 설명하기 위한 흐름도이다.
도 6은 텍스트-명사 매트릭스를 생성하는 단계의 일 예를 설명하기 위한 흐름도이다.
도 7은 데이터베이스부에서 수집한 철학 문언을 형태소 분석하여 추출한 명사의 일 예를 도시하고 있다.
도 8은 텍스트-명사 매트릭스의 일 예를 도시하고 있다.
도 9는 코사인 유사성 방식으로 계산한, 신규 철학 문언이 가지는 사상과 텍스트-명사 매트릭스를 구성하는 철학 사상과의 연관도의 일 예를 도시하고 있다.
도 10은 신규 철학 사상의 시계열적 연관성의 일 예를 설명하기 위한 도면이다.
도 11은 신규 철학 문언의 작성 시기를 판단하는 방식을 설명하기 위한 도면이다.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다.
또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서, "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
이하 첨부한 도면을 참고로 본 발명에 따른 인문 사상의 분류 방법에 대해 보다 구체적으로 살펴본다.
도 1은 본 발명에 따른 인문 사상의 분류 시스템을 설명하기 위한 기능 블록도이다.
도 1을 참고로 보다 구체적으로 살펴보면, 네트워크(30)에는 데이터베이스부(10)와 인문 사상 분류 장치(50)가 접속되어 있다.
데이터베이스부(30)에는 다양한 종류의 인문 문언이 저장되어 있는데, 예를 들어 역사, 철학, 문학 등과 관련된 인문 문언이 저장되어 있다.
인문 사상 분류 장치(50)는 네트워크(30)를 통해 데이터베이스부(10)로부터 인문 문언을 수신하고 수신한 인문 문언으로부터 인문 문언을 분류하기 위한 사상 분류 알고리즘을 학습 생성하는데, 데이터베이스부(10)로부터 신규 인문 문언을 수집하거나 또는 네트워크(30)를 통해 다른 소스로 신규 인문 문언을 수집하는 경우 사상 분류 알고리즘에 기초하여 신규 인문 문언이 가지는 사상을 분류하거나 신규 인문 문언이 가지는 사상과 다른 인문 사상과의 연관도를 판단하거나, 신규 인문 문언이 영향을 받은 과거 인문 사상 또는 신규 인문 문언이 영향을 준 미래 인문 사상과의 연관도를 판단한다.
이하에서는 인문 문언의 일 예로 철학 문언을 사용하여 본 발명을 설명하도록 하나, 철학 문언 이외에 다양한 종류의 인문 문언이 사용될 수 있으며 이는 본 발명의 범위에 속한다.
도 2는 본 발명의 일 실시예에 따른 사상 분류 장치를 설명하기 위한 기능 블록도이다.
도 2를 참고로 보다 구체적으로 살펴보면, 수집부(110)는 입력된 키워드에 기초하여 데이터베이스부 또는 다른 소스를 통해 철학 문언을 수집한다. 바람직하게, 수집부(110)는 네트워크를 통해 데이터를 송수신하기 위한 통신 모듈을 구비하며, 수집부(110)는 네트워크를 통해 입력된 키워드에 해당하는 철학 문언을 수집한다.
전처리부(120)는 철학 문언의 텍스트를 형태소 분석기에 입력하여 철학 문언의 텍스트에서 명사를 추출하고 추출한 명사별 가중치를 계산하며, 매트릭스 생성부(130)는 이미 알고 있는 철학 문언의 철학 사상, 철학가 등과 각 철학 문언 텍스트에서 추출한 명사의 가중치로 이루어진 텍스트-명사 매트릭스(Document-term matrix)를 생성한다.
사상 분류 학습부(150)는 매트릭스 생성부(130)에서 생성된 텍스트-명사 매트릭스로부터 트레이닝 데이터와 테스트 데이터를 추출하고 추출한 트레이닝 데이터와 테스트 데이터로부터 철학 사상을 분류하는데 이용되는 사상 분류 알고리즘을 생성한다. 여기서 사상 분류 학습부(150)에서 사용되는 텍스트-명사 매트릭스는 철학 사상을 알고 있는 텍스트와 각 테스트에서 추출한 명사의 가중치로 이루어지며, 트레이닝 데이터와 테스트 데이터는 텍스트-명사 매트릭스에서 임의적으로 구분하여 추출할 수 있다.
한편, 수집부(110)를 통해 신규 철학 문언이 수집되는 경우, 전처리부(120)는 신규 철학 문언의 텍스트를 형태소 분석기에 입력하여 신규 철학 문언의 텍스트에서 명사를 추출하고 추출한 명사의 가중치를 계산한다. 신규 철학 문언의 명사별 가중치는 사상 분류 학습부(150)로 제공되는데, 사상 분류 학습부(150)는 신규 철학 문언의 명사별 가중치를 생성한 사상 분류 알고리즘에 적용하여 신규 철학 문언이 속하는 철학 사상을 판단한다.
한편, 전처리부(120)는 신규 철학 문언의 명사별 가중치를 연관도 판단부(170)로 제공하는데, 연관도 판단부(170)는 매트릭스 생성부(130)에서 생성된 철학 사상별 명사의 가중치와 신규 철학 문언의 명사 가중치 사이의 거리를 계산하여 신규 철학 문언이 가지는 사상과 다른 철학 사상 사이의 연관도를 계산한다.
시계열 판단부(190)는 사상 분류 학습부(150)에서 분류한 신규 철학 문언이 속하는 철학 사상과 연관도 판단부(170)에서 판단한 다른 철학 사상과의 연관도에 기초하여 신규 철학 문언과 다른 철학 사상 사이의 시계열적 연관도를 판단한다. 즉, 시계열 판단부(190)는 신규 철학 문언이 작성된 시기에 기초하여 신규 철학 문언이 영향을 받은 과거 철학 사상 및 신규 철학 문언이 영향을 준 미래 철학 사상 사이의 시계열적 연관도를 판단한다.
도 3은 본 발명에 따른 전처리부의 일 예를 설명하기 위한 기능 블록도이다.
도 3을 참고로 보다 구체적으로 살펴보면, 형태소 분석부(121)는 수집한 철한 문언의 텍스트로부터 명사를 추출하는데, 여기서 형태소는 뜻을 가진 가장 작은 말의 단위로 형태소 분석 방식은 규칙기반 형태 분석 방식과 음절단위 형태 분석 방식 등 다양한 형태소 분석 알고리즘이 사용되고 있으며, 이에 대한 자세한 설명은 생략한다.
형태소 분석부(121)를 통해 철학 문언의 텍스트로부터 추출한 명사에서 철학 문언을 수집하는데 사용된 키워드를 제거한다. 추출한 명사에서 철학 문언을 수집하는데 사용된 키워드를 제거함으로써, 수집한 철학 문언으로부터 생성되는 사상 분류 알고리즘이 추출한 명사에 과적합(overfitting)되는 것을 방지할 수 있다.
가중치 계산부(125)는 추출한 명사가 철학 문언의 텍스트에서 가지는 가중치를 계산하는데, 추출한 명사의 가중치는 단위 수의 철학 문언 중 해당 명사가 존재하는 철학 문언의 수의 비율, 해당 철학 문언에서 추출한 명사가 나타난 빈도로부터 계산될 수 있다.
도 4는 본 발명에 따른 연관도 판단부의 일 예를 설명하기 위한 기능 블록도이다.
도 4를 참고로 보다 구체적으로 살펴보면, 텍스트-명사 매트릭스에서 명사별 가중치를 철학 사상 식별자별로 분류한다. 여기서 철학 사상 식별자로 철학자 식별자가 사용될 수 있다.
평균값 계산부(173)는 철학 사상 식별자별로 각 명사의 가중치 평균값을 계산하며, 연관도 계산부(175)는 각 명사의 가중치 평균값을 이용하여 철학 사상 식별자별로 각 명사의 거리를 계산하여 각 철학 사상이 가지는 연관도를 계산한다.
도 5는 본 발명의 일 실시예에 따른 인문 사상의 분류 방법을 설명하기 위한 흐름도이다.
도 5를 참고로 보다 구체적으로 살펴보면, 데이터베이스부에 저장되어 있는 철학 문언을 수집하고 수집한 철학 문언의 텍스트에서 명사를 추출하여 추출한 명사의 가중치로 이루어진 텍스트-명사 매트릭스를 생성한다(S110).
생성한 텍스트-명사 매트릭스로부터 트레이닝 데이터와 테스트 데이터를 분류하여 추출하고, 추출한 트레이닝 데이터와 테스트 데이터로부터 사상 분류 알고리즘을 생성한다(S130). 본 발명이 적용되는 분야에 따라 사상 분류 알고리즘을 생성하기 위한 다양한 종류의 학습 알고리즘이 사용될 수 있는데, 결정 트리, Deep Neural Network, k-NN classifier, Multinomial logistic regression, Naive Bayes, Random Forest, SVM 등의 학습 알고리즘을 사용할 수 있으며, 이에 대한 자세한 설명은 생략한다.
신규 철학 문언이 수집되는 경우(S150), 신규 철학 문언을 전처리하여 신규 철학 문언의 텍스트에서 명사를 추출하고 추출한 명사의 가중치를 계산한다(S160). 추출한 명사의 가중치를 생성한 사상 분류 알고리즘에 적용하여 신규 철학 문언이 속하는 철학 사상을 판단하고(S170), 신규 철학 문언의 명사 가중치와 텍스트-명사 매트릭스를 구성하는 철학 사상별 명사 가중치 사이의 거리를 측정하여 신규 철학 문언이 가지는 사상과 텍스트-명사 매트릭스를 구성하는 종래 철학 사상과의 연관도를 계산한다(S180).
본 발명이 적용되는 분야에 따라 신규 철학 문언이 가지는 사상과 텍스트-명사 매트릭스를 구성하는 종래 철학 사상과의 연관도는 유클리드 거리(Euclidean distance) 또는 코사인 유사성(Cosine similarity)의 방식을 사용하여 계산될 수 있다. 도 9는 코사인 유사성 방식으로 계산한, 철학 사상 연관도의 일 예로 서로 유사한 철학 사상일수록 1에 가까운 값을 가지며, 서로 상이한 철학 사상일수록 0의 값을 가지게 된다. 코사인 유사성 방식은 2개의 텍스트를 구성하는 단어를 벡터로 표현하며 이들 사이의 내적을 통해 2개의 텍스트 사이의 유사도를 측정하는 방식으로 이에 대한 상세한 설명은 생략한다.
신규 철학 문언이 작성된 시기를 신규 철학 문언에 나타나는 년도 데이터에 기초하여 판단하며, 신규 철학 문언이 작성된 시기, 신규 철학 문언이 속하는 철학 사상 및 신규 철학 문언과 텍스트-명사 매트릭스를 구성하는 철학 사상과의 연관도에 기초하여 신규 철학 문언에 영향을 준 과거 철학 사상과 신규 철한 문언이 영향을 준 미래 철학 사상과의 시계열적 연관도를 판단한다(S190).
도 6은 텍스트-명사 매트릭스를 생성하는 단계의 일 예를 설명하기 위한 흐름도이다.
도 6을 참고로 보다 구체적으로 살펴보면, 데이터베이스부에서 수집한 철학 문언을 형태소 분석하여 철학 문언의 텍스트를 구성하는 명사를 추출한다(S111). 도 7은 데이터베이스부에서 수집한 철학 문언을 형태소 분석하여 추출한 명사의 일 예를 도시하고 있다. 데이터베이스부에서 수집한 철학 문언의 경우 해당 철학 문언의 철학 사상가 또는 철학 사상을 이미 알고 있으며, 철학 문언의 텍스트를 구성하는 명사를 추출한다.
추출한 명사에서 해당 철학 문언을 수집하는데 이용한 키워드를 제거한다(S113). 추출한 명사에서 해당 철학 문언을 수집하는데 이용한 키워드를 제거하는 것은 철학 문언에서 추출한 명사를 이용하여 사상 분류 알고리즘을 생성시 과적합의 문제가 발생하는 것을 미연에 방지하기 위한 것으로, 예를 들어 '데카르트'를 키워드로 철학 문언을 수집하는 경우 수집한 철학 문언의 텍스트에서 추출한 명사 중 키워드로 사용한 '데카르트'를 제거하여 사상 분류 알고리즘에서 과적합 문제가 발생하는 것을 방지한다.
추출한 각 명사가 해당 철학 문언에서 가지는 가중치를 계산한다(S115). 여기서 가중치는 단위 수의 철학 문언 중 해당 명사가 존재하는 철학 문언의 수의 비율과 해당 철학 문언에 해당 명사가 나타난 빈도로부터 계산되는데, 바람직하게 각 명사(i)의 가중치(wi)는 아래의 수학식 (1)과 같이 계산될 수 있다.
[수학식 1]
Figure PCTKR2018009529-appb-I000001
여기서 wi는 명사 i의 가중치이며, N은 단위 수의 철학 문언, ni은 단위 수의 철학 문언에서 해당 명사(i)가 존재하는 문언의 수, fi는 해당 철학 문언에서 명사(i)가 나타난 빈도를 의미한다.
이와 같이 단위 수의 철학 문언 중 해당 명사가 존재하는 철학 문언의 수의 비율에 대한 역수로부터 명사의 가중치를 계산함으로써, 추출한 명사가 해당 철학 문언의 철학 사상과 관련하여 중요한 명사인지를 판단할 수 있다.
철학 문언을 구성하는 각 명사의 가중치와 해당 철학 문언의 철학 사상가 또는 철학 사상으로부터 이루어진 텍스트-명사 매트릭스를 생성한다(S117).
도 8은 텍스트-명사 매트릭스의 일 예로 텍스트-명사 매트릭스에는 수집한 철학 문언 텍스트의 각 명사에 대한 가중치와 각 철학 문언의 철학자가 매트릭스 형태로 생성된다.
도 10은 신규 철학 사상의 시계열적 연관성의 일 예를 설명하기 위한 도면이다.
도 10에 도시되어 있는 바와 같이, 각 철학 문언이 가지는 철학 사상은 사상 분류 알고리즘에 의해 +1과 -1로 서로 구분되어 분류되는데, 예를 들어 +1은 경험주의 철학 사상에 해당하며, -1은 이성주의 철학 사상에 해당하고, 경험주의 철학 사상과 이성주의 철학 사상 모두에 해당하지 않는 경우 0에 위치하게 된다.
원 모양은 각 철학 사상을 의미하는데 철학 문언이 가지는 철학 사상과 다른 철학 사상 사이에 연관도가 있는 경우 원은 서로 연결선으로 연결되며, 연관도의 정도에 따라 연결선의 굵기가 상이하게 표시된다.
한편, 신규 철학 문언(N)이 수집된 경우, 신규 철학 문언 텍스트에서 추출한 명사의 가중치를 사상 분류 알고리즘에 적용하여 +1과 -1 사이에서 분류하며, 신규 철학 문언 텍스트에서 추출한 명사의 가중치로부터 다른 철학 사상과의 연관도를 계산한다. 신규 철학 문언이 작성된 시기, 신규 철학 문언과 다른 철학 사상 사이의 연관도에 기초하여 신규 철학 문언이 영향을 받은 과거 철학 사상 및 신규 철학 문언이 영향을 준 미래 철학 사상을 표시하여 판단한다. 즉, 신규 철학 문언과 연관도가 있는 다른 철학 사상 중 신규 철학 문언이 작성된 시기의 선후 관계로 서로 영향을 주거나 받은 시계열적 관계를 판단할 수 있다.
도 11은 신규 철학 문언의 작성 시기를 판단하는 방식을 설명하기 위한 도면이다.
도 11에 도시되어 있는 바와 같이, 신규 철학 문언에서 나타난 년도 데이터를 추출하고 추출한 년도 데이터의 빈도를 단위 기간(P)별로 나누어 카운트한다. 단위 기간 중 카운트한 년도 데이터의 빈도가 가장 많은 단위 기간을 제외한 나머지 단위 기간의 년도 데이터를 삭제하고, 빈도가 가장 많은 단위 시간에 나타난 년도 데이터의 평균값을 신규 철학 문언의 작성 시기로 판단한다.
한편, 상술한 본 발명의 실시 예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록 매체는 마그네틱 저장 매체(예를 들어, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장 매체를 포함한다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (16)

  1. 사상 분류 장치에서 인문 사상을 분류하는 방법에 있어서,
    철학 사상 텍스트에서 명사를 추출하고, 추출한 명사별 가중치로 이루어진 텍스트-명사 매트릭스(Document-Term Matrix)를 생성하는 단계;
    상기 텍스트-명사 매트릭스로부터 학습 데이터와 테스트 데이터를 구분하여 생성하고, 상기 학습 데이터와 상기 테스트 데이터로부터 철학 사상을 분류하는데 이용되는 사상 분류 알고리즘을 생성하는 단계;
    신규 철학 사상 텍스트를 전처리하여 추출한 명사의 가중치를 상기 사상 분류 알고리즘에 적용하여 상기 신규 철학 사상 텍스트가 속한 철학 사상을 판단하는 단계; 및
    상기 신규 철학 사상 텍스트에 영향을 미친 과거 철학 사상과 상기 신규 철학 텍스트에 영향을 준 미래 철학 사상 사이의 시계열적 연관도를 생성하는 단계를 포함하는 것을 특징으로 하는 인문 사상의 분류 방법.
  2. 제 1 항에 있어서, 상기 텍스트-명사 매트릭스를 생성하는 단계는
    철학 사상 텍스트를 형태소 분석기에 입력하여 상기 철학 사상 텍스트를 구성하는 명사를 추출하는 단계;
    추출한 명사에 대한 가중치를 계산하는 단계; 및
    상기 철학 사상 텍스트의 철학자와 추출한 명사에 대한 가중치로 이루어진 텍스트-명사 매트릭스를 생성하는 단계를 포함하는 특징으로 하는 인문 사상의 분류 방법.
  3. 제 2 항에 있어서, 상기 텍스트-명사 매트릭스를 생성하는 단계는
    상기 철학 사상 텍스트를 구성하는 명사 중 상기 철학 사상 텍스트를 수집하는데 사용된 키워드를 제외하고 명사를 추출하는 것을 특징으로 하는 인문 사상의 분류 방법.
  4. 제 3 항에 있어서, 상기 추출한 명사에 대한 가중치는
    단위 수의 철학 사상 텍스트 중 상기 명사가 존재하는 철학 사상 텍스트의 수의 비율과 상기 철학 사상 텍스트에 상기 추출한 명사가 나타난 빈도로부터 계산되는 것을 특징으로 하는 인문 사상의 분류 방법.
  5. 제 4 항에 있어서, 상기 신규 철학 사상 텍스트가 속한 철학 사상을 판단하는 단계
    상기 신규 철학 사상 텍스트를 형태소 분석기에 입력하여 상기 신규 철학 사상 텍스트를 구성하는 명사를 추출하는 단계;
    상기 신규 철학 사상 텍스트로부터 추출한 명사에 대한 가중치를 계산하는 단계; 및
    추출한 명사에 대한 가중치를 상기 사상 분류 알고리즘에 적용하여 상기 신규 철학 사상 텍스트가 속한 철학 사상을 판단하는 단계를 포함하는 것을 특징으로 하는 인문 사상의 분류 방법.
  6. 제 5 항에 있어서, 상기 시계열적 연관도를 생성하는 단계는
    상기 텍스트-명사 매트릭스(Document-Term Matrix)를 구성하는 명사별 가중치를 철학자 식별자로 분류하는 단계;
    상기 철학자 식별자에 따라 분류한 상기 텍스트-명사 매트릭스의 명사 가중치와 신규 철학 사상 텍스트로부터 추출한 명사 가중치 사이의 거리를 계산하는 단계;
    상기 신규 철학 사상 텍스트의 작성 시기를 판단하는 단계; 및
    상기 계산한 거리와 상기 신규 철학 사상 텍스트의 작성 시기로부터 신규 철학 사상 텍스트에 영향을 미친 과거 철학 사상과 상기 신규 철학 텍스트에 영향을 준 미래 철학 사상 사이의 시계열적 연관도를 생성하는 단계를 포함하는 것을 특징으로 하는 인문 사상의 분류 방법.
  7. 제 6 항에 있어서, 상기 거리를 계산하는데 이용되는 상기 텍스트-명사 매트릭스의 명사 가중치는 상기 철학자 식별자에 따라 분류한 철학 사상 텍스트들의 명사 가중치의 평균값인 것을 특징으로 하는 인문 사상의 분류 방법.
  8. 제 7 항에 있어서, 상기 신규 철학 사상 텍스트의 작성 시기는
    상기 신규 철학 사상 텍스트에서 설정 간격으로 추출한 년도 데이터 중 가장 많은 빈도수가 높은 년도 데이터들의 평균값으로 계산되는 것을 특징으로 하는 인문 사상의 분류 방법.
  9. 신규 철학 사상 텍스트를 형태소 분석기에 입력하여 상기 신규 철학 사상 텍스트를 구성하는 명사를 추출하는 단계;
    상기 신규 철학 사상 텍스트로부터 추출한 명사에 대한 가중치를 계산하는 단계;
    추출한 명사에 대한 가중치를 사상 분류 알고리즘에 적용하여 상기 신규 철학 사상 텍스트가 속한 철학 사상을 판단하는 단계; 및
    상기 신규 철학 사상 텍스트에 영향을 미친 과거 철학 사상과 상기 신규 철학 텍스트에 영향을 준 미래 철학 사상 사이의 시계열적 연관도를 생성하는 단계를 포함하는 것을 특징으로 하는 인문 사상의 분류 방법.
  10. 제 9 항에 있어서, 상기 사상 분류 알고리즘은
    종래 철학 사상 텍스트에서 명사를 추출하고, 추출한 명사별 가중치로 이루어진 텍스트-명사 매트릭스(Document-Term Matrix)를 생성하는 단계;
    상기 텍스트-명사 매트릭스로부터 학습 데이터와 테스트 데이터를 구분하여 생성하고, 상기 학습 데이터와 상기 테스트 데이터로부터 철학 사상을 분류하는데 이용되는 사상 분류 알고리즘을 생성하는 단계를 통해 생성되는 것을 특징으로 하는 인문 사상의 분류 방법.
  11. 제 10 항에 있어서, 상기 텍스트-명사 매트릭스는
    상기 종래 철학 사상 텍스트를 형태소 분석기에 입력하여 상기 종래 철학 사상 텍스트를 구성하는 명사를 추출하는 단계;
    추출한 명사에 대한 가중치를 계산하는 단계; 및
    상기 종래 철학 사상 텍스트의 철학자와 추출한 명사에 대한 가중치로 이루어진 텍스트-명사 매트릭스를 생성하는 단계를 통해 생성되는 것을 특징으로 하는 인문 사상의 분류 방법.
  12. 제 11 항에 있어서, 상기 텍스트-명사 매트릭스는
    상기 종래 철학 사상 텍스트를 구성하는 명사 중 상기 종래 철학 사상 텍스트를 수집하는데 사용된 키워드를 제외한 명사를 추출하여 생성되는 것을 특징으로 하는 인문 사상의 분류 방법.
  13. 제 12 항에 있어서, 상기 추출한 명사에 대한 가중치는
    단위 수의 종래 철학 사상 텍스트 중 상기 명사가 존재하는 종래 철학 사상 텍스트의 수의 비율과 상기 종래 철학 사상 텍스트에 상기 추출한 명사가 나타난 빈도로부터 계산되는 것을 특징으로 하는 인문 사상의 분류 방법.
  14. 제 11 항에 있어서, 상기 시계열적 연관도를 생성하는 단계는
    상기 텍스트-명사 매트릭스(Document-Term Matrix)를 구성하는 명사별 가중치를 철학자 식별자로 분류하는 단계;
    상기 철학자 식별자에 따라 분류한 상기 텍스트-명사 매트릭스의 명사 가중치와 신규 철학 사상 텍스트로부터 추출한 명사 가중치 사이의 거리를 계산하는 단계;
    상기 신규 철학 사상 텍스트의 작성 시기를 판단하는 단계; 및
    상기 계산한 거리와 상기 신규 철학 사상 텍스트의 작성 시기로부터 신규 철학 사상 텍스트에 영향을 미친 과거 철학 사상과 상기 신규 철학 텍스트에 영향을 준 미래 철학 사상 사이의 시계열적 연관도를 생성하는 단계를 포함하는 것을 특징으로 하는 인문 사상의 분류 방법.
  15. 제 14 항에 있어서, 상기 거리를 계산하는데 이용되는 상기 텍스트-명사 매트릭스의 명사 가중치는 상기 철학자 식별자에 따라 분류한 종래 철학 사상 텍스트들의 명사 가중치의 평균값인 것을 특징으로 하는 인문 사상의 분류 방법.
  16. 제 15 항에 있어서, 상기 신규 철학 사상 텍스트의 작성 시기는
    상기 신규 철학 사상 텍스트에서 설정 간격으로 추출한 년도 데이터 중 가장 많은 빈도수가 높은 년도 데이터들의 평균값으로 계산되는 것을 특징으로 하는 인문 사상의 분류 방법.
PCT/KR2018/009529 2017-08-18 2018-08-20 인문 사상의 분류 방법 WO2019035699A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0104824 2017-08-18
KR1020170104824A KR102079931B1 (ko) 2017-08-18 2017-08-18 인문 사상의 분류 방법

Publications (1)

Publication Number Publication Date
WO2019035699A1 true WO2019035699A1 (ko) 2019-02-21

Family

ID=65362898

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/009529 WO2019035699A1 (ko) 2017-08-18 2018-08-20 인문 사상의 분류 방법

Country Status (2)

Country Link
KR (1) KR102079931B1 (ko)
WO (1) WO2019035699A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536203A (zh) * 2021-06-28 2021-10-22 国网福建省电力有限公司经济技术研究院 一种面向应用的能源数据目录项筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101401225B1 (ko) * 2011-01-12 2014-05-28 엘지전자 주식회사 문서 분석 시스템
JP5911492B2 (ja) * 2011-08-05 2016-04-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報検索システム、方法、及びプログラム
KR101681109B1 (ko) * 2015-10-01 2016-11-30 한국외국어대학교 연구산학협력단 대표 색인어와 유사도를 이용한 문서 자동 분류 방법
US20170132219A1 (en) * 2014-05-23 2017-05-11 Yinsheng DENG System for identifying, associating, searching and presenting documents based on time sequentialization
KR20170092735A (ko) * 2016-02-03 2017-08-14 한국원자력 통제기술원 원자력 계통 정보를 활용한 사례기반 전자문서 분류 시스템 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101401225B1 (ko) * 2011-01-12 2014-05-28 엘지전자 주식회사 문서 분석 시스템
JP5911492B2 (ja) * 2011-08-05 2016-04-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報検索システム、方法、及びプログラム
US20170132219A1 (en) * 2014-05-23 2017-05-11 Yinsheng DENG System for identifying, associating, searching and presenting documents based on time sequentialization
KR101681109B1 (ko) * 2015-10-01 2016-11-30 한국외국어대학교 연구산학협력단 대표 색인어와 유사도를 이용한 문서 자동 분류 방법
KR20170092735A (ko) * 2016-02-03 2017-08-14 한국원자력 통제기술원 원자력 계통 정보를 활용한 사례기반 전자문서 분류 시스템 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536203A (zh) * 2021-06-28 2021-10-22 国网福建省电力有限公司经济技术研究院 一种面向应用的能源数据目录项筛选方法

Also Published As

Publication number Publication date
KR102079931B1 (ko) 2020-02-21
KR20190019637A (ko) 2019-02-27

Similar Documents

Publication Publication Date Title
CN110516067B (zh) 基于话题检测的舆情监控方法、系统及存储介质
CA2423033C (en) A document categorisation system
Poudyal et al. ECHR: Legal corpus for argument mining
WO2014030834A1 (ko) 문법의 오류 검출 방법, 이를 위한 오류검출장치 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록매체
CN109783693B (zh) 一种视频语义和知识点的确定方法及系统
WO2018131955A1 (ko) 디지털 컨텐츠를 분석하는 방법
Argamon Computational forensic authorship analysis: Promises and pitfalls
WO2020111827A1 (ko) 프로필 자동생성서버 및 방법
CN111091009B (zh) 一种基于语义分析的文档关联审核方法
JP5168620B2 (ja) データ種類検出装置及びデータ種類検出方法
WO2019039659A1 (ko) 감성 기반의 사용자 관리 방법 및 이를 수행하는 장치들
CN111626042A (zh) 指代消解方法及装置
Fogarolli Word sense disambiguation based on wikipedia link structure
Murakami et al. Statement map: assisting information crediblity analysis by visualizing arguments
JP7305566B2 (ja) 情報処理装置、情報処理システム、および情報処理プログラム
WO2019035699A1 (ko) 인문 사상의 분류 방법
WO2018143490A1 (ko) 웹 콘텐츠를 이용한 사용자 감성 예측 시스템 및 그 방법
CN112052424A (zh) 一种内容审核方法及装置
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Oudah et al. Person name recognition using the hybrid approach
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
US11475222B2 (en) Automatically extending a domain taxonomy to the level of granularity present in glossaries in documents
CN113722484A (zh) 基于深度学习的谣言检测方法、装置、设备及存储介质
Ah-Pine et al. Clique-based clustering for improving named entity recognition systems
Kaur et al. A Novel Approach for Sentiment Analysis of Punjabi Text using SVM.

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18846647

Country of ref document: EP

Kind code of ref document: A1