KR20180092463A - Article generation method using the decision tree - Google Patents

Article generation method using the decision tree Download PDF

Info

Publication number
KR20180092463A
KR20180092463A KR1020170018161A KR20170018161A KR20180092463A KR 20180092463 A KR20180092463 A KR 20180092463A KR 1020170018161 A KR1020170018161 A KR 1020170018161A KR 20170018161 A KR20170018161 A KR 20170018161A KR 20180092463 A KR20180092463 A KR 20180092463A
Authority
KR
South Korea
Prior art keywords
decision tree
data
learning
article
generating
Prior art date
Application number
KR1020170018161A
Other languages
Korean (ko)
Other versions
KR101904643B1 (en
Inventor
한연희
용상혁
고현영
김주봉
Original Assignee
한국기술교육대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국기술교육대학교 산학협력단 filed Critical 한국기술교육대학교 산학협력단
Priority to KR1020170018161A priority Critical patent/KR101904643B1/en
Publication of KR20180092463A publication Critical patent/KR20180092463A/en
Application granted granted Critical
Publication of KR101904643B1 publication Critical patent/KR101904643B1/en

Links

Images

Classifications

    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • G06F17/30702

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to an article generation method using a decision making tree which comprises the steps of: collecting learning data to learn a decision making tree; processing the learning data capable of being stored in a database to change into numerical data to be easily learned by the decision making tree; generating the decision making tree by learning the data went through the processing step, and determining validity for a completed decision making tree; and generating an article by combining a detected text with the existing data by utilizing the decision making tree.

Description

의사결정트리를 이용한 기사 생성 방법{ARTICLE GENERATION METHOD USING THE DECISION TREE}[0001] ARTICLE GENERATION METHOD USING THE DECISION TREE [0002]

본 발명은 의사결정트리를 이용한 기사 생성방법에 관한 것으로, 더욱 상세하게는 의사결정트리를 이용하여 텍스트를 검출해 내는 의사결정트리를 이용한 기사 생성 방법에 관한 것이다.The present invention relates to an article generating method using a decision tree, and more particularly, to an article generating method using a decision tree for detecting text using a decision tree.

최근 들어 기사를 작성하기 위하여 사용되는 배경 데이터의 양이 엄청나게 많아짐에 따라 사람이 일일이 읽어보고 기사를 분류하는 것은 분류에 걸리는 시간 및 데이터 가공 속도가 느릴 뿐만 아니라 판단의 오류가 발생 할 수도 있다. In recent years, as the amount of background data used to create an article has increased enormously, it is not only slow in the time taken for classification and data processing, but also may cause a judgment error when a person reads individual articles and classifies articles.

이러한 작업에서 발생하는 실수를 줄이고 시간과 인력 비용을 절감 할 수 있도록 하기 위해서 제공되는 종래의 자동 기사 생성 방법으로는, 문장을 구성하는데 있어 틀에 단순히 데이터베이스에 저장되어 있는 데이터의 값을 포함시키는 방법으로 기사가 생성되기는 하나, 이는 단순히 데이터베이스에 저장되어 있는 데이터 값을 포함시킨 것으로 그 데이터 값을 분석하여 기사에 필요한 텍스트를 이용하는 기사다운 기사를 생성하기에는 역부족이었다. Conventional automatic article generation methods, which are provided to reduce the mistakes that occur in such jobs and reduce time and manpower costs, include a method of simply including a value of data stored in a database in a frame in constructing a sentence , But it simply contains data values stored in the database, and it was not enough to analyze the data values to generate article articles using the text required for the articles.

따라서 모든 기사가 같은 형식을 유지하였으며 기사가 모두 같은 느낌을 주는 문제점이 있었다.Therefore, all the articles maintained the same format, and the articles all had the same feeling.

대한민국 공개특허공보 제 10-2006-0004909 호(공개일자: 2006년 01월 16일, 발명의 명칭: 시맨틱 지식의 검색, 관리, 포착, 공유, 발견, 전달 및프리젠테이션 시스템 및 방법, 출원인: 너바나, 인코퍼레이티드)Korean Patent Application No. 10-2006-0004909 (Publication Date: Jan. 16, 2006 Title of invention: search, management, capture, sharing, discovery, delivery and presentation system and method of semantic knowledge Applicant: Nirvana , Incorporated)

따라서 본 발명이 이루고자 하는 기술적 과제는 별도로 사람의 작업이 없이 손쉽게 완성도 높은 기사가 생성될 수 있도록 기존 데이터와 의사결정트리를 활용 하여 검출한 데이터를 조합하여 완전한 문장으로 생성하는 의사결정트리를 이용한 기사 생성 방법을 제공하는 데 있다.SUMMARY OF THE INVENTION Accordingly, the present invention has been made keeping in mind the above problems occurring in the prior art, and it is an object of the present invention to provide an apparatus and method for generating a complete sentence by combining detected data using existing data and a decision tree, And to provide a method of generating the same.

본 발명의 한 특징에 따른 의사결정트리를 이용한 기사 생성방법은, 의사결정트리를 학습시키기 위한 학습데이터를 수집하는 단계; 상기 수집된 학습데이터는 데이터베이스에 저장이 가능하고 수집된 데이터를 의사결정트리가 학습하기 용이하게 수치 데이터로 바꾸어 주는 학습데이터 가공하는 단계; 상기 가공한 학습데이터를 거친 데이터를 학습하여 의사결정트리를 생성하고, 완성된 의사결정트리에 대한 타당성을 판단하는 단계; 및 상기 의사결정트리를 활용하여 검출된 텍스트와 기존 데이터를 조합하여 기사를 생성하는 단계;를 포함하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a method of generating an article using a decision tree, the method comprising: collecting learning data for learning a decision tree; Processing the collected learning data so that the collected learning data can be stored in a database and converting the collected data into numerical data for easy learning by a decision tree; Generating a decision tree by learning data processed through the processed learning data, and determining the validity of the completed decision tree; And generating an article by combining the detected text and existing data using the decision tree.

상기 의사결정트리를 학습시키기 위한 학습데이터는 오픈API 및 파싱을 통하여 수집하는 것을 특징으로 한다.And learning data for learning the decision tree is collected through an open API and parsing.

이러한 특징에 따르면, 의사결정트리를 이용한 기사를 자동적으로 생산하는 과정 중에서 수집할 수 없는 텍스트를 의사결정트리를 이용하여 검출하여 기사를 작성함으로써, 단시간에 기사를 생성할 뿐만 아니라 별도의 작업 없이도 완성도 높은 기사를 생성할 수 있는 효과가 있다.According to this feature, in the process of automatically producing an article using a decision tree, text that can not be collected is detected by using a decision tree to create an article, thereby generating an article in a short time, It has the effect of generating high articles.

도 1은 본 발명의 일 실시예에 따른 의사결정트리를 이용한 기사 생성 방법의 흐름도이다.1 is a flowchart of an article generating method using a decision tree according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

그러면 본 발명의 한 실시예에 따른 의사결정트리를 이용한 기사 생성방법에 대하여 설명한다.A method of generating an article using a decision tree according to an embodiment of the present invention will now be described.

도 1은 본 발명의 한 실시예에 따른 의사결정트리를 이용한 기사 생성방법의흐름도이다.1 is a flowchart of an article generating method using a decision tree according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 의사결정트리를 이용한 기사 생성방법은, 자동 기사 생성의 과정에서 필요로 하는 텍스트에 대해 기존 데이터를 분석하여 자동으로 텍스트를 검출하여 별도의 처리 시간과 인력 비용을 들이지 않고 손쉽게 기사를 완성할 수 있도록 하기 위한 의사결정트리를 이용한 기사 생성 방법에 관한 것으로, 의사결정트리를 학습시키기 위한 학습데이터는 오픈API 및 파싱을 통한 학습데이터를 수집하는 단계(S100), 상기 단계(S100)에서 수집된 데이터는 데이터베이스에 저장이 가능하고 수집된 데이터를 의사결정트리가 학습하기 용이하게 수치 데이터로 바꾸어주는 학습 데이터 가공하는 단계(S200), 상기의 학습데이터 가공단계(S200)를 거친 데이터를 학습하여 의사결정트리를 생성하고(S300), 완성된 의사결정트리에 대한 타당성을 판단하는 단계(S400)를 통하여 의사결정트리의 완성도를 확인하고, 상기의 의사결정트리 타당성 판단하는 단계(S400)에서 통과한 의사결정트리를 활용하여(S500) 검출된 텍스트와 기존 데이터를 조합하여 기사를 생성 하는 단계(S600)를 포함한다.Referring to FIG. 1, an article generating method using a decision tree of the present invention analyzes existing data of a text required in the process of generating an automatic article, automatically detects a text, The learning data for learning a decision tree includes a step of collecting learning data through an open API and parsing (S100), a step of collecting learning data through an open API and parsing, The data collected in the step S100 may be stored in a database, and a learning data processing step S200 may be performed to convert the collected data into numerical data so that the decision tree can be easily learned. In the learning data processing step S200, (S300), and judges the validity of the completed decision tree The completion of the decision tree is confirmed through step S400 and the decision tree validity is determined using the decision tree passed in step S400, (S600).

상기한 방법의 학습 데이터 수집과정(S100)은 웹상에 존재하는 데이터를 오픈API이용 및 데이터를 파싱하여 데이터베이스에 저장하는 것으로, 데이터를 가져오는데 있어 프로그램 도구는 상관없으며 학습 데이터 가공과정(S200)을 거치더라도 기존의 수집된 데이터는 기사에 사용될 수 있으므로 그대로의 상태로 데이터베이스에 저장한다.In the learning data collection process S100 of the above method, the data existing on the web is parsed using the open API and the data is stored in the database. The program tool for fetching data does not matter, Even if you do, existing collected data can be used in an article, so it is stored in the database as it is.

또한, 상기 학습 데이터 수집과정(S100)은 의사결정트리 생성과정(S300)에 사용하기 위해 필요한 데이터를 수집하는 과정으로 수치데이터의 변화 및 같은 텍스트의 반복과 같은 특징이 존재하는 데이터를 중심으로 수집하여 학습 데이터 가공(S200) 작업에 오류를 감소시킬 수 있다.The learning data collection step S100 is a step of collecting data necessary for use in the decision tree generation step S300. The learning data collection step S100 is a step of collecting data necessary for use in the decision tree generation step S300, Thereby reducing errors in the learning data processing (S200) operation.

상기 학습 데이터 가공단계(S200)에서의 작업은 의사결정트리 생성과정(S300)에 맞추어 수집한 데이터를 수치 데이터로 변환시키는 알고리즘을 필요로 하는 작업이다. 이 때 알고리즘에 의해 변환된 수치 데이터의 종류는 10개 이하로 설정하여 데이터 반복의 정도를 판단할 수 있다.The work in the learning data processing step (S200) is a task that requires an algorithm for converting data collected in accordance with the decision tree generation step (S300) into numerical data. In this case, the number of types of numerical data converted by the algorithm can be set to 10 or less so that the degree of data repetition can be determined.

상기 수치 데이터로 변환시키는 학습 데이터 가공단계(S200)를 거친 데이터를 기반으로 의사결정트리 생성(S300)작업을 진행한다. And a decision tree generation step (S300) is performed on the basis of the data having been subjected to the learning data processing step (S200) for converting the data into the numerical data.

이 때 완성된 의사결정트리는 의사결정트리 타당성 판단(S400)작업에 의해 미리 설정된 기준을 만족해야 채택이 된다. 본 실시예에서는 100개의 표본으로 테스트를 시행하여 신뢰도 95%이상이 되는 경우에는 채택을 하고, 95%보다 적을 경우에는 다시 학습 데이터 가공(S200)작업을 거쳐 의사결정트리 생성(S300)작업을 반복해서 95%이상이 될 경우에는 채택을 하게 된다.At this time, the completed decision tree satisfies the predetermined criteria by the decision tree validity determination operation (S400). In the present embodiment, 100 test samples are used. If the reliability is 95% or more, adoption is made. If the reliability is less than 95%, a decision tree is generated (S200) If it is more than 95%, adoption will be done.

상기 의사결정트리 생성단계(S300)을 거쳐 생성된 의사결정트리를 활용하는 방법은 조건에 맞추어 분류가 진행되는 것을 특징으로 하는 기계학습의 대표적인 방법으로 학습데이터의 흐름을 파악하여 클래스 값을 검출해 내는 것을 특징으로 한다.The method of utilizing the decision tree generated through the decision tree generation step (S300) is a typical method of machine learning characterized in that classification is performed according to the condition, and the class value is detected by grasping the flow of the learning data .

기사 생성 단계(S600)은 검출한 클래스 값에 해당하는 텍스트와 기존 기사에 필요한 데이터 값을 만들어 둔 문장 틀에 조합하여 기사를 완성시키는 것을 특징으로 한다. The article generating step S600 is characterized by combining the text corresponding to the detected class value and the data values necessary for the existing article into a sentence frame created to complete the article.

이 때 문장의 틀은 가능한 다양하게 만들어 주어야 기사의 다양한 형식의 생성이 가능하다.At this time, the sentence frame should be made as diverse as possible so that various types of articles can be created.

이러한 본 발명의 방법이 적용된 의사결정트리를 이용한 기사 생성방법은 자동 기사 생성의 과정에서 필요로 하는 텍스트에 대해 기존 데이터를 분석하여 자동으로 텍스트를 검출하여 별도의 처리 시간과 인력 비용을 들이지 않고 손쉽게 기사를 완성할 수 있도록 한 것이다.The method of generating an article using a decision tree to which the method of the present invention is applied can automatically detect text by analyzing existing data on a text required in the process of generating an automatic article, So that the article can be completed.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (2)

의사결정트리를 학습시키기 위한 학습데이터를 수집하는 단계;
상기 수집된 학습데이터는 데이터베이스에 저장이 가능하고 수집된 데이터를 의사결정트리가 학습하기 용이하게 수치 데이터로 바꾸어 주는 학습데이터 가공하는 단계;
상기 가공한 학습데이터를 거친 데이터를 학습하여 의사결정트리를 생성하고, 완성된 의사결정트리에 대한 타당성을 판단하는 단계; 및
상기 의사결정트리를 활용하여 검출된 텍스트와 기존 데이터를 조합하여 기사를 생성하는 단계;를 포함하는 것을 특징으로 하는 의사결정트리를 이용한 기사 생성방법.
Collecting learning data for learning a decision tree;
Processing the collected learning data so that the collected learning data can be stored in a database and converting the collected data into numerical data for easy learning by a decision tree;
Generating a decision tree by learning data processed through the processed learning data, and determining the validity of the completed decision tree; And
And generating an article by combining the detected text and the existing data using the decision tree, and generating an article using the decision tree.
제 1항에 있어서,
상기 의사결정트리를 학습시키기 위한 학습데이터는 오픈API 및 파싱을 통하여 수집하는 것을 특징으로 하는 의사결정트리를 이용한 기사 생성방법.
The method according to claim 1,
Wherein learning data for learning the decision tree is collected through an open API and parsing.
KR1020170018161A 2017-02-09 2017-02-09 Article generation method using the decision tree KR101904643B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170018161A KR101904643B1 (en) 2017-02-09 2017-02-09 Article generation method using the decision tree

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170018161A KR101904643B1 (en) 2017-02-09 2017-02-09 Article generation method using the decision tree

Publications (2)

Publication Number Publication Date
KR20180092463A true KR20180092463A (en) 2018-08-20
KR101904643B1 KR101904643B1 (en) 2018-10-05

Family

ID=63443237

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170018161A KR101904643B1 (en) 2017-02-09 2017-02-09 Article generation method using the decision tree

Country Status (1)

Country Link
KR (1) KR101904643B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145518A (en) * 2018-10-11 2019-01-04 莫毓昌 A kind of Large Complex Equipment reliability decision graph models building method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060004909A (en) 2003-02-14 2006-01-16 너바나, 인코퍼레이티드. System and method for semantic knowledge retrieval, management, capture, sharing, discovery, delivery and presentation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101377114B1 (en) 2012-10-11 2014-03-24 한양대학교 에리카산학협력단 News snippet generation system and method for generating news snippet

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060004909A (en) 2003-02-14 2006-01-16 너바나, 인코퍼레이티드. System and method for semantic knowledge retrieval, management, capture, sharing, discovery, delivery and presentation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145518A (en) * 2018-10-11 2019-01-04 莫毓昌 A kind of Large Complex Equipment reliability decision graph models building method
CN109145518B (en) * 2018-10-11 2022-10-04 莫毓昌 Method for constructing reliability decision graph model of large-scale complex equipment

Also Published As

Publication number Publication date
KR101904643B1 (en) 2018-10-05

Similar Documents

Publication Publication Date Title
CN107885999B (en) Vulnerability detection method and system based on deep learning
TWI746914B (en) Detective method and system for activity-or-behavior model construction and automatic detection of the abnormal activities or behaviors of a subject system without requiring prior domain knowledge
CN109344237B (en) Information processing method and device for man-machine interaction
KR20190063839A (en) Method and System for Machine Vision based Quality Inspection using Deep Learning in Manufacturing Process
CN108763931A (en) Leak detection method based on Bi-LSTM and text similarity
CN109492106B (en) Automatic classification method for defect reasons by combining text codes
CN110263009B (en) Method, device and equipment for generating log classification rule and readable storage medium
CN107004141A (en) To the efficient mark of large sample group
CN105975392A (en) Duplicated code detection method and device based on abstract syntax tree
CN112733156B (en) Intelligent detection method, system and medium for software vulnerability based on code attribute graph
CN101196899A (en) Method and system for processing the input in an XML form
CN112364631B (en) Chinese grammar error detection method and system based on hierarchical multitask learning
CN113409555B (en) Real-time alarm linkage method and system based on Internet of things
JP2021120914A5 (en)
KR102275046B1 (en) Artificial intelligence model system and method for property prediction by applying feature engineering algorithm of material composition-process
KR101904643B1 (en) Article generation method using the decision tree
Bernedixen Automated bottleneck analysis of production systems: increasing the applicability of simulation-based multi-objective optimization for bottleneck analysis within industry
CN113590421A (en) Log template extraction method, program product, and storage medium
WO2003014966A2 (en) An apparatus and method for extracting information from a formatted document
US20230325640A1 (en) Artificial intelligence-based anomaly detection and prediction
JP6235945B2 (en) Source code generation and provision apparatus, and source code generation and provision method
CN111898349A (en) Method and system for producing test detection form of highway water transport engineering
CN103778210A (en) Method and device for judging specific file type of file to be analyzed
Masood et al. Quality control in hard disc drive manufacturing using pattern recognition technique
CN105122157A (en) Program editing device, program editing method and program editing program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right