KR20190104656A - Method and apparatus for extracting title on text - Google Patents

Method and apparatus for extracting title on text Download PDF

Info

Publication number
KR20190104656A
KR20190104656A KR1020180024995A KR20180024995A KR20190104656A KR 20190104656 A KR20190104656 A KR 20190104656A KR 1020180024995 A KR1020180024995 A KR 1020180024995A KR 20180024995 A KR20180024995 A KR 20180024995A KR 20190104656 A KR20190104656 A KR 20190104656A
Authority
KR
South Korea
Prior art keywords
text
title
extracting
look
machine learning
Prior art date
Application number
KR1020180024995A
Other languages
Korean (ko)
Inventor
최성우
Original Assignee
최성우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 최성우 filed Critical 최성우
Priority to KR1020180024995A priority Critical patent/KR20190104656A/en
Publication of KR20190104656A publication Critical patent/KR20190104656A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06F17/2745
    • G06K9/00469
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method and a device for extracting a title from a text. The method for extracting a title from a text comprises: a step of extracting keywords, a core, from a text comprising a natural language based on term frequency (TF)-inverse document frequency (IDF); and a step of classifying the category of the text and extracting a title of the text by using machine learning and natural language processing. In addition, data set for the machine learning is generated into a look up table based on embedding. The machine learning learns a weight value in the look up table through convolution neural network (CNN). Moreover, the category can be determined by artificial neural network (ANN) learning with the look up table as an input. Therefore, the method and the device for extracting a title from a text can generate an accurate title for a text based on artificial intelligence.

Description

텍스트에서 제목을 추출하는 방법 및 장치{Method and apparatus for extracting title on text}Method and apparatus for extracting title on text}

본 발명은 텍스트에서 제목을 추출하는 방법 및 장치에 관한 것이다. 보다 상세하게는 인공 지능을 기반으로 텍스트에서 제목을 추출하기 위한 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for extracting a title from text. More specifically, the present invention relates to a method and apparatus for extracting a title from text based on artificial intelligence.

기계 번역은 자연어 처리 및 인공지능 분야에서 가장 어려운 태스크 중의 하나로 인식되어 왔다. 이는 정확한 번역이란 텍스트에 대한 이해 없이는 불가능하기 때문이다. 그러한 이유로 연구자들은 한때 기계번역에 대한 부정적인 결론에 도달하기도 하였다. Machine translation has been recognized as one of the most difficult tasks in the field of natural language processing and artificial intelligence. This is because accurate translation is impossible without an understanding of the text. For that reason, researchers once reached a negative conclusion about machine translation.

지금까지 기계 번역에 대한 다양한 방법이 연구되어 왔으며, 이들 연구에서는 주로 두 언어에 대한 어휘나 구의 대역사전, 숙어사전, 개별 언어의 문법 혹은 변환 규칙 및 변환 사전, 문장 생성에 관련된 지식, 의미나 실세계 지식, 도메인에 적합한 지식 등 번역의 방식과 목적에 따라 다양한 형태의 지식과 알고리즘이 적용되었으며 그 대부분은 방대한 양의 수작업에 의존적이었다.So far, various methods of machine translation have been studied, and these studies mainly include vocabulary or phrase bands, idiom dictionaries, idioms, grammar or translation rules of individual languages, and translation dictionaries, knowledge, meaning or real world related to sentence generation. Various forms of knowledge and algorithms were applied according to the method and purpose of translation, such as knowledge and knowledge appropriate to the domain, and most of them depended on the vast amount of manual work.

최근 이러한 기계 번역이 아닌 인공 지능 기반의 텍스트 번역/대화 처리 기술이 연구되고 도입되고 있다. 자연어 대화처리 기술은 사람과 기계 간의 대화를 처리하는 기술로써 입력 대화체 문장에 대해 발화자의 의도를 이해하기 위한 대화 이해 기술, 자연스러운 대화 유도를 위한 대화모델링 기술, 외국어 교육 등에 적용할 수 있는 대화 오류 교정 기술 등으로 구성되어 있다. 대화 이해 기술은 사용자 대화 의도를 인식하는 기술로 도메인 독립적인 통계적 기반 방법이 대세로 사용된다.Recently, text translation / conversation processing technology based on artificial intelligence rather than machine translation has been studied and introduced. Natural language conversation processing technology is a technology that processes conversations between humans and machines. Conversation understanding skills to understand the speaker's intention about input dialogue sentences, conversation modeling techniques for natural conversation induction, and dialogue error correction that can be applied to foreign language education. Technology and the like. Conversation understanding technique is a technique for recognizing user conversation intention, and domain-independent statistical based method is widely used.

인공 지능 기술은 최근 자연어 처리, 딥러닝 등을 활용하는 외부인지, 논리/추리/예측 등 다방면에서 진전을 보이고 있다. 깊은 구조의 인공신경망을 통해 주어진 대량의 데이터로부터 특징을 자동적이고 계층적으로 학습하는 딥러닝이 주목받고 있다. 딥러닝 기법은 출력값 없이도 입력 데이터의 비선형적 변환을 반복하며 하위층의 단순한 특징들로부터 상위층의 보다 복잡하고 구조적인 형태의 특징들까지를 추출해내는 비지도학습이 가능한 것이 특징이다.Artificial intelligence technology has recently made progress in various fields such as external recognition, logic, reasoning, and prediction using natural language processing and deep learning. Deep learning, which learns features hierarchically and automatically from a large amount of data, is gaining attention through a deep artificial neural network. The deep learning technique repeats non-linear transformation of input data without output values, and it is possible to learn unsupervised from extracting simple features of lower layers to more complex and structural features of upper layers.

구글, 마이크로소프트(MS), IBM 등 글로벌 기업은 물론 네이버 등 국내 기업들까지 자연어 처리 기술을 이용한 인공 지능 서비스를 속속 선보이고 있는 상황이다. 인공 지능 서비스 전쟁의 이면에 자연어 처리 기술에 대한 경쟁이 가장 핵심적인 기술로 떠오르고 있다. 특히, AI비서를 활용하여 사용자의 명령에 최적화된 답변을 제시하는 것에 목적이 가장 크다. 전 세계는 제4차 산업혁명 시대의 신성장원천으로 전 산업의 지능화를 통해 차별화된 부가가치를 제공하는 인공지능 기술에 주목하고 있다. 인공 지능 기술은 고도의 생산성·효율성을 제공하여 기존 생산요소(노동, 자본 등)를 압도하는 산업 구조 변화를 유발하며, 무인화·자동화를 통한 경제·고용의 구조적 변혁을 야기할 것으로 예상된다. Global companies such as Google, Microsoft, and IBM, as well as domestic companies such as Naver, are introducing artificial intelligence services using natural language processing technology one after another. Behind the AI service war, competition for natural language processing technology is emerging as the core technology. In particular, the objective is to present the answer optimized by the user's command by using the AI assistant. The world is paying attention to artificial intelligence technology that provides differentiated added value through intelligentization of all industries as a new growth source in the fourth industrial revolution. Artificial intelligence technology is expected to provide a high level of productivity and efficiency, leading to industrial structural changes that overwhelm existing production factors (labor, capital, etc.) and to bring about structural transformation of the economy and employment through unmanned and automated.

현재 다양한 디지털 컨텐츠들이 많아짐에 따라 사용자들이 이러한 디지털 컨텐츠를 제공받을 수 있다. 사용자들은 디지털 컨텐츠의 제목을 통해 디지털 컨텐츠를 제공받게 되는데, 많은 컨텐츠 생성자들이 허위 제목, 낚시성 제목을 통해 사용자의 컨텐츠 선택을 유도하는 것이 문제가 되고 있다.As various digital contents are increasing, users can be provided with such digital contents. Users are provided with digital content through the title of the digital content, which is a problem that many content creators induce the user's content selection through the false title, fishing title.

본 발명은 상술한 문제점을 모두 해결하는 것을 그 목적으로 한다.The object of the present invention is to solve all the above-mentioned problems.

또한, 본 발명은, 인공 지능을 기반으로 텍스트에 대한 정확한 제목을 생성하는 것을 다른 목적으로 한다.Another object of the present invention is to generate an accurate title for text based on artificial intelligence.

또한, 본 발명은, 문단에서 의미있는 키워드, 키센텐스 분석을 통해 자동적으로 문단의 주제를 추출하는 것을 다른 목적으로 한다.In addition, another object of the present invention is to automatically extract the subject of a paragraph through the analysis of meaningful keywords and keycentens in the paragraph.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.Representative configuration of the present invention for achieving the above object is as follows.

본 발명의 일 실시예에 따르면, 텍스트에서 제목을 추출하는 방법은 자연어로 된 텍스트 안에서 핵심이 되는 키워드를 TF(term frequency)-IDF(inverse document frequency)를 기반으로 추출하는 단계와 머신 러닝과 자연어 처리를 이용하여 상기 텍스트의 카테고리가 분류하고 상기 텍스트의 제목을 추출하는 단계를 포함할 수 있되, 상기 머신 러닝을 위한 데이터 셋은 임베딩(Embedding) 기반으로 룩업테이블(Look up table)로 생성되고, 상기 머신 러닝은 CNN(convolution neural network)을 통하여 상기 룩 업 테이블(Look up table)에서 가중치를 학습하고, 상기 카테고리는 상기 룩 업 테이블(Look up table)을 입력으로 하는 ANN(artificial neural network) 학습을 통해 결정될 수 있다.According to an embodiment of the present invention, a method of extracting a title from text includes extracting a key keyword in a text in natural language based on term frequency (TF) -inverse document frequency (IDF), and machine learning and natural language. And classifying the category of the text using the processing and extracting the title of the text, wherein the data set for the machine learning is generated as a look up table based on embedding. The machine learning learns weights in the look up table through a convolution neural network (CNN), and the category learns an artificial neural network (ANN) in which the look up table is input. It can be determined through.

본 발명에 의하면, 인공 지능을 기반으로 텍스트에 대한 정확한 제목이 생성될 수 있다.According to the present invention, an accurate title for text may be generated based on artificial intelligence.

또한, 본 발명에 의하면, 문단에서 의미있는 키워드, 키센텐스 분석을 통해 자동적으로 문단의 주제를 추출할 수 있다.In addition, according to the present invention, it is possible to automatically extract the topic of the paragraph through the analysis of meaningful keywords in the paragraph, Keysentens.

도 1은 본 발명의 실시예에 따른 텍스트에서 제목을 추출하는 방법을 나타낸 개념도이다.
도 2는 본 발명의 실시예에 따른 텍스트에서 제목을 추출하는 방법을 나타낸 개념도이다.
1 is a conceptual diagram illustrating a method of extracting a title from text according to an embodiment of the present invention.
2 is a conceptual diagram illustrating a method of extracting a title from text according to an embodiment of the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여 지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.DETAILED DESCRIPTION The following detailed description of the invention refers to the accompanying drawings that show, by way of illustration, specific embodiments in which the invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention. It should be understood that the various embodiments of the present invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be implemented with changes from one embodiment to another without departing from the spirit and scope of the invention. In addition, it is to be understood that the location or arrangement of individual components within each embodiment may be changed without departing from the spirit and scope of the invention. Accordingly, the following detailed description is not to be taken in a limiting sense, and the scope of the present invention should be taken as encompassing the scope of the claims of the claims and all equivalents thereof. Like reference numerals in the drawings indicate the same or similar elements throughout the several aspects.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, various preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily implement the present invention.

도 1은 본 발명의 실시예에 따른 텍스트에서 제목을 추출하는 방법을 나타낸 개념도이다. 1 is a conceptual diagram illustrating a method of extracting a title from text according to an embodiment of the present invention.

도 1에서는 뉴스, 논문 등과 같은 장문에서 자연어 텍스트를 분석하여 핵심 키워드를 추출하고, 카테고리를 분류하며 최종적으로 제목을 개인의 문장 선호도에 맞추어 제시하기 위한 방법이 개시된다.In FIG. 1, a method for extracting key keywords, classifying categories, and finally presenting a title according to a sentence preference of an individual is disclosed by analyzing natural language text in a long text such as news and a paper.

본 발명의 실시예에 따르면 웹 브라우저 확장 프로그램을 기반으로 하며 글의 구조와 문장의 성격을 분석하여 요약하고 핵심 키워드를 조합하여 텍스트에 대한 적절한 제목을 제시할 수 있다. 최적의 제목 생성 이전 단계에서 사용자들의 기호에 맞게 제목을 선택할 수도 있다. 여기서 선택된 다수의 제목 유형은 빅 데이터를 활용한 기계 학습을 이용해 개인 맞춤형 제목을 최종적으로 제시할 수 있다.According to an embodiment of the present invention, a web browser extension program may be used to analyze and summarize the structure of a text and the nature of a sentence, and present a proper title for a text by combining key keywords. Optimal Title Creation In the previous step, you can choose a title to suit your preferences. Multiple title types selected here can finally present personalized titles using machine learning using big data.

자연어로 된 글 안에서 핵심이 되는 키워드를 TF(term frequency)-IDF(inverse document frequency)를 기반으로 추출할 수 있다. 머신 러닝과 자연어 처리를 이용하여 기사의 카테고리가 분류될 수 있다. 제목의 빅데이터를 기반으로 머신 러닝을 적용하여 유의미한 최적의 제목이 생성될 수 있다. Key keywords in natural language can be extracted based on term frequency (TF) -inverse document frequency (IDF). Machine learning and natural language processing can be used to categorize articles. By applying machine learning based on the big data of the title, a meaningful optimal title can be generated.

또한, 모인 데이터를 이용하여 사용자에게 맞는 제목에 대한 생성이 수행될 수 있다. 인터넷에 공개되어 있는 뉴스 데이터 집합은 그 기사의 작성 시기가 오래되어 신뢰성의 영향이 있기 때문에 별도의 데이터 셋을 구할 필요가 있다. 데이터 셋은 뉴욕 타임즈(New York Times)에 공개된 API(Application Programming Interface)를 활용하여 최근 5년의 뉴스 URL(Uniform Resource Locator)를 가져온 뒤 웹 페이지 파싱(parsing) 기능을 가능하게 해주는 'beautiful soup' python 패키지를 이용해 뉴스 본문을 가져올 수 있다. 입력 받은 뉴스 기사를 룩업테이블(Look up table)로 만들어주기 위해 임베딩(Embedding)을 시켜줄 수 있다. 기존에 있는 라이브러리(workd_to_vector)를 사용하지 않고, CNN(convolution neural network)을 통하여 룩 업 테이블(Look up table)에서 가중치를 학습한다. 임베딩(Embedding)의 결과 룩업테이블(Look up table)을 입력(input)으로 하여 ANN(artificial neural network) 학습을 통해 뉴스 카테고리를 분류하는 학습 모델 구현한다. In addition, generation of a title suitable for a user may be performed using the collected data. News datasets that are open to the Internet require a separate dataset because the author's time to write the articles has long affected the reliability. The data set utilizes the Application Programming Interface (API) published by the New York Times to get a 'beautiful soup' that enables the parsing of web pages after retrieving the last five years' news Uniform Resource Locator (URL). 'You can get the news body using the python package. Embedding can be done to make the entered news articles into a look up table. Instead of using an existing library (worked_to_vector), weights are learned from a look up table through a convolution neural network (CNN). As a result of embedding look up table as input, we implement learning model to classify news category through ANN (artificial neural network) learning.

또한, 텍스트(Text)를 입력받아 RNN(Recurrent Neural Networks)의 확장 모델인 시퀀스 투 시퀀스(Sequence To Sequence) 모델을 이용하여 LSTM(Long Short-Term Memory), Attention, Bidirectional 등을 이용하여 제목을 추출할 수 있다.In addition, the title is extracted using Long Short-Term Memory (LSTM), Attention, Bidirectional, etc., using the Sequence To Sequence model, which is an extension model of Recurrent Neural Networks (RNN) by receiving text. can do.

즉, 본 발명의 실시예에 따른 텍스트에서 제목을 추출하는 방법은, 자연어로 된 텍스트 안에서 핵심이 되는 키워드를 TF(term frequency)-IDF(inverse document frequency)를 기반으로 추출하고, 머신 러닝과 자연어 처리를 이용하여 상기 텍스트의 카테고리가 분류하고 상기 텍스트의 제목을 추출할 수 있다.That is, the method of extracting a title from the text according to an embodiment of the present invention, extracts a key keyword in the text in natural language based on term frequency (IDF) -inverse document frequency (IDF), machine learning and natural language Processing may be used to categorize the text category and extract the title of the text.

머신 러닝을 위한 데이터 셋은 임베딩(Embedding) 기반으로 룩업테이블(Look up table)로 생성되고, 머신 러닝은 CNN(convolution neural network)을 통하여 상기 룩 업 테이블(Look up table)에서 가중치를 학습하고, 카테고리는 상기 룩 업 테이블(Look up table)을 입력으로 하는 ANN(artificial neural network) 학습을 통해 결정될 수 있다.A data set for machine learning is generated as a look up table based on embedding, and machine learning learns weights from the look up table through a convolution neural network (CNN), The category may be determined through learning an artificial neural network (ANN) using the look up table as an input.

도 2는 본 발명의 실시예에 따른 텍스트에서 제목을 추출하는 방법을 나타낸 개념도이다. 2 is a conceptual diagram illustrating a method of extracting a title from text according to an embodiment of the present invention.

도 2를 참조하면, 본 발명의 실시예에 따르면 웹 브라우저 확장 프로그램을 기반으로 하며 글의 구조와 문장의 성격을 분석하여 요약하고 핵심 키워드를 조합하여 텍스트에 대한 적절한 제목을 제시할 수 있다. 최적의 제목 생성 이전 단계에서 사용자들의 기호에 맞게 제목을 선택할 수도 있다. 여기서 선택된 다수의 제목 유형은 빅 데이터를 활용한 기계 학습을 이용해 개인 맞춤형 제목을 최종적으로 제시할 수 있다.Referring to FIG. 2, according to an embodiment of the present invention, a web browser extension program may be used to analyze and summarize the structure of a sentence and the nature of a sentence, and present a proper title for a text by combining key keywords. Optimal Title Creation In the previous step, you can choose a title to suit your preferences. Multiple title types selected here can finally present personalized titles using machine learning using big data.

키워드 추출부는 자연어로 된 글 안에서 핵심이 되는 키워드를 TF(term frequency)-IDF(inverse document frequency)를 기반으로 추출할 수 있다. The keyword extractor may extract a key keyword in a natural language based on term frequency (TF) -inverse document frequency (IDF).

카테고리 분류부는 머신 러닝과 자연어 처리를 이용하여 기사의 카테고리가 분류될 수 있다. The category classifier may classify the article categories using machine learning and natural language processing.

머신러닝부는 제목의 빅데이터를 기반으로 머신 러닝을 적용하여 유의미한 최적의 제목이 생성될 수 있다. 또한, 머신러닝부에서는 모인 데이터를 이용하여 사용자에게 맞는 제목에 대한 생성이 수행될 수 있다. 인터넷에 공개되어 있는 뉴스 데이터 집합은 그 기사의 작성 시기가 오래되어 신뢰성의 영향이 있기 때문에 별도의 데이터 셋을 구할 필요가 있다. 데이터 셋은 뉴욕 타임즈(New York Times)에 공개된 API(Application Programming Interface)를 활용하여 최근 5년의 뉴스 URL(Uniform Resource Locator)를 가져온 뒤 웹 페이지 파싱(parsing) 기능을 가능하게 해주는 'beautiful soup' python 패키지를 이용해 뉴스 본문을 가져올 수 있다. 입력 받은 뉴스 기사를 룩업테이블(Look up table)로 만들어주기 위해 임베딩(Embedding)을 시켜줄 수 있다. 기존에 있는 라이브러리(workd_to_vector)를 사용하지 않고, CNN(convolution neural network)을 통하여 룩 업 테이블(Look up table)에서 가중치에 대한 학습이 수행될 수 있다. The machine learning unit may generate a meaningful optimal title by applying machine learning based on the big data of the title. In addition, the machine learning unit may generate a title suitable for the user by using the collected data. News datasets that are open to the Internet require a separate dataset because the author's time to write the articles has long affected the reliability. The data set utilizes the Application Programming Interface (API) published by the New York Times to get a 'beautiful soup' that enables the parsing of web pages after retrieving the last five years' News Uniform Resource Locator (URL). 'You can get the news body using the python package. Embedding can be done to make the entered news articles into a look up table. Instead of using an existing library (worked_to_vector), weight learning may be performed in a look up table through a convolution neural network (CNN).

카테고리 분류부에서는 임베딩(Embedding)의 결과 룩업테이블(Look up tabl)을 입력(input)으로 하여 ANN(artificial neural network) 학습을 통해 뉴스 카테고리를 분류하는 학습 모델이 구현될 수 있다. In the category classification unit, a learning model for classifying news categories through ANN (artificial neural network) learning may be implemented by using a look up table as a result of embedding.

머신러닝부에서는 텍스트(Text)를 입력받아 RNN(Recurrent Neural Networks)의 확장 모델인 시퀀스 투 시퀀스(Sequence To Sequence) 모델을 이용하여 LSTM(Long Short-Term Memory), Attention, Bidirectional 등을 이용하여 제목을 추출할 수 있다.The machine learning unit receives text and uses the Short To Term Memory (LSTM), Attention, Bidirectional, etc., using a Sequence To Sequence (LSN) model, an extension model of Recurrent Neural Networks (RNN). Can be extracted.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.Embodiments according to the present invention described above can be implemented in the form of program instructions that can be executed by various computer components and recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floptical disks. medium) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be modified with one or more software modules to perform the processing according to the present invention, and vice versa.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.Although the present invention has been described by specific matters such as specific components and limited embodiments and drawings, it is provided only to help a more general understanding of the present invention, and the present invention is not limited to the above embodiments. Those skilled in the art may make various modifications and changes from this description.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the above-described embodiments, and the scope of the spirit of the present invention is defined not only in the claims below, but also in the ranges equivalent to or equivalent to the claims. Will belong to.

Claims (1)

텍스트에서 제목을 추출하는 방법은,
자연어로 된 텍스트 안에서 핵심이 되는 키워드를 TF(term frequency)-IDF(inverse document frequency)를 기반으로 추출하는 단계; 및
머신 러닝과 자연어 처리를 이용하여 상기 텍스트의 카테고리가 분류하고 상기 텍스트의 제목을 추출하는 단계를 포함하되,
상기 머신 러닝을 위한 데이터 셋은 임베딩(Embedding) 기반으로 룩업테이블(Look up table)로 생성되고,
상기 머신 러닝은 CNN(convolution neural network)을 통하여 상기 룩 업 테이블(Look up table)에서 가중치를 학습하고,
상기 카테고리는 상기 룩 업 테이블(Look up table)을 입력으로 하는 ANN(artificial neural network) 학습을 통해 결정되는 것을 특징으로 하는 방법.
To extract a title from text,
Extracting a key keyword in text in natural language based on term frequency (TF) -inverse document frequency (IDF); And
Using machine learning and natural language processing to classify the category of text and extract the title of the text,
The data set for the machine learning is generated as a look up table based on embedding,
The machine learning learns weights from the look up table through a convolution neural network (CNN),
The category may be determined by learning an artificial neural network (ANN) using the look up table as an input.
KR1020180024995A 2018-03-02 2018-03-02 Method and apparatus for extracting title on text KR20190104656A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180024995A KR20190104656A (en) 2018-03-02 2018-03-02 Method and apparatus for extracting title on text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180024995A KR20190104656A (en) 2018-03-02 2018-03-02 Method and apparatus for extracting title on text

Publications (1)

Publication Number Publication Date
KR20190104656A true KR20190104656A (en) 2019-09-11

Family

ID=67949312

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180024995A KR20190104656A (en) 2018-03-02 2018-03-02 Method and apparatus for extracting title on text

Country Status (1)

Country Link
KR (1) KR20190104656A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222333A (en) * 2020-04-22 2020-06-02 成都索贝数码科技股份有限公司 Keyword extraction method based on fusion of network high-order structure and topic model
WO2021068684A1 (en) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 Method and apparatus for automatically generating document directory, computer device and storage medium
WO2021162260A1 (en) * 2020-02-12 2021-08-19 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
CN113392651A (en) * 2020-11-09 2021-09-14 腾讯科技(深圳)有限公司 Training word weight model, and method, device, equipment and medium for extracting core words

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068684A1 (en) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 Method and apparatus for automatically generating document directory, computer device and storage medium
WO2021162260A1 (en) * 2020-02-12 2021-08-19 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
CN111222333A (en) * 2020-04-22 2020-06-02 成都索贝数码科技股份有限公司 Keyword extraction method based on fusion of network high-order structure and topic model
CN113392651A (en) * 2020-11-09 2021-09-14 腾讯科技(深圳)有限公司 Training word weight model, and method, device, equipment and medium for extracting core words
CN113392651B (en) * 2020-11-09 2024-05-14 腾讯科技(深圳)有限公司 Method, device, equipment and medium for training word weight model and extracting core words

Similar Documents

Publication Publication Date Title
CN107609132B (en) Semantic ontology base based Chinese text sentiment analysis method
CN110298033B (en) Keyword corpus labeling training extraction system
CN107463607B (en) Method for acquiring and organizing upper and lower relations of domain entities by combining word vectors and bootstrap learning
CN109460459B (en) Log learning-based dialogue system automatic optimization method
CN110414004B (en) Method and system for extracting core information
KR20190104656A (en) Method and apparatus for extracting title on text
GB2555207A (en) System and method for identifying passages in electronic documents
Vinnarasu et al. Speech to text conversion and summarization for effective understanding and documentation
CN108038106B (en) Fine-grained domain term self-learning method based on context semantics
CN111368540B (en) Keyword information extraction method based on semantic role analysis
Armouty et al. Automated keyword extraction using support vector machine from Arabic news documents
CN112287090A (en) Financial question asking back method and system based on knowledge graph
CN112069312A (en) Text classification method based on entity recognition and electronic device
Anjum et al. Exploring humor in natural language processing: a comprehensive review of JOKER tasks at CLEF symposium 2023
Nazir et al. Toward the development of large-scale word embedding for low-resourced language
Sangeetha et al. Exploration of sentiment analysis techniques on a multilingual dataset dealing with Tamil-English reviews
CN113128199B (en) Word vector generation method based on pre-training language model and multiple word information embedding
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
Mir et al. Movie aspects identification model for aspect based sentiment analysis
Level et al. Introduction of semantic model to help speech recognition
Shalinda et al. Hate words detection among sri lankan social media text messages
Sawant et al. AI Model to Generate SQL Queries from Natural Language Instructions through Voice
JP2005025659A (en) Zero pronoun resolving method, device and program, and recording medium to which the program is recorded
Netisopakul et al. The state of knowledge extraction from text for thai language
Sagarika et al. Sarcasm discernment on social media platform