KR102466721B1 - Electronic device for converting the electronic document to the knowledge data document and the operating method thereof - Google Patents

Electronic device for converting the electronic document to the knowledge data document and the operating method thereof Download PDF

Info

Publication number
KR102466721B1
KR102466721B1 KR1020200131892A KR20200131892A KR102466721B1 KR 102466721 B1 KR102466721 B1 KR 102466721B1 KR 1020200131892 A KR1020200131892 A KR 1020200131892A KR 20200131892 A KR20200131892 A KR 20200131892A KR 102466721 B1 KR102466721 B1 KR 102466721B1
Authority
KR
South Korea
Prior art keywords
document
words
knowledge data
web document
web
Prior art date
Application number
KR1020200131892A
Other languages
Korean (ko)
Other versions
KR20220048698A (en
Inventor
이민재
안정우
Original Assignee
주식회사 한글과컴퓨터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 한글과컴퓨터 filed Critical 주식회사 한글과컴퓨터
Priority to KR1020200131892A priority Critical patent/KR102466721B1/en
Publication of KR20220048698A publication Critical patent/KR20220048698A/en
Application granted granted Critical
Publication of KR102466721B1 publication Critical patent/KR102466721B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

전자 문서를 지식 데이터 문서로 변환하는 전자 장치 및 그 동작 방법이 개시된다. 본 발명에 따른 전자 장치 및 그 동작 방법은 사용자로부터 소정의 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 인가되는 경우, 상기 전자 문서를 마크업 언어(markup language) 기반의 포맷을 갖는 웹 문서로 변환한 후 상기 웹 문서에서 중요 키워드들을 선정하고, 상기 웹 문서에 삽입되어 있는 개체들의 정보를 확인하며, 상기 웹 문서에 대한 요약문을 생성한 후 상기 웹 문서의 본문과 상기 중요 키워드들, 상기 개체들의 정보 및 상기 요약문에 대한 데이터를 포함하는 JSON(JavaScript Object Notation) 포맷 기반의 지식 데이터 문서 파일을 생성하고, 추후 사용자에 의해 상기 지식 데이터 문서 파일이 실행되는 경우, 문서의 본문, 상기 중요 키워드들, 상기 개체들의 정보 및 상기 요약문을 하나의 화면 상에 표시함으로써, 사용자가 상기 전자 문서에 대한 다양한 정보를 한눈에 확인할 수 있도록 지원할 수 있다.An electronic device that converts an electronic document into a knowledge data document and an operating method thereof are disclosed. An electronic device and its operating method according to the present invention converts a predetermined electronic document into a web document having a markup language-based format when a command for converting a predetermined electronic document into a knowledge data document is applied. After conversion, important keywords are selected from the web document, information on objects inserted into the web document is checked, and a summary of the web document is generated, and then the body of the web document, the important keywords, and the object Generates a knowledge data document file based on JSON (JavaScript Object Notation) format that includes information on and data about the summary, and when the knowledge data document file is later executed by a user, the body of the document, the important keywords , By displaying the information of the entities and the summary on one screen, it is possible to support the user to check various information about the electronic document at a glance.

Description

전자 문서를 지식 데이터 문서로 변환하는 전자 장치 및 그 동작 방법{ELECTRONIC DEVICE FOR CONVERTING THE ELECTRONIC DOCUMENT TO THE KNOWLEDGE DATA DOCUMENT AND THE OPERATING METHOD THEREOF}Electronic device for converting an electronic document into a knowledge data document and its operating method

본 발명은 전자 문서를 지식 데이터 문서로 변환하는 전자 장치 및 그 동작 방법에 대한 것이다.The present invention relates to an electronic device that converts an electronic document into a knowledge data document and an operating method thereof.

최근, 기업 등에서 전자 문서를 활용한 업무가 증가함에 따라, 사용자의 전자 문서 사용의 편의를 도모할 수 있도록 지원하는 다양한 기술들이 등장하고 있고, 이러한 기술의 발달로 인해 전자 문서 분야에서 인공지능 기술을 도입하거나 다른 서비스와의 융합 등과 같은 다양화가 시도되고 있다.Recently, as the work using electronic documents increases in companies, etc., various technologies that support the convenience of using electronic documents for users are appearing, and due to the development of these technologies, artificial intelligence technology in the electronic document field Diversification such as introduction or convergence with other services is being attempted.

보통, 전자 문서에는 다양한 정보들이 포함되어 있는데, 사용자가 이러한 정보들 중 필요한 정보만을 추출해서 활용하기 위해서는 많은 시간과 노력이 필요할 수 있다. 그렇기 때문에, 전자 문서의 여러 정보를 사전에 하나의 셋(set)으로 관리할 수 있다면, 전자 문서에 대한 활용성이 매우 커질 수 있을 것이다.In general, electronic documents include a variety of information, and a lot of time and effort may be required for a user to extract and utilize only necessary information from among such information. Therefore, if various information of an electronic document can be managed as a set in advance, the usability of the electronic document can be greatly increased.

이와 관련해서, 전자 문서에 포함된 다양한 정보들을 구조화시켜 하나의 지식 데이터 문서로 구성하는 방안을 고려할 수 있다. 예컨대, 지식 데이터 문서에 전자 문서의 본문, 중요 키워드, 요약문, 개체에 대한 정보 등을 포함시킴으로써, 사용자가 상기 지식 데이터 문서로부터 전자 문서에 포함된 다양한 정보들에 손쉽게 접근할 수 있도록 하는 방안을 고려할 수 있다.In this regard, a method of constructing a single knowledge data document by structuring various information included in an electronic document may be considered. For example, consider a method of enabling a user to easily access various information included in an electronic document from the knowledge data document by including the body of the electronic document, important keywords, summaries, and information on entities in the knowledge data document. can

따라서, 전자 문서를 다양한 정보를 포함하는 지식 데이터 문서로 변환하는 기법에 대한 연구가 필요하다.Therefore, research on a technique for converting an electronic document into a knowledge data document including various information is required.

또한, 전자 문서를 지식 데이터 문서로 변환하는 경우, 해당 전자 문서가 보안이 필요한 문서일 수도 있기 때문에, 허가된 사용자만이 지식 데이터 문서를 열람할 수 있도록 지원하기 위한 보안 프로토콜이 적용될 필요도 있다.In addition, when converting an electronic document into a knowledge data document, since the corresponding electronic document may be a document requiring security, a security protocol for allowing only authorized users to view the knowledge data document needs to be applied.

본 발명에 따른 전자 장치 및 그 동작 방법은 사용자로부터 소정의 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 인가되는 경우, 상기 전자 문서를 마크업 언어(markup language) 기반의 포맷을 갖는 웹 문서로 변환한 후 상기 웹 문서에서 중요 키워드들을 선정하고, 상기 웹 문서에 삽입되어 있는 개체들의 정보를 확인하며, 상기 웹 문서에 대한 요약문을 생성한 후 상기 웹 문서의 본문과 상기 중요 키워드들, 상기 개체들의 정보 및 상기 요약문에 대한 데이터를 포함하는 JSON(JavaScript Object Notation) 포맷 기반의 지식 데이터 문서 파일을 생성하고, 추후 사용자에 의해 상기 지식 데이터 문서 파일이 실행되는 경우, 문서의 본문, 상기 중요 키워드들, 상기 개체들의 정보 및 상기 요약문을 하나의 화면 상에 표시함으로써, 사용자가 상기 전자 문서에 대한 다양한 정보를 한눈에 확인할 수 있도록 지원하고자 한다.An electronic device and its operating method according to the present invention converts a predetermined electronic document into a web document having a markup language-based format when a command for converting a predetermined electronic document into a knowledge data document is applied. After conversion, important keywords are selected from the web document, information on objects inserted into the web document is checked, and a summary of the web document is generated, and then the body of the web document, the important keywords, and the object Generates a knowledge data document file based on JSON (JavaScript Object Notation) format that includes information on and data about the summary, and when the knowledge data document file is later executed by a user, the body of the document, the important keywords , By displaying the information of the entities and the summary on one screen, it is intended to support the user to check various information about the electronic document at a glance.

본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치는 사용자로부터 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 수신되면, 상기 전자 문서를 마크업 언어(markup language) 기반의 포맷을 갖는 웹 문서로 변환하는 웹 문서 변환부, 상기 전자 문서가 상기 웹 문서로 변환되면, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱(parsing)하여 상기 웹 문서에 포함된 단어들 중 상기 웹 문서 내에서의 등장 빈도수가 많은 순으로 n(n은 2이상 자연수)개의 단어들을 추출한 후 상기 n개의 단어들을 상기 웹 문서에 대한 중요 키워드로 선정하는 중요 키워드 선정부, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 개체가 삽입되어 있는지 확인하고, 상기 웹 문서에 복수의 개체들이 삽입되어 있는 것으로 확인되는 경우, 상기 복수의 개체들 각각의 타입과 상기 복수의 개체들 각각의 상기 웹 문서에서의 삽입 위치를 확인하는 개체 확인부, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 포함된 문장들을 확인한 후 상기 웹 문서에 포함된 문장들 중 상기 n개의 단어들을 하나 이상 포함하고 있는 적어도 하나의 문장을 선택하고, 상기 적어도 하나의 문장을 상기 웹 문서에서의 배치 순서에 따라 배치하여 요약문을 생성하는 요약문 생성부 및 상기 웹 문서를 구성하는 본문에 대한 데이터, 상기 중요 키워드에 대한 데이터, 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터 및 상기 요약문에 대한 데이터를 포함하는 JSON(JavaScript Object Notation) 포맷 기반의 지식 데이터 문서 파일을 생성하는 변환 처리부를 포함한다.An electronic device for converting an electronic document into a knowledge data document according to an embodiment of the present invention converts the electronic document into a markup language based markup language when a command for converting the electronic document into a knowledge data document is received from a user. A web document conversion unit that converts the electronic document into a web document having a format, when the electronic document is converted into the web document, by parsing the markup language code constituting the web document, among words included in the web document An important keyword selection unit that extracts n words (n is a natural number equal to or greater than 2) in order of frequency of occurrence in the web document and selects the n words as important keywords for the web document; By parsing markup language codes, it is checked whether an object is inserted into the web document, and when it is confirmed that a plurality of objects are inserted into the web document, the type of each of the plurality of objects and each of the plurality of objects an object confirmation unit for checking the insertion position of the web document, parsing the markup language code constituting the web document to check the sentences included in the web document, and then identifying the n sentences included in the web document. A summary sentence generation unit that selects at least one sentence including one or more words and arranges the at least one sentence according to the order of arrangement in the web document to generate a summary sentence and data about the body constituting the web document , A conversion processing unit for generating a knowledge data document file based on JSON (JavaScript Object Notation) format including data for the important keyword, data for the type and insertion position of each of the plurality of entities, and data for the summary. include

또한, 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법은 사용자로부터 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 수신되면, 상기 전자 문서를 마크업 언어 기반의 포맷을 갖는 웹 문서로 변환하는 단계, 상기 전자 문서가 상기 웹 문서로 변환되면, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 포함된 단어들 중 상기 웹 문서 내에서의 등장 빈도수가 많은 순으로 n(n은 2이상 자연수)개의 단어들을 추출한 후 상기 n개의 단어들을 상기 웹 문서에 대한 중요 키워드로 선정하는 단계, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 개체가 삽입되어 있는지 확인하고, 상기 웹 문서에 복수의 개체들이 삽입되어 있는 것으로 확인되는 경우, 상기 복수의 개체들 각각의 타입과 상기 복수의 개체들 각각의 상기 웹 문서에서의 삽입 위치를 확인하는 단계, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 포함된 문장들을 확인한 후 상기 웹 문서에 포함된 문장들 중 상기 n개의 단어들을 하나 이상 포함하고 있는 적어도 하나의 문장을 선택하고, 상기 적어도 하나의 문장을 상기 웹 문서에서의 배치 순서에 따라 배치하여 요약문을 생성하는 단계 및 상기 웹 문서를 구성하는 본문에 대한 데이터, 상기 중요 키워드에 대한 데이터, 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터 및 상기 요약문에 대한 데이터를 포함하는 JSON 포맷 기반의 지식 데이터 문서 파일을 생성하는 단계를 포함한다.In addition, in the method of operating an electronic device for converting an electronic document into a knowledge data document according to an embodiment of the present invention, when a command for converting an electronic document into a knowledge data document is received from a user, the electronic document is converted into a markup language-based document. Converting into a web document having a format of, When the electronic document is converted into the web document, by parsing the markup language code constituting the web document, among words included in the web document, words in the web document extracting n words (where n is a natural number equal to or greater than 2) in order of frequency of appearance and then selecting the n words as important keywords for the web document; It is checked whether an object is inserted into the web document, and if it is confirmed that a plurality of objects are inserted into the web document, the type of each of the plurality of objects and the insertion position of each of the plurality of objects in the web document After parsing the markup language code constituting the web document to check the sentences included in the web document, at least one of the sentences included in the web document includes one or more of the n words. Selecting a sentence and arranging the at least one sentence according to the arrangement order in the web document to generate a summary sentence and data for the body constituting the web document, data for the important keywords, and the plurality of entities and generating a JSON format-based knowledge data document file including data for each type and insertion position of each of the fields and data for the summary statement.

본 발명에 따른 전자 장치 및 그 동작 방법은 사용자로부터 소정의 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 인가되는 경우, 상기 전자 문서를 마크업 언어(markup language) 기반의 포맷을 갖는 웹 문서로 변환한 후 상기 웹 문서에서 중요 키워드들을 선정하고, 상기 웹 문서에 삽입되어 있는 개체들의 정보를 확인하며, 상기 웹 문서에 대한 요약문을 생성한 후 상기 웹 문서의 본문과 상기 중요 키워드들, 상기 개체들의 정보 및 상기 요약문에 대한 데이터를 포함하는 JSON(JavaScript Object Notation) 포맷 기반의 지식 데이터 문서 파일을 생성하고, 추후 사용자에 의해 상기 지식 데이터 문서 파일이 실행되는 경우, 문서의 본문, 상기 중요 키워드들, 상기 개체들의 정보 및 상기 요약문을 하나의 화면 상에 표시함으로써, 사용자가 상기 전자 문서에 대한 다양한 정보를 한눈에 확인할 수 있도록 지원할 수 있다.An electronic device and its operating method according to the present invention converts a predetermined electronic document into a web document having a markup language-based format when a command for converting a predetermined electronic document into a knowledge data document is applied. After conversion, important keywords are selected from the web document, information on objects inserted into the web document is checked, and a summary of the web document is generated, and then the body of the web document, the important keywords, and the object Generates a knowledge data document file based on JSON (JavaScript Object Notation) format that includes information on and data about the summary, and when the knowledge data document file is later executed by a user, the body of the document, the important keywords , By displaying the information of the entities and the summary on one screen, it is possible to support the user to check various information about the electronic document at a glance.

도 1은 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 구조를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법을 도시한 순서도이다.
1 is a diagram showing the structure of an electronic device that converts an electronic document into a knowledge data document according to an embodiment of the present invention.
2 is a diagram for explaining an operation of an electronic device that converts an electronic document into a knowledge data document according to an embodiment of the present invention.
3 is a flowchart illustrating an operating method of an electronic device for converting an electronic document into a knowledge data document according to an embodiment of the present invention.

이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.Hereinafter, embodiments according to the present invention will be described in detail with reference to the accompanying drawings. This description is not intended to limit the present invention to specific embodiments, but should be understood to include all modifications, equivalents, and substitutes included in the spirit and scope of the present invention. While describing each drawing, similar reference numerals have been used for similar components, and unless otherwise defined, all terms used in this specification, including technical or scientific terms, are common knowledge in the art to which the present invention belongs. has the same meaning as commonly understood by the person who has it.

본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다. In this document, when a certain component is said to "include", it means that it may further include other components without excluding other components unless otherwise stated. In addition, in various embodiments of the present invention, each component, functional block, or means may be composed of one or more sub-components, and the electrical, electronic, and mechanical functions performed by each component are electronic It may be implemented with various known elements or mechanical elements such as circuits, integrated circuits, ASICs (Application Specific Integrated Circuits), and may be implemented separately or two or more may be integrated into one.

한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.On the other hand, the blocks of the accompanying block diagram or the steps of the flowchart are computer program instructions that perform designated functions by being loaded into a processor or memory of a device capable of data processing, such as a general-purpose computer, a special purpose computer, a portable notebook computer, and a network computer. can be interpreted as meaning Since these computer program instructions may be stored in a memory included in a computer device or in a computer readable memory, the functions described in blocks of a block diagram or steps of a flowchart are produced as a product containing instruction means for performing them. It could be. Further, each block or each step may represent a module, segment or portion of code that includes one or more executable instructions for executing specified logical function(s). Also, it should be noted that in some alternative embodiments, functions mentioned in blocks or steps may be executed out of a predetermined order. For example, two blocks or steps shown in succession may be performed substantially simultaneously or in reverse order, and in some cases, some blocks or steps may be omitted.

도 1은 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 구조를 도시한 도면이다.1 is a diagram showing the structure of an electronic device that converts an electronic document into a knowledge data document according to an embodiment of the present invention.

도 1을 참조하면, 본 발명에 따른 전자 장치(110)는 웹 문서 변환부(111), 중요 키워드 선정부(112), 개체 확인부(113), 요약문 생성부(114) 및 변환 처리부(115)를 포함한다.Referring to FIG. 1 , an electronic device 110 according to the present invention includes a web document conversion unit 111, an important keyword selection unit 112, an object confirmation unit 113, a summary generation unit 114, and a conversion processing unit 115. ).

웹 문서 변환부(111)는 사용자로부터 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 수신되면, 상기 전자 문서를 마크업 언어(markup language) 기반의 포맷을 갖는 웹 문서로 변환한다.When a command for converting an electronic document into a knowledge data document is received from a user, the web document conversion unit 111 converts the electronic document into a web document having a format based on a markup language.

여기서, 마크업 언어란 태그 등을 이용하여 문서나 데이터의 구조를 명기하는 언어의 한 가지를 의미하는 것으로, HTML(HyperText Markup Language)이나 XML(Extensible Markup Language) 등이 존재한다.Here, the markup language refers to one of languages that specify the structure of documents or data using tags or the like, and includes HyperText Markup Language (HTML) and Extensible Markup Language (XML).

중요 키워드 선정부(112)는 상기 전자 문서가 상기 웹 문서로 변환되면, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱(parsing)하여 상기 웹 문서에 포함된 단어들 중 상기 웹 문서 내에서의 등장 빈도수가 많은 순으로 n(n은 2이상 자연수)개의 단어들을 추출한 후 상기 n개의 단어들을 상기 웹 문서에 대한 중요 키워드로 선정한다.When the electronic document is converted into the web document, the important keyword selection unit 112 parses the markup language code constituting the web document, and among the words included in the web document, After extracting n words (where n is a natural number equal to or greater than 2) in order of frequency of occurrence, the n words are selected as important keywords for the web document.

예컨대, 상기 웹 문서에 포함된 단어가 '100개'라고 하고, n을 '5'라고 하는 경우, 중요 키워드 선정부(112)는 상기 웹 문서에 포함된 100개의 단어들 중 상기 웹 문서 내에 등장하는 빈도수가 많은 순으로 5개의 단어들을 추출한 후 추출된 5개의 단어들을 상기 웹 문서에 대한 중요 키워드로 선정할 수 있다.For example, when the words included in the web document are '100' and n is '5', the important keyword selection unit 112 appears in the web document among the 100 words included in the web document. After extracting 5 words in the order of the highest frequency, the extracted 5 words can be selected as important keywords for the web document.

이때, 본 발명의 일실시예에 따르면, 전자 장치(110)는 특징 벡터 생성부(116) 및 그룹 할당부(117)를 더 포함할 수 있다.In this case, according to an embodiment of the present invention, the electronic device 110 may further include a feature vector generator 116 and a group allocator 117.

특징 벡터 생성부(116)는 상기 n개의 단어들이 상기 중요 키워드로 선정되면, 상기 n개의 단어들 각각의 상기 웹 문서 내에서의 등장 빈도수와 상기 n개의 단어들 각각의 상기 웹 문서 내에서의 글자 크기의 평균 값을 산출한 후 상기 n개의 단어들 각각에 대해, 상기 등장 빈도수와 상기 평균 값을 성분으로 갖는 2차원 벡터를 구성함으로써, 상기 n개의 단어들 각각에 대응되는 특징 벡터를 생성한다.When the n words are selected as the important keywords, the feature vector generator 116 calculates the frequency of occurrence of each of the n words in the web document and the character of each of the n words in the web document. After calculating the average value of the size, a feature vector corresponding to each of the n words is generated by constructing a 2D vector having the number of occurrences and the average value as components for each of the n words.

예컨대, 전술한 예와 같이 n을 '5'라고 하고, 중요 키워드 선정부(112)에서 상기 중요 키워드로 선정된 5개의 단어들이 '빨강', '주황', '노랑', '초록', '파랑'이라고 하며, 상기 웹 문서 내에서 '빨강', '주황', '노랑', '초록', '파랑'이라는 단어들 각각의 등장 빈도수가 '20회', '30회', '10회', '40회', '50회'라고 하는 경우, 특징 벡터 생성부(116)는 상기 웹 문서 내에서 '빨강', '주황', '노랑', '초록', '파랑'이라는 단어들 각각의 등장 빈도수에 대해 빨강의 등장 빈도수를 '20회'로, 주황의 등장 빈도수를 '30회'로, 노랑의 등장 빈도수를 '10회'로, 초록의 등장 빈도수를 '40회'로, 파랑의 등장 빈도수를 '50회'로 확인할 수 있다.For example, as in the above example, let n be '5', and the five words selected as the important keywords in the important keyword selection unit 112 are 'red', 'orange', 'yellow', 'green', ' 'blue', and the frequency of each occurrence of the words 'red', 'orange', 'yellow', 'green', and 'blue' in the web document is '20', '30', and '10'. ', '40 times', '50 times', the feature vector generator 116 uses the words 'red', 'orange', 'yellow', 'green', and 'blue' in the web document. For each frequency of appearance, the frequency of appearance of red is '20', the frequency of orange is '30', the frequency of yellow is '10', the frequency of green is '40', You can check the frequency of appearance of blue as '50 times'.

그리고, 특징 벡터 생성부(116)는 '빨강', '주황', '노랑', '초록', '파랑'이라는 단어들 각각의 상기 웹 문서 내에서의 글자 크기의 평균 값을 산출할 수 있다. 관련해서, '빨강'이라고 하는 단어가 상기 웹 문서에서 '20회' 등장하는데, '10회'는 '12pt'라는 글자 크기를 갖고, 나머지 '10회'는 '14pt'라는 글자 크기를 갖는다고 하는 경우, 특징 벡터 생성부(116)는 '빨강'이라고 하는 단어의 상기 웹 문서 내에서의 글자 크기의 평균 값을 '13pt'로 산출할 수 있다. 이러한 방식으로, 특징 벡터 생성부(116)는 '주황', '노랑', '초록', '파랑'이라고 하는 단어들 각각에 대해서도 상기 웹 문서 내에서의 글자 크기의 평균 값을 산출할 수 있다.Also, the feature vector generator 116 may calculate an average value of the font size of each of the words 'red', 'orange', 'yellow', 'green', and 'blue' in the web document. . In relation to this, the word 'red' appears '20 times' in the web document, '10 times' has a font size of '12pt', and the remaining '10 times' has a font size of '14pt'. In this case, the feature vector generator 116 may calculate the average value of the font size of the word 'red' in the web document as '13pt'. In this way, the feature vector generator 116 can calculate the average value of the font size in the web document for each of the words 'orange', 'yellow', 'green', and 'blue'. .

만약, '빨강', '주황', '노랑', '초록', '파랑'이라는 단어들 각각의 상기 웹 문서 내에서의 글자 크기의 평균 값이 '13pt', '12pt', '16pt', '14pt', '14pt'로 산출되었다고 가정하는 경우, 특징 벡터 생성부(116)가 산출한 '빨강', '주황', '노랑', '초록', '파랑'이라는 단어들 각각의 상기 웹 문서 내에서의 등장 빈도수와 글자 크기의 평균 값은 하기의 표 1과 같이 나타낼 수 있다.If the average value of the font size in the web document for each of the words 'red', 'orange', 'yellow', 'green', and 'blue' is '13pt', '12pt', '16pt', Assuming that '14pt' and '14pt' are calculated, each of the words 'red', 'orange', 'yellow', 'green', and 'blue' calculated by the feature vector generator 116 is displayed on the web. The frequency of appearance in the document and the average value of the font size can be shown in Table 1 below.

단어word 단어의 등장 빈도수frequency of occurrence of the word 단어의 글자 크기의 평균 값Average value of word size 빨강Red 20회20 times 13pt13pt 주황Orange 30회30 times 12pt12pt 노랑yellow 10회10 times 16pt16pt 초록green 40회40 times 14pt14pt 파랑blue 50회50 times 14pt14pt

이렇게, 상기 표 1과 같이 '빨강', '주황', '노랑', '초록', '파랑'이라는 단어의 등장 빈도수와 평균 값이 산출되면, 특징 벡터 생성부(116)는 '빨강', '주황', '노랑', '초록', '파랑' 각각에 대해, 상기 등장 빈도수와 상기 평균 값을 성분으로 갖는 2차원의 벡터를 구성함으로써, 각 단어에 대응되는 특징 벡터를 생성할 수 있다.In this way, when the frequency and average value of the words 'red', 'orange', 'yellow', 'green', and 'blue' are calculated as shown in Table 1, the feature vector generator 116 calculates 'red', For each of 'orange', 'yellow', 'green', and 'blue', a feature vector corresponding to each word can be generated by constructing a two-dimensional vector having the appearance frequency and the average value as components. .

이와 관련해서, 특징 벡터 생성부(116)는 '빨강'이라는 단어에 대응되는 특징 벡터를 '[20 13]'으로 생성할 수 있다. 이러한 방식으로, 특징 벡터 생성부(116)는 나머지 '주황', '노랑', '초록', '파랑'이라는 단어들 각각에 대응되는 특징 벡터를 생성할 수 있다.In this regard, the feature vector generator 116 may generate a feature vector corresponding to the word 'red' as '[20 13]'. In this way, the feature vector generator 116 may generate feature vectors corresponding to the remaining words 'orange', 'yellow', 'green', and 'blue'.

그룹 할당부(117)는 상기 n개의 단어들 각각에 대응되는 특징 벡터를 기초로 K-평균 군집화(K-means Clustering)를 수행하여, 상기 n개의 단어들을 K개의 그룹으로 군집화하고, 상기 K개의 그룹 중 동일 그룹 내에 속하는 단어들을 서로 유사한 중요도를 갖는 단어들로 지정한 후 상기 n개의 단어들 각각에 대해, 각 단어가 속해있는 그룹에 대한 그룹 정보를 할당한다.The group allocator 117 performs K-means clustering based on feature vectors corresponding to each of the n words, clusters the n words into K groups, and Among the groups, words belonging to the same group are designated as words having similar importance, and then group information about the group to which each word belongs is assigned to each of the n words.

여기서, K-평균 군집화란 벡터의 형태로 구성된 데이터를 K개의 그룹으로 묶는 알고리즘을 의미하는 것으로, 데이터가 속한 그룹의 중심과 각 데이터 간의 거리의 차이가 최소가 되도록 데이터들을 K개의 그룹으로 군집화하는 알고리즘이다.Here, K-means clustering refers to an algorithm that groups data composed of a vector form into K groups, and clusters data into K groups so that the difference between the center of the group to which the data belongs and the distance between each data is minimized. It is an algorithm.

관련해서, 전술한 예와 같이, '빨강', '주황', '노랑', '초록', '파랑'이라는 5개의 단어가 중요 키워드로 추출되었다고 하고, K를 '3'이라고 가정하는 경우, 그룹 할당부(117)는 '빨강', '주황', '노랑', '초록', '파랑'이라는 5개의 단어들 각각의 특징 벡터를 기초로 K-평균 군집화를 수행하여, '빨강', '주황', '노랑', '초록', '파랑'이라는 5개의 단어들을 3개의 그룹으로 군집화할 수 있다.In this regard, as in the above example, assuming that five words 'red', 'orange', 'yellow', 'green', and 'blue' are extracted as important keywords, and K is '3', The group allocator 117 performs K-means clustering based on the feature vectors of each of the five words 'red', 'orange', 'yellow', 'green', and 'blue', The five words 'orange', 'yellow', 'green', and 'blue' can be clustered into three groups.

이때, 그룹 할당부(117)는 단어의 등장 빈도수와 글자 크기의 평균 값으로 구성된 특징 벡터를 기초로 상기 n개의 단어들을 K개의 그룹으로 군집화하기 때문에, 상기 n개의 단어들은 단어의 등장 빈도수가 많으면서 글자 크기의 평균 값이 높은 그룹, 단어의 등장 빈도수가 중간이면서 글자 크기의 평균 값이 중간인 그룹, 단어의 등장 빈도수가 적으면서 글자 크기의 평균 값이 낮은 그룹 등으로 군집화될 수 있다.At this time, since the group assigning unit 117 clusters the n words into K groups based on a feature vector composed of the average value of the frequency of occurrence of words and the average value of the letter size, the n words have a high frequency of occurrence of words. It can be clustered into a group with a high mean value of font size, a group with a medium frequency of occurrence of words and an average value of average font size, and a group with a low average value of font size with low frequency of occurrence of words.

이렇게, 그룹 할당부(117)에 의해, '빨강', '주황', '노랑', '초록', '파랑'이라고 하는 5개의 단어들이 3개의 그룹으로 군집화된 결과, '빨강'과 '주황'이라고 하는 단어가 '그룹 1'로 군집화되었고, '초록'과 '파랑'이라고 하는 단어가 '그룹 2'로 군집화되었으며, '노랑'이라는 단어가 '그룹 3'으로 군집화되었다고 하는 경우, 그룹 할당부(117)는 상기 3개의 그룹 중 '그룹 1' 내에 속하는 '빨강'과 '주황'이라고 하는 단어들을 서로 유사한 중요도를 갖는 단어들로 지정하고, 상기 3개의 그룹 중 '그룹 2' 내에 속하는 '초록'과 '파랑'이라고 하는 단어들을 서로 유사한 중요도를 갖는 단어들로 지정하며, 상기 3개의 그룹 중 '그룹 3' 내에 속하는 '노랑'이라고 하는 단어를 서로 유사한 중요도를 갖는 단어로 지정할 수 있다.In this way, as a result of clustering the five words 'red', 'orange', 'yellow', 'green', and 'blue' into three groups by the group assignment unit 117, 'red' and 'orange' ' is clustered as 'Group 1', the words 'green' and 'blue' are clustered as 'Group 2', and the word 'yellow' is clustered as 'Group 3'. The unit 117 designates the words 'red' and 'orange' belonging to 'group 1' of the three groups as words having similar importance to each other, and designates words belonging to 'group 2' of the three groups. The words 'green' and 'blue' may be designated as words having similar importance, and the word 'yellow' belonging to 'group 3' among the three groups may be designated as words having similar importance.

그러고 나서, 그룹 할당부(117)는 '빨강'이라고 하는 단어에 대해 '빨강'이라고 하는 단어가 속해있는 '그룹 1'에 대한 그룹 정보를 할당할 수 있고, '주황'이라고 하는 단어에 대해 '주황'이라고 하는 단어가 속해있는 '그룹 1'에 대한 그룹 정보를 할당할 수 있으며, '노랑'이라고 하는 단어에 대해 '노랑'이라고 하는 단어가 속해있는 '그룹 3'에 대한 그룹 정보를 할당할 수 있고, '초록'이라고 하는 단어에 대해 '초록'이라고 하는 단어가 속해있는 '그룹 2'에 대한 그룹 정보를 할당할 수 있고, '파랑'이라고 하는 단어에 대해 '파랑'이라고 하는 단어가 속해있는 '그룹 2'에 대한 그룹 정보를 할당할 수 있다. Then, the group allocator 117 may allocate group information about 'Group 1' to which the word 'red' belongs to the word 'red', and may allocate 'group 1' to the word 'orange'. Group information for 'Group 1' to which the word 'orange' belongs can be assigned, and group information for 'Group 3' to which the word 'yellow' belongs can be assigned to the word 'yellow'. For the word 'green', it is possible to assign group information for 'group 2' to which the word 'green' belongs, and for the word 'blue' to which the word 'blue' belongs. Group information for 'Group 2' can be assigned.

개체 확인부(113)는 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 개체가 삽입되어 있는지 확인하고, 상기 웹 문서에 복수의 개체들이 삽입되어 있는 것으로 확인되는 경우, 상기 복수의 개체들 각각의 타입과 상기 복수의 개체들 각각의 상기 웹 문서에서의 삽입 위치를 확인한다.The object identification unit 113 parses the markup language code constituting the web document to check whether an object is inserted into the web document, and if it is confirmed that a plurality of objects are inserted into the web document, the plurality of objects are inserted into the web document. The type of each of the objects and the insertion position of each of the plurality of objects in the web document are checked.

여기서, 개체란 문서에 삽입될 수 있는 도형, 이미지, 표 등과 같은 텍스트 이외의 아이템을 의미하고, 개체의 타입이란 해당 개체가 표, 도형, 이미지 중 어떤 종류에 해당되는지를 나타내는 정보를 의미하며, 삽입 위치란 특정 개체가 상기 웹 문서에서 어느 위치에 삽입되어 있는지를 나타내는 좌표 정보를 의미한다.Here, an object means an item other than text such as a figure, image, table, etc. that can be inserted into a document, and the type of object means information indicating which type of table, figure, or image the corresponding object corresponds to, The insertion position refers to coordinate information indicating at which position a specific object is inserted in the web document.

요약문 생성부(114)는 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 포함된 문장들을 확인한 후 상기 웹 문서에 포함된 문장들 중 상기 n개의 단어들을 하나 이상 포함하고 있는 적어도 하나의 문장을 선택하고, 상기 적어도 하나의 문장을 상기 웹 문서에서의 배치 순서에 따라 배치하여 요약문을 생성한다.The summary sentence generation unit 114 parses the markup language code constituting the web document to identify sentences included in the web document, and then includes at least one n word among the sentences included in the web document. A summary sentence is generated by selecting one sentence and arranging the at least one sentence according to an arrangement order in the web document.

예컨대, 전술한 예와 같이, '빨강', '주황', '노랑', '초록', '파랑'이라고 하는 5개의 단어들이 상기 중요 키워드로 선정되었다고 하는 경우, 요약문 생성부(114)는 상기 웹 문서에 포함된 문장들 중 '빨강', '주황', '노랑', '초록', '파랑'이라고 하는 5개의 단어들을 하나 이상 포함하고 있는 적어도 하나의 문장을 추출할 수 있다.For example, as in the above example, when it is assumed that five words, 'red', 'orange', 'yellow', 'green', and 'blue' are selected as the important keywords, the summary sentence generating unit 114 Among the sentences included in the web document, at least one sentence including at least one of five words 'red', 'orange', 'yellow', 'green', and 'blue' may be extracted.

이때, 상기 적어도 하나의 문장으로 30개의 문장이 추출되었다고 하는 경우, 요약문 생성부(114)는 상기 웹 문서에서의 배치 순서에 따라 상기 적어도 하나의 문장인 30개의 문장을 순차적으로 배치하여 요약문을 생성할 수 있다.At this time, when it is assumed that 30 sentences are extracted as the at least one sentence, the summary sentence generation unit 114 generates a summary sentence by sequentially arranging the at least one sentence, 30 sentences, according to the arrangement order in the web document. can do.

이렇게, 상기 웹 문서로부터 상기 중요 키워드가 선정되고, 상기 복수의 개체들 각각의 타입과 삽입 위치가 확인되었으며, 상기 요약문의 생성이 완료되면, 변환 처리부(115)는 상기 웹 문서를 구성하는 본문에 대한 데이터, 상기 중요 키워드에 대한 데이터, 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터 및 상기 요약문에 대한 데이터를 포함하는 JSON(JavaScript Object Notation) 포맷 기반의 지식 데이터 문서 파일을 생성한다.In this way, when the important keyword is selected from the web document, the type and insertion position of each of the plurality of entities are confirmed, and the generation of the summary is completed, the conversion processing unit 115 converts the main text constituting the web document. Generates a knowledge data document file based on JSON (JavaScript Object Notation) format including data for the key words, data for the important keywords, data for the type and insertion position of each of the plurality of entities, and data for the summary.

여기서, JSON(JavaScript Object Notation)이란 속성-값 쌍(attribute-value pairs and array data types (or any other serializable value)) 또는 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷을 의미한다. JSON은 서버가 클라이언트로 데이터를 전달할 때 사용하는 데이터 포맷으로, 기존의 XML 포맷으로 데이터를 전송하는 방식보다 간결하고 통일된 양식으로 데이터를 표현할 수 있는 경량의 데이터 포맷이라는 점에서 최근 많이 사용되고 있다. 보통, 서버에서 JSON 포맷 기반의 파일을 클라이언트로 전송하게 되면, 클라이언트에서는 브라우저를 통해 JSON 포맷 파일을 오픈해서, 화면 상에 오브젝트를 렌더링하여 표시하게 된다.JSON (JavaScript Object Notation) is a human-readable text format used to convey data objects consisting of attribute-value pairs and array data types (or any other serializable value) or key-value pairs. Refers to the open standard format used. JSON is a data format used by a server to transmit data to a client. It is widely used recently because it is a lightweight data format that can express data in a simpler and unified form than the existing XML format data transmission method. Normally, when a server transmits a JSON format-based file to a client, the client opens the JSON format file through a browser, and renders and displays an object on the screen.

이때, 본 발명의 일실시예에 따르면, 변환 처리부(115)는 상기 JSON 포맷 기반의 지식 데이터 문서 파일을 '.vd'(virtual document)라고 하는 확장자를 갖는 파일로 생성할 수 있다.At this time, according to one embodiment of the present invention, the conversion processing unit 115 may generate the JSON format-based knowledge data document file as a file having an extension of '.vd' (virtual document).

이때, 본 발명의 일실시예에 따르면, 전자 장치(110)는 분할부(118), 본문 표시부(119), 중요 키워드 표시부(120), 개체 정보 표시부(121) 및 요약문 표시부(122)를 더 포함할 수 있다.At this time, according to an embodiment of the present invention, the electronic device 110 further includes a division unit 118, a text display unit 119, an important keyword display unit 120, an object information display unit 121, and a summary display unit 122. can include

분할부(118)는 상기 지식 데이터 문서 파일이 생성된 이후에, 상기 사용자로부터 상기 지식 데이터 문서 파일의 실행 명령이 인가되면, 상기 지식 데이터 문서 파일의 실행에 따른 화면 표시 영역을 본문 표시 영역, 중요 키워드 표시 영역, 개체 정보 표시 영역 및 요약문 표시 영역으로 분할한다.After the knowledge data document file is created, the division unit 118, when an execution command for the knowledge data document file is applied from the user, converts the screen display area according to the execution of the knowledge data document file into a body display area and an important display area. It is divided into keyword display area, object information display area, and summary display area.

관련해서, 분할부(122)는 상기 사용자로부터 상기 지식 데이터 문서 파일의 실행 명령이 인가되면, 도 2에 도시된 그림과 같이, 화면 표시 영역을 본문 표시 영역(211), 중요 키워드 표시 영역(212), 개체 정보 표시 영역(213) 및 요약문 표시 영역(214)으로 분할할 수 있다.In this regard, when an execution command for the knowledge data document file is applied from the user, the division unit 122 converts the screen display area into a text display area 211 and an important keyword display area 212 as shown in FIG. 2 . ), an object information display area 213 and a summary display area 214.

이때, 본 발명의 일실시예에 따르면, 전자 장치(110)는 상기 사용자로부터 상기 지식 데이터 문서 파일의 실행 명령이 인가되는 경우, 전자 장치(110)에 탑재되어 있는 브라우저나 본 지식 데이터 문서 파일을 표시하기 위한 전용 뷰어를 실행하여 상기 지식 데이터 문서 파일의 실행에 따른 정보를 화면 상에 표시할 수 있다. 이때, 변환 처리부(115)는 상기 지식 데이터 문서 파일을 생성할 때, 상기 지식 데이터 문서 파일 내에 화면 표시 영역이 본문 표시 영역(211), 중요 키워드 표시 영역(212), 개체 정보 표시 영역(213) 및 요약문 표시 영역(214)으로 분할되어 표시되도록 하는 소정의 레이아웃 설정 정보와 관련된 코드를 삽입해 둘 수 있다. 이를 통해, 분할부(118)는 상기 사용자로부터 상기 지식 데이터 문서 파일의 실행 명령이 인가되는 경우, 상기 레이아웃 설정 정보와 관련된 코드를 파싱함으로써, 화면 표시 영역을 본문 표시 영역(211), 중요 키워드 표시 영역(212), 개체 정보 표시 영역(213) 및 요약문 표시 영역(214)으로 분할할 수 있다.At this time, according to an embodiment of the present invention, when an execution command of the knowledge data document file is applied from the user, the electronic device 110 opens the browser installed in the electronic device 110 or the knowledge data document file. Information according to the execution of the knowledge data document file may be displayed on the screen by executing a dedicated viewer for display. At this time, when the conversion processing unit 115 generates the knowledge data document file, the screen display area in the knowledge data document file includes a body display area 211, an important keyword display area 212, and an entity information display area 213 And code related to predetermined layout setting information to be divided and displayed in the summary display area 214 can be inserted. Through this, the division unit 118, when an execution command of the knowledge data document file is applied from the user, parses the code related to the layout setting information, thereby changing the screen display area to the text display area 211 and displaying important keywords. It can be divided into an area 212, an entity information display area 213, and a summary display area 214.

본문 표시부(119)는 상기 지식 데이터 문서 파일에 포함된 상기 웹 문서를 구성하는 본문에 대한 데이터를 파싱하여, 상기 본문 표시 영역(211)에 상기 웹 문서를 구성하는 본문을 표시한다.The body display unit 119 parses data for the body constituting the web document included in the knowledge data document file, and displays the body constituting the web document in the body display area 211 .

중요 키워드 표시부(120)는 상기 지식 데이터 문서 파일에 포함된 상기 중요 키워드에 대한 데이터를 파싱하여, 상기 중요 키워드 표시 영역(212)에 상기 n개의 단어들을 상기 K개의 그룹별로 구분해서 표시함과 동시에, 상기 n개의 단어들이 문서에 대한 중요 키워드임을 알리는 제1 알림 메시지와 상기 K개의 그룹 중 동일 그룹 내에 속하는 단어들이 서로 유사한 중요도를 갖는 단어임을 알리는 제2 알림 메시지를 생성하여 상기 중요 키워드 표시 영역(212)에 표시한다.The important keyword display unit 120 parses data on the important keywords included in the knowledge data document file, classifies and displays the n words according to the K groups in the important keyword display area 212, and at the same time , A first notification message notifying that the n words are important keywords for the document and a second notification message notifying that words belonging to the same group among the K groups are words having similar importance to each other are generated, and the important keyword display area ( 212).

예컨대, 전술한 예와 같이, '빨강', '주황', '노랑', '초록', '파랑'이라고 하는 단어들이 중요 키워드로 선정되었고, '빨강'과 '주황'이라고 하는 단어가 '그룹 1'로 군집화되었으며, '초록'과 '파랑'이라고 하는 단어가 '그룹 2'로 군집화되었고, '노랑'이라는 단어가 '그룹 3'으로 군집화되었다고 하는 경우, 중요 키워드 표시부(120)는 '빨강', '주황', '노랑', '초록', '파랑'을 3개의 그룹별로 구분해서 상기 중요 키워드 표시 영역(212)에 표시할 수 있다.For example, as in the above example, the words 'red', 'orange', 'yellow', 'green', and 'blue' were selected as important keywords, and the words 'red' and 'orange' were selected as 'group'. 1', the words 'green' and 'blue' are clustered in 'group 2', and the word 'yellow' is clustered in 'group 3', the important keyword display unit 120 displays 'red' ', 'orange', 'yellow', 'green', and 'blue' can be divided into three groups and displayed in the important keyword display area 212 .

그리고, 중요 키워드 표시부(120)는 '빨강', '주황', '노랑', '초록', '파랑'이라고 하는 단어들이 문서에 대한 중요 키워드임을 알리는 제1 알림 메시지와 상기 3개의 그룹 중 동일 그룹 내에 속하는 단어들이 서로 유사한 중요도를 갖는 단어임을 알리는 제2 알림 메시지를 생성하여 중요 키워드 표시 영역(212)에 표시할 수 있다. 이와 관련해서, 상기 제2 알림 메시지는 상기 3개의 그룹 중 '그룹 1' 내에 속하는 '빨강', '주황'이라고 하는 단어들이 서로 유사한 중요도를 갖는 단어임을 지시하고, '그룹 2' 내에 속하는 '초록', '파랑'이라고 하는 단어들이 서로 유사한 중요도를 갖는 단어임을 지시하며, '그룹 3' 내에 속하는 '노랑'이라고 하는 단어가 서로 유사한 중요도를 갖는 단어임을 지시하는 정보를 담고 있을 수 있다.In addition, the important keyword display unit 120 is the same as the first notification message informing that the words 'red', 'orange', 'yellow', 'green', and 'blue' are important keywords for the document and the three groups. A second notification message notifying that words belonging to the group are words having similar importance may be generated and displayed on the important keyword display area 212 . In this regard, the second notification message indicates that the words 'red' and 'orange' belonging to 'group 1' among the three groups are words having similar importance, and 'green' belonging to 'group 2'. ', 'blue' may indicate that the words have similar importance to each other, and may contain information indicating that the word 'yellow' belonging to 'group 3' has similar importance to each other.

개체 정보 표시부(121)는 상기 지식 데이터 문서 파일에 포함된 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터를 파싱하여, 상기 개체 정보 표시 영역(213)에 상기 복수의 개체들 각각의 타입과 상기 웹 문서에서의 삽입 위치에 대한 정보를 각 개체별로 대응시켜 표시한다.The entity information display unit 121 parses data on the type and insertion position of each of the plurality of entities included in the knowledge data document file, and displays the type of each of the plurality of entities in the entity information display area 213. and information about the insertion position in the web document are displayed in correspondence with each entity.

예컨대, 상기 복수의 개체들 중 '개체 1'이 존재한다고 하고, '개체 1'의 타입이 '도형'이며, '개체 1'의 상기 웹 문서에서의 삽입 위치가 '좌표 1'이라고 하는 경우, 개체 정보 표시부(121)는 상기 개체 정보 표시 영역(213)에 '개체 1'의 타입이 '도형'이고, '개체 1'의 상기 웹 문서에서의 삽입 위치가 '좌표 1'임을 대응시켜서 표시할 수 있다.For example, if 'object 1' among the plurality of objects exists, the type of 'object 1' is 'figure', and the insertion position of 'object 1' in the web document is 'coordinate 1', The object information display unit 121 displays the object information display area 213 in correspondence with the type of 'object 1' being 'figure' and the insertion position of 'object 1' in the web document being 'coordinate 1'. can

요약문 표시부(122)는 상기 지식 데이터 문서 파일에 포함된 상기 요약문에 대한 데이터를 파싱하여, 상기 요약문 표시 영역(214)에 상기 요약문을 표시한다.The summary display unit 122 parses data on the summary included in the knowledge data document file and displays the summary in the summary display area 214 .

즉, 본 발명에 따른 전자 장치(110)는 사용자로부터 소정의 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 인가되는 경우, 상기 전자 문서를 마크업 언어 기반의 포맷을 갖는 웹 문서로 변환한 후 상기 웹 문서에서 중요 키워드들을 선정하고, 상기 웹 문서에 삽입되어 있는 개체들의 정보를 확인하며, 상기 웹 문서에 대한 요약문을 생성한 후 상기 웹 문서의 본문과 상기 중요 키워드들, 상기 개체들의 정보 및 상기 요약문에 대한 데이터를 포함하는 JSON 포맷 기반의 지식 데이터 문서 파일을 생성할 수 있고, 추후 사용자에 의해 상기 지식 데이터 문서 파일이 실행되는 경우, 문서의 본문, 상기 중요 키워드들, 상기 개체들의 정보 및 상기 요약문을 하나의 화면 상에 표시함으로써, 사용자가 상기 전자 문서에 대한 다양한 정보를 한눈에 확인할 수 있도록 지원할 수 있다.That is, when a command for converting a predetermined electronic document into a knowledge data document is applied from the user, the electronic device 110 according to the present invention converts the electronic document into a web document having a markup language-based format and then After selecting important keywords in the web document, checking information on objects inserted into the web document, and generating a summary of the web document, the body of the web document, the important keywords, information on the objects and A JSON format-based knowledge data document file including data for the summary may be generated, and when the knowledge data document file is later executed by a user, the body of the document, the important keywords, information of the entities, and By displaying the summary on one screen, it is possible to support the user to check various information about the electronic document at a glance.

본 발명의 일실시예에 따르면, 전자 장치(110)는 상기 지식 데이터 문서 파일에 대한 보안 설정을 가능하게 하기 위한 구성으로, 테이블 유지부(123), 연접번호 생성부(124), 암호화키 추출부(125), 파일 암호화부(136) 및 안내 메시지 표시부(127)를 더 포함할 수 있다.According to an embodiment of the present invention, the electronic device 110 is configured to enable security settings for the knowledge data document file, and includes a table maintenance unit 123, a connection number generation unit 124, and an encryption key extraction. A unit 125, a file encryption unit 136, and a guide message display unit 127 may be further included.

테이블 유지부(123)는 미리 정해진 t(t는 2이상의 자연수)개의 암호화키들과 각 암호화키에 대응되는 0이상 t-1 이하의 정수가 대응되어 기록된 테이블을 저장하여 유지한다.The table maintenance unit 123 stores and maintains a table in which predetermined t (t is a natural number of 2 or more) encryption keys and integers of 0 or more and t-1 or less corresponding to each encryption key are recorded.

예컨대, t를 '5'라고 가정하는 경우, 테이블 유지부(123)는 하기의 표 2과 같이 암호화키 테이블을 저장하여 유지하고 있을 수 있다.For example, assuming that t is '5', the table maintenance unit 123 may store and maintain an encryption key table as shown in Table 2 below.

5개의 암호화키들5 encryption keys 정수 값integer value 암호화키 1encryption key 1 00 암호화키 2encryption key 2 1One 암호화키 3encryption key 3 22 암호화키 4encryption key 4 33 암호화키 5encryption key 5 44

연접번호 생성부(124)는 상기 지식 데이터 문서 파일이 생성된 후, 상기 사용자로부터 상기 지식 데이터 문서 파일에 대한 보안 설정 명령이 수신되면, 상기 K개의 그룹 각각에 포함된 단어들의 개수를 나타내는 수치를 오름차순으로 연접(Concatenation)해서 연접번호를 생성한다.After the knowledge data document file is generated, the connection number generator 124 generates a numerical value indicating the number of words included in each of the K groups when a security setting command for the knowledge data document file is received from the user. Concatenation is performed in ascending order to generate a concatenated number.

예컨대, 전술한 예와 같이, '빨강', '주황', '노랑', '초록', '파랑'이라고 하는 5개의 단어들이 '빨강', '주황'이라고 하는 단어가 포함된 '그룹 1', '초록', '파랑'이라고 하는 단어가 포함된 '그룹 2' 및 '노랑'이라고 하는 단어가 포함된 '그룹 3'으로 구분되었다고 가정하는 경우, 연접번호 생성부(124)는 '그룹 1'에 포함된 '빨강', '주황'이라고 하는 단어의 개수인 '2'개, '그룹 2'에 포함된 '초록', '파랑'이라고 하는 단어의 개수인 '2'개, '그룹 3'에 포함된 '노랑'이라고 하는 단어의 개수인 '1'개를 나타내는 수치를 추출하고, 추출된 상기 3개의 그룹 각각에 포함된 단어들의 개수를 나타내는 수치를 오름차순으로 연접함으로써, '221'이라는 연접번호를 생성할 수 있다.For example, as in the above example, five words 'red', 'orange', 'yellow', 'green', and 'blue' are 'group 1' including the words 'red' and 'orange'. , If it is assumed that it is classified into 'Group 2' including the words 'green' and 'blue' and 'Group 3' including the word 'yellow', the connection number generator 124 includes 'Group 1 '2', the number of words 'red' and 'orange' included in ', '2', the number of words 'green' and 'blue' included in 'group 2', 'group 3' By extracting a numerical value representing '1', which is the number of words 'yellow' included in ', and concatenating numerical values representing the number of words included in each of the three extracted groups in ascending order, '221' is obtained. You can generate a link number.

암호화키 추출부(125)는 상기 연접번호가 생성되면, 상기 연접번호를 피제수로, 상기 t를 제수로 하는 모듈로(modulo) 연산을 수행함으로써, 연산 값을 산출하고, 상기 테이블로부터 상기 연산 값에 대응되는 제1 암호화키를 추출한다.When the concatenated number is generated, the encryption key extraction unit 125 calculates an operation value by performing a modulo operation with the concatenated number as the dividend and the t as the divisor, and calculates the operation value from the table. A first encryption key corresponding to is extracted.

여기서, 모듈로 연산은 피제수를 제수로 나누는 나눗셈을 수행하여 그에 대한 나머지(remainder)를 산출하는 연산을 의미한다.Here, the modulo operation refers to an operation of calculating a remainder by performing division by dividing a dividend by a divisor.

예컨대, 전술한 예와 같이, 상기 t를 '5'라고 하고, 상기 연접번호를 '221'이라고 가정하는 경우, 암호화키 추출부(125)는 상기 연접번호 '221'을 피제수로, 상기 '5'를 제수로 하는 모듈로 연산을 수행함으로써, 연산 값을 '1'로 산출할 수 있다.For example, as in the above example, assuming that t is '5' and the concatenated number is '221', the encryption key extraction unit 125 takes the concatenated number '221' as the dividend and the '5' By performing a modulo operation with ' as a divisor, the operation value may be calculated as '1'.

그러고 나서, 암호화키 추출부(125)는 상기 표 2과 같은 상기 테이블로부터 상기 연산 값인 '1'에 대응되는 제1 암호화키로 '암호화키 2'를 추출할 수 있다.Then, the encryption key extraction unit 125 may extract 'encryption key 2' as the first encryption key corresponding to the operation value '1' from the table such as Table 2 above.

파일 암호화부(126)는 상기 지식 데이터 문서 파일을 상기 제1 암호화키로 암호화한다.The file encryption unit 126 encrypts the knowledge data document file with the first encryption key.

예컨대, 전술한 예와 같이, 암호화 추출부(125)를 통해, 상기 제1 암호화키로 '암호화키 2'가 추출되면, 파일 암호화부(126)는 상기 지식 데이터 문서 파일을 상기 제1 암호화키인 '암호화키 2'로 암호화할 수 있다.For example, as in the above example, when 'encryption key 2' is extracted as the first encryption key through the encryption extraction unit 125, the file encryption unit 126 converts the knowledge data document file into the first encryption key. It can be encrypted with 'encryption key 2'.

안내 메시지 표시부(127)는 상기 지식 데이터 문서 파일이 암호화되면, 상기 연접번호가 상기 지식 데이터 문서 파일의 복호화를 위한 보안코드임을 지시하는 안내 메시지를 화면 상에 표시한다.When the knowledge data document file is encrypted, the guide message display unit 127 displays a guide message indicating that the connection number is a security code for decryption of the knowledge data document file on the screen.

이때, 사용자는 상기 안내 메시지를 보고 추후 상기 지식 데이터 문서 파일의 복호화를 수행하기 위해서 화면 상에 표시되는 상기 보안코드를 숙지해둘 수 있다.At this time, the user may read the guide message and be familiar with the security code displayed on the screen in order to perform decryption of the knowledge data document file later.

이때, 본 발명의 일실시예에 따르면, 전자 장치(110)는 보안코드 입력 메시지 표시부(128) 및 복호화부(129)를 더 포함할 수 있다.At this time, according to an embodiment of the present invention, the electronic device 110 may further include a security code input message display unit 128 and a decryption unit 129.

보안코드 입력 메시지 표시부(128)는 상기 지식 데이터 문서 파일의 암호화가 완료된 이후, 상기 사용자로부터 상기 지식 데이터 문서 파일의 보안 해제 명령이 수신되면, 상기 사용자에게 보안 해제를 위한 상기 보안코드를 입력하도록 지시하는 보안코드 입력 메시지를 화면 상에 표시한다.The security code input message display unit 128 instructs the user to input the security code for security release when a security release command for the knowledge data document file is received from the user after encryption of the knowledge data document file is completed. Security code input message is displayed on the screen.

예컨대, 상기 사용자로부터 상기 지식 데이터 문서 파일의 보안 해제 명령이 수신되면, 보안코드 입력 메시지 표시부(128)는 상기 사용자에게 '보안코드를 입력하세요'라는 보안코드 입력 메시지와 함께 보안코드 입력창을 화면 상에 표시할 수 있다.For example, when a security release command for the knowledge data document file is received from the user, the security code input message display unit 128 displays a security code input window along with a security code input message to the user, 'Please enter a security code'. can be displayed on the

이때, 상기 사용자로부터, 상기 보안코드 입력 메시지에 대응하여 상기 연접번호가 수신되면, 복호화부(129)는 상기 연접번호를 피제수로, 상기 t를 제수로 하는 모듈로 연산을 수행함으로써, 상기 연산 값을 산출하고, 상기 테이블로부터 상기 연산 값에 대응되는 상기 제1 암호화키를 추출한 후, 상기 제1 암호화키로 상기 지식 데이터 문서 파일을 복호화한다.At this time, when the concatenated number is received from the user in response to the security code input message, the decoder 129 performs a modulo operation with the concatenated number as the dividend and the t as the divisor, thereby obtaining the calculated value is calculated, the first encryption key corresponding to the operation value is extracted from the table, and the knowledge data document file is decrypted with the first encryption key.

예컨대, 전술한 예와 같이, t를 '5'라고 하고, 상기 연접번호를 '221'이라고 가정하는 경우, 복호화부(129)는 사용자로부터 '221'이라고 하는 연접번호가 보안코드로서 수신되면, 상기 연접번호 '221'을 피제수, 상기 '5'를 제수로 하는 모듈로 연산을 수행함으로써, 연산 값 '1'을 산출할 수 있다.For example, as in the above example, assuming that t is '5' and the concatenated number is '221', the decoder 129 receives the concatenated number '221' from the user as a security code, An operation value of '1' may be calculated by performing a modulo operation with the concatenated number '221' as the dividend and '5' as the divisor.

그러고 나서, 복호화부(129)는 상기 표 2과 같은 상기 테이블로부터 상기 연산 값인 '1'에 대응되는 상기 제1 암호화키로 '암호화키 2'를 추출한 후 '암호화키 2'로 상기 지식 데이터 문서 파일을 복호화할 수 있다.Then, the decryption unit 129 extracts 'encryption key 2' as the first encryption key corresponding to the operation value '1' from the table as shown in Table 2, and then uses 'encryption key 2' as the knowledge data document file. can decrypt.

도 3은 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법을 도시한 순서도이다.3 is a flowchart illustrating an operating method of an electronic device for converting an electronic document into a knowledge data document according to an embodiment of the present invention.

단계(S310)에서는 사용자로부터 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 수신되면, 상기 전자 문서를 마크업 언어 기반의 포맷을 갖는 웹 문서로 변환한다.In step S310, when a command for converting an electronic document into a knowledge data document is received from a user, the electronic document is converted into a web document having a markup language-based format.

단계(S320)에서는 상기 전자 문서가 상기 웹 문서로 변환되면, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 포함된 단어들 중 상기 웹 문서 내에서의 등장 빈도수가 많은 순으로 n(n은 2이상 자연수)개의 단어들을 추출한 후 상기 n개의 단어들을 상기 웹 문서에 대한 중요 키워드로 선정한다.In step S320, when the electronic document is converted into the web document, the markup language code constituting the web document is parsed, and among the words included in the web document, the order of occurrence frequency in the web document is increased. After extracting n (n is a natural number equal to or greater than 2) words, the n words are selected as important keywords for the web document.

단계(S330)에서는 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 개체가 삽입되어 있는지 확인하고, 상기 웹 문서에 복수의 개체들이 삽입되어 있는 것으로 확인되는 경우, 상기 복수의 개체들 각각의 타입과 상기 복수의 개체들 각각의 상기 웹 문서에서의 삽입 위치를 확인한다.In step S330, it is checked whether an object is inserted into the web document by parsing the markup language code constituting the web document, and if it is confirmed that a plurality of objects are inserted into the web document, the plurality of objects The type of each object and the insertion position of each of the plurality of objects in the web document are checked.

단계(S340)에서는 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 포함된 문장들을 확인한 후 상기 웹 문서에 포함된 문장들 중 상기 n개의 단어들을 하나 이상 포함하고 있는 적어도 하나의 문장을 선택하고, 상기 적어도 하나의 문장을 상기 웹 문서에서의 배치 순서에 따라 배치하여 요약문을 생성한다.In step S340, after parsing the markup language code constituting the web document to check the sentences included in the web document, at least one of the sentences included in the web document includes one or more of the n words. A summary sentence is generated by selecting sentences and arranging the at least one sentence according to an arrangement order in the web document.

단계(S350)에서는 상기 웹 문서를 구성하는 본문에 대한 데이터, 상기 중요 키워드에 대한 데이터, 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터 및 상기 요약문에 대한 데이터를 포함하는 JSON 포맷 기반의 지식 데이터 문서 파일을 생성한다.In step S350, JSON format-based data including data on the body constituting the web document, data on the important keywords, data on the type and insertion position of each of the plurality of entities, and data on the summary sentence Generate knowledge data document files.

이때, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 n개의 단어들이 상기 중요 키워드로 선정되면, 상기 n개의 단어들 각각의 상기 웹 문서 내에서의 등장 빈도수와 상기 n개의 단어들 각각의 상기 웹 문서 내에서의 글자 크기의 평균 값을 산출한 후 상기 n개의 단어들 각각에 대해, 상기 등장 빈도수와 상기 평균 값을 성분으로 갖는 2차원 벡터를 구성함으로써, 상기 n개의 단어들 각각에 대응되는 특징 벡터를 생성하는 단계 및 상기 n개의 단어들 각각에 대응되는 특징 벡터를 기초로 K-평균 군집화를 수행하여, 상기 n개의 단어들을 K개의 그룹으로 군집화하고, 상기 K개의 그룹 중 동일 그룹 내에 속하는 단어들을 서로 유사한 중요도를 갖는 단어들로 지정한 후 상기 n개의 단어들 각각에 대해, 각 단어가 속해있는 그룹에 대한 그룹 정보를 할당하는 단계를 더 포함할 수 있다.In this case, according to an embodiment of the present invention, if the n words are selected as the important keywords, the frequency of occurrence of each of the n words in the web document and the n words The n words Generating a feature vector corresponding to each word and performing K-means clustering based on the feature vector corresponding to each of the n words to cluster the n words into K groups, and among the K groups The method may further include assigning group information about a group to which each word belongs to each of the n words after designating words belonging to the same group as words having similar importance.

이때, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 지식 데이터 문서 파일이 생성된 이후에, 상기 사용자로부터 상기 지식 데이터 문서 파일의 실행 명령이 인가되면, 상기 지식 데이터 문서 파일의 실행에 따른 화면 표시 영역을 본문 표시 영역, 중요 키워드 표시 영역, 개체 정보 표시 영역 및 요약문 표시 영역으로 분할하는 단계, 상기 지식 데이터 문서 파일에 포함된 상기 웹 문서를 구성하는 본문에 대한 데이터를 파싱하여, 상기 본문 표시 영역에 상기 웹 문서를 구성하는 본문을 표시하는 단계, 상기 지식 데이터 문서 파일에 포함된 상기 중요 키워드에 대한 데이터를 파싱하여, 상기 중요 키워드 표시 영역에 상기 n개의 단어들을 상기 K개의 그룹별로 구분해서 표시함과 동시에, 상기 n개의 단어들이 문서에 대한 중요 키워드임을 알리는 제1 알림 메시지와 상기 K개의 그룹 중 동일 그룹 내에 속하는 단어들이 서로 유사한 중요도를 갖는 단어임을 알리는 제2 알림 메시지를 생성하여 상기 중요 키워드 표시 영역에 표시하는 단계, 상기 지식 데이터 문서 파일에 포함된 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터를 파싱하여, 상기 개체 정보 표시 영역에 상기 복수의 개체들 각각의 타입과 상기 웹 문서에서의 삽입 위치에 대한 정보를 각 개체별로 대응시켜 표시하는 단계 및 상기 지식 데이터 문서 파일에 포함된 상기 요약문에 대한 데이터를 파싱하여, 상기 요약문 표시 영역에 상기 요약문을 표시하는 단계를 더 포함할 수 있다.At this time, according to an embodiment of the present invention, the operating method of the electronic device, if an execution command of the knowledge data document file is applied from the user after the knowledge data document file is generated, the operation of the knowledge data document file Dividing the screen display area according to the execution into a body display area, important keyword display area, object information display area, and summary display area, parsing data for the body constituting the web document included in the knowledge data document file , displaying the text constituting the web document in the text display area, parsing data for the important keywords included in the knowledge data document file, and displaying the n words in the important keyword display area. A first notification message notifying that the n words are important keywords for the document and a second notification message notifying that words belonging to the same group among the K groups are words having similar importance generating and displaying them in the important keyword display area, parsing data on the type and insertion position of each of the plurality of entities included in the knowledge data document file, and displaying each of the plurality of entities in the entity information display area. displaying information on the type of and the insertion position in the web document in correspondence with each entity, and parsing data on the summary included in the knowledge data document file, and displaying the summary in the summary display area Further steps may be included.

또한, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 미리 정해진 t(t는 2이상의 자연수)개의 암호화키들과 각 암호화키에 대응되는 0이상 t-1 이하의 정수가 대응되어 기록된 테이블을 저장하여 유지하는 단계, 상기 지식 데이터 문서 파일이 생성된 후, 상기 사용자로부터 상기 지식 데이터 문서 파일에 대한 보안 설정 명령이 수신되면, 상기 K개의 그룹 각각에 포함된 단어들의 개수를 나타내는 수치를 오름차순으로 연접해서 연접번호를 생성하는 단계, 상기 연접번호가 생성되면, 상기 연접번호를 피제수로, 상기 t를 제수로 하는 모듈로 연산을 수행함으로써, 연산 값을 산출하고, 상기 테이블로부터 상기 연산 값에 대응되는 제1 암호화키를 추출하는 단계, 상기 지식 데이터 문서 파일을 상기 제1 암호화키로 암호화하는 단계 및 상기 지식 데이터 문서 파일이 암호화되면, 상기 연접번호가 상기 지식 데이터 문서 파일의 복호화를 위한 보안코드임을 지시하는 안내 메시지를 화면 상에 표시하는 단계를 더 포함할 수 있다.In addition, according to an embodiment of the present invention, the operating method of the electronic device records predetermined t (t is a natural number of 2 or more) encryption keys and an integer of 0 or more and t-1 or less corresponding to each encryption key. storing and maintaining the table, after the knowledge data document file is generated, when a security setting command for the knowledge data document file is received from the user, a numerical value representing the number of words included in each of the K groups Generating a concatenated number by concatenating in ascending order, when the concatenated number is generated, performing a modulo operation with the concatenated number as a dividend and the t as a divisor to calculate an operation value, and calculating the calculation from the table Extracting a first encryption key corresponding to a value, encrypting the knowledge data document file with the first encryption key, and when the knowledge data document file is encrypted, the connection number is used to decrypt the knowledge data document file. The method may further include displaying a guide message indicating that the security code is the security code on the screen.

이때, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 지식 데이터 문서 파일의 암호화가 완료된 이후, 상기 사용자로부터 상기 지식 데이터 문서 파일의 보안 해제 명령이 수신되면, 상기 사용자에게 보안 해제를 위한 상기 보안코드를 입력하도록 지시하는 보안코드 입력 메시지를 화면 상에 표시하는 단계 및 상기 사용자로부터, 상기 보안코드 입력 메시지에 대응하여 상기 연접번호가 수신되면, 상기 연접번호를 피제수로, 상기 t를 제수로 하는 모듈로 연산을 수행함으로써, 상기 연산 값을 산출하고, 상기 테이블로부터 상기 연산 값에 대응되는 상기 제1 암호화키를 추출한 후, 상기 제1 암호화키로 상기 지식 데이터 문서 파일을 복호화하는 단계를 더 포함할 수 있다.At this time, according to an embodiment of the present invention, the operating method of the electronic device, if a security release command of the knowledge data document file is received from the user after the encryption of the knowledge data document file is completed, provides the user with security release. Displaying on the screen a security code input message instructing to input the security code for and when the connection number is received from the user in response to the security code input message, the connection number as the dividend, the t Decrypting the knowledge data document file with the first encryption key after calculating the operation value by performing a modulo operation with a divisor of , extracting the first encryption key corresponding to the operation value from the table. may further include.

이상, 도 3을 참조하여 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법은 도 1 내지 도 2를 이용하여 설명한 전자 문서를 지식 데이터 문서로 변환하는 전자 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.In the above, a method of operating an electronic device for converting an electronic document into a knowledge data document according to an embodiment of the present invention has been described with reference to FIG. 3 . Here, a method of operating an electronic device for converting an electronic document into a knowledge data document according to an embodiment of the present invention is an operation of the electronic device 110 for converting the electronic document described with reference to FIGS. 1 and 2 into a knowledge data document. Since it may correspond to the configuration for , a more detailed description thereof will be omitted.

본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.A method of operating an electronic device for converting an electronic document into a knowledge data document according to an embodiment of the present invention may be implemented as a computer program stored in a storage medium for execution through combination with a computer.

또한, 본 발명의 일실시예에 따른 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. In addition, a method of operating an electronic device for converting an electronic document into a knowledge data document according to an embodiment of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the medium may be those specially designed and configured for the present invention or those known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by specific details such as specific components and limited embodiments and drawings, but these are provided to help a more general understanding of the present invention, and the present invention is not limited to the above embodiments. , Those skilled in the art in the field to which the present invention belongs can make various modifications and variations from these descriptions.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the described embodiments, and it will be said that not only the claims to be described later, but also all modifications equivalent or equivalent to these claims belong to the scope of the present invention. .

110: 전자 문서를 지식 데이터 문서로 변환하는 전자 장치
111: 웹 문서 변환부 112: 중요 키워드 선정부
113: 개체 확인부 114: 요약문 생성부
115: 변환 처리부 116: 특징 벡터 생성부
117: 그룹 할당부 118: 분할부
119: 본문 표시부 120: 중요 키워드 표시부
121: 개체 정보 표시부 122: 요약문 표시부
123: 테이블 유지부 124: 연접번호 생성부
125: 암호화키 추출부 126: 파일 암호화부
127: 안내 메시지 표시부 128: 보안코드 입력 메시지 표시부
129: 복호화부
110: Electronic device for converting an electronic document into a knowledge data document
111: web document conversion unit 112: important keyword selection unit
113: object identification unit 114: summary statement generation unit
115: conversion processing unit 116: feature vector generation unit
117: group allocation unit 118: division unit
119: text display unit 120: important keyword display unit
121: object information display unit 122: summary statement display unit
123: table maintenance unit 124: connection number generation unit
125: encryption key extraction unit 126: file encryption unit
127: guide message display unit 128: security code input message display unit
129: decryption unit

Claims (12)

미리 정해진 t(t는 2이상의 자연수)개의 암호화키들과 각 암호화키에 대응되는 0이상 t-1 이하의 정수가 대응되어 기록된 테이블을 저장하여 유지하는 테이블 유지부;
사용자로부터 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 수신되면, 상기 전자 문서를 마크업 언어(markup language) 기반의 포맷을 갖는 웹 문서로 변환하는 웹 문서 변환부;
상기 전자 문서가 상기 웹 문서로 변환되면, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱(parsing)하여 상기 웹 문서에 포함된 단어들 중 상기 웹 문서 내에서의 등장 빈도수가 많은 순으로 n(n은 2이상 자연수)개의 단어들을 추출한 후 상기 n개의 단어들을 상기 웹 문서에 대한 중요 키워드로 선정하는 중요 키워드 선정부;
상기 n개의 단어들이 상기 중요 키워드로 선정되면, 상기 n개의 단어들 각각의 상기 웹 문서 내에서의 등장 빈도수와 상기 n개의 단어들 각각의 상기 웹 문서 내에서의 글자 크기의 평균 값을 산출한 후 상기 n개의 단어들 각각에 대해, 상기 등장 빈도수와 상기 평균 값을 성분으로 갖는 2차원 벡터를 구성함으로써, 상기 n개의 단어들 각각에 대응되는 특징 벡터를 생성하는 특징 벡터 생성부;
상기 n개의 단어들 각각에 대응되는 특징 벡터를 기초로 K-평균 군집화(K-means Clustering)를 수행하여, 상기 n개의 단어들을 K개의 그룹으로 군집화하고, 상기 K개의 그룹 중 동일 그룹 내에 속하는 단어들을 서로 유사한 중요도를 갖는 단어들로 지정한 후 상기 n개의 단어들 각각에 대해, 각 단어가 속해있는 그룹에 대한 그룹 정보를 할당하는 그룹 할당부;
상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 개체가 삽입되어 있는지 확인하고, 상기 웹 문서에 복수의 개체들이 삽입되어 있는 것으로 확인되는 경우, 상기 복수의 개체들 각각의 타입과 상기 복수의 개체들 각각의 상기 웹 문서에서의 삽입 위치를 확인하는 개체 확인부;
상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 포함된 문장들을 확인한 후 상기 웹 문서에 포함된 문장들 중 상기 n개의 단어들을 하나 이상 포함하고 있는 적어도 하나의 문장을 선택하고, 상기 적어도 하나의 문장을 상기 웹 문서에서의 배치 순서에 따라 배치하여 요약문을 생성하는 요약문 생성부;
상기 웹 문서를 구성하는 본문에 대한 데이터, 상기 중요 키워드에 대한 데이터, 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터 및 상기 요약문에 대한 데이터를 포함하는 JSON(JavaScript Object Notation) 포맷 기반의 지식 데이터 문서 파일을 생성하는 변환 처리부;
상기 지식 데이터 문서 파일이 생성된 후, 상기 사용자로부터 상기 지식 데이터 문서 파일에 대한 보안 설정 명령이 수신되면, 상기 K개의 그룹 각각에 포함된 단어들의 개수를 나타내는 수치를 오름차순으로 연접(Concatenation)해서 연접번호를 생성하는 연접번호 생성부;
상기 연접번호가 생성되면, 상기 연접번호를 피제수로, 상기 t를 제수로 하는 모듈로(modulo) 연산을 수행함으로써, 연산 값을 산출하고, 상기 테이블로부터 상기 연산 값에 대응되는 제1 암호화키를 추출하는 암호화키 추출부;
상기 지식 데이터 문서 파일을 상기 제1 암호화키로 암호화하는 파일 암호화부; 및
상기 지식 데이터 문서 파일이 암호화되면, 상기 연접번호가 상기 지식 데이터 문서 파일의 복호화를 위한 보안코드임을 지시하는 안내 메시지를 화면 상에 표시하는 안내 메시지 표시부
를 포함하는 전자 문서를 지식 데이터 문서로 변환하는 전자 장치.
a table maintenance unit for storing and maintaining a table in which predetermined t (t is a natural number of 2 or more) encryption keys and integers of 0 or more and t-1 or less corresponding to each encryption key are recorded;
a web document converter converting the electronic document into a web document having a format based on a markup language when a command for converting an electronic document into a knowledge data document is received from a user;
When the electronic document is converted into the web document, the markup language code constituting the web document is parsed, and among the words included in the web document, n (n an important keyword selection unit extracting n words (where n is a natural number equal to or greater than 2) and then selecting the n words as important keywords for the web document;
If the n words are selected as the important keywords, the average value of the frequency of occurrence of each of the n words in the web document and the font size of each of the n words in the web document is calculated, and then a feature vector generator configured to generate a feature vector corresponding to each of the n words by constructing a two-dimensional vector having the number of appearance frequencies and the mean value as components for each of the n words;
K-means clustering is performed based on the feature vector corresponding to each of the n words to cluster the n words into K groups, and words belonging to the same group among the K groups a group assigning unit assigning group information about a group to which each word belongs to each of the n words after designating them as words having similar importance;
By parsing the markup language code constituting the web document, it is checked whether an object is inserted into the web document, and when it is confirmed that a plurality of objects are inserted into the web document, the type of each of the plurality of objects and an object identification unit that checks an insertion position of each of the plurality of objects in the web document;
After parsing markup language codes constituting the web document to identify sentences included in the web document, selecting at least one sentence including one or more of the n words among sentences included in the web document; a summary sentence generation unit generating a summary sentence by arranging the at least one sentence according to an arrangement order in the web document;
JSON (JavaScript Object Notation) format-based data including data on the body constituting the web document, data on the important keywords, data on the type and insertion position of each of the plurality of entities, and data on the summary a conversion processor generating a knowledge data document file;
After the knowledge data document file is generated, when a security setting command for the knowledge data document file is received from the user, numerical values representing the number of words included in each of the K groups are concatenated in ascending order to concatenate them. a connection number generating unit generating a number;
When the concatenated number is generated, an operation value is calculated by performing a modulo operation with the concatenated number as the dividend and the t as the divisor, and obtaining a first encryption key corresponding to the operation value from the table Encryption key extraction unit to extract;
a file encryption unit encrypting the knowledge data document file with the first encryption key; and
When the knowledge data document file is encrypted, a guide message display unit for displaying a guide message indicating that the connection number is a security code for decryption of the knowledge data document file on the screen.
An electronic device that converts an electronic document containing a knowledge data document into a knowledge data document.
삭제delete 제1항에 있어서,
상기 지식 데이터 문서 파일이 생성된 이후에, 상기 사용자로부터 상기 지식 데이터 문서 파일의 실행 명령이 인가되면, 상기 지식 데이터 문서 파일의 실행에 따른 화면 표시 영역을 본문 표시 영역, 중요 키워드 표시 영역, 개체 정보 표시 영역 및 요약문 표시 영역으로 분할하는 분할부;
상기 지식 데이터 문서 파일에 포함된 상기 웹 문서를 구성하는 본문에 대한 데이터를 파싱하여, 상기 본문 표시 영역에 상기 웹 문서를 구성하는 본문을 표시하는 본문 표시부;
상기 지식 데이터 문서 파일에 포함된 상기 중요 키워드에 대한 데이터를 파싱하여, 상기 중요 키워드 표시 영역에 상기 n개의 단어들을 상기 K개의 그룹별로 구분해서 표시함과 동시에, 상기 n개의 단어들이 문서에 대한 중요 키워드임을 알리는 제1 알림 메시지와 상기 K개의 그룹 중 동일 그룹 내에 속하는 단어들이 서로 유사한 중요도를 갖는 단어임을 알리는 제2 알림 메시지를 생성하여 상기 중요 키워드 표시 영역에 표시하는 중요 키워드 표시부;
상기 지식 데이터 문서 파일에 포함된 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터를 파싱하여, 상기 개체 정보 표시 영역에 상기 복수의 개체들 각각의 타입과 상기 웹 문서에서의 삽입 위치에 대한 정보를 각 개체별로 대응시켜 표시하는 개체 정보 표시부; 및
상기 지식 데이터 문서 파일에 포함된 상기 요약문에 대한 데이터를 파싱하여, 상기 요약문 표시 영역에 상기 요약문을 표시하는 요약문 표시부
를 더 포함하는 전자 문서를 지식 데이터 문서로 변환하는 전자 장치.
According to claim 1,
After the knowledge data document file is created, if an execution command for the knowledge data document file is applied from the user, the screen display area according to the execution of the knowledge data document file is displayed as a text display area, important keyword display area, and entity information. a division unit dividing into a display area and a summary display area;
a text display unit for parsing data on the text constituting the web document included in the knowledge data document file and displaying the text constituting the web document in the text display area;
Data on the important keywords included in the knowledge data document file is parsed, and the n words are classified and displayed according to the K groups in the important keyword display area, and at the same time, the n words are important for the document. an important keyword display unit generating a first notification message notifying that a keyword is a keyword and a second notification message notifying that words belonging to the same group among the K groups are words having similar importance to each other and displaying the generated keyword in the important keyword display area;
By parsing data on the type and insertion position of each of the plurality of entities included in the knowledge data document file, information on the type of each of the plurality of entities and the insertion position in the web document is displayed in the object information display area. an object information display unit for displaying information corresponding to each object; and
A summary display unit for parsing data on the summary included in the knowledge data document file and displaying the summary in the summary display area.
An electronic device for converting an electronic document further comprising a knowledge data document.
삭제delete 제1항에 있어서,
상기 지식 데이터 문서 파일의 암호화가 완료된 이후, 상기 사용자로부터 상기 지식 데이터 문서 파일의 보안 해제 명령이 수신되면, 상기 사용자에게 보안 해제를 위한 상기 보안코드를 입력하도록 지시하는 보안코드 입력 메시지를 화면 상에 표시하는 보안코드 입력 메시지 표시부; 및
상기 사용자로부터, 상기 보안코드 입력 메시지에 대응하여 상기 연접번호가 수신되면, 상기 연접번호를 피제수로, 상기 t를 제수로 하는 모듈로 연산을 수행함으로써, 상기 연산 값을 산출하고, 상기 테이블로부터 상기 연산 값에 대응되는 상기 제1 암호화키를 추출한 후, 상기 제1 암호화키로 상기 지식 데이터 문서 파일을 복호화하는 복호화부
를 더 포함하는 전자 문서를 지식 데이터 문서로 변환하는 전자 장치.
According to claim 1,
After the encryption of the knowledge data document file is completed, when a security release command for the knowledge data document file is received from the user, a security code input message instructing the user to input the security code for security release is displayed on the screen. a security code input message display unit for displaying; and
When the connection number is received from the user in response to the security code input message, the operation value is calculated by performing a modulo operation with the connection number as the dividend and the t as the divisor, and from the table A decryption unit extracting the first encryption key corresponding to the operation value and then decrypting the knowledge data document file with the first encryption key.
An electronic device for converting an electronic document further comprising a knowledge data document.
미리 정해진 t(t는 2이상의 자연수)개의 암호화키들과 각 암호화키에 대응되는 0이상 t-1 이하의 정수가 대응되어 기록된 테이블을 저장하여 유지하는 단계;
사용자로부터 전자 문서에 대한 지식 데이터 문서로의 변환 명령이 수신되면, 상기 전자 문서를 마크업 언어(markup language) 기반의 포맷을 갖는 웹 문서로 변환하는 단계;
상기 전자 문서가 상기 웹 문서로 변환되면, 상기 웹 문서를 구성하는 마크업 언어 코드를 파싱(parsing)하여 상기 웹 문서에 포함된 단어들 중 상기 웹 문서 내에서의 등장 빈도수가 많은 순으로 n(n은 2이상 자연수)개의 단어들을 추출한 후 상기 n개의 단어들을 상기 웹 문서에 대한 중요 키워드로 선정하는 단계;
상기 n개의 단어들이 상기 중요 키워드로 선정되면, 상기 n개의 단어들 각각의 상기 웹 문서 내에서의 등장 빈도수와 상기 n개의 단어들 각각의 상기 웹 문서 내에서의 글자 크기의 평균 값을 산출한 후 상기 n개의 단어들 각각에 대해, 상기 등장 빈도수와 상기 평균 값을 성분으로 갖는 2차원 벡터를 구성함으로써, 상기 n개의 단어들 각각에 대응되는 특징 벡터를 생성하는 단계;
상기 n개의 단어들 각각에 대응되는 특징 벡터를 기초로 K-평균 군집화(K-means Clustering)를 수행하여, 상기 n개의 단어들을 K개의 그룹으로 군집화하고, 상기 K개의 그룹 중 동일 그룹 내에 속하는 단어들을 서로 유사한 중요도를 갖는 단어들로 지정한 후 상기 n개의 단어들 각각에 대해, 각 단어가 속해있는 그룹에 대한 그룹 정보를 할당하는 단계;
상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 개체가 삽입되어 있는지 확인하고, 상기 웹 문서에 복수의 개체들이 삽입되어 있는 것으로 확인되는 경우, 상기 복수의 개체들 각각의 타입과 상기 복수의 개체들 각각의 상기 웹 문서에서의 삽입 위치를 확인하는 단계;
상기 웹 문서를 구성하는 마크업 언어 코드를 파싱하여 상기 웹 문서에 포함된 문장들을 확인한 후 상기 웹 문서에 포함된 문장들 중 상기 n개의 단어들을 하나 이상 포함하고 있는 적어도 하나의 문장을 선택하고, 상기 적어도 하나의 문장을 상기 웹 문서에서의 배치 순서에 따라 배치하여 요약문을 생성하는 단계;
상기 웹 문서를 구성하는 본문에 대한 데이터, 상기 중요 키워드에 대한 데이터, 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터 및 상기 요약문에 대한 데이터를 포함하는 JSON(JavaScript Object Notation) 포맷 기반의 지식 데이터 문서 파일을 생성하는 단계;
상기 지식 데이터 문서 파일이 생성된 후, 상기 사용자로부터 상기 지식 데이터 문서 파일에 대한 보안 설정 명령이 수신되면, 상기 K개의 그룹 각각에 포함된 단어들의 개수를 나타내는 수치를 오름차순으로 연접(Concatenation)해서 연접번호를 생성하는 단계;
상기 연접번호가 생성되면, 상기 연접번호를 피제수로, 상기 t를 제수로 하는 모듈로(modulo) 연산을 수행함으로써, 연산 값을 산출하고, 상기 테이블로부터 상기 연산 값에 대응되는 제1 암호화키를 추출하는 단계;
상기 지식 데이터 문서 파일을 상기 제1 암호화키로 암호화하는 단계; 및
상기 지식 데이터 문서 파일이 암호화되면, 상기 연접번호가 상기 지식 데이터 문서 파일의 복호화를 위한 보안코드임을 지시하는 안내 메시지를 화면 상에 표시하는 단계
를 포함하는 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법.
storing and maintaining a table in which predetermined t (t is a natural number of 2 or more) encryption keys and integers of 0 or more and t-1 or less corresponding to each encryption key are recorded;
converting the electronic document into a web document having a format based on a markup language when a command for converting an electronic document into a knowledge data document is received from a user;
When the electronic document is converted into the web document, the markup language code constituting the web document is parsed, and among the words included in the web document, n (n extracting n words (where n is a natural number equal to or greater than 2) and then selecting the n words as important keywords for the web document;
If the n words are selected as the important keywords, the average value of the frequency of occurrence of each of the n words in the web document and the font size of each of the n words in the web document is calculated, and then generating a feature vector corresponding to each of the n words by constructing a two-dimensional vector having the number of appearance frequencies and the average value as components for each of the n words;
K-means clustering is performed based on the feature vector corresponding to each of the n words to cluster the n words into K groups, and words belonging to the same group among the K groups assigning group information about a group to which each word belongs to each of the n words after designating them as words having similar importance;
By parsing the markup language code constituting the web document, it is checked whether an object is inserted into the web document, and when it is confirmed that a plurality of objects are inserted into the web document, the type of each of the plurality of objects and checking an insertion position of each of the plurality of entities in the web document;
After parsing markup language codes constituting the web document to identify sentences included in the web document, selecting at least one sentence including one or more of the n words among sentences included in the web document; generating a summary sentence by arranging the at least one sentence according to an arrangement order in the web document;
JSON (JavaScript Object Notation) format-based data including data on the body constituting the web document, data on the important keywords, data on the type and insertion position of each of the plurality of entities, and data on the summary generating a knowledge data document file;
After the knowledge data document file is generated, when a security setting command for the knowledge data document file is received from the user, numerical values representing the number of words included in each of the K groups are concatenated in ascending order to concatenate them. generating a number;
When the concatenated number is generated, an operation value is calculated by performing a modulo operation with the concatenated number as the dividend and the t as the divisor, and obtaining a first encryption key corresponding to the operation value from the table extracting;
encrypting the knowledge data document file with the first encryption key; and
If the knowledge data document file is encrypted, displaying a guide message on the screen indicating that the connection number is a security code for decryption of the knowledge data document file.
A method of operating an electronic device that converts an electronic document including a knowledge data document into a knowledge data document.
삭제delete 제6항에 있어서,
상기 지식 데이터 문서 파일이 생성된 이후에, 상기 사용자로부터 상기 지식 데이터 문서 파일의 실행 명령이 인가되면, 상기 지식 데이터 문서 파일의 실행에 따른 화면 표시 영역을 본문 표시 영역, 중요 키워드 표시 영역, 개체 정보 표시 영역 및 요약문 표시 영역으로 분할하는 단계;
상기 지식 데이터 문서 파일에 포함된 상기 웹 문서를 구성하는 본문에 대한 데이터를 파싱하여, 상기 본문 표시 영역에 상기 웹 문서를 구성하는 본문을 표시하는 단계;
상기 지식 데이터 문서 파일에 포함된 상기 중요 키워드에 대한 데이터를 파싱하여, 상기 중요 키워드 표시 영역에 상기 n개의 단어들을 상기 K개의 그룹별로 구분해서 표시함과 동시에, 상기 n개의 단어들이 문서에 대한 중요 키워드임을 알리는 제1 알림 메시지와 상기 K개의 그룹 중 동일 그룹 내에 속하는 단어들이 서로 유사한 중요도를 갖는 단어임을 알리는 제2 알림 메시지를 생성하여 상기 중요 키워드 표시 영역에 표시하는 단계;
상기 지식 데이터 문서 파일에 포함된 상기 복수의 개체들 각각의 타입과 삽입 위치에 대한 데이터를 파싱하여, 상기 개체 정보 표시 영역에 상기 복수의 개체들 각각의 타입과 상기 웹 문서에서의 삽입 위치에 대한 정보를 각 개체별로 대응시켜 표시하는 단계; 및
상기 지식 데이터 문서 파일에 포함된 상기 요약문에 대한 데이터를 파싱하여, 상기 요약문 표시 영역에 상기 요약문을 표시하는 단계
를 더 포함하는 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법.
According to claim 6,
After the knowledge data document file is created, if an execution command for the knowledge data document file is applied from the user, the screen display area according to the execution of the knowledge data document file is displayed as a text display area, important keyword display area, and entity information. Dividing into a display area and a summary display area;
parsing data for the text constituting the web document included in the knowledge data document file, and displaying the text constituting the web document in the text display area;
Data on the important keywords included in the knowledge data document file is parsed, and the n words are classified and displayed according to the K groups in the important keyword display area, and at the same time, the n words are important for the document. generating a first notification message notifying that a keyword is a keyword and a second notification message notifying that words belonging to the same group among the K groups are words having similar importance to each other, and displaying them on the important keyword display area;
By parsing data on the type and insertion position of each of the plurality of entities included in the knowledge data document file, information on the type of each of the plurality of entities and the insertion position in the web document is displayed in the object information display area. Displaying information corresponding to each entity; and
Parsing data on the summary included in the knowledge data document file and displaying the summary in the summary display area
A method of operating an electronic device for converting an electronic document further comprising a knowledge data document.
삭제delete 제6항에 있어서,
상기 지식 데이터 문서 파일의 암호화가 완료된 이후, 상기 사용자로부터 상기 지식 데이터 문서 파일의 보안 해제 명령이 수신되면, 상기 사용자에게 보안 해제를 위한 상기 보안코드를 입력하도록 지시하는 보안코드 입력 메시지를 화면 상에 표시하는 단계; 및
상기 사용자로부터, 상기 보안코드 입력 메시지에 대응하여 상기 연접번호가 수신되면, 상기 연접번호를 피제수로, 상기 t를 제수로 하는 모듈로 연산을 수행함으로써, 상기 연산 값을 산출하고, 상기 테이블로부터 상기 연산 값에 대응되는 상기 제1 암호화키를 추출한 후, 상기 제1 암호화키로 상기 지식 데이터 문서 파일을 복호화하는 단계
를 더 포함하는 전자 문서를 지식 데이터 문서로 변환하는 전자 장치의 동작 방법.
According to claim 6,
After the encryption of the knowledge data document file is completed, when a security release command for the knowledge data document file is received from the user, a security code input message instructing the user to input the security code for security release is displayed on the screen. displaying; and
When the connection number is received from the user in response to the security code input message, the operation value is calculated by performing a modulo operation with the connection number as the dividend and the t as the divisor, and from the table After extracting the first encryption key corresponding to the operation value, decrypting the knowledge data document file with the first encryption key.
A method of operating an electronic device for converting an electronic document further comprising a knowledge data document.
제6항, 제8항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.A computer-readable recording medium recording a computer program for executing the method of any one of claims 6, 8 or 10 through a combination with a computer. 제6항, 제8항 또는 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.A computer program stored in a storage medium for executing the method of any one of claims 6, 8 or 10 through a combination with a computer.
KR1020200131892A 2020-10-13 2020-10-13 Electronic device for converting the electronic document to the knowledge data document and the operating method thereof KR102466721B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200131892A KR102466721B1 (en) 2020-10-13 2020-10-13 Electronic device for converting the electronic document to the knowledge data document and the operating method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200131892A KR102466721B1 (en) 2020-10-13 2020-10-13 Electronic device for converting the electronic document to the knowledge data document and the operating method thereof

Publications (2)

Publication Number Publication Date
KR20220048698A KR20220048698A (en) 2022-04-20
KR102466721B1 true KR102466721B1 (en) 2022-11-14

Family

ID=81395367

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200131892A KR102466721B1 (en) 2020-10-13 2020-10-13 Electronic device for converting the electronic document to the knowledge data document and the operating method thereof

Country Status (1)

Country Link
KR (1) KR102466721B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101828995B1 (en) * 2017-05-08 2018-02-14 한국과학기술정보연구원 Method and Apparatus for clustering keywords
KR101971172B1 (en) * 2018-08-23 2019-04-23 (주)씨에스피아이 Electronic Documnent File Converting System and the Method thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102128659B1 (en) * 2018-10-16 2020-06-30 주식회사 포스코아이씨티 System and Method for Extracting Keyword and Generating Abstract
KR102136656B1 (en) * 2018-11-01 2020-07-22 주식회사 한글과컴퓨터 Electronic terminal device capable of processing conditional security settings for a memo entered in a spreadsheet and operating method thereof
KR102125407B1 (en) * 2019-10-14 2020-06-22 주식회사 딥서치 Method and system for extracting sentences

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101828995B1 (en) * 2017-05-08 2018-02-14 한국과학기술정보연구원 Method and Apparatus for clustering keywords
KR101971172B1 (en) * 2018-08-23 2019-04-23 (주)씨에스피아이 Electronic Documnent File Converting System and the Method thereof

Also Published As

Publication number Publication date
KR20220048698A (en) 2022-04-20

Similar Documents

Publication Publication Date Title
US10778441B2 (en) Redactable document signatures
CN1979478B (en) File processing system and file processing method
CN106649457A (en) Data processing frame based on object relation mapping technology
CN111683098B (en) Anti-crawler method and device, electronic equipment and storage medium
US20230315858A1 (en) Configurable code signing system and method
EP3264314B1 (en) System and method for searching over encrypted data
CN111191255A (en) Information encryption processing method, server, terminal, device and storage medium
CN104715004B (en) Page description language output is obscured to hinder to be converted to editable format
KR102466721B1 (en) Electronic device for converting the electronic document to the knowledge data document and the operating method thereof
JP2011081030A (en) Searchable color-encoded file-composing method and searchable color-encoded file system
KR102417779B1 (en) Electronic device that generates knowledge data files for electronic documents based on container format and operating method thereof
KR102300444B1 (en) Document editing device to check whether the font applied to the document is a supported font and operating method thereof
CN100507913C (en) File processing method and system
KR102545264B1 (en) Web contents crawling apparatus which collects web contents data from the body area on the web page, and the operating method thereof
KR102300439B1 (en) Font verification server to verify whether the font applied to a document is authorized and operating method thereof
KR102545262B1 (en) Electronic terminal apparatus for providing information of the associated documents which are associated with the particular document based on simultaneous usage criteria and operating method thereof
KR102417811B1 (en) Document translation service server which provides document translation services with personal information protection function and the operating method thereof
KR102466706B1 (en) Electronic device that enables easy selection of dependent edit action in document editing programs and operating method thereof
KR102500725B1 (en) Electronic apparatus that generates a summary of an electronic document based on key keywords and operating method thereof
KR102394483B1 (en) Service providing server for providing an error determination service for judging whether there is an error in the electronic document and operating method thereof
KR20230124216A (en) Spelling correction service providing server that provides spelling correction service for electronic documents and operating method thereof
KR20220127484A (en) Electronic document management server that performs database processing for electronic document based on identification tag and operating method thereof
KR20230115177A (en) Service providing server that provides sentiment analysis service for marketing and the operating method thereof
KR20230115833A (en) Similar word providing service server to operate the similar word providing service that provides the similar word corresponding to the neologism word and the operating method thereof
KR20220067168A (en) Electronic device that supports tree-structured cataloging of a table inserted into an electronic document and the operating method thereof

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant