KR101753768B1 - A knowledge management system of searching documents on categories by using weights - Google Patents

A knowledge management system of searching documents on categories by using weights Download PDF

Info

Publication number
KR101753768B1
KR101753768B1 KR1020150138734A KR20150138734A KR101753768B1 KR 101753768 B1 KR101753768 B1 KR 101753768B1 KR 1020150138734 A KR1020150138734 A KR 1020150138734A KR 20150138734 A KR20150138734 A KR 20150138734A KR 101753768 B1 KR101753768 B1 KR 101753768B1
Authority
KR
South Korea
Prior art keywords
document
word
field
words
representative
Prior art date
Application number
KR1020150138734A
Other languages
Korean (ko)
Other versions
KR20170045403A (en
Inventor
김문수
강민수
김상기
김용욱
최종현
Original Assignee
한국외국어대학교 연구산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국외국어대학교 연구산학협력단 filed Critical 한국외국어대학교 연구산학협력단
Priority to KR1020150138734A priority Critical patent/KR101753768B1/en
Priority to PCT/KR2016/010225 priority patent/WO2017057858A1/en
Publication of KR20170045403A publication Critical patent/KR20170045403A/en
Application granted granted Critical
Publication of KR101753768B1 publication Critical patent/KR101753768B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F17/30011
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F17/277
    • G06F17/30312
    • G06F17/30651

Abstract

분야별 대표 색인어를 이용하여 해당 문서의 각 분야의 유사도를 산출하고, 검색된 문서에 대한 분야 정보를 각 분야별 유사도를 이용하여 검색결과를 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 관한 것으로서, 샘플 문서들로부터 대표 단어들을 추출하여 저장하는 대표단어 관리부; 각 문서에 대하여, 각 분야별 대표 색인어와 해당 문서 간의 유사도를 이용하여 해당 문서의 각 분야별 유사도를 산출하여 저장하는 유사도 연산부; 및, 문서 검색 요청에 따라 문서를 검색하고, 검색된 문서를 표시하여 제공하되, 검색된 문서의 각 분야별 유사도를 표시하는 검색부를 포함하는 구성을 마련한다.
상기와 같은 지식관리 시스템에 의하여, 분야별 대표 색인어를 추출하고 이를 이용하여 각 분야별 문서와의 유사도로 해당 분야의 소속 정도를 구함으로써. 문서나 산출물들을 보다 정확하게 분야별로 속하는 정도를 분석할 수 있고, 이를 통해, 보다 정확한 분야별 검색을 제공할 수 있다.
A knowledge management system having a plurality of search functions according to weights, which calculates the similarity of each field of the document using a representative index word for each field and provides a search result using domain similarity for each field of the retrieved document A representative word management unit for extracting and storing representative words from the sample documents; A degree of similarity calculation unit for calculating and storing the similarity degree of each document using the representative index word for each document and the degree of similarity between the document and each document; And a search unit for searching the document according to the document search request, displaying the searched document, and displaying the degree of similarity of each searched document.
By using the knowledge management system as described above, extracting a representative index word for each field and obtaining the degree of belonging to the field by using the similarity degree with the document of each field. It is possible to analyze the extent to which documents or artifacts belong more precisely in each field, thereby providing a more accurate sectoral search.

Description

가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 { A knowledge management system of searching documents on categories by using weights }BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to a knowledge management system,

본 발명은 분야별 대표 색인어를 이용하여 해당 문서의 각 분야의 유사도를 산출하고, 검색된 문서에 대한 분야 정보를 각 분야별 유사도를 이용하여 검색결과를 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 관한 것이다.The present invention relates to a method and apparatus for calculating a degree of similarity in each field of a document using a representative index word for each field and providing a search result using field similarity for each field, Management system.

또한, 본 발명은 문서를 분야별 대표 색인어와 유사도에 의하여 각 분야에 속하는 정도를 구하여, 사용자가 각 분야의 최소 유사도를 주어 문서를 검색하면, 다수 분야에 연관된 문서를 검색하여 그 결과를 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 관한 것이다.According to the present invention, a degree of similarity between a document and a representative index in each field is obtained, and when a user searches for a document with a minimum degree of similarity in each field, And a knowledge management system having a multiple field search function by weighting.

일반적으로, 지식관리 시스템(knowledge management system)은 지식을 얻기 위한 과정인 수집, 축적, 공유, 활용에서 공유와, 활용에 초점을 맞춰 자료를 찾는 사용자들이 정확한 자료를 찾고 활용할 수 있도록 지원해주는 시스템을 말한다. 지식 관리 시스템은 조직구성원의 지식자산에 대한 자세, 조직의 지식 평가/보상 체계, 지식공유 문화 등 조직차원의 인프라와 통신 네트워크, 하드웨어, 각종 소프트웨어 및 도구 등 정보기술 차원의 인프라를 기본 전제로 하고 있다.In general, a knowledge management system is a system that supports users to find and utilize accurate data by focusing on sharing, utilization, and collecting, accumulating, sharing, and utilizing knowledge acquisition processes. It says. The knowledge management system is based on the infrastructure of information technology such as organizational infrastructure, communication network, hardware, various software and tools such as attitude toward knowledge assets, organizational knowledge evaluation / compensation system, knowledge sharing culture have.

지식관리시스템은 지식베이스, 지식스키마, 지식맵의 3가지 요소로 구성되어 있다. 지식베이스가 원시데이터를 저장하는 데이터베이스에 비유된다면, 지식스키마는 원시데이터에 대한 메타데이터를 담고 있는 데이터 사전 또는 데이터베이스 스키마에 비유될 수 있다. 지식스키마 내에는 개별 지식의 유형, 중요도, 동의어, 주요 인덱스, 보안단계, 생성-조회-갱신-관리 부서 정보등과 전사적인 지식분류체계 등의 내용이 들어 있다. 집을 지을 때 설계가 중요하듯이 지식관리시스템을 구축할 때에도 먼저 지식스키마가 잘 구축되어야만 향후 저장된 지식을 활용하거나 유지-보수하는 작업이 효율적으로 수행될 수 있다.The knowledge management system consists of three components: knowledge base, knowledge schema, and knowledge map. If a knowledge base is compared to a database that stores raw data, then the knowledge schema can be compared to a data dictionary or database schema that contains metadata about the raw data. In the knowledge schema, contents such as the type of individual knowledge, importance, synonym, key index, security level, information of creation-inquiry-update-management department, and enterprise-wide knowledge classification system are included. As the design is important when building the house, the knowledge schema must be well established before building the knowledge management system so that the work of utilizing or maintaining the stored knowledge can be efficiently performed.

기업 등 조직들은 지식을 체계적으로 관리하고, 그것을 바탕으로 지식경영을 완성하기 위하여 지식관리시스템을 도입한다. 여기에서 지식관리란, "기업의 목표달성을 위하여 조직 내외에 산재해 있는 지식을 획득하고 조합하여 체계적으로 공유시키는 제반 행위"를 말한다. 지식관리에 관하여 자주 인용되곤 하는 가트너 그룹에 의하면 "지식경영이란 기업의 지적 자산을 생성, 채집, 구조화, 접근 및 사용을 하기 위한 관리방법론으로, 데이터베이스, 문서, 업무규정 및 절차뿐만 아니라 직원들 머리속에 담겨있는 전문지식이나 경험들까지 포함하는 것이다" 라고 하였다. 확실히, 지식이란 것은 특정폴더나 서류박스 안에 담겨있는 것은 아니라. 위로 CEO로부터 아래로 청소부에 이르기까지 전 임직원의 머리속에 담겨있는 것이 지식, 노하우이다. 이것을 꺼내어 체계적으로 공유하고자 하는 것이 바로 지식관리다. 그리고 지식경영이란, "지식관리활동을 기업의 비즈니스에 연결함으로써 어떠한 가치를 창출해 내는 일련의 과정"을 말한다. 결과적으로 말하자면, 기업이 지식관리시스템을 도입하는 이유는 개개인의 머리속에 담겨있는 지식과 노하우를 꺼내어 체계적으로 공유, 관리하고, 그것을 이용하여 기업만의 고유한 가치를 창출하기 위함이라고 볼 수 있다.Organizations such as corporations manage knowledge systematically and introduce knowledge management system to complete knowledge management based on it. Here, knowledge management refers to "all kinds of activities that acquire and combine knowledge scattered both inside and outside the organization to achieve corporate goals and systematically share them". According to the Gartner Group, which is frequently cited for knowledge management, "Knowledge management is a management methodology for creating, collecting, structuring, accessing and using an intellectual property of a company. It also includes the expertise and experiences that are contained within. " Certainly, knowledge is not contained in a specific folder or document box. Back to top From the CEO to the janitor down to the bottom of every employee's mind is knowledge and know-how. It is knowledge management that we want to take out and systematically share. Knowledge management refers to a series of processes that create value by linking knowledge management activities to the business of a company. As a result, the reason why companies adopt the knowledge management system is to take out the knowledge and know-how contained in the head of each individual, to systematically share and manage them, and to create value unique to the company.

특히, 기업 등 조직에서는 특정한 과제(또는 프로젝트)가 정해지거나 주어지면, 일정한 기간 내에 해당 과제를 진행하여 완성시키는 경우가 많다. 이때, 해당 과제 또는 프로젝트를 수행하면서, 수 많은 문서나 자료들을 참고하고, 또한, 새로운 문서나 자료들을 생산한다. 이렇게 프로젝트 진행중에 참고되거나 생산된 문서들은 해당 조직에게는 매우 소중한 지식과 노하우들 포함하고 있다. 따라서 상기와 같은 프로젝트 결과물들을 지식 베이스화하여 관리하는 것인 매우 중요한 일이다.Particularly, in organizations such as corporations, when a specific task (or project) is decided or given, the task is often progressed and completed within a certain period of time. At the same time, it will refer to a large number of documents or materials while producing the corresponding project or project, and also produce new documents or materials. These documents referenced or produced during the project include very valuable knowledge and know-how for the organization. Therefore, it is very important to manage the above project results with knowledge base.

특히, 기업 등 조직에서 수행하는 프로젝트들은 서로 연관성을 갖거나 유사한 경우가 많다. 따라서 기업 등 조직의 담당자가 과거에 진행된 프로젝트의 결과물들을 손쉽게 접근하여 자신이 원하는 문서 등 결과들을 정확하게 검색할 수 있다면, 이들 검색 결과를 활용하여 자신의 프로젝트를 보다 빠르고 품질 높은 결과물들을 도출할 수 있을 것이다.In particular, projects undertaken by organizations, such as corporations, are often correlated or similar. Therefore, if a person in charge of an organization such as a company can easily retrieve the results of a project conducted in the past and can accurately search results such as a desired document, it is possible to utilize these search results to obtain faster and higher quality results of the project will be.

이를 위한 지식관리 시스템은 프로젝트 진행시 참고한 문서나 새로 생산된 산출물을 수집하는 수집 기능, 수집한 자료들을 색인화하고 분류하여 축적하는 축적 기능, 축적된 지식을 쉽게 검색하도록 제공하는 공유 기능, 및, 검색된 자료들을 프로젝트에 활용하도록 지원하는 활용 기능 등을 제공해야 한다.The knowledge management system for this purpose is composed of a collection function for collecting reference documents and newly produced products, a storage function for indexing and categorizing the collected data, a sharing function for providing the accumulated knowledge easily, And provide the utilization functions to support the retrieved materials to be used in the project.

특히, 문서나 결과물(또는 산출물)의 검색을 위해서는 색인화하고 분류하여 축적하는 기능은 매우 중요하다. 또한, 수집한 자료들을 분야별로 검색할 수 있도록 제공할 수 있고, 분야별로 문서나 산출물들을 정확하게 검색하는 기술이 필요하다.In particular, the ability to index, categorize, and store documents is crucial for retrieving documents (or output). Also, it is necessary to provide a technique to search the collected data by field, and to search documents or products accurately by field.

[비특허문헌 1] 노동부(2010). 2010년 지식관리시스템 개선사업[Non-Patent Document 1] Ministry of Labor (2010). 2010 Knowledge Management System Improvement Project [비특허문헌 2] 강효정, 강인태, 이용호, 박용태(2002). 상용 지식 경영 시스템(KMS)의 유형 분류와 유형별 특성의 비교 분석. 2002 대한 산업공학회/경영과학회 공동 학술대회[Non-Patent Document 2] Kang, Hyojung, Kang In Tae, Yi-Ho Lee, and Yongtae Park (2002). Comparative Analysis of Type Classification and Characteristics of Commercial Knowledge Management System (KMS). 2002 Korea Industrial Engineering Association / Management Science Society Joint Conference [비특허문헌 3] 김지숙, 문현정, 우용태(2001). 효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법. 정보기술과 데이터베이스저널, 8(1), 117-128[Non-Patent Document 3] Kim Ji Sook, Moon Hyun Jung, and Yong Tae Woo (2001). Representative Index Extraction Technique for Efficient Document Classification. Information Technology and Database Journal, 8 (1), 117-128 [비특허문헌 4] 황재영, 이응봉(2003). 자동문헌분류를 위한 대표색인어 추출에 관한 연구. 제 10회 한국정보관리학회 학술대회 논문집, 55-64[Non-Patent Document 4] Hwang, Jae-young and Lee, Eung-bong (2003). A Study on Representative Index Extraction for Automatic Document Classification. Proceedings of the 10th Korea Information Management Society Conference, 55-64 [비특허문헌 5] 승현우, 박미영(2003). 연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구. 한국문헌정보학회지, 37(2), 89-105[Non-Patent Document 5] Sung Hyun Woo and Park Mi Yeong (2003). A Study on the Terminology Clustering Technique of Literature Informatics Using Association Rules. Journal of the Korean Society for Library and Information Science, 37 (2), 89-105 [비특허문헌 6] 이정화, 남상엽, 문현정, 우용태. 데이터마이닝 기법을 이용한 효율적인 전문용어 클러스터링. 210-215[Non-Patent Document 6] Lee Jung Hwa, Nam Sang Yop, Moon Hyun Jung, Woo Yong Tae. Efficient Terminology Clustering Using Data Mining Techniques. 210-215 [비특허문헌 7] M. O. Nassar, G. Kanaan, and H. A.H. Awad(2010). Comparison between Different Global Weighting Schemes. IMECS, 2010(1)[Non-Patent Document 7] M. O. Nassar, G. Kanaan, and H. A.H. Awad (2010). Comparison between Different Global Weighting Schemes. IMECS, 2010 (1) [비특허문헌 8] E. Chisholm and T. G. Kolda(1999). New Term Weighting Formulas For The Vector Space Method In Information Retrieval. Computer Science and Mathematics Division[Non-Patent Document 8] E. Chisholm and T. G. Kolda (1999). New Term Weighting Formulas For The Vector Space Method In Information Retrieval. Computer Science and Mathematics Division [비특허문헌 9] 홍성조(2013). 산업공학 교과과정 이수체계에 관한 연구. 공학교육연구, 16(6), 78-86.[Non-Patent Document 9] Hong Sung-Jo (2013). A Study on the Completion System of Industrial Engineering Curriculum. Engineering Education Research, 16 (6), 78-86. [비특허문헌 10] M., Goldszmidt and M., Sahami(1998). A Probabilistic Approach to Full-Text Document Clustering. Technical Report, ITAD-433-MS-98-044,SRI International, 434-444[Non-Patent Document 10] M., Goldszmidt and M., Sahami (1998). A Probabilistic Approach to Full-Text Document Clustering. Technical Report, ITAD-433-MS-98-044, SRI International, 434-444 [비특허문헌 11] D., Lewis and W.A., Gale(1994). A Sequential Algorithm for Training Text Classifiers. In proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, London, Springer-Verlag, 3-12.[Non-Patent Document 11] D., Lewis and W.A., Gale (1994). A Sequential Algorithm for Training Text Classifiers. In proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, London, Springer-Verlag, 3-12. [비특허문헌 12] 조태연, 윤성필(2006). Kano 모델과 QFD 통합을 통한 신제품 개발전략 수립에 관한 연구. 대한안정경영과학회지, 8, 57-70.[Non-Patent Document 12] Cho Tae Yeon and Yoon Sung Pil (2006). A Study on the Development Strategy of New Product by Integrating Kano Model and QFD. Journal of the Korean Statistical Society, 8, 57-70. [비특허문헌 13] 김수연, 이상복(2006). Kano 모델을 기반으로 한 공연장 고객의 니즈 파악에 관한 연구. 대한산업공학회 추계학술대회 논문집 16, 116-123.[Non-Patent Document 13] Kim, Soo-Yeon, and Sang-bok (2006). A Study on the Needs Identification of Audience Customers Based on the Kano Model. Proceedings of the Korean Society of Industrial and Engineering Engineering 16, 116-123. [비특허문헌 14] 특허청 지식관리시스템 사용자 매뉴얼[Non-Patent Document 14] Patent Office Knowledge Management System User's Manual [비특허문헌 15] 노희승, 윤경희(2011). 경찰지식관리시스템의 활성화 방안에 관한 연구. 한국치안행정논집, 8(1), 243-264.[Non-Patent Document 15] Noh Hee Seung and Yun Kyung Hee (2011). A Study on the Activation Plan of Police Knowledge Management System. Korean Public Administration Review, 8 (1), 243-264.

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 분야별 대표 색인어를 이용하여 해당 문서의 각 분야의 유사도를 산출하고, 검색된 문서에 대한 분야 정보를 각 분야별 유사도의 방사형으로 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템을 제공하는 것이다.The object of the present invention is to solve the problems as described above, and it is an object of the present invention to provide a method and apparatus for calculating similarity of each field of a document using a representative index word for each field and providing field information on the retrieved document, And a knowledge management system having a multiple field search function.

또한, 본 발명의 목적은 각 분야별 대표 색인어가 해당 문서에 나타나는 빈도와, 대표 색인어의 가중치를 이용하여, 각 분야와 해당 문서의 유사도를 산출하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템을 제공하는 것이다.It is also an object of the present invention to provide a knowledge management system having a plurality of categories of search functions based on weights, which calculates a degree of similarity between each field and a corresponding document using the frequency of appearance of representative index words in each field and the weight of representative index words System.

또한, 본 발명의 목적은 문서를 분야별 대표 색인어와 유사도에 의하여 각 분야에 속하는 정도를 구하여, 사용자가 각 분야의 최소 유사도를 주어 문서를 검색하면, 다수 분야에 연관된 문서를 검색하여 그 결과를 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템을 제공하는 것이다.It is also an object of the present invention to provide a method and a system for searching a document related to a plurality of fields when a user searches for a document with a minimum degree of similarity in each field, And a knowledge management system having a multiple field search function based on a weight.

상기 목적을 달성하기 위해 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 관한 것으로서, 샘플 문서들로부터 대표 단어들을 추출하여 저장하는 대표단어 관리부; 각 문서에 대하여, 각 분야별 대표 색인어와 해당 문서 간의 유사도를 이용하여 해당 문서의 각 분야별 유사도를 산출하여 저장하는 유사도 연산부; 및, 문서 검색 요청에 따라 문서를 검색하고, 검색된 문서를 표시하여 제공하되, 검색된 문서의 각 분야별 유사도를 표시하는 검색부를 포함하는 것을 특징으로 한다.In order to accomplish the above object, the present invention provides a knowledge management system having a plurality of search functions according to weights, comprising: a representative word manager for extracting and storing representative words from sample documents; A degree of similarity calculation unit for calculating and storing the similarity degree of each document using the representative index word for each document and the degree of similarity between the document and each document; And a search unit for searching a document according to a document search request, displaying the searched document, and displaying the similarity of each searched document.

또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 검색부는 검색된 문서의 각 분야별 유사도를 방사형 그래프로 표시하되, 상기 방사형 그래프의 방향 축을 각 분야를 나타내게 하고, 각 분야별 유사도를 해당 분야의 방향 축의 값으로 나타내게 하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a knowledge management system having a plurality of search functions by weight, wherein the search unit displays radial graphs of degree of similarity in each field of the retrieved document, And the degree of similarity in each field is represented by the value of the directional axis of the corresponding field.

또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 검색부는 분야별 검색을 제공하되, 각 분야별 최소 유사도를 설정할 수 있도록 제공하고, 각 분야별 최소 유사도가 설정되면, 해당 분야의 유사도가 해당 분야에서 설정한 최소 유사도 이상인 문서들만 검색하여 제공하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a knowledge management system having a plurality of search functions according to weights, wherein the search unit provides search by sector and provides a minimum degree of similarity for each field to be set. And searching and providing only those documents whose similarity degree in the field is equal to or greater than the minimum degree of similarity set in the relevant field.

또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 대표단어 관리부는 상기 샘플 문서들의 본문 텍스트에서 형태소 분석을 하여 단어들을 추출하고, 추출한 각 단어들에 대하여 각 문서에 대한 단어 가중치를 계산하고, 상기 문서에 대한 단어 가중치를 평균하여 해당 단어의 단어 가중치를 산출하고, 가중치가 높은 상위 단어들로부터 각 분야별 대표 색인어를 구성하는 것을 특징으로 한다.The representative word management unit extracts words from the body text of the sample documents by performing morpheme analysis on the sample texts, and extracts words of each document And calculating word weights of the words by averaging the word weights for the document, and constructing a representative index word for each field from the high-weighted high-order words.

또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 대표단어 관리부는 각 문서에 대한 단어 가중치는 문서 d에서 단어 t에 대한 출현 횟수를 나타내는 단어 빈도 TF와, 단어 t가 여러 문서에 나타날 경우 중요도가 낮아지는 정도를 나타내는 역문헌 빈도 IDF를 이용하여 연산되는 것을 특징으로 한다.According to the present invention, in the knowledge management system having a multiple field search function based on weights, the representative word management unit calculates a word weight for each document based on a word frequency TF indicating the number of occurrences for the word t in the document d, and the inverse document frequency IDF indicating the degree of importance reduction when t is displayed in various documents.

또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 대표단어 관리부는 문서 d에 대한 단어 t의 단어 가중치를 w't,d 를 다음 수식 1에 의해 연산되는 것을 특징으로 한다.Further, the present invention is a knowledge management system having a plurality of fields-based searching functions based on weights, wherein the representative word management unit calculates w ' t, d as a word weight of a word t with respect to a document d by .

[수식 1][Equation 1]

Figure 112015095338413-pat00001
Figure 112015095338413-pat00001

n은 문서 d에서 나타나는 서로 상이한 단어들의 개수이고, tft,d 는 문서 d에 대한 단어 t의 단어 빈도이고, idft 는 단어 t에 대한 역문헌 빈도임.n is the number of different words appearing in document d, tf t, d is the word frequency of word t for document d, and idf t is the inverse document frequency for word t.

또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 대표단어 관리부는 상기 상위 단어들이 동일한 문서 내의 단어와 일치하는 것을 연관규칙으로 하여 연관성 분석을 수행하고, 상기 연관성 분석으로 상위 단어들을 연관성 집합으로 그룹화하고, 사용자의 입력에 의하여 상기 연관성 집합을 각 분야로 분류시켜서, 해당 분야로 분류된 연관성 집합에 속하는 단어들을 대표 색인어로 구성하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a knowledge management system having a plurality of search functions according to weights, wherein the representative word management unit performs association analysis with association rules that the upper words match words in the same document, The upper words are grouped into an association set by analysis and the association sets are classified into respective fields by a user's input so that words belonging to the association set classified into the corresponding field are configured as representative index words.

또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 유사도 연산부는 각 분야별 대표 색인어와 해당 문서 간의 유사도는 다음 [수식 2]에 의해 연산되는 것을 특징으로 한다.The present invention is characterized in that, in a knowledge management system having a multiple field search function based on a weight, the similarity degree calculation unit calculates the similarity degree between a representative index word for each field and the corresponding document according to the following [Equation 2].

[수식 2][Equation 2]

Figure 112015095338413-pat00002
Figure 112015095338413-pat00002

단, cosθ(X,Y)는 해당 문서와 분야별 대표 색인어 간의 유사도이도, n은 분야별 대표 색인어의 개수이고, i는 대표 색인어의 인덱스이고, Xi는 해당 문서에 대한 단어 가중치이고, Yi는 대표 색인어의 단어 가중치임.Here, cos? (X, Y) is the degree of similarity between the document and the representative index word for each field, n is the number of representative index words per field, i is the index of the representative index word, Xi is the word weight for the document, Is the word weight of.

또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 해당 문서에 대한 단어 가중치 Xi는 단어 빈도 및 역문헌 빈도에 의해 구해지되, 역문헌 빈도는 샘플 문서들에서 구한 해당 단어의 역문헌 빈도를 사용하는 것을 특징으로 한다.Further, the present invention provides a knowledge management system having a multi-field search function by weight, wherein the word weight Xi for the document is obtained by word frequency and inverse document frequency, And the reverse document frequency of the obtained word is used.

상술한 바와 같이, 본 발명에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 의하면, 분야별 대표 색인어를 추출하고 이를 이용하여 각 분야별 문서와의 유사도로 해당 분야의 소속 정도를 구함으로써. 문서나 산출물들을 보다 정확하게 분야별로 속하는 정도를 분석할 수 있고, 이를 통해, 보다 정확한 분야별 검색을 제공할 수 있는 효과가 얻어진다.As described above, according to the knowledge management system having a multi-field search function by weight according to the present invention, by extracting a representative index word for each field and obtaining the degree of belonging to the field by the degree of similarity with each field document, It is possible to analyze the extent to which the document or the output belongs more accurately according to the field, thereby providing a more accurate field search.

도 1은 본 발명을 실시하기 위한 전체 시스템 일례의 구성에 대한 블록도.
도 2는 본 발명의 일실시예에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템의 구성에 대한 블록도.
도 3은 본 발명의 일실시예에 따른 대표단어 관리부에서 대표 단어를 추출하는 방법을 설명하는 흐름도.
도 4은 본 발명의 일실시예에 따라 수집 문서에서 본문 내용을 추출한 결과에 대한 예시도.
도 5는 본 발명의 일실시예에 따른 형태소 분석기에 의한 실행 결과에 대한 예시도.
도 6는 본 발명의 일실시예에 따른 전문용어 시소러스의 일부분에 대한 예시도.
도 7은 본 발명의 일실시예에 따른 문서 및 그 내의 단어에 대한 통계적 수치를 나타낸 표.
도 8은 본 발명의 일실시예에 따른 가중치가 높은 상위의 단어들의 일부를 나타낸 표.
도 9은 본 발명의 일실시예에 따른 상위 단위에 대한 문서 유무 판별 예시를 나타낸 표.
도 10는 본 발명의 일실시예에 따른 전문용어 "품질"에 대한 지지도/신뢰도별 연관 규칙의 수를 나타낸 표.
도 11은 본 발명의 일실시예에 따른 1차 연관 용어 집합 일부분을 나타낸 표.
도 12은 본 발명의 일실시예에 따른 분야별 대표 단어들로 추출한 것을 예시로 나타낸 표.
도 13은 본 발명의 일실시예에 따른 검색부에 의한 검색 결과에 대한 예시도.
도 14는 본 발명의 일실시예에 따른 검색부에 의한 분야별 검색 결과에 대한 예시도.
BRIEF DESCRIPTION OF THE DRAWINGS Fig. 1 is a block diagram of a configuration example of an entire system for carrying out the present invention; Fig.
BACKGROUND OF THE INVENTION Field of the Invention [0001] The present invention relates to a knowledge management system and a knowledge management system.
3 is a flowchart illustrating a method of extracting representative words from a representative word management unit according to an exemplary embodiment of the present invention.
FIG. 4 is an exemplary diagram illustrating the result of extracting text content from a collection document according to an embodiment of the present invention; FIG.
FIG. 5 is an exemplary diagram illustrating an execution result of a morpheme analyzer according to an embodiment of the present invention; FIG.
6 is a diagram illustrating an example of a part of a terminology thesaurus according to an embodiment of the present invention;
7 is a table showing statistical values for a document and words therein according to an embodiment of the present invention;
FIG. 8 is a table showing a part of words having higher weights according to an embodiment of the present invention; FIG.
FIG. 9 is a table showing an example of discrimination of presence or absence of a document with respect to an upper unit according to an embodiment of the present invention; FIG.
10 is a table showing the number of association rules for support / reliability for the terminology "quality " according to an embodiment of the present invention.
11 is a table showing a portion of a primary association term set in accordance with an embodiment of the present invention.
12 is a table showing an example extracted by representative words according to an embodiment of the present invention.
13 is an exemplary view showing a search result by a search unit according to an embodiment of the present invention;
FIG. 14 is an exemplary view illustrating search results by field by a search unit according to an embodiment of the present invention; FIG.

이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the drawings.

또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.In the description of the present invention, the same parts are denoted by the same reference numerals, and repetitive description thereof will be omitted.

먼저, 본 발명을 실시하기 위한 전체 시스템의 구성에 대하여 도 1을 참조하여 설명한다.First, the overall system configuration for carrying out the present invention will be described with reference to Fig.

도 1a 또는 도 1b에서 보는 바와 같이, 본 발명에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 상의 프로그램 시스템으로 실시될 수 있다.As shown in FIG. 1A or FIG. 1B, the knowledge management system having a multiple field search function according to the present invention can be implemented as a server system on a network or a program system on a computer terminal.

도 1a와 같이, 본 발명의 실시를 위한 전체 시스템의 일례는 사용자 단말(10)과 지식관리 서버(30)로 구성되고 서로 네트워크(20)로 연결된다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)를 더 구비할 수 있다.As shown in FIG. 1A, an example of an overall system for implementing the present invention is composed of a user terminal 10 and a knowledge management server 30 and connected to each other via a network 20. It is also possible to further include a database 40 for storing necessary data.

사용자 단말(10)은 사용자가 이용하는 PC, 노트북, 넷북, PDA, 모바일, 태블릿, 패블릿 등의 통상의 컴퓨팅 단말기이다. 사용자는 사용자 단말(10)을 이용하여 문서 검색을 지식관리 서버(30)로 요청하거나, 검색된 문서 또는 그 결과들을 지식관리 서버(30)로부터 수신한다.The user terminal 10 is a conventional computing terminal such as a PC, a notebook, a netbook, a PDA, a mobile, a tablet, and a pellet which the user uses. A user requests a document search using the user terminal 10 to the knowledge management server 30 or receives the retrieved document or its results from the knowledge management server 30. [

지식관리 서버(30)는 통상의 서버로서 네트워크(20)에 연결되어, 분야별 대표 색인어 및, 문서들을 저장한다. 또한, 지식관리 서버(30)는 문서에 대한 검색 기능을 제공하고, 사용자 단말(10)로부터의 검색 요청에 따라 문서들을 검색하고 그 결과를 전송한다.The knowledge management server 30 is connected to the network 20 as a normal server, and stores representative index words and documents of each field. In addition, the knowledge management server 30 provides a search function for a document, searches documents according to a search request from the user terminal 10, and transmits the results.

한편, 지식관리 서버(30)는 상기 각 서비스들을 인터넷 상의 웹페이지로 제공하는 웹서버 또는 웹어플리케이션 서버 등으로 구현될 수 있다. 또한, 지식관리 서버(30)는 어플리케이션이나 어플리케이션 서버로서 구축될 수 있다. 지식관리 서버(30)는 문서를 수집하여 지식 베이스로 구성하고, 사용자에게 해당 문서를 검색할 수 있도록 제공한다. 이때, 지식관리 서버의 하나의 구성 요소로서 문서를 검색하여 제공하는 기능이 구축될 수 있다.On the other hand, the knowledge management server 30 may be implemented as a web server or a web application server that provides the respective services as web pages on the Internet. Further, the knowledge management server 30 can be constructed as an application or an application server. The knowledge management server 30 collects documents to form a knowledge base, and provides the user with a search for the documents. At this time, a function of searching and providing a document as one component of the knowledge management server can be constructed.

데이터베이스(40)는 지식관리 서버(30)에서 필요한 데이터를 저장하는 통상의 저장매체로서, 문서 분류를 위한 대표 색인어, 분야 등 데이터를 저장하거나, 분류된 문서들을 지식 베이스로 구축하여 저장한다.The database 40 is a conventional storage medium for storing data required by the knowledge management server 30, and stores data such as a representative index word and a field for document classification, or builds and stores classified documents as a knowledge base.

도 1b와 같이, 본 발명의 실시를 위한 전체 시스템의 다른 예는 컴퓨터 단말(13)에 설치되는 프로그램 형태의 지식관리 장치(30)로 구성된다. 즉, 지식관리 장치(30)의 각 기능들은 컴퓨터 프로그램으로 구현되어 컴퓨터 단말(13)에 설치되어, 검색 요청 등을 컴퓨터 단말(13)의 입력장치를 통해 입력받아, 검색 요청에 다라 검색하고 그 결과를 컴퓨터 단말(13)의 출력장치를 통해 출력하거나 저장한다. 한편, 지식관리 장치(30)에서 필요한 데이터들은 컴퓨터 단말(13)의 하드디스크 등 저장공간에 저장되어 이용된다.1B, another example of the entire system for carrying out the present invention is constituted by a knowledge management apparatus 30 of a program type installed in the computer terminal 13. [ That is, each function of the knowledge management device 30 is implemented as a computer program and installed in the computer terminal 13, receives a search request or the like through the input device of the computer terminal 13, And outputs or stores the result through the output device of the computer terminal 13. [ On the other hand, data required by the knowledge management device 30 is stored in a storage space such as a hard disk of the computer terminal 13 and used.

즉, 본 발명에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 등 컴퓨팅 장치 상의 프로그램 시스템으로 실시될 수 있다.That is, the knowledge management system having a plurality of search functions according to the weight according to the present invention can be implemented as a program system on a computing device such as a server system or a computer terminal on a network.

다음으로, 본 발명의 일실시예에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템을 도 2를 참조하여 설명한다.Next, a knowledge management system having a multiple-field search function according to an embodiment of the present invention will be described with reference to FIG.

도 2에서 보는 바와 같이, 본 발명에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템은 대표 단어들을 추출하여 저장하는 대표단어 관리부(31), 해당 문서의 각 분야별 유사도를 산출하여 저장하는 유사도 연산부(32), 및, 문서 검색 요청에 따라 문서를 검색하여 그 결과를 제공하는 검색부(33)로 구성된다. 또한, 데이터를 저장하기 위한 데이터베이스(40)를 추가하여 구성된다.As shown in FIG. 2, the knowledge management system having a plurality of search functions by weight according to the present invention includes a representative word management unit 31 for extracting representative words and storing representative words, A similarity calculation unit 32, and a search unit 33 for searching a document according to a document search request and providing a result of the search. In addition, a database 40 for storing data is added.

먼저, 대표단어 관리부(31)는 샘플 문서들을 대상으로 단어들을 추출하고, 추출된 단어들로부터 각 분야별 대표 단어 또는 대표 색인어를 추출한다.First, the representative word management unit 31 extracts words from the sample documents and extracts representative words or representative index words from the extracted words.

도 3에서 보는 바와 같이, 대표단어 관리부(31)는 본문 텍스트 추출 단계(S10), 본문 텍스트에서 단어들을 추출하는 단계(S20), 추출된 단어들에 대한 가중치를 산출하는 단계(S30), 및, 추출된 단어로부터 각 분야별 대표 색인어들 추출하는 단계(S40)로 구성되는 방법을 수행하여, 대표 단어(또는 대표 색인어)를 추출한다.As shown in FIG. 3, the representative word management unit 31 includes a body text extraction step S10, a step S20 of extracting words from the body text, a step S30 of calculating weight values of the extracted words, , And extracting representative index words for each field from the extracted words (S40), thereby extracting representative words (or representative index words).

먼저, 샘플 문서들로부터 문서의 본문 텍스트를 추출한다(S10). 즉, 수집한 샘플 문서에서 문서의 본문 내용만을 텍스트로 추출한다.First, the body text of the document is extracted from the sample documents (S10). That is, in the collected sample document, only the contents of the text of the document are extracted as text.

상기 샘플 문서들은 대표 단어를 추출하기 위한 것으로서, 전체 문서 중 일부 샘플링된 문서들을 사용하거나, 현재 데이터베이스(40)에 저장된 문서들을 모두 사용할 수 있다. 문서는 관련 분야의 문서, 논문, 프로젝트 산출물 등이다. 대표 색인어(또는 대표 단어)를 추출하기 위하여, 각 분야에 모두 속하는 충분히 양의 문서들을 분석하여, 해당 문서들로부터 각 분야별 대표 색인어를 추출할 수 있다.The sample documents are used for extracting representative words, and some of the documents stored in the database 40 may be used. Documents are related documents, papers, project outputs, etc. In order to extract a representative index word (or a representative word), it is possible to analyze a sufficient amount of documents belonging to each field, and to extract a representative index word for each field from the documents.

바람직하게는, 상기 문서들을 아파치 티카(Apache Tika)를 이용하여 문서의 본문을 추출한다. 아파치 티카는 특정 문서에서 본문 텍스트와 메타정보를 제공하는 API(Application Program Interface)이다. 즉, 아파치 티카는 문서 타입 검출 및 다양한 파일 형식에서 콘텐츠를 추출하는 기능을 제공하는 라이브러리이다. 아파치 티카는 PDF, 마이크로소프트사의 오피스 문서, 텍스트(txt) 등 다양한 문서를 지원한다.Preferably, the documents are extracted using Apache Tika. Apache Tika is an API (Application Program Interface) that provides textual text and meta information in a specific document. In other words, Apache Tika is a library that provides document type detection and content extraction from various file formats. Apache Tika supports a variety of documents, including PDF, Microsoft Office documents, and text (txt).

수집한 문서에서 추출한 본문 또는 문서 내용은 *, &, ^ 등 특수 문자와 공백을 제거되고, 텍스트 파일로 저장된다. 도 4은 아파치 티카의 실행 결과를 도시하고 있다.The text or document contents extracted from the collected documents are saved as a text file, with special characters such as *, &, ^, and spaces removed. 4 shows the execution result of the Apache Tika.

다음으로, 상기 본문 텍스트로부터 단어(또는 색인 단어)들을 추출한다(S20). 구체적으로, 문서의 본문 텍스트에서 형태소를 분석하여, 불용어들을 제거하고, 전문용어 사전을 참조하여 동의어를 처리한다. 즉, 상기 단어 추출 단계(S20)는 형태소 분석 단계(S21), 불용어 제거 단계(S22), 및, 전문용어에 의한 동의어 처리 단계(S23)로 구성된다.Next, words (or index words) are extracted from the body text (S20). Specifically, the morpheme is analyzed in the body text of the document, the abbreviations are removed, and the synonyms are processed by referring to the terminology dictionary. That is, the word extracting step S20 includes a morpheme analysis step S21, a stopword removal step S22, and a synonym processing step S23.

구체적으로, 문서의 저장된 본문 내용으로부터 형태소를 분석하여, 어절 단위와 품사 구별을 수행한다(S21). 텍스트 형태로 저장된 문서 본문 내용에 형태소 분석기를 적용하여, 상기 본문 내용을 각각의 형태소로 구분한다.Specifically, the morpheme is analyzed from the contents of the stored text of the document, and the phrase unit and the part-of-speech are distinguished (S21). The morpheme analyzer is applied to the contents of the document body stored in a text form to divide the contents of the text into morphemes.

바람직하게는, 상기 형태소 분석기로서, 샤인웨어(SHINEWARE)가 제작한 코모란(KOMORAN) 등의 상용화된 도구를 이용한다. 그외에도 강승식(국민대)교수가 제작한 HAM, 서울대학교IDS 에서 제작한 꼬꼬마 형태소 분석기 등 어느 형태소 분석기도 적용될 수 있다. 상기 형태소 분석기를 이용하여 어절단위와 품사구별을 한다. 도 5는 형태소 분석기에 의한 실행 결과이다.Preferably, commercially available tools such as a KOMORAN manufactured by SHINEWARE are used as the morpheme analyzer. In addition, any morphological analyzer such as HAM produced by Professor Kang Seung-sik (Kookmin Univ.) Or Koho morphological analyzer manufactured by IDS of Seoul National University can be applied. The morpheme analyzer is used to distinguish the word units and parts of speech. 5 shows the result of execution by the morpheme analyzer.

다음으로, 구분된 형태소들에서 불용어들을 제거한다(S22). 즉, 형태소 분석기로 나누어진 형태소 중 색인단어로는 의미가 없는 불용어들을 제거한다. 불용어 제거는 형태소 분석기에 저장된 명사와 복합명사를 제외하고 조사, 동사, 접속사, 형용사 등과 같은 다른 품사는 모두 제거한다.Next, the stopwords are removed from the separated morphemes (S22). In other words, the morphemes that are separated by the morpheme analyzer remove the insignificant words which are not meaningful as index words. Removal of abbreviations removes all other parts of speech, including verbs, verbs, conjunctions, and adjectives, except nouns and compound nouns stored in the morpheme analyzer.

예를 들어, 색인 단어로 필요하지 않은 ‘와’, ‘같습니다’ 등은 불용어로서, 제거되어야 한다. 구체적으로, “생산관리는 산업공학 분야에서 기업의 생산을 향상시키는 중요한 과목이다”라는 문장을 형태소 분석기로 분석하면, ‘생산관리’+ ‘산업공학’ + ‘분야’+ ‘기업’ + ‘생산’+ ‘향상’ + ‘과목’으로 분리한다. 위의 예문과 같이 복합명사, 명사를 제외하고는 모두 제외한다고 볼 수 있다.For example, 'and', 'equal', and so on, which are not required as index words, are abbreviated and should be removed. Specifically, the analysis of the sentence "Production management is an important subject for improving corporate production in the field of industrial engineering" is analyzed with a stemmer analyzer. The results of the analysis are as follows: production management + industrial engineering + field + '+' Improvement '+' subject '. As in the example sentence above, except for compound nouns and nouns, all are excluded.

다음으로, 전문용어 사전을 이용하여, 단어에 대하여 전문용어의 동의어를 처리한다(S23). 즉, 동일한 의미이지만 서로 다른 형태로 표시되는 단어(또는 용어)들을 동일한 단어 또는 동일한 용어로 처리한다. 바람직하게는, 동일한 의미를 가지는 다수의 단어 중에서 대표 단어를 선택하고, 대표 색인 단어와 동일한 의미를 갖는 모든 단어 또는 용어들을 대표 단어 또는 대표 용어로 처리한다.Next, the terminology dictionary is used to process a synonym for a terminology for a word (S23). That is, words (or terms) displayed in the same meaning but in different forms are treated as the same word or the same term. Preferably, a representative word is selected from among a plurality of words having the same meaning, and all words or terms having the same meaning as the representative index word are processed as representative words or representative words.

문서분류 과정에서 동의어 처리는 꼭 필요한 부분이라고 할 수 있다. 예를 들어 ‘공급망관리, 공급사슬관리, SCM, Supply Chain Management’는 의미가 같은 전문용어다. 이를 같은 용어로 처리하기 위해서는 동의어 처리가 필요 하다.Synonym processing is a necessary part of the document classification process. For example, "Supply Chain Management, Supply Chain Management, SCM, Supply Chain Management" are the same jargon. Synonym processing is required to handle this in the same terminology.

바람직하게는, 전문용어는 전문용어 사전을 이용한다. 즉, 전문용어 사전의 전문용어들을 토대로 전문용어 시소러스를 제작한다. 시소러스란 데이터 검색을 위한 키워드(색인어)간의 관계, 즉 동의어, 하위어, 관련어 등의 관계를 나타낸 사전을 말한다. 도 6는 전문용어 시소러스의 일부분을 보여준다.Preferably, the terminology uses a terminology dictionary. That is, a terminology thesaurus is produced based on the terminology of the terminology dictionary. A thesaurus is a dictionary that shows the relationship between keywords (index words) for data retrieval, that is, a synonym, a subordinate word, a related word, and the like. Figure 6 shows a portion of a terminology thesaurus.

도 6에서 보는 바와 같이, 간반, 간판, 칸반, 칸반 시스템과 같은 의미는 같은데 형태가 다르게 나타난 단어들이 있다. 산업공학 용어 사전을 참고해 의미는 같은데 형태가 다른 단어들을 대표 단어 하나로 취급한다. 즉, 간반, 간판, 칸반을 칸반 시스템으로 통합하고 칸반 시스템이라는 단어가 총 4번 나온 것으로 처리한다. 즉, 의미는 같지만 형태가 다르게 나타난 단어를 처리한다.As shown in FIG. 6, there are words having the same meaning but different forms, such as kanban, signboard, kanban, and kanban system. It refers to industrial engineering terminology dictionary and treats words with the same meaning but different forms as one representative word. That is, integrate kanban, signboard, and kanban into kanban system and treat kanban system as four words in total. In other words, words that have the same meaning but different forms are processed.

다음으로, 추출한 단어들에 대하여, 단어의 가중치를 계산한다(S30). 각 문서에 대한 단어의 가중치를 계산하고, 이들을 평균하여 각 단어의 가중치를 계산한다.Next, the weight of the extracted words is calculated (S30). Weights of words for each document are calculated and averaged to calculate the weight of each word.

문서에 대한 단어 가중치는 단어 빈도(TF, Term Frequency)와 역문헌 빈도(IDF, Inverse Document Frequency)에 의해 계산한다. 즉, 하나의 문서 D에서 단어 w에 대한 가중치(weight)값을 산출하여, 여러 문서들 중 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로 표현한다.The word weights for the document are calculated by the TF (Term Frequency) and the Inverse Document Frequency (IDF). That is, a weight value for a word w in one document D is calculated, and expressed as a statistical value indicating how important a word among the various documents is in a specific document.

문서와 단어에 대한 통계적 수치들은 다음과 같다.Statistical values for documents and words are as follows.

TF(Term Frequency)는 하나의 문서 d에서 단어 t에 대한 출현 횟수를 의미하며, tft,d로 표시한다. 이를 단어 빈도라 부르기로 한다.TF (Term Frequency) refers to the number of occurrences of a word t in a document d , expressed as tf t, d . This is called word frequency.

또한, DF(Document Frequency)는 단어 t를 포함한 문서의 수를 의미하며, 이를 dft로 표시한다. 이를 문서 빈도라 부르기로 한다.Also, DF (Document Frequency) means the number of documents including the word t, which is denoted by df t . This is called document frequency.

또한, IDF(Inverse Document Frequency)는 단어 t가 여러 문서에 나타날 경우 중요도가 낮아짐을 나타내며, 이를 idft 로 표시한다. 또한, 이를 역문헌 빈도라 부르기로 한다., In addition, the IDF (Inverse Document Frequency) indicates that the importance degree is lowered when the word t appears in a plurality of documents, and is expressed by idf t . Also, this is called reverse document frequency.

즉, 역문헌 빈도 IDF는 다음 [수학식 1]과 같이 표현될 수 있다.That is, the inverse document frequency IDF can be expressed by the following equation (1).

[수학식 1][Equation 1]

Figure 112015095338413-pat00003
Figure 112015095338413-pat00003

여기서, N은 문서의 총수를 의미한다. Here, N means the total number of documents.

따라서 문서에서 단어 가중치는 다음 [수학식 2]에 의해 계산한다.Therefore, the word weight in the document is calculated by the following equation (2).

[수학식 2]&Quot; (2) "

Figure 112015095338413-pat00004
Figure 112015095338413-pat00004

여기서, wt,d는 하나의 문서 d에서 단어 t에 대한 가중치이다.Where w t, d is the weight for word t in one document d.

상기와 같은 문서에 대한 통계적 수치를 세부적으로 나타내면, 도 7과 같이 다양하게 표시될 수 있다.The statistical numerical values for the above document can be expressed in various ways as shown in FIG.

도 7의 TF 공식들의 정확도를 살펴본다. 길이가 긴 문서는 일반적으로 단어들이 반복적으로 나타나기 때문에 길이가 짧은 문서에 비하여 비교적 높은 가중치를 나타낸다. 또한, 동일한 단어가 짧은 문서에서 3번 나타는 것과 긴 문서에서 3번 나타나는 것이 같은 가중치를 가진다고 말하기 어렵기 때문에 각 문서의 크기와 단어의 비중을 같게 만들기 위해 문서길이 정규화를 추가로 적용한다.The accuracy of the TF formulas in FIG. 7 will now be discussed. Documents with a long length generally exhibit relatively high weights compared to documents with a short length because the words appear repeatedly. In addition, since it is difficult to say that the same word appears three times in a short document and three times in a long document have the same weight, an additional document length normalization is applied to make each document equal in weight and word weight.

즉, 문서 길이에 대하여 문서를 정규화하고, 정규화된 문서 d에 데하여 단어 가중치를 구한다. 다음 수학식 3은 정규화된 문서 d에 대한 단어 가중치 w't,d를 나타낸 것이다.That is, the document is normalized with respect to the document length, and the word weight is obtained in the normalized document d. The following equation (3) shows the word weight w ' t, d for the normalized document d.

[수학식 3]&Quot; (3) "

Figure 112015095338413-pat00005
Figure 112015095338413-pat00005

여기서, n은 문서에서 나타나는 단어(서로 상이한 단어들)의 개수를 나타낸다.Here, n represents the number of words (different words) appearing in the document.

상기와 같은 단어 가중치를 적용하여 모든 문서에서 공통적으로 출현하는 단어에 대한 가중치를 정규화하여 조정한다.The above-mentioned word weights are applied to normalize and adjust the weights of words commonly appearing in all documents.

그리고 동일한 단어에 대하여, 각 문서에 대한 단어 가중치들을 평균하여, 해당 단어에 대한 가중치(이하 단어 가중치)를 계산한다.Then, for the same word, the word weights for each document are averaged, and a weight (hereinafter, a word weight) for the word is calculated.

다음으로, 추출된 단어들로부터 대표 색인어를 구성한다(S40).Next, a representative index word is constructed from the extracted words (S40).

상기 각 분야별 대표 단어를 구성하는 단계(S40)는 추출된 단어에서 가중치가 높은 상위 단어들을 선정하는 단계(S41), 상위 단어들이 동일한 문서에 나타나는 것을 연관규칙으로 하여 연관성 분석을 수행하는 단계(S42), 연관성 분석에 의해 단어들을 연관성 집합으로 그룹화하는 단계(S43), 사용자의 입력에 의하여 연관성 집합을 각 분야로 분류시키는 단계(S44), 및, 사용자의 입력에 의하여 연관성 집합 내의 단어들을 보정하여 각 분야별 대표 단어들을 구성하는 단계(S45)로 구성된다.Step S40 of constructing representative words for each field includes a step of selecting upper words having a high weight in the extracted words in step S41 and a step S42 of performing association analysis using association rules in which upper words appear in the same document (S43) of grouping the words into association sets by association analysis, classifying the association sets into the respective fields by the input of the user (S44), and correcting the words in the association set by the input of the user And constituting representative words for each field (S45).

먼저, 추출된 단어에서 가중치가 높은 상위 단어들을 선정한다. 즉, 앞서 단계(S20)에서 추출한 단어들 중 가중치가 높은 상위 M개의 단어들 또는 상위 M%의 단어들을 선정한다. 이하에서 가중치가 높아 선정된 단어들을 상위 단어라 부르기로 한다.First, upper words with high weight are selected from the extracted words. That is, the upper M words or the upper M% words having the highest weight are selected from the words extracted in step S20. Hereinafter, the selected words will be referred to as the upper word because the weight is high.

예를 들어, 전처리 과정을 거쳐 35000개의 단어들 중 분야별 대표 색인어 추출을 위해 TF*IDF 가중치가 높은 순으로 상위 5%인 1500개의 단어를 추출한다. 도 7의 표는 TF*IDF 가중치 상위 단어 추출 일부를 나타낸 표이다.For example, through the preprocessing process, we extract 1500 words with the top 5% in descending order of TF * IDF weights for extracting representative index words from 35,000 words. The table in FIG. 7 is a table showing a part of TF * IDF weighted word extraction.

다음으로, 연관성 분석을 수행하여(S42), 상위 단어들을 연관성 집합으로 구성한다(S43)Next, association analysis is performed (S42), and upper-level words are configured as a relevance set (S43)

상위 단어들이 문서 내의 단어와 일치하는지 여부를 나타내는 값을 구하고, 구한 값을 이용하여 연관성 분석을 수행한다. 즉, 상위 단어 A가 하나의 문서 내의 단어와 일치하는 것이 X이고, 다른 상위 단어 B가 해당 문서 내의 단어와 일치하는 것이 Y로 표시하면, 다음과 같은 연관규칙으로 표시할 수 있다.A value indicating whether the upper words match the words in the document is obtained, and the association analysis is performed using the obtained values. That is, if the upper word A matches X with a word in one document and the other upper word B matches the word in the document, Y, the following association rule can be displayed.

R : X -> YR: X -> Y

연관성 분석은 다음과 같은 선험적(Apriori) 규칙이 적용된다.Relevance analysis applies the following apriori rule.

1) 한 단어집합(또는 항목집합)이 빈발하다면, 이 단어집합의 모든 부분집합은 역시 빈발항목집합이다.1) If one word set (or item set) is frequent, then all subsets of this word set are also frequent item sets.

2) 한 단어집합이 비빈발하다면, 이 단어집합을 포함하는 모든 집합은 비빈발항목 집합이다.2) If a set of words is infrequent, then all sets containing this set of words are non-frequent itemsets.

예를 들어, 모든 단어들의 집합을 I={a,b,c,d}라 한다. 만일 {b,c,d}가 빈발항목집합(빈발단어집합)이라면 ,이 단어의 부분집합{b,c},{b,d},{c,d},{b},{c},{d}는 역시 빈발단어집합이 되는데 ,이를 선험적 규칙이라고 한다. 만일 {a,b}가 최소 지지도 기준을 넘지못한 비빈발 단어집합이라면, 이 집합을 포함하는 {a,b,c},{a,b,d},{a,b,c,d}는 빈발단어집합이 될 수 없다. 이 사실을 이용하면 최소 지지도 기준을 넘지 못하는 단어집합들을 쉽게 가지치기 할 수 있는데, 이를 선험적 규칙을 이용한 빈발단어집합 추출 방법이라고 한다[비특허문헌 5].For example, the set of all words is called I = {a, b, c, d}. If {b, c, d} is a frequent item set (frequent word set) then the subset {b, c}, {b, d}, {c, d}, {b} {d} is also a frequent word set, which is called a priori rule. If {a, b} is a non-frequent word set that does not exceed the minimum support criterion, {a, b, c}, {a, b, d}, {a, b, c, Can not be a frequent word set. Using this fact, word sets that do not exceed the minimum support criterion can be easily pruned. This is called a frequent word set extraction method using a priori rules [Non-Patent Document 5].

상기와 같은 선험적 규칙에 따라 각 문서마다 단어들의 유/무 판단을 하여 빈발단어집합 I를 찾아낸다. 그런 다음 모든 빈발 단어집합 I에 대하여 I의 모든 공집합이 아닌 부분집합들을 찾는다.According to the above-mentioned a-priori rules, a frequent word set I is found by judging the presence / absence of words in each document. It then looks for all non-empty subsets of I for all frequent word sets I.

도 10의 표에서 보는 바와 같이, 연관 규칙은 최소 지지도와 신뢰도의 변화에 따라 다양하게 출력된다. 여기서 지지도는 전체 문서에서 연관 규칙을 이루는 단어 쌍이 동시에 출현한 문서 수를 의미한다. 지지도가 너무 낮을 경우에는 연관성이 높지 않은 단어에 대해서도 연관 규칙은 만족하므로 지나치게 많은 수의 군집을 형성한다.As shown in the table of FIG. 10, the association rules are variously output according to the changes of the minimum support and the reliability. Here, the degree of support refers to the number of documents in which the word pairs forming association rules in the entire document appear at the same time. If the degree of support is too low, the association rules are satisfied even for words that are not highly related, forming an excessive number of clusters.

구체적으로, 문서 300편의 3.3% 정도인 지지도 10을 최소지지도로 설정한다. 그리고 신뢰도는 연관규칙 a -> b에서 a 단어를 기준으로 a와 b가 동시에 출현하는 비율을 의미한다. 신뢰도를 높이면 b의 출현 빈도에 따라 연관 규칙의 수는 줄어든다. 따라서 바람직하게는, 지지도와 신뢰도를 정적치인 10/55로 설정한다.Specifically, the support 10, which is about 3.3% of the document 300, is set as the minimum support. And reliability means the ratio of a and b appearing at the same time based on a word in association rule a -> b. When the reliability is increased, the number of association rules decreases according to the appearance frequency of b. Therefore, preferably, the degree of support and reliability are set to a static value of 10/55.

구체적으로, 데이터마이닝 툴 IBM SPSS Modeler 14.2를 사용하기 위해 상위 1500개의 단어들을 추출한 후, 각 문서 내의 단어들과 비교하여 유무 판별을 한다. 즉, 상위 1500개의 단어들이 문서 내의 단어와 일치할 때 T, 불일치 할 때 F로 표기한다. 도 9의 표는 상위 단어들과 문서 내의 단어 유무 판별을 한 예시이다.Specifically, to use the data mining tool IBM SPSS Modeler 14.2, the top 1500 words are extracted and compared with the words in each document. That is, when the top 1500 words are matched with words in the document, they are denoted by F, and when they are not matched. The table of FIG. 9 is an example of discrimination between upper words and presence or absence of words in the document.

SPSS Modeler 14.2를 통해 분야별 전문용어와 관련이 없는 단어들은 필터 노드(Node)를 통해 제거한다.Through SPSS Modeler 14.2, words that are not relevant to the discipline-specific terminology are removed through a filter node.

또한, 대표 색인어를 추출하는데 지지도와 신뢰도를 각각 다르게 설정하여 적절한 연관 규칙의 수를 설정한다. 도 10의 표는 전문용어 ‘품질’에 대한 지지도/신뢰도별 연관 규칙의 수를 나타낸 것이다. 바람직하게는, 본 발명에서는 대표 색인어 추출을 위해 지지도 10, 신뢰도 55로 설정한다.In addition, the number of relevance rules is set by setting different degrees of support and reliability for extracting representative index words. The table of FIG. 10 shows the number of association rules for support / reliability for the terminology 'quality'. Preferably, in the present invention, the degree of support is set to 10 and the reliability is set to 55 for extracting representative index words.

그리고 연관성 분석 후 각 단어들 간의 1차 연관성 집합을 구성한다. 연관성 집합을 구성한 후 분야 영역(시스템분석, 생산/물류, 품질/서비스, 인간공학, 정보시스템, 경영공학 분야 등)으로 단어 집합을 재구성한다[비특허문헌 9].Then, we construct a first association set between each word after association analysis. After constructing a set of associations, the word set is reconstructed into field areas (system analysis, production / logistics, quality / service, ergonomics, information systems, management engineering fields, etc.) [Non-Patent Document 9].

도 11의 표는 1차 연관성 집합 일부분을 나타낸다.The table of Figure 11 represents a portion of the primary association set.

다음으로, 사용자의 입력을 통해, 상기 연관성 집합들을 각 분야로 분류하고(S44), 상기 연관성 집합 내 단어들을 보정하여 최종적으로 분야별 대표 단어 또는 대표 색인어를 추출한다(S45).Next, the association sets are classified into respective fields (S44) through the user's input, the words in the association set are corrected, and the representative word or representative index word is finally extracted (S45).

앞서 연관성 분석을 통해 다수의 연관성 집합들이 구성되면, 각 연관성 집합들이 어느 분야에 속하는지를 결정한다. 이때, 사용자의 입력을 통해 분야가 정해진다.Once a number of association sets have been constructed through association analysis, it is determined which field each association belongs to. At this time, the field is determined through the input of the user.

또한, 보다 정확한 연관용어 집합 및 대표 색인어 추출을 위하여, 관리자 등 사용자의 입력을 받는다. 사용자의 입력에 의하여, 해당 영역에 대표 용어 또는 대표 단어라고 보기 어려운 단어들을 제거하고, 상기 연관성 집합에서 지지도가 임계치 이하여서 추출되지 못한 해당 영역과 밀접한 관련이 있는 단어들을 추출한다.In addition, the user receives an input from a user such as a manager for more accurate association term extraction and representative index extraction. A word which is difficult to be regarded as a representative term or a representative word in the corresponding region is removed by the input of the user and words closely related to the corresponding region which is not extracted because the degree of support is below the threshold are extracted.

예를 들어, 연관성 집합에서 추출된 공급, 기업, 고객 등과 같이 “생산/물류” 영역을 대표하는 단어라고 보기 어려운 단어들을 제거한다. 또한, 연관성 집합에서 지지도가 임계치 이하여서 추출되지 못한 납기, 자재, 주문 등과 같은 용어들은 “생산/물류” 분야와 밀접한 관련이 있는 단어로 추출한다.For example, eliminate words that are difficult to say in the "production / logistics" domain, such as suppliers, companies, and customers, extracted from the association set. In addition, terms such as delivery date, material, order, etc. that have not been extracted due to the degree of support in the association set are below the threshold, are extracted with words closely related to the field of "production / logistics".

또한, TF*IDF 가중치가 낮아 상위 단어에 포함되지 않았던 단어들 중 각 분야 영역을 대표하는 단어 또는 용어들을 추가로 포함하여 분야별 대표 단어를 일정한 개수만큼 추출한다. 바람직하게는, 각 분야별 30개씩 총 180개 추출한다.In addition, TF * IDF extracts a certain number of representative words for each field by additionally including words or terms representing areas of each field among words not included in the upper word due to a low weight. Preferably, a total of 180 pieces of 30 pieces are extracted for each field.

도 12은 분야별 대표 단어들로 추출한 것을 나타내고 있다.FIG. 12 shows extracted words by field.

다음으로, 유사도 연산부(32)는 각 분야별 대표 색인어와, 각 문서들 간의 유사도를 구하여, 각 문서에 대한 분야별 유사도를 저장한다.Next, the similarity calculation unit 32 obtains the representative index word for each field and the degree of similarity between the documents, and stores the field similarity for each document.

유사도 연산부(32)는 해당 분야별로 대표 색인어와 해당 문서 간의 유사도를 산출한다.The similarity degree calculation unit 32 calculates the similarity degree between the representative index word and the corresponding document for each field.

대표 색인어와 문서간의 유사도 계산을 위해 코사인 계수를 사용한다. 코사인 계수는 비교하고자 하는 두 대상에 대한 특징 간의 일치 정도를 측정할 수 있다[비특허문헌 10]. 코사인 계수의 식은 다음과 같다.We use cosine coefficients to calculate the similarity between representative index words and documents. The cosine coefficient can be used to measure the degree of correspondence between features of two objects to be compared [Non-Patent Document 10]. The expression of the cosine coefficient is as follows.

[수학식 4]&Quot; (4) "

Figure 112015095338413-pat00006
Figure 112015095338413-pat00006

여기서, X는 해당 문서의 문서에 대한 단어 가중치 벡터이고, Y는 해당 분야에서의 대표 색인어의 가중치 벡터이다. n은 분야별 또는 영역별 대표 색인어(또는 대표 단어)의 개수를 말하고, i는 대표 단어의 인덱스를 말한다.Here, X is a word weight vector for the document of the document, and Y is a weight vector of representative index words in the corresponding field. n is the number of representative index words (or representative words) per field or area, and i is an index of a representative word.

즉, Xi는 해당 문서 단어의 가중치이며, Yi의 대표 단어 가중치의 대표 단어와 동일한 의미를 갖는 단어에 대한 가중치이다. 한편, Xi는 해당 문서에서의 해당 단어의 문서 빈도(df)에 역문헌 빈도(idf)를 곱하여 구해진다.That is, Xi is a weight of the document word, and is a weight for a word having the same meaning as the representative word of the representative word weight of Yi. On the other hand, Xi is obtained by multiplying the document frequency (df) of the corresponding word in the document by the inverse document frequency (idf).

특히, 대표 단어의 가중치 Yi는 앞서 구한 단어 가중치를 이용한다. 또한, 해당 문서의 가중치 Xi는 수학식 2 또는 수학식 3의 문서에 대한 단어 가중치를 구하여 사용한다. 이때, 문서 빈도 tf는 해당 문서에서 직접 구하고, 역문헌 빈도 idf는 샘플 문서를 대상으로 구한 각 단어의 idf를 그대로 사용한다.In particular, the weight Yi of the representative word is obtained by using the word weight obtained previously. In addition, the weight Xi of the document is used by obtaining a word weight for the document of Equation (2) or (3). At this time, the document frequency tf is directly obtained from the document, and the reverse document frequency idf is used as the idf of each word obtained for the sample document.

예를 들어, 인간공학 대표 단어에 ‘의자’가 있다고 가정하면, ‘의자’라는 단어가 해당 문서에 몇 개 있는지 확인후(빈도수) 빈도수 곱하기 대표단어 ‘의자’의 역문헌 빈도(idf)를 한다. 이렇게 하면 해당 문서 단어의 가중치 Xi값이 나오게 된다. 이때, i는 "의자"를 나타내는 대표 단어의 인덱스를 말한다.For example, if there is a chair in the ergonomic representative word, check the number of the word 'chair' in the document (frequency) and multiply the frequency by the frequency of the inverse document (idf) of the representative word 'chair' . This will result in the weight Xi of the document word. Here, i denotes an index of a representative word indicating "chair ".

즉, 앞서 수학식 4의 유사도는 해당 분야에서의 문서의 유사도로서, 해당 문서가 해당 분야에 얼마나 속하는지를 나타내는 지표이다.That is, the degree of similarity in Equation (4) is an index of similarity of documents in the field, and indicates how much the document belongs to the field.

다음으로, 검색부(33)는 검색 요청을 받아 문서들을 검색하고 그 결과를 전송하거나 표시한다.Next, the retrieval unit 33 receives the retrieval request, retrieves the documents, and transmits or displays the retrieval results.

도 13에서 보는 바와 같이, 검색부(33)는 키워드 검색 등 통상의 검색 기능을 제공한다. 도 13은 검색부(33)에 의해 검색된 결과를 표시한 화면을 나타낸다.As shown in FIG. 13, the search unit 33 provides a normal search function such as a keyword search. Fig. 13 shows a screen displaying the result searched by the searching unit 33. Fig.

검색부(33)는 단순히 단어 존재 유무에 따른 검색이 아닌 코사인 유사도 계산을 통해 검색어와 가장 유사한 과거프로젝트 자료와 외부 문서자료를 제공할 수 있다.The search unit 33 can provide past project data and external document data most similar to the search word through calculation of the cosine similarity, rather than simply searching for the presence or absence of a word.

검색결과는 문서 제목 뿐만 아니라 작성연도, 출처, 분야, 문서형식 등 지식에 대한 메타정보를 제공한다. 또한, 문서 안에 사용된 키워드를 파악할 수 있도록, 키워드가 나타난 부분을 하이라이트 시켜 표시한다. 이를 통해, 사용자가 원하는 지식을 빠르게 검색 할 수 있다.The search results provide meta information about the document title as well as the knowledge such as the year, source, field, and document format. In addition, the highlighted portion of the keyword is displayed so that the keyword used in the document can be grasped. This allows the user to quickly search for desired knowledge.

구체적으로, 다수의 영역 또는 분야로 분류된 문서를 조회할 수 있으며, 실시간으로 키워드가 포함되어 있는 문서를 검색할 수 있다. 이때, 문서 이름순, 작성연도 순, 확장자 별로 검색이 가능하며 본문내용 열람이 가능하여 사용자가 문서 다운로드 전에 확인할 수 있다.Specifically, documents classified into a plurality of regions or fields can be retrieved, and a document including keywords can be retrieved in real time. At this time, it is possible to search by document name, year of creation, and extension, and contents of the text can be browsed, so that the user can check before downloading the document.

또한, 검색부(33)는 분야별 대표 단어와 문서와의 유사도 계산을 적용한 방사형 차트를 제공한다. 이를 통해, 문서의 분야를 직관적으로 파악할 수 있도록 제공한다.In addition, the search unit 33 provides a radar chart to which the similarity calculation between the representative word and the document is applied. This provides an intuitive understanding of the area of the document.

도 13 또는 도 14에서 보는 바와 같이, 방사형 그래프에서 방향 축이 각 분야를 나타내고, 유사도의 수치에 의해 각 방향 축에서의 값이 결정된다. 유사도가 클수록 해당 분야에 속하는 정도가 크다. 방사형 그래프 등을 통해 검색된 문서가 어느 분야에 속하는지를 직관적으로 볼 수 있게 제공한다.As shown in Fig. 13 or 14, in the radial graph, the directional axes represent the respective fields, and the value in each directional axis is determined by the numerical value of the degree of similarity. The larger the degree of similarity, the greater the degree of belonging to the field. It provides an intuitive view on which field the document retrieved through the radial graph etc. belongs to.

한편, 검색부(33)는 분야별 검색을 제공하고, 이때, 각 분야별 최소 유사도를 설정할 수 있도록 제공한다. 즉, 사용자가 각 분야별 최소 유사도를 설정하면, 해당 분야의 유사도가 해당 분야에서 설정한 최소 유사도 이상인 문서들만 검색하여 제공한다.On the other hand, the search unit 33 provides a field search, and provides a minimum similarity set for each field. That is, when the user sets the minimum similarity degree for each field, only those documents whose similarity degree in the field is equal to or higher than the minimum similarity degree set in the field are searched and provided.

이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.The invention made by the present inventors has been described concretely with reference to the embodiments. However, it is needless to say that the present invention is not limited to the embodiments, and that various changes can be made without departing from the gist of the present invention.

10 : 사용자 단말 13 : 컴퓨터 단말
20 : 네트워크 30 : 지식관리 서버
40 : 데이터베이스
10: user terminal 13: computer terminal
20: network 30: knowledge management server
40: Database

Claims (9)

가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서,
샘플 문서들로부터 대표 단어들을 추출하여 저장하는 대표단어 관리부;
각 문서에 대하여, 각 분야별 대표 색인어와 해당 문서 간의 유사도를 이용하여 해당 문서의 각 분야별 유사도를 산출하여 저장하는 유사도 연산부; 및,
문서 검색 요청에 따라 문서를 검색하고, 검색된 문서를 표시하여 제공하되, 검색된 문서의 각 분야별 유사도를 표시하는 검색부를 포함하고,
상기 대표단어 관리부는 상기 샘플 문서들의 본문 텍스트에서 형태소 분석을 하여 단어들을 추출하고, 추출한 각 단어들에 대하여 각 문서에 대한 단어 가중치를 계산하고, 상기 문서에 대한 단어 가중치를 평균하여 해당 단어의 단어 가중치를 산출하고, 가중치가 높은 상위 단어들로부터 각 분야별 대표 색인어를 구성하고,

상기 대표단어 관리부는 상기 상위 단어들이 동일한 문서 내에 나타나는 것을 연관규칙으로 하여 연관성 분석을 수행하고, 상기 연관성 분석으로 상위 단어들을 연관성 집합으로 그룹화하고, 사용자의 입력에 의하여 상기 연관성 집합을 각 분야로 분류시켜서, 해당 분야로 분류된 연관성 집합에 속하는 단어들을 대표 색인어로 구성하고,
상기 대표단어 관리부는 전문용어 사전을 이용하여 단어에 대하여 동의어를 처리하되, 동일한 의미를 가지는 다수의 단어 중에서 대표 단어를 선택하고, 대표 단어와 동일한 의미를 갖는 모든 단어들을 대표 단어로 처리하고,
상기 검색부는 검색된 문서의 각 분야별 유사도를 방사형 그래프로 표시하되, 상기 방사형 그래프의 방향 축을 각 분야를 나타내게 하고, 각 분야별 유사도를 해당 분야의 방향 축의 값으로 나타내게 하고,
상기 대표단어 관리부는 각 문서에 대한 단어 가중치는 문서 d에서 단어 t에 대한 출현 횟수를 나타내는 단어 빈도 TF와, 단어 t가 여러 문서에 나타날 경우 중요도가 낮아지는 정도를 나타내는 역문헌 빈도 IDF를 이용하여 연산되고,
상기 대표단어 관리부는 문서 d에 대한 단어 t의 단어 가중치를 w't,d 를 다음 수식 1에 의해 연산되는 것을 특징으로 하는 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템.
[수식 1]
Figure 112017038927067-pat00025

n은 문서 d에서 나타나는 서로 상이한 단어들의 개수이고, tft,d 는 문서 d에 대한 단어 t의 단어 빈도이고, idft 는 단어 t에 대한 역문헌 빈도임.
1. A knowledge management system having a multiple field search function by weighting,
A representative word management unit for extracting and storing representative words from the sample documents;
A degree of similarity calculation unit for calculating and storing the similarity degree of each document using the representative index word for each document and the degree of similarity between the document and each document; And
A retrieval unit for retrieving a document according to a document retrieval request, displaying a retrieved document and providing the retrieved document,
The representative word management unit extracts words by performing morphological analysis on the body text of the sample documents, calculates a word weight for each document for each extracted word, and averages word weights for the document, A weighted value is calculated, a representative index word for each field is constructed from high weighted words,

The representative word management unit performs association analysis with the association rule that the upper words appear in the same document, groups the upper words into an association set by the association analysis, and classifies the association set into each field by a user's input The words belonging to the association set classified into the field are constructed as representative index words,
The representative word management unit processes a synonym for a word using a terminology dictionary, selects a representative word among a plurality of words having the same meaning, processes all words having the same meaning as the representative word as representative words,
Wherein the search unit displays the degree of similarity of each field of the retrieved document in a radial graph, wherein the directional axis of the radial graph represents each field, the degree of similarity for each field is represented as a value of a directional axis of the field,
The representative word management unit uses the word frequency TF indicating the number of occurrences for the word t in the document d and the inverse document frequency IDF indicating the degree of importance decreasing when the word t appears in several documents, Calculated,
Wherein the representative word management unit calculates a word weight of the word t with respect to the document d by w ' t, d according to the following equation (1).
[Equation 1]
Figure 112017038927067-pat00025

n is the number of different words appearing in document d, tf t, d is the word frequency of word t for document d, and idf t is the inverse document frequency for word t.
삭제delete 제1항에 있어서,
상기 검색부는 분야별 검색을 제공하되, 각 분야별 최소 유사도를 설정할 수 있도록 제공하고, 각 분야별 최소 유사도가 설정되면, 해당 분야의 유사도가 해당 분야에서 설정한 최소 유사도 이상인 문서들만 검색하여 제공하는 것을 특징으로 하는 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템.
The method according to claim 1,
The search unit provides search by sector and provides a minimum degree of similarity set for each field. When the minimum degree of similarity for each field is set, the search unit searches only documents having a degree of similarity higher than the minimum degree of similarity set in the field, And a search function for a plurality of fields based on the weights.
삭제delete 삭제delete 삭제delete 삭제delete 제1항에 있어서,
상기 유사도 연산부는 각 분야별 대표 색인어와 해당 문서 간의 유사도는 다음 [수식 2]에 의해 연산되는 것을 특징으로 하는 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템.
[수식 2]
Figure 112017038927067-pat00008

단, cosθ(X,Y)는 해당 문서와 분야별 대표 색인어 간의 유사도이도, n은 분야별 대표 색인어의 개수이고, i는 대표 색인어의 인덱스이고, Xi는 해당 문서에 대한 단어 가중치이고, Yi는 대표 색인어의 단어 가중치임.
The method according to claim 1,
Wherein the similarity degree calculation unit calculates a similarity degree between a representative index word for each field and the corresponding document according to Equation (2) below.
[Equation 2]
Figure 112017038927067-pat00008

Here, cos? (X, Y) is the degree of similarity between the document and the representative index word for each field, n is the number of representative index words per field, i is the index of the representative index word, Xi is the word weight for the document, Is the word weight of.
제8항에 있어서,
상기 해당 문서에 대한 단어 가중치 Xi는 단어 빈도 및 역문헌 빈도에 의해 구해지되, 역문헌 빈도는 샘플 문서들에서 구한 해당 단어의 역문헌 빈도를 사용하는 것을 특징으로 하는 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템.
9. The method of claim 8,
Wherein the word weight Xi for the document is obtained by the word frequency and the inverse document frequency, and the inverse document frequency uses the inverse document frequency of the corresponding word obtained from the sample documents. The knowledge management system comprising:
KR1020150138734A 2015-10-01 2015-10-01 A knowledge management system of searching documents on categories by using weights KR101753768B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150138734A KR101753768B1 (en) 2015-10-01 2015-10-01 A knowledge management system of searching documents on categories by using weights
PCT/KR2016/010225 WO2017057858A1 (en) 2015-10-01 2016-09-12 Knowledge managing system having search function for each of multiple fields by weighted value

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150138734A KR101753768B1 (en) 2015-10-01 2015-10-01 A knowledge management system of searching documents on categories by using weights

Publications (2)

Publication Number Publication Date
KR20170045403A KR20170045403A (en) 2017-04-27
KR101753768B1 true KR101753768B1 (en) 2017-07-04

Family

ID=58427782

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150138734A KR101753768B1 (en) 2015-10-01 2015-10-01 A knowledge management system of searching documents on categories by using weights

Country Status (2)

Country Link
KR (1) KR101753768B1 (en)
WO (1) WO2017057858A1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033222B (en) * 2018-06-29 2021-07-13 北京奇虎科技有限公司 Method and device for analyzing correlation between POI (point of interest) and search keyword
CN109359290B (en) * 2018-08-20 2023-05-05 国政通科技有限公司 Knowledge point determining method of test question text, electronic equipment and storage medium
KR102371224B1 (en) * 2019-12-31 2022-03-07 인천국제공항공사 Apparatus and methods for trend analysis in airport and aviation technology
KR102318674B1 (en) * 2020-10-27 2021-10-28 (주)메디아이플러스 Method of predicting clinical trial keyword and server performing the same

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043236A (en) * 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd Synonym extracting method, document retrieving method and device to be used for the same
KR100685023B1 (en) * 2001-11-13 2007-02-20 주식회사 포스코 Example-base retrieval method and system for similarity examination
KR20040048548A (en) * 2002-12-03 2004-06-10 김상수 Method and System for Searching User-oriented Data by using Intelligent Database and Search Editing Program
US7933900B2 (en) * 2005-10-23 2011-04-26 Google Inc. Search over structured data
KR20100007695A (en) * 2008-07-11 2010-01-22 오성환 Internet search system and method thereof

Also Published As

Publication number Publication date
WO2017057858A1 (en) 2017-04-06
KR20170045403A (en) 2017-04-27

Similar Documents

Publication Publication Date Title
KR101681109B1 (en) An automatic method for classifying documents by using presentative words and similarity
Ceccarelli et al. Learning relatedness measures for entity linking
AU2022201654A1 (en) System and engine for seeded clustering of news events
US8577834B2 (en) Methodologies and analytics tools for locating experts with specific sets of expertise
CN106383836B (en) Attributing actionable attributes to data describing an identity of an individual
Trappey et al. An R&D knowledge management method for patent document summarization
US20060080315A1 (en) Statistical natural language processing algorithm for use with massively parallel relational database management system
CN112632228A (en) Text mining-based auxiliary bid evaluation method and system
KR101753768B1 (en) A knowledge management system of searching documents on categories by using weights
CA2956627A1 (en) System and engine for seeded clustering of news events
JP4426041B2 (en) Information retrieval method by category factor
Francis Taming text: An introduction to text mining
KR20160120583A (en) Knowledge Management System and method for data management based on knowledge structure
Zen et al. TF-IDF Method and Vector Space Model Regarding the Covid-19 Vaccine on Online News
Fatudimu et al. Knowledge discovery in online repositories: a text mining approach
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Osiński et al. Dimensionality reduction techniques for search results clustering
Mustapha et al. Automatic textual aggregation approach of scientific articles in OLAP context
Boden et al. FactCrawl: A Fact Retrieval Framework for Full-Text Indices.
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
Negm et al. Investigate the performance of document clustering approach based on association rules mining
Singh et al. A study of similarity functions used in textual information retrieval in Wide Area Networks
Nikitinsky et al. An information retrieval system for technology analysis and forecasting
Jayabharathy et al. Correlation based multi-document summarization for scientific articles and news group
Galiotou et al. On the effect of stemming algorithms on extractive summarization: a case study

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant