KR102015089B1 - Method and system for realtime marc data generation - Google Patents
Method and system for realtime marc data generation Download PDFInfo
- Publication number
- KR102015089B1 KR102015089B1 KR1020180128908A KR20180128908A KR102015089B1 KR 102015089 B1 KR102015089 B1 KR 102015089B1 KR 1020180128908 A KR1020180128908 A KR 1020180128908A KR 20180128908 A KR20180128908 A KR 20180128908A KR 102015089 B1 KR102015089 B1 KR 102015089B1
- Authority
- KR
- South Korea
- Prior art keywords
- book
- information
- mark data
- database
- unit
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G06F17/2755—
Abstract
Description
본 발명은 실시간 마크 데이터 생성 방법 및 시스템에 관한 것으로, 보다 상세하게는 마크 데이터 생성이 필요한 신규 도서의 서지사항과 카테고리 정보 및 AI를 활용한 빅데이터 분석을 통해 자동으로 마크 데이터를 생성하여 사용자가 원하는 형식에 맞게 제공하는 실시간 마크 데이터 생성 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for generating real-time mark data, and more particularly, to automatically generate mark data through big data analysis using bibliographic information, category information, and AI of new books requiring mark data generation. The present invention relates to a method and system for generating real-time mark data provided in a desired format.
마크(MARC) 데이터는 도서와 관련된 전반적인 정보를 컴퓨터가 목록 데이터로 식별하여 축적, 유통할 수 있도록 코드화 한 일련의 메타데이터 표준 형식을 의미한다. 현재 국내에서는 미국 표준(USMARC)과 캐나다 표준(CAN/MARC)의 통합 형식인 MARC 21을 기본 틀로 하여 2005년 통합 서지용 한국 문헌 자동화 목록(KORMARC) 형식을 KS 규격으로 제정하여 사용하고 있다. 이러한 통합 서지용 KORMARC 형식은 도서의 도서명, 저자, 판 사항, 발행 사항, 형태 사항, 주제, 주기 등과 같은 도서와 관련된 전반적인 정보를 포함한다.Mark (MARC) data is a set of metadata standards that are coded so that computers can identify, accumulate, and distribute general information about books as catalog data. Currently, Korea uses the Korea Bibliographic Automation List (KORMARC) format for the integrated bibliography in 2005 as the KS standard based on MARC 21, which is an integrated format of the US standard (USMARC) and the Canadian standard (CAN / MARC). This integrated bibliographic KORMARC format includes the book's title, author, edition, publication, form, subject, notes, and more.
종래에는, 일반적으로 도서의 판매처에서 MARC 데이터를 생성하여 도서 납품처에 제공하거나, 국립중앙도서관 또는 한국교육학술정보원이 직접 MARC 데이터를 생성하여 업로드 하면 다른 도서관들은 이를 다운로드하여 사용하는 방식을 이용해왔다. In the past, generally, MARC data was generated from a book distributor and provided to a book supplier, or other libraries used to download and use MARC data when the National Library of Korea or Korea Education & Research Information Service directly generated and uploaded MARC data.
그러나, MARC 데이터는 도서명, 저자, 출판일 등과 같이 도서에 기재되어 있는 객관적인 정보를 담고 있는 항목뿐만 아니라 한국십진분류법(이하, KDC) 또는 듀이십진분류법(이하, DDC)와 같이 이를 부여하는 사서의 주관이 반영되는 항목도 포함되어 있어 종래 방식에 따라 양질의 MARC 데이터 생성을 위해서 전문적인 지식을 지닌 사서가 반드시 필요하기 때문에, 도서 납품처에서 제공하는 방법을 통해서는 양질의 MARC 데이터를 제공받기 어려운 문제점이 있다.However, MARC data does not only contain items containing objective information such as book names, authors, publication dates, etc., but also librarians such as the Korean Decimal Classification (KDC) or Dewey Decimal Classification (DDC). It also includes items that reflect subjectivity, so it is difficult to provide high quality MARC data through the method provided by the book delivery company because a librarian with professional knowledge is required to generate high quality MARC data according to the conventional method. There is this.
또한, 도서관에서 근무하는 전문적인 지식을 지닌 사서가MARC 데이터 생성 업무를 수행한다고 하더라도, 여전히 오류의 가능성이 존재하거나 혹은 도서관 마다 제각기 다른 MARC 데이터가 생성될 여지가 있으며, 각 도서 마다 방대한 양의 정보를 검색하고 입력하는 작업을 반복해야 하므로 상당한 시간이 소요되며 효율적이지 못한 문제점이 있다. In addition, even if a librarian with expertise in the library performs the MARRC data generation task, there is still a possibility of error or different MARC data may be generated for each library, and a large amount of information for each book. Searching for and typing in the search has to be repeated, which can be quite time consuming and inefficient.
이와 같은 문제점을 해결하기 위해, 종래 자동으로 MARC 데이터를 생성하기 위한 다양한 시도들이 있었으나, 이들은 책으로부터 직접적으로 획득할 수 있는 서지정보만을 활용하여 MARC 데이터를 생성하고자 하였기 때문에, 여전히 실제 도서관에서 활용될 수 있을 만큼의 충분한 항목의MARC 데이터를 생성하지 못하거나, 또는 정확도가 상당히 떨어지는 문제점이 있다.In order to solve this problem, various attempts have been made to automatically generate MARC data. However, since they attempt to generate MARC data using only bibliographic information that can be directly obtained from a book, they are still used in actual libraries. There is a problem in that it does not generate enough items of MARC data, or the accuracy is quite low.
따라서, 서지정보만으로는 획득할 수 없는, KDC/DDC, 참고문헌과 색인의 여부 표시, 출반지, 저자가 개인인지 단체인지 여부, 주제어, 도서관별 맞춤 청구기호 및 도서관별 도서등록번호 등을 포함한 도서의 MARC 데이터를 자동으로 생성하여 사용자가 원하는 형식에 맞게 제공해줄 수 있는 기술이 요구되는 실정이다. 본 발명은 이와 관련된 것이다.Therefore, books including KDC / DDC, bibliographical and index indications, publications, whether the author is an individual or a group, subjects, custom billing symbols for each library, and book registration numbers for each library cannot be obtained by bibliographic information alone. There is a need for a technology that can automatically generate MARC data for and provide it according to the format desired by the user. The present invention relates to this.
본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로, AI를 활용한 빅데이터 분석을 통해 마크 데이터 중 기본 서지 사항만으로는 생성할 수 없었던 비 서지 사항들(예를 들어 KDC/DDC, 참고문헌과 색인의 여부 표시, 출판지, 저자가 개인인지 단체인지 여부, 주제어, 도서관별 맞춤 청구기호, 도서관별 도서등록번호 등)까지 정확하게 생성하여 각 도서관에 제공하는 것을 목적으로 한다.The present invention has been made to solve the above-mentioned problems, non-surge items (for example, KDC / DDC, references and indexes) that could not be generated only by the basic bibliographic information of the mark data through big data analysis using AI The purpose of this paper is to accurately generate and provide the information to each library, such as whether or not it is displayed, the publication place, whether the author is an individual or a group, a subject, a custom billing symbol for each library, and a book registration number for each library.
또한, 마크 데이터 생성을 자동화 함으로써 많은 양의 도서에 대하여도 실시간으로 정확한 마크 데이터를 생성하여 마크 데이터의 생성 효율을 극대화하는 것을 목적으로 한다.In addition, it aims to maximize the generation efficiency of mark data by generating mark data in real time even for a large amount of books by automating mark data generation.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.The technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following description.
전술한 문제점을 해결하기 위한 본 발명의 일 실시예에 따른 실시간 마크 데이터 생성 방법은, (a) 마크 데이터가 생성되어 있는 도서의 도서 정보 및 마크 데이터를 이용해 데이터베이스(100)를 구축하는 단계; (b) 신규 도서의 도서 정보를 입력받고, 상기 입력받은 신규 도서의 도서 정보 및 상기 데이터베이스(100)를 기반으로 신규 도서의 마크 데이터를 생성하는 단계; 및 (c) 상기 생성된 신규 도서의 마크 데이터를 사용자에게 제공하는 단계;를 포함할 수 있다.Real-time mark data generation method according to an embodiment of the present invention for solving the above problems comprises the steps of: (a) constructing a
일 실시예에 따르면, 상기 도서 정보는 도서에 대한 서지 정보, 카테고리 정보 및 목차 정보를 포함할 수 있다.According to an embodiment, the book information may include bibliographic information, category information, and table of contents information about the book.
일 실시예에 따르면, 상기 (a) 단계는, 마크 데이터가 생성되어 있는 도서의 도서 정보와 대응되는 비 서지 정보가 매핑된 매핑 테이블을 형성하여 데이터베이스에 저장하되, 상기 비 서지 정보는, KDC/DDC, 참고문헌과 색인의 여부, 출판지, 저자가 개인인지 단체인지 여부, 주제어 중 적어도 어느 하나를 포함할 수 있다.According to an embodiment, the step (a) may form a mapping table in which non-surge information corresponding to book information of a book in which mark data is generated is mapped and store in a database, wherein the non-surge information is stored in a KDC / It may include at least one of a DDC, a bibliography and an index, a publication place, whether the author is an individual or a group, and a subject.
일 실시예에 따르면, 상기 (b) 단계는, (b-1) 입력부를 통해 신규 도서의 도서 정보를 입력받는 단계; (b-2) 추출부가, 상기 데이터베이스로부터 입력받은 도서 정보와 매핑된 비 서지 정보를 추출하는 단계; (b-3) 분석부가, 입력받은 서지 정보에 대한 형태소 분석을 통해 상기 데이터베이스에 저장된 도서와의 유사도를 산출하는 단계; (b-4) 생성부가, 상기 유사도를 기초로 상기 추출한 비 서지 정보를 갱신하고 마크 데이터를 생성하는 단계;를 포함할 수 있다.According to an embodiment, the step (b) may include: (b-1) receiving book information of a new book through the input unit; (b-2) an extracting unit, extracting non-bibliographic information mapped to book information received from the database; (b-3) calculating, by the analysis unit, similarity with the book stored in the database through morphological analysis of the received bibliographic information; (b-4) the generation unit may include updating the extracted non-surge information based on the similarity and generating mark data.
일 실시예에 따르면, 상기 유사도는, 동일한 형태소의 수와 카테고리 가중치의 곱으로 산출될 수 있다.According to an embodiment, the similarity may be calculated as a product of the number of the same morpheme and the category weight.
일 실시에에 따르면, 상기 (c) 단계는, 상기 생성된 마크 데이터 중 사용자가 원하는 항목을 필터링 하여 제공할 수 있다.According to an embodiment of the present disclosure, the step (c) may filter and provide an item desired by the user among the generated mark data.
한편, 실시간 마크 데이터 생성 방법을 수행하기 위한 본 발명의 일 실시예에 따른 마크 데이터 생성 시스템(10)은, 마크 데이터가 생성되어 있는 도서의 도서 정보 및 마크 데이터를 저장하는 데이터베이스; 신규 도서의 도서 정보를 입력받고 마크 데이터를 생성하는 마크생성부; 외부 단말과 통신하여 도서 정보 또는 마크 데이터를 송수신하는 통신부; 및 제어부;를 포함하고, 상기 데이터베이스는, 도서 정보와 대응되는 비 서지 정보가 매핑된 매핑 테이블을 형성하여 저장하되, 상기 비 서지 정보는, KDC/DDC, 참고문헌과 색인의 여부, 출판지, 저자가 개인인지 단체인지 여부, 주제어 중 적어도 어느 하나를 포함할 수 있다.On the other hand, the mark
일 실시예에 따르면, 상기 마크생성부는, 신규 도서의 도서 정보를 입력받는 입력부; 상기 신규 도서의 도서 정보와 대응되는 비 서지 정보를 추출하는 추출부; 상기 신규 도서의 서지 정보에 대한 형태소 분석을 수행하는 분석부; 상기 비 서지 정보를 갱신하고 이를 포함한 신규 도서의 마크 데이터를 생성하는 생성부;를 포함할 수 있다.According to an embodiment, the mark generation unit may include an input unit for receiving book information of a new book; An extraction unit for extracting non-bibliographic information corresponding to book information of the new book; An analysis unit which performs morphological analysis on the bibliographic information of the new book; And a generation unit for updating the non-bibliographic information and generating mark data of a new book including the same.
본 발명에 의하면, 신규 도서의 서지정보, 카테고리 정보뿐만 아니라 이에 대한 AI를 활용한 빅데이터 분석을 통해 실제 도서관 시스템 내에서도 활용할 수 있는, 정확하고도 충분한 항목을 포함하는 양질의 마크데이터를 생성하여 제공할 수 있다. 구체적으로, 마크 데이터 중 도서의 기본 서지 정보만으로는 획득할 수 없는 비 서지 정보들, 예를 들어 KDC/DDC, 참고문헌과 색인의 여부 표시, 출판지, 저자가 개인인지 단체인지 여부, 주제어, 도서관별 맞춤 청구기호, 도서관별 도서등록번호 등에 대한 정보를 자동으로 생성하여 각 도서관에 제공할 수 있다.According to the present invention, through the big data analysis using not only bibliographic information, category information of the new book, but also AI, it generates and provides high-quality mark data including accurate and sufficient items that can be utilized in the actual library system. can do. Specifically, non-bibliographic information in the mark data that cannot be obtained only by the basic bibliographic information of the book, such as KDC / DDC, bibliographical and index status, publication, whether the author is an individual or a group, subject, library, etc. Information about customized billing symbols and library registration numbers for each library can be automatically generated and provided to each library.
또한, 본 발명에 의하면 반드시 전문 지식을 지닌 사서가 아니어도 양질의 마크 데이터를 생성할 수 있어 도서관의 효율적인 인력 운용이 가능하다.In addition, according to the present invention it is possible to generate high-quality mark data even if the librarian does not necessarily have a professional knowledge, it is possible to efficiently manage the personnel of the library.
또한, 이러한 빅데이터가 저장된 시스템을 통해 마크 데이터 생성을 자동화 함으로써 많은 양의 도서에 대하여도 실시간으로 정확한 마크 데이터를 생성하여 마크 데이터의 생성 효율을 극대화 할 수 있다.In addition, by automating mark data generation through a system in which such big data is stored, it is possible to maximize the generation efficiency of mark data by generating accurate mark data in real time even for a large amount of books.
또한, 마크 데이터를 생성하여 도서관 마다 필요한 형식에 맞게 필터링 하여 제공함으로써 도서관 마다 별개의 마크 데이터를 생성할 필요 없이, 모든 도서관이 이용할 수 있는 통합 서비스를 제공할 수 있으며, 이와 같이 각 도서관이 동일한 체계를 갖는 마크 데이터를 활용하므로 도서관 및 도서관 이용자 모두가 효율적으로 도서관 서비스를 제공 또는 이용할 수 있도록 한다.In addition, by generating mark data and filtering it according to the format required for each library, it is possible to provide an integrated service that can be used by all libraries without creating separate mark data for each library. By utilizing the mark data having the above, both the library and the library user can efficiently provide or use the library service.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.Effects of the present invention are not limited to the above-mentioned effects, and other effects not mentioned will be clearly understood by those skilled in the art from the following description.
도 1(a) 는 종래 기술에 따른 마크 데이터 제공 방법을 나타낸 도면이다.
도 1(b)는 본 발명의 일 실시예에 따른 마크 데이터 생성 및 제공 방법을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 마크 데이터 생성 시스템(10)을 이용해 마크 데이터를 생성하는 것을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 실시간 마크 데이터 생성 시스템(10)의 구성을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 마크생성부(200)의 구성을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 실시간 마크 데이터 생성 방법을 나타낸 순서도이다.
도 6은 본 발명의 일 실시예에 따른 마크생성부(200)가 신규 도서의 마크 데이터를 생성하는 방법을 나타낸 순서도이다.
도 7은 일 실시예에 따라 마크 데이터를 필터링하는 것을 나타낸 도면이다.1 (a) is a diagram showing a mark data providing method according to the prior art.
1B is a diagram illustrating a mark data generation and provision method according to an embodiment of the present invention.
2 is a diagram schematically illustrating generation of mark data using the mark
3 is a diagram illustrating a configuration of a real-time mark
4 is a diagram showing the configuration of the
5 is a flowchart illustrating a method of generating real-time mark data according to an embodiment of the present invention.
6 is a flowchart illustrating a method of generating mark data of a new book by the
7 is a diagram illustrating filtering mark data according to an exemplary embodiment.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. Advantages and features of the present invention, and methods for achieving them will be apparent with reference to the embodiments described below in detail in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but can be implemented in various different forms, only the embodiments are to make the disclosure of the present invention complete, and the general knowledge in the technical field to which the present invention belongs It is provided to fully convey the scope of the invention to those skilled in the art, and the present invention is defined only by the scope of the claims. Like reference numerals refer to like elements throughout.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.Unless otherwise defined, all terms (including technical and scientific terms) used in the present specification may be used in a sense that can be commonly understood by those skilled in the art. In addition, the terms defined in the commonly used dictionaries are not ideally or excessively interpreted unless they are specifically defined clearly. The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. In this specification, the singular also includes the plural unless specifically stated otherwise in the phrase.
도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조부호를 붙였다. 그리고, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에서 기술한 "부"란, 특정 기능을 수행하는 하나의 단위 또는 블록을 의미한다.In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like elements throughout the specification. In addition, when a part "contains" a certain component, this means that the component may further include other components, without excluding other components, unless specifically stated otherwise. In addition, the "unit" described in the specification means one unit or block that performs a specific function.
도 1(a) 는 종래 기술에 따른 마크 데이터 제공 방법을 나타낸 도면이고, 도 1(b)는 본 발명의 일 실시예에 따른 마크 데이터 생성 및 제공 방법을 나타낸 도면이다.1 (a) is a view showing a mark data providing method according to the prior art, Figure 1 (b) is a view showing a method for generating and providing mark data according to an embodiment of the present invention.
도 1(a)를 참조하면, 종래에는 일반적으로 도서의 판매처에서 MARC 데이터를 생성하여 도서 납품처에 제공하거나, 국립중앙도서관 또는 한국교육학술정보원이 직접 MARC 데이터를 생성하여 업로드 하면 다른 도서관들은 이를 다운로드하여 사용하는 방식을 이용해왔다. Referring to FIG. 1 (a), conventionally, a MARC data is generated at a book distributor and provided to a book provider, or other libraries are downloaded when the National Library or Korea Education & Research Information Service generates and uploads the MARC data directly. Has been using the method.
그러나, MARC 데이터는 도서명, 저자, 출판일 등과 같이 도서에 기재되어 있는 객관적인 정보를 담고 있는 항목뿐만 아니라 한국십진분류법(이하, KDC) 또는 듀이십진분류법(이하, DDC)와 같이 이를 부여하는 사서의 주관이 반영되는 항목도 포함되어 있어 종래 방식에 따라 양질의 MARC 데이터 생성을 위해서 전문적인 지식을 지닌 사서가 반드시 필요하기 때문에, 도서 납품처에서 제공하는 방법을 통해서는 양질의 MARC 데이터를 제공받기 어려운 문제점이 있다.However, MARC data does not only contain items containing objective information such as book names, authors, publication dates, etc., but also librarians such as the Korean Decimal Classification (KDC) or Dewey Decimal Classification (DDC). It also includes items that reflect subjectivity, so it is difficult to provide high quality MARC data through the method provided by the book delivery company because a librarian with professional knowledge is required to generate high quality MARC data according to the conventional method. There is this.
또한, 도서관에서 근무하는 전문적인 지식을 지닌 사서가MARC 데이터 생성 업무를 수행한다고 하더라도, 여전히 오류의 가능성이 존재하고 각 도서 마다 방대한 양의 정보를 검색하고 입력하는 작업을 반복해야 하므로 상당한 시간이 소요되며 효율적이지 못한 문제점이 있다.In addition, even if a librarian with expertise in the library performs the creation of the MARC data, there is still a possibility of error, and it takes a considerable amount of time to repeat searching and entering a large amount of information for each book. There is a problem that is not efficient.
도 1(b)를 참조하면, 본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로, 각 도서관에서 본 발명에 따른 마크 데이터 생성 시스템(10)에 도서 정보를 입력하면, 자동으로 마크 데이터를 생성하여 도서관으로 직접 제공할 수 있다.Referring to FIG. 1 (b), the present invention has been devised to solve the above-described problem, and automatically generates mark data when book information is input to the mark
이하 도 2 내지 도 6을 참조하여 본 발명에 따른 실시간 마크 데이터 생성 시스템 및 이를 이용한 마크 데이터 생성 방법에 대하여 상술하도록 한다. Hereinafter, a real-time mark data generation system and a mark data generation method using the same will be described in detail with reference to FIGS. 2 to 6.
또한, 본 명세서에서는 KDC/DDC 정보의 생성을 예시로서 설명할 것이나, 반드시 이에 한정되는 것은 아니고 이하 설명할 본 발명과 동일한 기술적 사상을 이용하면 참고문헌과 색인의 여부 표시, 출판지, 저자가 개인인지 단체인지 여부, 주제어, 도서관별 맞춤 청구기호, 도서관별 도서등록기호 등과 같은 도서의 기본 서지정보만으로는 획득할 수 없는 다양한 정보를 생성할 수 있음은 물론이다.In addition, in the present specification, the generation of KDC / DDC information will be described as an example, but the present invention is not limited thereto, and if the same technical idea as the present invention will be described below, the indication of whether the reference and the index, the publication place, and the author are individual Of course, it is possible to generate a variety of information that can not be obtained only by the basic bibliographic information of the book, such as whether it is an organization, a subject, a custom bill symbol for each library, and a book registration symbol for each library.
도 2는 본 발명의 일 실시예에 따른 마크 데이터 생성 시스템(10)을 이용해 마크 데이터를 생성하는 것을 개략적으로 나타낸 도면이다.2 is a diagram schematically illustrating generation of mark data using the mark
도 2를 참조하면, 본 발명은 신규 도서에 대한 서지 정보 및 카테고리 정보를 포함하는 도서 정보를 입력받고, 이를 이용해 마크 데이터를 생성하여 사용자에게 제공하는 실시간 마크 데이터 생성 방법 및 시스템을 제공할 수 있다.Referring to FIG. 2, the present invention may provide a real-time mark data generation method and system for receiving book information including bibliographic information and category information on a new book and generating mark data using the same. .
마크 데이터는 도서와 관련된 전반적인 정보를 컴퓨터가 목록 데이터로 식별하여 축적, 유통할 수 있도록 코드화한 일련의 메타데이터 표준 형식을 의미하는 것으로, 본 발명은 빅데이터를 기반으로 입력받은 서지 정보 및 카테고리 정보와 같은 제한적인 정보를 이용해 마크 데이터를 구성하는 항목에 대한 정보를 추정하고 그를 마크 데이터로서 생성하여 제공할 수 있다. The mark data refers to a series of metadata standards that are coded so that the computer can identify, accumulate, and distribute general information related to books as catalog data. The present invention provides bibliographic information and category information input based on big data. Information on the items constituting the mark data may be estimated using limited information such as and generated and provided as the mark data.
이 때, 서지 정보는 도서명, 저자, 출판사 또는 ISBN 정보를 포함할 수 있으며, 카테고리 정보는 예를 들면 총류, 철학, 종교, 사회과학, 자연과학, 기술과학, 예술, 언어, 문학, 역사 등을 포함할 수 있으나, 반드시 이에 한정되는 것은 아니고 이들의 상, 하위 항목을 포함하여 사용자의 설정에 따라 다양하게 분류 될 수 있음은 물론이다.In this case, the bibliographic information may include book name, author, publisher or ISBN information, and category information may include, for example, general matter, philosophy, religion, social science, natural science, technical science, art, language, literature, history, and the like. It may include, but is not necessarily limited to the above, and may be variously classified according to the user's setting, including the upper and lower items thereof.
또한 신규 도서는, 반드시 일정 기간 내 새로 발간된 도서만을 의미하는 것은 아니고, 사용자의 의사에 따라 새로이 마크 데이터를 생성할 필요가 있는 모든 도서를 포함할 수 있다.In addition, a new book does not necessarily mean only a book newly published within a certain period of time, but may include all books that need to newly generate mark data according to a user's intention.
도 3은 본 발명의 일 실시예에 따른 실시간 마크 데이터 생성 시스템(10)의 구성을 나타낸 도면이다.3 is a diagram illustrating a configuration of a real-time mark
도 3을 참조하면, 본 발명에 따른 실시간 마크 데이터 생성 시스템(10)은, 데이터베이스(100), 마크생성부(200), 통신부(300) 및 제어부(400)를 포함할 수 있다.Referring to FIG. 3, the real-time mark
데이터베이스(100)는 이미 마크 데이터가 생성되어 있는 도서들의 도서 정보 및 해당 도서 정보와 대응되는 마크 데이터를 저장할 수 있다. The
데이터베이스(100)에 저장되는 도서 정보는 서지 정보, 카테고리 정보 및 목차 정보를 포함할 수 있다. 서지 정보는 도서명, 저자, 출판사 또는 ISBN 정보 등을 포함할 수 있으며, 카테고리 정보는 예를 들면 총류, 철학, 종교, 사회과학, 자연과학, 기술과학, 예술, 언어, 문학, 역사 등을 포함할 수 있으나, 반드시 이에 한정되는 것은 아니고 이들의 상, 하위 항목을 포함하여 사용자의 설정에 따라 다양하게 분류 될 수 있음은 물론이다. Book information stored in the
일 실시예에 따르면, 데이터베이스(100)에 저장되는 도서 정보는 참조 정보를 더 포함할 수 있다. 참조 정보는 책 소개, 요약, 원서의 언어, 원서명 및 원저자 등을 포함할 수 있으나, 반드시 이에 한정되는 것은 아니고 사용자의 설정에 따라 도서와 관련된 다양한 정보가 포함될 수 있다.According to an embodiment, book information stored in the
또한, 데이터베이스(100)는 각 도서들의 서지 정보 또는 참조 정보를 이루는 형태소에 대한 정보를 더 저장할 수 있다. 이는 후술할 분석부(230)가 형태소 분석을 통해 신규 도서와 기 저장된 도서와의 유사도를 산출함에 있어서 이용될 수 있는데, 이와 관련하여는 후에 분석부(230)를 설명하면서 상술하도록 한다.In addition, the
상기 데이터베이스(100)에 저장되는 도서 정보 및 마크 데이터는, 공지의 입력 수단(키보드, 마우스, 터치 패드 또는 터치 스크린 등)을 통해 직접 데이터베이스(100)로 입력되거나, 혹은 도서관 등이 구비하고 있는 외부의 서버로부터 도서 정보 및 마크 데이터를 수신하여 저장할 수 있다. 또는 후술할 바와 같이, 본 발명에 따른 실시간 마크 데이터 생성 방법에 따라 생성된 신규 도서의 마크 데이터 또한 신규 도서의 도서 정보와 함께 데이터베이스(100)에 저장될 수 있다.Book information and mark data stored in the
한편, 본 발명의 일 실시예에 따른 데이터베이스(100)는 저장된 도서의 도서 정보와 비 서지 정보를 대응시킨 매핑 테이블을 형성하여 저장할 수 있다. 비 서지 정보는 예를 들면 KDC/DDC, 참고문헌과 색인의 여부 표시, 출판지, 저자가 개인인지 단체인지 여부 및 주제어 등을 포함할 수 있다. 여기서 KDC(Korean Decimal Classification, 한국십진분류법), DDC(Dewey Decimal Classification, 듀이십진분류법)는 주제에 따른 도서 분류 체계로서, 0~9의 숫자를 이용해 백의자리, 십의자리, 일의자리 및 소수점 이하로 내려가면서 점점 하위 항목으로 분류되는 방식을 통해 도서를 분류하는 분류 체계를 의미한다. 상기 데이터베이스(100)에 저장되는 마크 데이터에는 이러한 도서의 KDC 또는 DDC 정보가 포함될 수 있다.On the other hand, the
본 발명에 따른 데이터베이스(100)는, 마크 데이터가 기 생성되어 있는 도서들의 도서 정보와 해당 도서의 마크 데이터에 포함된 비 서지 정보를 대응시킨 매핑 테이블을 형성하여 저장할 수 있는 것이다.The
마크생성부(200)는 신규 도서의 도서 정보를 입력받고, 상기 입력받은 신규 도서의 도서 정보를 기반으로 마크 데이터를 생성할 수 있다.The
도 4는 본 발명의 일 실시예에 따른 마크생성부(200)의 구성을 나타낸 도면이다.4 is a diagram showing the configuration of the
도 4를 참조하면, 본 발명의 일 실시예에 따른 마크생성부(200)는, 입력부(210); 추출부(220); 분석부(230);및 생성부(240);를 포함할 수 있다.Referring to FIG. 4, the
입력부(210)는 마크 데이터를 생성할 신규 도서의 도서 정보를 입력받을 수 있다. 이 때, 입력부(210)에 입력되는 도서 정보는, 공지의 입력수단에 의하여 직접 입력되거나, 또는 후술할 통신부(300)를 통해 외부 서버로부터 데이터의 형태로 수신하여 입력될 수 있다. 상기 입력부(210)를 통해 입력되는 도서 정보는 신규 도서의 서지 정보, 카테고리 정보 또는 목차 정보를 포함할 수 있다.The input unit 210 may receive book information of a new book for generating mark data. In this case, the book information input to the input unit 210 may be directly input by a known input means or may be received and input in the form of data from an external server through the communication unit 300 to be described later. Book information input through the input unit 210 may include bibliographic information, category information or table of contents information of the new book.
추출부(220)는 입력받은 신규 도서의 도서 정보와 매핑되어 있는 비 서지 정보를 추출할 수 있다. 전술한 바와 같이, 데이터베이스(100)에는 기 저장된 도서들의 도서 정보 및 이와 대응되는 비 서지 정보의 대응 관계를 나타내는 매핑 테이블이 저장되며, 추출부(220)는 이러한 매핑 테이블을 기초로 상기 입력부(210)를 통해 입력된 도서 정보와 매핑된 비 서지 정보를 추출할 수 있다. 예를 들어, 입력부(210)를 통해 입력된 도서 정보 중 카테고리 정보는, 사용자의 추정에 의해 비정형 데이터로서 입력된 카테고리 정보와 매핑되는 KDC, DDC이며, 추출부(220)는 매핑 테이블 상에서 상기 입력받은 카테고리 정보와 매핑된 KDC, DDC를 추출할 수 있다.The extraction unit 220 may extract the non-bibliographic information mapped to the book information of the received new book. As described above, the
분석부(230)는 입력받은 신규 도서의 서지 정보에 대한 형태소 분석을 수행하고, 이를 상기 데이터베이스(100)에 기 저장된 도서들의 서지 사항을 이루는 형태소들과 비교하여 유사도를 산출할 수 있다. 형태소 분석은 인간의 언어를 컴퓨터와 같은 기계 장치를 통해 분석하는 자연어 처리 기법의 한 종류로, 어떤 대상 어절을 최소의 의미 단위인 형태소 단위로 분해하여 분석하는 방법을 의미한다. The analysis unit 230 may perform a morphological analysis on the bibliographic information of the new book received, and calculate the similarity by comparing the morpheme with the bibliographic details of the books previously stored in the
한편, 상기 유사도는 (동일한 형태소의 수)(카테고리 가중치)를 통해 산출될 수 있으며, 이를 통해 유사도를 산출하는 방법 및 실시예에 대하여는 후술할 마크 데이터 생성 방법을 설명하면서 상술하도록 한다.On the other hand, the similarity is (the same number of morphemes) (Category weight) can be calculated, and the method and embodiment for calculating the similarity through this will be described in detail with reference to a mark data generation method to be described later.
일 실시예에 따르면, 본 발명에 따른 분석부(230)는 참조 정보를 포함하여 형태소 분석을 수행하고, 유사도를 산출할 수 있다. 참조 정보는 책 소개, 목차, 요약, 원서의 언어, 원서명 및 원저자 등을 포함할 수 있으나 반드시 이에 한정되는 것은 아님은 물론이다.According to an embodiment, the analysis unit 230 according to the present invention may perform morphological analysis including reference information and calculate a similarity degree. Reference information may include, but is not limited to, an introduction to the book, a table of contents, a summary, the language of the application, the original name, and the original author.
생성부(240)는 상기 분석부(230)가 산출한 유사도를 기반으로 비 서지 정보를 갱신하고, 이를 포함한 마크 데이터를 생성할 수 있다.The generation unit 240 may update the non-surge information based on the similarity calculated by the analysis unit 230, and generate the mark data including the same.
상기 추출부(220)를 이용해 추출한 KDC 또는 DDC는 사용자의 추정에 의해 비정형 데이터로서 입력된 카테고리 정보와 매핑되는 KDC, DDC이므로 다소 넓은 범위를 포괄하거나 그 정확도가 낮을 수 있는데, 생성부(240)는 상기 분석부(230)가 산출한 유사도를 기반으로 하여 추출부(220)가 추출한 KDC 또는 DDC를 갱신함으로써 더욱 정확한 KDC, DDC를 산출하고, 이와 같이 높은 정확도로 산출된 KDC 또는 DDC를 포함한 마크 데이터를 생성할 수 있다.The KDC or DDC extracted using the extractor 220 may be a KDC or a DDC mapped to category information input as unstructured data by user's estimation, so that the KDC or DDC may cover a rather wide range or may have a low accuracy. The KDC or DDC is calculated more accurately by updating the KDC or DDC extracted by the extraction unit 220 based on the similarity calculated by the analysis unit 230, and the mark including the KDC or DDC calculated with high accuracy. You can generate data.
통신부(300)는, 외부 단말과 통신하여 도서 정보 및/또는 마크 데이터를 송수신할 수 있다.The communication unit 300 may communicate with an external terminal to transmit and receive book information and / or mark data.
상기 외부 단말은 본 발명에 따른 통신부(300)와 통신할 수 있는 통신 수단을 가진 전자 장치를 의미하는 것으로, 사용자 단말, 도서관에 구비된 컴퓨터 또는 서버 등을 포함할 수 있다.The external terminal refers to an electronic device having a communication means capable of communicating with the communication unit 300 according to the present invention, and may include a user terminal, a computer or a server provided in a library.
즉, 본 발명에 따른 실시간 마크 데이터 생성 시스템(10)은, 통신부(300)를 통해 외부 단말로부터 도서 정보 및/또는 마크 데이터를 수신하여 데이터베이스(100)에 저장하거나 신규 도서의 마크 데이터를 생성할 수 있고, 생성된 마크 데이터를 외부 단말 또는 서버로 전송하여 사용자에게 신규 도서의 마크 데이터를 제공할 수 있다. That is, the real-time mark
제어부(400)는 마크 데이터 생성 시스템(10)의 전반적인 동작을 제어할 수 있다.The
이하, 전술한 실시간 마크 데이터 생성 시스템(10)을 이용한 실시간 마크 데이터 생성 방법에 대하여 상세히 설명한다.Hereinafter, a method of generating real-time mark data using the real-time mark
도 5는 본 발명의 일 실시예에 따른 실시간 마크 데이터 생성 방법을 나타낸 순서도이다. 5 is a flowchart illustrating a method of generating real-time mark data according to an embodiment of the present invention.
도 5를 참조하면, 본 발명의 일 실시예에 따른 실시간 마크 데이터 생성 방법은, (a) 마크 데이터가 생성되어 있는 도서의 도서 정보 및 마크 데이터를 데이터베이스(100)에 구축 및 저장하는 단계; (b) 신규 도서의 도서 정보를 입력받고, 상기 입력받은 신규 도서의 도서 정보 및 상기 데이터베이스(100)를 기반으로 신규 도서의 마크 데이터를 생성하는 단계; 및 (c) 상기 생성된 신규 도서의 마크 데이터를 사용자에게 제공하는 단계;를 포함할 수 있다.Referring to FIG. 5, a method of generating real-time mark data according to an embodiment of the present invention may include: (a) constructing and storing book information and mark data of a book in which mark data is generated in a
(a) 단계에서, 이미 마크 데이터가 생성되어 있는 도서들의 도서 정보 및 마크 데이터를 데이터베이스(100)에 저장하여 데이터베이스(100)를 구축할 수 있다. 상기 도서 정보 및 마크 데이터는 공지의 입력 수단을 통해 직접 데이터베이스(100)에 입력되거나, 혹은 도서관 등이 구비하고 있는 외부의 서버로부터 기 저장되어 있는 도서 정보 및 마크 데이터를 수신하여 저장할 수 있다. In step (a), book information and mark data of books for which mark data has already been generated may be stored in the
상기 도서 정보는 도서의 서지 정보, 카테고리 정보 및 목차 정보를 포함할 수 있다. 서지 정보는 도서명, 저자, 출판사 또는 ISBN 정보 등을 포함할 수 있으며, 카테고리 정보는 예를 들면 총류, 철학, 종교, 사회과학, 자연과학, 기술과학, 예술, 언어, 문학, 역사 등을 포함할 수 있으나, 반드시 이에 한정되는 것은 아니고 이들의 상, 하위 항목을 포함하여 사용자의 설정에 따라 다양하게 분류 될 수 있음은 물론이다.The book information may include bibliographic information, category information, and table of contents information of the book. Bibliographic information may include book titles, authors, publishers or ISBN information, and the like, and category information may include, for example, general, philosophical, religious, social, natural, technical, technical, art, language, literature, and history. However, the present invention is not limited thereto, and may be variously classified according to a user's setting including upper and lower items thereof.
또한, 상기 도서 정보는 참조 정보를 더 포함할 수 있다. 참조 정보는 책 소개, 요약, 원서의 언어, 원서명 및 원저자 등을 포함할 수 있으나, 반드시 이에 한정되는 것은 아니고 사용자의 설정에 따라 도서와 관련된 다양한 정보가 포함될 수 있다.In addition, the book information may further include reference information. The reference information may include a book introduction, a summary, a language of the original document, an original name, an original author, and the like, but is not limited thereto, and may include various information related to the book according to a user's setting.
일 실시예에 따르면, 데이터베이스(100)는 저장된 도서의 도서 정보와 비 서지 정보를 대응시킨 매핑 테이블을 형성하여 저장할 수 있다.According to an embodiment, the
즉, (a) 단계에서는, 비 서지 정보를 포함한 마크 데이터가 이미 생성되어 있는 도서들에 대한 정보를 이용해 데이터베이스(100)를 구축하고, 이와 같이 데이터베이스(100)에 저장된 도서들의 도서 정보를 비 서지 정보와 매핑시킨 매핑 테이블을 형성하여 데이터베이스(100)에 저장할 수 있다.That is, in step (a), the
(b) 단계에서, 마크생성부(200)가 신규 도서의 도서 정보를 입력받고, 입력받은 신규 도서의 도서 정보 및 상기 (a) 단계에서 구축한 데이터베이스(100)를 기반으로 하여 신규 도서의 마크 데이터를 생성할 수 있다.In the step (b), the
도 6은 본 발명의 일 실시예에 따른 마크생성부(200)가 신규 도서의 마크 데이터를 생성하는 방법을 나타낸 순서도이다.6 is a flowchart illustrating a method of generating mark data of a new book by the
도 6을 참조하면, 본 발명에 따른 신규 도서의 마크 데이터 생성 방법은, (b-1) 입력부(210)를 통해 신규 도서의 도서 정보를 입력받는 단계; (b-2) 추출부(220)가, 상기 데이터베이스(100)로부터 입력받은 도서 정보와 매핑된 비 서지 정보를 추출하는 단계; (b-3) 분석부(230)가, 입력받은 서지 정보에 대한 형태소 분석을 통해 상기 데이터베이스(100)에 저장된 도서와의 유사도를 산출하는 단계; (b-4) 생성부(240)가, 상기 유사도를 기초로 상기 추출한 비 서지 정보를 갱신하고 마크 데이터를 생성하는 단계;를 포함할 수 있다.Referring to FIG. 6, the mark data generation method of a new book according to the present invention may include: (b-1) receiving book information of a new book through the input unit 210; (b-2) extracting, by the extracting unit 220, non-bibliographic information mapped to book information received from the
(b-1) 단계에서는 입력부(210)를 통해 신규 도서의 서지 정보 및 카테고리 정보를 포함한 도서 정보를 입력받는다.In step (b-1), book information including bibliographic information and category information of the new book is received through the input unit 210.
즉, (b-1) 단계에서 사용자는 마크 데이터를 생성하고자 하는 신규 도서의 서지 정보 및 사용자가 추정한 카테고리 정보를 입력한다. 이와 같이 사용자로부터 입력받는 서지 정보 및 카테고리 정보는, 공지의 입력 수단을 통해 직접 입력부(210)에 입력되거나, 통신부(300)를 통해 외부 서버로부터 수신하여 입력부(210)에 입력될 수 있다.That is, in step (b-1), the user inputs bibliographic information of the new book for which mark data is to be generated and category information estimated by the user. As such, the bibliographic information and the category information received from the user may be directly input to the input unit 210 through a known input means, or may be received from an external server through the communication unit 300 and input to the input unit 210.
여기서 사용자가 입력하는 도서 정보 중 서지 정보는 도서명, 저자, 출판사 또는 ISBN과 같이 도서에 기재되어 있는 객관적인 정보들을 포함하며, 카테고리 정보는 사용자의 주관적인 해석에 따라 추정한 카테고리일 수 있다.Here, the bibliographic information of the book information input by the user includes objective information described in the book, such as a book name, author, publisher, or ISBN, and the category information may be a category estimated according to the subjective interpretation of the user.
상기 (b-1) 단계에서 입력받는 도서 정보는, 서지 정보, 카테고리 정보 및 목차 정보 외에 참조 정보를 더 포함할 수 있다. 상기 참조 정보는 책 소개, 요약, 원서의 언어, 원서명 및 원저자 등을 포함할 수 있으나 반드시 이에 한정되는 것은 아님은 물론이다.The book information input in step (b-1) may further include reference information in addition to bibliographic information, category information, and table of contents information. The reference information may include, but is not necessarily limited to, an introduction to the book, a summary, the language of the application, the original name, and the original author.
(b-2) 단계에서는 추출부(220)를 통해 상기 (b-1) 단계에서 입력받은 신규 도서의 도서 정보와 매핑되어 있는 비 서지 정보를 추출한다.In the step (b-2), the extraction unit 220 extracts the non-bibliographic information mapped to the book information of the new book received in the step (b-1).
본 발명에 따른 데이터베이스(100)에는 카테고리 정보를 포함한 도서 정보 및 이와 대응되는 비 서지 정보의 대응 관계를 나타내는 매핑 테이블이 저장되며, (b-2) 단계에서는 이러한 매핑 테이블을 기초로 (b-1) 단계에서 사용자가 입력한 도서 정보와 매핑된 비 서지 정보를 추출할 수 있다.In the
(b-3) 단계에서, 분석부(230)는 입력받은 서지 정보에 대한 형태소 분석을 통해 상기 데이터베이스(100)에 저장된 도서와의 유사도를 산출한다.In step (b-3), the analysis unit 230 calculates the similarity with the book stored in the
형태소 분석은 인간의 언어를 컴퓨터와 같은 기계 장치를 통해 분석하는 자연어 처리 기법의 한 종류로, 어떤 대상 어절을 최소의 의미 단위인 형태소 단위로 분해하여 분석하는 방법을 의미한다.Morphological analysis is a kind of natural language processing technique that analyzes human language through a mechanical device such as a computer. The morphological analysis refers to a method of decomposing and analyzing a target word into a morphological unit that is a minimum semantic unit.
분석부(230)는 (b-1) 단계에서 입력받은 신규 도서의 서지 정보에 대한 형태소 분석을 수행하고, 이를 상기 데이터베이스(100)에 기 저장된 도서들의 서지 사항을 이루는 형태소들과 비교하여 유사도를 산출할 수 있다.The analysis unit 230 performs a morphological analysis on the bibliographic information of the new book input in the step (b-1), and compares the morphemes with the morphemes forming the bibliographic details of the books previously stored in the
상기 유사도는, (동일한 형태소의 수)(카테고리 가중치)를 통해 산출할 수 있으며, 이를 수식으로 나타내면 아래와 같다.The similarity is (number of identical morphemes) (Category weight) can be calculated.
동일한 형태소의 수()는, 동일한 형태소가 나타나는 빈도가 많을수록 신규 도서와 유사할 가능성이 높음을 수식화 한 것이다.Number of identical morphemes ( ) Is formulated that the more frequently the same morpheme appears, the more likely it is to be similar to a new book.
카테고리 가중치()는, 사용자가 입력한 카테고리 정보와 카테고리가 유사한 도서일수록 신규 도서와 유사할 가능성이 높음을 수식화 한 것이다.Category weights ( ) Is formulated that a book having a category similar to the category information input by the user is more likely to be similar to a new book.
일 실시예에 따르면, 상기 카테고리 가중치는 (b-2) 단계에서 추출한 KDC, DDC와 백의자리, 십의자리 및 일의자리가 차례로 일치하는 도서일수록 높은 가중치가 설정되도록 할 수 있다. According to an embodiment of the present invention, the category weight may be set so that a higher weight is set in a book in which the KDC, the DDC and the white spot, the tenth place, and the single place coincide in sequence (b-2).
KDC 및 DDC는 0~9의 숫자를 이용해 백의자리, 십의자리, 일의자리 및 소수점 이하로 내려가면서 점점 상위 항목에서 하위 항목으로 분류되는 방식을 통해 도서를 분류하는 분류 체계로서, 백의자리, 십의자리 및 일의자리가 차례로 일치할수록 서로 유사한 카테고리의 도서일 가능성이 높은 것이다.KDC and DDC are classification systems that classify books by dividing them into upper and lower items by going down to hundreds, tens, singles, and decimal points using numbers 0-9. The more the tens and ones coincide in sequence, the more likely the books are in similar categories.
즉, 상기 카테고리 가중치는, (b-2) 단계에서 산출된 신규 도서의 KDC, DDC와 백의자리, 십의자리, 일의자리가 모두 일치하는 도서의 카테고리 가중치를 가장 높게 설정하고, 그 다음으로 백의자리, 십의자리가 일치하는 도서, 또 그 다음으로 백의자리가 일치하는 도서, 마지막으로 백의자리가 일치하지 않는 도서 순으로 설정할 수 있다.That is, the category weight is set to the highest category weight of the book that all KDC, DDC and the white, tens, ones place of the new book calculated in step (b-2) is the highest, and then It may be set in the order of the hundredth digit, the book with the tenth digit, the next the hundredth digit, and the last the hundredth digit.
상기 수식에는 표현되지 않았으나, 일 실시예에 따르면 상기 유사도를 산출함에 있어서 각 형태소에 따라 가중치가 달리 부여되도록 설정할 수 있다.Although not expressed in the above formula, according to an embodiment, the weight may be set differently according to each morpheme in calculating the similarity.
분석부(230)에 의하여 도서의 서지 정보로부터 추출되는 형태소 마다 각 도서가 포함된 카테고리와의 연관성의 정도가 서로 다를 수 있는데, 이를 고려하여 각 형태소마다 가중치가 달리 부여되도록 설정할 수 있는 것이다.For each morpheme extracted from the bibliographic information of the book by the analysis unit 230, the degree of association with the category in which the book is included may be different. In consideration of this, the weights may be set differently for each morpheme.
이 경우, 상기 형태소마다 부여되는 가중치는, 동일한 카테고리 내에서 나타나는 빈도가 많은 형태소일수록 더 높은 가중치가 부여되도록 설정할 수 있다.In this case, the weights given to the morphemes may be set such that higher weights are assigned to more morphemes appearing in the same category.
일 실시예에 따르면, 본 발명에 따른 분석부(230)는 신규 도서의 서지 정보뿐만 아니라 참조 정보에 대하여도 형태소 분석을 수행할 수 있다. 참조 정보는 책 소개, 목차, 요약, 원서의 언어, 원서명 및 원저자 등을 포함할 수 있다.According to an embodiment, the analysis unit 230 according to the present invention may perform morphological analysis on reference information as well as bibliographic information of a new book. Reference information may include a book introduction, a table of contents, a summary, the language of the application, the original name, and the original author.
(b-4) 단계에서, 생성부(240)는 (b-3) 단계에서 산출된 유사도를 기초로 상기 추출한 비 서지 정보를 갱신하고, 마크 데이터를 생성한다.In step (b-4), the generation unit 240 updates the extracted non-surge information based on the similarity calculated in step (b-3) and generates mark data.
예를 들어, 전술한 바와 같이 상기 (b-2) 단계에서 추출한 KDC 또는 DDC는 사용자의 추정에 의해 비정형 데이터로서 입력된 카테고리 정보와 매핑되는 KDC, DDC이므로 다소 넓은 범위를 포괄하거나 그 정확도가 낮을 수 있는데, (b-4) 단계에서는 상기 입력받은 도서의 서지 정보를 기반으로 상기 추출한 KDC 또는 DDC를 갱신함으로써 더욱 정확한 KDC, DDC를 산출하고, 이와 같이 높은 정확도로 산출된 KDC 또는 DDC를 포함한 마크 데이터를 생성할 수 있다.For example, as described above, the KDC or DDC extracted in the step (b-2) is a KDC or DDC mapped to category information input as unstructured data by user's estimation, so that the KDC or DDC may cover a rather wide range or have low accuracy. In the step (b-4), the extracted KDC or DDC is updated based on the bibliographic information of the input book to calculate more accurate KDC and DDC, and the mark including the KDC or DDC calculated with high accuracy is obtained. You can generate data.
한편, 상기 (b-4) 단계를 통해 생성된 신규 도서의 마크 데이터는, 신규 도서의 도서 정보와 함께 본 발명에 따른 데이터베이스(100)에 자동으로 업데이트되어 저장될 수 있다.Meanwhile, the mark data of the new book generated through the step (b-4) may be automatically updated and stored in the
(c) 단계에서는 상기 (b) 단계에서 생성된 신규 도서의 마크 데이터를 사용자가 소지한 단말 또는 사용자가 운용하는 서버(예를 들면, 도서관 서버)로 전송하여 사용자에게 제공할 수 있다.In step (c), the mark data of the new book generated in step (b) may be transmitted to a terminal possessed by the user or a server (for example, a library server) operated by the user and provided to the user.
일 실시예에 따르면, 상기 (c) 단계에서는 상기 생성된 마크 데이터 중 사용자가 원하는 항목을 필터링 하여 제공할 수 있다.According to an embodiment, in step (c), an item desired by a user may be filtered and provided from the generated mark data.
전술한 바와 같이, 본 발명에 따른 마크 데이터 생성 방법에 따라 생성되는 마크 데이터는 도서명, 저자, 판 사항, 발행 사항, 형태 사항, 주제, 주기 등을 포함하여 도서에 대한 전반적인 정보를 코드화 하여 저장한 데이터일 수 있다. 각 사용자 또는 도서관은 이 중 이용하고자 하는 항목만을 선별적으로 선택하여 제공받을 수 있다.As described above, the mark data generated according to the mark data generation method according to the present invention encodes and stores overall information about a book, including a book name, author, edition, publication, form, subject, period, and the like. Data. Each user or library may be selectively provided with only the items to be used.
도 7은 일 실시예에 따라 마크 데이터를 필터링하는 것을 나타낸 도면이다.7 is a diagram illustrating filtering mark data according to an exemplary embodiment.
도 7을 참조하면, 도서관 A, ?, N은 각 도서관마다 정의한 도서관 정의 필터A 내지 도서관 정의 필터 N을 통해, 선택 영역에 해당하는 항목들만을 선별하고, 비선택 영역에 해당하는 항목들을 배제함으로써, 실시간 마크 데이터 생성 시스템에서 생성된 마크 데이터 중 원하는 항목만을 필터링하여 제공받을 수 있는 것이다. Referring to FIG. 7, the libraries A,?, And N select only the items corresponding to the selection area and exclude the items corresponding to the non-selection area through the library definition filter A to the library definition filter N defined for each library. In addition, only desired items may be provided by filtering desired items of mark data generated by a real-time mark data generation system.
전술한 바와 같이, 이상 본 명세서에서는 KDC/DDC정보의 생성을 예시로서 설명하였으나, 본 발명의 기술적 사상이 반드시 이에 한정되는 것은 아니고 KDC/DDC 정보를 포함하여 참고문헌과 색인의 여부 표시, 출판지, 저자가 개인인지 단체인지 여부, 주제어, 도서관별 맞춤 청구기호, 도서관별 도서등록기호 등과 같이 도서의 기본 서지정보만으로는 획득할 수 없는 다양한 정보를 생성할 수 있다.As described above, in the present specification, the generation of KDC / DDC information has been described as an example. However, the technical spirit of the present invention is not necessarily limited thereto, and the reference information including index and index including KDC / DDC information, publication, Whether the author is an individual or a group, a subject, a custom bill symbol for each library, a book registration symbol for each library, and the like, various kinds of information that cannot be obtained only by basic bibliographic information of the book can be generated.
위에서 설명된 본 발명의 실시 예들은 예시의 목적을 위해 개시된 것이며, 이들에 의하여 본 발명이 한정되는 것은 아니다. 또한, 본 발명에 대한 기술 분야에서 통상의 지식을 가진 자라면, 본 발명의 사상과 범위 안에서 다양한 수정 및 변경을 가할 수 있을 것이며, 이러한 수정 및 변경은 본 발명의 범위에 속하는 것으로 보아야 할 것이다.Embodiments of the invention described above are disclosed for purposes of illustration, and the invention is not limited thereto. In addition, one of ordinary skill in the art of the present invention will be able to make various modifications and changes within the spirit and scope of the present invention, and such modifications and changes should be regarded as falling within the scope of the present invention.
10: 마크 데이터 생성 시스템
100: 데이터베이스 200: 마크생성부
210: 입력부 220: 추출부
230: 분석부 240: 생성부
300: 통신부 400: 제어부10: mark data generation system
100: database 200: mark generation unit
210: input unit 220: extraction unit
230: analysis unit 240: generation unit
300: communication unit 400: control unit
Claims (8)
(a) 마크 데이터가 생성되어 있는 도서의 도서 정보 및 마크 데이터를 이용해 데이터베이스를 구축하는 단계;
(b) 신규 도서의 도서 정보를 입력받고, 상기 입력받은 신규 도서의 도서 정보 및 상기 데이터베이스를 기반으로 신규 도서의 마크 데이터를 생성하는 단계; 및
(c) 상기 생성된 신규 도서의 마크 데이터를 사용자에게 제공하는 단계;를 포함하고,
상기 (b) 단계는, (b-1) 입력부를 통해 신규 도서의 도서 정보를 입력받는 단계; (b-2) 추출부가, 상기 데이터베이스로부터 입력받은 도서 정보와 매핑된 비 서지 정보를 추출하는 단계; (b-3) 분석부가, 입력받은 서지 정보에 대한 형태소 분석을 통해 상기 데이터베이스에 저장된 도서와의 유사도를 산출하는 단계; 및 (b-4) 생성부가, 상기 유사도를 기초로 상기 추출한 비 서지 정보를 갱신하고 마크 데이터를 생성하는 단계;를 포함하며,
상기 유사도는, 동일한 형태소의 수와 카테고리 가중치의 곱으로 산출되는 것을 특징으로 하는 실시간 마크 데이터 생성 방법.
In the real-time mark data generation method performed by the mark data generation system,
(a) constructing a database using book information and mark data of a book in which mark data is generated;
(b) receiving book information of a new book and generating mark data of the new book based on the book information of the received new book and the database; And
(c) providing the mark data of the generated new book to the user;
Step (b) may include receiving book information of a new book through the input unit (b-1); (b-2) an extracting unit, extracting non-bibliographic information mapped to book information received from the database; (b-3) calculating, by the analysis unit, similarity with the book stored in the database through morphological analysis of the received bibliographic information; And (b-4) a generation unit, updating the extracted non-surge information based on the similarity and generating mark data.
The similarity is calculated by multiplying the number of the same morpheme and the category weight.
상기 도서 정보는 도서에 대한 서지 정보, 카테고리 정보 및 목차 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 실시간 마크 데이터 생성 방법.
The method of claim 1,
The book information comprises at least one of bibliographic information, category information and table of contents information about the book.
상기 (a) 단계는, 마크 데이터가 생성되어 있는 도서의 도서 정보와 대응되는 비 서지 정보가 매핑된 매핑 테이블을 형성하여 데이터베이스에 저장하되,
상기 비 서지 정보는, KDC/DDC, 참고문헌과 색인의 여부, 출판지, 저자가 개인인지 단체인지 여부, 주제어 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 실시간 마크 데이터 생성 방법.
The method of claim 2,
In the step (a), the non-surge information corresponding to the book information of the book on which the mark data is generated is formed and stored in the database by mapping the mapping table.
The non-bibliographic information may include at least one of a KDC / DDC, a reference and an index, a publication, whether the author is an individual or a group, and a subject.
상기 (c) 단계는, 상기 생성된 마크 데이터 중 사용자가 원하는 항목을 필터링 하여 제공하는 것을 특징으로 하는 실시간 마크 데이터 생성 방법.
The method of claim 1,
Step (c), the real-time mark data generation method, characterized in that for providing the item desired by the user of the mark data generated.
신규 도서의 도서 정보를 입력받고 마크 데이터를 생성하는 마크생성부;
외부 단말과 통신하여 도서 정보 또는 마크 데이터를 송수신하는 통신부; 및
제어부;를 포함하고,
상기 데이터베이스는, 도서 정보와 대응되는 비 서지 정보가 매핑된 매핑 테이블을 형성하여 저장하되,
상기 비 서지 정보는, KDC/DDC, 참고문헌과 색인의 여부, 출판지, 저자가 개인인지 단체인지 여부, 주제어 중 적어도 어느 하나를 포함하고,
상기 마크생성부는, 신규 도서의 도서 정보를 입력받는 입력부; 상기 신규 도서의 도서 정보와 대응되는 비 서지 정보를 추출하는 추출부; 상기 신규 도서의 서지 정보에 대한 형태소 분석을 수행하는 분석부; 및 상기 비 서지 정보를 갱신하고 이를 포함한 신규 도서의 마크 데이터를 생성하는 생성부;를 포함하며,
상기 분석부는, 입력받은 서지 정보에 대한 형태소 분석을 통해 상기 데이터베이스에 저장된 도서와의 유사도를 산출하되, 상기 유사도는, 동일한 형태소의 수와 카테고리 가중치의 곱으로 산출되는 것을 특징으로 하는 실시간 마크 데이터 생성 시스템.
A database for storing book information and mark data of books for which mark data is generated;
A mark generator which receives book information of a new book and generates mark data;
Communication unit for transmitting and receiving book information or mark data by communicating with an external terminal; And
A control unit;
The database forms and stores a mapping table to which non-bibliographic information corresponding to book information is mapped.
The non-bibliographic information includes at least one of a KDC / DDC, a bibliography and an index, a publication place, whether the author is an individual or a group, and a subject.
The mark generation unit may include an input unit for receiving book information of a new book; An extraction unit for extracting non-bibliographic information corresponding to book information of the new book; An analysis unit which performs morphological analysis on the bibliographic information of the new book; And a generation unit for updating the non-bibliographic information and generating mark data of a new book including the same.
The analysis unit generates a similarity with the book stored in the database through morphological analysis of the input bibliographic information, wherein the similarity is calculated by multiplying the number of the same morpheme and the category weight. system.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180128908A KR102015089B1 (en) | 2018-10-26 | 2018-10-26 | Method and system for realtime marc data generation |
EP19876370.8A EP3872743A4 (en) | 2018-10-26 | 2019-10-07 | Method for generating and transmitting marc data in real time when user applies for wish book, and system therefor |
US17/059,246 US11409718B2 (en) | 2018-10-26 | 2019-10-07 | Method for generating and transmitting MARC data in real time when user applies for wish book, and system therefor |
CN201980034486.1A CN112534465A (en) | 2018-10-26 | 2019-10-07 | Method for real-time generating and transmitting machine-readable catalog data when user applies for desired book and system therefor |
PCT/KR2019/013088 WO2020085674A1 (en) | 2018-10-26 | 2019-10-07 | Method for generating and transmitting marc data in real time when user applies for wish book, and system therefor |
JP2020565284A JP6925547B2 (en) | 2018-10-26 | 2019-10-07 | Real-time mark data generation method and system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180128908A KR102015089B1 (en) | 2018-10-26 | 2018-10-26 | Method and system for realtime marc data generation |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102015089B1 true KR102015089B1 (en) | 2019-08-27 |
Family
ID=67807875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180128908A KR102015089B1 (en) | 2018-10-26 | 2018-10-26 | Method and system for realtime marc data generation |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102015089B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020085674A1 (en) * | 2018-10-26 | 2020-04-30 | 주식회사 대양정보 | Method for generating and transmitting marc data in real time when user applies for wish book, and system therefor |
KR20230133751A (en) | 2022-03-11 | 2023-09-19 | 주식회사 리버트리 | Content-based smart library operating platform system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090032546A (en) * | 2007-09-28 | 2009-04-01 | 이종엽 | System for processing marc data of book and method thereof |
KR100991661B1 (en) | 2010-05-31 | 2010-11-04 | 이병준 | System for automatic classification dewey decimal classification/korea decimal classification of book and method for the same |
-
2018
- 2018-10-26 KR KR1020180128908A patent/KR102015089B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090032546A (en) * | 2007-09-28 | 2009-04-01 | 이종엽 | System for processing marc data of book and method thereof |
KR100991661B1 (en) | 2010-05-31 | 2010-11-04 | 이병준 | System for automatic classification dewey decimal classification/korea decimal classification of book and method for the same |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020085674A1 (en) * | 2018-10-26 | 2020-04-30 | 주식회사 대양정보 | Method for generating and transmitting marc data in real time when user applies for wish book, and system therefor |
US11409718B2 (en) | 2018-10-26 | 2022-08-09 | Libertree Inc. | Method for generating and transmitting MARC data in real time when user applies for wish book, and system therefor |
KR20230133751A (en) | 2022-03-11 | 2023-09-19 | 주식회사 리버트리 | Content-based smart library operating platform system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106796578B (en) | Autoknowledge system and method and memory | |
US11010768B2 (en) | Character-based attribute value extraction system | |
CN110532451A (en) | Search method and device for policy text, storage medium, electronic device | |
CN109885768A (en) | Worksheet method, apparatus and system | |
US11263714B1 (en) | Automated document analysis for varying natural languages | |
CN107315738A (en) | A kind of innovation degree appraisal procedure of text message | |
US11367116B1 (en) | System and method for automatic product matching | |
KR102015089B1 (en) | Method and system for realtime marc data generation | |
CN108052668A (en) | The endowed method and system of intelligence based on commodity code | |
Groom et al. | Improved standardization of transcribed digital specimen data | |
US11520835B2 (en) | Learning system, learning method, and program | |
KR20200064490A (en) | Server and method for automatically generating profile | |
Malinova et al. | Automatic extraction of process categories from process model collections | |
KR102227421B1 (en) | Method and system for realtime marc data generation and transmission on the book request of users | |
JP6925547B2 (en) | Real-time mark data generation method and system | |
Ruiz et al. | Understanding how and when human factors are used in the software process: a text-mining based literature review | |
CN110737749B (en) | Entrepreneurship plan evaluation method, entrepreneurship plan evaluation device, computer equipment and storage medium | |
US11816421B2 (en) | Summary creation method, summary creation system, and summary creation program | |
CN113344674A (en) | Product recommendation method, device, equipment and storage medium based on user purchasing power | |
JP6763967B2 (en) | Data conversion device and data conversion method | |
Ordoñez et al. | Multimodal indexing and search of business processes based on cumulative and continuous N-grams | |
Ren et al. | Validation of CORE-MD PMS Support Tool: A Novel Strategy for Aggregating Information from Notices of Failures to Support Medical Devices’ Post-Market Surveillance | |
KR20070102036A (en) | System and method for making analysis of document | |
CN112257734A (en) | Information processing method and device and storage medium | |
WO2021024882A1 (en) | Assessment server for handling mulitple pieces of product information used in product sales forecasts, and assessment method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |