KR101640428B1 - 참고문헌 자동 구축 시스템 - Google Patents

참고문헌 자동 구축 시스템 Download PDF

Info

Publication number
KR101640428B1
KR101640428B1 KR1020140167341A KR20140167341A KR101640428B1 KR 101640428 B1 KR101640428 B1 KR 101640428B1 KR 1020140167341 A KR1020140167341 A KR 1020140167341A KR 20140167341 A KR20140167341 A KR 20140167341A KR 101640428 B1 KR101640428 B1 KR 101640428B1
Authority
KR
South Korea
Prior art keywords
journal
information
name
doi
automatic
Prior art date
Application number
KR1020140167341A
Other languages
English (en)
Other versions
KR20160064306A (ko
Inventor
윤정원
박규태
Original Assignee
손죠 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 손죠 주식회사 filed Critical 손죠 주식회사
Priority to KR1020140167341A priority Critical patent/KR101640428B1/ko
Publication of KR20160064306A publication Critical patent/KR20160064306A/ko
Application granted granted Critical
Publication of KR101640428B1 publication Critical patent/KR101640428B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Abstract

본 발명은 논문 정보에 포함된 참고문헌 정보를 추출한 후 이를 학술정보 DB 구축의 국제적 표준에 기반한 참고문헌 정보로 자동 구조화하며, 구조화된 참고문헌 정보를 이용하여 저널 전거를 자동으로 구축할 수 있는 참고문헌 자동 구축 시스템에 관한 것이다.
본 발명에 따른 참고문헌 자동 구축 시스템은 논문 PDF 파일에 포함된 참고문헌 정보를 추출하여 국제적 표준에 기반한 참고문헌 정보로 구조화하는 참고문헌 자동 구축 시스템으로서, 각 저널별로 상이한 형식으로 작성되는 참고문헌의 종류에 따라 각 참고문헌의 형식 및 구분자를 지정하여 설정하는 참고문헌 형식&구분자 지정부와; 논문 PDF 파일을 입력받아, 논문 PDF 파일에 포함된 참고문헌 영역을 인식하여 참고문헌 정보를 원형 형태로 추출하는 참고문헌 원형 자동 추출부와; 상기 참고문헌 원형 자동 추출부를 통하여 추출된 참고문헌 정보에 대해, 상기 참고문헌 형식&구분자 지정부를 통하여 지정된 형식 및 구분자에 따라 구분하여, 학술정보 DB구축의 국제적 표준인 NISO JATS DTD에서 규정한 항목으로 구성하여 참고문헌 데이터베이스를 구축하는 참고문헌 자동 구조화부;를 포함하여 이루어지는 것을 특징으로 한다.

Description

참고문헌 자동 구축 시스템 {AUTOMATIC CONSTRUCTION SYSTEM OF REFERENCES}
본 발명은 참고문헌 자동 구축 시스템에 관한 것으로, 특히 논문 정보에 포함된 참고문헌 정보를 추출한 후 이를 학술정보 DB 구축의 국제적 표준에 기반한 참고문헌 정보로 자동 구조화하며, 구조화된 참고문헌 정보를 이용하여 저널 전거를 자동으로 구축할 수 있는 참고문헌 자동 구축 시스템에 관한 것이다.
논문은 어떠한 주제에 대해 저자가 자신의 학문적 연구결과나 의견, 주장을 논리에 맞게 풀어 써서 일관성 있고 일정한 형식에 맞추어 체계적으로 쓴 글로써, 석사, 박사 등 학위를 취득하기 위한 학위논문과 각종 학술지 또는 학술대회에 발표하는 학술논문, 그리고 출판을 위한 논문 등이 있다.
일반적으로 국내 논문의 경우 해외와는 달리 투고되는 논문 파일의 포맷이 hwp, doc 등의 포맷을 취하고 있으며, 부가적으로 제출되는 파일에는 xls, ppt 등의 포맷이 제공되고 있다. 이러한 다양한 포맷으로 제공되는 논문 정보를 취합 및 출판을 위한 편집 가공 후, 최종 생산되는 파일 포맷은 PDF로 귀결되어 진다. 이렇게 다양한 파일 포맷으로 작성되는 논문 파일은 PDF 변환 프로그램을 이용하여 PDF 파일로 변환되게 되는데, PDF 파일로 변환된 논문 파일은 텍스트 정보 추출을 통하여 논문 데이터베이스로 구축되어 이용하게 된다. 일반적으로 텍스트 기반의 PDF 논문 파일에서 텍스트 정보를 정확히 추출하기 위해 PDF 파일을 ADOBE ACROBAT 프로그램을 통해 XML 파일 형태로 저장하게 되는데, 이렇게 PDF 파일의 XML 파일 저장시 PDF를 제작한 생성 프로그램 및 생성 프로그램의 버전에 따라 매우 다양한 형태의 XML 구조를 제공하게 된다.
이와 같이 PDF 생성 프로그램 및 생성 프로그램의 버전에 따라 다양한 형태의 XML 구조를 제공하기 때문에, 이러한 다양한 구조의 XML 파일을 통하여 논문 정보를 자동으로 구조화시키기 어려운 문제점이 있었다. 즉, 다양한 구조로 이루어진 XML 파일에서 텍스트 정보를 추출하고 이를 통하여 데이터베이스로 구조화하기 위해서는 XML 구조에 따라 서로 다른 구조화 프로그램이 필요한데, 이러한 다양한 구조화 프로그램을 제작하려면 개발 비용이 증가하게 되고, 제작된 구조화 프로그램의 버전 관리가 일일이 이루어져야 하며, 신규 PDF 변환 프로그램의 적용 및 신규 버전의 적용시 추가 프로그램의 제작이 필요하기 때문에, 전체적인 제작 및 유지보수 기간과 비용이 많이 소요되는 문제점이 있었다.
한편, 이러한 논문 정보에는 참고문헌 정보가 포함되는데, 참고문헌 정보의 기재 형식은 논문을 발표하는 학교나 단체 등에 따라 달라지게 된다. 따라서, 이러한 논문 정보에 포함된 참고문헌 정보를 데이터베이스로 구조화하기 위해서 사람이 참고문헌 정보를 일일이 확인하면서, 그 기재 형식에 따라 내용을 파악하여 표준화된 형식에 맞추어 재배치하여야 하므로, 인력 및 시간이 많이 소요되는 문제점이 있었다.
대한민국 등록특허공보 제10-03197567호 (2001.12.21. 등록)
본 발명은 상기 종래 기술의 문제점을 해결하기 위해 제안된 것으로서, 본 발명의 목적은 PDF 파일로 제작된 논문 파일을 XML로 저장하지 않고 Open Source인 PDFBOX를 통해 PDF의 논문 순서대로 텍스트 정보를 추출하고, 추출된 텍스트 정보 중 참고문헌 영역을 인식하여 참고문헌 정보를 국제적 표준에 기반한 참고문헌 정보로 자동으로 구조화하여 참고문헌 데이터베이스를 구축할 수 있도록 하는 참고문헌 자동 구축 시스템을 제공하는 데 있다.
본 발명의 다른 목적은 상기 참고문헌 자동 구축 시스템을 통하여 자동 구축된 참고문헌 정보에 부속된 국제적으로 유통되고 있는 DOI 정보 중 저널 DOI를 자동 발췌하여, 저널 DOI를 통해 대표 저널명과 이형 저널명을 시스템이 자동 등록할 수 있도록 하는 참고문헌 자동 구축 시스템을 제공하는 데 있다.
본 발명에서는 논문 정보에 포함된 참고문헌 정보를 PDF to Text 추출 프로그램을 통해 참고문헌 텍스트 정보로 자동 추출한 후, 이를 학술정보 DB 구축의 국제적 표준 기반의 참고문헌 정보로 구조화하고, 구조화된 참고문헌 정보 중 저널명, 발행년도, 권, 논문의 시작 페이지 정보를 http Protocol 방식을 통해, CrossRef의 API 기능을 이용하여, 리턴되는 정보 중 저널 DOI를 자동 캐취하여, 저널명에 고유 저널 코드를 자동 구성하고, 구성된 저널명칭 및 저널 코드를 그룹화 및 종속 처리를 통해, 저널의 대표명 설정과 이형 저널명 설정을 자동으로 처리하여, 저널 전거를 생성하게 된다.
이를 위하여, 본 발명에 따른 참고문헌 자동 구축 시스템은 논문 PDF 파일에 포함된 참고문헌 정보를 추출하여 국제적 표준에 기반 한 참고문헌 정보로 구조화하는 참고문헌 자동 구축 시스템으로서, 각 저널별로 상이한 형식으로 작성되는 참고문헌의 종류에 따라 각 참고문헌의 형식 및 구분자를 지정하여 설정하는 참고문헌 형식&구분자 지정부와; 논문 PDF 파일을 입력받아, 논문 PDF 파일에 포함된 참고문헌 영역을 인식하여 참고문헌 정보를 원형 형태로 추출하는 참고문헌 원형 자동 추출부와; 상기 참고문헌 원형 자동 추출부를 통하여 추출된 참고문헌 정보에 대해, 상기 참고문헌 형식&구분자 지정부를 통하여 지정된 형식 및 구분자에 따라 자동 구분하여, 학술정보 DB구축의 국제적 표준인 NISO JATS DTD에서 규정한 항목으로 구성하여 참고문헌 데이터베이스를 구축하는 참고문헌 자동 구조화부;를 포함하여 이루어진다.
상기 참고문헌 형식&구분자 지정부는 다양한 형식으로 작성된 참고문헌의 자료 타입을 관리자에게 제공되는 참고문헌 패턴 등록화면의 패턴등록 기능을 통해 정의하고, 각 자료 타입에 따라 참고문헌의 형식에 따른 구성 항목의 순서를 정의하며, 각 구성 항목과 항목 사이에 존재하는 구분자("공백", """, "'", "「", "」", ",", "≪", "≫", "『", "』" 등)를 정의하여, 참고문헌 형식 및 구분자 데이터베이스에 등록 또는 갱신하게 된다.
여기에서, 상기 참고문헌의 자료 타입은 저널, 학술대회, 단행본, 보고서, 학위논문, 특허, 웹 중 어느 하나를 포함하며, 상기 참고문헌의 구성 항목은 참고문헌의 자료 타입에 따라 적어도 한 명 이상의 저자 성 및 이름, 논문명, 저널명, 권호, 시작 페이지, 끝 페이지, 학술대회 명, 학술대회 개최일, 학술대회 개최지명, 출판사, 출판사 소재지, 발행년도, 보고서 번호, 특허번호, 특허 항목 중 참고문헌의 자료타입 설정에 따라 상기 항목 중 다수 항목을 포함하는 것이 바람직하다.
또한, 상기 참고문헌 원형 자동 추출부는 논문 PDF 파일을 입력받아 PDFBOX의 PDFText Stripper Object를 통해 텍스트 정보를 추출하고, 상기 추출된 텍스트 정보 중 참고문헌을 나타내는 문자열을 탐색하여 참고문헌 영역을 파악하며, 파악된 참고문헌 영역의 원형 형태로 추출하게 된다.
여기에서, 상기 참고문헌 원형 자동 추출부는 PDFBOX의 PDFText Stripper Object를 통해 추출된 텍스트 정보 중 References, Citation, 인용문헌, 참고문헌, 引用文獻, 參考文獻 중 어느 하나를 포함하는 문자열을 탐색하여 참고문헌 영역을 파악하고, 상기 파악되는 단일 참고문헌의 시작 부분과 끝 부분을 인식하여 인식된 단일 참고문헌을 원형 형태로 구성한 후, 전체 텍스트 정보 중에서 인식된 단일 참고문헌의 수를 카운트하여 카운트 된 수만큼 텍스트 박스를 생성하고, 생성된 텍스트 박스에 참고문헌의 원형 정보를 표시하여 구성하는 것이 바람직하다.
또한, 상기 참고문헌 자동 구조화부는 참고문헌 형식&구분자 지정부에서 지정한 참고문헌 형식 및 구분자에 따라, 상기 참고문헌 원형 자동 추출부에서 추출된 참고문헌 정보에 포함된 저자 수를 카운트하여 카운트된 저자 수만큼 저수 성 및 이름을 입력하기 위한 텍스트 박스를 생성하고, 참고문헌의 자료 타입에 따라 논문명, 저널명, 발행년도, 권호, 시작 페이지, 끝 페이지, 학술대회 명, 학술대회 개최지역, 학술대회 개최일, 보고서 번호, 보고서 발행기관, 출판사, 출판사 소재지, 특허번호, 특허 출원국가, Url, DOI 중 참고문헌의 자료타입 설정에 따라 상기 항목 중 다수 항목을 포함하는 세부 항목을 입력하기 위한 텍스트 박스를 생성한 후, 생성된 텍스트 박스에 해당 항목을 입력하여 참고문헌 데이터베이스로 저장하게 된다.
한편, 본 발명에 따른 참고문헌 자동 구축 시스템에는 상기 참고문헌 자동 구조화부를 통하여 구축된 참고문헌 정보 중 DOI 정보를 질의 응답을 통해 확보하고, 확보되는 DOI 정보 중 저널에 대한 DOI 정보를 추출하여 파악하는 저널 DOI 추출부와; 상기 저널 DOI 추출부를 통하여 파악되는 저널 DOI 정보를 분석하여, 상기 저널에 대한 대표 저널명과 이형명 정보를 파악하여 저널 전거 데이터베이스를 구축하는 저널 전거 자동 구성부;가 더 구비된다.
상기 저널 DOI 추출부는 참고문헌 자동 구조화부를 통해 구축된 참고문헌 정보 중 자료 타입이 저널인 참고문헌에 대해 CrossRef에 API 방식을 통해 질의 처리하여 각 참고문헌별 DOI 정보를 획득하고, 상기 획득되는 DOI 정보 중 기관 고유 아이디인 Prefix와 저널 정보와 논문 고유 정보로 구성된 Suffix 정보에 포함된 저널에 대한 저널 관리 코드를 조합하여, 하나의 저널 DOI를 구성하게 된다.
여기에서, 상기 저널 DOI 추출부는 참고문헌 자동 구조화부에서 자동 구축된 참고문헌 정보 중 자료 타입이 저널인 참고문헌에 대해 저널명, 발행년도, 권, 시작 페이지가 포함된 정보를 조합하여 CrossRef에 질의하고, 상기 CrossRef로부터 회신되는 XML 파일을 파싱(Parsing)하여 획득되는 DOI 정보 중 Prefix 정보와 Suffix 정보를 통하여 저널을 식별할 수 있는 저널 코드를 확보하여, Prefix + 저널코드를 저널 DOI로 정의하고, 정의된 저널 DOI를 질의한 저널명에 1:1 대응하는 코드로 구성하게 된다.
또한, 상기 저널 전거 자동 구성부는 저널 DOI 추출부를 통하여 추출되는 저널 DOI 정보가 저널의 대표 저널명 및 이형 저널명을 관리하는 저널 전거 데이터베이스의 테이블 내에 존재하는지 조회한 후, 저널명의 형태는 다르나 동일한 DOI 구조로 이루어진 저널명이 존재하는 경우 저널명의 텍스트 길이에 따라 추출된 저널 DOI의 저널명을 대표 저널명 또는 이형 저널명으로 등록하여, 저널명에 대한 대표 저널명과 이형 저널명을 저널 DOI 기반으로 그룹화하고 관리하여 저널의 전거 정보를 구축하게 된다.
여기에서, 상기 저널 전거 자동 구성부는 저널 전거 데이터베이스에 저널 DOI 추출부에서 획득한 저널 DOI 정보가 존재하는 경우, 저널 DOI에 대응하는 저널명의 문자열 길이를 조회하여, 문자열 크기가 질의한 저널명의 문자열 크기보다 작을 경우 저널 전거 데이터베이스의 대표 저널명 테이블에 저장되어 있는 대표 저널명을 이형 저널명으로 변경하고, 질의한 저널명을 저널 전거 데이터베이스의 대표 저널명 테이블에 새로운 대표 저널명으로 등록하며, 문자열 크기가 질의한 저널명의 문자열 크기보다 클 경우 질의한 저널명을 저널 전거 데이터베이스의 이형 저널 테이블에 저널 이형 저널명으로 등록하여, 저널의 대표명과 이형 저널명이 참고문헌의 DOI가 확보되는 수에 비례하여 증가하는 것이 바람직하다.
본 발명에 따른 참고문헌 자동 구축 시스템에 의하면, 텍스트 형태의 논문 PDF 파일로부터 직접 텍스트를 정보를 추출하기 때문에 종래 DPF 파일을 XML 파일로 변환하여 텍스트를 추출하기 위해 사용되는 PDF 생성 프로그램 및 프로그램별 버전에 따라 계속 개발할 필요가 없기 때문에, 개발 비용의 절약을 기대할 수 있는 효과가 있다.
또한, 저널별로 상이하게 구성되는 참고문헌의 자료 타입을 시스템에서 관리자가 직접 관리자에게 제공되는 관리프로그램의 화면에 등록 관리함으로써, 참고문헌 정보의 구조적 분해가 용이하며, 이후 발행된 권호에도 해당 규칙을 승계 적용함으로써 업무의 효율적 관리 체제가 용이한 효과가 있다. 또한, 참고문헌 정보의 구조화 측면에서 신속, 정확한 데이터베이스 구축을 통한 업무의 효율성 확보 및 시스템 추가 개발에 소요되는 비용의 절감과 관리 인터페이스를 통해 업무를 효율적으로 처리할 수 있어, 업무 효율성 확보에 기여할 수 있는 효과가 있다.
뿐만 아니라, 자동 구축된 참고문헌 정보 중 저널명 정보와 저널 DOI를 통해 저널 전거의 기본이 되는 대표 저널명, 이형 저널명을 시스템적으로 자동 관리할 수 있으며, 구축된 저널 전거를 통해 인용 정보의 분석, 통계 등에 활용할 수 있어, 분석 기반의 학술정보 서비스에 활용할 수 효과가 있다.
도 1은 본 발명에 따른 참고문헌 자동 구축 시스템의 전체적인 기능 블록도,
도 2는 본 발명에 따른 참고문헌 자동 구축 시스템의 세부 블록 구성도,
도 3은 본 발명에 따른 참고문헌 자동 구축 시스템의 각 구성부를 통하여 진행되는 참고문헌 및 저널 전거 구축 과정을 나타낸 흐름도,
도 4는 본 발명에 따른 참고문헌 자동 구축 시스템의 참고문헌 형식&구분자 지정부를 통하여 참고문헌 형식 및 구분자 정보가 등록되는 과정을 나타낸 흐름도,
도 5는 상기 도 4의 참고문헌 형식&구분자 지정부의 기능을 등록하고 관리 하는 사용자 인터페이스 구성도,
도 6은 본 발명에 따른 참고문헌 원형 자동 추출부를 통하여 참고문헌의 원형이 추출되는 과정을 나타낸 흐름도,
도 7은 본 발명에 따른 참고문헌 자동 구조화부를 통하여 참고문헌 정보를 국제 표준화 형태의 데이터베이스로 구축하는 과정을 나타낸 흐름도,
도 8은 본 발명에 따른 저널 DOI 추출부를 통하여 참고문헌에 대한 저널 DOI를 추출하는 과정을 나타낸 흐름도,
도 9는 본 발명에 따른 저널 전거 자동 구성부를 통하여 저널 전거가 구축되는 과정을 나타낸 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 참고문헌 자동 구축 시스템의 전체적인 기능 블록도를 나타낸 것이다.
도 1에 도시된 바와 같이, 본 발명에 따른 참고문헌 자동 구축 시스템은 PDF 텍스트 파일 형태의 논문 PDF 파일을 입력받아 참고문헌 정보를 자동 추출하여 참고문헌 데이터베이스를 구축하는 참고문헌 구축부(10)와, 상기 참고문헌 구축부(10)를 통하여 구축되는 참고문헌 정보에 포함된 DOI 정보 중 저널 DOI를 추출하고 이를 분석하여 저널 전거 데이터베이스를 구축하는 저널 전거 구축부(40)를 포함하여 이루어지게 된다.
상기 참고문헌 구축부(10)는 논문 PDF 파일에서 참고문헌 영역을 인식하여 원형 상태로 추출한 후, 이를 참고문헌 형식 및 구분자 데이터베이스에 저장된 참고문헌 형식 및 구분자에 따라 분류하여, 학술정보 DB 구축의 국제적 표준에 기반한 참고문헌 정보로 자동 구조화함으로써 참고문헌 데이터베이스를 구축하게 된다. 본 발명의 실시예에서 상기 학술정보 DB 구축의 국제적 표준으로 National Library of Medicine(이하 "NLM"이라 함)에서 제안하고 있는 학술정보 DB구축의 국제적 표준인 NISO JATS Ver 1.0 DTD를 적용하고 있는데, 이러한 국제적 표준은 환경에 따라 버전이 업그레이드 되거나 변경될 수 있으므로, 본 발명이 상기 표준만을 한정하는 것은 아니다.
상기 저널 전거 구축부(40)는 참고문헌 구축부(10)를 통하여 구축된 참고문헌 데이터베이스에 등록된 참고문헌 정보에 따라, DOI 정보를 관리하는 CrossRef에 질의 응답을 통해 참고문헌별 DOI 정보를 획득하고, 획득된 DOI 정보 중에서 저널 DOI 정보를 추출하며, 참고문헌에 존재하는 각 저널별로 저널 DOI를 그룹으로 관리하고 저널 대표명과 이형명을 자동 구성하여 저널 전거 데이터베이스를 구축하게 된다. 상기 DOI(Digital Object Identifier)는 디지털콘텐트(학술 논문)에 고유한 식별자(알파벳+숫자)를 부여하여 누구나 손쉽게 온라인 상의 디지털 콘텐츠에 접근할 수 있도록 제공하는 고유 식별 체계이다. 이러한 DOI는 DOI를 구성하는 기관에 대한 고유 코드 정보인 Prefix와, 저널에 대한 코드로 발행년도 및 권, 시작 페이지 등과 같은 정보를 구성함으로써 논문에 대한 유일한 값을 구성하는 Suffix로 구성되어져 있다. 또한, 저널 DOI는 Prefix + 저널 코드(저널을 식별할 수 있는 코드(ISSN, 저널약어 등)) 조합을 통해, 학회 또는 기관에 부여된 고유번호(Prefix)와 저널 코드를 그룹화하여, 기관에서 발행하는 저널에 부여하는 유일한 저널 식별자로 정의되는데, 본 발명의 실시예에서는 이러한 저널 DOI 정보를 자동 획득하고 분석하여 저널 전거를 자동으로 구축하게 된다.
도 2는 본 발명의 실시예에 따른 참고문헌 자동 구축 시스템의 세부 블록 구성도를 나타낸 것이고, 도 3은 참고문헌 자동 구축 시스템의 각 구성부를 통하여 진행되는 참고문헌 및 저널 전거 구축 과정을 나타낸 흐름도이다.
도 2와 도 3에 도시된 바와 같이, 본 발명에 따른 참고문헌 자동 구축 시스템은 논문 PDF 파일에 포함된 참고문헌 정보를 국제적 표준에 따라 재구성하여 구조화하는 참고문헌 구축부(10)와, 상기 참고문헌 구축부(10)를 통하여 구축된 참고문헌 정보의 저널 DOI 정보를 획득하여 저널 전거를 구축하는 저널 전거 구축부(40)와, 상기 참고문헌 구축부(10) 및 저널 전거 구축부(40)를 통하여 생성되는 참고문헌 정보 및 저널 전거 정보를 등록하는 데이터베이스(50)와, 상기 각 구성부를 제어하는 중앙제어부(60)를 포함하여 이루어진다.
상기 참고문헌 구축부(10)는 논문 정보에 포함된 참고문헌 정보를 추출하여 국제 표준에 따른 참고문헌 형태로 변환하여 자동 구조화하는 프로그램으로써, 이 참고문헌 구축부(10)에는 참고문헌의 종류에 따라 참고문헌 형식 및 구분자를 지정하여 설정하는 참고문헌 형식&구분자 지정부(100)와, 논문 PDF 파일에 포함된 참고문헌 정보를 인식하여 원형 상태로 추출하는 참고문헌 원형 자동 추출부(200)와, 상기 참고문헌 원형 자동 추출부(200)를 통하여 추출된 참고문헌 원형 정보를 참고문헌 형식&구분자 지정부(100)를 통하여 설정된 참고문헌 자료타입에 따른 참고문헌 형식 및 구분자에 따라 학술정보 DB 구축의 국제적 표준에 기반한 참고문헌 정보로 자동 구조화하여 참고문헌 데이터베이스를 구축하는 참고문헌 자동 구조화부(300)가 구비된다. 상기 참고문헌 형식&구분자 지정부(100)는 관리자가 참고문헌의 자료타입 에 따라 구성항목과 구성항목 사이의 구분을 위한 구분자("공백", """, "'", "「", "」", ",", "≪", "≫", "『", "』" 등)를 직접 설정하는 기능으로서, 관리자는 이 참고문헌 형식&구분자 지정부(100)를 통하여 다양한 형태의 참고문헌 형식/구분자를 등록/수정/승계하여 참고문헌 형식 및 구분자 데이터베이스를 구축하게 된다. 또한, 새로운 형태의 참고문헌이 등장하면 새로운 참고문헌의 형식 및 구분자를 파악하고 이를 참고문헌 형식 및 구분자 데이터베이스에 등록, 수정, 승계하여 이용할 수 있도록 제공한다.
상기 저널 전거 구축부(40)는 참고문헌 구축부(10)를 통하여 구축된 참고문헌 정보를 분석하여 저널 DOI 정보를 파악하고 이를 통하여 저널 전거 정보를 자동으로 구축하는 프로그램으로써, 이 저널 전거 구축부(40)에는 참고문헌 자동 구조화부(300)를 통하여 구축된 참고문헌 정보 중 자료 타입이 저널인 참고문헌에 대해 저널명, 발행년도, 권, 시작페이지 정보를 HTTP Protocol 방식으로 질의하여 DOI 정보를 확보하고 확보되는 DOI 정보 중 저널에 대한 DOI 정보를 추출하여 파악하는 저널 DOI 추출부(400)와, 상기 저널 DOI 추출부(400)를 통하여 파악되는 저널 DOI 정보를 분석하여 저널에 대한 대표 저널명과 이형 저널명 정보를 파악하여 저널 전거 데이터베이스를 구축하는 저널 전거 자동 구성부(500)가 구비된다.
한편, 상기 데이터베이스(50)에는 상기 참고문헌 구축부(10) 및 저널 전거 구축부(40)를 통하여 구축되는 참고문헌 형식 및 구분자 데이터베이스와 참고문헌 데이터베이스 및 저널 전거 데이터베이스가 구비된다.
상기 중앙제어부(60)는 참고문헌 자동 구축 시스템의 각 구성부를 제어하고 관리하는 장치로서, 이 중앙제어부(60)에는 통상의 중앙처리장치(CPU)와 램(RAM) 및 롬(ROM) 등의 하드웨어 장치와 상기 하드웨어 장치를 인식하여 구동하는 소프트웨어가 구비되어 전체적인 동작을 제어하게 된다. 또한, 도 2에는 표시되어 있지 않지만, 참고문헌 자동 구축 시스템에는 데이터 입출력을 위한 입력장치 및 표시장치와, 외부 장치와의 데이터 송수신을 위한 통신장치 및 인터페이스 장치가 구비되어 있다.
이하, 상기의 구성으로 이루어진 참고문헌 자동 구축 시스템을 통하여 참고문헌 및 저널 전거가 자동으로 구축되는 과정에 대하여 설명하기로 한다.
도 4는 본 발명의 실시예에 따른 참고문헌 자동 구축 시스템의 참고문헌 형식&구분자 지정부를 통하여 참고문헌 형식 및 구분자 정보가 등록되는 과정을 나타낸 흐름도이다.
단계 S110, S120 : 본 발명에 따른 참고문헌 자동 구축 시스템에 구비된 참고문헌 형식&구분자 지정부(100)는 관리자에 의해 운용되는 프로그램 모듈로서, 먼저 관리자는 참고문헌 형식&구분자 지정부(100)에서 제공하는 관리자 페이지에 접속한 후, 각 학회에서 발행하는 논문이 실린 저널을 선택하게 된다(S110). 한편, 상기 저널 선택시 논문 PDF 파일의 화면 레이어를 정의하여 설정하게 되는데, 이러한 PDF 파일 화면 레이어 정의에는 PDF 파일에서 텍스트 정보를 추출하는 순서를 정의하는 기능이 포함된다(S120).
단계 S130, S140, S150 : 상기 저널 선택을 한 다음, 해당 저널에 포함된 논문의 발행년도를 선택하고(S130), 권호 추가 및 선택을 하며(S140), 이후 참고문헌의 자료 타입을 선택하게 된다(S150).
단계 S160, S170 : 상기 참고문헌 자료 타입 선택 시에, 각각의 참고문헌 자료 타입의 등록 및 참고문헌 항목별 구성 순서를 정의하게 되는데, 이 참고문헌 항목별 구성 순서 정의는 참고문헌의 형식을 정의하는 것으로, 참고문헌의 각 자료 타입에 따라 구축 항목이 구성되는 순서를 정의하게 된다(S160). 또한, 참고문헌 항목별 구분자를 등록하게 되는데, 이 참고문헌 항목별 구분자 등록 시에 상기 참고문헌 항목별 구성 순서 정의를 통하여 정의된 구축 항목과 항목 사이에 구성되는 구분자를 등록하여 관리하게 된다(S170). 이렇게 참고문헌의 자료 타입에 따라 등록되는 참고문헌의 구성 항목과 항목 사이의 구분자는 참고문헌을 자동으로 구조화 하여, 사용자의 웹 화면에 출력해 주는 중요한 기준으로 사용되게 된다.
상기의 과정을 통하여 관리자는 참고문헌 형식&구분자 지정부(100)를 통하여 참고문헌 정보를 NLM에서 제시하는 NISO JATS Ver 1.0 DTD의 기준에 따라 참고문헌의 자료 타입 설정, 각 자료 타입에 따른 구축 항목 및 각 구축 항목과 항목을 구분하는 구분자를 등록하여 관리하게 된다.
도 5는 상기 도 4의 참고문헌 형식&구분자 지정부의 기능을 등록하고 관리 하는 사용자 인터페이스의 구성도를 나타낸 것이다.
도 5에 도시된 바와 같이, 본 발명에 따른 참고문헌 형식&구분자 지정부(100)를 통하여 참고문헌 자료 타입을 설정할 때, 참고문헌 자료 타입으로 저널, 단행본, 학술대회, 보고서, 학위논문, 특허, 웹 등으로 구분하여 등록하게 된다.
또한, 참고문헌 자료 타입 선택 후, 해당 자료 타입에 구성되는 각 구성항목의 순서를 정의할 수 있는데, 이러한 참고문헌 항목별 구성 순서로 이미 시스템에 등록된 패턴을 호출(예제 선택)하거나 직접 구성 선택을 통해, 관리자가 각각의 구성 항목의 순서를 지정할 수 있게 된다. 만약, 관리자가 참고문헌 항목별 구성 순서로서 직접 구성을 선택하게 되면, 화면 하단에 저자(Au), 논문명(A-Title), 저널명(J-Title), 발행년도(P-Year), 권(Vol), 호(Iss), 시작 페이지(S-Page), 끝 페이지(E-Page), 기관명(Col), 출판사 소재지(P-City), 출판일자(Op-Day), 출판사명(Op-City), 특허번호(Patent), Url, DOI 등의 구성 순서를 직접 등록하고 등록된 구성 항목을 확인할 수 있게 된다.
도 6은 본 발명의 실시예에 따른 참고문헌 원형 자동 추출부를 통하여 참고문헌의 원형이 추출되는 과정을 나타낸 흐름도이다.
단계 S210 : 본 발명에 따른 참고문헌 원형 자동 추출부(200)는 논문 정보에 포함된 참고문헌 정보를 표준화 형태의 데이터베이스로 구축하기 위해, 대상이 되는 논문 PDF 파일을 선택하여 업로드 한 후, PDF 파일의 JAVA Library를 호출하게 된다. 상기 JAVA Library 호출은 사용자가 논문 PDF 파일을 참고문헌 자동 구축 시스템에 업로드할 때, Open Source Package인 PDFBOX에서 제공하는 PDFTextStripper Object의 기능을 이용하여, PDF 파일로부터 텍스트를 순차적으로 추출하기 위해 PDFTextStripper Object를 호출하는 기능을 의미한다.
단계 S220 : 논문 PDF 파일로부터 PDFTextStripper Object가 호출되면, 호출된 PDFTextStripper Object를 통하여 논문 PDF 파일로부터 텍스트 정보를 순차적으로 추출하게 된다.
단계 S230 : 논문 PDF 파일로부터 텍스트 정보가 순차적으로 추출되면 참고문헌 영역을 탐색하게 되는데, 이 참고문헌 영역 탐색은 추출된 텍스트 정보에서 참고문헌 형식&구분자 지정부(100)에 의해 정의된 참고문헌, 인용문헌, References, Citation, 引用文獻, 參考文獻 등의 형식으로 구성된 단일 문자행, 즉 참고문헌 영역을 찾는 기능을 의미한다.
단계 S240 : 참고문헌 영역이 탐색되면, 참고문헌 문단의 좌,우측 Tag를 자동 구성하게 되는데, 이 참고문헌 문단 좌,우측 Tag 자동 구성은 탐지된 참고문헌 영역의 참고문헌 텍스트 정보의 좌, 우측에 Tag를 자동으로 구성하여, 참고문헌을 인식하는 기능을 의미한다. 또한, 단일 행으로 구성된 정보에서 1., 2. 등으로 시작하는 문자열의 자동 인식을 통해 단일 참고문헌의 시작부분과 끝 부분을 인지하여 한 건의 단일 참고문헌을 인식하게 된다.
단계 S250 : 참고문헌 문단의 좌,우측에 Tag 자동 구성되면, 참고문헌 문단을 병합하게 되는데, 이 참고문헌 문단 병합은 문단의 좌,우측에 Tag가 구성된 각 참고문헌의 문단 정보를 하나의 참고문헌으로 병합하는 과정을 나타낸다.
단계 S260 : 참고문헌 문단이 병합되면, 병합된 참고문헌의 수량을 카운트하게 되는데, 이 참고문헌 수량 카운트는 상기 병합된 참고문헌에서 각각 하나의 참고문헌으로 인식된 참고문헌 수를 카운트하는 기능을 나타낸다.
단계 S270 : 참고문헌의 수량이 카운트되면, 참고문헌 원형이 반환되는데, 이 참고문헌 원형 반환은 상기 카운트된 참고문헌의 수만큼 참고문헌 자동 구축 시스템의 사용자 인터페이스 화면에 텍스트 박스를 생성하고, 생성된 텍스트 박스에 참고문헌 원형 정보를 구성하는 기능을 의미한다.
상기의 과정을 통하여 참고문헌 원형 자동 추출부(200)는 논문 PDF 파일에 포함된 참고문헌 영역을 인식하여 텍스트 박스 형태의 원형 상태로 추출하게 된다.
도 7은 본 발명의 실시예에 따른 참고문헌 자동 구조화부를 통하여 참고문헌 정보를 국제 표준화 형태의 데이터베이스로 구축하는 과정을 나타낸 흐름도이다.
단계 S260, S261, S270 : 상기 도 6에서 설명한 바와 같이, 참고문헌 원형 자동 추출부(200)는 논문에 포함된 참고문헌 영역을 파악하여 하나로 병합한 후, 각 참고문헌 수량을 카운트하고(S260), 카운트된 참고문헌의 수량만큼 사용자 인터페이스 화면에 텍스트 박스를 생성하여(S261), 참고문헌 정보를 원형 상태로 텍스트 박스에 각각 구성하게 된다(S270).
단계 S310 : 한편, 참고문헌 자동 구조화부(300)는 참고문헌 원형 자동 추출부(200)를 통하여 추출된 참고문헌 원형 상태를 NLM에서 제안하고 있는 학술정보 DB구축의 국제적 표준인 NISO JATS Ver 1.0 DTD 형태로 변환하여 참고문헌 데이터베이스를 구축하기 위해, 먼저 참고문헌 자료 타입을 설정하게 된다. 상기 참고문헌 자료 타입 설정은 사용자 인터페이스 상에 출력되는 참고문헌의 자료 타입을 저널, 단행본, 학술대회, 보고서, 특허, 웹, 학위논문 등으로 선택하는 것을 의미한다.
단계 S320 : 참고문헌의 자료 타입이 설정되면, 참고문헌의 형식 및 구분자 형식을 호출하게 되는데, 이 참고문헌 형식 및 구분자 형식 호출은 도 4에서 상술한 참고문헌 자료 타입 설정부(310)를 통하여 설정된 참고문의 자료 타입에 따른 참고문헌 형식 & 구분자 형식을 호출하는 것을 의미한다.
단계 S330, S331, S332 : 참고문헌의 형식 및 구분자 형식이 호출되면, 참고문헌을 항목 순서 및 구분자를 기준으로 분해하게 되는데, 이 참고문헌 항목별, 순서별 분해는 상기 호출된 참고문헌 형식 및 구분자 정보를 통해, 참고문헌의 원형 정보를 기반으로, 선택된 자료 타입에 따라, 저자 성, 저자 이름, 기사명, 저널명, 발행년도, 권, 호, 시작 페이지, 끝 페이지, 학술대회명, 학술대회 개최일자, 학술대회 개최지역, 출판사명, 출판사 소재지, 특허번호, 특허국가, Url, DOI, 보고서 번호 등의 각 항목을 인지하여 이를 구분하는 것을 의미한다(S330). 상기 과정을 통하여 참고문헌이 항목별, 순서별로 분해되면, 분해된 정보에 따라 저자수를 카운트하고(S331), 카운트된 저자 숫자만큼 저자명 입력 박스를 사용자 인터페이스 상에 생성하고 상기 참고문헌 형식 및 구분자 형식 호출을 통하여 정의된 각 항목의 순서에 따라 입력 박스를 사용자 인터페이스 상에 생성하게 된다(S332).
단계 S340 : 상기 과정을 통하여 저자명 입력 박스 및 각 항목 입력 박스가 사용자 인터페이스 상에 생성되면, 생성된 입력박스에 상기 참고문헌 항목별, 순서별 분해에 따라 인식된 해당 저자명 및 각 항목 정보를 NLM의 NISO JATS Ver 1.0 DTD에서 정한 항목에 따라 자동 구분하여 참고문헌의 각 자료타입에 따라 각각의 텍스트 입력칸에 자동 구분된 텍스트 정보를 출력하게 된다.
단계 S350, S360 : 상기 과정을 통하여 각 입력박스에 참고문헌의 해당 항목 정보가 입력되어 출력되면, 사용자에 의해 검토 및 보완이 이루어진 후(S350), 참고문헌 데이터베이스로 저장되어 관리되게 된다(S360).
상기의 과정을 통하여 참고문헌 자동 구조화부(300)는 원형 상태로 추출된 참고문헌 정보를 NLM의 NISO JATS Ver 1.0 DTD에서 정한 항목에 따라 자동 구분하여, 각각의 구성 항목을 구성함으로써 참고문헌 데이터베이스를 구축하게 된다.
도 8은 본 발명의 실시예에 따른 저널 DOI 추출부를 통하여 참고문헌에 대한 저널 DOI를 추출하는 과정을 나타낸 흐름도이다.
단계 S410 : 상기 참고문헌 자동 구조화부(300)를 통하여 참고문헌 데이터베이스가 구축되면(S360), 저널 DOI 추출부(400)는 저널 전거 구축을 위해 참고문헌의 저널명, 발행년도, 권, 시작 페이지 정보를 통하여 해당 참고문헌의 CrossRef DOI를 조회하게 된다(S410). 상기 CrossRef DOI 조회는 참고문헌 자동 구조화부(300)를 통하여 구축된 참고문헌 정보 중 자료 타입이 저널인 데이터에 대해, CrossRef의 서버에 http Protocol 기반의 질의 처리를 통해, 각 참고문헌에 대한 DOI를 획득하는 것을 의미한다.
단계 S420 : CrossRef의 서버의 질의 응답을 통해 각 참고문헌에 대한 DOI가 획득되면, DOI 정보 중 저널 DOI 정보를 추출하게 된다. 이 저널 DOI 추출은 상기 CrossRef DOI 조회를 통해 확보된 DOI 정보 중 DOI Prefix 정보와 저널 코드를 포함하는 저널 DOI 정보를 분해하여 확보하는 것을 의미한다.
상기 과정을 통하여 저널 DOI 추출부(400)는 참고문헌 데이터베이스에 구축된 각 참고문헌에 대한 저널 DOI 정보를 추출하여 확보하게 된다.
도 9는 본 발명의 실시예에 따른 저널 전거 자동 구성부를 통하여 저널 전거가 구축되는 과정을 나타낸 흐름도이다.
단계 S510 : 상기 저널 DOI 추출부(400)를 통하여 각 참고문헌에 대한 저널 DOI 정보가 추출되면, 저널 전거 자동 구성부(500)는 저널 전거 데이터베이스의 대표 저널명 테이블과 이형 저널명 테이블에 등록된 저널 DOI 정보를 조회하게 된다. 상기 대표 저널명 정보와 이형 저널명 정보 테이블은 저널의 대표 저널명 및 동일 저널명의 다른 형태 사항인 이형 저널명을 관리하는 테이블로서, 상기 저널 DOI 정보 조회는 저널 전거 데이터베이스에 등록된 대표 저널명 테이블에 해당 저널 DOI 정보가 등록되어 있는지의 여부를 조회하게 된다.
단계 S520, S560 : 만약, 저널 전거 데이터베이스에 해당 저널 DOI 정보가 존재하지 않으면(S520), 신규 저널로 판단하여 저널 전거 데이터베이스의 대표 저널명 정보와 이형 저널명 정보 테이블에 해당 저널 DOI 정보에 따라 신규 대표 저널명 및 저널 DOI 정보로 등록하게 된다(S560).
단계 S530, S540, S550 : 만약, 저널 전거 데이터베이스에 기 등록된 저널 DOI 정보가 존재한다면(S520), 존재하는 해당 저널명의 문자열 길이를 조회하여(S530), 그 길이를 체크한 후(S540), 저널명 문자열 길이가 신규 저널명보다 작은 경우, 신규 저널명 정보를 대표 저널명 테이블에 저장하게 된다(S550). 즉, 저널 전거 데이터베이스에 저널 DOI 추출부(400)에서 획득한 저널 DOI 정보가 존재하는 경우, 저널 DOI에 대응하는 저널명의 문자열 길이를 조회하여, 문자열 크기가 질의한 저널명의 문자열 크기보다 작을 경우 대표 저널명 테이블에 저장되어 있는 대표 저널명을 이형 저널명으로 변경하고, 질의한 저널명을 대표 저널명 테이블에 새로운 대표 저널명을 등록하게 된다.
단계 S570 : 한편, 검색된 저널명 문자열 길이가 신규 저널명보다 크다면, 기 등록된 저널 정보가 대표 저널명으로 관리되고, 신규 저널 정보는 이형 저널 테이블에 등록하여 관리되게 된다. 즉, 문자열 크기가 질의한 저널명의 문자열 크기보다 클 경우, 질의한 저널명을 이형 저널명 테이블에 이형 저널명으로 등록하게 된다. 이에 따라 저널의 대표명과 이형 저널명이 참고문헌의 DOI가 확보되는 수에 비례하여 증가하게 된다.
상기의 과정을 통하여 저널 전거 자동 구성부(500)는 참고문헌의 저널 DOI 정보를 추출한 후, 이를 기 등록된 저널명과 비교하여 대표 저널명 또는 이형 저널명으로 등록하여 관리하게 된다.
이와 같이, 본 발명에 따른 참고문헌 자동 구축 시스템은 논문 PDF 파일에서 참고문헌 정보를 원형 상태로 추출한 후 추출된 참고문헌 정보를 NLM의 NISO JATS Ver 1.0 DTD에서 정한 항목에 따라 자동 구분하여 표준 형식으로 재배열함으로써 참고문헌 데이터베이스를 구축하며, 구축된 참고문헌 정보를 이용하여 참고문헌의 저널 DOI 정보를 추출한 후 이를 기 등록된 저널명과 비교하여 대표 저널명 또는 이형 저널명으로 저널 전거 데이터베이스에 등록하여 관리하게 된다.
이러한 본 발명은 상술한 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술 분야에서 통상의 지식을 갖는 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구 범위의 균등범위 내에서 다양한 수정 및 변형이 이루어질 수 있음은 물론이다.
10 : 참고문헌 구축부 40 : 저널 전거 구축부
50 : 데이터베이스 60 : 중앙제어부
100 : 참고문헌 형식&구분자 지정부 200 : 참고문헌 원형 자동 추출부
300 : 참고문헌 자동 구조화부 400 : 저널 DOI 추출부
500 : 저널 전거 자동 구성부

Claims (11)

  1. 논문 PDF 파일에 포함된 참고문헌 정보를 추출하여 국제적 표준에 기반한 참고문헌 정보로 구조화하는 참고문헌 자동 구축 시스템으로서,
    각 저널별로 상이한 형식으로 작성되는 참고문헌의 종류에 따라 각 참고문헌의 형식 및 구분자를 지정하여 설정하는 참고문헌 형식&구분자 지정부(100)와; 논문 PDF 파일을 입력받아, 논문 PDF 파일에 포함된 참고문헌 영역을 인식하여 참고문헌 정보를 원형 형태로 추출하는 참고문헌 원형 자동 추출부(200)와; 상기 참고문헌 원형 자동 추출부(200)를 통하여 추출된 참고문헌 정보에 대해, 상기 참고문헌 형식&구분자 지정부(100)를 통하여 지정된 형식 및 구분자에 따라 구분하여, 학술정보 DB구축의 국제적 표준인 NISO JATS DTD에서 규정한 항목으로 구성하여 참고문헌 데이터베이스를 구축하는 참고문헌 자동 구조화부(300);를 포함하여 이루어지되,
    상기 참고문헌 형식&구분자 지정부(100)는 다양한 형식으로 작성된 참고문헌의 자료 타입을 정의하고, 각 자료 타입에 따라 참고문헌의 형식에 따른 구성 항목의 순서를 정의하며, 각 구성 항목과 항목 사이에 존재하는 구분자를 정의하여, 참고문헌 형식 및 구분자 등록화면을 통해 데이터베이스에 등록 또는 갱신하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  2. 삭제
  3. 제 1항에 있어서,
    상기 참고문헌의 자료 타입은 저널, 학술대회, 단행본, 보고서, 학위논문, 특허, 웹 중 어느 하나를 포함하며,
    상기 참고문헌의 구성 항목은 참고문헌의 자료타입 설정에 따라, 적어도 한 명 이상의 저자 성 및 이름, 논문명, 저널명, 권호, 시작 페이지, 끝 페이지, 학술대회 명, 학술대회 개최일, 학술대회 개최지명, 출판사, 출판사 소재지, 발행년도, 보고서 번호, 특허번호, 특허 항목 중 복수 항목을 포함하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  4. 제 1항에 있어서,
    상기 참고문헌 원형 자동 추출부(200)는
    논문 PDF 파일을 입력받아 PDFBOX의 PDFText Stripper Object를 통해 텍스트 정보를 추출하고, 상기 추출된 텍스트 정보 중 참고문헌을 나타내는 문자열을 탐색하여 참고문헌 영역을 파악하며, 파악된 참고문헌 영역의 원형 형태로 추출하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  5. 제 4항에 있어서,
    상기 참고문헌 원형 자동 추출부(200)는
    상기 PDFBOX의 PDFText Stripper Object를 통해 추출된 텍스트 정보 중 Referencs, Citation, 인용문헌, 참고문헌, 引用文獻, 參考文獻 중 어느 하나를 포함하는 문자열을 탐색하여 참고문헌 영역을 파악하고,
    상기 파악되는 단일 참고문헌의 시작 부분과 끝 부분을 인식하여 인식된 단일 참고문헌을 원형 형태로 구성한 후,
    전체 텍스트 정보 중에서 인식된 단일 참고문헌의 수를 카운트하여 카운트 된 수만큼 텍스트 박스를 생성하고, 생성된 텍스트 박스에 참고문헌의 원형 정보를 표시하여 구성하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  6. 제 1항에 있어서,
    상기 참고문헌 자동 구조화부(300)는
    상기 참고문헌 형식&구분자 지정부(100)에서 지정한 참고문헌 형식 및 구분자에 따라, 상기 참고문헌 원형 자동 추출부(200)에서 추출된 참고문헌 정보에 포함된 저자 수를 카운트하여 카운트된 저자 수만큼 저수 성 및 이름을 입력하기 위한 텍스트 박스를 생성하고,
    참고문헌의 자료 타입에 따라 논문명, 저널명, 발행년도, 권호, 시작 페이지, 끝 페이지, 학술대회 명, 학술대회 개최지역, 학술대회 개최일, 보고서 번호, 보고서 발행기관, 출판사, 출판사 소재지, 특허번호, 특허 출원국가, Url, DOI 중 어느 하나 이상을 포함하는 세부 항목을 입력하기 위한 텍스트 박스를 생성한 후, 생성된 텍스트 박스에 해당 항목을 입력하여 참고문헌 데이터베이스로 저장하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  7. 제 1항에 있어서,
    상기 참고문헌 자동 구조화부(300)를 통하여 구축된 참고문헌 정보 중 DOI 정보를 질의 응답을 통해 확보하고, 확보되는 DOI 정보 중 저널에 대한 DOI 정보를 추출하여 파악하는 저널 DOI 추출부(400)와;
    상기 저널 DOI 추출부(400)를 통하여 파악되는 저널 DOI 정보를 분석하여, 상기 저널에 대한 대표 저널명과 이형명 정보를 파악하여 저널 전거 데이터베이스를 구축하는 저널 전거 자동 구성부(500);가 더 구비되는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  8. 제 7항에 있어서,
    상기 저널 DOI 추출부(400)는
    상기 참고문헌 자동 구조화부(300)를 통해 구축된 참고문헌 정보 중 자료 타입이 저널인 참고문헌에 대해 CrossRef에 API 방식을 통해 질의 처리하여 각 참고문헌별 DOI 정보를 획득하고,
    상기 획득되는 DOI 정보 중 기관 고유 아이디인 Prefix와 저널 정보와 논문 고유 정보로 구성된 Suffix 정보에 포함된 저널에 대한 저널 관리 코드를 조합하여, 하나의 저널 DOI를 구성하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  9. 제 8항에 있어서,
    상기 저널 DOI 추출부(400)는 참고문헌 자동 구조화부(300)에서 자동 구축된 참고문헌 정보 중 자료 타입이 저널인 참고문헌에 대해 저널명, 발행년도, 권, 시작 페이지가 포함된 정보를 조합하여 CrossRef에 질의하고,
    상기 CrossRef로부터 회신되는 XML 파일을 파싱(Parsing)하여 획득되는 DOI 정보 중 Prefix 정보와 Suffix 정보를 통하여 저널을 식별할 수 있는 저널 코드를 확보하여, Prefix + 저널코드를 저널 DOI로 정의하고, 정의된 저널 DOI를 질의한 저널명에 1:1 대응하는 코드로 구성하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  10. 제 7항에 있어서,
    상기 저널 전거 자동 구성부(500)는
    상기 저널 DOI 추출부(400)를 통하여 추출되는 저널 DOI 정보가 저널의 대표 저널명 및 이형 저널명을 관리하는 저널 전거 데이터베이스의 테이블 내에 존재하는지 조회한 후,
    저널명의 형태는 다르나 동일한 DOI 구조로 이루어진 저널명이 존재하는 경우 저널명의 텍스트 길이에 따라 추출된 저널 DOI의 저널명을 대표 저널명 또는 이형 저널명으로 등록하여,
    저널명에 대한 대표 저널명과 이형 저널명을 저널 DOI 기반으로 그룹화하여 관리하여 저널의 전거 정보를 구축하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
  11. 제 10항에 있어서,
    상기 저널 전거 자동 구성부(500)는
    상기 저널 전거 데이터베이스에 저널 DOI 추출부(400)에서 획득한 저널 DOI 정보가 존재하는 경우, 저널 DOI에 대응하는 저널명의 문자열 길이를 조회하여,
    문자열 크기가 질의한 저널명의 문자열 크기보다 작을 경우 저널 전거 데이터베이스의 대표 저널명 테이블에 저장되어 있는 대표 저널명을 이형 저널명으로 변경하고, 질의한 저널명을 저널 전거 데이터베이스의 대표 저널명 테이블에 새로운 대표 저널명으로 등록하며,
    문자열 크기가 질의한 저널명의 문자열 크기보다 클 경우 질의한 저널명을 저널 전거 데이터베이스의 이형 저널 테이블에 저널 이형 저널명으로 등록하여,
    저널의 대표명과 이형 저널명이 참고문헌의 DOI가 확보되는 수에 비례하여 증가하는 것을 특징으로 하는 참고문헌 자동 구축 시스템.
KR1020140167341A 2014-11-27 2014-11-27 참고문헌 자동 구축 시스템 KR101640428B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140167341A KR101640428B1 (ko) 2014-11-27 2014-11-27 참고문헌 자동 구축 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140167341A KR101640428B1 (ko) 2014-11-27 2014-11-27 참고문헌 자동 구축 시스템

Publications (2)

Publication Number Publication Date
KR20160064306A KR20160064306A (ko) 2016-06-08
KR101640428B1 true KR101640428B1 (ko) 2016-07-19

Family

ID=56193337

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140167341A KR101640428B1 (ko) 2014-11-27 2014-11-27 참고문헌 자동 구축 시스템

Country Status (1)

Country Link
KR (1) KR101640428B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311023A1 (en) * 2018-04-06 2019-10-10 Li-Cor, Inc. Automated reference list builder
KR102439764B1 (ko) * 2020-04-20 2022-09-02 한화시스템 주식회사 빅데이터 기반 정량자료 자동 매핑 장치 및 방법
KR102457962B1 (ko) * 2020-10-30 2022-10-24 한국과학기술정보연구원 논문의 메타데이터 추출 방법 및 장치
KR20230063709A (ko) 2021-11-02 2023-05-09 김소윤 콘텐츠 수집 기반 사용자의 주제별 관심도 시각화 방법 및 장치
KR102554452B1 (ko) * 2022-06-21 2023-07-11 한국과학기술정보연구원 메타데이터 추출장치 및 메타데이터 추출 방법
KR102531477B1 (ko) * 2022-11-07 2023-05-12 미러 주식회사 발췌된 원문의 정보를 제공하는 논문 작성 시스템의 서버 및 사용자 단말기

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100319756B1 (ko) 2000-01-21 2002-01-09 오길록 논문 문서영상 구조 분석 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100882582B1 (ko) * 2006-12-20 2009-02-12 한국과학기술정보연구원 시맨틱 웹 기반 연구정보 서비스 시스템 및 그 방법
KR101019627B1 (ko) * 2008-10-01 2011-03-07 한국과학기술정보연구원 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100319756B1 (ko) 2000-01-21 2002-01-09 오길록 논문 문서영상 구조 분석 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A PDF Text Extractor Based on PDF-Renderer" , Moulay Abderrahim AJEDIG, Fu Li, Aqeel ur Rehman, Proceedings of the International MultiConference of Engineers and Computer Scientists 2011.03.16

Also Published As

Publication number Publication date
KR20160064306A (ko) 2016-06-08

Similar Documents

Publication Publication Date Title
KR101640428B1 (ko) 참고문헌 자동 구축 시스템
CN105706080B (zh) 扩增并呈现捕获的数据
US7660783B2 (en) System and method of ad-hoc analysis of data
US10298654B2 (en) Automatic uniform resource locator construction
US11055373B2 (en) Method and apparatus for generating information
US20150033116A1 (en) Systems, Methods, and Media for Generating Structured Documents
US20130086035A1 (en) Method and apparatus for generating extended page snippet of search result
Laclavík et al. Email analysis and information extraction for enterprise benefit
WO2015047920A1 (en) Title and body extraction from web page
KR101243057B1 (ko) 학술논문 xml 풀텍스트 생성을 위한 자동화 입력 시스템 및 방법
CN104169912A (zh) 信息处理终端和方法,以及信息管理设备和方法
JP6977925B2 (ja) 帳票処理システム及び帳票処理プログラム
KR20150018880A (ko) 정보 취합 분류의 디스플레이 방법 및 시스템
US20120096003A1 (en) Information classification device, information classification method, and information classification program
JP2008269069A (ja) 情報処理システム及び情報処理方法
CN105096138A (zh) 实现o2o对话交互的方法和装置
CN112597410A (zh) 基于规则配置库对网页内容执行结构化提取的方法及装置
Rasmussen et al. The data documentation initiative: a preservation standard for research
JP2006065467A (ja) データ抽出定義情報生成装置およびデータ抽出定義情報生成方法
KR101055704B1 (ko) 특허 정보 제공 방법 및 장치
US20160117352A1 (en) Apparatus and method for supporting visualization of connection relationship
JP2003058568A (ja) 電子記事の関連記事自動表示方式およびそのシステム
JP5008152B2 (ja) 調達情報検索システム
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP2005242934A (ja) プロファイル管理装置およびそのプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant