KR20100037325A - 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체 - Google Patents

패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체 Download PDF

Info

Publication number
KR20100037325A
KR20100037325A KR1020080096593A KR20080096593A KR20100037325A KR 20100037325 A KR20100037325 A KR 20100037325A KR 1020080096593 A KR1020080096593 A KR 1020080096593A KR 20080096593 A KR20080096593 A KR 20080096593A KR 20100037325 A KR20100037325 A KR 20100037325A
Authority
KR
South Korea
Prior art keywords
pattern
bibliography
standardization
information
bibliographic information
Prior art date
Application number
KR1020080096593A
Other languages
English (en)
Other versions
KR101019627B1 (ko
Inventor
이상기
김선태
이용식
예용희
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020080096593A priority Critical patent/KR101019627B1/ko
Publication of KR20100037325A publication Critical patent/KR20100037325A/ko
Application granted granted Critical
Publication of KR101019627B1 publication Critical patent/KR101019627B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 참고문헌의 기술(description) 패턴을 인식하여 참고문헌 서지항목을 해당 기술 패턴에 따라 자동으로 파싱한 후, 미리 저장된 데이터베이스의 서지정보와 매칭하여 타 참고문헌과의 연계가 이루어질 수 있도록 하기 위한 것으로서, 참고문헌 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 자동으로 파악하고, 파악된 기술 패턴의 구성항목을 이용하여 상기 참고문헌의 서지정보를 각각의 구성항목으로 파싱하는 참고문헌 파싱부; 파싱된 참고문헌의 구성항목을 표준화 기준에 따라 표준화를 수행하는 참고문헌 표준화 처리부;를 포함하여, 이전에 사람이 직접 수작업을 수행하는 것에 비해 참고문헌의 매칭률이 높아지고, 이에 따라 참고문헌 데이터베이스의 품질을 보다 향상시킬 수 있다는 효과를 기대할 수 있다.

Description

패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한 기록매체{System and Method for Construction Automatic Bibliography based Pattern, and Recording Medium therefor}
본 발명은 패턴 기반 참고문헌 자동 구축 시스템에 관한 것으로서, 보다 상세하게는 참고문헌의 기술(description) 패턴을 인식하여 참고문헌 서지항목을 해당 기술 패턴에 따라 자동으로 파싱한 후, 미리 저장된 데이터베이스의 서지정보와 매칭하여 타 참고문헌과의 연계가 이루어질 수 있도록 하기 위한 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한 기록매체에 관한 것이다.
현재, 학술논문에 기재된 참고문헌의 관리는 운용자가 참고문헌의 구성 항목을 수작업으로 일일이 구분하여 입력한 후, 학술논문 데이터베이스인 크로스랩(CrossRef), 퍼브매드(Pubmed) 등을 직접 검색하여 참고문헌과 매칭되는 식별자를 획득하고, 이를 이용하여 참고문헌을 파싱하는 방법으로 이루어지고 있다.
참고문헌을 관리하는 종래의 방식은 사람이 수작업으로 참고문헌의 구성 항목을 한 건씩 분리 입력한 후, 복수의 사이트를 직접 방문 및 검색하여 식별자를 매칭하는 것으로 비효율적이며, 작업을 처리하는 데 많은 비용이 소용된다는 문제점이 있다.
최근, 디지털 기술의 발전으로 학술논문이 디지털 형태로 출판되는 경우가 대부분이며, 이에 따라 생산량도 급격하게 증가하는 추세이다.
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 입력되는 참고문헌을 인식하여 해당 기술 패턴을 자동으로 파악한 후, 참고문헌의 서지정보를 표준화하여 기 저장된 참고문헌의 서지정보와 매칭하여 저장할 수 있도록 하기 위한 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한 기록매체를 제공하는 데 그 기술적 과제가 있다.
또한, 본 발명은 참고문헌의 기술 패턴이 신규 기술 패턴인 경우, 기존에 저장된 참고문헌의 기술 패턴에 추가로 등록하여 이후에 등록되는 참고문헌의 기술 패턴 파악에 참조할 수 있도록 하는 데 목적이 있다.
상술한 목적을 달성하기 위한 본 발명의 참고문헌 자동 구축 시스템은 참고문헌을 자동으로 파싱 및 매칭하기 위한 시스템으로서,
참고문헌 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 자동으로 파악하고, 파악된 기술 패턴의 구성항목을 이용하여 상기 참고문헌의 서지정보를 각각의 구성항목으로 파싱하는 참고문헌 파싱부; 파싱된 참고문헌의 구성항목을 표준화 기준에 따라 표준화를 수행하는 참고문헌 표준화 처리부;를 포함한다.
또한, 참고문헌 자동 구축 시스템은, 복수의 참고문헌 기술 패턴을 관리하여, 상기 참고문헌 파싱부에서 참고문헌의 기술 패턴을 인식할 때 기준이 되는 기술 패턴 정보를 제공하는 패턴 관리부;를 더 포함한다.
그리고, 참고문헌 표준화 처리부는, 참고문헌 파싱부에서 참고문헌의 서지정보와 일치하는 기술 패턴이 파악되지 않는 경우, 해당 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식하는 신규 패턴 인식수단; 및 상기 패턴 관리부로 신규 패턴 인식수단에 의해서 인식된 신규 기술 패턴을 등록하도록 요청하는 신규 패턴 등록 요청수단;을 더 포함한다.
이에 더하여, 참고문헌 표준화 처리부는, 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 표준 여부 검토수단; 및 상기 표준 여부 검토수단에 의해 추출된 참고문헌의 구성항목을 해당 구성항목의 표준화 기준에 따라 표준화 수행하는 표준화 처리수단;을 더 포함한다.
상기 표준화 처리수단은, 상기 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이 스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행한다.
한편, 참고문헌 자동 구축 시스템은, 상기 참고문헌 표준화 처리부에 의해서 표준화된 참고문헌의 서지정보를 기 저장된 서지정보와 매칭하여 데이터베이스에 저장하는 참고문헌 매칭부; 및 참고문헌 서지정보를 비롯하여 참고문헌 자동 구축 시스템과 관련된 정보를 저장하는 데이터베이스;를 더 포함한다.
이에 더하여, 참고문헌 자동 구축 시스템은 신규 참고문헌이 등록되면, 상기 데이터베이스에 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하는 관련문서 연계 처리부;를 더 포함한다.
다른 본 발명의 패턴 기반 참고문헌 자동 구축 방법은, 참고문헌 자동 구축 시스템에서 참고문헌을 자동으로 파싱 및 매칭하기 위한 방법으로서, a) 참고문헌 자동 구축 시스템이 입력되는 참고문헌의 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 파악하는 단계; b) 참고문헌의 구성항목을 상기 a) 단계에서 파악된 기술 패턴의 구성항목을 기준으로 파싱하는 단계; c) 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 단계;를 포함한다.
또한, 상기 a) 단계 이전에, 복수의 참고문헌 기술 패턴을 관리하여, 상기 a) 단계에서 참고문헌의 기술 패턴을 파악할 때 기준이 되는 정보를 참조할 수 있도록 하는 단계;를 더 포함한다.
이에 더하여, 상기 a) 단계에서 복수의 기술 패턴 중 일치하는 기술 패턴이 파악되지 않은 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식하는 단계; 상기 신규 기술 패턴을 기 저장된 참고문헌 기술 패턴에 추가로 등록하는 단계;를 더 포함한다.
상기 c) 단계는, 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 단계; 및 추출된 참고문헌을 해당 구성항목의 표준화 기준에 따라 표준화 수행하는 단계;를 포함한다.
상기 표준화 수행하는 단계는, 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행한다.
상기 c) 단계 이후에, 표준화된 참고문헌 서지정보를 기 저장된 참고문헌 서지정보와 매칭하여 저장하는 단계;를 더 포함한다.
신규 참고문헌이 등록되면, 기 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하여 저장하는 단계;를 더 포함한다.
또 다른 본 발명의 기록매체는, 참고문헌을 자동으로 파싱 및 매칭하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로서, 입력되는 참고문헌의 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 파악하는 기능; 참고문헌의 구성항목을 파악된 기술 패턴의 구성항목을 이용하여 파싱하는 기능; 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 기능;을 포함한다.
또한, 복수의 참고문헌 기술 패턴을 관리하여, 참고문헌의 기술 패턴을 파악할 때 기준이 되는 정보를 참조할 수 있도록 제공하는 기능;을 포함한다.
이에 더하여, 참고문헌의 서지정보를 기 저장된 복수의 기술 패턴과 비교한 결과, 일치하는 기술 패턴이 파악되지 않은 경우, 해당 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식하는 기능; 상기 신규 기술 패턴을 기 저장된 참고문헌 기술 패턴에 추가로 등록하는 기능;을 포함한다.
상기 표준화 처리하는 기능은, 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 기능; 및 추출된 참고문헌을 해당 구성항목의 표준화 기준에 따라 표준화를 수행하는 기능;을 포함한다.
상기 표준화를 수행하는 기능은, 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행하는 기능이다.
상기 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 기능 이후에, 표준화된 참고문헌 서지정보를 기 저장된 참고문헌 서지정보와 매칭하여 저장하는 기능;을 더 포함한다.
그리고, 신규 참고문헌이 등록되면, 기 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하여 저장하는 기능;을 더 포함한다.
상술한 바와 같이 본 발명의 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한 기록매체는 입력되는 참고문헌을 인식하여 해당 기술 패턴을 자동으로 파악한 후, 참고문헌의 서지정보를 표준화하여 기 저장된 참고문헌의 서지정보와 매칭하여 저장할 수 있기 때문에, 참고문헌 구축 및 매칭 작업을 자동화함으로써 업무 생산성을 개선할 수 있으며, 이에 소요되는 비용을 절감할 수 있다는 효과를 기대할 수 있다.
또한, 본 발명은 참고문헌 데이터베이스를 구축하는 데, 이전에 사람이 직접 수작업을 수행하는 것에 비해 참고문헌의 매칭률이 높아지고, 이에 따라 참고문헌 데이터베이스의 품질을 보다 향상시킬 수 있다는 장점이 있다.
본 발명의 실시를 위한 구체적인 내용에서 개시하고 있는 참고문헌 기술 패턴은 Turabian, APA, MLA, PubMed 뿐만 아니라, 참고문헌 서지정보의 패턴을 파악하기 위한 기준 패턴을 모두 포함하며, 이하에서는 설명의 편의를 위해 Turabian, APA, MLA, PubMed 만을 언급하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 보다 상세히 설명하기로 한다.
먼저, 도 1은 본 발명에 의한 참고문헌 자동 구축 시스템을 나타내는 도면이 다.
도시하는 것과 같이, 참고문헌 자동 구축 시스템(100)은 패턴 관리부(110), 참고문헌 파싱부(120), 참고문헌 표준화 처리부(130), 참고문헌 매칭부(140), 관련문서 연계 처리부(150) 및 데이터베이스(160)를 포함한다.
보다 상세히 설명하면, 패턴 관리부(110)는 복수의 참고문헌 기술 패턴을 관리하여, 참고문헌 파싱부(120)에서 참고문헌의 기술 패턴을 인식할 때 기준이 되는 기술 패턴 정보를 제공한다.
예를 들어, 참고문헌 기술 패턴은 Turabian, APA, MLA, PubMed 등이 있으며, 각각의 구성항목은 Turabian은 저자명, '논문명', 학술지명, 권, 호, 출판월 출판년, 페이지 또는 저자명, '논문명', 학술지명, 권, 호, 페이지, 출판월 출판년이며, APA는 저자명, 출판년도, '논문명', 학술지명, 권, 호, 페이지 또는 저자명, 출판년도, '논문명', 학술지명, 권, 페이지로 구성된다.
또한, PubMed는 저자명, 논문명, 학술지명, 발행년도; 권 : 호 : 페이지 또는 저자명, 논문명, 학술지명, 발행년도; 권 : 페이지로 구성된다.
이에 더하여, 저자 (출판년도) 논문명, 학술지명, 권(호), 페이지로 구성되거나, 또는 저자, '논문명', 학술지명, 권 페이지(출판년도)로 구성되고, 저자: 학술지명, '논문명', 권(호) (출판년도) 페이지로 구성되는 참고문헌 기술 패턴도 있다.
상술한 바와 같이, 참고문헌 기술 패턴을 파악하는 기준은 저자명, 논문명, 학술지명, 권, 호, 페이지, 출판년도의 배열순서, 각 항목들의 존재 유무, 각 항목 을 구분하는 구분자 존재 유무(공백 : , : () '' "" 등의 구분자)이다.
이에 더하여, 참고문헌 기술 패턴을 파악하는 기준은 권, 호, 페이지를 기술할 때 vol, no, pp 등의 기호를 사용하는지 여부이다.
참고문헌 파싱부(120)는 참고문헌 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 자동으로 파악하고, 파악된 기술 패턴의 구성항목을 이용하여 상기 참고문헌의 서지정보를 각각의 구성항목으로 파싱한다.
예를 들어, 참고문헌 파싱부(120)는 참고문헌이 입력되면, 패턴 관리부(110)에서 관리하는 복수의 참고문헌 기술 패턴을 참고하여 입력된 참고문헌 서지정보와 일치하는 기술 패턴을 파악하는 것이다.
참고문헌 표준화 처리부(130)는 파싱된 참고문헌의 구성항목을 표준화 기준에 따라 표준화를 수행한다.
여기에서, 참고문헌 표준화 처리부(130)는 참고문헌 서지정보를 데이터베이스(160)에 기 저장된 서지정보와 매칭하기 위한 전처리 작업으로, 참고문헌 서지정보에 기재되어 있는 형식을 해당 기술 패턴의 항목별 특성에 맞게 표준화 처리하는 것이다.
참고문헌 매칭부(140)는 참고문헌 표준화 처리부(130)에 의해서 표준화된 참고문헌의 서지정보를 기 저장된 서지정보와 매칭하여 데이터베이스(160)에 저장한다.
여기에서, 참고문헌 매칭부(140)는 타 참고문헌 서지정보와의 참조연계 서비스(Reference Linking)에 활용하기 위해 참고문헌 서지정보를 구분하기 위한 식별 자를 설정한 후, 참고문헌 서지정보와 함께 저장한다.
관련문서 연계 처리부(150)는 신규 참고문헌이 등록되면, 데이터베이스(160)에 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 신규 참고문헌을 연계 처리한다.
예를 들어, A 참고문헌과 타 참고문헌을 연계 처리하는 경우, 관련문서 연계 처리부(150)는 기 저장된 복수의 참고문헌 서지정보 중 A 참고문헌과 관련이 있는 참고문헌을 추출하여, 추출된 참고문헌과 A 참고문헌이 연계되어 데이터베이스(160)에 저장되도록 한다.
여기에서, 관련문서 연계 처리부(150)는 참고문헌 연계 시, 각각의 참고문헌 식별자를 이용한다.
데이터베이스(160)는 참고문헌 서지정보를 비롯하여 참고문헌 자동 구축 시스템(100)과 관련된 정보를 저장한다.
도 2는 본 발명에 의한 참고문헌 표준화 처리부를 보다 상세하게 나타내는 도면으로서, 도 1에서 개시하고 있는 참고문헌 표준화 처리부의 구성을 보다 상세하게 설명하기로 한다.
도시하는 바와 같이, 참고문헌 표준화 처리부(130)는 표준 여부 검토수단(131), 표준화 처리수단(133), 신규 패턴 인식수단(135) 및 신규 패턴 등록 요청수단(137)을 포함한다.
보다 상세히 설명하면, 표준 여부 검토수단(131)은 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출한다.
표준화 처리수단(133)은 표준 여부 검토수단(131)에 의해 추출된 참고문헌의 구성항목을 해당 구성항목의 표준화 기준에 따라 표준화 수행한다.
여기에서, 표준화 처리수단(133)은 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행한다.
예를 들어, 표준화 처리수단(133)은 대소문자로 표기된 정보를 소문자로 통일하거나, 특수문자와 태그 정보를 제거하거나, 스페이스를 삭제하여 공백을 없애거나, 표기방식이 다양한 Page, Volume/Issue 등을 삭제하여, 참고문헌 서지정보의 형태가 통일성을 갖도록 한다.
신규 패턴 인식수단(135)은 참고문헌 파싱부(120)에서 참고문헌의 서지정보와 일치하는 기술 패턴이 파악되지 않는 경우, 해당 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식한다.
신규 패턴 등록 요청수단(137)은 패턴 관리부(110)로 신규 패턴 인식수단(135)에 의해서 인식된 신규 기술 패턴을 등록하도록 요청한다.
패턴 관리부(110)는 신규 패턴 등록 요청수단(137)으로부터의 요청에 따라, 신규 기술 패턴을 기존에 저장된 복수의 참고문헌 기술 패턴에 추가로 등록시켜 이후 입력되는 참고문헌의 기술 패턴 파악 시, 참조되도록 한다.
한편, 참고문헌 자동 구축 시스템(100)은 신규 기술 패턴으로 인식된 참고문 헌에 대해서 참고문헌 파싱부(120) 및 참고문헌 표준화 처리부(130)를 통해 참고문헌 파싱 및 표준화 과정을 재 수행하여, 참고문헌 서지정보 매칭을 위한 절차를 수행한다.
도 3은 본 발명에 의한 참고문헌 자동 구축 방법을 설명하기 위한 흐름도이다.
먼저, 참고문헌 자동 구축 시스템(100)의 참고문헌 파싱부(120)는 참고문헌 서지사항의 데이터베이스 구축을 위해 입력되는 참고문헌의 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 파악한다(S101).
이어서, 참고문헌 파싱부(120)는 참고문헌의 구성항목을 단계 S101에서 파악된 기술 패턴의 구성항목을 기준으로 파싱한다(S103).
예를 들어, 참고문헌 기술 패턴은 Turabian, MLA, PubMed 등이 있으며, 각각의 기술 패턴에 해당하는 구성항목이 있는 데, 참고문헌 파싱부(120)는 입력된 참고문헌과 일치하는 기술 패턴의 구성항목을 기준으로 각각의 항목으로 구분하는 것이다.
이후, 참고문헌 표준화 처리부(130)는 단계 S103에서 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리한다(S105).
이어서, 참고문헌 매칭부(140)는 단계 S105에서 표준화된 참고문헌 서지정보를 기 저장된 참고문헌 서지정보와 매칭하여 저장한다(S107).
관련문서 연계 처리부(150)는 기 저장된 참고문헌 서지정보를 검색하여 단계 S101 내지 단계 S107을 통해 파싱 및 매칭된 참고문헌과 함께 관련된 참고문헌을 연계 처리하여 데이터베이스(160)에 저장한다.
한편, 관련문서 연계 처리부(150)는 이후에 신규 참고문헌이 등록되면, 기 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 신규 참고문헌을 연계 처리하여 저장한다.
다른 한편, 참고문헌 자동 구축 시스템(100)의 패턴 관리부(110)는 복수의 참고문헌 기술 패턴을 관리하여, 단계 S101에서 참고문헌의 기술 패턴을 파악할 때 기준이 되는 정보를 참조할 수 있도록 한다.
도 4는 본 발명에 의한 참고문헌 표준화 처리 방법을 보다 상세하게 설명하기 위한 흐름도로서, 도 3의 단계 S105를 보다 상세하게 설명하기 위한 것이다.
먼저, 참고문헌 표준화 처리부(130)의 표준 여부 검토수단(131)은 파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출한다(S201, S203).
이어서, 표준화 처리수단(133)은 추출된 참고문헌을 해당 구성항목의 표준화 기준에 따라 표준화 수행한다(S205).
여기에서, 표준화 처리수단(133)은 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스 페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행한다.
도 5는 본 발명에 의한 신규 패턴 등록 방법을 보다 상세하게 설명하기 위한 흐름도이다.
먼저, 참고문헌 표준화 처리부(130)의 신규 패턴 인식수단(135)은 도 3 단계 S101에서 복수의 기술 패턴 중 일치하는 기술 패턴이 파악되지 않은 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식한다(S301, S303).
신규 패턴 등록 요청수단(137)은 단계 S303에서 인식된 신규 기술 패턴을 기 저장된 참고문헌 기술 패턴에 추가로 등록할 수 있도록 패턴 관리부(11)로 신규 기술 패턴 등록을 요청한다(S305).
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 본 발명에 의한 참고문헌 자동 구축 시스템을 나타내는 도면,
도 2는 본 발명에 의한 참고문헌 표준화 처리부를 보다 상세하게 나타내는 도면,
도 3은 본 발명에 의한 참고문헌 자동 구축 방법을 설명하기 위한 흐름도,
도 4는 본 발명에 의한 참고문헌 표준화 처리 방법을 보다 상세하게 설명하기 위한 흐름도,
도 5는 본 발명에 의한 신규 패턴 등록 방법을 보다 상세하게 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
100 : 참고문헌 자동 구축 시스템 110 : 패턴 관리부
120 : 참고문헌 파싱부 130 : 참고문헌 표준화 처리부
131 : 표준 여부 검토수단 133 : 표준화 처리수단
135 : 신규 패턴 인식수단 137 : 신규 패턴 등록 요청수단
140 : 참고문헌 매칭부 150 : 관련문서 연계 처리부
160 : 데이터베이스

Claims (21)

  1. 참고문헌을 자동으로 파싱 및 매칭하기 위한 시스템으로서,
    참고문헌 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 자동으로 파악하고, 파악된 기술 패턴의 구성항목을 이용하여 상기 참고문헌의 서지정보를 각각의 구성항목으로 파싱하는 참고문헌 파싱부;
    파싱된 참고문헌의 구성항목을 표준화 기준에 따라 표준화를 수행하는 참고문헌 표준화 처리부;
    를 포함하는 패턴 기반 참고문헌 자동 구축 시스템.
  2. 제1항에 있어서,
    상기 참고문헌 자동 구축 시스템은,
    복수의 참고문헌 기술 패턴을 관리하여, 상기 참고문헌 파싱부에서 참고문헌의 기술 패턴을 인식할 때 기준이 되는 기술 패턴 정보를 제공하는 패턴 관리부;
    를 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 시스템.
  3. 제2항에 있어서,
    상기 참고문헌 표준화 처리부는,
    참고문헌 파싱부에서 참고문헌의 서지정보와 일치하는 기술 패턴이 파악되지 않는 경우, 해당 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식하는 신규 패턴 인식수단; 및
    상기 패턴 관리부로 신규 패턴 인식수단에 의해서 인식된 신규 기술 패턴을 등록하도록 요청하는 신규 패턴 등록 요청수단;
    을 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 시스템.
  4. 제1항에 있어서,
    상기 참고문헌 표준화 처리부는,
    파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 표준 여부 검토수단; 및
    상기 표준 여부 검토수단에 의해 추출된 참고문헌의 구성항목을 해당 구성항목의 표준화 기준에 따라 표준화 수행하는 표준화 처리수단;
    을 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 시스템.
  5. 제4항에 있어서,
    상기 표준화 처리수단은,
    상기 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 시스템.
  6. 제1항에 있어서,
    상기 참고문헌 자동 구축 시스템은,
    상기 참고문헌 표준화 처리부에 의해서 표준화된 참고문헌의 서지정보를 기 저장된 서지정보와 매칭하여 데이터베이스에 저장하는 참고문헌 매칭부; 및
    참고문헌 서지정보를 비롯하여 참고문헌 자동 구축 시스템과 관련된 정보를 저장하는 데이터베이스;
    를 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 시스템.
  7. 제6항에 있어서,
    신규 참고문헌이 등록되면, 상기 데이터베이스에 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하는 관련문서 연계 처리부;
    를 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 시스템.
  8. 참고문헌 자동 구축 시스템에서 참고문헌을 자동으로 파싱 및 매칭하기 위한 방법으로서,
    a) 참고문헌 자동 구축 시스템이 입력되는 참고문헌의 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 파악하는 단계;
    b) 참고문헌의 구성항목을 상기 a) 단계에서 파악된 기술 패턴의 구성항목을 기준으로 파싱하는 단계;
    c) 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 단계;
    를 포함하는 패턴 기반 참고문헌 자동 구축 방법.
  9. 제8항에 있어서,
    상기 a) 단계 이전에,
    복수의 참고문헌 기술 패턴을 관리하여, 상기 a) 단계에서 참고문헌의 기술 패턴을 파악할 때 기준이 되는 정보를 참조할 수 있도록 하는 단계;
    를 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 방법.
  10. 제8항에 있어서,
    상기 a) 단계에서 복수의 기술 패턴 중 일치하는 기술 패턴이 파악되지 않은 참고문헌의 기술 패턴을 신규 기술 패턴으로 인식하는 단계;
    상기 신규 기술 패턴을 기 저장된 참고문헌 기술 패턴에 추가로 등록하는 단계;
    를 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 방법.
  11. 제8항에 있어서,
    상기 c) 단계는,
    파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 단계; 및
    추출된 참고문헌을 해당 구성항목의 표준화 기준에 따라 표준화 수행하는 단계;
    를 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 방법.
  12. 제11항에 있어서,
    상기 표준화 수행하는 단계는,
    상기 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 방법.
  13. 제8항에 있어서,
    상기 c) 단계 이후에,
    표준화된 참고문헌 서지정보를 기 저장된 참고문헌 서지정보와 매칭하여 저장하는 단계;
    를 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 방법.
  14. 제13항에 있어서,
    신규 참고문헌이 등록되면, 기 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하여 저장하는 단계;
    를 더 포함하는 것을 특징으로 하는 패턴 기반 참고문헌 자동 구축 방법.
  15. 참고문헌을 자동으로 파싱 및 매칭하기 위한 프로그램을 기록한 컴퓨터로 읽 을 수 있는 기록매체로서,
    입력되는 참고문헌의 서지정보를 미리 설정된 복수의 기술 패턴과 비교하여 일치하는 기술 패턴을 파악하는 기능;
    참고문헌의 구성항목을 파악된 기술 패턴의 구성항목을 이용하여 파싱하는 기능;
    파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 기능;
    을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  16. 제15항에 있어서,
    복수의 참고문헌 기술 패턴을 관리하여, 참고문헌의 기술 패턴을 파악할 때 기준이 되는 정보를 참조할 수 있도록 제공하는 기능;
    을 포함하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  17. 제15항에 있어서,
    참고문헌의 서지정보를 기 저장된 복수의 기술 패턴과 비교한 결과, 일치하는 기술 패턴이 파악되지 않은 경우, 해당 참고문헌의 기술 패턴을 신규 기술 패턴 으로 인식하는 기능;
    상기 신규 기술 패턴을 기 저장된 참고문헌 기술 패턴에 추가로 등록하는 기능;
    을 포함하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  18. 제15항에 있어서,
    상기 표준화 처리하는 기능은,
    파싱된 참고문헌의 구성항목을 기 설정된 표준화 기준과 비교하여 일치하는지 여부를 확인하고, 일치하지 않는 참고문헌의 구성항목을 추출하는 기능; 및
    추출된 참고문헌을 해당 구성항목의 표준화 기준에 따라 표준화를 수행하는 기능;
    을 포함하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  19. 제18항에 있어서,
    상기 표준화를 수행하는 기능은,
    상기 표준화 기준에 따라, 대소문자로 표기된 정보를 대문자 또는 소문자 중 어느 하나로 통일, 특수문자와 태그 정보 삭제, 스페이스 삭제, 표기방식 통일 중 적어도 어느 하나를 수행하는 기능인 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  20. 제15항에 있어서,
    상기 파싱된 참고문헌의 구성항목을 미리 설정된 기준에 따라 표준화 처리하는 기능 이후에,
    표준화된 참고문헌 서지정보를 기 저장된 참고문헌 서지정보와 매칭하여 저장하는 기능;
    을 더 포함하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  21. 제20항에 있어서,
    신규 참고문헌이 등록되면, 기 저장된 참고문헌 서지정보를 검색하여 관련된 참고문헌을 추출하고, 추출된 참고문헌과 상기 신규 참고문헌을 연계 처리하여 저장하는 기능;
    을 더 포함하는 것을 특징으로 하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020080096593A 2008-10-01 2008-10-01 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체 KR101019627B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080096593A KR101019627B1 (ko) 2008-10-01 2008-10-01 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080096593A KR101019627B1 (ko) 2008-10-01 2008-10-01 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체

Publications (2)

Publication Number Publication Date
KR20100037325A true KR20100037325A (ko) 2010-04-09
KR101019627B1 KR101019627B1 (ko) 2011-03-07

Family

ID=42214552

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080096593A KR101019627B1 (ko) 2008-10-01 2008-10-01 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체

Country Status (1)

Country Link
KR (1) KR101019627B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101487356B1 (ko) * 2014-04-02 2015-01-30 전주대학교 산학협력단 검색논문의 참고문헌정보를 제공하는 서버 및 제공방법
KR20160064306A (ko) * 2014-11-27 2016-06-08 손죠 주식회사 참고문헌 자동 구축 시스템
US9430451B1 (en) 2015-04-01 2016-08-30 Inera, Inc. Parsing author name groups in non-standardized format
KR102102468B1 (ko) * 2019-07-05 2020-04-21 (주)아이티쓰리 교차검증, 사이트 검색 및 포맷 재구성을 이용한 논문 내 참고문헌 적합성 검증 서비스 제공 시스템
KR102531477B1 (ko) * 2022-11-07 2023-05-12 미러 주식회사 발췌된 원문의 정보를 제공하는 논문 작성 시스템의 서버 및 사용자 단말기
KR102547402B1 (ko) * 2023-03-17 2023-06-23 주식회사 무하유 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101487356B1 (ko) * 2014-04-02 2015-01-30 전주대학교 산학협력단 검색논문의 참고문헌정보를 제공하는 서버 및 제공방법
KR20160064306A (ko) * 2014-11-27 2016-06-08 손죠 주식회사 참고문헌 자동 구축 시스템
US9430451B1 (en) 2015-04-01 2016-08-30 Inera, Inc. Parsing author name groups in non-standardized format
KR102102468B1 (ko) * 2019-07-05 2020-04-21 (주)아이티쓰리 교차검증, 사이트 검색 및 포맷 재구성을 이용한 논문 내 참고문헌 적합성 검증 서비스 제공 시스템
KR102531477B1 (ko) * 2022-11-07 2023-05-12 미러 주식회사 발췌된 원문의 정보를 제공하는 논문 작성 시스템의 서버 및 사용자 단말기
WO2024101502A1 (ko) * 2022-11-07 2024-05-16 미러 주식회사 발췌된 원문의 정보를 제공하는 논문 작성 시스템의 서버 및 사용자 단말기
KR102547402B1 (ko) * 2023-03-17 2023-06-23 주식회사 무하유 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법

Also Published As

Publication number Publication date
KR101019627B1 (ko) 2011-03-07

Similar Documents

Publication Publication Date Title
US9251180B2 (en) Supplementing structured information about entities with information from unstructured data sources
WO2019196226A1 (zh) 制度信息查询方法、装置、计算机设备和存储介质
KR101019627B1 (ko) 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체
JP2011509472A (ja) データをクラスタリングする方法、システム、装置およびその方法を適用するためのコンピュータ・プログラム
CN110705515A (zh) 一种基于ocr文字识别的医院纸质档案归档方法及系统
US20100100544A1 (en) Document searching device, document searching method, and document searching program
CN107291949A (zh) 信息搜索方法及装置
KR20220064016A (ko) 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
CN107870915A (zh) 对搜索结果的指示
JP2016192202A (ja) 照合処理システム、方法、及びプログラム
Jeon et al. Making a graph database from unstructured text
KR101827965B1 (ko) 연동 통제 문서 분석 장치 및 방법
KR20120003567A (ko) 로그 관리 시스템과 이의 로그 처리방법 및 이의 로그 처리방법을 저장하는 기록매체
Dejean Extracting structured data from unstructured document with incomplete resources
US10896227B2 (en) Data processing system, data processing method, and data structure
CN107491530B (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
Maynard et al. Change management for metadata evolution
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
CN114090076A (zh) 应用程序的合规性判别方法和装置
JP2014134920A (ja) 設計書の検索システム、設計書の検索システムの構築方法およびそのためのプログラム
CN115374222A (zh) 一种知识图谱构建方法、装置和存储介质
CN107368472B (zh) 一种可迭代优化的文档分析结果的保存方法
CN105808783B (zh) 一种不同域名格式的大文件数据差异性分析方法
CN112966101B (zh) 语句聚类方法、事务聚类方法、语句聚类装置与事务聚类装置
KR20150134645A (ko) 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150223

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160202

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170222

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190225

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20200225

Year of fee payment: 10