KR101033611B1 - 참고 문헌 적합성 판정 시스템 및 방법 - Google Patents

참고 문헌 적합성 판정 시스템 및 방법 Download PDF

Info

Publication number
KR101033611B1
KR101033611B1 KR1020100066323A KR20100066323A KR101033611B1 KR 101033611 B1 KR101033611 B1 KR 101033611B1 KR 1020100066323 A KR1020100066323 A KR 1020100066323A KR 20100066323 A KR20100066323 A KR 20100066323A KR 101033611 B1 KR101033611 B1 KR 101033611B1
Authority
KR
South Korea
Prior art keywords
document
main word
input document
main
input
Prior art date
Application number
KR1020100066323A
Other languages
English (en)
Inventor
정한민
김평
이승우
이미경
서동민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020100066323A priority Critical patent/KR101033611B1/ko
Priority to PCT/KR2010/008114 priority patent/WO2012005414A1/ko
Application granted granted Critical
Publication of KR101033611B1 publication Critical patent/KR101033611B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Abstract

본 발명은 참고 문헌 적합성 판정 시스템 및 방법에 관한 것으로서, 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 주제어 비교 모듈, 상기 주제어 비교 모듈에서의 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 연관성 판정 모듈을 포함한다.
따라서, 본 발명에 따르면, 참고 문헌을 분석하여 입력 문헌과의 연관성을 규명함으로써 논문 심사 기준의 하나인 '적합한 참고문헌 인용'판단을 지원하고 더 나아가 중복 논문 검사 수행 대상을 결정할 수 있다.

Description

참고 문헌 적합성 판정 시스템 및 방법 {System and Method for evaluating the suitability of Reference}
본 발명은 참고 문헌 적합성 판정 시스템 및 방법에 관한 것으로, 더욱 상세하게는 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하고, 상기 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 참고 문헌 적합성 판정 시스템 및 방법에 관한 것이다.
참고 문헌은 논문이나 보고서 등의 문헌에 첨부된 관련 문헌으로, 매우 중요한 부분이다. 흔이 논문의 경우 목차와 서론, 그리고 참고문헌만 보면 그 논문을 평가할 수 있는데 이는 논문을 작성하는데 그 주제와 서론에서 밝힌 내용들에 적합한 문헌을 참고하였는가가 중요하기 때문이다.
이러한 참고 문헌에 대한 인용 색인은 미국의 ISI에서 개발한 SCI(Science Citation Index)를 포함한 여러 지표들이 연구되어 왔다.
그러나, 이러한 지표들은 참고문헌을 수작업에 의존해 분석한 결과이며, 문헌 간의 인용정보 부여로 그 역할이 한정되어 있다.
또한, 이러한 정보는 단지 특정 문헌이 얼마나 인용되는가, 어느 정도 영향력을 가지는가의 한정적인 서비스만 제공할 뿐, 적합한 참고 문헌이 인용되었는지의 여부를 규명할 방법이 없었다.
본 발명은 상기한 문제점을 해결하기 위하여 안출한 것으로, 본 발명의 목적은 참고 문헌을 분석하여 입력 문헌과의 연관성을 규명할 수 있는 참고 문헌 적합성 판정 시스템 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 주제어 비교 모듈, 상기 주제어 비교 모듈에서의 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 연관성 판정 모듈을 포함하는 참고 문헌 적합성 판정 시스템이 제공된다.
상기 참고 문헌 적합성 판정 시스템은 상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출하는 참고 문헌 인식 모듈, 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계하는 참고 문헌 연계 모듈, 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당하는 주제어 추출 모듈을 더 포함할 수 있다.
상기 주제어 추출 모듈은, 상기 입력 문헌 및 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 불용어(Stop word)를 제외한 용어들을 색인어로 추출하는 색인어 추출부, 상기 추출된 색인어들을 미리 정제된(Refined) 주제어 사전과 비교하여 주제어를 필터링하는 주제어 필터링부, 상기 필터링된 주제어의 빈도 조건을 이용하여 상위에 랭크된 주제어를 선택하는 주제어 결정부를 포함한다.
상기 빈도 조건은 용어빈도(Term Frequency) 조건, 문서빈도(Document Frequency) 조건, 분야분류코드 빈도 조건 중에서 적어도 하나일 수 있다.
상기 주제어 비교 모듈은, 상기 참고 문헌의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 통계 계산부, 상기 통계 계산부에서 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율을 구하는 주제어 비교부를 포함할 수 있다.
상기 연관성 판정 모듈은 상기 주제어 비교 결과를 통해 구해진 매칭 결과를 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌 전체를 적합한 인용이라고 판단하고, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 판단한다.
또한, 상기 연관성 판정 모듈은 상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다.
또한, 상기 연관성 판정 모듈은 상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고, 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다.
또한, 상기 주제어 비교 모듈은 상기 입력 문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고 문헌별 매칭 비율을 구하고, 상기 연관성 판정 모듈은 상기 구해진 매칭비율이 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고 문헌을 부적합한 인용이라고 판단한다.
본 발명의 다른 측면에 따르면, (a)입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 단계, (b)상기 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 단계를 포함하는 참고 문헌 적합성 판정 방법이 제공된다.
상기 (a)단계 이전에 상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출하는 단계, 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계하는 단계, 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당하는 단계를 더 포함할 수 있다.
상기 (a)단계는 상기 참고문헌 전체의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 단계, 상기 빈도 순으로 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율을 구하는 단계를 포함한다.
상기 (b)단계는, 상기 주제어 비교 결과를 통해 구해진 매칭 비율을 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌전체를 적합한 인용이라고 판단하고, 상기 임계값 미만인 경우 상기 참고문헌전체를 부적합한 인용이라고 판단한다.
상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다.
상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고, 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다.
상기 (a)단계는, 상기 입력문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고문헌별 매칭 비율을 구한다.
상기 구해진 매칭 결과가 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고문헌을 부적합한 인용이라고 판단한다.
상술한 바와 같이 본 발명에 따르면, 참고 문헌을 분석하여 입력 문헌과의 연관성을 규명함으로써 논문 심사 기준의 하나인 '적합한 참고문헌 인용'판단을 지원하고 더 나아가 중복 논문 검사 수행 대상을 결정할 수 있다.
도 1은 본 발명의 실시예에 따른 참고 문헌 적합성 판정 시스템을 나타낸 도면.
도 2는 도 1에 도시된 주제어 추출 모듈을 개략적으로 나타낸 블럭도.
도 3은 도 1에 도시된 주제어 비교 모듈의 구성을 개략적으로 나타낸 블럭도.
도 4 및 도 5는 본 발명의 실시예에 따른 참고 문헌 적합성 판정 방법을 나타낸 흐름도.
도 6은 본 발명의 실시예에 따른 참고 문헌 영역 결정 방법을 설명하기 위한 도면.
도 7은 본 발명의 실시예에 따른 입력 문헌과 참고 문헌을 연계하는 방법을 설명하기 위한 도면.
도 8은 본 발명의 실시예에 따른 입력 문헌과 참고문헌간의 주제어 매칭 결과를 설명하기 위한 도면.
도 9는 본 발명에 따른 매칭 결과와 임계값을 이용한 연관성 판정 방법을 나타낸 흐름도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명의 실시예에 따른 참고 문헌 적합성 판정 시스템을 나타낸 도면이다.
도 1을 참조하면, 참고문헌 적합성 판정 시스템(100)은 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 주제어 비교 모듈(140), 상기 주제어 비교 모듈(140)에서의 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 연관성 판정 모듈(150)을 포함한다.
상기 주제어 비교 모듈(140)은 참고문헌 전체의 주제어들을 모두 정렬하여 빈도순으로 계산하고, 상기 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율을 구한다.
상기와 같은 역할을 수행하는 주제어 비교 모듈(140)에 대한 상세한 설명은 도 3을 참조하기로 한다.
상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 주제어 비교 결과를 통해 구해진 매칭 결과를 미리 정해진 임계값과 비교하여 임계값 이상인 경우 참고문헌 전체를 적합한 인용이라고 판단하고, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 판단한다. 여기서, 상기 매칭 결과는 매칭 비율을 말한다.
또한, 상기 연관성 판정 모듈(150)은 상기 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다.
또한, 상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 주제어 비교 결과를 통해 구해진 매칭 결과가 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색한다.
그런 다음 상기 연관성 판정 모듈(150)은 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다.
본 발명의 다른 실시예에 따르면, 상기 주제어 비교 모듈(140)은 상기 입력 문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고 문헌별 매칭 비율을 구할 수 있다. 이때, 상기 연관성 판정 모듈은 상기 구해진 매칭 비율을 미리 정해진 임계값과 비교한다.
그런 다음 상기 연관성 판정 모듈(150)은 상기 주제어 비교 모듈(140)에서의 비교 결과가 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고 문헌을 부적합한 인용이라고 판단한다.
상기와 같이 구성된 참고문헌 적합성 판정 시스템(100)은 참고문헌 인식 모듈(110), 참고문헌 연계 모듈(120), 주제어 추출 모듈(130)을 더 포함할 수 있다.
상기 참고 문헌 인식 모듈(110)은 상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출한다.
상기 참고 문헌 연계 모듈(120)은 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계한다. 여기서, 상기 참고 문헌내 구성 요소는 저자, 제목, 출처, 페이지 번호, 연도 등을 말한다.
또한, 상기 참고 문헌 연계 모듈(120)은 필요한 경우 구성 요소 정규화를 수행하고, 기 등록된 문헌 데이터베이스내에 저장된 다른 문헌들과 비교하여 일정한 임계값 (Threshold) 이상의 유사성을 가지는 문헌들을 병합하고 식별자를 부여하는 기능을 수행한다.
상기 주제어 추출 모듈(130)은 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당한다.
상기 주제어 추출 모듈(130)에 대한 상세한 설명은 도 2를 참조하기로 한다.
도 2는 도 1에 도시된 주제어 추출 모듈을 개략적으로 나타낸 블럭도이다.
도 2를 참조하면, 주제어 추출 모듈(130)은 입력 문헌 및 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 불용어(Stop word)를 제외한 용어들을 색인어로 추출하는 색인어 추출부(132), 상기 추출된 색인어들을 미리 정제된(Refined) 주제어 사전과 비교하여 주제어를 필터링하는 주제어 필터링부(134), 상기 필터링된 주제어의 빈도 조건을 이용하여 상위에 랭크된 주제어를 선택하는 주제어 결정부(136)를 포함한다.
상기 주제어 필터링부(134)는 상기 추출된 색인어들을 상기 주제어 사전과 비교하여 주제어 가치가 없는 것들을 배제하는 역할을 수행한다.
상기 주제어 결정부(136)는 상기 주제어 필터링부(134)에서 필터링된 주제어들을 용어빈도(Term Frequency) 조건, 문서빈도(Document Frequency) 조건, 분야분류코드 빈도 조건 중에서 적어도 하나의 빈도 조건을 적용하여 순위화한다.
그런 다음 상기 주제어 결정부(136)는 상위 순위별로 일정 개수의 주제어를 해당 문헌의 주제어로 결정한다.
도 3은 도 1에 도시된 주제어 비교 모듈의 구성을 개략적으로 나타낸 블럭도이다.
도 3을 참조하면, 주제어 비교 모듈(140)은 입력 문헌내 참고 문헌의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 통계 계산부(142), 상기 통계 계산부(142)에서 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율을 구하는 주제어 비교부(144)를 포함한다.
상기 통계 계산부(142)는 입력 문헌내의 참고 문헌 전체에 대한 주제어들을 모아 정렬하고, 상기 정렬된 각 주제어에 대한 빈도를 계산한다.
상기 주제어 비교부(144)는 상기 통계 계산부(142)에서 계산된 주제어의 빈도를 기반으로 상기 입력 문헌의 주제어가 상기 참고 문헌의 주제어와 매칭되는 매칭 비율을 구하게 된다.
도 4는 본 발명의 실시예에 따른 참고 문헌 적합성 판정 방법을 나타낸 흐름도이다.
도 4를 참조하면, 참고 문헌 적합성 판정 시스템은 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교한다(S400).
즉, 상기 참고 문헌 적합성 판정 시스템은 상기 참고문헌 전체의 주제어들을 모아 빈도 순으로 정렬한다. 그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 빈도 순으로 정렬된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율을 구한다.
상기 S400의 수행 후, 상기 참고 문헌 적합성 판정 시스템은 상기 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단한다(S402).
상기 참고 문헌 적합성 판정 시스템이 참고문헌간의 연관성을 판단하는 방법에 대한 상세한 설명은 도 9를 참조하기로 한다.
도 5는 본 발명의 실시예에 따른 참고 문헌 적합성 판정 방법을 나타낸 흐름도, 도 6은 본 발명의 실시예에 따른 참고 문헌 영역 결정 방법을 설명하기 위한 도면, 도 7은 본 발명의 실시예에 따른 입력 문헌과 참고 문헌을 연계하는 방법을 설명하기 위한 도면, 도 8은 본 발명의 실시예에 따른 입력 문헌과 참고문헌간의 주제어 매칭 결과를 설명하기 위한 도면이다.
도 5를 참조하면, 참고 문헌 적합성 판정 시스템은 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고(S500), 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출한다(S502).
즉, 상기 참고 문헌 적합성 판정 시스템은 입력 문헌을 파싱하여 텍스트 문서 내에서 ‘Reference/s', '참고 문헌’ 등의 영역을 의미하는 표지 (Indicator)가 확인되면, 상기 확인된 영역을 중심으로 참고 문헌 영역을 결정한다.
상기 입력 문헌에서 참고 문헌 영역을 결정하는 방법에 대해, 도 6을 참조하면, 상기 참고 문헌 적합성 판정 시스템은 입력 문헌내에 ‘Reference'가 존재하므로, 상기 ‘Reference'가 지시하는 영역(600)을 참고 문헌 영역으로 결정한다.
그런 다음 참고 문헌 적합성 판정 시스템은 상기 결정된 참고 문헌 영역에 있는 참고 문헌 목록을 추출한다. 이때, 상기 참고 문헌 목록은 참고 문헌 내 구성요소를 모두 포함하는 것으로서, 상기 구성 요소는 예를 들면, 저자, 제목, 출처, 페이지, 연도 등을 말한다.
상기 S502의 수행 후, 상기 참고 문헌 적합성 판정 시스템은 상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계한다(S504). 즉, 상기 참고 문헌 적합성 판정 시스템은 상기 참고 문헌 내 구성 요소를 제목, 저자, 주제, 출처 등으로 분리하여 도 7과 같이 문헌 데이터베이스에 저장하거나 갱신하고, 이를 상기 입력 문헌과 연계시킨다.
도 7를 참조하면, 상기 문헌 데이터베이스에 저장된 참고 문헌 중에서 1, 3, 4에 해당하는 참고 문헌이 상기 입력 문헌의 참고 문헌에 해당하므로, 상기 1, 3, 4에 해당하는 참고 문헌을 상기 입력 문헌과 연계시킨다.
그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 추출하여 해당 문헌에 할당한다(S506).
즉, 상기 참고 문헌 적합성 판정 시스템은 상기 입력 문헌 및 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 불용어(Stop word)를 제외한 용어들을 색인어로 추출한다.
그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 추출된 색인어들을 미리 정제된(Refined) 주제어 사전과 비교하여 주제어를 필터링한다. 그런 후, 상기 참고 문헌 적합성 판정 시스템은 상기 필터링된 주제어의 빈도 조건을 이용하여 상위에 랭크된 주제어를 최종 주제어로 결정하여 해당 문헌에 각각 할당한다.
상기 S506의 수행 후, 상기 참고 문헌 적합성 판정 시스템은 상기 입력 문헌에 할당된 주제어와 상기 참고 문헌에 할당된 주제어를 매칭 방식으로 비교한다(S508). 즉, 상기 참고 문헌 적합성 판정 시스템은 상기 참고문헌 전체의 주제어들을 모아 정렬한 후 빈도 순으로 계산한다.
예를 들어, 상기 참고 문헌 전체의 주제어를 빈도 순으로 계산하면, 도 8과 같다. 즉, 참고 문헌 전체에서 A는 3개의 참고문헌에서 나오고, B와 D는 2개의 참고 문헌에서 나오고, C,E,G,K,P,Q,R,S는 각각 1개의 참고 문헌에서 나온다는 것을 알 수 있다.
그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 빈도 순으로 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율을 구한다. 상기 구해진 매칭 비율을 매칭 결과라고 칭한다.
그런 다음 상기 참고 문헌 적합성 판정 시스템은 상기 S508을 통해 구해진 매칭 결과를 임계값과 비교하여 상기 입력 문헌과 상기 참고문헌간의 연관성을 판정한다(S510).
도 9는 본 발명에 따른 매칭 결과와 임계값을 이용한 연관성 판정 방법을 나타낸 흐름도이다.
도 9를 참조하면, 참고 문헌 적합성 판정 시스템은 주제어 비교 결과를 통해 구해진 매칭 비율을 임계값과 비교하여(S900), 상기 매칭 결과가 임계값 이상인지의 여부를 판단한다(S902).
상기 S902의 판단결과 상기 매칭 결과가 임계값 이상인 경우 상기 참고 문헌 적합성 판정 시스템은 참고문헌 전체를 적합한 인용이라고 판단한다(S904).
이때, 상기 참고 문헌 적합성 판정 시스템은 상기 매칭 결과가 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단한다.
만약, 상기 S902의 판단결과 상기 매칭 결과가 임계값 이상이 아니면, 상기 참고 문헌 적합성 판정 시스템은 상기 참고문헌 전체를 부적합한 인용이라고 판단한다(S906).
그런 다음 참고 문헌 적합성 판정 시스템은 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고(S908), 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정한다(S910).
상기와 같은 과정을 통해 입력 문헌과 참고 문헌간의 연관성을 규명함으로써 논문 심사 기준의 하나인 '적합한 참고문헌 인용'판단을 지원하고 더 나아가 중복 논문 검사 수행 대상을 결정할 수 있다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 참고 문헌 적합성 판정 시스템 110 : 참고 문헌 인식 모듈
120 : 참고 문헌 연계 모듈 130 : 주제어 추출 모듈
132 : 색인어 추출부 134 : 주제어 필터링부
136 : 주제어 결정부 140 : 주제어 비교 모듈
142 : 통계 계산부 144 : 주제어 비교부
150 : 연관성 판정 모듈

Claims (17)

  1. 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 하나 이상의 참고 문헌을 추출하여 상기 입력 문헌과 상기 참고 문헌에서 각각 하나 이상의 주제어를 추출 및 할당하고, 상기 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 주제어 비교 모듈;및
    상기 주제어 비교 모듈에서의 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 연관성 판정 모듈;
    을 포함하는 참고 문헌 적합성 판정 시스템.
  2. 제1항에 있어서,
    상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출하는 참고 문헌 인식 모듈;
    상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계하는 참고 문헌 연계 모듈;및
    상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 각각 추출하여 상기 입력 문헌과 상기 참고문헌에 각각 할당하는 주제어 추출 모듈;을 더 포함하는 참고 문헌 적합성 판정 시스템.
  3. 제2항에 있어서,
    상기 주제어 추출 모듈은,
    상기 입력 문헌 및 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 불용어(Stop word)를 제외한 용어들을 색인어로 추출하는 색인어 추출부;
    상기 추출된 색인어들을 미리 정제된(Refined) 주제어 사전과 비교하여 주제어를 필터링하는 주제어 필터링부;및
    상기 필터링된 주제어의 빈도 조건을 이용하여 상위에 랭크된 주제어를 선택하는 주제어 결정부;를 포함하는 참고 문헌 적합성 판정 시스템.
  4. 제3항에 있어서,
    상기 빈도 조건은 용어빈도(Term Frequency) 조건, 문서빈도(Document Frequency) 조건, 분야분류코드 빈도 조건 중에서 적어도 하나인 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.
  5. 제1항에 있어서,
    상기 주제어 비교 모듈은,
    상기 참고 문헌의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 통계 계산부;
    상기 통계 계산부에서 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율을 구하는 주제어 비교부;를 포함하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.
  6. 제1항에 있어서,
    상기 연관성 판정 모듈은,
    상기 주제어 비교 결과를 통해 구해진 매칭 비율을 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌 전체를 적합한 인용이라고 판단하고, 임계값 미만인 경우 상기 참고문헌 전체를 부적합한 인용이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.
  7. 제6항에 있어서,
    상기 주제어 비교 결과를 통해 구해진 매칭 비율이 임계값 이상이고 상기 참고문헌 전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 연관성 판정 모듈은 상기 입력 문헌이 상기 참고문헌 전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.
  8. 제6항에 있어서,
    상기 주제어 비교 결과를 통해 구해진 매칭 비율이 임계값 미만인 경우 상기연관성 판정 모듈은 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고, 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.
  9. 제1항에 있어서,
    상기 주제어 비교 모듈은 상기 입력 문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고 문헌별 매칭 비율을 구하고,
    상기 연관성 판정 모듈은 상기 구해진 매칭 비율이 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고 문헌을 부적합한 인용이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 시스템.
  10. 참고 문헌 적합성 판정 시스템이 참고 문헌 적합성을 판정하는 방법에 있어서,
    (a) 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 하나 이상의 참고 문헌을 추출하여 상기 입력 문헌과 상기 참고 문헌에서 각각 하나 이상의 주제어를 추출 및 할당하는 단계;
    (b) 상기 입력 문헌에 할당된 하나 이상의 주제어와 상기 입력 문헌 내 하나 이상의 참고 문헌에 할당된 하나 이상의 주제어를 매칭 방식으로 비교하는 단계; 및
    (c) 상기 비교 결과를 이용하여 상기 입력 문헌과 상기 참고 문헌간의 연관성을 판단하는 단계;
    를 포함하는 참고 문헌 적합성 판정 방법.
  11. 제10항에 있어서,
    상기 (a)단계는,
    상기 입력 문헌을 해석(Parsing)하여 참고 문헌 영역을 결정하고, 상기 결정된 참고 문헌 영역에 있는 각 참고 문헌을 추출하는 단계;
    상기 참고 문헌 내 구성 요소를 분리하여 문헌 데이터베이스에 저장하거나 갱신하고, 상기 입력 문헌과 연계하는 단계; 및
    상기 입력 문헌과 상기 참고 문헌의 서지 정보, 요약, 원문 중 적어도 하나에서 하나 이상의 주제어를 각각 추출하여 상기 입력 문헌과 상기 참고문헌에 각각 할당하는 단계;를 더 포함하는 참고 문헌 적합성 판정 방법.
  12. 제10항에 있어서,
    상기 (b)단계는,
    상기 참고문헌 전체의 주제어들을 모아 정렬하고, 빈도 순으로 계산하는 단계; 및
    상기 빈도 순으로 계산된 주제어와 상기 입력 문헌의 주제어를 매칭하여 매칭 비율을 구하는 단계;를 포함하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.
  13. 제10항 또는 제12항에 있어서,
    상기 (c)단계는, 상기 주제어 비교 결과를 통해 구해진 매칭 비율을 임계값과 비교하여 임계값 이상인 경우 상기 참고문헌전체를 적합한 인용이라고 판단하고, 상기 임계값 미만인 경우 상기 참고문헌전체를 부적합한 인용이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.
  14. 제13항에 있어서,
    상기 주제어 비교 결과를 통해 구해진 매칭 비율이 임계값 이상이고 상기 참고문헌전체에 없는 주제어가 입력 문헌에 존재하는 경우, 상기 입력 문헌이 상기 참고문헌전체에 대해 진보적인 연구 주제를 다룬 것이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.
  15. 제13항에 있어서,
    상기 주제어 비교 결과를 통해 구해진 매칭 비율이 임계값 미만인 경우 기 등록된 문헌 데이터베이스에서 상기 입력 문헌의 주제어를 포함하는 다른 문헌이 존재하는지 검색하고, 상기 검색 결과를 기반으로 표절, 누락, 적합 중에서 적어도 하나 이상을 판정하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.
  16. 제10항에 있어서,
    상기 (b)단계는, 상기 입력문헌의 주제어를 각 참고문헌의 주제어와 각각 비교하여 참고문헌별 매칭 비율을 구하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.
  17. 제16항에 있어서,
    상기 구해진 매칭 비율이 임계값 이상인 참고문헌을 적합한 인용이라고 판단하고, 임계값 미만인 참고문헌을 부적합한 인용이라고 판단하는 것을 특징으로 하는 참고 문헌 적합성 판정 방법.
KR1020100066323A 2010-07-09 2010-07-09 참고 문헌 적합성 판정 시스템 및 방법 KR101033611B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100066323A KR101033611B1 (ko) 2010-07-09 2010-07-09 참고 문헌 적합성 판정 시스템 및 방법
PCT/KR2010/008114 WO2012005414A1 (ko) 2010-07-09 2010-11-16 참고 문헌 적합성 판정 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100066323A KR101033611B1 (ko) 2010-07-09 2010-07-09 참고 문헌 적합성 판정 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR101033611B1 true KR101033611B1 (ko) 2011-05-11

Family

ID=44365782

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100066323A KR101033611B1 (ko) 2010-07-09 2010-07-09 참고 문헌 적합성 판정 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR101033611B1 (ko)
WO (1) WO2012005414A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101413444B1 (ko) * 2013-04-05 2014-07-01 한국과학기술원 문서 분석 방법
KR101629210B1 (ko) * 2015-01-30 2016-06-13 인하대학교 산학협력단 온라인 서비스가 가능한 참고문헌 인용부호 자동부착 지원 시스템 및 서비스 제공 방법
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
KR102102468B1 (ko) * 2019-07-05 2020-04-21 (주)아이티쓰리 교차검증, 사이트 검색 및 포맷 재구성을 이용한 논문 내 참고문헌 적합성 검증 서비스 제공 시스템
KR102298397B1 (ko) * 2021-01-21 2021-09-07 한국과학기술정보연구원 인용 유형 기반의 인용 관계 분석 방법 및 시스템
KR102547402B1 (ko) * 2023-03-17 2023-06-23 주식회사 무하유 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145288A (ja) * 1997-07-29 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
KR100406671B1 (ko) * 2000-07-24 2003-11-21 주식회사 유니마이다스 문장 표절 및 도용 검색 방법
JP2009205674A (ja) * 2008-02-01 2009-09-10 Kanazawa Inst Of Technology 引用判定支援装置および引用判定支援プログラム
KR20100056065A (ko) * 2008-11-19 2010-05-27 한국과학기술정보연구원 의미 기반 자동 연계 시스템 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100711277B1 (ko) * 2005-10-17 2007-04-25 중앙대학교 산학협력단 오엠유씨에스와 서열 정렬 기법을 이용한 텍스트 표절확인방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145288A (ja) * 1997-07-29 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
KR100406671B1 (ko) * 2000-07-24 2003-11-21 주식회사 유니마이다스 문장 표절 및 도용 검색 방법
JP2009205674A (ja) * 2008-02-01 2009-09-10 Kanazawa Inst Of Technology 引用判定支援装置および引用判定支援プログラム
KR20100056065A (ko) * 2008-11-19 2010-05-27 한국과학기술정보연구원 의미 기반 자동 연계 시스템 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101413444B1 (ko) * 2013-04-05 2014-07-01 한국과학기술원 문서 분석 방법
KR101629210B1 (ko) * 2015-01-30 2016-06-13 인하대학교 산학협력단 온라인 서비스가 가능한 참고문헌 인용부호 자동부착 지원 시스템 및 서비스 제공 방법
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
KR102102468B1 (ko) * 2019-07-05 2020-04-21 (주)아이티쓰리 교차검증, 사이트 검색 및 포맷 재구성을 이용한 논문 내 참고문헌 적합성 검증 서비스 제공 시스템
KR102298397B1 (ko) * 2021-01-21 2021-09-07 한국과학기술정보연구원 인용 유형 기반의 인용 관계 분석 방법 및 시스템
KR102547402B1 (ko) * 2023-03-17 2023-06-23 주식회사 무하유 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법

Also Published As

Publication number Publication date
WO2012005414A1 (ko) 2012-01-12

Similar Documents

Publication Publication Date Title
KR101033611B1 (ko) 참고 문헌 적합성 판정 시스템 및 방법
JP5567049B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
KR100816923B1 (ko) 문서 분류 시스템 및 그 방법
CN106372225B (zh) 一种基于高价值对比库的信息处理装置及方法
CN106446071B (zh) 信息处理装置及方法
WO2013147304A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
CN105975491A (zh) 企业新闻分析方法及系统
US10387805B2 (en) System and method for ranking news feeds
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
MX2012011923A (es) Asignacion de atributis aplicables para datos que describen la identidad personal.
TW201415264A (zh) 取證系統、取證方法及取證程式
JP3735335B2 (ja) 類似性判断のための例題ベース検索方法及び検索システム
CN106055539A (zh) 姓名消歧的方法和装置
KR101473239B1 (ko) 단어 패턴을 이용한 카테고리 및 감성 분석시스템
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
KR101458857B1 (ko) 특허 분석 시스템 및 방법과 이를 실행하기 위한 프로그램이 기록된 기록매체
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
KR20020064821A (ko) 문서 장르 학습 시스템 및 그 방법과 그를 이용한 문서장르 분류시스템 및 그 방법
WO2015047075A1 (en) A system and method for ranking recommendations
KR101069290B1 (ko) 특허 분석 방법 및 시스템
KR102297721B1 (ko) 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템
JP2007241636A (ja) 文書データ解析装置および文書データ解析プログラム
KR101273369B1 (ko) 문헌 분석을 통한 유망 기술 판단 방법 및 시스템
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140408

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150427

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160406

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee