KR20150134645A - 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체 - Google Patents

저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체 Download PDF

Info

Publication number
KR20150134645A
KR20150134645A KR1020140061676A KR20140061676A KR20150134645A KR 20150134645 A KR20150134645 A KR 20150134645A KR 1020140061676 A KR1020140061676 A KR 1020140061676A KR 20140061676 A KR20140061676 A KR 20140061676A KR 20150134645 A KR20150134645 A KR 20150134645A
Authority
KR
South Korea
Prior art keywords
author
unit
name
information
specific information
Prior art date
Application number
KR1020140061676A
Other languages
English (en)
Inventor
민병원
최석용
Original Assignee
(주)링크소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)링크소프트 filed Critical (주)링크소프트
Priority to KR1020140061676A priority Critical patent/KR20150134645A/ko
Publication of KR20150134645A publication Critical patent/KR20150134645A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 저자명 명확화 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 논문, 보고서, 특허등의 전자 문서를 특정 인터페이스나 파서등을 통해 로드한 후, 언어적 주석 분석과 정보 추출방법을 통해 저자명, 소속, 연구분야, 컨택정보등 저자 개체의 후보 속성 정보를 추출한 이후, 외부 응용 프로그램 인터페이스를 통하여 룩업 검색을 통해 개체를 식별하거나 내재적으로 속성이 동일한 저자를 군집화하여 저자를 구분하는 저자명 명확화 장치 및 그 방법을 제공하는 것이다.

Description

저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체{Author clearly confirm device and method.}
본 발명은 저자명 명확화 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 논문, 보고서, 특허등의 전자 문서를 특정 인터페이스나 파서등을 통해 로드한 후, 언어적 주석 분석과 정보 추출방법을 통해 저자명, 소속, 연구분야, 컨택정보등 저자 개체의 후보 속성 정보를 추출한 이후, 외부 응용 프로그램 인터페이스를 통하여 룩업 검색을 통해 개체를 식별하거나 내재적으로 속성이 동일한 저자를 군집화하여 저자를 구분하는 저자명 명확화 장치 및 그 방법을 제공하는 것이다.
도 1은 종래의 기술에 따른 저자명 명확화 장치를 도시한 블록도이다.
대한민국 특허공개번호 제2010-0064844호에 개시된 도 1을 참조하여 상세히 설명하자면, 저자명 명확화 장치는 사회망을 이용하여 서지 정보의 저자명을 명확하게 하는 장치로서, 제어부(100), 입력부(102), 사회망 구축부(104), 동명이인 탐지부(106), 다른 이름 탐지/결합부(108) 및 데이터 관리부(110)를 포함한다.
입력부(102)는 서지 정보(X)를 수신하며, 즉 서지 정보(X)의 입력 통로이다. 여기서, 서지 정보(X)는 저자에 관한 정보를 저장하며, 예를 들어 XML 형식으로 구성된 DBLP(Digital Bibliography & Library Project) 데이터 (웹상에서 주요 컴퓨터 과학 서지의 서지 정보를 제공하는 자료를 의미함)일 수 있다. 예를 들어, Tom Mitchell이라고 입력시, 상기 DBLP 데이터는Tom Mitchell이라는 저자명을 가진 저자들이 작성한 서지의 정보를 포함할 수 있다.
사회망 구축부(104)는 입력부(102)를 통하여 수신된 서지 정보(X)에서 저자명의 명확화를 수행하기 위해 필요한 특정 정보를 추출한다. 이어서, 사회망 구축부(104)는 후술하는 바와 같이 서지 정보(X) 뿐만 아니라 서지 정보(X)에 포함된 저자와 관련된 추가적인 정보를 웹 검색 등을 통하여 획득한다. 그런 후, 사회망 구축부(104)는 상기 정보들을 이용하여 예를 들어 각 저자를 정점으로 한 사회망을 구축한다.
동명이인 탐지부(106)는 사회망 구축부(104)에 의해 구축된 사회망을 이용하여 서지 정보(X)의 동명이인 정보를 검출한다. 이어서, 동명이인 탐지부(106)는 동명이인이 존재한다고 검출되는 경우 동명이인 정보를 각기 분할하고, 상기 분할 결과를 토대로 상기 사회망을 재구축한다. 이것은 개별 저자를 명확하게 구분시키기 위한 것으로서, 입력된 서지 정보(X)가 개별 저자들에 대하여 명확하게 구분하지 못하고 있기 때문에, 즉 모호성으로 인하여 수행된다.
다른 이름 탐지/결합부(108)는 여러 이름을 사용하는 저자의 정보를 탐지하며, 탐지 결과 동일 저자이나 다른 이름이 존재하는 경우 상기 다른 이름의 정보를 상기 저자의 정보에 결합시키며, 상기 결합 결과를 토대로 상기 사회망을 갱신시킨다.
데이터 관리부(110)는 본 실시예의 저자명 명확화 장치를 구동하기 위한 프로그램, 각종 입출력 데이터 등을 저장한다. 예를 들어, 데이터 관리부(110)는 서지 정보(X), 저자 정보, 후술하는 순환 정보, 상기 사회망의 갱신정보 등을 임시적으로 또는 영구적으로 저장할 수 있다. 이러한 데이터 관리부(110)는 정보를 저장할 수 있는 한 반도체 메모리 칩 등 다양한 소자들로 구성될 수 있다.
제어부(100)는 상기 저자명 명확화 장치의 구성 요소들의 동작을 전반적으로 제어한다.
예컨대, 저자명 명확화 장치는 불확실한 정보일 수 있는 서지 정보(X)를 이용하여 저자와 관련된 정보가 명확하게 표현된 사회망을 구축할 수 있다. 따라서, 사용자는 저자를 정확하게 검색할 수 있을 뿐만 아니라 검색 엔진 등의 성능이 향상될 수 있다. 물론, 상기 저자명 명확화 장치는 서지 정보(X) 외에 불확실한 실제 데이터에서도 저자명을 명확하게 할 수도 있다.
그러나, 상기 종래의 기술에서는 동명 이인을 탐지한다던지 동인 이명을 탐지하기 위하여 사회망을 구축해야 하며 복잡한 순환 열거 알고리즘을 이용한다던지 LCS(Longest Common Subsequence) 알고리즘을 사용하기 때문에 탐지하는 시간이 오래 걸리고 구현하기가 어렵다는 문제점이 있었다.
이에, 본 발명에서는 동명 이인을 탐지하기 위하여 외부의 응용 프로그램 인터페이스를 통하여 룩업을 행하는 것으로 간편하게 탐지하며 이미 구축한 시스템이나 장치를 활용하여 비교적 손쉽게 구현할 수 있는 장치 및 방법을 제안하게 된 것이다.
대한민국 특허공개번호 제2010-0064844호(2010.06.15)
배경에서 언급된 종래의 저자명 명확화 장치는 동명 이인을 탐지하기 위하여 사회망을 구축해야 하며 복잡한 순환 열거 알고리즘을 이용하기 때문에 탐지 시간이 오래 걸리고 구현하기가 복잡하여 즉각적으로 반응해야 하는 검색엔진에 사용하기에는 부적합하였다.
또한, 종래의 저자명 명확화 장치는 내부적인 데이터가 어느 정도 구축되어 있어야 활용이 가능한 장치이며, 신설되는 데이터베이스를 가진 기관에서는 사용하기가 어려운 단점이 있었다.
따라서, 본 발명은 동명 이인을 탐지하기 위하여 외부의 응용 프로그램 인터페이스를 통하여 룩업을 행하는 것으로 간편하게 탐지하며 비교적 손쉽게 구현할 수 있으며, 내부적으로 충분한 데이터베이스를 미리 구비하기 어려운 기관에서도 이를 활용할 수 있는 수단을 제공하는 데에 있다.
또한, 본 발명의 외부 응용 프로그램을 통한 룩업은 종래의 기술인 자체 데이터베이스를 통한 저자명 명확화 장치에 대한 보조적인 수단으로 저자명을 명확하게 해주는 것에 대한 재확인을 하기 위한 수단을 제공하는 데에 있다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 기능을 수행하기 위한, 본 발명의 특징은 다음과 같다.
본 발명의 일실시예에 따른 저자명 명확화 장치는,
서지 정보를 입력받는 입력부;
상기 서지 정보를 이용하여 저자명의 명확화를 수행하기 위해 필요한 특정 정보를 추출하는 특정정보추출부;
상기 특정정보추출부로부터 추출된 특정정보를 이용하여 외부 응용 프로그램 인터페이스를 통한 룩업을 행하여 동명이인을 탐지하는 룩업탐지부;
상기 특정정보 및 룩업탐지부의 탐지결과 데이터를 저장하는 데이터 관리부;
상기 입력부, 상기 특정정보추출부, 상기 룩업탐지부의 동작을 제어하는 제어부;를 포함하는 저자명 명확화 장치가 제공된다.
이상의 구성 및 작용을 지니는 본 발명에 따른 저자명 명확화 장치는,
고부가가치화를 위한 저자명을 명확하게 하여 보다 정확한 빅데이터를 검색할 수 있도록 하며 보다 신속하고 빠르게 동명이인 저자를 구분하고 이를 데이터로 관리할 수 있는 효과를 제공하며, 비교적 신설되는 기관에서도 이 장치를 이용하여 데이터를 집적할 수 있는 효과를 제공할 수 있다.
도 1은 종래의 기술에 따른 저자명 명확화 장치를 도시한 블록도이다.
도 2는 본 발명의 일실시예에 따른 저자명 명확화 장치를 도시한 블록도이다.
도 3은 K-way 클러스터링 알고리즘을 사용한 자율 학습 기반의 기계 학습 방법론의 예시도이다.
도 4는 본 발명의 일실시예에 따른 속성화의 예시도이다.
도 5는 본 발명의 일실시예에 따른 그룹집단화의 예시도이다.
도 6은 본 발명의 일 실시예에 의한 저자명 명확화 방법을 보인 흐름도이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
도 2는 본 발명의 일실시예에 따른 저자명 명확화 장치를 도시한 블록도이다.
도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 저자명 명확화 장치는 입력부(220), 특정정보추출부(230), 룩업탐지부(240), 데이터관리부(250), 제어부(210)를 포함하여 구성된다.
먼저, 본 발명에 따른 입력부(220)는 서지 정보(X)를 수신하며, 즉 서지 정보(X)의 입력 통로이다.
여기서, 서지 정보(X)는 저자에 관한 정보를 저장하며, 예를 들어 XML 형식으로 구성된 DBLP(Digital Bibliography & Library Project) 데이터(웹상에서 주요 컴퓨터 과학 서지의 서지 정보를 제공하는 자료를 의미함)일 수 있다.
예를 들어, 이동훈이라고 입력시, 상기 DBLP 데이터는 이동훈 이라는 저자명을 가진 저자들이 작성한 서지의 정보를 포함할 수 있다.
이러한 서지정보의 일예로는 공동저자명, 논문제목, 게재정보가 있을 수 있고, 상기 게재정보는 게재지명, 게재년도 등이 될 수 있다.
이러한 입력부(220)의 상기 서지정보를 통하여 논문, 보고서, 특허등의 전자 문서가 특정 인터페이스나 파서등을 통해 로드되게 된다.
다음으로, 본 발명에 따른 특정정보 추출부(230)는 서지정보를 통하여 로드된 전자문서로부터 언어적 주석 분석과 정보 추출을 통해 저자명, 소속, 연구분야, 컨택 정보등 저자 개체의 속성 정보를 추출하게 된다.
입력부(220)로부터의 서지정보를 가지고 전자문서에 존재하는 동명이인을 구별할 수 있는 정보(동명이인 해소 정보)인 저자의 전자메일정보, 논문 작성 당시의 저자의 소속기관정보, 논문을 다루는 분야의 키워드들, 논문의 연구를 지원한 연구과제정보, 논문을 작성한 저자의 저술 스타일, 논문 원문 텍스트 내의 용어 집합등이 추출될 수 있다.
즉, 특정정보추출부에서의 특정정보란 저자 개체의 속성정보이며, 서지정보와 동명이인 해소 정보를 통칭한 것임을 알 수 있다.
다음으로, 본 발명에 따른 룩업탐지부(240)는 상기 특정정보추출부로부터 추출된 특정정보를 이용하여 외부 응용 프로그램 인터페이스를 통한 룩업을 행하게 되는 데, 학술 논문과 같은 과학 기술 저작물의 저자를 식별하여 주는 오픈 저자 식별싸이트에서는 각각의 저자에 식별자를 부여하고 저작물을 등록케하고 이를 관리하여 논문 제목등의 정보로 동명 저자를 구분할 수 있도록 하는 데, 본 발명에 따른 룩업탐지부에서 이러한 외부 싸이트에 접속하여 특정정보를 통하여 룩업(look-up)을 행하게 되면 특정정보의 저자 및 공저자의 식별자를 얻을 수 있거나 식별할 수 있는 단서를 찾을 수 있다.
다른 싸이트의 예로는 과학 문헌등의 Bibtex 형태 등의 참고 문헌을 관리할 수 있는 싸이트로서, 과학 문학 디지털 도서관과 컴퓨터 및 정보 과학 문헌을 중점적으로 검색할 수 있는 검색 엔진에 접속할 수 있는 응용 프로그램 인터페이스를 제공하며 논문에 대한 저자 정보를 검색하여 그 논문의 저자를 식별하는 것이 가능하다.
또 다른 싸이트의 예로는 동명의 저자를 구별 하기위해서 인용 문헌의 제목을 검색엔진에 질의하고, 검색 결과를 이용하여 해당 콘텐트에 대한 인용 문헌의 벡터값을 구하고, 이들 벡터들간의 유사도 계산을 통하여 해당 문헌의 저자를 동명의 다른 저자들로부터 구분할 수 있도록 하고 있다.
상기의 룩업탐지부(240)를 통하여도 저자가 미식별되는 경우도 있다.
이러한 경우에 미식별저자처리부(260)는 논문, 보고서 등, 비교적 정형화 되어 있는 콘텐트로부터 추출한 객체들을 이용해 저자 속성을 정의하고, 비슷한 속성을 가지는 집단을 그룹화하여 식별할 수 있도록 하여 저자를 등록하게 된다.
즉, 속성화된 미식별 저자 개체를 자체 내부 데이터베이스를 사용하여 식별하며, 자체 내부에서 관리하는 저자 개체들을 속성 유사도 비교를 통해 군집화하고 이를 바탕으로 저자 개체를 자체 식별할 수 있도록 하며 내부 데이터베이스에 기록하게 되어 콘텐츠가 풍성화하게 된다.
본 발명에 따른 룩업탐지부(240)는 논문, 보고서 등, 비교적 정형화 되어 있는 콘텐트로부터 추출한 객체들을 이용해 저자 속성을 정의하고, 비슷한 속성을 가지는 집단을 그룹화하여 식별하는 방법인 속성화부(270) 및 그룹집단화부(280)를 보완하는 모듈로 활용할 수 있으며, 이러한 경우 내부적으로 속성화 및 그룹 집단화하여 저자를 검색하는 것을 미리 시도할 수 있다.
또한, 때에 따라서 룩업탐지부(240)를 먼저 수행하고 이후 속성화부(270) 및 그룹집단화부(280)를 통하여 저자를 검색할 수도 있다.
즉, 내부 데이터베이스를 검색하는 방법을 먼저 하던지 나중에 하던지 간에 외부에 대한 룩업을 하여 비교적 간단하게 저자를 식별하고 내부 데이터베이스 검색을 통한 저자 식별에 대한 재확인을 할 수 있는 좋은 방법으로 사료된다.
한편, 상기 속성화부(270)는 해당 문서를 사전 입력된 데이터 정보나 문서에 태그등의 형태로 기술된 메타 데이터를 로드해 저자 객체를 추출하는 것을 의미하며, 그룹집단화부(270)는 군집화를 수행하는 것인데, 상기 저자 객체중에서 주요 객체들을 선택하여 이를 가중치를 갖는 벡터 형태로 치환하여 저장하고 노드별로 벡터 유사도 계산하여, 군집화(clustering)하는 것을 말한다.
도 4 및 도 5에 속성화하는 예시도 및 그룹집단화하는 예시도가 도시되어 있다. '이라는 저자명을 검색하면 3명이 나타나고 각각에 대하여 속성화한 도면이 도 4에 해당한다.
도 4의 'John'에 대하여 왼쪽과 가운데에 위치한 '은 속성을 대비하면 동일인으로 추정되고 (예를들면 가중치를 갖는 벡터 형태로 치환하여 저장하고 노드별로 벡터 유사도 계산한 결과) 오른쪽은 동명이인의 다른 저자라면, 이를 표현한 것이 도 5의 그룹집단화(군집화)의 도면이다.
저자명의 명확화와 같이 콘텐츠 객체화에 대한 연구 즉, 고부가가치화에 대한 것은 활발하게 진행되고 있으며, 과학 문학 디지털 도서관과 컴퓨터 및 정보 과학 문헌을 중점적으로 검색할 수 있는 검색 엔진에서는 기계학습 바탕의 자체 알고리즘으로 동명의 저자를 식별하여 구별한다.
즉, 동명 저자 후보군을 선별하고, DBSCAN 클러스터링 메소드를 통해 이를 군집화한 이후, 해당 문헌의 특성에 가장 가까운 저자를 판별해주는 싸이트도 있다.
독일에 위치한 비대학 연구 조직기구 중에 하나는 독일 및 국제 과학 연구 시스템에 대한 개발 연구를 수행하는 IFQ(Institute for Research Information and Quality Assurance)인데 각 논문의 메타 정보가 저장되어 있는 데이터베이스를 이용하여 오기나 이형동음어 처리와 같은 일차 가공이후의 저자명으로 후보군을 선별하고 메타 데이터가 가장 일치하는 후보를 선택하여 저자를 명확하게 하는 데 도움을 주고 있다.
도 3은 K-way 클러스터링 알고리즘을 사용한 자율 학습(Unsupervised Learning) 기반의 기계 학습 방법론의 예시도인데 이러한 방법론을 통해 저자를 식별하는 방식도 있는 데, 공저자, 논문 제목, 논문 게재 기관등과 같은 출판원 정보를 활용하여 메트릭을 구성하고 이들의 유사도 계산을 통해 군집화를 수행, 저자 식별에 활용할 수 있으며 이러한 방법은 내부 데이터베이스를 구축할 시 활용할 수 있으며, 이러한 방법으로 저자 식별을 제공하는 싸이트도 다수 존재한다.
데이터 관리부(250)는 본 발명에 따른 저자명 명확화 장치를 구동하기 위한 프로그램, 각종 입출력 데이터 등을 저장한다.
예를 들어, 데이터 관리부(250)는 서지 정보(X), 저자 특정정보, 저자 식별정보 등을 임시적으로 또는 영구적으로 저장할 수 있다.
이러한 데이터 관리부(250)는 정보를 저장할 수 있는 반도체 메모리 칩 등 다양한 소자들로 구성될 수 있다.
본 발명에서는 저자명을 명확하게 한 이후에 저자명에 호(號) 혹은 아호, 별호(別號)와 같은 별칭을 구성하여 저장할 수 있는 것을 제안하고자 한다.
저자명이 이동훈이라는 정보를 가지고 검색할 시에 이동훈이라는 저자명이 여러명 존재할 수 있기 때문에 동일명을 가진 서로 다른 저자들에 대한 구분을 해야 하는 사용자는 검색 부담이 가중되게 된다.
동명이인의 문제를 해결하기 위한 기존의 접근법들은 공저자 정보, 논문 제목 등의 서지정보에 의존하는 공통점을 지닌다.
그러나, 기존의 방법들은 공저자가 없거나 논문 제목 간의 공통 어휘가 발견되지 않을 경우 어려움을 겪게 되는 문제점이 있었다.
본 발명의 저자명에 별칭을 부여하는 방안은 이러한 문제점을 용이하게 해결할 수 있는 방안이 된다.
예를들면, 여러명의 이동훈이 존재한다고 하더라도 대표적인 논문의 일부에서 추출된 별호를 제공하게 되면 사용자가 기억하기에 용이하며 각각의 이동훈을 구분할 수 있게 된다.
탐색기법에 의한 저자명 명확화라는 논문이 대표논문인 이동훈이 있다면 탐색기법 이동훈이라고 검색할 수 있으며, 심리적인 트라우마를 치료하는 근육긴장완화를 위한 요가 방법이라는 대표논문을 저술한 이동훈에게는 요가 이동훈이라고 기억하여 검색한다면 동명이인이 많이 존재하는 검색에서 단지 이동훈으로 검색하여 불명확한 정보를 얻어서 원하는 정보만을 구별해야하는 검색부담을 배제할 수 있는 방안이 될 것이다.
한편, 저자가 실제로 별호(아호, 호를 포함한다.)를 가지고 있다면 이를 활용하는 것도 좋은 방안이 될 것이다.
예를들면 이은상이란 저자가 많지만 사용자가 찾는 사람은 노산이라는 호를 지닌 사람이라면 노산 이은상이라고 검색하면 될 것이다.
한편, 검색엔진에서는 동명이인이 있을 경우 일차적으로 별칭과 함께 생몰년도 정보 및 대표논문, 기관등 저자명을 명확하게 할 수 있는 단서를 먼저 제시하여 사용자가 원하는 저자명을 얻을 수 있게 한다.
예를들면 이은상이라고 검색하면 이은상-노산-흐르는 봄빛-19031982-예술원와 이은상-성게-성게 추추물에 의한 암예방 및 암치료법-19332008-고대병원이라고 사용자에게 제시할 수 있다.
다수의 싸이트에서는 저자명에 고유의 식별자를 부여하여 사용자에게 제시하게 되는 데 이러한 방식의 단점은 사용자가 기억하기 어려운 문제점이 있다.
예를들면 이은상이라고 검색하면 이은상(XC2347865)', '이은상(DT785960)'으로 표기되는 데 의미없는 식별자를 사용자가 기억하기에는 어려운 단점이 있다.
본 발명에 따른 별칭부여부(290)는 저자명을 명확하게 할 수 있도록 저자명에 부칭을 함께 부여하여 이를 데이터 관리부(250)를 통하여 저장하고 활용할 수 있다.
한편, 상기 제어부(210)는 본 발명에 따른 저자명 명확화 장치의 각각의 구성 요소들의 동작을 전반적으로 제어한다.
도 6은 본 발명의 일 실시예에 의한 저자명 명확화 방법을 보인 흐름도이다.
도 6을 참조하면, 논문, 보고서, 특허, 과학문헌의 전자 문서를 로드하는 제1단계(S110)와;
상기 제1단계의 전자 문서로부터 저자 객체의 후보 속성을 추출하는 제2단계(S120)와;
서지정보와 상기 제2단계의 저자 객체 후보 속성을 가지고 외부 응용 프로그램 인터페이스를 통하여 개체 식별을 획득하는 제3단계(S130)와;
상기 제3단계의 개체 식별을 참조하여, 저자 객체의 후보 속성 대조에 의한 동일 저자를 그룹집단화하는 제4단계(S140);로 이루어진 것을 특징으로 하는 저자명 명확화 방법을 제시하고 있다.
상기 제1단계(S110)는 입력부(220)를 통하여 서지 정보(X)를 수신하고 입력부(220)의 서지정보를 통하여 논문, 보고서, 특허등의 전자 문서가 특정 인터페이스나 파서등을 통해 로드 되게 되는 것으로 제어부(210)에 의하여 수행될 수 있다.
상기 제2단계(S120)는 특정정보 추출부(230)가 서지정보를 통하여 로드된 전자문서로부터 언어적 주석 분석과 정보 추출을 통해 저자명, 소속, 연구분야, 컨택 정보등 저자 개체의 속성 정보를 추출하게 되는 것에 의하여 이루어지는 것이며, 저자 객체의 후보 속성이란 입력부(220)로부터의 서지정보를 가지고 전자문서에 존재하는 동명이인을 구별할 수 있는 정보(동명이인 해소 정보)인 저자의 전자메일정보, 논문 작성 당시의 저자의 소속기관정보, 논문을 다루는 분야의 키워드들, 논문의 연구를 지원한 연구과제정보, 논문을 작성한 저자의 저술 스타일, 논문 원문 텍스트 내의 용어 집합등을 의미할 수 있다.
즉, 특정정보추출부에서의 특정정보란 저자 개체의 속성정보이며, 서지정보와 동명이인 해소 정보를 통칭한 것임을 알 수 있게 되며, 상기 제2단계의 실행은 제어부(210)가 수행하게 된다.
상기 제3단계(S130)는 룩업탐지부(240)에 의하여 특정정보추출부로부터 추출된 특정정보를 이용하여 외부 응용 프로그램 인터페이스를 통한 룩업을 행하게 되는 데, 학술 논문과 같은 과학 기술 저작물의 저자를 식별하여 주는 오픈 저자 식별싸이트에서는 각각의 저자에 식별자를 부여하고 저작물을 등록케하고 이를 관리하여 논문 제목등의 정보로 동명 저자를 구분할 수 있도록 하는 데, 본 발명에 따른 룩업탐지부에서 이러한 외부 싸이트에 접속하여 특정정보를 통하여 룩업(look-up)을 행하게 되면 특정정보의 저자 및 공저자의 식별자를 얻을 수 있거나 식별할 수 있는 단서를 찾을 수 있게 되며, 상기 제3단계의 실행은 제어부(210)가 수행하게 된다.
상기 제4단계(S140)는 속성화부(270)에 의하여 해당 문서를 사전 입력된 데이터 정보나 문서에 태그등의 형태로 기술된 메타 데이터를 로드해 저자 객체를 추출하며, 그룹집단화부(270)에 의하여 군집화를 수행하는 것인데, 군집화하여 저자명을 명확하게 한 결과와 상기 제3단계에서 획득된 저자의 식별자 혹은 식별 단서와 대조하여 재확인하는 것도 포함하여 수행하며, 상기 제3단계의 실행은 제어부(210)가 수행하게 된다.
한편, 상기 제3단계(S130)에 의하여 미식별된 저자명이 있다면 상기 제4단계(S140)에 의하여 식별될 수 있을 것이다.
미식별저자처리부(260)에 의하여 논문, 보고서 등, 비교적 정형화 되어 있는 콘텐트로부터 추출한 객체들을 이용해 저자 속성을 정의하고, 비슷한 속성을 가지는 집단을 그룹화하여 식별할 수 있도록 하여 데이터 관리부(250)를 통하여 저자를 등록하게 된다.
예컨대, 본 발명에 따른 저자명 명확화 장치는 불확실한 정보일 수 있는 서지 정보(X)를 이용하여 저자와 관련된 정보가 명확하게 표현된 저자명 식별정보를 얻을 수 있다.
따라서, 사용자는 저자를 정확하게 검색할 수 있을 뿐만 아니라 검색 엔진 등의 성능이 향상될 수 있다.
물론, 상기 저자명 명확화 장치는 서지 정보(X) 외에 불확실한 실제 데이터에서도 저자명을 명확하게 할 수도 있다.
이러한 저자명 명확화 장치를 수행하기 위한 방법은 컴퓨터에서 실행시키기 위한 프로그램으로 컴퓨터로 읽을 수 있는 기록매체에 기록되어 제공될 수도 있다.
여기서, 상기 기록매체는 컴퓨터 시스템에 의하여 판독되어 질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함하며, 예를 들어 ROM, RAM, CD-ROM, DVD, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등을 포함한다.
또한, 상기 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
게다가, 본 발명에 따른 저자명 명확화 방법은 소프트웨어를 통해 구현될 수 있다.
이 경우, 본 발명의 구성 요소들은 필요한 작업을 실행시키는 코드 세그먼트들이다.
여기서, 프로그램 또는 코드 세그먼트들은 프로세서 판독가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수있다.
이상에서와 같이, 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였으나, 이상에서 기술한 실시예는 모든 면에서 예시적인 것이며 한정적이 아닌 것이다. 상기와 같은 내용의 본 발명이 속하는 기술분야의 당업자는 본 발명의 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시된 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구 범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
210 : 제어부
220 : 입력부
230 : 특정정보추출부
240 : 룩업탐지부
250 : 데이터관리부

Claims (5)

  1. 저자명 명확화 장치에 있어서,
    서지 정보를 입력받는 입력부(220)와;
    상기 서지 정보를 이용하여 저자명의 명확화를 수행하기 위해 필요한 특정 정보를 추출하는 특정정보추출부(230)와;
    상기 특정정보추출부로부터 추출된 특정정보를 이용하여 외부 응용 프로그램 인터페이스를 통한 룩업을 행하여 동명이인을 탐지하는 룩업탐지부(240)와;
    상기 특정정보 및 룩업탐지부의 탐지결과 데이터를 저장하는 데이터 관리부(250)와;
    상기 입력부, 상기 특정정보추출부, 상기 룩업탐지부의 동작을 제어하는 제어부(2100;를 포함하는 것을 특징으로 하는 저자명 명확화 장치.
  2. 제 1항에 있어서,
    상기 저자명 명확화 장치는,
    정형화되어 있는 콘텐트로부터 추출한 객체들을 이용해 저자 속성을 정의하고, 비슷한 속성을 가지는 집단을 그룹화하여 식별하는 방법인 속성화부; 및 그룹집단화부;를 더 포함하며,
    상기 제어부는 상기 속성화부 및 그룹집단화부를 포함하여 제어하는 것을 특징으로 하는 저자명 명확화 장치.
  3. 저자명 명확화 방법에 있어서,
    논문, 보고서, 특허, 과학문헌의 전자 문서를 로드하는 제1단계(S110)와;
    상기 제1단계의 전자 문서로부터 저자 객체의 후보 속성을 추출하는 제2단계(S120)와;
    서지정보와 상기 제2단계의 저자 객체 후보 속성을 가지고 외부 응용 프로그램 인터페이스를 통하여 개체 식별을 획득하는 제3단계(S130)와;
    상기 제3단계의 개체 식별을 참조하여, 저자 객체의 후보 속성 대조에 의한 동일 저자를 그룹집단화하는 제4단계(S140);로 이루어진 것을 특징으로 하는 저자명 명확화 방법.
  4. 제 3항에 있어서,
    상기 제3단계(S130)에 의하여,
    식별된 저자명이 있다면 미식별저자처리부에 의하여 논문, 보고서 등, 비교적 정형화 되어 있는 콘텐트로부터 추출한 객체들을 이용해 저자 속성을 정의하고, 비슷한 속성을 가지는 집단을 그룹화하여 식별할 수 있도록 하는 것을 특징으로 하는 저자명 명확화 방법.
  5. 제 3항 및 제 4항 중 어느 한 항에 있어서,
    상기 저자명 명확화 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체.
KR1020140061676A 2014-05-22 2014-05-22 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체 KR20150134645A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140061676A KR20150134645A (ko) 2014-05-22 2014-05-22 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140061676A KR20150134645A (ko) 2014-05-22 2014-05-22 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체

Publications (1)

Publication Number Publication Date
KR20150134645A true KR20150134645A (ko) 2015-12-02

Family

ID=54883061

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140061676A KR20150134645A (ko) 2014-05-22 2014-05-22 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체

Country Status (1)

Country Link
KR (1) KR20150134645A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701640A (zh) * 2023-08-04 2023-09-05 腾讯科技(深圳)有限公司 水印识别模型生成方法、水印识别方法、装置及电子设备
KR102639320B1 (ko) * 2023-03-16 2024-02-22 주식회사 케이엠아이이지 연구소용 자동 인식, 요약 및 번역에 기초한 컨텐츠 자동 분류 및 기술 문서 분석 인공 지능을 갖춘 전자 연구 노트 플랫폼 및 이의 동작 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102639320B1 (ko) * 2023-03-16 2024-02-22 주식회사 케이엠아이이지 연구소용 자동 인식, 요약 및 번역에 기초한 컨텐츠 자동 분류 및 기술 문서 분석 인공 지능을 갖춘 전자 연구 노트 플랫폼 및 이의 동작 방법
CN116701640A (zh) * 2023-08-04 2023-09-05 腾讯科技(深圳)有限公司 水印识别模型生成方法、水印识别方法、装置及电子设备
CN116701640B (zh) * 2023-08-04 2024-01-26 腾讯科技(深圳)有限公司 水印识别模型生成方法、水印识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US9424524B2 (en) Extracting facts from unstructured text
US9305083B2 (en) Author disambiguation
US7930288B2 (en) Knowledge extraction for automatic ontology maintenance
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
CN109145110B (zh) 标签查询方法和装置
CN106095738B (zh) 推荐表单片段
CN103049575A (zh) 一种主题自适应的学术会议搜索系统
Elliott Survey of author name disambiguation: 2004 to 2010
CN111694823A (zh) 机构标准化方法、装置、电子设备及存储介质
Sleeman et al. Entity type recognition for heterogeneous semantic graphs
CN105653547B (zh) 一种提取文本关键词的方法和装置
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
TW201415254A (zh) 語意標註建議方法及其系統
KR101019627B1 (ko) 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체
Lizunov et al. Development of the combined method of identification of near duplicates in electronic scientific works
US20080097992A1 (en) Fast database matching
CN110895587A (zh) 用于确定目标用户的方法和装置
KR20150134645A (ko) 저자명 명확화 장치 및 그 방법 및 그 방법을 컴퓨터로 판독할 수 있도록 기록한 기록매체
CN111859042A (zh) 一种检索方法、装置及电子设备
Klampfl et al. Reconstructing the logical structure of a scientific publication using machine learning
CN110289066A (zh) 一种法医鉴定报告的审查方法及系统
Strobel et al. Metadata for scientific audiovisual media: current practices and perspectives of the TIB| AV-Portal
KR101607771B1 (ko) 저자 식별 방법 및 장치
CN113220843A (zh) 确定信息关联关系的方法、装置、存储介质和设备
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)