KR101607771B1 - 저자 식별 방법 및 장치 - Google Patents
저자 식별 방법 및 장치 Download PDFInfo
- Publication number
- KR101607771B1 KR101607771B1 KR1020140131910A KR20140131910A KR101607771B1 KR 101607771 B1 KR101607771 B1 KR 101607771B1 KR 1020140131910 A KR1020140131910 A KR 1020140131910A KR 20140131910 A KR20140131910 A KR 20140131910A KR 101607771 B1 KR101607771 B1 KR 101607771B1
- Authority
- KR
- South Korea
- Prior art keywords
- author
- information
- style
- extracted
- writing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
저자 식별 방법 및 장치가 제공된다. 본 발명에 따른 저자 식별 장치가 학술 논문으로부터 저자를 식별하는 방법은 (a) 학술 논문으로부터 저자의 이름을 포함하는 저자 정보를 추출하는 단계, (b) 상기 학술 논문으로부터 상기 추출된 저자의 저술 스타일(writing style)을 분석하는 단계, (c) 기 구축된 저자들의 저자 정보 DB로부터 상기 추출된 저자와 매칭되는 후보 저자의 저술 스타일을 추출하여 상기 분석된 저술 스타일과 유사도를 계산하는 단계 및 (d) 상기 계산된 유사도가 특정 임계 값 이상이면, 상기 추출된 저자와 상기 후보 저자를 동일인으로 판단하고, 상기 추출된 저자의 저자 정보와 저술 스타일에 대한 정보를 상기 저자 정보 DB에 저장하는 단계를 포함하는 것을 특징으로 한다.
Description
본 발명은 학술 데이터에서 저자(author)를 식별하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 저자의 저술 스타일(writing style)에 기반하여 학술 데이터에서 저자를 식별하는 기술에 관한 것이다.
국내외에서 발표되는 학술 논문은 학문적, 기술적인 발전을 위해 가장 기본이 되는 참고 자료로서, 연구자들이 연구 개발을 위해 가장 많이 활용하고 있는 정보 중 하나이다.
이들 자료의 편리한 이용을 위해서 국내 대부분의 도서관 시스템과 학술 정보 서비스 시스템은 학술 논문의 제목, 초록, 키워드, 발행 년도, 학술지 명, 자료 유형 등과 함께 저자명을 접근점으로 하는 검색 서비스를 제공하고 있으며, 이를 위해서는 학술 논문과 같은 방대한 학술 데이터로부터 저자명을 정확히 식별할 수 있는 기술이 요구된다.
그러나, 종래의 저자 식별 방식은 학술 논문에 포함된 소속 기관 정보, 전자 메일 주소, 키워드 및 초록 정보 등을 활용할 뿐이어서, 동일 저자명을 갖는 다수의 저자가 존재하거나, 동일 연구자라 할지라도 이름 표기가 다른 경우는 저자를 식별하는 정확도가 현저히 낮아지는 문제가 있다.
이에, 학술 논문과 같은 방대한 학술 데이터로부터 저자를 자동 식별 시 그 정확률을 높일 수 있는 방안이 요구되고 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 학술 논문과 같은 학술 데이터로부터 저자를 자동 식별 시 콘텍스트(context)를 고려한 문맥 중심의 저자 식별 방안을 제공하고자 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 저자 식별 장치가 학술 논문으로부터 저자를 식별하는 방법은 (a) 학술 논문으로부터 저자의 이름을 포함하는 저자 정보를 추출하는 단계, (b) 상기 학술 논문으로부터 상기 추출된 저자의 저술 스타일(writing style)을 분석하는 단계, (c) 기 구축된 저자들의 저자 정보 DB로부터 상기 추출된 저자와 매칭되는 후보 저자의 저술 스타일을 추출하여 상기 분석된 저술 스타일과 유사도를 계산하는 단계 및 (d) 상기 계산된 유사도가 특정 임계 값 이상이면, 상기 추출된 저자와 상기 후보 저자를 동일인으로 판단하고, 상기 추출된 저자의 저자 정보와 저술 스타일에 대한 정보를 상기 저자 정보 DB에 저장하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 학술 논문의 저자를 식별하는 장치는 학술 논문으로부터 저자의 이름을 포함하는 저자 정보를 추출하는 저자 정보 추출부, 상기 학술 논문으로부터 상기 추출된 저자의 저술 스타일(writing style)을 분석하는 저술 스타일 분석부, 기 구축된 저자들의 저자 정보 DB로부터 상기 추출된 저자와 매칭되는 후보 저자의 저술 스타일을 추출하여 상기 분석된 저술 스타일과 유사도를 계산하는 유사도 산출부 및 상기 계산된 유사도가 특정 임계 값 이상이면, 상기 추출된 저자와 상기 후보 저자를 동일인으로 판단하고, 상기 추출된 저자의 저자 정보와 저술 스타일에 대한 정보를 상기 저자 정보 DB에 저장하는 데이터 구축부를 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 학술 논문으로부터 저자를 자동 식별 시 그 정확률을 높일 수 있다.
또한, 인력 정보와 연구 성과물 정보를 온톨로지로 구축함에 있어 데이터의 신뢰도와 정확도를 높이는데 기여할 수 있다.
또한, 정확도 높은 인력 정보 및 연구 성과물 정보를 제공하는 기초를 마련할 수 있다.
본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 저자 식별 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 논문으로부터 저자를 식별하는 과정을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 인력 정보 및 연구 성과물 정보를 제공하는 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 논문으로부터 저자를 식별하는 과정을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 인력 정보 및 연구 성과물 정보를 제공하는 시스템을 도시한 도면이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.
그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.
또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 저자 식별 장치의 구성을 도시한 블록도이다.
본 발명의 일 실시예에 따른 저자 식별 장치(100)는 저자 정보 추출부(110), 저술 스타일 분석부(120), 유사도 산출부(130), 데이터 구축부(140) 및 저자 정보 DB(150)를 포함할 수 있다.
각 구성 요소를 설명하면, 저자 정보 추출부(110)는 저자명 식별을 위해 로딩(loading)된 학술 논문으로부터 해당 논문의 저자명을 추출할 수 있다.
이때 해당 논문이 공동 저자에 의한 것인 경우, 추출되는 저자는 하나 이상일 수 있다.
참고로 상기 저자명 식별을 위해 로딩된 ‘학술 논문’은 그 내용이 논문의 형식에 따른 각 항목(field)(예를 들어, 타이틀, 저자 정보, 요약 등)별로 구분된 full text일 수 있다.
저자 정보 추출부(110)는 상기 full text인 학술 논문으로부터 저자명을 비롯한 소속 기관, 소속 부서(예를 들어 팀, 학과 등), 직급(예를 들어, 선임 연구원, 책임 연구원, 부교수, 정교수 등), 이-메일, 관심 연구 분야, 국적, 로딩된 학술 논문의 타이틀, 해당 연구 분야, 게재지명, 공동 저자명, 발행 연도 등을 포함하는 저자 정보를 추출할 수 있다.
참고로, 학술 논문에 따라서 저자명 이외에 다른 저자 정보를 추출할 수 없는 경우도 있다.
예를 들어, 공동 저자가 없는 단독 저자가 존재할 수도 있고, 소속 기관이나 이-메일 등의 저자 정보가 학술 논문에 포함되지 않을 수 있다.
따라서, 저자 정보 추출부(110)에 의해 저자명 외에 추출된 저자 정보가 존재하는 경우, 추출된 저자 정보 외에도 저자를 식별할 수 있는 다른 요소를 더 고려하여 저자 식별 정확도를 더욱 높이고, 저자명 외에 추출된 저자 정보가 존재하지 않는 경우라도 저자 식별 정확도를 높일 수 있는 다른 요소를 고려해야 한다.
본 발명의 일 실시예에서는 저자명 외에 추출된 저자 정보의 유무, 그리고 그 수의 많고 적음에 크게 영향을 받지 않고도 학술 논문에 대한 저자 식별 정확도를 높이기 위해 각 저자의 저술 스타일 또는 저술 패턴을 고려한다.
한편, 저술 스타일 분석부(120)는 학술 논문으로부터 저자 정보 추출부(110)에 의해 추출된 저자의 저술 스타일(writing style) 또는 저술 패턴(writing pattern)을 분석할 수 있다.
여기서, 저술 스타일 또는 저술 패턴(이하 ‘저술 스타일’이라 통칭함)은 인용 문헌의 수, 인용 문헌 수의 최대 값, 학술 논문에서 인용 문헌의 인용 위치, 인용 문헌의 인용 이유, 논문의 각 섹션 별로 사용되는 키 어구(key phrase), 상기 섹션에서 키 어구의 사용 위치 중 하나 이상을 포함할 수 있다.
예를 들어, ‘인용 위치’의 경우, 논문의 서론 부분에서 인용된 내용을 먼저 언급하거나, 하나의 문장에서 주로 복수의 인용 내용을 언급하는 등 각 저자마다 인용 위치에 대한 자신만의 스타일이 존재할 수 있다.
또한, ‘인용 이유’의 경우, 인용 내용을 언급하면서 주로 인용의 내용에 동조하거나, 그 와는 반대로 인용의 내용에 반대하는 스타일이 존재할 수 있으며, 단순히 예를 들어 인용 내용을 소개하는 수준에 그치는 스타일이 존재할 수 있다.
참고로, 저술 스타일 분석부(120)는 문장 내에서 인용된 내용의 전/후에 등장하는 단어(감정어)의 극성(긍정 극성, 부정 극성) 등을 파악함으로써 ‘인용 이유’를 결정할 수 있다.
또한, ‘키 어구’의 경우, 저자의 기술 분야에 따라서 논문의 각 섹션 별로 주로 사용하는 키 어구 및 해당 키 어구의 위치, 즉, 해당 키 어구가 섹션의 전반부나 후반부에 등장하는지 등 각 저자마다 주로 사용하는 키 어구나 선호하는 키 어구의 위치가 존재할 수 있다.
이와 같이, 저술 스타일 분석부(120)는 각 저자별로 콘텍스트(context)를 고려한 문맥 중심의 저술 스타일을 고려하여 학술 논문으로부터 저자를 식별하는 정확도를 높일 수 있다.
참고로, 저술 스타일 분석부(120)가 분석한 전술한 각 저자의 저술 스타일에 대한 정보는 후술하는 데이터 구축부(140)에 의해 저자 정보 DB(150)에 저장될 수 있으며, 지속적인 저자 식별 학습 과정을 통해서 저자 정보 DB(150)에 저장된 정보들의 신뢰도와 정확도는 높아질 수 있다.
한편, 유사도 산출부(130)는 저술 스타일 분석부(120)에 의해 분석된 특정 저자의 저술 스타일과, 기 구축된 저자 정보 DB(150)에 저장된 저술 스타일의 유사도를 계산한다.
이를 위해 유사도 산출부(130)는 저자 정보 추출부(110)에 의해 추출된 저자명과 저자 정보를 이용하여 저자 정보 DB(150)로부터 저자명이 일치하거나, 저자명이 일치하지 않더라도 저자 정보 중 적어도 하나가 일치하는 저자 후보의 저술 스타일을 추출할 수 있다.
예를 들어, 저자 정보 추출부(110)에 의해 현재 학술 논문으로부터 추출된 저자명과 저자 정보가 각각 ‘John Richard Smith’, ‘A 대학 교수’(소속 기관), ‘smith@a-univ.edu’(이-메일)인 경우, 저자 정보 추출부(110)는 저자 정보 DB(150)로부터 이름이 ‘John Richard Smith’인 인물 중 이-메일이 ‘smith@a-univ.edu’이거나 소속 기관이 ‘A 대학’인 인물(저자 후보)을 검색하고, 해당 인물(저자 후보)의 저술 스타일을 추출할 수 있다.
만일, ‘John Richard Smith’와 ‘John R. Smith’가 실제로는 동일 인물이나, 저자 정보 DB(150)의 저자명에 ‘John R. Smith’로 저장되어 있다면, ‘John Richard Smith’라는 저자명만으로 검색 시 두 저자는 서로 다른 인물로 인식될 수 있다.
이 경우, 저자 정보 추출부(110)는 저자명에서 일치하지 않더라도 이-메일인 ‘smith@a-univ.edu’과 소속 기관인 ‘A 대학’이 일치하는 인물을 검색하고, 해당 인물의 저술 스타일을 추출할 수 있다.
유사도 산출부(130)는 저술 스타일 분석부(120)에 의해 분석된 특정 저자의 저술 스타일과, 전술한 방법으로 저자 정보 DB(150)로부터 추출된 저자 후보의 저술 스타일의 유사도를 계산할 수 있으며, 계산된 유사도의 값이 미리 정해진 임계 값 이상이면 두 저자는 동일인인 것으로 판단될 수 있다.
참고로, 저술 스타일의 유사도 계산은 기 공지된 다양한 유사도 계산 방법이 이용될 수 있다.
한편, 데이터 구축부(140)는 유사도 산출부(130)에 의해 계산된 두 저술 스타일의 유사도 값이 미리 정해진 임계 값 이상이면, 두 저자가 동일인인 것으로 판단하고, 저자 정보 DB(150)의 해당 저자에 대한 저술 스타일 정보와 저자 정보를 갱신할 수 있다.
이때, ‘John Richard Smith’와 ‘John R. Smith’ 같이 저자명은 서로 달랐으나, 두 저자의 저술 스타일을 비교해본 결과 동일인인 것으로 판단되는 경우, 데이터 구축부(140)는 저자 정보 DB(150)에서 저자명이 기록되는 필드(또는 확장 필드)에 새로운 형식의 저자명(예를 들어, 기 저장된 저자명이 ‘John R. Smith’인 경우, 새로운 형식의 저자명은 ‘John Richard Smith’이다)을 추가로 기록할 수 있다.
물론, 저자명 외에도 기 저장된 저자 정보 중 다른 저자 정보가 존재하는 경우, 해당 정보가 기록되는 필드(또는 확장 필드)에 새로운 정보를 추가로 기록할 수 있다.
또한, 데이터 구축부(140)는 유사도 산출부(130)에 의해 계산된 두 저술 스타일의 유사도 값이 미리 정해진 임계 값 미만이면, 저자 정보 추출부(110)에 의해 추출된 저자를 신규 인력으로 판단하고, 저술 스타일 분석부(120)에 의해 분석된 해당 저자의 저술 스타일과 저자 정보 추출부(110)에 의해 추출된 해당 저자의 저자 정보를 저자 정보 DB(150)에 저장할 수 있다.
한편, 저자 정보 DB(150)는 온톨로지(ontology)로 구축된 인력 정보 및 각 인력의 연구 성과물 정보를 저장할 수 있다.
여기서 ‘인력 정보’는 앞서 설명한 저자명, 소속 기관, 소속 부서, 직급, 이-메일, 관심 연구 분야, 국적, 저술 스타일 등을 포함할 수 있다.
그리고, ‘연구 성과물 정보’는 연구 성과물인 각 논문의 타이틀, 해당 연구 분야, 키워드, 논문 게재지명, 공동 저자명, 발행 연도 등을 포함할 수 있다.
저술 스타일은 앞서 설명한 바와 같이, 인용 횟수, 인용 위치, 인용 이유, 각 섹션 별로 사용되는 키 어구, 키 어구의 위치 등을 포함할 수 있으며, 이러한 저술 스타일 정보는 각 논문 별로 저장될 수도 있고, 그 동안 저자가 저술한 논문들의 평균치일 수도 있다.
저자 정보 DB(150)에 저장된 전술한 인력 정보 및 연구 성과물 정보에 포함되는 모든 개체는 온톨로지의 주요 요소인 URI(Uniform Resource Identifier)로 구별될 수 있다.
이와 같이, 온톨로지로 구축된 저자 정보 DB(150)의 인력 정보 및 연구 성과물 정보는 개별 연구자나 기관, 지역의 특정 기간 동안의 연구 실적과 동향에 대한 정보를 제공하는 기반이 됨은 물론, 공동 저자 관계를 이용한 특정 연구자의 인력 네트워크 파악, 특정 연구 분야별 전문가 검색 등 다양한 연구 정보 분석 결과를 제공하는 기반이 될 수 있다.
결국 이러한 정보를 제공하는데 있어 가장 기본이 되면서도 중요한 것이 바로 학술 논문으로부터 높은 정확도로 저자명을 식별하는 것이며, 본 발명은 학술 논문으로부터 저자명을 비롯한 저자 정보를 자동으로 추출하여 인력 및 연구 성과물 정보를 온톨로지로 구축 시 각 정보들(특히, 저자명)의 식별 정확도를 높일 수 있다는데 의의가 있다.
참고로, 저자 정보 DB(150)는 저자 식별 장치(100)에 포함될 수도 있고, 클라우드(cloud)와 같은 별도의 저장소나 별도의 서비스 서버(미도시)에 포함될 수도 있다.
도 2는 본 발명의 일 실시예에 따른 논문으로부터 저자를 식별하는 과정을 도시한 흐름도이다.
도 2의 흐름도는 도 1에 도시된 저자 식별 장치에 의해 수행될 수 있다.
먼저, 저자 식별 장치(100)는 저자명 식별을 위해 로딩된 full text의 학술 논문으로부터 해당 논문의 저자명을 비롯한 저자 정보를 추출한다(S201).
여기서 ‘저자 정보’는 저자명을 비롯한 소속 기관, 소속 부서, 직급 이-메일, 관심 연구 분야, 국적, 로딩된 학술 논문의 타이틀, 해당 연구 분야, 게재지명, 공동 저자명, 발행 연도 등을 포함할 수 있다.
S201 후, 저자 식별 장치(100)는 학술 논문으로부터 S201에서 추출된 저자의 저술 스타일을 분석한다(S202).
여기서, 저술 스타일 또는 저술 패턴(이하 ‘저술 스타일’이라 통칭함)은 인용 문헌의 수, 인용 문헌 수의 최대 값, 인용 위치, 인용 이유, 논문의 각 섹션 별로 사용되는 키 어구(key phrase), 키 어구의 위치 중 하나 이상을 포함할 수 있다.
S202 후, 저자 식별 장치(100)는 S201에서 추출된 저자명과 저자 정보를 이용하여 저자 정보 DB(150)로부터 저자명이 일치하거나, 저자명이 일치하지 않더라도 저자 정보 중 적어도 하나가 일치하는 저자 후보의 저술 스타일을 추출한다(S203). 이때, 저자 후보는 복수일 수 있다.
S203 후, 저자 식별 장치(100)는 S202에서 분석된 저자의 저술 스타일과 S203에서 추출된 저자 후보의 저술 스타일의 유사도를 계산한다(S204).
S204 결과, 계산된 유사도가 미리 정해진 임계 값 이상이면, 저자 식별 장치(100)는 두 저자를 동일인으로 판단하고, 저자 정보 DB(150)의 해당 저자에 대한 저술 스타일 정보와 저자 정보를 갱신한다(S205).
만일 S204 결과, 계산된 유사도가 미리 정해진 임계 값 미만이면, 저자 식별 장치(100)는 저자 정보 DB(150)에 해당 저자에 대한 정보가 존재하지 않는 신규 인력으로 판단하고, 저자 정보 DB(150)에 해당 저자의 저술 스타일 정보를 비롯한 저자 정보를 기록한다(S206).
도 3은 본 발명의 일 실시예에 따른 인력 정보 및 연구 성과물 정보를 제공하는 시스템을 도시한 도면이다.
도 3은 인력 정보 및 연구 성과물 정보를 제공하는 시스템은 저자 식별 장치(100), 서비스 서버(200) 및 사용자 단말기(300)를 포함할 수 있다.
저자 식별 장치(100)는 전술한 방법으로 저자명 식별을 위해 로딩된 full text의 학술 논문으로부터 해당 논문의 저자명을 식별하고 저자 정보 DB(150)에 저자명을 비롯한 저자 정보를 갱신하거나 저장함으로써 인력 정보 및 연구 성과물 정보를 온톨로지로 구축할 수 있다.
한편, 서비스 서버(200)는 각 학술 논문을 논문의 형식에 따라 각 항목(field)(예를 들어, 타이틀, 저자 정보, 요약 등)별로 구분하여 full text로 저장할 수 있으며, full text의 학술 논문을 저자 식별 장치(100)로 제공할 수 있다.
또한, 서비스 서버(200)는 저자 식별 장치(100)에 의해 저자 정보 DB(150)에 온톨로지로 구축된 인력 정보 및 연구 성과물 정보를 사용자 단말기(300)의 요청에 따라서 제공할 수 있다.
이를 위해 서비스 서버(200)는 인력 정보 및 연구 성과물 정보를 제공하는 웹 사이트를 사용자 단말기(300)로 제공할 수 있으며, 해당 웹 사이트는 개별 연구자나 기관, 지역의 특정 기간 동안의 연구 실적과 동향에 대한 정보, 그리고 공동 저자 관계를 이용한 특정 연구자의 인력 네트워크 파악, 특정 연구 분야별 전문가 검색 등 다양한 연구 정보 분석 결과를 요청하기 위한 인터페이스를 포함될 수 있다
한편, 사용자 단말기(300)는 서비스 서버(200)가 제공하는 상기 웹 사이트에 접속하여 인력 정보 및 연구 성과물 정보를 요청하고, 서비스 서버(200)로부터 해당 인력 정보와 연구 성과물 정보를 제공받을 수 있다.
사용자 단말기(300)는 스마트폰, PDA(Personal Digital Assistant), PMP(Portable Multimedia Player), 태블릿(tablet) 컴퓨터, 노트북 컴퓨터, 셋탑 박스와 연결된 IPTV 등 유/무선 네트워크를 통해 서비스 서버와 연결될 수 있는 단말기를 포함할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 저자 식별 장치
110 : 저자 정보 추출부
120 ; 저술 스타일 분석부
130 : 유사도 산출부
140 : 데이터 구축부
150 : 저자 정보 DB
200 : 서비스 서버
300 : 사용자 단말기
110 : 저자 정보 추출부
120 ; 저술 스타일 분석부
130 : 유사도 산출부
140 : 데이터 구축부
150 : 저자 정보 DB
200 : 서비스 서버
300 : 사용자 단말기
Claims (7)
- 저자 식별 장치가 학술 논문으로부터 저자를 식별하는 방법에 있어서,
(a) 학술 논문으로부터 저자의 이름을 포함하는 저자 정보를 추출하는 단계;
(b) 상기 학술 논문으로부터 상기 추출된 저자의 저술 스타일(writing style)을 분석하는 단계;
(c) 기 구축된 저자들의 저자 정보 DB로부터 상기 추출된 저자와 매칭되는 후보 저자의 저술 스타일을 추출하여 상기 분석된 저술 스타일과 유사도를 계산하는 단계; 및
(d) 상기 계산된 유사도가 특정 임계 값 이상이면, 상기 추출된 저자와 상기 후보 저자를 동일인으로 판단하고, 상기 추출된 저자의 저자 정보와 저술 스타일에 대한 정보를 상기 저자 정보 DB에 저장하는 단계
를 포함하되,
상기 저술 스타일은,
인용 문헌의 수, 인용 문헌 수의 최대 값, 상기 학술 논문에서 인용 문헌의 인용 위치, 인용 문헌의 인용 이유, 각 섹션 별로 사용되는 키 어구(key phrase), 상기 섹션에서 상기 키 어구의 사용 위치 중 하나 이상을 포함하는 것을 특징으로 하는 저자 식별 방법.
- 삭제
- 제 1 항에 있어서,
상기 (d) 단계는
상기 저자 정보와 저술 스타일에 대한 정보를 URI(Uniform Resource Identifier)로 구분하여 온톨로지로 구축하는 것을 특징으로 하는 저자 식별 방법.
- 제 3 항에 있어서,
상기 저자 정보는 인력 정보 및 연구 성과물 정보 중 하나 이상을 포함하되,
상기 인력 정보는 상기 저자의 이름과 저술 스타일, 소속 기관, 소속 부서, 직급, 이-메일, 관심 연구 분야 및 국적 중 하나 이상을 포함하며,
상기 연구 성과물 정보는 상기 저자의 연구 성과물인 각 논문의 타이틀, 해당 연구 분야, 키워드, 논문 게재지명, 공동 저자명 및 발행 연도 중 하나 이상을 포함하는 것을 특징으로 하는 저자 식별 방법.
- 학술 논문의 저자를 식별하는 장치에 있어서,
학술 논문으로부터 저자의 이름을 포함하는 저자 정보를 추출하는 저자 정보 추출부;
상기 학술 논문으로부터 상기 추출된 저자의 저술 스타일(writing style)을 분석하는 저술 스타일 분석부;
기 구축된 저자들의 저자 정보 DB로부터 상기 추출된 저자와 매칭되는 후보 저자의 저술 스타일을 추출하여 상기 분석된 저술 스타일과 유사도를 계산하는 유사도 산출부; 및
상기 계산된 유사도가 특정 임계 값 이상이면, 상기 추출된 저자와 상기 후보 저자를 동일인으로 판단하고, 상기 추출된 저자의 저자 정보와 저술 스타일에 대한 정보를 상기 저자 정보 DB에 저장하는 데이터 구축부
를 포함하되,
상기 저술 스타일 분석부는
인용 문헌의 수, 인용 문헌 수의 최대 값, 상기 학술 논문에서 인용 문헌의 인용 위치, 인용 문헌의 인용 이유, 각 섹션 별로 사용되는 키 어구(key phrase), 상기 섹션에서 상기 키 어구의 사용 위치 중 하나 이상을 포함하는 저자의 저술 스타일을 분석하는 것을 특징으로 하는 저자 식별 장치.
- 삭제
- 제 5 항에 있어서,
상기 데이터 구축부는,
상기 저자 정보와 저술 스타일에 대한 정보를 URI(Uniform Resource Identifier)로 구분하여 온톨로지로 구축하는 것을 특징으로 하는 저자 식별 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140131910A KR101607771B1 (ko) | 2014-09-30 | 2014-09-30 | 저자 식별 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140131910A KR101607771B1 (ko) | 2014-09-30 | 2014-09-30 | 저자 식별 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101607771B1 true KR101607771B1 (ko) | 2016-03-30 |
Family
ID=55660509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140131910A KR101607771B1 (ko) | 2014-09-30 | 2014-09-30 | 저자 식별 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101607771B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190029339A (ko) * | 2017-09-12 | 2019-03-20 | 특허법인 플러스 | 출원인 정보 채우기 시스템 및 방법 |
CN116561605A (zh) * | 2023-06-01 | 2023-08-08 | 北京智谱华章科技有限公司 | 一种文献完成者研究兴趣图聚类方法、装置、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100725643B1 (ko) | 2006-06-09 | 2007-06-07 | 한국과학기술정보연구원 | 온톨로지 기반 참고문헌 분석을 통한 연구자 성과정보 구축및 서비스 시스템과 그 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 |
-
2014
- 2014-09-30 KR KR1020140131910A patent/KR101607771B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100725643B1 (ko) | 2006-06-09 | 2007-06-07 | 한국과학기술정보연구원 | 온톨로지 기반 참고문헌 분석을 통한 연구자 성과정보 구축및 서비스 시스템과 그 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체 |
Non-Patent Citations (2)
Title |
---|
"논문 원문을 이용한 동명 저자 자동 군집화", 강인수외 7인, 한국콘텐츠학회 2006 추계종합학술대회 논문집 Vol.4 2006.12.31 |
"토픽 모델링을 통한 저자명 식별 성능 비교",송민 외 3인, 한국정보관리학회 학술대회 논문집,2014.08* |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190029339A (ko) * | 2017-09-12 | 2019-03-20 | 특허법인 플러스 | 출원인 정보 채우기 시스템 및 방법 |
KR102497151B1 (ko) * | 2017-09-12 | 2023-02-07 | 특허법인 플러스 | 출원인 정보 채우기 시스템 및 방법 |
CN116561605A (zh) * | 2023-06-01 | 2023-08-08 | 北京智谱华章科技有限公司 | 一种文献完成者研究兴趣图聚类方法、装置、设备及介质 |
CN116561605B (zh) * | 2023-06-01 | 2023-10-24 | 北京智谱华章科技有限公司 | 一种文献完成者研究兴趣图聚类方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Fine-grained location extraction from tweets with temporal awareness | |
Stamatatos et al. | Clustering by authorship within and across documents | |
US9104979B2 (en) | Entity recognition using probabilities for out-of-collection data | |
JP2020042779A (ja) | インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 | |
WO2023108980A1 (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Rangaswamy et al. | Metadata extraction and classification of YouTube videos using sentiment analysis | |
CN110472013B (zh) | 一种热门话题更新方法、装置和计算机存储介质 | |
US20160335367A1 (en) | Entity disambiguation using multisource learning | |
CN109697231A (zh) | 一种案件文书的显示方法、系统、存储介质和处理器 | |
KR101838573B1 (ko) | 공간 감성어 사전을 이용한 감성분석 기반의 장소 선호도 분석방법 | |
CN110895587B (zh) | 用于确定目标用户的方法和装置 | |
KR101607771B1 (ko) | 저자 식별 방법 및 장치 | |
Schmidt et al. | Extraction of address data from unstructured text using free knowledge resources | |
US10504145B2 (en) | Automated classification of network-accessible content based on events | |
Heravi et al. | Tweet location detection | |
Hosseini et al. | Implicit entity linking through ad-hoc retrieval | |
Narmadha et al. | A survey on online tweet segmentation for linguistic features | |
Bazo et al. | TWORPUS–An Easy-to-Use Tool for the Creation of Tailored Twitter Corpora | |
Panchenko et al. | Large-scale parallel matching of social network profiles | |
Oliveira et al. | Gazetteer enrichment for addressing urban areas: A case study | |
Lautenschlager et al. | A Statistical Approach to the Subnational Geolocation of Event Data | |
JP6625087B2 (ja) | 違法コンテンツ探索装置及び違法コンテンツ探索方法 | |
JP6632564B2 (ja) | 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム | |
JP2009223679A (ja) | 電子文書検索装置、及び電子文書検索プログラム | |
Feyisetan et al. | Quick-and-clean extraction of linked data entities from microblogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190325 Year of fee payment: 4 |