KR101302563B1 - 개체명 사전 구축 시스템 및 구축 방법 - Google Patents

개체명 사전 구축 시스템 및 구축 방법 Download PDF

Info

Publication number
KR101302563B1
KR101302563B1 KR1020090124980A KR20090124980A KR101302563B1 KR 101302563 B1 KR101302563 B1 KR 101302563B1 KR 1020090124980 A KR1020090124980 A KR 1020090124980A KR 20090124980 A KR20090124980 A KR 20090124980A KR 101302563 B1 KR101302563 B1 KR 101302563B1
Authority
KR
South Korea
Prior art keywords
entity name
web document
information
entity
dictionary
Prior art date
Application number
KR1020090124980A
Other languages
English (en)
Other versions
KR20110068137A (ko
Inventor
이창기
장명길
윤여찬
최미란
김현기
류법모
임수종
황이규
이충희
오효정
허정
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090124980A priority Critical patent/KR101302563B1/ko
Priority to US12/787,946 priority patent/US20110145251A1/en
Publication of KR20110068137A publication Critical patent/KR20110068137A/ko
Application granted granted Critical
Publication of KR101302563B1 publication Critical patent/KR101302563B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 개체명 사전 구축 시스템 및 구축 방법에 관한 것으로서, 보다 상세하게는 웹문서에 포함된 특정 형식의 정보로부터 개체명을 추출하여 사전을 구축하는 시스템 및 방법에 관한 것이다. 이를 위해, 수집한 웹문서의 구조를 분석하는 단계와, 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계와, 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 단계와, 추출된 개체명에 대하여 카테고리를 설정하는 단계 및 카테고리가 설정된 개체명을 개체명 사전으로 데이터베이스화하는 단계를 수행하는 시스템과 방법을 제공한다.
개체명, 사전, 테이블, 리스트

Description

개체명 사전 구축 시스템 및 구축 방법{System and method for constructing named entity dictionary}
본 발명은 개체명 사전 구축 시스템 및 구축 방법에 관한 것으로서, 보다 상세하게는 웹문서에 포함된 특정 형식의 정보로부터 개체명을 추출하여 사전을 구축하는 시스템 및 방법에 관한 것이다.
본 발명은 한국과학기술원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-034-03, 과제명:국가 IT온톨로지 인프라 기술개발].
기술, 인문, 사회 등의 다양한 분야에서 작성된 문서의 언어적 내용을 분석하기 위하여 형태소 분석, 개체명 인식, 구문분석 등의 다양한 기술적인 시도가 있다.
이와 관련되어, 언어적 내용을 분석하여 사전 구축을 기술로서 개체명 사전을 구축하는 기술이 있다. 그 일예로서 한국특허 제682897호인 "사전 업데이트 방법 및 그 장치"가 있다. 이 발명은 네트워크를 통해 사용자 관심 분야의 웹 문서를 추출하고, 웹 문서에서 추출된 개체명과 신조어를 사전에 업데이트하는 기술에 관 한 것이다.
그러나, 앞서 언급한 발명은 정해진 사용자 관심분야의 웹문서만을 추출한다는 한계가 있고, 테이블이나 리스트 등으로 이루어진 특정 웹문서의 정보를 사용하지 않는 한계가 있다.
본 발명은 상기와 같은 문제로부터 창출된 것으로서, 본 발명의 목적은 테이블이나 리스트와 같은 특정 형식의 정보를 포함하는 웹문서로부터 개체명을 추출하고 이를 이용하여 개체명 사전을 구축하는 방법과 시스템을 제공하는 것이다.
상기와 같은 본 발명의 목적은, 수집한 웹문서의 구조를 분석하는 단계와, 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계와, 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 단계와, 추출된 개체명에 대하여 카테고리를 설정하는 단계 및 카테고리가 설정된 개체명을 개체명 사전으로 데이터베이스화하는 단계를 포함하는 개체명 사전 구축 방법에 의하여 달성 가능하다.
또한, 본 발명의 목적은, 웹문서를 수집하는 웹문서 수집기와, 수집한 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 정보 추출기와, 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 개체명 추출기 및 추출한 개체명을 저장하는 개체명 사전를 포함하는 개체명 사전 구축 시스템에 의하여 달성 가능하다.
상기와 같은 본 발명의 일실시예에 따르면, 테이블이나 리스트와 같이 특정 형식의 정보를 포함하는 웹문서로부터 보다 정확하고 용이하게 개체명 사전을 구축 할 수 있다.
또한, 기존에 등록한 웹문서의 주소 등을 별도로 관리하고 이를 이용함으로써, 보다 빠르고 용이하게 개체명을 자동으로 수집하는 할 수 있다는 장점이 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
도 1은 본 발명에 따른 개체명 사전(160) 구축 시스템의 개략적인 구성 블록도이다. 본 발명에 따른 시스템은 웹문서 수집기(110), 주소 추출기(120), 정보 추출기(130), 개체명 추출기(140), 카테고리 결정기(150), 개체명 사전(160) 등을 포함한다.
웹문서 수집기(110)는 초기 URL(Uniform Resource Locator)를 기초로 웹문서를 수집한다. 초기 URL는 개체명 사전(160)을 구축하고자 하는 자가 입력한 것이거나 웹문서 수집기(110)에서 별도로 관리되던 것일 수 있다. 웹문서 수집기(110)에는 기존에 개체명을 추출하던 웹문서의 URL와 기타 URL 등이 저장되어 있을 수 있다. 기존에 저장되었던 URL로부터는 새로 업데이트되거나 신규의 웹문서를 수집할 수 있다.
주소 추출기(120)는 웹문서 수집기(110)가 수집한 웹문서의 주소를 추출하고, 추출된 주소를 웹문서 수집기(110)로 보낸다. 예컨대, 주소 추출기(120)는 웹문서에 대하여 HTML 파싱을 수행함으로써 웹문서로부터 URL 리스트를 추출하고, 추출된 URL 리스트를 웹문서 수집기(110)로 보낸다. 웹문서 수집기(110)는 기존의 주소와 함께 주소 추출기(120)로부터 입력받은 주소를 함께 관리할 수 있다.
정보 추출기(130)는 웹문서 수집기(110)가 수집한 웹문서의 구조를 파악하여, 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출한다. 웹문서에는 도 2에 나타난 바와 같은, 테이블 형식의 정보(200)가 포함되어 있다. 정보 추출기(130)는 이와 같은 정보가 포함되어 있는지 구조를 파악하고, 테이블 형식 또는 리스트 형식의 정보 추출하여 개체명 추출기(140)로 보낸다.
개체명 추출기(140)는 테이블 형식 또는 리스트 형식의 정보에 대하여 개체명 인식을 수행하여 개체명을 추출한다. 개체명 추출기(140)는 테이블 형식 또는 리스트 형식의 정보에 개체명이 포함될 확률을 점수화하고, 실제로 개체명 인식을 수행하여 개체명이 인식된 비율을 점수화한다. 이 후, 각각의 점수를 토대로 개체 명 사전(160)에 등록할 개체명을 결정한다. 개체명 추출기(140)의 보다 구체적인 구성은 이하, 해당부분에서 후술하기로 한다.
개체명 사전(160)은 개체명 추출기(140)로부터 추출된 개체명을 데이터베이스화하여 저장한다. 개체명은 개체명 추출기(140)로부터 기체명 사전으로 전달되는 중간에 카테고리 결정기(150)를 거칠 수 있다. 카테고리 결정기(150)는 개체명 추출기(140)에 의해 추출된 개체명이 속한 분류, 즉 카테고리를 결정한다. 카테고리가 결정된 개체명은 개체명 사전(160)에 카테고리별로 저장될 수 있다.
개체명이 추출되고 개체명에 대하여 카테고리가 결정된 경우, 현재 웹문서가 개체명을 포함하고 있다는 피드백을 웹문서 수집기(110)로 보낸다. 웹문서 수집기(110)는 피드백을 받아 현재 웹문서의 URL를 별도로 관리하고, 개체명을 포함하고 있는 웹문서의 주변 웹문서들에 우선순위를 부여하여 이들을 먼저 수집할 수 있다.
도 3은 개체명 추출기(140)의 개략적인 구성을 나타낸 블록도이다. 개체명 추출기(140)는 도 3에 도시된 바와 같이, 헤더분석부(310), 개체명 인식부(320)와 결정부(330) 등을 포함한다. 헤더분석부(310)는 테이블 형식 또는 리스트 형식의 정보의 헤더를 분석하고, 분석된 헤더 정보에 기초하여 테이블 형식 또는 리스트 형식의 정보에 개체명이 포함될 확률을 점수로 계산한다. 예컨대, 웹문서로부터 추출된 테이블 형식의 정보가 개체명 추출기(140)로 입력되면, 헤더 정보를 분석한다. 헤더 정보를 분석한 결과, 개체명이 포함될 가능성이 없다면 점수가 낮을 것이 고, 개체명이 포함될 가능성이 높다면 높은 점수가 부여될 것이다.
개체명 인식부(320)는 테이블 형식 또는 리스트 형식의 정보에 대하여, 개체명 인식을 수행한다. 이 때, 테이블 형식의 정보에 포함된 내용에 따라, 개체명을 인식하는 비율이 달라질 수 있다. 개체명 인식비율은 점수로 계산될 수 있다. 이 경우, 개체명 인식부(320)는 개체명을 이미 데이터베이스화한 개체명 사전(160)을 이용하여 개체명 인식을 수행할 수 있다.
이하에서는 설명의 편의를 위하여, 헤더분석부(310)에서 계산된 점수를 제1점수라고 하고, 개체명 인식부(320)에서 계산된 점수를 제2점수라고 한다.
결정부(330)는 제1점수와 제2점수를 기초로, 개체명 인식부(320)에서 인식한 개체명을 개체명 사전(160)에 등록할지 여부를 결정한다. 예컨대, 제1점수와 제2점수를 합한 결과가 소정의 기준점수를 초과하는 경우에, 결정부(330)는 개체명 인식부(320)에서 인식한 개체명을 개체명 사전(160)에 등록할 개체명으로 결정할 수 있다. 이때, 기준점수는 개체명 사전(160)을 구축하는 자가 임의로 설정하거나 변경할 수 있다.
이하에서는, 첨부된 도면을 참고하여 본 발명에 따른 개체명 사전을 구축하는 방법을 설명한다. 도 4는 본 발명에 따른 개체명 사전 구축 방법의 일실시예를 나타낸 순서도이다.
시스템은 웹문서를 수집한다(S410). 웹문서는 개체명 사전(160)을 구축하고자 하는 자가 별도로 입력한 URL 또는 시스템에 미리 저장되어 있던 URL를 기초로 웹문서를 수집할 수 있다. 시스템에 미리 저장되어 있던 URL 중에는, 기존에 개체명 사전(160)에 저장하였던 개체명을 추출한 웹문서의 URL일 수 있다.
시스템은 수집한 웹문서의 URL를 추출하고, URL 리스트를 작성하여 웹문서의주소를 관리할 수 있다(S420). 추후 본 발명에 따른 개체명 수집을 수행하는 경우, 웹문서를 수집하는데 URL를 다시 사용하기 위함이다.
시스템은 수집한 웹문서의 구조를 분석하여(S430), 웹문서에서 테이블 형식 또는 리스트 형식의 정보를 추출한다(S440). 수집한 웹문서에 대한 HTML 파싱을 통해 웹문서 내에 테이블 형식 또는 리스트 형식의 정보가 있는지 분석하고, 테이블 형식 또는 리스트 형식의 정보가 있는 경우 이를 추출한다. 웹문서에는 도 2에 나타난 바와 같은 테이블 형식의 정보(200)가 포함되어 있다. 이 경우, 테이블 형식의 정보(200)가 포함된 웹페이지에서 추출한 테이블 형식의 정보는 다음과 같다.
추출된 테이블 형식의 정보(S440)
<header>아파트명</header>
<data>
관악한일유엔아이
북한산힐스테이트 7차
고양3차 풍림아이원
검단자이
</data>
이후, 추출된 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출한다(S450). 예컨대, 앞의 일예와 같이 추출된 테이블 형식의 정보에 대하여, 헤더 정보를 분석하여 개체명이 포함될 확률을 점수화한다(제1점수화 단계). 그리고, 테이블 형식의 정보에 대하여 개체명 인식을 수행한다. 이 경우, 개체명이 인식된 비율을 점수화한다(제2점수화 단계). 다음은 앞의 S430단계에서 추출한 정보에 대하여, 제1점수화단계와 개체명 인식을 수행한 결과를 나타낸 것이다. 본 실시예의 경우, 제1점수화로 인하여 점수가 80이 부여된 상태이다.
점수가 부여된 상태(S450)
<header>아파트명</header> AF _ BUILDING (점수 80)
<data>
관악한일유엔아이 →개체명 인식: AF _ BUILDING
북한산힐스테이트 7차 →개체명 인식 실패
고양3차 풍림아이원 →개체명 인식: AF _ BUILDING
검단자이 →개체명 인식: OGG _ BUSINESS
</data>
이 후, 제1점수화의 결과와 제2점수화의 결과를 토대로 인식된 개체명이 개체명 사전(160)에 등록될 만한지 여부를 결정한다. 예컨대, 제1점수와 제2점수를 합한 점수가 기준점수를 초과하는 경우에만 개체명 사전(160)에 등록할 개체명으로 결정할 수 있다.
사전에 등록할 개체명의 추출이 완료되면, 개체명에 대하여 카테고리를 결정할 수 있다(S460). S450 단계에서의 결과를 이용하여 카테고리를 결정할 수 있다.에컨대, 개체명 인식단계(S450)에서 인식된 개체명 중에서 어느 하나의 개체명이 다른 개체명들에 관한 카테고리이므로, 카테고리에 해당하는 개체명을 선별할 수 있다. 다음은 앞의 실시예에 있어서 S460단계를 마친 상태로서, 카테고리가 결정된 개체명을 나타낸 것이다.
카테고리가 결정된 개체명(S460)
<ne_list category='AF_BUILDING'>
관악한일유엔아이
북한산힐스테이트 7차
고양3차 풍림아이원
검단자이
</ne_list>
개체명이 추출되고 개체명에 대하여 카테고리가 결정된 경우, 시스템은 웹문서가 개체명을 포함하고 있다는 것을 감지하고, 해당 웹문서의 URL를 별도로 관리한다(S470). 시스템은 별도로 관리되는 URL를 이용하여, 현재 웹문서의 주변 웹문 서들을 우선적으로 수집할 수 있다.
시스템은 카테고리가 설정된 개체명을 개체명 사전(160)에 등록한다(S480).
비록 본 발명이 상기 언급된 바람직한 실시예와 관련하여 설명되어졌지만, 발명의 요지와 범위로부터 벗어남이 없이 다양한 수정이나 변형을 하는 것이 가능하다. 따라서 첨부된 특허청구의 범위에는 본 발명의 요지에 속하는 한 이러한 수정이나 변형을 포함할 것이다.
도 1은 본 발명에 따른 개체명 사전 구축 시스템의 개략적인 구성 블록도이고,
도 2는 도 1의 웹문서 수집기에서 수집된 웹문서에 포함된 테이블 형식의 정보를 나타낸 것이며,
도 3은 도 1의 개체명 추출기의 개략적인 구성 블록도이며,
도 4는 본 발명에 따른 개체명 사전 구축 방법의 일실시예에 따른 흐름도이다.
<도면의 주요부분에 대한 부호의 설명>
110: 웹문서 수집기
120: 주소 추출기
130: 정보 추출기
140: 개체명 추출기
150: 카테고리 결정기
160: 개체명 사전
200: 테이블 형식의 정보
310: 헤더분석부
320: 개체명 인식부
330: 결정부

Claims (12)

  1. 개체명 사전 구축 시스템에 의한 개체명 사전 구축 방법에 있어서,
    수집된 웹문서의 구조를 분석하여, 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계;
    추출된 상기 테이블 형식 또는 리스트 형식의 정보에 관한 헤더를 분석하고, 분석된 헤더 정보에 기초하여, 개체명이 포함될 확률을 점수화하는 제1점수화 단계;
    추출된 상기 테이블 형식 또는 리스트 형식의 정보에 대하여 개체명 인식을 수행하고, 상기 인식된 개체명의 비율을 점수화하는 제2점수화 단계;
    상기 제1점수화 단계와 상기 제2 점수화 단계의 점수들의 토대로 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 단계;
    등록이 결정된 상기 개체명에 대하여 카테고리를 설정하는 단계; 및
    카테고리가 설정된 상기 개체명을 개체명 사전으로 데이터베이스화하는 단계
    를 포함하는 개체명 사전 구축 방법.
  2. 제1항에 있어서, 상기 추출하는 단계 이전에,
    수집된 상기 웹문서의 주소를 추출하여 저장하는 단계;
    를 더 포함하는 개체명 사전 구축 방법.
  3. 제1항에 있어서, 상기 추출하는 단계 이전에,
    기등록된 웹문서에서 업데이트된 웹문서를 수집하는 단계; 및
    상기 업데이트된 웹문서의 구조를 분석하여, 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계를 포함하는 것이 개체명 사전 구축 방법.
  4. 제1항에 있어서, 상기 등록 여부를 결정하는 단계는,
    상기 제1점수화 단계의 점수와 상기 제2점수화 단계의 점수를 합산하여, 상기 합산한 점수가 기준점수를 초과하는지 판단하는 단계; 및
    상기 판단 결과 상기 합산한 점수가 상기 기준점수를 초과하는 경우에 상기 인식된 개체명을 상기 개체명 사전에 등록할 개체명으로 결정하는 단계;
    를 포함하는 것인 개체명 사전 구축 방법.
  5. 제1항에 있어서, 상기 카테고리를 설정하는 단계는,
    상기 카테고리가 설정된 개체명을 포함한 웹문서의 주소를 추출하여 관리하는 단계를 더 포함하는 개체명 사전 구축 방법.
  6. 웹문서를 수집하는 웹문서 수집기;
    상기 웹문서 수집기에 의해 수집된 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 정보 추출기;
    상기 정보 추출기에 의해 추출된 상기 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 개체명 추출기; 및
    상기 개체명 추출기에 의해 추출된 상기 개체명을 저장하는 개체명 사전; 을 포함하고,
    상기 개체명 추출기는,
    상기 웹문서 수집기에 의해 수집된 상기 웹문서 내에 존재하는 테이블 형식 또는 리스트 형식의 정보 중에서 헤더 정보를 분석하는 헤더분석부;
    상기 정보 추출기에 의해 추출된 상기 테이블 또는 리스트 형식의 정보로부터 개체명을 인식하는 개체명 인식부; 및
    상기 헤더분석부에 의해 분석된 상기 헤더 정보와 상기 개체명 인식부의 상기 개체명의 인식결과를 토대로 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 결정부;를 포함하며,
    상기 결정부는 상기 헤더분석부에 의해 분석된 상기 헤더정보를 토대로 상기 웹문서에 상기 개체명이 포함될 확률을 반영한 제1점수와 상기 개체명 인식부의 상기 개체명 인식의 빈도를 반영한 제2점수의 합을 기초로, 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 것인 개체명 사전 구축 시스템.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
KR1020090124980A 2009-12-15 2009-12-15 개체명 사전 구축 시스템 및 구축 방법 KR101302563B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090124980A KR101302563B1 (ko) 2009-12-15 2009-12-15 개체명 사전 구축 시스템 및 구축 방법
US12/787,946 US20110145251A1 (en) 2009-12-15 2010-05-26 System and method for constructing named entity dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090124980A KR101302563B1 (ko) 2009-12-15 2009-12-15 개체명 사전 구축 시스템 및 구축 방법

Publications (2)

Publication Number Publication Date
KR20110068137A KR20110068137A (ko) 2011-06-22
KR101302563B1 true KR101302563B1 (ko) 2013-09-02

Family

ID=44144051

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090124980A KR101302563B1 (ko) 2009-12-15 2009-12-15 개체명 사전 구축 시스템 및 구축 방법

Country Status (2)

Country Link
US (1) US20110145251A1 (ko)
KR (1) KR101302563B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665620B2 (en) * 2010-01-15 2017-05-30 Ab Initio Technology Llc Managing data queries
CN103377186B (zh) * 2012-04-26 2016-03-16 富士通株式会社 基于命名实体识别的Web服务整合装置、方法以及设备
US9251180B2 (en) 2012-05-29 2016-02-02 International Business Machines Corporation Supplementing structured information about entities with information from unstructured data sources
US9501131B2 (en) 2012-08-31 2016-11-22 Micron Technology, Inc. Methods and systems for power management in a pattern recognition processing system
US10438221B2 (en) * 2013-06-24 2019-10-08 Circupon System and method to match sales with coupons
KR102196508B1 (ko) 2013-12-06 2020-12-30 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
WO2016007162A1 (en) 2014-07-10 2016-01-14 Hewlett-Packard Development Company, L.P. Categorizing columns in a data table
KR101725354B1 (ko) * 2015-11-05 2017-04-10 광운대학교 산학협력단 개체명 사전 관리 방법 및 그 장치
US11669692B2 (en) 2019-07-12 2023-06-06 International Business Machines Corporation Extraction of named entities from document data to support automation applications
CN112528659B (zh) * 2020-11-30 2024-06-18 京东方科技集团股份有限公司 实体识别方法、实体识别装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100448177B1 (ko) * 2001-03-15 2004-09-10 주식회사 오픈테크 웹스크레이핑 방법, 그리고 그에 관한 컴퓨터로 읽을 수 있는 기록매체

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7814043B2 (en) * 2001-11-26 2010-10-12 Fujitsu Limited Content information analyzing method and apparatus
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法
US7461056B2 (en) * 2005-02-09 2008-12-02 Microsoft Corporation Text mining apparatus and associated methods
US8856145B2 (en) * 2006-08-04 2014-10-07 Yahoo! Inc. System and method for determining concepts in a content item using context
US7917493B2 (en) * 2007-04-19 2011-03-29 Retrevo Inc. Indexing and searching product identifiers
WO2010081133A1 (en) * 2009-01-12 2010-07-15 Namesforlife, Llc Systems and methods for automatically identifying and linking names in digital resources

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100448177B1 (ko) * 2001-03-15 2004-09-10 주식회사 오픈테크 웹스크레이핑 방법, 그리고 그에 관한 컴퓨터로 읽을 수 있는 기록매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Korean Journal of Cognitive Science 2008, Vol. 19, No. 4 "영역별 개체명 사전 자동 구축을 위한 상호 중요도 계산 기법 기반의 집합 확장 시스템 *

Also Published As

Publication number Publication date
US20110145251A1 (en) 2011-06-16
KR20110068137A (ko) 2011-06-22

Similar Documents

Publication Publication Date Title
KR101302563B1 (ko) 개체명 사전 구축 시스템 및 구축 방법
CN108829858B (zh) 数据查询方法、装置及计算机可读存储介质
CN100405371C (zh) 一种提取新词的方法和系统
CN110008378B (zh) 基于人工智能的语料收集方法、装置、设备及存储介质
JP4722195B2 (ja) データベース・メッセージ分析支援プログラム、方法及び装置
CN116483973A (zh) 一种文本处理方法、装置以及相关设备
KR100881334B1 (ko) 대화형 정보 제공 서비스 장치 및 방법
CN102236639A (zh) 更新语言模型的系统和方法
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN103440343B (zh) 一种面向领域服务目标的知识库构建方法
CN102646124A (zh) 一种自动识别地址信息的方法
CN111783467A (zh) 一种企业名称识别方法及装置
CN1367446A (zh) 汉语个人简历信息处理系统和方法
KR101019627B1 (ko) 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체
CN112363904B (zh) log数据分析定位方法、装置及计算机可读存储介质
EP2573688A1 (en) Estimation apparatus, estimation method, and program
CN115345152B (zh) 模板库更新方法、报告解析方法、装置、设备及介质
CN112382276A (zh) 一种基于语音语义识别的电网物料信息采集方法及装置
JP2004348489A (ja) 顧客データ管理システム、顧客データ管理装置、顧客データ管理方法および顧客データ管理用プログラム
KR101725354B1 (ko) 개체명 사전 관리 방법 및 그 장치
JP2008269072A (ja) 辞書作成システムおよび辞書作成方法
JP5688754B2 (ja) 情報検索装置及びコンピュータプログラム
CN105868271B (zh) 一种姓名统计方法及装置
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160726

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170928

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190612

Year of fee payment: 7