KR20140097701A - 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법 및 시스템 - Google Patents
텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법 및 시스템 Download PDFInfo
- Publication number
- KR20140097701A KR20140097701A KR1020130009773A KR20130009773A KR20140097701A KR 20140097701 A KR20140097701 A KR 20140097701A KR 1020130009773 A KR1020130009773 A KR 1020130009773A KR 20130009773 A KR20130009773 A KR 20130009773A KR 20140097701 A KR20140097701 A KR 20140097701A
- Authority
- KR
- South Korea
- Prior art keywords
- place
- lgg
- obtaining
- text
- information
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
본 발명은 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법과 장치에 관한 것이다.
Description
본 발명은 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법과 장치에 관한 것이다.
인터넷상에는 방대한 양의 정보가 포함되어 있지만 원하는 정보만을 얻는데에는 여러 한계점이 있어서 매우 어려운 점이 있다.
정보검색 방법으로는 하이퍼링크를 사용자가 관심을 가진 웹페이지로 변환하는 방법이 있고, 일반적으로는 사용자가 입력한 검색어에 대해 사용자가 가진 관심에 대한 판정에 기반하고 있다.
검색 시스템은 검색 질의에 대하여 가장 근접한 관련 해답을 제공하는 것이 주된 목적으로, 통상적으로 검색 질의 내의 검색어를 미리 기억된 웹페이지의 코퍼스에 매칭시켜 작업을 수행한다.
종래의 지역 검색방법으로는 특정의 지리적인 영역 내의 관련 웹페이지 또는 업소 목록을 제공하는 방식이 주를 이루고 있다.
종래의 한 기술(국내특허제0985450호)에 의하면, 지역 검색 질의에 응답하여 엘로우 페이지 데이터, 제3자 지도 제공자 데이터, 및 문서 데이터를 수신하여, 이러한 데이터 중에서 최소한 하나를 지오코딩(geocoding)하고, 지리적 식별자를 지역 검색 질의 내의 하나 이상의 주소에 할당하며, 지역 검색 질의 내의 하나 이상의 주소와 매칭시키는 지오코딩하는 방법이 개시되어 있다.
상기한 종래 기술은 검색 질의어에 대하여 자체 지역정보 데이터베이스와 색인정보를 이용하여 그 등록된 업소 위치 정보와 매칭하는 방식이므로 방대한 양의 데이터를 자체적으로 수집해야 하는 문제가 있고, 질의어 1개에 대한 정답만을 고려한 제한적 문제가 있다.
본 발명은 불특정 다수의 질의어에 대한 결과를 제공하는 방식이 아니라 텍스트로부터 인식된 장소 개체에 대한 지리적 위치를 찾고자 하는 방법 및 시스템을 제공한다.
상기한 바와 같은 본 발명을 이루기 위한 수단으로서, 주소 정보가 포함된 장소 개체를 얻을 수 있는 경우에는 주소 정보를 바로 지오코딩하여 해당 주소에 대한 좌표를 제공하고, 텍스트에서 주소 정보를 얻을 수 없는 경우에는 외부 자원의 공개된 지역 정보 API들을 연결하여 각각의 링크된 데이터에서 제공하는 결과를 취합하여 이 중 가장 적합한 장소를 선택한다.
상기한 바와 같이 본 발명에서는 직접 데이터를 수집하는 것이 아니기 때문에 데이터 수집으로부터 자유로우며 많은 지역 정보 데이터들이 연결될수록 더 많은 장소에 대한 정보를 얻을 수 있는 있다.
또한 자연언어 형태로 제공되는 인터넷 게시글 및 이메일 등에 대하여 본 발명을 이용할 수 있도록 이메일 클라이언트, 웹브라우저 등의 플러그 형태로 통합하여 자동으로 본문 텍스트 내에 포함된 회의 개최 장소를 찾아 온라인 칼렌더로 자동으로 업데이트해주는 자동 일정관리 시스템에 활용할 수도 있다.
본 발명에 따른 장치는 장소 개체에 대한 지리적 위치 좌표를 얻는 장치이기 때문에 지도 서비스 및 네비게이션 서비스와 연동하여 장소에 대한 구체적인 위치 정보를 제공할 수도 있다.
도 1은 장소 추출을 위한 LGG의 예시도, 및
도 2는 장소(locMtg) LGG 패턴을 나타낸 예시도이다.
도 2는 장소(locMtg) LGG 패턴을 나타낸 예시도이다.
이하 첨부 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
본 발명에서는 텍스트에 포함된 장소를 추출하고 이렇게 추출된 장소를 지오코딩하는 방법을 개시한다.
본 발명에서는 LGG(Local-Grammer Graphic) 방법론에 기초하여 어휘-동사적 언어 정보를 기술하고, 이로부터 유한상태 변환기(Finite-State Transducer)를 구축함으로써 텍스트에 포함된 장소를 추출한다.
LGG는 프랑스의 전산언어학자인 모리스 그로스에 의해 제안된 언어 기술 모델로서, 특정 영역별로 부분적인 언어 정보를 유한 상태 오토마타(Finite-State Automata) 문법의 형태로 구현하고 이를 이용하여 자연 언어 텍스트에 대한 자동 분석 및 생성, 정보 추출 등을 수행한다. 언어 지식을 형식화하는 문법을 최대한 어휘화함으로써 시스템의 효율성과 정확성을 향상시키며 문법을 방향성 비순환 그래프(Directed Acyclic Graph) 방식으로 구성함으로써 문법 구성의 용이성과 문법에 대한 가독성을 극대화한 것이다.
UNITEX 프로그램은 그래프 형식으로 표상되는 LGG 문법에 기반하여 텍스트의 자동 분석 및 생성, 정보 추출 등을 수행하는 파서(Parser)이다. 현재 마른느-라-
발레 대학의 IGM 연구소에서 개발된 UNITEX 프로그램은, Gross 교수에 의해 주도된 Paris 7대학의 LADL 연구소에서 구현되었던 INTEX 프로그램의 후속 버전이다.
UNITEX프로그램은 언어자원을 효율적으로 구출할 수 있도록 도와주는 그래픽 툴이자, 텍스트 처리를 가능하게 하는 분석 시스템으로서의 역할을 한다. UNITEX로 작성된 Local-Grammar Graph는 유한상태 변환기로 변환될 수 있으며, 이를 통하여 입력 텍스트를 대상으로 텍스트 분석 및 정보 추출을 수행 할 수 있다. 특별히
이 프로그램은 Java로 작성되었기 때문에 Windows/Mac OS/Linux 등의 다양한 환경에서 쉽게 구동할 수 있는 특징을 가지고, 유니코드를 사용하기 때문에 영어 및 한국어를 포함한 다양한 언어를 지원한다.
본 발명에 사용되는 "장소"는 회의공지 이메일에서 공지하는 회의가 열리는 장소를 의미하며, 장소에 대한 정의는 BNF로 표기되는 아래의 표 1의 내용과 같다.
본 발명에서 해결하고자 하는 장소 추출을 위한 LGG는 수집된 회의공지 이메일 말뭉치에 나타난 개최장소가 포함된 문장과 앞, 뒤 문장까지로 하였다. 각 패턴을 위하여 장소, 시간, 주제, 행위 주체, 레이블, 이음 문자열, 기타정보의 7가지 정보 타입의 대분류 아래에 새로운 정보 타입이 발견되면 추가하는 방식으로 작성되었다. 예를 들어, "장소:"는 '레이블' 분류에 해당되며, 장소 레이블을 의미하는 'locLb1'이라는 타입을 가진다. 이러한 방식으로 총 110개의 세부 타입들이 작성된다. 이는 아래의 표 2에 나열된 바와 같다.
LGG를 구성하는 패턴은 도 1에 나타낸 바와 같이, 정보 타입의 열로 이루어지며, 표 2에 나타낸 어휘-동사적 구조를 가지는 이메일로부터 장소를 추출할 수 있도록 작성한다. 도 1에 적색 괄호로 둘러싸인 부분은 추출될 장소(locMtg)를 의미하며, 장소의 내부 패턴은 도 2와 같은 패턴을 가진다.
도 2에서 <NB>는 정수, <PNC>는 특수문자, <MOT>는 토큰을 의미한다.
작성된 LGG는 개최장소의 종류와 개수에 따라 크게 3가지로 분류되는데, 첫 번째는 1개의 개최장소를 포함하는 패턴, 두 번째는 N(>1)개의 개최장소를 포함하는 패턴, 세 번째는 집결장소, 예상 장소, 장소 미정과 같이 개최장소이지만 속성이 개최장소와 차이가 있는 장소를 포함하는 패턴이다. 각 분류 아래에는 해당 패턴으로 추출가능한 장소의 타입별로 구분된 목록을 가진다. 표 4는 LGG의 분류를 나타낸다. 개최장소1_1, 개최장소1_2과 같이 표현된 형태는 1개의 개최장소의 일부 장소정보가 2개로 분리되어 작성된 경우를 표현한다. 예를 들어,표 3과 같이, ‘무역협회 중회의실’ 과 ‘삼성동 트레이드타워 51층’은 같은 장소를 나타내고 있지만, 예문에서는 굳이 괄호로 구분을 하고 있다.
특별히 표 5의 분류 1.2, 1.3.4를 이용하여 개최장소와 주소를 함께 추출할 수가 있다. 예를 들어, 표 6의 개최장소는 '울산광역시 울주군 상북면 등억리 27번지'라는 주소에 위치한 '먹고쉬었다가'라는 음식점이며, 표 5의 분류 1.2.1에 해당하는 예이다. 이처럼 개최장소의 주소를 함께 추출할 수 있는 경우는 아래dp 소개하는 Addr2Geocode API를 통하여 바로 지오코드를 얻을 수 있다.
지오코딩(Geocoding)이란, 토지 내 중심점의 지리적 좌표로서 토지를 구분하는 방법으로 특정지도 투영법에 의해 지표상의 위치를 X, Y 좌표로 나타내는 방법이다. 이를 표현하는 좌표계의 종류와 제정된 표준의 수는 상당히 다양하지만, WGS84, TM128등 몇 가지가 사실상 표준으로 채택되어 Google Maps, Naver 지도뿐 아니라 OpenStreetMap 등의 웹기반 지도서비스에서 사용되고 있다. 본 발명에서는 최근 가장 많이 사용되고 있는 WGS84를 사용한다. 개최장소를 Geocoding하는 방법은 크게 2가지로 나뉜다. 첫째는 주소정보가 포함되어 있는 경우로 Addr2Geocode API를 사용하며, 둘째는 주소정보가 포함되지 않은 경우로 외부 지리정보자원에 장소명으로 검색하는 방법이다. 주소의 Geocoding을 위하여 Daum에서 제공하는 Addr2Geocode API를 사용하였다. API의 입력은 번지를 포함하는 주소 문자열이며, 출력으로 해당주소의WGS84 경위도 좌표를 RSS/XML/JSON 형태로 반환한다.
본 발명에서 사용한 회의공지 이메일 말뭉치는 인터넷을 통하여 '공지'라는 검색어로, 1,011개의 이메일을 수집하였다. 3명의 서로 다른 어노테이터가 어노테이션 작업을 수행하였으며, 어노테이션 간 충돌이 발생하였을 경우에는 또 다른 컨쥬이게이터가 충돌 해소 작업을 진행하였다.
그 중에서 순서대로 선택된 555개의 문서에 대하여 LGG를 구축하여 실험을 진행하였다. 39개의 LGG가 작성되었으며, 그 중 7개는 개최장소와 주소를 함께 추출할 수 있는 형태이고 나머지 32개는 개최장소만을 대상으로 추출하는 형태이다.
표 6은 작성된 LGG를 적용하여 추출된 결과이다.
'Exact'는 어노테이션된 개최장소와 시스템이 추출한 개최장소가 완전히 일치한 결과이고, 'Contain'은 시스템이 추출한 결과가 어노테이션된 개최장소를 포함하는 경우의 결과이다. Exact, Contain에 대하여 각각 93.41%, 99.41%의 높은 Recall을 보였으나 Precision에 대하여는 82.11%, 87.39%로 상대적으로 낮은 수치를 보였다.
Precision이 낮은 원인으로는 LGG가 지나치게 일반화된 경우, 조사가 개최장소 뒤에 붙어있는 경우 등을 찾을 수 있었다. 특별히, 조사가 분리된 명사를 분석하기 위하여 필요한 한국어 사전이 UNITEX에서 요구하는 방식으로 구현되어야 한다. 하지만, 라이센스의 문제로 인하여 사용이 어렵기 때문에 조사가 개최장소 뒤에 붙어 있는 경우는 후처리를 통하여 조사를 제거해주는 방법이 추가되어야 한다.
또한, 표 7은 개최장소-주소를 함께 추출 가능한 경우의 패턴을 적용하여 추출된 결과를 보여준다. 번지수를 포함한 주소를 대상으로 하였기 때문에 그 수가 많지 않다. 19개 중 10개만이 개최장소와 주소가 함께 인식되었는데 에러를 분석하여 보면, 주소와 개최장소의 문서내 위치가 상당히 떨어져 있어 Local-Grammar만으로는 처리가 어려운 경우들이었다.
555개의 이메일에 포함된 개최장소를 추출하기 위하여 39개의 패턴만이 사용되어 Exact, Contain 일치에 대하여 각각 F-measure 87.40%, 93.01%의 높은 추출 성능을 보였다. 세밀한 일반화 및 후처리 작업 등을 통하여 Precision이 더 상승할 수 있을 것으로 기대한다. 또한, 이러한 어휘-통사론적 분석 결과는 추후 다른 방법론을 적용하기 위한 근거자료로써 활용도 가능할 것으로 예상한다.
Claims (7)
- 다음의 단계를 포함하는 것을 특징으로 하는 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법:
텍스트에서 장소 주변의 어휘-동사적 언어 정보를 분석함으로써 LGG를 구축하는 단계;
상기 LGG로부터 유한상태 변환기를 얻는 단계; 및
상기 변환기를 이용하여 지오코드를 얻는 단계.
- 제 1 항에 있어서,
상기 LGG는 유니텍스(UNITEX) 파서(Parser)로 작성하는 것을 포함하는 것을 특징으로 하는 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법.
- 제 1 항에 있어서,
상기 LGG는 수집되는 텍스트 말뭉치에 나타난 장소 주변 정보의 패턴을 귀납적으로 검토하여 어휘-동사적으로 기술하는 것을 포함하는 것을 특징으로 하는 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법.
- 제 1 항에 있어서,
상기 지오코드를 얻는 단계에서 WGS84 좌표계를 이용하는 것을 포함하는 것을 특징으로 하는 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법.
- 제 1 항에 있어서,
상기 지오코드를 얻는 단계는 Addr2Geocode API를 사용하는 것을 포함하는 것을 특징으로 하는 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법.
- 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 시스템에 있어서,
텍스트에서 장소 주변의 어휘-동사적 언어 정보를 분석함으로써 LGG를 구축하는 모듈;
상기 LGG로부터 유한상태 변환기를 얻는 모듈계; 및
상기 변환기를 이용하여 지오코드를 얻는 모듈을 포함하는 것을 특징으로 하는 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 시스템.
- 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 프로그램이 저장된 매체에 있어서,
텍스트에서 장소 주변의 어휘-동사적 언어 정보를 분석함으로써 LGG를 구축하는 프로그램;
상기 LGG로부터 유한상태 변환기를 얻는 프로그램; 및
상기 변환기를 이용하여 지오코드를 얻는 프로그램을 포함하는 것을 특징으로 하는 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 시스템
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130009773A KR20140097701A (ko) | 2013-01-29 | 2013-01-29 | 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130009773A KR20140097701A (ko) | 2013-01-29 | 2013-01-29 | 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법 및 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20140097701A true KR20140097701A (ko) | 2014-08-07 |
Family
ID=51744839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130009773A KR20140097701A (ko) | 2013-01-29 | 2013-01-29 | 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20140097701A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016117738A1 (ko) * | 2015-01-21 | 2016-07-28 | ㈜리얼타임테크 | 실내외 연속 지오코딩 장치 및 그 방법 |
-
2013
- 2013-01-29 KR KR1020130009773A patent/KR20140097701A/ko not_active Application Discontinuation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016117738A1 (ko) * | 2015-01-21 | 2016-07-28 | ㈜리얼타임테크 | 실내외 연속 지오코딩 장치 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hill | Core elements of digital gazetteers: placenames, categories, and footprints | |
Punjani et al. | Template-based question answering over linked geospatial data | |
CN110555153A (zh) | 一种基于领域知识图谱的问答系统及其构建方法 | |
CN109657068B (zh) | 面向智慧博物馆的文物知识图谱生成与可视化方法 | |
JP5064388B2 (ja) | 位置識別方法 | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
JP2022532451A (ja) | 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法 | |
CN110298039B (zh) | 事件地的识别方法、系统、设备及计算机可读存储介质 | |
Fuadvy et al. | Multilingual sentiment analysis on social media disaster data | |
Laparra et al. | A dataset and evaluation framework for complex geographical description parsing | |
Moncla et al. | Mapping urban fingerprints of odonyms automatically extracted from French novels | |
Kim et al. | Harvesting large corpora for generating place graphs | |
Rice et al. | Integrating user-contributed geospatial data with assistive geotechnology using a localized gazetteer | |
Kayed et al. | Postal address extraction from the web: a comprehensive survey | |
Abascal-Mena et al. | Geo information extraction and processing from travel narratives. | |
CN105022728A (zh) | 汉老双语平行语料自动采集的系统及实现方法 | |
KR20140097701A (ko) | 텍스트 개체로 표현된 장소의 지리적 위치를 찾는 방법 및 시스템 | |
Schindling et al. | Deepening historical GIS: an integrated database solution for linking people, place and events through unstructured text | |
Mehta et al. | Natural Language processing approach and geospatial clustering to explore the unexplored geotags using media | |
Liu et al. | Construction of a high-precision general geographical location words dataset | |
Kim et al. | POI GPT: Extracting POI Information from Social Media Text Data | |
Frontini et al. | Annotation of toponyms in TEI digital literary editions and linking to the web of data | |
Harper et al. | From text to map: Combing named entity recognition and geographic information systems | |
Yadav et al. | An approach for spatial search using SOLR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |