KR101289082B1

KR101289082B1 - 지역 정보 서비스 제공 시스템 및 그 방법

Info

Publication number: KR101289082B1
Application number: KR1020090082619A
Authority: KR
Inventors: 허정
Original assignee: 한국전자통신연구원
Priority date: 2009-09-02
Filing date: 2009-09-02
Publication date: 2013-07-22
Also published as: KR20110024571A

Abstract

본 발명은 문서로부터 추출된 지역 정보 어휘들 주소 계층 구조를 기반으로 불필요한 지역 정보를 필터링하고, 모호성이 있는 제 1 지역 정보 어휘들은 연관성 있는 다른 제 2 지역 정보 어휘를 이용하여 모호성이 해소된 최종 지역 정보를 제공한다.

POI(Point Of Interest), 지역 정보 어휘 추출, 지역 정보 모호성 해소, 지역 정보 필터링

Description

지역 정보 서비스 제공 시스템 및 그 방법{SYSTEM AND METHOD FOR PROVIDING AREA INFORMATION SERVICE}

본 발명은 지역 정보 서비스 제공 시스템 및 그 방법에 관한 것으로서, 구체적으로 모호성이 해소된 지역 정보를 사용자에게 제공하는 지역 정보 서비스 제공 시스템 및 그 방법에 관한 것이다.

본 발명은 지식경제부 IT성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-020-02, 과제명: 웹 QA 기술개발].

웹 기술과 전자 기술의 발전으로 인해, 지역 정보를 활용한 다양한 서비스가 생성되고 있다. 지역 정보와 관련된 대표적인 서비스의 예는 웹 문서들을 지역 정보에 기반하여 그룹핑하고, 이를 브라우징할 수 있도록 사용자에게 제공해주는 다양한 웹 서비스가 있다. 예컨대, 맛집, 여행, 지역 도메인에 대한 버티컬 검색 서비스의 경우, 지역별로 다양한 정보가 그룹핑되어 제공되고 있다.

그러나, 기존에서는 해당 문서들을 그룹핑하기 위해서 수작업에 의존하는 경우가 많다. 또한, 그룹핑된 지역 정보 기반 문서들의 양이 기하급수적으로 증가함에 따라 사용자가 입력한 키워드와 정확히 매칭되는 문서 외에는 검색의 성공률이 낮다.

최근 지리 정보 시스템(Geographic Information System: GIS)의 눈부신 발전은 우리의 삶에 있어 많은 변화를 불러 일으키고 있다. 예를 들어, 장거리 여행 시, 사용자는 차량용 네비게이션을 준비할 것이다.

그러나, 기존의 네비게이션은, 목적지 검색 시, 사용자가 입력한 목적지에 대한 어휘와 정확히 일치하는 지명만을 검색한다. 또한 상기 목적지와 정확히 일치하지 않는 모호한 지명을 입력하는 경우, 많은 검색된 결과들을 제시한다. 이에 따라 검색된 결과들 중 사용자가 원하는 목적지를 찾아야 하는 번거로움이 존재했다.

따라서 본 발명의 목적은 모호성이 해소된 지역 정보를 사용자에게 서비스하는 지역 정보 서비스 제공 방법을 제공하는 데 있다.

본 발명의 다른 목적은 상기 지역 정보 서비스 제공 방법을 이용한 지역 정보 서비스 제공 시스템을 제공하는 데 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 지역 정보 서비스 제공 방법은 문서나 질의에 포함된 제 1 및 제 2 지역 정보 어휘를 포함하는 지역 정보 어휘를 추출하는 단계와, 기 구축된 사전 데이터베이스를 참조하여, 상기 추출된 제 1 지역 정보 어휘에 대응하는 제 1 주소 체계 코드 및 상기 인식된 제 2 지역 정보 어휘에 대응하는 제 2 주소 체계 코드를 획득하는 단계와, 상기 제 1 주소 체계 코드의 계층 구조와 제 2 주소 체계 코드의 계층 구조를 비교하는 단계 및 상기 계층 구조의 비교 결과에 따라 상기 제 1 및 제 2 지역 정보 어휘 간의 모호성이 해소된 지역 정보를 제공하는 단계를 포함한다.

상기와 같은 다른 목적을 달성하기 위한 본 발명의 지역 정보 서비스 제공 시스템은, 개체명 태그에 근거하여 제 1 및 제 2 지역 정보 어휘를 추출하는 어휘 추출부와, 기 구축된 사전 데이터베이스를 참조하여, 상기 추출된 제 1 지역 정보 어휘에 대응하는 제 1 주소 체계 코드들 및 상기 인식된 제 2 지역 정보 어휘에 대응하는 제 2 주소 체계 코드들을 획득하는 어휘 검색부와, 상기 복수의 제 1 및 제 2 주소 체계 코드를 계층 구조별로 정렬하는 계층 구조 정렬부와, 상기 정렬된 복수의 제 1 주소 체계 코드와 복수의 제 2 주소 체계 코드 간의 코드 패턴을 비교하여, 상기 제 1 및 제 2 지역 정보 어휘 간의 모호성을 판별하는 모호성 판별부 및 상기 코드 패턴이 유사한 제 1 및 제 2 주소 체계 코드를 이용하여 모호성이 해소된 최종 지역 정보를 제공하고, 상기 코드 패턴이 일치하지 못한 나머지 제 1 및 제 2 주소 체계 코드들은 제거하는 필터링부를 포함한다.

본 발명에 의하면, 문자열 매칭 기반이 아닌 지역 정보 어휘들의 주소 체계 코드 간의 계층 구조에 근거하여 모호성이 해소된 지역정보를 제공한다. 따라서 목적지와 정확히 일치하지 않는 지명에 대해서도 모호성이 해소된 정확한 지역 정보를 제공할 수 있다.

지역 정보 어휘를 이용한 문서 그룹핑이나 검색에서, 기존 기술은 단순하게 어휘 매칭 정도만을 활용함으로써, 정확한 지역 정보를 기반으로 한 서비스 제공이 어렵다. 즉, 기존에는 문서나 질의에 출현하는 어휘들간의 문자열 매칭에 기반하여 정보를 제공함으로써, 모호성을 지닌 다양한 지역 정보들이 여과되지 않고 사용자에게 제공된다. 이런 기술적 한계로 인해, 지역 정보에 기반한 다양한 서비스 요구에 부응하지 못하는 측면이 있고, 사용자들은 원하는 유용한 정보를 얻고자 할 때, 많은 번거로움과 시간을 투자해야 한다. 따라서 이런 문제점을 해결하기 위해서는 문서와 질의에서 출현하는 지역 정보 어휘들의 특성 및 어휘들 간의 관계성을 파악 하여 정확한 지역 정보를 인식하는 과정이 필요하다.

본 발명은, 정확한 지역 정보를 인식하기 위해, 문서로부터 추출된 지역 정보 어휘들을 기반으로, 불필요한 지역 정보를 필터링하고, 모호성이 있는 지역 정보 어휘들은 다른 지역 정보 어휘를 이용하여 그 모호성을 해소한다.

구체적으로, 본 발명은 문서나 질의에 대해서 언어분석기술을 적용하여 태깅(tagging)된 개체명들 중, 지역 정보와 연관된 개체명을 인식하여 지역 정보 어휘들을 인식한다. 인식된 지역 정보 어휘들에 대해서는 사전에 구축된 주소 정보 및 POI(Point Of Interest) 정보 사전을 검색하여 해당 주소 체계 코드와 다양한 정보(GPS 정보, 날씨 코드 등)를 획득한다. 획득된 주소체계코드의 계층 구조 정보를 활용하여 지역 정보 어휘들 간의 계층 구조를 생성하고, 생성된 계층 구조를 기반으로 모호성을 해소한다. 이와 같이 본 발명은 주소체계가 지니고 있는 기본적인 구조를 활용한 규칙기반의 모호성 해소 기술로써, 기술적 이해가 쉽고 구현이 용이하여, 다양한 지역 정보 서비스 제공에 활용될 수 있다.

이하, 첨부된 도면을 참조하여, 본 발명의 바람직한 실시예에 대해 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 지역 정보 제공 시스템의 블록도이다.

도 1을 참조하면, 본 발명의 실시예에 따른 지역 정보 제공 시스템(500)은 모호성이 해소된 지역 정보를 사용자에게 제공한다. 이를 위하여, 지역 정보 제공 시스템(500)은 언어 분석부(10), 어휘 추출부(20), 어휘 검색부(30), 계층 구조 정렬부(40), 모호성 판별부(50) 및 필터링부(60)를 포함한다.

언어 분석부(10)는 문서나 질의를 구성하는 언어를 분석하는 언어 분석 과정을 수행한다. 언어 분석 과정은 형태소 분석 과정과 개체명 인식 과정으로 나뉠수 있다. 형태소 분석 과정과 개체명 인식 과정을 수행하기 위해, 상기 언어 분석부(10)와 연동하는 언어 분석 자원 DB(Database: 데이터베이스)(100)가 구비된다. 언어 분석 자원 DB(100)는 형태소 분석 사전 DB와 개체명 인식용 사전 DB로 나뉠 수 있다. 언어 분석부(10)는 형태소 분석 사전 DB를 참조하여 문서나 질의를 구성하는 언어에 포함된 형태소를 분석하고, 개체명 인식용 사전 DB를 참조하여 문서나 질의를 구성하는 언어에 포함된 개체명을 인식한다. 언어 분석부(10)는 분석된 형태소와 인식된 개체명에 근거하여 최종 언어 분석 결과를 출력한다.

어휘 추출부(20)는 언어 분석부(10)로부터의 언어 분석 결과에 기초하여, 상기 문서와 질의에 출현하는 지역 정보 어휘를 인식하고, 인식된 지역 정보 어휘를 추출한다. 지역 정보 어휘는 개체명 태그(tag)에 근거하여 인식된다. 지역 정보에 대응하는 개체명으로서, 장소(Location), 기관(Organization), 빌딩(Building) 등을 그 예로 들 수 있다. Location의 경우에는 '대전', '북한산', '여의도' 등을 예로 들 수 있고, Organization의 경우에는 'KBS', '한국전자통신연구원' 등을 예로 들 수 있다. 그리고, Building의 경우에는 '63빌딩', '교보빌딩', '한화콘도' 등을 예로 들수 있다.

어휘 추출부(20)는 개체명 태그를 기반으로 지역 정보 후보를 추출하기 위하여, 지역 정보 추출 규칙 DB(200)와 연동한다. 지역 정보 추출 규칙 DB(200)에는 정규 표현식으로 표현된 지역 정보 추출 규칙 정보가 구성된다.

어휘 추출부(20)에 의해 인식된 지역 정보 어휘는 크게 주소 체계에 해당하는 지역 정보 어휘와 관심 포인트(Point Of Interest: POI)로 언급되는 지역 정보 어휘로 구분할 수 있다. 주소체계에 해당하는 지역 정보 어휘는 주소를 언급하는 경우에 사용되는 어휘들로서, '서울', '종로구', '종로1가', '대치동' 등을 예로 들수 있다. POI로 언급되는 지역 정보 어휘는 특정한 지역을 대표하는 랜드마크와 같은 기관, 관광명소 및 건물들을 지칭하는 어휘들로서, '광화문', '강남역', '북한산' 을 예로 들 수 있다.

이처럼, 두 종류로 구분되는 지역 정보를 관리하기 위하여, 지역 정보 어휘 검색부(30)와 연동하는 주소 정보 사전 DB(300)와 POI 정보 사전 DB(400)가 구비된다.

지역 정보 어휘 검색부(30)은 주소 정보 사전 DB(300)와 POI 정보 사전 DB(400)를 조회하여, 상기 어휘 추출부(20)로부터의 추출된 지역 정보 후보 어휘들에 매칭되는 해당 지역 정보 어휘가 존재하는지 검색한다. 상기 DB들(300, 400)에 해당 지역 정보 어휘가 존재하는 경우, 관련된 다양한 정보들(주소 체계 코드 정보, GPS 정보, 날씨 코드 정보 등)을 가져온다. 해당 지역 정보 어휘가 존재하지 않는 경우, 해당 지역 정보 후보 어휘는 제거된다. 하나의 지역 정보 어휘에 대한 정보는 다양할 수 있으며, 이는 지역 정보 어휘가 높은 모호성을 내포하고 있음을 의미한다. 예를 들면, '광주'라는 지역 정보 어휘는 '경기도 광주시'와 '광주 광역시'를 모두 지칭할 수 있다. 이처럼 모호성이 있는 지역 정보 어휘들의 경우, 모든 정보를 사전 DB들(300, 400)로부터 가져온다.

계층 구조 정렬부(40)는 지역 정보 어휘 검색부(30)로부터 검색된 주소 체계의 계층 구조별로 분류된 지역 정보 어휘를 정렬한다. 예컨대, 입력이 대전 및 관편동인 경우, '대전'이란 지역 정보 어휘에 대응하는 모든 주소 체계 코드와 '관편동'이란 지역 정보 어휘에 대응하는 주소 체계 코드를 따로 분류하여, 정렬한다. 본 실시예에서는, 주소 체계 코드가 10자리 숫자로 자리별로 주소 체계의 계층적 관계성을 갖는다. 이에 대한 구체적인 설명은 도 3을 참조하여 설명하기로 한다. 다시 말해, 주소 체계에 해당하는 지역 정보 어휘에 대응하는 주소 체계 코드와 관심 포인트(Point Of Interest: POI)에 해당하는 지역 정보 어휘에 대응하는 주소 체계 코드를 따로 분류하여 정렬한다.

모호성 판별부(50)는 계층 구조별로 분류된 지역 정보 어휘들 간의 모호성을 해소한다. 예컨대, '대전'에 대응하는 모든 주소 체계 코드와 '관평동'에 대응하는 모든 주소 체계 코드 간의 패턴을 비교하여, 연관성 즉, 유사한 코드 패턴을 갖는 주소 체계 코드를 판별하고, 판별 결과를 필터링부(60)로 제공한다. 모호성을 해소하기 위해 사용되는 알고리즘은 도 4를 참조하여 상세히 설명하기로 한다.

필터링부(60)는 상기 계층 구조별로 분류된 모든 지역 정보 어휘들에 대응하는 주소 체계 코드들과 상기 판별 결과를 제공받고, 상기 판별 결과에 기초하여 상기 계층 구조별로 분류된 모든 지역 정보 어휘들 중 모호성이 해소된 지역 정보 어휘들에 대응하는 주소 체계 코드를 선별하고, 모호성이 해소되지 않은 불필요한 주소 체계 코드를 필터링(제거)한다. 예컨대, '광주'와 '조선대학교'라는 지역 정보 어휘가 공존한다면, '광주'라는 지역 정보 어휘는 '광주 광역시'로 선별된다. 따라 서, '경기도 광주시'에 대한 지역 정보 코드는 필터링된다. 지역 정보 필터링부(60)는 최종적으로 지역 정보의 모호성이 해소된 지역 정보 결과를 출력한다.

도 2는 도 1에 도시된 지역 정보 제공 시스템의 입출력 결과와 지역 정보의 계층 구조를 설명하기 위한 도면이다.

도 2를 참조하면, 입력값이 서울', '대전', '경복궁역', '관평동'인 경우, 지역 정보 제공 시스템(500)의 계층 구조 정렬부(40)에 의해 지역 정보 어휘들 간의 계층 구조(600)가 구성된다.

도 2의 윗쪽 우측에 나타나는 계층 구조를 보여주는 블록(600)에서, '서울'과 '경복궁역'은 서로 간의 모호성을 해소하는 계층 구조를 구성하고, '대전'과 '관평동'은 서로 간의 모호성을 해소하는 계층 구조를 구성한다. 여기서, 상기 블록(600) 내에 표시된 타원은 주소 정보를 의미하고, 직사각형은 POI 정보를 의미한다.

지역 정보 어휘 '대전'의 경우, 4가지의 정보 간에 모호성이 존재한다. '대전광역시', '강원도 강릉시 대전동', '경상북도 영천시 대전동', '전라남도 담양군 대전면' 중에서, 지역 정보 어휘 '관평동'이 모호성 해소의 단서로서, 지역 정보 어휘 '대전'은 '대전광역시'를 지칭하는 것으로 모호성을 해소 할 수 있다.

도 2에 도시된 바와 같이, '대전'의 주소 체계 코드(C1)은 "3000000000"이고, '관평동'의 주소 체계 코드(C2)는 "3020014600"으로 주소 체계상 서로 계층적인 관계에 있다는 것을 파악할 수 있다. 이렇게 모호성이 해소된 지역 정보 어휘의 계층 구조가 도 2의 맨 아래쪽 박스(700)에 표현되어 있다. 따라서, 본 실시예에 따른 지역 정보 제공 시스템은 '서울', '대전', '경복궁역', '관평동'으로 이루어진 입력에 대해 '서울특별시 종로구'와 '대전광역시 유성구 관평동'로 이루어진 결과를 출력하게 된다.

도 3은 본 발명의 실시예에 따른 주소 체계의 계층적 관계성을 갖는 지역 정보에 대응하는 주소 코드 체계를 설명하기 위한 도면이다.

도 3을 참조하면, 주소 코드 체계는 총 10 자리의 숫자가 할당될 수 있다.

10 자리의 숫자 중 최상위 두 자리는 광역권 지역을 나타내는 코드로서, '특별시', '광역시', '도'에 대한 코드이다.

그 다음 세 자리는 '시' '구' '군'을 나타내는 코드이다. 여기서, 일반 중소 도시들 중에 구가 있는 도시들이 있을 수 있다. 예를 들면, 청주시의 경우 '상당구'와 '흥덕구'가 있다. 이런 경우에는 세 자리 중 앞 두 자리는 시 코드이고, 나머지 한 자리는 구 코드이다.

그 다음 3자리는 '읍' '면' '동'을 나타내는 코드이다.

나머지 2자리는 '리'에 대한 코드이다. 지역 정보 주소 코드 체계의 예에서와 같이 '경기도'는 "4100000000"으로 앞 두 자리를 제외한 모든 자리가 0으로 채워진다.

반면, '경기도 가평군 가평읍'의 경우 "4182025000"으로 '경기도'를 의미하는 41과 '가평군'을 의미하는 "820", 마지막으로 '가평읍'을 의미하는 "250"으로 할당되며, '리'에 대응하는 코드는 "00"으로 할당된다.

도 4는 도 1에 도시된 모호성 판별부에서 사용되는 모호성 해소 알고리즘을 설명하기 위한 도면으로서, 규칙에 기반하고 있다.

도 4를 참조하면, 첫째, 도 1에 도시된 주소 정보 사전 DB(300)으로부터 지역 정보에 대한 주소 코드를 검색한다.

둘째, 주소 코드를 기반으로 주소 체계에 따른 계층구조를 생성한다.

셋째, 단말 코드에 해당하는 코드를 추출한다. 여기서, 단말 코드는 계층구조상에 하위 코드가 연결되지 않은 모든 주소 코드를 지칭한다. 단말 코드는 모호성 해소 대상이 되는 주소 코드 후보군이다.

넷째, 동일 지역을 언급하는 주소 정보들 간에 모호성을 해소한다. 예를 들면, 지역 정보 어휘 '계룡산'에 해당하는 주소 체계 코드는 "441500000"과 "4831000000"이다. 그리고, '경상남도 거제시'에 대한 주소 체계 코드가 "4831000000"이고, "충청남도 공주시"에 대한 주소 체계 코드가 "4415000000"이다. 만약, 지역 정보 어휘로 '계룡산'과 '공주'가 입력된 경우, 동일 지역을 언급하는 것이므로 '충청남도 공주시'로 모호성을 해소할 수 있다.

다섯째, 모호성이 해소된 후 불필요한 주소 체계 코드를 필터링 한다.

먼저, 단말 주소 코드들 중, 모호성 해소의 단서가 되는 어휘가 계층 구조상에 모두 존재하는 경우, 해당 단말 주소 코드만을 선택하고 모호성 단서에 해당하는 모든 지역 정보 어휘를 제거한다.

만약 앞서 언급된 바와 같이 모호성이 완벽하게 해소된 주소 체계 코드가 없는 경우(예를 들면, '대전광역시 유성구 관평동’을 언급하기 위해, '대전'과 '관평동'만 지역정보 어휘로 입력되었을 경우, 계층 구조상에서 '유성구'가 지역정보 어휘에서 빠져있으므로, 완벽하게 모호성을 해소했다고 보기 어렵다), 모호성 해소에 활용된 주소 체계 코드를 제외한 모든 주소 체계 코드는 제거된다.

마지막으로 모호성이 해소된 주소 체계 코드도 없고, 모호성 해소의 단서로 사용된 주소 체계 코드도 없는 경우, 모든 주소 체계 코드를 선택한다.

이상 설명한 바와 같이, 웹 환경의 발전으로 다양한 문서들이 웹상에 존재한다. 사용자가 원하는 정보를 웹에서 찾기 위해서는 검색과 브라우징 등 다양한 방법이 있으나, 최근 기하급수적으로 늘어난 정보를 대상으로 원하는 정보를 찾기란 쉽지 않다. 이에, 다양한 정보를 그 특성에 맞춰 분류하여 쉽게 사용자들이 정보에 접근할 수 있는 다양한 방안이 연구되고 있다. 이런 요구에 부합하기 위해서, 지역 정보와 관련된 다양한 도메인에서 지역 정보를 활용한 서비스 제공방법이 제안되고 있다. 대표적으로 맛집, 여행, 지역 정보 검색에서는 지역 정보 어휘가 상당히 중요하다. 해당 도메인과 관련된 문서들에 포함된 지역 정보 어휘들을 기반으로 문서를 지역별로 그룹핑할 수도 있으며, 특정 지역 정보 어휘와 함께 질의가 입력되었을 경우, 검색을 해당 지역에 대한 문서로 제약하여 검색할 수 있으므로, 사용자 만족도를 높일 수 있을 것이다. 즉, 지역 정보와 연관된 다양한 웹 서비스에서 본 발명은 유용하게 활용할 될 수 있다.

도 4는 도 1에 도시된 모호성 판별부에서 사용되는 모호성 해소 알고리즘을 설명하기 위한 도면이다.

Claims

문서나 질의에 포함된 제1 및 제2지역 정보 어휘를 포함하는 지역 정보 어휘를 추출하는 단계;

기 구축된 사전 데이터베이스를 참조하여, 추출된 상기 제1지역 정보 어휘에 대응하고 복수 개의 숫자가 할당되어 자리 수 별로 행정 지역을 나타내는 제1주소 체계 코드 및 인식된 제2지역 정보 어휘에 대응하는 제2주소 체계코드를 획득하는 단계;

상기 제1주소 체계 코드의 계층 구조와 제2주소 체계 코드의 계층 구조에서, 상기 제1주소 체계 코드의 코드 패턴과 상기 제2주소 체계 코드의 코드 패턴을 비교하는 단계; 및

상기 계층 구조의 비교 결과에 따라 상기 제1 및 제2지역 정보 어휘 간의 모호성이 해소된 지역 정보를 제공하는 단계를 포함하되,

상기 제1 및 제2주소 체계 코드 각각은 10자리의 숫자가 할당되고,

상기 10자리의 숫자는

광역권 지역을 나타내는 코드가 할당된 최상위 두 자리의 숫자;

'리'를 나타내는 코드가 할당된 최하위 두 자리의 숫자;

상기 최상위 두 자리의 숫자에 연속되고, '시', '구', '군'을 나타내는 코드가 할당된 세 자리의 숫자; 및

상기 최하위 두 자리의 숫자에 연속되고, '읍', '면', '동'을 나타내는 코드가 할당된 세 자리의 숫자를 포함하는 것

인 지역 정보 서비스 제공 방법.
제1항에 있어서, 상기 인식된 제2지역 정보 어휘는

주소 체계에 해당하는 지역 정보 어휘 및 특정 지역을 대표하는 관심 포인트(Point Of Interest: POI)에 해당하는 지역 정보 어휘를 포함하는 것

인 지역 정보 서비스 제공 방법.
제2항에 있어서, 상기 관심 포인트는 기관(Organization), 빌딩(Building), 지하철역, 관광 명소 중 적어도 하나를 포함하는 것

인 지역 정보 서비스 제공 방법.
삭제
삭제
제1항에 있어서, 적어도 상기 제 1 주소 체계 코드의 최상위 두 자리의 숫자와 상기 제 2 주소 체계 코드의 최상위 두 자리의 숫자가 동일한 경우,

상기 제 1 지역 정보 어휘와 상기 제 2 지역 정보 어휘는 모호성이 해소된 계층적 구조를 갖는 것인 지역 정보 서비스 제공 방법.
문서나 질의를 구성하는 언어를 형태소 분석 과정과 개체명 인식 과정을 이용하여 언어 분석하는 언어 분석부;

상기 언어 분석부로부터의 분석 결과 및 개체명 태그에 근거하여 제1 및 제2 지역 정보 어휘를 추출하는 어휘 추출부;

기 구축된 사전 데이터베이스를 참조하여, 상기 추출된 제1지역 정보 어휘에 대응하고 복수 개의 숫자가 할당되어 자리수 별로 행정지역을 나타내는 제1주소 체계 코드들 및 인식된 제2지역 정보 어휘에 대응하는 제2주소 체계 코드들을 획득하는 어휘 검색부;

상기 복수의 제1 및 제2주소 체계 코드를 계층 구조별로 정렬하는 계층 구조 정렬부;

상기 정렬된 복수의 제1주소 체계 코드와 복수의 제2주소 체계 코드 간의 코드 패턴을 비교하여, 상기 제1 및 제2주소 체계 코드 중 적어도 최상위 두 자리의 숫자가 동일한 지 여부를 이용하여 상기 제1 및 제2지역 정보 어휘 간의 모호성을 판별하는 모호성 판별부; 및

상기 코드 패턴이 유사한 제1 및 제2주소 체계 코드를 이용하여 모호성이 해소된 최종 지역 정보를 제공하고, 상기 코드 패턴이 유사하지 못한 나머지 제1 및 제2주소 체계 코드들을 제거하는 필터링부

를 포함하되,

상기 제1 및 제2주소 체계 코드 각각은 10자리의 숫자가 할당되고,

상기 10자리의 숫자는

광역권 지역을 나타내는 코드가 할당된 최상위 두 자리의 숫자;

'리'를 나타내는 코드가 할당된 최하위 두 자리의 숫자;

상기 최상위 두 자리의 숫자에 연속되고, '시', '구', '군'을 나타내는 코드가 할당된 세 자리의 숫자; 및

상기 최하위 두 자리의 숫자에 연속되고, '읍', '면', '동'을 나타내는 코드가 할당된 세 자리의 숫자를 포함하는 것

인 지역 정보 서비스 제공 시스템.
제7항에 있어서, 상기 어휘 추출부는,

주소 체계에 해당하는 상기 제 1 지역 정보 어휘 및 특정 지역을 대표하는 관심 포인트에 해당하는 상기 제 2 지역 정보 어휘를 추출하는 것인 지역 정보 서 비스 제공 시스템.
제7항에 있어서, 상기 어휘 검색부는 주소 정보 사전 데이터베이스와 관심 포인트 정보 사전 데이터베이스를 포함하는 상기 기 구축된 사전 데이터베이스와 연동하고, 상기 주소 정보 사전 데이터베이스를 참조하여 상기 제 1 주소 체계 코드를 획득하고, 상기 관심 포인트 정보 사전 데이터베이스를 참조하여 상기 제 2 주소 체계 코드를 획득하는 것인 지역 정보 제공 시스템.
제9항에 있어서, 상기 모호성 판별부는,

상기 복수의 제 1 주소 체계 코드의 상위 코드 패턴과 상기 복수의 제 2 주소 체계 코드의 상위 코드 패턴을 비교하는 것인 지역 정보 서비스 제공 시스템.