KR101258174B1

KR101258174B1 - 자동 인코딩 탐지 시스템

Info

Publication number: KR101258174B1
Application number: KR1020110058954A
Authority: KR
Inventors: 한정희; 이인복
Original assignee: 한국항공대학교산학협력단
Priority date: 2011-06-17
Filing date: 2011-06-17
Publication date: 2013-04-25
Also published as: KR20120139250A

Abstract

본 발명은 여러 가지 언어로 기록된 정보를 검색 시, 타겟 데이터가 어떤 언어 및 인코딩 방식으로 작성되었는지를 자동 탐색하는 자동 인코딩 탐지 시스템에 관한 것으로, 본 발명에 따른 자동 인코딩 탐지 시스템은 각 인코딩 방식별 문자의 사용 빈도에 따른 모습(behavior) 형태를 분석하는 인코딩모습분석모듈부 및 상기 인코딩모습분석모듈부와 연결되어, 타겟데이터입력부에서 입력되는 타겟 데이터의 모습 형태에 따라 인코딩 방식을 탐지하는 인코딩탐지모듈부를 포함하는 것을 기술적 특징으로 한다.

Description

자동 인코딩 탐지 시스템{Automatic encoding detection system}

본 발명은 자동 인코딩 탐지 시스템에 관한 것으로, 더 자세히는 여러 가지 언어로 기록된 정보를 검색 시, 타겟 데이터가 어떤 언어 및 인코딩 방식으로 작성되었는지를 자동 탐색하는 자동 인코딩 탐지 시스템에 관한 것이다.

일반적으로 글로벌 정보 검색을 위해서는 단일 언어가 아닌 여러 가지 언어로 기록된 정보를 검색해야 하며, 검색 결과를 표시하기 위해서는 자동 언어 번역 작업이 요구된다.

이러한 자동 언어 번역은 언어 탐색(language detection)기능으로 수행되는데, 타겟 정보가 어떤 언어로 작성되었는지를 탐색하여, 개인화 및 컨텐츠 기반의 정보 검색 수행이 가능하게 한다.

종래 언어 탐지의 일예로는 구글(google)에서 제공하는 language-detect API(Application Programming Interface)를 들 수 있는데, 이러한 종래 language-detect API는 컨텐츠 위주 및 개인화된 정보 검색을 수행하는데 제약이 따른다.

즉, 현재 구글 언어 탐지 API에서는 윈도우즈(windows) 시스템에서 디폴트(default)로 사용하는 인코딩 방식을 기반으로 하여, 언어 탐지를 수행하기 때문에 탐지하고자하는 타겟 데이터 또는 문서가 해당 인코딩 방식이 아닌 다른 방식으로 인코딩되었을 경우, 언어 탐지를 수행하지 못하고, 언어 번역 또한 수행할 수 없는 문제점이 발생한다.

종래 문자 인코딩 방식의 문제점은 첫째, 인코딩 규격이 많이 존재한다는 점, 둘째, 인코딩 표준 규격이 존재할지라도, 웹서버 등의 콘텐츠 공급자가 해당 표준 규격을 따르지 않는다는 점에서 비롯된다.

이러한 문제를 해결하기 위해서, 웹서버에서 XML 또는 HTTP 헤더에 인코딩 정보를 명시적으로 보내주는 것을 권장하고 있으나, 이러한 인코딩 정보를 제공하는 것이 의무사항이 아니므로, 인코딩 방식을 알 수 없는 경우, 정보 검색이 원활하게 이루어지지 않는 문제점이 발생하는 것이다.

본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 제안된 것으로,

본 발명에 따른 자동 인코딩 탐지 시스템의 목적은 인코딩 방식별 문자 모습(behavior) 형태 정보를 이용하여, 타겟 데이터의 인코딩 방식을 탐지하여, 글로벌 정보 검색의 정확성을 높이는데 있다.

다른 목적은, 인코딩모습분석모듈부를 포함하여, 인코딩 방식별로 문자 사용 빈도수를 기반으로 클러스터를 형성하고, 클러스터링 정보를 저장하는데 있다.

또 다른 목적은, 특성클러스터링부를 포함하여, 인코딩 방식을 고려한 클러스터링을 수행하는데 있다.

또 다른 목적은, 아스키 바이트를 별도의 클러스터 그룹으로 형성하여, 클러스터링의 정확성을 향상시키는데 있다.

또 다른 목적은, 인코딩 방식별로 두 개 이상의 클러스터 세트를 형성하여, 인코딩 방식 탐지의 정확성을 향상시키는데 있다.

또 다른 목적은, 연관성분석부를 포함하여, 타겟 데이터의 클러스터 모습과 유사정도를 나타내는 연관값을 산출하여, 인코딩 방식을 탐지하는데 있다.

또 다른 목적은, 프로파일분석부를 더 포함하여, 정보 근원지 국가를 탐지하여, 인코딩 방식의 탐지 우선순위를 부여하는데 있다.

본 발명에 따른 자동 인코딩 탐지 시스템은 인코딩 방식별로 문자의 사용 빈도에 따른 분산 형태인 모습(behavior) 형태를 분석하는 인코딩모습분석모듈부 및 상기 인코딩모습분석모듈부와 연결되어, 타겟데이터입력부에서 입력되는 타겟 데이터의 모습 형태에 따라 인코딩 방식을 탐지하는 인코딩탐지모듈부를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 자동 인코딩 탐지 시스템의 인코딩모습분석모듈부는 인코딩 방식별로 문자의 모습 형태를 분석할 학습데이터를 입력하는 학습데이터입력부, 상기 학습데이터입력부와 연결되어, 문자별 사용 횟수 분포를 산출하는 특성분산부, 상기 특성분산부와 연결되어, 상기 문자별 사용 횟수 분포를 인접 특성에 따라 적어도 하나 이상의 클러스터(cluster)를 형성하는 특성클러스터링부 및 상기 특성클러스터링부와 연결되어, 인코딩 방식별로 상기 클러스터 정보를 저장하는 클러스터링정보저장부를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 자동 인코딩 탐지 시스템의 인코딩탐지모듈부는 상기 클러스터링정보저장부와 연결되어, 타겟데이터입력부에서 입력된 타겟데이터와 인코딩 방식별 클러스터링 정보의 연관값(correlation value)으로 타겟데이터의 인코딩 방식을 탐지하는 연관성분석부를 포함하는 것을 특징으로 한다.

또한, 본 발명에 따른 자동 인코딩 탐지 시스템은 연관성분석부와 연결되어, 웹서버 이름 및 IP 주소를 이용하여, 정보 근원지의 국가를 탐지하여, 인코딩 언어 방식을 예측하는 프로파일분석부를 더 포함하는 것을 특징으로 한다.

이상에서 설명한 바와 같이, 본 발명에 따른 자동 인코딩 탐지 시스템은 인코딩 방식별 문자 모습(behavior) 형태 정보를 이용하여, 타겟 데이터의 인코딩 방식을 탐지하여, 글로벌 정보 검색 결과를 정확하게 제공할 수 있으며, 더불어 정보 검색 결과의 효율성을 향상시킬 수 있는 효과가 있다.

또한, 인코딩모습분석모듈부를 포함함으로써, 인코딩 방식별로 문자 사용 빈도수를 기반으로 클러스터를 형성하고, 클러스터링 정보를 저장할 수 있는 효과가 있다.

또한, 특성클러스터링부를 포함하여, 인코딩 방식을 고려한 정교화된 문자 클러스터링을 수행할 수 있는 효과가 있다.

또한, 아스키 바이트를 별도의 클러스터 그룹으로 형성함으로써, 문자 클러스터링의 정확성을 향상시킬 수 있는 효과가 있다.

또한, 인코딩 방식별로 두 개 이상의 클러스터 세트를 형성함으로써, 인코딩 방식 탐지의 정확성을 향상시킬 수 있는 효과가 있다.

또한, 연관성분석부를 포함함으로써, 타겟 데이터의 클러스터 모습과 유사정도를 나타내는 연관값을 산출하여, 인코딩 방식을 신속하게 탐지할 수 있는 효과가 있다.

또한, 프로파일분석부를 더 포함함으로써, 정보 근원지 국가를 탐지하여, 인코딩 방식의 탐지 우선순위를 부여하여, 인코딩 방식 탐지 작업의 효율을 향상시킬 수 있는 효과가 있다.

도 1은 본 발명에 따른 자동 인코딩 탐지 시스템의 전체 구성도.
도 2는 본 발명에 따른 자동 인코딩 탐지 시스템의 특성클러스터링부의 문자 클러스터링 방식에 관한 실시예를 나타내는 그래프.
도 3은 본 발명에 따른 자동 인코딩 탐지 시스템의 연관성분석부의 연관값을 분석하는 실시예를 나타내는 그래프.
도 4는 본 발명에 따른 자동 인코딩 탐지 시스템의 프로파일분석부 동작을 나타내는 일실시예.

이하, 본 발명에 따른 자동 인코딩 탐지 시스템을 실시하기 위한 구체적인 내용을 설명하면 다음과 같다.

[도 1]은 본 발명에 따른 자동 인코딩 탐지 시스템의 전체 구성을 나타내는 도면으로, 크게 인코딩모습분석모듈부(10), 타겟데이터입력부(20) 및 인코딩탐지모듈부(30)를 포함한다.

상기 인코딩모습분석모듈부(10)는 각 인코딩 방식별 문자의 사용 빈도에 따른 모습(behavior) 형태를 분석하는 역할을 하며, 학습데이터입력부(11), 특성분산부(13), 특성클러스터링부(15) 및 클러스터링정보저장부(17)를 포함한다. 여기서 모습 형태는 인코딩 방식별로 문자의 사용 빈도에 따른 분산 형태 또는 사용빈도가 비슷한 문자별로 형성되는 클러스터링을 의미한다.

상기 학습데이터입력부(11)는 인코딩 방식별로 문자의 모습 형태를 분석할 학습데이터(learning data)를 입력하는 역할을 하며, 입력된 상기 학습데이터는 상기 특성분산부(13)에 전달된다.

상기 특성분산부(13)는 상기 학습데이터입력부(11)와 연결되어, 문자별 사용 횟수 분포를 산출하는 역할을 한다.

즉, [도 2]에 도시된 바와 같이, 사용 문자를 x축으로 하고, 사용 빈도를 y축으로 통계적으로 분석하여, 해당 빈도수의 사용 빈도에 관하여, 모습(behavior)을 정의하는 것이다.

이렇게 특성분산부(13)에서 분석된 문자별 사용 횟수 분포 정보는 상기 특성클러스터링부(15)에 전달된다.

상기 특성클러스터링부(15)는 상기 특성분산부(13)와 연결되어, 상기 문자별 사용 횟수 분포를 인접 특성에 따라 적어도 하나 이상의 클러스터(cluster)를 형성하는 역할을 한다.

일반적으로 인코딩 방식에 있어, 1byte에 기반으로 하는 방식이 있으며, 2바이트로 구성되는 방식이 있음에 따라 본 발명에 따른 클러스터링은 각각의 인코딩 바이트 사이즈에 대하여, 각각 클러스터링을 수행하며, 크게 두 가지로 구분된다.

첫째, 바이트별 클러스터링 방식으로 첫 번째 바이트와 두 번째 바이트를 구분하지 않는 방식이며, 둘째, two-byte 클러스터링 방식으로, 첫 번째 바이트와 두 번째 바이트를 분리하여, 각각의 클러스터링 프로파일(profile) 정보를 생성하는 방식으로 구분된다.

이때, 본 발명에 따른 클러스터링에 있어, 스페이스나 문장기호와 같은 아스키 1바이트로 이루어진 경우에 대해서는 이를 필터링하여, 별도의 클러스터 그룹으로 생성하는 것이 바람직하다.

즉, 학습 데이터의 경우, 해당 인코딩 방식을 이미 인식한 상황이므로 이러한 클러스터 그룹생성이 가능한 것이다.

또한, 본 발명에 따른 문자 클러스터링은 K-means알고리즘을 이용하되, 클러스터 seed 개수의 종류를 여러 개의 세트로 수행하여, 그 결과로 산출된 클러스터링 정보에 대하여, 학습데이터를 이용하여, 테스트를 하게 된다.

일반적으로 k-means 알고리즘은 n개의 객체들의 집합을 k개의 클러스터로 분해하는 것으로, 클러스터 유사성은 클러스터의 무게중심으로 볼 수 있는 객체의 평균값을 측정하는 것으로 도출된다.

상세하게 말하자면 상기 특성클러스터링부(15)에서 산출된 클러스터링 프로파일에 대해 테스트 시, 연관값(correlation value)이 특정 임계값을 넘을 경우, 해당 프로파일은 유효한 프로파일 정보로 인코딩 모습 자료로 저장하게 되는 것이다.

즉, 본 발명에 있어, 하나의 인코딩 방식에 대해 1개 이상의 클러스터링 이 존재함에 따라 인코딩 탐지 오류를 줄일 수 있는 장점이 있는 것이다.

즉, 인코딩 방식별로 두 개 이상의 클러스터 세트를 형성함으로써, 인코딩 방식 탐지의 정확성을 향상시킬 수 있는 것이다.

상기 클러스터링정보저장부(17)는 상기 특성클러스터링부(15)와 연결되어, 인코딩 방식별로 상기 클러스터 정보를 저장하는 역할을 한다.

상기 타겟데이터입력부(20)는 탐지하고자 하는 문자 정보 및 문서 정보인 타겟 데이터(target data)를 입력하는 역할을 하며, 입력된 타겟데이터는 상기 인코딩탐지모듈부(30)에 전달된다.

상기 인코딩탐지모듈부(30)는 상기 인코딩모습분석모듈부(10) 및 타겟데이터입력부(20)와 연결되어, 상기 타겟데이터입력부(20)에서 입력되는 타겟 데이터의 모습 형태에 따라 인코딩 방식을 탐지하는 역할을 하며, 본 발명에 따른 상기 인코딩탐지모듈부(30)는 연관성분석부(31) 및 프로파일분석부(33)를 포함한다.

상기 연관성분석부(31)는 상기 클러스터링정보저장부와 연결되어, 타겟데이터입력부에서 입력된 타겟데이터와 인코딩 방식별 클러스터링 정보의 연관값(correlation value)으로 타겟데이터의 인코딩 방식을 탐지하는 역할을 한다.

[도 3]은 본 발명에 따른 연관성분석부(31)의 연관값을 분석하는 실시예를 나타내는 그래프로, 타겟 데이터에 대해 클러스터별 문자 모습을 산출하며, 이러한 타겟 데이터 모습을 여러 가지 인코팅 표준 모습과 비교하여, 가장 큰 연관값을 갖는 인코딩 방식을 탐지하는 것이다.

상기 프로파일분석부(33)는 상기 연관성분석부(31)와 연결되어, 웹서버 이름 및 IP 주소를 이용하여, 정보 근원지의 국가를 탐지하여, 인코딩 언어 방식을 예측하는 역할을 한다.

본 발명에 따른 상기 프로파일분석부(33)는 일반적으로 정보 검색은 웹 서치(web search)를 기반으로 이루어지며, 해당 웹 서버(web server)에서 제공되는 컨텐츠는 웹 서버가 위치한 국가의 언어로 작성되었을 가능성이 매우 크다는 점을 기반으로 하며, 이러한 상기 프로파일분석부(33)를 포함함으로써, 인코딩 방식 탐지의 정확성 및 속도를 향상할 수 있는 것이다.

예를 들어, 한국의 포털 업체인 네이버(naver)의 경우, 주 서버가 한국에 위치하고 있으며, 제공하는 컨텐츠 역시 한국어로 되어 있다. 또한, 글로벌 검색사이트인 구글(google)의 경우, 웹 서버가 각 국가에 위치하고 있어 해당 국가의 언어로 컨텐츠를 제공한다.

즉, 한국에서 접근하고자하면 한국의 구글 서버에 접근하게 되며 한국어가 메인으로 된 컨텐츠를 제공받게 되는 것이다. 또한 미국에서 구글서버에 접근하게 될 경우, 미국에 위치한 서버에 접근하여, 영어로 작성된 컨텐츠를 제공받게 되는 것이다.

따라서 웹 서버가 위치한 국가를 탐지할 경우, 인코딩 방식을 탐지하는데 있어 정확도를 향상시킬 수 있는 것이다.

이러한 상기 프로파일분석부(33)의 동작을 설명하면 다음과 같다.

[도 4]는 본 발명에 따른 상기 프로파일분석부(33)의 동작을 나타내는 일실시예로, 먼저, 클라이이언트 호스트 웹 브라우저 상에 입력된 웹서버의 이름인 www.kau.ac.kr 추출하는 단계를 수행하고, 해당 웹 서버의 이름에 해당하는 IP 주소를 탐색하는 단계를 수행한다.

본 발명의 실시예에서 상기 IP 주소를 탐색 시, DNS lookup을 사용하는데, 해당 클라이언트에 등록된 DNS 서버를 이용하며, 그 결과 201.119.24.7의 IP 주소를 탐색하였다.

다음으로, 상기 IP 주소가 등록된 국가 정보를 획득하는 단계를 수행하며, 이를 위해서 ARIN(American Registry for Internet Numbers), APNIC(Asia-Pacific Network Information Center), LAPNIC(Latin America Network Information Center)등과 같은 인터넷 레지스트리(internet registries)를 관리하는 시스템에 접근한다.

이와 같은 방법으로 항공대학교의 서버의 위치가 한국이며, 이러한 국가 정보를 이용하여, 항공대학교 서버가 제공하는 컨텐츠가 very likely 한국어로 되어있음을 예측할 수 있으며, 이러한 정보를 인코딩 방식을 탐지하는데 메타 정보로 사용하여, 인코딩 탐지의 정확성과 속도를 향상시킬 수 있는 것이다.

이상에서 설명한 바와 같이, 본 발명에 따른 자동 인코딩 탐지 시스템을 적용하면, 인코딩 방식별 문자 모습(behavior) 형태 정보를 이용하여, 타겟 데이터의 인코딩 방식을 탐지하여, 글로벌 정보 검색 결과를 정확하게 제공할 수 있는 효과를 누릴 수 있으며, 나아가 정보 검색 제공의 효율성을 향상시킬 수 있는 효과를 누릴 수 있는 것이다.

이상 본 발명의 실시예로 설명하였으나 본 발명의 기술적 사상이 상기 실시예로 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범주에서 다양한 자동 인코딩 탐지 시스템으로 구현할 수 있다.

10 : 인코딩모스분석모듈부
11 : 학습데이터입력부
13 : 특성분산부
15 : 특성클러스터링부
16 : 클러스터링정보저장부
20 : 타겟데이터입력부
30 : 인코딩탐지모듈부
31 : 연관성분석부
33 : 프로파일분석부

Claims

인코딩 방식별로 문자의 사용 빈도에 따른 분산 형태인 모습(behavior) 형태를 분석하는 인코딩모습분석모듈부 및
상기 인코딩모습분석모듈부와 연결되어, 타겟데이터입력부에서 입력되는 타겟 데이터의 모습 형태에 따라 인코딩 방식을 탐지하는 인코딩탐지모듈부를 포함하고,
상기 인코딩모습분석모듈부는,
인코딩 방식별로 문자의 모습 형태를 분석할 학습데이터를 입력하는 학습데이터입력부;
상기 학습데이터입력부와 연결되어, 문자별 사용 횟수 분포를 산출하는 특성분산부;
상기 특성분산부와 연결되어, 상기 문자별 사용 횟수 분포를 인접 특성에 따라 적어도 하나 이상의 클러스터(cluster)를 형성하는 특성클러스터링부 및
상기 특성클러스터링부와 연결되어, 인코딩 방식별로 상기 클러스터 정보를 저장하는 클러스터링정보저장부를 이용하여 모습 형태를 분석하는 것을 특징으로 하는 자동 인코딩 탐지 시스템.
삭제
제1항에 있어서,
상기 특성클러스터링부는,
인코딩 바이트(byte)에 대해, 첫 번째 바이트와 두 번째 바이트의 구별 없이 클러스터링을 수행하거나,
상기 인코딩 바이트의 첫 번째 바이트와 두 번째 바이트를 분리하여 각각의 클러스터링 정보를 생성하는 것을 특징으로 하는 자동 인코딩 탐지 시스템.
제3항에 있어서,
상기 특성클러스터링부는,
스페이스(space)나 문자 기호와 같은 아스키 바이트를 별도의 클러스터 그룹으로 형성하는 것을 특징으로 하는 자동 인코딩 탐지 시스템.
제1항에 있어서,
상기 특성클러스터링부는,
각 인코딩 방식별로 적어도 두 개 이상의 클러스터 세트를 형성하는 것을 특징으로 하는 자동 인코딩 탐지 시스템.
제1항에 있어서,
상기 인코딩탐지모듈부는,
상기 클러스터링정보저장부와 연결되어, 타겟데이터입력부에서 입력된 타겟데이터와 인코딩 방식별 클러스터링 정보의 연관값(correlation value)으로 타겟데이터의 인코딩 방식을 탐지하는 연관성분석부를 포함하는 것을 특징으로 하는 자동 인코딩 탐지 시스템.
제6항에 있어서,
상기 연관성분석부와 연결되어, 웹서버 이름 및 IP 주소를 이용하여, 정보근원지의 국가를 탐지하여, 인코딩 언어 방식을 예측하는 프로파일분석부를 더 포함하는 것을 특징으로 하는 자동 인코딩 탐지 시스템.