KR20120065761A

KR20120065761A - 엠아이엠이(ｍｉｍｅ)유형 검출을 통한 수집 대상 유알아이(ｕｒｉ) 분석 장치 및 방법

Info

Publication number: KR20120065761A
Application number: KR1020100127048A
Authority: KR
Inventors: 정준선
Original assignee: 대한민국(국가기록원)
Priority date: 2010-12-13
Filing date: 2010-12-13
Publication date: 2012-06-21

Abstract

본 발명은 분석대상 웹기록물의 MIME 정보를 확인하여 해당 웹기록물의 MIME정보가 이미지나 동영상등과 같이 실제 대상 URI를 분석 할 수 있는 추출기가 포함되어 있는 경우에만 해당 정보를 추출모듈에 전달하여 분석을 통해 다음 수집 대상 URI를 추출하게 함으로써 분석 불가능한 정보를 분석함에 소요되는 시간을 절약할 수 있게 한 MIME 유형 검출을 통한 수집 대상 URI 분석 방법에 관한 것이다.

Description

엠아이엠이(ＭＩＭＥ)유형 검출을 통한 수집 대상 유알아이(ＵＲＩ) 분석 장치 및 방법{collecting object URI analysing devices and methods using the MIME type detection}

본 발명은 MIME(Multipurpose Internet Mail Extensions ; 이하, MIME 이라 약칭함) 유형 검출을 통한 수집 대상 URI 분석 장치 및 방법에 관한 것으로써, 상세하게는 분석대상 웹기록물의 MIME 정보를 확인하여 해당 웹기록물의 MIME정보가 이미지나 동영상등과 같이 실제 대상 URI를 분석 할 수 있는 추출기가 포함되어 있는 경우에만 해당 정보를 추출모듈에 전달하여 분석을 통해 다음 수집 대상 URI를 추출하게 함으로써 분석 불가능한 정보를 분석함에 소요되는 시간을 절약할 수 있게 한 MIME 유형 검출을 통한 수집 대상 URI(Uniform Resource Identifier ; 이하, URI 이라 약칭함) 분석 장치 및 방법에 관한 것이다.

사회웹은 급속하게 변화하는 현대사회에서 나이와 성별, 지위 등의 여부와 상관없이 사회 구성원 전계층간의 주요 의사소통 채널이 되고 있고 인터넷을 대표하고 있는 웹은 실생활에서 더 이상 없어서는 안 될 가장 기본적인 정보 활용의 공간이 되었다.

IDG(International Data Group ; 이하, IDG 이라 약칭함)는 구글의 인덱스 페이지가 1조건을 돌파하였다고 이야기하고 있지만 이는 실제 검색엔진 등을 통해 접근 가능한 웹, 즉 표면웹이라는 형태의 데이터만을 수치화한 것 일뿐 Deep Web 또는 Invisible Web이라 불리는 심층웹의 데이터가 표면웹 데이터의 500배정도 많을 것이라는 연구 결과를 생각해 보면 그 양은 실로 방대하다고 할 수 있다.

이와 같이 수많은 정보 중에서 정보 요구자에게 적합한 정보를 제공하기 위해서는 일차적으로 웹기록물내에 포함되어 있는 하이퍼링크들을 분석하고 이를 통해 대상이 되는 URI를 추출하는 동작을 재귀적으로 실행할 수 있는 웹로봇은 필수불가결한 요소라 할 수 있으며 국내의 경우 이미 포털 사이트들을 중심으로 웹로봇을 통해 웹상에 존재하는 웹기록물의 정보를 수집하여 서비스를 하고 있는 상황이다.

기록물의 보존이라는 측면에서 살펴보더라도 불과 몇 십 년 전까지만 하여도 종이로 된 기록물들이 시대의 상황을 반영하고 있었지만 현대에서 생산해내고 있는 많은 정보의 대부분들이 웹을 통해서 생성되고 있음을 감안하면 웹로봇을 통한 웹기록물 분석 및 수집은 결코 가벼이 볼 수 없는 영역이라 할 수 있다.

공공기관을 비롯한 많은 웹기록물들은 일정 기간 동안의 서비스를 끝내고 나면 수집, 보존, 활용에 대한 방안이 없어 소멸되고 있으며 일례로 대한민국에서 성공리에 치러지고 많은 기록들을 가지고 있는 2002년 월드컵 당시의 웹기록물들 또한 불과 수년의 시간밖에 지나지 않았음에도 현재의 우리에게 전달되지 못하고 있다.

향후 보존 가치가 있는 웹기록물들을 수집하기 위해 해외에서는 벌써 10여 년 전부터 많은 연구가 진행 중에 있으며 국내의 경우 국가기록원과 국립중앙도서관등의 공공 기관을 중심으로 경우에도 웹기록물을 수집하기 위한 연구 및 노력을 하고 있다.

한편, 브라우저의 요청에 의해 웹 서버가 데이터를 전송할 때 데이터의 내용보다 데이터 형태에 대한 정보를 먼저 보내는데, MIME이라한다. 브라우저는 MIME이 나타내는 데이터 형태에 따라 이를 재생시키기 위한 응용프로그램을 선택하며 이러한 응용프로그램 중 일부는 브라우저에 기본적으로 탑재되어 있다.

그러나 웹을 구성하고 있는 기술요소들의 다양함과 그 구성 방식의 상이함에 의해 웹로봇을 통한 웹기록물의 수집을 진행하다 보면 여러 가지 문제점을 확인할 수 있다. 즉, 웹서버를 관리하는 관리자의 웹기록물 서비스에 대한 이해 부족이나 편집자의 실수로 인해 본래 웹기록물이 가지는 MIME 타입이 아닌 다른 형태의 MIME정보를 제공해 주거나 MIME정보 자체를 제공해 주지 않는 경우가 발생하고 있다. 이럴 경우 웹서버가 제공해 주는 MIME정보에 의해서만 수집 대상 URI를 추출하기 위한 분석을 진행할 경우 정상적인 대상 URI 추출이 이루어지지 않아 수집을 진행할 수 없는 문제가 있다.

웹로봇의 웹기록물 분석을 통한 수집 대상 URI의 추출에 있어서 웹서버의 잘못된 MIME정보의 전달로 인해 정상적인 수집 과정이 이루어지지 않는 현상을 개선하기 위해 안출된 기술로서 종래의 방법은 웹서버가 전달하는 정보에만 의존하였기 때문에 잘못된 정보가 전달될 경우 해당 웹기록물에 대해 잘못된 분석과정을 거쳐 실제로는 수집이 되어야 하는 웹기록물이 존재함에도 수집 자체를 하지 못하는 문제가 발생하였다.

즉, 웹서버는 확장자를 기반으로 웹기록물을 서비스하게 되는데 일반적인 경우 확장자가 "jpeg"이면 "image/jpeg"으로 "gif"이면 "image/gif"으로 "html"의 경우는 "text/html"과 같이 응답 MIME 타입을 설정되는데 이와 같이 MIME 설정에만 의존하여 정보를 제공하고, 제공되는 정보는 ① 웹서버 관리자의 실수에 의해 다른 MIME 타입을 지정하거나, ② 특정 확장자에 대한 MIME 타입이 지정되지 않거나, ③사용자의 실수나 기타 이유로 원파일의 확장자가 아닌 타 확장자로 변경되어 실제 파일의 MIME의 속성과 다른 확장자를 가지는 경우가 발생될 수 있다.

이와 같은 경우 웹로봇은 오류가 있는 MIME 타입 정보를 분석하므로 분석에 오류가 발생하거나 동영상과 같은 대용량 웹기록물에 대한 MIME 타입이 "text/html"과 같은 정보로 전달될 경우 불필요한 분석 동작으로 인해 많은 메모리를 요구하는 문제가 있다.

본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위해 개발된 것으로서, 분석대상 웹기록물의 헤더(header) 부분을 포함할 MIME 분석 모듈에 전달하여 해당 바이너리의 MIME정보를 확인한 후 이 MIME정보를 이용하여 해당 MIME정보가 이미지나 동영상등과 같이 실제 해당 웹기록물을 통해 대상 URI를 추출할 필요가 없는 경우에는 추출 대상에서 배제 시키고 실제 대상 URI를 분석 할 수 있는 추출기가 포함되어 있는 정보만을 해당 추출모듈에 전달하여 분석을 통해 다음 수집 대상 URI를 추출하게 함으로써 분석 불가능한 정보를 분석함에 소요되는 시간을 절약할 수 있게 한 MIME 유형 검출을 통한 수집 대상 URI 분석 장치 및 방법을 제공하는 것을 목적으로 한다.

전술한 목적을 달성하기 위한 본 발명은 분석 가능한 웹기록물만을 분석하여 수집할 수 있게 사전에 검사함으로써 분석 불가능한 웹기록물을 분석함에 따른 시간을 절감할 수 있게 한 웹로봇을 이용하여 수집되는 웹기록물의 대상 URI를 분석하는 장치에 관한 것으로서, 웹서버로부터 웹기록물을 전송받는 웹기록물수신기와 ; 상기 웹기록물수신기에서 전송받은 웹기록물의 속성을 정의하고 있는 헤더 데이터를 추출하고, 추출된 헤더가 분석 가능한 MIME 타입인지를 여부를 확인하는 MIME분석기와 ; 상기 MIME분석기에서 분석된 웹기록물이 분석 가능한 경우 해당 웹기록물이 분석하는 URI분석기를 포함한다.

또한, 본 발명은 대상 URI를 분석하는 방법으로서, 웹서버로부터 웹기록물을 전송받는 단계와 ; 전송받은 웹기록물의 속성을 정의하고 있는 헤더 데이터를 추출하는 단계; 추출된 헤더가 분석 가능한 MIME 타입인지를 여부를 확인하여 분석이 불가능한 경우 해당 웹기록물이 분석을 종료하고, 가능한 경우 URI를 추출하여 수집 대상 URI를 분석하는 단계로 이루어지는 것을 특징으로 한다.

상기 헤더 데이터는 컴퓨터 저장과 처리 목적을 위해 이진 형식으로 인코딩된 파일의 포맷 텍스트인 바이너리 파일이다.

이상과 같이 본 발명에 의하면 웹기록물을 상세하게 분석하기 전에 웹기록물의 헤더 데이터로부터 웹기록물이 분석 가능한 MIME을 갖는 지 여부를 확인한 후 분석 가능할 때만 분석 작업이 이루어지게 함으로써, 수집 대상 URI의 추출시 웹서버의 잘못된 MIME정보의 전달로 인해 정상적인 수집 과정이 지연되는 것을 방지할 수 있는 효과가 있다. 이에 따라 잘못된 MIME 타입 정보를 전달해 주는 웹서버의 설정을 해당 웹서버를 운영하는 각 기관에 일일이 관련 정보에 대한 수정 요청을 통해 문제를 해결하지 않아도 되어 시간 및 비용을 절감할 수 있는 효과가 있다.

도 1은 본 발명에 의한 MIME 유형 검출을 통한 수집 대상 URI 분석 장치의 구성도이고,
도 2는 MIME 유형 검출을 통한 수집 대상 URI 분석 방법을 설명하기 위한 흐름도이다.

이하 첨부된 도면을 참조하여 본 발명을 보다 상세히 설명한다. 그러나 첨부된 도면은 본 발명의 기술적 사상의 내용과 범위를 쉽게 설명하기 위한 예시일 뿐, 이에 의해 본 발명의 기술적 범위가 한정되거나 변경되는 것은 아니다. 또한 이러한 예시에 기초하여 본 발명의 기술적 사상의 범위 안에서 다양한 변형과 변경이 가능함은 당업자에게는 당연할 것이다.

본 발명은 수집 대상 웹기몰물을 분석하기 전에 웹기록물이 갖고 있는 MIME를 검사하여 정상적인 MIME을 갖는 웹기록물에 대해서만 URI를 분석한 후 웹기록물을 선택하여 수집할 수 있게 함으로써 웹기록물 수집에 소요되는 시간가 비용을 절감할 수 있게 한 것이다.

이러한 본 발명에 의한 MIME 유형 검출을 통한 수집 대상 URI 분석 장치는 도 1에 도시한 바와 같이, 웹서버로부터 웹기록물을 전송받는 웹기록물수신기(1)와 ; 상기 웹기록물수신기(1)에서 전송받은 웹기록물의 속성을 정의하고 있는 헤더 데이터를 추출하고, 추출된 헤더가 분석 가능한 MIME 타입인지를 여부를 확인하는 MIME분석기(2)와 ; 상기 MIME분석기에서 분석된 웹기록물이 분석 가능한 경우 해당 웹기록물이 분석하는 URI분석기(3)를 포함한다.

또한 본 발명에 의한 MIME 유형 검출을 통한 수집 대상 URI 분석 방법은 웹로봇을 이용하여 수집되는 웹기록물의 대상 URI를 분석하는 방법으로서, 웹서버로부터 웹기록물을 전송받는 단계와 ; 전송받은 웹기록물의 속성을 정의하고 있는 헤더 데이터를 추출하는 단계; 추출된 헤더가 분석 가능한 MIME 타입인지를 여부를 확인하여 분석이 불가능한 경우 해당 웹기록물이 분석을 종료하고, 가능한 경우 URI를 추출하여 수집 대상 URI를 분석하는 단계로 이루어지는 것을 특징으로 한다.

본 발명에서 MIME 차입 검출을 위한 헤더 데이터는 바이너리 파일을 사용한다.

이하, 본 발명에 의한 분석 장치와 분석 방법을 상세하게 설명한다.

전술한 바와 같이, 본 발명은 웹로봇의 웹기록물 분석을 통한 수집 대상 URI의 추출에 있어서 상기 웹기록물수집기(1)에서 수집된 웹기록물 중 웹서버의 잘못된 MIME정보의 전달로 인해 정상적인 수집 과정이 이루어지지 않는 현상을 개선하기 위해 개발된 기술이다. 웹기록물을 분석하기 위해 웹기록물수집기(1)에 의해 수집된 분석 대상의 URI를 통해 실제 웹기록물의 바이너리를 웹로봇이 사용하고 있는 메모리에 적재할 때, 분석대상 웹기록물의 MIME타입을 확인할 수 있도록 기록물의 헤더(header) 부분을 포함할 수 있는 최대 크기로 검사파일을 선택한다.

선택된 검사파일을 MIME분석기(2)에 전달하여 해당 바이너리의 MIME정보를 확인한 후 이 MIME정보가 이미지나 동영상등과 같이 실제 해당 웹기록물을 통해 대상 URI를 추출할 필요가 없는 경우에는 추출 대상에서 배제시키고, 실제 대상 URI를 분석 할 수 있는 경우에는 URI추출기(3)에 전달하여 분석을 통해 다음 수집 대상 URI를 추출할 수 있게 한다.

이러한 본 발명에서 웹기록물의 URI로부터 실제 바이너리 정보를 받아오는 부분은 일반적인 브라우저가 웹서버로 연결하여 그 정보를 받아오는 부분과 동일하고, 이후 일반적인 웹로봇에서는 웹서버가 전달하는 MIME 타입 정보를 이용하여 분석을 진행하게 된다. 이때 해당 정보를 바로 사용하지 않고 MIME 분석 모듈에 실제 바이너리의 내용을 이용하여 MIME에 대한 정보를 확인한다.

일반적으로 웹서버는 확장자를 기반으로 웹기록물을 서비스하게 되는데 일반적인 경우 확장자가 "jpeg"이면 "image/jpeg"으로, "gif"이면 "image/gif"으로, "html"의 경우는 "text/html"과 같이 응답 MIME 타입을 설정되는데 이와 같이 MIME 설정에만 의존하여 정보를 제공할 때는 전술한 바와 같은 이유로 인하여 원파일의 확장자가 아닌 타 확장자로 변경되는 문제가 있다. 이에 따라 실제 파일의 MIME의 속성과 다른 확장자를 가지는 경우에 웹로봇은 웹서버가 전달하는 MIME 타입 정보를 이용하여 분석을 하게 될 경우 오류가 발생하거나 동영상과 같은 대용량 웹기록물에 대한 MIME 타입이 "text/html"과 같은 정보로 전달될 경우 불필요한 분석 동작으로 인해 많은 메모리를 요구할 수 있는 문제가 발생된다.

본 발명은 위와 같은 문제를 해결한 것으로서, 웹을 통해 서비스 되는 대부분의 기록물들의 헤더(header) 부분에 정의 되어 있는 해당 기록물의 속성을 분석하여 실제 기록물의 MIME 타입을 확하는 것이다.

이와 같은 MIME 분석은 파일의 특성을 고려하여 수행할 수 있는 것으로 파일들 중 "application/x-shockwave-flash"의 MIME 타입으로 정의되는 플래시(flash)의 경우에는 해당 파일의 시작 부분이 압축형식일 경우("CWS") 또는 비압축인 경우("FWS")로 시작되고, "image/png"의 MIME 타입으로 정의되는 png 이미지의 경우에는 8byte의 헤더를 통해 확인이 가능한데 그 값이 16진수(hexadecimal)값으로 "89 50 4E 47 0D 0A 1A 0A"를 갖으며, "application/pdf"의 MIME 타입으로 정의되는 PDF의 경우는 "%PDF"의 형태로 시작된다. 이러한 정보로부터 MIME 분석이 이루어지는 것이다.

"text/html"의 경우는 구조적으로 다른 파일들과 다른 구조를 갖는 것으로 HTML 스펙상의 정보를 통해 MIME 분석이 가능하다.

이와 같이 대부분의 웹기록물들은 헤더 또는 구조적 특성을 이용하여 해당 기록물의 MIME정보를 확인할 수 있다.

하지만, 웹로봇이 대상 URI를 추출하기 위해 분석하게 되는 대상 웹기록물들은 일반적으로 "text/html"로 규정되는 HTML 형식과 "application/javascript"로 대표되는 javascript, "text/css"로 규정되는 CSS(Cascading Style Sheet)등이 존재하며 좀 더 정교하고 많은 웹기록물을 분석하기 위해 추가적으로 "application/x-shockwave-flash" 타입의 플래시, "application/pdf"의 PDF 기록물, "application/msword" 타입의 마이크로소프트 워드프로세스에 대한 분석을 통해 웹기록물을 수집할 수 있도록 구성되기 때문에 MIME 분석 모듈은 웹로봇이 분석 가능한 MIME 타입인지 여부만을 확인하면 된다.

상기와 같은 분석을 위해 웹로봇은 해당 MIME 실제 분석 모듈에 웹기록물의 실제 콘텐츠 바이너리를 전달하게 된다. 이때 MIME 분석 모듈에 전달되는 바이너리는 웹서버로부터 전달 받을 내용 전체가 아니라 파일의 속성을 분석할 수 있는 정도의 크기 또는 HTML, CSS, JAVASCRIPT와 같이 일반 텍스트 형태로 구성되는 경우를 분석할 수 있는 크기를 선택하게 되는데 일반적으로 텍스트 형태로 구성되는 웹기록물의 분석에 더 많은 양의 바이너리 데이터가 필요하게 된다.

MIME 분석 모듈은 입력되는 바이너리가 정확히 어떤 형태를 가질지 예측할 수 없으므로 위의 예측되는 가장 큰 크기의 내용을 분석을 위해 전달하여야 하며 위에서 언급한 형태 여부인지만을 확인하기 위해서는 일반적으로 수 KB(대상물의 종류나 크기에 따라 다르므로 이를 수치로 한정할 수는 없다)의 정보가 있으면 가능하다.

위의 절차를 거쳐 웹서버로부터 전달받을 웹기록물의 MIME 타입이 결정되면 웹로봇은 MIME 타입에 해당되는 수집 대상 URI 분석 모듈에 분석 대상 웹기록물의 전체 바이너리 데이터를 전달하여 실제적인 분석 작업을 진행함으로써 웹서버가 잘못된 MIME정보로 웹기록물의 컨텐츠를 전송하더라도 정상적인 분석을 진행할 수 있는 절차가 완료된다.

위의 전체 프로세스를 도식화하면 도 1에 도시한 바와 같다.

웹로봇은 모든 수집이 완료될 때까지 웹기록물에 대해 다음의 절차를 재귀적으로 수행한다.

상기에서 언급한 웹로봇이 분석 대상으로 삼고 있는 MIME 타입들은 웹의 진화와 구현 방식등에 따라 지속적으로 변경될 수 있으며 본 발명에서 언급한 MIME 분석 모듈의 또한 그에 따라 변경될 수 있다.

Claims

웹로봇을 이용하여 수집되는 웹기록물의 대상 URI를 분석하는 장치로서,
웹서버로부터 웹기록물을 전송받는 웹기록물수신기와 ;
상기 웹기록물수신기에서 전송받은 웹기록물의 속성을 정의하고 있는 헤더 데이터를 추출하고, 추출된 헤더가 분석 가능한 MIME 타입인지를 여부를 확인하는 MIME분석기와 ;
상기 MIME분석기에서 분석된 웹기록물이 분석 가능한 경우 해당 웹기록물이 분석하는 URI분석기를 포함하는 것을 특징으로 하는 MIME 유형 검출을 통한 수집 대상 URI 분석 장치.
웹로봇을 이용하여 수집되는 웹기록물의 대상 URI를 분석하는 방법으로서,
웹서버로부터 웹기록물을 전송받는 단계와 ;
전송받은 웹기록물의 속성을 정의하고 있는 헤더 데이터를 추출하는 단계;
추출된 헤더가 분석 가능한 MIME 타입인지를 여부를 확인하여 분석이 불가능한 경우 해당 웹기록물이 분석을 종료하고, 가능한 경우 URI를 추출하여 수집 대상 URI를 분석하는 단계로 이루어지는 것을 특징으로 하는 MIME 유형 검출을 통한 수집 대상 URI 분석 방법.
제 2 항에 있어서,
상기 헤더 데이터는 바이너리 파일인 것을 특징으로 하는 MIME 유형 검출을 통한 수집 대상 URI 분석 방법.