KR101204039B1 - 문자열 추출 시스템 및 그 방법 - Google Patents

문자열 추출 시스템 및 그 방법 Download PDF

Info

Publication number
KR101204039B1
KR101204039B1 KR1020120069862A KR20120069862A KR101204039B1 KR 101204039 B1 KR101204039 B1 KR 101204039B1 KR 1020120069862 A KR1020120069862 A KR 1020120069862A KR 20120069862 A KR20120069862 A KR 20120069862A KR 101204039 B1 KR101204039 B1 KR 101204039B1
Authority
KR
South Korea
Prior art keywords
string
document
information
electronic document
unit
Prior art date
Application number
KR1020120069862A
Other languages
English (en)
Inventor
전경헌
강중빈
김지완
Original Assignee
(주) 사이냅소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 사이냅소프트 filed Critical (주) 사이냅소프트
Priority to KR1020120069862A priority Critical patent/KR101204039B1/ko
Application granted granted Critical
Publication of KR101204039B1 publication Critical patent/KR101204039B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

본 명세서는 미리 설정된 핑거프린트를 근거로 다양한 형태의 전자 문서를 대분류로 구분하고, 상기 구분된 대분류별 전자 문서에서 상세한 파일 포맷을 확인하고, 상기 확인된 파일 포맷에 따른 상기 전자 문서의 객체 구조를 분석하여 문자열을 포함하는 객체만을 선별하여 내부적인 문자열 버퍼 데이터를 생성하고, 상기 생성된 문자열 버퍼 데이터를 검색 엔진이나 문서 보안 프로그램의 출력 장치 등에서 사용할 수 있도록 태깅하거나 다국어 및 이기종 시스템 지원을 위해서 미리 설정된 동일한 포맷의 문자열로 변환하는 문자 코드 변환 등의 작업을 수행한 후 상기 출력 장치에 제공할 수 있는 문자열 추출 시스템 및 그 방법에 관한 것이다. 이를 위하여 본 명세서의 실시예에 따른 문자열 추출 시스템은, 임의의 입력 장치로부터 전달되는 전자 문서를 수신하고, 상기 수신된 전자 문서에서 문자열을 추출한 후, 상기 추출된 문자열에 미리 설정된 태그를 부가하여 임의의 출력 장치에 전달하는 문자열 추출 시스템에 있어서, 상기 문자열 추출 시스템은, 상기 입력 장치로부터 전달되는 전자 문서를 수신하는 문서 수신부; 제1 레벨로 미리 설정된 하나 이상의 핑거프린트 정보를 근거로 상기 전자 문서에 대응하는 핑거프린트를 확인하는 문서 포맷 탐지부; 상기 문서 포맷 탐지부로부터 확인된 상기 전자 문서에 대응하는 핑거프린트에 대한 정보 및 상기 전자 문서를 근거로 상기 전자 문서의 버전 정보를 확인하는 제2 레벨 핑거프린트 검사를 수행하고, 대응하는 문서 분석부에 상기 전자 문서를 전달하는 문서 버전 확인부; 상기 문서 버전 확인부로부터 전달되는 전자 문서를 근거로 상기 전자 문서의 속성 정보, 상기 전자 문서에 포함된 하나 이상의 페이지에 대한 페이지 속성 정보, 각 페이지에 포함되는 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체에 포함된 문자열의 속성 정보 및, 문자열의 내용을 렌더링 없이 각각 확인하는 문서 분석부; 상기 확인된 문자열 정보를 저장 및 관리하는 문자열 버퍼 관리부; 미리 설정된 문자 코드를 근거로 상기 문자열 정보를 표준화하는 코드 변환부; 상기 표준화된 문자열 정보에 렌더링을 대체하여 문자열 속성을 제공하기 위해서 미리 설정된 태그를 태깅하는 태거; 및 상기 태깅된 문자열 정보를 상기 출력 장치에 전송하는 문서 송신부;를 포함한다.

Description

문자열 추출 시스템 및 그 방법{Character string extraction system and method thereof}
본 명세서는 문자열 추출 시스템 및 그 방법에 관한 것으로, 더욱 상세히는 미리 설정된 핑거프린트를 근거로 다양한 형태의 전자 문서를 대분류로 구분하고, 상기 구분된 대분류별 전자 문서에서 상세한 파일 포맷을 확인하고, 상기 확인된 파일 포맷에 따른 상기 전자 문서의 객체 구조를 분석하여 문자열을 포함하는 객체만을 선별하여 내부적인 문자열 버퍼 데이터를 생성하고, 상기 생성된 문자열 버퍼 데이터를 검색 엔진이나 문서 보안 프로그램의 출력 장치 등에서 사용할 수 있도록 태깅하거나 다국어 및 이기종 시스템 지원을 위해서 미리 설정된 동일한 포맷의 문자열로 변환하는 문자 코드 변환 등의 작업을 수행한 후 상기 출력 장치에 제공할 수 있는 문자열 추출 시스템 및 그 방법에 관한 것이다.
일반적으로, 문자열 추출 시스템은, 임의의 영상 또는 전자 문서에 존재하는 문자열을 추출하는 장치이다.
이러한 오피스 문서와 같은 상기 전자 문서는 일반적으로 개인용 컴퓨터에서 생성되며, 각자 독자적인 데이터 포맷을 가진다. 따라서, 해당 전자 문서를 개인용 컴퓨터가 아닌 다른 장치에서 다루고자 하거나 검색 엔진이나 문서 보안 프로그램 등 다른 애플리케이션 프로그램에서 다루고자 할 경우 다른 포맷으로 변환하는 것이 필요하다. 이와 같이, 전자 문서의 문자열을 추출하여 검색에 활용하고자 할 경우, 상기 전자 문서를 생성할 때 사용된 애플리케이션 프로그램에서 문자열을 이용할 수 있는 다른 데이터 포맷으로 저장하고, 상기 다른 데이터 포맷으로 저장된 전자 문서를 검색 프로그램 등의 입력으로 사용하게 되며, 상기 문자열을 이용할 수 있는 다른 데이터 포맷으로 저장하는 과정 등에서 상기 전자 문서를 생성할 때 사용된 애플리케이션 프로그램을 필요로 하는 문제점이 있다.
또한, 이러한 문자열 추출 시스템은, 애플리케이션 프로그램이 문자열을 추출할 수 있는 데이터 포맷을 지원하지 않을 경우, 해당 애플리케이션 프로그램에서 생성된 전자 문서에서 문자열을 추출할 수 없는 문제점이 있다.
또한, 이러한 문자열 추출 시스템은, 임의의 애플리케이션 프로그램에서 생성된 전자 문서에 포함된 문자열 이외의 그래픽이나 동영상을 비롯한 다양한 객체를 다루기 위해서 메모리와 중앙 처리 장치 등의 하드웨어 자원(hardware resource)을 낭비하게 되어, 다중 처리가 필요한 고속 대용량 시스템을 구현하기 어려운 문제점이 있다.
또한, 상기 문자열 추출 시스템은, 전자 문서의 생성에 사용된 애플리케이션 프로그램에 종속되어 여러 애플리케이션 프로그램으로부터 공통된 포맷의 출력을 생성하기 위한 별도의 부가적인 과정을 필요로 하는 문제점이 있다.
한국 특허 출원 번호 제10-2008-0107587호
본 명세서의 목적은, 전자 문서를 생성 및 관리하는 임의의 애플리케이션 프로그램의 문자열 추출 기능을 분리하여, 상기 문자열 추출 기능을 수행하는 문자열 추출 시스템 및 그 방법을 제공하는 데 있다.
본 명세서의 다른 목적은, 전자 문서에서 임의의 문자열을 추출할 때, 상기 전자 문서를 생성한 애플리케이션 프로그램이 제공되지 않아도 상기 전자 문서에서 문자열을 추출하는 문자열 추출 시스템 및 그 방법을 제공하는 데 있다.
본 명세서의 또 다른 목적은, 상이한 복수의 애플리케이션 프로그램에서 각각 생성된 복수의 전자 문서를 미리 설정된 동일한 포맷의 문자열로 추출하는 문자열 추출 시스템 및 그 방법을 제공하는 데 있다.
본 명세서의 실시예에 따른 문자열 추출 시스템은, 임의의 입력 장치로부터 전달되는 전자 문서를 수신하고, 상기 수신된 전자 문서에서 문자열을 추출한 후, 상기 추출된 문자열에 미리 설정된 태그를 부가하여 임의의 출력 장치에 전달하는 문자열 추출 시스템에 있어서, 상기 문자열 추출 시스템은, 상기 입력 장치로부터 전달되는 전자 문서를 수신하는 문서 수신부; 제1 레벨로 미리 설정된 하나 이상의 핑거프린트 정보를 근거로 상기 전자 문서에 대응하는 핑거프린트를 확인하는 문서 포맷 탐지부; 상기 문서 포맷 탐지부로부터 확인된 상기 전자 문서에 대응하는 핑거프린트에 대한 정보 및 상기 전자 문서를 근거로 상기 전자 문서의 버전 정보를 확인하는 제2 레벨 핑거프린트 검사를 수행하고, 대응하는 문서 분석부에 상기 전자 문서를 전달하는 문서 버전 확인부; 상기 문서 버전 확인부로부터 전달되는 전자 문서를 근거로 상기 전자 문서의 속성 정보, 상기 전자 문서에 포함된 하나 이상의 페이지에 대한 페이지 속성 정보, 각 페이지에 포함되는 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체에 포함된 문자열의 속성 정보 및, 문자열의 내용을 렌더링 없이 각각 확인하는 문서 분석부; 상기 확인된 문자열 정보를 저장 및 관리하는 문자열 버퍼 관리부; 미리 설정된 문자 코드를 근거로 상기 문자열 정보를 표준화하는 코드 변환부; 상기 표준화된 문자열 정보에 렌더링을 대체하여 문자열 속성을 제공하기 위해서 미리 설정된 태그를 태깅하는 태거; 및 상기 태깅된 문자열 정보를 상기 출력 장치에 전송하는 문서 송신부;를 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 전자 문서는, 상기 입력 장치에 설치된 임의의 애플리케이션 프로그램을 통해 생성되며, 임의의 문자열이 포함된 텍스트, 오피스 문서, 웹 페이지, XML 문서, 압축 파일 및, 네트워크 스트림에 포함된 문서 데이터 중 어느 하나일 수 있다.
본 명세서와 관련된 일 예로서, 상기 핑거프린트는, 형태 항목, 내용 항목, 오프셋 항목, 길이 항목, 연산자 항목 및, 포맷 코드 항목 중 적어도 하나를 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 문서 포맷 탐지부는, 상기 제1 레벨로 미리 설정된 하나 이상의 핑거프린트 정보를 근거로 상기 전자 문서에 대응하는 애플리케이션 프로그램의 종류를 확인할 수 있다.
본 명세서와 관련된 일 예로서, 상기 전자 문서의 속성 정보는, 파일명, 파일 크기, 파일 위치, 작성자 및, 작성 일자 중 적어도 하나를 포함하는 일반 정보와; 페이지 수, 단어 수 및, 단락 수 중 적어도 하나를 포함하는 통계 정보;를 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 문서 분석부는, 상기 전자 문서에 포함된 페이지 객체를 분석하고, 상기 분석 결과를 근거로 상기 전자 문서를 복수의 페이지로 분할하고, 상기 분할된 복수의 페이지 각각에 대한 페이지 속성 정보를 확인하며, 상기 페이지 속성 정보는, 페이지 번호, 용지 크기, 용지 방향 및, 마스터 여부 중 적어도 하나를 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 문서 분석부는, 상기 분할된 복수의 페이지에 포함된 내부 객체 리스트를 확인하고, 상기 확인된 내부 객체 리스트 중에서 문자열이 포함된 내부 객체를 확인하고, 상기 확인된 내부 객체 리스트 중에서 문자열이 포함된 내부 객체에 포함된 상기 문자열 속성 정보 및 상기 문자열의 내용을 확인하며, 상기 문자열 속성 정보는, 문자 코드, 폰트, 위치, 크기, 길이, 자간, 줄간, 색상 및, 스타일 중 적어도 하나를 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 문자열 버퍼 관리부는, 임의의 전자 문서의 크기에 독립적인 버퍼 크기를 가지며, 누적된 문자열 정보의 크기가 미리 설정된 버퍼 크기에 도달할 때, 상기 버퍼의 내용을 상기 코드 변환부에 전달할 수 있다.
본 명세서와 관련된 일 예로서, 상기 코드 변환부는, 아스키 코드, 유니코드, ISO 8859, EUC, MS 윈도 코드, 일본어권에서 사용되는 문자 코드, 중국어권에서 사용되는 문자 코드 및, 국내 표준으로 사용되는 문자 코드 중 적어도 하나를 포함하는 상기 미리 설정된 문자 코드를 상기 문자열 정보에 적용하여, 모든 문자열 정보를 동일한 문자 코드로 변환하며, 상기 MS 윈도 코드는, 윈도 1250(Windows 1250) 및 CP949 중 적어도 하나를 포함하고, 상기 일본어권에서 사용되는 문자 코드는, JIS X 0208 및, Shift-JIS 중 적어도 하나를 포함하고, 상기 중국어권에서 사용되는 문자 코드는, GB 2312 및, Big 5 중 적어도 하나를 포함하고, 상기 국내 표준으로 사용되는 문자 코드는, KS X 1001을 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 미리 설정된 태그는, 파일명, 페이지 번호, 문단 속성, 글자 속성 및, 파일 종류에 따른 부가 정보 중 적어도 하나를 포함할 수 있다.
본 명세서의 실시예에 따른 문자열 추출 방법은, 임의의 입력 장치로부터 전달되는 전자 문서를 수신하고, 상기 수신된 전자 문서에서 문자열을 추출한 후, 상기 추출된 문자열에 미리 설정된 태그를 부가하여 임의의 출력 장치에 전달하는 문자열 추출 시스템의 문자열 추출 방법에 있어서, 상기 문자열 추출 시스템에 포함된 문서 수신부를 통해, 상기 입력 장치로부터 전달되는 전자 문서를 수신하는 단계; 상기 문자열 추출 시스템에 포함된 문서 포맷 탐지부를 통해, 제1 레벨로 미리 설정된 하나 이상의 핑거프린트 정보를 근거로 상기 전자 문서에 대응하는 핑거프린트를 확인하는 단계; 상기 문자열 추출 시스템에 포함된 문서 버전 확인부를 통해, 상기 확인된 상기 전자 문서에 대응하는 핑거프린트에 대한 정보 및 상기 전자 문서를 근거로 상기 전자 문서의 버전 정보를 확인하는 제2 레벨 핑거프린트 검사를 수행하는 단계; 상기 문서 버전 확인부를 통해, 대응하는 문서 분석부에 상기 전자 문서를 전달하는 단계; 상기 문자열 추출 시스템에 포함된 상기 문서 분석부를 통해, 상기 전자 문서를 근거로 상기 전자 문서의 속성 정보, 상기 전자 문서에 포함된 하나 이상의 페이지에 대한 페이지 속성 정보, 각 페이지에 포함되는 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체에 포함된 문자열의 속성 정보 및, 문자열의 내용을 렌더링 없이 각각 확인하는 단계; 상기 문자열 추출 시스템에 포함된 문자열 버퍼 관리부를 통해, 상기 확인된 문자열 정보를 저장 및 관리하는 단계; 상기 문자열 추출 시스템에 포함된 코드 변환부를 통해, 미리 설정된 문자 코드를 근거로 상기 문자열 정보를 표준화하는 단계; 상기 문자열 추출 시스템에 포함된 태거를 통해, 상기 표준화된 문자열 정보에 렌더링을 대체하여 문자열 속성을 제공하기 위해서 미리 설정된 태그를 태깅하는 단계; 및 상기 문자열 추출 시스템에 포함된 문서 송신부를 통해, 상기 태깅된 문자열 정보를 상기 출력 장치에 전송하는 단계;를 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 미리 설정된 하나 이상의 핑거프린트 중에서 상기 전자 문서에 대응하는 핑거프린트를 확인하는 단계는, 상기 문서 포맷 탐지부를 통해, 상기 전자 문서에 대응하는 애플리케이션 프로그램의 종류를 확인할 수 있다.
본 명세서와 관련된 일 예로서, 상기 전자 문서에 포함된 하나 이상의 페이지에 대한 페이지 속성 정보를 확인하는 단계는, 상기 문서 분석부를 통해, 상기 전자 문서에 포함된 페이지 객체를 분석하는 과정; 상기 문서 분석부를 통해, 상기 분석 결과를 근거로 상기 전자 문서를 복수의 페이지로 분할하는 과정; 및 상기 문서 분석부를 통해, 상기 분할된 복수의 페이지 각각에 대한 페이지 속성 정보를 확인하는 과정;을 포함하며, 상기 페이지 속성 정보는, 페이지 번호, 용지 크기, 용지 방향 및, 마스터 여부 중 적어도 하나를 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 각 페이지에 포함되는 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체에 포함된 문자열의 속성 정보 및, 문자열의 내용을 확인하는 단계는, 상기 문서 분석부를 통해, 상기 분할된 복수의 페이지에 포함된 내부 객체 리스트를 확인하는 과정; 상기 문서 분석부를 통해, 상기 확인된 내부 객체 리스트 중에서 문자열이 포함된 내부 객체를 확인하는 과정; 및 상기 문서 분석부를 통해, 상기 확인된 내부 객체 리스트 중에서 문자열이 포함된 내부 객체에 포함된 상기 문자열 속성 정보 및 상기 문자열의 내용을 확인하는 과정;을 포함하며, 상기 문자열 속성 정보는, 문자 코드, 폰트, 위치, 크기, 길이, 자간, 줄간, 색상 및, 스타일 중 적어도 하나를 포함할 수 있다.
본 명세서와 관련된 일 예로서, 상기 확인된 문자열 정보를 저장 및 관리하는 단계는, 임의의 전자 문서의 크기에 독립적인 버퍼 크기를 가지는 상기 문자열 버퍼 관리부를 통해, 누적된 문자열 정보의 크기가 미리 설정된 버퍼 크기에 도달할 때, 상기 버퍼의 내용을 상기 코드 변환부에 전달할 수 있다.
본 명세서와 관련된 일 예로서, 상기 미리 설정된 문자 코드를 근거로 상기 문자열 정보를 표준화하는 단계는, 상기 코드 변환부를 통해, 아스키 코드, 유니코드, ISO 8859, EUC, MS 윈도 코드, 일본어권에서 사용되는 문자 코드, 중국어권에서 사용되는 문자 코드 및, 국내 표준으로 사용되는 문자 코드 중 적어도 하나를 포함하는 상기 미리 설정된 문자 코드를 상기 문자열 정보에 적용하여, 모든 문자열 정보를 동일한 문자 코드로 변환하며, 상기 MS 윈도 코드는, 윈도 1250(Windows 1250) 및 CP949 중 적어도 하나를 포함하고, 상기 일본어권에서 사용되는 문자 코드는, JIS X 0208 및, Shift-JIS 중 적어도 하나를 포함하고, 상기 중국어권에서 사용되는 문자 코드는, GB 2312 및, Big 5 중 적어도 하나를 포함하고, 상기 국내 표준으로 사용되는 문자 코드는, KS X 1001을 포함할 수 있다.
본 명세서의 실시예에 따른 문자열 추출 시스템 및 그 방법은, 전자 문서를 생성 및 관리하는 임의의 애플리케이션 프로그램의 문자열 추출 기능을 분리하여, 상기 문자열 추출 기능을 수행함으로써, 상기 애플리케이션 프로그램이 문자열 이외의 객체를 제어하거나 객체 제어를 위한 인터페이스를 제공할 필요성을 제거하거나 감소시킬 수 있다.
또한, 본 명세서의 실시예에 따른 문자열 추출 시스템 및 그 방법은, 전자 문서에서 임의의 문자열을 추출할 때, 상기 전자 문서를 생성한 애플리케이션 프로그램이 제공되지 않아도 상기 전자 문서에서 문자열을 추출함으로써, 상기 애플리케이션 프로그램이 문자열 추출 기능을 제공하지 않아도 되며, 메모리 사용 효율을 향상시킬 수 있다.
또한, 본 명세서의 실시예에 따른 문자열 추출 시스템 및 그 방법은, 상이한 복수의 애플리케이션 프로그램에서 각각 생성된 복수의 전자 문서를 미리 설정된 동일한 포맷의 문자열로 추출함으로써, 전체 문자열 추출 시스템의 성능 및 관리 효율을 향상시킬 수 있다.
도 1은 본 명세서의 실시예에 따른 문자열 추출 시스템이 포함된 데이터 처리 시스템의 구성을 나타낸 블록도이다.
도 2는 본 명세서의 일 실시예에 따른 문자열 추출 시스템의 구성을 나타낸 블록도이다.
도 3은 본 명세서의 일 실시예에 따른 문자열 추출 방법을 나타낸 흐름도이다.
도 4는 본 명세서의 일 실시예에 따른 표준화된 문자열 정보에 미리 설정된 태그가 부가된 정보를 나타낸 도이다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
도 1은 본 명세서의 실시예에 따른 문자열 추출 시스템이 포함된 데이터 처리 시스템의 구성을 나타낸 블록도이다.
도 1에 도시한 바와 같이, 데이터 처리 시스템(10)은, 입력 장치(100), 문자열 추출 시스템(200) 및, 출력 장치(300)로 구성된다. 도 1에 도시된 데이터 처리 시스템(10)의 구성 요소 모두가 필수 구성 요소인 것은 아니며, 도 1에 도시된 구성 요소보다 많은 구성 요소에 의해 데이터 처리 시스템(10)이 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 데이터 처리 시스템(10)이 구현될 수도 있다.
상기 입력 장치(100)는, 임의의 파일 시스템(file system), 메모리, 데이터베이스, 검색 엔진이나 문서 보안 등의 임의의 애플리케이션 프로세스/프로그램, 터미널, 네트워크 서버 등 중 어느 하나일 수 있다.
또한, 상기 입력 장치(100)는, 임의의 애플리케이션 프로그램을 구비하며, 상기 애플리케이션 프로그램을 통해 임의의 전자 문서(또는, 애플리케이션 데이터 또는, 문서)를 생성한다. 이때, 상기 전자 문서는, 텍스트, 오피스 문서, 웹 페이지, XML 문서, 압축 파일, 네트워크 스트림에 포함된 문서 데이터 등의 임의의 문자열 등이 포함된 다양한 형태의 데이터를 포함한다. 여기서, 상기 전자 문서를 생성하기 위한 임의의 애플리케이션 프로그램은, 문서 작성 프로그램(예를 들어, 아래아한글, 워드 등 포함), 프레젠테이션 프로그램(예를 들어, 파워포인트, 키노트(Keynote) 등 포함), 스프레드시트 프로그램(예를 들어, 엑셀 등 포함), 오픈소스 오피스 프로그램(예를 들어, 스타오피스, 오픈오피스, 리브레오피스 등 포함), 웹 페이지 생성 프로그램(예를 들어, HTML 형식의 웹 페이지를 생성하는 드림위버, 나모웹 에디터 등 포함), PDF 파일 생성 프로그램(예를 들어, 아크로뱃 프로그램 등 포함), 메일 프로그램(예를 들어, MIME 포맷을 지원하는 아웃룩 등 포함), 수치 자료 및 문자열이 포함된 레코드를 생성하는 데이터베이스 프로그램, 표준화된 서식으로 저장된 자료를 주고받는 EDI 프로그램, XML을 이용하여 정보를 저장하는 다양한 응용 프로그램, 여러 종류의 전자 문서의 크기를 줄이는 파일 압축 프로그램, 문자열을 포함하고 있는 임의의 전자 문서 생성 애플리케이션 프로그램 등 중 어느 하나일 수 있다. 또한, 상기 애플리케이션 프로그램은, 상기 기재된 프로그램 이외에도, MHT 문서, CHM(Compiled Html Help) 문서, EML(E-mail) 문서, MIME 문서, MP3 태그, 리치 텍스트 포맷(Rich Text Format : RTF), 핸디소프트 아리랑(HWD), 일태랑(JTD), 마이크로소프트 문서 이미징(Microsoft Document Imaging : MDI), 워드퍼펙트(WPD), 유니코드(UCS-2, UCS-4, UTF-8, BIG-ENDIAN, LITTLE-ENDIAN) 텍스트 파일 등을 지원하는 프로그램 등을 포함할 수 있다.
또한, 상기 입력 장치(100)는, 상기 생성된 전자 문서를 상기 문자열 추출 시스템(200)에 전달(또는, 전송)한다.
상기 문자열 추출 시스템(200)은, 상기 입력 장치(100)로부터 전달되는 하나 이상의 전자 문서를 수신한다.
또한, 상기 문자열 추출 시스템(200)은, 다양한 형태의 상기 전자 문서에서 문자열 객체를 구분하고, 상기 구분된 문자열 객체를 근거로 문자열을 생성(또는, 추출)하고, 상기 생성된 문자열에 검색 엔진 또는 문서 보안 프로그램 등에 필요한 미리 설정된 정보(또는, 태그)를 부가하여 하나 또는 복수의 문서(또는, 하나 또는 복수의 텍스트 문서)를 생성하고, 상기 생성된 하나 또는 복수의 문서를 상기 출력 장치(300)에 전달한다.
또한, 상기 문자열 추출 시스템(200)은, 미리 설정된(또는, 정의된) 설정 데이터 또는 커맨드 라인 인터페이스(Command Line Interface : CLI) 또는 그래픽 사용자 인터페이스(Graphic User Interface : GUI) 등을 통해 상기 출력 장치(300)에 전달할 문서의 형태와 처리 방법을 제어한다.
즉, 상기 문자열 추출 시스템(200)은, 일관된 프로그램 인터페이스 및 사용자 인터페이스를 제공하여, 서로 다른 형태의 전자 문서에서 문자열을 추출하기 위해서 단일한 인터페이스만을 필요로 한다.
또한, 상기 문자열 추출 시스템(200)은, 상기 서로 다른 형태의 전자 문서에서 임의의 문자열을 추출하기 위해서 상기 입력 장치(100)에 각각 구비되는 상기 서로 다른 형태의 전자 문서를 각각 생성한 상기 임의의 애플리케이션 프로그램을 필요로 하지 않으며, 이로 인해 상기 전자 문서 생성을 위한 애플리케이션 프로그램과 상기 문자열 추출 시스템(200)이 동일한 장치에 있지 않아도 되고, 상기 전자 문서 생성을 위한 애플리케이션 프로그램과 상기 문자열 추출 시스템(200)이 서로 협력하여 동작할 필요도 없으며, 상기 입력 장치(100)로부터 전달된 상기 애플리케이션 프로그램의 데이터 포맷으로 생성된 상기 전자 문서만을 이용하여 상기 전자 문서 내에 포함된 문자열을 추출한다.
또한, 상기 문자열 추출 시스템(200)은, 상기 전자 문서 생성을 위한 애플리케이션 프로그램 및 관련된 프로그램의 일부분으로서 애플리케이션 프로그램을 보완하는 기능을 수행할 수 있다.
또한, 상기 문자열 추출 시스템(200)은, 검색 엔진 또는 문서 보안 프로그램 등과 같은 문자열 응용 프로그램에 문자열을 제공하기 위해서, 상기 애플리케이션 프로그램에 의해 생성된 전자 문서(또는, 출력 파일)를 처리하도록 동작하는 임의의 컴퓨터 프로그램을 포함한다. 또한, 상기 문자열 추출 시스템(200)은, 임의의 컴퓨터 프로세스 및, 구조 등을 통해 구현될 수도 있다.
즉, 상기 문자열 추출 시스템(200)은, 유닉스/리눅스/윈도 서버 컴퓨터, 개인용 컴퓨터(Personal Computer), 휴대용 컴퓨터, 태블릿, 스마트 폰(Smart Phone), 휴대 단말기(Portable Terminal), 텔레매틱스 단말기(Telematics Terminal), 노트북 컴퓨터(Notebook Computer), 디지털방송용 단말기, 개인 정보 단말기(Personal Digital Assistant : PDA), 와이브로 단말기(Wibro Terminal), IPTV(Internet Protocol Television) 단말기, 스마트 TV, AVN(Audio Video Navigation) 단말기, PMP(Portable Multimedia Player), 내비게이션 단말기(차량 내비게이션 장치)(Navigation Terminal) 등과 같은 다양한 단말기 중 어느 하나의 스마트 단말기에서 독립적인 프로그램으로 구현될 수 있을 뿐만 아니라, 부분적으로 지원할 수 있는 임의의 다른 형태의 컴퓨터 플랫폼과 같은 임의의 데이터 처리 시스템에서 동작하는 소프트웨어 요소로서 구현될 수 있다. 또한, 상기와 같은 구성에서, 상기 문자열 추출 시스템(200)은, C, C++, C#, 오브젝티브 C(objective C), 자바(Java), 파이썬(Python), 루비(Ruby) 등을 포함하는 임의의 프로그래밍 언어로 작성된 컴퓨터 프로그램으로 구현할 수 있다.
또한, 상기 문자열 추출 시스템(200)은, 복수의 서로 상이한 문서 형식을 지원할 수 있으며, 임의의 출력 장치(300)에 포함된 특정 애플리케이션을 위해 출력 결과를 변환시킬 수 있으며, 온라인 또는 배치 형태로 작동할 수 있는 등 세부적인 선택에 의해서 상기 문자열 추출 시스템(200)에 포함된 하나 이상의 구성 요소를 변경할 수 있다.
또한, 상기 문자열 추출 시스템(200)은, 하드-와이어드(hard-wired) 형태로 구현할 수 있다. 즉, 상기 문자열 추출 시스템(200)은, ROM으로 구현하거나, ASIC 또는 다른 단일-칩 시스템 내에 통합하거나, 근거리 또는 원거리로 저장되며 특정 장치의 필요에 의해 패치되어 실행되는 소프트웨어 또는 펌웨어(예를 들어, 플래시 가능한 ePROM과 같은 프로그램 가능한 ROM)로 구현할 수도 있다.
또한, 상기 문자열 추출 시스템(200)은, 도 2에 도시한 바와 같이, 문서 수신부(201), 문서 포맷 탐지부(202), 문서 버전 확인부(203), 복수의 문서 분석부(204), 문자열 버퍼 관리부(205), 코드 변환부(206), 태거(207), 문서 송신부(208), 사용자 인터페이스부(209) 및, 저장부(210)로 구성된다. 도 2에 도시된 문자열 추출 시스템(200)의 구성 요소 모두가 필수 구성 요소인 것은 아니며, 도 2에 도시된 구성 요소보다 많은 구성 요소에 의해 문자열 추출 시스템(200)이 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 문자열 추출 시스템(200)이 구현될 수도 있다.
상기 문서 수신부(또는, 문서 수신 모듈)(201)는, 상기 입력 장치(100)로부터 전달(또는, 전송)되는 전자 문서를 수신한다. 여기서, 상기 전자 문서는, 텍스트, 오피스 문서, 웹 페이지, XML 문서, 압축 파일, 네트워크 스트림에 포함된 문서 데이터 등의 임의의 문자열이 포함된 다양한 형태의 데이터를 포함할 수 있다.
또한, 상기 문서 수신부(receiver)(201)는, 상기 수신된 전자 문서를 상기 문서 포맷 탐지부(202)에 전달한다.
또한, 상기 문서 수신부(201)는, 상기 입력 장치(100)에서 데몬 프로세스(daemon process)로 작동하여, 상기 입력 장치(100)의 특정 디렉토리(또는, 특정 폴더)에 전자 문서가 있는지 여부를 미리 설정된 시간 간격으로 확인할 수 있다.
또한, 상기 문서 수신부(201)는, 상기 확인 결과, 상기 입력 장치(100)의 특정 디렉토리에 임의의 전자 문서가 존재하는 경우 해당 전자 문서를 상기 문서 포맷 탐지부(202)에 전달하며, 상기 입력 장치(100)의 특정 디렉토리에 임의의 전자 문서가 존재하지 않는 경우 다음 시간 간격(또는, 다음 확인 주기)까지 대기 상태를 유지한다.
이와 같이, 상기 문서 수신부(201)는, 상기 문서 포맷 탐지부(202)에 전자 문서를 전달하기 위해서 주기적으로 문서의 존재를 확인하는 폴링(Polling) 방식의 데몬 프로세스로 동작할 수 있을 뿐만 아니라, 상기 문서 수신부(201)를 통해 임의의 전자 문서를 수신한 후 상기 문서 포맷 탐지부(202)를 동작시키기 위한 미리 설정된 이벤트가 발생할 때 해당 전자 문서를 상기 문서 포맷 탐지부(202)에 전달하는 이벤트(Event-driven) 방식의 데몬 프로세스로 동작하거나 또는, 상기 수신된 전자 문서들을 단순히 저장하고 있다가 사용자 인터페이스 등을 통해 문자열 추출 명령이 수신될 때 해당 전자 문서를 상기 문서 포맷 탐지부(202)에 전달하도록 작동을 시작하는 배치 방식으로 동작할 수도 있다.
상기 문서 포맷 탐지부(또는, 문서 포맷 탐지 모듈)(202)는, 상기 문서 수신부(201)로부터 전달되는 전자 문서를 수신한다.
또한, 상기 문서 포맷 탐지부(document format detector)(202)는, 문자열 추출이 가능한 전자 문서 포맷에 대해서 미리 설정된 하나 이상의 핑거프린트 테이블 구성, 메모리 공간 및, 데이터 구조 등에 대한 초기화 기능을 수행한다. 여기서, 상기 핑거프린트(fingerprint)는, 아스키 문자열, 바이트 스트림, 수치형 자료 등과 같이 다양한 형태일 수 있다. 또한, 상기 핑거프린트는, [표 1]에 나타낸 바와 같이, 상기 형태(또는, 형태 항목) 이외에도, 내용 항목, 오프셋 항목, 길이 항목, 연산자 항목 및, 포맷 코드 항목 등 중 적어도 하나를 포함할 수 있다.
항목
형태 ASCII Text
내용 HWP Document File V
오프셋 0
길이 19
연산자 Equal
포맷 코드 60310
이때, 상기 핑거프린트의 형태 항목은, 상기 [표 1]에 나타낸 바와 같은 아스키 문자열일 수도 있고, 바이트 스트림 또는, 수치형 자료 등과 같은 형태일 수도 있다. 또한, 상기 핑거프린트의 내용 항목은, 전자 문서상에 실제로 나타나는 값을 나타내며, 상기 [표 1]에 나타낸 바와 같은 하나의 문자열일 수도 있고 두 개 이상의 값으로 이루어지거나 숫자의 범위 값으로 표현될 수도 있다. 또한, 상기 핑거프린트의 오프셋 항목은, 전자 문서에서 핑거프린트 내용이 나타나는 위치를 나타내며, 해당 전자 문서의 처음 또는 끝으로부터의 오프셋으로 표현될 수 있다. 또한, 상기 핑거프린트의 길이 항목은, 상기 핑거프린트 내용의 길이를 나타내며, 상기 [표 1]에 나타낸 바와 같은 특정한 숫자일 수도 있고 숫자의 범위 값으로 표현될 수도 있다. 또한, 상기 핑거프린트의 연산자 항목은, 상기 [표 1]에 나타낸 바와 같은 문자열이 정확하게 일치하는지 여부를 검사하는 값(Equal)일 수도 있고 어떤 값보다 크거나 작은지 여부를 검사하는 비교 연산자 또는 특정한 범위 안에 있어야 한다는 범위 연산자일 수도 있다. 또한, 상기 핑거프린트의 포맷 코드 항목은, 해당 전자 문서와 핑거프린트(또는, 상기 핑거프린트의 내용)가 일치할 경우, 상기 일치된 핑거프린트에 대응하는 문서 분석부(204)를 매핑(또는, 확인/대응)하기 위해 필요한 코드이며, 숫자일 수도 있고 문자열 등의 다른 포맷과 구별 가능한 임의의 값으로 표현될 수도 있다.
또한, 상기 실시예에서는, 상기 핑거프린트를 하나의 표(또는, 테이블)로 설명하여 하나의 데이터베이스 테이블로 기재하고 있으나, 이에 한정되지 않으며, 상기 핑거프린트는, 상기 핑거프린트(또는, 상기 핑거프린트 테이블)를 임의의 배열이나 리스트 또는 해시 테이블 등의 임의의 다양한 자료 구조로 구성하거나 또는, 임의의 프로그램에서 하드 코딩할 수 있도록 구성하거나 또는, 임의의 하드웨어 요소로 구성할 수도 있다.
이와 같이, 상기 문서 포맷 탐지부(202)는, 문서 포맷 탐지에 필요한 메모리 공간 및 데이터 구조를 초기화시키기 위해서, 상기 저장부(210)의 임의의 저장 공간에 미리 저장된 상기 [표 1]에 나타낸 바와 같은 하나 이상의 미리 설정된 핑거프린트를 읽어들여 상기 저장부(210) 내의 특정 메모리 공간에 위치시킨다.
또한, 상기 문서 포맷 탐지부(202)는, 상기 하나 이상의 핑거프린트 중에서 상기 수신된 전자 문서에 매핑하는(또는, 일치/대응하는) 핑거프린트를 확인한다.
즉, 상기 문서 포맷 탐지부(202)는, 상기 하나 이상의 핑거프린트 각각을 상기 수신된 전자 문서와 비교(또는, 대조)하여, 상기 전자 문서에 일치하는 핑거프린트를 확인한다.
이와 같이, 상기 문서 포맷 탐지부(202)는, 제1 레벨로 미리 설정된 하나 이상의 핑거프린트 정보를 근거로(또는, 상기 하나 이상의 제1 레벨 핑거프린트 중에서) 상기 수신된 전자 문서에 대응하는 핑거프린트를 확인하여, 우선적으로 상기 하나 이상의 핑거프린트 중에서 상기 전자 문서에 대응하지 않는 문서를 우선 배제한다.
또한, 상기 문서 포맷 탐지부(202)는, 상기 전자 문서가 명백하게 공개되고 인지된 파일 확장자(예를 들어, 확장자 "hwp", "doc", "xls" 등 포함)를 가진 경우, 해당 파일 확장자가 가질 수 있는 핑거프린트만을 확인(예를 들어, 확장자가 "hwp"인 경우 "아래아한글" 문서 작성 프로그램과 관련된 핑거프린트만을 확인하거나, 확장자가 "doc"인 경우 "MS 워드" 문서 작성 프로그램과 관련된 핑거프린트만을 확인하거나, 확장자가 "xls"인 경우 "MS 엑셀" 스프레드시트 프로그램과 관련된 핑거프린트만을 확인)하여 상기 전자 문서에 일치하는 핑거프린트를 확인하도록 구성할 수도 있다.
또한, 상기 문서 포맷 탐지부(202)는, 전체 전자 문서가 준비될 때까지 기다릴 필요없이, 상기 전자 문서와 상기 하나 이상의 핑거프린트를 비교(또는, 대조)할 수 있을 정도의 소정 크기의 특정 메모리를 이용할 수 있으면, 바로 상기 전자 문서에 대한 문서 포맷 탐지를 수행할 수 있다.
또한, 상기 문서 포맷 탐지부(202)는, 상기 확인 결과, 상기 하나 이상의 핑거프린트 중에서 상기 수신된 전자 문서에 매핑하는 핑거프린트가 존재하지 않는 경우, 상기 사용자 인터페이스부(209)를 통해서 문자열 추출이 불가함을 출력한다.
또한, 상기 문서 포맷 탐지부(202)는, 상기 확인 결과, 상기 하나 이상의 핑거프린트 중에서 상기 수신된 전자 문서에 일치하는 핑거프린트가 존재하는 경우, 상기 일치된 핑거프린트에 대한 정보 및 상기 전자 문서를 상기 문서 버전 확인부(203)에 전달한다.
또한, 상기 문서 포맷 탐지부(202)는, 상기 문서 수신부(201)로부터 전달된 전자 문서가 복수인 경우, 각각의 전자 문서에 대해서 해당 전자 문서에 매핑하는 핑거프린트가 존재하는지 여부를 각각 확인하고, 상기 각각의 전자 문서에 일치하는 각각의 핑거프린트에 대한 정보 및 상기 각각의 전자 문서를 상기 문서 버전 확인부(203)에 전달한다.
상기 문서 버전 확인부(또는, 문서 버전 확인 모듈)(203)는, 상기 문서 포맷 탐지부(202)로부터 전달되는 상기 전자 문서 및 상기 전자 문서에 매핑된(또는, 상기 전자 문서에 일치된/대응된) 핑거프린트에 대한 정보를 수신한다.
또한, 상기 문서 버전 확인부(document version detector)(203)는, 상기 전자 문서 및 상기 전자 문서에 매핑된 핑거프린트에 대한 정보를 근거로 상기 전자 문서의 버전 정보 및 상기 전자 문서가 상기 해당 버전의 전자 문서가 가져야하는 필수 구조를 가지고 있는지 여부를 확인한다.
이와 같이, 상기 문서 버전 확인부(203)는, 상기 전자 문서 및 상기 전자 문서에 매핑된 핑거프린트에 대한 정보를 근거로 상기 전자 문서의 제2 레벨 핑거프린트 검사를 수행한다.
즉, 상기 문서 포맷 탐지부(202)에서는, 상기 전자 문서가 HWP 문서인 경우, 상기 [표 1]에 나타낸 상기 핑거프린트의 내용 중 "HWP Document File V" 까지의 정보인 프로그램 종류(또는, 애플리케이션/응용 프로그램 종류)만을 확인하며, 상기 문서 버전 확인부(203)에서는, 상기 "HWP Document File V" 이후의 값인 버전(또는, 버전 정보)뿐만 아니라, 해당 "HWP Document File V" 버전의 전자 문서가 가져야하는 필수 구조를 상기 전자 문서가 가지고 있는지 여부를 확인한다.
이와 같이, 임의의 전자 문서에 대한 포맷(또는, 프로그램 종류)과 버전 확인을 두 단계(two depth)(또는, 두 레벨)로 나누어서 수행함에 따라, 복수의 전자 문서에 대한 고속 처리 시, 처리 속도를 향상시킬 수 있다.
또한, 상기 문서 버전 확인부(203)는, 상기 복수의 문서 분석부(204) 중에서 상기 매핑된(또는, 일치된/대응된) 핑거프린트에 대응하는 특정 문서 분석부(204)에 상기 전자 문서를 전달한다. 이때, 상기 문서 버전 확인부(203)는, 상기 복수의 문서 분석부(204) 중에서 상기 매핑된 핑거프린트에 대응하는 문서 분석부(204)를 로드하고, 분석 가능한 상기 전자 문서를 상기 로드된 문서 분석부(204)에 전달할 수 있다.
또한, 상기 문서 버전 확인부(203)는, 상기 문서 분석부(204)를 임의의 쓰레드(thread)로 생성하고, 상기 생성된 쓰레드에 상기 전자 문서를 전달할 수도 있다.
또한, 상기 문서 버전 확인부(203)는, 상기 문서 분석부(204)를 별도의 프로세스로 생성하고, 상기 생성된 별도의 프로세스에 상기 전자 문서를 전달할 수도 있다.
또한, 상기 문서 버전 확인부(203)는, 상기 문자열 추출 시스템(200) 이외의 다른 임의의 시스템에 존재하는 특정 문서 분석부에 상기 전자 문서를 전달할 수도 있다.
이와 같이, 상기 문서 포맷 탐지부(202)와 상기 문서 버전 확인부(203)와 상기 문서 분석부(204)는, 서로 분리되어 구성될 수도 있고, 모두가 동시에 상기 문자열 추출 시스템(200)에 로드될 필요가 없으므로 상기 입력 장치(100)상에 나타나지 않은 전자 문서(또는, 전자 문서 포맷)에 대해서는 상기 문서 분석부(204)가 아예 상기 문자열 추출 시스템(200) 상에 로드될 필요가 없으며, 이에 따라 시스템 메모리를 절약할 수 있고 또한, 소용량 메모리 장치에서도 동작할 수 있게 구성할 수도 있다.
상기 문서 분석부(또는, 문서 분석 모듈)(204)는, 상기 문서 버전 확인부(203)로부터 전달되는 전자 문서를 수신한다. 여기서, 상기 문서 분석부(204)는, 렌더링 기능을 구비하지 않으며, 상기 전자 문서의 속성 정보, 전자 문서 내의 페이지 속성 정보, 페이지 내 객체의 문자열 속성 정보 및, 문자열 내용 등을 확인하기 위한 기능을 수행한다.
이와 같이, 상기 문서 분석부(document parser)(204)가 렌더링 기능을 구비하지 않음에 따라, 렌더링 기능이 구비된 문자열 추출 애플리케이션에 비해 예를 들어, 20배 이상의 고속 처리가 가능하다.
또한, 상기 문서 분석부(204)는, 상기 미리 설정된 핑거프린트의 내용 항목에 각각 대응하는 복수의 문서 분석부(204)로 구성할 수 있다. 즉, 상기 문서 분석부(204)는, 상기 미리 설정된 하나 이상의 핑거프린트의 수만큼 구성할 수 있다.
또한, 상기 문서 분석부(204)는, 문서 분석에 필요한 메모리 공간과 데이터 구조를 초기화하고 상기 수신된 전자 문서의 속성 정보를 확인(또는, 판독)한다. 여기서, 상기 전자 문서의 속성 정보는, 일반 정보(예를 들어, 파일명, 파일 크기, 파일 위치, 작성자, 작성 일자 등 포함), 통계 정보(예를 들어, 슬라이드 수(또는, 페이지 수), 단어 수, 단락 수 등 포함) 등을 포함한다.
또한, 상기 문서 분석부(204)는, 상기 전자 문서에 포함된 페이지 객체 리스트를 확인한다. 즉, 상기 문서 분석부(204)는, 상기 전자 문서에 포함된 페이지 객체를 분석하고, 상기 분석 결과를 근거로 상기 전자 문서에 포함된 하나 이상의 페이지 객체 리스트를 확인하거나 상기 전자 문서를 복수의 페이지로 분할한다.
또한, 상기 문서 분석부(204)는, 상기 전자 문서에 포함된 페이지에 대한 페이지별 속성 정보를 확인(또는, 판독)한다. 여기서, 상기 페이지 속성 정보는, 페이지 번호, 용지 크기, 용지 방향, 마스터 여부 등에 대한 정보를 포함한다.
또한, 상기 문서 분석부(204)는, 각 페이지 내에 포함된 내부 객체(또는, 페이지 내부 객체) 리스트를 확인한다. 즉, 상기 문서 분석부(204)는, 상기 전자 문서에 포함된 하나 이상의 페이지 객체 리스트 또는 상기 분할된 복수의 페이지 각각에 대해서 각 페이지 내의 내부 객체를 분석하고, 상기 분석 결과를 근거로 각 페이지에 포함된 하나 이상의 내부 객체 리스트를 확인하거나 상기 각 페이지에 포함된 하나 이상의 내부 객체를 분할한다.
또한, 상기 문서 분석부(204)는, 상기 각 페이지 내에 포함된 내부 객체 리스트에 포함된 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체를 확인한다. 즉, 상기 문서 분석부(204)는, 상기 확인된 내부 객체 내에 문자열이 포함되어 있는지 여부를 확인(또는, 판단)한다.
또한, 상기 문서 분석부(204)는, 상기 확인 결과, 상기 각 페이지 내에 포함되는 내부 객체 리스트에 포함된 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체가 존재하지 않는 경우, 나머지 다른 페이지 각각에 대해서 상기 페이지 내에 포함된 하나 이상의 내부 객체 중에서 문자열이 포함되어 있는지 여부를 반복적으로 수행한다. 즉, 상기 문서 분석부(204)는, 상기 확인 결과, 상기 확인된 내부 객체 내에 문자열이 포함되어 있지 않은 경우, 상기 분할된 모든 페이지에 각각 포함된 모든 내부 객체 내에 문자열이 포함되어 있는지 여부를 확인한다.
또한, 상기 문서 분석부(204)는, 상기 확인 결과, 상기 각 페이지 내에 포함되는 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체가 존재하는 경우, 해당 내부 객체에 포함된 문자열의 속성 정보 및/또는 문자열의 내용을 확인한다. 이때, 상기 문자열 속성 정보는, 문자 코드, 폰트, 위치, 크기, 길이, 자간, 줄간, 색상, 스타일 등을 포함한다. 또한, 상기 문서 분석부(204)는, 상기 내부 객체가 상위 객체의 속성을 상속받은 경우, 상기 상위 객체의 속성 정보를 함께 확인할 수 있다.
이와 같이, 상기 문서 분석부(204)는, 상기 문서 버전 확인부(203)로부터 전달된 전자 문서를 하나 이상의 객체로 분해하고, 상기 분해한 하나 이상의 객체에서 문자열을 포함하는 객체들만을 선별한다. 이때, 상기 문자열을 포함하는 객체는, 문자열을 포함하는 문단 객체뿐만 아니라 문자열을 포함하는 도형 객체, 숫자와 수식 그리고 문자열 등을 포함하는 표 객체, 타이틀과 범례 등에 문자열을 포함하는 차트 객체 등을 포함한다. 또한, 이러한 객체(예를 들어, 문자열 포함 객체, 도형 객체, 표 객체, 차트 객체 등 포함)는, 상기 전자 문서를 생성한 애플리케이션 프로그램의 종류에 따라 다양할 수 있다. 이때, 상기 문서 분석부(204)는, 상기 분해한 하나 이상의 객체 중에서 문자열을 포함하고 있지 않은 이미지 객체나 동영상 객체 등을 구분할 뿐만 아니라, 문자열을 포함하는 도형 객체, 표 객체, 차트 객체 등을 각각 선별한다.
또한, 상기 문서 분석부(204)는, 디스플레이 등을 목적으로 하는 전자 문서의 내부 화상을 생성하지 않거나 또는, 임의의 프로세스 내에 전자 문서의 적절한 내부 화상을 생성하고 상기 생성된 내부 화상에서 다시 문자열을 추출할 수도 있다.
또한, 상기 문서 분석부(204)는, 상기 확인된 전자 문서의 속성 정보, 상기 확인된 페이지 속성 정보, 상기 확인된 문자열 속성 정보 및, 문자열 내용(또는, 문자열) 등을 상기 문자열 버퍼 관리부(205)에 전달한다. 이때, 상기 문서 분석부(204)는, 상기 정보들을 함께 전달할 수도 있고, 각각 전달할 수도 있다.
또한, 상기 문서 분석부(204)는, 복수의 페이지를 포함하는 전자 문서를 처리할 수 있다.
또한, 상기 문서 분석부(204)는, 페이지 정보(또는, 페이지 번호)를 포함하지 않는 전자 문서에 대해서도 상기 해당 전자 문서를 생성하는 애플리케이션 프로그램의 특성을 근거로 미리 설정된 기준에 따라 페이지에 해당하는 정보(또는, 상기 페이지 정보)를 생성할 수 있다. 즉, 상기 문서 분석부(204)는, 마이크로소프트의 엑셀 문서의 경우 상기 엑셀 문서에 포함된 각각의 시트(또는, 워크시트)를 페이지로 구분할 수도 있고, 웹 페이지 문서의 경우 상기 웹 페이지 문서의 줄 수(또는, 라인 수)를 근거로 페이지 정보를 생성(또는, 식별)할 수 있다.
상기 문자열 버퍼 관리부(또는, 문자열 버퍼 관리 모듈)(205)는, 상기 복수의 문서 분석부(204)로부터 각각 전달되는 상기 전자 문서의 속성 정보, 상기 페이지 속성 정보, 상기 문자열 속성 정보 및, 문자열 내용(또는, 문자열) 등을 포함하는 문자열 정보를 수신한다. 여기서, 상기 전자 문서의 속성 정보는, 일반 정보(예를 들어, 파일명, 파일 크기, 파일 위치, 작성자, 작성 일자 등 포함), 통계 정보(예를 들어, 슬라이드 수(또는, 페이지 수), 단어 수, 단락 수 등 포함) 등을 포함한다. 또한, 상기 페이지 속성 정보는, 페이지 번호, 용지 크기, 용지 방향, 마스터 여부 등에 대한 정보를 포함한다. 또한, 상기 문자열 속성 정보는, 문자 코드, 폰트, 위치, 크기, 길이, 자간, 줄간, 색상, 스타일 등을 포함한다.
또한, 상기 문자열 버퍼 관리부(text run buffer manager)(205)는, 상기 수신된 문자열 정보를 저장 및 관리한다. 이때, 상기 문자열 버퍼 관리부(205)는, 상기 수신된 문자열 정보를 저장하기 위한 버퍼를 구비하며, 상기 버퍼의 크기는 시스템 메모리 용량(또는, 상기 저장부(210)의 용량)에 따라 가변적인 크기로 다양하게 설정할 수 있다. 또한, 상기 문자열 버퍼 관리부(205)는, 상기 버퍼에 문자열(또는, 문자열 정보)이 가득 차기 전에 상기 버퍼를 비우도록 제어하여, 새로운 문자열이 저장될 수 있도록 구성할 수 있다.
또한, 상기 문자열 버퍼 관리부(205)는, 임의의 전자 문서의 크기에 독립적인 버퍼 크기를 가진다.
또한, 상기 문자열 버퍼 관리부(205)는, 누적된 문자열 정보의 크기가 미리 설정된 버퍼 크기에 도달하는 등의 미리 설정된 특정 조건에 도달하면, 상기 버퍼의 내용을 상기 코드 변환부(206)에 전달한다.
또한, 상기 문자열 버퍼 관리부(205)는, 상기 수신된 문자열 정보를 상기 코드 변환부(206)에 전달한다.
또한, 상기 문자열 버퍼 관리부(205)는, 상기 문자열 버퍼 관리부(205)에서 출력할 문자열의 길이 정보를 미리 저장하고 있으며, 상기 미리 저장된 출력할 문자열의 길이 정보를 근거로 특정한 길이 이상의 문자열을 필요로 하지 않는 임의의 애플리케이션을 위한 출력의 경우, 상기 문서 분석부(204)에 제어 신호를 전달하여 더 이상의 분석이 필요하지 않음을 알린다. 이때, 상기 문서 분석부(204)는, 상기 문자열 버퍼 관리부(205)로부터 전달된 제어 신호를 근거로 전자 문서에 대한 추가적인 분석 기능 수행을 종료하여, 시간을 단축하고 메모리를 절약할 수 있다.
또한, 상기 문자열 버퍼 관리부(205)는, 상기 버퍼에 임의의 문자열이 남아 있는 경우, 상기 버퍼에 남아 있는 해당 문자열(또는, 상기 버퍼에 남아 있는 문자열 정보)을 상기 코드 변환부(206)에 전달한다.
또한, 상기 문자열 버퍼 관리부(205)는, 상기 사용자 인터페이스부(209) 또는 상기 저장부(210)에 미리 저장된 임의의 사용자가 지정한 특정 출력량에 도달했는지 여부를 검사하고, 상기 검사 결과 상기 지정된 출력량에 도달한 경우 추가적인 출력을 제거한다.
상기 코드 변환부(또는, 코드 변환 모듈)(206)는, 상기 문자열 버퍼 관리부(205)로부터 전달되는 문자열 정보를 수신한다. 상기 문자열 정보는, 상기 전자 문서의 속성 정보, 상기 페이지 속성 정보, 상기 문자열 속성 정보 및, 문자열 내용 등을 포함한다.
또한, 상기 코드 변환부(code converter)(206)는, 상기 사용자 인터페이스부(209) 또는 상기 저장부(210)에 미리 설정된(또는, 저장된) 문자 코드(또는, 미리 설정된 설정 정보)를 근거로 상기 수신된 문자열 정보를 표준화(또는, 변환)한다. 여기서, 상기 미리 설정된 문자 코드는, 아스키 코드, 유니코드, ISO 8859, EUC, MS 윈도 코드(예를 들어, 윈도 1250(Windows 1250), CP949 등 포함), 일본어권에서 사용되는 문자 코드(예를 들어, JIS X 0208, Shift-JIS 등 포함), 중국어권에서 사용되는 문자 코드(예를 들어, GB 2312, Big 5 등 포함), 국내 표준으로 사용되는 문자 코드(예를 들어, KS X 1001 등 포함)뿐만 아니라, 임의의 언어권에서 사용되는 특정 문자 코드 등을 포함한다.
즉, 상기 코드 변환부(206)는, 상기 사용자 인터페이스부(209) 또는 상기 저장부(210)에 미리 설정된 문자 코드를 상기 수신된 문자열 정보에 적용하여 모든 문자열 정보를 동일한 문자 코드로 변환(또는, 표준화)한다. 이때, 상기 코드 변환부(206)는, 미리 설정된 코드 변환표를 근거로 임의의 프로그램(예를 들어, 유닉스 기반의 아이콘브(iconv)를 포함하는 오픈 소스 프로그램 등 포함)에서 구현할 수 있다.
또한, 상기 코드 변환부(206)는, 상기 표준화된(또는, 상기 변환된) 문자열 정보를 상기 태거(207)에 전달한다.
상기 태거(또는, 태거 모듈)(207)는, 상기 코드 변환부(206)로부터 전달되는 표준화된 문자열 정보를 수신한다.
또한, 상기 태거(tagger)(207)는, 렌더링을 대체하여 문자열 속성을 제공하기 위해서, 상기 코드 변환부(206)에서 표준화된 문자열 정보에 검색 엔진이나 문서 보안 등의 애플리케이션 프로그램에 필요한 미리 설정된 정보(또는, 태그)를 부가(또는, 태깅)한다. 이때, 상기 미리 설정된 정보는, 파일명, 페이지 번호, 문단 속성(예를 들어, 문단 구분 등 포함), 글자 속성(예를 들어, 글자 크기 등 포함), 파일 종류(또는, 콘텐츠 종류)에 따른 부가 정보(예를 들어, MP3 파일의 경우, 아티스트, 앨범, 장르 등 포함) 등과 같이, 상기 전자 문서를 생성한 애플리케이션 프로그램에 따라 다양한 부가 정보를 포함할 수 있으며, 상기 애플리케이션 프로그램에서 필요로 하는 미리 설정된 정보는, 상기 저장부(210)에 미리 저장되며, 상기 태거(207)를 통해 사용하도록 구성할 수 있다.
또한, 상기 태거(207)는, 상기 표준화된 문자열 정보에 상기 미리 설정된 정보를 부가할 때, 미리 설정된 태그(또는, 마크업)를 상기 문자열 정보 앞 부분에 부가한다. 이때, 상기 미리 설정된 태그는, "..", "##", "<" 등뿐만 아니라, XML 기반의 마크업, HTML 또는 XHTML 등의 웹 관련 마크업, 티로프(troff)나 레이텍(LaTeX) 등과 같은 컴퓨터 기반 조판 시스템의 마크업 등일 수 있다.
또한, 상기 태거(207)는, 상기 태깅된 문자열 정보를 상기 문서 송신부(208)에 전달한다. 이때, 상기 태깅된 문자열 정보는, 임의의 데이터 스트림 형태일 수도 있고 또는, 임의의 파일 형태(예를 들어, 상기 태깅된 문자열 정보를 포함하는 텍스트 파일)일 수도 있다.
또한, 상기 문자열 추출 시스템(200)의 구성에서, 상기 문자열 버퍼 관리부(205)가 상기 문서 분석부(204)로부터 전달되는 문자열 정보를 수신하고, 상기 코드 변환부(206)가 상기 문자열 버퍼 관리부(205)로부터 전달되는 문자열 정보를 수신한 후 상기 수신된 문자열 정보를 상기 미리 설정된 문자 코드를 근거로 표준화하고, 상기 태거(207)가 상기 코드 변환부(206)로부터 전달되는 상기 표준화된 문자열 정보를 수신한 후 상기 수신된 표준화된 문자열 정보에 상기 미리 설정된 정보(또는, 태그)를 태깅하는 것으로 설명하고 있으나, 이에 한정되지 않으며, 상기 코드 변환부(206)가 상기 문서 분석부(204)로부터 전달되는 문자열 정보를 수신한 후 상기 수신된 문자열 정보를 상기 미리 설정된 문자 코드를 근거로 표준화하고, 상기 문자열 버퍼 관리부(205)가 상기 코드 변환부(206)로부터 전달되는 표준화된 문자열 정보를 수신하고, 상기 태거(207)가 상기 문자열 버퍼 관리부(205)로부터 전달되는 상기 표준화된 문자열 정보를 수신한 후 상기 수신된 표준화된 문자열 정보에 상기 미리 설정된 정보(또는, 태그)를 태깅하도록 구성할 수도 있다.
상기 문서 송신부(208)는, 상기 태거(207)로부터 전달되는 태깅된 문자열 정보(또는, 상기 미리 설정된 정보가 부가된 문자열 정보)를 수신한다.
또한, 상기 문서 송신부(208)는, 상기 태깅된 문자열 정보를 임의의 상기 출력 장치(300)에 전달(또는, 전송)한다.
상기 사용자 인터페이스부(또는, 사용자 인터페이스 모듈)(209)는, 상기 문서 포맷 탐지부(202)를 통해 임의의 전자 문서의 분석이 실패한 경우, 상기 전자 문서 분석 실패에 대한 정보를 출력한다.
또한, 상기 사용자 인터페이스부(User Interface : UI)(209)는, 상기 실패한 전자 문서에 대한 정보를 모니터링이나 로깅(logging) 등의 목적을 위해 선택적으로 활용할 수 있다.
또한, 상기 사용자 인터페이스부(209)는, 임의의 커맨드 라인 인터페이스(CLI), 그래픽 사용자 인터페이스(GUI) 및, 애플리케이션 프로그래밍 인터페이스(Application Programming Interface : API) 등의 형태로 구현할 수 있다.
상기 저장부(또는, 저장 모듈)(210)는, 다양한 사용자 인터페이스(UI) 및/또는 그래픽 사용자 인터페이스(GUI)를 저장한다.
또한, 상기 저장부(또는, 메모리)(210)는, 상기 문자열 추출 시스템(200)이 동작하는데 필요한 데이터와 프로그램 등을 저장한다.
또한, 상기 저장부(210)는, 플래시 메모리 타입(Flash Memory Type), 하드 디스크 타입(Hard Disk Type), 멀티미디어 카드 마이크로 타입(Multimedia Card Micro Type), 카드 타입의 메모리(예를 들면, SD 또는 XD 메모리 등), 자기 메모리, 자기 디스크, 광디스크, 램(Random Access Memory : RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory : ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 중 적어도 하나의 저장매체를 포함할 수 있다. 또한, 상기 문자열 추출 시스템(200)은 인터넷(internet)상에서 상기 저장부(210)의 저장 기능을 수행하는 웹 스토리지(web storage)를 운영하거나, 또는 상기 웹 스토리지와 관련되어 동작할 수도 있다.
또한, 상기 저장부(210)는, 상기 문서 수신부(201)를 통해 수신되는 각종 정보(예를 들어, 콘텐츠, 전자 문서, 제어 신호 등 포함)를 저장한다.
또한, 상기 저장부(210)는, 상기 복수의 문서 분석부(204)로부터 복수의 전자 문서에 대해 각각 확인되는 해당 전자 문서의 속성 정보, 페이지 속성 정보, 문자열 속성 정보 및, 문자열 내용 등을 포함하는 전자 문서별 문자열 정보를 저장한다.
또한, 상기 문자열 추출 시스템(200)에 포함된 상기 문자열 버퍼 관리부(205)와 상기 저장부(210)는, 하나의 구성 요소로 구현할 수도 있다. 즉, 상기 문자열 추출 시스템(200)은, 상기 저장부(210)의 임의의 저장 공간을 할당하여, 상기 할당된 저장 공간을 상기 문자열 정보를 저장하기 위한 상기 문자열 버퍼 관리부(205)의 버퍼로 활용할 수도 있다.
또한, 상기 문자열 추출 시스템(200)에 포함된 상기 문서 수신부(201)와 상기 문서 송신부(208)는, 하나의 통신부(또는, 통신 모듈)(미도시)로 구현할 수도 있다.
상기 통신부는, 유/무선 통신망을 통해 내부의 임의의 구성 요소 또는 외부의 임의의 단말기(예를 들어, 상기 입력 장치(100), 상기 출력 장치(300) 등 포함)와 통신 연결한다. 여기서, 상기 무선 인터넷 기술로는, 무선랜(Wireless LAN : WLAN), 와이 파이(Wi-Fi), 와이브로(Wireless Broadband : Wibro), 와이맥스(World Interoperability for Microwave Access : Wimax), HSDPA(High Speed Downlink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution : LTE), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service : WMBS) 등이 포함될 수 있다. 또한, 근거리 통신 기술로는, 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association : IrDA), UWB(Ultra Wideband), 지그비(ZigBee), 인접 자장 통신(Near Field Communication; NFC) 등이 포함될 수 있다. 또한, 유선 통신 기술로는, 전력선 통신(Power Line Communication : PLC), USB 통신, 이더넷(Ethernet), 시리얼 통신(serial communication), 광/동축 케이블 등이 포함될 수 있다.
또한, 상기 통신부는, 상기 다양한 입력 장치(100)로부터 전달되는 다양한 형태의 전자 문서를 수신하고, 상기 태거(207)에 의해 태깅된 문자열 정보를 임의의 상기 출력 장치(300)에 전달한다.
또한, 상기 문자열 추출 시스템(200)은, 상기 저장부(210)에 저장된 사용자 인터페이스 및/또는 그래픽 사용자 인터페이스를 이용하여 다양한 메뉴 화면 등과 같은 다양한 콘텐츠를 표시하는 표시부(미도시)를 더 포함할 수 있다. 여기서, 상기 표시부에 표시되는 콘텐츠는, 다양한 텍스트 또는 이미지 데이터(각종 정보 데이터 포함)와 아이콘, 리스트 메뉴, 콤보 박스 등의 데이터를 포함하는 메뉴 화면 등을 포함한다. 또한, 상기 표시부는, 터치 스크린 일 수 있다.
또한, 상기 표시부는, 액정 디스플레이(Liquid Crystal Display : LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display : TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode : OLED), 플렉시블 디스플레이(Flexible Display), 3차원 디스플레이(3D Display), 전자잉크 디스플레이(e-ink display) 중에서 적어도 하나를 포함할 수 있다.
또한, 상기 문자열 추출 시스템(200)은, 소정 신호 처리된 신호에 포함된 음성 정보를 출력하는 음성 출력부(미도시)를 더 포함할 수 있다. 여기서, 상기 음성 출력부는, 스피커가 될 수도 있다.
또한, 상기 문자열 추출 시스템(200)은, 사용자에 의한 버튼 조작 또는 임의의 기능 선택에 따른 신호를 수신하거나, 디스플레이되는 화면을 터치/스크롤하는 등의 조작에 의해 생성된 명령 또는 제어 신호를 수신하는 입력부(미도시)를 더 포함할 수 있다.
또한, 상기 입력부는, 사용자에 의해 입력된 정보에 대응하는 신호를 수신하며, 키 패드(Key Pad), 돔 스위치 (Dome Switch), 터치 패드(정압/정전), 터치 스크린(Touch Screen), 조그 휠, 조그 스위치, 조그 셔틀(Jog Shuttle), 마우스(mouse), 스타일러스 펜(Stylus Pen), 터치 펜(Touch Pen) 등의 다양한 장치가 사용될 수 있다.
이와 같이, 상기 문자열 추출 시스템(200)은, 상기 입력 장치(100)로부터 전달된 전자 문서에서 문자열을 추출하기 위해서 상기 전자 문서가 문자열 추출이 가능한 전자 문서인지 아닌지 여부를 확인(또는, 탐지)한다.
또한, 상기 문자열 추출 시스템(200)은, 고속으로 문서 포맷을 탐지하기 위해서 문자열 추출이 가능한 전자 문서에 대한 핑거프린트를 미리 저장하고 있으며, 상기 전자 문서에 대응하는 해당 핑거프린트를 가지고 있는 않은 전자 문서들에 대해서는 상기 문서 분석부(204) 등을 통한 문자열 추출 과정을 수행하지 않고, 문자열 추출 과정을 종료(또는, 실패)한다.
이와 같이, 상기 문자열 추출 시스템(200)은, 문자열을 가지고 있지 않아서 처리할 필요가 없거나, 해당 전자 문서 포맷에 대한 문서 분석부(204)를 구비하지 못한 전자 문서들을 빠르게 실패시켜, 전체 문서의 처리 속도를 향상시킬 수 있다.
또한, 상기 문자열 추출 시스템(200)에 포함된 각각의 구성 요소들은, 하나의 프로세스 또는 구조로 구현될 수 있다. 즉, 상기 문자열 추출 시스템(200)에 포함된 상기 문서 수신부(201), 상기 문서 포맷 탐지부(202), 상기 문서 버전 확인부(203), 상기 복수의 문서 분석부(204), 상기 문자열 버퍼 관리부(205), 상기 코드 변환부(206), 상기 태거(207), 상기 문서 송신부(208), 상기 사용자 인터페이스부(209) 및, 상기 저장부(210) 중 적어도 하나의 구성 요소는, 반도체 장치와 같은 하드웨어 요소로 선택적으로 구현될 수도 있다. 또한, 상기 문자열 추출 시스템(200)은, 상기와 같이 하나의 시스템으로 구현될 수도 있을 뿐만 아니라, 단일 컴퓨터 프로세스로 구현될 수도 있고, 여러 개의 플랫폼에 분포되어 작동할 수도 있고, 각 구성 요소가 실시간으로 입출력을 연계하지 않고 상이한 시간에 연계(또는, 연동)하여 작동할 수도 있다.
상기 출력 장치(300)는, 상기 문서 송신부(208)로부터 전달되는 태깅된 문자열 정보(또는, 상기 미리 설정된 정보가 부가된 문자열 정보)를 수신한다. 여기서, 상기 출력 장치(300)는, 임의의 파일 시스템, 메모리, 데이터베이스, 검색 엔진이나 문서 보안 등의 임의의 애플리케이션 프로세스/프로그램, 터미널, 네트워크 서버 등 중 어느 하나일 수 있다. 이때, 상기 출력 장치(300)는, 단순 문자열뿐만 아니라 상기 문자열에 임의의 미리 설정된 정보를 더하는 다양한 태그가 포함된 문자열 정보 또는 복수의 파일 형태의 문자열 정보를 수신할 수도 있다.
또한, 상기 출력 장치(300)는, 상기 수신된 태깅된 문자열 정보를 근거로 임의의 기능(예를 들어, 태깅된 문자열 정보의 저장 및 관리, 태깅된 문자열 정보를 근거로 임의의 검색 엔진 등의 애플리케이션 프로그램을 통한 데이터 처리 등)을 수행한다.
또한, 상기 기재된 실시예에서 상기 입력 장치(100)와 상기 출력 장치(300)는, 일반적인 파일 시스템을 통해 문자열을 입/출력하는 것으로 설명하고 있으나, 이에 한정되지 않으며 상기 기재된 다양한 입/출력 장치를 통해 문자열을 입/출력하도록 구성할 수 있다.
이와 같이, 전자 문서를 생성 및 관리하는 임의의 애플리케이션 프로그램의 문자열 추출 기능을 분리하여, 상기 문자열 추출 기능을 수행할 수 있다.
또한, 이와 같이, 전자 문서에서 임의의 문자열을 추출할 때, 상기 전자 문서를 생성한 애플리케이션 프로그램이 제공되지 않아도 상기 전자 문서에서 문자열을 추출할 수 있다.
또한, 이와 같이, 상이한 복수의 애플리케이션 프로그램에서 각각 생성된 복수의 전자 문서를 미리 설정된 동일한 포맷의 문자열로 추출할 수 있다.
이하에서는, 본 명세서에 따른 문자열 추출 방법을 도 1 내지 도 4를 참조하여 상세히 설명한다.
도 3은 본 명세서의 일 실시예에 따른 문자열 추출 방법을 나타낸 흐름도이다.
먼저, 문서 수신부(201)는, 임의의 입력 장치(100)로부터 전달(또는, 전송)되는 하나 이상의 전자 문서를 수신한다. 여기서, 상기 입력 장치(100)는, 임의의 파일 시스템, 메모리, 데이터베이스, 검색 엔진이나 문서 보안 등의 임의의 애플리케이션 프로세스/프로그램, 터미널, 네트워크 서버 등 중 어느 하나일 수 있다. 또한, 상기 전자 문서는, 상기 입력 장치(100)에 설치된 임의의 애플리케이션 프로그램을 통해 생성되며, 텍스트, 오피스 문서, 웹 페이지, XML 문서, 압축 파일, 네트워크 스트림에 포함된 문서 데이터 등의 임의의 문자열 등이 포함된 다양한 형태의 데이터를 포함한다. 이때, 상기 전자 문서를 생성하는 애플리케이션 프로그램은, 문서 작성 프로그램(예를 들어, 아래아한글, 워드 등 포함), 프레젠테이션 프로그램(예를 들어, 파워포인트, 키노트(Keynote) 등 포함), 스프레드시트 프로그램(예를 들어, 엑셀 등 포함), 오픈소스 오피스 프로그램(예를 들어, 스타오피스, 오픈오피스, 리브레오피스 등 포함), 웹 페이지 생성 프로그램(예를 들어, HTML 형식의 웹 페이지를 생성하는 드림위버, 나모웹 에디터 등 포함), PDF 파일 생성 프로그램(예를 들어, 아크로뱃 프로그램 등 포함), 메일 프로그램(예를 들어, MIME 포맷을 지원하는 아웃룩 등 포함), 수치 자료 및 문자열이 포함된 레코드를 생성하는 데이터베이스 프로그램, 표준화된 서식으로 저장된 자료를 주고받는 EDI(Electronic Data Interchange) 프로그램, XML을 이용하여 정보를 저장하는 다양한 응용 프로그램, 여러 종류의 전자 문서의 크기를 줄이는 파일 압축 프로그램, 문자열을 포함하고 있는 임의의 전자 문서 생성 애플리케이션 프로그램 등 중 어느 하나일 수 있다. 또한, 상기 애플리케이션 프로그램은, 상기 기재된 프로그램 이외에도, MHT(Mime HTML) 문서, CHM(Compiled Html Help) 문서, EML(E-mail) 문서, MIME 문서, MP3 태그, 리치 텍스트 포맷(RTF), 핸디소프트 아리랑(HWD), 일태랑(JTD), 마이크로소프트 문서 이미징(MDI), 워드퍼펙트(WPD), 유니코드(UCS-2, UCS-4, UTF-8, BIG-ENDIAN, LITTLE-ENDIAN) 텍스트 파일 등을 지원하는 프로그램 등을 포함할 수 있다.
또한, 상기 문서 수신부(201)는, 상기 수신된 전자 문서를 문서 포맷 탐지부(202)에 전달(또는, 전송)한다.
일 예로, 상기 문서 수신부(201)는, 폴링 방식, 이벤트 방식 및, 배치 방식 중 어느 하나의 방식을 통해 상기 수신된 전자 문서를 상기 문서 포맷 탐지부(202)에 전달한다. 여기서, 상기 폴링 방식은, 상기 문서 포맷 탐지부(202)에 전자 문서를 전달하기 위해서 주기적으로 문서의 존재를 확인하여 전자 문서가 존재할 때 해당 전자 문서를 상기 문서 포맷 탐지부(202)에 전달하는 방식이고, 상기 이벤트 방식은, 상기 문서 포맷 탐지부(202)를 동작시키기 위한 미리 설정된 이벤트가 발생할 때 해당 전자 문서를 상기 문서 포맷 탐지부(202)에 전달하는 방식이고, 상기 배치 방식은, 상기 수신된 전자 문서를 단순히 저장하고 있다가 사용자 인터페이스 등을 통해 문자열 추출 명령이 수신될 때 해당 전자 문서를 상기 문서 포맷 탐지부(202)에 전달하는 방식이다(S310).
이후, 상기 문서 포맷 탐지부(202)는, 상기 문서 수신부(201)로부터 전달되는 전자 문서를 수신한다.
또한, 상기 문서 포맷 탐지부(202)는, 문자열 추출이 가능한 전자 문서 포맷에 대해 미리 설정된 하나 이상의 핑거프린트 테이블 구성, 메모리 공간 및, 데이터 구조 등에 대한 초기화 기능을 수행한다. 여기서, 상기 핑거프린트는, 아스키 문자열, 바이트 스트림, 수치형 자료 등과 같이 다양한 형태일 수 있다. 또한, 상기 핑거프린트는, 상기 [표 1]에 나타낸 바와 같이, 상기 형태(또는, 형태 항목) 이외에도, 내용 항목, 오프셋 항목, 길이 항목, 연산자 항목 및, 포맷 코드 항목 등을 포함할 수 있다.
즉, 상기 문서 포맷 탐지부(202)는, 문서 포맷 탐지에 필요한 메모리 공간 및 데이터 구조를 초기화한다.
일 예로, 상기 문서 포맷 탐지부(202)는, 임의의 저장 공간에 미리 저장된 상기 미리 설정된 핑거프린트(예를 들어, 항목(예), 형태(ASCII Text), 내용(HWP Document File V), 오프셋(0), 길이(19), 연산자(Equal), 포맷코드(60310) 등 포함)를 읽어들여 저장부(210)의 특정 메모리 공간에 위치시킨다(S320).
이후, 상기 문서 포맷 탐지부(202)는, 상기 하나 이상의 핑거프린트 중에서 상기 수신된 전자 문서에 매핑되는 핑거프린트를 확인한다.
즉, 상기 문서 포맷 탐지부(202)는, 상기 하나 이상의 핑거프린트 각각을 상기 수신된 전자 문서와 비교(또는, 대조)하여, 상기 전자 문서에 일치하는(또는, 대응하는) 핑거프린트를 확인한다.
일 예로, 상기 문서 포맷 탐지부(202)는, 상기 미리 설정된 핑거프린트(예를 들어, 항목(예), 형태(ASCII Text), 내용(HWP Document File V), 오프셋(0), 길이(19), 연산자(Equal), 포맷 코드(60310) 등 포함)가 상기 수신된 전자 문서와 일치하는지 확인한다.
즉, 상기 문서 포맷 탐지부(202)는, 상기 수신된 전자 문서의 오프셋 0부터 18번째 자리(전체 길이가 상기 길이 19)까지의 바이너리 코드(binary code)가 아스키(ASCII) 형태의 텍스트이고, 상기 내용(HWP Document File V)과 동일한지(상기 연산자 Equal) 여부를 확인한다(S330).
이후, 상기 문서 포맷 탐지부(202)는, 상기 확인 결과, 상기 하나 이상의 핑거프린트 중에서 상기 수신된 전자 문서에 일치하는 핑거프린트가 존재하지 않는 경우, 사용자 인터페이스부(209)를 통해 문자열 추출이 불가함을 출력한다(S340).
또한, 상기 문서 포맷 탐지부(202)는, 상기 확인 결과, 상기 하나 이상의 핑거프린트 중에서 상기 수신된 전자 문서에 일치하는 핑거프린트가 존재하는 경우, 상기 일치된 핑거프린트에 대한 정보 및 상기 전자 문서를 문서 버전 확인부(203)에 전달한다.
일 예로, 상기 문서 포맷 탐지부(202)는, 상기 전자 문서의 오프셋 0부터 18번째 자리(전체 길이가 상기 길이 19)까지의 바이너리 코드가 아스키 형태의 텍스트이고 상기 내용(HWP Document File V)과 동일(상기 연산자 Equal)하면, 상기 해당 전자 문서가 상기 포맷 코드(60310 = HWP 문서)인 것으로 확인(또는, 판단)하고, 상기 미리 설정된 핑거프린트에 대한 정보 및 상기 전자 문서를 상기 문서 버전 확인부(203)에 전달한다(S350).
이후, 상기 문서 버전 확인부(203)는, 상기 문서 포맷 탐지부(202)로부터 전달되는 상기 핑거프린트에 대한 정보(또는, 상기 전자 문서에 매핑된/일치된/대응된 핑거프린트에 대한 정보) 및 상기 전자 문서를 수신한다.
또한, 상기 문서 버전 확인부(203)는, 상기 핑거프린트에 대한 정보 및 상기 전자 문서를 근거로 상기 전자 문서의 버전 정보(또는, 상기 전자 문서와 관련된 프로그램의 버전/버전 정보) 및 상기 전자 문서가 상기 해당 버전의 전자 문서가 가져야하는 필수 구조를 가지고 있는지 여부를 확인한다.
일 예로, 상기 문서 버전 확인부(203)는, 상기 전자 문서의 바이너리 코드를 확인하여 상기 해당 전자 문서와 관련된 HWP 응용 프로그램의 버전(또는, 버전 정보) 및, 해당 HWP 응용 프로그램의 버전의 전자 문서가 가져야하는 필수 구조를 상기 전자 문서가 가지고 있는지 여부를 확인한다(S360).
이후, 상기 문서 버전 확인부(203)는, 렌더링 기능을 포함하는 않는 복수의 문서 분석부(204) 중에서 상기 일치된 핑거프린트에 대한 정보에 대응하는 특정 문서 분석부(204)에 상기 전자 문서를 전달한다.
일 예로, 상기 문서 버전 확인부(203)는, 상기 복수의 문서 분석부(204) 중에서 상기 포맷 코드가 "60310"인 HWP 문서 파일의 핑거프린트에 대한 정보에 대응하는 임의의 문서 분석부(204)에 상기 전자 문서를 전달한다(S370).
이후, 상기 문서 분석부(204)는, 상기 문서 버전 확인부(203)로부터 전달되는 전자 문서를 수신한다.
또한, 상기 문서 분석부(204)는, 문서 분석에 필요한 메모리 공간과 데이터 구조를 초기화하고 상기 수신된 전자 문서의 속성 정보를 확인(또는, 판독)한다. 여기서, 상기 전자 문서의 속성 정보는, 일반 정보(예를 들어, 파일명, 파일 크기, 파일 위치, 작성자, 작성 일자 등 포함), 통계 정보(예를 들어, 슬라이드 수(또는, 페이지 수), 단어 수, 단락 수 등 포함) 등을 포함한다.
또한, 상기 문서 분석부(204)는, 상기 확인된 전자 문서의 속성 정보를 문자열 버퍼 관리부(205)에 전달한다(S380).
이후, 상기 문서 분석부(204)는, 상기 전자 문서에 포함된 페이지 객체 리스트를 확인한다.
즉, 상기 문서 분석부(204)는, 상기 전자 문서에 포함된 페이지 객체를 분석하고, 상기 분석 결과를 근거로 상기 전자 문서에 포함된 하나 이상의 페이지 객체 리스트를 확인하거나 상기 전자 문서를 복수의 페이지로 분할한다.
일 예로, 상기 문서 분석부(204)는, 각각의 페이지가 슬라이드 형태로 구성된 파워포인트 형태의 전자 문서에 포함된 페이지 객체(또는, 슬라이드 객체)를 분석하고, 상기 분석 결과를 근거로 상기 전자 문서를 복수의 슬라이드(또는, 페이지)로 분할한다. 이때, 상기 문서 분석부(204)는, 상기 슬라이드 객체의 본체를 임의의 메모리 상에 모두 보유할 수도 있고 또는, 상기 슬라이드 객체의 위치 포인터만을 저장하는 자료 구조로 보유할 수도 있다(S390).
이후, 상기 문서 분석부(204)는, 상기 확인된 페이지 객체 리스트에 포함된 각 페이지 객체별 속성 정보를 확인(또는, 판독)한다.
즉, 상기 문서 분석부(204)는, 상기 전자 문서에 포함된 페이지에 대한 페이지 속성 정보(또는, 상기 분할된 복수의 페이지별 속성 정보)를 확인(또는, 판독)한다. 여기서, 상기 페이지 속성 정보는, 페이지 번호, 용지 크기, 용지 방향, 마스터 여부 등에 대한 정보를 포함한다.
일 예로, 상기 문서 분석부(204)는, 상기 슬라이드 형태로 구성된 파워포인트 형태의 전자 문서에 대해서, 각각의 슬라이드(또는, 페이지)에 대한 속성 정보를 확인한다.
또한, 상기 문서 분석부(204)는, 상기 확인된 페이지 속성 정보를 상기 문자열 버퍼 관리부(205)에 전달한다(S400).
이후, 상기 문서 분석부(204)는, 각 페이지 내에 포함된 내부 객체(또는, 페이지 내부 객체) 리스트를 확인한다.
즉, 상기 문서 분석부(204)는, 상기 전자 문서에 포함된 하나 이상의 페이지 객체 리스트 또는 상기 분할된 복수의 페이지 각각에 대해서 각 페이지 내의 내부 객체를 분석하고, 상기 분석 결과를 근거로 각 페이지에 포함된 하나 이상의 내부 객체 리스트를 확인하거나 상기 각 페이지에 포함된 하나 이상의 내부 객체를 분할한다.
일 예로, 상기 문서 분석부(204)는, 상기 분할된 복수의 슬라이드(또는, 상기 분할된 복수의 슬라이드 객체)에 포함된 내부 객체 컨테이너를 구분(또는, 확인)하고, 상기 구분된 내부 객체 컨테이너를 근거로 상기 복수의 슬라이드 각각에 포함된 하나 이상의 내부 객체 컨테이너를 분할한다. 이때, 상기 문서 분석부(204)는, 상기 내부 객체 컨테이너의 본체를 임의의 메모리 상에 모두 보유할 수도 있고 또는, 상기 내부 객체 컨테이너의 위치 포인터만을 저장하는 자료 구조로 보유할 수도 있다(S410).
이후, 상기 문서 분석부(204)는, 상기 각 페이지 내에 포함된 내부 객체 리스트에 포함된 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체를 확인한다.
즉, 상기 문서 분석부(204)는, 상기 확인된 내부 객체 내에 문자열이 포함되어 있는지 여부를 판단(또는, 확인)한다.
일 예로, 상기 문서 분석부(204)는, 상기 각 페이지가 슬라이드 형태로 구성된 파워포인트 형태의 전자 문서에 포함된 각 슬라이드 내에 포함된 하나 이상의 내부 객체 중에서, 각각의 상기 하나 이상의 내부 객체가 슬라이드 제목, 내용, 표 등과 같은 문자열을 포함하는 객체(또는, 내부 객체)인지 또는, 이미지 등과 같은 문자열을 포함하지 않는 객체인지 여부를 확인한다. 이때, 상기 문서 분석부(204)는, 도형이나 차트 등의 객체에 대해서는, 각각의 객체가 문자열을 포함하고 있는지를 좀더 세밀하게 확인해야하며, 이러한 객체(예를 들어, 상기 도형이나 차트 등의 객체)의 판별은 개별 전자 문서 포맷에 의해 결정된다(S420).
이후, 상기 문서 분석부(204)는, 상기 확인 결과(또는, 상기 S420 단계에서의 확인 결과), 상기 각 페이지 내에 포함된 내부 객체 리스트에 포함된 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체가 존재하지 않는 경우, 나머지 다른 페이지 각각에 대해서 상기 페이지 내에 포함된 하나 이상의 내부 객체 중에서 문자열이 포함되어 있는지 여부를 확인하는 상기 단계(S420 단계)를 반복적으로 수행한다.
즉, 상기 문서 분석부(204)는, 상기 판단 결과, 상기 확인된 내부 객체 내에 문자열이 포함되어 있지 않은 경우, 상기 분할된 모든 페이지에 각각 포함된 모든 내부 객체 내에 문자열이 포함되어 있는지 여부를 확인한다.
또한, 상기 문서 분석부(204)는, 상기 확인 결과(또는, 상기 S420 단계에서의 확인 결과), 상기 각 페이지 내에 포함된 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체가 존재하는 경우, 해당 내부 객체에 포함된 문자열의 속성 정보 및/또는 문자열의 내용을 확인한다. 이때, 상기 문자열 속성 정보는, 문자 코드, 폰트, 위치, 크기, 길이, 자간, 줄간, 색상, 스타일 등을 포함한다. 또한, 상기 문서 분석부(204)는, 상기 내부 객체가 상위 객체의 속성을 상속받은 경우, 상기 상위 객체의 속성 정보를 함께 확인할 수 있다.
이후, 상기 문서 분석부(204)는, 문자열의 내용과 상기 확인된 문자열 속성 정보를 상기 문자열 버퍼 관리부(205)에 전달한다(S430).
이후, 상기 문자열 버퍼 관리부(205)는, 상기 문서 분석부(204)로부터 전달되는 상기 확인된 전자 문서의 속성 정보, 상기 확인된 페이지 속성 정보, 상기 확인된 문자열 속성 정보 및, 문자열의 내용 등을 포함하는 문자열 정보를 수신한다. 여기서, 상기 전자 문서의 속성 정보는, 일반 정보(예를 들어, 파일명, 파일 크기, 파일 위치, 작성자, 작성 일자 등 포함), 통계 정보(예를 들어, 슬라이드 수(또는, 페이지 수), 단어 수, 단락 수 등 포함) 등을 포함한다. 또한, 상기 페이지 속성 정보는, 페이지 번호, 용지 크기, 용지 방향, 마스터 여부 등에 대한 정보를 포함한다. 또한, 상기 문자열 속성 정보는, 문자 코드, 폰트, 위치, 크기, 길이, 자간, 줄간, 색상, 스타일 등을 포함한다.
또한, 상기 문자열 버퍼 관리부(205)는, 상기 수신된 문자열 정보를 저장 및 관리한다. 이때, 상기 문자열 버퍼 관리부(205)는, 상기 수신된 문자열 정보를 저장하기 위한 버퍼를 구비하며, 상기 버퍼의 크기는 시스템 메모리 용량(또는, 상기 저장부(210)의 용량)에 따라 다양하게 설정할 수 있다. 또한, 상기 문자열 버퍼 관리부(205)는, 상기 버퍼에 문자열(또는, 문자열 정보)이 가득 차기 전에 상기 버퍼를 비우도록 제어하여 새로운 문자열이 저장될 수 있도록 구성한다.
또한, 상기 문자열 버퍼 관리부(205)는, 상기 수신된 문자열 정보를 코드 변환부(206)에 전달한다(S440).
이후, 상기 코드 변환부(206)는, 상기 문자열 버퍼 관리부(205)로부터 전달되는 문자열 정보를 수신한다.
또한, 상기 코드 변환부(206)는, 상기 사용자 인터페이스부(209) 또는 상기 저장부(210)에 미리 설정된(또는, 저장된) 문자 코드(또는, 미리 설정된 설정 정보)를 근거로 상기 수신된 문자열 정보를 표준화(또는, 변환)한다. 여기서, 상기 미리 설정된 문자 코드는, 아스키 코드, 유니코드, ISO 8859, EUC, MS 윈도 코드(예를 들어, 윈도 1250(Windows 1250), CP949 등 포함), 일본어권에서 사용되는 문자 코드(예를 들어, JIS X 0208, Shift-JIS 등 포함), 중국어권에서 사용되는 문자 코드(예를 들어, GB 2312, Big5 등 포함), 국내 표준으로 사용되는 문자 코드(예를 들어, KS X 1001 등 포함) 등을 포함한다.
즉, 상기 코드 변환부(206)는, 상기 사용자 인터페이스부(209) 또는 상기 저장부(210)에 미리 설정된 문자 코드를 상기 수신된 문자열 정보에 적용하여 모든 문자열 정보를 동일한 문자 코드로 변환(또는, 표준화)한다. 이때, 상기 코드 변환부(206)는, 미리 설정된 코드 변환표를 근거로 임의의 프로그램(예를 들어, 유닉스 기반의 아이콘브(iconv)를 포함하는 오픈 소스 프로그램 등 포함)에서 구현할 수 있다(S450).
이후, 태거(207)는, 상기 코드 변환부(206)에서 표준화된 문자열 정보에 검색 엔진이나 문서 보안 등의 애플리케이션 프로그램에 필요한 미리 설정된 정보(또는, 태그)를 부가(또는, 태깅)한다. 이때, 상기 미리 설정된 정보는, 파일명, 페이지 번호, 문단 속성(예를 들어, 문단 구분 등 포함), 글자 속성(예를 들어, 글자 크기 등 포함), 파일 종류(또는, 콘텐츠 종류)에 따른 부가 정보(예를 들어, MP3 파일의 경우, 아티스트, 앨범, 장르 등 포함) 등을 포함한다. 또한, 상기 태거(207)는, 상기 문자열 정보에 상기 정보를 부가할 때, 미리 설정된 태그(또는, 마크업)를 상기 문자열 정보 앞 부분에 부가한다. 이때, 상기 미리 설정된 태그는, "..", "##", "<" 등뿐만 아니라, XML 기반의 마크업, HTML 또는 XHTML 등의 웹 관련 마크업, 티로프(TROFF)나 레이텍(LaTeX) 등과 같은 컴퓨터 기반 조판 시스템의 마크업 등일 수 있다.
일 예로, 상기 태거(207)는, 도 4에 도시한 바와 같이, 상기 코드 변환부(206)에서 표준화된 문자열 정보에 미리 설정된 태그를 부가한다. 이때, 상기 도 4에 도시한 바와 같이, 파일명 정보는 "..FILE:파일명.확장자"(예를 들어, '..FILE:파워포인트.ppt', '..FILE:아래아한글.hwp', '..FILE:타이타닉주제가.mp3' 등)(410) 형태로 표현되고, 페이지 정보는 "..PAGE:페이지번호"(예를 들어, '..PAGE:1', '..PAGE:2' 등)(420) 형태로 표현되고, 상기 표준화된 문자열 정보에 포함된 해당 페이지 제목(예를 들어, '첫 페이지 제목', '두 번째 페이지 제목' 등)(430), 해당 페이지 내용(예를 들어, '첫 페이지 내용', '두 번째 페이지 내용', '첫 페이지 첫 줄', '두 번째 페이지 첫 줄' 등)(440) 등이 각각 표시되고, 파일 중에 mp3 파일이 포함된 경우 mp3 파일의 형식(예를 들어, "..TYPE:Mp3 Audio File")(450), mp3 파일의 제목(예를 들어, "..TITLE:My Heart Will Go On (Movie)")(460), mp3 파일의 아티스트(예를 들어, "..ARTIST:Celin Dion")(470), mp3 파일의 장르(예를 들어, "..Genre:Soundtrack")(480) 등이 각각 표시될 수 있다(S460).
이후, 문서 송신부(208)는, 상기 태거(207)에 의해 상기 미리 설정된 정보가 부가된 문자열 정보(또는, 태깅된 문자열 정보)를 임의의 출력 장치(300)에 전달한다. 여기서, 상기 출력 장치(300)는, 임의의 파일 시스템, 메모리, 데이터베이스, 검색 엔진이나 문서 보안 등의 임의의 애플리케이션 프로세스/프로그램, 터미널, 네트워크 서버 등 중 어느 하나일 수 있다(S470).
본 명세서의 실시예는 앞서 설명한 바와 같이, 전자 문서를 생성 및 관리하는 임의의 애플리케이션 프로그램의 문자열 추출 기능을 분리하여, 상기 문자열 추출 기능을 수행하여, 상기 애플리케이션 프로그램이 문자열 이외의 객체를 제어하거나 객체 제어를 위한 인터페이스를 제공할 필요성을 제거하거나 감소시킬 수 있다.
또한, 본 명세서의 실시예는 앞서 설명한 바와 같이, 전자 문서에서 임의의 문자열을 추출할 때, 상기 전자 문서를 생성한 애플리케이션 프로그램이 제공되지 않아도 상기 전자 문서에서 문자열을 추출하여, 상기 애플리케이션 프로그램이 문자열 추출 기능을 제공하지 않아도 되며, 메모리 사용 효율을 향상시킬 수 있다.
또한, 본 명세서의 실시예는 앞서 설명한 바와 같이, 상이한 복수의 애플리케이션 프로그램에서 각각 생성된 복수의 전자 문서를 미리 설정된 동일한 포맷의 문자열로 추출하여, 전체 문자열 추출 시스템의 성능 및 관리 효율을 향상시킬 수 있다.
전술한 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10: 데이터 처리 시스템 100: 입력 장치
200: 문자열 추출 시스템 300: 출력 장치
201: 문서 수신부 202: 문서 포맷 탐지부
203: 문서 버전 확인부 204: 문서 분석부
205: 문자열 버퍼 관리부 206: 코드 변환부
207: 태거 208: 문서 송신부
209: 사용자 인터페이스부 210: 저장부

Claims (20)

  1. 임의의 입력 장치로부터 전달되는 전자 문서를 수신하고, 상기 수신된 전자 문서에서 문자열을 추출한 후, 상기 추출된 문자열에 미리 설정된 태그를 부가하여 임의의 출력 장치에 전달하는 문자열 추출 시스템에 있어서,
    상기 문자열 추출 시스템은,
    상기 입력 장치로부터 전달되는 전자 문서를 수신하는 문서 수신부;
    제1 레벨로 미리 설정된 하나 이상의 핑거프린트 정보를 근거로 상기 전자 문서에 대응하는 핑거프린트를 확인하는 문서 포맷 탐지부;
    상기 문서 포맷 탐지부로부터 확인된 상기 전자 문서에 대응하는 핑거프린트에 대한 정보 및 상기 전자 문서를 근거로 상기 전자 문서의 버전 정보를 확인하는 제2 레벨 핑거프린트 검사를 수행하고, 대응하는 문서 분석부에 상기 전자 문서를 전달하는 문서 버전 확인부;
    상기 문서 버전 확인부로부터 전달되는 전자 문서를 근거로 상기 전자 문서의 속성 정보, 상기 전자 문서에 포함된 하나 이상의 페이지에 대한 페이지 속성 정보, 각 페이지에 포함되는 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체에 포함된 문자열의 속성 정보 및, 문자열의 내용을 렌더링 없이 각각 확인하는 문서 분석부;
    상기 확인된 문자열 정보를 저장 및 관리하는 문자열 버퍼 관리부;
    미리 설정된 문자 코드를 근거로 상기 문자열 정보를 표준화하는 코드 변환부;
    상기 표준화된 문자열 정보에 렌더링을 대체하여 문자열 속성을 제공하기 위해서 미리 설정된 태그를 태깅하는 태거; 및
    상기 태깅된 문자열 정보를 상기 출력 장치에 전송하는 문서 송신부;를 포함하는 것을 특징으로 하는 문자열 추출 시스템.
  2. 청구항 1에 있어서,
    상기 전자 문서는,
    상기 입력 장치에 설치된 임의의 애플리케이션 프로그램을 통해 생성되며, 임의의 문자열이 포함된 텍스트, 오피스 문서, 웹 페이지, XML 문서, 압축 파일 및, 네트워크 스트림에 포함된 문서 데이터 중 어느 하나인 것을 특징으로 하는 문자열 추출 시스템.
  3. 청구항 1에 있어서,
    상기 핑거프린트는,
    형태 항목, 내용 항목, 오프셋 항목, 길이 항목, 연산자 항목 및, 포맷 코드 항목 중 적어도 하나를 포함하는 것을 특징으로 하는 문자열 추출 시스템.
  4. 청구항 1에 있어서,
    상기 문서 포맷 탐지부는,
    상기 제1 레벨로 미리 설정된 하나 이상의 핑거프린트 정보를 근거로 상기 전자 문서에 대응하는 애플리케이션 프로그램의 종류를 확인하는 것을 특징으로 하는 문자열 추출 시스템.
  5. 청구항 1에 있어서,
    상기 전자 문서의 속성 정보는,
    파일명, 파일 크기, 파일 위치, 작성자 및, 작성 일자 중 적어도 하나를 포함하는 일반 정보와;
    페이지 수, 단어 수 및, 단락 수 중 적어도 하나를 포함하는 통계 정보;를 포함하는 것을 특징으로 하는 문자열 추출 시스템.
  6. 청구항 1에 있어서,
    상기 문서 분석부는,
    상기 전자 문서에 포함된 페이지 객체를 분석하고, 상기 분석 결과를 근거로 상기 전자 문서를 복수의 페이지로 분할하고, 상기 분할된 복수의 페이지 각각에 대한 페이지 속성 정보를 확인하며,
    상기 페이지 속성 정보는,
    페이지 번호, 용지 크기, 용지 방향 및, 마스터 여부 중 적어도 하나를 포함하는 것을 특징으로 하는 문자열 추출 시스템.
  7. 청구항 6에 있어서,
    상기 문서 분석부는,
    상기 분할된 복수의 페이지에 포함된 내부 객체 리스트를 확인하고, 상기 확인된 내부 객체 리스트 중에서 문자열이 포함된 내부 객체를 확인하고, 상기 확인된 내부 객체 리스트 중에서 문자열이 포함된 내부 객체에 포함된 상기 문자열 속성 정보 및 상기 문자열의 내용을 확인하며,
    상기 문자열 속성 정보는,
    문자 코드, 폰트, 위치, 크기, 길이, 자간, 줄간, 색상 및, 스타일 중 적어도 하나를 포함하는 것을 특징으로 하는 문자열 추출 시스템.
  8. 청구항 1에 있어서,
    상기 문자열 버퍼 관리부는,
    임의의 전자 문서의 크기에 독립적인 버퍼 크기를 가지며, 누적된 문자열 정보의 크기가 미리 설정된 버퍼 크기에 도달할 때, 상기 버퍼의 내용을 상기 코드 변환부에 전달하는 것을 특징으로 하는 문자열 추출 시스템.
  9. 청구항 1에 있어서,
    상기 코드 변환부는,
    아스키 코드, 유니코드, ISO 8859, EUC, MS 윈도 코드, 일본어권에서 사용되는 문자 코드, 중국어권에서 사용되는 문자 코드 및, 국내 표준으로 사용되는 문자 코드 중 적어도 하나를 포함하는 상기 미리 설정된 문자 코드를 상기 문자열 정보에 적용하여, 모든 문자열 정보를 동일한 문자 코드로 변환하며,
    상기 MS 윈도 코드는,
    윈도 1250(Windows 1250) 및 CP949 중 적어도 하나를 포함하고,
    상기 일본어권에서 사용되는 문자 코드는,
    JIS X 0208 및, Shift-JIS 중 적어도 하나를 포함하고,
    상기 중국어권에서 사용되는 문자 코드는,
    GB 2312 및, Big5 중 적어도 하나를 포함하고,
    상기 국내 표준으로 사용되는 문자 코드는,
    KS X 1001을 포함하는 것을 특징으로 하는 문자열 추출 시스템.
  10. 청구항 1에 있어서,
    상기 미리 설정된 태그는,
    파일명, 페이지 번호, 문단 속성, 글자 속성 및, 파일 종류에 따른 부가 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 문자열 추출 시스템.
  11. 임의의 입력 장치로부터 전달되는 전자 문서를 수신하고, 상기 수신된 전자 문서에서 문자열을 추출한 후, 상기 추출된 문자열에 미리 설정된 태그를 부가하여 임의의 출력 장치에 전달하는 문자열 추출 시스템의 문자열 추출 방법에 있어서,
    상기 문자열 추출 시스템에 포함된 문서 수신부를 통해, 상기 입력 장치로부터 전달되는 전자 문서를 수신하는 단계;
    상기 문자열 추출 시스템에 포함된 문서 포맷 탐지부를 통해, 제1 레벨로 미리 설정된 하나 이상의 핑거프린트 정보를 근거로 상기 전자 문서에 대응하는 핑거프린트를 확인하는 단계;
    상기 문자열 추출 시스템에 포함된 문서 버전 확인부를 통해, 상기 확인된 상기 전자 문서에 대응하는 핑거프린트에 대한 정보 및 상기 전자 문서를 근거로 상기 전자 문서의 버전 정보를 확인하는 제2 레벨 핑거프린트 검사를 수행하는 단계;
    상기 문서 버전 확인부를 통해, 대응하는 문서 분석부에 상기 전자 문서를 전달하는 단계;
    상기 문자열 추출 시스템에 포함된 상기 문서 분석부를 통해, 상기 전자 문서를 근거로 상기 전자 문서의 속성 정보, 상기 전자 문서에 포함된 하나 이상의 페이지에 대한 페이지 속성 정보, 각 페이지에 포함되는 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체에 포함된 문자열의 속성 정보 및, 문자열의 내용을 렌더링 없이 각각 확인하는 단계;
    상기 문자열 추출 시스템에 포함된 문자열 버퍼 관리부를 통해, 상기 확인된 문자열 정보를 저장 및 관리하는 단계;
    상기 문자열 추출 시스템에 포함된 코드 변환부를 통해, 미리 설정된 문자 코드를 근거로 상기 문자열 정보를 표준화하는 단계;
    상기 문자열 추출 시스템에 포함된 태거를 통해, 상기 표준화된 문자열 정보에 렌더링을 대체하여 문자열 속성을 제공하기 위해서 미리 설정된 태그를 태깅하는 단계; 및
    상기 문자열 추출 시스템에 포함된 문서 송신부를 통해, 상기 태깅된 문자열 정보를 상기 출력 장치에 전송하는 단계;를 포함하는 것을 특징으로 하는 문자열 추출 방법.
  12. 청구항 11에 있어서,
    상기 전자 문서는,
    상기 입력 장치에 설치된 임의의 애플리케이션 프로그램을 통해 생성되며, 임의의 문자열이 포함된 텍스트, 오피스 문서, 웹 페이지, XML 문서, 압축 파일 및, 네트워크 스트림에 포함된 문서 데이터 중 어느 하나인 것을 특징으로 하는 문자열 추출 방법.
  13. 청구항 11에 있어서,
    상기 핑거프린트는,
    형태 항목, 내용 항목, 오프셋 항목, 길이 항목, 연산자 항목 및, 포맷 코드 항목 중 적어도 하나를 포함하는 것을 특징으로 하는 문자열 추출 방법.
  14. 청구항 11에 있어서,
    상기 미리 설정된 하나 이상의 핑거프린트 중에서 상기 전자 문서에 대응하는 핑거프린트를 확인하는 단계는,
    상기 문서 포맷 탐지부를 통해, 상기 전자 문서에 대응하는 애플리케이션 프로그램의 종류를 확인하는 것을 특징으로 하는 문자열 추출 방법.
  15. 청구항 11에 있어서,
    상기 전자 문서의 속성 정보는,
    파일명, 파일 크기, 파일 위치, 작성자 및, 작성 일자 중 적어도 하나를 포함하는 일반 정보와;
    페이지 수, 단어 수 및, 단락 수 중 적어도 하나를 포함하는 통계 정보;를 포함하는 것을 특징으로 하는 문자열 추출 방법.
  16. 청구항 11에 있어서,
    상기 전자 문서에 포함된 하나 이상의 페이지에 대한 페이지 속성 정보를 확인하는 단계는,
    상기 문서 분석부를 통해, 상기 전자 문서에 포함된 페이지 객체를 분석하는 과정;
    상기 문서 분석부를 통해, 상기 분석 결과를 근거로 상기 전자 문서를 복수의 페이지로 분할하는 과정; 및
    상기 문서 분석부를 통해, 상기 분할된 복수의 페이지 각각에 대한 페이지 속성 정보를 확인하는 과정;을 포함하며,
    상기 페이지 속성 정보는,
    페이지 번호, 용지 크기, 용지 방향 및, 마스터 여부 중 적어도 하나를 포함하는 것을 특징으로 하는 문자열 추출 방법.
  17. 청구항 16에 있어서,
    상기 각 페이지에 포함되는 하나 이상의 내부 객체 중에서 문자열이 포함된 내부 객체에 포함된 문자열의 속성 정보 및, 문자열의 내용을 확인하는 단계는,
    상기 문서 분석부를 통해, 상기 분할된 복수의 페이지에 포함된 내부 객체 리스트를 확인하는 과정;
    상기 문서 분석부를 통해, 상기 확인된 내부 객체 리스트 중에서 문자열이 포함된 내부 객체를 확인하는 과정; 및
    상기 문서 분석부를 통해, 상기 확인된 내부 객체 리스트 중에서 문자열이 포함된 내부 객체에 포함된 상기 문자열 속성 정보 및 상기 문자열의 내용을 확인하는 과정;을 포함하며,
    상기 문자열 속성 정보는,
    문자 코드, 폰트, 위치, 크기, 길이, 자간, 줄간, 색상 및, 스타일 중 적어도 하나를 포함하는 것을 특징으로 하는 문자열 추출 방법.
  18. 청구항 11에 있어서,
    상기 확인된 문자열 정보를 저장 및 관리하는 단계는,
    임의의 전자 문서의 크기에 독립적인 버퍼 크기를 가지는 상기 문자열 버퍼 관리부를 통해, 누적된 문자열 정보의 크기가 미리 설정된 버퍼 크기에 도달할 때, 상기 버퍼의 내용을 상기 코드 변환부에 전달하는 것을 특징으로 하는 문자열 추출 방법.
  19. 청구항 11에 있어서,
    상기 미리 설정된 문자 코드를 근거로 상기 문자열 정보를 표준화하는 단계는,
    상기 코드 변환부를 통해, 아스키 코드, 유니코드, ISO 8859, EUC, MS 윈도 코드, 일본어권에서 사용되는 문자 코드, 중국어권에서 사용되는 문자 코드 및, 국내 표준으로 사용되는 문자 코드 중 적어도 하나를 포함하는 상기 미리 설정된 문자 코드를 상기 문자열 정보에 적용하여, 모든 문자열 정보를 동일한 문자 코드로 변환하며,
    상기 MS 윈도 코드는,
    윈도 1250(Windows 1250) 및 CP949 중 적어도 하나를 포함하고,
    상기 일본어권에서 사용되는 문자 코드는,
    JIS X 0208 및, Shift-JIS 중 적어도 하나를 포함하고,
    상기 중국어권에서 사용되는 문자 코드는,
    GB 2312 및, Big5 중 적어도 하나를 포함하고,
    상기 국내 표준으로 사용되는 문자 코드는,
    KS X 1001을 포함하는 것을 특징으로 하는 문자열 추출 방법.
  20. 청구항 11에 있어서,
    상기 미리 설정된 태그는,
    파일명, 페이지 번호, 문단 속성, 글자 속성 및, 파일 종류에 따른 부가 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 문자열 추출 방법.
KR1020120069862A 2012-06-28 2012-06-28 문자열 추출 시스템 및 그 방법 KR101204039B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120069862A KR101204039B1 (ko) 2012-06-28 2012-06-28 문자열 추출 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120069862A KR101204039B1 (ko) 2012-06-28 2012-06-28 문자열 추출 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR101204039B1 true KR101204039B1 (ko) 2012-11-23

Family

ID=47565189

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120069862A KR101204039B1 (ko) 2012-06-28 2012-06-28 문자열 추출 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101204039B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241719A (zh) * 2018-08-31 2019-01-18 张军强 基于多个手指的指纹识别的登录验证方法、装置、存储介质及智能终端
KR101943065B1 (ko) 2018-04-11 2019-01-28 (주)에이씨엔에스 전자문서 오류 검출 장치 및 방법
KR20210041848A (ko) 2019-10-08 2021-04-16 주식회사 앰진시큐러스 바이너리 상의 다국어 문자열 추출 방법
KR20230066757A (ko) * 2021-11-08 2023-05-16 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005235099A (ja) * 2004-02-23 2005-09-02 Mitsubishi Electric Corp メタデータ抽出装置
KR20060101803A (ko) * 2005-03-21 2006-09-26 휴먼드림 주식회사 동적 열람이 가능한 전자 문서의 제작 및 열람 방법
KR100743781B1 (ko) * 2000-04-14 2007-07-30 픽셀 (리서치) 리미티드 디지털 문서 처리용 시스템 및 방법
JP2009181166A (ja) * 2008-01-29 2009-08-13 Toshiba Corp 文書処理装置、方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100743781B1 (ko) * 2000-04-14 2007-07-30 픽셀 (리서치) 리미티드 디지털 문서 처리용 시스템 및 방법
JP2005235099A (ja) * 2004-02-23 2005-09-02 Mitsubishi Electric Corp メタデータ抽出装置
KR20060101803A (ko) * 2005-03-21 2006-09-26 휴먼드림 주식회사 동적 열람이 가능한 전자 문서의 제작 및 열람 방법
JP2009181166A (ja) * 2008-01-29 2009-08-13 Toshiba Corp 文書処理装置、方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101943065B1 (ko) 2018-04-11 2019-01-28 (주)에이씨엔에스 전자문서 오류 검출 장치 및 방법
CN109241719A (zh) * 2018-08-31 2019-01-18 张军强 基于多个手指的指纹识别的登录验证方法、装置、存储介质及智能终端
KR20210041848A (ko) 2019-10-08 2021-04-16 주식회사 앰진시큐러스 바이너리 상의 다국어 문자열 추출 방법
KR20230066757A (ko) * 2021-11-08 2023-05-16 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법
KR102601932B1 (ko) * 2021-11-08 2023-11-14 (주)사람인 핑거프린트와 머신러닝을 활용한 기업별 문서의 데이터 추출 시스템 및 방법

Similar Documents

Publication Publication Date Title
US20160342578A1 (en) Systems, Methods, and Media for Generating Structured Documents
US9886436B2 (en) Conversion of documents of different types to a uniform and an editable or a searchable format
US20210224141A1 (en) Format-specific data object passing between applications
CN102262623B (zh) 字符输入编辑方法及设备
AU2009238294B2 (en) Data transformation based on a technical design document
US9865262B2 (en) Multi-mode text input
US8271873B2 (en) Automatically detecting layout of bidirectional (BIDI) text
US20160342449A1 (en) Data exchange across multiple computing devices through a proactive intelligent clipboard
US9547632B2 (en) Playing multimedia associated with a specific region of a PDF
CN107798001B (zh) 网页处理方法、装置及设备
KR101204039B1 (ko) 문자열 추출 시스템 및 그 방법
US10366051B2 (en) Method and system for file conversion
KR102471587B1 (ko) 문서변환장치 및 그 동작 방법
KR20080100179A (ko) 벡터 그래픽 문서 내 리스트 인식 방법, 벡터 그래픽 문서해석 방법 및 컴퓨터 판독가능 매체
US20160342575A1 (en) Non-Transitory Computer-Readable Storage Medium Storing Document Conversion Program and Document Conversion Method
KR101206404B1 (ko) 하이퍼텍스트 생성 언어 변환 장치 및 그 방법
WO2014163984A2 (en) Detection and reconstruction of right-to-left text direction, ligatures and diacritics in a fixed format document
CN113158101A (zh) 一种可视化页面渲染方法、装置、设备及存储介质
KR20140003788A (ko) 하이퍼텍스트 생성 언어 변환 장치 및 그 방법
US20150106478A1 (en) File handlers supporting dynamic data streams
US20140075288A1 (en) Electronic device and method for displaying images on screen
KR20140003787A (ko) 문자열 추출 시스템 및 그 방법
EP3506130A1 (en) Data extracting system and method
US20130060778A1 (en) Device, method, and program for displaying document list
US9158433B1 (en) Graphical user interface text selection and processing in client applications employing a screen-at-a-time based communication protocol

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151105

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161110

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20191118

Year of fee payment: 8