KR20150144073A - 문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버 - Google Patents

문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버 Download PDF

Info

Publication number
KR20150144073A
KR20150144073A KR1020140072720A KR20140072720A KR20150144073A KR 20150144073 A KR20150144073 A KR 20150144073A KR 1020140072720 A KR1020140072720 A KR 1020140072720A KR 20140072720 A KR20140072720 A KR 20140072720A KR 20150144073 A KR20150144073 A KR 20150144073A
Authority
KR
South Korea
Prior art keywords
format
text
document
layer
information
Prior art date
Application number
KR1020140072720A
Other languages
English (en)
Inventor
이준휘
윤용호
정용섭
정슬기
Original Assignee
주식회사 쓰리코어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 쓰리코어 filed Critical 주식회사 쓰리코어
Priority to KR1020140072720A priority Critical patent/KR20150144073A/ko
Publication of KR20150144073A publication Critical patent/KR20150144073A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버에 관한 것으로, 그 방법은 제1 포맷의 문서로부터 이미지 정보와 텍스트 정보를 추출하는 단계; 추출된 이미지 정보를 이용하여 SVG(Scalable Vector Graphics) 포맷의 이미지 레이어를 생성하는 단계; 추출된 텍스트 정보를 이용하여 텍스트 단위별 위치 정보를 포함하는 투명 텍스트 레이어를 생성하는 단계; 및 생성된 SVG 포맷 이미지 레이어와 투명 텍스트 레이어를 전자 출판 포맷으로 결합시키는 단계를 포함한다.

Description

문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버{Method and apparatus for format conversion of document, and cloud server thereof}
본 발명은 다양한 일반 문서들을 이펍(ePub, electronic publication) 등의 전자 출판 포맷으로 변환하는 방법에 관한 것이다.
스마트폰(smart phone)이나 태블릿(tablet) PC와 같은 모바일 단말기의 사용이 일반화됨에 따라, 책의 내용이 종이가 아닌 전자적인 매체에 저장되어 전용 뷰어(viewer) 프로그램을 통해 다운로드해 읽는 전자책(electronic book) 형태의 출판물이 증가하고 있다.
그에 따라, 국제 디지털 출판 포럼(International Digital Publishing Forum, IDPF)에서는 개방형 자유 전자서적 표준으로서 이펍(ePub, Electronic Publication) 표준을 제정한 바 있다.
이펍(ePub)은 2007년 9월에 전 세계 공식 표준이 된 이후 많은 이북 업체가 이 EPUB 포맷을 채택하여 이북 콘텐츠를 생산하고 있는데, 북미의 경우 특정 이북 모델을 제외한 대부분의 이북 단말기가 이 EPUB을 지원하며 국내 이북 업체들도 대부분 EPUB을 지원하고 있다.
한편, 이펍(ePub)에 포함되는 데이터 형식은 MIME(Multipurpose Internet Mail Extensions) 형태를 포함하는 ZIP 형태의 파일 구조인 개방형 이북 출판 형식(OEBPS) 컨테이너 포맷(Open Container Format, OCF), XML로 구성된 EPUB 파일 구조를 기술하는 개방형 패키징 포맷(Open Packaging Format, OPF), 그리고 실제 페이지 콘텐츠인 개방형 출판 형식(Open Publishing Structure, OPS) 등을 포함할 수 있다.
그러나, 일반 사용자가 PC 등을 이용하여 작성한 문서를 이펍(ePub) 포맷의 문서로 제작하기에는 어려움이 있으며, 변환하더라도 원본 문서가 가지는 레이아웃(layout)을 그래로 구현하지 못하는 문제가 있었다.
본 발명은 효율적인 전자 출판 포맷으로의 문서 포맷 변환 방법 및 장치, 그를 이용한 문서 포맷 변환 서비스를 수행하는 클라우드 서버를 제공하는 것을 목적으로 한다.
본 발명의 실시예에 따른 문서 포맷 변환 방법은 일반 문서를 전자 출판 포맷(format)의 문서로 변환하며, 제1 포맷의 문서로부터 이미지 정보와 텍스트 정보를 추출하는 단계; 상기 추출된 이미지 정보를 이용하여, SVG(Scalable Vector Graphics) 포맷의 이미지 레이어를 생성하는 단계; 상기 추출된 텍스트 정보를 이용하여, 텍스트 단위별 위치 정보를 포함하는 투명 텍스트 레이어를 생성하는 단계; 및 상기 생성된 SVG 포맷 이미지 레이어와 투명 텍스트 레이어를 전자 출판 포맷으로 결합시키는 단계를 포함한다.
상기 문서 포맷 변환 방법은 유무선 네트워크를 이용하여 외부 단말 장치와 통신 가능한 클라우드 서버(cloud server)에서 수행될 수 있으며, 상기 외부 단말 장치로부터 상기 제1 포맷의 문서를 수신하는 단계; 및 상기 전자 출판 포맷으로 변환된 문서를 상기 외부 단말 장치로 전송하는 단계를 더 포함한다.
또한, 본 발명의 일실시예에 따른 문서 포맷 변환 장치는, 입력되는 문서의 포맷을 PDF 포맷으로 변환하는 제1 변환부; 및 상기 PDF 포맷으로 변환된 문서를 전자 출판 포맷으로 변환하는 제2 변환부를 포함하고, 상기 제2 변환부는 상기 PDF 포맷의 문서로부터 이미지 정보와 텍스트 정보를 추출하는 정보 추출부; 상기 추출된 이미지 정보를 이용하여, SVG(Scalable Vector Graphics) 포맷의 이미지 레이어를 생성하는 이미지 레이어 생성부; 상기 추출된 텍스트 정보를 이용하여, 텍스트 단위별 위치 정보를 포함하는 투명 텍스트 레이어를 생성하는 텍스트 레이어 생성부; 및 상기 생성된 SVG 포맷 이미지 레이어와 투명 텍스트 레이어를 전자 출판 포맷으로 결합시키는 레이어 결합부를 포함한다.
한편, 본 발명의 일실시예에 따른 클라우드 서버는 상기 문서 포맷 변환 장치를 포함하며, 상기 문서 포맷 변환 방법은 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
본 발명의 일실시예에 따르면, 일반 문서로부터 추출된 이미지 정보와 텍스트 정보를 이용해 SVG 포맷의 이미지 레이어와 텍스트 단위별 위치 정보를 포함하는 투명 텍스트 레이어를 페이지별로 생성한 후 전자 출판 포맷으로 결합시킴으로써, 품질의 저하없이 일반 문서를 전자 출판 포맷으로 용이하게 변환 가능하도록 할 수 있다.
도 1은 본 발명의 일실시예에 따른 문서 포맷 변환 장치의 구성을 나타내는 블록도이다.
도 2는 본 발명에 따른 문서 포맷 변환 방법에 대한 제1 실시예를 나타내는 흐름도이다.
도 3 내지 도 6은 일반 문서를 PDF 포맷의 문서로 변환하는 함수에 대한 실시예들을 자바 스크립트로 표현한 도면들이다.
도 7은 본 발명에 따른 문서 포맷 변환 방법에 대한 제2 실시예를 나타내는 흐름도이다.
도 8은 일반 문서를 이펍(ePub) 3.0 포맷의 문서로 변환하는 과정에 대한 일실시예를 설명하기 위한 도면이다.
도 9는 텍스트 레이어를 생성하는 방법에 대한 일실시예를 설명하기 위한 도면이다.
도 10은 PDF 포맷의 문서를 이펍(ePub) 3.0 포맷으로 변환하는 함수에 대한 일실시예를 자바 스크립트로 표현한 도면이다.
도 11은 본 발명의 일실시예에 따른 클라우드 서버의 구성을 나타내는 블록도이다.
도 12는 클라우드 서버의 동작에 대한 일실시예를 자바 스크립트로 표현한 도면이다.
이하, 첨부한 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명하고자 한다.
개시된 기술에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 개시된 기술의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 개시된 기술의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
개시된 기술은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한, 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
도 1은 본 발명의 일실시예에 따른 문서 포맷 변환 장치의 구성을 블록도로 도시한 것으로, 도시된 문서 포맷 변환 장치(100)는 제1 변환부(110)와 제2 변환부(120)를 포함하여 구성될 수 있다.
도 1을 참조하면, 제1 변환부(110)는 입력되는 문서의 포맷을 또 다른 제1 포맷으로 변환할 수 있다.
상기 입력되는 문서는 PC 등에 설치된 문서 작성 소프트웨어를 이용하여 생성된 문서일 수 있으며, 예를 들어 MS 오피스를 이용해 작성된 doc나 ppt 포맷의 문서이거나 또는 한글 워드 프로세서를 이용해 작성된 hwp 포맷의 문서 등일 수 있다.
한편, 제1 변환부(110)는 상기와 같은 doc, ppt 또는 hwp 포맷의 일반 문서를 PDF(Portable Document Format) 포맷의 문서로 변환할 수 있다.
상기 PDF는 미국 어도비시스템즈(Adobe Systems)에서 만든 문서파일 포맷으로서, 마이크로소프트 윈도우, 애플 맥, 유닉스, 구글 안드로이드 등 거의 모든 운영체제에서 읽거나 인쇄할 수 있으며 원본 문서의 글꼴, 이미지, 그래픽, 문서 형태 등이 그대로 유지되어 출판이나 인쇄 작업을 위해서도 많이 사용된다. 또한, 상기 PDF는 온라인 및 오프라인 환경에서도 용이하게 문서를 공유할 수 있으면서도 보안성이 높다.
상기한 바와 같이 제1 변환부(110)로 입력되는 문서의 포맷들인 doc, ppt 및 hwp와, 제1 변환부(110)에 출력되는 문서의 포맷인 PDF는 본 발명의 일실시예에 따른 예일 뿐, 본 발명은 이에 한정되지 아니하며, 상기한 포맷들 이외에 다양한 문서 포맷들이 이용될 수 있다.
제2 변환부(120)는 상기 제1 변환부(110)로부터 출력되는 제1 포맷의 문서를 전자 출판 포맷으로 변환할 수 있다.
예를 들어, 제2 변환부(120)는 상기 제1 변환부(110)에서 변환된 제1 포맷의 문서를 국제 디지털 출판 포럼(IDPF)에서 제정한 이펍(ePub) 표준에 따른 포맷으로 변환할 수 있다.
상기 이펍(ePub)은 CSS와 HTML, 자바 스크립트로 책을 표현하는 기술 표준으로서, 본문, 이미지 및 제목 등을 책처럼 보이도록 패키징하는 포맷을 규정한다.
상기 이펍(ePub) 포맷에 따르면, 텍스트 크기가 자동으로 조절되어, 전자책 단말기, 스마트폰 및 태블릿 PC 등의 모바일 단말기에서 각 기기의 화면 크기에 적학합 크기로 글자가 보여질 수 있다. 또한, 이미지나 삽화 등이 삽입되거나 저작권 보호를 위한 복제방지기능(DRM)이 적용될 수 있으며, 책의 서지 정보와 목차를 표현하기 위한 공간도 포함되어 있는 등, 종이책의 내용 그대로를 디지털 파일 형식으로 생성하는데 적합하다.
그러나, 상기한 바와 같은 이펍(ePub) 표준 포맷은 흑백 화면인 e-잉크 전자책 단말기를 타겟으로 하여 규정되었기 때문에, 다양한 편집이나 디자인을 적용하는데 한계가 있을 수 있다.
본 발명의 일실시예에 따르면, 제2 변환부(120)는 상기 제1 변환부(110)에서 변환된 제1 포맷의 문서를 PDF 문서를 이펍(ePub) 3.0 표준에 따른 포맷으로 변환하여 출력할 수 있다.
상기 이펍(ePub) 3.0 표준의 포맷에 따르면, html5, css3 및 자바스크립트가 지원되어 멀티미디어와 인터랙티브 기능이 가능하며, 고정 레이아웃(Fixed Layout)을 지원하고, 백터 그래픽을 지원하여 이미지 및 폰트의 축소/확대가 가능하다. 또한, 세로 쓰기와 다단 편집 기능이 지원되며, 문자를 음성으로 변환하는 TTS(Text to Speech) 기능이 지원되고, 다양한 수식 표현을 위한 MathML이 지원되며, 메타데이터(metadata) 기능이 강화되어 도서명, 출판사명, 작가, 발췌 또는 리뷰 등과 같은 다양한 정보 입력 및 공유가 가능할 수 있다.
상기한 바와 같은 동작을 위해, 제2 변환부(120)는 정보 추출부(121), 이미지 레이어 생성부(122), 텍스트 레이어 생성부(123) 및 레이어 결합부(124)를 포함할 수 있다.
정보 추출부(121)는 상기 제1 변환부(110)로부터 입력되는 제1 포맷(예를 들어, PDF 포맷)의 문서로부터 이미지 정보와 텍스트 정보를 추출할 수 있다.
예를 들어, 정보 추출부(121)는 제1 변환부(110)에서 변환된 PDF 포맷의 문서를 파싱(parsing)하여 페이지별 데이터를 추출하며, 상기 추출된 페이지별 데이터는 텍스트 단위별 위치 정보를 포함하는 텍스트에 관한 정보와 이미지에 관한 정보로 분류될 수 있다.
이미지 레이어 생성부(122)는 상기 정보 추출부(121)에서 추출된 이미지 정보를 이용하여, SVG(Scalable Vector Graphics) 포맷의 이미지 레이어를 생성할 수 있다.
상기 SVG는 2차원 벡터 그래픽을 표현하기 위한 XML기반의 파일 포맷으로, 1999년 W3C(World Wide Web Consortium)의 주도하에 개발된 오픈 표준의 벡터 그래픽 파일 형식이다.
SVG 포맷의 이미지와 그 작동은 XML 텍스트 파일들로 정의 되어 검색화, 목록화 및 스크립트화가 가능하며, 압축도 가능하다.
또한, 상기 SVG 포맷의 파일은 SVG기반의 전문 그래픽 편집 프로그램을 사용하여 편집이 가능하며, XML 파일로 되어 있으므로 문서 편집기로도 편집이 가능할 수 있다.
한편, 텍스트 레이어 생성부(123)는 상기 추출된 텍스트 정보를 이용하여, 텍스트 단위별 위치 정보를 포함하는 투명 텍스트 레이어를 생성할 수 있다.
상기 정보 추출부(121)에서 추출된 데이터 중 이미지 정보는 이미지 레이어에 저장되며, 텍스트 정보는 텍스트 레이어에 저장될 수 있다.
이 때, 이미지 레이어 생성부(122)는 상기 이미지 정보가 저장된 이미지 레이어는 SVG 포맷의 이미지로 생성할 수 있다.
상기에서는 이미지 레이어 생성부(122)에 의해 생성되는 레이어를 이미지 레이어라 하였으나, 상기 이미지 레이어는 캔버스 레이어(canvas layer)로 정의될 수도 있다.
한편, 텍스트 레이어 생성부(123)는 상기 텍스트 단위별 위치 정보를 포함하는 텍스트 정보가 저장된 투명 텍스트 레이어를 HTML5(HyperText Mmarkup Language 5)에 따라 생성할 수 있다.
본 발명의 일실시예에 따르면, 상기한 바와 같이 생성된 SVG 포맷 이미지 레이어와 투명 텍스트 레이어는 자바 스크립트를 포함하는 HTML5 규격에 따라 작성될 수 있으며, 예를 들어 상기 SVG 포맷 이미지 레이어는 이펍(ePub) 3.0 포맷의 기본 요소 중의 하나인 HTML5에 삽입될 수 있다.
레이어 결합부(124)는 상기 이미지 레이어 생성부(122)에서 생성된 SVG 포맷 이미지 레이어와 상기 텍스트 레이어 생성부(123)에서 생성된 투명 텍스트 레이어를 전자 출판 포맷으로 결합시킬 수 있다.
예를 들어, 상기 레이어 결합부(124)는 상기와 같이 페이지별로 생성된 SVG 포맷 이미지 레이어와 투명 텍스트 레이어를 이펍(ePub) 3.0 포맷으로 패키징(packaging)하여, 이펍(ePub) 3.0 포맷의 문서로의 변환 과정을 수행할 수 있다.
도 2는 본 발명에 따른 문서 포맷 변환 방법에 대한 제1 실시예를 흐름도로 도시한 것으로, 도 1에 도시된 문서 포맷 변환 장치(100)의 제1 변환부(110)가 문서의 포맷을 변환하는 방법에 대한 일예를 나타낸 것이다.
도 2를 참조하면, 문서 포맷 변환 장치(100)의 제1 변환부(110)는 전자 출판 포맷으로 변환하고자 하는 문서를 입력받는다(S200 단계).
예를 들어, 제1 변환부(110)는 doc, ppt 또는 hwp 등의 포맷을 가지는 일반 문서를 불러들이고, 문서 불러오기에 실패하는 경우 실패에 대한 알림 창을 사용자에게 제공함과 함께 해당 문서에 대한 정보를 메모리(미도시)에 저장시킬 수 있다.
그리고, 제1 변환부(110)는 상기 문서의 제작 소프트웨어와 동기화한 후(S210 단계), 상기 제작 소프트웨어의 변환 기능을 히용하여 상기 문서를 PDF 포맷으로 변환한다(S220 단계).
예를 들어, doc 포맷의 문서를 이펍(ePub) 3.0 포맷으로 변환하고자 하는 경우, 문서 포맷 변환 장치(100)에는 미리 doc 문서를 위한 소프트웨어인 MS 워드 프로그램이 설치되어 있으며, 상기 설치된 MS 워드 프로그램이 실행되어 상기 변환하고자 하는 doc 문서와 동기화될 수 있다.
제1 변환부(110)는 상기 MS 워드 프로그램의 PDF 변환 기능을 이용하여 상기 doc 포맷의 문서를 PDF 문서로 변환할 수 있다.
만약, 상기 S220 단계에서, PDF 문서로의 변환이 실패하는 경우, 변환 실패에 대한 알림 창이 사용자에게 제공됨과 함께 해당 문서에 대한 정보가 메모리(미도시)에 저장될 수 있다.
도 3 내지 도 6은 일반 문서를 PDF 포맷의 문서로 변환하는 함수에 대한 실시예들을 자바 스크립트로 표현한 것이다.
도 3은 doc, ppt 또는 hwp의 포맷을 가지는 문서를 PDF 포맷으로 변환하기 위한 함수를 나타내며, 도 4는 doc 파일로부터 PDF를 추출하는 함수를 나타낸다.
또한, 도 5는 ppt 파일로부터 PDF를 추출하는 함수를 나타내며, 도 6은 hwp 파일로부터 PDF를 추출하는 함수를 나타낸다.
도 7은 본 발명에 따른 문서 포맷 변환 방법에 대한 제2 실시예를 흐름도로 도시한 것으로, 도 1에 도시된 문서 포맷 변환 장치(100)의 제2 변환부(120)가 문서의 포맷을 변환하는 방법에 대한 일예를 나타낸 것이다.
도 7을 참조하면, 문서 포맷 변환 장치(100)의 제2 변환부(120)는 상기 제1 변환부(110)에서 변환된 PDF 포맷의 문서로부터 이미지 정보와 텍스트 정보를 추출한다(S700 단계).
예를 들어, 제2 변환부(120)는 PDF 포맷의 문서를 파싱하여 해당 문서의 각 페이지에 포함된 모든 요소들을 추출하며, 상기 페이지별로 추출되는 요소들은 각각 백터 그래픽, 비트맵 그래픽, 텍스트 및 변환 행렬 중 어느 하나일 수 있다.
이미지 레이어 생성부(122)는 상기 추출된 이미지 정보를 이용하여 SVG 포맷의 이미지 레이어를 생성하고(S710 단계), 텍스트 레이어 생성부(123)는 상기 추출된 텍스트 정보를 이용하여 텍스트 단위별 위치 정보를 포함하는 투명 텍스트 레이어를 생성한다(S720 단계).
예를 들어, 문서의 페이지들 각각에 대하여, 이미지 레이어 생성부(122)는 상기 S700 단계에서 추출된 벡터 그래픽, 비트맵 그래픽 및 텍스트 들을 이미지 레이어에 드로잉(drawing)하며, 텍스트 레이어 생성부(123)s는 상기 S700 단계에서 추출된 텍스트에 대한 정보를 텍스트 레이어에 추가할 수 있다.
한편, 상기 S700 단계에서 추출된 변환 행렬 요소는 상기 이미지 레이어와 상기 텍스트 레이어에 설정될 수 있다.
즉, PDF 문서의 첫번째 페이지에 대하여, 해당 페이지를 구성하는 모든 요소들을 순차적으로 추출하여, 요소 타입이 백터 그래픽인 경우 이미지 레이어 해당 백터 그래픽을 드로잉하고, 비트맵 그래픽인 경우 상기 이미지 레이어에 해당 비트맵 그래픽을 드로잉하며, 텍스트인 경우 상기 이미지 레이어에 해당 텍스트를 드로잉하고 텍스트 레이어에 해당 텍스트 정보를 추가하며, 변환 매트릭스인 경우 상기 이미지 레이어와 텍스트 레이어에 해당 변환 행렬을 설정하는 과정이 각각의 추출된 요소들에 대해 수행될 수 있다. 한편, 상기 추출된 요소의 타입이 지원되지 않는 요소인 경우, 경고 메시지가 사용자에게 제공되도록 할 수 있다.
상기와 같은 과정을 통해, 상기 PDF 문서의 첫번째 페이지에 대한 이미지 레이어와 텍스트 레이어가 구성되며, 상기 구성된 이미지 레이어는 SVG 파일로 생성되고, 상기 구성된 텍스트 레이어는 HTML5로 생성될 수 있다.
한편, 상기 PDF 문서의 두번째 페이지부터 마지막 페이지까지, 각각의 페이지에 대해 상기와 같은 과정이 수행되어, 페이지별 SVG 이미지 레이어와 투명 텍스트 레이어가 생성되게 된다.
그 후, 제2 변환부(120)는 상기 생성된 SVG 이미지 레이어와 상기 투명 텍스트 레이어를 이펍(ePub) 3.0 포맷으로 결합한다(S730 단계).
도 8을 참조하면, 문서 포맷 변환 장치(100)의 제1 변환부(110)에 의해 doc 문서(810)로부터 변환된 PDF 문서(820)는, 각 페이지별로 SVG 이미지 레이어(831)와 투명 텍스트 레이어(832)로 분할 생성되고, 상기 페이지별 SVG 이미지 레이어(831)와 투명 텍스트 레이어(832)가 결합되어 하나의 페이지(841)를 구성하며 이펍(ePub) 3.0 포맷에 따라 패키징됨으로써, 이펍(ePub) 3.0 포맷의 문서(840)로 변환될 수 있다.
도 9는 텍스트 레이어를 생성하는 방법에 대한 일실시예를 설명하기 위한 도시한 것으로, 상기 S720 단계에서 텍스트 레이어 생성부(123)가 투명 텍스트 레이어를 생성하는 방법에 대한 일예를 나타낸 것이다.
도 9를 참조하면, 변환 행렬이 입력되는 경우, 텍스트 레이어 생성부(123)는 상기 입력된 변환 행렬을 설정한 후 메모리에 저장할 수 있다.
예를 들어, 상기 변환 행렬은 회전, 왜곡 또는 위치 등을 변환할 수 있는 2x3 행렬일 수 있다.
한편, 텍스트 요소가 입력되는 경우, 텍스트 레이어 생성부(123)는 상기 입력된 텍스트 요소의 정보를 분석해 폰트 이름, 폰트 색상, 텍스트 박스의 바운더리(boundary) 및 텍스트의 내용 등을 확인하여 메모리에 저장할 수 있다.
텍스트 레이어 생성부(123)는 상기와 같이 메모리에 저장된 정보들을 포함하는 텍스트 레이어를 생성한 후, 상기 생성된 텍스트 레이어를 한 페이지에 해당하는 HTML5로 만들어낼 수 있다.
도 10은 PDF 포맷의 문서를 이펍(ePub) 3.0 포맷으로 변환하는 함수에 대한 일실시예를 자바 스크립트로 표현한 것으로, 일반 문서는 PDF 문서로 변환된 후 도 10에 도시된 바와 같은 함수를 이용하여 HTML5 기반의 이펍(ePub) 3.0 포맷의 문서로 변환될 수 있다.
본 발명의 또 다른 실시예에 따르면, 도 1 내지 도 10을 참조하여 설명한 바와 같은 문서 포맷 변환 방법은 유무선 네트워크를 이용하여 외부 단말 장치와 통신 가능한 클라우드 서버(cloud server)에서 수행될 수 있다.
도 11은 본 발명의 일실시예에 따른 클라우드 서버의 구성을 블록도로 도시한 것으로, 도시된 클라우드 서버의 동작 중 도 1 내지 도 10을 참조하여 설명한 것과 동일한 것에 대한 설명은 이하 생략하기로 한다.
도 11을 참조하면, 클라우드 서버(1200)는 통신부(1201)와 문서 포맷 변환 장치(100)를 포함할 수 있으며, 상기 문서 포맷 변환 장치(100)의 구성 및 동작은 도 1 내지 도 10을 참조하여 설명한 것과 동일할 수 있다.
클라우드 서버(1200)의 통신부(1201)는 외부의 단말 장치(1250)로부터 전자 출판 포맷으로 변환하고자 하는 제1 포맷의 문서를 수신할 수 있다.
한편, 문서 포맷 변환 장치(100)는 상기 수신한 제1 포맷 문서를 도 1 내지 도 10을 참조하여 설명한 바와 같은 문서 포맷 변환 방법을 이용해 이펍(ePub) 3.0 등과 같은 전자 출판 포맷의 문서로 변환할 수 있다.
통신부(1201)는 상기 전자 출판 포맷으로 변환된 문서를 상기 단말 장치(1250)로 전송할 수 있으며, 그에 따라 전자 출판 포맷으로의 문서 자동 변환 서비스가 클라우드 서버(1200)를 통해 제공될 수 있다.
도 12는 클라우드 서버의 동작에 대한 일실시예를 자바 스크립트로 표현한 것으로, 클라우드 서버(1200)의 동작에 대한 메인 루프(main loop)와 문서 변환 결과에 대한 메세지를 제공하기 위한 함수를 나타낸 것이다.
상술한 본 발명에 따른 문서 포맷 변환 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다.
컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (20)

  1. 일반 문서를 전자 출판 포맷(format)의 문서로 변환하는 방법에 있어서,
    제1 포맷의 문서로부터 이미지 정보와 텍스트 정보를 추출하는 단계;
    상기 추출된 이미지 정보를 이용하여, SVG(Scalable Vector Graphics) 포맷의 이미지 레이어를 생성하는 단계;
    상기 추출된 텍스트 정보를 이용하여, 텍스트 단위별 위치 정보를 포함하는 투명 텍스트 레이어를 생성하는 단계; 및
    상기 생성된 SVG 포맷 이미지 레이어와 투명 텍스트 레이어를 전자 출판 포맷으로 결합시키는 단계를 포함하는 문서 포맷 변환 방법.
  2. 제1항에 있어서,
    상기 전자 출판 포맷은 이펍(ePub, electronic publication) 3.0 표준에 따른 것인 문서 포맷 변환 방법.
  3. 제1항에 있어서,
    상기 제1 포맷은 PDF(Portable Document Format)인 문서 포맷 변환 방법.
  4. 제3항에 있어서,
    입력되는 문서의 포맷을 상기 PDF 포맷으로 변환하는 단계를 더 포함하는 문서 포맷 변환 방법.
  5. 제1항에 있어서, 상기 추출 단계는
    상기 제1 포맷의 문서를 파싱(parsing)하여, 상기 문서의 각 페이지별로 백터 그래픽, 비트맵 그래픽, 텍스트 및 변환 행렬 중 적어도 하나의 요소들을 추출하는 문서 포맷 변환 방법.
  6. 제5항에 있어서, 상기 이미지 레이어 생성 단계는
    상기 추출된 벡터 그래픽, 비트맵 그래픽 및 텍스트 중 적어도 하나를 상기 이미지 레이어에 드로잉(drawing)하는 단계를 포함하는 문서 포맷 변환 방법.
  7. 제5항에 있어서, 상기 텍스트 레이어 생성 단계는
    상기 추출된 텍스트에 대한 정보를 상기 텍스트 레이어에 추가하는 단계를 포함하는 문서 포맷 변환 방법.
  8. 제5항에 있어서, 상기 추출된 변환 행렬은
    상기 이미지 레이어와 상기 텍스트 레이어 중 적어도 하나에 설정되는 문서 포맷 변환 방법.
  9. 제1항에 있어서,
    상기 SVG 이미지 레이어와 상기 투명 텍스트 레이어 중 적어도 하나는 HTML5(HyperText Mmarkup Language 5) 규격에 따라 작성되는 문서 포맷 변환 방법.
  10. 제9항에 있어서,
    상기 HTML5 규격에 따라 작성된 레이어는 자바 스크립트(Java Script)를 포함하는 문서 포맷 변환 방법.
  11. 제1항에 있어서, 상기 결합 단계는
    페이지별로 생성된 상기 SVG 포맷 이미지 레이어와 상기 투명 텍스트 레이어를 이펍(ePub) 3.0 포맷으로 패키징(packaging)하는 단계를 포함하는 문서 포맷 변환 방법.
  12. 제1항에 있어서,
    유무선 네트워크를 이용하여 외부 단말 장치와 통신 가능한 클라우드 서버(cloud server)에서 수행되며,
    상기 외부 단말 장치로부터 상기 제1 포맷의 문서를 수신하는 단계; 및
    상기 전자 출판 포맷으로 변환된 문서를 상기 외부 단말 장치로 전송하는 단계를 더 포함하는 문서 포맷 변환 방법.
  13. 제1항 내지 제12항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록 매체.
  14. 일반 문서를 전자 출판 포맷의 문서로 변환하는 장치에 있어서,
    입력되는 문서의 포맷을 PDF 포맷으로 변환하는 제1 변환부; 및
    상기 PDF 포맷으로 변환된 문서를 전자 출판 포맷으로 변환하는 제2 변환부를 포함하고,
    상기 제2 변환부는
    상기 PDF 포맷의 문서로부터 이미지 정보와 텍스트 정보를 추출하는 정보 추출부;
    상기 추출된 이미지 정보를 이용하여, SVG(Scalable Vector Graphics) 포맷의 이미지 레이어를 생성하는 이미지 레이어 생성부;
    상기 추출된 텍스트 정보를 이용하여, 텍스트 단위별 위치 정보를 포함하는 투명 텍스트 레이어를 생성하는 텍스트 레이어 생성부; 및
    상기 생성된 SVG 포맷 이미지 레이어와 투명 텍스트 레이어를 전자 출판 포맷으로 결합시키는 레이어 결합부를 포함하는 문서 포맷 변환 장치.
  15. 제14항에 있어서, 상기 정보 추출부는
    상기 제1 포맷의 문서를 파싱하여, 상기 문서의 각 페이지별로 백터 그래픽, 비트맵 그래픽, 텍스트 및 변환 행렬 중 적어도 하나의 요소들을 추출하는 문서 포맷 변환 장치.
  16. 제15항에 있어서, 상기 이미지 레이어 생성부는
    상기 추출된 벡터 그래픽, 비트맵 그래픽 및 텍스트 중 적어도 하나를 상기 이미지 레이어에 드로잉하는 문서 포맷 변환 장치.
  17. 제15항에 있어서, 상기 텍스트 레이어 생성부는
    상기 추출된 텍스트에 대한 정보를 상기 텍스트 레이어에 추가하는 문서 포맷 변환 장치.
  18. 제14항에 있어서,
    상기 SVG 이미지 레이어와 상기 투명 텍스트 레이어 중 적어도 하나는 자바 스크립트(JS)를 포함하는 HTML5 규격에 따라 작성되는 문서 포맷 변환 장치.
  19. 제14항에 있어서, 상기 레이어 결합부는
    페이지별로 생성된 상기 SVG 포맷 이미지 레이어와 상기 투명 텍스트 레이어를 이펍(ePub) 3.0 포맷으로 패키징하는 문서 포맷 변환 장치.
  20. 제14항 내지 제19항 중 어느 한 항에 기재된 문서 포맷 변환 장치를 포함하는 클라우드 서버.
KR1020140072720A 2014-06-16 2014-06-16 문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버 KR20150144073A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140072720A KR20150144073A (ko) 2014-06-16 2014-06-16 문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140072720A KR20150144073A (ko) 2014-06-16 2014-06-16 문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버

Publications (1)

Publication Number Publication Date
KR20150144073A true KR20150144073A (ko) 2015-12-24

Family

ID=55084138

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140072720A KR20150144073A (ko) 2014-06-16 2014-06-16 문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버

Country Status (1)

Country Link
KR (1) KR20150144073A (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180064833A (ko) 2016-12-06 2018-06-15 유비스톰 주식회사 웹 브라우저 독립적인 전자문서 제공장치
KR20180067880A (ko) 2016-12-13 2018-06-21 유비스톰 주식회사 웹 페이지의 분할 전송 제어 가능한 전자문서 제공장치
EP3543948A4 (en) * 2017-01-11 2020-06-03 Pubple Co., Ltd METHOD FOR PROVIDING ELECTRONIC BOOK SERVICE AND COMPUTER PROGRAM THEREOF
CN113535017A (zh) * 2020-09-28 2021-10-22 腾讯科技(深圳)有限公司 一种绘本文件的处理、同步显示方法、装置及存储介质
KR102369373B1 (ko) * 2020-12-08 2022-03-04 주식회사 펍플 사후 디지털 권한 관리 할당 장치 및 방법
WO2022139134A1 (ko) * 2020-12-22 2022-06-30 주식회사 펍플 디지털 변환 콘텐츠 검수방법 및 장치
KR102418252B1 (ko) * 2021-12-08 2022-07-07 에스지에이솔루션즈 주식회사 고해상도의 2차원 바코드 출력을 위한 벡터 이미지 구현 방법, 장치 및 컴퓨터-판독 가능 기록 매체
KR20220120891A (ko) * 2021-02-24 2022-08-31 주식회사 포스토피아 전자문서 생성, 발송 방법
CN112613277B (zh) * 2020-12-09 2024-05-28 万兴科技(湖南)有限公司 Pdf文档转成dxf文档的方法、系统及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180064833A (ko) 2016-12-06 2018-06-15 유비스톰 주식회사 웹 브라우저 독립적인 전자문서 제공장치
KR20180067880A (ko) 2016-12-13 2018-06-21 유비스톰 주식회사 웹 페이지의 분할 전송 제어 가능한 전자문서 제공장치
EP3543948A4 (en) * 2017-01-11 2020-06-03 Pubple Co., Ltd METHOD FOR PROVIDING ELECTRONIC BOOK SERVICE AND COMPUTER PROGRAM THEREOF
CN113535017A (zh) * 2020-09-28 2021-10-22 腾讯科技(深圳)有限公司 一种绘本文件的处理、同步显示方法、装置及存储介质
CN113535017B (zh) * 2020-09-28 2024-03-15 腾讯科技(深圳)有限公司 一种绘本文件的处理、同步显示方法、装置及存储介质
KR102369373B1 (ko) * 2020-12-08 2022-03-04 주식회사 펍플 사후 디지털 권한 관리 할당 장치 및 방법
WO2022124456A1 (ko) * 2020-12-08 2022-06-16 주식회사 펍플 사후 디지털 권한 관리 할당 장치 및 방법
CN112613277B (zh) * 2020-12-09 2024-05-28 万兴科技(湖南)有限公司 Pdf文档转成dxf文档的方法、系统及存储介质
WO2022139134A1 (ko) * 2020-12-22 2022-06-30 주식회사 펍플 디지털 변환 콘텐츠 검수방법 및 장치
KR20220120891A (ko) * 2021-02-24 2022-08-31 주식회사 포스토피아 전자문서 생성, 발송 방법
KR102418252B1 (ko) * 2021-12-08 2022-07-07 에스지에이솔루션즈 주식회사 고해상도의 2차원 바코드 출력을 위한 벡터 이미지 구현 방법, 장치 및 컴퓨터-판독 가능 기록 매체
WO2023106526A1 (ko) * 2021-12-08 2023-06-15 에스지에이솔루션즈 주식회사 고해상도의 2차원 바코드 출력을 위한 벡터 이미지 구현 방법, 장치 및 컴퓨터-판독 가능 기록 매체

Similar Documents

Publication Publication Date Title
KR20150144073A (ko) 문서 포맷 변환 방법 및 장치, 그를 이용한 클라우드 서버
US20150046797A1 (en) Document format processing apparatus and document format processing method
US10353999B2 (en) Information processing system, server apparatus, control method, and storage medium
US8910036B1 (en) Web based copy protection
US10282410B2 (en) Assistive technology for the impaired
EP1538534A2 (en) Generation of a PPML template from a PDF document
US20130191728A1 (en) Systems, methods, and media for generating electronic books
CN107301046B (zh) 图标的处理方法和装置、计算机设备和存储介质
US20130262987A1 (en) Document processing method, apparatus and editor
KR101147256B1 (ko) 표준화된 전자책 생성장치 및 방법
US10628526B2 (en) Providing suggested diagrammatic representations of user entered textual information
CN112016290A (zh) 一种文档自动排版方法、装置、设备及存储介质
US10664980B2 (en) Vector graphics handling processes for user applications
JP2016522464A (ja) 印刷可能文書ビューア最適化のためのシステムおよび方法
CN109815451B (zh) 一种pdf生成方法、装置及设备
KR20190061895A (ko) 웹 기반 문서의 템플릿을 변경하는 웹 기반 문서 편집 서버 및 이의 동작 방법
CN104216868A (zh) 一种文档显示格式的适配方法及装置
US9965446B1 (en) Formatting a content item having a scalable object
JP2013152564A (ja) 文書処理装置及び文書処理方法
JP2017027319A (ja) 帳票文書データの表示・編集・保存方法、装置、処理プログラム
KR102263458B1 (ko) 전자책 파일 생성 방법 및 장치
CN111045614A (zh) 流水报表打印方法、套打文件生成方法、客户端及服务器
KR101573276B1 (ko) 브라우저간 문서 호환성 지원 시스템 및 방법
CN113703699B (zh) 电子文件的实时输出方法和装置
US20240160834A1 (en) Automated document formating for electronic signature

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination