KR20170061683A - 레이아웃 의도 추론 기법 - Google Patents

레이아웃 의도 추론 기법 Download PDF

Info

Publication number
KR20170061683A
KR20170061683A KR1020177008599A KR20177008599A KR20170061683A KR 20170061683 A KR20170061683 A KR 20170061683A KR 1020177008599 A KR1020177008599 A KR 1020177008599A KR 20177008599 A KR20177008599 A KR 20177008599A KR 20170061683 A KR20170061683 A KR 20170061683A
Authority
KR
South Korea
Prior art keywords
document
layout
intent
computer
components
Prior art date
Application number
KR1020177008599A
Other languages
English (en)
Inventor
카림 파로우키
데이비드 벤자민 리
마르코 라키타
두산 루킥
밀로스 라스코빅
드라간 슬래브스키
알호사 오블젠
밀안 세섬
Original Assignee
마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 filed Critical 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Publication of KR20170061683A publication Critical patent/KR20170061683A/ko

Links

Images

Classifications

    • G06F17/243
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • G06F17/218
    • G06F17/2247
    • G06F17/30707
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • G06K9/00456
    • G06K9/00463
    • G06K9/6227
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본원에서는 문서에서 명시적으로 포맷팅된 문서 구성 요소와 관련된 레이아웃 의도를 추론하기 위한 기술이 설명된다. 명시적으로 포맷팅된 문서 구성 요소가 있는 문서의 레이아웃 유형이 결정된다. 문서에 대한 레이아웃 유형이 결정되면, 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도가 문서의 결정된 레이아웃 유형에 적어도 부분적으로 기초하여 결정될 수 있다. 휴리스틱 알고리즘 및/또는 머신 학습 분류기는 문서의 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도를 결정할 수 있다. 의도-기반 문서는 문서의 명시적으로 포맷팅된 문서 구성 요소의 일부 또는 전부에 대해 추론된 레이아웃 의도를 사용하여 생성된다. 의도-기반 문서는 추론된 레이아웃 의도에 기초하여 렌더링을 위해 의도-기반 렌더링 또는 작성 애플리케이션에 제공될 수 있다.

Description

레이아웃 의도 추론 기법{INFERRING LAYOUT INTENT}
오늘날 전자 문서의 대부분의 유형의 내용이 포맷 의도 정보(format intent information)가 아닌 명시적인 포맷팅 정보를 이용하여 정의되었다. 예를 들어, 프레젠테이션 문서는 강조된 것으로 정의된 텍스트가 아닌 볼드체 또는 이탤릭체로 명시적으로 포맷팅된 텍스트를 포함할 수 있다. 다른 예로서, 워드 프로세싱 문서는 두 개의 이미지가 전후 비교로서 나란히 프레젠테이션되어야 한다는 것을 나타내기보다는 두 개의 이미지가 페이지의 특정 위치에 배치되어야 한다는 것을 명시적으로 나타내는 데이터를 포함할 수 있다.
포맷 의도 정보가 아닌 명시적인 포맷팅 정보를 사용하여 정의된 문서 내용을 용도 변경하거나 재배치하려고 할 때, 현저히 다른 디스플레이 크기, 성능, 및/또는 종횡비를 갖는 장치들에서 문서 내용을 최적으로 프레젠테이션하는 것이 어려울 수 있다. 예를 들어, 세로 방향으로 8.5" x 11"로 인쇄된 페이지에 맞도록 명시적인 포맷팅 정보를 사용하여 정의된 문서의 내용이 스마트폰이나 태블릿 장치에서 가로 모드로 프레젠테이션되기 어려울 수 있다. 포맷 의도 정보가 아닌 명시적인 포맷팅 정보를 사용하여 정의된 문서 내용을 프레젠테이션하려고 할 때 다른 문제점들이 존재할 수도 있다.
본원에서는 이러한 고려사항 및 그 외의 다른 고려사항에 관해서 개시된다.
본원에서는 레이아웃 의도를 추론하는 기술이 설명한다. 본원에 개시된 기술의 구현을 통해, (작성자의 "표현 의도(expressive intent)" 또는 "포맷 의도(formatting intent)"로도 지칭될 수 있는) 문서 작성자의 레이아웃 의도가 명시적으로 포맷팅된 문서 구성 요소(explicitly formatted document element)로부터 추론될 수 있다. 다음으로, 문서의 명시적으로 포맷팅된 문서 구성 요소들에 관해 추론된 레이아웃 의도를 사용하여 의도-기반 문서(intent-based document)가 생성될 수 있다. 다음으로 의도-기반 문서는 문서 작성자의 원래 레이아웃 의도를 유지하는 방식으로 문서를 효과적으로 렌더링하는데 사용될 수 있다. 또한, 의도-기반 문서는 명시적인 포맷팅을 사용하기보다는 레이아웃 의도와 관련해서 정의되기 때문에, 문서가 다양한 크기와 방향으로, 상이한 화면 유형 및 종횡비를 갖는 다양한 유형의 장치에 효과적으로 렌더링될 수 있다. 나아가, 일부 구성에서, 여전히 문서 작성자의 원래의 포맷팅 의도를 유지하면서, 문서의 내용 구성 요소의 분위기 및/또는 스타일이 변경될 수 있다.
명시적으로 포맷팅된 문서 구성 요소들을 갖는 문서로부터 의도-기반 문서를 생성하기 위해, 일부 구성에서는 문서의 레이아웃 유형이 먼저 결정된다. 예를 들어, 그러나 제한 없이, 휴리스틱 알고리즘(heuristic algorithm) 및/또는 머신 학습 분류기(machine learning classifier)를 이용하여 문서의 레이아웃이 "종이형(paper-like)" 또는 "프레젠테이션형(presentation-like)"인지를 결정할 수 있다. 머신 학습 분류기는 트레이닝 문서의 코퍼스(corpus)에서 문서의 레이아웃들의 인간의 분류에 따라 트레이닝될 수 있다.
일반적으로, 종이형 문서 레이아웃은 (예를 들어, 영어에서) 위에서 아래로 선형으로 소비되는 것을 의미하는 레이아웃이다. 프레젠테이션형 문서 레이아웃은 보통 순차적으로 보여지는 것을 의미하는 개별의 "슬라이드"를 포함한다. 또한, 프레젠테이션형 문서의 레이아웃에는 보통 종이형 문서의 레이아웃의 반복 내용과 다르게 슬라이드에서 슬라이드로 반복되는 내용이 있다. 또한, 종이형 또는 프레젠테이션형 레이아웃 이외의 다른 문서 레이아웃 유형이 다른 구성에서 식별될 수 있다.
문서의 레이아웃 유형이 결정되면, 문서에서 명시적으로 포맷팅된 문서 구성 요소들의 레이아웃 의도가 결정될 수 있다. 예를 들어, 그러나 제한 없이, 포맷팅 속성을 포함하여 텍스트가 차별화 및 클러스터링될 수 있다. 추가적으로, 다른 클러스터에 의도를 할당하기 위해 빈도 및/또는 통계적 지식을 이용할 수 있다. 또한, 문서에서 명시적으로 포맷팅된 볼드체 또는 이탤릭체 텍스트가 텍스트를 강조하는 것을 의도한다고 결정될 수 있다. 예를 들어, 이탤릭체가 아닌 작은 구절 또는 단어들을 제외하고 문서의 모든 텍스트가 이탤릭체로 표시될 수 있다. 이 경우에, 이탤릭체 텍스트는 강조되지 않은 것으로 여겨지고 빈도가 낮은 이탤릭체가 아닌 텍스트가 강조되었다고 볼 수 있다. 또는, 명시적으로 포맷팅된 볼드체 또는 이탤릭체 텍스트가 섹션 표제(section heading), 문서의 제목을 설정하거나, 또는 직접 인용을 지정하는 것을 의도하고 있다고 결정될 수 있다.
일부 구성들에서, 문서 구성 요소들 간의 2차원("2D") 및/또는 3차원("3D") 공간 관계가 그 요소들 또는 다른 요소들에 대한 문서 작성자의 레이아웃 의도를 추론하는데 이용될 수 있다. 마찬가지로, 예를 들어, 프레젠테이션형 문서의 문서 구성 요소들 간의 시간적 관계가 그러한 문서 구성 요소들 또는 다른 요소들과 관련하여 문서 작성자의 레이아웃 의도를 추론하는데 이용될 수 있다. 다양한 다른 유형의 명시적으로 포맷팅된 문서 구성 요소들에 관한 문서 작성자의 레이아웃 의도는 다른 방식으로도 결정될 수 있다.
일부 구성에서, 하나 이상의 휴리스틱 알고리즘 및/또는 하나 이상의 머신 학습 분류기는 문서의 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도를 결정한다. 예를 들어, 그러나 제한 없이, 휴리스틱 알고리즘은 문서의 문서 구성 요소의 패턴 또는 구성을 조사하여 그 안에 포함된 명시적으로 포맷팅된 문서 구성 요소에 대해 추론된 레이아웃 의도를 결정할 수 있다.
레이아웃 의도를 추론하는데 이용되는 휴리스틱 알고리즘 및/또는 머신 학습 분류기는 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서의 결정된 레이아웃 유형에 기초하여 선택 및/또는 구성될 수 있다. 이러한 방식으로, 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도를 추론하는데 이용되는 소프트웨어 구성 요소가 문서의 결정된 레이아웃 유형을 기반으로 맞춤화될 수 있다. 또한, 레이아웃 의도를 결정하기 위해 이용되는 머신 학습 분류기는 트레이닝 문서의 코퍼스에 있는 문서의 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도에 대한 인간 분류에 기초하여 트레이닝될 수도 있다.
일부 구성에서, 문서의 명시적으로 포맷팅된 문서 구성 요소의 일부 또는 전부에 대해 추론된 레이아웃 의도를 사용하여 의도-기반 문서가 생성된다. 하나의 구성에서, 의도-기반 문서는 생성된 문서로부터 추론된 문서 작성자의 레이아웃 의도에 따라 그 내용을 정의하는 마크업을 포함한다. 예를 들어, 볼드체 또는 이탤릭체로 된 텍스트의 작성자의 레이아웃 의도가 텍스트에 강조를 제공하기 위한 것이라고 결정되는 상기에서 제시된 예시에서, 의도-기반 문서는 텍스트가 렌더링될 때 강조되어야 함을 나타내는 관련 마크업과 함께 텍스트를 포함할 수 있다. 유사한 방식으로, 포맷팅되지 않은 텍스트의 작성자의 레이아웃이, 상기에서 제시된 예시에서와 같이, 강조를 제공하는 것이라고 결정되면, 마크업은 텍스트가 렌더링될 때 강조되어야 함을 나타내는 포맷팅되지 않은 텍스트와 관련이 있을 수 있다. 볼드체 또는 이탤릭체로 된 텍스트의 작성자의 레이아웃 의도가 섹션 표제를 정의하는 것이라고 결정되는 상기에 제시된 예시에서, 의도-기반 문서는 텍스트와, 텍스트가 렌더링될 때 섹션 표제로 이용되어야 함을 나타내는 관련 마크업을 포함할 수 있다. 문서 구성 요소 및 그에 관련된 레이아웃 의도를 정의하기 위해 의도-기반 문서에서 다른 유형의 마크업을 사용할 수도 있다.
일부 구성들에서, 각각의 추론된 레이아웃 의도에 대해 하나 이상의 확실성 점수(certainty score)가 생성된다. 확실성 점수는 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도가 문서 작성자의 실제 레이아웃 의도였다는 확실성의 척도이다. 확실성 점수는 의도-기반 문서를 렌더링할 때 이용될 수 있으며, 잠재적으로 다른 목적으로 이용될 수 있다. 예를 들어, 그러나 제한 없이, 가장 높은 확실성 점수를 갖는 레이아웃 의도가 의도-기반 문서에서 문서 구성 요소를 처음에 렌더링하는데 이용될 수 있다. 그 후에, 사용자는 특정 문서 구성 요소에 대한 레이아웃이 잘못되었음을 나타낼 수 있다(예를 들어, 텍스트가 의도한대로 섹션 표제로서가 아니라 강조된 것으로 표시됨). 이 상황에서, 다음으로 가장 높은 확실성 점수를 갖는 명시적으로 포맷팅된 문서 구성 요소에 대한 레이아웃 의도가 문서 구성 요소를 렌더링하기 위해 이용될 수 있다. 또한, 확실성 점수는 다른 구성에서 다른 방식으로 이용될 수 있다.
또한, 전술한 대상은 컴퓨터-제어형 장치, 컴퓨터 프로세스, 컴퓨팅 시스템으로서 구현될 수도 있고, 또는 컴퓨터 판독 가능 매체와 같은 제조 물품으로서 구현될 수 있다는 점을 이해해야 한다. 이들 및 다양한 다른 특징들은 다음의 상세한 설명을 읽고 관련 도면을 참고함으로써 명확해질 것이다.
본 개요는 아래의 상세한 설명에서 추가적으로 설명되는 일련의 개념들을 간략하게 소개하기 위해 제공되는 것이다. 본 개요는 특허 청구 대상의 중요 특징 또는 필수적 특징을 표시하기 위한 것도 아니고, 또한 본 개요를 이용해서 특허 청구 대상의 범위를 한정하고자 하는 것도 아니다. 나아가, 특허 청구 대상이 본 개시의 어느 부분에서든 언급되는 문제점의 전부 혹은 일부분을 해결하기 위한 구현으로 한정되는 것은 아니다.
도 1은 명시적인 포맷팅 정보를 사용하여 문서 구성 요소가 정의된 문서로부터 의도-기반 문서를 생성하기 위해 추론된 레이아웃 의도를 사용하는 본원에서 설명된 하나의 메커니즘의 양태들을 나타내는 루틴을 도시하는 순서도이다.
도 2는 의도-기반 문서로 변환될 문서의 레이아웃을 분류하기 위해 이용될 수 있는 문서 레이아웃 분류 서비스의 구성 및 동작의 양태들을 도시하는 소프트웨어 아키텍처도이다.
도 3은 의도-기반 문서로 변환될 문서의 레이아웃을 분류하기 위한 문서 레이아웃 분류 서비스의 동작 양태들을 나타내는 루틴을 도시하는 순서도이다.
도 4는 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서로부터 의도-기반 문서를 생성하기 위해 이용되는 문서 변환 서비스의 구성 및 동작의 양태들을 나타내는 소프트웨어 아키텍처도이다.
도 5는 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서로부터 의도-기반 문서를 생성하기 위한 문서 변환 서비스의 동작 양태들을 나타내는 루틴을 도시하는 순서도이다.
도 6은 본원에 제시된 기술의 양태들을 구현할 수 있는 컴퓨팅 시스템의 예시적인 컴퓨터 하드웨어 및 소프트웨어 아키텍처를 나타내는 컴퓨터 아키텍처도이다.
도 7은 본원에 제시된 기술들의 양태들을 구현할 수 있는 분산 컴퓨팅 환경을 나타내는 도면이다.
도 8은 본원에 제시된 기술들의 양태들을 구현할 수 있는 컴퓨팅 장치 아키텍처를 나타내는 컴퓨터 아키텍처도이다.
다음의 상세한 설명은 레이아웃 의도를 추론하는 기술에 관한 것이다. 본원에서 설명된 대상이 컴퓨터 시스템 상의 운영 체제 및 애플리케이션 프로그램의 실행과 함께 실행되는 프로그램 모듈의 일반적인 문맥으로 제시되었지만, 당업자는 다른 유형의 프로그램 모듈과 조합하여 다른 구현이 수행될 수 있다는 점을 이해할 것이다. 일반적으로, 프로그램 모듈은 루틴, 프로그램, 컴포넌트, 데이터 구조, 그리고 특정한 작업을 수행하거나 특정한 추상적인 데이터 유형을 구현하는 다른 유형의 구조를 포함한다. 더욱이, 당업자라면, 본원에서 설명되는 대상이 핸드헬드 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 가전제품이나 프로그램가능 가전제품, 미니 컴퓨터, 메인프레임 컴퓨터 등을 포함하는 다른 컴퓨터 시스템 구성과 함께 실시될 수 있다는 점을 이해할 것이다.
다음의 상세한 설명에서는, 본원의 일부를 이루는 첨부 도면을 참조하되, 도면에는 특정 구성들 또는 예시들을 예로써 도시되어 있다. 여러 도면에서 동일한 참조 번호가 동일한 구성 요소를 나타내는 도면을 이제부터 참조하여, 레이아웃 의도를 추론하는 다양한 기술들의 양태들이 설명될 것이다. 특히, 도 1은 명시적인 포맷팅 정보를 사용하여 문서 구성 요소가 정의된 문서로부터 의도-기반 문서를 생성하기 위해 추론된 레이아웃 의도를 사용하는, 본원에 설명된 하나의 메커니즘의 양태들을 나타내는 루틴(100)을 도시하는 순서도이다.
도 1 및 기타 도면과 관련하여 본원에서 설명된 논리적 동작은 (1) 컴퓨팅 시스템 상에서 구동되는 컴퓨터로 구현된 액트의 시퀀스로서 또는 프로그램 모듈들로서 및/또는 (2) 컴퓨팅 시스템 내에서 상호 연결된 머신 로직 회로들 또는 회로 모듈들로서 구현된다는 점을 이해해야 한다. 이런 구현은 컴퓨팅 시스템의 성능 및 다른 요건에 따른 선택 사항이다. 따라서, 본원에서 설명된 논리적 동작은 다양하게 상태, 동작, 구조적 장치, 액트 또는 모듈로 지칭된다. 이들 동작, 구조적 장치, 액트 및 모듈은 소프트웨어, 펌웨어, 특수 목적 디지털 로직, 그리고 이들의 임의의 조합으로 구현될 수 있다. 또한, 도면에 도시되고 본원에서 설명된 것보다 더 많거나 적은 동작들이 수행될 수도 있음을 이해해야 한다. 이런 동작들은 본원에 설명된 바와는 다른 순서로 수행될 수도 있다.
루틴(100)은 동작(102)에서 시작하며, 여기에서는 (본원에서 "명시적으로 포맷팅된 문서 구성 요소"로 지칭될 수 있는) 명시적인 포맷팅 정보를 사용하여 정의된, 그리고 의도-기반 문서로 변환될 문서 구성 요소를 포함하는 문서가 수신된다. 명시적으로 포맷팅된 문서 구성 요소는 문서 작성자가 포맷팅 속성 및/또는 기타 특성을 명시적으로 지정한 문서의 구성 요소이다. 예를 들어, 문서 작성자는 텍스트를 정의하고 그 텍스트에 볼드체, 이탤릭체, 색상 또는 다른 유형의 포맷팅을 적용할 수 있다. 또 다른 예로, 문서 작성자는 관련 텍스트 블록에 대해 문서에서 이미지의 정확한 위치를 지정할 수 있다.
명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서는, 예를 들어, 의도-기반 렌더링/작성 애플리케이션에서 문서 열기 요청의 수신에 대한 응답으로 수신될 수 있다. 의도-기반 렌더링/작성 애플리케이션은 의도-기반 문서를 렌더링하기 위해 문서 작성자의 포맷팅 의도를 이용한다. 의도-기반 렌더링/작성 애플리케이션은 사용자가 의도-기반 문서를 작성 및/또는 수정하거나, 의도-기반 문서 또는 다른 문서 유형과 관련하여 다른 유형의 기능을 수행하도록 허용할 수 있으며, 이 때 포맷팅은 명시적인 포맷팅을 이용하여 표현된다.
의도-기반 렌더링/작성 애플리케이션에서 명시적인 포맷팅 정보를 사용하여 정의된 문서 구성 요소를 포함하는 문서를 열기 위해서, 문서를 의도-기반 문서로 변환할 필요가 있을 수 있다. 간략하게 전술한 바와 같이, 의도-기반 문서에는 명시적인 포맷팅 정보를 사용하지 않고 생성된 문서로부터 추론된 문서 작성자의 레이아웃 의도에 따라 그 내용을 정의하는 마크업이 포함되어 있다.
또한, 동작(102)에서 수신된 문서는 사용자에게 프레젠테이션하기 위해 문서를 렌더링하라는 요청과 함께 수신될 수 있다. 예를 들어, 그러나 제한 없이, 사용자는 스마트폰 또는 태블릿 컴퓨팅 장치에서 문서를 보는 요청을 제출할 수 있다. 상기에서 간략히 설명한 것처럼, 세로 방향으로 8.5" x 11"로 인쇄된 페이지에 맞도록 명시적인 포맷팅 정보를 사용하여 처음에 정의된 문서의 내용이 스마트폰이나 태블릿 장치에서 가로 모드로 프레젠테이션되기 어려울 수 있다. 그러나 의도-기반 문서는 명시적인 포맷팅을 사용하기보다는 레이아웃 의도의 관점에서 정의되기 때문에, 문서가 다양한 크기와 방향으로, 상이한 화면 유형 및 종횡비를 갖는 다양한 유형의 장치에 효과적으로 렌더링될 수 있다. 이 프로세스에 관한 추가 세부 사항이 아래에서 제공될 것이다.
동작(102)에서 수신된 문서는 워드 프로세싱 문서, 프레젠테이션 문서, 스프레드시트 문서, HTML(HypterText Markup Language) 문서, 비디오, PDF(Portable Document Format) 문서, 또는 명시적인 포맷팅 정보를 사용하여 정의된 문서 구성 요소를 포함하는 다른 유형의 문서일 수 있음을 이해해야 한다. 또한, 문서는 명시적인 포맷팅 정보 정의된 일부 문서 구성 요소 및 작성자의 의도에 따라 정의된 기타 문서 구성 요소를 포함할 수 있음을 이해해야 한다. 하나의 이런 예로 텍스트를 표제로서 사용하려는 작성자의 의도를 정의하는 표제 스타일을 사용하는 것이 있다. 이 예에서, 명시적인 포맷팅 정보를 사용하여 정의된 문서 구성 요소들은 아래에 설명된 프로세스를 사용하여 변환될 수 있지만, 작성자의 의도에 따라 정의된 그 문서 구성 요소들은 변환되지 않는다.
동작(102)으로부터, 루틴(100)은 동작(104)으로 진행하고, 여기에서는 동작(102)에서 수신되고 명시적으로 포맷팅된 문서 구성 요소를 갖는 문서의 레이아웃 유형이 결정된다. 예를 들어, 그러나 제한 없이, 휴리스틱 알고리즘 및/또는 머신 학습 분류기를 이용하여, 명시적으로 포맷팅된 요소를 갖는 문서의 레이아웃이 "종이형"인지 또는 "프레젠테이션형"인지 여부를 결정할 수 있다. 상기에서 간략히 설명한 것처럼, 종이형 문서 레이아웃은 (예를 들어, 영어에서) 위에서 아래로 선형으로 소비되는 것을 의도하는 레이아웃이다. 프레젠테이션형 문서의 레이아웃은 보통 순차적으로 보여지는 것을 의미하는 개별의 "슬라이드"를 포함한다. 또한, 프레젠테이션형 문서의 레이아웃에는 종이형 문서의 레이아웃의 내용과 다른 방식으로 슬라이드에서 슬라이드로 반복되는 내용이 있을 수 있다. 또한, 종이형 또는 프레젠테이션형이 아닌 다른 문서 레이아웃 유형이 다른 구성에서도 식별될 수 있다. 문서의 레이아웃 유형을 분류하기 위해 본원에 개시된 하나의 메커니즘에 관한 추가 세부 사항이 도 2 및 도 3과 관련하여 아래에서 제공될 것이다.
동작(102)에서 수신된 문서의 레이아웃 유형이 결정되면, 루틴(100)은 동작(104)로부터 동작(106)으로 진행하며, 여기서 의도-기반 버전의 문서가 생성된다. 의도-기반 버전의 문서를 생성하기 위해, 문서의 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도가 결정될 수 있다. 예를 들어, 그러나 제한 없이, 문서에서 명시적으로 포맷팅된 볼드체 또는 이탤릭체의 텍스트가 텍스트를 강조하기 위해 의도된 것인지가 결정될 수 있다. 또는, 명시적으로 포맷팅된 볼드체 또는 이탤릭체의 텍스트가 섹션 표제나 문서 제목의 설정을 의도하는지가 결정될 수 있다. 유사하게, 문서 구성 요소들 간의 2D 및/또는 3D 공간 관계는 문서 작성자의 레이아웃 의도를 추론하는데 이용될 수 있다. 마찬가지로, 예를 들어, 프레젠테이션형 문서에서 문서 구성 요소들 간의 시간적 관계는 문서 작성자의 레이아웃 의도를 추론하는데 이용될 수 있다. 다양한 다른 유형의 명시적으로 포맷팅된 문서 구성 요소와 관련하여 문서 작성자의 레이아웃 의도가 다른 방식으로도 결정될 수 있다.
아래에서 보다 상세히 설명되는 바와 같이, 하나 이상의 휴리스틱 알고리즘 및/또는 하나 이상의 머신 학습 분류기가 문서의 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도를 결정하기 위해 이용될 수 있다. 예를 들어, 그러나 제한 없이, 휴리스틱 알고리즘은 문서의 문서 구성 요소의 패턴 또는 구성을 조사하여 그 안에 포함된 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정할 수 있다. 레이아웃 의도를 추론하는데 이용되는 휴리스틱 알고리즘 및/또는 머신 학습 분류기는 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서의 결정된 레이아웃 유형에 기초하여 선택 및/또는 구성될 수 있다. 레이아웃 의도를 결정하기 위해 이용되는 머신 학습 분류기는 트레이닝 문서의 코퍼스 내의 문서에서 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도에 대한 인간 분류에 기초하여 트레이닝될 수 있다.
일부 구성에서, 의도-기반 문서는 문서의 명시적으로 포맷팅된 문서 구성 요소의 일부 또는 전부에 대해 추론된 레이아웃 의도를 사용하여 생성된다. 하나의 구성에서, 의도-기반 문서는 생성된 문서로부터 추론된 문서 작성자의 레이아웃 의도에 따라 그 내용을 정의하는 마크업을 포함한다. 또한, 일부 구성에서, 추론된 각각의 레이아웃 의도에 대해 하나 이상의 확실성 점수가 생성되어 의도-기반 문서에 포함된다. 상기에서 간략히 언급하고 또한 이하에서 보다 상세하게 설명되는 바와 같이, 확실성 점수는 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도가 문서 작성자의 실제 레이아웃 의도라는 확실성을 정의한다. 확실성 점수는 의도-기반 문서를 렌더링할 때 이용될 수 있으며, 잠재적으로 다른 목적을 위해 이용될 수 있다. 의도-기반 버전의 문서를 생성하기 위한 전술한 메커니즘에 관한 부가적인 세부 사항이 도 4 및 도 5을 참조하여 아래에서 제공될 것이다.
동작(106)으로부터, 루틴(100)은 동작(108)으로 진행하며, 여기서 동작(104 및 106)에서 생성된 의도-기반 문서가 의도-기반 렌더링/작성 애플리케이션에 제공될 수 있다. 간략하게 전술한 바와 같이, 의도-기반 렌더링/작성 애플리케이션은 그것이 제시될 컴퓨팅 장치에 적합한 방식으로 의도-기반 문서를 렌더링할 수 있다. 의도-기반 문서의 렌더링은 문서 작성자의 레이아웃 의도를 유지하는 방식으로 수행된다. 또한, 의도-기반 렌더링/작성 애플리케이션은 문서 작성자의 원래 의도를 보존하는 방식으로 의도-기반 문서의 표현을 미화할 수 있다. 또한, 이 프로세스에 대한 추가 세부 정보가 아래에서 제공될 것이다. 그 다음으로 루틴(100)은 동작(108)에서 동작(110)으로 진행하며, 동작이 종료한다.
도 2는 의도-기반 문서로 변환될 문서(204)의 레이아웃을 분류하기 위해 이용될 수 있는 문서 레이아웃 분류 서비스(202)의 구성 및 동작 양태들을 나타내는 소프트웨어 아키텍처도이다. 도 2에 도시된 바와 같이, 문서 레이아웃 분류 서비스(202)는 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서(204)를 수신한다. 이어서, 문서 레이아웃 분류 서비스(202)는 그 레이아웃을 분류하기 위해 수신된 문서(204)의 레이아웃을 분석할 수 있다. 특히, 문서(204)의 식별된 레이아웃 유형을 정의하는 문서 레이아웃 분류(210)가 생성될 수 있다.
도 2에 도시된 구성에서, 문서 레이아웃 분류 서비스(202)는 문서 레이아웃 분류(210)를 생성하기 위해서 하나 이상의 휴리스틱 문서 레이아웃 분류 모듈(206) 및, 잠재적으로, 하나 이상의 머신 학습 기반 문서 레이아웃 분류기(208)를 이용한다. 휴리스틱 문서 레이아웃 분류 모듈(206)은 문서의 레이아웃 유형을 결정하기 위한 휴리스틱 문서 레이아웃 알고리즘을 구현하는 소프트웨어 모듈이다. 머신 학습 기반 문서 레이아웃 분류기(208)는 문서(204)의 레이아웃 유형을 식별하도록 트레이닝된 머신 학습 분류기이다. 머신 학습 기반 문서 레이아웃 분류기(208)는 트레이닝 문서의 코퍼스(도 2에 도시되지 않음) 내에서 문서의 레이아웃의 인간 분류에 기초하여 트레이닝될 수 있다.
하나의 특정 구성에서, 휴리스틱 문서 레이아웃 분류 모듈들(206) 및 머신 학습 기반 문서 레이아웃 분류기들(208)은 종이형 레이아웃 또는 프레젠테이션형 레이아웃을 갖는 것으로 문서(204)를 분류하도록 구성된다. 전술한 바와 같이, 종이형 문서 레이아웃은 (예를 들어, 영어에서) 위에서 아래로 선형으로 소비되는 것을 의미하는 레이아웃이다. 또한 전술한 바와 같이, 프레젠테이션형 문서 레이아웃은 보통 순차적으로 보여지는 것을 의미하는 개별의 "슬라이드"를 포함한다. 휴리스틱 문서 레이아웃 분류 모듈들(206) 및 머신 학습 기반 문서 레이아웃 분류기들(208)은 또한 다른 구성들에서 종이형 및 프레젠테이션형 레이아웃 이외의 다른 문서 레이아웃 유형들을 식별하도록 구성될 수 있음을 이해해야 한다.
또한, 일부 구성에서, 문서의 파일 유형에 기초하여 문서(204)의 레이아웃에 관한 어떠한 가정도 행해지지 않음을 이해해야 한다. 예를 들어, 워드 프로세싱 문서(204)가 종이형 레이아웃 유형을 갖는다는 가정을 하지 않는다. 유사하게, 프레젠테이션 문서(204)도 프레젠테이션-유형 레이아웃을 갖는 것으로 자동으로 가정되지 않는다. 이것은 워드 프로세싱 문서가 프레젠테이션형 레이아웃을 가질 수 있기 때문이다. 마찬가지로, 프레젠테이션 문서가 종이형 레이아웃을 가질 수 있다. 그 결과, 문서 레이아웃 분류(210)를 결정하기 위해 다양한 구성에서 문서(204)의 파일 유형이 아닌 문서(204)의 실제 레이아웃이 이용된다. 그러나, 문서 레이아웃 분류 서비스(202)는 문서 레이아웃 분류(210)의 결정 동안 문서(204)의 파일 유형에 대해 가중치를 줄 수 있다.
도 2에 도시된 예에서, 문서 레이아웃 분류 서비스(202)는 웹 서비스로서 구현된다. 이 구현 예에서, 문서 레이아웃 분류 서비스(202)는 그 기능의 양태에 액세스하기 위해 다양한 유형의 웹 서비스 애플리케이션 프로그래밍 인터페이스("API")를 노출할 수 있다. 그러나, 이러한 구성은 단지 예시적인 것이며 문서 레이아웃 분류 서비스(202)에 의해 구현되는 기능이 다른 방식으로 제공될 수 있음을 이해해야 한다. 예를 들어, 그러나 제한 없이, 이 기능은 스마트폰, 태블릿, 데스크탑 또는 랩탑 컴퓨터와 같은 컴퓨팅 장치에서 기본적으로 실행되는 의도-기반 렌더링/작성 애플리케이션에 직접 포함될 수 있다. 또는, 이 기능은 웹-기반 애플리케이션으로 제공되고 웹 브라우저 또는 기타 적절한 애플리케이션을 통해 액세스되는 의도-기반 렌더링/작성 애플리케이션을 통해 제공될 수 있다. 이 기능은 다른 구성에서 다른 방법으로 제공될 수도 있다.
도 2에 도시된 예시적인 구성에서, 휴리스틱 문서 레이아웃 분류 모듈(206) 및 머신 학습 기반 문서 레이아웃 분류기(208)는 문서 레이아웃 분류 서비스(202)의 외부에 도시되어 있다. 그러나, 이들 구성 요소는 다른 구성에서 문서 레이아웃 분류 서비스(202)와 통합될 수 있음을 이해해야 한다. 또한, 휴리스틱 및 머신 학습 이외의 메커니즘이 문서(204)의 레이아웃을 분류하기 위해 다른 구성에서 이용될 수 있음을 이해해야 한다.
아래에서 보다 상세하게 설명되는 바와 같이, 문서(204)에 대해 결정된 문서 레이아웃 분류(210)를 이용하여 문서(204)를 의도-기반 문서로 변환하기 위해 본원에 개시된 메커니즘을 맞춤화할 수 있다. 이런 양태에 관한 추가 세부 사항이 도 3 및 도 4와 관련하여 아래에서 제공될 것이다.
도 3은 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서(204)의 레이아웃을 분류하기 위한 문서 레이아웃 분류 서비스(202)의 동작 양태들을 나타내는 루틴(300)을 도시하는 순서도이다. 루틴(300)은 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서(204)가 문서 레이아웃 분류 서비스(202)에서 수신되는 동작(302)에서 시작한다. 전술한 바와 같이, 문서(204)는 의도-기반 렌더링/작성 애플리케이션에서의 문서(204)의 렌더링 요청에 응답하여 또는 다른 유형의 자극에 응답하여 문서 레이아웃 분류 서비스(202)에 제공될 수 있다. 동작(302)으로부터, 루틴(300)은 동작(303)으로 진행한다.
동작(303)에서, 문서에서 포맷팅을 식별하기 위해 문서의 분해 및 분석이 수행된다. 텍스트의 경우, 이에 텍스트의 서체, 포인트 크기, 가중치 및/또는 색상 등과 같은 것이 포함된다. 이러한 데이터 포인트 중 일부는 원래 문서(204)로부터 계산될 수도 있다. 예를 들어, HTML 웹 문서는, 예를 들어, 실제 색상이나 서체를 결정하기 위해 계산해야 하는 중첩된 CSS 스타일을 이용할 수 있다. 텍스트와 관련된 이미지의 상대적인 위치를 이해하기 위해 HTML 구조가 분석될 수도 있다.
다음으로, 루틴(300)은 동작(303)에서 동작(304)으로 진행하며, 여기서 문서 레이아웃 분류 서비스(202)는 하나 이상의 휴리스틱-기반 문서 레이아웃 분류 알고리즘을 실행하기 위해 휴리스틱 문서 레이아웃 분류 모듈(206)을 실행시킨다. 전술한 바와 같이, 휴리스틱 문서 레이아웃 분류 모듈(206)은 문서(204)의 레이아웃을 분류하기 위해 휴리스틱을 이용한다. 예를 들어, 그러나 제한 없이, 다양한 휴리스틱을 이용하여 문서(204)의 레이아웃이 종이형인지 또는 프레젠테이션형인지를 결정할 수 있다.
동작(304)으로부터, 루틴(300)은 동작(306)으로 진행하고, 여기에서 문서 레이아웃 분류 서비스(202)는 문서(204)의 레이아웃 유형을 분류하기 위해 머신 학습 기반 문서 레이아웃 분류기(208)를 실행할 수 있다. 전술한 바와 같이, 머신 학습 기반 문서 레이아웃 분류기(208)는 트레이닝 문서의 코퍼스에서 문서의 레이아웃의 인간 분류에 기초하여 트레이닝될 수 있다. 이 트레이닝의 결과에 기초하여, 머신 학습 기반 문서 레이아웃 분류기(208)는 문서(204)의 레이아웃을 종이형 또는 프레젠테이션형으로 분류할 수 있다. 전술한 바와 같이, 머신 학습 기반 문서 레이아웃 분류기(208)는 또한 문서(204)의 레이아웃을 다른 구성에서 다른 유형의 분류로 분류할 수 있다.
동작(306)으로부터, 루틴(300)은 동작(308)으로 진행하며, 여기서 문서 레이아웃 분류 서비스(202)는 휴리스틱 문서 레이아웃 분류 모듈들(206) 및/또는 머신 학습 기반 문서 레이아웃 분류기들(208)에 의해 수행된 처리의 결과에 기초하여 문서 레이아웃 분류(210)를 생성한다. 전술한 바와 같이, 문서 레이아웃 분류(210)는 문서(204)에 대해 결정된 레이아웃 유형을 나타내는 데이터를 포함한다. 예를 들어, 그러나 제한 없이, 문서 레이아웃 분류(210)는 문서(204)가 종이형 레이아웃을 갖는지 또는 프레젠테이션형 레이아웃을 갖는지를 표시할 수 있다. 다른 구성에서 다른 레이아웃 유형들이 표시될 수 있다.
동작(308)으로부터, 루틴(300)은 문서 레이아웃 분류 서비스(202)가 문서(204)에 대한 문서 레이아웃 분류(210)를 출력하는 동작(310)으로 진행한다. 예를 들어, 그러나 제한 없이, 문서 레이아웃 분류 서비스(202)는 문서(204)를 의도-기반 문서로 변환하는데 사용하기 위해 문서 레이아웃 분류(210)를 문서 변환 서비스에 출력할 수 있다. 문서(204)의 변환 동안 문서 레이아웃 분류(210)의 사용에 관한 추가 세부 사항은 도 4 및 도 5와 관련하여 후술될 것이다. 동작(310)으로부터, 루틴(300)은 동작(312)으로 진행하여 동작을 종료한다.
문서(204)의 레이아웃을 분류하기 위한 전술한 메커니즘은 단지 예시적인 것이고 다른 메커니즘 또한 이용될 수 있음을 이해해야 한다. 예를 들어, 그러나 제한 없이, 일부 구성에서, 문서(204)의 레이아웃 유형을 분류할 때 문서를 오른쪽에서 왼쪽 또는 왼쪽에서 오른쪽으로 읽는지 여부와 같은 다양한 문화적 요인들이 고려될 수 있다. 또한, 특정 유형의 문서(204)의 레이아웃 유형이 문서(204)를 실제로 렌더링하지 않고 결정될 수 있음을 이해해야 한다. PDF 문서와 같은 기타 다른 유형의 문서(204)의 경우, 문서의 레이아웃 유형을 분류하기 위해 문서(204)가 메모리에 렌더링될 수 있다.
도 4는 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서(204)로부터 의도-기반 문서(408)를 생성하기 위해 이용되는 문서 변환 서비스(402)의 구성 및 동작 양태를 도시하는 소프트웨어 아키텍처도이다. 도 4에 도시된 바와 같이, 하나의 구성에서 문서 변환 서비스(402)는 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서(204)를 의도-기반 문서(408)로 변환하기 위한 기능을 제공한다.
도 4에 도시된 구성에서, 문서 변환 서비스(402)는 웹 서비스로서 구현된다. 이러한 구현에서, 문서 변환 서비스(402)는 그 기능의 양태에 액세스하기 위해 다양한 유형의 웹 서비스 API를 노출할 수 있다. 그러나, 이러한 구성은 단지 예시적인 것이며 문서 변환 서비스(402)에 의해 구현되는 기능이 다른 방식으로 제공될 수 있음을 이해해야 한다. 예를 들어, 그러나 제한 없이, 개시된 기능은 스마트폰, 태블릿, 데스크탑 또는 랩탑 컴퓨터와 같은 컴퓨팅 장치에서 기본적으로 실행되는 의도-기반 렌더링/작성 애플리케이션에 직접 포함될 수 있다. 또는, 이 기능은 웹-기반 애플리케이션으로 제공되고 웹 브라우저 또는 기타 적절한 애플리케이션을 통해 액세스되는 의도-기반 렌더링/작성 애플리케이션을 통해 제공될 수 있다. 이 기능은 다른 구성에서 다른 방법으로 제공될 수도 있다.
도 4에 도시된 바와 같이, 문서 변환 서비스(402)는 명시적으로 포맷팅된 문서 구성 요소 및 문서(204)에 대한 문서 레이아웃 분류(210)를 포함하는 문서(204)를 입력으로서 취한다. 문서(204)에 대한 문서 레이아웃 분류(210)는 도 2 및 도 3과 관련하여 전술한 방식으로 생성될 수 있다. 전술한 바와 같이, 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서(204)의 레이아웃을 분류하기 위해 다른 메커니즘 또한 이용될 수 있다.
일 구성에서, 문서 변환 서비스(402)는 문서(204) 내의 명시적으로 포맷팅된 문서 구성 요소와 관련된 레이아웃 의도를 결정하기 위해 하나 이상의 휴리스틱 문서 구성 요소 레이아웃 의도 모듈(404A-404N, 본원에서 집합적으로 "모듈(404)"이라고 지칭될 수 있음)을 이용한다. 모듈(404)은 문서(204) 내의 명시적으로 포맷팅된 문서 구성 요소들로부터 레이아웃 의도를 추론하도록 설계된 휴리스틱 알고리즘을 구현할 수 있다. 예를 들어, 그러나 제한 없이, 모듈들(404)은 문서(204) 내의 문서 구성 요소의 패턴 또는 구성을 조사하여, 그 안에 포함된 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정할 수 있다. 이와 유사하게, 이들 모듈은 레이아웃 의도를 추론하기 위해 문서(402) 내의 문서 구성 요소들의 위치, 다른 문서 구성 요소와의 공간적 및 시간적 관계, 문서의 그들의 위치, 및/또는 유사하거나 다른 문서 구성 요소 간의 다른 관계를 참조하여 문서 구성 요소를 분석할 수 있다.
일부 구현에서, 문서 변환 서비스(402)는 문서 레이아웃 분류(210)에 기초하여 모듈(404)을 선택 및/또는 구성한다. 예를 들어, 그러나 제한 없이, 문서 변환 서비스(402)는 종이형 레이아웃을 갖는 문서에서 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도를 결정하는 모듈(404)을 선택 및/또는 구성할 수 있다. 유사하게, 문서 변환 서비스(402)는 프레젠테이션형 레이아웃을 갖는 문서에서 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도를 결정하는 모듈(404)을 선택 및/또는 구성할 수 있다. 이러한 방식으로, 모듈(404)의 동작은 상이한 레이아웃 유형을 갖는 문서(204) 내의 문서 구성 요소의 레이아웃 의도를 최적으로 결정하도록 구성될 수 있다.
모듈(404) 중 일부는 문서(204) 내의 제목들의 포맷팅에 기초하여 레이아웃 의도를 추론하도록 구성될 수 있다. 예를 들어, 프레젠테이션형 레이아웃을 갖는 문서(204)에서, 여러 슬라이드가 동일한 (또는 차이의 화이트 리스트와 거의 동일한) 제목을 갖는다면, 모든 슬라이드가 단일 제목을 갖는 동일한 섹션의 일부인 것으로 추론될 수 있다. 다른 예에서, 이미지 또는 텍스트가 프레젠테이션형 레이아웃을 갖는 문서(204) 내의 몇 개의 인접한 슬라이드 상에서 반복되는 경우, 그 소재는 네비게이션 또는 사이드바 내용으로 추론될 수 있고, 의도-기반 문서(408)에 한 번만 포함될 수 있다.
종이형 레이아웃을 갖는 문서(204)에서, 짧은 양의 텍스트가 공백을 포함하는 주변 텍스트와 상이하고 문서(204)의 제목 및/또는 표제와 일치하는 포맷이 아닌 경우, 그 텍스트는 발췌(pull-quote)로 추론될 수 있다. 당업자에게 공지된 바와 같이, 발췌는 통상적으로 어떤 방식으로 강조된 동일한 페이지로부터 인용된 것이다. 텍스트가 따옴표로 둘러싸인 경우에, 이렇게 추론된 레이아웃 의도에 대한 확실성 점수(412)가 증가할 것이다. 텍스트의 포맷팅이 따옴표로 둘러싸인 다른 식별된 발췌와 일치하는 경우, 이렇게 추론된 레이아웃 의도에 대한 확실성 점수(412)도 증가할 것이다.
전술한 예시적인 휴리스틱 알고리즘은 단지 예시적인 것임을 이해해야 한다. 다른 유형의 휴리스틱 알고리즘은 다른 구성에서 명시적으로 포맷팅된 다른 유형의 문서 구성 요소의 레이아웃 의도를 추론하기 위한 모듈(404)에 의해서도 구현될 수 있다.
도 4에 도시된 바와 같이, 문서 변환 서비스(402)는 추가적으로, 또는 대안으로, 하나 이상의 머신 학습 기반 문서 구성 요소 레이아웃 의도 분류기(406A-406N, 집합적으로 "분류기(406)"로 지칭될 수 있음)를 이용할 수 있다. 분류기(406)는 문서(204) 내의 명시적으로 포맷팅된 문서 구성 요소에 관해서 작성자의 의도를 인식하도록 트레이닝된 머신 학습 분류기이다. 이 기능을 제공하기 위해, 분류기(406)는 트레이닝 문서의 코퍼스(도 4에 도시되지 않음) 내의 문서에서 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도에 대한 인간 분류에 기초하여 트레이닝될 수 있다.
일부 구현에서, 문서 변환 서비스(402)는 문서 레이아웃 분류(210)에 기초하여 분류기(406)를 선택 및/또는 구성한다. 예를 들어, 그러나 제한 없이, 문서 변환 서비스(402)는 종이형 레이아웃을 갖는 문서에서 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도를 결정하는 분류기(406)를 선택 및/또는 구성할 수 있다. 유사하게, 문서 변환 서비스(402)는 프레젠테이션형 레이아웃을 갖는 문서에서 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도를 결정하는 분류기(406)를 선택 및/또는 구성할 수 있다. 이러한 방식으로, 분류기(406)의 동작은 상이한 레이아웃 유형을 갖는 문서(204) 내의 문서 구성 요소의 레이아웃 의도를 최적으로 결정하도록 구성될 수 있다.
다양한 실시예에서 모듈(404) 및/또는 분류기(406)는 문서 작성자가 하나 이상의 명시적으로 포맷팅된 문서 구성 요소를 강조하고자 의도했음을 추론하도록 구성된다. 예를 들어, 볼드체 또는 이탤릭체의 특정 텍스트가 볼드체로 표시되거나 강조되지 않는 단락의 다른 텍스트로 둘러싸일 수 있다. 이런 예시에서, 모듈(404) 또는 분류기(406)는 작성자가 텍스트를 강조하고자 의도했음을 추론할 수 있다. 참조 작업, 선박 이름, 새 용어, 사용자 언급, 외국어 또는 기호(예를 들어, 그리스어 또는 라틴어 기호), 대수 기호 및/또는 수학 상수를 식별하기 위해 이탤릭체의 특수 용도를 추론할 수도 있다. 텍스트는 전술한 예시에서 설명한 것처럼 발췌로 추론될 수도 있다. 또한 전술한 바와 같이, 문서(204)에서 명백한 포맷팅의 부재는 또한 강조를 위한 신호일 수 있다. 이것은 일부 구성에서 클러스터를 포맷팅할 때 상대 엔트로피마다 결정될 수 있다. 각각의 포맷팅 클러스터는 텍스트-범위 포맷팅을 결정하는 모든 속성의 고유한 집합이다. 클러스터는 문서(204)와 연관된 CSS로부터 또는 문서(204)의 내용으로부터 직접 계산될 수 있다.
또한, 모듈(404) 및/또는 분류기(406)는 텍스트가 문서(204) 내의 텍스트의 크기, 들여쓰기, 간격, 포맷 및/또는 다른 속성으로부터 제목 및/또는 계층을 정의한다고 추론하도록 구성될 수 있다. 계층 구조의 예로는 챕터, 하위-챕터, 하위-하위-챕터 등을 포함할 수 있지만 이에 국한되지는 않는다. 이런 방식으로, 개요 또는 다른 유형의 구조를 만들기 위한 문서 작성자의 의도는 명시적으로 포맷팅된 텍스트로부터 추론될 수 있고, 또한 작성자의 의도를 정의하는 의도-기반 문서(408)를 생성하는데 이용될 수 있다.
모듈(404) 및/또는 분류기(406)는 또한 작성자의 표현 의도를 추론하기 위해 문서(204) 내의 2D 또는 3D 공간 또는 비-공간을 평가하도록 구성될 수 있다. 서로 겹치는 문서 구성 요소들을 분석하여 작성자의 표현 의도를 결정할 수도 있다. 문서 구성 요소들 사이의 시간적 관계가 유사한 방식으로 분석되어 관련 표현 의도를 결정할 수 있다. 예를 들어, 프레젠테이션형 레이아웃을 가진 문서에서, 구성 요소는 시간이 지남에 따라 슬라이드에 쌓일 수 있다. 이 예시에서, 문서 구성 요소의 시간 순서는 표현 의도가 유추될 수 있는 관련 정보일 수 있다. 이와 관련하여, 문서 구성 요소 간의 공간적 및/또는 시간적 관계를 식별하기 위해 일부 문서 유형을 메모리에 렌더링해야 할 수도 있다.
도 4에 도시된 예시적인 구성에서, 모듈(404) 및 분류기(406)가 문서 변환 서비스(402) 외부에 도시되어 있다. 그러나, 이들 구성 요소는 다른 구성에서 문서 변환 서비스(402)와 통합될 수 있음을 이해해야 한다. 또한 휴리스틱 및 머신 학습 이외의 메커니즘이 문서(204)의 명시적으로 포맷팅된 문서 구성 요소에 대한 레이아웃 의도를 분류하기 위해 다른 구성에서 이용될 수 있음을 이해해야 한다.
또한, 도 4에 도시된 바와 같이, 문서 변환 서비스(402)는 의도-기반 문서(408)를 생성하기 위해 모듈(404) 및 분류기(406)의 출력을 이용할 수 있다. 의도-기반 문서(408)는 문서(204) 내의 명시적으로 포맷팅된 문서 구성 요소들 중 일부 또는 전부에 대해 추론된 레이아웃 의도를 설명하는 데이터와 함께, 문서의 내용(204, 예를 들어, 텍스트, 이미지, 비디오 등) 또는 내용의 위치에 대한 참조를 포함할 수 있다. 예를 들어, 일 구성에서, 의도-기반 문서(408)는 생성된 문서(204)로부터 추론된 문서 작성자의 레이아웃 의도와 관련하여 거기에 포함된 문서 구성 요소를 정의하는 마크업(410)을 포함한다. 구체적인 예로서, 모듈(404) 또는 분류기(406)가 문서(204)에서 볼드체 또는 이탤릭체로 된 텍스트의 작성자의 레이아웃 의도가 텍스트에 강조를 제공하는 것이라고 결정하는 경우, 의도-기반 문서(408)는 텍스트를 식별하고 텍스트가 렌더링될 때 강조되어야 함을 나타내는 마크업(410)을 포함한다. 텍스트가 실제로 강조되는 방식은 의도-기반 문서(408)가 렌더링되는 방향, 타겟 장치의 성능 및/또는 다른 고려 사항 또는 요인에 기초하여 렌더링 시에 결정될 수 있다. 또한, 텍스트가 프레젠테이션되는 방식은 문서(204)의 스타일 및/또는 미학을 증대시키거나 수정하기 위해 수정될 수 있다.
다른 예로서, 모듈(404) 또는 분류기(406)가 볼드체 또는 이탤릭체로 된 텍스트의 레이아웃 의도가 섹션 표제를 정의하는 것이라고 결정하는 경우, 의도-기반 문서(408)는 텍스트를 정의하고 렌더링 될 때 텍스트가 섹션 표제로서 이용되어야 함을 나타내는 마크업(410)을 포함할 수 있다. 섹션 표제가 실제로 렌더링되는 방식은 의도-기반 문서(408)가 렌더링될 방향, 타겟 장치의 성능 및/또는 다른 고려 사항 또는 요인에 기초하여 렌더링 시에 결정될 수 있다. 또한, 다른 유형의 문서 구성 요소 및 그들의 관련 레이아웃 의도를 정의하기 위해 의도-기반 문서(408)에서 다른 유형의 마크업(410)이 특정될 수 있다.
도 4에 도시된 바와 같이, 문서 변환 서비스(402)는, 일단 변환 프로세스가 완료되면, 의도-기반 렌더링/작성 애플리케이션(414)에 의도-기반 문서(408)를 제공할 수 있다. 차례로, 의도-기반 렌더링/작성 애플리케이션(414)은 의도-기반 문서(408)를 렌더링할 수 있다. 간략하게 전술한 바와 같이, 의도-기반 렌더링/작성 애플리케이션(414)은 타겟 렌더링 플랫폼에 적절한 방식으로 의도-기반 문서(408)를 렌더링하기 위해 의도-기반 마크업(410)을 이용할 수 있다. 예를 들어, 그러나 제한 없이, 의도-기반 렌더링/작성 애플리케이션(414)은 웹사이트(416) 상의 웹페이지로서 소비되도록, 스마트폰(418)에서는 세로 또는 가로 방향으로 소비되도록, 또는 태블릿 장치(420)에서 세로 또는 가로 방향으로 소비되도록 의도-기반 문서를 렌더링할 수 있다.
일부 구성에서, 문서 변환 서비스(402)는 또한 각각의 추론된 레이아웃 의도에 대해 하나 이상의 확실성 점수(412)를 생성하도록 구성된다. 앞서 간략히 언급했듯이, 확실성 점수는 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도가 문서 작성자의 실제 레이아웃 의도였다는 확실성의 척도이다. 확실성 점수(412)는 0과 1 사이의 숫자일 수 있는데, 예를 들어, 0은 추론된 레이아웃 의도가 정확할 가장 낮은 확률이며 1은 가장 높은 확률이다.
일부 구성에서, 하나의 문서 구성 요소에 대한 신뢰도 점수(confidence score, 412)가 다른 문서 구성 요소에 의해 영향을 받을 수 있음을 이해해야 한다. 예를 들어, 제 1 문서 구성 요소에 대해 신뢰도 점수(412)가 계산될 수 있다. 그러나, 다른 유사한 구성 요소들이 문서(204)에서 발견되면, 이들 구성 요소의 구성 및 관련 신뢰도 점수(412)가 제 1 문서 구성 요소에 대해 계산된 신뢰도 점수(412)를 변경시킬 수 있다. 일부 구성에서, 문서(402)의 내용의 의미론적 의미(semantic meaning)가 신뢰도 점수(412)에 영향을 줄 수도 있다.
확실성 점수(412)는 의도-기반 문서(408)를 렌더링할 때 또한, 잠재적으로, 다른 목적을 위해 의도-기반 렌더링/작성 애플리케이션(414)에 의해 이용될 수 있다. 예를 들어, 그러나 제한 없이, 의도-기반 렌더링/작성 애플리케이션(414)은 의도-기반 문서(408)에서 문서 구성 요소를 처음에 렌더링하기 위해 가장 높은 관련 확실성 점수(412)를 갖는 레이아웃 의도를 이용할 수 있다. 그런 다음, 사용자는 특정 문서 구성 요소에 대한 레이아웃이 잘못되었음을 나타낼 수 있다(예를 들어, 텍스트가 의도한대로 섹션 표제가 아닌 강조된 것처럼 표시됨). 이러한 상황에서, 의도-기반 렌더링/작성 애플리케이션(414)은 문서 구성 요소를 다시 렌더링하기 위해 다음으로 높은 확실성 점수(412)를 갖는 명시적으로 포맷팅된 문서 구성 요소에 대한 레이아웃 의도를 사용할 수 있다. 또는, 다음으로 높은 점수를 여러 개 선택하여 가장 가능성 있는 대체 옵션을 사용자에게 보여줄 수 있다. 또한, 확실성 점수(412)는 다른 구성에서 다른 방식으로 의도-기반 렌더링/작성 애플리케이션(414)에 의해 이용될 수 있다.
다른 구성에서, 의도-기반 렌더링/작성 애플리케이션(414)은 또한 그 동작의 양태를 최적화하는데 사용하기 위해 문서 변환 서비스(402)에 대한 추론된 레이아웃 의도에 행해지는 임의의 수정(422)을 제공할 수 있다. 예를 들어, 의도-기반 문서의 문서 구성 요소에 대한 추론된 특정 레이아웃 의도가 틀렸다는 것을 사용자가 나타내는 경우, 이 정보는 문서 변환 서비스(402)에 제공되어, 향후 변환 시에 동일하거나 유사한 문서 구성 요소의 레이아웃 의도를 추론할 때 문서 변환 서비스(402)의 성능을 향상시키는데 이용될 수 있다.
도 5는 명시적으로 포맷팅된 문서 구성 요소를 포함하는 문서(204)로부터 의도-기반 문서(408)를 생성하기 위한 문서 변환 서비스(402)의 동작 양태들을 나타내는 루틴(500)을 도시하는 순서도이다. 루틴(500)은 동작(502)에서 시작하고, 여기에서 문서 변환 서비스(402)는 문서(204) 및 관련 문서 레이아웃 분류(210)를 수신한다. 이어서, 루틴(500)은 동작(502)에서 동작(503)으로 진행하며, 여기에서 문서의 분해 및 분석이 수행되어 동작(303)과 관련해서 전술한 것과 유사한 방식으로 문서의 포맷팅을 식별한다. 그 다음, 루틴(500)은 동작(504)으로 진행하며, 문서 변환 서비스는 문서 레이아웃 분류(210)에서 지정된 레이아웃 유형에 기초하여 모듈(404)을 선택 및/또는 구성한다. 전술한 바와 같이, 모듈(404)은 문서 레이아웃 분류(210)에서 지정된 유형의 레이아웃 유형을 갖는 문서(204)와 함께 최적의 동작을 위해 선택 및/또는 구성될 수 있다.
동작(504)로부터, 루틴(500)은 동작(506)으로 진행하며, 여기에서 문서 변환 서비스(402)는 문서 레이아웃 분류(210)에 지정된 레이아웃 유형에 기초하여 분류기(406)를 선택 및/또는 구성한다. 전술한 바와 같이, 분류기(406) 또한 문서 레이아웃 분류(210)에서 지정된 유형의 레이아웃 유형을 갖는 문서(204)와 함께 최적의 동작을 위해 선택 및/또는 구성될 수 있다.
동작(506)으로부터, 루틴(500)은 모듈(404) 및/또는 분류기(406)가 실행되는 동작(508)으로 진행한다. 전술한 바와 같이, 모듈(404) 및 분류기(406)는 문서(204) 내의 명시적으로 포맷팅된 문서 구성 요소에 대한 레이아웃 의도를 추론하도록 동작한다. 모듈(404)은 휴리스틱 알고리즘을 이용하여 문서(204) 내의 문서 구성 요소에 대한 레이아웃 의도를 추론할 수 있고, 분류기(406)는 머신 학습 기술을 이용할 수 있다. 또한 앞서 언급한 바와 같이, 모듈(404) 및 분류기(406)는 각각의 추론된 레이아웃 의도에 대해 하나 이상의 확실성 점수(412)를 생성할 수도 있다.
동작(508)으로부터, 루틴(500)은 동작(510)으로 진행하며, 모듈(404) 및/또는 분류기(406)의 실행 결과에 기초하여 의도-기반 문서(408)를 생성한다. 전술한 바와 같이, 의도-기반 문서(408)는, 존재한다면, 문서 구성 요소와 연관된 추론된 레이아웃 의도와 함께 문서 구성 요소를 정의하는 의도-기반 마크업(410)을 포함한다. 의도-기반 문서(408)는 또한 각각의 추론된 레이아웃 의도에 대응하는 확실성 점수(412)를 포함할 수 있다. 전술한 바와 같이, 문서 변환 서비스(402)는 또한 렌더링 및/또는 수정을 위해 의도-기반 렌더링/작성 애플리케이션(414) 또는 다른 소프트웨어 구성 요소에 의도-기반 문서(408)를 제공할 수 있다. 동작(510)으로부터, 루틴(500)은 동작(512)으로 진행하여 동작을 종료한다.
도 6은 레이아웃 의도를 추론하기 위해 본원에서 설명된 소프트웨어 컴포넌트들을 실행할 수 있는 컴퓨터(600)의 아키텍처를 나타내는 컴퓨터 아키텍처도이다. 도 6에 도시된 아키텍처는 서버 컴퓨터, 이동 전화, e-리더, 스마트폰, 데스크탑 컴퓨터, 넷북 컴퓨터, 태블릿 컴퓨터, 랩탑 컴퓨터 또는 본원에서 제시된 소프트웨어 컴포넌트들의 실행에 적합한 다른 유형의 컴퓨팅 장치에 관한 아키텍처이다. 이와 관련하여, 도 6에 도시된 컴퓨터(600)는 본원에 제시된 임의의 소프트웨어 컴포넌트들을 실행할 수 있는 컴퓨팅 장치를 구현하는데 이용될 수 있음을 이해해야 한다.
도 6에 도시된 컴퓨터(600)는 중앙 처리 유닛("CPU", 602), 랜덤 액세스 메모리(606, "RAM") 및 판독 전용 메모리("ROM", 608)를 포함하는 시스템 메모리(604), 및 메모리(604)를 CPU(602)에 결합하는 시스템 버스(610)를 포함한다. 예를 들어, 시동 중에 컴퓨터(600) 내의 구성 요소들 간의 정보의 전송을 돕는 기본 루틴들을 포함하는 기본 입/출력 시스템이 ROM(608) 내에 저장된다. 컴퓨터(600)는 운영 시스템(614), 및 문서 레이아웃 분류 서비스(202), 문서 변환 서비스(402), 및/또는 의도-기반 렌더링/작성 애플리케이션(414)을 포함하는, 그러나 이에 국한되지는 않는, 하나 이상의 애플리케이션 프로그램을 저장하는 대용량 저장 장치(612)를 더 포함한다. 도 6에 도시되어 있지는 않지만, 대용량 저장 장치(612)는 또한 문서(204), 의도-기반 문서(408) 및/또는 다른 데이터를 저장하도록 구성될 수 있다.
대용량 저장 장치(612)는 버스(610)에 접속되는 대용량 저장 장치 제어기(도시되지 않음)를 통해 CPU(602)에 접속된다. 대용량 저장 장치(612) 및 그와 관련된 컴퓨터 판독 가능 매체는 컴퓨터(600)에 대한 비휘발성 저장을 제공한다. 본원에 포함되는 컴퓨터 판독 가능 매체의 설명은 하드 디스크 또는 CD-ROM 드라이브와 같은 대용량 저장 장치를 참조하지만, 당업자라면 컴퓨터 판독 가능 매체가 컴퓨터(600)에 의해 액세스될 수 있는 임의의 이용 가능 컴퓨터 저장 매체 또는 통신 매체일 수 있다는 점을 이해해야 한다.
통신 매체는 반송파 또는 다른 운반 메커니즘과 같은 피변조 데이터 신호 내의 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터를 포함하며, 임의의 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하는 방식으로 신호의 특성들 중 하나 이상이 변경 또는 설정된 신호를 의미한다. 예를 들어, 그러나 제한 없이, 통신 매체는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 음향, RF, 적외선 및 기타 무선 매체와 같은 무선 매체를 포함한다. 임의의 상기의 것들의 조합들도 컴퓨터 판독 가능 매체의 범위 내에 포함되어야 한다.
예를 들어, 그러나 제한 없이, 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술에서 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함할 수 있다. 예를 들어, 컴퓨터 매체는 RAM, ROM, EPROM, EEPROM, 플래시 메모리 또는 다른 반도체 메모리 기술, CD-ROM, 디지털 다기능 디스크("DVD"), HD-DVD, BLU-RAY 또는 다른 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨터(600)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이에 한정되지 않는다. 청구항의 목적을 위해, "컴퓨터 저장 매체"라는 구절 및 그 변형들은 파동들 또는 신호들 자체 및/또는 통신 매체를 포함하지 않는다.
다양한 구성들에 따르면, 컴퓨터(600)는 네트워크(618)와 같은 네트워크를 통한 원격 컴퓨터들에 대한 논리적 접속들을 이용하여 네트워킹된 환경에서 동작할 수 있다. 컴퓨터(600)는 버스(610)에 접속된 네트워크 인터페이스 유닛(620)을 통해 네트워크(618)에 접속할 수 있다. 네트워크 인터페이스 유닛(620)은 다른 유형의 네트워크 및 원격 컴퓨터 시스템에 접속하는 데에도 이용될 수 있다는 점을 이해해야 한다. 컴퓨터(600)는 키보드, 마우스 또는 전자 스타일러스를 포함하는 다수의 다른 장치(도 6에 도시되지 않음)로부터 입력을 수신 및 처리하기 위한 입/출력 제어기(616)도 포함할 수 있다. 마찬가지로, 입/출력 제어기(616)는 디스플레이 화면, 프린터, 또는 다른 유형의 출력 장치(역시 도 6에 도시되지 않음)에 출력을 제공할 수 있다.
본원에서 설명된 소프트웨어 컴포넌트들은, CPU(602) 내에 로딩되어 실행될 때, CPU(602) 및 전체 컴퓨터(600)를 범용 컴퓨팅 시스템으로부터 본원에서 설명된 기능을 용이하게 하도록 맞춤화된 특수 목적 컴퓨팅 시스템으로 변환할 수 있다는 점을 이해해야 한다. CPU(602)는 임의의 개수의 상태를 개별적으로 또는 집합적으로 취할 수 있는 임의의 개수의 트랜지스터 또는 다른 개별 회로 요소로 형성될 수 있다. 보다 구체적으로, CPU(602)는 본원에 개시된 소프트웨어 모듈들 내에 포함된 실행 가능 명령들에 응답하여 유한 상태(finite-state) 머신로서 동작할 수 있다. 이러한 컴퓨터 실행 가능 명령들은 CPU(602)가 상태들 사이에서 어떻게 전이하는지를 지정함으로써 CPU(602)를 변환함으로써, CPU(602)를 형성하는 트랜지스터들 또는 다른 개별 하드웨어 요소들을 변환할 수 있다.
본원에서 제시된 소프트웨어 모듈들의 인코딩은 본원에서 제시된 컴퓨터 판독 가능 매체의 물리적인 구조를 변환할 수도 있다. 물리적인 구조의 구체적인 변환은 본 설명의 상이한 구현들에서 다양한 요인들에 의존할 수 있다. 그러한 요인들의 예는 컴퓨터 판독 가능 매체를 구현하는 데 사용되는 기술, 컴퓨터 판독 가능 매체가 주 저장 장치 또는 보조 저장 장치로서 특화되는지 여부 등을 포함할 수 있지만 이에 한정되지는 않는다. 예를 들어, 컴퓨터 판독 가능 매체가 반도체 기반 메모리로서 구현되는 경우, 본원에 개시된 소프트웨어는 반도체 메모리의 물리 상태를 변환함으로써 컴퓨터 판독 가능 매체 상에서 인코딩될 수 있다. 예를 들어, 소프트웨어는 반도체 메모리를 형성하는 트랜지스터, 캐패시터 또는 다른 개별 회로 요소의 상태를 변환할 수 있다. 소프트웨어는 데이터를 저장하기 위해서 이런 컴포넌트들의 물리 상태를 변환할 수도 있다.
다른 예로서, 본원에 개시된 컴퓨터 판독 가능 매체는 자기 또는 광학 기술을 이용하여 구현될 수 있다. 그러한 구현들에서, 본원에 제시된 소프트웨어는 소프트웨어가 자기 또는 광학 매체 내에 인코딩될 때 자기 또는 광학 매체의 물리 상태를 변환할 수 있다. 이러한 변환들은 주어진 자기 매체 내의 특정 위치들의 자기 특성들을 변경하는 것을 포함할 수 있다. 이러한 변환들은 주어진 광학 매체 내의 특정 위치들의 물리적 특징들 또는 특성들을 변경하여 그러한 위치들의 광학 특성들을 변경하는 것도 포함할 수 있다. 본 설명의 범위 및 사상으로부터 벗어나지 않고서 물리 매체의 다른 변환들도 가능하며, 상기 예들은 본 논의를 용이하게 하기 위해 제공될 뿐이다.
상기의 내용을 고려하면, 컴퓨터(600)에서는 본원에서 설명된 소프트웨어 컴포넌트들을 저장 및 실행하기 위해 많은 유형의 물리적 변환이 발생한다는 점을 이해해야 한다. 컴퓨터(600)는 핸드헬드 컴퓨터, 내장형 컴퓨터 시스템, 스마트폰 및 태블릿과 같은 모바일 장치들, 및 당업자들에게 알려진 다른 유형의 컴퓨팅 장치를 포함하여, 다른 유형의 컴퓨팅 장치들을 포함할 수 있다는 점도 이해해야 한다. 컴퓨터(600)는 도 6에 도시된 모든 컴포넌트들을 포함하지는 않을 수 있고, 도 6에 명확히 도시되지 않은 다른 컴포넌트들을 포함할 수 있고, 또는 도 6에 도시된 것과 완전히 다른 아키텍처를 이용할 수 있다는 점도 고려된다.
도 7는 레이아웃 의도를 추론하기 위해 본원에서 설명된 소프트웨어 컴포넌트들을 실행할 수 있는 예시적인 분산 컴퓨팅 환경(700)을 나타낸다. 따라서, 도 7에 도시된 분산 컴퓨팅 환경(700)은 문서 레이아웃 분류 서비스(202), 문서 변환 서비스(402), 및/또는 본원에서 설명된 기타 임의의 소프트웨어 컴포넌트들에 관해 본원에서 설명된 기능을 제공하는데 사용될 수 있다.
다양한 구현들에 따르면, 분산 컴퓨팅 환경(700)은 네트워크(704) 상에서 동작하거나, 그와 통신하거나, 그의 일부로서 동작하는 컴퓨팅 환경(702)을 포함한다. 하나 이상의 클라이언트 장치(706(a)-706(n), 이하에서 집합적으로 그리고/또는 일반적으로 "클라이언트들(706)"로서 지칭됨)가 네트워크(704) 및/또는 다른 접속들(도 7에 도시되지 않음)을 통해 컴퓨팅 환경(702)과 통신할 수 있다. 도시된 구성에서, 클라이언트들(706)은 랩탑 컴퓨터, 데스크탑 컴퓨터 또는 다른 컴퓨팅 장치와 같은 컴퓨팅 장치(706(a)), 슬레이트 또는 태블릿 컴퓨팅 장치("태블릿 컴퓨팅 장치", 706(b)), 이동 전화, 스마트폰 또는 다른 이동 컴퓨팅 장치와 같은 이동 컴퓨팅 장치(706(c)), 서버 컴퓨터(706(d)), 및/또는 기타 장치들(706(n))을 포함한다. 임의의 개수의 클라이언트(706)가 컴퓨팅 환경(702)과 통신할 수 있다는 점을 이해해야 한다. 클라이언트들(706)에 대한 두 개의 예시적인 컴퓨팅 아키텍처가 도 6 및 도 8과 관련해서 본원에서 도시되고 설명된다. 도시된 클라이언트들(706) 및 본원에서 도시되고 설명된 컴퓨팅 아키텍처들은 예시적이며, 또한 어떤 식으로든 제한하는 것으로 해석되어서는 안 된다는 점을 이해해야 한다.
도시된 구성에서, 컴퓨팅 환경(702)은 애플리케이션 서버들(708), 데이터 저장 장치(710) 및 하나 이상의 네트워크 인터페이스(712)를 포함한다. 다양한 구현들에 따르면, 애플리케이션 서버들(708)의 기능은 네트워크(704)의 일부로서 실행되거나 그와 통신하는 하나 이상의 서버 컴퓨터에 의해 제공될 수 있다. 애플리케이션 서버들(708)은 다양한 서비스들, 가상 머신들, 포털들 및/또는 다른 자원들을 호스팅할 수 있다. 도시된 실시예에서, 애플리케이션 서버들(708)은 애플리케이션들 또는 다른 기능을 호스팅하기 위한 하나 이상의 가상 머신(714)을 호스팅한다. 다양한 구현들에 따르면, 가상 머신들(714)은, 예를 들어, 문서 레이아웃 분류 서비스(202) 및 문서 변환 서비스(402)에 대한 하나 이상의 애플리케이션들 및/또는 소프트웨어 모듈들을 호스팅한다. 이러한 구성은 예시적이며, 어떤 식으로든 제한하는 것으로 해석되지 않아야 한다는 점을 이해해야 한다. 애플리케이션 서버들(708)은 또한 하나 이상의 웹 포털, 링크 페이지, 웹사이트 및/또는 다른 정보("웹 포털들", 716)를 호스팅하거나 그에 대한 액세스를 제공한다.
다양한 구현들에 따르면, 애플리케이션 서버들(708)은 또한 하나 이상의 메일박스 서비스(718) 및 하나 이상의 메시징 서비스(720)를 포함한다. 메일박스 서비스들(718)은 전자 메일("이메일") 서비스들을 포함할 수 있다. 메일박스 서비스들(718)은 캘린더 서비스, 연락처 관리 서비스, 협력 서비스 및/또는 기타 서비스를 포함하지만 이에 한정되지 않는 다양한 개인 정보 관리("PIM") 서비스들도 포함할 수 있다. 메시징 서비스들(720)은 인스턴트 메시징("IM") 서비스, 채팅 서비스, 포럼 서비스 및/또는 기타 통신 서비스를 포함할 수 있지만 이에 한정되지 않는다.
애플리케이션 서버들(708)은 하나 이상의 소셜 네트워킹 서비스(722)도 포함할 수 있다. 소셜 네트워킹 서비스들(722)은 상태 업데이트, 인스턴트 메시지, 링크, 사진, 비디오 및/또는 기타 정보를 공유 또는 게재하기 위한 서비스, 기사, 제품, 블로그 또는 기타 자원에 대한 관심을 코멘트 또는 표시하기 위한 서비스, 및/또는 기타 서비스를 포함하지만 이에 한정되지 않는 다양한 소셜 네트워킹 서비스들을 포함할 수 있다. 일부 구성에서, 소셜 네트워킹 서비스들(722)은 FACEBOOK 소셜 네트워킹 서비스, LINKDEN 전문 네트워킹 서비스, MYSPACE 소셜 네트워킹 서비스, FOURSQUARE 지리 네트워킹 서비스, YAMMER 사무실 동료 네트워킹 서비스 등에 의해 제공되거나 이들을 포함한다. 다른 구성에서, 소셜 네트워킹 서비스들(722)은 소셜 네트워킹 제공자들로서 명확히 알려질 수 있거나 알려지지 않을 수 있는 다른 서비스들, 사이트들 및/또는 제공자들에 의해 제공된다. 예를 들어, 일부 웹사이트들은 사용자들이 공개 기사 읽기, 상품 또는 서비스에 대한 코멘팅, 출판, 협력, 게임 등과 같은 다양한 활동들 및/또는 컨텍스트들 동안 이메일, 채팅 서비스 및/또는 기타 수단을 통해 서로 상호 작용하는 것을 가능하게 한다. 다른 서비스들도 가능하고 고려된다.
소셜 네트워킹 서비스들(722)은 코멘팅, 블로깅 및/또는 마이크로블로깅 서비스들도 포함할 수 있다. 이러한 서비스들의 예는 YELP 코멘팅 서비스, KUDZU 리뷰 서비스, YAMMER 기업 마이크로블로깅 서비스, TWITTER 메시징 서비스, GOOGLE BUZZ 서비스 및/또는 기타 서비스를 포함하지만 이에 한정되지 않는다. 상기의 서비스 목록들이 완전한 것은 아니며, 간소화를 위해 다수의 추가적인 및/또는 대안적인 소셜 네트워킹 서비스들(722)이 본원에서 설명되지 않음을 이해해야 한다. 따라서, 전술한 구성들은 예시적이며, 어떤 식으로든 제한하는 것으로 해석되어서는 안 된다.
도 7에 도시된 바와 같이, 애플리케이션 서버들(708)은 또한 다른 서비스들, 애플리케이션들, 포털들 및/또는 다른 자원들("다른 자원들", 724)을 호스팅할 수 있다. 다른 자원들(724)은 문서 레이아웃 분류 서비스(202), 문서 변환 서비스(402), 및/또는 본원에서 설명된 기타 소프트웨어 컴포넌트들 중 임의의 것을 포함할 수 있지만 이에 한정되지 않는다. 따라서, 컴퓨팅 환경(702)은 다양한 메일박스, 메시징, 소셜 네트워킹, 생산성, 및/또는 기타 서비스들 또는 자원들과 함께 레이아웃 의도를 추론하기 위해 본원에 개시된 개념들 및 기술들의 통합을 제공할 수 있다는 점을 알 수 있다. 예를 들어, 본원에 개시된 개념 및 기술은 문서(204)를 의도-기반 문서(408)로 변환하고, 의도-기반 문서(408)를 보고 잠재적으로 편집하기 위한 데스크탑 또는 모바일 웹사이트를 제공하는데 이용될 수 있다. 본원에서 설명된 기술을 사용하여, 명시적으로 포맷팅된 구성 요소를 포함하는 문서(204)가 장치의 화면, 방향 및/또는 다른 성능에 적합한 방식으로 다양한 클라이언트 장치(706) 상에 프레젠테이션될 수 있다. 특정 예로서, 본원에 개시된 기능은 웹-기반 워드 프로세싱 애플리케이션, 웹-기반 프레젠테이션 애플리케이션의 제공과 함께 또는 다른 유형의 웹-기반 컨텐츠 소비 또는 생성 애플리케이션과 함께 이용될 수 있다.
전술한 바와 같이, 컴퓨팅 환경(702)은 데이터 저장 장치(710)를 포함할 수 있다. 다양한 구현들에 따르면, 데이터 저장 장치(710)의 기능은 네트워크(704) 상에서 동작하거나 그와 통신하는 하나 이상의 데이터베이스에 의해 제공된다. 데이터 저장 장치(710)의 기능은 컴퓨팅 환경(702)에 대한 데이터를 호스팅하도록 구성되는 하나 이상의 서버 컴퓨터에 의해서도 제공될 수 있다. 데이터 저장 장치(710)는 하나 이상의 실제 또는 가상 데이터 스토어(726(a)-726(n), 이하에서 집합적으로 그리고/또는 일반적으로 "데이터 스토어들(726)"로서 지칭됨)를 포함하거나 호스팅하거나 제공할 수 있다. 데이터 스토어들(726)은 애플리케이션 서버들(708)에 의해 사용 또는 생성되는 데이터 및/또는 그 밖의 다른 데이터를 호스팅하도록 구성된다. 예를 들어, 데이터 스토어들(726)을 이용하여 문서(204), 의도-기반 문서(408), 및 임의의 관련 내용을 저장할 수 있다.
컴퓨팅 환경(702)은 네트워크 인터페이스들(712)과 통신하거나 그들에 의해 액세스될 수 있다. 네트워크 인터페이스들(712)은 클라이언트들(706) 및 애플리케이션 서버들(708)을 포함하지만 이에 한정되지 않는 둘 이상의 컴퓨팅 장치 간의 통신을 지원하기 위한 다양한 유형의 네트워크 하드웨어 및 소프트웨어를 포함할 수 있다. 네트워크 인터페이스들(712)이 다른 유형의 네트워크 및/또는 컴퓨터 시스템에 접속하는 데에도 사용될 수 있음을 이해해야 한다.
본원에서 설명된 분산 컴퓨팅 환경(700)은 본원에 개시된 소프트웨어 컴포넌트들의 임의의 양태들을 실행하도록 구성될 수 있는 임의의 개수의 가상 컴퓨팅 자원 및/또는 다른 분산 컴퓨팅 기능을 이용하여 본원에서 설명된 소프트웨어 구성 요소들의 임의의 양태들을 구현할 수 있다는 점을 이해해야 한다. 본원에 개시된 개념들 및 기술들의 다양한 구현에 따르면, 분산 컴퓨팅 환경(700)은 본원에서 설명된 소프트웨어 기능을 클라이언트들(706)에 대해 서비스로서 제공한다. 클라이언트들(706)은 서버 컴퓨터, 웹 서버, 개인용 컴퓨터, 이동 컴퓨팅 장치, 스마트폰 및/또는 기타 장치를 포함하지만 이에 한정되지 않는 실제 또는 가상 머신들을 포함할 수 있다는 점을 이해해야 한다. 따라서, 본원에 개시된 개념들 및 기술들의 다양한 구현들은 분산 컴퓨팅 환경(700)에 액세스하도록 구성되는 임의의 장치가 레이아웃 의도를 추론하기 위해 본원에서 설명된 기능을 이용하는 것을 가능하게 한다.
이제, 도 8을 참조하면, 레이아웃 의도를 추론하기 위해 본원에서 설명된 다양한 소프트웨어 컴포넌트들을 실행할 수 있는 컴퓨팅 장치에 대한 예시적인 컴퓨팅 장치 아키텍처(800)가 도시된다. 컴퓨팅 장치 아키텍처(800)는 폼 팩터, 무선 접속성 및/또는 배터리로 작동되는 동작에, 부분적으로, 기인하여 이동 컴퓨팅을 용이하게 하는 컴퓨팅 장치들에 적용될 수 있다. 일부 구성들에서, 컴퓨팅 장치들은 이동 전화, 태블릿 장치, 슬레이트 장치, 휴대용 비디오 게임 장치 등을 포함하지만 이에 한정되지 않는다. 더욱이, 컴퓨팅 장치 아키텍처(800)는 도 7에 도시된 임의의 클라이언트(806)에 적용될 수 있다. 나아가, 컴퓨팅 장치 아키텍처(800)의 양태들은 전통적인 데스크탑 컴퓨터, 휴대용 컴퓨터(예를 들어, 랩탑, 노트북, 울트라-포터블 및 넷북), 서버 컴퓨터, 및 도 6을 참조하여 본원에서 설명된 것과 같은 그 밖의 다른 컴퓨터 시스템에 적용될 수 있다. 예를 들어, 본원에서 후술되는 단일 터치 및 다중 터치 양태들은 터치스크린 또는 소정의 다른 터치-인에이블드 장치, 예로서 터치-인에이블드 트랙 패드 또는 터치-인에이블드 마우스를 이용하는 데스크탑 컴퓨터들에 적용될 수 있다.
도 8에 도시된 컴퓨팅 장치 아키텍처(800)는 프로세서(802), 메모리 컴포넌트들(804), 네트워크 접속 컴포넌트들(806), 센서 컴포넌트들(808), 입/출력("I/O") 컴포넌트들(810) 및 전력 컴포넌트들(812)을 포함한다. 도시된 구성에서, 프로세서(802)는 메모리 컴포넌트들(804), 네트워크 접속 컴포넌트들(806), 센서 컴포넌트들(808), 입/출력("I/O") 컴포넌트들(810) 및 전력 컴포넌트들(812)과 통신한다. 도 8에 도시된 개별 컴포넌트들 사이에는 어떠한 접속도 도시되어 있지는 않지만, 컴포넌트들은 장치 기능들을 실행하기 위해 상호 작용할 수 있다. 일부 구성들에서, 컴포넌트들은 하나 이상의 버스(도시되지 않음)를 통해 통신하도록 배열된다.
프로세서(802)는 본원에서 설명된 다양한 기능을 수행하기 위해, 데이터를 처리하고, 하나 이상의 애플리케이션 프로그램의 컴퓨터 실행 가능 명령들을 실행하고, 컴퓨팅 장치 아키텍처(800)의 다른 컴포넌트들과 통신하도록 구성되는 중앙 처리 유닛("CPU")을 포함한다. 프로세서(802)는 본원에서 제시된 소프트웨어 컴포넌트들, 특히, 적어도 부분적으로 터치-인에이블드 입력을 이용하는 것들의 양태들을 실행하는 데 사용될 수 있다.
일부 구성들에서, 프로세서(802)는 범용 과학 및 엔지니어링 컴퓨팅 애플리케이션들은 물론, 그래픽 집약 컴퓨팅 애플리케이션들, 예로서 고해상도 비디오(예를 들어, 720P, 1080P, 4K 이상), 비디오 게임, 3D 모델링 애플리케이션 등을 실행함으로써 수행되는 동작들을 포함하는, 그러나 이에 한정되지는 않는, CPU에 의해 수행되는 동작들을 가속화하도록 구성되는 그래픽 처리 유닛("GPU")을 포함한다. 일부 구성들에서, 프로세서(802)는 개별 GPU(도시되지 않음)와 통신하도록 구성된다. 어느 경우에나, CPU 및 GPU는 공동 처리 CPU/GPU 컴퓨팅 모델에 따라 구성될 수 있으며, 이 경우에 애플리케이션의 순차적 부분은 CPU 상에서 실행되고, 계산 집약적인 부분은 GPU에 의해 가속화된다.
일부 구성들에서, 프로세서(802)는 시스템-온-칩("SoC")이거나, 본원에서 후술하는 하나 이상의 다른 컴포넌트와 함께 그 안에 포함된다. 예를 들어, SoC는 프로세서(802), GPU, 하나 이상의 네트워크 접속 컴포넌트(806) 및 하나 이상의 센서 컴포넌트(808)를 포함할 수 있다. 일부 구성들에서, 프로세서(802)는, 부분적으로는, 패키지-온-패키지("PoP") 집적 회로 패키징 기술을 이용하여 제조된다. 더욱이, 프로세서(802)는 단일 코어 또는 다중 코어 프로세서일 수 있다.
프로세서(802)는 영국 캠브리지의 ARM HOLDINGS로부터 라이센스를 받을 수 있는 ARM 아키텍처에 따라 생성될 수 있다. 대안으로서, 프로세서(802)는 캘리포니아 마운틴뷰의 인텔사로부터 입수 가능한 바와 같이, x86 아키텍처에 따라 생성될 수 있다. 일부 구성들에서, 프로세서(802)는 캘리포니아 샌디에고의 퀄컴으로부터 입수 가능한 SNAPDRAGON SoC, 캘리포니아 산타클라라의 NVIDIA로부터 입수 가능한 TEGRA SoC, 한국 서울의 삼성으로부터 입수 가능한 HUMMINGBIRD SoC, 텍사스 달라스의 텍사스 인스트루먼츠로부터 입수 가능한 오픈 멀티미디어 애플리케이션 플랫폼("OMAP") SoC, 상기 임의의 SoC의 맞춤 버전, 또는 독점 SoC이다.
메모리 컴포넌트들(804)은 RAM(814), ROM(816), 통합 저장 메모리("통합 저장 장치", 818) 및 이동식 저장 메모리("이동식 저장 장치", 820)를 포함한다. 일부 구성들에서, RAM(814) 또는 그의 일부, ROM(816) 또는 그의 일부, 및/또는 RAM(814)과 ROM(816)의 소정의 조합이 프로세서(802)에서 통합된다. 일부 구성들에서, ROM(816)은 펌웨어, 운영 체제 또는 그의 일부(예를 들어, 운영 체제 커널), 및/또는 통합 저장 장치(818) 또는 이동식 저장 장치(820)로부터 운영 체제 커널을 로딩하기 위한 부트 로더를 저장하도록 구성된다.
통합 저장 장치(818)는 반도체 메모리, 하드 디스크 또는 반도체 메모리와 하드 디스크의 조합을 포함할 수 있다. 통합 저장 장치(818)는 프로세서(802) 및 본원에서 설명된 다른 컴포넌트들도 접속될 수 있는 논리 보드에 솔더링 또는 접속될 수 있다. 따라서, 통합 저장 장치(818)는 컴퓨팅 장치 내에 통합된다. 통합 저장 장치(818)는 운영 체제 또는 그의 일부, 애플리케이션 프로그램들, 데이터, 및 본원에서 설명된 다른 소프트웨어 컴포넌트들을 저장하도록 구성된다.
이동식 저장 장치(820)는 반도체 메모리, 하드 디스크 또는 반도체 메모리와 하드 디스크의 조합을 포함할 수 있다. 일부 구성들에서, 이동식 저장 장치(820)는 통합 저장 장치(818) 대신 제공된다. 다른 구성들에서, 이동식 저장 장치(820)는 추가적인 옵션 저장 장치로서 제공된다. 일부 구성들에서, 이동식 저장 장치(820)는 통합 저장 장치(818)와 논리적으로 결합되며, 따라서 전체 이용 가능 저장 장치가 이용 가능해지며, 통합 저장 장치(818)와 이동식 저장 장치(820)의 전체 결합 용량으로서 사용자에게 제공된다.
이동식 저장 장치(820)는, 이동식 저장 장치(820)가 프로세서(802)와 같은 컴퓨팅 장치의 다른 컴포넌트들과 통신할 수 있는 접속을 용이하기 하기 위해 이동식 저장 장치(820)가 삽입 및 고정되는 이동식 저장 메모리 슬롯(도시되지 않음) 또는 기타 메커니즘 내에 삽입되도록 구성된다. 이동식 저장 장치(820)는 PC 카드, CompactFlash 카드, 메모리 스틱, 보안 디지털("SD"), miniSD, microSD, 유니버설 집적 회로 카드("UICC", 예로서, 가입자 식별 모듈("SIM") 또는 유니버설 SIM("USIM")), 독점 포맷 등을 포함하지만 이에 한정되지 않는 다양한 메모리 카드 포맷들로 구현될 수 있다.
하나 이상의 메모리 컴포넌트(804)는 운영 체제를 저장할 수 있다는 점을 이해할 것이다. 다양한 구성들에 따르면, 운영 체제는 마이크로소프트사의 WINDOWS MOBILE OS, WINDOWS PHONE OS, 또는 WINDOWS OS, 캐나다 온타리오 워털루의 RESEARCH IN MOTION, LTD의 BLACKBERRY OS, 캘리포니아 쿠퍼티노의 애플사의 IOS 및 캘리포니아 마운틴뷰의 구글사의 ANDROID OS를 포함하지만 이에 한정되지 않는다. 다른 운영 체제들도 고려된다.
네트워크 접속 컴포넌트들(806)은 무선 광역 네트워크 컴포넌트("WWAN 컴포넌트", 822), 무선 근거리 네트워크 컴포넌트("WLAN 컴포넌트", 824) 및 무선 개인 영역 네트워크 컴포넌트("WPAN 컴포넌트", 826)를 포함한다. 네트워크 접속 컴포넌트들(806)은 WWAN, WLAN 또는 WPAN일 수 있는 네트워크(828)로의 그리고 그로부터의 통신을 용이하게 한다. 단일 네트워크(828)가 도시되지만, 네트워크 접속 컴포넌트들(806)은 다중 네트워크와의 동시 통신을 용이하게 할 수 있다. 예를 들어, 네트워크 접속 컴포넌트들(806)은 WWAN, WLAN 또는 WPAN 중 하나 이상을 통해 다중 네트워크와의 동시 통신을 용이하게 할 수 있다.
네트워크(828)는 WWAN 컴포넌트(822)를 통해 컴퓨팅 장치 아키텍처(800)를 이용하는 컴퓨팅 장치에 음성 및/또는 데이터 서비스들을 제공하기 위해 하나 이상의 이동 통신 기술을 이용하는 이동 통신 네트워크와 같은 WWAN일 수 있다. 이동 통신 기술들은 이동 통신용 글로벌 시스템("GSM"), 코드 분할 다중 액세스("CDMA") ONE, CDMA2000, 유니버설 이동 통신 시스템("UMTS"), 롱텀 에볼루션("LTE") 및 마이크로파 액세스용 월드와이드 연동성("WiMAX")을 포함할 수 있지만 이에 한정되지 않는다. 더욱이, 네트워크(828)는 시분할 다중 액세스("TDMA"), 주파수 분할 다중 액세스("FDMA"), CDMA, 광대역 CDMA("W-CDMA"), 직교 주파수 분할 다중화("OFDM"), 공간 분할 다중 액세스("SDMA") 등을 포함하지만 이에 한정되지 않는 (전술한 표준들에 의해 사용될 수 있거나 사용되지 않을 수 있는) 다양한 채널 액세스 방법들을 이용할 수 있다. 데이터 통신은 범용 패킷 무선 서비스("GPRS"), 글로벌 에볼루션용 향상 데이터 레이트("EDGE"), 고속 다운링크 패킷 액세스("HSDPA"), 향상 업링크("EUL"), 즉 고속 업링크 패킷 액세스("HSUPA")를 포함하는 고속 패킷 액세스("HSPA") 프로토콜 패밀리, 진화형 HSPA("HSPA+"), LTE 및 다양한 다른 현재 및 미래 무선 데이터 액세스 표준들을 이용하여 제공될 수 있다. 네트워크(828)는 상기의 기술들의 임의의 조합과의 음성 및/또는 데이터 통신을 제공하도록 구성될 수 있다. 네트워크(828)는 미래 세대 기술들에 따라 음성 및/또는 데이터 통신을 제공하도록 구성 또는 적응될 수 있다.
일부 구성들에서, WWAN 컴포넌트(822)는 네트워크(828)에 대한 이중-다중 모드 접속을 제공하도록 구성된다. 예를 들어, WWAN 컴포넌트(822)는 네트워크(828)에 대한 접속을 제공하도록 구성될 수 있으며, 네트워크(828)는 GSM 및 UMTS 기술들을 통해 또는 기술들의 소정의 다른 조합을 통해 서비스를 제공한다. 대안으로서, 다수의 WWAN 컴포넌트(822)를 이용하여, 그러한 기능을 수행하고, 그리고/또는 (즉, 단일 WWAN 컴포넌트에 의해 지원되지 않는) 다른 비호환 기술들을 지원하기 위한 추가 기능을 제공할 수 있다. WWAN 컴포넌트(822)는 다중 네트워크(예를 들어, UMTS 네트워크 및 LTE 네트워크)에 대한 유사한 접속을 용이하게 할 수 있다.
네트워크(828)는 하나 이상의 전기 전자 엔지니어 협회("IEEE") 802.11 표준, 예로서 (본원에서 집합적으로 WI-FI로서 지칭되는) IEEE 802.11a, 802.11b, 802.11g, 802.11n 및/또는 미래의 802.11 표준에 따라 동작하는 WLAN일 수 있다. 드래프트 802.11 표준들도 고려된다. 일부 구성들에서, WLAN은 하나 이상의 무선 WI-FI 액세스 포인트를 이용하여 구현된다. 일부 구성들에서, 하나 이상의 무선 WI-FI 액세스 포인트는 WI-FI 핫스팟으로서 기능하는 WWAN에 대한 접속을 갖는 다른 컴퓨팅 장치이다. WLAN 컴포넌트(824)는 WI-FI 액세스 포인트들을 통해 네트워크(828)에 접속하도록 구성된다. 이러한 접속들은 WI-FI 보호 액세스("WPA"), WPA2, 유선 등가 프라이버시("WEP") 등을 포함하지만 이에 한정되지 않는 다양한 암호화 기술들을 통해 보호될 수 있다.
네트워크(828)는 적외선 데이터 연합("IrDA"), BLUETOOTH, 무선 유니버설 직렬 버스("USB"), Z-Wave, ZIGBEE 또는 소정의 다른 단거리 무선 기술에 따라 동작하는 WPAN일 수 있다. 일부 구성들에서, WPAN 컴포넌트(826)는 WPAN을 통해 주변 장치들, 컴퓨터들 또는 다른 컴퓨팅 장치들과 같은 다른 장치들과의 통신을 용이하게 하도록 구성된다.
센서 컴포넌트들(808)은 자기계(830), 주변광 센서(832), 근접 센서(834), 가속도계(836), 자이로스코프(838) 및 글로벌 포지셔닝 시스템 센서("GPS 센서", 840)를 포함한다. 온도 센서 또는 충격 검출 센서와 같은, 그러나 이에 한정되지 않는 다른 센서들도 컴퓨팅 장치 아키텍처(800) 내에 통합될 수 있는 점이 고려된다.
자기계(830)는 자기장의 강도 및 방향을 측정하도록 구성된다. 일부 구성들에서, 자기계(830)는 기본 방향들, 즉 북쪽, 남쪽, 동쪽 및 서쪽을 포함하는 기준 프레임에서 정확한 방향들을 사용자에게 제공하기 위해 메모리 컴포넌트들(804) 중 하나에 저장된 컴퍼스(compass) 애플리케이션 프로그램에 측정치들을 제공한다. 유사한 측정치들이 컴퍼스 컴포넌트를 포함하는 내비게이션 애플리케이션 프로그램에 제공될 수 있다. 자기계(830)에 의해 획득된 측정치들의 다른 사용들이 고려된다.
주변광 센서(832)는 주변광을 측정하도록 구성된다. 일부 구성들에서, 주변광 센서(832)는 (후술하는) 디스플레이의 휘도를 자동으로 조정하여 저조도 및 고조도 환경들을 보상하기 위해 메모리 컴포넌트들(804) 중 하나 내에 저장된 애플리케이션 프로그램에 측정치들을 제공한다. 주변광 센서(832)에 의해 획득된 측정치들의 다른 사용들이 고려된다.
근접 센서(834)는 직접적인 접촉 없이 컴퓨팅 장치에 근접하는 물체 또는 물건의 존재를 검출하도록 구성된다. 일부 구성들에서, 근접 센서(834)는 사람의 신체(예를 들어, 사용자의 얼굴)의 존재를 검출하고, 이러한 정보를 메모리 컴포넌트들(804) 중 하나 내에 저장된 애플리케이션 프로그램에 제공하며, 이 애플리케이션 프로그램은 근접 정보를 이용하여 컴퓨팅 장치의 소정의 기능을 인에이블 또는 디스에이블한다. 예를 들어, 전화 애플리케이션 프로그램은 사용자의 얼굴이 부주의하게 통화를 종료시키지 못하도록 근접 정보의 수신에 응답하여 (후술하는) 터치스크린을 자동으로 디스에이블하거나, 통화 중에 전화 애플리케이션 프로그램 내의 다른 기능을 인에이블/디스에이블할 수 있다. 근접 센서(834)에 의해 검출된 바와 같은 근접성의 다른 사용들이 고려된다.
가속도계(836)는 적절한 가속도를 측정하도록 구성된다. 일부 구성들에서, 가속도계(836)로부터의 출력은 애플리케이션 프로그램에 의해 애플리케이션 프로그램의 소정의 기능을 제어하기 위한 입력 메커니즘으로 사용된다. 예를 들어, 애플리케이션 프로그램은 캐릭터 또는 그의 일부, 또는 물체가 가속도계(836)를 통해 수신되는 입력에 응답하여 이동 또는 조작되는 비디오 게임일 수 있다. 일부 구성들에서, 가속도계(836)로부터의 출력은 가로 모드와 세로 모드 간의 스위칭, 좌표 가속도의 계산 또는 낙하 검출에서 사용하기 위해 애플리케이션 프로그램에 제공된다. 가속도계(836)의 다른 사용들이 고려된다.
자이로스코프(838)는 방향을 측정 및 유지하도록 구성된다. 일부 구성들에서, 자이로스코프(838)로부터의 출력은 애플리케이션 프로그램에 의해 애플리케이션 프로그램의 소정의 기능을 제어하기 위한 입력 메커니즘으로 사용된다. 예를 들어, 자이로스코프(838)는 비디오 게임 애플리케이션 또는 소정의 다른 애플리케이션의 3D 환경 내의 이동의 정확한 인식을 위해 사용될 수 있다. 일부 구성들에서, 애플리케이션 프로그램은 자이로스코프(838) 및 가속도계(836)로부터의 출력을 이용하여 애플리케이션 프로그램의 소정의 기능의 제어를 향상시킨다. 자이로스코프(838)의 다른 사용들이 고려된다.
GPS 센서(840)는 위치의 계산에 사용하기 위해 GPS 위성들로부터 신호들을 수신하도록 구성된다. GPS 센서(840)에 의해 계산된 위치는 위치 정보를 필요로 하거나 그로부터 이익을 얻는 임의의 애플리케이션 프로그램에 의해 사용될 수 있다. 예를 들어, GPS 센서(840)에 의해 계산된 위치는 위치로부터 목적지로의 방향 또는 목적지로부터 위치로의 방향을 제공하기 위해 내비게이션 애플리케이션 프로그램과 함께 사용될 수 있다. 더욱이, GPS 센서(840)는 E911 서비스와 같은 외부 위치 기반 서비스에 위치 정보를 제공하는 데 사용된다. GPS 센서(840)는, GPS 센서(840)가 위치 픽스를 획득하는 것을 돕기 위해 하나 이상의 네트워크 접속 컴포넌트(806)를 이용하여 WI-FI, WIMAX 및/또는 셀룰러 삼각 측량 기술들을 통해 생성되는 위치 정보를 획득할 수 있다. GPS 센서(840)는 지원 GPS("A-GPS") 시스템들에서도 사용될 수 있다.
I/O 컴포넌트들(810)은 디스플레이(842), 터치스크린(844), 데이터 I/O 인터페이스 컴포넌트("데이터 I/O", 846), 오디오 I/O 인터페이스 컴포넌트("오디오 I/O", 848), 비디오 I/O 인터페이스 컴포넌트("비디오 I/O", 850) 및 카메라(852)를 포함한다. 일부 구성들에서, 디스플레이(842) 및 터치스크린(844)이 결합된다. 일부 구성들에서, 데이터 I/O 컴포넌트(846), 오디오 I/O 인터페이스 컴포넌트(848) 및 비디오 I/O 컴포넌트(850) 중 둘 이상이 결합된다. I/O 컴포넌트들(810)은 후술하는 다양한 인터페이스를 지원하도록 구성되는 개별 프로세서들을 포함할 수 있고, 또는 프로세서(802)에 내장된 처리 기능을 포함할 수 있다.
디스플레이(842)는 정보를 시각 형태로 제공하도록 구성되는 출력 장치이다. 특히, 디스플레이(842)는 그래픽 사용자 인터페이스("GUI") 요소, 텍스트, 이미지, 비디오, 통지, 가상 버튼, 가상 키보드, 메시징 데이터, 인터넷 컨텐츠, 장치 상태, 시간, 날짜, 달력 데이터, 선호도, 지도 정보, 위치 정보, 및 시각 형태로 제공될 수 있는 임의의 다른 정보를 제공할 수 있다. 일부 구성들에서, 디스플레이(842)는 임의의 능동 또는 수동 매트릭스 기술 및 (사용되는 경우) 임의의 백라이팅 기술을 이용하는 액정 디스플레이("LCD")이다. 일부 구성들에서, 디스플레이(842)는 유기 발광 다이오드("OLED") 디스플레이이다. 다른 디스플레이 유형들이 고려된다.
터치스크린(844)은 터치의 존재 및 위치를 검출하도록 구성되는 입력 장치이다. 터치스크린(844)은 저항성 터치스크린, 용량성 터치스크린, 표면 음파 터치스크린, 적외선 터치스크린, 광학 이미징 터치스크린, 분산 신호 터치스크린, 음향 펄스 인식 터치스크린일 수 있거나, 임의의 다른 터치스크린 기술을 이용할 수 있다. 일부 구성들에서, 터치스크린(844)은 디스플레이(842)의 상부에 투명층으로서 통합되어, 사용자가 하나 이상의 터치를 이용하여 디스플레이(842) 상에 제공된 객체들 또는 다른 정보와 상호 작용하는 것을 가능하게 한다. 다른 구성들에서, 터치스크린(844)은 디스플레이(842)를 포함하지 않는 컴퓨팅 장치의 표면 상에 통합된 터치 패드이다. 예를 들어, 컴퓨팅 장치는 디스플레이(842)의 상부에 통합된 터치스크린 및 디스플레이(842)의 대향면 상의 터치 패드를 가질 수 있다.
일부 구성들에서, 터치스크린(844)은 단일 터치 터치스크린이다. 다른 구성들에서, 터치스크린(844)은 다중 터치 터치스크린이다. 일부 구성들에서, 터치스크린(844)은 개별 터치, 단일 터치 제스처 및/또는 다중 터치 제스처를 검출하도록 구성된다. 이들은 본원에서 편의를 위해 집합적으로 제스처로서 지칭된다. 이제부터 여러 제스처가 설명될 것이다. 이러한 제스처들은 예시적이며, 첨부된 청구항들의 범위를 한정하는 것을 의도하지 않는다는 점을 이해해야 한다. 더욱이, 설명된 제스처들, 추가 제스처들 및/또는 대안 제스처들이 터치스크린(844)과 함께 사용하기 위해 소프트웨어에서 구현될 수 있다. 따라서, 개발자는 특정 애플리케이션 프로그램에 고유한 제스처들을 생성할 수 있다.
일부 구성들에서, 터치스크린(844)은 사용자가 디스플레이(842) 상에 제공된 아이템 상에서 터치스크린(844)을 한 번 탭핑하는 탭 제스처를 지원한다. 탭 제스처는 사용자 탭핑하는 무엇이든지 열거나 시작하는 것을 포함하지만 이에 한정되지 않는 다양한 이유로 사용될 수 있다. 일부 구성들에서, 터치스크린(844)은 사용자가 디스플레이(842) 상에 제공된 아이템 상에서 터치스크린(844)을 두 번 탭핑하는 이중 탭 제스처를 지원한다. 이중 탭 제스처는 스테이지들을 줌인 또는 줌아웃하는 것을 포함하지만 이에 한정되지 않는 다양한 이유로 사용될 수 있다. 일부 구성들에서, 터치스크린(844)은 사용자가 터치스크린(844)을 탭핑하고 적어도 사전 정의된 시간 동안 접촉을 유지하는 탭 앤 홀드(tap and hold) 제스처를 지원한다. 탭 앤 홀드 제스처는 컨텍스트 고유 메뉴를 여는 것을 포함하지만 이에 한정되지 않는 다양한 이유로 사용될 수 있다.
일부 구성들에서, 터치스크린(844)은 사용자가 터치스크린(844) 상에 손가락을 놓고 터치스크린(844) 상에서 손가락을 움직이면서 터치스크린(844)과의 접촉을 유지하는 팬(pan) 제스처를 지원한다. 팬 제스처는 제어된 속도로 화면, 이미지 또는 메뉴들을 통해 이동하는 것을 포함하지만 이에 한정되지 않는 다양한 이유로 사용될 수 있다. 다중 손가락 팬 제스처들도 고려된다. 일부 구성들에서, 터치스크린(844)은 사용자가 스크린이 이동하기를 원하는 방향으로 사용자가 손가락을 스와이핑하는 플릭(flick) 제스처를 지원한다. 플릭 제스처는 메뉴들 또는 페이지들을 통해 수평 또는 수직으로 스크롤링하는 것을 포함하지만 이에 한정되지 않는 다양한 이유로 사용될 수 있다. 일부 구성들에서, 터치스크린(844)은 사용자가 터치스크린(844) 상에서 2 개의 손가락(예를 들어, 엄지와 검지)으로 핀칭 모션을 취하거나 2 개의 손가락을 벌리는 핀치 앤 스트레치(pinch and stretch) 제스처를 지원한다. 핀치 앤 스트레치 제스처는 웹사이트, 지도 또는 사진을 서서히 줌인 또는 줌아웃하는 것을 포함하지만 이에 한정되지 않는 다양한 이유로 사용될 수 있다.
전술한 제스처들이 제스처들을 수행하기 위해 하나 이상의 손가락을 이용하는 것과 관련하여 제시되었지만, 발가락들과 같은 다른 부속물들 또는 스타일러스들과 같은 물체들을 이용하여 터치스크린(844)과 상호 작용할 수 있다. 따라서, 상기의 제스처들은 예시적인 것으로 이해되어야 하며, 어떤 식으로든 제한하는 것으로 해석되지 않아야 한다.
데이터 I/O 인터페이스 컴포넌트(846)는 컴퓨팅 장치로의 데이터 입력 및 컴퓨팅 장치로부터의 데이터 출력을 용이하게 하도록 구성된다. 일부 구성들에서, 데이터 I/O 인터페이스 컴포넌트(846)는, 예를 들어, 동기화 동작 목적을 위해 컴퓨팅 장치와 컴퓨터 시스템 간의 유선 접속을 제공하도록 구성되는 커넥터를 포함한다. 커넥터는 독점 커넥터 또는 표준 커넥터, 예로서 USB, 마이크로-USB, 미니-USB 등일 수 있다. 일부 구성들에서, 커넥터는 컴퓨팅 장치를 다른 장치, 예로서 도킹 스테이션, 오디오 장치(예를 들어, 디지털 뮤직 플레이어) 또는 비디오 장치와 도킹하기 위한 독 커넥터(dock connector)이다.
오디오 I/O 인터페이스 컴포넌트(848)는 컴퓨팅 장치에 오디오 입력 및/또는 출력 기능들을 제공하도록 구성된다. 일부 구성들에서, 오디오 I/O 인터페이스 컴포넌트(848)는 오디오 신호들을 수집하도록 구성되는 마이크를 포함한다. 일부 구성들에서, 오디오 I/O 인터페이스 컴포넌트(848)는 헤드폰들 또는 다른 외부 스피커들에 대한 접속을 제공하도록 구성되는 헤드폰 잭을 포함한다. 일부 구성들에서, 오디오 I/O 인터페이스 컴포넌트(848)는 오디오 신호들의 출력을 위한 스피커를 포함한다. 일부 구성들에서, 오디오 I/O 인터페이스 컴포넌트(848)는 광학 오디오 케이블 출력을 포함한다.
비디오 I/O 인터페이스 컴포넌트(850)는 컴퓨팅 장치에 비디오 입력 및/또는 출력 기능들을 제공하도록 구성된다. 일부 구성들에서, 비디오 I/O 인터페이스 컴포넌트(850)는 다른 장치(예를 들어, DVD 또는 BLURAY 플레이어와 같은 비디오 미디어 플레이어)로부터 입력으로서 비디오를 수신하거나 비디오를 출력으로서 다른 장치(예를 들어, 모니터, 텔레비전 또는 소정의 다른 외부 디스플레이)로 전송하도록 구성되는 비디오 커넥터를 포함한다. 일부 구성들에서, 비디오 I/O 인터페이스 컴포넌트(850)는 비디오 컨텐츠를 입출력하기 위한 고화질 멀티미디어 인터페이스("HDMI"), 미니-HDMI, 마이크로-HDMI, 디스플레이 포트(DisplayPort) 또는 독점 커넥터를 포함한다. 일부 구성들에서, 비디오 I/O 인터페이스 컴포넌트(850) 또는 그의 부분들은 오디오 I/O 인터페이스 컴포넌트(848) 또는 그의 부분들과 결합된다.
카메라(852)는 정지 이미지들 및/또는 비디오를 캡처하도록 구성될 수 있다. 카메라(852)는 전하 결합 소자("CCD") 또는 상보형 금속-산화물-반도체("CMOS") 이미지 센서를 이용하여 이미지들을 캡처할 수 있다. 일부 구성들에서, 카메라(852)는 저조도 환경에서 사진을 촬영하는 것을 돕기 위한 플래시를 포함한다. 카메라(852)에 대한 설정들은 하드웨어 또는 소프트웨어 버튼들로서 구현될 수 있다.
도시되어 있지는 않지만, 하나 이상의 하드웨어 버튼도 컴퓨팅 장치 아키텍처(800) 내에 포함될 수 있다. 하드웨어 버튼들은 컴퓨팅 장치의 소정의 동작 양태를 제어하는 데 사용될 수 있다. 하드웨어 버튼들은 전용 버튼들 또는 다용도 버튼들일 수 있다. 하드웨어 버튼들은 기계적이거나 센서 기반일 수 있다.
도시된 전력 컴포넌트들(812)은 배터리 게이지(856)에 접속될 수 있는 하나 이상의 배터리(854)를 포함한다. 배터리들(854)은 재충전 가능하거나 일회용일 수 있다. 재충전 가능 배터리 유형들은 리튬 폴리머, 리튬 이온, 니켈 카드뮴 및 니켈 금속 수소화물을 포함하지만 이에 한정되지 않는다. 배터리들(854) 각각은 하나 이상의 셀로 구성될 수 있다.
배터리 게이지(856)는 전류, 전압 및 온도와 같은 배터리 파라미터들을 측정하도록 구성될 수 있다. 일부 구성들에서, 배터리 게이지(856)는 소정의 에러 백분율 내에서 잔여 수명을 예측하기 위해 배터리의 방전 속도, 온도, 나이 및 다른 요인들의 효과를 측정하도록 구성된다. 일부 구성들에서, 배터리 게이지(856)는 애플리케이션 프로그램에 측정치들을 제공하며, 이 애플리케이션 프로그램은 측정치들을 이용하여 사용자에게 유용한 전력 관리 데이터를 제공하도록 구성된다. 전력 관리 데이터는 사용된 배터리의 백분율, 남은 배터리의 백분율, 배터리 조건, 남은 시간, 남은 용량(예를 들어, 와트-시 단위), 전류 인출 및 전압 중 하나 이상을 포함할 수 있다.
전력 컴포넌트들(812)은 전술한 I/O 컴포넌트들(810) 중 하나 이상과 결합될 수 있는 전력 커넥터도 포함할 수 있다. 전력 컴포넌트들(812)은 전력 I/O 컴포넌트를 통해 외부 전력 시스템 또는 충전 장비와 접속할 수 있다.
또한, 본원에서 제공된 개시는 다음의 조항들에 기재된 대상을 포함하는 것으로 여겨질 수 있다.
조항 1. 하나 이상의 명시적으로 포맷팅된 문서 구성 요소를 갖는 문서로부터 의도-기반 문서를 생성하는 컴퓨터 구현 방법에 있어서,
상기 방법은
상기 문서를 복수의 레이아웃 유형 중 하나를 갖는 것으로 컴퓨터에 의해 분류하는 단계,
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 추론된 레이아웃 의도를 상기 컴퓨터에 의해 결정하는 단계 - 상기 추론된 레이아웃 의도의 결정은 상기 문서의 분류에 적어도 부분적으로 기초함 -, 및
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 상기 결정된 추론된 레이아웃 의도를 사용하여 상기 컴퓨터에 의해 상기 의도-기반 문서를 생성하는 단계를 포함하는 방법.
조항 2. 조항 1의 컴퓨터 구현 방법에 있어서,
상기 문서의 레이아웃을 조사하여 상기 문서를 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 분류하는 하나 이상의 휴리스틱 알고리즘을 컴퓨터 상에서 실행한 것에 적어도 부분적으로 기초하여, 상기 문서가 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 분류되는 방법.
조항 3. 조항 1-3의 컴퓨터 구현 방법에 있어서,
머신 학습을 이용하여 상기 문서를 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 분류하는 하나 이상의 머신 학습 분류기를 컴퓨터 상에서 실행한 것에 적어도 부분적으로 기초하여, 상기 문서가 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 분류되는 방법.
조항 4. 조항 1-3의 컴퓨터 구현 방법에 있어서,
상기 머신 학습 분류기는 트레이닝 문서의 코퍼스의 레이아웃에 대한 인간 분류에 기초하여 트레이닝되는 방법.
조항 5. 조항 1-4의 컴퓨터 구현 방법에 있어서,
상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도는, 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하기 위해 상기 문서의 문서 구성 요소의 패턴 또는 구성을 검사하는 하나 이상의 휴리스틱 알고리즘의 상기 컴퓨터 상에서의 실행에 적어도 부분적으로 기초하는 방법.
조항 6. 조항 1-5의 컴퓨터 구현 방법에 있어서,
상기 하나 이상의 휴리스틱 알고리즘은 상기 문서의 분류에 적어도 부분적으로 기초하여 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 선택되거나 구성되는 방법.
조항 7. 조항 1-6의 컴퓨터 구현 방법에 있어서,
상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도는, 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하기 위해 머신 학습을 이용하는 하나 이상의 머신 학습 분류기의 상기 컴퓨터 상에서의 실행에 의해 적어도 부분적으로 결정되는 방법.
조항 8. 조항 1-7의 컴퓨터 구현 방법에 있어서,
상기 하나 이상의 머신 학습 분류기는 상기 문서의 분류에 적어도 부분적으로 기초하여 상기 복수의 레이아웃 중 하나를 갖는 것으로 선택되거나 구성되는 방법.
조항 9. 조항 1-8의 컴퓨터 구현 방법에 있어서,
상기 하나 이상의 머신 학습 분류기는 트레이닝 문서의 코퍼스에서 명시적으로 포맷팅된 문서 구성 요소의 레이아웃 의도에 대한 인간 분류에 기초하여 트레이닝되는 방법.
조항 10. 조항 1-9의 컴퓨터 구현 방법에 있어서,
상기 방법은 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 상기 추론된 레이아웃 의도에 대한 확실성 점수를 생성하는 단계를 더 포함하는 방법.
조항 11. 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금
문서의 레이아웃을 복수의 레이아웃 유형 중 하나로 분류하고 - 상기 문서는 하나 이상의 명시적으로 포맷팅된 문서 구성 요소를 포함함 -,
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하고 - 상기 추론된 레이아웃 의도의 결정은 상기 문서의 레이아웃의 분류에 적어도 부분적으로 기초함 -,
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 상기 결정된 추론된 레이아웃 의도를 사용하여 상기 문서로부터 의도-기반 문서를 상기 컴퓨터를 통해 생성하게 하는 컴퓨터 실행 가능 명령어가 저장된 컴퓨터 저장 매체.
조항 12. 조항 11의 컴퓨터 저장 매체에 있어서,
상기 문서의 레이아웃이
하나 이상의 휴리스틱 문서 레이아웃 분류 알고리즘, 또는
트레이닝 문서의 코퍼스의 레이아웃에 대한 인간 분류를 사용하여 트레이닝된 하나 이상의 머신 학습 기반 문서 레이아웃 분류기에 의해 상기 복수의 레이아웃 유형 중 하나인 것으로 분류되는 컴퓨터 저장 매체.
조항 13. 조항 11-12의 컴퓨터 저장 매체에 있어서,
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도는
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하기 위해 상기 문서의 문서 구성 요소의 구성을 조사하는 하나 이상의 휴리스틱 알고리즘, 또는
상기 문서에서 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하기 위해 머신 학습을 이용하는 하나 이상의 머신 학습 분류기 - 상기 머신 학습 분류기는 트레이닝 문서의 코퍼스에서 명시적으로 포맷팅된 문서 구성 요소의 상기 레이아웃 의도에 대한 인간 분류에 기초하여 훈련됨 -에 의해 결정되는 컴퓨터 저장 매체.
조항 14. 조항 11-13의 컴퓨터 저장 매체에 있어서,
상기 하나 이상의 휴리스틱 알고리즘 또는 상기 하나 이상의 머신 학습 분류기는 상기 문서의 레이아웃의 분류에 기초하여 선택되거나 구성되는 컴퓨터 저장 매체.
조항 15. 조항 11-14의 컴퓨터 저장 매체에 있어서,
상기 컴퓨터 저장 매체는
상기 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들의 상기 추론된 레이아웃 의도와 관련된 확실성 점수를 생성하게 하는 컴퓨터 실행 가능 명령어가 저장된 컴퓨터 저장 매체.
조항 16. 하나 이상의 명시적으로 포맷팅된 문서 구성 요소를 갖는 문서로부터 의도-기반 문서를 생성하는 시스템에 있어서,
상기 시스템은
프로세서를 갖고 있으며, 상기 문서의 레이아웃을 분류하도록 상기 프로세서 상에서 문서 레이아웃 분류 서비스를 실행하도록 구성된 적어도 하나의 컴퓨터, 및
프로세서를 갖고 있으며, 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하고, 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 상기 결정된 추론된 레이아웃 의도를 사용하여 상기 의도-기반 문서를 생성하도록 상기 프로세서 상에서 문서 변환 서비스를 실행하도록 구성된 적어도 하나의 컴퓨터를 포함하는 시스템.
조항 17. 조항 16의 시스템에 있어서,
상기 문서 레이아웃 분류 서비스는 상기 문서의 레이아웃을 종이형 레이아웃 또는 프레젠테이션형 레이아웃으로 분류하도록 구성된 시스템.
조항 18. 조항 16-17의 시스템에 있어서,
상기 문서 변환 서비스는 하나 이상의 휴리스틱 알고리즘 또는 하나 이상의 머신 학습 분류기를 이용하여 상기 문서의 레이아웃을 종이형 레이아웃 또는 프레젠테이션형 레이아웃으로 분류하도록 구성된 시스템.
조항 19. 조항 16-18의 시스템에 있어서,
상기 문서 변환 서비스는 하나 이상의 휴리스틱 알고리즘 또는 하나 이상의 머신 학습 분류기를 이용하여 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 상기 추론된 레이아웃 의도를 결정하도록 더 구성된 시스템.
조항 20. 조항 16-19의 시스템에 있어서,
상기 하나 이상의 휴리스틱 알고리즘 또는 상기 하나 이상의 머신 학습 분류기는 종이형 레이아웃 또는 프레젠테이션형 레이아웃으로서의 상기 문서의 레이아웃의 분류에 기초하여 선택 또는 구성된 시스템.
조항 21. 문서의 레이아웃을 복수의 레이아웃 유형 중 하나로 분류하는 수단 - 상기 문서는 하나 이상의 명시적으로 포맷팅된 문서 구성 요소를 포함함 -,
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하는 수단 - 상기 추론된 레이아웃 의도의 결정은 상기 문서의 레이아웃의 분류에 적어도 부분적으로 기초함 -, 및
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 상기 결정된 추론된 레이아웃 의도를 사용하여 상기 문서로부터 의도-기반 문서를 상기 컴퓨터를 통해 생성하는 수단을 포함하는 시스템.
조항 22. 조항 21의 시스템에 있어서,
상기 문서의 레이아웃이
하나 이상의 휴리스틱 문서 레이아웃 분류 알고리즘, 또는
트레이닝 문서의 코퍼스의 레이아웃에 대한 인간 분류를 사용하여 트레이닝된 하나 이상의 머신 학습 기반 문서 레이아웃 분류기에 의해 상기 복수의 레이아웃 유형 중 하나인 것으로 분류되는 컴퓨터 저장 매체.
조항 23. 조항 21-22의 시스템에 있어서,
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도는
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하기 위해 상기 문서의 문서 구성 요소의 구성을 조사하는 하나 이상의 휴리스틱 알고리즘, 또는
상기 문서에서 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하기 위해 머신 학습을 이용하는 하나 이상의 머신 학습 분류기 - 상기 머신 학습 분류기는 트레이닝 문서의 코퍼스에서 명시적으로 포맷팅된 문서 구성 요소의 상기 레이아웃 의도에 대한 인간 분류에 기초하여 훈련됨 -에 의해 결정되는 시스템.
조항 24. 조항 21-23의 시스템에 있어서,
상기 하나 이상의 휴리스틱 알고리즘 또는 상기 하나 이상의 머신 학습 분류기는 상기 문서의 레이아웃의 분류에 기초하여 선택되거나 구성되는 시스템.
조항 25. 조항 21-24의 시스템에 있어서,
상기 시스템은
상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들의 상기 추론된 레이아웃 의도와 관련된 확실성 점수를 생성하는 수단을 포함하는 시스템.
상기의 설명에 기초하여, 레이아웃 의도를 추론하는 기술들이 본원에 개시되었다는 점을 이해해야 한다. 본원에서 설명된 발명은 컴퓨터 구조 특징들, 방법 및 변환 액트들, 특정 컴퓨팅 머신 및 컴퓨터 판독 가능 매체에 고유한 언어로 설명되었지만, 첨부된 청구항들에서 정의되는 발명은 본원에서 설명된 특정 특징들, 액트들 또는 매체들로 한정될 필요가 없다는 점을 이해해야 한다. 오히려, 특정 특징들, 액트들 및 매체들은 청구항들을 구현하는 예시적인 형태들로서 개시된다.
전술한 내용은 예시적으로 제공될 뿐이며, 한정하는 것으로 해석되지 않아야 한다. 도시되고 설명된 예시적인 구성들 및 응용들을 따르지 않고서 그리고 아래의 청구항들에서 설명되는 본 발명의 사상 및 범위로부터 벗어나지 않고서, 본원에서 설명된 대상에 대한 다양한 수정 및 변경이 행해질 수 있다.

Claims (12)

  1. 하나 이상의 명시적으로 포맷팅된 문서 구성 요소(explicitly formatted document elements)를 갖는 문서로부터 의도-기반 문서(intent-based document)를 생성하는 컴퓨터 구현 방법으로서,
    상기 문서를 복수의 레이아웃 유형 중 하나를 갖는 것으로 컴퓨터에 의해 분류하는 단계와,
    상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 추론된 레이아웃 의도를 상기 컴퓨터에 의해 결정하는 단계 - 상기 추론된 레이아웃 의도의 결정은 상기 문서의 분류에 적어도 부분적으로 기초함 - 와,
    상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 상기 결정된 추론된 레이아웃 의도를 사용하여 상기 컴퓨터에 의해 상기 의도-기반 문서를 생성하는 단계를 포함하는
    컴퓨터 구현 방법.
  2. 제 1 항에 있어서,
    상기 문서의 레이아웃을 조사하여 상기 문서를 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 분류하는 하나 이상의 휴리스틱 알고리즘(heuristic algorithms)을 컴퓨터 상에서 실행한 것에 적어도 부분적으로 기초하여, 상기 문서가 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 분류되는
    컴퓨터 구현 방법.
  3. 제 1 항에 있어서,
    머신 학습을 이용하여 상기 문서를 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 분류하는 하나 이상의 머신 학습 분류기를 컴퓨터 상에서 실행한 것에 적어도 부분적으로 기초하여, 상기 문서가 상기 복수의 레이아웃 유형 중 하나를 갖는 것으로 분류되는
    컴퓨터 구현 방법.
  4. 제 1 항에 있어서,
    상기 방법은
    상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들의 추론된 레이아웃 의도에 대한 확실성 점수(certainty score)를 생성하는 단계를 더 포함하는
    컴퓨터 구현 방법.
  5. 하나 이상의 명시적으로 포맷팅된 문서 구성 요소를 갖는 문서로부터 의도-기반 문서를 생성하는 시스템으로서,
    프로세서를 갖고 있으며, 상기 프로세서 상에서 상기 문서의 레이아웃을 분류하는 문서 레이아웃 분류 서비스를 실행하도록 구성된 적어도 하나의 컴퓨터와,
    프로세서를 갖고 있으며, 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하고, 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 상기 결정된 추론된 레이아웃 의도를 사용하여 상기 의도-기반 문서를 생성하도록 상기 프로세서 상에서 문서 변환 서비스를 실행하도록 구성된 적어도 하나의 컴퓨터를 포함하는
    시스템.
  6. 제 5 항에 있어서,
    상기 문서 레이아웃 분류 서비스는 상기 문서의 레이아웃을 종이형 레이아웃(paper-like layout) 또는 프레젠테이션형 레이아웃(presentation-like layout)으로 분류하도록 구성된
    시스템.
  7. 제 6 항에 있어서,
    상기 문서 변환 서비스는 또한 하나 이상의 휴리스틱 알고리즘 또는 하나 이상의 머신 학습 분류기를 이용하여 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 상기 추론된 레이아웃 의도를 결정하도록 구성된
    시스템.
  8. 제 7 항에 있어서,
    상기 하나 이상의 휴리스틱 알고리즘 또는 상기 하나 이상의 머신 학습 분류기는 종이형 레이아웃 또는 프레젠테이션형 레이아웃으로서의 상기 문서의 레이아웃의 분류에 기초하여 선택되거나 구성된
    시스템.
  9. 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금,
    문서의 레이아웃을 복수의 레이아웃 유형 중 하나로 분류하게 하고 - 상기 문서는 하나 이상의 명시적으로 포맷팅된 문서 구성 요소를 포함함 -,
    상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소에 대한 추론된 레이아웃 의도를 결정하게 하고 - 상기 추론된 레이아웃 의도의 결정은 상기 문서의 레이아웃의 분류에 적어도 부분적으로 기초함 -,
    상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들에 대한 상기 결정된 추론된 레이아웃 의도를 사용하여 상기 문서로부터 의도-기반 문서를 상기 컴퓨터를 통해 생성하게 하는,
    컴퓨터 실행 가능 명령어가 저장된
    컴퓨터 저장 매체.
  10. 제 9 항에 있어서,
    상기 문서의 레이아웃은,
    하나 이상의 휴리스틱 문서 레이아웃 분류 알고리즘, 또는
    트레이닝 문서의 코퍼스의 레이아웃에 대한 인간 분류를 사용하여 트레이닝된 하나 이상의 머신 학습 기반 문서 레이아웃 분류기에 의해,
    상기 복수의 레이아웃 유형 중 하나인 것으로 분류되는
    컴퓨터 저장 매체.
  11. 제 10 항에 있어서,
    상기 하나 이상의 휴리스틱 알고리즘 또는 상기 하나 이상의 머신 학습 분류기는 상기 문서의 레이아웃의 분류에 기초하여 선택되거나 구성되는
    컴퓨터 저장 매체.
  12. 제 11 항에 있어서,
    상기 컴퓨터 저장 매체는 또한,
    상기 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 상기 문서의 상기 하나 이상의 명시적으로 포맷팅된 문서 구성 요소들의 상기 추론된 레이아웃 의도와 관련된 확실성 점수를 생성하게 하는 컴퓨터 실행 가능 명령어가 저장된
    컴퓨터 저장 매체.
KR1020177008599A 2014-09-30 2015-09-28 레이아웃 의도 추론 기법 KR20170061683A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/503,216 US20160092406A1 (en) 2014-09-30 2014-09-30 Inferring Layout Intent
US14/503,216 2014-09-30
PCT/US2015/052539 WO2016053819A1 (en) 2014-09-30 2015-09-28 Inferring layout intent

Publications (1)

Publication Number Publication Date
KR20170061683A true KR20170061683A (ko) 2017-06-05

Family

ID=54256877

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177008599A KR20170061683A (ko) 2014-09-30 2015-09-28 레이아웃 의도 추론 기법

Country Status (5)

Country Link
US (1) US20160092406A1 (ko)
EP (1) EP3201792A1 (ko)
KR (1) KR20170061683A (ko)
CN (1) CN107077458A (ko)
WO (1) WO2016053819A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102555809B1 (ko) * 2022-09-30 2023-07-13 에스케이 주식회사 문서 양식을 웹폼으로 변환하는 방법 및 시스템

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9595298B2 (en) 2012-07-18 2017-03-14 Microsoft Technology Licensing, Llc Transforming data to create layouts
US10282069B2 (en) 2014-09-30 2019-05-07 Microsoft Technology Licensing, Llc Dynamic presentation of suggested content
US9626768B2 (en) 2014-09-30 2017-04-18 Microsoft Technology Licensing, Llc Optimizing a visual perspective of media
US10380228B2 (en) * 2017-02-10 2019-08-13 Microsoft Technology Licensing, Llc Output generation based on semantic expressions
US20180330156A1 (en) * 2017-05-11 2018-11-15 Microsoft Technology Licensing, Llc Detection of caption elements in documents
US11030537B2 (en) * 2017-09-25 2021-06-08 Microsoft Technology Licensing, Llc Intelligent inferences of authoring from document layout and formatting
CN107622126A (zh) * 2017-09-28 2018-01-23 联想(北京)有限公司 对数据集合中的实体数据进行归类的方法和装置
US10614268B1 (en) * 2018-04-24 2020-04-07 InVisionApp Inc. Auto-complete design for content-creating applications
US20200019583A1 (en) * 2018-07-11 2020-01-16 University Of Southern California Systems and methods for automated repair of webpages
AU2020230268B2 (en) 2019-04-15 2021-09-23 Canva Pty Ltd Systems and methods of generating a design based on a design template and another design
US20200380067A1 (en) * 2019-05-30 2020-12-03 Microsoft Technology Licensing, Llc Classifying content of an electronic file
CN115917613A (zh) * 2020-06-12 2023-04-04 微软技术许可有限责任公司 文档中文本的语义表示
US20230074788A1 (en) * 2021-09-08 2023-03-09 Microsoft Technology Licensing, Llc Machine-learning of document portion layout
US11687700B1 (en) * 2022-02-01 2023-06-27 International Business Machines Corporation Generating a structure of a PDF-document

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6694053B1 (en) * 1999-12-02 2004-02-17 Hewlett-Packard Development, L.P. Method and apparatus for performing document structure analysis
US20040205643A1 (en) * 2000-06-22 2004-10-14 Harrington Steven J. Reproduction of documents using intent information
US20040013302A1 (en) * 2001-12-04 2004-01-22 Yue Ma Document classification and labeling using layout graph matching
US20060104511A1 (en) * 2002-08-20 2006-05-18 Guo Jinhong K Method, system and apparatus for generating structured document files
US8849725B2 (en) * 2009-08-10 2014-09-30 Yahoo! Inc. Automatic classification of segmented portions of web pages
CN102457643B (zh) * 2010-10-25 2014-10-01 柯尼卡美能达商用科技株式会社 数据处理装置及数据处理方法
US20140208203A1 (en) * 2013-01-23 2014-07-24 Steven Shu Hsiang Tang Key-Frame based Authoring and Generation of Highly Resizable Document Layout

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102555809B1 (ko) * 2022-09-30 2023-07-13 에스케이 주식회사 문서 양식을 웹폼으로 변환하는 방법 및 시스템

Also Published As

Publication number Publication date
WO2016053819A1 (en) 2016-04-07
US20160092406A1 (en) 2016-03-31
CN107077458A (zh) 2017-08-18
EP3201792A1 (en) 2017-08-09

Similar Documents

Publication Publication Date Title
US10896284B2 (en) Transforming data to create layouts
KR20170061683A (ko) 레이아웃 의도 추론 기법
US9824269B2 (en) Enhanced interpretation of character arrangements
JP6293142B2 (ja) データを消費型コンテンツに変換するときにバリエーションを生じさせること
US20140047385A1 (en) 3D Data Environment Disambiguation Tool
US20160092405A1 (en) Intent Based Authoring
US20130145244A1 (en) Quick analysis tool for spreadsheet application programs
US20160092404A1 (en) Intent Based Feedback
CN106537371B (zh) 可视化建议
CN106663091B (zh) 摘要数据自动填充
US10839148B2 (en) Coordination of storyline content composed in multiple productivity applications
US10235348B2 (en) Assistive graphical user interface for preserving document layout while improving the document readability
US10795952B2 (en) Identification of documents based on location, usage patterns and content
US9542766B1 (en) Intelligent configuration of data visualizations
KR20170038823A (ko) 문서에서의 데이터 검색 이용 방법
US20160179756A1 (en) Dynamic application of a rendering scale factor
BR112016030120B1 (pt) Método implementado por computador para proporcionar uma sugestão de consulta e sistema configurado para proporcionar sugestões de consulta