KR100955758B1 - 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법 - Google Patents

문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법 Download PDF

Info

Publication number
KR100955758B1
KR100955758B1 KR1020080037684A KR20080037684A KR100955758B1 KR 100955758 B1 KR100955758 B1 KR 100955758B1 KR 1020080037684 A KR1020080037684 A KR 1020080037684A KR 20080037684 A KR20080037684 A KR 20080037684A KR 100955758 B1 KR100955758 B1 KR 100955758B1
Authority
KR
South Korea
Prior art keywords
image
caption
document
candidate
caption candidate
Prior art date
Application number
KR1020080037684A
Other languages
English (en)
Other versions
KR20090112020A (ko
Inventor
임해창
이재범
김지승
이상호
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020080037684A priority Critical patent/KR100955758B1/ko
Publication of KR20090112020A publication Critical patent/KR20090112020A/ko
Application granted granted Critical
Publication of KR100955758B1 publication Critical patent/KR100955758B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보 추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및 방법이 개시된다. 이미지 캡션 추출 시스템은 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 이미지-캡션 후보 쌍 생성부, 상기 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출하는 피처 추출부 및 상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 이미지 캡션 선택부를 포함한다.
이미지, 텍스트, 구조, 파싱, HTML, 캡션, 피처

Description

문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보 추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및 방법{SYSTEM AND METHOD FOR EXTRACTING CAPTION CANDIDATE AND SYSTEM AND METHOD FOR EXTRACTING IMAGE CAPTION USING TEXT INFORMATION AND STRUCTURAL INFORMATION OF DOCUMENT}
본 발명은 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보 추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및 방법에 관한 것이다. 보다 자세하게는, 문서의 이미지 각각에 대한 캡션 후보를 추출하여 이미지-캡션 후보를 생성하고, 생성된 이미지-캡션 후보에 대해 사전 학습에 따른 확률을 계산하여 이미지 캡션을 추출하는 캡션 후보 추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및 방법에 관한 것이다.
최근 문서에 포함된 이미지를 검색하는 기술에 대해 관심이 높아지고 있다. 다만, 웹 문서에는 다양한 이미지가 포함되어 있기 때문에, 웹 문서에서 실제로 검색자가 요구하는 이미지를 검색할 때, 웹 문서에는 다양한 이미지가 포함되어 있다.
이 때, 이미지 검색을 위해 이미지 자체의 속성보다는 이미지를 설명하는 단 어인 이미지 캡션을 추출하여 이미지 캡션에 따라 검색하는 경우, 이미지 검색의 성능이 향상될 수 있다. 결국, 이미지 캡션 추출의 성능은 이미지 검색 시스템의 성능에 영향을 미칠 수 있다.
다만, 이미지 캡션은 문서에 포함된 다수의 텍스트 중 하나이기 때문에, 텍스트 중 이미지 캡션을 선택하는 기준이 요구된다. 또한, 사전에 이미지 캡션 추출 대상이 될 수 있는 이미지를 선택할 필요도 있다. 그리고, 이미지를 설명하는 텍스트는 다수 존재할 수 있으므로, 이러한 텍스트에서 최적의 이미지 캡션을 선택하는 기준도 필요하다.
본 발명은 문서의 텍스트 정보 및 구조적 정보를 이용하여 문서의 이미지-캡션 후보 쌍을 생성함으로써, 이미지 캡션을 효율적으로 추출하는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법을 제공한다.
본 발명은 이미지 속성 및 텍스트 속성에 따른 규칙을 이용함으로써, 캡션 후보 추출 성능을 향상시킬 수 있는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법을 제공한다.
본 발명은 문서를 구조적으로 파싱하여 브라우저 상의 문서 구성 요소의 실제 위치값을 추출함으로써, 이미지에 대한 캡션 후보를 효율적으로 추출하는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법을 제공한다.
본 발명은 사전 학습된 확률 기반의 분류 모델을 통해 생성된 이미지-캡션 후보 쌍이 정답 쌍이 될 확률을 계산하여 이미지 캡션을 추출함으로써, 이미지 캡션 추출 성능을 향상시키는 이미지 캡션 추출 시스템 및 방법을 제공한다.
본 발명의 일실시예에 따른 캡션 후보 추출 시스템은 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 문서 파싱부, 상기 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 이미지 필터링부 및 상기 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 캡션 후보 결정부를 포함할 수 있 다.
본 발명의 일실시예에 따른 이미지 캡션 추출 시스템은 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 이미지-캡션 후보 쌍 생성부, 상기 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출하는 피처 추출부 및 상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 이미지 캡션 선택부를 포함할 수 있다.
본 발명의 일실시예에 따른 캡션 후보 추출 방법은 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계, 상기 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 단계 및 상기 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 단계, 상기 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출하는 단계 및 상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 단계를 포함할 수 있다.
본 발명에 따르면, 문서의 텍스트 정보 및 구조적 정보를 이용하여 문서의 이미지-캡션 후보 쌍을 생성함으로써, 이미지 캡션을 효율적으로 추출하는 캡션 후 보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법이 제공된다.
본 발명에 따르면, 이미지 속성 및 텍스트 속성에 따른 규칙을 이용함으로써, 캡션 후보 추출 성능을 향상시킬 수 있는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법이 제공된다.
본 발명에 따르면, 문서를 구조적으로 파싱하여 브라우저 상의 문서 구성 요소의 실제 위치값을 추출함으로써, 이미지에 대한 캡션 후보를 효율적으로 추출하는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법이 제공된다.
본 발명에 따르면, 사전 학습된 확률 기반의 분류 모델을 통해 생성된 이미지-캡션 후보 쌍이 정답 쌍이 될 확률을 계산하여 이미지 캡션을 추출함으로써, 이미지 캡션 추출 성능을 향상시키는 이미지 캡션 추출 시스템 및 방법이 제공된다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 본 발명의 일실시예에 따른 캡션 후보 추출 방법은 캡션 후보 추출 시스템에 의해 수행될 수 있다. 그리고, 본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 이미지 캡션 추출 시스템에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 이미지 캡션 추출 시스템을 이용하여 이미지 캡션 리스트를 추출하는 과정을 도시한 도면이다.
도 1을 참고하면, 본 발명의 이미지 캡션 추출 시스템(103)은 이미지의 주변에 있는 텍스트 정보 및 구조적 정보를 이용하여 HTML 웹 문서(102-1~102-n) 각각에 포함된 이미지 별로 이미지 캡션을 추출하여 이미지 캡션 리스트(104)를 생성할 수 있다. 도 1에서 웹(100)을 도시하였지만, 웹 이외에 다른 온라인 환경도 적용될 수 있다.
일례로, HTML 웹 문서(102-1~102-n)에 포함된 이미지는 이미지 캡션을 가질 수도 있거나, 가지지 않을 수도 있다. 그리고, 이미지 별로 추출되는 이미지 캡션은 최대 하나의 이미지 캡션을 가질 수 있다. 이 때. 이미지 캡션은 이미지를 설명하기 위해 HTML 웹 문서(102-1~102-n)의 본문과 별도로 부여된 텍스트를 의미한다.
이미지 캡션 추출 시스템(103)은 HTML 웹 문서(102-1~102-n)에 포함된 이미지 별로 캡션 후보를 결정할 수 있다. 이 때, 캡션 후보는 이미지에 대해 HTML 웹 문서(102-1~102-n)에 포함된 텍스트 중 이미지 캡션이 될 수 있는 단위 텍스트를 의미할 수 있다.
본 발명의 일실시예에 따르면, 이미지 캡션 추출 시스템(103)은 HTML 웹 문서(102-1~102-n)를 구조적으로 파싱하여 이미지와 캡션 후보의 웹 브라우저(101-1~101-n) 상의 실제 위치 값(구조적 정보)을 추출할 수 있다. 즉, HTML 웹 문서가 웹 브라우저를 통해 제공되는 경우, 이미지 캡션 추출 시스템(103)은 웹 브라우저 상에서의 이미지나 캡션 후보의 실제 위치를 추출할 수 있다. 이 때, 웹 브라우저(101-1~101-n)의 종류는 한정되지 않는다. 또한, HTML 웹 문서(102-1~102-n)는 일례에 불과하고, 태그에 따라 문서를 구조적으로 구성할 수 있는 다른 언어(예를 들면, XML 등)로 구현된 문서로 대체될 수 있다.
결국, 본 발명은 HTML 웹 문서(102-1~102-n)를 파싱하여 추출된 구조적 정보를 이용함으로써, 웹 브라우저(101-1~101-n)를 통해 시각적으로 느끼는 실제 거리를 반영하여 이미지에 대해 보다 정확한 이미지 캡션을 추출할 수 있다. 또한, 본 발명은 구조적 정보를 이용함으로써, 보다 넓은 범위에서 넓은 단위의 텍스트인 이미지 캡션을 추출할 수 있다.
도 2는 본 발명의 일실시예에 따른 캡션 후보 추출 시스템의 전체 구성을 도시한 블록 다이어그램이다.
도 2를 참고하면, 캡션 후보 추출 시스템(200)은 문서 파싱부(201), 이미지 필터링부(202) 및 캡션 후보 결정부(203)를 포함할 수 있다. 이 때, 캡션 후보 추출 시스템(200)은 이미지 캡션 추출 시스템(103)의 한 구성 요소일 수 있다.
문서 파싱부(201)는 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출할 수 있다. 이 때, 텍스트 정보는 문서에 포함된 텍스트의 길이, 폭, 폰트 등의 텍스트 형태를 의미할 수 있다. 그리고, 구조적 정보는 문서의 구성 요소의 위치를 의미할 수 있다.
일례로, 문서 파싱부(201)는 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출할 수 있다. 이 때, 문서 파싱부(201)는 문서에 포함된 이미지와 텍스트 각각의 위치 값을 추출함으로써, 웹 브라우저 상에서의 실제 거리가 결정될 수 있다.
이 때, 문서는 HTML 웹 문서를 포함할 수 있다. 일례로, 문서 파싱부(201)는 HTML 인터페이스에 따른 파서(parser)를 이용하여 HTML로 구성된 HTML 웹 문서를 파싱 할 수 있다.
이미지 필터링부(202)는 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다. 이 때, 이미지 필터링부(202)는 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다.
일례로, 이미지들의 속성에 따른 필터는 이미지의 크기에 따른 필터, 이미지의 가로세로 비율에 따른 필터, 이미지의 파일명에 따른 필터 및 문서 내 이미지의 중복 배치에 따른 필터를 포함할 수 있다.
예를 들면, 이미지 필터링부(202)는 이미지의 크기에 따른 필터를 통해 이미지의 가로와 세로 곱이 미리 설정된 값보다 작은 이미지를 필터링 할 수 있다. 그리고, 이미지 필터링부(202)는 이미지의 가로세로 비율에 따른 필터를 통해 이미지의 가로세로 비율이 미리 설정된 값 이상인 경우 해당 이미지를 필터링 할 수 있다.
또한, 이미지 필터링부(202)는 이미지의 파일명에 따른 필터는 banner, icon, menu, logo, top, bottom, left, right 등 문서 상에서 메뉴, 로고 또는 배너 등을 지칭하는 단어가 이미지의 파일명에 포함된 경우 해당 이미지를 필터링 할 수 있다. 또한, 이미지 필터링부(202)는 문서 내 이미지의 중복 배치에 따른 필터를 통해 문서 내 중복 등장하는 이미지를 필터링 할 수 있다. 다만, 배열 형태의 이미지는 배열 형태의 이미지 전체를 설명하는 이미지 캡션이 존재할 수 있기 때문에, 예외적으로 필터링 되지 않을 수 있다.
즉, 문서에 포함된 이미지가 문서의 부수적인 구성 요소에 해당할 가능성이 높은 경우, 상기 이미지에 대한 캡션은 무의미할 수 있다. 따라서, 이미지들의 속성에 따른 필터는 문서의 부수적인 구성 요소에 해당하는 이미지를 제거하는 필터들을 의미할 수 있다.
캡션 후보 결정부(203)는 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정할 수 있다. 이 때, 캡션 후보는 문서에 포함된 텍스트 중 이미지 캡션 추출 대상인 이미지와 인접한 단위 텍스트들을 의미할 수 있다.
일례로, 캡션 후보 결정부(203)는 이미지 필터링부(202)를 통해 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정할 수 있다. 이 때, 캡션 후보 결정부(203)는 문서의 태그를 이용하여 단위 텍스트를 추출하고, 상기 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정할 수 있다.
예를 들면, 캡션 후보 결정부(203)는 문서 내에 단락 또는 테이블에 대한 태그를 이용하여 단위 텍스트를 추출할 수 있다. 다만, 상기 태그의 하위 노드에 대응하는 단락 또는 테이블에 대한 태그는 배제될 수 있다.
그리고, 캡션 후보 결정부(203)는 추출된 단위 텍스트가 미리 설정한 텍스트의 길이에 해당하는 지 여부 및 미리 설정한 이미지와의 거리(예를 들면, 이미지의 폭과 높이의 평균값의 2배 이하 등)에 포함되는 지 여부를 고려하여 캡션 후보를 결정할 수 있다.
일례로, 캡션 후보 결정부(203)는 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정할 수 있는데, 각 방향에 대해 단위 텍스트가 하나 이상인 경우, 이미지와 거리가 가장 가까운 단위 텍스트를 캡션 후보를 결정할 수 있다. 만약, 이미지와의 거리가 가장 가까운 단위 텍스트가 하나 이상인 경우, 상기 단위 텍스트 모두를 캡션 후보로 결정할 수 있다.
여기서, 문서에 포함된 텍스트 중 캡션 후보를 결정하기 위한 기준을 만족하지 못하는 경우, 이미지 캡션 추출 대상인 특정 이미지에 대해 캡션 후보는 결정되지 않을 수 있다. 즉, 이미지 캡션 추출 대상인 이미지 별로 결정되는 캡션 후보는 적어도 하나가 존재하거나 또는 존재하지 않을 수 있다.
본 발명은 이미지에 인접하는 단위 텍스트를 대상으로 캡션 후보를 결정하는 방법은 상기 예에 한정되지 않고, 다양한 방법이 적용될 수 있다.
도 3은 본 발명의 일실시예에 따른 이미지 캡션 추출 시스템의 전체 구성을 도시한 블록 다이어그램이다.
도 3을 참고하면, 이미지 캡션 추출 시스템(300)은 이미지-캡션 후보 쌍 생성부(301), 피처 추출부(302) 및 이미지 캡션 선택부(303)를 포함할 수 있다. 이 때, 이미지-캡션 후보 쌍 생성부(301)는 도 2에 도시된 캡션 후보 추출 시스템(200)으로 대체될 수 있다.
이미지-캡션 후보 쌍 생성부(301)는 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성할 수 있다. 미리 설정된 규칙에 따라 상기 이미지에 대해 캡션 후보가 결정되면, 이미지 별로 이미지-캡션 후보 쌍이 생성된다.
이 때, 이미지-캡션 후보 쌍 생성부(301)는 문서 파싱부(304), 이미지 필터링부(305) 및 캡션 후보 결정부(306)를 포함할 수 있다. 즉, 이미지 캡션 후보 쌍 생성부(301)는 문서의 이미지에 대해 캡션 후보를 결정하고, 결정된 캡션 후보에 따라 이미지 별로 이미지-캡션 후보 쌍을 생성할 수 있다.
문서 파싱부(304)는 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출할 수 있다. 이 때, 문서 파싱부(304)는 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출할 수 있다. 일례로, 문서 파싱부(304)는 문서가 HTML 웹 문서인 경우, 하이퍼텍스트 마크 업 언어(HTML) 인터페이스에 따른 파서(parser)를 이용하여 HTML로 구성된 상기 문서를 파싱 할 수 있다.
이미지 필터링부(305)는 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다. 일례로, 이미지 필터링부(305)는 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다. 이미지들의 속성에 따른 필터는 도 2의 설명을 참고할 수 있다.
캡션 후보 결정부(306)는 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정할 수 있다. 이 때, 캡션 후보 결정부(306)는 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스 트를 대상으로 캡션 후보를 결정할 수 있다.
이미지 캡션 추출 대상인 이미지에 대해 캡션 후보를 결정하는 경우, 문서에 포함된 텍스트 중 미리 설정한 캡션 후보 결정 기준을 만족하는 텍스트가 존재하지 않는 경우, 상기 이미지에 대해 캡션 후보가 결정되지 않을 수 있다. 캡션 후보가 결정되지 않은 이미지에 대해서는 이미지-캡션 후보 쌍으로부터 피처를 추출하는 과정과 이미지 캡션을 선택하는 과정이 진행되지 않는다.
일례로, 캡션 후보 결정부(306)는 문서의 태그를 이용하여 상기 단위 텍스트를 추출하고, 상기 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정할 수 있다. 캡션 후보를 결정하는 구체적인 예는 도 2를 참고할 수 있다.
피처 추출부(302)는 생성된 이미지-캡션 후보 쌍 각각에 대한 피처(feature)를 추출할 수 있다. 일례로, 피처 추출부(302)는 생성된 이미지-캡션 후보 쌍에 대해 텍스트 정보 및 구조적 정보를 이용하여 피처를 추출할 수 있다. 여기서, 피처는 이미지의 속성, 캡션 후보의 속성 및 이미지와 캡션 후보와의 관계에 따른 속성일 수 있다.
이 때, 피처 추출부(302)는 생성된 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함하는 피처를 추출할 수 있다.
상기 언급한 피처는 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다. 상기 언급한 피처 각각에 대해서는 도 6에서 구체적으로 설명된다.
이미지 캡션 선택부(303)는 추출된 피처에 따른 확률을 이용하여 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택할 수 있다. 일례로, 이미지 캡션 선택부(303)는 사전 학습된 확률 기반의 분류 모델에 따라 추출된 피처를 이용하여 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산할 수 있다.
이 때, 사전 학습된 확률 기반의 분류 모델은 주어진 학습 자료(training data)를 통해 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 학습하는 것을 의미한다. 이 때, 확률 기반의 분류 모델은 캡션 후보가 이미지 캡션이 될 확률을 이미지-캡션 후보 쌍에 대한 피처 각각에 따른 확률을 통해 결정되는 것으로, 학습 자료를 통해 사전 학습될 수 있다.
그리고, 이미지 캡션 선택부(303)는 생성된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택할 수 있다. 따라서, 이미지-캡션 후보 쌍에 대해 계산된 확률값 전부가 미리 설정한 임계값 이상이 아닌 경우, 상기 이미지에 대한 이미지 캡션은 선택되지 않을 수 있다.
도 4는 본 발명의 일실시예에 따라 문서를 파싱 하는 과정을 도시한 도면이다.
도 4를 참고하면, 문서(401)는 이미지(403)와 텍스트(404)가 포함될 수 있다. 앞에서 이미 언급했듯이, 문서(401)는 HTML로 된 웹 문서일 수 있다. 본 발 명은 이미지(403)에 인접하는 텍스트(404)로부터 이미지를 설명하는 이미지 캡션을 추출할 수 있다. 이 때, 문서(401)의 구조적 정보를 이용하여 문서(401)에 포함된 텍스트가 이미지(403)에 인접하는 지 여부를 판단할 수 있다.
문서 파싱부(304)는 문서(401)를 파싱하여 문서(401)의 텍스트 정보 및 구조적 정보를 추출할 수 있다. 이 때, 문서 파싱부(304)는 문서를 파싱하여 브라우저 상에서 문서 구성 요소(이미지 및 텍스트)의 실제 위치 값을 추출할 수 있다. 이 때, 구조적 정보는 웹 브라우저 상에서 문서 구성 요소들의 실제 위치 값을 포함할 수 있다.
일례로, 문서가 HTML 웹 문서인 경우, 문서 파싱부(304)는 하이퍼텍스트 마크 업 언어(HTML) 인터페이스에 따른 파서(parser)를 이용하여 문서(401)를 파싱 할 수 있다.
태그 데이터(402)는 문서(401)의 태그를 통해 문서(401)의 구조를 나타내고 있다. 이 때, 문서 파싱부(304)는 문서(401)의 태그 데이터(402)를 이용하여 문서(401)를 파싱 할 수 있다.
일례로, 이미지(403)는 img라는 태그를 통해 파싱 될 수 있다(도 4에서는 123.jpg). 그리고, 텍스트(404)는 단락 태그인 <p> 또는 테이블 태그인 <td> 태그를 통해 파싱 될 수 있다(도 4에서 XYZ). 결국, 문서 파싱부(304)를 통해 문서(401)의 텍스트 정보 및 구조적 정보가 추출될 수 있다.
그러면, 이미지 필터링부(305)는 파싱된 이미지(403)가 이미지 속성에 따른 필터를 통해 문서에 포함된 이미지 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다.. 그리고, 캡션 후보 결정부(306)는 파싱된 텍스트(404)가 캡션 후보가 될 수 있는 단위 텍스트인 지 여부를 판단할 수 있다. 이미지 필터링부(305)와 캡션 후보 결정부(306)는 문서(401)가 파싱 되어 추출된 텍스트 정보 및 구조적 정보를 활용할 수 있다.
도 5는 본 발명의 일실시예에 따라 캡션 후보를 결정하여 이미지-캡션 후보 쌍을 생성하는 과정을 설명하기 위한 도면이다.
이미지-캡션 후보 쌍 생성부(301)는 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성할 수 있다.
도 5에서 문서(500)에 포함된 이미지(501)는 이미지 필터링부(305)를 통해 이미지 필터링 과정을 거친 이미지를 의미한다. 일례로, 도 5의 이미지(501)는 이미지의 크기에 따른 필터, 이미지의 가로세로 비율에 따른 필터, 이미지의 파일명에 따른 필터 및 문서 내 이미지의 중복 배치에 따른 필터를 통해 이미지 필터링 과정을 거친 이미지로써, 이미지 캡션 추출 대상인 이미지를 의미한다. 즉, 이미지 필터링 과정은 문서에 포함된 이미지 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 과정이라고 할 수 있다.
그리고, 문서(500)에 포함된 텍스트(502, 503, 504, 505)는 이미지(501)에 인접하는 단위 텍스트를 의미한다. 이 때, 캡션 후보 결정부(306)는 이미지 캡션 추출 대상인 이미지(501)에 대해 문서의 태그를 이용하여 각 방향 별로 인접한 단위 텍스트(502, 503, 504, 505)를 추출할 수 있다. 이 때, 도 5에서 도시된 이미 지의 각 방향은 위, 아래, 왼쪽, 오른쪽이지만, 본 발명은 상기 방향에 한정되지 않는다. 앞에서 이미 언급했듯이, 캡션 후보 결정부(306)는 단락 태그 <p>와 테이블 태그<td>를 포함하는 문서의 태그를 이용하여 단위 텍스트(502, 503, 504, 505)를 추출할 수 있다.
그리고, 캡션 후보 결정부(306)는 추출된 단위 텍스트(502, 503, 504, 505)를 대상으로 캡션 후보를 결정할 수 있다. 단위 텍스트(502, 503, 504, 505)가 캡션 후보를 결정하는 기준을 만족하지 못하는 경우, 이미지(501)에 대한 캡션 후보가 결정되지 않을 수 있다. 캡션 후보가 결정되지 않은 이미지에 대해서는 이미지-캡션 후보 쌍으로부터 피처를 추출하는 과정과 이미지 캡션을 선택하는 과정이 진행되지 않는다.
이 때, 캡션 후보 결정부(306)는 추출된 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정할 수 있다. 즉, 캡션 후보를 결정하는 기준은 단위 텍스트의 길이 및 이미지와의 거리로 설정될 수 있다. 캡션 후보는 이미지(501)를 설명하는 이미지 캡션이 될 수 있는 텍스트이기 때문에, 텍스트의 길이는 설명 문구가 될 수 있을 정도의 길이를 의미할 수 있다. 그리고, 이미지와의 거리도 설명 문구가 될 수 있을 정도의 거리를 의미할 수 있다.
예를 들어, 제한된 텍스트의 길이가 2 byte ~ 500 byte일 때, 텍스트 2(503)의 길이가 600byte라고 한다면, 텍스트 2(503)는 캡션 후보로 결정되지 않는다. 그리고, 이미지와의 제한된 거리가 이미지의 폭과 높이의 평균 값의 2배 이하라고 할 때, 텍스트 3(504)과 이미지(501)의 거리가 이미지(501)의 폭과 높이의 평균값 의 3배라면, 텍스트 3(504)는 캡션 후보로 결정되지 않는다.
캡션 후보 결정부(306)를 통해 캡션 후보(502, 505)가 결정되면, 이미지(501)에 대해 이미지-캡션 후보 쌍이 생성될 수 있다. 생성되는 이미지-캡션 후보 쌍은 적어도 하나일 수 있다.
그러면, 피처 추출부(303)는 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출할 수 있다. 일례로, 추출된 피처는 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함할 수 있다.
이미지 크기는 이미지의 가로와 세로의 곱으로 결정될 수 있다. 이미지 가로 세로 비율은 이미지의 가로 길이와 세로 길이 간의 비율로 결정될 수 있다. 이미지 포맷은 이미지의 파일 형식(jpg, gif, tiff 등)을 의미할 수 있다. 캡션 후보의 길이는 이미지에 인접하는 텍스트인 캡션 후보의 길이로 결정될 수 있다.
캡션 후보의 반복 존재 여부는 캡션 후보가 이미지를 설명하기 위해 반복되는 문구(제목, 내용, 작성 일자 등)에 해당하여 문서에 자주 등장하는 지 여부로 결정될 수 있다.
그리고, 폰트 태그 사용 여부는 캡션 후보인 텍스트의 글꼴, 크기, 굵기 등의 효과가 적용되었는 지 여부를 의미한다. 캡션 후보 방향은 캡션 후보가 이미지의 어느 방향에 위치하는 지 여부를 의미한다. 이미지 폭 대비 캡션 후보의 폭은 이미지의 폭과 캡션 후보의 폭 간의 비율로 결정될 수 있다.
앵커 태그의 사용 여부는 캡션 후보가 특정 링크로 연결하는 하이퍼링크가 적용되었는 지 여부를 결정된다. 캡션 키워드 존재 여부는 이미지를 설명하는 의미가 포함된 키워드(예를 들면, 모습, 장면, 사진 등)가 캡션 후보에 존재하는 지 여부로 결정된다. 그리고, 종결 부호 존재 여부는 캡션 후보의 끝에 마침표 등의 종결 부호가 존재하는 지 여부로 결정된다.
도 6은 본 발명의 일실시예에 따라 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 설명하기 위한 도면이다. 도 6을 참고하면, 이미지 캡션을 선택하는 예제(601, 602)가 도시되어 있다.
이미지 캡션 선택부(303)는 추출된 피처에 따른 확률을 이용하여 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택할 수 있다. 일례로, 이미지 캡션 선택부(303)는 사전 학습된 확률 기반의 분류 모델에 따라 추출된 피처를 이용하여 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산할 수 있다.
일례로, 상기 확률 기반의 분류 모델은 학습 자료를 통해 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 학습될 수 있다. 일례로, 이미지 캡션 선택부(303)는 하기 수학식 1에 따라 이미지-캡션 후보 쌍이 정답 쌍이 될 확률값을 계산할 수 있다.
Figure 112008028993250-pat00001
이미지 캡션 선택부(303)는 추출된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택할 수 있다. 일례로, 이미지 캡션 선택부(303)는 하기 수학식 2에 따라 이미지 캡션을 선택할 수 있다.
Figure 112008028993250-pat00002
여기서,
Figure 112008028993250-pat00003
는 이미지에 대한 이미지 캡션을 의미하고,
Figure 112008028993250-pat00004
는 이미지-캡션 후보 쌍을 의미한다. 그리고,
Figure 112008028993250-pat00005
는 하나의 캡션 후보를 의미하고,
Figure 112008028993250-pat00006
는 캡션 후보의 집합을 의미할 수 있다.
Figure 112008028993250-pat00007
는 이미지-캡션 후보 쌍이 정답 쌍이 될 확률을 의미한다.
도 6을 참고하면, 임계값(
Figure 112008028993250-pat00008
)이 80%이라고 가정할 수 있다. 예제(601)에서, 이미지 1에 대한 캡션 후보가 캡션 후보 1, 캡션 후보 2가 존재할 때, 이미지 1-캡션 후보 1 쌍이 정답 쌍이 될 확률값은 90%이고, 이미지1-캡션 후보 2 쌍이 정답 쌍이 될 확률값은 95%이다. 상기 수학식 2를 적용하면, 선택되는 이미지 캡션은 캡션 후보 2이다.
예제(602)에서, 이미지 2에 대한 캡션 후보가 캡션 후보 3, 캡션 후보 4가 존재할 때, 이미지2-캡션 후보 3 쌍이 정답 쌍이 될 확률값은 40%이고, 이미지2-캡션 후보 4 쌍이 정답 쌍이 될 확률값은 75%이다. 예제(602)의 경우, 이미지2-캡션 후보 4 쌍이 정답 쌍이 될 확률값이 가장 크지만, 임계값 이상인 확률값이 존재하지 않으므로, 예제(602)에서 선택되는 이미지 캡션은 없다고 할 수 있다.
다만, 본 발명은 상기 언급한 예에 한정되지 않고, 다양한 방법이 적용될 수 있다.
도 7은 본 발명의 일실시예에 따른 캡션 후보 추출 방법의 전체 구성을 도시한 플로우차트이다.
본 발명의 일실시예에 따른 캡션 후보 추출 방법은 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출할 수 있다(S701). 이 때, 텍스트 정보는 문서에 포함된 텍스트의 길이, 폭, 폰트 등의 텍스트 형태를 의미할 수 있다. 그리고, 구조적 정보는 문서의 구성 요소의 위치를 의미할 수 있다.
이 때, 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계(S701)는 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출할 수 있다. 일례로, 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계(S701)는 하이퍼텍스트 마크 업 언어(HTML) 인터페이스에 따 른 파서(parser)를 이용하여 HTML로 구성된 상기 문서를 파싱 할 수 있다.
본 발명의 일실시예에 따른 캡션 후보 추출 방법은 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다(S702).
이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 단계(S702)는 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지 결정하기 위한 이미지 필터링을 수행할 수 있다. 이 때, 이미지들의 속성에 따른 필터는 이미지의 크기에 따른 필터, 이미지의 가로세로 비율에 따른 필터, 이미지의 파일명에 따른 필터 및 문서 내 이미지의 중복 배치에 따른 필터를 포함할 수 있다.
즉, 문서에 포함된 이미지가 문서의 부수적인 구성 요소에 해당할 가능성이 높은 경우, 상기 이미지에 대한 캡션은 무의미할 수 있다. 따라서, 이미지들의 속성에 따른 필터는 문서의 부수적인 구성 요소에 해당하는 이미지를 제거하는 필터들을 의미할 수 있다.
본 발명의 일실시예에 따른 캡션 후보 추출 방법은 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정할 수 있다(S703).
이 때, 캡션 후보는 문서에 포함된 텍스트 중 이미지 캡션이 될 수 있는 이미지와 인접한 단위 텍스트들일 수 있다. 일례로, 캡션 후보를 결정하는 단계(S703)는 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍 스트를 대상으로 캡션 후보를 결정할 수 있다.
그리고, 캡션 후보를 결정하는 단계(S703)는 문서의 태그를 이용하여 상기 단위 텍스트를 추출하고, 상기 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정할 수 있다.
예를 들면, 캡션 후보를 결정하는 단계(S703)는 문서 내에 단락 또는 테이블에 대한 태그를 이용하여 단위 텍스트를 추출할 수 있다. 다만, 상기 태그의 하위 노드에 대응하는 단락 또는 테이블에 대한 태그는 배제될 수 있다.
그리고, 캡션 후보를 결정하는 단계(S703)는 추출된 단위 텍스트가 미리 설정한 텍스트의 길이에 해당하는 지 여부 및 미리 설정한 이미지와의 거리(예를 들면, 이미지의 폭과 높이의 평균값의 2배 이하 등)에 포함되는 지 여부를 고려하여 캡션 후보를 결정할 수 있다.
이미지 캡션 추출 대상인 이미지에 대해 캡션 후보를 결정하는 경우, 문서에 포함된 텍스트 중 미리 설정한 캡션 후보 결정 기준(단위 텍스트의 길이 및 이미지와의 거리)을 만족하는 텍스트가 존재하지 않는 경우, 상기 이미지에 대해 캡션 후보가 결정되지 않을 수 있다.
결국, 캡션 후보 결정 방법을 통해 문서에 포함된 텍스트로부터 이미지에 대한 캡션 후보를 결정함으로써, 이미지-캡션 후보 쌍이 생성될 수 있다.
도 8은 본 발명의 일실시예에 따른 이미지 캡션 추출 방법의 전체 구성을 도시한 플로우차트이다.
본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성할 수 있다(S801). 즉, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 문서의 이미지에 대해 캡션 후보를 결정하고, 결정된 캡션 후보에 따라 이미지 별로 이미지-캡션 후보 쌍을 생성할 수 있다.
일례로, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계를 포함할 수 있다. 이 때, 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계는 상기 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출할 수 있다.
일례로, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하는 이미지 필터링을 수행하는 단계를 포함할 수 있다. 일례로, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지를 결정하는 이미지 필터링을 수행할 수 있다. 이미지들의 속성에 따른 필터는 도 2의 설명을 참고할 수 있다.
일례로, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 단계를 포함할 수 있다. 상기 캡션 후보를 결정하는 단계는 상기 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정할 수 있다. 캡션 후보를 결정하는 구체적인 예는 도 2를 참고할 수 있다.
본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출할 수 있다(S802). 여기서, 피처는 이미지의 속성, 캡션 후보의 속성 및 이미지와 캡션 후보와의 관계에 따른 속성일 수 있다.
일례로, 피처를 추출하는 단계(S802)는 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함하는 피처를 추출할 수 있다. 상기 언급한 피처는 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다. 상기 언급한 피처 각각에 대해서는 도 6을 참고할 수 있다.
본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 추출된 피처에 따른 확률을 이용하여 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택할 수 있다(S803).
이미지 캡션을 선택하는 단계(S803)는 사전 학습된 확률 기반의 분류 모델에 따라 상기 추출된 피처를 이용하여 상기 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산할 수 있다.
이 때, 사전 학습된 확률 기반의 분류 모델은 주어진 학습 자료(training data)를 통해 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 학습하는 것을 의미한다. 이 때, 확률 기반의 분류 모델은 캡션 후보가 이미지 캡션이 될 확률을 이미지-캡션 후보 쌍에 대한 피처 각각에 따른 확률을 통해 결정되는 것 으로, 학습 자료를 통해 사전 학습될 수 있다.
이 때, 이미지 캡션을 선택하는 단계(S803)는 추출된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택할 수 있다. 따라서, 이미지-캡션 후보 쌍에 대해 계산된 확률값 전부가 미리 설정한 임계값 이상이 아닌 경우, 상기 이미지에 대한 이미지 캡션은 선택되지 않을 수 있다.
도 7 및 도 8에서 설명되지 않은 부분은 도 1 내지 도 6에서 설명된 내용을 참고할 수 있다.
또한 본 발명의 일실시예에 따른 캡션 후보 추출 방법 및 이미지 캡션 추출 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨 터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
도 1은 본 발명의 일실시예에 따른 이미지 캡션 추출 시스템을 이용하여 이미지 캡션 리스트를 추출하는 과정을 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 캡션 후보 추출 시스템의 전체 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 이미지 캡션 추출 시스템의 전체 구성을 도시한 블록 다이어그램이다.
도 4는 본 발명의 일실시예에 따라 문서를 파싱 하는 과정을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따라 캡션 후보를 결정하여 이미지-캡션 후보 쌍을 생성하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따라 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예에 따른 캡션 후보 추출 방법의 전체 구성을 도시한 플로우차트이다.
도 8은 본 발명의 일실시예에 따른 이미지 캡션 추출 방법의 전체 구성을 도시한 플로우차트이다.
<도면의 주요 부분에 대한 부호의 설명>
100: WEB
101-1~101-n: 웹 브라우저
102-1~102-n: HTML 웹 문서
103: 이미지 캡션 추출 시스템
104: 이미지 캡션 리스트

Claims (28)

  1. 문서에 포함된 텍스트 형태를 나타내는 텍스트 정보 및 문서 구성 요소의 위치 값을 나타내는 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 이미지-캡션 후보 쌍 생성부;
    상기 생성된 이미지-캡션 후보 쌍 각각에 대해 이미지의 속성, 캡션 후보의 속성 또는 이미지와 캡션 후보와의 관계에 따른 속성 중 적어도 하나인 피처(feature)를 추출하는 피처 추출부; 및
    상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 이미지 캡션 선택부
    를 포함하는 이미지 캡션 추출 시스템.
  2. 제1항에 있어서,
    상기 이미지-캡션 후보 쌍 생성부는,
    문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 문서 파싱부;
    상기 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 이미지 필터링부; 및
    상기 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 캡션 후보 결정부
    를 포함하는 이미지 캡션 추출 시스템.
  3. 제2항에 있어서,
    상기 문서 파싱부는,
    상기 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
  4. 제2항에 있어서,
    상기 문서 파싱부는,
    파서(parser)를 이용하여 상기 문서를 파싱 하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
  5. 제2항에 있어서,
    상기 이미지 필터링부는,
    상기 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 것을 특징으로 하는 이미지 캡션추출 시스템.
  6. 제5항에 있어서,
    상기 이미지들의 속성에 따른 필터는,
    이미지의 크기에 따른 필터, 이미지의 가로세로 비율에 따른 필터, 이미지의 파일명에 따른 필터 및 문서 내 이미지의 중복 배치에 따른 필터를 포함하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
  7. 제2항에 있어서,
    상기 캡션 후보 결정부는,
    상기 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
  8. 제2항에 있어서,
    상기 캡션 후보는,
    상기 문서에 포함된 텍스트 중 상기 이미지 캡션 추출 대상인 이미지와 인접한 단위 텍스트들인 것을 특징으로 하는 이미지 캡션 추출 시스템.
  9. 제7항에 있어서,
    상기 캡션 후보 결정부는,
    상기 문서의 태그를 이용하여 상기 단위 텍스트를 추출하고, 상기 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
  10. 제1항에 있어서,
    상기 피처 추출부는,
    상기 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함하는 피처를 추출하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
  11. 제1항에 있어서,
    상기 이미지 캡션 선택부는,
    사전 학습된 확률 기반의 분류 모델에 따라 상기 추출된 피처를 이용하여 상기 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
  12. 제11항에 있어서,
    상기 이미지 캡션 선택부는,
    상기 생성된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 문서에 포함된 텍스트 형태를 나타내는 텍스트 정보 및 문서 구성 요소의 위치 값을 나타내는 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 단계;
    상기 생성된 이미지-캡션 후보 쌍 각각에 대해 이미지의 속성, 캡션 후보의 속성 또는 이미지와 캡션 후보와의 관계에 따른 속성 중 적어도 하나인 피처(feature)를 추출하는 단계; 및
    상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 단계
    를 포함하는 이미지 캡션 추출 방법.
  22. 제21항에 있어서,
    상기 이미지-캡션 후보 쌍을 생성하는 단계는,
    문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계;
    상기 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하 기 위한 이미지 필터링을 수행하는 단계; 및
    상기 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 단계
    를 포함하는 이미지 캡션 추출 방법.
  23. 제22항에 있어서,
    상기 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계는,
    상기 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출하는 것을 특징으로 하는 이미지 캡션 추출 방법.
  24. 제22항에 있어서,
    상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 단계는,
    상기 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정하는 것을 특징으로 하는 이미지 캡션 추출 방법.
  25. 제21항에 있어서,
    상기 생성된 이미지-캡션 후보 쌍 각각에 대한 피처(feature)를 추출하는 단계는,
    상기 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함하는 피처를 추출하는 것을 특징으로 하는 이미지 캡션 추출 방법.
  26. 제21항에 있어서,
    상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 단계는,
    사전 학습된 확률 기반의 분류 모델에 따라 상기 추출된 피처를 이용하여 상기 생성된 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산하는 것을 특징으로 하는 이미지 캡션 추출 방법.
  27. 제26항에 있어서,
    상기 이미지 캡션을 선택하는 단계는,
    상기 추출된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택하는 것을 특징으로 하는 이미지 캡션 추출 방법.
  28. 제21항 내지 제27항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
KR1020080037684A 2008-04-23 2008-04-23 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법 KR100955758B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080037684A KR100955758B1 (ko) 2008-04-23 2008-04-23 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080037684A KR100955758B1 (ko) 2008-04-23 2008-04-23 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법

Publications (2)

Publication Number Publication Date
KR20090112020A KR20090112020A (ko) 2009-10-28
KR100955758B1 true KR100955758B1 (ko) 2010-04-30

Family

ID=41553257

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080037684A KR100955758B1 (ko) 2008-04-23 2008-04-23 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법

Country Status (1)

Country Link
KR (1) KR100955758B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2547068B (en) * 2016-01-13 2019-06-19 Adobe Inc Semantic natural language vector space
US9811765B2 (en) 2016-01-13 2017-11-07 Adobe Systems Incorporated Image captioning with weak supervision
US9792534B2 (en) 2016-01-13 2017-10-17 Adobe Systems Incorporated Semantic natural language vector space
CN106934383B (zh) * 2017-03-23 2018-11-30 掌阅科技股份有限公司 文件中图片标注信息识别方法、装置及服务器
KR102169925B1 (ko) * 2018-03-14 2020-10-26 한국전자기술연구원 이미지 캡션 자동 생성 방법 및 시스템
KR102144347B1 (ko) * 2018-09-12 2020-08-14 주식회사 한글과컴퓨터 웹 페이지에 삽입된 이미지의 변경 여부에 대한 점검이 가능한 브라우저 점검 장치 및 그 동작 방법
CN113033333B (zh) * 2021-03-05 2024-02-23 北京百度网讯科技有限公司 实体词识别方法、装置、电子设备和存储介质
CN113326395A (zh) * 2021-04-23 2021-08-31 维沃移动通信有限公司 信息处理方法、装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
논문1:한국정보과학회*
논문2:대한전자공학회
논문3:한국정보과학회
논문4:정보통신연구진흥원

Also Published As

Publication number Publication date
KR20090112020A (ko) 2009-10-28

Similar Documents

Publication Publication Date Title
KR100955758B1 (ko) 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법
US7991709B2 (en) Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
JP4682284B2 (ja) 文書差分検出装置
US20110302486A1 (en) Method and apparatus for obtaining the effective contents of web page
KR20170123331A (ko) 정보 추출 방법 및 장치
US20050066269A1 (en) Information block extraction apparatus and method for Web pages
CN107590219A (zh) 网页人物主题相关信息提取方法
US8762829B2 (en) Robust wrappers for web extraction
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
KR20120051419A (ko) 종속형 스타일 시트 규칙 추출 장치 및 방법
WO2020101479A1 (en) System and method to detect and generate relevant content from uniform resource locator (url)
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
Nguyen et al. Web document analysis based on visual segmentation and page rendering
CN115391711B (zh) 网页正文信息提取方法、装置、设备及介质
KR101692244B1 (ko) 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치
JP4606349B2 (ja) 話題画像抽出方法及び装置及びプログラム
CN112559929B (zh) 提取网页页面目标信息的方法、电子设备和介质
KR102569381B1 (ko) 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법
JP2007188427A (ja) 話題画像選出方法及び装置及プログラム
CN108416048B (zh) 一种面向词典集的复杂从属结构网页信息抽取方法及系统
KR20070067058A (ko) 웹 문서 제목 추출 방법 및 그 장치
Mohammadzadeh et al. Extracting the main content of web documents based on a naive smoothing method
JP2011054006A (ja) 画像のキーワード決定システム
Gatterbauer et al. Web information extraction using eupeptic data in web tables

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 10