KR100955758B1

KR100955758B1 - 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및방법

Info

Publication number: KR100955758B1
Application number: KR1020080037684A
Authority: KR
Inventors: 임해창; 이재범; 김지승; 이상호
Original assignee: 엔에이치엔(주)
Priority date: 2008-04-23
Filing date: 2008-04-23
Publication date: 2010-04-30
Also published as: KR20090112020A

Abstract

문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보 추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및 방법이 개시된다. 이미지 캡션 추출 시스템은 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 이미지-캡션 후보 쌍 생성부, 상기 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출하는 피처 추출부 및 상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 이미지 캡션 선택부를 포함한다.

이미지, 텍스트, 구조, 파싱, HTML, 캡션, 피처

Description

문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보 추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및 방법{SYSTEM AND METHOD FOR EXTRACTING CAPTION CANDIDATE AND SYSTEM AND METHOD FOR EXTRACTING IMAGE CAPTION USING TEXT INFORMATION AND STRUCTURAL INFORMATION OF DOCUMENT}

본 발명은 문서의 텍스트 정보 및 구조적 정보를 이용한 캡션 후보 추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및 방법에 관한 것이다. 보다 자세하게는, 문서의 이미지 각각에 대한 캡션 후보를 추출하여 이미지-캡션 후보를 생성하고, 생성된 이미지-캡션 후보에 대해 사전 학습에 따른 확률을 계산하여 이미지 캡션을 추출하는 캡션 후보 추출 시스템 및 방법, 그리고 이미지 캡션 추출 시스템 및 방법에 관한 것이다.

최근 문서에 포함된 이미지를 검색하는 기술에 대해 관심이 높아지고 있다. 다만, 웹 문서에는 다양한 이미지가 포함되어 있기 때문에, 웹 문서에서 실제로 검색자가 요구하는 이미지를 검색할 때, 웹 문서에는 다양한 이미지가 포함되어 있다.

이 때, 이미지 검색을 위해 이미지 자체의 속성보다는 이미지를 설명하는 단 어인 이미지 캡션을 추출하여 이미지 캡션에 따라 검색하는 경우, 이미지 검색의 성능이 향상될 수 있다. 결국, 이미지 캡션 추출의 성능은 이미지 검색 시스템의 성능에 영향을 미칠 수 있다.

다만, 이미지 캡션은 문서에 포함된 다수의 텍스트 중 하나이기 때문에, 텍스트 중 이미지 캡션을 선택하는 기준이 요구된다. 또한, 사전에 이미지 캡션 추출 대상이 될 수 있는 이미지를 선택할 필요도 있다. 그리고, 이미지를 설명하는 텍스트는 다수 존재할 수 있으므로, 이러한 텍스트에서 최적의 이미지 캡션을 선택하는 기준도 필요하다.

본 발명은 문서의 텍스트 정보 및 구조적 정보를 이용하여 문서의 이미지-캡션 후보 쌍을 생성함으로써, 이미지 캡션을 효율적으로 추출하는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법을 제공한다.

본 발명은 이미지 속성 및 텍스트 속성에 따른 규칙을 이용함으로써, 캡션 후보 추출 성능을 향상시킬 수 있는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법을 제공한다.

본 발명은 문서를 구조적으로 파싱하여 브라우저 상의 문서 구성 요소의 실제 위치값을 추출함으로써, 이미지에 대한 캡션 후보를 효율적으로 추출하는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법을 제공한다.

본 발명은 사전 학습된 확률 기반의 분류 모델을 통해 생성된 이미지-캡션 후보 쌍이 정답 쌍이 될 확률을 계산하여 이미지 캡션을 추출함으로써, 이미지 캡션 추출 성능을 향상시키는 이미지 캡션 추출 시스템 및 방법을 제공한다.

본 발명의 일실시예에 따른 캡션 후보 추출 시스템은 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 문서 파싱부, 상기 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 이미지 필터링부 및 상기 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 캡션 후보 결정부를 포함할 수 있 다.

본 발명의 일실시예에 따른 이미지 캡션 추출 시스템은 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 이미지-캡션 후보 쌍 생성부, 상기 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출하는 피처 추출부 및 상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 이미지 캡션 선택부를 포함할 수 있다.

본 발명의 일실시예에 따른 캡션 후보 추출 방법은 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계, 상기 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 단계 및 상기 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 단계, 상기 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출하는 단계 및 상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 단계를 포함할 수 있다.

본 발명에 따르면, 문서의 텍스트 정보 및 구조적 정보를 이용하여 문서의 이미지-캡션 후보 쌍을 생성함으로써, 이미지 캡션을 효율적으로 추출하는 캡션 후 보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법이 제공된다.

본 발명에 따르면, 이미지 속성 및 텍스트 속성에 따른 규칙을 이용함으로써, 캡션 후보 추출 성능을 향상시킬 수 있는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법이 제공된다.

본 발명에 따르면, 문서를 구조적으로 파싱하여 브라우저 상의 문서 구성 요소의 실제 위치값을 추출함으로써, 이미지에 대한 캡션 후보를 효율적으로 추출하는 캡션 후보 추출 시스템 및 방법과 이미지 캡션 추출 시스템 및 방법이 제공된다.

본 발명에 따르면, 사전 학습된 확률 기반의 분류 모델을 통해 생성된 이미지-캡션 후보 쌍이 정답 쌍이 될 확률을 계산하여 이미지 캡션을 추출함으로써, 이미지 캡션 추출 성능을 향상시키는 이미지 캡션 추출 시스템 및 방법이 제공된다.

이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 본 발명의 일실시예에 따른 캡션 후보 추출 방법은 캡션 후보 추출 시스템에 의해 수행될 수 있다. 그리고, 본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 이미지 캡션 추출 시스템에 의해 수행될 수 있다.

도 1은 본 발명의 일실시예에 따른 이미지 캡션 추출 시스템을 이용하여 이미지 캡션 리스트를 추출하는 과정을 도시한 도면이다.

도 1을 참고하면, 본 발명의 이미지 캡션 추출 시스템(103)은 이미지의 주변에 있는 텍스트 정보 및 구조적 정보를 이용하여 HTML 웹 문서(102-1~102-n) 각각에 포함된 이미지 별로 이미지 캡션을 추출하여 이미지 캡션 리스트(104)를 생성할 수 있다. 도 1에서 웹(100)을 도시하였지만, 웹 이외에 다른 온라인 환경도 적용될 수 있다.

일례로, HTML 웹 문서(102-1~102-n)에 포함된 이미지는 이미지 캡션을 가질 수도 있거나, 가지지 않을 수도 있다. 그리고, 이미지 별로 추출되는 이미지 캡션은 최대 하나의 이미지 캡션을 가질 수 있다. 이 때. 이미지 캡션은 이미지를 설명하기 위해 HTML 웹 문서(102-1~102-n)의 본문과 별도로 부여된 텍스트를 의미한다.

이미지 캡션 추출 시스템(103)은 HTML 웹 문서(102-1~102-n)에 포함된 이미지 별로 캡션 후보를 결정할 수 있다. 이 때, 캡션 후보는 이미지에 대해 HTML 웹 문서(102-1~102-n)에 포함된 텍스트 중 이미지 캡션이 될 수 있는 단위 텍스트를 의미할 수 있다.

본 발명의 일실시예에 따르면, 이미지 캡션 추출 시스템(103)은 HTML 웹 문서(102-1~102-n)를 구조적으로 파싱하여 이미지와 캡션 후보의 웹 브라우저(101-1~101-n) 상의 실제 위치 값(구조적 정보)을 추출할 수 있다. 즉, HTML 웹 문서가 웹 브라우저를 통해 제공되는 경우, 이미지 캡션 추출 시스템(103)은 웹 브라우저 상에서의 이미지나 캡션 후보의 실제 위치를 추출할 수 있다. 이 때, 웹 브라우저(101-1~101-n)의 종류는 한정되지 않는다. 또한, HTML 웹 문서(102-1~102-n)는 일례에 불과하고, 태그에 따라 문서를 구조적으로 구성할 수 있는 다른 언어(예를 들면, XML 등)로 구현된 문서로 대체될 수 있다.

결국, 본 발명은 HTML 웹 문서(102-1~102-n)를 파싱하여 추출된 구조적 정보를 이용함으로써, 웹 브라우저(101-1~101-n)를 통해 시각적으로 느끼는 실제 거리를 반영하여 이미지에 대해 보다 정확한 이미지 캡션을 추출할 수 있다. 또한, 본 발명은 구조적 정보를 이용함으로써, 보다 넓은 범위에서 넓은 단위의 텍스트인 이미지 캡션을 추출할 수 있다.

도 2는 본 발명의 일실시예에 따른 캡션 후보 추출 시스템의 전체 구성을 도시한 블록 다이어그램이다.

도 2를 참고하면, 캡션 후보 추출 시스템(200)은 문서 파싱부(201), 이미지 필터링부(202) 및 캡션 후보 결정부(203)를 포함할 수 있다. 이 때, 캡션 후보 추출 시스템(200)은 이미지 캡션 추출 시스템(103)의 한 구성 요소일 수 있다.

문서 파싱부(201)는 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출할 수 있다. 이 때, 텍스트 정보는 문서에 포함된 텍스트의 길이, 폭, 폰트 등의 텍스트 형태를 의미할 수 있다. 그리고, 구조적 정보는 문서의 구성 요소의 위치를 의미할 수 있다.

일례로, 문서 파싱부(201)는 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출할 수 있다. 이 때, 문서 파싱부(201)는 문서에 포함된 이미지와 텍스트 각각의 위치 값을 추출함으로써, 웹 브라우저 상에서의 실제 거리가 결정될 수 있다.

이 때, 문서는 HTML 웹 문서를 포함할 수 있다. 일례로, 문서 파싱부(201)는 HTML 인터페이스에 따른 파서(parser)를 이용하여 HTML로 구성된 HTML 웹 문서를 파싱 할 수 있다.

이미지 필터링부(202)는 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다. 이 때, 이미지 필터링부(202)는 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다.

일례로, 이미지들의 속성에 따른 필터는 이미지의 크기에 따른 필터, 이미지의 가로세로 비율에 따른 필터, 이미지의 파일명에 따른 필터 및 문서 내 이미지의 중복 배치에 따른 필터를 포함할 수 있다.

예를 들면, 이미지 필터링부(202)는 이미지의 크기에 따른 필터를 통해 이미지의 가로와 세로 곱이 미리 설정된 값보다 작은 이미지를 필터링 할 수 있다. 그리고, 이미지 필터링부(202)는 이미지의 가로세로 비율에 따른 필터를 통해 이미지의 가로세로 비율이 미리 설정된 값 이상인 경우 해당 이미지를 필터링 할 수 있다.

또한, 이미지 필터링부(202)는 이미지의 파일명에 따른 필터는 banner, icon, menu, logo, top, bottom, left, right 등 문서 상에서 메뉴, 로고 또는 배너 등을 지칭하는 단어가 이미지의 파일명에 포함된 경우 해당 이미지를 필터링 할 수 있다. 또한, 이미지 필터링부(202)는 문서 내 이미지의 중복 배치에 따른 필터를 통해 문서 내 중복 등장하는 이미지를 필터링 할 수 있다. 다만, 배열 형태의 이미지는 배열 형태의 이미지 전체를 설명하는 이미지 캡션이 존재할 수 있기 때문에, 예외적으로 필터링 되지 않을 수 있다.

즉, 문서에 포함된 이미지가 문서의 부수적인 구성 요소에 해당할 가능성이 높은 경우, 상기 이미지에 대한 캡션은 무의미할 수 있다. 따라서, 이미지들의 속성에 따른 필터는 문서의 부수적인 구성 요소에 해당하는 이미지를 제거하는 필터들을 의미할 수 있다.

캡션 후보 결정부(203)는 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정할 수 있다. 이 때, 캡션 후보는 문서에 포함된 텍스트 중 이미지 캡션 추출 대상인 이미지와 인접한 단위 텍스트들을 의미할 수 있다.

일례로, 캡션 후보 결정부(203)는 이미지 필터링부(202)를 통해 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정할 수 있다. 이 때, 캡션 후보 결정부(203)는 문서의 태그를 이용하여 단위 텍스트를 추출하고, 상기 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정할 수 있다.

예를 들면, 캡션 후보 결정부(203)는 문서 내에 단락 또는 테이블에 대한 태그를 이용하여 단위 텍스트를 추출할 수 있다. 다만, 상기 태그의 하위 노드에 대응하는 단락 또는 테이블에 대한 태그는 배제될 수 있다.

그리고, 캡션 후보 결정부(203)는 추출된 단위 텍스트가 미리 설정한 텍스트의 길이에 해당하는 지 여부 및 미리 설정한 이미지와의 거리(예를 들면, 이미지의 폭과 높이의 평균값의 2배 이하 등)에 포함되는 지 여부를 고려하여 캡션 후보를 결정할 수 있다.

일례로, 캡션 후보 결정부(203)는 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정할 수 있는데, 각 방향에 대해 단위 텍스트가 하나 이상인 경우, 이미지와 거리가 가장 가까운 단위 텍스트를 캡션 후보를 결정할 수 있다. 만약, 이미지와의 거리가 가장 가까운 단위 텍스트가 하나 이상인 경우, 상기 단위 텍스트 모두를 캡션 후보로 결정할 수 있다.

여기서, 문서에 포함된 텍스트 중 캡션 후보를 결정하기 위한 기준을 만족하지 못하는 경우, 이미지 캡션 추출 대상인 특정 이미지에 대해 캡션 후보는 결정되지 않을 수 있다. 즉, 이미지 캡션 추출 대상인 이미지 별로 결정되는 캡션 후보는 적어도 하나가 존재하거나 또는 존재하지 않을 수 있다.

본 발명은 이미지에 인접하는 단위 텍스트를 대상으로 캡션 후보를 결정하는 방법은 상기 예에 한정되지 않고, 다양한 방법이 적용될 수 있다.

도 3은 본 발명의 일실시예에 따른 이미지 캡션 추출 시스템의 전체 구성을 도시한 블록 다이어그램이다.

도 3을 참고하면, 이미지 캡션 추출 시스템(300)은 이미지-캡션 후보 쌍 생성부(301), 피처 추출부(302) 및 이미지 캡션 선택부(303)를 포함할 수 있다. 이 때, 이미지-캡션 후보 쌍 생성부(301)는 도 2에 도시된 캡션 후보 추출 시스템(200)으로 대체될 수 있다.

이미지-캡션 후보 쌍 생성부(301)는 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성할 수 있다. 미리 설정된 규칙에 따라 상기 이미지에 대해 캡션 후보가 결정되면, 이미지 별로 이미지-캡션 후보 쌍이 생성된다.

이 때, 이미지-캡션 후보 쌍 생성부(301)는 문서 파싱부(304), 이미지 필터링부(305) 및 캡션 후보 결정부(306)를 포함할 수 있다. 즉, 이미지 캡션 후보 쌍 생성부(301)는 문서의 이미지에 대해 캡션 후보를 결정하고, 결정된 캡션 후보에 따라 이미지 별로 이미지-캡션 후보 쌍을 생성할 수 있다.

문서 파싱부(304)는 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출할 수 있다. 이 때, 문서 파싱부(304)는 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출할 수 있다. 일례로, 문서 파싱부(304)는 문서가 HTML 웹 문서인 경우, 하이퍼텍스트 마크 업 언어(HTML) 인터페이스에 따른 파서(parser)를 이용하여 HTML로 구성된 상기 문서를 파싱 할 수 있다.

이미지 필터링부(305)는 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다. 일례로, 이미지 필터링부(305)는 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다. 이미지들의 속성에 따른 필터는 도 2의 설명을 참고할 수 있다.

캡션 후보 결정부(306)는 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정할 수 있다. 이 때, 캡션 후보 결정부(306)는 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스 트를 대상으로 캡션 후보를 결정할 수 있다.

이미지 캡션 추출 대상인 이미지에 대해 캡션 후보를 결정하는 경우, 문서에 포함된 텍스트 중 미리 설정한 캡션 후보 결정 기준을 만족하는 텍스트가 존재하지 않는 경우, 상기 이미지에 대해 캡션 후보가 결정되지 않을 수 있다. 캡션 후보가 결정되지 않은 이미지에 대해서는 이미지-캡션 후보 쌍으로부터 피처를 추출하는 과정과 이미지 캡션을 선택하는 과정이 진행되지 않는다.

일례로, 캡션 후보 결정부(306)는 문서의 태그를 이용하여 상기 단위 텍스트를 추출하고, 상기 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정할 수 있다. 캡션 후보를 결정하는 구체적인 예는 도 2를 참고할 수 있다.

피처 추출부(302)는 생성된 이미지-캡션 후보 쌍 각각에 대한 피처(feature)를 추출할 수 있다. 일례로, 피처 추출부(302)는 생성된 이미지-캡션 후보 쌍에 대해 텍스트 정보 및 구조적 정보를 이용하여 피처를 추출할 수 있다. 여기서, 피처는 이미지의 속성, 캡션 후보의 속성 및 이미지와 캡션 후보와의 관계에 따른 속성일 수 있다.

이 때, 피처 추출부(302)는 생성된 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함하는 피처를 추출할 수 있다.

상기 언급한 피처는 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다. 상기 언급한 피처 각각에 대해서는 도 6에서 구체적으로 설명된다.

이미지 캡션 선택부(303)는 추출된 피처에 따른 확률을 이용하여 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택할 수 있다. 일례로, 이미지 캡션 선택부(303)는 사전 학습된 확률 기반의 분류 모델에 따라 추출된 피처를 이용하여 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산할 수 있다.

이 때, 사전 학습된 확률 기반의 분류 모델은 주어진 학습 자료(training data)를 통해 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 학습하는 것을 의미한다. 이 때, 확률 기반의 분류 모델은 캡션 후보가 이미지 캡션이 될 확률을 이미지-캡션 후보 쌍에 대한 피처 각각에 따른 확률을 통해 결정되는 것으로, 학습 자료를 통해 사전 학습될 수 있다.

그리고, 이미지 캡션 선택부(303)는 생성된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택할 수 있다. 따라서, 이미지-캡션 후보 쌍에 대해 계산된 확률값 전부가 미리 설정한 임계값 이상이 아닌 경우, 상기 이미지에 대한 이미지 캡션은 선택되지 않을 수 있다.

도 4는 본 발명의 일실시예에 따라 문서를 파싱 하는 과정을 도시한 도면이다.

도 4를 참고하면, 문서(401)는 이미지(403)와 텍스트(404)가 포함될 수 있다. 앞에서 이미 언급했듯이, 문서(401)는 HTML로 된 웹 문서일 수 있다. 본 발 명은 이미지(403)에 인접하는 텍스트(404)로부터 이미지를 설명하는 이미지 캡션을 추출할 수 있다. 이 때, 문서(401)의 구조적 정보를 이용하여 문서(401)에 포함된 텍스트가 이미지(403)에 인접하는 지 여부를 판단할 수 있다.

문서 파싱부(304)는 문서(401)를 파싱하여 문서(401)의 텍스트 정보 및 구조적 정보를 추출할 수 있다. 이 때, 문서 파싱부(304)는 문서를 파싱하여 브라우저 상에서 문서 구성 요소(이미지 및 텍스트)의 실제 위치 값을 추출할 수 있다. 이 때, 구조적 정보는 웹 브라우저 상에서 문서 구성 요소들의 실제 위치 값을 포함할 수 있다.

일례로, 문서가 HTML 웹 문서인 경우, 문서 파싱부(304)는 하이퍼텍스트 마크 업 언어(HTML) 인터페이스에 따른 파서(parser)를 이용하여 문서(401)를 파싱 할 수 있다.

태그 데이터(402)는 문서(401)의 태그를 통해 문서(401)의 구조를 나타내고 있다. 이 때, 문서 파싱부(304)는 문서(401)의 태그 데이터(402)를 이용하여 문서(401)를 파싱 할 수 있다.

일례로, 이미지(403)는 img라는 태그를 통해 파싱 될 수 있다(도 4에서는 123.jpg). 그리고, 텍스트(404)는 단락 태그인 <p> 또는 테이블 태그인 <td> 태그를 통해 파싱 될 수 있다(도 4에서 XYZ). 결국, 문서 파싱부(304)를 통해 문서(401)의 텍스트 정보 및 구조적 정보가 추출될 수 있다.

그러면, 이미지 필터링부(305)는 파싱된 이미지(403)가 이미지 속성에 따른 필터를 통해 문서에 포함된 이미지 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다.. 그리고, 캡션 후보 결정부(306)는 파싱된 텍스트(404)가 캡션 후보가 될 수 있는 단위 텍스트인 지 여부를 판단할 수 있다. 이미지 필터링부(305)와 캡션 후보 결정부(306)는 문서(401)가 파싱 되어 추출된 텍스트 정보 및 구조적 정보를 활용할 수 있다.

도 5는 본 발명의 일실시예에 따라 캡션 후보를 결정하여 이미지-캡션 후보 쌍을 생성하는 과정을 설명하기 위한 도면이다.

이미지-캡션 후보 쌍 생성부(301)는 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성할 수 있다.

도 5에서 문서(500)에 포함된 이미지(501)는 이미지 필터링부(305)를 통해 이미지 필터링 과정을 거친 이미지를 의미한다. 일례로, 도 5의 이미지(501)는 이미지의 크기에 따른 필터, 이미지의 가로세로 비율에 따른 필터, 이미지의 파일명에 따른 필터 및 문서 내 이미지의 중복 배치에 따른 필터를 통해 이미지 필터링 과정을 거친 이미지로써, 이미지 캡션 추출 대상인 이미지를 의미한다. 즉, 이미지 필터링 과정은 문서에 포함된 이미지 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 과정이라고 할 수 있다.

그리고, 문서(500)에 포함된 텍스트(502, 503, 504, 505)는 이미지(501)에 인접하는 단위 텍스트를 의미한다. 이 때, 캡션 후보 결정부(306)는 이미지 캡션 추출 대상인 이미지(501)에 대해 문서의 태그를 이용하여 각 방향 별로 인접한 단위 텍스트(502, 503, 504, 505)를 추출할 수 있다. 이 때, 도 5에서 도시된 이미 지의 각 방향은 위, 아래, 왼쪽, 오른쪽이지만, 본 발명은 상기 방향에 한정되지 않는다. 앞에서 이미 언급했듯이, 캡션 후보 결정부(306)는 단락 태그 <p>와 테이블 태그<td>를 포함하는 문서의 태그를 이용하여 단위 텍스트(502, 503, 504, 505)를 추출할 수 있다.

그리고, 캡션 후보 결정부(306)는 추출된 단위 텍스트(502, 503, 504, 505)를 대상으로 캡션 후보를 결정할 수 있다. 단위 텍스트(502, 503, 504, 505)가 캡션 후보를 결정하는 기준을 만족하지 못하는 경우, 이미지(501)에 대한 캡션 후보가 결정되지 않을 수 있다. 캡션 후보가 결정되지 않은 이미지에 대해서는 이미지-캡션 후보 쌍으로부터 피처를 추출하는 과정과 이미지 캡션을 선택하는 과정이 진행되지 않는다.

이 때, 캡션 후보 결정부(306)는 추출된 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정할 수 있다. 즉, 캡션 후보를 결정하는 기준은 단위 텍스트의 길이 및 이미지와의 거리로 설정될 수 있다. 캡션 후보는 이미지(501)를 설명하는 이미지 캡션이 될 수 있는 텍스트이기 때문에, 텍스트의 길이는 설명 문구가 될 수 있을 정도의 길이를 의미할 수 있다. 그리고, 이미지와의 거리도 설명 문구가 될 수 있을 정도의 거리를 의미할 수 있다.

예를 들어, 제한된 텍스트의 길이가 2 byte ~ 500 byte일 때, 텍스트 2(503)의 길이가 600byte라고 한다면, 텍스트 2(503)는 캡션 후보로 결정되지 않는다. 그리고, 이미지와의 제한된 거리가 이미지의 폭과 높이의 평균 값의 2배 이하라고 할 때, 텍스트 3(504)과 이미지(501)의 거리가 이미지(501)의 폭과 높이의 평균값 의 3배라면, 텍스트 3(504)는 캡션 후보로 결정되지 않는다.

캡션 후보 결정부(306)를 통해 캡션 후보(502, 505)가 결정되면, 이미지(501)에 대해 이미지-캡션 후보 쌍이 생성될 수 있다. 생성되는 이미지-캡션 후보 쌍은 적어도 하나일 수 있다.

그러면, 피처 추출부(303)는 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출할 수 있다. 일례로, 추출된 피처는 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함할 수 있다.

이미지 크기는 이미지의 가로와 세로의 곱으로 결정될 수 있다. 이미지 가로 세로 비율은 이미지의 가로 길이와 세로 길이 간의 비율로 결정될 수 있다. 이미지 포맷은 이미지의 파일 형식(jpg, gif, tiff 등)을 의미할 수 있다. 캡션 후보의 길이는 이미지에 인접하는 텍스트인 캡션 후보의 길이로 결정될 수 있다.

캡션 후보의 반복 존재 여부는 캡션 후보가 이미지를 설명하기 위해 반복되는 문구(제목, 내용, 작성 일자 등)에 해당하여 문서에 자주 등장하는 지 여부로 결정될 수 있다.

그리고, 폰트 태그 사용 여부는 캡션 후보인 텍스트의 글꼴, 크기, 굵기 등의 효과가 적용되었는 지 여부를 의미한다. 캡션 후보 방향은 캡션 후보가 이미지의 어느 방향에 위치하는 지 여부를 의미한다. 이미지 폭 대비 캡션 후보의 폭은 이미지의 폭과 캡션 후보의 폭 간의 비율로 결정될 수 있다.

앵커 태그의 사용 여부는 캡션 후보가 특정 링크로 연결하는 하이퍼링크가 적용되었는 지 여부를 결정된다. 캡션 키워드 존재 여부는 이미지를 설명하는 의미가 포함된 키워드(예를 들면, 모습, 장면, 사진 등)가 캡션 후보에 존재하는 지 여부로 결정된다. 그리고, 종결 부호 존재 여부는 캡션 후보의 끝에 마침표 등의 종결 부호가 존재하는 지 여부로 결정된다.

도 6은 본 발명의 일실시예에 따라 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 설명하기 위한 도면이다. 도 6을 참고하면, 이미지 캡션을 선택하는 예제(601, 602)가 도시되어 있다.

일례로, 상기 확률 기반의 분류 모델은 학습 자료를 통해 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 학습될 수 있다. 일례로, 이미지 캡션 선택부(303)는 하기 수학식 1에 따라 이미지-캡션 후보 쌍이 정답 쌍이 될 확률값을 계산할 수 있다.

이미지 캡션 선택부(303)는 추출된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택할 수 있다. 일례로, 이미지 캡션 선택부(303)는 하기 수학식 2에 따라 이미지 캡션을 선택할 수 있다.

여기서,

는 이미지에 대한 이미지 캡션을 의미하고,

는 이미지-캡션 후보 쌍을 의미한다. 그리고,

는 하나의 캡션 후보를 의미하고,

는 캡션 후보의 집합을 의미할 수 있다.

는 이미지-캡션 후보 쌍이 정답 쌍이 될 확률을 의미한다.

도 6을 참고하면, 임계값(

)이 80%이라고 가정할 수 있다. 예제(601)에서, 이미지 1에 대한 캡션 후보가 캡션 후보 1, 캡션 후보 2가 존재할 때, 이미지 1-캡션 후보 1 쌍이 정답 쌍이 될 확률값은 90%이고, 이미지1-캡션 후보 2 쌍이 정답 쌍이 될 확률값은 95%이다. 상기 수학식 2를 적용하면, 선택되는 이미지 캡션은 캡션 후보 2이다.

예제(602)에서, 이미지 2에 대한 캡션 후보가 캡션 후보 3, 캡션 후보 4가 존재할 때, 이미지2-캡션 후보 3 쌍이 정답 쌍이 될 확률값은 40%이고, 이미지2-캡션 후보 4 쌍이 정답 쌍이 될 확률값은 75%이다. 예제(602)의 경우, 이미지2-캡션 후보 4 쌍이 정답 쌍이 될 확률값이 가장 크지만, 임계값 이상인 확률값이 존재하지 않으므로, 예제(602)에서 선택되는 이미지 캡션은 없다고 할 수 있다.

다만, 본 발명은 상기 언급한 예에 한정되지 않고, 다양한 방법이 적용될 수 있다.

도 7은 본 발명의 일실시예에 따른 캡션 후보 추출 방법의 전체 구성을 도시한 플로우차트이다.

본 발명의 일실시예에 따른 캡션 후보 추출 방법은 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출할 수 있다(S701). 이 때, 텍스트 정보는 문서에 포함된 텍스트의 길이, 폭, 폰트 등의 텍스트 형태를 의미할 수 있다. 그리고, 구조적 정보는 문서의 구성 요소의 위치를 의미할 수 있다.

이 때, 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계(S701)는 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출할 수 있다. 일례로, 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계(S701)는 하이퍼텍스트 마크 업 언어(HTML) 인터페이스에 따 른 파서(parser)를 이용하여 HTML로 구성된 상기 문서를 파싱 할 수 있다.

본 발명의 일실시예에 따른 캡션 후보 추출 방법은 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행할 수 있다(S702).

이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 단계(S702)는 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지 결정하기 위한 이미지 필터링을 수행할 수 있다. 이 때, 이미지들의 속성에 따른 필터는 이미지의 크기에 따른 필터, 이미지의 가로세로 비율에 따른 필터, 이미지의 파일명에 따른 필터 및 문서 내 이미지의 중복 배치에 따른 필터를 포함할 수 있다.

본 발명의 일실시예에 따른 캡션 후보 추출 방법은 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정할 수 있다(S703).

이 때, 캡션 후보는 문서에 포함된 텍스트 중 이미지 캡션이 될 수 있는 이미지와 인접한 단위 텍스트들일 수 있다. 일례로, 캡션 후보를 결정하는 단계(S703)는 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍 스트를 대상으로 캡션 후보를 결정할 수 있다.

그리고, 캡션 후보를 결정하는 단계(S703)는 문서의 태그를 이용하여 상기 단위 텍스트를 추출하고, 상기 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정할 수 있다.

예를 들면, 캡션 후보를 결정하는 단계(S703)는 문서 내에 단락 또는 테이블에 대한 태그를 이용하여 단위 텍스트를 추출할 수 있다. 다만, 상기 태그의 하위 노드에 대응하는 단락 또는 테이블에 대한 태그는 배제될 수 있다.

그리고, 캡션 후보를 결정하는 단계(S703)는 추출된 단위 텍스트가 미리 설정한 텍스트의 길이에 해당하는 지 여부 및 미리 설정한 이미지와의 거리(예를 들면, 이미지의 폭과 높이의 평균값의 2배 이하 등)에 포함되는 지 여부를 고려하여 캡션 후보를 결정할 수 있다.

이미지 캡션 추출 대상인 이미지에 대해 캡션 후보를 결정하는 경우, 문서에 포함된 텍스트 중 미리 설정한 캡션 후보 결정 기준(단위 텍스트의 길이 및 이미지와의 거리)을 만족하는 텍스트가 존재하지 않는 경우, 상기 이미지에 대해 캡션 후보가 결정되지 않을 수 있다.

결국, 캡션 후보 결정 방법을 통해 문서에 포함된 텍스트로부터 이미지에 대한 캡션 후보를 결정함으로써, 이미지-캡션 후보 쌍이 생성될 수 있다.

도 8은 본 발명의 일실시예에 따른 이미지 캡션 추출 방법의 전체 구성을 도시한 플로우차트이다.

본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 문서의 텍스트 정보 및 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성할 수 있다(S801). 즉, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 문서의 이미지에 대해 캡션 후보를 결정하고, 결정된 캡션 후보에 따라 이미지 별로 이미지-캡션 후보 쌍을 생성할 수 있다.

일례로, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계를 포함할 수 있다. 이 때, 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계는 상기 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출할 수 있다.

일례로, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하는 이미지 필터링을 수행하는 단계를 포함할 수 있다. 일례로, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지를 결정하는 이미지 필터링을 수행할 수 있다. 이미지들의 속성에 따른 필터는 도 2의 설명을 참고할 수 있다.

일례로, 이미지-캡션 후보 쌍을 생성하는 단계(S801)는 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 단계를 포함할 수 있다. 상기 캡션 후보를 결정하는 단계는 상기 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정할 수 있다. 캡션 후보를 결정하는 구체적인 예는 도 2를 참고할 수 있다.

본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 생성된 이미지-캡션 후보 쌍 각각에 대한 피처를 추출할 수 있다(S802). 여기서, 피처는 이미지의 속성, 캡션 후보의 속성 및 이미지와 캡션 후보와의 관계에 따른 속성일 수 있다.

일례로, 피처를 추출하는 단계(S802)는 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함하는 피처를 추출할 수 있다. 상기 언급한 피처는 일례에 불과하고, 시스템의 구성에 따라 변경될 수 있다. 상기 언급한 피처 각각에 대해서는 도 6을 참고할 수 있다.

본 발명의 일실시예에 따른 이미지 캡션 추출 방법은 추출된 피처에 따른 확률을 이용하여 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택할 수 있다(S803).

이미지 캡션을 선택하는 단계(S803)는 사전 학습된 확률 기반의 분류 모델에 따라 상기 추출된 피처를 이용하여 상기 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산할 수 있다.

이 때, 사전 학습된 확률 기반의 분류 모델은 주어진 학습 자료(training data)를 통해 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 학습하는 것을 의미한다. 이 때, 확률 기반의 분류 모델은 캡션 후보가 이미지 캡션이 될 확률을 이미지-캡션 후보 쌍에 대한 피처 각각에 따른 확률을 통해 결정되는 것 으로, 학습 자료를 통해 사전 학습될 수 있다.

이 때, 이미지 캡션을 선택하는 단계(S803)는 추출된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택할 수 있다. 따라서, 이미지-캡션 후보 쌍에 대해 계산된 확률값 전부가 미리 설정한 임계값 이상이 아닌 경우, 상기 이미지에 대한 이미지 캡션은 선택되지 않을 수 있다.

도 7 및 도 8에서 설명되지 않은 부분은 도 1 내지 도 6에서 설명된 내용을 참고할 수 있다.

또한 본 발명의 일실시예에 따른 캡션 후보 추출 방법 및 이미지 캡션 추출 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨 터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

도 6은 본 발명의 일실시예에 따라 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 과정을 설명하기 위한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

100: WEB

101-1~101-n: 웹 브라우저

102-1~102-n: HTML 웹 문서

103: 이미지 캡션 추출 시스템

104: 이미지 캡션 리스트

Claims

문서에 포함된 텍스트 형태를 나타내는 텍스트 정보 및 문서 구성 요소의 위치 값을 나타내는 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 이미지-캡션 후보 쌍 생성부;

상기 생성된 이미지-캡션 후보 쌍 각각에 대해 이미지의 속성, 캡션 후보의 속성 또는 이미지와 캡션 후보와의 관계에 따른 속성 중 적어도 하나인 피처(feature)를 추출하는 피처 추출부; 및

상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 이미지 캡션 선택부

를 포함하는 이미지 캡션 추출 시스템.
제1항에 있어서,

상기 이미지-캡션 후보 쌍 생성부는,

문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 문서 파싱부;

상기 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 이미지 필터링부; 및

상기 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 캡션 후보 결정부

를 포함하는 이미지 캡션 추출 시스템.
제2항에 있어서,

상기 문서 파싱부는,

상기 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
제2항에 있어서,

상기 문서 파싱부는,

파서(parser)를 이용하여 상기 문서를 파싱 하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
제2항에 있어서,

상기 이미지 필터링부는,

상기 이미지들의 속성에 따른 필터를 이용하여 이미지 캡션 추출 대상인 이미지를 결정하기 위한 이미지 필터링을 수행하는 것을 특징으로 하는 이미지 캡션추출 시스템.
제5항에 있어서,

상기 이미지들의 속성에 따른 필터는,

이미지의 크기에 따른 필터, 이미지의 가로세로 비율에 따른 필터, 이미지의 파일명에 따른 필터 및 문서 내 이미지의 중복 배치에 따른 필터를 포함하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
제2항에 있어서,

상기 캡션 후보 결정부는,

상기 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
제2항에 있어서,

상기 캡션 후보는,

상기 문서에 포함된 텍스트 중 상기 이미지 캡션 추출 대상인 이미지와 인접한 단위 텍스트들인 것을 특징으로 하는 이미지 캡션 추출 시스템.
제7항에 있어서,

상기 캡션 후보 결정부는,

상기 문서의 태그를 이용하여 상기 단위 텍스트를 추출하고, 상기 단위 텍스트 중 텍스트의 길이 및 이미지와의 거리를 이용하여 캡션 후보를 결정하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
제1항에 있어서,

상기 피처 추출부는,

상기 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함하는 피처를 추출하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
제1항에 있어서,

상기 이미지 캡션 선택부는,

사전 학습된 확률 기반의 분류 모델에 따라 상기 추출된 피처를 이용하여 상기 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
제11항에 있어서,

상기 이미지 캡션 선택부는,

상기 생성된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택하는 것을 특징으로 하는 이미지 캡션 추출 시스템.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
문서에 포함된 텍스트 형태를 나타내는 텍스트 정보 및 문서 구성 요소의 위치 값을 나타내는 구조적 정보를 이용하여 상기 문서에 포함된 이미지들 각각에 대한 이미지-캡션 후보 쌍을 생성하는 단계;

상기 생성된 이미지-캡션 후보 쌍 각각에 대해 이미지의 속성, 캡션 후보의 속성 또는 이미지와 캡션 후보와의 관계에 따른 속성 중 적어도 하나인 피처(feature)를 추출하는 단계; 및

상기 추출된 피처에 따른 확률을 이용하여 상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 단계

를 포함하는 이미지 캡션 추출 방법.
제21항에 있어서,

상기 이미지-캡션 후보 쌍을 생성하는 단계는,

문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계;

상기 문서에 포함된 이미지들 중 이미지 캡션 추출 대상인 이미지를 결정하 기 위한 이미지 필터링을 수행하는 단계; 및

상기 문서에 포함된 텍스트로부터 상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 단계

를 포함하는 이미지 캡션 추출 방법.
제22항에 있어서,

상기 문서를 파싱하여 상기 문서의 텍스트 정보 및 구조적 정보를 추출하는 단계는,

상기 문서를 파싱하여 브라우저 상에서 문서 구성 요소의 실제 위치 값을 추출하는 것을 특징으로 하는 이미지 캡션 추출 방법.
제22항에 있어서,

상기 이미지 캡션 추출 대상인 이미지에 대한 캡션 후보를 결정하는 단계는,

상기 이미지 캡션 추출 대상인 이미지에 대해 각 방향 별로 인접한 단위 텍스트를 대상으로 캡션 후보를 결정하는 것을 특징으로 하는 이미지 캡션 추출 방법.
제21항에 있어서,

상기 생성된 이미지-캡션 후보 쌍 각각에 대한 피처(feature)를 추출하는 단계는,

상기 이미지-캡션 후보 쌍에 대해 이미지 크기, 이미지 가로세로 비율, 이미지 포맷, 캡션 후보의 길이, 캡션 후보의 반복 존재 여부, 폰트 태그 사용 여부, 이미지와 캡션 후보와의 거리, 캡션 후보 방향, 이미지 폭 대비 캡션 후보의 폭, 앵커 태그의 사용 여부, 캡션 키워드 존재 여부 또는 종결 부호 존재 여부를 포함하는 피처를 추출하는 것을 특징으로 하는 이미지 캡션 추출 방법.
제21항에 있어서,

상기 생성된 이미지-캡션 후보 쌍으로부터 이미지 캡션을 선택하는 단계는,

사전 학습된 확률 기반의 분류 모델에 따라 상기 추출된 피처를 이용하여 상기 생성된 이미지-캡션 후보 쌍이 정답 쌍이 될 확률 값을 계산하는 것을 특징으로 하는 이미지 캡션 추출 방법.
제26항에 있어서,

상기 이미지 캡션을 선택하는 단계는,

상기 추출된 이미지-캡션 후보 쌍들 중 상기 계산된 확률값이 미리 설정한 임계값 이상인 것을 대상으로 확률값이 가장 큰 이미지-캡션 후보 쌍을 선정하여 이미지 캡션을 선택하는 것을 특징으로 하는 이미지 캡션 추출 방법.
제21항 내지 제27항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.