KR100754157B1 - 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법 - Google Patents

멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법 Download PDF

Info

Publication number
KR100754157B1
KR100754157B1 KR1020000054868A KR20000054868A KR100754157B1 KR 100754157 B1 KR100754157 B1 KR 100754157B1 KR 1020000054868 A KR1020000054868 A KR 1020000054868A KR 20000054868 A KR20000054868 A KR 20000054868A KR 100754157 B1 KR100754157 B1 KR 100754157B1
Authority
KR
South Korea
Prior art keywords
database
multimedia content
image
images
search
Prior art date
Application number
KR1020000054868A
Other languages
English (en)
Other versions
KR20010110055A (ko
Inventor
신현두
최양림
바리스수멩겐
비.에스.만주나스
Original Assignee
삼성전자주식회사
더 리전트 오브 더 유니버시티 오브 캘리포니아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 더 리전트 오브 더 유니버시티 오브 캘리포니아 filed Critical 삼성전자주식회사
Priority to CNB011112719A priority Critical patent/CN1196071C/zh
Priority to JP2001093678A priority patent/JP2001344261A/ja
Priority to EP01302934A priority patent/EP1162553A3/en
Priority to EP02019632A priority patent/EP1267280A3/en
Priority to US09/822,832 priority patent/US20020087577A1/en
Publication of KR20010110055A publication Critical patent/KR20010110055A/ko
Priority to US10/419,803 priority patent/US20030195901A1/en
Application granted granted Critical
Publication of KR100754157B1 publication Critical patent/KR100754157B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Abstract

멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법이 개시된다. 본 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법은 (a) 통신망을 통하여 멀티미디어 콘텐츠를 제공하는 임의의 사이트에 접속하는 단계와, (b) 상기 사이트를 스파이더링함으로써 멀티미디어 콘텐츠 데이터를 불러들이는 단계, 및 (c) 불러들인 멀티미디어 콘텐츠 데이터가 저장된 주소를 기초로 상기 멀티미디어 콘텐츠 데이터를 분류하여 소정의 데이터베이스에 저장하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법은 멀티미디어 콘텐츠들을 해당 사이트들의 카테고리 정보들을 사용하여 의의론적으로 잘 분류하여 해당 데이터베이스에 저장한다. 상술한 본 발명의 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 의하여 구축된 데이터베이스내에는 웹상에서 분산적으로 존재하는 멀티미디어 콘텐츠들이 잘 응집되어 있고, 상기 멀티미디어 콘텐츠들은 카테고리 정보 또는 유니버설 리소스 로케이터(URL: universal resource locator) 정보를 사용하여 의의론적으로 잘 분류되어 있기 때문에 다양한 멀티미디어 콘텐츠 검색 방법을 사용하여 원하는 멀티미디어 콘텐츠를 빠르고 효율적으로 검색하는 것이 가능하다.

Description

멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법{Database building method for multimedia contents}
도 1은 본 발명의 일실시예에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치의 구조를 도시한 블록도이다.
도 2는 도 1의 장치내에서 수행되는 본 발명의 일 실시예에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법의 주요 단계들을 나타낸 흐름도이다.
도 3은 도 1의 장치내에서 수행되는 본 발명의 타 실시예에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법의 주요 단계들을 나타낸 흐름도이다.
도 4는 본 발명의 실시예에 따른 멀티미디어 콘텐츠 검색 장치의 구조를 도시한 블록도이다.
도 5는 도 4의 멀티미디어 콘텐츠 검색 장치내에서 수행되는 본 발명의 실시예에 따른 멀티미디어 콘텐츠 검색 방법의 주요 단계들을 나타낸 흐름도이다.
본 발명은 멀티미디어 데이터의 분류에 관한 것으로, 더 상세하게는 멀티미디어 콘텐츠를 의의론적(simantically)으로 분류하여 소정의 데이터베이스에 저장 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 관한 것이다.
월드와이드웹상에서 수많은 멀티미디어 콘텐츠들이 공유되고 있으나 현재까지는 이러한 웹상에서 텍스트 검색이 위주로 이루어지고 있다. 하지만, 아직까지는 영상, 음성(audio) 데이터, 및 음성을 포함한 동영상(motion video) 데이터들을 위한 빠르고 효율적인 검색 방법이 미비하다.
최근에는, 멀티미디어 데이터들의 양이 증가함에 따라 멀티미디어 데이터들에 대하여 데이터베이스를 구축하고, 구축된 데이터베이스를 사용하여 사용자에게 검색 서비스를 제공할 수 있는 방안이 요구된다.
본 발명이 이루고자 하는 기술적 과제는 월드와이드웹이나 다른 통신망들에서 분산적으로 존재하는 멀티미디어 콘텐츠를 효율적으로 응집하여 하나의 데이터베이스내에 저장함으로써 멀티미디어 콘텐츠의 빠른 검색이 가능하도록 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법을 제공하는 것이다.
본 발명이 이루고자 하는 다른 기술적 과제는 상기 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법을 수행하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치를 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 상기 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 의하여 구축된 데이터베이스상에서 멀티미디어 콘텐츠를 빠르게 검색할 수 있는 멀티미디어 콘텐츠를 위한 검색 방법을 제공하는 것이다.
본 발명이 이루고자 하는 또 다른 기술적 과제는 상기 멀티미디어 콘텐츠를 위한 검색 방법을 수행하는 멀티미디어 콘텐츠를 위한 검색 장치를 제공하는 것이다.
상기 과제를 이루기 위하여 본 발명의 일 측면에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법은, (a) 통신망을 통하여 멀티미디어 콘텐츠를 제공하는 임의의 사이트에 접속하는 단계; (b) 상기 사이트를 스파이더링함으로써 멀티미디어 콘텐츠 데이터를 불러들이는 단계; 및 (c) 불러들인 멀티미디어 콘텐츠 데이터가 저장된 주소를 기초로 상기 멀티미디어 콘텐츠 데이터를 분류하여 소정의 데이터베이스에 저장하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 멀티미디어 콘텐츠 데이터는 영상 데이터일 수 있다.
또한, 상기 주소는 유니버설 리소스 로케이터(URL: universal resource locator)인 것이 바람직하다.
또한, 상기 임의의 사이트는 검색 사이트 또는 포털 사이트 중에서 선택된 것이 바람직하다.
또한, 상기 (b) 단계는, (b-1) 검색어를 입력하는 단계; (b-2) 입력된 검색어에 대한 검색 결과를 포함하는 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들 또는 멀티미디어 콘텐츠의 파일명에 해당하는 텍스트들을 파싱하는 단계; 및 (b-3) 파싱된 텍스트에 해당하는 주소의 멀티미디어 콘텐츠 데이터를 불러들이는 단계;를 포함하는 것이 바람직하다.
또한, 상기 (b-3) 단계 이전에, (p-b-3-1) 로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들이 파싱되었으면 해당 서브 카테고리에 방문하는 단계;를 더 포함하는 것이 바람직하다.
또한, 상기 (b-2) 단계는, 로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들 또는 멀티미디어 콘텐츠의 파일명에 해당하는 텍스트들과 함께 그 텍스트의 특징을 대표하는 키워드를 파싱하는 것이 바람직하다.
또한, 상기 (b-3) 단계이후에, (b-4) 불러들인 영상들중에서 노이즈 영상을 필터링하는 단계;를 더 포함하는 것이 바람직하다.
또한, 상기 (b-4) 단계는, (b-4-1) 불러들인 영상의 픽셀 수가 소정의 임계값 이상인지를 식별하는 단계; 및 (b-4-2) 불러들인 영상의 픽셀 수가 소정의 임계값 이상인 것으로 식별되면 해당 영상을 인덱싱하는 단계;를 포함하는 것이 바람직하다.
또한, 상기 임계값은, 128 인 것이 바람직하다.
또한, 상기 (c) 단계는, (c-1) 불러들인 영상의 해상도를 줄이는 단계; 및 (c-2) 해상도를 줄인 영상을 상기 카테고리화된 구조를 사용하여 소정의 데이터베이스에 저장하는 단계;를 포함하는 것이 바람직하다.
대안적으로, 상기 (c) 단계는, 불러들인 멀티미디어 콘텐츠 데이터가 저장되어 있는 웹페이지의 URL을 상기 URL 정보를 사용하여 소정의 데이터베이스에 저장하는 것도 바람직하다.
대안적으로, 상기 (c) 단계는, 키워드들과 개별 영상이 링크되어 있도록 하 기 위하여 개별 영상의 정보와 함께 적어도 URL 정보 또는 키워드 정보를 소정의 데이터베이스들에 각각 저장하는 것도 바람직하다.
또한, 상기 과제를 이루기 위하여 본 발명의 다른 측면에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법은, (a) 카테고리화된 구조를 가지는 데이터베이스를 사용하여 멀티미디어 콘텐츠를 제공하는 임의의 사이트에 접속하는 단계; (b) 상기 사이트를 스파이더링함으로써 멀티미디어 콘텐츠 데이터를 불러들이는 단계; 및 (c) 불러들인 멀티미디어 콘텐츠 데이터를 상기 카테고리화된 구조를 사용하여 소정의 데이터베이스에 저장하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 다른 과제를 이루기 위하여 본 발명에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치는, 멀티미디어 콘텐츠를 제공하는 임의의 사이트에 접속하고 상기 사이트를 스파이더링함으로써 멀티미디어 콘텐츠 데이터를 불러들이는 웹 방문부(Web visitor); 및 적어도 불러들인 멀티미디어 콘텐츠 데이터가 저장된 주소 또는 상기 사이트의 데이터베이스의 카테고리화된 구조를 사용하여 불러들인 멀티미디어 콘텐츠 데이터를 분류하여 저장하는 데이터베이스;를 포함하는 것을 특징으로 한다.
또한, 상기 또 다른 과제를 이루기 위하여 본 발명에 따른 멀티미디어 콘텐츠를 위한 검색 방법은 (a) 사용자로부터 찾고자 하는 쿼리 영상에 해당하는 키워드를 수신하는 단계; 및 (b) 복수 개의 영상들과 함께 각 영상에 해당하는 키워드들이 저장되어 있는 소정의 데이터베이스내에서 키워드에 해당하는 영상을 검색하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 또 다른 과제를 이루기 위하여 본 발명에 따른 멀티미디어 콘텐츠를 위한 검색 장치는 복수 개의 영상들과 함께 각 영상에 해당하는 키워드들을 저장하는 데이터베이스; 및 사용자로부터 찾고자 하는 쿼리 데이터에 해당하는 키워드를 수신하여 상기 데이터베이스내에서 키워드에 해당하는 멀티미디어 콘텐츠 데이터를 검색하는 검색부;를 포함하는 것을 특징으로 한다.
이하 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명하기로 한다.
본 발명에 따르면, 멀티미디어 콘텐츠를 의의론적(simantically)으로 분류함으로써 검색 또는 브라우징이 효율적으로 이루어질 수 있도록 한다, 예를들어, "F-16 전투기"에 해당하는 멀티미디어 콘텐츠는 "걸프전"이라고 칭하는 카테고리내로 분류할 수 있다. 이를 위하여, 검색 사이트의 카테고리화되어 있는 구조의 장점을 사용한다. 예를들어, 야후™(Yahoo™)와 같은 검색 사이트들은 카테고리화된 구조를 가지고 있다. 예를들어, "영화"로써 카테고리화되어 있는 텍스트를 클릭하면, "에로물", "액션", 또는 "휴먼 에피소드"와 같이 카테고리화되어 있는 텍스트 형태의 영화와 관련된 보다 상세한 사이트들의 모음 정보가 제공된다. 또는, 개별 영화들에 대한 세부 사이트들의 주소가 제공될 수 있다. 이와 같은 검색 사이트 및 포털 사이트들은 분류는 매우 의의론적으로 잘 분류가 되어 있다. 따라서, 본 발명에서는 이러한 검색 사이트 및 포털 사이트의 카테고리화된 구조를 멀티미디어 콘텐츠를 위한 데이터베이스화에 사용한다.
도 1에는 본 발명의 일실시예에 따른 멀티미디어 콘텐츠를 위한 데이터베이 스 구축 장치를 블록도로써 나타내었다. 도 2에는 도 1의 장치내에서 수행되는 본 발명의 일 실시예에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법의 주요 단계들을 흐름도로써 나타내었다. 도 2는 이하에서 수시로 참조된다.
본 실시예에서는 상기 멀티미디어 콘텐츠가 영상인 것을 예로써 설명한다. 도 1을 참조하면 본 발명의 일실시예에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치(10)는 월드와이드웹(12)에 접속되고, 웹 방문부(100: Web visitor), 파서(102: Parsor), 필터링부(104), 해상도 저감부(106)를 구비한다. 또한, 상기 데이터베이스 구축 장치(10)는 영상 데이터베이스(108), 카테고리 데이터베이스(110), 키워드 데이터베이스(112), URL 데이터베이스(114), 및 제어부(120)를 구비한다.
상기와 같은 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치(10)의 동작을 설명하면, 먼저, 사용자는 임의의 검색 사이트를 선택하여 방문(단계 202)하고 방문한 검색 사이트의 홈페이지 상에서 관심있는, 즉, 데이터베이스화하고자 하는 분야에 해당하는 카테고리의 텍스트를 클릭한다(단계 204). 상기 검색 사이트의 콘텐츠 분류는 카테고리화된 구조를 가지고 있다. 웹 방문부(100: Web visitor)는 사용자의 클릭에 응답하여, 상기 텍스트에 매핑된 HTML 웹페이지 데이터를 로딩한다(단계 206). 다음으로, 파서(102: Parsor)는 로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들, 또는 멀티미디어 콘텐츠, 본 실시예에서는 영상들의 파일명에 해당하는 텍스트들, 예를들어, 확장자가 "___.JPG", "___.GIF", 또는 "___.BMP"등과 같은 텍스트들을 파싱(parsing)한다(단계 208). 다음으로, 파싱 된 텍스트가 서브 카테고리에 해당하는지를 식별(단계 210)하여, 파싱된 텍스트가 서브 카테고리에 해당하는 것으로 식별되면 해당 서브 카테고리를 방문(단계 212)하여 단계(206)를 수행한다. 반면에, 로딩된 HTML 웹페이지 데이터내에서 영상의 파일명에 해당하는 텍스트들이 파싱되었으면 파싱된 텍스트에 해당하는 파일명을 가지는 영상을 불러들인다(단계 214). 이로써, 웹 방문부(100)는 검색 사이트내의 웹페이지를 계층적으로 방문하여 영상을 불러들인다. 이러한 동작들은 자동적으로 수행되며, 웹 로보트(web robot)라고 불리우는 수단을 사용하여 구현할 수 있다. 달리 표현하면, 이러한 웹 로보트는 선택된 사이트의 URL과 상기 URL의 자식 URL을 스파이더링함으로써 선택된 URL의 관련 사이트들을 방문한다고 할 수 있다.
또한, 파서(102)는 단계(206)에서는 영상들의 파일명에 해당하는 텍스트들과 함께 그 텍스트의 특징을 대표하는 키워드도 파싱하는 것이 보다 바람직하다. 키워드는 일반적으로 명사이기 때문에 알려진 적절한 방법으로 추출하는 것이 가능하다.
한편, 불러들인 영상 중에서 웹사이트의 장식을 위한 그래픽스 등은 노이즈로써 간주하여 인덱싱에서 제외한다. 따라서, 불러들인 영상들을 필터링하여 필터링된 영상을 인덱싱한다. 본 실시예에서는 필터링부(104)는 불러들인 영상의 픽셀 수가 128 이상인지를 식별(단계 216)하며, 불러들인 영상의 픽셀 수가 128 미만인 것으로 식별되면 불러들인 영상이 썸네일(thumb nail)인 것으로 결정하여 불러들인 영상을 필터아웃시킴으로써 인덱싱하지 않는다(단계 218). 반면에, 불러들인 영상의 픽셀 수가 128 이상인 것으로 식별되면 불러들인 영상은 썸네일이 아닌 영상으 로써 결정하고, 해상도 저감부(106)는 상기 영상의 해상도를 줄인다(단계 220).
이제, 해상도를 줄인 영상을 영상 데이터베이스(108)내에 저장하고, 영상 데이터베이스(108)내에 저장된 영상의 식별 정보와 함께 방문한 웹페이지 데이터의 카테고리 정보를 카테고리 데이터베이스(110)에 저장한다(단계 222).
대안적으로, 해상도를 줄이지 않고 원본 데이터를 그대로 데이터베이스내에 저장하는 것도 가능하고, 불러들인 영상을 데이터베이스내에 저장하지 않고 상기 영상이 저장되어 있는 웹페이지의 유니버설 리소스 로케이터(URL: universal resource locator)정보를 저장하여 해당 사이트로 링크되도록 하는 것도 가능하다. 또한, 키워드들과 개별 영상이 링크되어 있도록 하기 위하여 영상 데이터베이스내에 저장된 개별 영상의 정보와 함께 상기 개별 영상에 해당하는 키워드들을 키워드 데이터베이스(112)에 저장하는 것이 보다 바람직하다.
이제, 제어부(120)는 인덱싱된 영상의 수가 1,000 이상인지를 식별(단계 224)하고, 인덱싱된 영상의 수가 1,000 미만인 것으로 식별되면, "로우" 레벨을 가지고, 인덱싱된 영상의 수가 1,000 미만인 것으로 식별되면 "하이" 레벨을 가지는 제어신호를 출력한다. 파서(102)는 "하이" 레벨을 가지는 제어신호에 응답하여 단계(208)를 수행하며, "로우" 레벨을 가지는 제어신호에 응답하여 파싱을 종료한다. 즉, 인덱싱된 영상의 수가 1,000 이상인 것으로 식별되면 사이트의 방문을 종료한다.
상기와 같은 본 발명의 일 실시예에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법은 계층적으로 방문한 카테고리들에서 멀티미디어 콘텐츠들, 예를 들어 불러들인 영상의 해상도를 줄인 썸네일 영상들 또는 원본 영상들을, 해당 사이트들의 카테고리 정보들을 사용하여 의의론적으로 잘 분류하여 해당 데이터베이스에 저장한다.
또한, 본 발명에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 따르면, 유니버설 리소스 로케이터(URL: universal resource locator)를 사용하며, 월드와이드웹 상의 사이트들의 디렉터리 구조를 고려한다. 예를들어, 구글™(Google™) 또는 알타비스타™(Altavista)™와 같은 검색 사이트들은 카테고리 정보보다는 유니버설 리소스 로케이터(URL: universal resource locator) 위주로 검색을 수행한다. 예를들어, "축구"라는 검색어를 입력하면 축구와 관련된 사이트들의 주소가 검색 결과로써 제공된다. 이와 같은 검색 사이트들을 사용하는 경우에도 해당 검색어와 의의론적으로 관계가 깊은 사이트들이 제공된다.
본 발명의 타 실시예에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 따르면, 이러한 검색 사이트의 의의론적 검색이 가능한 구조를 멀티미디어 콘텐츠의 데이터베이스화에 사용한다. 도 3에는 도 1의 장치내에서 수행되는 본 발명의 타 실시예에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법의 주요 단계들을 흐름도로써 나타내었다. 도 3을 참조하면, 본 발명의 타실시예에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 따르면, 먼저, 웹 방문부(100)는 임의의 검색 사이트를 선택하여 방문한다(단계 302). 다음으로, 사용자는 방문한 검색 사이트의 검색 메뉴 화면을 사용하여 관심있는, 즉, 데이터베이스화하고자 하는 분야에 해당하는 검색어를 입력한다(단계 304). 상기 검색어는 데이터베이스 내에 포함시키고자 하는 멀티미디어 콘텐츠의 구분자에 해당한다. 다음으로, 웹 방문부(100)는 입력된 검색어와 관련된 사이트들의 주소, 예를들어, URL 정보를 포함하는 HTML 웹페이지 데이터를 수신한다(단계 306).
다음으로, 파서(102)는 수신된 HTML 웹페이지 데이터내에서 사이트들의 주소를 파싱(단계 308)하고, 웹 방문부(100)는 파싱된 주소에 해당하는 사이트를 계층적으로 방문한다(단계 310). 다음으로, 웹 방문부(100)는 방문한 검색 사이트로부터 루트 HTML 웹페이지 데이터를 로딩한다(단계 312). 이제, 파서(102)는 로딩된 HTML 웹페이지 데이터내에서 멀티미디어 콘텐츠, 본 실시예에서는 영상의 이름들에 해당하는 텍스트들, 예를들어, 확장자가 "___.JPG", "___.GIF", 또는 "___.BMP"등과 같은 텍스트들을 파싱(parsing)한다(단계 314). 대안적으로, HTML 언어에서 사용되는 ALT 태그를 사용할 수도 있다. 이러한 영상의 이름들이나 ALT 태그들은 웹사이트 편집자(website author)에 의하여 수작업으로 제공되므로 영상의 특징, 일반적으로는 멀티미디어 콘텐츠의 특징을 비교적 잘 나타낸다.
또한, 단계(314)에서 파서(102)는 파싱된 텍스트의 특징을 대표하는 키워드도 파싱하는 것이 보다 바람직하다. 키워드는 일반적으로 명사이기 때문에 알려진 적절한 방법으로 추출하는 것이 가능하다.
다음으로, 웹 방문부(100)는 파싱된 텍스트에 해당하는 영상 데이터를 불러들인다(단계 316). 한편, 불러들인 영상 중에서 웹사이트의 장식을 위한 그래픽스 등은 노이즈로써 간주하여 인덱싱에서 제외되어야 한다. 따라서, 필터링부(104)는 불러들인 영상들을 필터링하여 노이즈 영상을 필터아웃한다. 본 실시예에서 필터링 부(104)는 불러들인 영상의 픽셀 수가 128 이상인지를 식별(단계 318)하여 불러들인 영상의 픽셀 수가 128 미만인 것으로 식별되면 불러들인 영상이 썸네일(thumb nail)인 것으로 결정하여 불러들인 영상을 필터아웃하고 인덱싱하지 않는다(단계 320). 반면에, 검색된 영상의 픽셀 수가 128 미만인 것으로 식별되면, 해상도 저감부(106)는 불러들인 영상은 썸네일이 아닌 영상으로써 결정하고, 상기 영상의 해상도를 줄인다(단계 322). 해상도를 줄인 영상을 영상 데이터베이스(108)내에 저장하고, 영상 데이터베이스(108)내에 저장된 개별 영상의 정보와 함께 방문한 웹페이지 데이터의 URL 정보를 URL 데이터베이스(114)에 저장한다(단계 324).
대안적으로, 해상도를 줄이지 않고 원본 데이터를 그대로 영상 데이터베이스(108)내에 저장하는 것도 가능하고, 불러들인 영상을 데이터베이스내에 저장하지 않고 상기 영상이 저장되어 있는 웹페이지의 URL을 저장하여 해당 사이트로 링크되도록 하는 것도 가능하다. 또한, 영상 데이터베이스(108)내에 저장된 개별 영상의 정보와 함께 상기 개별 영상에 해당하는 키워드들을 키워드 데이터베이스(112)에 저장하는 것이 보다 바람직하다.
이제, 제어부(120)는 인덱싱된 영상의 수가 소정 수 이상인지를 식별(단계 326)하고, 인덱싱된 영상의 수가 1,000 미만인 것으로 식별되면, 웹 방문부(100)는 단계(310)에 따라 방문한 검색 사이트로부터 루트 HTML 웹페이지 데이터를 로딩한다. 반면에, 인덱싱된 영상의 수가 1,000 이상인 것으로 식별되면 사이트의 방문을 종료한다.
한편, 영상의 보다 효율적인 검색을 위하여, 영상들의 텍스쳐 특징 및/또는 색 특징을 추출하여 별도의 특징 데이터베이스(미도시)에 저장하는 것도 가능하다. 이러한 특징들은 스케일 및 방향성 계수를 가지는 가버 필터들을 사용하여 추출할 수 있다. 예를들어, 3 종류의 스케일 계수와 4 종류의 방향성 계수를 가지는 가버 필터들의 조합으로 이루어진 필터를 사용하여 입력 영상의 특징 벡터를 구하면, 특징 벡터의 성분을 평균과 분산을 사용한다고 할 때, 상기 특징 벡터는,
Figure 112000019602282-pat00001
과 같이 나타낼 수 있다. 이러한 특징 벡터를 사용하여 영상들이 인덱싱된다. 특징 데이터베이스내에는 특징 벡터들과 그 특징 벡터에 해당하는 영상의 정보가 저장된다.
이와 유사하게, 색 특징을 추출하여 별도의 특징 데이터베이스에 저장하는 것이 가능하다. 원색 성분들(color primitives)을 나타내는 특징 벡터는 CIE LUV 색공간 상에서 계산된 색 분포 히스토그램으로부터 추출될 수 있다. 예를들어, 삼차원의 색공간의 각 차원이 4 레벨로 양자화된다고 하면,
Figure 112000019602282-pat00002
와 같이 64 차원의 색특징 벡터로써 나타내어질 수 있다. 특징 데이터베이스내에는 특징 벡터들과 그 특징 벡터에 해당하는 영상의 정보가 저장된다.
상기와 같은 본 발명의 타 실시예에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 따르면, 방문한 카테고리들에서 불러들인 영상의 해상도를 줄 인 썸네일 영상들 또는 원본 영상들이 해당 사이트들의 URL 정보들을 사용하여 의의론적으로 분류되어 해당 데이터베이스에 저장되어 있다. 또한, 불러들인 영상의 텍스쳐 특징 및/또는 색특징이 별도의 데이터베이스에 저장되어 있다.
상기와 같은 본 발명에 의한 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 따르면, 월드와이드웹상의 멀티미디어 콘텐츠들을 의의론적으로 분류하고 인덱싱한다. 이와 같은 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법은 텔레비젼의 뉴스 방송과 같은 멀티미디어 콘텐츠나 온라인 멀티미디어 표현을 사용한 쇼핑 아이템에 적용하는 것이 가능하다.
또한, 이상의 실시예에서는 영상에 대한 데이터베이스 구축을 예로써 설명하였으나, 음성 클립, 및 음성이 포함되어 있는 동화상 클립과 같은 다양한 멀티 미디어 콘텐츠에도 적용하는 것이 가능하다. 즉, 이상의 실시예는 첨부된 청구항들에 의하여 정의되는 본 발명의 범위를 한정하지 않는다.
상술한 본 발명의 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 의하여 구축된 데이터베이스내에는 웹상에서 분산적으로 존재하는 멀티미디어 콘텐츠들이 잘 응집되어 있고, 상기 멀티미디어 콘텐츠들은 카테고리 정보 또는 URL 정보를 사용하여 의의론적으로 잘 분류되어 있기 때문에 다양한 멀티미디어 콘텐츠 검색 방법을 사용하여 원하는 멀티미디어 콘텐츠를 효율적으로 검색하는 것이 가능하다. 특히, 본 발명에 따른 멀티미디어 콘텐츠 검색 방법을 사용하면 멀티미디어 데이터의 쿼리 데이터와 유사한 데이터를 보다 효율적으로 검색하는 것이 가능하다.
도 4에는 본 발명의 실시예에 따른 멀티미디어 콘텐츠 검색 장치의 구조를 블록도로써 나타내었다. 도 4를 참조하면, 본 발명의 실시예에 따른 멀티미디어 콘텐츠를 위한 검색 장치(40)는 인터넷에 의하여 제공되는 서비스의 일종인 월드와이드웹(42)를 통하여 영상 검색 서비스를 제공하는 서버(44)에 접속되어 있다.
멀티미디어 콘텐츠를 위한 검색 장치(40)는 키워드 검색부(402), 표시 영상 선택부(404), 영상 표시부(406), 영상 검색부(408), 및 사용자 인터페이스(410)를 구비한다. 또한, 멀티미디어 콘텐츠를 위한 검색 장치(40)는 월드와이드웹(42)과 교신하기 위한 웹서버(412)를 구비한다.
서버(44)는 도 2 및 도 3을 참조하여 설명한 멀티미디어 콘텐츠를 위한 데이터베이수 구축 방법에 따라 구축된 데이터베이스들, 즉, 영상 데이터베이스(440), 카테고리 데이터베이스(442), URL 데이터베이스(444), 및 키워드 데이터베이스(446)을 구비한다. 또한, 서버(44)는 월드와이드웹과 교신하기 위한 웹서버(448)을 구비한다.
도 5에는 도 4의 멀티미디어 콘텐츠 검색 장치내에서 수행되는 본 발명의 실시예에 따른 멀티미디어 콘텐츠 검색 방법의 주요 단계들을 흐름도로써 나타내었다. 도 5는 이하에서 수시로 참조된다. 또한, 본 실시예에서는 상기 멀티미디어 데이터가 영상인 것을 예로써 설명하며, 데이터베이스 구축이 도 2를 참조하여 설명한 본 발명의 일 실시예에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 의하여 이루어진 것을 가정하여 설명한다.
도 5를 참조하면, 먼저, 사용자로부터 찾고자 하는 쿼리 영상에 해당하는 키워드를 수신한다(단계 502). 예를들어, 사용자가 특별한 모양을 가지는 " 구두(shoe)"를 쿼리 영상으로 검색하고자 하면, 사용자는 본 발명에 따른 멀티미디어 콘텐츠 검색 방법을 수행하는 프로그램 코드들이 저장된 기록 매체를 컴퓨터에서 실행하고, 사용자의 화면에 표시되고 있는 동작 화면내의 검색 키워드란에 "구두"라는 키워드를 입력한다.
다음으로, 키워드 검색부(402)는 웹서버(412)를 통하여 서버(44)의 키워드 데이터베이스(446)내에서 입력된 키워드와 동일한 단어를 검색하고, 입력된 키워드와 동일한 단어가 검색되면, 검색된 단어에 링크되어 있는 영상을 영상 데이터베이스(440)로부터 불러들임으로써, 입력된 키워드에 해당하는 영상들을 검색(단계 504)한다.
한편, 데이터베이스내의 영상의 수는 매우 많고, 방대한 크기의 데이타베이스에서 키워드만을 사용하여 검색한 영상은 찾고자 하는 영상과 시각적으로 전혀 유사하지 않은 영상들이 많이 포함될 수 있기 때문에, 키워드만을 사용한 한 번의 검색만으로는, 원하는 영상을 찾는 것은 거으 불가능하다. 따라서, 사용자가 검색된 영상들 중에서 일부의 영상들을 육안으로 체크하여 시각적으로 유사한 영상을 선택하고, 선택된 영상의 정보를 영상 검색부(408)로 피드백하여 다시 검색할 수 있도록 하는 것이 바람직하다.
이를 위하여, 표시 영상 선택부(404)는 단계(504)에서 검색된 영상들 중에서 소정 개수의 영상을 선택하고, 영상 표시부(406)는 선택된 소정 개수의 영상들을 사용자에게 표시한다(단계 506).
다음으로, 사용자는 표시된 영상들을 육안으로 보고 시각적으로 유사하다고 결정된 하나 이상의 영상을 선택하여 자신이 찾고자 하는 영상과 시각적으로 유사하다고 판단된 영상들을 쿼리 영상으로써 결정하고, 그 정보를 제공한다. 본 실시예에서, 사용자 인터페이스(410)는 사용자의 입력에 응답하여 사용자가 찾고자 하는 구두 모양의 영상을 복수 개 선택하고 선택 정보를 제공한다. 이로써, 영상 검색부(408)는 사용자로부터 그가 찾고자 하는 영상과 시각적으로 유사하다고 결정된 후보 쿼리 영상들에 대한 정보를 접수한다(단계 508).
다음으로, 영상 검색부(408)는 쿼리 영상과 시각적으로 유사하다고 결정된 후보 쿼리 영상들의 색 특징, 텍스쳐 특징, 및 모양 중에서 적어도 하나의 특징이 유사한 영상을 영상 데이터베이스내에서 검색(단계 510)한다.
두 영상, 즉, 쿼리 영상과 검색 영상이 시각적으로 유사한지를 결정하기 위해서, 두 영상의 특징 벡터의 차이를 계산함으로써 유사도(similarity)를 구할 수 있다. 본 실시예에서는 영상들의 특징 벡터들이 특징 데이터베이스(미도시)내에 저장되어 있다고 가정한다. 두 영상
Figure 112000019602282-pat00003
Figure 112000019602282-pat00004
사이의 텍스쳐 특징의 차이는,
Figure 112000019602282-pat00005
는 텍스쳐 벡터의 길이라 할 때,
Figure 112000019602282-pat00006
과 같이 구할 수 있다. 또한,
Figure 112000019602282-pat00007
는 색 벡터의 길이라 할 때, 두 영상
Figure 112000019602282-pat00008
Figure 112000019602282-pat00009
사이의 색 특징의 차이는, 두 특징 벡터의 유클리드 차(Euclidean distance)를 계산함으로써,
Figure 112000019602282-pat00010
과 같이 구할 수 있다. 주어진 쿼리 영상의 특징벡터와 가장 차이가 적은 특징 벡터를 가지는 영상을 검색 영상으로써 결정한다.
검색 대상 영상이 원본 영상인 경우에는 검색된 영상을 그대로 사용자에게 제공한다. 반면에, 검색 대상 영상이 썸네일 영상인 경우에는 검색된 영상, 즉, 썸네일 영상의 원본 영상에 대응되는 URL을 사용하여 인터넷을 통하여 해당 URL을 가지는 사이트에 접속하여 원본 영상을 불러들임으로써 원본 영상을 사용자에게 제공한다. 이 경우, 상기 URL 정보는 영상 데이터베이스(422)내에 썸네일 영상과 함께 저장되어 있는 것이 가능하다.
콘텐츠 기반의 검색에서, 사용자는 관련되는 쿼리 영상(relevant query images)의 집합
Figure 112000019602282-pat00011
을 선택한다. 텍스쳐 및 색 특징의 상대적인 가중치(weightings)는 색공간 내에서 영상들의 이러한 집합이 어느 정도로 "타이트하게 응집되어 있는지"에 의하여 결정된다. 즉, 가중치를 구하기 위하여,
Figure 112000019602282-pat00012
은 쿼리 집합내의 영상들의 수라고 할 때,
Figure 112000019602282-pat00013
Figure 112000019602282-pat00014
을 계산한다. 다음으로, 가중치는,
Figure 112000019602282-pat00015
은 어느 하나의 특징이 지나치게 두드러지는 것을 방지하기 위한 소정의 작은 값이라고 할 때,
Figure 112000019602282-pat00016
Figure 112000019602282-pat00017
과 같이 구할 수 있다. 이제, N을 소정의 양의 수라 할 때, N 개의 최근접자(nearest neighbors)는,
Figure 112000019602282-pat00018
를 계산함으로써 구할 수 있다.
통상적으로, 쿼리는 텍스쳐 특징 벡터와 색 특징 벡터의 단일 쌍(single pair)으로 규정되기(specified) 때문에, 본 실시예에서는 복수 개의 쿼리 영상이 선택된 경우에는 텍스쳐 특징 벡터와 색 특징 벡터의 평균을 사용하기로 한다. 즉,
Figure 112000019602282-pat00019
Figure 112000019602282-pat00020
과 같이 계산한다. 콘텐츠 기반의 검색을 일반화하면, 특징 벡터
Figure 112000019602282-pat00021
Figure 112000019602282-pat00022
을 사용하는 단일 쿼리 영상의 경우, 첫 번째로,
Figure 112000019602282-pat00023
는 1,...,
Figure 112000019602282-pat00024
이고,
Figure 112000019602282-pat00025
인 경우에는,
Figure 112000019602282-pat00026
Figure 112000019602282-pat00027
인 경우에는,
Figure 112000019602282-pat00028
라 할 때,
Figure 112000019602282-pat00029
과 같이 나타낼 수 있고, 두 번째로,
Figure 112000019602282-pat00030
는 1,...,
Figure 112000019602282-pat00031
이고,
Figure 112000019602282-pat00032
인 경우에는,
Figure 112000019602282-pat00033
Figure 112000019602282-pat00034
인 경우에는,
Figure 112000019602282-pat00035
라 할 때,
Figure 112000019602282-pat00036
과 같이 나타낼 수 있다.
또한, 평균
Figure 112000019602282-pat00037
Figure 112000019602282-pat00038
을 가지는 복수 개의 쿼리 영상들인 경우에는
Figure 112000019602282-pat00039
이라 하고,
Figure 112000019602282-pat00040
인 경우에는,
Figure 112000019602282-pat00041
Figure 112000019602282-pat00042
인 경우에는,
Figure 112000019602282-pat00043
라 할 때, 하나의 결과 집합,
Figure 112000019602282-pat00044
과 같이 나타낼 수 있다.
다음으로, 표시 영상 선택부(404)는 색 특징, 텍스쳐 특징, 및 모양 중에서 적어도 하나의 특징이 유사한 영상들로서 검색된 영상들 중에서 소정 개수의 영상 을 다시 선택하고, 영상 표시부(406)는 선택된 소정 개수의 영상을 사용자에게 표시한다(단계 512). 여기서, 검색의 범위는 쿼리 영상의 카테고리 및 그 주변 카테고리내로 한정되는 것이 검색 속도를 위하여 보다 바람직하다.
또한, 데이터 베이스 구축이 도 4를 참조하여 설명한 본 발명의 제2 실시예에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축법에 따라 이루어진 경우에는 검색의 범위는 쿼리 영상의 URL 및 주변 URL내로 한정되는 것이 바람직하다. 검색 대상 영상은 원본 영상 또는 원본 영상의 해상도를 줄인 썸네일 영상일 수 있다. 검색 대상 영상이 원본 영상인 경우에는 보다 정확하게 검색할 수 있으나 데이터량 및 시스템의 성능에 따라 검색 시간이 오래 걸릴 수 있고, 썸네일 영상인 경우에는 정확도는 떨어지지만 검색시간을 줄일 수 있으므로 목적에 따라 적절히 데이터베이스를 운용하는 것이 필요하다.
이제, 사용자 인터페이스(410)는 사용자의 입력에 응답하여 사용자가 표시된 영상들을 육안으로 보고 자신이 찾고자 하는 영상과 시각적으로 유사하다고 결정된 하나 이상의 영상을 선택하여 쿼리 영상과 시각적으로 유사하다고 결정된 영상들에 대한 정보를 다시 제공한다. 이로써, 영상 검색부(408)는 사용자로부터 쿼리 영상과 시각적으로 유사하다고 결정된 영상들에 대한 정보를 다시 접수한다. 다시 접수된 영상들은 후보 쿼리 영상으로써 간주된다. 다음으로, 영상 검색부(408)는 쿼리 영상과 시각적으로 유사하다고 결정된 영상들의 색 특징, 텍스쳐 특징, 및 모양 중에서 적어도 하나의 특징이 유사한 영상을 영상 데이터베이스(422)내에서 다시 검색한다. 즉, 원하는 영상이 검색되었는지를 판별(단계 514)하여, 원하는 영상이 검 색되지 않았으면 단계(508) 내지 단계(512)를 반복하여 수행한다. 여기서, 검색의 범위는 쿼리 영상의 카테고리 및 그 주변 카테고리내로 한정되는 것이 검색 속도를 위하여 보다 바람직하다.
상기와 같은 멀티미디어 콘텐츠 검색 방법은 멀티미디어 콘텐츠들이 응집적으로 저장되어 있는 데이터베이스내에서 원하는 영상을 빠르게 검색하는 것이 가능하다.
또한, 상기와 같은 본 발명에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법 및 검색 방법은 개인용 또는 서버급의 컴퓨터내에서 실행되는 프로그램으로 작성 가능하다. 상기 프로그램을 구성하는 프로그램 코드들 및 코드 세그멘트들은 당해 분야의 컴퓨터 프로그래머들에 의하여 용이하게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터 독취 가능 기록 매체에 저장될 수 있다. 상기 기록 매체는 자기기록매체, 광기록 매체, 및 전파 매체를 포함한다.
상술한 바와 같이 본 발명에 따른 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법은 멀티미디어 콘텐츠들을 해당 사이트들의 카테고리 정보들을 사용하여 의의론적으로 잘 분류하여 해당 데이터베이스에 저장한다. 상술한 본 발명의 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법에 의하여 구축된 데이터베이스내에는 웹상에서 분산적으로 존재하는 멀티미디어 콘텐츠들이 잘 응집되어 있고, 상기 멀티미디어 콘텐츠들은 카테고리 정보 또는 URL 정보를 사용하여 의의론적으로 잘 분류되어 있기 때문에 다양한 멀티미디어 콘텐츠 검색 방법을 사용하여 원하는 멀 티미디어 콘텐츠를 빠르고 효율적으로 검색하는 것이 가능하다.

Claims (53)

  1. (a) 통신망을 통하여 멀티미디어 콘텐츠를 제공하는 검색 사이트에 접속하는 단계;
    (b) 상기 사이트를 스파이더링함으로써 멀티미디어 콘텐츠 데이터를 불러들이는 단계; 및
    (c) 불러들인 멀티미디어 콘텐츠 데이터가 저장된 주소를 기초로 상기 멀티미디어 콘텐츠 데이터를 분류하여 소정의 데이터베이스에 저장하는 단계;를 포함하며,
    상기 (b) 단계는,
    (b-1) 검색어를 입력하는 단계;
    (b-2) 입력된 검색어에 대한 검색 결과를 포함하는 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들 또는 멀티미디어 콘텐츠의 파일명에 해당하는 텍스트들을 파싱하는 단계; 및
    (b-3) 파싱된 텍스트에 해당하는 주소의 멀티미디어 콘텐츠 데이터를 불러들이는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  2. 제1항에 있어서, 상기 멀티미디어 콘텐츠 데이터는 영상 데이터인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  3. 제1항에 있어서, 상기 주소는,
    유니버설 리소스 로케이터(URL: universal resource locator)인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서, 상기 (b-3) 단계 이전에,
    (p-b-3-1) 로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들이 파싱되었으면 해당 서브 카테고리에 방문하는 단계;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  7. 제1항에 있어서, 상기 (b-2) 단계는,
    로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들 또는 멀티미디어 콘텐츠의 파일명에 해당하는 텍스트들과 함께 그 텍스트의 특징을 대표하는 키워드를 파싱하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  8. 제1항에 있어서, 상기 멀티미디어 콘텐츠 데이터는 영상 데이터인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  9. 제8항에 있어서, 상기 (b-3) 단계이후에,
    (b-4) 불러들인 영상들중에서 노이즈 영상을 필터링하는 단계;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  10. 제9항에 있어서, 상기 (b-4) 단계는,
    (b-4-1) 불러들인 영상의 픽셀 수가 소정의 임계값 이상인지를 식별하는 단계; 및
    (b-4-2) 불러들인 영상의 픽셀 수가 소정의 임계값 이상인 것으로 식별되면 해당 영상을 인덱싱하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  11. 제10항에 있어서, 상기 임계값은,
    128 인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  12. 제1항에 있어서, 상기 (c) 단계는,
    (c-1) 불러들인 영상의 해상도를 줄이는 단계; 및
    (c-2) 해상도를 줄인 영상을 상기 카테고리화된 구조를 사용하여 소정의 데이터베이스에 저장하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  13. 제3항에 있어서, 상기 (c) 단계는,
    불러들인 멀티미디어 콘텐츠 데이터가 저장되어 있는 웹페이지의 URL을 상기 URL 정보를 사용하여 소정의 데이터베이스에 저장하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  14. 제7항에 있어서, 상기 (c) 단계는,
    키워드들과 개별 영상이 링크되어 있도록 하기 위하여 개별 영상의 정보와 함께 적어도 URL 정보 또는 키워드 정보를 소정의 데이터베이스들에 각각 저장하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  15. (a) 카테고리화된 구조를 가지는 데이터베이스를 사용하여 멀티미디어 콘텐츠를 제공하는 검색 사이트에 접속하는 단계;
    (b) 상기 사이트를 스파이더링함으로써 멀티미디어 콘텐츠 데이터를 불러들이는 단계; 및
    (c) 불러들인 멀티미디어 콘텐츠 데이터를 상기 카테고리화된 구조를 사용하여 소정의 데이터베이스에 저장하는 단계;를 포함하며,
    상기 (b) 단계는,
    (b-1) 방문한 사이트로부터 루트 HTML 웹페이지 데이터를 로딩하는 단계;
    (b-2) 로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들 또는 멀티미디어 콘텐츠의 파일명에 해당하는 텍스트들을 파싱하는 단계; 및
    (b-3) 파싱된 텍스트에 해당하는 주소멀티미디어 콘텐츠 데이터를 불러들이는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  16. 제15항에 있어서, 상기 멀티미디어 콘텐츠 데이터는 영상 데이터인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  17. 삭제
  18. 제15항에 있어서, 상기 (b-3) 단계 이전에,
    (p-b-3-1) 로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들이 파싱되었으면 해당 서브 카테고리에 방문하는 단계;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  19. 제15항에 있어서, 상기 (b-2) 단계는,
    로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들 또는 멀티미디어 콘텐츠으 파일명에 해당하는 텍스트들과 함께 그 텍스트의 특징을 대표하는 키워드를 파싱하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  20. 제15항에 있어서, 상기 멀티미디어 콘텐츠 데이터는 영상 데이터인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  21. 제20항에 있어서, 상기 (b-3) 단계이후에,
    (b-4) 불러들인 영상들중에서 노이즈 영상을 필터링하는 단계;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  22. 제21항에 있어서, 상기 (b-4) 단계는,
    (b-4-1) 불러들인 영상의 픽셀 수가 소정의 임계값 이상인지를 식별하는 단계; 및
    (b-4-2) 불러들인 영상의 픽셀 수가 소정의 임계값 이상인 것으로 식별되면 해당 영상을 인덱싱하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  23. 제22항에 있어서, 상기 임계값은,
    128 인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  24. 제15항에 있어서, 상기 (c) 단계는,
    (c-1) 불러들인 영상의 해상도를 줄이는 단계; 및
    (c-2) 해상도를 줄인 영상을 상기 카테고리화된 구조를 사용하여 소정의 데이터베이스에 저장하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  25. 제15항에 있어서, 상기 (c) 단계는,
    불러들인 멀티미디어 콘텐츠 데이터가 저장되어 있는 웹페이지의 URL을 상기 카테고리화된 구조를 사용하여 소정의 데이터베이스에 저장하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  26. 제15항에 있어서, 상기 (c) 단계는,
    개별 영상의 정보와 함께 적어도 카테고리 정보 또는 키워드 정보를 소정의 데이터베이스들에 각각 저장하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법.
  27. 멀티미디어 콘텐츠를 제공하는 검색 사이트에 접속하고 상기 사이트를 스파이더링함으로써 멀티미디어 콘텐츠 데이터를 불러들이는 웹 방문부(Web visitor);
    적어도 불러들인 멀티미디어 콘텐츠 데이터가 저장된 주소 또는 상기 사이트의 데이터베이스의 카테고리화된 구조를 사용하여 불러들인 멀티미디어 콘텐츠 데이터를 분류하여 저장하는 데이터베이스; 및
    로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들 또는 멀티미디어 콘텐츠들의 파일명에 해당하는 텍스트들을 파싱하는 파서(Parsor)를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  28. 제27항에 있어서, 상기 웹 방문부는,
    상기 검색 사이트를 선택하여 방문하고, 방문한 검색 사이트로부터 루트 HTML 웹페이지 데이터를 로딩하며, 로딩된 HTML 웹페이지 데이터내에서 서브 카테고리에 해당하는 텍스트들이 파싱되었으면 해당 서브 카테고리에 방문하고, 파싱된 텍스트에 해당하는 주소를 가지는, HTML 웹페이지 데이터내에 링크된 다른 웹페이지들 또는 사이트들을 계층적으로 방문하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  29. 삭제
  30. 제27항에 있어서, 상기 멀티미디어 콘텐츠는 영상인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  31. 제27항에 있어서,
    불러들인 영상들 중에서 노이즈 영상을 필터링하는 필터링부;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  32. 제31항에 있어서, 상기 필터링부는,
    불러들인 영상의 픽셀 수가 소정의 임계값 이상인지를 식별하고, 불러들인 영상의 픽셀 수가 소정의 임계값 미만이면 해당 영상을 필터아웃시키는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  33. 제27항에 있어서, 상기 파서는,
    멀티미디어 콘텐츠의 파일명과 함께 그 텍스트의 특징을 대표하는 키워드를 파싱하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  34. 제27항에 있어서,
    상기 불러들인 멀티미디어 콘텐츠가 영상인 경우, 상기 영상의 해상도를 줄이는 해상도 저감부;를 더 포함하는 것을 특징을 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  35. 제27항에 있어서,
    인덱싱된 멀티미디어 콘텐츠의 수가 소정 수 이상인지를 식별하여 인덱싱된 멀티미디어 콘텐츠의 수가 소정 수 이상인 것으로 식별되면 소정의 제1 논리레벨을 가지고, 인덱싱된 멀티미디어 콘텐츠의 수가 소정 수 미만인 것으로 식별되면 소정의 제2 논리레벨을 가지는 제어신호를 출력하는 제어부;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  36. 제35항에 있어서, 상기 파서는,
    상기 소정의 제1 논리레벨의 제어신호에 응답하여 파싱을 종료하고, 상기 소정의 제2 논리레벨의 제어신호에 응답하여 HTML 웹페이지 데이터내에 링크된 다른 웹페이지들 또는 사이트들의 주소에 해당하는 텍스트를 파싱하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  37. 제27항에 있어서, 상기 데이터베이스는,
    카테고리 정보를 저장하는 제1 데이터베이스;
    URL 정보를 저장하는 제2 데이터베이스;
    키워드의 리스트들을 저장하는 제3 데이터베이스; 및
    상기 제1 데이터베이스, 제2 데이터베이스, 및 제3 데이터베이스내에 저장된 정보를 사용하여 인덱싱되어 있는 멀티미디어 콘텐츠를 저장하는 제4 데이터베이 스; 중에서 적어도 하나를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  38. 제37항에 있어서, 상기 제4 데이터베이스는,
    상기 제1 데이터베이스, 제2 데이터베이스, 및 제3 데이터베이스내에 저장된 정보를 사용하여 인덱싱되어 있는 멀티미디어 콘텐츠가 저장되어 있는 유니버설 리소스 로케이터 정보를 저장하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  39. 제37항에 있어서, 상기 제4 데이터베이스내에 저장되는 멀티미디어 콘텐츠는,
    원본 영상의 해상도를 줄임으로써 생성된 썸네일인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 데이터베이스 구축 장치.
  40. (a) 사용자로부터 찾고자 하는 쿼리 영상에 해당하는 키워드를 수신하는 단계; 및
    (b) 복수 개의 영상들과 함께 각 영상에 해당하는 키워드들이 저장되어 있는 소정의 데이터베이스내에서 키워드에 해당하는 영상을 검색하는 단계;를 포함하며,
    상기 소정의 데이터베이스는,
    복수 개의 영상들을 카테고리별로 저장하고,
    상기 (b) 단계는,
    (b-1) 쿼리 영상을 대표하는 카테고리를 검색하는 단계; 및
    (b-2) 검색된 카테고리내의 영상들에 대하여 쿼리 영상과 시각적으로 유사하다고 결정된 영상들의 색 특징, 텍스쳐 특징, 및 모양 중에서 적어도 하나의 특징이 유사한 영상을 검색하는 단계;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 방법.
  41. 제40항에 있어서, 상기 멀티미디어 콘텐츠는 영상이고,
    (c-1) 검색된 영상들 중에서 복수 개의 영상을 사용자에게 표시하는 단계;
    (c-2) 사용자로부터 쿼리 영상과 시각적으로 유사하다고 결정된 영상들에 대한 정보를 접수하는 단계; 및
    (c-3) 쿼리 영상과 시각적으로 유사하다고 결정된 영상들의 색 특징, 텍스쳐 특징, 및 모양 중에서 적어도 하나의 특징이 유사한 영상을 데이터베이스내에서 검색하는 단계;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 방법.
  42. 제41항에 있어서, 상기 복수 개의 영상은,
    원 영상의 해상도를 줄인 썸네일 영상인 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 방법.
  43. 삭제
  44. 삭제
  45. 삭제
  46. 제40항에 있어서, 검색의 범위는 쿼리 영상의 카테고리 및 그 주변 카테고리내로 한정되는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 방법.
  47. 제40항에 있어서, 검색의 범위는 쿼리 영상의 URL 및 주변 URL내로 한정되는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 방법.
  48. 복수 개의 영상들과 함께 각 영상에 해당하는 키워드들을 저장하는 데이터베이스; 및
    사용자로부터 찾고자 하는 쿼리 데이터에 해당하는 키워드를 수신하여 상기 데이터베이스내에서 키워드에 해당하는 멀티미디어 콘텐츠 데이터를 검색하는 검색부;를 포함하며,
    상기 데이터베이스는
    개별 영상들을 저장하는 영상 데이터베이스; 및
    상기 영상 데이터베이스내에 저장된 개별 영상의 정보와 함께 방문한 웹페이지 데이터의 카테고리 정보를 저장하는 카테고리 데이터베이스;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 장치.
  49. 제48항에 있어서, 상기 검색부는,
    전체 키워드 데이터베이스내에서 입력된 키워드와 동일한 단어를 검색하고, 입력된 키워드와 동일한 단어가 검색되면, 검색된 단어에 링크되어 있는 멀티미디어 콘텐츠를 데이터베이스로부터 불러들임으로써, 입력된 키워드에 해당하는 멀티미디어 콘텐츠를 검색하는 키워드 검색부;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 장치.
  50. 제48항에 있어서, 상기 멀티미디어 콘텐츠는 영상이고,
    상기 검색부는,
    사용자로부터 그가 찾고자 하는 영상과 시각적으로 유사하다고 결정된 쿼리 영상들에 대한 정보를 접수하여 쿼리 영상과 시각적으로 유사하다고 결정된 영상들의 색 특징, 텍스쳐 특징, 및 모양 중에서 적어도 하나의 특징이 유사한 영상을 영상 데이터베이스내에서 검색하는 영상 검색부;를 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 장치.
  51. 제48항에 있어서, 상기 멀티미디어 콘텐츠는 영상이고,
    사용자의 입력에 응답하여 사용자가 찾고자 하는 영상을 복수 개 선택하고 선택 정보를 제공하는 사용자 인터페이스;
    검색된 영상들 중에서 소정 개수의 영상을 선택하는 표시 영상 선택부; 및
    선택된 소정 개수의 영상들을 사용자에게 표시하는 영상 표시부;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 장치.
  52. 제48항에 있어서, 상기 데이터베이스는
    상기 영상 데이터베이스내에 저장된 개별 영상의 정보와 함께 상기 개별 영상에 해당하는 키워드들을 저장하는 키워드 데이터베이스;를 더 포함하는 것을 특징으로 하는 멀티미디어 콘텐츠를 위한 검색 장치.
  53. 삭제
KR1020000054868A 2000-05-31 2000-09-19 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법 KR100754157B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CNB011112719A CN1196071C (zh) 2000-05-31 2001-03-13 适用于多媒体内容的数据库构造方法
JP2001093678A JP2001344261A (ja) 2000-05-31 2001-03-28 マルチメディアコンテンツのためのデータベース構築方法
EP01302934A EP1162553A3 (en) 2000-05-31 2001-03-29 Method and apparatus for indexing and searching for non-html web content
EP02019632A EP1267280A3 (en) 2000-05-31 2001-03-29 Method and apparatus for populating, indexing and searching a non-html web content database
US09/822,832 US20020087577A1 (en) 2000-05-31 2001-04-02 Database building method for multimedia contents
US10/419,803 US20030195901A1 (en) 2000-05-31 2003-04-22 Database building method for multimedia contents

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US20796900P 2000-05-31 2000-05-31
US60/207,969 2000-05-31

Publications (2)

Publication Number Publication Date
KR20010110055A KR20010110055A (ko) 2001-12-12
KR100754157B1 true KR100754157B1 (ko) 2007-09-03

Family

ID=41632223

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000054868A KR100754157B1 (ko) 2000-05-31 2000-09-19 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법

Country Status (1)

Country Link
KR (1) KR100754157B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140026184A (ko) * 2012-08-24 2014-03-05 삼성전자주식회사 컨텐츠의 스테이 값을 계산하여 유알엘을 자동 저장하는 전자 장치 및 방법
KR20180077807A (ko) 2016-12-29 2018-07-09 주식회사 얍컴퍼니 시각적 콘텐츠 검색용 데이터베이스 생성 장치 및 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100948608B1 (ko) * 2007-03-02 2010-03-24 미디어코러스 주식회사 개인 미디어 포탈 서비스 방법
KR101238845B1 (ko) * 2007-11-05 2013-03-04 삼성전자주식회사 호스트의 스토리지로부터 컨텐츠를 검색하여 삽입하는 방법및 그 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228488A (ja) * 1996-12-10 1998-08-25 Seiko Epson Corp 情報検索収集方法およびそのシステム
KR20000007034A (ko) * 1999-11-20 2000-02-07 주진용 웹검색사이트의 검색결과 표시방법
KR20000006838A (ko) * 1999-11-06 2000-02-07 유진우 인터넷상의 검색전문웹사이트 및 그 검색방법
KR20000024234A (ko) * 2000-01-31 2000-05-06 최두희 네트워크 시스템을 이용한 통합웹검색서비스 제공방법 및그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체
EP1162553A2 (en) * 2000-05-31 2001-12-12 Samsung Electronics Co. Ltd. Method and apparatus for indexing and searching for non-html web content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228488A (ja) * 1996-12-10 1998-08-25 Seiko Epson Corp 情報検索収集方法およびそのシステム
KR20000006838A (ko) * 1999-11-06 2000-02-07 유진우 인터넷상의 검색전문웹사이트 및 그 검색방법
KR20000007034A (ko) * 1999-11-20 2000-02-07 주진용 웹검색사이트의 검색결과 표시방법
KR20000024234A (ko) * 2000-01-31 2000-05-06 최두희 네트워크 시스템을 이용한 통합웹검색서비스 제공방법 및그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체
EP1162553A2 (en) * 2000-05-31 2001-12-12 Samsung Electronics Co. Ltd. Method and apparatus for indexing and searching for non-html web content

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
외국논문:ATTARD g., GULLI A., SEBASTIANI F.: Automatic Web Page Categorization by Link and Context Analysis PROCEEDINGS OF THAI-99, 1999, pages 1-16 and 105-119 *
외국논문:MUKHERJEA S ET AL: Towards a multimedia World-Wide Web information retrieval engine COMPUTER NETWORKS AND ISND SYSTEMS, NL, vol. 29, no.8-13, 1 September 19 *
외국논문:VASS J ET AL: Interactive Image Retrieval over the Internet, PROCEEDINGS OF THE 17TH IEEE SYMPOSIUM ON RELIABLE DISTRIBUTED SYSTEMS, SRDS98, IEEE COMPUTER SOC, 20.10.1988, pages 461-466 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140026184A (ko) * 2012-08-24 2014-03-05 삼성전자주식회사 컨텐츠의 스테이 값을 계산하여 유알엘을 자동 저장하는 전자 장치 및 방법
KR101974867B1 (ko) * 2012-08-24 2019-08-23 삼성전자주식회사 컨텐츠의 스테이 값을 계산하여 유알엘을 자동 저장하는 전자 장치 및 방법
KR20180077807A (ko) 2016-12-29 2018-07-09 주식회사 얍컴퍼니 시각적 콘텐츠 검색용 데이터베이스 생성 장치 및 방법

Also Published As

Publication number Publication date
KR20010110055A (ko) 2001-12-12

Similar Documents

Publication Publication Date Title
US20030195901A1 (en) Database building method for multimedia contents
US8230364B2 (en) Information retrieval
US7548936B2 (en) Systems and methods to present web image search results for effective image browsing
US7801893B2 (en) Similarity detection and clustering of images
US7917514B2 (en) Visual and multi-dimensional search
US7502780B2 (en) Information storage and retrieval
US20070074108A1 (en) Categorizing page block functionality to improve document layout for browsing
US20060095852A1 (en) Information storage and retrieval
US20070022085A1 (en) Techniques for unsupervised web content discovery and automated query generation for crawling the hidden web
US20020152222A1 (en) Apparatus and method for organizing and-or presenting data
KR100797232B1 (ko) 계층적 데이터 지향 네비게이션 시스템 및 정보 인출 방법
EP1426882A2 (en) Information storage and retrieval
KR20060017765A (ko) 개념 네트워크
JP2004054631A (ja) 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム
GB2393275A (en) Information storage and retrieval
US20020087577A1 (en) Database building method for multimedia contents
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
EP1400903A1 (en) Information storage and retrieval
KR100754157B1 (ko) 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법
EP1267280A2 (en) Method and apparatus for populating, indexing and searching a non-html web content database
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
EP1162553A2 (en) Method and apparatus for indexing and searching for non-html web content
Yin et al. Towards understanding the functions of web element
CN113268683A (zh) 一种基于多维度的学术文献推荐方法
CN115203605A (zh) 网页主内容列表识别方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150730

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160728

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170728

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee