KR102533972B1 - 시각적 검색 플랫폼용 영상 인제스트 프레임워크 - Google Patents

시각적 검색 플랫폼용 영상 인제스트 프레임워크 Download PDF

Info

Publication number
KR102533972B1
KR102533972B1 KR1020197009534A KR20197009534A KR102533972B1 KR 102533972 B1 KR102533972 B1 KR 102533972B1 KR 1020197009534 A KR1020197009534 A KR 1020197009534A KR 20197009534 A KR20197009534 A KR 20197009534A KR 102533972 B1 KR102533972 B1 KR 102533972B1
Authority
KR
South Korea
Prior art keywords
database
images
image
segments
segment
Prior art date
Application number
KR1020197009534A
Other languages
English (en)
Other versions
KR20190051006A (ko
Inventor
스테픈 모리스 무어
지미 다니엘 무어
래리 패트릭 머리
Original Assignee
고 수 시아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고 수 시아 filed Critical 고 수 시아
Publication of KR20190051006A publication Critical patent/KR20190051006A/ko
Application granted granted Critical
Publication of KR102533972B1 publication Critical patent/KR102533972B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Abstract

본 발명은 영상 콘텐츠를 미디어 콘텐츠의 개별 섹션(장면 세그먼트 또는 다른 것)과 매핑하여 개별 섹션의 식별을 가능하게 하는 포맷으로 변환할 수 있게 하는 프레임워크 및 방법을 포함한다. 본 발명은 이미지 및 영상 프레임을 데이터베이스에 인제스트하는 수단을 포함한다. 소비자 상품은 이미지 및/또는 이미지 내의 개체와 매칭될 수 있다. 소비자는 모바일 디바이스에서 찍은 디지털 이미지를 제출함으로써 콘텐츠에 액세스할 수 있다. 사용자가 제출한 이미지 내의 하나 이상의 개체는 상품 및/또는 상업/홍보 자료와 매칭될 수 있다.

Description

시각적 검색 플랫폼용 영상 인제스트 프레임워크
본 발명은 영상 미디어 콘텐츠를 획득, 가공, 분석 및 인제스트(ingest)하여 시각적 검색 플랫폼에 의해 콘텐츠에 액세스할 수 있는 네트워크 방식의 컴퓨터화된 애플리케이션에 관한 것이다.
전자 상거래(e-commerce)는 온라인으로 구매 또는 판매하는 거래이다. 전자 상거래는 고객에게 판매할 뿐만 아니라 고객을 참여시키기도 하는 전 세계적인 소규모 및 대규모 사업을 위한 중요한 도구가 되었다. 2012 년에 전자 상거래 매출은 1 조 달러를 초과했다.
인터넷 마케팅은 웹과 이메일을 사용하여 전자 상거래를 통한 판매를 유도하는 광고 및 마케팅 노력을 말한다. 인터넷 마케팅은 이메일 마케팅, 검색 엔진 마케팅(search engine marketing)(SEM), 소셜 미디어 마케팅, 많은 유형의 디스플레이 광고(예를 들어, 배너 광고) 및 모바일 광고를 포함한다. 메타데이터는 인터넷 마케팅의 핵심 요소이다.
사업체는 검색 및 거래에 관한 메타데이터를 정기적으로 저장하여 사업체가 판매 동향을 분석하고, 마케팅 계획을 세우며 예측을 할 수 있게 한다. 이와 같은 메타데이터는 기업이 구매 내역, 여러 배송 위치의 주소록 및 상품 권장 사항과 같은 특징이 있는 보다 개인화된 쇼핑 경험을 제공할 수 있게 한다.
오늘날, 대부분의 웹 페이지는 그 안에 메타데이터가 삽입되어 있다. 웹 검색 엔진은 페이지 텍스트 및 그의 부속 메타데이터를 사용하여 관련 검색 결과를 사용자에게 제공하는 방대한 인덱스를 구축한다. 메타데이터는 타깃 광고(targeted advertising)에 사용될 수 있다. 광고주는 광고주가 홍보하는 상품에 기초하여, 정교한 방법을 사용하여 특정한 특성을 지닌 가장 수용적인 관중을 타깃으로 삼을 수 있다.
온라인 쇼핑객은 품목을 직접 볼 수 없기 때문에, 이들은 보통 키워드와 같은 기준에 의해 검색한다. 예를 들어, 어떤 사람이 웹 브라우저를 사용하여 뉴질랜드로 가는 항공사 항공편을 검색할 수 있다. 자신이 방문한 웹 사이트로부터 생긴 "쿠키" 형태의 메타데이터는 사용자의 웹 브라우저에 의해 컴퓨터에 저장된다. 쿠키는 인터넷 서버와 브라우저 사이에서 이리저리 전해져서 사용자가 식별될 수 있게 하고 및/또는 사용자의 활동을 추적할 수 있게 한다. 이 후, 그 사람은 뉴질랜드에서의 여행과 관련된 배너 광고와 같이 호텔, 렌터카, 여행 및 항공편 정보가 있는 광고를 받을 수 있다.
또한, 메타데이터는 인구 통계에 기초하여 사용자를 타깃으로 삼는데 사용될 수 있다. 기업은 상품이 특정 인구 통계에 호소할 수 있다는 것과 마케팅이 그 인구 통계를 대상으로 할 수 있다는 알 수 있다. 예를 들어, 투자 유가증권의 배너 광고는 십대 관중에게는 효과가 없을 수 있다. 더 나이가 많은 인구 통계, 특히 은퇴하려는 사람들에게 광고를 타깃으로 삼는 것이 더 효과적일 것이다. 메타데이터는 사용자에 대해 컴파일되어 사용자의 인구 통계 및 사용자가 투자 유가증권에 관심이 있을 가능성을 식별할 수 있다.
시각적 검색 유스 케이스(visual search use-case)의 증가하는 활용을 입증하는 시장이 등장함에 따라, 인구 통계 프로파일링의 강화는 소비자뿐만 아니라 기업에도 큰 관심과 이익을 가져다 준다. 조직은 이러한 모델을 사용하여 개인화된 상품을 제공하고, (예를 들어, 계절성에 기초하여) 사용 패턴을 추정하며, 향후 상품 방향을 결정하는데 도움을 줄 수 있다.
시각에 기반한 검색은 특히 어디에나 존재하는 스마트 폰 및 태블릿 컴퓨터에 공통적이다. 예를 들어, 위의 예에서 사용자는 뉴질랜드에서 하이킹 및 트랙킹과 관련된 이미지를 찾으려 할 수 있다. 사용자는 이미지를 클릭하기 때문에, 브라우저는 브라우저에 입력된 키워드에 기초한 메타데이터를 기록할 수 없다. 유사하게, 사용자는 뉴질랜드의 관광 명소와 관련된 영상을 시청할 수 있다. 통상적인 기술로는 이미지나 영상의 어느 것도 타깃으로 삼은 마케팅을 위한 메타데이터를 제공하지 않는다.
다양한 아키텍처의 인터넷 기반 영상 배포 플랫폼의 확산과 대중화를 감안할 때, 영상 콘텐츠를 통한 시각적 검색은 콘텐츠 제작자, 소비자 및 상업 파트너로 이루어진 수백만 사용자 기반이 활용할 잠재성이 있다. 영상의 특정 세그먼트가 식별될 수 있다면, 이해 당사자는 이들 섹션을 증식(augment)하고 및/또는 이들 섹션을 부수적인 콘텐츠와 짝지어주는 기능을 얻게 된다. 이것은 그러한 섹션에 대한 정보 강화의 형태를 취할 수 있다. 상업 파트너는 관련 섹션을 상품 제공을 배포하는 방안으로서 타깃으로 삼기를 원할 수 있다.
사용자에 의해 조회된 이미지에 기초하여 메타데이터를 효과적으로 생성하고 추출하는 수단이 현재는 없다. 따라서 조회된/검색된 이미지는 타깃 마케팅(targeted marketing)을 위한 이미지의 프로파일에 기여될 수 없다. 또한 캡처된 이미지를 텍스트 쿼리에서 설명하지 않고 캡처된 이미지에 기초하여 검색하는 수단이 없다. 따라서 시청자가 쇼 또는 장면에서 보는 개체나 상품에 관심을 표명하는 방법이 없다. 예를 들어, 시청자는 핸드백을 가진 유명인을 볼 수 있다. 그러나 핸드백을 어디에서 구입해야 하는지 분명하지 않을 수 있다. 시청자를 위한 유일한 옵션은 시각적 검색 쿼리에서 핸드백의 속성을 설명하는 것이다.
영상 및/또는 인쇄물을 웹 사이트에 링크하려는 시도가 있었다. 현재의 기술을 사용하여, 판매회사 또는 광고주는 QR 코드(Quick Response Code)를 인쇄물 또는 영상 광고상에 포함시킬 수 있다. 시청자는 스마트 폰을 사용하여 QR 코드를 스캔할 수 있고, 이는 시청자를 웹 사이트 및/또는 웹 콘텐츠로 안내할 수 있다. 그러나 이렇게 하려면 눈에 잘 띄는 코드 블록을 시청자의 가까이에 두어야 한다. 또한, 각각의 관심 개체마다 별개의 QR 코드가 포함되어야 한다. 영상의 경우, QR 코드가 전체의 지속기간 동안 존재하여야 한다.
QR 코드의 사용에는 명백한 제한이 있다. 또한, 마케팅 담당자는 광고 건너 뛰기 및 온-디맨드 미디어 사용에 익숙한 젊은 관중을 참여시키는 개선된 방법을 모색하고 있다. 상품 배치 및 브랜디드 엔터테인먼트(branded entertainment)는 젊은 층 및/또는 기술에 능통한 소비자를 보다 효과적으로 참여시키기 위해 "옴니 채널(omni-channel)" 가능성을 제공한다. 따라서, 시청자가 이미지 및/또는 영상상의 개체와 관련된 부가 정보에 관심을 표명하고 및/또는 부가 정보를 얻을 수 있게 하는 방법이 필요하다. 시스템은 사용자가 키워드 검색의 수행 또는 QR 코드의 스캐닝을 하지 않고도 주제에 관한 상세 내용 및 추가 정보를 얻을 수 있게 해주어야 한다. 이것은 인쇄 미디어(예를 들어, 잡지 광고)뿐만 아니라 영상 미디어(예를 들어, 텔레비전)와 함께 사용할 수 있어야 한다.
본 발명의 제1 양태는 인쇄 미디어로부터 이미지를 데이터베이스에 인제스트하는 수단이다.
본 발명의 제2 양태는 인쇄 미디어로부터의 이미지를 데이터베이스에 인제스트하여 이미지 내의 개체가 식별되어 상품과 매칭될 수 있도록 하는 수단이다.
본 발명의 제3 양태는 인쇄 미디어로부터의 이미지를 데이터베이스에 인제스트하는 수단으로, 텍스트 및 외래 콘텐츠는 제거된다.
본 발명의 제4 양태는 영상 미디어의 세그먼트를 데이터베이스에 인제스트하는 수단이다.
본 발명의 제5 양태는 영상의 세그먼트를 데이터베이스에 인제스트하는 수단으로, 영상 세그먼트는 동일하거나 유사한 장면을 비교함으로써 식별되어 유사한 세그먼트가 그룹화되고 중복된 세그먼트가 제거될 수 있다.
본 발명의 제6 양태는 영상의 세그먼트를 데이터베이스에 인제스트하는 수단으로, 영상의 해상도 및/또는 프레임 레이트가 감소된다.
본 발명의 제7 양태는 영상의 세그먼트를 데이터베이스에 인제스트하여 영상 세그먼트 내의 개체가 식별되고 상품과 매칭될 수 있도록 하는 수단이다.
소개
본 발명은 인쇄 미디어로부터의 이미지를 데이터베이스에 컴파일하는 방법을 포함하는 것으로, (a) 인쇄 미디어를 획득하는 단계, (b) 인쇄 미디어를 디지털 미디어로 변환하는 단계, (c) 에지의 연결된 윤곽에 기초하여 디지털 미디어 내의 텍스트를 검출하는 단계, (e) 디지털 미디어로부터 텍스트가 있는 영역을 제거하는 단계, (f) 디지털 미디어 내의 하나 이상의 이미지를 검출하는 단계와, (g) 하나 이상의 이미지를 분류하기에 충분한 특징이 존재하는지를 결정하는 단계, (h) 하나 이상의 이미지를 분류하는 단계 및 (i) 하나 이상의 이미지를 데이터베이스에 삽입하는 단계를 포함한다. 방법은 사용자가 쿼리를 제출할 때 데이터베이스에 액세스하는 추가 단계 및 특징을 비교함으로써 쿼리를 데이터베이스 내의 하나 이상의 이미지와 매칭시키는 추가 단계를 포함할 수 있다.
본 발명은 또한 영상으로부터 프레임을 컴파일하고, 프레임을 데이터베이스 내에 저장하며 인덱싱하는 방법을 포함하는 것으로, (a) 영상을 획득하는 단계, (b) 영상을 프레임 내의 특징에 대해 분석하는 단계, (c) 특징에 기초하여 영상을 세그먼트로 분리하는 단계, (d) 세그먼트의 특징을 분석하여 특징을 공유하는 세그먼트를 그룹화하는 단계, (e) 세그먼트의 하나 이상의 프레임을 메타데이터로 주석을 붙이는 단계, 및 (f) 세그먼트의 하나 이상의 프레임을 데이터베이스에 저장하는 단계를 포함한다. 방법은 영상의 프레임 레이트 및/또는 해상도를 감소시키는 추가 단계를 포함할 수 있다. 방법은 또한 사용자가 쿼리를 제출할 때 데이터베이스에 액세스하는 추가 단계 및 공유된 특징에 기초하여 쿼리를 데이터베이스 내 세그먼트의 하나 이상의 프레임과 매칭시키는 추가 단계를 포함할 수 있다. 중복 프레임이 공유된 콘텐츠에 기초하여 식별되므로 하나 이상의 중복 프레임이 폐기될 수 있다.
본 발명은 또한 (a) 문서를 서버에 업로드하는 사용자 인터페이스, (b) 문서를 가공하고 문서로부터의 섹션을 이미지로서 추출하는 로직으로 구성된 모듈, (c) 이미지로부터 텍스트를 제거하는 로직으로 구성된 모듈, (d) 이미지 내의 특징을 검출하는 로직으로 구성된 모듈 및 (e) 이미지에 고유 식별자를 첨부하기 위한 로직으로 구성된 모듈로 구성된, 문서를 인제스트하는 컴퓨터화된 시스템을 포함한다. 컴퓨터화된 시스템은 또한 쿼리를 수신하기 위한 수단 및 공유된 특징에 기초하여 쿼리를 데이터베이스 내의 하나 이상의 이미지와 매칭시키는 모듈을 포함할 수 있다.
또한, 본 발명은 (a) 영상을 서버에 업로드하는 사용자 인터페이스, (b) 영상을 가공하고 영상으로부터의 섹션을 이미지로서 추출하는 컴퓨터 프로그램 및 (c) 추출된 섹션을 저장하는 데이터베이스로 구성된 영상을 인제스트하는 컴퓨터화된 시스템을 포함한다. 추출된 섹션은 이미지 특징 및 이미지 해상도를 비롯한 적합성 파라미터의 준수 여부에 대해 분석될 수 있다. 추출된 각 영상 섹션에는 고유 식별자가 부착될 수 있다. 컴퓨터화된 시스템은 또한 쿼리를 수신하기 위한 수단 및 공유된 특징에 기초하여 쿼리를 데이터베이스 내의 하나 이상의 영상 섹션과 매칭시키는 모듈을 포함할 수 있다.
도 1은 이미지 인제스트 프레임워크의 예시적인 개요를 도시한다.
도 2는 이미지 크로핑 알고리즘(image cropping algorithm)에 의해 사용되는 단계를 도시한다.
도 3은 영상 인제스트 프레임워크의 예시적인 개요를 도시한다.
도 4는 영상 세그먼트 프로세싱 프로그램의 개요를 도시한다.
도 5는 영상 세그먼트 삽입 프로그램을 도시한다.
정의
본 명세서에서 "일 실시예/양태" 또는 "실시예/양태"라고 언급되는 것은 실시예/양태와 관련하여 설명되는 특정의 특징, 구조 또는 특성이 본 개시내용의 적어도 하나의 실시예/양태에 포함된다는 것을 의미한다. 명세서의 여러 곳에서 "일 실시예/양태에서" 또는 "다른 실시예/양태에서"라는 문구가 사용된다고 하여 모두가 반드시 동일한 실시예/양태를 지칭하는 것이 아니며, 다른 실시예/양태와 상호 배타적인 별개의 또는 대안적인 실시예/양태를 지칭하는 것도 아니다. 더욱이, 일부 실시예/양태에 의해 나타낼 수 있고 다른 것에는 나타나지 않을 수 있는 다양한 특징이 설명된다. 유사하게, 일부 실시예/양태에 대한 요건일 수 있지만 다른 실시예/양태에 대한 요건이 아닐 수 있는 다양한 요건이 설명된다. 실시예 및 양태는 특정 사례에서 상호 교환 가능하게 사용될 수 있다.
일반적으로 본 명세서에서 사용된 용어는 본 개시내용의 맥락 내에서, 및 각 용어가 사용되는 특정 맥락에서, 관련 기술분야에서 용어의 통상적인 의미를 갖는다. 본 개시내용을 설명하는데 사용되는 특정 용어는 아래에서 또는 본 명세서의 다른 곳에서, 본 개시내용의 설명에 대해 실무자에게 추가적인 안내를 제공하기 위해 논의된다. 편의상, 특정 용어는 이탤릭체 및/또는 인용 부호를 사용하여 강조될 수 있다. 강조표시의 사용은 용어의 범위와 의미에 아무런 영향을 미치지 않으며, 용어의 범위와 의미는 강조표시가 되든 또는 강조표시가 되지 않든, 동일한 맥락에서 동일하다. 동일한 것이 하나보다 많은 방식으로 언급될 수 있다는 것이 인식될 것이다.
결과적으로, 대체 언어 및 동의어가 본 명세서에서 논의되는 용어 중 임의의 하나 이상의 용어에 사용될 수 있다. 용어가 본 명세서에서 상세히 설명 또는 논의되든 되지 않든 어떠한 특별한 의미도 부여되지 않는다. 특정 용어의 동의어가 제공된다. 하나 이상의 동의어의 자세한 설명은 다른 동의어의 사용을 배제하지 않는다. 본 명세서의 어디에서나 본 명세서에서 논의되는 임의의 용어에 관한 예를 비롯한 예를 사용하는 것은 단지 예시적인 것일 뿐이고, 본 개시내용의 또는 임의의 예시된 용어의 범위 및 의미를 더 제한하려고 의도하는 것은 아니다. 마찬가지로, 본 개시내용은 본 명세서에 주어진 다양한 실시예로 제한되지 않는다.
본 개시내용의 범위를 더 제한하려는 의도 없이, 아래에서는 본 개시내용의 실시예에 따른 기기, 디바이스, 방법 및 이들의 관련된 결과의 예가 주어진다. 독자의 편의를 위해 제목 또는 부제가 예에서 사용될 수 있는데, 이것은 결코 개시내용의 범위를 제한하지 않는다는 것을 유의해야 한다. 달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 개시내용이 속하는 관련 기술분야에서 통상의 기술자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 상충하는 경우, 정의를 포함하고 있는 본 문서가 우선이 될 것이다.
"앱(app)" 또는 "애플리케이션"이라는 용어는 특히 모바일 디바이스상에 다운로드되는 것과 같이, 특정 목적을 이행하도록 설계된 자립형 프로그램(self-contained program) 또는 단편의 소프트웨어를 지칭한다.
"쿠키", "인터넷 쿠키" 또는 "HTTP 쿠키"라는 용어는 웹 사이트로부터 송신되어 사용자의 웹 브라우저에 의해 사용자의 컴퓨터에 저장되는 작은 조각의 데이터를 지칭한다. 쿠키는 인터넷 서버와 브라우저 사이에서 이리저리 전해져서 사용자가 식별될 수 있게 하거나 사용자 진행 상황을 추적할 수 있게 한다. 쿠키는 소비자가 방문한 페이지, 각 페이지를 보는 데 걸린 시간량, 클릭된 링크, 수행된 검색 및 상호작용에 관한 세부 사항을 제공한다. 이러한 정보로부터, 쿠키 발급자(cookie issuer)는 프로파일을 생성하는 사용자의 브라우징 경향 및 관심사의 이해를 인제스트한다. 프로파일을 분석하여, 유사한 반환된 유사 정보, 즉 프로파일을 가진 사용자에 기초하여 정의된 오디언스 세그먼트(audience segment)를 만들 수 있다.
"클러스터링(clustering)" 또는 "클러스터 분석(cluster analysis)"이라는 용어는 동일한 그룹(클러스터라고 불림) 내의 개체가 (어떤 의미에서 또는 다른 의미에서) 다른 그룹(클러스터) 내의 개체보다 서로 더 유사한 방식으로 한 세트의 개체를 그룹화하는 작업을 지칭한다. 이것은 탐구 데이터 마이닝(exploratory data mining)의 주요 작업이고, 머신 학습, 패턴 인식, 이미지 분석, 정보 검색, 생물 정보학(bioinformatics), 데이터 압축 및 컴퓨터 그래픽을 비롯한, 많은 분야에서 사용되는 통계적 데이터 분석을 위한 공통 기술이다.
"심층 학습(deep learning)"이라는 용어는 하나를 초과하는 은닉 층을 포함하는 인공 뉴럴 네트워크(artificial neural network)(ANN)의 학습 과제에 적용하는 것을 지칭한다. 심층 학습은 작업 특정 알고리즘과 반대되는 것으로서, 학습 데이터 표현을 기초로 하는 더 광범위한 부류의 머신 학습 방법의 일부이다.
패턴 인식 및 머신 학습에서 "특징 벡터(feature vector)"라는 용어는 특징 벡터가 어떤 개체를 표현하는 수치적 특징의 n-차원 벡터라는 것을 지칭한다. 머신 학습의 많은 알고리즘은 개체의 수치적 표현을 요구하는데, 그 이유는 그러한 표현이 가공 및 통계 분석을 용이하게 해주기 때문이다. 이미지를 표현할 때, 특징 값은 이미지의 픽셀에 대응할 수도 있고, 텍스트를 표현할 때는 아마도 용어 발생 빈도에 대응할 수도 있다.
"역 색인(inverted index)", "게시 파일(postings file)" 또는 "역 파일(inverted file)"이라는 용어는 단어 또는 숫자와 같은 콘텐츠에서부터 데이터베이스 파일 내의 콘텐츠의 위치 또는 문서 또는 문서 세트 내의 콘텐츠의 위치까지의 매핑을 저장하는 인덱스 데이터 구조이다(문서에서부터 콘텐츠까지를 매핑하는 포워드 인덱스(Forward Index)와 대비되어 명명된다). 역 색인의 목적은 문서가 데이터베이스에 추가될 때 가공 속도를 높인 결과로 전체 텍스트 검색을 빠르게 하는 것이다.
"k-최근접 이웃(k-Nearest Neighbor)" 또는 "k-NN"이라는 용어는 가장 가까운-이웃 분류 개체(nearest-neighbor classification object)를 지칭하는 것으로, 여기서 거리 메트릭("가장 가까움")과 이웃의 수는 둘 모두 변경될 수 있다. 개체는 예측 방법을 사용하여 새로운 관측을 분류한다. 개체는 훈련에 사용되는 데이터를 갖고 있으므로, 재 대체 예측(re-substitution prediction)을 계산할 수 있다.
링크 분석(Link Analysis)
"모듈(module)"이라는 용어는 전자 구성요소 및 연관된 배선의 조립체 또는 컴퓨터 소프트웨어의 세그먼트와 같은 자립형 유닛을 지칭하며, 그 자체가 정의된 태스크를 수행하고 다른 그러한 유닛과 링크되어 더 큰 시스템을 형성할 수 있다.
"다층 인지 뉴럴 네트워크(Multilayer Perception Neural Network)" 또는 "MLP"라는 용어는 입력 층과 출력 층 사이에 하나 이상의 층을 갖는 피드포워드 뉴럴 네트워크(feedforward neural network)를 지칭한다. 피드포워드라는 것은 데이터가 입력 층으로부터 출력 층으로 한 방향(포워드)으로 흐른다는 것을 의미한다. MLP는 패턴 분류, 인식, 예측 및 근사화에 널리 사용된다. 다층 퍼셉트론(Multi-Layer Perceptron)은 선형적으로 분리할 수 없는 문제를 해결할 수 있다.
"메타데이터(metadata)"라는 용어는 다른 데이터를 설명하는 데이터를 지칭한다. 메타데이터는 특정 품목의 콘텐츠에 관한 정보를 제공한다. 이미지는 사진이 얼마나 큰지, 색 심도, 이미지 해상도 및 이미지가 언제 생성되었는지를 설명하는 메타데이터를 포함할 수 있다. 텍스트 문서의 메타데이터는 문서가 얼마나 긴지, 저자가 누구인지, 문서가 언제 작성되었는지 및 문서의 짧은 요약에 관한 정보를 포함할 수 있다.
"메타태그(metatag)"라는 용어는 웹 페이지에 포함되는 메타데이터를 지칭한다. 설명 및 키워드 메타 태그는 주로 웹 페이지의 콘텐츠를 설명하는데 사용된다. 대부분의 검색 엔진은 검색 인덱스에 페이지를 추가할 때 이러한 데이터를 사용한다.
"QR 코드" 또는 "퀵 리스폰스 코드(Quick Response Code)"라는 용어는 이것이 부착된 품목에 관한 정보를 포함하는 행렬 바코드(matrix barcode)(또는 2 차원 바코드)를 지칭한다. QR 코드는 카메라와 같은 이미징 디바이스에 의해 판독될 수 있는 흰색 배경상의 정사각형 격자 내에 배열된 흑색 정사각형을 포함하고, 이미지가 적절하게 해석될 수 있을 때까지 리드-솔로몬 오류 정정(Reed-Solomon error correction)을 사용하여 가공된다. 그 다음에, 필요한 데이터가 이미지의 수평 및 수직 구성요소에 존재하는 패턴으로부터 추출된다.
"합성 데이터(synthetic data)"라는 용어는 직접 측정에 의해 획득되지 않는 주어진 상황에 적용 가능한 임의의 생산 데이터를 지칭한다.
"지원 벡터 머신(Support Vector Machine)" 또는 "SVM"이라는 용어는 분류 및 회귀 분석에 사용되는 데이터를 분석하는 연관된 학습 알고리즘을 갖는 감독 학습 모델(supervised learning model)을 지칭한다. 각각의 훈련 예가 두 카테고리 중 하나 또는 다른 카테고리에 속하는 것으로 표시되는 한 세트의 훈련 예를 감안할 때, SVM 학습 알고리즘은 새로운 예를 하나의 카테고리 또는 다른 카테고리에 할당하여, 이것을 비확률적 이진 선형 분류자(non-probabilistic binary linear classifier)로 만드는 모델을 구축한다.
"타깃 광고(targeted advertising)"라는 용어는 온라인 광고주가 정교한 방법을 사용하여, 광고주가 홍보하는 상품 또는 사람에 기초하여, 특정한 특성을 지닌 가장 수용적인 청중을 타깃으로 삼을 수 있는 형태의 광고를 지칭한다. 이러한 특성은 인종, 경제적 지위, 성별, 연령, 교육 수준, 소득 수준 및 고용에 초점을 맞춘 인구통계일 수 있고, 또는 이러한 특성은 소비자의 가치, 성격, 태도, 의견, 생활 방식 및 관심사를 기초로 하여 초점을 맞춘 심리통계일 수 있다. 이러한 특성은 또한 브라우저 이력, 구매 내역 및 기타 최근 활동과 같은 거동 변수일 수도 있다.
본 명세서에서 사용되는 다른 기술 용어는 여러 기술 사전에 의해 예시되는 바와 같이, 이들 용어가 사용되는 기술분야에서 통상적인 의미를 갖는다.
바람직한 실시예의 설명
이러한 비제한적인 예에서 논의된 특정 값 및 구성은 변경될 수 있으며 적어도 하나의 실시예를 예시하기 위해 인용될 뿐이며 그 범위를 제한하려고 의도되는 것은 아니다.
본 발명은 각각의 고유하게 구별 가능한 프레임이 컴퓨터 센서 시스템으로부터 관련 영상 세그먼트의 쿼리 이미지를 사용하여 검색 가능하도록 영상 콘텐츠를 시각적 검색 플랫폼으로 동화시키는 것(assimilation)에 관한 것이다. 본 발명은 이미지와 영상 프레임을 데이터베이스에 인제스트하는 수단을 포함한다. 소비자 상품은 이미지 및/또는 이미지 내의 개체와 매칭될 수 있다. 소비자는 모바일 디바이스에서 찍은 디지털 이미지를 제출함으로써 데이터베이스에 액세스할 수 있다. 사용자가 제출한 이미지 내의 하나 이상의 개체는 상품 및/또는 상업/홍보 자료와 매칭될 수 있다.
(전통적인 텍스트 기반 검색과 반대되는) 인구통계 프로파일링을 위한 시각적 검색의 주요 이점 중 하나는 확인될 수 있는 쿼리에 관한 본래 더 많은 정보이다. 예를 들어, 사용자는 검색 엔진(또는 전자 상거래 웹 사이트)에서 갈색 신발을 검색할 수 있다. 시각적 검색 유스 케이스에서, 쿼리 이미지 자체는 사용자 쿼리의 특성에 관해 훨씬 많은 것을 드러낼 수 있다. 사용자는 특정 신발의 이미지를 제출함으로써 또는 특정 신발의 이미지를 클릭함으로써 매우 특정한 종류의 갈색 신발(형상, 스타일, 재료, 브랜드, 레이스가 달린 로퍼(loafers) 등)에 관해 문의할 수 있다. 텍스트 검색 쿼리만으로 액세스하면, 어떠한 추가 정보도 없이 검색 개체에 관해 보다 세분화된 정보를 추출하는 것은 불가능하다.
사용자 상호작용의 한 형태로서 시각적 검색은 최근에 머신 비전 분야에서 진보로 인해 많은 관심을 끌고 있다. 이제는 수백만 개의 이미지가 간직된 데이터베이스에 높은 정확도로 쿼리하는 것이 가능하다. 이것은 인간의 콘텐츠 상호작용의 가능성을 열어준다. 이러한 하나의 실시예에서, 정적 미디어 자산에 증강현실 유즈 케이스로 태그를 붙임으로써 정적 미디어 자산을 풍부하게 하는 것이 가능하다. 더 풍부해진 콘텐츠에 액세스하기 위해, 사용자는 정적 콘텐츠에 카메라 디바이스를 겨누고, 시각적 매칭 엔진을 사용하여 콘텐츠 오버레이를 검색하고 디스플레이할 수 있다.
영상의 특정 세그먼트가 식별할 수 있고, 이에 따라 이해 당사자는 이들 섹션을 증식하고 및/또는 이들 섹션을 부가 콘텐츠와 짝지어주는 기능을 얻게 된다. 이것은 그러한 섹션에 대한 정보 강화의 형태를 취할 수 있다. 상업 파트너는 관련 섹션을 상품 제공을 배포하는 방안으로서 타깃으로 삼기를 원할 수 있다.
시각적 검색 쿼리에 관한 메타데이터를 추출하기 위해, 이것으로 제한되는 것은 아니지만 심층 학습, 감독 학습 및 자율 학습(Unsupervised Learning)을 비롯한 최신 분류 알고리즘이 사용될 수 있다. 따라서 입력 이미지로부터, 서술적 메타데이터의 리스트(예를 들어, 신발, 갈색, 레이스, 브로그(brogue), 상황, 제조업체의 위치, 재료 및 이미지 내의 콘텐츠의 상태에 대해 명확성을 제공하는 임의의 그러한 정보)가 획득될 수 있다.
본 발명의 일 실시예에서, 이미지 또는 영상을 구성하는 개체의 리스트가 추출되고 의미론적으로 구별되는 "주제(topic)"에 대응하도록 분석되는 프레임 시퀀스에 링크될 수 있다. 예를 들어, 인쇄 이미지(예를 들어, 잡지)로부터의 데이터가 시스템에 입력될 수 있다. 사용자는 잡지의 페이지로부터 신발의 디지털 이미지를 제출할 수 있다. 시스템은 신발의 주제에 관한 상품 정보를 전달할 수 있다. 다른 실시예에서, 영상(예를 들어, 텔레비전)으로부터의 데이터가 시스템에 입력된다. 사용자는 신발이 스크린상의 품목 중 하나인 영상의 스크린 샷을 제출할 수 있으며, 시스템은 신발의 주제에 관해 상품 정보를 사용자에게 전달할 수 있다.
시스템에서 콘텐츠를 구축하고 인덱싱하기 위해, 주로 텍스트가 아닌 방식으로 정보를 전달하는 잡지, 만화 또는 기타 문서와 같은 시각적으로 풍부한 디지털 문서(즉, 이미지를 포함하는 문서)가 아래에 설명된 바와 같이 이용될 수 있다.
문서 인제스트
문서 인제스트 사용자 인터페이스는 마스터 문서를 콘텐츠 데이터베이스에 업로드하는 게이트웨이를 제공한다. 이러한 인터페이스는 주석 및 메타데이터 채우기의 수단을 제공할 수 있다. 업로드된 문서는 인덱싱되어 콘텐츠 데이터베이스(180)에 저장될 수 있다. 메타데이터는 각 문서에 귀속될 수 있다.
문서 인제스트(100)의 단계는 도 1에 상세하게 도시된다. 문서 인제스트 프레임워크는 시각적 쿼리 이미지를 사용하여 잡지 또는 저널과 같은 문서의 특정 세그먼트의 식별을 가능하게 하여 이러한 식별을 도출할 수 있다.
문서(예를 들어, 잡지로부터 스캔된 페이지)(115)가 사용자 인터페이스(120)를 사용하여 업로드 또는 "인제스트"될 수 있다. 예를 들어, 잡지의 페이지는 휴대용 문서 포맷(Portable Document Format)(PDF) 또는 다른 포맷으로 스캔되어 업로드될 수 있다. 문서는 서버(130)로 전송되고 섹션(예를 들어, 개별 이미지)이 추출된다(135). 그런 다음 시스템은 문서가 유효한지를 결정한다(145). 예를 들어, 이미지가 구별 가능하지 않은 문서는 유효하다고 간주되지 않을 수 있다. 문서가 특정 허용 오차 내의 기준 내에 맞는지를 결정하는 알고리즘이 사용될 수 있다. 문서가 유효하지 않으면, 시스템은 실패 응답을 생성할 수 있다(140). 인제스트 응답은 경보 또는 통지를 전송하기 위해 사용자 인터페이스로 전송될 수 있다(125).
문서가 유효하면, 시스템은 문서를 섹션으로 분할할 수 있다(150). 예를 들어, 유사한 섹션이 함께 그룹화될 수 있다. 주석 붙임 도구가 문서를 분할할 수 있게 사용될 수 있다. 잡지는 기사, 광고 및 홍보로 분리할 수 있다. 분할 정보가 제공되지 않으면, 전체 문서가 단일 독립체로 가공될 수 있다. 분할 후에, 각 세그먼트가 가공되어 콘텐츠 데이터베이스에 인제스트될 수 있다.
텍스트 영역은 검출되고 제거될 수 있다(155). 이미지는 페이지상의 공백 영역 및/또는 경계로부터 이미지를 분리되도록 잘라질 수 있다(160). 각 섹션은 그 적합성을 보장하기 위해 분석될 수 있다(165). 예를 들어, 시스템은 특징을 검출하고 식별할 수 있다. 낮은 해상도, 흐리거나 추상적인 이미지(또는 아무런 식별 가능한 특징이 없는 이미지)는 적합하지 않은 것으로 간주될 수 있다. 충분한 특징이 존재하면(170), 이것은 데이터베이스(175)에 삽입될 수 있다.
메타데이터는 각각의 가공된 이미지에 링크될 수 있다. 메타데이터 필드는 링크된 콘텐츠, 문서 언어뿐만 아니라 문서 작성자/게시자 정보를 포함할 수 있다.
데이터베이스 삽입
이미지/콘텐츠 데이터베이스(180)에 각 세그먼트를 저장하는 단계는 다음의 단계:
1) 세그먼트 이미지로부터 시각적 특징의 추출 단계;
2) 다음과 같은;
- 시각적 특징의 벡터
- 고유 세그먼트 ID
- 링크된 콘텐츠 ID
를 포함하는 삽입 응답을 생성하는 단계;
3) 삽입 응답을 적절한 전송 포맷(예를 들어, JSON)으로 마무리하는 단계;
4) 삽입 응답을 데이터베이스에 전송하는 단계;
5) 삽입 상태를 수신하는 단계; 및
6) 삽입 상태 응답을 사용자 인터페이스로 전달하는 단계
를 포함할 수 있다.
문서 섹션 추출
일단 문서가 서버에 업로드되면, 컴퓨터 프로그램은 이러한 문서를 가공하고 문서를 일련의 세그먼트로 분할할 수 있다.
예를 들어, 잡지의 디지털 카피는 원래 업로드된 문서가 PDF일 수 있다. 세그먼트는 PDF 파일의 각 페이지로서 지정될 수 있다. 추출 단계는 또한 추가 프로세싱을 위해 문서의 각 섹션의 적합성을 평가할 수 있다. 이것은 파일이 인제스트에 적절한 포맷인지, 또는 각 섹션이 안전 한도(safety parameters)(예를 들어, 최소 해상도) 내에 속하는지를 평가하는 무결성 검사의 형태를 취할 수 있다.
문서 분석
원래 업로드된 문서로부터 추출되는 각각의 세그먼트에 대해, 비전 시스템에 삽입될 이미지의 품질을 가공하고 유효화하기 위해 프레임워크가 필요하다. 프레임워크는 에지의 연결된 윤곽선에 기초한 텍스트 제거를 포함한다.
문서로부터 이미지를 인제스트하는데 한 가지 쟁점은 텍스트 또는 텍스트 류의 특징이 이미지 내에 삽입되어 있는 성향이다. 많은 시각적 검색 시스템에서, 이것은 텍스트가 많은 이미지 내에서 고유성을 보장하는 데 있어서 문제를 야기할 수 있다. 따라서, 이미지와 텍스트를 포함하는 합성 이미지에서 텍스트가 많은 영역을 검출, 격리 및 제거하는 것이 중요하다.
도 2는 텍스트를 포함하는 세그먼트 이미지의 영역을 격리하는데 사용될 수 있는 텍스트 검출 및 잘라내기 알고리즘(cropping algorithm)의 기능의 단계를 도시한다. 최적이 아닌 텍스트 영역이 삽입 전에 제거되도록 이미지가 잘려질 수 있다. 잡지 또는 저널의 일반적인 이미지(185)는 텍스트 섹션을 포함하고 있을 것이다. 컴퓨터는 예를 들어, 문자 인식 및 문자를 선과 단락(paragraph)으로 정렬시킨 배열(아래에서 설명됨)에 기초하여 텍스트의 섹션(190)을 식별할 수 있다. 텍스트가 풍부한 영역은 제거되어 격리된 이미지(195)를 남긴다. 이 후, 이미지가 잘려지고(205) 잉여 영역이 제거될 수 있다.
텍스트는 또한 연결된 에지 윤곽에 기초하여 식별될 수도 있다. 인쇄용으로 준비된 텍스트는 보통 확연한 에지를 갖고 있으며, 보통 일반적인 이미지보다 훨씬 확연하다. 높은 레벨의 에지는 보존되고, 윤곽 프로세싱을 위해 준비될 수 있다. 윤곽이 검출되면 단어, 선 및 주변 텍스트가 격리될 것이다. 윤곽에 더 많은 선이 있으면, 단일 선으로 분리될 수 있고, 이 후 필터링이 수행된다. 단일 선과 단어는 단락이나 큰 단일 선으로 연결되고 라벨링될 수 있다. 다음의 원칙이 텍스트를 식별하는 프로세스에 적용될 수 있다.
* 에지는 모폴로지 그라데이션 동작(morphology gradient operation)을 사용하여 그레이 스케일 이미지로부터 검출될 수 있다
* 2 진화(binarization)는 Otsu 방법을 사용하는 검출된 에지 이미지의 임계값 설정(클러스터링 기반 이미지 임계값 설정(clustering-based image thresholding))을 사용하여 달성할 수 있다.
* 모폴로지 클로징(morphology closing)은 작은 개체(글자 또는 단어)를 연결하는 경우 수행될 수 있다.
* 윤곽은 연결된 구성요소 분석을 사용하여 발견될 수 있다.
* 윤곽 영역에서 0이 아닌 픽셀의 너비, 높이 및 비율을 사용하여 제 1 필터링이 수행될 수 있다.
* 발견된 윤곽에 두 개 이상의 선이 포함되어 있는지를 검출하기 위해 윤곽 영역의 세로 투영이 사용될 수 있다. 여러 선이 있는 경우, 선을 분리할 위치를 결정하기 위해 수직 투영의 임계값이 사용될 수 있다.
* 영역 면적, 크기, 윤곽 영역 내 0이 아닌 픽셀의 비율 및 일부 맞춤형 특징의 상대적 종횡비 곱 면적(relative aspect ratio times area)(RARA) 및 상대적 종횡비 곱 평균 영역측 크기(relative aspect ratio times average region side size)(RARAS)를 사용하여 윤곽 영역이 유효화되고 필터링될 수 있다.
단어와 선을 단락으로 연결하고 레이블을 붙이는 것은 윤곽 영역의 경계 상자를 나타내는 사각형에 대해 수행할 수 있다. 첫 번째 사각형은 왼쪽과 오른쪽으로 연결되어 있으므로, 선이 결정된다. 그런 다음 불가능한 사각형이 삭제된다. 결국, 위아래로 연결하는 것이 수행될 수 있다. 최종 결과는 단락 텍스트를 포함하는 것으로 간주되는 영역을 포함하는 결정된 큰 사각형으로 구성된다.
영상 인제스트
유사하게, 영상 콘텐츠는 컴파일되고 콘텐츠 데이터베이스에 인제스트될 수 있다. 본 섹션에서는 사용자가 영상을 추가 분석 및 시각적 검색 플랫폼으로의 동화에 적합한 포맷으로 미리 가공하도록 설계된 컴퓨터 프로그램에 영상 콘텐츠를 업로드할 수 있게 하는 시스템을 간략하게 설명한다. 사용자 인터페이스(User Interface)(UI)는 사용자가 플랫폼에 도입하고자 하는 영상 소스를 선택할 수 있게 한다. 소스는 사용자의 컴퓨터 디바이스에서 원격 또는 로컬로 액세스할 수 있는 파일일 수 있다.
인터페이스는 또한 영상 파일 세그먼트를 맞춤 가능한 메타데이터로 주석을 붙여 그 세그먼트와 링크되도록 할 수 있다. 인터페이스는 또한 영상 내에서 식별된 각 세그먼트의 상태 개요 및 세그먼트에 대해 수행된 모든 분석 및 검사와 관련된 메트릭을 제공할 수 있고, 그럼으로써 해당 세그먼트의 모든 단계 상태에 관한 즉각적인 피드백을 제공할 수 있다. 도 3은 이러한 인터페이스가 어떻게 영상 및 영상 세그먼트를 시각적 검색 플랫폼으로 전송하고 주석 붙이기를 용이하게 할 수 있는지를 도시한다.
영상 삽입(300)의 단계는 도 3에 상세하게 도시된다. 영상 인제스트 프레임워크는 시각적 쿼리 이미지를 사용하여 영상의 특정 세그먼트를 식별할 수 있게 한다.
영상 콘텐츠(예를 들어, 텔레비전 방송 프로그램)(215)는 사용자 인터페이스를 사용하여 업로드 또는 "인제스트"될 수 있다(220). 영상은 서버로 전송되며(230), 섹션은 분석된다(235). 영상은 더 분할될 수 있다(245). 예를 들어, 장면 내의 상이한 개체는 설정의 변경을 표시할 수 있다. 그 다음에 시스템은 영상 세그먼트가 유효한지를 결정한다(250). 예를 들어, 아무런 식별 가능한 개체가 없는 영상은 유효하지 않은 것으로 간주될 수 있다. 특정 허용 오차 내의 기준 내에 맞는지를 결정하는 알고리즘이 사용될 수 있다. 유효하지 않으면, 시스템은 실패 응답을 생성할 수 있다(240). 인제스트 응답은 경보 또는 통지를 전송하기 위해 사용자 인터페이스로 전송될 수 있다(225).
영상 세그먼트가 유효하면, 시스템은 영상을 세그먼트로 분할할 수 있다(245). 예를 들어, (장면 콘텐츠에 기초한) 유사한 섹션이 함께 그룹화될 수 있으며, 개별 프레임이 추출될 수 있다(255). 각 프레임(260)에 대해 시각적 특징이 생성될 수 있다(260). 각 프레임은 그 적합성을 보장하기 위해 분석될 수 있다(265). 예를 들어, 시스템은 각 프레임에서 개체 및 특징을 검출하고 식별하려고 시도할 수 있다. 낮은 해상도 또는 흐린 프레임은 적합하지 않은 것으로 간주될 수 있다. 충분한 특징이 존재하면(270), 프레임은 콘텐츠 데이터베이스에 삽입될 수 있다(275, 180).
세그먼트 분석
영상 세그먼트 분석은 사용자가 식별된 세그먼트를 격리하고 세그먼트 특정 메타데이터를 식별된 세그먼트에 제공할 수 있게 하는 영상 인제스트 프레임워크의 구성요소이다.
도 4는 세그먼트 분석 프레임워크(350)가 어떻게 기능할 수 있는지를 도시한다. 업로드된 영상(110)은 세그먼트로 분할된다. 세그먼트(310)는 식별된 다음 그룹화될 수 있다. 세그먼트 내 고유성이 있는 세그먼트는 조합되거나 함께 그룹화될 수 있다(330). 예를 들어, 유사한 개체가 있는 유사한 설정의 영상 세그먼트는 영상 내의 유사한 상황으로부터 출처될 가능성이 높다. 또한, 중복 세그먼트가 식별될 수 있다(180). 중복 세그먼트가 식별될 때, 중복 세그먼트는 폐기/삭제될 수 있다.
바람직한 실시예에서, 영상은 전체론적 방식으로 가공되어 다음을 식별한다:
1) 영상 내의 구분 가능한 세그먼트 또는 장면 -> 이것은 영상을 가공하여 각각 단일의 논리적 이벤트에 대응하는 프레임 그룹을 찾는다.
2) 영상 전체에서 존재하는 중복 세그먼트 -> 이것은 위의 프로세스에서 발견된 모든 세그먼트를 비교하여 서로 시각적으로 분리할 수 없는(즉, 이미지 검색 중 모호성을 유발할 가능성 있는) 임의의 세그먼트 쌍 또는 세그먼트 그룹을 식별한다.
3) 시각적 검색 플랫폼의 콘텐츠 데이터베이스 내에 이미 존재하는 중복 세그먼트 -> 이러한 검사는 세그먼트 또는 세그먼트 내의 프레임이 시각적 검색 콘텐츠 데이터베이스 내에 이미 존재할 수 있는지를 평가한다.
성공적인 영상 분할 후에, 각 세그먼트는 또한 콘텐츠 데이터베이스(180)에 삽입하기에 적합한 포맷으로 변환될 수 있다.
세그먼트 특징 추출
유효 영상 세그먼트의 식별 및 격리시, 세그먼트 내의 각 프레임을 삽입 레코드에 패키징하는 것이 필요하다.
이것은 세그먼트 내 각 프레임을 가공하고 스케일 및 회전 불변의 시각적 특징을 (ORB와 같은) 벡터로 표현하는 데이터를 추출하기 위해 시스템상에서 동작하는 컴퓨터 프로그램에 의해 구현된 모듈을 필요로 한다. 또한, 각 특징 벡터는 다양한 메타데이터 및 식별자와 조합되어 콘텐츠 데이터베이스에 삽입하기 위한 복합 데이터 구조를 생성할 수 있다.
이러한 복합 데이터 구조의 샘플 실시예는 다음을 포함할 수 있다:
- 고유 프레임 식별자
- 고유 세그먼트 식별자
- 프레임 시각적 기능
- 메타데이터(게시자, 설명 태그 등).
데이터베이스 삽입
일단 프레임 삽입 레코드가 생성되면, 개체는 콘텐츠 데이터베이스에 삽입될 준비가 된다. 프레임 레코드를 콘텐츠 데이터베이스에 삽입하기 전에, 제공된 콘텐츠 ID를 사용하여 콘텐츠 데이터베이스가 쿼리된다. 콘텐츠가 존재하지 않으면, 콘텐츠의 추가를 타당한 것으로 할 수 있게 하는 프로세스 흐름이 있을 수 있다.
그런 다음 삽입 레코드는 지속성을 위해 데이터베이스로 전송될 수 있다. 성공적인 지속성이면, 데이터베이스는 이러한 업데이트 요청에 대한 확인을 제공하고, 삽입 레코드의 전송을 담당하는 컴퓨터 프로그램으로 응답을 반환할 것이다. 그 다음에 이러한 상태 업데이트는 프레임워크를 통해 전달되어, 해당 특정 프레임의 프로세스 체인의 완료를 나타낼 수 있다.
도 5는 프레임이 어떻게 가공되어 콘텐츠 데이터베이스(180)에 삽입될 수 있는지에 관한 예시적인 실시예를 도시한다. 가공된 영상 세그먼트(410)는 분석되어 시각적 특징(415)을 추출하고 세그먼트 삽입 레코드(435)를 생성한다.
시스템은 메타데이터를 파싱하고(420), 링크된 콘텐츠가 존재하는지를 결정할 수 있다(440). 예를 들어, 유사한 콘텐츠가 이미 데이터베이스에 있을 수 있다. 그렇다면, 시스템은 링크된 콘텐츠 ID(450)를 식별하여 세그먼트 삽입 레코드를 생성하고(435) 프레임을 콘텐츠 데이터베이스(180)에 삽입할 수 있다. 어떠한 링크된 콘텐츠도 존재하지 않으면, 시스템은 콘텐츠 데이터베이스(180)에 삽입하기 위한 콘텐츠를 생성할 수 있다(445). 이러한 접근 방식은 이미지 콘텐츠(즉, 스캔된 이미지)뿐만 아니라 영상 콘텐츠(즉, 가공된 프레임)에 사용될 수 있다.
사용 예(USE CASES)
콘텐츠 증식
본 발명은 영상의 형태로 미디어를 풍부하게 및/또는 증식하는데 사용될 수 있다. 또한, 영상 내에서 구분 가능한 세그먼트를 분석하고 분리할 수 있으므로, 각 세그먼트를 상이한 콘텐츠 세트에 링크하는 것이 가능하다.
예로서, 콘텐츠 작성자는 프레임워크를 사용하여 영상 콘텐츠를 시각적 검색 플랫폼에 업로드할 수 있다. 영상 분석을 통해 다수의 세그먼트가 식별된다:
1) 소개 제목 순서. 이것은 제작자의 홈페이지 URL 다른 위치와 링크될 수 있다.
2) 각 팀 멤버를 소개하는 다수의 세그먼트: 각 멤버의 영상 세그먼트는 각자의 약력소개 페이지의 URL에 링크될 수 있다.
3) 상품을 설명하는 세그먼트. 이 세그먼트는 상품과 가상적으로 상호작용하는 메커니즘을 제공하는 증강 현실 오버레이에 매핑될 수 있다.
4) 상품의 장점과 단점의 결론적인 세그먼트. 이 세그먼트는 상품이 구매될 수 있는 온라인 소매업자 리스트에 매핑될 수 있다.
이러한 방식으로, 시각적 검색을 기초로 하여 부가 콘텐츠와의 상관 관계를 위한 플랫폼을 제공함으로써 기존 영상 콘텐츠가 증식되고 강화될 수 있다.
운영 환경:
시스템은 전형적으로 데이터 네트워크에 의해 사용자의 컴퓨터에 연결된 중앙 서버로 구성된다. 중앙 서버는 하나 이상의 대용량 저장 디바이스에 연결된 하나 이상의 컴퓨터로 구성될 수 있다. 중앙 서버의 바로 그러한 아키텍처는 청구된 발명을 제한하지 않는다. 또한, 사용자의 컴퓨터는 랩톱 또는 데스크톱 유형의 퍼스널 컴퓨터일 수 있다. 사용자의 컴퓨터는 또한 태블릿을 비롯한 셀 폰, 스마트 폰 또는 기타 휴대용 디바이스일 수도 있다. 사용자 컴퓨터의 바로 그러한 폼 팩터는 청구된 발명을 제한하지 않는다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예는 이것으로 제한되는 것은 아니지만, 퍼스널 컴퓨터, 서버 컴퓨터, 휴대용, 랩톱 또는 모바일 컴퓨터 또는 셀 폰 및 PDA와 같은 통신 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그래머블 가전 기기, 네트워크 PC, 미니 컴퓨터, 메인프레임 컴퓨터, 위의 시스템 또는 디바이스 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등을 포함한다. 사용자 컴퓨터의 바로 그러한 폼 팩터는 청구된 발명을 제한하지 않는다. 일 실시예에서, 사용자의 컴퓨터가 생략되고, 대신에 중앙 서버와 함께 동작하는 별도의 컴퓨팅 기능성이 제공된다. 이러한 경우, 사용자는 다른 컴퓨터로부터 서버에 로그인하고 사용자 환경을 통해 시스템에 액세스한다.
사용자 환경은 중앙 서버에 수용되거나 또는 중앙 서버에 동작 가능하게 연결될 수 있다. 또한, 사용자는 인터넷을 통해 데이터를 중앙 서버로부터 수신하고 데이터를 중앙 서버로 전송할 수 있으며, 이에 의해 사용자는 인터넷 웹 브라우저를 사용하여 계정에 액세스하며 브라우저는 중앙 서버에 동작 가능하게 연결된 대화식 웹 페이지를 디스플레이한다. 중앙 서버는 고객의 브라우저 사용자 인터페이스의 작동에 응답하여 브라우저로부터 전송된 데이터 및 커맨드에 응답하여 데이터를 전송 및 수신한다. 본 발명의 일부 단계는 사용자의 컴퓨터상에서 수행될 수 있으며, 중간 결과는 서버로 전송될 수 있다. 이러한 중간 결과는 서버에서 가공될 수 있으며 최종 결과는 사용자에게 다시 전달된다.
본 명세서에 설명된 방법은 일반적으로 메모리 디바이스, 데이터 입력 및 출력 회로(I/O) 및 컴퓨터 데이터 네트워크 통신 회로에 동작 가능하게 연결된 중앙 프로세싱 유닛(central processing unit)(CPU)으로 구성되는 컴퓨터 시스템상에서 실행될 수 있다. CPU에 의해 실행되는 컴퓨터 코드는 데이터 통신 회로에 의해 수신된 데이터를 받아 이를 메모리 디바이스에 저장할 수 있다. 또한 CPU는 I/O 회로로부터 데이터를 가져 와서 이를 메모리 디바이스에 저장할 수 있다. 추가로, CPU는 메모리 디바이스로부터 데이터를 가져 와서 이를 I/O 회로 또는 데이터 통신 회로를 통해 출력할 수 있다. 메모리에 저장된 데이터는 메모리 디바이스로부터 추가로 다시 호출되고, 본 명세서에 설명된 방식으로 CPU에 의해 추가 가공되거나 변경될 수 있고 데이터 네트워크 회로에 의해 포함하는 CPU에 동작 가능하게 연결된 동일한 메모리 디바이스 또는 상이한 메모리 디바이스에 다시 저장될 수 있다. 메모리 디바이스는 하드 디스크, 광학 디스크 또는 고체 상태 메모리를 비롯한 임의의 종류의 데이터 저장 회로 또는 자기 저장 또는 광학 디바이스일 수 있다. I/O 디바이스는 디스플레이상의 커서 위치의 상대 위치를 컴퓨터에 표시하는 디스플레이 스크린, 라우드스피커, 마이크로폰 및 이동 가능한 마우스 및 커맨드를 표시하기 위해 작동될 수 있는 하나 이상의 버튼을 포함할 수 있다.
컴퓨터는 I/O 회로에 동작 가능하게 연결된 디스플레이 스크린 상에 사용자 인터페이스의 외관을 디스플레이할 수 있다. 디스플레이 스크린을 구성하는 픽셀로 하여금 브라우저 사용자 인터페이스의 고객의 작동을 발생하는 컴퓨터 생성 데이터의 결과로서 다양한 형상, 텍스트 및 다른 그래픽 형태가 스크린 상에 디스플레이된다. 본 발명의 일부 단계는 사용자의 컴퓨터상에서 수행될 수 있고, 중간 결과는 서버에 전송될 수 있다. 이러한 중간 결과는 서버에서 가공될 수 있으며 최종 결과는 사용자에게 다시 전달된다.
본 명세서에 설명된 방법은 일반적으로 메모리 디바이스, 데이터 입력 및 출력 회로(I/O) 및 컴퓨터 데이터 네트워크 통신 회로에 동작 가능하게 연결된 중앙 프로세싱 유닛(central processing unit)(CPU)으로 구성되는 컴퓨터 시스템상에서 실행될 수 있다. CPU에 의해 실행되는 컴퓨터 코드는 데이터 통신 회로에 의해 수신된 데이터를 받아 이를 메모리 디바이스에 저장할 수 있다. 또한 CPU는 I/O 회로로부터 데이터를 가져 와서 이를 메모리 디바이스에 저장할 수 있다. 추가로, CPU는 메모리 디바이스로부터 데이터를 가져 와서 이를 I/O 회로 또는 데이터 통신 회로를 통해 출력할 수 있다. 메모리에 저장된 데이터는 메모리 디바이스로부터 추가로 다시 호출되고, 본 명세서에 설명된 방식으로 CPU에 의해 추가 가공되거나 변경될 수 있고 데이터 네트워크 회로에 의해 포함하는 CPU에 동작 가능하게 연결된 동일한 메모리 디바이스 또는 상이한 메모리 디바이스에 다시 저장될 수 있다. 메모리 디바이스는 하드 디스크, 광학 디스크 또는 고체 상태 메모리를 비롯한 임의의 종류의 데이터 저장 회로 또는 자기 저장 또는 광학 디바이스일 수 있다. I/O 디바이스는 디스플레이상의 커서 위치의 상대 위치를 컴퓨터에 표시하는 디스플레이 스크린, 라우드스피커, 마이크로폰 및 이동 가능한 마우스 및 커맨드를 표시하기 위해 작동될 수 있는 하나 이상의 버튼을 포함할 수 있다.
컴퓨터는 I/O 회로에 동작 가능하게 연결된 디스플레이 스크린 상에 사용자 인터페이스의 외관을 디스플레이할 수 있다. 디스플레이 스크린을 구성하는 픽셀로 하여금 다양한 색 및 음영을 취하게 하는 컴퓨터 생성 데이터의 결과로서 다양한 형상, 텍스트 및 다른 그래픽 형태가 스크린 상에 디스플레이된다. 사용자 인터페이스는 또한 관련 기술분야에서 커서라고 지칭하는 그래픽 개체를 디스플레이한다. 디스플레이 상의 개체의 위치는 사용자에게 스크린 상의 다른 개체의 선택을 표시한다. 커서는 I/O 회로에 의해 컴퓨터에 연결된 다른 디바이스를 통해 사용자에 의해 이동될 수 있다. 이러한 디바이스는 사용자의 특정한 신체 움직임, 예를 들어, 평평한 표면상의 손의 위치 또는 평평한 표면상의 손가락 위치를 검출한다. 이러한 디바이스는 관련 기술분야에서 마우스 또는 트랙 패드라고 지칭될 수 있다. 일부 실시예에서, 디스플레이 스크린 자체는 디스플레이 스크린의 표면상의 하나 이상의 손가락의 존재 및 위치를 감지함으로써 트랙 패드처럼 작용할 수 있다. 버튼 또는 스위치인 것으로 보이는 그래픽 개체 위에 커서가 위치할 때, 사용자는 마우스 또는 트랙패드 또는 컴퓨터 디바이스상의 물리적 스위치를 맞물리게 함으로써 또는 트랙패드 또는 터치 감응 디스플레이를 탭핑함으로써 버튼 또는 스위치를 작동시킬 수 있다. 컴퓨터가 물리적 스위치가 맞물려진 것(또는 트랙패드 또는 터치 검출 스크린의 탭핑이 발생한 것)을 검출할 때, 컴퓨터는 스크린 상에서 커서의 명확한 위치(또는 터치 감응 스크린의 경우, 손가락의 검출된 위치)를 취하고 해당 위치와 연관된 프로세스를 실행한다. 예로서, 개시된 발명의 폭을 제한하려 의도하지 않고, "입력(enter)"이라는 단어가 들어 있는 2 차원 박스인 것처럼 보이는 그래픽 개체가 스크린 상에 디스플레이될 수 있다. 컴퓨터가 커서 위치(또는 터치 감응 스크린의 손가락 위치)가 그래픽 개체, 예를 들면, 디스플레이된 박스의 경계 내에 있는 동안 스위치가 맞물렸음을 검출하면, 컴퓨터는 "입력" 커맨드와 연관된 프로세스를 실행할 것이다. 이러한 방식으로, 스크린상의 그래픽 개체는 사용자가 컴퓨터상에서 동작하는 프로세스를 제어하게 하는 사용자 인터페이스를 생성한다.
본 발명은 또한 전적으로 하나 이상의 서버상에서 실행될 수 있다. 서버는 대용량 저장 디바이스 및 네트워크 연결을 갖는 중앙 프로세싱 유닛으로 구성된 컴퓨터일 수 있다. 또한, 서버는 데이터 네트워크 또는 다른 데이터 전송 연결과 함께 연결된 다수의 이러한 컴퓨터, 또는 네트워크 연결 저장소(network accessed storage)를 갖는 네트워크상의 다수의 컴퓨터를, 그룹과 같은 기능성을 제공하는 방식으로 포함될 수 있다. 관련 기술분야에서 통상의 기술자라면 하나의 서버에서 달성되는 기능은 적절한 프로세스 간 통신을 통해 컴퓨터 네트워크에 의해 동작 가능하게 연결된 다수의 서버상에서 나뉘어져 달성될 수 있다는 것을 인식할 것이다. 또한 웹 사이트의 액세스는 보안 또는 공개 페이지에 액세스하는 인터넷 브라우저에 의해 또는 컴퓨터 네트워크를 통해 서버에 연결된 로컬 컴퓨터상에서 실행되는 클라이언트 프로그램에 의해 수행될 수 있다. 데이터 메시지 및 데이터 업로드 또는 다운로드는 두 개의 원격 컴퓨터상에서 실행되는 프로세스가 디지털 네트워크 통신에 의해 정보를 교환하게 해주는 TCP/IP, HTTP, TCP, UDP, SMTP, RPC, FTP 또는 다른 종류의 데이터 통신 프로토콜을 비롯한 전형적인 프로토콜을 사용하여 인터넷을 통해 전달될 수 있다. 결과적으로, 데이터 메시지는 컴퓨터로부터 전송되거나 컴퓨터에 의해 수신되는, 목적지 네트워크 어드레스, 목적지 프로세스 또는 애플리케이션 식별자, 및 관련 데이터 값이 추출되어 목적지 애플리케이션에 의해 사용되도록 하기 위해 목적지 애플리케이션에 의해 목적지 네트워크 어드레스에 위치된 목적지 컴퓨터에서 파싱될 수 있는 데이터 값을 갖고 있는 데이터 패킷일 수 있다. 중앙 서버의 바로 그러한 아키텍처는 청구된 발명을 제한하지 않는다. 또한, 데이터 네트워크는 여러 레벨로 동작할 수 있고, 이에 따라 사용자 컴퓨터는 방화벽을 통해 하나의 서버에 연결되고, 하나의 서버는 공개된 방법을 실행하는 다른 서버로 통신신호를 라우팅한다.
사용자 컴퓨터는 데이터 파일 내의 데이터를 해석하고 디스플레이 디바이스에게 특정 텍스트, 이미지, 영상, 오디오 및 다른 개체를 제공하도록 명령하는 프로그램에 전달되는 데이터 파일을 원격 서버로부터 수신하는 프로그램을 동작시킬 수 있다. 프로그램은 마우스 버튼이 작동될 때 커서의 상대 위치를 검출할 수 있고, 버튼이 눌려졌을 때 디스플레이 상에 표시된 상대 위치상의 위치에 기초하여 실행될 커맨드를 해석할 수 있다. 데이터 파일은 HTML 문서일 수 있고, 프로그램은 웹 브라우저 프로그램이며, 커맨드는 브라우저로 하여금 다른 원격 데이터 네트워크 어드레스 위치로부터 새로운 HTML 문서를 요청하게 하는 하이퍼-링크일 수 있다. HTML은 다른 코드 모듈이 호출되어 실행되게 하는 참조, 예를 들어, 플래시(Flash) 또는 다른 본연의 코드를 가질 수도 있다.
관련 기술분야에서 통상의 기술자는 본 발명이: 무선 디바이스, 인터넷 어플라이언스(Internet appliance), (개인 휴대 정보 단말기(PDA)를 비롯한) 휴대용 디바이스, 웨어러블 컴퓨터, 모든 방식의 셀룰러 또는 모바일 폰, 멀티-프로세서 시스템, 마이크로프로세서 기반 또는 프로그래머블 가전 기기, 셋톱 박스, 네트워크 PC, 미니 컴퓨터, 메인프레임 컴퓨터 등을 비롯한 다른 통신, 데이터 프로세싱, 또는 컴퓨터 시스템 구성으로 실시될 수 있다는 것을 인식할 것이다. 실제로, "컴퓨터", "서버" 등의 용어는 본 명세서에서 상호교환 가능하게 사용되고, 위의 디바이스 및 시스템 중 임의의 것을 지칭할 수 있다.
일부 사례에서, 특히 사용자 컴퓨터가 네트워크를 통해 데이터에 액세스하는데 사용되는 모바일 컴퓨팅 디바이스인 경우, 네트워크는 이것으로 제한되는 것은 아니지만, 세계 이동 통신 시스템(Global System for Mobile Communications)(GSM), 시분할 다중 액세스(Time Division Multiple Access)(TDMA), 코드 분할 다중 액세스(Code Division Multiple Access)(CDMA), 직교 주파수 분할 다중 액세스(Orthogonal Frequency Division Multiple Access)(OFDM), 일반 패킷 무선 서비스(General Packet Radio Service)(GPRS), 강화된 데이터 GSM 환경(Enhanced Data GSM Environment)(EDGE), 최신 모바일 폰 시스템(Advanced Mobile Phone System)(AMPS), 마이크로파 액세스를 위한 전세계 상호운영성(Worldwide Interoperability for Microwave Access)(WiMAX), 범용 이동 통신 시스템(Universal Mobile Telecommunications System)(UMTS), 에볼루션-데이터 최적화(Evolution-Data Optimized)(EVDO), 롱텀 에볼루션(Long Term Evolution)(LTE), 울트라 모바일 브로드밴드(Ultra Mobile Broadband)(UMB), 보이스 오버 인터넷 프로토콜(Voice over Internet Protocol)(VoIP), 또는 비면허 모바일 액세스(Unlicensed Mobile Access)(UMA)를 비롯한 임의의 유형의 IP 기반 또는 수렴형 통신 네트워크일 수 있다.
인터넷은 퍼스널 컴퓨터를 조작하는 고객이 원격지에 위치한 컴퓨터 서버와 상호작용하게 하고, 서버로부터 네트워크를 통해 퍼스널 컴퓨터로 데이터 파일로서 전달되는 콘텐츠를 시청하게 하는 컴퓨터 네트워크이다. 한 종류의 프로토콜에서, 서버는 브라우저라고 알려진 로컬 프로그램을 사용하여 고객의 퍼스널 컴퓨터에서 렌더링되는 웹 페이지를 제공한다. 브라우저는 고객의 퍼스널 컴퓨터 스크린상에 디스플레이된 하나 이상의 데이터 파일을 서버로부터 수신한다. 브라우저는 유니버설 리소스 로케이터(Universal Resource Locator)(URL)라고 부르는 영숫자 문자열로 표현되는 특정 어드레스로부터 그러한 데이터 파일을 찾는다. 그러나 웹 페이지는 다양한 URL 또는 IP 어드레스로부터 다운로드되는 특정 요소를 포함할 수 있다. 웹 사이트는 동일한 루트 어드레스를 모두 통상적으로 공유하거나, 일부 실체의 제어하에 있는 관련 있는 URL의 집합이다. 일 실시예에서, 시뮬레이션된 공간의 상이한 영역은 URL이 상이하다. 즉, 시뮬레이션된 공간은 단일의 데이터 구조일 수 있지만, 상이한 URL은 데이터 구조의 상이한 다른 위치를 참조한다. 이것은 넓은 영역을 시뮬레이션하는 것을 가능하게 하고 참여자들이 자신의 가상 이웃 내에서 그 영역을 사용하기 시작하게 하는 것을 가능하게 한다.
본 명세서에서 이전에 설명된 기능성의 전부 또는 일부를 구현하는 컴퓨터 프로그램 로직은 어떤 방식으로든 제한하는 것은 아니지만, 소스 코드 형태, 컴퓨터 실행 가능 형태 및 다양한 중간 형태(예를 들어, 어셈블러, 컴파일러, 링커 또는 로케이터에 의해 생성된 형태)를 비롯한 다양한 형태로 구현될 수 있다. 소스 코드는 다양한 운영 체제 또는 운영 환경과 함께 사용하기 위한 다양한 프로그래밍 언어(예를 들어, 목적 코드, 어셈블리 언어 또는 C, C-HF, C#, 액션 스크립트(Action Script), PHP, EcmaScript, 자바스크립트(JavaScript), JAVA 또는 5 HTML와 같은 고급 언어) 중 임의의 다양한 프로그래밍 언어로 구현된 일련의 컴퓨터 프로그램 명령어를 포함할 수 있다. 소스 코드는 다양한 데이터 구조 및 통신 메시지를 정의하고 사용할 수 있다. 소스 코드는 (예를 들어, 인터프리터(interpreter)를 통해) 컴퓨터 실행 가능 형태로 만들어질 수 있고, 또는 소스 코드는 (예를 들어, 트랜스레이터, 어셈블러 또는 컴파일러를 통해) 컴퓨터 실행 가능 형태로 변환될 수 있다.
본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행 가능 명령어의 일반적인 맥락으로 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 특정한 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 컴퓨터 프로그램 및 데이터는 반도체 메모리 디바이스(예를 들어, RAM, ROM, PROM, EEPROM 또는 플래시-프로그래머블 RAM), 자기 메모리 디바이스(예를 들어, 디스켓 또는 고정형 하드 디스크), 광학 메모리 디바이스(예를 들어, CD-ROM 또는 DVD), PC 카드(예를 들어, PCMCIA 카드), 또는 다른 메모리 디바이스와 같은 유형의 저장 미디어 내에 영구적으로 또는 일시적으로 임의의 형태(예를 들어, 소스 코드 형태, 컴퓨터 실행 가능 형태, 또는 중간 형태)로 고정될 수 있다. 컴퓨터 프로그램 및 데이터는 어떤 방식으로든 제한하는 것은 아니지만, 아날로그 기술, 디지털 기술, 광학 기술, 무선 기술, 네트워킹 기술 및 인터네크워킹 기술을 비롯한 다양한 통신 기술 중 임의의 통신 기술을 사용하여 컴퓨터로 전송 가능한 임의의 형태의 신호로 고정될 수 있다. 컴퓨터 프로그램 및 데이터는 컴퓨터 시스템을 이용하여 (예를 들어, 시스템 ROM 또는 고정형 디스크상에) 미리 로딩된, 인쇄 또는 전자 기록문서(예를 들어, 축소 포장된 소프트웨어 또는 자기 테이프)가 동반된 착탈식 저장 미디어와 같은 임의의 형태로 분산될 수 있거나, 또는 통신 시스템(예를 들어, 인터넷 또는 월드 와이드 웹)을 통해 서버 또는 전자 게시판으로부터 분산될 수 있다. 본 발명의 임의의 소프트웨어 구성요소는 원한다면, ROM(read-only memory)(판독 전용 메모리) 형태로 구현될 수 있다는 것이 인식된다. 일반적으로, 소프트웨어 구성요소는 원한다면, 통상의 기술을 사용하여 하드웨어로 구현될 수 있다.
본 발명은 통신 네트워크를 통해 링크된 원격 프로세싱 디바이스에 의해 작업이 수행되는 분산 컴퓨팅 환경에서도 또한 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 저장 미디어의 둘 모두에 위치할 수 있다. 관련 기술분야에서 통상의 기술자라면 본 발명은 예를 들어, 인터넷을 포함하는 데이터 네트워크를 사용하여 링크된 하나 이상의 컴퓨터 프로세서상에서 실행될 수 있다는 것을 인식할 것이다. 다른 실시예에서, 프로세스의 상이한 단계는 지리적으로 떨어져 있지만 프로세스 단계를 실행하기 위해 함께 동작하는 방식으로 데이터 네트워크에 의해 연결된 하나 이상의 컴퓨터 및 저장 디바이스에 의해 실행될 수 있다. 일 실시예에서, 사용자의 컴퓨터는 사용자의 컴퓨터가 하나 이상의 데이터 패킷의 스트림을 데이터 네트워크를 통해 본 명세서에서 서버라고 지칭되는 제2 컴퓨터로 전송하게 하는 애플리케이션을 실행할 수 있다. 서버는 다음 차례로 데이터베이스가 저장된 하나 이상의 대용량 데이터 저장 디바이스에 연결될 수 있다. 서버는 전송된 패킷을 수신하고 데이터베이스 쿼리 정보를 추출하기 위해 전송된 데이터 패킷을 해석하는 프로그램을 실행할 수 있다. 그런 다음 서버는 대용량 저장 디바이스에 액세스하여 쿼리의 원하는 결과를 도출함으로써 본 발명의 나머지 단계를 실행할 수 있다. 대안적으로, 서버는 쿼리 정보를 대용량 저장 디바이스에 연결된 다른 컴퓨터에 전송할 수 있고, 그 컴퓨터는 본 발명을 실행하여 원하는 결과를 도출할 수 있다. 그런 다음 결과는 사용자의 컴퓨터에 적절하게 어드레스 지정된 하나 이상의 데이터 패킷의 다른 스트림에 의해 사용자의 컴퓨터로 다시 전송될 수 있다. 일 실시예에서, 관계형 데이터베이스는 컴퓨터 메모리, 예를 들어 디스크 드라이브에 동작 가능하게 연결된 하나 이상의 동작 가능하게 연결된 서버에 수용될 수 있다. 또 다른 실시예에서, 관계형 데이터베이스의 초기화는 일련의 서버에 준비될 수 있으며, 사용자의 컴퓨터와의 상호작용은 전체 프로세스의 다른 곳에서 일어난다.
흐름도는 본 명세서에서 본 발명의 다양한 양태를 보여주기 위해 사용되는 것이지, 본 발명을 임의의 특정 로직 흐름 또는 로직 구현으로 제한하려는 것으로 해석되지 않아야 한다. 설명된 로직은 전체 결과를 변경하지 않고 또는 다른 방식으로 본 발명의 진정한 범위를 벗어나지 않고 상이한 로직 블록(예를 들어, 프로그램, 모듈, 함수 또는 서브루틴)으로 분할될 수 있다. 종종, 로직 요소는 전체 결과를 변경시키지 않고 또는 다른 방식으로 본 발명의 진정한 범위를 벗어나지 않고 추가되거나, 변경되거나, 생략되거나, 상이한 순서로 수행되거나, 또는 상이한 로직 구성(예를 들어, 로직 게이트, 루핑 프리미티브(looping primitive), 조건 로직 및 다른 로직 구성)을 사용하여 구현될 수 있다.
본 발명의 설명된 실시예는 예시적인 것으로 의도되며 많은 변형 및 변경이 관련 기술분야에서 통상의 기술자에게 명백할 것이다. 이러한 모든 변형 및 변경은 첨부된 청구 범위에 정의된 바와 같이 본 발명의 범위 내에 있는 것으로 의도된다. 본 발명이 상세히 설명되고 도시되었지만, 이것은 단지 예시 및 예일 뿐이며, 제한으로서 취급되지 않아야 한다는 것을 명확히 이해하여야 한다. 명료함을 위해 별개의 실시예의 맥락으로 설명된 본 발명의 다양한 특징은 또한 단일의 실시예에서 조합하여 제공될 수도 있다는 것이 인식된다.

Claims (11)

  1. 영상으로부터 프레임을 업로드하고, 상기 프레임을 데이터베이스에 저장하고 인덱싱하는 방법으로서,
    a) 영상을 획득하는 단계;
    b) 상기 영상을 특징에 대하여 분석하는 단계;
    c) 특징에 기초하여 상기 영상를 세그먼트로 분리하는 단계 - 세그먼트는 동일하거나 유사한 장면에 대응하는 프레임을 그룹화함으로써 식별되고, 상기 영상 내의 중복 세그먼트가 제거되고, 상기 데이터베이스에 이미 존재하는 상기 영상 내의 세그먼트가 제거되고, 상기 세그먼트 내의 개개의 프레임이 추출되고 각각의 프레임에 대해 시각적 특징이 생성되며, 세그먼트에는 메타 데이터로 주석을 붙임 -;
    d) 세그먼트의 시각적 특징을 분석하여 시각적 특징이 유사한 세그먼트를 그룹화하는 단계;
    e) 각 프레임의 적합성을 분석하는 단계;
    f) 부적합성이 결정되면 경보를 제공하는 단계;
    g) 적합성이 결정되면, 세그먼트의 하나 이상의 프레임을 메타 데이터로 주석을 붙이는 단계 - 상기 시각적 특징은 특징 벡터로 추출되고, 각각의 특징 벡터는 메타데이터 및 고유 식별자와 결합되어 프레임 식별자, 세그먼트 식별자, 프레임 시각적 특징 및 메타데이터를 포함하는 복합 데이터 구조를 생성함 -; 및
    h) 상기 세그먼트의 하나 이상의 특징을 상기 데이터베이스에 저장하는 단계를 포함하고,
    상기 데이터베이스는 상기 복합 데이터 구조를 사용하여 쿼리를 받아 상기 데이터베이스에 링크된 콘텐츠가 존재하는지를 결정하고 세그먼트 삽입 레코드를 생성하여 프레임을 상기 데이터베이스에 삽입함 - 을 포함하는, 영상으로부터 프레임을 업로드하고, 하나 이상의 프레임을 데이터베이스에 저장하고 인덱싱하는 방법.
  2. 제1항에 있어서,
    상기 영상의 프레임 레이트 및/또는 해상도를 감소시키는 추가 단계를 포함하는, 영상으로부터 프레임을 컴파일하고, 프레임을 데이터베이스에 저장하고 인덱싱하는 방법.
  3. 제1항에 있어서,
    사용자가 쿼리를 제출할 때 상기 데이터베이스에 액세스하는 단계 및 공유된 특징에 기초하여 상기 쿼리를 상기 데이터베이스 내의 상기 세그먼트의 하나 이상의 프레임과 매칭시키는 단계의 두 개의 추가 단계를 포함하는, 영상으로부터 프레임을 컴파일하고, 프레임을 데이터베이스에 저장하고 인덱싱하는 방법.
  4. 영상을 업로드하기 위한 시스템으로서,
    영상을 서버에 업로드하는 사용자 인터페이스;
    상기 영상을 처리하고 상기 영상으로부터 세그먼트를 프레임으로서 추출하는 컴퓨터 프로그램 - 각각의 프레임에 대해 시각적 특징이 생성되고 상기 추출된 세그먼트에는 메타 데이터로 주석을 붙이고,
    세그먼트는 동일하거나 유사한 장면에 대응하는 프레임을 그룹화함으로써 식별되고, 상기 영상 내의 중복 세그먼트가 제거되고, 데이터베이스에 이미 존재하는 상기 영상 내의 세그먼트가 제거됨 -;
    상기 세그먼트 내의 각각의 프레임을 처리하고 시각적 특징을 특징 벡터로 추출하는 모듈 - 각각의 특징 벡터는 메타데이터 및 고유 식별자와 결합되어 프레임 식별자, 세그먼트 식별자, 프레임 시각적 특징 및 메타데이터를 포함하는 복합 데이터 구조를 생성함 -; 및
    상기 추출된 세그먼트를 저장하는 상기 데이터베이스 - 상기 데이터베이스는 상기 복합 데이터 구조를 사용하여 쿼리를 받아 상기 데이터베이스에 링크된 콘텐츠가 존재하는지를 결정하고 세그먼트 삽입 레코드를 생성하여 프레임을 상기 데이터베이스에 삽입함 - 를 포함하고,
    상기 추출된 세그먼트는 이미지 특징 및 해상도를 비롯한 적합성 파라미터에 대한 준수 여부에 대해 분석되며;
    각 프레임의 적합성이 분석되고 프레임의 부적합성이 검출되면 응답이 생성되는, 영상을 업로드하는 시스템.
  5. 제4항에 있어서,
    쿼리를 수신하기 위한 수단 및 공유된 특징에 기초하여 상기 쿼리를 상기 데이터베이스 내의 하나 이상의 영상 섹션과 매칭시키기 위한 모듈을 포함하는, 영상을 업로드하는 시스템.
  6. 인쇄 미디어로부터의 이미지를 데이터베이스에 업로드하는 방법으로서,
    a) 인쇄 미디어를 획득하는 단계;
    b) 상기 인쇄 미디어를 디지털 미디어로 변환하는 단계;
    c) 상기 디지털 미디어를 하나 이상의 세그먼트로 분할하는 단계;
    d) 에지의 연결된 윤곽에 기초하여 상기 하나 이상의 세그먼트 내의 텍스트를 검출하는 단계 - 상기 에지는 모폴로지 그라데이션 동작(morphology gradient operation)에 의해 검출되고, 윤곽은 단어, 선 및 주변 텍스트를 격리하는 연결된 구성요소 분석(connected components analysis)에 의해 검출되고, 상기 윤곽이 하나를 초과하는 선을 포함하고 있는지를 윤곽의 수직 투영이 검출하고, 단일의 선 및 단어는 단락으로 연결되어 레이블을 붙이거나, 경계 상자 또는 윤곽 영역을 나타내는 사각형의 큰 단일 선으로 연결되어 레이블을 붙임 -;
    e) 상기 하나 이상의 세그먼트로부터 텍스트가 있는 영역을 제거하는 단계;
    f) 상기 하나 이상의 세그먼트 내의 하나 이상의 이미지를 검출하는 단계;
    g) 상기 하나 이상의 이미지를 분류하기에 충분한 특징이 존재하는지를 결정하는 단계;
    h) 상기 특징이 충분하지 않으면 경보를 제공하는 단계;
    i) 상기 특징이 충분하면 상기 하나 이상의 이미지를 분류하는 단계; 및
    j) 상기 특징이 충분할 때, 상기 하나 이상의 이미지를 데이터베이스에 삽입하는 단계를 포함하고,
    상기 삽입은 상기 하나 이상의 이미지로부터 시각적 특징의 추출 및 시각적 특징의 벡터, 세그먼트 ID 및 링크된 콘텐츠 ID를 포함하는 삽입 응답의 생성을 포함하는, 인쇄 미디어로부터의 이미지를 데이터베이스에 업로드하는 방법.
  7. 제6항에 있어서,
    사용자가 쿼리를 제출할 때 상기 데이터베이스에 액세스하는 단계 및 하나 이상의 이미지의 상기 특징을 비교함으로써 상기 쿼리를 상기 데이터베이스 내의 하나 이상의 이미지와 매칭시키는 단계의 두 개의 추가 단계를 포함하는, 인쇄 미디어로부터의 이미지를 데이터베이스에 업로드하는 방법.
  8. 제6항에 있어서,
    상기 하나 이상의 이미지에 메타데이터로 주석을 붙이는 추가 단계를 포함하는, 인쇄 미디어로부터의 이미지를 데이터베이스에 업로드하는 방법.
  9. 문서를 데이터베이스에 업로드하는 시스템으로서,
    상기 문서를 서버에 업로드하는 사용자 인터페이스;
    상기 문서를 처리하고 상기 문서를 하나 이상의 세그먼트 이미지로 분할하는 로직으로 구성된 모듈;
    에지의 연결된 윤곽에 기초하여 상기 이미지로부터 텍스트를 제거하는 로직으로 구성된 모듈 - 상기 에지는 모폴로지 그라데이션 동작(morphology gradient operation)에 의해 검출되고, 윤곽은 단어, 선 및 주변 텍스트를 격리하는 연결된 구성요소 분석(connected components analysis)에 의해 검출되고, 상기 윤곽이 하나를 초과하는 선을 포함하고 있는지를 윤곽의 수직 투영이 검출하고, 단일의 선 및 단어는 단락으로 연결되어 레이블을 붙이거나, 경계 상자 또는 윤곽 영역을 나타내는 사각형의 큰 단일 선으로 연결되어 레이블을 붙임 -;
    상기 이미지 내의 특징을 검출하는 로직으로 구성된 모듈;
    상기 특징을 감지하고, 상기 이미지로부터 시각적 특징을 추출하고 상기 시각적 특징의 벡터, 세그먼트 ID 및 링크된 콘텐츠 ID를 포함하는 삽입 응답의 생성하기 위한 로직으로 구성된 모듈; 및
    상기 이미지를 삽입하기 위한 데이터베이스를 포함하고,
    상기 이미지의 유효성을 위해 검출된 특징이 분석되며;
    비유효성이 결정되면 응답이 생성되는, 문서를 데이터베이스에 업로드하는 시스템.
  10. 제9항에 있어서,
    쿼리를 수신하기 위한 수단 및 공유된 특징에 기초하여 상기 쿼리를 상기 데이터베이스 내의 하나 이상의 이미지와 매칭시키기 위한 모듈을 포함하는, 문서를 데이터베이스에 업로드하는 시스템.
  11. 삭제
KR1020197009534A 2016-09-08 2017-09-07 시각적 검색 플랫폼용 영상 인제스트 프레임워크 KR102533972B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662384860P 2016-09-08 2016-09-08
US201662384872P 2016-09-08 2016-09-08
US62/384,872 2016-09-08
US62/384,860 2016-09-08
PCT/SG2017/050450 WO2018048356A1 (en) 2016-09-08 2017-09-07 Video ingestion framework for visual search platform

Publications (2)

Publication Number Publication Date
KR20190051006A KR20190051006A (ko) 2019-05-14
KR102533972B1 true KR102533972B1 (ko) 2023-05-17

Family

ID=61561988

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197009534A KR102533972B1 (ko) 2016-09-08 2017-09-07 시각적 검색 플랫폼용 영상 인제스트 프레임워크

Country Status (9)

Country Link
US (1) US11042753B2 (ko)
EP (2) EP4105822A1 (ko)
JP (1) JP2019531548A (ko)
KR (1) KR102533972B1 (ko)
CN (1) CN109716327B (ko)
MY (1) MY190933A (ko)
RU (1) RU2720536C1 (ko)
SG (1) SG11201809637WA (ko)
WO (1) WO2018048356A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180131856A (ko) * 2017-06-01 2018-12-11 에스케이플래닛 주식회사 배송 물품 정보 제공 방법 및 이를 위한 장치
CN108460335B (zh) * 2018-01-26 2022-05-27 百度在线网络技术(北京)有限公司 视频细粒度识别方法、装置、计算机设备及存储介质
AU2020263384A1 (en) * 2019-04-24 2021-11-11 Kumanu, Inc. Electronic devices and methods for self-affirmation and development of purposeful behavior
US11093755B2 (en) * 2019-11-19 2021-08-17 International Business Machines Corporation Video segmentation based on weighted knowledge graph
US11798282B1 (en) * 2019-12-18 2023-10-24 Snap Inc. Video highlights with user trimming
US11610607B1 (en) 2019-12-23 2023-03-21 Snap Inc. Video highlights with user viewing, posting, sending and exporting
US11538499B1 (en) 2019-12-30 2022-12-27 Snap Inc. Video highlights with auto trimming
IT202000007132A1 (it) * 2020-04-03 2021-10-03 Pablo Chepalich Diego Sistema digitale, metodi e apparati per associare un video e imagine a un codice QR
CN112001248B (zh) * 2020-07-20 2024-03-01 北京百度网讯科技有限公司 主动交互的方法、装置、电子设备和可读存储介质
US11417097B2 (en) * 2020-09-02 2022-08-16 Hewlett Packard Enterprise Development Lp Video annotation system for deep learning based video analytics
US11599574B2 (en) * 2020-10-26 2023-03-07 Dell Products L.P. Method and system for performing a compliance operation on video data using a data processing unit
US11514949B2 (en) 2020-10-26 2022-11-29 Dell Products L.P. Method and system for long term stitching of video data using a data processing unit
US11916908B2 (en) 2020-10-26 2024-02-27 Dell Products L.P. Method and system for performing an authentication and authorization operation on video data using a data processing unit
CN117099107A (zh) 2021-02-12 2023-11-21 艾可品牌公司 便于从纸和其它实体书写表面提取和组织信息的系统和方法
KR102561734B1 (ko) * 2021-02-15 2023-07-31 엔에이치엔클라우드 주식회사 이미지 복원 기반 상품검색 방법 및 시스템
US11836886B2 (en) 2021-04-15 2023-12-05 MetaConsumer, Inc. Systems and methods for capturing and processing user consumption of information
US11688035B2 (en) 2021-04-15 2023-06-27 MetaConsumer, Inc. Systems and methods for capturing user consumption of information
CN113852767B (zh) * 2021-09-23 2024-02-13 北京字跳网络技术有限公司 视频编辑方法、装置、设备及介质
WO2023081684A1 (en) * 2021-11-02 2023-05-11 MetaConsumer, Inc. Systems and methods for capturing and processing user consumption of information

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030084451A1 (en) * 2001-09-06 2003-05-01 Wayne Pierzga Method and system for providing an audio/video in-route entertainment system
JP2004280669A (ja) 2003-03-18 2004-10-07 Nippon Hoso Kyokai <Nhk> 映像特徴情報生成方法、映像特徴情報生成装置及び映像特徴情報生成プログラム
US20080212932A1 (en) * 2006-07-19 2008-09-04 Samsung Electronics Co., Ltd. System for managing video based on topic and method using the same and method for searching video based on topic
US20080317353A1 (en) 2007-06-25 2008-12-25 Intervideo, Digital Tech. Corp. Method and system for searching images with figures and recording medium storing metadata of image
US20090208115A1 (en) * 2005-12-21 2009-08-20 Nikon Corporation Image Combining Method, Image Combining Program, Image Combining Apparatus, Template Extraction Method and Template Extraction Program
US20110085739A1 (en) 2008-06-06 2011-04-14 Dong-Qing Zhang System and method for similarity search of images
US20120076357A1 (en) 2010-09-24 2012-03-29 Kabushiki Kaisha Toshiba Video processing apparatus, method and system
JP2012123460A (ja) 2010-12-06 2012-06-28 Toshiba Corp 映像検索装置、及び映像検索方法
JP2012227702A (ja) 2011-04-19 2012-11-15 Konica Minolta Business Technologies Inc 画像形成装置、画像形成装置における処理方法および画像形成装置に向けられたプログラム
US20130067333A1 (en) 2008-10-03 2013-03-14 Finitiv Corporation System and method for indexing and annotation of video content
US20130114890A1 (en) 2009-07-10 2013-05-09 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
CN103186538A (zh) 2011-12-27 2013-07-03 阿里巴巴集团控股有限公司 一种图像分类方法和装置、图像检索方法和装置
CN103927387A (zh) 2014-04-30 2014-07-16 成都理想境界科技有限公司 图像检索系统及其相关方法和装置
US20160112600A1 (en) 2014-10-15 2016-04-21 Kyocera Document Solutions Inc. Image forming apparatus and image forming method

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5568571A (en) 1992-12-14 1996-10-22 University Microfilms, Inc. Image enhancement system
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
CN101395626A (zh) * 2004-04-16 2009-03-25 Mobot公司 基于视觉提示的移动查询系统和方法
US7945099B2 (en) * 2005-05-09 2011-05-17 Like.Com System and method for use of images with recognition analysis
US8849031B2 (en) * 2005-10-20 2014-09-30 Xerox Corporation Document analysis systems and methods
EP2224357A1 (en) * 2009-02-27 2010-09-01 BRITISH TELECOMMUNICATIONS public limited company Video segmentation
US9195898B2 (en) * 2009-04-14 2015-11-24 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US20110082735A1 (en) * 2009-10-06 2011-04-07 Qualcomm Incorporated Systems and methods for merchandising transactions via image matching in a content delivery system
JP5121917B2 (ja) * 2010-12-21 2013-01-16 ヤフー株式会社 画像検索装置、画像検索方法及びプログラム
CN102207966B (zh) * 2011-06-01 2013-07-10 华南理工大学 基于对象标签的视频内容快速检索方法
US20130129142A1 (en) * 2011-11-17 2013-05-23 Microsoft Corporation Automatic tag generation based on image content
JP2014197412A (ja) * 2014-06-12 2014-10-16 トムソン ライセンシングThomson Licensing 画像の類似検索システム及び方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030084451A1 (en) * 2001-09-06 2003-05-01 Wayne Pierzga Method and system for providing an audio/video in-route entertainment system
JP2004280669A (ja) 2003-03-18 2004-10-07 Nippon Hoso Kyokai <Nhk> 映像特徴情報生成方法、映像特徴情報生成装置及び映像特徴情報生成プログラム
US20090208115A1 (en) * 2005-12-21 2009-08-20 Nikon Corporation Image Combining Method, Image Combining Program, Image Combining Apparatus, Template Extraction Method and Template Extraction Program
US20080212932A1 (en) * 2006-07-19 2008-09-04 Samsung Electronics Co., Ltd. System for managing video based on topic and method using the same and method for searching video based on topic
US20080317353A1 (en) 2007-06-25 2008-12-25 Intervideo, Digital Tech. Corp. Method and system for searching images with figures and recording medium storing metadata of image
US20110085739A1 (en) 2008-06-06 2011-04-14 Dong-Qing Zhang System and method for similarity search of images
US20130067333A1 (en) 2008-10-03 2013-03-14 Finitiv Corporation System and method for indexing and annotation of video content
US20130114890A1 (en) 2009-07-10 2013-05-09 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
US20120076357A1 (en) 2010-09-24 2012-03-29 Kabushiki Kaisha Toshiba Video processing apparatus, method and system
JP2012123460A (ja) 2010-12-06 2012-06-28 Toshiba Corp 映像検索装置、及び映像検索方法
JP2012227702A (ja) 2011-04-19 2012-11-15 Konica Minolta Business Technologies Inc 画像形成装置、画像形成装置における処理方法および画像形成装置に向けられたプログラム
CN103186538A (zh) 2011-12-27 2013-07-03 阿里巴巴集团控股有限公司 一种图像分类方法和装置、图像检索方法和装置
CN103927387A (zh) 2014-04-30 2014-07-16 成都理想境界科技有限公司 图像检索系统及其相关方法和装置
US20160112600A1 (en) 2014-10-15 2016-04-21 Kyocera Document Solutions Inc. Image forming apparatus and image forming method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
https://www.spiedigitallibrary.org/conference-proceedings-of-spie/1658/0000/Morphological-gradients/10.1117/12.58373.full?SSO=1
모폴로지 그라데이션, https://www.tutorialspoint.com/what-is-morphological-gradient-in-image-processing

Also Published As

Publication number Publication date
US20190354766A1 (en) 2019-11-21
RU2720536C1 (ru) 2020-04-30
CN109716327A (zh) 2019-05-03
WO2018048356A1 (en) 2018-03-15
MY190933A (en) 2022-05-20
EP4105822A1 (en) 2022-12-21
SG11201809637WA (en) 2018-11-29
EP3479259A4 (en) 2020-06-24
KR20190051006A (ko) 2019-05-14
US11042753B2 (en) 2021-06-22
EP3479259A1 (en) 2019-05-08
JP2019531548A (ja) 2019-10-31
CN109716327B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
KR102533972B1 (ko) 시각적 검색 플랫폼용 영상 인제스트 프레임워크
US10769444B2 (en) Object detection from visual search queries
Chan-Olmsted A review of artificial intelligence adoptions in the media industry
US20200311126A1 (en) Methods to present search keywords for image-based queries
US10691922B2 (en) Detection of counterfeit items based on machine learning and analysis of visual and textual data
US10180979B2 (en) System and method for generating suggestions by a search engine in response to search queries
US9607010B1 (en) Techniques for shape-based search of content
US10334328B1 (en) Automatic video generation using auto-adaptive video story models
WO2017172175A1 (en) Computerized system and method for automatically detecting and rendering highlights from streaming videos
US9129327B1 (en) Screenshot-based e-commerce
US11755676B2 (en) Systems and methods for generating real-time recommendations
US9449231B2 (en) Computerized systems and methods for generating models for identifying thumbnail images to promote videos
CN108959323B (zh) 视频分类方法和装置
EP3905177A1 (en) Recommending that an entity in an online system create content describing an item associated with a topic having at least a threshold value of a performance metric and to add a tag describing the item to the content
US20230298073A1 (en) Media processing techniques for enhancing content
US10275790B1 (en) Content tagging
Wang et al. Interactive ads recommendation with contextual search on product topic space
JP6945212B2 (ja) 情報処理装置及びプログラム
Mena Data mining mobile devices
US11087369B1 (en) Context-based provision of media content
Ginsca Leveraging large scale Web data for image retrieval and user credibility estimation
Bhuvan et al. Analysis and Design of an Efficient Search Technique Using Visual Classification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant