KR102444518B1 - 영상 검색 방법 및 장치 - Google Patents

영상 검색 방법 및 장치 Download PDF

Info

Publication number
KR102444518B1
KR102444518B1 KR1020150036119A KR20150036119A KR102444518B1 KR 102444518 B1 KR102444518 B1 KR 102444518B1 KR 1020150036119 A KR1020150036119 A KR 1020150036119A KR 20150036119 A KR20150036119 A KR 20150036119A KR 102444518 B1 KR102444518 B1 KR 102444518B1
Authority
KR
South Korea
Prior art keywords
image
link information
normalized
unit
link
Prior art date
Application number
KR1020150036119A
Other languages
English (en)
Other versions
KR20160111233A (ko
Inventor
이영현
임정은
고한석
송태엽
구본화
Original Assignee
한화테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화테크윈 주식회사 filed Critical 한화테크윈 주식회사
Priority to KR1020150036119A priority Critical patent/KR102444518B1/ko
Publication of KR20160111233A publication Critical patent/KR20160111233A/ko
Application granted granted Critical
Publication of KR102444518B1 publication Critical patent/KR102444518B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

본 발명은 사용자가 입력한 키워드에 대응되는 웹 문서를 검색하여 수집하는 단계; 수집된 상기 웹 문서에 포함된 영상의 링크 정보를 추출하고, 추출된 상기 영상의 링크 정보를 정규화하는 단계; 정규화된 영상의 정규화 링크 정보를 기초로 하여, 추출된 상기 영상의 링크 정보들 중 중복된 상기 영상의 링크 정보를 제외한 나머지 상기 영상의 링크 정보를 통해 획득된 상기 영상이 상기 키워드와 대응된 객체를 포함하는지를 판단하는 단계; 및 획득된 상기 영상이 상기 키워드와 대응된 객체를 포함할 때, 상기 키워드와 대응된 객체를 포함하는 상기 영상을 데이터 베이스부에 저장하는 단계를 포함하는, 영상 검색 방법 및 장치에 관한 것이다.

Description

영상 검색 방법 및 장치{A video searching apparatus and method}
본 발명은 영상 검색 방법 및 장치에 관한 것으로, 보다 상세하게는 웹 문서에서 효율적으로 사용자가 원하는 영상을 검색하여 저장하는 영상 검색 방법 및 장치에 관한 것이다.
오늘날은 정보의 시대로 불려질 만큼 정보에 대한 요구가 급증하고 있다. 정보의 바다로 비유되는 인터넷 등에 접속하여 필요한 정보를 획득하고 있다. 인터넷에는 상당히 많은 정보가 있는 곳이기 때문에, 사용자는 검색 엔진을 통해 원하는 영상 정보를 획득하고 있다.
이러한 경우, 검색 엔진은 사용자로부터 영상 검색을 위한 텍스트로 된 키워드를 입력받고, 입력받은 텍스트로 된 키워드와 대응되는 정보(예를 들어, 주석, 태그 등)를 포함하는 웹 문서를 검색하여 수집하게 된다. 검색 엔진은 검색하여 수집된 웹 문서에 링크된 영상 정보를 사용자에게 출력한다.
하지만, 검색 엔진은 수집한 웹 문서의 링크 정보가 중복되어 동일한 웹 문서를 반복적으로 검색하거나, 웹 문서의 링크 정보가 상이하더라도 웹 문서에 링크된 영상 정보가 중복될 때, 중복된 영상을 수집할 수 있어, 검색에 대한 신뢰성이 떨어지는 문제점이 있었다.
또한, 종래의 검색 엔진은 웹 문서에 링크된 영상 파일명에 사용자가 입력한 키워드가 포함되는지 여부로 영상을 수집하였다. 예를 들면, 사용자가 "자동차 번호판" 이라는 키워드를 입력할 경우, 검색 엔진은 웹 문서에 링크된 영상 파일명에 "자동차" 및/또는 "번호판"을 포함하여야 영상을 수집할 수 있었다.
하지만, 최근에 웹 문서에 링크된 영상 파일명은, 날짜 등을 나타내는 숫자 등으로 구성되는 경우가 많고, 이러한 경우에 검색 엔진은 키워드에 대응되는 영상이라도 파일명이 숫자 등으로 구성될 되면, 영상의 수집이 제한될 수 있어, 검색에 대한 정확도가 떨어지는 문제점이 있었다.
한국 공개특허공보 제10-2011-0094563호 한국 공개특허공보 제10-2008-0031928호
본 발명이 해결하고자 하는 과제는 웹 문서에서 효율적으로 사용자가 원하는 영상을 검색하여 저장하는 영상 검색 방법 및 장치를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위하여, 본 발명의 실시예에 따른 영상 검색 방법은, 사용자가 입력한 키워드에 대응되는 웹 문서를 검색하여 수집하는 단계; 수집된 상기 웹 문서에 포함된 영상의 링크 정보를 추출하고, 추출된 상기 영상의 링크 정보를 정규화하는 단계; 정규화된 영상의 정규화 링크 정보를 기초로 하여, 추출된 상기 영상의 링크 정보들 중 중복된 상기 영상의 링크 정보를 제외한 나머지 상기 영상의 링크 정보를 통해 획득된 상기 영상이 상기 키워드와 대응된 객체를 포함하는지를 판단하는 단계; 및 획득된 상기 영상이 상기 키워드와 대응된 객체를 포함할 때, 상기 키워드와 대응된 객체를 포함하는 상기 영상을 데이터 베이스부에 저장하는 단계를 포함한다.
몇몇의 실시예에서, 상기 판단하는 단계는, 각각의 상기 영상의 정규화 링크 정보를 비교하여 중복되는 상기 영상의 정규화 링크 정보를 파악하고, 중복된 상기 영상 정규화 링크 정보에 대응되는 상기 영상의 링크 정보를 제외하는 할 수 있다.
몇몇의 실시예에서, 상기 판단하는 단계는, 기 저장된 정규화 링크 정보에 대응되는 상기 영상의 정규화 링크 정보를 파악하고, 파악된 상기 영상의 정규화 링크 정보에 대응되는 상기 영상의 링크 정보를 제외할 수 있다..
몇몇의 실시예에서, 상기 저장하는 단계는, 획득된 상기 영상의 전체 화면에서 상기 키워드와 대응되는 객체가 포함된 화면 영역만을 상기 데이터 베이스부에 저장할 수 있다.
몇몇의 실시예에서, 상기 웹 문서는 소스 코드를 포함하고, 상기 검색하여 수집하는 단계는, 상기 키워드와 대응되는 소스 코드가 포함된 웹 문서를 검색하여 수집할 수 있다.
상기 과제를 달성하기 위하여, 본 발명의 실시예에 따른 영상 검색 장치는, 사용자가 입력한 키워드에 대응되는 웹 문서를 검색하여 수집하는 웹 문서 수집부; 수집된 상기 웹 문서에 포함된 영상의 링크 정보를 추출하는 링크 추출부; 추출된 상기 영상의 링크 정보를 정규화하는 링크 정규화부; 정규화된 영상의 정규화 링크 정보를 기초로 하여, 추출된 상기 영상의 링크 정보들 중 중복된 상기 영상의 링크 정보를 제외하는 중복 링크 제외부; 및 중복된 상기 영상의 링크 정보를 제외한 나머지 상기 영상의 링크 정보를 통해 획득된 상기 영상을 데이터 베이스부에 저장하는 영상 분석부를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 영상 검색 방법에 따르면 다음과 같은 효과가 하나 혹은 그 이상 있다.
웹 문서에 링크된 영상들 중 중복된 영상의 분석을 방지하여, 사용자가 웹 문서에서 사용자가 원하는 영상을 효율적으로 검색하여 저장하는 영상 검색 방법을 제공하는 효과가 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 영상 검색 장치를 개략적으로 도시한 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 영상 검색 장치가 검색하는 웹 문서의 소스 코드를 개략적으로 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 영상 검색 장치에서 추출된 영상 링크 정보를 정규화하는 모습을 개략적으로 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 영상 검색 장치가 링크된 영상에서 객체를 포함한 영역을 추출하는 모습을 개략적으로 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 영상 검색 장치의 영상 검색 방법을 도시한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자에 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 본 발명의 실시예들에 의하여 영상 검색 방법을 설명하기 위한 도면들을 참고하여 본 발명에 대해 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 영상 검색 장치를 개략적으로 도시한 블럭도이다. 도 2는 본 발명의 일 실시예에 따른 영상 검색 장치가 검색하는 웹 문서의 소스 코드를 개략적으로 도시한 도면이다. 도 3은 본 발명의 일 실시예에 따른 영상 검색 장치에서 추출된 영상 링크 정보를 정규화하는 모습을 개략적으로 도시한 도면이다. 도 4는 본 발명의 일 실시예에 따른 영상 검색 장치가 링크된 영상에서 객체를 포함한 영역을 추출하는 모습을 개략적으로 도시한 도면이다.
도 1 내지 도 4를 참조하면, 본 발명의 일 실시예에 따른 영상 검색 장치(미부호)는 웹 문서 수집부(100), 링크 추출부(200), 링크 정규화부(300), 중복 링크 제외부(400), 영상 분석부(500) 및 데이터 베이스부(600)를 포함한다. 또한, 도 1에는 도시되지 않았지만, 영상 검색 장치는 사용자가 원하는 키워드를 입력하는 입력부(미도시)를 포함할 수 있다.
웹 문서 수집부(100)는 네트워크를 통해 연결된 인터넷 등으로부터 적어도 하나의 웹 문서를 검색하여 수집할 수 있다. 예를 들면, 웹 문서 수집부(100)는 인터넷 등으로부터 사용자가 입력한 키워드에 대응되는 웹 문서를 검색하여 수집할 수 있다. 여기서 웹 문서는 텍스트 정보, 영상의 링크 정보, 웹 문서의 링크 정보 등을 포함하는 소스 코드를 포함한다.
웹 문서 수집부(100)는, 사용자가 입력한 키워드에 대응되는 소스 코드가 포함된 웹 문서를 검색하여 수집한다. 예를 들면, 사용자가 입력한 키워드가 "자동차 번호판"인 경우, 웹 문서 수집부(100)는 "자동차 번호판"에 대응되는 소스코드가 포함된 웹 문서를 검색하여 수집한다.
웹 문서 수집부(100)는, 웹 문서에 포함된 소스 코드 중 코드의 헤드 정보가 키워드에 대응되는 웹 문서를 검색하여 수집할 수 있다. 이에 따라, 웹 문서 수집부(100)는 입력된 키워드에 대응된 웹 문서를 검색하여 수집하는 시간을 단축시킬 수 있다. 코드의 헤드 정보에는 링크된 영상의 파일명 등을 포함할 수 있다.
링크 추출부(200)는, 웹 문서 수집부(100)에서 수집된 적어도 하나의 웹 문서로부터 영상의 링크 정보를 추출한다. 또한, 링크 추출부(200)는, 수집된 웹 문서로부터 웹 문서의 링크 정보를 추출할 수 있다.
여기서, 링크 정보는 통신 프로토콜 정보, 서버 정보, 도메인 네임 정보, 파일이 저장된 디렉터리 정보, 파일 정보 등을 포함한다. 도 2에 도시된 영상의 링크 정보(R)를 예를 들어 설명하면, 영상의 링크 정보(R)는 "http"의 통신 프로토콜 정보, "www"의 서버 정보, "djenew.co.kr"의 도메인 네임 정보, "new/photo/201306/"의 디렉터리 정보, "5399_3773_2513.jpg"의 파일 정보 등을 포함한다.
링크 추출부(200)는, 추출된 영상의 링크 정보 및/또는 웹 문서의 링크 정보를 데이터 베이스부(600)에 저장할 수 있다.
영상의 링크 정보에 포함된 파일 정보가 사용자가 입력한 키워드와의 상관 관계가 현저히 낮을 경우, 링크 추출부(200)는 영상의 링크 정보를 추출하지 않을 수 있다. 예를 들면, 사용자가 키워드로 "자동차 번호판"을 입력 할 때, 영상의 링크 정보에 포함된 파일명이 "자동차 번호판"과의 상관관계가 현저히 낮은 "미술관"일 경우, 링크 추출부(200)는 웹 문서에 포함된 영상의 링크 정보를 추출하지 않을 수 있다.
링크 정규화부(300)는 추출된 영상의 링크 정보를 정규화한다. 또한, 링크 정규화부(300)는 추출된 웹 문서의 링크 정보를 정규화할 수 있다. 도 3을 참조하여 링크 정규화부(300)의 정규화 과정을 예를 들어 설명한다.
링크 정규화부(300)는 "http://samsungtecwin.co.kr:80"의 링크 정보에서 포트 번호를 생략하여 "http://samsungtecwin.co.kr"의 링크 정보로 정규화할 수 있다.
링크 정규화부(300)는 "HTTP://SAMSUNGTECWIN.co.kr"의 링크 정보를 구성하는 문자를 소문자로 변환하여 "http://samsungtecwin.co.kr"의 링크 정보로 정규화할 수 있다.
또한, 링크 정규화부(300)는 "http://samsungtecwin.co.kr/index.jsp"의 링크 정보에서 웹 문서의 파일 정보를 생략하여 "http://samsungtecwin.co.kr"의 링크 정보로 정규화할 수 있다.
링크 정규화부(300)는 영상의 링크 정보가 정규화된 영상의 정규화 링크 정보 및/또는 웹 문서의 링크 정보가 정규화된 웹 문서의 정규화 링크 정보를 데이터 베이스부(600)에 저장할 수 있다.
중복 링크 제외부(400)는 영상의 정규화 링크 정보를 기초로 추출된 영상의 링크 정보 중 중복되는 영상의 링크 정보를 제외한다.
중복 링크 제외부(400)는 각각의 영상의 정규화 링크 정보를 비교하여 중복되는 영상의 정규화 링크 정보를 파악한다. 또한, 중복 링크 제외부(400)는 중복된 영상의 정규화 링크 정보에 대응되는 영상의 링크 정보를 제외하고 삭제할 수 있다. 중복 링크 제외부(400)는 제외되지 않은 나머지 영상의 링크 정보는 영상 분석부(500)로 전달할 수 있다.
다만, 소정의 실시예에서 중복 링크 제외부(400)는 중복된 영상의 정규화 링크 정보에 대응되는 영상의 링크 정보를 삭제 없이 제외하고, 제외 되지 않은 나머지 영상의 링크 정보를 영상 분석부(500)로 영상의 링크 정보를 전달할 수 있다.
도 3을 참조하여 예를 들면, 제1 영상의 링크 정보는 "http://samsungtecwin.co.kr:80"의 제2 영상 링크 정보는 "http://samsungtecwin.co.kr/index.jsp"이다. 각각의 영상의 링크 정보를 정규화할 경우, 제1 영상의 정규화 링크 정보 및 제2 영상의 정규화 링크 정보는 "http://samsungtecwin.co.kr"로 된다.
이에 따라, 제1 영상의 정규화 링크 정보 및 제2 영상의 정규화 링크 정보는 동일하기 때문에 제1 영상의 링크 정보를 통해 획득된 제1 영상과 제2 영상의 링크 정보를 통해 획득된 제2 영상은 동일한 영상이거나 동일한 영상일 확률이 매우 높다.
그러므로, 중복 링크 제외부(400)는, 중복되는 제1 영상의 정규화 링크 정보 및 제2 영상의 정규화 링크 정보 중 어느 하나를 제외하고 삭제할 수 있다. 또한, 중복 링크 제외부(400)가 제2 영상의 정규화 링크 정보를 제외한 경우, 제외되지 않은 제1 영상의 정규화 링크 정보에 대응되는 영상의 링크 정보를 영상 분석부(500)로 전달할 수 있다.
또한, 중복 링크 제외부(400)는, 정규화된 영상의 정규화 링크 정보 중 기 저장된 정규화 링크 정보에 대응되는 영상의 정규화 링크 정보를 파악할 수 있다. 또한, 중복 링크 제외부(400)는 기 저장된 정규화 링크 정보에 대응된다고 파악된 영상의 정규화 링크 정보에 대응되는 영상의 링크 정보를 제외하고 삭제할 수 있다. 여기서, 기 저장된 정규화 링크 정보는, 먼저 중복 링크 제외부(400)에서 영상 분석부(500)로 전달된 영상의 링크 정보와 대응되는 영상의 정규화 링크 정보일 수 있다.
이 과정에서 중복 링크 제외부(400)는, 정규화된 영상의 정규화 링크 정보를 기초로 중복되는 영상의 링크 정보를 신속하게 파악하여 중복 영상을 분석하는 것을 방지할 수 있다.
또한, 중복 링크 제외부(400)는 웹 문서의 정규화 링크 정보를 기초로 추출된 웹 문서의 링크 정보 중 중복되는 웹 문서의 링크 정보를 제외한다. 예를 들면, 중복 링크 제외부(400)는 웹 문서의 정규화 링크 정보들 중 중복되는 웹 문서의 정규화 링크 정보가 있는지를 판단한다. 중복 링크 제외부(400)는 중복되는 웹 문서의 링크 정보가 있는 경우, 중복되는 웹 문서의 정규화 링크 정보에 대응된 웹 문서의 링크 정보를 제외한다.
이에 따라, 중복 링크 제외부(400)는 중복된 웹 문서를 제외한 나머지 웹 문서에서 추출한 영상의 링크 정보를 가지고, 중복된 영상의 링크 정보를 제외할 수 있다. 그러므로, 사용자가 입력한 키워드에 대응되는 영상의 중복 수집을 줄일 수 있다.
영상 분석부(500)는, 중복된 영상의 링크 정보가 제외된 나머지 영상의 링크 정보에 대응된 영상에서 키워드와 대응된 객체를 포함하는지 판단한다. 영상 분석부(500)는 링크된 영상이 키워드와 대응된 객체를 포함할 때, 키워드와 대응되는 객체를 포함하는 영상을 데이터 베이스부(600)에 저장한다.
또한, 도 4에 도시된 바와 같이, 영상 분석부(500)는 영상의 전체 화면(P)에서 키워드와 대응되는 객체의 위치를 검출하고, 영상의 전체 화면(P)에서 객체를 포함하는 화면 영역(P1)만 분리하여 데이터 베이스부(600)에 저장할 수 있다. 이에 따라, 데이터 베이스부(600)에 저장되는 영상의 용량을 줄일 수 있다.
도 4에 도시된 바와 같이, 사용자가 입력한 키워드가 "자동차 번호판"일 경우, 영상 분석부(500)는 영상의 전체 화면(P)에서 "자동차 번호판"의 위치를 검출하고, 자동차 번호판을 포함하는 화면 영역(P1)만 분리하여 데이터 베이스부(600)에 저장한다.
또한, 소정의 실시예에서 영상 분석부(500)는 중복된 영상의 링크 정보가 제외된 나머지 영상의 링크 정보에 대응된 영상에서 사용자가 새롭게 입력한 검출 키워드와 대응된 객체를 포함하는지 판단한다.
예를 들면, 영상 분석부(500)를 통해 상기 나머지 영상의 링크 정보에 대응된 영상에서 자동차 번호판이 포함된 것을 수집할 경우, 사용자는 영상 분석부에 번호판 검출 키워드를 입력할 수 있다. 또한, 영상 분석부(500)를 통해 상기 나머지 영상의 링크 정보에 대응된 영상에서 사람 얼굴이 포함된 영상을 수집할 경우, 사용자는 영상 분석부(500)에 사람 얼굴 검출 키워드를 입력할 수 있다.
다시 말하면, 웹 문서 수집부(100)에 입력되는 키워드에 의해 검색 범위를 효율적으로 초기화하는 과정이고, 영상 분석부(500)는 데이터 베이스 구축을 위해 영상을 검사하는 과정으로, 웹문서 수집부(100), 링크 정규화부(200) 및 중복 링크 제외부(300)를 통해 효율적으로 검색된 영상의 링크 정보에 대응된 영상에서 사용자가 선택적으로 객체의 검출을 설정할 수 있다.
데이터 베이스부(600)는 영상의 링크 정보, 영상의 정규화 링크 정보, 웹 문서의 링크 정보, 웹 문서의 정규화 링크 정보, 객체를 포함하는 영상 등이 저장되는 저장매체이다. 데이터 베이스부(600)는 링크 추출부(200), 링크 정규화부(300) 및 영상 분석부(500)와 연결되어 정보를 저장하고, 저장된 정보를 전달할 수 있다.
상기와 같이 구성되는 본 발명에 따른 영상 검색 장치의 작용을 설명하면 다음과 같다.
도 5는 본 발명의 일 실시예에 따른 영상 검색 장치의 영상 검색 방법을 도시한 순서도이다.
도 5를 참조하여, 본 발명의 일 실시예에 따른 영상 검색 장치의 영상 검색 방법을 설명한다.
먼저, 사용자가 입력부(미도시)를 통해 사용자가 검색하여 수집하기 원하는 키워드를 웹 문서 수집부(100, 도 1 참조)에 입력한다.
웹 문서 수집부(100)는 사용자가 입력한 키워드에 대응되는 웹 문서를 검색하여 수집한다. 예를 들면, 웹 문서에는 소스 코드를 포함하고, 웹 문서 수집부(100)는 키워드에 대응되는 소스 코드가 포함된 웹 문서를 검색하여 수집한다(S10).
또한, 키워드에 대응되는 웹 문서의 수집 시간을 단축하기 위해, 웹 문서 수집부(100)는 소스 코드에 포함된 헤드 코드가 키워드에 대응되는 웹 문서를 검색하여 수집할 수 있다.
링크 추출부(200, 도 1 참조)는 수집된 웹 문서에 포함된 영상의 링크 정보를 추출한다(S20). 또한, 링크 추출부(200)는 수집된 웹 문서의 링크 정보를 추출할 수 있다(S20). 또한, 링크 추출부(200)는 영상의 링크 정보에 포함된 파일명이 키워드와 현저히 연관관계가 없을 경우, 웹 문서에서 영상의 링크 정보를 추출하지 않을 수 있다.
링크 추출부(200)는 추출된 영상의 링크 정보 및/또는 웹 문서의 링크 정보를 데이터 베이스부(600, 도 1 참조)에 저장할 수 있다.
링크 정규화부(300, 도 1 참조)는, 추출된 영상의 링크 정보를 정규화한다(S30). 또한, 링크 정규화부(300)는 추출된 웹 문서의 링크 정보를 정규화할 수 있다(S30). 또한, 링크 정규화부(300)는 정규화된 영상의 정규화 링크 정보 및/또는 정규화된 웹 문서의 정규화 링크 정보를 데이터 베이스부(600)에 저장할 수 있다.
중복 링크 제외부(400, 도 1 참조)는, 정규화된 영상의 정규화 링크 정보를 기초로 중복된 영상의 링크 정보를 제외한다(S40). 전술한 바와 같이, 중복 링크 제외부(400)는, 영상의 정규화 링크 정보들 중 중복되는 영상의 정규화 링크 정보에 대응되는 영상의 링크 정보를 제외한다. 또한, 중복 링크 제외부(400)는 기 저장된 정규화 링크 정보와 정규화된 영상의 정규화 링크 정보를 비교하여, 기 저장된 정규화 링크 정보에 대응된 영상의 정규화 링크 정보에 대응되는 영상의 링크 정보를 제외한다.
영상 분석부(500, 도 1참조)는 중복된 상기 영상의 링크 정보를 제외한 나머지 상기 영상의 링크 정보를 통해 획득된 영상에 키워드와 대응되는 객체가 포함되는지를 판단한다(S50).
영상 분석부(500)는 획득된 영상에 키워드와 대응되는 객체가 포함될 때, 키워드와 대응되는 객체를 포함하는 영상을 데이터 베이스부(600)에 저장한다(S60). 영상 분석부(500)는 획득된 영상의 전체 화면에서 키워드와 대응되는 객체가 포함된 화면 영역만을 데이터 베이스부(600)에 저장할 수 있다.
다만, 소정의 실시예에서 영상 분석부(500)는 중복된 상기 영상의 링크 정보를 제외한 나머지 영상의 링크 정보를 통해 획득된 영상에서 사용자가 새롭게 입력한 검출 키워드와 대응된 객체를 포함하는지 판단할 수 있다.
다시 말하면, 웹 문서 수집부(100)에 입력되는 키워드에 의해 검색 범위를 효율적으로 초기화하는 과정이고, 영상 분석부(500)는 데이터 베이스 구축을 위해 영상을 검사하는 과정으로, 웹문서 수집부(100), 링크 정규화부(200) 및 중복 링크 제외부(300)를 통해 효율적으로 검색된 영상의 링크 정보에 대응된 영상에서 사용자가 선택적으로 객체의 검출을 설정할 수 있다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100: 웹 문서 수집부 200: 링크 추출부
300: 링크 정규화부 400: 중복 링크 제외부
500: 영상 분석부 600: 데이터 베이스부

Claims (6)

  1. 영상 검색 장치가 웹 문서에서 영상을 검색하는 방법에 있어서,
    사용자가 입력한 키워드에 대응되는 웹 문서를 검색하여 수집하는 단계;
    수집된 상기 웹 문서에 포함된 영상의 링크 정보를 추출하고, 추출된 상기 영상의 링크 정보를 정규화하는 단계;
    정규화된 영상의 정규화 링크 정보를 기초로 하여, 추출된 상기 영상의 링크 정보들 중 중복된 상기 영상의 링크 정보를 제외한 나머지 상기 영상의 링크 정보를 통해 획득된 상기 영상이 상기 키워드와 대응된 객체를 포함하는지를 판단하는 단계; 및
    획득된 상기 영상에서 상기 키워드와 대응된 객체를 포함할 때, 상기 키워드와 대응된 객체를 포함하는 상기 영상을 데이터 베이스부에 저장하는 단계를 포함하되,
    상기 웹 문서를 검색하여 수집하는 단계는 네트워크상의 웹 문서 중 상기 사용자에 의해 입력된 키워드가 소스 코드의 본문 또는 헤드 정보에 포함된 웹 문서를 검색하여 수집하는 단계를 포함하는, 영상 검색 방법.
  2. 제1항에 있어서,
    상기 판단하는 단계는, 각각의 상기 영상의 정규화 링크 정보를 비교하여 중복되는 상기 영상의 정규화 링크 정보를 파악하고, 중복된 상기 영상 정규화 링크 정보에 대응되는 상기 영상의 링크 정보를 제외하는, 영상 검색 방법.
  3. 제1항에 있어서,
    상기 판단하는 단계는, 기 저장된 정규화 링크 정보에 대응되는 상기 영상의 정규화 링크 정보를 파악하고, 파악된 상기 영상의 정규화 링크 정보에 대응되는 상기 영상의 링크 정보를 제외하는, 영상 검색 방법.
  4. 제1항에 있어서,
    상기 저장하는 단계는, 획득된 상기 영상의 전체 화면에서 상기 키워드와 대응되는 객체가 포함된 화면 영역만을 상기 데이터 베이스부에 저장하는, 영상 검색 방법.
  5. 삭제
  6. 사용자가 입력한 키워드에 대응되는 웹 문서를 검색하여 수집하는 웹 문서 수집부;
    수집된 상기 웹 문서에 포함된 영상의 링크 정보를 추출하는 링크 추출부;
    추출된 상기 영상의 링크 정보를 정규화하는 링크 정규화부;
    정규화된 영상의 정규화 링크 정보를 기초로 하여, 추출된 상기 영상의 링크 정보들 중 중복된 상기 영상의 링크 정보를 제외하는 중복 링크 제외부; 및
    중복된 상기 영상의 링크 정보를 제외한 나머지 상기 영상의 링크 정보를 통해 획득된 상기 영상을 데이터 베이스부에 저장하는 영상 분석부를 포함하되,
    상기 웹 문서 수집부는 네트워크상의 웹 문서 중 상기 사용자에 의해 입력된 키워드가 소스 코드의 본문 또는 헤드 정보에 포함된 웹 문서를 검색하여 수집하는, 영상 검색 장치.
KR1020150036119A 2015-03-16 2015-03-16 영상 검색 방법 및 장치 KR102444518B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150036119A KR102444518B1 (ko) 2015-03-16 2015-03-16 영상 검색 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150036119A KR102444518B1 (ko) 2015-03-16 2015-03-16 영상 검색 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160111233A KR20160111233A (ko) 2016-09-26
KR102444518B1 true KR102444518B1 (ko) 2022-09-16

Family

ID=57068258

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150036119A KR102444518B1 (ko) 2015-03-16 2015-03-16 영상 검색 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102444518B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022419A (ja) * 2010-07-13 2012-02-02 Yahoo Japan Corp 学習データ作成装置、学習データ作成方法及びプログラム
KR101362090B1 (ko) * 2012-08-24 2014-02-13 한국과학기술정보연구원 통합 데이터베이스를 이용한 검색 서비스 제공 방법 및 그 서버

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715542B2 (en) 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
KR20110094563A (ko) 2010-02-17 2011-08-24 주식회사 티앤엘아이앤티 웹 문서의 링크-키워드 관계를 이용한 관련어 검색 방법 및 검색 시스템
KR101279753B1 (ko) * 2011-09-21 2013-07-04 한국과학기술원 검색 결과에 대한 사용자 응답에 기반하여 검색 결과값을 재구성하는 검색 서비스 제공 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022419A (ja) * 2010-07-13 2012-02-02 Yahoo Japan Corp 学習データ作成装置、学習データ作成方法及びプログラム
KR101362090B1 (ko) * 2012-08-24 2014-02-13 한국과학기술정보연구원 통합 데이터베이스를 이용한 검색 서비스 제공 방법 및 그 서버

Also Published As

Publication number Publication date
KR20160111233A (ko) 2016-09-26

Similar Documents

Publication Publication Date Title
US9489401B1 (en) Methods and systems for object recognition
US10078632B2 (en) Collecting training data using anomaly detection
US8577882B2 (en) Method and system for searching multilingual documents
US20090282025A1 (en) Method for generating a representation of image content using image search and retrieval criteria
US20160196342A1 (en) Plagiarism Document Detection System Based on Synonym Dictionary and Automatic Reference Citation Mark Attaching System
US9996742B2 (en) System and method for global identification in a collection of documents
US20100131485A1 (en) Method and system for automatic construction of information organization structure for related information browsing
KR101727139B1 (ko) 코퍼스 자동 구축 방법 및 이를 이용한 개체명 인식 방법과 장치
US20190266158A1 (en) System and method for optimizing search query to retreive set of documents
US10546012B2 (en) Synonym expansion
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
CN110019640B (zh) 涉密文件检查方法及装置
EP2805266A1 (en) Grouping search results into a profile page
CN105024987A (zh) 一种web业务日志的监测方法和装置
WO2021121279A1 (en) Text document categorization using rules and document fingerprints
WO2014035837A1 (en) Determining capacity of search structures
CN107729414A (zh) 一种展示历史时间轴的知识服务方法、系统及介质
US11640499B2 (en) Systems, methods and computer program products for mining text documents to identify seminal issues and cases
CN111324705A (zh) 自适应性调整关连搜索词的系统及其方法
US11250131B2 (en) Multi-purpose agent for endpoint scanning
KR102444518B1 (ko) 영상 검색 방법 및 장치
US10671810B2 (en) Citation explanations
TW201435627A (zh) 搜索優化系統及方法
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
CN110868421A (zh) 恶意代码的识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
N231 Notification of change of applicant
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant