KR20020060981A - 화상 검색 시스템 및 화상 검색 방법 - Google Patents
화상 검색 시스템 및 화상 검색 방법 Download PDFInfo
- Publication number
- KR20020060981A KR20020060981A KR1020027007061A KR20027007061A KR20020060981A KR 20020060981 A KR20020060981 A KR 20020060981A KR 1020027007061 A KR1020027007061 A KR 1020027007061A KR 20027007061 A KR20027007061 A KR 20027007061A KR 20020060981 A KR20020060981 A KR 20020060981A
- Authority
- KR
- South Korea
- Prior art keywords
- search
- feature descriptor
- image
- data
- video
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/8042—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/7857—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/82—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
- H04N9/8205—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
- H04N9/8233—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a character code signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N9/00—Details of colour television systems
- H04N9/79—Processing of colour television signals in connection with recording
- H04N9/80—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
- H04N9/804—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
- H04N9/8042—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
- H04N9/8047—Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction using transform coding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
검색 처리부(10)는, 사용자 인터페이스부(9)로부터 속성 리스트의 검색 조건이 입력되면, 속성 리스트 축적부(7)에 축적된 속성 리스트를 검색하여 검색 조건에 적합한 속성 정보가 표시부(11)로 출력되어 표시된다. 다음으로, 검색 처리부(10)는, 사용자 인터페이스부(9)로부터 유사 검색의 검색 조건이 입력되면, 화상 정보 축적부(5)에 축적된 화상 데이터를 검색하고, 검색 조건에 적합한 특징 기술자 세트를 갖는 화상 데이터를 선택하여, 표시부(11)로 출력하여 표시시킨다.
Description
도 1은 종래의 화상 검색 처리 시스템의 일례로서, 전자 정보 통신 학회 논문지 D-Ⅱ 1996년 4월호(Vol.79-D-Ⅱ No.4, pp.476-483)에 기재된 시스템의 구성을 나타낸다. 여기서는, 정지 화상을 대상으로 하여, 화상을 전 처리부(101)의 영역 분할부(103)에 의해 각 세그먼트로 영역 분할하고, 분할된 각 세그먼트에 대하여 키워드가 부여된다. 키워드에는 개념 키워드와 장면 기술 키워드의 2종류가 준비되어 있다. 개념 키워드 추출부(104)는, 색 정보에 대하여 사전에 할당되어 있는 개념 키워드를 이용하여, 각 세그먼트의 색 및 특징량으로부터 개념 키워드(108)를 얻는 것이다. 장면 기술 키워드 기술부(105)는, 각 세그먼트의 화상 특징량으로부터 「위치」 「색」 「형상」 「크기」 「방향」 등에 관한 술어(predicate)를 얻는 것으로, 사용자(107)가 사전에 정의되어 있는 술어를 선택하여 기술하는조작(106)을 필요로 하고, 장면 기술 키워드(109)를 출력한다. 검색 툴(102)은 사전에 개념 키워드나 장면 기술 키워드를 준비해 두고, 사용자(111)는 준비되어 있는 키워드로부터 선택을 행한다. 특징 식별부(110)는, 사용자가 선택한 키워드(112)와 각 화상에 부여된 키워드(108, 109)로부터 특징량의 식별을 행하여, 화상 검색 처리를 실행한다.
그러나, 전술한 화상 검색 처리 시스템에서는, 사용자가 선택한 개념 키워드나 장면 기술 키워드 등의 키워드와, 각 화상에 부여된 키워드로부터 특징량의 식별을 행하고, 그 특징량에 기초하여 화상 검색 처리를 실행하도록 하기 때문에, 모든 화상을 특징량에 의해서만 검색하게 되어, 검색에 시간이 걸린다.
또한, 전술한 화상 검색 처리 시스템에서는, 각 키워드의 기술 방법이나 기억 방법 등에 대하여 고려되어 있지 않기 때문에, 화상 서버와, 클라이언트인 검색 툴 등은, 일대일로 대응할 필요가 있어, 네트워크를 통해 많은 사용자가 다양한 검색 툴을 이용하여 화상 검색을 행하는 시스템을 구축할 수 없다.
또한, 정지 화상만을 대상으로 하고 있기 때문에, 동화상을 검색하는 것이 곤란하다.
따라서, 본 발명은 이러한 문제를 감안하여 이루어진 것으로, 효율적으로 화상 검색 처리를 실행할 수 있는 화상 검색 시스템 및 화상 검색 방법을 제공하는 것을 제1 목적으로 한다.
또한, 본 발명은, 검색의 키워드를 공통의 신택스로 기술하여 생성함으로써, 네트워크 상에 분산되는 복수의 화상 서버에 의존하지 않는 화상 검색 시스템 및화상 검색 방법을 제공하는 것을 제2 목적으로 한다.
또한, 본 발명은, 동화상으로부터 키워드를 추출할 때에, 프레임 단위가 아니라, 복수의 프레임을 통합한 비디오 세그먼트 단위로 특징량을 추출함으로써, 동화상의 검색을 용이하게 행할 수 있는 화상 검색 시스템 및 화상 검색 방법을 제공하는 것을 제3 목적으로 한다.
<발명의 개시>
본 발명에 따른 화상 검색 시스템은, 입력 화상 데이터로부터 화상 특징량을 추출하여 특징 기술자(descriptor)를 생성하는 특징 기술자 생성부와, 생성된 특징 기술자를 입력 화상 데이터와 대응시켜 축적하는 화상 정보 축적부와, 입력 화상 데이터에 부수하여 입력되는 속성 정보에 기초하여 속성 리스트를 생성하는 속성 리스트 생성부와, 속성 정보에 관한 검색 조건이 입력되면 상기 속성 리스트를 검색하여 해당 검색 조건에 적합한 속성 정보를 출력함과 함께, 특징 기술자에 관한 검색 조건이 입력되면 화상 정보 축적부를 검색하여 해당 검색 조건에 적합한 화상 데이터를 출력하는 화상 검색부를 포함한 것이다.
이에 따라, 효율적으로 검색을 행할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 속성 리스트 생성부는 속성 리스트의 데이터 구조를 정의한 신택스에 기초하여 속성 리스트를 생성하고, 화상 검색부는 속성 리스트의 신택스에 따라 검색한다.
이에 따라, 단시간에 효율적으로 검색을 행할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 특징 기술자 생성부는 특징 기술자의 데이터 구조를 정의한 신택스에 기초하여 특징 기술자를 생성하고, 화상 검색부는 특징 기술자의 신택스에 따라 검색한다.
이에 따라, 네트워크 상에 분산되는 복수의 화상 서버에 의존하지 않는 화상 검색을 행할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 특징 기술자 생성부는 프레임 단위로 특징량을 추출하고, 복수의 프레임을 통합한 비디오 세그먼트 단위로 특징 기술자를 생성하도록 한 것이다.
이에 따라, 동화상의 검색을 용이하게 행할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 특징 기술자 생성부는, 인트라 프레임과 인터 프레임으로 이루어지는 압축 영상 데이터를 입력 화상 데이터로 하고, 인트라 프레임의 경우, 소정의 부호화 단위 영역에서의 각 화소 값의 평균값 매트릭스를 추출하여 비디오 세그먼트에 포함되는 인트라 프레임분만큼 누적하고, 그 누적값을 인트라 프레임 수에 의해 평균한 값과 표준 편차를 인트라 프레임의 특징 기술자로서 생성하는 한편, 인터 프레임의 경우, 소정의 부호화 단위 영역에서의 각 화소의 움직임 벡터 매트릭스를 추출하여 프레임 내의 움직임 벡터의 평균값을 구하고, 그 평균값을 임계치 처리하여 제로 런의 길이를 분류하여 추출하고, 평균값과 제로 런의 길이의 분류를 각각 비디오 세그먼트에 포함되는 인터 프레임 수에 의해 평균한 값을 인터 프레임의 특징 기술자로서 생성한다.
이에 따라, 동화상의 검색을 용이하게 행할 수 있다고 하는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템은, 특징 기술자 생성부가, 비압축 영상 데이터를 입력 화상 데이터로 하고, 비압축 영상 데이터로부터 특징량을 추출하여 특징 기술자를 생성하며, 화상 정보 축적부는, 비압축 영상 데이터가 소정의 영상 압축 방식에 기초하여 압축된 후의 압축 영상 데이터와 특징 기술자 세트를 대응시켜 축적하도록 한 것이다.
이에 따라, 효율적으로 검색을 행할 수 있다고 하는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 화상 검색부는 화상 정보 축적부를 검색하고, 지정된 특징 기술자에 적합한 화상 데이터를 출력할 때, 사전에 기억되어 있는 소정의 조건식을 판독하고, 그 소정의 조건식에 기초하여 지정된 특징 기술자에 대하여 적합한지를 판정한다.
이에 따라, 효율적으로 검색을 행할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 입력 화상 데이터는 감시 카메라에 의해 기록된 감시 화상이다.
이에 따라, 침입자의 검출이 가능해지는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 입력 화상 데이터는 축적된 비디오 메일의 화상이다.
이에 따라, 사용자는 보고자 하는 메일을 검색할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 입력 화상 데이터는 축적된 방송 프로그램의 화상이다.
이에 따라, 사용자는 정확한 프로그램의 정보를 기억하고 있지 않아도 영상에 대한 인상에 의해 검색할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 입력 화상 데이터는 비디오 카메라에 의해 기록된 영상이다.
이에 따라, 영상 자체가 갖는 유사성을 키로 하여 효율적인 소재 검색을 행하는 것이 가능해지는 효과를 발휘한다.
본 발명에 따른 화상 검색 방법은, 입력 화상 데이터로부터 화상 특징량을 추출하여 특징 기술자를 생성하고, 생성된 특징 기술자를 입력 화상 데이터와 대응시켜 축적함과 함께, 입력 화상 데이터에 부수하여 입력되는 속성 정보에 기초하여 속성 리스트를 생성하며,
속성 정보에 관한 검색 조건이 입력되면 속성 리스트를 검색하여 검색 조건에 적합한 속성 정보를 출력함과 함께, 출력된 속성 정보를 참조하고, 특징 기술자에 관한 검색 조건이 입력되면 상기 축적된 화상 데이터를 검색하여 해당 검색 조건에 적합한 화상 데이터를 출력한다.
이에 따라, 효율적으로 검색을 행할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템은, 입력 화상 데이터로부터 화상 특징량을 추출하여 특징 기술자를 생성하는 특징 기술자 생성부와, 입력 화상 데이터의 시공간 구조와 관련지어 특징 기술자를 검색용 기술 데이터에 기술하는 검색용 기술 데이터 생성부와, 검색용 기술 데이터를 대응하는 입력 화상 데이터와 함께 축적하는 화상 정보 축적부와, 제1 검색 처리부와, 제2 검색 처리부와, 사용자 인터페이스부로 이루어지고, 제2 검색 처리부는, 사용자 인터페이스부를 통한 사용자로부터의검색 요구를 검색 요구 정보로서 제1 검색 처리부로 송신함과 함께, 제1 검색 처리부로부터 송신되는 검색 결과를 수신하여 사용자 인터페이스부를 통해 사용자에게 제시하고, 제1 검색 처리부는, 제2 검색 처리부로부터 송신되는 검색 요구 정보에 따라 화상 정보 축적부에 축적된 입력 화상 데이터의 검색용 기술 데이터를 해석하여 특징 기술자를 추출하고, 추출된 특징 기술자에 기초하여 적합 판정 처리를 행하여 검색 결과를 구하고, 그 검색 결과를 제2 검색 처리부로 송신하며, 상기 사용자 인터페이스부를 통해 사용자에게 제시시키도록 한다.
이에 따라, 특징 기술자에 기초하는 효율적인 화상 데이터의 검색이 가능해지는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템은, 특징 기술자 생성부에 의해 생성된 특징 기술자의 신뢰도를 산출하는 특징 기술자 신뢰도 산출부를 포함하고, 검색용 기술 데이터 생성부는, 입력 화상 데이터의 시공간 구조와 관련지어 특징 기술자 및 신뢰도를 검색용 기술 데이터에 기술하고, 제1 검색 처리부는, 제2 검색 처리부로부터 송신되는 검색 요구 정보에 따라 화상 정보 축적부에 축적된 입력 화상 데이터의 검색용 기술 데이터를 해석하여 특징 기술자 및 신뢰도를 추출하고, 추출된 특징 기술자 및 신뢰도에 기초하여 적합 판정 처리를 행하여 검색 결과를 구하고, 그 검색 결과를 제2 검색 처리부로 송신하며, 사용자 인터페이스부를 통해 사용자에게 제시시키도록 한다.
이에 따라, 효율적으로 검색을 행할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 제1 검색 처리부는, 적합 판정처리 시, 특징 기술자의 신뢰도에 기초하여, 특징 기술자에 의한 적합 판정의 필요성을 평가하고, 적합성 판정을 행할 필요가 없다고 판단한 경우, 적합 판정 처리를 스킵하도록 한다.
이에 따라, 검색 처리 속도를 고속화할 수 있어, 검색 효율을 더욱 향상시킬 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템은, 특징 기술자 신뢰도 산출부에 의해 산출된 신뢰도에 기초하여 각 특징 기술자의 검색 사용 순서를 결정하는 특징 기술자 검색 순서 결정부를 포함하고, 검색용 기술 데이터 생성부는, 입력 화상 데이터의 시공간 구조와 관련지어 특징 기술자, 신뢰도 및 검색 사용 순서를 검색용 기술 데이터에 기술하고, 제1 검색 처리부는, 제2 검색 처리부로부터 송신되는 검색 요구 정보에 따라 화상 정보 축적부에 축적된 입력 화상 데이터의 검색용 기술 데이터를 해석하여 특징 기술자, 신뢰도 및 검색 사용 순서를 추출하고, 추출된 특징 기술자, 신뢰도 및 검색 사용 순서에 기초하여 적합 판정 처리를 행하여 검색 결과를 구하고, 그 검색 결과를 제2 검색 처리부로 송신하며, 사용자 인터페이스부를 통해 사용자에게 제시시키도록 한다.
이에 따라, 특징 기술자, 신뢰도 및 검색 사용 순서에 기초한 효율적인 화상 데이터의 검색이 가능해지는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 제2 검색 처리부는, 사용자 인터페이스부를 통한 사용자로부터의 검색 요구로서 각 특징 기술자의 검색 사용 순서를 포함하는 검색 요구 정보를 제1 검색 처리부로 송신하고, 제1 검색 처리부는,제2 검색 처리부로부터 송신되는 검색 요구 정보 중의 검색 사용 순서에 따라, 특징 기술자의 검색 순서를 갱신하여, 사용자로부터의 검색 요구에 적합한 검색 처리를 행하도록 한다.
이에 따라, 사용자로부터의 검색 요구에 적합한 검색 처리를 실행할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템에 있어서, 제1 검색 처리부는, 적합 판정 처리를 행할 때, 각 특징 기술자의 신뢰도에 기초하여, 검색 사용 순서로 정해지는 각 검색 단계에서의 검색 결과 후보 수를 결정하여 적합 판정 처리를 행하도록 한다.
이에 따라, 검색 처리를 고속화할 수 있는 효과를 발휘한다.
본 발명에 따른 화상 검색 시스템은, 비디오 데이터 재생 서버와, 비디오 데이터 복호 재생부를 포함하며, 입력 화상 데이터는 비디오 데이터이며, 제1 검색 처리부는, 검색에 의해 특정된 각 비디오 데이터를 대표하는 각 키 화상 데이터를 검색 결과로 하여 제2 검색 처리부로 송신하고, 제2 검색 처리부는, 제1 검색 처리부로부터의 검색 결과로서의 각 키 화상 데이터를 수신하여 사용자 인터페이스부를 통해 사용자에게 제시시키고, 비디오 재생 서버는, 사용자 인터페이스부로부터 각 키 화상 중 사용자에 의해 특정된 키 화상을 선택한 재생 요구를 받으면, 화상 정보 축적부로부터 그 선택된 키 화상을 대표로 하는 비디오 데이터를 판독하여 비디오 데이터 복호 재생부로 송신하고, 비디오 데이터 복호 재생부는, 비디오 재생 서버로부터 송신된 비디오 데이터를 수신하고 복호하여 재생한다.
이에 따라, 전체 정보 전송량을 효과적으로 삭감하는 것이 가능하다.
본 발명에 따른 화상 검색 방법은, 입력 화상 데이터로부터 화상 특징량을 추출하여 특징 기술자를 생성함과 함께, 입력 화상 데이터의 시공간 구조와 관련지어 특징 기술자를 검색용 기술 데이터에 기술하고, 검색용 기술 데이터를 대응하는 입력 화상 데이터와 함께 축적하고, 사용자로부터의 검색 요구에 따라 축적된 입력 화상 데이터의 검색용 기술 데이터를 해석하여 특징 기술자를 추출하고, 추출된 특징 기술자에 기초하여 적합 판정 처리를 행하여 검색 결과를 구하고, 그 검색 결과를 사용자에게 제시하도록 한다.
이에 따라, 특징 기술자, 신뢰도 및 검색 사용 순서에 기초한 효율적인 화상 데이터의 검색이 가능해지는 효과를 발휘하다.
본 발명에 따른 화상 검색 방법에 있어서, 입력 화상 데이터는, 비디오 데이터이고, 검색에 의해 특정된 각 비디오 데이터를 대표하는 각 키 화상 데이터를 검색 결과로서 사용자에게 제시하며, 각 키 화상 중 사용자에 의해 특정의 키 화상이 선택된 재생 요구를 받으면, 그 선택된 키 화상을 대표로 하는 비디오 데이터를 판독하고 복호하여 재생한다.
이에 따라, 전체 정보 전송량을 효과적으로 삭감하는 것이 가능하다.
본 발명은, 아날로그 또는 디지털로 기록된 영상, 정지 화상 등의 화상 데이터로부터 특징량이나 속성 정보를 추출하고, 추출된 특징량이나 속성 정보를 이용하여 화상 데이터의 검색을 행하는 화상 검색 시스템 및 화상 검색 방법에 관한 것이다.
도 1은 종래의 화상 검색 처리 시스템의 일례를 나타내는 도면.
도 2는 본 발명의 제1 실시예에 따른 화상 검색 시스템의 구성을 설명하는 블록도.
도 3은 화상 데이터 생성부의 처리를 나타내는 흐름도.
도 4는 화상 속성의 텍스트 정보로부터 텍스트 정보의 인스턴스(XML 문서)를 생성하는 처리의 일례를 나타내는 도면.
도 5는 인트라/인터 적응 부호화를 나타내는 도면.
도 6은 특징 추출 처리 및 특징 기술자 생성 처리를 포함한 전체 특징 기술자 세트 생성 순서를 나타내는 흐름도.
도 7은 특징 기술자 세트 생성 처리의 구체적인 생성 순서를 나타내는 흐름도.
도 8은 움직임 분포를 특징짓는 양의 일례를 나타내는 도면.
도 9는 인트라 프레임의 기술자 세트의 의미를 나타내는 도면.
도 10은 추출된 특징량으로부터 특징 기술자 세트를 생성하는 처리의 일례를 나타내는 도면.
도 11은 특징 기술자 세트를 계층적으로 생성하여 기술하는 일례를 나타내는 도면.
도 12는 화상 검색부의 처리를 나타내는 흐름도.
도 13은 적합 판정 처리를 나타내는 흐름도.
도 14는 화상 데이터 베이스 생성부의 다른 구성예를 나타내는 도면.
도 15는 본 제2 실시예에서의 화상 검색 시스템의 서버측의 특징 부분의 구성을 나타내는 블록도.
도 16은 본 제2 실시예에서의 화상 검색 시스템의 클라이언트측의 특징 부분의 구성을 나타내는 블록도.
도 17은 제2 실시예에서의 화상 검색 시스템의 검색 처리 과정을 나타내는 흐름도.
도 18은 본 제2 실시예에서의 화상 검색 시스템이 이용하는 검색용 기술 데이터 파일의 구조를 나타내는 도면.
도 19는 적합 판정 처리부에서의 검색 우선 순위에 기초하는 특징 기술자의 적합 판정 처리의 일례를 나타내는 도면.
도 20은 사용자의 주관적 특징과 특징 기술자의 관계를 나타내는 도면.
<발명을 실시하기 위한 최량의 형태>
이하, 본 발명을 보다 상세히 설명하기 위해, 본 발명을 실시하기 위한 최량의 형태에 대하여, 첨부 도면에 따라 설명한다.
[제1 실시예]
본 제1 실시예에서는, 네트워크 상에 산재하는 복수, 즉 하나 이상의 데이터 베이스에 축적된 화상 데이터로부터 사용자가 원하는 화상 데이터를 검색하여 이용할 수 있는 화상 검색 시스템에 대하여 설명한다. 화상 데이터는 이용 방법에 따라, 압축 정지 화상(JPEG 화상 등), 압축 동화상(MPEG 화상 등), 비압축 화상 중 어느 것이라도 무방하며, 화상 포맷에 대해서는 특별히 한정되지 않는다. 본 제1 실시예에서는, 본 발명의 일례로서, 인터넷 상의 WWW(World Wide Web)로, 화상 정보의 발신이나 수집을 행하는 것을 상정하지만, 본 발명은 이에 한정되는 것은 아니며, 유선 또는 무선 통신에 의한 서비스나, 방송망에 의한 서비스 등에 본 시스템을 적용할 수도 있다.
도 2는, 본 제1 실시예에서의 화상 검색 시스템의 구성을 설명하는 블록도이다. 이하, 「클래스」를 데이터의 정의, 「인스턴스」를 클래스 정의에 기초하여 값으로서 표현한 데이터, 예를 들면 파일, 변수 등의 의미로 이용한다.
도 2에서, 참조 부호 1은 화상 데이터 베이스 생성부, 참조 부호 2는 화상에 관련되는 속성을 나타내는 텍스트 정보의 속성 정보 및 화상 데이터, 참조 부호 3은 화상 데이터로부터 소정의 특징량 세트를 추출하는 특징 추출부, 참조 부호 4는 다른 화상 데이터 베이스 생성부(1) 혹은 서버와 공통인 특징량 기술 데이터 클래스에 의한 정의에 기초하여 특징량 세트로부터 인스턴스 세트인 특징 기술자 세트를 생성하는 특징 기술자 세트 생성부, 참조 부호 5는 화상 데이터와 특징 기술자 세트를 쌍으로 축적하는 화상 정보 축적부이다.
또한, 도 2에서, 참조 부호 6은 다른 화상 데이터 베이스 생성부(1) 혹은 서버와 공통인 텍스트 정보 기술 데이터 클래스에 의한 정의에 기초하여 속성 정보로부터 인스턴스 세트인 속성 리스트를 생성하는 속성 리스트 생성부, 참조 부호 7은 속성 리스트를 축적하는 속성 리스트 축적부이다. 또한, 참조 부호 8은 화상 검색부이고, 참조 부호 9는 검색 대상인 화상 데이터의 카테고리나 키 화상으로부터 검색하고자 하는 화상을 선택하는 사용자 인터페이스부, 참조 부호 10은 사용자 인터페이스부에서 지시된 검색 조건에 기초하여 검색 처리를 행하는 검색 처리부, 참조 부호 11은 검색된 키 화상 및 검색 화상을 표시하는 표시부이다. 또한, 본 제1 실시예에서, 속성 리스트나 특징 기술자를 총칭하여 메타데이터로 정의한다.
또한, 도 2에서는, 특징 추출부(3), 특징 기술자 세트 생성부(4), 화상 정보 축적부(5), 속성 리스트 생성부(6) 및 속성 리스트 축적부(7)로 이루어지는 화상 데이터 베이스 생성부(1)와, 화상 검색부(8)의 검색 처리부(10)가 서버를 구성하고, 화상 검색부(8)의 사용자 인터페이스부(9) 및 표시부(11)가 클라이언트를 구성하여, 서버와 클라이언트로 본 발명의 화상 검색 시스템을 구축하지만, 본 발명에서는, 이러한 구성에 한정되지 않고, 클라이언트측으로 검색 처리부(10)를 가지고 오거나, 혹은 서버 자체에 사용자 인터페이스부(9) 및 표시부(11)의 클라이언트 기능을 부가하여도 됨은 물론이다. 또한, 화상 데이터 베이스 생성부(1) 내지는 서버, 및 화상 검색부(8) 내지는 클라이언트는, 각각 복수 존재하고, 또한, 인터넷 등의 네트워크를 통해 접속되어 있으며, 그 복수의 화상 데이터 베이스 생성부(1) 내지는 서버에서는, 상술한 바와 같이, 공통의 특징량 기술 데이터 클래스 및 텍스트 정보 기술 데이터 클래스에 기초하여 특징 기술자 세트 및 속성 리스트를 생성한다.
다음으로, 각 부의 처리를 상세히 설명한다.
(1) 화상 데이터 베이스 생성부(1)의 처리
도 3은 화상 데이터 베이스 생성부(1)의 처리를 흐름도에 의해 나타낸다.
여기서, 신규의 화상 데이터를 화상 데이터 베이스에 등록하는 경우를 고려한다. 화상 데이터 베이스의 등록은, 주로 2개의 처리로 이루어진다. 하나는 화상 데이터에 부수하는 화상 속성을 나타내는 텍스트 정보로부터 속성 리스트를 생성하여, 속성 리스트 축적부(7)에 축적하는 처리이다. 다른 하나는 화상 데이터로부터 특징량을 추출하여, 특징 기술자를 생성하고, 화상 데이터와 특징 기술자를 데이터 베이스인 화상 정보 축적부(5)에 축적하는 처리이다. 다음에 각각의 처리의 상세에 대하여 설명한다.
우선, 속성 리스트를 생성하여 등록하기까지의 처리(단계 ST1∼ST3)에 대하여 상세히 설명한다.
우선, 화상 정보에 부수하여 입력되는 화상 속성을 나타내는 텍스트 정보를 추출한다(단계 ST1). 화상 속성을 나타내는 텍스트 정보로서는, 예를 들면, 화상 데이터가 비디오 메일의 동화상 데이터인 경우에는, 동화상 데이터와 함께 송신되는 비디오 메일의 송신자, 송신 일시, 타이틀 등의 정보이다. 이들 정보는, 비디오 메일의 동화상 데이터의 작성자나 작성일 등을 나타내고, 동화상 데이터의 속성을 나타내는 텍스트 정보이다. 또한, 다른 예로, 화상 데이터가 방송국으로부터 송신되는 텔레비전 방송 등의 영상 프로그램인 경우에는, 화상 속성을 나타내는 텍스트 정보로서는, 영상 프로그램과 함께 송신되는 프로그램 정보(출연자, 연출자, 타이틀, 방송일 등)가 생각된다. 홈 비디오나 디지털 사진 등을 가정 내 서버에 축적하는 예를 상정하는 경우에는, 촬영일이나 피사체에 관한 정보를 사용자가 텍스트 정보로서 직접 입력하거나, 비디오나 카메라 등의 장치로부터 서버에 텍스트 형식으로 전송되는 것도 생각할 수 있다.
추출된 텍스트 정보는, 속성 리스트 생성부(6)에서 속성 리스트의 형식으로 인스턴스화된다(단계 ST2). 속성 리스트의 데이터 형식으로서는, 예를 들면 XML(eXtensible Markup Language)에 의해 기술된 문서가 있다.
도 4는 화상 속성의 텍스트 정보로부터 텍스트 정보의 인스턴스인 XML 문서를 생성하는 처리의 일례를 나타낸다.
도 4의 예에서는, 속성 정보로서 비디오 메일에 부속되는 텍스트 정보를 추출하여, 추출된 텍스트 정보를 XML 언어로 기술한 문서를 생성한다. 이 XML 문서는 속성 리스트의 구성 단위가 되는 데이터이고, 개개의 비디오 메일에 대하여 작성된 이들 문서를 하나의 리스트 데이터 형태로 결합한 것이 속성 리스트이다. XML 문서를 기술하는데는, 문서 구조를 규정한 정의 파일(DTD; Document Type Definition)이 필요하다. DTD는 문서 구조에 포함되는 요소와 요소 간의 관계(어떤 요소가 다른 요소 중에 출현하는지 등), 요소의 출현 순서 등의 규정을 정한 것이다.
도 4에 도시한 XML 문서 생성 처리에서, DTD는 TextInfo라는 요소에, Category, Author, Date, Time, Title, Locator의 각 요소가 포함되어 있고, 이들 각 요소가 문자형의 데이터인 것을 나타내고 있다. 추출된 텍스트 정보는 이 DTD에 따라 XML 문서로 변환된다. 도 4의 XML 문서의 예에서의 각 요소의 값은, 요소의 개시를 나타내는 태그 <aaa>, 요소의 종료를 나타내는 태그 </aaa>로 둘러싸여 있고, aaa는 DTD에서 정의된 요소명을 나타내고 있다. 즉, <TextInfo>∼</TextInfo>로 둘러싸인 단위는 하나의 비디오 메일에 관한 속성을 기술하고, 검색 대상이 되는 모든 비디오 메일에 대하여 이들 데이터가 통합된 속성 리스트를 갖고 있으면, <TextInfo>∼</TextInfo>의 단위로 속성에 따른 개개의 비디오 메일의 검색을 행하는 것이 가능해진다.
또한, 속성 리스트의 데이터 형식은, 이에 한정되는 것이 아니라, 사전에 정의된 데이터 구조에 기초하여 기술된 것이면 된다. 예를 들면, 속성 리스트의 데이터 형식으로서, XML 문서로서 기술하는 것 이외에, 비트 스트림형의 2진 데이터라도 된다. 이 경우, XML 문서와 마찬가지로, 2진 데이터 구조를 정의하는 신택스, 즉 각 요소의 배열 방법과 각 요소에 할당된 비트 수 등을 규정하는 것이 필요하다.
이상과 같이 하여 생성된 속성 리스트는, 속성 리스트 축적부(7)에 축적된다(단계 ST3). 또한, 화상 데이터와, 그 속성 정보인 텍스트 정보가 다른 데이터 베이스에 축적되는 경우, 속성 리스트는, 화상 데이터가 축적된 어드레스를 포함하여 속성 리스트 축적부(7)에 축적된다. 예를 들면, WWW에서는, 화상 데이터가 위치하는 네트워크 어드레스(URL; Universal Resource Locator)를 지정하면 된다. 도 4의 예에서는, 속성 리스트인 XML 문서에, "Locator"라는 화상 데이터의 URL을 지정하기 위한 요소가 포함되어 있고, 각각의 비디오 메일의 속성 정보에, 대응하는 화상 데이터의 어드레스를 지정할 수 있다.
다음으로, 화상의 특징량을 추출하여 특징량 기술자를 생성하고 등록하기까지의 처리(단계 ST4∼ST6)에 대하여 상세히 설명한다.
본 제1 실시예의 특징 기술자 생성 처리에서는, 입력되어 축적되는 화상 데이터는, MPEG이나 H.261/H.263 등의 소정의 부호화 방식에 의해 압축 부호화된 비디오(동화상) 비트 스트림인 것으로 한다.
우선, 특징 추출부(3)에서, 화상 비트 스트림으로부터 화상의 특징량을 추출한다(단계 ST4). 본 제1 실시예에서는, 특징량으로서, 압축 비디오 비트 스트림 중의 움직임 정보, 인트라 부호화 프레임의 휘도, 색차 각각의 직류 성분의 데이터를 추출한다. 압축 비디오 비트 스트림은, MPEG이나 H.261/H.263 등의 국제 표준 부호화 방식에 의한 것을 상정하고 있고, 이들 방식에서는 비디오 프레임 신호는, 도 5에 도시한 바와 같이 매크로 블록이라는 단위로 움직임 보상 예측(이하, 인터 부호화라고 함)/프레임 내 적응 부호화(이하, 인트라 부호화라고 함)된다. 매크로 블록은, 휘도 신호 16×16화소, 색차 신호 8×8화소×2의 화상 데이터로 구성된다. 특히, 1프레임의 모든 매크로 블록을 인트라 부호화하는 경우를 인트라 프레임이라 부르고, 이 경우, 해당 프레임의 화상 데이터는 그 자신의 압축 데이터만으로 신장·복원 가능하다. 이러한 프레임에서는, 인트라 부호화 매크로 블록의 각 신호의 직류 성분이 화상 전체의 개략을 표현하는 데이터라고 생각할 수 있다(도 5에서 좌측 최하단에 도시). 인트라 프레임은, 도 5에 도시한 바와 같이 랜덤 액세스 등의 요구 조건으로부터 통상, 비디오 신호 중에 주기적으로 삽입되는 경우가 많다.
한편, 움직임 보상 예측에 의해 예측 잔차(殘差) 신호를 부호화하는 인터 부호화 매크로 블록에서는, 움직임 예측에 의해 근사할 수 없는 데이터만을 부호화하기 때문에, 그 부호화 정보 중, 가장 본질적인 데이터는 매크로 블록의 대부분의 화상 정보를 근사하는 움직임 벡터라고 말할 수 있다(도 5에서 우측 최하단에 도시). 이상의 관점으로부터, 특징 추출부(3)에서는, 화상 비트 스트림으로부터 화상의 특징량으로서, 인트라 프레임에서의 각 매크로 블록의 휘도·색차 신호의 직류 성분과, 인터 부호화 매크로 블록의 움직임 벡터가 추출된다.
이하의 설명을 위해, 소정 기간의 프레임군을 비디오 세그먼트라고 부른다. 예를 들면, 가장 단순한 비디오 세그먼트는 인트라 프레임으로부터 시작되고, 다음의 인트라 프레임 직전의 프레임에서 종료되는 단위로 생각할 수 있다. 또는, 보다 긴 기간에서 인트라 프레임으로부터 인트라 프레임 직전 프레임까지의 프레임군을 일괄한 것을 프레임 세트라고 할 수도 있다. 비디오 세그먼트의 길이는 비디오 세그먼트 내의 콘텐츠의 의미 내용에 따라, 임의로 설정되어도 된다.
본 제1 실시예에서는, 상기 특징 추출부(3)에 의해 추출된 특징량 세트에 기초하여, 특징 기술자 세트 생성부(4)에서, 비디오 세그먼트를 기술하기 위한 특징 기술자 세트를 생성한다(단계 ST5). 이하, 특징량 세트의 추출 순서와 특징 기술자 세트의 생성 순서에 대하여 자세히 설명한다.
도 6은, 도 3에서의 단계 ST4의 특징 추출 처리 및 단계 ST5의 특징 기술자 생성 처리를 포함한 전체 특징 기술자 세트 생성 순서를 상세히 나타내는 흐름도이다.
또한, 특징 추출부(3)에 입력되는 화상 데이터인 비디오 비트 스트림은, 사전에 추출된 비디오 세그먼트를 단위로 하는 비트 스트림이어도 되고, 복수의 비디오 세그먼트로 나누어지기 전의 비디오 프로그램과 같은 장시간에 걸친 비트 스트림이어도 된다. 후자의 경우, 특징 추출부(3)에서, 비디오 세그먼트의 단위를 외부로부터의 지시, 혹은 적당한 내부에서의 식별 처리에 의해 특정하고, 그 단위로 특징 추출·특징 기술자 세트를 추출하도록 처리하면 된다. 이하에서는, 기본이 되는 비디오 세그먼트 단위의 비트 스트림이 입력되는 경우의 처리에 대하여 설명한다. 비디오 세그먼트는, 상술한 바와 같이, 인트라 프레임으로 시작되는 일련의 프레임 세트로 구성되어 있는 것으로 한다. 특징 추출은, 프레임을 단위로 하여, 인트라 프레임과 인터 프레임으로 나누어 실시한다. 인트라 프레임인 경우에는 휘도·색차 신호의 직류 성분, 인터 프레임인 경우에는 움직임 벡터를 추출한다.
구체적으로는, 우선, 단계 ST7에서 프레임의 헤더 정보를 검색하여 해당 프레임이 인트라 프레임(I-frame)인 경우에는(단계 ST7 "예"), 단계 ST8에서 매크로 블록마다 각 화소 값의 평균값 매트릭스인 휘도·색차 신호의 직류 성분의 데이터를 추출한다. 도 6에서, 매크로 블록의 위치는 프레임 상의 래스터 스캔 순으로 n으로 나타내고, 위치 n의 매크로 블록의 휘도 신호의 직류 성분을 DCY[n], 색차 신호의 직류 성분을 DCU[n], DCV[n]로 나타낸다. n의 최대 값은 프레임의 수평·수직 화소 수로 결정된다. MPEG, H.26x 시리즈 등의 국제 표준 비디오 부호화 방식에서는, 직류 성분은 매크로 블록을 구성하는 각 8×8 화소의 서브 블록 단위로 실시되는 DCT(이산코사인 변환)의 (0, 0) 위치의 DC 성분으로 표현되기 때문에, 매크로 블록 단위로 이 데이터를 검색하여 추출하면 된다. 단, 휘도 신호에 대해서는 1매크로 블록당 4개의 서브 블록이 있기 때문에, 휘도 신호의 직류 성분으로서는 4개의 서브 블록의 DC 성분을 평균한 값으로 한다.
계속해서 단계 ST9에서, 인트라 프레임 대응의 특징량을 누적한다. 이 단계는, 특징 기술자 세트 생성부(4)에서 행해진다. 구체적으로는, DCY[n], DCU[n], DCV[n]를 각각 이하의 수학식 1에 기초하여 누적한다.
여기서, avgYpre[n], avgUpre[n], avgVpre[n], StdYpre[n], stdUpre[n], StdVpre[n]의 각 값은, 추출 처리 개시 시에 제로로 리세트해 둔다.
인트라 프레임 중의 모든 n에 대하여 추출 및 누적 처리가 종료되면(단계 ST10 "예"), 비디오 세그먼트 중의 인트라 프레임 출현 수 카운터 NI를 증가하고, 다음 프레임의 처리로 이동한다(단계 ST11 "아니오"). 비디오 세그먼트의 종료이면(단계 ST11 "예"), 특징 기술자 세트 생성 처리의 단계 ST17로 이동한다.
다음으로 인터 프레임의 특징량 추출에 대하여 설명한다.
단계 ST7에서 인트라 프레임이 아니라고 판단되면(단계 ST7 "아니오"), 단계 ST12에서 앞(한쪽) 방향 예측의 인터 프레임(P-frame)인지를 조사한다. 여기서, P-frame로 한 것은, MPEG에서는, 인터 프레임으로서, P-frame 외에, 시간적으로 과거 및 미래의 프레임의 양쪽을 참조하여 움직임 보상 예측을 행하는 양 방향 예측 프레임(B-frame)이나, 스프라이트로 불리는 전경 화상으로부터의 변형 합성으로 복호 화상을 복원하는 스프라이트 예측 프레임(S-frame, S-VOP) 등의 프레임 부호화 타입이 있어, 이들과의 구별을 행하기 위해서이다. 여기서는, 인터 프레임으로서, 과거의 프레임만을 참조하여 앞(한쪽) 방향의 움직임 보상 예측을 행하는 인터 프레임(P-frame)만을 대상으로 한다. 따라서, 단계 ST12에서 P-frame이 아니라고 판단된 경우에는(단계 ST12 "아니오"), 특징량의 추출을 행하지 않고, 다음 프레임의 처리로 이행한다.
한편, 단계 ST12에서 인터 프레임(P-frame)이라고 판단된 경우에는(단계 ST12 "예"), 특징 추출부(3)에서, 프레임 내의 모든 매크로 블록의 움직임 벡터 MV[n]를 추출한다(단계 ST13). 여기서, MV[n]는 이하의 수학식 2로 나타내는 값으로 한다.
xn: 위치 n에서의 움직임 벡터의 수평 성분
yn: 위치 n에서의 움직임 벡터의 수직 성분
그리고, 단계 ST14에서 모든 매크로 블록에 대하여 MV[n]의 추출이 종료되었다고 판단되면(단계 ST14 "예"), 단계 ST15에서, 해당 프레임에 대응하는 인터 프레임의 특징 기술자 세트를 생성한다. 이 처리는, 특징 기술자 세트 생성부(4)에서 행해진다.
도 7은 도 6에서의 단계 ST15의 특징 기술자 세트 처리의 구체적인 생성 순서를 흐름도로 나타낸다. 우선, 단계 ST13의 처리에 의해 1프레임분 축적된 MV[n]에 대하여, 프레임 내의 평균 움직임량으로서 이하의 수학식 3의 값을 구한다(단계 ST15-1).
단, N은 프레임 내 매크로 블록 총수를 나타낸다.
계속해서 단계 ST15-2에서, 각 MV[n]에 대하여 이하의 수학식 4의 임계치 처리를 실시한다.
이렇게 해서 얻어진 새로운 움직임 벡터 분포에 대하여, MV'[n]을 래스터 스캔 순으로 스캔하고, 이하의 움직임 분포를 특징짓는 양을 구한다(단계 ST15-3).
Nsr: 프레임 수평 화소 수의 1/3 이하의 길이를 갖는 제로 런(short run)의 수
Nmr: 프레임 수평 화소 수의 1/3 이상 2/3의 길이를 갖는 제로 런(middle run)의 수
Nlr: 프레임 수평 화소 수의 2/3 이상의 길이를 갖는 제로 런(long run)의 수
도 8로부터 알 수 있는 바와 같이, 제로 런(short run)이 많은 프레임에서는 움직임의 복잡도가 크고, 넓은 범위에 움직임이 분포하고 있는 것을 나타내며, 제로 런(long run)이 많은 프레임에서는 움직임이 국부화되는 것을 나타낸다.
인터 프레임 중의 모든 n에 대하여 추출 및 누적 처리가 종료되고(단계 ST14"예"), 비디오 세그먼트 중의 인터 프레임 출현 수 카운터 NP를 인크리먼트하여, 다음 프레임의 처리로 이동한다(단계 ST16 "아니오"). 비디오 세그먼트의 종료이면(단계 ST16 "예"), 특징 기술자 세트 생성 처리의 단계 ST17로 이동한다.
이상의 결과, 비디오 세그먼트 중의 각 인터 프레임에 대하여 그 특징 기술자 세트(CNp, Nsr, Nmr, Nlr)가 얻어진다. 이들은 단계 ST17의 비디오 세그먼트의 특징 기술자 세트 생성을 위해, 인터 프레임일 때마다 누적된다.
이상과 같이, 각 프레임마다의 특징 추출 혹은 특징 기술자의 생성을 비디오 세그먼트 중의 모든 프레임에 대하여 실시한 후, 마지막으로 단계 ST17에서, 비디오 세그먼트의 특징 기술자 세트를 생성한다. 이 처리도 특징 기술자 세트 생성부(4)에서 행한다.
구체적으로는, 인트라 프레임에 대하여, 누적된 특징량 avgYsum[n], avgUsum[n], avgVsum[n], StdYsum[n], stdUsum[n], stdVsum[n]과, 비디오 세그먼트 내의인트라 프레임 수 NI를 이용하여, 이하의 수학식 5의 특징 기술자 세트(avgY[n], avgU[n], avgV[n], stdY[n], stdU[n], stdV[n])를 생성한다.
이상의 결과, 인트라 프레임에 관하여, n×6개의 특징 기술자 세트가 생성된다. 이들 특징 기술자 세트의 의미를 도 9를 이용하여 설명한다.
우선, 각 프레임에서 각 매크로 블록의 직류 성분을 구하는 것은, 도 9에서의 각 매크로 블록 위치의 화상 데이터의 평균적인 밝기와 색을 시간 방향으로 플롯한 파형을 얻는 것과 동일한 값이다. 즉, avgY[n]의 시계열은, 각 매크로 블록 위치 n에서의 시간 방향의 밝기의 변화를 나타내고, avgU[n], avgV[n]의 시계열은 각 매크로 블록 위치 n에서의 시간 방향의 색의 변화를 나타낸다. 또한, stdY[n]는, 도 9의 파형의 평균(avgY[n])으로부터의 변동의 정도를 나타내고, stdU[n], stdV[n]도 각각 평균(avgU[n], avgV[n])으로부터의 변동의 정도를 나타내고 있다. 따라서, 이들 특징 기술자 세트는, 인트라 프레임 계열의 밝기와 색에 관한 시간적 변화를 특징짓는 기술자라고 생각할 수 있다. 파형을 그대로 기술자로서 유지하면 비디오 세그먼트의 길이에 따라 한없이 기술자의 수가 증가하게 되지만, 이상의 기술자를 이용함으로써 시간적 변화의 특징을 유지하면서, 비디오 세그먼트의 길이에 의존하지 않고 일정수의 기술자에 의해 비디오 세그먼트의 밝기, 색에 관계되는 특징을 기술하는 것이 가능해진다.
한편, 인터 프레임에 관해서는, 각 인터 프레임마다 생성된 특징 기술자 세트(CNp, Nsr, Nmr, Nlr)를 인터 프레임의 총수 NP로 평균한다. 따라서, 인터 프레임에 대해서는 비디오 세그먼트당 4개의 특징 기술자 세트가 생성된다.
또한, 특징 기술자 세트는, 검색에 관하여 편리성이 높아지도록 구조화하여 표현한다. 특징 기술자 세트의 데이터 형식으로서는, 속성 리스트와 마찬가지로, 예를 들면 XML 문서로 하는 경우가 있다.
도 10은 추출된 특징량으로부터 특징 기술자 세트를 생성하는 처리의 일례를 나타낸다.
도 10에 도시한 바와 같이, 특징 추출부(3)에서 비디오 비트 스트림으로부터 추출된 특징량 세트는, DTD에 따라 특징 기술자 세트인 XML 문서로 변환된다. 도 10에 도시한 특징 기술자 세트에는, 상술한 움직임 벡터에 관한 특징 기술자 세트와 휘도·색차 신호의 직류 성분에 관한 특징 기술자 세트가 포함되어 있다. <MotionInfo>∼</MotionInfo>로 둘러싸인 정보가 움직임 벡터에 관한 특징 기술자 세트이고, (CNp, Nsr, Nmr, Nlr)의 각각이 Average, ShortRun, MediumRun, LongRun의 태그로 둘러싸여 기술되어 있다.
또한 <ColourTexture>∼</ColourTexture>로 둘러싸인 정보가 휘도·색차 신호의 직류 성분에 관한 특징 기술자 세트이고, 그 중의 <YDC>∼</YDC>로 둘러싸인 정보가 휘도 신호의 직류 성분에 관한 특징 기술자 세트이며, (avgY[n], stdY[n])의 각각이 Average, Std의 태그로 둘러싸여 기술되어 있다. 또한 마찬가지로 <UDC>∼</UDC> 또는 <VDC>∼</VDC>로 둘러싸인 정보가 색차 신호의 직류 성분에 관한 특징 기술자 세트이고, 그 중에서 Average, Std의 태그로 둘러싸여 기술되어 있는 정보가 (avgU[n], stdU[n]), (avgV[n], stdV[n])이다.
또한 도 10에 도시한 특징 기술자 세트에는, 상술한 움직임 벡터에 관한 특징 기술자 세트 및 휘도·색차 신호의 직류 성분에 관한 특징 기술자 세트 외에, 미디어에 관한 보조 정보가 포함되어 있다. 도 10에서 <MediaInfo>∼</MediaInfo>로 둘러싸인 정보가 그것이며, MPEG-1이나 JPEG 등의 화상 포맷(Format), CD, DVD 등의 축적 매체의 종류(Medium), 그 밖에 컬러 화상이나 모노크롬 화상의 색에 관한 정보나, 화상 사이즈, 그 밖의 화상의 표시에 필요한 단말 능력의 정보 등의 보조 정보가 포함되어 있다. 이들 정보는, 검색한 화상을 사용자가 재생, 표시할 때에 필요함과 동시에 검색 조건으로서 지정하는 것도 가능하다. 또한, 보조 정보에는, 화상이 축적되어 있는 어드레스를 나타내는 정보가 포함되어 있다. 도 10의 예에서는 <Locator>∼</Locator>로 둘러싸인 정보가 그것이며, URL로 지정하고 있다.
또한, 도 10에 도시한 예 이외의 특징 기술자로서, 화상의 의미적인 특징을 기술한 특징 기술자 세트 등이 있다. 이것은 예를 들면, 스포츠 영상에 찍혀 있는 선수가 소속되어 있는 팀명이나, 영상에 찍혀 있는 인물의 관계 등을 표현하는 특징 기술자이다. 이들 정보는, 홈 비디오나 디지털 사진 등을 가정 내 서버에 축적하는 예를 상정하는 경우에는, 피사체가 갖는 의미있는 특징을 사용자가 텍스트 정보로서 직접 입력하거나, 또한 텔레비전 방송을 가정 내 서버에 축적하는 예를 상정하는 경우에는 프로그램 정보로부터 자동적으로 추출할 수 있다.
또한 다른 특징 기술자 세트로서, 인터 프레임의 특징 기술자 세트(CNp, Nsr, Nmr, Nlr)에 대하여, 비디오 세그먼트 내의 평균뿐만 아니라, 그 시간적 변화의 복잡함, 즉 움직임의 추이에 관한 복잡함을 나타내는 지표로서, 상기 인트라 프레임의 특징 기술자 세트와 동일하게, 비디오 세그먼트 내의 분산(표준 편차)을 산출하여 특징 기술자 세트에 가해도 된다. 이에 따라, 움직임의 추이에 관해서도 시간적 변화의 특징량을 가하는 것이 가능하다.
또한, 인트라 프레임의 특징 기술자 세트에 대하여, 인터 프레임의 특징 기술자 세트 생성과 마찬가지의 처리를 행하여 특징 기술자의 수를 삭감하는 것도 고려된다. 예를 들면, 각 인트라 프레임에 대하여 이하의 수학식 6의 양()을 구한다. 이들은 각각 NI번째의 인트라 프레임에 관한 휘도의 화면 내 평균, 색차의 화면 내 평균에 상당한다.
이들 값을 인터 프레임에서의 CNp와 마찬가지로 이용하여, 화면 내에서 휘도·색차에 관하여 (Nsr, Nmr, Nlr)에 해당하는 값을 얻는 것이 가능하다. 이들 값의 세트는, 말하자면 휘도·색차의 공간 내의 분포의 복잡함을 기술하는 양이라고 말할 수 있다. 이들을 각 인트라 프레임의 특징 기술자 세트로 하고, 비디오 세그먼트 내에서 평균, 분산(표준 편차)을 취함으로써, 비디오 세그먼트 전체의 기술자 수를 삭감한 기술도 가능하다. 반대로, 인터 프레임의 특징 기술자 세트를, 인트라 프레임의 특징 기술자와 같이, 보다 상세한 매크로 블록의 정밀도로 시간적 변화를 포함하여 기술하여도 된다.
또한, 본 제1 실시예에서 설명한 인트라 프레임의 매크로 블록 단위의 특징 기술자 세트에서, 계층적인 검색을 실현하기 위해, 특징 기술자 세트를, 도 11에 도시한 바와 같이 상위 층으로부터 하위 층으로 계층적으로 생성하여 기술하는 것도 가능하다. 이에 따라, 화면 전체를 대상으로 하는 전체적인 휘도·색차의 변화로부터, 화면 내의 매크로 블록을 단위로 하는 국소적인 휘도·색차의 변화까지를 일괄하여 기술할 수 있고, 필요에 따른 검색 처리를 실현할 수 있다. 또한, 계층 수를 별도 지정하면, 특징 기술자 세트로서 목적에 맞는 계층 수만큼의 데이터를 유지하면 되기 때문에, 특징 기술자 세트의 데이터량도 적절하게 조정할 수 있다.
또한, 본 제1 실시예에서의 인트라 프레임의 특징 기술자 세트의 수는, 매크로 블록의 수에 의존하고 있기 때문에, 매크로 블록 수가 다른 비디오 세그먼트와는 엄밀한 적합 판정 처리를 행할 수 없지만, 이 문제에 대처하기 위해서는, 검색원과 검색처의 각각의 화상 데이터의 매크로 블록 수에 따라, 적절하게 어느 하나의 특징 기술자 세트를 보간 또는 씨닝하여 매크로 블록 수를 맞추고 나서 매칭을 취하도록 하면 된다. 이러한 케이스는, 다양한 화상 포맷의 비디오 콘텐츠가 혼재하는 데이터 베이스에 대하여 검색을 행하는 처리에 해당하지만, 실질적인 어플리케이션(예를 들면, 디지털 방송 등)에서는 도입 설비 등의 형편상, 화상 포맷이 거의 통일되는 경우가 많고, 사례는 많지 않다고 생각된다. 또한, 본 실시예에서는, 특징 기술자 세트의 기술에 XML을 이용하였지만, 속성 리스트일 때와 마찬가지로, 특징 기술자 세트도, XML에 한정되지 않고, 사전에 정의된 데이터 구조에 기초하여 기술되어 있으면 된다.
이상과 같이 하여, 단계 ST5의 처리에 의해 특징 기술자 세트 생성부(4)에 의해 특징 기술자 세트가 생성되면, 그 생성된 특징 기술자 세트는, 화상 데이터와 함께 화상 정보 축적부(5)에 축적된다(단계 ST6). 또한, 특징 기술자 세트와 화상 데이터는, 다른 데이터 베이스에 축적되는 것도 가능하다. 이 경우, 특징 기술자 세트에 화상 데이터의 기억 위치를 나타내는 어드레스가 포함되어 있으면 된다. 도 10에 도시한 예에서는, 특징 기술자 세트에 Locator라는 요소가 포함되어 있고, 이 요소의 값으로 URL을 설정하고 있다.
(2) 화상 검색부(8)의 처리
다음으로 화상 검색부(8)의 처리에 대하여 설명한다.
도 12는 화상 검색부(8)의 처리를 나타내는 흐름도를 나타낸다. 화상 검색 처리는 주로 2개의 처리로 이루어진다. 속성 리스트에 기초하는 검색과, 특징 기술자 세트에 의한 특징 유사 검색이다.
먼저, 속성 리스트에 기초하는 검색 처리에 대하여 상술한다.
우선, 사용자 인터페이스부(9)를 통해 사용자로부터 검색 조건이 입력된다(단계 ST18). 여기서는, 예를 들면 검색하고자 하는 화상의 카테고리나, 화상이 작성된 일시, 화상의 작성자 등의 텍스트 정보를 입력한다. 사용자로부터 입력된 텍스트 정보는 검색 처리부(10)로 보내어지고, 검색 처리부(10)에서는 속성 리스트 축적부(7)에 축적된 속성 리스트와 적합 판정 처리를 행한다(단계 ST19). 예를 들면, 사용자로부터의 검색 조건으로서, 화상의 작성 일시와 화상의 작성자가 지정된 경우를 생각한다. 도 4의 예에서는, Date, Time, Author의 태그를 탐색하고, 태그로 둘러싸인 값과 매칭을 취하면 된다.
속성 리스트와의 적합 판정 처리의 결과, Date, Time, Author의 모든 요소가 일치된 비디오 메일의 속성 정보가 있는 경우에는(단계 ST19 "예"), 적합 결과인 Date, Time, Author의 모든 요소가 일치된 비디오 메일의 속성 정보를 속성 리스트로부터 추출하여, 표시부(11)로 보낸다(단계 ST20). 이와 같이, 화상 데이터의 속성 정보인 텍스트 정보가 구조화되어 기술되어 있기 때문에, 데이터 구조의 정의에 기초하여, 검색에 필요한 요소만을 추출하고, 용이하게 매칭을 취할 수 있다.
이상의 단계 ST20, ST21의 처리가 속성 리스트 축적부(7)에 축적되어 있는 속성 리스트의 최후까지 반복되어(단계 ST21 "아니오"), 속성 리스트의 최후까지 종료되면(단계 ST21 "예"), 단계 ST20의 처리에 의해 사용자로부터의 검색 조건에 적합한 속성 정보는 모두 표시부(11)로 보내진다.
축적되어 있는 속성 리스트의 최후까지 적합 결과의 전송 처리가 종료되면(단계 ST21 "예"), 표시부(11)에서는, 사용자로부터의 검색 조건에 적합한 속성 정보의 일람을 표시한다(단계 ST22). 도 4의 예에서는, Date, Time, Author의 값이 사용자로부터 입력된 값과 일치한 속성 정보의 일람을 텍스트 정보로서 표시한다. 이 때, 도 4의 예와 같은 XML 문서로 속성 데이터가 기술되어 있는 경우에는, 표시부에서는 XML 문서를 브라우저 상에서 표시할 수 있는 HTML 형식으로 변환하여 표시하면 된다. 또한, 그 때에 속성 정보에 하이퍼링크를 할당해 놓음으로써, 다음 단의 사용자 액세스를 용이하게 행할 수 있도록 할 수 있다. 화상 데이터가 영상 데이터이고 소정의 표시 면적이 있는 경우에는, 속성 정보와 함께 영상 데이터의 키 프레임을 표시시키고, 키 프레임 데이터로부터 영상 데이터로의 링크를 설치하면, 사용자는 직관적으로 영상 데이터로의 액세스를 행할 수 있게 된다.
이상 설명한 바와 같이, 속성 리스트가 사전에 결정된 데이터 형식에 의해 구조화되어 있기 때문에, 사용자측에서는 데이터 형식을 정의한 파일(예를 들면 DTD)에 의해, 속성 리스트의 데이터 구조를 해석하고, 표시 가능한 데이터 형식으로 용이하게 변경할 수 있다.
다음으로, 표시된 속성 리스트 중에 원하는 화상의 속성 정보가 있는 경우, 사용자는, 인터페이스부(9)를 통해 재생 지시를 입력함(단계 ST23)과 동시에, 재생하고자 하는 화상의 속성 정보를 선택한다(단계 ST24). 그렇게 하면, 검색 처리부(10)에서는, 사용자에 의해 선택된 화상의 속성 정보에 포함되는 어드레스(URL)로부터 화상 데이터를 표시부(11)로 전송하고, 표시부(11)는 그 화상 데이터의 재생/표시를 행한다(단계 ST25).
한편, 표시부(11)에 표시된 속성 리스트의 일람 중에 원하는 화상의 속성 정보에 일치하지는 않지만, 원하는 화상의 속성 정보에 가까운 속성 정보가 있는 경우, 혹은 속성 프레임과 함께 표시되어 있는 키 프레임이 원하는 화상과 유사한 경우에는, 사용자는, 인터페이스부(9)를 통해 유사 검색 지시를 입력함(단계 ST23)과 동시에, 유사 검색에 이용하는 원하는 화상의 속성 정보에 가까운 속성 정보를 선택함으로써(단계 ST26), 원하는 화상과 유사한 화상을 화상 정보 축적부(5)에서 검색할 수 있다.
즉, 사용자에 의해 인터페이스부(9)를 통해 유사 검색 지시가 입력되고(단계 ST23), 계속해서 유사 검색에 이용하는 속성 정보가 선택되면(단계 ST26), 검색 처리부(10)는, 특징 기술자 세트에 의한 특징 유사 검색을 행하여, 단계 ST26에서 선택된 화상의 특징 기술자 세트를 화상 정보 축적부(5)로부터 추출하여, 화상 정보 축적부(5)에 축적되어 있는 다른 화상의 특징 기술자 세트와의 적합 판정 처리를 행한다(단계 ST27). 이하의 설명에서는, 상술한 바와 같이 특징량이 움직임 벡터나 휘도·색차 신호의 직류 성분에 관한 특징 기술자 세트로 기술되어 있는 경우를 예로 들어 설명한다.
도 13은, 도 12에서의 단계 ST27의 적합 판정 처리의 일례를 상세히 나타내는 흐름도이다.
우선, 비디오 세그먼트 내의 인터 프레임의 특징 기술자인 움직임 벡터에 관한 4개의 특징 기술자 CNp, Nsr, Nmr, Nlr과, 인트라 프레임의 특징 기술자인 휘도·색차 성분의 직류 성분에 관한 N×6개의 특징 기술자 avgY[n], avgU[n], avgV[n], stdY[n], stdU[n], stdV[n]의 각각에 대하여, 단계 ST26에 의해 선택된 화상의 특징 기술자 세트의 각 특징 기술자의 값에 기초하여 임계치로 규정되는 해당 각 특장 기술자의 소정 범위 내에 있는지의 여부를 비교하고(단계 ST27-1∼ST27-11), 모든 특징 기술자의 값이 소정 범위 내의 값을 취하는 경우에는 적합으로 판정하고, 그 이외의 경우에는 부적합으로 판정한다.
그리고, 적합으로 판정된 특징 기술자를 갖는 화상의 어드레스 정보(URL)는, 표시부(11)로 전송된다(단계 ST28). 이상과 같이 하여, 특징 기술자 세트 리스트 중의 모든 특징 기술자 세트에 대하여 적합 판정 처리가 종료될 때까지(단계 ST29 "예"), 마찬가지로 남은 특징 기술자 세트의 적합 판정 처리를 행한다.
그리고, 특징 기술자 세트 리스트 중의 모든 특징 기술자 세트에 대하여 적합 판정 처리가 종료된 경우(단계 ST29 "아니오"), 표시부(11)는 적합으로 판정된 특징 기술자를 갖는 화상의 어드레스 정보에 기초하여 화상 정보 축적부(5)로부터 화상을 추출하고, 그 화상을 재생/표시한다(단계 ST22). 또한, 동화상인 경우에는, 적합으로 판정된 특징 기술자를 갖는 동화상의 키 프레임의 어드레스 정보를 표시부(11)로 전송하고, 표시부(11)는 그 키 프레임을 재생/표시한다. 그리고, 사용자는, 표시부(11)에 표시된 키 프레임의 일람으로부터 표시하고자 하는 동화상을 인터페이스부(9)에 의해 선택하고(단계 ST24), 동화상을 재생/표시한다(단계 ST25). 또한, 재차, 유사 검색하고자 하는 화상을 선택하여(단계 ST26), 상술한 바와 같이 유사 검색을 행하는(단계 ST27) 것도 가능하다.
따라서, 본 제1 실시예의 화상 검색 시스템에 따라, 속성 리스트를 참조한 속성 정보에 기초하는 검색을 행한 후에, 특징 기술자에 기초하는 검색을 행하도록 하였기 때문에, 효율적으로 검색을 행할 수 있다.
또한, 단계 ST27의 적합 판정 처리에 대해서는, 그 외에도 다양한 방법을 생각할 수 있다. 즉, 상술한 도 13의 예에서는, 모든 특징 기술자에 대하여 균일한 가중치를 부여하여 임계치와의 비교 처리를 행하지만, 예를 들면 움직임에 중점을 두고 검색하고자 하는 경우에는, 인터 프레임의 특징 기술자의 비교 처리의 결과에 가중치를 부여하여 최종적인 결과를 유도하도록 구성할 수도 있다. 또한, 도 13의 예에서는 하나 하나의 특징 기술자에 대한 비교 결과를 캐스케이드 접속하여 최종적인 결과를 얻지만, 모든 특징 기술자의 비교 처리를 적절한 정규화 처리로 결합하여, 일괄 판정하도록 구성할 수도 있다. 이들 적합 판정 처리는, 특징 기술자의 데이터를 검색 목적에 따라 가장 효율적으로 검색에 이용할 수 있도록 조정할 수 있다.
또한, 복수 종류의 특징 기술자를 이용한 검색에서는, 사전에 어플리케이션(검색 시스템, 데이터 베이스 등)의 타입에 따라, 적합 판정 처리(검색식)를 기술자의 형태로 유지해 두는 것도 생각할 수 있다. 판정 처리 자체를 표준적인 기법에 따라 기술함으로써, 검색에 사용하는 복수의 특징 기술자를 어떻게 검색에 이용할지를 어플리케이션에 의존하지 않고 기술할 수 있기 때문에, 다양한 타입의 어플리케이션을 통일적으로 실장할 수 있다. 또한, 예를 들면, 인터넷으로 접속되며, 동일한 특징 기술자를 검색에 이용하는 다른 데이터 베이스 상의 데이터를 공통의 적합 판정 처리에 의해 검색 처리하는 것도 가능해진다. 적합 판정 처리의 기술예로서는, 예를 들면, 이하의 (1)∼(7)에 나타낸 바와 같은 것을 생각할 수 있다.
(1) 복수의 특징 기술자를 어떻게 적합 판정에 이용할지를 기술한다. 예를 들면, 일괄 검색이인지, 캐스케이드 검색인지 등이다.
(2) 일괄 검색 처리를 행하는 데 있어서의 각 특징 기술자의 중요도에 따른 가중치 계수를 제공한다.
(3) 일괄 검색을 행하는 데 있어서, 각 특징 기술자의 정규화 방법을 제공한다.
(4) 기술자를 검색에 사용하는 순서를 제공한다.
(5) 캐스케이드 접속에 의한 검색의 경우에, 각 특징 기술자에 의해 얻어지는 검색 후보의 수를 제공한다.
(6) 각 특징 기술자의 기술의 정밀도(얼마나 정확하게 특징을 기술하고 있는지)를 나타내는 값을 제공한다.
(7) 각 특징 기술자의 매칭에 의해 얻어지는 검색 후보를, 각각 AND 조합하여 출력할지, OR 조합하여 출력할지의 판단 기준을 제공한다.
이들 적합 판정 처리 순서의 기술자는, 어플리케이션 고유의 고정적인 기술이어도 되고, 어플리케이션이 허용하는 범위에서 사용자에 의한 커스터마이즈가 가능해지도록 구성할 수도 있다. 예를 들면, 사용자는 검색 이용 가능한 특징 기술자의 종류를 시스템으로부터 알 수 있고, 이들 성질에 따라 자신의 기호를 반영한 독자의 적합 판정 처리를 기술자로서 갱신할 수 있게 되면, 사용자는 보다 유연한검색 처리를 행할 수 있게 된다. 이러한 검색 시스템의 커스터마이즈는 어느 정도 어플리케이션과는 독자적으로 실행할 수 있지만, 공통의 표준적인 기술 포맷을 준비함으로써, 광범위한 시스템의 실장이 용이해지는 것 외에, 검색에 이용할 수 있는 데이터를 다른 어플리케이션 간에서 공유하는 것도 가능하다.
또한, 본 시스템의 응용예로서, 본 시스템을 감시 시스템에 적용하는 것을 생각할 수 있다. 예를 들면, 감시 카메라에 의해 침입자의 감시를 행하는 감시 시스템의 경우, 화상의 움직임의 특징량에 의해 침입자의 검출이 가능하므로, 화상의 움직임의 특징량을 기술한 메타데이터를 감시 화상 비트 스트림과 함께 데이터 베이스에 등록하고, 속성 리스트에는, 감시 화상이 기록된 일시 등의 정보를 등록한다. 사용자는 기록된 감시 화상을 재생할 때에, 검색 키로서, 일시 등의 텍스트 정보를 입력하고, 또한 「침입자」라는 키워드를 검색 키로서 입력한다. 등록된 리스트로부터 검색 화상 후보를 선택하고, 다음으로 검색 화상 후보에 부수하는 메타데이터를 검색하여, 침입자가 있다고 생각되는 화상을 표시한다. 사용자는 표시된 화상으로부터 보고자 하는 화상을 선택하여 재생할 수 있다. 또한, 일단 검색하여 얻어진 영상에 대하여, 정확한 기록일이나 기록 시각이 불분명한 유사 영상을 더욱 상세히 축적 영상으로부터 검색하는 요구에 대해서도, 특징 기술자 세트를 이용하여 영상 간의 매칭을 취함으로써 사용자에 대하여 상세한 검색 결과를 제공하는 것이 가능해진다.
또한, 본 시스템의 다른 응용예로서, 휴대 단말 등에 축적된 비디오 메일이나, 홈 서버에 축적된 방송 프로그램으로부터, 사용자가 보고자 하는 메일 혹은 방송 프로그램을 검색하여 재생하는 시스템에 적용하는 것을 생각할 수 있다. 속성 리스트는, 홈 서버에 프로그램이 녹화된 일시나 프로그램 정보로부터 추출된 프로그램의 타이틀, 출연자 등의 정보로 구성된다. 사용자는 보고자 하는 프로그램의 정보를 입력함으로써 검색을 행하지만, 검색 결과로 원하는 정보가 얻어지지 않을 때는 영상에 부가된 특징 기술자 세트에 의한 유사 검색을 행할 수도 있다. 이에 따라 정확한 프로그램의 정보를 기억하고 있지 않아도 영상에 대한 인상에 의해 검색하는 것도 가능해진다.
또한, 이상 설명한 특징 추출부(3), 특징 기술자 세트 생성부(4)의 동작이나 추출되는 특징량, 생성되는 특징 기술자 세트에 대해서는, 그 외에도 다양한 예가 있다. 예를 들면, 도 13에 도시한 바와 같이, 특징 추출부(3)가 비디오 압축 부호화부(12)에 의해 압축 부호화되기 전의 비압축 상태의 화상 데이터로부터 특징량을 추출하여, 이들을 특징 기술자 세트 생성부(4)로 보내는 경우도 생각할 수 있다. 이렇게 구성된 시스템의 응용예로서는, 예를 들면, 장시간의 감시 영상을 압축하면서 축적하는 시스템에서, 카메라로부터의 다지타이즈된 입력 영상에 대하여 직접 이동 물체나 침입물 등의 특징(색, 형상, 사이즈, 움직임의 크기·방향 등)을 검출하여 특징량으로서 추출하고, 특징량 기술자 세트 생성부(4)에서 특징 기술자 세트를 생성한 후, 비디오 압축 부호화부(12)에서 압축 부호화되는 비디오 세그먼트에 부가하여 축적하는 운용 형태를 생각할 수 있다. 이 예에서는, 화상 데이터로서의 상세한 특징을 유지한 비압축 영상에 대하여 특징량을 추출하기 때문에, 압축 데이터로부터 특징량을 추출하는 경우에 비해 보다 상세한 특징 기술자(피사체의 종류나 궤적의 기술 등)를 생성할 수 있다고 하는 이점이 있다. 한편, 상세한 특징 기술자의 생성에는 복잡한 연산 처리계가 필요해지고, 특징 추출부(3), 특징 기술자 세트 생성부(4)에는 보다 높은 연산 성능이 요구되게 된다.
이러한 시스템은, 감시뿐만 아니라, 비용보다도 품질·신뢰성을 중시하는 방송 업무 용도의 비디오 카메라에도 적용할 수 있다. 그 경우에는, 본 실시예에 설명한 시스템 전체가 방송 프로그램 제작용의 영상 라이브러리 시스템으로서 기능한다. 비디오 카메라로부터 취득된 영상의 특징 기술자 세트가 기록된 영상과 함께 데이터 베이스에 기록됨으로써, 영상 자체가 갖는 유사성을 키로 하여 효율적인 소재 검색을 행하는 것이 가능해진다. 또한, 개인적인 용도의 비디오 카메라에서도, 압축 부호화 전에 간이한 전 처리 기능을 갖게 함으로써, 예를 들면 인물의 얼굴 화상에 관한 특징 기술자를 생성하여, 대응하는 영상과 함께 매체(비디오 테이프나 PC 혹은 홈 서버 상의 하드디스크라도 됨)에 기록할 수 있도록 해 두면, 방대한 미정리 영상 중에서 특정한 얼굴에 해당하는 영상을 특징 기술자 세트의 매칭에 의해 검색하는 것이 가능해진다.
이상의 어느 어플리케이션에서도, 속성 리스트를 이용함으로써, 복수의 매체나 데이터 베이스를 기록 영상의 속성의 관점으로부터 일원 관리할 수 있고, 또한 검색 후보가 되는 영상의 추가나 삭제 등을 속성 리스트의 레벨로 간단히 행할 수 있도록 되기 때문에, 검색 처리뿐만 아니라, 시스템의 구축 자체를 통일적이고 또한 간이하게 행할 수 있다.
[제2 실시예]
본 제2 실시예에서는, 특히 동화상 데이터에 관하여, 움직임이나 밝기, 색 등, 복수 종류의 특징 기술자를 조합하여 특징 기술자 세트를 구성하고, 이들을 검색 키로서 이용하여, 사용자가 의도하는 검색 방침의 반영 등을 가능하게 한 화상 검색 시스템 및 화상 검색 방법의 구체예에 대하여 설명한다. 또한, 상기 제1 실시예에서는, 검색 처리부(10)를 서버측에 설치하여 설명하였지만, 본 제2 실시예의 화상 검색 시스템에서는, 검색 처리부(10)를 서버측과 클라이언트측으로 나누어, 서버측과 클라이언트측을 2개의 네트워크 A, B를 통해 접속한 것을 하나의 특징으로 하는 것이다.
도 15는, 본 제2 실시예의 화상 검색 시스템에서의 서버측의 특징 부분의 구성을 나타내는 블록도이다. 즉, 도 15는, 도 2에서의 특징 기술자 세트 생성부(4)의 상세한 구성을 나타냄과 함께, 검색 처리부(10)를 2개의 검색 처리부(10A, 10B)로 분할한 것 중 서버측의 검색 처리부(10A)의 상세 블록을 나타내고, 또한 검색 결과를 재생하기 위해 필요한 비디오 재생 서버(218)를 나타낸 것이다.
도 15에서, 참조 부호 201은 압축 비디오 데이터, 참조 부호 202는 특징 기술자 생성부, 참조 부호 203은 특징 기술자 데이터, 참조 부호 204는 특징 기술자 신뢰도 산출부, 참조 부호 205는 특징 기술자 신뢰도, 참조 부호 206은 특징 기술자 검색 사용 순서 결정부, 참조 부호 207은 특징 기술자 검색 사용 순서(검색 우선 순위) 데이터, 참조 부호 208은 압축 비디오 데이터 저장 위치 정보, 참조 부호 209는 검색용 기술 데이터 생성부이다.
또한, 참조 부호 210은 검색용 기술 데이터 파일, 참조 부호 211은 검색용기술 데이터 해석부, 참조 부호 212는 해석된 특징 기술자 데이터 등, 참조 부호 213은 적합 판정 처리부, 참조 부호 214는 적합 판정 처리 결과, 참조 부호 215는 검색 결과 부호화·전송부, 참조 부호 216은 검색 요구 정보, 참조 부호 217은 검색 결과 정보, 참조 부호 218은 비디오 재생 서버, 참조 부호 219는 재생 요구 정보, 참조 부호 220은 재생 제어부, 참조 부호 221은 재생 콘텐츠 특정 정보, 참조 부호 222는 재생하는 비디오 콘텐츠 데이터, 참조 부호 223은 비디오 데이터 송신부, 참조 부호 224는 배신 비디오 데이터이다.
도 16은, 본 제2 실시예의 화상 검색 시스템에서의 주로 클라이언트측의 특징 부분의 구성을 나타내는 블록도이다. 즉, 도 16은, 도 2에서의 검색 처리부(10)를 2개의 검색 처리부(10A, 10B)로 분할한 것 중의 클라이언트측 검색 처리부(10B)의 상세 블록을 나타냄과 함께, 검색 결과를 사용자를 위해 재생하는 비디오 복호·재생부, 사용자와의 인터 액션, 재생 비디오의 표시 등을 위해 설치된 사용자 인터페이스 등을 나타낸다.
도 16에서, 참조 부호 225는 네트워크 A, 참조 부호 227은 검색 요구 정보 부호화·송신부, 참조 부호 228은 검색 결과 수신·표시부, 참조 부호 229는 사용자 인터페이스부, 참조 부호 230은 사용자로부터의 검색 요구, 참조 부호 231은 사용자 인터페이스부(229)에 표시되는 검색 결과, 참조 부호 232는 사용자, 참조 부호 233은 검색 결과 재생 요구, 참조 부호 234는 검색 동화상 재생, 참조 부호 235는 비디오 재생 제어부, 참조 부호 237은 네트워크 B, 참조 부호 239는 비디오 복호·재생부이다.
또한, 도 16에 도시한 클라이언트측의 검색 처리부(10B), 비디오 재생 제어부(235), 및 비디오 복호·재생부(239)와, 도 15에 도시한 서버측 검색 처리부(10A) 및 비디오 재생 서버(218) 사이에서는, 네트워크 A(225), B(237)를 통해, 검색 요구 정보(216), 검색 결과 정보(217), 재생 요구 정보(219) 및 배신 비디오 데이터(224)를 수수한다. 여기서, 네트워크 A(225)는, 예를 들면, 데이터 전송의 고속성보다 신뢰성에 중점을 둔 네트워크를 의미하며, 예를 들면, TCP/IP 등의 커넥션을 의미한다. 또한, 네트워크 B(237)는, 예를 들면, 데이터 전송의 신뢰성보다 실시간 전송을 위한 고속성을 중시한 네트워크를 의미하며, 예를 들면, RTP/UDP/IP 등의 커넥션을 의미한다.
또한, 도 16에서의 사용자 인터페이스부(229)는, 도 2에서의 클라이언트 부분에 해당하고, 도 2에서의 사용자 인터페이스부(9)와 표시부(11)를 더불어 갖는 클라이언트 어플리케이션을 나타내는 것이다.
또한, 상술한 바와 같이, 도 15에 도시한 구성은 주로 서버측에 설치되는 컴포넌트, 도 16에 도시한 구성은 주로 클라이언트측에 설치되는 컴포넌트를 의도하고 있다. 이들 도면으로부터 알 수 있는 바와 같이, 본 시스템에서는, 실제의 검색 적합 판정 처리 등의 검색 처리 자체는 검색 처리부(10A)에 의해 서버측에서 행해지는 것을 상정하고, 클라이언트측은 검색 처리에 대한 사용자의 취향 등의 요구 정보를 소정의 룰에 따라 부호화하여 서버측으로 송신함으로써, 서버가 이들 정보를 해석하여 검색 처리에 반영시키는 것을 상정한다.
이러한 시스템으로 함으로써, 다수의 검색용의 비디오 기술 데이터를 저장하는 파일을, 네트워크를 통해 클라이언트측으로 송신할 필요가가 없어져, 네트워크 사용 효율을 높일 수 있다. 또한, 통상의 검색 결과의 제시 형태로서는, 몇 개의 검색 후보를 사용자에게 제시하는 형태가 일반적이지만, 검색 결과 정보로서 검색 후보로 된 비디오 데이터 전부를 클라이언트측으로 전송하지 않고, 실시간 비디오 재생계와 조합함으로써, 사용자가 정말로 필요로 하는 검색 결과만을 클라이언트측으로 전송하도록 할 수 있다. 이것도 전체 네트워크 사용 효율을 높이는 효과를 얻는다.
본 시스템의 검색 처리의 특징으로서, 복수의 비디오 특징 기술자에 대하여, 각각 기술의 신뢰성을 나타내는 수치를 산출하고, 그 값에 따라, 검색에 사용하는 순서를 정하고, 이들 값을 기술 데이터의 일부로서 XML 파일 등의 검색용 기술 데이터에 저장하는 점을 들 수 있다. 또한, 이러한, 검색에 사용하는 순서에 관한 기술자는, 검색에 관한 사용자의 취향 등을 반영하기 때문에, 클라이언트로부터의 사용자 요구에 따라 갱신 가능한 데이터로 함으로써, 복수의 비디오 특징 기술자의 조합 검색의 파라미터를 제공하는 기술자로서 기능한다.
또한, 각 특징 기술자의 신뢰성을 나타내는 수치는, 각 특징 기술자를 검색에 이용하는 단계에서 줄어든 검색 결과 후보 수 등의 시스템 파라미터의 결정에 이용한다. 이하, 특징 기술자를 검색에 사용하는 순서의 기술자를 「검색 우선 순위」, 각 특징 기술자의 신뢰성을 나타내는 수치를 「신뢰도」라고 부른다. 양자의 상세한 의미, 사용 방법은 후술한다.
도 17은 본 시스템에서의 검색용 기술 데이터 생성 및 검색 처리의 흐름도를나타낸다. 이하, 도 15∼도 17에 기초하여, 본 제2 실시예에서의 시스템의 상세한 동작을 설명한다.
(1) 검색용 기술 데이터 파일(210)의 생성(단계 ST30∼단계 ST33)
우선, 검색용 기술 데이터를 부가하고자 하는 입력 화상 데이터로서의 압축 비디오 데이터(201)에 대하여, 이하에 설명하는 처리를 행함으로써, 검색용 기술 데이터 파일(210)의 생성을 행한다. 이하에서는, 검색용 기술 데이터를 생성하는 대상이 되는 압축 비디오 데이터(201)를 비디오 세그먼트로 부른다. 비디오 세그먼트는, 제1 실시예에도 설명한 바와 같이, 임의의 수의 프레임군으로 구성되는 단위 비디오 데이터를 나타낸다. 따라서, 비디오 세그먼트는, 예를 들면 1개의 텔레비전 프로그램이나 비디오 소프트를 나타내는 경우도 있고(이하, 이러한 경우를 「비디오 프로그램」이라고 함) , 텔레비전 프로그램 중의 특정한 의미 내용에 따라 분류되는 장면(이하, 「비디오 장면」이라고 함)이나, 장면을 구성하는 개개의 카메라 쇼트(이하, 「비디오 쇼트」라고 함) 등을 나타내는 경우도 있다. 이들은 프레임 수의 관점에서 보면, 다른 프레임 수를 갖는 비디오 세그먼트이다.
(1-1) 검색용 기술 데이터의 구성
도 18은 본 제2 실시예에서의 검색용 기술 데이터 파일(210)을 구성하는 검색용 기술 데이터 구조의 기술예를 나타낸다. 구체적으로는, 검색용 기술 데이터는, 비디오 프로그램(240)을 최상위 계층으로 하고, 비디오 프로그램(240)을 구성하는 비디오 장면(도 18에서는, 「장면」으로 약칭함; 243)군을 다음 계층으로 하며, 또한 각 장면(243)을 구성하는 비디오 쇼트(도 18에서는, 「쇼트」로 약칭함;244)군을 최하위 계층으로 하여 구성된다. 또한, 도 18에서는, 비디오 세그먼트(비디오 프로그램(240), 비디오 장면(243), 비디오 쇼트(244)), 검색 우선 순위(241), 및 신뢰도(242)는 "□"로 나타내고 있는 한편, 각 비디오 세그먼트, 특히 비디오 쇼트를 기술하는 특징 기술자(245∼249)군을 "○"로 나타내고 있다. 본 시스템에서는, 비디오 쇼트(244)에 관한 이하의 특징 기술자(245∼249)의 세트를 생성한다.
·움직임량(245)
비디오 세그먼트 중의 움직임 벡터의 크기에 관한 특징 기술자이다.
·움직임 방향(246)
비디오 세그먼트 중의 움직임 벡터의 방향에 관한 특징 기술자이다.
·움직임 분포(247)
비디오 세그먼트 중의 움직임 벡터의 화면 내 분포에 관한 특징 기술자이다.
·밝기(248)
비디오 세그먼트 중의 평균적인 밝기에 관한 특징 기술자이다.
·대표색(249)
비디오 세그먼트 중의 대표색에 관한 특징 기술자이다.
또한, 각 계층(240∼244) 및 특징 기술자(245∼249)에는, 후술하는 신뢰도(242)가 설정된다.
또한, 검색 우선 순위(241)는, 최상위 계층의 비디오 프로그램(240)에 하나가 부가된다.
각 특징 기술자로 대표되는 특징량은, 그 검색 사용 순서가 변화됨으로써 다른 결과를 가져온다. 이 예에서는, 대부분의 초기 데이터 베이스의 단계로부터, 움직임양면에서 매우 적합한 비디오 세그먼트가 초기에 줄어들기 때문에, 최종적으로 사용자에게 제시되는 검색 결과에는, 확실하게 움직임량의 관점에서 유사도가 높은 결과가 얻어지는 것이 기대된다. 이와 같은 정보를 비디오 세그먼트에 부여함으로써, 사용자는 항상 검색 우선 순위(241)의 정보에 기초한 검색 결과를 얻을 수 있고, 또한 사용자가 이 정보를 동적으로 변경하는 것을 가능하게 함으로써, 사용자의 의도에 따른 검색 결과를 유연하게 인출하는 것을 기대할 수 있다.
또한, 본 제2 실시예에서는, 비디오 프로그램(240) 중의 임의의 특정한 비디오 쇼트(244)에 대하여, 유사한 다른 비디오 쇼트(244)를 동일 비디오 프로그램(240)으로부터 검색하는 처리를 상정하기 때문에, 검색 우선 순위(241)를, 비디오 프로그램(240)에 대하여 하나 부가하는 것으로 하고, 비디오 장면(243)이나 비디오 쇼트(244)의 계층에 상당하는 비디오 세그먼트에는 부여하지 않는 것으로 한다.
다음으로, 각 특징 기술자에 설정되는 신뢰도(242)에 대하여 설명한다. 신뢰도(242)란, 예를 들면 움직임량에 관한 특징 기술자를 예로 들면, 그 기술자가 비디오 콘텐츠의 움직임량을 얼마만큼 정확하게 기술할 수 있는지를 객관적인 수치로서 표현하는 것이다. 수치화 방법에 대해서는, 각각의 특징 기술자의 생성에 관한 설명의 항목으로 상술한다. 본 제2 실시예에서는, 신뢰도(242)는, 비디오 쇼트(244)의 개개의 특징 기술자(245∼249) 등에 대하여 산출 및 부여되는신뢰도(242C)와, 각 비디오 장면(243)에 대하여 부여되는 각 비디오 장면(243)을 구성하는 모든 비디오 쇼트(244)의 신뢰도의 값의 평균값인 신뢰도(242B)와, 비디오 프로그램(240)에 대하여 부여되는 해당 비디오 프로그램(240)을 구성하는 모든 비디오 장면(243)의 신뢰도의 값의 평균값인 신뢰도(242A)가 있다. 검색용 기술 데이터를 구성하는 각 요소에 부여된 이상의 신뢰도(242)는, 주로 검색 우선 순위(241)의 초기 설정과, 검색 처리 단계에서의 파라미터 설정에 이용한다. 상세한 설명은 후술한다.
(1-2) 검색용 기술 데이터 생성 처리
(1-2-1) 특징 기술자의 생성 처리(단계 ST30)
개개의 특징 기술자의 생성은, 우선, 특징 추출부(3)가 특징 기술자의 생성에 필요한 움직임 벡터나 DC 성분 값 등의 화상 특징량을 압축 비디오 데이터(201)로부터 추출하고, 이들에 기초하여 특징 기술자 생성부(202)가 각 특징 기술자의 생성을 행한다(단계 ST30). 이하, 각 특징 기술자의 생성 방법의 상세에 대하여 진술한다.
(a) 움직임량에 관한 특징 기술자(245)
비디오 세그먼트 중의 k번째 인터 프레임(P-frame)에 대하여, 하기 수학식에 따라, 프레임 내의 모든 매크로 블록(1≤n≤N; N은 프레임 내 매크로 블록 총수)의 움직임 벡터 MVk[n]의 크기 Ck[n]를 추출한다.
xn: 움직임 벡터 MVk[n]의 수평 성분
yn: 움직임 벡터 MVk[n]의 수직 성분
계속해서, 1프레임분 축적된 Ck[n]에 대하여, 이하의 평균값 및 분산을 구한다.
이상의 결과, 인터 프레임 k의 움직임량에 관한 특징 기술자의 데이터 세트 (Ck avg, σk 2)가 얻어진다. 또한, 비디오 세그먼트당 값을 얻기 위해, 비디오 세그먼트 내의 인터 프레임의 총수로 평균을 취한다.
(b) 움직임 방향에 관한 특징 기술자(246)
각 인터 프레임에서, 움직임 벡터 MVk[n]의 각도 Ak[n]를 이하의 수학식 10으로 구한다. 각도는 도(°)로 표기한다.
한편, 인트라 매크로 블록에서는, Ak[n]=0으로 한다. 1프레임분 축적된 Ak[n]에 대하여, 이하의 수학식 11에 의해 평균을 취한다. 또한, 비디오 세그먼트당 값을 얻기 위해, 비디오 세그먼트 내의 인터 프레임의 총수로 평균을 취한다.
(c) 움직임 분포에 관한 특징 기술자(247)
(a)에서 인터 프레임 k에 대하여 구한 각 움직임 벡터 Ck[n]에 대하여, 이하의 임계치 처리를 실시한다.
이렇게 해서 얻어진 새로운 움직임 벡터 분포에 대하여, Ck'[n]을 래스터 스캔 순으로 스캔하여, 이하의 움직임 분포를 특징짓는 양을 구한다.
SRk: 프레임 수평 화소 수의 1/3 이하의 길이를 갖는 제로 런(Short run)의 수
MRk: 프레임 수평 화소 수의 1/3 이상 2/3의 길이를 갖는 제로 런(middle run)의 수
LRk: 프레임 수평 화소 수의 2/3 이상의 길이를 갖는 제로 런(long run)의 수
또한, 제1 실시예에서도 설명하였지만, 도 8로부터 알 수 있는 바와 같이, 제로 런(short run)이 많은 프레임에서는 움직임의 복잡도가 크고, 넓은 범위에 움직임이 분포하고 있는 것을 나타내며, 제로 런(long run)이 많은 프레임에서는 움직임이 국부적으로 존재하는 것을 나타낸다.
그리고, 비디오 세그먼트당 값을 얻기 위해, 비디오 세그먼트 내의 인터 프레임의 총수로 평균을 취한다.
(d) 밝기에 관한 특징 기술자(248)
인트라 프레임의 휘도 신호 성분에 포함되는 각 매크로 블록의 직류(DC) 성분의 막대 그래프를 이용한다. DC 성분은 0∼255의 범위의 값으로 하고, 그 범위를 16개의 샘플로 양자화하여, 각 샘플에 대하여 막대 그래프를 구한다. 인트라 프레임마다 구한 막대 그래프를 각 샘플마다 비디오 세그먼트 중의 전체 인트라 프레임 수로 평균한다. 마지막으로, 이하의 수학식 13에 의해, 전체 인트라 프레임(N장)의 평균을 취한다.
(e) 대표색에 관한 특징 기술자(249)
인트라 프레임의 휘도 및 색차 신호 성분에 포함되는 각 매크로 블록의 직류(DC) 성분의 막대 그래프를 이용한다. DC 성분은 0∼255의 범위의 값으로 하고, 그 범위를 16개의 샘플로 양자화하여, 각 샘플에 대하여 막대 그래프를 구한다. 인트라 프레임마다 구한 막대 그래프를 각 샘플마다 비디오 세그먼트 중의 전체 인트라 프레임 수로 평균한다. 마지막으로, 이하의 수학식 14에 의해, 전체 인트라 프레임(N장)의 평균을 취한다.
(1-2-2) 신뢰도의 산출 처리(단계 ST31)
계속해서, 특징 기술자 신뢰도 산출부(204)에서, 단계 ST30에서 구한 각 특징 기술자(245∼249)에 대한 특징 기술자 신뢰도(242)(도 15에서의 특징 기술자 신뢰도(205)와 등가)를 산출한다(단계 ST31). 각 특징 기술자마다의 산출 방법을 이하에 진술한다.
(a) 움직임량(245)에 관한 특징 기술자
비디오 세그먼트 내의 모든 인터 프레임에 대하여 (Ck avg, σk 2)의 추출을 행한 후, 개개의 요소에 대하여, 최종적으로 얻어지는 비디오 세그먼트로서의 값과 각 프레임의 값의 차분 절대치를 취하고, 비디오 세그먼트 중의 최대 값을 0, 최소 값을 100으로서 정규화한 각 프레임의 차분 절대값을, 모든 프레임에 걸쳐 가산 평균함으로써 산출한다. 이것은 프레임의 기술 정밀도를 기준으로 하는 비디오 세그먼트의 기술 정밀도를 나타내는 값이 된다. 특징 기술자로서의 신뢰도는 (Ck avg, σk 2)에 대한 각 신뢰도의 평균값으로 한다.
(b) 움직임 방향(246)에 관한 특징 기술자
비디오 세그먼트 내의 모든 인터 프레임에 대하여 Ak avg의 추출을 행한 후, 최종적으로 얻어지는 비디오 세그먼트로서의 값과 각 프레임의 값의 차분 절대값을 취하여, 비디오 세그먼트 중의 최대 값을 0, 최소 값을 100으로서 정규화한 각 프레임의 차분 절대치를, 모든 프레임에 걸쳐 가산 평균함으로써 산출한다. 이것은 프레임의 기술 정밀도에 대한 비디오 세그먼트의 기술 정밀도를 나타내는 값이 된다.
(c) 움직임 분포(247)에 관한 특징 기술자
비디오 세그먼트 내의 모든 인터 프레임에 대하여 (SRk, MRk, LRk)의 추출을 행한 후, 최종적으로 얻어지는 비디오 세그먼트로서의 값과 각 프레임의 값의 차분 절대 값을 취하고, 비디오 세그먼트 중의 최대 값을 0, 최소 값을 100으로서 정규화한 각 프레임의 차분 절대치를, 모든 프레임에 걸쳐 가산 평균함으로써 산출한다. 이것은 프레임의 기술 정밀도에 대한 비디오 세그먼트의 기술 정밀도를 나타내는 값이 된다. 특징 기술자로서의 신뢰도는, (SRk, MRk, LRk)에 대한 각 신뢰도의평균값으로 한다.
(d) 밝기(248)에 관한 특징 기술자
각 막대 그래프 샘플마다, 최종적으로 얻어지는 비디오 세그먼트로서의 값과 각 프레임의 값 간의 차분 절대 값을 취하여, 비디오 세그먼트 중의 최대 값을 0, 최소 값을 100으로서 정규화한 각 프레임의 차분 절대치를, 모든 프레임에 걸쳐 가산 평균함으로써 산출한다. 이것은 프레임의 기술 정밀도에 대한 비디오 세그먼트의 기술 정밀도를 나타내는 값이 된다. 특징 기술자로서의 신뢰도는, 각 막대 그래프 샘플에 대한 신뢰도의 평균값으로 한다.
(e) 대표색(249)에 관한 특징 기술자
각 색 공간의 각 막대 그래프 샘플마다, 최종적으로 얻어지는 비디오 세그먼트로서의 막대 그래프와 각 프레임의 막대 그래프 간의 차분 절대 값을 취하고, 비디오 세그먼트 중의 최대 값을 0, 최소 값을 100으로서 정규화한 각 프레임의 차분 절대값을, 모든 프레임에 걸쳐 가산 평균함으로써 산출한다. 이것은 프레임의 기술 정밀도에 대한 비디오 세그먼트의 기술 정밀도를 나타내는 값이 된다. 특징 기술자로서의 신뢰도는, 각 막대 그래프 샘플에 대한 각 신뢰도의 평균값으로 한다.
(1-2-3) 검색 우선 순위(241)의 설정 처리(단계 ST32)
비디오 프로그램(240) 중에 포함되는 모든 비디오 쇼트(244)에 대하여 특징 기술자(245∼249) 및 신뢰도(242)의 산출이 종료된 후, 특징 기술자 검색 사용 순서 결정부(206)에서, 비디오 프로그램(240)에 대한 검색 우선 순위(241)의 초기 설정을 행한다(단계 ST32). 초기 설정 방법은 시스템의 설계에 따라 자유롭게 규정하는 것이 가능하지만, 본 제2 실시예에서는, 비디오 프로그램(240) 중의 모든 특징 기술자의 신뢰도(242A)에 기초하여 결정한다. 비디오 프로그램(240)의 각 특징 기술자 "k"의 신뢰도(242A)를 φk, 비디오 장면 m의 각 특징 기술자의 신뢰도(242B)를 φk(m), 비디오 장면 m 중의 비디오 쇼트 n의 각 특징 기술자의 신뢰도(242C)를 φk(m, n)으로 하면, 이들 φk, φk(m), φk(m, n) 사이에는, 하기 수학식의 관계가 성립된다.
따라서, φk의 값이 큰 특징 기술자일 수록, 비디오 프로그램(240) 중에서 보다 양호한 콘텐츠 기술을 제공하는 것으로 생각되기 때문에, φk값이 큰 것으로부터 순서대로, 검색 우선 순위(241)를 결정한다.
(1-2-4) 검색용 기술 데이터 파일(210)의 기입(단계 ST33)
이상의 처리 과정을 거쳐, 마지막으로 검색용 기술 데이터 생성부(209)에서, 도 18의 구조에 따라 압축 비디오 데이터(201)의 시공간 구조와 관련지어, 비디오 프로그램, 비디오 장면, 비디오 쇼트의 모든 특징 기술자 및 검색 우선 순위, 신뢰도를, XML 파일 등의 형식으로 기입함으로써 검색용 기술 데이터 파일(210)을 생성하고, 생성된 검색용 기술 데이터 파일(210)을 화상 정보 축적부(5)로 출력하여 저장한다(단계 ST33). 또한, 이 과정에서는, 생성된 검색용 기술 데이터 파일(210)이 어떤 비디오 데이터를 기술한 것인지를 참조할 수 있도록 하기 위해, 압축 비디오 데이터 저장 위치 정보(208)도 함께 파일화하여 검색용 기술 데이터 파일(210)로서 화상 정보 축적부(5)로 출력함으로써, 파일을 해석하여 기술 대상이 된 비디오 데이터의 소재를 특정할 수 있도록 한다.
(2) 검색 처리
다음으로, 클라이언트측으로부터 사용자가 지정하는 쿼리(검색원 비디오 쇼트)에 대하여 행하는 검색 처리에 대하여 상술한다. 검색 처리는, 도 15에 도시한 검색 처리부(10A), 및 도 16에 도시한 검색 처리부(10B)에 의해 실행된다.
검색 처리부(10A)는, 클라이언트측으로부터 송신되는 검색 요구 정보(216)를 해석하여, 쿼리를 특정하고, 화상 정보 축적부(5)에 저장된 검색용 기술 데이터 파일(210)을 이용한 적합 판정 처리에 의해 소정의 검색 결과를 구하여, 소정 룰로 검색 결과 정보(217)를 부호화하여, 클라이언트측으로 반송한다.
검색 처리부(10B)는, 사용자로부터의 검색 요구를 사용자 인터페이스부(229)로부터 받아들여, 소정의 순서에 따라 검색 요구 정보(216)로서 부호화하여 서버측 검색 처리부(10A)로 송신함과 함께, 서버로부터 소정 룰에 따라 송신된 검색 결과 정보(217)를 수신하고, 사용자에게 제시할 수 있는 형태로 변환하여, 사용자 인터페이스부(229) 상에 표시하는 처리를 행한다.
본 제2 실시예에서는, 도 18에 도시한 바와 같이 기술된 비디오 프로그램(240) 중의 특정한 비디오 쇼트(244)를 검색원 비디오 세그먼트(쿼리)로 하여, 동일한 비디오 프로그램(240)으로부터 쿼리와 유사한 비디오 쇼트를 검색하는 상황을 상정한다.
쿼리로 되는 비디오 쇼트의 특정 방법에 대해서는, 다양한 케이스를 생각할 수 있다. 예를 들면, 비디오 프로그램을 제작하는 측이 사전에 검색 키로 되는 비디오 쇼트를 쿼리로서 등록해 놓고, 그것을 사용자에게 제시하여 어느 하나를 지정하는 방법이나, 비디오 프로그램을 시청하는 사용자가 임의의 위치에서 재생을 정지하고, 그 시점의 비디오 쇼트를 쿼리로서 지정하는 것 등을 생각할 수 있다. 이하에서는, 쿼리가 특정된 후의 검색 처리에 대하여 상세히 설명한다.
(2-1) 쿼리의 특정과 검색용 기술 데이터의 해석(단계 ST34∼단계 ST36)
사용자는, 우선, 사용자 인터페이스부(229) 상에 제시된 쿼리 리스트 등으로부터 검색원이 되는 쿼리를 선정한다(단계 ST34). 쿼리 리스트로서는, 사전에 서버측의 화상 정보 축적부(5)로부터, 쿼리 후보의 비디오 세그먼트를 대표하는 키 프레임 등의 데이터를 사용자 인터페이스부(29)에 제시해 두는 형식 등을 상정한다.
검색 처리부(10B)는, 검색 요구 정보 부호화·송신부(227)에서, 사용자로부터 지정된 쿼리를 서버측에서 특정하기 위한 정보를 검색 요구 정보(216)로서 검색 처리부(10A)로 송신한다. 이것은, 예를 들면, 비디오 프로그램 및 그 구성 요소인 비디오 쇼트의 시계열 번호이거나, 적당한 ID 데이터이면 된다. 또한, 이러한 콘텐츠 특정 정보는, 원래 검색용 기술 데이터 파일(210) 중에 콘텐츠로의 링크 정보로서 기술되어 있고, 사용자에게 쿼리 리스트를 제시할 때에 콘텐츠 특정 정보를 부가하여 클라이언트에게 송신하는 구성으로 할 수도 있다.
그렇게 하면, 검색 처리부(10A)에서는, 검색 처리부(10B)로부터 송신되는 검색 요구 정보(216)를 검색용 기술 데이터 해석부(211)가 수취하고, 검색용 기술 데이터 해석부(211)는, 수신한 검색 요구 정보(216)에 기초하여 쿼리로 되는 비디오 쇼트에 관한 검색용 기술 데이터 파일(210)을 특정하고, 그것을 해석하여 특징 기술자 등의 데이터를 추출한다(단계 ST35).
또한, 검색용 기술 데이터 해석부(211)는, 쿼리가 속하는 비디오 프로그램의 검색 우선 순위(241)와, 각 비디오 장면의 신뢰도(242B)의 데이터를 사전에 추출하여, 적합 판정 처리부(213)로 보내고, 쿼리에 관한 특징 기술자 등의 데이터를 적합 판정 처리부(213)로 보낸 후, 쿼리가 속하는 비디오 프로그램 중의 각 비디오 쇼트에 대응하는 검색용 기술 데이터 파일(210)을 순차적으로 해석하여, 적합 판정 처리부(213)로 보낸다(단계 ST36).
또한, 검색용 기술 데이터 파일(210)의 구성 방법은 임의이고, 비디오 프로그램(240) 내의 모든 비디오 쇼트(243)의 검색용 기술 데이터가 하나의 파일 내에 저장되어 있어도 되며, 개개의 비디오 쇼트(244)마다 파일이 분할되어 있어도 된다. 후자의 경우에는, 비디오 프로그램(240)의 기술 데이터 파일(210)로부터 개개의 비디오 쇼트(244)의 기술 데이터 파일을 특정하는 링크 정보가 포함되어 있으면 된다.
(2-2) 검색 룰의 결정 및 적합 판정 처리(단계 ST37∼단계 ST38)
적합 판정 처리는, 검색 처리부(10A)의 적합 판정 처리부(213)에서 행해지고, 그 동작은 크게 나누면, 검색 룰의 결정과, 각 특징 기술자에 의한 적합 판정 처리로 분류된다.
(2-2-1) 검색 룰의 결정
적합 판정 처리부(213)는, 검색용 기술 데이터 해석부(211)로부터 수취한 비디오 프로그램의 검색 우선 순위(241)와, 비디오 장면의 신뢰도(242B)의 데이터에 기초하여, 검색 룰 및 검색을 위한 파라미터를 설정한다(단계 ST37). 본 제2 실시예에서는, 후술하는 도 19에 도시한 바와 같이 검색 우선 순위(241)에 기초하여 각 특징 기술자를 검색에 사용하는 순서를 검색 룰로서 결정하고, 그 다음에, 신뢰도에 기초하여 이하의 검색 파라미터를 결정한다.
(a) 각 특징 기술자에 의한 검색 단계에서의 검색 후보 수
우선, 검색 결과로서 사용자에게 돌려주는 최종 검색 결과 수 T를 정한다. 이것은 시스템이 디폴트 값으로서 갖고 있어도 되고, 사용자 요구로서 사용자 인터페이스부(229)→검색 처리부(10B)→검색 처리부(10A)라는 순으로 보내어져 설정되도록 해도 된다. 검색 엔진은, 각 비디오 장면에 대하여 T개 이하의 검색 결과를 구하고, 검색 후보로 된 모든 비디오 장면 중의 모든 비디오 쇼트 중, 적합 판정 결과의 상위 T개의 비디오 쇼트를 최종적인 결과로서 사용자에게 돌려주는 것으로 한다.
비디오 장면 m의 검색 시에서의 검색 후보 수 Tk를, 신뢰도 φk(m)에 기초하여, 이하의 수학식 17과 같이 결정한다.
여기서, Pk는, K(1≤k≤5)번째의 특징 기술자의 검색 우선 순위(1≤Pk≤5)이다. 이 설정에 의해, 각 특징 기술자를 검색 우선 순위의 순서로 검색하는 각 단계에서의 검색 후보 수 Tk가 결정된다. 기본적으로 각 검색 단계마다 검색 후보 수 Tk가 줄어들기 때문에, 검색 처리를 고속화할 수 있다. 경우에 따라서는 이러한 검색에 의해 사용자가 정말로 기대하는 비디오 쇼트를 임의의 검색 단계에서 빠뜨릴 가능성도 있기 때문에, 각 검색 단계의 검색 후보 수를 일정하게 하고, 그 중에서의 최종 검색 후보의 결정을 행할 때에 신뢰도를 이용하는 방법을 생각할 수 있다.
(b) 임계치 처리에 기초한 검색 스킵 판정
각 비디오 쇼트의 적합 판정 처리 시, 하기 수학식의 조건을 만족시키는 비디오 쇼트, 즉 검색 우선 순위가 가장 높은 특징 기술자의 신뢰도가 극단적으로 낮은 비디오 쇼트는, 검색 조건에 맞지 않는 것으로 하여 적합 판정 처리의 후보로부터 제외하는 것으로 한다. 신뢰도에 대해서는, 0에 가까울 수록 신뢰성이 낮고, 100에 가까울 수록 신뢰성이 높은 것으로 간주하기 때문에, 이하의 수학식 18의 TH는 적당하게 작은 값을 설정해 두면 된다.
본 판정에 의해, 명백하게 검색 결과 후보로서 적당하지 않은 비디오 쇼트를 적합 판정 처리를 행하기 전에 제외할 수 있어, 검색 처리의 고속화를 도모하는 것이 가능하다.
또한, 본 제2 실시예의 설명에서는, 검색 우선 순위가 가장 높은 특징 기술자를 판정에 이용하는 것으로 하였지만, 이 이외에도 신뢰도를 이용한 다양한 스킵 판정 방법을 실현할 수 있다. 또한, 본 제2 실시예의 판정은, 각 비디오 쇼트에 대한 적합 판정 처리를 행할 때에, 비디오 쇼트마다 행해진다.
(2-2-2) 각 특징 기술자의 적합 판정 처리
이하의 기준에 기초하여, 각 검색 단계에서 검색 우선 순위(241)에 의해 정해지는 특징 기술자의 적합 판정 처리를 행한다(단계 ST38).
(a) 움직임량에 관한 특징 기술자
개개의 데이터 간의 유클리드 거리를 모두 가산한다. 각 데이터 요소의 치역의 차이를 흡수하기 때문에, 정규화 처리를 행한다. 쿼리를 Sq, 검색처 비디오 쇼트를 S로 하고, Sq와 S 간의 매칭 평가 척도 D(Sq, S)를 이하의 수학식 19로 정한다. 이 D(Sq, S)가 작은 것일수록 유사도가 높고, 적합한 것으로 판정한다.
(b) 움직임 방향에 관한 특징 기술자
쿼리 Sq, 검색처 비디오 쇼트 S 사이의 매칭 평가 척도 D(Sq, S)를 이하의 수학식 20으로 정한다. 이 D(Sq, S)가 작은 것일수록 유사도가 높고, 적합한 것으로 판정한다.
(c) 움직임 분포에 관한 특징 기술자
쿼리 Sq, 검색처 비디오 쇼트 S 간의 매칭 평가 척도 D(Sq, S)를 이하의 수학식 21로 정한다. 이 D(Sq, S)가 작은 것일수록 유사도가 높고, 적합한 것으로 판정한다.
(d) 밝기에 관한 특징 기술자
쿼리 Sq, 검색처 비디오 쇼트 S 간의 매칭 평가 척도 D(Sq, S)를 이하의 수학식 22로 정한다. 단, Hi(S)를 i번째 샘플의 막대 그래프 값으로 한다. 이 D(Sq, S)가 작은 것일수록 유사도가 높고, 적합한 것으로 판정한다.
(e) 대표색에 관한 특징 기술자
쿼리 Sq, 테스트 S 간의 매칭 평가 척도 D(Sq, S)를 이하의 수학식 23으로 정한다. 단, [Hi Y(S), Hi U(S), Hi V(S)]를 i번째 샘플의 막대 그래프 값으로 한다. 이 D(Sq, S)가 작은 것일수록 유사도가 높고, 적합한 것으로 판정한다.
도 19는 적합 판정 처리부(211)에서의 검색 우선 순위(241)에 의해 정해지는 특징 기술자의 적합 판정 처리의 일례를 나타낸다. 예를 들면, 비디오 세그먼트당 3개의 특징 기술자 D1∼D3이 있는 것으로 한다. 검색 우선 순위 Pk(K는 자연수)는, 각 특징 기술자 Dk가 검색에 사용되는 순서를 규정하는 값이다. 예를 들면, D1이 움직임량, D2가 움직임 분포, D3이 밝기에 관한 특징 기술자라고 하면, 도 19의 예에서는, 적합 판정 처리부(211)는, 쿼리(검색원 비디오 쇼트; 250)에 대하여, 움직임량에 관한 특징 기술자 D1을 최초로 이용하여 적합 판정 처리(251)를 행하고, 검색용 기술 데이터 해석부(211)로부터 전송되는 화상 정보 축적부(5)에 저장되어 있는 다수의 데이터 베이스(257) 중에서, 움직임량의 관점에서 유사도가 높고 매우 적합한 비디오 세그먼트 데이터를 줄인다. 그 줄인 결과(252)에 대하여, 움직임 분포에 관한 특징 기술자 D2를 이용하여 적합 판정 처리(253)를 행하여, 움직임 분포의 관점에서 유사도가 높고 매우 적합한 비디오 세그먼트 데이터를 줄이고, 또한 그 결과(254)에 대하여, 밝기에 관한 특징 기술자 D3을 이용하여 적합 판정 처리(255)를 행하여, 밝기의 관점에서 유사도가 높고 매우 적합한 비디오 세그먼트 데이터를 줄여, 최종 결과(256)(도 15에서의 적합 판정 처리 결과(214)와 등가)를 얻는다.
(2-3) 검색 결과의 제시와 사용자 피드백에 기초한 재검색(단계 ST39∼단계 ST41)
이상의 검색 룰과 적합 판정 처리에 기초하여 선택된 T개의 검색 결과의 비디오 쇼트에 관하여, 그 정보를 사용자 인터페이스부(229)에 의해 사용자(232)에게 제시한다(단계 ST39). 제시 방법은 임의이지만, 본 제2 실시예에서는, 예를 들면, 최초에 쿼리 리스트를 제시한 바와 같이, 검색 결과의 비디오 쇼트를 대표하는 키 프레임 데이터나 비디오 쇼트의 속성 정보(비디오 쇼트 내의 피사체의 이름 등)를 소정의 룰에 기초하여 부호화하여 검색 결과 정보(217)로서 클라이언트측의 검색 처리부(10B)로 송신하고, 검색 처리부(10B)의 검색 결과 수신·표시부(228)가 서버측으로부터 송신되는 키 프레임 데이터나 속성 정보를 부호화한 검색 결과정보(217)를 수신하여, 사용자 인터페이스부(229)에 표시 가능한 형식으로 변환하여 사용자 인터페이스부(229)로 보낸다. 이상의 처리를 거침으로써, 사용자(232)는, 검색 결과를 사용자 인터페이스부(229) 상에서 볼 수 있다.
계속해서, 사용자 피드백에 기초한 재검색 순서에 대하여 설명한다.
사용자는, 처음에는 검색 우선 순위(241)나 신뢰도(242) 등에 기초하여 상기한 바와 같이 정해지는 검색 룰에 따라 얻어진 검색 결과를 확인하지만, 그 결과가 사용자의 주관상, 기대되는 것과 다른 경우를 생각할 수 있다. 그와 같은 경우에 유연하게 대처하기 위해, 본 제2 실시예에서는, 사용자가 검색 우선 순위를 변경하고, 그 변경 값에 기초하여 재검색을 행하는 것이 가능해지도록 시스템을 구성한다(단계 ST40).
도 20은 사용자가 특별히 주목하고자 하는 주관적인 의미와, 특징 기술자와의 관련의 일례를 나타낸다. 도 20으로부터 알 수 있는 바와 같이, 특정한 피사체가 일정 방향으로 이동하는 비디오 쇼트를 사용자가 쿼리로서 선택했을 때, 검색 결과로서 특히 「움직임 방향이라는 특징에 대하여 유사한 비디오 쇼트」를 기대하고 있는 경우가 많다고 생각할 수 있다. 그러나, 최초의 초기 설정에서는, 검색 우선 순위가 신뢰도에 기초하여 결정되기 때문에, 이러한 주관적인 가중치 부여가 검색 과정에 반영되어 있지 않을 가능성이 있다.
그래서, 도 20에 도시한 바와 같은 주관적 의미를 사용자가 검색 처리에 반영할 수 있도록, 사용자 인터페이스부(229) 등을 통해 검색 우선 순위(241)를 변경할 수 있도록 구성한다. 예를 들면, 상기한 예에서, 사용자(232)는 「움직임 방향의 특징 기술자에 관한 검색 우선 순위를 보다 높은 값으로 설정하는」 것을 가능하게 한다. 이와 같이 함으로써, 검색 처리는 움직임 방향의 특징 기술자의 적합 판정 처리를 선행하여 행하게 되기 때문에, 최종적인 검색 결과에 「움직임 방향」의 팩터가 보다 반영되기 쉬워진다.
사용자(232)에 의해 갱신된 검색 우선 순위(241)는, 검색 요구 정보 부호화·송신부(227)에 의해 소정의 룰로 부호화되고, 검색 요구 정보(216)의 일부로서, 네트워크 A(225)를 통해, 서버측의 검색 처리부(10A)에서의 검색용 기술 데이터 해석부(211)로 송신된다.
검색용 기술 데이터 해석부(211)는, 송신된 검색 우선 순위(241)의 갱신 값을 이후의 검색 처리에 재이용할 수 있도록, 검색용 기술 데이터 파일(210)에서의 비디오 프로그램(240)에 대응하는 검색 우선 순위(241)의 값을 해당 갱신 값에 의해 업데이트한다(단계 ST41).
또한, 검색용 기술 데이터 해석부(211)는, 일련의 검색 처리가 종료된 시점에서, 그 시점에서 최신의 검색 우선 순위(241)의 값을 갱신한 상태에서, 검색용 기술 데이터 파일(210)을 화상 정보 축적부(5)에 재보존한다.
이러한 구성을 취함으로써, 사용자는, 동일한 비디오 프로그램을 재차 동일한 기준으로 검색하는 경우에, 과거의 사용자의 주관적인 요구를 반영한 형태로 재검색을 행할 수 있다.
또한, 복수의 다른 사용자(232)가 시스템을 이용하는 경우, 검색용 기술 데이터 파일(210)은, 개개의 사용자(232)마다 검색 우선 순위(241)를 저장할 수 있는파일 구성으로 하는 것을 생각할 수 있다. 이렇게 해 둠으로써, 적당한 사용자 인증 절차를 추가함으로써, 개개의 사용자(232)에 적합한 검색 룰을 적절하게 재현하는 것이 가능해진다.
이상과 같이 하여 갱신된 검색 우선 순위(241)를 이용하여, 단계 ST37 이후의 검색 처리를 반복함으로써, 재검색이 행해지게 된다. 따라서 도 17에 도시한 본 시스템에서의 검색용 기술 데이터 생성 및 검색 처리가 종료된다.
(3) 비디오 쇼트 재생 처리
이상 설명한 동작에 의해, 사용자는 원하는 검색 결과를 사용자 인터페이스부(229) 상으로 인출하는 것이 가능해진다. 그러나, 일반적으로 검색 결과는 복수의 검색 후보를 제시하는 것이고, 이들을 모두 비디오 데이터로서 표시하기 위해서는 서버측으로부터 클라이언트측으로 다량의 정보 전송이 필요해진다. 그래서, 상술한 바와 같이, 사용자 인터페이스부(229)로서는, 비디오 쇼트를 대표하는 키 프레임과 같은 데이터를 제시하여, 거기로부터 선택적으로 영상 재생이 가능해지도록 구성함으로써, 전체 정보 전송량을 효과적으로 삭감하는 것이 가능하다. 그와 같은 시스템 구성으로 하기 위해, 본 제2 실시예에서는, 도 15 및 도 16에 도시한 비디오 재생 서버(218), 비디오 복호·재생부(239), 재생 제어부(235) 등을 도입한다. 사용자(232)는, 이러한 기능을, 선택한 비디오 쇼트나 비디오 프로그램을 재생하기 위해 이용한다.
다음으로, 사용자(232)에 의해 선택된 본 기능을 사용하는 비디오 쇼트나 비디오 프로그램의 재생 동작에 대하여 설명한다.
우선, 사용자(232)가 사용자 인터페이스부(229) 상에 제시된 키 프레임에 의해 재생하고자 하는 비디오 쇼트(244)나 비디오 프로그램(240)을 선택하면, 그 선택 정보는 검색 결과 재생 요구(233)로서 사용자 인터페이스부(229)로부터 비디오 재생 제어부(235)로 출력된다.
비디오 재생 제어부(235)는, 소정의 순서로 그 검색 결과 재생 요구(233)를 재생 요구 정보(219)로 변환하고, 네트워크 A(225)를 통해 서버측의 비디오 재생 서버(218)의 재생 제어부(220)로 송신한다.
재생 제어부(220)는, 재생 요구 정보(219)에 콘텐츠를 특정하는 콘텐츠 특정 정보 등을 포함한 재생 콘텐츠 특정 정보(221)를 생성하도록 한다. 이러한 재생 콘텐츠 특정 정보(221)는, 원래 검색용 기술 데이터 파일(210) 중에 콘텐츠로의 링크 정보로서 사전에 기술되어 있고, 사용자에게 검색 결과 정보(217)를 제시할 때, 검색 결과 정보(217)에 그 콘텐츠 특정 정보를 부가하여 클라이언트측으로 송신해 놓고, 재생 요구 정보(219)로서 이용하는 구성으로 할 수 있다.
그리고 재생 제어부(220)는, 수신한 재생 요구 정보(219)에 기초하는 재생 콘텐츠 특정 정보(221)를 화상 정보 축적부(5)로 송신하고, 화상 정보 축적부(5)로부터 재생 대상의 비디오 콘텐츠 데이터(222)를 특정하며, 특정한 재생 대상의 비디오 콘텐츠 데이터(222)를 비디오 데이터 송신부(223)로 보낸다.
비디오 데이터 송신부(223)는, 재생 대상의 비디오 콘텐츠 데이터(222)를 실시간 배신할 수 있는 데이터 형식의 배신 비디오 데이터(224)로 변환한 후, 네트워크 B(237)로 보낸다.
또한, 비디오 데이터 송신부(223)는, 이러한 고속성을 중시하는 네트워크 B(237)에 비디오 데이터를 보내는 데 있어서, 네트워크 내 혹은 클라이언트측에서 신뢰성을 확보하는 것을 가능하게 하기 위한 데이터 형식으로의 변환을 행하도록 해도 된다. 예를 들면, 비디오 데이터를 비디오의 프레임 단위로 분할하고, 그 단위로 타임 스탬프를 부여하거나, 전송 단위의 패킷에 대한 우선도의 정보를 부가하는 것 등을 생각할 수 있다.
한편, 클라이언트측은, 고속의 네트워크 B(237)를 통해 송신되어 오는 배신 비디오 데이터(224)를, 비디오 복호·재생부(239)가 수신하여, 별도 비디오 재생 제어부(235)로부터 송신되는 재생에 필요한 제어 정보(262)에 기초하여, 사용자 인터페이스부(229) 상에 비디오 재생을 행한다. 그 때, 비디오 복호·재생부(239) 및 비디오 재생 제어부(235)는, 전송 상의 문제로 전송 데이터의 신뢰성이 낮아지는 경우에는, 적절하게, 재생 품질을 보충하기 위한 품질 관리 제어를 행하도록 한다.
이상과 같이, 본 제2 실시예의 화상 검색 시스템 및 검색 방법에 따르면, 서버·클라이언트형의 시스템 구성을 취함으로써, 로컬 환경뿐만 아니라, IP망 등의 분산 네트워크 환경에서도 비디오 데이터를 효율적으로 검색·배신할 수 있다.
또한, 검색 우선 순위(241)와 신뢰도(242)를 검색용 기술 데이터로서 화상 정보 축적부(5)에 저장함으로써, 검색 시스템이 이들 값에 기초하여 공통적인 검색 룰의 결정 지침을 정할 수 있다.
또한, 검색 우선 순위(241)의 갱신 기능에 의해, 사용자는 비디오 콘텐츠의주관적인 의미에 기초한 검색을 우선적으로 행할 수 있다.
또한, 특징 기술자의 신뢰도에 기초하는 적합 판정 처리의 스킵 제어에 의해, 검색 처리 속도를 고속화할 수 있어, 시스템 효율을 향상시킬 수 있다.
또한, 상기 제1, 제2 실시예서는, 취급하는 미디어를 비디오 데이터만으로 설명하였지만, 본 발명에서는, 이에 한정되지 않고, 별도로, 음성·오디오 데이터 등이 부가된 비디오 데이터에 대해서도 마찬가지 구성으로 시스템을 구축할 수 있다. 또한, 오디오 데이터에 관하여 별도의 특징 기술자를 베이스로 한 검색계를 준비해도 되고, 또한, 오디오 데이터에 대해서는 단순히 비디오 데이터에 부수되어 있어 검색 대상이 되지 않는 시스템 구성도 가능하다. 오디오가 부여되는 경우, 비디오 쇼트 재생 처리에 대해서는, 비디오 데이터에 부수·동기하는 오디오 데이터의 재생도 지원하도록 구성하면 된다.
또한, 본 제2 실시예에 진술한 시스템은, 특징 추출부(3) 및 특징 기술자 세트 생성부(4)로 구성되며, 특징 기술 데이터를 생성하는 모듈과, 화상 정보 축적부(5)로 구성되며, 특징 기술 데이터를 데이터 베이스 등록하는 모듈과, 검색 처리부(10A)로 구성되며, 사용자로부터의 검색 요구를 접수하여 검색을 실행하여 결과를 돌려주는 검색 엔진의 모듈과, 주로 검색 처리부(10B)로 구성되며, 사용자로부터의 검색 요구를 검색 엔진에 통지하여 돌려주는 검색 결과를 사용자에게 제시하는 클라이언트 모듈에 대해서는, 반드시 동일 하드웨어·소프트웨어 상에 구축할 필요는 없으며, 각각 정해진 인터페이스에 따름으로써 독립적으로 하드웨어, 소프트웨어 실장하는 것이 가능하다. 서비스 관점에서는, 예를 들면, 콘텐츠 프로바이더가 특징 기술 데이터를 생성하여 데이터 베이스 등록을 신청한다. 검색 서비스 프로바이더는 이들을 데이터 베이스 등록하고, 검색 처리의 준비를 갖춘다. 사용자는, 본 실시예에 설명한 바와 같은, 검색 서비스 프로바이더가 지정하거나, 혹은 표준화된 규정에 따라 검색 처리를 실행하는 클라이언트 툴로 검색을 실행하는 형태의 운용 방법을 생각할 수 있다.
이상과 같이, 본 발명에 따른 화상 검색 시스템 및 화상 검색 방법은, 화상 데이터로부터 특징량이나 속성 정보를 추출하고, 추출된 특징량이나 속성 정보를 이용하여 화상 데이터의 검색을 행하기 때문에, 효율적으로 화상 검색 처리를 행할 수 있다.
Claims (22)
- 입력 화상 데이터로부터 화상 특징량을 추출하여 특징 기술자를 생성하는 특징 기술자 생성부와,생성된 상기 특징 기술자를 입력 화상 데이터와 대응시켜 축적하는 화상 정보 축적부와,입력 화상 데이터에 부수하여 입력되는 속성 정보에 기초하여 속성 리스트를 생성하는 속성 리스트 생성부와,속성 정보에 관한 검색 조건이 입력되면 상기 속성 리스트를 검색하여 해당 검색 조건에 적합한 속성 정보를 출력함과 함께, 특징 기술자에 관한 검색 조건이 입력되면 상기 화상 정보 축적부를 검색하여 해당 검색 조건에 적합한 화상 데이터를 출력하는 화상 검색부를 포함하는 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 속성 리스트 생성부는 속성 리스트의 데이터 구조를 정의한 신택스(syntax)에 기초하여 해당 속성 리스트를 생성하고,상기 화상 검색부는 상기 속성 리스트의 신택스에 따라 속성 리스트를 해석하고, 검색하는 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 특징 기술자 생성부는 특징 기술자의 데이터 구조를 정의한 신택스에 기초하여 해당 특징 기술자를 생성하고,상기 화상 검색부는 상기 특징 기술자의 신택스에 따라 특징 기술자를 해석하고, 검색하는 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 특징 기술자 생성부는 프레임 단위로 특징량을 추출하고, 복수의 프레임을 통합한 비디오 세그먼트 단위로 특징 기술자를 생성하는 것을 특징으로 하는 화상 검색 시스템.
- 제4항에 있어서,상기 특징 기술자 생성부는, 인트라 프레임과 인터 프레임으로 이루어지는 압축 영상 데이터를 입력 화상 데이터로 하고,상기 인트라 프레임의 경우, 소정의 부호화 단위 영역에서의 각 화소 값의 평균값 매트릭스를 추출하여 비디오 세그먼트에 포함되는 인트라 프레임분만큼 누적하고, 그 누적 값을 인트라 프레임 수에 의해 평균한 값과 표준 편차를 인트라 프레임의 특징 기술자로서 생성하며,상기 인터 프레임의 경우, 소정의 부호화 단위 영역에서의 각 화소의 움직임 벡터 매트릭스를 추출하여 프레임 내의 움직임 벡터의 평균값을 구하고, 그 평균값을 임계치 처리하여 제로 런의 길이를 분류하여 추출하며, 상기 평균값과 상기 제로 런의 길이의 분류를 각각 비디오 세그먼트에 포함되는 인터 프레임 수에 의해 평균한 값을 인터 프레임의 특징 기술자로서 생성하는 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 특징 기술자 생성부는, 비압축 영상 데이터를 입력 화상 데이터로 하고, 상기 비압축 영상 데이터로부터 특징량을 추출하여 특징 기술자를 생성하며,상기 화상 정보 축적부는 상기 비압축 영상 데이터가 소정의 영상 압축 방식에 기초하여 압축된 후의 압축 영상 데이터와, 특징 기술자 세트를 대응시켜 축적하는 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 화상 검색부는, 상기 화상 정보 축적부를 검색하여 지정된 특징 기술자에 적합한 화상 데이터를 출력할 때, 사전에 기억되어 있는 소정의 조건식을 판독하고, 그 소정의 조건식에 기초하여 해당 지정된 특징 기술자에 대하여 적합한지를 판정하는 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 입력 화상 데이터는 감시 카메라에 의해 기록된 감시 화상인 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 입력 화상 데이터는 축적된 비디오 메일의 화상인 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 입력 화상 데이터는 축적된 방송 프로그램의 화상인 것을 특징으로 하는 화상 검색 시스템.
- 제1항에 있어서,상기 입력 화상 데이터는 비디오 카메라에 의해 기록된 영상인 것을 특징으로 하는 화상 검색 시스템.
- 입력 화상 데이터로부터 화상 특징량을 추출하여 특징 기술자를 생성하고, 생성된 상기 특징 기술자를 입력 화상 데이터와 대응시켜 축적함과 함께, 입력 화상 데이터에 부수하여 입력되는 속성 정보에 기초하여 속성 리스트를 생성하고,속성 정보에 관한 검색 조건을 입력하면 상기 속성 리스트를 검색하여 해당 검색 조건에 적합한 속성 정보를 출력함과 함께, 출력된 속성 정보를 참조하여 특징 기술자에 관한 검색 조건이 입력되면 상기 축적된 화상 데이터를 검색하여 해당검색 조건에 적합한 화상 데이터를 출력하는 것을 특징으로 하는 화상 검색 방법.
- 입력 화상 데이터로부터 화상 특징량을 추출하여 특징 기술자를 생성하는 특징 기술자 생성부와,입력 화상 데이터의 시공간 구조와 관련지어 상기 특징 기술자를 검색용 기술 데이터에 기술하는 검색용 기술 데이터 생성부와,검색용 기술 데이터를 대응하는 입력 화상 데이터와 함께 축적하는 화상 정보 축적부와,제1 검색 처리부와,제2 검색 처리부와,사용자 인터페이스부를 포함하며,상기 제2 검색 처리부는, 상기 사용자 인터페이스부를 통한 사용자로부터의 검색 요구를 검색 요구 정보로서 상기 제1 검색 처리부로 송신함과 함께, 상기 제1 검색 처리부로부터 송신되는 검색 결과를 수신하여 상기 사용자 인터페이스부를 통해 사용자에게 제시하고,상기 제1 검색 처리부는, 상기 제2 검색 처리부로부터 송신되는 상기 검색 요구 정보에 따라 상기 화상 정보 축적부에 축적된 입력 화상 데이터의 상기 검색용 기술 데이터를 해석하여 상기 특징 기술자를 추출하고, 추출된 상기 특징 기술자에 기초하여 적합 판정 처리를 행하여 검색 결과를 구하고, 그 검색 결과를 상기 제2 검색 처리부로 송신하며, 상기 사용자 인터페이스부를 통해 사용자에게 제시하는 것을 특징으로 하는 화상 검색 시스템.
- 제13항에 있어서,상기 특징 기술자 생성부에 의해 생성된 특징 기술자의 신뢰도를 산출하는 특징 기술자 신뢰도 산출부를 더 포함하고,상기 검색용 기술 데이터 생성부는 입력 화상 데이터의 시공간 구조와 관련지어 상기 특징 기술자 및 신뢰도를 검색용 기술 데이터에 기술하고,상기 제1 검색 처리부는, 상기 제2 검색 처리부로부터 송신되는 검색 요구 정보에 따라 화상 정보 축적부에 축적된 입력 화상 데이터의 상기 검색용 기술 데이터를 해석하여 상기 특징 기술자 및 신뢰도를 추출하고, 추출된 상기 특징 기술자 및 신뢰도에 기초하여 적합 판정 처리를 행하여 검색 결과를 구하고, 그 검색 결과를 상기 제2 검색 처리부로 송신하고, 상기 사용자 인터페이스부를 통해 사용자에게 제시하는 것을 특징으로 하는 화상 검색 시스템.
- 제14항에 있어서,상기 제1 검색 처리부는, 적합 판정 처리 시, 특징 기술자의 신뢰도에 기초하여, 특징 기술자에 의한 적합 판정의 필요성을 평가하고, 적합성 판정을 행할 필요가 없다고 판단한 경우, 적합 판정 처리를 스킵하는 것을 특징으로 하는 화상 검색 시스템.
- 제14항에 있어서,상기 특징 기술자 신뢰도 산출부에 의해 산출된 신뢰도에 기초하여 각 특징 기술자의 검색 사용 순서를 결정하는 특징 기술자 검색 순서 결정부를 더 포함하고,상기 검색용 기술 데이터 생성부는, 입력 화상 데이터의 시공간 구조와 관련지어 상기 특징 기술자, 신뢰도 및 검색 사용 순서를 검색용 기술 데이터에 기술하고,상기 제1 검색 처리부는, 상기 제2 검색 처리부로부터 송신되는 검색 요구 정보에 따라 화상 정보 축적부에 축적된 입력 화상 데이터의 상기 검색용 기술 데이터를 해석하여 상기 특징 기술자, 신뢰도 및 검색 사용 순서를 추출하고, 추출된 상기 특징 기술자, 신뢰도 및 검색 사용 순서에 기초하여 적합 판정 처리를 행하여 검색 결과를 구하고, 그 검색 결과를 상기 제2 검색 처리부로 송신하고, 상기 사용자 인터페이스부를 통해 사용자에게 제시하는 것을 특징으로 하는 화상 검색 시스템.
- 제13항에 있어서,상기 제2 검색 처리부는, 상기 사용자 인터페이스부를 통한 사용자로부터의 검색 요구로서 각 특징 기술자의 검색 사용 순서를 포함하는 검색 요구 정보를 제1 검색 처리부로 송신하고,상기 제1 검색 처리부는, 상기 제2 검색 처리부로부터 송신되는 검색 요구정보 중의 검색 사용 순서에 따라, 특징 기술자의 검색 순서를 갱신하여, 사용자로부터의 검색 요구에 적합한 검색 처리를 행하는 것을 특징으로 하는 화상 검색 시스템.
- 제16항에 있어서,상기 제1 검색 처리부는, 적합 판정 처리를 행할 때, 각 특징 기술자의 신뢰도에 기초하여, 검색 사용 순서로 정해지는 각 검색 단계에서의 검색 결과 후보 수를 결정하여 적합 판정 처리를 행하는 것을 특징으로 하는 화상 검색 시스템.
- 제17항에 있어서,상기 제1 검색 처리부는, 적합 판정 처리를 행할 때, 각 특징 기술자의 신뢰도에 기초하여, 검색 사용 순서로 정해지는 각 검색 단계에서의 검색 결과 후보 수를 결정하여 적합 판정 처리를 행하는 것을 특징으로 하는 화상 검색 시스템.
- 제13항에 있어서,비디오 데이터 재생 서버와,비디오 데이터 복호 재생부를 더 포함하고,상기 입력 화상 데이터는 비디오 데이터이고,상기 제1 검색 처리부는, 검색에 의해 특정된 각 비디오 데이터를 대표하는 각 키 화상 데이터를 검색 결과로서 상기 제2 검색 처리부로 송신하고,상기 제2 검색 처리부는, 상기 제1 검색 처리부로부터의 검색 결과로서의 상기 각 키 화상 데이터를 수신하여 사용자 인터페이스부를 통해 사용자에게 제시하고,상기 비디오 데이터 재생 서버는, 사용자 인터페이스부로부터 상기 각 키 화상 중 사용자에 의해 특정의 키 화상이 선택된 재생 요구를 받으면, 상기 화상 정보 축적부로부터 그 선택된 키 화상을 대표로 하는 비디오 데이터를 판독하여 상기 비디오 데이터 복호 재생부로 송신하고,상기 비디오 데이터 복호 재생부는, 상기 비디오 재생 서버로부터 송신된 비디오 데이터를 수신하고 복호하여 재생하는 것을 특징으로 하는 화상 검색 시스템.
- 입력 화상 데이터로부터 화상 특징량을 추출하여 특징 기술자를 생성함과 함께, 입력 화상 데이터의 시공간 구조와 관련지어 상기 특징 기술자를 검색용 기술 데이터에 기술하여, 검색용 기술 데이터를 대응하는 입력 화상 데이터와 함께 축적하고,사용자로부터의 검색 요구에 따라 상기 축적된 입력 화상 데이터의 검색용 기술 데이터를 해석하여 상기 특징 기술자를 추출하고, 추출된 상기 특징 기술자에 기초하여 적합 판정 처리를 행하여 검색 결과를 구하고, 그 검색 결과를 사용자에게 제시하는 것을 특징으로 하는 화상 검색 방법.
- 제21항에 있어서,상기 입력 화상 데이터는 비디오 데이터이고,검색에 의해 특정된 각 비디오 데이터를 대표하는 각 키 화상 데이터를 검색결과로서 사용자에게 제시하고,상기 각 키 화상 중 사용자에 의해 특정의 키 화상이 선택된 재생 요구를 받으면, 그 선택된 키 화상을 대표로 하는 비디오 데이터를 판독하고 복호하여 재생하는 것을 특징으로 하는 화상 검색 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34325699A JP3738631B2 (ja) | 1999-09-27 | 1999-12-02 | 画像検索システムおよび画像検索方法 |
JPJP-P-1999-00343256 | 1999-12-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20020060981A true KR20020060981A (ko) | 2002-07-19 |
KR100492437B1 KR100492437B1 (ko) | 2005-06-02 |
Family
ID=18360127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-7007061A KR100492437B1 (ko) | 1999-12-02 | 2000-12-01 | 화상 검색 시스템 및 화상 검색 방법 |
Country Status (10)
Country | Link |
---|---|
US (2) | US6665442B2 (ko) |
EP (2) | EP1244025B1 (ko) |
JP (1) | JP3738631B2 (ko) |
KR (1) | KR100492437B1 (ko) |
CN (1) | CN1191539C (ko) |
AU (1) | AU1557601A (ko) |
DE (1) | DE60034814T2 (ko) |
HK (1) | HK1053889A1 (ko) |
TW (1) | TW571233B (ko) |
WO (1) | WO2001040995A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100889936B1 (ko) * | 2007-06-18 | 2009-03-20 | 한국전자통신연구원 | 디지털 비디오 특징점 비교 방법 및 이를 이용한 디지털비디오 관리 시스템 |
Families Citing this family (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3550681B2 (ja) * | 1999-12-10 | 2004-08-04 | 日本電気株式会社 | 画像検索装置及び方法、並びに類似画像検索プログラムを格納した記憶媒体 |
TWI222039B (en) * | 2000-06-26 | 2004-10-11 | Iwane Lab Ltd | Information conversion system |
EP1172741A3 (en) * | 2000-07-13 | 2004-09-01 | Sony Corporation | On-demand image delivery server, image resource database, client terminal, and method of displaying retrieval result |
US6813618B1 (en) * | 2000-08-18 | 2004-11-02 | Alexander C. Loui | System and method for acquisition of related graphical material in a digital graphics album |
US9892606B2 (en) | 2001-11-15 | 2018-02-13 | Avigilon Fortress Corporation | Video surveillance system employing video primitives |
US8564661B2 (en) | 2000-10-24 | 2013-10-22 | Objectvideo, Inc. | Video analytic rule detection system and method |
US8711217B2 (en) | 2000-10-24 | 2014-04-29 | Objectvideo, Inc. | Video surveillance system employing video primitives |
WO2002063494A2 (en) * | 2001-02-05 | 2002-08-15 | Koninklijke Philips Electronics N.V. | Object transfer method with format adaptation |
US7424175B2 (en) | 2001-03-23 | 2008-09-09 | Objectvideo, Inc. | Video segmentation using statistical pixel modeling |
JP3835187B2 (ja) * | 2001-03-27 | 2006-10-18 | セイコーエプソン株式会社 | 携帯型情報端末、その制御方法、記録媒体およびプログラム |
US20020184208A1 (en) * | 2001-04-24 | 2002-12-05 | Saul Kato | System and method for dynamically generating content on a portable computing device |
GB0111431D0 (en) * | 2001-05-11 | 2001-07-04 | Koninkl Philips Electronics Nv | A real-world representation system and language |
JP2002342355A (ja) * | 2001-05-16 | 2002-11-29 | Ricoh Co Ltd | 新聞発行日確認方法 |
TW569631B (en) * | 2001-05-28 | 2004-01-01 | Matsushita Electric Ind Co Ltd | Image-actions detection-circuit |
FR2826761B1 (fr) * | 2001-06-27 | 2003-10-17 | Canon Kk | Procede d'analyse d'un document represente dans un langage de balisage |
JP2003023614A (ja) * | 2001-07-10 | 2003-01-24 | Minolta Co Ltd | 動画補正システム、クライアント、サーバ、動画補正方法、プログラム、および記録媒体 |
US7130841B1 (en) * | 2001-07-31 | 2006-10-31 | America Online, Inc. | Enabling a search for both local and remote electronic content |
US20030039410A1 (en) * | 2001-08-23 | 2003-02-27 | Beeman Edward S. | System and method for facilitating image retrieval |
US7925139B2 (en) * | 2001-12-03 | 2011-04-12 | Sony Corporation | Distributed semantic descriptions of audiovisual content |
US6996268B2 (en) * | 2001-12-28 | 2006-02-07 | International Business Machines Corporation | System and method for gathering, indexing, and supplying publicly available data charts |
KR20020008416A (ko) * | 2002-01-03 | 2002-01-30 | 신동수 | 인터넷을 이용한 원격 영상 기록 및 검색 방법 |
JP4352653B2 (ja) * | 2002-04-12 | 2009-10-28 | 三菱電機株式会社 | 映像コンテンツ管理運用システム |
EP2202978A1 (en) * | 2002-04-12 | 2010-06-30 | Mitsubishi Denki Kabushiki Kaisha | Hint information describing method for manipulating metadata |
JP2004021880A (ja) * | 2002-06-20 | 2004-01-22 | Fuji Xerox Co Ltd | デバイス検索システムおよびその方法 |
JP3783956B2 (ja) * | 2002-07-23 | 2006-06-07 | 株式会社リコー | 画像記録装置及び画像データ選択方法 |
AU2002950805A0 (en) * | 2002-08-15 | 2002-09-12 | Momentum Technologies Group | Improvements relating to video transmission systems |
US20040088310A1 (en) * | 2002-10-18 | 2004-05-06 | Hitachi, Ltd. | Recording medium, recording apparatus, recording method, reproduction apparatus and reproduction method |
JP4336813B2 (ja) * | 2002-12-06 | 2009-09-30 | 日本電気株式会社 | 画像記述システムおよび方法 |
JP4266695B2 (ja) | 2003-04-30 | 2009-05-20 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
JP2004334339A (ja) * | 2003-04-30 | 2004-11-25 | Canon Inc | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム |
JP4353503B2 (ja) * | 2003-04-30 | 2009-10-28 | キヤノン株式会社 | 画像処理装置 |
JP4366119B2 (ja) * | 2003-05-29 | 2009-11-18 | キヤノン株式会社 | 文書処理装置 |
US7143340B2 (en) * | 2003-06-27 | 2006-11-28 | Microsoft Corporation | Row sharing techniques for grid controls |
US7296030B2 (en) * | 2003-07-17 | 2007-11-13 | At&T Corp. | Method and apparatus for windowing in entropy encoding |
US7574063B2 (en) * | 2003-07-23 | 2009-08-11 | Canon Kabushiki Kaisha | Image coding method and apparatus |
WO2005022528A1 (en) * | 2003-09-01 | 2005-03-10 | Koninklijke Philips Electronics N.V. | Media item selection |
JP4613558B2 (ja) * | 2003-09-16 | 2011-01-19 | パナソニック電工株式会社 | 画像を用いた人体検知装置 |
TWI310545B (en) * | 2003-10-04 | 2009-06-01 | Samsung Electronics Co Ltd | Storage medium storing search information and reproducing apparatus |
KR20050033100A (ko) * | 2003-10-04 | 2005-04-12 | 삼성전자주식회사 | 검색정보를 기록한 정보저장매체, 검색항목간의 이동재생방법 및 재생장치 |
JP2005135118A (ja) * | 2003-10-30 | 2005-05-26 | Fuji Photo Film Co Ltd | 図面管理システム |
US7912291B2 (en) * | 2003-11-10 | 2011-03-22 | Ricoh Co., Ltd | Features for retrieval and similarity matching of documents from the JPEG 2000-compressed domain |
US20050163483A1 (en) * | 2004-01-22 | 2005-07-28 | Widevine Technologies, Inc. | Piracy prevention system |
US8250150B2 (en) * | 2004-01-26 | 2012-08-21 | Forte Internet Software, Inc. | Methods and apparatus for identifying and facilitating a social interaction structure over a data packet network |
US20080193016A1 (en) * | 2004-02-06 | 2008-08-14 | Agency For Science, Technology And Research | Automatic Video Event Detection and Indexing |
EP1571813A1 (en) | 2004-03-02 | 2005-09-07 | LG Electronics, Inc. | Method and communication system for transmitting an image to the called party identifying calling party |
US20050198067A1 (en) * | 2004-03-05 | 2005-09-08 | Casper Liu | Multi-resolution feature extraction for video abstraction |
GB0412906D0 (en) * | 2004-06-09 | 2004-07-14 | Capture Ltd | Data compilation apparatus and method |
JP2006018676A (ja) * | 2004-07-02 | 2006-01-19 | Sharp Corp | 生体データ照合装置、生体データ照合方法、生体データ照合プログラムおよび生体データ照合プログラムを記録したコンピュータ読取り可能な記録媒体 |
JP2006018677A (ja) * | 2004-07-02 | 2006-01-19 | Sharp Corp | 生体データ照合装置、生体データ照合方法、生体データ照合プログラムおよび生体データ照合プログラムを記録したコンピュータ読取り可能な記録媒体 |
JP4498045B2 (ja) * | 2004-07-22 | 2010-07-07 | キヤノン株式会社 | 画像処理装置及びその制御方法及びプログラム |
GB2418555A (en) * | 2004-09-23 | 2006-03-29 | Mitsubishi Electric Inf Tech | Representing an image using descriptors based on colour information |
US7813552B2 (en) | 2004-09-23 | 2010-10-12 | Mitsubishi Denki Kabushiki Kaisha | Methods of representing and analysing images |
US8600113B2 (en) * | 2004-11-12 | 2013-12-03 | The University Court Of The University Of St. Andrews | System, method and computer program product for video fingerprinting |
JP2006139682A (ja) * | 2004-11-15 | 2006-06-01 | Matsushita Electric Ind Co Ltd | 映像検索システム、映像検索方法及びプログラム |
JP4251131B2 (ja) * | 2004-11-17 | 2009-04-08 | ソニー株式会社 | データ処理装置及び方法 |
KR100679124B1 (ko) * | 2005-01-27 | 2007-02-05 | 한양대학교 산학협력단 | 이미지 시퀀스 데이터 검색을 위한 정보 요소 추출 방법및 그 방법을 기록한 기록매체 |
JP4215002B2 (ja) * | 2005-02-01 | 2009-01-28 | セイコーエプソン株式会社 | 画像送受信システム及び画像受信装置並びにプリンタ装置 |
JP4620516B2 (ja) * | 2005-04-13 | 2011-01-26 | 日本テレビ放送網株式会社 | 画像比較方法、画像比較システム及びプログラム |
US7657830B2 (en) * | 2005-05-04 | 2010-02-02 | Microsoft Corporation | Layout size sharing in a grid layout for a user interface |
KR20060122672A (ko) * | 2005-05-26 | 2006-11-30 | 삼성전자주식회사 | 메타 데이터를 획득하기 위한 애플리케이션을 포함하는정보저장매체, 메타 데이터를 획득하는 장치 및 방법 |
US8306277B2 (en) * | 2005-07-27 | 2012-11-06 | Canon Kabushiki Kaisha | Image processing apparatus and image processing method, and computer program for causing computer to execute control method of image processing apparatus |
US20070030523A1 (en) * | 2005-08-02 | 2007-02-08 | Kabushiki Kaisha Toshiba | System and method for identifying a submitter of a printed or scanned document |
JP2007060446A (ja) * | 2005-08-26 | 2007-03-08 | Sony Corp | メタデータ生成装置、情報処理装置、撮像装置、テレビ会議システム、セキュリティシステム、メタデータ生成方法及びプログラム |
KR20050092688A (ko) * | 2005-08-31 | 2005-09-22 | 한국정보통신대학교 산학협력단 | 통합 멀티미디어 파일 포맷 구조와 이를 기반으로 하는멀티미디어 서비스 제공 시스템 및 그 방법 |
JP2007158410A (ja) * | 2005-11-30 | 2007-06-21 | Sony Computer Entertainment Inc | 画像符号化装置、画像復号装置、および画像処理システム |
KR100719841B1 (ko) * | 2005-12-01 | 2007-05-18 | 삼성전자주식회사 | 썸네일 생성 및 표시 방법 |
JP2007189657A (ja) * | 2005-12-16 | 2007-07-26 | Fuji Xerox Co Ltd | 画像評価装置、画像評価方法及びプログラム |
KR20070069615A (ko) * | 2005-12-28 | 2007-07-03 | 삼성전자주식회사 | 움직임 추정장치 및 움직임 추정방법 |
JP4321541B2 (ja) * | 2006-04-03 | 2009-08-26 | ソニー株式会社 | 監視装置と監視方法 |
EP2013817A2 (en) * | 2006-04-17 | 2009-01-14 | Objectvideo, Inc. | Video segmentation using statistical pixel modeling |
JP4201025B2 (ja) | 2006-06-30 | 2008-12-24 | ソニー株式会社 | 監視装置、監視システム及びフィルタ設定方法、並びに監視プログラム |
JP4453684B2 (ja) * | 2006-06-30 | 2010-04-21 | ソニー株式会社 | 監視システム、監視装置、検索方法及び検索プログラム |
US8707167B2 (en) * | 2006-11-15 | 2014-04-22 | Ebay Inc. | High precision data extraction |
JP2008165303A (ja) * | 2006-12-27 | 2008-07-17 | Fujifilm Corp | コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム |
US7653130B2 (en) * | 2006-12-27 | 2010-01-26 | General Instrument Corporation | Method and apparatus for bit rate reduction in video telephony |
JP2008165424A (ja) * | 2006-12-27 | 2008-07-17 | Sony Corp | 画像検索装置および方法、撮像装置、並びにプログラム |
US8290203B1 (en) * | 2007-01-11 | 2012-10-16 | Proofpoint, Inc. | Apparatus and method for detecting images within spam |
US8290311B1 (en) | 2007-01-11 | 2012-10-16 | Proofpoint, Inc. | Apparatus and method for detecting images within spam |
JP5010292B2 (ja) * | 2007-01-18 | 2012-08-29 | 株式会社東芝 | 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法 |
US20080199098A1 (en) * | 2007-02-19 | 2008-08-21 | Seiko Epson Corporation | Information processing method, information processing apparatus, and storage medium having program stored thereon |
JP4979070B2 (ja) * | 2007-03-28 | 2012-07-18 | Kddi株式会社 | 動画像提示システム |
US8565228B1 (en) * | 2007-03-28 | 2013-10-22 | Control4 Corporation | Systems and methods for selecting and ranking video streams |
CN101276363B (zh) * | 2007-03-30 | 2011-02-16 | 夏普株式会社 | 文档图像的检索装置及文档图像的检索方法 |
GB2449125A (en) * | 2007-05-11 | 2008-11-12 | Sony Uk Ltd | Metadata with degree of trust indication |
JP4389964B2 (ja) * | 2007-05-15 | 2009-12-24 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
US7460149B1 (en) * | 2007-05-28 | 2008-12-02 | Kd Secure, Llc | Video data storage, search, and retrieval using meta-data and attribute data in a video surveillance system |
EP3438883B1 (en) * | 2007-06-04 | 2023-11-29 | Enswers Co., Ltd. | Method and apparatus for detecting a common section in moving pictures |
JP4973729B2 (ja) * | 2007-06-07 | 2012-07-11 | 富士通株式会社 | 動画像類似判定装置、および動画像類似判定方法 |
JP2009004999A (ja) * | 2007-06-20 | 2009-01-08 | Panasonic Corp | 映像データ管理装置 |
US20090022403A1 (en) * | 2007-07-20 | 2009-01-22 | Fujifilm Corporation | Image processing apparatus, image processing method, and computer readable medium |
DE102007034010A1 (de) * | 2007-07-20 | 2009-01-22 | Dallmeier Electronic Gmbh & Co. Kg | Verfahren und Vorrichtung zur Bearbeitung von Videodaten |
US20090067494A1 (en) * | 2007-09-06 | 2009-03-12 | Sony Corporation, A Japanese Corporation | Enhancing the coding of video by post multi-modal coding |
US20090079840A1 (en) * | 2007-09-25 | 2009-03-26 | Motorola, Inc. | Method for intelligently creating, consuming, and sharing video content on mobile devices |
JP5286732B2 (ja) * | 2007-10-01 | 2013-09-11 | ソニー株式会社 | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP4433327B2 (ja) * | 2007-12-11 | 2010-03-17 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US8249306B2 (en) | 2008-03-18 | 2012-08-21 | Certusview Technologies, Llc | Virtual white lines for delimiting planned excavation sites |
US8280117B2 (en) | 2008-03-18 | 2012-10-02 | Certusview Technologies, Llc | Virtual white lines for indicating planned excavation sites on electronic images |
US8199814B2 (en) * | 2008-04-15 | 2012-06-12 | Sony Corporation | Estimation of I frame average rate quantization parameter (QP) in a group of pictures (GOP) |
US8199823B2 (en) * | 2008-04-15 | 2012-06-12 | Sony Corporation | Estimation of B frame average rate quantization parameter (QP) in a group of pictures (GOP) |
JP4453768B2 (ja) * | 2008-04-15 | 2010-04-21 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
KR101027159B1 (ko) * | 2008-07-28 | 2011-04-05 | 뮤추얼아이피서비스(주) | 타겟 영상 검출 장치 및 그 방법 |
US8520979B2 (en) | 2008-08-19 | 2013-08-27 | Digimarc Corporation | Methods and systems for content processing |
JP5195156B2 (ja) * | 2008-08-25 | 2013-05-08 | ソニー株式会社 | 監視装置、監視システム及びフィルタ設定方法 |
EP2208153B1 (en) * | 2008-10-29 | 2013-12-11 | NDS Limited | Video signature |
EP2187337A1 (en) * | 2008-11-12 | 2010-05-19 | Sony Corporation | Extracting a moving mean luminance variance from a sequence of video frames |
US8566737B2 (en) | 2009-02-11 | 2013-10-22 | Certusview Technologies, Llc | Virtual white lines (VWL) application for indicating an area of planned excavation |
US8296308B2 (en) * | 2009-02-11 | 2012-10-23 | Certusview Technologies, Llc | Methods and apparatus for associating a virtual white line (VWL) image with corresponding ticket information for an excavation project |
CA2897462A1 (en) | 2009-02-11 | 2010-05-04 | Certusview Technologies, Llc | Management system, and associated methods and apparatus, for providing automatic assessment of a locate operation |
US8379985B2 (en) * | 2009-07-03 | 2013-02-19 | Sony Corporation | Dominant gradient method for finding focused objects |
JP5521436B2 (ja) * | 2009-08-19 | 2014-06-11 | ソニー株式会社 | 動画像記録装置、動画像記録方法およびプログラム |
US9754629B2 (en) | 2010-03-03 | 2017-09-05 | Koninklijke Philips N.V. | Methods and apparatuses for processing or defining luminance/color regimes |
JP5899120B2 (ja) * | 2010-03-03 | 2016-04-06 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | カラーレジームを定義する装置及び方法 |
JP2011188342A (ja) * | 2010-03-10 | 2011-09-22 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
US9443147B2 (en) * | 2010-04-26 | 2016-09-13 | Microsoft Technology Licensing, Llc | Enriching online videos by content detection, searching, and information aggregation |
KR101837687B1 (ko) * | 2010-06-04 | 2018-03-12 | 삼성전자주식회사 | 콘텐트의 품질을 결정하는 복수의 인자에 기초한 적응적인 스트리밍 방법 및 장치 |
US20120030575A1 (en) * | 2010-07-27 | 2012-02-02 | Cok Ronald S | Automated image-selection system |
CN102385570A (zh) | 2010-08-31 | 2012-03-21 | 国际商业机器公司 | 字体匹配方法和系统 |
JP2012129979A (ja) * | 2010-11-24 | 2012-07-05 | Jvc Kenwood Corp | 区間作成装置、区間作成方法、及び区間作成プログラム |
US9047319B2 (en) | 2010-12-17 | 2015-06-02 | Microsoft Technology Licensing, Llc | Tag association with image regions |
JP5159989B2 (ja) | 2011-01-25 | 2013-03-13 | パナソニック株式会社 | コンテンツ通知システムおよび方法ならびにユーザ端末装置 |
JP5733565B2 (ja) * | 2011-03-18 | 2015-06-10 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
JP5627002B2 (ja) * | 2011-04-05 | 2014-11-19 | 日本電信電話株式会社 | 類似映像出力方法、類似映像出力装置および類似映像出力プログラム |
US20130208992A1 (en) * | 2012-02-13 | 2013-08-15 | Shu Lin | System and method for difference frame threshold encoding and decoding |
CN103365854A (zh) * | 2012-03-28 | 2013-10-23 | 鸿富锦精密工业(深圳)有限公司 | 视频文件检索系统及检索方法 |
KR102004262B1 (ko) * | 2012-05-07 | 2019-07-26 | 엘지전자 주식회사 | 미디어 시스템 및 이미지와 연관된 추천 검색어를 제공하는 방법 |
US8751530B1 (en) * | 2012-08-02 | 2014-06-10 | Google Inc. | Visual restrictions for image searches |
US8935246B2 (en) * | 2012-08-08 | 2015-01-13 | Google Inc. | Identifying textual terms in response to a visual query |
US9838346B2 (en) * | 2014-03-17 | 2017-12-05 | Splunk Inc. | Alerting on dual-queue systems |
US9838467B2 (en) * | 2014-03-17 | 2017-12-05 | Splunk Inc. | Dynamically instantiating dual-queue systems |
CN105045793B (zh) * | 2014-04-04 | 2019-06-18 | 云视公司 | 图像处理客户端 |
US9583149B2 (en) * | 2014-04-23 | 2017-02-28 | Daniel Stieglitz | Automated video logging methods and systems |
KR101713197B1 (ko) * | 2015-04-01 | 2017-03-09 | 주식회사 씨케이앤비 | 서버 컴퓨팅 장치 및 이를 이용한 콘텐츠 인식 기반의 영상 검색 시스템 |
WO2017134738A1 (ja) * | 2016-02-02 | 2017-08-10 | 三菱電機株式会社 | レコーダ装置および映像監視システム |
JP6433928B2 (ja) * | 2016-02-15 | 2018-12-05 | 株式会社東芝 | 検索装置、検索方法および検索システム |
CN107909086B (zh) * | 2017-04-10 | 2020-07-31 | 重庆完美空间科技有限公司 | 一种室内装饰物料分类方法 |
CN108959322B (zh) * | 2017-05-25 | 2021-09-10 | 富士通株式会社 | 信息处理方法和基于文本生成图像的装置 |
CN107451243B (zh) * | 2017-07-27 | 2024-04-12 | 迪尚集团有限公司 | 基于属性的复杂查询方法 |
CN107862003A (zh) * | 2017-10-24 | 2018-03-30 | 珠海市魅族科技有限公司 | 视频内容搜索方法、装置、终端及可读存储介质 |
CN108592948B (zh) * | 2018-04-28 | 2023-03-14 | 中国计量大学 | 一种管水准器气泡偏移量自动测量方法 |
US11138438B2 (en) * | 2018-05-18 | 2021-10-05 | Stats Llc | Video processing for embedded information card localization and content extraction |
CN109446385B (zh) * | 2018-11-14 | 2022-06-14 | 中国科学院计算技术研究所 | 一种建立网络资源设备图谱的方法及设备图谱的使用方法 |
CN111353434A (zh) * | 2020-02-28 | 2020-06-30 | 北京市商汤科技开发有限公司 | 信息识别方法及装置、系统、电子设备和存储介质 |
CN113094537B (zh) * | 2021-04-07 | 2024-01-02 | 南京云格信息技术有限公司 | 一种基于fpga的图像处理系统 |
CN116033094A (zh) * | 2022-10-21 | 2023-04-28 | 维沃移动通信有限公司 | 视频编辑方法及装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB872803A (en) | 1958-08-04 | 1961-07-12 | Bayer Ag | A process for the production of condensation products |
JP2521145B2 (ja) | 1989-02-20 | 1996-07-31 | 日本ビクター株式会社 | 動き補償予測符号化復号化方式 |
JP2516082B2 (ja) | 1990-03-19 | 1996-07-10 | 日本ビクター株式会社 | デ―タ圧縮装置 |
JP3143532B2 (ja) | 1992-11-30 | 2001-03-07 | キヤノン株式会社 | 画像検索装置及び方法 |
US5465353A (en) * | 1994-04-01 | 1995-11-07 | Ricoh Company, Ltd. | Image matching and retrieval by multi-access redundant hashing |
US5778142A (en) | 1994-11-24 | 1998-07-07 | Kabushiki Kaisha Toshiba | Large capacity recording medium, method and apparatus for reproducing data from a large-capacity recording medium, and method and apparatus for recording data on a large-capacity recording medium |
GB9517807D0 (en) | 1995-08-31 | 1995-11-01 | Philips Electronics Uk Ltd | Interactive entertainment attribute setting |
US5819286A (en) | 1995-12-11 | 1998-10-06 | Industrial Technology Research Institute | Video database indexing and query method and system |
JP3534368B2 (ja) * | 1996-04-03 | 2004-06-07 | 株式会社東芝 | 動画像処理方法及び動画像処理装置 |
JPH09282324A (ja) * | 1996-04-09 | 1997-10-31 | Nec Corp | 映像検索システム |
TW316962B (en) | 1996-04-12 | 1997-10-01 | Ind Tech Res Inst | The index of video data base and query method & system |
JPH1091634A (ja) * | 1996-08-15 | 1998-04-10 | Hewlett Packard Co <Hp> | 写真画像検索システム |
JPH10124655A (ja) * | 1996-08-29 | 1998-05-15 | Ricoh Co Ltd | デジタルアルバムの作成装置及びデジタルアルバム装置 |
EP0976089A4 (en) * | 1996-11-15 | 2001-11-14 | Sarnoff Corp | METHOD AND APPARATUS FOR EFFICIENTLY REPRESENTING, STORING AND ACCESSING VIDEO INFORMATION |
DE69832924T2 (de) * | 1997-04-14 | 2006-07-06 | Canon K.K. | Bildverarbeitungsgerät und Kontrollverfahren dafür |
JPH10289240A (ja) * | 1997-04-14 | 1998-10-27 | Canon Inc | 画像処理装置及びその制御方法 |
JP3780623B2 (ja) * | 1997-05-16 | 2006-05-31 | 株式会社日立製作所 | 動画像の記述方法 |
JP3096280B2 (ja) * | 1997-11-10 | 2000-10-10 | 日本電信電話株式会社 | 電子映像文書作成利用方法及びプログラム格納媒体 |
US6792043B1 (en) * | 1998-10-23 | 2004-09-14 | Telecommunications Advancement Organization Of Japan | Method, apparatus and program products for retrieving moving image |
US6502105B1 (en) * | 1999-01-15 | 2002-12-31 | Koninklijke Philips Electronics N.V. | Region-based image archiving and retrieving system |
WO2001031502A1 (fr) * | 1999-10-27 | 2001-05-03 | Fujitsu Limited | Dispositif et procede de classement et de rangement d'informations multimedia |
JP3550681B2 (ja) * | 1999-12-10 | 2004-08-04 | 日本電気株式会社 | 画像検索装置及び方法、並びに類似画像検索プログラムを格納した記憶媒体 |
-
1999
- 1999-12-02 JP JP34325699A patent/JP3738631B2/ja not_active Expired - Fee Related
-
2000
- 2000-12-01 EP EP00978076A patent/EP1244025B1/en not_active Expired - Lifetime
- 2000-12-01 CN CNB008165742A patent/CN1191539C/zh not_active Expired - Fee Related
- 2000-12-01 TW TW089125580A patent/TW571233B/zh not_active IP Right Cessation
- 2000-12-01 AU AU15576/01A patent/AU1557601A/en not_active Abandoned
- 2000-12-01 WO PCT/JP2000/008547 patent/WO2001040995A1/ja active IP Right Grant
- 2000-12-01 EP EP05003944A patent/EP1560130A3/en not_active Withdrawn
- 2000-12-01 DE DE60034814T patent/DE60034814T2/de not_active Expired - Lifetime
- 2000-12-01 KR KR10-2002-7007061A patent/KR100492437B1/ko not_active IP Right Cessation
-
2001
- 2001-02-02 US US09/773,570 patent/US6665442B2/en not_active Ceased
-
2003
- 2003-08-25 HK HK03106083A patent/HK1053889A1/xx not_active IP Right Cessation
-
2005
- 2005-12-15 US US11/300,693 patent/USRE42185E1/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100889936B1 (ko) * | 2007-06-18 | 2009-03-20 | 한국전자통신연구원 | 디지털 비디오 특징점 비교 방법 및 이를 이용한 디지털비디오 관리 시스템 |
US8477836B2 (en) | 2007-06-18 | 2013-07-02 | Electronics And Telecommunications Research Institute | System and method for comparing an input digital video to digital videos using extracted and candidate video features |
Also Published As
Publication number | Publication date |
---|---|
CN1402853A (zh) | 2003-03-12 |
EP1244025A4 (en) | 2004-05-26 |
JP3738631B2 (ja) | 2006-01-25 |
US20010004739A1 (en) | 2001-06-21 |
TW571233B (en) | 2004-01-11 |
WO2001040995A1 (fr) | 2001-06-07 |
JP2001167095A (ja) | 2001-06-22 |
DE60034814T2 (de) | 2008-01-31 |
EP1560130A3 (en) | 2006-02-08 |
KR100492437B1 (ko) | 2005-06-02 |
USRE42185E1 (en) | 2011-03-01 |
AU1557601A (en) | 2001-06-12 |
US6665442B2 (en) | 2003-12-16 |
EP1560130A2 (en) | 2005-08-03 |
EP1244025B1 (en) | 2007-05-09 |
HK1053889A1 (en) | 2003-11-07 |
DE60034814D1 (de) | 2007-06-21 |
EP1244025A1 (en) | 2002-09-25 |
CN1191539C (zh) | 2005-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100492437B1 (ko) | 화상 검색 시스템 및 화상 검색 방법 | |
KR100515542B1 (ko) | 콘텐츠 검색 분배 장치 및 콘텐츠 검색 분배 방법 | |
JP4536261B2 (ja) | 画像特徴符号化方法及び画像検索方法 | |
KR100714548B1 (ko) | 동영상의 움직임 활동 특징 기술 방법 및 장치 | |
US7003038B2 (en) | Activity descriptor for video sequences | |
US8515933B2 (en) | Video search method, video search system, and method thereof for establishing video database | |
JP2004526372A (ja) | ストリーミング映像ブックマーク | |
JP2001527304A (ja) | ディジタル動画の階層的要約及び閲覧方法 | |
JP2001526859A (ja) | ワールドワイドウェブ上の圧縮映像の指示及び編集方法及びアーキテクチュア | |
CN1166202C (zh) | 由视频重放系统从压缩数字视频信号中动态地提取特征 | |
JP4770875B2 (ja) | 画像特徴データ生成装置、画像特徴判定装置および画像検索システム | |
Divakaran et al. | Video browsing system based on compressed domain feature extraction | |
JP2006018831A (ja) | 画像検索システムおよび画像検索方法 | |
KR100772788B1 (ko) | 동영상의 움직임 활동 특징 기술 방법 및 장치 | |
JP4618621B2 (ja) | フレームを識別する方法及びシステム | |
JP5213747B2 (ja) | 映像コンテンツ保管視聴システムおよび方法 | |
KR100841181B1 (ko) | 동영상의 움직임 활동 특징 기술 방법 및 장치 | |
KR100841176B1 (ko) | 동영상의 움직임 활동 특징 기술 방법 및 장치 | |
Xie | Spatial data structure indexing for video databases | |
KR20050111801A (ko) | 화상 검색 방법, 화상 특징량 부호화 방법 및 화상 특징량복호 방법 | |
Hidalgo | On the Synergy between Indexing and Compression Representations for Video Sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130503 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20140502 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20150417 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20160418 Year of fee payment: 12 |
|
LAPS | Lapse due to unpaid annual fee |