KR100733095B1

KR100733095B1 - 정보 처리 장치 및 정보 처리 방법

Info

Publication number: KR100733095B1
Application number: KR1020050046243A
Authority: KR
Inventors: 고헤이 야마다; 히로끼 야마모또
Original assignee: 캐논 가부시끼가이샤
Priority date: 2004-06-01
Filing date: 2005-05-31
Publication date: 2007-06-27
Also published as: JP4429081B2; KR20060066597A; EP1603028A2; ATE553430T1; CN100454388C; JP2005346259A; US20050267749A1; CN1705367A; EP1603028A3; EP1603028B1

Abstract

데이터와 관련된 사운드 정보를 수신하기 위한 수신부; 상기 수신부에 의해 수신된 사운드 정보를 미리 정해진 처리의 대상으로 할지의 여부를 설정하기 위한 설정부; 및 상기 데이터를, 상기 사운드 정보 및 상기 설정부에 의한 설정 결과를 나타내는 정보와 관련지어 저장 매체에 저장하기 위한 저장부를 포함하는 정보 처리 장치가 개시된다.

화상 입력 모듈, 사운드 입력 모듈, 음성 인식 모듈, 부가 정보 입력 모듈, 화상 검색 모듈

Description

정보 처리 장치 및 정보 처리 방법{INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD}

도 1은 본 발명의 일 실시예에 따른 화상 검색 장치를 도시한 블록도.

도 2는 제1 실시예의 화상 검색 처리를 실현하는 제어 프로그램의 모듈을 도시한 블록도.

도 3은 제1 실시예의 화상 검색 처리를 나타낸 흐름도.

도 4a 및 도 4b는 본 발명을 적용한 디지털 카메라를 도시한 사시도.

도 5는 화상과 관련된 사운드를 음성 인식의 대상으로서 저장하는 기능과, 음성 인식의 대상 이외의 사운드의 속성을 화상과 관련지어 저장 매체에 저장하는 기능을 구비한 화상 검색 처리의 제어 프로그램의 모듈을 도시한 블록도.

도 6은 화상과 관련된 사운드를 음성 인식의 대상으로서 저장하는 기능과, 음성 인식의 대상 이외의 사운드의 속성을 화상과 관련지어 저장 매체에 저장하는 기능을 포함하는 화상 검색 처리를 나타낸 흐름도.

도 7은 화상과 관련된 사운드가 음성인지의 여부를 자동으로 식별하는 기능을 구비한 화상 검색 처리를 실현하는 제어 프로그램의 모듈을 도시한 블록도.

도 8은 화상과 관련된 사운드가 음성인지의 여부를 자동으로 식별하는 처리를 포함하는 화상 검색의 절차를 나타낸 흐름도.

도 9는 화상과 관련된 사운드가 음성인지의 여부를 자동으로 식별하는 기능과, 음성 인식의 대상 이외의 사운드의 속성을 화상과 관련지어 저장 매체에 저장하는 기능을 구비한 화상 검색 처리를 실현하는 제어 프로그램의 모듈을 도시한 블록도.

도 10은 화상과 관련된 사운드가 음성인지의 여부를 자동으로 식별하는 기능과, 음성 인식의 대상 이외의 사운드의 속성을 화상과 관련지어 저장 매체에 저장하는 기능을 포함하는 화상 검색 처리의 절차를 나타낸 흐름도.

도 11은 환경음 인식(environmental sound recognition)을 이용한 사운드 분류를 실현하는 처리를 나타낸 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

201: 화상 입력 모듈

202: 사운드 입력 모듈

203: 부가 정보 입력 모듈

204: 화상 데이터 생성 모듈

205: 음성 인식 모듈

206: 화상 검색 모듈

[특허문헌1] 일본 특허공개 평9-135417호 공보

[특허문헌2] 일본 특허공개 제2003-111009호 공보

본 발명은 데이터와 관련된 사운드 정보를 이용하여 데이터를 처리할 수 있는 정보 처리 장치에 관한 것이다.

현재 많은 디지털 카메라는 촬영한 화상에 음성 정보를 입력할 수 있도록 하는 기능을 갖고 있다. 화상에 첨부된 음성 정보를 이용함으로써, 화상을 효과적으로 정리하는 기능이나 원하는 화상을 검색하는 검색 기능을 제공하는 등의 여러가지 방법이 제안된 바 있다. 예를 들어, 디지털 카메라로 촬영한 화상에 부가된 음성 정보를 이용하여 디지털 카메라 상에서 화상을 검색하고 정리하는 방법이 일본 특허공개 평9-135417호 공보에 개시되어 있다. 또한, 일본 특허공개 제2003-111009호 공보에는 편집 장치에서 화상에 부가된 음성 정보를 인식 및 이용하여 화상을 검색, 정리 및 처리하는 방법이 개시되어 있다.

전술한 종래 기술에서는, 촬영한 화상을 검색, 정리 및 처리하는 동안, 촬영한 화상에 부가된 모든 사운드 정보에 대하여 음성 인식이 수행되지만, 사운드 정보는 음성뿐만 아니라, 환경음(예컨대 물이나 바람 등의 소리)이나 촬영된 화상에 대한 효과음과 같이 음성 인식을 요하지 않는 다른 사운드도 포함한다. 음성 이외의 사운드의 인식은 매우 어렵고 사운드 인식의 에러가 증가하게 된다. 음성 이외의 사운드에 대해 음성 인식 처리를 수행하는 경우에는 화상을 검색하고 정리하는데 음성 인식 결과를 이용하는 것이 곤란하다.

즉, 사운드 정보를 이용하여 데이터를 처리하는 경우에는 그 사운드 정보에 각종의 사운드 유형이 포함되어 있으므로, 데이터 처리를 적절하게 수행하기가 곤란하다.

본 발명의 목적은 데이터와 관련된 사운드 정보를 이용함으로써 고속이면서 정확한 데이터 처리(예컨대, 데이터 검색, 음성 인식, 사운드 분류 등)를 수행할 수 있는 정보 처리 장치를 제공하는 것이다.

본 발명의 일면에 따르면, 정보 처리 장치는 데이터와 관련된 사운드 정보를 수신하도록 구성된 수신부; 상기 수신부에 의해 수신된 사운드 정보를 미리 정해진 처리의 처리 대상으로 할지의 여부를 설정하도록 구성된 설정부; 상기 데이터를, 상기 사운드 정보 및 상기 설정부에 의한 설정을 나타내는 정보와 관련지어 저장 매체에 저장하는 저장부를 포함한다.

본 발명의 또 다른 일면에 따르면, 정보 처리 장치는 데이터와 관련된 사운드 정보를 수신하도록 구성된 수신부; 상기 수신부에 의해 수신된 사운드 정보를 음성 인식의 대상으로 할지의 여부를 설정하도록 구성된 설정부; 상기 설정부에 의해 상기 사운드 정보가 음성 인식의 대상으로서 설정된 경우에는, 상기 데이터를, 상기 사운드 정보를 음성 인식한 결과를 나타내는 정보와 관련지어 저장 매체에 저장하며, 상기 설정부에 의해 상기 사운드 정보가 음성 인식의 대상으로서 설정되지 않은 경우에는, 상기 음성 인식을 수행하지 않고서 상기 데이터를 상기 사운드 정보와 관련지어 상기 저장 매체에 저장하는 저장부를 포함한다.

본 발명의 또 다른 일면에 따르면, 정보 처리 장치는 데이터, 상기 데이터와 관련된 사운드 정보 및 상기 사운드 정보를 데이터 검색에 이용할지의 여부를 나타낸 설정 정보를 수신하도록 구성된 수신부; 및 상기 사운드 정보에 기초하여, 상기 데이터 검색용으로 설정된 설정 정보에 대응하는 사운드 정보와 관련된 데이터를 검색하도록 구성된 검색부를 포함한다.

본 발명의 또 다른 일면에 따르면, 정보 처리 장치는 데이터, 상기 데이터와 관련된 사운드 정보 및 상기 사운드 정보를 음성 인식의 대상으로 할지의 여부를 나타낸 설정 정보를 수신하도록 구성된 수신부; 상기 설정 정보가 음성 인식의 대상으로서 설정된 경우에, 상기 사운드 정보에 대해 음성 인식을 수행하는 음성 인식부; 및 상기 음성 인식부에 의한 음성 인식 결과를 나타내는 정보를 상기 데이터와 관련지어 저장 매체에 저장하는 저장부를 포함한다.

본 발명의 또 다른 일면에 따르면, 정보 처리 장치는 데이터, 상기 데이터와 관련된 사운드 정보 및 상기 사운드 정보를 사운드 분류의 대상으로 할지의 여부를 나타낸 설정 정보를 수신하도록 구성된 수신부; 상기 설정 정보가 사운드 분류의 대상으로서 설정된 경우에, 상기 사운드 정보를 사운드의 속성으로 분류하는 분류부; 및 상기 분류부에 의해 분류된 상기 사운드의 속성을 상기 데이터와 관련지어 저장 매체에 저장하는 저장부를 포함한다.

본 발명의 또 다른 특징 및 장점은 도면을 참조한 하기의 실시예에 대한 설명으로부터 보다 명확해질 것이다.

<실시예>

이하, 도면을 참조하여 본 발명의 실시예를 설명한다. 아래에서는 본 발명의 정보 처리 장치를 화상 데이터와 관련된 사운드 정보를 이용하여 화상 데이터를 검색하는 화상 검색 장치로서 설명한다.

도 1은 본 발명의 일 실시예에 따른 화상 검색 장치를 도시한 블록도이다.

사운드 입력부(101)는 마이크 등으로 사운드를 입력할 수 있도록 한다. 조작부(102)는 버튼이나 키보드 등으로 정보를 입력할 수 있도록 한다. 제어부(103)는 CPU와 메모리(RAM, ROM) 등으로 장치의 각 부를 제어한다.

화상 입력부(104)는 렌즈, CMOS 센서 등을 포함하는 광학 기기 또는 스캐너로 화상을 입력할 수 있도록 한다. 정보 표시부(105)는 액정 디스플레이 등을 이용하여 정보를 표시한다. 외부 저장부(106)는 CF 카드나 SD 메모리 또는 하드디스크 등을 이용하여 정보를 저장한다. 버스(107)는 전술한 각 부를 함께 접속한다.

[제1 실시예]

도 2는 본 발명의 제1 실시예의 화상 검색 처리를 실현하는 제어 프로그램의 모듈을 도시한 블록도이다.

화상 입력 모듈(201)은 화상 입력부(104)를 통하여 화상의 입력 처리를 행하고, 입력된 화상을 데이터로 변환하여 제어부(103)에 출력한다. 마찬가지로, 사운드 입력 모듈(202)은 사운드 입력부(101)를 통하여 사운드의 입력 처리를 행하고, 입력된 사운드를 데이터로 변환하여 제어부(103)에 출력한다. 제어부(103)는 사운드 정보를 수신한다. 부가 정보 입력 모듈(203)은 부가 정보를 데이터로 변환하여 제어부(103)에 출력한다. 부가 정보에는 조작부(102)를 통해 사용자에 의해 입력 된 설정 정보와 화상 입력부(104)에 의해 출력된 화상에 관한 정보가 포함된다. 또한, 화상 데이터 생성 모듈(204)에서 각 모듈에 의해 출력된 데이터는 상호 연관되어 화상 데이터라고 하는 구조(framework)로 외부 저장부(106)에 저장된다.

제어부(103)는 음성 인식 모듈(205)을 제어한다. 음성 인식 모듈(205)은 화상 데이터 생성 모듈(204)에 의해 생성된 화상 데이터를 판독한다. 또한, 음성 인식 모듈(205)은 화상과 관련된 사운드를 음성 인식의 대상으로 할지의 여부를 나타내는 설정 정보를 부가 정보로부터 취득한다. 또한, 음성 인식 모듈은 음성 인식의 대상인 사운드에 대한 음성 인식을 수행한다. 그 인식 결과는 외부 저장부(106)에 저장되고 화상과 관련지어진다. 화상 검색 모듈(206)은 음성 인식 결과를 사용자가 입력부(102)를 통해 입력한 키워드와 매칭시키고, 사용자에게 알리기 위하여 정보 표시부(105) 상에 검색 결과를 표시한다.

도 3은 본 실시예의 화상 검색 처리를 나타낸 흐름도이다.

우선, 단계 S301에서 화상 입력 모듈(201)을 실행함으로써 화상이 입력되고 화상 데이터가 취득된다.

다음으로, 단계 S302에서 사운드의 녹음 여부를 판정한다. 취득된 화상에 대해 사운드를 녹음하는 경우에는 사운드 입력 모듈(202)을 실행함으로써 녹음이 개시된다. 녹음하지 않는 경우에는 단계 S306으로 진행한다. 여기서, 녹음 여부의 설정은 단계 S301에서의 화상 취득 전에 수행할 수도 있다.

다음으로, 단계 S303에서 녹음된 사운드가 데이터로 변환된다. 단계 S304에서, 녹음된 사운드를 음성 인식의 대상으로 할지의 여부를 판정한다. 녹음된 사운 드를 음성 인식의 대상으로 설정한 경우에는 단계 S305로 진행한다. 반면, 녹음된 사운드를 음성 인식의 대상으로 설정하지 않은 경우에는 단계 S306으로 진행한다. 단계 S305에서는 사운드가 음성 인식의 대상으로 인에이블되어 있는지의 여부를 나타내는 설정 정보가 부가 정보로서 생성된다. 이 설정 정보는 조작부(102)를 이용하여 사용자에 의해 입력된다.

단계 S306에서 부가 정보 입력 모듈(203)이 실행된다. 사용자에 의해 설정된 부가 정보와 기기에서 생성된 화상에 대한 부가 정보가 취득된다.

단계 S307에서 화상 데이터 생성 모듈(204)이 실행된다. 입력된 화상, 사운드 및 부가 정보는 상호 연관되어 있다. 연관된 데이터가 화상 데이터로서 출력된다. 또한, 화상 데이터는 외부 저장부(106)에 저장된다. 전술한 실시예에서 화상, 사운드 및 부가 정보가 하나의 그룹으로서 연속적으로 기록되지만, 각각을 저장 매체 상의 분리된 영역에 기록할 수도 있다. 이 경우 각 데이터에 링크 데이터가 부여된다.

단계 S308에서는 단계 S307에서 취득된 화상 데이터가 판독되며, 화상과 관련된 사운드가 음성 인식의 대상인지의 여부가 판정된다. 화상과 관련된 사운드가 음성 인식의 대상인 경우에는 단계 S309로 진행한다. 음성 인식의 대상이 아닌 경우에는, 화상 데이터가 화상 검색의 대상이 아니므로 처리를 종료한다.

단계 S309에서는 음성 인식 모듈(205)을 실행함으로써 화상과 관련된 사운드에 대해 음성 인식을 수행한다. 또한, 그 인식 결과는 화상 데이터와 관련지어 외부 저장부(106)에 저장된다.

마지막으로, 단계 S310에서 화상 검색 모듈(206)을 실행함으로써 단계 S309에서 취득된 음성 인식 결과를 이용하여 화상 검색을 수행하며, 그 검색 결과는 정보 표시부(105)를 이용하여 표시된다. 그 후, 처리가 종료된다.

화상 검색의 방법으로서, 음성 입력 또는 조작부(102)의 키보드에 의해 입력된 검색 정보와 거의 합치하는 음성 인식 결과를 추출하여, 추출된 음성 인식 결과와 관련된 화상을 외부 저장부(106)로부터 판독한다.

이들 처리는 디지털 카메라나 스캐너 기능 등을 구비한 화상 입력 기기에 의해 수행될 수 있으며, S308 이후의 처리는 퍼스널 컴퓨터와 같은 다른 정보 처리 장치에 의해 수행될 수도 있다.

도 4a 및 도 4b는 디지털 카메라의 케이스(401)의 후면도이다. 참조번호 402는 마이크, 403은 액정 디스플레이, 404는 셔터 버튼을 나타낸다. 참조번호 405 및 406은 버튼을 나타낸다. 본 실시예에서, 버튼(405)은 "음성 메모 버튼", 버튼(406)은 "녹음 버튼"으로서 할당된다. 버튼(405)을 누르면 음성 인식을 위한 사운드가 녹음되며, 버튼(406)을 누르면 음성 인식을 수행하지 않는 사운드가 녹음된다.

또 다른 예로서, 도 4b에 도시된 바와 같이 단일 버튼(407)을 "음성 인식 버튼"으로서 할당한 경우, 버튼(407)을 누르면 화상이 음성 인식의 대상으로서 인에이블될 수 있다. 또한, 단일 버튼(407)을 반누름(half-pressing)하는 것을 음성 인식의 대상이 아닌 사운드를 녹음하는 기능으로 할당할 수 있다. 버튼에 누름 범위가 있다면, 버튼의 반누름은 완전 누름 범위보다 덜한 상태까지 버튼을 누르고 그 상태에서 버튼 누름을 유지하는 것을 의미한다.

이와 같이, 본 실시예에 따르면, 사운드가 화상과 관련되어 있는 경우, 사용자는 그 사운드를 음성 인식의 대상으로 사용할지의 여부를 결정할 수 있다. 즉, 도 3에 도시된 시스템에서 사용자에 의해 녹음된 사운드를 음성 인식에 의한 검색 대상으로 사용할지의 여부를 임의로 결정할 수 있다. 그렇기 때문에, 음성 인식을 사용하는 화상 검색 장치에서, 음성 인식을 필요로 하지 않는 사운드를 미리 배제할 수 있고, 따라서 화상 검색의 속도를 개선할 수 있다.

<변형예>

도 11은 환경음 인식을 이용한 사운드 분류 처리를 나타낸 흐름도이다. 본 변형예의 모듈 구성은 도 2의 음성 인식 모듈(205)을 환경음 인식 모듈로 치환한 것이다.

우선, 단계 S301-1에서, 화상 입력 모듈(201)을 실행함으로써 화상이 입력되고 화상 데이터가 취득된다.

다음으로, 단계 S302-1에서, 취득된 화상에 대한 녹음 여부를 판정한다. 취득된 화상에 대해 사운드를 녹음하는 경우에는 사운드 입력 모듈(202)를 실행함으로써 사운드의 녹음이 개시된다. 사운드를 녹음하지 않는 경우에는 단계 S306-1로 진행한다. 사운드의 녹음 여부에 대한 설정은 화상의 취득 전에 수행될 수도 있다.

다음으로, 단계 S303-1에서 녹음된 사운드로부터 사운드 데이터가 생성된다. 단계 S304-1에서 녹음된 사운드가 분류의 대상인지의 여부가 판정된다. 녹음된 사 운드가 분류 대상인 경우에는 단계 S305-1로 진행한다. 반면, 녹음된 사운드가 분류 대상이 아닌 경우에는 단계 S306-1로 진행한다. 단계 S305-1에서, 사운드가 분류 대상으로서 인에이블되어 있는지의 여부를 나타내는 설정 정보가 부가 정보로서 생성된다. 이 설정 정보는 조작부(102)를 이용하여 사용자에 의해 입력된다.

단계 S306-1에서 부가 정보 입력 모듈(203)이 실행된다. 사용자에 의해 설정된 부가 정보와 기기 내에서 생성된 화상에 대한 부가 정보가 취득된다.

단계 S307-1에서, 화상 데이터 생성 모듈(204)이 실행된다. 입력된 화상, 사운드 및 부가 정보는 상호 연관되어 있다. 이 연관된 데이터는 화상 데이터로서 출력되어 외부 저장부(106)에 저장된다. 전술한 실시예에서 화상, 사운드 및 부가 정보가 하나의 그룹으로서 연속적으로 기록되지만, 각각을 저장 매체 상의 분리된 영역에 기록할 수도 있다. 이 경우 각 데이터에 링크 데이터가 부여된다.

단계 S308-1에서는 단계 S307-1에서 취득된 화상 데이터가 판독되며, 화상과 관련된 사운드가 분류의 대상인지의 여부가 판정된다. 화상과 관련된 사운드가 분류의 대상인 경우에는 단계 S309-1로 진행한다. 분류의 대상이 아닌 경우에는, 화상 데이터가 화상 검색의 대상이 아니므로 처리를 종료한다.

단계 S309-1에서는 환경음 인식 모듈을 실행함으로써 화상과 관련되고 분류의 대상인 사운드가 분석 및 분류된다. 그 분류 결과는 화상 데이터와 관련지어 외부 저장부(106)에 사운드 속성으로서 저장된다.

이러한 사운드 속성 취득 방법은 물이나 바람 소리와 같은 모든 환경음에 대한 음향 모델을 제공한다. 사운드의 특징량과 음향 모델과의 매칭 처리는 음성 인 식과 마찬가지로 수행되며, 최적의 일치를 보이는 음향 모델의 환경음에 대한 분류명은 그 사운드의 사운드 속성으로서 표현된다.

마지막으로, 단계 S310-1에서 화상 검색 모듈(206)을 실행함으로써, 단계 S309-1에서 취득된 환경음 인식 결과를 이용하여 화상 검색이 수행되며, 그 검색 결과는 정보 표시부(105)를 이용하여 표시된다. 이로써 처리는 종료된다.

화상 검색의 방법으로서, 음성 입력이나 조작부(102)의 키보드에 의해 입력된 검색 정보와 거의 합치하는 사운드 속성을 추출하여, 추출된 사운드 속성과 관련된 화상을 외부 저장부(106)로부터 판독한다.

이와 같이, 본 실시예에 따르면, 사운드가 화상과 관련된 경우, 사용자는 그 사운드를 환경음 인식의 대상으로서 이용할지의 여부를 결정할 수 있다. 즉, 도 11에 나타낸 처리에서, 사용자에 의해 녹음된 사운드를 환경음 인식에 의한 검색 대상으로서 이용할지의 여부를 임의로 결정할 수 있다. 이렇게 함으로써, 환경음 인식을 사용하는 화상 검색 장치에서, 환경음 인식을 필요로 하지 않는 사운드에 연관된 화상을 미리 배제할 수 있고, 화상 검색의 속도 개선을 실현할 수 있다.

[제2 실시예]

제1 실시예에서는 화상과 관련된 사운드 중에서 음성 인식의 대상이 아닌 사운드를 처리하지 않았다. 제2 실시예에서는 음성 인식의 대상이 아닌 사운드를 화상과 관련된 사운드를 분류함으로써 분석하고, 사운드 속성을 생성하며, 이 사운드 속성을 이용함으로써 화상 검색을 수행하는 방법을 설명한다.

도 5는 화상과 관련된 사운드를 음성 인식의 대상으로서 저장하는 기능과, 음성 인식의 대상 이외의 사운드의 속성을 화상과 관련지어 저장 매체에 저장하는 기능을 구비한 화상 검색 처리의 제어 프로그램의 모듈을 도시한 블록도이다. 제2 실시예의 모듈 구성은 도 2의 모듈 구성에 환경음 인식 모듈(501)을 추가한 것이다. 따라서, 도 5에도 동일한 참조번호를 사용한다.

환경음 인식 모듈(501)은 음성 인식의 대상이 아닌 사운드를 분석하여, 사운드에 대하여 물이나 바람의 소리와 같은 사운드 속성을 생성 부여한다. 이 모듈(501)은 사운드 속성을 화상과 관련시키는 모듈이다.

도 6은 화상과 관련된 사운드를 음성 인식의 대상으로서 저장하는 기능과, 음성 인식의 대상 이외의 사운드의 속성을 화상과 관련지어 저장 매체에 저장하는 기능을 포함하는 제어 프로그램의 화상 검색 처리를 나타낸 흐름도이다.

우선, 단계 S601에서 화상 입력 모듈(201)을 실행함으로써 화상이 입력되며 화상 데이터가 취득된다.

다음으로 단계 S602에서 취득된 화상에 대하여 사운드를 녹음할지의 여부를 판정한다. 취득된 화상에 대하여 사운드를 녹음하는 경우에는 사운드 입력 모듈(202)을 실행함으로써 사운드의 녹음이 개시된다. 사운드를 녹음하지 않는 경우에는 단계 S606으로 진행한다. 사운드의 녹음 여부에 대한 설정은 화상의 취득 전에 수행될 수도 있다.

다음으로, 단계 S603에서 녹음된 사운드로부터 데이터를 생성한다. 단계 S604에서는 녹음된 사운드를 음성 인식의 대상으로 할지의 여부를 판정한다. 녹음된 사운드를 음성 인식의 대상으로 하는 경우에는 단계 S605로 진행한다. 반면, 녹음된 사운드를 음성 인식의 대상으로 하지 않는 경우에는 단계 S606으로 진행한다. 단계 S605에서는 사운가가 음성 인식의 대상으로서 인에이블되었는지의 여부를 나타내는 설정 정보가 부가 정보로서 생성된다. 이 설정 정보는 조작부(102)를 이용하여 사용자에 의해 입력된다.

단계 S606에서 부가 정보 입력 모듈(203)이 실행된다. 사용자에 의해 설정된 부가 정보와 기기 내에서 생성된 화상에 대한 부가 정보가 취득된다.

단계 S607에서 화상 데이터 생성 모듈(204)이 실행된다. 입력된 화상, 사운드 및 부가 정보는 상호 연관되어 있다. 연관된 데이터는 화상 데이터로서 출력되며, 화상 데이터는 외부 저장부(106)에 저장된다. 전술한 실시예에서는 화상, 사운드 및 부가 정보가 하나의 그룹으로서 연속적으로 기록되지만, 각각을 저장 매체 상의 분리된 영역에 기록할 수도 있다. 이 경우 각 데이터에 링크 데이터가 부여된다.

단계 S608에서는 단계 S607에서 취득된 화상 데이터가 판독되며 화상과 관련된 사운드가 존재하는지의 여부가 판정된다. 화상과 관련된 사운드가 존재하지 않는다면 처리를 종료한다. 사운드가 화상과 관련되어 있다면 단계 S609로 진행한다.

단계 S609에서 화상과 관련된 부가 정보가 판독되며 화상과 관련된 사운드가 음성 인식의 대상인지의 여부가 판정된다. 화상과 관련된 사운드가 음성 인식의 대상인 경우에는 단계 S610으로 진행하며, 음성 인식의 대상이 아닌 경우에는 단계 S611로 진행한다.

단계 S610에서 음성 인식 모듈(205)을 실행함으로써 화상과 관련된 사운드에 대한 음성 인식이 수행되며, 그 인식 결과는 화상 데이터와 관련지어 외부 저장부(106)에 저장된다.

단계 S611에서 환경음 인식 모듈(501)을 실행함으로써 화상과 관련되고 음성 인식의 대상이 아닌 사운드가 분석 및 분류된다. 그 분류 결과는 화상 데이터와 관련지어 외부 저장부(106)에 사운드 속성으로서 저장된다.

이러한 사운드 속성 취득 방법은 물이나 바람 소리와 같은 모든 환경음에 대한 음향 모델을 제공한다. 또한, 사운드의 특징량과 음향 모델과의 매칭 처리는 음성 인식과 마찬가지로 수행된다. 최적의 일치를 보이는 음향 모델의 환경음에 대한 분류명은 그 사운드의 사운드 속성으로서 표현된다.

마지막으로, 단계 S612에서 화상 검색 모듈(206)을 실행함으로써, 단계 S610에서 취득된 음성 인식 결과 또는 단계 S611에서 취득된 환경음 인식 결과를 이용하여 화상 검색이 수행된다. 그 검색 결과는 정보 표시부(105)를 이용하여 표시된다. 이로써 처리는 종료된다.

화상 검색의 방법으로서, 음성 입력이나 조작부(102)의 키보드에 의해 입력된 검색 정보와 거의 합치하는 사운드 속성 또는 음성 인식 결과를 추출하여, 추출된 사운드 속성 또는 음성 인식 결과와 관련된 화상을 외부 저장부(106)로부터 판독한다.

이들 처리는 디지털 카메라나 스캐너 기능 등을 구비한 화상 입력 기기에 의해 수행될 수 있으며, S608 이후의 처리는 퍼스널 컴퓨터와 같은 다른 정보 처리 장치에 의해 수행될 수도 있다.

이와 같이, 본 실시예에 따르면, 사운드가 화상과 관련된 경우, 사용자는 그 사운드를 음성 인식의 대상으로서 이용할지의 여부를 결정할 수 있다. 또한, 본 실시예에서는 사운드가 음성 인식의 대상이 아닌 경우에는 그 사운드에 속성을 부여함으로써 사운드를 검색 대상으로서 설정할 수 있다. 이렇게 함으로써, 사운드와 관련된 모든 화상을 검색 대상으로 할 수 있다. 또한, 검색에 불필요한 음성 인식을 생략할 수 있기 때문에, 음성 인식을 사용하는 화상 검색 장치의 편의성을 개선할 수 있고 검색의 속도 개선도 실현할 수 있다.

[제3 실시예]

제1 및 제2 실시예에서는 사용자의 버튼 조작 등에 의해 화상과 관련된 사운드가 음성 인식의 대상으로서 임의로 인에이블된다. 제3 실시예에서는 사운드로부터 음성을 식별한다. 음성 인식의 대상인 사운드가 자동으로 식별되며 식별된 결과를 이용하여 화상을 검색하는 방법을 설명한다.

도 7은 화상과 관련된 사운드가 음성인지의 여부를 자동으로 식별하는 기능을 구비한 화상 검색 처리를 실현하는 제어 프로그램의 모듈을 도시한 블록도이다.

제3 실시예는 도 2의 모듈에 사운드 식별 모듈(701)을 추가한 것이므로, 도 7에는 도 2와 동일한 참조번호를 사용한다.

사운드 식별 모듈(701)은 화상과 관련된 사운드 정보가 음성인지의 여부를 자동으로 식별하여, 화상과 관련되고 식별 결과를 나타내는 부가 정보를 출력하는 모듈이다.

도 8은 화상과 관련된 사운드가 음성인지의 여부를 자동으로 식별하는 기능을 포함하는 제어 프로그램의 화상 검색 처리를 나타낸 흐름도이다.

우선, 단계 S801에서 화상 입력 모듈(201)을 실행함으로써 화상이 입력되며 화상 데이터가 취득한다.

다음으로, 단계 S802에서 취득된 화상에 대하여 사운드를 녹음할지의 여부를 판정한다. 취득된 화상에 대하여 사운드를 녹음하는 경우에는 사운드 입력 모듈(202)을 실행함으로써 사운드의 녹음이 개시된다. 녹음하지 않는 경우에는 단계 S804로 진행한다. 사운드의 녹음 여부에 대한 설정은 화상의 취득 전에 수행할 수도 있다.

다음으로, 단계 S803에서는 녹음된 사운드로부터 데이터가 생성된다. 단계 S804에서는 부가 정보 입력 모듈(203)이 실행된다. 사용자에 의해 설정된 부가 정보 및 기기 내부에서 생성된 화상에 대한 부가 정보가 취득된다.

단계 S805에서 화상 데이터 생성 모듈(204)이 실행된다. 입력된 화상, 사운드 및 부가 정보는 상호 연관되어 있다. 연관된 데이터는 화상 데이터로서 출력되며, 화상 데이터는 외부 저장부(106)에 저장된다. 전술한 실시예에서는 화상, 사운드 및 부가 정보가 하나의 그룹으로서 연속적으로 기록되지만, 각각을 저장 매체 상의 분리된 영역에 기록할 수도 있다. 이 경우 각 데이터에 링크 데이터가 부여된다.

단계 S806에서는, 단계 S805에서 취득된 화상 데이터가 판독되며 화상과 관련된 사운드가 존재하는지의 여부가 판정된다. 화상과 관련된 사운드가 존재하지 않는다면 처리를 종료한다. 화상과 관련된 사운드가 존재한다면 단계 S807로 진행한다.

단계 S807에서, 사운드 식별 모듈(701)을 실행함으로써 화상과 관련된 사운드가 음성인지의 여부가 식별된다.

아래에서는, 음성을 자동으로 식별하는 방법의 일례를 설명한다. 예를 들어, 여러가지 음성을 이용하여 생성된 음성의 음향 모델과 환경음을 이용하여 생성된 환경음의 음향 모델을 사용하여, 화상과 관련된 사운드에 대하여 음성 인식을 수행한다. 음성의 음향 모델의 매칭이 환경음의 음향 모델보다 높다면, 그 사운드는 음성으로서 식별된다.

또 다른 예로서, 사람을 포함한 화상과 관련된 사운드를 식별할 수도 있다. 다음은 화상에 사람이 포함되어 있는지의 여부를 판정하는 방법이다.

1) 촬영 모드(예를 들어, 적목(red eye) 보정 모드, 인물 촬영 모드)에 기초하여 사람이 화상에 포함되어 있는지의 여부를 판정하는 방법; 및

2) 화상 인식 방법.

단계 S808에서, 단계 S807의 식별 결과로부터 사운드가 음성 인식의 대상인지의 여부가 자동으로 판정된다. 음성 이외의 사운드와 관련된 화상 데이터는 검색의 대상으로부터 제외된다. 음성이 화상 데이터와 관련된 경우에는 단계 S809로 진행한다.

단계 S809에서, 음성 인식 모듈(205)을 실행함으로써 화상과 관련된 사운드에 대하여 음성 인식이 수행되고, 그 인식 결과는 화상 데이터와 관련지어 외부 저 장부(106)에 저장된다.

마지막으로, 단계 S810에서 화상 검색 모듈(206)을 실행함으로써, 단계 S809에서 취득된 음성 인식 결과를 이용하여 화상 검색이 수행되고, 그 검색 결과는 정보 표시부(105)를 이용하여 표시된다. 이로써 처리가 종료된다.

화상 검색의 방법으로서, 음성 입력이나 조작부(102)의 키보드에 의해 입력된 검색 정보와 거의 합치하는 음성 인식 결과를 추출하여, 추출된 음성 인식 결과와 관련된 화상을 외부 저장부(106)로부터 판독한다.

이들 처리는 디지털 카메라나 스캐너 기능 등을 구비한 화상 입력 기기에 의해 수행될 수 있으며, S806 이후의 처리는 퍼스널 컴퓨터와 같은 다른 정보 처리 장치에 의해 수행될 수도 있다.

이와 같이, 본 실시예의 화상 검색 장치는 화상과 관련된 사운드를 본 실시예에 따른 음성 인식의 대상으로 사용할지의 여부를 자동으로 판정할 수 있기 때문에, 검색 대상의 화상을 자동으로 분류할 수 있다. 따라서, 음성 인식을 위한 사용자의 입력 처리가 줄어든다. 음성 인식을 수행할 필요가 없는 화상은 자동으로 제외되므로 음성 인식을 사용하는 화상 검색 장치의 편의성이 크게 개선된다.

[제4 실시예]

제3 실시예에서는 화상과 관련된 사운드를 식별함으로써 음성 인식의 대상 사운드를 자동으로 구별한다. 제4 실시예에서는 화상과 관련된 사운드를 분류함으로써 음성 인식의 대상이 아닌 사운드를 분석하고, 사운드 속성을 생성하며, 이 사운드 속성을 이용하여 화상 검색을 수행하는 방법을 설명한다.

도 9는 화상과 관련된 사운드가 음성인지의 여부를 자동으로 식별하는 기능과, 음성 인식의 대상 이외의 사운드의 속성을 화상과 관련지어 저장 매체에 저장하는 기능을 구비한 화상 검색 처리를 실현하는 제어 프로그램의 모듈을 도시한 블록도이다. 제4 실시예에서의 모듈은 도 7의 모듈에 도 5의 환경음 인식 모듈(501)을 추가한 것이다. 따라서, 동일한 참조번호를 사용한다.

도 10은 화상과 관련된 사운드가 음성인지의 여부를 자동으로 식별하는 기능과, 음성 인식의 대상 이외의 사운드의 속성을 화상과 관련지어 저장 매체에 저장하는 기능을 포함하는 제어 프로그램의 화상 검색 처리의 절차를 나타낸 흐름도이다.

우선, 단계 S1001에서 화상 입력 모듈(201)을 실행함으로써 화상이 입력되며 화상 데이터가 취득된다.

다음으로, 단계 S1002에서 취득된 화상에 대하여 사운드를 녹음할지의 여부를 판정한다. 취득된 화상에 대하여 사운드를 녹음하는 경우에는 사운드 입력 모듈(202)을 실행함으로써 사운드의 녹음을 개시한다. 사운드를 녹음하지 않는 경우에는 단계 S1004로 진행한다. 사운드의 녹음 여부에 대한 설정은 화상의 취득 전에 수행할 수도 있다.

다음으로, 단계 S1003에서 녹음된 사운드로부터 데이터를 생성한다. 단계 S1004에서는 부가 정보 입력 모듈(203)을 실행한다. 사용자에 의해 설정된 부가 정보 및 기기 내에서 생성된 화상에 대한 부가 정보가 취득된다.

단계 S1005에서 화상 데이터 생성 모듈(204)을 실행한다. 입력된 화상, 사 운드 및 부가 정보는 상호 연관되어 있다. 연관된 데이터는 화상 데이터로서 출력되며, 화상 데이터는 외부 저장 장치(106)에 저장된다. 전술한 실시예에서는 화상, 사운드 및 부가 정보가 하나의 그룹으로서 연속적으로 기록되지만, 각각을 저장 매체 상의 분리된 영역에 기록할 수도 있다. 이 경우 각 데이터에 링크 데이터가 부여된다.

단계 S1006에서는, 단계 S1005에서 취득된 화상 데이터가 판독되며, 화상과 관련된 사운드가 존재하는지의 여부가 판정된다. 화상과 관련된 사운드가 존재하지 않는다면 처리가 종료된다. 사운드가 화상과 관련되어 있다면 단계 S1007로 진행한다.

단계 S1007에서, 사운드 식별 모듈(701)을 실행함으로써 화상과 관련된 사운드가 음성인지의 여부가 식별된다.

아래에서는 음성을 자동으로 식별하는 방법의 일례를 설명한다. 예를 들어, 여러가지 음성을 이용하여 생성된 음성의 음향 모델과 환경음을 이용하여 생성된 환경음의 음향 모델을 사용하여, 화상과 관련된 사운드에 대하여 음성 인식을 수행한다. 음성의 음향 모델의 매칭이 환경음의 음향 모델보다 높다면, 그 사운드는 음성으로서 식별된다.

1) 촬영 모드(예를 들어, 적목 보정 모드, 인물 촬영 모드)에 기초하여 사람이 화상에 포함되어 있는지의 여부를 판정하는 방법; 및

2) 화상 인식 방법.

단계 S1008에서, 단계 S1007의 식별 결과로부터 사운드가 음성 인식의 대상인지의 여부가 자동으로 판정된다. 사운드가 음성 이외의 사운드인 경우에는 단계 S1010으로 진행한다. 사운드가 음성인 경우에는 단계 S1009로 진행한다.

단계 S1009에서, 음성 인식 모듈(205)을 실행함으로써 화상과 관련된 사운드에 대하여 음성 인식이 수행되며, 그 인식 결과는 화상 데이터와 관련지어 외부 저장부(106)에 저장된다.

단계 S1010에서, 환경음 인식 모듈(501)을 실행함으로써 화상과 관련되고 음성 인식의 대상이 아닌 사운드가 분석 및 분류된다. 분류 결과는 화상 데이터와 관련지어 외부 저장부(106)에 사운드 속성으로서 저장된다.

이러한 사운드 속성 취득 방법은 물이나 바람 소리와 같은 모든 환경음에 대한 음향 모델을 제공한다. 사운드의 특징량과 음향 모델과의 매칭 처리는 음성 인식과 마찬가지로 수행되며, 최적의 일치를 보이는 음향 모델의 환경음에 대한 분류명은 그 사운드의 사운드 속성이 된다.

마지막으로, 단계 S1011에서 화상 검색 모듈(206)을 실행함으로써, 단계 S1009에서 취득된 음성 인식 결과 또는 단계 S1010에서 취득된 환경음 인식 결과를 이용하여 화상 검색이 수행되며, 그 검색 결과는 정보 표시부(105)를 이용하여 표시된다. 이로써 처리가 종료된다.

화상 검색의 방법으로서, 음성 입력이나 조작부(102)의 키보드에 의해 입력된 검색 정보와 거의 합치하는 음성 인식 결과 또는 사운드 속성을 추출하여, 추출 된 음성 인식 결과 또는 사운드 속성과 관련된 화상을 외부 저장부(106)로부터 판독한다.

이들 처리는 디지털 카메라나 스캐너 기능 등을 구비한 화상 입력 기기에 의해 수행될 수 있으며, S1006 이후의 처리는 퍼스널 컴퓨터와 같은 다른 정보 처리 장치에 의해 수행될 수도 있다.

이와 같이, 본 실시예의 화상 검색 장치는 화상과 관련된 사운드를 본 실시예에 따른 음성 인식의 대상으로 사용할지의 여부를 자동으로 판정할 수 있기 때문에, 검색 대상의 화상을 자동으로 분류할 수 있다. 음성 인식의 대상 이외의 사운드에 대해서 사운드 속성을 부여함으로써 검색 대상으로서 설정할 수 있다. 이에 따라, 예컨대 음성 인식에 대한 사용자의 입력 처리 과정을 줄일 수 있게 된다. 음성 인식을 수행할 필요가 없는 화상은 자동으로 제외되고 사운드와 관련된 모든 화상이 검색 대상이 되므로, 음성 인식을 사용하는 화상 검색 장치의 편의성이 크게 개선된다.

[제5 실시예]

제4 실시예에서는 사운드 식별 모듈(701)과 환경음 인식 모듈(501)을 분리된 모듈로서 도시했지만(도 9 참조), 이들 모듈을 분리시킬 필요는 없다. 그 대신에, 화상과 관련된 사운드에 대한 환경음 인식을 수행하고 그 사운드가 음성인지의 여부를 식별하는 하나의 모듈을 제공할 수도 있다. 예를 들어, 도 10의 단계 S1010을 단계 S1007에 포함시켜, 음성의 음향 모델과 복수의 환경음 모델을 이용하여 음성 인식을 수행함으로써, 사운드 식별 및 환경음 인식을 동시에 수행할 수 있다.

[제6 실시예]

제1 내지 제5 실시예에서는 화상을 사운드와 관련된 데이터로서 설명하였지만, 본 발명은 단지 화상에 국한되지 않는다. 본 발명은 문서나 비디오와 같은 모든 디지털 컨텐츠에 대해서도 적용될 수 있다.

본 발명은 하나의 디바이스를 포함하는 장치 또는 복수의 디바이스로 구성된 시스템에도 적용될 수 있다.

또한, 본 발명은 전술한 실시예의 기능을 실현하는 소프트웨어 프로그램을 직간접적으로 시스템 또는 장치에 공급하여, 그 시스템 또는 장치의 컴퓨터에 의해 공급된 프로그램 코드를 판독하여 그 프로그램 코드를 실행함으로써 실현될 수 있다. 이 경우, 시스템 또는 기기가 상기 프로그램의 기능을 구비한다면 그 구현 모드는 프로그램에 의존할 필요는 없다.

따라서, 본 발명의 기능을 실행하는 컴퓨터에 인스톨된 프로그램 코드 및 컴퓨터도 본 발명을 실현한다. 즉, 본 발명의 청구항은 본 발명의 기능을 실현하는 용도의 컴퓨터 프로그램도 포함한다.

이 경우, 시스템 또는 장치가 프로그램의 기능을 구비한다면, 그 프로그램은 오브젝트 코드, 번역기에 의해 실행되는 프로그램 또는 오퍼레이팅 시스템에 공급된 스크립트 데이터와 같은 임의의 형태로 실행될 수 있다.

프로그램을 공급하기 위한 저장 매체의 예로는, 플로피 디스크, 하드디스크, 광 디스크, 광자기 디스크, CD-ROM, CD-R, CD-RW, 자기 테이프, 불휘발성 메모리 카드, ROM, DVD(예컨대 DVD-ROM, DVD-R) 등이 있다.

프로그램을 공급하는 방법으로서, 클라이언트 컴퓨터의 브라우저를 이용하여 인터넷 상의 웹사이트에 클라이언트 컴퓨터를 접속시키고, 본 발명의 컴퓨터 프로그램 또는 자동 인스톨 가능한 프로그램 압축 파일을 하드디스크와 같은 기록 매체에 다운로드할 수 있다. 또한, 본 발명의 프로그램은 프로그램을 구성하는 프로그램 코드를 복수의 파일로 분할하고 이들 파일을 서로 다른 웹사이트들로부터 다운로드함으로써 공급받을 수도 있다. 즉, 컴퓨터를 이용하여 본 발명의 기능을 구현한 프로그램 파일을 복수의 사용자에게 다운로드해 주는 WWW 서버도 본 발명의 청구항에 포함된다.

또한, 본 발명의 프로그램을 CD-ROM 등의 저장 매체에 암호화하여 저장하고, 저장 매체를 사용자에게 배신함으로써, 일정한 요건을 충족하는 사용자들이 인터넷을 통해 웹사이트로부터 복호키 정보를 다운로드할 수 있도록 하고, 이들 사용자가 키 정보를 이용하여 암호화된 프로그램을 복호할 수 있도록 함으로써, 프로그램을 사용자 컴퓨터에 인스톨할 수 있도록 하는 것도 가능하다.

컴퓨터에 의해 판독된 프로그램을 실행함으로써 전술한 실시예의 기능이 실현되는 것뿐만 아니라, 컴퓨터 상에서 가동하고 있는 오퍼레이팅 시스템 등이 실제의 처리의 일부 또는 전부를 행하고, 그 처리에 의해서 전술한 실시예의 기능이 실현될 수도 있다.

또한, 저장 매체로부터 판독된 프로그램이 컴퓨터에 삽입된 기능 확장 보드나 컴퓨터에 접속된 기능 확장 유닛에 구비된 메모리에 기입된 후, 기능 확장 보드나 기능 확장 유닛에 탑재된 CPU 등이 실제의 처리의 일부 또는 전부를 행하고, 그 처리에 의해서 전술한 실시예의 기능이 실현될 수도 있다.

본 발명의 사상 및 범주를 일탈하지 않고도 본 발명에 대한 많은 다양한 실시예가 이루어질 수 있는 것이므로, 본 발명은 첨부된 청구항에 규정된 것 이외의 특정 실시예에 국한되지 않는다.

본 발명은 전술한 실시예에 국한되지 않으며 본 발명의 사상 및 범주 내에서 각종 변형 및 수정이 가능하다. 따라서, 본 발명의 범주는 하기의 청구항에 의해 정의되어야 한다.

전술한 바와 같이, 본 발명에 따르면 데이터와 관련된 사운드 정보를 이용함으로써 고속이면서 정확한 데이터 처리(예컨대, 데이터 검색, 음성 인식, 사운드 분류 등)를 수행할 수 있다.

Claims

정보 처리 장치에 있어서,

데이터와 관련된 사운드 정보를 취득하는 취득 수단;

상기 취득 수단에 의해 취득된 사운드 정보를 데이터 검색의 대상으로 할 지의 여부, 음성 인식의 대상으로 할 지의 여부, 또는 사운드 분류의 대상으로 할 지의 여부 중 적어도 하나를 설정하는 설정 수단; 및

상기 데이터, 상기 사운드 정보, 및 상기 설정 수단에 의해 설정된 결과를 관련지어 기억하는 기억 수단

을 포함하는 정보 처리 장치.
제1항에 있어서,

상기 데이터는 화상 데이터이고,

상기 화상 데이터에 인물이 포함되는지 여부를 판정하는 판정 수단을 더 포함하며,

상기 설정 수단은, 상기 판정 수단에 의해 상기 화상 데이터에 인물이 포함되는 것으로 판정된 경우에, 상기 사운드 정보를 음성 인식의 대상으로 하도록 설정하는 것을 특징으로 하는 정보 처리 장치.
제1항에 있어서,

상기 취득 수단에 의해 취득된 사운드 정보가 음성인지의 여부를 식별하는 식별 수단

을 더 구비하고,

상기 설정 수단은, 상기 식별 수단에 의해 상기 사운드 정보가 음성인 것으로 식별된 경우에, 상기 사운드 정보를 음성 인식의 대상으로 하도록 설정하는 것을 특징으로 하는 정보 처리 장치.
제3항에 있어서,

상기 설정 수단은, 상기 식별 수단에 의해 상기 사운드 정보가 음성이 아닌 것으로 식별된 경우에, 상기 사운드 정보를 사운드 분류의 대상으로 하여 설정하는 것을 특징으로 하는 정보 처리 장치.
정보 처리 장치에 있어서,

데이터와 관련된 사운드 정보를 취득하는 취득 수단;

상기 취득 수단에 의해 취득된 사운드 정보를 음성 인식의 대상으로 할 지의 여부를 설정하는 설정 수단;

상기 설정 수단에 의해 음성 인식의 대상으로 하는 것으로 설정된 경우에는, 상기 사운드 정보를 음성 인식하고, 음성 인식된 결과와 상기 데이터를 관련지어 기억하며, 상기 설정 수단에 의해 음성 인식의 대상으로 하지 않도록 설정된 경우에는, 상기 사운드 정보를 음성 인식하지 않고서 상기 데이터와 관련지어 기억하는 기억 수단

을 포함하는 정보 처리 장치.
정보 처리 장치에 있어서,

데이터, 해당 데이터와 관련된 사운드 정보 및 해당 사운드 정보를 데이터 검색에 이용할 지의 여부를 설정한 설정 정보를 수신하는 수신 수단; 및

상기 수신 수단에 의해 수신된 설정 정보가 데이터 검색에 이용하는 설정으로 되어 있는 설정 정보에 대응하는 사운드 정보에 관련지어져 있는 데이터만을, 해당 사운드 정보에 기초하여 검색하는 검색 수단

을 포함하는 정보 처리 장치.
정보 처리 장치에 있어서,

데이터, 해당 데이터와 관련된 사운드 정보 및 해당 사운드 정보를 음성 인식의 대상으로 할 지의 여부를 설정한 설정 정보를 수신하는 수신 수단;

상기 수신 수단에 의해 수신된 설정 정보가 음성 인식의 대상으로 하는 설정으로 되어 있는 경우에, 상기 사운드 정보를 음성 인식하는 음성 인식 수단; 및

상기 음성 인식 수단에 의해 인식된 결과를 상기 데이터에 관련지어 기억하는 기억 수단

을 포함하는 정보 처리 장치.
정보 처리 장치에 있어서,

데이터, 해당 데이터와 관련된 사운드 정보 및 해당 사운드 정보를 사운드 분류의 대상으로 할 지의 여부를 설정한 설정 정보를 수신하는 수신 수단;

상기 수신 수단에 의해 수신된 설정 정보가 사운드 분류의 대상으로 하는 설정으로 되어 있는 경우에, 상기 사운드 정보를 사운드의 속성으로 분류하는 분류 수단; 및

상기 분류 수단에 의해 분류된 사운드의 속성을 문자열로서, 상기 사운드 정보에 관련된 상기 데이터에 관련지어 기억하는 기억 수단

을 포함하는 정보 처리 장치.
정보 처리 방법에 있어서,

데이터와 관련된 사운드 정보를 취득하는 취득 단계;

상기 취득 단계에서 취득된 사운드 정보를 데이터 검색의 대상으로 할 지의 여부, 음성 인식의 대상으로 할 지의 여부, 또는 사운드 분류의 대상으로 할 지의 여부 중 적어도 하나를 설정하는 설정 단계; 및

상기 데이터, 상기 사운드 정보, 및 상기 설정 단계에서 설정된 결과를 관련지어 기억하는 기억 단계

를 포함하는 정보 처리 방법.
제9항에 있어서,

상기 데이터는 화상 데이터이고,

상기 화상 데이터에 인물이 포함되는지 여부를 판정하는 판정 단계를 더 포함하며,

상기 설정 단계는, 상기 판정 단계에서 상기 화상 데이터에 인물이 포함되는 것으로 판정된 경우에, 상기 사운드 정보를 음성 인식의 대상으로 하도록 설정하는 것을 특징으로 하는 정보 처리 방법.
제9항에 있어서,

상기 취득 단계에서 취득된 사운드 정보가 음성인지의 여부를 식별하는 식별 단계

를 더 포함하고,

상기 설정 단계는, 상기 식별 단계에서 상기 사운드 정보가 음성인 것으로 식별된 경우에, 상기 사운드 정보를 음성 인식의 대상으로 하도록 설정하는 것을 특징으로 하는 정보 처리 방법.
제11항에 있어서,

상기 설정 단계는, 상기 식별 단계에서 상기 사운드 정보가 음성이 아닌 것으로 식별된 경우에, 상기 사운드 정보를 사운드 분류의 대상으로 하여 설정하는 것을 특징으로 하는 정보 처리 방법.
정보 처리 방법에 있어서,

데이터와 관련된 사운드 정보를 취득하는 취득 단계;

상기 취득 단계에서 취득된 사운드 정보를 음성 인식의 대상으로 할 지의 여부를 설정하는 설정 단계;

상기 설정 단계에서 음성 인식의 대상으로 하는 것으로 설정된 경우에, 상기 사운드 정보를 음성 인식하고, 음성 인식된 결과와 상기 데이터를 관련지어 기억하며, 상기 설정 단계에서 음성 인식의 대상으로 하지 않도록 설정된 경우에, 상기 사운드 정보를 음성 인식하지 않고서 상기 데이터와 관련지어 기억하는 기억 단계

를 포함하는 정보 처리 방법.
정보 처리 방법에 있어서,

데이터, 해당 데이터와 관련된 사운드 정보 및 해당 사운드 정보를 데이터 검색에 이용할 지의 여부를 설정한 설정 정보를 수신하는 수신 단계; 및

상기 수신 단계에서 수신된 설정 정보가 데이터 검색에 이용하는 설정으로 되어 있는 설정 정보에 대응하는 사운드 정보에 관련지어져 있는 데이터만을, 해당 사운드 정보에 기초하여 검색하는 검색 단계

를 포함하는 정보 처리 방법.
정보 처리 방법에 있어서,

데이터, 해당 데이터와 관련된 사운드 정보 및 해당 사운드 정보를 음성 인식의 대상으로 할 지의 여부를 설정한 설정 정보를 수신하는 수신 단계;

상기 수신 단계에서 수신된 설정 정보가 음성 인식의 대상으로 하는 설정으로 되어 있는 경우에, 상기 사운드 정보를 음성 인식하는 음성 인식 단계; 및

상기 음성 인식 단계에서 인식된 결과를 상기 데이터에 관련지어 기억하는 기억 단계

를 포함하는 정보 처리 방법.
정보 처리 방법에 있어서,

데이터, 해당 데이터와 관련된 사운드 정보 및 해당 사운드 정보를 사운드 분류의 대상으로 할 지의 여부를 설정한 설정 정보를 수신하는 수신 단계;

상기 수신 단계에서 수신된 설정 정보가 사운드 분류의 대상으로 하는 설정으로 되어 있는 경우에, 상기 사운드 정보를 사운드의 속성으로 분류하는 분류 단계; 및

상기 분류 단계에서 분류된 사운드의 속성을 문자열로서, 상기 사운드 정보에 관련된 상기 데이터에 관련지어 기억하는 기억 단계

를 포함하는 정보 처리 방법.
제9항 내지 제16항 중 어느 한 항에 따른 정보 처리 방법을 컴퓨터에 실행시키기 위한 제어 프로그램을 저장한 컴퓨터 판독가능한 기억 매체.
삭제