KR100701132B1

KR100701132B1 - 정보처리장치 및 정보처리방법

Info

Publication number: KR100701132B1
Application number: KR1020050046134A
Authority: KR
Inventors: 겐이찌로우 나까가와; 마꼬또 히로따; 히로미 이께다; 쯔요시 야기사와; 히로끼 야마모또; 도시아끼 후까다; 야스히로 고모리
Original assignee: 캐논 가부시끼가이샤
Priority date: 2004-06-01
Filing date: 2005-05-31
Publication date: 2007-03-29
Also published as: CN100487691C; JP2005345616A; US20050267747A1; US7451090B2; EP1603061A2; EP1603061A3; CN1704926A; KR20060046317A

Abstract

화상에 부가된 음성 정보에 대한 음성 인식을 수행함으로써 화상 검색을 구현하는 시스템에서, 화상 업로드 이벤트와 같은 명시적 음성 인식 지시 이벤트 이외의 이벤트에 의해 화상이 트리거된다. 본 시스템은, 화상에 부가되는 음성 정보를 취득하고, 이벤트를 검출하며, 검출된 이벤트가 명시적인 음성 인식 지시 이벤트가 아닐지라도, 특정 이벤트에 응답하여 취득된 음성 정보에 대한 음성 인식을 수행한다.

화상편집, 섬네일, 음성인식, 텍스트 변환, 디지털 카메라, 음성 주석

Description

정보처리장치 및 정보처리방법{INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD}

도 1은 본 발명의 일실시예에 따른 화상 관리 장치의 기능적 구조를 나타낸 도면.

도 2는 본 발명의 일실시예에 따른 화상 관리 장치의 플로우차트.

도 3은 본 발명의 일실시예에 따른 화상 관리 장치에 대한 이벤트 해석 데이터 테이블의 일례를 나타낸 도면.

도 4는 제1 실시예에 따른 휴대형 촬상장치의 일례를 나타낸 도면.

도 5는 제1 실시예에 따른 화상 업로드시의 조작 유저 인터페이스(UI) 화면의 일례를 나타낸 도면.

도 6은 제1 실시예에 따른 음성 인식의 결과를 저장하는 파일의 일례를 나타낸 도면.

도 7은 제1 실시예에 따른 화상 관리 장치내에서 화상/음성 인식결과 데이터베이스를 이용한 화상 검색시의 UI 화면의 일례를 나타낸 도면.

도 8은 제1 실시예에 따른 화상 관리 장치내의 화상/음성 인식 결과 데이터베이스를 사용하여 화상 검색을 처리하는 것을 나타낸 플로우차트.

도 9는 제3 실시예에 따른 화상 관리 장치에 대한 이벤트 해석 데이터 테이 블의 일례를 나타내 도면.

<도면의 주요 부분에 대한 부호의 설명>

102 이벤트 발행부 103 휴대형 촬상장치

101 화상 관리 장치 104 이벤트 검출부

105 제어부 106 음성주석 데이터 로딩부

107 음성인식 결과 저장부 108 이벤트 해석 데이터 테이블

109 음성 인식 데이터 110 음성 주석 데이터 인식부

111 화상/음성 인식 결과 데이터베이스

<일본 공개특허공보 제2003-219327호>

<일본 공개특허공보 제2002-325225호>

<일본 공개특허공보 평9-135417호>

본 발명은 네트워크 등을 통해 촬상장치에 접속된 컴퓨터에서 화상 데이터 등을 관리하는 장치 및 방법에 관한 것이다.

근래, 디지털 카메라가 보편화되었다. 일반적으로, 유저는 디지털 카메라와 같은 휴대형 촬상장치에 의해 캡쳐된 디지털 화상을 PC 또는 서버 등에서 관리한다. 예컨대, 캡쳐된 화상을 PC 또는 서버 상의 폴더 내에서 정리하여, 특정 화상을 인쇄하거나, 또는 연하장에 삽입할 수 있다. 또한, 서버에서 관리하는 경우에는, 일부 화상을 다른 유저에게 공개하는 것도 가능하다.

이러한 경우, 유저는 의도하는 화상을 검색할 필요가 있다. 검색 대상 화상의 수가 적다면, 모든 화상을 섬네일(thumbnail)로 표시하여, 유저가 의도하는 화상을 쉽게 브라우징하여 찾을 수 있도록 할 수 있다. 그러나, 수백개의 화상이 검색되어야 하거나, 목적 화상들이 그룹으로 나누어져서 상이한 폴더들에 저장되는 경우, 유저는 브라우징만으로는 의도하는 화상을 쉽게 찾을 수가 없다.

해결책의 하나로서, 촬상 장치에서 화상에 음성 주석을 부가하여, 검색 시에 이용하도록 할 수 있다. 예컨대, 산의 화상이 캡쳐되는 경우, 그 화상에 "hakone-no-yama(일본의 하코네(지명)에 있는 산을 의미)"와 같은 음성 주석을 부가할 수 있다. 이러한 음성 데이터는 캡쳐된 화상의 데이터와 쌍을 이루어 촬상장치내에 저장된다. 그 후, 음성 데이터는 촬상장치 또는 화상이 업로드되는 PC 상에서 음성 인식을 거쳐, 텍스트 데이터로 변환된다. 일단 주석 데이터가 텍스트 데이터로 변환되면, 일반적인 텍스트 검색 방법을 사용하여 "yama(일본어로 "산"을 의미)" 및 "hakone" 등의 키워드에 의해 화상을 찾을 수가 있다.

이러한 음성 주석을 사용하는 일부 기술은 일본 특허공개 제2003-219327호, 일본 특허공개 제2002-325225호, 및 일본 특허공개 평9-135417호에 개시되어 있다. 이러한 기술에 있어서는, 유저가 화상 캡쳐 도중 또는 그 후에 음성 주석을 화상에 부가한다. 그 후, 유저는 공지된 음성 인식 기술을 사용하여 그 음성 데이터를 화상 검색에 이용한다.

음성 인식의 실행은 과중한 처리 부하를 가져오므로, 음성 인식을 현행의 휴대형 촬상 장치에서 실행하는 것은 비현실적이다. 그러므로, 화상과 화상에 부가된 음성 데이터를 촬상 장치에서 PC 또는 서버에 업로드시켜 그곳에서 음성 인식을 실행할 수 있도록 하는 것이 바람직하다.

전술한 바와 같이, 촬상장치는 음성 주석의 취득만을 수행하고, 음성 인식은 화상 데이터 및 음성 데이터가 업로드되는 PC 또는 서버에서 실행하는 기술들이 제안 및 구현되어 있다. 그러나, 캡쳐된 화상에 부가된 음성 주석 데이터에 수행되는 음성 인식의 타이밍에 대하여는, 아무런 명확한 설명이 없거나, 또는 화상 데이터 및 음성 데이터의 업로드 완료 후에 유저로부터의 요청에 응답하여 음성 인식이 수행되고 있다.

따라서, "화상의 업로드"를 수행하고, "음성 인식 지시"를 내리는 처리를 수행하는 것은 유저에게 있어서 번거러운 것이다.

상기 문제점을 해결하기 위하여, 본 발명은, 다른 기기로부터 화상 및 음성 정보를 수신하는 수신 수단, 수신 수단에 의해 음성 정보가 수신되는 경우, 음성 정보에 대한 음성 인식을 수행하는 음성 인식 수단, 및 음성 인식 수단에 의해 취득된 음성 인식 결과를 화상과 연관시켜 저장하는 기억 수단을 포함하는 정보처리장치를 제공한다.

또한, 본 발명은, 화상과 관련된 음성 정보를 취득하는 취득 수단, 이벤트(event)를 검출하는 검출 수단, 검출 수단에 의해 검출된 이벤트가 음성 인식 지시 이벤트인지를 판정하는 판정수단, 판정 수단에 의해 판정된 이벤트가 음성 인식 지시 이벤트가 아닌 경우에도 특정 이벤트에 응답하여 음성 정보에 대한 음성 인식을 수행하는 음성 인식 수단, 및 음성 인식 수단에 의해 취득된 음성 인식 결과를 화상과 연관시켜 저장하는 기억 수단을 포함하는 정보처리장치를 제공한다.

본 발명의 또 다른 장점 및 특징들은 첨부 도면들을 참조하여 이하의 바람직한 실시예로부터 분명하게 될 것이다.

이하, 본 발명의 실시예들을 첨부된 도면을 참조하여 설명한다.

<제1 실시예>

여기서는, 본 발명의 정보처리장치의 일례로서 화상 관리 장치를 설명한다.

도 1은 본 실시예에 따른 화상 관리 장치의 기능적 구조를 나타낸다. 화상 관리 장치(101)는 이벤트 발행부(102) 및 휴대형 촬상 장치(103)에 접속된다. 이벤트 발행부(102)는 외부 기기 또는 어플리케이션에 포함되어, 각종 이벤트를 발행한다. 이벤트들은 특정의 메모리 영역에 특정 값을 설정함으로써 구현될 수도 있다.

기본 동작에 있어서, 화상 관리 장치(101)는 입력된 이벤트를 수신하고, 수신된 이벤트가 적절한 것이라면 동작을 개시한다. 그 동작은 휴대형 촬상장치(103)로부터 캡쳐된 음성 주석 데이터의 음성 인식과, 화상 관리 장치(101)내의 화상/음성 인식 결과 데이터베이스에 화상과 함께 음성 데이터를 저장하는 것을 포함한다.

화상 관리 장치(101)내의 이벤트 검출부(104)는 화상 관리 장치(101) 외부의 이벤트 발행부(102)로부터 이벤트를 수신한다. 그 후, 수신된 이벤트는 제어부(105)로 송신되며, 여기서는, 이벤트에 응답하여 음성 인식을 진행하는 것이 적절한지가 판정된다. 이러한 판정은 화상 관리 장치(101)의 이벤트 해석 데이터 테이블(108)에 기초하여 이루어진다. 판정의 결과는, 예컨대, 플래그로 유지된다. 이벤트 발행부(102)는 화상 관리 장치(101)의 내부에 제공된다.

도 3은 이벤트 해석 데이터 테이블의 일례를 나타낸다. 테이블(301)은 음성 인식이 개시될지를 나타내는 값과 함께 쌍을 이루어 이벤트 네임(event name)을 포함한다. 음성 인식을 개시하는 이벤트가 검출되는 경우(값 "예"), 음성 인식의 개시가 결정된다.

음성 인식의 개시가 결정되는 경우, 음성 주석 데이터 로딩부(106)는 음성 주석 데이터를 휴대형 촬상장치(103)로부터 화상 관리 장치(101)에 로딩시킨다.

로딩된 음성 주석 데이터는 음성 주석 데이터 인식부(110)에 송신되며, 여기서 기존의 음성 인식 기술을 사용하여 로딩된 음성 주석 데이터에 대한 음성 인식이 수행된다. 음성 인식의 결과는 음성 인식 결과 저장부(107)에 송신된다. 음성 주석 데이터 인식부(110)는 음성 인식 문법 및 음향 모델과 같은 음성 인식 데이터를 사용한다.

음성 인식 결과 저장부(107)는 텍스트 기반의 음성 인식 결과와 해당 화상과의 쌍을 형성하여, 화상/음성 인식 결과 데이터베이스(111)에 저장한다. 예컨대, 음성 인식의 결과는, 화상 데이터 파일 내부의 코멘트 영역에 저장될 수도 있으며, 또는 동일한 네임으로 화상 데이터 파일과는 상이한 확장자를 사용하여 파일내에 저장될 수도 있다. 대안으로서, 이미지 데이터의 파일네임들은 음성 인식의 결과에 응답하여 변경될 수도 있다.

도 2는 화상 관리 장치(101)의 주요 플로우을 나타낸다. 화상 관리 장치(101)가 시작될 때, 플로우를 시작한다. 먼저, 프로그램 종료 이벤트가 검출되는지가 판정된다(S201). 본 처리는 종료 이벤트가 검출되면, 종료된다.

종료 이벤트가 검출되지 않으면, 도 3의 이벤트 해석 데이터 테이블에 기초하여 음성 인식을 개시하는 이벤트가 검출되는지가 판정된다(S202). 음성 인식을 개시하는 이벤트가 검출되지 않으면, 후속의 처리를 수행하지 않고 플로우의 최상단으로 복귀한다. 음성 인식을 개시하는 이벤트가 검출되면, 음성 주석 데이터가 촬상 장치로부터 로딩된다(S203).

로딩된 음성 주석 데이터는 음성 인식을 거친다(S204). 따라서, 유저로부터의 특정의 지시를 요구하지 않고, 음성인식의 처리가 자동적으로 수행될 수 있다. 음성 인식의 처리는, 공지의 기술이므로, 여기서 상세하게 설명하지는 않는다. 텍스트 기반의 음성 인식 결과는 촬상장치로부터의 화상과 함께 화상 관리 장치(101)내의 데이터베이스에 저장된다(S205).

전술한 처리를 종료함에 따라, 처리의 최상단으로 복귀하여, 이벤트의 체크를 다시 시작한다.

이에 의하여, 휴대형 촬상 장치에서 입력된 음성 주석 데이터의 음성 인식이 촬상 장치에 연결된 PC에서 수행되는 경우, 명시적 음성 인식 지시가 아닌, 화상 업로드 지시와 같은 이벤트에 의해 음성 인식이 트리거된다.

<제2 실시예>

이하, 화상 관리 장치를 포함하는 화상 검색 시스템의 일례를 설명한다. 도 4는 본 발명에서 사용되는 휴대형 촬상장치의 일례를 나타낸다.

유저는, 디지털 카메라 또는 카메라 장착 휴대폰 등의 휴대형 촬상장치를 이용하여 화상을 캡쳐한다. 휴대형 촬상장치(401)에는 화상 확인 화면(403)이 제공된다. 동작모드 스위치(405)는 촬영 모드와 화상 확인 화면(403)상에서 이전에 캡쳐된 화상들을 확인할 수 있는 화상 확인 모드 사이에서 스위칭이 가능하도록 한다.

화상 확인 모드에서, 유저는 음성 주석을 특정 화상에 부가할 수 있다. 예컨대, 화상 확인 스크린(403)상에 표시된 의도하는 화상과 함께, 유저는 음성 주석 부의 버튼(402)을 누름으로써 화상에 음성 주석을 부가할 수도 있다. 구체적으로는, 버튼을 누름으로써 마이크로폰(404)을 통해서 일정 기간동안의 음성을 캡쳐하기 시작한다. 그 후, 음성 데이터는 화상과 연관되어, 촬상장치내의 메모리에 저장된다.

예컨대, "hakone-no-yama"와 같은 음성 주석이 부가되는 것을 상정한다. 이러한 경우, 촬상장치는 음성 데이터를 해당 화상과 연관시켜 촬상장치내의 메모리에 저장한다.

도 5는 화상 업로드 시의 조작 유저 인터페이스(UI) 화면의 일례를 나타낸다. 휴대형 촬상장치가 PC에 접속되면, 화상 확인 다이얼로그(501)를 갖는 어플리 케이션이 기동된다. PC에 연결된 촬상장치내의 화상들은 화상 확인 다이얼로그(501)내에 섬네일(thumbnail)로 표시된다.

섬네일 화상들의 리스트에서, 업로드된 화상들(502) 및 업로드 대상의 화상들(503)이 상이하게 표시될 수도 있다. 예컨대, 도 5에 있어서, 업로드 된 화상들의 섬네일은 음영을 주어, 유저가 어느 화상들이 이미 업로드 되었는지를 식별하도록 한다. 또한, 음성 주석이 부가되는 화상의 섬네일은 특정 심볼로 마크될 수도 있다. 도 5에 있어서, 예컨대, 이러한 섬네일은 악보 심볼로 마크되어 있다.

유저는 업로드될 화상들을 선택하고, 업로드 지시 버튼(504)를 선택한다. 버튼을 선택함으로써, 촬상장치(401)내의 선택된 화상이 PC 내의 화상 데이터베이스에 업로드되도록 한다.

동시에, 이미지 업로드 지시 이벤트가 화상 관리 장치(101)에 발행된다. 도 3에서 데이터 테이블을 사용함으로써, 화상 업로드 지시 이벤트가 음성 인식의 시작으로 해석된다. 그 후, 해당 화상에 부가되는 음성 주석 데이터가 휴대형 촬상장치(401)에서 로딩되고, 음성 인식을 거치게 된다. 음성 인식의 결과는 파일내에 위치되어, 화상 관리 장치(101)의 데이터베이스내에 저장된다.

도 6은 이러한 파일의 일례를 나타낸다. 음성 인식 결과 파일(601)은 음성 주석 데이터 상에서 수행되는 음성 인식의 결과를 저장한다. 하나의 음성 인식 결과 파일이 음성 주석 데이터의 한 부분에서 생성된다.

음성 인식 엔진은 음성의 한 부분에 대한 인식 결과(음성 주석 데이터)로서 복수의 후보들을 출력할 수 있다. 음성 인식 결과 파일(601)에 있어서, 그 결과중 하나의 후보가 각각의 라인에 저장된다. 도 6의 예는, 인식 결과에 대하여 5개의 후보들의 출력을 나타내고 있다.

인식 결과의 각 후보는 3개의 필드를 포함한다. 음성인식 음소열(602) "string="으로 시작하는 필드는 음성 인식 결과의 음소열을 포함한다. 음성 인식 문법 타입(603)에 대하여, "type="으로 시작하는 필드는, 그 결과의 출력에 이용되는 언어 제어 정보(음성 인식 문법의 타입)를 포함한다. 이러한 예에 있어서, 음소 타이프라이터의 문법(type=typewriter) 및 일반적인 단어의 인식의 문법(type=isolatedword)의 두 개의 문법이 인식을 위해 사용된다. 스코어(604)에 대하여 "score="로 시작하는 마지막 필드는 그 인식 결과의 후보에 대한 스코어를 포함한다. 이러한 스코어는 음향적 우도(acoustic likelihood) 및 언어적 우도(linguistic likelihood)로부터 계산된다. 높은 스코어는 인식 결과중에서 높은 신뢰도를 갖는다는 것을 나타낸다.

이러한 음성 인식 결과 파일(601)은 화상 관리 장치(101)내의 화상/음성 인식 결과 데이터베이스(111)에 저장된다. 구체적으로는, 음성 인식 결과 파일(601)은 해당 화상 데이터와 동일한 파일네임으로, 그러나 확장자는 "va"로 변경되어, 화상 데이터와 동일한 폴더내에 저장된다.

도 7은 화상 관리 장치(101)내의 화상/음성 인식 결과 데이터베이스(111)를 이용하는 화상 검색의 처리를 나타낸다.

유저는 화상 검색 다이얼로그(701)내의 검색 문자열 입력 필드(702)에 검색 문자열을 입력하고, 검색 시작 버튼(703)을 선택한다. 검색 조회에 일치하는 화상 들을 발견하도록 검색이 수행된다. 검색된 화상들은 섬네일(704)의 리스트로 표시된다.

이러한 검색 처리의 플로우는 도 8에 도시되어 있다. 도 7의 검색 시작 버튼의 선택으로 본 플로우를 시작한다.

먼저, 검색 문자열 입력 필드(702)로부터 (일본어의 경우, 음소열 문자와 간지체 문자의 혼합으로 된) 검색 문자열이 판독된다(S801). 다음, 기존의 언어 처리 방법을 사용하여, 검색 문자열이 음소열로 변환되어(S802), 변수 A에 저장된다.

다음, 화상 관리 장치(101)내의 화상/음성 인식 결과 데이터베이스(111)로부터 하나의 음성 인식 결과 파일(601)이 취득된다. 여기서, 취득된 파일은 음성 인식 결과 파일 α로 명명된다 (S803).

그 후, 변수 C_max는 0으로 클리어 된다 (S804). 다음, 음성 인식 결과 파일 α로부터 음성 인식 후보를 취득한다. 도 6에 도시된 바와 같이, 음성 인식 결과 파일(601)내의 각 행에 대응하는 정보가 후보이다. 취득된 후보의 "string=" 이후의 음성 인식 음소열이 변수 B에 저장된다(S805).

다음, 변수 A 및 B 에 저장된 음소열 사이의 유사도가 계산된다(S806). 이는 기존의 동적 프로그래밍 방법을 사용하여 구현될 수 있다. 계산된 유사도 값은 변수 C에 저장된다.

저장된 변수 C는 C_max(S807)와 비교된다. C가 C_max 보다 크다면, C_max는 C로 갱신 된다(S808).

전술한 처리는 음성 인식 결과 파일 α내의 모든 음성 인식 후보들에 대하여 수행된다. 모든 인식 후보들에 대하여 처리를 수행한 후(S809), C_max 가 음성 인식 결과 파일 α에 대한 스코어로 결정된다 (S810).

전술한 처리는 화상/음성 인식 결과 데이터베이스(111)내의 모든 음성 인식 결과 파일들에 대하여 구현된다. 모든 음성 인식 결과 파일들에 대한 처리가 완료되면(S811), 각 파일에 대하여 계산된 스코어에 의해 파일들이 소팅된다. 최상위의 N 개의 화상들이 유저에게 제공되며(S812), 플로우는 여기서 종료된다.

이에 따라서, 화상 관리 장치내의 화상들은 텍스트 데이터를 사용하여 검색될 수 있다.

<제3 실시예>

전술한 실시예들에 있어서, 화상 업로드 지시 이벤트는 음성 인식을 개시하는 이벤트로서 기능한다. 음성 인식은 또한 기타의 이벤트에 의해서도 개시될 수 있다. 예로서는, 화상 관리 장치(101)와 휴대형 촬상장치(401) 사이에 접속이 설정될 때 발행되는 "접속 이벤트"를 포함한다. 이러한 경우 화상 업로드 지시 이벤트를 발행하지 않고 음성 인식이 개시되므로, 소수의 프로세스에서만 의도하는 동작이 성취될 수 있다.

또한, 일례로서는, 특정 어플리케이션이 기동될 때 발행되는 "기동 이벤트", 및 화상 검색창이 열릴 때 발행되는 "검색창 오픈 이벤트"를 포함한다. 따라서, 음성 인식의 결과는 실제로 필요한 때에 취해질 수 있다.

또 다른 예로서는, 도 5에 도시된 바와 같이, 섬네일 화상이 마우스로 선택되는 때에 발행되는 "마우스클릭 이벤트"; "마우스오버" 이벤트"; 및 화상 편집 툴 로 특정 화상을 편집한 후 발행되는 "화상편집 이벤트"를 포함한다. 이러한 예들은, 실제로 유저가 흥미를 갖는 화상들에 부가된 음성 데이터상에만 음성 인식을 수행하도록 된다. 여기서, 필요한 데이터가 신뢰성있게 처리되고, 필요치 않는 데이터는 처리되지 않고 남아 있게 되다는 것이 장점이다.

특정 간격으로 발행되는 "타이머 이벤트(timer event)" 또한 사용될 수 있다. 이것은 유저에게 스케쥴 기능을 제공한다.

<제4 실시예>

전술한 실시예들에 있어서는, 수신된 특정 이벤트들에 의해서만 음성 인식의 개시가 판단된다. 그러나, 화상 관리 장치(101)내의 기타의 정보와의 결합에 기초하여 판단될 수도 있다. 예컨대, 도 9에 도시된 바와 같이, 이벤트 해석 데이터 테이블(901)내에 기술된 조건식에 기초하여 판단이 이루어질 수도 있다.

도 9에 도시된 예에 있어서, 음성 인식 결과 파일(601)이 화상/음성 인식 결과 데이터베이스(111)에 저장되는지에 대한 정보는 타이머 이벤트에 기초한 판단에 통합된다. 이러한 경우, 특정의 타이머 이벤트(예컨대, 10분 마다)가 발행되고, 음성 인식 결과 파일(601)이 아직 생성되지 않은 음성 데이터에서만 음성 인식을 수행하도록 화상/음성 인식 결과 데이터베이스(111)가 검색된다.

또한, 다양한 유형의 음성 인식 데이터가 음성 인식에 사용되어야 하는 이러한 데이터의 유형이 이벤트의 유형에 따라 변경될 수 있도록 저장된다. 예컨대, 비교적 신속한 처리를 요하는 "마우스클릭 이벤트" 및 "화상편집 이벤트"의 경우에는, 고속의 음성 인식을 허용하는 음성 인식 데이터가 정확도를 희생하더라도 사용 된다. 반면, 화상-업로드 지시 이벤트 및 타이머 이벤트에 있어서는, 정확한 음성 인식을 허용하는 음성 인식 데이터가 속도를 희생하더라도 사용된다.

본 발명에서, 컴퓨터(또는 CPU 또는 MPU), 즉 시스템 또는 장치가 기억 매체에 기록된 프로그램 코드를 판독하고 실행할 수 있도록, 전술한 실시예들의 기능들을 수행하는 소프트웨어 프로그램이 기록된 기억 매체가 시스템 또는 장치에 제공될 수도 있다.

이러한 경우, 기억 매체로부터 판독된 프로그램 코드는, 이러한 프로그램 코드를 기록한 기억 매체가 본 발명을 구성하도록, 전술한 실시예들의 기능을 수행한다.

프로그램 코드를 제공하는 기억 매체는, 예컨대, 플로피 디스크, 하드 디스크, 광 디스크, 광자기(MO: Magneto-optic) 디스크, CD-ROM, CD-R, 자기 테이프, 비휘발성 메모리 카드, 및 ROM 일 수도 있다.

전술한 실시예들의 기능들은 프로그램 코드를 판독하고 실행하는 컴퓨터에서만 수행되는 것이 아니라, 프로그램 코드의 지시에 따라 실제 처리의 부분 또는 전체를 실행하는 컴퓨터 상에서 동작하는 운영체제(OS)에 의해 수행될 수도 있다.

전술한 실시예들의 기능들은, 기억 매체로부터 판독된 프로그램 코드가 컴퓨터에 접속된 확장 유닛에 기입되거나, 컴퓨터내의 기능 확장 보드의 메모리에 기입된 후에, 기능 확장 보드 또는 확장 유닛에 포함된 CPU 등에 의해 수행되어, 프로그램 코드의 지시에 따라 실제 처리의 일부 또는 전체를 실행할 수도 있다.

실시예들을 참조하여 본 발명이 설명되었지만, 본 발명은 개시된 실시예들에 한하지 않는다. 반면, 본 발명은 첨부된 청구범위의 개념과 범주내에 포함되는 다양한 변형예와 균등 구성을 포괄하고자 한 것이다. 이하의 청구범위의 범주는 이러한 변형예 및 균등의 구성 및 기능들을 포괄하도록 최광의로 해석되어야 한다.

본 발명의 의하면, 휴대형 촬상장치에 입력된 음성 주석 데이터에 대하여 접속 목적지인 PC 에서 음성 인식처리를 행하는 경우, 화상의 업로드 지시와 같은 명시적 음성 인식 지시가 아닌 이벤트를 트리거로 하여 음성 인식을 수행할 수가 있다.

Claims

삭제
정보처리장치로서,

화상에 관련된 음성 정보를 취득하는 취득 수단;

이벤트를 검출하는 검출 수단;

상기 검출 수단에 의해 검출된 이벤트가 음성 인식 지시 이벤트(event)인지를 판정하는 판정 수단;

상기 판정 수단에 의해 판정된 이벤트가 음성 인식 지시 이벤트가 아닌 경우에도, 특정 이벤트에 응답하여 음성 정보에 대한 음성 인식을 수행하는 음성 인식 수단; 및

상기 음성 인식 수단에 의해 취득된 음성 인식 결과와 상기 화상을 연관시켜 저장하는 기억 수단

을 포함하며,

상기 이벤트는 화상이 업로드될 때 발행되는 이벤트, 상기 정보처리장치와 촬상장치 사이에 접속이 설정될 때 발행되는 이벤트, 특정 간격으로 발행되는 이벤트, 프로그램이 기동될 때 발행되는 이벤트, 특정 다이얼로그가 기동될 때 발행되는 이벤트, 특정 섬네일(thumbnail) 화상의 선택, 또는 화상을 편집한 후에 발행되는 이벤트 중의 하나 또는 그 조합인 정보처리장치.
제2항에 있어서,

상기 음성 인식 지시 이벤트는 유저의 지시에 기초하는 정보처리장치.
제2항에 있어서,

상기 판정 수단은 각 이벤트가 음성 인식을 개시하기 위한 트리거 이벤트인지를 나타내는 테이블을 참조하여 판정하는 정보처리장치.
삭제
삭제
정보처리장치에서 구현되는 정보처리방법으로서,

화상에 관련된 음성 정보를 취득하는 단계;

이벤트를 검출하는 단계;

검출된 이벤트가 음성 인식 지시 이벤트인지를 판정하는 단계;

상기 판정된 이벤트가 음성 인식 지시 이벤트가 아닌 경우에도, 특정 이벤트에 응답하여 음성 정보에 대한 음성 인식을 수행하는 단계; 및

음성 인식 결과를 상기 화상과 연관시켜 저장하는 단계

를 포함하며,

상기 이벤트는 화상이 업로드 될 때 발행되는 이벤트, 상기 정보처리장치와 촬상장치 사이에 접속이 설정될 때 발행되는 이벤트, 특정 간격으로 발행되는 이벤트, 프로그램이 기동될 때 발행되는 이벤트, 특정 다이얼로그가 기동될 때 발행되는 이벤트, 특정 섬네일 화상의 선택, 또는 화상을 편집한 후 발행되는 이벤트 중 하나 또는 그 조합인 정보처리방법.
제7항에 있어서,

상기 음성 인식 지시 이벤트는 유저의 지시에 기초하는 정보처리방법.
제7항에 있어서,

상기 판정은 각 이벤트가 음성 인식을 개시하기 위한 트리거 이벤트인지를 나타내는 테이블을 참조하여 이루어지는 정보처리방법.
삭제
삭제
제7항의 정보처리방법을 컴퓨터가 실행하도록 하는 처리수순을 기록한 컴퓨터 판독가능 기억 매체.