WO2011016322A1

WO2011016322A1 - 撮像装置、編集装置および撮像システム

Info

Publication number: WO2011016322A1
Application number: PCT/JP2010/061916
Authority: WO
Inventors: 明広窪田
Original assignee: オリンパス株式会社
Priority date: 2009-08-04
Filing date: 2010-07-14
Publication date: 2011-02-10
Also published as: JP2011035771A

Abstract

　液晶パネルやファインダの表示を用いることなく所望の構図の画像を容易にかつ確実に得ることができる撮像装置等を提供する。撮像装置は、所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、を備え、前記撮像手段は、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含む画像を撮影する。

Description

撮像装置、編集装置および撮像システム

　本発明は、画像を撮像する撮像装置、撮像装置が撮影した画像を編集する編集装置、および撮像装置と編集装置とを備えた撮像システムに関する。

　近年、デジタルカメラやビデオカメラ等の撮像装置では、最適な構図を自動的に設定するための様々な技術が開示されている。例えば、人物の顔検出を行うことによって集合した全員の顔が入るような構図にする技術が知られている（例えば、特許文献１を参照）。また、撮像装置が構図を認識し、被写体が小さい場合にはズームアップしたり、被写体が傾いている場合には画像処理によって修正する技術が知られている（例えば、特許文献２を参照）。また、黄金分割の構図に基づくように被写体を画面に配置したり、被写体が串刺しになっている場合に撮像装置を移動して串刺しを解消する技術が知られている（例えば、特許文献３を参照）。

特開２００８－２２７９１８号公報特開２００８－２１９４５０号公報特開２００６－１９１５２４号公報

　しかしながら、最適な構図というのは撮影者の主観による部分も大きいため、上述した従来技術を用いて撮影した画像が撮影者にとって常に最適な構図であるとは限らなかった。

　また、上述した従来技術では、撮影者が構図を決定する際にファインダで表示される画像を見て行うことが多いが、撮影経験が少ない撮影者の場合には、ファインダを見ながら構図を決定すること自体が技術的に難しかった。

　本発明は、上記に鑑みてなされたものであって、ファインダの表示を用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる撮像装置、編集装置および撮像システムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る撮像装置は、所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、を備え、前記撮像手段は、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含む画像を撮影することを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記光学系は焦点距離可変のズームレンズを有し、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように前記光学系の画角を調整する画角調整手段をさらに備えたことを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記オブジェクト認識手段は、前記オブジェクト選択手段によってオブジェクトが選択入力されるまで、前記光学系の焦点距離をテレ側からワイド側に間欠的に移動しながら各焦点距離でオブジェクトの認識を行うことを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記光学系は単焦点レンズを有し、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように前記撮像手段が撮影した画像のトリミングを行うトリミング手段をさらに備えたことを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記オブジェクト認識手段は、前記オブジェクト選択手段によってオブジェクトが選択入力されるまで、認識対象の領域を中心部から外周部へ間欠的に広げながら、各領域でオブジェクトの認識を行うことを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記オブジェクト選択手段は、外部からの入力される音声に応じてオブジェクトが選択入力される音声入力手段を有することを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記オブジェクト選択手段は、外部からの押圧によってオブジェクトが選択入力される入力ボタンを有することを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記入力ボタンは撮影指示信号が入力されるレリーズボタンであり、該レリーズボタンが半押しされた場合にオブジェクトが選択入力されることを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、当該撮像装置の動きを検出する動き検出手段をさらに備え、前記動き検出手段が当該撮像装置の動きを検出した時、当該撮像装置が実行中の処理を中断することを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、撮影シーンに応じたシーン別撮影モードを設定可能であり、前記オブジェクト認識手段は、設定された前記シーン別撮影モードに応じて定められるオブジェクトのみを認識対象とすることを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記シーン別撮影モードとして、人物の顔を撮影するポートレードモードを設定可能であり、前記オブジェクト認識手段は、前記シーン別撮影モードが前記ポートレートモードに設定されている場合、人物の顔のみを認識対象とすることを特徴とする。

　また、本発明に係る撮像装置は、上記発明において、前記音声出力手段は、前記オブジェクト認識手段が同じ名称を有する複数のオブジェクトを認識した場合、該複数のオブジェクトの名称とともに各オブジェクトを識別可能な２次情報を音声出力することを特徴とする。

　また、本発明に係る編集装置は、撮像装置が撮影した画像を編集する編集装置であって、所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、を備えた撮像装置が撮影した画像に対して、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むようにトリミングを行うトリミング手段を備えたことを特徴とする。

　また、本発明に係る撮像システムは、画像を撮像して該画像の電子的な画像データを生成する撮像装置と、前記撮像装置と前記画像データを含む情報の通信を行うことが可能であり、前記画像データに対応する画像を編集する編集装置とからなる撮像システムであって、前記撮像装置は、所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、前記編集装置と前記画像データを含む情報の送受信を行う第１通信手段と、を備え、前記編集装置は、前記撮像装置と前記画像データを含む情報の送受信を行う第２通信手段と、前記第２通信手段が受信した前記画像データに対し、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように画像のトリミングを行うトリミング手段と、を備えたことを特徴とする。

　本発明によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。

図１は、本発明の実施の形態１に係る撮像装置の構成を示すブロック図である。図２は、本発明の実施の形態１に係る撮像装置の外観構成を示す斜視図である。図３は、本発明の実施の形態１に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図４は、本発明の実施の形態１に係る撮像装置が視野領域のオブジェクトを音声出力する状況を模式的に示す図である。図５は、本発明の実施の形態１に係る撮像装置に撮影者が撮影対象のオブジェクトを音声によって選択入力する状況を模式的に示す図である。図６は、本発明の実施の形態１の変形例に係る撮像装置が参照するシーン別撮影モードと認識対象オブジェクトとの関係を示す図である。図７は、本発明の実施の形態２に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図８は、本発明の実施の形態２に係る撮像装置が行うオブジェクト認識処理の概要を示す図である。図９は、本発明の実施の形態３に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図１０は、本発明の実施の形態３に係る撮像装置がオブジェクトの認識処理を行う小領域の設定例を示す図である。図１１は、本発明の実施の形態４に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図１２は、本発明の実施の形態４に係る撮像装置が視野領域のオブジェクトを音声出力する状況を模式的に示す図である。図１３は、本発明の実施の形態５に係る撮像システムの構成を示すブロック図である。図１４は、本発明の実施の形態５に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図１５は、本発明の実施の形態５に係る編集装置が行う画像の編集処理の概要を示すフローチャートである。図１６は、本発明の実施の形態６に係る撮像装置の構成を示すブロック図である。図１７は、本発明の実施の形態６に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。

　以下、添付図面を参照して、本発明を実施するための形態（以下、「実施の形態」という）を説明する。

（実施の形態１）
　図１は、本発明の実施の形態１に係る撮像装置の構成を示すブロック図である。また、図２は、本実施の形態１に係る撮像装置の外観構成を示す斜視図である。これらの図に示す撮像装置１は、所定の視野領域の画像を撮像して該画像に対応するデジタルの画像信号を出力する撮像部２と、撮像部２が生成した画像信号を一時的に保管するメモリ３と、メモリ３に保管された画像信号に画像処理を施すことによって画像データを生成する画像処理部４と、撮像装置１の表面に設けられた各種スイッチまたはボタンからなり、撮像装置１の操作信号等の入力を受け付ける入力部５と、画像処理部４が生成した画像データに対応する画像の所定領域に含まれるオブジェクトの名称を音声出力する音声出力部６と、外部からの音声の入力を受け付ける音声入力部７と、画像データを含む各種情報を記憶する記憶部８と、撮像装置１の動作を全体的に統括して制御する制御部９と、を備える。これらの構成部位は、システムバスを介して相互に接続している。

　撮像部２は、一または複数のレンズからなる光学系と、シャッタと、絞りと、撮像素子とを有する。光学系は、焦点距離可変のズームレンズを有し、撮像素子の撮像面上に被写体像を結像する。また、撮像素子は、ＣＣＤ（Charge　Coupled　Device）またはＣＭＯＳ（Complementary　Metal　Oxide　Semiconductor）を用いて実現され、光学系が結像した被写体像をデジタルの画像信号に変換して出力する。

　メモリ３は、例えばＤＲＡＭ（Dynamic　Random　Access　Memory）を用いて実現される。このようにＤＲＡＭを用いることにより、メモリ３の書き込み速度および読み出し速度を速くすることができる。

　画像処理部４は、特定用途向けの集積回路（ＡＳＩＣ）等を用いて実現され、メモリ３から読み出した画像信号に同時化（デモザイク処理）、ホワイトバランス調整、階調補正、レベル補正、アンシャープマスク、シェーディング補正等の処理を施すことによって画像データを生成する。

　入力部５は、レリーズ信号を入力するレリーズボタン５１と、撮像装置１の電源ボタン５２と、撮像装置１で設定可能な各種動作モードの切替を行うモード切替スイッチ５３とを有する。

　音声出力部６は、音声データをＤ／Ａ変換して出力するＤ／Ａ変換器と、Ｄ／Ａ変換器が変換したアナログ音声信号を出力するスピーカとを有する。なお、スピーカをイヤホン端子によって実現してもよい。スピーカをイヤホン端子によって実現する場合、撮影者はそのイヤホン端子にイヤホンやヘッドホンを装着によって音声出力部６が出力する音声を聞くこともできる。

　音声入力部７は、外部から入力される音声を集音するマイクと、マイクが集音した音声をＡ／Ｄ変換して音声認識部へ出力するＡ／Ｄ変換器とを有する。音声入力部７は、音声出力部６が出力したオブジェクトの名称のうち、撮影者が撮影対象として所望するオブジェクトの音声入力を受け付ける。この意味で、音声入力部７は、音声出力手段（音声出力部６）が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段の少なくとも一部の機能を有する。

　記憶部８は、画像処理部４が生成した画像データを記憶する画像データ記憶部８１と、画像認識用の基本画像データを記憶する基本画像データ記憶部８２とを有する。画像データ記憶部８１が記憶する画像データは、必要に応じてＪＰＥＧ圧縮されている。画像データには、撮影を行う際に撮影者が音声入力部７を介して入力したオブジェクトの名称の音声データが含まれる。基本画像データ記憶部８２は、基本画像として人、花、木、動物、山、海等の画像を記憶するとともに、各画像に対応する音声を記憶する。なお、基本画像データは、ＳＶＭ（サポートベクターマシン）、カーネル判別分析、ニューラルネット、部分空間法またはアンサンブル学習等の学習型の対象物認識アルゴリズムを用いて生成することが望ましい。

　記憶部８は、フラッシュメモリ等の記憶媒体を用いて実現される。このような記憶媒体は、撮像装置１に内蔵されるものであってもよいし、撮像装置１に対して着脱自在に構成されるものであってもよい。

　制御部９は、画像処理部４が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識部９１と、音声入力部７から入力された音声データに含まれる音声を認識する音声認識部９２と、音声認識部９２が認識した音声によって特定されるオブジェクトを全て含むように光学系の画角を調整する画角調整部９３と、を有する。オブジェクト認識部９１は、画像に含まれる被写体の中で基本画像データ記憶部８２が記憶する基本画像との相関度が所定値より高い被写体をオブジェクトとして抽出し、この抽出したオブジェクトの名称の音声データを音声出力部６へ出力する。音声認識部９２は、音声入力部７から入力された音声データを画像データに含まれる音声データと比較することによって音声認識を行う。制御部９は、ＣＰＵ（Central　Processing　Unit）を用いて実現される。

　以上の構成を有する撮像装置１は、撮影モードとして、通常撮影モードに加え、音声入力部７によって名称が入力されたオブジェクトを全て含むように自動的にフレーミングを行って撮影する自動フレーミング撮影モードを設定することができる。

　図３は、撮像装置１が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図３において、撮像装置１は、まずピント調整を行う（ステップＳ１）。撮像装置１と撮影レンズの視野領域に含まれる複数の被写体との距離にバラツキがある場合、すなわち複数の被写体がカメラの近くから遠くまで存在している場合、全ての被写体に同時にピントを合わせるには光学系の被写界深度を深くする必要がある。被写界深度を深くするためには光学系の絞りを絞ればよいが、絞りを絞ると取り込むことができる光量が減少するので、撮像素子のＩＳＯ感度を上げることによって撮像した画像の画像信号を電気的に増幅することが望ましい。なお、このステップＳ１におけるズームの初期位置は任意である。

　続いて、撮像部２、メモリ３および画像処理部４によって画像を取り込み、画像データを生成する（ステップＳ２）。

　この後、オブジェクト認識部９１が、画像データに含まれるオブジェクトを抽出し（ステップＳ３）、抽出したオブジェクトを基本画像と比較することによってオブジェクトの認識を行う（ステップＳ４）。オブジェクト認識部９１は、認識したオブジェクトの名称に対応する音声データを音声出力部６へ出力する。オブジェクト認識部９１から音声データを受信した音声出力部６は、音声データに含まれるオブジェクトの名称を出力する（ステップＳ５）。図４は、ステップＳ５の処理を模式的に示す図である。図４に示す場合、音声出力部６は、視野領域Ｖ内にあるオブジェクトとして「二人、バス、木、牛、家、山」という名称を音声出力する。

　ステップＳ５でオブジェクトの名称が音声出力されると、撮影者はその中で撮影したいオブジェクトを選択し、選択したオブジェクトの名称を音声入力部７から音声によって入力する。撮像装置１では、音声出力部６がオブジェクトの名称を出力してから所定時間以内に撮影者から所望のオブジェクトを選択する音声入力された場合（ステップＳ６：Ｙｅｓ）、画角調整部９３が、音声入力部７によって入力された全てのオブジェクトを含むように画角を調整する（ステップＳ７）。図５は、撮影者によって「二人、バス」が指定された場合の撮像装置１の視野領域Ｖ₁の設定例を模式的に示す図である。

　画角調整部９３による画角の調整が完了した後、撮像装置１は、音声出力部６から撮影可能状態にあることを報知するメッセージ（例えば、「撮影できます。」というメッセージ）を出力する（ステップＳ８）。

　撮影可能メッセージを出力してから所定時間以内にレリーズボタン５１が押された場合（ステップＳ９：Ｙｅｓ）、撮像装置１は自動露出（ＡＥ）、オートフォーカス（ＡＦ）、オートホワイトバランス（ＡＷＢ）等の処理を行うことによって画像を撮影し、画像データを生成する（ステップＳ１０）。続いて、撮像装置１は、生成した撮影画像の画像データを画像データ記憶部８１へ記録する（ステップＳ１１）。

　ステップＳ１１の後、入力部５によって撮影を終了する信号が入力された場合（ステップＳ１２：Ｙｅｓ）、撮像装置１は一連の処理を終了する。一方、入力部５によって撮影を終了する信号が入力されない場合（ステップＳ１２：Ｎｏ）、撮像装置１はステップＳ１に戻る。

　ステップＳ９において、撮影可能メッセージを出力してから所定時間以内にレリーズボタン５１が押されなかった場合（ステップＳ９：Ｎｏ）、撮像装置１はステップＳ１２へ移行する。

　次に、音声出力部６がオブジェクトの名称を出力してから所定時間以内に撮影者から所望のオブジェクトを選択する音声入力がない場合（ステップＳ６：Ｎｏ）を説明する。この場合、音声出力部６は、音声入力を促すメッセージ（例えば、「撮影するオブジェクトの名称を音声入力してください。」というメッセージ）を出力する（ステップＳ１３）。その後、入力部５によって撮影を終了する信号が入力された場合（ステップＳ１４：Ｙｅｓ）、撮像装置１は一連の処理を終了する。一方、入力部５によって撮影を終了する信号が入力されない場合（ステップＳ１４：Ｎｏ）、撮像装置１はステップＳ６に戻る。

　以上説明した本発明の実施の形態１によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。

　また、本実施の形態１によれば、撮影者は撮影対象とするオブジェクトの名称を音声入力するだけで構図を決定することができるため、撮影に不慣れな撮影者や目の不自由な撮影者であっても所望の構図を容易に決定することができる。

（実施の形態１の変形例）
　本実施の形態１の変形例は、撮影シーン別に認識対象オブジェクトを変更することを特徴とする。本変形例において、撮像装置１では撮影シーンに応じたシーン別撮影モードを設定することができる。図６は、シーン別撮影モードと認識対象オブジェクトとの関係を示す図である。図６において、例えばシーン別撮影モードがポートレートモードに設定されている場合、オブジェクト認識部９１が認識対象とすべきオブジェクトは「人物」である。また、シーン別撮影モードが風景モードに設定されている場合、オブジェクト認識部９１が認識対象とすべきオブジェクトは「人物以外」である。

　より具体的な例を説明する。撮像装置１がポートレートモードに設定された状態で図４に示す視野領域Ｖを撮像している場合、オブジェクト認識部９１は「人物」のみを認識対象とするため、音声出力部６は「二人」のみを音声出力する。また、撮像装置１が風景モードに設定された状態で図４に示す視野領域Ｖを撮像している場合、オブジェクト認識部９１は「人物以外」を認識対象とするため、音声出力部６は「バス、木、牛、家、山」を音声出力する。

　このような本実施の形態１の変形例によれば、上記実施の形態１と同様の効果に加え、シーン別撮影モードに応じたオブジェクトのみを認識してその名称を音声出力するため、撮影者は撮影目的に合致しないオブジェクトの名称を聞かないで済む。したがって、オブジェクトの選択入力が容易となり、撮影者が所望する構図を的確に得ることができる。

（実施の形態２）
　図７は、本発明の実施の形態２に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態２に係る撮像装置の構成は、上述した撮像装置１の構成と同じである。以下の説明において、撮像部２が有する撮影レンズの焦点距離を、３５ｍｍカメラ換算で３５～１０５ｍｍとする。なお、以下に記載する焦点距離は、全て３５ｍｍカメラ換算値である。

　図７において、撮像装置１は、まず撮像部２が有する光学系の焦点距離をテレ端（焦点距離１０５ｍｍ）に設定する（ステップＳ２１）。ステップＳ２１に続くステップＳ２２～Ｓ２５の処理は、図３のステップＳ２～ステップＳ５の処理に順次対応している。なお、撮像装置１に動きを検出する加速度センサや角速度センサ等の動き検出手段を設けておき、ステップＳ２２～Ｓ２５を行う間に撮像装置１が移動した場合には、処理を中断してステップＳ２１に戻るようにしてもよい。

　図８は、撮像装置１が行うオブジェクト認識処理の概要を示す図である。図８では、焦点距離がテレ端である場合の視野領域をＶ_tとしている。視野領域Ｖ_tにおいて、ステップＳ２５で音声出力部６が出力するオブジェクトの名称は「二人、バス」である。

　音声出力部６がオブジェクトの名称を音声出力してから所定時間以内に撮影者からオブジェクトを選択する音声入力があった場合（ステップＳ２６：Ｙｅｓ）、画角調整部９３は、音声入力部７によって入力された全てのオブジェクトを含むように画角を調整する（ステップＳ２７）。この後のステップＳ２８～Ｓ３２の処理は、上述したステップＳ８～Ｓ１２の処理に順次対応している。

　次に、所定時間以内に撮影者からオブジェクトを指定する音声入力がなかった場合（ステップＳ２６：Ｎｏ）を説明する。この場合、光学系の焦点距離がワイド端（焦点距離３５ｍｍ）であれば（ステップＳ３３：Ｙｅｓ）、音声出力部６は警告メッセージ（例えば、「これ以上オブジェクトは増えませんので、撮影するオブジェクトの名称を音声入力してください。」というメッセージ）を出力する（ステップＳ３４）。その後、入力部５によって撮影を終了する信号が入力された場合（ステップＳ３５：Ｙｅｓ）、撮像装置１は一連の処理を終了する。一方、入力部５によって撮影を終了する信号が入力されない場合（ステップＳ３５：Ｎｏ）、撮像装置１はステップＳ２６に戻る。ステップＳ３３において、光学系の焦点距離がワイド端でなければ（ステップＳ３３：Ｎｏ）、制御部９は、光学系の焦点距離を一段階ワイド側に設定し（ステップＳ３６）、ステップＳ２２に戻る。

　図８に示す場合、テレ端に相当する視野領域Ｖ_tとワイド端に相当する視野領域Ｖ_w以外に、テレ端の焦点距離とワイド端の焦点距離との間の焦点距離（例えば５０ｍｍ程度）を有する視野領域Ｖ_ｍが存在する。すなわち、図８に示す場合には、撮像装置１が光学系の焦点距離を間欠的に三段階変化させることができる。視野領域Ｖ_ｍにおいて音声出力部６が出力するオブジェクトの名称は「二人、バス、木」であり、視野領域Ｖ_wにおいて音声出力部６が出力するオブジェクトの名称は「二人、バス、木、山、牛、家」である。

　以上説明した本発明の実施の形態２によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。

　また、本実施の形態２によれば、撮影対象のオブジェクトが音声入力されるまで、光学系の焦点距離をテレ端からワイド端に間欠的に多段階で変化させていくため、音声出力部が出力するオブジェクトの数は、段階を経るごとに徐々に増加していく。この結果、撮影者は、最初から多くのオブジェクトの名称を聞かずに済むため、視野領域に含まれるオブジェクトを覚えやすい。したがって、撮影対象とするオブジェクトの選択を的確に行うことができる。

（実施の形態３）
　図９は、本発明の実施の形態３に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態３に係る撮像装置の構成は、上述した撮像装置１の構成と同じである。

　図９において、ステップＳ４１～Ｓ４４の処理は、図３のステップＳ１～Ｓ４の処理に順次対応している。ただし、ステップＳ４４におけるオブジェクトの認識処理では、オブジェクトの位置情報も認識する。具体的には、オブジェクト認識部９１は、図１０に示す矩形状の小領域Ｄ₁～Ｄ₅にそれぞれ含まれるか否かを判定し、この判定結果を画像データの一部として画像データ記憶部８１へ記録する。例えば、バスは全ての小領域Ｄ₁～Ｄ₅に含まれるが、山は小領域Ｄ₅にのみ含まれる。図１０に示す場合、小領域Ｄ_mの面積は、画面全体の面積の２０ｍ％である。

　ステップＳ４４に続いて、撮像装置１は、小領域Ｄ_mを識別するカウンタｍを１とし（ステップＳ４５）、小領域Ｄ_mに含まれるオブジェクトの名称を音声出力部６によって出力する（ステップＳ４６）。例えば、小領域Ｄ₁の場合、音声出力部６は「二人、バス」という音声を出力する。

　ステップＳ４６でオブジェクトの名称を出力してから所定時間以内に撮影者から所望のオブジェクトを指定する音声入力があった場合（ステップＳ４７：Ｙｅｓ）、画角調整部９３は、音声入力部７によって入力された全てのオブジェクトを含むように画角を調整する（ステップＳ４８）。画角調整部９３による画角の調整が完了した後、音声出力部６は、撮影可能状態にあることを報知するメッセージを出力する（ステップＳ４９）。

　撮影可能メッセージを出力してから所定時間以内にレリーズボタン５１が押されれば（ステップＳ５０：Ｙｅｓ）、撮像装置１は画像の撮影を行い、画像データを生成する（ステップＳ５１）。続いて、撮像装置１は、生成した撮影画像の画像データを画像データ記憶部８１へ記録する（ステップＳ５２）。

　その後、入力部５によって撮影を終了する信号が入力された場合（ステップＳ５３：Ｙｅｓ）、撮像装置１は一連の処理を終了する。一方、入力部５によって撮影を終了する信号が入力されない場合（ステップＳ５３：Ｎｏ）、撮像装置１はステップＳ４１に戻る。

　次に、ステップＳ４７において、所定時間以内に撮影者からオブジェクトを指定する音声入力がなかった場合（ステップＳ４７：Ｎｏ）を説明する。この場合、カウンタｍが最大値Ｍ（図９の場合にはＭ＝５）と等しければ（ステップＳ５４：Ｙｅｓ）、音声出力部６から警告メッセージを出力する（ステップＳ５５）。ここでの警告メッセージは、図７のステップＳ３４における警告メッセージと同様である。

　その後、入力部５によって撮影を終了する信号が入力された場合（ステップＳ５６：Ｙｅｓ）、撮像装置１は一連の処理を終了する一方、入力部５によって撮影を終了する信号が入力されなかった場合（ステップＳ５６：Ｎｏ）、撮像装置１はステップＳ４７に戻る。ステップＳ４７に戻った場合、撮像装置１は、警告メッセージを出力してから所定時間以内にオブジェクトを指定する音声入力があるか否かを判定する。

　ステップＳ５４において、カウンタｍが最大値Ｍと等しくなければ（ステップＳ５４：Ｎｏ）、カウンタｍの値を１増やし（ステップＳ５７）、ステップＳ４６へ戻る。

　以上説明した本発明の実施の形態３によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。

　また、本実施の形態３によれば、撮像した画像の中心から間欠的に広がっていく複数の小領域を設け、面積が小さい小領域からオブジェクトの認識を行うため、音声出力部が出力するオブジェクトの数は、小領域の面積が大きくなるにつれて徐々に増加していく。この結果、撮影者は最初から多くのオブジェクトの名称を聞かずに済むため、小領域に含まれるオブジェクトの名称を覚えやすい。したがって、撮影対象とするオブジェクトの選択を的確に行うことができる。

（実施の形態４）
　図１１は、本発明の実施の形態４に係る撮像装置が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。なお、本実施の形態４に係る撮像装置の構成は、上述した撮像装置１の構成と同じである。

　図１１において、ステップＳ６１～Ｓ６４の処理は、図３のステップＳ１～Ｓ４の処理に順次対応している。この後、認識したオブジェクトの中で同じ名称のオブジェクトが複数ある場合（ステップＳ６５：Ｙｅｓ）、同一名称のオブジェクトについては名称に加えて各オブジェクトを識別可能な２次情報を音声出力する一方、それ以外のオブジェクトについては名称のみを音声出力する（ステップＳ６６）。例えば、図１２に示す視野領域Ｖ₂には木が二つある。この場合、音声出力部６は、「二人、バス、二人の横の木、バスの横の木」というように、「木」というオブジェクトに関して、「木」という名称に加えて「二人の横」や「バスの横」といった２次情報を音声出力する。

　ステップＳ６５において同一名称のオブジェクトが複数ない場合（ステップＳ６５：Ｎｏ）、認識したオブジェクトの名称を音声出力部６によって音声出力する（ステップＳ６７）。

　ステップＳ６６またはステップＳ６７に続いて行うステップＳ６８～Ｓ７６の処理は、図３のステップＳ６～Ｓ１４の処理に順次対応している。

　以上説明した本発明の実施の形態４によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。

　また、本実施の形態４によれば、同一名称を有する複数のオブジェクトがある場合、音声出力部は、各オブジェクトを識別するための２次情報を加えた音声を出力するため、撮影者は同一名称を有する複数のオブジェクトを的確に識別することができる。

　なお、同一名称のオブジェクトが複数ある場合の識別の精度をさらに上げるために、オブジェクト認識部９１が判定した内容に基づいて、より詳細な情報を音声出力するようにしてもよい。例えば、図１２に示す場合に、木と人やバスとの距離、木の色等の情報をオブジェクト認識部９１が判定できる場合には、それらの情報をさらに加えて音声出力するようにしてもよい。

　また、オブジェクトまでの距離や位置、オブジェクトのカテゴリー等によって、出力する音声の音量や周波数を変化させることによって被写体の情報を与えても良い。例えば、出力する音声の音量を大、中、小の３段階とし、撮像装置１から被写体までの距離が１ｍ未満であれば音量を小とし、その距離が１ｍ以上５ｍ未満であれば音量を中とし、その距離が５ｍ以上であれば音量を大とするようにしてもよい。また、出力する音声の周波数を大、中、小の３段階とし、画面の右側に被写体がいる場合は周波数を小として低い音声を出力し、画面の左側に被写体がいる場合は周波数を大として高い音声を出力し、画面の中央部に被写体がいる場合は周波数を中として画面の左右にいる場合の中間の高さの音声を出力するようにしてもよい。

（実施の形態５）
　図１３は、本発明の実施の形態５に係る撮像システムの構成を示すブロック図である。同図に示す撮像システム１００は、撮像装置１１と、撮像装置１１が撮影した画像を編集する編集装置２１とを備える。撮像装置１１と編集装置２１とは相互に通信可能である。

　撮像装置１１は、撮像装置１の構成に加えて、編集装置２１との間で画像データを含む情報の送受信を行う通信部１２（第１通信手段）を有する。

　編集装置２１は、撮像装置１１との間で情報の送受信を行う通信部２２（第２通信手段）と、通信部２２が受信した画像データに対応する画像のトリミングを行うトリミング部２３と、画像データを含む各種情報を記憶する記憶部２４と、編集装置２１の動作を制御する制御部２５と、を備える。編集装置２１は、例えばパーソナルコンピュータ（ＰＣ）を用いて実現される。

　制御部２５は、通信部２２が受信した音声データに含まれる音声を認識する音声認識部２５１と、音声認識部２５１の認識結果に基づいて、通信部２２が受信した画像に含まれるオブジェクトを抽出するオブジェクト抽出部２５２とを有する。制御部２５は、ＣＰＵを用いて実現される。

　撮像装置１１と編集装置２１との間の通信は、無線ＬＡＮ（Local　Area　Network）や赤外線通信などの無線通信によって実現してもよいし、ケーブルを用いた有線通信によって実現してもよい。

　図１４は、撮像装置１１が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図１４において、ステップＳ８１～Ｓ８５は、図３のステップＳ１～Ｓ５の処理に順次対応している。

　以下、ステップＳ８６以降の処理を説明する。音声出力部６がオブジェクトの名称を出力してから所定時間以内に撮影者からオブジェクトを選択する音声入力があった場合（ステップＳ８６：Ｙｅｓ）、音声出力部６は撮影可能メッセージを出力する（ステップＳ８７）。

　撮影可能メッセージを出力してから所定時間以内にレリーズボタン５１が押された場合（ステップＳ８８：Ｙｅｓ）、撮像装置１１は画像の撮影を行い、画像データを生成する（ステップＳ８９）。続いて、撮像装置１１は、生成した撮像画像の画像データを画像データ記憶部８１へ記録する（ステップＳ９０）。

　この後、通信部１２は、撮影画像の画像データと撮影を行う際に撮影者によって選択入力されたオブジェクトの名称の音声データを編集装置２１へ送信する（ステップＳ９１）。

　その後、入力部５によって撮影を終了する信号が入力された場合（ステップＳ９２：Ｙｅｓ）、撮像装置１１は一連の処理を終了する。一方、入力部５によって撮影を終了する信号が入力されない場合（ステップＳ９２：Ｎｏ）、撮像装置１１はステップＳ８１に戻る。

　次に、ステップＳ８６で所定時間以内に撮影者からオブジェクトを指定する音声入力がない場合（ステップＳ８６：Ｎｏ）を説明する。この場合、音声出力部６は音声入力を促すメッセージを出力する（ステップＳ９３）。その後、入力部５によって撮影を終了する信号が入力された場合（ステップＳ９４：Ｙｅｓ）、撮像装置１１は一連の処理を終了する。一方、入力部５によって撮影を終了する信号が入力されない場合（ステップＳ９４：Ｎｏ）、撮像装置はステップＳ８６に戻る。

　図１５は、編集装置２１が行う画像の編集処理の概要を示すフローチャートである。図１５において、編集装置２１が撮像装置１１から画像データおよびオブジェクトの名称の音声データを受信した場合（ステップＳ１０１：Ｙｅｓ）、音声認識部２５１は、受信した音声データを解析して音声を認識する（ステップＳ１０２）。

　続いて、オブジェクト抽出部２５２は、受信した画像データから、音声認識部２５１が認識した音声に対応するオブジェクトを抽出する（ステップＳ１０３）。

　その後、トリミング部２３は、オブジェクト抽出部２５２が抽出したオブジェクトを全て含むように画像のトリミングを行い（ステップＳ１０４）、トリミングを行った画像の画像データを記憶部２４に記録する（ステップＳ１０５）。これにより、編集装置２１は、一連の処理を終了する。

　以上説明した本発明の実施の形態５によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。

　また、本実施の形態５によれば、撮影者が入力したオブジェクトを含む画像の編集（トリミング）を撮像装置とは別の編集装置で行うため、撮像装置の負荷を軽減することができる。

　なお、本実施の形態５において、撮像装置や編集装置に通信機能を具備させずに、記憶媒体を用いて撮影した画像データを編集装置に転送するようにしてもよい。この場合、編集装置は、複数の画像データのトリミングを連続的に行うこととなる。

　また、本実施の形態５において、撮像装置が撮影した後、複数通りのオブジェクトの組み合わせを順次音声入力できるようにしてもよい。この場合には、編集装置が複数通りのオブジェクトの組み合わせに応じた複数のトリミング画像を生成することができるようにしておけば、互いに異なる構図を有する複数の画像を１回の撮影によって生成することが可能となる。

（実施の形態６）
　図１６は、本発明の実施の形態６に係る撮像装置の構成を示すブロック図である。同図に示す撮像装置３１は、撮像部３２、メモリ３、画像処理部４、入力部５、音声出力部６、音声入力部７、記憶部８および制御部３３を備える。撮像部３２は、単焦点レンズを有し、所定の視野領域の光を集光して被写体像を結像する光学系と、光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを備える。また、制御部３３は、オブジェクト認識部９１と、音声認識部９２と、画像のトリミングを行うトリミング部３３１とを備える。

　図１７は、以上の構成を有する撮像装置３１が自動フレーミング撮影モードに設定されている場合の処理の概要を示すフローチャートである。図１７において、撮像装置３１は、撮像部３２、メモリ３および画像処理部４によって画像を取り込み、画像データを生成する（ステップＳ１１１）。この後、オブジェクト認識部９１が、画像データに含まれるオブジェクトを抽出し（ステップＳ１１２）、抽出したオブジェクトを基本画像と比較することによってオブジェクトの認識を行う（ステップＳ１１３）。この際、オブジェクト認識部９１は、オブジェクトの位置情報も認識する。具体的には、オブジェクト認識部９１は、オブジェクトが図１０に示す小領域Ｄ₁～Ｄ₅にそれぞれ含まれるか否かを判定し、この判定結果を画像データの一部として画像データ記憶部８１へ記録する。

　続いて、撮像装置３１は、小領域Ｄ_mを識別するカウンタｍを１とし（ステップＳ１１４）、小領域Ｄ_mに含まれるオブジェクトの名称を音声出力部６によって出力する（ステップＳ１１５）。

　ステップＳ１１５でオブジェクトの名称を出力してから所定時間以内に撮影者から小領域決定の指示入力があった場合（ステップＳ１１６：Ｙｅｓ）において、小領域決定の指示入力から所定時間以内にレリーズボタン５１が押されたとき（ステップＳ１１７：Ｙｅｓ）、撮像装置３１は画像の撮影を行い、画像データを生成する（ステップＳ１１８）。続いて、撮像装置３１は、生成した撮影画像の画像データを画像データ記憶部８１へ記録する（ステップＳ１１９）。ステップＳ１１６における小領域決定の指示入力は、レリーズボタン５１を半押しすることによって実現される。したがって、例えば視野領域Ｖ_tで音声出力部６がオブジェクトの名称を音声出力した後、撮影者がレリーズボタン５１を半押しすれば、撮像装置１は視野領域Ｖ_tの画像を撮影することとなる。この意味で、レリーズボタン５１は、オブジェクト選択手段の少なくとも一部の機能を有する。なお、レリーズボタン５１以外のボタンを小領域決定の指示入力用として適用することも可能である。

　続いて、トリミング部３３１は、撮影した画像を小領域Ｄ_mに合わせてトリミングし（ステップＳ１１９）、トリミングした画像を画像データ記憶部８１へ記録する（ステップＳ１２０）。

　その後、入力部５によって撮影を終了する信号が入力された場合（ステップＳ１２１：Ｙｅｓ）、撮像装置３１は一連の処理を終了する。一方、入力部５によって撮影を終了する信号が入力されない場合（ステップＳ１２１：Ｎｏ）、撮像装置３１はステップＳ１１１に戻る。

　ステップＳ１１６において所定時間以内に撮影者から小領域決定の指示入力がない場合（ステップＳ１１６：Ｎｏ）に撮像装置３１が行うステップＳ１２２～Ｓ１２５は、図９のステップＳ５４～Ｓ５７の処理に順次対応している。ただし、ステップＳ１２４において、入力部５によって撮影を終了する信号が入力されない場合（ステップＳ１２４：Ｎｏ）、撮像装置３１はステップＳ１１６に戻る。

　以上説明した本発明の実施の形態６によれば、撮像している画像のオブジェクトを認識し、認識したオブジェクトの名称を音声で出力した後、撮影対象とするオブジェクトを撮影者からの選択入力によって定める構成を有するため、ファインダを用いることなく撮影者が所望する構図の画像を容易にかつ確実に得ることができる。

　また、本実施の形態６によれば、撮像した画像の中心から間欠的に広がっていく複数の小領域を設け、面積が小さい小領域からオブジェクトの認識を行うため、音声出力部が出力するオブジェクトの数は、小領域の面積が大きくなるにつれて徐々に増加していく。この結果、撮影者は最初から多くのオブジェクトの名称を聞かずに済むため、小領域に含まれるオブジェクトの名称を覚えやすい。したがって、撮影対象とするオブジェクトの選択を的確に行うことができる。

　なお、本実施の形態６において、小領域決定の指示入力を音声入力部７から音声入力するようにしてもよい。この場合には、撮影者が小領域決定を指示するメッセージ（例えば、「ＯＫ。」というメッセージ）を入力すればよい。

（その他の実施の形態）
　本発明は、上述した６つの実施の形態によってのみ限定されるべきものではない。例えば、本発明に係る撮像装置は、図２に示す形状に限られるわけではなく、ペン型を有しているものであってもよいし、メガネに組み込むことが可能な小型形状を有していてもよい。また、本発明に係る撮像装置は、ファインダを有する通常の撮像装置と同様の形状を有していてもよい。このように、本発明は、ここでは記載していない様々な実施の形態を含みうるものである。

　１、１１、３１　撮像装置
　２、３２　撮像部
　３　メモリ
　４　画像処理部
　５　入力部
　６　音声出力部
　７　音声入力部
　８、２４　記憶部
　９、２５、３３　制御部
　１２、２２　通信部
　２１　編集装置
　２３、３３１　トリミング部
　５１　レリーズボタン
　５２　電源ボタン
　５３　モード切替スイッチ
　８１　画像データ記憶部
　８２　基本画像データ記憶部
　９１　オブジェクト認識部
　９２、２５１　音声認識部
　９３　画角調整部
　１００　撮像システム
　２５２　オブジェクト抽出部
　Ｄ₁～Ｄ₅、Ｄ_m　小領域
　Ｖ、Ｖ₁、Ｖ₂、Ｖ_ｍ、Ｖ_t、Ｖ_w　視野領域

Claims

　所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、
　前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、
　前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、
　前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、
　前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、
　を備え、
　前記撮像手段は、
　前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含む画像を撮影することを特徴とする撮像装置。
　前記光学系は焦点距離可変のズームレンズを有し、
　前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように前記光学系の画角を調整する画角調整手段をさらに備えたことを特徴とする請求項１に記載の撮像装置。
　前記オブジェクト認識手段は、
　前記オブジェクト選択手段によってオブジェクトが選択入力されるまで、前記光学系の焦点距離をテレ側からワイド側に間欠的に移動しながら各焦点距離でオブジェクトの認識を行うことを特徴とする請求項２に記載の撮像装置。
　前記光学系は単焦点レンズを有し、
　前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように前記撮像手段が撮影した画像のトリミングを行うトリミング手段をさらに備えたことを特徴とする請求項１に記載の撮像装置。
　前記オブジェクト認識手段は、
　前記オブジェクト選択手段によってオブジェクトが選択入力されるまで、認識対象の領域を中心部から外周部へ間欠的に広げながら、各領域でオブジェクトの認識を行うことを特徴とする請求項２または４に記載の撮像装置。
　前記オブジェクト選択手段は、
　外部からの入力される音声に応じてオブジェクトが選択入力される音声入力手段を有することを特徴とする請求項１～５のいずれか一項に記載の撮像装置。
　前記オブジェクト選択手段は、
　外部からの押圧によってオブジェクトが選択入力される入力ボタンを有することを特徴とする請求項１～５のいずれか一項に記載の撮像装置。
　前記入力ボタンは撮影指示信号が入力されるレリーズボタンであり、該レリーズボタンが半押しされた場合にオブジェクトが選択入力されることを特徴とする請求項７に記載の撮像装置。
　当該撮像装置の動きを検出する動き検出手段をさらに備え、
　前記動き検出手段が当該撮像装置の動きを検出した時、当該撮像装置が実行中の処理を中断することを特徴とする請求項１～８のいずれか一項に記載の撮像装置。
　撮影シーンに応じたシーン別撮影モードを設定可能であり、
　前記オブジェクト認識手段は、
　設定された前記シーン別撮影モードに応じて定められるオブジェクトのみを認識対象とすることを特徴とする請求項１～９のいずれか一項に記載の撮像装置。
　前記シーン別撮影モードとして、人物の顔を撮影するポートレードモードを設定可能であり、
　前記オブジェクト認識手段は、
　前記シーン別撮影モードが前記ポートレートモードに設定されている場合、人物の顔のみを認識対象とすることを特徴とする請求項１０に記載の撮像装置。
　前記音声出力手段は、
　前記オブジェクト認識手段が同じ名称を有する複数のオブジェクトを認識した場合、該複数のオブジェクトの名称とともに各オブジェクトを識別可能な２次情報を音声出力することを特徴とする請求項１～１１のいずれか一項に記載の撮像装置。
　撮像装置が撮影した画像を編集する編集装置であって、
　所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、を備えた撮像装置が撮影した画像に対して、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むようにトリミングを行うトリミング手段を備えたことを特徴とする編集装置。
　画像を撮像して該画像の電子的な画像データを生成する撮像装置と、前記撮像装置と前記画像データを含む情報の通信を行うことが可能であり、前記画像データに対応する画像を編集する編集装置とからなる撮像システムであって、
　前記撮像装置は、
　所定の視野領域の光を集光して被写体像を結像する光学系と、該光学系が結像した被写体像をデジタルの画像信号に変換して出力する撮像素子とを有する撮像手段と、
　前記撮像手段が出力した画像信号に画像処理を施すことによって画像データを生成する画像処理手段と、
　前記画像処理手段が生成した画像データに対応する画像の所定領域に含まれるオブジェクトを認識するオブジェクト認識手段と、
　前記オブジェクト認識手段が認識したオブジェクトの名称を音声で出力する音声出力手段と、
　前記音声出力手段が名称を音声出力したオブジェクトの一部または全部のオブジェクトが選択入力されるオブジェクト選択手段と、
　前記編集装置と前記画像データを含む情報の送受信を行う第１通信手段と、
　を備え、
　前記編集装置は、
　前記撮像装置と前記画像データを含む情報の送受信を行う第２通信手段と、
　前記第２通信手段が受信した前記画像データに対し、前記オブジェクト選択手段によって選択入力された全てのオブジェクトを含むように画像のトリミングを行うトリミング手段と、
　を備えたことを特徴とする撮像システム。