WO2021161834A1

WO2021161834A1 - レコーダ、情報処理装置、情報処理システム、および、情報処理方法

Info

Publication number: WO2021161834A1
Application number: PCT/JP2021/003498
Authority: WO
Inventors: 善久橋本; 秀之春日; 優一林
Original assignee: 株式会社時空テクノロジーズ
Priority date: 2020-02-10
Filing date: 2021-02-01
Publication date: 2021-08-19

Abstract

本実施形態に係るレコーダは、複数のコネクタと、アナログ・デジタルコンバータと、コントローラと、記憶装置とを備える。コントローラは、複数のマイクロフォンと接続可能である。アナログ・デジタルコンバータは、複数のコネクタのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換する。コントローラは、デジタル信号に基づいて音データを生成する。記憶装置は、コントローラによって生成された音データを記憶する。コントローラは、アナログ・デジタルコンバータから、複数のアナログ信号のレベルを含む解析情報を受信し、解析情報に基づいて複数のアナログ信号のレベルを調整するための制御コマンドを、アナログ・デジタルコンバータへ送信する。

Description

レコーダ、情報処理装置、情報処理システム、および、情報処理方法

　本発明は、音データを記憶するレコーダ、情報処理装置、情報処理システム、および、情報処理方法に関する。

　ＩＣ（Integrated Circuit）レコーダは、マイクロフォンからのアナログ信号をアナログ／デジタル変換してデジタルの音データを生成し、音データを記憶媒体に記憶する。ＩＣレコーダでは、生成された音データを圧縮する場合もある。ＩＣレコーダは、例えば、会議の議事録作成、または、打合せ記録などの用途で使用される。

特開２０１７－２０７８０９号公報

　例えばＩＣレコーダなどによって生成された音データに対して各種のデータ処理を実行し、ユーザにとって利便性が高く有益なデータを生成することのニーズは高い。

　本実施形態は、上記実情に鑑みてなされたものであり、ユーザにとって利便性の高いデータを生成するレコーダ、情報処理装置、情報処理システム、および、情報処理方法を提供することを目的とする。

　本実施形態のレコーダは、複数のコネクタと、アナログ・デジタルコンバータと、コントローラと、記憶装置とを備える。コントローラは、複数のマイクロフォンと接続可能である。アナログ・デジタルコンバータは、複数のコネクタのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換する。コントローラは、デジタル信号に基づいて音データを生成する。記憶装置は、コントローラによって生成された音データを記憶する。コントローラは、アナログ・デジタルコンバータから、複数のアナログ信号のレベルを含む解析情報を受信し、解析情報に基づいて複数のアナログ信号のレベルを調整するための制御コマンドを、アナログ・デジタルコンバータへ送信する。

　本実施形態によれば、ユーザにとって利便性の高いデータを生成するレコーダ、情報処理装置、情報処理システム、および、情報処理方法を提供することができる。

第１の実施形態に係るレコーダの構成の一例を示すブロック図。第１の実施形態に係るデータの構成の例を示すブロック図。第１の実施形態に係る第１のサーバの構成の一例を示すブロック図。第１のサーバからダウンロードされたデータをユーザ端末のブラウザで表示した画面の例を示す図。第２の実施形態に係るレコーダの構成の一例を示すブロック図。第２の実施形態に係るレコーダの外観を示す正面図。第３の実施形態に係る第１のサーバの構成の一例を示すブロック図。

　以下、図面を参照して実施形態を説明する。図面において、同一の機能及び構成要素については、同一符号を付して説明を省略するか、または、簡単に説明を行う。

　（第１の実施形態）
　第１の実施形態では、複数のマイクロフォン接続用のコネクタ（接続端子）を備えるレコーダと、当該レコーダによって生成された音データ（例えば音声データ）を処理する第１のサーバ（情報処理装置）とを説明する。

　図１は、第１の実施形態に係るレコーダ１の一例を示すブロック図である。

　レコーダ１は、複数の外付けのマイクロフォンＭ１～Ｍｎ（ｎは２以上の整数）と接続可能な複数のコネクタＣ１～Ｃｎと、内蔵のマイクロフォンＭと、操作装置（ユーザインタフェース装置）２と、表示装置３と、アナログ／デジタルコンバータ（以下、ＡＤＣという）４と、コントローラ５とを備える。コントローラ５は、例えば、プロセッサ６と、記憶装置７と、通信装置８とを備える。レコーダ１は、例えば、携帯型のＩＣレコーダでもよい。

　複数のコネクタＣ１～Ｃｎのそれぞれは、複数のマイクロフォンＭ１～Ｍｎを着脱可能である。また、複数のコネクタＣ１～Ｃｎは、ＡＤＣ４と接続されている。

　マイクロフォンＭは、レコーダ１に内蔵されており、音を測定し、アナログ信号をＡＤＣ４へ送信する。

　操作装置２は、ユーザによる操作を受け付ける。操作装置２は、例えば、ユーザからの指示を受け付け、指示を例えばコントローラ５のプロセッサ６へ送信する。操作装置２は、例えば、ボタン、または、タッチパネルなどである。

　第１の実施形態において、操作装置２は、例えば、コントローラ５のプロセッサ６から周期的にモードの問合せを受信し、問合せに対してユーザによって指定されているモードをプロセッサ６へ返す。あるいは、操作装置２は、ユーザからモードの指定を受け付けた場合に、このユーザによって指定されたモードをプロセッサ６へ通知する。

　第１の実施形態において、モードとは、レコーダ１の動作の種類・態様を示す。レコーダ１は少なくとも２つのモードのいずれかで選択的に動作する。

　第１のモードは、非標準モード（例えばワンショットボイスモード）であり、タイトル、見出し、要約、メモ、管理情報、書誌事項の内容、解説、注意事項などの音入力に用いられる。

　第２のモードは、標準モードであり、議事録、打合せの内容などの標準の音入力に用いられる。

　表示装置３は、例えばコントローラ５のプロセッサ６などによる制御にしたがって、例えば記憶装置７に記憶されている各種のデータを表示する。表示装置３は、例えば、液晶ディスプレイ、または、有機ＥＬ（Electro-Luminescence）ディスプレイなどである。

　ＡＤＣ４は、複数のマイクロフォンＭ１～Ｍｎから複数のコネクタＣ１～Ｃｎ経由で複数のアナログ信号を受信可能である。また、ＡＤＣ４は、マイクロフォンＭからアナログ信号を受信可能である。第１の実施形態において、ＡＤＣ４によって受信されるアナログ信号は、ステレオ信号であるとする。

　ＡＤＣ４は、受信した少なくとも１つのアナログ信号に対してアナログ／デジタル変換を行い、デジタル信号をコントローラ５へ送信する。ＡＤＣ４は、例えば、複数のマイクロフォンＭ１～Ｍｎから複数のコネクタＣ１～Ｃｎ経由で複数のアナログ信号を受信した場合に、この複数のアナログ信号に基づいて１つのデジタル信号を生成（例えば合成）し、生成したデジタル信号を例えばコントローラ５のプロセッサ６へ送信する。

　また、ＡＤＣ４は、複数のマイクロフォンＭ１～Ｍｎから複数のコネクタＣ１～Ｃｎ経由で複数のアナログ信号を受信した場合に、複数のアナログ信号のレベルの取得、複数のアナログ信号が有効かまたは無効かの判断、複数のアナログ信号のゲイン（ボリューム）値の取得などを含む解析を実行する。そして、ＡＤＣ４は、解析の結果を示す解析情報９をコントローラ５のプロセッサ６へ送信する。解析情報９は、例えば、複数のアナログ信号のレベル、複数のアナログ信号のゲイン値などを含む。

　なお、ＡＤＣ４は、例えば、コントローラ５のプロセッサ６へ送信するデジタル信号または解析情報９に対してデータ圧縮を実行してもよい。

　さらに、ＡＤＣ４は、例えばコントローラ５のプロセッサ６などから受信した制御コマンド１０にしたがって、複数のアナログ信号のレベルの調整、または、ゲイン値の調整などの制御を行う。これにより、デジタル信号の品質が向上する。

　記憶装置７は、例えばＮＡＮＤ型フラッシュメモリなどのような不揮発性メモリ（または非一時的記憶媒体）と、例えばＤＲＡＭ（Dynamic Random Access Memory）などのような揮発性メモリとを備える。

　記憶装置７は、例えば、オペレーティング・システム（以下、ＯＳという）１１、ソフトウェア１２、メタデータ１３、音データ１４、解析データ１５、音データ１４に対応する文字データ１６および翻訳データ１７、音データ１４に対する話者認識データ１８などの各種のデータを記憶する。なお、メタデータ１３、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８は、基本的には、第１のサーバ１９で管理されており、必要に応じて、必要な部分が、第１のサーバ１９から記憶装置７に部分的にダウンロードされ、記憶装置７に一時的に記憶され、レコーダ１で使用されるとしてもよい。この場合、レコーダ１の記憶装置７の記憶容量を低減させることができる。また、メタデータ１３、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８のうちの一部が記憶装置７に記憶され、他の部分が第１のサーバ１９で管理されてもよい。

　メタデータ１３は、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８に関するメタ情報を含む。メタデータ１３は、例えば、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８を適宜関連付けている。メタデータ１３は、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８の記憶位置の情報を含む。

　音データ１４は、ＡＤＣ４から受信されたデジタル信号に基づいて生成される。

　解析データ１５は、音データ１４に対応しておりＡＤＣ４から受信された解析情報９を含む。

　文字データ１６は、音データ１４に対応しており音データ１４に対する文字起こし処理によって生成される例えばテキストデータを含む。

　翻訳データ１７は、音データ１４に対応しており文字データ１６に対する翻訳処理によって生成されるテキストデータを含む。

　話者認識データ１８は、音データ１４に対応しており音データ１４および解析データ１５に基づいて実行された話者認識処理によって生成され、話者識別情報を含む。

　記憶装置７に記憶されるメタデータ１３、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８は、図２を用いて後で具体的に説明する。

　通信装置８は、例えばプロセッサ６による制御にしたがって、無線または有線により、例えば第１のサーバ１９または第２のサーバ２０などの他の装置との間で、データ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答の送受信を行う。

　プロセッサ６は、記憶装置７に記憶されているＯＳ１１およびソフトウェア１２を実行することにより、例えば、制御部２１、データ生成部２２、判断部２３、送信制御部２４、受信制御部２５、表示データ生成部２６、表示制御部２７として機能する。

　なお、制御部２１、データ生成部２２、判断部２３、送信制御部２４、受信制御部２５、表示データ生成部２６、表示制御部２７は、適宜組み合わせてもよく、または、分割してもよい。例えば、送信制御部２４と受信制御部２５とは、通信制御部として組み合わせてもよい。例えば、表示データ生成部２６と表示制御部２７とは組み合わせてもよい。

　制御部２１は、レコーダ１に備えられている各種の構成要素、例えば、マイクロフォンＭ、操作装置２、表示装置３、ＡＤＣ４を制御する。

　制御部２１は、例えば、ＡＤＣ４から受信した解析情報９に基づいて、複数のマイクロフォンＭ１～Ｍｎから複数のコネクタＣ１～Ｃｎ経由で受信する複数のアナログ信号の各レベルまたは各ゲイン値を所定範囲に調整するための制御コマンド１０を決定し、制御コマンド１０をＡＤＣ４へ送信する。これにより、デジタル信号の品質が向上する。

　制御部２１は、例えば、複数のコネクタＣ１～Ｃｎのうちのどのコネクタがマイクロフォンと接続状態にあるかを検出する。

　制御部２１は、例えば、ＡＤＣ４から受信したデジタル信号、または、解析情報９に対するデータ復号を行う。

　判断部２３は、操作装置２へモードの問合せを例えば周期的に送信し、操作装置２からモードの通知を受信する。そして、判断部２３は、ユーザが第１のモードを指定しているか、または、第２のモードを指定しているかを判断する。プロセッサ６は、モードの判断結果にしたがって、例えば、通信方式、制御、処理、機能、利用するサーバを切り替え可能である。第１の実施形態では、プロセッサ６は、モードの判断結果にしたがって、利用するＡＰＩ（Application Programming Interface）を切り替える、

　データ生成部２２は、例えば、ＡＤＣ４から受信したデジタル信号および解析情報９と、判断部２３によるモードの判断結果とに基づいて、メタデータ１３と音データ１４と解析データ１５とを生成する。データ生成部２２は、例えば、音データ１４を、時間または音のゲイン値の増減などに基づいて分割する。この分割されたデータのそれぞれを、音セグメントという。

　そして、データ生成部２２は、メタデータ１３と音データ１４と解析データ１５とを記憶装置７へ記憶させる。

　送信制御部２４は、判断部２３によるモードの判断結果にしたがって、第１のサーバ１９または第２のサーバ２０に備えられているＡＰＩ（機能としてもよい）のうちどのＡＰＩを使用するかを決定し、決定されたＡＰＩを利用して、記憶装置７に記憶されているメタデータ１３、音データ１４、解析データ１５、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストを、通信装置８経由で第１のサーバ１９または第２のサーバ２０へ送信する。

　なお、送信制御部２４は、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストなどのリクエストの送信を省略してもよい。この場合、例えば、送信制御部２４が第１のサーバ１９または第２のサーバ２０へメタデータ１３、音データ１４、解析データ１５を送信することで、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストが送信されたものとみなす。以下の他の説明でも、リクエストの発行を省略し、データの送信をリクエストの発行とみなしてもよい。

　第１の実施形態において、レコーダ１は、ＡＰＩ１９ａを用いることにより、第１のサーバ１９によって提供される機能を使用可能であり、ＡＰＩ２０ａを用いることにより、第２のサーバ２０によって提供される機能を使用可能である。

　第１の実施形態において、送信制御部２４は、例えば、通信装置８経由で第１のサーバ１９または第２のサーバ２０へ、ストリーミングにより、メタデータ１３、音データ１４、または、解析データ１５を送信してもよい。送信制御部２４は、例えば、通信装置８経由で第１のサーバ１９または第２のサーバ２０へ、ストリーミングではなく間隔をあけて（例えば所定のデータ量または所定の時間ごとに）、メタデータ１３、音データ１４、または、解析データ１５をまとめて送信してもよい。送信制御部２４は、例えば、データの送信開始から所定の期間、ストリーミングにより第１のサーバ１９または第２のサーバ２０へ、メタデータ１３、音データ１４、または、解析データ１５を送信し、所定の期間経過後に、ストリーミングではなく間隔をあけて、第１のサーバ１９または第２のサーバ２０へ、メタデータ１３、音データ１４、または、解析データ１５を送信してもよい。

　送信制御部２４は、例えば、メタデータ１３、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８の評価（特徴検出、属性判断）演算を行い、評価値（特徴量、属性情報）に応じて利用するＡＰＩ、サーバ、または、機能を切り替えてもよい。より具体的には、送信制御部２４は、例えば、文字データ１６が所定の分野の用語を所定の割合以上含む場合に、分野判断結果にしたがって以降の音データを分野に特化した文字起こし処理へ送信してもよい。

　受信制御部２５は、例えば、第１のサーバ１９または第２のサーバ２０から通信装置８経由で、ストリーミングにより、文字データ１６、翻訳データ１７、話者認識データ１８を受信してもよい。受信制御部２５は、例えば、第１のサーバ１９または第２のサーバ２０から通信装置８経由で、ストリーミングではなく間隔をあけて、文字データ１６、翻訳データ１７、話者認識データ１８を受信してもよい。受信制御部２５は、例えば、データの送信開始から所定の期間、第１のサーバ１９または第２のサーバ２０から通信装置８経由で、ストリーミングにより文字データ１６、翻訳データ１７、話者認識データ１８を受信し、所定の期間経過後に、第１のサーバ１９または第２のサーバ２０から通信装置８経由で、ストリーミングではなく間隔をあけて、文字データ１６、翻訳データ１７、話者認識データ１８を受信してもよい。

　受信制御部２５は、受信した文字データ１６、翻訳データ１７、話者認識データ１８を、記憶装置７に記憶させ、例えば文字データ１６、翻訳データ１７、話者認識データ１８の位置情報を追加するなどのように、記憶装置７に記憶されているメタデータ１３を更新する。

　表示データ生成部２６は、記憶装置７に記憶されている文字データ１６、翻訳データ１７、話者認識データ１８を読み出し、ユーザの指示に対応する表示データを生成する。

　表示制御部２７は、表示データ生成部２６によって生成された表示データを表示装置３に表示させる。

　第１の実施形態において、表示制御部２７は、文字データ１６または翻訳データ１７をまとめて表示するのではなく、短い周期で１文字ずつ表示してもよい。これにより、ユーザは、レコーダ１が文字データ１６または翻訳データ１７を継続的に取得および記憶していることを認識することができる。

　図２は、第１の実施形態に係るデータの構成の例を示すブロック図である。

　メタデータ１３は、例えば音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８などのような各種のデータに関する各種のメタ情報を含む。第１の実施形態において、各種のデータのそれぞれは、複数のデータセグメントを含む。具体的には、メタデータ１３は、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８に対して付される各種の属性情報であり、例えば、レコーダ１を使用するユーザのユーザ識別情報（ユーザＩＤ）、レコーダ１のデバイス識別情報（デバイスＩＤ）、時間情報（タイムスタンプ）、音データ１４の位置情報、解析データ１５の位置情報、文字データ１６の位置情報、翻訳データ１７の位置情報、話者認識データ１８の位置情報、音データ１４のサイズ、解析データ１５のサイズ、文字データ１６のサイズ、翻訳データ１７のサイズ、話者認識データ１８のサイズ、音データ１４の種類情報（例えばデータ形式）、解析データ１５の種類情報、文字データ１６の種類情報、翻訳データ１７の種類情報、話者認識データ１８の種類情報などを含む。

　音データ１４は、ＡＤＣ４から受信されたデジタル信号に基づいて生成されたデータである。音データ１４は、複数の音セグメントＳＳ１～ＳＳｍ（ｍは、２以上の整数）を含む。デジタル信号に基づいて生成される音データ１４のデータ本体は、時間経過、ゲイン値の増減、データ量などに基づいて複数の音セグメントＳＳ１～ＳＳｍのデータ本体ＳＤ１～ＳＤｍに分割される。複数の音セグメントＳＳ１～ＳＳｍのそれぞれは、メタデータＳＭ１～ＳＭｍとデータ本体ＳＤ１～ＳＤｍを含む。音セグメントＳＳ１～ＳＳｍに含まれるメタデータＳＭ１～ＳＭｍは、音セグメントＳＳ１～ＳＳｍに含まれるデータ本体ＳＤ１～ＳＤｍに関する各種のメタ情報であり、例えば、時間情報、モード種別情報などを含む。なお、音データ１４内のメタデータＳＭ１～ＳＭｍは、省略されてもよい。

　解析データ１５は、ＡＤＣ４から受信された解析情報９に基づいて生成されたデータである。解析データ１５は、複数の解析セグメントＡＳ１～ＡＳｍを含む。複数の解析セグメントＡＳ１～ＡＳｍのそれぞれは、メタデータＡＭ１～ＡＭｍとデータ本体ＡＤ１～ＡＤｍを含む。解析セグメントＡＳ１～ＡＳｍに含まれるメタデータＡＭ１～ＡＭｍは、解析セグメントＡＳ１～ＡＳｍに含まれるデータ本体ＡＤ１～ＡＤｍに関する各種のメタ情報である。

　文字データ１６は、音データ１４に対する文字起こし処理により生成された例えばテキスト形式のデータである。文字データ１６は、複数の文字セグメントＣＳ１～ＣＳｍを含む。複数の文字セグメントＣＳ１～ＣＳｍのそれぞれは、メタデータＣＭ１～ＣＭｍとデータ本体ＣＤ１～ＣＤｍを含む。文字セグメントＣＳ１～ＣＳｍに含まれるメタデータＣＭ１～ＣＭｍは、文字セグメントＣＳ１～ＣＳｍに含まれるデータ本体ＣＤ１～ＣＤｍに関する各種のメタ情報である。

　翻訳データ１７は、文字データ１６に対する翻訳処理により生成された例えばテキスト形式のデータである。翻訳データ１７は、複数の翻訳セグメントＴＳ１～ＴＳｍを含む。複数の翻訳セグメントＴＳ１～ＴＳｍのそれぞれは、メタデータＴＭ１～ＴＭｍとデータ本体ＴＤ１～ＴＤｍを含む。翻訳セグメントＴＳ１～ＴＳｍに含まれるメタデータＴＭ１～ＴＭｍは、翻訳セグメントＴＳ１～ＴＳｍに含まれるデータ本体ＴＤ１～ＴＤｍに関する各種のメタ情報である。

　話者認識データ１８は、音データ１４および解析データ１５に基づいて話者認識処理により生成されたデータである。話者認識データ１８は、複数の話者認識セグメントＲＳ１～ＲＳｍを含む。複数の話者認識セグメントＲＳ１～ＲＳｍのそれぞれは、メタデータＲＭ１～ＲＭｍとデータ本体ＲＤ１～ＲＤｍを含む。話者認識セグメントＲＳ１～ＲＳｍに含まれるメタデータＲＭ１～ＲＭｍは、話者認識セグメントＲＳ１～ＲＳｍに含まれるデータ本体ＲＤ１～ＲＤｍに関する各種のメタ情報である。

　メタデータ１３は、音セグメントＳＳ１～ＳＳｍ、解析セグメントＡＳ１～ＡＳｍ、文字セグメントＣＳ１～ＣＳｍ、翻訳セグメントＴＳ１～ＴＳｍ、話者認識セグメントＲＳ１～ＲＳｍのそれぞれの位置情報を含む。さらに、音セグメントＳＳ１、解析セグメントＡＳ１、文字セグメントＣＳ１、翻訳セグメントＴＳ１、話者認識セグメントＲＳ１は、例えば、それぞれのメタデータＳＭ１，ＡＭ１，ＣＭ１，ＴＭ１，ＲＭ１内の時間情報などにより互いに関連付けられている。同様に、他の音セグメントＳＳ２～ＳＳｍ、解析セグメントＡＳ２～ＡＳｍ、文字セグメントＣＳ２～ＣＳｍ、翻訳セグメントＴＳ２～ＴＳｍ、話者認識セグメントＲＳ２～ＲＳｍについても、メタデータＳＭ２～ＳＭｍ，ＡＭ２～ＡＭｍ，ＣＳ２～ＣＳｍ，ＴＭ２～ＴＭｍ，ＲＭ２～ＲＭｍに基づいて、関連付けられている他のセグメントを認識可能である。

　図３は、第１の実施形態に係る第１のサーバ１９の構成の一例を示すブロック図である。

　情報処理システム２８は、レコーダ１と第１のサーバ１９とを備える。

　第１のサーバ１９は、レコーダ１、第２のサーバ２０、ユーザ端末２９と、無線または有線により通信可能である。

　第１のサーバ１９は、通信装置３０と、記憶装置３１と、プロセッサ３２とを備える。

　通信装置３０は、レコーダ１、第２のサーバ２０、または、ユーザ端末２９と、無線または有線により、例えば、データ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答などの送受信を行う。

　記憶装置３１は、不揮発性メモリ（または非一時的記憶媒体）と、揮発性メモリとを備えるとしてもよい。記憶装置３１は、ＯＳ３３と、当該ＯＳ３３によって制御されるサーバ・ソフトウェア３４とを記憶している。サーバ・ソフトウェア３４は、文字セグメントなどを含む表示データを、通信装置３０経由でユーザ端末２９のブラウザ３６に提供可能である。なお、サーバ・ソフトウェア３４は、例えば、メッセージ交換ソフトウェア、Ｗｅｂ会議ソフトウェア、または、ＳＮＳ（Social Networking Service）を提供するソフトウェアなどでもよい。

　さらに、記憶装置３１は、例えば、ユーザ情報６８、メタデータ１３、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８、ユーザに選択（例えばピックアップ）されたピックアップ・セグメント３５を組み込むファイル（データ）Ｆ、ブログデータ５０などを記憶する。ここで、ファイルＦにピックアップ・セグメント３５を組み込むとは、例えば、ファイルＦ内に、ピックアップ・セグメント３５、または、ピックアップ・セグメント３５に含まれるデータ本体のテキストデータを追加することを意味する。

　第１の実施形態において、ユーザによって指定されたピックアップ・セグメント３５、または、ピックアップ・セグメント３５に含まれるデータ本体は、ユーザによって指定されたファイルＦに組み込まれる。

　ユーザ情報６８は、第１のサーバ１９で提供されるＷｅｂサイトに登録をしたユーザの各種情報を含む、具体的には、ユーザ情報６８は、例えば、ユーザ識別情報、ユーザの使用するデバイス識別情報、ユーザの属性情報などを含む。ユーザ情報６８は、例えば、ユーザ識別情報またはデバイス識別情報により、メタデータ１３と関連付けられている。したがって、サーバ・ソフトウェア３４は、ユーザ情報６８に関連するメタデータ１３、音データ１４、解析データ１５、文字データ１６、翻訳データ１７、話者認識データ１８、ピックアップ・セグメント３５を検索または読み出すことができる。

　プロセッサ３２は、レコーダ１から通信装置３０経由で受信したリクエストまたはデータにしたがって、ＡＰＩ１９ａに基づく各種の機能を提供する。換言すれば、第１のサーバ１９は、ＡＰＩ１９ａを用いて他の装置と連携して動作する。

　プロセッサ３２は、記憶装置３１に記憶されているＯＳ３３およびサーバ・ソフトウェア３４を実行することにより、例えば、受信部３７、文字起こし部３８、翻訳部３９、話者認識部４０、送信部４１、表示制御部４２、ピックアップ部４３、見積生成部４４、依頼部４５、ブログエディタ４６として機能する。

　受信部３７は、レコーダ１から通信装置３０経由で、文字起こしリクエストと、翻訳リクエストと、話者認識リクエストと、メタデータ１３と、音データ１４と、解析データ１５とを受信し、ユーザ情報６８と、メタデータ１３と、音データ１４と、解析データ１５とを関連付けた状態で、記憶装置３１に記憶させる。

　文字起こし部３８は、受信部３７によって文字起こしリクエストが受信された場合に、音データ１４に対する文字起こし処理を実行し、文字データ１６を生成し、文字データ１６を記憶装置３１に記憶させ、メタデータ１３を更新する。文字起こし部３８は、例えば、メタデータ１３に、文字データ１６の位置情報などを登録する。

　あるいは、文字起こし部３８は、受信部３７によって文字起こしリクエストが受信された場合に、通信装置３０経由で第２のサーバ２０に文字起こしリクエストと音データ１４とを送信し、ＡＰＩ２０ａを用いて第２のサーバ２０に文字起こし処理４７を実行させ、第２のサーバ２０から通信装置３０経由で文字データ１６を受信し、文字データ１６を記憶装置３１に記憶させ、メタデータ１３を更新してもよい。

　翻訳部３９は、受信部３７によって翻訳リクエストが受信された場合に、文字データ１６に対する翻訳処理を実行し、翻訳データ１７を生成し、翻訳データ１７を記憶装置３１に記憶させ、メタデータ１３を更新する。翻訳部３９は、例えば、メタデータ１３に、翻訳データ１７の位置情報などを登録する。

　あるいは、翻訳部３９は、受信部３７によって翻訳リクエストが受信された場合に、通信装置３０経由で第２のサーバ２０に翻訳リクエストと文字データ１６とを送信し、ＡＰＩ２０ａを用いて第２のサーバ２０に翻訳処理４８を実行させ、第２のサーバ２０から通信装置３０経由で翻訳データ１７を受信し、翻訳データ１７を記憶装置３１に記憶させ、メタデータ１３を更新してもよい。

　話者認識部４０は、受信部３７によって話者認識リクエストが受信された場合に、音データおよび解析データ１５に基づいて話者認識処理を実行し、話者認識データ１８を生成し、話者認識データ１８を記憶装置３１に記憶させ、メタデータ１３を更新する。話者認識部４０は、例えば、メタデータ１３に、話者認識データ１８の位置情報などを登録する。

　あるいは、話者認識部４０は、受信部３７によって話者認識リクエストが受信された場合に、通信装置３０経由で第２のサーバ２０に話者認識リクエストと音データ１４と解析データ１５とを送信し、ＡＰＩ２０ａを用いて第２のサーバ２０に話者認識処理４９を実行させ、第２のサーバ２０から通信装置３０経由で話者認識データ１８を受信し、話者認識データ１８を記憶装置３１に記憶させ、メタデータ１３を更新してもよい。

　第１の実施形態において、解析データ１５は、複数のマイクロフォンＭ１～Ｍｎのそれぞれによって取得された複数のアナログ信号のレベルまたはゲイン値を含むため、音データ１４の信号がどの話者による音声であるかを精度よく認識することができる。

　送信部４１は、通信装置３０経由でレコーダ１へ、文字起こしリクエストの応答である文字データ１６を送信し、翻訳リクエストの応答である翻訳データ１７を送信し、話者認識リクエストの応答である話者認識データ１８を送信する。

　表示制御部４２は、ユーザ端末２９から通信装置３０経由で受信した表示リクエストにしたがって、記憶装置３１に記憶されているユーザ情報６８、メタデータ１３、音データ１４、文字データ１６、翻訳データ１７、話者認識データ１８、ピックアップ・セグメント３５に基づいて、表示データを生成し、表示データを通信装置３０経由でユーザ端末２９に送信する。ユーザ端末２９では、ブラウザ３６により受信した表示データをユーザが閲覧可能な状態で表示する。この表示データの画面は、図４を用いて後で説明する。なお、表示制御部４２と、ユーザ端末２９のブラウザ３６などのソフトウェアとの連携により、画面表示が行われてもよい。

　ピックアップ部４３は、ユーザ端末２９のブラウザ３６の画面に、メニューを表示させる処理を実行する。メニューは、ユーザ端末２９で表示されておりユーザによって指定されたセグメントをコピーする宛先（例えばファイルＦ）を選択するために用いられる。このメニューは、図４を用いて後で説明する。ピックアップ部４３は、ユーザによって指定されたセグメントの宛先の指定を促すメニューを生成し、メニューを通信装置３０経由でユーザ端末２９に表示させる。なお、ピックアップ部４３と、ユーザ端末２９のブラウザ３６などのソフトウェアとの連携により、メニュー表示が行われてもよい。

　ユーザは、メニューを使用してこのメニューに対応するセグメントをコピーすることおよび宛先（ファイルＦ、フォルダ、ディレクトリ）を指定することができる。

　そして、ピックアップ部４３は、ユーザ端末２９による指定にしたがって、ユーザ端末２９によって指定されたピックアップ・セグメント３５を、ユーザ端末２９によって指定された記憶装置３１の宛先に記憶させる。上述のように、第１の実施形態では、ピックアップ・セグメント３５は、ユーザ端末２９によって指定されたファイルＦに組み込まれる。

　なお、ピックアップ部４３は、ユーザに指定された複数のピックアップ・セグメント３５を、同じファイルＦへまとめて組み込んでもよい。ピックアップ部４３は、ユーザに指定された種類の異なる複数のデータセグメントを、同じファイルＦへ組み込むとしてもよい。ピックアップ部４３は、先に少なくとも１つのピックアップ・セグメント３５の指定を受け付け、次に、宛先を受け付けてもよい。あるいは、ピックアップ部４３は、先に宛先を受け付け、次に、少なくとも１つのピックアップ・セグメント３５の指定を受け付けてもよい。

　見積生成部４４は、ユーザ端末２９から通信装置３０経由で、人による文字起こしのリクエストを受信した場合に、記憶装置３１に記憶されている音データ１４と文字データ１６とのうちの少なくとも１つに基づいて、見積生成処理を実行し、見積データを、通信装置３０経由でユーザ端末２９に送信する。

　見積生成処理は、例えば、音データ１４の時間長と単位時間あたりの料金との掛け算により、見積額を計算してもよく、文字データ１６の文字数と１文字あたりの料金との掛け算により、見積額を計算してもよい。

　ユーザ端末２９のブラウザ３６は、見積データを表示する。ユーザ端末２９は、見積データを閲覧したユーザから人による文字起こしの発注指示を受け付けると、人による文字起こしの発注リクエストを第１のサーバ１９へ送信する。

　依頼部４５は、ユーザ端末２９から通信装置３０経由で、発注リクエストを受信した場合に、例えば、発注書データと音データ１４とを、通信装置３０経由で所定の文字起こし業者のアドレスへ送信する。

　ブログエディタ４６は、記憶装置３１に記憶されている例えばユーザ情報６８、メタデータ１３、音データ１４、文字データ１６、翻訳データ１７、話者認識データ１８、ヒックアップ・セグメント３５を適宜読み出し、読み出したユーザ情報６８、メタデータ１３、音データ１４、文字データ１６、翻訳データ１７、話者認識データ１８、ヒックアップ・セグメント３５の少なくとも一部をブログデータ５０に組み込み、編集可能とする。ブログエディタ４６は、編集中または編集結果であるブログデータ５０を記憶装置３１へ記憶させる。

　第２のサーバ２０は、ＡＰＩ２０ａを用いてレコーダ１または第１のサーバ１９などの他の装置と連携して動作する。第２のサーバ２０は、レコーダ１または第１のサーバ１９から受信した文字起こしリクエスト、翻訳リクエスト、話者認識リクエスト、または、データの受信にしたがって、文字起こし処理４７、翻訳処理４８、または、話者認識処理４９を実行し、実行結果をリクエストまたはデータの発信元へ返す。第２のサーバ２０は、例えば、ＡＳＰ（Application Service Provider）のサーバである。

　ユーザ端末２９は、例えば、第１のサーバ１９によって提供されるサイトへアクセス可能であり、ログインし、第１のサーバ１９へデータをアップロードすることができ、第１のサーバ１９からデータをダウンロードすることができる。ユーザ端末２９は、ブラウザ３６などを用いて、第１のサーバ１９からダウンロードされたデータを表示可能である。ユーザ端末２９は、マウス、タッチパネル、キーボードなどのユーザインタフェース装置によりユーザの操作を受け付け、データ、情報、信号、リクエスト、コマンド、指示、呼び出し、または、通知を第１のサーバ１９へ送信する。ユーザ端末２９は、第１のサーバ１９からダウンロードされたデータまたはプログラムを実行することにより第１のサーバ１９と連携して動作可能であり、例えばユーザの指定の受け付けまたはデータの表示などを実行する。

　ユーザ端末２９は、レコーダ１と同様に、このユーザ端末２９に取得されている音データ（例えば動画データとともに再生される音データ）を第１のサーバ１９へ送信し、音データに対応する文字データ、翻訳データ、話者認識データを受信し、表示してもよい。

　図４は、第１のサーバ１９からダウンロードされたデータをユーザ端末２９のブラウザ３６で表示した画面５１の例を示す図である。

　画面５１は、例えば、メタデータ１３に含まれている例えば時間情報Ｔ、音データ１４の時間変化５２、文字データ１６に含まれる文字セグメントＣＳ１～ＣＳ６のデータ本体ＣＤ１～ＣＤ６、文字データ１６に含まれる文字セグメントＣＳ１～ＣＳ６のメタデータＣＭ１～ＣＭ６に含まれる時間情報Ｔ１～Ｔ６、ユーザ情報６８に含まれているユーザ名Ｎ、ユーザ名Ｎのユーザに関連する音データ１４のログ情報５２Ｌ、ユーザ名Ｎのユーザに関連するピックアップ・セグメント３５の宛先（ファイル名）５３、人による文字起こしボタン５５を含む。

　さらに、画面５１は、ユーザが指定した（例えばマウスオーバーした）文字セグメントＣＳ２のデータ本体ＣＤ２に対して表示されたメニュー５４を含む。メニュー５４は、例えばマウスオーバーされている文字セグメントＣＳ２の組み込み先となり得るファイル名を含む。メニュー５４は、ユーザに対して、ピックアップ・セグメント３５の宛先５３の指定を促す。図面５１では、マウスオーバーされたデータ本体ＣＤ２の表示表域の右上部分に、メニュー５４が表示されている。

　第１の実施形態において、ユーザがユーザ端末２９を操作し、文字セグメントＣＳ２の宛先を指定すると、ユーザ端末２９は、例えば第１のサーバ１９のピックアップ部４３と連携して、指定された文字セグメントＣＳ２を、ユーザ端末２９によって指定された宛先に記憶させる。

　画面５１では、音データ１４の時間変化５２が上から下へ時間が経過するように表示されている。文字セグメントＣＳ１～ＣＳ６のデータ本体ＣＤ１～ＣＤ６は、音データ１４の時間変化５２の横に表示されており、時間情報Ｔ１～Ｔ６にしたがってデータ本体ＣＤ１～ＣＤ６と音データ１４の時間変化５２とが紐づけられている。

　人による文字起こしボタン５５は、人による文字起こしを使用するユーザによって押下される。人による文字起こしボタン５５が押下されると、ブラウザ３６は、見積データを表示する。

　以上説明した第１の実施形態において、レコーダ１のコントローラ５は、ＡＤＣ４から受信した解析情報９に基づいてＡＤＣ４を制御することができる。このため、コントローラ５は、高品質の音データ１４を生成することができ、音データ１４に基づいて高品質の文字データ１６または翻訳データ１７を取得することができる。

　第１の実施形態において、レコーダ１は、複数のマイクロフォンＭ１～Ｍｎを接続するための複数のコネクタＣ１～Ｃｎを備えており、第１のサーバ１９または第２のサーバ２０は、複数のマイクロフォンＭ１～Ｍｎによって取得された複数のアナログ信号の解析情報９などに基づいて話者の認識を行う。このため、話者認識を高精度に行うことができる。

　第１の実施形態においては、レコーダ１と、第１のサーバ１９と第２のサーバ２０とのうちの少なくとも一方との連携により、音データ１４に対応する文字データ１６または翻訳データ１７が生成される。このため、ユーザは、第１のサーバ１９によって提供される特殊なまたは専門的な文字起こし処理、翻訳処理、話者認識処理を利用することができる。また、ユーザは、第２のサーバ２０によって提供される最新の文字起こし処理４７、翻訳処理４８、話者認識処理４９を利用することができる。これにより、ユーザは、高品質の文字データ１６、翻訳データ１７、話者認識データ１８を取得することができる。

　第１の実施形態において、ユーザは、レコーダ１の操作装置２を用いて、第１のモードと第２のモードとの切り替えを容易に行うことができ、モードの切り替えに応じて容易にＡＰＩ、機能、処理、サーバを切り替えることができる。このため、ユーザの利便性が向上する。

　第１の実施形態において、レコーダ１は、音データ１４を記憶するとともに、文字データ１６または翻訳データ１７を周期的に１文字ずつ表示していく。この場合、レコーダ１の表示内容は、継続的に変化する。このため、ユーザは、レコーダ１が動作していることを容易に理解できる。

　第１の実施形態において、ユーザは、第１のサーバ１９から受信した表示データをユーザ端末２９のブラウザ３６により閲覧し、メタデータ１３、音データ１４、文字データ１６、翻訳データ１７、話者認識データ１８を相互に関連付けて参照することができる。

　第１の実施形態において、ユーザは、文字セグメントＣＳ１～ＣＳｍ、翻訳セグメントＴＳ１～ＴＳｍの中からピックアップ・セグメント３５を指定すること、および、ピックアップ・セグメント３５の宛先を指定することにより、ピックアップ・セグメント３５を宛先のファイルＦに組み込んで記憶することができる。これにより、ユーザは、データの整理を効率的に行うことができる。

　第１の実施形態において、ユーザは、音セグメントＳＳ１～ＳＳｍ、文字セグメントＣＳ１～ＣＳｍ、翻訳セグメントＴＳ１～ＴＳｍを組み込んで、ブログデータ５０を生成することができる。これにより、ユーザは、ブログ作成・編集を効率的に行うことができる。

　（第２の実施形態）
　第２の実施形態では、第１の実施形態で説明したレコーダ１の変形例を説明する。

　図５は、第２の実施形態に係るレコーダ１Ａの一例を示すブロック図である。

　レコーダ１Ａは、複数のコネクタＣ１～Ｃｎと、出力用コネクタＣｏと、内蔵のマイクロフォンＭと、スピーカ５６と、ＡＤＣ４と、デジタル／アナログコンバータ（以下、ＤＡＣという）５７と、電源装置５８と、操作装置２と、表示装置３と、時計装置５９と、記憶装置７と、通信装置８と、プロセッサ（またはコントローラ）６とを備える。なお、ＡＤＣ４、ＤＡＣ５７、時計装置５９、通信装置８、プロセッサ６は、適宜組み合わせてもよい。レコーダ１Ａの各種の構成要素は、例えば、バス６０を介して互いにデータ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答などを送受信可能である。

　出力用コネクタＣｏは、外付けのスピーカ、ヘッドフォン、または、イヤホンなどの音出力装置と接続可能である。出力用コネクタＣｏは、例えばＤＡＣ５７から受信したアナログ信号を、この出力用コネクタＣｏに接続された音出力装置へ出力する。

　また、出力用コネクタＣｏは、他の情報処理装置などと接続可能である。出力用コネクタＣｏは、データを、この出力用コネクタＣｏに接続された情報処理装置へ出力する。

　スピーカ５６は、レコーダ１に内蔵されており、ＤＡＣ５７から受信したアナログ信号に基づいて音を出力する。

　電源装置５８は、電池を搭載可能であるか、または、充電式の電池を備えており、レコーダ１Ａの各構成要素に対して電力を供給する。

　操作装置２は、ユーザによって操作される。操作装置２は、例えば、ユーザからの指示を受け付け、指示をプロセッサ６へ通知する。操作装置２は、第１の操作部２ａと第２の操作部２ｂとを備える。第１の操作部２ａと第２の操作部２ｂとのうちの少なくとも一方は、例えばボタンなどでもよい。

　第１の操作部２ａは、ユーザからモードの指定を受け付け、ユーザのモードの指定状態をプロセッサ６へ送信する。第２の実施形態において、レコーダ１Ａは少なくとも第１および第２のモードで動作可能である。

　第２の操作部２ｂは、音データ生成と文字起こし（テキストデータ生成。書き起こしと表記されてもよい）と翻訳との開始をユーザから１回の指定（クリックまたは押下）で受け付け、ユーザから音データ生成と文字起こしと翻訳とが指示されたことを示す信号をプロセッサ６へ送信する。

　なお、第２の操作部２ｂは、音データ生成と文字起こしとをユーザから１回の指定で受け付け、翻訳を他の指定で受け付けてもよい。

　ＡＤＣ４は、解析情報９をプロセッサ６へ送信する。なお、ＡＤＣ４は、解析情報９をＤＡＣ５７経由でプロセッサ６の入力ポート６ｐへ送信してもよい。

　ＤＡＣ５７は、ＡＤＣ４から受信したデジタル信号に対して、デジタル／アナログ変換を行い、アナログ信号を、プロセッサ６におけるアナログ信号用の入力ポート６ｐへ送信する。

　また、ＤＡＣ５７は、プロセッサ６から受信した音出力用のデジタル信号をアナログ信号へ変換し、アナログ信号をスピーカ５６または出力用コネクタＣｏへ出力する。

　時計装置５９は、例えばプロセッサ６へ時間情報を送信する。

　プロセッサ６は、入力ポート６ｐから入力したアナログ信号に対するアナログ／デジタル変換機能６ａを備える。

　アナログ／デジタル変換機能１１ａは、ＤＡＣ５７からプロセッサ６のアナログ信号用の入力ポート６ｐ経由でアナログ信号を受信すると、アナログ信号をデジタル信号に変換する。

　図６は、第２の実施形態に係るレコーダ１Ａの外観を示す正面図である。

　このレコーダ１Ａの正面には、表示装置３と、第１の操作部２ａと、第２の操作部２ｂと、第３の操作部２ｃと、スピーカ５６と、マイクロフォンＭとが配置されている。

　表示装置３には、メタデータ１３の一部と文字データ１６の一部とが表示されている。

　図６には図示されていないが、例えば、レコーダ１Ａの上面または側面には、外付けのマイクロフォンＭ１～Ｍｎ用の複数のコネクタＣ１～Ｃｎが配置されている。

　第１の操作部２ａは、モードの指定を受け付ける。第２の操作部２ｂは、文字起こしの開始と終了の指示を受け付ける。第３の操作部２ｃは、電源のオン／オフを受け付ける。

　以上説明した第２の実施形態に係るレコーダ１Ａを用いることにより、上記の第１の実施形態で説明したレコーダ１を用いる場合と同様の効果を得ることができる。

　第２の実施形態に係るレコーダ１Ａを使用するユーザは、レコーダ１Ａの第２の操作部２ｂを用いて、音の録音と文字起こし、あるいは、音の録音と文字起こしと翻訳とを１回の指定により容易に行うことができ、ユーザの利便性を向上させることができる。

　（第３の実施形態）
　第３の実施形態では、第１の実施形態で説明した第１のサーバ１９の変形例を説明する。第３の実施形態では、第１のサーバが、レコーダ１またはユーザ端末２９から、メタデータ１３と、音データ１４と、文字起こしリクエストとを受信した場合を例として説明する。なお、第１のサーバが、レコーダ１またはユーザ端末２９から、翻訳リクエストまたは話者認識リクエストを受信した場合も、同様である。また、先で説明したように、リクエストの送受信は省略されてもよい。

　図７は、第３の実施形態に係る第１のサーバ１９Ａの構成の一例を示すブロック図である。

　第１のサーバ１９Ａは、ユーザの所有するレコーダ１またはユーザ端末２９とゲートウェイ６１を介して通信可能である。ゲートウェイ６１は、インタフェースの異なる装置間での通信を可能とする。

　第１のサーバ１９Ａは、ＡＰＩ＆スタティックウェブページ６２、データベース６３、音データ１４用の記憶装置６４、文字起こしタスクキュー６５、文字起こし処理６６、文字データ１６およびピックアップ・セグメント３５用の記憶装置６７を備える。

　データベース６３、記憶装置６４、記憶装置６７は、上記第１の実施形態で説明した第１のサーバの記憶装置３１に相当する。

　ＡＰＩ＆スタティックウェブページ６２は、まず、スタティックウェブページを、ゲートウェイ６１経由で、レコーダ１またはユーザ端末２９へ提供する。レコーダ１またはユーザ端末２９は、スタティックウェブページに基づいて動作する。これにより、レコーダ１またはユーザ端末２９と第１のサーバ１９ＡとがＡＰＩを用いて連携して動作可能となる。

　ＡＰＩ＆スタティックウェブページ６２は、例えば、第１の実施形態で説明した通信装置３０、受信部３７、表示制御部４２、送信部４１、ピックアップ部４３、見積生成部４４、依頼部４５、ブログエディタ４６などに相当する。

　ＡＰＩ＆スタティックウェブページ６２は、レコーダ１またはユーザ端末２９へ、ＡＰＩサービスを提供するとともに、ウェブサイトとしての機能を提供する。ＡＰＩ＆スタティックウェブページ６２は、レコーダ１またはユーザ端末２９からゲートウェイ６１経由でリクエストまたはデータを受信した場合に、リクエストまたはデータに応じた処理を実行し、データベース６３、記憶装置６４、記憶装置６７に記憶されておりリクエストまたはデータに対応するデータを、ゲートウェイ６１経由でレコーダ１またはユーザ端末２９へ送信する。

　具体的には、ＡＰＩ＆スタティックウェブページ６２は、例えば、レコーダ１またはユーザ端末２９からゲートウェイ６１経由で、メタデータ１３、音データ１４、文字起こしリクエストを受信する。そして、ＡＰＩ＆スタティックウェブページ６２は、メタデータ１３を、ユーザ情報６８と関連付けた状態でデータベース６３へ記憶させ、音データ１４を記憶装置６４へ記憶させる。

　また、ＡＰＩ＆スタティックウェブページ６２は、文字起こしリクエストまたは音データ１４を受信すると、文字起こしタスクキュー６５に、文字起こしタスクを記憶させる。

　さらに、ＡＰＩ＆スタティックウェブページ６２は、必要に応じて、データベース６３に記憶されているメタデータ１３、記憶装置６４に記憶されている音データ１４、または、記憶装置６７に記憶されている文字データ１６またはピックアップ・セグメント３５を読み出し、読み出したメタデータ１３、音データ１４、文字データ１６、ピックアップ・セグメント３５を、ゲートウェイ６１経由でユーザ端末２９へ送信する。

　文字起こしタスクキュー６５は、先入先出方式で、文字起こしタスクの実行順序を管理し、実行すべき文字起こしタスクを文字起こし処理６６へ提供する。

　文字起こし処理６６は、上記第１の実施形態で説明した文字起こし部３８に相当する。文字起こし処理６６は、文字起こしタスクキュー６５から取得した文字起こしタスクにしたがって、記憶装置６４に記憶されている音データ１４を読み出し、音データ１４に対応する文字データ１６を生成し、文字データ１６を記憶装置６７に記憶させる。さらに、文字起こし処理６６は、データベース６３で管理されているメタデータ１３を更新し、メタデータ１３に文字データ１６の位置情報を追加する。

　文字起こし処理６６は、例えばＡＰＩ２０ａを用いて第２のサーバ２０の文字起こし処理４７により文字データ１６を取得してもよい。

　以上説明した第３の実施形態に係る第１のサーバ１９Ａを用いることにより、上記の第１の実施形態で説明した第１のサーバ１９を用いる場合と同様の効果を得ることができる。

　第３の実施形態においては、メタデータ１３を記憶するデータベース６３と、音データ１４を記憶する記憶装置６４と、文字データ１６およびピックアップ・セグメント３５を記憶する記憶装置６７とを区別している。メタデータ１３、音データ１４、文字データ１６およびピックアップ・セグメント３５は、データの形式および種類が異なる。このように、形式および種類が異なるデータを異なる記憶装置に記憶することで、データの形式および種類に適した環境で、データを管理することができ、例えば検索のスピードを速くすることができ、記憶容量を抑制することができる。

　なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削減してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。

Claims

　複数のマイクロフォンと接続可能な複数のコネクタと、
　前記複数のコネクタのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換するアナログ・デジタルコンバータと、
　前記デジタル信号に基づいて音データを生成するコントローラと、
　前記コントローラによって生成された前記音データを記憶する記憶装置と、
を具備し、
　前記コントローラは、前記アナログ・デジタルコンバータから、前記複数のアナログ信号のレベルを含む解析情報を受信し、前記解析情報に基づいて前記複数のアナログ信号のレベルを調整するための制御コマンドを、前記アナログ・デジタルコンバータへ送信する、
レコーダ。
　前記コントローラは、前記音データを外部の装置へ送信し、前記外部の装置から前記音データに対して文字起こし処理を実行した結果である文字データを受信し、前記文字データを、前記音データと関連付けた状態で前記記憶装置に記憶させる、
請求項１のレコーダ。
　前記コントローラは、前記解析情報を前記外部の装置へ送信し、前記外部の装置から前記音データと前記解析情報とに基づいて話者認識処理を実行した結果である話者認識データを受信し、前記話者認識データを、前記音データおよび前記文字データと関連付けた状態で前記記憶装置に記憶させる、
請求項２のレコーダ。
　ユーザから第１のモードまたは第２のモードの指定を受け付ける操作装置をさらに具備し、
　前記コントローラは、前記第１のモードまたは前記第２のモードの指定にしたがって、前記音データの送信先のＡＰＩ（Application Programming Interface）を切り替える、
請求項２のレコーダ。
　請求項２のレコーダから前記音データを受信する情報処理装置において、
　前記レコーダから受信した前記音データを記憶する第１の記憶装置と、
　前記第１の記憶装置に記憶されている前記音データに対して前記文字起こし処理を実行した結果得られる前記文字データを記憶する第２の記憶装置と、
　前記第２の記憶装置に記憶されている前記文字データを前記レコーダへ送信する送信部と、
を具備し、
　前記文字データは、複数の文字セグメントに分割されており、
　前記複数の文字セグメントのうちユーザから指定されたセグメントを、ユーザから指定された前記第２の記憶装置内のファイルに組み込む、
情報処理装置。
　請求項３のレコーダから前記音データおよび前記解析情報を受信する情報処理装置において、
　前記レコーダから受信した前記音データおよび前記解析情報を記憶する第１の記憶装置と、
　前記音データと前記解析情報とに基づいて前記話者認識処理した結果得られる前記話者認識データを、前記第１の記憶装置に記憶させる話者認識部と、
を具備する、情報処理装置。
　複数のマイクロフォンのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換するアナログ・デジタルコンバータと、
　前記デジタル信号に基づいて音データを生成するコントローラと、
　前記コントローラによって生成された前記音データを記憶する記憶装置と、
を具備し、
　前記コントローラは、前記アナログ・デジタルコンバータから、前記複数のアナログ信号のレベルを含む解析情報を受信し、前記解析情報に基づいて前記複数のアナログ信号のレベルを調整するための制御コマンドを、前記アナログ・デジタルコンバータへ送信する、
情報処理システム。
　アナログ・デジタルコンバータによって、複数のマイクロフォンのそれぞれから受信した複数のアナログ信号をデジタル信号へ変換し、前記複数のアナログ信号のレベルを含む解析情報と前記デジタル信号をコントローラへ送信することと、
　前記コントローラによって、前記デジタル信号に基づいて音データを生成して前記音データを記憶装置に記憶し、前記解析情報に基づいて前記複数のアナログ信号のレベルを調整するための制御コマンドを、前記アナログ・デジタルコンバータへ送信することと、
を具備する情報処理方法。