WO2020213711A1

WO2020213711A1 - 通信端末、通信端末用アプリケーションプログラム及び通信方法

Info

Publication number: WO2020213711A1
Application number: PCT/JP2020/016858
Authority: WO
Inventors: 曜増田
Original assignee: 株式会社Ｂｏｎｘ
Priority date: 2019-04-19
Filing date: 2020-04-17
Publication date: 2020-10-22
Also published as: EP3958544A1; US20220239721A1; JPWO2020213711A1; EP3958544A4

Abstract

グループ通話中の録画を可能にし、かつ、動画データをユーザの通信端末に保存し、あるいは、音声データを付加した録画データをユーザの通信端末から配信することができる通信端末、通信端末用アプリケーションプログラム及び通信方法を提供する。グループ通話中に録画モードに切り替え、通信端末（１０Ａ）によって、自己音声データ（５０）、相手音声データ（５２）、録画データ（５４）を取得し、当該録画データ（５４）に、自己音声データ（５０）と相手音声データ（５２）を付加することで動画データ（５６）を生成する。このため、グループ通話中の録画が可能となり、かつ、動画データ（５６）をユーザの通信端末（１０Ａ）に保存することができ、自己の体験を保存し、あるいは、録画データに自己音声データ（５０）と録画データ（５２）を付加して他の通信端末にライブ配信することで、自己の体験を他のユーザと共有することができる。

Description

通信端末、通信端末用アプリケーションプログラム及び通信方法

　本発明は、通信端末及び通信端末用アプリケーションプログラム及び通信方法に関し、更に具体的には、通話中の録画技術及び配信技術に関するものである。

　従来のスマートフォンの仕様では、メッセージ・チャットアプリなどの通話機能を使用しながらＯＳ標準のビデオ撮影アプリを起動することができない。また、グループ通話に関する下記特許文献１には、ヘッドセットで検知した音声から高精度に人の発話部分を抽出して音声データを生成する手段と、弱電波環境に対応した動的な通信品質制御手段と、環境を考慮した騒音に強い再生制御手段の３つの手段を備え、これらを互いに連関させることによりグループ内での多対多通信で発生する問題を解決することが記載されている。

特許第６４１６４４６号公報

　しかしながら、従来のグループ通話の技術や上述した特許文献１に記載の技術では、グループ通話中の録画ができず、音声についてもサーバーサイドに記憶されることとなっている。一方、自分の体験を楽しむという観点からは、ユーザ端末側で録画した動画データを保存できることが望ましい。あるいは、自分の体験を他のユーザと共有することも自分の体験を楽しむという観点からは効果的である。
　一般に、動画等のデータ量の多いデータを送受信すると、通信ネットワーク負荷が高まるが、特に、グループ通話等の複数ユーザ間の動画通信は、送受信に遅延が生じてしまう。しかし、音声通話は、ユーザ間のコミュニケーションであるため、リアルタイム性が必要とされ、ネットワーク負荷を可能な限り回避した遅延のないデータ通信が求められる。さらに、動画を録画しながら通話する場合は、この動画の映像及び音声と、通話相手の音声との時間的な“ずれ”を可能な限りなくした動画を生成する必要がある。

　本発明は、以上のような点に着目したもので、通話中の録画を可能にし、かつ、通話及び録画で生成された動画データをユーザの通信端末に保存し、あるいは、音声データを付加した録画データをユーザの通信端末から配信することができる通信端末及び通信端末用アプリケーションプログラム及び通信方法を提供する。

　本発明は、他の通信端末と通信して接続する通信手段と、通信で接続された通信相手の音声のデータである相手音声データを取得する相手音声データ取得手段と、外部を撮影する撮影手段と、前記撮影手段が撮影した録画データを取得する録画データ取得手段と、前記録画データに、前記相手音声データを付加して、動画データを生成する動画生成手段と、を備える通信端末を提供する。

　また、本発明は、他の通信端末と通信して接続する通信手段と、通信で接続された通信相手の音声のデータである相手音声データを取得する相手音声データ取得手段と、外部を撮影した録画データに、相手音声データを付加して、前記通信手段を介して他の通信端末に配信する配信手段と、を備える通信端末を提供する。

　更に、本発明は、通信端末に、他の通信端末と通信して接続するステップと、通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、外部を撮影し、撮影された録画データを取得するステップと、前記録画データに、前記相手音声データを付加して、動画データを生成するステップと、を実行させる通信端末用アプリケーションプログラムを提供する。

　更に、本発明は、通信端末に、他の通信端末と通信して接続するステップと、通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、外部を撮影した録画データに、相手音声データを付加して、通信で接続された他の通信端末に配信するステップと、を実行させる通信端末用アプリケーションプログラムを提供する。
　更に、本発明は、通信端末が実行する通信方法であって、他の通信端末と通信して接続するステップと、通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、外部を撮影した録画データに、前記相手音声データを付加して、動画データを生成するステップと、を含むことを特徴とする通信方法を提供する。

　本発明によれば、通話中に録画モードに切り替え、通信端末によって、自己音声データ、相手音声データ、録画データを取得し、当該録画データに、自己音声データと相手音声データを付加することで動画データを生成することとした。このため、通話中の録画が可能となり、かつ、録画データをユーザの通信端末に保存して、自己の体験をユーザの通信端末に保存することができる。あるいは、通話中の録画データに自己音声データと相手音声データを付加して他の通信端末にライブ配信することで、自己の体験を他のユーザと共有することができる。例えば、録画したい相手がカメラとマイクから離れた場所にいる場合に、相手の通信端末で取得できた音を付加して動画データを生成するので、音も明確に取得できるとともに、品質が保持できる。

本発明の一実施形態の通信端末を用いたシステム全体の概要を示す概念図である。前記実施形態の通信端末のハードウェア構成及び機能構成を示すブロック図である。前記実施形態の通信端末の記憶部に記憶される各種データの一例を示す図である。前記システムに用いられるヘッドセットの構成を示すブロック図である。前記実施形態によるグループ通話中の録画手順の一例を示すフローチャートである。前記実施形態による録画中の環境音の録音のＯＮ／ＯＦＦ手順の一例を示すフローチャートである。前記実施形態の通信端末のグループ通話中の画面の一例である。前記実施形態によるグループ通話中の録画場面の一例を示す図である。前記実施形態によるグループ通話中の録画画面の一例を示す図である。

　以下、本発明を実施するための最良の形態を、実施例に基づいて詳細に説明する。

　＜全体構成＞・・・図１は、本実施形態に係る通信端末を用いたシステム全体の概要を示す概念図である。本システムは、グループ通話中における録画やライブ配信（リアルタイム配信）を可能とし、ユーザの体験（見たものや聞いたこと）を、ユーザの通信端末に保存したり、ユーザの通信端末から他の通信端末へライブ配信可能とするものである。システムは、複数のユーザ１１０Ａ～１１０Ｃの通信端末１０Ａ～１０Ｃと、これら複数の通信端末１０Ａ～１０Ｃ間でのグループ通話を管理するサーバ１００と、マイクやスピーカ等の機能を有するヘッドセット６０Ａ～６０Ｃにより構成されている。

　サーバ１００は、例えば、複数の通信端末１０Ａ～１０Ｃの音声通信を制御するためのＶｏＩＰ（Voice Over Internet Protocol）サーバや、複数の通信端末１０Ａ～１０Ｃの接続やＶｏＩＰサーバの割り振りを管理するＡＰＩ（Application Programmable Interface）を備えている。ＶｏＩＰサーバは、複数の通信端末１０Ａ～１０Ｃ間での断片的な音声パケットのやり取り（通話）を制御する。ＡＰＩサーバは、複数の通信端末１０Ａ～１０Ｃ間でグループ通話を行う際に、該グループ通話に必要となる情報をやり取りし、当該情報に基づいてＶｏＩＰサーバに対して指定して、グループ通話を実現する管理サーバとしての役割を有する。サーバ１００は、一つのサーバコンピュータによって構成してもよく、あるいは、複数のサーバコンピュータによって構成してもよい。サーバ１００は、インターネットを含むネットワーク１２０に接続しデータの送受信が可能となっている。

　前記通信端末１０Ａ～１０Ｃ間は、ネットワーク１２０を介したデータの送受信により互いに通信が可能となっており、通信端末１０Ａ～１０Ｃとサーバ１００も、同様にネットワーク１２０を介して互いに通信が可能となっている。ネットワーク１２０の一例は、ＬＴＥ（Long　Term　Evolution）、４Ｇ（第４世代携帯電話）、５Ｇ（第５世代携帯電話）等の大容量が扱えるＷｉＦｉと、有線でのネットワークにより実現される。また、通信端末１０Ａ～１０Ｃとヘッドセット６０Ａ～６０Ｃは、通信容量は小さく、通信距離も短いが、消費電力が小さい通信回線であって、例えば、Bluetooth（登録商標） Low Energy(BLE)規格などを利用した近距離無線通信により音声データなどの送受信が可能となっている。また、通信端末１０Ａ～１０Ｃ間は、音声パケットによる通話に限られず、通常の携帯電話網を介した音声通話が可能であってもよい。

　なお、通信端末１０Ａ～１０Ｃが、上述したサーバ１００による音声通信を管理する機能を有している場合には、サーバ１００を省略してシステムの構成が可能である。また、図１で示した通信端末１０Ａ～１０Ｃの数も一例であり、必要に応じて増減してよい。更に、後述するヘッドセット６０Ａ～６０Ｃの機能を通信端末１０Ａ～１０Ｃが有する場合には、ヘッドセット６０Ａ～６０Ｃを省略してシステムを構成してもよい。

　＜通信端末の構成＞・・・図２は、本実施形態の通信端末１０のハードウェア構成及び機能構成を示すブロック図である。通信端末１０は、携帯電話、スマートフォン、タブレット、通信型ゲーム機等であってよい。前記図１に示した通信端末１０Ａ～１０Ｃも、通信端末１０と同様の構成である。通信端末１０は、制御部１２と、通信部４０と、入力部４２と、表示部４４と、撮影部４６と、記憶部４８を備えている。

　制御部１２は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を備える。制御部１２は、所定のプログラムを読み込み、通話管理手段１４と、自己音声データ取得手段１６と、相手音声データ取得手段１８と、録画データ取得手段２０と、動画生成手段２２と、配信手段２４と、編集手段２５と、音量調整手段２６と、環境音選択手段２８と、切替手段３０とを実現する。

　通話管理手段１４は、他の通信端末（例えば、通信端末１０Ａからみて、通信端末１０Ｂや通信端末１０Ｃなど）との通話を管理するものであって、グループ通話用のアプリケーションの起動や、グループのメンバーの管理等を行う。グループ通話の管理は、必要に応じてサーバ１００によって行うようにしてもよい。

　自己音声データ取得手段１６は、通話中にユーザの自己の音声を取得して自己音声データ５０を作成するものである。ユーザの自己の音声データは、通信端末１０のマイクを通じて取得した音声から作成してもよいし、後述するヘッドセット６０から通信端末１０に送信された音声データを受信して取得してもよい。作成された自己音声データ５０は、記憶部４８に記憶される。また、自己音声データ５０には、必要に応じて時間情報が付加される。

　相手音声データ取得手段１８は、通信で接続された通信相手の音声のデータである相手音声データ５２を取得するものである。相手音声データ取得手段１８は、通常の音声通話中の相手の音声から相手音声データ５２を作成するようにしてもよいし、通信相手の通信端末において作成された断片的な音声パケットを、ネットワーク１２０を介して前記通信部４０において受信して取得してもよい。取得された相手音声データ５２は、記憶部４８に記憶される。また、相手音声データ５２には、必要に応じて時間情報が付加される。

　録画データ取得手段２０は、撮影部４６によって外部を撮影した録画データ（画像データのみ）５４を取得するものである。取得した録画データ５４は、記憶部４８に記憶される。録画データ５４には、必要に応じて時間情報が付加される。

　動画生成手段２２は、録画データ５４に、自己音声データ５０と相手音声データ５２を付加して、動画データ５６を生成するものである。生成した動画データ５６は、記憶部４８に記憶される。動画データ５６の生成の際、自己音声データ５０、相手音声データ５２及び録画データ５４がそれぞれ時間情報を有する場合には、動画生成手段２２は、それぞれの時間情報を同期させて動画データ５６を生成してもよい。また、相手音声データ５２と録画データ５４が時間情報を有する場合には、動画生成手段２２は、自己音声データ５０を逐次、前記録画データ５４に付加し、相手音声データ５２は時間情報を同期させて録画データ５４に付加して動画データ５６を生成してもよい。あるいは、動画生成手段２２は、自己音声データ５０及び相手音声データ５２を、時間情報を用いることなく、逐次録画データ５４に付加して動画データ５６を生成し、リアルタイムに動画生成してもよい。すなわち、「随時入力される相手側の音声」を自己で録画した動画にリアルタイムで合成する。
　このように構成することで、データ量の多い（データのファイルサイズが大きい）録画データは送受信せずに、手元の通信端末１０に記憶し、データ量の少ない（データのファイルサイズが小さい）相手音声データ５２のみを通信で受信し、これらを合成する。
　したがって、データ量の負荷によるネットワークの遅延等を最小限にして、高品質の動画データをリアルタイムで生成することが可能となる。
　また、音声トラックと録画トラックを専用のソフトウェアでミキシングする等の手間と時間をかけることなく、スマートフォンといった通常の通信端末１０による構成で、臨場感のある動画データを生成することが可能となる。

　配信手段２４は、通話中に撮影部４６によって撮影した録画データに、取得した自己音声データ５０と相手音声データ５２を付加して、通信部４０を介してネットワーク１２０経由で、他の通信端末にライブ配信（ライブストリーミング）するものである。配信手段２４によるライブ配信は、前記動画生成手段２２による動画の生成と並行して行うようにしてもよいし、動画生成手段２２による動画生成に代えて行うようにしてもよい。

　編集手段２５は、他の通信端末１０で生成された動画データを、通信部４０を介して受信して取得し、自己の通信端末１０で生成された動画データ５６とミキシングするものである。例えば、ユーザ１１０Ａが端末１０Ａによって、ユーザ１１０Ｂのパフォーマンス（スケートボードの実演など）を撮影し、別のユーザ１１０Ｃが、ユーザ１１０Ａとは別の位置や角度から、ユーザ１１０Ｂのパフォーマンスを同時に撮影し、生成したそれぞれの動画データをミキシングして楽しむという具合である。編集された動画データ５６も、必要に応じて記憶部４８に記憶される。

　音量調整手段２６は、取得した自己音声データ５０と相手音声データ５２の音量を調整するもので、自己音声データ５０と相手音声データ５２の音量をそろえたり、録画者の音声は小さく落とすというような調整を行う。音量調整手段２６による調整は自動的に行うようにしてもよいし、ユーザにより入力部４２によって入力された内容を受け付けて設定してもよい。

　環境音選択手段２８は、録画中に環境音をカットする機能をＯＮ／ＯＦＦしたり、カットする環境音を選択したりするものである。録画中に環境音カット機能をＯＦＦにすると、撮影対象のユーザの音声データ（相手音声データ）の取得の遅延を防止することができる。一方で、環境音カット機能をＯＮにすると、例えば、撮影対象のユーザ側の環境音をカットしてクリアな相手音声データを得ることができる。

　例えば、環境音カット機能をＯＦＦにする場合、ユーザ１１０Ａの通信端末１０Ａの環境音選択手段２８が、通信部４０を介して撮影対象のユーザ１１０Ｂの通信端末１０Ｂに環境音カット機能の停止信号を送信する。通信端末１０Ｂが通信部４０を介して前記停止信号を受信すると、通信端末１０Ｂの環境音選択手段２８は、ヘッドセット６０Ｂに環境音カット機能の停止信号を近距離無線通信により送信する。ヘッドセット６０Ｂは、近距離無線通信により受信した環境音カット機能の停止信号に従い、環境音カット機能を停止する。環境音カット機能を停止することにより、音声データの送受信の遅延を防止することができることに加え、周辺ノイズが聞こえることによって臨場感が増す。

　他方、環境音カット機能をＯＦＦ状態からＯＮ状態にする場合、ユーザ１１０Ａの通信端末１０Ａの環境音選択手段２８が、通信部４０を介して撮影対象のユーザ１１０Ｂの通信端末１０Ｂに環境音カット機能の開始信号を送信する。通信端末１０Ｂが通信部４０を介して前記開始信号を受信すると、通信端末１０Ｂの環境音選択手段２８は、ヘッドセット６０Ｂに環境音カット機能の開始信号を近距離無線通信により送信する。ヘッドセット６０Ｂは、近距離無線通信により受信した環境音カット機能の開始信号に従い、環境音カットを開始する。環境音カット機能を用いることにより、撮影対象のユーザ１１０Ｂ音声がクリアに聞こえて、コミュニケーションがスムースに進むという利点がある。

　以上のような環境音カット機能のＯＮ／ＯＦＦは、ユーザ側で自由に選択することができる。また、カットしたい環境音とカットしたくない環境音がある場合、例えば、継続的な環境音（呼吸や風切りオン）はカットし、突発的環境音（着地や急なターン音）はカットしないように自動的に選択を行うようにしてもよいし、ユーザが設定してもよい。

　切替手段３０は、通話モードと録画モードの切り替えを行うもので、通話中に録画機能を立ち上げたり、録画機能の停止をしたりするもので、表示部４４に表示される切替用のボタンによって通話モードと録画モードの切り替えを行う。

　通信部４０は、ネットワーク１２０を介して他の通信端末と通信して接続したり、サーバ１００と通信して接続しデータの送受信を行うものである。また、通信部４０は、ヘッドセット６０と近距離無線通信して接続し、データの送受信を行う。

　入力部４２は、例えば、タッチパネルやマイクが含まれるが、これらに限定されるものではない。表示部４４は、例えば、タッチパネルである。撮影部４６は、カメラが含まれる。

　記憶部４８は、各種データを記憶するもので、図２の例では、自己音声データ５０、相手音声データ５２、録画データ５４が含まれる。図３には、本実施形態の通信端末１０の記憶部４８に記憶される各種データの一例が示されている。以下では、時間情報が付加される態様で説明するが、自己音声データ５０と相手音声データ５２をリアルタイムで合成しておき、その後、合成した音声データを録画データに付加するために、時間情報が付加されない態様であってもよい。図３(A)には、自己音声データ５０の一例が示されている。自己音声データ５０は、断片的な自己音声データと（例えば、音声データ０１、音声データ０２）、開始時間（例えば、2019/03/05　13:15:10）及び終了時間（例えば、2019/03/05　13:15:15）というように、時間情報が付加されて記憶される。

　図３(B)には、相手音声データ５２の一例が示されている。相手音声データ５２は、断片的な相手音声データ（例えば、音声データ０１、音声データ０２）と、どのユーザの音声であるかを識別するユーザＩＤ（例えば、ユーザＢ、ユーザＣ）と、開始時間（例えば、2019/03/05　13:15:18）と、終了時間（例えば、2019/03/05　13:15:24）というように、時間情報が付加されて記憶される。

　図３(C)には、録画データ５４の一例が示されている。録画データ５４は、録画データのＩＤ（例えば、録画データ０１）、被録画者（例えば、ユーザＢ）、開始時間（例えば、2019/03/05　13:15:03）、終了時間（例えば、2019/03/05　13:15:43）というように、時間情報が付加して記憶される。

　＜ヘッドセットの構成＞・・・次に、本システムに用いられるヘッドセットの構成を説明する。図４は、本実施形態のヘッドセット６０の構成を示すブロック図である。なお、他のヘッドセット６０Ａ～６０Ｃも、ヘッドセット６０と同様の構成である。ヘッドセット６０は、音声検知部６２と、環境音分離部６４と、近距離無線通信部６６と、再生部６８を備える。

　音声検知部６２は、周囲の音声や、ヘッドセット６０の装着者（ユーザ）が発する音声を検知するものである。環境音分離部６４は、検知した音声に含まれる環境音を必要に応じて分離するものである。上述したように、環境音カット機能のＯＮ／ＯＦＦは、録画者の通信端末１０の環境音選択手段２８によって環境音カットの開始信号又は停止信号が通信手段４０を介して送信され、録画対象のユーザの通信端末１０の通信手段４０が前記開始信号又は停止信号を受信すると、録画対象のユーザの通信端末１０の環境音選択手段２８が、近距離無線通信によってヘッドセット６０へ環境音カットの開始信号又は停止信号を送信する。環境音分離部６４は、後述する近距離無線通信部６６を介して環境音カットの開始信号又は停止信号を受信すると、受信した信号に応じて環境音カット機能を開始又は停止する。

　近距離無線通信部６６は、例えば、Bluetooth（登録商標） Low Energy(BLE)規格の通信によって、通信端末１０と接続し、データや信号の送受信を行うものである。再生部６８は、近距離無線通信部６６によって通信端末１０から取得した通話相手の音声や、音声検知部６２によって検知した自己の音声を再生するものである。なお、上述したヘッドセット６０に含まれる機能を通信端末１０が備える場合には、ヘッドセット６０を省略してシステムを構成することが可能である。同様に、サーバ１００による通話管理機能を通信端末１０が備える場合には、サーバ１００を省略してシステムを構成することが可能である。

　＜録画処理＞・・・次に、本システムによる録画処理の一例について、図５～図９を参照して説明する。図５は、本実施形態によるグループ通話中の録画手順の一例を示すフローチャートである。図６は、本実施形態による録画中の環境音カット機能のＯＮ／ＯＦＦの手順の一例を示すフローチャートである。図７は、本実施形態の通信端末のグループ通話中の画面の一例を示す図、図８は、本実施形態によるグループ通話中の録画場面の一例を示す図、図９は、本実施形態によるグループ通話中の録画画面の一例を示す図である。

　まず、ユーザ１１０Ａは、他のユーザ１１０Ｂ、１１０Ｃとのグループ通話を開始する（ステップＳ１０）。グループ通話の開始は、通話管理手段１４によって、あらかじめ設定されたグループのメンバーにサーバ１００を介して通信を接続することにより実現される。なお、グループ通話の通話は、音声パケットによる通信でもよいし、通常の携帯電話網を利用した通話であってもよい。

　図７は、グループ通話を行っている最中に通信端末１１０Ａの表示部４４に表示される画面の一例が示されている。グループ通話画面８０には、通話の確立／切断を行うためのボタン８２、グループ通話中の他のユーザ１１０Ｂ及び１１０Ｃを示すアイコン８４、８６、録画を開始するためのボタン８８などが示されている。

　例えば、図８に示すように、ユーザ１１０Ａが、通話中のメンバーであるユーザ１１０Ｂのスケートボードのパフォーマンスを録画する場合には（ステップＳ１２でＹｅｓ）、録画開始用のボタン８８をタップすることにより、切替手段３０によって図９に示す録画画面９０が表示される。なお、録画対象となるユーザ１１０Ｂは、図９に示すように、通信端末１０Ｂとヘッドセット６０Ｂを身につけた状態でパフォーマンスを行う。
　録画を行うユーザ１１０Ａは、自分の通信端末１０Ａに搭載された撮影部４６のカメラを用いて動画を撮影し、自身の通信端末１０Ａの記憶部４８に記憶する。演者であるユーザ１１０Ｂは、一切、通信端末１０Ｂを操作することなくパフォーマンスを行う。パフォーマンス中を含む時間に、通信端末１０Ａと通信端末１０Ｂの通信は確立されており、演者であるユーザ１１０Ｂの声（音声データ）は、ほぼリアルタイムで録画を行うユーザ１１０Ａの通信端末１０Ａに送信されている。

　図９に示す録画画面９０には、録画開始からの経過時間を示す時間情報９２と、録画の停止／開始を切り替えるためのボタン９４と、環境音カット機能のＯＮ／ＯＦＦを行うためのボタン９６と、ハンズフリーモードとプッシュトークモードの切り替えを行うボタン９７と、マイクミュートのＯＮ／ＯＦＦを設定するためのボタン９８が表示されている。

　録画が開始されると、通信端末１０Ａは、自己音声データ取得手段１６によって、通話中のユーザ１１０Ａの音声を取得して自己音声データ５０を作成する。ユーザ１１０Ａの自己の音声は、通信端末１０Ａのマイクを通じて取得したものであってもよいし、ヘッドセット６０Ａから通信端末１０Ａに送信された音声データを受信して取得してもよい。（ステップＳ１４）。作成された自己音声データ５０は、記憶部４８に記憶される。また、自己音声データ５０には、必要に応じて時間情報が付加されてもよい。

　また、通信端末１０Ａは、相手音声データ取得手段１８によって、通信で接続された通信相手の音声のデータである相手音声データ５２を取得する（ステップＳ１４）。相手音声データ取得手段１８は、通常の音声通話中の相手の音声から相手音声データ５２を作成するようにしてもよいし、通信相手の通信端末において作成された断片的な音声パケットを、ネットワーク１２０を介して前記通信部４０において受信して取得してもよい。取得された相手音声データ５２は、記憶部４８に記憶される。

　以上のように取得した自己音声データ５０と相手音声データ５２は、必要に応じて、音量調整手段２６によって、自己音声データ５０と相手音声データ５２の音量を一致させたり、録画者の音声は小さく落とすというような調整を行ってもよい。音量調整手段２６による調整は自動的に行うようにしてもよいし、録画者（ユーザ１１０Ａ）が入力部４２によって設定した入力を受け付けて行うようにしてもよい。

　更に、通信端末１０Ａに搭載された録画データ取得手段２０は、撮影部４６によって撮影した周囲の録画データ（画像データのみ）５４を取得する（ステップＳ１４）。取得した録画データ５４は、記憶部４８に記憶される。録画データ５４には、必要に応じて時間情報が付加されて記憶されてもよい。

　次に、通信端末１０Ａは、動画生成手段２２によって、録画データ５４に、自己音声データ５０と相手音声データ５２を付加して、動画データ５６を生成する（ステップＳ１６）。動画生成手段２２は、自己音声データ５０、相手音声データ５２及び録画データ５４がそれぞれ時間情報を有する場合には、それぞれの時間情報を同期させて動画データ５６を生成してもよい。また、相手音声データ５２と録画データ５４が時間情報を有する場合には、自己音声データ５０は逐次録画データ５４に付加し、相手音声データ５２は時間情報を同期させて録画データ５４に付加して動画データ５６を生成してもよい。あるいは、自己音声データ５０及び相手音声データ５２を、時間情報を用いることなく、逐次録画データ５４に付加して動画データ５６を生成し、リアルタイムに動画生成してもよい。なお、例えば、自己音声データ５０と相手音声データ５２とを合成しておき、録画終了の指示を行った際に、録画データに、この合成した音声データを付加してもよい。

　生成された動画データ５６は、ユーザ１１０Ａの通信端末１０Ａに搭載された記憶部４８に記憶される（ステップＳ１８）。これによって、撮影を行ったユーザ１１０Ａ自身の通信端末１０Ａに動画データ５６を保存できるため、録画データを通信することなく自身の体験を記憶することが可能となる。録画を終了する場合には、図９に示す録画画面９０において、ボタン９２をタップすると切替手段３０によって、録画画面から通話画面に画面の表示が切り替えられる。

　図６には、録画中の環境音カット機能のＯＮ／ＯＦＦの手順の一例を示すフローチャートが示されている。前記ステップＳ１２において録画を開始すると（ステップＳ２０）、図９に示す録画画面９０が表示される。録画画面９０においてボタン９２をタップして環境音カットを選択すると（ステップＳ２２でＹｅｓ）、環境音選択手段２８は、通信手段４０を介して、録画対象者（ユーザ１１０Ｂ）の通信端末１０Ｂに環境音カットの信号を送信する（ステップＳ２４）。

　通信端末１０Ｂは、環境音カットの信号を通信部４０を介して受信すると、環境音選択手段２８が、近距離無線通信によって、ヘッドセット６０Ｂに環境音のカット信号を送信する。環境音のカット信号を近距離無線通信部６６により受信したヘッドセット６０Ｂでは、環境音分離手段６４によって、音声検知部６２で検知された音声から環境音を分離する。環境音が分離された音声データは、近距離無線通信部６６により通信端末１０Ｂに送信される。環境音が分離された音声データを受信した通信端末１０Ｂは、通信部４０を介して音声データを他の通信端末１０Ａに送信する。環境音がカットされた音声データを通信部４０を介して受信することで、通信端末１０Ａは環境音がカットされた音声データを取得する（ステップＳ２６）。その後の処理は、図４のステップＳ１６へ続く。環境音カット機能をＯＮにしている場合には、音声がクリアに聞こえて、コミュニケーションがスムースに進むという利点がある。

　一方、ボタン９２をタップして環境音カット機能の停止を選択すると（ステップＳ２２でＮｏ）、環境音選択手段２８は、通信手段４０を介して、録画対象のユーザ１１０Ｂの通信端末１０Ｂに環境音カット機能の停止信号を送信する（ステップＳ２８）。通信端末１０Ｂが通信部４０を介して前記停止信号を受信すると、通信端末１０Ｂの環境音選択手段２８は、ヘッドセット６０Ｂに環境音カット機能の停止信号を近距離無線通信により送信する。ヘッドセット６０Ｂは、近距離無線通信部６６により受信した環境音カット機能の停止信号に従い、環境音分離部６４による環境音カット機能を停止し、音声検知部６２で検知された音声データをそのまま、近距離無線通信部６６によって通信端末１０Ｂに送信する。通信端末１０Ｂは、受信した音声データを、通信部４０を介して通信端末１０Ａに送信する。これにより、通信端末１０Ａは、環境音を含む相手音声データ５２を取得する（ステップＳ３０）。その後の処理は、図５のステップＳ１６へ続く。環境音カット機能を停止することにより、音声データの送受信の遅延を防止することができることに加え、周辺ノイズが聞こえることによって臨場感が増す。

　このような環境音カット機能のＯＮ／ＯＦＦは、ユーザ１０Ａが自由に選択することができる。また、カットしたい環境音とカットしたくない環境音がある場合、例えば、継続的な環境音（呼吸や風切りオン）はカットし、突発的環境音（着地や急なターン音）はカットしないように自動的に選択を行うようにしてもよいし、ユーザ１０Ａの入力を受け付けて設定してもよい。

　以上のようにして生成された動画データ５６は、ユーザ１１０Ａの通信端末１０Ａに記憶するのみならず、他のユーザ１１０Ｂ、１１０Ｃに通信手段４０を介して送信することで、シェアしてもよい。また、編集手段２５によって、他の通信端末１０Ｃで生成された動画データを、通信部４０を介して受信して取得し、自己の通信端末１０Ａで生成された動画データ５６とミキシングしてもよい。例えば、ユーザ１１０Ａが端末１０Ａによって、ユーザ１１０Ｂのパフォーマンスを撮影し、別のユーザ１１０Ｃが、ユーザ１１０Ａとは別の位置や角度から、ユーザ１１０Ｂのパフォーマンスを同時に撮影して、生成されたそれぞれの動画データをミキシングして楽しむという具合である。編集された動画データも、必要に応じて記憶部４８に記憶したり、他のユーザにシェアしてもよい。

　更に、録画者（ユーザ１１０Ａ）の通信端末１０Ａの配信手段２４は、通話中に撮影部４６によって撮影した録画データに、取得した自己音声データ５０と相手音声データ５２を付加して、通信部４０を介してネットワーク１２０経由で他の通信端末にライブ配信（リアルタイム配信）をしてもよい。配信手段２４によるライブ配信は、前記動画生成手段２２による動画の生成と並行して行うようにしてもよいし、動画生成手段２２による動画生成に代えて行うようにしてもよい。

　＜効果＞・・・以上説明した実施形態によれば、グループ通話中に録画モードに切り替え、通信端末１０Ａによって、自己音声データ５２、相手音声データ５４、録画データ５４を取得し、当該録画データ５４に、自己音声データ５２と相手音声データ５４を付加することで動画データ５６を生成することとした。このため、グループ通話中の録画が可能となり、かつ、録画データ５４をユーザの通信端末１０に保存することができ、自己の体験を保存することができる。あるいは、録画データに自己音声データ５２と相手音声データ５４を付加して他の通信端末にライブ配信することが可能となる。
　したがって、データ量の少ない相手音声データを通信によって取得し、手元の通信端末１０Ａで撮影している録画データと相手音声データ（及び自己音声データ）を合成するので、録画データの画像に対して、相手音声の遅延を短くすることが可能であり、結果として、自然な動画データを生成したり、ライブ配信することができる。配信時は、配信の時点でデータ遅延が発生したとしても、録画データと音声データが自然に合成された動画データを配信するため、より自然な動画を他のユーザと共有することができる。

　なお、上述した実施形態は一例であり、本発明は、上述した実施形態に限られるものではない。例えば、上述した実施形態では、サーバ１００やヘッドセット６０をシステムに用いることとしたが、これらの機能を通信端末が有する場合には、通信端末１０のみでシステムを構成することが可能である。また、上述した実施形態では、ユーザ１１０Ａ～１１０Ｃ間のグループ通話を例に挙げて説明したが、ユーザの数は更に多くてもよいし、あるいは、一対一の通話に本発明を提供することを妨げるものではない。
　本実施例では、スケートボードのパフォーマンスを撮影対象の例として説明したが、この限りではない。例えば、飛行場の整備工場等のような、騒音下において、本実施例の複数の通信端末を活用していれば、整備を行っている作業者の様子と音声を、騒音の影響を落として、リアルタイムに保存し（動画として）整備記録を生成することが、追加の機器を必要とせず可能となる。この際、撮影者が現場監督であれば、自分の目で見た状況に加えて、手元の通信端末１０の撮影機能で拡大表示した作業者の手元の画像を確認しながら作業者に指示を出すことで、作業者には、騒音を落として遅延なく音声の指示を伝えつつ、指示の音声も同時に整備記録に残すことが出来る。

　また、上述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明の効果は、上述した実施形態に記載されたものに限定されるものではない。更に、本発明は、通信端末で実行されるアプリケーションプログラムとして提供されてもよい。このアプリケーションプログラムは、ネットワークを介してダウンロードしてもよい。

　本発明によれば、通話中に録画モードに切り替え、通信端末によって、自己音声データ、相手音声データ、録画データを取得し、当該録画データに、自己音声データと録画データを付加することで動画データを生成することとした。このため、通話中の録画が可能となり、かつ、動画データをユーザの通信端末に保存することができる。あるいは、録画データに自己音声データと相手音声データを付加して他の通信端末にライブ配信することができる。このため、自己の体験（見聞きしたもの）を自己の通信端末に保存したり、他のユーザと共有したりすることができ、利便性の高いコミュニケーションツールとして好適である。

　１０、１０Ａ～１０Ｃ：通信端末
　１２：制御部
　１４：通信手段
　１６：自己音声データ取得手段
　１８：相手音声データ取得手段
　２０：録画データ取得手段
　２２：動画生成手段
　２４：配信手段
　２５：編集手段
　２６：音量調整手段
　２８：環境音選択手段
　３０：切替手段
　４０：通信部
　４２：入力部
　４４：表示部
　４６：撮影部
　４８：記憶部
　５０：自己音声データ
　５２：相手音声データ
　５４：録画データ
　５６：動画データ
　６０、６０Ａ～６０Ｃ：ヘッドセット
　６２：音声検知部
　６４：環境音分離部
　６６：近距離無線通信部
　６８：再生部
　８０：グループ通話画面
　８２、８８、９４、９７、９８：ボタン
　８４、８６：アイコン
　８８：マーク
　９０：録画画面
１００：サーバ
１１０Ａ～１１０Ｃ：ユーザ

Claims

　他の通信端末と通信して接続する通信手段と、
　通信で接続された通信相手の音声のデータである相手音声データを取得する相手音声データ取得手段と、
　外部を撮影する撮影手段と、
　前記撮影手段が撮影した録画データを取得する録画データ取得手段と、
　前記録画データに、前記相手音声データを付加して、動画データを生成する動画生成手段と、
　を備えることを特徴とする通信端末。
　通話中に使用者の音声を取得して自己音声データを作成する自己音声データ取得手段を備え、
　前記動画生成手段は、前記録画データに、前記自己音声データ及び前記相手音声データを付加して、動画データを生成する請求項１に記載の通信端末。
　前記相手音声データ取得手段は、通話中の相手の音声から前記相手音声データを作成することを特徴とする請求項１に記載の通信端末。
　前記相手音声データ取得手段は、通信相手の通信端末において作成された断片的な音声パケットを前記通信手段から取得することを特徴とする請求項１に記載の通信端末。
　前記自己音声データと、前記相手音声データと、前記録画データは、それぞれ時間情報を有し、
　前記動画生成手段は、前記それぞれの時間情報を同期させて付加することを特徴とする請求項１～４のいずれか一項に記載の通信端末。
　前記相手音声データ及び前記録画データは、それぞれ時間情報を有し、
　前記動画生成手段は、前記自己音声データを逐次前記録画データに付加し、前記相手音声データは前記時間情報を同期させて前記録画データに付加する請求項１～４のいずれか一項に記載の通信端末。
　前記動画生成手段は、前記自己音声データ及び前記相手音声データを、逐次前記録画データに付加することを特徴とする請求項１～４のいずれか一項に記載の通信端末。
　他の通信端末で生成された動画データを前記通信手段から取得し、自己の通信端末で生成された動画データと編集する動画編集手段と、
を備えることを特徴とする請求項１～７のいずれか一項に記載の通信端末。
　前記動画データを、前記通信手段を介して他の通信端末に配信する配信手段と、
を備えることを特徴とする請求項１～８のいずれか一項に記載の通信端末。
　他の通信端末と通信して接続する通信手段と、
　通信で接続された通信相手の音声のデータである相手音声データを取得する相手音声データ取得手段と、
　外部を撮影した録画データに、前記相手音声データを付加して、前記通信手段を介して他の通信端末に配信する配信手段と、
を備えることを特徴とする通信端末。
　通信端末に、
　他の通信端末と通信して接続するステップと、

　通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、
　外部を撮影し、撮影された録画データを取得するステップと、
　前記録画データに、前記相手音声データを付加して、動画データを生成するステップと、
　を実行させることを特徴とする通信端末用アプリケーションプログラム。
　通信端末に、
　他の通信端末と通信して接続するステップと、

　通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、
　外部を撮影した録画データに、前記相手音声データを付加して、通信で接続された他の通信端末に配信するステップと、
　を実行させることを特徴とする通信端末用アプリケーションプログラム。
　通信端末が実行する通信方法であって、
　他の通信端末と通信して接続するステップと、
　通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、
　外部を撮影した録画データに、前記相手音声データを付加して、動画データを生成するステップと、
　を含むことを特徴とする通信方法。