WO2020213711A1 - 通信端末、通信端末用アプリケーションプログラム及び通信方法 - Google Patents

通信端末、通信端末用アプリケーションプログラム及び通信方法 Download PDF

Info

Publication number
WO2020213711A1
WO2020213711A1 PCT/JP2020/016858 JP2020016858W WO2020213711A1 WO 2020213711 A1 WO2020213711 A1 WO 2020213711A1 JP 2020016858 W JP2020016858 W JP 2020016858W WO 2020213711 A1 WO2020213711 A1 WO 2020213711A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice data
data
communication
communication terminal
party
Prior art date
Application number
PCT/JP2020/016858
Other languages
English (en)
French (fr)
Inventor
曜 増田
Original Assignee
株式会社Bonx
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Bonx filed Critical 株式会社Bonx
Priority to EP20791950.7A priority Critical patent/EP3958544A4/en
Priority to JP2021514233A priority patent/JPWO2020213711A1/ja
Priority to US17/615,623 priority patent/US20220239721A1/en
Publication of WO2020213711A1 publication Critical patent/WO2020213711A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/4147PVR [Personal Video Recorder]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/04Systems for the transmission of one television signal, i.e. both picture and sound, by a single carrier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/62Details of telephonic subscriber devices user interface aspects of conference calls

Definitions

  • the present invention relates to a communication terminal, an application program for a communication terminal, and a communication method, and more specifically, to a recording technique and a distribution technique during a call.
  • Patent Document 1 a means for generating voice data by extracting a human utterance part from the voice detected by a headset with high accuracy and dynamic communication quality control corresponding to a weak radio wave environment are provided. It is described that it is provided with three means, a means and a noise-resistant reproduction control means in consideration of the environment, and by linking these means, a problem occurring in many-to-many communication within a group can be solved.
  • the present invention focuses on the above points, enables recording during a call, saves moving image data generated by the call and recording in a user's communication terminal, or adds voice data.
  • a communication terminal an application program for a communication terminal, and a communication method capable of distributing recorded data from a user's communication terminal.
  • the present invention comprises a communication means for communicating and connecting with another communication terminal, a partner voice data acquisition means for acquiring partner voice data which is voice data of a communication partner connected by communication, and a photographing means for photographing the outside.
  • a communication terminal including a recording data acquisition means for acquiring the recorded data captured by the photographing means, and a moving image generating means for adding the other party's voice data to the recorded data to generate moving image data. ..
  • a communication means for communicating with and connecting to another communication terminal, a other party's voice data acquisition means for acquiring the other party's voice data which is the voice data of the communication partner connected by communication, and the outside are photographed.
  • a communication terminal including a distribution means for adding a partner's voice data to the recorded data and distributing the data to another communication terminal via the communication means.
  • the present invention takes a picture of the outside, a step of communicating with another communication terminal and connecting to the communication terminal, a step of acquiring the other party's voice data which is the voice data of the communication partner connected by communication, and the outside.
  • an application program for a communication terminal that executes a step of acquiring captured recorded data and a step of adding the other party's voice data to the recorded data to generate moving image data.
  • the present invention includes a step of communicating with and connecting to a communication terminal with another communication terminal, a step of acquiring the other party's voice data which is the voice data of the communication partner connected by communication, and a recording of photographing the outside.
  • an application program for a communication terminal that adds a step of adding the voice data of the other party to the data and distributing it to another communication terminal connected by communication, and executes the step.
  • the present invention is a communication method executed by a communication terminal, in which a step of communicating with and connecting to another communication terminal and a step of acquiring the other party's voice data which is the voice data of the communication partner connected by the communication.
  • a communication method including a step of adding the other party's voice data to the recorded data obtained by photographing the outside to generate moving image data.
  • a moving image is obtained by switching to a recording mode during a call, acquiring self-voice data, partner voice data, and recorded data by a communication terminal, and adding self-voice data and partner voice data to the recorded data.
  • the self-experience can be shared with other users. For example, when the other party to record is away from the camera and microphone, the sound acquired by the other party's communication terminal is added to generate video data, so the sound can be clearly acquired and the quality can be maintained. ..
  • FIG. 1 is a conceptual diagram showing an outline of the entire system using the communication terminal according to the present embodiment.
  • This system enables recording and live distribution (real-time distribution) during group calls, and saves the user's experience (what he saw or heard) on the user's communication terminal, or from the user's communication terminal to another. It enables live distribution to communication terminals.
  • the system includes communication terminals 10A to 10C of a plurality of users 110A to 110C, a server 100 that manages group calls between the plurality of communication terminals 10A to 10C, and headsets 60A to 60C having functions such as a microphone and a speaker. It is composed of.
  • the server 100 is, for example, a VoIP (Voice Over Internet Protocol) server for controlling voice communication of a plurality of communication terminals 10A to 10C, and an API (API) for managing the connection of the plurality of communication terminals 10A to 10C and the allocation of the VoIP server.
  • API Application Programmable Interface
  • the VoIP server controls the exchange (call) of fragmentary voice packets between a plurality of communication terminals 10A to 10C.
  • the API server exchanges information necessary for the group call, specifies it to the VoIP server based on the information, and realizes the group call. It has a role as a management server.
  • the server 100 may be configured by one server computer, or may be configured by a plurality of server computers.
  • the server 100 is connected to a network 120 including the Internet and can send and receive data.
  • the communication terminals 10A to 10C can communicate with each other by transmitting and receiving data via the network 120, and the communication terminals 10A to 10C and the server 100 can also communicate with each other via the network 120.
  • An example of the network 120 is realized by a WiFi that can handle a large capacity such as LTE (Long Term Evolution), 4G (4th generation mobile phone), 5G (5th generation mobile phone), and a wired network.
  • the communication terminals 10A to 10C and the headsets 60A to 60C are communication lines having a small communication capacity and a short communication distance, but low power consumption, for example, Bluetooth (registered trademark) Low Energy (BLE) standard and the like. It is possible to send and receive voice data etc. by short-range wireless communication using Bluetooth.
  • the communication terminals 10A to 10C are not limited to calls by voice packets, and voice calls may be possible via a normal mobile phone network.
  • the system can be configured by omitting the server 100. Further, the number of communication terminals 10A to 10C shown in FIG. 1 is also an example, and may be increased or decreased as necessary. Further, when the communication terminals 10A to 10C have the functions of the headsets 60A to 60C described later, the headsets 60A to 60C may be omitted to configure the system.
  • FIG. 2 is a block diagram showing a hardware configuration and a functional configuration of the communication terminal 10 of the present embodiment.
  • the communication terminal 10 may be a mobile phone, a smartphone, a tablet, a communication type game machine, or the like.
  • the communication terminals 10A to 10C shown in FIG. 1 have the same configuration as the communication terminal 10.
  • the communication terminal 10 includes a control unit 12, a communication unit 40, an input unit 42, a display unit 44, a photographing unit 46, and a storage unit 48.
  • the control unit 12 includes a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), and the like.
  • the control unit 12 reads a predetermined program, and includes a call management means 14, a self-voice data acquisition means 16, a partner voice data acquisition means 18, a recording data acquisition means 20, a moving image generation means 22, and a distribution means 24.
  • the editing means 25, the volume adjusting means 26, the environmental sound selecting means 28, and the switching means 30 are realized.
  • the call management means 14 manages a call with another communication terminal (for example, the communication terminal 10B or the communication terminal 10C when viewed from the communication terminal 10A), and activates an application for group call or groups. Manage members, etc. The management of group calls may be performed by the server 100, if necessary.
  • the self-voice data acquisition means 16 acquires the user's own voice during a call and creates the self-voice data 50.
  • the user's own voice data may be created from the voice acquired through the microphone of the communication terminal 10, or may be acquired by receiving the voice data transmitted from the headset 60 described later to the communication terminal 10.
  • the created self-voice data 50 is stored in the storage unit 48. Further, time information is added to the self-voice data 50 as needed.
  • the other party voice data acquisition means 18 acquires the other party voice data 52, which is the voice data of the communication partner connected by communication.
  • the other party's voice data acquisition means 18 may create the other party's voice data 52 from the other party's voice during a normal voice call, or the fragmentary voice packet created in the communication terminal of the communication partner may be used as the network 120. It may be received and acquired by the communication unit 40 via the above.
  • the acquired partner voice data 52 is stored in the storage unit 48. Further, time information is added to the other party's voice data 52 as needed.
  • the recording data acquisition means 20 acquires the recording data (image data only) 54 obtained by photographing the outside by the photographing unit 46.
  • the acquired recorded data 54 is stored in the storage unit 48. Time information is added to the recorded data 54 as needed.
  • the moving image generation means 22 adds the self-voice data 50 and the partner voice data 52 to the recorded data 54 to generate the moving image data 56.
  • the generated moving image data 56 is stored in the storage unit 48.
  • the video generation means 22 synchronizes the time information to generate the video data 56. You may.
  • the moving image generation means 22 sequentially adds the self-voice data 50 to the recorded data 54, and the other party's voice data 52 synchronizes the time information.
  • the moving image data 56 may be generated by adding to the recorded data 54.
  • the moving image generation means 22 may add the self-voice data 50 and the partner voice data 52 to the sequentially recorded data 54 to generate the moving image data 56 without using the time information, and generate the moving image in real time. That is, the "voice of the other party input at any time" is synthesized in real time with the self-recorded video.
  • the recorded data with a large amount of data (large data file size) is stored in the communication terminal 10 at hand without being sent or received, and the other party with a small amount of data (small data file size). Only the voice data 52 is received by communication, and these are combined. Therefore, it is possible to generate high-quality moving image data in real time by minimizing network delay due to the load of the amount of data.
  • the distribution means 24 adds the acquired self-voice data 50 and the other party's voice data 52 to the recorded data taken by the shooting unit 46 during a call, and connects the other communication terminal via the network 120 via the communication unit 40. It is a live distribution (live streaming).
  • the live distribution by the distribution means 24 may be performed in parallel with the generation of the moving image by the moving image generating means 22, or may be performed instead of the moving image generation by the moving image generating means 22.
  • the editing means 25 receives and acquires the moving image data generated by the other communication terminal 10 via the communication unit 40, and mixes the moving image data 56 generated by its own communication terminal 10.
  • the user 110A photographs the performance of the user 110B (such as a skateboarding demonstration) by the terminal 10A
  • another user 110C simultaneously photographs the performance of the user 110B from a position or angle different from that of the user 110A. You can enjoy mixing each generated video data.
  • the edited moving image data 56 is also stored in the storage unit 48 as needed.
  • the volume adjusting means 26 adjusts the volumes of the acquired self-voice data 50 and the other party's voice data 52, such as aligning the volumes of the self-voice data 50 and the other party's voice data 52 and reducing the voice of the recorder. Make adjustments.
  • the adjustment by the volume adjusting means 26 may be automatically performed, or the content input by the input unit 42 by the user may be received and set.
  • the environmental sound selection means 28 turns on / off the function of cutting the environmental sound during recording, and selects the environmental sound to be cut.
  • the environmental sound cut function is turned off during recording, it is possible to prevent a delay in acquiring the voice data (other party's voice data) of the user to be photographed.
  • the environmental sound cut function is turned on, for example, the environmental sound of the user to be photographed can be cut to obtain clear voice data of the other party.
  • the environmental sound selection means 28 of the communication terminal 10A of the user 110A sends a stop signal of the environmental sound cut function to the communication terminal 10B of the user 110B to be photographed via the communication unit 40. Send.
  • the communication terminal 10B receives the stop signal via the communication unit 40
  • the environmental sound selection means 28 of the communication terminal 10B transmits the stop signal of the environmental sound cut function to the headset 60B by short-range wireless communication.
  • the headset 60B stops the environmental sound cut function according to the stop signal of the environmental sound cut function received by the short-range wireless communication.
  • the environmental sound selection means 28 of the communication terminal 10A of the user 110A sends the environmental sound cut function to the communication terminal 10B of the user 110B to be photographed via the communication unit 40. Send the start signal of.
  • the environmental sound selection means 28 of the communication terminal 10B transmits the start signal of the environmental sound cut function to the headset 60B by short-range wireless communication.
  • the headset 60B starts the environmental sound cut according to the start signal of the environmental sound cut function received by the short-range wireless communication.
  • the user can freely select ON / OFF of the above environmental sound cut function. Also, if there are environmental sounds that you want to cut and environmental sounds that you do not want to cut, for example, cut continuous environmental sounds (breathing and wind-cutting on), and do not cut sudden environmental sounds (landing and sudden turn sounds). It may be automatically selected, or it may be set by the user.
  • the switching means 30 switches between a call mode and a recording mode, activates the recording function or stops the recording function during a call, and is displayed by a switching button displayed on the display unit 44. Switch between call mode and recording mode.
  • the communication unit 40 communicates with and connects to another communication terminal via the network 120, or communicates with and connects to the server 100 to transmit and receive data.
  • the communication unit 40 connects to the headset 60 by short-range wireless communication to transmit and receive data.
  • the input unit 42 includes, for example, a touch panel and a microphone, but is not limited thereto.
  • the display unit 44 is, for example, a touch panel.
  • the photographing unit 46 includes a camera.
  • the storage unit 48 stores various data, and in the example of FIG. 2, the self-voice data 50, the other party's voice data 52, and the recorded data 54 are included.
  • FIG. 3 shows an example of various data stored in the storage unit 48 of the communication terminal 10 of the present embodiment.
  • the mode in which the time information is added will be described, but in order to synthesize the self-voice data 50 and the partner voice data 52 in real time and then add the synthesized voice data to the recorded data, the time information is added. It may be a mode that is not added.
  • FIG. 3A shows an example of the self-voice data 50.
  • the self-voice data 50 includes fragmentary self-voice data (for example, voice data 01, voice data 02), a start time (for example, 2019/03/05 13:15:10), and an end time (for example, 2019/03). / 05 13:15:15), time information is added and stored.
  • FIG. 3B shows an example of the other party's voice data 52.
  • the other party voice data 52 includes fragmentary other party voice data (for example, voice data 01, voice data 02), a user ID (for example, user B, user C) that identifies which user's voice is used, and a start time. Time information is added and stored, such as (for example, 2019/03/05 13:15:18) and the end time (for example, 2019/03/05 13:15:24).
  • FIG. 3 (C) shows an example of the recorded data 54.
  • the recorded data 54 includes a recorded data ID (for example, recorded data 01), a person to be recorded (for example, user B), a start time (for example, 2019/03/05 13:15:03), and an end time (for example, 2019). 03/05 13:15:43), time information is added and stored.
  • a recorded data ID for example, recorded data 01
  • a person to be recorded for example, user B
  • start time for example, 2019/03/05 13:15:03
  • an end time for example, 2019.
  • 03/05 13:15:43 time information is added and stored.
  • FIG. 4 is a block diagram showing the configuration of the headset 60 of the present embodiment.
  • the other headsets 60A to 60C have the same configuration as the headset 60.
  • the headset 60 includes a voice detection unit 62, an environmental sound separation unit 64, a short-range wireless communication unit 66, and a reproduction unit 68.
  • the voice detection unit 62 detects surrounding voices and voices emitted by the wearer (user) of the headset 60.
  • the environmental sound separation unit 64 separates the environmental sound included in the detected voice as needed. As described above, when the environmental sound cut function is turned ON / OFF, the environmental sound cut start signal or stop signal is transmitted by the environmental sound selection means 28 of the recorder's communication terminal 10 via the communication means 40, and the recording target is recorded. When the communication means 40 of the user's communication terminal 10 receives the start signal or the stop signal, the environmental sound selection means 28 of the user's communication terminal 10 to be recorded starts cutting the environmental sound to the headset 60 by short-range wireless communication. Send a signal or stop signal. When the environmental sound separation unit 64 receives the start signal or stop signal of the environmental sound cut via the short-range wireless communication unit 66 described later, the environmental sound separation unit 64 starts or stops the environmental sound cut function according to the received signal.
  • the short-range wireless communication unit 66 connects to the communication terminal 10 and transmits / receives data and signals by, for example, Bluetooth (registered trademark) Low Energy (BLE) standard communication.
  • the reproduction unit 68 reproduces the voice of the other party acquired from the communication terminal 10 by the short-range wireless communication unit 66 and its own voice detected by the voice detection unit 62.
  • the headset 60 can be omitted to configure the system.
  • the server 100 can be omitted to configure the system.
  • FIG. 5 is a flowchart showing an example of a recording procedure during a group call according to the present embodiment.
  • FIG. 6 is a flowchart showing an example of an ON / OFF procedure of the environmental sound cut function during recording according to the present embodiment.
  • FIG. 7 is a diagram showing an example of a screen of the communication terminal of the present embodiment during a group call
  • FIG. 8 is a diagram showing an example of a recording scene during a group call according to the present embodiment
  • FIG. 9 is a diagram according to the present embodiment. It is a figure which shows an example of the recording screen during a group call.
  • the user 110A starts a group call with other users 110B and 110C (step S10).
  • the start of the group call is realized by connecting the communication to the members of the preset group via the server 100 by the call management means 14.
  • the group call may be a voice packet communication or a call using a normal mobile phone network.
  • FIG. 7 shows an example of a screen displayed on the display unit 44 of the communication terminal 110A during a group call.
  • the group call screen 80 shows a button 82 for establishing / disconnecting a call, icons 84 and 86 indicating other users 110B and 110C during a group call, a button 88 for starting recording, and the like. ..
  • the user 110A when the user 110A records the performance of the skateboard of the user 110B who is a member during a call (Yes in step S12), by tapping the button 88 for starting recording. ,
  • the recording screen 90 shown in FIG. 9 is displayed by the switching means 30.
  • the user 110B to be recorded performs the performance while wearing the communication terminal 10B and the headset 60B.
  • the user 110A who performs recording shoots a moving image using the camera of the photographing unit 46 mounted on the communication terminal 10A, and stores the moving image in the storage unit 48 of the communication terminal 10A.
  • the user 110B who is the performer, performs the performance without operating the communication terminal 10B at all. Communication between the communication terminal 10A and the communication terminal 10B is established during the time including during the performance, and the voice (voice data) of the user 110B who is the performer is transmitted to the communication terminal 10A of the user 110A who records in almost real time. ing.
  • time information 92 indicating the elapsed time from the start of recording
  • a button 94 for switching the stop / start of recording
  • a button 96 for turning on / off the environmental sound cut function
  • a button 97 for switching between the hands-free mode and the push talk mode and a button 98 for setting ON / OFF of the microphone mute are displayed.
  • the communication terminal 10A acquires the voice of the user 110A during the call by the self-voice data acquisition means 16 and creates the self-voice data 50.
  • the user 110A's own voice may be acquired through the microphone of the communication terminal 10A, or may be acquired by receiving the voice data transmitted from the headset 60A to the communication terminal 10A.
  • the created self-voice data 50 is stored in the storage unit 48. Further, time information may be added to the self-voice data 50 as needed.
  • the communication terminal 10A acquires the other party's voice data 52, which is the voice data of the communication partner connected by communication, by the other party's voice data acquisition means 18 (step S14).
  • the other party's voice data acquisition means 18 may create the other party's voice data 52 from the other party's voice during a normal voice call, or the fragmentary voice packet created in the communication terminal of the communication partner may be used as the network 120. It may be received and acquired by the communication unit 40 via the above.
  • the acquired partner voice data 52 is stored in the storage unit 48.
  • the volume of the self-voice data 50 and the partner voice data 52 can be matched by the volume adjusting means 26, or the voice of the recorder is reduced, if necessary. Adjustments such as dropping may be made.
  • the adjustment by the volume adjusting means 26 may be automatically performed, or the recording person (user 110A) may accept and perform the input set by the input unit 42.
  • the recorded data acquisition means 20 mounted on the communication terminal 10A acquires the surrounding recorded data (only image data) 54 photographed by the photographing unit 46 (step S14).
  • the acquired recorded data 54 is stored in the storage unit 48. Time information may be added to the recorded data 54 and stored as needed.
  • the communication terminal 10A adds the self-voice data 50 and the partner voice data 52 to the recorded data 54 by the video generation means 22 to generate the video data 56 (step S16).
  • the moving image generation means 22 may generate the moving image data 56 by synchronizing the respective time information.
  • the self-voice data 50 is added to the sequentially recorded data 54, and the other party voice data 52 is added to the recorded data 54 in synchronization with the time information.
  • the moving image data 56 may be generated.
  • the self-voice data 50 and the partner voice data 52 may be added to the sequentially recorded data 54 to generate the moving image data 56 without using the time information, and the moving image may be generated in real time.
  • the self-voice data 50 and the partner voice data 52 may be combined, and the combined voice data may be added to the recorded data when the recording end instruction is given.
  • the generated moving image data 56 is stored in the storage unit 48 mounted on the communication terminal 10A of the user 110A (step S18). As a result, since the moving image data 56 can be saved in the communication terminal 10A of the user 110A who has taken the picture, it is possible to memorize his / her own experience without communicating the recorded data.
  • the recording is finished, when the button 92 is tapped on the recording screen 90 shown in FIG. 9, the screen display is switched from the recording screen to the call screen by the switching means 30.
  • FIG. 6 shows a flowchart showing an example of the ON / OFF procedure of the environmental sound cut function during recording.
  • the recording screen 90 shown in FIG. 9 is displayed.
  • the button 92 is tapped on the recording screen 90 to select the environmental sound cut (Yes in step S22)
  • the environmental sound selection means 28 places the environment on the communication terminal 10B of the recording target person (user 110B) via the communication means 40.
  • a sound cut signal is transmitted (step S24).
  • the environmental sound selection means 28 transmits the environmental sound cut signal to the headset 60B by short-range wireless communication.
  • the environmental sound separating means 64 separates the environmental sound from the voice detected by the voice detecting unit 62.
  • the voice data from which the environmental sound is separated is transmitted to the communication terminal 10B by the short-range wireless communication unit 66.
  • the communication terminal 10B that has received the voice data from which the environmental sound is separated transmits the voice data to the other communication terminal 10A via the communication unit 40.
  • the communication terminal 10A acquires the voice data in which the environmental sound is cut (step S26). Subsequent processing continues to step S16 of FIG.
  • the environmental sound cut function is turned on, there is an advantage that the voice can be heard clearly and communication proceeds smoothly.
  • the environmental sound selection means 28 sends the environmental sound to the communication terminal 10B of the user 110B to be recorded via the communication means 40.
  • a stop signal for the cut function is transmitted (step S28).
  • the communication terminal 10B receives the stop signal via the communication unit 40
  • the environmental sound selection means 28 of the communication terminal 10B transmits the stop signal of the environmental sound cut function to the headset 60B by short-range wireless communication.
  • the headset 60B stops the environmental sound cut function by the environmental sound separation unit 64 according to the stop signal of the environmental sound cut function received by the short-range wireless communication unit 66, and keeps the voice data detected by the voice detection unit 62 as it is.
  • the communication terminal 10B transmits the received voice data to the communication terminal 10A via the communication unit 40.
  • the communication terminal 10A acquires the other party voice data 52 including the environmental sound (step S30).
  • Subsequent processing continues to step S16 of FIG.
  • the user 10A can freely select ON / OFF of such an environmental sound cut function. Also, if there are environmental sounds that you want to cut and environmental sounds that you do not want to cut, for example, cut continuous environmental sounds (breathing and wind-cutting on), and do not cut sudden environmental sounds (landing and sudden turn sounds). The selection may be made automatically, or the input of the user 10A may be accepted and set.
  • the moving image data 56 generated as described above may be shared not only by being stored in the communication terminal 10A of the user 110A but also by being transmitted to other users 110B and 110C via the communication means 40. Further, the editing means 25 may receive and acquire the moving image data generated by the other communication terminal 10C via the communication unit 40 and mix it with the moving image data 56 generated by the own communication terminal 10A. ..
  • the user 110A shoots the performance of the user 110B by the terminal 10A, and another user 110C simultaneously shoots the performance of the user 110B from a position or angle different from that of the user 110A, and each moving image generated. It's like mixing data and having fun.
  • the edited moving image data may also be stored in the storage unit 48 or shared with other users as needed.
  • the distribution means 24 of the communication terminal 10A of the recorder (user 110A) adds the acquired self-voice data 50 and the other party's voice data 52 to the recorded data taken by the shooting unit 46 during a call, and the communication unit 40 Live distribution (real-time distribution) may be performed to other communication terminals via the network 120.
  • the live distribution by the distribution means 24 may be performed in parallel with the generation of the moving image by the moving image generating means 22, or may be performed instead of the moving image generation by the moving image generating means 22.
  • the recording mode is switched during a group call, the self-voice data 52, the other party's voice data 54, and the recorded data 54 are acquired by the communication terminal 10A, and the recorded data 54 is obtained. It was decided to generate the moving image data 56 by adding the self-audio data 52 and the other party's audio data 54. Therefore, it is possible to record during a group call, and the recorded data 54 can be saved in the user's communication terminal 10, and the own experience can be saved. Alternatively, the self-voice data 52 and the other party's voice data 54 can be added to the recorded data and live-distributed to another communication terminal.
  • the other party's voice data with a small amount of data is acquired by communication, and the recorded data taken by the communication terminal 10A at hand and the other party's voice data (and self-voice data) are combined. It is possible to shorten the delay of the other party's voice, and as a result, it is possible to generate natural video data or deliver it live. At the time of distribution, even if a data delay occurs at the time of distribution, the video data in which the recorded data and the audio data are naturally combined is distributed, so that a more natural video can be shared with other users.
  • the server 100 and the headset 60 are used in the system, but when the communication terminal has these functions, the system can be configured only by the communication terminal 10.
  • the group call between the users 110A and 110C has been described as an example, but the number of users may be further increased, or the present invention is provided for one-to-one call. It does not interfere.
  • the performance of the skateboard has been described as an example of the subject to be photographed, but the present invention is not limited to this.
  • a plurality of communication terminals of this embodiment are used in a noisy environment such as an airfield maintenance factory, the state and voice of the worker performing the maintenance can be reduced from the influence of the noise. It is possible to save in real time and generate maintenance records (as video) without the need for additional equipment.
  • the photographer is the on-site supervisor, in addition to the situation seen by his / her own eyes, he / she gives instructions to the operator while checking the enlarged display image of the operator by the photographing function of the communication terminal 10 at hand.
  • the operator can be informed of the voice instruction without delay by reducing noise, and at the same time, the voice of the instruction can be recorded in the maintenance record.
  • the present invention may be provided as an application program executed on a communication terminal. This application program may be downloaded over the network.
  • the video data is switched to the recording mode during a call, the self-voice data, the other party's voice data, and the recorded data are acquired by the communication terminal, and the self-voice data and the recorded data are added to the recorded data.
  • the self-voice data and the recorded data are added to the recorded data.
  • the self-voice data and partner voice data can be added to the recorded data for live distribution to other communication terminals. Therefore, one's own experience (what he sees and hears) can be saved in his own communication terminal and shared with other users, which is suitable as a highly convenient communication tool.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

グループ通話中の録画を可能にし、かつ、動画データをユーザの通信端末に保存し、あるいは、音声データを付加した録画データをユーザの通信端末から配信することができる通信端末、通信端末用アプリケーションプログラム及び通信方法を提供する。グループ通話中に録画モードに切り替え、通信端末(10A)によって、自己音声データ(50)、相手音声データ(52)、録画データ(54)を取得し、当該録画データ(54)に、自己音声データ(50)と相手音声データ(52)を付加することで動画データ(56)を生成する。このため、グループ通話中の録画が可能となり、かつ、動画データ(56)をユーザの通信端末(10A)に保存することができ、自己の体験を保存し、あるいは、録画データに自己音声データ(50)と録画データ(52)を付加して他の通信端末にライブ配信することで、自己の体験を他のユーザと共有することができる。

Description

通信端末、通信端末用アプリケーションプログラム及び通信方法
 本発明は、通信端末及び通信端末用アプリケーションプログラム及び通信方法に関し、更に具体的には、通話中の録画技術及び配信技術に関するものである。
 従来のスマートフォンの仕様では、メッセージ・チャットアプリなどの通話機能を使用しながらOS標準のビデオ撮影アプリを起動することができない。また、グループ通話に関する下記特許文献1には、ヘッドセットで検知した音声から高精度に人の発話部分を抽出して音声データを生成する手段と、弱電波環境に対応した動的な通信品質制御手段と、環境を考慮した騒音に強い再生制御手段の3つの手段を備え、これらを互いに連関させることによりグループ内での多対多通信で発生する問題を解決することが記載されている。
特許第6416446号公報
 しかしながら、従来のグループ通話の技術や上述した特許文献1に記載の技術では、グループ通話中の録画ができず、音声についてもサーバーサイドに記憶されることとなっている。一方、自分の体験を楽しむという観点からは、ユーザ端末側で録画した動画データを保存できることが望ましい。あるいは、自分の体験を他のユーザと共有することも自分の体験を楽しむという観点からは効果的である。
 一般に、動画等のデータ量の多いデータを送受信すると、通信ネットワーク負荷が高まるが、特に、グループ通話等の複数ユーザ間の動画通信は、送受信に遅延が生じてしまう。しかし、音声通話は、ユーザ間のコミュニケーションであるため、リアルタイム性が必要とされ、ネットワーク負荷を可能な限り回避した遅延のないデータ通信が求められる。さらに、動画を録画しながら通話する場合は、この動画の映像及び音声と、通話相手の音声との時間的な“ずれ”を可能な限りなくした動画を生成する必要がある。
 本発明は、以上のような点に着目したもので、通話中の録画を可能にし、かつ、通話及び録画で生成された動画データをユーザの通信端末に保存し、あるいは、音声データを付加した録画データをユーザの通信端末から配信することができる通信端末及び通信端末用アプリケーションプログラム及び通信方法を提供する。
 本発明は、他の通信端末と通信して接続する通信手段と、通信で接続された通信相手の音声のデータである相手音声データを取得する相手音声データ取得手段と、外部を撮影する撮影手段と、前記撮影手段が撮影した録画データを取得する録画データ取得手段と、前記録画データに、前記相手音声データを付加して、動画データを生成する動画生成手段と、を備える通信端末を提供する。
 また、本発明は、他の通信端末と通信して接続する通信手段と、通信で接続された通信相手の音声のデータである相手音声データを取得する相手音声データ取得手段と、外部を撮影した録画データに、相手音声データを付加して、前記通信手段を介して他の通信端末に配信する配信手段と、を備える通信端末を提供する。
 更に、本発明は、通信端末に、他の通信端末と通信して接続するステップと、通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、外部を撮影し、撮影された録画データを取得するステップと、前記録画データに、前記相手音声データを付加して、動画データを生成するステップと、を実行させる通信端末用アプリケーションプログラムを提供する。
 更に、本発明は、通信端末に、他の通信端末と通信して接続するステップと、通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、外部を撮影した録画データに、相手音声データを付加して、通信で接続された他の通信端末に配信するステップと、を実行させる通信端末用アプリケーションプログラムを提供する。
 更に、本発明は、通信端末が実行する通信方法であって、他の通信端末と通信して接続するステップと、通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、外部を撮影した録画データに、前記相手音声データを付加して、動画データを生成するステップと、を含むことを特徴とする通信方法を提供する。
 本発明によれば、通話中に録画モードに切り替え、通信端末によって、自己音声データ、相手音声データ、録画データを取得し、当該録画データに、自己音声データと相手音声データを付加することで動画データを生成することとした。このため、通話中の録画が可能となり、かつ、録画データをユーザの通信端末に保存して、自己の体験をユーザの通信端末に保存することができる。あるいは、通話中の録画データに自己音声データと相手音声データを付加して他の通信端末にライブ配信することで、自己の体験を他のユーザと共有することができる。例えば、録画したい相手がカメラとマイクから離れた場所にいる場合に、相手の通信端末で取得できた音を付加して動画データを生成するので、音も明確に取得できるとともに、品質が保持できる。
本発明の一実施形態の通信端末を用いたシステム全体の概要を示す概念図である。 前記実施形態の通信端末のハードウェア構成及び機能構成を示すブロック図である。 前記実施形態の通信端末の記憶部に記憶される各種データの一例を示す図である。 前記システムに用いられるヘッドセットの構成を示すブロック図である。 前記実施形態によるグループ通話中の録画手順の一例を示すフローチャートである。 前記実施形態による録画中の環境音の録音のON/OFF手順の一例を示すフローチャートである。 前記実施形態の通信端末のグループ通話中の画面の一例である。 前記実施形態によるグループ通話中の録画場面の一例を示す図である。 前記実施形態によるグループ通話中の録画画面の一例を示す図である。
 以下、本発明を実施するための最良の形態を、実施例に基づいて詳細に説明する。
 <全体構成>・・・図1は、本実施形態に係る通信端末を用いたシステム全体の概要を示す概念図である。本システムは、グループ通話中における録画やライブ配信(リアルタイム配信)を可能とし、ユーザの体験(見たものや聞いたこと)を、ユーザの通信端末に保存したり、ユーザの通信端末から他の通信端末へライブ配信可能とするものである。システムは、複数のユーザ110A~110Cの通信端末10A~10Cと、これら複数の通信端末10A~10C間でのグループ通話を管理するサーバ100と、マイクやスピーカ等の機能を有するヘッドセット60A~60Cにより構成されている。
 サーバ100は、例えば、複数の通信端末10A~10Cの音声通信を制御するためのVoIP(Voice Over Internet Protocol)サーバや、複数の通信端末10A~10Cの接続やVoIPサーバの割り振りを管理するAPI(Application Programmable Interface)を備えている。VoIPサーバは、複数の通信端末10A~10C間での断片的な音声パケットのやり取り(通話)を制御する。APIサーバは、複数の通信端末10A~10C間でグループ通話を行う際に、該グループ通話に必要となる情報をやり取りし、当該情報に基づいてVoIPサーバに対して指定して、グループ通話を実現する管理サーバとしての役割を有する。サーバ100は、一つのサーバコンピュータによって構成してもよく、あるいは、複数のサーバコンピュータによって構成してもよい。サーバ100は、インターネットを含むネットワーク120に接続しデータの送受信が可能となっている。
 前記通信端末10A~10C間は、ネットワーク120を介したデータの送受信により互いに通信が可能となっており、通信端末10A~10Cとサーバ100も、同様にネットワーク120を介して互いに通信が可能となっている。ネットワーク120の一例は、LTE(Long Term Evolution)、4G(第4世代携帯電話)、5G(第5世代携帯電話)等の大容量が扱えるWiFiと、有線でのネットワークにより実現される。また、通信端末10A~10Cとヘッドセット60A~60Cは、通信容量は小さく、通信距離も短いが、消費電力が小さい通信回線であって、例えば、Bluetooth(登録商標) Low Energy(BLE)規格などを利用した近距離無線通信により音声データなどの送受信が可能となっている。また、通信端末10A~10C間は、音声パケットによる通話に限られず、通常の携帯電話網を介した音声通話が可能であってもよい。
 なお、通信端末10A~10Cが、上述したサーバ100による音声通信を管理する機能を有している場合には、サーバ100を省略してシステムの構成が可能である。また、図1で示した通信端末10A~10Cの数も一例であり、必要に応じて増減してよい。更に、後述するヘッドセット60A~60Cの機能を通信端末10A~10Cが有する場合には、ヘッドセット60A~60Cを省略してシステムを構成してもよい。
 <通信端末の構成>・・・図2は、本実施形態の通信端末10のハードウェア構成及び機能構成を示すブロック図である。通信端末10は、携帯電話、スマートフォン、タブレット、通信型ゲーム機等であってよい。前記図1に示した通信端末10A~10Cも、通信端末10と同様の構成である。通信端末10は、制御部12と、通信部40と、入力部42と、表示部44と、撮影部46と、記憶部48を備えている。
 制御部12は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備える。制御部12は、所定のプログラムを読み込み、通話管理手段14と、自己音声データ取得手段16と、相手音声データ取得手段18と、録画データ取得手段20と、動画生成手段22と、配信手段24と、編集手段25と、音量調整手段26と、環境音選択手段28と、切替手段30とを実現する。
 通話管理手段14は、他の通信端末(例えば、通信端末10Aからみて、通信端末10Bや通信端末10Cなど)との通話を管理するものであって、グループ通話用のアプリケーションの起動や、グループのメンバーの管理等を行う。グループ通話の管理は、必要に応じてサーバ100によって行うようにしてもよい。
 自己音声データ取得手段16は、通話中にユーザの自己の音声を取得して自己音声データ50を作成するものである。ユーザの自己の音声データは、通信端末10のマイクを通じて取得した音声から作成してもよいし、後述するヘッドセット60から通信端末10に送信された音声データを受信して取得してもよい。作成された自己音声データ50は、記憶部48に記憶される。また、自己音声データ50には、必要に応じて時間情報が付加される。
 相手音声データ取得手段18は、通信で接続された通信相手の音声のデータである相手音声データ52を取得するものである。相手音声データ取得手段18は、通常の音声通話中の相手の音声から相手音声データ52を作成するようにしてもよいし、通信相手の通信端末において作成された断片的な音声パケットを、ネットワーク120を介して前記通信部40において受信して取得してもよい。取得された相手音声データ52は、記憶部48に記憶される。また、相手音声データ52には、必要に応じて時間情報が付加される。
 録画データ取得手段20は、撮影部46によって外部を撮影した録画データ(画像データのみ)54を取得するものである。取得した録画データ54は、記憶部48に記憶される。録画データ54には、必要に応じて時間情報が付加される。
 動画生成手段22は、録画データ54に、自己音声データ50と相手音声データ52を付加して、動画データ56を生成するものである。生成した動画データ56は、記憶部48に記憶される。動画データ56の生成の際、自己音声データ50、相手音声データ52及び録画データ54がそれぞれ時間情報を有する場合には、動画生成手段22は、それぞれの時間情報を同期させて動画データ56を生成してもよい。また、相手音声データ52と録画データ54が時間情報を有する場合には、動画生成手段22は、自己音声データ50を逐次、前記録画データ54に付加し、相手音声データ52は時間情報を同期させて録画データ54に付加して動画データ56を生成してもよい。あるいは、動画生成手段22は、自己音声データ50及び相手音声データ52を、時間情報を用いることなく、逐次録画データ54に付加して動画データ56を生成し、リアルタイムに動画生成してもよい。すなわち、「随時入力される相手側の音声」を自己で録画した動画にリアルタイムで合成する。
 このように構成することで、データ量の多い(データのファイルサイズが大きい)録画データは送受信せずに、手元の通信端末10に記憶し、データ量の少ない(データのファイルサイズが小さい)相手音声データ52のみを通信で受信し、これらを合成する。
 したがって、データ量の負荷によるネットワークの遅延等を最小限にして、高品質の動画データをリアルタイムで生成することが可能となる。
 また、音声トラックと録画トラックを専用のソフトウェアでミキシングする等の手間と時間をかけることなく、スマートフォンといった通常の通信端末10による構成で、臨場感のある動画データを生成することが可能となる。
 配信手段24は、通話中に撮影部46によって撮影した録画データに、取得した自己音声データ50と相手音声データ52を付加して、通信部40を介してネットワーク120経由で、他の通信端末にライブ配信(ライブストリーミング)するものである。配信手段24によるライブ配信は、前記動画生成手段22による動画の生成と並行して行うようにしてもよいし、動画生成手段22による動画生成に代えて行うようにしてもよい。
 編集手段25は、他の通信端末10で生成された動画データを、通信部40を介して受信して取得し、自己の通信端末10で生成された動画データ56とミキシングするものである。例えば、ユーザ110Aが端末10Aによって、ユーザ110Bのパフォーマンス(スケートボードの実演など)を撮影し、別のユーザ110Cが、ユーザ110Aとは別の位置や角度から、ユーザ110Bのパフォーマンスを同時に撮影し、生成したそれぞれの動画データをミキシングして楽しむという具合である。編集された動画データ56も、必要に応じて記憶部48に記憶される。
 音量調整手段26は、取得した自己音声データ50と相手音声データ52の音量を調整するもので、自己音声データ50と相手音声データ52の音量をそろえたり、録画者の音声は小さく落とすというような調整を行う。音量調整手段26による調整は自動的に行うようにしてもよいし、ユーザにより入力部42によって入力された内容を受け付けて設定してもよい。
 環境音選択手段28は、録画中に環境音をカットする機能をON/OFFしたり、カットする環境音を選択したりするものである。録画中に環境音カット機能をOFFにすると、撮影対象のユーザの音声データ(相手音声データ)の取得の遅延を防止することができる。一方で、環境音カット機能をONにすると、例えば、撮影対象のユーザ側の環境音をカットしてクリアな相手音声データを得ることができる。
 例えば、環境音カット機能をOFFにする場合、ユーザ110Aの通信端末10Aの環境音選択手段28が、通信部40を介して撮影対象のユーザ110Bの通信端末10Bに環境音カット機能の停止信号を送信する。通信端末10Bが通信部40を介して前記停止信号を受信すると、通信端末10Bの環境音選択手段28は、ヘッドセット60Bに環境音カット機能の停止信号を近距離無線通信により送信する。ヘッドセット60Bは、近距離無線通信により受信した環境音カット機能の停止信号に従い、環境音カット機能を停止する。環境音カット機能を停止することにより、音声データの送受信の遅延を防止することができることに加え、周辺ノイズが聞こえることによって臨場感が増す。
 他方、環境音カット機能をOFF状態からON状態にする場合、ユーザ110Aの通信端末10Aの環境音選択手段28が、通信部40を介して撮影対象のユーザ110Bの通信端末10Bに環境音カット機能の開始信号を送信する。通信端末10Bが通信部40を介して前記開始信号を受信すると、通信端末10Bの環境音選択手段28は、ヘッドセット60Bに環境音カット機能の開始信号を近距離無線通信により送信する。ヘッドセット60Bは、近距離無線通信により受信した環境音カット機能の開始信号に従い、環境音カットを開始する。環境音カット機能を用いることにより、撮影対象のユーザ110B音声がクリアに聞こえて、コミュニケーションがスムースに進むという利点がある。
 以上のような環境音カット機能のON/OFFは、ユーザ側で自由に選択することができる。また、カットしたい環境音とカットしたくない環境音がある場合、例えば、継続的な環境音(呼吸や風切りオン)はカットし、突発的環境音(着地や急なターン音)はカットしないように自動的に選択を行うようにしてもよいし、ユーザが設定してもよい。
 切替手段30は、通話モードと録画モードの切り替えを行うもので、通話中に録画機能を立ち上げたり、録画機能の停止をしたりするもので、表示部44に表示される切替用のボタンによって通話モードと録画モードの切り替えを行う。
 通信部40は、ネットワーク120を介して他の通信端末と通信して接続したり、サーバ100と通信して接続しデータの送受信を行うものである。また、通信部40は、ヘッドセット60と近距離無線通信して接続し、データの送受信を行う。
 入力部42は、例えば、タッチパネルやマイクが含まれるが、これらに限定されるものではない。表示部44は、例えば、タッチパネルである。撮影部46は、カメラが含まれる。
 記憶部48は、各種データを記憶するもので、図2の例では、自己音声データ50、相手音声データ52、録画データ54が含まれる。図3には、本実施形態の通信端末10の記憶部48に記憶される各種データの一例が示されている。以下では、時間情報が付加される態様で説明するが、自己音声データ50と相手音声データ52をリアルタイムで合成しておき、その後、合成した音声データを録画データに付加するために、時間情報が付加されない態様であってもよい。図3(A)には、自己音声データ50の一例が示されている。自己音声データ50は、断片的な自己音声データと(例えば、音声データ01、音声データ02)、開始時間(例えば、2019/03/05 13:15:10)及び終了時間(例えば、2019/03/05 13:15:15)というように、時間情報が付加されて記憶される。
 図3(B)には、相手音声データ52の一例が示されている。相手音声データ52は、断片的な相手音声データ(例えば、音声データ01、音声データ02)と、どのユーザの音声であるかを識別するユーザID(例えば、ユーザB、ユーザC)と、開始時間(例えば、2019/03/05 13:15:18)と、終了時間(例えば、2019/03/05 13:15:24)というように、時間情報が付加されて記憶される。
 図3(C)には、録画データ54の一例が示されている。録画データ54は、録画データのID(例えば、録画データ01)、被録画者(例えば、ユーザB)、開始時間(例えば、2019/03/05 13:15:03)、終了時間(例えば、2019/03/05 13:15:43)というように、時間情報が付加して記憶される。
 <ヘッドセットの構成>・・・次に、本システムに用いられるヘッドセットの構成を説明する。図4は、本実施形態のヘッドセット60の構成を示すブロック図である。なお、他のヘッドセット60A~60Cも、ヘッドセット60と同様の構成である。ヘッドセット60は、音声検知部62と、環境音分離部64と、近距離無線通信部66と、再生部68を備える。
 音声検知部62は、周囲の音声や、ヘッドセット60の装着者(ユーザ)が発する音声を検知するものである。環境音分離部64は、検知した音声に含まれる環境音を必要に応じて分離するものである。上述したように、環境音カット機能のON/OFFは、録画者の通信端末10の環境音選択手段28によって環境音カットの開始信号又は停止信号が通信手段40を介して送信され、録画対象のユーザの通信端末10の通信手段40が前記開始信号又は停止信号を受信すると、録画対象のユーザの通信端末10の環境音選択手段28が、近距離無線通信によってヘッドセット60へ環境音カットの開始信号又は停止信号を送信する。環境音分離部64は、後述する近距離無線通信部66を介して環境音カットの開始信号又は停止信号を受信すると、受信した信号に応じて環境音カット機能を開始又は停止する。
 近距離無線通信部66は、例えば、Bluetooth(登録商標) Low Energy(BLE)規格の通信によって、通信端末10と接続し、データや信号の送受信を行うものである。再生部68は、近距離無線通信部66によって通信端末10から取得した通話相手の音声や、音声検知部62によって検知した自己の音声を再生するものである。なお、上述したヘッドセット60に含まれる機能を通信端末10が備える場合には、ヘッドセット60を省略してシステムを構成することが可能である。同様に、サーバ100による通話管理機能を通信端末10が備える場合には、サーバ100を省略してシステムを構成することが可能である。
 <録画処理>・・・次に、本システムによる録画処理の一例について、図5~図9を参照して説明する。図5は、本実施形態によるグループ通話中の録画手順の一例を示すフローチャートである。図6は、本実施形態による録画中の環境音カット機能のON/OFFの手順の一例を示すフローチャートである。図7は、本実施形態の通信端末のグループ通話中の画面の一例を示す図、図8は、本実施形態によるグループ通話中の録画場面の一例を示す図、図9は、本実施形態によるグループ通話中の録画画面の一例を示す図である。
 まず、ユーザ110Aは、他のユーザ110B、110Cとのグループ通話を開始する(ステップS10)。グループ通話の開始は、通話管理手段14によって、あらかじめ設定されたグループのメンバーにサーバ100を介して通信を接続することにより実現される。なお、グループ通話の通話は、音声パケットによる通信でもよいし、通常の携帯電話網を利用した通話であってもよい。
 図7は、グループ通話を行っている最中に通信端末110Aの表示部44に表示される画面の一例が示されている。グループ通話画面80には、通話の確立/切断を行うためのボタン82、グループ通話中の他のユーザ110B及び110Cを示すアイコン84、86、録画を開始するためのボタン88などが示されている。
 例えば、図8に示すように、ユーザ110Aが、通話中のメンバーであるユーザ110Bのスケートボードのパフォーマンスを録画する場合には(ステップS12でYes)、録画開始用のボタン88をタップすることにより、切替手段30によって図9に示す録画画面90が表示される。なお、録画対象となるユーザ110Bは、図9に示すように、通信端末10Bとヘッドセット60Bを身につけた状態でパフォーマンスを行う。
 録画を行うユーザ110Aは、自分の通信端末10Aに搭載された撮影部46のカメラを用いて動画を撮影し、自身の通信端末10Aの記憶部48に記憶する。演者であるユーザ110Bは、一切、通信端末10Bを操作することなくパフォーマンスを行う。パフォーマンス中を含む時間に、通信端末10Aと通信端末10Bの通信は確立されており、演者であるユーザ110Bの声(音声データ)は、ほぼリアルタイムで録画を行うユーザ110Aの通信端末10Aに送信されている。
 図9に示す録画画面90には、録画開始からの経過時間を示す時間情報92と、録画の停止/開始を切り替えるためのボタン94と、環境音カット機能のON/OFFを行うためのボタン96と、ハンズフリーモードとプッシュトークモードの切り替えを行うボタン97と、マイクミュートのON/OFFを設定するためのボタン98が表示されている。
 録画が開始されると、通信端末10Aは、自己音声データ取得手段16によって、通話中のユーザ110Aの音声を取得して自己音声データ50を作成する。ユーザ110Aの自己の音声は、通信端末10Aのマイクを通じて取得したものであってもよいし、ヘッドセット60Aから通信端末10Aに送信された音声データを受信して取得してもよい。(ステップS14)。作成された自己音声データ50は、記憶部48に記憶される。また、自己音声データ50には、必要に応じて時間情報が付加されてもよい。
 また、通信端末10Aは、相手音声データ取得手段18によって、通信で接続された通信相手の音声のデータである相手音声データ52を取得する(ステップS14)。相手音声データ取得手段18は、通常の音声通話中の相手の音声から相手音声データ52を作成するようにしてもよいし、通信相手の通信端末において作成された断片的な音声パケットを、ネットワーク120を介して前記通信部40において受信して取得してもよい。取得された相手音声データ52は、記憶部48に記憶される。
 以上のように取得した自己音声データ50と相手音声データ52は、必要に応じて、音量調整手段26によって、自己音声データ50と相手音声データ52の音量を一致させたり、録画者の音声は小さく落とすというような調整を行ってもよい。音量調整手段26による調整は自動的に行うようにしてもよいし、録画者(ユーザ110A)が入力部42によって設定した入力を受け付けて行うようにしてもよい。
 更に、通信端末10Aに搭載された録画データ取得手段20は、撮影部46によって撮影した周囲の録画データ(画像データのみ)54を取得する(ステップS14)。取得した録画データ54は、記憶部48に記憶される。録画データ54には、必要に応じて時間情報が付加されて記憶されてもよい。
 次に、通信端末10Aは、動画生成手段22によって、録画データ54に、自己音声データ50と相手音声データ52を付加して、動画データ56を生成する(ステップS16)。動画生成手段22は、自己音声データ50、相手音声データ52及び録画データ54がそれぞれ時間情報を有する場合には、それぞれの時間情報を同期させて動画データ56を生成してもよい。また、相手音声データ52と録画データ54が時間情報を有する場合には、自己音声データ50は逐次録画データ54に付加し、相手音声データ52は時間情報を同期させて録画データ54に付加して動画データ56を生成してもよい。あるいは、自己音声データ50及び相手音声データ52を、時間情報を用いることなく、逐次録画データ54に付加して動画データ56を生成し、リアルタイムに動画生成してもよい。なお、例えば、自己音声データ50と相手音声データ52とを合成しておき、録画終了の指示を行った際に、録画データに、この合成した音声データを付加してもよい。
 生成された動画データ56は、ユーザ110Aの通信端末10Aに搭載された記憶部48に記憶される(ステップS18)。これによって、撮影を行ったユーザ110A自身の通信端末10Aに動画データ56を保存できるため、録画データを通信することなく自身の体験を記憶することが可能となる。録画を終了する場合には、図9に示す録画画面90において、ボタン92をタップすると切替手段30によって、録画画面から通話画面に画面の表示が切り替えられる。
 図6には、録画中の環境音カット機能のON/OFFの手順の一例を示すフローチャートが示されている。前記ステップS12において録画を開始すると(ステップS20)、図9に示す録画画面90が表示される。録画画面90においてボタン92をタップして環境音カットを選択すると(ステップS22でYes)、環境音選択手段28は、通信手段40を介して、録画対象者(ユーザ110B)の通信端末10Bに環境音カットの信号を送信する(ステップS24)。
 通信端末10Bは、環境音カットの信号を通信部40を介して受信すると、環境音選択手段28が、近距離無線通信によって、ヘッドセット60Bに環境音のカット信号を送信する。環境音のカット信号を近距離無線通信部66により受信したヘッドセット60Bでは、環境音分離手段64によって、音声検知部62で検知された音声から環境音を分離する。環境音が分離された音声データは、近距離無線通信部66により通信端末10Bに送信される。環境音が分離された音声データを受信した通信端末10Bは、通信部40を介して音声データを他の通信端末10Aに送信する。環境音がカットされた音声データを通信部40を介して受信することで、通信端末10Aは環境音がカットされた音声データを取得する(ステップS26)。その後の処理は、図4のステップS16へ続く。環境音カット機能をONにしている場合には、音声がクリアに聞こえて、コミュニケーションがスムースに進むという利点がある。
 一方、ボタン92をタップして環境音カット機能の停止を選択すると(ステップS22でNo)、環境音選択手段28は、通信手段40を介して、録画対象のユーザ110Bの通信端末10Bに環境音カット機能の停止信号を送信する(ステップS28)。通信端末10Bが通信部40を介して前記停止信号を受信すると、通信端末10Bの環境音選択手段28は、ヘッドセット60Bに環境音カット機能の停止信号を近距離無線通信により送信する。ヘッドセット60Bは、近距離無線通信部66により受信した環境音カット機能の停止信号に従い、環境音分離部64による環境音カット機能を停止し、音声検知部62で検知された音声データをそのまま、近距離無線通信部66によって通信端末10Bに送信する。通信端末10Bは、受信した音声データを、通信部40を介して通信端末10Aに送信する。これにより、通信端末10Aは、環境音を含む相手音声データ52を取得する(ステップS30)。その後の処理は、図5のステップS16へ続く。環境音カット機能を停止することにより、音声データの送受信の遅延を防止することができることに加え、周辺ノイズが聞こえることによって臨場感が増す。
 このような環境音カット機能のON/OFFは、ユーザ10Aが自由に選択することができる。また、カットしたい環境音とカットしたくない環境音がある場合、例えば、継続的な環境音(呼吸や風切りオン)はカットし、突発的環境音(着地や急なターン音)はカットしないように自動的に選択を行うようにしてもよいし、ユーザ10Aの入力を受け付けて設定してもよい。
 以上のようにして生成された動画データ56は、ユーザ110Aの通信端末10Aに記憶するのみならず、他のユーザ110B、110Cに通信手段40を介して送信することで、シェアしてもよい。また、編集手段25によって、他の通信端末10Cで生成された動画データを、通信部40を介して受信して取得し、自己の通信端末10Aで生成された動画データ56とミキシングしてもよい。例えば、ユーザ110Aが端末10Aによって、ユーザ110Bのパフォーマンスを撮影し、別のユーザ110Cが、ユーザ110Aとは別の位置や角度から、ユーザ110Bのパフォーマンスを同時に撮影して、生成されたそれぞれの動画データをミキシングして楽しむという具合である。編集された動画データも、必要に応じて記憶部48に記憶したり、他のユーザにシェアしてもよい。
 更に、録画者(ユーザ110A)の通信端末10Aの配信手段24は、通話中に撮影部46によって撮影した録画データに、取得した自己音声データ50と相手音声データ52を付加して、通信部40を介してネットワーク120経由で他の通信端末にライブ配信(リアルタイム配信)をしてもよい。配信手段24によるライブ配信は、前記動画生成手段22による動画の生成と並行して行うようにしてもよいし、動画生成手段22による動画生成に代えて行うようにしてもよい。
 <効果>・・・以上説明した実施形態によれば、グループ通話中に録画モードに切り替え、通信端末10Aによって、自己音声データ52、相手音声データ54、録画データ54を取得し、当該録画データ54に、自己音声データ52と相手音声データ54を付加することで動画データ56を生成することとした。このため、グループ通話中の録画が可能となり、かつ、録画データ54をユーザの通信端末10に保存することができ、自己の体験を保存することができる。あるいは、録画データに自己音声データ52と相手音声データ54を付加して他の通信端末にライブ配信することが可能となる。
 したがって、データ量の少ない相手音声データを通信によって取得し、手元の通信端末10Aで撮影している録画データと相手音声データ(及び自己音声データ)を合成するので、録画データの画像に対して、相手音声の遅延を短くすることが可能であり、結果として、自然な動画データを生成したり、ライブ配信することができる。配信時は、配信の時点でデータ遅延が発生したとしても、録画データと音声データが自然に合成された動画データを配信するため、より自然な動画を他のユーザと共有することができる。
 なお、上述した実施形態は一例であり、本発明は、上述した実施形態に限られるものではない。例えば、上述した実施形態では、サーバ100やヘッドセット60をシステムに用いることとしたが、これらの機能を通信端末が有する場合には、通信端末10のみでシステムを構成することが可能である。また、上述した実施形態では、ユーザ110A~110C間のグループ通話を例に挙げて説明したが、ユーザの数は更に多くてもよいし、あるいは、一対一の通話に本発明を提供することを妨げるものではない。
 本実施例では、スケートボードのパフォーマンスを撮影対象の例として説明したが、この限りではない。例えば、飛行場の整備工場等のような、騒音下において、本実施例の複数の通信端末を活用していれば、整備を行っている作業者の様子と音声を、騒音の影響を落として、リアルタイムに保存し(動画として)整備記録を生成することが、追加の機器を必要とせず可能となる。この際、撮影者が現場監督であれば、自分の目で見た状況に加えて、手元の通信端末10の撮影機能で拡大表示した作業者の手元の画像を確認しながら作業者に指示を出すことで、作業者には、騒音を落として遅延なく音声の指示を伝えつつ、指示の音声も同時に整備記録に残すことが出来る。
 また、上述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明の効果は、上述した実施形態に記載されたものに限定されるものではない。更に、本発明は、通信端末で実行されるアプリケーションプログラムとして提供されてもよい。このアプリケーションプログラムは、ネットワークを介してダウンロードしてもよい。
 本発明によれば、通話中に録画モードに切り替え、通信端末によって、自己音声データ、相手音声データ、録画データを取得し、当該録画データに、自己音声データと録画データを付加することで動画データを生成することとした。このため、通話中の録画が可能となり、かつ、動画データをユーザの通信端末に保存することができる。あるいは、録画データに自己音声データと相手音声データを付加して他の通信端末にライブ配信することができる。このため、自己の体験(見聞きしたもの)を自己の通信端末に保存したり、他のユーザと共有したりすることができ、利便性の高いコミュニケーションツールとして好適である。
 10、10A~10C:通信端末
 12:制御部
 14:通信手段
 16:自己音声データ取得手段
 18:相手音声データ取得手段
 20:録画データ取得手段
 22:動画生成手段
 24:配信手段
 25:編集手段
 26:音量調整手段
 28:環境音選択手段
 30:切替手段
 40:通信部
 42:入力部
 44:表示部
 46:撮影部
 48:記憶部
 50:自己音声データ
 52:相手音声データ
 54:録画データ
 56:動画データ
 60、60A~60C:ヘッドセット
 62:音声検知部
 64:環境音分離部
 66:近距離無線通信部
 68:再生部
 80:グループ通話画面
 82、88、94、97、98:ボタン
 84、86:アイコン
 88:マーク
 90:録画画面
100:サーバ
110A~110C:ユーザ
 
 

Claims (13)

  1.  他の通信端末と通信して接続する通信手段と、
     通信で接続された通信相手の音声のデータである相手音声データを取得する相手音声データ取得手段と、
     外部を撮影する撮影手段と、
     前記撮影手段が撮影した録画データを取得する録画データ取得手段と、
     前記録画データに、前記相手音声データを付加して、動画データを生成する動画生成手段と、
     を備えることを特徴とする通信端末。
  2.  通話中に使用者の音声を取得して自己音声データを作成する自己音声データ取得手段を備え、
     前記動画生成手段は、前記録画データに、前記自己音声データ及び前記相手音声データを付加して、動画データを生成する請求項1に記載の通信端末。
  3.  前記相手音声データ取得手段は、通話中の相手の音声から前記相手音声データを作成することを特徴とする請求項1に記載の通信端末。
  4.  前記相手音声データ取得手段は、通信相手の通信端末において作成された断片的な音声パケットを前記通信手段から取得することを特徴とする請求項1に記載の通信端末。
  5.  前記自己音声データと、前記相手音声データと、前記録画データは、それぞれ時間情報を有し、
     前記動画生成手段は、前記それぞれの時間情報を同期させて付加することを特徴とする請求項1~4のいずれか一項に記載の通信端末。
  6.  前記相手音声データ及び前記録画データは、それぞれ時間情報を有し、
     前記動画生成手段は、前記自己音声データを逐次前記録画データに付加し、前記相手音声データは前記時間情報を同期させて前記録画データに付加する請求項1~4のいずれか一項に記載の通信端末。
  7.  前記動画生成手段は、前記自己音声データ及び前記相手音声データを、逐次前記録画データに付加することを特徴とする請求項1~4のいずれか一項に記載の通信端末。
  8.  他の通信端末で生成された動画データを前記通信手段から取得し、自己の通信端末で生成された動画データと編集する動画編集手段と、
    を備えることを特徴とする請求項1~7のいずれか一項に記載の通信端末。
  9.  前記動画データを、前記通信手段を介して他の通信端末に配信する配信手段と、
    を備えることを特徴とする請求項1~8のいずれか一項に記載の通信端末。
  10.  他の通信端末と通信して接続する通信手段と、
     通信で接続された通信相手の音声のデータである相手音声データを取得する相手音声データ取得手段と、
     外部を撮影した録画データに、前記相手音声データを付加して、前記通信手段を介して他の通信端末に配信する配信手段と、
    を備えることを特徴とする通信端末。
  11.  通信端末に、
     他の通信端末と通信して接続するステップと、
     
     通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、
     外部を撮影し、撮影された録画データを取得するステップと、
     前記録画データに、前記相手音声データを付加して、動画データを生成するステップと、
     を実行させることを特徴とする通信端末用アプリケーションプログラム。
  12.  通信端末に、
     他の通信端末と通信して接続するステップと、
     
     通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、
     外部を撮影した録画データに、前記相手音声データを付加して、通信で接続された他の通信端末に配信するステップと、
     を実行させることを特徴とする通信端末用アプリケーションプログラム。
  13.  通信端末が実行する通信方法であって、
     他の通信端末と通信して接続するステップと、
     通信で接続された通信相手の音声のデータである相手音声データを取得するステップと、
     外部を撮影した録画データに、前記相手音声データを付加して、動画データを生成するステップと、
     を含むことを特徴とする通信方法。
PCT/JP2020/016858 2019-04-19 2020-04-17 通信端末、通信端末用アプリケーションプログラム及び通信方法 WO2020213711A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20791950.7A EP3958544A4 (en) 2019-04-19 2020-04-17 COMMUNICATION TERMINAL, APPLICATION PROGRAM FOR A COMMUNICATION TERMINAL AND COMMUNICATION METHOD
JP2021514233A JPWO2020213711A1 (ja) 2019-04-19 2020-04-17
US17/615,623 US20220239721A1 (en) 2019-04-19 2020-04-17 Communication terminal, application program for communication terminal, and communication method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019080558 2019-04-19
JP2019-080558 2019-04-19

Publications (1)

Publication Number Publication Date
WO2020213711A1 true WO2020213711A1 (ja) 2020-10-22

Family

ID=72838260

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/016858 WO2020213711A1 (ja) 2019-04-19 2020-04-17 通信端末、通信端末用アプリケーションプログラム及び通信方法

Country Status (4)

Country Link
US (1) US20220239721A1 (ja)
EP (1) EP3958544A4 (ja)
JP (1) JPWO2020213711A1 (ja)
WO (1) WO2020213711A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787259B (zh) * 2020-07-17 2021-11-23 北京字节跳动网络技术有限公司 一种视频录制方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0116446B2 (ja) 1985-06-12 1989-03-24 Asahi Chemical Ind
JP2006074538A (ja) * 2004-09-03 2006-03-16 Casio Comput Co Ltd 無線通信端末
JP2007174000A (ja) * 2005-12-20 2007-07-05 Casio Hitachi Mobile Communications Co Ltd テレビ電話装置及びプログラム
JP2008227968A (ja) * 2007-03-13 2008-09-25 Omron Corp テレビ会議システムにおける端末装置、端末装置の制御方法、端末装置の制御プログラム
JP2013201594A (ja) * 2012-03-26 2013-10-03 Sanyo Electric Co Ltd 通信端末装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101440179B1 (ko) * 2007-10-19 2014-09-12 복서 아이피 엘엘씨 네트워크를 통한 실시간 미디어 동기화 방법 및 시스템
US20140355947A1 (en) * 2013-03-15 2014-12-04 Alois William Slamecka System and method for synchronizing multi-camera mobile video recording devices
US11363570B1 (en) * 2015-10-02 2022-06-14 Ambarella International Lp System and method for providing real time audio content to flying camera video
US20200028955A1 (en) * 2017-03-10 2020-01-23 Bonx Inc. Communication system and api server, headset, and mobile communication terminal used in communication system
US10825480B2 (en) * 2017-05-31 2020-11-03 Apple Inc. Automatic processing of double-system recording
CN107566769B (zh) * 2017-09-27 2019-12-03 维沃移动通信有限公司 一种视频录制方法及移动终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0116446B2 (ja) 1985-06-12 1989-03-24 Asahi Chemical Ind
JP2006074538A (ja) * 2004-09-03 2006-03-16 Casio Comput Co Ltd 無線通信端末
JP2007174000A (ja) * 2005-12-20 2007-07-05 Casio Hitachi Mobile Communications Co Ltd テレビ電話装置及びプログラム
JP2008227968A (ja) * 2007-03-13 2008-09-25 Omron Corp テレビ会議システムにおける端末装置、端末装置の制御方法、端末装置の制御プログラム
JP2013201594A (ja) * 2012-03-26 2013-10-03 Sanyo Electric Co Ltd 通信端末装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3958544A4

Also Published As

Publication number Publication date
JPWO2020213711A1 (ja) 2020-10-22
US20220239721A1 (en) 2022-07-28
EP3958544A1 (en) 2022-02-23
EP3958544A4 (en) 2023-01-11

Similar Documents

Publication Publication Date Title
US11758329B2 (en) Audio mixing based upon playing device location
US9137484B2 (en) Device, method and software for providing supplementary information
EP2723090B1 (en) A directional sound apparatus, method graphical user interface and software
US20060215585A1 (en) Conference system, conference terminal, and mobile terminal
EP1774825A1 (en) In-ear monitoring system and method
GB2463107A (en) A remote control unit of a media device for placing/receiving calls, comprising activating one of the two wireless transceivers when needed.
WO2012142975A1 (zh) 会场终端音频信号处理方法及会场终端和视讯会议系统
JP4992591B2 (ja) 通信システム及び通信端末
CN113395305B (zh) 进行同步播放处理的方法、装置及电子设备
WO2020213711A1 (ja) 通信端末、通信端末用アプリケーションプログラム及び通信方法
CN111049709A (zh) 一种基于蓝牙的互联音箱控制方法、设备及存储介质
KR20230066362A (ko) 지속적 공존 그룹 화상 회의 시스템
EP1515570B1 (en) Multiparty call of portable devices with party positioning identification
JP4572697B2 (ja) Ip電話機能に基づく呼接続中に映像コンテンツデータを再生する方法、端末及びプログラム
US11665271B2 (en) Controlling audio output
US20230370801A1 (en) Information processing device, information processing terminal, information processing method, and program
US20210120167A1 (en) Control method for camera device, camera device, camera system, and storage medium
KR20170095477A (ko) 스마트 다중 음향제어 통합 시스템 및 방법
JP7312337B1 (ja) 会議システム、制御装置、制御方法、プログラム、および記録媒体
JP2007129365A (ja) 通信装置、通信システム、通信装置の制御プログラム、および通信装置の制御プログラムを記録した記録媒体
US11985494B2 (en) Apparatus for providing audio data to multiple audio logical devices
JP5803132B2 (ja) 音声切替装置、プログラム及び方法
US20240031758A1 (en) Information processing apparatus, information processing terminal, information processing method, and program
JP7406759B1 (ja) Vr動画同期再生装置
JP3241225U (ja) 無観客ライブ配信システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20791950

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021514233

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020791950

Country of ref document: EP

Effective date: 20211119