WO2015184701A1

WO2015184701A1 - 单呼即通实况通信终端、方法及工具

Info

Publication number: WO2015184701A1
Application number: PCT/CN2014/086574
Authority: WO
Inventors: 宋晨枫
Original assignee: 北京小鱼儿科技有限公司
Priority date: 2014-06-05
Filing date: 2014-09-15
Publication date: 2015-12-10
Also published as: US20180039836A1; CN104023207A

Abstract

本发明公开了一种单呼即通实况通信终端、方法及安装于移动终端的工具，其中，单呼即通实况通信终端接收来自可信任用户的连接请求；响应于接收到来自可信任用户的连接请求，自动发出对该连接请求的应答，从而自动建立与可信任用户的 IP 通信；在与可信任用户的 IP 通信中，向可信任用户发送采集到的视、音频，并至少接收来自可信任用户的音频。与现有技术相比，本发明通过单呼即通实况通信终端自动响应可信任用户的连接请求，加强了监视端可信任用户与被监视端的互动从而提升用户的通信体验。

Description

单呼即通实况通信终端、方法及工具

本申请要求了2014年6月5日提交的、申请号为201410247191.1、发明名称为“单呼即通实况通信终端、方法及工具”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术，尤其涉及一种单呼即通实况通信终端、方法及工具。

背景技术

现有技术中，存在着一种家庭摄像监控系统。在家庭中安装有摄像头，将采集到的视频信号发送给远程的监视端(如手机用户)。在监视端的屏幕上显示采集到的视频，从而实现远程监控。但是，远程视频监控不是一种双向通信。虽然监视端的用户能够看到家里面的情况，但家里面的人听不到监视端用户的声音，不能双向互动，用户体验差。

发明内容

本发明解决的技术问题之一是加强处于固定场所需要被关照、被光顾的人，与处于其他不固定场所、可移动性用户之间的实时互动，从而提升通信体验。它对应于实际生活中一种普遍存在的沟通模型，即访问用户与被访问场所、被访问的人之间存在特定的社会关系，比如老人与子女，父母与孩子，无需进行类似于陌生人对话那样的身份确认步骤。

根据本发明的一个方面的一个实施例，提供了一种单呼即通实况通信终端，包括摄像机、音频采集单元、扬声器以及收发信机，摄像机、音频采集单元分别采集到的视、音频通过收发信机发送，通过收发信机接收到的音频通过扬声器输出，其中收发信机响应于接收到来自可信任用户的连接请求，自动发出对该连接请求的应答，从而自动建立与可信任用户的IP通信。单呼即通是指单向呼叫后即可自动进行双向通信。

根据本发明的一个实施例，收发信机在自动建立与可信任用户的IP通信之后，仅将摄像机、音频采集单元采集到的视、音频发送给可信任用户，响应于来自可信任用户的双向通信请求，才在将摄像机、音频采集单元采集到的视、音频发送给可信任用户的同时将来自可信任用户的音频通过扬声器输出。

根据本发明的一个实施例，收发信机在自动建立与可信任用户的IP通信之后，在将摄像机、音频采集单元采集到的视、音频发送给可信任用户的同时将来自可信任用户的音频通过扬声器输出。

根据本发明的一个实施例，所述单呼即通实况通信终端还包括显示器，在收发信息建立了与可信任用户的IP通信的情况下，如果收发信机接收到视频则显示视频，如果收发信息未接收到视频则显示可信任用户的标识。

根据本发明的一个实施例，收发信机响应于在建立与可信任用户的IP通信后接收到来自另一可信任用户的连接请求，向所述另一可信任用户发出经服务器IP通信的应答，并向所述可信任用户发出改经服务器进行IP通信的请求。

根据本发明的一个实施例，在收发信机同时建立了与多个可信任用户的IP通信的情况下，显示器同时显示多个可信任用户的视频或标识。

根据本发明的一个实施例，响应于所述多个可信任用户的视频或标识中的一个或多个视频或标识被选择，收发信机断开与所述一个或多个视频或标识对应的可信任用户的IP通信，或者扬声器不输出与所述一个或多个视频或标识对应的可信任用户的声音。

根据本发明的一个实施例，响应于所述多个可信任用户的视频或标识中之一被选择，被选择的可信任用户的视频或标识变为放大的主画面。

根据本发明的一个实施例，响应于从摄像机、音频采集单元分别采集到的视、音频中识别出人或特定人，收发信机向可信任用户发送提醒信息。

根据本发明的一个实施例，人或特定人是基于人脸识别、身高识别、声音识别、携带手机发出的无线信号表明的身份中的一个或多个来识别的。

根据本发明的一个实施例，响应于从摄像机、音频采集单元分别采集到的视、音频中识别出特定动作，收发信机向可信任用户发送提醒信息。

根据本发明的一个实施例，特定动作是通过事先为预定的动作建立模型，并从摄像机、音频采集单元分别采集到的视、音频中搜索与建立的模型的匹配识别的。

根据本发明的一个实施例，所述模型是通过自学习的方式产生的。

根据本发明的一个实施例，所述单呼即通实况通信终端还包括深度传感器，所述特定动作是基于摄像机、音频采集单元分别采集到的视、音频以及深度传感器感测的深度识别的。

根据本发明的一个实施例，响应于从摄像机、音频采集单元分别采集到的视、音频中识别出异常状况，收发信机向可信任用户发送提醒信息。

根据本发明的一个实施例，所述异常状况是通过识别出以下中的一种或多种识别的：摄像机采集到的视频的剧烈变化；音频采集单元采集到的高于特定阈值的音频；音频采集单元采集到的音频的剧烈变化；基于摄像机、音频采集单元分别采集到的视、音频识别出的预定事件，其中该预定事件的模型事先已建立，并通过从基于摄像机、音频采集单元分别采集到的视、音频中搜索与建立的模型相匹配的事件，从而识别预定事件。

根据本发明的一个实施例，单呼即通实况通信终端还包括：使摄像机转动的转动装置。

根据本发明的一个实施例，响应于从摄像机、音频采集单元分别采集到的视、音频中识别出以下要素中的一个，转动装置使摄像机向着面对识别出的要素的方向转动：人或特定人；特定动作；异常状况。

根据本发明的一个实施例，单呼即通实况通信终端还包括：光线传感器，用于感测单呼即通实况通信终端周围环境光线的变化，其中显示器的显示亮度是根据所述光线的变化调整的。

根据本发明的另一方面的一个实施例，还提供了一种安装于移动终端的工具，包括：发送单元，被配置为响应于触发，发送针对特定通信终端的连接请求；接收单元，被配置为接收来自所述特定通信终端的自动应答，从而自动建立与所述特定移动终端的IP通信。

根据本发明的一个实施例，在自动建立与所述特定移动终端的IP通信后，接收单元接收来自所述特定通信终端的视、音频，发送单元不发送用户的音、视频，响应于第二触发，才在接收单元接收来自所述特定通信终端的视、音频的同时发送单元向所述特定通信终端发送音、视频。

根据本发明的一个实施例，在自动建立与所述特定移动终端的IP通信后，在接收单元接收来自所述特定通信终端的视、音频的同时，发送单元向所述特定通信终端发送音、视频。

根据本发明的一个实施例，第一触发包括以下中的任一种：所述移动终端的开机；所述移动终端开机状态下所述工具的激活；所述移动终端开机状态下用户界面上的特定动作；所述移动终端开机状态下接收到的特定语音；所述移动终端开机状态下感测到的光线变强。

根据本发明的一个实施例，所述第二触发包括以下中的任一种：在所述工具的激活状态下用户界面上的特定动作；在所述工具的激活状态下接收到的特定语音。

根据本发明的一个实施例，发送单元被配置为在移动终端存储有针对多个通信终端的连接的情况下，响应于用户输入的选择，发送针对用户所选择的特定通信终端的连接请求。

根据本发明的又一个方面的一个实施例，还提供了一种单呼即通实况通信方法，包括：接收来自可信任用户的连接请求；响应于接收到来自可信任用户的连接请求，自动发出对该连接请求的应答，从而自动建立与可信任用户的IP通信；在与可信任用户的IP通信中，向可信任用户发送采集到的视、音频，并至少接收来自可信任用户的音频。

根据本发明的一个实施例，所述单呼即通实况通信方法还包括：响应于从采集到的视、音频中识别出以下要素中的一个，向用户发送提醒信息：人或特定人；特定动作；异常状况。

根据本发明的一个实施例，所述单呼即通实况通信方法还包括：响应于在建立与可信任用户的IP通信后接收到来自另一可信任用户的连接请求，向所述另一可信任用户发出经服务器IP通信的应答，并向所述可信任用户发出改经服务器进行IP通信的请求。

与现有技术相比，本发明一个实施例提供的单呼即通实况通信终端通过收发信机响应来自可信任用户的连接请求，自动发出对该连接请求的应答，从而自动建立与可信任用户的IP通信。相比于现有技术的方案，为不仅监视端用户可以随时查看实况通信终端处的状况，实况通信终端处的人也能实时与监视端用户互动提供了可能，提升了用户体验。无需实况通信终端的用户对连接请求进行人工确认即可建立IP通信的方式避免了实况通信终端处无人或有人但无法正常接听而造成无法进行实况监视的影响。

虽然本发明一个实施例的配置为监视端用户和实况通信终端处的人的双向互动提供了可能，但有时监视端用户也有不希望实况通信终端处的人知道谁在监视的需要。因此，收发信机可以在自动建立与可信任用户的IP通信之后，仅将摄像机、音频采集单元采集到的视、音频发送给可信任用户，响应于来自可信任用户的双向通信请求，才在将摄像机、音频采集单元采集到的视、音频发送给可信任用户的同时将来自可信任用户的音频通过扬声器输出。这样，使得监视端用户可以灵活选择是否让实况通信终端处的人知道自己在监视，提高监视端用户侧的灵活性。

并且，本发明一个实施例提供的单呼即通实况通信终端基于其是否接收到视频，显示不同信息，使得信息显示的方式和数据传送的格式更灵活。

并且，本发明一个实施例提供的单呼即通实况通信终端在与单个可信任用户进行通信时采用端到端的直接通信，在与多个可信任用户进行通信时改经服务器进行IP通信，这种灵活的通信方式使得单呼即通实况通信终端在与单个可信任用户进行通信时可以有效避免对服务器资源的浪费，并使得单呼即通实况通信终端在与多个可信任用户进行通信时通过服务器来转发数据，更快更准确地传送大量数据。

并且，本发明一个实施例提供的单呼即通实况通信终端可以在与多个可信任用户IP通信的情况下，由显示器同时显示多个可信任用户的视频或标识，从而提升用户的视觉体验。

并且，本发明一个实施例提供的单呼即通实况通信终端可以在与多个可信任用户IP通信的情况下，由收发信机断开与其中一个或多个可信任用户的IP通信，使得单呼即通实况通信终端的可信任用户可以自由地选择通信对象；并且，单呼即通实况通信终端的扬声器可以向一个或多个可信任用户输出或不输出声音，从而进一步提高可信任用户进行视频通信/语音通信/仅画面通信的灵活度。

并且，本发明一个实施例提供的单呼即通实况通信终端可以响应于所述多个可信任用户的视频或标识中之一被选择，被选择的可信任用户的视频或标识变为放大的主画面，从而突出单呼即通实况通信终端与主画面对应的可信任用户的通信，进一步提升用户的视觉体验。

并且，本发明一个实施例提供的单呼即通实况通信终端可以基于摄像机、音频采集单元分别采集到的视、音频识别出人或特定人，向可信任用户发送提醒信息，从而满足可信任用户仅需在有人或特定人出现在特定环境中才进行监视的需要，避免持续监视。

并且，本发明一个实施例提供的单呼即通实况通信终端可以基于人脸识别、身高识别、声音识别、携带手机发出的无线信号表明的身份中的一个或多个来识别，可以有效提升单呼即通实况通信终端对周围情况识别的灵敏度。

并且，本发明一个实施例提供的单呼即通实况通信终端可以基于摄像机、音频采集单元分别采集到的视、音频中识别出特定动作或异常状况，并向可信任用户发送提醒信息，从而满足可信任用户可能仅需要在单呼即通实况通信终端出现某些情况进行监视的需要，避免持续监视。

并且，本发明一个实施例提供的单呼即通实况通信终端可以通过为预定的动作事先建立模型，也可以通过自学习的方式产生模型，并从摄像机、音频采集单元分别采集到的视、音频中搜索与建立的模型相匹配的动作，从而更灵活、更智能、更准确地识别特定动作，更好地监控周围情况。

并且，本发明一个实施例提供的单呼即通实况通信终端通过采用深度传感器进行周围情况的深度识别，在识别三维物体和人、特定人、动作等方面，准确度更高。

并且，本发明一个实施例提供的单呼即通实况通信终端的摄像机可转动，进一步还可以向着识别出的要素转动，更智能、更灵活地采集事件。

并且，由于在本发明的一个实施例中，能根据感测到的单呼即通实况通信终端周围环境光线的变化调整显示器的显示亮度，提高了观看显示器的舒适度。

由于本发明一个实施例提供的安装于移动终端的工具发送针对特定通信终端的连接请求，并配置为接收来自所述特定通信终端的自动应答，从而自动建立与所述特定移动终端的IP通信，无需实况通信终端的用户对连接请求进行人工确认即可建立IP通信的方式避免了实况通信终端处无人造成无法进行实况监视的影响。

由于在本发明一个实施例中，在自动建立与所述特定移动终端的IP通信后，接收单元接收来自所述特定通信终端的视、音频，发送单元不发送用户的音频，响应于第二触发，才在接收单元接收来自所述特定通信终端的视、音频的同时发送单元向所述特定通信终端发送音频，这样，监视端用户如果不希望实况通信终端处的人知道自己在监视，就可以不进行第二触发，从而监视端用户可以灵活选择是否让实况通信终端处的人知道自己在监视，提高监视端用户侧的灵活性。

在本发明的一个实施例中，所述触发可以是所述移动终端的开机、所述移动终端开机状态下所述工具的激活、所述移动终端开机状态下用户界面上的特定动作、所述移动终端开机状态下接收到的特定语音、所述移动终端开机状态下感测到的光线变强中的任一个，提升了该移动终端被触发的灵活性。

另外，在本发明的一个实施例中，移动终端可以存储有针对多个通信终端的连接，可以让用户选择其中一个通信终端进行通信，使得一个移动终端可以同时绑定多个单呼即通实况通信终端，提升用户便利性。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个实施例的单呼即通实况通信终端的示意性框图；

图2(a)示出了根据本发明一个实施例的单呼即通实况通信终端和单个用户进行IP通信的示意图；

图2(b)示出了根据本发明另一个实施例的单呼即通实况通信终端和多个用户进行IP通信的示意图；

图3示出了根据本发明一个实施例的单呼即通实况通信终端的外部左视图；

图4示出了根据本发明的一个实施例的移动终端的框图；

图5示出了根据本发明又一个实施例的单呼即通实况通信方法的流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出了根据本发明一个实施例的单呼即通实况通信终端1的示意图。根据本发明一个实施例的单呼即通实况通信终端1包括摄像机101、音频采集单元102、扬声器104以及收发信机105。摄像机101、音频采集单元102分别采集到的视、音频通过收发信机105发送。通过收发信机105接收到的音频通过扬声器104输出。收发信机101响应于接收到来自用户的连接请求，自动发出对该连接请求的应答，从而自动建立与用户的IP通信。单呼即通是指单向呼叫后即可自动进行双向通信。

在收发信机101在自动建立与用户的IP通信之后，可以自动建立可信任用户与单呼即通实况通信终端1处的人的双向互通。即，在将摄像机101、音频采集单元102采集到的视、音频发送给可信任用户的同时将来自可信任用户的音频通过扬声器104输出。也可以先仅将单呼即通实况通信终端1处的情况通知给可信任用户，而不将可信任用户的音频等传送到单呼即通实况通信终端1侧。即，仅将摄像机101、音频采集单元102采集到的视、音频发送给可信任用户。当可信任用户发出双向通信请求后，才将可信任用户的音频等传送到单呼即通实况通信终端1侧，即在将摄像机101、音频采集单元102采集到的视、音频发送给可信任用户的同时将来自可信任用户的音频通过扬声器104输出。

在图2中，摄像机101是实况通信终端1的上端的摄像头，但本领域技术人员应当理解，其也可以是位于实况通信终端1的其他位置的其他摄像装置。音频采集单元102例如是实况通信终端1外表面的麦克风，但也可以是其他音频采集装置。扬声器104例如是实况通信终端1外表面的放音器，但也可以是其他音频输出设备。收发信机105例如天线，也可以是其他收发设备，例如内置的无线收发模块。

在此，所述单呼即通实况通信终端包括但不限于任何一种可与用户通过触摸板、声控设备、遥控设备或键盘等进行人机交互的电子产品，例如计算机、平板电脑(PAD)、网络电视(IPTV)等，本领域技术人员应能理解，其他的用户设备如可适用于本发明，也应包含在本发明保护范围以内。

进一步地，请继续参考图1，所述单呼即通实况通信终端1可以还包括显示器103，在收发信机101建立了与可信任用户的IP通信的情况下，如果收发信机105接收到视频则显示视频，如果收发信机105未接收到视频则显示可信任用户的标识。当然，所述收发信机105即使在可以接收到视频的情况下，显示器103也可以仅显示可信任用户的标识。其中，所述可信任用户的标识可以为可信任用户的视频截图、头像或其他标识。当然，单呼即通实况通信终端1也可以不包括显示器103，这样，实况通信终端1在与可信任用户IP通信时，不能看到可信任用户的图像，只能听到可信任用户的声音。

图2(a)示出了根据本发明一个实施例的单呼即通实况通信终端1和单个可信任用户进行IP通信的示意图。根据图2(a)，单呼即通实况通信终端1和单个可信任用户进行IP通信时，优选基于点对点协议(Point-to-Point Protocol)进行IP通信，以节省服务器的资源。图2(b)示出了根据本发明另一个实施例的单呼即通实况通信终端1和多个可信任用户进行IP通信的示意图。根据图2(b)，单呼即通实况通信终端1和多个可信任用户进行IP通信时，经由IP网络4通过服务器5来收发信息。

具体地，以可信任用户A和可信任用户B为例，当单呼即通实况通信终端1仅跟可信任用户A进行IP通信时，直接基于点对点协议进行IP通信；当单呼即通实况通信终端1在跟可信任用户A已经建立了IP通信的情况下，此时接收到可信任用户B的连接请求，则单呼即通实况通信终端1向可信任用户B发出经服务器IP通信的应答，并向可信任用户A发出改经服务器进行IP通信的请求，之后可信任用户A和可信任用户B都通过服务器与单呼即通实况通信终端1进行通信，也即，此时的可信任用户A与单呼即通实况通信终端1的IP通信从点对点的IP通信方式切换到改经服务器进行IP通信的方式。在此，所述服务器可以包括网络主机、单个网络服务器、多个网络服务器集合或基于云计算的计算机集合。

可选地，单呼即通实况通信终端1的收发信机105在同时与多个可信任用户进行IP通信的情况下，单呼即通实况通信终端1的显示器103可以同时显示多个可信任用户的视频或标识。优选地，为了使单呼即通实况通信终端1更自由地选择通信对象，单呼即通实况通信终端1响应于所述多个可信任用户的视频或标识中的一个或多个视频或标识被选择，收发信机105断开与所述一个或多个视频或标识对应的可信任用户的IP通信。或者收发信机105在仍与一个或多个可信任用户进行IP通信的情况下，所述扬声器104不输出被选择的一个或多个视频或标识对应的可信任用户的声音，仅由显示器103显示被选择的一个或多个视频或标识对应的可信任用户的视频画面，避免单呼即通实况通信终端1端的人听到的多个可信任用户的声音互相干扰。

可选地，为了更好地突出单呼即通实况通信终端1的显示器103中的主画面，所述单呼即通实况通信终端1响应于所述多个可信任用户的视频或标识中之一被选择，被选择的可信任用户的视频或标识从原画面升级为放大的主画面。

根据本发明的一个实施例，为了更智能地提醒可信任用户知晓单呼即通实况通信终端的情况，所述单呼即通实况通信终端1可以响应于从摄像机101、音频采集单元102分别采集到的视、音频中识别出人或特定人，并由收发信机105向可信任用户发送提醒信息。典型地，当所述单呼即通实况通信终端1从无人环境切换到有人环境时，即通过摄像机101、音频采集单元102检测到当前场所中出现人时，则由收发信机105主动向另一端的可信任用户发送提醒信息，告知另一端的可信任用户当前环境中有人出现。典型地，所述单呼即通实况通信终端1也可以针对摄像机101、音频采集单元102所识别出的特定人，由收发信机105主动向可信任用户发送提醒信息，例如，在现实场景中，保姆一直在家里待着，此时孩子放学回来了，置于家中的单呼即通实况通信终端1通过摄像机101、音频采集单元102识别出孩子，则由收发信机105及时或实时向远程用户(例如办公室中的父亲)发送提醒信息。

可选地，所述单呼即通实况通信终端1可以通过摄像机101、音频采集单元102以及其他装置或单元，基于人脸识别、身高识别、声音识别、携带手机发出的无线信号表明的身份中的一个或多个来识别人或特定人。

在识别人的情况下，由于人脸的模式是很像的，绝大多数人的身高也是在特定范围内、人的声音频率也是在特定范围内，因此，例如当拍摄的图像中的某一区域与存储的人脸的模式类似，且/或结合位置传感器和/或深度传感器感测到的人脸与单呼即通实况通信终端1的距离判断出其身高在特定范围内，且/或音频采集单元102采集到的音频也在特定范围内，可识别出人的存在。

在识别特定人的情况下，可以预先将特定人的人脸的模式和/或身高和/或声音频率存储在存储器中。当拍摄的图像中的某一区域与存储的该特定人脸的模式匹配，且/或结合位置传感器和/或深度传感器感测到的该特定人脸与单呼即通实况通信终端1的距离判断出其身高与存储的身高匹配，且/或音频采集单元102采集到的音频的匹配与存储的改特定人的声音的频率匹配时，可识别出特定人的存在。

识别人或特定人的存在也可以采用自学习的方法。例如，如果拍摄的图像中的某个模式与采集到的声音的某个频率总是同时出现，可以在显示器上显示提示，即识别到了人，请实况通信终端1旁的人判断并命名。如果实况通信终端1旁的人发现识别错误，则在显示器的界面上反馈。接收到这种反馈后，在下一次拍摄的图像中的这种模式与采集到的声音的这种频率同时出现时就不认为出现了人或特定人。在自学习的方式下，也可以预先不将特定人的人脸的模式和/或身高和/或声音频率存储在存储器中。

另外，也可以基于携带手机发出的无线信号表明的身份识别人或特定人。例如单呼即通实况通信终端1是蓝牙设备，用户的手机中也具有蓝牙无线单元。当单呼即通实况通信终端1识别出特定身份的蓝牙无线单元出现在一定距离内时，则认为识别出了特定人。

在此，对于单呼即通实况通信终端1识别人或特定人的方式不予限定，任何具有识别人或特定人的装置或单元如可适用本发明，都应包含在本发明的保护范围以内，并在此以引用方式包含于此。

可选地，所述单呼即通实况通信终端1也可以通过摄像机101、音频采集单元102基于所采集到的视、音频识别特定动作，例如识别出老人摔倒的动作、小孩子跳舞的动作等等，并由收发信机105主动向另一端的可信任用户发送提醒信息。

可选地，可以人为地事先设定并根据设定的动作建立模型。当从摄像机101、音频采集单元102所采集的视、音频中搜索到与存储的一个模型相匹配的特定动作时，则由收发信机105主动向另一端的可信任用户发送提醒信息。例如，对于看电视这样一个动作，建立一个模型：识别出一个人坐在沙发上；顺着该人的目光方向看去，有一个物体；识别出该物体是电视；该人目光停留在电视上至少10秒。如果从摄像机101拍摄的图像中检测到人，然后检测到此人坐在沙发上(沙发的识别类似人脸识别，也可以通过模式匹配进行，也可以将人坐在沙发上的图像整体作为一个对象进行模式匹配识别)，然后检测此人的目光方向，然后检测此人目光方向上的物体是否是电视(例如将电视作为一个对象进行模式匹配)，如果是则计数10秒。

当然，所述单呼即通实况通信终端1也可以通过机器学习等自学习的方式自动建立动作模型。例如，单呼即通实况通信终端1从摄像机101、音频采集单元102所采集的视、音频中提取动作特征，并基于提取的特征建立动作模型。例如，从摄像机101、音频采集单元102所采集的视、音频中发现有一个人坐在沙发上、顺着此人目光看去的方向有一个电视、在此人目光停留在电视上的事件超过10秒的频率超过阈值，则认为这是一个特定动作的模型。在这种情况下，动作模型可以不预先存储在数据库中，而是根据从摄像机101、音频采集单元102所采集的视、音频以学习的方式提取动作的模型。

为了更准确地识别出特定动作，所述单呼即通实况通信终端1还包括深度传感器(197)，由摄像机101、音频采集单元102以及深度传感器通过采集的视音频以及感测的深度共同识别出特定动作。深度传感器感测人或物体与单呼即通实况通信终端1。虽然在图2(a)中深度传感器197位于显示器上部边框中心偏左的位置，其也可以设置在其他合理的物理位置。当人或物体发生一个动作的时候，同样的动作幅度由于与单呼即通实况通信终端1的距离不同在拍摄到的图像中产生的变化幅度会是不同的。因此，结合深度传感器，对动作能够进行更准确的识别，从而提高识别精度。

可选地，所述单呼即通实况通信终端1基于摄像机101、音频采集单元102所采集的视音频中识别出异常状况，由收发信机105主动向另一端的可信任用户发送提醒信息。其中，异常状况诸如陌生人到访、失火、哭声、吵闹声、电器事故等等。典型地，所述异常状况是通过识别出以下中的一种或多种识别的：摄像机采集到的视频的剧烈变化；音频采集单元采集到的高于特定阈值的音频；音频采集单元采集到的音频的剧烈变化；基于摄像机(101)、音频采集单元(102)分别采集到的视、音频识别出的预定事件。预定事件是事先规定好的诸如失火、电器事故等事件。

对于预定事件，具体地，所述单呼即通实况通信终端1基于摄像机101、音频采集单元102识别出预定事件，其中该预定事件的模型事先已建立，并通过从基于摄像机101、音频采集单元102分别采集到的视、音频中搜索与建立的模型相匹配的事件，从而识别预定事件。在此，所述单呼即通实况通信终端1可以通过机器学习等自学习的方式自动建立预定事件的模型。典型地，所述单呼即通实况通信终端1从摄像机101、音频采集单元102所采集的视、音频中提取事件特征，并基于提取的事件特征建立预定事件的模型。当然，也可以不采用自学习的方法建立预定事件的模型，而是直接规定若干预定事件的模型。

图3示出了根据本发明一个实施例的单呼即通实况通信终端的外部左视图。根据本发明的一个实施例，为了更好地采集信息，单呼即通实况通信终端1还包括转动装置199，用于使摄像机101转动。优选地，响应于从摄像机101、音频采集单元102分别采集到的视、音频中识别出以下要素中的一个，转动装置199使摄像机101向着面对识别出的要素的方向转动：人或特定人；特定动作；异常状况。

在一个实施例中，图3所示的摄像机101可以向着识别出的要素左右转动。在另一个实施例，图3所示的摄像机101可以向着识别出的要素上下左右转动。

如图2(a)所示，单呼即通实况通信终端1还可包括：光线传感器198，用于感测单呼即通实况通信终端1周围环境光线的变化，其中显示器103的显示亮度是根据所述光线的变化调整的。如果周围光线比较强，可以将显示器的显示亮度增加。如果周围光线比较弱，可以将显示器的显示亮度减少。这样，可以减少眼睛观看显示器的不舒适感。

虽然图2(a)中的光线传感器位于显示器上边框的中心偏右的位置处，但其也可以设置在任何其他合理的物理位置处。

应当理解，图1所示的框图仅仅是为了示例的目的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况增加或减少某些单元或装置。

需要说明的是，上述单呼即通实况通信终端1基于收发信机105向可信任用户发送提醒信息主要通过向可信任用户发送短信、飞信或微信或私有协议下的定制化消息等方式进行。

在此，上述另一端的可信任用户主要在wifi网络环境下与所述单呼即通实况通信终端1进行IP通信，当然，在此，所述另一端的可信任用户也可以通过诸如3G网络、2G网络、4G等通信方式与所述单呼即通实况通信终端1进行通信。

根据本发明另一个实施例，如图4所示，提供了一种安装于移动终端3的工具31，包括发送单元301和接收单元302。发送单元301被配置为响应于第一触发，发送针对特定通信终端(相应于前述的单呼即通实况通信终端)的连接请求。接收单元302被配置为接收来自所述特定通信终端的自动应答，从而自动建立与所述特定移动终端的IP通信。所述移动终端包括诸如、智能手机、平板电脑等电子设备，所述工具可以以应用程序(app)的方式安装在移动终端上，并以应用图标的形式予以展示，所述工具也可以以插件的形式内置于移动终端中。移动终端处于wifi或3G、4G等网络环境时，与单呼即通实况通信终端进行IP通信；所述移动终端处于2G等网络环境时，所述单呼即通实况通信终端可以向移动终端发送提醒信息。

在自动建立与所述特定移动终端的IP通信后，可以在接收单元302接收来自所述特定通信终端的视、音频的同时，发送单元301向所述特定通信终端发送音频。也可以在自动建立与所述特定移动终端的IP通信后，接收单元302接收来自所述特定通信终端的视、音频，发送单元301不发送用户的音频，响应于第二触发，才在接收单元302接收来自所述特定通信终端的视、音频的同时发送单元301向所述特定通信终端发送音频。这样，如果移动终端3的用户不希望特定通信终端出的人知道自己正在监视特定通信终端，可以不进行第二触发，这样，仅将来自特定通信终端的视频、音频传送给移动终端3，而移动终端3的用户的音频等信息不传递到特定通信终端处。

第一触发包括以下中的任一种：所述移动终端的开机；所述移动终端开机状态下所述工具的激活；所述移动终端开机状态下用户界面上的特定动作；所述移动终端开机状态下接收到的特定语音；所述移动终端开机状态下感测到的光线变强。

在第一触发是所述移动终端的开机的情况下，随着移动终端的开机，自动进行与单呼即通实况通信终端1的通信连接。这可以使手机在开机后自动进入对单呼即通实况通信终端1所处环境的监控状态，提高用户效率。

在第一触发是所述移动终端开机状态下所述工具的激活、所述移动终端开机状态下用户界面上的特定动作、或所述移动终端开机状态下接收到的特定语音的情况下，可以根据用户需要决定是否进入对单呼即通实况通信终端1所处环境的监控状态，增加用户灵活性。特定动作例如对图标滑动、单击、双击等，或者在触摸屏的特定位置输入特定内容。

在第一触发是所述移动终端开机状态下感测到的光线变强的情况下，当用户从口袋中拿出移动终端时，感测到光线变强，从而自动进行与单呼即通实况通信终端1的通信连接。此时，避免了在用户不希望监视单呼即通实况通信终端1所处的环境而将移动终端放在口袋中仍然占用与单呼即通实况通信终端1的连接资源导致的资源浪费。在这种方式下，在移动终端或工具中配有光线传感器，用于感测移动终端表面上光线的变化。

第二触发可以包括以下中的任一种：在所述工具的激活状态下用户界面上的特定动作；在所述工具的激活状态下接收到的特定语音。特定动作可以是在用户界面上某个位置的动作(如滑动、单击、双击等)等等。例如，第一触发可以是针对用户界面上第一图标的动作，而第二触发是针对用户界面上与第一图标不同的第二图标的动作，等等。

可选地，发送单元301被配置为在移动终端存储有针对多个通信终端的连接的情况下，响应于用户输入的选择，发送针对用户所选择的特定通信终端的连接请求。例如，可以向用户显示多个通信终端的列表，供用户选择其中一个。响应于这种选择，向选择的特定通信终端发送连接请求。

图5示出了根据本发明又一个实施例的单呼即通实况通信方法2的流程图。根据图5，所述单呼即通实况通信方法2包括：

步骤S1，单呼即通实况通信终端接收来自可信任用户的连接请求；

步骤S2，响应于接收到来自可信任用户的连接请求，自动发出对该连接请求的应答，从而自动建立与可信任用户的IP通信；

步骤S3，在与可信任用户的IP通信中，向可信任用户发送采集到的视、音频，并至少接收来自可信任用户的音频。

进一步地，所述单呼即通实况通信方法还包括：响应于从采集到的视、音频中识别出以下要素中的一个，向可信任用户发送提醒信息：人或特定人；特定动作；异常状况。

进一步地，所述单呼即通实况通信方法还包括：响应于在建立与可信任用户的IP通信后接收到来自另一可信任用户的连接请求，向所述另一可信任用户发出经服务器IP通信的应答，并向所述可信任用户发出改经服务器进行IP通信的请求。

所属技术领域的技术人员知道，本发明可以实现为设备、装置、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件，也可以是完全的软件，还可以是硬件和软件结合的形式。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

一种单呼即通实况通信终端(1)，包括摄像机(101)、音频采集单元(102)、扬声器(104)以及收发信机(105)，摄像机(101)、音频采集单元(102)分别采集到的视、音频通过收发信机(105)发送，通过收发信机(105)接收到的音频通过扬声器(104)输出，其中

收发信机(101)响应于接收到来自可信任用户的连接请求，自动发出对该连接请求的应答，从而自动建立与可信任用户的IP通信。
根据权利要求1的单呼即通实况通信终端(1)，其中收发信机(101)在自动建立与可信任用户的IP通信之后，仅将摄像机(101)、音频采集单元(102)采集到的视、音频发送给可信任用户，响应于来自可信任用户的双向通信请求，才在将摄像机(101)、音频采集单元(102)采集到的视、音频发送给可信任用户的同时将来自可信任用户的音频通过扬声器(104)输出。
根据权利要求1的单呼即通实况通信终端(1)，其中收发信机(101)在自动建立与可信任用户的IP通信之后，在将摄像机(101)、音频采集单元(102)采集到的视、音频发送给可信任用户的同时将来自可信任用户的音频通过扬声器(104)输出。
根据权利要求1-3中任一个的单呼即通实况通信终端(1)，还包括显示器(103)，在收发信机(101)建立了与可信任用户的IP通信的情况下，如果收发信机(105)接收到视频则显示视频，如果收发信机(105)未接收到视频则显示可信任用户的标识。
根据权利要求4的单呼即通实况通信终端(1)，其中收发信机(105)响应于在建立与可信任用户的IP通信后接收到来自另一可信任用户的连接请求，向所述另一可信任用户发出经服务器IP通信的应答，并向所述可信任用户发出改经服务器进行IP通信的请求。
根据权利要求5的单呼即通实况通信终端(1)，其中在收发信机(105)同时建立了与多个可信任用户的IP通信的情况下，显示器(103)同时显示多个可信任用户的视频或标识。
根据权利要求5的单呼即通实况通信终端(1)，其中响应于所述多个可信任用户的视频或标识中的一个或多个视频或标识被选择，收发信机(101)断开与所述一个或多个视频或标识对应的可信任用户的IP通信，或者扬声器(104)不输出与所述一个或多个视频或标识对应的可信任用户的声音。
根据权利要求5的单呼即通实况通信终端(1)，其中响应于所述多个可信任用户的视频或标识中之一被选择，被选择的可信任用户的视频或标识变为放大的主画面。
根据权利要求1的单呼即通实况通信终端(1)，其中响应于从摄像机(101)、音频采集单元(102)分别采集到的视、音频中识别出人或特定人，收发信机(101)向可信任用户发送提醒信息。
根据权利要求9的单呼即通实况通信终端(1)，其中人或特定人是基于人脸识别、身高识别、声音识别中的一个或多个来识别的。
根据权利要求9的单呼即通实况通信终端(1)，其中收发信机(105)还接收携带手机发出的无线信号，基于该无线信号中标明的携带手机的身份，来识别人或特定人。
根据权利要求1的单呼即通实况通信终端(1)，其中响应于从摄像机(101)、音频采集单元(102)分别采集到的视、音频中识别出特定动作，收发信机(101)向可信任用户发送提醒信息。
根据权利要求12的单呼即通实况通信终端(1)，还包括深度传感器，所述特定动作是基于摄像机(101)、音频采集单元(102)分别采集到的视、音频以及深度传感器(197)感测的深度识别的。
根据权利要求1的单呼即通实况通信终端(1)，其中响应于从摄像机(101)、音频采集单元(102)分别采集到的视、音频中识别出异常状况，收发信机(101)向可信任用户发送提醒信息。
根据权利要求14的单呼即通实况通信终端(1)，其中所述异常状况是通过识别出以下中的一种或多种识别的：

摄像机(101)采集到的视频的剧烈变化；

音频采集单元(102)采集到的高于特定阈值的音频；

音频采集单元(102)采集到的音频的剧烈变化；

基于摄像机(101)、音频采集单元(102)分别采集到的视、音频识别出的预定事件，其中该预定事件的模型事先已建立，并通过从基于摄像机(101)、音频采集单元(102)分别采集到的视、音频中搜索与建立的模型相匹配的事件，从而识别预定事件。
根据权利要求1的单呼即通实况通信终端(1)，还包括：使摄像机(101)转动的转动装置(199)。
根据权利要求16的单呼即通实况通信终端(1)，其中响应于从摄像机(101)、音频采集单元(102)分别采集到的视、音频中识别出以下要素中的一个，转动装置(199)使摄像机(101)向着面对识别出的要素的方向转动：

人或特定人；

特定动作；

异常状况。
根据权利要求4的单呼即通实况通信终端(1)，还包括光线传感器(198)，用于感测单呼即通实况通信终端(1)周围环境光线变化，其中显示器(103)的显示亮度是根据感测到的所述光线的变化调整的。
一种安装于移动终端(3)的工具(31)，包括：

发送单元(301)，被配置为响应于第一触发，发送针对特定通信终端的连接请求；

接收单元(302)，被配置为接收来自所述特定通信终端的自动应答，从而自动建立与所述特定移动终端的IP通信。
根据权利要求19的工具(31)，其中在自动建立与所述特定移动终端的IP通信后，接收单元(302)接收来自所述特定通信终端的视、音频，发送单元(301)不发送用户的音频，响应于第二触发，才在接收单元(302)接收来自所述特定通信终端的视、音频的同时发送单元(301)向所述特定通信终端发送音频。
根据权利要求19的工具(31)，其中在自动建立与所述特定移动终端的IP通信后，在接收单元(302)接收来自所述特定通信终端的视、音频的同时，发送单元(301)向所述特定通信终端发送音频。
根据权利要求19所述的工具(31)，其中所述第一触发包括以下中的任一种：

所述移动终端的开机；

所述移动终端开机状态下所述工具的激活；

所述移动终端开机状态下用户界面上的特定动作；

所述移动终端开机状态下接收到的特定语音；

所述移动终端开机状态下感测到的光线变强。
根据权利要求20所述的工具(31)，其中所述第二触发包括以下中的任一种：

在所述工具的激活状态下用户界面上的特定动作；

在所述工具的激活状态下接收到的特定语音。
根据权利要求19所述的工具(31)，其中发送单元(301)被配置为在移动终端存储有针对多个通信终端的连接的情况下，响应于用户输入的选择，发送针对用户所选择的特定通信终端的连接请求。
一种单呼即通实况通信方法(2)，包括：

接收来自可信任用户的连接请求(S1)；

响应于接收到来自可信任用户的连接请求，自动发出对该连接请求的应答，从而自动建立与可信任用户的IP通信(S2)；

在与可信任用户的IP通信中，向可信任用户发送采集到的视、音频，并至少接收来自可信任用户的音频(S3)。
根据权利要求25的单呼即通实况通信方法(2)，还包括：响应于从采集到的视、音频中识别出以下要素中的一个，向可信任用户发送提醒信息：

人或特定人；

特定动作；

异常状况。
根据权利要求25或26的单呼即通实况通信方法(2)，还包括：响应于在建立与可信任用户的IP通信后接收到来自另一可信任用户的连接请求，向所述另一可信任用户发出经服务器IP通信的应答，并向所述可信任用户发出改经服务器进行IP通信的请求。