WO2020220546A1 - 一种基于人脸识别的会议管理方法、系统和可读存储介质 - Google Patents

一种基于人脸识别的会议管理方法、系统和可读存储介质 Download PDF

Info

Publication number
WO2020220546A1
WO2020220546A1 PCT/CN2019/103597 CN2019103597W WO2020220546A1 WO 2020220546 A1 WO2020220546 A1 WO 2020220546A1 CN 2019103597 W CN2019103597 W CN 2019103597W WO 2020220546 A1 WO2020220546 A1 WO 2020220546A1
Authority
WO
WIPO (PCT)
Prior art keywords
facial feature
feature data
participants
face recognition
speaker
Prior art date
Application number
PCT/CN2019/103597
Other languages
English (en)
French (fr)
Inventor
朱胜强
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020220546A1 publication Critical patent/WO2020220546A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • This application relates to the technical field of face recognition, and in particular to a method, system and readable storage medium for meeting management based on face recognition.
  • Video conferencing system including software video conferencing system and hardware video conferencing system, refers to individuals or groups in two or more different places, through the existing various telecommunication transmission media, the static, dynamic images, voice , Text, pictures and other materials are distributed to each user’s computer, so that geographically dispersed users can gather together to exchange information through graphics, sound and other methods to increase both parties’ understanding of content.
  • users who access the video conference may come from different regions of the same company or from different companies.
  • the parties participating in the video conference may not be familiar with each other. If you introduce them one by one, It will inevitably waste the time of the video conference and reduce the efficiency of the video conference. In the video conference process, if the user cannot identify all the participants, it is not convenient for communication.
  • this application proposes a meeting management method, system and readable storage medium based on face recognition.
  • this application provides a method for meeting management based on face recognition, including:
  • the preset language text is converted into different voice messages, and sent to other conference participants for playback.
  • the second part of the application also provides a meeting management system based on face recognition.
  • the system includes a memory, a processor, and a camera device.
  • the memory includes a meeting management method program based on face recognition. The following steps are implemented when the face recognition conference management method program is executed by the processor:
  • the preset language text is converted into different voice messages, and sent to other conference participants for playback.
  • the third aspect of the present application also provides a computer-readable storage medium, the computer-readable storage medium includes a face recognition-based meeting management method program, when the face recognition-based meeting management method program is executed by a processor , To implement the steps of a meeting management method based on face recognition as described above.
  • This application uses facial recognition technology to extract facial features of participants, compare them with the facial features in a preset database, and obtain personal identity information, which can automatically identify the language information of each participant and automatically translate , To avoid the cumbersome manual background translation process, to meet the needs of multilingual personnel to communicate at the same time, and finally automatically generate meeting minutes.
  • it is also possible to sign in to the meeting; and also to determine whether the corresponding participant is the corresponding participant through face comparison, which ensures the security of the meeting.
  • the identity information of the participants is presented on the split-screen interface where the participants are on the video page, so that the user can obtain the identity information of each participant in time, which improves the efficiency of the video conference and improves the user experience.
  • Figure 1 shows a flow chart of a method for meeting management based on face recognition in this application
  • Figure 2 shows a flow chart of the display method in meeting management of this application
  • Figure 3 shows a flow chart of the warning method in meeting management of this application
  • Fig. 4 shows a block diagram of a conference management system based on face recognition of the present application.
  • Fig. 1 is a flowchart of a method for meeting management based on face recognition in this application.
  • this application provides a method for meeting management based on face recognition, including:
  • S104 Perform face recognition on the speaker, and extract facial feature data of the speaker
  • S110 Obtain the language type through the character identity information, and convert the speaking information of the speaker into a preset language and text;
  • S112 Convert the preset language text into different voice messages, and send them to other conference participants for playback.
  • the background of the conference management system is preset with a facial feature database, which stores different character feature information.
  • the facial feature database can be connected with the company's internal HR management to directly obtain the employee facial feature data and character feature information stored in the HR management system.
  • character feature information includes one or more of working language, job position, job function, working location, gender, age, entry period, personal resume, and hobbies.
  • the determining the speaker specifically includes: acquiring a speaking signal sent by the speaker; the speaking signal is a language signal and/or a key signal.
  • the speaker needs to click the speech button in the conference video device before speaking. After obtaining the key signal, the conference system will switch to the speaker's speaking state. For another example, if the speaker directly speaks, and the conference video device obtains the speaker's voice signal, it is determined that the speaker is speaking.
  • the speaker's language information is converted into a preset language.
  • the preset language may be automatically set by a background technician. For example, if the preset language is Chinese, the speaker's voice information is converted into Chinese, and then translated from Chinese into other languages for playback.
  • Figure 2 shows a flow chart of the display method in meeting management of this application.
  • each participant has its own working language.
  • the conference system translates the speaker’s personal identity information into the working language of other participants and displays it in the Participant's split screen interface. Using this step, you can let the participants know the basic information of the speaker. For example, the participants are American, Spanish, Korean, and their corresponding working languages are English, Spanish, and Korean; they will speak in China
  • the speaker’s personal identity information will be displayed in the corresponding language on the participant’s split-screen display, including information such as the speaker’s position, entry period, and work location.
  • face recognition is performed on participants, and facial feature data of the participants are extracted; the facial feature data of the participants are matched with the facial feature data in the facial feature database established in advance; When the match is successful, the sign-in information is formed.
  • sign-in information is formed to record whether the participant participates in and absent from the meeting, and can also record the participant's participation time in real time, which improves the management of the meeting and increases work efficiency.
  • Fig. 3 shows a flow chart of the warning method in meeting management of this application.
  • the method before establishing a video connection, the method further includes:
  • S302 Perform face recognition on the participants, and extract facial feature data of the participants;
  • the match is unsuccessful, it means that the participant is not the scheduled participant.
  • the participant’s split screen interface will be blocked, the language call will be cut off, and a warning can be sent.
  • the information is recorded on the server side, and can also be sent to other participants for reminders.
  • performing face recognition on the speaker and extracting facial feature data of the speaker includes:
  • the facial features of the participants calculate the local and global features of the facial features, and compose a feature vector from the local features and the global features, and use the feature vector as the facial feature data of the participant .
  • the following methods can be used: Convolve the participant’s avatar and face information with the Gabor function to obtain a different space for the participant’s avatar and face information Position multiple Gabor features; divide multiple Gabor features into blocks according to spatial location, and concatenate the Gabor features in each block into a Gabor feature vector to obtain multiple Gabor feature vectors, and pre-set multiple Gabor feature vectors Set a number of Gabor feature vectors as the local features of the avatar and face information.
  • the low-frequency part of the avatar information of the participants is obtained by the two-dimensional discrete Fourier transform as the global feature of the avatar information.
  • the extraction of local features adopts Gabor feature extraction method, and the extraction of global features adopts two-dimensional discrete Fourier transform.
  • the Gabor features of the frontal photos obtained are divided into blocks according to the spatial position.
  • the block method of four square grids or nine square grids is adopted, and the Gabor features in each block are concatenated into One feature vector can obtain multiple Gabor feature vectors, which are called Local Gabor Feature Vector (LGFV).
  • LGFV Local Gabor Feature Vector
  • a preset number of local Gabor feature vectors among multiple local Gabor feature vectors are used as the local features of the front photo.
  • the preset number of local Gabor feature vectors can be arranged in a certain regular order, where the preset number can be based on the face Set the important positions in the middle, for example, extract the local Gabor feature vectors of the eyes, nose, and mouth as local features.
  • the low-frequency part of the frontal photos is extracted as the global features through the two-dimensional discrete Fourier Transform (DFT).
  • DFT discrete Fourier Transform
  • Convert the preset language text into a meeting record log For example, the spokesperson’s speech is recorded in Chinese and saved to form a meeting record log, which is convenient for checking the content of the meeting record after the meeting.
  • Fig. 4 shows a block diagram of a conference management system based on face recognition of the present application.
  • the second part of the application also provides a meeting management system based on face recognition.
  • the system includes a storage 41, a processor 42 and a camera 43.
  • the memory includes face recognition-based meeting management Method program, when the face recognition-based conference management method program is executed by the processor, the following steps are implemented:
  • the preset language text is converted into different voice messages, and sent to other conference participants for playback.
  • the background of the conference management system is preset with a facial feature database, which stores different character feature information.
  • the facial feature database can be connected with the company's internal HR management to directly obtain the employee facial feature data and character feature information stored in the HR management system.
  • the camera device 43 is a device used for image collection such as a camera or a photographing device of the video conference equipment.
  • character feature information includes one or more of working language, job position, job function, working location, gender, age, entry period, personal resume, and hobbies.
  • the determining the speaker specifically includes: acquiring a speaking signal sent by the speaker; the speaking signal is a language signal and/or a key signal.
  • the speaker needs to click the speech button in the conference video device before speaking. After obtaining the key signal, the conference system will switch to the speaker's speaking state. For another example, if the speaker directly speaks, and the conference video device obtains the speaker's voice signal, it is determined that the speaker is speaking.
  • the speaker's language information is converted into a preset language.
  • the preset language may be automatically set by a background technician. For example, if the preset language is Chinese, the speaker's voice information is converted into Chinese, and then translated from Chinese into other languages for playback.
  • the person identity information corresponding to the facial feature data in the facial feature database is obtained, the person identity information is converted into different languages, and the different languages are sent to the corresponding parameters.
  • the split-screen interface where the participant is located is displayed.
  • each participant has its own working language.
  • the conference system translates the speaker’s personal identity information into the working language of other participants and displays it in the Participant's split screen interface. Using this step, you can let the participants know the basic information of the speaker. For example, the participants are American, Spanish, Korean, and their corresponding working languages are English, Spanish, and Korean; they will speak in China
  • the speaker’s personal identity information will be displayed in the corresponding language on the participant’s split-screen display, including information such as the speaker’s position, entry period, and work location.
  • face recognition is performed on participants, and facial feature data of the participants are extracted; the facial feature data of the participants are matched with the facial feature data in the facial feature database established in advance; When the match is successful, the sign-in information is formed.
  • sign-in information is formed to record whether the participant participates in and absent from the meeting, and can also record the participant's participation time in real time, which improves the management of the meeting and increases work efficiency.
  • the method before establishing the video connection, the method further includes:
  • the split screen interface corresponding to the participant is shielded, and a warning message is sent to the server and/or other participants.
  • the match is unsuccessful, it means that the participant is not the scheduled participant.
  • the participant’s split screen interface will be blocked, the language call will be cut off, and a warning can be sent.
  • the information is recorded on the server side, and can also be sent to other participants for reminders.
  • performing face recognition on the speaker and extracting facial feature data of the speaker includes:
  • the facial features of the participants calculate the local and global features of the facial features, and compose a feature vector from the local features and the global features, and use the feature vector as the facial feature data of the participant .
  • the following method can be used: convolve the participant’s avatar and face information with the Gabor function to obtain a different space for the participant’s avatar and face information Position multiple Gabor features; divide multiple Gabor features into blocks according to spatial location, and concatenate the Gabor features in each block into a Gabor feature vector to obtain multiple Gabor feature vectors, and pre-set multiple Gabor feature vectors Set a number of Gabor feature vectors as the local features of the avatar and face information.
  • the low-frequency part of the avatar information of the participants is obtained as the global feature of the avatar information through two-dimensional discrete Fourier transform.
  • the extraction of local features adopts Gabor feature extraction method, and the extraction of global features adopts two-dimensional discrete Fourier transform.
  • the Gabor features of the frontal photos obtained are divided into blocks according to the spatial position. For example, the block method of four square grids or nine square grids is adopted.
  • One feature vector can obtain multiple Gabor feature vectors, which are called Local Gabor Feature Vector (LGFV).
  • LGFV Local Gabor Feature Vector
  • a preset number of local Gabor feature vectors among multiple local Gabor feature vectors are used as the local features of the front photo.
  • the preset number of local Gabor feature vectors can be arranged in a certain regular order, where the preset number can be based on the face Set the important positions in the middle, for example, extract the local Gabor feature vectors of the eyes, nose, and mouth as local features.
  • the low-frequency part of the frontal photo is extracted as the global feature through the two-dimensional Discrete Fourier Transform (DFT).
  • DFT Discrete Fourier Transform
  • Convert the preset language text into a meeting record log For example, the spokesperson’s speech is recorded in Chinese and saved to form a meeting record log, which is convenient for checking the content of the meeting record after the meeting.
  • the third aspect of the present application also provides a computer-readable storage medium, the computer-readable storage medium includes a face recognition-based meeting management method program, when the face recognition-based meeting management method program is executed by a processor , To implement the steps of a meeting management method based on face recognition as described above.
  • This application uses facial recognition technology to extract facial features of participants, compare them with the facial features in a preset database, and obtain personal identity information, which can automatically identify the language information of each participant and automatically translate .
  • personal identity information can automatically identify the language information of each participant and automatically translate .
  • the user may not be able to identify all the participants’ identities, which is inconvenient for communication.
  • this application presents the participant’s identity information on the video page.
  • the split-screen interface enables users to learn the identity information of each participant in time, which improves the efficiency of video conferencing and improves user experience.
  • the disclosed device and method may be implemented in other ways.
  • the device embodiments described above are merely illustrative.
  • the division of the units is only a logical function division, and there may be other divisions in actual implementation, such as: multiple units or components can be combined, or It can be integrated into another system, or some features can be ignored or not implemented.
  • the coupling, or direct coupling, or communication connection between the components shown or discussed may be indirect coupling or communication connection through some interfaces, devices or units, and may be electrical, mechanical or other forms of.
  • the units described above as separate components may or may not be physically separate, and the components displayed as units may or may not be physical units; they may be located in one place or distributed on multiple network units; Some or all of the units can be selected according to actual needs to achieve the purpose of the solution of the embodiment.
  • the functional units in the embodiments of the present application can all be integrated into one processing unit, or each unit can be individually used as a unit, or two or more units can be integrated into one unit;
  • the unit can be implemented in the form of hardware, or in the form of hardware plus software functional units.
  • the foregoing program can be stored in a computer readable storage medium.
  • the execution includes The steps of the foregoing method embodiment; and the foregoing storage medium includes: removable storage devices, read-only memory (ROM, Read-Only Memory), random access memory (RAM, Random Access Memory), magnetic disks or optical disks, etc.
  • the medium storing the program code.
  • the above-mentioned integrated unit of this application is implemented in the form of a software function module and sold or used as an independent product, it can also be stored in a computer readable storage medium.
  • the computer software product is stored in a storage medium and includes several instructions for A computer device (which may be a personal computer, a server, or a network device, etc.) executes all or part of the methods described in the various embodiments of the present application.
  • the aforementioned storage media include: removable storage devices, ROM, RAM, magnetic disks, or optical disks and other media that can store program codes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Telephonic Communication Services (AREA)
  • Collating Specific Patterns (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及人脸识别技术,具体提供了一种基于人脸识别的会议管理方法、系统和可读存储介质,通过人脸识别技术,对参会者进行面部特征提取,与预设的数据库中的面部特征进行比对,获取人物身份信息,可以自动识别每个参会者的语言信息,自动进行翻译,避免繁琐的人工后台翻译过程,可以满足多语种人员同时进行交流,并最终自动生成会议纪要。通过本申请的技术方案,还可以对会议进行签到;并且还通过面部比对,确定是否为对应参会者,保证了会议的安全性。将参会者的身份信息呈现在视频页面中参会者所在的分屏界面,使得用户能够及时获知每一参会者的身份信息,提高了视频会议的效率,同时提升了用户体验。

Description

一种基于人脸识别的会议管理方法、系统和可读存储介质
本申请要求于2019年4月30日提交中国专利局,申请号为201910359326.6、发明名称为“一种基于人脸识别的会议管理方法、系统和可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人脸识别技术领域,尤其涉及一种基于人脸识别的会议管理方法、系统和可读存储介质。
背景技术
视频会议系统,包括软件视频会议系统和硬件视频会议系统,是指两个或两个以上不同地方的个人或群体,通过现有的各种电信通讯传输媒体,将人物的静、动态图像、语音、文字、图片等多种资料分送到各个用户的计算机上,使得在地理上分散的用户可以共聚一处,通过图形、声音等多种方式交流信息,增加双方对内容的理解能力。
现在一些国际或者大型公司会议中,由于存在不同国家和地区的参会者,所以同传系统都需要人工手动选择收听语言,在参会者发言时,后台对发言人进行人工翻译,需要大量的人力。现有的人工智能翻译产品只能满足单人交流,手动切换语种,不能够自动切换语种,并满足多人多语种交流的目的。
另外,在多方视频会议过程中,接入视频会议的用户可能来自同一公 司不同地区的分部,或者来自不同的公司,参加视频会议的多方之间可能彼此并不熟悉,若逐一的进行介绍,必然浪费视频会议的时间,降低视频会议的效率,而在视频会议过程中,若用户不能识别出所有的与会者身份,也不便于沟通交流。
发明内容
为了解决上述至少一个技术问题,本申请提出了一种基于人脸识别的会议管理方法、系统和可读存储介质。
为了实现上述目的,本申请提供了一种基于人脸识别的会议管理方法,包括:
在建立视频连接之后,确定发言者;
对所述发言者进行人脸识别,提取发言者的面部特征数据;
将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
本申请第二部分还提供了一种基于人脸识别的会议管理系统,该系统包括:存储器、处理器及摄像装置,所述存储器中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被所述处理器执行时实现如下步骤:
在建立视频连接之后,确定发言者;
对所述发言者进行人脸识别,提取发言者的面部特征数据;
将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
本申请第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被处理器执行时,实现如上述的一种基于人脸识别的会议管理方法的步骤。
本申请通过人脸识别技术,对参会者进行面部特征提取,与预设的数据库中的面部特征进行比对,获取人物身份信息,可以自动识别每个参会者的语言信息,自动进行翻译,避免繁琐的人工后台翻译过程,可以满足多语种人员同时进行交流,并最终自动生成会议纪要。通过本申请的技术方案,还可以对会议进行签到;并且还通过面部比对,确定是否为对应参会者,保证了会议的安全性。将参会者的身份信息呈现在视频页面中参会者所在的分屏界面,使得用户能够及时获知每一参会者的身份信息,提高了视频会议的效率,同时提升了用户体验。
本申请的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一种基于人脸识别的会议管理方法的流程图;
图2示出了本申请会议管理中显示方法流程图;
图3示出了本申请会议管理中警告方法的流程图;
图4示出了本申请一种基于人脸识别的会议管理系统的框图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
图1为本申请一种基于人脸识别的会议管理方法的流程图。
如图1所示,本申请提供了一种基于人脸识别的会议管理方法,包括:
S102,在建立视频连接之后,确定发言者;
S104,对所述发言者进行人脸识别,提取发言者的面部特征数据;
S106,将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
S108,当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
S110,通过所述人物身份信息获取语言种类,将所述发言者的发言信 息转化为预设的语言文字;
S112,将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
需要说明的是,会议管理系统的后台预设有面部特征数据库,其中存储有不同的人物特征信息。面部特征数据库可以与公司内部的HR管理连接,直接获取HR管理系统中存储的职员面部特征数据和人物特征信息。
需要说明的是,人物特征信息包含有工作语言、工作职位、工作职能、工作地点、性别、年龄、入职年限、个人简历、兴趣爱好中的一种或几种。
优选的,所述确定发言者具体为:获取发言者发出的发言信号;所述发言信号为语言信号和/或按键信号。例如,发言者发言前需要点击会议视频设备中的发言按键,在获取了按键信号后,会议系统会切换至发言者的发言状态。又例如,发言者直接进行发言,会议视频设备获取发言者的语音信号,则判定为发言者正在发言。
在确定了人物身份信息后,将发言者的语言信息转换为预设的语言文字。所述预设的语言文字可以是后台技术人员自动设置的,例如,预设的语言文字为汉语,则将发言者的语音信息转换为汉语,然后再由汉语翻译成其他语言进行播放。
图2示出了本申请会议管理中显示方法流程图。
如图2所示,在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后;S202,将所述人物身份信息转换为不同语言文字;S204,将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
需要说明的是,每个参会者都对应有自己的工作语言,在发言者进行发言时,会议系统把发言者的人物身份信息翻译成其他参会者自己对应的工作语言,并显示在参会者的分屏界面中。采用此步骤,可以对让参会者了解发言者的基本信息,例如,参会者有美国人、西班牙人、韩国人,其分别对应的工作语言为英语、西班牙语、韩语;则在中国发言人进行发言 的时候,在参会者的分屏显示器中会用其对应的语言显示发言人的人物身份信息,包括发言人的职位、入职期限、工作地点等信息。
根据本申请实施例,对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
在匹配成功后,形成签到信息,用以记录参会者是否参会和缺席,并且还可以实时的记录参会者的参会时间,提高了会议的管理,增加了工作效率。
图3示出了本申请会议管理中警告方法的流程图。
如图3所示,根据本申请实施例,在建立视频连接之前还包括:
S302,对参会者进行人脸识别,提取参会者的面部特征数据;
S304,将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
S306,若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
需要说明的是,若匹配不成功,则代表此参会者并不是预定的参会人员,为了会议的安全考虑则会屏蔽此参会者的分屏界面,并且切断语言通话,还可以发送警告信息至服务器端进行记录,也可以发送给其他参会者进行提醒。采用此步骤可以做到会议的安全,保证了商业秘密不被窃听和泄露。
根据本申请实施例,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
需要说明的是,在进行局部特征和全局特征计算时,可采用如下方法: 将参会者的头像和人脸信息与伽柏Gabor函数相卷积,得到参会者头像和人脸信息不同空间位置的多个Gabor特征;将多个Gabor特征按照空间位置进行分块,并将每块内的Gabor特征串接成一个Gabor特征向量,得到多个Gabor特征向量,将多个Gabor特征向量中预设数量的Gabor特征向量作为头像和人脸信息的局部特征。通过二维离散傅里叶变换获取与会者的头像信息中的低频部分作为头像信息的全局特征。局部特征的提取采用Gabor特征提取方法,全局特征的提取采用二维离散傅里叶变换的方式。为了更好地提取正面照片的局部特征,将得到的正面照片的Gabor特征按照空间位置进行分块,例如:采用四宫格或九宫格的分块方式,每一个块内的Gabor特征被串接成一个特征向量,则可以得到多个Gabor特征向量,称为局部Gabor特征向量(Local Gabor Feature Vector,LGFV)。将多个局部Gabor特征向量中预设数量个的局部Gabor特征向量作为正面照片的局部特征,预设数量个的局部Gabor特征向量可以以一定的规则顺序排列,其中,预设数量可以根据人脸中重要的位置进行设置,例如,提取眼睛、鼻子、嘴巴三个部位的局部Gabor特征向量作为局部特征。提取正面照片的全局特征时,通过二维离散傅里叶变换(Discrete Fourier Transform,DFT)提取正面照片的低频部分作为全局特征。将正面照片的局部特征和全局特征组合成一个特征向量,即为员工甲正面照片的面部特征数据,以此方法,计算员工甲的侧面照片的面部特征数据,然后将员工甲的面部特征数据与身份信息的对应关系存储在面部特征数据库中。
根据本申请实施例,还包括:
将所述预设的语言文字转换为会议记录日志。例如,将发言人的发言记录为汉语进行保存,形成会议记录日志,方便在会议后查阅会议记录内容。
图4示出了本申请一种基于人脸识别的会议管理系统的框图。
如图4,本申请第二部分还提供了一种基于人脸识别的会议管理系统,该系统包括:存储41、处理器42及摄像装置43,所述存储器中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被所述处理器执行时实现如下步骤:
在建立视频连接之后,确定发言者;
对所述发言者进行人脸识别,提取发言者的面部特征数据;
将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
需要说明的是,会议管理系统的后台预设有面部特征数据库,其中存储有不同的人物特征信息。面部特征数据库可以与公司内部的HR管理连接,直接获取HR管理系统中存储的职员面部特征数据和人物特征信息。摄像装置43为视频会议设备的摄像头或拍摄装置等用于实现图像采集的装置。
需要说明的是,人物特征信息包含有工作语言、工作职位、工作职能、工作地点、性别、年龄、入职年限、个人简历、兴趣爱好中的一种或几种。
优选的,所述确定发言者具体为:获取发言者发出的发言信号;所述发言信号为语言信号和/或按键信号。例如,发言者发言前需要点击会议视频设备中的发言按键,在获取了按键信号后,会议系统会切换至发言者的发言状态。又例如,发言者直接进行发言,会议视频设备获取发言者的语音信号,则判定为发言者正在发言。
在确定了人物身份信息后,将发言者的语言信息转换为预设的语言文字。所述预设的语言文字可以是后台技术人员自动设置的,例如,预设的语言文字为汉语,则将发言者的语音信息转换为汉语,然后再由汉语翻译成其他语言进行播放。
根据本申请实施例,在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字,将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
需要说明的是,每个参会者都对应有自己的工作语言,在发言者进行发言时,会议系统把发言者的人物身份信息翻译成其他参会者自己对应的工作语言,并显示在参会者的分屏界面中。采用此步骤,可以对让参会者了解发言者的基本信息,例如,参会者有美国人、西班牙人、韩国人,其分别对应的工作语言为英语、西班牙语、韩语;则在中国发言人进行发言的时候,在参会者的分屏显示器中会用其对应的语言显示发言人的人物身份信息,包括发言人的职位、入职期限、工作地点等信息。
根据本申请实施例,对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
在匹配成功后,形成签到信息,用以记录参会者是否参会和缺席,并且还可以实时的记录参会者的参会时间,提高了会议的管理,增加了工作效率。
根据本申请实施例,在建立视频连接之前还包括:
对参会者进行人脸识别,提取参会者的面部特征数据;
将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
需要说明的是,若匹配不成功,则代表此参会者并不是预定的参会人员,为了会议的安全考虑则会屏蔽此参会者的分屏界面,并且切断语言通话,还可以发送警告信息至服务器端进行记录,也可以发送给其他参会者进行提醒。采用此步骤可以做到会议的安全,保证了商业秘密不被窃听和泄露。
根据本申请实施例,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
需要说明的是,在进行局部特征和全局特征计算时,可采用如下方法:将参会者的头像和人脸信息与伽柏Gabor函数相卷积,得到参会者头像和人脸信息不同空间位置的多个Gabor特征;将多个Gabor特征按照空间位置进行分块,并将每块内的Gabor特征串接成一个Gabor特征向量,得到多个Gabor特征向量,将多个Gabor特征向量中预设数量的Gabor特征向量作为头像和人脸信息的局部特征。通过二维离散傅里叶变换获取与会者的头像信息中的低频部分作为头像信息的全局特征。局部特征的提取采用Gabor特征提取方法,全局特征的提取采用二维离散傅里叶变换的方式。为了更好地提取正面照片的局部特征,将得到的正面照片的Gabor特征按照空间位置进行分块,例如:采用四宫格或九宫格的分块方式,每一个块内的Gabor特征被串接成一个特征向量,则可以得到多个Gabor特征向量,称为局部Gabor特征向量(Local Gabor Feature Vector,LGFV)。将多个局部Gabor特征向量中预设数量个的局部Gabor特征向量作为正面照片的局部特征,预设数量个的局部Gabor特征向量可以以一定的规则顺序排列,其中,预设数量可以根据人脸中重要的位置进行设置,例如,提取眼睛、鼻子、嘴巴三个部位的局部Gabor特征向量作为局部特征。提取正面 照片的全局特征时,通过二维离散傅里叶变换(Discrete Fourier Transform,DFT)提取正面照片的低频部分作为全局特征。将正面照片的局部特征和全局特征组合成一个特征向量,即为员工甲正面照片的面部特征数据,以此方法,计算员工甲的侧面照片的面部特征数据,然后将员工甲的面部特征数据与身份信息的对应关系存储在面部特征数据库中。
根据本申请实施例,还包括:
将所述预设的语言文字转换为会议记录日志。例如,将发言人的发言记录为汉语进行保存,形成会议记录日志,方便在会议后查阅会议记录内容。
本申请第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被处理器执行时,实现如上述的一种基于人脸识别的会议管理方法的步骤。
本申请通过人脸识别技术,对参会者进行面部特征提取,与预设的数据库中的面部特征进行比对,获取人物身份信息,可以自动识别每个参会者的语言信息,自动进行翻译,避免繁琐的人工后台翻译过程,可以满足多语种人员同时进行交流,并最终自动生成会议纪要。通过本申请的技术方案,还可以对会议进行签到;并且还通过面部比对,确定是否为对应参会者,保证了会议的安全性。在现有视频会议中,用户可能不能识别出所有的参会者身份,不便于沟通交流,相比现有技术的方案,本申请将参会者的身份信息呈现在视频页面中参会者所在的分屏界面,使得用户能够及时获知每一参会者的身份信息,提高了视频会议的效率,同时提升了用户体验。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例 如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘 等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (20)

  1. 一种基于人脸识别的会议管理方法,其特征在于,包括:
    在建立视频连接之后,确定发言者;
    对所述发言者进行人脸识别,提取发言者的面部特征数据;
    将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
    当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
    通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
    将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
  2. 根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
    在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字;将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
  3. 根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
    对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
  4. 根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征 在于,在建立视频连接之前还包括:
    对参会者进行人脸识别,提取参会者的面部特征数据;
    将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
    若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
  5. 根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
    根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
  6. 根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
    将所述预设的语言文字转换为会议记录日志。
  7. 根据权利要求4所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
    将所述预设的语言文字转换为会议记录日志。
  8. 一种基于人脸识别的会议管理系统,其特征在于,该系统包括:存储器、处理器及摄像装置,所述存储器中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被所述处理器执行时实现如下步骤:
    在建立视频连接之后,确定发言者;
    对所述发言者进行人脸识别,提取发言者的面部特征数据;
    将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
    当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
    通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
    将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
  9. 根据权利要求8所述的一种基于人脸识别的会议管理系统,其特征在于,还包括:
    在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字;将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
  10. 根据权利要求8所述的一种基于人脸识别的会议管理系统,其特征在于,还包括:
    对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
  11. 根据权利要求8所述的一种基于人脸识别的会议管理系统,其特征在于,在建立视频连接之前还包括:
    对参会者进行人脸识别,提取参会者的面部特征数据;
    将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
    若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
  12. 根据权利要求8所述的一种基于人脸识别的会议管理系统,其特征在于,所述对所述发言者进行人脸识别,提取发言者的面部特征数据, 包括:
    根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
  13. 根据权利要求8所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
    将所述预设的语言文字转换为会议记录日志。
  14. 根据权利要求11所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
    将所述预设的语言文字转换为会议记录日志。
  15. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被处理器执行时,实现如下步骤:
    在建立视频连接之后,确定发言者;
    对所述发言者进行人脸识别,提取发言者的面部特征数据;
    将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
    当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
    通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
    将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
  16. 根据权利要求15所述的一种计算机可读存储介质,其特征在于,还包括:
    在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字;将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
  17. 根据权利要求15所述的一种计算机可读存储介质,其特征在于,还包括:
    对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
  18. 根据权利要求15所述的一种计算机可读存储介质,其特征在于,
    在建立视频连接之前还包括:
    对参会者进行人脸识别,提取参会者的面部特征数据;
    将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
    若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
  19. 根据权利要求15所述的一种计算机可读存储介质,其特征在于,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
    根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
  20. 根据权利要求15所述的一种计算机可读存储介质,其特征在于,还包括:
    将所述预设的语言文字转换为会议记录日志。
PCT/CN2019/103597 2019-04-30 2019-08-30 一种基于人脸识别的会议管理方法、系统和可读存储介质 WO2020220546A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910359326.6A CN110072075B (zh) 2019-04-30 2019-04-30 一种基于人脸识别的会议管理方法、系统和可读存储介质
CN201910359326.6 2019-04-30

Publications (1)

Publication Number Publication Date
WO2020220546A1 true WO2020220546A1 (zh) 2020-11-05

Family

ID=67369764

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/103597 WO2020220546A1 (zh) 2019-04-30 2019-08-30 一种基于人脸识别的会议管理方法、系统和可读存储介质

Country Status (2)

Country Link
CN (1) CN110072075B (zh)
WO (1) WO2020220546A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063871A (zh) * 2022-07-28 2022-09-16 广州市保伦电子有限公司 一种基于人脸识别技术的人工智能会务系统
CN117294945A (zh) * 2023-09-19 2023-12-26 广东保伦电子股份有限公司 一种通过导轨摄像头自动对正发言者面部的智能会议方法
CN117636209A (zh) * 2023-11-24 2024-03-01 广州市希视科电子产品有限公司 一种自动可视化智慧大数据会议管理方法及系统
CN117636209B (zh) * 2023-11-24 2024-07-02 广州市希视科电子产品有限公司 一种自动可视化智慧大数据会议管理方法及系统

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110072075B (zh) * 2019-04-30 2022-05-13 平安科技(深圳)有限公司 一种基于人脸识别的会议管理方法、系统和可读存储介质
CN110572607A (zh) * 2019-08-20 2019-12-13 视联动力信息技术股份有限公司 一种视频会议方法、系统及装置和存储介质
CN110557597A (zh) * 2019-09-12 2019-12-10 视联动力信息技术股份有限公司 一种视频会议签到方法、服务器、电子设备及存储介质
CN111163281A (zh) * 2020-01-09 2020-05-15 北京中电慧声科技有限公司 一种基于语音跟踪的全景视频录制方法及装置
CN111401699A (zh) * 2020-03-04 2020-07-10 深圳创维-Rgb电子有限公司 一种智能会议管理方法、机器人及存储介质
CN111445591A (zh) * 2020-03-13 2020-07-24 平安科技(深圳)有限公司 会议签到方法、系统、计算机设备及计算机可读存储介质
CN111582822A (zh) * 2020-05-07 2020-08-25 维沃移动通信有限公司 基于ar的会议方法、装置及电子设备
TWI769520B (zh) * 2020-09-07 2022-07-01 和碩聯合科技股份有限公司 多國語言語音辨識及翻譯方法與相關的系統
CN112862461A (zh) * 2021-03-03 2021-05-28 游密科技(深圳)有限公司 会议进程控制方法、装置、服务器及存储介质
CN113094680A (zh) * 2021-04-02 2021-07-09 上海中通吉网络技术有限公司 会议室预定方法、装置及设备
CN113301291B (zh) * 2021-05-13 2022-12-02 中国联合网络通信集团有限公司 网络视频会议中防干扰方法、系统、设备及存储介质
CN114333072B (zh) * 2022-03-10 2022-06-17 深圳云集智能信息有限公司 一种基于会议图像通信的数据处理方法及系统
CN115334048B (zh) * 2022-07-19 2023-10-27 贵州华云信安科技有限公司 一种基于人工智能的视频会议用信息安全系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015550A1 (en) * 2002-03-26 2004-01-22 Fuji Photo Film Co., Ltd. Teleconferencing server and teleconferencing system
CN104462069A (zh) * 2013-09-18 2015-03-25 株式会社东芝 语音翻译装置和语音翻译方法
CN106685916A (zh) * 2015-11-10 2017-05-17 株式会社理光 电子会议智能
CN109361825A (zh) * 2018-11-12 2019-02-19 平安科技(深圳)有限公司 会议纪要记录方法、终端及计算机存储介质
CN109560941A (zh) * 2018-12-12 2019-04-02 深圳市沃特沃德股份有限公司 会议记录方法、装置、智能终端及存储介质
CN110072075A (zh) * 2019-04-30 2019-07-30 平安科技(深圳)有限公司 一种基于人脸识别的会议管理方法、系统和可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110891B2 (en) * 2011-12-12 2015-08-18 Google Inc. Auto-translation for multi user audio and video
CN105893948A (zh) * 2016-03-29 2016-08-24 乐视控股(北京)有限公司 一种视频会议中的人脸识别方法及装置
CN108766414B (zh) * 2018-06-29 2021-01-15 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
CN109583413A (zh) * 2018-12-10 2019-04-05 联想(北京)有限公司 一种数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015550A1 (en) * 2002-03-26 2004-01-22 Fuji Photo Film Co., Ltd. Teleconferencing server and teleconferencing system
CN104462069A (zh) * 2013-09-18 2015-03-25 株式会社东芝 语音翻译装置和语音翻译方法
CN106685916A (zh) * 2015-11-10 2017-05-17 株式会社理光 电子会议智能
CN109361825A (zh) * 2018-11-12 2019-02-19 平安科技(深圳)有限公司 会议纪要记录方法、终端及计算机存储介质
CN109560941A (zh) * 2018-12-12 2019-04-02 深圳市沃特沃德股份有限公司 会议记录方法、装置、智能终端及存储介质
CN110072075A (zh) * 2019-04-30 2019-07-30 平安科技(深圳)有限公司 一种基于人脸识别的会议管理方法、系统和可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063871A (zh) * 2022-07-28 2022-09-16 广州市保伦电子有限公司 一种基于人脸识别技术的人工智能会务系统
CN115063871B (zh) * 2022-07-28 2022-11-15 广州市保伦电子有限公司 一种基于人脸识别技术的人工智能会务系统
CN117294945A (zh) * 2023-09-19 2023-12-26 广东保伦电子股份有限公司 一种通过导轨摄像头自动对正发言者面部的智能会议方法
CN117636209A (zh) * 2023-11-24 2024-03-01 广州市希视科电子产品有限公司 一种自动可视化智慧大数据会议管理方法及系统
CN117636209B (zh) * 2023-11-24 2024-07-02 广州市希视科电子产品有限公司 一种自动可视化智慧大数据会议管理方法及系统

Also Published As

Publication number Publication date
CN110072075A (zh) 2019-07-30
CN110072075B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
WO2020220546A1 (zh) 一种基于人脸识别的会议管理方法、系统和可读存储介质
WO2017193987A1 (zh) 一种视频会议中参会人员的信息提示方法和装置
US9350946B2 (en) Information processing method and apparatus for video communication
US8791977B2 (en) Method and system for presenting metadata during a videoconference
Ziegler et al. Present? Remote? Remotely present! New technological approaches to remote simultaneous conference interpreting
JP7400100B2 (ja) 音声映像ストリームからのプライバシーに配慮した会議室でのトランスクリプション
WO2017072534A2 (en) Communication system and method
US20070188598A1 (en) Participant Authentication for a Videoconference
US20140340467A1 (en) Method and System for Facial Recognition for a Videoconference
US20070188599A1 (en) Speech to Text Conversion in a Videoconference
CN106464768A (zh) 通话中的翻译
US20160329050A1 (en) Meeting assistant
US20120259924A1 (en) Method and apparatus for providing summary information in a live media session
US11558563B2 (en) Systems and methods for immersive scenes
CN110536029B (zh) 一种交互方法、网络侧设备、终端设备、存储介质及系统
CN110188364B (zh) 基于智能眼镜的翻译方法、设备及计算机可读存储介质
CN111626061A (zh) 会议记录生成方法、装置、设备及可读存储介质
US9812131B2 (en) Identifying and displaying call participants using voice sample
WO2021017277A1 (zh) 一种图片截取方法、装置及计算机存储介质
CN113055194B (zh) 一种云会议盒子快速入会方法、云会议盒子和可读存储介质
TW201346597A (zh) 多語言即時翻譯系統
US20220353437A1 (en) Systems and methods for immersive scenes
US10580410B2 (en) Transcription of communications
CN106992971B (zh) 一种互动终端切换方法、装置和一种互动录播系统
CN112291497A (zh) 一种智能视频客服接入方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19927391

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19927391

Country of ref document: EP

Kind code of ref document: A1