WO2022259531A1 - Device, method, and program for online conference - Google Patents

Device, method, and program for online conference Download PDF

Info

Publication number
WO2022259531A1
WO2022259531A1 PCT/JP2021/022335 JP2021022335W WO2022259531A1 WO 2022259531 A1 WO2022259531 A1 WO 2022259531A1 JP 2021022335 W JP2021022335 W JP 2021022335W WO 2022259531 A1 WO2022259531 A1 WO 2022259531A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
text
online
words
conference
Prior art date
Application number
PCT/JP2021/022335
Other languages
French (fr)
Japanese (ja)
Inventor
勉 籔内
仁志 瀬下
照久 井上
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/022335 priority Critical patent/WO2022259531A1/en
Publication of WO2022259531A1 publication Critical patent/WO2022259531A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

This device for an online conference has a voice recognition unit (2013), a voice analysis unit (2014), an issue extraction unit (2015), and a display control unit (2016). The voice recognition unit converts a first voice collected from a terminal in an online conference into first text, and converts a second voice into a second text. The voice analysis unit disassembles the first text and the second text into word units. When a first co-occurrence matrix for a first word extracted from the first text and a second co-occurrence matrix for a second word extracted from the second text are similar, the issue extraction unit extracts the first word and the second word as a current issue in the online meeting. The display control unit synthesizes the extracted first word and second word into a screen for the online conference, and displays the screen for the online conference in which the first word and the second word are synthesized on the terminal.

Description

オンライン会議のための装置、方法及びプログラムApparatus, method and program for online conference
 実施形態は、オンライン会議のための装置、方法及びプログラムに関する。 Embodiments relate to devices, methods and programs for online conferences.
 近年、通信技術の向上により、オンライン会議が普及しつつある。オンライン会議では、会議に参加するユーザのそれぞれは、パーソナルコンピュータ(PC)等の端末により、会議サーバによって提供される会議URL(Universal Resource Locator)にアクセスする。会議サーバは、それぞれの端末で収集されるユーザの音声及び/又は画像を端末間で共有できるようにデータの送受信を制御する。このようにして、複数のユーザの間でのオンラインによる会議が実現される。 In recent years, online meetings are becoming more popular due to improvements in communication technology. In an online conference, each user participating in the conference accesses a conference URL (Universal Resource Locator) provided by a conference server using a terminal such as a personal computer (PC). The conference server controls transmission and reception of data so that the user's voice and/or image collected by each terminal can be shared among the terminals. In this way, an online conference is realized among a plurality of users.
日本国特許第5955817号公報Japanese Patent No. 5955817
 実施形態は、より効果的にオンライン会議を実施することができるオンライン会議のための装置、方法及びプログラムを提供する。 Embodiments provide an apparatus, method, and program for an online conference that can conduct an online conference more effectively.
 実施形態のオンライン会議のための装置は、音声認識部と、音声分析部と、論点抽出部と、表示制御部とを有する。音声認識部は、オンライン会議において端末から収集された第1の音声を第1のテキストに変換し、第2の音声を第2のテキストに変換する。音声分析部は、第1のテキストと第2のテキストのそれぞれを単語の単位に分解する。論点抽出部は、第1のテキストにおいて抽出された第1の単語についての第1の共起行列と、第2のテキストにおいて抽出された第2の単語についての第2の共起行列とが類似しているときに、第1の単語と第2の単語とをオンライン会議における現在の論点として抽出する。表示制御部は、抽出された第1の単語と第2の単語とをオンライン会議のための画面に合成し、第1の単語と第2の単語とが合成されたオンライン会議のための画面を端末に送信する。 The device for an online conference of the embodiment has a speech recognition unit, a speech analysis unit, an issue extraction unit, and a display control unit. A speech recognizer converts a first speech collected from a terminal in an online conference into a first text, and converts a second speech into a second text. The speech analysis unit decomposes each of the first text and the second text into word units. The issue extraction unit determines whether a first co-occurrence matrix for the first word extracted from the first text is similar to a second co-occurrence matrix for the second word extracted from the second text. extract the first word and the second word as the current topic in the online meeting. The display control unit synthesizes the extracted first word and second word into a screen for the online conference, and displays the screen for the online conference in which the first word and the second word are synthesized. Send to terminal.
 実施形態によれば、より効果的にオンライン会議を実施することができるオンライン会議のための装置、方法及びプログラムが提供される。 According to the embodiment, there is provided an apparatus, method, and program for an online conference that can hold an online conference more effectively.
図1は、実施形態に係るオンライン会議システムの構成の一例を示す図である。FIG. 1 is a diagram showing an example of the configuration of an online conference system according to an embodiment. 図2は、端末のハードウェア構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of a hardware configuration of a terminal; 図3は、会議サーバのハードウェア構成の一例を示す図である。FIG. 3 is a diagram illustrating an example of a hardware configuration of a conference server; 図4は、会議サーバの機能ブロック図である。FIG. 4 is a functional block diagram of the conference server. 図5は、分析処理の一例を示すフローチャートである。FIG. 5 is a flowchart showing an example of analysis processing. 図6Aは、共起行列の作成について説明するための図である。FIG. 6A is a diagram for explaining creation of a co-occurrence matrix. 図6Bは、共起行列データの例について示す図である。FIG. 6B is a diagram showing an example of co-occurrence matrix data. 図7は、会議処理の一例を示すフローチャートである。FIG. 7 is a flowchart illustrating an example of conference processing. 図8は、論点抽出処理の一例を示すフローチャートである。FIG. 8 is a flowchart illustrating an example of issue extraction processing. 図9は、端末への論点の表示例を示す図である。FIG. 9 is a diagram showing a display example of points of contention on a terminal.
 以下、実施形態について図面を参照して説明する。図1は、実施形態に係るオンライン会議システム1の構成の一例を示す図である。図1に示すように、オンライン会議システム1は、例えば端末10-1、10-2、…、10-l及び会議サーバ20を備えている。端末10-1、10-2、…、10-lと会議サーバ20は、インターネット等のネットワークNWに接続されている。 Hereinafter, embodiments will be described with reference to the drawings. FIG. 1 is a diagram showing an example of the configuration of an online conference system 1 according to an embodiment. As shown in FIG. 1, the online conference system 1 includes terminals 10-1, 10-2, . . . , 10-l and a conference server 20, for example. The terminals 10-1, 10-2, . . . , 10-l and the conference server 20 are connected to a network NW such as the Internet.
 端末10-1、10-2、…、10-lは、会議に参加するそれぞれのユーザが操作するl(lは自然数)個の端末である。端末10-1、10-2、…、10-lは、例えばパーソナルコンピュータ(PC)、スマートフォン、タブレット端末といった通信機能を備えた各種の端末であり得る。端末10-1、10-2、…、10-lは、オンライン会議の画面をウェブブラウザ上で表示する。また、端末10-1、10-2、…、10-lは、対応するユーザの音声を収集し、収集した音声を会議サーバ20に送信する。また、端末10-1、10-2、…、10-lは、対応するユーザを撮影し、撮影により得られたユーザの画像を会議サーバ20に送信する。また、端末10-1、10-2、…、10-lは、会議サーバ20から他のユーザの音声を受信し、受信した音声をスピーカから再生する。また、端末10-1、10-2、…、10-lは、会議サーバ20から他のユーザの画像を受信し、受信した画像をオンライン会議の画面上で再生する。以下、必要に応じて端末10-1、10-2、…、10-lをまとめて端末10と表記することがある。 Terminals 10-1, 10-2, . . . , 10-l are l (l is a natural number) terminals operated by respective users participating in the conference. Terminals 10-1, 10-2, . Terminals 10-1, 10-2, . . . , 10-l display the screen of the online conference on the web browser. , 10-l also collects the voices of the corresponding users and transmits the collected voices to the conference server 20. The terminals 10-1, 10-2, . . . , 10-l also take pictures of the corresponding users, and transmit the pictures of the users obtained by taking pictures to the conference server 20. The terminals 10-1, 10-2, . Also, the terminals 10-1, 10-2, . Also, the terminals 10-1, 10-2, . The terminals 10-1, 10-2, .
 オンライン会議の装置の一例としての会議サーバ20は、オンライン会議を制御するためのサーバコンピュータである。会議サーバ20は、単一のコンピュータである必要はなく、複数のコンピュータによって構成されていてもよい。会議サーバ20は、オンライン会議の各種の処理を制御する。例えば、会議サーバ20は、オンライン会議用のURLを設定する。また、会議サーバ20は、端末10からのアクセスに応じてウェブブラウザ上のオンライン会議の画面を更新する。また、会議サーバ20は、端末10から送信された音声を他の端末10に送信する。 The conference server 20 as an example of an online conference device is a server computer for controlling online conferences. The conference server 20 does not have to be a single computer, and may be composed of multiple computers. The conference server 20 controls various processes of the online conference. For example, the conference server 20 sets a URL for an online conference. The conference server 20 also updates the online conference screen on the web browser according to the access from the terminal 10 . Also, the conference server 20 transmits the voice transmitted from the terminal 10 to the other terminals 10 .
 図2は、端末10のハードウェア構成の一例を示す図である。図2に示すように、端末10は、プロセッサ101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、ストレージ104と、入力装置105と、通信モジュール106と、ディスプレイ107と、カメラ108と、マイクロホン(マイク)109と、スピーカ110とを有している。ここで、端末10は、端末10-1、10-2、…、10-lのすべてで同じ構成の端末である必要はない。 FIG. 2 is a diagram showing an example of the hardware configuration of the terminal 10. As shown in FIG. As shown in FIG. 2, the terminal 10 includes a processor 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, a storage 104, an input device 105, a communication module 106, and a display 107. , a camera 108 , a microphone (microphone) 109 and a speaker 110 . Here, the terminals 10 need not all have the same configuration as the terminals 10-1, 10-2, ..., 10-l.
 プロセッサ101は、様々なプログラムを実行することが可能な処理回路であり、端末10の全体の動作を制御する。プロセッサ101は、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等のプロセッサであってよい。また、プロセッサ101は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等であってもよい。さらに、プロセッサ101は、単一のCPU等で構成されていてもよいし、複数のCPU等で構成されていてもよい。 The processor 101 is a processing circuit capable of executing various programs and controls the overall operation of the terminal 10. The processor 101 may be a processor such as a CPU (Central Processing Unit), MPU (Micro Processing Unit), or GPU (Graphics Processing Unit). Also, the processor 101 may be an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array), or the like. Furthermore, the processor 101 may be composed of a single CPU or the like, or may be composed of a plurality of CPUs or the like.
 ROM102は、不揮発性の半導体メモリであり、端末10を制御するためのプログラム及び制御データ等を保持している。 The ROM 102 is a non-volatile semiconductor memory and holds programs for controlling the terminal 10, control data, and the like.
 RAM103は、揮発性の半導体メモリであり、プロセッサ101の作業領域として使用される。 The RAM 103 is a volatile semiconductor memory and is used as a work area for the processor 101.
 ストレージ104は、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)といった不揮発性の記憶装置であり、端末10のシステムソフトウェア及び各種のアプリケーションソフトウェア等を保持する。実施形態において、ストレージ104は、ウェブブラウザ等の、オンライン会議に参加するためのアプリケーションソフトウェアを保持している。ストレージ104は、端末10に内蔵されているものに限らず、端末10に対して外付けされるストレージであってもよい。 The storage 104 is a non-volatile storage device such as a hard disk drive (HDD) or solid state drive (SSD), and holds system software of the terminal 10 and various application software. In embodiments, storage 104 holds application software for participating in online meetings, such as a web browser. The storage 104 is not limited to a storage built into the terminal 10, and may be a storage externally attached to the terminal 10. FIG.
 入力装置105は、端末10のユーザが端末10を操作するためのインターフェース機器である。入力装置105は、例えば、タッチパネル、キーボード、マウス、各種の操作ボタン、各種の操作スイッチ等を含み得る。 The input device 105 is an interface device for the user of the terminal 10 to operate the terminal 10 . The input device 105 can include, for example, a touch panel, keyboard, mouse, various operation buttons, various operation switches, and the like.
 通信モジュール106は、端末10がネットワークNWに接続するために使用される回路を含むモジュールである。通信モジュール106は、例えば有線LAN(Local Area Network)の規格に準拠した通信モジュールであってよい。また、通信モジュール106は、例えば無線LANの規格に準拠した通信モジュールであってもよい。この場合、通信モジュール106は、アクセスポイント経由でネットワークNWに接続するための処理を行う。 The communication module 106 is a module that includes circuits used for connecting the terminal 10 to the network NW. The communication module 106 may be, for example, a communication module conforming to a wired LAN (Local Area Network) standard. Also, the communication module 106 may be a communication module conforming to the wireless LAN standard, for example. In this case, the communication module 106 performs processing for connecting to the network NW via the access point.
 ディスプレイ107は、液晶ディスプレイ及び有機EL(Electro Luminescence)ディスプレイ等の表示機器である。ディスプレイ107は、オンライン会議の画面等の各種の画面を表示する。ディスプレイ107は、端末10と一体的に構成されているものに限らず、端末10に対して外付けされるディスプレイであってもよい。 The display 107 is a display device such as a liquid crystal display and an organic EL (Electro Luminescence) display. The display 107 displays various screens such as an online conference screen. The display 107 is not limited to being configured integrally with the terminal 10 , and may be a display externally attached to the terminal 10 .
 カメラ108は、画角内を撮像し、画角内にいるユーザの画像を生成する。カメラ108は、レンズと、撮像素子とを有する。レンズは、画角内の光を撮像素子に結像させる。撮像素子は、結像した光を電気信号である画像の信号に変換する。カメラ108は、端末10と一体的に構成されているものに限らず、端末10に対して外付けされるカメラであってもよい。 The camera 108 captures an image within the angle of view and generates an image of the user within the angle of view. Camera 108 has a lens and an imaging device. The lens forms an image of the light within the angle of view on the imaging element. The imaging element converts the imaged light into an image signal, which is an electrical signal. The camera 108 is not limited to being configured integrally with the terminal 10 , and may be a camera externally attached to the terminal 10 .
 マイク109は、端末10の周辺から収集される音声を電気信号に変換する。マイク109は、例えばオンライン会議中における端末10のユーザの音声を収集する。マイク109は、端末10に内蔵されているものに限らず、端末10に対して外付けされるマイクであってもよい。 The microphone 109 converts sounds collected from around the terminal 10 into electrical signals. A microphone 109 collects the voice of the user of the terminal 10 during an online conference, for example. The microphone 109 is not limited to being built in the terminal 10 and may be a microphone externally attached to the terminal 10 .
 スピーカ110は、音声の信号に基づいて音を再生する。スピーカ110は、例えばオンライン会議中における他の端末10の音声を再生する。スピーカ110は、端末10に内蔵されているものに限らず、端末10に対して外付けされるスピーカであってもよい。 The speaker 110 reproduces sound based on the audio signal. The speaker 110 reproduces the voice of another terminal 10 during an online conference, for example. The speaker 110 is not limited to being built in the terminal 10 and may be a speaker externally attached to the terminal 10 .
 図3は、会議サーバ20のハードウェア構成の一例を示す図である。図3に示すように、会議サーバ20は、プロセッサ201と、ROM202と、RAM203と、ストレージ204と、入力装置205と、通信モジュール206とを有している。ここで、会議サーバ20は、ディスプレイ等をさらに有していてもよい。 FIG. 3 is a diagram showing an example of the hardware configuration of the conference server 20. As shown in FIG. As shown in FIG. 3, the conference server 20 has a processor 201 , a ROM 202 , a RAM 203 , a storage 204 , an input device 205 and a communication module 206 . Here, the conference server 20 may further have a display or the like.
 プロセッサ201は、様々なプログラムを実行することが可能な処理回路であり、会議サーバ20の全体の動作を制御する。プロセッサ201は、CPU、MPU、GPU等のプロセッサであってよい。また、プロセッサ201は、ASIC、FPGA等であってもよい。さらに、プロセッサ201は、単一のCPU等で構成されていてもよいし、複数のCPU等で構成されていてもよい。 The processor 201 is a processing circuit capable of executing various programs and controls the overall operation of the conference server 20. The processor 201 may be a processor such as a CPU, MPU, GPU. Also, the processor 201 may be an ASIC, FPGA, or the like. Furthermore, the processor 201 may be composed of a single CPU or the like, or may be composed of a plurality of CPUs or the like.
 ROM202は、不揮発性の半導体メモリであり、会議サーバ20を制御するためのプログラム及び制御データ等を保持している。 The ROM 202 is a non-volatile semiconductor memory and holds programs for controlling the conference server 20, control data, and the like.
 RAM203は、揮発性の半導体メモリであり、プロセッサ201の作業領域として使用される。 The RAM 203 is a volatile semiconductor memory and is used as a work area for the processor 201.
 ストレージ204は、HDD、SSDといった不揮発性の記憶装置であり、会議サーバ20のシステムソフトウェア等を保持する。実施形態において、ストレージ204は、オンライン会議を制御するためのプログラム2041を保持している。また、ストレージ204は、オンライン会議中の論点抽出のための自然言語分析に用いられるコーパス2042を保持している。実施形態におけるコーパス2042は、過去に開催されたオンライン又はオフラインの会議の議事録、それぞれの会議の話題に関連する技術文献及び参考文献といった各種の文書をプロセッサ201が参照できるように構造化して記録したデータベースである。ある話題についてのコーパス2042に含まれる単語数は、例えば数百万語から数億語といった数である。コーパス2042を生成するための文書は、例えば会議サーバ20の管理者によって入力される。また、オンライン会議の議事録は、例えばそれぞれの端末10のユーザの発言を記録しておくことによって自動的に生成され得る。この他、技術文献等は、プロセッサ201がネットワークNWを介して収集してもよい。このように、コーパス2042を生成するための文書の入力は、任意の手法で行われてよい。また、ストレージ204は、共起行列データ2043を保持している。共起行列データ2043は、コーパス2042に含まれる単語間の共起の関係を行列として表したデータである。ここで、ストレージ204は、必ずしもコーパス2042及び共起行列データ2043を保持している必要はない。コーパス2042及び共起行列データ2043は、会議サーバ20とは別のストレージに格納されていてもよい。この場合、会議サーバ20は、必要に応じてこの別のストレージからコーパス2042及び共起行列データ2043を取得する。 The storage 204 is a non-volatile storage device such as an HDD or SSD, and holds the system software of the conference server 20 and the like. In an embodiment, storage 204 holds program 2041 for controlling an online conference. The storage 204 also holds a corpus 2042 that is used for natural language analysis for extracting issues during online meetings. The corpus 2042 in the embodiment is structured and recorded so that the processor 201 can refer to various documents such as minutes of online or offline meetings held in the past, technical documents and references related to the topic of each meeting. It is a database that The number of words included in the corpus 2042 for a topic is, for example, several million to hundreds of millions of words. Documents for generating the corpus 2042 are input by the administrator of the conference server 20, for example. Also, the minutes of the online conference can be automatically generated by recording the remarks of the users of the respective terminals 10, for example. In addition, technical documents and the like may be collected by the processor 201 via the network NW. Thus, inputting documents to generate corpus 2042 may be done in any manner. The storage 204 also holds co-occurrence matrix data 2043 . The co-occurrence matrix data 2043 is data representing the co-occurrence relationship between words included in the corpus 2042 as a matrix. Here, the storage 204 does not necessarily have to hold the corpus 2042 and the co-occurrence matrix data 2043 . The corpus 2042 and co-occurrence matrix data 2043 may be stored in storage separate from the conference server 20 . In this case, the conference server 20 acquires the corpus 2042 and the co-occurrence matrix data 2043 from this separate storage as needed.
 入力装置205は、会議サーバ20の管理者が会議サーバ20を操作するためのインターフェース機器である。入力装置205は、例えば、タッチパネル、キーボード、マウス、各種の操作ボタン、各種の操作スイッチ等を含み得る。 The input device 205 is an interface device for the administrator of the conference server 20 to operate the conference server 20 . The input device 205 can include, for example, a touch panel, keyboard, mouse, various operation buttons, various operation switches, and the like.
 通信モジュール206は、会議サーバ20がネットワークNWに接続するために使用される回路を含むモジュールである。通信モジュール206は、例えば有線LANの規格に準拠した通信モジュールであってよい。また、通信モジュール206は、例えば無線LANの規格に準拠した通信モジュールであってもよい。 The communication module 206 is a module that includes circuits used by the conference server 20 to connect to the network NW. The communication module 206 may be, for example, a communication module conforming to the wired LAN standard. Also, the communication module 206 may be a communication module conforming to the wireless LAN standard, for example.
 図4は、会議サーバ20の機能ブロック図である。図4に示すように、会議サーバ20は、コーパス分析部2011と、共起行列作成部2012とを有している。また、会議サーバ20は、音声認識部2013と、音声分析部2014と、論点抽出部2015と、表示制御部2016とを有している。会議サーバ20のプロセッサ201は、プログラム2041を実行することによって、コーパス分析部2011と、共起行列作成部2012と、音声認識部2013と、音声分析部2014と、論点抽出部2015と、表示制御部2016として動作し得る。コーパス分析部2011と、共起行列作成部2012と、音声認識部2013と、音声分析部2014と、論点抽出部2015と、表示制御部2016とは、プロセッサ201とは別のハードウェアによって実現されてもよい。 FIG. 4 is a functional block diagram of the conference server 20. As shown in FIG. As shown in FIG. 4 , the conference server 20 has a corpus analysis section 2011 and a co-occurrence matrix creation section 2012 . The conference server 20 also has a voice recognition unit 2013 , a voice analysis unit 2014 , an issue extraction unit 2015 and a display control unit 2016 . By executing the program 2041, the processor 201 of the conference server 20 performs a corpus analysis unit 2011, a co-occurrence matrix creation unit 2012, a speech recognition unit 2013, a speech analysis unit 2014, an issue extraction unit 2015, and a display control unit. 2016. The corpus analysis unit 2011, the co-occurrence matrix creation unit 2012, the speech recognition unit 2013, the speech analysis unit 2014, the issue extraction unit 2015, and the display control unit 2016 are realized by hardware different from the processor 201. may
 コーパス分析部2011は、コーパス2042を分析する。例えば、コーパス分析部2011は、コーパス2042に含まれる各単語の品詞を特定する。そして、コーパス分析部2011は、特定の品詞の単語を除外する。特定の品詞の単語は、例えば助詞、助動詞といった文の意味解釈において重要な意味を持たない単語である。 The corpus analysis unit 2011 analyzes the corpus 2042 . For example, the corpus analysis unit 2011 identifies the part of speech of each word included in the corpus 2042 . Then, the corpus analysis unit 2011 excludes words of a specific part of speech. Words of a specific part of speech are words that do not have an important meaning in the semantic interpretation of a sentence, such as particles and auxiliary verbs.
 共起行列作成部2012は、コーパス分析部2011で抽出されたそれぞれの単語についての共起行列を作成する。共起行列は、ある単語の前後で他の単語が同時に表れているか否か、すなわちある単語と他の単語とが共起しているか否かを表す行列である。例えば、共起行列の要素は、ある単語と他の単語とが共起した頻度を表す。そして、共起行列作成部2012は、作成した共起行列を共起行列データ2043としてストレージ204に記憶させる。共起行列の作成の動作の詳細については後で説明する。 The co-occurrence matrix creation unit 2012 creates a co-occurrence matrix for each word extracted by the corpus analysis unit 2011 . A co-occurrence matrix is a matrix representing whether or not other words appear simultaneously before and after a certain word, that is, whether or not a certain word and another word co-occur. For example, the elements of the co-occurrence matrix represent the frequency with which a word co-occurs with another word. Then, the co-occurrence matrix creating unit 2012 stores the created co-occurrence matrix as the co-occurrence matrix data 2043 in the storage 204 . Details of the operation of creating the co-occurrence matrix will be described later.
 音声認識部2013は、端末10-1、10-2、…、10-lから音声のデータが送信されてきたときに、それがどの端末から送信されたものかを特定することによってオンライン会議において発言したユーザを認識する。また、音声認識部2013は、送信されてきた音声のデータを、周波数解析等を用いた音声認識によってテキストのデータに変換する。 The speech recognition unit 2013 identifies from which terminal when speech data is sent from terminals 10-1, 10-2, . Recognize who speaks. Further, the speech recognition unit 2013 converts the transmitted speech data into text data by speech recognition using frequency analysis or the like.
 音声分析部2014は、音声認識部2013によってテキストに変換された音声を分析する。音声分析部2014は、例えばテキストを形態素解析する。形態素解析は、例えば、MeCab等の日本語向け形態素解析エンジンを用いて行われる。勿論、認識された音声が日本語でない場合、他言語向けの形態素解析エンジンが用いられてよい。 The speech analysis unit 2014 analyzes the speech converted into text by the speech recognition unit 2013. The speech analysis unit 2014 morphologically analyzes text, for example. The morphological analysis is performed using, for example, a morphological analysis engine for Japanese such as MeCab. Of course, if the recognized speech is not Japanese, a morphological analysis engine for other languages may be used.
 論点抽出部2015は、音声分析部2014の分析結果と共起行列データ2043とに基づいて、オンライン会議における現在の論点を抽出する。論点の抽出の動作の詳細については後で説明する。 The issue extraction unit 2015 extracts the current issue in the online conference based on the analysis result of the speech analysis unit 2014 and the co-occurrence matrix data 2043 . The details of the operation of extracting issues will be described later.
 表示制御部2016は、端末10のディスプレイ107にオンライン会議の画面を表示させるための制御をする。例えば、表示制御部2016は、端末10のディスプレイ107にオンライン会議の画面のデータを送信する。また、表示制御部2016は、端末10から送信されたユーザの画像に応じて端末10のディスプレイ107に表示されるオンライン会議の画面を更新する。さらに、表示制御部2016は、論点抽出部2015で抽出された論点を表すテキストに応じて端末10のディスプレイ107に表示されるオンライン会議の画面を更新する。 The display control unit 2016 controls the display 107 of the terminal 10 to display the online conference screen. For example, the display control unit 2016 transmits screen data of the online conference to the display 107 of the terminal 10 . In addition, the display control unit 2016 updates the online conference screen displayed on the display 107 of the terminal 10 according to the user's image transmitted from the terminal 10 . Furthermore, the display control unit 2016 updates the online conference screen displayed on the display 107 of the terminal 10 according to the text representing the issue extracted by the issue extraction unit 2015 .
 次に、実施形態におけるオンライン会議システム1の動作を説明する。図5は、会議サーバ20による分析処理について示すフローチャートである。図5の処理は、オンライン会議の終了後のタイミング、数か月といった任意の期間の経過後のタイミングでプロセッサ201によって実施される。図5の処理が実施されるに当たり、ストレージ204には、十分なコーパス2042が保持されているものとする。 Next, the operation of the online conference system 1 according to the embodiment will be described. FIG. 5 is a flowchart showing analysis processing by the conference server 20. As shown in FIG. The processing of FIG. 5 is performed by the processor 201 at timing after the end of the online conference or after an arbitrary period of time, such as several months. It is assumed that sufficient corpora 2042 are held in the storage 204 when the processing of FIG. 5 is performed.
 ステップS1において、プロセッサ201は、ストレージ204からコーパス2042を取得する。 In step S1, the processor 201 acquires the corpus 2042 from the storage 204.
 ステップS2において、プロセッサ201は、コーパス2042に含まれるそれぞれの文をMeCab等の形態素解析エンジンを用いた形態素解析により、単語の単位に分解し、それぞれの単語の品詞を特定する。例えば、コーパス2042に「ルータがパケットをフォワーディングしてネットワークへ転送する。」という文が含まれていたとする。プロセッサ201は、例えばこの文を、「ルータ(名詞)」、「が(助詞)」、「パケット(名詞)」、「を(助詞)」、「フォワーディング(名詞)」、「して(動詞)」、「ネットワーク(名詞)」、「へ(助詞)」、「転送(名詞)」、「する(動詞)」、「。(句点)」といったように分解する。 In step S2, the processor 201 decomposes each sentence included in the corpus 2042 into word units by morphological analysis using a morphological analysis engine such as MeCab, and identifies the part of speech of each word. For example, suppose corpus 2042 contained the sentence "The router forwards the packet to the network." The processor 201, for example, converts this sentence into “router (noun)”, “ga (particle)”, “packet (noun)”, “wo (particle)”, “forwarding (noun)”, “shite (verb) ”, “network (noun)”, “he (particle)”, “transfer (noun)”, “suru (verb)”, “. (period)”.
 ステップS3において、プロセッサ201は、ステップS2において得られた単語のうち、意味解釈上で不要な単語を除外する。例えば、プロセッサ201は、名詞を残して他の単語を除外する。文によっては、プロセッサ201は、動詞、形容詞等をさらに残してもよい。 In step S3, the processor 201 excludes unnecessary words in terms of semantic interpretation from the words obtained in step S2. For example, the processor 201 leaves nouns and excludes other words. Depending on the sentence, processor 201 may also retain verbs, adjectives, and the like.
 ステップS4において、プロセッサ201は、残ったそれぞれの単語について共起行列を作成する。共起行列を作成するためのウインドウサイズは、例えば2である。ウインドウサイズは、共起行列を作成する対象の単語に対して隣接する何単語までを共起しているか否かの判断の対象とするかを示す情報である。例えば、ステップS3の処理において、「ルータ」、「パケット」、「フォワーディング」、「ネットワーク」、「転送」が残ったとする。この場合において、例えば「フォワーディング」についての共起行列は、図6Aに示すようにして作成される。つまり、「ルータ」、「パケット」、「ネットワーク」、「転送」は、何れも「フォワーディング」の前後の2単語以内に出現しているので、何れの行列の要素にも1が加えられる。同様の考え方に基づき、プロセッサ201は、コーパス2042の全体につき、ウインドウサイズの範囲内での単語毎の共起の有無を判断し、共起行列を作成する。このとき、プロセッサ201は、既に共起していると判断されている単語が別の文において再び共起していると判断されたときには、対応する行列の要素に1を加える。例えば、「フォワーディング」についての共起行列を作成しているときに、「フォワーディング」と「パケット」の共起が再び検出されたときには、プロセッサ201は、「フォワーディング」の共起行列の「パケット」の要素にさらに1を加える。同時に、プロセッサ201は、「パケット」の共起行列の「フォワーディング」の要素にさらに1を加える。 At step S4, the processor 201 creates a co-occurrence matrix for each of the remaining words. A window size for creating a co-occurrence matrix is 2, for example. The window size is information indicating how many adjacent words co-occur with the target word for which the co-occurrence matrix is to be created. For example, it is assumed that "router", "packet", "forwarding", "network", and "transfer" remain in the process of step S3. In this case, for example, a co-occurrence matrix for "forwarding" is created as shown in FIG. 6A. That is, since "router", "packet", "network", and "forwarding" all appear within two words before and after "forwarding", 1 is added to each matrix element. Based on a similar concept, the processor 201 determines the presence or absence of co-occurrence for each word within the range of the window size for the entire corpus 2042, and creates a co-occurrence matrix. At this time, the processor 201 adds 1 to the corresponding element of the matrix when it is determined that the words already determined to co-occur co-occur in another sentence again. For example, when the co-occurrence matrix of "forwarding" is detected again when the co-occurrence matrix of "forwarding" is detected, the processor 201 adds "packet" to the co-occurrence matrix of "forwarding". Add 1 to the element of At the same time, the processor 201 adds 1 to the "forwarding" element of the "packet" co-occurrence matrix.
 ステップS5において、プロセッサ201は、作成したそれぞれの単語についての共起行列を正規化する。具体的には、プロセッサ201は、それぞれの単語についての共起行列の各要素の値を、その共起行列の単語の出現頻度の値で除する。このようにして、図6Bに示すような共起行列データ2043が作成される。ここで、図6Bにおいて、Tn(n=1,2,…)は、コーパス2042において出現した単語のうちの不要語を除く単語を表している。そして、図6Bのそれぞれの行が単語Tnについての共起行列である。共起行列の要素におけるCij(i=1,2,…,n、j=1,2,…,n)は、単語Tiと単語Tjとが共起した頻度を示す。また、共起行列の要素におけるFi(i=1,2,…,n)は、コーパス2042の全体での単語Tiの出現頻度を示す。ここで、共起行列の性質により、Cij=Cjiである。また、図6Bにおいて、Cii、すなわち同一単語についての共起の頻度の値は、0であるとされている。 At step S5, the processor 201 normalizes the co-occurrence matrix for each created word. Specifically, the processor 201 divides the value of each element of the co-occurrence matrix for each word by the frequency of appearance of the word in the co-occurrence matrix. In this way, co-occurrence matrix data 2043 as shown in FIG. 6B is created. Here, in FIG. 6B, Tn (n=1, 2, . Each row in FIG. 6B is a co-occurrence matrix for the word Tn. Cij (i=1, 2, . . . , n, j=1, 2, . . . , n) in the elements of the co-occurrence matrix indicates the frequency with which word Ti and word Tj co-occur. Fi (i=1, 2, . . . , n) in the elements of the co-occurrence matrix indicates the appearance frequency of the word Ti in the entire corpus 2042 . Here, Cij=Cji due to the property of the co-occurrence matrix. Also, in FIG. 6B, Cii, that is, the value of co-occurrence frequency for the same word, is assumed to be zero.
 ステップS6において、プロセッサ201は、共起行列データ2043をストレージ204に格納する。その後、プロセッサ201は、図5の処理を終了させる。 In step S6, the processor 201 stores the co-occurrence matrix data 2043 in the storage 204. After that, the processor 201 terminates the processing of FIG.
 ここで、一旦、共起行列データ2043が作成された後の分析処理では、コーパス2042において追加された文書について図5の処理が行われればよい。 Here, once the co-occurrence matrix data 2043 is created, in the analysis process, the documents added to the corpus 2042 should be processed in FIG.
 図7は、会議処理の一例を示すフローチャートである。図7の処理は、オンライン会議が開始された後の処理である。オンライン会議が開始された後、端末10は、カメラ108で逐次に撮影されたユーザの画像及びマイク109で逐次に収集されたユーザの音声を会議サーバ20に送信しているものとする。なお、カメラ108の電源がオフされている間は、端末10は、ユーザの画像を会議サーバ20に送信しない。同様に、マイク109の電源がオフされている間は、端末10は、ユーザの音声を会議サーバ20に送信しない。 FIG. 7 is a flowchart showing an example of conference processing. The processing in FIG. 7 is processing after the online conference is started. It is assumed that after the online conference is started, the terminal 10 transmits to the conference server 20 the user's images sequentially captured by the camera 108 and the user's voices sequentially collected by the microphone 109 . Note that while the camera 108 is powered off, the terminal 10 does not transmit the user's image to the conference server 20 . Similarly, the terminal 10 does not transmit the user's voice to the conference server 20 while the microphone 109 is powered off.
 ステップS11において、プロセッサ201は、何れかの端末10からユーザの画像が送信されてきたか否かを判定する。ステップS11において、端末10からユーザの画像が送信されてきた場合には、処理はステップS12に移行する。ステップS11において、端末10からユーザの画像が送信されてきていない場合には、処理はステップS13に移行する。 In step S<b>11 , the processor 201 determines whether or not the user's image has been transmitted from any terminal 10 . In step S11, when the user's image has been transmitted from the terminal 10, the process proceeds to step S12. In step S11, if the user's image has not been transmitted from the terminal 10, the process proceeds to step S13.
 ステップS12において、プロセッサ201は、端末10から送信されてきたユーザの画像に応じてオンライン会議用の画面を更新する。そして、プロセッサ201は、更新されたオンライン会議の画面のデータをそれぞれの端末10に送信する。これを受けてそれぞれの端末10は、受信した画面のデータによってディスプレイ107の例えばウェブブラウザ上の表示を更新する。その後、処理はステップS13に移行する。 In step S<b>12 , the processor 201 updates the online conference screen according to the user's image transmitted from the terminal 10 . Then, the processor 201 transmits the updated screen data of the online conference to each terminal 10 . In response to this, each terminal 10 updates the display on the display 107, for example, the web browser, with the received screen data. After that, the process moves to step S13.
 ステップS13において、プロセッサ201は、何れかの端末10から音声が送信されてきたか否かを判定する。ステップS13において、端末10から音声が送信されてきた場合には、処理はステップS14に移行する。ステップS13において、端末10から音声が送信されてきていない場合には、処理はステップS18に移行する。 In step S13, the processor 201 determines whether or not any terminal 10 has transmitted voice. In step S13, when voice is transmitted from the terminal 10, the process proceeds to step S14. In step S13, if no voice has been transmitted from the terminal 10, the process proceeds to step S18.
 ステップS14において、プロセッサ201は、例えば音声とともに送信されてくる端末10のIDによってどの端末10から音声が送信されてきたかを識別する。これにより、プロセッサ201は、発言したユーザを識別する。 In step S14, the processor 201 identifies from which terminal 10 the voice has been transmitted, for example, by the ID of the terminal 10 transmitted together with the voice. Thereby, the processor 201 identifies the user who made the statement.
 ステップS15において、プロセッサ201は、送信されてきた音声のデータをコピーする。そして、プロセッサ201は、送信されてきた音声のデータを他の端末10に送信する。これを受けてそれぞれの端末10は、受信した音声のデータに基づいて、発言したユーザの音声をスピーカ110から再生する。また、プロセッサ201は、音声のデータのコピーを例えばRAM203に保持しておく。その後、処理はステップS16に移行する。 In step S15, the processor 201 copies the transmitted voice data. The processor 201 then transmits the transmitted voice data to the other terminal 10 . In response to this, each terminal 10 reproduces the voice of the user who spoke from the speaker 110 based on the received voice data. Also, the processor 201 holds a copy of the audio data in the RAM 203, for example. After that, the process moves to step S16.
 ステップS16において、プロセッサ201は、例えば過去の5分間といった一定期間内に他のユーザの発言があったか否かを判定する。ステップS16の時間は、適宜に設定されてよい。ステップS16において、他のユーザの発言があったときには、処理はステップS17に移行する。ステップS16において、他のユーザの発言がなかったときには、処理はステップS18に移行する。 In step S16, the processor 201 determines whether or not another user has spoken within a certain period of time, such as the past five minutes. The time of step S16 may be set appropriately. In step S16, when there is a statement from another user, the process proceeds to step S17. In step S16, when there is no other user's speech, the process proceeds to step S18.
 ステップS17において、プロセッサ201は、論点抽出処理をする。論点抽出処理の後、処理はステップS18に移行する。論点抽出処理は、複数のユーザの音声からオンライン会議における現在の論点を抽出する処理である。論点抽出処理の詳細については後で説明する。 In step S17, the processor 201 performs issue extraction processing. After the issue extraction process, the process proceeds to step S18. The issue extraction process is a process of extracting the current issue in the online conference from the voices of multiple users. Details of the issue extraction process will be described later.
 ステップS18において、プロセッサ201は、オンライン会議を終了するか否かを判定する。例えば、すべての端末10から切断の要求がされたときに、プロセッサ201は、オンライン会議を終了すると判定する。ステップS18において、オンライン会議を終了しないときには、処理は、ステップS11に戻る。ステップS18において、オンライン会議を終了するときには、プロセッサ201は、図7の処理を終了させる。 At step S18, the processor 201 determines whether or not to end the online conference. For example, the processor 201 determines to end the online conference when all the terminals 10 request disconnection. In step S18, when the online conference is not ended, the process returns to step S11. In step S18, when ending the online conference, the processor 201 ends the processing of FIG.
 図8は、論点抽出処理の一例を示すフローチャートである。以下の説明においては、例えば、過去5分間の間に、「ルータがパケットをフォワーディングしてネットワークへ転送する。」という第1のユーザによる第1の発言及び「ルータがパケットをUPnPによってネットワークへ転送する。」という第2のユーザによる第2の発言が収集されているものとする。 FIG. 8 is a flowchart showing an example of issue extraction processing. In the following description, for example, during the past 5 minutes, a first utterance by a first user, "Router forwards packets to network" and "Router forwards packets to network by UPnP." It is assumed that the second user's second utterance of "Do." has been collected.
 ステップS21において、プロセッサ201は、例えばRAM103に保持されている複数のユーザのそれぞれの音声のデータを音声認識することによってそれぞれの音声のデータをテキストのデータに変換する。 In step S21, the processor 201 recognizes the voice data of each of the multiple users held in the RAM 103, for example, and converts the data of each voice into text data.
 ステップS22において、プロセッサ201は、それぞれのテキストを形態素解析によって単語の単位に分解する。例えば、第1の発言については、テキストが、「ルータ」、「が」、「パケット」、「を」、「フォワーディング」、「して」、「ネットワーク」、「へ」、「転送」、「する」、「。」と分解されたとする。また、第2の発言については、テキストが、「ルータ」、「が」、「パケット」、「を」、「UPnP」、「に」、「よって」、「ネットワーク」、「へ」、「転送」、「する」、「。」と分解されたとする。 In step S22, the processor 201 decomposes each text into word units by morphological analysis. For example, for the first utterance, the text is "router", "is", "packet", "to", "forwarding", "to", "network", "to", "forward", " and "." Also, for the second utterance, the text is "router", "is", "packet", "to", "UPnP", "to", "by", "network", "to", "transfer ”, “do”, and “.”.
 ステップS23において、プロセッサ201は、ステップS22において得られた単語のうち、意味解釈上で不要な単語を除外する。例えば、プロセッサ201は、名詞を残して他の単語を除外する。文によっては、プロセッサ201は、動詞、形容詞等をさらに残してもよい。 In step S23, the processor 201 excludes unnecessary words from the meaning of the words obtained in step S22. For example, the processor 201 leaves nouns and excludes other words. Depending on the sentence, processor 201 may also retain verbs, adjectives, and the like.
 ステップS24において、プロセッサ201は、ステップS23において得られた単語のそれぞれのオンライン会議中の出現頻度をカウントする。 At step S24, the processor 201 counts the appearance frequency of each word obtained at step S23 during the online conference.
 ステップS25において、プロセッサ201は、それぞれのユーザの発言毎に、出現頻度が第1の閾値、例えば5回以上の単語があるか否かを判定する。ステップS25において、それぞれのユーザの発言について出現頻度が第1の閾値以上の単語があるときには、処理はステップS26に移行する。ステップS25において、それぞれのユーザの発言について出現頻度が第1の閾値以上の単語がないときには、プロセッサ201は、図8の処理を終了させる。この場合には、現時点では論点はないと判定される。 In step S25, the processor 201 determines whether there is a word whose appearance frequency is equal to or greater than the first threshold value, for example, 5 times or more for each user's utterance. In step S25, when there is a word whose appearance frequency is equal to or higher than the first threshold for each user's utterance, the process proceeds to step S26. In step S25, when there is no word whose appearance frequency is equal to or higher than the first threshold for each user's utterance, the processor 201 terminates the processing of FIG. In this case, it is determined that there are no points of contention at this time.
 ステップS26において、プロセッサ201は、それぞれのユーザの発言毎に、出現頻度が第1の閾値以上である単語を抽出する。以下の説明のために、第1の発言から「フォワーディング」が抽出され、第2の発言から「UPnP」が抽出されたとする。そして、プロセッサ201は、それぞれのユーザ毎に抽出した単語のうち、出現頻度の差が第2の閾値、例えば5回以下である単語の組があるか否かを判定する。例えば、「フォワーディング」の出現頻度が10回、「UPnP」の出現頻度が5回である場合、両者の差は5回である。ステップS26において、出現頻度の差が第2の閾値以下である単語の組があるときには、処理はステップS27に移行する。ステップS26において、出現頻度の差が第2の閾値以下である単語の組がないときには、プロセッサ201は、図8の処理を終了させる。この場合には、現時点では論点はないと判定される。ここで、ステップS26の判定は、出現頻度の差が第2の閾値以下であるか否かではなく、出現頻度の比が1に近いか否かによって行われてもよい。 In step S26, the processor 201 extracts words whose frequency of appearance is greater than or equal to the first threshold for each user's utterance. For the following explanation, assume that "forwarding" is extracted from the first utterance and "UPnP" is extracted from the second utterance. Then, the processor 201 determines whether or not there is a set of words in which the difference in appearance frequency is equal to or less than the second threshold value, for example, 5 times or less, among the words extracted for each user. For example, if the appearance frequency of "forwarding" is 10 times and the appearance frequency of "UPnP" is 5 times, the difference between the two is 5 times. In step S26, when there is a set of words whose difference in frequency of appearance is equal to or less than the second threshold, the process proceeds to step S27. In step S26, when there is no group of words whose difference in frequency of appearance is equal to or less than the second threshold, the processor 201 terminates the processing of FIG. In this case, it is determined that there are no points of contention at this time. Here, the determination in step S26 may be made based on whether or not the ratio of appearance frequencies is close to 1, instead of whether or not the difference in appearance frequencies is equal to or less than the second threshold.
 ステップS27において、プロセッサ201は、出現頻度の差が第2の閾値以下である単語の組を抽出する。なお、条件に合致する単語の組が複数ある場合には、プロセッサ201は、それらのすべての組を抽出してよい。そして、プロセッサ201は、抽出した単語の組のそれぞれの単語についての共起行列を共起行列データ2043から抽出する。そして、プロセッサ201は、共起行列が類似している単語の組があるか否かを判定する。共起行列が類似しているか否かは、共起行列のコサイン類似度から判定され得る。例えば、抽出した単語の組のうちの第1の単語の共起行列を表すベクトルをa、第2の単語の共起行列を表すベクトルをb、ベクトルaとベクトルbのなす角をθとしたとき、コサイン類似度は以下の式によって算出され得る。 
Figure JPOXMLDOC01-appb-M000001
ステップS27では、θが第3の閾値、例えば30度以下であるときに、ベクトルaとベクトルbとが類似している、すなわち共起行列が類似していると判定される。ステップS27において、共起行列が類似している単語の組があるときには、処理はステップS28に移行する。ステップS27において、共起行列が類似している単語の組がないときには、プロセッサ201は、図8の処理を終了させる。この場合には、現時点では論点はないと判定される。
In step S27, the processor 201 extracts word sets whose appearance frequency difference is equal to or less than the second threshold. Note that if there are multiple sets of words that match the condition, the processor 201 may extract all of those sets. Processor 201 then extracts from co-occurrence matrix data 2043 a co-occurrence matrix for each word in the extracted word set. Processor 201 then determines whether there is a set of words with similar co-occurrence matrices. Whether the co-occurrence matrices are similar can be determined from the cosine similarity of the co-occurrence matrices. For example, let a be the vector representing the co-occurrence matrix of the first word in the set of extracted words, b be the vector representing the co-occurrence matrix of the second word, and θ be the angle between vector a and vector b. Then the cosine similarity can be calculated by the following formula.
Figure JPOXMLDOC01-appb-M000001
In step S27, it is determined that vector a and vector b are similar, that is, that the co-occurrence matrices are similar when θ is equal to or less than a third threshold value, eg, 30 degrees. In step S27, when there is a set of words with similar co-occurrence matrices, the process proceeds to step S28. In step S27, when there is no set of words with similar co-occurrence matrices, the processor 201 terminates the processing of FIG. In this case, it is determined that there are no points of contention at this time.
 ステップS28において、プロセッサ201は、共起行列が類似している単語の組を抽出する。例えば、「ルータがパケットをフォワーディングしてネットワークへ転送する。」という第1の発言と「ルータがパケットをUPnPによってネットワークへ転送する。」という第2の発言とについて、単語「フォワーディング」についての共起行列と単語「UPnP」についての共起行列とは類似する。共起行列が類似している単語同士は、類義語の関係又は対義語の関係といった何等かの関係があることが多い。例えば、通信分野における単語「フォワーディング」は、受信したデータを指定した機器にそのまま転送することを意味する単語である。一方、単語「UPnP(Universal Plug and Play)」は、ネットワーク機器同士の相互自動認識方式の1つである。つまり、単語「UPnP」と単語「フォワーディング」とは、単語「UPnP」が単語「フォワーディング」の手法の1つであるという関係性を有している。このような互いに関係性を有する複数の単語が複数のユーザから頻出している場合、それらの単語がオンライン会議中の現在の論点であると推定され得る。したがって、ステップS28において、プロセッサ201は、これらの論点であると推定される複数の単語をオンライン会議用の画面に合成する。そして、プロセッサ201は、論点であると推定される複数の単語が合成されたオンライン会議の画面のデータをそれぞれの端末10に送信する。これを受けてそれぞれの端末10は、受信した画面のデータによってディスプレイ107の例えばウェブブラウザ上の表示を更新する。その後、プロセッサ201は、図8の処理を終了させる。 In step S28, the processor 201 extracts word pairs with similar co-occurrence matrices. For example, for the first statement "The router forwards the packet to the network" and the second statement "The router forwards the packet to the network by UPnP", the common usage of the word "forwarding" is The co-occurrence matrix and the co-occurrence matrix for the word "UPnP" are similar. Words with similar co-occurrence matrices often have some sort of relationship such as a synonym relationship or an antonym relationship. For example, the word "forwarding" in the field of communications means forwarding received data as is to a designated device. On the other hand, the word "UPnP (Universal Plug and Play)" is one of mutual automatic recognition methods between network devices. That is, the word "UPnP" and the word "forwarding" have the relationship that the word "UPnP" is one of the methods of the word "forwarding". If such mutually related words appear frequently from multiple users, it can be inferred that those words are the current topic of discussion during the online meeting. Therefore, at step S28, the processor 201 synthesizes a plurality of words presumed to be these points of contention into the screen for the online conference. The processor 201 then transmits to each terminal 10 the data of the online conference screen in which a plurality of words presumed to be the point of contention are synthesized. In response to this, each terminal 10 updates the display on the display 107, for example, a web browser, with the received screen data. After that, the processor 201 terminates the processing of FIG.
 図9は、論点が合成されたオンライン会議の画面の表示例を示す図である。例えば、オンライン会議の画面では、それぞれの端末10のカメラ108で撮影されたユーザの画像が表示される。図9では、3人のユーザ、すなわちユーザ1、ユーザ2、ユーザ3の画像が表示されている例が示されている。ユーザ1の画像は、オンライン会議の画面内の例えば左上の表示領域107aに表示される。同様に、ユーザ2の画像は、オンライン会議の画面内の例えば右上の表示領域107bに表示される。また同様に、ユーザ3の画像は、オンライン会議の画面内の例えば左下の表示領域107cに表示される。一方で、現在の論点は、オンライン会議の画面内の空き領域に表示され得る。図9の例では、現在の論点は、オンライン会議の画面内の例えば右下の表示領域107dに表示される。現在の論点の表示107eは、例えばタイトルと、現在の論点であると推定される単語を含む。タイトルは、例えば「現在の論点」といったタイトルである。タイトルは、適宜に決められてよい。例えば、タイトルは、「通信」等の現在の論点であると推定される単語が含まれるコーパス2042の内容を示す単語等であってよい。また、現在の論点であると推定される単語は、図9の例では、「フォワーディング」、「UPnP」である。 FIG. 9 is a diagram showing a display example of an online conference screen in which points of discussion are combined. For example, on the screen of the online conference, images of users captured by the camera 108 of each terminal 10 are displayed. FIG. 9 shows an example in which images of three users, namely user 1, user 2, and user 3, are displayed. The image of User 1 is displayed, for example, in the upper left display area 107a within the screen of the online conference. Similarly, the image of User 2 is displayed, for example, in the upper right display area 107b within the screen of the online conference. Similarly, the image of User 3 is displayed in, for example, the lower left display area 107c within the screen of the online conference. Meanwhile, the current issue may be displayed in an empty area within the screen of the online meeting. In the example of FIG. 9, the current issue is displayed, for example, in the lower right display area 107d within the screen of the online conference. Current issue display 107e includes, for example, a title and a word that is presumed to be the current issue. The title is, for example, a title such as "current issue". The title may be determined appropriately. For example, the title may be a word or the like that indicates the contents of the corpus 2042 that includes the word presumed to be the current topic of discussion, such as "communication." Also, the words presumed to be the current point of contention are "forwarding" and "UPnP" in the example of FIG.
 ここで、図9では抽出された単語が列挙されているだけであるが、例えば、抽出された単語が対立する概念であるときには、単語と単語との間に対立していることを表す「VS」の表示等が併せて表示されてもよい。このように論点の表示の仕方は特に限定されない。 Here, although only the extracted words are listed in FIG. 9, for example, when the extracted words are opposing concepts, "VS ” may be displayed together. There is no particular limitation on how to display the points at issue in this way.
 また、現在の論点の表示107eの表示位置は、特に限定されない。例えば、現在の論点の表示107eの表示位置は、オンライン会議の画面内の例えば左上隅の表示領域といった固定位置であってもよい。 Also, the display position of the display 107e of the current issue is not particularly limited. For example, the display position of the display 107e of the current issue may be a fixed position such as the display area in the upper left corner within the screen of the online conference.
 また、図8の処理では、現在の論点はオンライン会議中に逐次に更新され得る。これに伴い、図9の表示も逐次に更新され得る。この場合において、現在の論点に加えて過去の論点もそのまま表示されてもよい。この場合には、過去の論点については、その論点の表示がされた時刻も併せて表示されることが望ましい。 Also, in the process of FIG. 8, the current issue can be updated sequentially during the online meeting. Along with this, the display in FIG. 9 can also be updated sequentially. In this case, past issues may be displayed as they are in addition to the current issues. In this case, it is desirable to display the time when the issue was displayed as well as the issue in the past.
 以上説明したように実施形態によれば、オンライン会議中に端末から逐次に収集される音声が分析され、分析された音声において共起行列が類似している単語の組が現在の論点として抽出される。そして、現在の論点を表す表示がそれぞれのユーザの端末上で表示されるオンライン会議の画面に合成される。このように、実施形態では、会議の論点となっている単語が逐次にユーザの端末に表示されるので、オンライン会議中の話題が議題からそれることを防ぎ、会議が効果的に実施され得る。また、実施形態では、会議の論点となっている単語が逐次に更新され得るので、それぞれのユーザは会議の流れを追うことができる。 As described above, according to the embodiment, speech sequentially collected from terminals during an online meeting is analyzed, and a set of words having similar co-occurrence matrices in the analyzed speech is extracted as the current issue. be. A display representing the current issue is then combined with the online conference screen displayed on each user's terminal. In this way, in the embodiment, since the words that are the points of discussion in the meeting are sequentially displayed on the user's terminal, the topic during the online meeting can be prevented from deviating from the agenda, and the meeting can be held effectively. . Embodiments also allow each user to follow the flow of the meeting because the words on the topic of the meeting can be updated on an ongoing basis.
 ここで、実施形態では、一定期間内に複数のユーザの発言があったときに論点の抽出処理が実施される。これに対し、一定期間内に同一のユーザの複数の発言があったときにも論点の抽出処理が実施されてもよい。 Here, in the embodiment, the process of extracting points of contention is performed when a plurality of users make statements within a certain period of time. On the other hand, the process of extracting points of contention may be performed even when the same user makes multiple statements within a certain period of time.
 また、実施形態では、それぞれのユーザの発言における出現頻度が多い単語であって、それらの単語間の出現頻度の差が小さく、かつ、共起行列が類似している単語の組が論点として抽出される。これらの条件は、必ずしもすべてが満たされなくてもよい。例えば、単語間の出現頻度の差の条件は除外されてもよい。 In addition, in the embodiment, a set of words that appear frequently in each user's utterances, have a small difference in appearance frequency between the words, and have similar co-occurrence matrices is extracted as an issue. be done. Not all of these conditions need necessarily be met. For example, the condition of difference in frequency of occurrence between words may be excluded.
 また、実施形態では、会議サーバ20がコーパス2042の分析及び共起行列データ2043の作成を実施するとしている。これに対し、コーパス2042の分析及び共起行列データ2043の作成は、会議サーバ20とは別のサーバ等によって実施されてもよい。 Also, in the embodiment, the conference server 20 analyzes the corpus 2042 and creates the co-occurrence matrix data 2043 . On the other hand, the analysis of the corpus 2042 and the creation of the co-occurrence matrix data 2043 may be performed by a server or the like other than the conference server 20 .
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。 It should be noted that the present invention is not limited to the above-described embodiments, and can be variously modified in the implementation stage without departing from the gist of the present invention. Further, each embodiment may be implemented in combination as appropriate, in which case the combined effect can be obtained. Furthermore, various inventions are included in the above embodiments, and various inventions can be extracted by combinations selected from a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiments, if the problem can be solved and effects can be obtained, the configuration with the constituent elements deleted can be extracted as an invention.
 1…オンライン会議システム
 10,10-1,10-2,…,10-l…端末
 20…会議サーバ
 101…プロセッサ
 102…ROM
 103…RAM
 104…ストレージ
 105…入力装置
 106…通信モジュール
 107…ディスプレイ
 108…カメラ
 109…マイクロホン(マイク)
 110…スピーカ
 201…プロセッサ
 202…ROM
 203…RAM
 204…ストレージ
 205…入力装置
 206…通信モジュール
 2011…コーパス分析部
 2012…共起行列作成部
 2013…音声認識部
 2014…音声分析部
 2015…論点抽出部
 2016…表示制御部
 2041…プログラム
 2042…コーパス
 2043…共起行列データ
 NW…ネットワーク
1 online conference system 10, 10-1, 10-2, ..., 10-l terminal 20 conference server 101 processor 102 ROM
103 RAM
DESCRIPTION OF SYMBOLS 104... Storage 105... Input device 106... Communication module 107... Display 108... Camera 109... Microphone (microphone)
110... Speaker 201... Processor 202... ROM
203 RAM
204... Storage 205... Input device 206... Communication module 2011... Corpus analysis unit 2012... Co-occurrence matrix creation unit 2013... Speech recognition unit 2014... Speech analysis unit 2015... Issue extraction unit 2016... Display control unit 2041... Program 2042... Corpus 2043 … co-occurrence matrix data NW … network

Claims (7)

  1.  オンラインで接続される複数の端末によるオンライン会議のための装置であって、
     前記オンライン会議において前記端末から収集された第1の音声を第1のテキストに変換し、第2の音声を第2のテキストに変換する音声認識部と、
     前記第1のテキストと前記第2のテキストのそれぞれを単語の単位に分解する音声分析部と、
     前記第1のテキストにおいて抽出された第1の単語についての第1の共起行列と、前記第2のテキストにおいて抽出された第2の単語についての第2の共起行列とが類似しているときに、前記第1の単語と前記第2の単語とを前記オンライン会議における現在の論点として抽出する論点抽出部と、
     抽出された前記第1の単語と前記第2の単語とを前記オンライン会議のための画面に合成し、前記第1の単語と前記第2の単語とが合成された前記オンライン会議のための画面を前記端末に送信する表示制御部と、
     を具備するオンライン会議のための装置。
    A device for an online conference with a plurality of terminals connected online,
    a speech recognition unit that converts a first speech collected from the terminal in the online conference into a first text and converts a second speech into a second text;
    a speech analysis unit that decomposes each of the first text and the second text into word units;
    a first co-occurrence matrix for a first word extracted in the first text and a second co-occurrence matrix for a second word extracted in the second text are similar an issue extraction unit that sometimes extracts the first word and the second word as a current issue in the online conference;
    Synthesizing the extracted first word and the second word into a screen for the online conference, and a screen for the online conference in which the first word and the second word are synthesized. to the terminal; and
    An apparatus for online conferencing comprising:
  2.  前記論点抽出部は、前記第1のテキストから分解された単語のうちで出現頻度が第1の閾値以上の単語を前記第1の単語として抽出し、前記第2のテキストから分解された単語のうちで出現頻度が前記第1の閾値以上の単語を前記第2の単語として抽出する、
     請求項1に記載のオンライン会議のための装置。
    The issue extracting unit extracts, as the first words, words having an appearance frequency equal to or higher than a first threshold among the words decomposed from the first text, and extracts the words decomposed from the second text as the first words. Among them, words whose frequency of appearance is equal to or higher than the first threshold are extracted as the second words,
    An apparatus for online conferencing according to claim 1.
  3.  前記論点抽出部は、前記第1のテキストから分解された単語のうちで出現頻度が前記第1の閾値以上の単語と前記第2のテキストから分解された単語のうちで出現頻度が前記第1の閾値以上の単語との組のうちで、出現頻度の差が第2の閾値以下である単語の組を前記第1の単語及び前記第2の単語として抽出する、
     請求項2に記載のオンライン会議のための装置。
    The point-of-issue extraction unit extracts words having an appearance frequency equal to or higher than the first threshold among words decomposed from the first text and words having an appearance frequency equal to or greater than the first threshold among words decomposed from the second text. Among the pairs of words equal to or greater than the threshold of, a pair of words whose appearance frequency difference is equal to or less than a second threshold is extracted as the first word and the second word,
    An apparatus for online conferencing according to claim 2.
  4.  コーパスを単語の単位に分解するコーパス分析部と、
     前記コーパスから分解された単語に基づき、単語毎の共起行列を作成する共起行列作成部と、
     をさらに具備する請求項1乃至3の何れか1項に記載のオンライン会議のための装置。
    a corpus analysis unit that decomposes the corpus into word units;
    a co-occurrence matrix creation unit that creates a co-occurrence matrix for each word based on the words decomposed from the corpus;
    An apparatus for online conferencing according to any one of claims 1 to 3, further comprising:
  5.  前記第1の音声は、第1のユーザが発言した音声であり、前記第2の音声は、前記第1のユーザと異なる第2のユーザが発言した音声である、
     請求項1乃至4の何れか1項に記載のオンライン会議のための装置。
    The first sound is a sound uttered by a first user, and the second sound is a sound uttered by a second user different from the first user,
    Device for online conferencing according to any one of claims 1 to 4.
  6.  オンラインで接続される複数の端末によるオンライン会議のための装置によるオンライン会議のための方法であって、
     前記装置により、前記オンライン会議において前記端末から収集された第1の音声を第1のテキストに変換し、第2の音声を第2のテキストに変換することと、
     前記装置により、前記第1のテキストと前記第2のテキストのそれぞれを単語の単位に分解することと、
     前記装置により、前記第1のテキストにおいて抽出された第1の単語についての第1の共起行列と、前記第2のテキストにおいて抽出された第2の単語についての第2の共起行列とが類似しているときに、前記第1の単語と前記第2の単語とを前記オンライン会議における現在の論点として抽出することと、
     前記装置により、抽出された前記第1の単語と前記第2の単語とを前記オンライン会議のための画面に合成し、前記第1の単語と前記第2の単語とが合成された前記オンライン会議のための画面を前記端末に送信することと、
     を具備するオンライン会議のための方法。
    A method for an online conference with a device for an online conference with a plurality of terminals connected online, comprising:
    converting, by the device, a first speech collected from the terminal in the online conference into a first text and a second speech into a second text;
    decomposing each of the first text and the second text into word units by the device;
    The apparatus generates a first co-occurrence matrix for a first word extracted from the first text and a second co-occurrence matrix for a second word extracted from the second text. extracting the first word and the second word as a current topic in the online meeting when they are similar;
    The apparatus synthesizes the extracted first word and the second word into a screen for the online conference, and the online conference in which the first word and the second word are synthesized. transmitting to the terminal a screen for
    A method for online conferencing comprising:
  7.  プロセッサを請求項1乃至5の何れか1項に記載のオンライン会議のための装置における前記音声認識部、前記音声分析部、前記論点抽出部及び前記表示制御部として機能させるためのオンライン会議のためのプログラム。 An online conference for causing a processor to function as the speech recognition unit, the speech analysis unit, the issue extraction unit, and the display control unit in the apparatus for online conference according to any one of claims 1 to 5. program.
PCT/JP2021/022335 2021-06-11 2021-06-11 Device, method, and program for online conference WO2022259531A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/022335 WO2022259531A1 (en) 2021-06-11 2021-06-11 Device, method, and program for online conference

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/022335 WO2022259531A1 (en) 2021-06-11 2021-06-11 Device, method, and program for online conference

Publications (1)

Publication Number Publication Date
WO2022259531A1 true WO2022259531A1 (en) 2022-12-15

Family

ID=84424505

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/022335 WO2022259531A1 (en) 2021-06-11 2021-06-11 Device, method, and program for online conference

Country Status (1)

Country Link
WO (1) WO2022259531A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017204023A (en) * 2016-05-09 2017-11-16 トヨタ自動車株式会社 Conversation processing device
JP2018073332A (en) * 2016-11-04 2018-05-10 株式会社イトーキ Conference analysis device, conference analysis method and program
JP2019124897A (en) * 2018-01-19 2019-07-25 富士ゼロックス株式会社 Speech analysis apparatus, speech analysis system, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017204023A (en) * 2016-05-09 2017-11-16 トヨタ自動車株式会社 Conversation processing device
JP2018073332A (en) * 2016-11-04 2018-05-10 株式会社イトーキ Conference analysis device, conference analysis method and program
JP2019124897A (en) * 2018-01-19 2019-07-25 富士ゼロックス株式会社 Speech analysis apparatus, speech analysis system, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YI, FENG ET AL.: "Topic Modeling for short Texts via Word Embedding and Document Correlation", IEEE ACCESS, 11 February 2020 (2020-02-11), pages 30692 - 30705, XP011772690, DOI: 10.1109/ACCESS.2020.2973207 *

Similar Documents

Publication Publication Date Title
US6377925B1 (en) Electronic translator for assisting communications
US11024286B2 (en) Spoken dialog system, spoken dialog device, user terminal, and spoken dialog method, retrieving past dialog for new participant
JP5123591B2 (en) Idea support device, idea support system, idea support program, and idea support method
US20110055227A1 (en) Conference relay apparatus and conference system
US20090248392A1 (en) Facilitating language learning during instant messaging sessions through simultaneous presentation of an original instant message and a translated version
JP2009540384A (en) Method and system for a sign language graphical interpreter
JP2001502828A (en) Method and apparatus for translating between languages
WO2020189441A1 (en) Information processing device, information processing method, and program
US20150154960A1 (en) System and associated methodology for selecting meeting users based on speech
JP6432177B2 (en) Interactive communication system, terminal device and program
KR102104294B1 (en) Sign language video chatbot application stored on computer-readable storage media
JP2011065467A (en) Conference relay device and computer program
CN116319631A (en) Voice forwarding in automatic chat
Lavie et al. Architecture and design considerations in nespole!: a speech translation system for e-commerce applications
Vichyaloetsiri et al. Web service framework to translate text into sign language
JP4441782B2 (en) Information presentation method and information presentation apparatus
JP2023549634A (en) Smart query buffering mechanism
JP2003216564A (en) Communication supporting method, communication server using therefor and communication supporting system
WO2022259531A1 (en) Device, method, and program for online conference
US20230326369A1 (en) Method and apparatus for generating sign language video, computer device, and storage medium
KR20190074508A (en) Method for crowdsourcing data of chat model for chatbot
EP4322090A1 (en) Information processing device and information processing method
Ramesh et al. ‘Beach’to ‘Bitch’: Inadvertent Unsafe Transcription of Kids’ Content on YouTube
JP7365791B2 (en) Utterance generation device, utterance generation method, and utterance generation program
JP2016024378A (en) Information processor, control method and program thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21945203

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE